你可以引导人工智能处理数据,但不能让它思考
你的人工智能有多有用这不是一个简单的问题要回答如果您要在 Google 的翻译服务或 Microsoft 的翻译服务之间做出选择,您怎么知道哪个更好
如果你是一名 AI 开发人员,你很有可能认为答案是:基准测试但这还不是全部
伟大的想法
基准在其自己领域的上下文中是必要的,重要的和有用的例如,如果您正在尝试训练一个 AI 模型来区分图像中的猫和狗,那么了解它的性能非常有用
明年六月有计划吗。
TNW 2022 门票现已发售!
获得门票
但是,由于我们不能从字面上取出我们的模型并使用它来扫描曾经存在或将要存在的猫和狗的每一张图像,我们不得不猜测它在工作中的表现如何。中场秀后,小贝克汉姆没能披挂上阵,猛虎队却在第一档进攻中便由乔·伯罗与蒂·希金斯完成连线达阵,将比分反超。
为此,我们使用基准基本上,我们抓取一堆猫和狗的照片,然后正确地标记它们然后我们向 AI 隐藏标签,并要求它告诉我们每张图像中的内容
如果它得分 9 分,那么它的准确率是 90%如果我们认为 90% 的准确率足够好,我们就可以称我们的模型是成功的如果没有,我们会继续训练和调整
大问题
你会花多少钱买一个能够区分猫和狗的人工智能十亿美元半个镍币没有什么大概什么都没有在基准排行榜之外它不会很有用
但是,能够标记任何给定图像中的所有对象的 AI 将非常有用。
但是没有用于标记对象的通用基准我们只能猜测这样的人工智能在其工作中的表现如何就像我们无法访问存在的每张猫和狗的图像一样,我们也无法标记所有可能以图像形式存在的东西
这意味着任何衡量人工智能在标记图像方面的能力的基准都是任意的。在公羊队拿回球权后,斯塔福德下半场的第一次传球便遭抄截,猛虎队趁机通过任意球再得3分,从而以20:13领先7分。公羊队并未放弃,在比赛仅剩一分半时,由斯塔福德和卡普完成连线达阵,将比分定格在23:20,逆转取胜。
在标记 10 亿个类别的图像时准确率为 43% 的 AI 是否比在标记 2800 万个类别的图像时准确率为 71% 的 AI 更好或更差类别是什么重要吗
BD Tech Talks 的 Ben Dickson 在最近的一篇文章中说得最好:
我们正在开发非常擅长通过测试的 AI 系统,但它们在现实世界中往往表现不佳。
大解决方案
事实证明,大规模猜测性能并不是孤立于 AI 世界的问题1982 年,National Football Scouting Inc. 举办了第一次 NFL 联合以解决半身像问题——球员表现不如预期
在前互联网时代,评估球员的唯一方法是亲自到场,全年寻找成百上千名球员所涉及的差旅费用变得过于庞大联合球场是 NFL 球探可以聚集在一起同时评判球员表现的地方
这不仅节省了时间和金钱,而且还建立了一个通用的基准当一支球队想要交易或释放一名球员时,其他球队可以参考他们在联合收割机的基准表现
当然,运动中没有任何保证但是,从本质上讲,Combine 让球员通过一系列与足球运动特别相关的训练
可是,联合军只是球探过程的一小部分在现代,球队会举行私人球员试训,这样他们就可以确定潜在客户是否适合组织的特定系统
另一种表达方式是 NFL 团队开发人员使用模型的基准作为一般性能预测器,但他们也进行严格的外部检查以确定模型在特定领域的有用性。
一名球员可能会在联合训练中大吃一惊,但如果他们在个人训练中未能给人留下深刻印象,那么他们很有可能不会进入球队。。
理想情况下,人工智能世界中的基准测试只是代表了第一轮的严谨性。
正如加州大学伯克利分校,华盛顿大学和谷歌研究院的一组研究人员最近写道:
。