公司新闻

“人类最终测验”基准测试宣布：顶级 AI 体系表

作者: [db:作者] 点击次数: 发布时间: 2025-01-26 08:33

IT之家 1 月 24 日新闻，非营利构造“人工智能保险核心”（CAIS）与供给数据标注跟 AI 开辟效劳的公司 Scale AI 结合推出了一个名为“人类最终测验”（Humanity s Last Exam）的新型基准测试，旨在评价前沿 AI 体系的综合才能。这一测试因其极高的难度惹起存眷。据IT之家懂得，该基准测试包括来自 50 个国度 / 地域 500 多个机构的近 1,000 逻辑学科专家撰稿人提出成绩，这些专家重要由教学、研讨职员跟研讨生学位持有者构成，涵盖数学、人文学科跟天然迷信等多个范畴。为增添测试的挑衅性，标题情势多样，包含联合图表跟图像的庞杂题型。这种计划旨在片面考核 AI 体系在跨学科常识跟多模态信息处置方面的才能。在开端研讨中，全部公然可用的旗舰 AI 体系在该测试中的答复正确率均未超越 10%。这一成果标明，只管以后 AI 技巧在特定范畴已获得明显停顿，但在应答庞杂、综合性的成绩时仍存在显明短板。CAIS 跟 Scale AI 表现，他们打算将这一基准测试向研讨社区开放，以便研讨职员可能“深刻发掘差别”并评价新开辟的 AI 模子。

上一篇：英诺激光：预计2神仙道24年事迹扭亏为盈下一篇：没有了

公司新闻

“人类最终测验”基准测试宣布：顶级 AI 体系表

相关新闻

新闻中心

新闻中心

九州BET9