公司新闻

“人类最终测验”基准测试宣布:顶级 AI 体系表

作者: [db:作者]   点击次数:    发布时间: 2025-01-26 08:33

IT之家 1 月 24 日新闻,非营利构造“人工智能保险核心”(CAIS)与供给数据标注跟 AI 开辟效劳的公司 Scale AI 结合推出了一个名为“人类最终测验”(Humanity s Last Exam)的新型基准测试,旨在评价前沿 AI 体系的综合才能。这一测试因其极高的难度惹起存眷。据IT之家懂得,该基准测试包括来自 50 个国度 / 地域 500 多个机构的近 1,000 逻辑学科专家撰稿人提出成绩,这些专家重要由教学、研讨职员跟研讨生学位持有者构成,涵盖数学、人文学科跟天然迷信等多个范畴。为增添测试的挑衅性,标题情势多样,包含联合图表跟图像的庞杂题型。这种计划旨在片面考核 AI 体系在跨学科常识跟多模态信息处置方面的才能。在开端研讨中,全部公然可用的旗舰 AI 体系在该测试中的答复正确率均未超越 10%。这一成果标明,只管以后 AI 技巧在特定范畴已获得明显停顿,但在应答庞杂、综合性的成绩时仍存在显明短板。CAIS 跟 Scale AI 表现,他们打算将这一基准测试向研讨社区开放,以便研讨职员可能“深刻发掘差别”并评价新开辟的 AI 模子。
上一篇:英诺激光:预计2神仙道24年事迹扭亏为盈 下一篇:没有了