OpenAI推出高难度基准测试BrowseComp,挑战AI上网搜索能力
Blockchain News 发布于 阅读:18
4月11日消息,OpenAI已开源全新基准测试BrowseComp,用于评估AI代理在互联网上查找难以获取信息的能力。该测试包含1266个极具挑战性的题目,设计初衷为模拟AI在复杂信息网络中的“在线寻宝”,强调答案难找但易验证。测试中问题涵盖影视、科技、历史等多个领域,难度显著高于现有如SimpleQA等测试。
据AIGC开放社区称,这个测试基准非常有难度,连OpenAI自己的GPT-4o、GPT-4.5准确率只有0.6%和0.9%几乎为0,即便使用带浏览器功能的GPT-4o也只有1.9%。但OpenAI最新发布的Agent模型Deep Research准确率高达51.5%。
加密货币 区块链技术 区块链新闻 市场趋势 应用案例 技术创新 投资热点 政策法规 数据解读 行业动态
支持创作
如果觉得文章对您有用,请随意打赏。
你的支持是我继续创作的动力!

微信扫一扫

支付宝扫一扫
版权所有:区块链新闻-Blockchain News
文章标题:OpenAI推出高难度基准测试BrowseComp,挑战AI上网搜索能力
文章链接:https://52em.com/461.html
本站文章均为原创,未经授权请勿用于任何商业用途
文章标题:OpenAI推出高难度基准测试BrowseComp,挑战AI上网搜索能力
文章链接:https://52em.com/461.html
本站文章均为原创,未经授权请勿用于任何商业用途