OpenAI推出高难度基准测试BrowseComp，挑战AI上网搜索能力

Blockchain News 发布于 2025-4-11 07:54 阅读：49

4月11日消息，OpenAI已开源全新基准测试BrowseComp，用于评估AI代理在互联网上查找难以获取信息的能力。该测试包含1266个极具挑战性的题目，设计初衷为模拟AI在复杂信息网络中的“在线寻宝”，强调答案难找但易验证。测试中问题涵盖影视、科技、历史等多个领域，难度显著高于现有如SimpleQA等测试。
据AIGC开放社区称，这个测试基准非常有难度，连OpenAI自己的GPT-4o、GPT-4.5准确率只有0.6%和0.9%几乎为0，即便使用带浏览器功能的GPT-4o也只有1.9%。但OpenAI最新发布的Agent模型Deep Research准确率高达51.5%。

加密货币区块链技术区块链新闻市场趋势应用案例技术创新投资热点政策法规数据解读行业动态

支持创作

如果觉得文章对您有用，请随意打赏。
你的支持是我继续创作的动力！

微信扫一扫

支付宝扫一扫

欢迎来到区块链新闻站

OpenAI推出高难度基准测试BrowseComp，挑战AI上网搜索能力

📚 推荐阅读