OpenAI 新推理模型幻觉率和错误率激增，行业难题待解

大浪淘沙 · 发表于 2025-4-19 13:35:06

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

×

OpenAI最新推理模型o3和o4-mini在编码、数学任务中表现提升，但幻觉率显著高于前代。内部测试显示，o3在人物知识基准中33%回答虚构，o4-mini达48%。第三方测试指出o3编造代码执行细节，用户反馈其生成链接无效。OpenAI称模型因“输出更多主张”导致准确与错误并存，原因未明。

行业转向推理模型以降低训练成本，但推理能力与幻觉的正相关性成新挑战。结合网络搜索或提升准确性（如GPT-4o搜索版准确率90%），但需权衡隐私风险。

TechCrunch (https://techcrunch.com/2025/04/1 ... s-hallucinate-more/)

ECCFKV · 发表于 2025-4-19 13:48:55

感谢分享

契阔xyz · 发表于 2025-4-19 13:51:52

感谢分享

wusuoshishi · 发表于 2025-4-19 14:48:33

谢谢分享

zhangyuge · 发表于 2025-4-19 15:37:19

感谢分享

小刘不在熬夜了 · 发表于 2025-4-19 15:51:52

感谢分享

狼鹰 · 发表于 2025-4-19 18:57:53

感谢分享

独孤梵听 · 发表于 2025-4-19 23:35:55

感谢分享

读者202411 · 发表于 2025-4-20 06:47:00

感谢分享

风中追枫 · 发表于 2025-4-24 21:55:43

感谢分享

[最新资讯] OpenAI 新推理模型幻觉率和错误率激增，行业难题待解

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

版权声明

电梯直达 评论10

回复

浏览过的版块

帅哥

龙的传人

版主

活跃之星

寅虎

卯兔

常住居民

在线之星

在线之星

申猴

子鼠

戌狗

酉鸡

爱心之星

乔巴勋章

灌水之星

美女

源大侠

未羊

最佳新人

抠搜之星

壹万会员

摩羯座

国宝熊猫

海贼的船

舞动江湖

嘻嘻哈哈

滑稽勋章

萌萌哒哒

马上有钱

锄荡令

辰龙

亥猪

新春祝福

冬日之星

发财

懒人之星

科普之星

書友之星

遇见有你

丑牛

巳蛇

午马

白羊座

处女座

金牛座

巨蟹座

狮子座

双鱼座

双子座

水瓶座

天秤座

天蝎座

射手座

在线之星

关于我们

服务支持

ysqbbs@outlook.com

电梯直达
评论10