![图片[1]-你的AI到底靠不靠谱?港大最新测评:GPT-5拔得头筹,国产模型中豆包意外领跑](https://sr.lovedyt.cn/wp-content/uploads/2025/09/wxsync-2025-09-0ad63015f80fce48053fe7b24d84dce2.png)
![图片[2]-你的AI到底靠不靠谱?港大最新测评:GPT-5拔得头筹,国产模型中豆包意外领跑](https://sr.lovedyt.cn/wp-content/uploads/2025/09/wxsync-2025-09-52b2f0a2a850826471fc90b7d299fae6.png)
![图片[3]-你的AI到底靠不靠谱?港大最新测评:GPT-5拔得头筹,国产模型中豆包意外领跑](https://sr.lovedyt.cn/wp-content/uploads/2025/09/wxsync-2025-09-93818c0fec489fb25d1cf00a1b176f29.png)
![图片[4]-你的AI到底靠不靠谱?港大最新测评:GPT-5拔得头筹,国产模型中豆包意外领跑](https://sr.lovedyt.cn/wp-content/uploads/2025/09/wxsync-2025-09-983a7f21cba6876c874ab85a2b29e697.png)
![图片[5]-你的AI到底靠不靠谱?港大最新测评:GPT-5拔得头筹,国产模型中豆包意外领跑](https://sr.lovedyt.cn/wp-content/uploads/2025/09/wxsync-2025-09-a7978475bcb3e23c1618b25468ab9e60.png)
大语言模型幻觉控制能力排行榜,图源AIEL
✨ 顶级模型:谁站上第一梯队?
▫️GPT-5(思考模式和自动模式)包揽冠亚军,说明OpenAI在幻觉控制维度的领先优势;
▫️Claude 4 Opus系列紧随其后,位列第三、四名;
▫️Grok 4 模型也表现不错,稳居前五。
💚 国产模型:谁在领跑?
▫️字节跳动的豆包1.5 Pro系列表现最佳,拿到第7和第8,领跑国产大模型;
▫️其他国产模型,如文心一言、通义千问、Kimi、DeepSeek、混元等在整体排名居中或靠后。
▫️报告指出:尽管豆包领先,但国产模型与国际顶级水平仍有差距。并且,所有模型现阶段最普遍的问题,依然是——“编造事实”🤯
![图片[6]-你的AI到底靠不靠谱?港大最新测评:GPT-5拔得头筹,国产模型中豆包意外领跑](https://sr.lovedyt.cn/wp-content/uploads/2025/09/wxsync-2025-09-48293a8d2398c0617794edcc66af8450.png)
AI幻觉为何会产生?
🤔那么,到底什么是AI幻觉?
![图片[7]-你的AI到底靠不靠谱?港大最新测评:GPT-5拔得头筹,国产模型中豆包意外领跑](https://sr.lovedyt.cn/wp-content/uploads/2025/09/wxsync-2025-09-2fedc4fc9df0736dbefa3452e3714229.jpg)
两种幻觉类型,图源AIEL
报告把幻觉分为两类:
▫️一类是事实性幻觉,指模型输出与客观事实不符,比如提供错误信息、虚构不存在的内容等等;
部分测试题目示例,图源AIEL
⚠️ 为什么幻觉控制很重要?
由于AI“瞎编”的毛病太常见,要是把它的答案直接往金融、法律、医学、研究等领域生搬硬套,麻烦肯定少不了。
再者AI 产出的虚假内容会进一步污染信息源,形成“垃圾进,垃圾出”(Garbage In, Garbage Out)的恶性循环。
将幻觉控制在合理范围内,堪称大模型可信度的基石和底线。
![图片[10]-你的AI到底靠不靠谱?港大最新测评:GPT-5拔得头筹,国产模型中豆包意外领跑](https://sr.lovedyt.cn/wp-content/uploads/2025/09/wxsync-2025-09-05fb3291fc0b7338c3cfc129866401d0.png)
![图片[11]-你的AI到底靠不靠谱?港大最新测评:GPT-5拔得头筹,国产模型中豆包意外领跑](https://sr.lovedyt.cn/wp-content/uploads/2025/09/wxsync-2025-09-a4be83c298664a63fc8f9d5551d3e407.png)
新华社报道AI造假已经真实的影响到人们的工作与生活,图源澎湃新闻
一个有趣发现:所有参评模型都是“指令达人”,却不算“求真高手”。所以你的指令得详细且准确,并且要学会合理追问AI。
好消息是:不少模型切换到“思考模式”后,准确性比“自动模式”强不少。建议大家以后多尝试“思考模式”~
另外注意:不同模型控幻觉的水平天差地别。若你需要更稳妥的答案,记得优先选择排名靠前的模型。
最后,当面对AI给出的答案时,我们要保有怀疑态度和批判思维,尽可能验证信源。毕竟AI不是万能的,古人也说了:“尽信书不如无书”,这句话套用到今天则是“尽信AI不如无AI”。
![图片[12]-你的AI到底靠不靠谱?港大最新测评:GPT-5拔得头筹,国产模型中豆包意外领跑](https://sr.lovedyt.cn/wp-content/uploads/2025/09/wxsync-2025-09-577191655318739446cbc774ec8d39da.jpg)
对于AI的认知应更务实,它是一个强大的工具但可能给出有偏见、不准确的输出,图源AI For Everyone
🐳 关于DeepSeek的挽尊
补充一细节,报告仅测试了DS的V3和R1两个版本,结果显示V3在幻觉控制方面更具优势。
但测评结论并非对DS的全面差评——因为DS在编程、数学等领域依然表现出色,只是测评主题不涉及这些维度而已。
![图片[13]-你的AI到底靠不靠谱?港大最新测评:GPT-5拔得头筹,国产模型中豆包意外领跑](https://sr.lovedyt.cn/wp-content/uploads/2025/09/wxsync-2025-09-438372ab8d36caf7f4c54f43f230bb91.png)
最后,你在使用AI工具的过程中是否遇到“一本正经地胡说八道”?
欢迎在评论区分享你的经历或看法💬
![图片[14]-你的AI到底靠不靠谱?港大最新测评:GPT-5拔得头筹,国产模型中豆包意外领跑](https://sr.lovedyt.cn/wp-content/uploads/2025/09/wxsync-2025-09-a8b7cfe8d306f3a1657e3a4643c20b4e.png)
本篇文章来源于微信公众号: 简闻趣记
1 本站一切资源不代表本站立场,并不代表本站赞同其观点和对其真实性负责。
2 本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报
3 本站资源大多存储在云盘,如发现链接失效,请联系我们第一时间更新。


![图片[8]-你的AI到底靠不靠谱?港大最新测评:GPT-5拔得头筹,国产模型中豆包意外领跑](https://sr.lovedyt.cn/wp-content/uploads/2025/09/wxsync-2025-09-41688b34f8e81c7ed57d734aeab31331.png)
![图片[9]-你的AI到底靠不靠谱?港大最新测评:GPT-5拔得头筹,国产模型中豆包意外领跑](https://sr.lovedyt.cn/wp-content/uploads/2025/09/wxsync-2025-09-883866ede6e7fdb4f1d1ebb55ce46759.png)










暂无评论内容