你的AI到底靠不靠谱?港大最新测评:GPT-5拔得头筹,国产模型中豆包意外领跑

📚 37款大模型幻觉测评榜单
 
图片[1]-你的AI到底靠不靠谱?港大最新测评:GPT-5拔得头筹,国产模型中豆包意外领跑
港大经管学院人工智能评测实验室专注于探索人工智能模型的能力评估与应用
 
近日,香港大学经管学院人工智能评测实验室(AIEL)发布了一份包括37个中美主流大模型的AI幻觉测评报告。报告涵盖了20个通用模型、15个推理模型以及2个一体化系统。
为了评估AI们的“幻觉”程度,港大团队设计了多种题型,例如信息检索、虚假事实识别、矛盾前提识别、指令一致性评估等,并设计了详细的评分标准。
图片[2]-你的AI到底靠不靠谱?港大最新测评:GPT-5拔得头筹,国产模型中豆包意外领跑
主流AI大模型
 
👀 先说下结论

图片[3]-你的AI到底靠不靠谱?港大最新测评:GPT-5拔得头筹,国产模型中豆包意外领跑
AI幻觉控制能力梯队,图源AIEL


基于报告在中文语境下,大模型幻觉控制排名如下👇

 
图片[4]-你的AI到底靠不靠谱?港大最新测评:GPT-5拔得头筹,国产模型中豆包意外领跑
图片[5]-你的AI到底靠不靠谱?港大最新测评:GPT-5拔得头筹,国产模型中豆包意外领跑

大语言模型幻觉控制能力排行榜,图源AIEL

 

✨ 顶级模型:谁站上第一梯队?

 

▫️GPT-5(思考模式和自动模式)包揽冠亚军,说明OpenAI在幻觉控制维度的领先优势;

▫️Claude 4 Opus系列紧随其后,位列第三、四名;

▫️Grok 4 模型也表现不错,稳居前五。

💚 国产模型:谁在领跑?

▫️字节跳动的豆包1.5 Pro系列表现最佳,拿到第7和第8,领跑国产大模型;

▫️其他国产模型,如文心一言、通义千问、Kimi、DeepSeek、混元等在整体排名居中或靠后。

▫️报告指出:尽管豆包领先,但国产模型与国际顶级水平仍有差距。并且,所有模型现阶段最普遍的问题,依然是——“编造事实”🤯

 

图片[6]-你的AI到底靠不靠谱?港大最新测评:GPT-5拔得头筹,国产模型中豆包意外领跑

AI幻觉为何会产生?

 

🤔那么,到底什么是AI幻觉?

图片[7]-你的AI到底靠不靠谱?港大最新测评:GPT-5拔得头筹,国产模型中豆包意外领跑

两种幻觉类型,图源AIEL

报告把幻觉分为两类:

▫️一类是事实性幻觉,指模型输出与客观事实不符,比如提供错误信息、虚构不存在的内容等等;

▫️另一类是忠实性幻觉,指输出未能严格遵循用户指令,或出现内容矛盾、遗漏关键要求、过度引申、格式错误等问题。

图片[8]-你的AI到底靠不靠谱?港大最新测评:GPT-5拔得头筹,国产模型中豆包意外领跑
图片[9]-你的AI到底靠不靠谱?港大最新测评:GPT-5拔得头筹,国产模型中豆包意外领跑

部分测试题目示例,图源AIEL

⚠️ 为什么幻觉控制很重要?

 

由于AI“瞎编”的毛病太常见,要是把它的答案直接往金融、法律、医学、研究等领域生搬硬套,麻烦肯定少不了。

再者AI 产出的虚假内容会进一步污染信息源,形成“垃圾进,垃圾出”(Garbage In, Garbage Out)的恶性循环。

将幻觉控制在合理范围内,堪称大模型可信度的基石和底线。

图片[10]-你的AI到底靠不靠谱?港大最新测评:GPT-5拔得头筹,国产模型中豆包意外领跑
图片[11]-你的AI到底靠不靠谱?港大最新测评:GPT-5拔得头筹,国产模型中豆包意外领跑

新华社报道AI造假已经真实的影响到人们的工作与生活,图源澎湃新闻

💡 实用建议:怎样用AI更靠谱?
 

一个有趣发现:所有参评模型都是“指令达人”,却不算“求真高手”。所以你的指令得详细且准确,并且要学会合理追问AI。

好消息是:不少模型切换到“思考模式”后,准确性比“自动模式”强不少。建议大家以后多尝试“思考模式”~

另外注意:不同模型控幻觉的水平天差地别。若你需要更稳妥的答案,记得优先选择排名靠前的模型。

最后,当面对AI给出的答案时,我们要保有怀疑态度和批判思维,尽可能验证信源。毕竟AI不是万能的,古人也说了:“尽信书不如无书”,这句话套用到今天则“尽信AI不如无AI”

图片[12]-你的AI到底靠不靠谱?港大最新测评:GPT-5拔得头筹,国产模型中豆包意外领跑

对于AI的认知应更务实,它是一个强大的工具但可能给出有偏见、不准确的输出,图源AI For Everyone

 

🐳 关于DeepSeek的挽尊

 

补充一细节,报告仅测试了DS的V3和R1两个版本,结果显示V3在幻觉控制方面更具优势。

但测评结论并非对DS的全面差评——因为DS在编程、数学等领域依然表现出色,只是测评主题不涉及这些维度而已。

🔮 未来,AI会变得更好吗?
 
众所周知,大模型的迭代是日新月异的。今天的测评结果,反映的是过去某个时间点的幻觉控制能力。
或许在不久的将来,幻觉控制技术将获得重要突破,可以有效杜绝AI的“信口开河”。真心期待那一天早点到来😺
 
图片[13]-你的AI到底靠不靠谱?港大最新测评:GPT-5拔得头筹,国产模型中豆包意外领跑
人与人工智能,图源EmmaYR

最后,你在使用AI工具的过程中是否遇到“一本正经地胡说八道”?

欢迎在评论区分享你的经历或看法💬

 

END
图片[14]-你的AI到底靠不靠谱?港大最新测评:GPT-5拔得头筹,国产模型中豆包意外领跑

 

参考文献Ranking of Large Language Models’ Hallucination Control Ability in Chinese-language Contexts / 大语言模型幻觉控制能力排行榜by Zhenhui(Jack) Jiang1, Yi Lu1, Yifan Wu1, Haozhe Xu2, Zhengyu Wu1, Jiaxin Li1 / 蒋镇辉1,鲁艺1,吴轶凡1,徐昊哲2,武正昱1,李佳欣1

1香港大学经管学院,2西安交通大学管理学院
 

本篇文章来源于微信公众号: 简闻趣记

© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容