首页 资讯 财经 股市 证券 金融 投评 English
您现在所在的位置:首页 / 上市公司 / 正文
思必驰俞凯出席2025顶科论坛,提出构建可靠任务型AI新范式
来源:
2025-11-10

当前,以人工智能为代表的前沿技术正推动一场新的范式革命,传统的学科壁垒不断被打破,跨学科融合与边界突破为复杂问题提供了新的解决方案。

10月24日,2025世界顶尖科学家论坛之国际工程智能大会成功召开,大会以“工程智能:面向未来工业体系的智能变革”为主题,全球顶尖学者与产业专家齐聚,共同勾勒由人工智能深度驱动的未来工业新图景。

上海交通大学特聘教授、思必驰联合创始人、首席科学家俞凯应邀出席,发表了《Towards Reliable Task-oriented LLM Agents》主题演讲,深刻剖析了当前大语言模型智能体的核心痛点——“幻觉”问题,创新性的提出了“不确定性感知的可靠性对齐”新范式,为构建真正可靠、可用的人工智能指明了方向。

从“输出错误”到“行为意外”:智能体时代的幻觉新挑战

演讲伊始,俞凯首先厘清了“智能体”幻觉与传统大语言模型幻觉的本质区别。他指出,传统大语言模型的幻觉主要表现为“事实性错误”,而当大语言模型进化成能够主动执行、调用工具/与环境交互的“智能体”时,其幻觉则升维为“与人类合理预期不一致的行为”。

“例如,当你让智能体‘9点提醒我一下’,它可能并未理解你的意图是设定一个‘提醒’,而是机械地设定了晚上9点的闹钟,甚至回答‘我不能设定闹钟’你可以尝试......”。俞凯表示,这种行为上的偏差,在任务执行中可能带来比事实错误更严重的后果。

他进一步指出,幻觉的根源在于模型内外的“不确定性”。外部不确定性源于训练数据的噪声、缺失或过时信息;内部不确定性则源于神经网络模型的概率生成特性。为解决这些不确定性造成的幻觉问题,产业界形成了两种主流范式:一是通过引入搜索、数学/代码、数据库等工具增强的方式来扩展知识边界;二是通过评估模型输出的置信度,并设定阈值来拒绝低置信度的回答。

然而,这两种范式均面临严峻挑战:工具增强的方式虽扩展了知识,却引发了“工具幻觉”——包括工具的种类、调用时机、格式、内容等幻觉。即使增加训练数据能提升任务成功率,也无法消除“工具幻觉”的发生;而“置信度评估”范式则遭遇了更为棘手的“妄想”问题,即模型在输出完全错误答案时,却表现出极高的置信度,这使得基于阈值的拒答机制近乎失效。

CopyRight@2010-2025 中金网 All Right Reserved

工信备案号:沪ICP备 2021001869号