首页 >> >> 观点 >> 正文
从玩具、工具到“同事”再到“AI爱因斯坦”,我们离通用人工智能有多远?
  • 文汇报
  • 2024年7月16日 09:50

工联网消息(IItime) 如今,通用人工智能(AGI)已成科学界和产业界聚焦的关键词之一,仅仅是几年前,还有不少人认为至少要10到50年才能实现AGI,甚至有人认为,永远不可能实现。时至今日,后者已是少之又少。但相对于大众对于这一波技术变化的兴奋,不少AI(人工智能)领域的一线学者和产业领袖恰恰觉得,当下的AI要发展到AGI还有不少路要走。

在复旦大学浩清特聘教授、上海科学智能研究院(以下简称“上智院”)院长、可信大模型公司“无限光年”创始人漆远看来,“通用人工智能的最高体现之一是发现复杂世界的未知规律,简言之就是应该是一位‘AI爱因斯坦’,这需要我们打造结合快思考的‘黑盒’概率预测和慢思考的‘白盒’逻辑推理,打造‘灰盒’可信大模型;并且通过科技和产业的深度融合,推进基础研究、人才培养、成果落地,打造科学智能创新生态。”

就在不久前落幕的2024世界人工智能大会(WAIC)暨人工智能全球治理高级别会议,上智院成功举办了“人工智能:科研范式变革与产业发展”主题论坛,这也是这家新型研发机构首次亮相WAIC。上智院可以说是上海在探索创新驱动的“1+1+N”科学智能生态模式方面的典范,即由上智院这个“1”作为生态系统的中心和枢纽,负责整体战略规划、资源整合和关键技术的研发与创新,联合另一个“1”复旦大学,携手多家高校、科研机构、科技企业、创新团队和投资机构这些“N”,共同推动科学研究、人才培养、科技成果转化以及产业的创新、升级。

AGI的标准应该是打造“AI爱因斯坦”

从技术视角而言,越来越多参数的大模型,会走向通用人工智能吗?时至今日,无论是从AI技术本身的角度还是从能耗的角度而言,基于Transformer自回归架构的大模型虽然还有红利,但并不足以通往通用人工智能。人工智能需要发展新的“灰盒”可信大模型。这是漆远在学界、产业界多年实战的经验总结。

十年前,怀揣着“让人工智能有用”的想法,漆远带领团队把阿里巴巴的核心机器学习系统第一次从200万参数提升百倍到几亿参数,取得了大规模的业务效果提升,彰显出数据、算法和工程能力的集成变革。这正是今天人工智能圈津津乐道的Scaling law的体现。

漆远回忆,团队当时的确尝到了Scaling Law的甜头:模型参数百倍的增加之后,整体效果得到了突飞猛进的提升。“但是现在我却想:我们当年做AI模型为什么没有做到更大的程度?为什么当年再往前走一步的时候,我却停在了这里?”他说,“大模型上亿参数还是不够,要走向百亿、千亿,甚至是万亿。当时不论是学术界还是机构缺的都是算力,而且即使在工业界,要达到如此高的算力,也需要非常高的成本,更不用说学界。”

之所以说AGI的标准应该是打造“AI爱因斯坦”,漆远解释称,就是要有效而聪明。首先,爱因斯坦当年通过几个关键的数据点,看到了“20世纪初物理学的乌云”,AGI也应该能发现理解复杂世界的未知规律。但目前的大模型无一能够做到,虽说视觉大模型SORA对物理世界的模拟达到了前所未有的程度,然而SORA依旧是基于对二维世界的模拟来构建三维世界,离透彻理解物理世界还有很大距离。其次是功耗,人脑的功率大概是15瓦,而一张GPU的峰值功率就是几百瓦,更不用说支持训练通用大模型需要千卡或者万卡集群。就当下而言,如果持续沿用现有的架构,将需要天量的功耗,很难达成有效且聪明这个目标。

“AI爱因斯坦”也是AI for Science(注:科学智能,下文简称AI4S)的关键目标。科学智能在加速求解已知的物理方程中已经发挥重要作用,但是科学智能更需要结合已知规则与数据,减少对数据和算力的严重依赖,提升推理预测的精准性,并根据数据来调整知识规则,提出崭新的科学理论。这也与漆远在复旦大学和上智院工作的长远目标——“用人工智能来理解复杂世界,发现不知道的规律”不谋而合。

“灰盒”可信垂直领域大模型赋能千行百业

大模型从AI工具落地新质生产力,亟需解决哪些问题?在漆远来看,大模型行业面临诸多共性挑战,使得技术、产品与市场需求难以匹配。

“目前大模型落地,我觉得最大的问题就是:猛一看好像有用,真的一用又不行。”漆远解释称,今天大语言模型的核心简单来说就是预测下一个词,根据过去多个词来预测下一个词,但是这并不适用于多步骤的严谨推理。“语言是交流的工具,而不是思维的工具。”近期,麻省理工学院(MIT)等机构发表在顶级学术期刊《自然》杂志的文章指出,语言是传播文化知识的有力工具,它可能与我们的思考和推理能力共同进化,能够反映人类认知的复杂性。但是语言并不产生推理的复杂性。

针对大模型现有的不靠谱、解释性不高、成本高等特点,一个真正有效的解决方法是把概率的神经网络推理与逻辑的符号计算结合起来,类似于诺奖经济学得主丹尼尔·卡尼曼所著的《思考快与慢》一书所说的人类基于本能的快思考和基于逻辑推理的慢思考的结合,“可以说是一种‘灰盒’大模型。”漆远认为,将符号计算与神经网络相结合的“灰盒”可信大模型,可降低人工智能的“幻觉”,解决垂直领域专业问题,从而赋能千行百业,释放大模型的生产力。

什么是“灰盒”可信大模型?“原来认为深度学习是‘黑盒’,现在我们把逻辑推理的‘白盒’与深度学习结合起来,就变成‘灰盒’了。”漆远解释说,“原先的‘黑盒’使人们对数据产生结果的过程一无所知,而‘灰盒’大模型借助逻辑推理可以令人‘知其然,更知其所以然’。同时,从另外一个角度来看,‘灰盒’大模型可以用深度学习来减少不符合现实世界观测数据的规则。”

漆远表示,要让各行业的复杂场景成为AI发挥核心作用的新战场,无论是在金融保险、风电能源,还是远洋运输、医疗制药的场景,需要将系统的行业知识、推理逻辑和决策机制与大模型结合。“灰盒”大模型既是通用人工智能的大方向,更是大模型在垂直领域里深度渗透、真正解决实际问题的利器。“如果从工业界角度来看,这个理解非常直观。”漆远举例,医生不需要成为律师,律师也不需要成为投资专家,每个专业角色都应该专注自己的领域,做好自己的生产力工具。从技术层面来说,如果让一个大模型过度学习不相关的任务,就可能会发生“灾难性遗忘”。就像李白如果整天做会计而不写诗,他的诗歌灵感可能也会逐渐消退。“我们已经观察到,在训练垂直领域的大模型时,如果让模型学习过多不相关的功能,会对其原有的能力产生干扰。因此,做好垂直领域的‘灰盒’大模型,我认为在产业落地中具有极大的价值。”

“我认为,‘灰盒’大模型会在通往AGI和垂直领域产业落地的路上发挥越来越重要的作用,因为从贝叶斯的方法论上来说,就是把我们已知的知识,和隐藏在数据中的未知信息结合在一起,来发掘新的规律,解决科学与产业问题。”漆远直言,未来,“AI爱因斯坦”也可以是“AI巴菲特”。

打通创新链,构建科学智能创新生态

就在此次2024世界人工智能大会上,漆远领衔的团队发布了百亿参数的可信光语金融和医疗大模型。这两个垂直领域大模型的测试都超越OPEN AI的万亿参数大模型GPT4-Turbo,再次引发业界对大模型落地的关注。

“今天的人工智能突破不仅来自底层原理的创新,更有面向社会需求的产品驱动。社会需要的不仅是理论文章的发表或者商业模式的创新,而是科技创新与产业创新深度融合,是基于第一性原理的突破。这两者一旦结合,我们就可以游到海水更蓝的地方。”漆远说。

学界和业界有着不同的使命,学界要探索新事物,工业界首先要解决实际问题。目前国内外普遍存在的一个共性问题:研究机构需要研究很多技术创新问题,但如果忽略产品化和社会需求,会有两个短板:缺乏真正的竞争压力,无法在竞争中锤炼创新技术;没有有效的市场信息反馈来牵引技术研发的方向。

为此,漆远一直期待打通“大学—研究院—初创企业”的创新链条,营造一个好的创新生态,不仅思考底层技术,也要抓紧市场需求。以市场需求和场景牵引产品方向,从底层创新打造产品核心竞争力。

2023年成立的上智院,正致力于知识与数据结合的AI for Science原始创新。近期,上智院发布了面向新能源、保险、城市管理等产业应用的伏羲系列气象大模型2.0,并牵头发起了智能气象创新生态联盟,联合多家单位逐步推进伏羲系列气象大模型2.0的产业化应用。“灰盒”可信大模型的产品落地也在进程之中,漆远担任创始人的可信大模型公司——无限光年已成立。

为进一步繁荣科学智能创新生态,由上智院与复旦大学联合主办,上海市科学技术委员会、上海市发展和改革委员会、上海市经济和信息化委员会、上海市教育委员会等多部门联合指导的第二届世界科学智能大赛已启动。大赛设置百万奖金面向全球招募选手,共同探索科学智能前沿领域。同时,上智院主导开发了一套涵盖多模态科学数据的科学数据平台,该平台具备从数据采集、加工到管理和建模的全链路能力,保证数据的高效加工、可信和安全互通。基于这一平台,上智院与合作伙伴构建了面向生命科学、物质科学和大气科学等领域的多个高质量科学数据集,为科学智能研究提供了宝贵的资源。此外,上智院牵头发起了全球科学数据生态联盟,首批联盟成员单位包括中国电信股份有限公司、中远海运财产保险自保有限公司、上海临港新片区跨境数据科技有限公司等十余家单位。联盟将通过政府、企业、高校、研究机构等多方合作,构建全球性、多领域的科研大数据资源开放与共享平台。

“不论科研还是产业,都不应‘为了新而新’,期待我们能构建未来的通用人工智能和应用,解决真实世界的问题。”漆远说。

编 辑:胡锦明
分享到: