2018年,谷歌在做BERT大模型的时候,OpenAI坚持使用GPT,也就是说,它坚信所有的问题都可以归结为从前一句话预测下一句话,简化了整个过程。想法很简单,但是把这个东西推到了一个高度,就是增加模型的规模,增加数据。在这个过程中,它发现了一种突现的能力。
“OpenAI是按一定节奏发布的,它会管理世界对它的期待。让我担心的是,其实还有更伟大的科技。而且,如果下一代的范式不是这样呢?那么我们是不是要永远被动抄袭?所以,更重要的是要有一个范式,就是要有一个新的研究范式,而不是被动的抄作业。我认为需要更多的顶层设计。”
【编者按】在2023年人工智能开发者全球先锋大会期间,澎湃科技在上海临港中心开设了一个“超宇宙聊天室”。2月26日下午,算法竞赛大神《机器学习算法竞赛实战》作者王鹤(鱼佬)、公司工程副总裁、上海市人工智能行业协会秘书长就ChatGPT的炫酷思维、自然语言模型带来的启示、AIGC的实际应用进行了探讨,并展望了通用人工智能(AGI)的实现路径。以下为对话实录,有删减。
最大的启示:结构创新,模式统一
钟俊豪(上海人工智能行业协会秘书长):ChatGPT的表现不仅让外界惊叹,也出乎其R&D团队的意料。你怎么看待这个问题?
王宝元(萧冰公司工程副总裁):这个问题很有意思。如果从研究者的角度来看,我觉得他们肯定有一些意想不到的地方,但同时也有一些惊喜。不出所料,当我们回顾OpenAI过去五六年的发展历程,从GPT 1号、GPT 2号、GPT 3号、GPT 3.5号到现在非常热门的GPT 4号,其整个思路一脉相承。2018年,谷歌在做BERT大模型的时候,OpenAI坚持使用GPT,也就是说,它坚信所有的问题都可以归结为从前一句话预测下一句话,简化了整个过程。
想法很简单,但是把这个东西推到了一个高度,就是增加模型的规模,增加数据。当数据模型的规模呈指数级增长时,对计算能力的要求也提高到了极致。在这个过程中,它发现了一种突现的能力。也就是说,有一些能力是连设计师一开始都没有想象到的,这部分叫做意外的惊喜。
简单来说,首先我们还是很佩服这些人的。他们执着的做一件事,很有韧性,坚持自己的想法,一步一步的往前走。那么当你的能力跨过一定的门槛,你就会发现一种特殊的能力,这种能力可能是你意想不到的。
王鹤(《算法大赛》作者,《机器学习算法竞赛实战》):其实人机对话已经存在很多年了,只是没有现在这么聪明,可以叠加这么多问题,详细解答,或者说好像找不到问题。事实上,这让我们很惊讶。
你让它调试一个代码,它可以帮你。你只要有一个自己的想法,然后让它实现代码,就可以很快实现。同时你可以在这个基础上让它不断优化,或者我们可以给它灌输一些理念。这是以前人机对话无法企及的。包括让它做个表,都可以做的很好。
钟俊豪:但学术界也有一些声音认为ChatGPT太神奇了。从整个技术的底层逻辑来说,ChatGPT至今没有太大的改变,只是基于堆积数据的暴力计算。
王宝元:是的,我听过很多这样的观点,尤其是从研究人员那里。和著名教授Gary Marcus一样,他几乎每天都在Twitter上发布深度学习的框架。包括麻省理工学院的教授,比如诺姆乔姆斯基,他每天都说GPT对理解自然语言本身的贡献是零。但这并不妨碍ChatGPT和GPT-4做出伟大的系统。所以一个主流的观点是,现在AI研究在工程上。
但是,我认为,大家显然低估了开发这个庞大系统的难度。人们常常用一种单点技术来评价这场革命,但它往往不是单点,而是结构上的创新。比如算法上有突破吗?当然也有基于人类反馈的强化学习算法。工程方面有创新吗?肯定有。一个模型有1750亿个参数。在此之前,没有一个系统可以加载这么大数量参数的模型,更不用说做训练了。所以我觉得可能很多人只是从一个很狭隘的维度去看待它,去批判它。
当然,它现在有很多没有解答的问题,或者它会捏造一些事实。但是我觉得随着技术的突破,这个问题会逐步解决。我觉得从某种角度来说,Gary Marcus其实对深度学习做出了积极的贡献。他通过批评帮助大家找出了这些制度的漏洞,所以我觉得还是很棒的。我觉得OpenAI当然值得国内很多企业学习,为什么他们能做出这样的创新。
钟俊豪:我们刚刚谈到了它的暴力计算。同时,我们也无法回避谷歌在2017年推出的Transformer。目前所有的语言模型都是基于Transformer的。你能再谈谈这一点吗?
王宝元:《变形金刚》真是一项伟大的发明。因为不仅仅是NLP(自然语言处理),比如我们做CV(计算机视觉)内容生成,很多任务也转向了Transformer。
我认为这不是一个单一的突破,而是一个渐进的突破。有了《变形金刚》,GPT就诞生了。随着伯特和GPT-1,GPT-2逐渐形成,包括CV中的扩散模型,也很流行。在AIGC(人工智能生成内容)中,我们看到文本内容生成,甚至视频内容生成,或者三维几何网格生成的底层结构基本上都是Transformer。因为有这样一个基地的模型,然后继续给它添砖加瓦,发明一些新技术。所以它的伟大在于改变了一个范式。
当然,神经网络在某些任务中还是很方便的,但要我说,几年后它还会是变形金刚吗?大概不会。比如OpenAI的CEO山姆奥特曼(Sam Altman)就认为《变形金刚》的结构有其伟大之处,但仍然存在很多问题。所以我觉得会被一些非常聪明的人逐渐迭代。
钟俊豪:从谷歌走的技术路线来看,它首先在底层有一个通用的模型,然后在它上面生长出很多小模型,应用到各种应用上。例如,ChatGPT直接进入另一条道路,这条道路被称为AGI(通用人工智能)。不是大模型支撑小模型,而是大模型解决通用人工智能的问题。
王宝元:我认为你提出了一个非常有趣的观点,那就是AGI。当我们讨论AGI时,每个人对agi的定义不一定在一个尺度上。所以当我们在讨论一个还没有到来的东西,或者我们不能准确定义它是什么的时候,这就很困难了。但我觉得OpenAI的目标显然不是做个三四年的公司。它必须有一个非常长远的愿景,并且是一家能够将AGI的能力带给全世界的公司。现在看ChatGPT,叫AGI吗?据我所知,肯定不是。它只是展示了一种比GPT问世之前你可能接触过的所有人工智能模型都更强大的能力。但是这种能力在AGI是什么阶段,我自己也说不清楚。
钟俊豪:如果我们打个比方,ChatGPT或者GPT-3.5,它带给我们最大的启示是什么?
王宝元:我认为第一点是模型的统一。原来每个人都是一个小模型,现在证明了几乎所有的任务都可以用一个深层次的大模型来统一,那就是从左预测右。原来每个领域的每个子问题都设计了专门的算法。
钟俊豪:例如,它是局限于自然语言处理领域的问答,还是涵盖了所有的知识内容?
王宝元:我认为一句话,它表明所有的任务都可以通过使用自然语言作为交互来表达。这可能是一个前所未有的从零到一的非常伟大的突破。我刚才就是这么说的。是统一的。
二是表现出很强的可扩展性,可以直接推广到解决一个没有训练过的新任务。但问题是,它会不会是一门大炮,为原来的很多子任务拍苍蝇?比如我想判断一句话是否涉及敏感内容,就是对这句话做一个分类任务。这样的任务可能相对简单,不需要有1750亿个参数的模型也能算出来。
所以我觉得它的下一步应该是考虑它对于各种应用有什么方法,因为有了这个大的模型,我就可以有更好的方法去解决一些小的模型和任务。我觉得这个具体方式应该先观察一下。从经济角度来说,把大型号都拿走肯定有点贵。
钟俊豪:所以从你的逻辑来说,在落地应用中,大模型还是更倾向于基于变压器,大模型和小模型叠加更合适。
我之前的理解是,人工智能还是要和行业的Know-how(技术诀窍)结合起来,去熟悉别人的行业,才能改变这个行业原有的用工效率低、重复性高、准确率低的问题。但是这次有了ChatGPT,我就有点迷茫了,感觉它什么都能做。你想要这个行业的专业知识吗?今天听了王博士的话,一般的模特还是要懂行业的诀窍。
王宝元:是的。即使对于OpenAI来说,也意味着基数是通用的,需要对齐,意味着我还需要各种指令来做这样的任务。另外,我不认为CV有一个放之四海而皆准的通用大模型,人脸模型还是一个特殊的解决方案。在CV领域我还没有看到一个明确的结论在通解和特解之间。
王鹤:ChatGPT是基于全网的一些数据,很多都是开源的。但是如果要钻取一个比较小的领域,比如金融或者一些制造业,数据很少,那么在解决这个问题的时候可能会面临一些困难,或者一开始的时候泛化能力可能比较差。所以我觉得还是要结合一些领域的知识。如果用户体验更好,就需要结合用户自身的数据信息和推荐系统进行定制,做出一些推荐。
2月26日,在澎湃技术,三位嘉宾就ChatGPT的启示和AIGC的实际应用进行了交流。从左至右依次为上海市人工智能行业协会秘书长钟俊豪、萧冰公司副总裁王宝元、算法竞赛大神王鹤。
多语种培训,不能只用中文。
钟俊豪:今年,每个人都将ChatGPT的外观与iPhone的外观进行比较。能否从实际体验来讲,是否让你觉得iPhone颠覆了手机的认知?
王鹤:我感觉现在还没有大规模应用,更重要的是做一些测试或者帮助解决一些问题,比如准备一个演讲稿。
之前很多人会问,人工智能会不会慢慢取代AI开发者?我觉得可能需要一定的过程。现在,更重要的是,它继续发挥着与开发者互补的作用。就像深度学习一样,可能就像一个黑匣子,有监督的训练肯定比无监督的训练好。就像我们开发一个软件的时候,还是需要开发者加入一些策略和规则,让它更好的适应环境,更好的学习。
王宝元:让我补充一点。我在微软工作了十多年。在离开微软之前,我就知道GitHub上的Copilot(编程工具)是辅助开发者写代码的。微软CEO最近的一些发言,其实是说这个东西对开发者有很大的帮助,提高了至少30%的效率。也就是说,不一定能完全替代,但可以辅助和提高效率。比如以前完成一个模块的功能需要一个小时,现在可能需要20分钟。那么客观来说,很多开发者的工作可能会减少或者放松。
可能确实处于试验初期,但我的判断是这种趋势不可阻挡。它是人机交互的新范式。是否有必要重新构建所有已知的应用程序?首先,交互界面需要改变。第二,会不会重构整个AI在各个领域的应用?
钟俊豪:我先自己做个预测,我必须重建它。在未来,整个体系必将形成一种新的秩序和状态。
王宝元:我同意这个观点。我觉得很多事情才刚刚开始。比如AI或者ChatGPT的完成将由谁来负责,它的模型是什么?各公司在整个地图中的定位在哪里?比如OpenAI和微软的结合,这个定位很明确,要做底层能力。然后当然是希望大家都用OpenAI,不要反复做轮子,别人做不出来。
钟俊豪:回到原来的问题,ChatGPT的出现会带来智能手机和功能手机之间的这么大的飞跃吗?
王宝元:我认为当iPhone在2007年诞生的时候,没有人能够预料到它的影响会如此之大。现在可能我无法预测ChatGPT是否会带来这种影响,但我总体上非常乐观。
钟俊豪:之前我们谈到了数字鸿沟,现在我发现我和ChatGPT之间有一条鸿沟。ChatGPT很好,你需要能够用它的语言模式交流。我觉得我还没有掌握如何和ChatGPT沟通,这也是一个差距。
王宝元:我想我们应该单独谈谈这个问题。ChatGPT只是OpenAI发布的一个演示。我们不能通过一个demo的体验来判断未来产品可能的体验,所以我们说,我们很佩服这个demo所展现出来的底层技术能力。
如果真的想解决这个差距问题,我觉得人工智能应该去尝试。比如它的交互界面更方便,更便于老年人使用。我真的很期待基于ChatGPT背后底层技术的产品,看看它能创造出什么伟大的产品来解决鸿沟问题,让更多人亲近它。
钟俊豪:据说中文版的ChatGPT比英文版的难度大得多。用汉语说同一个词,但是用不同的声调表达,是完全不同的。由于自身数据质量较差,ChatGPT中文版之间的沟通和交互是否必然会比英文版更加困难?
王鹤:我觉得肯定会更难。其实我们说话的时候要考虑的点很多,不仅要理解它的潜台词,还要理解一些方言或者一些讽刺,这就增加了人机交互的难度。
王宝元:如果我们看看OpenAI的这些模型,当然,它不是专门针对中国人的。它必须是多语言的,主要是英语。但是我们发现它的中文概括能力也很好。你可能还需要多语种培训,不仅仅是中文。
可能更难的问题是隐喻,也就是汉语中包含的一些更深层次的问题,比如反语,很难理解。从理论上讲,它只是恰好匹配数据库中的相似信息,所以应该不具备隐喻能力。这个问题目前还很难解决。我相信我们必须使用英语。
理论上,虽然世界上有几百种语言,但人类的智慧和表达思想的方式有很多共性,只是最后一个字的写法不同。所以把多种语言放在一起,我觉得可以学到更多人类的先验知识。这类知识具有一定的共性,因此具有大模型的跨语言迁移能力。我个人认为,如果我们的机构要做类似的事情,一定是用英语。而且可能英语培训质量挺高的,各种高质量的书都有。你不能只用中文。
OpenAI将管理世界对它的期望。
钟俊豪:把人工智能技术从ChatGPT往前推,一直说其实是统计,但是今天从ChatGPT呈现的形式来看,好像已经有逻辑了。这听起来是两件事,一是要用数据和关联性,二是在交流过程中要看起来有思想有逻辑。你怎么看待这个问题?
王宝元:从本质上说,注入大模型的数据量和注入方法实际上极大地促进了其推理能力的显现。比如,以我在大模型上的思维链(cot)为例,cot其实是一个人针对大模型的特点而发明的招数。即不是特别复杂的数学公式,统计学中的某个原理,但其实是一种人的直觉,只是这种直觉是为大模型定制的。
比如,当一个大模型足够大的时候,因为要把海量的数据压到一个模型里,就要强制它学习一些规则。就像从左向右预测一样,其实很复杂。根据很长的历史记录判断下一个词有可能是哪个词,其实是一个纯粹的统计概率问题。那么找到这个模式,就会让这个模型看起来有推理能力。为什么?因为人类说的写的都是符合逻辑的。
另一种是显式注入一个逻辑。例如,ChatGPT背后的技术称为指令学习。怎么看都符合逻辑?就是当你问我一个问题的时候,我想给你这个专家的逻辑回答。比如你要列出上海的五个A级景区,答案应该是ABCD,很专业,很有逻辑,很有条理,很有结构。这样的数据是主要目标,但是这个目标的量和训练前相比几乎可以忽略不计。但是我们必须给它这样的任务,让它输出有组织、有逻辑、有结构的答案,然后让大模型学习。
钟俊豪:也许这只是让一个孩子学习成年人的聊天方式,让它慢慢成长。如果以后继续成长,也可能达到专家的水平。
王宝元:我想人们可能认为它现在太强大了。我们看到它的能力大多是研究者赋予它的一种规则。只是现在这个能力模型学会了,学会了给出这个指令,然后让可能不是这个领域的人比如用户觉得有逻辑。但在我们看来,应该是这样的,研究者是这么教的。
钟俊豪:如果你现在想让ChatGPT和一个孩子聊天,你也可以聊得很好。你是这个意思吗?
王宝元:这完全可以做到。现在你给我一堆孩子说话的素材,就是说孩子喜欢问什么样的问题,说话风格是什么,等等。只要你给我这样的文集,我现在已经可以做到了。
只是ChatGPT现在没有那么详细了,只是一个演示而已。比如我们公司做AI Being(类似于虚拟人的概念),我们要求每个AI Being都有自己的Persona(人格特征),比如一个18岁的女孩或者一个游戏中的角色,或者一个真人的数字双胞胎。要让别人感知到这个人物角色,需要有相应的语料库。
钟俊豪:ChatGPT在未来会继续成长,而不是教它这种专家逻辑,让一个孩子像成年人一样学习说话吗?
王宝元:我不这么认为。如果它想不断学习,就必须有一个机制教它如何学习。这个机制是人类设计的。
钟俊豪:ChatGPT的参数已经达到了1750亿。我们能以指数速度前进吗?
王宝元:我们必须考虑这背后的工程成本和经济成本,这将是一个巨大的资源消耗。
钟俊豪:继续提高计算能力,继续用工程思维解决问题。会不会变得更聪明,更接近人脑?
王宝元:我觉得这个问题有点理想化,就是资源是没有限制的。如果我处在这个位置,我可能不会做这样的事。我觉得应该有更有价值的东西,比如如何在现有基础上落地。因为它表现出了很强的能力,已经能够解决很多现实世界的应用。那么有没有可能快速铺开大量的应用,用大量的应用来反馈模型,从而带来新的发现呢?这是一个要在科学和工程中一起检验的假设。
钟俊豪:最后,你能从应用的角度谈谈ChatGPT给我们带来了什么吗?
王鹤:比如写论文,另一个角度就是我们还是要区分论文是不是用ChatGPT写的。我们用它,它其实是一个辅助功能,就像电脑一样,可以帮助我们快速搜索,帮助我们完成一些简单的事情。但是在应用上,我觉得还是要给一些思路和一些逻辑。不是说我们完全不用写代码,一定要用它写的代码吗?其实也给了我们一种思维方式,或者和我们做一些比较。核心点是辅助,然后提高整体的做事效率。
王宝元:我非常同意。首先肯定是提高效率的问题。也就是会帮助人类做一些事情,大大提高效率。这一定会在各行各业开花结果,这是我最大的价值。
应该以怎样的心态去拥抱它?我觉得这就像自动驾驶。现在很多资本都在推自动驾驶十年了。它最大的社会价值就是解放人的双手。人们真的喜欢一直开车吗?这种提高人类生活质量的体验是非常积极的,所以我们应该拥抱它。
以前被打字取代的开车或者写作,是一门技能。随着技术的发展,是否应该随之发展?我觉得还是要积极面对,要带领人类去做不重复的,有创造性的,需要启发的事情。然后我觉得这些工具会帮助人类的创造力,或者说人类发现新的知识。就像AI对于科学一样,这也是目的。有了新的人工智能工具,我们可以提高知识发现的效率和频率以及成功率。
所以总体来说我还是很乐观的。正是在这个过程中,政府需要出台相关的法律法规来减少可能的负面影响。就像剑是双刃剑,变脸可以用在很正面的地方,也可以做坏事,这是另一个问题。
钟俊豪:就像ChatGPT一样,标杆也竖立在这里。可能中国的学术圈或者业界大家都挺着急的。当它被制造出来的时候我们应该做什么?有人说,别急,有了这些基础数据和基本逻辑,半年应该能赶上。还有一种理论说,追不上,三年也不行。你怎么看待这个问题?
王宝元:这是一个非常好的问题。大家都在想。我认为我们应该把技术和产品分开。不能说谷歌和Meta没有这样的技术。技术本身也是一个发展过程,有时是线性的,有时是非线性的。而且我觉得OpenAI并没有藏着掖着,至少在大的思想层面,更大的可能是在系统层面,也就是把所有东西放在一起的能力。
如果抄作业,也就是别人做过的,我们就抄。50分,30分,70分有可能多多少少抄一遍吗?当然有。但我更担心的是整个研究范式的转移。
大家想想为什么OpenAI能一直做这种东西,它发布的是两年前的东西。ChatGPT发布了几个月,新的Bing马上就整合了,也就是说这些大模型内部训练了很久。OpenAI以一定的速度发布,它将管理世界对它的期望。让我担心的是,其实还有更伟大的科技。而且,如果下一代的范式不是这样呢?那么我们是不是要永远被动抄袭?比如ChatGPT完全重现肯定不是几个月的事。如果你到了那个阶段,你以为你达到了,但是人们用新的方式摆脱了。
所以,更重要的是要有一个范式,就是要有一个新的研究范式,而不是被动的抄作业。我觉得需要更多的顶层设计。
王鹤:对,不是一蹴而就,而是沉淀了很久。其实目前国内很多企业,包括我在内,都了解到一些小团队的管理人员被领导要求这么做,这样的企业很多。他们并不太担心,或者说这和他们关系不大,只是把这个技术应用到场景和业务上。可能会有一些大公司在担心这个事情,他们想快点做成或者不落后。
(对话记录由邵文整理。请观看直播和回放视频。)