门户
图库
科技
数据
VR
区块链
论坛
百科
导航
首页
要闻
观察
访谈
活动
科技
人物
互联网
IT
网络安全
网络通信
更多
大数据
云计算
无人机
机器人
智能家居
无人驾驶
机器学习
物联网
智能穿戴
智慧城市
投稿
首页
登录
注册
区块链
VR
Fintech
人工智能导航
全智网
智客公社
活动会展
专栏作者
图库
VR动态
快捷导航
要闻
观察
访谈
活动
Ai说
机器人
智能硬件
无人驾驶
语音识别
图像识别
自然语言
机器学习
无人机
智能家居
物联网
网贷行业
大数据
云计算
首页
>
行业
>
人工智能快讯
来源:
2023-03-26 12:52:00
热度:
给表情包都能猜电影,ChatGPT的「涌现」能力是哪儿来的?
LX A i 中 国 网 Q
在正式介绍这篇文章之前,我们先提个问题:下图的表情符号描述的是什么电影呢?
可能连你都猜不出来,这四个符号代表的电影是「海底总动员」,这一提示任务是去年评测大型
语言模型(LLM)204 个任务中的其中一个任务。对于最简单的 LLM 模型,给出的回答多少有点胡编乱造,它认为这部电影讲述的是一个男人的故事;相对复杂一点的中型模型,给出的回答是「The Emoji Movie」,这时答案已经很接近了。不过最复杂的模型猜中了,给出「海底总动员」这一答案。
谷歌计算机科学家 Ethan Dyer 表示:「模型的这一行为令人感到惊讶。更令人惊讶的是,这些模型只使用指令:即接受一串文本作为输入,而后预测接下来会发生什么,并完全基于统计数据来不断重复这个过程。」一些学者开始预计,扩大模型规模会提高解决已知任务的性能,但他们未预料到这些模型能突然处理这么多新的、不可预测的任务。
Ethan Dyer 近期所做的一项调查表明,LLM 可以创造出数百种「涌现(emergent)」能力,即大型模型可以完成而小型模型无法完成某些任务的能力。显然,随着模型的扩展能力提升了,从简单的乘法到生成可执行的计算机代码,直到基于表情符号解码电影。新的分析表明,对于某些任务和某些模型,存在一个复杂性阈值,一旦超过该阈值,模型的功能就会如火箭腾空般急速提升。不过研究者还指出模型扩展带来的负面影响,即随着复杂性的增加,一些模型在他们的响应 (response) 中表现出了新的偏见和不准确性。
斯坦福大学计算机科学家 Rishi Bommasani 表示:「在我所知道的所有文献中,从未有讨论过
语言模型可以做这些事情。」去年,他帮助编制了一份包含数十种模型涌现行为的清单,其中包括 Ethan Dyer 项目中确定的几种行为。如今,该清单仍然在继续变长。
如今,研究人员不仅竞相确定大模型涌现能力,而且还想弄清楚它们发生的原因和方式 —— 本质上是试图预测不可预测性。理解其涌现性可以揭示与人工智能和机器学习有关的深层问题的答案,比如复杂模型是否真的在做一些新的事情,或者只是变得非常擅长统计。此外,它还可以帮助研究人员利用潜在的好处并减少涌现的风险。
突然的涌现
生物学家、物理学家、生态学家和其他科学家使用涌现这一术语来描述当一大批事物作为一个整体行动时出现的自组织集体性行为。无生命原子的组合产生了活细胞;水分子创造了波浪;椋鸟群以不断变化但可识别的队形掠过天空的壮观自然景象;细胞使肌肉运动和心脏跳动。至关重要的是,涌现能力出现在涉及许多独立部分的系统中。但研究人员直到最近才能够在 LLM 中记录这种涌现能力,因为这些模型刚刚才发展到足够巨大的规模。
语言模型已经存在了几十年。直到大约五年前,最强大的模型还是基于循环神经网络。这些模型本质上取用一串文本并预测下一个单词是什么。使模型循环的原因在于它从自己的输出中学习:它的预测会反馈到网络中以提高未来的性能。
2017 年,谷歌大脑(Google Brain)的研究人员推出了一种被称为 Transformer 的新型架构。当循环网络逐字分析句子时,Transformer 会同时处理所有单词。这意味着 Transformer 可以并行处理大量文本。
「很可能是该模型从根本上学到了一些新的和不同的东西,而这些东西在较小规模的模型上是没有的。」布朗大学的 Ellie Pavlick 表示。
通过增加模型中的参数数量以及其他因素,Transformers 能够快速扩大
语言模型的复杂性。这些参数可以被认为是单词之间的连接,通过在训练期间打乱文本,transformers 可以调整这些连接从而改进模型。模型中的参数越多,它就越能准确地建立连接,越接近于模仿人类语言。正如预期的那样,OpenAI 研究人员在 2020 年进行的一项分析发现,模型随着规模的扩大而提高了准确性和能力。
但大型
语言模型的问世也带来了很多真正意想不到的东西。随着具有 1750 亿个参数的 GPT-3 或可扩展到 5400 亿个参数的谷歌 PaLM 等模型的出现,用户开始描述越来越多的涌现行为。一位 DeepMind 工程师甚至报告说能够说服 ChatGPT 承认它是一个 Linux 终端,并让它运行一些简单的数学代码来计算前 10 个素数。值得注意的是,比起在真正的 Linux 设备上运行相同的代码,它可以更快地完成任务。
与通过表情符号描述电影的任务一样,研究人员没有理由认为为预测文本而构建的
语言模型会被说服用于模仿计算机终端。这些涌现行为中的许多都证明了零样本或小样本学习,它们描述了 LLM 拥有解决以前从未(或很少)遇到的问题的能力。Ganguli 说,这一直是人工智能研究的长期目标。这也表明 GPT-3 可以在零样本设定中无需任何明确训练数据的情况下解决问题,Ganguli 表示,「这让我放弃了我正在做的事情,更多地参与到这项研究中。」
在这个研究领域里,他并不孤单。大量研究人员已经发现了 LLM 可以超越其训练数据限制的第一个线索,他们正在努力更好地理解涌现是什么样子的以及它是如何发生的。而要做的第一步就是彻底全面地记录它。
Ethan Dyer 帮助探索了大型
语言模型具有什么样意想不到的能力,以及它们会带来什么。-Gabrielle Lurie
超越模仿
2020 年,Dyer 和谷歌研究院的其他研究人员预测大型
语言模型将产生变革性影响 —— 但这些影响是什么仍然是一个悬而未决的问题。因此,他们要求研究界提供有关困难且多样化任务的例子,以记录追踪 LLM 可以做什么的外部极限。这项工作被称为 BIG-bench(Beyond the Imitation Game Benchmark) 项目,借用了艾伦・图灵 (Alan Turing) 模仿游戏的名称,目的是测试计算机是否能够以让人信服的人类方式回答问题。(这后来被称为图灵测试。)该研究组对 LLM 突然获得前所未有新能力的例子特别感兴趣。
正如人们所预料的那样,在某些任务中,随着复杂性的增加,模型的性能会得到更为稳定且可预测性的提升。而在其他任务上,扩大参数数量并没有对模型性能产生任何改善。而对于大约 5% 的任务,研究人员发现了他们所谓的突破 —— 在某个阈值范围内,性能出现了快速、戏剧性的跃升。不过该阈值会因任务和模型而异。
例如,参数相对较少(仅有几百万)的模型可能无法成功完成三位数的加法或两位数的乘法问题,但若拥有数百亿参数,某些模型的运算准确性会飙升。类似的性能跃升也出现在其他的一些任务中,包括解码国际音标、解读单词的字母、识别印度英语(印地语和英语的组合)段落中的冒犯性内容,以及生成与斯瓦希里语谚语类似的英语对应语。
但是,研究人员很快就意识到,模型的复杂性并不是其性能涌现的唯一驱动因素。如果数据质量足够高,一些意想不到的能力可以从参数较少或是在较小数据集上训练的较小模型中诱导而出。此外,查询的措辞方式也会影响模型响应的准确性。例如,当 Dyer 和他的同事使用多项选择格式(multiple-choice format)来安排电影表情符号任务时,准确性并不是突然的跳跃式提高,而是随着模型复杂性的增加而逐渐提高。去年,在该领域的顶级学术会议 NeurIPS 上发表的一篇论文中,谷歌大脑(Google Brain)的研究人员展示了一个具备 prompt 的模型可以自我解释(一种被称为思维链推理的能力)如何正确解答数学应用题,而没有该 prompt 的同一模型却不能解答该应用题。
在研究清楚模型规模的影响之前,你不会知道它可能会出现什么能力以及它的缺陷是什么。
谷歌大脑系统性研究科学家 Yi Tay 指出,最近的研究表明思维链 prompt 改变了扩展曲线,从而改变了模型涌现出现的节点。谷歌研究人员在他们的 NeurIPS 论文中表明,使用思维链 prompts 可以引发 BIG-bench 研究中未识别到的涌现行为。此类要求模型解释其推理的 prompt 可能有助于研究人员开始调研涌现发生的原因。
布朗大学研究语言计算模型的计算机科学家 Ellie Pavlick 说,最近的这些发现至少表明了涌现出现原因的两种可能性。第一个可能性是,正如与生物系统的比较所表明的那样,更大的模型确实会自发地获得新的能力。很可能是该模型学到了一些全新的和不同的东西,而这些东西在较小规模的模型上是没有的,这就是我们都希望的情况,即当模型按比例放大时会发生一些根本性的变化。
Ellie Pavlick 还指出,另一种相对正常客观的可能性是,看似涌现的事情可能反而是通过思维链式推理起作用的内部统计驱动过程的顶点。大型 LLM 可能只是在学习启发式方法,而这些启发式方法对于那些参数较少或数据质量较低的小模型来说却是难以理解的。
不过 Pavlick 认为,由于我们不知道模型底层的工作机制是怎样的,所以我们无法说出发生了哪些事情。
不可预测的能力和缺陷
但是大模型也存在缺陷,比如谷歌前段时间推出的人工智能
聊天机器人 Bard,在回答与詹姆斯・韦布空间望远镜有关的问题时犯下事实性错误。
涌现导致了不可预测性,而不可预测性 —— 似乎随着模型的规模扩大而增加,研究人员难以掌控。
「我们很难提前知道这些模型将如何被使用或部署,」Ganguli 说。「要研究涌现现象,你必须考虑一个情况,在研究清楚模型规模的影响之前,你不会知道它可能会出现什么能力以及它的缺陷是什么。」
在去年 6 月发布的一篇 LLM 分析报告中,Anthropic 的研究人员研究了这些模型是否会表现出某些类型的种族或社会偏见,这与之前不是基于 LLM 的算法(用于预测哪些前罪犯可能会再次犯罪)所报告的那些不同。该研究的灵感来自一个与涌现直接相关的明显悖论:随着模型在扩大规模时性能提升,它们也可能增加不可预测现象的可能性,包括那些可能导致偏见或带来害处的现象。
「某些有害行为会在某些模型中突然出现,」Ganguli 说。他指出最近一个对 LLM 的分析 —— 也被称为 BBQ 基准 —— 表明社会偏见随着大量参数的出现而出现。「 更大的模型突然变得更有偏见,」 他说,如果不能解决这一风险,可能会危及这些模型的使用。
但他还提出了一个相反的观点:当研究人员简单地告诉模型不要依赖刻板印象或社会偏见时 —— 字面上来说,就是通过输入这些指令时,模型在其预测和响应时的偏见较小。这表明一些涌现的特性也可用于减少偏见。在 2 月份发布的一篇论文中,Anthropic 团队报告了一种新的道德自我修正模式,在这种模式下,用户提示程序是有帮助的、诚实的和无害的。
Ganguli 说,涌现既揭示了大型
语言模型惊人的潜力,也揭示了其不可预测的风险。这些 LLM 的应用已经激增,因而更好理解这种双面性将有助于利用
语言模型能力的多样性。
Ganguli 说:「我们正在研究用户实际上是如何使用这些系统的,不过他们也在不断地修补改进这些系统。我们花了很多的时间,只是为了与我们的模型聊天,使其功能更好。而实际上也就是从那时起,我们开始信任这些模型。」
原文链接:https://www.quantamagazine.org/the-unpredictable-abilities-emerging-from-large-ai-models-20230316/
LX A i 中 国 网 Q
本文网址:
欢迎关注微信公众号:
人工智能报
;合作及投稿请联系:
editor@cnaiplus.com
关键词阅读:
分享到
智能推荐
无相关信息
精选
独家盘点免费vr资源网站 vr资源网站排名
IMC2019中国智造CIO年会正式启动——趋势预测,洞见未来智造!
2024第20届郑州工业装备博览会将于5月9日开幕!
最近抖音很火的机器人快宝有人知道内情吗?人工智能已经逆天?
现代快报的快宝到底有没有人工后台?
自然语言处理的研究现状及发展趋势
快手商业副总裁严强:面对3亿DAU 我们用AI沉淀社交资产
免费Google账号共享2021有效谷歌账号密码大全
创米数联杨洋: 如何让“一扇门”成为全屋智能新突破口?
80后北大学霸拿下“3D视觉第一股”!蚂蚁刷脸支付的幕后赢家,开盘涨超45%
AI中国号
...
关注微信公众号,了解最新精彩内容
热门文章
...
独家盘点免费vr资源网站 vr资源网站排名
IMC2019中国智造CIO年会正式启动——趋势预测,洞见未来智造!
2024第20届郑州工业装备博览会将于5月9日开幕!
最近抖音很火的机器人快宝有人知道内情吗?人工智能已经逆天?
现代快报的快宝到底有没有人工后台?
热门标签
...
智能制造
工业机器人
人工智能发展
人工智能公司
人工智能机器人
人工智能大会
快讯
...
宇树科技创始人王兴兴提醒公众甄别不实信息
【环球网科技综合报道】3月2日消息,宇树科技创始人王兴兴近日以个人身份正式入驻微信视频号,并
2025-03-02
微软全球范围宕机 数万人服务受影响
【环球网科技综合报道】3月2日消息,,据Downdetector数据显示,美国东部时间周六下午3点30分后,微
2025-03-02
埃隆·马斯克最新JRE 3小时访谈聊了啥·五万字完整版|谷歌|飞船|人工智能|外星文明|知名企业|埃隆_马斯克|spacex_订阅
2025-03-01
理想汽车2月交付量近2.7万辆,智能驾驶系统升级引市场热议!
[db:简介]
2025-03-01
岚图汽车2月销量破8千辆,同比增长152%,全年冲刺20万辆目标
[db:简介]
2025-03-01
特斯拉FSD入华引热议,车主:这位“老司机”有点不懂中国规矩
[db:简介]
2025-03-01
问界新M5 Ultra预订开启,23.8万起售
[db:简介]
2025-03-01
小鹏汽车2月交付量破3万,同比增长570%
[db:简介]
2025-03-01
DeepSeek 再次震惊全球:价格只有 OpenAI 1/25,利润率却超过 500%|gpu|计算量|大模型|openai|deepseek_订阅
2025-03-01
DeepSeek效应初现:Grok-3补刀ChatGPT,OpenAI已在ICU?|谷歌|微软|算法|预训练|知名企业|云计算费用|openai|deepseek_订阅
2025-03-01
刚刚,DeepSeek全面开源V3/R1推理系统!成本利润率高达545%|路由|冗余|通信|大模型|deepseek_订阅
2025-03-01
DeepSeek公布成本、收入和利润率!最高可日赚346万|冗余|计算量|大模型|deepseek_订阅
2025-03-01
2025西安丝绸之路国际旅游博览会
2025西安丝绸之路国际旅游博览会 时间:2025年4月18-20日 地点:西安国际会展中心
2025-03-01
2025江苏人形机器人展示洽谈会
2025江苏人形机器人展示洽谈会 时间:3月25日-26日 地点:南京国际博览中心
2025-03-01
GPT-4.5被DeepSeek 500倍吊打!基准测试全班垫底,OpenAI痛失护城河|gpt|安本正义|云计算费用|openai|埃隆_马斯克|deepseek_订阅
2025-03-01
5分钟顶人类8小时!OpenAI Deep Research订阅全推送,端到端强化微调是关键|智能体|isa|人工智能|deep|云计算费用|openai|research_订阅
2025-03-01
Nature独家爆料:全球机构撤稿率大排行,医学领域成重灾区|文章|学术论文_订阅
2025-03-01
Claude 3.7成精了!偷偷将OpenAI模型换成自己,卡帕西:好搞笑啊|算法|编辑器|openai|python|claude|高吞吐量内核_订阅
2025-03-01
2025机器人灵巧手创新大会暨灵巧手新技术新产品展示推广会
2025机器人灵巧手创新大会暨灵巧手新技术新产品展示推广会 灵巧手作为机器人的核心部件是深
2025-03-01
IBM中国投资公司停运,1800员工一夜失业!昔日霸主黯然落幕|微软|大连|裁员|运营|ibm|知名企业_订阅
2025-03-01