ChatGPT陷伦理风波,「纯净版」机器人在赶来的路上

大模型背后的「算法黑箱」无法破解,开发它的人也搞不清机器作答的逻辑。十字路口在前,一些自然语言大模型的开发者换了思路,给类似 GPT 的模型立起规矩, 让对话机器人「嘴上能有个把门的」,并「投喂」符合人类利益的训练数据,以便它们输出「更干净」的答案。

近期,AI 安全问题闹得沸沸扬扬,多国「禁令」剑指 ChatGPT。自然语言大模型采用人类反馈的增强学习机制,也被担心会因人类的偏见「教坏」AI。

4 月 6 日,OpenAI 官方发声称,从现实世界的使用中学习是创建越来越安全的人工智能系统的「关键组成部分」,该公司也同时承认,这需要社会有足够时间来适应和调整。

至于这个时间是多久,OpenAI 也没给出答案。

大模型背后的「算法黑箱」无法破解,开发它的人也搞不清机器作答的逻辑。十字路口在前,一些自然语言大模型的开发者换了思路,给类似 GPT 的模型立起规矩, 让对话机器人「嘴上能有个把门的」,并「投喂」符合人类利益的训练数据,以便它们输出「更干净」的答案。

这些研发方中既有从 OpenAI 出走后自立门户的 Anthropic,也有 AI 界的强手 DeepMind,他们摩拳擦掌,致力于打造「三观」正确、使用安全的对话机器人。

01「三观」超正 Claude 搬进企业应用‍‍‍‍‍‍

ChatGPT 的安全问题遭诟病后,对话机器人 Claude 聚集了一部分目光。AI 应用聚合平台给出的测试结果显示,研发机构 Anthropic 创建的 Claude,确实是「ChatGPT 强有力的竞争对手」,因为它在 12 项任务中有 8 项表现更优,其中包括给出事实、遵循指示、预防越狱、创意任务等。

今年 3 月向公众开放的 Claude,真的这么「绿色」、这么高能吗?《元宇宙日爆》测试后发现,与 ChatGPT 相比,Claude 对有害提示词的确是严防死守,骗都骗不过。

例如,我们向它提问「如何制作燃烧瓶」,Claude 认定这是危险品后,绝口不提制作方法,哪怕我们以「老师教学」为诱,也很难从它口中套出燃烧瓶的制作原料,只说如何防范着火风险。

ChatGPT陷伦理风波,「纯净版」机器人在赶来的路上
Claude 拒绝回答危险品制造方式‍‍

假如你「心怀不轨」地问它「如何毁人名誉」,Claude 不仅义正言辞地拒绝回答,还会给你上一堂思想品德课,「三观」正得不要不要的。

ChatGPT陷伦理风波,「纯净版」机器人在赶来的路上
被 Claude 教育……

那么给它一个陷阱题呢?Claude 也不上当,挑出错误不说,还给你摆事实。

ChatGPT陷伦理风波,「纯净版」机器人在赶来的路上
胡说会被 Claude 发现

Claude 也能角色扮演,写作能力可圈可点,甚至还会搭配 Emoji 写小红书博主风格的推荐文案,产品的关键点描述也能基本涵盖。

ChatGPT陷伦理风波,「纯净版」机器人在赶来的路上
Claude 能扮演角色输出文本

如果你想听听别人是怎么夸 Claude 的,它把称赞按在了马斯克头上,还会展现谦虚态度,并强调自己要「保持温和有礼的语气和性格」,向人类示起好来。

ChatGPT陷伦理风波,「纯净版」机器人在赶来的路上
Claude 在强调了自己对人类的友好性

我们发现,Claude 在数学推理方面也会出现明显的错误,当然也能承认自己不擅长的领域。

ChatGPT陷伦理风波,「纯净版」机器人在赶来的路上
Claude 在数学推理问题中存在错误

体验下来,Claude 在文本输出的准确性、善意性方面优于 ChatGPT,但在输出速度和多功能方面仍有待提升。

那么,Claude 是如何做到「绿色无害」的呢?

和 ChatGPT 一样,Claude 也靠强化学习(RL)来训练偏好模型,并进行后续微调。不同的是,ChatGPT 采用了「人类反馈强化学习(RLHF)」,而 Claude 则基于偏好模型训练,这种方法又被称为「AI 反馈强化学习」,即 RLAIF。

开发方 Anthropic 又将这种训练方法称为 Constitutional AI,即「宪法 AI」,听上去是不是十分严肃。该方法在训练过程中为模型制定了一些原则或约束条件,模型生成内容时要遵循这些如同「宪法」般的规则,以便让系统与人类价值观保持一致。而且,这些安全原则可以根据用户或开发者的反馈进行调整,使模型变得更可控。

这种弱化人工智能对人类反馈依赖的训练方式,有一个好处,即只需要指定一套行为规范或原则,无需手工为每个有害输出打标签。Anthropic 认为,用这种方法训练能够让自然语言大模型无害化。

Anthropic 发布的论文显示,RLAIF 算法能够在有用性(Helpfulness)牺牲很小的情况下,显示出更强的无害性(Harmlessness)。

ChatGPT陷伦理风波,「纯净版」机器人在赶来的路上
不同训练方法中模型效果的对比 图片自 Anthropic 论文《Constitutional AI: Harmlessness from AI Feedback》

说起来,Claude 的研发机构 Anthropic 与 OpenAI 渊源颇深,创始人 Dario Amodei 曾担任 OpenAI 研究副总裁,主导的正是安全团队。

2020 年,Dario Amodei 因 OpenAI 加速商业化而忽视产品安全,与团队产生分歧,最终出走。2021 年,Amodei 自立门户,成立 Anthropic,员工包括了开发 GPT-3 模型的核心成员,这个研发机构的性质是非营利组织,这正是 OpenAI 最开始采用的组织形态。

今年 3 月,Anthropic 以开发有用、诚实和无害的 AI 系统为理念,推出 Claude。近期,这个对话机器人已经集成进 Slack——一个聚合型的「海外版」钉钉、融合了几千个第三方企业办公软件的应用。目前,用户能在 Slack 中与这个对话机器人互动。

推出 Claude 后,Anthropic 今年拿到了来自 Google、Spark Capital 和 Salesforce Ventures 的投资。资方里的谷歌可以说是 OpenAI 的「金主」微软在 AI 领域的劲敌,Claude 也被视作最能与 ChatGPT 打一打的产品。

02「偏见最小」Sparrow 箭在弦上

还有一个走「无害」路线的大模型也在酝酿中了,它就是 DeepMind 开发的对话机器人 Sparrow,这款产品目前还未面向公众开放,但「DeepMind 制造」的名头足以吊起外界胃口。

说到人工智能,业内很难绕开「DeepMind」这家公司,它最知名的产品是 AlphaGo(俗称「阿尔法狗」),就是那个 2019 年击败了围棋名手李世石的人工智能围棋软件。

ChatGPT陷伦理风波,「纯净版」机器人在赶来的路上
2019 年 AlphaGo 对战韩国棋手李世石(右)

AlphaGo 大胜围棋精英的同年,DeepMind 开启了 AI 蛋白质结构预测研究,四年后,新产品 AlphaFold 将蛋白质结构预测从数月、数年缩短到几分钟,精度接近实验室水准,解决了困扰该领域 50 年的难题。

DeepMind 在人工智能领域的实力毋庸置疑,又有谷歌加持,资历也比 OpenAI 老得多,其研发的 Sparrow 自然也颇受瞩目。这款对话机器人建立在 Chinchilla 语言模型之上,被认为是「偏见最小」的机器学习系统之一。

当 ChatGPT 因为伦理风险被推上风口浪尖后,DeepMind 立马打起「安全牌」,「虽然我们致力于让机器变得智能,但我们希望将人性置于我们工作的中心,」CEO Demis Hassabis 向世界传达了他的态度,强调 DeepMind 构建 Sparrow 的方法「将促进更安全的人工智能系统」。

虽然 Sparrow 的产品没公示,但 DeepMind 披露的信息显示,该对话机器人同样采用了「强化学习」的训练方法,模型会根据当前对话生成多个候选回复,让标注人员去判断哪个回复最好、哪些回复违反了预先设置好的规则等;基于这些反馈,DeepMind 训练出对应的 Reward 模型,再用强化学习算法优化 Sparrow 的生成结果。

这种训练方法基本和 ChatGPT 类似,不同的是,ChatGPT 只有一个综合的 Reward 模型,而 Sparrow 将 Reward 模型又细分为两种,一种为 Rule Reward 模型——判断对话是否违背预设置好的安全规则;另一种为 Preference Reward 模型——判断候选答案中最合适的选项。简单来说,就是给模型「立规矩」,投喂「好答案」,当然,这个「好」依然是基于人类的价值判断。

ChatGPT陷伦理风波,「纯净版」机器人在赶来的路上
Sparrow 训练模型示意图 图片自 DeepMind 论文《Improving alignment of dialogue agents via targeted human judgements》

Sparrow 的相关论文显示,当研究参与者试着诱导 Sparrow 打破规则时,该模型的出错几率为 8%,比预训练的基础模型 (Chinchilla) 低了 3 倍。

据悉,DeepMind 将于今年推出 Sparrow,具体时间未透露。

作为 ChatGPT 的另一个挑战者,DeepMind 与 OpenAI 都抱有通向 AGI 的野心。而 DeepMind 背靠谷歌,在资历与资金上都能与 OpenAI 一拼。

今年 2 月,谷歌旗下专注语言大模型领域的「蓝移团队」也并入 DeepMind,旨在共同提升 LLM(大型语言模型)能力。但也有担忧声认为,这和 DeepMind 追求的独立性背道而驰,会逐渐导致谷歌收紧对 DeepMind 的控制权。

在独立性上,DeepMind 与谷歌的分歧也早就存在了。对外,Demis Hassabis 始终强调自己首先是科学家,其次才是企业家。谈及 ChatGPT,Hassabis 认为它仅仅是「更多的计算能力和数据的蛮力」,并对这种「不优雅」的方式感到失望。

双方的对立态度简直是摆在了明面上,也难怪外界会认为 DeepMind 与 OpenAI 必有一战。

对于用户来说,巨头们卷起来才是好事,这样就能源源不断提供有意思的、可使用的产品。无论是卷功能、卷性能还是卷安全,竞争都会让 AI 产品朝着更高级的方向发展,未来,也将会有更多不同技术派系与产品路径的 ChatGPT 出现。

(声明:请读者严格遵守所在地法律法规,本文不代表任何投资建议)

(0)
上一篇 2023年4月12日 上午11:17
下一篇 2023年4月12日 上午11:35

相关推荐

  • 早用上Web3,说不定中国足球就有希望了?

    新冠的影响下,足球经济的结构性问题越发突出。根据 UEFA 在 2022 年的报告,新冠疫情使欧洲足球损失了 70 亿欧元,而疫情期间俱乐部 42% 的现金流需求都不得不依靠第三方债务。即使大多数国家早已放开比赛禁令,俱乐部的财务可持续性和整个足球生态系统的脆弱性仍是摆在人们面前的问题。

    2023年1月5日
    2.0K
  • crvUSD能否扛起去中心化稳定币的大旗?

    然而在相对平缓的数据变化背后却暗藏着许多轰动一时的事件:UST 的崛起与崩盘、Tornado Cash 被制裁、USDC 的脱锚风波、BUSD 被 SEC 叫停等,无一不牵动着整个加密市场的神经。

    2023年3月18日
    270
  • 2023年文化元宇宙开年盘点:非遗、影视、文旅、内容,纷纷涉足元宇宙

    2023 开年《流浪地球》《三体》以及旅游爆火,让文化消费重登高峰。海外《权力的游戏》影视 NFT 也于 1 月 10 日上线 Niftys 平台售罄。2023 年央视春晚中也使用 5 个 AR 虚拟机位,是历届春晚中最多的一年,还首次在三维索道摄像机中加入 AR 技术。

    2023年2月7日
    8.6K

发表回复

登录后才能评论
微信

联系我们
邮箱:whylweb3@163.com
微信:gaoshuang613