反思国产大模型:如果泡沫不可避免,我们该如何面对这场革命?

众所周知,大模型的训练是一个成本极高的过程,需要大量的算力和资金支持,以 OpenAI 为例,GPT-3 的单次训练成本就高达 140 万美元,对于一些更大的大模型,训练成本介于 200 万美元至 1200 万美元之间。

最近,Facebook 早期投资者 Roger McNamee 在 CNBC 上批评人们对 AI 的狂热,是「忘掉了过去科技泡沫带来的痛」。

反思国产大模型:如果泡沫不可避免,我们该如何面对这场革命?

同样的,在国内,面对越来越多的大模型,部分头脑冷静的人士,也显示出自己的担忧。

「这么多的大模型,真正有自己技术的有几个?」

「有几家公司能持续投入下去?」

反思国产大模型:如果泡沫不可避免,我们该如何面对这场革命?

更有头部 VC 机构人士认为,经过他们的私下测试和摸底,几乎国内所有的大模型,都是 PR 项目……

众所周知,大模型的训练是一个成本极高的过程,需要大量的算力和资金支持,以 OpenAI 为例,GPT-3 的单次训练成本就高达 140 万美元,对于一些更大的大模型,训练成本介于 200 万美元至 1200 万美元之间。

用知名计算机专家吴军的话来形容,ChatGPT 每训练一次,相当于报废了 3000 辆特斯拉汽车。

反思国产大模型:如果泡沫不可避免,我们该如何面对这场革命?

这个数字告诉人们:要想打造有竞争力的大模型,不下血本是不行的。

某些体量、资金不足,却仍旧叫嚣着要「对标 ChatGPT」的企业,其本身的实力,难免让人产生怀疑。

例如某个在发布大模型后,自身股价最高暴涨 338% 的国内公司(此处就不点名了),其账上的货币资金不过 13 亿元。

然而,以 ChatGPT 的训练成本为例,要想背后的智能算力集群,仅 GPU 显卡采购成本就超过了 10 亿元。国内目前能够支撑起类似基础设施的企业不超过 3 家。

也正因如此,在这场表面热闹的大模型竞赛中,注定有一大票公司,都只是打着大模型的名号,来实现自身利益的「陪跑者」罢了……

不过纵观人类的科技发展史,都由泡沫中的幸存者来继续推动的。即使人类本身,也是物种大爆发这场生物泡沫的幸运儿。如果泡沫无法避免,从业者真正需要的是面对泡沫时的冷静和定力。

1 数据孤岛

国产大模型能否达到或超越 GPT 这类先进模型的水平,有两个较为主要的因素:

  • 一是在数据集的获取上,如何不断积累足够多、且高质量的数据集;
  • 二是在炼制大模型的「工艺」上,如何不断探索和突破,找到新的理论和方法。

先说第一点。

目前,在大模型的训练上,用来训练的主流数据集以英文为主,中文数据只占据 4.8%。

之前清华计算机系教授唐杰,在对千亿模型 ChatGLM-130B 训练前数据准备时,就曾面临过清洗中文数据后,可用量不到 2TB 的情况。

这就是国内所有做大模型的团队不得不面对的惨烈现状。

为解决这个问题,许多国内团队,都开始通过「众志成城」的方式,开源自身的中文数据集,以希望弥补高质量中文数据集的不足。

但是,这种通过各个团队「自觉」开源的方式,仍然存在着一定局限性,那就是:由于数据的敏感性、隐私性和所有权等问题,很多行业和领域的数据并不容易获得或共享。

国内数据大量储存于移动端 APP 中,于训练大模型而言比较难于抓取。

同时国内互联网巨头之间的数据相互封闭,数据孤岛化情况严重。例如百度的内容生态数据,腾讯的公众号数据,阿里的电商和物流数,这些属于各大企业的私有数据,虽然都在各自的行业和场景,积累了外人所不能及的优势,但由其所有权和隐私性的问题,导致很难与外界进行共享。

反思国产大模型:如果泡沫不可避免,我们该如何面对这场革命?

而这些不容易获取的数据,往往无法依赖各团队的「自愿」和「主动」进行开源。

针对这一问题,走在前列的美国 AI 产业,早已通过更成熟的数据共享平台、数据交易市场、数据信托等机制,促进了数据的流通和价值发现。

具体来说,在这些数据交易平台中,第三方数据拥有者可以将原始数据挂到数据交易市场上公开出售,数据需求方按照约定价格(买断数据 / 按小时计费、平台会员费)购买后,可以在数据交易平台上获得离线的数据包或者实时 API。

若最终成功交易,平台收取一定佣金后返还销售收入给第三方数据拥有者。这类型数据交易平台代表有 RapidAPI、Streamr 等。

与之相比,国内大数据交易仍处于起步阶段,数据交易主要以单纯的原始数据「粗加工」交易为主,且数据供需不对称,使得数据交易难以满足社会有效需求,数据成交率和成交额不高。

此外,在数据交易过程中,国内市场也缺乏全国统一的规范体系和必要的法律保障,无法有效破解数据定价、数据确权等难题。

从长远来看,国内大模型要想在数据的数量、质量上进一步得到提升,就不能单单只靠部分团队「自愿」和「主动」的开源,而要在法律、市场机制等方面,做出更多与时俱进的改革,如此方能促进各个行业间数据的广泛共享。

2「工艺」的差距

除了数据集的数量、质量外,另一个决定大模型能力强弱的关键因素,就是炼制大模型的「工艺」。

前段时间,复旦大学教授、上海市数据科学重点实验室主任肖仰华就表示,与国际同行相比,模型、数据和算力并不是中国最大的劣势,真正的短板在于对大模型「炼制」工艺的掌握,包括数据配方、数据清洗和参数设置等等。

现在有些国内大模型,动辄就对外号称「百亿」、「千亿」规模,仿佛参数量越大,模型性能就愈强。

然而,空有庞大的规模,却缺乏先进的「工艺」,这就像一个脑容量颇大,但却掌握不到学习要领的学生,难以在学习能力上进一步「精进」。

具体来说,如果将炼制大模型的过程,类比成一座工厂中的流水线。那么数据配方就像在开始生产之前选择原材料一样,需要选择不同的数据集,确定不同领域、不同类型、不同模态数据的配比;

而数据清洗就像对原材料的加工一样,对原始语料进行去噪、去重、过滤、规范化等操作,提取有用的信息;

参数设置就像生产过程中的调整和优化一样,通过选择合适的超参数,如学习率、批次大小等,以达到最佳的效果。

虽然上述的每一个具体步骤,国内其实都知道怎么做,但是将它们整合在一起,总体效果和国外是存在差距的。

反思国产大模型:如果泡沫不可避免,我们该如何面对这场革命?

这虽然不是 0 和 1 的区别,但却是 50 分和 100 分的区别。

所以,大模型的研制与开发,终归是一个易学难精的过程。而要想进一步提升这样的工艺,就必须在人工智能的基础理论、工程实践以及创新思维上不断积累,从而实现在关键环节上的突破和领先。

可问题是,这些反复试错、探索的过程,往往是一个需要消耗大量时间、资源,且并没有实际产出与盈利的过程。

即便是创造了 ChatGPT 的 OpenAI,目前也处于严重亏损的状态(其去年的亏损已达 5.4 亿美元)。

这对于国内许多急功近利的企业而言,无疑是一个重大的考验。

因为国内巨头们对技术性风口的追逐和热爱,不坚定,也缺乏耐心。

举例来说,全民造芯运动中,在 2017 年,资本对半导体的狂热达到了一个顶端,创下至今最高历史记录,单笔平均融资达到 8 亿元。

然而,一旦察觉某类技术的研发,是一场漫长且难见收益的过程,某些企业的「浮躁」与「摇摆」就会逐渐显现。

2020 年,武汉弘芯半导体,号称千亿投资,台积电技术大牛执掌。但成立仅仅三年,就被曝出项目欠薪停摆。武汉弘芯将大陆唯一一台,价值 5 亿多元,能够生产 7nm 芯片的光刻机,拿去银行抵押续命。

由此可见,国内外大模型的竞争,表面上看,是数据集多寡、质量高低的竞争;稍微深入了看,是大模型工艺的比拼;而再深入到底层,就变成了不同的商业文化,乃至生态的综合竞争了。

(声明:请读者严格遵守所在地法律法规,本文不代表任何投资建议)

(0)
上一篇 2023年6月6日 下午4:13
下一篇 2023年6月6日 下午9:46

相关推荐

  • 如何构建一款杀手级的Web3社交媒体平台?

    到目前为止,我们看到的很多协议都是在试图克隆现有社交网站的功能:Web3 Twitter、Web3 TikTok、Web3 Reddit、Web3 Twitch。它通常是一种近乎克隆但低于标准的体验,不得不让用户每次交互都支付 Gas 费用,并且“模糊地”承诺了更好的创作者货币化或数据所有权。

    2022年9月25日
    549
  • Web3世界日报(2023-6.5)

    dYdX财库拨款660万美元以启动运营subDAO V2的提案已获投票通过。摩根大通与印度6家银行合作,在区块链上结算银行间美元交易。链游Illuvium将与游戏零售商GameStop合作推出NFT,6月12日启售。

    2023年6月5日
    1.6K
  • Web3世界日报(2023-7.17)

    Web3社交图谱协议Lens Protocol发布V2版本,集成“Open Actions”和 ERC-6551。MakerDAO关于引入“智能销毁引擎”的执行投票获得通过,DSR也将降低0.30%至3.19%。zkSync Era宣布推出证明系统Boojum。

    2023年7月17日
    1.1K

发表回复

登录后才能评论
微信

联系我们
邮箱:whylweb3@163.com
微信:gaoshuang613