追赶ChatGPT的难点与平替

本文来自微信公众号：李rumor（ID：leerumorr），作者：rumor，题图来自：《钢铁侠2》

【资料图】

卷友们好，我是rumor。

最近ChatGPT真的太火爆了，让人很难静下心。一方面是对它的能力感到不安，以后各个NLP子任务可能就统一起来了，范式也会变成预训练+Prompt，不需要那么多精调模型的算法了。另一方面是对国内复制ChatGPT感到悲观，那么大的模型，真的需要很强的决心，投入足够的人力、财力和时间才能做出来。

调整了几周，终于回归开卷的心态，捋了一遍我认为复现ChatGPT的难点与平替方案。由于个人精力有限，以下调研肯定存在纰漏，欢迎大家一起讨论补全。

难点1：高效率的算法框架

大模型的训练并不如想象那样容易，需要一个强大的工程框架进行支持。参数量上去之后，需要把模型和数据分散放到多个GPU卡上，卡之间如何通信、调度，进行高效的反向传播，都有很多坑等着大家去踩。就像前几年，即使阿里的技术那么强，双十一流量上来了服务器也得崩一会。而且算法框架一旦出现bug，模型可能都收敛不了，或者效果上不去。同时，训练效率非常重要，可以极大地降低试错成本。

知道了训练框架的重要性后，我们再来看OpenAI做到什么地步：

图：Microsoft Research Blog

早期的从业者一定对这张图有印象，当时Megatron-LM和DeepSpeed已经把模型提到了一个我们不敢想的尺寸（普通算法团队人均2张V100就很幸福了），结果2020年中OpenAI一下发布了175B的GPT-3。从那时起，OpenAI算法框架的容量就领先了一到两个数量级。

好在大厂们在近两年的大模型竞赛中都迭代出了自己的框架，不过这次，强化学习范式RLHF的加入又给训练框架带来了新的挑战。我去年大概花了4个月的业余时间去做强化学习项目和打比赛，有两点让我十分痛苦：

1. 动不动就训崩了，在奖励很稀疏或者自己魔改奖励的情况下，模型往往走捷径往意想不到的地方发展。

2. 不同的框架往往给出不一样的结果，开源框架百花齐放且不一定靠谱，我自己就前后换了3个。跟业内三个RL同学交流下来，他们公司都选择了自研而不是用开源的，不像NLP一样大家都用Transformers。

好在这次的奖励是连续的，损失函数也明确给出来了，而且基础PPO的复现门槛也没有那么高。

更好的消息是，最近已经出了一个平替方案ColossalAI^[1]，由国人打造，从一些介绍来看效率是超过Megatron-LM和DeepSpeed的，而且已经做了ChatGPT的部分实现（还不支持PPO-ptx），接下来就看大家使用的效果了。

难点2：先追上GPT3

从符尧大佬对于ChatGPT能力起源的追溯来看，一个好的预训练模型会涌现出诸多能力：

1. 上下文学习能力（In-Context Learning）：可以不经过精调直接理解输入的指令和示例；

2. 长距离理解能力：是之后多轮对话的基础；

3. 具有常识知识、并可以进行推理；

4. 跨语言能力；

5. 代码生成能力；

而且从符尧另一篇对大模型能力的研究看来，至少要参数规模62B以上的模型才能有一定少样本效果。真的追上这些能力需要耗费很大财力、人力和时间，估计现在各个厂都在批发A100了，起码千张，预算上亿。

好在也有一些平替方案，支持中文的有mT5（176B）、GLM（130B）和BLOOM（176B），但其中只有BLOOM是GPT架构。另外还有mT0和BLOOMZ，是Instruction Tuning后的版本。

难点3：获取真实的用户输入

从GPT3到ChatGPT，主要是基于用户的真实输入进行标注，再对模型进行精调，从而拟合了人的偏好（称为Alignment）。

所以前段时间让我最焦虑的就是它的马太效应，或者数据飞轮，它效果越好，用的人越多，从而不断帮它提升拟合效果。技术问题都有平替，但我们去哪儿找上亿的用户来源源不断的输送Prompt呢？

第一个平替方案，是借鉴Instruction tuning的论文，用各种NLP数据集构造Prompt。但这并不是最优解，因为InstructGPT也做过这个实验，用FLAN和T0的数据进行精调，效果如下：

图：OpenAI

如果要做通用模型，最好还是符合用户的分布，可以看到InstructGPT的分布统计：

图：OpenAI

看到真实分布后，我的焦虑缓解了一些，感觉还是可以找到冷启动平替的。首先占比最高的生成任务，很多预训练模型都可以做，比如写诗写故事，大家之前应该见过很多了，刚开始不一定需要特别去优化。其次就是OpenQA，这个有不少数据可以爬，比如百度百科、知乎。头脑风暴可以通过关键词在爬到的问答数据中筛选。剩下几个任务有些是传统NLP任务，也有开源数据集。

难点4：趟过精调的坑

对于精调，OpenAI分了两个步骤：有监督精调（SFT，下图step1）、强化学习训练（RLHF，下图step2+3）。

图：OpenAI

虽然有看到一些观点，认为不用RL，有更好的监督数据也可以做ChatGPT，甚至RL+NLP近年来一直不被看好^[2]，但最近回顾了OpenAI在20年和22年的两篇RLHF文章之后，个人认为ChatGPT精调的重点在于RLHF阶段。

举个不一定恰当的栗子，假设我们把训模型当作带孩子：

1. Pretrain：在孩子0-3岁的时候，我们没法讲太多道理，他也听不懂，更多的是让他自己观察这个世界，自由学习。

2. Instruction Tuning：孩子学会说话了，也对世界有了基本认知，我们就可以开始通过示范教他一些东西，比如怎么穿衣服、怎么刷牙。

3. RLHF：等孩子再大点，很多事情都会了，便不会再完全模仿父母，而是有自己不一样的行为，这时候父母就需要对这些不可预料的行为给出反馈，在他取得好成绩时奖励，在做坏事后惩罚。

再回到生成任务本身，长久以来NLP里的范式都是以最大似然为目标，用teacher forcing的方式拟合标注同学写出的句子。那万一标注同学偷懒呢？

对于“到底什么是好的回复”这个问题，每个人都有不同的答案，但必须定义好目标，才知道模型应该往哪里优化。谷歌训LaMDA对话模型时就给出了5个维度的定义，再朝着这5个方向拟合，而人类语言博大精深，5个维度真能评价一段话的好坏吗？

RLHF范式的关键就在于，它能真正让模型去拟合人的偏好，同时给予模型一定的自由度，这样才能让模型先模仿再超越，而不是重复Instruction tuning中的一些pattern。

上述的说法可能比较主观，接下来让我们看OpenAI官方给的实验数据：

在摘要生成任务中，RLHF精调后的模型大幅超越SFT的效果。另外论文中的其他实验也证实了RLHF模型具备更好的跨领域泛化能力：

图：OpenAI

在InstructGPT论文中，1.3B经过RLHF的模型可以超过175B模型SFT的效果：

图：OpenAI

从上述结果可以猜测，在人力、算力、时间有限的情况下，效率最优的路径是直接在1.3B模型上迭代，大概10万标注数据，复现一个低配小型ChatGPT，验证整个流程的有效性，再去做175B的模型。

遗憾的是目前RLHF这个部分趟过坑的人太少，没法找到平替，我只想到了用小模型快速迭代的方案，接下来的踩坑就看大家了。

另外，关于为什么以前一些RLHF的工作不奏效，我认为关键的点是：

从这篇论文来看^[3]，标注同学更倾向抽取式答案，模型学偏了，而OpenAI这次在标注上下了狠功夫。另外该工作是用人作为RM，效率较低。

DeepMind Sparrow^[4]其实只在某个对话数据集上进行了训练，和真实分布不一样，另外它加入的Rule Reward可能也有影响。目前我觉得核心还是没在数据上下狠功夫，就是简单follow了一下OpenAI。但该论文有70多页，我实在读不动了，之后会不时重读刷新认知。

总结

在上文中，我列了4条我认为复现ChatGPT的难点，与一些替代方案，如果每个方案都打个折，确实是复现到60%的程度，和业内乐观的预测一样。

另外，我其实一直没提标注数据的重要性，因为标注数据的平替非常容易，直接跟老板要预算去调OpenAI接口吧。不过OpenAI论文里有一句话我特别喜欢，希望自己在以后做模型的时候谨记：

We train all labelers to ensure high agreement with our judgments, and continuously monitor labeler-researcher agreement over the course of the project.

得先训练好标注同学，才能训好模型，请所有人跟我默念三遍（狗头）。

最后，和大家分享使我焦虑下降的两个点：

OpenAI最新一篇博文显示^[5]，他们后续的方向之一是在通用模型上做定制化模型，我估计不会失业了，又可以洗数据了。

自从发现1.3B的模型+RLHF就可以很强之后，我觉得在真正的落地中，训一个for单一生成任务的定制化ChatGPT不再那么遥不可及，一两张A100和十万级别的数据就可以了（可能过于乐观，但我就是经常在热血和焦虑之间横跳）。

参考资料

[1]ColossalAI: https://github.com/hpcaitech/ColossalAI

[2]知乎：当前（2020年）机器学习中有哪些研究方向特别的坑？: https://www.zhihu.com/question/299068775/answer/647698748

[3Fine-tuning language models from human preferences: https://arxiv.org/abs/1909.08593

[4]Sparrow: https://www.deepmind.com/blog/building-safer-dialogue-agents

[5]How should AI systems behave， and who should decide?: https://openai.com/blog/how-should-ai-systems-behave/

作者介绍：我是朋克又极客的AI算法小姐姐rumor，北航本硕，NLP算法工程师，谷歌开发者专家

本文来自微信公众号：李rumor（ID：leerumorr），作者：rumor

推荐内容

追赶ChatGPT的难点与平替

魔兽世界死亡骑士什么种族最好？魔兽世界死亡骑士骑术在哪里学？

江湖悠悠饮一壶浊酒是什么歌？江湖悠悠酿酒配方有哪些？

“小天才”探路“老天才”？社交儿童手表的“银发”布局猜想-今日观点

江湖悠悠葱油饼别称是什么？江湖悠悠葱油饼怎么做？

qq飞车缘分天空怎么修改头像？qq飞车缘分天空怎么关闭？

大话西游2倒酒任务怎么倒？大话西游2倒酒顺序是什么？

炉石传说冰霜之王埃霍恩怎么样？炉石传说冰霜之王埃霍恩怎么打？

欢乐斗地主的头衔顺序是什么？2023欢乐斗地主的兑换码是多少？

魔兽世界一箱战歌之斧在哪里？魔兽世界一箱战歌之斧多少钱？

中国救援队土耳其九日-环球速递

煮茶器：春日邀三两好友闲坐 共煮一壶好茶-环球精选

送自己的开年礼物：用七款3A大作，帮你体验暗影精灵8 Pro-天天滚动

春日风光好！用这三台影像旗舰手机把它们留住-世界速递

孙兴慜：没人想座替补席，但上场了就尽最大努力去帮助球队-天天时快讯

ins博主时尚jelly浅色系穿搭 饱和度的色调不俗气

酱酒新周期下，品牌如何突围寻找新出路，夜郎古酒给出高分答案

特斯拉创始人打脸马斯克：自动驾驶是胡扯 汽车不应像iPhone-快报

如何知道自己的电子邮箱_如何知道自己的电子邮箱号-天天速看料

规范手机预置软件势在必行

赞比亚进行技术测试以监管加密货币-全球新视野

Platypus正在制定补偿计划，或将在AAVE治理论坛发布恢复提案-天天消息

徐明星：OKB是多链代币，还会在以太坊和OKC上发行-环球时讯

云南澄江：4月15日起超标电动车将不能上路

微软限制必应聊天机器人回复次数 此前机器人给出情绪化答案引争议

李彦宏、马化腾、雷军等出席中国互联网协会新春茶话会-快资讯

马斯克谈OpenAI：它变了?与创办时的初衷背道而驰-每日快看

高档商务车就看它！大众MPV全系2.0T，长超5.3米，更大更便宜！-速递

RTX 4050曝光：甜品级2000元档 夏天上市-今日快讯

苹果上新348元保护膜！网友：觉得贵就不是目标客户-今日快讯

联想拒绝“漂绿”-天天看热讯

直飞多个城市 芜宣机场将新增一批航线-全球看热讯

小家电三巨头业绩冷热不均，苏泊尔营收微降北鼎利润降幅明显-当前最新

家电业绩复苏萌动 总体趋好

2022年合肥市家电产业实现产值近900亿元-世界速看

双腿酸痛怎么办快速缓解_双腿酸痛怎么办

七彩虹上架新款战斧内存条：16G*2 DDR4-4000，599元

和联网后的ChatGPT聊了两小时后，脊背发凉-天天快消息

告别Lightning接口，iPhone 15终于用上USB-C-每日速讯

事业差异大，渐行渐远，鹿晗和关晓彤被爆已分手-环球聚看点

马斯克谈OpenAI：它变了，变得面目全非-每日快讯

广州雷尔教育咨询有限公司

数据：稳定币USDT市值重返700亿美元-世界资讯

谷歌陷入了企业文化危机？-当前热门

外卖领域的“野蛮人”：抖音的存量博弈VS美团的增量战场

超越GPS主导国内导航定位 北斗日定位量超3000亿次-世界消息

一文盘点,ZBC的应用场景与通缩场景-今日热讯

MistTrack：未知实体地址0x6fb5收到Harmony Bridge攻击者多次转账，并将资金跨链转出到OKX等交易所-焦点报道

如何用雪碧煮火鸡-环球短讯

广西工程职业技术学院平果校区官网_广西工程职业技术学院

微软必应步子迈太大，聊天机器人是有个性还是扯淡？-最新快讯

144MB缓存游戏神U！锐龙9 7950X3D跑分首曝：果然不出所料-精选

微软向 Surface Duo 1/2 推送 2 月固件更新，大小在 300MB 左右-天天热闻

字节旗下Pico与腾讯XR团队裁员 流量补贴策略玩不转元宇宙-环球微头条

结婚家具家电男方买还是女方买_结婚家具-世界速讯

微软将把必应聊天单个问题回复限制在5次之内?以防人工智能越界

公有ChatGPT和私有ChatGPT-世界热文

科学家研发出男性避孕药：2小时内100％有效、无副作用-全球速看

96v50ah电动车跑多远_96v50a电动车能跑多快

原厂Nano IPS面板加持的“六边形”战士！HKC神盾系列MG27Q显示器评测-世界今日报

大学本科双学士学位什么意思_大学本科双学士学位-当前关注

博主：14岁中国小将邝兆镭即将加盟西班牙人俱乐部

夜郎古酒新宣言！“成为中国文化名酒的百亿品牌”

开心滑着雪呢，我咋就“被车祸”了？-每日速递

诱导用户离婚，微软新Bing“精神错乱”了吗？-全球热消息

暗能量起源于黑洞？首个观测证据找到了

送自己的推文上热搜 ？马斯克回应：媒体错误报道-每日头条

如何制作包子封面

链游开发商Unagi完成500万美元种子轮融资，Sisu Game Ventures领投

闪电贷攻击+业务逻辑漏洞：Platypus Finance事件分析

美SEC：Do Kwon和Terraform转移逾1万枚比特币，并通过瑞士银行套现1亿美元-全球通讯

ChainAegis：BUSD链上数据分析报告

年薪18.3万美元，ChatGPT通过谷歌入职测试

智能眼镜十大品牌_圈牌智能眼镜

OPPO Find X6系列正面设计曝光 边框更窄更有质感-环球视点

还在花钱看“假高清”？看看是谁在坑你

新型测绘技术赋能智慧城市建设-时快讯

用户真实口碑！哪吒U-II“才智”过人 实力圈粉

赖育文，万和新总裁首次公开亮相-滚动

煮茶器：春日邀三两好友闲坐共煮一壶好茶-环球精选

ins博主时尚jelly浅色系穿搭饱和度的色调不俗气

特斯拉创始人打脸马斯克：自动驾驶是胡扯汽车不应像iPhone-快报

微软限制必应聊天机器人回复次数此前机器人给出情绪化答案引争议

RTX 4050曝光：甜品级2000元档夏天上市-今日快讯

直飞多个城市芜宣机场将新增一批航线-全球看热讯

家电业绩复苏萌动总体趋好

超越GPS主导国内导航定位北斗日定位量超3000亿次-世界消息

字节旗下Pico与腾讯XR团队裁员流量补贴策略玩不转元宇宙-环球微头条

送自己的推文上热搜？马斯克回应：媒体错误报道-每日头条

OPPO Find X6系列正面设计曝光边框更窄更有质感-环球视点

用户真实口碑！哪吒U-II“才智”过人实力圈粉

iPhone 15系列采用USB-C接口基本确定但可能仍不通用-关注

苹果上架348元新款钢化膜高价引发争议-环球看热讯

烟大路西侧部分护栏缺失山之韵小区门口违停严重

拯救者Y900平板开始预热将配备3K OLED高刷屏-世界即时

三星S23 Ultra影像体验：2亿像素随意裁切后置四摄调校臻至化境-观察

阿里华科大举办AI大赛招募全网P图高手对战鉴假算法-视焦点讯

“白嫖”到头了？美国媒体机构要求ChatGPT支付授权费-环球热点评

协助桃农销售大桃北京平谷人才发展大会给董宇辉颁奖-每日视讯