加入怡居
過去7年,我司每年平均捐出52%純利作慈善用途,款額動輒以百萬元計,可稱實 至名歸的社會企業。閣下光顧我司,是變相自己做善事!日後請多多光顧為感!
尖沙咀總行 : 2569 2192
太古城華山分行 : 2569 1339
沙田銀禧分行 : 2636 1380
太古城明宮分行 : 2560 3738
沙田第一城專責組 : 2647 1838
杏花邨專責組 : 2898 0007
尖沙咀總行 : 2569 2192
太古城華山分行 : 2569 1339
沙田第一城專責組 : 2647 1838
沙田銀禧分行 : 2636 1380
太古城明宮分行 : 2560 3738
杏花邨專責組 : 2898 0007
   回應 : 0
奇、趣、妙、識
想用好DeepSeek?来,先知道它厉害在哪儿
罗辑思维
2025年2月21日

(原文發表於2025年2月15日)

01

R1性能大幅增长的原因

 

R1模型引入了不依赖监督微调的强化学习,可以让微调之后模型性能大幅增长,比如数学能力上,基础模型如果是100分,微调后能达到450分。而此前所有的微调,顶多就是让性能维持基础模型的性能,不降低就不错了。
这是为什么呢?
DeepSeek R1这个方法就是,在简单的奖励标准下,直接上强化学习,不要那个容易造成评判标准割裂的奖励模型了。
奖励标准就是两条:
第一条奖励标准是答案是否正确。
这个主要针对数学问题和编程问题。因为数学题的答案我们是可以事先知道的,对与不对非常清晰;编程问题也一样,最后就看代码能不能运行,运行结果符合不符合要求,这个判断也是非常清晰的。
第二条奖励标准:R1模型能够在微调过程诞生推理的关键,就是让基础模型按照指定模板输出,这个模板就是强制性地在结果前带上思考过程。
而且对每个问题来说,先由基础模型每次生成16个候选回答,然后在16个里算它们的平均分和标准差,并按照一定的数学原理(KL散度约束),按高分答案调整模型参数,调高优秀答案成为结果的概率。多轮迭代后,就会出现神奇的效果——仅靠微调就能让大模型输出自带高水准的推理过程。
这个训练过程相比传统的先做一个奖励模型,再用奖励模型给基础模型做强化学习,这中间的割裂就不存在了。如果打一个比方,两种方法有点像不同的方式学数学:
第一种是以老师手把手的教学为主,学生的主要任务是理解老师教授的内容,背下标准解法和步骤,今后面对所有问题套用老师教学的内容。在学习阶段,只要有一点和老师教的不一样,老师就马上提醒。
这种方法下也会有出色的学生,但要求老师本身很好,知识面很广,而且今后学生面对的问题也不能偏离老师的知识范围太大。
第二种方法是大幅弱化老师的指导,让学生自己做一大堆题,学生必然最开始大部分都做错了,但是没关系,每次做对时,老师把题都给你归拢到一起,你自己消化理解我为什么在这些方面做对了,自己捋出头绪,逐渐理解的内容越来越多,也越来越能自己处理难题了。
这两种方法下,想要达到同样的性能,第二种需要做的练习就多得多,这也是,DeepSeek在微调阶段需要的算力远比传统模式下微调阶段需要的算力大得多的原因。
当然,我这里说的“大”,指的并不是绝对算力值的消耗值,而是预训练和微调这两个阶段消耗算力的比值。传统方法下,预训练可能消耗全部算力的90%-98%。
也就是说,微调阶段在传统方式下只会匀给它2%-10%的算力;而在DeepSeek的方法里,微调阶段需求的算力占比可能是30%-40%,而由此换来的就是推理能力、数学能力的大幅提升。
为什么DeepSeek会这么做呢?
这要说到2017年底的DeepMind团队。大众普遍关注的是,前一年AlphaGo大战李世石的事,那象征着AI在围棋上正式超越所有人类。而大众普遍忽视的是,一年后DeepMind又推出了一个AlphaGo Zero。
这个版本和战胜李世石的算法非常不一样。之前是需要灌输人类历史上所有围棋对弈棋谱让它来学习,而Zero版本的训练,一份棋谱都不需要输入。这也是为什么这个版本的名字带Zero的原因,代表的是“从零学习”。Zero只用了3天的训练时间,就能以100比0的成绩战胜了曾经干掉李世石的那一版程序。
R1模型里,每一轮由模型自己生成多个新答案,就是16个,让其中质量较高的答案成为下一轮的训练数据、反复循环、让合理的参数自己生长出来的思想,就和7年前的AlphaGo Zero是高度类似的,不用再让模型在海量的人类标注数据中学习了。
虽然AlphaGo Zero从未被官方完整开源过,但开源社区不止一个团队根据DeepMind公布过的核心算法在2017年-2018年间复现了这个下棋的模型。
这个想法后来还被用于下国际象棋、日本将棋,也都是秒杀前一代AI的水平,而不是秒杀前一代的人了。而且最核心的优势是,Zero的实现过程不需要搞来历史上尽量多的棋局训练,一切都可以从零起步。
我相信,DeepSeek尝试这种新的方式的微调,AlphaGo Zero一定给了他们不少信心。所以当R1模型刷屏全球新闻时,Meta的首席人工智能科学家杨立昆才会说,这不是两国人工智能谁超过谁的问题,而是开源模型战胜了专有模型,是开源的胜利。
我认为,他这个评论是非常精准的。而且我还想多预测一点:今后大多数由算法带来的台阶式提升,也大都来自开源社区。中国的AI发展也应该把重点放在开源社区上。

02

基础模型V2和V3的技术改进

当然,我刚刚介绍的只是版本为R1的进步,而我前面一直提到的,R1是在基础模型上做的微调,那个基础模型是谁呢?
就是R1的前一个版本——V3版本模型。
V3版本也有很多精彩的技术改进。比如Multi-Token Prediction,一次预测2个token,而传统方式一次只预测1个。
当然,这个创新的核心并不是1个增加到2个,如果创新这么简单的话,别人早就一次预测100个token了。这个创新的核心是,怎么添加一个额外的小型transformer层,用来生成第二个token,怎么设计双重的损失函数。而这样设计带来的效果就是,在训练和推理中都减少了对算力的需求。
这样专门瞄准节省算力的改进还有很多。
比如,参数采用了FP8混合精度。最早在大语言模型还没出现前,神经网络普遍采用的是FP32,后来逐渐下探到FP16和BF16混合精度,然后又出现了INT8的格式,2023年后业界才出现FP8混合精度的格式。
当然,要把这些格式和为什么这些格式能大幅缩减训练和推理过程中的算力成本说清,可能都需要另外单开两期内容了。我们只要知道不论是V3版还是更早的V2版,大部分核心技术都是想方设法节省算力。
再比如,DualPipe技术是之前开源社区里很少有人尝试的方法,这是一种对英伟达计算卡底层设置的优化。
DeepSeek训练中使用的计算卡,主要就是A100、H800和H20,其中H800和H20都采用了Hopper构架。这个构架里有132个流处理器,每一个都可以处理2种不同的任务——计算和通信,DeepSeek专门把其中32个设置成只作通信用了。
计算好理解,毕竟训练过程就是海量的矩阵乘法。而通信又是什么呢?
主要是因为,一张计算卡配备的缓存一般都装不下整个大语言模型,要分拆到好几张显卡的显存中才行,这些显卡之间的状态需要同步,计算的中间结果需要传输,往往是卡越多,计算任务所占的比例越低,甚至可能出现超过一半的工作时间都是在处理通信任务。
DeepSeek买到的计算卡,由于受到芯片法案的出口限制,英伟达就不得不在通信任务的处理能力上做了削减。比如,H100阉割成H800后,通信能力大约下降了6成左右,通信延迟增加了2倍。
DeepSeek只能做更底层的优化。原本132个流处理器既可以处理计算任务,也可以处理通信任务,但DeepSeek用PTX语言强制其中32个只能用于处理通信任务。于是在V3训练的典型负载下,尽管计算单元少了,但通信上的瓶颈一下解放了出来。
PTX虽然也是英伟达推出的CUDA工具套件的一部分,但一般的开发者是不会重新定义流处理器功能的。因为大多数人这么做后都干扰了L1缓存的预取策略,或者导致寄存器的压力分配不均,反而导致训练效率下降。但DeepSeek精雕细琢后,把这件事搞定了。
以上是V3版本的一些改进,而V3又是从V2进化来的。
在V2中,DeepSeek还搞定了自己独有的混合专家模型(MoE),还有多头潜在注意力(Multi-Head Latent Attention)。这些我们就不从原理上一一介绍了。
总之,一切改进都以降低成本、提高计算卡利用率为首要目标,最终实现了一个和OpenAI的o1性能类似,但在训练和推理环节在成本上都大致降低了一个数量级的水平,而且明显超过之前开源模型里表现最好的Llama-3.3。
这种在资源不多的情况下,想方设法实现尚可表现的事情,我印象最深的就是86版《西游记》
那个年代,欧美电视剧的大制作已经很常见了,大部头的作品,一小时的播放时长投入几十万美元做特效是不稀奇的。而《西游记》当时一集经费不到6万块钱人民币。而《西游记》又远不是《红楼梦》那样,《西游记》是一个以妖魔鬼怪为主,特效占比很重的剧,所以很多哪怕在当时看都是很简陋的方案,就大量运用在拍摄中。
比如,龙宫幻境是把一个大金鱼缸放在摄像机前拍,缸里放海底可能出现的水草和鱼;仙女出现时候的柔光效果是用丝袜套在镜头前制造出来的,白色丝袜在天宫中用,肉色丝袜在仙女下凡时用。
但就是这样穷凑合的方式,最后用几十分之一的成本实现了欧美大片七八成的视觉效果。
而且开源社区里,来自中国的比较不错的模型,比如阿里的千问(Qwen),还有月之暗面的kimi,也都在提高算法效率、削减成本上做了很多尝试。
当然,这也是为什么美国那些懂技术的反对派呼吁要继续大幅提高AI芯片的出口管控的原因。
他们认为,之所以中国有R1这样出色的模型,还是因为出口禁令从酝酿到实施过程太慢,中间过渡期的一年多时间里,英伟达集中出售了太多阉割版的计算卡给中国公司,才让他们搞出了这个模型。如果当初连A100都买不到,算法上再怎么优化也无法超越GPT-o1。
确实如此,如果在硬件上落后3代以上,还真是很难追上。但在现代社会的技术很难做到完全封锁,顶多是迟上几年的事情。
 
 
我要回應
我的稱呼
回應 / 意見
驗証文字