DeepSeek+r1闭门学习讨论_+拾象+Best+Ideas+Vol+3_0127

VIP免费
3.0 2025-07-28 999+ 99+ 371.99KB 10 页 1智慧点
侵权投诉
This document is for information purposes only and does not constitute investment advice or an offer to sell or buy Fund shares. Any offering
is made solely through the Fund's official offering memorandum.
DeepSeek r1 闭门学习讨论| Best Ideas Vol 3
FromShixiang
To Shixiang Friends
Best Ideas 闭门讨论会 Vol.3」聚焦在引爆全球 AI 社区的 DeepSeek r1 ,本篇纪要是我们对
闭门会上参与讨论的嘉宾成员的观点的总结,不代表任何具体个人及机构观点立场。
I. DeepSeek
1. DeepSeek 有好口碑的原因在于是第一个把复现 MoEo1 等发出来,胜在做的早,但能
不能做的最好,空间还很大,和新挑战在于资源有限,只能把有限的资源放在最亮眼的
地方,但后续可能没有精力去做得更好,比如 MoE,这个团队的 research 能力、团队文
化还是很好的,如果再给 1020 万张卡,可能能做出更好的事情。
2. DeekSeek preview 到正式发布这段时间,长上下文能力提升很快。DeepSeek Long
context 10K 用非常常规的方法就能够做到。
3. DeepSeek 肯定没有 5 万张卡,公开信息说有 1 万张老的卡,可能有 3 千张禁令之前的
H800DeepSeek 很注重合规,所以卡应该很少。美国用 GPU 的方式太粗放了。
4. DeepSeek 把所有精力都放在了一个很窄的点,把后续很多东西都放弃了,比如安全、多
模态等,不是单纯在服务人,而是做智能本身,可能也是成功的关键因素。
5. DeepSeek 有一个文章是由文生图做图生文做耦合的学习。
6. 量化就是 DeepSeek 的商业模式。幻方就是上一轮 machine learning 的产物。DeepSeek
重要的事就是 push 智能。钱和商业化的优先级都不高。中国需要有几个领先 lab 来做探
索能 beat OpenAI 的东西,智能要走的时间很长,今年又开始分化,肯定要有新东西出
来。
7. 单从技术角度,DeepSeek 作为黄埔军校对人才扩散有很大作用。
8. 美国的 AI Lab 商业模式也不好,AI 今天确实没有什么好的商业模式,后面可能需要跑
通。梁总是有抱负的,DeepSeek 不在乎形态,往 AGI 走就是了。
This document for information purposes only and does not constitute investment advice or an offer to sell or buy Fund shares. Any offering is
made solely through the Fund's official offering memorandum.
9. 梁总是 DeepSeek 最核心的人,和 Sam 不是一类人,梁总是很懂技术的。
10. 读完 DeepSeek 论文的感受是,很多都是节约硬件开销的 tech,在比较大的几个 scaling
方向上,DeepSeek 的技巧可以把成本降下来。
11. 长期不会对算力有影响,但短期大家会想怎么把 AI 做的更加有效率一点。需求还是很强
的,各家都是不够用的状态。
12. 做投资,都选择最高级的组合,但现在觉得大家一起磨合好,能力也能慢慢变高级了,
挖走一个人是否能打破优势组合是一个问题,现在看对于 DeepSeek 的影响可能不是特别
大。
13. 市场上钱还是多,核心是文化组织,DeepSeek 和字节的 research culture 比较像,比较
fundamental,文化好不好的衡量标准在于是否有足够的钱和长期性,有比较重要的商业
模式才能有长期性的文化,这两家公司的商业模式都非常好。
14. DeepSeek 为什么能追这么快?
1) Reasoning model 的需求是更高质量的数据和训练。如果是长文本、多模态,从 0 开始
追一个闭源模型会更困难,但纯 reasoning 模型本身的架构没有大动,reasoning 是一个
更好追的方向。
2) r1 能追的快的原因可能在于任务没有特别难,RL 只是让模型选的更准,r1 没有突破
Consensus 32 的效率,同时花了 32 倍效率,相当于把原来并行做探索改成串行了,没
有提高智能的边界,只是变得更加容易了。
II. DeepSeek 圈的影响
1. DeepSeek 的出圈让外界意识到了中国的 AI 很强。以前外界认为中国的 AI 进展落后美国两
年,但 DeepSeek 表明其实差距在 3-9 个月,甚至某些方面更强。
2. 有可能导致美国的政策对中国的政策更加不利,但历史上封锁的东西,能被突破的都会很
卷,美国的封锁可能给 AI 多三年窗口期。
3. DeepSeek、小红书等公司也受到美国 VC 关注,中国资产的重组值得关注。
4. DeepSeek 做的事大概率是在不利用 H800 或者 A800 算力的前提下,用纯国产来做,如果
能做成,会有很大影响。
5. DeepSeek 不是突然爆发的,这次 r1 结果很漂亮,触及到了美国从上到下的核心圈。
This document for information purposes only and does not constitute investment advice or an offer to sell or buy Fund shares. Any offering is
made solely through the Fund's official offering memorandum.
6. DeepSeek 是站在巨人的肩膀上,但探索前沿需要的时间和人力成本还是要高很多,r1 并不
代表以后的训练成本会同时降低。
7. 中国作为追赶者可以发挥在 engineer 的能力,中美在算力的 gap 会越拉越开的,AI 探索者
还是需要更多的算力,中国怎么用较少的算力做出成果,从而有一定的抵御能力甚至做的更
好,可能是未来中美 AI 格局的推演。
8. 模型的核心差别在于下一个愿景是什么,而不是技术。
1) 中国今天还是在复现技术方案,reasoning o1 提出的,差距在于谁能提出下一个
reasoning。无限长度的 reason 可能是一个愿景。
2) 如果不了解最大技术的痛点,而选择用蒸馏的技术去避免了解,那在下一代技术提出的
时候,可能会掉进坑里,比如千问可能因为蒸馏太多,就掉坑里了,千问就想是不是对
过程进行监督,所以尝试了一下过程监督,但直接用结果监督更合适。若直接用结果监
督,前一个阶段的 SFT 就不能蒸馏太多 data
III. SFT
1. DeepSeek 最大的震撼是不需要 SFT 了,但只是在推理层面,推理外可能还是需要的,但需
要讨论是不是提出了一个新的范式或架构,使得对数据的利用效率更高了或者模型迭代速度
更快。
2. DeepSeek 证明了用 SFT 做蒸馏有很大好处。DeepSeek r1 的第三步骤只做了 SFT,最后一
alignment 再用了 LHFr1 本质是 SFT 训练出来的,特殊的是数据是用 LHF 训练出来的模
型生成的,说明不需要用特别复杂的方法,只要有足够好的方法,只需要用 SFT 蒸馏就行,
GRPO 的本质在于 base model 得足够聪明,一个 prompt 生成用了 16 generation,得尝试几
次才能大概率有正确的答案。不错的 base model 加上可以 verify,是 r1 提供的思路,math
coding 就是比较容易 verify 的。
3. r1 - Zero 没有用 SFT 就出现了 CoT 的过程,CoT 会越来越长,SFT 更像是一个辅助手段,
没有 SFT 也能产生,有了 SFT 能很快生成。
4. 现在很多小模型厂商可以用 SFT 去蒸馏大模型,效果会很好,但也没有在 r1 的过程中完全
被抛弃。无限长的 CoT 是一台图灵机,是可以解决问题的,但 CoT 本质上只是中间搜索结
果,用一种优化的方式去不停 sample potential output,可能会输出正确结果,然后让模型往
更可信的方向去推。本质上是模型为了得到这样的结果,必须要做一些 computationCoT
computation 中间必须经过的中间输出。
摘要:

ThisdocumentisforinformationpurposesonlyanddoesnotconstituteinvestmentadviceoranoffertosellorbuyFundshares.AnyofferingismadesolelythroughtheFund'sofficialofferingmemorandum.DeepSeekr1闭门学习讨论|BestIdeasVol3From:ShixiangTo:ShixiangFriends「BestIdeas闭门讨论会Vol.3」聚焦在引爆全球AI社区的DeepSeekr1,本篇纪要是我们对闭门会上参与讨论的嘉宾成员的...

展开>> 收起<<
DeepSeek+r1闭门学习讨论_+拾象+Best+Ideas+Vol+3_0127.pdf

共10页,预览3页

还剩页未读, 继续阅读

分类:热门知识 价格:1智慧点 属性:10 页 大小:371.99KB 格式:PDF 时间:2025-07-28

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 10
客服
关注