关于DeepSeek的几点思考

VIP免费
3.0 2025-07-28 999+ 99+ 374.4KB 3 页 1智慧点
侵权投诉
UserDisable UserDisable 692CB34C90580934353CEA79 oss.ngzxh.com 0003-00000801 https://api.aliyun.com/troubleshoot?q=0003-00000801
摘要:

关于这几天很火的DeepSeek,我们(ArchermanCapital)做了一些研究和思考,和大家分享,enjoy!灰色部分是技术细节,不感兴趣的可略过。几个事实1)DeepSeek不是套壳不是蒸馏美国的大模型。虽然中国有些大模型是套壳和蒸馏的,但DeepSeek不是。2)核心架构还是基于Transformer,deepseek在架构、工程设计上进行了创新和工艺提升,实现效率优化。架构上,采用了混合专家模型(MoE)、多头潜注意力(MLA)、多令牌预测(MTP)、长链式推理(CoT)、DualPipe算法等设计,并进行了依赖强化学习(RL)而不加入监督微调(SFT)的训练尝试。工程上,在数据...

展开>> 收起<<
关于DeepSeek的几点思考.pdf

共3页,预览1页

还剩页未读, 继续阅读

分类:热门知识 价格:1智慧点 属性:3 页 大小:374.4KB 格式:PDF 时间:2025-07-28

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 3
客服
关注