关于DeepSeek的几点思考
关于这几天很火的DeepSeek,我们(ArchermanCapital)做了一些研究和思考,和大家分享,enjoy!灰色部分是技术细节,不感兴趣的可略过。几个事实1)DeepSeek不是套壳不是蒸馏美国的大模型。虽然中国有些大模型是套壳和蒸馏的,但DeepSeek不是。2)核心架构还是基于Transformer,deepseek在架构、工程设计上进行了创新和工艺提升,实现效率优化。架构上,采用了混合专家模型(MoE)、多头潜注意力(MLA)、多令牌预测(MTP)、长链式推理(CoT)、DualPipe算法等设计,并进行了依赖强化学习(RL)而不加入监督微调(SFT)的训练尝试。工程上,在数据...
2025-07-28
374.4KB 3 页 999+
99+
1智慧点