DeepSeek 是一款由中国团队开发的大语言模型(LLM),其底层模型基于改进的 Transformer 架构,并融合了多项创新技术以提升性能和效率。
1. 基于 Transformer 的核心结构
与主流大模型一致,DeepSeek 采用 Transformer 作为基础架构,利用自注意力机制(Self-Attention)有效捕捉长距离语义依赖,支持高效并行训练。
2. 多头潜在注意力(MLA)机制
DeepSeek 引入了 多头潜在注意力(Multi-head Latent Attention, MLA) 技术,在保持高推理速度的同时,显著压缩 Key-Value 缓存,提升长上下文处理能力。
3. 预训练与后训练两阶段流程
模型训练分为两个阶段:
- 预训练阶段:在海量互联网文本上进行自回归语言建模,学习通用语言知识。
- 后训练阶段:通过指令微调(SFT)和基于人类反馈的强化学习(RLHF),使模型输出更符合人类偏好与实际应用场景。
4. 多 Token 预测(MTP)
DeepSeek 支持一次预测多个 Token,提高生成效率,尤其适用于代码生成、长文本续写等任务。
5. 开源与生态
DeepSeek 系列模型部分版本已开源,支持开发者本地部署与定制化应用,广泛应用于编程辅助、内容创作、智能客服等领域。