DeepSeek 可能借鉴或受到启发的模型

（1）LLaMA（Meta）
相似点：
LLaMA 2 是一个高效的大语言模型，DeepSeek 可能借鉴了 LLaMA 2 的架构和训练方法。
LLaMA 2 采用了 Group Query Attention (GQA) 和 SwiGLU 激活函数，DeepSeek 可能也采用了类似优化。
不同点：
DeepSeek 主要针对中文优化，而 LLaMA 2 是以英文为主。
DeepSeek 可能在数据集上做了更多中文增强。
（2）Mistral 7B
相似点：
Mistral 7B 采用了 Sliding Window Attention (SWA) 来提升长文本处理能力，DeepSeek 可能也使用了类似技术。
Mistral 7B 是开源 Apache 2.0 许可证，DeepSeek 可能参考了其优化策略。
不同点：
DeepSeek 的参数规模比 Mistral 7B 更大（DeepSeek R1 是 67B）。
DeepSeek 主要针对中文优化，Mistral 7B 主要针对英文。
（3）GPT-3.5 / GPT-4（OpenAI）
相似点：
DeepSeek 可能在训练策略上借鉴了 OpenAI 的方法，如混合专家（MoE）架构或 RLHF（人类反馈强化学习）。
不同点：
GPT-4 是闭源的，DeepSeek 不能直接使用 OpenAI 的模型参数。
OpenAI 主要针对全球市场，DeepSeek 主要优化中文 NLP 任务。
（4）ChatGLM（清华 & 智谱 AI）
相似点：
ChatGLM 也是一个专注于中文的大语言模型，DeepSeek 可能使用了类似的数据增强策略。
不同点：
ChatGLM 采用自适应量化技术以减少计算成本，而 DeepSeek 可能使用了不同的优化方式。