DeepSeek 可能借鉴或受到启发的模型

· 默认分类

(1)LLaMA(Meta)
相似点:
LLaMA 2 是一个高效的大语言模型,DeepSeek 可能借鉴了 LLaMA 2 的架构和训练方法。
LLaMA 2 采用了 Group Query Attention (GQA) 和 SwiGLU 激活函数,DeepSeek 可能也采用了类似优化。
不同点:
DeepSeek 主要针对 中文优化,而 LLaMA 2 是以英文为主。
DeepSeek 可能在数据集上做了更多中文增强。
(2)Mistral 7B
相似点:
Mistral 7B 采用了 Sliding Window Attention (SWA) 来提升长文本处理能力,DeepSeek 可能也使用了类似技术。
Mistral 7B 是 开源 Apache 2.0 许可证,DeepSeek 可能参考了其优化策略。
不同点:
DeepSeek 的参数规模比 Mistral 7B 更大(DeepSeek R1 是 67B)。
DeepSeek 主要针对 中文优化,Mistral 7B 主要针对英文。
(3)GPT-3.5 / GPT-4(OpenAI)
相似点:
DeepSeek 可能在训练策略上借鉴了 OpenAI 的方法,如 混合专家(MoE)架构 或 RLHF(人类反馈强化学习)。
不同点:
GPT-4 是闭源的,DeepSeek 不能直接使用 OpenAI 的模型参数。
OpenAI 主要针对全球市场,DeepSeek 主要优化 中文 NLP 任务。
(4)ChatGLM(清华 & 智谱 AI)
相似点:
ChatGLM 也是一个 专注于中文的大语言模型,DeepSeek 可能使用了类似的数据增强策略。
不同点:
ChatGLM 采用 自适应量化技术 以减少计算成本,而 DeepSeek 可能使用了不同的优化方式。