(DeepSeek)的故事
DeepSeek是一家成立于一年的中国公司,它正在改变AI行业的局面。该公司推出了一个聊天机器人,性能与ChatGPT相媲美,但耗能、冷却和训练成本仅为OpenAI、Google和Anthropic系统的一小部分。
什么是DeepSeek?
DeepSeek(正式名称:杭州DeepSeek人工智能基础技术研究有限公司)是一家中国的AI初创公司。它于2023年4月成立,最初作为其母公司高飞者的AI实验室。五月份,DeepSeek被分离出来,并发布了DeepSeek-V2模型。该模型与其他领先的中国AI公司,例如字节跳动、腾讯和百度,具有相同的性能,但其运营成本却大大减少。
随后,该公司于2024年12月发布了V3模型。这是一个671亿参数的模型,据说只花费了两个多月的时间训练。它比Meta的Llama模型还要便宜。根据Jeffries最近的分析,DeepSeek的“训练成本仅为$5.6万(假设$2/800小时租赁费用)。这低于Meta的Llama模型成本的一小部分。”

🚀 介绍DeepSeek-V3!
最大突破:
⚡ 每秒60个令牌(V2三倍)!
💪 增强功能
🛠 API兼容性保持不变
🌍 全开源模型与论文🐋 1/n pic./p1dV9gJ2Sd
— DeepSeek (@deepseek_ai) December 26, 2024

benchmark测试表明,DeepSeek-V3的性能与GPT-4o和Claude 3.5 Sonnet相同。DeepSeek在The Hill的一篇12月2024年的评论文章中被称为美国“斯普特尼克时刻”。
DeepSeek R1-Lite-Preview模型
DeepSeek于2024年11月发布了R1-Lite-预览模型,宣布该新模型可以超越OpenAI的o1推理家族,并且成本更低。该公司估计,其R1模型在各种任务中都比OpenAI o1省钱20倍到50倍。随后,该公司于2025年1月发布了DeepSeek-R1和DeepSeek-R1-Zero。R1模型不同于其o1竞争对手,它是开源的,这意味着任何开发者都可以使用它。
DeepSeek为什么突然这么受到关注?
自从ChatGPT在2023年11月发布以来,美国AI公司一直专注于打造更大的、更强大的、大型语言模型。他们没有寻求成本更加有效和能耗效率的LLMs,而是选择简单地通过大量金钱和资源来推动技术进展。OpenAI CEO Elon Musk预计在2024年将个人花费10亿美元以上用于AI项目。OpenAI及其合伙人刚刚宣布了5000亿美元的Project Stargate计划,以加速美国绿能利用和AI数据中心建设。此外,Google计划于2025年重点推广Gemini平台,并计划在这一领域花费数十亿美元。
DeepSeek只是证明,所有这些都不是必要的。这意味着“AI繁荣”可能仅仅是幻想。它也促使人们质疑美国是否真正领先AI领域,而过去一年的禁运措施再次呼应了这一问题。
