DeepSeek新模型曝光:MODEL1代码预示新架构,最快有望2月发布
IT之家 1 月 21 日消息,新模型曝新架The 光M构最Information 月初爆料称,DeepSeek 将在今年 2 月中旬农历新年期间推出新一代旗舰 AI 模型 ——DeepSeek V4,代码将具备更强的预示写代码能力。
1 月 20 日,望月正值 DeepSeek-R1 发布一周年之际,发布有开发者发现 DeepSeek 在 GitHub 中更新了一系列 FlashMLA 代码,新模型曝新架横跨 114 个文件中有 28 处都提到了未知的光M构最“MODEL1”大模型标识符。
![]()
该标识符与已知的现有模型“V32”(即 DeepSeek-V3.2)被并列或区别提及。根据代码上下文分析,预示“MODEL1”很可能代表一个不同于现有架构的望月新模型。
开发者分析认为,发布“MODEL1”与“V32”在关键技术上存在区别,新模型曝新架主要体现在键值(KV)缓存的光M构最布局、稀疏性处理方式以及对 FP8 数据格式的代码解码支持等方面。这些差异表明新架构可能在内存优化和计算效率上进行了针对性设计。
此前,DeepSeek 研究团队还陆续发布了两篇技术论文,分别介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI 记忆模块(Engram)”。这一举动不禁引起用户猜测,DeepSeek 正在开发中的新模型有可能会整合这些最新的研究成果。敬请期待。
相关文章
老图拉姆:穆里尼奥对维尼修斯的评论藏着白人的优越感和自恋
游客在三亚支付19晚房费8499元,被民宿单方面取消,三亚通报
没了!苹果官网这个页面已经被彻底下线
徐梦桃:希望北京的好运传递到米兰
6连胜,东部第1!哈登无缝融入,骑士好起来了
越野滑雪:挪威队摘得女子4×7.5公里接力金牌
崔佳温和她“只会在梦里发生”的雪夜奇迹
2026年北京车牌配额公布:常规指标10万个,增发8万新能源指标
哭了2次!宁忠岩:我疯了 圆满了 金牌是送给全国人民的新年礼物
78岁郑少秋丧女两年至今神隐,汪明荃也难联络,曾给许绍雄送花牌
0.19秒无缘钢架雪车奖牌,陈文浩完成迟来四年的“交代”
吴梦莹:“小笼包”也想凶起来
