DeepSeek mHC算法刷屏！AI应用：超级入口与产业AI同加速

泡股发表于 2026-1-3 19:43:16

2026年1月DeepSeek发布《DeepSeek mHC: Manifold - ConstrainedHyper - Connections》，引发产业刷屏，我们仔细阅读原始论文：

背景与效果

何恺明resnet（残差训练）在2016年名声大噪（CVPR 2016 最佳论文），超连接HC（Hyper-Connection)加强残差。

本篇mHC（Manifold-contrained HC)显著提升，解决训练扩展性、不稳定问题（典型值优化3个数量级）。有限硬件成本增加（典型增内存6.7%，一贯DeepSeek风格)

大家关心的趋势和投资问题

1）利好AI应用训练。特别适合残差高频领域，如图像视频和复杂特征逻辑推理（复杂难题）

2）高普适性，尤其训练，尤其端侧。普适很多模型（论文里3B/9B/27B都有），低成本端侧训练/推理容易被显存占用问题缓解。此前残差训练容易梯度爆炸或内存等待

3）内存/缓存/光器件/计算开销？

（不大的新增计算开销。论文里的n流残差流水线延迟，和Lr层mHC核心重计算，用流水线DualPipe 优化。论文典型值内存增加6.7%）。

（新增缓存，如各阶段初始激活值Xlo本地缓存。但不大，因整计算丢弃核心中间激活值）

（光器件几无变化。光模块带宽与之前一致）

（减少存储io次数。大大提高训练稳定性，降低训练中断的重复IO。利好企业级ssd，减少高速ssd依赖）

4）GPU利用率提升？

（GPU利用率大幅提高，典型值90%+。解决内存墙等待。本来残差计算不收敛，不稳定）

（论文提出，原HC虽然优化残差，但易导致信号 / 梯度失控，多流并行放大内存压力。mHC论文从Sinkhorn-Knopp算法开始优化）

本篇涉及的DeepSeek关键技术（尤其线性代数+通信+AI_Infra）

1）承认transformer+稀疏的FFNs(前馈网络）

2）基于Sinkhorn-Knopp算法。将非负矩阵迭代缩放为双随机矩阵，本论文中，是解决超连接训练不稳定的关键技术

3）融合核，缓解内存带宽翻倍问题

4）Amax Gain Magnitude衡量残差流爆炸

5）流形约束超连接，把残差约束到特定流形，保证稳定性

6）伯克霍夫多面体（Birkhoff Polytope），上述5的理论基石

7）混合精度策略。本次AI infra技巧，最大化数值精度

CALLBACK

一贯的DeepSeek创新风格，努力优化一切AI Infra，对应用/训练/模型/GPU使用率利好，对内存/缓存/光器件/AI infra等整体非利空，也利于渗透率再提高。

AI应用：超级入口与产业AI同加速

1、蓄力完成，破土而出

过去几年，大模型与算力的爆发为AI提供了肥沃的“基础土壤”；而日益丰富的AI Infra工具、逐步成熟的数据治理，以及应用厂商不断的试错迭代，2026年将看到AI渗透到产业的多个环节，形成AI收入/总收入临进甜蜜点！

2、超级入口之战：巨头云集，催化密集

开年即决战！字节豆包强势赞助马年春晚，流量预定；DeepSeek新论文/新模型蓄势待发，硬核秀肌肉；阿里系千问与蚂蚁阿福等APP全面铺开；海外Meta数十亿美金收购Manus，AI手机更是未来两年的制高点。科技界不论中美，2026都在齐齐发力，AI应用已成为ROI验证的必经之路。

3、底部反转

看基本面，计算机板块2025H2收入利润已现触底回升态势；看筹码面，机构持仓处于多年低位。

4、四条主线

核心大模型：赢家通吃的地基；

AI Infra：卖铲子的确定性；

高增长场景：广告营销、短剧/动态漫等流量变现快；

高壁垒垂类：企业管理、医疗、教育、生产制造等有数据护城河的B端应用。

5、相关标的

阿里巴巴、腾讯控股、金山办公、合合信息、星环科技、汉得信息、万兴科技、金蝶国际、深信服、鼎捷数智、润达医疗、用友网络、美年健康、蓝色光标、阅文集团、中文在线等。

页: [1]

MACD888量化www.macd888.com -MACD量化论坛-MACD股票论坛-MACD888股票论坛-macd论坛-macd网站-macd官网-Macd888论坛官方-macd俱乐部's Archiver

DeepSeek mHC算法刷屏！AI应用：超级入口与产业AI同加速