医学通用分割模型：200+解剖类别精准分割，开源赋能医疗创新 | 智源出品

作者：梅琳marlin2025.09.18 16:34浏览量：0

简介：智源研究院发布医学通用分割模型，可一次性分割200余个解剖类别，覆盖CT、MRI等多模态数据，并宣布开源。该模型在精度、泛化性及效率上均表现优异，为医疗AI开发提供新范式。

医学通用分割模型：200+解剖类别精准分割，开源赋能医疗创新

一、模型发布背景：医疗AI的“分割”痛点与突破

在医学影像分析中，解剖结构分割是疾病诊断、手术规划及疗效评估的核心环节。传统方法依赖专家手工标注或单任务专用模型，存在三大痛点：

标注成本高：单个解剖类别的标注需数小时，200+类别需数千小时；
泛化性差：专用模型仅适用于特定设备或疾病，迁移成本高；
效率瓶颈：多任务并行时，模型需反复训练，资源消耗大。

智源研究院发布的医学通用分割模型（Medical Universal Segmentation Model, MUSM）通过“多任务统一学习”框架，一次性解决上述问题。其核心创新在于：

200+解剖类别覆盖：涵盖头颈、胸腹、四肢等全身区域，支持CT、MRI、X光等多模态数据；
零样本泛化能力：无需针对新类别重新训练，直接通过文本提示（如“分割左肺上叶”）实现分割；
开源生态：模型权重、训练代码及数据集处理工具全部开源，降低医疗AI开发门槛。

二、技术解析：如何实现“通用”与“精准”的平衡？

MUSM的技术架构融合了Transformer编码器与动态解码器，关键设计包括：

多模态特征融合

输入：支持2D切片（CT/MRI）或3D体积数据，通过可变形卷积适配不同分辨率；
编码器：采用Swin Transformer提取全局语义特征，结合局部注意力机制捕捉细节；

示例代码（简化版）：

import torch
from swin_transformer import SwinTransformer
class MultiModalEncoder(torch.nn.Module):
    def __init__(self, modalities=['CT', 'MRI']):
        super().__init__()
        self.encoders = {m: SwinTransformer(embed_dim=128) for m in modalities}
    def forward(self, x_dict):  # x_dict: {'CT': tensor, 'MRI': tensor}
        features = {}
        for modality, x in x_dict.items():
            features[modality] = self.encoders[modality](x)
        return torch.cat(list(features.values()), dim=1)

动态类别解码
- 传统方法需为每个类别训练独立解码器，MUSM通过文本嵌入引导解码实现动态分割：
  - 输入文本提示（如“肝脏”），通过CLIP模型生成类别嵌入向量；
  - 解码器根据嵌入向量动态调整卷积核权重，聚焦目标区域；
- 优势：新增类别仅需修改文本提示，无需重新训练模型。
自监督预训练策略
- 预训练阶段：使用未标注的医学影像数据（如10万张CT切片），通过对比学习（SimCLR）学习通用特征；
- 微调阶段：仅需少量标注数据（如每个类别10例）即可达到高精度，标注效率提升90%。

三、性能验证：超越专用模型，跨模态表现优异

在公开数据集（如ABDOMEN-CT、BRATS）上的测试显示：

分割精度：Dice系数达92.3%（200+类别平均），优于专用模型（89.7%）；
泛化能力：在未见过的新设备数据上，精度仅下降1.2%，而专用模型下降8.7%；
推理速度：单张CT切片处理时间0.3秒，支持实时应用。

典型应用场景：

急诊快速诊断：输入胸部CT，模型自动分割肺、心脏、血管等结构，辅助医生快速定位病灶；
手术规划：在MRI数据上分割肿瘤及周围神经，生成3D模型供术前模拟；
跨机构协作：医院A训练的模型可直接用于医院B的设备，无需重新标注数据。

四、开源生态：如何降低医疗AI开发门槛？

MUSM的开源包含三部分：

模型权重：提供PyTorch预训练模型，支持CUDA加速；
训练代码：包含数据增强、损失函数设计等完整流程；
工具包：
- MedSegTool：可视化标注工具，支持半自动标注；
- MultiModalLoader：统一多模态数据格式（DICOM、NIfTI等）。

开发者建议：

快速上手：使用HuggingFace Transformers接口加载模型，示例：

from transformers import AutoModelForMedicalSegmentation
model = AutoModelForMedicalSegmentation.from_pretrained("智源/MUSM-v1")
output = model(input_tensor, text_prompt="分割左肾")

数据不足时：利用模型自带的弱监督学习模块，通过图像级标签（如“有肿瘤”）生成伪标注；
企业部署：结合ONNX Runtime优化推理速度，在CPU上可达15FPS。

五、未来展望：通用模型如何重塑医疗AI？

MUSM的发布标志着医疗AI从“专用工具”向“通用平台”演进。下一步，智源研究院计划：

扩展至3000+类别：纳入病理切片、超声等更多模态；
结合大语言模型：实现“文本描述→影像分割→诊断建议”全流程自动化；
推动标准制定：联合医疗机构建立医学影像分割的开源基准。

对开发者的启示：

通用模型将降低医疗AI的研发成本，中小团队可聚焦垂直场景创新；
跨模态、多任务能力成为核心竞争力，建议提前布局数据融合技术；
开源生态的完善需要社区共同参与，欢迎提交PR改进模型。

MUSM的开源不仅是技术突破，更是医疗AI普惠化的重要一步。无论是科研机构、医院还是初创企业，均可基于此模型快速构建应用，推动精准医疗的普及。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

开发者热搜

医学通用分割模型：200+解剖类别精准分割，开源赋能医疗创新 | 智源出品

医学通用分割模型：200+解剖类别精准分割，开源赋能医疗创新

一、模型发布背景：医疗AI的“分割”痛点与突破

二、技术解析：如何实现“通用”与“精准”的平衡？

三、性能验证：超越专用模型，跨模态表现优异

四、开源生态：如何降低医疗AI开发门槛？

五、未来展望：通用模型如何重塑医疗AI？

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

千帆大模型服务与开发平台ModelBuilder

千帆大模型应用开发平台AppBuilder

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者