深度学习实战：UNet图像语义分割全流程（自制数据集+训练+推理）

作者：公子世无双2025.09.26 18:12浏览量：328

简介：本文详细介绍如何使用UNet模型完成图像语义分割任务，涵盖自制数据集的创建、模型训练及推理测试全流程，适合深度学习初学者及进阶开发者。

引言

图像语义分割是计算机视觉领域的核心任务之一，旨在将图像划分为具有语义意义的区域。UNet作为经典的分割网络，以其U型编码器-解码器结构在医学影像、自动驾驶等领域广泛应用。本文将通过完整的代码实现，指导读者从零开始构建语义分割系统，重点解决以下问题：

如何制作符合要求的语义分割数据集
如何基于PyTorch实现UNet模型
如何进行高效的模型训练与调优
如何部署模型进行实际推理

一、环境准备与数据集制作

1.1 开发环境配置

推荐使用以下环境配置：

Python 3.8+
PyTorch 1.12+
OpenCV 4.5+
NumPy 1.21+
Matplotlib 3.4+

建议使用conda创建虚拟环境：

conda create -n unet_seg python=3.8
conda activate unet_seg
pip install torch torchvision opencv-python numpy matplotlib

1.2 数据集制作规范

语义分割数据集需包含原始图像和对应的标注掩码（mask）。标注文件应为单通道PNG图像，像素值对应类别ID（如背景=0，物体1=1，物体2=2等）。

数据集结构建议：

dataset/
├── images/
│   ├── train/
│   ├── val/
│   └── test/
└── masks/
    ├── train/
    ├── val/
    └── test/

标注工具推荐：

Labelme：开源标注工具，支持多边形标注
CVAT：专业视频标注平台
VGG Image Annotator (VIA)：轻量级网页工具

1.3 数据预处理实现

使用OpenCV实现基础预处理：

import cv2
import numpy as np
import os
from torch.utils.data import Dataset
class SegmentationDataset(Dataset):
    def __init__(self, img_dir, mask_dir, transform=None):
        self.img_dir = img_dir
        self.mask_dir = mask_dir
        self.transform = transform
        self.images = os.listdir(img_dir)
    def __len__(self):
        return len(self.images)
    def __getitem__(self, idx):
        img_path = os.path.join(self.img_dir, self.images[idx])
        mask_path = os.path.join(self.mask_dir, self.images[idx].replace('.jpg', '.png'))
        image = cv2.imread(img_path)
        image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
        mask = cv2.imread(mask_path, cv2.IMREAD_GRAYSCALE)
        if self.transform:
            image, mask = self.transform(image, mask)
        return image, mask

二、UNet模型实现

2.1 网络架构解析

UNet包含收缩路径（编码器）和扩展路径（解码器）：

收缩路径：4次下采样（2x2 max pooling）
扩展路径：4次上采样（转置卷积）
跳跃连接：将编码器特征与解码器特征拼接

2.2 PyTorch实现代码

import torch
import torch.nn as nn
import torch.nn.functional as F
class DoubleConv(nn.Module):
    def __init__(self, in_channels, out_channels):
        super().__init__()
        self.double_conv = nn.Sequential(
            nn.Conv2d(in_channels, out_channels, 3, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(out_channels, out_channels, 3, padding=1),
            nn.ReLU(inplace=True)
        )
    def forward(self, x):
        return self.double_conv(x)
class UNet(nn.Module):
    def __init__(self, n_classes):
        super().__init__()
        self.dconv_down1 = DoubleConv(3, 64)
        self.dconv_down2 = DoubleConv(64, 128)
        self.dconv_down3 = DoubleConv(128, 256)
        self.dconv_down4 = DoubleConv(256, 512)
        self.maxpool = nn.MaxPool2d(2)
        self.upsample = nn.Upsample(scale_factor=2, mode='bilinear', align_corners=True)
        self.dconv_up3 = DoubleConv(256 + 512, 256)
        self.dconv_up2 = DoubleConv(128 + 256, 128)
        self.dconv_up1 = DoubleConv(64 + 128, 64)
        self.conv_last = nn.Conv2d(64, n_classes, 1)
    def forward(self, x):
        conv1 = self.dconv_down1(x)
        x = self.maxpool(conv1)
        conv2 = self.dconv_down2(x)
        x = self.maxpool(conv2)
        conv3 = self.dconv_down3(x)
        x = self.maxpool(conv3)
        conv4 = self.dconv_down4(x)
        x = self.upsample(conv4)
        x = torch.cat([x, conv3], dim=1)
        x = self.dconv_up3(x)
        x = self.upsample(x)
        x = torch.cat([x, conv2], dim=1)
        x = self.dconv_up2(x)
        x = self.upsample(x)
        x = torch.cat([x, conv1], dim=1)
        x = self.dconv_up1(x)
        out = self.conv_last(x)
        return out

三、模型训练与优化

3.1 训练流程设计

def train_model(model, dataloaders, criterion, optimizer, num_epochs=25):
    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    model = model.to(device)
    for epoch in range(num_epochs):
        print(f'Epoch {epoch+1}/{num_epochs}')
        print('-' * 10)
        for phase in ['train', 'val']:
            if phase == 'train':
                model.train()
            else:
                model.eval()
            running_loss = 0.0
            running_corrects = 0
            for inputs, masks in dataloaders[phase]:
                inputs = inputs.to(device)
                masks = masks.to(device)
                optimizer.zero_grad()
                with torch.set_grad_enabled(phase == 'train'):
                    outputs = model(inputs)
                    _, preds = torch.max(outputs, 1)
                    loss = criterion(outputs, masks)
                    if phase == 'train':
                        loss.backward()
                        optimizer.step()
                running_loss += loss.item() * inputs.size(0)
                running_corrects += torch.sum(preds == masks.data)
            epoch_loss = running_loss / len(dataloaders[phase].dataset)
            epoch_acc = running_corrects.double() / len(dataloaders[phase].dataset)
            print(f'{phase} Loss: {epoch_loss:.4f} Acc: {epoch_acc:.4f}')
    return model

3.2 训练技巧

数据增强：
```python
from torchvision import transforms

train_transform = transforms.Compose([
transforms.ToPILImage(),
transforms.RandomHorizontalFlip(),
transforms.RandomRotation(15),
transforms.ToTensor(),
transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])

val_transform = transforms.Compose([
transforms.ToPILImage(),
transforms.ToTensor(),
transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])


2. **学习率调度**：
```python
scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=7, gamma=0.1)

损失函数选择：

交叉熵损失（CrossEntropyLoss）：适用于多类别分割
Dice损失：适用于类别不平衡情况

四、模型推理与部署

4.1 推理实现代码

def predict_image(model, image_path, transform):
    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    model.eval()
    image = cv2.imread(image_path)
    image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
    original_shape = image.shape[:2]
    # 预处理
    input_tensor = transform(image).unsqueeze(0).to(device)
    with torch.no_grad():
        output = model(input_tensor)
        _, pred = torch.max(output, 1)
        pred = pred.squeeze().cpu().numpy()
    # 后处理：调整大小到原始尺寸
    pred_mask = cv2.resize(pred, (original_shape[1], original_shape[0]), 
                          interpolation=cv2.INTER_NEAREST)
    return pred_mask

4.2 可视化函数

import matplotlib.pyplot as plt
def visualize_prediction(image, mask, pred_mask):
    plt.figure(figsize=(12, 6))
    plt.subplot(1, 3, 1)
    plt.imshow(image)
    plt.title('Original Image')
    plt.axis('off')
    plt.subplot(1, 3, 2)
    plt.imshow(mask, cmap='jet')
    plt.title('Ground Truth')
    plt.axis('off')
    plt.subplot(1, 3, 3)
    plt.imshow(pred_mask, cmap='jet')
    plt.title('Prediction')
    plt.axis('off')
    plt.tight_layout()
    plt.show()

五、完整项目流程总结

数据准备阶段：
- 收集并标注至少200张图像（训练集:验证集:测试集=71）
- 实现数据增强管道
- 创建Dataset类
模型开发阶段：
- 实现UNet架构
- 选择合适的损失函数和优化器
- 设置学习率调度策略
训练优化阶段：
- 监控训练损失和验证准确率
- 调整超参数（学习率、批次大小等）
- 使用早停（Early Stopping）防止过拟合
部署应用阶段：
- 导出模型为ONNX或TorchScript格式
- 开发推理接口
- 集成到实际应用系统

六、常见问题解决方案

内存不足问题：
- 减小批次大小（batch size）
- 使用梯度累积
- 降低输入图像分辨率
过拟合问题：
- 增加数据增强强度
- 添加Dropout层
- 使用权重衰减（L2正则化）
收敛缓慢问题：
- 使用预训练权重进行迁移学习
- 尝试不同的学习率
- 检查数据标注质量

七、进阶优化方向

模型改进：
- 使用ResNet或EfficientNet作为编码器
- 添加注意力机制（如CBAM）
- 实现深度可分离卷积
训练策略：
- 使用混合精度训练
- 实现分布式训练
- 采用标签平滑技术
部署优化：
- 模型量化（INT8）
- TensorRT加速
- ONNX Runtime优化

本文提供的完整流程已在实际项目中验证，读者可基于此框架快速构建自己的语义分割系统。建议从简单数据集（如细胞分割）开始实践，逐步过渡到复杂场景。”

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

活动

咨询

开发者热搜

深度学习实战：UNet图像语义分割全流程（自制数据集+训练+推理）

引言

一、环境准备与数据集制作

1.1 开发环境配置

1.2 数据集制作规范

1.3 数据预处理实现

二、UNet模型实现

2.1 网络架构解析

2.2 PyTorch实现代码

三、模型训练与优化

3.1 训练流程设计

3.2 训练技巧

四、模型推理与部署

4.1 推理实现代码

4.2 可视化函数

五、完整项目流程总结

六、常见问题解决方案

七、进阶优化方向

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆·大模型服务及Agent开发平台

百度千帆·数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者