如何零基础用云服务器+PyCharm跑通神经网络训练？

作者：公子世无双2025.09.25 16:06浏览量：0

简介：本文为新手开发者提供从云服务器租用到PyCharm远程连接，再到神经网络模型训练的全流程指南，包含环境配置、代码调试等关键步骤详解。

一、准备工作：租用云服务器与软件安装

1.1 云服务器选择与租用

选择云服务器时需考虑三个核心参数：操作系统（推荐Ubuntu 20.04 LTS）、硬件配置（至少2核4G内存+NVIDIA T4显卡）、网络带宽（建议10Mbps以上）。以阿里云为例，通过”弹性计算”-“云服务器ECS”创建实例，选择GPU计算型g6实例，配置完成后获取公网IP地址和SSH登录密码。

1.2 本地开发环境准备

在本地电脑安装：

PyCharm专业版（社区版缺少远程开发功能）
Xshell/MobaXterm（SSH连接工具）
WinSCP/FileZilla（文件传输工具）

确保本地网络可正常访问公网，建议使用有线网络连接以提高稳定性。

二、建立PyCharm与云服务器的远程连接

2.1 SSH密钥对配置

在云服务器控制台生成SSH密钥对，下载私钥文件（.pem格式）。通过命令修改私钥权限：

chmod 400 your_key.pem

在PyCharm中配置SSH连接：File > Settings > Tools > SSH Configurations，添加新连接：

Host：云服务器公网IP
Port：22
Authentication：选择”OpenSSH config and authentication”
用户名：ubuntu（Ubuntu系统默认用户）
私钥路径：上传的.pem文件

2.2 部署远程解释器

创建远程项目后，通过Tools > Deployment > Configuration配置SFTP同步：

添加SFTP服务器，填写与SSH相同的连接参数
设置Mapping：本地路径与远程路径对应（如D:/project → /home/ubuntu/project）
勾选”Automatic upload”实现代码自动同步

在File > Settings > Project > Python Interpreter中添加远程解释器：

选择SSH解释器
输入主机和认证信息
指定Python路径（如/usr/bin/python3.8）

三、云服务器环境配置

3.1 基础环境搭建

通过SSH连接服务器后执行：

# 更新软件包
sudo apt update && sudo apt upgrade -y
# 安装必要工具
sudo apt install -y git wget curl vim
# 安装NVIDIA驱动（如未预装）
sudo apt install -y nvidia-driver-470

3.2 深度学习框架安装

推荐使用conda管理环境：

# 安装Miniconda
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh
# 创建虚拟环境
conda create -n dl_env python=3.8
conda activate dl_env
# 安装PyTorch（带CUDA支持）
pip install torch torchvision torchaudio -f https://download.pytorch.org/whl/cu113/torch_stable.html
# 安装TensorFlow（可选）
pip install tensorflow-gpu==2.6.0

四、神经网络训练实现

4.1 项目结构准备

在PyCharm中创建项目目录结构：

/project
    /data
        /train
        /test
    /models
    /utils
    main.py
    config.py

4.2 示例代码实现

创建main.py实现MNIST手写数字识别：

import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms
from torch.utils.data import DataLoader
# 定义神经网络
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(1, 32, 3, 1)
        self.conv2 = nn.Conv2d(32, 64, 3, 1)
        self.fc1 = nn.Linear(9216, 128)
        self.fc2 = nn.Linear(128, 10)
    def forward(self, x):
        x = torch.relu(self.conv1(x))
        x = torch.max_pool2d(x, 2)
        x = torch.relu(self.conv2(x))
        x = torch.max_pool2d(x, 2)
        x = torch.flatten(x, 1)
        x = torch.relu(self.fc1(x))
        x = self.fc2(x)
        return torch.log_softmax(x, dim=1)
# 数据加载
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.1307,), (0.3081,))
])
train_set = datasets.MNIST('./data', train=True, download=True, transform=transform)
test_set = datasets.MNIST('./data', train=False, transform=transform)
train_loader = DataLoader(train_set, batch_size=64, shuffle=True)
test_loader = DataLoader(test_set, batch_size=1000, shuffle=False)
# 初始化模型
model = Net()
optimizer = optim.Adam(model.parameters())
criterion = nn.NLLLoss()
# 训练循环
def train(epoch):
    model.train()
    for batch_idx, (data, target) in enumerate(train_loader):
        optimizer.zero_grad()
        output = model(data)
        loss = criterion(output, target)
        loss.backward()
        optimizer.step()
        if batch_idx % 100 == 0:
            print(f'Epoch: {epoch} | Batch: {batch_idx} | Loss: {loss.item():.3f}')
# 执行训练
for epoch in range(1, 11):
    train(epoch)

4.3 训练过程监控

4.3.1 本地终端监控

在PyCharm的Terminal中直接执行：

python main.py

4.3.2 TensorBoard可视化

修改代码添加TensorBoard支持：

from torch.utils.tensorboard import SummaryWriter
writer = SummaryWriter('/home/ubuntu/project/runs')
# 在训练循环中添加：
writer.add_scalar('Training Loss', loss.item(), epoch*len(train_loader)+batch_idx)

本地通过SSH端口转发查看：

ssh -N -L 6006:localhost:6006 ubuntu@your_server_ip

然后在浏览器访问http://localhost:6006

五、常见问题解决方案

5.1 连接失败排查

检查云服务器安全组规则是否开放22端口
验证SSH密钥权限是否为400
确认云服务器是否运行中（非停止状态）

5.2 依赖安装错误

使用conda创建独立环境避免冲突：

conda create -n new_env python=3.8
conda activate new_env
pip install -r requirements.txt

5.3 GPU不可用问题

执行nvidia-smi检查GPU状态，若未显示：

确认安装了正确版本的NVIDIA驱动
检查CUDA版本与框架版本是否匹配
安装nvidia-cuda-toolkit

六、性能优化建议

数据加载优化：使用num_workers=4加速数据加载
混合精度训练：添加torch.cuda.amp自动混合精度
梯度累积：小batch_size时模拟大batch效果
模型并行：对于超大模型使用torch.nn.parallel.DistributedDataParallel

七、进阶功能扩展

自动化训练：使用PyCharm的Run Configurations添加训练参数
模型保存与加载：
```python
保存模型
torch.save(model.state_dict(), ‘./models/mnist_cnn.pth’)

加载模型

model = Net()
model.load_state_dict(torch.load(‘./models/mnist_cnn.pth’))
```

超参数调优：集成PyTorch Lightning实现自动化调参

通过本教程，开发者可以系统掌握从云服务器配置到深度学习模型训练的全流程。建议新手先在小型数据集上验证流程，再逐步扩展到复杂项目。实际开发中需注意定期备份模型和数据，建议设置cron定时任务自动备份重要文件。

发表评论

开发者关注产品榜

最热文章

关于作者

被阅读数
被赞数
被收藏数

开发者热搜

如何零基础用云服务器+PyCharm跑通神经网络训练？

一、准备工作：租用云服务器与软件安装

1.1 云服务器选择与租用

1.2 本地开发环境准备

二、建立PyCharm与云服务器的远程连接

2.1 SSH密钥对配置

2.2 部署远程解释器

三、云服务器环境配置

3.1 基础环境搭建

3.2 深度学习框架安装

四、神经网络训练实现

4.1 项目结构准备

4.2 示例代码实现

4.3 训练过程监控

4.3.1 本地终端监控

4.3.2 TensorBoard可视化

五、常见问题解决方案

5.1 连接失败排查

5.2 依赖安装错误

5.3 GPU不可用问题

六、性能优化建议

七、进阶功能扩展

保存模型

加载模型

相关文章推荐

文心一言接入指南：通过百度智能云千帆大模型平台API调用

从 MLOps 到 LMOps 的关键技术嬗变

Sugar BI教你怎么做数据可视化 - 拓扑图，让节点连接信息一目了然

更轻量的百度百舸，CCE Stack 智算版发布

打造合规数据闭环，加速自动驾驶技术研发

LMOps 工具链与千帆大模型平台

发表评论

开发者关注产品榜

百度千帆大模型服务与Agent开发平台

百度千帆数据智能平台

秒哒-生成式应用开发平台

百度智能云客悦智能客服平台

最热文章

关于作者