
1. 为什么选择RX 6700 XT做深度学习最近两年AMD显卡在深度学习领域的存在感越来越强特别是像RX 6700 XT这样的中高端消费级显卡性价比相当突出。我自己用这张卡跑了几个月的模型训练实测在Ubuntu系统下配合ROCm环境性能表现完全不输同价位的N卡。不过A卡的环境搭建确实比N卡麻烦一些主要问题集中在驱动安装和ROCm生态适配这两个环节。很多新手第一次配置时容易踩坑比如驱动版本不匹配、环境变量设置错误、PyTorch安装失败等等。下面我就把整个配置过程中需要注意的关键点都梳理出来帮你一次性搞定所有问题。2. 系统准备与驱动安装2.1 选择合适的Linux发行版目前ROCm对Ubuntu的支持最好推荐使用20.04或22.04 LTS版本。我实测下来20.04的兼容性更稳定一些特别是对于RX 6700 XT这种RDNA2架构的显卡。安装系统时记得选择最小化安装避免不必要的软件包冲突。装好系统后第一件事是更新软件源sudo apt update sudo apt upgrade -y sudo apt install -y build-essential cmake git2.2 安装AMD显卡驱动AMD官方提供了两种驱动安装方式开源驱动amdgpu闭源驱动amdgpu-pro对于深度学习场景建议使用闭源驱动。最新驱动可以在AMD官网找到注意选择对应你显卡架构的版本。以RX 6700 XT为例wget https://repo.radeon.com/amdgpu-install/22.20/ubuntu/focal/amdgpu-install_22.20.50200-1_all.deb sudo apt install ./amdgpu-install_22.20.50200-1_all.deb sudo amdgpu-install --usecasegraphics,opencl --vulkanpro --openclrocr安装完成后重启系统运行glxinfo | grep OpenGL renderer确认驱动加载正常。如果遇到依赖问题可以尝试sudo apt --fix-broken install修复。3. ROCm环境配置3.1 安装ROCm工具链ROCm是AMD的GPU计算平台相当于NVIDIA的CUDA。安装时需要注意DKMS选项sudo amdgpu-install --usecaserocm,hip,mllib --no-dkms这里特别说明下--no-dkms参数新版Ubuntu自带的内核已经包含必要模块再装DKMS反而可能导致冲突。不过如果你需要多版本ROCm共存就需要启用DKMS支持。3.2 环境变量配置安装完成后需要设置关键环境变量。编辑~/.bashrc文件添加export PATH$PATH:/opt/rocm/bin export LD_LIBRARY_PATH$LD_LIBRARY_PATH:/opt/rocm/lib对于RX 6700 XTgfx1030架构可能还需要设置export HSA_OVERRIDE_GFX_VERSION10.3.0不过这个设置不是必须的建议先不设置如果遇到问题再尝试添加。保存后执行source ~/.bashrc使配置生效。3.3 验证ROCm安装运行以下命令检查环境rocminfo # 查看GPU信息 hipconfig --full # 检查HIP配置如果看到显卡信息正常输出说明ROCm已经正确安装。常见问题处理报错librocblas.so找不到执行sudo ln -s /opt/rocm/lib/librocblas.so.0 /opt/rocm/lib/librocblas.so报错SIGSEGV检查用户是否加入了video和render组sudo usermod -a -G video $USER4. PyTorch安装与测试4.1 安装PyTorch for ROCmPyTorch官方提供了ROCm专用版本安装命令如下pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/rocm5.4.2注意这里的rocm5.4.2需要和你安装的ROCm版本对应。如果网络不稳定可以考虑使用国内镜像源。4.2 基础功能测试启动Python解释器运行以下测试代码import torch print(torch.cuda.is_available()) # 应该返回True print(torch.rand(10,10).to(cuda)) # 测试张量计算如果第一个命令返回False说明PyTorch没有正确识别到GPU。常见解决方法检查ROCm版本和PyTorch版本是否匹配确认环境变量设置正确尝试重新安装PyTorch4.3 性能优化设置为了获得最佳性能建议进行以下调整启用FP16计算torch.backends.cuda.matmul.allow_tf32 True torch.backends.cudnn.allow_tf32 True调整内存分配策略在~/.bashrc中添加export PYTORCH_HIP_ALLOC_CONFgarbage_collection_threshold:0.85. 常见问题解决方案5.1 驱动兼容性问题症状系统卡死、黑屏、性能异常 解决方法确保使用推荐的驱动版本检查/etc/default/grub中的启动参数是否包含amdgpu.runpm0尝试禁用Wayland改用Xorg显示服务器5.2 ROCm运行时错误症状Process finished with exit code 139 (SIGSEGV) 解决方法检查用户权限groups | grep video尝试设置环境变量export HSA_ENABLE_SDMA0更新ROCm到最新版本5.3 PyTorch训练异常症状Loss出现NaN、训练速度慢 解决方法降低学习率尝试禁用混合精度训练检查数据加载是否正常torch.utils.data.DataLoader的num_workers建议设为4-86. 实际项目部署建议经过几个月的实际使用我总结了几个提升稳定性的经验监控GPU温度RX 6700 XT的功耗墙设置比较保守建议使用rocm-smi监控温度必要时调整风扇曲线内存优化对于大模型训练可以启用虚拟内存sudo fallocate -l 32G /swapfile sudo chmod 600 /swapfile sudo mkswap /swapfile sudo swapon /swapfile定期维护每月检查一次驱动和ROCm更新及时修复安全漏洞备份环境使用conda或docker保存可复现的环境配置避免重装系统时从头再来