云端GPU算力使用教程:在VeryAI平台完成深度学习模型训练全

在进行AI开发工作时,本地硬件算力往往难以满足模型训练的需求。最近在寻找高性价比的云端GPU资源时,接触到了VeryAIGPU算力平台,完成了从注册到模型训练的完整流程,在这里整理成教程分享给大家。

官方文档地址:https://doc.veryai.cn/

VeryAIGPU算力平台提供云端GPU实例租用服务,面向开发者和科研人员提供按需计费的算力资源。

注册方式:支持短信验证码登录和微信扫码登录,登录即完成注册。

新用户账户初始化:账户注册完成后,系统会自动分配150积分(1积分=1元人民币)到账户中,可用于抵扣平台服务费用,无需预先充值即可开始使用。

支持的GPU型号一览

平台提供多种GPU型号供用户选择:

NVIDIA系列(7款)

型号

显存

适用场景

RTX4090

24GB

模型训练与推理

RTX5090

32GB

大模型训练

PRO4000

24GB

图形渲染与推理

PRO4500SE

32GB

图形渲染与推理

PRO5000

48GB

大模型推理与微调

PRO6000

96GB

大模型训练与推理

A100

40GB

大规模训练任务

国产系列(6款)

型号

厂商

昇腾910B

华为

昆仑芯P800

昆仑芯

智铠100

天数智芯

壁砺100

壁仞科技

壁砺110E

壁仞科技

曦云C500

沐曦

完整使用流程

官方推荐的使用流程如下:

注册登录→查看账户积分→租用实例→连接实例→运行任务→保存成果

Step1:注册登录

访问veryai.cn,使用手机号接收验证码完成登录,或使用微信扫码授权登录。登录成功即完成注册。

Step2:查看账户积分

登录后进入「我的账户」页面,可以看到账户中已自动分配150积分,可用于后续实例租用。

Step3:租用GPU实例

  1. 进入「GPU实例市场」,浏览可用的GPU型号
  2. 选择合适的GPU型号和数量
  3. 选择预装的系统镜像(支持PyTorch、TensorFlow等)
  4. 设置租用时长
  5. 提交订单,使用账户积分支付

Step4:连接实例

实例创建成功后,支持三种连接方式:

  • VNC图形界面连接
  • SSH命令行连接
  • JupyterNotebook在线开发环境

Step5:运行GPU任务

平台已预装主流深度学习框架,可直接运行训练任务。以下是GPU环境检测示例代码:

importtorchprint("PyTorch版本:",torch.__version__)print("CUDA可用:",torch.cuda.is_available())print("CUDA版本:",torch.version.cuda)print("GPU数量:",torch.cuda.device_count())iftorch.cuda.is_available():foriinrange(torch.cuda.device_count()):print(f"GPU{i}:{torch.cuda.get_device_name(i)}")#简单的矩阵运算测试x=torch.rand(1000,1000).cuda()y=torch.rand(1000,1000).cuda()z=torch.matmul(x,y)print("\nGPU计算测试完成")print(f"输出张量尺寸:{z.size()}")else:print("CUDA不可用,请检查实例配置")

NVIDIA-SMI输出示例:

+-----------------------------------------------------------------------------+|NVIDIA-SMI535.54.03DriverVersion:535.54.03CUDAVersion:12.2||-------------------------------+----------------------+----------------------+|GPUNamePersistence-M|Bus-IdDisp.A|VolatileUncorr.ECC||FanTempPerfPwr:Usage/Cap|Memory-Usage|GPU-UtilComputeM.|+===============================+======================+======================+|0NVIDIAGeForceRTX3090Off|00000000:00:05.0Off|N/A||0%30CP815W/350W|0MiB/24576MiB|0%Default|+-------------------------------+----------------------+----------------------+

Step6:保存工作成果

实例到期后系统盘数据将被清除,建议将重要数据备份至云盘或下载到本地。

典型使用场景

场景一:深度学习模型训练

  • 使用多卡GPU实例进行模型训练
  • 通过SSH连接实例,上传训练代码和数据集
  • 运行训练脚本,监控训练进度
  • 训练完成后下载模型权重

场景二:推理服务部署

  • 使用单卡GPU实例部署模型服务
  • 配置公网访问策略
  • 启动推理API服务

场景三:数据预处理

  • 使用CPU实例或低配GPU实例
  • 上传原始数据,运行预处理脚本
  • 保存处理后的数据用于后续训练

计费说明

  • 采用积分账户体系,1积分=1元人民币
  • GPU实例按租用时长计费,精确到分钟
  • 实例到期后自动停止计费
  • 不支持主动释放实例,请根据任务需求合理规划租用时长

注意事项

  1. 系统盘数据在实例到期后自动清除,请及时备份重要数据
  2. 建议根据任务预估时间设置租用时长,避免资源浪费
  3. 可定期创建快照备份重要数据

总结

VeryAI平台提供了较为丰富的GPU型号选择,操作流程简单直观,预装环境节省了配置时间。积分计费体系清晰,新用户账户中的初始积分足以完成初步的模型训练实验。

对于需要临时算力的开发者和学生而言,这是一个可以纳入考虑的选项。建议结合自身项目需求评估是否适用。

更多详细信息可参考官方文档:https://doc.veryai.cn/