背景

首先声明这篇文章不是广告,阿里云打钱!!!这篇教程面向的对象主要是想要自己进行模型训练与测试,但是自己目前的设备性能达不到要求的小伙伴。

具体怎么申请其实有教程已经说的很清楚了,参照这里

这篇教程主要答疑几个大家比较关心的问题,以及如何部署自己的模型

如何计费

目前阿里云提供750个计算时的免费试用,分为三个月,每个月250个计算时。如何理解这个计算时,就是说根据你选择的GPU不同,每实际使用服务器一小时对应若干个计算时,参照图片:

计费的话从启动实例(相当于你具体部署环境的docker)就开始了,所以如果暂时不使用的话切记切记切记一定要关闭实例!

赠送的计算时小于50个计算时时,会收到流量预警;万一计算时用超了也不用太担心一直计费,系统检测到当前计算时没有了会自动关闭实例,但是用超过的部分会收取人民币。

电脑网络连接

因为本身是云服务器,只要训练开始之后模型会在服务器一直运行,即使本地电脑断开与服务器的连接也会接着训练,后面电脑重新连上服务器只需要再刷新下界面就可以了。

如何部署模型

界面

如果大家按照上面教程申请好服务器,创建好一个实例并启动的话,界面长这个样子

主要分为最上面的三部分:

Notebook:jupyter notebook操作台

WebIDE:vscode的IDE

Terminal:终端

环境

在创建实例的时候提供了一些镜像可供选择,会预装pytorch、python、cuda等等,但是很多时候都不完全满足我们想要部署代码的环境的,这里选一个接近要求的镜像即可

在进入实例之后我们完全可以根据需要自己去重新下载对应的cuda版本,这里建议cuda先在自己电脑下载好再上传到服务器节省时间,计算时是很宝贵的。

至于python和pytorch,建议大家使用anaconda进行环境管理,在虚拟环境中重新安装自己需要的python和pytorch版本

一定注意是先cuda版本,再到conda环境中配置pytorch和python版本,这些之间是有依赖关系的,经常配置环境的小伙伴应该知道

数据上传

训练所需要的数据包括本地的一些文件可以在jupyter工作台中进行上传,如图:

至于传输数据的速度,我这边看至少是10M+/s的速度,还是相当快的

总结

有了环境、有了数据、至于代码还有一些其它的文件在终端用git clone,wget指令下载也很简单,都准备好之后就可以开始愉快的进行训练了。需要提醒的是云服务器因为没有可视化界面,所以有些可视化的功能可能用不了(诸如open3d进行可视化之类的)。