【中小学AI人工智能教育】强化学习范例——平衡杆

2026/7/2 2:39:25

Ai创想实验室是专门为中小学AI教育开发的教学平台，包含了值计算、图像分类、音频分类、文本分类、数值回归、图像回归、图像分类+回归、平衡杆、手写数字生成、文本生成等中小学人工智能学习类项目。无需编程基础、无需添加硬件、无需购买算力、无隐私担忧、无需师资培训即可进行教学实践。

和之前介绍的监督学习一样，尽可能用更广为人知容易找到大量参考资料的入门范例来完成这一类的首个例子，而平衡杆就是很好的选择。作为强化学习范畴的范例，其流程与监督学习有一定区别。

一、模型构建

在Ai创想实验室中，我们只需要构建专家示范操作模型。平衡杆项目很简单，其输入有4个维度（位置、速度、杆子角度、杆子角速度），而输出仅有2个维度（左或右）。通过一些全连接层，即可学会这种映射关系：

二、强化学习

将上述模型导出，并导入到强化学习训练器中，设置超参数即可进行训练。在训练其中，采用Q值网络、经验池来完成训练，为了在低配硬件上可以流畅运行除了模型训练以外的较多计算，在界面上可以配置界面更新频率和画布渲染频率，如果默认设置下有卡顿你可以更改这些设置使之更流畅：

经过一些轮次训练，平衡杆直立的步数会呈现上升趋势，大约200轮左右能首次达到500步，这大约需要十来分钟时间。

三、专家示范操作

通常来说，模型可以通过直接强化学习的方式进行学习；但是，这样的完全靠模型进行探索来学习的过程通常比较慢。如果我们用一些数据先训练一下模型，训练进程会有所加快。在数据采集器中，我们可以进行“示教”操作——根据小车的状态输入左或右（键盘方向键←或→）。这样我们就采集了一些数据，但实际操作时，平衡车的物理模拟帧率很高，人类的反应速度很难跟上，所以在数据采集界面上可以设置游戏速度：

当我们采集足够的数据（这通常指维持平衡和小车不超出左右位置），就可以把数据导出。

四、监督学习训练

当我们获得数据之后，就可以像之前的监督学习一样，使用这些数据对模型进行训练。如果你采集了足够的数据，训练结束之后模型可以很快就能达到500步。

当训练完成之后，可以把已训练模型导出，而后导入到强化学习训练器中——就像直接强化学习一样训练模型。这时，我们可以观察到模型会更快的学会如何保持平衡杆直立。

在AI创想实验室中，我们无需编程基础，不用学习框架，不用配置环境，无需购买费用高昂的显卡，更不用为云端算力付费，使用当前已有的各种硬件：仅有核显的个人、办公、机房电脑，希沃白板等都能达到理想的教学效果。操作简单但AI核心知识样样俱全，无需师资培训就可以进行教学且能取得理想的教学效果。如果加入试点或合作方那么只需要一台局域网服务器（无需显卡、服务器不用供算力）即可一次投入永久使用全部项目和功能，通过后台管理一分钟即可创建一个本地化、校本化的项目实例。