用 iThinkAir，把 Markdown 教程变成带旁白的视频

2026/6/24 9:54:06

之前做过一个教程，叫「用 iThinkAir，把一段文字变成清晰图表」。那次的结果是 Markdown 图文教程。

这次往前走一步：把这篇 Markdown 教程，直接变成带配音旁白的视频。

这件事靠的是 OpenClaw 的一个 Skill，名字叫doc-to-video。它的用途很直接：把 Markdown 技术文档自动转换成带配音旁白的专业视频。

先访问https://www.clawhub.ai，搜索doc-to-video。

搜索结果里能看到这个 Skill。进入详情页以后，可以看到它的说明：使用edge-tts生成自然人声，使用 Remotion 渲染视觉场景，再用 FFmpeg 合并音视频，输出高清视频。

下载 Skill 文件以后，本地会得到一个压缩包：

doc-to-video-1.0.4.zip

接下来访问https://www.ithinkair.com。

在 iThinkAir 里选择「技能化」，上传刚才下载的doc-to-video-1.0.4.zip，然后点击「传送技能」。

传送完成以后，这个 Skill 就可以在 iThinkAir 里用了。

这一步其实很关键。ClawHub 是 Skill 的分发地，iThinkAir 是 Skill 的使用地。一个负责找到工具，一个负责把工具用起来。

Skill 的价值，不是多一个按钮，而是把一整套工作流打包成一个可复用能力。

这次输入的内容，是上一篇「把文字变成清晰图表」的 Markdown 教程。里面有正文，也有操作截图，还有生成出来的图表封面。

然后点 iThinkAir 界面右上角的传送按钮，进入「做任务」。

在任务区里，把 Markdown 教程和相关截图作为输入，选择doc-to-video这个 Skill。这里还要勾选「补充信息」。

补充信息不是多余的表单。

它的作用是让 iThinkAir 根据任务需求和所选 Skill，自动生成一个信息采集表。比如这次，我们可以指定视频发布平台、画面比例、目标时长、目标受众，也可以选择横屏还是竖屏，男声还是女声。

这让 Skill 的使用更深入。不是把所有参数都塞给用户，而是在具体任务发生时，只问那些真正影响结果的问题。

填写好补充信息以后，开始执行视频转换任务。很快就得到一个制作好的视频。

这次生成的是一个 9:16 竖屏教程视频，中文旁白，分辨率 1080x1920，30 fps，时长约 67.87 秒，视频编码是 H.264，音频编码是 AAC。

最后点击「查看并下载视频」。

这就是完整流程：从 ClawHub 找到 Skill，下载 Skill，传到 iThinkAir，再把 Markdown 教程转成视频。

如果说上一篇教程解决的是「怎么把文字变成图表」，那这篇解决的就是「怎么把图文教程变成视频解说」。

同一份内容，可以继续生长。

先是文字，再是图表，再是图文教程，最后是带旁白的视频。内容不需要每次从零开始重做，只要把上一步的产物交给合适的 Skill，它就能继续往下变。

这也是 iThinkAir 和 OpenClaw 组合起来最有意思的地方。它不是让人记住一堆工具入口，而是让工具变成能力，再让能力围绕任务运转。

我现在越来越相信，未来我们处理内容，不是打开一个软件，然后手工点几十个按钮。

而是说清楚任务，把材料交进去，选择一个 Skill，让它把过程跑完。

最新新闻