来源：互联网2026-05-08 00:00:00 热度：

在你看不见的地方，HeyGen 正在改写 AI 视频生成

AI中国网 https://www.cnaiplus.com

导读：确定、可控、批量生产作者aniel编辑: Koji排版: Zeooo在AI视频生成领域，大家都在看Seedance、可灵谁能生成更逼真的画面，谁的运动更自然。但在生成式路线之外，HeyGen 悄悄开源了一个东西，做的不是画面质量，而是视频生产的基础设施。视频生成的另一条路线4 月，HeyGen 发布了 Hyperframes，一个基于 HTML 的视频渲染框架。它不生成画面，而是让代码变成帧率稳定、动画流畅 ......

确定、可控、批量生产

作者:Daniel

编辑: Koji

排版: Zeooo

在你看不见的地方，HeyGen 正在改写 AI 视频生成

在AI视频生成领域，大家都在看Seedance、可灵谁能生成更逼真的画面，谁的运动更自然。但在生成式路线之外，HeyGen 悄悄开源了一个东西，做的不是画面质量，而是视频生产的基础设施。视频生成的另一条路线4 月，HeyGen 发布了 Hyperframes，一个基于 HTML 的视频渲染框架。它不生成画面，而是让代码变成帧率稳定、动画流畅、可以直接上传播放的视频文件。关键词三个：确定、可控、批量生产。

不是通过 Diffusion 去生成，而是通过代码来逐帧精确控制画面。

在你看不见的地方，HeyGen 正在改写 AI 视频生成

在 Hyperframes 之前，这个领域最重要的项目是 Remotion。2021 年发布，思路很优雅：用最经典的前端框架 React 写视频，每一帧是一个组件，时间轴上的每一秒都是代码可控的。

Remotion 做得不错，也有了不少付费用户。但 HeyGen 自己大量使用 Remotion 之后，觉得不够用了，于是从头写了 Hyperframes，然后开源。

为什么不够用？为什么要重新造一个轮子？这是理解 Hyperframes 最重要的问题。先看看它用起来到底怎样。

体验过程：低成本、可控性启动方法很简单。运行一行命令把 Hyperframes 的 skill 装进你的 AI agent（Claude Code、Codex、OpenClaw 都行），初始化一个项目目录，之后就完全用自然语言交互了。

我用 Claude Code 配 Opus 4.6 做测试。第一条指令：

做一个 9:16 的 TikTok 风格短视频，给外行人介绍 DeepSeek V4 和 V3 的区别，大概 30 秒，画面要有 DeepSeek 的视觉特征，动画有弹性，加上语调专业的 TTS。

这模拟的是一个很真实的场景：我想快速做一个科普视频给大众看，没怎么动脑写 prompt，也没有规定视频里的每个部分讲什么、怎么讲，全让 AI 自己来做，成本能低到什么程度？

Claude Code 自己去搜索了 DeepSeek V4 的资料，用 Kokoro 生成了语音，做了视觉设计，输出了一个 HTML 文件。

这里有一个值得注意的细节：Hyperframes 内置了强制校验机制。HTML 生成后会自动检查格式规范，内容溢出、对比度不够导致文字看不清，这些问题会在渲染前就被拦住。出品至少是「可看」的，不会出现排版乱掉的情况。

效果比较简单，基本是几页带文字和过渡动画的画面，像一个会动的 PPT。配色也偏丑，而且默认用了英文。不过只给了一句指令，没做任何调优，这个起点算合格。

接下来我开始调。给了一段修改指令：

主配色换成白底蓝黑字、更简约高级的视觉风格；语言换成中文；解决字幕和语音的节奏错位问题；转场动画换成更丰富的效果；关键词出现时蓝底高亮白字。

Claude Code 不只是改了样式。它重新核实了 V4 的技术参数，修正了第一版里的几个事实错误，比如把模糊的「计算量减少 73%」改成了更准确的「注意力计算省 73%」，内容和形式一起迭代了。

再微调一轮：顶部加一个标题、把条状图换成环形图、换掉一句太中二的口号、转场动画多样化一些。每轮微调大概五分钟。

调完的效果已经比较像样了。从「丑 PPT」到「能发出去」，一共三四轮迭代，累计半小时。这个成本已经比自己在剪映里拖拽元素低了，而且完全没有软件的上手门槛。

科普视频是「从零开始」，多少有点粗糙。接下来测一个更接近实际生产的场景：提供一些基础素材和指令，同一套模板、同一个风格，批量生成一组系列视频。

我选了三丽鸥家族做试验，提前搜好了美乐蒂、库洛米、布丁狗、玉桂狗四个角色的图片素材（PNG、GIF），然后给了一条比较详细的指令：

四个视频共用一套模板结构（出场→介绍→角色关系→系列结尾），但每个角色有自己的配色（粉、紫、黄、蓝）和动态背景（格子、流星、圆点、条纹）；图片要保持无底 PNG 的透明状态；标题用可爱卡通的字体加描边；角色图片要有轻微浮动的呼吸感动画。

在你看不见的地方，HeyGen 正在改写 AI 视频生成

（我从网上扒的参考图）

从准备素材到四个视频全部出完，大约20分钟。效果如下：

在整个体验过程中，我觉得最值得说的不是最终效果有多好看，而是工作方式的变化。

用 Sora 或者 Runway 生视频，你面对的是一个黑盒：输入 prompt，等输出，不满意就换个 prompt 重来，有时候之前改过的东西，重新输出一次之后又改回去了。你没有办法说「就这个画面，把左边那个元素往右移一点」。每次重新生成都是一次完整的**。

Hyperframes 完全不同。因为底层是 HTML 代码，每一帧的每一个元素都是确定的。你可以直接让 AI 改某一行 CSS，把标题颜色从蓝色换成红色，或者把某个动画的时长从 2 秒改成 1.5 秒，然后重新渲染。

同样的代码，每次渲染出来的视频是一模一样的。这意味着你可以大胆修改细节，不用担心改一个地方、另一个地方莫名其妙变了。

Hyperframes 和纯 prompt 驱动的视频生成工具，类似于用代码写定的 workflow 和模型通过自然语言理解的 skill，前者更稳定可控，后者灵活性和上限更高。在当前阶段两种路径并存。

如果你的需求是同模板批量生产内容，Hyperframes 这种路径会更适合。

另外，以上我手搓的两个视频仍然粗糙。Hyperframes 官方提供了一些成品模板，如果之后使用社群壮大起来，也一定会有开发者贡献更多模板，和 PPT 模板生态一样。

在你看不见的地方，HeyGen 正在改写 AI 视频生成

不过落到实际的生产环境里，Hyperframes 的局限性依然存在。

前面提到，Hyperframes 的代码成品率很高，HTML 层面几乎不出结构性错误。但「代码跑得通」和「画面好看」之间仍然有距离。

对于复杂的画面构成和精致的动效，哪怕已经用自然语言进行了详细描绘，效果和预期之间仍然会出现落差。这种落差来自两个不同层面的局限。

第一类局限是自然语言描述空间关系的带宽有限。比如我让它生成十字路口播客的嘉宾金句剪辑（金句 clip 是我手工剪的）：

使用Hyperframes做一个播客金句&开场的视频，横版16:9素材：（视频地址及文字）布局：类似聚光灯，深绿色背景上，一个圆形框住视频里的嘉宾，圆形下方是嘉宾的名字和title，旁边用大字展示金句。三个素材的人像和文字位置要各不相同，以保证画面的多样性。动画：圆和文字从侧方偏移滑入，文字随着视频节奏逐句出现。转场：clip 之间用简洁的转场。这个动画本身不难，但画面的位置、缩放怎么设置，才能刚好框住我想要的范围，这个我是无法用语言跟 Claude 说清的「往左一点」「再大一点」是一个无底洞。我只能手动一点点调 HTML 里的数值，调完之后重新渲染看结果，这是最费时间的一步。

这不是模型的能力问题，而是自然语言本身在描述精确空间关系时带宽不够，效率比不上 GUI 界面，手动直接拖拽移动。

第二类局限是模型没有视觉反馈回路，无法自判效果是否达标。比如我让它生成一个十字路口播客的动画，prompt 如下：

使用Hyperframes做一个十字路口播客的动画视频，横版16:9播客名称：十字路口，意为“站在科技与人文的十字路口”播客logo：（图片）画面布局：背景，使用播客主题深绿色，布满复杂密集的线路，类似交通道路，又类似电路板和生长的树枝，有曲有直。线路之间有丰富的几何图形不规则地排列做点缀，显示出生命力。前景，画面上半部分是logo，下半部分是播客名和slogan。前景的图像都使用浅绿色动画：背景，从纯深绿色开始，道路快速从中心向四周延伸，同时装饰的几何元素随着道路生长而出现。前景，从一串大小不一的圆形组成的漩涡/波纹开始，波纹旋转消失后，logo和文字快速弹出。前景和背景的动画同时结束，结束后画面静止不变，总时长2s.整体动画尽可能地跳跃、夸张、活泼、有生命力。初版生成的画面十分粗糙且简单，在多次反复追加「更复杂」之后，模型才终于把初始 prompt 里已经写明的「复杂」「繁多」「夸张」落实到位。换句话说，要求从一开始就写在那里了，但模型自动降级了。

成品如下：

这是因为语言模型无法真正「看」到渲染结果。它不知道自己写出来的代码在视觉上是什么效果，也就无法判断「够不够复杂」「够不够夸张」。

它倾向于生成保守、安全的版本，因为它没有反馈信号来校准自己对「程度」的理解。

两类局限叠加在一起，意味着目前 Hyperframes 的工作流里仍然存在一个必须人工介入的环节：视觉微调。

AI 能快速生成 80% 的效果，但最后那 20%，位置对不对、动画够不够复杂、整体感觉到没到位，仍然需要人看着画面手动调参数。这个环节的效率，决定了它能不能真正替代传统视频制作流程。

为什么HeyGen要做这件事理解了体验，再来看背后的商业逻辑。

HeyGen 是做 AI 数字人的公司，核心产品是你上传一段文字，它帮你生成一个数字人说话的视频。

背后的流程大概是：先用 AI 生成数字人的脸部动画和口型，然后把这些素材组装成一个完整的视频，加上背景、字幕、转场、logo。

这个组装环节，HeyGen 之前一直在用 Remotion。但 Remotion 有一个现实问题：它是商业授权的。

在你看不见的地方，HeyGen 正在改写 AI 视频生成

但省钱只是表面原因。更深层的原因是，emotion 是为人设计的。

Remotion 选 React 作为技术底座，因为 React 是前端工程师最熟悉的框架。如果你的用户是程序员，让他们用最熟的工具就是最低摩擦的方案。

但 HeyGen 的场景变了。在他们的生产管线里，越来越多的视频不是人在写代码生成的，而是 AI agent 在调 API 自动生成的。

所以 Hyperframes 砍掉了 React，回到最基础的 HTML + CSS + JavaScript。对 AI 来说，生成一段纯 HTML 比生成一个 React 组件树准确率高得多。

从商业模式上看，Hyperframes 的组件目录里有一个叫 HeyGen Avatar 的组件，用来嵌入 HeyGen 的数字人。框架免费，数字人收费。用了这个框架，自然就接入了 HeyGen 的核心付费产品。

HeyGen 赌的是：在 AI 视频的世界里，虽然会大量用到 AIGC 生成的内容，但仍然需要一个结构化的、可控的代码层来控制视频的基本信息、剪辑和画面转换。谁定义了这层基础设施的接口，谁就拥有了平台地位。

在你看不见的地方，HeyGen 正在改写 AI 视频生成

（hyperframes的动画和数字人结合在一起的效果）

总结Hyperframes 本质上是把视频拉进了 vibe coding 的领域：版本控制、批量生成、确定性复现。

我在体验 Hyperframes 的全程都在用 Claude Code，它不是一个视频制作 agent，它就是一个通用的 coding agent，只不过这次写的代码会被渲染成视频。

agent 能力的边界不在 agent 本身，而在它能调用的工具，代码正在成为 AI 理解和操控世界的 lingua franca，换句话说，coding agent 就是通用 agent。

下一个被拉进代码世界的创作媒介，又会是什么呢。

附上 Hyperframes 使用体验总结：

Pros：

确定性。改一处就是一处，不会像生成式工具那样每次重来都是**

纯 HTML 底座对 AI 友好，成品率高，几乎不出结构性错误

迭代很快，五分钟一轮，三四轮就能从粗糙到能发

适合批量生产，同模板换内容，系列化内容的效率碾压手工

Cons：

最后 20% 的视觉微调仍然得人来做，空间位置、动画程度这些东西说不清楚

自然语言描述精确的空间关系效率太低，远不如 GUI 直接拖

模型看不到自己渲染出来的东西，总是倾向保守，需要反复 push

HTML+CSS 动画的表现力有天花板，写实和电影级画面做不了

十字路口正在寻找独立撰稿人，撰写 AI 产品和模型评测。如果你写过类似文章：《实测 PixVerse C1》、《实测 LibTV》，请联系 zeo0811@gmail.com ，邮件内容请包括：① 个人介绍、② 你写过的 AI 评测文章。我们会提供有竞争力的稿酬。期待与你一起观察与记录 AI 时代

AI中国网 https://www.cnaiplus.com

本文网址：

欢迎关注微信公众号：人工智能报；合作及投稿请联系：editor@cnaiplus.com

智能推荐

无相关信息

精选

AI中国号...

关注微信公众号，了解最新精彩内容