AI中国网 https://www.cnaiplus.com
导读:确定、可控、批量生产作者aniel编辑: Koji排版: Zeooo在AI视频生成领域,大家都在看Seedance、可灵谁能生成更逼真的画面,谁的运动更自然。但在生成式路线之外,HeyGen 悄悄开源了一个东西,做的不是画面质量,而是视频生产的基础设施。视频生成的另一条路线4 月,HeyGen 发布了 Hyperframes,一个基于 HTML 的视频渲染框架。它不生成画面,而是让代码变成帧率稳定、动画流畅 ......确定、可控、批量生产
作者:Daniel
编辑: Koji
排版: Zeooo
在AI视频生成领域,大家都在看Seedance、可灵谁能生成更逼真的画面,谁的运动更自然。但在生成式路线之外,HeyGen 悄悄开源了一个东西,做的不是画面质量,而是视频生产的基础设施。视频生成的另一条路线4 月,HeyGen 发布了 Hyperframes,一个基于 HTML 的视频渲染框架。它不生成画面,而是让代码变成帧率稳定、动画流畅、可以直接上传播放的视频文件。关键词三个:确定、可控、批量生产。
不是通过 Diffusion 去生成,而是通过代码来逐帧精确控制画面。
在 Hyperframes 之前,这个领域最重要的项目是 Remotion。2021 年发布,思路很优雅:用最经典的前端框架 React 写视频,每一帧是一个组件,时间轴上的每一秒都是代码可控的。
Remotion 做得不错,也有了不少付费用户。但 HeyGen 自己大量使用 Remotion 之后,觉得不够用了,于是从头写了 Hyperframes,然后开源。
为什么不够用?为什么要重新造一个轮子?这是理解 Hyperframes 最重要的问题。先看看它用起来到底怎样。
体验过程:低成本、可控性启动方法很简单。运行一行命令把 Hyperframes 的 skill 装进你的 AI agent(Claude Code、Codex、OpenClaw 都行),初始化一个项目目录,之后就完全用自然语言交互了。
我用 Claude Code 配 Opus 4.6 做测试。第一条指令:
做一个 9:16 的 TikTok 风格短视频,给外行人介绍 DeepSeek V4 和 V3 的区别,大概 30 秒,画面要有 DeepSeek 的视觉特征,动画有弹性,加上语调专业的 TTS。
这模拟的是一个很真实的场景:我想快速做一个科普视频给大众看,没怎么动脑写 prompt,也没有规定视频里的每个部分讲什么、怎么讲,全让 AI 自己来做,成本能低到什么程度?
Claude Code 自己去搜索了 DeepSeek V4 的资料,用 Kokoro 生成了语音,做了视觉设计,输出了一个 HTML 文件。
这里有一个值得注意的细节:Hyperframes 内置了强制校验机制。HTML 生成后会自动检查格式规范,内容溢出、对比度不够导致文字看不清,这些问题会在渲染前就被拦住。出品至少是「可看」的,不会出现排版乱掉的情况。
效果比较简单,基本是几页带文字和过渡动画的画面,像一个会动的 PPT。配色也偏丑,而且默认用了英文。不过只给了一句指令,没做任何调优,这个起点算合格。
接下来我开始调。给了一段修改指令:
主配色换成白底蓝黑字、更简约高级的视觉风格;语言换成中文;解决字幕和语音的节奏错位问题;转场动画换成更丰富的效果;关键词出现时蓝底高亮白字。
Claude Code 不只是改了样式。它重新核实了 V4 的技术参数,修正了第一版里的几个事实错误,比如把模糊的「计算量减少 73%」改成了更准确的「注意力计算省 73%」,内容和形式一起迭代了。
再微调一轮:顶部加一个标题、把条状图换成环形图、换掉一句太中二的口号、转场动画多样化一些。每轮微调大概五分钟。
调完的效果已经比较像样了。从「丑 PPT」到「能发出去」,一共三四轮迭代,累计半小时。这个成本已经比自己在剪映里拖拽元素低了,而且完全没有软件的上手门槛。
科普视频是「从零开始」,多少有点粗糙。接下来测一个更接近实际生产的场景:提供一些基础素材和指令,同一套模板、同一个风格,批量生成一组系列视频。
我选了三丽鸥家族做试验,提前搜好了美乐蒂、库洛米、布丁狗、玉桂狗四个角色的图片素材(PNG、GIF),然后给了一条比较详细的指令:
四个视频共用一套模板结构(出场→介绍→角色关系→系列结尾),但每个角色有自己的配色(粉、紫、黄、蓝)和动态背景(格子、流星、圆点、条纹);图片要保持无底 PNG 的透明状态;标题用可爱卡通的字体加描边;角色图片要有轻微浮动的呼吸感动画。
(我从网上扒的参考图)
从准备素材到四个视频全部出完,大约20分钟。效果如下:
在整个体验过程中,我觉得最值得说的不是最终效果有多好看,而是工作方式的变化。
用 Sora 或者 Runway 生视频,你面对的是一个黑盒:输入 prompt,等输出,不满意就换个 prompt 重来,有时候之前改过的东西,重新输出一次之后又改回去了。你没有办法说「就这个画面,把左边那个元素往右移一点」。每次重新生成都是一次完整的**。
Hyperframes 完全不同。因为底层是 HTML 代码,每一帧的每一个元素都是确定的。你可以直接让 AI 改某一行 CSS,把标题颜色从蓝色换成红色,或者把某个动画的时长从 2 秒改成 1.5 秒,然后重新渲染。
同样的代码,每次渲染出来的视频是一模一样的。这意味着你可以大胆修改细节,不用担心改一个地方、另一个地方莫名其妙变了。
Hyperframes 和纯 prompt 驱动的视频生成工具,类似于用代码写定的 workflow 和模型通过自然语言理解的 skill,前者更稳定可控,后者灵活性和上限更高。在当前阶段两种路径并存。
如果你的需求是同模板批量生产内容,Hyperframes 这种路径会更适合。
另外,以上我手搓的两个视频仍然粗糙。Hyperframes 官方提供了一些成品模板,如果之后使用社群壮大起来,也一定会有开发者贡献更多模板,和 PPT 模板生态一样。

不过落到实际的生产环境里,Hyperframes 的局限性依然存在。
前面提到,Hyperframes 的代码成品率很高,HTML 层面几乎不出结构性错误。但「代码跑得通」和「画面好看」之间仍然有距离。
对于复杂的画面构成和精致的动效,哪怕已经用自然语言进行了详细描绘,效果和预期之间仍然会出现落差。这种落差来自两个不同层面的局限。
第一类局限是自然语言描述空间关系的带宽有限。比如我让它生成十字路口播客的嘉宾金句剪辑(金句 clip 是我手工剪的):
使用Hyperframes做一个播客金句&开场的视频,横版16:9素材:(视频地址及文字)布局:类似聚光灯,深绿色背景上,一个圆形框住视频里的嘉宾,圆形下方是嘉宾的名字和title,旁边用大字展示金句。三个素材的人像和文字位置要各不相同,以保证画面的多样性。动画:圆和文字从侧方偏移滑入,文字随着视频节奏逐句出现。转场:clip 之间用简洁的转场。这个动画本身不难,但画面的位置、缩放怎么设置,才能刚好框住我想要的范围,这个我是无法用语言跟 Claude 说清的「往左一点」「再大一点」是一个无底洞。我只能手动一点点调 HTML 里的数值,调完之后重新渲染看结果,这是最费时间的一步。
这不是模型的能力问题,而是自然语言本身在描述精确空间关系时带宽不够,效率比不上 GUI 界面,手动直接拖拽移动。
第二类局限是模型没有视觉反馈回路,无法自判效果是否达标。比如我让它生成一个十字路口播客的动画,prompt 如下:
使用Hyperframes做一个十字路口播客的动画视频,横版16:9播客名称:十字路口,意为“站在科技与人文的十字路口”播客logo:(图片)画面布局:背景,使用播客主题深绿色,布满复杂密集的线路,类似交通道路,又类似电路板和生长的树枝,有曲有直。线路之间有丰富的几何图形不规则地排列做点缀,显示出生命力。前景,画面上半部分是logo,下半部分是播客名和slogan。前景的图像都使用浅绿色动画:背景,从纯深绿色开始,道路快速从中心向四周延伸,同时装饰的几何元素随着道路生长而出现。前景,从一串大小不一的圆形组成的漩涡/波纹开始,波纹旋转消失后,logo和文字快速弹出。前景和背景的动画同时结束,结束后画面静止不变,总时长2s.整体动画尽可能地跳跃、夸张、活泼、有生命力。初版生成的画面十分粗糙且简单,在多次反复追加「更复杂」之后,模型才终于把初始 prompt 里已经写明的「复杂」「繁多」「夸张」落实到位。换句话说,要求从一开始就写在那里了,但模型自动降级了。
成品如下:
这是因为语言模型无法真正「看」到渲染结果。它不知道自己写出来的代码在视觉上是什么效果,也就无法判断「够不够复杂」「够不够夸张」。
它倾向于生成保守、安全的版本,因为它没有反馈信号来校准自己对「程度」的理解。
两类局限叠加在一起,意味着目前 Hyperframes 的工作流里仍然存在一个必须人工介入的环节:视觉微调。
AI 能快速生成 80% 的效果,但最后那 20%,位置对不对、动画够不够复杂、整体感觉到没到位,仍然需要人看着画面手动调参数。这个环节的效率,决定了它能不能真正替代传统视频制作流程。
为什么HeyGen要做这件事理解了体验,再来看背后的商业逻辑。
HeyGen 是做 AI 数字人的公司,核心产品是你上传一段文字,它帮你生成一个数字人说话的视频。
背后的流程大概是:先用 AI 生成数字人的脸部动画和口型,然后把这些素材组装成一个完整的视频,加上背景、字幕、转场、logo。
这个组装环节,HeyGen 之前一直在用 Remotion。但 Remotion 有一个现实问题:它是商业授权的。

但省钱只是表面原因。更深层的原因是,emotion 是为人设计的。
Remotion 选 React 作为技术底座,因为 React 是前端工程师最熟悉的框架。如果你的用户是程序员,让他们用最熟的工具就是最低摩擦的方案。
但 HeyGen 的场景变了。在他们的生产管线里,越来越多的视频不是人在写代码生成的,而是 AI agent 在调 API 自动生成的。
所以 Hyperframes 砍掉了 React,回到最基础的 HTML + CSS + JavaScript。对 AI 来说,生成一段纯 HTML 比生成一个 React 组件树准确率高得多。
从商业模式上看,Hyperframes 的组件目录里有一个叫 HeyGen Avatar 的组件,用来嵌入 HeyGen 的数字人。框架免费,数字人收费。用了这个框架,自然就接入了 HeyGen 的核心付费产品。
HeyGen 赌的是:在 AI 视频的世界里,虽然会大量用到 AIGC 生成的内容,但仍然需要一个结构化的、可控的代码层来控制视频的基本信息、剪辑和画面转换。谁定义了这层基础设施的接口,谁就拥有了平台地位。

(hyperframes的动画和数字人结合在一起的效果)
总结Hyperframes 本质上是把视频拉进了 vibe coding 的领域:版本控制、批量生成、确定性复现。
我在体验 Hyperframes 的全程都在用 Claude Code,它不是一个视频制作 agent,它就是一个通用的 coding agent,只不过这次写的代码会被渲染成视频。
agent 能力的边界不在 agent 本身,而在它能调用的工具,代码正在成为 AI 理解和操控世界的 lingua franca,换句话说,coding agent 就是通用 agent。
下一个被拉进代码世界的创作媒介,又会是什么呢。
附上 Hyperframes 使用体验总结:
Pros:
确定性。改一处就是一处,不会像生成式工具那样每次重来都是**
纯 HTML 底座对 AI 友好,成品率高,几乎不出结构性错误
迭代很快,五分钟一轮,三四轮就能从粗糙到能发
适合批量生产,同模板换内容,系列化内容的效率碾压手工
Cons:
最后 20% 的视觉微调仍然得人来做,空间位置、动画程度这些东西说不清楚
自然语言描述精确的空间关系效率太低,远不如 GUI 直接拖
模型看不到自己渲染出来的东西,总是倾向保守,需要反复 push
HTML+CSS 动画的表现力有天花板,写实和电影级画面做不了
十字路口正在寻找独立撰稿人,撰写 AI 产品和模型评测。如果你写过类似文章:《实测 PixVerse C1》、《实测 LibTV》,请联系 zeo0811@gmail.com ,邮件内容请包括:① 个人介绍、② 你写过的 AI 评测文章。我们会提供有竞争力的稿酬。期待与你一起观察与记录 AI 时代
AI中国网 https://www.cnaiplus.com
本文网址:




