Bernini AI 视频生成器

Bernini AI 是 ByteDance 的统一 AI 视频生成与编辑框架：可从文本生成视频、用提示词重塑或修改现有素材，并基于参考图片驱动新片段。它由 MLLM 语义规划器和 DiT 渲染器驱动，可在线使用，无需多 GPU 部署。

创建视频创建图片

GPT Image

Veo

Nano Banana

Flux

Kling

Seedream

Seedance

Z-Image

Wan

HappyHorse

立即试用 Bernini AI

输入文本提示词或上传图片，即可在浏览器中生成 AI 视频。你可以在同一界面切换 Bernini AI 的生成、编辑能力和其他引擎，无需 GPU，无需安装。

模型

时长

3s4s5s6s7s

参考图片 (1-5)

上传图片

JPEG、PNG、WebP（每张最大 10MB）

已上传 0/5 张参考图片

提示词

翻译提示词

0 / 5000

宽高比

分辨率

使用 Bernini AI 创作

浏览由 Bernini AI 和本平台其他引擎生成的视频片段、编辑作品和静态图。在开始自己的创作前，先了解可实现的风格和任务范围。

浏览全部作品

什么是 Bernini AI？

Bernini AI 是 ByteDance 的统一 AI 视频生成与编辑框架，以 Apache 2.0 开源（论文："Bernini: Latent Semantic Planning for Video Diffusion"）。它不是单一用途的生成器，而是用一个模型覆盖完整任务范围：文生视频、参考图生视频、基于提示词的视频编辑、参考引导编辑和内容插入，并支持图像生成与编辑。它由 MLLM 语义规划器和 DiT 渲染器组成，让同一个系统既能理解场景，也能在像素层面完成渲染。

Bernini AI 的独特之处在于分工方式。基于 Qwen2.5-VL 的 MLLM 规划器会以语义表示预测结果应该是什么样，并在复杂指令中使用 chain-of-thought 推理；基于 Wan2.2 的 DiT 渲染器再把这个计划转换成视频帧，并在编辑任务中利用源视频自身特征保留细节。Segment-Aware 3D 位置编码（SA-3D RoPE）帮助模型清晰区分多个输入，例如源片段和多张参考图片。在 ByteDance 自有基准中，Bernini 在视频编辑上达到领先闭源模型的第一梯队，并在主体一致性上领先；但团队也指出，原始文生视频视觉质量仍落后于最强闭源系统。

自行运行 Bernini 需要 H100 这类 Hopper 架构 GPU 和多 GPU 配置，对大多数创作者来说门槛很高。Bernini AI 移除了这道门槛，把工作流带到线上：你可以在浏览器中通过文本提示词生成视频、用文字描述编辑现有片段，或通过最多 5 张参考图片驱动新视频。除了 Bernini，平台还提供其他视频和图像引擎，方便你为每个任务匹配合适工具；但 Bernini AI 的核心价值，是把生成和编辑放在同一个地方，无需管理 GPU，也无需安装任何软件。

可在线使用的其他 AI 引擎

Bernini AI 领衔视频生成与编辑工作区。这些额外引擎覆盖 Bernini 之外的格式和任务，包括其他视频模型、高分辨率图像生成和后期视频编辑。

Seedance

视频

ByteDance 的商业视频引擎，可在这里用于文生视频和图生视频，并生成同步音频。当你需要从单条提示词得到高完成度、可直接发布的片段时，它是很强的替代选择。

立即试用

Kling

视频

快手的 Kling 可在标准和 Pro 模式下生成多镜头视频，并在单条提示词中处理场景转场。它也支持 Motion Control，可把参考片段中的全身动作迁移到角色图片上。

立即试用

Veo

视频

Google DeepMind 的 Veo 可生成带内置音频的短篇电影级片段，并具备强环境真实感。它支持首帧与尾帧控制，方便精确限定场景起点和终点。

立即试用

GPT Image

图片

OpenAI 的图像模型，针对图片中的文字准确性做了优化。当提示词包含必须清晰可读的标签、Logo 或标牌时，它是合适选择。

立即试用

Flux Pro

图片

Black Forest Labs 的图像引擎，面向速度和吞吐量，可覆盖多种宽高比，适合产品图、社交内容和快速迭代。

立即试用

Nano Banana

图片

Google 的角色一致性图像引擎。它可以接收多张参考图片，在一组作品中保持面部、服装或品牌标识稳定。

立即试用

Seedream

图片

ByteDance 的原生 4K 图像引擎，可生成覆盖宽比例的超高分辨率静态图，并通过逐步视觉推理提升复杂场景的连贯性和细节。

立即试用

查看全部工具

一个模型，同时生成与编辑

Bernini AI 将文生视频、视频编辑和参考驱动生成统一在一个模型中。专用图像引擎则补足设计、文字排版和高分辨率静态图工作流。

Bernini · Kling · Veo

AI 视频生成

Bernini AI 可在同一工作区中从文本提示词生成视频，也能编辑现有素材，例如重塑片段、替换或插入物体、改变天气或风格。参考图生视频可由最多 5 张图片驱动新片段；Kling 和 Veo 也可用于多镜头序列和电影级输出。

创建视频

Seedream · GPT Image · Flux

AI 图像生成

在 Bernini AI 视频能力之外，使用高分辨率图像生成与编辑。GPT Image 适合准确生成图片内文字，Seedream 支持多种宽高比下的原生 4K，Flux 适合快速迭代，Nano Banana 适合在系列作品中保持角色一致。文生图和图生图并排可用。

创建图片

为什么使用 Bernini AI

Bernini AI 将 ByteDance 的视频生成与编辑模型带到线上，在一个地方完成创作、编辑和参考驱动生成，无需多 GPU 设备。

一个模型，同时生成与编辑

Bernini AI 是一个统一框架，可用同一个模型处理文生视频、参考图生视频和基于提示词的视频编辑，无需把生成和编辑拆成不同工具。同一个 Bernini AI 工作区即可从空白提示词推进到完成编辑的视频。

多模态参考控制

Bernini AI 可同时理解文本、源图片和源视频。参考图生视频最多可接收 5 张参考图片，用于锁定主体、物体或风格；参考引导编辑则可在现有片段中替换服装、替换物体，或改变材质、天气和整体视觉效果。

语义规划架构

Bernini AI 将 MLLM 语义规划器与 DiT 渲染器结合。基于 Qwen2.5-VL 的规划器会在嵌入空间中推理编辑或场景的目标结果；基于 Wan2.2 的渲染器再合成像素，并使用源视频特征在编辑过程中保留细节。

强编辑一致性

在 ByteDance 自有评测中，Bernini 在视频编辑上达到领先闭源模型的第一梯队，尤其擅长保持未编辑区域稳定并保留主体身份。因此，当你只想做局部修改、而其他内容必须保持不变时，Bernini AI 很适合。

在线运行 Bernini AI，无需 H100

Bernini 以 Apache 2.0 开源，但自托管需要 H100 这类 Hopper 架构 GPU。Bernini AI 将这个工作流放到浏览器中运行：无需租 GPU，无需安装软件，任何设备都可以生成和编辑视频。

如何使用 Bernini AI：三步完成

从提示词到成片只需三步，无需 GPU、无需安装，也不需要创作经验。

写提示词或上传参考素材

描述你想要的视频，或上传要使用的素材，例如用于编辑的源视频片段，或最多 5 张用于驱动主体或风格的参考图片。纯文生视频只需要提示词。Bernini AI 会同时读取文本、图片和视频输入。

使用 Bernini AI 生成或编辑

选择任务：文生视频、参考图生视频，或基于提示词编辑现有片段。Bernini AI 的语义规划器会推理目标结果，随后由渲染器生成画面。想换一种效果时，调整提示词或参考素材后再次生成即可。

下载你的视频

生成在云端运行，完成时间取决于片段长度和复杂度，通常需要几分钟。结果准备好后即可下载；付费方案支持商业用途，可用于社交媒体、广告、品牌内容和客户项目。

关于 Bernini AI 的常见问题

了解 Bernini AI 是什么、如何在线使用、可以生成和编辑什么，以及它与其他 AI 视频模型的区别。

Bernini AI 是一个可以在浏览器中直接使用 Bernini 的平台。Bernini 是 ByteDance 开放的 AI 视频生成与编辑模型。单个模型即可处理文生视频、参考图生视频、基于提示词的视频编辑、参考引导编辑和内容插入，同时也支持图像生成与编辑。底层架构将基于 Qwen2.5-VL 的 MLLM 语义规划器与基于 Wan2.2 的 DiT 渲染器结合，并以 Apache 2.0 许可证开源。在本站，你无需自行部署模型，就可以生成和编辑视频。

Bernini AI 用同一个模型覆盖生成和编辑两类任务。生成方面，它支持文生视频、图生视频，以及最多 5 张参考图片驱动的参考图生视频。编辑方面，它可以根据文本提示词重塑视频风格、改变主体动作、替换或插入物体、更换服装，并调整材质、天气或整体视觉效果，同时尽量保持其余画面一致。它也支持图像生成与图像编辑。这种覆盖范围正是 Bernini AI 区别于只从零生成视频的工具之处。

打开本站生成器，输入文本提示词或上传媒体素材，例如要编辑的视频片段，或用于参考的图片，然后选择任务即可。Bernini AI 在云端运行，因此无需租用 GPU，也无需安装软件；结果会在几分钟内返回到浏览器。自托管这个开源模型需要 H100 这类 Hopper 架构 GPU，而本平台正是为你省去这一步。

是。ByteDance 以 Apache 2.0 许可证发布了 Bernini，推理代码和渲染器权重已发布在 GitHub 和 Hugging Face。任何人都可以阅读论文、查看代码并运行模型；但实际运行需要 Hopper 架构 GPU（H100/H800/H200）和多 GPU 配置。Bernini AI 提供托管替代方案，让你无需这些硬件，也能在线使用同类生成与编辑工作流。

Bernini AI 将任务拆分给两个组件。基于 Qwen2.5-VL 的 MLLM 语义规划器会理解文本、图片和源视频，并在嵌入空间中预测目标语义表示；面对复杂编辑时，它还会使用 chain-of-thought 推理。随后，基于 Wan2.2 的 DiT 渲染器会根据这个计划合成实际帧，并在编辑时利用源视频特征保留细节。Segment-Aware 3D RoPE 让模型能够区分多个输入，因此可以分清源视频片段与参考图片。

参考图生视频让你用图片驱动新视频，而不是完全依赖文字描述。使用 Bernini AI 时，你可以提供最多 5 张参考图片，例如人物、物体或风格参考，模型会生成尽量保持这些参考一致的视频。它适合让特定角色或产品动起来，也适合在片段中稳定保持某种视觉风格，并且可以结合文本提示词做更细的控制。

可以，视频编辑是 Bernini AI 的核心能力之一。提供一个源视频片段和一段提示词，它可以重塑素材风格、改变主体动作、替换或插入物体、更换服装，或改变材质、天气和整体视觉效果。参考引导编辑还能通过额外图片来控制修改方向。在整个过程中，Bernini AI 的设计目标是让你没有要求修改的区域保持稳定，这也是它在 ByteDance 编辑基准中表现突出的地方。

Bernini AI 的主要优势是统一的生成与编辑能力，以及很强的编辑一致性：在 ByteDance 发布的基准中，它在视频编辑上达到领先闭源模型的第一梯队，并在主体身份保持方面领先。它的取舍也很明确，团队指出原始文生视频视觉质量仍落后于最强闭源系统，复杂编辑也更依赖详细提示词。Kling、Veo 等模型更专注于高完成度生成、更长片段或电影级画面。由于本平台提供多个引擎，你可以用同一个想法测试不同模型并保留最合适的结果；而 Bernini AI 的特点是用一个模型同时完成生成和编辑。

开源 Bernini 渲染器默认生成 480p、16fps 的短视频，示例中也展示了最高 720p、24fps 的输出。它更关注质量、一致性和编辑准确性，而不是长片段或超高分辨率。当你需要更高分辨率或更长的多镜头片段时，本平台也提供 Kling、Seedream 等引擎，方便你按任务选择合适工具。

可以，你可以将通过 Bernini AI 创建的视频和图片用于商业用途。付费方案输出不带水印，并可用于社交媒体、广告、品牌内容、产品视频和客户项目，且无需署名。Bernini 本身采用宽松的 Apache 2.0 许可证，因此底层模型也允许商业使用。

开始使用 Bernini AI 创作

Bernini AI 将 ByteDance 的视频生成与编辑模型带到线上。通过提示词生成视频、编辑现有素材，并用参考图片驱动新片段。

生成视频创建图片

Bernini AI 视频生成器

GPT Image

Veo

Nano Banana

Flux

Kling

Seedream

Seedance

Z-Image

Wan

HappyHorse

什么是 Bernini AI？

Bernini AI 视频生成器

立即试用 Bernini AI

使用 Bernini AI 创作

什么是 Bernini AI？