立即试用 Bernini AI
输入文本提示词或上传图片,即可在浏览器中生成 AI 视频。你可以在同一界面切换 Bernini AI 的生成、编辑能力和其他引擎,无需 GPU,无需安装。
此图片将作为视频的起始帧
0 / 20000
什么是 Bernini AI?
Bernini AI 是 ByteDance 的统一 AI 视频生成与编辑框架,以 Apache 2.0 开源(论文:"Bernini: Latent Semantic Planning for Video Diffusion")。它不是单一用途的生成器,而是用一个模型覆盖完整任务范围:文生视频、参考图生视频、基于提示词的视频编辑、参考引导编辑和内容插入,并支持图像生成与编辑。它由 MLLM 语义规划器和 DiT 渲染器组成,让同一个系统既能理解场景,也能在像素层面完成渲染。
Bernini AI 的独特之处在于分工方式。基于 Qwen2.5-VL 的 MLLM 规划器会以语义表示预测结果应该是什么样,并在复杂指令中使用 chain-of-thought 推理;基于 Wan2.2 的 DiT 渲染器再把这个计划转换成视频帧,并在编辑任务中利用源视频自身特征保留细节。Segment-Aware 3D 位置编码(SA-3D RoPE)帮助模型清晰区分多个输入,例如源片段和多张参考图片。在 ByteDance 自有基准中,Bernini 在视频编辑上达到领先闭源模型的第一梯队,并在主体一致性上领先;但团队也指出,原始文生视频视觉质量仍落后于最强闭源系统。
自行运行 Bernini 需要 H100 这类 Hopper 架构 GPU 和多 GPU 配置,对大多数创作者来说门槛很高。Bernini AI 移除了这道门槛,把工作流带到线上:你可以在浏览器中通过文本提示词生成视频、用文字描述编辑现有片段,或通过最多 5 张参考图片驱动新视频。除了 Bernini,平台还提供其他视频和图像引擎,方便你为每个任务匹配合适工具;但 Bernini AI 的核心价值,是把生成和编辑放在同一个地方,无需管理 GPU,也无需安装任何软件。
可在线使用的其他 AI 引擎
Bernini AI 领衔视频生成与编辑工作区。这些额外引擎覆盖 Bernini 之外的格式和任务,包括其他视频模型、高分辨率图像生成和后期视频编辑。
Seedance
视频ByteDance 的商业视频引擎,可在这里用于文生视频和图生视频,并生成同步音频。当你需要从单条提示词得到高完成度、可直接发布的片段时,它是很强的替代选择。
Kling
视频快手的 Kling 可在标准和 Pro 模式下生成多镜头视频,并在单条提示词中处理场景转场。它也支持 Motion Control,可把参考片段中的全身动作迁移到角色图片上。
Veo
视频Google DeepMind 的 Veo 可生成带内置音频的短篇电影级片段,并具备强环境真实感。它支持首帧与尾帧控制,方便精确限定场景起点和终点。
GPT Image
图片OpenAI 的图像模型,针对图片中的文字准确性做了优化。当提示词包含必须清晰可读的标签、Logo 或标牌时,它是合适选择。
Flux Pro
图片Black Forest Labs 的图像引擎,面向速度和吞吐量,可覆盖多种宽高比,适合产品图、社交内容和快速迭代。
Nano Banana
图片Google 的角色一致性图像引擎。它可以接收多张参考图片,在一组作品中保持面部、服装或品牌标识稳定。
Seedream
图片ByteDance 的原生 4K 图像引擎,可生成覆盖宽比例的超高分辨率静态图,并通过逐步视觉推理提升复杂场景的连贯性和细节。
Runway Gen-4
视频Runway Gen-4 Aleph 用于视频到视频编辑。上传素材并输入提示词,即可在保留原始运动的同时重塑风格、重新调色或修改物体,适合后期制作。
一个模型,同时生成与编辑
Bernini AI 将文生视频、视频编辑和参考驱动生成统一在一个模型中。专用图像引擎则补足设计、文字排版和高分辨率静态图工作流。
AI 视频生成
Bernini AI 可在同一工作区中从文本提示词生成视频,也能编辑现有素材,例如重塑片段、替换或插入物体、改变天气或风格。参考图生视频可由最多 5 张图片驱动新片段;Kling 和 Veo 也可用于多镜头序列和电影级输出。
创建视频AI 图像生成
在 Bernini AI 视频能力之外,使用高分辨率图像生成与编辑。GPT Image 适合准确生成图片内文字,Seedream 支持多种宽高比下的原生 4K,Flux 适合快速迭代,Nano Banana 适合在系列作品中保持角色一致。文生图和图生图并排可用。
创建图片为什么使用 Bernini AI
Bernini AI 将 ByteDance 的视频生成与编辑模型带到线上,在一个地方完成创作、编辑和参考驱动生成,无需多 GPU 设备。
一个模型,同时生成与编辑
Bernini AI 是一个统一框架,可用同一个模型处理文生视频、参考图生视频和基于提示词的视频编辑,无需把生成和编辑拆成不同工具。同一个 Bernini AI 工作区即可从空白提示词推进到完成编辑的视频。
多模态参考控制
Bernini AI 可同时理解文本、源图片和源视频。参考图生视频最多可接收 5 张参考图片,用于锁定主体、物体或风格;参考引导编辑则可在现有片段中替换服装、替换物体,或改变材质、天气和整体视觉效果。
语义规划架构
Bernini AI 将 MLLM 语义规划器与 DiT 渲染器结合。基于 Qwen2.5-VL 的规划器会在嵌入空间中推理编辑或场景的目标结果;基于 Wan2.2 的渲染器再合成像素,并使用源视频特征在编辑过程中保留细节。
强编辑一致性
在 ByteDance 自有评测中,Bernini 在视频编辑上达到领先闭源模型的第一梯队,尤其擅长保持未编辑区域稳定并保留主体身份。因此,当你只想做局部修改、而其他内容必须保持不变时,Bernini AI 很适合。
在线运行 Bernini AI,无需 H100
Bernini 以 Apache 2.0 开源,但自托管需要 H100 这类 Hopper 架构 GPU。Bernini AI 将这个工作流放到浏览器中运行:无需租 GPU,无需安装软件,任何设备都可以生成和编辑视频。
如何使用 Bernini AI:三步完成
从提示词到成片只需三步,无需 GPU、无需安装,也不需要创作经验。
写提示词或上传参考素材
描述你想要的视频,或上传要使用的素材,例如用于编辑的源视频片段,或最多 5 张用于驱动主体或风格的参考图片。纯文生视频只需要提示词。Bernini AI 会同时读取文本、图片和视频输入。
使用 Bernini AI 生成或编辑
选择任务:文生视频、参考图生视频,或基于提示词编辑现有片段。Bernini AI 的语义规划器会推理目标结果,随后由渲染器生成画面。想换一种效果时,调整提示词或参考素材后再次生成即可。
下载你的视频
生成在云端运行,完成时间取决于片段长度和复杂度,通常需要几分钟。结果准备好后即可下载;付费方案支持商业用途,可用于社交媒体、广告、品牌内容和客户项目。
关于 Bernini AI 的常见问题
了解 Bernini AI 是什么、如何在线使用、可以生成和编辑什么,以及它与其他 AI 视频模型的区别。







