调色精准、构图考究、情绪饱满,风格依旧在线。
不卷分辨率、不卷长镜头、Midjourney 卷的,是一一股独有的氛围感和审美辨识度。Midjourney 是有野心的,目标剑指「世界模型」,但目前略显「粗糙」的功能设计,能否让其走得更远,恐怕还是一个未知数。
上传或生成图像后点击「Animate」即可,单次任务默认输出 4 段 5 秒视频,最长可扩展至 21 秒。
支持手动和自动两种模式,用户可通过提示词设定画面生成效果;提供低运动和高运动选项,分别适合静态氛围或强动态场景
视频功能包含在现有订阅中(10 美元 / 月),GPU 资源消耗为图像任务的 8 倍
不支持添加音效、时间轴编辑、片段过渡或 API 接入,分辨率仅为 480p,长宽比自动适配图像,仍属早期版本
视频模型是阶段成果,未来将继续推出 3D 模型与实时系统,最终剑指世界模型
开卷氛围感,Midjourney 视频模型正式上线
你卷你的分辨率,我走我的超现实。
Midjourney 一直以奇幻、超现实的视觉风格见长,而从目前用户实测的效果来看,其视频模型也延续了这一美学方向,风格稳定,辨识度高。
在 @EccentrismArt 博主分享的视频中,一个少年少年从高空垂直坠落。人物造型简洁,动态感强,像是跳跃、坠落或在梦境中自由落体,运动路径流畅,人物重心相对自然。
城市街区密集、灯光密布,建筑仿佛在空间中倾斜、旋转,形成一种空间扭曲的视觉错觉,但整体建筑动态无明显抖动或 AI 生成拼接断层;
一位身穿衬衫、手抱文件或书本的女性剪影,在她背后,是一幅巨大的人类头部侧影,可以看到,多重曝光 / 层叠构图处理得非常干净,光晕勾边自然,没有过曝。也难怪 Perplexity AI 设计师 Phi Hoang 直呼超出预期。
身穿经典的太空服,航天员身后延伸出大量彩色的光线轨迹,呈现出一种「穿越」或「高速运动」的错觉,视觉节奏感强。
高光、材质、液体运动等要素都是检测 AI 模型对静物表现力的窗口,而这则视频中,冰块、奶油、焦糖动态自然,杯体旋转过程中标签未发生明显扭曲。
透视深度感清晰,远近分层得当,写实风格表现也比较强。
在末日感纽约街头,火烧车、残垣断壁等细节充足;根据提示词的要求,生成的视频需要有 35mm 胶片质感,整体来看也略带颗粒感。
水晶球悬停缓旋,考验场景稳定性佳,摄像机运动也相当平稳。
值得注意的是,以上展示的案例生成结果可能经过多轮「抽卡」,但就最终效果来看,视觉完成度已经相当可观。
有野心的 Midjourney,正在搭建「世界模型」的第二块积木
从今天起,Midjourney 用户可以在官网(Midjourney.com)上传图像,或直接使用平台生成的图像,点击「Animate」按钮,即可将图像转为视频。
每次任务会生成 4 段 5 秒的视频,用户可对任意一段进行最多 4 次扩展,每次增加 4 秒,总时长最多 21 秒。当然,万步开头难,官方表示未来将在时长和功能方面进一步扩展。
操作逻辑门槛其实并不高,你可以像往常一样在 Midjourney 创建图像,只是现在多了一个画面动起来的步骤,此外,你还可以上传外部图片作为「起始帧」,再通过提示词描述希望呈现的动态效果。
V1 提供了一些可调节的自定义设置,便于用户对画面内容做出更细致的控制。
在「手动模式」(Manual)下,你可以输入具体提示词,自动设定视频中元素的移动方式和场景的发展过程,但如果你暂时对提示词没有头绪,可以选择一个「自动模式」(Auto)设置,它会为你自动生成运动提示词,并让图像动起来。
低运动模式(Low motion):适合气氛场景,镜头大多保持静止,主体移动缓慢或有节奏。缺点是,有时可能完全不会动(如人物眨眼、微风吹动景物等);
高运动模式(High motion):适合需要镜头和主体都大量移动的场景。缺点是,强烈的运动有时可能会导致画面错误或不稳定。
价格方面,视频功能被直接纳入 Midjourney 的订阅体系,起价依旧是每月 10 美元。
根据官方博客的说法,Midjourney 每段视频的 GPU 耗时约为图像任务的 8 倍,但在可生成最长 20 秒视频的前提下,平均每秒的成本几乎与图像生成持平。相较竞品,性价比可以排进第一梯队。
我们也用 AI 搜索引擎简单梳理了一些主流视频模型的订阅费用,供大家参考
目前来看,Midjourney 视频模型存在不少值得吐槽的点,最典型的特征就是缺乏一些面向专业创作的关键能力。
首先,与 Google 的 Veo 3 或 Luma 的 Dream Machine 不同,Midjourney 视频模型暂不支持自动添加背景音乐或环境音效。若需音频,仍需使用其他第三方工具手动添加。
其次,Midjourney 视频模型不支持编辑时间轴、生成的视频片段之间是「跳切」的,无法做到故事连续、画面自然衔接,也就很难控制剧情节奏或情绪铺垫。
再者,Midjourney 视频模型暂时也不提供 API 的接入。
更重要的是,Midjourney 生成的视频默认分辨率为 480p(标清),视频长宽比则基于图像原尺寸自动适配,上传至其他平台时也会标注为 480p。
Midjourney 官方也坦言,当前版本仍属早期探索阶段,重在可访问、易上手、可扩展。
视频模型只是切口,Midjourney 想要的,是更完整的内容生产体系。
根据其官方规划,最终目标是构建一个「世界模型」,也就是将图像生成、动画控制、三维空间导航和实时渲染整合为一体。
你可以理解为,在一个能够实时生成画面的 AI 系统中,输入一句话,可以命令 AI 主角在 3D 空间中移动,环境场景也会随之变化,而且你可以与一切进行互动。
如同搭积木,要实现这个目标,就需要图像模型(生成静态画面)→视频模型(让画面动起来)→ 3D 模型(实现空间导航与镜头运动)→ 实时模型(保证每一帧都能同步响应)。
按照 Midjourney 的产品规划,这四块技术「积木」将在接下来的 12 个月陆续交付,最终整合成一个统一的系统。而作为阶段性成果的 V1 视频模型,是这个终极目标的第二步。