开源 vs 闭源 AI 视频生成模型同场景实测(2026.6):Wan2.2 / Veo3.1 / 可灵Kling3.0 / 海螺Hailuo02 / 即梦Seedance 横评 + 复现方法

发布时间:2026/6/27 21:04:43
开源 vs 闭源 AI 视频生成模型同场景实测(2026.6):Wan2.2 / Veo3.1 / 可灵Kling3.0 / 海螺Hailuo02 / 即梦Seedance 横评 + 复现方法 摘要为了给 AI 短剧选型,我用控制变量的方式实测了当下第一梯队的开源与闭源视频生成模型:开源Wan 2.2(本机 RTX 4090 ComfyUI),闭源Veo 3.1 / 可灵 Kling 3.0 / 海螺 Hailuo 02 / 即梦 Seedance(经 fal.ai 聚合调用)。同一张参考图、同一句 Prompt,图生视频(I2V)与文生视频(T2V)各一条,共 10 条并排对比。闭源总花费$8.58(fal.ai 新用户 $20 免费额度内)。本文给出数据、结论,以及可复现的环境与参数细节。一、测试方法(控制变量)场景统一:都市情感短剧人物特写——女性咖啡馆窗边,微风吹发,转头看镜头,眼神由失落转微笑,镜头轻推近。I2V 统一首帧:先用本机 Flux1-dev-fp8 生成一张定妆图(seed.png),所有 I2V 模型都用这同一张图当首帧,直接对比让人物动起来时谁能保住这张脸。任务:T2V、I2V 各一条 × 5 个模型 10 条。硬件/渠道:开源跑在单张 RTX 4090(24GB) ComfyUI;闭源经 fal.ai 一个 key 调四家。二、实测数据I2V(同一张参考图):模型分辨率时长音频出片耗时*单价Wan 2.2 14B(开源)480×8325.06s无~744s(含冷加载)≈电费 / 租卡 $0.07Hailuo 02768×13645.88s无~280s$0.27Seedance v1 Pro704×12485.04s无~304s$0.40Kling 3.0720×12805.04s无54s$0.42Veo 3.1720×12808.0sAAC 立体声85s$3.20T2V:模型分辨率时长单价Wan 2.2 5B(开源)704×12805.06s≈电费Hailuo 021366×768(横)5.88s$0.27Kling 3.01280×720(横)5.04s$0.42Seedance v1 Pro704×12485.04s$0.40Veo 3.1720×12808.0s$3.20*耗时口径不同,不可直接横比:开源含机械盘冷加载模型(14B 要从 HDD 读两个 14GB 文件);闭源是 fal 云队列「提交→排队→生成→返回」总耗时,含排队(早批冷队列 280–304s,晚批热队列 53–85s)。三、结果分析(5 个结论)角色一致性(I2V 对参考图的还原)——闭源整体优于单卡开源。海螺/即梦/可灵/Veo 对首帧近乎像素级保持;Wan 14B 在 480×832 下是参考重绘,身份轻微漂移(脸偏圆、偏年轻)。这与单卡显存上限强相关(14B 只能跑到 480×832,非模型上限),开源锁脸的正解是训练角色 LoRA,而非裸跑 I2V。运动/运镜——可灵 Kling 3.0 最强。唯一做出大幅度三维转头(中段完整侧脸),且出片仅 54s,文件码率最高。画质与音效——Veo 3.1 是天花板,也是唯一原生音视频同生。代价是单价最高(默认 8s × $0.40/s $3.2),约为国产的 8–12 倍。性价比——海螺($0.27)、即梦($0.40)是基本盘。质量已达生产级,即梦细节最锐,海螺表情最自然。工程坑点——竖屏。可灵、海螺的 T2V 默认输出横屏(I2V 因跟随参考图比例无此问题);竖屏短剧需显式传分辨率/比例参数。四、可复现细节(本文重点)4.1 开源:ComfyUI headless 跑 Wan 2.2ComfyUI 启动后监听:8188,通过POST /prompt提交API 格式的 workflow(注意不是 UI 导出的 workflow 格式),用GET /history/{prompt_id}轮询结果。关键节点与参数(均与官方 Wan 2.2 模板对齐):文本编码器:CLIPLoader,umt5_xxl_fp8_e4m3fn_scaled.safetensors,typewanVAE: 5B 用wan2.2_vae、14B 用wan_2.1_vae(别混)T2V(5B TI2V,单模型):UNETLoader(wan2.2_ti2v_5B, default)→ModelSamplingSD3(shift8)→Wan22ImageToVideoLatent(不接 start_image 即纯文生)→KSampler(steps20, cfg5, euler, simple, denoise1)I2V(14B,双阶段):高噪UNETLoader(i2v_high_noise_14B_fp8_scaled) 低噪UNETLoader(i2v_low_noise_14B_fp8_scaled),各接ModelSamplingSD3(shift8);首帧走LoadImage → CLIPVisionEncode(clip_vision_h) → WanImageToVideo(start_image, clip_vision_output);去噪用两段KSamplerAdvanced:高噪add_noiseenable, start0, end10, return_leftoverenable,低噪add_noisedisable, start10, end10000,steps20, cfg3.5, euler, simple。 显存:14B 用fp8_e4m3fn(别选 bf16 大版,24GB 会爆);跑前可POST /free {unload_models:true,free_memory:true}腾显存。4.2 闭源:fal.ai 聚合一个 key 调四家用fal-client:先fal_client.upload_file(图片)取 URL,再fal_client.subscribe(model_id, arguments{...})(内部排队轮询)。本次用到的端点:Veo 3.1 : fal-ai/veo3.1/image-to-video (T2V: fal-ai/veo3.1) 可灵 Kling3.0: fal-ai/kling-video/o3/standard/image-to-video (T2V 尾改 text-to-video) 海螺 Hailuo02: fal-ai/minimax/hailuo-02/standard/image-to-video 即梦 Seedance: fal-ai/bytedance/seedance/v1/pro/image-to-videoI2V 入参基本是{prompt, image_url, ...};Veo 可带generate_audio。 踩坑:如果你的环境代理是SOCKS(socks://127.0.0.1:xxxx),fal-client底层 httpx 会报Unknown scheme for proxy URL;把进程内HTTP_PROXY/HTTPS_PROXY改成http 方案(多数本地代理端口同时支持 http CONNECT)即可。另:可灵旧端点kling-video/v2.5-turbo/...已下架(404),现用o3(即 3.0)。五、选型与成本(面向 AI 短剧)角色定妆图(Flux/Qwen,必要时训角色 LoRA 锁脸) → 同图喂 I2V 出每个镜头: 量产/草稿 海螺 / 即梦 / 本机 Wan(免费) 要运镜 可灵 Kling 3.0 封面高光 Veo 3.1(自带音效) → 配音/对口型 → 剪辑本机 Wan 出无限草稿定节奏 选中镜头用国产 API 出成片 极少数高光用 Veo,一部几十镜短剧的 API 成本可压到十几至几十元人民币。补充:OpenAI Sora 2 已停服(消费端 2026-04 下线,API 2026-09-24 关闭),不建议再接入。六、测试局限单场景、单 seed;开源受单卡 4090 显存限制只跑到 480×832,属消费级自建 vs 云 API对比而非等分辨率横评;画质为主观评分,建议看原片;价格/版本为2026-06快照,易变,接入前以官方为准。