Skip to content

AutoDL 相关需求与规划整理

一、背景与当前使用现状

1. 算力与平台现状

  • 算力平台:以 AutoDL 为主,使用云主机,显卡为 RTX 6000 Pro。
  • 核心用途:在 AutoDL 上部署并运行 ComfyUI,作为可视化/可编排的工作流引擎,用于短视频生成链路中的重算力任务。

2. 主视频生成链路(图生视频为主)

  • 首帧图片生成
    • 使用「豆包·闻声图片 4.0」,根据分镜文案生成高质量首帧图。
  • 图生视频(主要链路)
    • 在 AutoDL 的 ComfyUI 工作流中,调用「通义万相 2.2 图生视频能力」将首帧图转换为视频片段。
  • 效果结论
    • 在「图生视频」场景下,只要首帧图质量足够高,通义万相 2.2 的效果明显优于目前已评估的其它方案。

3. 其它分镜类型的现状与判断

  • 口播类分镜
    • 方案:使用通义万相或类似方案做口播。
    • 结论:整体成本高于即梦接口,目前性价比不理想。
  • 动作模仿类分镜
    • 方案:动作控制 / 动作模仿类模型(商用/闭源)。
    • 结论:成本明显高于即梦,且稳定性与性价比待进一步评估。
  • 当前策略倾向
    • 图生视频:优先使用 AutoDL + ComfyUI + 通义万相 2.2。
    • 口播 / 动作模仿:短期仍倾向保留即梦 API,或后续再评估合适的开源方案后迁移到 AutoDL。

二、核心目标与约束

1. 成本目标

  • 目标:在保证“可用效果”的前提下,尽量压低:
    • 单个分镜的平均成本;
    • 单条视频(由多个分镜组成)的整体成本。
  • 策略
    • 重算力任务尽量放在 AutoDL(按小时计费、成本可控)。
    • 对高成本的第三方 API,只在高价值场景下使用(如关键分镜的口播/动作模仿)。

2. 稳定性目标

  • 偏好
    • 尽量使用可控的 API 或自建服务(如 AutoDL 上的 ComfyUI、开源模型),避免完全依赖不稳定或价格不透明的第三方 API。
  • 方向
    • AutoDL + 自搭服务(ComfyUI、开源模型)作为算力主阵地;
    • 即梦、通义等第三方 API 作为可替换、可关停的能力补充。

3. 灵活性目标

  • 工作流可定制:充分利用 ComfyUI 的工作流编排能力,支持:
    • 动作控制、特效、首尾帧衔接等复杂玩法;
    • 多模型融合(不同模型用于不同分镜类型或不同阶段)。
  • 为智能体(Agent)预留编排空间
    • 未来希望由智能体根据规则和实时指标(成本、效果、成功率)自动选择最合适的工作流和算力路径。

4. 业务目标

  • 面向「分镜功能」和未来「智能体驱动的短视频生产」,构建一条可规模化的生产流水线:
    • 分镜文案 → 首帧图 → 图生视频 → 超分/后期 → 成片;
    • 把复杂算力调用和模型组合封装为“可配置、可监控、可优化”的流水线节点。

5. 非目标 / 约束(补充说明)

  • 不追求短期内完全用自建能力替代所有第三方 API,而是以性价比为导向逐步替换。
  • 不强求所有场景都达到“最高画质”,而是通过分级策略在成本与效果间做可控权衡。

三、基于 AutoDL 的总体技术路线

1. 统一算力平台:以 AutoDL 为主

  • 平台角色定位
    • AutoDL:重算力任务的主平台(图生视频、AI 超分、视频后期处理)。
    • 本地服务器 / 其它云 GPU(如阿里云):作为备选/补充,而非当前主战场。
  • 典型任务
    • 图生视频:ComfyUI + 通义万相 2.2。
    • 视频超分:FFmpeg + Real-ESRGAN / 其它超分模型。
    • 后期处理:去噪、锐化、插帧等。

2. 主视频生成驱动:ComfyUI + 通义万相 2.2

  • 工作流核心路径
    1. 分镜文案生成 → 使用豆包·闻声图片 4.0 生成首帧图;
    2. 将首帧图 URL + prompt + 分辨率/时长等参数,提交到 AutoDL 上的 ComfyUI 工作流;
    3. ComfyUI 内部调用通义万相 2.2(图生视频能力),输出视频片段文件;
    4. 返回视频文件路径(或 URL)给上层业务系统。
  • 定位
    • 作为未来绝大多数分镜(图生视频类型)的主力方案;
    • 兼容后续工作流扩展(在前后增加特效、风格化、插帧等模块)。

3. 口播 / 动作模仿 / 首尾帧策略

  • 短期策略(现实可行)
    • 口播 / 动作模仿:
      • 对效果要求高、场景关键:继续使用即梦 API(成本可接受但要可控)。
      • 场景一般/可妥协:可以暂时不用,或等待后续在 AutoDL 上接入开源方案(如 SadTalker、动作控制模型等)。
    • 首尾帧:
      • 首帧图:继续由豆包生成高质量图像;
      • 首尾帧过渡特效:通过 ComfyUI 简单工作流或 FFmpeg 进行淡入淡出、转场等处理。
  • 中长期方向
    • 在 AutoDL 上实验并验证开源的口播/动作模仿模型:
      • 目标:在保证效果可接受的前提下,替代一部分即梦 API,以进一步压低整体成本;
      • 要求:效果稳定、部署可维护,支持批量生产和监控。

4. 视频后期:AutoDL 上的超分与增强

  • 能力规划
    • 在 AutoDL 上部署:
      • FFmpeg:负责视频编解码和基础处理(裁剪、拼接、转码等);
      • Real-ESRGAN 或其它视频超分模型:负责分辨率提升与清晰度增强。
  • 处理能力包含
    • 分辨率提升:例如从 720p / 1080p 提升到 2K / 4K;
    • 降噪与锐化:减轻生成瑕疵、增强细节;
    • 帧率提升:通过插帧提高流畅度(如 24fps → 48fps / 60fps)。
  • 目标
    • 支持“高质量交付版本”:
      • 在图生视频基础上,通过后期尽可能打磨瑕疵;
      • 仍然保持在可接受的 GPU 成本范围内(利用 AutoDL 的按小时计费优势)。

5. 与现有系统集成方式(原则)

  • 通过统一的 HTTP / gRPC 接口对接 AutoDL 上的服务:
    • 调用参数包括:分镜 ID、首帧图 URL、prompt、分辨率、时长、分镜类型等;
    • 返回结果包括:任务 ID、状态、视频文件路径/URL、错误信息等;
    • 支持异步任务轮询或回调,兼容批量任务提交。

四、面向新任务的分阶段实施计划

本节可直接作为任务拆分与排期的基础。

阶段 1:规范化当前 AutoDL + ComfyUI 使用

  • 目标:把当前“通义万相 2.2 图生视频”的使用方式固化为标准工作流模板,并与现有分镜系统稳定对接。
  • 关键事项
    1. 固定一套「通义万相 2.2 图生视频」的 ComfyUI 工作流模板(JSON):
      • 输入:首帧图 URL、prompt、分辨率(width/height)、时长、种子等;
      • 输出:视频文件路径(或 URL)、元信息(如实际帧率、时长)。
    2. 在现有「生成分镜」界面中,保证以下配置一致:
      • 平台选项:新增/固化一个选项,例如 ComfyUI / AutoDL
      • 模板参数与系统字段一一对应:首帧图、prompt、height、width、duration 等;
      • 服务器地址与健康检查:/comfyui-autodl 可用,并有基础监控(心跳、失败率统计)。
    3. 任务管理与日志:
      • 为每一次 AutoDL 调用生成任务 ID,记录工作流参数与状态;
      • 保留执行日志(至少包括调用时间、耗时、错误码)。
  • 阶段产出
    • 一份稳定的 ComfyUI 工作流 JSON 模板;
    • 后端/前端参数对齐的配置;
    • AutoDL 节点的健康检查与基本监控。

阶段 2:梳理「分镜类型」与生成策略

  • 目标:用可配置的“分镜类型 + 生成策略”来描述每个分镜的生成路径。
  • 关键事项
    1. 在分镜模型/表结构中增加一个 type 字段,例如:
      • image_to_video:图生视频;
      • talking:口播类;
      • motion:动作模仿类;
      • first_last_frame:首尾帧 / 过渡帧。
    2. 为每个分镜类型规划默认生成策略:
      • image_to_video → AutoDL + ComfyUI + 通义万相 2.2;
      • 重要 talking / motion → 即梦 API;
      • first_last_frame → 豆包首帧图 + 简单 ComfyUI/FFmpeg 特效。
    3. 在业务逻辑中:
      • 根据 type 字段自动选择算力路径与调用模板;
      • 支持手动覆盖(某些高价值分镜可以指定更昂贵的方案)。
  • 阶段产出
    • 分镜类型枚举及其默认策略规则;
    • 后端服务中按分镜类型路由到对应工作流/接口的能力。

阶段 3:增加 AutoDL 超分后期(可作为单独任务)

  • 目标:在 AutoDL 上构建统一的视频超分与后期处理服务,为生成结果提供“增强版输出”。
  • 关键事项
    1. 在 AutoDL 上搭建以下能力:
      • 运行 FFmpeg:支持常见视频处理命令;
      • 运行 Real-ESRGAN 或其它视频超分模型:对视频逐帧或子片段进行超分;
      • 视需求叠加插帧模型(如 RIFE 等)。
    2. 设计统一接口(可 HTTP):
      • 输入:原始视频 URL/文件路径、目标分辨率、是否开启插帧等参数;
      • 输出:超分后视频的 URL/文件路径、实际处理耗时、失败原因等。
    3. 与现有「合成/优化」流程集成:
      • 在成片前或导出前,增加一个可选的“超分与增强”步骤;
      • 支持按分镜或按整条视频进行处理。
  • 阶段产出
    • AutoDL 上可调用的视频超分服务;
    • 与合成/优化流程打通后的可配置“高质量导出”选项。

阶段 4:成本与策略优化(为后续智能体做准备)

  • 目标:把“调用路径 → 成本 → 成功率”的数据沉淀下来,为后续智能体决策提供依据。
  • 关键事项
    1. 记录每种路径的关键指标:
      • 平均 GPU 时长(AutoDL 层面);
      • 三方 API 调用费用(按腾讯云/阿里云等账单统计);
      • 生成成功率(包含失败重试次数、人工干预次数)。
    2. 基于统计数据形成策略规则:
      • 普通分镜:一律走 AutoDL 图生 + AutoDL 超分;
      • 高价值分镜:允许额外调用一次即梦动作模仿或口播;
      • 超预算场景:自动降级为更便宜的生成路径(如关闭超分/插帧)。
    3. 为未来智能体预留接口:
      • “给定分镜及预算/优先级 → 返回推荐的生产路径与参数”。
  • 阶段产出
    • 一套面向“策略引擎 / 智能体”的数据与规则基础;
    • 初步的“策略配置中心”或规则表设计。

五、接口与配置层面的初步需求(建议)

1. ComfyUI / AutoDL 调用接口(示意)

  • 请求参数(示例)
    • scene_id / shot_id:分镜标识;
    • type:分镜类型(image_to_video / talking / motion / first_last_frame);
    • first_frame_url:首帧图 URL(适用于 image_to_video / first_last_frame);
    • prompt / negative_prompt:正负向提示词;
    • width / height / duration:生成参数;
    • engine:如 wanx2.2jiying 等;
    • extra_config:JSON 扩展字段(如风格、种子、插帧开关)。
  • 响应参数(示例)
    • task_id:任务 ID;
    • status:pending / running / success / failed;
    • video_url:生成完成后的视频地址;
    • logs / error_code / error_message:调试与排错信息。

2. 分镜配置与策略字段(建议)

  • 在分镜数据结构中增加:
    • type:分镜类型;
    • engine:首选引擎(AutoDL/即梦/其它);
    • quality_level:质量等级(normal / high / ultra),影响是否启用超分、插帧;
    • priority:业务优先级(普通 / 高价值),影响是否允许使用更贵的路径;
    • cost_limit:单分镜可接受的成本上限(可选)。

六、风险与待验证点

  • 模型效果与一致性
    • 通义万相 2.2 的效果在图生视频上表现优秀,但在大量分镜、不同风格下的稳定性仍需持续验证;
    • 开源口播/动作模仿模型效果可能存在明显短板,需要充分 A/B 测试后再替代商用 API。
  • 运维复杂度
    • AutoDL + 多个模型部署(ComfyUI、Real-ESRGAN、插帧模型、口播模型等)会带来一定运维成本,需要简化部署与升级流程;
    • 需要基础监控和报警,避免“跑满 GPU 却没有产出”的情况。
  • 成本预测与控制
    • 不同模型、不同参数组合下的 GPU 占用差异较大;
    • 需要通过阶段 4 中的数据统计,逐步形成可预测的成本模型。

七、一句话总结

以 AutoDL 作为核心算力平台,用 ComfyUI + 通义万相 2.2 图生视频作为主驱动,再叠加 AutoDL 视频超分后期,同时保留即梦等 API 作为少量高价值场景的补充,可以在 成本、稳定性和灵活性 三者之间取得较好的平衡,并为后续「智能体驱动的短视频自动生产」打好底层架构。