Stooland Docs

AutoDL 相关需求与规划整理

一、背景与当前使用现状

1. 算力与平台现状

算力平台：以 AutoDL 为主，使用云主机，显卡为 RTX 6000 Pro。
核心用途：在 AutoDL 上部署并运行 ComfyUI，作为可视化/可编排的工作流引擎，用于短视频生成链路中的重算力任务。

2. 主视频生成链路（图生视频为主）

首帧图片生成：
- 使用「豆包·闻声图片 4.0」，根据分镜文案生成高质量首帧图。
图生视频（主要链路）：
- 在 AutoDL 的 ComfyUI 工作流中，调用「通义万相 2.2 图生视频能力」将首帧图转换为视频片段。
效果结论：
- 在「图生视频」场景下，只要首帧图质量足够高，通义万相 2.2 的效果明显优于目前已评估的其它方案。

3. 其它分镜类型的现状与判断

口播类分镜：
- 方案：使用通义万相或类似方案做口播。
- 结论：整体成本高于即梦接口，目前性价比不理想。
动作模仿类分镜：
- 方案：动作控制 / 动作模仿类模型（商用/闭源）。
- 结论：成本明显高于即梦，且稳定性与性价比待进一步评估。
当前策略倾向：
- 图生视频：优先使用 AutoDL + ComfyUI + 通义万相 2.2。
- 口播 / 动作模仿：短期仍倾向保留即梦 API，或后续再评估合适的开源方案后迁移到 AutoDL。

二、核心目标与约束

1. 成本目标

目标：在保证“可用效果”的前提下，尽量压低：
- 单个分镜的平均成本；
- 单条视频（由多个分镜组成）的整体成本。
策略：
- 重算力任务尽量放在 AutoDL（按小时计费、成本可控）。
- 对高成本的第三方 API，只在高价值场景下使用（如关键分镜的口播/动作模仿）。

2. 稳定性目标

偏好：
- 尽量使用可控的 API 或自建服务（如 AutoDL 上的 ComfyUI、开源模型），避免完全依赖不稳定或价格不透明的第三方 API。
方向：
- AutoDL + 自搭服务（ComfyUI、开源模型）作为算力主阵地；
- 即梦、通义等第三方 API 作为可替换、可关停的能力补充。

3. 灵活性目标

工作流可定制：充分利用 ComfyUI 的工作流编排能力，支持：
- 动作控制、特效、首尾帧衔接等复杂玩法；
- 多模型融合（不同模型用于不同分镜类型或不同阶段）。
为智能体（Agent）预留编排空间：
- 未来希望由智能体根据规则和实时指标（成本、效果、成功率）自动选择最合适的工作流和算力路径。

4. 业务目标

面向「分镜功能」和未来「智能体驱动的短视频生产」，构建一条可规模化的生产流水线：
- 分镜文案 → 首帧图 → 图生视频 → 超分/后期 → 成片；
- 把复杂算力调用和模型组合封装为“可配置、可监控、可优化”的流水线节点。

5. 非目标 / 约束（补充说明）

不追求短期内完全用自建能力替代所有第三方 API，而是以性价比为导向逐步替换。
不强求所有场景都达到“最高画质”，而是通过分级策略在成本与效果间做可控权衡。

三、基于 AutoDL 的总体技术路线

1. 统一算力平台：以 AutoDL 为主

平台角色定位：
- AutoDL：重算力任务的主平台（图生视频、AI 超分、视频后期处理）。
- 本地服务器 / 其它云 GPU（如阿里云）：作为备选/补充，而非当前主战场。
典型任务：
- 图生视频：ComfyUI + 通义万相 2.2。
- 视频超分：FFmpeg + Real-ESRGAN / 其它超分模型。
- 后期处理：去噪、锐化、插帧等。

2. 主视频生成驱动：ComfyUI + 通义万相 2.2

工作流核心路径：
1. 分镜文案生成 → 使用豆包·闻声图片 4.0 生成首帧图；
2. 将首帧图 URL + prompt + 分辨率/时长等参数，提交到 AutoDL 上的 ComfyUI 工作流；
3. ComfyUI 内部调用通义万相 2.2（图生视频能力），输出视频片段文件；
4. 返回视频文件路径（或 URL）给上层业务系统。
定位：
- 作为未来绝大多数分镜（图生视频类型）的主力方案；
- 兼容后续工作流扩展（在前后增加特效、风格化、插帧等模块）。

3. 口播 / 动作模仿 / 首尾帧策略

短期策略（现实可行）：
- 口播 / 动作模仿：
  - 对效果要求高、场景关键：继续使用即梦 API（成本可接受但要可控）。
  - 场景一般/可妥协：可以暂时不用，或等待后续在 AutoDL 上接入开源方案（如 SadTalker、动作控制模型等）。
- 首尾帧：
  - 首帧图：继续由豆包生成高质量图像；
  - 首尾帧过渡特效：通过 ComfyUI 简单工作流或 FFmpeg 进行淡入淡出、转场等处理。
中长期方向：
- 在 AutoDL 上实验并验证开源的口播/动作模仿模型：
  - 目标：在保证效果可接受的前提下，替代一部分即梦 API，以进一步压低整体成本；
  - 要求：效果稳定、部署可维护，支持批量生产和监控。

4. 视频后期：AutoDL 上的超分与增强

能力规划：
- 在 AutoDL 上部署：
  - FFmpeg：负责视频编解码和基础处理（裁剪、拼接、转码等）；
  - Real-ESRGAN 或其它视频超分模型：负责分辨率提升与清晰度增强。
处理能力包含：
- 分辨率提升：例如从 720p / 1080p 提升到 2K / 4K；
- 降噪与锐化：减轻生成瑕疵、增强细节；
- 帧率提升：通过插帧提高流畅度（如 24fps → 48fps / 60fps）。
目标：
- 支持“高质量交付版本”：
  - 在图生视频基础上，通过后期尽可能打磨瑕疵；
  - 仍然保持在可接受的 GPU 成本范围内（利用 AutoDL 的按小时计费优势）。

5. 与现有系统集成方式（原则）

通过统一的 HTTP / gRPC 接口对接 AutoDL 上的服务：
- 调用参数包括：分镜 ID、首帧图 URL、prompt、分辨率、时长、分镜类型等；
- 返回结果包括：任务 ID、状态、视频文件路径/URL、错误信息等；
- 支持异步任务轮询或回调，兼容批量任务提交。

四、面向新任务的分阶段实施计划

本节可直接作为任务拆分与排期的基础。

阶段 1：规范化当前 AutoDL + ComfyUI 使用

目标：把当前“通义万相 2.2 图生视频”的使用方式固化为标准工作流模板，并与现有分镜系统稳定对接。
关键事项：
1. 固定一套「通义万相 2.2 图生视频」的 ComfyUI 工作流模板（JSON）：
  - 输入：首帧图 URL、prompt、分辨率（width/height）、时长、种子等；
  - 输出：视频文件路径（或 URL）、元信息（如实际帧率、时长）。
2. 在现有「生成分镜」界面中，保证以下配置一致：
  - 平台选项：新增/固化一个选项，例如 ComfyUI / AutoDL；
  - 模板参数与系统字段一一对应：首帧图、prompt、height、width、duration 等；
  - 服务器地址与健康检查：/comfyui-autodl 可用，并有基础监控（心跳、失败率统计）。
3. 任务管理与日志：
  - 为每一次 AutoDL 调用生成任务 ID，记录工作流参数与状态；
  - 保留执行日志（至少包括调用时间、耗时、错误码）。
阶段产出：
- 一份稳定的 ComfyUI 工作流 JSON 模板；
- 后端/前端参数对齐的配置；
- AutoDL 节点的健康检查与基本监控。

阶段 2：梳理「分镜类型」与生成策略

目标：用可配置的“分镜类型 + 生成策略”来描述每个分镜的生成路径。
关键事项：
1. 在分镜模型/表结构中增加一个 type 字段，例如：
  - image_to_video：图生视频；
  - talking：口播类；
  - motion：动作模仿类；
  - first_last_frame：首尾帧 / 过渡帧。
2. 为每个分镜类型规划默认生成策略：
  - image_to_video → AutoDL + ComfyUI + 通义万相 2.2；
  - 重要 talking / motion → 即梦 API；
  - first_last_frame → 豆包首帧图 + 简单 ComfyUI/FFmpeg 特效。
3. 在业务逻辑中：
  - 根据 type 字段自动选择算力路径与调用模板；
  - 支持手动覆盖（某些高价值分镜可以指定更昂贵的方案）。
阶段产出：
- 分镜类型枚举及其默认策略规则；
- 后端服务中按分镜类型路由到对应工作流/接口的能力。

阶段 3：增加 AutoDL 超分后期（可作为单独任务）

目标：在 AutoDL 上构建统一的视频超分与后期处理服务，为生成结果提供“增强版输出”。
关键事项：
1. 在 AutoDL 上搭建以下能力：
  - 运行 FFmpeg：支持常见视频处理命令；
  - 运行 Real-ESRGAN 或其它视频超分模型：对视频逐帧或子片段进行超分；
  - 视需求叠加插帧模型（如 RIFE 等）。
2. 设计统一接口（可 HTTP）：
  - 输入：原始视频 URL/文件路径、目标分辨率、是否开启插帧等参数；
  - 输出：超分后视频的 URL/文件路径、实际处理耗时、失败原因等。
3. 与现有「合成/优化」流程集成：
  - 在成片前或导出前，增加一个可选的“超分与增强”步骤；
  - 支持按分镜或按整条视频进行处理。
阶段产出：
- AutoDL 上可调用的视频超分服务；
- 与合成/优化流程打通后的可配置“高质量导出”选项。

阶段 4：成本与策略优化（为后续智能体做准备）

目标：把“调用路径 → 成本 → 成功率”的数据沉淀下来，为后续智能体决策提供依据。
关键事项：
1. 记录每种路径的关键指标：
  - 平均 GPU 时长（AutoDL 层面）；
  - 三方 API 调用费用（按腾讯云/阿里云等账单统计）；
  - 生成成功率（包含失败重试次数、人工干预次数）。
2. 基于统计数据形成策略规则：
  - 普通分镜：一律走 AutoDL 图生 + AutoDL 超分；
  - 高价值分镜：允许额外调用一次即梦动作模仿或口播；
  - 超预算场景：自动降级为更便宜的生成路径（如关闭超分/插帧）。
3. 为未来智能体预留接口：
  - “给定分镜及预算/优先级 → 返回推荐的生产路径与参数”。
阶段产出：
- 一套面向“策略引擎 / 智能体”的数据与规则基础；
- 初步的“策略配置中心”或规则表设计。

五、接口与配置层面的初步需求（建议）

1. ComfyUI / AutoDL 调用接口（示意）

请求参数（示例）：
- scene_id / shot_id：分镜标识；
- type：分镜类型（image_to_video / talking / motion / first_last_frame）；
- first_frame_url：首帧图 URL（适用于 image_to_video / first_last_frame）；
- prompt / negative_prompt：正负向提示词；
- width / height / duration：生成参数；
- engine：如 wanx2.2、jiying 等；
- extra_config：JSON 扩展字段（如风格、种子、插帧开关）。
响应参数（示例）：
- task_id：任务 ID；
- status：pending / running / success / failed；
- video_url：生成完成后的视频地址；
- logs / error_code / error_message：调试与排错信息。

2. 分镜配置与策略字段（建议）

在分镜数据结构中增加：
- type：分镜类型；
- engine：首选引擎（AutoDL/即梦/其它）；
- quality_level：质量等级（normal / high / ultra），影响是否启用超分、插帧；
- priority：业务优先级（普通 / 高价值），影响是否允许使用更贵的路径；
- cost_limit：单分镜可接受的成本上限（可选）。

六、风险与待验证点

模型效果与一致性：
- 通义万相 2.2 的效果在图生视频上表现优秀，但在大量分镜、不同风格下的稳定性仍需持续验证；
- 开源口播/动作模仿模型效果可能存在明显短板，需要充分 A/B 测试后再替代商用 API。
运维复杂度：
- AutoDL + 多个模型部署（ComfyUI、Real-ESRGAN、插帧模型、口播模型等）会带来一定运维成本，需要简化部署与升级流程；
- 需要基础监控和报警，避免“跑满 GPU 却没有产出”的情况。
成本预测与控制：
- 不同模型、不同参数组合下的 GPU 占用差异较大；
- 需要通过阶段 4 中的数据统计，逐步形成可预测的成本模型。

七、一句话总结

以 AutoDL 作为核心算力平台，用 ComfyUI + 通义万相 2.2 图生视频作为主驱动，再叠加 AutoDL 视频超分后期，同时保留即梦等 API 作为少量高价值场景的补充，可以在 成本、稳定性和灵活性 三者之间取得较好的平衡，并为后续「智能体驱动的短视频自动生产」打好底层架构。

AutoDL 相关需求与规划整理 ​

一、背景与当前使用现状 ​

1. 算力与平台现状 ​

2. 主视频生成链路（图生视频为主） ​

3. 其它分镜类型的现状与判断 ​

二、核心目标与约束 ​

1. 成本目标 ​

2. 稳定性目标 ​

3. 灵活性目标 ​

4. 业务目标 ​

5. 非目标 / 约束（补充说明） ​

三、基于 AutoDL 的总体技术路线 ​

1. 统一算力平台：以 AutoDL 为主 ​

2. 主视频生成驱动：ComfyUI + 通义万相 2.2 ​

3. 口播 / 动作模仿 / 首尾帧策略 ​

4. 视频后期：AutoDL 上的超分与增强 ​

5. 与现有系统集成方式（原则） ​

四、面向新任务的分阶段实施计划 ​

阶段 1：规范化当前 AutoDL + ComfyUI 使用 ​

阶段 2：梳理「分镜类型」与生成策略 ​

阶段 3：增加 AutoDL 超分后期（可作为单独任务） ​

阶段 4：成本与策略优化（为后续智能体做准备） ​

五、接口与配置层面的初步需求（建议） ​

1. ComfyUI / AutoDL 调用接口（示意） ​

2. 分镜配置与策略字段（建议） ​

六、风险与待验证点 ​

七、一句话总结 ​

AutoDL 相关需求与规划整理

一、背景与当前使用现状

1. 算力与平台现状

2. 主视频生成链路（图生视频为主）

3. 其它分镜类型的现状与判断

二、核心目标与约束

1. 成本目标

2. 稳定性目标

3. 灵活性目标

4. 业务目标

5. 非目标 / 约束（补充说明）

三、基于 AutoDL 的总体技术路线

1. 统一算力平台：以 AutoDL 为主

2. 主视频生成驱动：ComfyUI + 通义万相 2.2

3. 口播 / 动作模仿 / 首尾帧策略

4. 视频后期：AutoDL 上的超分与增强

5. 与现有系统集成方式（原则）

四、面向新任务的分阶段实施计划

阶段 1：规范化当前 AutoDL + ComfyUI 使用

阶段 2：梳理「分镜类型」与生成策略

阶段 3：增加 AutoDL 超分后期（可作为单独任务）

阶段 4：成本与策略优化（为后续智能体做准备）

五、接口与配置层面的初步需求（建议）

1. ComfyUI / AutoDL 调用接口（示意）

2. 分镜配置与策略字段（建议）

六、风险与待验证点

七、一句话总结