AutoDL 相关需求与规划整理
一、背景与当前使用现状
1. 算力与平台现状
- 算力平台:以 AutoDL 为主,使用云主机,显卡为 RTX 6000 Pro。
- 核心用途:在 AutoDL 上部署并运行 ComfyUI,作为可视化/可编排的工作流引擎,用于短视频生成链路中的重算力任务。
2. 主视频生成链路(图生视频为主)
- 首帧图片生成:
- 使用「豆包·闻声图片 4.0」,根据分镜文案生成高质量首帧图。
- 图生视频(主要链路):
- 在 AutoDL 的 ComfyUI 工作流中,调用「通义万相 2.2 图生视频能力」将首帧图转换为视频片段。
- 效果结论:
- 在「图生视频」场景下,只要首帧图质量足够高,通义万相 2.2 的效果明显优于目前已评估的其它方案。
3. 其它分镜类型的现状与判断
- 口播类分镜:
- 方案:使用通义万相或类似方案做口播。
- 结论:整体成本高于即梦接口,目前性价比不理想。
- 动作模仿类分镜:
- 方案:动作控制 / 动作模仿类模型(商用/闭源)。
- 结论:成本明显高于即梦,且稳定性与性价比待进一步评估。
- 当前策略倾向:
- 图生视频:优先使用 AutoDL + ComfyUI + 通义万相 2.2。
- 口播 / 动作模仿:短期仍倾向保留即梦 API,或后续再评估合适的开源方案后迁移到 AutoDL。
二、核心目标与约束
1. 成本目标
- 目标:在保证“可用效果”的前提下,尽量压低:
- 单个分镜的平均成本;
- 单条视频(由多个分镜组成)的整体成本。
- 策略:
- 重算力任务尽量放在 AutoDL(按小时计费、成本可控)。
- 对高成本的第三方 API,只在高价值场景下使用(如关键分镜的口播/动作模仿)。
2. 稳定性目标
- 偏好:
- 尽量使用可控的 API 或自建服务(如 AutoDL 上的 ComfyUI、开源模型),避免完全依赖不稳定或价格不透明的第三方 API。
- 方向:
- AutoDL + 自搭服务(ComfyUI、开源模型)作为算力主阵地;
- 即梦、通义等第三方 API 作为可替换、可关停的能力补充。
3. 灵活性目标
- 工作流可定制:充分利用 ComfyUI 的工作流编排能力,支持:
- 动作控制、特效、首尾帧衔接等复杂玩法;
- 多模型融合(不同模型用于不同分镜类型或不同阶段)。
- 为智能体(Agent)预留编排空间:
- 未来希望由智能体根据规则和实时指标(成本、效果、成功率)自动选择最合适的工作流和算力路径。
4. 业务目标
- 面向「分镜功能」和未来「智能体驱动的短视频生产」,构建一条可规模化的生产流水线:
- 分镜文案 → 首帧图 → 图生视频 → 超分/后期 → 成片;
- 把复杂算力调用和模型组合封装为“可配置、可监控、可优化”的流水线节点。
5. 非目标 / 约束(补充说明)
- 不追求短期内完全用自建能力替代所有第三方 API,而是以性价比为导向逐步替换。
- 不强求所有场景都达到“最高画质”,而是通过分级策略在成本与效果间做可控权衡。
三、基于 AutoDL 的总体技术路线
1. 统一算力平台:以 AutoDL 为主
- 平台角色定位:
- AutoDL:重算力任务的主平台(图生视频、AI 超分、视频后期处理)。
- 本地服务器 / 其它云 GPU(如阿里云):作为备选/补充,而非当前主战场。
- 典型任务:
- 图生视频:ComfyUI + 通义万相 2.2。
- 视频超分:FFmpeg + Real-ESRGAN / 其它超分模型。
- 后期处理:去噪、锐化、插帧等。
2. 主视频生成驱动:ComfyUI + 通义万相 2.2
- 工作流核心路径:
- 分镜文案生成 → 使用豆包·闻声图片 4.0 生成首帧图;
- 将首帧图 URL + prompt + 分辨率/时长等参数,提交到 AutoDL 上的 ComfyUI 工作流;
- ComfyUI 内部调用通义万相 2.2(图生视频能力),输出视频片段文件;
- 返回视频文件路径(或 URL)给上层业务系统。
- 定位:
- 作为未来绝大多数分镜(图生视频类型)的主力方案;
- 兼容后续工作流扩展(在前后增加特效、风格化、插帧等模块)。
3. 口播 / 动作模仿 / 首尾帧策略
- 短期策略(现实可行):
- 口播 / 动作模仿:
- 对效果要求高、场景关键:继续使用即梦 API(成本可接受但要可控)。
- 场景一般/可妥协:可以暂时不用,或等待后续在 AutoDL 上接入开源方案(如 SadTalker、动作控制模型等)。
- 首尾帧:
- 首帧图:继续由豆包生成高质量图像;
- 首尾帧过渡特效:通过 ComfyUI 简单工作流或 FFmpeg 进行淡入淡出、转场等处理。
- 口播 / 动作模仿:
- 中长期方向:
- 在 AutoDL 上实验并验证开源的口播/动作模仿模型:
- 目标:在保证效果可接受的前提下,替代一部分即梦 API,以进一步压低整体成本;
- 要求:效果稳定、部署可维护,支持批量生产和监控。
- 在 AutoDL 上实验并验证开源的口播/动作模仿模型:
4. 视频后期:AutoDL 上的超分与增强
- 能力规划:
- 在 AutoDL 上部署:
- FFmpeg:负责视频编解码和基础处理(裁剪、拼接、转码等);
- Real-ESRGAN 或其它视频超分模型:负责分辨率提升与清晰度增强。
- 在 AutoDL 上部署:
- 处理能力包含:
- 分辨率提升:例如从 720p / 1080p 提升到 2K / 4K;
- 降噪与锐化:减轻生成瑕疵、增强细节;
- 帧率提升:通过插帧提高流畅度(如 24fps → 48fps / 60fps)。
- 目标:
- 支持“高质量交付版本”:
- 在图生视频基础上,通过后期尽可能打磨瑕疵;
- 仍然保持在可接受的 GPU 成本范围内(利用 AutoDL 的按小时计费优势)。
- 支持“高质量交付版本”:
5. 与现有系统集成方式(原则)
- 通过统一的 HTTP / gRPC 接口对接 AutoDL 上的服务:
- 调用参数包括:分镜 ID、首帧图 URL、prompt、分辨率、时长、分镜类型等;
- 返回结果包括:任务 ID、状态、视频文件路径/URL、错误信息等;
- 支持异步任务轮询或回调,兼容批量任务提交。
四、面向新任务的分阶段实施计划
本节可直接作为任务拆分与排期的基础。
阶段 1:规范化当前 AutoDL + ComfyUI 使用
- 目标:把当前“通义万相 2.2 图生视频”的使用方式固化为标准工作流模板,并与现有分镜系统稳定对接。
- 关键事项:
- 固定一套「通义万相 2.2 图生视频」的 ComfyUI 工作流模板(JSON):
- 输入:首帧图 URL、prompt、分辨率(width/height)、时长、种子等;
- 输出:视频文件路径(或 URL)、元信息(如实际帧率、时长)。
- 在现有「生成分镜」界面中,保证以下配置一致:
- 平台选项:新增/固化一个选项,例如
ComfyUI / AutoDL; - 模板参数与系统字段一一对应:首帧图、prompt、height、width、duration 等;
- 服务器地址与健康检查:
/comfyui-autodl可用,并有基础监控(心跳、失败率统计)。
- 平台选项:新增/固化一个选项,例如
- 任务管理与日志:
- 为每一次 AutoDL 调用生成任务 ID,记录工作流参数与状态;
- 保留执行日志(至少包括调用时间、耗时、错误码)。
- 固定一套「通义万相 2.2 图生视频」的 ComfyUI 工作流模板(JSON):
- 阶段产出:
- 一份稳定的 ComfyUI 工作流 JSON 模板;
- 后端/前端参数对齐的配置;
- AutoDL 节点的健康检查与基本监控。
阶段 2:梳理「分镜类型」与生成策略
- 目标:用可配置的“分镜类型 + 生成策略”来描述每个分镜的生成路径。
- 关键事项:
- 在分镜模型/表结构中增加一个
type字段,例如:image_to_video:图生视频;talking:口播类;motion:动作模仿类;first_last_frame:首尾帧 / 过渡帧。
- 为每个分镜类型规划默认生成策略:
image_to_video→ AutoDL + ComfyUI + 通义万相 2.2;- 重要
talking/motion→ 即梦 API; first_last_frame→ 豆包首帧图 + 简单 ComfyUI/FFmpeg 特效。
- 在业务逻辑中:
- 根据
type字段自动选择算力路径与调用模板; - 支持手动覆盖(某些高价值分镜可以指定更昂贵的方案)。
- 根据
- 在分镜模型/表结构中增加一个
- 阶段产出:
- 分镜类型枚举及其默认策略规则;
- 后端服务中按分镜类型路由到对应工作流/接口的能力。
阶段 3:增加 AutoDL 超分后期(可作为单独任务)
- 目标:在 AutoDL 上构建统一的视频超分与后期处理服务,为生成结果提供“增强版输出”。
- 关键事项:
- 在 AutoDL 上搭建以下能力:
- 运行 FFmpeg:支持常见视频处理命令;
- 运行 Real-ESRGAN 或其它视频超分模型:对视频逐帧或子片段进行超分;
- 视需求叠加插帧模型(如 RIFE 等)。
- 设计统一接口(可 HTTP):
- 输入:原始视频 URL/文件路径、目标分辨率、是否开启插帧等参数;
- 输出:超分后视频的 URL/文件路径、实际处理耗时、失败原因等。
- 与现有「合成/优化」流程集成:
- 在成片前或导出前,增加一个可选的“超分与增强”步骤;
- 支持按分镜或按整条视频进行处理。
- 在 AutoDL 上搭建以下能力:
- 阶段产出:
- AutoDL 上可调用的视频超分服务;
- 与合成/优化流程打通后的可配置“高质量导出”选项。
阶段 4:成本与策略优化(为后续智能体做准备)
- 目标:把“调用路径 → 成本 → 成功率”的数据沉淀下来,为后续智能体决策提供依据。
- 关键事项:
- 记录每种路径的关键指标:
- 平均 GPU 时长(AutoDL 层面);
- 三方 API 调用费用(按腾讯云/阿里云等账单统计);
- 生成成功率(包含失败重试次数、人工干预次数)。
- 基于统计数据形成策略规则:
- 普通分镜:一律走 AutoDL 图生 + AutoDL 超分;
- 高价值分镜:允许额外调用一次即梦动作模仿或口播;
- 超预算场景:自动降级为更便宜的生成路径(如关闭超分/插帧)。
- 为未来智能体预留接口:
- “给定分镜及预算/优先级 → 返回推荐的生产路径与参数”。
- 记录每种路径的关键指标:
- 阶段产出:
- 一套面向“策略引擎 / 智能体”的数据与规则基础;
- 初步的“策略配置中心”或规则表设计。
五、接口与配置层面的初步需求(建议)
1. ComfyUI / AutoDL 调用接口(示意)
- 请求参数(示例):
scene_id/shot_id:分镜标识;type:分镜类型(image_to_video / talking / motion / first_last_frame);first_frame_url:首帧图 URL(适用于 image_to_video / first_last_frame);prompt/negative_prompt:正负向提示词;width/height/duration:生成参数;engine:如wanx2.2、jiying等;extra_config:JSON 扩展字段(如风格、种子、插帧开关)。
- 响应参数(示例):
task_id:任务 ID;status:pending / running / success / failed;video_url:生成完成后的视频地址;logs/error_code/error_message:调试与排错信息。
2. 分镜配置与策略字段(建议)
- 在分镜数据结构中增加:
type:分镜类型;engine:首选引擎(AutoDL/即梦/其它);quality_level:质量等级(normal / high / ultra),影响是否启用超分、插帧;priority:业务优先级(普通 / 高价值),影响是否允许使用更贵的路径;cost_limit:单分镜可接受的成本上限(可选)。
六、风险与待验证点
- 模型效果与一致性:
- 通义万相 2.2 的效果在图生视频上表现优秀,但在大量分镜、不同风格下的稳定性仍需持续验证;
- 开源口播/动作模仿模型效果可能存在明显短板,需要充分 A/B 测试后再替代商用 API。
- 运维复杂度:
- AutoDL + 多个模型部署(ComfyUI、Real-ESRGAN、插帧模型、口播模型等)会带来一定运维成本,需要简化部署与升级流程;
- 需要基础监控和报警,避免“跑满 GPU 却没有产出”的情况。
- 成本预测与控制:
- 不同模型、不同参数组合下的 GPU 占用差异较大;
- 需要通过阶段 4 中的数据统计,逐步形成可预测的成本模型。
七、一句话总结
以 AutoDL 作为核心算力平台,用 ComfyUI + 通义万相 2.2 图生视频作为主驱动,再叠加 AutoDL 视频超分后期,同时保留即梦等 API 作为少量高价值场景的补充,可以在 成本、稳定性和灵活性 三者之间取得较好的平衡,并为后续「智能体驱动的短视频自动生产」打好底层架构。