Skip to content

智能体开发路线图

更新时间: 2025-12-16
状态: 规划中

一、项目现状核心能力总结

✅ 已完成的核心能力

1. 完整的分镜视频生成链路

  • 数字人管理: 角色特征与基本信息管理(性别/年龄段/外貌描述等),作为视频生成的角色库
    • ⚠️ 注意: D-ID相关业务为历史遗留,后续开发应忽略
  • 分镜生成: LLM驱动(火山Ark/千问)、标准化输出、历史管理
  • 参考图/视频: ComfyUI/即梦/火山等AIGC素材生成
  • 配音:
    • 主力: 豆包语音(火山引擎豆包语音大模型)
    • 备选: Azure TTS
    • 功能: 批量配音、SRT字幕生成
  • 视频合成:
    • 主力: FFmpeg(通过PyBridge服务 + ffmpeg-python)
    • 备选: 阿里云ICE(智能媒体服务)
    • 功能: 转场、运镜、字幕渲染完整支持

2. 质量评估与优化闭环

  • 质量打分系统(5维度:清晰度/亮度/对比度/分辨率/流畅度)
  • 一键优化(自动超分+插帧)
  • 优化前后对比展示

3. 智能体基础设施(MCP架构)

  • MCP工具接口: 9个工具
    • generate_storyboard - 根据创意生成分镜
    • batch_dubbing - 批量配音与SRT生成
    • compose_timeline - 组装时间线并合成
    • compose_timeline_ffmpeg - FFmpeg合成(主力)
    • export_capcut_draft - 剪映草稿导出
    • save_run_record - 运行记录落表
    • generate_subtitle_volc - 火山引擎字幕生成
    • film_interpolate - FILM插帧
    • auto_enhance_video - 一键优化
  • PyBridge服务: FFmpeg合成、质量评分、视频增强
  • 数据表: agent/agent_app/agent_app_run
  • Gallery UI: 智能体卡片展示、筛选(性别/年龄段)
  • 调试界面: AgentDetail页面,支持FFmpeg合成调试

4. 发布能力

  • 抖音自动发布(Selenium+扫码)
  • 剪映草稿导出

📐 技术架构

前端层: web (Vue3 + Vite)

核心后端: api (ThinkPHP8) + MCP协议层

AI服务层: PyBridge (FastAPI) - FFmpeg/质量评分/视频增强

外部服务: 火山引擎(豆包语音/Ark)/Azure/阿里云ICE/ComfyUI等

二、智能体开发规划

Phase 1: 智能体编排引擎(核心)🔥

任务1.1: Workflow定义与执行引擎

目标: 让智能体能按预定义流程自动执行"想法→分镜→素材→配音→合成→发布"全链路

时间: 2-3周

具体任务:

  • [ ] 设计Workflow Schema(JSON格式)
    • 定义步骤节点类型(LLM生成/素材匹配/配音/合成/发布)
    • 支持条件分支(如质量评分<70触发优化)
    • 支持并行执行(批量素材生成)
  • [ ] 实现Workflow执行器
    • 状态机管理(pending/running/success/failed/paused)
    • 步骤间数据传递(context上下文)
    • 错误处理与重试机制
    • 进度追踪与UI反馈
  • [ ] 前端可视化编排器
    • 拖拽式流程设计器(类似n8n)
    • 预置模板(简单模板/高质量模板/批量生产模板)

关键文件:

  • api/app/agent/controller/AdminAgentWorkflow.php(新建)
  • api/app/agent/model/AgentWorkflow.php(新建)
  • api/app/agent/service/WorkflowExecutor.php(新建)
  • web/src/views/aigc/component/WorkflowEditor.vue(新建)
  • api/database/migrations/20251216_create_agent_workflow.php(新建)

Workflow Schema示例:

json
{
  "workflow_id": "simple_video_gen",
  "name": "简单视频生成",
  "version": "1.0.0",
  "steps": [
    {
      "id": "step_1",
      "type": "llm_generate",
      "name": "生成分镜",
      "tool": "generate_storyboard",
      "params": {
        "provider": "ark",
        "model": "ep-xxx"
      },
      "next": "step_2"
    },
    {
      "id": "step_2",
      "type": "batch_dubbing",
      "name": "批量配音",
      "tool": "batch_dubbing",
      "params": {
        "provider": "volc",
        "voiceName": "zh-CN-YunxiNeural"
      },
      "next": "step_3"
    },
    {
      "id": "step_3",
      "type": "compose",
      "name": "FFmpeg合成",
      "tool": "compose_timeline_ffmpeg",
      "params": {
        "impl": "ffmpeg-python",
        "resolution": "720x1280",
        "enable_quality_score": true
      },
      "next": "step_4"
    },
    {
      "id": "step_4",
      "type": "condition",
      "name": "质量检查",
      "condition": "quality_score < 70",
      "true_next": "step_5",
      "false_next": "step_6"
    },
    {
      "id": "step_5",
      "type": "enhance",
      "name": "一键优化",
      "tool": "auto_enhance_video",
      "next": "step_6"
    },
    {
      "id": "step_6",
      "type": "publish",
      "name": "发布到抖音",
      "tool": "publish_to_douyin",
      "params": {
        "platform": "douyin"
      }
    }
  ]
}

任务1.2: 智能决策层

目标: 根据用户输入、历史数据、质量反馈自动做出最优选择

具体任务:

  • [ ] 素材选择策略
    • 根据分镜描述自动选择最佳素材源(ComfyUI/即梦/数字人角色)
    • 素材质量预判(避免生成低质量素材)
  • [ ] 配音策略
    • 优先使用豆包语音(火山引擎)
    • 根据内容类型自动选择音色(解说/剧情/搞笑等场景)
    • 语速/音调自动调优
  • [ ] 合成策略
    • 优先使用FFmpeg合成
    • 根据目标平台自动选择分辨率/帧率
    • 转场/运镜效果智能推荐
  • [ ] 优化决策
    • 自动判断是否需要质量优化(阈值可配置)
    • 成本vs质量权衡(用户可设置预算优先/质量优先)

关键文件:

  • api/app/agent/service/DecisionEngine.php(新建)
  • web/src/views/aigc/component/services/decision-service.js(新建)

Phase 2: 对话式智能体UI💬

任务2.1: Chat界面

目标: 用户通过对话方式生成视频,而不是填表单

时间: 1-2周

具体任务:

  • [ ] 多轮对话流程
    • 需求收集("我想做一个介绍XXX的视频")
    • 细节确认(时长/风格/目标平台/配音类型)
    • 执行确认("开始生成吗?")
  • [ ] 实时进度反馈
    • 流式输出当前步骤("正在生成分镜...已完成3/5个场景")
    • 支持中途干预(暂停/修改/重试)
  • [ ] 结果预览与调整
    • 展示生成的分镜/素材/视频
    • 支持单步重做("第3个场景重新生成")

关键文件:

  • web/src/views/aigc/component/AgentChat.vue(新建)
  • api/app/agent/controller/AdminAgentChat.php(新建)
  • web/src/api/agent-chat-api.js(新建)

UI示例:

┌─────────────────────────────────────┐
│  🤖 智能体助手                        │
├─────────────────────────────────────┤
│ 用户: 帮我生成一个介绍AI的30秒视频     │
│                                     │
│ 助手: 好的!我需要了解一些细节:       │
│   1. 视频风格:科技感/卡通/真人解说?  │
│   2. 目标平台:抖音/视频号/B站?       │
│   3. 配音类型:男声/女声?            │
│                                     │
│ 用户: 科技感,抖音,男声               │
│                                     │
│ 助手: 明白了!我将为你生成:           │
│   ✅ 风格:科技感                     │
│   ✅ 平台:抖音(9:16竖屏)           │
│   ✅ 配音:豆包男声                   │
│   ✅ 时长:30秒                      │
│                                     │
│   [开始生成] [修改配置]               │
│                                     │
│ 助手: 🚀 开始生成...                 │
│   ✅ 已生成分镜(5个场景)            │
│   🔄 正在批量配音...(3/5完成)       │
└─────────────────────────────────────┘

任务2.2: Agent App管理

目标: 让用户能创建、配置、分享不同类型的智能体应用

时间: 1周

具体任务:

  • [ ] Agent App模板库
    • 爆款解说视频生成器(输入话题→自动生成解说视频)
    • 产品宣传片生成器(上传产品图→生成营销视频)
    • 知识科普视频生成器(输入知识点→生成科普短视频)
  • [ ] 自定义配置
    • 默认Workflow选择
    • 默认LLM/TTS提供商(优先豆包)
    • 默认素材风格
    • 默认发布平台
  • [ ] 运行记录管理
    • 查看历史生成记录
    • 批量管理(批量发布/批量删除)
    • 数据统计(生成量/成功率/平均耗时)

关键文件:

  • web/src/views/aigc/component/AgentAppLibrary.vue(新建)
  • api/app/agent/controller/AdminAgentApp.php(已存在,需增强)

Phase 3: 智能优化与学习🧠

任务3.1: 用户反馈循环

具体任务:

  • [ ] 反馈收集机制
    • 用户对生成结果的评分(1-5星)
    • 具体问题标注(素材不匹配/配音不自然/节奏太快等)
  • [ ] A/B测试框架
    • 同一需求生成多个版本
    • 收集用户选择数据
    • 自动优化策略参数
  • [ ] 记忆系统
    • 记住用户偏好(喜欢的音色/风格)
    • 记住成功案例(相似需求时参考)

关键文件:

  • api/app/agent/model/AgentFeedback.php(新建)
  • api/app/agent/service/LearningEngine.php(新建)

任务3.2: 成本与质量优化

具体任务:

  • [ ] 素材缓存机制
    • 相似prompt复用历史素材
    • 智能去重(避免重复生成)
  • [ ] 分级策略
    • 预览模式(低成本快速生成)
    • 发布模式(高质量精细生成)
  • [ ] 成本统计
    • 每次生成的成本明细
    • 用户配额管理

关键文件:

  • api/app/agent/service/CostOptimizer.php(新建)

Phase 4: 生态扩展🌐

任务4.1: 多平台适配

  • 完善抖音发布(支持定时发布/话题添加)
  • 扩展快手/视频号/B站/小红书发布
  • 平台数据回流(播放量/点赞数)

任务4.2: 企业功能

  • 团队协作(多人共用素材库)
  • 品牌一致性(统一字体/配色/音乐)
  • 批量生产(Excel导入批量生成)

三、立即开始的3个任务

1️⃣ Workflow执行引擎 (Phase 1.1) - 优先级最高

原因: 这是智能体自动化的核心,其他功能都依赖它

输出:

  • 用户可以在AgentDetail页面选择预置Workflow(如"简单视频生成")
  • 点击"运行"后自动执行:生成分镜→批量配音(豆包)→FFmpeg合成→上传OSS
  • 实时显示每步进度

开发步骤:

  1. 创建数据库迁移文件(agent_workflow/agent_workflow_run表)
  2. 实现WorkflowExecutor服务类(核心状态机)
  3. 创建REST API接口(/agent/admin/workflow CRUD + /agent/admin/workflow/run 执行)
  4. 前端UI实现(WorkflowEditor + WorkflowRunner组件)

2️⃣ Agent Chat界面 (Phase 2.1)

原因: 显著提升用户体验,降低使用门槛

输出:

  • 新增/aigc/agents/chat页面
  • 用户输入"生成一个介绍AI的30秒视频"
  • 智能体自动执行并流式反馈进度

开发步骤:

  1. 创建AgentChat.vue组件(聊天UI)
  2. 实现对话管理器(多轮对话/意图识别)
  3. 集成Workflow执行器(从对话触发)
  4. WebSocket/SSE实现流式进度反馈

3️⃣ Agent App模板库 (Phase 2.2)

原因: 快速验证不同场景,扩展产品价值

输出:

  • 预置3-5个Agent App模板
  • 用户可以一键使用模板生成视频
  • 支持简单自定义配置

开发步骤:

  1. 设计Agent App数据结构(扩展现有agent_app表)
  2. 创建3个模板(解说视频/产品宣传/知识科普)
  3. 实现AgentAppLibrary.vue UI
  4. 模板实例化与运行逻辑

四、技术选型与最佳实践

配音服务优先级

  1. 首选: 豆包语音(火山引擎)- 高质量/低成本/中文优化
  2. 备选: Azure TTS - 多语言支持/稳定性高

视频合成优先级

  1. 首选: FFmpeg(PyBridge) - 灵活/可控/免费
  2. 备选: 阿里云ICE - 云端处理/适合高并发

Workflow执行模式

  • 同步执行:适合简单流程(<3步)
  • 异步执行:适合复杂流程,通过WebSocket推送进度

错误处理策略

  • 重试机制:网络错误自动重试3次
  • 降级方案:主服务不可用时切换备选服务
  • 用户提示:清晰的错误信息和建议操作

五、里程碑时间表

时间里程碑交付物
Week 1-2Workflow引擎核心数据表/执行器/基础API
Week 2-3Workflow UI可视化编排器/运行监控
Week 3-4Agent Chat对话界面/意图识别
Week 4-5Agent App模板3个预置模板/模板库UI
Week 6+优化与扩展反馈循环/成本优化

六、风险与应对

风险1: AI服务不稳定

应对:

  • 实现服务降级(豆包→Azure)
  • 增加重试机制
  • 缓存历史成功结果

风险2: Workflow执行时间过长

应对:

  • 异步执行+进度推送
  • 用户可随时查看中间结果
  • 支持暂停/恢复

风险3: 用户学习成本高

应对:

  • 提供详细的模板和示例
  • Chat界面降低门槛
  • 新手引导流程

七、成功指标

技术指标

  • Workflow执行成功率 > 95%
  • 平均生成时间 < 3分钟
  • 系统可用性 > 99.5%

业务指标

  • 日活用户增长 > 20%
  • 视频生成量增长 > 50%
  • 用户满意度 > 4.5/5

附录

A. 数据表设计

agent_workflow

sql
CREATE TABLE `agent_workflow` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `name` varchar(100) NOT NULL COMMENT 'Workflow名称',
  `slug` varchar(100) NOT NULL COMMENT 'Workflow标识',
  `description` text COMMENT '描述',
  `schema_json` longtext NOT NULL COMMENT 'Workflow定义JSON',
  `version` varchar(20) DEFAULT '1.0.0' COMMENT '版本号',
  `status` varchar(20) DEFAULT 'active' COMMENT '状态',
  `is_template` tinyint(1) DEFAULT 0 COMMENT '是否为模板',
  `create_time` int(11) DEFAULT NULL,
  `update_time` int(11) DEFAULT NULL,
  PRIMARY KEY (`id`),
  UNIQUE KEY `uniq_slug` (`slug`)
);

agent_workflow_run

sql
CREATE TABLE `agent_workflow_run` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `workflow_id` int(11) NOT NULL COMMENT 'Workflow ID',
  `member_id` int(11) DEFAULT 0 COMMENT '用户ID',
  `storyboard_id` int(11) DEFAULT 0 COMMENT '分镜ID',
  `status` varchar(20) DEFAULT 'pending' COMMENT '状态',
  `current_step` varchar(50) DEFAULT NULL COMMENT '当前步骤',
  `context_json` longtext COMMENT '执行上下文',
  `result_json` longtext COMMENT '执行结果',
  `error_message` text COMMENT '错误信息',
  `start_time` int(11) DEFAULT NULL,
  `end_time` int(11) DEFAULT NULL,
  `create_time` int(11) DEFAULT NULL,
  `update_time` int(11) DEFAULT NULL,
  PRIMARY KEY (`id`),
  KEY `idx_workflow_id` (`workflow_id`),
  KEY `idx_member_id` (`member_id`),
  KEY `idx_status` (`status`)
);

B. 相关文档