智能体开发路线图

更新时间: 2025-12-16
状态: 规划中

一、项目现状核心能力总结

✅ 已完成的核心能力

1. 完整的分镜视频生成链路

数字人管理: 角色特征与基本信息管理（性别/年龄段/外貌描述等），作为视频生成的角色库
- ⚠️ 注意: D-ID相关业务为历史遗留，后续开发应忽略
分镜生成: LLM驱动（火山Ark/千问）、标准化输出、历史管理
参考图/视频: ComfyUI/即梦/火山等AIGC素材生成
配音:
- 主力: 豆包语音（火山引擎豆包语音大模型）
- 备选: Azure TTS
- 功能: 批量配音、SRT字幕生成
视频合成:
- 主力: FFmpeg（通过PyBridge服务 + ffmpeg-python）
- 备选: 阿里云ICE（智能媒体服务）
- 功能: 转场、运镜、字幕渲染完整支持

2. 质量评估与优化闭环

质量打分系统（5维度：清晰度/亮度/对比度/分辨率/流畅度）
一键优化（自动超分+插帧）
优化前后对比展示

3. 智能体基础设施（MCP架构）

MCP工具接口: 9个工具
- generate_storyboard - 根据创意生成分镜
- batch_dubbing - 批量配音与SRT生成
- compose_timeline - 组装时间线并合成
- compose_timeline_ffmpeg - FFmpeg合成（主力）
- export_capcut_draft - 剪映草稿导出
- save_run_record - 运行记录落表
- generate_subtitle_volc - 火山引擎字幕生成
- film_interpolate - FILM插帧
- auto_enhance_video - 一键优化
PyBridge服务: FFmpeg合成、质量评分、视频增强
数据表: agent/agent_app/agent_app_run
Gallery UI: 智能体卡片展示、筛选（性别/年龄段）
调试界面: AgentDetail页面，支持FFmpeg合成调试

4. 发布能力

抖音自动发布（Selenium+扫码）
剪映草稿导出

📐 技术架构

前端层: web (Vue3 + Vite)
     ↓
核心后端: api (ThinkPHP8) + MCP协议层
     ↓
AI服务层: PyBridge (FastAPI) - FFmpeg/质量评分/视频增强
     ↓
外部服务: 火山引擎（豆包语音/Ark）/Azure/阿里云ICE/ComfyUI等

二、智能体开发规划

Phase 1: 智能体编排引擎（核心）🔥

任务1.1: Workflow定义与执行引擎

目标: 让智能体能按预定义流程自动执行"想法→分镜→素材→配音→合成→发布"全链路

时间: 2-3周

具体任务:

[ ] 设计Workflow Schema（JSON格式）
- 定义步骤节点类型（LLM生成/素材匹配/配音/合成/发布）
- 支持条件分支（如质量评分<70触发优化）
- 支持并行执行（批量素材生成）
[ ] 实现Workflow执行器
- 状态机管理（pending/running/success/failed/paused）
- 步骤间数据传递（context上下文）
- 错误处理与重试机制
- 进度追踪与UI反馈
[ ] 前端可视化编排器
- 拖拽式流程设计器（类似n8n）
- 预置模板（简单模板/高质量模板/批量生产模板）

关键文件:

api/app/agent/controller/AdminAgentWorkflow.php（新建）
api/app/agent/model/AgentWorkflow.php（新建）
api/app/agent/service/WorkflowExecutor.php（新建）
web/src/views/aigc/component/WorkflowEditor.vue（新建）
api/database/migrations/20251216_create_agent_workflow.php（新建）

Workflow Schema示例:

json

{
  "workflow_id": "simple_video_gen",
  "name": "简单视频生成",
  "version": "1.0.0",
  "steps": [
    {
      "id": "step_1",
      "type": "llm_generate",
      "name": "生成分镜",
      "tool": "generate_storyboard",
      "params": {
        "provider": "ark",
        "model": "ep-xxx"
      },
      "next": "step_2"
    },
    {
      "id": "step_2",
      "type": "batch_dubbing",
      "name": "批量配音",
      "tool": "batch_dubbing",
      "params": {
        "provider": "volc",
        "voiceName": "zh-CN-YunxiNeural"
      },
      "next": "step_3"
    },
    {
      "id": "step_3",
      "type": "compose",
      "name": "FFmpeg合成",
      "tool": "compose_timeline_ffmpeg",
      "params": {
        "impl": "ffmpeg-python",
        "resolution": "720x1280",
        "enable_quality_score": true
      },
      "next": "step_4"
    },
    {
      "id": "step_4",
      "type": "condition",
      "name": "质量检查",
      "condition": "quality_score < 70",
      "true_next": "step_5",
      "false_next": "step_6"
    },
    {
      "id": "step_5",
      "type": "enhance",
      "name": "一键优化",
      "tool": "auto_enhance_video",
      "next": "step_6"
    },
    {
      "id": "step_6",
      "type": "publish",
      "name": "发布到抖音",
      "tool": "publish_to_douyin",
      "params": {
        "platform": "douyin"
      }
    }
  ]
}

任务1.2: 智能决策层

目标: 根据用户输入、历史数据、质量反馈自动做出最优选择

具体任务:

[ ] 素材选择策略
- 根据分镜描述自动选择最佳素材源（ComfyUI/即梦/数字人角色）
- 素材质量预判（避免生成低质量素材）
[ ] 配音策略
- 优先使用豆包语音（火山引擎）
- 根据内容类型自动选择音色（解说/剧情/搞笑等场景）
- 语速/音调自动调优
[ ] 合成策略
- 优先使用FFmpeg合成
- 根据目标平台自动选择分辨率/帧率
- 转场/运镜效果智能推荐
[ ] 优化决策
- 自动判断是否需要质量优化（阈值可配置）
- 成本vs质量权衡（用户可设置预算优先/质量优先）

关键文件:

api/app/agent/service/DecisionEngine.php（新建）
web/src/views/aigc/component/services/decision-service.js（新建）

Phase 2: 对话式智能体UI💬

任务2.1: Chat界面

目标: 用户通过对话方式生成视频，而不是填表单

时间: 1-2周

具体任务:

[ ] 多轮对话流程
- 需求收集（"我想做一个介绍XXX的视频"）
- 细节确认（时长/风格/目标平台/配音类型）
- 执行确认（"开始生成吗？"）
[ ] 实时进度反馈
- 流式输出当前步骤（"正在生成分镜...已完成3/5个场景"）
- 支持中途干预（暂停/修改/重试）
[ ] 结果预览与调整
- 展示生成的分镜/素材/视频
- 支持单步重做（"第3个场景重新生成"）

关键文件:

web/src/views/aigc/component/AgentChat.vue（新建）
api/app/agent/controller/AdminAgentChat.php（新建）
web/src/api/agent-chat-api.js（新建）

UI示例:

┌─────────────────────────────────────┐
│  🤖 智能体助手                        │
├─────────────────────────────────────┤
│ 用户: 帮我生成一个介绍AI的30秒视频     │
│                                     │
│ 助手: 好的！我需要了解一些细节：       │
│   1. 视频风格：科技感/卡通/真人解说？  │
│   2. 目标平台：抖音/视频号/B站？       │
│   3. 配音类型：男声/女声？            │
│                                     │
│ 用户: 科技感，抖音，男声               │
│                                     │
│ 助手: 明白了！我将为你生成：           │
│   ✅ 风格：科技感                     │
│   ✅ 平台：抖音（9:16竖屏）           │
│   ✅ 配音：豆包男声                   │
│   ✅ 时长：30秒                      │
│                                     │
│   [开始生成] [修改配置]               │
│                                     │
│ 助手: 🚀 开始生成...                 │
│   ✅ 已生成分镜（5个场景）            │
│   🔄 正在批量配音...（3/5完成）       │
└─────────────────────────────────────┘

任务2.2: Agent App管理

目标: 让用户能创建、配置、分享不同类型的智能体应用

时间: 1周

具体任务:

[ ] Agent App模板库
- 爆款解说视频生成器（输入话题→自动生成解说视频）
- 产品宣传片生成器（上传产品图→生成营销视频）
- 知识科普视频生成器（输入知识点→生成科普短视频）
[ ] 自定义配置
- 默认Workflow选择
- 默认LLM/TTS提供商（优先豆包）
- 默认素材风格
- 默认发布平台
[ ] 运行记录管理
- 查看历史生成记录
- 批量管理（批量发布/批量删除）
- 数据统计（生成量/成功率/平均耗时）

关键文件:

web/src/views/aigc/component/AgentAppLibrary.vue（新建）
api/app/agent/controller/AdminAgentApp.php（已存在，需增强）

Phase 3: 智能优化与学习🧠

任务3.1: 用户反馈循环

具体任务:

[ ] 反馈收集机制
- 用户对生成结果的评分（1-5星）
- 具体问题标注（素材不匹配/配音不自然/节奏太快等）
[ ] A/B测试框架
- 同一需求生成多个版本
- 收集用户选择数据
- 自动优化策略参数
[ ] 记忆系统
- 记住用户偏好（喜欢的音色/风格）
- 记住成功案例（相似需求时参考）

关键文件:

api/app/agent/model/AgentFeedback.php（新建）
api/app/agent/service/LearningEngine.php（新建）

任务3.2: 成本与质量优化

具体任务:

[ ] 素材缓存机制
- 相似prompt复用历史素材
- 智能去重（避免重复生成）
[ ] 分级策略
- 预览模式（低成本快速生成）
- 发布模式（高质量精细生成）
[ ] 成本统计
- 每次生成的成本明细
- 用户配额管理

关键文件:

api/app/agent/service/CostOptimizer.php（新建）

Phase 4: 生态扩展🌐

任务4.1: 多平台适配

完善抖音发布（支持定时发布/话题添加）
扩展快手/视频号/B站/小红书发布
平台数据回流（播放量/点赞数）

任务4.2: 企业功能

团队协作（多人共用素材库）
品牌一致性（统一字体/配色/音乐）
批量生产（Excel导入批量生成）

三、立即开始的3个任务

1️⃣ Workflow执行引擎 (Phase 1.1) - 优先级最高

原因: 这是智能体自动化的核心，其他功能都依赖它

输出:

用户可以在AgentDetail页面选择预置Workflow（如"简单视频生成"）
点击"运行"后自动执行：生成分镜→批量配音（豆包）→FFmpeg合成→上传OSS
实时显示每步进度

开发步骤:

创建数据库迁移文件（agent_workflow/agent_workflow_run表）
实现WorkflowExecutor服务类（核心状态机）
创建REST API接口（/agent/admin/workflow CRUD + /agent/admin/workflow/run 执行）
前端UI实现（WorkflowEditor + WorkflowRunner组件）

2️⃣ Agent Chat界面 (Phase 2.1)

原因: 显著提升用户体验，降低使用门槛

输出:

新增/aigc/agents/chat页面
用户输入"生成一个介绍AI的30秒视频"
智能体自动执行并流式反馈进度

开发步骤:

创建AgentChat.vue组件（聊天UI）
实现对话管理器（多轮对话/意图识别）
集成Workflow执行器（从对话触发）
WebSocket/SSE实现流式进度反馈

3️⃣ Agent App模板库 (Phase 2.2)

原因: 快速验证不同场景，扩展产品价值

输出:

预置3-5个Agent App模板
用户可以一键使用模板生成视频
支持简单自定义配置

开发步骤:

设计Agent App数据结构（扩展现有agent_app表）
创建3个模板（解说视频/产品宣传/知识科普）
实现AgentAppLibrary.vue UI
模板实例化与运行逻辑

四、技术选型与最佳实践

配音服务优先级

首选: 豆包语音（火山引擎）- 高质量/低成本/中文优化
备选: Azure TTS - 多语言支持/稳定性高

视频合成优先级

首选: FFmpeg（PyBridge） - 灵活/可控/免费
备选: 阿里云ICE - 云端处理/适合高并发

Workflow执行模式

同步执行：适合简单流程（<3步）
异步执行：适合复杂流程，通过WebSocket推送进度

错误处理策略

重试机制：网络错误自动重试3次
降级方案：主服务不可用时切换备选服务
用户提示：清晰的错误信息和建议操作

五、里程碑时间表

时间	里程碑	交付物
Week 1-2	Workflow引擎核心	数据表/执行器/基础API
Week 2-3	Workflow UI	可视化编排器/运行监控
Week 3-4	Agent Chat	对话界面/意图识别
Week 4-5	Agent App模板	3个预置模板/模板库UI
Week 6+	优化与扩展	反馈循环/成本优化

六、风险与应对

风险1: AI服务不稳定

应对:

实现服务降级（豆包→Azure）
增加重试机制
缓存历史成功结果

风险2: Workflow执行时间过长

应对:

异步执行+进度推送
用户可随时查看中间结果
支持暂停/恢复

风险3: 用户学习成本高

应对:

提供详细的模板和示例
Chat界面降低门槛
新手引导流程

七、成功指标

技术指标

Workflow执行成功率 > 95%
平均生成时间 < 3分钟
系统可用性 > 99.5%

业务指标

日活用户增长 > 20%
视频生成量增长 > 50%
用户满意度 > 4.5/5

附录

A. 数据表设计

agent_workflow

sql

CREATE TABLE `agent_workflow` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `name` varchar(100) NOT NULL COMMENT 'Workflow名称',
  `slug` varchar(100) NOT NULL COMMENT 'Workflow标识',
  `description` text COMMENT '描述',
  `schema_json` longtext NOT NULL COMMENT 'Workflow定义JSON',
  `version` varchar(20) DEFAULT '1.0.0' COMMENT '版本号',
  `status` varchar(20) DEFAULT 'active' COMMENT '状态',
  `is_template` tinyint(1) DEFAULT 0 COMMENT '是否为模板',
  `create_time` int(11) DEFAULT NULL,
  `update_time` int(11) DEFAULT NULL,
  PRIMARY KEY (`id`),
  UNIQUE KEY `uniq_slug` (`slug`)
);

agent_workflow_run

sql

CREATE TABLE `agent_workflow_run` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `workflow_id` int(11) NOT NULL COMMENT 'Workflow ID',
  `member_id` int(11) DEFAULT 0 COMMENT '用户ID',
  `storyboard_id` int(11) DEFAULT 0 COMMENT '分镜ID',
  `status` varchar(20) DEFAULT 'pending' COMMENT '状态',
  `current_step` varchar(50) DEFAULT NULL COMMENT '当前步骤',
  `context_json` longtext COMMENT '执行上下文',
  `result_json` longtext COMMENT '执行结果',
  `error_message` text COMMENT '错误信息',
  `start_time` int(11) DEFAULT NULL,
  `end_time` int(11) DEFAULT NULL,
  `create_time` int(11) DEFAULT NULL,
  `update_time` int(11) DEFAULT NULL,
  PRIMARY KEY (`id`),
  KEY `idx_workflow_id` (`workflow_id`),
  KEY `idx_member_id` (`member_id`),
  KEY `idx_status` (`status`)
);

智能体开发路线图 ​

一、项目现状核心能力总结 ​

✅ 已完成的核心能力 ​

1. 完整的分镜视频生成链路 ​

2. 质量评估与优化闭环 ​

3. 智能体基础设施（MCP架构） ​

4. 发布能力 ​

📐 技术架构 ​

二、智能体开发规划 ​

Phase 1: 智能体编排引擎（核心）🔥 ​

任务1.1: Workflow定义与执行引擎 ​

任务1.2: 智能决策层 ​

Phase 2: 对话式智能体UI💬 ​

任务2.1: Chat界面 ​

任务2.2: Agent App管理 ​

Phase 3: 智能优化与学习🧠 ​

任务3.1: 用户反馈循环 ​

任务3.2: 成本与质量优化 ​

Phase 4: 生态扩展🌐 ​

任务4.1: 多平台适配 ​

任务4.2: 企业功能 ​

三、立即开始的3个任务 ​

1️⃣ Workflow执行引擎 (Phase 1.1) - 优先级最高 ​

2️⃣ Agent Chat界面 (Phase 2.1) ​

3️⃣ Agent App模板库 (Phase 2.2) ​

四、技术选型与最佳实践 ​

配音服务优先级 ​

视频合成优先级 ​

Workflow执行模式 ​

错误处理策略 ​

五、里程碑时间表 ​

六、风险与应对 ​

风险1: AI服务不稳定 ​

风险2: Workflow执行时间过长 ​

风险3: 用户学习成本高 ​

七、成功指标 ​

技术指标 ​

业务指标 ​

附录 ​

A. 数据表设计 ​

agent_workflow ​

agent_workflow_run ​

B. 相关文档 ​

智能体开发路线图

一、项目现状核心能力总结

✅ 已完成的核心能力

1. 完整的分镜视频生成链路

2. 质量评估与优化闭环

3. 智能体基础设施（MCP架构）

4. 发布能力

📐 技术架构

二、智能体开发规划

Phase 1: 智能体编排引擎（核心）🔥

任务1.1: Workflow定义与执行引擎

任务1.2: 智能决策层

Phase 2: 对话式智能体UI💬

任务2.1: Chat界面

任务2.2: Agent App管理

Phase 3: 智能优化与学习🧠

任务3.1: 用户反馈循环

任务3.2: 成本与质量优化

Phase 4: 生态扩展🌐

任务4.1: 多平台适配

任务4.2: 企业功能

三、立即开始的3个任务

1️⃣ Workflow执行引擎 (Phase 1.1) - 优先级最高

2️⃣ Agent Chat界面 (Phase 2.1)

3️⃣ Agent App模板库 (Phase 2.2)

四、技术选型与最佳实践

配音服务优先级

视频合成优先级

Workflow执行模式

错误处理策略

五、里程碑时间表

六、风险与应对

风险1: AI服务不稳定

风险2: Workflow执行时间过长

风险3: 用户学习成本高

七、成功指标

技术指标

业务指标

附录

A. 数据表设计

agent_workflow

agent_workflow_run

B. 相关文档