智能体开发路线图
更新时间: 2025-12-16
状态: 规划中
一、项目现状核心能力总结
✅ 已完成的核心能力
1. 完整的分镜视频生成链路
- 数字人管理: 角色特征与基本信息管理(性别/年龄段/外貌描述等),作为视频生成的角色库
- ⚠️ 注意: D-ID相关业务为历史遗留,后续开发应忽略
- 分镜生成: LLM驱动(火山Ark/千问)、标准化输出、历史管理
- 参考图/视频: ComfyUI/即梦/火山等AIGC素材生成
- 配音:
- 主力: 豆包语音(火山引擎豆包语音大模型)
- 备选: Azure TTS
- 功能: 批量配音、SRT字幕生成
- 视频合成:
- 主力: FFmpeg(通过PyBridge服务 + ffmpeg-python)
- 备选: 阿里云ICE(智能媒体服务)
- 功能: 转场、运镜、字幕渲染完整支持
2. 质量评估与优化闭环
- 质量打分系统(5维度:清晰度/亮度/对比度/分辨率/流畅度)
- 一键优化(自动超分+插帧)
- 优化前后对比展示
3. 智能体基础设施(MCP架构)
- MCP工具接口: 9个工具
generate_storyboard- 根据创意生成分镜batch_dubbing- 批量配音与SRT生成compose_timeline- 组装时间线并合成compose_timeline_ffmpeg- FFmpeg合成(主力)export_capcut_draft- 剪映草稿导出save_run_record- 运行记录落表generate_subtitle_volc- 火山引擎字幕生成film_interpolate- FILM插帧auto_enhance_video- 一键优化
- PyBridge服务: FFmpeg合成、质量评分、视频增强
- 数据表:
agent/agent_app/agent_app_run - Gallery UI: 智能体卡片展示、筛选(性别/年龄段)
- 调试界面: AgentDetail页面,支持FFmpeg合成调试
4. 发布能力
- 抖音自动发布(Selenium+扫码)
- 剪映草稿导出
📐 技术架构
前端层: web (Vue3 + Vite)
↓
核心后端: api (ThinkPHP8) + MCP协议层
↓
AI服务层: PyBridge (FastAPI) - FFmpeg/质量评分/视频增强
↓
外部服务: 火山引擎(豆包语音/Ark)/Azure/阿里云ICE/ComfyUI等二、智能体开发规划
Phase 1: 智能体编排引擎(核心)🔥
任务1.1: Workflow定义与执行引擎
目标: 让智能体能按预定义流程自动执行"想法→分镜→素材→配音→合成→发布"全链路
时间: 2-3周
具体任务:
- [ ] 设计Workflow Schema(JSON格式)
- 定义步骤节点类型(LLM生成/素材匹配/配音/合成/发布)
- 支持条件分支(如质量评分<70触发优化)
- 支持并行执行(批量素材生成)
- [ ] 实现Workflow执行器
- 状态机管理(pending/running/success/failed/paused)
- 步骤间数据传递(context上下文)
- 错误处理与重试机制
- 进度追踪与UI反馈
- [ ] 前端可视化编排器
- 拖拽式流程设计器(类似n8n)
- 预置模板(简单模板/高质量模板/批量生产模板)
关键文件:
api/app/agent/controller/AdminAgentWorkflow.php(新建)api/app/agent/model/AgentWorkflow.php(新建)api/app/agent/service/WorkflowExecutor.php(新建)web/src/views/aigc/component/WorkflowEditor.vue(新建)api/database/migrations/20251216_create_agent_workflow.php(新建)
Workflow Schema示例:
json
{
"workflow_id": "simple_video_gen",
"name": "简单视频生成",
"version": "1.0.0",
"steps": [
{
"id": "step_1",
"type": "llm_generate",
"name": "生成分镜",
"tool": "generate_storyboard",
"params": {
"provider": "ark",
"model": "ep-xxx"
},
"next": "step_2"
},
{
"id": "step_2",
"type": "batch_dubbing",
"name": "批量配音",
"tool": "batch_dubbing",
"params": {
"provider": "volc",
"voiceName": "zh-CN-YunxiNeural"
},
"next": "step_3"
},
{
"id": "step_3",
"type": "compose",
"name": "FFmpeg合成",
"tool": "compose_timeline_ffmpeg",
"params": {
"impl": "ffmpeg-python",
"resolution": "720x1280",
"enable_quality_score": true
},
"next": "step_4"
},
{
"id": "step_4",
"type": "condition",
"name": "质量检查",
"condition": "quality_score < 70",
"true_next": "step_5",
"false_next": "step_6"
},
{
"id": "step_5",
"type": "enhance",
"name": "一键优化",
"tool": "auto_enhance_video",
"next": "step_6"
},
{
"id": "step_6",
"type": "publish",
"name": "发布到抖音",
"tool": "publish_to_douyin",
"params": {
"platform": "douyin"
}
}
]
}任务1.2: 智能决策层
目标: 根据用户输入、历史数据、质量反馈自动做出最优选择
具体任务:
- [ ] 素材选择策略
- 根据分镜描述自动选择最佳素材源(ComfyUI/即梦/数字人角色)
- 素材质量预判(避免生成低质量素材)
- [ ] 配音策略
- 优先使用豆包语音(火山引擎)
- 根据内容类型自动选择音色(解说/剧情/搞笑等场景)
- 语速/音调自动调优
- [ ] 合成策略
- 优先使用FFmpeg合成
- 根据目标平台自动选择分辨率/帧率
- 转场/运镜效果智能推荐
- [ ] 优化决策
- 自动判断是否需要质量优化(阈值可配置)
- 成本vs质量权衡(用户可设置预算优先/质量优先)
关键文件:
api/app/agent/service/DecisionEngine.php(新建)web/src/views/aigc/component/services/decision-service.js(新建)
Phase 2: 对话式智能体UI💬
任务2.1: Chat界面
目标: 用户通过对话方式生成视频,而不是填表单
时间: 1-2周
具体任务:
- [ ] 多轮对话流程
- 需求收集("我想做一个介绍XXX的视频")
- 细节确认(时长/风格/目标平台/配音类型)
- 执行确认("开始生成吗?")
- [ ] 实时进度反馈
- 流式输出当前步骤("正在生成分镜...已完成3/5个场景")
- 支持中途干预(暂停/修改/重试)
- [ ] 结果预览与调整
- 展示生成的分镜/素材/视频
- 支持单步重做("第3个场景重新生成")
关键文件:
web/src/views/aigc/component/AgentChat.vue(新建)api/app/agent/controller/AdminAgentChat.php(新建)web/src/api/agent-chat-api.js(新建)
UI示例:
┌─────────────────────────────────────┐
│ 🤖 智能体助手 │
├─────────────────────────────────────┤
│ 用户: 帮我生成一个介绍AI的30秒视频 │
│ │
│ 助手: 好的!我需要了解一些细节: │
│ 1. 视频风格:科技感/卡通/真人解说? │
│ 2. 目标平台:抖音/视频号/B站? │
│ 3. 配音类型:男声/女声? │
│ │
│ 用户: 科技感,抖音,男声 │
│ │
│ 助手: 明白了!我将为你生成: │
│ ✅ 风格:科技感 │
│ ✅ 平台:抖音(9:16竖屏) │
│ ✅ 配音:豆包男声 │
│ ✅ 时长:30秒 │
│ │
│ [开始生成] [修改配置] │
│ │
│ 助手: 🚀 开始生成... │
│ ✅ 已生成分镜(5个场景) │
│ 🔄 正在批量配音...(3/5完成) │
└─────────────────────────────────────┘任务2.2: Agent App管理
目标: 让用户能创建、配置、分享不同类型的智能体应用
时间: 1周
具体任务:
- [ ] Agent App模板库
- 爆款解说视频生成器(输入话题→自动生成解说视频)
- 产品宣传片生成器(上传产品图→生成营销视频)
- 知识科普视频生成器(输入知识点→生成科普短视频)
- [ ] 自定义配置
- 默认Workflow选择
- 默认LLM/TTS提供商(优先豆包)
- 默认素材风格
- 默认发布平台
- [ ] 运行记录管理
- 查看历史生成记录
- 批量管理(批量发布/批量删除)
- 数据统计(生成量/成功率/平均耗时)
关键文件:
web/src/views/aigc/component/AgentAppLibrary.vue(新建)api/app/agent/controller/AdminAgentApp.php(已存在,需增强)
Phase 3: 智能优化与学习🧠
任务3.1: 用户反馈循环
具体任务:
- [ ] 反馈收集机制
- 用户对生成结果的评分(1-5星)
- 具体问题标注(素材不匹配/配音不自然/节奏太快等)
- [ ] A/B测试框架
- 同一需求生成多个版本
- 收集用户选择数据
- 自动优化策略参数
- [ ] 记忆系统
- 记住用户偏好(喜欢的音色/风格)
- 记住成功案例(相似需求时参考)
关键文件:
api/app/agent/model/AgentFeedback.php(新建)api/app/agent/service/LearningEngine.php(新建)
任务3.2: 成本与质量优化
具体任务:
- [ ] 素材缓存机制
- 相似prompt复用历史素材
- 智能去重(避免重复生成)
- [ ] 分级策略
- 预览模式(低成本快速生成)
- 发布模式(高质量精细生成)
- [ ] 成本统计
- 每次生成的成本明细
- 用户配额管理
关键文件:
api/app/agent/service/CostOptimizer.php(新建)
Phase 4: 生态扩展🌐
任务4.1: 多平台适配
- 完善抖音发布(支持定时发布/话题添加)
- 扩展快手/视频号/B站/小红书发布
- 平台数据回流(播放量/点赞数)
任务4.2: 企业功能
- 团队协作(多人共用素材库)
- 品牌一致性(统一字体/配色/音乐)
- 批量生产(Excel导入批量生成)
三、立即开始的3个任务
1️⃣ Workflow执行引擎 (Phase 1.1) - 优先级最高
原因: 这是智能体自动化的核心,其他功能都依赖它
输出:
- 用户可以在AgentDetail页面选择预置Workflow(如"简单视频生成")
- 点击"运行"后自动执行:生成分镜→批量配音(豆包)→FFmpeg合成→上传OSS
- 实时显示每步进度
开发步骤:
- 创建数据库迁移文件(agent_workflow/agent_workflow_run表)
- 实现WorkflowExecutor服务类(核心状态机)
- 创建REST API接口(/agent/admin/workflow CRUD + /agent/admin/workflow/run 执行)
- 前端UI实现(WorkflowEditor + WorkflowRunner组件)
2️⃣ Agent Chat界面 (Phase 2.1)
原因: 显著提升用户体验,降低使用门槛
输出:
- 新增
/aigc/agents/chat页面 - 用户输入"生成一个介绍AI的30秒视频"
- 智能体自动执行并流式反馈进度
开发步骤:
- 创建AgentChat.vue组件(聊天UI)
- 实现对话管理器(多轮对话/意图识别)
- 集成Workflow执行器(从对话触发)
- WebSocket/SSE实现流式进度反馈
3️⃣ Agent App模板库 (Phase 2.2)
原因: 快速验证不同场景,扩展产品价值
输出:
- 预置3-5个Agent App模板
- 用户可以一键使用模板生成视频
- 支持简单自定义配置
开发步骤:
- 设计Agent App数据结构(扩展现有agent_app表)
- 创建3个模板(解说视频/产品宣传/知识科普)
- 实现AgentAppLibrary.vue UI
- 模板实例化与运行逻辑
四、技术选型与最佳实践
配音服务优先级
- 首选: 豆包语音(火山引擎)- 高质量/低成本/中文优化
- 备选: Azure TTS - 多语言支持/稳定性高
视频合成优先级
- 首选: FFmpeg(PyBridge) - 灵活/可控/免费
- 备选: 阿里云ICE - 云端处理/适合高并发
Workflow执行模式
- 同步执行:适合简单流程(<3步)
- 异步执行:适合复杂流程,通过WebSocket推送进度
错误处理策略
- 重试机制:网络错误自动重试3次
- 降级方案:主服务不可用时切换备选服务
- 用户提示:清晰的错误信息和建议操作
五、里程碑时间表
| 时间 | 里程碑 | 交付物 |
|---|---|---|
| Week 1-2 | Workflow引擎核心 | 数据表/执行器/基础API |
| Week 2-3 | Workflow UI | 可视化编排器/运行监控 |
| Week 3-4 | Agent Chat | 对话界面/意图识别 |
| Week 4-5 | Agent App模板 | 3个预置模板/模板库UI |
| Week 6+ | 优化与扩展 | 反馈循环/成本优化 |
六、风险与应对
风险1: AI服务不稳定
应对:
- 实现服务降级(豆包→Azure)
- 增加重试机制
- 缓存历史成功结果
风险2: Workflow执行时间过长
应对:
- 异步执行+进度推送
- 用户可随时查看中间结果
- 支持暂停/恢复
风险3: 用户学习成本高
应对:
- 提供详细的模板和示例
- Chat界面降低门槛
- 新手引导流程
七、成功指标
技术指标
- Workflow执行成功率 > 95%
- 平均生成时间 < 3分钟
- 系统可用性 > 99.5%
业务指标
- 日活用户增长 > 20%
- 视频生成量增长 > 50%
- 用户满意度 > 4.5/5
附录
A. 数据表设计
agent_workflow
sql
CREATE TABLE `agent_workflow` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`name` varchar(100) NOT NULL COMMENT 'Workflow名称',
`slug` varchar(100) NOT NULL COMMENT 'Workflow标识',
`description` text COMMENT '描述',
`schema_json` longtext NOT NULL COMMENT 'Workflow定义JSON',
`version` varchar(20) DEFAULT '1.0.0' COMMENT '版本号',
`status` varchar(20) DEFAULT 'active' COMMENT '状态',
`is_template` tinyint(1) DEFAULT 0 COMMENT '是否为模板',
`create_time` int(11) DEFAULT NULL,
`update_time` int(11) DEFAULT NULL,
PRIMARY KEY (`id`),
UNIQUE KEY `uniq_slug` (`slug`)
);agent_workflow_run
sql
CREATE TABLE `agent_workflow_run` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`workflow_id` int(11) NOT NULL COMMENT 'Workflow ID',
`member_id` int(11) DEFAULT 0 COMMENT '用户ID',
`storyboard_id` int(11) DEFAULT 0 COMMENT '分镜ID',
`status` varchar(20) DEFAULT 'pending' COMMENT '状态',
`current_step` varchar(50) DEFAULT NULL COMMENT '当前步骤',
`context_json` longtext COMMENT '执行上下文',
`result_json` longtext COMMENT '执行结果',
`error_message` text COMMENT '错误信息',
`start_time` int(11) DEFAULT NULL,
`end_time` int(11) DEFAULT NULL,
`create_time` int(11) DEFAULT NULL,
`update_time` int(11) DEFAULT NULL,
PRIMARY KEY (`id`),
KEY `idx_workflow_id` (`workflow_id`),
KEY `idx_member_id` (`member_id`),
KEY `idx_status` (`status`)
);