视觉风格与 Hooks 系统
本文档详细介绍 PyBridge 和 Smart Optimize 中引入的全新视觉风格系统与 Diverse Hook 生成器。
1. 视觉风格 (Visual Styles)
为了增强生成视频的多样性和视觉冲击力,我们在 Prompt Engineering 层面集成了多种独特的视觉风格。这些风格通过后端 AdminUnified.php 逻辑注入,并在 pybridge 的 FFmpeg 渲染中得到支持。
1.1 Universe (宇宙风格)
- ID:
6 - Icon:
icon-earth - Tone:
Universe Starry Sky - Prompt Suffix:
"High-definition documentary, deep space background, starburst highlights, 8K ultra-HD, HDR10, high dynamic range, cinematic lens quality."
- 适用场景: 科幻、宇宙探索、宏大叙事类视频。
1.2 MiHoYo (米哈游风格)
- ID:
5 - Tone:
MiHoYo (米哈游) - Prompt Suffix:
"High-quality anime style similar to Genshin Impact/Honkai Star Rail, vibrant colors, detailed cel shading, fantasy aesthetics, high saturation, clean lines."
- 适用场景: 二次元、游戏解说、奇幻故事。
1.3 Korean Manhwa 3D (韩漫 3D)
- ID:
4 - Tone:
Korean Manhwa 3D - 特点: 结合韩漫的夸张构图与 3D 的光影质感。
1.4 Chiaroscuro (明暗对比)
- Tone:
Chiaroscuro(明暗对比) - Prompt Suffix: 强调强烈的光影对比,营造戏剧性和立体感。
2. Smart Optimize 后端逻辑
后端 AdminUnified.php 实现了智能优化逻辑,确保生成的 Prompt 符合视频制作的最佳实践:
- Motion Constraint (运镜约束):
- 当检测到
fast_zoom_in运镜指令时,自动注入[Motion Constraint]提示词,强制 Shot 02 减速并保持向前推进的动势,避免镜头切换突兀。
- 当检测到
- Visual Imagery (视觉意象):
- 针对抽象话题(如哲学、心理学),自动注入具体的视觉意象(如“飞行的时钟”、“破碎的镜子”),解决画面空洞问题。
- Token Denoising (Token 降噪):
- 使用
[Core Topic]:格式明确核心主题,并指示 LLM 多使用代词指代,减少重复名词造成的画面闪烁。
- 使用
3. Diverse Hook 生成器
pybridge 的 ffmpeg_runner.py 集成了 DiverseHookGenerator,支持多种开场 Hook 样式,提升视频前 3 秒的完播率。
3.1 Hook 样式
- Grid (四宫格):
- 画面分割为 2x2 网格,同时展示 4 个关键画面,快速交代背景。
- PIP (画中画):
- 主画面作为背景(模糊处理),前景小窗播放关键内容,突出焦点。
- Slider (滑动):
- 画面左右或上下滑动切换,增加动态感。
- Sequential (默认):
- 传统的线性剪辑方式。
3.2 实现原理
后端在生成分镜时,通过 hookDisplayStyle 参数指定 Hook 类型。ffmpeg_runner.py 读取该参数,调用 DiverseHookGenerator 类生成对应的 FFmpeg 滤镜链(Filter Complex),实现复杂的画面布局与动画效果。