05月05日
一、今日完成情况
- 动画制作remotion分镜尝试制作 [[#四、动画制作]]
- 搭建人身模仿 tts,非常好用,我已经部署在自己的服务器上了。
二、今日感悟
- 核心业务数据:
- 今日工作总结:
- 明日工作计划:
- 今日学习成长:
三、备注
- 无
四、动画制作
1. Remotion 本质上要什么
Remotion 不是「一键从你给的零散文件自动生成成片逻辑」的黑盒,而是 React 代码按帧画图。所以它需要的是:
| 类型 | 常见用途 | 在项目里怎么用 |
|---|---|---|
| 文案 / 分镜说明 | 标题、卖点、时间轴 | 写进组件或 defaultProps,便于改一版就重新渲染 |
| 静态图 | Logo、产品图、图标、背景 | 放在 public/,用 staticFile('…') + <Img> |
| 视频片段 | 演示录屏、实拍 | public/ 或 URL + <OffthreadVideo>(或官方推荐的 @remotion/media 里的 Video,视你版本而定) |
| 音频 | BGM、VO | public/ + <Audio>,注意 volume / startFrom / endAt |
| 字体 | 品牌字重 | 字体文件放 public/ 并在样式里 @font-face,或系统字体写清楚 |
| 品牌规则 | 色值、圆角、安全区 | 整理成一小段「设计 token」(颜色 hex、字号阶梯),方便 AI 写死在一处 |
要点: 路径要稳定、命名清晰(例如 public/product/hero.png),这样 AI 改代码不容易搞错路径。
2. 「生成」途径可以怎么理解
- 成片逻辑(动画、转场、时长):由 Remotion 代码 + Remotion Studio /
remotion render生成;素材只是输入。 - 素材本身:
- 你自己导出(Figma、录屏、摄影);
- 或用别的 AI 生成 图 / 配音 / BGM,导出为 固定文件 再放进
public/,Remotion 只引用文件,不要在渲染时用非确定性 API(例如不要用Math.random(),要用 Remotion 的random('seed'))。
3. 跟 AI 协作时:建议你怎么「提供素材」和「提需求」
素材包(给 AI / 给项目)
建议打一个 最小素材包,例如:
public/
brand/logo.svg
product/screenshot-01.png
audio/bgm.mp3
copy.md (可选:按镜头写的文案)
再附 一张表(Markdown 表格即可):文件名、用途、是否可裁切、有无透明底。
需求说明(给 AI 写 Remotion)
尽量结构化,避免只有一句话「做个炫酷宣传片」:
- 成片规格:分辨率(如 1920×1080)、帧率(常用 30)、总时长或「每个卖点大约几秒」。
- 结构:片头 → 痛点 → 功能 1/2/3 → CTA → 片尾 Logo(或你的实际叙事)。
- 每个镜头的素材:用哪张图/哪段视频、要不要字幕、有无 VO 时间点。
- 品牌:主色、辅色、字体、Logo 安全边距。
- 交付物:只要 Studio 里预览,还是要
npx remotion render出 MP4。
这样 AI 更容易一次性把 Composition + defaultProps + Sequence/TransitionSeries 时间轴 对齐你的素材,而不是反复猜。
对 AI 的硬性提醒(和你项目里的约定一致)
- 动画靠
useCurrentFrame+interpolate/spring,不要用 CSS@keyframes/ Tailwind 动画类做主动画(官方 skill 里也强调这点)。 - 需要随机视觉变化时用
random('固定种子'),保证每次导出一致。 - 媒体尽量
staticFile+public/,避免硬编码本机绝对路径。
4. 实操顺序建议
- 先定 脚本 + 时长表(哪怕很糙)。
- 再准备 最终要用到的文件 放进
public/,文件名定死。 - 让 AI 先做一版静态构图(每屏文字、图位置对),再加动画和转场。
- 最后用 Studio 扫一遍时间轴,再
render。
5、镜头测试
一、整体节奏规划
- 总时长:4个镜头合计约30秒(单镜头7-8秒,适配短视频/宣传片节奏)
- 旁白语速:采用科技宣传片标准语速,220字/分钟(≈3.7字/秒,清晰不拖沓,和画面互补而非重复)
- 核心逻辑:画面先行传递场景情绪,旁白精准点题强化痛点,避免旁白念画面已展示的内容,二者配合提升张力。
二、分镜头「时长+文案+节奏」匹配(对应每张图片)
镜头1:对应「应急响应滞后」图片
画面核心元素:老人摔倒、烟雾报警、「50-100ms」时延箭头动效
推荐时长:8秒
| 时间轴 | 画面动效 | 旁白文案 | Remotion字幕配置 |
|---|---|---|---|
| 0-2s | 老人倒地、烟雾报警器红光亮起,烟雾缓缓升起 | (留白,让画面情绪先传递) | 无字幕,用画面铺垫紧张感 |
| 2-5s | 蓝色时延箭头从左向右移动,「50-100ms」数据高亮放大 | 50-100ms时延,应急信号严重滞后 | 「50-100ms」红色高亮,随箭头移动同步出现 |
| 5-8s | 箭头停在终点,背景出现「多设备信号抢占」淡影动画 | 无优先级保障,安全防线形同虚设 | 字幕淡入,和旁白同步淡出收尾 |
精简旁白文案(适配节奏,约35字):50-100ms时延,应急信号严重滞后,无优先级保障,安全防线形同虚设。
镜头2:对应「家庭网络运维痛点」图片
画面核心元素:多天线路由器、人工上门/故障定位难/被动式运维三个场景
推荐时长:8秒
| 时间轴 | 画面动效 | 旁白文案 | Remotion字幕配置 |
|---|---|---|---|
| 0-2s | 路由器主体淡入,三个运维场景小图依次切入 | 传统家庭网络,运维难题频发 | 居中淡入小字,蓝色科技风 |
| 2-4s | 「依赖人工上门」小图高亮放大 | 人工上门成本高,效率低 | 字幕随高亮同步出现 |
| 4-6s | 「故障定位难」小图高亮放大 | 节点分散,故障排查周期长 | 同上,依次切换场景对应文案 |
| 6-8s | 「被动式运维」小图高亮放大 | 无主动预警,只能被动处置 | 收尾字幕,和旁白同步淡出 |
精简旁白文案(适配节奏,约38字):人工上门成本高,节点分散排查难,无主动预警,传统运维效率低下。
镜头3:对应「家庭影院带宽痛点」图片
画面核心元素:4K电视投屏卡顿、暂停图标、多设备信号抢占
推荐时长:7秒
| 时间轴 | 画面动效 | 旁白文案 | Remotion字幕配置 |
|---|---|---|---|
| 0-2s | 家庭影院场景切入,手机投屏到电视的动效,电视出现「暂停」卡顿特效 | (留白,用卡顿画面传递体验) | 无字幕,画面铺垫糟糕体验 |
| 2-5s | 「4K」标识高亮,电视卡顿特效强化 | 带宽不足,4K/8K影音体验大打折扣 | 「4K/8K」放大高亮,随卡顿动效同步出现 |
| 5-7s | 多设备信号流动画出现,带宽抢占特效 | 多设备并发,进一步挤压影音带宽 | 字幕淡入,和旁白同步淡出 |
精简旁白文案(适配节奏,约30字):带宽承载力不足,4K/8K影音卡顿,多设备并发体验更差。
镜头4:对应「全屋智能生态痛点」图片
画面核心元素:协议孤岛图标、多品牌APP、全屋智能闭环缺失
推荐时长:7秒
| 时间轴 | 画面动效 | 旁白文案 | Remotion字幕配置 |
|---|---|---|---|
| 0-2s | 「ZigBee/蓝牙/Wi-Fi/私有协议」图标淡入,连线断裂动画 | 协议孤岛,设备无法互通联动 | 「协议孤岛」红色高亮,随断裂动效出现 |
| 2-4s | 多品牌APP界面淡入,切换卡顿特效 | 多APP分散操作,老人孩子使用困难 | 字幕随APP画面同步淡入 |
| 4-7s | 全屋智能闭环虚线框出现,无连线动画 | 无法形成生态闭环,全屋智能沦为空谈 | 收尾字幕,和旁白同步淡出 |
精简旁白文案(适配节奏,约35字):协议孤岛、APP分散,无法形成生态闭环,全屋智能体验割裂。
三、Remotion可直接使用的.md配置格式
你可以复制下面的内容到镜头文案.md中,直接关联画面、旁白和字幕:
# 中兴产品宣传动画-痛点镜头文案(Remotion适配版)
## 全局配置
- 旁白语速:220字/分钟(可调整为210-230适配节奏)
- 单镜头时长:镜头1=8s,镜头2=8s,镜头3=7s,镜头4=7s,总时长=30s
- 字幕样式:关键数据/痛点词(如`50-100ms`、`协议孤岛`)高亮放大,其余文字淡入淡出
---
## 镜头1:应急响应痛点(对应第一张图)
[0-2s] 画面动效:老人倒地、烟雾报警亮起(无旁白,留白铺垫)
[2-5s] 旁白:50-100ms时延,应急信号严重滞后
[5-8s] 旁白:无优先级保障,安全防线形同虚设
[字幕高亮]:50-100ms、安全防线形同虚设
---
## 镜头2:运维痛点(对应第二张图)
[0-2s] 旁白:传统家庭网络,运维难题频发
[2-4s] 旁白:人工上门成本高,效率低
[4-6s] 旁白:节点分散,故障排查周期长
[6-8s] 旁白:无主动预警,只能被动处置
[字幕高亮]:人工上门、故障排查、被动处置
---
## 镜头3:影音带宽痛点(对应第三张图)
[0-2s] 画面动效:投屏卡顿、暂停图标(无旁白,留白铺垫)
[2-5s] 旁白:带宽不足,4K/8K影音体验大打折扣
[5-7s] 旁白:多设备并发,进一步挤压影音带宽
[字幕高亮]:4K/8K、多设备并发
---
## 镜头4:全屋智能痛点(对应第四张图)
[0-2s] 旁白:协议孤岛,设备无法互通联动
[2-4s] 旁白:多APP分散操作,老人孩子使用困难
[4-7s] 旁白:无法形成生态闭环,全屋智能沦为空谈
[字幕高亮]:协议孤岛、生态闭环
五、营销部分配图
六、IndexTTS2
IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech
已经打通实验室服务器到我的本地云服务器的端口映射:
http://162.14.77.140:7860/
1、说明书:
| 参数 | 当前值 | 核心作用 | 调参影响 & 实用建议 |
|---|---|---|---|
Enable GPT-2 sampling / do_sample |
✅ 开启 | 控制是否用「随机采样」模式生成文本 | ✅ 建议保持开启:关闭时模型只会选最确定的词,音频会像机器人朗读,完全没有语气变化。 |
temperature(温度) |
0.8(0.1~2) | 控制生成的「随机性 / 创造力」,是最影响自然度的参数之一 | - 越低(→0):越保守,只会用常见词,语气平、易重复 - 越高(→2):越放飞,会选冷门词,可能说错字、语气怪异 ✅ 推荐: 0.6~1.0,你当前的 0.8 是很稳妥的区间 |
top_p(核采样) |
0.8(0~1) | 和温度配合,过滤低概率词,平衡多样性和连贯性 | 模型只从「累积概率达 top_p 的词」里选,避免乱用词 - 越接近 1:候选词越多,多样性越高,但易出乱词 - 越接近 0:候选词越少,结果越稳定,但易生硬 ✅ 推荐: 0.7~0.9,和温度搭配使用 |
top_k |
30(0~100) | 限制候选词数量,只从「概率最高的前 k 个词」里选 | - k 越小:结果越固定,音频稳定但生硬 - k 越大:多样性越高,但易出错 ✅ 推荐: 30~50,和 top_p 二选一或配合使用 |
num_beams(束搜索束数) |
3(1~10) | 优化文本连贯性,束搜索会同时保留多个候选句子 | - 数值越大:句子越连贯,但速度越慢,还容易重复 ✅ 推荐: 3~5,太高(>5)提升不大,只会拖慢速度 |
repetition_penalty(重复惩罚) |
10(⚠️ 过高) | 惩罚重复用词,避免反复说同样的内容 | 数值≥1.0,1.0 是不惩罚,越高越不允许重复 ⚠️ 你当前的 10 严重过高,会导致模型刻意避开正确词,读错字、语气生硬 ✅ 建议: 1.1~1.3 |
length_penalty(长度惩罚) |
0 | 束搜索中控制句子长度 | - >0:鼓励长句子,避免提前结束 - <0:鼓励短句子,易截断 ✅ 建议:保持 0 或轻微正数(0.1~0.5),避免句子被不自然截断 |
max_mel_tokens |
1500(50~1815) | 控制音频的「最大时长」,超过会被直接截断 | 数值越大,能生成的音频越长,但显存占用越高 ✅ 1500 大概对应 1~2 分钟音频,根据你的显存和需求调整 |
2、右侧:文本分段设置(影响显存占用、音频连贯性和生成速度)
长文本需要拆分成多段生成,这部分就是控制分段逻辑的。
Max tokens per generation segment(每个分段的最大 token 数)
当前值:312(⚠️ 超过推荐范围)
作用:文本会被自动拆成多个不超过这个值的分段,逐个生成音频。
调参影响:
- 数值越大:每个分段的文本越长,句子连贯性越好,但显存占用越高、速度越慢。
- 数值越小:显存占用低、速度快,但文本会被拆得太碎,易出现语气断裂。
推荐范围:
80~200,你当前的 312 可能会导致显存压力过大,甚至连贯性下降,建议调整到 128~200 之间。
「音频生成分段预览」
- 这是文本拆分后的实时预览:#
Index:分段序号Content:该分段的文本内容Token Count:该分段的 token 数(会自动按上面的Max tokens per segment拆分)
- 比如你当前的第 0 段 token 数是 57,远小于 312,所以会一次性生成,不会再拆分。
转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 kipleyarch@gmail.com