2026-05-05

发布时间 : 2026-06-11 02:00

05月05日

05月05日

一、今日完成情况

动画制作remotion分镜尝试制作 [[#四、动画制作]]
搭建人身模仿 tts，非常好用，我已经部署在自己的服务器上了。

二、今日感悟

核心业务数据：
今日工作总结：
明日工作计划：
今日学习成长：

三、备注

四、动画制作

1. Remotion 本质上要什么

Remotion 不是「一键从你给的零散文件自动生成成片逻辑」的黑盒，而是 React 代码按帧画图。所以它需要的是：

类型	常见用途	在项目里怎么用
文案 / 分镜说明	标题、卖点、时间轴	写进组件或 `defaultProps`，便于改一版就重新渲染
静态图	Logo、产品图、图标、背景	放在 `public/`，用 `staticFile('…')` + `<Img>`
视频片段	演示录屏、实拍	`public/` 或 URL + `<OffthreadVideo>`（或官方推荐的 `@remotion/media` 里的 `Video`，视你版本而定）
音频	BGM、VO	`public/` + `<Audio>`，注意 `volume` / `startFrom` / `endAt`
字体	品牌字重	字体文件放 `public/` 并在样式里 `@font-face`，或系统字体写清楚
品牌规则	色值、圆角、安全区	整理成一小段「设计 token」（颜色 hex、字号阶梯），方便 AI 写死在一处

要点： 路径要稳定、命名清晰（例如 public/product/hero.png），这样 AI 改代码不容易搞错路径。

2. 「生成」途径可以怎么理解

成片逻辑（动画、转场、时长）：由 Remotion 代码 + Remotion Studio / remotion render 生成；素材只是输入。
素材本身：
- 你自己导出（Figma、录屏、摄影）；
- 或用别的 AI 生成 图 / 配音 / BGM，导出为 固定文件 再放进 public/，Remotion 只引用文件，不要在渲染时用非确定性 API（例如不要用 Math.random()，要用 Remotion 的 random('seed')）。

3. 跟 AI 协作时：建议你怎么「提供素材」和「提需求」

素材包（给 AI / 给项目）

建议打一个 最小素材包，例如：

public/
  brand/logo.svg
  product/screenshot-01.png
  audio/bgm.mp3
  copy.md          （可选：按镜头写的文案）

再附 一张表（Markdown 表格即可）：文件名、用途、是否可裁切、有无透明底。

需求说明（给 AI 写 Remotion）

尽量结构化，避免只有一句话「做个炫酷宣传片」：

成片规格：分辨率（如 1920×1080）、帧率（常用 30）、总时长或「每个卖点大约几秒」。
结构：片头 → 痛点 → 功能 1/2/3 → CTA → 片尾 Logo（或你的实际叙事）。
每个镜头的素材：用哪张图/哪段视频、要不要字幕、有无 VO 时间点。
品牌：主色、辅色、字体、Logo 安全边距。
交付物：只要 Studio 里预览，还是要 npx remotion render 出 MP4。

这样 AI 更容易一次性把 Composition + defaultProps + Sequence/TransitionSeries 时间轴 对齐你的素材，而不是反复猜。

对 AI 的硬性提醒（和你项目里的约定一致）

动画靠 useCurrentFrame + interpolate / spring，不要用 CSS @keyframes / Tailwind 动画类做主动画（官方 skill 里也强调这点）。
需要随机视觉变化时用 random('固定种子')，保证每次导出一致。
媒体尽量 staticFile + public/，避免硬编码本机绝对路径。

4. 实操顺序建议

先定 脚本 + 时长表（哪怕很糙）。
再准备 最终要用到的文件 放进 public/，文件名定死。
让 AI 先做一版静态构图（每屏文字、图位置对），再加动画和转场。
最后用 Studio 扫一遍时间轴，再 render。

5、镜头测试

一、整体节奏规划

总时长：4个镜头合计约30秒（单镜头7-8秒，适配短视频/宣传片节奏）
旁白语速：采用科技宣传片标准语速，220字/分钟（≈3.7字/秒，清晰不拖沓，和画面互补而非重复）
核心逻辑：画面先行传递场景情绪，旁白精准点题强化痛点，避免旁白念画面已展示的内容，二者配合提升张力。

二、分镜头「时长+文案+节奏」匹配（对应每张图片）

镜头1：对应「应急响应滞后」图片

画面核心元素：老人摔倒、烟雾报警、「50-100ms」时延箭头动效
推荐时长：8秒

时间轴	画面动效	旁白文案	Remotion字幕配置
0-2s	老人倒地、烟雾报警器红光亮起，烟雾缓缓升起	（留白，让画面情绪先传递）	无字幕，用画面铺垫紧张感
2-5s	蓝色时延箭头从左向右移动，「50-100ms」数据高亮放大	50-100ms时延，应急信号严重滞后	「50-100ms」红色高亮，随箭头移动同步出现
5-8s	箭头停在终点，背景出现「多设备信号抢占」淡影动画	无优先级保障，安全防线形同虚设	字幕淡入，和旁白同步淡出收尾

精简旁白文案（适配节奏，约35字）：
50-100ms时延，应急信号严重滞后，无优先级保障，安全防线形同虚设。

镜头2：对应「家庭网络运维痛点」图片

画面核心元素：多天线路由器、人工上门/故障定位难/被动式运维三个场景
推荐时长：8秒

时间轴	画面动效	旁白文案	Remotion字幕配置
0-2s	路由器主体淡入，三个运维场景小图依次切入	传统家庭网络，运维难题频发	居中淡入小字，蓝色科技风
2-4s	「依赖人工上门」小图高亮放大	人工上门成本高，效率低	字幕随高亮同步出现
4-6s	「故障定位难」小图高亮放大	节点分散，故障排查周期长	同上，依次切换场景对应文案
6-8s	「被动式运维」小图高亮放大	无主动预警，只能被动处置	收尾字幕，和旁白同步淡出

精简旁白文案（适配节奏，约38字）：
人工上门成本高，节点分散排查难，无主动预警，传统运维效率低下。

镜头3：对应「家庭影院带宽痛点」图片

画面核心元素：4K电视投屏卡顿、暂停图标、多设备信号抢占
推荐时长：7秒

时间轴	画面动效	旁白文案	Remotion字幕配置
0-2s	家庭影院场景切入，手机投屏到电视的动效，电视出现「暂停」卡顿特效	（留白，用卡顿画面传递体验）	无字幕，画面铺垫糟糕体验
2-5s	「4K」标识高亮，电视卡顿特效强化	带宽不足，4K/8K影音体验大打折扣	「4K/8K」放大高亮，随卡顿动效同步出现
5-7s	多设备信号流动画出现，带宽抢占特效	多设备并发，进一步挤压影音带宽	字幕淡入，和旁白同步淡出

精简旁白文案（适配节奏，约30字）：
带宽承载力不足，4K/8K影音卡顿，多设备并发体验更差。

镜头4：对应「全屋智能生态痛点」图片

画面核心元素：协议孤岛图标、多品牌APP、全屋智能闭环缺失
推荐时长：7秒

时间轴	画面动效	旁白文案	Remotion字幕配置
0-2s	「ZigBee/蓝牙/Wi-Fi/私有协议」图标淡入，连线断裂动画	协议孤岛，设备无法互通联动	「协议孤岛」红色高亮，随断裂动效出现
2-4s	多品牌APP界面淡入，切换卡顿特效	多APP分散操作，老人孩子使用困难	字幕随APP画面同步淡入
4-7s	全屋智能闭环虚线框出现，无连线动画	无法形成生态闭环，全屋智能沦为空谈	收尾字幕，和旁白同步淡出

精简旁白文案（适配节奏，约35字）：
协议孤岛、APP分散，无法形成生态闭环，全屋智能体验割裂。

三、Remotion可直接使用的.md配置格式

你可以复制下面的内容到镜头文案.md中，直接关联画面、旁白和字幕：

# 中兴产品宣传动画-痛点镜头文案（Remotion适配版）
## 全局配置
- 旁白语速：220字/分钟（可调整为210-230适配节奏）
- 单镜头时长：镜头1=8s，镜头2=8s，镜头3=7s，镜头4=7s，总时长=30s
- 字幕样式：关键数据/痛点词（如`50-100ms`、`协议孤岛`）高亮放大，其余文字淡入淡出

---

## 镜头1：应急响应痛点（对应第一张图）
[0-2s] 画面动效：老人倒地、烟雾报警亮起（无旁白，留白铺垫）
[2-5s] 旁白：50-100ms时延，应急信号严重滞后
[5-8s] 旁白：无优先级保障，安全防线形同虚设
[字幕高亮]：50-100ms、安全防线形同虚设

---

## 镜头2：运维痛点（对应第二张图）
[0-2s] 旁白：传统家庭网络，运维难题频发
[2-4s] 旁白：人工上门成本高，效率低
[4-6s] 旁白：节点分散，故障排查周期长
[6-8s] 旁白：无主动预警，只能被动处置
[字幕高亮]：人工上门、故障排查、被动处置

---

## 镜头3：影音带宽痛点（对应第三张图）
[0-2s] 画面动效：投屏卡顿、暂停图标（无旁白，留白铺垫）
[2-5s] 旁白：带宽不足，4K/8K影音体验大打折扣
[5-7s] 旁白：多设备并发，进一步挤压影音带宽
[字幕高亮]：4K/8K、多设备并发

---

## 镜头4：全屋智能痛点（对应第四张图）
[0-2s] 旁白：协议孤岛，设备无法互通联动
[2-4s] 旁白：多APP分散操作，老人孩子使用困难
[4-7s] 旁白：无法形成生态闭环，全屋智能沦为空谈
[字幕高亮]：协议孤岛、生态闭环

五、营销部分配图

六、IndexTTS2

IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech

已经打通实验室服务器到我的本地云服务器的端口映射：
http://162.14.77.140:7860/

1、说明书：

参数	当前值	核心作用	调参影响 & 实用建议
`Enable GPT-2 sampling` / `do_sample`	✅ 开启	控制是否用「随机采样」模式生成文本	✅ 建议保持开启：关闭时模型只会选最确定的词，音频会像机器人朗读，完全没有语气变化。
`temperature`（温度）	0.8（0.1~2）	控制生成的「随机性 / 创造力」，是最影响自然度的参数之一	- 越低（→0）：越保守，只会用常见词，语气平、易重复 - 越高（→2）：越放飞，会选冷门词，可能说错字、语气怪异 ✅ 推荐：`0.6~1.0`，你当前的 0.8 是很稳妥的区间
`top_p`（核采样）	0.8（0~1）	和温度配合，过滤低概率词，平衡多样性和连贯性	模型只从「累积概率达 top_p 的词」里选，避免乱用词 - 越接近 1：候选词越多，多样性越高，但易出乱词 - 越接近 0：候选词越少，结果越稳定，但易生硬 ✅ 推荐：`0.7~0.9`，和温度搭配使用
`top_k`	30（0~100）	限制候选词数量，只从「概率最高的前 k 个词」里选	- k 越小：结果越固定，音频稳定但生硬 - k 越大：多样性越高，但易出错 ✅ 推荐：`30~50`，和 top_p 二选一或配合使用
`num_beams`（束搜索束数）	3（1~10）	优化文本连贯性，束搜索会同时保留多个候选句子	- 数值越大：句子越连贯，但速度越慢，还容易重复 ✅ 推荐：`3~5`，太高（>5）提升不大，只会拖慢速度
`repetition_penalty`（重复惩罚）	10（⚠️ 过高）	惩罚重复用词，避免反复说同样的内容	数值≥1.0，1.0 是不惩罚，越高越不允许重复 ⚠️ 你当前的 10 严重过高，会导致模型刻意避开正确词，读错字、语气生硬 ✅ 建议：`1.1~1.3`
`length_penalty`（长度惩罚）	0	束搜索中控制句子长度	- >0：鼓励长句子，避免提前结束 - <0：鼓励短句子，易截断 ✅ 建议：保持 0 或轻微正数（0.1~0.5），避免句子被不自然截断
`max_mel_tokens`	1500（50~1815）	控制音频的「最大时长」，超过会被直接截断	数值越大，能生成的音频越长，但显存占用越高 ✅ 1500 大概对应 1~2 分钟音频，根据你的显存和需求调整

2、右侧：文本分段设置（影响显存占用、音频连贯性和生成速度）

长文本需要拆分成多段生成，这部分就是控制分段逻辑的。

`Max tokens per generation segment`（每个分段的最大 token 数）

当前值：312（⚠️ 超过推荐范围）
作用：文本会被自动拆成多个不超过这个值的分段，逐个生成音频。
调参影响：
- 数值越大：每个分段的文本越长，句子连贯性越好，但显存占用越高、速度越慢。
- 数值越小：显存占用低、速度快，但文本会被拆得太碎，易出现语气断裂。
推荐范围：80~200，你当前的 312 可能会导致显存压力过大，甚至连贯性下降，建议调整到 128~200 之间。

「音频生成分段预览」

这是文本拆分后的实时预览：#
- Index：分段序号
- Content：该分段的文本内容
- Token Count：该分段的 token 数（会自动按上面的Max tokens per segment拆分）
比如你当前的第 0 段 token 数是 57，远小于 312，所以会一次性生成，不会再拆分。

转载请注明来源，欢迎对文章中的引用来源进行考证，欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论，也可以邮件至 kipleyarch@gmail.com