2026-05-05

05月05日

一、今日完成情况

  • 动画制作remotion分镜尝试制作 [[#四、动画制作]]
  • 搭建人身模仿 tts,非常好用,我已经部署在自己的服务器上了。

二、今日感悟

  • 核心业务数据​:
  • ​今日工作总结:​
  • ​明日工作计划:
  • ​今日学习成长:​

三、备注

四、动画制作

1. Remotion 本质上要什么

Remotion 不是「一键从你给的零散文件自动生成成片逻辑」的黑盒,而是 React 代码按帧画图。所以它需要的是:

类型 常见用途 在项目里怎么用
文案 / 分镜说明 标题、卖点、时间轴 写进组件或 defaultProps,便于改一版就重新渲染
静态图 Logo、产品图、图标、背景 放在 public/,用 staticFile('…') + <Img>
视频片段 演示录屏、实拍 public/ 或 URL + <OffthreadVideo>(或官方推荐的 @remotion/media 里的 Video,视你版本而定)
音频 BGM、VO public/ + <Audio>,注意 volume / startFrom / endAt
字体 品牌字重 字体文件放 public/ 并在样式里 @font-face,或系统字体写清楚
品牌规则 色值、圆角、安全区 整理成一小段「设计 token」(颜色 hex、字号阶梯),方便 AI 写死在一处

要点: 路径要稳定、命名清晰(例如 public/product/hero.png),这样 AI 改代码不容易搞错路径。

2. 「生成」途径可以怎么理解

  • 成片逻辑(动画、转场、时长):由 Remotion 代码 + Remotion Studio / remotion render 生成;素材只是输入。
  • 素材本身
    • 你自己导出(Figma、录屏、摄影);
    • 或用别的 AI 生成 图 / 配音 / BGM,导出为 固定文件 再放进 public/,Remotion 只引用文件,不要在渲染时用非确定性 API(例如不要用 Math.random(),要用 Remotion 的 random('seed'))。

3. 跟 AI 协作时:建议你怎么「提供素材」和「提需求」

素材包(给 AI / 给项目)

建议打一个 最小素材包,例如:

public/
  brand/logo.svg
  product/screenshot-01.png
  audio/bgm.mp3
  copy.md          (可选:按镜头写的文案)

再附 一张表(Markdown 表格即可):文件名、用途、是否可裁切、有无透明底。

需求说明(给 AI 写 Remotion)

尽量结构化,避免只有一句话「做个炫酷宣传片」:

  1. 成片规格:分辨率(如 1920×1080)、帧率(常用 30)、总时长或「每个卖点大约几秒」。
  2. 结构:片头 → 痛点 → 功能 1/2/3 → CTA → 片尾 Logo(或你的实际叙事)。
  3. 每个镜头的素材:用哪张图/哪段视频、要不要字幕、有无 VO 时间点。
  4. 品牌:主色、辅色、字体、Logo 安全边距。
  5. 交付物:只要 Studio 里预览,还是要 npx remotion render 出 MP4。

这样 AI 更容易一次性把 Composition + defaultProps + Sequence/TransitionSeries 时间轴 对齐你的素材,而不是反复猜。

对 AI 的硬性提醒(和你项目里的约定一致)

  • 动画靠 useCurrentFrame + interpolate / spring,不要用 CSS @keyframes / Tailwind 动画类做主动画(官方 skill 里也强调这点)。
  • 需要随机视觉变化时用 random('固定种子'),保证每次导出一致。
  • 媒体尽量 staticFile + public/,避免硬编码本机绝对路径。

4. 实操顺序建议

  1. 先定 脚本 + 时长表(哪怕很糙)。
  2. 再准备 最终要用到的文件 放进 public/,文件名定死。
  3. 让 AI 先做一版静态构图(每屏文字、图位置对),再加动画和转场。
  4. 最后用 Studio 扫一遍时间轴,再 render

5、镜头测试

一、整体节奏规划

  • 总时长:4个镜头合计约30秒(单镜头7-8秒,适配短视频/宣传片节奏)
  • 旁白语速:采用科技宣传片标准语速,220字/分钟(≈3.7字/秒,清晰不拖沓,和画面互补而非重复)
  • 核心逻辑:画面先行传递场景情绪,旁白精准点题强化痛点,避免旁白念画面已展示的内容,二者配合提升张力。

二、分镜头「时长+文案+节奏」匹配(对应每张图片)

镜头1:对应「应急响应滞后」图片

画面核心元素:老人摔倒、烟雾报警、「50-100ms」时延箭头动效
推荐时长:8秒

时间轴 画面动效 旁白文案 Remotion字幕配置
0-2s 老人倒地、烟雾报警器红光亮起,烟雾缓缓升起 (留白,让画面情绪先传递) 无字幕,用画面铺垫紧张感
2-5s 蓝色时延箭头从左向右移动,「50-100ms」数据高亮放大 50-100ms时延,应急信号严重滞后 「50-100ms」红色高亮,随箭头移动同步出现
5-8s 箭头停在终点,背景出现「多设备信号抢占」淡影动画 无优先级保障,安全防线形同虚设 字幕淡入,和旁白同步淡出收尾

精简旁白文案(适配节奏,约35字)
50-100ms时延,应急信号严重滞后,无优先级保障,安全防线形同虚设。


镜头2:对应「家庭网络运维痛点」图片

画面核心元素:多天线路由器、人工上门/故障定位难/被动式运维三个场景
推荐时长:8秒

时间轴 画面动效 旁白文案 Remotion字幕配置
0-2s 路由器主体淡入,三个运维场景小图依次切入 传统家庭网络,运维难题频发 居中淡入小字,蓝色科技风
2-4s 「依赖人工上门」小图高亮放大 人工上门成本高,效率低 字幕随高亮同步出现
4-6s 「故障定位难」小图高亮放大 节点分散,故障排查周期长 同上,依次切换场景对应文案
6-8s 「被动式运维」小图高亮放大 无主动预警,只能被动处置 收尾字幕,和旁白同步淡出

精简旁白文案(适配节奏,约38字)
人工上门成本高,节点分散排查难,无主动预警,传统运维效率低下。


镜头3:对应「家庭影院带宽痛点」图片

画面核心元素:4K电视投屏卡顿、暂停图标、多设备信号抢占
推荐时长:7秒

时间轴 画面动效 旁白文案 Remotion字幕配置
0-2s 家庭影院场景切入,手机投屏到电视的动效,电视出现「暂停」卡顿特效 (留白,用卡顿画面传递体验) 无字幕,画面铺垫糟糕体验
2-5s 「4K」标识高亮,电视卡顿特效强化 带宽不足,4K/8K影音体验大打折扣 「4K/8K」放大高亮,随卡顿动效同步出现
5-7s 多设备信号流动画出现,带宽抢占特效 多设备并发,进一步挤压影音带宽 字幕淡入,和旁白同步淡出

精简旁白文案(适配节奏,约30字)
带宽承载力不足,4K/8K影音卡顿,多设备并发体验更差。


镜头4:对应「全屋智能生态痛点」图片

画面核心元素:协议孤岛图标、多品牌APP、全屋智能闭环缺失
推荐时长:7秒

时间轴 画面动效 旁白文案 Remotion字幕配置
0-2s 「ZigBee/蓝牙/Wi-Fi/私有协议」图标淡入,连线断裂动画 协议孤岛,设备无法互通联动 「协议孤岛」红色高亮,随断裂动效出现
2-4s 多品牌APP界面淡入,切换卡顿特效 多APP分散操作,老人孩子使用困难 字幕随APP画面同步淡入
4-7s 全屋智能闭环虚线框出现,无连线动画 无法形成生态闭环,全屋智能沦为空谈 收尾字幕,和旁白同步淡出

精简旁白文案(适配节奏,约35字)
协议孤岛、APP分散,无法形成生态闭环,全屋智能体验割裂。


三、Remotion可直接使用的.md配置格式

你可以复制下面的内容到镜头文案.md中,直接关联画面、旁白和字幕:

# 中兴产品宣传动画-痛点镜头文案(Remotion适配版)
## 全局配置
- 旁白语速:220字/分钟(可调整为210-230适配节奏)
- 单镜头时长:镜头1=8s,镜头2=8s,镜头3=7s,镜头4=7s,总时长=30s
- 字幕样式:关键数据/痛点词(如`50-100ms`、`协议孤岛`)高亮放大,其余文字淡入淡出

---

## 镜头1:应急响应痛点(对应第一张图)
[0-2s] 画面动效:老人倒地、烟雾报警亮起(无旁白,留白铺垫)
[2-5s] 旁白:50-100ms时延,应急信号严重滞后
[5-8s] 旁白:无优先级保障,安全防线形同虚设
[字幕高亮]:50-100ms、安全防线形同虚设

---

## 镜头2:运维痛点(对应第二张图)
[0-2s] 旁白:传统家庭网络,运维难题频发
[2-4s] 旁白:人工上门成本高,效率低
[4-6s] 旁白:节点分散,故障排查周期长
[6-8s] 旁白:无主动预警,只能被动处置
[字幕高亮]:人工上门、故障排查、被动处置

---

## 镜头3:影音带宽痛点(对应第三张图)
[0-2s] 画面动效:投屏卡顿、暂停图标(无旁白,留白铺垫)
[2-5s] 旁白:带宽不足,4K/8K影音体验大打折扣
[5-7s] 旁白:多设备并发,进一步挤压影音带宽
[字幕高亮]:4K/8K、多设备并发

---

## 镜头4:全屋智能痛点(对应第四张图)
[0-2s] 旁白:协议孤岛,设备无法互通联动
[2-4s] 旁白:多APP分散操作,老人孩子使用困难
[4-7s] 旁白:无法形成生态闭环,全屋智能沦为空谈
[字幕高亮]:协议孤岛、生态闭环

五、营销部分配图

Pasted image 20260505202623 Pasted image 20260505202706 Pasted image 20260505202726 Pasted image 20260505202806 Pasted image 20260505202812 Pasted image 20260505202826 Pasted image 20260505202917 Pasted image 20260505202931 Pasted image 20260505203020 Pasted image 20260505203038 Pasted image 20260505203051 Pasted image 20260505203117 Pasted image 20260505203143 Pasted image 20260505203208

六、IndexTTS2

IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech

已经打通实验室服务器到我的本地云服务器的端口映射:
http://162.14.77.140:7860/

CleanShot 2026-05-06 at 11.25.34@2x

1、说明书:

参数 当前值 核心作用 调参影响 & 实用建议
Enable GPT-2 sampling / do_sample ✅ 开启 控制是否用「随机采样」模式生成文本 ✅ 建议保持开启:关闭时模型只会选最确定的词,音频会像机器人朗读,完全没有语气变化。
temperature(温度) 0.8(0.1~2) 控制生成的「随机性 / 创造力」,是最影响自然度的参数之一 - 越低(→0):越保守,只会用常见词,语气平、易重复

- 越高(→2):越放飞,会选冷门词,可能说错字、语气怪异

✅ 推荐:0.6~1.0,你当前的 0.8 是很稳妥的区间
top_p(核采样) 0.8(0~1) 和温度配合,过滤低概率词,平衡多样性和连贯性 模型只从「累积概率达 top_p 的词」里选,避免乱用词

- 越接近 1:候选词越多,多样性越高,但易出乱词

- 越接近 0:候选词越少,结果越稳定,但易生硬

✅ 推荐:0.7~0.9,和温度搭配使用
top_k 30(0~100) 限制候选词数量,只从「概率最高的前 k 个词」里选 - k 越小:结果越固定,音频稳定但生硬

- k 越大:多样性越高,但易出错

✅ 推荐:30~50,和 top_p 二选一或配合使用
num_beams(束搜索束数) 3(1~10) 优化文本连贯性,束搜索会同时保留多个候选句子 - 数值越大:句子越连贯,但速度越慢,还容易重复

✅ 推荐:3~5,太高(>5)提升不大,只会拖慢速度
repetition_penalty(重复惩罚) 10(⚠️ 过高) 惩罚重复用词,避免反复说同样的内容 数值≥1.0,1.0 是不惩罚,越高越不允许重复

⚠️ 你当前的 10 严重过高,会导致模型刻意避开正确词,读错字、语气生硬

✅ 建议:1.1~1.3
length_penalty(长度惩罚) 0 束搜索中控制句子长度 - >0:鼓励长句子,避免提前结束

- <0:鼓励短句子,易截断

✅ 建议:保持 0 或轻微正数(0.1~0.5),避免句子被不自然截断
max_mel_tokens 1500(50~1815) 控制音频的「最大时长」,超过会被直接截断 数值越大,能生成的音频越长,但显存占用越高

✅ 1500 大概对应 1~2 分钟音频,根据你的显存和需求调整

2、右侧:文本分段设置(影响显存占用、音频连贯性和生成速度)

长文本需要拆分成多段生成,这部分就是控制分段逻辑的。

Max tokens per generation segment(每个分段的最大 token 数)

  • 当前值:312(⚠️ 超过推荐范围)

  • 作用:文本会被自动拆成多个不超过这个值的分段,逐个生成音频。

  • 调参影响:

    • 数值越大:每个分段的文本越长,句子连贯性越好,但显存占用越高、速度越慢。
    • 数值越小:显存占用低、速度快,但文本会被拆得太碎,易出现语气断裂。
  • 推荐范围:80~200,你当前的 312 可能会导致显存压力过大,甚至连贯性下降,建议调整到 128~200 之间。

「音频生成分段预览」

  • 这是文本拆分后的实时预览:#
    • Index:分段序号
    • Content:该分段的文本内容
    • Token Count:该分段的 token 数(会自动按上面的Max tokens per segment拆分)
  • 比如你当前的第 0 段 token 数是 57,远小于 312,所以会一次性生成,不会再拆分。

转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 kipleyarch@gmail.com
Archive PDF预览 PPTX Obsidian