Map 阶段详细问题清单

创建时间: 2025-01-30 目的: 厘清 Map 阶段的所有细节逻辑

1. Atomic Block 的结构

问题 1.1：Head、Body、Tail 的视觉呈现

一个 Atomic Block 输出后，播放时观众看到的是什么？回答：看到的是画面显示为先播放背景画面，然后目标片段渐入背景画面，在目标片段结束时淡出重新显示背景画面，然后结束

中间块的播放顺序：

时间轴: 0s ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 9.3s
        [   Head   ] [       Body       ] [ Tail ]
        4.3s         5s                   0.5s

Head 部分（0-4.3s）

视频轨道：背景画面？正片画面？两者叠加？
回答：head（转场音频段的纯背景+正片淡入时的背景叠加）
如果叠加，谁在上谁在下？正片的透明度如何？
回答：叠加时背景永远在下，正片的透明度按设置的淡入时长随淡入曲线变化直至100%不透明
正片是从 0 秒开始淡入吗？
回答：转场音频段结束后正片开始淡入

Body 部分（4.3-8.8s）

视频轨道：纯正片？还是有背景？
回答：纯正片，这个部分逻辑上背景被正片覆盖，实际处理是不涉及背景的
正片是否完全填充（letterbox）？
回答：正片尝试完全填充，如果无法完全填充就继续在下层填充虚化正片

Tail 部分（8.8-9.3s）

视频轨道：正片淡出？淡出到什么？
回答：正片按设置的淡出时长进行淡出，淡出时才显现出逻辑上存在的背景画面，淡出到0非透明度时该原子块结束
淡出后露出的是什么？背景？黑屏？下一段的背景？
回答：淡出后漏出的是逻辑上总拼接视频时长背景循环播放时该时间戳的背景画面

2. 输入视频的裁剪

问题 2.1：clip.start 和 clip.end 的含义

假设用户在卡片上标记了原始视频的 30-35 秒：

B站视频

// generator.cjs:3464 下载时
await downloadBilibiliVideo(card, inputPath, progress, cardStart, cardEnd);
//                                              30        35

// 下载后的文件是什么？
// [ ] A. 完整的原始视频（120秒），标记 30-35
// [ ] B. 已经裁剪好的 30-35 秒片段（5秒）
回答：B

// 如果是 B，那么：
clip.path = 'BV_xxx_30-35.mp4'
clip.start = ?  // 是 0 还是 30？
clip.end = ?   // 是 5 还是 35？

回答：命名规则我不关心你可以放弃已有的缓存进行重构

本地视频

clip.path = "C:/Videos/dance.mp4"; // 完整的 120 秒视频
clip.start = 30; // 用户标记的起始点
clip.end = 35; // 用户标记的结束点

问题 2.2：FFmpeg 输入裁剪

// Map Worker 收到的 clip 信息：
// { path: '...', start: ?, end: ? }

// 如何裁剪输入？
// [ ] 方案 A: args: ['-ss', clip.start, '-t', clip.end - clip.start, '-i', clip.path]
// [ ] 方案 B: args: ['-i', clip.path, '-ss', clip.start, '-t', clip.end - clip.start]

// 哪个正确？
回答：使用这个方案
// Map Worker 参数构造逻辑

const args = [
  // 1. 快速定位 (Input Seeking)
  // 直接跳到 start 时间点。现代 FFmpeg 的 Input Seeking 已经非常精准。
  // 注意：Input Seeking 后，视频的时间戳会被重置为 0。
  '-ss', clip.start,

  // 2. 输入文件
  '-i', clip.path,

  // ... 其他输入 (背景, 音频等) ...

  // 3. 滤镜复杂链 (在滤镜里控制结束时间)
  '-filter_complex',
  `[0:v]fps=30,trim=duration=${clip.end - clip.start},setpts=PTS-STARTPTS[v_body]...`
];

3. 如果非要用 -t (时长限制)
如果你不想在滤镜里写 trim，想直接通过参数控制时长：

修正后的方案 A (Input Seeking + Duration):

JavaScript
const duration = clip.end - clip.start;

const args = [
  '-ss', clip.start,  // 先跳
  '-t', duration,     // 再规定只读多少时长
  '-i', clip.path     // 输入文件
  // ...
];
⚠️ 注意事项： 当 -ss 放在 -i 之前时，-t 指定的是 “截取出来的片段时长” (Duration)，而不是“结束时间点”。

如果 clip 是 10s ~ 15s。

ss = 10

t = 5 (15-10) (正确)

t = 15 (错误，这会截取 10s~25s)

3. Body 部分的处理

问题 3.1：Body 的裁剪

输入是 5 秒视频（0-5s），Body 要使用其中多少？

// 当前实现：
const bodyEnd = (5 - 0.5).toFixed(2);  // = 4.50
trim=0:4.50  // Body 使用 0-4.5 秒

// 问题：
// [ ] 为什么不是使用完整的 5 秒？
回答：body显示的时长=length_body-length.head-length.tail（head，tail，分别指淡入淡出的时长）
// [ ] Tail 的 0.5 秒是从哪里来的？是 Body 的最后 0.5 秒吗？
回答：head，tail，分别指淡入淡出的时长，这两部分会应用淡入淡出滤镜与背景画面重叠

问题 3.2：Body 的显示

// Body 使用 SCALE_AND_PAD（letterbox）
// 播放时观众看到的是：
// [ ] A. 正片在中间，四周有黑边
// [ ] B. 正片填充整个画面（变形）
// [ ] C. 正片填充中间部分，背景视频在四周
回答：16:9的视频直接填充屏幕，非16:9的尽可能填充，无法填充的部分用虚化背景填充，确保最后的画面比是16:9（head和tail也使用相同的放缩填充方法）

4. Tail 部分的处理

问题 4.1：Tail 的来源

// Tail 是从哪里来的？
const tailStart = (5 - 0.5).toFixed(2);  // = 4.50
trim=start=4.50:5.00  // Tail 使用 4.5-5 秒

// 问题：
// [ ] Tail 是 Body 的最后 0.5 秒吗？
tail指的是body的结尾段，时长由设置的淡出时长决定
// [ ] 那为什么需要 split？直接用不行吗？
split的原因是，预期情况body部分是完全覆盖屏幕的背景画面不需要去计算渲染，所以把body部分区分出来，只让head和tail设计淡入淡出的部分去和背景叠加进行渲染

问题 4.2：Tail 的效果

回答：本段问题参考上述回答

// Tail 淡出：
format=yuva420p,fade=t=out:st=0:d=0.5:alpha=1

// 这段代码的意图是：
// [ ] A. 从 0 秒开始，在 0.5 秒内淡出到完全透明
// [ ] B. 淡出后，alpha=0 的部分会露出下面的内容

// 问题：淡出后露出的是什么？
// [ ] A. 下一块的 Head 背景（通过 overlay）
// [ ] B. 黑色背景
// [ ] C. MPEG-TS 不支持 alpha，所以是黑色

问题 4.3：Look-Ahead Background 的目的

// 为什么 Tail 需要 overlay 到下一个块的背景？
const tailBgSeek = nextTask
  ? nextTask.backgroundSeeks.head
  : backgroundSeeks.tail;

回答：本质是要在节省不必要的渲染的情况下，模拟最底图层的背景视频一直在循环播放的效果

// 这样做的视觉效果是什么？
// [ ] A. 当前块的正片淡出，同时露出下一段的背景画面？
// [ ] B. 为下一段的转场做准备？
回答：就是模拟最底图层一直在循环播放背景视频，模拟当淡出的时候背景视频就随之显现出来了

// 如果是为了淡出后露出背景，为什么不直接用当前块的背景？
回答：背景不是以块为区分的，从始至终就只有一个背景视频，唯一区分的是最终的拼接视频中当前块的时间戳在循环播放的背景视频中对应的逻辑时间戳

5. Head 部分的处理

问题 5.1：Head 的构成

// Head 部分（4.3 秒）播放时：
// [ ] A. 纯背景画面（没有正片）
// [ ] B. 背景画面 + 正片淡入
// [ ] C. 背景画面 + 转场动画
B
回答：注意转场动画已经被废弃了，现在只支持转场音频（需要在选择转场音频时进一步限制选择的文件格式）

// 如果是 B 或 C：
// - 正片从哪里开始？Body 的开头？上一段的结尾？
head的划分由转场部分和body的淡入部分组成，转场部分的长度为转场音频的长度，画面填充对应的背景画面，淡入部分为正片的淡入部分与背景的叠加画面的渲染
// - 正片如何淡入？fade=in:st=0:d=?
回答：
淡入时长会配置的淡入时长

Map 架构中，由于正片（Body）是经过 trim 和 setpts=PTS-STARTPTS 处理的独立流，它的时间轴已经被重置为 0 了。

所以，无论这段视频原本在源文件的第几分钟，对于 Body 这个片段来说，它的淡入开始时间永远是： st=0

1. 标准命令写法
如果你想让正片在出现时有一个 0.5秒 的淡入（从黑屏变亮）：

Bash
# 放在 scale 和 setpts 之后
fade=t=in:st=0:d=0.5
2. ⚠️ 必须警惕的“黑场陷阱”
在你的 Head -> Body -> Tail 拼接结构中，如果你直接给 Body 加 fade=in，视觉效果会是：

Head: 播放转场背景（比如星空）。

Body (前0.5s): 全黑（因为 fade 默认是从黑色开始淡入）。

Body (0.5s后): 正常跳舞画面。

这种“闪黑”通常会打断视觉流畅度。

3. 如何实现“高级淡入” (透出背景)？
如果你希望的效果是：转场背景还在，舞蹈画面像幽灵一样慢慢浮现出来（Crossfade）。

这不能在 Body 里做，这必须在 Head（头部）里做。

这需要你把“三段式”架构升级为对称结构（Head 和 Tail 逻辑对称）：

Tail: 正片淡出 + 叠加 下一个 背景。（你已经实现了）

Head: 正片淡入 + 叠加 当前 背景。（这是对称的逻辑）

Head 部分的 FFmpeg 逻辑升级：
你需要从正片（Main Clip）里切出 “头 1 秒”，把它叠在转场背景上。

Bash
/* 假设 Head 长度 2秒，正片淡入 1秒 */

/* 1. 准备转场背景 (2s) */
[0:v]trim=0:2,setpts=PTS-STARTPTS...[v_head_bg];

/* 2. 准备正片头部 (取前2s，用于跟背景融合) */
[2:v]trim=0:2,setpts=PTS-STARTPTS...format=yuva420p, \
     fade=t=in:st=1:d=1:alpha=1 [v_head_clip];
     /* 注意：st=1 表示背景先独奏1秒，第1秒开始淡入正片 */

/* 3. 叠加 */
[v_head_bg][v_head_clip]overlay[v_head_merged];

/* 4. Body 部分 (从第2秒开始切) */
[2:v]trim=2:9...[v_body];

问题 5.2：Head 的背景 seek

// 第一个块：
headSeek = 0; // 从背景视频的 0 秒开始

// 第二个块：
headSeek = 第一个块的输出时长; // 9.3 秒

// 这样做是为了：
// [ ] A. 让背景连续播放？
// [ ] B. 还是让背景随时间推进？
回答是为了模拟背景一直在底层播放

// 背景视频是什么？
// [ ] A. 一段很长的背景音乐视频（5 分钟）？
// [ ] B. 循环播放的短背景？
B（有可能是长视频，但处理逻辑都是一样的）

6. 拼接后的效果

问题 6.1：三个块拼接后的时间轴

Block 0: [Head 4.3s][Body 5s][Tail 0.5s]  = 9.3s
Block 1: [Head 4.3s][Body 5s][Tail 0.5s]  = 9.3s
Block 2: [Body 5s][Tail 0.5s]             = 5.5s

拼接后: [H0][B0][T0][H1][B1][T1][B2][T2]

问题：
1. [ ] T0 和 H1 之间有重叠吗？(0.5s Tail vs 4.3s Head)
回答：没有重叠
2. [ ] 如果有重叠，拼接后是 9.3 + 9.3 + 5.5，还是有其他计算？
3. [ ] 观众看到 T0 结尾时，会看到 H1 的开始吗？
回答：T0结束衔接H1的开始

！！！注意你的block2是错误的，所有的block都是由 head + body + tail

问题 6.2：淡入淡出的时机

Block 0:
- Head (0-4.3s): ???
- Body (4.3-8.8s): 正片正常播放
- Tail (8.8-9.3s): 正片淡出

Block 1:
- Head (9.3-13.6s): ???
- Body (13.6-18.1s): 正片正常播放
- Tail (18.1-18.6s): 正片淡出

问题：
1. [ ] Block 0 的 Head 需要淡入吗？（第一个片段）
2. [ ] Block 1 的 Head 需要淡入吗？
3. [ ] Block 1 的 Head 从哪里淡入？从黑屏？从 Block 0 的结尾？

3个小问统一回答：所有的block都由head+body+tail祖册会给你，head中在转场部分结束后都是正片的淡入部分

7. 音频处理

问题 7.1：转场音频

// 转场音频（transition.wav）是：
// [ ] A. 一段音效（whoosh、swish 等）？
// [ ] B. 背景音乐的一部分？
// [ ] C. 正片音频的淡入淡出？
回答：配置中选择的音频文件

// 在 Head 部分（4.3s）：
// - 背景视频有音频吗？
// - 转场音频如何使用？
// - 正片音频从什么时候开始？

回答：Head的组成：【背景画面|转场音频】+【正片的淡入叠加背景画面|正片的淡入音频】

问题 7.2：音频的拼接

// 当前实现：
[head_a][body_a][tail_a]concat=n=3[aout]

// 问题：
// - head_a 是从哪里来的？转场音频？
回答：head_a由两部分拼接组成：转场音频+正片淡入区间的音频（淡入的音频也要应用淡入）
// - body_a 是正片的音频吗？
回答：body_a是正片裁去头部的淡入和尾部的淡出部分的音频
// - tail_a 的淡出和视频的淡出同步吗？
回答：tail_a是正片的淡出部分的音频（淡出的音频也要应用淡出）

8. 第一个块和最后一个块

问题 8.1：第一个块的特殊处理

// 当前代码：
if (task.index === 0) {
  filterParts.push(`[body_v_scaled]...,fade=t=in:st=0:d=0.5[...]`);
}

// 问题：
// [ ] 第一个块的 Body 需要淡入？
// [ ] 那第一个块的 Head 呢？Head 淡入吗？
第一个块的处理和其他块一样，不做特殊处理

问题 8.2：最后一个块的特殊处理

// 最后一个块没有 Head
// 为什么？
// [ ] A. 最后不需要转场
// [ ] B. 最后一段直接结束

// 最后一个块的 Tail：
// - 叠加到黑色背景？
// - 还是叠加到自身的背景？

回答：最后一个块没有head是错误的，所以的块的处理都是相同的，不同的只有拼接顺序已经对应的背景的时间戳

9. 关键概念确认

问题 9.1：转场（Transition）的定义

"转场" 在这个项目中指的是：
[ ] A. 从一个舞蹈片段切换到另一个片段的过渡效果
[ ] B. 背景视频的切换
[ ] C. 两者都有

转场时长（4.3s）是如何确定的？

回答：转场就是一个正片结束，重新显现出背景画面并播放转场的音频，结束后淡入下一个正片

问题 9.2：Atomic Block 的自包含性

"自包含" 意味着：
[√ ] A. 每个 Block 包含了所有编码，Reduce 只是流复制
[√] B. 每个 Block 的视频和音频都已经是最终格式
[ ] C. Block 之间没有依赖关系（除了 look-ahead background）
如果有 look-ahead，那还是"自包含"吗？

纠正C：look-ahead background是各自根据排序和前面所有片段的时长和转场时长计算出的背景的循环播放的逻辑时间戳，也就是一开始就根据拼接表计算确定了，没有强依赖前block

问题 9.3：输出时长的计算

// 当前计算：
const outputDur = headDur + bodyDur + tailDur - overlapDur;

// 对于 5 秒视频的中间块：
headDur = 4.3
bodyDur = 5
tailDur = 0.5
overlapDur = 0.5
outputDur = 4.3 + 5 + 0.5 - 0.5 = 9.3

// 问题：
// [ ] overlap 是什么？为什么是 0.5？

// [ ] 这 0.5 秒是被"吞噬"了？还是不重复计算？
单独计算overlap是错误的理解，overlap实质是分出正片的淡入和淡出片段与背景进行渲染，其中淡入的渲染结果与转场拼接组成head，淡出就是tail

10. 实际效果描述

问题 10.1：请描述最终视频的播放效果

假设有 3 个片段，每个 5 秒：

片段1: 30-35s  "舞蹈A"
片段2: 20-25s  "舞蹈B"
片段3: 40-45s  "舞蹈C"

背景视频: 120s 的风景视频

请描述观众看到的效果：

观众看到的就是：
1.背景的风景视频好像一直在播放
2.ABC的视频画面依次浮现在背景画面上，效果是A结束后画面淡去重新浮现出背景视频的画面，并播放完B的转场音频后B的画面浮现而出

时间 0-4.3s:

画面：?
音频：?

时间 4.3-9.3s:

画面：?
音频：?

时间 9.3-13.6s:

画面：?
音频：?

时间 13.6-18.6s:

画面：?
音频：?

... 以此类推

11. 与原实现的对比

问题 11.1：原 Map-Reduce vs 新 Map-Reduce

原实现的问题是什么？
[ ] A. 性能慢
[ ] B. 逻辑混乱
[ ] C. 效果不对
[ ] D. 其他
ABC

新实现要解决的核心问题是：
[ ] A. 速度提升（3-5x）
[ ] B. 效果改进（平滑转场）
[ ] C. 代码清晰度
[ ] D. 其他
ABCD```

---

## 回答说明

请在相应的问题后面填写你的答案：

- **选择题**: 在正确的选项前打勾 `[x]`
- **填空题**: 直接填写
- **代码题**: 提供代码示例
- **描述题**: 详细描述效果

---

_文档创建时间: 2025-01-30_
_状态: ⏳ 等待回答_

FilesExpand file tree

MAP_PHASE_QA.md

Latest commit

History