audioミキサーの新しいMediaProcessor実装とInputStream構造体を追加

sile · sile · commit 090cb8f5d6e0 · 2025-08-19T16:42:47.000+09:00
diff --git a/src/mixer_audio.rs b/src/mixer_audio.rs
@@ -11,7 +11,9 @@ use crate::{
     },
     channel::{self, ErrorFlag},
     layout::Layout,
+    media::{MediaSample, MediaStreamId},
     metadata::SourceId,
+    processor::{MediaProcessor, MediaProcessorInput, MediaProcessorOutput, MediaProcessorSpec},
     stats::{AudioMixerStats, ProcessorStats, Seconds, SharedStats},
 };
 
@@ -216,3 +218,182 @@ impl AudioMixerThread {
         })
     }
 }
+
+#[derive(Debug, Default)]
+struct InputStream {
+    eos: bool,
+    sample_queue: VecDeque<(i16, i16)>,
+    start_timestamp: Option<Duration>,
+}
+
+#[derive(Debug)]
+pub struct AudioMixer {
+    layout: Layout,
+    input_streams: HashMap<MediaStreamId, InputStream>,
+    output_stream_id: MediaStreamId,
+    stats: AudioMixerStats,
+}
+
+impl AudioMixer {
+    pub fn new(
+        layout: Layout,
+        input_stream_ids: Vec<MediaStreamId>,
+        output_stream_id: MediaStreamId,
+    ) -> Self {
+        Self {
+            layout,
+            input_streams: input_stream_ids
+                .into_iter()
+                .map(|id| (id, InputStream::default()))
+                .collect(),
+            output_stream_id,
+            stats: AudioMixerStats::default(),
+        }
+    }
+
+    /*
+        fn next_input_timestamp(&self) -> Duration {
+            Duration::from_secs(
+                self.stats.total_output_sample_count.get()
+                    + self.stats.total_trimmed_sample_count.get(),
+            ) / SAMPLE_RATE as u32
+        }
+
+        fn next_output_timestamp(&self) -> Duration {
+            Duration::from_secs(self.stats.total_output_sample_count.get()) / SAMPLE_RATE as u32
+        }
+
+        fn fill_input_queue(
+            &mut self,
+            now: Duration,
+            input_stream_id: MediaStreamId,
+        ) -> orfail::Result<()> {
+            let input_stream = &mut self.input_streams[&input_stream_id];
+            while let Some(data) = input_rx.peek() {
+                if !self.input_sample_queues.contains_key(source_id) && now < data.timestamp {
+                    // まだ再生時刻に達していない
+                    break;
+                } else if !self.input_sample_queues.contains_key(source_id) {
+                    // 再生時刻に達した
+                    //
+                    // 以後は、データのタイムスタンプにギャップがあったとしても
+                    // 連続しているものとして扱う
+                    // (Chrome を含む多くのブラウザがこの挙動なのと、
+                    // ギャップ部分のハンドリングは Sora 側の責務であるため。
+                    // 下手に Hisui 側でハンドリングしてしまうと、ギャップが
+                    // 極端に大きいためにあえて Sora がそのまま放置した区間を
+                    // 埋めようとしてディスクやメモリを食いつぶしてしまう恐れがある)
+                    self.input_sample_queues
+                        .insert(source_id.clone(), VecDeque::new());
+                }
+
+                // サンプルキューに要素を追加する
+                //
+                // 想定外の入力が来ていないかを念のためにチェックする
+                // (format と stereo については stereo_samples() の中でチェックしている)
+                (data.sample_rate == SAMPLE_RATE).or_fail()?;
+
+                let queue = self.input_sample_queues.get_mut(source_id).or_fail()?;
+                queue.extend(data.stereo_samples().or_fail()?);
+
+                // 処理した要素を取りだす
+                let _ = input_rx.recv();
+                self.stats.total_input_audio_data_count.add(1);
+
+                if queue.len() >= MIXED_AUDIO_DATA_SAMPLES {
+                    // 次の合成処理に必要な分のサンプルは溜った
+                    break;
+                }
+            }
+            Ok(())
+        }
+
+        fn next_data(&mut self) -> orfail::Result<Option<AudioData>> {
+            let mut now = self.next_input_timestamp();
+            while self.layout.is_in_trim_span(now) {
+                self.stats
+                    .total_trimmed_sample_count
+                    .add(MIXED_AUDIO_DATA_SAMPLES as u64);
+                now = self.next_input_timestamp();
+            }
+
+            for mut input_rx in std::mem::take(&mut self.input_rxs) {
+                self.fill_input_queue(now, &mut input_rx).or_fail()?;
+                if input_rx.peek().is_some() {
+                    self.input_rxs.push(input_rx);
+                }
+            }
+
+            if self.is_eos() {
+                // 全部のソースが終端に達した
+                return Ok(None);
+            }
+
+            let (result, elapsed) = Seconds::elapsed(|| self.mix_next_audio_data().or_fail().map(Some));
+            self.stats.total_processing_seconds.add(elapsed);
+            result
+        }
+
+        fn is_eos(&self) -> bool {
+            self.input_rxs.is_empty()
+                && self
+                    .input_sample_queues
+                    .values()
+                    .all(|queue| queue.is_empty())
+        }
+
+        fn mix_next_audio_data(&mut self) -> orfail::Result<AudioData> {
+            let timestamp = self.next_output_timestamp();
+
+            let bytes_per_sample = CHANNELS as usize * 2; // i16 で表現するので *2
+            let mut mixed_samples = Vec::with_capacity(MIXED_AUDIO_DATA_SAMPLES * bytes_per_sample);
+
+            let mut filled = true; // 無音補完されたかどうか
+            for _ in 0..MIXED_AUDIO_DATA_SAMPLES {
+                let mut acc_left = 0;
+                let mut acc_right = 0;
+                for queue in self.input_sample_queues.values_mut() {
+                    let Some((left, right)) = queue.pop_front() else {
+                        continue;
+                    };
+                    acc_left += left as i32;
+                    acc_right += right as i32;
+                    filled = false;
+                }
+
+                let left = acc_left.clamp(i16::MIN as i32, i16::MAX as i32) as i16;
+                let right = acc_right.clamp(i16::MIN as i32, i16::MAX as i32) as i16;
+
+                mixed_samples.extend_from_slice(&left.to_be_bytes());
+                mixed_samples.extend_from_slice(&right.to_be_bytes());
+            }
+
+            self.stats.total_output_audio_data_count.add(1);
+            self.stats
+                .total_output_audio_data_seconds
+                .add(Seconds::new(MIXED_AUDIO_DATA_DURATION));
+            self.stats
+                .total_output_sample_count
+                .add(MIXED_AUDIO_DATA_SAMPLES as u64);
+            if filled {
+                self.stats
+                    .total_output_filled_sample_count
+                    .add(MIXED_AUDIO_DATA_SAMPLES as u64);
+            }
+
+            Ok(AudioData {
+                // 以下は固定値
+                source_id: None, // 合成後は常に None になる
+                format: AudioFormat::I16Be,
+                stereo: true, // Hisui では音声は常にステレオとして扱う
+                sample_rate: SAMPLE_RATE,
+                duration: MIXED_AUDIO_DATA_DURATION,
+                sample_entry: None, // 生データにはサンプルエントリーはない
+
+                // 以下は合成結果に応じた値
+                data: mixed_samples,
+                timestamp,
+            })
+        }
+    */
+}