最近ずっと開発を続けているApple Silicon専用AI話者分離・文字起こしアプリ「FFTrans」ですが、最新の文字起こしエンジン「parakeet_mlx」を搭載した「FFTrans Parakeet」をリリースしました。
これまでのmlx-whisperと比べると以下の特徴があります。
・文字起こし速度が異様に速い
・多言語対応はまだ道半ば
まずは文字起こし速度ですが、アプリ全体としては動画からの音声抽出や分割、そして話者分離もあるのでそのままとはいきませんが、文字起こしエンジン単独なら6分の音声をなんと6秒で文字起こししてしまいます。
mlx-whisperも10倍速くらいは出ますが、さすがにこの差はすごいです。
アプリトータルでの処理でも、70分の動画を4分強(従来:12分程度)、6分の動画は30秒で話者分離を含めた文字起こしが完了します。(Mac Studio M2 Maxで計測)
精度に関しても同等以上という評価もありますが、私が検証した感じでは英語専用のparakeet-tdt-0.6b-v2ならやや劣るくらいです。
今回のアプリではさらに新しいparakeet-tdt-0.6b-v3を使っていますので、精度はほぼ同等になっています。
ただ、英語とヨーロッパ系言語、合わせて25言語に対応してるせいもあって、話者がネイティブじゃなかったり、発音が悪いとドイツ語やキリル文字が混じったりする傾向が結構ありますが。
AppleイベントでのAirPods Pro 3を使ったライブ翻訳の様子あたりはポルトガル語と翻訳された英語がちゃんと出ていて、多言語対応のメリットがちゃんと出ていますけどね。
143
00:08:06,908 –> 00:08:07,580
Speaker 1: Com certeza.144
00:08:07,580 –> 00:08:09,262
Speaker 1: O cliente vai adorar ver isso.145
00:08:09,262 –> 00:08:09,878
Air Pods: Definitely.146
00:08:10,266 –> 00:08:11,717
Air Pods: The client will love that.
なお、日本語対応モデルのmlx-community/parakeet-tdt_ctc-0.6b-jaもありますが、こちらは句読点がおかしかったり、ひらがな率が高めだったりとまだちょっと実用には厳しい部分があり、現時点では見送っています。
そちらはカスタム辞書や句読点補完機能を装備し、mlx-whiperを使った有料版のFFTrans Proをご利用いただく形です。
ただ、FFTrans Parakeetは商用利用も含め、完全無料で制限も一切ありません。
以下の機能がフルで制限なく使えます。
・話者分離と話者特徴量保存による次回以降の自動名前設定
・3種類のハルシネーション除外フィルター
・FFmpeg排除によるダウンサンプリング精度の向上
・Entitlemetsによるアプリのネットワークアクセス完全遮断
メモリ管理ではだいぶ苦労しましたが、parakeet_mlxの開発者さんからの情報のおかげで、metal memory APIを活用することでメモリ消費と処理速度のバランスを取っています。
実際、Mac mini M1やMacBook Air M3の8GBメモリでも動作してくれます。
速度はMac Studio M2 Maxで30秒ほどで文字起こしできる動画がMacBook Air M3では50秒程度、Mac mini M1では1分20秒かかりますが、メモリ消費はM1ではGPUのコアが少ないからか6GBくらいのメモリ消費で動作します。
さらに文字起こしをスレッド処理からプロセス処理に変更したので、終了時にプロセスごと終了させ、確実にメモリを解放しています。
これにより、TimeMachine稼働中に70分の動画を文字起こししても安定して動作しますし、最新のmacOS 26 Tahoeでも動作確認済みです。
ちなみに前回、体験版とProとの性能差が大き過ぎて廃止しましたが、無料版のFFTrans Freeも同じ状態になってしまいました。
そこでFFTrans Freeも今月いっぱいで廃止することにします。
Parakeetなら文字起こし時間の制限もありませんし、商用利用もできますから、体験はこちらでしていただけば良いでしょう。
日本語対応については反響によって考えたいと思っています。
ちなみにリアルタイム文字起こしのニーズも高いことは承知していますが、それはmacOSやiOSのライブキャプションが出ましたし、そこで勝負するつもりはありません。
同様にクラウドサービスは情報漏洩を考えたらとても怖くて使えません。
オフラインを謳うアプリでも要約はクラウドだったり、アプリケーションのライセンス認証やモデルのダウンロードにネット接続したりと、不透明な部分が多いのが個人的には良くないと思います。
FFTrans ParakeetもFFTrans Proもモデルはアプリ内に同梱で完全にオフラインで動作しますので、機密性の高い音声には最適かと思っています。
コメント