自動音声認識テクノロジーをリードする OpenAI の自動文字起こしツール 「Whisper」
2022年末、OpenAIがWhisperをリリースしました。オープンソース型自動音声認識(ASR)モデルの新たなトレンドとなる音声テキスト変換テクノロジーです。初の商用レベルのASRモデルでありながら、無料で提供されていることから、Whisperは真に革新的であると言えます。Whisperには言語識別の追加機能もあります。これは、(私たちの知る限り)この種のテクノロジーで初の機能です。また、他言語のテキストに翻訳する機能もあります。このような機能をすべて備えるWhisperは、市場におけるあらゆるオープンソースのASRモデルをはるかに凌駕しています。
サービス範囲
Whisperはサイズによる複数のモデルを用意しています。tiny(3,900万パラメータ)からlarge(15億5,000万パラメータ)まで、さまざまなユースケースに適したサイズがあります。tinyモデルは、通話や会議の書き起こしなど、応答時間の短縮が重要な状況で、ほぼリアルタイムのパフォーマンスに優れています。ただし、より高度にパラメータ化されたモデルより誤りが多いかもしれません。専門的なコンテンツや対象領域特有のコンテンツで、書き起こしの質が大幅に低下します。largeモデルは、実用化する場合、ハードウェアへのさらなる投資の必要がありますが、より長いフレーズや文章、専門的なコンテンツに最適なオプションであり、字幕への活用に適しています。
ファインチューニング
インプットする音声に高い統一性がある場合、ファインチューニングを行う価値はあるでしょう。その場合に必要なのは、ペアとなる音声と書き起こしのトレーニングセットを収集し、音声をサンプリングレート16kHzに変換することだけです。Whisperの音声テキスト変換AIモデルは、わずか数行のコードでファインチューニングすることができます。
音声からの言語識別
今回のモデルが提供する最も革新的な機能の1つは、音声からの言語識別です。テキストからの言語識別は、完全に「解決された」問題ではありませんが、数年前からn-gramに基づく手法が利用可能になっています。しかし、私たちの知る限り、Whisper以前のツールで、生の音声から言語識別の機能を提供するものはありませんでした。この機能は、教師データの書き起こしデータの最初に、特別なトークンを追加することで実現しました。これは書き起こしの言語を表し、言語が不明な場合でも、Whisperは推論時に書き起こしされた言語を予測できるようになります。
制限事項
既知の制限事項に関して、私たちの経験から分かっていることは、Whisperはコードスイッチングのシナリオ(例えば、1つの音声に複数の言語が混在している場合)でうまく機能しないという点です。さらに、翻訳が要求されていない場合でも、他言語に翻訳された出力を生成することがあります。
最後に
最近、Meta(旧Facebook)が独自のオープンソース自動音声認識モデルを発表しました。近い将来、間違いなくさまざまなモデルが登場するでしょう。それでも、Whisperは新世代の自動音声認識テクノロジーの第1弾であり、質の高い音声テキスト変換モデルのベンチマークとなっています。言語識別などの最先端の機能と、さまざまなケースに対応する多様なモデルを備えるWhisperは、今後も業界のゲームチェンジャーとなるでしょう。
Whisperについての詳細はこちら
この新しい音声テキスト変換テクノロジーについて、そして、貴社のユースケースでどのように利用することができるかについて、詳しい情報をお求めのお客様はtokyosales@transperfect.comまでお問い合わせください。