GPTと生成AIを機械翻訳の視点から考える
GPT(Generative Pre-trained Transformers)と生成AIの可能性は、今世界中で大きな話題となっています。翻訳はAIが解決できる最も古くから想定されている課題の1つであり、人々が大規模言語学習モデル(LLM)を使用して翻訳を行い、驚くべき精度を実現していることは驚くに値しません。このトピックについてもう少し掘り下げてみましょう。LLMは果たして、私たちが利用してきた「旧来の」ニューラル機械翻訳(NMT)モデルを完全に過去のものにしてしまうのでしょうか。
GPTによる翻訳のパフォーマンスはどれほどか?
Tencent AI Labが翻訳業界で一般的な測定基準であるBLEUを用いて実施した予備研究(「ChatGPTは質の高い翻訳者?」)、および当社が人の評価を実施してきた経験から、GPTが既存の機械翻訳(MT)モデルとエンジンに追いつきつつあることが明らかになっています。GPTは、ドイツ語や中国語などのデータが豊富な言語で、既存の機械翻訳にきわめて近い翻訳を生成しました。
しかし、データの乏しい言語(ルーマニア語など)では結果が異なり、GPTのパフォーマンスはニューラルMTを大きく下回りました。これは当然の結果と言えるでしょう。LLMの学習に使用されるデータセットはインターネットのコンテンツから収集されているためです。インターネットのコンテンツの大半は、英語とその他の数種類の言語で公開されています。「練習」せずに言語を習得できるはずはありません。
GPTの課題
GPTモデルでも、データが少ない言語から別の(データが少ない)言語に翻訳する際に、NMTと同じような課題が見受けられます。このようなシナリオでは、多言語対応がしやすい仕組みであるGPTの方が高いパフォーマンスを実現すると予想されるかもしれません。多言語モデルは通常、データ量が多い言語から得られる知見を利用し、データが少ない言語のパフォーマンスを向上させます。しかし、GPTの場合、少なくとも「直接的に」影響を与えることはできません。
たとえば、ルーマニア語から中国語に翻訳したい場合、GPTは、まずルーマニア語から英語に翻訳し、さらに中国語に翻訳するよう指示する方が、ルーマニア語から中国語に直接翻訳させるよりも大幅に質の高い結果を得られます。
GPTのもう1つの課題として、非決定的システムであるという点があります。全く同一の正確なプロンプト(指示文)を入力して翻訳させた場合でも、結果が同じではないということが頻繁に起こります。これでは、信頼できるパフォーマンスデータを評価したり、定期的に確認したりすることができません。
さらに、LLMのパフォーマンスが、対象となる分野やコンテンツの種類によって一定しないという課題もあります。きわめて技術的な文章や専門性の高い内容を翻訳させると質の低い結果となりますが、口語的なコンテンツでは大幅に質が高い翻訳を生成します。こうした特徴から、動画の翻訳などの用途における活用に期待できることが分かります。特にGPTは、文脈を壊さずに与えられたプロンプトから複雑な指示を取り出すことに長けています。たとえば、映像作品の一シーンのシナリオを作り、会話のトーンや人物の気持ちを適切にくみ取った翻訳を行うことなどが考えられるでしょう。
GPTの未来
私たちはこれまでの機械翻訳を退け、素晴らしき生成AIの世界へと足を踏み入れて真剣に取り組み始めるべきなのでしょうか。その日は近づいているかもしれませんが、今ではありません。
分野や言語によっては、今の段階でも従来のMTエンジンではなくLLMを使う理由が十分にありますが、そうしたアプローチを全面的に採用することは不可能です。GPTをワークフローに導入するには現実的な課題があります。結果を予測できない、機密性に問題がある(ほとんどのLLMソリューションはクラウドベースであり、コンテンツが将来的にモデル構築に使用されないという確証をほぼ得られない)といった課題が挙げられます。何より、多くのケースで、私たちが信頼を寄せるNMTエンジンは依然として高いパフォーマンスを実現しています。今の勢いで進歩すれば、GPTをベースとする次世代の翻訳モデルへの移行が現実的になるのは時間の問題かもしれません。
しかし、そうなったとき、私たちはまだ翻訳について話題にしているでしょうか。あるいは、コンテンツは単に複数のマーケットに合わせて生成され、コピーライターがレビューするような形になっているでしょうか。そのような話題については、また別の機会にブログで取り上げます。
生成AIをいかに活用できるかについて、ご相談がございましたら、トランスパーフェクトまでお問い合わせください。