オブジェクトの広場は株式会社オージス総研グループのエンジニアによる技術発表サイトです

DX

DX推進者のための機械翻訳のポイント

DX推進者の技術アンテナ
株式会社オージス総研 コンサルティングサービス部
正木 威寛
2020年7月16日



日本語の文書を英語など外国語に翻訳、あるいはその逆に翻訳するといったビジネスシーンは、世界の垣根が低くなり多くなっています。翻訳が大変だからという理由で英文マニュアルを用意せずに海外への展開を躊躇したり、海外の良い製品を活用するのをためらったりというようでは自分からビジネスチャンスをみすみす逃しているようなものです。一方で、機密情報かもしれない文書を社員が何のためらいもなく無料の翻訳サイトで翻訳しているというのも情報漏洩のリスクが心配ではないでしょうか。
これらを解決するDX(デジタルトランスフォーメーション)として商用の機械翻訳サービスの導入があります。特に人工知能を使った機械翻訳の登場により翻訳精度は飛躍的に向上しています。本稿では、これら人工知能の機械翻訳サービスを企業に導入する際に押さえておくべきポイントについて述べます。

押さえておきたい翻訳業界用語

商用の機械翻訳ソフトウェアは、どちらかというとプロの翻訳者のためのITとして作られてきた背景より、本稿で想定しているプロの翻訳者ではないが仕事で利用したいという人には馴染みのない用語がソフトウェアの説明に使われています。ここでは導入の検討をするには理解が必須の翻訳業界用語について解説します。

自動翻訳

翻訳業界では、機械翻訳よりも“自動翻訳”と表記するほうが多いです。プロの翻訳者が手作業(=手動)で翻訳してきたのと対比して自動という単語がしっくりくるからかもしれません。あるいは、機械翻訳=機械学習による翻訳という誤解を招かないためという理由かもしれません。確かに機械翻訳は必ずしも機械学習というわけではなく半世紀以上前から研究されており、大まかに以下の3つのアプローチがあります。下にいくほど新しいアプローチです。

  • ルールベース機械翻訳(RBMT)
  • 統計的機械翻訳(SMT)
  • ニューラル機械翻訳(NMT)

人工知能を使ったニューラル機械翻訳になってから劇的に翻訳精度が良くなったので、現在の主流はニューラル機械翻訳です。本稿でも以降はニューラル機械翻訳を単に機械翻訳と記載します。

翻訳エディタ

IT業界でソフトウェア開発をするのに使うIDE(統合開発環境)、音楽業界で音楽を作るのに使うDAW(デジタル・オーディオ・ワークステーション)というのがありますが、翻訳の世界でもワードやエディタではなく、翻訳作業に特化した“翻訳エディタ”というソフトウェアのジャンルがあります。エディタ以外の高機能化により“翻訳支援ソフトウェア”や“翻訳ソフトウェア”と呼ばれることもあります。Tradosやmemoqなどが有名な商用の翻訳エディタです。

翻訳業者やフリーランスの翻訳者が使用することを想定しており、以下のような機能が搭載されています。

  • 翻訳前後の表示・編集
  • ワードやエクセルなど多くのファイル形式のサポート
  • 複数言語への同時翻訳
  • 翻訳メモリ
  • 自動翻訳などプラグイン拡張
  • サーバーへの保管
  • 複数メンバーによる共同作業
  • 翻訳の進捗管理、プロジェクト管理

翻訳メモリ

翻訳業界で機械翻訳よりも前に浸透した機能で、翻訳前後の文章を蓄積し、同一または類似した文章を翻訳する時にそれを再利用する仕組みのことです。複数の翻訳者が効率的に共同作業したり、製品マニュアルとユーザーマニュアルのように訳語に統一感が必要な翻訳には便利です。翻訳メモリからマッチングして、レコメンドする機能や類似度を表示する機能がついた翻訳エディタもあります。機械翻訳よりも翻訳対象の固有名詞や独特の言い回しに確実に対応できるところが強みです。

ファイル翻訳

翻訳エディタを使って翻訳者が翻訳作業をするのを“テキスト翻訳”と呼び、ワードやパワーポイントなどのファイルをアップロードすると、まったく同じレイアウトのまま翻訳後のワードやパワーポイントがダウンロードできるファイル単位の翻訳を“ファイル翻訳”と呼びます。図 1が翻訳前のパワーポイントで、それをファイル翻訳したのが図 2です。文字数の違いによってフォントサイズの調整が必要になるケースはありますが、ドキュメントと翻訳エディタの間をコピー&ペーストして作るよりも手っ取り早く作業を進めることができます。本稿で想定している利用者には欲しい機能です。

図 1 ファイル翻訳前のパワーポイント

図 1 ファイル翻訳前のパワーポイント

図 2 ファイル翻訳後のパワーポイント

図 2 ファイル翻訳後のパワーポイント

主な機械翻訳サービス

主流のニューラル機械翻訳は、ディープラーニングを使って翻訳エンジンの性能を向上させていく仕組み上、クラウドサービスでの提供が一般的ですが、オンプレミスを提供しているものもあります。

グーグル翻訳

Webサイトのグーグル翻訳は、だれもが一度は使ったことがあるかと思います。対応言語は100言語以上です。Webサイトの簡易な翻訳エディタが有名ですが、それ以外にもChromeアドイン、Google Docs、そしてAPIで提供しています。APIは有料です。ファイル翻訳はサポートしていません。Webサイトのグーグル翻訳にはファイルアップロードがあり、翻訳結果は図 3のようにレイアウトを維持したままブラウザで参照できます。フォーカスを当てると元の文章がポップアップして確認できます。しかし、残念ながら元のファイル形式で保存することはできません。

図 3 グーグル翻訳(アップロード)

図 3 グーグル翻訳(アップロード)

マイクロソフト翻訳

対応言語は60言語以上です。2017年に統計的機械翻訳からニューラル機械翻訳に刷新し、性能が向上しました。音声や翻訳アプリも無料で提供しています。APIは有料です。あまり知られていないのですが、ワード、エクセル、パワーポイントなどOffice製品には最初から連携機能がビルトインされており、図 4のように「校閲」タブの「翻訳」を選ぶと翻訳できます。

図 4 ドキュメントの翻訳

図 4 マイクロソフト翻訳(ワードから使う)

ワードで「ドキュメントの翻訳」を選ぶとWebブラウザが起動して、図 5のようにレイアウトが維持されたまま翻訳されます。グーグル翻訳と同様にフォーカスを当てると元の文章がポップアップして確認できますが、残念ながらこれも元のファイル形式で保存することはできません。

図 5 マイクロソフト翻訳(ドキュメントの翻訳)

図 5 マイクロソフト翻訳(ドキュメントの翻訳)

みんなの自動翻訳@TexTra®

NICT(国立研究開発法人情報通信研究機構)が開発した国産の自動翻訳です。Webサイトの翻訳エディタ、Office(ワード、エクセル、パワーポイント)のプラグイン、Webブラウザのプラグイン、APIがすべて無料で利用できます。ファイル翻訳も可能で、先ほどの図 2はこのサービスで翻訳したものです。翻訳メモリに相当する固有の辞書や対訳を登録したり、“グループ”でクローズドの共同プロジェクトを作ることもできます。これだけの機能が無料で使えるので、勉強会やコミュニティなどでは便利だと思います。また国内の自動翻訳サービスには、この翻訳エンジンや翻訳システムを商用化したものが多いです。(後述)

みんなの自動翻訳には“アダプテーション”という特徴的な機能があります。これは翻訳対象の特定業界や自社固有の翻訳精度を上げる機能ですが、翻訳メモリが文章をマッチングするのに対して、ディープラーニングの転移学習で翻訳エンジンそのものをカスタマイズします。無料で自社向けのアダプテーションを作成することもできます。後述する商用版では特許、IT、半導体分野などが用意されています。

DeepL翻訳

DeepLはドイツの企業で、設立は2017年ですが2020年に日本語に対応してからDeepL翻訳の記事を見かける機会が多くなりました。Webサイトの翻訳エディタとデスクトップアプリが無料で利用できます。ファイル翻訳は無料では読み取り専用で、有料プランにすると編集ができます。その他に有料プランでは、用語集、APIが利用できます。

図 6 DeepLのファイル翻訳(ワード)

図 6 DeepLのファイル翻訳(ワード)

図 7 DeepLのファイル翻訳(パワーポイント)

図 7 DeepLのファイル翻訳(パワーポイント)

その他のベンダー

国内の自動翻訳ベンダーは多数ありますが由来を調べるとシンプルで、その相関関係は図 8のようになっています。多くは上述したNICTの“みんなの自動翻訳@TexTra®”から商用ライセンスを受けて、自社にシステムを構築して提供しています。さらにオンプレミスを提供しているベンダーもあります。

ユーザーインターフェースを独自に用意し、グーグル翻訳、マイクロソフト翻訳、みんなの自動翻訳の翻訳エンジンを切り替えて使えるようにしているベンダーもあれば、技術的には選択できてもビジネス的に選択できないようにしているベンダーもあります。また、商用化に際して業界向けのアダプテーションや辞書を独自に提供している場合もありますので、最新の仕様は各社へご確認ください。

図 8 自動翻訳ベンダー相関図

図 8 自動翻訳ベンダー相関図

DX推進者が押さえておくべきポイント

基本的には上述した相関図を参考に、翻訳エンジン、独自機能、価格などを比較していけば良いのですが、見逃しがちなポイントがありますので、ここでは導入に当たって押さえておくべきポイントを述べます。

翻訳精度

必ず自社が想定しているテスト文書を用意して試してみてください。ベンダーは自社の翻訳エンジンが他社よりも精度が良いサンプルを見せるものです。筆者の経験では多くのベンダーはフリートライアルを用意していますので、何種類かの想定文書を用意して比較や確認を実際に試すことをお勧めします。

翻訳のカスタマイズ

翻訳メモリなどの辞書の登録機能、みんなの自動翻訳のアダプテーションのような翻訳エンジンのカスタマイズが自社に必要か、必要であればカスタマイズができるかを確認してください。固有名詞や専門用語が多い場合は、カスタマイズ機能はあったほうが良いです。

使いやすさ

どんなに性能の良い翻訳エンジンでも使いにくければ利用者の不満となり、活用されません。筆者の経験でも、翻訳性能は悪くないがユーザーインターフェースがわかりにくいものがありました。ユーザーインターフェースもフリートライアルで確認できますので、テキスト翻訳やファイル翻訳の操作、翻訳メモリの登録やカスタマイズの操作などを確認してください。

セキュリティ

仕事で翻訳する文書というのは、リリース前の製品のマニュアルや社内プレゼン資料など企業秘密を含んだものもありますので翻訳前後の文章、ファイル翻訳でアップロードしたファイルと翻訳したファイルの漏洩を起こさないようなセキュリティが求められます。たとえば、グーグル翻訳、マイクロソフト翻訳、みんなの自動翻訳@TexTra®は無料でテキスト翻訳ができますが、そこでの文章は翻訳エンジンの性能向上のために活用される可能性があります。一方で商用版のみんなの自動翻訳などの国内の翻訳サービスの多くは以下のようなセキュリティ機能を有しています。

  • 翻訳結果をユーザーが取得したら速やかにサーバーのストレージから自動的に消去する
  • awsなどのクラウド上にユーザー企業独自のインスタンスを立ててIPアドレス制限をかけることができる
  • オンプレミスを提供している

注意しなければいけないのが、想定される文書がそれほど機密性は必要ないのに過剰にセキュリティにこだわってしまうことです。セキュリティを強力にすればするほど導入費用やランニング費用に跳ね返りますし、翻訳エンジンのアップデートが大変になります。

まとめ

以上のポイントを押さえて導入すれば、あきらめていた翻訳を効率的にできるようにし、今まで翻訳業者へ丸投げしていた翻訳を減らして内製化できるケースも増えるでしょう。また、翻訳作業からの情報漏洩といったリスクを低減することもできます。

最後にちょっと横道にそれますが、翻訳業界では翻訳企業のプロジェクトに在宅のフリーランスの翻訳者がメンバーとして参加し、チームコラボレーションしながら翻訳するという“リモートワークでプロジェクトをする”ことが当たり前のように浸透しています。ぜひIT業界でも見習いたいものです。

参考リンク