MT Summitの感想⑤ - (1)です。
一気にまとめようとしたけど、Mike Dillinger氏のまとめがすごく長くなったので、
やむを得ず2つに分けますね。
⑤ - (1)は内山将夫氏とMike Dillinger氏のご講演のまとめです。
*******************************
最終日は昼からだったので、
午前中はホテルでゆっくりと過ごしました。
JTFワークショップには特別に同時通訳が付いてました。
(通訳のレベル高かった!)
聴講者は100名程度。
①技術レクチュア(NICT・内山将夫氏)
ニューラル自動翻訳(NMT)(←注:内山氏は自動翻訳という言い方をされています)は、コーパスに基づく自動翻訳技術(コーパスベースMT)の最新パラダイムであり、マトリクス(行列)演算が非常に速いそうです。
NMTにより新しくなった点は、注意機構(Attention mechanism)付きの「系列から系列への学習」と、GPUによる高速計算で、以前と同じ点は、人間による評価が必要であることと、大規模対訳コーパスが必要なことです。
翻訳精度とコーパスサイズの関係は、コーパスが大きいほどNMTはSMTより高精度になり、
その分岐点は100万文だそうです。
誰がどのようにコーパスベースMTを改善するか:
・アルゴリズムとハードウェア→研究者・開発者
・評価→利用者
・コーパス→みんなで協力!
NMTではアダプテーションが効果的であり、
まず汎用NMTを訓練+分野コーパスで汎用NMTを追加訓練するといいそうです。
また、高精度MTにはカスタマイズが必要だそうです(固有名詞など)。
評価については、自動評価はSMT同士、NMT同士の比較には便利ですが、
SMTとNMTの比較には向いていないため、
人間による評価(人間がどのように感じるか)がMTの研究開発に必須だそうです。
また、訳質は第1の目標ではなく、「原文」・「MT訳」・「ポストエディット」・「全部人間訳」のうちどれが一番利益になるかが重要だそうです。
内山氏は「翻訳バンク」への協力を呼びかけられ、「みんなで世界一の自動翻訳を作りましょう」と講演を締めくくられました。
(ちなみに翻訳バンクへデータ提供しても、汎用NMTを提供したデータでアダプテーションするため、差別化が可能だそうです。)
②招待講演(LinkedIn社・Mike Dillinger氏)
Mike Dillinger氏は現在はLinkedIn社のMT部門のマネージャー(MTエンジニア的なこともやる)ですが、元通訳者/翻訳者だそうです。
一説によれば、機械翻訳は2024年までにバイリンガル(ただし翻訳者ではない)レベル、2032年までに翻訳者レベルになるということです。
同氏は、機械翻訳 or 人間翻訳の二択ではなく、
そのハイブリッドの翻訳を提言されました。
(※機械翻訳はツールとして使うが、主導権を握るのはあくまで人間翻訳者側)
そのためには、安直に「翻訳の品質」と言うだけでなく、
人間翻訳者にできて、機械翻訳にできないことをさらに掘り下げます。
・顧客にどのような付加価値を与えるか?
・競合他社とどのように差別化するか?
機械翻訳ができないことの例:
・妥当性をチェックする
・言外の意味をチェックする
・様々なケースに合わせて語調とスタイルを調整する
・様々な読み手に適応する
・準備が不十分な原文に適応する
・変化するニーズに適応する
・変化するトピックに適応する
・原文の内容にフィードバッグを提供する
・人間の乱雑さの種類の変化に対処する
・コンテンツを市場のニーズに適応させる・・・
逆に人間翻訳者ができないことの例:
・数千件の翻訳例を確認する
・休憩せずに翻訳する
・複数の文の種類、文書の種類、プロジェクトの種類をの処理をはるかに良くする
・プロジェクトの特定のステップで効果的に作業する・・・
さすが元通訳者/翻訳者。
こういう具体例は生粋のMTエンジニアには思いつかないんだよね。
また、翻訳に使用するツールについて理解し、
独自のツールを構築するためにベンダーと協力することです。
・自分のMTシステムを訓練する
・PEの作業をAdaptive MTの作業に変更する(lilt.comを参照)
・人間の翻訳をチェックするためにMTを使用する?
・翻訳メモリをもっと積極的に管理する
"プロは道具の選び方を知っている"という例で、
人間翻訳・・・precision(精密さ、例えるならブラシ)
機械翻訳・・・coverage(処理量、例えるならローラー)
を出されていました。
そして、翻訳案件ごとにプロセスを分析し、どの道具が最適かを見極めることです。
機械翻訳+人間翻訳のハイブリット翻訳に必要なのは・・・
1、人間翻訳者と機械翻訳が、それぞれ翻訳にどのように貢献するかを理解する
2、人と機械でより豊かなコミュニケーションを行う(Adaptive MTやデータの可視化など)
3、MTシステムをもっとコントロールできるものにする
*******************************
⑤ - (2)に続きます。
- 関連記事
-
-
Hello Kitty-like curve 2018/08/25
-
散布図描けた! 2018/08/11
-
MT Summitの感想⑤ - (1) 2018/08/11
-
MT Summitの感想④ 2018/08/09
-
機械学習本3連チャン^^ 2018/08/04
-