MT Summitの感想② - (2)

 29, 2017 13:00
2日目その2(19日午後分)です。

*******************************

午後のプログラムはIAMT Award of Honor Ceremonyで始まりました。

人工知能研究センター(AIRC)の研究センター長である辻井潤一氏が受賞されました。おめでとうございます!

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
午後①:NMT Technologies and Their Futures – Baidu, Google and Microsoft

[1] Practical Machine Translation(Wu Hua氏、Baidu社)
Baidu社は、中国の最大手の検索エンジンの会社です。

NMTの仕組みと弱点を簡単に説明され、
今後はNMTの精度をSMTの特徴(phrase、syntax、coverageなど)によって高めることを述べられていました。

今後はNMTのGeneral DomainIn-domain Corpora追加し、
General Model→Adapted Modelにする(その間はfine tuningが必要)ことで、
翻訳精度を上げるおっしゃっていました。

最後に自動翻訳機能付のWifiルーターのデモをされました(日←→中)。
私は中国語がわからないので本当に翻訳できているのかはわからなかったのですが、
ちょっとしたshowでしたね。

[2] Google Neural Machine Translation: Status and Challenges(賀沢 秀人氏、Google社)
超有名企業の方なのに、白いパーカーというラフな服装。

Google社は、対訳データを複数の言語で1つのデータセットにしてトレーニングしているそうです。
(例:日本語[こんにちは]-英語[Hello]、中国語[你好]-英語[Hello]でそれぞれ別にトレーニングするのではなく、日本語[こんにちは]+中国語[你好]-英語[Hello]で一気にトレーニングする)

また、NMTの欠点を説明されるのに、面白い例を使われていました。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
日本語           英語 

すき            Like
すきすき                             I love you 
すきすきすき                       I love you
すきすきすきすき                 I love you so much
すきすきすきすきすき           To lose weight    ←ん?
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Why Google People!?
(Why Japanese People!?風)

ま、すきも言われ過ぎるとゲッソリするってことですかねwww←超意訳w

この現象を賀沢氏はバタフライ効果に例えていらっしゃいました。

しかし、今日Google翻訳かけたら、修正されてましたw(日進月歩だな)
すき×5 


[3] The Neural Renaissance: Achieving Critical Mass in Text and Speech Translation(William Lewis氏、Microsoft社)

Lewis氏が喋った内容が、スクリーンにリアルタイムでテキスト化されて表示される(www.translate.it/CHADQ)
という、一種のデモも兼ねてましたね。
スクリーンに表示されるテキストにほとんどミスがないことに驚きました。

しかし、参加者がやってみると、あまり正確にテキスト化されませんでした。
(おそらくLewis氏の発音がめっちゃ明瞭だからうまくいったのだと思います。後からご本人聞いたら「めっちゃ練習したんだよ~」とおっしゃってました。)

発表自体は中国語についての例だったので、あまり参考になりませんでした。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

午後②:Hybrid Method


[1] Neural Pre-Translation for Hybrid Machine TranslationJinhua Du 氏ら) 

ハイブリッド機械翻訳(HMT)とは、複数の種類のMTシステムのそれぞれの利点を活かして翻訳パフォーマンスを向上させる機械翻訳の方法です。
同氏らは、翻訳の品質を向上させるためにNMTとPB-SMT(フレーズベース統計翻訳)を組み合わせた
cascaded hybrid frameworkを提案しています。

具体的には、
訓練済NMTで訓練データを事前翻訳(pre-translate)する
②事前翻訳した訓練データを使用してSMTシステムを構築する
③事前翻訳した開発セットを使用してパラメータを調整する
④SMTシステムで事前翻訳したテストセットを再度decodeし、最終結果を生成する

その結果、NMT→SMTのハイブリッド機械翻訳では、翻訳パフォーマンスが大幅に向上した(対象言語:日本語→英語、中国語→英語)とのことです。

【補足】
①原文にOOV(Out of Vocabulary)があった場合、NMTが「UNK」トークンを生成
②翻訳時にUNKをsource wordに置換
→クオリティが向上する
とのことですが、
このへんがよくわからないので、専門家の方教えてください。→2017/11/17修正:『【TensorFlow 1.3・Python3 で学ぶ】時系列データ処理入門(RNN/LSTM, Word2Vec)』を受講して、自己解決しました

[2] Neural and Statistical Methods for Leveraging Meta-information in Machine TranslationShahram Khadivi氏ら)

Shahram Khadivi氏は、eBayの方。

機械翻訳の品質を向上させるための、ソース言語のインプットに伴うメタ情報豊富な文脈を使った様々な方法についての発表です。

同氏らは、ソース側のトピック/カテゴリのラベルをより活用するため、単語の翻訳に原文全体をencodeするbidirectional LSTMを導入しました。

その結果、BLEU(翻訳の自動評価)スコア、および人間による再評価によって改善が認められたものの(対象言語:英語→イタリア語)、
テストセットには依然として正しく翻訳されていない多義語が多かったとのことです。

*******************************

ちなみにGoogleの賀沢さんがお世話をしてくださってる関東MT勉強会(無料)の参加「希望」が、本日(9/29)締切です。
ただし、収容人数の都合で、参加「希望」を出しても必ず参加できるわけではないようです。(あくまで参加「希望」です。学生優先で、企業はくじ引きになるそうです)
詳細は上記リンクをご覧ください。


③に続きます。


関連記事

COMMENT 0

WHAT'S NEW?