Photo Gallery

Googleの賀沢氏が、早速関東MT勉強会のスライドと録画を公開してくれました。

スライドは勉強会のHPから入手できますが、
録画はメーリングリスト参加者限定。
ちなみに賀沢氏のスライドも、メーリングリスト参加者限定で送っていただけました!(録画はなし)


賀沢神!!!(人∀`)


ていうか、これ昨日開催したやつですよね?
さすがGoogleの方、仕事が早い!

しかし、勉強会の開催場所が翻訳センター内会議室ってwww
ていうか、上の方の人達ってだいたいグルなんだよねw

3日目(20日分)です。

*******************************

午前①:Semantic and Stylistic Divergences in Machine Translation(Marine Carpuat氏、University of Maryland)


機械翻訳にとって、parallel texts(対訳データ)は重要なリソースですが、
同氏は"All parallel segments are not equal(対訳データのすべての部分が等しいわけではない)"
そして"semantic divergences(意味の相違)"があると述べられました。

これは、翻訳者の内容の微妙な選択文章のスタイルに起因するそうです。

同氏はTraduttore, traditore(イタリア語で『翻訳者は裏切り者』、つまり完全な翻訳はありえず、書き手の意図を裏切ってしまうという意味)ということわざを引用され、
NMTは、そのようなdivergencesについてsensitiveである(=翻訳者の内容の微妙な選択/文章のスタイルに起因する相違によって、NMTの品質が多大な影響を受ける)そうです。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

午前②:Enhancement of NMT II


[1] Paying Attention to Multi-Word Expressions in Neural Machine Translation(Matīss Rikters氏ら)

ラトビアの方。後でお話ししたところ、ラトビアではMTの会社は1しかなく、開発も遅れているそうです。

複単語表現 (multi-word expression:MWE)は、自然言語処理における既知の問題であり、NMTであってもそれは困難だそうです。
同氏は、MWEへのNMTのAttentionの割当ての調査、およびMWEを含む文の自動翻訳の改善についての試験結果を示しました(対象言語:英語→ラトビア語、英語→チェコ語)。

試験では、一般的な開発データセットでは改善は大きく見られなかったものの、MWE固有のテストデータセットを使用した場合、BLEUスコアが0.99増加したそうです。人間による評価では、訓練データに合成MWEデータを入れた後、特定のMWEの翻訳が改善していることが確認されました。

[2] Enabling Multi-Source Neural Machine Translation by Concatenating Source Sentences in Multiple Languages(Raj Dabre氏ら)

同氏らは、NMTの構造や訓練手順を変えることなく、N-way多言語コーパスの前処理にのみ依存する「マルチソースニューラル機械翻訳」(MSNMT)を検討しました。
コーパスはILCI(英語/タミル語/テルグ語/マラーティー語/ベンガル語→ヒンディー語)、IWSLT(フランス語/ドイツ語/チェコ語/アラビア語→英語)、UN(フランス語/スペイン語/アラビア語/中国語/ロシア語→英語)を使用。リソースが豊富な場合と、乏しい場合で試験。

結果として、同氏らのアプローチは多言語を活用することができ、
個別の各ソース言語を使用して得られたBLEUスコアと比較して大幅な改善がみられたそうです。
また、パラメータ数が半分未満でありながら、他の最先端の方法に匹敵する結果が示されたそうです。

[3] Learning an Interactive Attention Policy for Neural Machine Translation(Samee Ibraheem氏ら)

同氏らは、テキスト入力を一切必要とせずに、人間がNMTシステムのAttentionを誘導するインタラクティブな設定を検討しました。
その設定では、システムによって左から右に翻訳されますが、次に翻訳する原文の単語を人間が選択するために、定期的に待機します。

評価は、WMT 2016 news-test2013開発セットの全3000文(対象言語:英語→ドイツ語)で行われました。全自動のNMTモデルのベースライン評価はBLEUスコア19.37であったのに対し、人間による誘導を100%求めるもの(各単語ごとに選択するもの)では、BLEUスコアは32.51でした。誘導する方法の方が明らかに翻訳の品質が向上しますが、すべての単語を人間が選択するには多大な労力がかかるようです。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

午後:Introduction of MT into Industrial-Scale Translation Workflows with Translator Acceptance(Chris Pyne氏、SAP)


Chris Pyne氏は、出版社で技術分野の翻訳者7年経験→その出版社のgeneral managerとなる→ Siemens社でルールベースのMTプロジェクトに携わる→翻訳会社(後にLionbridge社の一部となる)を共同経営→ドイツのLionbridge社のmanaging directorとなる→SAP社へ。
以後、SAP社で翻訳環境を構築しているそうです(Siemens社以降、MTと密接に関わっているそうです)。

最初に挙手によるアンケート調査が行われました(会場人数:約150名)。
1982年以降に生まれた人:4~5名(私含む)
翻訳者・元翻訳者:3名(私含む)

翻訳者(「元」翻訳者を入れても)少ねぇ。

同氏は、MTを使ったプロ翻訳者のワークフローについてお話され、具体的に図示されました。
(仕事の発注、MTの使用、翻訳料金支払い等の流れ)

日本語については、翻訳者によるestimationによりますと、
MTを使用することによって減る翻訳時間:19%
PE不要部分:26%
だそうです。
(あくまで翻訳者の自己申告による予想です。実際にMTを使っているのは現在イタリア語のみとのこと。)

ただし、翻訳料金の計算方法が問題であり、時間給に戻すかも?とおっしゃっていました。

◇Technology Showcase◇

自由行動(希望者は自由にブースを見て回る感じ)。
私は翻訳ツールのベンダーさんを回って、ツールの動向調査&IJET大阪のスポンサーのお願いをしました。

◇Banquet◇

いったんホテルに戻ってから会場へ。
場所は興正寺で行われました。

Banquet会場の入口。
Banquet会場。

寿司&その他。
(手まり寿司なので、寿司というよりツマミみたいですね)
料理・その1。 
料理・その2。 

スピーカーの方や、MT研究者の方と話せて楽しかったです。
domainの意味について質問したところ、
domainには、
①翻訳分野(コンピュータ、機械、自動車、医療等)
②データのドメイン
の意味があるそうです。

おみやげに升(日本酒を入れた)をもらいましたー!(゚∀゚)
おみやげ。 

*******************************

④に続きます。


2日目その2(19日午後分)です。

*******************************

午後のプログラムはIAMT Award of Honor Ceremonyで始まりました。

人工知能研究センター(AIRC)の研究センター長である辻井潤一氏が受賞されました。おめでとうございます!

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
午後①:NMT Technologies and Their Futures – Baidu, Google and Microsoft

[1] Practical Machine Translation(Wu Hua氏、Baidu社)
Baidu社は、中国の最大手の検索エンジンの会社です。

NMTの仕組みと弱点を簡単に説明され、
今後はNMTの精度をSMTの特徴(phrase、syntax、coverageなど)によって高めることを述べられていました。

今後はNMTのGeneral DomainIn-domain Corpora追加し、
General Model→Adapted Modelにする(その間はfine tuningが必要)ことで、
翻訳精度を上げるおっしゃっていました。

最後に自動翻訳機能付のWifiルーターのデモをされました(日←→中)。
私は中国語がわからないので本当に翻訳できているのかはわからなかったのですが、
ちょっとしたshowでしたね。

[2] Google Neural Machine Translation: Status and Challenges(賀沢 秀人氏、Google社)
超有名企業の方なのに、白いパーカーというラフな服装。

Google社は、対訳データを複数の言語で1つのデータセットにしてトレーニングしているそうです。
(例:日本語[こんにちは]-英語[Hello]、中国語[你好]-英語[Hello]でそれぞれ別にトレーニングするのではなく、日本語[こんにちは]+中国語[你好]-英語[Hello]で一気にトレーニングする)

また、NMTの欠点を説明されるのに、面白い例を使われていました。

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
日本語           英語 

すき            Like
すきすき                             I love you 
すきすきすき                       I love you
すきすきすきすき                 I love you so much
すきすきすきすきすき           To lose weight    ←ん?
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Why Google People!?
(Why Japanese People!?風)

ま、すきも言われ過ぎるとゲッソリするってことですかねwww←超意訳w

この現象を賀沢氏はバタフライ効果に例えていらっしゃいました。

しかし、今日Google翻訳かけたら、修正されてましたw(日進月歩だな)
すき×5 


[3] The Neural Renaissance: Achieving Critical Mass in Text and Speech Translation(William Lewis氏、Microsoft社)

Lewis氏が喋った内容が、スクリーンにリアルタイムでテキスト化されて表示される(www.translate.it/CHADQ)
という、一種のデモも兼ねてましたね。
スクリーンに表示されるテキストにほとんどミスがないことに驚きました。

しかし、参加者がやってみると、あまり正確にテキスト化されませんでした。
(おそらくLewis氏の発音がめっちゃ明瞭だからうまくいったのだと思います。後からご本人聞いたら「めっちゃ練習したんだよ~」とおっしゃってました。)

発表自体は中国語についての例だったので、あまり参考になりませんでした。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

午後②:Hybrid Method


[1] Neural Pre-Translation for Hybrid Machine TranslationJinhua Du 氏ら) 

ハイブリッド機械翻訳(HMT)とは、複数の種類のMTシステムのそれぞれの利点を活かして翻訳パフォーマンスを向上させる機械翻訳の方法です。
同氏らは、翻訳の品質を向上させるためにNMTとPB-SMT(フレーズベース統計翻訳)を組み合わせた
cascaded hybrid frameworkを提案しています。

具体的には、
訓練済NMTで訓練データを事前翻訳(pre-translate)する
②事前翻訳した訓練データを使用してSMTシステムを構築する
③事前翻訳した開発セットを使用してパラメータを調整する
④SMTシステムで事前翻訳したテストセットを再度decodeし、最終結果を生成する

その結果、NMT→SMTのハイブリッド機械翻訳では、翻訳パフォーマンスが大幅に向上した(対象言語:日本語→英語、中国語→英語)とのことです。

【補足】
①原文にOOV(Out of Vocabulary)があった場合、NMTが「UNK」トークンを生成
②翻訳時にUNKをsource wordに置換
→クオリティが向上する
とのことですが、
このへんがよくわからないので、専門家の方教えてください。

[2] Neural and Statistical Methods for Leveraging Meta-information in Machine TranslationShahram Khadivi氏ら)

Shahram Khadivi氏は、eBayの方。

機械翻訳の品質を向上させるための、ソース言語のインプットに伴うメタ情報豊富な文脈を使った様々な方法についての発表です。

同氏らは、ソース側のトピック/カテゴリのラベルをより活用するため、単語の翻訳に原文全体をencodeするbidirectional LSTMを導入しました。

その結果、BLEU(翻訳の自動評価)スコア、および人間による再評価によって改善が認められたものの(対象言語:英語→イタリア語)、
テストセットには依然として正しく翻訳されていない多義語が多かったとのことです。

*******************************

ちなみにGoogleの賀沢さんがお世話をしてくださってる関東MT勉強会(無料)の参加「希望」が、本日(9/29)締切です。
ただし、収容人数の都合で、参加「希望」を出しても必ず参加できるわけではないようです。(あくまで参加「希望」です。学生優先で、企業はくじ引きになるそうです)
詳細は上記リンクをご覧ください。


③に続きます。


2日目その1(19日午前分)です。

この前1日ずつ書くと言いましたが、それでも長いので、
場合によっては1日をさらに(1)(2)に分けて書きたいと思います。
*******************************

2日目の朝は、豊田講堂ホールで初代AAMT/IAMT会長である長尾真先生(京都大学名誉教授・元総長、元国立国会図書館長)の開会のあいさつで始まりました。

長尾先生は、
「近い将来、機械翻訳は人間翻訳を超えると信じている」
「機械翻訳は世界平和へのカギである」
とおっしゃられたのが印象的でした(英語でしたので、聞き間違いでしたら申し訳ございません)。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

午前①:MT and AI: Probing Near- and Medium-Term Impacts


[1] Chris Wendt氏(Microsoft社)

MTはAIの一部であり、
AIは、
①ANI(Artificial Narrow Intelligence)
②AGI(Artificial General Intelligence)
③ASI(Artificial Superintelligence)
の順に進化し、
現在実現されているのは①ANI(Artificial Narrow Intelligence)のみですが、
徐々に②の方向に進化しているということ。

[2] Tony Hartley氏(立教大学)

教育者として、
"Re-assure potential students that NMT will not kill job prospects, but open new ones."(「NMTは仕事を奪うものではなく、新たな仕事を生み出すものである」と、生徒候補を安心させる)
ことを説かれていました。  
そして、MTの開発には、
"contributions of linguistics and computer science"(言語学とコンピュータサイエンスの両方の協力)"
が必要であるとおっしゃられました。
この方は、どちらも知ってる方ですからね。

[3] Olga Beregovaya氏(Welocalize社/AMTA会長)

この方は女性ですが、アメリカ機械翻訳協会の会長です(MTエンジニア)。

MTは実際にビジネスに活用されており、
時には恋も実らせる(実話)そうです。
MTの普及はwithout borders(国境を越えて)であり、
品質の向上が求められているそうです。

[4] 武田珂代子氏(立教大学)

同通システムについて述べられていました。

[5] Marine Carpuat氏(University of Maryland)

"How could MT augment translators/interpreters performance?"(MTによってどのように翻訳者/通訳者のパフォーマンスを上げるか)という視点でお話されていました。
テストに人間翻訳者を使うと非常にコストがかかるため、代わりにバイリンガルを使うということです。
また、MTは長期的に言語そのもののに影響を及ぼすのではないか?という問題については、
言葉は自然に変わっていくものというお話でした。

[質疑応答]

パネリスト全員が参加者からの質問に回答されました。
翻訳会社の方から、
「NMTには"ブラックボックス"があり、訳語が一定ではないが、この問題はどうするのか?」
という質問に対し、
Marine Carpuat氏は、
interesting proposal(面白い提案)が出ており、classifierを使ってNMTの訳語のdecisionをわかるようにするというというものがあります」
と述べられました。

【補足】Pascale Fung氏(Hong Kong University of Science and Technology)は来られず、
代わりにMarine Carpuat氏(University of Maryland)がパネリストとして参加されていました。
パネリストはすごい方ばかりですが、
特に興味深いのが、Tony Hartley(立教大学)氏
この方は元翻訳者・会議通訳者で、コンピュータサイエンスを勉強し直したそうです(大学で修士号を取得)
私は翻訳者側からMTを勉強しようとしていますが、
すでにそういういう方がいるということに驚きました。
(最終日のJTFワークショップのMike Dillinger氏やManuel Herranz氏も元翻訳者だそうです。)
computational linguistって最近の職業かと思っていましたが、
この方がその初期の方かもしれません。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

午前②:Enhancement of NMT I 


[1] Empirical Study of Dropout Scheme for Neural Machine Translation(Xiaolin Wang氏ら) 

Dropout Schemeとは、要するにこういうやつらしいです(イメージ)。
Dropout Scheme 

Dropout Schemeは、over-fittingを緩和するらしいです。

結論として、"Heavy dropout can improve performance on different corpora."(対象言語:中国語→英語、英語→日本語)と述べられていました。

[2] A Target Attention Model for Neural Machine Translation(美野 秀弥氏ら)

NMT特有の問題であるover/under generationについて、
over generationは、ソース側のトークンが重複して翻訳され、
under generationはソース側のトークンが翻訳されないことで生じるそうで、
これを緩和するために、美野氏らは各トークンにAttentionがより効率的に(より多く/少なく)あたるように、ターゲット側のAttentionのメカニズムを導入する試験を行いました。(対象言語:英語→日本語の3種類のデータセット)

結論として、
"Source/target attention model improved over/under generation."
と述べられました。

【補足】本会では、PanelやInvited Talk以外のセッションは3つに分かれており、参加者が自由に選べるようになっていました。
筆者は、基礎研究に近いものを選択しました(例:Evaluation and Cognitive Model、Data Construction、QA and Terminologyの3つならEvaluation and Cognitive Model)。
もちろん、Data ConstructionやQA and Terminologyも大事ですが、
それはEvaluation and Cognitive Modelのの段階なので、
Evaluation and Cognitive Modelの時点で精度が低かったら、
いくらData ConstructionやQA and Terminologyをイジっても意味がないので。
*******************************

わかりやすいように内容を端折った&発表は全部英語で行われたために聞き間違いがあるかもしれませんので、
詳細は各発表者までご確認&お問い合わせください。

19日午後分は② - (2)に続きます。


お待たせしました。MT Summitの感想①です。

MT Summitは5日間と長かったですので、
1日ずつ+総評を書こうと思います。

まずは1日目(18日)。

当日の朝大阪を出発。
乗り換えに手間取ってしまい、30分程度余裕を見ていたのに、実際ワークショップの部屋に到着したのは3分前でした。文字通り汗だくで到着しました(;´Д`)

名古屋大学・豊田講堂 
豊田講堂にオオーーッ!!!(゜o゜)となりました。

午前中は「MT for Academic Writing: A Hands-On Workshop」に出席しました。
参加者は10名程度だったのに、知り合いが3人もいましたw
このワークショップは翻訳者向けというより、
自分で論文を書く人(大学教授、研究者等)向けでしたね。

他の参加者は大学教授や研究者等だったので、
正直議論のレベルが高かった。。(ついていけず)

ポストエディット後、他の方たちは「文章の構造を全部変えないといけないので、自分で書いた方が早い」とおっしゃっていました。中には全文を書き直したという方もおられました。(ご自身が書かれた文章なので、こだわりも含まれているのかもしれませんが)

主催者側の調査によれば、
・ポストエディットのワード数は、一から翻訳するよりも少なくなる(全言語)
・ポストエディットの時間は、アラビア語と中国語では一から翻訳するよりも長くなる
だそうです。

事後アンケートで、
「今後Academic WritingでMTを使うと思いますか?」という質問があり、
私は4段階中2(4が最高)を付けました。

理由として、
私は事前に日本語の医学論文を提出したのですが、 
上がってきた英語の訳文はMT特有の問題(over/under generation、misunderstanding、erroneous selection等)はないものの、 
ジャーナル投稿レベルではないと感じました(初心者の翻訳者レベル)。 

MTはまだまだAcademic Writingレベルではないようですね・・・。

ちなみにMT Summitのために買ったデジタルノートが大活躍☆
(タブレットをお持ちの方は、それに手書きアプリをダウンロードすれば十分だと思います。)
デジタルノート。 

1日目はこれで終了(午前だけ)。
*******************************
午後からは観光してました。

名古屋城・1
名古屋城

名古屋城・2
名古屋城(近くから)。

金鯱!
金鯱!(名古屋城内の展示。)

抹茶アイス☆
観光後に抹茶アイスを食べました。うまし!!!

本当はその後美術館にも行く予定だったのですが、
名古屋城で歩き疲れてしまい、
明日に差し支えるといけないのでやむなく美術館は中止し、
名古屋城観光後はホテルに直行しました。

ホテル到着後はすぐ爆睡☆

*******************************

②に続きます。


WHAT'S NEW?