MT Summitの感想③

3日目(20日分)です。

*******************************

午前①:Semantic and Stylistic Divergences in Machine Translation(Marine Carpuat氏、University of Maryland)


機械翻訳にとって、parallel texts(対訳データ)は重要なリソースですが、
同氏は"All parallel segments are not equal(対訳データのすべての部分が等しいわけではない)"
そして"semantic divergences(意味の相違)"があると述べられました。

これは、翻訳者の内容の微妙な選択文章のスタイルに起因するそうです。

同氏はTraduttore, traditore(イタリア語で『翻訳者は裏切り者』、つまり完全な翻訳はありえず、書き手の意図を裏切ってしまうという意味)ということわざを引用され、
NMTは、そのようなdivergencesについてsensitiveである(=翻訳者の内容の微妙な選択/文章のスタイルに起因する相違によって、NMTの品質が多大な影響を受ける)そうです。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

午前②:Enhancement of NMT II


[1] Paying Attention to Multi-Word Expressions in Neural Machine Translation(Matīss Rikters氏ら)

ラトビアの方。後でお話ししたところ、ラトビアではMTの会社は1しかなく、開発も遅れているそうです。

複単語表現 (multi-word expression:MWE)は、自然言語処理における既知の問題であり、NMTであってもそれは困難だそうです。
同氏は、MWEへのNMTのAttentionの割当ての調査、およびMWEを含む文の自動翻訳の改善についての試験結果を示しました(対象言語:英語→ラトビア語、英語→チェコ語)。

試験では、一般的な開発データセットでは改善は大きく見られなかったものの、MWE固有のテストデータセットを使用した場合、BLEUスコアが0.99増加したそうです。人間による評価では、訓練データに合成MWEデータを入れた後、特定のMWEの翻訳が改善していることが確認されました。

[2] Enabling Multi-Source Neural Machine Translation by Concatenating Source Sentences in Multiple Languages(Raj Dabre氏ら)

同氏らは、NMTの構造や訓練手順を変えることなく、N-way多言語コーパスの前処理にのみ依存する「マルチソースニューラル機械翻訳」(MSNMT)を検討しました。
コーパスはILCI(英語/タミル語/テルグ語/マラーティー語/ベンガル語→ヒンディー語)、IWSLT(フランス語/ドイツ語/チェコ語/アラビア語→英語)、UN(フランス語/スペイン語/アラビア語/中国語/ロシア語→英語)を使用。リソースが豊富な場合と、乏しい場合で試験。

結果として、同氏らのアプローチは多言語を活用することができ、
個別の各ソース言語を使用して得られたBLEUスコアと比較して大幅な改善がみられたそうです。
また、パラメータ数が半分未満でありながら、他の最先端の方法に匹敵する結果が示されたそうです。

[3] Learning an Interactive Attention Policy for Neural Machine Translation(Samee Ibraheem氏ら)

同氏らは、テキスト入力を一切必要とせずに、人間がNMTシステムのAttentionを誘導するインタラクティブな設定を検討しました。
その設定では、システムによって左から右に翻訳されますが、次に翻訳する原文の単語を人間が選択するために、定期的に待機します。

評価は、WMT 2016 news-test2013開発セットの全3000文(対象言語:英語→ドイツ語)で行われました。全自動のNMTモデルのベースライン評価はBLEUスコア19.37であったのに対し、人間による誘導を100%求めるもの(各単語ごとに選択するもの)では、BLEUスコアは32.51でした。誘導する方法の方が明らかに翻訳の品質が向上しますが、すべての単語を人間が選択するには多大な労力がかかるようです。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

午後:Introduction of MT into Industrial-Scale Translation Workflows with Translator Acceptance(Chris Pyne氏、SAP)


Chris Pyne氏は、出版社で技術分野の翻訳者7年経験→その出版社のgeneral managerとなる→ Siemens社でルールベースのMTプロジェクトに携わる→翻訳会社(後にLionbridge社の一部となる)を共同経営→ドイツのLionbridge社のmanaging directorとなる→SAP社へ。
以後、SAP社で翻訳環境を構築しているそうです(Siemens社以降、MTと密接に関わっているそうです)。

最初に挙手によるアンケート調査が行われました(会場人数:約150名)。
1982年以降に生まれた人:4~5名(私含む)
翻訳者・元翻訳者:3名(私含む)

翻訳者(「元」翻訳者を入れても)少ねぇ。

同氏は、MTを使ったプロ翻訳者のワークフローについてお話され、具体的に図示されました。
(仕事の発注、MTの使用、翻訳料金支払い等の流れ)

日本語については、翻訳者によるestimationによりますと、
MTを使用することによって減る翻訳時間:19%
PE不要部分:26%
だそうです。
(あくまで翻訳者の自己申告による予想です。実際にMTを使っているのは現在イタリア語のみとのこと。)

ただし、翻訳料金の計算方法が問題であり、時間給に戻すかも?とおっしゃっていました。

◇Technology Showcase◇

自由行動(希望者は自由にブースを見て回る感じ)。
私は翻訳ツールのベンダーさんを回って、ツールの動向調査&IJET大阪のスポンサーのお願いをしました。

◇Banquet◇

いったんホテルに戻ってから会場へ。
場所は興正寺で行われました。

Banquet会場の入口。
Banquet会場。

寿司&その他。
(手まり寿司なので、寿司というよりツマミみたいですね)
料理・その1。 
料理・その2。 

スピーカーの方や、MT研究者の方と話せて楽しかったです。
domainの意味について質問したところ、
domainには、
①翻訳分野(コンピュータ、機械、自動車、医療等)
②データのドメイン
の意味があるそうです。

おみやげに升(日本酒を入れた)をもらいましたー!(゚∀゚)
おみやげ。 

*******************************

④に続きます。


関連記事

Comments 0

There are no comments yet.

Leave a reply