MT Summitの感想③

機械学習/ディープラーニング/AIと翻訳

MT Summitの感想③

14, 2017 20:34

3日目（20日分）です。

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

午前①：Semantic and Stylistic Divergences in Machine Translation（Marine Carpuat氏、University of Maryland）

機械翻訳にとって、parallel texts（対訳データ）は重要なリソースですが、

同氏は"All parallel segments are not equal（対訳データのすべての部分が等しいわけではない）"、

そして"semantic divergences（意味の相違）"があると述べられました。

これは、翻訳者の内容の微妙な選択や文章のスタイルに起因するそうです。

同氏はTraduttore, traditore（イタリア語で『翻訳者は裏切り者』、つまり完全な翻訳はありえず、書き手の意図を裏切ってしまうという意味）ということわざを引用され、

NMTは、そのようなdivergencesについてsensitiveである（=翻訳者の内容の微妙な選択/文章のスタイルに起因する相違によって、NMTの品質が多大な影響を受ける）そうです。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

午前②：Enhancement of NMT II

[1] Paying Attention to Multi-Word Expressions in Neural Machine Translation（Matīss Rikters氏ら）

ラトビアの方。後でお話ししたところ、ラトビアではMTの会社は1社しかなく、開発も遅れているそうです。

複単語表現 (multi-word expression：MWE）は、自然言語処理における既知の問題であり、NMTであってもそれは困難だそうです。

同氏は、MWEへのNMTのAttentionの割当ての調査、およびMWEを含む文の自動翻訳の改善についての試験結果を示しました（対象言語：英語→ラトビア語、英語→チェコ語）。

試験では、一般的な開発データセットでは改善は大きく見られなかったものの、MWE固有のテストデータセットを使用した場合、BLEUスコアが0.99増加したそうです。人間による評価では、訓練データに合成MWEデータを入れた後、特定のMWEの翻訳が改善していることが確認されました。

[2] Enabling Multi-Source Neural Machine Translation by Concatenating Source Sentences in Multiple Languages（Raj Dabre氏ら）

同氏らは、NMTの構造や訓練手順を変えることなく、N-way多言語コーパスの前処理にのみ依存する「マルチソースニューラル機械翻訳」（MSNMT）を検討しました。

コーパスはILCI（英語/タミル語/テルグ語/マラーティー語/ベンガル語→ヒンディー語）、IWSLT（フランス語/ドイツ語/チェコ語/アラビア語→英語）、UN（フランス語/スペイン語/アラビア語/中国語/ロシア語→英語）を使用。リソースが豊富な場合と、乏しい場合で試験。

結果として、同氏らのアプローチは多言語を活用することができ、

個別の各ソース言語を使用して得られたBLEUスコアと比較して大幅な改善がみられたそうです。

また、パラメータ数が半分未満でありながら、他の最先端の方法に匹敵する結果が示されたそうです。

[3] Learning an Interactive Attention Policy for Neural Machine Translation（Samee Ibraheem氏ら）

同氏らは、テキスト入力を一切必要とせずに、人間がNMTシステムのAttentionを誘導するインタラクティブな設定を検討しました。

その設定では、システムによって左から右に翻訳されますが、次に翻訳する原文の単語を人間が選択するために、定期的に待機します。

評価は、WMT 2016 news-test2013開発セットの全3000文（対象言語：英語→ドイツ語）で行われました。全自動のNMTモデルのベースライン評価はBLEUスコア19.37であったのに対し、人間による誘導を100%求めるもの（各単語ごとに選択するもの）では、BLEUスコアは32.51でした。誘導する方法の方が明らかに翻訳の品質が向上しますが、すべての単語を人間が選択するには多大な労力がかかるようです。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

午後：Introduction of MT into Industrial-Scale Translation Workflows with Translator Acceptance（Chris Pyne氏、SAP）

Chris Pyne氏は、出版社で技術分野の翻訳者7年経験→その出版社のgeneral managerとなる→ Siemens社でルールベースのMTプロジェクトに携わる→翻訳会社（後にLionbridge社の一部となる）を共同経営→ドイツのLionbridge社のmanaging directorとなる→SAP社へ。

以後、SAP社で翻訳環境を構築しているそうです（Siemens社以降、MTと密接に関わっているそうです）。

最初に挙手によるアンケート調査が行われました（会場人数：約150名）。

1982年以降に生まれた人：4～5名（私含む）

翻訳者・元翻訳者：3名（私含む）

翻訳者（「元」翻訳者を入れても）少ねぇ。

同氏は、MTを使ったプロ翻訳者のワークフローについてお話され、具体的に図示されました。

（仕事の発注、MTの使用、翻訳料金支払い等の流れ）

日本語については、翻訳者によるestimationによりますと、

MTを使用することによって減る翻訳時間：19%

PE不要部分：26%

だそうです。

（あくまで翻訳者の自己申告による予想です。実際にMTを使っているのは現在イタリア語のみとのこと。）

ただし、翻訳料金の計算方法が問題であり、時間給に戻すかも？とおっしゃっていました。

◇Technology Showcase◇

自由行動（希望者は自由にブースを見て回る感じ）。

私は翻訳ツールのベンダーさんを回って、ツールの動向調査＆IJET大阪のスポンサーのお願いをしました。

◇Banquet◇

いったんホテルに戻ってから会場へ。

場所は興正寺で行われました。

Banquet会場の入口。

寿司&その他。

（手まり寿司なので、寿司というよりツマミみたいですね）

スピーカーの方や、MT研究者の方と話せて楽しかったです。

※domainの意味について質問したところ、

domainには、

①翻訳分野（コンピュータ、機械、自動車、医療等）

②データのドメイン

の意味があるそうです。

おみやげに升（日本酒を入れた）をもらいましたー！(ﾟ∀ﾟ)

＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊＊

④に続きます。

関連記事

AAMTジャーナルが届きました。 2017/11/02
Googleの賀沢氏が、早速関東MT勉強会のスライド・録画を公開してくれた件。 2017/10/21
MT Summitの感想③ 2017/10/14
MT Summitの感想② - (2) 2017/09/29
MT Summitの感想② - (1) 2017/09/28

COMMENT 0

TRACKBACK 0

この記事にトラックバックする(FC2ブログユーザー)

Sun	Mon	Tue	Wed	Thu	Fri	Sat
-	-	-	1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31	-

ローズ三浦の革命的翻訳ブログ