Photo Gallery

散布図 

イェーイ!
(゜∀゜)

素人だから嬉しいしかないw

MT Summitの感想⑤ - (1)です。
一気にまとめようとしたけど、Mike Dillinger氏のまとめがすごく長くなったので、
やむを得ず2つに分けますね。

⑤ - (1)は内山将夫氏とMike Dillinger氏のご講演のまとめです。

*******************************

最終日は昼からだったので、
午前中はホテルでゆっくりと過ごしました。

JTFワークショップには特別に同時通訳が付いてました。
(通訳のレベル高かった!)
聴講者は100名程度。

MT Summit・JTFワークショップ 

①技術レクチュア(NICT・内山将夫氏)

ニューラル自動翻訳(NMT)(←注:内山氏は自動翻訳という言い方をされています)は、コーパスに基づく自動翻訳技術(コーパスベースMT)の最新パラダイムであり、マトリクス(行列)演算が非常に速いそうです。
NMTにより新しくなった点は、注意機構(Attention mechanism)付き「系列から系列への学習」と、GPUによる高速計算で、以前と同じ点は、人間による評価が必要であることと、大規模対訳コーパスが必要なことです。
翻訳精度とコーパスサイズの関係は、コーパスが大きいほどNMTはSMTより高精度になり、
その分岐点は100万文だそうです。

誰がどのようにコーパスベースMTを改善するか:
・アルゴリズムとハードウェア→研究者・開発者
・評価→利用者
・コーパスみんなで協力!

NMTではアダプテーションが効果的であり、
まず汎用NMTを訓練+分野コーパスで汎用NMTを追加訓練するといいそうです。
また、高精度MTにはカスタマイズが必要だそうです(固有名詞など)。
評価については、自動評価はSMT同士、NMT同士の比較には便利ですが、
SMTとNMTの比較には向いていないため、
人間による評価(人間がどのように感じるか)がMTの研究開発に必須だそうです。

また、訳質は第1の目標ではなく、「原文」・「MT訳」・「ポストエディット」・「全部人間訳」のうちどれが一番利益になるかが重要だそうです。

内山氏は「翻訳バンク」への協力を呼びかけられ、「みんなで世界一の自動翻訳を作りましょう」と講演を締めくくられました。
(ちなみに翻訳バンクへデータ提供しても、汎用NMTを提供したデータでアダプテーションするため、差別化が可能だそうです。)

②招待講演(LinkedIn・Mike Dillinger氏)

Mike Dillinger氏は現在はLinkedInのMT部門のマネージャー(MTエンジニア的なこともやる)ですが、元通訳者/翻訳者だそうです。
一説によれば、機械翻訳は2024年までにバイリンガル(ただし翻訳者ではない)レベル、2032年までに翻訳者レベルになるということです。

同氏は、機械翻訳 or 人間翻訳の二択ではなく、
そのハイブリッドの翻訳を提言されました。
(※機械翻訳はツールとして使うが、主導権を握るのはあくまで人間翻訳者側

そのためには、安直に「翻訳の品質」と言うだけでなく、
人間翻訳者にできて、機械翻訳にできないことをさらに掘り下げます。

・顧客にどのような付加価値を与えるか?
・競合他社とどのように差別化するか?

機械翻訳ができないことの例:
・妥当性をチェックする
・言外の意味をチェックする
・様々なケースに合わせて語調とスタイルを調整する
・様々な読み手に適応する
・準備が不十分な原文に適応する
・変化するニーズに適応する
・変化するトピックに適応する
・原文の内容にフィードバッグを提供する
・人間の乱雑さの種類の変化に対処する
・コンテンツを市場のニーズに適応させる・・・

逆に人間翻訳者ができないことの例:
・数千件の翻訳例を確認する
・休憩せずに翻訳する
・複数の文の種類、文書の種類、プロジェクトの種類をの処理をはるかに良くする
・プロジェクトの特定のステップで効果的に作業する・・・

さすが元通訳者/翻訳者。
こういう具体例は生粋のMTエンジニアには思いつかないんだよね。

また、翻訳に使用するツールについて理解し、
独自のツールを構築するためにベンダーと協力することです。

・自分のMTシステムを訓練する
・PEの作業をAdaptive MTの作業に変更する(lilt.comを参照)
・人間の翻訳をチェックするためにMTを使用する?
・翻訳メモリをもっと積極的に管理する

"プロは道具の選び方を知っている"という例で、
人間翻訳・・・precision(精密さ、例えるならブラシ
機械翻訳・・・coverage(処理量、例えるならローラー
を出されていました。

そして、翻訳案件ごとにプロセスを分析し、どの道具が最適かを見極めることです。

機械翻訳+人間翻訳のハイブリット翻訳に必要なのは・・・
1、人間翻訳者と機械翻訳が、それぞれ翻訳にどのように貢献するかを理解する
2、人と機械でより豊かなコミュニケーションを行う(Adaptive MTやデータの可視化など
3、MTシステムをもっとコントロールできるものにする

*******************************

⑤ - (2)に続きます。

今さらだけど、MT Summitの4日目(21日分)です。
※1年近く前の話だということをご承知おきください。

ま、NICTの隅田氏はこの6月にAAMT会長になられたし、
最終日(5日目、後で書きます)のJTFワークショップのMike Dilinger氏は、JTF翻訳祭2018でも招待講演されるので、
おさらいとして丁度いい機会かもね。


*******************************

午前①:Social Innovation Based on Speech-to-Speech Translation Technology Targeting the 2020 Tokyo Olympic/Paralympic Games(隅田英一郎氏、NICT)


Speech Translationについての講義。

NICTはVoiceTraというスマホアプリを所持。
富士通は、医療分野のウェアラブル型ハンズフリー音声翻訳端末を9/19に発表(東大病院とNICTと共同で臨床試験を実施した)。
また、隅田氏はTexTraについても触れ、「ユーザ辞書がvitalである」と述べられました。

NMTは、今まではDeep learningに注力していましたが、最近はTranslation dataが重視されているそうです。
webに出ている翻訳はわずか20%であり、出ていない翻訳80%を占めるらしいです。
そこで、オール・ジャパン体制で翻訳データを集積する訳バンク」を呼びかけられていました

同氏は、MT is surpassing average Japanese persons(機械翻訳は平均的な日本人を上回ってきている)と述べられました。また、自動翻訳を『育てながら活用することを説かれていました。

NICTが開発中の同通システムは、word-to-wordではなく、chunk-to-chunkだそうです。

同氏は、「No MT, No Life」という力強い言葉で講演を結ばれました。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

午前②:Evaluation and Cognitive Model


[1] A Comparative Quality Evaluation of PBSMT and NMT using Professional Translators(Sheila Castilho氏ら)

同氏らは、4つの言語ペア(ドイツ、ギリシア語、ポルトガル語、ロシア語。日本語なし)におけるPBSMTとNMTの比較評価を報告しました。試験にはPETインタフェースを使用し、自動評価だけではなく、人(プロ翻訳者)による妥当性・流暢性、エラー種類のマークアップ、ポストエディットの(技術的および時間的)作業のランキングを含めた様々なメトリックを使用し、教育分野の翻訳結果をPBSMTとNMTで比較しました。結果は比較によりランク付けされ、全言語ペア、文章、および分節の長さについて、NMTが優れていることが示されました。さらに、流暢さの認識が改善され、語順エラーはNMTの方がより少なかったそうです。

[2] One-parameter models for sentence-level post-editing effort estimation(Mikel L. Forcada氏ら)

MTのポストエディットに必要な作業量を予測する方法は、MTを翻訳業界でより役立つものにするために有望であると考えられます。様々な方法が提案されてきており、その機能とパラメータの数はますます増加し、複雑になってきていますが、問題は解決には程遠いです。ここでは、作業量の指標としてポストエディットにかかる時間に注目し、一歩退いてデータの一般的特性に基づくパラメータが1つの(非常に単純で解釈が容易である)estimatorのパフォーマンスを分析しました。
分析は以下について行いました:
(a)トレーニングセットで測定したポストエディット時間の重みの平均値(※「重み」とは、新しいセグメントとトレーニングデータ間の修正距離の指数関数)
(b)セグメントの長さの一次関数としてのポストエディット時間
(c)原文と訳文の統計的言語モデル
これらの単純なestimatorは、強固なベースラインを上回り、驚くべきことにより複雑なestimator(パラメータ数が多く、豊富な機能を組み合わせているもの)に匹敵しました。
このことにより、ポストエディットの作業量のpredictorを構築するには、盲目的に洗練された機械学習アプローチを試みる前にまず単純で直感的で解釈可能なモデルを検討し、新しい機能を追加して徐々に複雑にすることによって、段階的に改善すべきであることが示唆されました。

[3] A Minimal Cognitive Model for Translating and Post-editing(Moritz Schaeffer氏ら)

本試験では、全文翻訳とポストエディットの読み(インプット)と書き(アウトプット)の協調について調査を行いました。目の動きを記録したデータとキーを記録したデータを読み書きの最小単位に分割し、ポストエディットと全文翻訳のプロセスをマルコフモデルとしてモデル化しました。翻訳者とポストエディターが原文または訳文を読むのに費やした時間によって、継続的に文字を打っている確率を高い精度で予測することができます。さらに、文字を打っている確率は、原文と訳文で意味と構文の性質がどの程度似ているかによっても決定されることが示されました。 最小認識のマルコフモデルによって、翻訳中にインプット(読み)とアウトプット(書き)の間に生じるプロセスで役割を担う非常に基本的な要因が明らかになりました。

ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー

午前①:

◇Poster Presentations◇

自由行動(希望者がポスターの前に行くと、ポスター作成者がポスターの前に待機しており、説明してくれる)。

私は、「Machine Translation as an Academic Writing Aid for Medical Practitioners」にお邪魔させていただきました。
担当していただいたADAPT Centre(アイルランド・ダブリン)のCarla教授(女性)は、1日目の「MT for Academic Writing: A Hands-On Workshop」の事前課題の提出でやりとりしていた方だったので、実物に会えた―!て感じでしたね。
「機械翻訳は医療分野の実務で使えると思いますか?」
という私の問いに、
「はい。ただし、carefulに」
という返答をいただきました。
スペインでは英語能力が低い移民が機械翻訳を使い、問題になっているそうです。
(機械翻訳を使うとしても、少なくともそれが正しいかどうか判断できるくらいの語学能力は必要なようです。)

午後②:Domain Adaptation

[1] Fine-Tuning for Neural Machine Translation with Limited Degradation across In- and Out-of-Domain Data(Praveen Dakwale氏ら)

ニューラル機械翻訳は最近提案されている方法で、従来の機械翻訳の方法に匹敵する結果が示されてきています。他のニューラルネットワークベースの方法と同様に、NMTはトレーニングデータが少ないドメインについては性能が低いという欠点もあります。ドメイン適応は、新しいドメインからのテストインスタンス上の大規模な汎用ドメインデータに訓練されたモデルの性能を向上させます。Fine-tuning(転移学習)は、NMTを含む様々なニューラルネットワークベースのタスクで実質的に改善を実証してきている、迅速かつ単純なドメイン適応方法です。しかし、それは汎用ドメインまたは原文ドメインのテスト文の性能が急激に低下するため、リアルタイム・アプリケーションでは好ましくありません。この急激な低下に対処するため、転移学習に2つの単純な変更を提案します。それはKnowledge Distillation(「知識の蒸留」) の枠組みに基づく多目的学習と多出力学習です。英語→ドイツ語の翻訳の実験では、この方法では訳文ドメインのタスクの単純な転移学習に匹敵する結果が示され、汎用ドメインのタスクの損失も比較的少なかったです。

[2] Exploiting Relative Frequencies for Data Selection(Thierry Etchegoyhen氏ら)

ここでは、in-domainコーパスとout-of-domainコーパス間で計算された相対度に基づいて、機械翻訳のドメイン適応を目的とするデータ選択方法を記述します。我々の方法は交差エントロピーの差に基づく最先端の方法と比較して、様々なデータスライスから作成されたモデルで、データスパースネスの減少およびBLEUスコアについて大幅に優れていました。また、この方法は、交差エントロピーを最小化するように設計された方法と比較して、perplexityが大幅に優れている or 匹敵する結果を示しました。out-of-domainのデータセットで未知語を取り出すための新しい方法も提示され、主要ドメインとの類似性が相対度によって決定される文を重み付けするために使用する場合、全体で最良のモデルとなりました。提案された方法は単純であり、外部リソースも複雑な設定も必要とせず、ドメイン適応シナリオ全体で非常に移植性が高い(highly portable)ものです。

*******************************

Fine-tuning(転移学習)Knowledge Distillation(「知識の蒸留」)機械学習用語ですね

⑤に続きます。

機械学習本が3冊届きました。

機械学習本×3

まだ届いたばかりで、全然読んでいないのですが、
ざっと紹介しときますね。


①左:『ゼロから作るDeep Learning ❷ ―自然言語処理編』
①が良かったので、続きを購入。今回は自然言語処理に特化されており、機械翻訳の仕組み(ベクトル、word2vec、RNN、LSTM、Attentionなど)について説明されています。実装しながら学ぶタイプの本です。

②中:『深層学習による自然言語処理 』
阪大の荒瀬由紀先生に薦めていただいたので、購入。通称「出た」本。ちなみに著者の1人の海野氏は、Chainerの生みの親らしいです。『ゼロから作るDeep Learning ❷ ―自然言語処理編』と比べて、理論重視。というか、ほぼ大学の教科書?

③右:『独学プログラマー Python言語の基本から仕事のやり方まで』
著者は「独学プログラマー」で、この本は著者が独学でゼロからプログラミングを学んだ体験に基づいて書かれたらしいです。
プログラミングも翻訳と同じで、勉強の仕方は「人それぞれなのかもしれませんが、
1つ見本となるフレームワークがあるのと、全くないところから自力で全部やるのは全然違います。
パラパラ見た感じ、書いてあることそのままやれば良さそう。例えば、「andの左右に与えられた式がTrueと評価される場合にTrueを返します。」レベル。詰まるところなくね?

ローズ三浦にとっては、今年の夏は「機械学習の夏」です♪
(翻訳実務は徐々に人に任せる感じで。)

Google社から、AutoML Translation発表されました。

これによりカスタマーは、自分でプログラムの構築やパラメータを調整することなく、
対訳データを入れるだけカスタマイズしたNMTエンジンが作れるようになります!

以前から画像版のAutoML Visionはありましたが、今回そのサービスがNLP(自然言語処理)とTranslation(翻訳)にも拡大されました。

ま、言うなれば、
一から料理していたのが、フ〇ーチェ🍸で牛乳入れるだけになったみたいな感じですねw
(その「牛乳」品質が問題なんですが(笑))

これは非常にスバラシイことですね!
自分的には、これ+翻訳者向けのアドオン(用語が簡単に反映できたり、です・ます調を指定できたり、数字のチェックが一発でできたり、翻訳者が作業しやすいやつ)があれば、
まぁまぁいけるようになるんじゃないか?という見通しです。
(どんなに技術が発達したとしても、NMTエンジンにかけただけで、どんな分野・種類の文書でも100%完璧な訳ができることはまず不可能なので)

ちなみにこのアドオン、私は自分で作る技術力は現在はないので、
誰か作ってください(笑)

猛暑が続いていますね。

本日はセミナー参加予定のお知らせです。
(※多忙のため、行けるかどうかはわかりません。)

まず、8/27東京開催の【JTCA×JTF コラボレーション企画】「機械翻訳の活用と、生産性の向上~生産性を上げるために本当に必要なこと~」です。
JTF側→https://www.jtf.jp/jtca_jtf/#
JTCA側→https://www.jtca.org/symposium/event.html

なんか、機械翻訳は使う前提で、
どうやって効率を上げていくか?という具体的な話のようです。
機械翻訳を活用するために本当に必要なものは何なのか→

・より精度の高い機械翻訳エンジンなのか機械翻訳のプログラム・アルゴリズムの向上?
・高レベルの演算処理ができるソフトウェアリソースなのかGPU等?
・言語的資産の有効活用なのか質の高い対訳コーパス?
・または作業者のマインドセットなのかPEの推進?
(※赤字は私の私見です。)

ちなみにコーディネーターはサンフレアさんですね・・・。
サンフレアさんは、
MT Summit、言語処理学会、人工知能学会で大きなスポンサーになられたり、
副社長は工学博士で京都大学長尾眞研究室に内地留学もされている機械翻訳研究者のガチ勢で、
今年6月の人事でAAMT副会長になられたにもかかわらず、
表立って機械翻訳を出してきてないので逆にコワいです。

ていうか、正直いつブツ出してくるの?という感じですwww

こちら参加費は無料ですが、事前申込が必要です。
私は一応申し込みました!(行けるかどうかはわかりません)


あと、『国立循環器病研究センター×ナレッジキャピタル~脳卒中から脳を守る!~』の第1回(脳卒中)と第2回(脳梗塞)にも可能であれば参加する予定です。

ちなみに第2回「脳梗塞の治療最前線:血栓を溶かす・取り除く治療」本日11時から受付開始なので、
興味がある方はお早めに♪(通常1日くらいで満席になります!)

人工知能学会イラスト。

6/5~6/8は、鹿児島へ人工知能学会に行ってきました。

お問い合わせにお返事できておらず申し訳ございません。
これから順次対応させていただきます。


期間中は学会が開催されているホテルに宿泊し、ホテルから一歩も出ず、4日間ずっと引きこもってました。
ホテルは朝食🍴(バイキング)が充実してました!

洋食。

和食。

鹿児島黒牛バーガー。
鹿児島黒牛バーガー。

ホテルからの眺め。

ホテルからの眺め・1

ホテルからの眺め・2

ホテルからの眺め・3
高台にあるので、見晴らしがいいです。桜島も見えます。
(ただし、交通の便が悪く、移動にはタクシー必須!)



学会の内容は、勉強になりましたが、
ブログとしては特にまとめません。

気になる方はTwitterの方で実況したので、
そちらをご覧ください。

AI女性。

平素は大変お世話になっております。

誠に勝手ではございますが、
6/5~6/8は人工知能学会全国大会参加のため、
ご連絡が取れなくなります。
(その間のお問い合わせは、6/9~順次対応させていただきます。)


大会の模様はTwitterの方でできる限り実況しますので、
興味がある方は見てくださいね☆(ゝω・)


エッジ・トランスレーション
代表 三浦由起子
お久しぶりです。

人工知能学会全国大会まで、1週間を切りました。
予稿集(全2894ページ)は誰でも無料で見られるので、興味ある人は見てね☆
できれば聴講するセッションの論文は読んでから行きたいのですが、時間ないかも・・・^^;

ちなみに昨日はSDL春季ロードショーが大阪であり、
筆者も当初参加予定にしてましたが、
多忙のためキャンセルしました・・・残念!

6月のスケジュールがヤバイです。

フツーに仕事しながら、IJETの委員(ボランティア)やって、【ローズ三浦の翻訳ブートキャンプ】の添削(無償)もしながらイベント行くのって、
正直エグいよ☆^^

明日は東大キャンパス内で第235回自然言語処理研究会・第121回音声言語情報処理研究会が行われます。

研究会の模様はなんとニコニコ生放送(ニコ生)でLive配信されます!(※一部配信されない内容もあるようです)

ヒマな人は見てね☆(ゝω・)

WHAT'S NEW?