2日目その2(19日午後分)です。
このへんがよくわからないので、専門家の方教えてください。→2017/11/17修正:『【TensorFlow 1.3・Python3 で学ぶ】時系列データ処理入門(RNN/LSTM, Word2Vec)』を受講して、自己解決しました。
*******************************
午後のプログラムはIAMT Award of Honor Ceremonyで始まりました。
人工知能研究センター(AIRC)の研究センター長である辻井潤一氏が受賞されました。おめでとうございます!
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
午後①:NMT Technologies and Their Futures – Baidu, Google and Microsoft
[1] Practical Machine Translation(Wu Hua氏、Baidu社)
Baidu社は、中国の最大手の検索エンジンの会社です。
NMTの仕組みと弱点を簡単に説明され、
今後はNMTの精度をSMTの特徴(phrase、syntax、coverageなど)によって高めることを述べられていました。
今後はNMTのGeneral DomainにIn-domain Corporaを追加し、
General Model→Adapted Modelにする(その間はfine tuningが必要)ことで、
翻訳精度を上げるとおっしゃっていました。
最後に自動翻訳機能付のWifiルーターのデモをされました(日←→中)。
私は中国語がわからないので本当に翻訳できているのかはわからなかったのですが、
ちょっとしたshowでしたね。
[2] Google Neural Machine Translation: Status and Challenges(賀沢 秀人氏、Google社)
超有名企業の方なのに、白いパーカーというラフな服装。
Google社は、対訳データを複数の言語で1つのデータセットにしてトレーニングしているそうです。
(例:日本語[こんにちは]-英語[Hello]、中国語[你好]-英語[Hello]でそれぞれ別にトレーニングするのではなく、日本語[こんにちは]+中国語[你好]-英語[Hello]で一気にトレーニングする)
また、NMTの欠点を説明されるのに、面白い例を使われていました。
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
日本語 英語
すき Like
すきすき I love you
すきすきすき I love you
すきすきすきすき I love you so much
すきすきすきすきすき To lose weight ←ん?
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
Why Google People!?
(Why Japanese People!?風)
ま、すきも言われ過ぎるとゲッソリするってことですかねwww←超意訳w
この現象を賀沢氏はバタフライ効果に例えていらっしゃいました。
しかし、今日Google翻訳かけたら、修正されてましたw(日進月歩だな)
[3] The Neural Renaissance: Achieving Critical Mass in Text and Speech Translation(William Lewis氏、Microsoft社)
Lewis氏が喋った内容が、スクリーンにリアルタイムでテキスト化されて表示される(www.translate.it/CHADQ)
という、一種のデモも兼ねてましたね。
スクリーンに表示されるテキストにほとんどミスがないことに驚きました。
しかし、参加者がやってみると、あまり正確にテキスト化されませんでした。
(おそらくLewis氏の発音がめっちゃ明瞭だからうまくいったのだと思います。後からご本人に聞いたら「めっちゃ練習したんだよ~」とおっしゃってました。)
発表自体は中国語についての例だったので、あまり参考になりませんでした。
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
午後②:Hybrid Method
[1] Neural Pre-Translation for Hybrid Machine Translation(Jinhua Du 氏ら)
ハイブリッド機械翻訳(HMT)とは、複数の種類のMTシステムのそれぞれの利点を活かして、翻訳パフォーマンスを向上させる機械翻訳の方法です。
同氏らは、翻訳の品質を向上させるためにNMTとPB-SMT(フレーズベース統計翻訳)を組み合わせた
cascaded hybrid frameworkを提案しています。
具体的には、
①訓練済NMTで訓練データを事前翻訳(pre-translate)する
②事前翻訳した訓練データを使用してSMTシステムを構築する
③事前翻訳した開発セットを使用してパラメータを調整する
④SMTシステムで事前翻訳したテストセットを再度decodeし、最終結果を生成する
その結果、NMT→SMTのハイブリッド機械翻訳では、翻訳パフォーマンスが大幅に向上した(対象言語:日本語→英語、中国語→英語)とのことです。
【補足】
①原文にOOV(Out of Vocabulary)があった場合、NMTが「UNK」トークンを生成
②翻訳時にUNKをsource wordに置換
→クオリティが向上する
とのことですが、
[2] Neural and Statistical Methods for Leveraging Meta-information in Machine Translation(Shahram Khadivi氏ら)
Shahram Khadivi氏は、eBayの方。
機械翻訳の品質を向上させるための、ソース言語のインプットに伴うメタ情報と豊富な文脈を使った様々な方法についての発表です。
同氏らは、ソース側のトピック/カテゴリのラベルをより活用するため、単語の翻訳に原文全体をencodeするbidirectional LSTMを導入しました。
その結果、BLEU(翻訳の自動評価)スコア、および人間による再評価によって改善が認められたものの(対象言語:英語→イタリア語)、
テストセットには依然として正しく翻訳されていない多義語が多かったとのことです。
*******************************
ちなみにGoogleの賀沢さんがお世話をしてくださってる関東MT勉強会(無料)の参加「希望」が、本日(9/29)締切です。
ただし、収容人数の都合で、参加「希望」を出しても必ず参加できるわけではないようです。(あくまで参加「希望」です。学生優先で、企業はくじ引きになるそうです)
詳細は上記リンクをご覧ください。
③に続きます。
2日目その1(19日午前分)です。
午前①:MT and AI: Probing Near- and Medium-Term Impacts
この前1日ずつ書くと言いましたが、それでも長いので、
場合によっては1日をさらに(1)(2)に分けて書きたいと思います。
*******************************
2日目の朝は、豊田講堂ホールで初代AAMT/IAMT会長である長尾真先生(京都大学名誉教授・元総長、元国立国会図書館長)の開会のあいさつで始まりました。
長尾先生は、
「近い将来、機械翻訳は人間翻訳を超えると信じている」
「機械翻訳は世界平和へのカギである」
とおっしゃられたのが印象的でした(英語でしたので、聞き間違いでしたら申し訳ございません)。
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
午前①:MT and AI: Probing Near- and Medium-Term Impacts
[1] Chris Wendt氏(Microsoft社)
MTはAIの一部であり、
AIは、
①ANI(Artificial Narrow Intelligence)
②AGI(Artificial General Intelligence)
③ASI(Artificial Superintelligence)
の順に進化し、
現在実現されているのは①ANI(Artificial Narrow Intelligence)のみですが、
徐々に②の方向に進化しているということ。
[2] Tony Hartley氏(立教大学)
教育者として、
"Re-assure potential students that NMT will not kill job prospects, but open new ones."(「NMTは仕事を奪うものではなく、新たな仕事を生み出すものである」と、生徒候補を安心させる)
ことを説かれていました。
そして、MTの開発には、
"contributions of linguistics and computer science"(言語学とコンピュータサイエンスの両方の協力)"
が必要であるとおっしゃられました。
この方は、どちらも知ってる方ですからね。
[3] Olga Beregovaya氏(Welocalize社/AMTA会長)
この方は女性ですが、アメリカ機械翻訳協会の会長です(MTエンジニア)。
MTは実際にビジネスに活用されており、
時には恋も実らせる♡(実話)そうです。
MTの普及はwithout borders(国境を越えて)であり、
品質の向上が求められているそうです。
[4] 武田珂代子氏(立教大学)
同通システムについて述べられていました。
[5] Marine Carpuat氏(University of Maryland)
"How could MT augment translators/interpreters performance?"(MTによってどのように翻訳者/通訳者のパフォーマンスを上げるか)という視点でお話されていました。
テストに人間翻訳者を使うと非常にコストがかかるため、代わりにバイリンガルを使うということです。
また、MTは長期的に言語そのもののに影響を及ぼすのではないか?という問題については、
言葉は自然に変わっていくものというお話でした。
[質疑応答]
パネリスト全員が参加者からの質問に回答されました。
翻訳会社の方から、
「NMTには"ブラックボックス"があり、訳語が一定ではないが、この問題はどうするのか?」
という質問に対し、
Marine Carpuat氏は、
「interesting proposal(面白い提案)が出ており、classifierを使ってNMTの訳語のdecisionをわかるようにするというというものがあります」
と述べられました。
【補足】Pascale Fung氏(Hong Kong University of Science and Technology)は来られず、
代わりにMarine Carpuat氏(University of Maryland)がパネリストとして参加されていました。
パネリストはすごい方ばかりですが、
特に興味深いのが、Tony Hartley(立教大学)氏。
この方は元翻訳者・会議通訳者で、コンピュータサイエンスを勉強し直したそうです(大学で修士号を取得)。
私は翻訳者側からMTを勉強しようとしていますが、
すでにそういういう方がいるということに驚きました。
(最終日のJTFワークショップのMike Dillinger氏やManuel Herranz氏も元翻訳者だそうです。)
computational linguistって最近の職業かと思っていましたが、
この方がその初期の方かもしれません。
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
午前②:Enhancement of NMT I
[1] Empirical Study of Dropout Scheme for Neural Machine Translation(Xiaolin Wang氏ら)
Dropout Schemeとは、要するにこういうやつらしいです(イメージ)。
Dropout Schemeは、over-fittingを緩和するらしいです。
結論として、"Heavy dropout can improve performance on different corpora."(対象言語:中国語→英語、英語→日本語)と述べられていました。
[2] A Target Attention Model for Neural Machine Translation(美野 秀弥氏ら)
NMT特有の問題であるover/under generationについて、
over generationは、ソース側のトークンが重複して翻訳され、
under generationはソース側のトークンが翻訳されないことで生じるそうで、
これを緩和するために、美野氏らは各トークンにAttentionがより効率的に(より多く/少なく)あたるように、ターゲット側のAttentionのメカニズムを導入する試験を行いました。(対象言語:英語→日本語の3種類のデータセット)
結論として、
"Source/target attention model improved over/under generation."
と述べられました。
【補足】本会では、PanelやInvited Talk以外のセッションは3つに分かれており、参加者が自由に選べるようになっていました。
筆者は、基礎研究に近いものを選択しました(例:Evaluation and Cognitive Model、Data Construction、QA and Terminologyの3つならEvaluation and Cognitive Model)。
もちろん、Data ConstructionやQA and Terminologyも大事ですが、
それはEvaluation and Cognitive Modelの後の段階なので、
Evaluation and Cognitive Modelの時点で精度が低かったら、
いくらData ConstructionやQA and Terminologyをイジっても意味がないので。
*******************************
わかりやすいように内容を端折った&発表は全部英語で行われたために聞き間違いがあるかもしれませんので、
詳細は各発表者までご確認&お問い合わせください。
19日午後分は② - (2)に続きます。
お待たせしました。MT Summitの感想①です。
1日ずつ+総評を書こうと思います。
まずは1日目(18日)。
当日の朝大阪を出発。
乗り換えに手間取ってしまい、30分程度余裕を見ていたのに、実際ワークショップの部屋に到着したのは3分前でした。文字通り汗だくで到着しました(;´Д`)
豊田講堂にオオーーッ!!!(゜o゜)となりました。
午前中は「MT for Academic Writing: A Hands-On Workshop」に出席しました。
参加者は10名程度だったのに、知り合いが3人もいましたw
このワークショップは翻訳者向けというより、
自分で論文を書く人(大学教授、研究者等)向けでしたね。
他の参加者は大学教授や研究者等だったので、
正直議論のレベルが高かった。。(ついていけず)
ポストエディット後、他の方たちは「文章の構造を全部変えないといけないので、自分で書いた方が早い」とおっしゃっていました。中には全文を書き直したという方もおられました。(ご自身が書かれた文章なので、こだわりも含まれているのかもしれませんが)
主催者側の調査によれば、
・ポストエディットのワード数は、一から翻訳するよりも少なくなる(全言語)
・ポストエディットの時間は、アラビア語と中国語では一から翻訳するよりも長くなる
だそうです。
事後アンケートで、
「今後Academic WritingでMTを使うと思いますか?」という質問があり、
私は4段階中2(4が最高)を付けました。
理由として、
私は事前に日本語の医学論文を提出したのですが、
上がってきた英語の訳文はMT特有の問題(over/under generation、misunderstanding、erroneous selection等)はないものの、
ジャーナル投稿レベルではないと感じました(初心者の翻訳者レベル)。
上がってきた英語の訳文はMT特有の問題(over/under generation、misunderstanding、erroneous selection等)はないものの、
ジャーナル投稿レベルではないと感じました(初心者の翻訳者レベル)。
MTはまだまだAcademic Writingレベルではないようですね・・・。
ちなみにMT Summitのために買ったデジタルノートが大活躍☆
(タブレットをお持ちの方は、それに手書きアプリをダウンロードすれば十分だと思います。)
1日目はこれで終了(午前だけ)。
*******************************
午後からは観光してました。
名古屋城。
名古屋城(近くから)。
金鯱!(名古屋城内の展示。)
観光後に抹茶アイスを食べました。うまし!!!
本当はその後美術館にも行く予定だったのですが、
名古屋城で歩き疲れてしまい、
明日に差し支えるといけないのでやむなく美術館は中止し、
名古屋城観光後はホテルに直行しました。
ホテル到着後はすぐ爆睡☆
*******************************
②に続きます。
昨日無事にMT Summitが終わり、大阪に戻ってきました。

MT Summitについてのご報告は、余裕がある時に順次させていただきます。
(5日分ですので、まとめるのに非常に時間がかかりますので)
さて、この度JTF翻訳祭のミニ講演会(10分間)でお話させていただくことになりました。
(ミニ講演会の登壇者プロフィールの一番下で、<プレゼン・製品説明コーナー>の真上です。かなり下の方です)
表題は「AI時代の翻訳者として」。
今回のMT Summitや、次回の関西MT勉強会(11/18)のことも話す予定ですので、
みんな来てね!^^
(時間帯は現在未定。)
ついでに、プロフィール欄にセミナー参加予定を追記しました。
興味がある方はどうぞ☆

MT Summitについてのご報告は、余裕がある時に順次させていただきます。
(5日分ですので、まとめるのに非常に時間がかかりますので)
さて、この度JTF翻訳祭のミニ講演会(10分間)でお話させていただくことになりました。
(ミニ講演会の登壇者プロフィールの一番下で、<プレゼン・製品説明コーナー>の真上です。かなり下の方です)
表題は「AI時代の翻訳者として」。
今回のMT Summitや、次回の関西MT勉強会(11/18)のことも話す予定ですので、
みんな来てね!^^
(時間帯は現在未定。)
ついでに、プロフィール欄にセミナー参加予定を追記しました。
興味がある方はどうぞ☆
平素は格別のご高配を賜り、厚く御礼申し上げます。
表題のとおり、MT Summitへ参加するため、
9/18~22は、ご連絡が取れなくなります。
(9/23~順次対応させていただきます。)
悪しからずご了承ください。
MT Summitへ参加する方は、よろしくお願いいたします。
Notice
Attending the MT Summit, I won't be available between September 18 and 22.
Sorry for your inconvenience.
For the attendees: See you soon in Nagoya!
表題のとおり、MT Summitへ参加するため、
9/18~22は、ご連絡が取れなくなります。
(9/23~順次対応させていただきます。)
悪しからずご了承ください。
MT Summitへ参加する方は、よろしくお願いいたします。
Notice
Attending the MT Summit, I won't be available between September 18 and 22.
Sorry for your inconvenience.
For the attendees: See you soon in Nagoya!
今回の号はかなり分厚いですねw
色々あるけど、今回は「トライアル」と「機械翻訳」についてのみ言及します。
☆トライアル大解剖☆
今回の号を買ったのは、
トライアルに自分が受かりたいからではなく、
雇用者側として『どのような人を採用すればいいか』の基準を知りたいからです。
ぶっちゃけ、雇用者側は自分が『いい』と言えばいいのですが(極端な話、全員受からせようと思えば受からせられる)、
ある程度の基準はいると思う。
内容はまあ、普通のことしか書いてなかったけど、
私の経験から言うとすれば、トライアルを重ねるうち、ヒッカケに気付くようになる。
何でもない、よく見る単語でも、
「これ、ヒッカケじゃないの?」と
カンが働くようになるのである。
例えば、医療分野ではindicationは「適応」っていう意味もあるし、
ステントのplacementは「留置」っていう日本語訳になるので。
差が出るとしたら、多分そういうとこじゃないかな~?
ちなみに筆者自身は最近あまりトライアルを受けていません。
トライアルのお話自体は結構いただくのですが、
トライアルなしで前払いしてくれるお客様もいらっしゃるので、
トライアル受ける手間&受けた結果落ちる or 冷やかしの場合のロスを考えると、
あんまり意味がないかな、っていう感じです。
☆機械翻訳 最前線☆
かなり詳しい内容。素人にもわかりやすくまとめられてます(こんだけ専門的な内容を素人にもわかるように書ける編集の人すごいな!)。
量が多いので、ここでは割愛させていただきます。興味ある人は買って読んでくださいw
ヒューマンサイエンスさんの中山雄貴氏によると、
「NMTは質の良い対訳データが20万文あれば機能するとされています。」
えっ、専門家の方から最低でも50万件以上(普通は100万件程度)は必要って聞きましたけど?
(どっちが本当なの?)
機械翻訳については、他にもネット上で川村インターナショナルさんが「機械翻訳の現状と未来」というインタビュー記事を掲載されており、(川村インターナショナルさんは自社のNMTエンジンをお持ちとのこと)、
インタビューの相手であるAAMT会長の中岩宏巳氏は、
「まさに今の段階でいかに最先端の技術を把握してそれをビジネスに取り込んでいくか。特にユーザーの方々にとっては重要な局面になると思います。」
と述べられています。
何かとんでもないところに行こうとしてるんじゃないの?と思えてきて、
MT Summit行くの今から怖くなってきた。。
(ま、行くけどさw)
色々あるけど、今回は「トライアル」と「機械翻訳」についてのみ言及します。
☆トライアル大解剖☆
今回の号を買ったのは、
トライアルに自分が受かりたいからではなく、
雇用者側として『どのような人を採用すればいいか』の基準を知りたいからです。
ぶっちゃけ、雇用者側は自分が『いい』と言えばいいのですが(極端な話、全員受からせようと思えば受からせられる)、
ある程度の基準はいると思う。
内容はまあ、普通のことしか書いてなかったけど、
私の経験から言うとすれば、トライアルを重ねるうち、ヒッカケに気付くようになる。
何でもない、よく見る単語でも、
「これ、ヒッカケじゃないの?」と
カンが働くようになるのである。
例えば、医療分野ではindicationは「適応」っていう意味もあるし、
ステントのplacementは「留置」っていう日本語訳になるので。
差が出るとしたら、多分そういうとこじゃないかな~?
ちなみに筆者自身は最近あまりトライアルを受けていません。
トライアルのお話自体は結構いただくのですが、
トライアルなしで前払いしてくれるお客様もいらっしゃるので、
トライアル受ける手間&受けた結果落ちる or 冷やかしの場合のロスを考えると、
あんまり意味がないかな、っていう感じです。
☆機械翻訳 最前線☆
かなり詳しい内容。素人にもわかりやすくまとめられてます(こんだけ専門的な内容を素人にもわかるように書ける編集の人すごいな!)。
量が多いので、ここでは割愛させていただきます。興味ある人は買って読んでくださいw
ヒューマンサイエンスさんの中山雄貴氏によると、
「NMTは質の良い対訳データが20万文あれば機能するとされています。」
えっ、専門家の方から最低でも50万件以上(普通は100万件程度)は必要って聞きましたけど?
(どっちが本当なの?)
機械翻訳については、他にもネット上で川村インターナショナルさんが「機械翻訳の現状と未来」というインタビュー記事を掲載されており、(川村インターナショナルさんは自社のNMTエンジンをお持ちとのこと)、
インタビューの相手であるAAMT会長の中岩宏巳氏は、
「まさに今の段階でいかに最先端の技術を把握してそれをビジネスに取り込んでいくか。特にユーザーの方々にとっては重要な局面になると思います。」
と述べられています。
何かとんでもないところに行こうとしてるんじゃないの?と思えてきて、
MT Summit行くの今から怖くなってきた。。
(ま、行くけどさw)
納品オワタ━━(゚∀゚)━━!!!
8/17の午後からほぼ缶詰状態だったのでツラかったですが、
約20日での過去最高金額を稼ぎました。
さてと、9/18~のMTサミットに向けて予習&準備するか。
今日は日々の業務で気付いたことと、今後の方針をメモします。
☆AI☆
・機械学習を勉強していて気付いたが、機械学習はMTだけではなく色々なことに応用できそう。
例えば、「新規の取引先がブラックである確率」を出したりとか、ブログを代わりに書いてもらったりとか(笑)
しかし筆者は所詮ど素人なので、実務で使えるレベルにするにはプロのサポートが必要。
☆海外送金の手数料☆
・手数料はPayPalの方が銀行振込より安いと思い込んでいたが、実際はそうでもない。約2000ドルの場合、PayPalだと約7000円取られたが、銀行振込だと1500円で済んだ(実績)。
自分の経験上、数万円まではPayPalの方が安いが、数十万円レベルになると銀行振込の方が安い(※詳細はご自身でご確認ください)。
☆人材獲得☆
・自分自身が手一杯の間に翻訳案件が5件(計50~60万円分くらい)来た。何人かに頼もうとしたが断られた。
結果、失注。
下手な人に頼むくらいなら断った方がいいが、事業拡大するなら人材獲得が課題。
**********************************************
ほぼ希望的観測(妄想)となりましたが、
実現できるように日々行動していきます。
8/17の午後からほぼ缶詰状態だったのでツラかったですが、
約20日での過去最高金額を稼ぎました。
さてと、9/18~のMTサミットに向けて予習&準備するか。
今日は日々の業務で気付いたことと、今後の方針をメモします。
☆AI☆
・機械学習を勉強していて気付いたが、機械学習はMTだけではなく色々なことに応用できそう。
例えば、「新規の取引先がブラックである確率」を出したりとか、ブログを代わりに書いてもらったりとか(笑)
しかし筆者は所詮ど素人なので、実務で使えるレベルにするにはプロのサポートが必要。
☆海外送金の手数料☆
・手数料はPayPalの方が銀行振込より安いと思い込んでいたが、実際はそうでもない。約2000ドルの場合、PayPalだと約7000円取られたが、銀行振込だと1500円で済んだ(実績)。
自分の経験上、数万円まではPayPalの方が安いが、数十万円レベルになると銀行振込の方が安い(※詳細はご自身でご確認ください)。
☆人材獲得☆
・自分自身が手一杯の間に翻訳案件が5件(計50~60万円分くらい)来た。何人かに頼もうとしたが断られた。
結果、失注。
下手な人に頼むくらいなら断った方がいいが、事業拡大するなら人材獲得が課題。
**********************************************
ほぼ希望的観測(妄想)となりましたが、
実現できるように日々行動していきます。