これから翻訳業界では、機械翻訳の発展に伴い、新しい職種が生まれそうですね。
例えばコーパス管理者(仮)や、機械翻訳メンター(仮)とか。
コーパス管理者・・・機械翻訳に入っているデータの管理をする。
機械翻訳メンター・・・機械翻訳の精度を向上させるため、機械翻訳の訳文をチェックして、改善点を見つける。
いずれも上級翻訳者の仕事ですけどね。
というか、いずれ私は自分が翻訳会社経営者兼NMTエンジンのオーナーになるため、
勝手にそういう職業を自分で作って、人にやってもらうこともできます。
そうなるというよりは、そうするということです。
The best way to predict your future is to create it.
例えばコーパス管理者(仮)や、機械翻訳メンター(仮)とか。
コーパス管理者・・・機械翻訳に入っているデータの管理をする。
機械翻訳メンター・・・機械翻訳の精度を向上させるため、機械翻訳の訳文をチェックして、改善点を見つける。
いずれも上級翻訳者の仕事ですけどね。
というか、いずれ私は自分が翻訳会社経営者兼NMTエンジンのオーナーになるため、
勝手にそういう職業を自分で作って、人にやってもらうこともできます。
そうなるというよりは、そうするということです。
The best way to predict your future is to create it.
昨日は【JTCA×JTF コラボレーション企画】「機械翻訳の活用と、生産性の向上~生産性を上げるために本当に必要なこと~」のセミナー参加&商談のために、日帰りで東京に行ってまいりました。

大阪から行く上、東京駅着いてからも、セミナー会場である東京学芸大学まで小一時間かかるっていうwww
こんな辺境に朝から行く奴他にいねーだろwww
と思っていたら、
会場は満員(200名くらい)。
(他にサテライトの部屋もあった)
最初にエラい人達の挨拶があり、
(JTF会長の東社長も挨拶されていました)
次にSAPジャパン・佐野様のお話、
その次にMK翻訳事務所・梶木様のお話、
そしてJTCA黒田様のお話(※これはプログラムに書いてないし、資料もない)、
最後に質疑応答の時間が30分間ありました。
質疑応答では、
私からはSAPジャパン・佐野様には「MTサミット以降の日本語のポストエディット案件の変化、時間給にしたか」を質問し、
MK翻訳事務所・梶木様には「『学習型機械翻訳』とはどのようなものか、およびその導入をやめた理由」を質問しました。
午後からは東京駅周辺で商談だったので、
セミナー終了後すぐトンボ返り。
🍙を齧りながら移動するハメになりましたwww
スピーカーの方々と名刺交換する時間もありませんでした・・・
(このブログ見てたら連絡ください☆(ゝω・))
充実した東京出張でした!

大阪から行く上、東京駅着いてからも、セミナー会場である東京学芸大学まで小一時間かかるっていうwww
こんな辺境に朝から行く奴他にいねーだろwww
と思っていたら、
会場は満員(200名くらい)。
(他にサテライトの部屋もあった)
最初にエラい人達の挨拶があり、
(JTF会長の東社長も挨拶されていました)
次にSAPジャパン・佐野様のお話、
その次にMK翻訳事務所・梶木様のお話、
そしてJTCA黒田様のお話(※これはプログラムに書いてないし、資料もない)、
最後に質疑応答の時間が30分間ありました。
質疑応答では、
私からはSAPジャパン・佐野様には「MTサミット以降の日本語のポストエディット案件の変化、時間給にしたか」を質問し、
MK翻訳事務所・梶木様には「『学習型機械翻訳』とはどのようなものか、およびその導入をやめた理由」を質問しました。
午後からは東京駅周辺で商談だったので、
セミナー終了後すぐトンボ返り。
🍙を齧りながら移動するハメになりましたwww
スピーカーの方々と名刺交換する時間もありませんでした・・・
(このブログ見てたら連絡ください☆(ゝω・))
充実した東京出張でした!
MT Summitの感想⑤ - (1)です。
一気にまとめようとしたけど、Mike Dillinger氏のまとめがすごく長くなったので、
やむを得ず2つに分けますね。
⑤ - (1)は内山将夫氏とMike Dillinger氏のご講演のまとめです。
*******************************
最終日は昼からだったので、
午前中はホテルでゆっくりと過ごしました。
JTFワークショップには特別に同時通訳が付いてました。
(通訳のレベル高かった!)
聴講者は100名程度。
①技術レクチュア(NICT・内山将夫氏)
ニューラル自動翻訳(NMT)(←注:内山氏は自動翻訳という言い方をされています)は、コーパスに基づく自動翻訳技術(コーパスベースMT)の最新パラダイムであり、マトリクス(行列)演算が非常に速いそうです。
NMTにより新しくなった点は、注意機構(Attention mechanism)付きの「系列から系列への学習」と、GPUによる高速計算で、以前と同じ点は、人間による評価が必要であることと、大規模対訳コーパスが必要なことです。
翻訳精度とコーパスサイズの関係は、コーパスが大きいほどNMTはSMTより高精度になり、
その分岐点は100万文だそうです。
誰がどのようにコーパスベースMTを改善するか:
・アルゴリズムとハードウェア→研究者・開発者
・評価→利用者
・コーパス→みんなで協力!
NMTではアダプテーションが効果的であり、
まず汎用NMTを訓練+分野コーパスで汎用NMTを追加訓練するといいそうです。
また、高精度MTにはカスタマイズが必要だそうです(固有名詞など)。
評価については、自動評価はSMT同士、NMT同士の比較には便利ですが、
SMTとNMTの比較には向いていないため、
人間による評価(人間がどのように感じるか)がMTの研究開発に必須だそうです。
また、訳質は第1の目標ではなく、「原文」・「MT訳」・「ポストエディット」・「全部人間訳」のうちどれが一番利益になるかが重要だそうです。
内山氏は「翻訳バンク」への協力を呼びかけられ、「みんなで世界一の自動翻訳を作りましょう」と講演を締めくくられました。
(ちなみに翻訳バンクへデータ提供しても、汎用NMTを提供したデータでアダプテーションするため、差別化が可能だそうです。)
②招待講演(LinkedIn社・Mike Dillinger氏)
Mike Dillinger氏は現在はLinkedIn社のMT部門のマネージャー(MTエンジニア的なこともやる)ですが、元通訳者/翻訳者だそうです。
一説によれば、機械翻訳は2024年までにバイリンガル(ただし翻訳者ではない)レベル、2032年までに翻訳者レベルになるということです。
同氏は、機械翻訳 or 人間翻訳の二択ではなく、
そのハイブリッドの翻訳を提言されました。
(※機械翻訳はツールとして使うが、主導権を握るのはあくまで人間翻訳者側)
そのためには、安直に「翻訳の品質」と言うだけでなく、
人間翻訳者にできて、機械翻訳にできないことをさらに掘り下げます。
・顧客にどのような付加価値を与えるか?
・競合他社とどのように差別化するか?
機械翻訳ができないことの例:
・妥当性をチェックする
・言外の意味をチェックする
・様々なケースに合わせて語調とスタイルを調整する
・様々な読み手に適応する
・準備が不十分な原文に適応する
・変化するニーズに適応する
・変化するトピックに適応する
・原文の内容にフィードバッグを提供する
・人間の乱雑さの種類の変化に対処する
・コンテンツを市場のニーズに適応させる・・・
逆に人間翻訳者ができないことの例:
・数千件の翻訳例を確認する
・休憩せずに翻訳する
・複数の文の種類、文書の種類、プロジェクトの種類をの処理をはるかに良くする
・プロジェクトの特定のステップで効果的に作業する・・・
さすが元通訳者/翻訳者。
こういう具体例は生粋のMTエンジニアには思いつかないんだよね。
また、翻訳に使用するツールについて理解し、
独自のツールを構築するためにベンダーと協力することです。
・自分のMTシステムを訓練する
・PEの作業をAdaptive MTの作業に変更する(lilt.comを参照)
・人間の翻訳をチェックするためにMTを使用する?
・翻訳メモリをもっと積極的に管理する
"プロは道具の選び方を知っている"という例で、
人間翻訳・・・precision(精密さ、例えるならブラシ)
機械翻訳・・・coverage(処理量、例えるならローラー)
を出されていました。
そして、翻訳案件ごとにプロセスを分析し、どの道具が最適かを見極めることです。
機械翻訳+人間翻訳のハイブリット翻訳に必要なのは・・・
1、人間翻訳者と機械翻訳が、それぞれ翻訳にどのように貢献するかを理解する
2、人と機械でより豊かなコミュニケーションを行う(Adaptive MTやデータの可視化など)
3、MTシステムをもっとコントロールできるものにする
*******************************
⑤ - (2)に続きます。
今さらだけど、MT Summitの4日目(21日分)です。
※1年近く前の話だということをご承知おきください。
ま、NICTの隅田氏はこの6月にAAMT会長になられたし、
最終日(5日目、後で書きます)のJTFワークショップのMike Dilinger氏は、JTF翻訳祭2018でも招待講演されるので、
おさらいとして丁度いい機会かもね。
*******************************
午前①:Social Innovation Based on Speech-to-Speech Translation Technology Targeting the 2020 Tokyo Olympic/Paralympic Games(隅田英一郎氏、NICT)
Speech Translationについての講義。
NICTはVoiceTraというスマホアプリを所持。
富士通は、医療分野のウェアラブル型ハンズフリー音声翻訳端末を9/19に発表(東大病院とNICTと共同で臨床試験を実施した)。
また、隅田氏はTexTraについても触れ、「ユーザ辞書がvitalである」と述べられました。
NMTは、今まではDeep learningに注力していましたが、最近はTranslation dataが重視されているそうです。
webに出ている翻訳はわずか20%であり、出ていない翻訳が80%を占めるらしいです。
そこで、オール・ジャパン体制で翻訳データを集積する「翻訳バンク」を呼びかけられていました。
同氏は、MT is surpassing average Japanese persons(機械翻訳は平均的な日本人を上回ってきている)と述べられました。また、自動翻訳を『育てながら活用する』ことを説かれていました。
NICTが開発中の同通システムは、word-to-wordではなく、chunk-to-chunkだそうです。
同氏は、「No MT, No Life」という力強い言葉で講演を結ばれました。
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
午前②:Evaluation and Cognitive Model
[1] A Comparative Quality Evaluation of PBSMT and NMT using Professional Translators(Sheila Castilho氏ら)
同氏らは、4つの言語ペア(ドイツ、ギリシア語、ポルトガル語、ロシア語。日本語なし)におけるPBSMTとNMTの比較評価を報告しました。試験にはPETインタフェースを使用し、自動評価だけではなく、人(プロ翻訳者)による妥当性・流暢性、エラー種類のマークアップ、ポストエディットの(技術的および時間的)作業のランキングを含めた様々なメトリックを使用し、教育分野の翻訳結果をPBSMTとNMTで比較しました。結果は比較によりランク付けされ、全言語ペア、文章、および分節の長さについて、NMTが優れていることが示されました。さらに、流暢さの認識が改善され、語順エラーはNMTの方がより少なかったそうです。
[2] One-parameter models for sentence-level post-editing effort estimation(Mikel L. Forcada氏ら)
MTのポストエディットに必要な作業量を予測する方法は、MTを翻訳業界でより役立つものにするために有望であると考えられます。様々な方法が提案されてきており、その機能とパラメータの数はますます増加し、複雑になってきていますが、問題は解決には程遠いです。ここでは、作業量の指標としてポストエディットにかかる時間に注目し、一歩退いてデータの一般的特性に基づくパラメータが1つの(非常に単純で解釈が容易である)estimatorのパフォーマンスを分析しました。
分析は以下について行いました:
(a)トレーニングセットで測定したポストエディット時間の重みの平均値(※「重み」とは、新しいセグメントとトレーニングデータ間の修正距離の指数関数)
(b)セグメントの長さの一次関数としてのポストエディット時間
(c)原文と訳文の統計的言語モデル
これらの単純なestimatorは、強固なベースラインを上回り、驚くべきことにより複雑なestimator(パラメータ数が多く、豊富な機能を組み合わせているもの)に匹敵しました。
このことにより、ポストエディットの作業量のpredictorを構築するには、盲目的に洗練された機械学習アプローチを試みる前にまず単純で直感的で解釈可能なモデルを検討し、新しい機能を追加して徐々に複雑にすることによって、段階的に改善すべきであることが示唆されました。
[3] A Minimal Cognitive Model for Translating and Post-editing(Moritz Schaeffer氏ら)
本試験では、全文翻訳とポストエディットの読み(インプット)と書き(アウトプット)の協調について調査を行いました。目の動きを記録したデータとキーを記録したデータを読み書きの最小単位に分割し、ポストエディットと全文翻訳のプロセスをマルコフモデルとしてモデル化しました。翻訳者とポストエディターが原文または訳文を読むのに費やした時間によって、継続的に文字を打っている確率を高い精度で予測することができます。さらに、文字を打っている確率は、原文と訳文で意味と構文の性質がどの程度似ているかによっても決定されることが示されました。 最小認識のマルコフモデルによって、翻訳中にインプット(読み)とアウトプット(書き)の間に生じるプロセスで役割を担う非常に基本的な要因が明らかになりました。
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
午前①:
◇Poster Presentations◇
自由行動(希望者がポスターの前に行くと、ポスター作成者がポスターの前に待機しており、説明してくれる)。
私は、「Machine Translation as an Academic Writing Aid for Medical Practitioners」にお邪魔させていただきました。
担当していただいたADAPT Centre(アイルランド・ダブリン)のCarla教授(女性)は、1日目の「MT for Academic Writing: A Hands-On Workshop」の事前課題の提出でやりとりしていた方だったので、実物に会えた―!て感じでしたね。
「機械翻訳は医療分野の実務で使えると思いますか?」
という私の問いに、
「はい。ただし、carefulに」
という返答をいただきました。
スペインでは英語能力が低い移民が機械翻訳を使い、問題になっているそうです。
(機械翻訳を使うとしても、少なくともそれが正しいかどうか判断できるくらいの語学能力は必要なようです。)
午後②:Domain Adaptation
[1] Fine-Tuning for Neural Machine Translation with Limited Degradation across In- and Out-of-Domain Data(Praveen Dakwale氏ら)
ニューラル機械翻訳は最近提案されている方法で、従来の機械翻訳の方法に匹敵する結果が示されてきています。他のニューラルネットワークベースの方法と同様に、NMTはトレーニングデータが少ないドメインについては性能が低いという欠点もあります。ドメイン適応は、新しいドメインからのテストインスタンス上の大規模な汎用ドメインデータに訓練されたモデルの性能を向上させます。Fine-tuning(転移学習)は、NMTを含む様々なニューラルネットワークベースのタスクで実質的に改善を実証してきている、迅速かつ単純なドメイン適応方法です。しかし、それは汎用ドメインまたは原文ドメインのテスト文の性能が急激に低下するため、リアルタイム・アプリケーションでは好ましくありません。この急激な低下に対処するため、転移学習に2つの単純な変更を提案します。それはKnowledge Distillation(「知識の蒸留」) の枠組みに基づく多目的学習と多出力学習です。英語→ドイツ語の翻訳の実験では、この方法では訳文ドメインのタスクの単純な転移学習に匹敵する結果が示され、汎用ドメインのタスクの損失も比較的少なかったです。
[2] Exploiting Relative Frequencies for Data Selection(Thierry Etchegoyhen氏ら)
ここでは、in-domainコーパスとout-of-domainコーパス間で計算された相対度に基づいて、機械翻訳のドメイン適応を目的とするデータ選択方法を記述します。我々の方法は交差エントロピーの差に基づく最先端の方法と比較して、様々なデータスライスから作成されたモデルで、データスパースネスの減少およびBLEUスコアについて大幅に優れていました。また、この方法は、交差エントロピーを最小化するように設計された方法と比較して、perplexityが大幅に優れている or 匹敵する結果を示しました。out-of-domainのデータセットで未知語を取り出すための新しい方法も提示され、主要ドメインとの類似性が相対度によって決定される文を重み付けするために使用する場合、全体で最良のモデルとなりました。提案された方法は単純であり、外部リソースも複雑な設定も必要とせず、ドメイン適応シナリオ全体で非常に移植性が高い(highly portable)ものです。
*******************************
Fine-tuning(転移学習)やKnowledge Distillation(「知識の蒸留」)は機械学習用語ですね。
⑤に続きます。
自分の翻訳の単価は、どうやって決めればいいのだろうか。
もちろん、何円に設定するかはそれぞれの自由だが、
商売である以上、ある程度は相場というものが存在する。
これは翻訳会社側になればすぐわかることなのだが、
(というか、一番知ってるのは翻訳コーディネーターだと思う)
フリーランス翻訳者は基本的に自分の翻訳しか知らないため、
自分の翻訳を過大評価してしまったり、逆に過小評価してしまったりしがちである。
私のオススメとしては、
①セミナーに出かけ、レベルの高い質問をしている人に話しかけて単価を聞く
②飲み会などの会話から、他の翻訳者の単価を推測する
そして、
③自分の翻訳が全体から見てどのレベルかを知る
ことである。
他の翻訳者のレベルと単価を比較して、
「Aさんが〇〇円、Bさんが●●円なら、自分は△△円くらいかな」
と自分の翻訳の市場価値を推測していくのである。
スイーツで休憩。

もちろん、何円に設定するかはそれぞれの自由だが、
商売である以上、ある程度は相場というものが存在する。
これは翻訳会社側になればすぐわかることなのだが、
(というか、一番知ってるのは翻訳コーディネーターだと思う)
フリーランス翻訳者は基本的に自分の翻訳しか知らないため、
自分の翻訳を過大評価してしまったり、逆に過小評価してしまったりしがちである。
私のオススメとしては、
①セミナーに出かけ、レベルの高い質問をしている人に話しかけて単価を聞く
②飲み会などの会話から、他の翻訳者の単価を推測する
そして、
③自分の翻訳が全体から見てどのレベルかを知る
ことである。
他の翻訳者のレベルと単価を比較して、
「Aさんが〇〇円、Bさんが●●円なら、自分は△△円くらいかな」
と自分の翻訳の市場価値を推測していくのである。
スイーツで休憩。

機械学習本が3冊届きました。

まだ届いたばかりで、全然読んでいないのですが、
ざっと紹介しときますね。
①左:『ゼロから作るDeep Learning ❷ ―自然言語処理編』
①が良かったので、続きを購入。今回は自然言語処理に特化されており、機械翻訳の仕組み(ベクトル、word2vec、RNN、LSTM、Attentionなど)について説明されています。実装しながら学ぶタイプの本です。
②中:『深層学習による自然言語処理 』
阪大の荒瀬由紀先生に薦めていただいたので、購入。通称「出た」本。ちなみに著者の1人の海野氏は、Chainerの生みの親らしいです。『ゼロから作るDeep Learning ❷ ―自然言語処理編』と比べて、理論重視。というか、ほぼ大学の教科書?
③右:『独学プログラマー Python言語の基本から仕事のやり方まで』
著者は「独学プログラマー」で、この本は著者が独学でゼロからプログラミングを学んだ体験に基づいて書かれたらしいです。
プログラミングも翻訳と同じで、勉強の仕方は「人それぞれ」なのかもしれませんが、
1つ見本となるフレームワークがあるのと、全くないところから自力で全部やるのは全然違います。
パラパラ見た感じ、書いてあることそのままやれば良さそう。例えば、「andの左右に与えられた式がTrueと評価される場合にTrueを返します。」レベル。詰まるところなくね?
ローズ三浦にとっては、今年の夏は「機械学習の夏
」です♪
(翻訳実務は徐々に人に任せる感じで。)

まだ届いたばかりで、全然読んでいないのですが、
ざっと紹介しときますね。
①左:『ゼロから作るDeep Learning ❷ ―自然言語処理編』
①が良かったので、続きを購入。今回は自然言語処理に特化されており、機械翻訳の仕組み(ベクトル、word2vec、RNN、LSTM、Attentionなど)について説明されています。実装しながら学ぶタイプの本です。
②中:『深層学習による自然言語処理 』
阪大の荒瀬由紀先生に薦めていただいたので、購入。通称「出た」本。ちなみに著者の1人の海野氏は、Chainerの生みの親らしいです。『ゼロから作るDeep Learning ❷ ―自然言語処理編』と比べて、理論重視。というか、ほぼ大学の教科書?
③右:『独学プログラマー Python言語の基本から仕事のやり方まで』
著者は「独学プログラマー」で、この本は著者が独学でゼロからプログラミングを学んだ体験に基づいて書かれたらしいです。
プログラミングも翻訳と同じで、勉強の仕方は「人それぞれ」なのかもしれませんが、
1つ見本となるフレームワークがあるのと、全くないところから自力で全部やるのは全然違います。
パラパラ見た感じ、書いてあることそのままやれば良さそう。例えば、「andの左右に与えられた式がTrueと評価される場合にTrueを返します。」レベル。詰まるところなくね?
ローズ三浦にとっては、今年の夏は「機械学習の夏

(翻訳実務は徐々に人に任せる感じで。)