翻訳者視点からの翻訳のAIの考察①

 29, 2017 10:41
とりあえず、自分で勉強してきた現時点での考察を書いときます。
素人意見なので間違ってるかもしれません。また、後程意見が変わるかもしれません。
(専門家の方、間違っていたらご指摘お願いいたします。)

*******************************************************************************************
●AIの定義は曖昧なので、
ここでは機械学習+ビックデータ+高速演算とする。

これを翻訳のAIに置き換えると、

翻訳者の認知プロセスを機械学習のプログラムのコードで表すことによって、
機械に人間の認知を再現させる
+膨大な対訳データを入れる
+計算させる
=対訳データの特徴量を機械に学習させる(重みづけ


●翻訳のAIは『理論』だけでは実現できない。
機械学習のプログラムは、現状では人間が書く必要があるため、
「ここのコードどうする?ここのハイパーパラメータどうする?」という、
超具体的な行動に落とし込むことが必要。
コードやハイパーパラメータを変えるとアウトプットが変わるので、
そこをtrial & errorしていく。

●セミナーでエラい先生の話聞いたり、専門書読んだりすると、
何となくわかったような気になるが、
実際はそんなにわかってない。
話し手・書き手と同じレベルではないので、
何分の1、何十分の1しか伝わってない。

しかし、いざ自分でコードを書こうとすると、何をわかってないかがわかるので、
後からそこを勉強していく。
(家電の説明書を読んでから使うのではなく、使ってみてわからなかったらそこで初めて説明書を読む、みたいな)

●プログラムのコード自体には著作権がない。
英文のフレーズ自体に著作権がないのと同じ。
(ただし、【機密保持】の問題はありますがw)
スクラッチからプログラムを書くのは無理でも、
精度の高いNMTのコードがわかれば、
かなり近づけるのではないか
と。
(翻訳でも最初はレベルの高い翻訳をパクって、慣れてきたらそれから自分でアレンジする)

機械学習と、翻訳者が翻訳を修得する過程は同じ。
(ビックデータ=レベルの高い翻訳をたくさん読む、
重みづけ=自分よりレベルの高い人にチェックしてもらって、修正を蓄積して「ここはこうするんだな」と学習する)

●ビックデータについては、トップレベルの翻訳者の対訳データが必要(それも莫大な量)。
翻訳の場合、教師あり学習のみ可能(教師なし学習は不可能)なので、→2017/5/16修正:教師なし学習や強化学習の方法もあるようです。
教師あり学習の場合、教師がクソならどうしようもない。
(でないと、間違った特徴量を学習してしまう)

●世の中には翻訳のプロセスを研究されている方もいらっしゃるようですが、
逆に言えば機械学習で重みづけが変わった部分が認知に重要な役割を果たしていると言えるのではないでしょうか?
なので、そこを重点的に研究すれば早いのではないでしょうか?
(すでに研究されていたらご容赦ください)

●精度の高い翻訳のAIを作るには、
プログラマだけではなく、
翻訳者視点でAIの改善を提言したり、実装(プログラミング)できる者も参加する必要があると思うが、
おそらくGoogle翻訳の開発部署内には既にそのような人物がいるのではないか(もしくは外部のそのような人物と提携しているのではないか)?
でないと、この精度は実現できないような気がする。

●そこまでいかなくても、
翻訳のAIを作るには○○という工程が必要であるが、
翻訳の△△という過程は○○という工程では表しずらい

ということを知っていたら、
それがAIの弱点なので、
そこを突いて翻訳者として生き残るという戦略が取れると思う。

少なくとも、「AIに翻訳の仕事を奪われるのではないか」と漠然とした不安におびえるよりも、
具体的に対策した方が余程よいと思う。

*******************************************************************************************

だいたいこんな感じ。
これが正しいかどうか、および技術的なことは、第15回関西MT勉強会で聞いてみるつもりです。

Google様、
Google翻訳の機械学習のプログラムのコード教えろくださいwww


関連記事

COMMENT 0

WHAT'S NEW?