Google社賀沢氏のブログ記事。
「学習データ自作のすすめ」
データを作るためには、(当然ですが)どういうデータが必要なのか明確にしないといけません。ある程度の量のデータを作るためには(クラウドソーシングなどを使って)多数の作業者に作成を委託することが普通ですが、そのためにはどういうデータをどう作って欲しいのか他人もわかるように説明できないといけません。仮にそれができないとすると、そもそも深層学習を使って何をしたいのかが怪しくなってきます。データを作る第一歩として何を作るのか説明することで、自分が深層学習を使って何をしたいのかを整理することができます。
これは、ディープラーニングって言っても、
目的によって必要なデータの特徴が変わるからだよね。
データ収集については、下記も良記事なので貼っておきます。
(下の方の青い表)
http://analytics.livesense.co.jp/entry/2018/01/09/140509
「どういうデータを集めるのか」
「何がユーザーにとって価値となるか」
「価値の提供が新たなデータを生むか」
これは、精度の高いNMTエンジンを作るためにも言えることだよね。
「学習データ自作のすすめ」
データを作るためには、(当然ですが)どういうデータが必要なのか明確にしないといけません。ある程度の量のデータを作るためには(クラウドソーシングなどを使って)多数の作業者に作成を委託することが普通ですが、そのためにはどういうデータをどう作って欲しいのか他人もわかるように説明できないといけません。仮にそれができないとすると、そもそも深層学習を使って何をしたいのかが怪しくなってきます。データを作る第一歩として何を作るのか説明することで、自分が深層学習を使って何をしたいのかを整理することができます。
これは、ディープラーニングって言っても、
目的によって必要なデータの特徴が変わるからだよね。
データ収集については、下記も良記事なので貼っておきます。
(下の方の青い表)
http://analytics.livesense.co.jp/entry/2018/01/09/140509
「どういうデータを集めるのか」
「何がユーザーにとって価値となるか」
「価値の提供が新たなデータを生むか」
これは、精度の高いNMTエンジンを作るためにも言えることだよね。
- 関連記事
-
-
『通訳翻訳ジャーナル 2018年4月号』にインタビューが掲載されます! 2018/02/12
-
#シンギュラリティ駆逐度診断 2018/01/24
-
学習データ自作のすすめ 2018/01/22
-
NTTコミュニケーションズさんが「AI翻訳PF」を提供&その他 2018/01/18
-
GMOスピード翻訳さんがロゼッタさんに買収されたよ! 2017/12/22
-