単語のベクトル化その②:word2vec

 30, 2018 11:04
突然ですが、クイズです。
?に入る単語は何でしょう?
              
          You ? goodbye and I say hello.
                                    (※出展:『ゼロから作るDeep Learning ❷ ―自然言語処理編』)

人間の感覚では、なんとなくsayかなってわかりますよね。

これを両隣の単語をコンテキストとして、「?」にどのような単語が出現するのかをコンピュータで推測するのが、
推論ベースと呼ばれる手法です。

あ、ちなみに前回実装した単語のベクトル化は、カウントベースの手法です^^

違い:
カウントベースコーパス全体の統計データを利用する。語彙数が多い場合は計算量が膨大になる(例:語彙数が100万の場合、100万×100万の行列計算を行うことになる)ため、現実的ではない。
推論ベースニューラルネットワークが一度に少量の学習サンプルを参照しながら、重みを繰り返し更新する。

word2vecは、推論ベースの単語のベクトル化の手法です(続く)。


関連記事

COMMENT 0

WHAT'S NEW?