とある院生の技術報告

とある大学院生による「言語処理とか画像処理とかを使ってみよう」というコンセプトで書いてみようと考えたブログ

#1 単語をベクトルに変換する? 【word2vec】

今回は、word2vecについて、そもそも何やねんというところを説明したいと思います。

研究室に入るまで、私は、言語処理の「げ」の字も知らなかったのですが、一番最初に「すげー」って思った技術です。

word2vec とは

word2vecとは、単語に対してベクトルを与える手法の一つのことです。

元論文:https://arxiv.org/pdf/1301.3781.pdf

「は?」と思う方が多いと思いますが、下のようなイメージです。

単語:私 → ベクトル:(0.8, 0.2, 0.4)

機械は文字を記号、単語は記号列としてしか理解することができません。

たとえば、「私」と「わたし」は機械内部では「id 10」と「id 100」のように扱われています。さらに、このidの近さには意味がありません。

それなら、似ている単語には似ている数値表現を与えるようにするようにすれば、機械に意味を理解させることができるんじゃねって言う試みが研究され続けています。


その数値表現を与える手法の一つがword2vecです。

具体的なベクトル表現の獲得方法の説明は割愛しますが、「単語の意味は、その周りに出現する単語によって定めることができる」という仮定に基づいています。

word2vecでは、周りの単語からある単語を予測する ということを機械に解かせて、その結果得られたベクトルを単語の表現として使っています。(注)

私 は 今日 公園 へ 行った 。

という文があったとすれば、「私」、「は」、「公園」、「へ」から「今日」を予測するという感じです。

(注)ある単語から周りの単語を予測するという手法もあります。


さて今回は、ここらへんで。

今日のまとめ

word2vecは、「ある単語の意味はその周りに出現する単語によって決定される」という考え方に基づいている

次回

さて、このword2vecで何ができんねんっていう話ですが、上で述べたように機械で「意味を扱える」ということができるようになります。

類義語を見つけたり、「王」−「男」+「女」=「?」といった意味の計算を行う事もできたりします。

そのあたりの話をできたらなと思います。

最初の投稿

このブログでは、しがない大学院生が、言語処理や画像処理について「動かしてみる」をテーマに色々書いていきたいと思います。(ちなみに、僕の専門は言語処理なのでそちらの内容が多くなると思います。)まあ、時々雑談も入るかもしれませんが。。。

近頃、プログラミング必修だとか、AIだ、人工知能だっていうことで興味を持っている人も多いのではないでしょうか。私はそういう人向けに、いろいろ書いてみたいなと興味が湧いたので、やる気が続く限りやってみようと思います。

 

基本的には1記事3分くらいで読めるものにまとめたらなと思います。

 

個人的には、アウトプットの練習も兼ねているので、つたない文章ですが読んでくれる人がいたら嬉しいなと思います。

 

今日のところはこんな感じで。

プライバシーポリシー

はじめに

とある院生の技術報告( https://qweiblog.hatenablog.com/、以下当サイト)は、個人情報に関する法令等を順守し、個人情報を適切に取り扱います。

個人情報の管理

当サイトは、お問い合わせいただいた内容についての確認・相談、情報提供のためのメール送信(返信)の目的以外には使用しません。また知り得た個人情報を第三者に開示することは、警察・裁判所など公的機関からの書面をもった請求以外に一切利用いたしません。

Cookieの利用について

Cookieは、当サイトや他サイトへのアクセスに関する情報が含まれており、多くのサイトで利用者に有益な機能を提供する目的で使用されています。Cookieには、サイト利用者の個人情報(氏名、住所、メールアドレス、電話番号)は一切含まれません。 当サイトは、第三者配信事業者(Google AdSenseAmazonアソシエイト楽天アフィリエイトA8.netバリューコマース、もしもアフィリエイト)がCookie を使用して、サイト利用者が当サイトや他のサイトに過去にアクセスした際の情報に基づいて広告を配信します。 Google が広告 Cookie を使用することにより、サイト利用者が当サイトや他のサイトにアクセスした際の情報に基づいて、Google やそのパートナーは適切な広告をサイト利用者に対して表示します。 広告設定でパーソナライズ広告を無効にすることができます。無効にする方法についてはこちらを参照してください。

アクセス解析ツールについて

当サイトでは、Googleによるアクセス解析ツール「Googleアナリティクス」を利用しています。 このGoogleアナリティクスはトラフィックデータの収集のためにCookieを使用しています。 このトラフィックデータは匿名で収集されており、個人を特定するものではありません。 この機能はCookieを無効にすることで収集を拒否することが出来ますので、お使いのブラウザの設定をご確認ください。 この規約に関して、詳しくはこちらを参照してください。