条件付き確率の話

 ここにある事象A、Bがあるとします。Aである時にBである確率とただ単にBである確率は同じでしょうか。
 AとBに関係がなければ同じですが、AとBに関係があるならばほぼ全ての場合で異なるでしょう。このAである時にBである確率を条件付き確率と呼びます。A、Bには様々なものが適用できます。特にAには複数の事象が入ることが多く、aであり、bであり、cである時のBである確率、なんてことによくなります。
 この条件付き確率をよく用いる分野に自然言語処理というものがあります。自然言語処理は人間が日常的に自然に使っている言語をコンピュータに処理させるという技術のことです。文脈という言葉がで表される様に、文章中の文の続き具合、文中の語の続き具合、というものが存在します。また、言語は名詞、動詞、形容詞、助詞などと分類でき、おおまかな文法が存在しており、構造化が可能です。構造化によって文脈を明瞭にとらえることが可能になります。先ほどの条件付き確率の説明におけるAを文脈とすることで、様々なBを予測することが可能です。
 この条件付き確率を用いた予測によって翻訳、質問応答、対話生成、文章の意味分析、自動変換などなどのことができます。和訳を例にして、文脈がわかることの有用性を説明してみます。goneという言葉があります。言葉の主な意味は”行った”です。また、無視できない程の頻度で用いられる意味として”逝った”というものがあります。ただの”gone”という言葉を単体で和訳した場合、使用頻度からただ”行った”と訳すのが正解でしょう。しかしここで”He has gone.”、”He is gone.”という文全体の情報があったとした場合、”He has”、”He is”という文脈からそれぞれ”行った”、”逝った”と使い分けてより正確に翻訳を行うことができます。より身近な例としてPCやSPの自動変換があります。文章をまあまあ正しく漢字に直してくれる機能なんかもこの条件付き確率を用いた技術を使っていたりします。

>株式会社シーポイントラボ

株式会社シーポイントラボ

TEL:053-543-9889
営業時間:9:00~18:00(月〜金)
住所:〒432-8003
   静岡県浜松市中央区和地山3-1-7
   浜松イノベーションキューブ 315
※ご来社の際はインターホンで「316」をお呼びください

CTR IMG