しままるの雑記帳

しままるの思ったことや考えたことをアウトプットする場。「PC/プログラミング」「写真/旅行」「科学(勉強)」「心の問題」が主なテーマ。

科学

機械学習の理解に必須 ベイズ統計学の基礎

投稿日:2017年5月8日 更新日:

ベイズ統計学の基本となるベイズの定理について解説

ベイズの定理と言うのは「条件付確率」に関する法則です。今回はこの法則を紹介し、具体例な適用事例についてなるべく直感でわかるようにまとめてみたいと思います。

記号の定義

ベイズの定理では、あまり見かけない記号を用いるので、まずは記号の定義からお話しします。
P(A) :事象Aが起こる確率
例1:目の数が6つのサイコロを振ったとき、1が出る事象をAとすれば、その確率は
P(A) = 1/6
例2:とある疾病にかかった人100人を呼んで、試験検査を行ったところ、99人に陽性反応が出た。よって、疾病にかかった人間に対して陽性が出る事象をBとすれば、その確率は
P(B) = 0.99
P(A|B):事象Bが発生した下での事象Aが発生する確率
上記は「条件付確率」とか「事後確率」と呼ばれています。
例:事象Aを「ある人間が病気である」、事象Bを「検査結果は陽性」とします。
とあるその辺の人間を何人か呼んで、結果が陽性であると判明したうえで、その人が本当に病気を持っているという事象をP(A|B)で表します。臨床試験の立場で言えばP(A|B)は陽性的中率というわけです。では、この陽性的中率ってどうやって求めればいいの?という問題にあたります。そこで登場するのがベイズの定理です。

ベイズの定理

ベイズの定理によれば、事象Aの確率をP(A)、事象Bの確率をP(B)とし、事象Bが発生した下で、事象Aが発生する確率をP(A|B)とすればP(A|B)は

  (1)

ここで和の記号、Σが出ておりますが、これの言わんとするところは、Aに関する事象の確率をすべて足し上げるという意味です。

臨床試験問題

問題内容

100人に1人がかかると言われている疾病の簡易検査手法が開発されました。この手法を評価するために、疾病にかかった人間100人を呼んで上記の試験をしたところ、99人に陽性反応が出ました。一方で、疾病にかかっていないと分かっている人間100人を呼んで上記の試験をしたところ、10人に陽性反応が出てしまいました。この試験結果をもとに、本手法の評価を行いたいと思います。無作為に集めた人間のうち、陽性であると結果が出たうえで、本当に病気にかかっている確率はいくつでしょう?(陽性的中率の問題)また、陽性であると結果が出たけど、本当は病気じゃない確率はいくつでしょう?(偽陽性の問題)

ベイズの定理の適用

まず、事象Aを「ある人間が病気である」、事象Bを「検査結果は陽性」とします。このとき、問題文と、上述した記号の定義に従えば、陽性的中率はP(A|B)であり、偽陽性率はP(AC|B)と表せます。(ここでACは余事象をあらわします。つまりP(AC)はある人間が病気でない確率を表します。)これら2つを求めれば問題が解けたということになります。そしてベイズの定理をこの問題に落とし込めば

 (2)

となります。さきほど、「Aに関する事象をすべて足し上げる」と申しましたが、臨床試験の話ではAに関する事象と言うのは「ある人間が病気である」という事象と「ある人間が病気でない」という事象の2つなので、Σを展開したとき、項が二つになります。

問題文を記号化する

さて、(2)式の記号を、臨床試験問題を例に一つ一つ確認していきましょう。
まずP(A)はある人間が病気である確率です。今は100人に1人がかかる病気について議論しているのでP(A)=0.01です。(※無作為に集めた人という文に注意してください)そして、その余事象の確率はP(AC)=0.99です。
続いてP(B|A)は事象Aが発生した下での事象Bが発生する確率です。つまり、問題文に書いてある「疾病にかかった人間100人を呼んで上記の試験をしたところ、99人に陽性反応が出ました。」という情報から、「疾病が発生した人間(事象A)の集団に対し、陽性が出た(事象B)のは100人中99人だった。」と読み替えることができるのでP(B|A)=0.99です。
続いてP(B|AC)ですが、「疾病にかかっていないと分かっている人間100人を呼んで上記の試験をしたところ、10人に陽性反応が出てしまいました。」と言う情報から
P(B|AC)=0.10です。

計算する

ベイズの定理に従って、陽性的中率を求めましょう

陽性的中率は9.1%ということになります。
次に偽陽性率を求めましょう


偽陽性率は91%と言うことになります。

結果を考察する

実際に病気になった人100人に検査を施したところ、99人に陽性反応がでたため(※P(B|A)=0.99) 検査の正確性は高いと言えますが、病気になる確率そのものが低いP(A)=0.01ため、陽性だったけど、そのうち疾病にかかっていない人は91%という、偽陽性の誤診の可能性を孕んでいると言えそうです。

ベイズの定理の使いどころ(まとめ)

定理と言うものは使うと便利だから発明され、有名になって、私たちの目にかかるわけです。ベイズの定理の意義と言うのは、数学的に表現すれば
P(B|A)から P(A|B)がわかるということになります。
つまり、臨床試験問題を例にとれば、事象Aが「ある人間が病気である」、事象Bが「検査結果は陽性」でした。どこ馬の骨かわからん人間を呼んで検査して、陽性がでて、その人間が本当に疾病にかかっている確率と言うものは分かりにくいものです。でも、疾病にかかってると分かっている人間を呼んで検査して陽性になる確率を求めることは簡単です。簡単な試験や実験から、求めることが困難な確率を求めることができるというところにベイズの定理の意義があります。

感想

以下は単なる、しままるの感想です。
ベイズの定理は、私の友人が紹介してくれたものです。その友人と私とでは専攻の内容が全く異なり、得意とする学問は異なります。ところが、この定理はラプラスが本格的に使用・普及させたという歴史があるそうです。ラプラスと言えば、微分方程式を解くためのラプラス変換やベクトル解析でお目にかかるラプラシアン演算子で有名です。また、定常の熱・物質・運動量の拡散の問題はラプラス方程式です。これは私の専門分野です。専攻の内容が異なるのに、同じ先人が定理や法則を発見していたんだ~という驚きと言うか、感動というか、そんな所感を抱きました。
また、ラプラスと検索するとポケモンのラプラスばかりの情報が出てきて、1ページ目にはピエール・シモン=ラプラス氏の情報や業績が出てこないという、科学好きとしては「う~ん」という感じですが、まぁ、ポケモンのラプラスは可愛いから良しとしましょう!

-科学

執筆者:


comment

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

関連記事

拡散方程式とは? イメージと導出方法

目次1 一言でいうと?2 方程式のイメージ3 拡散方程式の導出3.1 検査体積の物質収支3.2 Jを濃度の関数で表現3.3 式変形4 まとめ 一言でいうと? 「物質の広がり方を表す方程式」  ・・・① …

【100記事達成】しままるの雑記帳は節目を迎えました

目次1 1か月間のアクセス数とその所感2 アクセス集中を起こした記事Top33 ブログに対する私の考え方3.1 写真3.2 科学3.3 心の問題4 ブログ運営の今後について4.1 営利活動について4. …

ブログ開設2か月経過 成果報告と今後の方針

目次1 今月一か月の活動まとめ1.1 検索流入3倍、記事数1/31.2 ブログ視覚化プロジェクト2 月間人気記事Top33 ブログに対する私の考え方4 ブログ運営の今後について4.1 ブログ以外での活 …

ルビーの色はなぜ赤色なの?

目次1 ルビーの基本構造 コランダム1.1 コランダムの成分”アルミナ”1.2 コランダム型のアルミナの構造2 アルミナ中の不純物2.1 コランダム型にクロム原子が入るとルビーになる2.2 原子の電子 …

あなたのこころが苦しい理由はズバリ「脳のケガ」です

目次1 本の紹介1.1 本の概要1.2 書評(しままるの感想)2 精神医療の現状3 MRI概要4 「松澤の断層法」概要5 松澤先生のロジック5.1 松澤の断層法の誕生5.2 認知症患者の扁桃体の傷5. …

管理人


名前:しままる
年齢:20代後半
趣味:写真、科学の勉強
好きなもの:動物、新幹線、飛行機
元職業:メーカー技術系職員
現職業:好きな場所・好きな時間で働く自由人

お問い合わせはこちら

↓最近の記事