集合知についてのメモ

2015年10月22日

集合知について書かれた本をいくつか読んだので感想を書いてみます。

「みんなの意見」は案外正しい (角川文庫)
「みんなの意見」は案外正しい (角川文庫)

最初に読みました。集合知について書かれた有名な本です。
集団の知恵がうまく働いた事例が羅列されているのですが、なぜうまく働くかという説明があまり書かれていません。


「多様な意見」はなぜ正しいのか
「多様な意見」はなぜ正しいのか

こちらはもっと専門的な感じで、集団の知恵が働く原理まで書かれています。しかし、文章が読みにくかったため途中で挫折してしまいました。


集合知とは何か - ネット時代の「知」のゆくえ (中公新書)
集合知とは何か - ネット時代の「知」のゆくえ (中公新書)

3冊目に読んだ本です。
第1章で集合知についての理論的な話がコンパクトにまとめられています。第2章以下はあまり関係ないと思われる話題が多かったので流し読みしました。

この本では上の2冊についても紹介しており、「みんなの意見は案外正しい」は語り口は巧みで面白いが集合知の根拠に迫ろうとする学問的アプローチが欠けているという評価、「「多様な意見」はなぜ正しいのか」は集合知という問題にたいして正面からとりくんだ好著との評価をしています。

以下は「集合知とは何か」による解説です。

「「多様な意見」はなぜ正しいのか」の著者スコット・ペイジは、集合知の問題を「情報寄せ集めモデル」と「多様な予測モデル」の二つにわけてとらえているそうです。

・情報寄せ集めモデル

情報寄せ集めモデルの考え方はシンプルで、集団の各メンバーが解くべき問題について部分的な情報をもっていれば、メンバーの意見を上手に組み合わせることによって集団として正確な推測をおこなうことができるというものです。

例としては4択クイズ問題を挙げています。
テレビのクイズ番組でヘルプを求めるとき、専門家からの助言の正答率(65%)より視聴者のアンケート結果の正答率(91%)の方が高かったというものです。

4択クイズ問題に対する情報寄せ集めモデルによる解説は以下のとおりです。
視聴者の数を100人として、正解を知っている人を10%、2つが間違いだと知っている人を25%、1つが間違いだと知っている人を25%、まったくわからない人を40%として、わからない場合はランダムで答えることを条件とした場合、正解を知っている人がたった1割しかいないのにもかかわらず誤回答が相互に打ち消し合い正解が突出する(正解を選ぶ人数は平均40.8人で他の回答は平均19.7人)。




・多様な予測モデル

雄牛の体重推測コンテスト(参加者全員の推測値の平均が正解とほぼ同じだった)など、集団の推測が個々のほとんどの推測より正確になるというものです。

「集合知とは何か」では、集団における個々人の推測の誤差は多様性によって相殺されるため、結果的に集団としては正解に近い推測ができるとの解説をしており、集団誤差=平均個人誤差-分散値という定理が書かれています。
この定理から、個々人の推測の質が良いとき、多様な推測モデルが用いられているとき、に集合知が正解に近くなるとのことです。

上のようにこの本では集合知の理論的な根拠が書かれているのですが、解説が少なくて数学が苦手な僕にはいまいちピンとこない話でした。そこでちょっと話を単純化して考えてみます。

いま正解が100の数当て問題があり、AとBの2人が回答をするとします。
このときAの回答を50で固定し、Bの回答を0から200で変化させたときの「2人の回答の誤差の平均」と「集合知(2人の回答の平均)」の推移が下のグラフです。



グラフのいちばん右はBの回答が0のときです。正解が100なのでBの答えの誤差は100です。一方でAの答えは50で固定なので誤差は50です。Aの誤差が50でBの誤差が100なので、1人あたり75の誤差があることになります(2人の回答の誤差の平均)。
次に集合知ですが、2人の回答の平均なので(0+50)÷2=25です。回答は100なので集合知25の誤差も75です。よってこの場合は2人の回答の誤差の平均も集合知の誤差も同じ値になります。

次にBの回答が150だったときを考えてみます。
Aの答えは50なので誤差は50です。Bの答えは150なのでこちらも誤差は50となります。2人の誤差の平均は50です。
一方で集合知は、2人の回答の平均なので(50+150)÷2=100となり、2人がそれぞれ50ずつ間違えているにもかかわらず正解にぴったり一致してしまいます。

グラフを見てわかるように、集合知の誤差は2人の誤差の平均よりも大きくなることはありません。つまり集合値は個々の予測をばらばらに見た場合よりも常に正解に近くなります(最低でも同じ値となります)。

また、集合知の方が正解に近いケースはBの回答が100より大きいときに限られることがわかります。同一の方向からの回答(2人の答えが共に正解の100以下)が集合知の精度を高めない一方で、逆方向の回答(片方が100以下で片方が100以上)は集合知の精度を高めるということです。これが多様性の効果ということでしょう。

さて、こう書くと集合知はすごいと思ってしまいますが、当然ながらどんな場合でも集団知が優れているわけではありません。
たとえば、2人のうち1人が正解の100を知っているとすれば、残りの1人が答えを加えることで正解から遠ざかってしまいます。
あるいはAは正解を知らないまでもそれに近い答えを知っている専門家で、BはAとは違う見方をすることができるものの専門的知識のない素人と仮定します。Aの回答を90として、素人のBは答えを200とすると、集合知は145です。この場合、1人あたりの誤差55に対して集合知の誤差は45となり、多様性によって確かに答えは向上しています。しかし、向上した答えでも専門家Aの誤差10に遠く及びません。

つまり当たり前の話ですが能力も重要だということでしょう。正しい答え知っているならばなら最初からその意見を採用すればいいし、答えがわからないまでも近い推測ができる専門家がいるのであれば、素人の意見を混ぜても正解から遠ざかる可能性が高くなります。

このようなことから集団の推測がうまく働くのは、正解が予想しにくい問題で、ある程度の知識を持った人たちが、多様な見方から意見を出したとき、ということになるのかなと思います。
競馬や株式市場などの予測市場がうまく働くのはこのためでしょう。これらは事前に正解がわからず、また参加者はお金をかけるので完全な素人はいないでしょうし、予想の方法もさまざまで多様性があります。




最近の記事