『ダークデータ: 隠れたデータこそが最強の武器になる』2021/2/26
デイヴィッド・J・ハンド (著), 黒輪篤嗣 (翻訳)

 私たちは世界を正しく認識しているつもりでも、大切な情報を見落としがち……そんな「ダークデータ(隠れたデータ)」に注目して、情報分析の留意点や極意を教えてくれる本です。
 実を言うとこの本のタイトルの『ダークデータ』というのは、「詐欺データ」や「闇で流通している個人情報」のことなのだろうと勘違いしていたのですが、そうではなく、『ダークデータ』は、「ダークマター」のような意味での「隠れたデータ」のことでした。
 この本は、データ分析などに利用する「隠れたデータ」の特性を、総合的に解説してくれる本です。とても参考になったので、科学論文で使う実験データの分析だけでなく、アンケート調査結果の分析など社会科学も含め、統計学やAI(ダークラーニング)など、データを利用する仕事や学習をしている方には、ぜひ読んで欲しいと思います。
 さて、ダークデータには、次の15種類があるそうです。
1)欠けていることが分かっているデータ(データに欠落がある)
2)欠けていることが分かっていないデータ
3)一部の例だけを選ぶ(標本に歪み)
4)自己選別
5)重要なことを見落とす
6)あったかもしれないデータ(別の調査方法なら得られたであろうデータ)
7)ときの経過とともに変化する
8)データの定義(定義に一貫性がない)
9)データの要約(切り捨てられたデータがある)
10)測定誤差と不確かさ
11)フィードバックループとつけ入り(収集されたデータの値が収集過程に影響を与える)
12)情報の非対称性(インサイダー取引など)
13)意図的なダークデータ(詐欺データ)
14)データの捏造または合成(シミュレーションデータなど)
15)データ外の外挿(最大最小値を越えている可能なデータがある)
   *
 これら15種類のダークデータについて、具体的に詳しい説明がなされていて、うーん、確かにこういうデータはよくあるよなー……これに正しく対処するのは、とても難しい問題だなーと痛感させられました。
 ダークデータ対策に欠かせない最初のステップは、「ダークデータがあるかもしれないことに注意すること」だそうです。データを見たら、「不完全ではないか、不正確ではないかとまずは疑ってかかったほうがいい」のだとか。特に「異常値」の場合は、計器の故障によるものもあるようです。
 またハンドさんが銀行から依頼された「個人融資でローンを返済できない人を見極めるモデルの構築」のケースも参考になりました。銀行から渡されたデータには、「融資を断った人のデータ」がなかったので、銀行が望むような「新規の人がローンを返済できるかを予測するモデル」をつくることは出来なかったのです(データは審査通過者に偏っていました)。そこで、このモデルを作るために、「無作為に少数の顧客を選んで、あえて融資に応じ、そのような顧客に実際に融資を行った場合の結果に関する情報を得た。そうすることで、ローンを返済できない可能性が高い人を見極めるモデルの精度を高め、融資審査でより正しい判断を下せるようになった」のだとか。
 この本では、ダークデータへの対処方法(欠測値補完)についても、平均値代入法、最終観測繰り返し法、他の変数からの予測、ホット・デック法、多重代入法、期待値最大化法など、さまざまな方法を教えてもらえました。
 また真実とうそのデータを見抜くためには、「データの出どころを確かめる」、「別の角度から見る」、「データの透明性を高める」ことも有効なようです。
「ダークデータの危険を免れている領域はひとつもない」し、「得られたデータだけにもとづいた判断は、誤っている可能性が高い」。「だから、わたしたちはたえず注意を怠らす、「欠けているデータはないか」と問わなくてはいけない」のです。
 しかもダークデータに欺かれるのは、人間だけではありません。機械学習や人工知能も、ダークデータに欺かれる可能性があるのです。実際に、「肺炎患者が肺炎で死亡する確率を予測する機械学習システム」の研究では、おおむね正確な予測のなかで、患者に喘息の持病があった場合の死亡予測だけが、なぜか低く見積もられていたそうです。その理由を調べると、喘息で持病がある場合には、死亡リスクが高いために集中治療室で治療を受けることになり、そのため見掛け上の死亡リスクが下がってしまっていたのだとか。……なるほど……。
 ところで、ダークデータは科学的な分析を混乱させるだけではなく、有効活用することも出来るそうです。ハンドさんは次のようにも言っています。
「ダークデータがどのように生じるのか、なぜ生じるのかを探るのが、本書の目的だ。(中略)最後には、知恵を働かせれば、ダークデータを有効活用できることについても話したい。奇妙なパラドクスのようだが、無知やダークデータの視点を取り入れることで、よりよい判断やよりよい行動が可能になる。つまり、具体的にいうなら、不明なことをうまく使うことで、もっと健康的な生活を送ったり、もっと収入を増やしたり、もっとリスクを減らしたりできるのだ」
 最近は、ビッグデータや人工知能の時代に入り、アルゴリズムが金融市場での異常な動きを見抜いたり、隠された活動を察知したりするうえで、大きな力を発揮することが分かってきたそうです。人工知能はダークデータに騙されることもありますが、ダークデータをあぶりだすのに役立てることも出来るんですね。
「ダークデータの特性」を総合的に教えてくれる本でした。とても大切な情報が満載なので、科学に関する仕事(学習)をしている人は、ぜひ読んでみてください。
   *    *    *
 なお社会や科学、IT関連の本は変化のスピードが速いので、購入する場合は、対象の本が最新版であることを確認してください。
<Amazon商品リンク>