『ダークデータ: 隠れたデータこそが最強の武器になる』2021/2/26
デイヴィッド・J・ハンド (著), 黒輪篤嗣 (翻訳)

 目には見えず、記録されていないが、わたしたちの結論や決定や行動を大きく左右しうるダークデータ(隠れた)データ。それがどのように生じるのか、なぜ生じるのかを探るのを幅広く考察している本で、主な内容は次の通りです。
第I部 ダークデータ――その原因と結果
第1章 ダークデータ――見えないものによって築かれている世界
第2章 ダークデータを見つける――何を集め、何を集めていないか
第3章 定義とダークデータ――何を知りたいか?
第4章 意図せぬダークデータ――言うは易く行うは難し
第5章 戦略的ダークデータ――つけ入り、フィードバックループ、情報の非対称性
第6章 意図的なダークデータ――詐欺と策略
第7章 科学とダークデータ――発見とはいかなる営みか
第II部 ダークデータを照らし出し、利用する
第8章 ダークデータに対処する――光を当てる
第9章 ダークデータの活用――問いをリフレーミングする
第10章 ダークデータを分類する――迷路を抜けるルート
   *
 一般的なダークデータには次の15種類があるそうです(それぞれの内容は、本書で詳しく解説されています)。
1)欠けていることがわかっているデータ
2)欠けていることがわかっていないデータ
3)一部の例だけを選ぶ
4)自己選別
5)重要なことを見落とす
6)あったかもしれないデータ
7)ときの経過とともに変化する
8)データの定義
9)データの要約
10)測定誤差と不確かさ
11)フィードバックループとつけ入り
12)情報の非対称性
13)意図的なダークデータ化
14)データの捏造または合成
15)データ外の外挿
※なお「データの定義」とは、定義に一貫性がない場合に発生するデータのことなどです。
   *
 ダークデータが生じる原因には、定義のあいまいさや、変数の不足、計測プロセスの任意性、計測機器の限界、端数処理、入力ミスなど……ここであげた他にも、多数の原因や種類があるそうです。
 どんなときに、どんなダークデータが発生するのかを多数の事例をあげて紹介してくれる「第I部 ダークデータ――その原因と結果」もとても参考になりますが、「第II部 ダークデータを照らし出し、利用する」では、ダークデータの対処法についてのアドバイスもしてくれます。
 たとえば「欠けているデータの場合は、測定しなおしや質問し直しなどを行う」とか、「別の標本を用いて母集団の欠けた部分を補う」、さらに「期待値最大化法(EMアルゴリズム)などを利用したインピュテーション(欠測値補完)」など、さまざまな対処法について説明がありました。
 またダークデータは必ず除去しなければいけないもの、というわけではなく、むしろ活用されることも多いことも、次のように紹介されています。
1)分析のために標本を選ぶと同時に放棄のために標本を選ぶこと
2)無作為比較実験(グループのラベルを隠しダークデータにする方法=盲検法)
3)シミュレーション(例:フライトシミュレーション、気象シミュレーションなど)
4)複製データ(予測モデル、統計処理向上、機械学習用など)
5)想像上のデータ(ベイズの定理など)
6)プライバシーと機密保護(暗号化、匿名化など)
   *
 ……なるほど。実験の公平さ・ライバシー保護のために属性を隠したり、予測値を使って、めったに起きない状況のトレーニングをしたり、統計処理や機械学習の精度向上のために複製データを使ったり……積極的にダークデータを使う場面もあるんですね!
「ダークデータの価値はその使い方しだいで大きく変わる。方法を知っていれば、あえてデータを隠すことで、推定の精度を高め、よりよい判断をし、さらには犯罪からも身を守れる。」
 ……ダークデータ(隠されたデータ)について総合的に解説してくれる本でした。
「ダークデータ対策に欠かせない最初のステップは、ダークデータがあるかもしれないことに注意することだ。むしろデータを見たら、不完全ではないか、不確かではないかとまずは疑ってかかったほうがいい。」
 この教えはとても重要なものだと思います。
 医療・健康、マネー、アンケート調査、科学論文など……教育やビジネスで情報分析を行う機会は今後も増えていくと思います。正しく情報を分析するためには、ダークデータに関する知識が欠かせません。みなさんも、ぜひ読んでみてください。お勧めです☆
   *    *    *
 なお社会や科学、IT関連の本は変化のスピードが速いので、購入する場合は、対象の本が最新版であることを確認してください。
<Amazon商品リンク>