『データサイエンティスト養成読本 登竜門編 (Software Design plus)』2017/3/25
高橋 淳一 (著), 野村 嗣 (著), 西村 隆宏 (著), 水上 ひろき (著), 林田 賢二 (著), & 6 その他
データサイエンティストとしてデータ分析をはじめる前に、最低限知っておきたい知識を幅広く紹介してくれる本です。内容は次の通りです。
第1章 データサイエンティストへの道標(高橋 淳一、野村 嗣)
第2章 データ分析環境構築ガイド(西村隆宏)
第3章 はじめてのシェル(水上ひろき)
第4章 データベース入門の入門(林田賢二)
第5章 RStudio/Jupyter 最速攻略(森 清貴)
第6章 データ前処理の基礎知識(越水直人)
第7章 くらべて学ぶR/Excelデータ分析の基本(露崎博之)
第8章 クローラでWeb上の情報を収集しよう! (早川敦士)
第9章 コーディング前に知りたい統計知識(牧允皓)
第10章 さまざまなデータの理解と表現(水上ひろき)
第11章 機械学習超入門(黒柳敬一)
*
『データサイエンティスト養成読本 登竜門編』とあるように、データサイエンティストになるために、最低限これだけは必要だと思われる知識(分析に利用する環境にはどんなものがあるか、分析に使う統計学はどんなものか、分析用データのデータベースとはどんなものか、などなど)について広く浅くではありますが、かなり具体的に教えてくれます。
例えば、データ分析で利用される代表的なプログラミング言語には、RとPythonがあり、その使い分けの2つの観点としては、次のようなものがあると書いてありました。
1)定常的に利用する分析かアドホックな分析か(定常的な場合はPython、アドホックな場合はR)
2)ユーザのプログラミング経験の有無(経験有の場合はPython、無の場合はR)
ところで、簡単なビジネス用、研究用のデータ分析としては、RやPythonよりもExcelの方が一般的なので、Excelなら使ったことがあるんだけど……という方は多いのではないかと思います。この本では、「第7章 くらべて学ぶR/Excelデータ分析の基本」で、サンプルデータを利用して、RとExcelの両方でデータの結合やクロス集計などを、実際に行って比較しているので、その違いや使い方を具体的にイメージしやすいと思います。
データサイエンティストに求められるのは、主に次の3つのスキルだそうです。
1)ビジネス力:課題背景を理解した上で、ビジネス課題を整理し、解決する力
2)データサイエンス力:情報処理、人工知能、統計学などの情報科学系の知恵を理解し、使う力
3)データエンジニアリング力:データサイエンスを意味のある形に使えるようにし、実装、運用できるようにする力
*
「データサイエンティスト」は、人工知能(機械学習)にも関係があり、今後、どんどん需要が増していくことが予想されている職種です。この本は、将来、データサイエンティストになろうかなーと考えている方が、どんなことを学んだらいいのかを考える上で、特に参考になると思います。
広く浅い「入門書(登竜門編)」ですが、各章とも「参考文献」が掲載されていますので、この部分をもっと深く学びたいと思う人は、次に何を読むべきか(本の情報)についても知ることも出来ます。データサイエンティストについて興味がある方は、一度、読んでみてください。
なお社会や科学、IT関連の本は変化のスピードが速いので、購入する場合は、対象の本が最新版であることを確認してください。
<Amazon商品リンク>