『Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド』2016/12/16
加藤 耕太 (著)

プログラミング言語Pythonによるクローリング・スクレイピングの入門から実践までを解説した書籍です。
なお、クローリングというのは、Webページのハイパーリンクをたどって次々にWebページをダウンロードする作業のことで、スクレイピングは、ダウンロードしたWebページから必要な情報を抜き出す作業のことです。
この本は、Pythonを利用して基本的なクローリングやAPIを活用したデータ収集を行う方法や、収集したデータを解析・活用する方法を、コードの実際のサンプルとともに解説してくれるので、膨大なWebページのクローリングやスクレイピングを行いたい時に、すごく役に立つと思います。
Pythonを使うメリットには、次の3つがあるそうです。
1)言語自体の特性(読みやすく書きやすい言語で、豊富な標準ライブラリも付属している。非同期処理もできる)
2)強力なサードパーティライブラリの存在
3)スクレイピング後の処理との親和性(クローリングやスクレイピングでデータを取得した後、データ分析などの処理を行う際にもPythonが強力な武器になる)

基本的なクローリングやAPIを活用したデータ収集、HTMLやXMLの解析から、データ取得後の分析処理まで幅広い内容の解説があり、コードのサンプル事例も多数収録されているので、自分がやりたい作業に関連している箇所のコードを元にすれば、Pythonのプログラミングを始めやすいのではないかと思います。ライブラリの使い方なども参考になります。
一応、Pythonの基礎知識の解説もあるのですが、簡潔にまとめてあるだけなので、プログラミング初心者の方には、ちょっと難しく感じると思います。専門用語も多いので、少なくともUnixに関する初心者レベル以上の知識があり、Pythonは初めてでも他のプログラミング言語を使った経験がある人でないと、この本だけで「Pythonによるクローリング・スクレイピング」がすぐに出来るようにはならないでしょう。この本をざっと読んで難しいと感じる方は、『Pythonスタートブック』などのPythonの入門書や、Unixの入門書も読むことをお勧めします。
Webには役に立つ膨大な情報があり、そこから最新の知識を調べたり、最新のデータで図表を作成したりする能力は、今後いっそう求められてくるでしょう。クローリング・スクレイピングをもっと効率化したいと考えている方は、この本を参考にしてみては、いかがでしょうか。