Pythonクローリング&スクレイピング[増補改訂版] ―データ収集・解析のための実践開発ガイドー その1
第 1 章 クローリング ・スクレイピングとは何か
久しぶりに Python に触れてみようと思います。
クローリング とは、Web ページをダウンロードする作業で、スクレイピングはそのページから必要な要素を切り出す事です。僕のイメージとしては、サイトのRSS をダウンロードして、記事のタイトルや更新時間を抜き出してアンテナサイトに利用する事が思いつきました。公開するかはわかりませんが、php の勉強としてアンテナサイトを作っています。
Wget
指定した URL のコンテンツをダウンロードします。
wget https://yamakasa3.hatenablog.com
上記のコマンドを実行すると、html ファイルがダウンロードできます。
cat, grep
catm grep コマンドを使って特定の文字列を抜き出します。正規表現などを使うときは、あらかじめ抜き出したい情報がある箇所を知っておく必要があります。
xml ファイルのような構造化されている文章ならば、各要素にアクセスすることが簡単ですね。
本
Pythonクローリング&スクレイピング[増補改訂版] -データ収集・解析のための実践開発ガイド
- 作者: 加藤耕太
- 出版社/メーカー: 技術評論社
- 発売日: 2019/08/10
- メディア: 単行本(ソフトカバー)
- この商品を含むブログを見る
感想
この章では Wget でクローリングを行い、grep コマンドで特定の文字列を抜き出すというスクレイピングを行いました。ある程度構造的な文書に対しては grep コマンドでスクレイピングを行うことができますが、より複雑なデータに対してはプログラミングを行う必要があるようです。