山傘のプログラミング勉強日記

プログラミングに関する日記とどうでもよい雑記からなるブログです。

Pythonクローリング&スクレイピング[増補改訂版] ―データ収集・解析のための実践開発ガイドー その1

第 1 章 クローリング ・スクレイピングとは何か

久しぶりに Python に触れてみようと思います。

クローリング とは、Web ページをダウンロードする作業で、スクレイピングはそのページから必要な要素を切り出す事です。僕のイメージとしては、サイトのRSS をダウンロードして、記事のタイトルや更新時間を抜き出してアンテナサイトに利用する事が思いつきました。公開するかはわかりませんが、php の勉強としてアンテナサイトを作っています。

Wget

指定した URL のコンテンツをダウンロードします。

wget https://yamakasa3.hatenablog.com

上記のコマンドを実行すると、html ファイルがダウンロードできます。

cat, grep

grepコマンドの詳細まとめました【Linuxコマンド集】

catm grep コマンドを使って特定の文字列を抜き出します。正規表現などを使うときは、あらかじめ抜き出したい情報がある箇所を知っておく必要があります。

xml ファイルのような構造化されている文章ならば、各要素にアクセスすることが簡単ですね。

感想

この章では Wget でクローリングを行い、grep コマンドで特定の文字列を抜き出すというスクレイピングを行いました。ある程度構造的な文書に対しては grep コマンドでスクレイピングを行うことができますが、より複雑なデータに対してはプログラミングを行う必要があるようです。