Pythonでスクレイピングをする方法

Python のできることの1つにスクレイピングがあります。

【スクレイピング】
ウェブスクレイピング（英: Web scraping）とはウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。ウェブ・クローラーあるいはウェブ・スパイダーとも呼ばれる。

簡単に言うと指定した WEB ページのソースを自動で読み込んでくることですね。

なんだか難しそうですが Python では HTML を取得してくるだけならほんの数行で、できてしまいます。

【注意】
スクレイピングは著作権上の観点からや、繰り返すとサーバーに負荷をかけるので、禁止されているサイトもあります。
行う際は十分に注意してお願います。

必要なモジュールのインストール
スクレイピング用HTML
Pythonでスクレイピングするソース
まとめ

必要なモジュールのインストール

Python でスクレイピングをするには beautifulsoup4 モジュールと requests モジュールが必要なのでインストールしておきます。

pip install beautifulsoup4

pip install requests

スクレイピング用HTML

スクレイピング用の HTML を作成して、サーバーにアップロードしておきます。

<html>
<head>
    <title>スクレイピング用HTML</title>
</head>
<body>
    <div>BODYの内容</div>
</body>
</html>

Pythonでスクレイピングするソース

Python でスクレイピングするには requests モジュールの get メソッドで URL を指定してファイルを取得し BeautifulSoup モジュールで HTML を解析します。

実際の Python のソースは以下のようになります。

import requests
from bs4 import BeautifulSoup

html = requests.get( "https://lightgauge.net/scraping-test.html" )
contents = BeautifulSoup( html.content, "html.parser" )

# HTML全体を表示する
print( contents )

上記のコードを実行すると目的のHTMLファイルをスクレイピングして、取得できていることがわかります。

<html>
<head>
<title>スクレイピング用HTML</title>
</head>
<body>
<div>BODYの内容</div>
</body>
</html>

まとめ

Python でスクレイピングをするには beautifulsoup4 モジュールと requests モジュールを使えば簡単にスクレイピングを行うことができます。