Python のできることの1つにスクレイピングがあります。
【スクレイピング】
ウェブスクレイピング(英: Web scraping)とはウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。ウェブ・クローラーあるいはウェブ・スパイダーとも呼ばれる。
ウェブスクレイピング(英: Web scraping)とはウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。ウェブ・クローラーあるいはウェブ・スパイダーとも呼ばれる。
簡単に言うと指定した WEB ページのソースを自動で読み込んでくることですね。
なんだか難しそうですが Python では HTML を取得してくるだけならほんの数行で、できてしまいます。
【注意】
スクレイピングは著作権上の観点からや、繰り返すとサーバーに負荷をかけるので、禁止されているサイトもあります。
行う際は十分に注意してお願います。
スクレイピングは著作権上の観点からや、繰り返すとサーバーに負荷をかけるので、禁止されているサイトもあります。
行う際は十分に注意してお願います。
必要なモジュールのインストール
Python でスクレイピングをするには beautifulsoup4 モジュールと requests モジュールが必要なのでインストールしておきます。
pip install beautifulsoup4
pip install requests
スクレイピング用HTML
スクレイピング用の HTML を作成して、サーバーにアップロードしておきます。
<html> <head> <title>スクレイピング用HTML</title> </head> <body> <div>BODYの内容</div> </body> </html>
Pythonでスクレイピングするソース
Python でスクレイピングするには requests モジュールの get メソッドで URL を指定してファイルを取得し BeautifulSoup モジュールで HTML を解析します。
実際の Python のソースは以下のようになります。
import requests from bs4 import BeautifulSoup html = requests.get( "https://lightgauge.net/scraping-test.html" ) contents = BeautifulSoup( html.content, "html.parser" ) # HTML全体を表示する print( contents )
上記のコードを実行すると目的のHTMLファイルをスクレイピングして、取得できていることがわかります。
<html> <head> <title>スクレイピング用HTML</title> </head> <body> <div>BODYの内容</div> </body> </html>
まとめ
Python でスクレイピングをするには beautifulsoup4 モジュールと requests モジュールを使えば簡単にスクレイピングを行うことができます。