Pythonを使ってスクレイピング①
本業の業務を効率よく処理できそうな気がして少し前からpythonの学習を始めました。浅はかな考えでしょうか…。
おそらく一番簡単と思われるスクレイピングをやってみました。
pythonの学習はgoogleアカウントを持っていると無料で使えるGoogle Colaboratoryでコードを書きました。
①まずはスクレイピングをするWebサイトを決める。
サイトによってはスクレイピングを禁止しているところがあるのでこの自分のブログをスクレイピングすることにしました。
urlはhttps://eri-gonomi.com
②どこをスクレイピングするか。
ブログの最新記事のタイトルをスクレイピングしてみようと思います。
③書いたコードはシンプルです。↓★コピペでできます。
# モジュールのインポート
#↓ requestsとBeautifulSoupをインストールしていない場合は、
#[pip install requests]と[pip install BeautifulSoup4]でインストールする
import requests
from bs4 import BeautifulSoup
# URLを指定
url=’https://eri-gonomi.com/’
# HTMLを取得(requestsとBeautifulSoupはHTMLを取得するライブラリです)
html=requests.get(url)
soup=BeautifulSoup(html.text,’html.parser’)
#取得したいタグを選択、今回はタイトルが書かれているh2タグを取得
elem=soup.select(‘h2’)
#h2タグは1ページにたくさんあるので、インデックスで指定しない場合は
#全てのh2タグのデータが取得できる
#最新記事のタイトルは2番目のh2タグにあるのでelem[1]にする
print(elem[1])
実行したら↓な感じで取得できます。※今はこの記事が最新なので記事が更新されない限りは結果は同じです。
<h2 class=”item-title”>Pythonを使ってスクレイピング①<!–Pythonを使ってスクレイピング①…–></h2>
★次は実行結果をスプレッドシートに取り出す方法をやってみようと思います。