2023.07.25

Pythonをつかってスクレイピング②(スクレイピング結果をスプレッドシートへ書き出し)

※Google Cloud Platformの設定、Google Drive API・Google Sheets APIの有効化、

googleコラボラトリーとスプレッドシートの共有が出来ていることが前提の記事です。

↑の事前準備はいつか記事にできたらと考えています。

★この事前準備の段階で私はすごく時間を使ってしまいました。なぜなら↓↓

GoogleDriveのアカウントとGoogleコラボのアカウントが異なる場合はマウントエラーとなり認証ができないからです。

さて、前回の続きでスクレイピング結果をスプレッドシートで書き出すやり方について。

ここからコピペでできます。

※gspreadをインストールしていない場合は↓

!pip install gspread
#認証に必要なモジュールのインポート
from google.colab import auth
from google.auth import default
import gspread
# 認証処理
auth.authenticate_user()
creds, _ = default()
gc = gspread.authorize(creds)
#スプレッドシートの先頭ワークシートをオープン:’スクレイピング練習’はファイル名
worksheet = gc.open(‘スクレイピング練習’).get_worksheet(0)
# モジュールのインポート
import requests
from bs4 import BeautifulSoup
# URLを指定:
url=’https://eri-gonomi.com/’
# HTMLを取得
html=requests.get(url)
soup=BeautifulSoup(html.text,’html.parser’)
# print(soup)
elem=soup.select(‘h2’)
# h2タグのテキストのみ取り出す
title=elem[1].get_text()
#print(title)
#結果をシートのA1セルに書き出し
worksheet.update_acell(‘A1’ , title)
認証まで出来れば後はやり方さえ分かればすぐに出来ると思います。
仕様が変わって認証の方法が変わる可能性がありますが、今はこのやり方で認証できます。

\SHARE/

カテゴリー:
タグ: