Googleの検索結果のURLとタイトルを抜き出す（エラー対応版） | Udemyのセールを活用してほしかったあのスキルを手に入れよう！【非公式】

Python学習【365日チャレンジ！】339日目のマスターU（@Udemy11）です。

押入れの中から、オムロンの小型マッサージピローを見つけました。

これまでは活躍場面がなかったのですが、あまりにも腰が痛かったり、肩こりがひどいので、この機会に活用してみることにしました。

これが意外と気持ちよくて、ソファーに寝転んで、背中の肩甲骨のあたりにおいてマッサージをしていると、痛気持ちよくて知らない間に寝てしまいました。

せっかくなので、壊れるまでしっかりと活用したいと思います。

評価	4.5

価格：6,010円　通常配送料無料

: Amazonで買う

: 楽天市場で買う

: Yahoo!ショッピングで買う

それでは今日も、Python学習を始めましょう。

昨日の復習

昨日は、Google検索の1ページめにヒットしたページのURLにアクセスして完全タイトルを取得しました。

URLを抜き出してそのURLにアクセスしてタイトルを抽出したわけですが、URLがおかしかったり、アクセスしたページが存在しなかったりすることがあるので、エラーが起こることを想定して最後までプログラムを処理できるコードにカスタマイズする必要がありました。

不完全なコードでしたが、昨日検索したキーワード鬼滅の刃　映画感想など、検索結果によってはきちんとデータを取得することができました。

Udemyのセールを活用してほしかったあのスキルを手に入れよう！【非公式】

2021.01.14

Google検索の1ページ目にヒットしたページのURLにアクセスしてタイトルを取得します。

https://udemyfun.com/scraping-google-search-url-title

Python学習【365日チャレンジ！】338日目のマスターU（@Udemy11）です。年が開けて2週間が経ちましたが、なかなか正月気分が抜けません。コマーシャルで杏さんが唐揚げを食べながらおいしそうにビールを飲む映像を見ていると、無性にビールを飲みながら、山盛りのからあげを食べたくなり、もも肉を6枚買ってからあげを作りました。市販されているから揚げ粉とゆずをまぶして自分で衣を付けた唐揚げを作ったのですが、圧倒的に市販されているから揚げ粉を使ったからあげのほうがジューシーでおいしかったので、これからは無理をせずに市...

今日は、エラー対応のためtry-exceptを使って、処理を完了できるコードに挑戦してみます。

最終的なコード

最終的に今日の時点で完成したコードがこちらです。

import re
import time
import urllib.parse

from bs4 import BeautifulSoup
import requests

search_query = '東京　餃子のおいしい店'

r = requests.get('https://www.google.co.jp/search?hl=jp&gl=JP&num=10&q=' + search_query)
html_soup = BeautifulSoup(r.text, 'html.parser')

url_results = []
for t in html_soup.select('.kCrYT > a'):
    u_result = re.sub(r'/url\?q=|&sa.*', '', t.get('href'))
    url_results.append(urllib.parse.unquote(u_result))

for i in url_results:
    print(i)

title_results = []
for i in url_results:
    try:
        search = requests.get(i)
        search_soup = BeautifulSoup(search.text, 'html.parser')
        titles = search_soup.find('title')
        title_results.append(titles.text)

    except:
        print('取得できませんでした。')

    time.sleep(2)

for t in title_results:
    print(t)

出力結果

実際の検索結果ページはこんな感じです。

省略されているタイトルもきちんと取得できているのがわかります。

それではパーツごとに確認してみましょう。

インポートするライブラリ

import re
import time
import urllib.parse

from bs4 import BeautifulSoup
import requests

昨日までは、lxmlを使っていましたが、どうにもうまくいかなかったので、BeautifulSoupを使ってみました。

他には、正規表現のre、検索にインターバルを入れるためのtime、URLのエンコード・デコードができるurllib、HTTPでデータを取得するためのrequestsをインポートしています。

検索ワードから結果をパースする

search_query = '東京　餃子のおいしい店'

r = requests.get('https://www.google.co.jp/search?hl=jp&gl=JP&num=10&q=' + search_query)
html_soup = BeautifulSoup(r.text, 'html.parser')

8行目で検索するキーワードを指定して、10行目で検索結果のページをrequests.getで取得し、11行目でBeautifulSoupを使って取得したテキストをhtml.parserで解析します。

URLをリストに保存

url_results = []
for t in html_soup.select('.kCrYT > a'):
    u_result = re.sub(r'/url\?q=|&sa.*', '', t.get('href'))
    url_results.append(urllib.parse.unquote(u_result))

for i in url_results:
    print(i)

13行目で抽出したURLを入れるリストurl_resultsを作ります。

14行目からのforループで、BeautifulSoupとre、urllibを使ってクラス名がkCrYTの中のaタグの中からURLを抽出して、リストurl_resultsに追加していきます。

urllib.parser.unquoteを使って結果をデコードしているのですが、これは取得したURLに?や=が入っているときは、%3Fや%3Dに変換されているため、そのままリストに入れると、あとからそのURLにアクセスするときにページが存在しないエラーになってしまうからです。

18行目、19行目でリストを一つずつ出力します。

タイトルの抽出

title_results = []
for i in url_results:
    try:
        search = requests.get(i)
        search_soup = BeautifulSoup(search.text, 'html.parser')
        titles = search_soup.find('title')
        title_results.append(titles.text)

    except:
        print('取得できませんでした。')

    time.sleep(2)

for t in title_results:
    print(t)

21行目で抽出したタイトルを入れるリストtitle_resultsを作成します。

22行目から32行目でforループを使って、リストurl_resultsを回して一つずつタイトルを抽出します。

タイトルを取得できない場合があるので、try-exceptを使ってエラーの際は【取得できませんでした。】と出力するようにしています。

tryの部分は、24行目でリストurl_resultsに格納されているURLからrequests.getで値を取得して、25行目のBeautifulSoupでパースし、26行目でパースしたsearch_soupから1つ目のｔitleを抽出し、27行目でリストtitle_resultsに抽出したテキスト部分を追加しています。

try-exceptが1まわりするたびに、time.sleepで2秒待つようにしています。

これは、Google検索に短時間でアクセスが集中した場合、不正なアクセスと判断されないようにするためですが、短時間に何度も抽出しなければこのコードは必要ないかと思います。

34行目と35行目でタイトルを入れたリストtitle_resultsを一つずつ表示しています。