Googleの検索結果からタイトルを抜き出す | Udemyのセールを活用してほしかったあのスキルを手に入れよう！【非公式】

Python学習【365日チャレンジ！】336日目のマスターU（@Udemy11）です。

朝晩の冷え込みだけでなく、昼間も寒い日がつづくので、なかなか動き出せずに体がカチンコチンになってしまっています。

寝ている間に寝違えてしまったようで、左を向くと首が痛くてたまりません。

寝違えたこの傷みはどのくらいで無くなるんでしょうか？

とりあえず、普段は首を温めて、お風呂に入ったときは、首までつかってゆっくり養生しようと思います。

それでは今日も、Python学習を始めましょう。

昨日の復習

昨日は、Webスクレイピングによく使われるPythonのライブラリについて紹介しました。

代表的なライブラリはBeautifulSoupですが、単体ではなく、requestsなどのHTTP通信を扱えるライブラリと一緒に使う必要がありました。

その他、SeleniumやScrapyなどを使ってWebスクレイピングをすることができます。

Udemyのセールを活用してほしかったあのスキルを手に入れよう！【非公式】

2021.01.11

Pythonでサイトの情報を取得するWebスクレイピングについて

https://udemyfun.com/python-web-scraping

Python学習【365日チャレンジ！】335日目のマスターU（@Udemy11）です。最近テレビで放映された「記憶にございません」を途中から見ていたのですが、最初のほうのストーリーが気になって、Amazonプライムでチェックしたら、結局最後まで見てしまいました。ダメダメな史上最悪の総理大臣が、不満を抱く国民から投げつけられた石が頭にあたって記憶をなくしてしまうわけですが、記憶をなくしたことによって、それまでのしがらみから開放されて、国民のことをきちんと考える政治家として、日本の政治を変えていくという話です。ほんと今の...

アフィリエイトなどに必要なWebサイト分析には、Webスクレイピングが欠かせません。

そんなWebスクレイピングについて、今日から実際にコードを書きながら少しずつ実践していきたいと思います。

BeautifulSoupとrequests

まずはBeautifulSoupとrequestsを活用して、Google検索からヒットしたページのタイトルを抽出してみます。

from bs4 import BeautifulSoup
import requests

search_query = 'Udemy'

html = requests.get('https://www.google.co.jp/search?hl=jp&gl=JP&num=10&q=' + search_query)
soup = BeautifulSoup(html.text, 'lxml')
h3_text = soup.find_all('h3')

titles = []
for i in h3_text:
    title = i.get_text()
    titles.append(title)

for _ in titles:
    print(_)

BeautifulSoupとrequestsをインポートしたあと、検索するキーワードをsearch_queryに代入します。

requests.getを使って、search_queryで検索したGoogle検索の結果をhtmlに代入します。

htmlのテキストをHTMLパーサーのlxmlでパース（解析）した値をsoupに代入し、その中から、h3タグを抜き出してh3_textとします。

10行目でtitlesという空のリストを作り、h3_textに入っているh3タグからテキストを抜き出してtitlesリストに代入していきます。

15行目のforループでtitlesのリストを一つずつprint出力しています。

出力結果

Udemy
【受講生1万人越え！】Udemy「神」講師の最新講座5選＋α - Qiita ...
Udemyとは？特徴・評判・おすすめ講座を紹介します | テック ...
Udemy - オンラインコース - Google Play のアプリ
Udemy メディア
Udemy for Business | 最先端のITスキルは実務を通じて学ぶ時代へ ...
「Udemy:ビデオで授業が受けられる学習アプリ」をApp Storeで
ユーデミー

実際の検索結果と比べてみるとトップに表示される広告やヒットしたサイト内の他の記事やカテゴリは含まれていないのがわかります。