【Python】BeautifulSoupを使ったWebスクレイピング | Udemyのセールを活用してほしかったあのスキルを手に入れよう！【非公式】

Python学習【365日チャレンジ！】169日目のマスターU（@Udemy11）です。

今日は肉（29）の日ですね。

数字の語呂合わせってパスワードなどに使うことがあるかと思いますが、注意をしたほうがいいですよ。

例えば東急を【10（とう）9（きゅー）】にしたり、富士山を【22（ふじ）3（さん）】にしたりして、パスワードを覚えやすい数字にかえても、誰でも思いついちゃいますからね。

なので、パスワードの管理には、パスワード管理アプリの【1Password】を使うのがおすすめです。

憶えておくのはマスターパスワードだけなので、セキュリティーも利便性も向上しますよ。

それでは今日もPython学習を始めましょう。

昨日の復習

昨日まで４日間をかけてFlaskの使い方を学習しました。

Webサーバーの構築やHTTPメソッドを使った情報のやり取り、データベースに情報を保存したり取り出したりする方法を学習しました。

Flaskの学習については、こちらの記事をごらんください。

Udemyのセールを活用してほしかったあのスキルを手に入れよう！【非公式】

2020.07.25

【Python】Flaskを使ったWebサーバーの取り扱い

https://udemyfun.com/python-flask-vol1

Python学習【365日チャレンジ！】165日目のマスターU（@Udemy11）です。アジング用にラインが届いたと思ったら、色が違うものが入っていたので、つながるかどうかわかりませんでしたので、ダメ元で直接販売店に連絡をとってみました。そしたら、間違いなく色間違いなので、新しい商品を送ってくれるとのこと。ま〜、迅速に対応してくれそうなので、一安心ですが、また2.3日待たないといけないと思うと、ちょっとモチベーションが下がりました。そんなモチベーションを上げられるように、今日もPython学習を始めましょう。昨日の復習昨...

Udemyのセールを活用してほしかったあのスキルを手に入れよう！【非公式】

2020.07.26

【Python】Flaskでテンプレートを使ってWebページを作る

https://udemyfun.com/python-flask-vol2

Python学習【365日チャレンジ！】166日目のマスターU（@Udemy11）です。蚊に悩まされる季節がやってきましたが、先日、虫よけを忘れてアジングに行ったところ、蚊に噛まれまくって痒くて困っています。夜中に痒さで目をさますほど。。。いい虫よけがないかと探してみるとかなり効果抜群の虫よけを見つけたので、速攻ポチってしまいました。虫よけに効く有効成分ディートが30%も入って、効果が従来製品（10%）の3倍になって、強力に虫を寄せ付けないらしいので、届いたら早速使ってみたいと思います。それでは今日もPython学習を始めま...

Udemyのセールを活用してほしかったあのスキルを手に入れよう！【非公式】

2020.07.27

【Python】FlaskでHTTPメソッドを扱う

https://udemyfun.com/python-flask-vol3

Python学習【365日チャレンジ！】167日目のマスターU（@Udemy11）です。子ども用プログラミングアプリのViscuitを使ってみたら、面白くてハマってしまいました。自分が子供の頃にこんなアプリがあれば、間違いなくプログラミングにハマってたなとおもいつつ、スマホ自体が存在してなかったので、今の子供達ってほんといいよな〜と実感しています。それでは今日もPython学習を始めましょう。昨日の復習昨日は、Flackを使ってテンプレートを使ったWebページの作成について学習しました。テンプレートを使うことで、プログラミングとペー...

Udemyのセールを活用してほしかったあのスキルを手に入れよう！【非公式】

2020.07.28

【Python】Flaskでデータベースを扱ってみる

https://udemyfun.com/python-flask-vol4

Python学習【365日チャレンジ！】168日目のマスターU（@Udemy11）です。先日購入した【アースサラテクトミストリッチリッチ30】が届いたので、早速使ってみたところ、信じられないくらい蚊に刺されませんでした。ほんと嘘みたいなホントの話で、手放せないアイテムになりそうです。まだ1回しか使用していないので、たまたま蚊がいなかっただけかもしれませんので、使いつつ、その効果を確認してみようと思います。それでは今日もPython学習を始めましょう。昨日の復習昨日は、Flaskを使ってHTTPメソッドを操作する方法を学習しました。...

今日は、beautifulsoupを使ったWebスクレイピングのやり方について学習します。

Webスクレイピングとは

Webスクレイピングは、Webに散らばるHTMLページなどから、必要な情報を抜き出すことです。

scraping（）は【削り取る、削ぎ落とす】という意味なので、Webページの情報をごそっと持ってきて、必要なところだけいただくというイメージですね。

ECサイトなどからリアルタイムの価格情報や評価情報などをスクレイピングして、自分のサイトに最新情報を表示するというような使い方がされていますが、スクレイピングはサーバーに負荷をかけるので、サイトによっては、スクレイピング禁止といった表示のあるところもあります。

イメージ的にはあまり良いイメージのないスクレイピングですが、サーバーに負担をかけない使い方をして大量にあふれる情報から必要な情報だけを抜き取ることもできる便利なテクニックであることは間違いありません。

BeautifulSoup

Beautiful Soupは、HTMLのファイルやXMLのファイルからデータを取り出すことができるPythonライブラリで、Pythonの世界では知らないものはいないくらい有名なサードパーティーライブラリの１つです。

Anacondaを使ってPythonをインストールした場合は、デフォルトで組み込まれているので、個別にインストールすることなく使うことができます。

詳細についてはBeautiful Soupのドキュメンテーションをごらんになってみてください。

www.crummy.com

Beautiful Soup Documentation — Beautiful Soup 4.9.0 documentation

https://www.crummy.com/software/BeautifulSoup/bs4/doc/

日本語でも表示できるので、内容は理解できるかと思います。

Beautiful Soupの使い方

それでは、実際にBeautiful Soupを使って本サイト（udemyfun.com）をスクレイピングしてみます。

from bs4 import BeautifulSoup
import requests


html = requests.get('https://udemyfun.com')
print(html.text)

出力結果

<!DOCTYPE html>
<html lang="ja" class="col2">
<head prefix="og: http://ogp.me/ns# fb: http://ogp.me/ns/fb#">

<title>Udemyのセールを活用してほしかったあのスキルを手に入れよう！</title>

以下省略

インポートしているBeautifulSoupとrequestsですが、このコードでは、BeautifulSoupは使っていません。

GETリクエストでudemyfun.comを取得して、取得したデータを出力しています。

出力は長くなるので、省略していますが、次のようなWebページのHTMLが出力されています。

次にBeautiful Soupを使ってデータを抜き出してみます。

from bs4 import BeautifulSoup
import requests


html = requests.get('https://udemyfun.com')

soup = BeautifulSoup(html.text, 'lxml')

titles = soup.find_all('title')
print(titles)

出力結果

[<title>Udemyのセールを活用してほしかったあのスキルを手に入れよう！</title>]

今回は、7行目でBeautifulsoupを使っていますが、HTMLの解析をするのに役立つlxmlライブラリを指定しています。

取得したsoupからtitleタグを見つけて取り出したデータをtitlesに入れて出力しています。

出力結果はリストに<title>タグで囲まれたデータが入ったものになります。

テキストだけ抽出

抽出したタイトルは、タグもはいっているので、テキストだけ抜き出してみます。

先程抽出したリストには、値が1つしか入っていないので、先程のコードの10行目を次のように変更すればテキストだけ抽出できます。

print(titles[0].text)

class指定されたタグを抽出

次に、h2タグにclassを指定している部分を抽出してみましょう。

変更するのは9行目10行目です

h2title = soup.find_all('h2', {'class': 'section-title'})
print(h2title[0].text)

h2にsection-titleとクラスをしているタグのテキストを抜き出します。

こちらのタグも1つしかないので、抽出したリストの1つ目の値をテキストで取り出しました。

出力結果は、次のようになります。

Udemyのセールでお得にオンライン学習！【非公式Udemyファンサイト】

H2タグを抽出

最後に、H2タグをすべて抽出してみましょう

htwo = soup.find_all('h2')
for h in htwo:
    print(h.text)

出力結果

Udemyのセールでお得にオンライン学習！【非公式Udemyファンサイト】
世界最大のオンライン学習プラットフォームUdemy
驚きの講座数
自由な学びのスタイル
30日間返金保証で超安心！
学習スタイルが変わるオンライン講座
Udemy（ユーデミー）のセールはすごくおトク！
Udemyのセールはいつなの？
Udemyのセールは見逃すな！
関連記事

クラスを指定しているタグも抽出できています。

アフィリエイトなどでは、上位表示を狙っているキーワードが上位のサイトからh2タグの文章などを参考にしたりしますが、Pythonを使うことでライバルサイトの分析もできちゃいますね。