PythonでWebからデータを抽出したいんだけどどうやるんだろう・・・とお悩みの方はいらっしゃいませんか?その方法ってスクレイピングっていうんですけど、なかなか難しいですよね。すごくわかります。私も未だに四苦八苦しながらコーディングしています。ただ、なんとか実装しながら徐々にコツを掴んでくることができました。なので、最初の一歩さえちゃんと学べば自走できるようになると思います。
そこで、私がスクレイピングを最初に学習した方法を解説したいと思います。
Udemyで基礎固め

Udemyはオンラインの講座です。そのため自宅ですぐさま学習を始められたので、こちらで勉強しました。しかもUdemyは買い切りなので、一度購入すれば、自分のペースで学習を進められるので、私はUdemyを選びました。
受講した講座①:PythonによるWebスクレイピング〜入門編〜【業務効率化への第一歩】
スクレイピングで必要な技術を一通り身につけることができるので、おすすめですね。
また、レビュー数も多く高評価だったので、こちらを私は選びました。

学習内容
- seleniumを用いてテキスト情報を抽出
- seleniumを用いて自動でログイン
- Webページからテキスト情報を取得
- Pillowを用いてPythonで画像を扱う
- ランキング形式のサイトからまとめて情報を収集する
- Pandasを用いてデータを整理し、CSVへの掃き出しを
受講した感想
- わかりやすくて、スクレイピングって意外と簡単じゃん!!って思えました。
初心者の方には、ぴったりの講座と感じました。これ以上簡単な講座はおそらくないので、これからスクレイピングを学習する方には、おすすめと言えそうです。私は、HTMLに対する知識も多少あったので、よりスムーズに学習できました。HTMLの知識がなくても、別に理解できるなぁの印象だったので、わざわざHTMLを学習しなくても大丈夫だと思います。
ただ、Pythonの基礎は、一度身につけた方がよいかも。。。と感じました。もし、Python自体が初めての方は、まずはこちらの記事を参考にしてみてください。
受講した講座②:Pythonによるビジネスに役立つWebスクレイピング(BeautifulSoup、Selenium、Requests)
こちらの講座は、BeautifulSoup、Selenium、Requestsと三つ学べるのがよかったです。こちらの方が、講座が長くてボリューミーです。ニュースのタイトルをスクレイピングで取得したりと、少しビジネスマン向けの印象でした。
こちらの講座の方が先ほどの講座とり、レビュー数が少ないですが、高評価ですので、そこも私には決め手になりました。

学習内容
- Python3のスクレイピング用ライブラリBeautifulSoup、Selenium、Requests、Newspaper3k、Pandas(read_html)が扱えるようになります。
- Beautiful Soupを用いて、複数のWebページを巡回し、目的の情報を取得する方法を理解することができます。
- Seleniumを利用した、ログイン画面への対処、JavaScriptを用いた動的なサイトへの対処、画像を取得・ダウンロードする方法を理解することができます。
- newspaper3kを用いて、ニュースサイトやブログのトップページに表示されている複数の記事を順に巡回し、記事や要約、キーワードをダウンロード・保存する方法を理解することができます。
- Pandasのread_htmlを用いて、Webサイト上のテーブルに格納されているデータを取得する方法を理解することができます。
- スクレイピングにおけるXPath、CSSセレクタ、正規表現の利用方法を学ぶことができます。
- スクレイピングでデータを取得・抽出し、取得したデータを整形・グラフ化、保存する一連の流れを習得することができます。
受講した感想
- 内容盛りだくさんでお得
上記の講座とさほど値段は変わらないのですが、こちらの講座の方がボリュームが多い。なので、非常にお得感がありました。題材的には、上記の講座が、ランキングサイトからのスクレイピングだったのに対し、こちらはビジネスニュースからのスクレイピングとすこし、ビジネスよりでしたね。ニュースのスクレイピングをやりたい方は、こちらの講座を選べば間違いないと思います。
スクレイピングするデータのテーマは自分の趣味にする!

では、基礎固めが終わったところでいざスクレイピングにチャレンジするのに際し、私は、自分の趣味にあうデータセットを対象とするこで楽しみながら学習を自走できましたので、おすすめです。
- 競馬のデータ
- 株式投資のデータ
- 不動産のデータ
- ゲームのランキング
- サッカー選手の一覧
等々です。まずは自分の趣味と照らし合わせて、好きな題材を選びましょう。
ただ、講座だけでは補えない部分もあるので、そういった部分は本でカバーしました。
ここまでくると中級者レベルだと思うので以下の方がおすすめです。
Pythonクローリング&スクレイピング ―データ収集・解析のための実践開発ガイド
「Pythonクローリング&スクレイピング ―データ収集・解析のための実践開発ガイド」は中級者向けの本です。私も今でも読んでいます。。。ところどころ難しいですが、非常に使えるテクニックが乗っているのでおすすめです。
まとめ
私がスクレイピングを覚えるまでに、最初に学習した方法を解説しました。
おすすめの方法は以下です。
- Udemyで基礎固め
- 自分の好きなテーマで実装してみる
- 「Pythonクローリング&スクレイピング ―データ収集・解析のための実践開発ガイド」でカバー
私が、実際にスクレイピングしている記事もあるので参考にしてみてください。
コメント
[…] […]