AI(人工知能/ディープラーニング)

WEBスクレイピングを実行するにはPythonを学ぶか、既存のサービスを活用するか

この記事は約2分で読めます。

octoparsejp.jpgPython(パイソン)のビデオ学習を始めたところだが、応用編でよく出てくる「WEBスクレイピング」が面白そう。WEBスクレイピングとは、インターネットを活用して欲しい情報を自動的に集める技術で、ウェブスパイダーとかウェブクローラーとも呼ばれる。Googleの検索ロボットがクローラーと言われているが、ある意味同様の機能である。
PythonではBeautifulSoup(ビューティフルソープ)を使う。BeautifulSoupは、HTMLとXML文書を解析するためのPythonパッケージで、対象のWEBサイトからHTMLデータを抽出できるため、WEBスクレイピングができる。

WEBスクレイピング

▼UdemyのPython学習ビデオ
soupgamentest.jpg

上記がPythonでBeautifulSoupを実施している画面。しかし、今の自分にはかなり難易度が高い。なかなか完成のイメージがつかめない。

そこで、まずWEBスクレイピングの動作イメージを掴むため、既存のWEBサービスを調べて試用してみることにした。既存のWEBスクレイピングサービスでは評判のよさそうなoctoparse.jpを試した。

https://www.octoparse.jp/からプログラムをダウンロードして実施。

いきなり警告が表示された。

octparseblock.jpg

これは、このプログラムがインターネットを介して外部のWEBサーバに接続するため、ウイルス対策ソフトから警告が発せられたものである。ガイドラインでもこの件は明示してあったので、ここでは「アクセスを許可する」とする。

設定を進めていくと、SNSのWEBスクレイピングが面白うそうだった。FacebookやInstagramで特定のユーザーの記事を集めてくることができるようだ。

試しに、自分のInstagramの蕎麦アカウントの情報を収集してみた。

▼インスタグラムの特定ユーザーの記事を読み込む
octoparsejpinsta.jpg

小一時間ほどかかったが、対象のインスタグラムのアカウントから写真と記事を114件読み込むことができた。

ここまではよかったが、この抽出データをローカルにダウンロード(エクスポート)しようとすると、無料版では不可で有料の上位版にアップグレードが必要だった。

octoparsejpupgrade.jpg

というわけで、いまいち使い勝手がよくないので、このサービスの継続利用は見合わせようと思う。残念。

やはり、きちんと学んでPythonでWEBスクレイピングをやってみろ、ということかもしれない。