Web スクレイピングとは?
できること、収集データの活用を紹介

Webで業務に必要なデータをリサーチして、そのデータをコピーしExcelにペーストしてリストを作成した経験のある人は多いと思います。
簡単に言うと、これがWebスクレイピングです。
ただし、多くの情報をこのように手動で処理することは、大変骨の折れる作業です。
現在はこれをシステム化し、自動で行える方法があります。

今回は、Web スクレイピングとは何か、できることや収集データの活用について紹介します。

1.Webスクレイピングとは

概要

スクレイピングとは、データを収集し、利用しやすく加工することを意味します。
そして、データの収集をWebで行うことをWeb スクレイピングと言います。
Web スクレイピングのツールやプログラミングを用いて自動化すれば、冒頭で述べたような作業の負担は大幅に軽減されます。
また、自社にはないデータを活用することで、付加価値が生まれる可能性があります。

スクレイピングに似た言葉に、クローリングがあります。
これは、Webからデータを収集することであり、加工することまでは含んでいません。

また、API(Application Programming Interface)というものもあります。
これは、Web スクレイピングをしなくても、データを常時公開している仕組みです。

クローリング

クローリングとは、クローラーによる情報収集のことを言い、クローラーは、インターネットを巡回してWebのデータを収集し、データベースにインデックスを自動的に作成するプログラムのことを言います。
代表的なクローラーとしては、Googleの「Googlebot」があります。
Googlebotは世界中のWebサイトの情報を集めて登録し、これによりユーザーは検索結果を取得できます。
自社のWebサイトを運営する際、適切に構造を整理しSEO対策を行っていると思います。
これは、Webサイトのデータをクローラーにきちんと認知してもらうためです。

API

APIでは、一定の条件下で、サービス側が開発者に向けてデータを提供しています。
APIはサービス側が許可している方法ですが、Web スクレイピングは公式にサポートされていません。
そのため、サービス側の許可なくWeb スクレイピングを行うと、Web サイトの利用規約に触れることや、「不正アクセス行為の禁止等に関する法律」に違反し処罰を受けることがありますので注意が必要です。

必要なデータがAPIで公開されていることもありますので、Web スクレイピングをする前に、一度確認してみるとよいでしょう。

2.Webスクレイピングによるデータ活用方法

自社Webサイトの信頼性の向上

自社の評価などに関するデータを抽出することで、Webサイトに正確な情報を記載することができます。これにより、自社のWebサイトの信頼性を向上させることができます。

マーケティングの効率化

商品やサービスの価格に関するデータを抽出すれば、適性の価格で市場に提案することができます。
また、競合他社のリサーチにも最適です。

株価変動の追跡

Webスクレイピングにより、特定の株価の変動を追跡できます。
ただし、スクレイピングを禁止しているサイトもありますので、事前に確認が必要です。

ネットオークションでの価格変動を予測

ネットオークションには、商品に関するあらゆるデータが詰まっていますので、落札価格を予測することも可能です。
また、商品の市場価値や需要を知ることもできます。

SEO対策の効果の確認

自社のWebサイトの検索順位についてデータを抽出すれば、どのようなコンテンツがSEO対策として効果的だったかを確認できます。
また、競合他社のサイトのチェックにも役立ちます。

3.メリットとデメリット

Webスクレイピングはメリットがある一方で、デメリットもありますので、あらかじめ把握しておきましょう。

メリット

〈業務の効率化〉

繰り返しになりますが、Webスクレイピングを利用することで、データ収集を自動化できるため、業務の効率化につながります。

〈APIが提供されていないデータの収集〉

APIが提供されていない場合や、APIが提供されていても欲しいデータがない場合にWebスクレイピングが役立ちます。

デメリット

〈Webサイトの構造変更の影響〉

Webスクレイピングは、HTMLを利用してデータを取得します。
そのため、データ収集先のHTMLの構造が変わると、プログラムを修正しなければなりません。
また、アプリやサービスにWebスクレイピング機能を組み込んでいる場合、さまざまな影響を受けます。

〈アクセス拒否〉

不審な動きをするとそのログが残り、データ収集先のWebサイトからアクセスを拒否される場合があります。

〈セキュリティリスク〉

認証が必要なデータの取得には、サーバにIDやパスワードを登録する必要があり、セキュリティ面でリスクが生じます。

4.注意事項

トラブルを避けるために、Webスクレイピングを行う前にいくつか知っておくべきことがあります。

Webスクレイピングによる負荷

Webスクレイピングは、外部で作成されたデータを収集・利用します。
そのため、データ収集先に迷惑をかけないようにすることが大切です。
また、大量の負荷がかかるようなWebスクレイピングは控えましょう。
そして、外部だけでなく、自社システムにも影響がないかも検討しておく必要があります。

法律への抵触

Webスクレイピングに関連する法律は、「著作権法」と「動産不法侵入」です。
著作権法では、「私的利用のための複製」あるいは「情報解析のための複製」であればデータの利用が認められています。
つまり、データの取得・解析であれば、Webスクレイピングを行うことは問題ありません。
そして、情報収集先のWebサイトに掲載されている条件を守らないことや、サーバに負荷をかけることなどは、動産不法侵入に当たる可能性があります。

アクセス制限・利用規約の遵守

アクセス制限のためのファイル「robots.txt」というものがありますので、Webスクレイピングをする場合は、このファイルにある制限内容を遵守しなければなりません。
また、もしクローリングした際にアクセス制限がされていれば、データは破棄し、使用しないようにする必要があります。
Webサイトの利用規約も確認しましょう。
規約に「Webスクレイピング禁止」と明記されている場合は行ってはいけません。

5.導入方法

Webスクレイピングを導入する方法には、次の3つがあります。

有料ツール

出典: Octoparse
出典: WebHarvy

有料であるためコストはかかりますが、機能は充実しています。
また、プログラミングの知識がなくてもWebスクレイピングを導入することができます。
代表的なツールとしては、「Octoparse」や「WebHarvy」などがあります。

無料ツール

出典: WebScraper

無料ツールはコストがかからないため、すぐに始めることができますが、HTMLやCSSなど、ある程度プログラミングの知識が必要です。
代表的なツールとしては、Google Chromeの拡張機能「WebScraper」があります。

自分でプログラムを構築

コストをかけずに、自分の思いどおりのスクレイパー(Webスクレイピングを行うプログラムのこと)を作ることができます。
しかし、それを実現できるだけのプログラミングの知識が求められます。
Webスクレイピングのプログラム構築にお勧めのプログラミング言語には、「Python」「Ruby」「JavaScript」といったものがあります。

6.まとめ

Webスクレイピングにはいくつか注意しなければならいことがあり、難しいと感じるかもしれません。
しかし、ルールを守って正しく利用すれば、業務効率化を図れるだけでなく、マーケティングなどビジネスのあらゆる場面にデータを生かすことができます。