きっかけ
Pythonの勉強会のネタとして、Webスクレイピングを企画していました。が、実際に資料を作っていると、
「あれ、このサイトってスクレイピングOKなんだろうか…」
と疑問に思うことが多くありました。
スクレイピングの禁止事項は調べるといろいろな記事が見つかりますが、禁止しているサイトにどのようなものがあるのか、網羅的な記事はあまりないように思えたので、備忘録的にまとめておきます。
スクレイピングをするにあたっての注意事項
詳しい記事は他にたくさんあるので、そちらを見てもらえればよいのですが、- 著作権と利用規約
- サイトマップ
- robots.txtによる指示
- Webサイトへの負荷
robots.txtとは
ロボットに対してどのURLにアクセスして良いか、してはいけないかが書いてあるファイルのことです。ここでのロボットは、GoogleクローラーのようなWebページを収集するプログラムのことです。
いろいろなサイトのrobots.txtを確認してみる
robots.txtは、各サイトのドメインのルートディレクトリに設置されているそうです。以下のサイトについて調べてみたので、
・スクレイピングを禁止事項を明示してあるページ(見つかれば)
・robots.txt
を紹介していきます。
すべての検索結果に対して禁止しているようです。 画像検索もダメです。
https://www.google.com/robots.txt
User-agent: *(一部抜粋)
Disallow: /search
Allow: /search/about
Allow: /search/static
Allow: /search/howsearchworks
Disallow: /sdch
Disallow: /groups
Disallow: /index.html?
Disallow: /?
Allow: /?hl=
Disallow: /?hl=&
Allow: /?hl=&gwsrd=ssl$
Disallow: /?hl=&&gwsrd=ssl
Allow: /?gws_rd=ssl$
Allow: /?pt1=true$
Disallow: /imgres
Disallow: /u/
Disallow: /preferences
Disallow: /setprefs
Disallow: /default
Disallow: /m?
Disallow: /m/
メルカリ
禁止されている行為 - メルカリ スマホでかんたん フリマアプリhttps://www.mercari.com/robots.txt
Sitemap: https://www.mercari.com/us-sitemap-index.xml
User-agent: AdsBot-Google-Mobile
User-agent: Googlebot-Image
User-agent: AdsBot-Google
Allow: /
User-agent: Googlebot
User-agent: *
Disallow: /tos/
Disallow: /privacy/
Disallow: /masters/
Disallow: /jp/tos/
Disallow: /jp/privacy/
Disallow: /jp/tokutei/
Disallow: /jp/masters/
Disallow: /w9/
Disallow: /jp/report/
Disallow: /report/
Disallow: /jp/comment/report/
Disallow: /comment/report/
Disallow: /transaction/*
Disallow: /u//reviews/
Disallow: /login/
いらすとや
https://www.irasutoya.com/robots.txtUser-agent: Mediapartners-Google検索結果を取得してスクレイピング、というのは禁止されているようです。
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: https://www.irasutoya.com/sitemap.xml
Yahooファイナンス・画像検索
Yahoo!ファイナンス掲載情報の自動取得(スクレイピング)は禁止していますhttps://search.yahoo.co.jp/image/robots.txt
User-agent: *すべての内容に対して禁止しています。
Disallow: /
わかりやすいですね…
参考:【Webスクレイピング禁止?】Yahooファイナンス・画像検索(robots.txt) | 西住工房
フリーの写真素材配布サイト
・写真素材なら「写真AC」無料(フリー)ダウンロードOKhttps://www.photo-ac.com/robots.txt
User-Agent:*
Disallow: /caching/
Disallow:/creator/*
Disallow:/user/*
User-agent: AhrefsBot
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: SemrushBot
Disallow: /
・写真素材・ストックフォト | 日本最大級の画像素材サイト - PIXTA
https://pixta.jp/robots.txt
User-agent: *
Disallow: /mypage/
Disallow: /report/
Disallow: /cart
Disallow: /lightboxes
Disallow: /public-lightboxes
Disallow: /search/bcfootagesuggest_list*
Disallow: /search/image*
Disallow: /search/similar/
Disallow: *md[
Disallow: /lookup-histories
Allow: /
Sitemap: https://pixta.jp/sitemaps/sitemap_index.xml.gz
・1.700万点以上の高品質なフリー画像素材 - Pixabay
https://pixabay.com/robots.txt
User-agent: *
Allow: /api/docs/
Allow: /static/.
Disallow: /static/
Disallow: //accounts/login/?
Disallow: /accounts/login/?
Disallow: //accounts/favorite/
Disallow: //accounts/follow
Disallow: /accounts/follow*
Disallow: //accounts/messages/
Disallow: //blog/comments/
Disallow: //feeds/
Disallow: /feeds/
Disallow: //forum/
Disallow: /forum/
Disallow: //images/tools/
Disallow: //images/comments/
Disallow: //images/download/
Disallow: //videos/comments/
Disallow: //videos/download/*
Disallow: /newsletter/
Disallow: /get/
Disallow: /api/
Crawl-delay: 1
Allow: /
User-agent: 008
User-agent: MJ12bot
User-agent: sitebot
User-agent: dotbot
User-agent: AhrefsBot
User-agent: Ocelli
User-agent: sistrix
User-agent: ShopWiki
User-agent: WBSearchBot
User-agent: Riddlerbot
User-agent: linguatools
User-agent: www.integromedb.org/Crawler
User-agent: CCBot
Disallow: /
Sitemap: https://pixabay.com/sitemap.xml.gz
まとめ
結構スクレイピングを明示的に禁止しているサイトは多かったですね。世の中には上記のサイトを対象にしたスクレイピングの記事が溢れていますが、どうなんでしょう…
そのあたりも自己責任で情報を取捨選択していかないといけない、ということでしょうか。
参考
・Webスクレイピングの注意事項一覧 - Qiita・スクレイピング、クローリングする時の注意点 — Pythonオンライン学習サービス PyQ(パイキュー)ドキュメント
・スクレイピング・クローリングの注意点 - slideship.com