生成AIが勝手にアクセスして、自分のサイトの情報をまとめたり、写真を利用されたり、一方的に収集されるのはどうなのか。と思い、自身のサイトはクロールアクセスを拒否するようにした。
robots.txt で拒否する
robots.txtは、検索エンジンなどのクローラーに対して自分のサイトへアクセスして良いか?を定義するファイルです。
主要なAIも、Googleと同じようにbotでクローリングしています。
これを防ぐためにはrobots.txtでアクセスさせたくないクローラーを記載すればOKです。
WordPressプラグイン「Virtual Robots.txt」をインストール
Virtual Robots.txtプラグインはrobots.txtを管理するためのプラグインです。
機能がrobots.txtを変更するだけのシンプルで使いやすいものになっています。
robots.txtを変更する
サイトへのアクセスを完全に拒否する場合は、次のように robots.txt に記述します。
User-agent: [crawler's name]
Disallow: /
・User-agent: これは、特定のウェブクローラーをターゲットにするために使います。
・Disallow: このディレクティブは、指定したUser-agentがアクセスすることを禁止するディレクトリやページを指定します。/
はウェブサイトのルートディレクトリ(すべてのページ)を指します。
ChatGPTのクローラーを拒否
ChatGPTの開発元のOpenAIがクローラーに関して技術ドキュメントを公開しています。
https://platform.openai.com/docs/bots
ClaudeのUAは「GPTBot」、「ChatGPT-User」です。
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
Geminiのクローラーを拒否
Google-Extended は、Google の生成 AI がウェブページをトレーニングデータとして利用することを制御するときに指定するユーザーエージェントです。
User-agent: Google-Extended
Disallow: /
Claudeのクローラーを拒否
Claudeは、Anthropicが開発した大規模なAIモデルで、自然言語処理タスクに優れた性能を発揮します。安全性と倫理に配慮した設計が特徴です。
ClaudeのUAは「ClaudeBot」です。
User-agent: ClaudeBot
Disallow: /
Common Crawlのクローラーを拒否
Common Crawl は、ウェブをクロールし、そのデータのアーカイブを提供する非営利組織です。
インターネット上の膨大なウェブページを定期的にクロールし、そのデータを無料で公開するプロジェクトです。収集されるデータには、HTML、テキスト、リンク情報などが含まれ、研究者や開発者による分析や機械学習に利用されています。
Common CrawlのUAは「CCBot」です。
User-agent: CCBot
Disallow: /
robots.txtの記述まとめ
まとめると下記になる。
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
他にも多岐にわたる生成AIがあり、また様々な情報収集ツールでインターネット上はクロールされている。必要に応じて不要なアクセスは拒否することを検討した方が良さそうです。