robots.txtの書き方
robots.txtとは?
robots.txtは、検索エンジンのクローラーに対して、ウェブサイト内のどのページをクロールし、インデックス化するかを指示するためのシンプルなテキストファイルです。
主な役割
- 特定のページへのアクセス制限: 検索エンジンが特定のページをクロールしないように指示できます。
- クロール速度の調整: クロール頻度を制限することで、サーバーへの負荷を軽減できます。
- サイトマップの通知: サイトマップの場所を指定することで、検索エンジンがサイトの構造をより深く理解しやすくなります。
robots.txtの書き方
robots.txtファイルは、非常にシンプルな構文で記述します。
基本的な構文
User-agent: クローラーの名前
Disallow: アクセスを禁止するディレクトリまたはファイルのパス
Allow: アクセスを許可するディレクトリまたはファイルのパス
Sitemap: サイトマップのURL
例
User-agent: Googlebot
Disallow: /admin/
Disallow: /cgi-bin/
Sitemap: https://example.com/sitemap.xml
解説
- User-agent: どのクローラーに指示を出すかを指定します。Googlebot以外にも、Bingbot、YandexBotなどがあります。
- Disallow: 指定したディレクトリまたはファイルへのアクセスを禁止します。
- Allow: Disallowで禁止した一部のページへのアクセスを許可する場合に利用します。
- Sitemap: サイトマップのURLを指定します。
robots.txtの注意点
- 正確なパス: DisallowやAllowで指定するパスは、正確に記述する必要があります。誤ったパスを指定すると、意図しないページがクロールされない可能性があります。
- 相対パスと絶対パス: 相対パスと絶対パスのどちらを使用しても構いませんが、一貫して使用するようにしましょう。
- 大文字小文字: DisallowやAllowは、大文字小文字を区別しません。
- ワイルドカード: アスタリスク(*)を使用することで、複数のページを一括で指定できます。
- 複数のルール: 複数のUser-agentに対して異なるルールを指定できます。
- 優先順位: robots.txtファイル内のルールは、上から順に処理されます。
robots.txtの設置場所
robots.txtファイルは、ウェブサイトのルートディレクトリに配置します。
robots.txtのテスト
robots.txtが正しく機能しているか確認するために、Google Search Consoleなどのツールを利用してテストすることができます。
robots.txtの活用例
- 開発中のページの非表示: 公開前のページを検索結果から除外したい場合。
- 重複コンテンツの対策: 同じ内容のページが複数ある場合、検索エンジンに1つのページのみをインデックス化させたい場合。
- 特定のページへのアクセス制限: 管理画面など、一般ユーザーに公開したくないページへのアクセスを制限したい場合。
まとめ
robots.txtは、ウェブサイトのSEO対策において重要な役割を果たします。適切に設定することで、検索エンジンのクローラーを効率的に誘導し、ウェブサイトの評価向上に繋げることができます。
より詳しい情報を知りたい場合は、以下のリンクも参考にしてください。
- Google 検索セントラル:
https://developers.google.com/search/docs/crawling-indexing/robots/create-robots-txt?hl=ja
コメント
コメントを投稿