robots.txtの書き方
robots.txtとは? robots.txtは、検索エンジンのクローラーに対して、ウェブサイト内のどのページをクロールし、インデックス化するかを指示するためのシンプルなテキストファイルです。 主な役割 特定のページへのアクセス制限: 検索エンジンが特定のページをクロールしないように指示できます。 クロール速度の調整: クロール頻度を制限することで、サーバーへの負荷を軽減できます。 サイトマップの通知: サイトマップの場所を指定することで、検索エンジンがサイトの構造をより深く理解しやすくなります。 robots.txtの書き方 robots.txtファイルは、非常にシンプルな構文で記述します。 基本的な構文 User-agent: クローラーの名前 Disallow: アクセスを禁止するディレクトリまたはファイルのパス Allow: アクセスを許可するディレクトリまたはファイルのパス Sitemap: サイトマップのURL 例 User-agent: Googlebot Disallow: /admin/ Disallow: /cgi-bin/ Sitemap: https://example.com/sitemap.xml 解説 User-agent: どのクローラーに指示を出すかを指定します。Googlebot以外にも、Bingbot、YandexBotなどがあります。 Disallow: 指定したディレクトリまたはファイルへのアクセスを禁止します。 Allow: Disallowで禁止した一部のページへのアクセスを許可する場合に利用します。 Sitemap: サイトマップのURLを指定します。 robots.txtの注意点 正確なパス: DisallowやAllowで指定するパスは、正確に記述する必要があります。誤ったパスを指定すると、意図しないページがクロールされない可能性があります。 相対パスと絶対パス: 相対パスと絶対パスのどちらを使用しても構いませんが、一貫して使用するようにしましょう。 大文字小文字: DisallowやAllowは、大文字小文字を区別しません。 ワイルドカード: アスタリスク(*)を使用することで、複数のページを一括で指定できます。 複数のルール: 複数のUser-a...