備忘録的プログラミングリファレンス

robots.txt

 robots.txt とは、どのページを巡回してよいか/否かをサーチロボットに知らせるためのものです。
 サーチロボットはサイト内の web ページを巡回し、検索インデックスを作成します。 robots.txt で巡回を拒否すると結果として検索インデックスの候補にもなりません。

 web ページにおける <meta name="robots" content="index,follow" /> と同じような機能があるのですが、robots.txt では巡回を拒否できますので確実に検索インデックスの対象にしないことができます。

robots.txt の効果

 robots.txt は、サーチロボットに対して巡回の許可/拒否を確実に知らせます。
 このことは、SEO 対策としてよい効果をもたらします。Google Search Console でページのインデックス登録において未登録登録済みを見たことはないでしょうか。

 Google Search Console のページのインデックス登録は、有効なページであるか/否かを表し、有意義なページであるか/否かを意味します。
 登録済みは有効なページなのですが、未登録ページは価値のないページとみなされ、未登録ページが多いほど価値の低いサイトと見なされます。

 未登録ページが少ないほうがよいサイトとして検索インデックスのより上位に掲載される傾向があります。そのことが、SEO 対策としてよい効果をもたらすのです。

 robots.txt は、Google のサーチロボットに対して巡回の許可/拒否を確実に知らせ、結果として未登録ページを減らす効果があります。

 ただし、重複やリダイレクトに関して未インデックスのURLは robots.txt で拒否していまうと、利用されるべき URL も巡回の拒否対象になります。必ずテストするようにして下さい。

robots.txt の書き方

 robots.txt の内容は以下のようにUser-AgentDisallowAllowSitemapで構成されます。

User-Agent
サーチロボットの指定。*にしておく
Disallow
ページの Index 不可の指定
Allow
ページの Index 可の指定
Sitemap
サイトマップファイルの場所を指定

 ここでは簡単に検索にインデックスされたくないページを登録しますのでAllowは使いません。また、デフォルトでDisallowで拒否しない限りはすべてのページがAllowになります。
 例えば、/Example/non-index.htmlページをインデックスしないように、サイトマップは直下sitemap.xmlである場合は以下のように編集します。

robots.txt
User-Agent:*
Disallow:/Example/non-index.html
Sitemap:https://example.jp/sitemap.xml

 インデックスして欲しくないページが複数ある場合は以下のように1ページずつ Disallow: で指定します。

複数のファイルを指定
User-Agent:*
Disallow:/Example/non-index.html
Disallow:/Example/no-index.html
Disallow:/Example/nonnon-index.html
Sitemap:https://example.jp/sitemap.xml

 ディレクトリごと指定する場合は、以下のようにします。

拒否するディレクトリの指定
...
Disallow:/Example/
...

 ここでは簡単にだけ robots.txt の編集方法を紹介します。詳しい robots.txt の編集方法は調べてみてください。

 robots.txt の内容が編集できたら保存しましょう。ファイル名はもちろんrobots.txtです。

 次に、保存したrobots.txtをサイトのルートディレクトリにアップロードします。Google のサーチロボットはルートディレクトリにある robots.txt を自動で参照するためです。
 robots.txt ファイルはルートディレクトリにあるという前提になっているのです。

アップロード前のテスト

 robots.txt ファイルをアップロードしないでテストすることもできます。

 robots.txt テスターで robots.txt をテストするにあるrobots.txt テスターを開くからテスターを開きます。

 テスターを開いたら、確認済みのプロパティを選択でサイトを選択してください。

 robots.txt テスター以下の編集エリアで上記のような robots.txt の内容を編集し、下の URL 入力欄にテストしたいページを入力後、テストをクリックします。

 すると、許可済み/ブロック済みで 検索ロボットの巡回が許可されているか/拒否されているかが分かります。

robots.txt のテスト

 アップロードした robots.txt の内容をテストするにはrobots.txt テスターで robots.txt をテストするにあるrobots.txt テスターを開くからテスターを開きます。

 テスターを開いたら、確認済みのプロパティを選択でサイトを選択してください。

 しばらくすると、アップロードした robots.txt が読み込まれていればその内容が表示されます。

 最下部の URL 入力欄にテストしたいページを入力後、テストをクリックします。

 すると、許可済み/ブロック済みで 検索ロボットの巡回が許可されているか/拒否されているかが分かります。

 robots.txt は Google Search Console において優良なサイトであるかを測る要素になります。 SEO 対策として試してみてはいかがでしょうか。