最終更新日:8/28/2024

SEO担当者向けrobots.txtの書き方と設定方法を解説

現在はSEOに強いAIライティングツール「トランスコープ」のような、SEO対策を効率化させるAIツールもある中で、

「robots.txtは、そもそもSEO対策として本当に必要?」

「robots.txtをどうやって設定するのか知りたい!」

このように悩むSEO担当者もいるのではないでしょうか。

本記事では、SEO担当者の皆様に向けて、robots.txtの概要とSEOの関連について解説します。

実は、robots.txtが必要なWebサイトと、不要なサイトがあります。

本記事を読んで、貴社のWebサイトにとってrobots.txtが必要かどうか、参考にしていただけますと幸いです。

robots.txtの概要

robots.txtとは、Googleなど検索エンジンのクローラーに対してどのページを調査すべきか、または調査すべきでないかを指示する「テキストファイル」です。

サイト内の一番上のディレクトリにrobots.txtを配置することで、クローラーが訪れた際の案内役をします。

Webサイトには多くのページがありますが、全部をクローラーに見てもらう必要はないでしょう。

次に、robots.txtの詳細について、目的・noindexとの違い・設定が必要なサイトの3点について、順に解説します。

robots.txtの2つの目的

robots.txtには、2つの目的があります。

  1. どのページをクローリングするかを管理する
  2. (一部のメディアファイルを検索結果から除外するなど)どのファイルをクローリングするかを管理する

サイトにクローラーが来た際、はじめにrobots.txtを提示しておくことで「このページは見ないで」と伝えられます。

たとえば、Webサイトの規模が大きくページも多くなるほど、クローラーが全て巡回するための時間もかかってしまいます。

優先順位が決められていないので、クローラーが自動生成ページなどもチェックしてしまうからです。

しかし、robots.txtがあれば、クローラーは不要なページの巡回をせず、必要なページをチェックするだけとなります。

結果的にクローラーに「このページは重要なので見てほしい」と伝えることができるだけでなく、サーバーの負荷が軽減され、クロールの巡回効率も改善につながります。

また画像や音声などのメディアファイルを、検索結果に出したくないときもrobots.txtは使用可能です。

noindexとの違い

robots.txtには、巡回させたくないページを指定できる、という目的があります。

SEO担当者の中には

「noindexと似ているけれど、何が違うのか?」

と疑問を持った方もいるのではないでしょうか。

たとえば、あるページがまだ完成していないか重要ではないページに対しては「このページは調べないでほしい」とrobots.txtで指示可能です。

ところが、robots.txtの記述通りに動かないクローラーもあり、ページが存在するものとして、検索結果に表示される可能性があります。

一方noindexは、メタタグの1つでWebページに直接記述できます。

noindexの例は下図のとおりです。

noindexを使うと「このページを検索結果に表示しないで」と、確実に検索エンジンに伝えることができます。

robots.txtよりも強い指示のため、ページを検索結果に全く現れないようにできる点が、noindexとの大きな違いです。

なお、メタタグについては【2024年版】SEOに強いメタタグ・HTMLコーディングとは?のコラムをご覧ください。

robots.txtが必要なサイトとは

全てのWebサイトに対して、必ずしもrobots.txtの設定がいるとは限りません。

robots.txtによる指定があると良いとされるページは、以下のとおりです。

  • 開発中のページ
  • 管理者ページ
  • 重複するコンテンツ
  • 大量のデータを含むページ
  • 個人的な内容を含むページ

管理者向けのページやショッピング決済ページなどは、閲覧する人が限られるため巡回する必要のないページです。

一般の訪問者には関連性が低いため、検索結果に表示する必要もありません。

また重複するコンテンツや大量のデータを含むページは、サーバー側の負荷が高くなるため、robots.txtがあると良いと考えられます。

クロールを防ぐことで、ページの評価が分散されるのを防ぎます。

会員専用ページなども個人情報のため、外部に公開する必要がないため、クローラーから保護することが望ましいでしょう。

robots.txtによるSEO効果とは

ここまで読んでいただいた方の中には、

「SEO効果として何が期待できるの?」

と思ったSEO担当者もいるでしょう。

結論robots.txtによって、評価してほしい重要ページが早くインデックスされます。

その結果、Google検索するユーザーがWebサイトやページを見つけやすくなる効果が期待できます。

しかしrobots.txtの本来の目的は、サイトへのトラフィックを管理し、リクエストの過負荷を避けるためであると把握しておいてください。

robots.txtの設定方法

robots.txtを設定する方法について解説します。

  1. ファイルの作成
  2. 構文を記載
  3. アップロード
  4. テスト
  5. クロールされるのを待つ

robots.txtの構文の例も記載しておりますので、順番に確認しましょう。

1.ファイルの作成

robots.txtの作成には、メモ帳やTextEditなどさまざまなテキストエディターが使用可能です。

ただし、ワープロソフトは独自のファイル形式となるため、使用しないよう注意してください。

なお、ファイル名は「robots.txt」とする決まりがあります。(Google 検索セントラルより)

2.構文を記載

robots.txtの例は下図のとおりです。

引用:Google 検索セントラル

robots.txtでよく使われる構文は、以下の5つです。

  1. User-agent
  2. Disallow
  3. Allow
  4. Crawl-delay
  5. Sitemap

ただし、上記の全てを記載するわけではなく、主に使用されるのは以下の3つとなります。

  • User-agent
  • Disallow
  • Sitemap

5つの構文が、それぞれどのような役割があるのか解説します。

1.User-agent

User-agentは、どのクローラーを制限するかが指定可能です。

Googleなら「User-agent: Googlebot」、Bingであれば「User-agent: Bingbot」と入力します。

今話題のChatGPTのクローラーであれば「User-agent: GPTBot」と入力します。

全クローラーを対象にしたい場合は「*」を入力しましょう。

2.Disallow

Disallowは、巡回させたくないファイルを指定できます。

たとえば、全検索エンジンに対してサイトを巡回させたくないケースでは、以下の書き方になります。

User-agent: *
Disallow: /

また、特定のページなどを巡回させたくない場合は、以下のとおりです。

User-agent: *
Disallow: /test-page/

3.Allow

Allowは、Disallow構文にて設定したディレクトリ内の特定ページ、もしくはサブディレクトリの巡回を許可する構文です。

たとえば、あるディレクトリ全体へのアクセスは制限したいが、その中の特定ページだけ巡回させたい場合にAllowを使用します。

以下のような書き方であれば「全クローラーは、blogの中にあるexample-postだけは見てほしい」と指示できます。

User-agent: *
Disallow: /blog
Allow: /blog/example-post

ただし、全ての検索エンジンがAllowを認識するわけではなく、GoogleとBingのクローラーには使えるようです。

4.Crawl-delay

Crawl-delayは、クロール率を遅らせるよう指示でき、サーバーへの負荷を避ける際に使用されます。

クロールはしてほしいけれど、Webサイトの動作が重くなりパフォーマンスも落ちてしまっては、デメリットとなってしまいます。

たとえば「ページを巡回するために、10秒待ってから次のページに行ってほしい」と指示したいときは、以下のような書き方です。

User-agent: *
Crawl-delay: 10

ただし、Crawl-delayを認識するのはBingとYandexのみのようです。

なお、Googlebotのクロール率を設定したい場合は、Google Search Consoleで行ってください。

なお、Google Search Consoleの詳しい使い方については【Googleサーチコンソール】使い方から応用まで詳しく解説!のコラムをぜひご覧ください。

5.Sitemap

Sitemapは、サイトマップがどこにあるかをクローラーに伝えるための構文です

サイトマップとは、サイト内のページがどのように構成されているかを示す、目次のようなものです。

本の目次があると読みたいページをすぐに見つけられるのと同じく、クローラーもサイトマップを確認してサイト内の重要なページを効率的にクロールできます。

書き方の例は以下のとおりです。

Sitemap: https://〇〇.com/sitemap.xml

なお、Search Consoleを使用すればサイトマップを送信できるため、本来は省略できる構文です。

しかし、記載しておくことによってクローラーの巡回が早くなる可能性もあります。

3.アップロード

robots.txtを保存したら、クローラーが使用できるようアップロードします。

robots.txtは、各サーバーの管理画面からアップロード、または以下のFTPソフトを利用してください。

  • Windows→File Zilla、FFFTP
  • Mac→Cyberduck、Flie Zilla

アップロード後は、robots.txtが一般公開されているか、各構文を認識できているかをテストしましょう。

4.テスト

robots.txtのテスト用に、Googleでは2つの手段を用意しています

1つ目は、Google Search Consoleのrobots.txtテスターで、Webサイト上にあるアクセス可能なrobots.txtに対してのみ使用可能です。

もしもエラー・警告がある場合は、修正するためのヒントも提供されるので、比較的誰でも使いやすいでしょう。

2つ目は、Googleのオープンソースであるrobots.txtライブラリを使用して、ローカルテストがパソコン上でできます。

特に、Webサイトへアップロードする前に、ローカルでさまざまな条件を試しておきたい場合は便利でしょう。

robots.txtライブラリの方がSEO専門家向けとなるため、ご自身の使いやすい方法でテストしてみてください。

5.クロールされるのを待つ

テスト後は、Googleなどのクローラーがrobots.txtを自動検出して巡回するため、何もすることはありません。

リアルタイムにクローリングがされる訳ではありませんので、一定の待ち時間がかかることは認識しておきましょう。

まとめ:robots.txtを必要に応じて設定しよう

本記事では、SEO担当者の皆様向けに、robots.txtの概要とSEOなどについて解説しました。

robots.txtの目的は、クローラーに対してどのページをクローリングしてほしいか優先順位をつけて、リクエストの過負荷を避けることです。

ただし、全てのWebサイトに、robots.txtが必要というわけではありません。

運営しているWebサイトの規模や、ページに合わせてrobots.txtを設定しましょう

また、SEO対策としてAIを活用する方法も効率的です。

弊社のSEOに強いAIライティングツール「トランスコープ」では、競合サイトの分析やSEOに特化した文章を自動生成できます。

トランスコープの詳細は、下記動画にてご紹介しております。

AIでSEOに強いブログ記事作成!SEOに強いAIライティングツール「トランスコープ」とは?

なお、トランスコープは無料トライアルもご用意しておりますので、公式サイトよりぜひお試しくださいませ。

公式ウェブサイト:https://transcope.io/

最終更新日:8/28/2024

シェアモル株式会社 代表取締役

齋藤 康輔

大学在学中に半導体のシミュレーションを専攻する傍ら、人材会社にてインターン。
インターン中に人材会社向け業務システムを開発し、大学卒業後の2007年3月に上記システム「マッチングッド」を販売する会社、マッチングッド株式会社を設立。
12年の経営の後、2019年1月に東証プライム上場企業の株式会社じげんに株式譲渡。
売却資金を元手に、シェアモル株式会社を設立。
AIを利用したM&A・事業承継の仲介サービス「シェアモルM&A」SEOに強い文章をAIが作成する「トランスコープ」を展開中。

Contact

以下から登録またはX(旧Twitter)をフォローすると
お役立ち情報を無料で受け取れます!

SEOに強いAIライティングツールAIならトランスコープ

© Transcope.