最終更新日:8/28/2024
現在はSEOに強いAIライティングツール「トランスコープ」のような、SEO対策を効率化させるAIツールもある中で、
「robots.txtは、そもそもSEO対策として本当に必要?」
「robots.txtをどうやって設定するのか知りたい!」
このように悩むSEO担当者もいるのではないでしょうか。
本記事では、SEO担当者の皆様に向けて、robots.txtの概要とSEOの関連について解説します。
実は、robots.txtが必要なWebサイトと、不要なサイトがあります。
本記事を読んで、貴社のWebサイトにとってrobots.txtが必要かどうか、参考にしていただけますと幸いです。
robots.txtとは、Googleなど検索エンジンのクローラーに対してどのページを調査すべきか、または調査すべきでないかを指示する「テキストファイル」です。
サイト内の一番上のディレクトリにrobots.txtを配置することで、クローラーが訪れた際の案内役をします。
Webサイトには多くのページがありますが、全部をクローラーに見てもらう必要はないでしょう。
次に、robots.txtの詳細について、目的・noindexとの違い・設定が必要なサイトの3点について、順に解説します。
robots.txtには、2つの目的があります。
サイトにクローラーが来た際、はじめにrobots.txtを提示しておくことで「このページは見ないで」と伝えられます。
たとえば、Webサイトの規模が大きくページも多くなるほど、クローラーが全て巡回するための時間もかかってしまいます。
優先順位が決められていないので、クローラーが自動生成ページなどもチェックしてしまうからです。
しかし、robots.txtがあれば、クローラーは不要なページの巡回をせず、必要なページをチェックするだけとなります。
結果的にクローラーに「このページは重要なので見てほしい」と伝えることができるだけでなく、サーバーの負荷が軽減され、クロールの巡回効率も改善につながります。
また画像や音声などのメディアファイルを、検索結果に出したくないときもrobots.txtは使用可能です。
robots.txtには、巡回させたくないページを指定できる、という目的があります。
SEO担当者の中には
「noindexと似ているけれど、何が違うのか?」
と疑問を持った方もいるのではないでしょうか。
たとえば、あるページがまだ完成していないか重要ではないページに対しては「このページは調べないでほしい」とrobots.txtで指示可能です。
ところが、robots.txtの記述通りに動かないクローラーもあり、ページが存在するものとして、検索結果に表示される可能性があります。
一方noindexは、メタタグの1つでWebページに直接記述できます。
noindexの例は下図のとおりです。
noindexを使うと「このページを検索結果に表示しないで」と、確実に検索エンジンに伝えることができます。
robots.txtよりも強い指示のため、ページを検索結果に全く現れないようにできる点が、noindexとの大きな違いです。
なお、メタタグについては【2024年版】SEOに強いメタタグ・HTMLコーディングとは?のコラムをご覧ください。
全てのWebサイトに対して、必ずしもrobots.txtの設定がいるとは限りません。
robots.txtによる指定があると良いとされるページは、以下のとおりです。
管理者向けのページやショッピング決済ページなどは、閲覧する人が限られるため巡回する必要のないページです。
一般の訪問者には関連性が低いため、検索結果に表示する必要もありません。
また重複するコンテンツや大量のデータを含むページは、サーバー側の負荷が高くなるため、robots.txtがあると良いと考えられます。
クロールを防ぐことで、ページの評価が分散されるのを防ぎます。
会員専用ページなども個人情報のため、外部に公開する必要がないため、クローラーから保護することが望ましいでしょう。
ここまで読んでいただいた方の中には、
「SEO効果として何が期待できるの?」
と思ったSEO担当者もいるでしょう。
結論robots.txtによって、評価してほしい重要ページが早くインデックスされます。
その結果、Google検索するユーザーがWebサイトやページを見つけやすくなる効果が期待できます。
しかしrobots.txtの本来の目的は、サイトへのトラフィックを管理し、リクエストの過負荷を避けるためであると把握しておいてください。
robots.txtを設定する方法について解説します。
robots.txtの構文の例も記載しておりますので、順番に確認しましょう。
robots.txtの作成には、メモ帳やTextEditなどさまざまなテキストエディターが使用可能です。
ただし、ワープロソフトは独自のファイル形式となるため、使用しないよう注意してください。
なお、ファイル名は「robots.txt」とする決まりがあります。(Google 検索セントラルより)
robots.txtの例は下図のとおりです。
robots.txtでよく使われる構文は、以下の5つです。
ただし、上記の全てを記載するわけではなく、主に使用されるのは以下の3つとなります。
5つの構文が、それぞれどのような役割があるのか解説します。
User-agentは、どのクローラーを制限するかが指定可能です。
Googleなら「User-agent: Googlebot」、Bingであれば「User-agent: Bingbot」と入力します。
今話題のChatGPTのクローラーであれば「User-agent: GPTBot」と入力します。
全クローラーを対象にしたい場合は「*」を入力しましょう。
Disallowは、巡回させたくないファイルを指定できます。
たとえば、全検索エンジンに対してサイトを巡回させたくないケースでは、以下の書き方になります。
User-agent: * Disallow: /
また、特定のページなどを巡回させたくない場合は、以下のとおりです。
User-agent: * Disallow: /test-page/
Allowは、Disallow構文にて設定したディレクトリ内の特定ページ、もしくはサブディレクトリの巡回を許可する構文です。
たとえば、あるディレクトリ全体へのアクセスは制限したいが、その中の特定ページだけ巡回させたい場合にAllowを使用します。
以下のような書き方であれば「全クローラーは、blogの中にあるexample-postだけは見てほしい」と指示できます。
User-agent: * Disallow: /blog Allow: /blog/example-post
ただし、全ての検索エンジンがAllowを認識するわけではなく、GoogleとBingのクローラーには使えるようです。
Crawl-delayは、クロール率を遅らせるよう指示でき、サーバーへの負荷を避ける際に使用されます。
クロールはしてほしいけれど、Webサイトの動作が重くなりパフォーマンスも落ちてしまっては、デメリットとなってしまいます。
たとえば「ページを巡回するために、10秒待ってから次のページに行ってほしい」と指示したいときは、以下のような書き方です。
User-agent: * Crawl-delay: 10
ただし、Crawl-delayを認識するのはBingとYandexのみのようです。
なお、Googlebotのクロール率を設定したい場合は、Google Search Consoleで行ってください。
なお、Google Search Consoleの詳しい使い方については【Googleサーチコンソール】使い方から応用まで詳しく解説!のコラムをぜひご覧ください。
Sitemapは、サイトマップがどこにあるかをクローラーに伝えるための構文です。
サイトマップとは、サイト内のページがどのように構成されているかを示す、目次のようなものです。
本の目次があると読みたいページをすぐに見つけられるのと同じく、クローラーもサイトマップを確認してサイト内の重要なページを効率的にクロールできます。
書き方の例は以下のとおりです。
Sitemap: https://〇〇.com/sitemap.xml
なお、Search Consoleを使用すればサイトマップを送信できるため、本来は省略できる構文です。
しかし、記載しておくことによってクローラーの巡回が早くなる可能性もあります。
robots.txtを保存したら、クローラーが使用できるようアップロードします。
robots.txtは、各サーバーの管理画面からアップロード、または以下のFTPソフトを利用してください。
アップロード後は、robots.txtが一般公開されているか、各構文を認識できているかをテストしましょう。
robots.txtのテスト用に、Googleでは2つの手段を用意しています。
1つ目は、Google Search Consoleのrobots.txtテスターで、Webサイト上にあるアクセス可能なrobots.txtに対してのみ使用可能です。
もしもエラー・警告がある場合は、修正するためのヒントも提供されるので、比較的誰でも使いやすいでしょう。
2つ目は、Googleのオープンソースであるrobots.txtライブラリを使用して、ローカルテストがパソコン上でできます。
特に、Webサイトへアップロードする前に、ローカルでさまざまな条件を試しておきたい場合は便利でしょう。
robots.txtライブラリの方がSEO専門家向けとなるため、ご自身の使いやすい方法でテストしてみてください。
テスト後は、Googleなどのクローラーがrobots.txtを自動検出して巡回するため、何もすることはありません。
リアルタイムにクローリングがされる訳ではありませんので、一定の待ち時間がかかることは認識しておきましょう。
本記事では、SEO担当者の皆様向けに、robots.txtの概要とSEOなどについて解説しました。
robots.txtの目的は、クローラーに対してどのページをクローリングしてほしいか優先順位をつけて、リクエストの過負荷を避けることです。
ただし、全てのWebサイトに、robots.txtが必要というわけではありません。
運営しているWebサイトの規模や、ページに合わせてrobots.txtを設定しましょう。
また、SEO対策としてAIを活用する方法も効率的です。
弊社のSEOに強いAIライティングツール「トランスコープ」では、競合サイトの分析やSEOに特化した文章を自動生成できます。
トランスコープの詳細は、下記動画にてご紹介しております。
AIでSEOに強いブログ記事作成!SEOに強いAIライティングツール「トランスコープ」とは?
なお、トランスコープは無料トライアルもご用意しておりますので、公式サイトよりぜひお試しくださいませ。
公式ウェブサイト:https://transcope.io/
最終更新日:8/28/2024
シェアモル株式会社 代表取締役
齋藤 康輔
大学在学中に半導体のシミュレーションを専攻する傍ら、人材会社にてインターン。
インターン中に人材会社向け業務システムを開発し、大学卒業後の2007年3月に上記システム「マッチングッド」を販売する会社、マッチングッド株式会社を設立。
12年の経営の後、2019年1月に東証プライム上場企業の株式会社じげんに株式譲渡。
売却資金を元手に、シェアモル株式会社を設立。
AIを利用したM&A・事業承継の仲介サービス「シェアモルM&A」とSEOに強い文章をAIが作成する「トランスコープ」を展開中。
Contact
© Transcope.