クロールバジェットとは?検索エンジンのコスト意識を理解してサイト設計を見直す

クロールバジェットとは?検索エンジンのコスト意識を理解してサイト設計を見直す

クロールバジェットを意識して、皆さんのコストがかかるサイトの設計を見直していく必要があるということについて学んでいきましょう。

広報やマーケティング担当者がこの情報を知ってくれば、社内外で一目置かれることは間違いありません。

 

クロールバジェットとは?すべてのサイトは等しくクロールされない

世界中のすべてのサイトのすべてのページにアクセスしていると、100億ページ以上に毎月アクセスする必要があります。

仮に100億ページを月に1回巡回するためには、1秒間に3858ページをクロールする必要があります。ただ全部のサイトやページは平等ではありません。重要なコンテンツが詰まっているサイトや、更新が速く情報の新鮮さが重要なページは優先して、高速にクロールされるのが実態です。

そのとき、サイトの重要性とページごとの更新速度を考慮してクロール速度が決められます。

 

クロールバジェットでクロールされるページ数が決まります

クロール頻度に加えて、もうひとつ序列が決まるのが、サイト内で何ページまでクロールするかです。

重要なサイトであれば多くのページがあっても全部クロールすべきですし、ほとんど中身のないサイトであれば何百万ページあったとしても1ページしかクロールしないかもしれません。このように、サイトの重要度によって検索エンジンがクロールするページ数は決まっているようです。

この検索エンジンがクロールするページ数のことを「クロールバジェット」と呼んでいて、人気度や更新頻度が高いサイトほど大きなクロールバジェットを持つ傾向にあります。

 

サイト設計を見直してクロール効率を最大化する方法6選

残念ながら、クロールバジェットがいくつなのかを知る方法はありません。

では、具体的に何をすればいいのでしょうか?サイト内のページ数が比較的多い、中・大規模サイトの場合には、まずクロールバジェットを節約することをおすすめします。以下のような方法でクロールバジェットの節約が可能となります。節約できる部分がないか、エンジニアと相談しましょう。

■404

404とはサイトにアクセスしたものの該当するページがないことを示すエラーメッセージです。削除されたページは、HTTPレスポンスコードとして、サーバーから404を返すことによって、いずれそのURLはクロール対象から外されます。

この設定が正しくできているかどうかをチェックするには、開発者ツールで「結果」が「404」になているかどうかを確認します。「200」になっているサイトも見かけますが、その場合、クローラーはクロールを続けてしまいます。

■並べ替え

リスト一覧ページでの価格順などの並べ替えページは、訪問者にとっては必要ですが、検索エンジンにとっては並べ替える前のページと同じ内容なので不要なものとみなされます。並べ替えページへのリンクは、AJAX化して同一URLのまま表示すれば、バジェットを節約できます。

または、「https://example2.com/fruits/」というページがあり、並べ替えのページが「https://example2.com/fruits/?sort=asc」というURLだとすると、後者のHTML内にcanonicalタグの記述をして前者のページと同一であることを宣言することもできます。ただし、この方法ではあまり大きなクロールバジェットの節約にはなりません。

■類似ページ

オートバイのヘルメットなどで、色ごとに型番が異なるような場合は、ユーザーは全色を1ページで見たいと想定されます。

もし、全色を一覧できるページと各色のページがそれぞれ別に存在するような場合には、各色のページは類似ページと認識されます。このようなページはAJAXによる画面内での画像の差し替えなどを用いて、各色のページがクロールされないようにするといいでしょう。

■トラッキングパラメーター

アクセス解析のためにトラッキングパラメーターが使われることが多いのですが、トラッキングパラメーター付きのURLはトラッキングパラメーターなしのURLとは厳密には異なるので、クロールバジェットを消費してしまいます。

並べ替えや類似ページほどパターンは多くないケースが多いですが、対策しておいてください。クロールバジェットの節約のためには、トラッキングパラメーターを使わず、例えばGoogleアナリティクスとGoogleタグマネージャーを組み合わせて自動イベントトラッキングを使って、自動的に指定したページのみリンクのクリックの記録を取得するなどの方法を取るといいでしょう。

Search Consoleを使って特定のトラッキングパラメーターをクロール対象から外すことができますが、Googleにとって、サイト内で実際にシステムが使用しているパラメーターと、外部サイトから付与されるトラッキングパラメーターは区別がつかないため、間違って重要なページをインデックスから削除するリスクがあり、使用はおすすめしません。

■ページネーション

ページネーションは訪問者にも検索エンジンにも重要ですが、1ページ内に表示している情報の件数が少ないと、結果としてページ数が増え、クロールバジェットを消費してしまいます。

例えばファッションECサイトの「トップス」ページで1000ページ以上のページは送りが必要になる場合、このページではページ送りを表示せず、絞り込んだ「トップス」-「キャミソール」のページでページ送りを表示すると、無駄なクロールを抑えられます。また「キャミソール」のページでも、1ページに10件表示ではなく、30件や60件など、閲覧しやすい限り多めの商品数を載せたほうが、クロールバジェットの観点からは好影響になります。

■サイト内検索

サイト内検索結果をトップページからリンクしているような場合、サイト内検索結果がインデックスされてしまうことがあります。むやみにインデックスさせないように注意するとともに、意図的にインデックスさせる場合には、サイト内検索結果画面内に、別のサイト内検索結果画面へのリンクを絶対に張らないようにしてください。

クローラーが無限にサイト内検索結果画面をクロールし続けるリスクがあり、非常に多くのクロールバジェットを消費してしまいます。サイト内検索結果をインデックスさせない通常の場合、サイト内検索の検索語のパラメーターはGETとして画面に表示させ、パラメーター名には他のサイト内で使われているモノとは異なる、ユニークなものを使用します。こうすることにより、Googleアナリティクスなどでサイト内検索語を分析できるようになるだけでなく、Search Consoleで容易にサイト内検索をインデックスから安全に除外できます。

 

クロールバジェットまとめ 検索エンジンもビジネス!コスト削減に双方でつとめよう

検索エンジンもビジネスなので、コスト削減に真剣に取り組んでいます。その最たるものが「クロールバジェット」です。

小・中規模サイトでは気にする必要はありませんが、大規模サイトのWeb担当者は知っておくべき概念です。


Source: PR最新情報
{$inline_image}

Follow me!