+7(343) 344-34-20
г. Екатеринбург, ул. Горького,
дом 65, офис 296
Online-заказ

Что такое краулинговый бюджет и зачем его оптимизировать?

2 Августа 2019

Большие сайты и интернет-магазины часто сталкиваются с проблемой: количество проиндексированных страниц меньше, чем хотелось бы, и в их число попадают лишние и не приносящие трафик страницы. Почему так происходит и что с этим делать, расскажем в статье.

Краулинговый бюджет как источник проблем

Чтобы страницы сайта попали в индекс поисковых систем и после этого в выдачу, роботы (краулеры) Яндекса и Google должны найти и оценить эти страницы. И для этого каждому сайту выделяется краулинговый бюджет — количество страниц, которое может быть просканировано во время одного посещения сайта краулером. Проще говоря, робот проверяет столько, сколько успеет.

Поисковые системы ставят себе задачу находить нужные пользователям страницы, а не сканировать абсолютно каждый сайт от начала до конца. Поэтому проблемы с индексацией нужных страниц могут возникать по таким причинам:

  • страницы расположены слишком далеко от главной — робот идет по ссылкам, как пользователь, и может не успеть добраться до страниц, расположенных дальше нескольких кликов от главной;
  • краулинговый бюджет расходуется на дубли и другие ненужные страницы — если они первыми «попадаются на глаза», робот потратит все время на сканирование лишнего и не дойдет до важного;
  • много битых ссылок — краулер безуспешно пытается по ним перейти и тратит время впустую;
  • запутанная карта сайта или ее отсутствие — файл sitemap.xml помогает сориентироваться на сайте, и, если его содержание неактуально или только запутывает робота, краулинговый бюджет снова будет потрачен зря;
  • медленная загрузка страниц — робот ждет так же, как и пользователи, теряя время;
  • хостинг накладывает ограничения — это тоже нужно учитывать, потому что бюджет распределяется с учетом возможности работать с сайтом.

Если бы краулинговый бюджет был безлимитным, роботы поисковиков могли бы обходить все сайты полностью. Но раз это не так, нужно позаботиться об эффективном использовании выделенного поисковиками времени.

Как проверить бюджет и индексацию?

Это не сложно: такая информация есть в Google Search Console. Узнать, сколько и каких страниц проиндексировано и исключено из индекса, можно там же и в Яндекс.Вебмастере.

Также есть специальные сервисы, проверяющие индексацию и логи сервера — в этом случае можно получить много полезной информации. Но нужно заказывать полную проверку, при частичной сканируются только страницы, до которых успел добраться робот уже самого сервиса.

Когда видно, какие страницы попали в индекс, определяют, должны они там быть или нет. Стоит исключить из индекса:

  • мусорные страницы — они могут автоматически генерироваться CMS;
  • страницы пагинации — для них можно использовать тег rel=”canonical”, указывающий на первую страницу списка товаров как на нужную для индексации;
  • результаты фильтрации, по которым нет запросов из поиска — пользователи могут как угодно выбирать товары, но на такие страницы не стоит расходовать краулинговый бюджет;
  • бесполезные страницы — если они не приносят трафика, то нет особого смысла давать им шанс попасть в поисковую выдачу, пусть даже на сотой странице результатов.

Конечно, нужно разобраться, почему такие страницы попали в индекс. Вероятно, имеется одна или несколько причин из перечисленных выше. После устранения проблем — удаления лишних страниц, создания актуальной карты сайта, закрытия бесполезных страниц тегом noindex, нужно дождаться переиндексации и все проверить еще раз. В идеальном варианте теперь в индекс должны попадать полезные страницы, до которых роботы не успевали дойти. Краулинговый бюджет может остаться прежним, но расходоваться он будет эффективнее.

Нюансы оптимизации

В одних случаях достаточно удалить лишнее и сделать карту сайта. В других возможны сложности с принятием решения для отдельных страниц. Например:

  • нужно закрыть страницу от индексации, но нельзя поставить на нее редирект 301 вместо ответа сервера 200 ОК;
  • на сегодняшний день страница не нужна в поисковой выдаче, но есть внешние ссылки на нее и с этой точки зрения она все еще полезна;
  • на сайте есть полезные страницы, которые не изменяются, их нет смысла переиндексировать, но краулинговый бюджет на них расходуется;
  • некоторые страницы с результатами фильтрации приносят трафик, поэтому их нужно оставить для индексации.

В первых трех случаях можно использовать код статуса 304 Not Modified и специальную обработку запросов с заголовком If-Modified-Since с указанием даты последнего изменения. Тогда робот не будет тратить время на страницы, которые не меняются и не отвечают 200 ОК.

Что касается фильтров, достаточно выбрать действительно полезные страницы, приносящие трафик, и закрыть от индексации все остальные.

В заключение

Оптимизацией краулингового бюджета стоит заниматься крупным интернет-магазинам и сайтам, для которых важно управлять индексированием страниц. К тому же, такие проблемы, как сложная навигация, битые ссылки, медленная загрузка и непонятная структура, мешают не только роботам поисковиков, но и обычным пользователям.


Что такое краулинговый бюджет и зачем его оптимизировать?

 
ссылка на эту статью:

Обратная связь

Нажимая "отправить" я соглашаюсь на обработку моих персональных данных
Положение об обработке персональных данных