Большие сайты и интернет-магазины часто сталкиваются с проблемой: количество проиндексированных страниц меньше, чем хотелось бы, и в их число попадают лишние и не приносящие трафик страницы. Почему так происходит и что с этим делать, расскажем в статье.
Краулинговый бюджет как источник проблем
Чтобы страницы сайта попали в индекс поисковых систем и после этого в выдачу, роботы (краулеры) Яндекса и Google должны найти и оценить эти страницы. И для этого каждому сайту выделяется краулинговый бюджет — количество страниц, которое может быть просканировано во время одного посещения сайта краулером. Проще говоря, робот проверяет столько, сколько успеет.
Поисковые системы ставят себе задачу находить нужные пользователям страницы, а не сканировать абсолютно каждый сайт от начала до конца. Поэтому проблемы с индексацией нужных страниц могут возникать по таким причинам:
- страницы расположены слишком далеко от главной — робот идет по ссылкам, как пользователь, и может не успеть добраться до страниц, расположенных дальше нескольких кликов от главной;
- краулинговый бюджет расходуется на дубли и другие ненужные страницы — если они первыми «попадаются на глаза», робот потратит все время на сканирование лишнего и не дойдет до важного;
- много битых ссылок — краулер безуспешно пытается по ним перейти и тратит время впустую;
- запутанная карта сайта или ее отсутствие — файл sitemap.xml помогает сориентироваться на сайте, и, если его содержание неактуально или только запутывает робота, краулинговый бюджет снова будет потрачен зря;
- медленная загрузка страниц — робот ждет так же, как и пользователи, теряя время;
- хостинг накладывает ограничения — это тоже нужно учитывать, потому что бюджет распределяется с учетом возможности работать с сайтом.
Если бы краулинговый бюджет был безлимитным, роботы поисковиков могли бы обходить все сайты полностью. Но раз это не так, нужно позаботиться об эффективном использовании выделенного поисковиками времени.
Как проверить бюджет и индексацию?
Это не сложно: такая информация есть в Google Search Console. Узнать, сколько и каких страниц проиндексировано и исключено из индекса, можно там же и в Яндекс.Вебмастере.
Также есть специальные сервисы, проверяющие индексацию и логи сервера — в этом случае можно получить много полезной информации. Но нужно заказывать полную проверку, при частичной сканируются только страницы, до которых успел добраться робот уже самого сервиса.
Когда видно, какие страницы попали в индекс, определяют, должны они там быть или нет. Стоит исключить из индекса:
- мусорные страницы — они могут автоматически генерироваться CMS;
- страницы пагинации — для них можно использовать тег rel=”canonical”, указывающий на первую страницу списка товаров как на нужную для индексации;
- результаты фильтрации, по которым нет запросов из поиска — пользователи могут как угодно выбирать товары, но на такие страницы не стоит расходовать краулинговый бюджет;
- бесполезные страницы — если они не приносят трафика, то нет особого смысла давать им шанс попасть в поисковую выдачу, пусть даже на сотой странице результатов.
Конечно, нужно разобраться, почему такие страницы попали в индекс. Вероятно, имеется одна или несколько причин из перечисленных выше. После устранения проблем — удаления лишних страниц, создания актуальной карты сайта, закрытия бесполезных страниц тегом noindex, нужно дождаться переиндексации и все проверить еще раз. В идеальном варианте теперь в индекс должны попадать полезные страницы, до которых роботы не успевали дойти. Краулинговый бюджет может остаться прежним, но расходоваться он будет эффективнее.
Нюансы оптимизации
В одних случаях достаточно удалить лишнее и сделать карту сайта. В других возможны сложности с принятием решения для отдельных страниц. Например:
- нужно закрыть страницу от индексации, но нельзя поставить на нее редирект 301 вместо ответа сервера 200 ОК;
- на сегодняшний день страница не нужна в поисковой выдаче, но есть внешние ссылки на нее и с этой точки зрения она все еще полезна;
- на сайте есть полезные страницы, которые не изменяются, их нет смысла переиндексировать, но краулинговый бюджет на них расходуется;
- некоторые страницы с результатами фильтрации приносят трафик, поэтому их нужно оставить для индексации.
В первых трех случаях можно использовать код статуса 304 Not Modified и специальную обработку запросов с заголовком If-Modified-Since с указанием даты последнего изменения. Тогда робот не будет тратить время на страницы, которые не меняются и не отвечают 200 ОК.
Что касается фильтров, достаточно выбрать действительно полезные страницы, приносящие трафик, и закрыть от индексации все остальные.
В заключение
Оптимизацией краулингового бюджета стоит заниматься крупным интернет-магазинам и сайтам, для которых важно управлять индексированием страниц. К тому же, такие проблемы, как сложная навигация, битые ссылки, медленная загрузка и непонятная структура, мешают не только роботам поисковиков, но и обычным пользователям.