Пока одни выставляют серьезную защиту, а другие вообще не задумываются о возможной угрозе, третьи тихо собирают информацию с чужих сайтов и используют ее в свои интересах. Как жить в таком мире и не навредить себе, разберем в статье.
О законности сбора данных
Парсинг у многих ассоциируется с незаконной деятельностью. Но здесь есть несколько важных нюансов:
- Тип собираемой информации. Если это данные из открытых источников, например, цены и наименования товаров, проблем нет. Исключением может быть информация, к которой у самих продавцов или агрегаторов только платный доступ, как в случае с авиабилетами. Контент, персональные данные пользователей, информацию из аккаунтов собирать нельзя.
- Использование полученных данных. Парсинг может выполняться с невинными целями: мониторинг цен, анализ SEO на сайтах конкурентов, изучение рынка, исследования. Это всего лишь автоматизация сбора данных, которые и так можно собрать вручную. Но плагиат контента и нарушение закона о ПДн и GDPR, разумеется, недопустимы.
- Иные условия. Случается, что владельцы сайтов сами разрешают брать информацию. Или, наоборот, прописывают в «Пользовательском соглашении» жесткий запрет на использование контента. И желательно посмотреть, какие условия выставлены на сайтах, которые хочется спарсить.
- Создание нагрузки на сайт. Ботов не любят за то, что они перегружают сервер своими запросами и искажают статистику посещений. И если они существенно помешают работе компании (и это удастся доказать), с парсеров могут потребовать компенсацию ущерба.
Итак, если аккуратно собирается общедоступная информация и используется без нарушения авторских прав и законов о ПДн, ничего криминального в парсинге нет. В конце концов, конкуренты могут увидеть цены и товары, просто зайдя на сайт как обычные посетители.
Но и желание защитить сайт от избыточных нагрузок понятно. Тем более что такую проблему создает большинство простых программ для парсинга. Поэтому рассмотрим несколько сценариев противодействия.
Борьба парсеров и владельцев сайтов
По бесконечности она чем-то напоминает борьбу с хакерами и вирусами, только здесь сначала создается защита, а потом придумывается способ ее обхода. Разберем наиболее распространенные сценарии.
Капча
Google предлагает весьма удобный инструмент reCapcha. Его преимущество в том, что степень подозрительности посетителя оценивается не по его поведению, а по окружению — браузер, устройство и т. д. Так можно сначала отдавать каждому часть контента, не имеющую ценности для парсеров, а параллельно проверять посетителя и при необходимости показывать капчу. Если все правильно настроено, обычные пользователи будут видеть ее редко. Но все-таки остается риск ошибаться и раздражать посетителей.
Ответ парсеров предельно прост: сервисы «антикапча», предлагающие решение любых таких заданий вручную и весьма недорого. Впрочем, не все так стараются, так что есть шанс отсечь самых простых ботов. Хотя заходить они все равно будут.
Блокировка по IP и другим параметрам
Чтобы запретить ботам парсеров посещение сайта, можно выявлять подозрительный трафик и блокировать его источники. Они могут вычисляться по:
- IP;
- User Argent (может отсутствовать);
- PTR записи (могут отсутствовать у черных роботов);
- cookie.
Это эффективно, если парсеры не будут менять IP и не станут маскировать ботов под представителей поисковых систем или даже пользователей. Минус в том, что искать и отсекать подозрительный трафик придется вручную.
Черные и белые списки
Можно упростить задачу и блокировать ботов по готовым черным спискам, которые несложно найти в сети. При этом необходимо разрешить доступ роботам поисковых систем, чтобы не было проблем с индексацией.
К слову, этот способ помогает избавиться не только от парсеров, но и от распространителей вирусов и спама. И он эффективен, если регулярно проверять актуальность списков.
Подмена данных
Перейдем к методам сложным и, сразу оговоримся, неоднозначным с точки зрения влияния на поисковое продвижение:
- Картинки вместо текста. Так часто пытаются защитить цены. Проблема в том, что роботы поисковиков тоже не умеют читать текст на картинках, а значит, решат, что цен на сайте нет. И это большой минус для Яндекса. Парсеры, в свою очередь, уже знают способы обхода такой защиты, хотя и тратят больше времени и усилий на получение информации. Способ не особо эффективен еще и потому, что при желании можно собрать цены вручную.
- Ловушки. Суть в том, что при поисковом запросе робот получает заголовок и ссылку, по которой автоматически перейдет и тем самым выдаст себя. При этом обычным посетителям эта ссылка не показывается. И снова появляется проблема с роботами поисковых систем. Они могут принять такие ловушки за попытки обмануть пользователей подменой контента. Отреагируют, скорее всего, пессимизацией.
- Смена HTML-кода. Еще один способ запутать парсеров — периодически менять код страницы, чтобы роботы не могли действовать по одному и тому же шаблону. Но сложно сказать, как это повлияет на индексацию сайта и взаимодействие с ним при повторных посещениях. К тому же, парсеры тоже могут изменить алгоритм работы.
- Изменение структуры. Кардинальный способ, при неаккуратной реализации которого возможна потеря и позиций, и пользователей. Обходится такая защита тоже перенастройкой ботов.
Может показаться, что все попытки бесполезны: на каждый способ защиты данных есть вариант обхода, кроме, разве что, блокировок по черным спискам. Отчасти это так: избавиться от всех ботов крайне сложно. А если парсер поставил себе задачу получить данные с конкретного сайта, а не со всех доступных, скорее всего, он найдет, как это сделать. При условии, что такая работа целесообразна.
Стоит ли защищаться?
Есть три варианта:
- Ничего не делать. В этом случае велик риск попасть под автоматическую атаку всех, кто сможет добраться до сайта. В том числе, спамеров, постоянно ищущих сайты с уязвимостями. И парсинг станет наименьшей проблемой.
- Выбрать оптимальный набор. К примеру, белые и черные списки + капча + копирайт на фотографиях. Как минимум, удастся отсечь плохо написанных ботов, которые, как правило, и создают избыточную нагрузку на сайт. Что касается копирайта, он может остановить недобросовестных, но ленивых любителей чужого контента.
- Максимально усложнить жизнь. Только не себе, а парсерам. Если обход защиты будет слишком трудозатратным, стоимость такой услуги может стать слишком высокой для конкурентов, желающих получить данные. Но напомним: при желании возможно все, вплоть до имитации действий настоящих посетителей.
Итак, базовая защита нужна хотя бы для того, чтобы боты не «положили» сайт и не оказались вреднее обычных парсеров. Стоит ли прилагать больше усилий? Зависит от чувствительности данных, конкуренции и возможностей для их защиты. Когда нужны особые решения, надо полагать, требуется противостоять и более серьезным угрозам, так что речь идет уже о комплексной обороне.
А стоит ли использовать?
Когда ясно, что при желании спарсить можно все, появляется вопрос: если за мной все равно следят, не ответить ли мне тем же? Почему бы и нет, ведь можно использовать:
- мониторинг цен, ассортимента и наличия товаров в маркетинговых целях;
- анализ способов продвижения конкурентов с помощью доступных SEO-сервисов для корректировки своей стратегии;
- парсинг собственного сайта для быстрого обнаружения ответов 404, недостаточной оптимизации отдельных страниц и других ошибок.
Главное, выбрать грамотного исполнителя, который создаст хорошего бота и никому не навредит. Все-таки, как бы ни был велик соблазн, не стоит использовать парсинг как способ нарушить работу чужого сайта. Это уже превращается в целенаправленную атаку. А должен быть просто сбор открытых данных.
В заключение
Парсинг не должен вызывать неприятие, если его правильно использовать — без вреда для сайтов и с добросовестными целями. Но, к сожалению, проблемы из-за плохо написанных ботов знакомы очень многим. Поэтому хотя бы базовая защита не повредит.
А делать ли самим? Если честно, аккуратно и строго по делу, то почему бы и нет. Только, пожалуй, стоит найти некий баланс и не закрываться наглухо от других парсеров. Иначе получается игра в одни ворота.