+7(343) 344-34-20
г. Екатеринбург, ул. Горького,
дом 65, офис 296
Online-заказ

Парсинг: защищаться, использовать, игнорировать?

22 Июля 2020

Пока одни выставляют серьезную защиту, а другие вообще не задумываются о возможной угрозе, третьи тихо собирают информацию с чужих сайтов и используют ее в свои интересах. Как жить в таком мире и не навредить себе, разберем в статье.

О законности сбора данных

Парсинг у многих ассоциируется с незаконной деятельностью. Но здесь есть несколько важных нюансов:

  • Тип собираемой информации. Если это данные из открытых источников, например, цены и наименования товаров, проблем нет. Исключением может быть информация, к которой у самих продавцов или агрегаторов только платный доступ, как в случае с авиабилетами. Контент, персональные данные пользователей, информацию из аккаунтов собирать нельзя.
  • Использование полученных данных. Парсинг может выполняться с невинными целями: мониторинг цен, анализ SEO на сайтах конкурентов, изучение рынка, исследования. Это всего лишь автоматизация сбора данных, которые и так можно собрать вручную. Но плагиат контента и нарушение закона о ПДн и GDPR, разумеется, недопустимы.
  • Иные условия. Случается, что владельцы сайтов сами разрешают брать информацию. Или, наоборот, прописывают в «Пользовательском соглашении» жесткий запрет на использование контента. И желательно посмотреть, какие условия выставлены на сайтах, которые хочется спарсить.
  • Создание нагрузки на сайт. Ботов не любят за то, что они перегружают сервер своими запросами и искажают статистику посещений. И если они существенно помешают работе компании (и это удастся доказать), с парсеров могут потребовать компенсацию ущерба.

Итак, если аккуратно собирается общедоступная информация и используется без нарушения авторских прав и законов о ПДн, ничего криминального в парсинге нет. В конце концов, конкуренты могут увидеть цены и товары, просто зайдя на сайт как обычные посетители.

Но и желание защитить сайт от избыточных нагрузок понятно. Тем более что такую проблему создает большинство простых программ для парсинга. Поэтому рассмотрим несколько сценариев противодействия. 

Борьба парсеров и владельцев сайтов

По бесконечности она чем-то напоминает борьбу с хакерами и вирусами, только здесь сначала создается защита, а потом придумывается способ ее обхода. Разберем наиболее распространенные сценарии.

Капча

Google предлагает весьма удобный инструмент reCapcha. Его преимущество в том, что степень подозрительности посетителя оценивается не по его поведению, а по окружению — браузер, устройство и т. д. Так можно сначала отдавать каждому часть контента, не имеющую ценности для парсеров, а параллельно проверять посетителя и при необходимости показывать капчу. Если все правильно настроено, обычные пользователи будут видеть ее редко. Но все-таки остается риск ошибаться и раздражать посетителей. 

Ответ парсеров предельно прост: сервисы «антикапча», предлагающие решение любых таких заданий вручную и весьма недорого. Впрочем, не все так стараются, так что есть шанс отсечь самых простых ботов. Хотя заходить они все равно будут.

Блокировка по IP и другим параметрам

Чтобы запретить ботам парсеров посещение сайта, можно выявлять подозрительный трафик и блокировать его источники. Они могут вычисляться по:

  • IP;
  • User Argent (может отсутствовать);
  • PTR записи (могут отсутствовать у черных роботов);
  • cookie.

Это эффективно, если парсеры не будут менять IP и не станут маскировать ботов под представителей поисковых систем или даже пользователей. Минус в том, что искать и отсекать подозрительный трафик придется вручную.

Черные и белые списки

Можно упростить задачу и блокировать ботов по готовым черным спискам, которые несложно найти в сети. При этом необходимо разрешить доступ роботам поисковых систем, чтобы не было проблем с индексацией.

К слову, этот способ помогает избавиться не только от парсеров, но и от распространителей вирусов и спама. И он эффективен, если регулярно проверять актуальность списков.

Подмена данных

Перейдем к методам сложным и, сразу оговоримся, неоднозначным с точки зрения влияния на поисковое продвижение:

  • Картинки вместо текста. Так часто пытаются защитить цены. Проблема в том, что роботы поисковиков тоже не умеют читать текст на картинках, а значит, решат, что цен на сайте нет. И это большой минус для Яндекса. Парсеры, в свою очередь, уже знают способы обхода такой защиты, хотя и тратят больше времени и усилий на получение информации. Способ не особо эффективен еще и потому, что при желании можно собрать цены вручную.
  • Ловушки. Суть в том, что при поисковом запросе робот получает заголовок и ссылку, по которой автоматически перейдет и тем самым выдаст себя. При этом обычным посетителям эта ссылка не показывается. И снова появляется проблема с роботами поисковых систем. Они могут принять такие ловушки за попытки обмануть пользователей подменой контента. Отреагируют, скорее всего, пессимизацией.
  • Смена HTML-кода. Еще один способ запутать парсеров — периодически менять код страницы, чтобы роботы не могли действовать по одному и тому же шаблону. Но сложно сказать, как это повлияет на индексацию сайта и взаимодействие с ним при повторных посещениях. К тому же, парсеры тоже могут изменить алгоритм работы.
  • Изменение структуры. Кардинальный способ, при неаккуратной реализации которого возможна потеря и позиций, и пользователей. Обходится такая защита тоже перенастройкой ботов.

Может показаться, что все попытки бесполезны: на каждый способ защиты данных есть вариант обхода, кроме, разве что, блокировок по черным спискам. Отчасти это так: избавиться от всех ботов крайне сложно. А если парсер поставил себе задачу получить данные с конкретного сайта, а не со всех доступных, скорее всего, он найдет, как это сделать. При условии, что такая работа целесообразна.

Стоит ли защищаться?

Есть три варианта:

  • Ничего не делать. В этом случае велик риск попасть под автоматическую атаку всех, кто сможет добраться до сайта. В том числе, спамеров, постоянно ищущих сайты с уязвимостями. И парсинг станет наименьшей проблемой.
  • Выбрать оптимальный набор. К примеру, белые и черные списки + капча + копирайт на фотографиях. Как минимум, удастся отсечь плохо написанных ботов, которые, как правило, и создают избыточную нагрузку на сайт. Что касается копирайта, он может остановить недобросовестных, но ленивых любителей чужого контента.
  • Максимально усложнить жизнь. Только не себе, а парсерам. Если обход защиты будет слишком трудозатратным, стоимость такой услуги может стать слишком высокой для конкурентов, желающих получить данные. Но напомним: при желании возможно все, вплоть до имитации действий настоящих посетителей.

Итак, базовая защита нужна хотя бы для того, чтобы боты не «положили» сайт и не оказались вреднее обычных парсеров. Стоит ли прилагать больше усилий? Зависит от чувствительности данных, конкуренции и возможностей для их защиты. Когда нужны особые решения, надо полагать, требуется противостоять и более серьезным угрозам, так что речь идет уже о комплексной обороне.

А стоит ли использовать?

Когда ясно, что при желании спарсить можно все, появляется вопрос: если за мной все равно следят, не ответить ли мне тем же? Почему бы и нет, ведь можно использовать:

  • мониторинг цен, ассортимента и наличия товаров в маркетинговых целях;
  • анализ способов продвижения конкурентов с помощью доступных SEO-сервисов для корректировки своей стратегии;
  • парсинг собственного сайта для быстрого обнаружения ответов 404, недостаточной оптимизации отдельных страниц и других ошибок.

Главное, выбрать грамотного исполнителя, который создаст хорошего бота и никому не навредит. Все-таки, как бы ни был велик соблазн, не стоит использовать парсинг как способ нарушить работу чужого сайта. Это уже превращается в целенаправленную атаку. А должен быть просто сбор открытых данных.

В заключение

Парсинг не должен вызывать неприятие, если его правильно использовать — без вреда для сайтов и с добросовестными целями. Но, к сожалению, проблемы из-за плохо написанных ботов знакомы очень многим. Поэтому хотя бы базовая защита не повредит.

А делать ли самим? Если честно, аккуратно и строго по делу, то почему бы и нет. Только, пожалуй, стоит найти некий баланс и не закрываться наглухо от других парсеров. Иначе получается игра в одни ворота.


Парсинг: защищаться, использовать, игнорировать?

 
ссылка на эту статью:

Обратная связь

Нажимая "отправить" я соглашаюсь на обработку моих персональных данных
Положение об обработке персональных данных