Дублированный контент на сайте: как найти и избавиться

Многие владельцы сайтов уделяют внимание главным образом тому, чтобы контент был уникален по сравнению с другими ресурсами. Однако не стоит упускать из виду наличие дублированного контента в пределах одного сайта. Это тоже оказывает сильное влияние на ранжирование.

Содержание

Что такое дублированный контент
Откуда берется дублированный контент и где он чаще встречается
Почему дублированный контент – это плохо
Как найти дублированный контент на сайте (вручную, программы и сервисы)
Как бороться и чистить дублированный контент
Заключение

Что такое дублированный контент

Повторяющийся, или дублированный, контент – это совпадающие в рамках сайта объемные блоки текста на разных страницах. Не обязательно такое делается со злым умыслом – чаще возникает по техническим причинам, подробно разобранные ниже.

Опасность состоит в том, что часто дублированный контент невозможно увидеть невооруженным глазом, однако поисковик его прекрасно видит и реагирует соответствующим образом.

Откуда берется дублированный контент и где он чаще встречается

Основные причины возникновения такого явления:

Изменение структуры сайта;
Намеренное использование в конкретных целях (скажем, версии для печати);
Ошибочные действия программистов и веб-мастеров;
Неувязки с CMS.

Например, часто встречается ситуация: replytocom (ответ на комментарий) в WordPress автоматически формирует и новые страницы с разными URL-адресами, но не содержимым.

Обычно дублированный контент замечается при создании анонсов статьи на других страницах сайта, размещении отзывов, а также при одинаковых описаниях товаров, категорий, рубрик.

Почему дублированный контент – это плохо

У повторяющегося содержимого есть аналог из области экономики – банковский овердрафт. Только здесь расходуется так называемый краулинговый бюджет. Это число страниц ресурса, которое за конкретный промежуток времени сможет просканировать поисковая машина. Ресурс очень ценный, и лучше потратить его на действительно важные и актуальные страницы, чем на десятки дублей идентичного текста.

Таким образом, дублированный контент ухудшает поисковое продвижение. Кроме того, теряются естественные ссылки и неверно распределяется ссылочный вес внутри сайта. А также подменяются по-настоящему релевантные страницы.

Будет полезно: Релевантные страницы сайта

Как найти дублированный контент на сайте (вручную, программы и сервисы)

Существуют специальные программы для анализа ресурсов. Из них пользователи особенно выделяют Netpeak Spider. Она ищет полные копии страниц, совпадения по тайтлу или дескрипшену, заголовкам. Другой вариант — Screaming Frog, которая обладает схожим функционалом и по сути отличается только интерфейсом. Еще есть приложение Xenu`s Link Sleuth, работающее схожим с поисковиком образом и способное довольно качественно прочесать сайт на наличие дубликатов.

К сожалению, нет инструментов, способных полноценно отслеживать все дубли текста. Поэтому, скорее всего, придется производить ручную проверку. Вот список возможных факторов, повлекших за собой проблему:

Схожесть контента. Если верить справочной информации Гугла, то за дублированный контент на сайте считаются не только одинаковые, но и просто похожие тексты. Даже если синтаксически тексты разные (перестроены предложения и т.д.), поисковикам это все равно не нравится. Проще говоря, нет причин для существования на сайте двух текстов, доносящих одну и ту же информацию.
Синдицикация. Это дублирование контента на разных сайтах с целью, например, продвижения своего бренда (различные рекламные посты). С точки зрения рекламы способ хорош, он может привлечь немало новых посетителей. Но лучше попросить издателей добавить на страницу с вашим текстом атрибут «rel=canonical» (Canonical URL – дает понять поисковой машине, что страница является первоисточником). Дополнительный вариант – вообще запретить индексацию страницы.
Зеркальные подкаталоги. Актуально для тех, кто ведет бизнес сразу в нескольких странах или регионах. Многие компании создают одну главную целевую страничку, на которой посетитель выбирает свой регион. Затем идет перенаправление в нужный каталог. Выглядит логично, но по факту эта опция не нужна. Проще настроить геотаргетинг в Google Webmaster. Иначе все каталоги будут считаться за дублированное содержимое.
Динамические ссылки. Такие URL часто встречаются в интернет-магазинах и генерируются после выбора одного или нескольких фильтров. Бесконечное количество этих ссылок может участвовать в поисковой выдаче. Если у вас именно такая проблема, то необходимо настроить опции сканирования URL в Google Webmaster.
Страницы в разработке. Часто бывает, что компания решает обновить ресурс, добавить новые страницы, но забывает закрыть от индексации их тестовые версии. Гугл отыскивает даже находящиеся в разработке странички и усердно их индексирует. В результате пользователи вводятся в заблуждение, а поисковик считает, что на сайте повторяющийся контент.
Брошенные поддомены. Решили использовать субдиректорию вместо определенного поддомена? Помните, что старое содержимое никуда не девается, а продолжает появляться в выдаче. Самое обидное, что при этом оно еще и вредит новому контенту. Чтобы устранить проблему, можно использовать перенаправление 301 с ненужного поддомена. Такое решение особенно полезно в том случае, если на старую версию ведет много внешних ссылок.
Воровство контента. Часто бывает, что злоумышленники пытаются выдать чужое содержимое за свое. Бороться с этим можно с помощью кода. На сайте обязательно должны использоваться абсолютные, а не относительные ссылки. То есть включающие в себя протокол и имя сайта. Если нет желания заново переписывать целый сайт, можно делать канонические теги.
HTTP/HTTPS. Попробуйте перейти на обе версии сайта – и защищенную, и обычную. Если получилось, следовательно, программист не настроил переадресацию с версии HTTP на HTTPS. А индексируются обе версии. То же самое относится к сайтам с WWW и без WWW.

Разобрались, как найти дублированный контент. А лучшие помощники в борьбе с ним – это переадресация 301, теги Canonical URL, указания в robots.txt и параметры Nofollow и Noindex в составе мета-тега «robots».

Одним из способов на скорую руку проверить, если ли на сайте дублированный контент, является расширенный поиск в Яндексе или Гугле. Необходимо ввести адрес сайта и кусок текста со страницы, которую решили проверить. Также можно использовать многочисленные программы для проверки уникальности текста:

Text.Ru;
eTXT Антиплагиат;
Advego Plagiatus;
Content-Watch.

Как бороться и чистить дублированный контент

Всё та же справочная система Гугл дает ряд советов по предотвращению появления данной проблемы.

301. При структурных изменениях ресурса необходимо указывать редирект 301 в файле htaccess.
Используйте единый стандарт ссылок.
Контент для конкретного региона лучше размещать на доменах верхнего уровня, чем на поддоменах или в поддиректориях.
Устанавливайте предпочтительный способ индексирования с помощью Search Console.
Не используйте шаблоны. Вместо того, чтобы на каждой странице размещать текст о защите авторского права, лучше сделать ссылку, которая будет вести на отдельную страницу с этим текстом.
Разрабатывая новые страницы, следите, чтобы до полной готовности они были закрыты от индексации.
Разберитесь, как именно отображается ваш контент – могут быть отличия отображения в блогах и форумах.
Если на сайте много схожих статей, лучше или объединить их содержимое в одно целое, или уникализировать каждую.

Поисковиками не предусмотрено никаких санкций по отношению к сайтам, имеющим дублированный контент по техническим причинам (в отличие от тех, кто делает это намеренно с целью манипулировать результатами поиска или вводить в заблуждение посетителей).

После того, как дубли удалены, осталось убрать их из поисковой выдачи. Яндекс делает это самостоятельно, при условии, что файл robots.txt настроен должным образом. Что касается Google: там придется вручную прописать правила в Вебмастере, на вкладке «Параметры URL».

Заключение

Борьба с дублированным контентом на сайте – важный аспект деятельности владельца любого сайта. Причин его возникновения довольно много, и столь же много способов устранения.

Однако главным правилом остается: размещать исключительно оригинальный контент, независимо от типа сайта. Даже если это крупный сетевой магазин с тысячами страниц.