Дублированный контент: что это и как это исправить

  1. Что такое дублированный контент?
  2. Почему дублированный контент имеет значение?
  3. Когда Google видит контент как дубликат?
  4. Что такое штраф за дублированный контент?
  5. Причины и решения
  6. Параметры URL
  7. Содержание в разных категориях
  8. Неоригинальное содержание
  9. Гостевые посты
  10. Специфичные для страны домены
  11. www и не www адреса
  12. https и http URL
  13. Конечные косые черты
  14. Содержание Boilerplate
  15. Примечание о канонических URL
  16. Как найти дублированный контент?
  17. Заключение

Дублированный контент может нанести вред вашему SEO-рейтингу, но его легко обнаружить и исправить нетрудно.

Дубликат означает, что один и тот же контент публикуется по разным URL-адресам. Это может повредить вашему поисковому рейтингу, потому что Google не знает, какая страница является правильной. В этой статье мы расскажем вам все о дубликате контента, покажем некоторые из его наиболее распространенных причин и расскажем, как вы можете это исправить.

Что такое дублированный контент?

Дублированный контент означает, что один и тот же контент публикуется по разным URL-адресам в Интернете, либо на том же сайте, либо на другом сайте. www.example.com/t-shirts и www.example.com/t-shirts?sort=price могут иметь разные URL, их содержание абсолютно одинаковое.

Почему дублированный контент имеет значение?

Если вы ищете в Google, вы не хотите видеть один и тот же результат дважды. Поэтому Google покажет только один результат с аналогичным содержанием на странице результатов. Google вынужден сделать выбор: какой контент я собираюсь включить в результаты. Их выбор может быть не тот, который вы хотели бы оценить.

Их выбор может быть не тот, который вы хотели бы оценить

Хуже того: другие сайты могут ссылаться на разные версии вашего контента. А поскольку ссылки являются важным сигналом ранжирования для Google и других поисковых систем, они не будут знать, какой контент отдавать приоритет. Поэтому он может распределить PageRank (авторитет этой страницы в индексе Google) по различным URL-адресам, что приведет к общему снижению рейтинга страницы.

Возможно, вы слышали о бюджете сканирования: время и ресурсы, которые Google готов потратить на индексацию вашего сайта. Дублированный контент затрудняет им сканирование и индексацию вашего сайта. В результате некоторые другие ваши страницы могут вообще не иметь рейтинга.

Результат: запутанные поисковые системы и более низкий рейтинг вашего контента. Это позор, потому что дублированного контента легко избежать.

Подробнее о том, как Google обрабатывает дублированный контент в этом видео, Мэтт Каттс.

Когда Google видит контент как дубликат?

Google описал дублированный контент как «существенные блоки контента внутри или между доменами, которые либо полностью совпадают с другим контентом, либо заметно схожи». Обратите внимание, что содержание не обязательно должно быть одинаковым, чтобы считаться дублирующим.

Что такое штраф за дублированный контент?

Хорошая новость: нет такого понятия, как штраф за дублирование контента. Так сказали в сообщение в блоге с 2008 года и это все еще верно, как сказал Джон Мюллер из Google на сессии видеовстречи 2014 года.

Google может налагать штрафы за преднамеренное копирование контента (плагиат), но это не то же самое, что дублирование контента. Дублированный контент часто непреднамеренный и не приведет к удалению вашего сайта.

Это, однако, приводит к тому, что дубликаты страниц отфильтровываются по результатам, и дает вам меньше контроля над тем, какие страницы ранжируются. Достаточно причин, чтобы избежать дублирования контента!

Причины и решения

Существует множество причин, по которым один и тот же контент может размещаться по разным URL-адресам. Мы расскажем вам о самых распространенных причинах и расскажем, как их устранить.

Параметры URL

Часто вы видите параметры в URL-адресах, которые используются для сортировки, фильтрации, разбивки на страницы или определения источника трафика. Например: www.example.com/products?sort=price и www.example.com/products могут быть на одной и той же странице, но иметь другой URL-адрес. То же самое относится и к параметрам отслеживания: www.example.com/blog-post?utm_source=email может не отличаться от www.example.com/blog-post .

Вы, вероятно, не можете удалить эти параметры, потому что они есть по причине. Это легко исправить: используйте канонические URL. Канонический URL сообщает поисковым системам, что, хотя на один и тот же контент могут приходить различные URL, только один канонический URL является исходным. Как правило, Google будет использовать этот URL в своих результатах.

В заголовке своей страницы добавьте:

<link rel = "canonical" href = "http://www.example.com/blogs/my-blog-post" />

Это говорит о том, что http://www.example.com/blogs/my-blog-post Google следует индексировать, даже если указанный URL-адрес:
http://www.example.com/blogs/my-blog-post?utm_source=email или
http://www.example.com/blogs/my-blog-post?show-comments=true&page=5 .

Это очень похоже на перенаправление 301, без изменения URL.

Содержание в разных категориях

Некоторые системы управления контентом позволяют размещать контент, например, продукты или сообщения в блогах, в разных категориях. Садоводческий интернет-магазин, в котором продаются яблони, может перечислить их на www.example.com/trees/apple-tree и www.example.com/fruit/apple-tree .

В результате страница продукта или запись в блоге доступны по двум разным URL-адресам. Вот и все: дублированный контент!

Есть два возможных решения этого:

  • Убедитесь, что даже когда товар попадает в две категории, на странице товара всегда используется название категории самой важной категории.
  • ИЛИ: используйте канонический URL, который всегда сообщает Google самый важный URL. так что один будет найден в результатах.

Неоригинальное содержание

Скажем, вы продаете товары, и вы используете описание, предоставленное производителем на странице товара. Есть большая вероятность, что многие из ваших конкурентов делают то же самое. В результате содержание на странице вашего продукта трудно отличить от содержимого вашего конкурента.

В идеале, вы должны написать свой собственный контент или, по крайней мере, настроить предоставленный текст так, чтобы он говорил с вашей аудиторией. Таким образом, вы не только избегаете дублирования контента, но и убедитесь, что ваша аудитория нацелена на текст, написанный только для них, а не на общие описания, которые все используют.

Гостевые посты

Представьте, что у вас есть возможность написать гостевой пост в большом блоге вашей отрасли. Это круто! Но что, если вы захотите опубликовать эту же статью в своем блоге? Теперь у вас есть 2 разных URL, даже на разных доменах, с одинаковым содержанием.

Канонические URL-адреса являются решением. Если вы можете, попросите владельца блога добавить канонический URL к тому же сообщению в блоге на вашей странице. Это сильный сигнал, что ваш оригинал.

Специфичные для страны домены

Скажем, у вас есть www.example.com для США и www.example.co.uk для Великобритании. Оба сайта продают кухонную одежду и имеют идентичные описания продуктов. Но поскольку цены и стоимость доставки различаются, вы хотите убедиться, что отправляете нужных людей на нужный веб-сайт, и, конечно же, хотите избежать дублирования контента.

Атрибуты href lang - вот ответ. Они сообщают Google, какая страница предназначена для какой страны, поэтому Google может показывать веб-сайт .com американским поисковикам, а веб-сайт co.uk - людям из Великобритании.

Подробнее о международном SEO и как использовать href langs.

www и не www адреса

Некоторые сайты имеют www перед своим доменом, например www.google.com . Другие нет, как dribbble.com . Если ваш веб-сайт работает с доменом www, а другой - без, у вас есть два идентичных веб-сайта с разными URL-адресами. Google рассмотрит этот дубликат.

Это легко исправить: перенаправить весь трафик на www. Если у вас есть сервер Apache, добавьте его в ваш файл .htaccess:

RewriteEngine On
RewriteCond% {HTTP_HOST}! ^ Www \.
RewriteRule ^ (. *) $ Http: //www.% {HTTP_HOST} / $ 1 [R = 301, L]

https и http URL

Итак, вы защитили свой сайт сертификатом SSL? Замечательно! Только не забудьте перенаправить весь трафик на этот защищенный URL, иначе ваш контент будет жить по 2 URL: один с SSL, а другой без SSL.

Если вы находитесь на сервере Apache, вы можете сделать это, добавив следующие строки в ваш файл .htaccess:

RewriteEngine On
RewriteCond% {HTTPS} off
RewriteRule (. *) Https: //% {HTTP_HOST}% {REQUEST_URI} [L, R = 301]

Конечные косые черты

Вы видите это часто: www.example.com/products и www.example.com/products/ (обратите внимание на завершающий слеш в конце) показывают ту же самую страницу. Google становится достаточно умным, чтобы понять, что это, вероятно, та же страница, но большинство оптимизаторов сходятся во мнении, что риск не стоит. Гораздо лучше перенаправить весь трафик на URL без косой черты.

Если ваш сайт работает на сервере Apache, добавьте следующую строку в ваш htaccess, чтобы перенаправить весь трафик на вариант без косой черты:

RewriteRule ^ /? (. +) / $ / $ 1 [R = 301, L]

Содержание Boilerplate

Когда мы говорим о контенте, мы обычно ссылаемся на текст в вашем блоге, новостную статью или описание продукта. Но на вашей странице есть больше контента: у вас есть меню, верхний колонтитул, нижний колонтитул и, возможно, даже боковая панель, которую вы показываете на каждой странице вашего сайта. Это то, что мы называем стандартным содержанием.

Если на вашей странице много стандартного контента по сравнению с конкретным содержанием этой страницы, Google может рассматривать эти страницы как дубликаты. Результат довольно серьезный: он может не показывать ваши отдельные страницы продукта в результатах поиска. Поэтому Google рекомендует свести к минимуму содержание вашего стандартного контента.

Конечно, вам понадобится меню и нижний колонтитул. Только не включайте все ваше заявление о конфиденциальности в нижний колонтитул. Вместо этого добавьте ссылку на определенную страницу.

Примечание о канонических URL

Мы упоминали канонические URL-адреса как отличный способ избежать дублирования контента. Но вы должны быть осторожны. Имейте в виду, что если у вас есть страница A с каноническим URL, указывающим на страницу B, эта страница A, вероятно, не будет проиндексирована. Часто это то, что вы хотите, но убедитесь, что вы тщательно следите за размещением канонических URL-адресов, потому что последствия могут быть серьезными.

Как найти дублированный контент?

Вы попали в нужное место: SiteGuru проверяет ваш сайт на наличие дублирующихся заголовков страниц и метаописаний, что часто является сигналом того, что само содержание также дублируется.

Google Search Console также отчеты о дублировании контента.

Заключение

Дублированный контент может негативно повлиять на то, как ваш сайт проиндексирован и оценен. Его легко найти и легко исправить, поэтому нет причин, по которым на вашем сайте должен быть дублированный контент.

Что такое дублированный контент?
Почему дублированный контент имеет значение?
Когда Google видит контент как дубликат?
Что такое штраф за дублированный контент?
Что такое дублированный контент?
Com/t-shirts?
Почему дублированный контент имеет значение?
Когда Google видит контент как дубликат?
Что такое штраф за дублированный контент?
Com/products?