Как убрать клоны страниц сайтаДля того что бы исключить из поиска страницы, которые дублируют контент, необходимо сначала определить откуда он берется. Ведь когда мы пишем статьи, мы их не дублируем. А дубли, тем не менее, появляются сами. Особенно это распространено на новых еще не настроенных сайтах или сайтах новичков. И если вовремя не опомниться то такие страницы клоны заполонят ваш сайт, точнее индекс поисковика. Ведь у вас на сайте страницы те же и в единственном экземпляре, а вот поисковая система индексирует все в подряд. Ей сложно отличить нужные страницы от не нужных.

К примеру, у вас сайт состоит из анонсов своих записей, то есть ваши статьи имеют вид небольшого анонса. И сама страница с анонсами, попадает в индекс, основном, под названием page с номером. А так как на ней, дублированный контент, по отношению к вашим исходным страницам со статьями. То поисковые системы это начнет путать и вес, который мог бы получить уникальный контент, не получит ни кто. Именно поэтому и следует бороться с такими страницами клонами.

Основным инструментом по борьбе с дублированными страницами будет, файл robots.txt, который находится в корне вашего сайта. С его помощью указав слова из адреса ненужных страниц, мы их запрещаем к индексированию. Они существуют, но роботы поисковых систем уже на них не обращают внимания.

Для этого используем Disallow, то есть не индексировать или не ходить по ссылке.

Если вам требуется закрыть для индексации страницы из примера, который я привел выше. Тогда напишите в robots.txt, такую строку

Disallow */page*

Звездочка значит любые символы, то есть в адресной строке, любые символы до и после page. Такие адреса не будут проиндексированы. Но для пущей надежности, зайдите в webmaster.yandex.ru на страницу, настройка индексации и проверьте, как это все работает, так же можно там посмотреть справку, где все показано в доступном материале.