Дубли страниц и контента на сайте должны отсутствовать, так как это может затруднить поисковым системам выбор страницы для запроса.

Хотя наказание за дублирование контента является мифом в SEO, дубли страниц могут вызвать трату краулингового бюджета и ослабить PageRank.

Стоит помнить, что дублированный и похожий контент является естественной частью интернета, и не является проблемой для поисковых систем, которые канонизируют url-адреса и фильтруют их при необходимости. Однако в масштабе это может быть более проблематичным.

Предотвращение дублирования контента позволяет вам контролировать то, что индексируется и ранжируется, а не оставлять выбор релевантной страницы поисковым системам.

Из этого туториала вы узнаете, как с помощью Screaming Frog SEO Spider можно найти как точный дублированный контент, так и почти дублированный контент, когда контент на странице дублируется частично по сайту.

1. Включите Near Duplicates через Config > Content > Duplicates

По умолчанию SEO Spider автоматически ищет дубликаты страниц. Тем не менее, для идентификации «Почти дублирующий контент» должна быть включена функция, которая позволяет хранить содержимое каждой страницы.

SEO Spider ищет близкие дубликаты с совпадением на 90%, которое можно настроить для поиска контента с более низким порогом сходства.

выбор процента схожести контента на страницах

SEO Spider также будет проверять только индексируемые страницы на наличие дубликатов (как точных, так и почти).

Это означает, что если у вас есть два url-адреса, но один из них канонизирован с другим (и, следовательно, не индексируется), контент не будет учитываться — если эта опция не отключена.

2. Настройте «Content Area» через «Config > Content > Area»

SEO Spider автоматически исключит элементы навигации и футера, чтобы сосредоточиться на основном содержании. Однако не каждый сайт построен с использованием элементов HTML5, поэтому при необходимости вы можете уточнить область содержимого, используемую для анализа. Вы можете выбрать «включить» или «исключить» HTML теги, классы и идентификаторы в анализе.

Например, можно исключить повторяющий текст приветствия под моим фото. Хотя это не является большой проблемой, в данном случае, но подобным образом мы делаем акцент на основном контента страниц сайта.

исключение для поиска дублей контента

3. Сканируйте сайт

Откройте SEO Spider, введите url адрес сайта в поле и нажмите «Пуск».

сканирование сайта в seo spider

Подождите, пока сканирование завершится, но вы также можете просмотреть анализ в режиме реального времени.

4. Перейдите во вкладку «Content»

На вкладке «Content» есть 2 фильтра, связанных с дублирующимся содержимым, «точные дубли» и «почти дубли».

почти дубликаты и полные дубликаты в seo spider

Только «точные дубликаты» доступны для просмотра во время сканирования. Для «почти дубли» требуется вычисление в конце сканирования через функцию «Crawl Analysis».

5. Нажмите «Crawl Analysis» > «Start», чтобы заполнить фильтр «Почти дубли».

crawl analysis в seo spider

Снимите флажки с других элементов, которые также требуют анализа после сканирования, чтобы ускорить этот шаг.

ускорение анализа контента через конфигурацию seo spider

После окончания анализа вы можете просмотреть почти дубли страниц.

6. Анализ вкладок ‘Content’, ‘Exact’, ‘Near’

После выполнения анализа после сканирования, у фильтра «Near Duplicates (почти дубли)», «Closest Similarity Match (самое близкое совпадение)» и «No. Near Duplicates (количество дублей)» будут заполнены столбцы. Только url-адреса с содержанием выше выбранного порога сходства будут содержать данные, остальные останутся пустыми. В случае c promodo имеем 7 дублей контента.

promodo дубли на сайте

Исправляйте, если читаете это.

Сканирование более крупных сайтов покажет больше проблем, в особенности различные новостные сайты.

дубли сайта tsn

Почти одинаковые страницы следует проверять вручную, поскольку существует множество причин, по которым некоторые страницы очень похожи по содержанию, например, вариации одного товара, теги, архивы, видео без контента и т.д..

Однако url-адреса, помеченные как почти дубли, следует пересмотреть, чтобы определить, должны ли они существовать как отдельные страницы из-за их уникальной ценности для пользователя, или их следует удалить, объединить или улучшить, чтобы сделать контент более проработанным и уникальным.

7. Анализ вкладки «Dublicate Details»

Для «Почти дубли» нажмите вкладку «Dublicate Details» в нижней части.

анализ вкладки дублей контента

Например, тут можно просмотреть все url-адреса страниц дублирующие конкретную страницу.

список url дублирующих страницу

В правой части вкладки «Dublicate Details» будет отображаться дублированный контент, обнаруженный на страницах, и будут выделяться различия между страницами при нажатии на каждый url.

разница между дублями страниц

Советы

  1. Для получения более точных результатов уточните область содержимого для анализа и настройте порог для разных групп страниц.
  2. Исключайте классы css которые выводят меню, футер, хедер для более правильного анализа.
  3. Анализируйте все почти дубли вручную.
  4. Порог сходства 90% — по умолчанию, используйте свой.