
Дубли страниц и контента на сайте должны отсутствовать, так как это может затруднить поисковым системам выбор страницы для запроса.
Хотя наказание за дублирование контента является мифом в SEO, дубли страниц могут вызвать трату краулингового бюджета и ослабить PageRank.
Стоит помнить, что дублированный и похожий контент является естественной частью интернета, и не является проблемой для поисковых систем, которые канонизируют url-адреса и фильтруют их при необходимости. Однако в масштабе это может быть более проблематичным.
Предотвращение дублирования контента позволяет вам контролировать то, что индексируется и ранжируется, а не оставлять выбор релевантной страницы поисковым системам.
Из этого туториала вы узнаете, как с помощью Screaming Frog SEO Spider можно найти как точный дублированный контент, так и почти дублированный контент, когда контент на странице дублируется частично по сайту.
1. Включите Near Duplicates через Config > Content > Duplicates
По умолчанию SEO Spider автоматически ищет дубликаты страниц. Тем не менее, для идентификации «Почти дублирующий контент» должна быть включена функция, которая позволяет хранить содержимое каждой страницы.
SEO Spider ищет близкие дубликаты с совпадением на 90%, которое можно настроить для поиска контента с более низким порогом сходства.
SEO Spider также будет проверять только индексируемые страницы на наличие дубликатов (как точных, так и почти).
Это означает, что если у вас есть два url-адреса, но один из них канонизирован с другим (и, следовательно, не индексируется), контент не будет учитываться - если эта опция не отключена.
2. Настройте «Content Area» через «Config > Content > Area»
SEO Spider автоматически исключит элементы навигации и футера, чтобы сосредоточиться на основном содержании. Однако не каждый сайт построен с использованием элементов HTML5, поэтому при необходимости вы можете уточнить область содержимого, используемую для анализа. Вы можете выбрать «включить» или «исключить» HTML теги, классы и идентификаторы в анализе.
Например, можно исключить повторяющий текст приветствия под моим фото. Хотя это не является большой проблемой, в данном случае, но подобным образом мы делаем акцент на основном контента страниц сайта.

3. Сканируйте сайт
Откройте SEO Spider, введите url адрес сайта в поле и нажмите «Пуск».

Подождите, пока сканирование завершится, но вы также можете просмотреть анализ в режиме реального времени.
4. Перейдите во вкладку «Content»
На вкладке «Content» есть 2 фильтра, связанных с дублирующимся содержимым, «точные дубли» и «почти дубли».

Только «точные дубликаты» доступны для просмотра во время сканирования. Для «почти дубли» требуется вычисление в конце сканирования через функцию «Crawl Analysis».
5. Нажмите «Crawl Analysis» > «Start», чтобы заполнить фильтр «Почти дубли».

Снимите флажки с других элементов, которые также требуют анализа после сканирования, чтобы ускорить этот шаг.

После окончания анализа вы можете просмотреть почти дубли страниц.
6. Анализ вкладок ‘Content’, ‘Exact’, ‘Near’
После выполнения анализа после сканирования, у фильтра «Near Duplicates (почти дубли)», «Closest Similarity Match (самое близкое совпадение)» и «No. Near Duplicates (количество дублей)» будут заполнены столбцы. Только url-адреса с содержанием выше выбранного порога сходства будут содержать данные, остальные останутся пустыми. В случае c promodo имеем 7 дублей контента.

Исправляйте, если читаете это.
Сканирование более крупных сайтов покажет больше проблем, в особенности различные новостные сайты.

Почти одинаковые страницы следует проверять вручную, поскольку существует множество причин, по которым некоторые страницы очень похожи по содержанию, например, вариации одного товара, теги, архивы, видео без контента и т.д..
Однако url-адреса, помеченные как почти дубли, следует пересмотреть, чтобы определить, должны ли они существовать как отдельные страницы из-за их уникальной ценности для пользователя, или их следует удалить, объединить или улучшить, чтобы сделать контент более проработанным и уникальным.
7. Анализ вкладки «Dublicate Details»
Для «Почти дубли» нажмите вкладку «Dublicate Details» в нижней части.

Например, тут можно просмотреть все url-адреса страниц дублирующие конкретную страницу.

В правой части вкладки «Dublicate Details» будет отображаться дублированный контент, обнаруженный на страницах, и будут выделяться различия между страницами при нажатии на каждый url.

Советы
- Для получения более точных результатов уточните область содержимого для анализа и настройте порог для разных групп страниц.
- Исключайте классы css которые выводят меню, футер, хедер для более правильного анализа.
- Анализируйте все почти дубли вручную.
- Порог сходства 90% - по умолчанию, используйте свой.