Парсим контент конкурента программой Screaming Frog


Полезное / Четверг, Май 17th, 2018

Выходить на любой рынок без анализа ниши — глупо. Но сегодня мы поговорим не об этом.

В этом посте я расскажу как с помощью программы Screaming Frog SEO Spider можно парсить контент конкурента. Например:

  • описание, характеристики и цену продукта;
  • изображения;
  • наличие и количество отзывов;
  • количество просмотров статьи;
  • наличие seo текстов;
  • и т.д..

Инструкция по применению

Выбираем сайт с которого хотим спарсить данные. Я возьму на пример сайт habr.com. И сегодня мы попробуем найти материал, у которого больше всего комментариев.

Переходим на любую страницу материала, скроллим к блоку отзывов. Правой кнопкой мыши кликам по количеству комментариев и выбираем «Просмотреть код»:

количество комментариев

Далее выбираем код, который отвечает за вывод количества и снова кликаем правой кнопкой мыши на выбранном элементе. Копируем XPath:

копируем XPath

Открываем Screaming Frog, копируем адрес сайта в поле:

screaming frog

Не спешите кликать на кнопку «Start». Переходим в меню Configuration — Custom — Extraction:

конфигурация парсинга

Выбираем настройки как на скрине (1) и вставляем скопированный код XPath в поле (2):

настройка парсинга

После этого необходимо добавить правило парсинга только по постам, что бы не тянуть мусорные страницы. Переходим снова в меню Configuration — Include:

include

И добавляем правило парсинга только постов (.* — любые символы):

После всего это жмем ОК и начинаем парсинг нажатием на кнопку Start.

Хабр сайт очень большой, ждать пока жаба спарсит все страницы мы не будем, поэтому покажем результат на том, на что у меня хватило терпения ждать).

Скроллим правое меню до блока «Custom», выбираем Extaction:

extraction

Вот мы и нашли пост, у которого наибольшее количество комментариев:

результат парсинга конкурента

Что еще

А еще мы можем доставать необходимую нам информацию по шаблону, например мыло или номер телефона. Разберем ситуацию с мылом.

Спарсим с помощью RDS ТОП 100 выдачи:

выдача по запросу обои москва

В спайдере выбираем LIST:

Spider - List

Настраиваем выборку:

выборка в спайдере

И добавляем следующий код — [a-zA-Z0-9-_.]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+

парсинг мыла

Загружаем в спайдер спарсеные сайты:

добавление сайтов

И получаем базу мыла:

итоговый результат

Как парсить цены с сайта конкурента

Выбираем жертву, у меня это будет сайт цитруса. Ну и конечно же парсить одни цены это глупо, поэтому вместе с ценой будем брать и название товара.

Что бы не парить лишнее выбираем раздел, у меня это «Смартфоны» и задаем следующие правила ограничивающие лягушку:

цитрус фильтр

 

Копируем xPath элемента цены:

цитрус цена

 

Вставляем в Custom Extraction:

цитрус кастом

 

Добавляем аналогично и название товара, запукаем парсинг. Я, как и всегда, весь сайт не парсил. Мне это не нужно:)

Экспортируем и смотрим что вышло:

цитрус финал

Вывод

Используйте полученные данные только на благие цели. Играйте честно и уважайте чужой труд.

Пишите в комментарии как еще можно использовать данный парсинг.

Понравилась статья?
Подпишись на рассылку и получай такие же крутые материалы как этот 🙂
Я согласен передать мою личную информацию в MailChimp ( политика безопасности )

9 thoughts on “Парсим контент конкурента программой Screaming Frog

  1. Большое спасибо за изложение данного материала. Информация полезная и очень экономит время в работе, уже использую.

  2. Пробнул по кол-ву товару, довольно удобная штука, для того чтобы найти на каких страницах отсутствует товар или его мало.

  3. Да, проверил, всё работает! Отменная статья, можно выпарсить холодную аудиторию для своего будущего сайта. Спасибо!

  4. Политай, большое спасибо за статью и советы в телеграмме! По моей задачи спарсить почты с пачки уже отобранных сайтов лучше всего подошла схема — спарсить все страницы в индексе по оператору site: через scarpebox, после с этих страниц парсим почты screamingfrog-ом по регулярке указанной в статье или же самим скрейпбоксом. Это конечно не решает вопрос с почтами, которые на странице не в индексе и это не главная, почтами, которые «замаскированы» от парсинга (dot), (dog), почтами в скриптах (можно, но будет очень долго парситься таким способом) и нужно помнить, что на некоторых сайтах еще просто формы связи, без почт.
    Спасибо за статью!

  5. Хорошо написано !
    Как спарсить цены если есть переменная ,цена показывается при выборе размера или определенного параметра?

    1. Цену будет показываться та, которая по умолчанию. Если без параметров не отображается, тогда увы нельзя никак (пока что))

  6. Не совсем удобно и красиво, каждый раз нагружать сайт, откуда парсишь.
    Есть ли выход, чтобы один раз просканировать сайт, а дальше Extraction делать уже без повторного обращения к сайту?
    Либо только через костыля, аля офлайн копия сайта через другую программу?

    1. Запрос идет из одного ip, это особой нагрузки на сайт не создает.

      По поводу один раз спарсить, а потом доставать данные — нет, так нельзя сделать вообще)
      Просто тестируйте экстракцию на одной или паре страниц, после чего запускайте на весь сайт.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *