анализ логов

Как проанализировать логи сервера на предмет SEO, на что обратить внимание и какие инструменты использовать.

Что такое логи сервера

Логи сервера - это файл (или несколько файлов), который автоматически создается и поддерживается сервером и состоит из списка выполненных им действий.

В целях SEO нас интересует журнал веб-сервера, который содержит историю запросов страниц сайта, как от людей, так и от роботов.

Данные файла логов выглядят примерно так:

пример log файла

Да, поначалу данные выглядят немного запутанными, поэтому давайте рассмотрим их более внимательно.

Пример записи

165.225.36.80 - - [20/Feb/2019:00:03:25 +0200] "GET /wp-content/uploads/2018/05/zagruzka-sitov.png.pagespeed.ce.52gczG4nQH.png HTTP/1.1" 200 83191 "https://politay.pro/parsim-kontent-konkurenta/" "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.96 Safari/537.36"

пример расшифровки логов

Тут мы видим, что для каждого запроса нам дается ключевая информация, такая как дата и время, код ответа запрошенного URL (в данном случае 200) и User agent, с которого поступил запрос. Как вы уже поняли, файлы логов состоят из тысяч обращений каждый день, так как каждый раз, когда пользователь или бот заходит на ваш сайт, для каждой запрашиваемой страницы записывается много обращений, включая изображения, CSS, JS и любые другие файлы, необходимые для визуализации страницы.

Почему они важны

Теперь вы знаете, что такое логи сервера, но почему стоит их проанализировать?

Существует только одна достоверная запись о том, как поисковые системы, например Googlebot, обрабатывают ваш сайт - при просмотре лог файлов сервера для вашего сайта.

Google Search Console, сторонние сканеры и поисковые операторы не дадут нам полной картины о том, как поисковые системы взаимодействуют с сайтом. ТОЛЬКО файлы логов сервера могут предоставить нам эту информацию.

Как использовать анализ логов для SEO

Анализ файла логов дает нам огромное количество полезных сведений:

  • что можно или нельзя сканировать;
  • посмотреть ответы, с которыми столкнулись поисковые системы во время сканирования, например, 302, 404, 500;
  • определить недостатки сканирования, которые могут иметь большие последствия для сайта (например, иерархия или структура внутренних ссылок);
  • посмотреть, какие страницы поисковики расставляют по приоритетам, и могут считать более важными;
  • контролировать краулинговый бюджет.

Как получить лог файлы

Для анализа вам требуются необработанные логи с серверов вашего домена без фильтрации или внесенных изменений. В идеале вам понадобится большой объем данных, чтобы сделать анализ полезным. Сколько дней/недель стоит анализировать, зависит от размера, авторитета вашего сайта и количества трафика, который он генерирует. Для некоторых сайтов может быть достаточно недели, для других сайтов может понадобиться месяц или более.

Мой хостинг поддерживает выгрузку логов через свой интерфейс, поэтому достать логи своего сайта мне не составило трудностей.

выгрузка логов

Какие инструменты нужно использовать

Я использую Screaming Frog Log File Analyzer (стоимость 99 долларов в год), так как его удобный интерфейс позволяет быстро и легко выявлять любые проблемы.

Так же можно использовать Splunk и GamutLogViewer.

Как анализировать лог-файлы для SEO

1. Найдите, где расходуется впустую краулинговый бюджет

Во-первых, что такое краулинговый бюджет? Google определяет это как:

Принимая во внимание скорость сканирования и потребность в сканировании, мы определяем бюджет сканирования как количество URL-адресов, которые робот Googlebot может и хочет сканировать.

По сути - это количество страниц, которые поисковая система будет сканировать каждый раз, когда посещает ваш сайт. Зависит от авторитета домена и пропорционально количеству ссылок на сайте.

Критически важно, что при анализе логов краулинговый бюджет может иногда расходоваться на нерелевантные страницы. Если у вас есть свежий контент, который вы хотите проиндексировать, но не осталось бюджета, Google не будет индексировать новый контент.

Вот почему стоит отслеживать, куда вы тратите свой бюджет сканирования сайта, с помощью анализа логов сервера.

Оптимизация краулингового бюджета поможет поисковым системам сканировать и индексировать наиболее важные страницы вашего сайта.

Факторы, влияющие на бюджет сканирования

Наличие множества URL-адресов с с некачественным контентом может отрицательно повлиять на сканирование и индексирование сайта. URL-адреса с некачественным контентом могут относиться к следующим категориям:

  • идентификаторы сеанса;
  • дублированный контент;
  • ссылки на 404 страницу;
  • взломанные страницы;
  • низкое качество и спам.

Потеря краулингового бюджета на таких страницах приведет к истощению активности сканирования страниц, которые действительно имеют ценность, что может привести к значительной задержке в обнаружении качественного контента на сайте.

2. Ответить на технические вопросы SEO

Анализируя файлы логов, мы можем ответить на следующие вопросы с гораздо большей уверенностью, чем если бы мы пытались использовать другие методы/инструменты:

Как часто сканируются определенные страницы? Например, служебные страницы, блог, страница автора.

Все ли поисковые роботы получают доступ к вашим страницам?

Какие страницы отображаются не правильно? Ищите страницы с HTTP-статусами 3xx, 4xx и 5xx

И многое другое!

3. Узнайте, переключился ли ваш сайт на индекс Google для мобильных устройств

Вы также можете использовать логи сервера сайта, чтобы узнать, получает ли ваш сайт повышенный просмотр Googlebot для смартфонов, что указывает на то, что он был переключен на Mobile First Index.

Как правило, сайт, который все еще находится в обычном индексе, будет иметь около 80% сканирования Google, выполняемого сканером для настольных компьютеров, и 20% мобильным. Если вы переключились на мобильный индекс, эти цифры поменяются местами.

Вы можете найти эту информацию, посмотрев вкладку User Agents в Screaming Frog Log Analyzer - вы увидите большинство событий, происходящих из Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html):

пример user agent

Анализ логов: краткий пример

Для примера я выполнил анализ логов своего сайта с использованием Screaming Frog Log Analyzer. Ниже приведен обзор, содержащий данные домена:

анализ логов

Я обнаружил, что Google, очень часто сканирует странную страницу https://politay.pro/xmlrpc.php:

странная ссылка в логах

и расставляет приоритеты над другими важными страницами.

Конечно, в идеале наиболее важные страницы должны сканироваться, например, главная страница.

Изучив скрин выше, вы увидите, что я нашел еще и такие страницы: 301, 404, карту сайта в формате xml которая даже не работает - https://politay.pro/sitemap_index.xml.

Я также обнаружил, что Google получает доступ и сканирует большое количество динамических URL-адресов.

Теперь я ясно вижу несколько технических исправлений, в том числе исключение обхода URL-адресов путем блокировки URL-адресов, содержащих определенные шаблоны, в файле robots.txt, обновление программных 404-х и многое другое.

Все это поможет улучшить доступность сайта для ПС.

Author

Владислав Политай

SEO с 2012 года. На данный момент занимаюсь клиентским SEO и популяризацией науки seo в массы через мой блог.

2 комментария

  1. HAS
    02.03.2019 Ответить

    а мы для анализа логов используем Semonitor

  2. Александр
    31.10.2019 Ответить

    Начнем с самых базовых вещей. C тех разных гипотез и мнений, которые бывают в сфере интернет-маркетинга, которые мы хотим проверить, но не можем. И логи помогают ответить на эти вопросы. Нпример, можно отследить Панду по резкому падению объема краулинга. Аналитика логов сервера — самый надежный источник данных о том, как поиск относится к нашим сайтам. Это адреса, URL которых были указаны текстом. То есть Googlebot может видеть неактивные ссылки, и возможно они используются им для каких-то дальнейших вычислений внешних сигналов.

Leave a comment

Ваш адрес email не будет опубликован. Обязательные поля помечены *