Полезное

Утечка Яндекс и его факторы ранжирования

26 января произошла утечка исходного кода Яндекса. Самая интересная часть для SEO: список всех 21 488 факторов ранжирования, используемых в алгоритме поиска.

Мы собрали самое интересное, необычное и местами шокирующе.

Структура для каждого фактора: - название - ссылка на внутреннюю вики - AntiSeoUpperBound (ха-ха) - описание - и т.д Забавно, что первый фактор в списке - PageRank.

За AntiSeoUpperBound, кто не понял - сейчас объясню. Это пороговые значения, при которых любое вычисленное значение, превышающее это значение, указывает системе на то, что эта функция страницы чрезмерно оптимизирована.

1. Возраст ссылок является фактором ранжирования.

2. Трафик и % органического трафика являются факторами ранжирования. Это означает, что PPC влияет на ранжирование.

3. Цифры в URL-адресах плохо влияют на ранжирование.

4. Много косых черт в URL-адресах плохо влияет на ранжирование.

5. Жесткая пессимизация равна PR=0.

6. Надежность хоста является фактором ранжирования. Чем меньше ошибок, тем лучше для вашего органического трафика.

7. Забавный факт: есть отдельный фактор ранжирования для поднятия Википедии в выдаче.

8. Множество факторов ранжирования, связанных с поведением пользователя - CTR, время на сайте, показатель отказов.

9. Возраст документа и последнее обновление являются факторами ранжирования.

10. Средняя позиция домена по всем запросам является фактором ранжирования.

11. Глубина сканирования является фактором ранжирования. Держите важные страницы ближе к главной странице.

12. Дополнительно: фактор ранжирования для страниц-сирот. Вы можете легко найти их с помощью статьи - https://politay.pro/kak-nayti-stranitsy-siroty/.

13. Бэклинки с главных страниц важнее, чем с внутренних страниц.

14. Количество поисковых запросов вашего сайта / URL-адреса является фактором ранжирования. Понятно, что больше = лучше.

15. Трафик из Википедии является фактором ранжирования.

16. Если ваш url будет последним для поисковой сессии (пользователь найдет то, что ему нужно) - это повлияет на ранжирование.

17. Фактор ранжирования закладок. Чем больше пользователей добавляют в закладки URL-адрес, тем больше значение фактора он имеет.

18. Специальные факторы ранжирования для коротких видео (тикток, шорты, ролики).

19. Maps js-api на странице (например, Google Maps) — это фактор ранжирования.

20. Ключевые слова в URL — это факторы ранжирования. Как видно из описания - оптимальным будет включение до 3-х слов из поискового запроса.

21. Вернувшиеся пользователи — фактор ранжирования. Создавайте страницы с хорошим удержанием, и это пойдет на пользу вашему SEO.

22. Процент ЗАГЛАВНЫХ БУКВ в title является фактором ранжирования.

23. Процент прямого трафика является фактором ранжирования. Если весь ваш трафик пришел из органического поиска — это подозрительно + плохо для ранжирования.

24. Еще один фактор ранжирования по качеству контента — битое встроенное видео на странице. Видео - хорошо для ранжирования. Битое видео - плохо.
25. Соотношение «хороших» и «плохих» обратных ссылок является фактором ранжирования. Что такое «хорошая» нам непонятно, но весьма очевидно.

26. Рейтинг качества текстов на домене является фактором ранжирования. Страницы с некачественным контентом влияют на весь домен.

27. Количество рекламы на странице является фактором ранжирования. Меньше = лучше.

28. Забавно, есть рандом как отдельный фактор ранжирования. Когда вы не понимаете, почему какая-то страница находится сверху - это может быть просто случайно (для проверки поведенческих факторов).

29. JS из Google Analytics — фактор ранжирования. Предсказуемо. Хорошие сайты чаще используют GA, чем плохие.

30. Обратные ссылки с 100 лучших сайтов по рейтингу PageRank влияют на ранжирование.

31. Ключевое слово в домене как фактор ранжирования.

Думал на этом закончить, но я нашел золото - начальные коэффициенты факторов ранжирования. Нет не так.

Начальные коэффициенты факторов ранжирования Яндекс

Конечно они могут быть скорректированы на уровне MatrixNet (алгоритм машинного обучения), но все же это проливает свет на многие вещи.

Быстро пройдемся по топ-5 факторов ранжирования с наибольшим положительным и отрицательным весом в расчете релевантности страницы или сайта.

Отрицательный вес

1. FI_ADV: -0.2509284637 - этот фактор определяет наличие рекламы на сайте.

2. FI_DATER_AGE: -0.2074373667 - разница между текущей датой и датой документа, определённой датировщиком, 1 - дата документа равна текущей, 0 - документу 10 лет или более, Если дата не определена, равен 0.

3. FI_QURL_STAT_POWER: -0.1943768768 - количество показов URL-адреса по запросу.

4. FI_COMM_LINKS_SEO_HOSTS: -0.1809636391 - доля входящих продажных ссылок. Реализован алгоритм распознавания коммерческих ссылок. Фактор ремапится на [0,1] если доля таких ссылок > 50%, иначе 0.

5. FI_GEO_CITY_URL_REGION_COUNTRY: -0,168645758 - совпадение географии, определённой из урла документа и страны запроса (ip или lr). Актуально для России и Украины.

Положительный вес

1. FI_URL_DOMAIN_FRACTION: +0.5640952971 - покрытие домена трехбуквиями из запроса. (Челябинская лотерея - chelloto. Переводим запрос в транслит, находим трехбуквия которые покрываются (che, hel, lot, olo), смотрим какую долю от всех трехбуквиев покрыли).

2. FI_QUERY_DOWNER_CLICKS_COMBO: +0.3690780393 - фактор, хитрым образом скомбинированный из FRC и псевдо-CTR. Что такое FRC я понятия не имею.

3. FI_MAX_WORD_HOST_CLICKS: +0,3451158835 - кликабельность domAttr по максимальномо выраженному слову. Например для всех запросов в которых есть слово википедия кликают на странцы википедии.

4. FI_MAX_WORD_HOST_YABAR: +0.3154394573 - наиболее характерное слово запроса, соответствующее сайту, по данным бара. Тоже не до конца понимаю.

5. FI_IS_COM: +0.2762504972 - документ из коммерческой-кишки. Не используется (deprecated).

Дальше еще несколько интересных фактов.

FI_PAGE_RANK: +0,1828678331 - PageRank — 17-й по значимости фактор в Яндексе.

FI_SPAM_KARMA: +0,00842682963 - Спам карма имени антиспамеров - вероятность того, что хост – спам; основан на информации whois.

FI_SUBQUERY_THEME_MATCH_A: +0,1786465163 - насколько тесно тематически совпадают запрос и документ.

FI_URL_LINK_PERCENT: +0,08940421124 - отношение числа входящих ссылок, текст которых является URL, к числу всех входящих ссылок.

FI_PAGE_RANK_UKR: +0.08712279101 - отдельный украинский PageRank.

FI_IS_NOT_RU: +0.08128946612 - домен не в зоне .ru. Даже своим не верят 🙂

FI_ADV_PRONOUNS_PORTION: -0,001250755075 - доля местоименных существительных.

FI_PERCENT_FREQ_WORDS: -0.02021022114 - процент числа слов, являющихся 200 самыми частыми словами языка, от числа всех слов текста.

FI_YANDEX_ADV: -0.09426121965 - на странице есть реклама Яндекса. Помним, что обычная реклама это FI_ADV: -0.2509284637.

FI_CLASSIF_IS_SHOP: -0.1339319854 - судя по всему, Яндекс будет меньше любить вас, если ваша страница будет магазином.

Дальше все вместе, что можно найти в файле коэффициентов факторов ранжирования Яндекс:

КоэффициентНазвание ФактораОписание Фактора
0.564095297143887FI_URL_DOMAIN_FRACTIONПокрытие домена трехбуквиями из запроса. (Челябинская лотерея - chelloto. Переводим запрос в транслит, находим трехбуквия которые покрываются (che, hel, lot, olo), смотрим какую долю от всех трехбуквиев покрыли )
0.369078039338024FI_QUERY_DOWNER_CLICKS_COMBOфактор, хитрым образом скомбинированный из FRC и псевдо-CTR
0.345115883490577FI_MAX_WORD_HOST_CLICKSКликабельность domAttr по максимальномо выраженному слову. Например для всех запросов в которых есть слово википедия кликают на странцы википедии.
0.315439457304752FI_MAX_WORD_HOST_YABARНаиболее характерное слово запроса, соответствующее сайту, по данным бара
0.276250497243267FI_IS_COMДомен в зоне .com
0.254915495706702FI_OQ_BCLM_PLAINBCLM по запросному индексу для владельцев
0.231000481757815FI_OWNER_CLICKS_PCTRКликабельность владельца независимо от запроса
0.230257144838931FI_MAX_WORD_HOST_RANKХост ранк по максимально выраженному слову запроса (обычно это название сайта)
0.219595036178226FI_QUERY_DOWNER_CLICKS_PCTRНасколько часто кликают в URLы данного domainId по данному запросу - CTR domainId домноженный на поправочный коэффициент
0.214713693660762FI_QUERY_DOWNER_CLICKS_FRCотношение числа кликов по данному domainId ко всем кликам по запросу
0.209866937086235FI_DOM_PHRASE_CLICK_RANK_BIКликабельность домена по биграммам (без учёта тезаурусных расширений запросов)
0.209508533629415FI_OWNER_REQS_POPULARITYПопулярность owner'а в запросах
0.205699196177282FI_HAS_NO_QUERY_SHOWSДля данного запроса нет информации о кликабельности 1 - запроса нет в базе кликов, 0 - запрос есть в базе кликов.
0.205184905115480FI_DOM_PHRASE_YABAR_BIПереходы на сайт из поисковиков по биграммам, по данным Бара (без учёта тезаурусных расширений запросов)
0.202186193546053FI_QUERY_DOWNER_WEIGHT_CLICKw/k
0.189743110446303FI_OWNER_NAV_QUOTAДоля кликов по навигационным запросам
0.185032224423923FI_QUERY_DOWNER_ONLY_CLICK_RATEo/i
0.182867833093047FI_PAGE_RANKPage rank. Фактор ремапится.
0.179216994410993FI_QUERY_DOWNER_ONLY_CLICK_RATE_REGo/i
0.178646516342524FI_SUBQUERY_THEME_MATCH_AСовпадение тематических спектров запроса и документа. Тематика запроса - результат работы. Тематика документа определяется автоматическим классификатором
0.166327421401765FI_OWNER_CLICKS_PCTR_REGКликабельность владельца независимо от запроса, отдельно по регионам
0.165031403865939FI_HAS_DETERMINED_CITIESДля сайта определен город
0.160420713540373FI_QUERY_DOWNER_CLICKS_COMBO_REGQuery DOwner Clicks Combo, по мелким регионам из relev_regions.web.txt
0.160379344658431FI_HAS_NO_QUERY_DOWNER_SHOWSДля данного domainId для данного запроса нет информации о кликабельности 1 - запроса или запроса-владельца нет в базе кликов, 0 - запрос-владелец есть в базе кликов
0.156712439907419FI_REG_HOST_RANKCчитается так же, как и фактор HostRank, но не на всём owner-графе, а на его подграфе, состоящем из owner'ов данного региона. Принадлежность к региону определяется по TLD, либо по наличию в индексе страниц с данного owner'а, про которые geo или geoa классификатор говорит, что они из этого региона. Маппируется точно так же, как и фактор HostRank, в число от 0 до 1 с 256 градациями
0.152953808712409FI_QUERY_DOWNER_WS_MAX_WHR_AND_ONLY_CLICK_RATEСумма факторов 192 и 341 с весами 0.298942 и 0.454625 соответственно.
0.148292222594522FI_QUERY_DOWNER_SATISFIED4_RATEr_s4b/(r_k + 10)
0.147136648195774FI_QUERY_DOWNER_YABAR_VISITS
0.129668929638366FI_OQ_BM25_LEMBm25 по запросному индексу для domAttr
0.129641401501547FI_FIRST_WORD_HOST_CLICKSКликабельность хоста по первому слову запроса. Достаточно часто первое (последнее) слово запроса - явное указание сайта, на котором следует искать информацию.
0.127979729953137FI_YABAR_HOST_AVG_ACTIONSсреднее по пользователям число активных действий (клики, нажатия клавиш) при непрерывном нахождении пользователя (в сек) на страницах хоста.
0.126700168643196FI_OWNER_SESS_NORM_DURnd/k нормированное время до клика
0.125675707803009FI_OQ_BM25_STRBm25 по запросному индексу для domAttr
0.122090633457258FI_QUERY_DOWNER_YABAR_AVG_TIMEсреднее по пользователям активное непрерывное время нахождения пользователя (в сек) на страницах хоста после перехода по запросу из поисковой системы (фактор зависит от пары (запрос,domAttr)).
0.119512833156651FI_QUERY_DOWNER_YABAR_VISITORS
0.118638180985299FI_QUERY_DOWNER_CLICKS_FRC_REGотношение числа кликов по данному domainId ко всем кликам по запросу, по мелким регионам из relev_regions.web.txt
0.115262514353577FI_QUERY_DOWNER_WEIGHT_CLICK_REGw/k
0.114624515228977FI_MATRIXNETКо всем факторам применяется MatrixNet - формула (TG_UNUSED - чтобы предотвратить вхождние в какие-либо формулы)
0.113671587879567FI_QUERY_MINONEВозвращает под именем wminone максимальную степень нарицательности встреченных объектов в запросе.
0.112928770384249FI_TITLE_TRIGRAMS_QВычисляет покрытие запроса буквенными триграммами заголовка документа
0.112334631253023FI_OQ_BM25_SYNBm25 по запросному индексу для domAttr
0.105135837056982FI_OQ_BCLM_WEIGHTEDBCLM по запросному индексу для domAttr
0.103903118421863FI_QUERY_COMMERCIALITY_MX Мера 'коммерческости' запроса. Является комплексно рассчитываемым фактором MatrixNet формулой по словарю закупок в директе + по логам пользовательских запросов + доп. интентные словари. Запросы с интентом купить фактор стремится в ->1 товарные запросы ->0.6 с интентом не купить, обзоры и тп -> 0
0.102548297661617FI_OWNER_SATISFIED4_RATEЭто SEA фактор = s4_r/ (k_r+10) где s4_r - число кликов > 180 сек, k_r - общее число кликов. Считается с учётом переформулировок.
0.097713692186877FI_SHOPЭто магазин предложение (определяется по характерным паттернам в url`е). Не используется (deprecated)
0.097073501164592FI_IS_HUBХабовость страницы
0.096811143316269FI_LINK_WEIGHTED_FORMSВзвешенная по весам слов сумма числа форм
0.096447224363928FI_DIFFERENT_INTERNAL_LINKSКоличество различных внутренних ссылок на страницу
0.094045741102708FI_NUM_LINKS_FROM_SEGMENT_CONTENT
0.093045433292429FI_MPSAОценивает минимальное расстояние между парами слов запроса с учетом удаленности пары от начала документа (Minimal Pair Size with Attenuation). Под парами понимаются все последовательные биграммы слов запроса. Таким образом, количество пар равно количеству слов в запросе, уменьшенному на 1. Соответственно, фактор имеет смысл для запросов, состоящих более чем из одного слова.
0.089404211238337FI_URL_LINK_PERCENTОтношение числа входящих ссылок, текст которых является URL, к числу всех входящих ссылок
0.087850313290757FI_QUERY_DOWNER_WS_FRC_AND_BM25F_DPR_FIXEDСумма факторов QueryDOwnerClicksFRC и BM25FdPRFixed с весами 0.358449 и 0.184922 соответственно. '565' в названии фактора не надо воспринимать буквально, это легаси либо опечатка.
0.087122791007993FI_PAGE_RANK_UKRУкраинский Page rank
0.085929172196314FI_YABAR_HOST_VISITORSкол-во уникальных посетителей, ремапится экспоненциально
0.085276276270387FI_DOM_PHRASE_YABARПереходы на сайт из поисковиков по отдельным словам, по данным бара
0.084699401575226FI_GEO_RELEV_ALIEN_CITYРезультат имеет геопривязку, не совпадающую с географией пользователя на уровне города ([415]==1 && [215]==0)
0.084012276385059FI_GEO_RELEV_REGION_COUNTRYТри уровня совпадения географии пользователя и страницы
0.082967074248567FI_GEO_REGION_PROXIM
0.081289466115302FI_IS_NOT_RUДомен не в зоне .ru
0.080331864046170FI_SYN_FL_REMAP2Показывают насколько текст является неестественным с точки зрения русского языка. Оценка того, насколько можно считать текст документа сгенерированным синонимайзером либо вообще автоматическим.
0.078872214489662FI_LINK_BREAKАналоги соответствующих текстовых факторов для линков. BM25 от количества ссылок, в которых произошло совпадение.
0.077454131996933FI_QUERY_DOWNER_CLICK_SUMMARYподобранная формула
0.076343383792772FI_DOM_PHRASE_CLICK_RANKКликабельность домена по словам
0.075434934641649FI_TEXT_BM25_ATTEN_SYNTR с дисконтом за номер предложения
0.074172193125966FI_YABAR_HOST_AVG_TIME2среднее по пользователям активное непрерывное время нахождения пользователя (в сек) на страницах хоста. По внутр счетчику Яндекс.Бара/Элементов/Браузера
0.071481760992750FI_QUERY_DOWNER_SATISFIED4_RATE_REGr_s4b/(r_k + 10)
0.071417326810502FI_YABAR_HOST_INTERNAL_TRAFFICдоля заходов на сайт не по ссылкам (набор руками или с закладок)
0.071242787451280FI_PAGE_RANK_BONUSPriority bonus, приоритет 7 - текстовый приоритет. Фактор бинарный, имеет значение 0 для всех однословных запросов, и значение 1 практически для всех двух и более словных, кроме очень маленького количества ответов, для которых нет ни одной ссылки, прошедшей кворум, и текст тоже не прошел кворум.
0.070074395872424FI_TITLE_IDF_SUMIdf по различным частям документа, сломаны, не используются
0.069696682544392FI_LONGEST_TEXTРазмер самого большого текстового сегмента страницы (из фактора [18] PureText)
0.069268621800152FI_EXPECTED_FOUNDОжидаемое количество найденного по запросу
0.067151098341326FI_YABAR_URL_VISITSПосещаемость урла по данным я-бара
0.066890922161289FI_URL_BM25BM25 по URL'у
0.064310714968383FI_URL_TRIGRAMSМодель с обучением каждой триграммы на '+' и '-' урлах. Не зависит от запроса.
0.062753581782970FI_LAST_WORD_HOST_CLICKSКликабельность хоста по последнему слову запроса (без учёта тезаурусных расширений запросов)
0.062474190501436FI_NON_COMM_NORM_LR_LOG_RELEVXNonCommLRlogRelev (нормированное на сумму NonComm-весов всех ссылок, а не на сумму их исходных весов)
0.061675217167197FI_SOWNER_MAX_SUM_SOURCE_RANKСумма максимальных значений SourceRank'ов для каждой входящей ссылки с учётом уникальности владельца.
0.061031422056552FI_HEADING_IDF_SUMIdf по различным частям документа, сломаны, не используются
0.060594485044371FI_LERF_LR_LOG_RELEVЛинковая релевантность с учетом качества каждой ссылки
0.059222635368125FI_BF_LEMMA_ALLВарианты соответствующих факторов с учетом стоп слов
0.058870258158539FI_BM25F_DPR_FIXEDBM25FdPR с нормировкой на среднюю длину документа, зависящую от языка документа.
0.058415162135787FI_LONG_QUERY_SYNФактор -- аналог LongQuery (сумма idf слов запроса), но с 'корректным' учетом синонимов. Конкретно -- выбирается минимум по idf (т.е. самое частое) из синонимов и слова.
0.057053549836014FI_PERCENT_WORDS_IN_LINKSПроцент числа слов внутри тега .. от числа всех слов
0.056552232052119FI_PAGE_REGION_SIZE_INРазмер региона страницы
0.055767877134775FI_TLP1_ALLВарианты соответствующих факторов с учетом стоп слов
0.055185094441888FI_URL_NGRAMS_MODELФактор ранжирования UrlNGramsModel в erf
0.054926147793071FI_QUERY_REF_TRIGRAM_Q
0.054680076158058FI_QUERY_DOWNER_CLICK_SUMMARY_REGподобранная формула
0.054576897612176FI_LANGUAGE_COMPLIANCEЯзык документа соответствует языку запроса
0.054156294329288FI_BM25F_DPR_OBSOLETEBM25 с разными параметрами для разных полей, включая входящий анкортекст. Веса текста входящих на страницу ссылок нормируются в зависимости от delta page rank ссылки
0.051465613603836FI_GEO_CITY_PROXIMОзначает совпадение региона, упомянутого в запросе и найденных сайтов на уровне областей. Фактор бинарный: 1-совпадает, 0-нет.
0.051057813309267FI_YABAR_URL_VISITORSКоличество уникальных посетителей урла
0.050576094170344FI_NUM_SLASHESЧисло слешей в урле
0.049845924868959FI_SRСложносоставной static rank, собирается из статических компонентов по отдельной формуле.
0.049061648412321FI_LINK_RELEVЛинковая релевантность. Фактор ремапится.
0.047914113074106FI_QUERY_DOWNER_CLICKS_PCTR_REGНасколько часто кликают в URLы данного domainId по данному запросу - CTR domainId домноженный на поправочный коэффициент, по мелким регионам из relev_regions.web.txt
0.047164043400143FI_TITLE_IDF_SUM_FIXEDПредыдущие факторы - исправленные
0.046891090311905FI_LINK_PAIR_SYNНаличие в ссылках пар слов c учетом синонимов
0.046783126435468FI_Q_DIVERSITYСтепень централизации точек, из которой задается запрос
0.046757967567051FI_DBM35BM25 по текстам и линкам со спец. весами по уровню совпадения (форма, лемма, синоним)
0.044511155721215FI_LERF_GEO_LR_LOG_RELEVlog(LerfLR, суженной на страну пользователя)
0.042452794899003FI_LR_GEO_RELEV_REGION_COUNTRYТри уровня совпадения региона ссылок и запроса
0.038806477920761FI_PASSAGE_LEGACY_TRTR лучшего пассажа - насколько качественный сниппет может получиться
0.038372460585705FI_LCORХарактеризует частоту слов в ссылках. Фактор большой, если слово, сыгравшее в линковой релевантности, редкое для ссылок.
0.038263040612831FI_STATIC_TITLE_LR_BM25BM25 заголовка страницы по текстам ссылок на неё
0.037180373854650FI_COUNTRY_Q_DIVERSITYСтепень централизации точек, из которой задается запрос (внутри страны)
0.035447186193336FI_LINK_BREAK_SYNКоличество ссылок, прошедших порог
0.033485833700259FI_HIT_NUM_100Преобразованное количество слов запроса во всех линках url`а.
0.032525279432611FI_OWNER_SDIFF_SHOW_ENTROPYЭнтропия - распределение показов
0.031399776481102FI_TLBM25Простой BM25 по тексту и линкам одновременно.
0.031186243849340FI_WORDS_IN_TITLEЧисло слов русского языка в заголовке
0.030786458206337FI_BCLMФактор имени Buettcher, Clarke и Lushman (модифицированный).
0.030334786608805FI_LONG_QUERYСумма idf слов запроса. Название не отражает суть: например, для запроса 'Гадяч' этот фактор будет больше, чем для запроса 'Москва Питер Екатеринбург Самара'.
0.027302374355601FI_YA_BARПосещаемость из Бара. Фактор ремапится.
0.026926509552263FI_LOG_LRЛогарифм от LR, линейно отображенный в [0,1].
0.026650508120317FI_TRIGRAMS_COND_PROBЛогарифм среднего геометрического условных вероятностей триграмм. условная вероятность триграммы - ее вероятность, деленная на вероятность биграммы из первых двух слов
0.025806639721603FI_URL_SESS_NORM_DUR_RATEnd/i
0.025691573951246FI_IDF_VARIANCEДисперсия IDF слов запроса при условии наличия текстовых хитов в документе (смешанный запросно-текстовый фактор)
0.025328925792111FI_URL_SESS_NORM_DUR_RATE_REGnd/i
0.024263431712643FI_COUNTERS_SEARCH_TRAFFIC1Поисковый трафик - переходы с поисковых систем на сайт (2-ая формула)
0.024006117828321FI_TEXT_BREAK_EXколичество предложений, в которых встречается много слов по точной форме
0.023610887210981FI_QUERY_URL_CLICKS_FRC_REGотношение числа кликов по данному урлу ко всем кликам по запросу, по мелким регионам из relev_regions.web.txt
0.022803839020796FI_TEXT_WEIGHTED_FORMSВзвешенная по весам слов сумма числа форм - сумма по всем словам запроса числа_форм_для_слова/64*вес_слова; remap вида x/(1 + x).
0.021178675054476FI_NEW_LINK_QUALITYКлассификатор качества входящих ссылок 2 - сломан, см [407]
0.021178675054476FI_NEW_LINK_QUALITY_FIXEDКлассификатор качества входящих ссылок 2 исправленный
0.019988663575500FI_CATALOG_RELEVLR по каталожным описаниям
0.019740981979634FI_SWBM25Хитрый BM25 в скользящем окне. Размер окна задается в предложениях. Используются «джокеры» для заголовков и начала документа. Учитывается морфологическая близость и структура текста. Вес окна затухает с удалением от начала документа.
0.019580616053835FI_MEAN_WORD_LENGTHСредняя длина слова
0.019301158836494FI_LINKS_IN_TITLE_TRIGRAMSДоля уникальных триграмм ссылок в триграммах заголовка
0.019119257307239FI_LINK_RELEV_PHRASE(phrase) есть все слова запроса подряд в одном линке.
0.017641843798363FI_QSEGMENTS_BREAKSСегменты запроса - это части запроса, которые сами по себе являются частотными запросами. Фактор показывает, насколько сегменты бьются в тексте. значение 0 - все слова встречаются только в рамках обозначенных сегментов, 1 -- все вхождения разбивают сегменты
0.016179974819787FI_STATIC_TITLE_BM25_EXBM25 заголовка страницы по её тексту
0.013900531929943FI_PERIODIC_LINK_DATES_PERCENTПериодичность ссылок на сайт
0.013412340418363FI_GSK_URL_MODELФактор вычисляется из текста урла с помощью классификатора последовательностей quality/seq/gsk
0.013370500669584FI_LR_GEO_RELEV_REGION_NATDOM
0.013171579829370FI_GEO_COUNTRY_PROXIMГеографическая близость
0.013112575551553FI_LINK_QUALITY_FIXEDКачество входящих ссылок (классификатор Лещинера) исправленный
0.012081787040108FI_COUNTRY_QUERY_REGIONALITYСтрановый классификатор локализуемости - насколько запрос подразумевает контекст страны
0.011650367441796FI_FEM_MAS_NOUNS_PORTIONдоля слов, которые могут быть как существительными мужского рода, так и существительными женского рода, но не среднего рода, среди всех существительных (примеры: 'колибри' - пример неопределённого рода, который можно определять двумя способами, 'Александра' - омонимия).
0.010872234578071FI_SYNT_QUALITYИмеет ли запрос полный синтаксический разбор
0.010581678208134FI_SEGMENT_AUX_ALPHAS_IN_TEXTКоличество букв в сегменте Aux
0.009455905387837FI_LINK_SPEEDЧисло обратное дисперсии временам появления ссылок со словами запроса
0.009314594460961FI_GEO_LR_LOG_RELEVlog(LR, суженной на страну пользователя)
0.008426829629948FI_SPAM_KARMAСпам карма имени антиспамеров - вероятность того, что хост – спам; основан на информации whois
0.007908808762912FI_URL_LENGTH_2Длина URL'а с точностью до символа. Отключено в продакшн.
0.006691168756865FI_ADD_TIMEВремя добавления страницы, больше - более старый документ; кладется корень из времени, отображенный на интервал [0,1] так, чтобы 3+ года давало 1.
0.006678481233760FI_YABAR_HOST_SEARCH_TRAFFICДоля трафика с поисковых систем
0.005160158423400FI_PHRASEЕсть ссылка, прошедшая кворум
0.004768007631846FI_OWNER_SDIFF_SHOW_ENTROPY_REGЭнтропия - распределение показов. Регионализованный
0.003890338237824FI_YABAR_URL_AVG_TIMEсреднее по пользователям время нахождении пользователя на странице. Cчитается как разница между соседними переходами.
0.003622338166697FI_QUERY_ISHUMCпускает на базовые поиски под именем ishum максимальный вес встреченного объекта категории Hum или Hum1 в запросе.
0.003363499486900FI_COMM_LINKS_SEO_HOSTS_NON_COMMФактор CommLinksSEOHosts умноженный на NonCommercialQuery
0.003128580544172FI_LR_AMORTIZED_BY_AGEЛинковая релевантность с пессимизацией за большой возраст линка
0.002431406823392FI_SYN_FL_REMAP1Показывают насколько текст является неестественным с точки зрения русского языка. Оценка того, насколько можно считать текст документа сгенерированным синонимайзером либо вообще автоматическим.
0.001181036676865FI_Q_DIVERSITY2Географическая распределенность запроса
0.000692523218694FI_C_IN_DEGREE_2Хостовые факторы, определяют сайты, накрученные линками - вторая и третья входящие степени.
0.000426528744914FI_LINK_AGEСредний возраст ссылок, внесших что-то в LR LinkAge=Min(log(средний возраст ссылки)/7, 1), за 1 принято 3 года
0.000094696411924FI_LERF_LANG_LR_LOG_RELEVLR с учетом совпадения языка ссылки и запроса и накрученности
0.000000136522746FI_FIELD_LMУниграммная языковая модель. Моделируется языковая по документу, сглаживается общеязыковой моделью. При построении модели по документу используется информацию о том, в каком поле документа встретилось слово запроса (Title, head или plain text)
-0.000807198317231FI_DMOZ_QUERY_BEST_THEMEНаиболее вероятная тема запроса, определяемая правилом колдунщика DMOZTheme, учитываются только самые популярные темы (но здесь их больше чем в факторе DmozQueryThemes). Фактор содержит вероятность соотвествия запроса тематике, но для каждой темы берётся свой интервал на отрезке [0..1]
-0.000832706989751FI_PAGE_REGION_REL_COVERAGE
-0.000833437078930FI_GOOD_RATIOКакая доля ссылок “хорошая”
-0.000843495929565FI_GEO_GEOMETRY_PROXIMГеографическая близость пользователя и сайта
-0.001158034315755FI_URL_LENДлина URL'а, делённая на 5
-0.001209700633070FI_COUNTRY_Q_DIVERSITY2Географическая распределенность запроса внутри страны
-0.001250755074786FI_ADV_PRONOUNS_PORTIONдоля местоименных существительных
-0.001564275785704FI_LINK_QUALITYКачество входящих ссылок (классификатор Лещинера) - сломан, см [405]
-0.002170850269151FI_TRIGRAMS_PROBЛогарифм среднего геометрического вероятностей триграмм в тексте. (вероятность триграммы - число ее встречаний в тексте, деленное на число всех триграмм) , отображается в [0,1] по формуле -x(x+A)
-0.003021983245146FI_TRLR_QUORUM_LEMMAВес слов запроса, которые есть в тексте с точностью до леммы
-0.005028751679547FI_TOCMФактор оценивает отличия позиций слов в заголовке от позий слов в запросе
-0.005085205304656FI_QCLASS_OAOорганизация
-0.005976754416269FI_ADJ_PRONOUNS_PORTIONдоля местоименных прилагательных
-0.006679400217070FI_TEXT_PAIR_EXналичие пар слов по точной форме
-0.006950709230428FI_PAGE_REGION_INV_SIZE_INФактор обратно пропорционален размеру региона страницы
-0.007634608393132FI_YABAR_HOST_AVG_TIMEсреднее по пользователям активное непрерывное время нахождения пользователя (в сек) на страницах хоста
-0.008656938143421FI_TEXT_FORMSНевзвешенная сумма числа форм - сумма по всем словам запроса числа_форм_для_слова/64/число_слов_запроса
-0.010850511133080FI_SECOND_INDEG_DISTR_XIОдиннадцать факторов основанных на статистических свойствах распределений входящих степеней вершин, ссылающихся на фиксированную вершину хостграфа.
-0.011207582653854FI_NUM_NON_LETTERS_IN_URLКоличество 'небукв' в урле
-0.011221458184058FI_LR_WITHOUT_RAREлинковая релевантность без учета редких слов
-0.011296769865650FI_OWNER_SDIFF_CSRATIO_ENTROPYЭнтропия - распределение отношения клики/показы
-0.011681967583253FI_SEGMENT_AUX_SPACES_IN_TEXTКоличество пробелов в сегменте Aux
-0.012429221647235FI_PARTICLES_PORTIONдоля частиц
-0.012919083353605FI_TEXT_HEAD_SYNналичие слов в заголовке c учетом синонимов
-0.013510450334814FI_MORNING_QUERYЗапрос задают преимущественно утром
-0.015212586791057FI_TEXT_MAX_FORMSМаксимальное число форм по всем словам запроса - max по всем словам запроса числа_форм_для_слова/64
-0.016033504310566FI_TEXT_FEATURESКачество текста. Считается по довольно сложной формуле
-0.016932610010322FI_TEXT_PAIR_W1Простой BM25 по парам слов - берем все пары слов запроса и считаем число их вхождений в текст документа. Вес =1. Комм Не работает, если в запросе есть стоп-слово
-0.017928063556114FI_OWNER_SDIFF_CLICK_ENTROPYЭнтропия - распределение кликов
-0.018278527670779FI_QUERY_ISORGВ запросе название организации (пример: Газпром, газпрома).
-0.020210221137273FI_PERCENT_FREQ_WORDSПроцент числа слов, являющихся 200 самыми частыми словами языка, от числа всех слов текста
-0.020628033510418FI_URL_QUERY_VARIETY_REGСтепень разнообразия запросов, по которым кликают данный урла, cчитается по регионам
-0.020921642736537FI_TEXT_PAIRПростой BM25 по парам слов - берем все пары слов запроса и считаем число их вхождений в текст документа. В качества веса пары используем сумму весов слов. Комм Не работает, если в запросе есть стоп-слово
-0.022152880819573FI_TEXT_PAIR_SYNналичие пар слов c учетом синонимов (>=TxtPair)
-0.023916010788926FI_OWNER_SDIFF_CSRATIO_ENTROPY_REGЭнтропия - распределение отношения клики/показы. Регионализованный
-0.025355498987515FI_QDOWNER_STAT_POWERКоличество показов owner'а по запросу, нормировка x/(100 + x).
-0.027287688639737FI_QUERY_ISGEOCпускает на базовые поиски под именем isgeo максимальный вес встреченного геообъекта в запросе. Под геообъектом понимается объект категории Geo, Geo1, GeoAddr, GeoAddr1, LandMark, LandMark1.
-0.028595315195293FI_SEO_IN_PAY_LINKSКоличество входящих сео-треш ссылок между хостами
-0.028608739038830FI_RINGS_HOST_RANK_BADNESS_3Дополнительные факторы про раскрученность сайта линковыми кольцами.
-0.030877746812643FI_PAGE_REGION_SIZEРазмер региона страницы
-0.032004809610482FI_HOST_SIZEРазмер хоста имени Расковалова в документах без учета дублей (каждый дубль учитывается в факторе самостоятельным документом)
-0.032269052994315FI_PLMФактор про то, наскоько хороший сниппет может получиться.
-0.032828345615772FI_PERCENT_VISIBLE_CONTENTПроцент числа слов вне тегов (вне скобок <>) от числа всех слов
-0.034716206980983FI_PAGE_DATEДата документа которая прописана на странице, ремапится квадратным корнем
-0.036381245328354FI_RINGS_HOST_RANK_BADNESS_1Дополнительные факторы про раскрученность сайта линковыми кольцами.
-0.036532955371613FI_RINGS_HOST_RANK_BADNESS_OLDХарактеризует раскрученность сайта линковыми кольцами. Значение - доля внешних ссылок, которые входят в линковые кольца и линкообменники.
-0.037878046829073FI_TEXT_HEADBM25 по словам только в заголовке.
-0.039215257302626FI_TEXT_HI_RELEV_SYNBM25 c учетом синонимов
-0.039575532416190FI_TEXT_HEAD_EXналичие слов в заголовке по точной форме
-0.044940112806396FI_YMW_FULLРазмер минимального куска текста, включающего все встречающиеся в документе слова запроса. Сейчас не используется.
-0.044940112806396FI_YMW_FULL2Исправленный YmwFull. Отличается от предыдущей версии только поведением на 2хсловных запросах.
-0.044963560309064FI_NEVASCA2Не используется Дуплицированность контента. 'Плохость' хоста (от 0 до 1) – пропорциональна числу вторичного контента на хосте.'Плохость' хоста (от 0 до 1) – пропорциональна числу вторичного контента на хосте.
-0.045942748393758FI_HOST_RELIABILITYдоля урлов, которые отвечают без ошибок
-0.046030869083841FI_YABAR_URL_LCACЧисло сессий в которых урл являлся последним, отнесенное к числу сессий в которых урл появлялся
-0.053739168786067FI_QUERY_WORD_COHESION_TRФактор оценивает как слова запроса группируются друг с другом в тексте документа без учета их порядка.
-0.057014032623374FI_COUNTERS_SEARCH_TRAFFIC2Поисковый трафик - переходы с поисковых систем на сайт (2-ая формула)
-0.057628362537565FI_QSEGMENTS_WEIGHTВес' сегментов запроса в тексте
-0.057658302748215FI_METRIKA_URL_CORE_AUDIENCEЯдро аудитории страниц на которых есть счетчик Метрики
-0.059299975637935FI_QSEGMENTS_BM25BM25, где в качестве 'слов' выступают выделенные сегменты запроса
-0.059871381556405FI_QUERY_MAXONEВозвращает под именем wmaxone максимальную степень нарицательности встреченных объектов в запросе.
-0.060922780495065FI_LINKS_WITH_WORDS_PERCENTПроцент входящих ссылок со словами запроса
-0.062810308974889FI_TRLR_QUORUM_FMВес слов запроса, которые есть в тексте в точной форме
-0.063761467432684FI_PAGE_REGION_COVERAGE
-0.063976585802142FI_PERCENT_USED_FREQ_WORDSЧисло использованных в тексте 500 самых популярных слов языка, деленное на 500
-0.065082391728977FI_LR_MAX_DPRМаксимальный dpr ссылки
-0.065128132003719FI_DOC_LENДлина документа в предложениях
-0.066463228806236FI_IS_COMMдокумент из коммерческой-кишки. Не используется (deprecated)
-0.067337343351376FI_LARGEST_SY_INEXACT_GROUPДоля запроса, покрываемая самой длинной группой, состоящей из любых хитов (в т.ч. словоформ и синонимов). Возможно, с пропуском, добавлением или заменой слова
-0.068235863277027FI_HEADING_IDF_SUM_FIXEDПредыдущие факторы - исправленные
-0.069803680024687FI_RELEV_GEO_LINKS_PERCENT
-0.070483297609751FI_LOCMПорядок слов в ссылках.
-0.070483297609751FI_SYNSET_LOCM
-0.076334972364641FI_TITLE_IN_LINKS_TRIGRAMSДоля уникальных триграмм заголовка в триграммах ссылок
-0.077504878926916FI_TEXT_SKIP_PAIRTR по парам слов запроса через одно слово в текстах
-0.083831128507580FI_LINKS_WITH_ALL_WORDS_PERCENTПроцент входящих ссылок со всеми словами запроса
-0.084798680877042FI_LONGДлинный документ (чем длиннее документ, тем больше значение фактора).
-0.086731079136512FI_NUM_LATIN_LETTERSчисло латинских букв в тексте (не считая разметки), загнанное в [0,1] формулой n/(n+100)
-0.091993052812036FI_QUERY_CITYПри ответе на запрос важны результаты внутри города (основная масса локализуемых запросов)
-0.094096848692163FI_TEXT_LIKEКачество текста (классификатор Алексеева)
-0.094261219650513FI_YANDEX_ADVНа сайте есть реклама Яндекса.
-0.096496414873675FI_QUERY_REF_TRIGRAM_R
-0.097277529611975FI_AURA_DOC_LOG_AUTHORЛогарифм числа шинглов, на которых данный владелец документа признан автором
-0.097686304848915FI_AURA_DOC_LOG_SHAREDЛогарифм числа шинглов, на которых данный документ не уникален
-0.109820338929289FI_TEXT_RELEV_PHRASEПриоритет phrase для TR - текстовый приоритет - есть все слова запроса подряд в документе.
-0.110593487056685FI_AURA_DOC_MEAN_SHARED_WEIGHTСредний вес не-уникальных шинглов данного документа
-0.116819481337211FI_TEXT_BRAEK_SYNколичество предложений, в которых встречается много слов c учетом синонимов
-0.118606351159510FI_QUERY_WORD_SEQUENCES_TRСчитает сумму вхождений следующего вида: последовательность слов запроса длиной больше двух, встретившихся в одном предложении; нормировано на длину документа.
-0.118870879105496FI_QUERY_DOWNER_ENOUGH_CLICKEDКоличество кликов по владельцу и количество кликов по запросу больше 5
-0.123814718900663FI_ESHOP_VALUEМагазинность страницы
-0.133931985443449FI_CLASSIF_IS_SHOPСтраница — магазин. Не используется (deprecated)
-0.141668202468497FI_PCT_LINKSДля документов с высокой LR - нормированная линковая релевантность без учета близости, для документов с низкой LR 0
-0.160285061981584FI_OWNER_SDIFF_CLICK_ENTROPY_REGЭнтропия - распределение кликов. Регионализованный
-0.162220616846705FI_URL_PATH_AND_PARAMS_FRACTIONТо же, что и предыдущий фактор, но про весь урл кроме домена
-0.168645758020604FI_GEO_CITY_URL_REGION_COUNTRYСовпадение географии, определённой из урла документа и страны запроса (ip или lr). Актуально для России и Украины.
-0.180963639077109FI_COMM_LINKS_SEO_HOSTSДоля входящих продажных ссылок. Реализован алгоритм распознавания коммерческих ссылок. Фактор ремапится на [0,1] если доля таких ссылок > 50%, иначе 0.
-0.194376876842978FI_QURL_STAT_POWERКоличество показов url'а по запросу, нормировка x/(100 + x).
-0.207437366708906FI_DATER_AGEРазница между текущей датой и датой документа, определённой датировщиком, 1 - дата документа равна текущей, 0 - документу 10 лет или более, Если дата не определена, равен 0. Внимание!((1 - DaterAge)*60)^2 = возраст страницы в днях.
-0.250928463672112FI_ADVНа сайте есть реклама.

Author

Владислав Политай

SEO с 2012 года. На данный момент занимаюсь клиентским SEO и популяризацией науки seo в массы через мой блог.

Leave a comment

Ваш адрес email не будет опубликован. Обязательные поля помечены *