
26 января произошла утечка исходного кода Яндекса. Самая интересная часть для SEO: список всех 21 488 факторов ранжирования, используемых в алгоритме поиска.
Мы собрали самое интересное, необычное и местами шокирующе.
Структура для каждого фактора: - название - ссылка на внутреннюю вики - AntiSeoUpperBound (ха-ха) - описание - и т.д Забавно, что первый фактор в списке - PageRank.

За AntiSeoUpperBound, кто не понял - сейчас объясню. Это пороговые значения, при которых любое вычисленное значение, превышающее это значение, указывает системе на то, что эта функция страницы чрезмерно оптимизирована.
1. Возраст ссылок является фактором ранжирования.

2. Трафик и % органического трафика являются факторами ранжирования. Это означает, что PPC влияет на ранжирование.

3. Цифры в URL-адресах плохо влияют на ранжирование.

4. Много косых черт в URL-адресах плохо влияет на ранжирование.

5. Жесткая пессимизация равна PR=0.

6. Надежность хоста является фактором ранжирования. Чем меньше ошибок, тем лучше для вашего органического трафика.

7. Забавный факт: есть отдельный фактор ранжирования для поднятия Википедии в выдаче.

8. Множество факторов ранжирования, связанных с поведением пользователя - CTR, время на сайте, показатель отказов.

9. Возраст документа и последнее обновление являются факторами ранжирования.

10. Средняя позиция домена по всем запросам является фактором ранжирования.

11. Глубина сканирования является фактором ранжирования. Держите важные страницы ближе к главной странице.

12. Дополнительно: фактор ранжирования для страниц-сирот. Вы можете легко найти их с помощью статьи - https://politay.pro/kak-nayti-stranitsy-siroty/.

13. Бэклинки с главных страниц важнее, чем с внутренних страниц.

14. Количество поисковых запросов вашего сайта / URL-адреса является фактором ранжирования. Понятно, что больше = лучше.

15. Трафик из Википедии является фактором ранжирования.

16. Если ваш url будет последним для поисковой сессии (пользователь найдет то, что ему нужно) - это повлияет на ранжирование.

17. Фактор ранжирования закладок. Чем больше пользователей добавляют в закладки URL-адрес, тем больше значение фактора он имеет.

18. Специальные факторы ранжирования для коротких видео (тикток, шорты, ролики).

19. Maps js-api на странице (например, Google Maps) — это фактор ранжирования.

20. Ключевые слова в URL — это факторы ранжирования. Как видно из описания - оптимальным будет включение до 3-х слов из поискового запроса.

21. Вернувшиеся пользователи — фактор ранжирования. Создавайте страницы с хорошим удержанием, и это пойдет на пользу вашему SEO.

22. Процент ЗАГЛАВНЫХ БУКВ в title является фактором ранжирования.

23. Процент прямого трафика является фактором ранжирования. Если весь ваш трафик пришел из органического поиска — это подозрительно + плохо для ранжирования.



26. Рейтинг качества текстов на домене является фактором ранжирования. Страницы с некачественным контентом влияют на весь домен.


28. Забавно, есть рандом как отдельный фактор ранжирования. Когда вы не понимаете, почему какая-то страница находится сверху - это может быть просто случайно (для проверки поведенческих факторов).

29. JS из Google Analytics — фактор ранжирования. Предсказуемо. Хорошие сайты чаще используют GA, чем плохие.


31. Ключевое слово в домене как фактор ранжирования.

Думал на этом закончить, но я нашел золото - начальные коэффициенты факторов ранжирования. Нет не так.
Начальные коэффициенты факторов ранжирования Яндекс
Конечно они могут быть скорректированы на уровне MatrixNet (алгоритм машинного обучения), но все же это проливает свет на многие вещи.

Быстро пройдемся по топ-5 факторов ранжирования с наибольшим положительным и отрицательным весом в расчете релевантности страницы или сайта.
Отрицательный вес
1. FI_ADV: -0.2509284637 - этот фактор определяет наличие рекламы на сайте.
2. FI_DATER_AGE: -0.2074373667 - разница между текущей датой и датой документа, определённой датировщиком, 1 - дата документа равна текущей, 0 - документу 10 лет или более, Если дата не определена, равен 0.
3. FI_QURL_STAT_POWER: -0.1943768768 - количество показов URL-адреса по запросу.
4. FI_COMM_LINKS_SEO_HOSTS: -0.1809636391 - доля входящих продажных ссылок. Реализован алгоритм распознавания коммерческих ссылок. Фактор ремапится на [0,1] если доля таких ссылок > 50%, иначе 0.
5. FI_GEO_CITY_URL_REGION_COUNTRY: -0,168645758 - совпадение географии, определённой из урла документа и страны запроса (ip или lr). Актуально для России и Украины.
Положительный вес
1. FI_URL_DOMAIN_FRACTION: +0.5640952971 - покрытие домена трехбуквиями из запроса. (Челябинская лотерея - chelloto. Переводим запрос в транслит, находим трехбуквия которые покрываются (che, hel, lot, olo), смотрим какую долю от всех трехбуквиев покрыли).
2. FI_QUERY_DOWNER_CLICKS_COMBO: +0.3690780393 - фактор, хитрым образом скомбинированный из FRC и псевдо-CTR. Что такое FRC я понятия не имею.
3. FI_MAX_WORD_HOST_CLICKS: +0,3451158835 - кликабельность domAttr по максимальномо выраженному слову. Например для всех запросов в которых есть слово википедия кликают на странцы википедии.
4. FI_MAX_WORD_HOST_YABAR: +0.3154394573 - наиболее характерное слово запроса, соответствующее сайту, по данным бара. Тоже не до конца понимаю.
5. FI_IS_COM: +0.2762504972 - документ из коммерческой-кишки. Не используется (deprecated).
Дальше еще несколько интересных фактов.
FI_PAGE_RANK: +0,1828678331 - PageRank — 17-й по значимости фактор в Яндексе.
FI_SPAM_KARMA: +0,00842682963 - Спам карма имени антиспамеров - вероятность того, что хост – спам; основан на информации whois.
FI_SUBQUERY_THEME_MATCH_A: +0,1786465163 - насколько тесно тематически совпадают запрос и документ.
FI_URL_LINK_PERCENT: +0,08940421124 - отношение числа входящих ссылок, текст которых является URL, к числу всех входящих ссылок.
FI_PAGE_RANK_UKR: +0.08712279101 - отдельный украинский PageRank.
FI_IS_NOT_RU: +0.08128946612 - домен не в зоне .ru. Даже своим не верят 🙂
FI_ADV_PRONOUNS_PORTION: -0,001250755075 - доля местоименных существительных.
FI_PERCENT_FREQ_WORDS: -0.02021022114 - процент числа слов, являющихся 200 самыми частыми словами языка, от числа всех слов текста.
FI_YANDEX_ADV: -0.09426121965 - на странице есть реклама Яндекса. Помним, что обычная реклама это FI_ADV: -0.2509284637.
FI_CLASSIF_IS_SHOP: -0.1339319854 - судя по всему, Яндекс будет меньше любить вас, если ваша страница будет магазином.
Дальше все вместе, что можно найти в файле коэффициентов факторов ранжирования Яндекс:
Коэффициент | Название Фактора | Описание Фактора |
---|---|---|
0.564095297143887 | FI_URL_DOMAIN_FRACTION | Покрытие домена трехбуквиями из запроса. (Челябинская лотерея - chelloto. Переводим запрос в транслит, находим трехбуквия которые покрываются (che, hel, lot, olo), смотрим какую долю от всех трехбуквиев покрыли ) |
0.369078039338024 | FI_QUERY_DOWNER_CLICKS_COMBO | фактор, хитрым образом скомбинированный из FRC и псевдо-CTR |
0.345115883490577 | FI_MAX_WORD_HOST_CLICKS | Кликабельность domAttr по максимальномо выраженному слову. Например для всех запросов в которых есть слово википедия кликают на странцы википедии. |
0.315439457304752 | FI_MAX_WORD_HOST_YABAR | Наиболее характерное слово запроса, соответствующее сайту, по данным бара |
0.276250497243267 | FI_IS_COM | Домен в зоне .com |
0.254915495706702 | FI_OQ_BCLM_PLAIN | BCLM по запросному индексу для владельцев |
0.231000481757815 | FI_OWNER_CLICKS_PCTR | Кликабельность владельца независимо от запроса |
0.230257144838931 | FI_MAX_WORD_HOST_RANK | Хост ранк по максимально выраженному слову запроса (обычно это название сайта) |
0.219595036178226 | FI_QUERY_DOWNER_CLICKS_PCTR | Насколько часто кликают в URLы данного domainId по данному запросу - CTR domainId домноженный на поправочный коэффициент |
0.214713693660762 | FI_QUERY_DOWNER_CLICKS_FRC | отношение числа кликов по данному domainId ко всем кликам по запросу |
0.209866937086235 | FI_DOM_PHRASE_CLICK_RANK_BI | Кликабельность домена по биграммам (без учёта тезаурусных расширений запросов) |
0.209508533629415 | FI_OWNER_REQS_POPULARITY | Популярность owner'а в запросах |
0.205699196177282 | FI_HAS_NO_QUERY_SHOWS | Для данного запроса нет информации о кликабельности 1 - запроса нет в базе кликов, 0 - запрос есть в базе кликов. |
0.205184905115480 | FI_DOM_PHRASE_YABAR_BI | Переходы на сайт из поисковиков по биграммам, по данным Бара (без учёта тезаурусных расширений запросов) |
0.202186193546053 | FI_QUERY_DOWNER_WEIGHT_CLICK | w/k |
0.189743110446303 | FI_OWNER_NAV_QUOTA | Доля кликов по навигационным запросам |
0.185032224423923 | FI_QUERY_DOWNER_ONLY_CLICK_RATE | o/i |
0.182867833093047 | FI_PAGE_RANK | Page rank. Фактор ремапится. |
0.179216994410993 | FI_QUERY_DOWNER_ONLY_CLICK_RATE_REG | o/i |
0.178646516342524 | FI_SUBQUERY_THEME_MATCH_A | Совпадение тематических спектров запроса и документа. Тематика запроса - результат работы. Тематика документа определяется автоматическим классификатором |
0.166327421401765 | FI_OWNER_CLICKS_PCTR_REG | Кликабельность владельца независимо от запроса, отдельно по регионам |
0.165031403865939 | FI_HAS_DETERMINED_CITIES | Для сайта определен город |
0.160420713540373 | FI_QUERY_DOWNER_CLICKS_COMBO_REG | Query DOwner Clicks Combo, по мелким регионам из relev_regions.web.txt |
0.160379344658431 | FI_HAS_NO_QUERY_DOWNER_SHOWS | Для данного domainId для данного запроса нет информации о кликабельности 1 - запроса или запроса-владельца нет в базе кликов, 0 - запрос-владелец есть в базе кликов |
0.156712439907419 | FI_REG_HOST_RANK | Cчитается так же, как и фактор HostRank, но не на всём owner-графе, а на его подграфе, состоящем из owner'ов данного региона. Принадлежность к региону определяется по TLD, либо по наличию в индексе страниц с данного owner'а, про которые geo или geoa классификатор говорит, что они из этого региона. Маппируется точно так же, как и фактор HostRank, в число от 0 до 1 с 256 градациями |
0.152953808712409 | FI_QUERY_DOWNER_WS_MAX_WHR_AND_ONLY_CLICK_RATE | Сумма факторов 192 и 341 с весами 0.298942 и 0.454625 соответственно. |
0.148292222594522 | FI_QUERY_DOWNER_SATISFIED4_RATE | r_s4b/(r_k + 10) |
0.147136648195774 | FI_QUERY_DOWNER_YABAR_VISITS | |
0.129668929638366 | FI_OQ_BM25_LEM | Bm25 по запросному индексу для domAttr |
0.129641401501547 | FI_FIRST_WORD_HOST_CLICKS | Кликабельность хоста по первому слову запроса. Достаточно часто первое (последнее) слово запроса - явное указание сайта, на котором следует искать информацию. |
0.127979729953137 | FI_YABAR_HOST_AVG_ACTIONS | среднее по пользователям число активных действий (клики, нажатия клавиш) при непрерывном нахождении пользователя (в сек) на страницах хоста. |
0.126700168643196 | FI_OWNER_SESS_NORM_DUR | nd/k нормированное время до клика |
0.125675707803009 | FI_OQ_BM25_STR | Bm25 по запросному индексу для domAttr |
0.122090633457258 | FI_QUERY_DOWNER_YABAR_AVG_TIME | среднее по пользователям активное непрерывное время нахождения пользователя (в сек) на страницах хоста после перехода по запросу из поисковой системы (фактор зависит от пары (запрос,domAttr)). |
0.119512833156651 | FI_QUERY_DOWNER_YABAR_VISITORS | |
0.118638180985299 | FI_QUERY_DOWNER_CLICKS_FRC_REG | отношение числа кликов по данному domainId ко всем кликам по запросу, по мелким регионам из relev_regions.web.txt |
0.115262514353577 | FI_QUERY_DOWNER_WEIGHT_CLICK_REG | w/k |
0.114624515228977 | FI_MATRIXNET | Ко всем факторам применяется MatrixNet - формула (TG_UNUSED - чтобы предотвратить вхождние в какие-либо формулы) |
0.113671587879567 | FI_QUERY_MINONE | Возвращает под именем wminone максимальную степень нарицательности встреченных объектов в запросе. |
0.112928770384249 | FI_TITLE_TRIGRAMS_Q | Вычисляет покрытие запроса буквенными триграммами заголовка документа |
0.112334631253023 | FI_OQ_BM25_SYN | Bm25 по запросному индексу для domAttr |
0.105135837056982 | FI_OQ_BCLM_WEIGHTED | BCLM по запросному индексу для domAttr |
0.103903118421863 | FI_QUERY_COMMERCIALITY_MX | Мера 'коммерческости' запроса. Является комплексно рассчитываемым фактором MatrixNet формулой по словарю закупок в директе + по логам пользовательских запросов + доп. интентные словари. Запросы с интентом купить фактор стремится в ->1 товарные запросы ->0.6 с интентом не купить, обзоры и тп -> 0 |
0.102548297661617 | FI_OWNER_SATISFIED4_RATE | Это SEA фактор = s4_r/ (k_r+10) где s4_r - число кликов > 180 сек, k_r - общее число кликов. Считается с учётом переформулировок. |
0.097713692186877 | FI_SHOP | Это магазин предложение (определяется по характерным паттернам в url`е). Не используется (deprecated) |
0.097073501164592 | FI_IS_HUB | Хабовость страницы |
0.096811143316269 | FI_LINK_WEIGHTED_FORMS | Взвешенная по весам слов сумма числа форм |
0.096447224363928 | FI_DIFFERENT_INTERNAL_LINKS | Количество различных внутренних ссылок на страницу |
0.094045741102708 | FI_NUM_LINKS_FROM_SEGMENT_CONTENT | |
0.093045433292429 | FI_MPSA | Оценивает минимальное расстояние между парами слов запроса с учетом удаленности пары от начала документа (Minimal Pair Size with Attenuation). Под парами понимаются все последовательные биграммы слов запроса. Таким образом, количество пар равно количеству слов в запросе, уменьшенному на 1. Соответственно, фактор имеет смысл для запросов, состоящих более чем из одного слова. |
0.089404211238337 | FI_URL_LINK_PERCENT | Отношение числа входящих ссылок, текст которых является URL, к числу всех входящих ссылок |
0.087850313290757 | FI_QUERY_DOWNER_WS_FRC_AND_BM25F_DPR_FIXED | Сумма факторов QueryDOwnerClicksFRC и BM25FdPRFixed с весами 0.358449 и 0.184922 соответственно. '565' в названии фактора не надо воспринимать буквально, это легаси либо опечатка. |
0.087122791007993 | FI_PAGE_RANK_UKR | Украинский Page rank |
0.085929172196314 | FI_YABAR_HOST_VISITORS | кол-во уникальных посетителей, ремапится экспоненциально |
0.085276276270387 | FI_DOM_PHRASE_YABAR | Переходы на сайт из поисковиков по отдельным словам, по данным бара |
0.084699401575226 | FI_GEO_RELEV_ALIEN_CITY | Результат имеет геопривязку, не совпадающую с географией пользователя на уровне города ([415]==1 && [215]==0) |
0.084012276385059 | FI_GEO_RELEV_REGION_COUNTRY | Три уровня совпадения географии пользователя и страницы |
0.082967074248567 | FI_GEO_REGION_PROXIM | |
0.081289466115302 | FI_IS_NOT_RU | Домен не в зоне .ru |
0.080331864046170 | FI_SYN_FL_REMAP2 | Показывают насколько текст является неестественным с точки зрения русского языка. Оценка того, насколько можно считать текст документа сгенерированным синонимайзером либо вообще автоматическим. |
0.078872214489662 | FI_LINK_BREAK | Аналоги соответствующих текстовых факторов для линков. BM25 от количества ссылок, в которых произошло совпадение. |
0.077454131996933 | FI_QUERY_DOWNER_CLICK_SUMMARY | подобранная формула |
0.076343383792772 | FI_DOM_PHRASE_CLICK_RANK | Кликабельность домена по словам |
0.075434934641649 | FI_TEXT_BM25_ATTEN_SYN | TR с дисконтом за номер предложения |
0.074172193125966 | FI_YABAR_HOST_AVG_TIME2 | среднее по пользователям активное непрерывное время нахождения пользователя (в сек) на страницах хоста. По внутр счетчику Яндекс.Бара/Элементов/Браузера |
0.071481760992750 | FI_QUERY_DOWNER_SATISFIED4_RATE_REG | r_s4b/(r_k + 10) |
0.071417326810502 | FI_YABAR_HOST_INTERNAL_TRAFFIC | доля заходов на сайт не по ссылкам (набор руками или с закладок) |
0.071242787451280 | FI_PAGE_RANK_BONUS | Priority bonus, приоритет 7 - текстовый приоритет. Фактор бинарный, имеет значение 0 для всех однословных запросов, и значение 1 практически для всех двух и более словных, кроме очень маленького количества ответов, для которых нет ни одной ссылки, прошедшей кворум, и текст тоже не прошел кворум. |
0.070074395872424 | FI_TITLE_IDF_SUM | Idf по различным частям документа, сломаны, не используются |
0.069696682544392 | FI_LONGEST_TEXT | Размер самого большого текстового сегмента страницы (из фактора [18] PureText) |
0.069268621800152 | FI_EXPECTED_FOUND | Ожидаемое количество найденного по запросу |
0.067151098341326 | FI_YABAR_URL_VISITS | Посещаемость урла по данным я-бара |
0.066890922161289 | FI_URL_BM25 | BM25 по URL'у |
0.064310714968383 | FI_URL_TRIGRAMS | Модель с обучением каждой триграммы на '+' и '-' урлах. Не зависит от запроса. |
0.062753581782970 | FI_LAST_WORD_HOST_CLICKS | Кликабельность хоста по последнему слову запроса (без учёта тезаурусных расширений запросов) |
0.062474190501436 | FI_NON_COMM_NORM_LR_LOG_RELEV | XNonCommLRlogRelev (нормированное на сумму NonComm-весов всех ссылок, а не на сумму их исходных весов) |
0.061675217167197 | FI_SOWNER_MAX_SUM_SOURCE_RANK | Сумма максимальных значений SourceRank'ов для каждой входящей ссылки с учётом уникальности владельца. |
0.061031422056552 | FI_HEADING_IDF_SUM | Idf по различным частям документа, сломаны, не используются |
0.060594485044371 | FI_LERF_LR_LOG_RELEV | Линковая релевантность с учетом качества каждой ссылки |
0.059222635368125 | FI_BF_LEMMA_ALL | Варианты соответствующих факторов с учетом стоп слов |
0.058870258158539 | FI_BM25F_DPR_FIXED | BM25FdPR с нормировкой на среднюю длину документа, зависящую от языка документа. |
0.058415162135787 | FI_LONG_QUERY_SYN | Фактор -- аналог LongQuery (сумма idf слов запроса), но с 'корректным' учетом синонимов. Конкретно -- выбирается минимум по idf (т.е. самое частое) из синонимов и слова. |
0.057053549836014 | FI_PERCENT_WORDS_IN_LINKS | Процент числа слов внутри тега .. от числа всех слов |
0.056552232052119 | FI_PAGE_REGION_SIZE_IN | Размер региона страницы |
0.055767877134775 | FI_TLP1_ALL | Варианты соответствующих факторов с учетом стоп слов |
0.055185094441888 | FI_URL_NGRAMS_MODEL | Фактор ранжирования UrlNGramsModel в erf |
0.054926147793071 | FI_QUERY_REF_TRIGRAM_Q | |
0.054680076158058 | FI_QUERY_DOWNER_CLICK_SUMMARY_REG | подобранная формула |
0.054576897612176 | FI_LANGUAGE_COMPLIANCE | Язык документа соответствует языку запроса |
0.054156294329288 | FI_BM25F_DPR_OBSOLETE | BM25 с разными параметрами для разных полей, включая входящий анкортекст. Веса текста входящих на страницу ссылок нормируются в зависимости от delta page rank ссылки |
0.051465613603836 | FI_GEO_CITY_PROXIM | Означает совпадение региона, упомянутого в запросе и найденных сайтов на уровне областей. Фактор бинарный: 1-совпадает, 0-нет. |
0.051057813309267 | FI_YABAR_URL_VISITORS | Количество уникальных посетителей урла |
0.050576094170344 | FI_NUM_SLASHES | Число слешей в урле |
0.049845924868959 | FI_SR | Сложносоставной static rank, собирается из статических компонентов по отдельной формуле. |
0.049061648412321 | FI_LINK_RELEV | Линковая релевантность. Фактор ремапится. |
0.047914113074106 | FI_QUERY_DOWNER_CLICKS_PCTR_REG | Насколько часто кликают в URLы данного domainId по данному запросу - CTR domainId домноженный на поправочный коэффициент, по мелким регионам из relev_regions.web.txt |
0.047164043400143 | FI_TITLE_IDF_SUM_FIXED | Предыдущие факторы - исправленные |
0.046891090311905 | FI_LINK_PAIR_SYN | Наличие в ссылках пар слов c учетом синонимов |
0.046783126435468 | FI_Q_DIVERSITY | Степень централизации точек, из которой задается запрос |
0.046757967567051 | FI_DBM35 | BM25 по текстам и линкам со спец. весами по уровню совпадения (форма, лемма, синоним) |
0.044511155721215 | FI_LERF_GEO_LR_LOG_RELEV | log(LerfLR, суженной на страну пользователя) |
0.042452794899003 | FI_LR_GEO_RELEV_REGION_COUNTRY | Три уровня совпадения региона ссылок и запроса |
0.038806477920761 | FI_PASSAGE_LEGACY_TR | TR лучшего пассажа - насколько качественный сниппет может получиться |
0.038372460585705 | FI_LCOR | Характеризует частоту слов в ссылках. Фактор большой, если слово, сыгравшее в линковой релевантности, редкое для ссылок. |
0.038263040612831 | FI_STATIC_TITLE_LR_BM25 | BM25 заголовка страницы по текстам ссылок на неё |
0.037180373854650 | FI_COUNTRY_Q_DIVERSITY | Степень централизации точек, из которой задается запрос (внутри страны) |
0.035447186193336 | FI_LINK_BREAK_SYN | Количество ссылок, прошедших порог |
0.033485833700259 | FI_HIT_NUM_100 | Преобразованное количество слов запроса во всех линках url`а. |
0.032525279432611 | FI_OWNER_SDIFF_SHOW_ENTROPY | Энтропия - распределение показов |
0.031399776481102 | FI_TLBM25 | Простой BM25 по тексту и линкам одновременно. |
0.031186243849340 | FI_WORDS_IN_TITLE | Число слов русского языка в заголовке |
0.030786458206337 | FI_BCLM | Фактор имени Buettcher, Clarke и Lushman (модифицированный). |
0.030334786608805 | FI_LONG_QUERY | Сумма idf слов запроса. Название не отражает суть: например, для запроса 'Гадяч' этот фактор будет больше, чем для запроса 'Москва Питер Екатеринбург Самара'. |
0.027302374355601 | FI_YA_BAR | Посещаемость из Бара. Фактор ремапится. |
0.026926509552263 | FI_LOG_LR | Логарифм от LR, линейно отображенный в [0,1]. |
0.026650508120317 | FI_TRIGRAMS_COND_PROB | Логарифм среднего геометрического условных вероятностей триграмм. условная вероятность триграммы - ее вероятность, деленная на вероятность биграммы из первых двух слов |
0.025806639721603 | FI_URL_SESS_NORM_DUR_RATE | nd/i |
0.025691573951246 | FI_IDF_VARIANCE | Дисперсия IDF слов запроса при условии наличия текстовых хитов в документе (смешанный запросно-текстовый фактор) |
0.025328925792111 | FI_URL_SESS_NORM_DUR_RATE_REG | nd/i |
0.024263431712643 | FI_COUNTERS_SEARCH_TRAFFIC1 | Поисковый трафик - переходы с поисковых систем на сайт (2-ая формула) |
0.024006117828321 | FI_TEXT_BREAK_EX | количество предложений, в которых встречается много слов по точной форме |
0.023610887210981 | FI_QUERY_URL_CLICKS_FRC_REG | отношение числа кликов по данному урлу ко всем кликам по запросу, по мелким регионам из relev_regions.web.txt |
0.022803839020796 | FI_TEXT_WEIGHTED_FORMS | Взвешенная по весам слов сумма числа форм - сумма по всем словам запроса числа_форм_для_слова/64*вес_слова; remap вида x/(1 + x). |
0.021178675054476 | FI_NEW_LINK_QUALITY | Классификатор качества входящих ссылок 2 - сломан, см [407] |
0.021178675054476 | FI_NEW_LINK_QUALITY_FIXED | Классификатор качества входящих ссылок 2 исправленный |
0.019988663575500 | FI_CATALOG_RELEV | LR по каталожным описаниям |
0.019740981979634 | FI_SWBM25 | Хитрый BM25 в скользящем окне. Размер окна задается в предложениях. Используются «джокеры» для заголовков и начала документа. Учитывается морфологическая близость и структура текста. Вес окна затухает с удалением от начала документа. |
0.019580616053835 | FI_MEAN_WORD_LENGTH | Средняя длина слова |
0.019301158836494 | FI_LINKS_IN_TITLE_TRIGRAMS | Доля уникальных триграмм ссылок в триграммах заголовка |
0.019119257307239 | FI_LINK_RELEV_PHRASE | (phrase) есть все слова запроса подряд в одном линке. |
0.017641843798363 | FI_QSEGMENTS_BREAKS | Сегменты запроса - это части запроса, которые сами по себе являются частотными запросами. Фактор показывает, насколько сегменты бьются в тексте. значение 0 - все слова встречаются только в рамках обозначенных сегментов, 1 -- все вхождения разбивают сегменты |
0.016179974819787 | FI_STATIC_TITLE_BM25_EX | BM25 заголовка страницы по её тексту |
0.013900531929943 | FI_PERIODIC_LINK_DATES_PERCENT | Периодичность ссылок на сайт |
0.013412340418363 | FI_GSK_URL_MODEL | Фактор вычисляется из текста урла с помощью классификатора последовательностей quality/seq/gsk |
0.013370500669584 | FI_LR_GEO_RELEV_REGION_NATDOM | |
0.013171579829370 | FI_GEO_COUNTRY_PROXIM | Географическая близость |
0.013112575551553 | FI_LINK_QUALITY_FIXED | Качество входящих ссылок (классификатор Лещинера) исправленный |
0.012081787040108 | FI_COUNTRY_QUERY_REGIONALITY | Страновый классификатор локализуемости - насколько запрос подразумевает контекст страны |
0.011650367441796 | FI_FEM_MAS_NOUNS_PORTION | доля слов, которые могут быть как существительными мужского рода, так и существительными женского рода, но не среднего рода, среди всех существительных (примеры: 'колибри' - пример неопределённого рода, который можно определять двумя способами, 'Александра' - омонимия). |
0.010872234578071 | FI_SYNT_QUALITY | Имеет ли запрос полный синтаксический разбор |
0.010581678208134 | FI_SEGMENT_AUX_ALPHAS_IN_TEXT | Количество букв в сегменте Aux |
0.009455905387837 | FI_LINK_SPEED | Число обратное дисперсии временам появления ссылок со словами запроса |
0.009314594460961 | FI_GEO_LR_LOG_RELEV | log(LR, суженной на страну пользователя) |
0.008426829629948 | FI_SPAM_KARMA | Спам карма имени антиспамеров - вероятность того, что хост – спам; основан на информации whois |
0.007908808762912 | FI_URL_LENGTH_2 | Длина URL'а с точностью до символа. Отключено в продакшн. |
0.006691168756865 | FI_ADD_TIME | Время добавления страницы, больше - более старый документ; кладется корень из времени, отображенный на интервал [0,1] так, чтобы 3+ года давало 1. |
0.006678481233760 | FI_YABAR_HOST_SEARCH_TRAFFIC | Доля трафика с поисковых систем |
0.005160158423400 | FI_PHRASE | Есть ссылка, прошедшая кворум |
0.004768007631846 | FI_OWNER_SDIFF_SHOW_ENTROPY_REG | Энтропия - распределение показов. Регионализованный |
0.003890338237824 | FI_YABAR_URL_AVG_TIME | среднее по пользователям время нахождении пользователя на странице. Cчитается как разница между соседними переходами. |
0.003622338166697 | FI_QUERY_ISHUM | Cпускает на базовые поиски под именем ishum максимальный вес встреченного объекта категории Hum или Hum1 в запросе. |
0.003363499486900 | FI_COMM_LINKS_SEO_HOSTS_NON_COMM | Фактор CommLinksSEOHosts умноженный на NonCommercialQuery |
0.003128580544172 | FI_LR_AMORTIZED_BY_AGE | Линковая релевантность с пессимизацией за большой возраст линка |
0.002431406823392 | FI_SYN_FL_REMAP1 | Показывают насколько текст является неестественным с точки зрения русского языка. Оценка того, насколько можно считать текст документа сгенерированным синонимайзером либо вообще автоматическим. |
0.001181036676865 | FI_Q_DIVERSITY2 | Географическая распределенность запроса |
0.000692523218694 | FI_C_IN_DEGREE_2 | Хостовые факторы, определяют сайты, накрученные линками - вторая и третья входящие степени. |
0.000426528744914 | FI_LINK_AGE | Средний возраст ссылок, внесших что-то в LR LinkAge=Min(log(средний возраст ссылки)/7, 1), за 1 принято 3 года |
0.000094696411924 | FI_LERF_LANG_LR_LOG_RELEV | LR с учетом совпадения языка ссылки и запроса и накрученности |
0.000000136522746 | FI_FIELD_LM | Униграммная языковая модель. Моделируется языковая по документу, сглаживается общеязыковой моделью. При построении модели по документу используется информацию о том, в каком поле документа встретилось слово запроса (Title, head или plain text) |
-0.000807198317231 | FI_DMOZ_QUERY_BEST_THEME | Наиболее вероятная тема запроса, определяемая правилом колдунщика DMOZTheme, учитываются только самые популярные темы (но здесь их больше чем в факторе DmozQueryThemes). Фактор содержит вероятность соотвествия запроса тематике, но для каждой темы берётся свой интервал на отрезке [0..1] |
-0.000832706989751 | FI_PAGE_REGION_REL_COVERAGE | |
-0.000833437078930 | FI_GOOD_RATIO | Какая доля ссылок “хорошая” |
-0.000843495929565 | FI_GEO_GEOMETRY_PROXIM | Географическая близость пользователя и сайта |
-0.001158034315755 | FI_URL_LEN | Длина URL'а, делённая на 5 |
-0.001209700633070 | FI_COUNTRY_Q_DIVERSITY2 | Географическая распределенность запроса внутри страны |
-0.001250755074786 | FI_ADV_PRONOUNS_PORTION | доля местоименных существительных |
-0.001564275785704 | FI_LINK_QUALITY | Качество входящих ссылок (классификатор Лещинера) - сломан, см [405] |
-0.002170850269151 | FI_TRIGRAMS_PROB | Логарифм среднего геометрического вероятностей триграмм в тексте. (вероятность триграммы - число ее встречаний в тексте, деленное на число всех триграмм) , отображается в [0,1] по формуле -x(x+A) |
-0.003021983245146 | FI_TRLR_QUORUM_LEMMA | Вес слов запроса, которые есть в тексте с точностью до леммы |
-0.005028751679547 | FI_TOCM | Фактор оценивает отличия позиций слов в заголовке от позий слов в запросе |
-0.005085205304656 | FI_QCLASS_OAO | организация |
-0.005976754416269 | FI_ADJ_PRONOUNS_PORTION | доля местоименных прилагательных |
-0.006679400217070 | FI_TEXT_PAIR_EX | наличие пар слов по точной форме |
-0.006950709230428 | FI_PAGE_REGION_INV_SIZE_IN | Фактор обратно пропорционален размеру региона страницы |
-0.007634608393132 | FI_YABAR_HOST_AVG_TIME | среднее по пользователям активное непрерывное время нахождения пользователя (в сек) на страницах хоста |
-0.008656938143421 | FI_TEXT_FORMS | Невзвешенная сумма числа форм - сумма по всем словам запроса числа_форм_для_слова/64/число_слов_запроса |
-0.010850511133080 | FI_SECOND_INDEG_DISTR_XI | Одиннадцать факторов основанных на статистических свойствах распределений входящих степеней вершин, ссылающихся на фиксированную вершину хостграфа. |
-0.011207582653854 | FI_NUM_NON_LETTERS_IN_URL | Количество 'небукв' в урле |
-0.011221458184058 | FI_LR_WITHOUT_RARE | линковая релевантность без учета редких слов |
-0.011296769865650 | FI_OWNER_SDIFF_CSRATIO_ENTROPY | Энтропия - распределение отношения клики/показы |
-0.011681967583253 | FI_SEGMENT_AUX_SPACES_IN_TEXT | Количество пробелов в сегменте Aux |
-0.012429221647235 | FI_PARTICLES_PORTION | доля частиц |
-0.012919083353605 | FI_TEXT_HEAD_SYN | наличие слов в заголовке c учетом синонимов |
-0.013510450334814 | FI_MORNING_QUERY | Запрос задают преимущественно утром |
-0.015212586791057 | FI_TEXT_MAX_FORMS | Максимальное число форм по всем словам запроса - max по всем словам запроса числа_форм_для_слова/64 |
-0.016033504310566 | FI_TEXT_FEATURES | Качество текста. Считается по довольно сложной формуле |
-0.016932610010322 | FI_TEXT_PAIR_W1 | Простой BM25 по парам слов - берем все пары слов запроса и считаем число их вхождений в текст документа. Вес =1. Комм Не работает, если в запросе есть стоп-слово |
-0.017928063556114 | FI_OWNER_SDIFF_CLICK_ENTROPY | Энтропия - распределение кликов |
-0.018278527670779 | FI_QUERY_ISORG | В запросе название организации (пример: Газпром, газпрома). |
-0.020210221137273 | FI_PERCENT_FREQ_WORDS | Процент числа слов, являющихся 200 самыми частыми словами языка, от числа всех слов текста |
-0.020628033510418 | FI_URL_QUERY_VARIETY_REG | Степень разнообразия запросов, по которым кликают данный урла, cчитается по регионам |
-0.020921642736537 | FI_TEXT_PAIR | Простой BM25 по парам слов - берем все пары слов запроса и считаем число их вхождений в текст документа. В качества веса пары используем сумму весов слов. Комм Не работает, если в запросе есть стоп-слово |
-0.022152880819573 | FI_TEXT_PAIR_SYN | наличие пар слов c учетом синонимов (>=TxtPair) |
-0.023916010788926 | FI_OWNER_SDIFF_CSRATIO_ENTROPY_REG | Энтропия - распределение отношения клики/показы. Регионализованный |
-0.025355498987515 | FI_QDOWNER_STAT_POWER | Количество показов owner'а по запросу, нормировка x/(100 + x). |
-0.027287688639737 | FI_QUERY_ISGEO | Cпускает на базовые поиски под именем isgeo максимальный вес встреченного геообъекта в запросе. Под геообъектом понимается объект категории Geo, Geo1, GeoAddr, GeoAddr1, LandMark, LandMark1. |
-0.028595315195293 | FI_SEO_IN_PAY_LINKS | Количество входящих сео-треш ссылок между хостами |
-0.028608739038830 | FI_RINGS_HOST_RANK_BADNESS_3 | Дополнительные факторы про раскрученность сайта линковыми кольцами. |
-0.030877746812643 | FI_PAGE_REGION_SIZE | Размер региона страницы |
-0.032004809610482 | FI_HOST_SIZE | Размер хоста имени Расковалова в документах без учета дублей (каждый дубль учитывается в факторе самостоятельным документом) |
-0.032269052994315 | FI_PLM | Фактор про то, наскоько хороший сниппет может получиться. |
-0.032828345615772 | FI_PERCENT_VISIBLE_CONTENT | Процент числа слов вне тегов (вне скобок <>) от числа всех слов |
-0.034716206980983 | FI_PAGE_DATE | Дата документа которая прописана на странице, ремапится квадратным корнем |
-0.036381245328354 | FI_RINGS_HOST_RANK_BADNESS_1 | Дополнительные факторы про раскрученность сайта линковыми кольцами. |
-0.036532955371613 | FI_RINGS_HOST_RANK_BADNESS_OLD | Характеризует раскрученность сайта линковыми кольцами. Значение - доля внешних ссылок, которые входят в линковые кольца и линкообменники. |
-0.037878046829073 | FI_TEXT_HEAD | BM25 по словам только в заголовке. |
-0.039215257302626 | FI_TEXT_HI_RELEV_SYN | BM25 c учетом синонимов |
-0.039575532416190 | FI_TEXT_HEAD_EX | наличие слов в заголовке по точной форме |
-0.044940112806396 | FI_YMW_FULL | Размер минимального куска текста, включающего все встречающиеся в документе слова запроса. Сейчас не используется. |
-0.044940112806396 | FI_YMW_FULL2 | Исправленный YmwFull. Отличается от предыдущей версии только поведением на 2хсловных запросах. |
-0.044963560309064 | FI_NEVASCA2 | Не используется Дуплицированность контента. 'Плохость' хоста (от 0 до 1) – пропорциональна числу вторичного контента на хосте.'Плохость' хоста (от 0 до 1) – пропорциональна числу вторичного контента на хосте. |
-0.045942748393758 | FI_HOST_RELIABILITY | доля урлов, которые отвечают без ошибок |
-0.046030869083841 | FI_YABAR_URL_LCAC | Число сессий в которых урл являлся последним, отнесенное к числу сессий в которых урл появлялся |
-0.053739168786067 | FI_QUERY_WORD_COHESION_TR | Фактор оценивает как слова запроса группируются друг с другом в тексте документа без учета их порядка. |
-0.057014032623374 | FI_COUNTERS_SEARCH_TRAFFIC2 | Поисковый трафик - переходы с поисковых систем на сайт (2-ая формула) |
-0.057628362537565 | FI_QSEGMENTS_WEIGHT | Вес' сегментов запроса в тексте |
-0.057658302748215 | FI_METRIKA_URL_CORE_AUDIENCE | Ядро аудитории страниц на которых есть счетчик Метрики |
-0.059299975637935 | FI_QSEGMENTS_BM25 | BM25, где в качестве 'слов' выступают выделенные сегменты запроса |
-0.059871381556405 | FI_QUERY_MAXONE | Возвращает под именем wmaxone максимальную степень нарицательности встреченных объектов в запросе. |
-0.060922780495065 | FI_LINKS_WITH_WORDS_PERCENT | Процент входящих ссылок со словами запроса |
-0.062810308974889 | FI_TRLR_QUORUM_FM | Вес слов запроса, которые есть в тексте в точной форме |
-0.063761467432684 | FI_PAGE_REGION_COVERAGE | |
-0.063976585802142 | FI_PERCENT_USED_FREQ_WORDS | Число использованных в тексте 500 самых популярных слов языка, деленное на 500 |
-0.065082391728977 | FI_LR_MAX_DPR | Максимальный dpr ссылки |
-0.065128132003719 | FI_DOC_LEN | Длина документа в предложениях |
-0.066463228806236 | FI_IS_COMM | документ из коммерческой-кишки. Не используется (deprecated) |
-0.067337343351376 | FI_LARGEST_SY_INEXACT_GROUP | Доля запроса, покрываемая самой длинной группой, состоящей из любых хитов (в т.ч. словоформ и синонимов). Возможно, с пропуском, добавлением или заменой слова |
-0.068235863277027 | FI_HEADING_IDF_SUM_FIXED | Предыдущие факторы - исправленные |
-0.069803680024687 | FI_RELEV_GEO_LINKS_PERCENT | |
-0.070483297609751 | FI_LOCM | Порядок слов в ссылках. |
-0.070483297609751 | FI_SYNSET_LOCM | |
-0.076334972364641 | FI_TITLE_IN_LINKS_TRIGRAMS | Доля уникальных триграмм заголовка в триграммах ссылок |
-0.077504878926916 | FI_TEXT_SKIP_PAIR | TR по парам слов запроса через одно слово в текстах |
-0.083831128507580 | FI_LINKS_WITH_ALL_WORDS_PERCENT | Процент входящих ссылок со всеми словами запроса |
-0.084798680877042 | FI_LONG | Длинный документ (чем длиннее документ, тем больше значение фактора). |
-0.086731079136512 | FI_NUM_LATIN_LETTERS | число латинских букв в тексте (не считая разметки), загнанное в [0,1] формулой n/(n+100) |
-0.091993052812036 | FI_QUERY_CITY | При ответе на запрос важны результаты внутри города (основная масса локализуемых запросов) |
-0.094096848692163 | FI_TEXT_LIKE | Качество текста (классификатор Алексеева) |
-0.094261219650513 | FI_YANDEX_ADV | На сайте есть реклама Яндекса. |
-0.096496414873675 | FI_QUERY_REF_TRIGRAM_R | |
-0.097277529611975 | FI_AURA_DOC_LOG_AUTHOR | Логарифм числа шинглов, на которых данный владелец документа признан автором |
-0.097686304848915 | FI_AURA_DOC_LOG_SHARED | Логарифм числа шинглов, на которых данный документ не уникален |
-0.109820338929289 | FI_TEXT_RELEV_PHRASE | Приоритет phrase для TR - текстовый приоритет - есть все слова запроса подряд в документе. |
-0.110593487056685 | FI_AURA_DOC_MEAN_SHARED_WEIGHT | Средний вес не-уникальных шинглов данного документа |
-0.116819481337211 | FI_TEXT_BRAEK_SYN | количество предложений, в которых встречается много слов c учетом синонимов |
-0.118606351159510 | FI_QUERY_WORD_SEQUENCES_TR | Считает сумму вхождений следующего вида: последовательность слов запроса длиной больше двух, встретившихся в одном предложении; нормировано на длину документа. |
-0.118870879105496 | FI_QUERY_DOWNER_ENOUGH_CLICKED | Количество кликов по владельцу и количество кликов по запросу больше 5 |
-0.123814718900663 | FI_ESHOP_VALUE | Магазинность страницы |
-0.133931985443449 | FI_CLASSIF_IS_SHOP | Страница — магазин. Не используется (deprecated) |
-0.141668202468497 | FI_PCT_LINKS | Для документов с высокой LR - нормированная линковая релевантность без учета близости, для документов с низкой LR 0 |
-0.160285061981584 | FI_OWNER_SDIFF_CLICK_ENTROPY_REG | Энтропия - распределение кликов. Регионализованный |
-0.162220616846705 | FI_URL_PATH_AND_PARAMS_FRACTION | То же, что и предыдущий фактор, но про весь урл кроме домена |
-0.168645758020604 | FI_GEO_CITY_URL_REGION_COUNTRY | Совпадение географии, определённой из урла документа и страны запроса (ip или lr). Актуально для России и Украины. |
-0.180963639077109 | FI_COMM_LINKS_SEO_HOSTS | Доля входящих продажных ссылок. Реализован алгоритм распознавания коммерческих ссылок. Фактор ремапится на [0,1] если доля таких ссылок > 50%, иначе 0. |
-0.194376876842978 | FI_QURL_STAT_POWER | Количество показов url'а по запросу, нормировка x/(100 + x). |
-0.207437366708906 | FI_DATER_AGE | Разница между текущей датой и датой документа, определённой датировщиком, 1 - дата документа равна текущей, 0 - документу 10 лет или более, Если дата не определена, равен 0. Внимание!((1 - DaterAge)*60)^2 = возраст страницы в днях. |
-0.250928463672112 | FI_ADV | На сайте есть реклама. |