Корисне

Витік Яндекс та його фактори ранжирування

26 січня стався витік вихідного коду Яндекса. Найцікавіша частина для SEO: список усіх 21488 факторів ранжирування, що використовуються в алгоритмі пошуку.

Ми зібрали найцікавіше, незвичайне та подекуди шокуюче.

Структура для кожного фактора: - назва - посилання на внутрішню вікі - AntiSeoUpperBound (ха-ха) - опис - і т.д. Забавно, що перший фактор у списку - PageRank.

За AntiSeoUpperBound, хто не зрозумів – зараз поясню. Це граничні значення, при яких будь-яке обчислене значення, що перевищує це значення, вказує системі на те, що ця функція сторінки надмірно оптимізована.

1. Вік посилань є чинником ранжирування.

2. Трафік та % органічного трафіку є факторами ранжування. Це означає, що PPC впливає ранжування.

3. Цифри в URL-адресах погано впливають на ранжування.

4. Багато косих рисок в URL-адресах погано впливає на ранжування.

5. Жорстка песимізація дорівнює PR=0.

6. Надійність хоста є фактором ранжирування. Що менше помилок, то краще для вашого органічного трафіку.

7. Смішний факт: є окремий фактор ранжування для підняття Вікіпедії у видачі.

8. Багато факторів ранжирування, пов'язаних з поведінкою користувача - CTR, час на сайті, показник відмов.

9. Вік документа та останнє оновлення є факторами ранжирування.

10. Середня позиція домену на всі запити є фактором ранжування.

11. Глибина сканування є фактором ранжирування. Тримайте важливі сторінки ближче до головної сторінки.

12. Додатково: фактор ранжування для сторінок-сиріт. Ви можете легко знайти їх за допомогою статті - https://politay.pro/uk/yak-znayty-storinky-syroty/.

13. Беклінки з головних сторінок важливіші, ніж із внутрішніх сторінок.

14. Кількість пошукових запитів вашого сайту/URL-адреси є фактором ранжування. Зрозуміло, що більше = краще.

15. Трафік із Вікіпедії є фактором ранжування.

16. Якщо ваш URL буде останнім для пошукової сесії (користувач знайде те, що йому потрібно) - це вплине на ранжування.

17. Фактор ранжування закладок. Чим більше користувачів додають до закладок URL-адресу, тим більше значення фактора вона має.

18. Спеціальні фактори ранжування для коротких відео (тікток, шорти, ролики).

19. Maps js-api на сторінці (наприклад, Google Maps) – це фактор ранжирування.

20. Ключові слова в URL – це фактори ранжирування. Як видно з опису – оптимальним буде включення до 3-х слів із пошукового запиту.

21. Користувачі, що повернулися, - фактор ранжирування. Створюйте сторінки з гарним утриманням, і це піде на користь вашому SEO.

22. Відсоток заголовних літер у title є фактором ранжування.

23. Відсоток прямого трафіку є фактором ранжирування. Якщо весь ваш трафік прийшов з органічного пошуку – це підозріло + погано для ранжування.

24. Ще один фактор ранжування за якістю контенту - бите вбудоване відео на сторінці. Відео – добре для ранжування. Біте відео – погано.
25. Співвідношення «хороших» та «поганих» зворотних посилань є чинником ранжирування. Що таке «хороша» нам незрозуміло, але дуже очевидно.

26. Рейтинг якості текстів на домені є фактором ранжування. Сторінки з неякісним вмістом впливають на весь домен.

27. Кількість реклами на сторінці є фактором ранжирування. Менше = краще.

28. Смішно, є рандом як окремий фактор ранжування. Коли ви не розумієте, чому якась сторінка знаходиться зверху, це може бути просто випадково (для перевірки поведінкових факторів).

29. JS з Google Analytics – фактор ранжування. Передбачувано. Хороші сайти частіше використовують GA, ніж погані.

30. Зворотні посилання зі 100 найкращих сайтів за рейтингом PageRank впливають на ранжування.

31. Ключове слово у домені як фактор ранжирування.

Думав на цьому закінчити, але я знайшов золото – початкові коефіцієнти факторів ранжування. Ні, не так.

Початкові коефіцієнти факторів ранжирування Яндекс

Звичайно вони можуть бути скориговані на рівні MatrixNet (алгоритм машинного навчання), але все ж таки це проливає світло на багато речей.

Швидко пройдемося по топ-5 факторів ранжирування з найбільшою позитивною та негативною вагою з розрахунку релевантності сторінки або сайту.

Негативна вага

1. FI_ADV: -0.2509284637 - цей фактор визначає наявність реклами на сайті.

2. FI_DATER_AGE: -0.2074373667 - різниця між поточною датою та датою документа, визначеною датувальником, 1 – дата документа дорівнює поточній, 0 – документу 10 років або більше, Якщо дата не визначена, дорівнює 0.

3. FI_QURL_STAT_POWER: -0.1943768768 - кількість показів URL-адреси на запит.

4. FI_COMM_LINKS_SEO_HOSTS: -0.1809636391 - частка вхідних продажних посилань. Реалізовано алгоритм розпізнавання комерційних посилань. Фактор ремапится на [0,1] якщо частка таких посилань > 50%, інакше 0.

5. FI_GEO_CITY_URL_REGION_COUNTRY: -0,168645758 - збіг географії, визначеної з урла документа та країни запиту (ip чи lr). Актуально для Росії та України.

Позитивна вага

1. FI_URL_DOMAIN_FRACTION: +0.5640952971 - покриття домену трибуквіями із запиту. (Челябінська лотерея - chelloto. Перекладаємо запит у трансліт, знаходимо трибуквію які покриваються (che, hel, lot, olo), дивимося яку частку від усіх трибуквіїв покрили).

2. FI_QUERY_DOWNER_CLICKS_COMBO: +0.3690780393 - фактор, хитрим чином скомбінований з FRC та псевдо-CTR. Що таке FRC я гадки не маю.

3. FI_MAX_WORD_HOST_CLICKS: +0,3451158835 - клікабельність domAttr за максимально вираженим словом. Наприклад для всіх запитів, в яких є слово вікіпедія, клацають на сторінці вікіпедії.

4. FI_MAX_WORD_HOST_YABAR: +0.3154394573 - найбільш характерне слово запиту, що відповідає сайту, за даними бару. Теж не до кінця розумію.

5. FI_IS_COM: +0.2762504972 - документ з комерційної кишки. Чи не використовується (deprecated).

Далі ще кілька цікавих фактів.

FI_PAGE_RANK: +0,1828678331 - PageRank — 17-й за значущістю фактор в Яндексі.

FI_SPAM_KARMA: +0,00842682963 - спам карма імені антиспамерів – ймовірність того, що хост – спам; заснований на інформації whois.

FI_SUBQUERY_THEME_MATCH_A: +0,1786465163 - наскільки тісно тематично збігаються запит та документ.

FI_URL_LINK_PERCENT: +0,08940421124 - відношення числа вхідних посилань, текст яких є URL, до всіх вхідних посилань.

FI_PAGE_RANK_UKR: +0.08712279101 - окремий український PageRank.

FI_IS_NOT_RU: +0.08128946612 - домен не в .ru зоні. Навіть своїм не вірять:)

FI_ADV_PRONOUNS_PORTION: -0,001250755075 - частка займенникових іменників.

FI_PERCENT_FREQ_WORDS: -0.02021022114 - відсоток числа слів, що є 200 найчастішими словами мови, від усіх слів тексту.

FI_YANDEX_ADV: -0.09426121965 - на сторінці є реклама Яндекса. Пам'ятаємо, що звичайна реклама це FI_ADV: -0.2509284637.

FI_CLASSIF_IS_SHOP: -0.1339319854 - судячи з усього, Яндекс менше любитиме вас, якщо ваша сторінка буде магазином.

Далі все разом, що можна знайти у файлі коефіцієнтів факторів ранжирування.

Опис в оригіналі.

КоефіцієнтНазва ФактораОпис Фактора
0.564095297143887FI_URL_DOMAIN_FRACTIONПокрытие домена трехбуквиями из запроса. (Челябинская лотерея - chelloto. Переводим запрос в транслит, находим трехбуквия которые покрываются (che, hel, lot, olo), смотрим какую долю от всех трехбуквиев покрыли )
0.369078039338024FI_QUERY_DOWNER_CLICKS_COMBOфактор, хитрым образом скомбинированный из FRC и псевдо-CTR
0.345115883490577FI_MAX_WORD_HOST_CLICKSКликабельность domAttr по максимальномо выраженному слову. Например для всех запросов в которых есть слово википедия кликают на странцы википедии.
0.315439457304752FI_MAX_WORD_HOST_YABARНаиболее характерное слово запроса, соответствующее сайту, по данным бара
0.276250497243267FI_IS_COMДомен в зоне .com
0.254915495706702FI_OQ_BCLM_PLAINBCLM по запросному индексу для владельцев
0.231000481757815FI_OWNER_CLICKS_PCTRКликабельность владельца независимо от запроса
0.230257144838931FI_MAX_WORD_HOST_RANKХост ранк по максимально выраженному слову запроса (обычно это название сайта)
0.219595036178226FI_QUERY_DOWNER_CLICKS_PCTRНасколько часто кликают в URLы данного domainId по данному запросу - CTR domainId домноженный на поправочный коэффициент
0.214713693660762FI_QUERY_DOWNER_CLICKS_FRCотношение числа кликов по данному domainId ко всем кликам по запросу
0.209866937086235FI_DOM_PHRASE_CLICK_RANK_BIКликабельность домена по биграммам (без учёта тезаурусных расширений запросов)
0.209508533629415FI_OWNER_REQS_POPULARITYПопулярность owner'а в запросах
0.205699196177282FI_HAS_NO_QUERY_SHOWSДля данного запроса нет информации о кликабельности 1 - запроса нет в базе кликов, 0 - запрос есть в базе кликов.
0.205184905115480FI_DOM_PHRASE_YABAR_BIПереходы на сайт из поисковиков по биграммам, по данным Бара (без учёта тезаурусных расширений запросов)
0.202186193546053FI_QUERY_DOWNER_WEIGHT_CLICKw/k
0.189743110446303FI_OWNER_NAV_QUOTAДоля кликов по навигационным запросам
0.185032224423923FI_QUERY_DOWNER_ONLY_CLICK_RATEo/i
0.182867833093047FI_PAGE_RANKPage rank. Фактор ремапится.
0.179216994410993FI_QUERY_DOWNER_ONLY_CLICK_RATE_REGo/i
0.178646516342524FI_SUBQUERY_THEME_MATCH_AСовпадение тематических спектров запроса и документа. Тематика запроса - результат работы. Тематика документа определяется автоматическим классификатором
0.166327421401765FI_OWNER_CLICKS_PCTR_REGКликабельность владельца независимо от запроса, отдельно по регионам
0.165031403865939FI_HAS_DETERMINED_CITIESДля сайта определен город
0.160420713540373FI_QUERY_DOWNER_CLICKS_COMBO_REGQuery DOwner Clicks Combo, по мелким регионам из relev_regions.web.txt
0.160379344658431FI_HAS_NO_QUERY_DOWNER_SHOWSДля данного domainId для данного запроса нет информации о кликабельности 1 - запроса или запроса-владельца нет в базе кликов, 0 - запрос-владелец есть в базе кликов
0.156712439907419FI_REG_HOST_RANKCчитается так же, как и фактор HostRank, но не на всём owner-графе, а на его подграфе, состоящем из owner'ов данного региона. Принадлежность к региону определяется по TLD, либо по наличию в индексе страниц с данного owner'а, про которые geo или geoa классификатор говорит, что они из этого региона. Маппируется точно так же, как и фактор HostRank, в число от 0 до 1 с 256 градациями
0.152953808712409FI_QUERY_DOWNER_WS_MAX_WHR_AND_ONLY_CLICK_RATEСумма факторов 192 и 341 с весами 0.298942 и 0.454625 соответственно.
0.148292222594522FI_QUERY_DOWNER_SATISFIED4_RATEr_s4b/(r_k + 10)
0.147136648195774FI_QUERY_DOWNER_YABAR_VISITS
0.129668929638366FI_OQ_BM25_LEMBm25 по запросному индексу для domAttr
0.129641401501547FI_FIRST_WORD_HOST_CLICKSКликабельность хоста по первому слову запроса. Достаточно часто первое (последнее) слово запроса - явное указание сайта, на котором следует искать информацию.
0.127979729953137FI_YABAR_HOST_AVG_ACTIONSсреднее по пользователям число активных действий (клики, нажатия клавиш) при непрерывном нахождении пользователя (в сек) на страницах хоста.
0.126700168643196FI_OWNER_SESS_NORM_DURnd/k нормированное время до клика
0.125675707803009FI_OQ_BM25_STRBm25 по запросному индексу для domAttr
0.122090633457258FI_QUERY_DOWNER_YABAR_AVG_TIMEсреднее по пользователям активное непрерывное время нахождения пользователя (в сек) на страницах хоста после перехода по запросу из поисковой системы (фактор зависит от пары (запрос,domAttr)).
0.119512833156651FI_QUERY_DOWNER_YABAR_VISITORS
0.118638180985299FI_QUERY_DOWNER_CLICKS_FRC_REGотношение числа кликов по данному domainId ко всем кликам по запросу, по мелким регионам из relev_regions.web.txt
0.115262514353577FI_QUERY_DOWNER_WEIGHT_CLICK_REGw/k
0.114624515228977FI_MATRIXNETКо всем факторам применяется MatrixNet - формула (TG_UNUSED - чтобы предотвратить вхождние в какие-либо формулы)
0.113671587879567FI_QUERY_MINONEВозвращает под именем wminone максимальную степень нарицательности встреченных объектов в запросе.
0.112928770384249FI_TITLE_TRIGRAMS_QВычисляет покрытие запроса буквенными триграммами заголовка документа
0.112334631253023FI_OQ_BM25_SYNBm25 по запросному индексу для domAttr
0.105135837056982FI_OQ_BCLM_WEIGHTEDBCLM по запросному индексу для domAttr
0.103903118421863FI_QUERY_COMMERCIALITY_MX Мера 'коммерческости' запроса. Является комплексно рассчитываемым фактором MatrixNet формулой по словарю закупок в директе + по логам пользовательских запросов + доп. интентные словари. Запросы с интентом купить фактор стремится в ->1 товарные запросы ->0.6 с интентом не купить, обзоры и тп -> 0
0.102548297661617FI_OWNER_SATISFIED4_RATEЭто SEA фактор = s4_r/ (k_r+10) где s4_r - число кликов > 180 сек, k_r - общее число кликов. Считается с учётом переформулировок.
0.097713692186877FI_SHOPЭто магазин предложение (определяется по характерным паттернам в url`е). Не используется (deprecated)
0.097073501164592FI_IS_HUBХабовость страницы
0.096811143316269FI_LINK_WEIGHTED_FORMSВзвешенная по весам слов сумма числа форм
0.096447224363928FI_DIFFERENT_INTERNAL_LINKSКоличество различных внутренних ссылок на страницу
0.094045741102708FI_NUM_LINKS_FROM_SEGMENT_CONTENT
0.093045433292429FI_MPSAОценивает минимальное расстояние между парами слов запроса с учетом удаленности пары от начала документа (Minimal Pair Size with Attenuation). Под парами понимаются все последовательные биграммы слов запроса. Таким образом, количество пар равно количеству слов в запросе, уменьшенному на 1. Соответственно, фактор имеет смысл для запросов, состоящих более чем из одного слова.
0.089404211238337FI_URL_LINK_PERCENTОтношение числа входящих ссылок, текст которых является URL, к числу всех входящих ссылок
0.087850313290757FI_QUERY_DOWNER_WS_FRC_AND_BM25F_DPR_FIXEDСумма факторов QueryDOwnerClicksFRC и BM25FdPRFixed с весами 0.358449 и 0.184922 соответственно. '565' в названии фактора не надо воспринимать буквально, это легаси либо опечатка.
0.087122791007993FI_PAGE_RANK_UKRУкраинский Page rank
0.085929172196314FI_YABAR_HOST_VISITORSкол-во уникальных посетителей, ремапится экспоненциально
0.085276276270387FI_DOM_PHRASE_YABARПереходы на сайт из поисковиков по отдельным словам, по данным бара
0.084699401575226FI_GEO_RELEV_ALIEN_CITYРезультат имеет геопривязку, не совпадающую с географией пользователя на уровне города ([415]==1 && [215]==0)
0.084012276385059FI_GEO_RELEV_REGION_COUNTRYТри уровня совпадения географии пользователя и страницы
0.082967074248567FI_GEO_REGION_PROXIM
0.081289466115302FI_IS_NOT_RUДомен не в зоне .ru
0.080331864046170FI_SYN_FL_REMAP2Показывают насколько текст является неестественным с точки зрения русского языка. Оценка того, насколько можно считать текст документа сгенерированным синонимайзером либо вообще автоматическим.
0.078872214489662FI_LINK_BREAKАналоги соответствующих текстовых факторов для линков. BM25 от количества ссылок, в которых произошло совпадение.
0.077454131996933FI_QUERY_DOWNER_CLICK_SUMMARYподобранная формула
0.076343383792772FI_DOM_PHRASE_CLICK_RANKКликабельность домена по словам
0.075434934641649FI_TEXT_BM25_ATTEN_SYNTR с дисконтом за номер предложения
0.074172193125966FI_YABAR_HOST_AVG_TIME2среднее по пользователям активное непрерывное время нахождения пользователя (в сек) на страницах хоста. По внутр счетчику Яндекс.Бара/Элементов/Браузера
0.071481760992750FI_QUERY_DOWNER_SATISFIED4_RATE_REGr_s4b/(r_k + 10)
0.071417326810502FI_YABAR_HOST_INTERNAL_TRAFFICдоля заходов на сайт не по ссылкам (набор руками или с закладок)
0.071242787451280FI_PAGE_RANK_BONUSPriority bonus, приоритет 7 - текстовый приоритет. Фактор бинарный, имеет значение 0 для всех однословных запросов, и значение 1 практически для всех двух и более словных, кроме очень маленького количества ответов, для которых нет ни одной ссылки, прошедшей кворум, и текст тоже не прошел кворум.
0.070074395872424FI_TITLE_IDF_SUMIdf по различным частям документа, сломаны, не используются
0.069696682544392FI_LONGEST_TEXTРазмер самого большого текстового сегмента страницы (из фактора [18] PureText)
0.069268621800152FI_EXPECTED_FOUNDОжидаемое количество найденного по запросу
0.067151098341326FI_YABAR_URL_VISITSПосещаемость урла по данным я-бара
0.066890922161289FI_URL_BM25BM25 по URL'у
0.064310714968383FI_URL_TRIGRAMSМодель с обучением каждой триграммы на '+' и '-' урлах. Не зависит от запроса.
0.062753581782970FI_LAST_WORD_HOST_CLICKSКликабельность хоста по последнему слову запроса (без учёта тезаурусных расширений запросов)
0.062474190501436FI_NON_COMM_NORM_LR_LOG_RELEVXNonCommLRlogRelev (нормированное на сумму NonComm-весов всех ссылок, а не на сумму их исходных весов)
0.061675217167197FI_SOWNER_MAX_SUM_SOURCE_RANKСумма максимальных значений SourceRank'ов для каждой входящей ссылки с учётом уникальности владельца.
0.061031422056552FI_HEADING_IDF_SUMIdf по различным частям документа, сломаны, не используются
0.060594485044371FI_LERF_LR_LOG_RELEVЛинковая релевантность с учетом качества каждой ссылки
0.059222635368125FI_BF_LEMMA_ALLВарианты соответствующих факторов с учетом стоп слов
0.058870258158539FI_BM25F_DPR_FIXEDBM25FdPR с нормировкой на среднюю длину документа, зависящую от языка документа.
0.058415162135787FI_LONG_QUERY_SYNФактор -- аналог LongQuery (сумма idf слов запроса), но с 'корректным' учетом синонимов. Конкретно -- выбирается минимум по idf (т.е. самое частое) из синонимов и слова.
0.057053549836014FI_PERCENT_WORDS_IN_LINKSПроцент числа слов внутри тега .. от числа всех слов
0.056552232052119FI_PAGE_REGION_SIZE_INРазмер региона страницы
0.055767877134775FI_TLP1_ALLВарианты соответствующих факторов с учетом стоп слов
0.055185094441888FI_URL_NGRAMS_MODELФактор ранжирования UrlNGramsModel в erf
0.054926147793071FI_QUERY_REF_TRIGRAM_Q
0.054680076158058FI_QUERY_DOWNER_CLICK_SUMMARY_REGподобранная формула
0.054576897612176FI_LANGUAGE_COMPLIANCEЯзык документа соответствует языку запроса
0.054156294329288FI_BM25F_DPR_OBSOLETEBM25 с разными параметрами для разных полей, включая входящий анкортекст. Веса текста входящих на страницу ссылок нормируются в зависимости от delta page rank ссылки
0.051465613603836FI_GEO_CITY_PROXIMОзначает совпадение региона, упомянутого в запросе и найденных сайтов на уровне областей. Фактор бинарный: 1-совпадает, 0-нет.
0.051057813309267FI_YABAR_URL_VISITORSКоличество уникальных посетителей урла
0.050576094170344FI_NUM_SLASHESЧисло слешей в урле
0.049845924868959FI_SRСложносоставной static rank, собирается из статических компонентов по отдельной формуле.
0.049061648412321FI_LINK_RELEVЛинковая релевантность. Фактор ремапится.
0.047914113074106FI_QUERY_DOWNER_CLICKS_PCTR_REGНасколько часто кликают в URLы данного domainId по данному запросу - CTR domainId домноженный на поправочный коэффициент, по мелким регионам из relev_regions.web.txt
0.047164043400143FI_TITLE_IDF_SUM_FIXEDПредыдущие факторы - исправленные
0.046891090311905FI_LINK_PAIR_SYNНаличие в ссылках пар слов c учетом синонимов
0.046783126435468FI_Q_DIVERSITYСтепень централизации точек, из которой задается запрос
0.046757967567051FI_DBM35BM25 по текстам и линкам со спец. весами по уровню совпадения (форма, лемма, синоним)
0.044511155721215FI_LERF_GEO_LR_LOG_RELEVlog(LerfLR, суженной на страну пользователя)
0.042452794899003FI_LR_GEO_RELEV_REGION_COUNTRYТри уровня совпадения региона ссылок и запроса
0.038806477920761FI_PASSAGE_LEGACY_TRTR лучшего пассажа - насколько качественный сниппет может получиться
0.038372460585705FI_LCORХарактеризует частоту слов в ссылках. Фактор большой, если слово, сыгравшее в линковой релевантности, редкое для ссылок.
0.038263040612831FI_STATIC_TITLE_LR_BM25BM25 заголовка страницы по текстам ссылок на неё
0.037180373854650FI_COUNTRY_Q_DIVERSITYСтепень централизации точек, из которой задается запрос (внутри страны)
0.035447186193336FI_LINK_BREAK_SYNКоличество ссылок, прошедших порог
0.033485833700259FI_HIT_NUM_100Преобразованное количество слов запроса во всех линках url`а.
0.032525279432611FI_OWNER_SDIFF_SHOW_ENTROPYЭнтропия - распределение показов
0.031399776481102FI_TLBM25Простой BM25 по тексту и линкам одновременно.
0.031186243849340FI_WORDS_IN_TITLEЧисло слов русского языка в заголовке
0.030786458206337FI_BCLMФактор имени Buettcher, Clarke и Lushman (модифицированный).
0.030334786608805FI_LONG_QUERYСумма idf слов запроса. Название не отражает суть: например, для запроса 'Гадяч' этот фактор будет больше, чем для запроса 'Москва Питер Екатеринбург Самара'.
0.027302374355601FI_YA_BARПосещаемость из Бара. Фактор ремапится.
0.026926509552263FI_LOG_LRЛогарифм от LR, линейно отображенный в [0,1].
0.026650508120317FI_TRIGRAMS_COND_PROBЛогарифм среднего геометрического условных вероятностей триграмм. условная вероятность триграммы - ее вероятность, деленная на вероятность биграммы из первых двух слов
0.025806639721603FI_URL_SESS_NORM_DUR_RATEnd/i
0.025691573951246FI_IDF_VARIANCEДисперсия IDF слов запроса при условии наличия текстовых хитов в документе (смешанный запросно-текстовый фактор)
0.025328925792111FI_URL_SESS_NORM_DUR_RATE_REGnd/i
0.024263431712643FI_COUNTERS_SEARCH_TRAFFIC1Поисковый трафик - переходы с поисковых систем на сайт (2-ая формула)
0.024006117828321FI_TEXT_BREAK_EXколичество предложений, в которых встречается много слов по точной форме
0.023610887210981FI_QUERY_URL_CLICKS_FRC_REGотношение числа кликов по данному урлу ко всем кликам по запросу, по мелким регионам из relev_regions.web.txt
0.022803839020796FI_TEXT_WEIGHTED_FORMSВзвешенная по весам слов сумма числа форм - сумма по всем словам запроса числа_форм_для_слова/64*вес_слова; remap вида x/(1 + x).
0.021178675054476FI_NEW_LINK_QUALITYКлассификатор качества входящих ссылок 2 - сломан, см [407]
0.021178675054476FI_NEW_LINK_QUALITY_FIXEDКлассификатор качества входящих ссылок 2 исправленный
0.019988663575500FI_CATALOG_RELEVLR по каталожным описаниям
0.019740981979634FI_SWBM25Хитрый BM25 в скользящем окне. Размер окна задается в предложениях. Используются «джокеры» для заголовков и начала документа. Учитывается морфологическая близость и структура текста. Вес окна затухает с удалением от начала документа.
0.019580616053835FI_MEAN_WORD_LENGTHСредняя длина слова
0.019301158836494FI_LINKS_IN_TITLE_TRIGRAMSДоля уникальных триграмм ссылок в триграммах заголовка
0.019119257307239FI_LINK_RELEV_PHRASE(phrase) есть все слова запроса подряд в одном линке.
0.017641843798363FI_QSEGMENTS_BREAKSСегменты запроса - это части запроса, которые сами по себе являются частотными запросами. Фактор показывает, насколько сегменты бьются в тексте. значение 0 - все слова встречаются только в рамках обозначенных сегментов, 1 -- все вхождения разбивают сегменты
0.016179974819787FI_STATIC_TITLE_BM25_EXBM25 заголовка страницы по её тексту
0.013900531929943FI_PERIODIC_LINK_DATES_PERCENTПериодичность ссылок на сайт
0.013412340418363FI_GSK_URL_MODELФактор вычисляется из текста урла с помощью классификатора последовательностей quality/seq/gsk
0.013370500669584FI_LR_GEO_RELEV_REGION_NATDOM
0.013171579829370FI_GEO_COUNTRY_PROXIMГеографическая близость
0.013112575551553FI_LINK_QUALITY_FIXEDКачество входящих ссылок (классификатор Лещинера) исправленный
0.012081787040108FI_COUNTRY_QUERY_REGIONALITYСтрановый классификатор локализуемости - насколько запрос подразумевает контекст страны
0.011650367441796FI_FEM_MAS_NOUNS_PORTIONдоля слов, которые могут быть как существительными мужского рода, так и существительными женского рода, но не среднего рода, среди всех существительных (примеры: 'колибри' - пример неопределённого рода, который можно определять двумя способами, 'Александра' - омонимия).
0.010872234578071FI_SYNT_QUALITYИмеет ли запрос полный синтаксический разбор
0.010581678208134FI_SEGMENT_AUX_ALPHAS_IN_TEXTКоличество букв в сегменте Aux
0.009455905387837FI_LINK_SPEEDЧисло обратное дисперсии временам появления ссылок со словами запроса
0.009314594460961FI_GEO_LR_LOG_RELEVlog(LR, суженной на страну пользователя)
0.008426829629948FI_SPAM_KARMAСпам карма имени антиспамеров - вероятность того, что хост – спам; основан на информации whois
0.007908808762912FI_URL_LENGTH_2Длина URL'а с точностью до символа. Отключено в продакшн.
0.006691168756865FI_ADD_TIMEВремя добавления страницы, больше - более старый документ; кладется корень из времени, отображенный на интервал [0,1] так, чтобы 3+ года давало 1.
0.006678481233760FI_YABAR_HOST_SEARCH_TRAFFICДоля трафика с поисковых систем
0.005160158423400FI_PHRASEЕсть ссылка, прошедшая кворум
0.004768007631846FI_OWNER_SDIFF_SHOW_ENTROPY_REGЭнтропия - распределение показов. Регионализованный
0.003890338237824FI_YABAR_URL_AVG_TIMEсреднее по пользователям время нахождении пользователя на странице. Cчитается как разница между соседними переходами.
0.003622338166697FI_QUERY_ISHUMCпускает на базовые поиски под именем ishum максимальный вес встреченного объекта категории Hum или Hum1 в запросе.
0.003363499486900FI_COMM_LINKS_SEO_HOSTS_NON_COMMФактор CommLinksSEOHosts умноженный на NonCommercialQuery
0.003128580544172FI_LR_AMORTIZED_BY_AGEЛинковая релевантность с пессимизацией за большой возраст линка
0.002431406823392FI_SYN_FL_REMAP1Показывают насколько текст является неестественным с точки зрения русского языка. Оценка того, насколько можно считать текст документа сгенерированным синонимайзером либо вообще автоматическим.
0.001181036676865FI_Q_DIVERSITY2Географическая распределенность запроса
0.000692523218694FI_C_IN_DEGREE_2Хостовые факторы, определяют сайты, накрученные линками - вторая и третья входящие степени.
0.000426528744914FI_LINK_AGEСредний возраст ссылок, внесших что-то в LR LinkAge=Min(log(средний возраст ссылки)/7, 1), за 1 принято 3 года
0.000094696411924FI_LERF_LANG_LR_LOG_RELEVLR с учетом совпадения языка ссылки и запроса и накрученности
0.000000136522746FI_FIELD_LMУниграммная языковая модель. Моделируется языковая по документу, сглаживается общеязыковой моделью. При построении модели по документу используется информацию о том, в каком поле документа встретилось слово запроса (Title, head или plain text)
-0.000807198317231FI_DMOZ_QUERY_BEST_THEMEНаиболее вероятная тема запроса, определяемая правилом колдунщика DMOZTheme, учитываются только самые популярные темы (но здесь их больше чем в факторе DmozQueryThemes). Фактор содержит вероятность соотвествия запроса тематике, но для каждой темы берётся свой интервал на отрезке [0..1]
-0.000832706989751FI_PAGE_REGION_REL_COVERAGE
-0.000833437078930FI_GOOD_RATIOКакая доля ссылок “хорошая”
-0.000843495929565FI_GEO_GEOMETRY_PROXIMГеографическая близость пользователя и сайта
-0.001158034315755FI_URL_LENДлина URL'а, делённая на 5
-0.001209700633070FI_COUNTRY_Q_DIVERSITY2Географическая распределенность запроса внутри страны
-0.001250755074786FI_ADV_PRONOUNS_PORTIONдоля местоименных существительных
-0.001564275785704FI_LINK_QUALITYКачество входящих ссылок (классификатор Лещинера) - сломан, см [405]
-0.002170850269151FI_TRIGRAMS_PROBЛогарифм среднего геометрического вероятностей триграмм в тексте. (вероятность триграммы - число ее встречаний в тексте, деленное на число всех триграмм) , отображается в [0,1] по формуле -x(x+A)
-0.003021983245146FI_TRLR_QUORUM_LEMMAВес слов запроса, которые есть в тексте с точностью до леммы
-0.005028751679547FI_TOCMФактор оценивает отличия позиций слов в заголовке от позий слов в запросе
-0.005085205304656FI_QCLASS_OAOорганизация
-0.005976754416269FI_ADJ_PRONOUNS_PORTIONдоля местоименных прилагательных
-0.006679400217070FI_TEXT_PAIR_EXналичие пар слов по точной форме
-0.006950709230428FI_PAGE_REGION_INV_SIZE_INФактор обратно пропорционален размеру региона страницы
-0.007634608393132FI_YABAR_HOST_AVG_TIMEсреднее по пользователям активное непрерывное время нахождения пользователя (в сек) на страницах хоста
-0.008656938143421FI_TEXT_FORMSНевзвешенная сумма числа форм - сумма по всем словам запроса числа_форм_для_слова/64/число_слов_запроса
-0.010850511133080FI_SECOND_INDEG_DISTR_XIОдиннадцать факторов основанных на статистических свойствах распределений входящих степеней вершин, ссылающихся на фиксированную вершину хостграфа.
-0.011207582653854FI_NUM_NON_LETTERS_IN_URLКоличество 'небукв' в урле
-0.011221458184058FI_LR_WITHOUT_RAREлинковая релевантность без учета редких слов
-0.011296769865650FI_OWNER_SDIFF_CSRATIO_ENTROPYЭнтропия - распределение отношения клики/показы
-0.011681967583253FI_SEGMENT_AUX_SPACES_IN_TEXTКоличество пробелов в сегменте Aux
-0.012429221647235FI_PARTICLES_PORTIONдоля частиц
-0.012919083353605FI_TEXT_HEAD_SYNналичие слов в заголовке c учетом синонимов
-0.013510450334814FI_MORNING_QUERYЗапрос задают преимущественно утром
-0.015212586791057FI_TEXT_MAX_FORMSМаксимальное число форм по всем словам запроса - max по всем словам запроса числа_форм_для_слова/64
-0.016033504310566FI_TEXT_FEATURESКачество текста. Считается по довольно сложной формуле
-0.016932610010322FI_TEXT_PAIR_W1Простой BM25 по парам слов - берем все пары слов запроса и считаем число их вхождений в текст документа. Вес =1. Комм Не работает, если в запросе есть стоп-слово
-0.017928063556114FI_OWNER_SDIFF_CLICK_ENTROPYЭнтропия - распределение кликов
-0.018278527670779FI_QUERY_ISORGВ запросе название организации (пример: Газпром, газпрома).
-0.020210221137273FI_PERCENT_FREQ_WORDSПроцент числа слов, являющихся 200 самыми частыми словами языка, от числа всех слов текста
-0.020628033510418FI_URL_QUERY_VARIETY_REGСтепень разнообразия запросов, по которым кликают данный урла, cчитается по регионам
-0.020921642736537FI_TEXT_PAIRПростой BM25 по парам слов - берем все пары слов запроса и считаем число их вхождений в текст документа. В качества веса пары используем сумму весов слов. Комм Не работает, если в запросе есть стоп-слово
-0.022152880819573FI_TEXT_PAIR_SYNналичие пар слов c учетом синонимов (>=TxtPair)
-0.023916010788926FI_OWNER_SDIFF_CSRATIO_ENTROPY_REGЭнтропия - распределение отношения клики/показы. Регионализованный
-0.025355498987515FI_QDOWNER_STAT_POWERКоличество показов owner'а по запросу, нормировка x/(100 + x).
-0.027287688639737FI_QUERY_ISGEOCпускает на базовые поиски под именем isgeo максимальный вес встреченного геообъекта в запросе. Под геообъектом понимается объект категории Geo, Geo1, GeoAddr, GeoAddr1, LandMark, LandMark1.
-0.028595315195293FI_SEO_IN_PAY_LINKSКоличество входящих сео-треш ссылок между хостами
-0.028608739038830FI_RINGS_HOST_RANK_BADNESS_3Дополнительные факторы про раскрученность сайта линковыми кольцами.
-0.030877746812643FI_PAGE_REGION_SIZEРазмер региона страницы
-0.032004809610482FI_HOST_SIZEРазмер хоста имени Расковалова в документах без учета дублей (каждый дубль учитывается в факторе самостоятельным документом)
-0.032269052994315FI_PLMФактор про то, наскоько хороший сниппет может получиться.
-0.032828345615772FI_PERCENT_VISIBLE_CONTENTПроцент числа слов вне тегов (вне скобок <>) от числа всех слов
-0.034716206980983FI_PAGE_DATEДата документа которая прописана на странице, ремапится квадратным корнем
-0.036381245328354FI_RINGS_HOST_RANK_BADNESS_1Дополнительные факторы про раскрученность сайта линковыми кольцами.
-0.036532955371613FI_RINGS_HOST_RANK_BADNESS_OLDХарактеризует раскрученность сайта линковыми кольцами. Значение - доля внешних ссылок, которые входят в линковые кольца и линкообменники.
-0.037878046829073FI_TEXT_HEADBM25 по словам только в заголовке.
-0.039215257302626FI_TEXT_HI_RELEV_SYNBM25 c учетом синонимов
-0.039575532416190FI_TEXT_HEAD_EXналичие слов в заголовке по точной форме
-0.044940112806396FI_YMW_FULLРазмер минимального куска текста, включающего все встречающиеся в документе слова запроса. Сейчас не используется.
-0.044940112806396FI_YMW_FULL2Исправленный YmwFull. Отличается от предыдущей версии только поведением на 2хсловных запросах.
-0.044963560309064FI_NEVASCA2Не используется Дуплицированность контента. 'Плохость' хоста (от 0 до 1) – пропорциональна числу вторичного контента на хосте.'Плохость' хоста (от 0 до 1) – пропорциональна числу вторичного контента на хосте.
-0.045942748393758FI_HOST_RELIABILITYдоля урлов, которые отвечают без ошибок
-0.046030869083841FI_YABAR_URL_LCACЧисло сессий в которых урл являлся последним, отнесенное к числу сессий в которых урл появлялся
-0.053739168786067FI_QUERY_WORD_COHESION_TRФактор оценивает как слова запроса группируются друг с другом в тексте документа без учета их порядка.
-0.057014032623374FI_COUNTERS_SEARCH_TRAFFIC2Поисковый трафик - переходы с поисковых систем на сайт (2-ая формула)
-0.057628362537565FI_QSEGMENTS_WEIGHTВес' сегментов запроса в тексте
-0.057658302748215FI_METRIKA_URL_CORE_AUDIENCEЯдро аудитории страниц на которых есть счетчик Метрики
-0.059299975637935FI_QSEGMENTS_BM25BM25, где в качестве 'слов' выступают выделенные сегменты запроса
-0.059871381556405FI_QUERY_MAXONEВозвращает под именем wmaxone максимальную степень нарицательности встреченных объектов в запросе.
-0.060922780495065FI_LINKS_WITH_WORDS_PERCENTПроцент входящих ссылок со словами запроса
-0.062810308974889FI_TRLR_QUORUM_FMВес слов запроса, которые есть в тексте в точной форме
-0.063761467432684FI_PAGE_REGION_COVERAGE
-0.063976585802142FI_PERCENT_USED_FREQ_WORDSЧисло использованных в тексте 500 самых популярных слов языка, деленное на 500
-0.065082391728977FI_LR_MAX_DPRМаксимальный dpr ссылки
-0.065128132003719FI_DOC_LENДлина документа в предложениях
-0.066463228806236FI_IS_COMMдокумент из коммерческой-кишки. Не используется (deprecated)
-0.067337343351376FI_LARGEST_SY_INEXACT_GROUPДоля запроса, покрываемая самой длинной группой, состоящей из любых хитов (в т.ч. словоформ и синонимов). Возможно, с пропуском, добавлением или заменой слова
-0.068235863277027FI_HEADING_IDF_SUM_FIXEDПредыдущие факторы - исправленные
-0.069803680024687FI_RELEV_GEO_LINKS_PERCENT
-0.070483297609751FI_LOCMПорядок слов в ссылках.
-0.070483297609751FI_SYNSET_LOCM
-0.076334972364641FI_TITLE_IN_LINKS_TRIGRAMSДоля уникальных триграмм заголовка в триграммах ссылок
-0.077504878926916FI_TEXT_SKIP_PAIRTR по парам слов запроса через одно слово в текстах
-0.083831128507580FI_LINKS_WITH_ALL_WORDS_PERCENTПроцент входящих ссылок со всеми словами запроса
-0.084798680877042FI_LONGДлинный документ (чем длиннее документ, тем больше значение фактора).
-0.086731079136512FI_NUM_LATIN_LETTERSчисло латинских букв в тексте (не считая разметки), загнанное в [0,1] формулой n/(n+100)
-0.091993052812036FI_QUERY_CITYПри ответе на запрос важны результаты внутри города (основная масса локализуемых запросов)
-0.094096848692163FI_TEXT_LIKEКачество текста (классификатор Алексеева)
-0.094261219650513FI_YANDEX_ADVНа сайте есть реклама Яндекса.
-0.096496414873675FI_QUERY_REF_TRIGRAM_R
-0.097277529611975FI_AURA_DOC_LOG_AUTHORЛогарифм числа шинглов, на которых данный владелец документа признан автором
-0.097686304848915FI_AURA_DOC_LOG_SHAREDЛогарифм числа шинглов, на которых данный документ не уникален
-0.109820338929289FI_TEXT_RELEV_PHRASEПриоритет phrase для TR - текстовый приоритет - есть все слова запроса подряд в документе.
-0.110593487056685FI_AURA_DOC_MEAN_SHARED_WEIGHTСредний вес не-уникальных шинглов данного документа
-0.116819481337211FI_TEXT_BRAEK_SYNколичество предложений, в которых встречается много слов c учетом синонимов
-0.118606351159510FI_QUERY_WORD_SEQUENCES_TRСчитает сумму вхождений следующего вида: последовательность слов запроса длиной больше двух, встретившихся в одном предложении; нормировано на длину документа.
-0.118870879105496FI_QUERY_DOWNER_ENOUGH_CLICKEDКоличество кликов по владельцу и количество кликов по запросу больше 5
-0.123814718900663FI_ESHOP_VALUEМагазинность страницы
-0.133931985443449FI_CLASSIF_IS_SHOPСтраница — магазин. Не используется (deprecated)
-0.141668202468497FI_PCT_LINKSДля документов с высокой LR - нормированная линковая релевантность без учета близости, для документов с низкой LR 0
-0.160285061981584FI_OWNER_SDIFF_CLICK_ENTROPY_REGЭнтропия - распределение кликов. Регионализованный
-0.162220616846705FI_URL_PATH_AND_PARAMS_FRACTIONТо же, что и предыдущий фактор, но про весь урл кроме домена
-0.168645758020604FI_GEO_CITY_URL_REGION_COUNTRYСовпадение географии, определённой из урла документа и страны запроса (ip или lr). Актуально для России и Украины.
-0.180963639077109FI_COMM_LINKS_SEO_HOSTSДоля входящих продажных ссылок. Реализован алгоритм распознавания коммерческих ссылок. Фактор ремапится на [0,1] если доля таких ссылок > 50%, иначе 0.
-0.194376876842978FI_QURL_STAT_POWERКоличество показов url'а по запросу, нормировка x/(100 + x).
-0.207437366708906FI_DATER_AGEРазница между текущей датой и датой документа, определённой датировщиком, 1 - дата документа равна текущей, 0 - документу 10 лет или более, Если дата не определена, равен 0. Внимание!((1 - DaterAge)*60)^2 = возраст страницы в днях.
-0.250928463672112FI_ADVНа сайте есть реклама.

Author

Владислав Политай

Leave a comment

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *