Сегодняшней публикацией, начинаю цикл теоретических статей, посвящённых расчёту релевантности документов, запросов, страниц, ресурсов, сайтов поисковыми системами («Яндекс», «Гугл») в Интернете. Сегодня расскажу об общих принципах ранжирования поисковых систем, а также приведу классификацию факторов ранжирования и общую формулу расчёта значения релевантности.
Алгоритмы ранжирования поисковых систем не являются секретными сведениями. Кроме того, в Сети, периодически, происходит публикация тех или иных особенностей алгоритмов поисковиков. Характерный пример этого — ежегодный Российский семинар по Оценке Методов Информационного Поиска (РОМИП).
Этот семинар — инициатива по созданию плацдарма для проведения независимой оценки методов информационного поиска, ориентированных на работу с русскоязычной информацией. Общий алгоритм текстового ранжирования «Яндекса», представленный на РОМИП, описан тут.
Факторы, влияющие на ранжирование, делятся на статические и динамические.
- Статические факторы не зависят от запроса к поисковой системе. Например, авторитетность страницы, которую ещё называют PageRank (не путать с тулбарным PR «Google»);
- Динамические факторы зависят от текста запроса и подразделяются на внутренние (организация документа) и внешние (ссылочное ранжирование).
Факторы ранжирования поисковых систем
-
Статические факторы ранжирования — авторитетность страницы
- ВИЦ — взвешенный индекс цитирования «Яндекса»;
- PageRank — авторитетность страницы в «Гугле» (не путать с тулбарным PageRank).
-
Динамические факторы ранжирования
- Внешние факторы — ссылочное ранжирование;
- Внутренние факторы — внутренняя оптимизация.
-
Собственные факторы ранжирования — собственные каталоги ресурсов
- «Яндекс.Каталог» (закрыт);
- Каталог «Google» (закрыт).
Число факторов ранжирования и их значимость — различны в разных поисковых системах и постоянно меняются. Это связано с постоянным развитием самих поисковиков и развитием алгоритмов поиска.
Условную формулу для вычисления показателя релевантности поискового запроса странице можно представить следующим образом:
(1).
где — итоговое значение релевантности документа запросу ;
— значение релевантности кода документа запросу — показатель качества внутренней оптимизации;
— релевантность текста ссылок с других документов на документ запросу ; этот показатель, для краткости, можно назвать ссылочной релевантностью;
— показатель авторитетности страницы относительно запроса ;
— некоторая монотонно неубывающая функция; допускают упрощение, что ;
— некоторые коэффициенты, позволяющие аппроксимировать формулу релевантности под каждую ПС.
Однако формула (1) не учитывает собственных факторов ранжирования поисковых систем, к которым относятся собственные каталоги ресурсов поисковиков.
Условную формулу для расчёта показателя релевантности с учётом собственных факторов ранжирования поисковых систем можно представить следующим образом:
(2)
где , , — некоторые аппроксимирующие коэффициенты, для каждой ПС свои;
— релевантность собственных факторов ранжирования ПС.
В данной статье, я описал факторы ранжирования поисковых систем, привёл их классификацию, привёл общую формулу для расчёта значения релевантности. В следующих статьях цикла теории SEO я остановлюсь на каждом факторе ранжирования более подробно.
Автор: Алексей Терехов.
Ещё по теме:
- Секрет ссылочного обмена, или Почему обмен ссылками для продвижения держит сайты в ТОПе
- Конференция «Optimization». Будущее SEO: застой или эволюция?
- «Яндекс» и покупные ссылки
- Составляем анкоры ссылок правильно: 5 ключевых моментов
- Мадридский доклад «Яндекса»: Использование категоризации текстов ссылок и анализа графов для идентификации платных ссылок
Комментарии:
19.03.2009, 06:20 — Fewal
Интересно, и почему это ни кто ни писал до этого про то что есть четкое понятие релевантности…
19.03.2009, 07:39 — Terehoff
Fewal — это материалы моей диссертационной работы! Вот и решил поделиться своими наработками в блогосфере! По поводу четкости — это не совсем так. Я привел лишь обобщенную формулу, которая может быть применима для большого количества поисковых систем. В каждом конкретном случае свои нюансы. Это всего лишь теоретический базис, который позволяет дать общее представление о ранжировании документов в поисковых системах!
19.03.2009, 09:54 — Devaka
Terehoff, так держать!
Скажи нам, какая тема твоей диссертации?
19.03.2009, 10:31 — kotik
Интересный пост. Вечером буду изучать более подробно, может быть даже подискутируем
19.03.2009, 12:02 — Terehoff
Devaka — вот тебя Akismet не любит! Тема диссертации будет точно ясна примерно через месяц! Сегодняшнее название примерно звучит так: «Организация многоальтернативного поиска в современной информационной среде в условиях избыточного дублирования и постоянного роста количества информационных ресурсов». Пока что так видится. В практическом применении понятие под понятием «информационная среда» используется сеть интернет, которая по сути дела является огромнейшей открытой информационной средой масштаба планеты!
19.03.2009, 12:23 — Kareg
Ну прям матанализ какой-то
19.03.2009, 21:05 — Terehoff
Kareg — а ты думал, каким образом работают поисковики — думаешь просто так! Прочитал одну статью, как человек хотел устроиться работать в Yandex. После собеседования он просто офигел и выдал — я не смогу работать с теми, кто за обедом спокойно разговаривает о первом замечательном пределе! Информационный поиск — это прежде всего наука!
20.03.2009, 11:26 — Моторокер
а что за код комментария в статье?
/!—[if !vml]—
/!—[endif]—
?
Заменил угловые скобки на слеши.
О, в статье только один восклицательный знак! Прогресс
20.03.2009, 12:11 — Terehoff
Моторокер — не совсем понял про код комментария.
23.03.2009, 05:03 — Анастасия
Формула — это хорошо:), но вот только самое главное в этой формуле — функции и подбор (или выбор) коэффициентов, он куда важнее внешней формы (типа линейная комбинация факторов таких-то умножить на фактор такой-то). Будет что-то раскрывающее эти факторы «вглубь»?
23.03.2009, 09:09 — Terehoff
Анастасия, значения коэффициентов — это ключи к разгадке алгоритма поисковой системы. Их никто не скажет, можно лишь попытаться подобрать в процессе эксперимента. В последующих статьях цикла теории SEO я подробнее оставнолюсь на каждом факторе ранжирования и теоретической формуле его расчета. Подписывайся на RSS и не пропустишь обновления, которое будет на этой неделе
23.03.2009, 15:01 — Анна
Я и не знала, что с факторами ранжирования все так запущено:)) Да, непростое это дело — электронная коммерция и раскрутка сайтов. Желаю Вам успешной защиты диссертации! Спасибо за информацию!
23.03.2009, 17:39 — Terehoff
Анна — спасибо и Вам Анна. Буду рад видеть вас на своем блоге!
24.03.2009, 22:43 — Argon
За статью спасибо, желаю удачи с диссертацией!
Хоть и немного опоздал с комментом
24.03.2009, 23:04 — Terehoff
Argon — на днях будет новая статья из цикла теория SEO. Подписывайтесь на RSS чтобы не опаздывать
24.03.2009, 23:47 — Argon
Уже подписался.
25.03.2009, 17:58 — BloggerSeo
Эту статью я периодически просматриваю и частично использую в своей работе уже 2-3 года (точной даты выхода не помню). Что же такого вы в неё привнесли кроме банального копипаста?
25.03.2009, 23:05 — Terehoff
BloggerSeo — формула (2) — это моя модернизация первоисточника. В последующих статьях данного цикла вы найдете еще немало дополнений. Кроме того, эта статья не совсем первоисточник. В сети есть еще информация на эту тему.
26.03.2009, 09:55 — BloggerSeo
То что эта статья не истинный первоисточник я знаю, и ваша модернизация на самом деле ничего особенно нового не привносит. Глубже копать нужно ) (попробуйте сопоставить формулы и реальные данные — тогда поймете о чем я говорю)
26.03.2009, 11:49 — Terehoff
BloggerSeo — я не претендую на научную новизну в рамках академии наук. Я всего лишь опубликовал статью по мотивам своей диссертации. Много там нового или нет, это уже другой вопрос. Я нашел материал, решил его немного дополнить и опубликовал со ссылкой на первоисточник. Я выслушал выше мнение, оно полезно для меня, будем работать дальше. У вас ко мне еще есть вопросы?
14.09.2009, 09:43 — Андрей Морковин
На моей памяти — это первая диссертационная работа, которая, по моим ощущениям, будет иметь смысл и будет интересна.
27.12.2009, 16:32 — Папараць-кветка
Легко работать с теми, кто за обедом спокойно разговаривает о первом замечательном пределе?
24.03.2010, 14:19 — Mnogopil
Подобные формулы уже видел в инете — они далеко не новы. А вот тема диссертации действительно интересно — хотелось бы поглубже познать работы поисковиков (возможно даже в альтернативе). В интернете с диссертацией можно будет ознакомиться? =)
25.01.2011, 08:43 — Анатолий
Только есть и более актуальная информация в статье *** как раз написано про Спектр «сам Спектр является гибридным методом, т.к. условно говоря, на входе модель ранжируется по Поточечному подходу, а на выходе, при построении итоговой выдачи, список формируется по Списочному подходу».
02.08.2010, 10:03 — Пишем пост под запрос для продвижения в ROOKEE | Блог Терехова
[…] так же прочитать по теме: как раскрутить сайт, расчет релевантности поисковыми системами, внутренние факторы ранжирования. Я думаю, эти посты […]