Press "Enter" to skip to content

Факторы, влияющие на релевантность сайта

Примерный алгоритм определения релевантности документа запросу.

Релевантность документа – показатель, отражающий насколько полно соответствует содержание документа конкретному запросу поисковой системы.

Довольно часто, особенно от людей, недавно занявшихся поисковой оптимизацией, приходится слышать просьбу раскрыть «волшебную формулу», с помощью которой можно добиться хороших позиций в поисковых системах. Как частный случай можно привести также вопрос о плотности ключевых слов на странице (с точностью до сотых долей процента), необходимый для попадания на первые строчки выдачи. Сразу же хочу предупредить вас — таких формул и магических цифр нет.

Не правы и те, кто считает алгоритмы поисковых систем абсолютно недоступными «простым смертным». Да, действительно, эти алгоритмы никогда не будут раскрыты во всех тонкостях, потому как слишком много желающих делать «идеальные» странички и занимать первые места в поисковиках, зачастую ухудшая тем самым качество поиска, т.е. выдаваемой пользователю информации.

Однако, основные принципы работы алгоритмов ранжирования документов всё же известны, и прежде чем начать рассказывать о каждом из факторов, оказывающем влияние на релевантность документов запросам, мне хотелось бы ознакомить вас с обобщенной формулой, аппроксимирующей формулы ранжирования, используемые четверкой наиболее популярных в Рунете поисковых машин (Яндекс, Рамблер, Апорт и Google). Повторяю, что это не есть конкретная формула, используемая в поисковых машинах, это лишь сильно укрупненная формула, приближенно описывающая процесс определения релевантности документа запросу. Вот она:

Rа(x)=(m*Tа(x)+p*Lа(x))* F(PRa),

где:
Rа(x) — итоговое соответствие документа а запросу x,
Tа(x) — релевантность текста (кода) документа а запросу x,
Lа(x) — релевантность текста ссылок с других документов на документ а запросу x,
PRа — показатель авторитетности страницы а, константа относительно х,
F(PRa) — монотонно неубывающая функция, причем F(0)=1, можно допустить, что F(PRa) = (1+q*PRа),
m, p, q — некие коэффициенты.

Конечно же, эта формула даёт очень общее представление об алгоритмах ранжирования документов в результатах поиска и даже может вызвать недоумённый вопрос — «почему же, если все поисковики пользуются подобным алгоритмом, результаты в них зачастую сильно различаются?». Как говорится, «дело в деталях». Любой из этих показателей является функцией от других, которые могут учитываться или нет поисковой системой, причём каждый из этих показателей имеет свой «вес», а точнее коэффициент, различный для каждого конкретного поисковика. Также влияние могут оказывать собственные ресурсы поисковых систем, прежде всего их каталоги.

Обо всём этом мы и будем говорить далее, а сейчас хочу обратить внимание лишь на то, что итоговое положение сайта в результатах поиска зависит от 3-х основных составляющих:

  1. Релевантность кода страницы запросу Tа(x)\;
  2. Релевантность запросу ссылок на страницу с других страниц (или ссылочное ранжирование) Lа(x)\;
  3. Показатель авторитетности страницы PRа — коэффициент, не зависящий от поискового запроса и оказывающий влияние на эффект от обеих предыдущих составляющих.

Вот с этого «показателя авторитетности» мы и начнём более подробно рассматривать факторы, влияющие на релевантность документов запросам.

 Факторы, не зависящие от запроса (статические).

Если выразиться точнее — фактор, который в общем случае имеет название показатель авторитетности или ранг документа. В нашей формуле он обозначается как PRa. В рассматриваемых поисковых машинах он именуется по-разному, однако все они при его расчете используют алгоритмы, учитывающие гиперссылки между документами. Эти алгоритмы являются, по сути, модификациями алгоритма PageRank, придуманного в свое время двумя американскими аспирантами Сергеем Брином и Ларри Пейджем, основавшими в последствии поисковую машину Google.

PageRank в Google

С ростом объёма информации в интернете вообще и информации, индексируемой поисковыми системами в частности, перед разработчиками поисковиков встала серьёзная проблема — количество одинаково релевантных запросу документов было велико, и корректно ранжировать их в результатах поиска становилось всё сложнее. К тому же алгоритмы ранжирования, разработанные для контролируемых коллекций документов, оказались беззащитны перед простейшими способами воздействия на них, когда для обеспечения хорошего результата достаточно было просто скопировать структуру расположения ключевых слов из текста хорошо ранжируемого по этому запросу документа. Появилась необходимость разделять информацию на более и менее достоверную, учитывать «важность» или «авторитетность» ресурсов, предоставляющих её. Как это сделать? Лучше всего на основе данных о популярности страницы у пользователей, например посещаемости. Но тогда потребуется устанавливать какой-либо счётчик на каждую страницу. Такой вариант для глобального поиска не подходит. Тогда в качестве критерия была выбрана теоретическая посещаемость страницы.

Была разработана модель, эмулирующая движение пользователя по документам сети путем перехода по ссылкам с документа на документ, подразумевающая, что пользователь с равной долей вероятности перейдет по любой из ссылок, содержащихся в документе, который он в данный момент просматривает. Следовательно, вероятность пользователя попасть на конкретный документ будет зависит от количества ссылок на него с других документов и от того, насколько вероятно нахождение пользователя на одном из ссылающихся документов и сколько исходящих ссылок содержит этот ссылающийся документ. Эта вероятность и была принята за показатель авторитетности или ранг страницы (PageRank):

 

где
PRa — PageRank рассматриваемой страницы,
d — коэффициент затухания (означает вероятность того, что пользователь, зашедший на страницу, перейдет по одной из ссылок, содержащейся на этой странице, а не прекратит путешествие по сети, обычно устанавливается равным 0,85),
PRi — PageRank i-й страницы, ссылающейся на страницу а,
Ci — общее число ссылок на i-й странице.

Одним из распространенных заблуждение является то, что можно вычислить PageRank по этой формуле для отдельно взятого документа, используя известные значения PageRank для ссылающихся на него документов. Так делать нельзя. Чтобы вычислить PageRank какого-либо документа надо составить систему N линейных уравнений данного вида для каждого из документа из поисковой базы, где N — количество документов в поисковой базе. Причем, для выполнения условия, что сумма значений PageRank для всех документов (т.е. вероятность того, что пользователь находится на любой из страниц) равна 1, к свободный члену (1 — d) в каждом уравнении добавляют множитель 1/N. Эта система будет содержать N неизвестных. Решив ее, получим значения PageRank для каждого документа, известного поисковой машине. В поисковой базе крупнейших поисковых машин содержится огромное количество документов. Несмотря на то, что матрица, соответствующая системе уравнений будет сильно разрежена, численное решение этой системы требует огромных вычислительных мощностей. Поэтому поисковая система должна постараться максимально упростить процесс расчета, вводя некоторые допущения. Вот эти конкретные особенности реализации классической формулы PageRank, увы, составляют коммерческую тайну поисковых машин.

Нормированное значение PageRank для конкретного документа, загруженного в браузер, можно узнать, скачав и установив Google ToolBar — специальную панель инструментов для работы с этим поисковиком.

ВИЦ в Яндексе

В Яндексе аналогичная PageRank величина, обозначающая количественное представление «авторитетности» страницы и называемая «взвешенный индекс цитирования» — ВИЦ, была введена весной 2001 года. Как говорили сами представители Яндекса, ВИЦ высчитывается на основе классического алгоритма PageRank «с точностью до деталей реализации».

До осени 2002 года ВИЦ можно было посмотреть с помощью Яндекс-Бара, специальной панели инструментов. В нем отражался ВИЦ главной страницы с точностью до сотых. Теперь в этом индикаторе отображается значение тИЦ, совсем другого показателя, использующегося для ранжирования ресурсов в каталоге Яндекса, и узнать значение ВИЦ не представляется возможным.

Коэффициент популярности в Рамблере.

С осени 2002 года поисковая машина стала рассчитывать для каждого документа коэффициент популярности. Вот что сказано на сайте Рамблера об этом коэффициенте: «Данный коэффициент, как и алгоритм PageRank, основан на учете гиперссылок между страницами сети, однако наша реализация дополнительно использует данные о реальной посещаемости страниц, полученные от счетчика Top100. Дело в том, что «классические» ссылочные алгоритмы фактически учитывают мнение только одной категории пользователей сети — web-мастеров. Действительно, если большому количеству web-мастеров нравится тот или иной ресурс, они размещают на него ссылки. Обычные пользователи, как правило, созданием страниц и сайтов не занимаются, и поэтому учесть их мнение оказывается невозможно. Счетчик Top100 как раз и предназначен для того, чтобы сделать коэффициент популярности более справедливым».

Однако, судя по всему, в последнее время данные о посещаемости документов, полученные от счетчика Top100, оказывают все меньшее и меньшее влияние на коэффициент популярности, так как счетчик не в состоянии противостоять массовым накруткам, практикуемым владельцами некоторых сайтов. Соответственно, все большее значение приобретает составляющая, вычисляемая на основе учета гиперссылок между страницами сети.

Необходимо, заметить, что некоторые документы и даже целые сайты в поисковых машинах могут по той или иной причине исключаться из процесса расчета ранга документа, на который они ссылаются. Так, например, в Яндексе для этих целей существует так называемый «непот-фильтр», который накладывается на ресурсы, находящиеся на бесплатных хостингах, но не описанные в Яндекс-каталоге, ресурсы со свободным размещением ссылок (например, гостевые книги, доски объявлений), сайты, размещающие на своих страницах ссылки, невидимые пользователю и т.п.

Резюмируя вышесказанное, можно сказать, что для повышения ранга страницы необходимо работать над тем, чтобы как можно большее количество документов сети ссылалось на него. Делать это можно различными способами — с помощью обмена ссылками с другими сайтами, регистраций в каталогах и различных тематических ресурсах и т.д. Идеальный способ — сделать свой сайт настолько уникальным и интересным, чтобы владельцы других ресурсов сами считали необходимым поставить ссылку на него. Не следует также забывать, что при расчете ранга документа учитываются как внешние, так и внутренние ссылки. Поэтому грамотная перелинковка документов внутри сайта позволяет повысить ранг самых важных из них с точки зрения содержащейся информации. Наиболее важные в этом смысле документы обязательно должны иметь ссылку с главной страницы сайта, которая, как правило, имеет максимальный ранг среди всех страниц сайта вследствие того, что на нее указывает большинство внешних ссылок на сайт.

ИЦ в Апорте

Апорт в1999 г. первым из отечественных поисковых систем стал использовать для ранжирования документов модификацию классического алгоритма PageRank. Показатель авторитетности документа имеет название «Индекс Цитирования» — ИЦ (также представители Апорта называют его в своих документах как Page Rank, так и взвешенный индекс цитирования). Самым кардинальным отличием от классического PageRank в Апорте является то, что пре расчёте ИЦ документа им учитывается всего одна, «лучшая» ссылка со всех страниц домена второго уровня. «Лучшей» считается та ссылка, которая передаёт наибольший вес документу.

Индексом цитирования сайта (он же Site Rank), использующегося для ранжирования сайтов в каталоге Апорта, считается наибольший индекс цитирования из всех страниц сайта. Значение ИЦ можно узнать только для сайтов, зарегистрированных в каталоге, в соответствующей ему категории.

Be First to Comment

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *