Press "Enter" to skip to content

Распределение частот поисковых запросов

Распределение частот поисковых запросов. Веб мастера и поисковые системы. Спамдексинг

Поисковые запросы повторяются. Разные люди, в разных городах, в разное время и в разные поисковики вводят одни и те же поисковые запросы: работачатсексmp3windows, linux и др. Частоту использования каждого запроса можно подсчитать. Некоторые встречаются… в среднем раз в неделю, а есть и такие, что ежедневно повторяются сотни раз. Чем длиннее запрос, тем реже он встречается. И наоборот, наиболее частотным запросом из группы, относящейся к какой-либо теме, всегда является наиболее общий запрос — одно слово или словосочетание, определяющее тему.

Поисковые системы сегодня стали основным поставщиком новых пользователей на любой интернет-ресурс, и вебмастера это прекрасно знают. Знают и закономерности спроса. Вебмастер, поддерживающий сайт по трудоустройству, например, в Санкт-Петербурге, безусловно осведомлен, что запрос работа встречается гораздо чаще, чем работа в Питере. Но нечеткий однословный запрос работа используют не только питерцы, но и москвичи, новосибирцы, казаны… Поэтому вебмастерам сайтов по трудоустройству каждого из этих городов хочется попасть на первую страницу поиска именно по «главному» однословному запросу. Но городов много, а на первой странице результатов может разместиться всего лишь 15-20 ссылок.

С целью улучшить свою позицию в результатах поиска вебмастера применяли и применяют ряд технических приемов, предназначенных именно для обмана, «накручивания» поискового робота. Явление это называется спамом поисковых систем или спамдексингом (от spamindexing) и появилось практически одновременно с появлением поисковиков.

Так как последние раньше использовали только текстовые критерии для ранжирования результатов, то типовым приемом спамдексинга стала так называемая «накачка» — искусственное завышение частот (весов) нужных слов на странице.

Варианты «накачивания» использовались самые различные: от примитивного «скрытого», невидимого обычному пользователю текста, до создания специальных текстов, где веса слов тщательно рассчитывались в соответствии со значениями, снимаемыми со страниц, занимающих первые позиции в ссылках по необходимым запросам.

Накачиваются сами страницы, титульные фразы, теги noframes и keywords. Специально создаются страницы с подобными «оптимизированными для поисковиков» текстами, попадая на которые, пользователь автоматически перебрасывается на другой сайт. Либо просто видит крупную надпись «Вход». Они так и называются — входные страницы. Более того, разработана специальная техника (клоакинг), когда поисковому роботу показывается одна страница, а пользователям — совершенно другая.

Подобные действия являются бичом поисковиков, потому что сильно перегружают индексы, уродуют внешний вид страниц с результатами поиска и резко снижают релевантность системы, то есть ее качество и ее конкурентное преимущество в борьбе за популярность с другими поисковиками.

История поисковиков есть история их постоянной борьбы со спамом. Совсем недавно в поисках оружия против текстовой «накачки» поисковики начали дополнять текстовые алгоритмы ранжирования результатов поиска нетекстовыми критериями — а именно, ссылочными.

Нетекстовые критерии релевантности

Нетекстовые критерии можно разделить на три основных типа. Мы даем условные названия, так как устоявшейся терминологии пока нет:

  • ссылочно-расчетные,
  • ссылочно-текстовые,
  • каталожные.

Как мы уже говорили, в случаях нетекстового критерия на ранжирование страницы влияет не ее содержание, а другие факторы.

Ссылочно-расчетные критерии. К ссылочно-расчетным критериям относится алгоритм поисковой системы Google — так называемый взвешенный индекс цитирования PageRank (PR). Подробная статья о нем Криса Райдингса (перевод и комментарии А. Садовского) имеется на сайте Александра Садовскогоhttp://www.digits.ru/.

Индекс цитирования учитывает, как много ссылок имеется в Сети на ваш сайт, и насколько авторитетны ссылающиеся на вас сайты. Авторитетность «цитирования» определяется также по количеству ссылок на «цитирующего». Для расчета индекса цитирования Google и подобные ему системы регулярно «перетряхивают» невообразимо огромные матрицы связей между сайтами Интернета, пересчитывая вес ссылок и авторитетность ресурсов (заметим, что Google использует для этого «ферму» более чем из 10 000 серверов!). Подобный алгоритм используется также «Яндексом».

Каталожные критерии. К каталожным критериям можно отнести индекс цитирования «Яндекса» (citation indexCY) и алгоритм выдачи результатов поиска «Рамблера». В обоих случаях принцип один — наверху результатов поиска по запросу в индексах выдается несколько ссылок на сайты, зарегистрированные в принадлежащих порталам тематических каталогах. В случае «Яндекса» показывается до трех ссылок на сайты из каталога «Яндекса», если в их описании имеются слова запроса. Ранжирование производится по убыванию индекса цитирования «Яндекса». Каталожные ссылки в результатах поиска «Яндекса» четко отличаются от обычных счетных: они не нумеруются, а отмечаются точками. Описание ресурса в каталоге «Яндекса» проверяется, а частенько и составляется вручную составителями каталога (так называемыми модераторами). Индекс цитирования, естественно, рассчитывается автоматически.

В свою очередь, «Рамблер» «замешивает» на первую страницу результатов поиска по запросу до пяти ссылок на сайты, зарегистрированные в каталоге-рейтинге Rambler’s Top100, если их посещаемость (по «хостам») выше некоторого минимального порога. Критерием для внесения данных ссылок в список результатов поиска служит наличие слов запроса в описании сайта, сделанном для Rambler’s Top100. В отличие от «Яндекса», где размер описания ограничен двумя сотнями символов, на индексацию в Rambler’s Top100 может быть подано описание размером до 4000 символов.

При внесении в рейтинг описание сайта также может проверяться сотрудником «Рамблера» — модератором рейтинга.

Ссылочно-текстовые критерии. К ссылочно-текстовым критериям может быть отнесен алгоритм, не так давно появившийся в «Яндексе». В данном случае «Яндекс» индексирует текст ссылки (то есть текст, выделенный как гиперссылка, на странице сайта). Другими словами, индексируется содержимое тега <a href=…>, и если запрос совпадает с этим содержимым, в результатах поиска выдается адрес, указанный в теге.

«Яндекс», очевидно, запоминает только внешние ссылки с сайтов, то есть страница, на которой указывает ссылка, не должна принадлежать сайту, где эта ссылка размещена.

При этом при показе результатов поиска подобная страница не имеет титула, и «Яндекс» сопровождает ссылку на нее явным указанием — «адрес найден по ссылке».

Спрос и предложение — точки сближения в поисковых системах

Поисковые запросы являются реальным выражением спроса пользователей на информацию в Интернете. Предложение информации осуществляется на страницах ресурсов Интернета. Индексирующие поисковые системы сегодня являются бесспорным лидером трафикогенерации для большинства сайтов и являются наиболее естественным связующим звеном, соединяющим спрос и предложение.

Как мы уже показали, в основе всех текстовых критериев поисковых систем лежит представление, что пользователь ищет цитату из какого-то документа. На самом же деле это не так. Пользователи ищут не цитаты из документов, а решение своих проблем — ответы на свои вопросы, которые они даже не всегда могут точно сформулировать. Обсуждение этого вопроса выходит за рамки предмета данной статьи, приведем лишь одно из доказательств.

Вот оно: язык спроса радикально отличается от языка предложения. Характеристиками языка предложения (текстов сайта) в массе являются грамотность, литературная корректность, четкость изложения мыслей. Этого совершенно нельзя сказать о языке спроса (языке запросов) — основная масса поисковых запросов относится к нечетким, т. е. допускающим более одного варианта понимания; запросы часто слишком лаконичны, полны опечаток, смешивают кириллицу и латиницу и т.п.

Поисковикам неоткуда брать информацию для своих индексов, кроме как со страниц, подготовленных вебмастерами. И они берут ее в рафинированном, литературном виде.

С другой стороны, вебмастерам никогда не удастся обучить пользователей формулировать поисковые запросы «как надо», длинными гладкими фразами на хорошем русском языке.

Поэтому первым шагом даже не подготовки сайта к индексации, а его разработки должно быть изучение того, как пользователи ищут в Сети информацию. Ту информацию, которую владелец сайта собирается предлагать на своем ресурсе.

Технически этот анализ осуществляется с помощью получения реальных формулировок запросов и информации об их частотах, выделении устойчивых направлений спроса, базовых формулировок и типовых конструкций поисковых запросов (подробнее об этом рассказано в статье Игоря Ашманова«Анализ спроса и повышение видимости в поисковых машинах»).

Далее разработчикам предстоит решить, как же соединить требования, предъявляемые к печатному тексту, с необходимостью включения в них слов и конструкций, информация о которых была получена путем анализа поисковых запросов. Процесс этот, увы, алгоритмизировать невозможно. Здесь разработчикам сайта придется решить не очень сложную, но важную лингвистическую задачу — попытаться описать свой бизнес не словами генерального директора, вебмастера или отдела маркетинга компании, а словами публики.

С чего начать

Наверное, эту статью логичнее было бы начать с конца. Сначала — изучение спроса, потом создание текстов, потом — оформление текстов с учетом текстовых критериев ранжирования, потом оформление описаний страниц для большей привлекательности ссылок на них в поисковых системах, и лишь потом — старт проекта и начало работ по использованию нетекстовых критериев (расстановке ссылок и пр.).

Действительно, это — самый правильный путь. Но на следование им не всегда хватает времени, ресурсов и терпения.

Однако мы еще раз повторим, что основная масса ошибок вебмастеров, снижающих видимость сайта в поисковых системах, касается не «коренных» задач планирования, и не неосведомленности в тонкостях построения «иерархических», «циклических» и «обширных» систем связывания страниц для оптимизации PageRank. И дело не в неспособности писать хитрые «входные страницы», чтобы не быть «забанеными» модераторами или фильтрами поисковых машин.

Основная ошибка банальна — это неумение работать с титульными фразами и описаниями. Исправив грубые ошибки в титулах и описаниях, можно, во-первых, значительно расширить круг поисковых запросов, по которым ссылки на страницы сайта будут показаны на лучших позициях. И, во-вторых, придать своим ссылкам в поисковиках достойный, привлекательный внешний вид, вызывающий желание щелкнуть по ним.

Начинать нужно именно с этого.

 

 

Be First to Comment

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *