Press "Enter" to skip to content

Теории информационных систем. Поисковые системы Яндекс и Рамблер.

Введение

Поиск информации является одной из основных составляющих человеческой деятельности, с ним мы сталкиваемся ежедневно: изучая театральную афишу, чтобы выбрать интересный спектакль, подбирая в расписании поездов удобную электричку, листая телефонную книгу. Человеку, в силу своей профессии или увлечений часто сталкивающемуся с подбором и поиском какой-либо тематической информации, рано или поздно (с возрастанием ее объема) приходится применять некоторые принципы систематизации и классификации имеющихся данных, обеспечивающие более удобный и эффективный поиск. Так, в библиотеках составляют картотеку: сведения о книге по определенной схеме записываются на карточку, туда же помещается шифр — несколько букв и цифр, по которым можно определить местоположение книги (хранилище, стеллаж, полку); карточки расставляются в алфавитном или тематическом порядке. Применение ЭВМ дает более широкие возможности для работы с большими массивами информации.

Информационная система представляет собой систему, реализующую автоматизированный сбор, обработку и манипулирование данными и включающая технические средства обработки данных, программное обеспечение и обслуживающий персонал.

Основные определения

Информационно-поисковая система (ИПС) — программная система для хранения, поиска и выдачи интересующей пользователя (абонента) информации. Абонент обращается к ИПС с информационным запросом — текстом, отражающим информационную потребность данного абонента, например, его желание найти список книг по теории информационного поиска или список аптек, в которых можно купить нужное лекарство. Поиск информации ведется в поисковом массиве, который формируется (и по мере необходимости обновляется) разработчиками или администраторами системы. Элементы поискового массива вводятся в информационно-поисковую систему на естественном (или близком к нему) языке, а затем обычно подвергаются индексированию, т.е. переводу на формальный информационно-поисковый язык.

Индексирование — выражение центральной темы или предмета какого-либо текста или описание какого-либо объекта на информационно-поисковом языке.

Предмет — объект (материальная вещь, понятие, свойство или отношение), который рассматривается или упоминается в документе/информационном запросе.

Тема документа/информационного запроса — раздел науки или техники, область практической деятельности или проблема, которой посвящен документ/ информационный запрос.

По характеру поискового массива и выдаваемой информации ИПС подразделяют на документальные и фактографические.

 

Релевантность

Целью ИПС является выдача документов, релевантных (семантически соответствующих) запросу (по-английски relevant — относящийся к делу). Различают релевантность содержательную и формальную. Релевантность содержательная трактуется как соответствие документа информационному запросу, определяемое неформальным путем (Василиса Премудрая сама прочитает письма всех добрых молодцев и выберет кандидатов в женихи, отвечающих ее требованиям), а релевантность формальная — как соответствие, определяемое алгоритмически путем сравнения поискового предписания и поискового образа документа на основании применяемого в информационно-поисковой системе критерия выдачи.

Критерий выдачи — формальное правило, совокупность признаков, по которым определяется степень формальной релевантности поискового образа документа и поискового предписания и принимается решение о выдаче/невыдаче некоторого документа в ответ на информационный запрос.

В автоматизированных системах поиск основан на формальной релевантности, содержательная релевантность в них определяется, например, путем экспертных оценок и используется для получения данных об эффективности информационного поиска в системе (качестве ее работы). В качестве критерия выдачи может быть выбрано полное совпадение поисковых образов документа и запроса, включение множества ключевых слов запроса во множество ключевых слов документа, пересечение этих множеств и др.

В рассматриваемом примере при выборе в качестве критерия выдачи полного совпадения ключевых слов документа и запроса клиенту должны быть предоставлены письма персонажей, полностью отвечающих его требованиям. Навряд ли это их удовлетворит, так как явно выбор будет не слишком велик. Этот критерий больше бы подошел для системы, где необходима точность, например, определяющей выбор лекарства при лечении определенной болезни (пусть их будет немного, зато все подходящие), здесь же, наверное, уместен критерий на пересечение.

Вывод: в среднем полезной информации, по всему поиску,  составляет 32%. В результате поиска по двум поисковым система Yandex и Rambler было выявлено, что в среднем полезной информации:

  • по поисковой системе Yandex-везде выходит 47,5%.
  • по поисковой системе Yandex-каталог не было найдено не одного сайта
  • по поисковой системе Rambler выходит 32%

Следовательно: наиболее эффективный метод поиска информации, поисковая система Yandex-везде.

Be First to Comment

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *