Раздел: Как написать студенческую работуОбзор поисковых систем
В броузере Internet Explorer русской версии
Internet Explorer 4, входящей в состав Windows 98, предусмотрен легкий
доступ к поисковой странице, расположенной на сервере Microsoft. Через
панель поиска вы получаете доступ сразу к нескольким поисковым серверам.
Хотя сегодня существует около десятка русскоязычных поисковых систем,
мы ограничим свой рассказ о тех системах, которые стандартно вызываются
на панели поиска Internet Explorer 4 - Rambler, Яndex, Апорт!
Rambler, http://www.rambler.ru
Поисковая система Rambler была изначально
создана в фирме "Стек" для возможности поиска по русскоязычным
серверам и состоит из двух частей: поисковой программы-робота и базы
данных. Компания "СТЕК" образовалась в Научном Центре Биологических
Исследований в г. Пущино (Московская область) в 1991 году, а автором
поисковой системы является Дмитрий Крюков.
Первая часть является роботом, который
может получать адреса документов через прокси-сервер или непосредственно
с указанного узла, индексирует содержание документа и помещает результаты
этого индексирования в базу данных. Робот может рекурсивно сканировать
определенные хосты. Он поддерживает стандартный механизм исключения
роботов через файлы ROBOTS.TXT.
Второй частью Rambler является собственно
сама поисковая система по серверам России и стран СНГ, содержащая
миллионы документов с более чем 15,000 сайтов (имен DNS). Поисковая
система Rambler поддерживает различные логические операции между словами,
а также усечения слов с помощью метасимволов. Пользователь может определить
выходной формат документов, максимальное количество результатов поиска
и т. д.
Апорт! http://www.aport.ru
Поисковая система Апорт! - это проект
фирмы Агама при поддержке российского отделения Intel. Система задумана
и реализована как Web-индекс для осуществления поиска в Российской
части Интернета, на русскоязычных серверах СНГ и мирового Интернет
Как указывается в документе на сервере http://www.aport.ru/, по состоянии
на декабрь 1998 года индексная база содержала ссылки на примерно 2
млн. документов. К сожалению, сервер содержит ограниченную информацию
по алгоритмам работы данной поисковой системы, поэтому на этом мы
вынуждены завершить этот короткий рассказ об Апорт!
Яndex, http://yandex.ru
Эта поисковая система Интернета - часть
проекта фирмы Comptek по разработке набора средств полнотекстовой
индексации и поиска в текстовых данных с учетом морфологии русского
языка. Яndex (произносится как "яндекс") расшифровывается
как Языковый Индекс или, в английском написании, Yandex - Yet Another
Index.
Как указывается в документе на сервере,
продукты Яndex предназначены для работы с большими объемами русских
текстов всех типов - в виде файлов различных форматов, полей баз данных
и страничек Интернет.
Поисковая машина Яndex была запущена в
эксплуатацию сравнительно недавно - в конце сентября 1997 года и область
поиска системы - русскоязычный Интернет. Отличительные особенности
системы, в соответствии с описанием на http://yandex.ru:
полнотекстовый поиск с полным учетом морфологии русского и английского
языков
мощный язык запросов (в том числе возможность поиска с расстоянием)
возможность запроса на естественном языке
корректная обработка сленговых слов
возможность поиска похожего документа
очень компактный индекс
подсветка слов из запроса в найденных документах
развитая релевантность, позволяющая найти искомую информацию,
не перегружая пользователя тысячами ссылок на не нужные документы;
высокая скорость поиска.
Как работает Яndex
Система просматривает все указанные ей
тексты, преобразует каждое русское слово в нормальную форму (для существительных
это - именительный падеж единственного числа, для глаголов - неопределенная
форма и т.д.) и запоминает подробный адрес каждого слова. Алгоритмы
морфологического разбора, которыми мы занимаемся, позволяют проанализировать
слово, определить его характеристики и найти все формы, например:
идти - идешь - шел; ребенок - дети; окно - окон; отзывать - отозвали.
Яndex обеспечивает индексацию одновременно
с морфологическим разбором. Это позволяет создавать компактный индекс
- около 30% исходных текстов, сохраняя достаточно высокую скорость
индексации - 1-2 Мб/мин. Такая технология дает возможность почти полного
снятия омонимии на этапе индексации.
Морфология базируется на словаре из 90
тыс. слов, к которому добавлены алгоритмы словообразования, а также
механизм построения гипотез для слов, отсутствующих в словаре. Создан
и пополняется словарь имен собственных.
Материал подготовлен с использованием
материалов
интернет-ресурса Поиск
в Web:
приемы эффективной навигации, поиск,
сохранение и печать страниц Web http://www.ricc.kz/usr/parasang/HELP/posobie/IE/search.html#_Toc438220923
Свяжитесь со мной, если у вас есть вопросы
|