Задача поисковых систем — опознать другие серверы Internet при помощи поиска по ключевым словам базы данных, которая состоит из проиндексированного содержания Web-серверов Internet. Ярким представителем поисковых систем являются международная AItaVista и российский Rambler.
Поисковые системы состоят из трех основных частей:
·
Спайдеры (Spider, Crawler, Robot) — программа, которая посещает Web-серверы, считывает и индексирует полностью или частично их содержимое и далее следует по ссылкам, найденным на сервере. Spider возвращается через определенные периоды времени, например каждый месяц, и повторяет индексацию страниц.
· Все, что находит и считывает Spider, попадает в индексы поисковой системы. Индексы системы представляют собой гигантское хранилище информации, где хранятся копии текстовой составляющей всех страниц, которые посетил и проиндексировал Spider
· Третья часть — это программа, которая в соответствии с запросом пользователя перебирает индексы поисковой системы в поисках информации и выдает ему в порядке убывания релевантности найденные документы. Релевантность определяет, насколько полно тот или иной документ отвечает критериям, указанным в запросе пользователя. Разумеется, далеко не всегда документ, признанный поисковой системой наиболее релевантным, будет таким по мнению самого пользователя.
В каждой поисковой системе работает собственный спайдер; каждая система индексирует страницы своим особым способом, и приоритеты при поиске по индексам тоже отличны. Поэтому запрос по определенным ключевым словам или выражениям в каждой из поисковых систем обычно порождает разные результаты.
Наиболее широко известными международными поисковыми системами являются AItaVista (http://www.altavista.digital.com/). Excite (http://www.excite.com/). Hot Bot (http://www.hotbot.com/), Infoseek (http://www.infoseek.com/),
Lycos (http://www.Iycos.com/), WebCrawler (http://www.webcrawler.com/). Остановимся на некоторых из них.