22. Поисковые системы.
Поисковая система, каталог – это Web-сайт.
Одной из основных проблем Интернета является поиск информации.
Причины:
1. Множественность и фрагментарность источников.
2. Большое количество различных способов хранения данных
3. Дефицит времени на выборку и обработку информации
4. Стоимость получения информации
5. Ненадежность данных
6. Постоянное обновление и давление информации
ПС состоит из 3 основных частей:
1. Поисковый робот
2. Индекс (БД поиск системы)
3. Поисковая программа
Поисковый робот – это специальная программа, которая периодически просматривает сайты Интернета, с целью обнаружения новых или обновленных страниц, считывает с них информацию, и передает ее индексирующей программой, которая индексирует эту информацию в соответствии с определенными правилами, заложенными разработчиками. Результаты работы индексирующей программы помещаются в БД поисковой системы – индекс.
Для совершения поиска пользователь вносит ключевые слова в поле запроса и запускает поиск.
В этот момент начинает работать поисковая программа, которая сравнивает введенные пользователем ключевые слова, с содержимым индекса, выявляя возможные соответствия.
Результаты поиска выдаются в порядке релевантности (соответствия).
Релевантность – степень соответствия найденного документа исходному запросу.
Пертинентность – степень соответствия найденного документа информационной потребности.
Не всегда документ являющийся релевантным по мнению поисковой системы будет таким для пользователя, т.к. в алгоритме оценки релевантности документа могут учитываться многие факторы:
- популярность страницы;
- частота использования на ней ключевых слов и т.д.
Т.к. поиск осуществляет машина, ей не свойственно понимание многозначности некоторых слов, восприятие разговорной речи.
Системе безразлично, насколько качественно сделан сайт и насколько полную информацию по теме он содержит.
Преимущество ПС в том, что она совершает поиск в огромном массиве информации и обрабатывает огромное количество сайтов.

Хостинг от uCoz