22. Поисковые системы. |
Поисковая система, каталог – это Web-сайт.
Одной из основных проблем Интернета является поиск информации. Причины: 1. Множественность и фрагментарность источников. 2. Большое количество различных способов хранения данных 3. Дефицит времени на выборку и обработку информации 4. Стоимость получения информации 5. Ненадежность данных 6. Постоянное обновление и давление информации ПС состоит из 3 основных частей: 1. Поисковый робот 2. Индекс (БД поиск системы) 3. Поисковая программа Поисковый робот – это специальная программа, которая периодически просматривает сайты Интернета, с целью обнаружения новых или обновленных страниц, считывает с них информацию, и передает ее индексирующей программой, которая индексирует эту информацию в соответствии с определенными правилами, заложенными разработчиками. Результаты работы индексирующей программы помещаются в БД поисковой системы – индекс. Для совершения поиска пользователь вносит ключевые слова в поле запроса и запускает поиск. В этот момент начинает работать поисковая программа, которая сравнивает введенные пользователем ключевые слова, с содержимым индекса, выявляя возможные соответствия. Результаты поиска выдаются в порядке релевантности (соответствия). Релевантность – степень соответствия найденного документа исходному запросу. Пертинентность – степень соответствия найденного документа информационной потребности. Не всегда документ являющийся релевантным по мнению поисковой системы будет таким для пользователя, т.к. в алгоритме оценки релевантности документа могут учитываться многие факторы: - популярность страницы; - частота использования на ней ключевых слов и т.д. Т.к. поиск осуществляет машина, ей не свойственно понимание многозначности некоторых слов, восприятие разговорной речи. Системе безразлично, насколько качественно сделан сайт и насколько полную информацию по теме он содержит. Преимущество ПС в том, что она совершает поиск в огромном массиве информации и обрабатывает огромное количество сайтов. |