5. Информационный поиск. Информационно-поясковый язык. Поисковое предписание.
Информационный поиск (ИП) (англ.
Information retrieval) — процесс поиска неструктурированной документальной информации и наука
об этом поиске.
Поиск информации представляет собой процесс выявления в некотором множестве
документов (текстов) всех таких, которые посвящены указанной теме (предмету),
удовлетворяют заранее определенному условию поиска (запросу) или содержат
необходимые (соответствующие информационной потребности) факты, сведения,
данные.
Процесс
поиска включает последовательность операций, направленных на сбор, обработку и
предоставление необходимой информации заинтересованным лицам.
В общем
случае поиск информации состоит из четырех этапов:
определение
(уточнение) информационной потребности и формулировка информационного запроса;
определение
совокупности возможных держателей информационных массивов (источников);
извлечение
информации из выявленных информационных массивов;
ознакомление
с полученной информацией и оценка результатов поиска.
Виды поиска:
-
Полнотекстовый
поиск — поиск по всему содержимому документа. Пример полнотекстового поиска —
любой интернет-поисковик, например www.yandex.ru, www.google.com. Как правило,
полнотекстовый поиск для ускорения поиска использует предварительно построенные
индексы. Наиболее распространенной технологией для индексов полнотекстового
поиска являются инвертированные индексы.
-
Поиск
по метаданным — это поиск по неким атрибутам документа, поддерживаемым системой
— название документа, дата создания, размер, автор и т. д. Пример поиска по
реквизитам — диалог поиска в файловой системе (например, MS Windows).
-
Поиск
по изображению — поиск по содержанию изображения. Поисковая система распознает
содержание фотографии (загружена пользователем или добавлен URL изображения). В
результатах поиска пользователь получает похожие изображения. Так работают
поисковые системы:
- Xcavator
- Retrievr
- PolarRose
- Picollator
Online by Recogmission
-
Адресный поиск - процесс поиска документов по чисто формальным признакам,
указанным в запросе.
Для осуществления нужны следующие условия:
-
Наличие
у документа точного адреса
-
Обеспечение
строгого порядка расположения документов в запоминающем устройстве или в
хранилище системы.
Адресами документов могут выступать адреса веб-серверов
и веб-страниц и элементы библиографической записи, и адреса хранения документов
в хранилище.
Семантический поиск - процесс поиска документов по их
содержанию.
Условия:
-
Перевод
содержания документов и запросов с естественного языка на информационно-поисковый
язык и составление поисковых образов документа и запроса.
-
Составление
поискового описания, в котором указывается дополнительное условие поиска.
Принципиальная разница между адресным
и семантическим поисками состоит в том, что при адресном поиске документ рассматривается как
объект с точки зрения формы, а при семантическом поиске - с точки зрения
содержания.
При
семантическом поиске находится множество документов без указания адресов.
В этом
принципиальное отличие каталогов и картотек.
Библиотека
- собрание библиографических записей без указания адресов.
Документальный
поиск - процесс поиска в хранилище информационно-поисковой системы первичных
документов или в базе данных вторичных документов, соответствующих запросу
пользователя.
Два вида документального
поиска:
-
Библиотечный,
направленный на нахождение первичных документов.
-
Библиографический,
направленный на нахождение сведений о документах, представленных в виде
библиографических записей.
Фактографический поиск - процесс поиска фактов, соответствующих
информационному запросу.
К
фактографическим данным относятся сведения, извлеченные из документов, как
первичных, так и вторичных и получаемые непосредственно из источников их
возникновения.
Различают два вида:
-
Документально-фактографический,
заключается в поиске в документах фрагментов текста, содержащих факты.
-
Фактологический
(описание фактов), предпологающий создание новых фактографических описаний в
процессе поиска путем логической переработки найденной фактографической
информации.
Информационный поиск — большая междисциплинарная область
науки, стоящая на пересечении когнитивной психологии, информатики,
информационного дизайна, лингвистики, семиотики, и библиотечного дела.
ИП
рассматривает поиск информации в документах, поиск самих документов, извлечение
метаданных из документов, поиск текста, изображений, видео и звука в локальных
реляционных базах данных, в гипертекстовых базах данных таких, как Интернет и
локальные интранет-системы.
Существует
некоторая путаница, связанная с понятиями поиска данных, поиска документов,
информационного поиска и текстового поиска. Тем не менее, каждое из этих
направлений исследования обладает собственными методиками, практическими
наработками и литературой.
В настоящее время ИП — это бурно развивающаяся область
науки, популярность которой обусловлено экспоненциальным ростом объемов
информации, в частности в сети Интернет. ИП посвящена обширная литература и
множество конференций. Одной из наиболее известных является TREC, организованной
в 1992 Министерством обороны США совместно с Институтом Стандартов и Технологий
(NIST) с целью консолидации исследовательского сообщества и развития методик
оценки качества ИП.
Запрос — это формализованный способ
выражения информационных потребностей пользователем системы. Для выражения
информационной потребности используется язык поисковых запросов, синтаксис
варьируется от системы к системе. Кроме специального языка запросов,
современные поисковые системы позволяют вводить запрос на естественном языке.
Объект запроса — это информационная сущность,
которая хранится в базе автоматизированной системы поиска. Несмотря на то, что
наиболее распространенным объектом запроса является текстовый документ, не
существует никаких принципиальных ограничений. В частности, возможен поиск
изображений, музыки и другой мультимедиа информации. Процесс занесения объектов
поиска в ИПС называется индексацией. Далеко не всегда ИПС хранит точную копию
объекта, нередко вместо неё хранится суррогат.
Центральная задача ИП — помочь пользователю удовлетворить
его информационную потребность. Так как описать информационные потребности
пользователя технически непросто, они формулируются как некоторый запрос,
представляющий из себя набор ключевых слов, характеризующий то, что ищет
пользователь.
Классическая задача ИП, с которой началось развитие этой
области, — это поиск документов, удовлетворяющих запросу, в рамках некоторой
статической коллекции документов. Но список задач ИП постоянно расширяется и
теперь включает:
Вопросы
моделирования;
Классификация
документов;
Фильтрация
документов;
Кластеризация
документов;
Проектирование
архитектур поисковых систем и пользовательских интерфейсов
Извлечение
информации, в частности аннотирования и реферирования документов;
Языки
запросов и др.
Информационно-поисковый язык,
знаковая система,
предназначенная для описания (путём индексирования) основного смыслового
содержания текстов (документов) или их частей, а также для выражения смыслового
содержания информационных запросов с целью реализации информационного поиска.
Любой абстрактный И.-п. я. состоит из алфавита (списка элементарных символов),
правил образования и правил интерпретации. Правила образования устанавливают,
какие комбинации элементарных символов допускаются при построении слов и выражений,
а правила интерпретации — как надлежит понимать эти слова и выражения.
И.-п. я. должен располагать
лексико-грамматическими средствами, необходимыми для выражения основного
смыслового содержания любого текста и смысла любого информационного запроса по
данной отрасли или предмету, быть недвусмысленным (допускать одно истолкование
каждой записи), удобным для алгоритмического сопоставления и отождествления
(полного или частичного) записей основного смыслового содержания текстов и
смыслового содержания информационных запросов. При разработке конкретного И.-п.
я. учитываются специфика отрасли или предмета, для которой этот язык создаётся,
особенности текстов, образующих поисковый массив, характер информационных
потребностей, для удовлетворения которых создается данная
информационно-поисковая система.
В большинстве И.-п. я. основной словарный
состав (лексика) задаётся его перечислением и представляет собой фрагмент
лексики того или иного естественного языка. Отобранные из естественного языка
слова и словосочетания, в совокупности образующие основной словарный состав,
служат как бы алфавитом данного И.-п. я. Правила образования в таких И.-п. я.
выполняют функцию синтаксиса. В некоторых И.-п. я. основной словарный состав
задаётся (полностью или частично) методом порождения, который заключается в
том, что для таких И.-п. я. правила образования устанавливают, как из данного
алфавита строить слова И.-п. я., а из этих слов — выражения (фразы) и какие из
них будут правильно построенными. И.-п. я. отличается от информационного языка
и от машинного языка. В середине 20 в. в качестве И.-п. я. широко применяются
классификации библиотечно-библиографические и языки дескрипторного типа (см.
Дескриптор).
Поисковое предписание - текст, включающий поисковый образ
запроса и указания о логических операциях, подлежащих выполнению в процессе
информационного поиска. Поисковые предписания формируются при поступлении
запросов.