Воп33
Документальные системы служат для работы с документами, в которых информация хранится в виде текстовых документов (статьи, книги, рефераты, тексты законов) и графических объектов, снабженная тем или иным формализованным аппаратом поиска. Цель системы, как правило, – выдать в ответ на запрос пользователя список документов или объектов, в какой-то мере удовлетворяющих сформулированным в запросе условиям.
При документальном поиске потребитель сам извлекает из документа интересующие его факты и идеи.
Автоматизация процесса информационного поиска потребовала формализации представления основного смыслового содержания документов в виде поискового предписания (ПП) и поисковых образов документов (ПОД). В процессе информационного поиска определяется степень соответствия содержания документов и запроса пользователя путем сопоставления ПОД и ПП. Решение о выдаче или не выдаче документа в ответ на запрос принимается на основе некоторого набора правил, по которому данная ИПС определяет степень смысловой близости между ПОД и ПП. Такой набор правил получил название критерия смыслового соответствия (КСС). Критерий может быть задан явно или неявно и базируется на понятии формальной релевантности ПОД и ПП.
Что такое информация?
.2 Что такое данные?
1.3 Что такое предметная область?
1.4 Схема преобразования информации в данные
1.5 Что такое ИС?
2. Информационный обмен в ИС.
2.1 Что такое информационная деятельность?
2.2 Что понимается под системой информационного обмена?
2.3 Разновидности систем обмена.
2.4 Последовательность процессов преобразования информации в ИС.
2.5 Что такое информационная потребность?
2.6 Какие функции выполняет субъект основной деятельности?
2.7 Кто понимается под потребителем информации?
Релева́нтность (лат. relevo — поднимать, облегчать) в информационном поиске — семантическое соответствие поискового запроса и поискового образа документа[1]. В более общем смысле, одно из наиболее близких понятию качества «релевантности» — «адекватность», то есть не только оценка степени соответствия, но и степени практической применимости результата, а также степени социальной применимости варианта решения задачи.
Пертине́нтность (лат. pertineo — касаюсь, отношусь) — соответствие найденных информационно-поисковой системой документов информационным потребностям пользователя, независимо от того, как полно и как точно эта информационная потребность выражена в тексте информационного запроса. Иначе говоря, это соотношение объёма полезной информации к общему объёму полученной информации.
Критерий смыслового соответствия - формальное правило, по которому поисковые образы документа и запроса считаются совпадающими или несовпадающими.
Вопр 35
Информационно-поисковый язык (ИПЯ) — искусственный язык, представляющий совокупность средств для описания формальной и содержательной структуры для поиска (путем индексирования) по запросу пользователя.
Рубрикатор разработан в соответствии с "Положением о лингвистическом обеспечении ГАСНТИ" (М.: ГКНТ СССР, 1986), ГОСТ 7.49-84 "СИБИД, Рубрикатор ГАСНТИ, Структура, правила использования и ведения" и ГОСТ 7.77-"СИБИД. Межгосударственный рубрикатор научно-технической информации. Структура, правила использования и ведения. Рубрикатор предназначен для:
определения тематического охвата информационных служб, систем, ресурсов;
формирования информационных массивов и органах НТИ с целью обмена;
систематизации материалов в информационных изданиях;
индексирования документов и поиска их по рубрикам;
адресации запросов в информационных сетях;
выполнения нормативной функции при разработке и совершенствовании локальных рубрикаторов; выполнения функции языка-посредника между другими классификационными системами (УДК, МПК, ББК и др.), используемыми в автоматизированных информационных системах.
В основе построения дескрипторных ИПЯ лежит принцип координатного индексирования, который предполагает, что основное смысловое содержание документа может быть выражено списком ключевых слов. К ключевым словам относятся так называемые полнозначные слова — существительные, прилагательные, глаголы, наречия, числительные, местоимения. Ключевыми словами не могут быть предлоги, союзы, связки, частицы.
Основными элементами ДИПЯ являются :
* словарь лексических единиц;
* правила применения ИПЯ (грамматика), определяющие процедуру перевода текстов документов и запросов с естественного
языка на ИПЯ; * правила построения ИПЯ.
Дескриптор — понятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов. Дескриптор — это имя класса синонимов. В качестве дескрипторов могут быть использованы код, слово или словосочетание. Разработка дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса (ИПТ).
ВОПРОС 36 Основные модели поиска текстовой информации. Оценка качества документальных информационно-поисковых систем.
Модели поиска
Наиболее развитые технологии текстового поиска обеспечиваются в настоящее время полнотекстовыми системами. Как уже было показано, существуют различные подходы к построению таких систем. Эти различия связаны не только с разнообразием форм информационных потребностей пользователей, но и, главным образом, с различием способов представления полнотекстовых документов и пользовательских запросов в системе.
Под моделью поиска понимается сочетание: способа формирования представлений документов; способа формирования представлений поисковых запросов; вида критерия релевантности документов.
Простейшие модели поиска. Во многих системах используются простейшие модели поиска. К их числу относятся, например, рассмотренные выше модели поиска дескрипторных ИПС и систем, использующих Дублинское ядро.
Другим примером простейших моделей поиска являются модели, основанные на классификаторах. В модели, основанной на классификаторе, документы представляются идентификаторами классов в иерархической структуре классификатора, к которым относится данный документ. Представление запроса в простейшем случае также представляет собой идентификатор интересующего пользователя класса заданного классификатора. Критерием релевантности документа является условие, что класс документа совпадает с каким-либо классом в представлении запроса или является его подклассом.
В более сложном случае в моделях поиска, основанных на классификаторе, допускается указание в запросе нескольких классов классификатора. При этом релевантными считаются документы, принадлежащие какому-либо из указанных в запросе классов или его подклассу. Такая модель поиска близка к рассматриваемой далее булевской модели.
Модели контекстного поиска. В моделях контекстного поиска используется представление документа как совокупности всевозможных встречающихся в его тексте слов и словосочетаний, не считая так называемых стоп-слов. Стоп-слова — это служебные слова (предлоги, союзы и т.п.),