Примеры индексирования документов в конкретной и биографической базе данных
Примеры индексирования документов в конкретной и биографической базе данных
При индексировании документов используется два вида информационно-поискового языка: классификационные индексы и ключевые слова. При формировании базы данных индексирование осуществляется de visu – по полному тексту исходного документа. Такой метод позволяет с помощью набора ключевых слов более полно и адекватно отразить содержание индексируемого документа, а набор ключевых слов по сути может выступать как вспомогательная аннотация документа. Например:
Шмелев К. С металлом в голосе // Мир денег. – 1998. – 15 апр. – С. 2.
Бандиты, вымогавшие цветные металлы у директора «Росвнештерминала» В. Бурова, представились «кобзоновскими».
Ключевыми словами здесь будут:
Цветные металлы. Вымогательство. Контрабанда. ОПГ – «кобзоновская». Кобзон И. Буров В. Иваньков В. = Япончик. Захаров А. = Захар.
Данный пример хорошо показывает, как можно избежать перегруженности аннотации и при этом не допустить потери информации.
Наиболее сложной частью работы по вводу документа в базу данных является выбор ключевых слов при индексировании этого документа. Эта трудность усугубляется отсутствием какой-либо нормализации лексики, используемой при работе над базами данных. Особую сложность вызывает выбор ключевых слов, отражающих названия учреждений, общественных организаций и т. п. С одной стороны, очевидно, что одному объекту должно соответствовать одно название, но с другой стороны – вольное обращение журналистов с обозначением этих объектов (а выбор ключевых слов происходит на основании текста публикации) приводит к тому, что в базе данных одному объекту соответствует несколько названий.
Например:
Ассоциация правовой защиты и реабилитации инвалидов,
Ассоциация социально-правовой защиты и реабилитации инвалидов,
Ассоциация по реабилитации и социальной поддержке инвалидов.
Это затрудняет пользователю поиск и может снизить его полноту. Поэтому, когда пользователь дает запрос на поиск информации, он тоже должен учитывать, что одно и то же учреждение или организация могут быть зафиксированы под разными названиями. Принятие во внимание этого фактора поможет снизить информационные потери, а в некоторых случаях сведет их до минимума.
Иногда из публикаций не всегда понятно, идет ли речь об одном объекте или это различные объекты со сходными наименованиями. Например:
Антимонопольное территориальное управление,
Антимонопольное управление,
Антимонопольный комитет.
Проблемой является и выбор ключевых слов, соответствующих названиям культовых зданий.
Какое ключевое слово предпочесть создателю базы и пользователю из следующего списка:
Собор Св. Петра и Павла,
Собор Петра и Павла,
Петропавловский собор,
Собор Св. апостолов Петра и Павла.
Порой трудно идентифицировать культовые здания, когда в исходной публикации используется слово «храм», а не «церковь» или «собор». Например, если в документе употреблено словосочетание «Никольский храм», то неясно, идет ли речь о Никольском соборе на площади Коммунаров или о Никольской церкви на улице Марата.
Пользователю при формулировании запроса необходимо помнить и о многочисленных переименованиях, начало которым положила перестройка. Например:
Театр им. Ленинского комсомола, см. Балтийский дом.
Необходимо учитывать при составлении запроса и те случаи, когда имеется два общепринятых названия одного объекта. Например:
Центральный выставочный зал, см. Манеж.
Кунсткамера, см. Институт антропологии и этнографии им. Петра Великого.
В настоящее время идет работа по отбору и систематизации ключевых слов, используемых при создании базы данных, что, безусловно, облегчит пользователю доступ к информации. Выявляются параллельные ряды, существующие в словаре, и для каждого ряда синонимов выбирается слово-представитель – дескриптор. Предполагается, что после завершения этого этапа работ индексирование будет по-прежнему осуществляться на основе текста публикации, но не непосредственно: термин или словосочетание, выбранное в качестве ключевого слова, которое попадает в словарь, будет сравниваться с контролируемым словарем и войдет в документ в той форме, которая в этом словаре зафиксирована.
Для журналиста, независимо от места его работы, электронные базы данных по-прежнему представляют самый оперативный источник новейшей информации. К тому же это еще наиболее экономичный источник. Но почти для всех журналистов поиск в электронных базах данных остается двухступенчатым процессом, и проводят они его не самостоятельно. У журналиста появляется идея статьи, библиограф переводит эту идею в параметры поиска, отбирает базу (или базы) данных, осуществляет поиск и передает результаты журналисту, который смотрит, соответствуют ли они запросу.
Полнота и точность полученной информации зависит не только и не столько от квалификации библиографа, сколько от того, как грамотно был сформулирован запрос журналистом. Например, журналист исследует проблему бензиновых кризисов, которые время от времени будоражат рынок. Из разных источников известно, что рынок нефтепродуктов и нефтеносителей в Санкт-Петербурге контролируется, в частности, «тамбовским» преступным сообществом. Известно также, что сильной стороной баз данных является их способность объединять несоизмеримые понятия с тем, чтобы избавить журналиста и библиографа от необходимости искать иголку в стоге сена, – вся информация, не имеющая отношения к делу, при этом исключается. Для одной части уравнения подбираются такие ключевые слова, как организованная преступность, ОПГ тамбовская, для другой – нефть, бензин, бензиновый кризис. В результате журналист получает миллион ссылок на опубликованные статьи, не отвечающие введенному запросу. Почему так происходит? Да потому, что «бензин» может относиться к бензоколонкам, «нефть» – к нефтедобыче и нефтяным компаниям, а словосочетание «организованная преступность» даст десятки статей, посвященных различным криминальным группировкам. Чаще всего это случается, когда поиск ведется в полнотекстовой базе данных и не ограничен, скажем, заголовками или аннотациями статей. Для того чтобы минимизировать «информационный шум» и информационные потери в данном конкретном запросе, необходимо отсечь лишние ключевые слова, скрестив только лишь понятия «ОПГ тамбовская» и «бензиновый кризис».
При формулировании темы поиска для запроса журналисту следует особое внимание уделять используемой при этом лексике. Ведь языковые средства, которые мы, не задумываясь, применяем в обыденной речи, отличаются от нормативного словаря, с которым работает библиограф. Например, ваше ключевое слово «барахолка» – столь привычное и понятное, но имеющее в словаре помету «просторечное», – лучше заменить на «вещевой рынок», поскольку библиограф занес в словарь, скорее всего, именно этот термин.
Отобрав первичную и вторичную информацию по интересующей его теме и смежным темам из всех доступных (с разумными затратами времени и средств) источников, журналист может систематизировать ее и составить аналитическую справку.
Более 800 000 книг и аудиокниг! 📚
Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением
ПОЛУЧИТЬ ПОДАРОКДанный текст является ознакомительным фрагментом.
Читайте также
Примеры ипотечных программ
Примеры ипотечных программ Ипотека. Стандартная программа Условия
Статья 74-1 . Обработка персональных данных с наруше нием законодательства о защите персональных данных
Статья 74-1. Обработка персональных данных с нарушением законодательства о защите персональных данных (1) Несоблюдение требований по обеспечению безопасности персональных данных при их обработке в информационных системах персональных данных влечет наложение штрафа
Приложение 3 Примеры исковых заявлений в суд
Введение В настоящее время особой актуальностью обладают вопросы правового регулирования в сфере потребительского кредитования. Данный институт нуждается в глубоком научном изучении с целью дальнейшего совершенствовании его правового регулирования.Рынок
СТАТЬЯ 259. Собственность хозяйственного товарищества или кооператива, образованного на базе имущества крестьянского (фермерского) хозяйства
СТАТЬЯ 259. Собственность хозяйственного товарищества или кооператива, образованного на базе имущества крестьянского (фермерского) хозяйства 1. Членами крестьянского (фермерского) хозяйства на базе имущества хозяйства может быть создано хозяйственное товарищество или
3. Роль конкретной жизненной ситуации в совершении преступления
3. Роль конкретной жизненной ситуации в совершении преступления Слово «ситуация» происходит от латинского situs (положение, расположение) и означает совокупность, сочетание обстоятельств и условий, создающих те или иные отношения, определенную обстановку или положение.
Статья 259. Собственность хозяйственного товарищества или кооператива, образованного на базе имущества крестьянского (фермерского) хозяйства
Статья 259. Собственность хозяйственного товарищества или кооператива, образованного на базе имущества крестьянского (фермерского) хозяйства 1. Членами крестьянского (фермерского) хозяйства на базе имущества хозяйства может быть создано хозяйственное товарищество или
Статья 259. Собственность хозяйственного товарищества или кооператива, образованного на базе имущества крестьянского (фермерского) хозяйства
Статья 259. Собственность хозяйственного товарищества или кооператива, образованного на базе имущества крестьянского (фермерского) хозяйства 1. Членами крестьянского (фермерского) хозяйства на базе имущества хозяйства может быть создано хозяйственное товарищество или
12. ОБЫЧАИ ПОРТА ИЛИ КОНКРЕТНОЙ ТОРГОВЛИ
12. ОБЫЧАИ ПОРТА ИЛИ КОНКРЕТНОЙ ТОРГОВЛИ Так как Инкотермс предлагают комплект терминов для использования в различной сфере торговли и регионах, невозможно всегда точно сформулировать обязанности сторон. До некоторой степени поэтому необходимо ссылаться на обычай
КОМПЛЕКТ ДОКУМЕНТОВ И ДАННЫХ, ПРЕДСТАВЛЯЕМЫХ ЗАЯВИТЕЛЕМ ДЛЯ ПРОВЕДЕНИЯ ЭКСПЕРТИЗЫ ЭФФЕКТИВНОСТИ И БЕЗОПАСНОСТИ ЛЕКАРСТВЕННОГО СРЕДСТВА
КОМПЛЕКТ ДОКУМЕНТОВ И ДАННЫХ, ПРЕДСТАВЛЯЕМЫХ ЗАЯВИТЕЛЕМ ДЛЯ ПРОВЕДЕНИЯ ЭКСПЕРТИЗЫ ЭФФЕКТИВНОСТИ И БЕЗОПАСНОСТИ ЛЕКАРСТВЕННОГО СРЕДСТВА 1. Заявление о проведении экспертизы лекарственного средства, в котором отражаются:– наименование и адрес (почтовый и
Статья 9. Согласие субъекта персональных данных на обработку своих персональных данных
Статья 9. Согласие субъекта персональных данных на обработку своих персональных данных Комментарий к статье 91. Комментируемая статья определяет порядок, условия и основания получения согласия субъекта персональных данных на их обработку. Законодатель подчеркивает, что
Статья 16. Права субъектов персональных данных при принятии решений на основании исключительно автоматизированной обработки их персональных данных
Статья 16. Права субъектов персональных данных при принятии решений на основании исключительно автоматизированной обработки их персональных данных Комментарий к статье 161. Комментируемая статья определяет права субъектов персональных данных по отношению к принятию
Статья 21. Обязанности оператора по устранению нарушений законодательства, допущенных при обработке персональных данных, а также по уточнению, блокированию и уничтожению персональных данных
Статья 21. Обязанности оператора по устранению нарушений законодательства, допущенных при обработке персональных данных, а также по уточнению, блокированию и уничтожению персональных данных Комментарий к статье 211. Положения комментируемой статьи определяют процедуру
Примеры исчисления налога с имущества, переходящего в порядке наследования
Примеры исчисления налога с имущества, переходящего в порядке наследования Пример №1 Налоговый орган 15 февраля 1995 г. получил от нотариуса сведения о том, что наследство открыто с 10 сентября 1994 г. наследником первой очереди. Стоимость наследованного имущества
Примеры расчета налога с имущества, переходящего в порядке дарения
Примеры расчета налога с имущества, переходящего в порядке дарения Пример №1 Если в течение 1994 года физическим лицом от одного и того же дарителя, не состоящего с одаряемым в родственных отношениях, по нотариально удостоверенным договорам дарения получены три подарка (в
Глава 6 ПРИМЕРЫ
Глава 6 ПРИМЕРЫ На примере нескольких типичных дорожно-транспортных происшествий хочется показать, как в несложных ситуациях из-за неграмотных действий водителя обстоятельства столкновения искажаются, и невиновный превращается в виновного.Наезд на стоящий
Если вас остановил инспектор ДПС и проверяет по базе неоплаченные штрафы
Если вас остановил инспектор ДПС и проверяет по базе неоплаченные штрафы 1. Инспектор ДПС не имеет права останавливать вас для проверки долгов в базе данных. Согласно «Административному регламенту», пришедшему на смену «Наставлению по работе ДПС», у инспектора ДПС есть