Поисковые системы для электронных архивов
Поисковые системы для электронных архивов
Если ресурсы позволяют, то вместо бумажных носителей для ведения архива и его справочного аппарата можно использовать электронные. Рассмотрим применение локальных поисковых машин, систем управления базами данных (СУБД) и систем электронного документооборота.
Простейшим (в смысле трудозатрат и умственных усилий) средством организации архива электронных документов является использование локальных поисковых машин – «искалок» для контекстного поиска. Они занимают промежуточное положение между средствами поиска файлов, встроенными во все операционные системы, и поисковыми машинами, применяемыми в Интернете. От первых они отличаются развитыми средствами формулировки запросов, скоростью поиска, встроенными генераторами отчетов. От вторых – тем, что работают на локальной машине или в локальной сети, хотя, в некоторых случаях, могут передавать запросы на поиск информации большим поисковым машинам Интернета.
После установки «искалки» на компьютер пользователь задает диски или каталоги, в которых хранится архив электронных документов, а также типы файлов, из которых он состоит (текст, документ, файл электронной таблицы, страничка из Интернета и пр.). Программа читает все найденные файлы, причем не только их содержимое, но и специальные поля (заголовок, автор, дата, ключевые слова и т. п.), которые могут присоединять к содержимому файла многие текстовые процессоры и другие программы. Из слов, содержащихся в файлах, строятся особым образом организованные индексы, которые могут составлять 5 – 20% от объема исходных файлов.
Эта процедура выполняется в фоновом режиме и может занимать значительное время. Когда в архив вносятся новые документы или изменяются старые, индекс достраивается. При запросе на поиск «искалка» обращается только к индексу и быстро составляет список файлов, в которых формально встречаются искомые слова в нужных сочетаниях. Из найденных документов неплохо бы составить списки, их можно обрабатывать дальше, в частности загружать документы для последующей работы в текстовые процессоры, электронные таблицы, выводить на печать. Таким образом, за счет небольших предварительных затрат времени при текущей работе над архивом достигается высокая скорость при обращении с запросом.
Достоинства: компактность, скорость, дешевизна, простота использования. Недостатки: поиск только формальный, контекстный – возможность анализа или обобщения на стадии поиска отсутствует; «искалка» не может обращаться к документам, не хранящимся в электронной форме, а значит, не должна быть единственным применяемым средством организации архива или его справочного аппарата.
Использование для организации архива и/или его справочного аппарата различных систем управления базами данных (СУБД) требует, как правило, существенных расходов на приобретение программного обеспечения, определенной квалификации разработчиков и пользователей, а также значительных трудозатрат на создание и пополнение баз данных (БД). Больше всего времени уходит на описание документов в БД – предварительную обработку документа: оценку его смысла, присвоение каждой записи систематических индексов и ключевых слов, наилучшим образом отражающих его содержание, установление связей между записями базы данных. В специальные поля можно занести сведения об авторах, персонах, названия организаций, даты, статистическую информацию, систематические индексы, ключевые слова, аннотации, ссылки на источник публикации, место хранения документа, линк ресурса в Интернете и многое другое. В некоторых случаях прямо в полях базы данных хранят даже тексты документов или прямые ссылки на них.
Журналисту-расследователю помогают в его работе базы данных, организованные по двум типам (это же относится и к архивным материалам вообще): «объектоцентрический» и «источникоцентрический». В первом случае вся информация об объекте (персоне, организации, строении, событии) собирается с течением времени в одной записи БД, посвященной этому объекту, а на источники информации (исходные документы) устанавливаются ссылки. Например, ссылки на статью в газете о преступлениях банды из 10 человек в Приморском районе Санкт-Петербурга могут попасть в 10 персональных записей на членов этой банды, а также в следующие записи: о бандитизме, о криминальной обстановке в Приморском районе, о деятельности РУБОПа, о деятельности оперативника (имярек), о грабежах, об убийствах, об угоне автомобилей и т. д. Это требует больших трудозатрат и творческих усилий, зато каждая запись подобной базы данных в любой момент времени представляет собой фактически готовое досье на человека, событие, явление.
При организации баз данных по второму типу конкретной статье в газете (или документу) соответствует только одна запись, с указанием в полях ключевых слов: фамилий бандитов, видов преступлений, географических или топографических объектов и т. д. Это менее трудоемкий и более формальный процесс. В данном случае досье собирается лишь на стадии поиска в базе данных. Такой подход уменьшает трудозатраты на стадии сбора материалов и увеличивает их на этапе поиска информации в архиве и ее обработки.
Недостатком любой базы данных являются значительные денежные вливания и большие трудозатраты на стадии ее создания и пополнения (в основном это относится к покупке программного обеспечения и ручному индексированию документов, требующему высокой квалификации персонала). Достоинства: высокая гибкость подходов к поиску информации, возможности поиска по сложным наборам критериев (причем качество поиска почти полностью определяется качеством предварительного индексирования записей), высокая степень предварительной готовности полученной информации. При организации запросов возможен как предметный, так и систематический подход. Главное преимущество: база данных может служить как хранилищем фактографической информации, так и единым инструментом обращения к электронным документам и документам на твердых носителях любого типа, в том числе хранящимся в сторонних организациях.
Так же, как и в случае с ведением картотеки, разумно использовать форматы описания записей и структуру БД, совпадающие или в основном совпадающие с применяемыми в организациях, с которыми возможен обмен информацией в электронном виде (различные библиотеки, Российская книжная палата и др.). Хотя подобные форматы очень громоздки, иногда чрезмерно избыточны, а подчас не учитывают специфики журналистской работы, готовые описания документов, хранящихся в этих организациях, можно будет использовать для пополнения своей базы данных. В каждом конкретном случае придется решать: применять «чужой», но «совместимый» формат описания документов, что позволит пополнять свою единую БД из разных источников, или пользоваться собственным форматом, лучше приспособленным для нужд журналиста-расследователя, и одновременно поддерживать или обращаться еще к нескольким БД другой структуры. Но в любом случае наличие хорошо разработанной базы данных позволяет полностью отказаться от ведения разнообразных бумажных картотек и описей архива.
В отдельный класс можно выделить системы организации электронного документооборота в масштабах отдельного рабочего места или всей организации. Эти системы сочетают в себе специализированные базы данных для хранения электронных документов и справочной информации о них, инструменты для сжатия информации «на лету», для разграничения доступа к документам разных пользователей, криптографические средства, средства организации коллективной работы с документами и обмена ими между пользователями, средства сохранения и синхронизации различных версий документов и многое другое. Хотя подобные средства предназначены для комплексной автоматизации «бюрократической» работы, они с успехом могут использоваться и для поддержания архива, поскольку «знают» о существовании бумажных документов и имеют особые инструменты работы с ними.
В отличие от использования «искалок», применение систем управления базами данных или систем электронного документооборота требует хорошей дисциплины труда, тщательно разработанных формальных приемов работы для всех, кто пользуется соответствующей системой, строгого следования внутреннему регламенту организации.
В каждой конкретной ситуации журналисту (и не только ему) при создании и поддержании архива приходится делать выбор между различными способами хранения и структурирования информации, исходя из поставленных задач, материальных, финансовых и людских ресурсов. При серьезном изменении ситуации придется еще и еще раз вносить коррективы в работу. Не стоит расстраиваться: ведь столь сложную структуру, как архив, существенно перестроить без потерь времени, денег, труда или информации еще никому не удавалось!
Справочный аппарат лишь отчасти создается собственными усилиями журналиста, недостающее может быть куплено или бесплатно получено на стороне. Для пополнения справочного аппарата приобретают разнообразные справочники, указатели, досье, библиографические и фактографические базы данных, наборы библиографических карточек Российской книжной палаты и т. п.; используют для этого и множество бесплатных ресурсов – например, службы подписки некоторых поисковых машин в Интернете (Yandex), которые регулярно сообщают о появлении в Сети новых документов, соответствующих заранее сформулированному запросу пользователя. При работе журналиста в рамках какой-либо организации выбор аппаратных и программных средств определяется не только решаемыми задачами и финансовыми соображениями, но и традициями организации, ее внутренними стандартами, пристрастиями или квалификацией лица, ответственного в ней «за компьютеры».
Такие внутренние стандарты могут распространяться на марки и модели компьютеров, мониторов, принтеров, сканеров, модемов, сетевых карт, устройств хранения информации (дискет, дисководов Zip, сменных винчестеров, пишущих CD, магнитооптических накопителей, стриммеров и пр.), на операционные системы, программное обеспечение и его версии. Могут вводиться ограничения на форматы используемых для разных задач файлов (хранение текстовой информации, графики, звука, движущегося изображения), их наименования и размещение на накопителях, на протоколы обмена информацией. Применение непредусмотренных устройств или программ может не приветствоваться, а то и прямо запрещаться. Внутренние стандарты могут предусматривать обращение к криптографии, ограничения на доступ к различным видам информации, на обмен информацией с внешними структурами, запрет на выход в Интернет и т. д.
В любом случае стоит ориентироваться не на освоение нового, передового и интересного программного обеспечения, а на использование уже проверенного, особенно если оно широко применяется коллегами для решения аналогичных задач и/или имеется штатный специалист, который будет заниматься поддержкой пользователя и его обучением.
Более 800 000 книг и аудиокниг! 📚
Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением
ПОЛУЧИТЬ ПОДАРОКДанный текст является ознакомительным фрагментом.
Читайте также
Статья 171. Умышленное повреждение системы водоснабжения и канализационной системы при производстве работ
Статья 171. Умышленное повреждение системы водоснабжения и канализационной системы при производстве работ Умышленное повреждение системы водоснабжения и канализационной системы при производстве работ влечет наложение штрафа на физических лиц в размере от 40 до 60
Статья 173. Несанкционированное отключение потребителей от системы водо- снабжения и канализационной системы
Статья 173. Несанкционированное отключение потребителей от системы водо- снабжения и канализационной системы Несанкционированное отключение потребителей от системы водоснабжения и канализационной системы влечет наложение штрафа на физических лиц в размере 25
Глава XIV ПРАВОНАРУШЕНИЯ В ОБЛАСТИ ЭЛЕКТРОННЫХ КОММУНИКАЦИЙ, ПОЧТОВЫХ ОТПРАВЛЕНИЙ И ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ
Глава XIV ПРАВОНАРУШЕНИЯ В ОБЛАСТИ ЭЛЕКТРОННЫХ КОММУНИКАЦИЙ, ПОЧТОВЫХ ОТПРАВЛЕНИЙ И ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ Статья 246. Несанкционированное предоставление сетей или услуг электронных коммуникаций, почтовых отправлений или информационных технологий (1)
Статья 246. Несанкционированное предоставление сетей или услуг электронных коммуникаций, почтовых отправлений или информационных технологий
Статья 246. Несанкционированное предоставление сетей или услуг электронных коммуникаций, почтовых отправлений или информационных технологий (1) Несанкционированное предоставление сетей или услуг электронных коммуникаций влечет наложение штрафа на физических лиц
Статья 250. Несоблюдение регламентирующих документов и технических норм в области электронных коммуникаций, почтовых отправлений и информационных технологий
Статья 250. Несоблюдение регламентирующих документов и технических норм в области электронных коммуникаций, почтовых отправлений и информационных технологий (1) Несоблюдение регламентирующих документов и технических норм в области электронных коммуникаций,
Статья 252. Несанкционированное подключение или допущение несанкционированного подключения к сетям электронных коммуникаций
Статья 252. Несанкционированное подключение или допущение несанкционированного подключения к сетям электронных коммуникаций Несанкционированное подключение или допущение несанкционированного подключения оконечного оборудования или других средств электронных
Статья 255. Умышленное повреждение линий, установок и оборудования электронных коммуникаций и почтовых отправлений
Статья 255. Умышленное повреждение линий, установок и оборудования электронных коммуникаций и почтовых отправлений Умышленное повреждение линий, установок и оборудования электронных коммуникаций и почтовых отправлений влечет наложение штрафа на физических лиц в
Статья 259. Необоснованный отказ в предоставлении услуг общего пользования в области электронных коммуникаций, почтовых отправлений и информационных технологий
Статья 259. Необоснованный отказ в предоставлении услуг общего пользования в области электронных коммуникаций, почтовых отправлений и информационных технологий Необоснованный отказ в предоставлении услуг общего пользования в области электронных коммуникаций,
Статья 260. Дискриминация при предоставлении услуг общего пользования в области электронных коммуникаций, почтовых отправлений и информационных технологий
Статья 260. Дискриминация при предоставлении услуг общего пользования в области электронных коммуникаций, почтовых отправлений и информационных технологий Любая дискриминация пользователя при предоставлении услуг общего пользования в области электронных
Статья 410. Национальное агентство по регулированию в области электронных коммуникаций и информационных технологий
Статья 410. Национальное агентство по регулированию в области электронных коммуникаций и информационных технологий (1) Правонарушения, предусмотренные статьями 246–260, устанавливаются Национальным агентством по регулированию в области электронных коммуникаций и
§ 3. Тенденции развития системы права и системы законодательства
§ 3. Тенденции развития системы права и системы законодательства Основные направления развития и совершенствования права связаны с социально-экономическими и политическими реформами, происходящими в стране. Одновременно идут глубинные процессы изменения самого
85. ПРАВОВОЙ РЕЖИМ АРХИВОВ
85. ПРАВОВОЙ РЕЖИМ АРХИВОВ Правовую основу архивного дела составляют информационно-правовые нормы Конституции РФ и Федеральный закон «Об архивном деле в Российской Федерации».Право на создание архивов принадлежит юридическим и физическим лицам Российской Федерации.Не
5. При производстве электронных периодических изданий, распространяемых на электронных носителях
5. При производстве электронных периодических изданий, распространяемых на электронных носителях Знак информационной продукции указывается На обложке/футляре носителя и на самом носителе.В остальном применяются те же правила, что и при производстве и распространении
Организация массива электронных документов
Организация массива электронных документов В данном случае применимы те же критерии, что и для упорядочения бумажных документов, только вместо типа носителя и формата бумаги указывается формат (тип) файла, функцию шкафов и папок выполняют каталоги и подкаталоги, а
Коллектив авторов
Просмотр ограничен
Смотрите доступные для ознакомления главы 👉