Поисковые системы для электронных архивов
Поисковые системы для электронных архивов
Если ресурсы позволяют, то вместо бумажных носителей для ведения архива и его справочного аппарата можно использовать электронные. Рассмотрим применение локальных поисковых машин, систем управления базами данных (СУБД) и систем электронного документооборота.
Простейшим (в смысле трудозатрат и умственных усилий) средством организации архива электронных документов является использование локальных поисковых машин – «искалок» для контекстного поиска. Они занимают промежуточное положение между средствами поиска файлов, встроенными во все операционные системы, и поисковыми машинами, применяемыми в Интернете. От первых они отличаются развитыми средствами формулировки запросов, скоростью поиска, встроенными генераторами отчетов. От вторых – тем, что работают на локальной машине или в локальной сети, хотя, в некоторых случаях, могут передавать запросы на поиск информации большим поисковым машинам Интернета.
После установки «искалки» на компьютер пользователь задает диски или каталоги, в которых хранится архив электронных документов, а также типы файлов, из которых он состоит (текст, документ, файл электронной таблицы, страничка из Интернета и пр.). Программа читает все найденные файлы, причем не только их содержимое, но и специальные поля (заголовок, автор, дата, ключевые слова и т. п.), которые могут присоединять к содержимому файла многие текстовые процессоры и другие программы. Из слов, содержащихся в файлах, строятся особым образом организованные индексы, которые могут составлять 5 – 20% от объема исходных файлов.
Эта процедура выполняется в фоновом режиме и может занимать значительное время. Когда в архив вносятся новые документы или изменяются старые, индекс достраивается. При запросе на поиск «искалка» обращается только к индексу и быстро составляет список файлов, в которых формально встречаются искомые слова в нужных сочетаниях. Из найденных документов неплохо бы составить списки, их можно обрабатывать дальше, в частности загружать документы для последующей работы в текстовые процессоры, электронные таблицы, выводить на печать. Таким образом, за счет небольших предварительных затрат времени при текущей работе над архивом достигается высокая скорость при обращении с запросом.
Достоинства: компактность, скорость, дешевизна, простота использования. Недостатки: поиск только формальный, контекстный – возможность анализа или обобщения на стадии поиска отсутствует; «искалка» не может обращаться к документам, не хранящимся в электронной форме, а значит, не должна быть единственным применяемым средством организации архива или его справочного аппарата.
Использование для организации архива и/или его справочного аппарата различных систем управления базами данных (СУБД) требует, как правило, существенных расходов на приобретение программного обеспечения, определенной квалификации разработчиков и пользователей, а также значительных трудозатрат на создание и пополнение баз данных (БД). Больше всего времени уходит на описание документов в БД – предварительную обработку документа: оценку его смысла, присвоение каждой записи систематических индексов и ключевых слов, наилучшим образом отражающих его содержание, установление связей между записями базы данных. В специальные поля можно занести сведения об авторах, персонах, названия организаций, даты, статистическую информацию, систематические индексы, ключевые слова, аннотации, ссылки на источник публикации, место хранения документа, линк ресурса в Интернете и многое другое. В некоторых случаях прямо в полях базы данных хранят даже тексты документов или прямые ссылки на них.
Журналисту-расследователю помогают в его работе базы данных, организованные по двум типам (это же относится и к архивным материалам вообще): «объектоцентрический» и «источникоцентрический». В первом случае вся информация об объекте (персоне, организации, строении, событии) собирается с течением времени в одной записи БД, посвященной этому объекту, а на источники информации (исходные документы) устанавливаются ссылки. Например, ссылки на статью в газете о преступлениях банды из 10 человек в Приморском районе Санкт-Петербурга могут попасть в 10 персональных записей на членов этой банды, а также в следующие записи: о бандитизме, о криминальной обстановке в Приморском районе, о деятельности РУБОПа, о деятельности оперативника (имярек), о грабежах, об убийствах, об угоне автомобилей и т. д. Это требует больших трудозатрат и творческих усилий, зато каждая запись подобной базы данных в любой момент времени представляет собой фактически готовое досье на человека, событие, явление.
При организации баз данных по второму типу конкретной статье в газете (или документу) соответствует только одна запись, с указанием в полях ключевых слов: фамилий бандитов, видов преступлений, географических или топографических объектов и т. д. Это менее трудоемкий и более формальный процесс. В данном случае досье собирается лишь на стадии поиска в базе данных. Такой подход уменьшает трудозатраты на стадии сбора материалов и увеличивает их на этапе поиска информации в архиве и ее обработки.
Недостатком любой базы данных являются значительные денежные вливания и большие трудозатраты на стадии ее создания и пополнения (в основном это относится к покупке программного обеспечения и ручному индексированию документов, требующему высокой квалификации персонала). Достоинства: высокая гибкость подходов к поиску информации, возможности поиска по сложным наборам критериев (причем качество поиска почти полностью определяется качеством предварительного индексирования записей), высокая степень предварительной готовности полученной информации. При организации запросов возможен как предметный, так и систематический подход. Главное преимущество: база данных может служить как хранилищем фактографической информации, так и единым инструментом обращения к электронным документам и документам на твердых носителях любого типа, в том числе хранящимся в сторонних организациях.
Так же, как и в случае с ведением картотеки, разумно использовать форматы описания записей и структуру БД, совпадающие или в основном совпадающие с применяемыми в организациях, с которыми возможен обмен информацией в электронном виде (различные библиотеки, Российская книжная палата и др.). Хотя подобные форматы очень громоздки, иногда чрезмерно избыточны, а подчас не учитывают специфики журналистской работы, готовые описания документов, хранящихся в этих организациях, можно будет использовать для пополнения своей базы данных. В каждом конкретном случае придется решать: применять «чужой», но «совместимый» формат описания документов, что позволит пополнять свою единую БД из разных источников, или пользоваться собственным форматом, лучше приспособленным для нужд журналиста-расследователя, и одновременно поддерживать или обращаться еще к нескольким БД другой структуры. Но в любом случае наличие хорошо разработанной базы данных позволяет полностью отказаться от ведения разнообразных бумажных картотек и описей архива.
В отдельный класс можно выделить системы организации электронного документооборота в масштабах отдельного рабочего места или всей организации. Эти системы сочетают в себе специализированные базы данных для хранения электронных документов и справочной информации о них, инструменты для сжатия информации «на лету», для разграничения доступа к документам разных пользователей, криптографические средства, средства организации коллективной работы с документами и обмена ими между пользователями, средства сохранения и синхронизации различных версий документов и многое другое. Хотя подобные средства предназначены для комплексной автоматизации «бюрократической» работы, они с успехом могут использоваться и для поддержания архива, поскольку «знают» о существовании бумажных документов и имеют особые инструменты работы с ними.
В отличие от использования «искалок», применение систем управления базами данных или систем электронного документооборота требует хорошей дисциплины труда, тщательно разработанных формальных приемов работы для всех, кто пользуется соответствующей системой, строгого следования внутреннему регламенту организации.
В каждой конкретной ситуации журналисту (и не только ему) при создании и поддержании архива приходится делать выбор между различными способами хранения и структурирования информации, исходя из поставленных задач, материальных, финансовых и людских ресурсов. При серьезном изменении ситуации придется еще и еще раз вносить коррективы в работу. Не стоит расстраиваться: ведь столь сложную структуру, как архив, существенно перестроить без потерь времени, денег, труда или информации еще никому не удавалось!
Справочный аппарат лишь отчасти создается собственными усилиями журналиста, недостающее может быть куплено или бесплатно получено на стороне. Для пополнения справочного аппарата приобретают разнообразные справочники, указатели, досье, библиографические и фактографические базы данных, наборы библиографических карточек Российской книжной палаты и т. п.; используют для этого и множество бесплатных ресурсов – например, службы подписки некоторых поисковых машин в Интернете (Yandex), которые регулярно сообщают о появлении в Сети новых документов, соответствующих заранее сформулированному запросу пользователя. При работе журналиста в рамках какой-либо организации выбор аппаратных и программных средств определяется не только решаемыми задачами и финансовыми соображениями, но и традициями организации, ее внутренними стандартами, пристрастиями или квалификацией лица, ответственного в ней «за компьютеры».
Такие внутренние стандарты могут распространяться на марки и модели компьютеров, мониторов, принтеров, сканеров, модемов, сетевых карт, устройств хранения информации (дискет, дисководов Zip, сменных винчестеров, пишущих CD, магнитооптических накопителей, стриммеров и пр.), на операционные системы, программное обеспечение и его версии. Могут вводиться ограничения на форматы используемых для разных задач файлов (хранение текстовой информации, графики, звука, движущегося изображения), их наименования и размещение на накопителях, на протоколы обмена информацией. Применение непредусмотренных устройств или программ может не приветствоваться, а то и прямо запрещаться. Внутренние стандарты могут предусматривать обращение к криптографии, ограничения на доступ к различным видам информации, на обмен информацией с внешними структурами, запрет на выход в Интернет и т. д.
В любом случае стоит ориентироваться не на освоение нового, передового и интересного программного обеспечения, а на использование уже проверенного, особенно если оно широко применяется коллегами для решения аналогичных задач и/или имеется штатный специалист, который будет заниматься поддержкой пользователя и его обучением.
Данный текст является ознакомительным фрагментом.