авторефераты диссертаций БЕСПЛАТНАЯ  БИБЛИОТЕКА

АВТОРЕФЕРАТЫ КАНДИДАТСКИХ, ДОКТОРСКИХ ДИССЕРТАЦИЙ

<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ

Pages:   || 2 |
-- [ Страница 1 ] --

МИНОБРНАУКИ РОССИИ

Федеральное государственное бюджетное образовательное учреждение

высшего профессионального образования

«Российский

государственный гуманитарный университет»

(РГГУ)

УДК 3:002.6

№ госрегистрации 01201364001

Инв. № УТВЕРЖДАЮ

Ректор РГГУ

_ Е.И. Пивовар "" _ _2013_ г.

ОТЧЕТ О НАУЧНО-ИССЛЕДОВАТЕЛЬСКОЙ РАБОТЕ Исследование современных процессов документационного обеспечения управления и раз вития электронного документооборота.

по теме:

Сравнительный анализ форматов файлов электронных документов постоянного (долговременного) хранения Начальник Управления _ Л.Н. Простоволосова по координации вузовских (подпись, дата) проектов и программ Руководитель темы П.А. Кюнг (подпись, дата) Москва СПИСОК ИСПОЛНИТЕЛЕЙ Руководитель темы П.А. Кюнг, канд. ист. наук (подпись, дата) Исполнители темы А.Д. Козлов, канд.техн.наук (подпись, дата) И.Г. Силина, канд.ист.наук (подпись, дата) РЕФЕРАТ Отчет с приложениями 63 стр., 9 табл., 7 прил., источников 72.

Ключевые слова:

ФОРМАТ ФАЙЛА, ЭЛЕКТРОНЫЙ ДОКУМЕНТ, АРХИВ, ХРАНЕНИЕ ДОКУ МЕНТОВ, ЭЛЕКТРОННЫЙ АРХИВ, СИСТЕМА ЭЛЕКТРОННОГО ДОКУМЕНТООБО РОТА, АРХИВОХРАНИЛИЩА, МАСТЕР-КОПИЯ, НОРМАТИВНАЯ БАЗА, ТЕХНИ ЧЕСКИЕ СРЕДСТВА, ОБОРУДОВАНИЕ, ОЦИФРОВКА, ОЦИФРОВАНИЕ, МИГРА ЦИЯ, МЕТАДАННЫЕ.

Научно-исследовательская работа проводилась в рамках государственного кон тракта № 016-3 от 31 мая 2013 г. «Исследование современных процессов документацион ного обеспечения управления и развития электронного документооборота. «Научный док лад «Сравнительный анализ форматов файлов электронных документов постоянного (дол говременного) хранения» (в рамках реализации в 2012 г. мероприятий Федеральной целе вой программы «Культура России (2012–2018 гг.)».

Исследование обобщает и систематизирует данные, полученные в результате исследова ний по теме: Исследование современных процессов документационного обеспечения управления и развития электронного документооборота. «Научный доклад «Сравнитель ный анализ форматов файлов электронных документов постоянного (долговременного) хранения».

Объект исследования включает в себя форматы файлов электронных документов Целью научно-исследовательской работы является выявление форматов файлов электронных документов наиболее пригодных для постоянного (долговременного) хра нения информации в государственных и муниципальных архивах, архивах организаций с подготовкой рекомендаций.

Методы исследования: Сравнительный анализ форматов наиболее распространен ных файлов электронных документов постоянного (долговременного) хранения на основе ряда характеристик, позволяющих определить пригодность рассматриваемых форматов для долговременного хранения информации, а также на основе проведенных эксперимен тов с преобразованием форматов.

Результаты: Определены форматы файлов, обеспечивающих постоянное (долго временного) хранение документированной информации (электронных документов) в ар хивах федеральных органов исполнительной власти, организаций, в государственных и муниципальных архивах. Исследование показало, что для постоянного (долговременного) хранения информации наиболее приспособлены следующие форматы файлов электрон ных документов:

а) текстовые и форматы представления данных: XML (включая XSD/XSL/XHTML), PDF/A-1 (ISO 19005-1) (*.pdf);

PDF/A-2 (ISO 19005-2:2011) (*.pdf);

б) графические: TIFF (без компрессии), JPEG2000 (lossless) (*.jp2), PNG (*.png), SVG (no Java script binding) (*.svg) (векторное изображение);

в). аудио форматы: AIFF (PCM) (*.aif, *.aiff), WAV (PCM) (*.wav), AES3 (LPCM) (*.aes) г). видео форматы: Motion JPEG 2000 (ISO/IEC 15444-4)*.mj2), AVI (uncom pressed, motion JPEG) (*.avi), QuickTime Movie (uncompressed, motion JPEG) (*.mov) д). базы и банки данных: Comma Separated Values (*.csv);

Delimited Text (*.txt);

SQL DDL Рекомендации по внедрению: Разработка государственных требований к проекти рованию систем электронного документооборота органов государственной исполнитель ной власти, рекомендаций по работе государственных и муниципальных архивов с элек тронными документами при их приеме на постоянное хранение.

Область применения: Федеральное архивное агентство, государственные и муни ципальные архивы, архивы организаций и службы делопроизводства федеральных орга нов государственной власти, органов местного самоуправления, государственных и него сударственных организаций.

СОДЕРЖАНИЕ ОПРЕДЕЛЕНИЯ ОБОЗНАЧЕНИЯ И СОКРАЩЕНИЯ ВВЕДЕНИЕ ОСНОВНАЯ ЧАСТЬ ЗАКЛЮЧЕНИЕ СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ ПРИЛОЖЕНИЕ А «НАУЧНЫЙ ДОКЛАД «СРАВНИТЕЛЬНЫЙ АНАЛИЗ ФОРМАТОВ ФАЙЛОВ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ ПОСТОЯННОГО (ДОЛГОВРЕМЕННОГО) ХРАНЕНИЯ» ПРИЛОЖЕНИЕ Б «СРАВНИТЕЛЬНАЯ ХАРАКТЕРИСТИКА ОСНОВНЫХ ФОРМАТОВ ТЕКСТОВЫХ ДАННЫХ» ПРИЛОЖЕНИЕ В «СРАВНИТЕЛЬНАЯ ХАРАКТЕРИСТИКА ОСНОВНЫХ ФОР МАТОВ ПРЕДСТАВЛЕНИЯ ДАННЫХ» ПРИЛОЖЕНИЕ Г «СРАВНИТЕЛЬНАЯ ХАРАКТЕРИСТИКА ОСНОВНЫХ ГРА ФИЧЕСКИХ ФОРМАТОВ (РАСТРОВЫЕ БЕЗ ПОТЕРЬ)» ПРИЛОЖЕНИЕ Д «СРАВНИТЕЛЬНАЯ ХАРАКТЕРИСТИКА ОСНОВНЫХ ГРАФИЧЕСКИХ ФОРМАТОВ (ВКЛЮЧАЯ СЖАТИЕ С ПОТЕРЯМИ И АНИМАЦИОННЫЕ)» ПРИЛОЖЕНИЕ Е «СРАВНИТЕЛЬНАЯ ХАРАКТЕРИСТИКА ОСНОВНЫХ ГРА ФИЧЕСКИХ ФОРМАТОВ (ВЕКТОРНАЯ ГРАФИКА)» ПРИЛОЖЕНИЕ Ж «ПРИМЕРНАЯ ОЦЕНКА РАСХОДОВ НА ПРОГРАММНОЕ И АППАРАТНОЕ ОБЕСПЕЧЕНИЕ»

ОПРЕДЕЛЕНИЯ В настоящем отчете о НИР использованы следующие определения терминов:

Архиватор – это программа для процедуры сжатия или упаковки электронных до кументов. Почти каждый архиватор одновременно является программой для сжатия дан ных. С другой стороны, любая программа для сжатия данных может рассматриваться как архиватор. Эффективность сжатия является важнейшей характеристикой архиваторов. От нее зависит размер создаваемых архивов. Чем меньше архив, тем меньше места требуется для его хранения. Для передачи нужна меньшая пропускная способность канала передачи или затрачивается меньшее время. Преимущества архивов очевидны, если учесть, что данные уменьшаются в размере и в 2 раза, и в 5 раз.



Архивный документ – материальный носитель с зафиксированной на нем инфор мацией, который имеет реквизиты, позволяющие его идентифицировать, и подлежит хра нению в силу значимости указанных носителя и информации для граждан, общества и го сударства.

Единица учета электронного фонда пользования – файл или совокупность файлов, составляющих образ дела, за единицу измерения файла принимается байт (Мб, Гб, Тб).

Единица хранения электронных документов – электронное дело, содержащее элек тронные документы и метаданные к ним, сформированное в соответствии с номенклату рой дел.

Информационная система – информация в электронной форме и совокупность обеспечивающих ее обработку информационных технологий и технических средств.

Конвертация (электронных документов) - процесс перемещения документов с од ного носителя на другой или из одного формата в другой. ГОСТ 15489–1–2007 «Управле ние документами. Общие требования».

Мастер-копия – «идеальная» копия, сделанная с подлинника документа, эталон. В терминах данных методических рекомендаций – первая цифровая копия (копия-оригинал, подлинник), сделанная с подлинника архивного документа и не подвергавшаяся никакой обработке, в том числе многократной перезаписи (миграции, репликации) на другой носи тель информации. Мастер-копия является неприкосновенной и не предназначена для ис пользования.

Метаданные – данные, описывающие контекст, содержание и структуру докумен тов и этапы работы с документами на протяжении определенного времени;

Метаданные – данные, описывающие контекст, содержание, структуру документов и управление документами в течение времени. ГОСТ 15489–1–2007 «Управление доку ментами. Общие требования».

Миграция (электронных документов) – действие по перемещению записей из одной системы в другую систему при сохранении их аутентичности, целостности, надежности и удобства в использовании;

Миграция цифровой информации – процесс периодического переноса цифровых материалов с одной аппаратно-программной конфигурации на другую, или с одного поко ления компьютерных технологий на следующее (перевод в другой формат, из одной опе рационной системы в другую, с одного языка программирования на другой и пр.) с сохра нением всех исходных функциональных характеристик, обеспечивающий долговремен ный доступ к цифровым объектам независимо от смены технологий. В настоящее время общепризнано, что миграция является неотъемлемой функцией цифровых архивов. Со гласно ГОСТ 15489–1–2007 «Управление документами. Общие требования»: Миграция – действие по перемещению документов из одной системы в другую с сохранением аутен тичности, целостности, достоверности документов и их пригодности для использования.

Обеспечение сохранности – процессы и операции по обеспечению технической и интеллектуальной аутентичности документов в течение времени. ГОСТ 15489–1– «Управление документами. Общие требования».

Оцифрованный документ – документ, полученный в результате конверсии бумаж ных и других аналоговых документов в цифровую форму. Первичное средство хранения (первичная упаковка) – папка, конверт, коробка, футляр, кожух, предназначенные для фи зической защиты CD (DVD и т.п.) от механических повреждений.

Оцифровка (англ. digitization, оцифрование) – описание объекта, изображения или аудио- видеосигнала (в аналоговом виде) в виде набора дискретных цифровых замеров (выборок) этого сигнала/объекта, при помощи той или иной аппаратуры (сканеров, циф ровых фотоаппаратов и т.п.), т.е. преобразование документа из традиционной, присущей ему формы, в цифровую (компьютерную) в виде электронного файла (файлов) данных, пригодных для записи на электронные носители. Результатом оцифровки документов яв ляются – медиафайлы (графические файлы, аудиофайлы, видеофайлы и т.п.), которые мо гут быть воспроизведены различными цифровыми устройствами.

Репликация – метод сохранения цифровой информации, предполагающий создание одной или нескольких полных копий (клонов) цифровых материалов. Репликация требует специальных мероприятий по поддержке всех копий в актуальном состоянии.

Управление документами — совокупность действий по созданию, использованию, хранению и уничтожению документов в организациях, осуществляющих деловую дея тельность планомерно и эффективно, в целях доказательства проведения деловых (управ ленческих) операций. ГОСТ 15489–1–2007 «Управление документами. Общие требова ния».

Файл (англ. file) - блок информации на запоминающем устройстве компьютера, имеющий определнное логическое представление (начиная от простой последовательно сти битов или байтов и заканчивая объектом сложной СУБД) Формат - спецификация структуры данных, записанных в компьютерном файле Цифровой документ — зафиксированная на цифровом носителе информация, кото рая записывается, сохраняется, передается и представляется в приемлемой для человека форме с помощью цифровых технологий и устройств.

Электронная копия документа – копия, изготовленная в цифровой форме. ГОСТ 7.48–2002. «Консервация документов. Основные термины и определения».

Электронный документ – 1) документ, в котором информация представлена в элек тронно-цифровой форме;

2) электронный документ - документированная информация, представленная в электронной форме, то есть в виде, пригодном для восприятия челове ком с использованием электронных вычислительных машин, а также для передачи по ин формационно-телекоммуникационным сетям или обработки в информационных системах.

Федеральный закон от 27.07.2006 N 149-ФЗ (ред. от 02.07.2013) «Об информации, инфор мационных технологиях и о защите информации»

ОБОЗНАЧЕНИЯ И СОКРАЩЕНИЯ ПО – программное обеспечение.

CRC (Cyclical Redundancy Code) - Циклический избыточный код HTML (Hyper Text Markup Language) - Язык разметки гипертекста JPEG (Joint Photographic Engineers Group) - Объединенная группа специалистов по компьютерной обработке фотографических изображений OCR (Optical Character Recognition) - Оптическое распознавание символов PDF/A-1;

PDF /А-2 (Portable Document Format - Archive) - Варианты для архивного хранения формата переносимого документа SHA-1 (Standard Hash Algorithm 1) - Стандартный алгоритм вычисления хэш функции № TIFF (Tagged Image File Format) - Тегированный формат файлов изображений XML (Extensible Markup Language) - Расширяемый язык разметки ВВЕДЕНИЕ В настоящее время наблюдается непрерывный рост документирования информации в электронной форме. При этом необходимо отметить недостаточность структурирован ной и достоверной информации о приспособленности определенных форматов файлов, содержащих электронные документы к долговременному хранению в архивах вне элек тронных систем, в которых они были созданы. Данная ситуация вызывает закономерную обеспокоенность специалистов, отвечающих за хранение информации, т.к. они не в со стоянии предсказать состояние массивов электронных данных, поступающих в государст венные и муниципальные архивы, на долговременную перспективу. К сожалению, на дан ный момент в России отсутствуют научно-исследовательские разработки в этой области, доступные архивным специалистам. Поэтому сравнительная оценка форматов файлов с целью определения их пригодности для постоянного (долговременного) хранения инфор мации является, несомненно, актуальной.

Представленное исследование проведено в рамках изучения современных процес сов документационного обеспечения управления и развития электронного документообо рота. Результаты научно-исследовательской работы предназначены для определения форматов файлов, обеспечивающих постоянное (долговременного) хранение документи рованной информации (электронных документов) в архивах федеральных органов испол нительной власти, организаций, в государственных и муниципальных архивах.

Субъектами использования результатов научно-исследовательской работы являют ся Федеральное архивное агентство, государственные и муниципальные архивы, архивы организаций и службы делопроизводства федеральных органов государственной власти, органов местного самоуправления, государственных и негосударственных организаций.

Состав и объем работ в соответствии с техническим заданием:

1. Определение эффективности и целесообразности использования форматов файлов для архивного хранения текстовых, графических и других электронных документов.

2. Сравнение форматов файлов электронных документов по следующим критериям:

- разработчик и права собственности;

- год разработки формата файлов;

год его последней модернизации;

частота обновлений программного кода;

наличие версий;

- открытый/ закрытый программный код;

- описание и сравнение математических алгоритмов сжатия;

- предназначение формата файлов (в т.ч.: класс задач и предметная область;

присутствие в пакетах прикладного программного обеспечения);

- наличие и доступность конвертеров;

- устойчивость при множественных репликациях (на основе анализа суммы программных кодов).

3. Проведение технико-экономической оценки и сравнительного анализа затрат на архив ное хранение электронных документов в указанных форматах файлов.

4. Сравнительный анализ объемов информации, подлежащей архивному хранению, при условии хранения электронных архивных документов в указанных форматах файлов.

Результаты работы соответствуют и логически дополняют следующие требования, стан дарты и ГОСТы:

Распоряжения Правительства Российской Федерации от 02.10 2009 г. № 1403-р «Технические требования к организации взаимодействия системы межведомственного электронного документооборота с системами электронного документооборота федераль ных органов исполнительной власти»;

Приказа Минкомсвязи России от 02.09.2011 № 221 «Об утверждении Требований к информационным системам электронного документооборота федеральных органов ис полнительной власти, учитывающих, в том числе, необходимость обработки посредством данных систем служебной информации ограниченного распространения»;

Правил организации хранения, комплектования, учета и использования документов Архивного фонда Российской Федерации и других архивных документов в государствен ных и муниципальных архивах, музеях и библиотеках, организациях Российской Акаде мии наук (утв. приказом Министерства культуры и массовых коммуникаций Российской Федерации от 18 января 2007 г. № 19);

Рекомендаций по подготовке федеральными органами власти перечней докумен тов, создание, хранение и использование которых должно осуществляться в форме элек тронных документов при организации внутренней деятельности (утв. приказом Росархива от 29.04.2011 № 32);

ГОСТ Р ИСО 15489-1-2007 «СИБИД. Управление документами. Общие требова ния»;

ГОСТ Р ИСО 23081-1-2008 «СИБИД. Управление документами. Процессы управ ления документами. Метаданные для документов»;

Часть1?

ГОСТ Р ИСО 22310-2009 «СИБИД. Информация и документация. Руководство для разработчиков стандартов, устанавливающих требования к управлению документами»;

ГОСТ Р 53898-2010 «Системы электронного документооборота. Взаимодействие систем управления документами. Требования к электронному сообщению»;

ГОСТ Р 54471-2011 «Системы электронного документооборота. Управление доку ментацией. Информация, сохраняемая в электронном виде. Рекомендации по обеспечению достоверности и надежности»;

ГОСТ Р 54989-2012/ISO/TR 18492:2005 «Обеспечение долговременной сохранно сти электронных документов» (вводится в действие с 01.05.2013);

МГС ГОСТ 7.-32-2001 «СИБИД. Отчет о научно-исследовательской работе. Струк тура и правила оформления».

Анализ нормативных документов, указанных в техзадании позволил сформулиро вать основные установленные требования к форматам электронных документов долговре менного хранения:

1. Форматы файлов электронных документов являются частью системы классификации документной информации в архивах. В данном аспекте, форматы выступают в качестве признака классификации, определяющего условия воспроизведения и считывания инфор мации пользователем в долговременной перспективе1.

2. При оценке технического состояния электронных документов, а также их страховых копий устанавливается возможность считывания информации с материального носителя, соответствие технических характеристик этих документов сведениям, содержащимся в сопровождающих актах технического состояния. Исходя из данного пункта, формат фай ла, определенный для постоянного (долговременного) хранения должен соответствовать техническим возможностям органов государственного власти, государственных и муни ципальных архивов по воспроизведению информации в долговременной перспективе2.

3. Проверку технических параметров электронных документов проводят с использовани ем специальной аппаратуры и программного обеспечения, предназначенных для работы с соответствующего вида архивными документами. Данный пункт предполагает, что про граммное обеспечение для воспроизведения файлов электронных документов должно быть доступно организациям- хранителям документов, что предполагает недопустимость использования в качестве утвержденных форматов файлом, форматы, образуемые дорого стоящим, малораспространенным или неподдерживаемым программным обеспечением.

Данный вывод подтверждается положением, изложенным в п 4.4.3. нижеуказанных Пра вил «Электронные документы принимаются на хранение в сопровождении программных П. 2.10.Правила организации хранения, комплектования, учета и использования документов Архивного фонда Российской Федерации и других архивных документов в государственных и муниципальных архивах, музеях и библиотеках, организациях Российской академии наук, утвержденных Приказом Минкультуры РФ от 18.01.2007 N 19(Зарегистрировано в Минюсте РФ 06.03.2007 N 9059) П. 2.11.6.1. Правила организации хранения, комплектования, учета и использования документов Архивно го фонда Российской Федерации и других архивных документов в государственных и муниципальных архи вах, музеях и библиотеках, организациях Российской академии наук, утвержденных Приказом Минкультуры РФ от 18.01.2007 N 19(Зарегистрировано в Минюсте РФ 06.03.2007 N 9059) средств, позволяющих их воспроизвести, и с необходимым комплектом сопроводительной документации»3.





4. СЭД ФОИВ должна обеспечивать отображение следующих форматов файлов: pdf, rtf, doc, tiff. СЭД ФОИВ допускается обеспечение отображения иных форматов файлов, ис пользуемых в деятельности ФОИВ4. Данный пункт задает основные ориентиры исследо вания форматов файлов электронных документов, образующихся в ФОИВ и передавае мых на хранение в архивы различного уровня.

Согласно ГОСТ Р ИСО 15489-1-2007. Национальный стандарт Российской Федерации.

Система стандартов по информации, библиотечному и издательскому делу. Управление документами. Общие требования(утв. Приказом Ростехрегулирования от 12.03.2007 N 28 ст) устанавливает следующие требования к документам, предполагающие определенные запросы к форматам файлов электронных документов:

7.2.5. Пригодность для использования 7. Пригодным для использования является документ, который можно локализовать, найти, воспроизвести и интерпретировать.

8.3.5. Конвертирование и миграция 8. Системы управления документами следует проектировать так, чтобы документы оста вались аутентичными, надежными и пригодными для использования независимо от лю бых изменений в системе управления документами (в том числе при конвертировании форматов, миграции между техническим оборудованием, операционными системами или специальными программными приложениями) в течение всего периода их хранения.

9.6. Хранение и обращение с документами 9. Организации должны разрабатывать и применять инструкции по конвертированию и миграции документов из одной системы управления документами в другую.»

Электронные системы управления документами должны быть спроектированы так, чтобы документы оставались доступными, аутентичными, достоверными и пригодными для использования независимо от любых изменений в системе на протяжении всего пе риода их хранения и использования. Изменения в электронной системе управления доку ментами могут включать миграцию, конвертирование, воспроизведение в других форма тах или любые другие будущие способы воспроизведения документов.

2.11.6.2. Правила организации хранения, комплектования, учета и использования документов Архивного фонда Российской Федерации и других архивных документов в государственных и муниципальных архивах, музеях и библиотеках, организациях Российской академии наук, утвержденных Приказом Минкультуры РФ от 18.01.2007 N 19(Зарегистрировано в Минюсте РФ 06.03.2007 N 9059) Требования к информационным системам электронного документооборота федеральных органов исполни тельной власти, учитывающих в том числе необходимость обработки посредством данных систем служеб ной информации ограниченного распространения, утвержденные Приказом Минкомсвязи РФ от 02.09. N Электронное сообщение должно состоять из XML-документа установленной в на стоящем стандарте структуры и с заданным составом элементов и их атрибутов и, воз можно, набора дополнительных файлов, являющихся неотъемлемой частью сообщения.

В Рекомендациях по подготовке федеральными органами исполнительной власти перечней документов, создание, хранение и использование которых должно осуществ ляться в форме электронных документов при организации внутренней деятельности, ут вержденных Приказом Росархива от 29.04.2011 N 32, приведен рекомендуемый Перечень видов управленческих документов, создание, хранение, использование которых в феде ральных органах исполнительной власти осуществляется в форме электронных докумен тов при организации внутренней деятельности. Данный перечень предполагает присутст вие в системах федеральных органов исполнительной власти следующих типов форматов документов: pdf, doc, rtf, txt, xml.

В свою очередь «Система стандартов по информации, библиотечному и издательскому делу. Процессы управления документами. Метаданные для документов. Часть 1. Принци пы. ГОСТ Р ИСО 23081-1-2008» (утв. Приказом Ростехрегулирования от 13.11.2008 N 310-ст) устанавливает основы для создания, управления и использования метаданных об управлении документами, а также объясняет принципы, лежащие в основе управления ими.

Структура описания документа состоит из описания:

a) его физической или технической структуры;

б) его логической структуры, то есть отношений между элементами данных, составляю щих документ.

Все метаданные о документе формируют новый документ, а именно документ ме таданных, которым также нужно управлять. Документ метаданных, равно как и сами ме таданные, необходимо сохранять до тех пор, пока существует оригинал документа.

В соответствии с ГОСТ Р 53898-2010 «Системы электронного документооборота.

Взаимодействие систем управления документами. Требования к электронному сообще нию» устанавливается формат, состав и содержание электронного сообщения, обеспечи вающего информационное взаимодействие систем управления документами. Согласно стандарту электронное сообщение «должно состоять из XML-документа установленной в настоящем стандарте структуры и с заданным составом элементов и их атрибутов и, воз можно, набора дополнительных файлов, являющихся неотъемлемой частью сообщения.

Как электронное сообщение в целом, так и составные его части, могут быть независимо подписаны электронными цифровыми подписями и другими аналогами собственноручной подписи и (или) зашифрованы».

В свою очередь ГОСТ Р 54471-2011 «Системы электронного документооборота.

Управление документацией. Информация, сохраняемая в электронном виде. Рекоменда ции по обеспечению достоверности и надежности» описывает порядок внедрения и экс плуатации систем управления информацией и документами, которые могут рассматри ваться как надежно, заслуживающим доверия образом, хранящие электронную информа цию. При рассмотрении требований к файловым форматам и сжатию данных стандарт следует опираться на пп. 3.2.4, 3.2.2, 5.5.2, 5.10, 6.10 и 7.2.3. Политика должна содержать сведения о допустимых файловых форматах, которые могут быть использованы для каж дого типа информации (см. 3.2.2). Благодаря реализации на практике политики использо вания утвержденных файловых форматов и (если таковые применяются) технологий сжа тия данных могут быть успешно выполнены необходимая миграция данных или альтерна тивные процедуры, обеспечивающие долговременное использование хранимой информа ции (см. п.3.2.4), а положения, регламентирующие хранения версий информации и доку ментов, должны быть включены в политику. При этом обеспечение долговременной со хранности информации напрямую зависит от задокументированных процедур обеспече ния долговременной сохранности информации. Стандарт требует, чтобы такие процедуры учитывали требуемые сроки хранения и ожидаемый срок службы систем хранения дан ных. Если срок хранения превышает ожидаемый срок существования систем хранения данных, то необходимо задокументировать планы миграции в новые системы (см. п. 5.10) Дополнительную информацию об этом также содержит ISO/TR 18492.

Надежным методом решения потенциальной проблемы миграции является обеспе чение хранения электронных файлов в стандартном для отрасли формате либо для под держания программ просмотра (viewers) для каждого формата, используемого для хране ния информации (см. п. 6.10). В случае же конверсии информации из одного файлового формата в другой сведения о конверсии должны быть сохранены в составе контрольной информации (см. п.7.2.3.). Например, электронный документ, созданный текстовым про цессором, может быть преобразован в графический формат без изменения текста доку мента. С одной стороны, это не слишком сильно отличается от копирования файла, однако если форматирование имеет значение для информационного контента, то существует ве роятность того, что информационный контент преобразованного файла можно будет счи тать изменившимся.

Таким образом, проведенный анализ нормативных актов выявил общие требования, устанавливаемые к файлам электронных документов, предназначенных для долговремен ного хранения:

1. Устойчивость к многократным миграциям.

2. Устойчивость к многократным репликациям 3. Доступность программного обеспечения.

4. Существующие нормативные документы предусматривают конкретно следующие фор маты файлов: pdf, tiff, doc, rtf, xml. Нормативные документы предусматривают также воз можность присутствия в электронных системах органов государственной власти и иных форматов файлов электронных документов.

В процессе исследования была разработана методология оценки форматов файлов электронных документов на основе критериев, изложенных в техзадании, а также опреде ленных в ходе исследования в качестве принципиальных. Это позволило достигнуть ве рифицируемых результатов, выраженных в конкретных предложениях по использованию форматов файлов для постоянного (долговременного) хранения электронных документов.

В соответствии с Техническим заданием, основная часть исследования представле на в виде научного доклада, прилагаемого к настоящему отчету (Приложение А), содер жащего текстовую часть, таблицы сравнений форматов файлов электронных документов в Приложениях Б, В, Г, Д, Е. В, Ж. В Отчете НИР представлены: методология, основные этапы исследования, результаты исследования с рекомендациями.

ОСНОВНАЯ ЧАСТЬ Выбор средств кодирования для хранения информации зависит, в первую оче редь, от характеристик технических средств хранения, а также от вида информации, по требностей доступа пользователей к информации и к соответствующим программным средствам.

Основной массив хранимой информации представляет собой текстовые данные различного объма. По наименованиям единиц хранения подобные источники нарратив ной информации составляют более 90%. В настоящее время к такой информации, помимо текстов на различных языках человеческого общения, относятся и тексты компьютерных программ как на языках программирования, так и непосредственно в двоичных кодиров ках. Тексты, записанные в алфавитных системах, зачастую включают значительные фраг менты графической информации (иллюстрации). Особняком стоят тексты, записанные а неалфавитной (например, иероглифической) форме, которые по свойствам хранения бли же к чисто графической информации. Текстовая информация может храниться в ориги нальном виде, а также в сжатой форме при помощи различного вида архиваторных про граммных средств.

Исходя из целей исследования и технического задания, а также результатов анализа нор мативной базы, для исследования были отобраны следующие форматы файлов:

1. Текстовые и представления данных 2. Табличные 3. Графические 4. Аудио и Видео Сравнение проведено по следующим параметрам:

1. Расширение 2. Стандартизация 3. Дата создания 4. Дата последних изменений 5. Открытость формата 6. Назначение формата 7. Наличие бесплатного программного обеспечения 8. Самодостаточность документа (сам документ содержит все необходимое для его корректного отображения) 9. Возможность полнотекстового поиска 10. Наличие «опасных» возможностей (встроенного кода, шифрования, средств управ ления правами доступа и т.д.

11. Сжатие графических объектов с потерями 12. Возможность конвертации из других форматов Параметры были определены в соответствии с техническим заданием, нормативной базой и принципиальными параметрами электронных систем, определенными рабочей группой.

Были проведены эксперименты с наиболее распространенными и приемлемыми для постоянного (долговременного) хранения форматами. Для них были применены мето дики устойчивость к многократной архивации, через проверку путем многократного архи вирования и разархивирования выбранных файлов наиболее распространенными про граммами архивации.

Для сравнения эффективности хранения документов в форматах PDF и DjVu про водился эксперимент по преобразованию исходного текста в формате MS WORD незави симо в форматы PDF и DjVu. Далее оценивались коэффициенты сжатия объма тексто вых файлов после преобразования в графические форматы;

они сводились в два отдель ных числовых массива. В третий массив сводилось отношение коэффициентов сжатия объма текстовых файлов при использовании двух графических форматов. По статистиче ским данным трх таблиц рассчитывались несмещнные оценки выборочных средних значений по формулам:

n Aср = ( ai ) / n, i= где ai – экспериментальное значение параметра из таблицы, Aср – полученное среднее значение, n – размер таблицы.

Качество просмотра определялось путем оценке воспроизведения документов на устройствах визуализации с различными разрешениями и работающих на различных про граммных платформах.

ЗАКЛЮЧЕНИЕ Достигнутые результаты НИР, выполненной по теме «Исследование современных процессов документационного обеспечения управления и развития электронного доку ментооборота. «Научный доклад «Сравнительный анализ форматов файлов электронных документов постоянного (долговременного) хранения» основаны на обобщении значи тельного объема современных данных по цифровым форматам, нормативным докумен там, стандартам и гостам, а также опытных исследований ряда форматов для оценки важ ных показателей по сжатию, кодированию, миграции. Исследование соответствует совре менным требованиям отечественных нормативных, методических документов, а также достигнутым результатам в зарубежной практике.

Исходя из анализа разновидовой цифровой информации можно рекомендовать к использованию следующие основные рекомендованные форматы с точки зрения их на дежности и долговечности:

1. Текстовые форматы файлов и форматы представления данных обладающие вы сокой степенью надежности и обеспечивающие долгосрочность хранения информации:

- XML (includes XSD/XSL/ XHTML - PDF/A-1 (ISO 19005-1) (*.pdf) - PDF/A-2 (ISO 19005-2:2011) (*.pdf) Исходя из проведенных сравнений между форматами PDF и его производным PDF/A, можно утверждать, что первый больше пригоден для оперативного обмена и крат косрочного хранения электронных документов, в свою очередь как PDF/A (с учетом по тенциально большего размера единичного документа), имея статус международного стан дарта, гарантирует, что даже через продолжительное время, вне зависимости от окруже ния и операционной системы, любой пользователь сможет открыть документ в данном формате, располагая ПО-просмотрщиком. В целом это соответствует концепции архива электронных документов.

В некоторыми условиями и, в крайнем случае, могут быть предложены в категории текстовых форматов файлов:

- Plain text (ISO 8859-1encoding) - PDF (*.pdf) (embedded fonts) - Rich Text Format 1.x (*.rtf) - HTML (include a DOCTYPE declaration) - SGML (*.sgml) - Open Office (*.sxw/*.odt) - OOXML (ISO/IEC DIS 29500) (*.docx) - EPUB (unencrypted) (*.epub) 2. Графические форматы рекомендованы и отвечают требованиям долговременного архивного хранения:

2.1. Растровые изображения:

- TIFF (без компрессии/uncompressed) - JPEG2000 (lossless) (*.jp2) - PNG (*.png) 2.2. Векторные изображения:

- SVG (no Java script binding) (*.svg) 2.3. Виртуальные форматы данных:

- X3D (*.x3d) 3. Рекомендованы форматы сохранения аудио и видео информации:

3.1. Аудио форматы:

- AIFF (PCM) (*.aif, *.aiff) - WAV (PCM) (*.wav) - AES3 (LPCM) (*.aes) 3.2. Видео форматы:

- Motion JPEG 2000 (ISO/IEC 15444-4)*.mj2) - AVI (uncompressed, motion JPEG) (*.avi) - QuickTime Movie (uncompressed, motion JPEG) (*.mov) 4. Базы и банки данных рекомендованы к сохранению в форматах:

- Comma Separated Values (*.csv) - Delimited Text (*.txt) - SQL DDL В редких случаях могут быть использованы форматы:

- DBF (*.dbf) - OpenOffice (*.sxc/*.ods) - OOXML (ISO/IEC 29500)(*.xlsx) Стоит отметить, что форматы файлов по презентациям не имеют формата с доста точно высокой надежностью обеспечения долговременного хранения, однако можно ре комендовать с определенными оговорками:

- OpenOffice (*.sxi/*.odp) - OOXML (ISO/IEC DIS 29500) (*.pptx) Форматы других презентационных файлов, в т.ч. PowerPoint (*.ppt), не отвечают требованиям долговременного хранения.

Можно рекомендовать следующие технические параметры и параметры контроля к форматам файлов при их передачи на архивное хранения предусматривают:

1. Отсутствие файлов с вирусами (особенно это относится к форматам файлов:

DOC, XLS, MDB, PDF, PPT, ZIP, EXE).

2. Передаваемые на архивное хранение архивные файлы не могут быть полностью или частично: зашифрованы, защищены паролем, сжаты собственным алгоритмом сжатия, кодированы.

3. Архивирование файлов рекомендуется в незашифрованном виде ZIP (*.zip) – наиболее соответствующий формат для передачи данных.

оценку технико-экономической эффективности внедрения Технические требования к серверному оборудованию, системам хранения электрон ного контента определяются, исходя из реальных объемов имеющегося цифрового кон тента, перспектив его наращивания и нужд в осуществлении миграций, распечатки, объе мов обработки электронных документов. Наиболее критичные требования к объму сер верной памяти предъявляются в случае архивного хранения видеоинформации с высоким качеством изображения. Аналогично, и передача хранимых видеофайлов из архива поль зователю требует максимальной пропускной способности линий связи. По сравнению с видеоинформацией аналогичными требованиями архивов текстов и статических изобра жений можно пренебречь. Предлагаемые форматы создаются преимущественно на откры том программном обеспечении и позволяют минимизировать статьи расходов на приобре тение программного обеспечения.

Стратегия выбора надежных форматов файлов также осуществляется исходя из возможности использовать форматы независимые от платформы, независимых поставщи ков, неспециализированные, открытые и хорошо стабильно поддерживаемые форматы.

оценка научно-технического уровня выполненной НИР в сравнении с лучшими достиже ниями в данной области Доклад в полной мере раскрывает структуру и сущность цифровых форматов, объ ективность их использования в обеспечении долговременной сохранности электронных документов в архиве, чем имеющиеся аналитические данные зарубежных коллег. Напри мер, в марте 2012 г. Университет Флориды (США) подготовил для Цифрового архива Флориды результаты своего исследования только в виде списка ранжирования цифровых форматов без детального описания нюансов.

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ ФЕДЕРАЛЬНЫЕ ЗАКОНЫ И ПОДЗАКОННЫЕ АКТЫ Федеральный закон от 22.10.2004 № 125-ФЗ «Об архивном деле в Российской Фе 1.

дерации» (ред. Федеральных законов от 04.12.2006 № 202-ФЗ, от 01.12.2007 № 318-ФЗ, от 13.05.2008 № 68-ФЗ, от 08.05.2010 № 83-ФЗ, от 27.07.2010 № 227-ФЗ).

Федеральный закон от 14.07.2006 № 149-ФЗ «Об информации, информационных 2.

технологиях и о защите информации», (ред. Федеральных законов от 27.07.2010 № 227 ФЗ, от 06.04.2011 № 65-ФЗ, от 21.07.2011 № 252-ФЗ, от 28.07.2012 № 139-ФЗ).

Федеральный закон от 09.02.2009 № 8-ФЗ «Об обеспечении доступа к информации 3.

о деятельности государственных органов и органов местного самоуправления». (ред. Фе дерального закона от 11.07.2011 № 200-ФЗ).

Федеральный закон от 27.07.2010 № 210-ФЗ «Об организации предоставления го 4.

сударственных и муниципальных услуг». (ред. Федеральных законов от 06.04.2011 № 65 ФЗ, от 01.07.2011 № 169-ФЗ, от 11.07.2011 № 200-ФЗ, от 18.07.2011 № 239-ФЗ, от 03.12.2011 № 383-ФЗ, с изм., внесенными Федеральным законом от 27.06.2011 № 162-ФЗ).

Федеральный закон от 30.03.2011 № 63-ФЗ «Об электронной подписи» (в ред. Фе 5.

деральных законов от 01.07.2011 № 169-ФЗ, от 10.07.2012 № 108-ФЗ).

Соглашение от 9.12. 2010. «О единых принципах регулирования в сфере охраны и 6.

защиты прав интеллектуальной собственности».

Постановление Правительства Российской Федерации от 15 июня 2009 г. № 477 «Об ут верждении Правил делопроизводства в федеральных органах исполнительной власти»

(Собрание законодательства Российской Федерации, 2009, № 25, ст. 3060;

2011, № 37, ст.

5263);

Постановление Правительства Российской Федерации от 22 сентября 2009 г. № 7.

«Об утверждении Положения о системе межведомственного электронного документообо рота» (Собрание законодательства Российской Федерации, 2009, № 39, ст. 4614;

2012, № 38, ст. 5102).

НОРМАТИВНЫЕ И МЕТОДИЧЕСКИЕ ДОКУМЕНТЫ Правила организации хранения, комплектования, учета и использования докумен 1.

тов Архивного фонда Российской Федерации и других архивных документов в государст венных и муниципальных архивах, музеях и библиотеках, организациях Российской ака демии наук. Утв. приказом Министерства культуры и массовых коммуникаций Россий ской Федерации от 18.01.2007 № 19 (Бюллетень нормативных актов федеральных органов исполнительной власти, 2007, № 20;

«Российская газета», 20.05.2009, № 89).

Приказ Министерства Культуры и массовых коммуникаций Российской Федерации 2.

от 10 сентября 2007 г. № 1273 «Об утверждении форм учетных и иных документов по ор ганизации хранения, комплектования, учета и использования документов Архивного фон да Российской Федерации и других архивных документов в государственных и муници пальных архивах, музеях и библиотеках, организациях Российской Академии наук».

Требования к информационным системам электронного документооборота феде 3.

ральных органов исполнительной власти, учитывающих, в том числе необходимость об работки посредством данных систем служебной информации ограниченного распростра нения (утверждены приказом Минкомсвязи России от 02.09.2011 № 221) («Российская га зета», 21.11.2011 № 261) Рекомендации по подготовке федеральными органами исполнительной власти пе 4.

речней документов, создание, хранение и использование которых должно осуществляться в форме электронных документов при организации внутренней деятельности (утверждены приказом Росархива от 29.04.2011 № 32);

ГОСТЫ И МЕЖДУНАРОДНЫЕ СТАНДАРТЫ ISO 12234-2:2001. Электронная обработка изображений фотоснимков. Сменное за 1.

поминающее устройство. Часть 2. Формат данных изображения TIF/EP ISO 12651:1999. Электронная обработка изображений. Словарь.

2.

3. ISO 12652—1 (Part 1—2) Electronic imaging.

ISO 12653–1:2000. Электронная обработка изображений. Контрольное задание для 4.

черно-белого сканирования офисных документов. Часть 1. Характеристики (Тест-объект для сканирования черно-белых офисных документов — Часть 1: Характеристики).

ISO 12653—2:2000. Электронная обработка изображений. Контрольное задание для 5.

черно-белого сканирования офисных документов. Часть 2. Метод применения (Электрон ное формирование изображения — Тест-объект для сканирования черно-белых офисных документов. Методы применения).

ISO 14721:2003 — Reference Model for an Open Archival Information System (OAIS).

6.

ISO 19005-1:2005 Стандарт PDF/A- 7.

ISO 19005-2:2011 Стандарт PDF/A- 8.

ISO 29861. Прикладные системы управления документами. Контроль качества ска 9.

нирования цветных учрежденческих документов.

10. ISO 37.080: Document imaging applications.

ISO 5127—2002. Информация и документация. Словарь.

11.

ISO 9001—2000. Системы менеджмента качества. Требования.

12.

ISO/IEC 10995:2011. Информационные технологии. Цифровые запоминающие сре 13.

ды для обмена и хранения информации. Метод испытания для оценки срока хранения в архиве оптических носителей.

ISO/IEC 14473:1999. Информационные технологии. Офисное оборудование. Ми 14.

нимальная информация, подлежащая регламентации для устройств сканирования изобра жений.

ISO/IEC 29341—9—13:2008. Информационные технологии. Архитектура устройств 15.

UPnP. Часть 9—13. Протокол управления устройствами обработки изображений. Сервис сканирования.

ISO/TR 12037:1998. Электронная обработка изображений. Рекомендации для уда 16.

ления информации, записанной на оптических носителях одноразовой записи.

ISO/TR 12654:1997. Электронная обработка изображений. Рекомендации для 17.

управления системами электронной записи для записи документов, которые могут пона добиться в качестве свидетельских показаний на оптических дисках WORM.

ГОСТ 15971—90. Системы обработки информации. Термины и определения.

18.

ГОСТ 6.10.4—84. Унифицированные системы документации. Придание юридиче 19.

ской силы документам на машинном носителе и машинограмме, создаваемым средствами вычислительной техники. Основные положения.

ГОСТ Р 33.1.02—2008. Единый российский страховой фонд документации. Стра 20.

ховые копии кинодокументов и фотодокументов. Общие технические условия.

ГОСТ Р 33.3.02—2008 Единый российский страховой фонд документации. Страхо 21.

вые копии документации, являющейся национальным научным, культурным и историче ским наследием. Общие требования к условиям хранения.

ГОСТ Р 33.505—2003 Единый российский страховой фонд документации. Порядок 22.

создания страхового фонда документации, являющейся национальным, научным, куль турным и историческим наследием, М., 2003.

ГОСТ Р 50922—2006. Защита информации. Основные термины и определения.

23.

ГОСТ Р 53898-2010 «Системы электронного документооборота. Взаимодействие 24.

систем управления документами. Требования к электронному сообщению».

ГОСТ Р 54471-2011 «Системы электронного документооборота. Управление доку 25.

ментацией. Информация, сохраняемая в электронном виде. Рекомендации по обеспечению достоверности и надежности».

ГОСТ Р 54989-2012/ISO/TR 18492:2005 «Обеспечение долговременной сохранно 26.

сти электронных документов» (вводится в действие с 01.05.2013).

ГОСТ Р 6.30—2003. Унифицированные системы документации. Унифицированная 27.

система организационно-распорядительной документации. Требования к оформлению до кументов.

ГОСТ Р ИСО 15489-1-2007 «СИБИД. Управление документами. Общие требова 28.

ния».

ГОСТ Р ИСО 22310-2009 «СИБИД. Информация и документация. Руководство для 29.

разработчиков стандартов, устанавливающих требования к управлению документами».

ГОСТ Р ИСО 23081-1-2008 «СИБИД. Управление документами. Процессы управ 30.

ления документами. Метаданные для документов».

МГС ГОСТ 7.-32-2001 «СИБИД. Отчет о научно-исследовательской работе. Струк 31.

тура и правила оформления».

РД 50—34.698—90. Методические указания. Информационная технология. Ком 32.

плекс стандартов и руководящих документов на автоматизированные системы. Автомати зированные системы. Требования к содержанию документов.

РД 50—680—88. Методические указания. Автоматизированные системы. Основ 33.

ные положения.

РД 50—682—89. Методические указания. Информационная технология. Комплекс 34.

стандартов и руководящих документов на автоматизированные системы. Общие положе ния.

МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ Рекомендации о порядке учета, оперативного хранения и отбора на постоянное 1.

хранение электронных документов. М., ВНИИДАД, 2005.

Методические рекомендации по организации хранения, комплектования, учета и 2.

использования электронных документов в государственных архивах. М., ВНИИДАД, 2007.

Методические рекомендации по работе ЦАДЭНМ с документами на электронных 3.

носителях. М., 2006.

Инструкция по созданию и организации страхового фонда и фонда пользования 4.

копий особо ценных документов. М., РГАДА, 1995.

Методические рекомендации по организации хранения, комплектования, учета и 5.

использования электронных документов в государственных архивах. М., ВНИИДАД, 2007.

Рекомендации по созданию оцифрованных копий фонда пользования фото и фоно 6.

документов. М., РГАНТД, 2008.

Методические рекомендации по признанию результатов интеллектуальной дея 7.

тельности единой технологией. (Утверждены 1.04.2012. Министерство образования и нау ки Российской Федерации).

Рекомендации по обеспечению сохранности информации, записанной на оптических дис ках (Тестирование выборочного массива документов федеральных архивов). М., РГАНДТ, Федеральное Архивное агентство, Авторы, 2011.

Рекомендации по обеспечению сохранности информации, записанной на оптиче 8.

ских дисках (тестирование выборочного массива документов федеральных архивов). М., РГАНТД, 2011.

Методические рекомендации по электронному копированию архивных документов 9.

и управлению полученным информационным массивом / Ю.Ю. Юмашева. – М.: ВНИИ ДАД, 2012. – 125 c.

Технический отчет ISO/TR 13028–2010 «Информация и документация – Руково 10.

дство по организации оцифровки документов» (Information and documentation – Implemen tation guidelines for digitization of records).

Технический отчет ISO/TR 15801:2009 «Управление документацией - Информация, 11.

сохраняемая в электронном виде – Рекомендации по обеспечению достоверности и на дежности» (Document management – Information stored electronically – Recommendations for trustworthiness and reliability).

Оцифрование архивных документов. М., ВНИИДАД, 1998.

12.

Отчет ВНИИДАД по теме «Изучение опыта оцифровки (сканирования) документов 13.

Архивного фонда в архивных учреждениях Российской Федерации», 2011.

Рекомендованные цифровые форматы, предназначенных для долгосрочного хране 14.

ния цифровой информации» Март 2012 г. («Recommended Data Formats for Preservation Purposes…» [Электронный ресурс.] / State University Library Services/ Florida Virtual Campus. Режим доступа к ресурсу: URL: http://fclaweb.fcla.edu/uploads/recFormats.pdf/ (да та обращения: 22.10.2013).).

Les archives electroniques. Manuel pratique. 2002 (Франция. «Электронные архивные 15.

документы. Практическое руководство» Дирекция архивов Франции, Париж, 2002) 16. Guidelines for the Management, Appraisal and Preservation of Electronic Records. Vol.

II, Procedures, Ch. 5 Preserving Electronic Records, 1999 (Великобритания. «Руководство по управлению, экспертизе ценности и сохранению электронных документов», том II, Про цедуры, глава 5 «Обеспечение сохранности электронных документов»

ИССЛЕДОВАНИЯ Войниканис Е.А., Калятин В.О. База данных как объект правового регулирования:

1.

Учебное пособие для вузов. М., «Статут», 2011.

Залаев г.З. Анализ и классификация электронных документов//Вестник архивиста, 2.

1999, № 2–3(50–51).

Корчемкина О.А. Понятие и признаки базы данных как объекта права. // Россий 3.

ский юридический журнал. 2012, № 1.

Ларин М.В. Актуальные проблемы обмена документированной информацией в го 4.

сударственном управлении // Документация в информационном обществе: унификация и стандартизация межведомственного и корпоративного документооборота. Доклады и со общения IX Международной научно-практической конференции, 5-6 декабря 2002 г. М., 2003.

Ларин М.В. Обеспечение сохранности электронных документов [Электронный ре 5.

сурс.] / 1c. Консалтинг. Режим доступа к ресурсу: URL: http://consulting.1c.ru/journal article.jsp?id=332. (дата обращения: 1.06.2013).

Михайлов О. А. Электронные документы и архивы: проблемы прима, обеспечения 6.

сохранности и использования. МАКС Пресс, 2002.

Сохранение электронной информации в информационном обществе. Сборник ма 7.

териалов Международной конференции (Москва, 3–5 октября 2011 г.) [Электронный ре сурс.] / Российский комитет программы ЮНЕСКО «Информация для всех». Режим досту па к ресурсу: http://www.ifapcom.ru/files/News/Images/2012/dig_pres_is_rus.pdf. (Дата об ращения: 10.09.2013).

Тихонова И.Г., Ганичева С.А., Добрусина С.А., Великанова Т.Д. Особенности хра 8.

нения оптических компакт-дисков в условиях архивов и библиотек. М., 2003.

Юмашева Ю.Ю. Создание электронных копий архивных документов: проблемы и 9.

возможные решения. Нормативно-технические и технологические аспекты создания элек тронных копий документов. Материалы Проблемного семинара и круглого стола в рамках 18-ой Международной Конференции «Крым 2011». «Библиотеки и информационные ре сурсы в современном мире науки, культуры, образования и бизнеса». 4–12 июня 2011, г.

Судак, Автономная республика Крым. М., ЗаО «ДиМи-Центр», 2011.

Helen Heslop, Simon Davis and Andrew Wilson, «An Approach to the Preservation of 10.

Digital Records», National Archives of Australia, December 2002. Режим доступа к ресурсу:

http://old.hki.uni-koeln.de/teach/ss07/DL/material/Australia.pdf (Дата обращения: 07.11.2013).

11. Migration: Context and Current Status Digital Preservation Testbed White Paper (De cember 2001). Голландия:«Тестовый стенд по обеспечению сохранности цифровой информации»

ПРИЛОЖЕНИЕ А НАУЧНЫЙ ДОКЛАД «СРАВНИТЕЛЬНЫЙ АНАЛИЗ ФОРМАТОВ ФАЙЛОВ ЭЛЕКТРОННЫХ ДОКУМЕН ТОВ ПОСТОЯННОГО (ДОЛГОВРЕМЕННОГО) ХРАНЕНИЯ»

Выбор средств кодирования для хранения информации зависит, в первую оче редь, от характеристик технических средств хранения, а также от вида информации, по требностей доступа пользователей к информации и к соответствующим программным средствам.

Основной массив хранимой информации представляет собой текстовые данные различного объма. По наименованиям единиц хранения подобные источники нарратив ной информации составляют более 90%. В настоящее время к такой информации, помимо текстов на различных языках человеческого общения, относятся и тексты компьютерных программ как на языках программирования, так и непосредственно в двоичных кодиров ках. Тексты, записанные в алфавитных системах, зачастую включают значительные фраг менты графической информации (иллюстрации). Особняком стоят тексты, записанные а неалфавитной (например, иероглифической) форме, которые по свойствам хранения бли же к чисто графической информации.

Текстовая информация может храниться в оригинальном виде, а также в сжатой форме при помощи различного вида архиваторных программных средств. При этом, что касается «чистого» текста, при архивировании и разархивировании потери информации исключены. Эффективность архивирования текстовых файлов приведена в табл. Таблица 1 Сопоставление степеней сжатия форматов текстовых данных Кодировка исходного текстового файла MS WORD RTF TXT Средняя степень сжатия объма исходного 5 - 6 3 файла в результате архивирования, раз Графическая информация с высоким разрешением, особенно полихромные и по лутоновые изображения, в свою очередь, архивному сжатию практически не поддатся.

Для е хранения, как правило, применяются растровые форматы (наиболее популярны из них JPEG, TIFF, BMP и т.д.). Эти форматы обеспечивают хранение реалистичных сцен с большой глубиной цвета.

Зарекомендовал себя в отечественной и зарубежной практике хранения элек тронных документов графической информации формат TIFF (англ. Tagged Image File Format) — формат хранения растровых графических изображений с большой глубиной цвета. Спецификация: [Электронный ресурс.] / Adobe Partners. Режим доступа к ресурсу:

URL: http://partners.adobe.com/public/developer/en/tiff/TIFF6.pdf/ (дата обращения:

01.11.2013). Формат *tiff является на сегодняшний день оптимальным с точки зрения ка чества сохранения визуальной (растровой) информации – он широко используется в поли графии высокого качества. Электронный документ в данном формате с разрешением не ниже 300 dpi и последующим сохранением (без компрессии) в формате *tiff – лучший ва риант создания электронного изображения, предназначенного как для длительного хране ния, так и для дальнейшего использования, включая варианты преобразований файла5.

Многостраничный *tiff (мульти-Tiff) – версия известного формата TIFF для хра нения и представления многостраничных файлов. Создается специальным программным обеспечением - Multi-Page TIFF Editor (http://www.yukudr.com/multipageimage/index ru.php), многочисленными бесплатными программами, входит к комплект форматов мно гих графических редакторов. Однако для открытия *.tiff-файлов необходимо использовать программы для просмотра многостраничных документов (например, Evince (http://projects.gnome.org/evince/), или функцию листания в стандартной программе про смотра изображений Windows, т.к. программы для просмотра изображений покажут толь ко первую страницу многостраничного TIFFа6.

В зависимости от условий целесообразно создавать файл с максимальным разре шением в 300 dpi в цветном режиме в формате *jpg. Электронные копии в формате *jpg создаются в широком круге графических редакторов. JPEG (англ. Joint Photographic Experts Group, по названию организации-разработчика - URL: http://www.jpeg.org/, URL:

http://www.martinreddy.net/gfx/2d/JPEG.txt) — один из популярных графических форматов, применяемый для хранения фотоизображений и подобных им изображений. Несмотря на свое широкое распространение, данный формат имеет очевидные недостатки, которые можно игнорировать при представлении информации, к примеру, в Интернет, но которые весьма существенны при формировании фонда пользования (особенно для требователь ных исследователей). Например, сохраненное в формате *jpg при максимально возмож ном качестве (в Adobe PhotoShop – 10) и без компрессии изображение в случае восстанов «Рекомендованные цифровые форматы, предназначенные для долгосрочного хранения цифровой инфор мации» («Recommended Data Formats for Preservation Purposes…» [Электронный ресурс.] / State University Library Services/ Florida Virtual Campus. Режим доступа к ресурсу: URL:

http://fclaweb.fcla.edu/uploads/recFormats.pdf/ (дата обращения: 22.10.2013).

Методические рекомендации по электронному копированию архивных документов и управлению полу ченным информационным массивом / Ю.Ю. Юмашева. – М.: ВНИИДАД, 2012. С. 66.

ления не будет в точности совпадать с исходным изображением, формируемым при ска нировании7.

В то же время имеется огромный массив графических документов, сформирован ных из элементарных объектов (т.н. «графических примитивов»). К таким примитивам относятся отрезки прямых и ломаные линии, многоугольники, окружности и эллипсы, а также, в некоторых случаях, кривые Безье и сплайны. При помощи графических примити вов эффективно реализуются документы типа чертежей, структурных схем, графического представления алгоритмов и т.п., для которых характерны резкие переходы яркости меж ду фигурой и фоном (различным образом расположенные линии на однородном фоне).

Для таких документов наиболее эффективны векторные форматы представления, к числу которых относятся SWG, WMF, CGM и им подобные. Однако векторные форматы, как правило, искажают цветовую схему сложного изображения.

Множество хранимых аудио документов характерно одновременно относительно большими как объмом каждого документа, так и их номенклатурой. Такие документы, закодированные в форматах, обеспечивающих высокое качество сохранения и воспроиз ведения информации (например, MP3, WMF), почти не поддаются архивированию;

в среднем их сжатие не превышает 5%. Объм файла в формате WMF длительностью зву чания 60 минут составляет около 12-14 Мбайт, что эквивалентно документу MS WORD размером около 2500 страниц (150 печатных листов).

Видеоинформация обладает свойствами, аналогичными аудиоинформации, но значительно более выраженными. Выбор различных видов кодирования видеоинформа ции решающим образом сказывается на качестве изображения, что существенно влияет на объм хранимого объекта. В табл. 2 дано сравнение размеров сходных по длительности видеоресурсов в зависимости от качества хранения изображения.

Таблица 2. Сопоставление объемов форматов видео данных Название Длительность вос- Кодировка кинофильма произведения, час BDRip DVD9, DVD5 DVDRip HDRip 1080p BDRip 720p Размер файла, Гбайт Сибирский ци рюльник 3 7.8 4.3 2. Методические рекомендации по электронному копированию архивных документов и управлению полу ченным информационным массивом / Ю.Ю. Юмашева. – М.: ВНИИДАД, 2012. С. 66-67.

Утомлнные солнцем 2: Цита- 2.5 20.4 7.6 1. дель Гражданин Кейн (Citizen Kane) 2 27 4.3 0. Из данных табл.2 следует, что размер видеоресурса исключительно сильно зави сит от качества хранения изображения. Практическая независимость размера от длитель ности воспроизведения может объясняться привязкой размера к стандартной мкости тра диционных носителей этой информации (CD, DVD-дисков и т.д.).

Итак, даже в минимальном варианте для хранения видеодокумента требуется объм памяти, значительно превышающий размер текстовых документов. Например, сум марный объм текстов известной электронной библиотеки Максима Мошкова на 2005 год составлял всего 1.8 Гбайт. Возможности архивации видеодокументов при этом фактиче ски отсутствуют – степень их сжатия без потери качества при восстановлении не превы шает полупроцента. Следовательно, с технической точки зрения выбор программных средств для кодирования аудио- и видеоинформации определяется только требуемым ка чеством воспроизведения изображения и доступным объмом архивного хранилища.

Достаточно часто встречается потребность в сохранении комплексных докумен тов, в структуру которых входят фрагменты различной природы. Наиболее актуальны в этой связи текстовые документы с графическими вставками (фотоизображениями, диа граммами, чертежами и т.д.). Достаточно просто эта проблема решается с использованием современных текстовых форматов типа MS WORD, RTF. Документы этих форматов по зволяют включать графические изображения в растровых кодировках. Разумеется, при этом хранимый размер документа увеличивается, но одновременно возможно «обтекание»

изображения текстом. В случае большого количества иллюстраций в тексте оказывается более выгодным хранить документ в виде единого изображения – в этом смысле графиче ские форматы хранения являются более универсальными. В то же время чисто графиче ские форматы имеют существенный недостаток с точки зрения работы с текстами – функ ции редактирования текста, текстового поиска, объединения текстовых фрагментов при оперировании изображениями текстов исключительно затруднены. Фактически задача сводится к распознаванию графических образов;

наджные алгоритмы такого распознава ния требуют для своей реализации высокопроизводительного оборудования, которое в обозримом будущем ещ не получит широкого распространения.

С другой стороны, ряд приложений при работе с документами требует анализа не только содержания текста, но и формы его представления и особенностей самого доку мента. К таким особенностям можно отнести шрифт (фонт) печатного документа, почерк рукописи, степень сохранности и индивидуальные дефекты документа (исправления, грязь, потртости, царапины, выцветание и т.п.). В этом случае без графического кодиро вания обойтись практически невозможно.

Возможным компромиссом между этими противоречивыми требованиями можно признать межплатформенные комплексные форматы, такие как PDF, DjVu, CGM. Послед ний из них, правда, имеет ограниченное распространение, ибо наиболее приспособлен к работе с технологическими машиностроительными чертежами.

Вполне конкурентными могут служить форматы PDF и DjVu. Для сравнения эф фективности хранения документов в этих форматах проводился эксперимент по преобра зованию исходного текста в формате MS WORD независимо в форматы PDF и DjVu. Да лее оценивались коэффициенты сжатия объма текстовых файлов после преобразования в графические форматы;

они сводились в два отдельных числовых массива. В третий мас сив сводилось отношение коэффициентов сжатия объма текстовых файлов при использо вании двух графических форматов. По статистическим данным трх таблиц рассчитыва лись несмещнные оценки выборочных средних значений по формулам:

n Aср = ( ai ) / n, i= где ai – экспериментальное значение параметра из таблицы, Aср – полученное среднее значение, n – размер таблицы.

Статистически устойчивого результата удалось добиться уже при значении величины n (количество оцененных файлов), равном 20.

Документ в формате PDF может включать текстовую часть, векторную и растро вую графику, элементы мультимедиа, формы и т.п. Его достоинствами являются лгкий поиск текстового фрагмента и возможность копирования текста и изображений в редакто ры типа MS WORD. В документ может быть вставлена электронная цифровая подпись.

Документ в формате MS WORD легко преобразуется в формат PDF (например, бесплатно распространяемым приложением doPDF_7.1.344). Обработка данных произведнных экс периментов показала, что текстовый документ при таком преобразовании в изображение уменьшается в объме до 7 раз, причм возможно использование текстов примерно на языках.

Документ в формате DjVu чаще всего создатся сканированием исходного доку мента и обладает свойствами, аналогичными формату PDF. Его особенность – наличие отдельного текстового слоя, позволяющего более быстро производить поиск информации в текстовой части документа. Экспериментальное сравнение одинаковых документов в этих двух форматах выявило, что документ в формате DjVu в среднем имеет объм в 2. раза меньше, нежели документ в формате PDF. В исключительных случаях большого ко личества разнообразных иллюстраций и плохой сохранности оригинального документа отклонение может достигать 16 раз. Следовательно, при ограниченном объме информа ционного хранилища использование формата DjVu выглядит предпочтительнее. В случае выбора в качестве формата хранения данных формата PDF отсканированный документ из формата DjVu может быть преобразован (конвертирован) в формат PDF любым из сво бодно распространяемых программных средств такой конвертации. В настоящей работе в качестве инструментального средства была использована программа DjVuLibre+DjView-3.5.25.3+4.9. Следует отметить, что сам процесс конвертации легко автоматизируется и практически не требует ручного труда сотрудника архива.

Вместе с тем следует учитывать и возможности просмотра информации при по мощи различных технических средств. В случае использования стационарных или пере носимых компьютеров с операционными системами семейств Windows и UNIX.проблем с просмотром документов в упомянутых кодировках в настоящее время не возникает. Осо бым случаем является применение вс шире распространяющихся планшетных портатив ных устройств. Более дорогие из них, работающие на платформах iOS фирмы Apple или Android фирмы Google, обеспечивают возможность чтения документов в обеих конкури рующих кодировках. Однако следует учесть и популярность более дешвых планшетных устройств фирмы Samsung, стандартные программные средства которых позволяют рабо тать с информацией (файлами) в кодировке PDF, в то время как файлы с данными типа DjVu даже не распознаются. Кроме того, специальные программные средства для чтения на этих планшетах в бесплатном доступе встречаются достаточно редко (по данным на сентябрь 2013 года ссылки в Internet есть, но скачивание невозможно – программные средства в бесплатный доступ, по-видимому, ещ не выложены). Более того, именно на планшетах фирмы Samsung установленное дополнительное программное обеспечение ра ботает неустойчиво. По этой причине для таких планшетных устройств в настоящее время имеет смысл рекомендовать использовать файлы в кодировке PDF, несмотря на их увели ченный более чем вдвое объм.

Исходя из имеющихся данных PDF («portable document format») на сегодняшний день сохраняет в достаточной мере универсальность на протяжении почти 20 лет. Изна чально данный формат, созданный по инициативе компании Adobe, предназначался для электронного представления печатных материалов. Именно в этом аспекте задача формата - хранить информацию о цветовой схеме и расположении элементов, обеспечить идентич ный вывод на разных мониторах и принтерах.

Безусловно, возможности формата PDF значительно расширились в последнее время:

- стало возможным вставлять в текст документа гиперссылки - можно шифровать документ с паролем и тем самым защищать его от модифи кации - появилась возможность сочетать изображение с текстовым слоем. Это дает воз можность, просматривать представление документа и копировать текст из документа (версия PDF 1.4) - возможность вставлять метаданные в виде пар ключ-значение, стоит отме тить, что каждая из которых может быть связана с какой-то частью документа (например, отдельным изображением) или с документом в целом (версия PDF 1.4) Новые возможности формата, с точки зрения архивного хранения, крайне важны, более того, они поддерживаются форматом по сей день.

Отдельное значение, безусловно, имеет PDF/A — это подмножество формата PDF, содержащее весьма ограниченный набор возможностей представления данных. Сто ит отметить, что данный формат является стандартом ISO и предназначен для долгосроч ного хранения электронных документов. В целях обеспечения длительного срока хране ния было осуществлено внедрение в содержимое электронного документа в формате PDF/A всей информации, необходимой для его отображения. К примеру, такой информа цией, в частности, являются шрифты (как те, которые использованы в документе, так и включенные в него). В силу этой особенности тесты показали, что, размер: документа в формате PDF/A не меньше, а порой больше по размеру, чем аналогичный по содержанию документ в формате PDF.

Другое важное отличие PDF/A от PDF – запрет на использование скриптов. В случае использования обычного PDF, в документ может быть встроен вредоносный код.

Многие программы для работы с PDF позволяют отключать выполнение скриптов в доку ментах, но если настройка программного обеспечения пользователя выполнена непра вильно, открытие документа может привести к нежелательным последствиям. С этой точ ки зрения PDF/A выглядит предпочтительней, но есть одна проблема: оба формата имеют одинаковое расширение «.pdf», и под видом надежного PDF/A файла может скрываться зараженный документ. Поэтому настоятельно рекомендуется корректно настраивать про граммное обеспечения и отключать выполнение встроенных скриптов.

Есть и другие отличия. Так, документы PDF/A не поддерживают встроенного шифрования, а также вставку аудио и видео материалов. Эти особенности не столь суще ственны, и на практическое применение формата почти не влияют.

Несколько слов о самом PDF/A. На данный момент имеется три версии формата.

Первая версия – PDF/A-1 (ISO 19005-1, 2005 год) имеет две модификации. Одна из них базовая (PDF/A-1b), вторая (PDF/A-1a) содержит дополнительные требования, направлен ные на упрощение поиска по документу (необходимость вставки иерархии, описания тэ гов и языковых особенностей). На практике предпочтительней PDF/A-1b, так как затраты на создание документа соответствующего всем требованиям PDF/A-1a не всегда оправда ны.

Вторая версия PDF/A-2 (ISO 19005-2, 2011 год) имеет ряд незначительных изме нений (добавлена поддержка JPEG 2000, OpenType шрифтов и прозрачных слоев). Также существует несколько подвидов (PDF/A-2a, PDF/A-2b, PDF/A-2u), которые имеют незна чительные различия. На данный момент формат PDF/A-2 распространен слабо.

Наконец, PDF/A-3 (ISO 19005-3, 2012 год) добавил возможность встраивать в до кументы файлы произвольных форматов. Как и PDF/A-2 почти не применяется.

В рамках исследования нашло свое подтверждение то, что документ, хранимый в формате PDF/A, в силу полного отсутствия связи с такими изменчивыми вещами как ги перссылки и мультимедийный контент, можно открыть в любой операционной системе через какое угодно длительное время с помощью приложения, поддерживающего соответ ствующий формат. Особое значение также имеет и тот факт, что PDF/A обеспечен стату сом международного стандарта, а его поддержка со стороны разработчиков в долгосроч ной перспективе оправдана. Использование целесообразно по сравнению с другими дос тупными форматами хранения, которые могут измениться в любой момент времени. Си туация с отказом от поддержки документов Word старого образца до версии 2003 в Google Drive дало старт полному вытеснению (умерщвлению) формата Word 97–2003. Более того, компания Microsoft сама не оказывает последовательную поддержку и преемственность форматов в рамках ПО Word версий 97-2003 с более поздними версиями. Открытие в по следних версиях Word текстовых документов ранних версий до 2003 г. включительно в 40% приводит к существенным изменениям представления текста: изменяется формати рование, происходит хаотичное «съедание» пробелов и т.п.

Существуют и определенные риски с форматом PDF/A. Так, применительно к формату PDF/A следует отметить, что целостность и неизменность неподписанного доку мента в данном формате не может быть гарантирована и более того не заявляется как осо бенность формата. Иными словами, несмотря на то, что данный формат позиционируется как обеспечивающий долгосрочное хранение, изменение содержимого документа остается возможным и что странно не является отклонением от нормы, если оно не зашифровано.

Существует также следующий нюанс: для каждого конкретного документа, формат кото рого заявлен как PDF/A, невозможно заведомо утверждать, что это действительно так. Та ким образом, необходима верификация на соответствие требованиям формата для каждого конкретного документа, и если на этапе размещения в архиве или после очередного изме нения она не будет проведена, то задача по принятию электронного документа на долго срочное хранение потенциально провалена.

Особое значение приобретает использование PDF и его репликаций в отношении образов документов в виде растрового изображения. Предполагается, что текста поверх него нет, то есть в документе хранится исключительно отсканированный растр — изобра жение, текст на котором непонятен компьютеру, а понятен только человеку. В исключи тельных случаях поверх растрового изображения может быть расположен текстовый слой, частично или целиком наполненный либо вручную человеком, либо с помощью системы распознавания текста (в зависимости от формата графического файла). Можно предполо жить, что документ содержит метаданные, так или иначе связанные с видом документа и его содержимым (например, если это договор, метаданные могут содержать информацию о поставщике, дате выставления, сумме, сроках и т.д.). Очевидно, что графический образ документа должен храниться не меньше бумажного оригинала, а зачастую значительно дольше, поскольку значимость и важность его в контексте организации-владельца всегда держится выше нулевой отметки. Кроме того, образ бумажного документа изменение не подразумевается.

На основании перечисленных особенностей, которыми обладает образ документа, можно смело заявлять, что одинаково пригодны оба формата, поскольку для каждого кон кретного документа не будут использованы возможности формата такие, которые не под держиваются стандартом PDF/A. Последний допускает и метаданные, и текстовый слой поверх изображения, и даже подписание документа с целью защитить его от модифика ции. А необходимостью внедрения шрифтов в каждый документ можно пренебречь: по скольку речь идт об образах, и текста нет, соответственно, нет и шрифтов, и добавочный вес в этом отношении будет мал.

Аналогично, с каждым годом увеличивается количество документов, включн ных в разнообразные базы данных – база данных также является документом со структу рой, состоящей из полей разной информационной природы. Выбор кодировки для хране ния базы зависит в основном от е структуры.

Если база представляет собой один файл, то е имеет смысл хранить в кодировке, соответствующей этому типу файла – как правило, в виде двоичных данных. При хране нии базы, записи которой явно состоят из полей разной структуры, наиболее часто упот ребимы окажутся кодировки RTF и PDF – в случае, если в базе нет аудио- и видеофраг ментов (почти невозможно представить приложения для использования подобной базы).

В случае реляционной базы данных (самый частый в настоящее время вариант) запись в базе как единое целое, как правило, не хранится, а формируется их полей различных таб лиц по запросу. При этом вполне возможно хранение информации отдельных таблиц в наиболее адекватных случаю ранее описанных кодировках. Проблема заключается лишь в «сборке» готовых информационных фрагментов с выдачей их пользователю в требуемом порядке.

Отдельная задача встат в связи с частотой пользовательского обращения к ин формационному источнику. Для систем архивного хранения информации характерным является режим именно долговременного хранения данных в наиболее удобной для ин формационного поиска системе классификации метаописаний единиц хранения. Инфор мационная коллекция пополняется, однако обращение к этому массиву по «читательско му» запросу происходят достаточно редко. Для таких архивных хранилищ основная про блема – угроза переполнения принципиально ограниченного объма хранилища. Следова тельно, хранение информации целесообразно осуществлять в максимально архивирован ном, «сжатом» виде. Пример подобного архива – архив Департамента Герольдии Прави тельствующего Сената Российской Империи (Санкт-Петербург) или Российский Государ ственный Военно-исторический архив (Москва). В настоящее время собрания этих архи вов практически не пополняются, а запросы к отдельным архивным делам отсутствуют десятилетиями. Аналогичная ситуация складывается с Центральным архивом Министер ства обороны России, хотя его собрание продолжает регулярно пополняться.

В случае «оперативного», частого пользования данными из информационного ис точника объм хранимой информации для пользователя является менее критическим, и е следует хранить не в сжатом виде, а в кодировке, наиболее адекватной как природе самой информации, так и предметным запросам пользователя. Это позволяет существенно со кратить как время доступа к информации, так и время е неформального анализа и обра ботки человеком-заказчиком данных из информационной системы.

Современные алгоритмы сжатия (архивации) данных пригодны для работы прак тически со всеми используемыми видами информации. При выполнении условия мини мальной потери информации в процессе архивации и последующего восстановления дан ных при разархивации степень сжатия данных слабо зависит от непосредственно струк турно-математических особенностей алгоритмов сжатия и н, как следствие, самих про грамм-архиваторов. Необходимое требование к современным алгоритмам и программам архивации – точное восстановление оригинала документа из его архивного образа. Ис пользуемые в настоящее время популярные архиваторные средства (WinRAR, ARJ и т.д.) этому требованию удовлетворяют. Получение многочисленных копий документа с одного оригинала, очевидно, дат тождественные результаты, и потому архивация в этом смысле устойчива. При множественной репликации архивированного документа (получении оче редной копии исходного документа восстановлением из архивного оригинала) для тексто вого источника документы восстанавливаются точно, т.е. погрешности не накапливаются.

Для аудио- и видеодокументов погрешность возникает только при первой итерации архи вирования-разархивирования, однако дальнейшего накопления ошибок не происходит.



Pages:   || 2 |
 

Похожие работы:





 
2013 www.netess.ru - «Бесплатная библиотека авторефератов кандидатских и докторских диссертаций»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.