Сжатие данных (компрессия) и форматы оцифровки

Главная       Учебники - Компьютеры      Электронная информатизация и электронные ресурсы

 поиск по сайту     

 

 

 

 

 

 

 

 

 

 

содержание   ..  40  41  42  43  44  45  46  47  48  49  50  ..

 

 

5.2.2. Сжатие данных (компрессия) и форматы оцифровки

Из приведенных примеров видно, что сканирование текстов, изображений или микрофильмов приводит к созданию очень больших цифровых массивов. Работать с ними не очень удобно — большие емкости памяти, большое время обработки массивов, их пересылки. Поэтому с «сырыми» массивами оцифрованных данных стараются не работать, а используют так называемую компрессию, или сжатие данных. Зачастую речь идет просто об удалении не очень важных для раскрытия содержания документа подробностей. Эта работа в чем-то близка реферированию — нужно путем разумного компромисса значительно сократить объем документа, не утратив его смысла. В настоящее время разработано много систем компрессии данных. каждая из которых имеет свои преимущества и недостатки и, значит, пригодна для соответствующего применения.

Формат TIFF работает как со сжатыми, так и с несжатыми массивами данных, при этом формат TIFF G4 обеспечивает компрессию черно-белого материала без потери. Конечно, если процедура сжатия без потерь является доступной, она должна применяться в целях экономии объемов необходимой памяти. Но поскольку не все без исключения программы могут работать со сжатыми данными в формате TIFF, соответствующую совместимость следовало бы опробовать заранее. В любом сомнительном случае следует рекомендовать работу с несжатыми массивами.

Широко используемый для передачи и хранения данных оцифровки полутоновых и цветных фотографий формат JPEG (Joint Photographic Experts Group), разработанный объединенной группой экспертов по фотографии, работает в режиме переменных коэффициентов сжатия и поэтому не рекомендуется для массовых проектов, в которых необходимы стандартизация и унификация. Каждое промежуточное сохранение приводит к некоторым потерям данных, поэтому в данном формате лучше хранить только окончательные версии графических файлов.

Формат обмена изображениями GIF (Graphics Interchange Format) также не зависит от платформы и позволяет хорошо сжимать файлы, в которых много однородных элементов (заливок, схем, логотипов и т. п.). Алгоритм GIF широко распространен для передачи кнопочек, баннеров в оформлении интернетовских интерфейсов и является платным, принадлежит компании CompuServe.

Довольно громоздкими оказываются и массивы данных высококачественной цифровой звукозаписи. В соответствии со стандартом ISO 9660 оцифровка музыкального произведения осуществляется так называемой импульсной модуляцией (Pulse Code Modulation, PCM). В секунду берется 44 100 образцов (темп сбора образцов (сэмплирования) составляет 44.1 кГц), каждому из сэмплов присваивается одно из 16 536 возможных значений (запись в 16 битов). Экономия может быть достигнута разными способами: уменьшением темпа взятия образцов (до 22,05 или даже до 11,025 кГц), либо уменьшением объема записи одного сэмпла (использование 8-битовой записи, предоставляющей 256 значений), либо уменьшением числа каналов поступления информации (моно вместо стерео или квадро).

Развитие технологии импульсной модуляции состоит в записи только разницы между соседними образцами, а не их абсолютного значения. Эта методика называется адаптивной импульсной модуляцией (Adaptive Differential Pulse Code Modulation, ADPCM) и уменьшает объем необходимой памяти в 16 раз по сравнению с РСМ.

Еше одна методика сокращения объемов памяти при записи музыкальных произведений — использование системы так называемого интерфейса цифровых музыкальных инструментов (Musical Instrument Digital Interface, MIDI). В этой технологии записываются не образцы звуков, а их нотные обозначения в цифровом формате (высота и длительность звука); при этом достигается экономия примерно в 60 раз по сравнению с ADPCM.

Для сжатия музыкальных и видеофайлов широко используется стандарт, разработанный группой экспертов по кинофильмам (Motion Pictures Expert Group. MPEG), который к настоящему времени имеет несколько рабочих версий, в том числе формат MP3, используемый в аудиоплеерах и при передаче музыкальных произведений через Интернет. Если CD-ROM обеспечивает не более 74 минут звучания, то диски с записями формата MP3 обеспечивают 7—8 часов звучания. При воспроизведении видеоинформации технология VHS потребована бы темпов расходования запаса памяти 100—200 Мб в минуту, поэтому бесплатный алгоритм сжатия MPEG позволяет сжимать в отношении 180:1 за счет передачи только изменений в картинке.