Книжный мир
Текстовые форматы

Morik (off) VIP [1755]
16 января 2009, 03:22

Формат DjVu

DjVu (от фр. d?j? vu «уже виденное») - технология сжатия изображений с потерями , разработанная специально для хранения сканированных документов - книг, журналов, рукописей и пр., где обилие формул, схем, рисунков и рукописных символов делает чрезвычайно трудоёмким их полноценное распознание . Также является эффективным решением, если необходимо передать все нюансы оформления, например, исторических документов где важное значение имеет не только содержание, а цвет и фактура бумаги; дефекты пергамента: трещинки, следы от складывания; исправления, кляксы, отпечатки пальцев; следы, оставленные другими предметами.
DjVu стал основой для нескольких библиотек научных книг, правомерность существования некоторых из них, впрочем, вызывает сомнения с точки зрения законов об авторских правах . Огромное количество книг в этом формате доступно в файлообменных сетях .
Формат оптимизирован для передачи по сети таким образом, что страницу можно просматривать ещё до завершения скачивания. DjVu-файл может содержать текстовый ( OCR ) слой, что позволяет осуществлять полнотекстовый поиск по файлу. Кроме того, DjVu-файл может содержать встроенное интерактивное оглавление и активные области - ссылки, что позволяет реализовывать удобную навигацию в DjVu-книгах.
Для сжатия цветных изображений в DjVu применяется специальная технология, разделяющая исходное изображение на три слоя: передний план, задний план и чёрно-белую (однобитовую) маску. Маска сохраняется с разрешением исходного файла; именно она содержит изображение текста и прочие чёткие детали. Разрешение заднего плана, в котором остаются иллюстрации и текстура страницы, понижается для экономии места. Передний план содержит цветовую информацию о деталях, не попавших в задний план; его разрешение понижается ещё сильнее. Затем задний и передний планы сжимаются с помощью вейвлет - преобразования, а маска - алгоритмом JB2 .
Особенностью алгоритма JB2 является то, что он ищет на странице повторяющиеся символы и сохраняет их изображение только один раз. В многостраничных документах каждые несколько подряд идущих страниц пользуются общим «словарём» изображений.
Для сжатия большинства книг можно обойтись только двумя цветами. В этом случае используется всего один слой, что позволяет достичь рекордной степени сжатия. В типичной книге с чёрно-белыми иллюстрациями, отсканированной с разрешением 600 dpi , средний размер страницы составляет около 15 Кб , то есть приблизительно в 100 раз меньше, чем исходный файл. Однако, при этом не стоит забывать, что в DjVu используется сжатие данных с потерями . Для особо важных документов, возможно, будет разумнее использовать более «надёжные» форматы: PNG , JPEG 2000 , TIFF и т. п. Выигрыш объёма в этом случае составит всего 4-10 раз.
В основе формата DjVu лежат несколько технологий, разработанных в AT&T Labs. Это:
алгоритм отделения текста от фона на отсканированном изображении;
вейвлетный алгоритм сжатия фона IW44 ;
алгоритм сжатия чёрно- белых изображений JB2;
универсальный алгоритм сжатия ZP ;
алгоритм распаковки «по запросу»;
алгоритм «маскировки» изображений;
Формат DjVu предусматривает наличие текстового слоя, который содержит текст со страницы. (Используется для лёгкого копирования текста из документа при работе с ним). В случае, если текстовый слой недоступен, единственный метод получения текста - выполнение оптического распознавания (в сторонних программах).
-------

Назад в тему

Книжный мир
Список форумов
На главную

0.014 сек
SQL: 3