DjVu
Материал из Википедии — свободной энциклопедии
DjVu (произносится «дежавю́», от фр. déjà vu — уже виденное) — технология сжатия изображений, разработанная специально для распространения сканированных документов — книг, особенно научно-технических, журналов и пр. — в интернете. DjVu иногда называют «тексто-графическим» форматом.
Формат оптимизирован для передачи по сети таким образом, что страницу можно просматривать ещё до завершения скачивания. DjVu-файл может содержать текстовый (OCR) слой, что позволяет осуществлять полнотекстовый поиск по файлу. Кроме того, DjVu-файл может содержать встроенное интерактивное оглавление и активные области — ссылки, что позволяет реализовывать удобную навигацию в DjVu-книгах.
Для сжатия цветных изображений в DjVu применяется специальная технология, разделяющая исходное изображение на три слоя: передний план, задний план и чёрно-белую (однобитовую) маску. Маска сохраняется с разрешением исходного файла; именно она содержит изображение текста и прочие чёткие детали. Разрешение заднего плана, в котором остаются иллюстрации и текстура страницы, понижается для экономии места. Передний план содержит цветовую информацию о деталях, не попавших в задний план; его разрешение понижается ещё сильнее. Затем задний и передний планы сжимаются с помощью вейвлет-преобразования, а маска — алгоритмом JB2.
Особенностью алгоритма JB2 является то, что он ищет на странице повторяющиеся символы и сохраняет их изображение только один раз. В многостраничных документах каждые несколько подряд идущих страниц пользуются общим «словарём» изображений.
Для сжатия большинства книг можно обойтись только двумя цветами. В этом случае используется всего один слой, что позволяет достичь рекордной степени сжатия. В типичной книге с чёрно-белыми иллюстрациями, отсканированной с разрешением 600 dpi, средний размер страницы составляет около 15 килобайт, то есть приблизительно в 100 раз меньше, чем исходный файл. По сравнению с PNG и TIFF (CCITT Fax 4) выигрыш составляет приблизительно 10 и 4 раза соответственно.
В основе формата DjVu лежат несколько технологий, разработанных в AT&T Labs. Это:
- алгоритм отделения текста от фона на отсканированном изображении;
- вейвлетный алгоритм сжатия фона IW44;
- алгоритм сжатия черно-белых изображений JB2;
- универсальный алгоритм сжатия ZP;
- алгоритм распаковки «по запросу»;
- алгоритм «маскировки» изображений;
AT&T продали технологию компании LizardTech, которая пытается использовать её для своих коммерческих интересов, но, благодаря открытости формата, для создания и просмотра документов DjVu существует свободно распространяемое программное обеспечение, доступное для различных платформ.
Формат DjVu крайне удобен для хранения и передачи отсканированных естественно-научных книг, где обилие формул и схем делает чрезвычайно трудоёмким их полноценное распознание. Формат стал основой для нескольких библиотек научных книг, правомерность существования некоторых из них, впрочем, вызывает сомнения с точки зрения законов об авторских правах. Огромное количество книг в этом формате доступно в файлообменных сетях.
[править] См. также
[править] Ссылки
- DjVuLibre — reference-реализация, распространяется на условиях GPL
- DJVU — формат для электронных библиотек. Алгоритмы и достоинства, программы и использование, руководства пользователя.
- DjVu: Краткое техническое введение. Рассказ о формате и программном обеспечении DjVuLibre.
- Дежавю или DjVu: ликбез. Сборник статей о технологии DjVu.
- DjVu Zone. Англоязычный портал DjVu-сообщества.
- Сравнение DjVu-кодеров. Оценка степени компрессии бесплатных программ для создания DjVu.
- DjVu-программы. коллекция DjVu-программ.