ПравилаРегистрацияВход
НАВИГАЦИЯ

Текстовые форматы

Модераторы: Lorian, Algis, DreamFire
Список форумов » Книжный мирНа страницу 1, 2, 3, 4 
АВТОРСООБЩЕНИЕ
Morik
VIP
Avatar
Имя: Тайлер Дерден
Сейчас нет на сайте
Репутация: 8
Регистрация: 19.07.2008
Всего сообщений: 1741
Откуда: НИОТКУДА, я тут всегда
10 января 2009, 18:29
fictionbook
На мой взгляд, лучше всего подходит для художественной литературы. Он прекрасно позволяет организовать структуру книги (главы, подзаголовки, стихи, цитаты и т.д) Он позволяет вставлять в текст иллюстрации. Он без проблем читается как на PC, так и на КПК. Под него есть достаточное количество хорошего софта. Он открыт и стремительно развивается.
Сам я читаю книги именно в этом формате, поэтому все остальные форматы меня не очень беспокоят.
Под катом информация, достаточная для комфортного общения с форматом fb2
Начнем с программ, позволяющих читать формат fb2 "как он есть", не изменяя и не конвертируя его во что-то другое.
Для "большого брата" - PC -есть две лидирующих программы: Cool Reader и AlReader
Cool Reader
- Переформатирование текста под любой размер шрифта, сглаживание (антиалиасинг) экранных шрифтов, полностью настраиваемая палитра, текстурированный фон, плавный скроллинг, позволят снизить нагрузку на зрение.
- Оптимизирован для чтения художественной литературы.
- Понимает формат большинства книг, скачанных с сайтов электронных библиотек. Распознает границы абзаца, заголовки, цитаты с использованием элементов AI. Поддерживает распаковку книг из архивов ZIP, RAR, ARJ, HA, LZH.
- Читает форматы html, rtf, doc (MS Word), txt, fb2(FictionBook). Автоматически распознает русские кодировки dos, win, koi-8, а также latin, utf-8 и unicode.
- Поддерживаемые платформы: Win9 x/ME/NT4.0/Win2K/XP
Статус программы: бесплатная для некоммерческого использования
AlReader
- Поворот экрана 90, 180, 270
- Профайлы "День"/"Ночь" (в профайл входят настройки шрифта текста: размер, болд, сглаживание, цвет: фона, текста и строки состояния) - до 8-ми профилей
- чтение HTML, FB2 -поддержка стилей текста, изображений, переходов по ссылкам, содержания.
- чтение CHM -экспериментальная поддержка.
- чтение TXT, RTF, PDB/PRC (PalmDOC, zTXT mode 1), TCR файлов, DOC, DOCX, ODT, SXW, ABW, ZABW - только текст.
- чтение из архивов ZIP и GZ.
- произвольный выбор кодировки
- правильные переносы для 23 языков (шаблоны TeX)
- нормальный полноэкранный режим (без верхней строки)
- сохранение читаемого файла как TXT, PDB или HTML.
- Поддерживаемые платформы: Win 2000, Win XP
Статус программы: бесплатная для некоммерческого использования
Для КПК так же есть два лидера: упомянутый выше AlReader и Haali Reader.
AlReader для КПК
поворот экрана 90 °, 180 °, 270°
профили «День»/«Ночь» (в профиль входят настройки шрифта текста: размер, болд, сглаживание, цвет: фона, текста и строки состояния) - до 8-ми профилей
чтение HTML, RTF, FB2, DOC, DOCX, ODT, SXW, ABW, ZABW, RB, TCR - поддержка стилей текста, изображений, переходов по ссылкам, содержания. (формат DOC пока без картинок)
чтение CHM -экспериментальная поддержка.
чтение TXT, PDB/PRC (PalmDOC, zTXT mode 1) - только текст.
чтение из архивов ZIP и GZ.
чтение архивов RAR (требуется unrar.dll, которая на текущий момент есть только для Win2000, WinXP, Vista)
Изображения в формате JPG, PNG, GIF, BMP. Форматы EMF и WMF поддерживаются только для Win2000, XP, Vista
произвольный выбор кодировки
правильные переносы для 23 языков (шаблоны TeX)
нормальный полноэкранный режим (без верхней строки)
строка состояния (время, батарея, проценты прочитанного и количество страниц).Видимость всей строки состояния настраивается отдельно для полноэкранного режима и для нормального
линейка положения в тексте (снизу, справа или в строке состояния). Видимость настраивается отдельно для полноэкранного режима и для нормального
отображение заряда батареи на линии положения в тексте
кнопки джойстика перестраиваются вместе с поворотом экрана
регулировка межстрочного и межсимвольного интервала
выравнивание по ширине
список последних открытых книг
клеартейп
несколько видов автопрокрутки (волна, строчная волна и плавная)
закладки с навигацией по ним
глобальные закладки с навигацией по ним
настройка аппаратных кнопок, тапов и штрихов по экрану
поиск произвольной текстовой строки без учета количества пробелов и переводов строк между словами + использование в строке поиска символа «?», который интерпретируется как один любой символ. Поиск регистронечуствителен.
переход по тексту (проценты и страницы)
сохранение цитат
сохранение читаемого файла как TXT,PDB или HTML.
подсветку экрана можно оставлять включённой
работа со словарями Dict, Lingvo и SlovoedPDB или HTML.
Haali Reader для КПК
Поддержка кириллицы c автоматическим определением кодировки (возможен ручной выбор).
Сохранение текущей позиции в файле при выходе из программы.
Показываются картинки в XML документах.
Поддежка ClearType.
Возможность выбора любого шрифта/размера.
Полноэкранный режим.
Landscape режим.
Выбор цветов.
Поиск по тексту.
Встроенная поддержка словаря. Достаточно ткнуть в слово для того чтобы увидеть перевод.
Автоматическая расстановка переносов в текстах на русском языке.
Закладки и оглавление.
Вывод текста в несколько колонок.
Чтение PRC/PDB файлов (только простой тескт и XML, HTML не поддерживается).
Можно читать файлы прямо из Zip архивов.
Автопрокрутка (управляется только кнопками, настройка в Options->Buttons).
Обе бесплатны. Лично я бы отдал первенство AlReader-у.
Если же вам не хочется читать именно fb2-книги, то их можно конвертировать в разные другие форматы.
Можно делать это сложно, "напильником": открыть файл в обычном блокноте, выкусить всю xml-разметку, сохранить текст в любимый формат и дальше делать с ним, что заблагорассудится.
Можно делать это легко: с помощью набора утилит FB2Any. Набор бесплатен, позволяет конвертировать fb2 в форматы txt, rtf, lit, rb и iSilo pdb.
Конференция FictionBook
Софт для работы с FictionBook
Редактирование/импорт/экс порт/управление
Any to FB2 -Интерактивное/скриптовое преобразование TXT/HTML/MSWord документов в FB2. Поддерживает загрузку через HTTP и загрузку связанных документов. Устанавливает ActiveX сервер, доступный из VBScript, JScript, Perl и из любых приложений. бесплатная, распостраняется с исходниками (Delphi).
FBTools - бесплатный набор утилит, позволяющий редактировать, проверять, просматривать, экспортировать и импортировать документы FB2. Так же на этой странице есть скрипт для MSWord, позволяющий сохранять документ Word как книгу FB2 и много других полезных утилит.
Book2Shelf - книжный шкаф для любителей держать книги на винте/CD/DVD. Поддерживает поиск, импорт текстовых файлов (требуется Any2FB) и просмотр/чтение.Интерфейс достаточно прост, но программа обладает весьма широкой функциональностью.
FB2 Any v0.1 - набор Windows-программ для преобразования fb2 в различные форматы и работы с книгами (отправка в устройство и т.п.) Пока подерживается только форматы txt, rtf, rb и lit, я только начал эту штуковину писать.
BookDesigner v.4 - бесплатная программа для подготовки электронных текстов почти во всех распостраненных форматах (lit, prc, pdb, rb, klm, fb2,html,rtf, doc). На входе так же принимает практически все (txt, html, doc, rtf, prc, pdb, rb, klm, fb2, fb1).
FB2 _2_rtf - написанный на perl скрипт для преобразования fb2 в txt|rtf.
wml2fb - xsl и скрипты для конвертации WordML и doc в fb2. Конвертация DOC требует MSoffice 2003.
Чтение
HaaliReader - очень хорошая (лучшая?) читалка. Писал Михаил Мацнев, работает под Windows и Windows CE. Полноценная поддержка FB2 и TXT, работа со словарями и архивами ZIP/PRC. Бесплатная, исходники открыты.
Morik
VIP
Avatar
Имя: Тайлер Дерден
Сейчас нет на сайте
Репутация: 8
Регистрация: 19.07.2008
Всего сообщений: 1741
Откуда: НИОТКУДА, я тут всегда
10 января 2009, 20:17
FictionBook (FB2) - формат представления электронных версий книг в виде XML-документов. Стандарт призван обеспечить совместимость с любыми устройствами и форматами. XML позволяет легко создавать документы, готовые к непосредственному использованию и программной обработке (конвертации, хранению, управлению) в любой среде. Документы, обычно имеющие расширение.fb2, могут содержать структурную разметку основных элементов текста, некоторое количество информации о книге, а также могут содержать вложения с двоичными файлами, в которых могут храниться иллюстрации или обложка.
Основное преимущество FictionBook(.fb2) - возможность без труда создавать (в том числе и автоматически) книги в этом формате из файлов всех популярных текстовых форматов (*.txt, *.doc, *.rtf. *.html и пр.).
Программы для чтения:
Многоплатформенные:
FBReader - свободная программа чтения электронных книг как для десктопов (Windows и GNU/Linux). В число поддерживаемых форматов входит FB2.
POSIX-системы
PyBookReader - интерфейс GTK+, требуются Python, PyGTK, pyxml.
KHaaliReader - маленькая, но мощная программа для GNU/Linux с KDE, обладающая всеми полезными функциями необходимыми для удобного чтения электронных книжек.
Microsoft Windows
CoolReader - просмотрщик для Windows.
smartReader - сырая программа на движке CoolReader'а для чтения txt и fb2 для s60 v3
HaaliReader - Программа для чтения FB2 для Windows CE.
ICE Book Reader - Популярная программа для чтения книг, поддерживающая импорт текста из FB2.
Mac OS X
MacBookReader- MacBookReader
iPhone
ruBooks
- бесплатная программа для чтения книг, поддерживающая FB2, под iPhone
i2 Reader - коммерческая программа для чтения книг, поддерживающая FB2, под iPhone
Разное
PalmFiction - Программа для чтения FB2 под Palm OS.
QReader берем здесь - программа для чтения книг, поддерживающая FB2, под Symbian OS для смартфонов Nokia Series 60
BookR сборка SD6719 -программа чтения электронных книг для PSP, сборка с поддержкой FB2
Morik
VIP
Avatar
Имя: Тайлер Дерден
Сейчас нет на сайте
Репутация: 8
Регистрация: 19.07.2008
Всего сообщений: 1741
Откуда: НИОТКУДА, я тут всегда
11 января 2009, 11:44
Немного о fb3
FictionBook 3.0 beta - краткое описание
Цель создания формата
Формат fb3 разрабатывается для удовлетворения возросших требований к форматированию текста книг и возможностям их каталогизации. Современное состояние стандартов и технологий позволяет, помимо простого расширения набора тегов, привести формат к совместимости с наиболее удачными и перспективными наработками. В частности, в основу fb3 положен стандарт Open Packaging Convention ( ECMA- 376 Part 2 ) . Помимо этого в качестве картинок можно использовать SVG-файлы (и GIF-файлы, патент на которые закончился).

Преемственность с форматом fb2
Приоритеты , на которых основан формат fb2, остаются, но частично расширяются:
Принцип одна книга - один файл сохраняется. Более того, fb3 полноценно поддерживает "подшивки" - несколько книг в одном fb3- файле.
Минимализм форматирования сохраняется, но для работы со сложными документами (например, с учебниками) в fb3 вводится минимально- необходимый набор тегов, обеспечивающий максимальное качество верстки при максимально возможной простоте.
Вся мета-информация является неотъемлемой частью файла. В соответствии с возросшими требованиями к полноте и точности мета-информации была разработана новая, прямо не совместимая с дескрипшном fb2, структура.
Формат, как и прежде, максимально ориентирован на полноценную и эффективную переносимость текста на любое устройство, с ограниченными ресурсами, черно-белым или небольшим дисплеем и т.п. Единожды сверстанная книга должна быть максимально удобной в любой среде.
Основные отличия от fb2 находятся не в области идеологии, а в области технологических решений. Коротко о наиболее важных отличиях отметим:
fb3-файл теперь является по сути zip-архивом, в котором упакованы отдельными файлами мета-информация, картинки и текст. Требования к формату zip-файла и соглашения об именах файлов, их размещении и организации описаны в стандарте ECMA-376 Part 2
Мета-информация выносится в отдельный файл, тело книги и сноски - в другой файл
Все картинки выносятся из XML и являются, в конечном счете, файлами в архиве
Связи документа с файлами осуществляются не через xlink, а в соответствии с описанным в OPF механизмом отношений (Relationships)
Помимо ряда мелких нововведений в форматирование (разрядка, подчеркивание) добавляется принципиально новый объект "блок", выпадающий из общего течения документа и оформляющий произвольный фрагмент книги в виде четырехугольника, который может иметь границу, внедряться в текст с обтеканием и иметь некоторые другие особенности размещения.
Часть тегов, имеющих смысловые аналоги в HTML, будет переименована, к примеру emphasis превратится в em.

Общая информация о структуре fb3-файла
В соответствии со спецификацией ECMA-376 Part 2 файл fb3 будет представлять собой стандартный zip-архив, допустимые методы сжатия - store (без компрессии) и deflate (совместимый с zlib). Имена файлов в архиве сравниваются без учета регистра, изначально зарезервированы имена файлов:
/[Content_Types].xml
/_rels/.rels
Файл /_rels/.rels адресует файл-обложку (thumbnail) для всего fb3 -пакета и как минимум один файл дескрипшна книги. Дескрипшн книги, в свою очередь, связан с телом книги и своей собственной обложкой, а тело книги связано со всеми включенными в него объектами. Все связи описываются стандартными средствами OPC (ECMA-376 Part 2 , раздел 8.3 Relationships).
В качестве графических форматов будет поддерживаться gif/png/jpg/svg (SVG 1.1 Basic)
Более детальное описание требований к zip-архиву, механизмов связывания, кодировок и ограничений на именование файлов в архиве можно найти в стандарте ECMA-376 Part 2 .

Файл мета-информации
Подробно изучить структуру и возможности fb3 в описании книги можно на примере файла /fb3/description.xml изархива с примером fb3-книги . Большинство полей там снабжены русскоязычными комментариями. Из существенных нововведений по отношению к fb2 отметим:
Блок описания периодических изданий (журнал такой-то, номер такой-то)
sub-title - подзаголовок, позволяет описывать более сложноорганизованные названия
Унифицированный механизм описания авторов, переводчиков, иллюстраторов и прочих, имеющих отношение к книге, субъектов.
Возможность описывать связанные объекты: книги, с которых сделан перевод, приложения, продолжения, та же книга на другом носителе (аудиокнига) и т.п.
Добавлена информация о целевой аудитории и об описываемом периоде
Большая часть новых полей логически совместима со стандартами RUSMARC и USMARC

Файл с текстом книги
Пример можно найти в примере fb3 -документа, в файле /fb3 /body.xml, где большинство новинок проиллюстрированы примерами применения и комментариями. Основные нововведения по отношению к fb2:
Нумерованные и ненумерованные списки
Блоки, выпадающие из общего потока, с атрибутами float, align, width, border. К примеру <block float="left" width="40em" align="right"><p>тутатекст</ p></block>.
Убирается inline-элемент code, добавляется block- элемент code, родительский по отношению к p.
Сноски более гибко типизируемые. Допускается "подсказывать" читалке, как следует отображать сноски, следует ли переоформлять номера сносок средствами читалки и какие сноски концевые и подстраничные.
Сноски выделяются в отдельный узел notes, и оформляются не как секции, а новым тегом <note>

Пример содержимого fb3- архива:
Book.fb3 -> fb3-файл, де- факто ZIP-архив
[Content_Types].xml -> Обязательный файл в архиве, содержит описание MIME-типов для всех размещенных в архиве файлов
cover.jpg -> Обложка всей книги, для быстрого доступа программ-читалок
_rels/.rels -> Обязательный xml-файл в архиве. В нем ссылки на обложку, файл(ы) мета-информации и прочее.
fb3/description.xml -> Файл с мета-информацией
fb3/_rels/description.xml.rels
-> Файл со связями данной карточки книги - указывается обложка и файл с текстом книги
fb3/body.xml -> Файл с текстом книги, сносками
fb3/_rels/body.xml.rels
-> Файл со связями текста книги - описываются все использованные картинки
fb3/marks.xml -> Заметки/закладки на полях (которые поставила программа-читалка?)
Morik
VIP
Avatar
Имя: Тайлер Дерден
Сейчас нет на сайте
Репутация: 8
Регистрация: 19.07.2008
Всего сообщений: 1741
Откуда: НИОТКУДА, я тут всегда
15 января 2009, 14:27
Формат pdf

PDF ( аббревиатура от англ. Portable Document Format - переносимый формат документов; произносится пи- ди-эф) - кроссплатформенный формат электронных документов, созданный фирмой Adobe Systems с использованием ряда возможностей языка PostScript . В первую очередь предназначен для представления в электронном виде полиграфической продукции, - значительное количество современного профессионального печатного оборудования может обрабатывать PDF непосредственно. Для просмотра можно использовать официальную бесплатную программу Acrobat Reader , а также программы сторонних разработчиков. Традиционным способом создания PDF-документов является виртуальный принтер , то есть документ как таковой готовится в своей специализированной программе - графическом или текстовом редакторе , САПР и т. д. А затем экспортируется в pdf для распространения в электронном виде, передачи в типографию и т. п. А затем экспортируется в pdf для распространения в электронном виде, передачи в типографию и т. п.
PDF является открытым стандартом ISO 32000 [1] .
Формат PDF позволяет внедрять необходимые шрифты (построчный текст), векторные и растровые изображения, формы и мультимедиа-вставки. Поддерживает RGB , CMYK , Grayscale , Lab , Duotone , Bitmap , несколько типов сжатия растровой информации. Имеет собственные технические форматы для полиграфии: PDF/X-1 , PDF/X-3. Включает механизм электронных подписей для защиты и проверки подлинности документов. В этом формате распространяется большое количество сопутствующей документации.
Morik
VIP
Avatar
Имя: Тайлер Дерден
Сейчас нет на сайте
Репутация: 8
Регистрация: 19.07.2008
Всего сообщений: 1741
Откуда: НИОТКУДА, я тут всегда
15 января 2009, 18:21
Формат fb2

FictionBook - формат представления электронных версий книг в виде XML - документов, где каждый элемент книги описывается своими тегами. Стандарт призван обеспечить совместимость с любыми устройствами и форматами. XML позволяет легко создавать документы, готовые к непосредственному использованию и программной обработке (конвертации, хранению, управлению) в любой среде. Документы, обычно имеющие расширение.fb2, могут содержать структурную разметку основных элементов текста, некоторое количество информации о книге, а также могут содержать вложения с двоичными файлами, в которых могут храниться иллюстрации или обложка.
Правильно подготовленный электронный текст в формате FictionBook содержит в себе всю необходимую информацию о книге - структурированный текст, иллюстрации, информацию об авторе и издании, но не содержит информацию о внешнем виде документа. Как будет выглядеть текст, полученный из формата.fb2, зависит либо от настроек программы- просмотрщика этого формата, либо от параметров, заданных при конвертации файла в другой формат.
К примеру, в тексте документа.fb2 содержатся фразы, оформленные как заголовки. Программа, в которой откроют файл, в зависимости от настроек может отобразить их, в отличие от остального текста, либо крупным шрифтом, либо другим цветом, или как-то иначе. Так, при конвертации в формат HTML , каждому заголовку может быть сопоставлен определённый HTML-тег, например, <H4> или <B>.
В документе имеется информация о книге в виде, пригодном для автоматической обработки. К примеру, в электронную библиотеку поступила книга в формате.fb2. Эта книга может быть автоматически помещена в раздел автора книги, а название книги и аннотация могут автоматически отобразиться в колонке новостей библиотеки. Таким образом, намного упрощается процесс помещения в библиотеку новых книг. Некоторые электронные библиотеки перешли на формат FictionBook полностью, и не принимают книги, подготовленные в других форматах. Однако на страницах этих библиотек можно скачать одну и ту же книгу в виде файлов других распространённых форматов ( plain text , RTF , HTML ), полученных из FB2 путём автоматической конвертации.
Morik
VIP
Avatar
Имя: Тайлер Дерден
Сейчас нет на сайте
Репутация: 8
Регистрация: 19.07.2008
Всего сообщений: 1741
Откуда: НИОТКУДА, я тут всегда
16 января 2009, 02:01
Формат RTF

Rich Text Format ( RTF , «формат обогащённого текста» (rich с английского - богатый) - свободный межплатформенный формат хранения размеченных текстовых документов, предложенный Microsoft . Первая версия стандарта RTF появилась в 1987 году, с тех пор спецификация формата несколько раз изменялась. RTF- документы поддерживаются большинством современных текстовых редакторов (под Microsoft Windows это, как правило, осуществляется с помощью стандартных библиотек, входящих в состав системы).

Пример RTF- документа
В качестве примера, рассмотрим следующий код в формате RTF:

{\rtf1 Привет! \par {\i Это} некий отформатированный {\b текст}.\par End }

который будет выглядеть в текстовом редакторе с поддержкой RTF как

Привет!
Это некий отформатированный текст .
End
Символ
\
указывает на начало управляющего кода. Код
\par
означает переход к новой строке,
\b
- переключение на полужирный шрифт. Фигурные скобки обозначают группу; например, в приведённом выше примере группой ограничивается действие кода
\b
. Всё остальное, кроме фигурных скобок и управляющих кодов - это обычный текст. Правильный RTF-документ должен состоять из группы, начинающейся с управляющего кода
\rtf
.
Как видно из примера, основой формата является простой текст, то есть формат является человеко- читаемым. Но в большинстве случаев файлы RTF, генерируемые автоматически такими редакторами как MS Word содержат столько управляющих последовательностей, что разобраться в них простым чтением практическиневозможно.
Интересно, что синтаксис формата RTF сильно напоминает формат LaTeX , но в отличие от последнего, управляющие последовательности являются не макросами, доступными для изменения, а командами с фиксированным поведением.
Текст в формате RTF кодируется 8-битными символами . Это ограничило бы нас набором символов ASCII , но остальные символы можно кодировать с помощью escape- последовательностей . Символы могут кодироваться двумя способами: кодами в рамках указанной кодировки символов , либо кодами в Юникоде . Например, если задана кодировка Windows- 1251 , то код
\'e8
соответствует букве
и
. Если требуется символ в Юникоде, используется код
\u
, сразу после которого указывается 16-битное число в десятичной системе счисления, а за ним - символ для представления в программах, не имеющих поддержки Юникода. Например, арабская буква «ب» представляется в виде последовательности
\u1576?
, причем в не-юникодных программах на месте этого символа выведется «?».
Большинство текстовых редакторов реализуют импорт/экспорт в формат RTF, благодаря чему этот формат часто используется как «общий», для передачи текста из одной программы в другую.
Morik
VIP
Avatar
Имя: Тайлер Дерден
Сейчас нет на сайте
Репутация: 8
Регистрация: 19.07.2008
Всего сообщений: 1741
Откуда: НИОТКУДА, я тут всегда
16 января 2009, 03:22
Формат DjVu

DjVu (от фр. d?j? vu «уже виденное») - технология сжатия изображений с потерями , разработанная специально для хранения сканированных документов - книг, журналов, рукописей и пр., где обилие формул, схем, рисунков и рукописных символов делает чрезвычайно трудоёмким их полноценное распознание . Также является эффективным решением, если необходимо передать все нюансы оформления, например, исторических документов где важное значение имеет не только содержание, а цвет и фактура бумаги; дефекты пергамента: трещинки, следы от складывания; исправления, кляксы, отпечатки пальцев; следы, оставленные другими предметами.
DjVu стал основой для нескольких библиотек научных книг, правомерность существования некоторых из них, впрочем, вызывает сомнения с точки зрения законов об авторских правах . Огромное количество книг в этом формате доступно в файлообменных сетях .
Формат оптимизирован для передачи по сети таким образом, что страницу можно просматривать ещё до завершения скачивания. DjVu-файл может содержать текстовый ( OCR ) слой, что позволяет осуществлять полнотекстовый поиск по файлу. Кроме того, DjVu-файл может содержать встроенное интерактивное оглавление и активные области - ссылки, что позволяет реализовывать удобную навигацию в DjVu-книгах.
Для сжатия цветных изображений в DjVu применяется специальная технология, разделяющая исходное изображение на три слоя: передний план, задний план и чёрно-белую (однобитовую) маску. Маска сохраняется с разрешением исходного файла; именно она содержит изображение текста и прочие чёткие детали. Разрешение заднего плана, в котором остаются иллюстрации и текстура страницы, понижается для экономии места. Передний план содержит цветовую информацию о деталях, не попавших в задний план; его разрешение понижается ещё сильнее. Затем задний и передний планы сжимаются с помощью вейвлет - преобразования, а маска - алгоритмом JB2 .
Особенностью алгоритма JB2 является то, что он ищет на странице повторяющиеся символы и сохраняет их изображение только один раз. В многостраничных документах каждые несколько подряд идущих страниц пользуются общим «словарём» изображений.
Для сжатия большинства книг можно обойтись только двумя цветами. В этом случае используется всего один слой, что позволяет достичь рекордной степени сжатия. В типичной книге с чёрно-белыми иллюстрациями, отсканированной с разрешением 600 dpi , средний размер страницы составляет около 15 Кб , то есть приблизительно в 100 раз меньше, чем исходный файл. Однако, при этом не стоит забывать, что в DjVu используется сжатие данных с потерями . Для особо важных документов, возможно, будет разумнее использовать более «надёжные» форматы: PNG , JPEG 2000 , TIFF и т. п. Выигрыш объёма в этом случае составит всего 4-10 раз.
В основе формата DjVu лежат несколько технологий, разработанных в AT&T Labs. Это:
алгоритм отделения текста от фона на отсканированном изображении;
вейвлетный алгоритм сжатия фона IW44 ;
алгоритм сжатия чёрно- белых изображений JB2;
универсальный алгоритм сжатия ZP ;
алгоритм распаковки «по запросу»;
алгоритм «маскировки» изображений;
Формат DjVu предусматривает наличие текстового слоя, который содержит текст со страницы. (Используется для лёгкого копирования текста из документа при работе с ним). В случае, если текстовый слой недоступен, единственный метод получения текста - выполнение оптического распознавания (в сторонних программах).
Morik
VIP
Avatar
Имя: Тайлер Дерден
Сейчас нет на сайте
Репутация: 8
Регистрация: 19.07.2008
Всего сообщений: 1741
Откуда: НИОТКУДА, я тут всегда
16 января 2009, 04:10
Формат txt

Те?кстовый файл - разновидность файла , содержащая текстовые данные , как правило организованные в виде строк. Текстовый файл, как и прочие файлы, хранится в файловой системе.
В отличие от термина «текстовый формат», характеризующего содержимое данных, термин «текстовый файл» относится к контейнеру, хранящему эти данные. Текстовый файл может содержать не только чистый текст, но и производные форматы - к примеру, HTML -текст.
Текстовым файлам противопоставляются двоичные (бинарные) файлы , в которых информация организована по иным принципам.
Текстовый файл представляет из себя последовательность символов (принадлежащих некому набору символов ). Символы сгруппированы в строки ( англ. lines, rows). В современных системах строки разделяются переводом строки , хотя в прошлом применялось хранение строк в виде записей постоянной или переменной длины.
Иногда конец текстового файла, особенно если в файловой системе не хранится информация о размере файла, также отмечается одним или более специальными знаками, известными как маркеры конца файла .
Формат текстового файла крайне прост, и его можно изменять текстовым редактором - стандартной программой, присутствующей во всех ОС.
Текстовые файлы, особенно если речь идёт об однобайтных кодировках вроде ASCII , не подвержены многим проблемам, характерным для других форматов файлов. Так, для них не важна разница в порядке байтов или длине машинного слова на разных платформах .
Более того, если повреждение данных ( англ. ) случится в текстовом файле, в этом случае обычно легче восстановиться и продолжить обработку остального содержимого
Недостатком текстовых файлов является их низкая информационная энтропия [ источник? ] - эти файлы занимают больше места, нежели минимально необходимо.
Некоторые операции с текстовыми файлами чрезвычайно неэффективны. Например, если в файле встретится число, машина должна будет перевести его в свой внутренний формат, вызвав (сравнительно) сложную процедуру конвертации числа. Чтобы перейти на 1000 -ю строку, требуется считать 999 строк, идущих до неё. Сложно заменить одну строку другой, и т. д. Поэтому при работе с большими объёмами данных текстовые файлы применяют только как промежуточный формат, обеспечивающий интероперабельность .
В силу своей простоты текстовые файлы нередко используются для хранения информации (пример, для логов ). Текстовый формат служит основой для многих более специализированных форматов . Например: ini , SGML (а также HTML , XML ), TeX , исходные тексты языков программирования...
Исторически для кодирования текстовых файлов применялись 7- битный набор символов ASCII , а также 8-битные EBCDIC и различные расширения ASCII. В настоящее время в 8- битных кодовых страницах общепринято использовать ASCII в первой половине кодовой таблицы.
Преимуществом 8-битного представления текста является программная простота и независимость от проблем порядка байтов или длины машинного слова на разных платформах. Недостаток - многочисленные несовместимости, большое количество различных стандартов.
Различные операционные системы придерживаются своего представления перевода строки и конца файла. В UNIX перевод строки состоит из одного символа LF ( 0x 0A), в MacOS - из символа CR (0 x0D), а в DOS и Microsoft Windows перевод строки кодируется последовательностью двух символов CR LF. В DOS и Microsoft Windows конец файла кодируется символом 0 x1A, а в UNIX символ конца файла не употребляется.
Помимо названных, в текстовых файлах применяются такие символы как табуляция (0 x09 ) и перевод страницы (0 x0C).
Применение Unicode в текстовых файлах, хотя в основном решает «проблему кодировок» и стандартизирует употребление управляющих символов, но создаёт свои проблемы. В большинстве современных систем неделимой единицей информации в потоке данных является байт (8 бит) , которых для кодирования одного символа из Юникода требуется несколько. В качестве решения применяются несовместимые между собой системы UTF-8 и две версии UTF-16 (UTF-16 LE и UTF- 16BE с противоположным порядком байтов ). Иногда в начало файла добавляют специальный символ-маркер (U+FEFF [1] ), позволяющий распознать формат однозначно. UTF-8 имеет преимущество обратной совместимости с ASCII, однако программная обработка текста в UTF-8 усложняется непостоянным размером символа. Также тексты в Юникоде отличаются существенно большей избыточностью , нежели 8- битные.
В MS-DOS и Microsoft Windows для текстовых файлов нередко используется расширение «.txt». Тем не менее, текстовыми могут являться файлы с любым другим расширением или без оного. Например, исходные коды программ обычно хранятся в файлах с расширениями, соответствующими языку программирования , на котором написаны программы.
Брат
Avatar
26 февраля 2009, 12:12
Вы скачали книжку или сохранили с помощью браузера (например, в UCWEB) страничку, после чего хотите почитать в читалке, но отображаются "краказябры" (непонятные символы). Проблема решается так: открываешь x-plore, находишь нужный текстовый файл, далее: Меню-Файл-Правка или просто жмешь цифру 8. Нужно, при необходимости, сменить кодировку в настройках (нажав цифру 0), чтобы текст был читаемым (например, выбрав utf-8'). Далее, в текстовом файле пишешь любую букву или просто жмешь пробел и тут же удаляешь. То есть, текст остается прежним, без видимых изменений. И тут же проверяешь, нажав Меню, стоит ли галочка "Сохранить в Юникоде". Нужно поставить! Далее жмем "Сохранить" в Меню или жмем "Назад", выйдет окно "Сохранить изменения?" Отвечаешь "Да". Все, теперь можно читать текст в QReader.
Lorian
Moderator
Avatar
Репутация: 15
Регистрация: 19.02.2008
Всего сообщений: 1785
Откуда: Челябинск.
3 марта 2009, 21:33
utes96961, в папку Text.
Список форумов » Книжный мирНа страницу 1, 2, 3, 4 След.
  
Страница 1 из 4
Часовой пояс: GMT + 4
Мобильный портал, Profi © 2005-2016
Время генерации страницы: 0.079 сек
Общая загрузка процессора: 4%
SQL-запросов: 4
Rambler's Top100