О структуре документов PDF

*Честно говоря, не знаю, что здесь должно быть, не нашла ничего подходящего про изменение и редактирование структуры документа, только про структуру файла.

PDF (аббревиатура от англ. Portable Document Format) — разработанный фирмой Adobe Systems с использованием ряда возможностей языка PostScript, как независимый от платформы формат представления в электронном виде полиграфической продукции, различной электронной документации (в том числе электронные книги) и презентаций.

Структура файла:

Обычный PDF-файл содержит четыре раздела:

· заголовок (header);

· «тело файла» (body);

· таблицу перекрестных ссылок (cross-reference table);

· trailer.

Пошаговая коррекция документа. Содержимое PDF-файла может быть изменено без переписывания всего файла. Изменения можно внести в конец файла, сохраняя его первоначальное содержание. Когда файл модифицируется, добавляются новые или измененные объекты, раздел таблицы ссылок и новый trailer.

Удаленные объекты остаются неизменными в файле, но помечаются как удаленные в таблице ссылок.

Есть два формата данных таблицы: для объектов, которые используются, и для объектов, которые были удалены.

<cross-reference entry> ::=

<in-use entry> |

<free entry>

Для объекта, который используется в публикации, указываются байтовое смещение, определяющее количество байтов от начала файла к началу объекта, номер генерации объекта, и ключевое слово n: <in-use entry> ::= <byte offset><generation number> n.

Для объекта, который свободен, указываются объектный номер следующего свободного объекта, номер генерации и ключевое слово f: <free entry> ::= <object number of next free object><generation number> f.

Когда косвенный объект удаляется, его запись в таблице помечается как «свободная», и номер генерации объекта увеличивается на единицу, чтобы открыть возможность использования объекта с таким номером.

 

5. Подготовка электронных изданий в формате DejaVu. Разделение изображения на слои: передний план, задний план и однобитовую маску. Использование текстового слоя. Создание гиперссылок.

DjVu – графический формат, который используется преимущественно для сохранения и сжатия отсканированных книг, содержащих цветные изображения и текст.

Особенности:

— чисто растровый формат

— применяется для учебной литературы

— для переноса информации с бумажных носителей в электронный вид (сканирование)

— сохраняет структуру фона

— структура формата открыта

— комбинация разрушающего и неразрушающего методов упаковки. Например, упаковка цветов в палитры (преобразование цветовых координат, в том числе преобразование цветного изображения в черно-белое) или схема аппроксимации по опорным точкам относятся к типичным "разрушающим" преобразованиям, в результате которых информация теряется безвозвратно. В качестве неразрушающего преобразования обычно используются различные вариации на тему алгоритма Лемпеля-Зива.

Плюсы:

— главный плюс – это, безусловно, небольшой размер;

— при небольшом размере файла сохраняется хорошее качество изображений и особенно текста;

— обрабатывается только видимое изображение, что снижает нагрузку на потребление ресурсов компьютера, что особо актуально для файлов большого размера и для владельцев слабых машин;

— возможность использования формата для отображения литературы и документов, содержащих формулы, диаграммы, таблицы, а также исторических документов, с сохранением фактуры отсканированного документа;

— текст остается четким даже при сильном увеличении.

Минусы: DjVu – это сжатие изображения с потерями. То есть часть информации неизбежно теряется. В основном, это касается картинок.

В основу разработки формата положено 6 технологий:

1) Алгоритм отделения текста от фона на отсканированном изображении

2) Вейвлетный алгоритм сжатия фона IW44

3) Универсальный алгоритм сжатия ZIP

4) Алгоритм распаковки «по запросу» (позволяет показать часть изображения, не разворачивая всю картинку в оперативной памяти компьютера, а также легко масштаб. изображение)

5) Алгоритм «маскировки» изображений

6) Алгоритм сжатия чёрно-белых изображений JB2

Формат оптимизирован для передачи по сети таким образом, что страницу можно просматривать ещё до завершения скачивания. DjVu-файл может содержать текстовый (OCR) слой (если при создании добавлен, но легко добавить и потом без перепаковки всех страниц; для распознавания текста обычно используется FineReader), что позволяет осуществлять полнотекстовый поиск по файлу. Обладает почти уникальной для Интернет-графики особенностью — способностью к масштабированию. Кроме того, DjVu-файл может содержать встроенное интерактивное оглавление и активные области — гиперссылки, что позволяет реализовывать удобную навигацию в DjVu-книгах. Отличается малым размером результирующего файла в сравнении со всеми остальными графическими форматами.

Для добавления гиперссылки чаще всего достаточно воспользоваться пунктами меню "HyperLinks" в программах создания DjVu-документов.

После выделения текста гиперссылки можно указать тип ссылки (гиперссылка может указывать на веб-страницу, либо страницу DjVu-документа). В первом случае следует указать адрес веб-страницы, во втором — номер или имя страницы документа.

При создании гиперссылки можно определить ее стиль, задать комментарий, который будет отображен рядом со ссылкой.

Для сжатия цветных изображений в DjVu применяется специальная технология, разделяющая исходное изображение на три слоя (в общем случае): передний план (foreground), задний план (backgroung) и чёрно-белую (однобитовую) маску (mask).

Маска сохраняется с разрешением исходного файла; именно она содержит изображение текста и прочие чёткие детали. Разрешение заднего плана, в котором остаются иллюстрации и текстура страницы, понижается для экономии места. Передний план содержит цветовую информацию о деталях, не попавших в задний план; его разрешение понижается ещё сильнее. Затем задний и передний планы сжимаются с помощью вейвлет-преобразования, а маска — алгоритмом JB2.

Параметры компонентов изображения в формате DjVu.

Имя слоя Пояснение Разрешение, dpi Глубина цвета, bits/pix
Mask монохромная маска-трафарет
Background цветной фон
Foreground цвета маски

Особенностью алгоритма JB2 является то, что он ищет на странице повторяющиеся символы и сохраняет их изображение только один раз. В многостраничных документах каждые несколько подряд идущих страниц пользуются общим «словарём» изображений. При просмотре слои последовательно рендерятся и объединяются в конечной картинке.

Основная проблема — отделить текст от фона, особенно если это цветной текст, и более того, разноцветный. К счастью, цвет текста в большинстве документов практически одинаков в рамках одного знака. Это позволяет сохранять цветовую информацию о тексте с разрешением всего 25 dpi (слой "foreground") (см. табл.).

Разделение изображения на текст и фон (формирование слоя-маски) основано на так называемой мультимасштабной кластеризации. Изображение разбивается на разноразмерные вложенные сетки, в каждой ячейке которых происходит распознавание текстовых и фоновых цветов по максимальным пикам на гистограмме. Отделив текст от фона в самой крупной сетке, алгоритм переходит к уточнению на основе данных из сеток меньшего размера. Разработчиками найдено эмпирическое соотношение: цвет, определенный как "текстовый" в наибольшей ячейке, смешивается с "текстовым" цветом в меньшей, вложенной ячейке в пропорции 20% к 80% . Результат смешения принимается за цвет текста для расчетов в еще более мелкой сетке по тому же принципу 20/80.

Очевидно, смешение одинаковых цветов даст тот же самый цвет. В этом случае вложенные ячейки игнорируются, и общий объем информации о слое-маске уменьшается на 10…30% по сравнению с разбиением одноразмерной сеткой наименьшего шага.

Однако для сжатия большинства книг можно обойтись только двумя цветами. В этом случае используется всего один слой, что позволяет достичь рекордной степени сжатия. В типичной книге с чёрно-белыми иллюстрациями, отсканированной с разрешением 600 dpi, средний размер страницы составляет около 15 Кб, то есть приблизительно в 100 раз меньше, чем исходный файл. Однако, при этом не стоит забывать, что в DjVu используется сжатие данных с потерями.

Изменение структуры документа PDF при его последовательном редактировании

Для особо важных документов, возможно, будет разумнее использовать более «надёжные» форматы: PNG, JPEG 2000, TIFF и т. п. В общей сложности выигрыш объёма в этом случае составляет 4—10 раз.

 


Читайте также:

На этой странице собраны сведения по состоянию на 01.03.2015.

Основные справочные документы¶

Основная страница со справочной информацией http://www.adobe.com/devnet/pdf/pdf_reference.html

Архив со старыми версиями документации http://www.adobe.com/devnet/pdf/pdf_reference_archive.html

Стандарт ISO 32000-1¶

Копия стандарта ISO 32000-1, размещённая на сайте Adobe, PDF, 756 стр., eng, 8.6Мб.

(Jul 2008)

Расширения Adobe к стандарту ISO 32000, ExtensionLevel 3, PDF, 140 стр., eng, 1.3Мб. Расширения реализованы в ПО Adobe Acrobat 9.0 and LiveCycle ES 8.2. (Jun 2008)

Расширения Adobe к стандарту ISO 32000, ExtensionLevel 5, PDF, 8 стр., eng, 316.4Кб. Расширения реализованы в ПО Adobe Acrobat 9.1 и Adobe Reader 9.1. (Jun 2009)

Дальнейшие расширения к ISO: Extension Level 6 и Extension Level 8 определяют расширения касающиеся XML Forms Architecture. http://partners.adobe.com/public/developer/xml/index_arch.html

Версия формата 1.7¶

Эта версия была стандартизирована как стандарт ISO 32000-1.

Описание формата PDF версия 1.7 (6-я редакция), PDF, 1310 стр., eng, 31.0Мб.

Исправления к описанию версии 1.7, PDF, 18 стр., eng, 163.5Кб. (Updated Oct. 23, 2007)

Дополнения от редации к описанию версии 1.7, PDF, 4 стр., eng, 105Кб. (Nov 2006)

Расширения Adobe версии 1.7, PDF, 11 стр., eng, 170.1 Кб. Расширения реализованы в ПО Adobe Acrobat 8.1 and LiveCycle ES 8.2.

Версия формата 1.6¶

Описание формата PDF версия 1.6 (5-я редакция), PDF, 1236 стр., eng, 8.7Мб. (Nov 2004)

Исправления к описанию версии 1.6, PDF, 3 стр., eng, 105Кб. (Updated Oct. 4, 2006)

Дополнительное описание режимов смешивания при использовании прозрачности, PDF, 6 стр., eng, 89Кб. (Jan. 23, 2006)

Версия формата 1.5¶

Описание формата PDF версия 1.5, рев. 5 (4-я редакция), PDF, 1172 стр., eng, 13.5Мб. (Aug 2003)

Описание формата PDF версия 1.5, рев. 6 (4-я редакция), PDF, 1172 стр., eng, 8.8Мб. (Aug 2003)

Исправления к описанию версии 1.5, TXT, eng, 7.1Кб. (Revised Oct. 29, 2004)

Версия формата 1.4¶

Описание формата PDF версия 1.4 (3-я редакция), PDF, 978 стр., eng, 8.9Мб.

Структурирование документов PDF

(Nov 2001)

Исправления к описанию версии 1.5, TXT, eng, 7.1Кб. (Revised Jun 2003)

Изменения в версии 1.4 относительно версии 1.3, PDF, 236 стр., eng, 849.3Кб.

Версия формата 1.3¶

Описание формата PDF версия 1.3 (2-я редакция), PDF, 696 стр., eng, 4.9Мб. (Jul 3, 2000)

Исправления к описанию версии 1.3, TXT, eng, 7.1Кб. (Final revision Jan 09, 2002)

Урок: документ pdf.

Этот урок является продолжением руководства: гиперссылка в ворде.

Итак, в предыдущем уроке мы попрактиковались в создании гипертекстового документа в редакторе MS Word. Вордовский гипертекстовый документ — полнофункциональный и удобный в использовании носитель информации. Однако, большим недостатком ворд-документа является то, что он может быть легко изменен пользователем. Вполне возможно случайное удаление или переформатирование фрагмента текста при просмотре. Когда приоритетом становится защита оригинального содержания от редактирования, вордовские документы при распространении обычно преобразуют в файлы формата pdf.

Portable Document Format — формат электронного документа для хранения и транспортации текстовых, графических и мультимедийных данных. Основным достоинством pdf-документа является его универсальность.

О структуре документов PDF

То есть, содержание pdf-файла одинаково отображается на любых устройствах с различными ОС. Сегодня PDF — признанный стандарт электронного документооборота. Большинство современных оргтех-устройств имеют аппаратную поддержку PDF позволяющую печатать и сканировать документы в этом формате без использования дополнительного ПО.

Посмотрим как преобразуется вордовский гипертекстовый документ в файл формата PDF.

Для этого в самом редакторе начиная с версии MS Word 2007 устанавливается специальное расширение — плагин. Например, в Word 2010 откроем проводник командой «Сохранить как»:

и выберем из выпадающего списка для типа файла формат PDF:

Нажмем кнопку «Сохранить» и получим в выбранной директории pdf-аналог вордовского гипертекстового документа с интерактивным оглавлением созданным в предыдущем уроке гиперссылка в ворде. Открываем эту pdf-версию и видим, что в ней полностью сохранилось форматирование исходного ворд-документа, неизменными остались рисунки и таблицы. Элементы оглавления и сноски в виде гиперссылок также сохранили свои функции. Размер pdf-файла, как правило, будет меньше вордовского исходника, так как при конвертации используются алгоритмы сжатия.

В данном случае pdf-документ был изготовлен традиционным способом. То есть, сначала документ был создан в текстовом редакторе, а потом сконвертирован в pdf-формат для дальнейшего рационального использования.

Также многостраничный pdf-документ может быть получен путем последовательного сканирования страниц бумажного документа, как описано, например, в уроке: оцифровка документа. Однако, таким образом оцифрованные страницы не будут являться в совокупности своей гипертекстом. Это значит, что созданный документ не имеет гиперссылок и серфинговать по страницам придется вручную неустанно накручивая колесико мышки. Очень часто мы сталкиваемся в сети с такими pdf-книгами и может быть, даже, привыкли к такой несовершенной навигации. Попробуем изменить стереотипы и преобразовать pdf-примитив в полнофункциональный гипертекстовый документ.

Лучше всего редактировать pdf-документы программными средствами самого разработчика формата PDF — Adobe Systems. Пройдем на страницу официального сайта компании: https://acrobat.adobe.com/ru/ru/free-trial-download.html и скачаем 30-дневную пробную версию Acrobat Pro DC для настольного ПК с ОС Windows. Это — последняя, пятнадцатая версия акробата, где аббревиатура DC указывает на интеграцию программы с облачным сервисом Adobe. Чтобы скачать и попользоваться программой придется зарегистрироваться на сайте правообладателя, создать аккаунт — Adobe-идентификатор.

После установки приложения на рабочем столе появляется соответствующий ярлык:

двойным кликом по которому и запускаем редактор.

Традиционным сочетанием «Ctrl+O» открываем в программе pdf-документ и переходим в нем на страницу оглавления. Включаем режим редактирования. После этого, если в редактор загружается сканированный документ, Acrobat DC начинает автоматически в фоновом режиме постранично производить оптическое распознавание символов и преобразует содержимое документа в редактируемые изображения и текст с правильно распознанными шрифтами. Открыв настройки можно выбрать язык распознавания:

PDF-документ созданный в ворде сразу открывается в программе и готов к изменениям. Включив режим редактирования в выпадающем меню кнопки «Связать» выберем: «Добавить ссылку на документ»:

После этого курсор превращается в крестик. Двойным кликом по первой записи оглавления вызываем окно «Создать ссылку» и выбираем, например, следующие настройки. Затем нажимаем кнопку «Далее»:

В появившемся следующем окошке задаем точку привязки ссылки. Быстро открываем соответствующую записи оглавления страницу используя боковую панель с миниатюрами страниц и нажимаем кнопку «Установить ссылку»:

Теперь выбранная страница связана с элементом оглавления гиперссылкой. В оглавлении формируем кликабельную область ссылки. Просто растягиваем прямоугольник изменяя его размер:

Таким образом последовательно проходим по всем записям оглавления и преобразуем их в гиперссылки связав с соответствующими страницами.

Закрыв режим редактирования проверим работоспособность созданных интерактивных элементов. Попав в кликабельную область курсор превращается в указатель гиперссылки. Рамка очерчивающая линк-область не видна, так как при настройке внешнего вида ссылки был выбран белый цвет линий прямоугольника:

Также в режиме редактирования обращаем в гиперссылки и сноски связав их с соотвествующими пояснениями.

Так преобразуем статичную pdf-заготовку созданную в ворде или из сканов страниц в динамичный гипертекстовый документ.

Альтернативой дорогущим продуктам монополистов Adobe Systems могут быть веб-сервисы — редакторы PDF. Одним из раскрученных ресурсов — поставщиком услуг для многофункционального изменения PDF-документов является онлайн-редактор компании Red Software. Откроем стартовую страницу сервиса адресом: http://www.pdfescape.com

В режиме бесплатного использования на сайте можно работать с файлами объемом до 10 мегабайт или со 100-страничным документом.

Этот новый способ просмотра и редактирования PDF-файлов, как представляют программу PDFescape разработчики, функционирует полностью онлайн и освобождает пользователей от типичных требований к настольному ПО. Однако, в этом редакторе придется еще разобраться с инструментами и настройками.

Продолжим тему и посмотрим как в PDFescape устанавливаются гиперссылки.

Сначала кнопкой «Обзор» на странице ресурса http://www.pdfescape.com открываем проводник и загружаем с ПК на сервер исходный PDF-файл:

Через несколько секунд документ открывается в редакторе и готов к правке. Выбираем вкладку «Вставка» и переходим на страницу оглавления. Чтобы связать гиперссылкой элемент оглавления предварительно нужно узнать соответствующий ему номер страницы, так как программа создает сквозную нумерацию страниц.

Например, записи оглавления «Введение» соответствует страница 7.

Нажимаем кнопку «Добавить ссылку»:

После этого кликнув в любом месте на странице оглавления открываем окно свойств ссылки. В этом окне устанавливаем номер целевой страницы для элемента «Введение» и подтверждаем «ОК»:

Видим, что на странице появилась область ссылки. Перемещаем и растягиваем ее так, чтобы охватить запись «Введение»:

Теперь можно отключить инструмент для вставки ссылки кликнув кнопку Click here to disable и скрыть подсветку ссылочного поля кнопкой:

Так, мы преобразовали один из пунктов оглавления в гиперссылку:

Таким образом, последовательно отредактируем и последующие записи оглавления. После внесения всех изменений сохраняем документ из браузера кнопкой:

Бывает так, что документ запаролен автором от редактирования. Есть способы решения и такой проблемы — снятия защиты с PDF. Однако, это уже другая история.

Кроме того, pdf-документы правят сконвертировав их в текстовый формат. Так, можно сразу открывать PDF-файлы с помощью MS Word 2013. При этом приложение преобразует PDF-файл в оптимизированный для редактирования вордовский документ, который, однако, будет выглядеть несколько иначе, чем исходный PDF. Особенно, если в нем содержится много изображений.

Для просмотра и печати pdf-документов обычно используется бесплатный Adobe Acrobat Reader. Последнюю версию этого популярного ридера можно скачать с официального сайта Adobe Systems: https://goo.gl/lAIulY

урок добавлен 26.05.2016

поделитесь уроком в социалках:

Добавить комментарий

Закрыть меню