Как я могу скопировать текст из PDF при сохранении форматирования?

PDF, вездесущий формат документов, отлично подходит для совместного использования документов с сохранением шрифтов, изображений и общего макета на разных платформах. Однако есть ли простой способ сохранить это самое форматирование при копировании и вставке текста из документа??

Сегодняшняя сессия вопросов и ответов пришла к нам благодаря SuperUser - подразделению Stack Exchange, группе веб-сайтов вопросов и ответов, управляемой сообществом..

Вопрос

Читатель SuperUser Colen ищет способ извлечения текста из PDF-файлов при сохранении форматирования:

Когда я копирую текст из файла PDF в текстовый редактор, он оказывается искаженным различными способами. Форматирование как жирный шрифт и курсив теряются; мягкие разрывы строк внутри абзаца текста преобразуются в жесткие разрывы строк; тире, разбивающие слово на две строки, сохраняются даже тогда, когда их не должно быть; а одинарные и двойные кавычки заменяются на? приметы.

В идеале я хотел бы иметь возможность копировать текст из PDF и преобразовывать форматирование в HTML-коды, «умные кавычки», преобразованные в «и», и разрывы строк делать правильно. Есть какой-либо способ сделать это?

Существует ли быстрый и простой способ для Колена (и остальных из нас) получить текст, не жертвуя форматированием??

Ответ

Участник SuperUser Frabjous предлагает решение в сочетании с большой осторожностью:

Во-первых, вы должны понять, что такое PDF. PDF-файлы предназначены для имитации печатной страницы и предназначены только для формата вывода, а не для формата ввода. PDF - это, в основном, карта, содержащая точное расположение символов (отдельных букв или знаков препинания и т. д.) или изображений. В большинстве случаев PDF-файл даже не хранит информацию о том, где заканчивается одно слово и начинается другое, и гораздо меньше таких вещей, как мягкие разрывы или жесткие разрывы для окончаний абзаца..

(Несколько последних PDF-файлов действительно хранят некоторую информацию об этом материале, но это новая технология, и вам посчастливится найти такие PDF-файлы. Даже если бы вы это сделали, программа просмотра PDF могла бы об этом не знать.)

В любом случае, ваше программное обеспечение должно реализовывать своего рода «искусственный интеллект», чтобы просто извлекать из местоположений отдельных персонажей, что такое слово, что такое абзац и так далее. Разное программное обеспечение будет делать это лучше, чем другие, и это также будет зависеть от того, как был создан PDF. В любом случае, вы никогда не должны ожидать идеальных результатов. Наличие выходного PDF не совпадает с исходным документом. Гораздо лучше попытаться получить это, если вы можете.

Стандартное решение вашей проблемы - использовать Adobe Acrobat Professional (дорогой, а не бесплатный ридер) для преобразования PDF в HTML. Даже это не даст идеальных результатов.

Существует бесплатное программное обеспечение, которое можно использовать для извлечения текста из PDF-файлов с некоторым сохранением форматирования, но опять же, не ожидайте отличных результатов. См., Например, калибр (который может быть преобразован в формат RTF), pdftohtml / pdfreflow или текстовый процессор AbiWord (со всеми включенными подключаемыми модулями импорта / экспорта). Также есть плагин для импорта PDF для OpenOffice.

Но, пожалуйста, не ожидайте совершенства с любым из этих результатов. Вы идете против зерна здесь. PDF просто не подразумевается как редактируемый формат ввода.

Если у вас возникли проблемы с определением, с какого инструмента начать, Caliber - настоящий документ Swiss Army нож. Вы также можете использовать его для конвертации файлов PDF для использования в вашем устройстве для чтения электронных книг и организации вашей книги / библиотеки документов..

Есть что добавить к объяснению? Звук выключен в комментариях. Хотите узнать больше ответов от других технически подкованных пользователей Stack Exchange? Ознакомьтесь с полным обсуждением здесь.