Как конвертировать PDF-файл в редактируемый текст с помощью командной строки в Linux
Существуют различные причины, по которым вы можете захотеть преобразовать файл PDF в редактируемый текст. Может быть, вам нужно пересмотреть старый документ, и все, что у вас есть, это его PDF-версия. Конвертировать PDF-файлы в Windows легко, но что делать, если вы используете Linux?
Не волнуйтесь. Мы покажем вам, как легко конвертировать PDF-файлы в редактируемый текст, используя инструмент командной строки pdftotext, который является частью пакета «poppler-utils». Этот инструмент может быть уже установлен. Чтобы проверить, установлен ли pdftotext в вашей системе, нажмите «Ctrl + Alt + T», чтобы открыть окно терминала. Введите в командной строке следующую команду и нажмите «Enter».
dpkg -s poppler-utils
ПРИМЕЧАНИЕ. Когда мы говорим «напечатать что-то» в этой статье, а вокруг текста есть кавычки, НЕ вводите кавычки, если не указано иное..
Если pdftotext не установлен, введите в командной строке следующую команду и нажмите «Enter».
sudo apt-get установить poppler-utils
Введите пароль при появлении запроса и нажмите «Ввод».
В пакете poppler-utils доступно несколько инструментов для преобразования PDF в различные форматы, управления файлами PDF и извлечения информации из файлов..
Ниже приведена основная команда для преобразования файла PDF в редактируемый текстовый файл. Нажмите «Ctrl + Alt + T», чтобы открыть окно терминала, введите команду в командной строке и нажмите «Enter».
pdftotext /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Измените путь к каждому файлу, чтобы он соответствовал местоположению и имени вашего исходного PDF-файла, и где вы хотите сохранить полученный текстовый файл. Кроме того, измените имена файлов, чтобы они соответствовали именам ваших файлов..
Текстовый файл создан и может быть открыт так же, как любой другой текстовый файл в Linux..
Преобразованный текст может иметь разрывы строк в местах, которые вам не нужны. Разрывы строк вставляются после каждой строки текста в файле PDF.
Вы можете сохранить макет документа (верхние колонтитулы, нижние колонтитулы, пейджинг и т. Д.) Из исходного PDF-файла в преобразованном текстовом файле, используя флаг «-layout».
pdftotext -layout /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Если вы хотите преобразовать только диапазон страниц в файле PDF, используйте флаги «-f» и «-l» (строчная буква «L»), чтобы указать первую и последнюю страницы в диапазоне, который вы хотите преобразовать.
pdftotext -f 5 -l 9 /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Чтобы преобразовать PDF-файл, который защищен и зашифрован паролем владельца, используйте флаг «-opw» (первый символ флага - строчная буква «О», а не ноль).
pdftotext -opw 'пароль' /home/lori/Documents/Sample.pdf /home/lori/Documents/Sample.txt
Измените «пароль» на тот, который использовался для защиты конвертируемого исходного файла PDF. Убедитесь, что в пароле есть одинарные кавычки, а не двойные.
Если файл PDF защищен и зашифрован паролем пользователя, используйте флаг «-upw» вместо флага «-opw». Остальная часть команды такая же.
Вы также можете указать тип символа конца строки, который применяется к преобразованному тексту. Это особенно полезно, если вы планируете получить доступ к файлу в другой операционной системе, например Windows или Mac. Для этого используйте флаг «-eol» (средний символ в флаге - строчная буква «O», а не ноль), за которым следует пробел и тип символа конца строки, который вы хотите использовать (« unix »,« dos »или« mac »).
ПРИМЕЧАНИЕ. Если вы не укажете имя файла для текстового файла, pdftotext автоматически использует базу имени файла PDF и добавляет расширение «.txt». Например, «file.pdf» будет преобразован в «file.txt». Если текстовый файл указан как «-», преобразованный текст отправляется на стандартный вывод, что означает, что текст отображается в окне терминала и не сохраняется в файл.
Чтобы закрыть окно терминала, нажмите кнопку «Х» в верхнем левом углу..
Для получения дополнительной информации о команде pdftotext введите «man page pdftotext» в командной строке в окне терминала..