Извлечение текста из PDF и файлов изображений
У вас есть документ PDF, из которого вы хотите извлечь весь текст? Как насчет файлов изображений отсканированного документа, который вы хотите преобразовать в редактируемый текст? Вот некоторые из наиболее распространенных проблем, с которыми я сталкивался на работе при работе с файлами..
В этой статье я расскажу о нескольких различных способах извлечения текста из PDF-файла или из изображения. Результаты извлечения будут различаться в зависимости от типа и качества текста в PDF или изображении. Кроме того, ваши результаты будут различаться в зависимости от используемого вами инструмента, поэтому лучше всего попробовать как можно больше из приведенных ниже вариантов, чтобы получить наилучшие результаты..
Извлечь текст из изображения или PDF
Самый простой и быстрый способ начать - попробовать онлайн-сервис для извлечения текста в формате PDF. Обычно они бесплатны и могут дать вам именно то, что вы ищете, без необходимости устанавливать что-либо на ваш компьютер. Вот два, которые я использовал с очень хорошими до превосходных результатов:
ExtractPDF
ExtractPDF - это бесплатный инструмент для извлечения изображений, текста и шрифтов из файла PDF. Единственное ограничение заключается в том, что максимальный размер файла PDF составляет 10 МБ. Это немного мало; так что если у вас есть файл большего размера, попробуйте некоторые другие методы ниже. Выберите свой файл и затем нажмите Отправить файл кнопка. Результаты обычно очень быстрые, и вы должны увидеть предварительный просмотр текста при нажатии на вкладку «Текст».
Еще одним приятным преимуществом является то, что он также извлекает изображения из файла PDF, на тот случай, если они вам понадобятся! В целом, онлайн-инструмент работает отлично, но я натолкнулся на пару документов в формате PDF, которые дают мне забавные результаты. Текст извлекается просто отлично, но по какой-то причине после каждого слова будет разрыв строки! Не большая проблема для короткого файла PDF, но, конечно, проблема для файлов с большим количеством текста. Если это произойдет с вами, попробуйте следующий инструмент.
OCR онлайн
Онлайновое распознавание текста обычно работает с документами, которые не были конвертированы должным образом с помощью ExtractPDF, поэтому рекомендуется попробовать обе службы, чтобы узнать, какие из них дают лучший результат. Онлайновое распознавание текста также имеет несколько приятных функций, которые могут оказаться полезными для любого пользователя с большим PDF-файлом, которому нужно преобразовывать только текст на нескольких страницах, а не весь документ..
Первое, что вы хотите сделать, это создать бесплатную учетную запись. Это немного раздражает, но если вы не создадите бесплатную учетную запись, она только частично преобразует ваш PDF, а не весь документ. Кроме того, вместо того, чтобы загружать только 5 МБ документов, вы можете загрузить до 100 МБ на файл с учетной записью.
Сначала выберите язык, а затем выберите тип выходных форматов, которые вы хотите преобразовать в файл. У вас есть несколько вариантов, и вы можете выбрать более одного, если хотите. Под Многостраничный документ, Вы можете выбрать Номера страниц а затем выберите только те страницы, которые вы хотите конвертировать. Затем вы выбираете файл и нажимаете Перерабатывать!
После конвертации вы попадете в раздел «Документы» (если вы вошли в систему), где вы можете увидеть, сколько свободных страниц у вас осталось, и ссылки для загрузки ваших конвертированных файлов. Кажется, у вас есть всего 25 бесплатных страниц в день, поэтому, если вам нужно больше, вам придется немного подождать или купить больше страниц..
Онлайновое распознавание текста отлично справилось с конвертацией моих PDF-файлов, потому что им удавалось поддерживать фактический формат текста. В своем тесте я взял документ Word, в котором использовались маркеры, шрифты разных размеров и т. Д., И преобразовал его в PDF-файл. Затем я использовал OCR для преобразования его обратно в формат Word, и он был примерно на 95% таким же, как и оригинал. Это очень впечатляет для меня.
Кроме того, если вы хотите преобразовать изображение в текст, он-лайн распознавание текста может сделать это так же легко, как извлечение текста из файлов PDF..
Бесплатный онлайн OCR
Поскольку речь шла об оптическом распознавании изображений с текстом, позвольте мне упомянуть еще один хороший веб-сайт, который действительно хорошо работает с изображениями. Бесплатное распознавание текста было очень хорошим и очень точным при извлечении текста из моих тестовых изображений. Я взял пару фотографий с моего iPhone страниц из книг, брошюр и т. Д., И я был удивлен, насколько хорошо он смог преобразовать текст.
Выберите файл и нажмите кнопку «Загрузить». На следующем экране есть несколько вариантов и предварительный просмотр изображения. Вы можете обрезать его, если вы не хотите, чтобы OCR все это. Затем просто нажмите кнопку OCR, и ваш преобразованный текст появится под предварительным просмотром изображения. Это также не имеет никаких ограничений, что действительно приятно.
В дополнение к онлайн-сервисам есть два бесплатных конвертера PDF, которые я хочу упомянуть, если вам нужно программное обеспечение, работающее локально на вашем компьютере для выполнения преобразований. С онлайн-сервисами вам всегда нужно подключение к Интернету, и это может быть возможно не для всех. Однако я заметил, что качество конверсий из бесплатных программ было значительно хуже, чем у сайтов..
A-PDF Text Extractor
A-PDF Text Extractor - это бесплатная программа, которая неплохо справляется с извлечением текста из PDF-файлов. Загрузив и установив его, нажмите кнопку «Открыть», чтобы выбрать файл PDF. Затем нажмите Извлечь текст, чтобы начать процесс.
Он попросит вас указать место для сохранения файла текстового вывода, а затем он начнет извлекаться. Вы также можете нажать на вариант Кнопка, которая позволяет выбрать только определенные страницы для извлечения и тип извлечения. Второй вариант интересен тем, что он извлекает текст в разных макетах, и стоит попробовать все три, чтобы увидеть, какой из них дает лучший результат.
PDF2Text Pilot
PDF2Text Pilot отлично справляется с извлечением текста. У него нет никаких вариантов; Вы просто добавляете файлы или папки, конвертируете и надеетесь на лучшее. Это хорошо работало на некоторых PDF-файлах, но для большинства из них были многочисленные проблемы.
Просто нажмите Добавить файлы, а затем нажмите Перерабатывать. После завершения конвертации нажмите кнопку «Обзор», чтобы открыть файл. Ваш пробег будет варьироваться с помощью этой программы, поэтому не ожидайте многого.
Кроме того, стоит упомянуть, что если вы находитесь в корпоративной среде или можете получить копию Adobe Acrobat с работы, то вы действительно можете получить гораздо лучшие результаты. Acrobat, очевидно, не является бесплатным, но у него есть возможность конвертировать PDF в Word, Excel и HTML. Это также делает лучшую работу по поддержанию структуры исходного документа и преобразования сложного текста.