Tesseract.js приносит перевод изображений OCR в браузеры

Перевод OCR все еще не совершенен, но за последние несколько лет он значительно улучшился. Лидерство - это Тессеракт механизм перевода в настоящее время открыт в С++.

Хотя это невероятная библиотека, она ограничена программным обеспечением. К счастью, кто-то сделал порт Tesseract в JavaScript, который называется Tesseract.js. Это поддерживает до 60 языков и хотя он, конечно, не идеален, он хорошо выполняет свою работу.

Установка и настройка на одном дыхании нацелить на любой элемент изображения на странице и запустите Tesseract.recognize () функция. Это может занять любой тип изображения, и это будет автоматически сжать и перевести прямо в браузере.

Вы можете получить намного сложнее, но красота как вы можете запустить OCR с одной строкой кода.

Проверьте целевую страницу Tesseract.js, если вы хотите увидеть живую демонстрацию. Это работает прямо в браузере, где вы можете перетащите любое отсканированное изображение текста, чтобы получить автоматический перевод OCR.

Вы также можете загрузить этот пример локально через страницу GitHub или создать собственное приложение, включив скрипт Tesseract.js прямо из CDN..

Простейший пример кода выглядит следующим образом: myImage прямая ссылка на элемент изображения HTML:

 Tesseract.recognize (myImage) .then (function (result) console.log (result));

В любом случае, эта библиотека очень полезна для работы с OCR в Интернете. Это далеко от совершенства, но это также лучший ресурс для веб-разработчиков, которым нужна динамическая встроенная функция распознавания текста.

Чтобы узнать больше, посетите страницу GitHub Tesseract.js, где вы можете посмотреть живую демоверсию и просмотреть онлайн-документацию..