Распознавание текста из изображений через командную строку

Для человека не составляет особого труда посмотреть на изображение и прочитать представленный текст. Для машины данный процесс не так прост. Однако с помощью imgclip вы сможете быстро выполнить данную операцию.

Данный инструмент запускается из командной строки и поддерживается такими ОС как Mac, Windows и Linux. В качестве параметра достаточно передать путь к изображению, и указать язык. Результат парсинга будет скопирован в буфер обмена.

Данную библиотеку можно установить через npm. Её размер всего несколько KB. В состав входит JS файл, с которым можно ознакомиться на GitHub.

Imgclip работает на базе библиотеки Tesseract.js.

Я впечатлён качеством и быстродействием данного инструмента. Он прост в использовании и действительно справляется с заявленной задачей.

Команду imgclip следует запускать из командной строки, указав путь к изображению. Вдобавок вы можете указать дополнительные параметры.

  1. -h, --help: вывод полезной информации
  2. -V, --version: вывод версии инструмента
  3. -l, --lang: принадлежность к языку
  4. -p, --print: вывод текста на экран (вместо копирования в буфер обмена)

На данный момент Tesseract поддерживает работу с 65 языками и это не предел. Формат языка в параметре --lang должен соответствовать определенному формату.

К примеру, вызов -l eng укажет инструменту, что искомый текст представлен на английском языке, а -l jpn на японском. К тому же комбинация -l jpn_vert позволит сканировать вертикально-ориентированный японский текст.

Чтобы опробовать инструмент можете скачать его с GitHub или установить через npm.

Данный урок подготовлен для вас командой сайта ruseller.com
Источник урока: http://www.hongkiat.com/blog/extract-text-from-images-imgclip/
Перевел: Станислав Протасевич
Урок создан: 21 Апреля 2017
Просмотров: 1896
Правила перепечатки


5 последних уроков рубрики "Разное"

^ Наверх ^