Як використовувати OCR Tesseract в Java

Зміст

Інструкції

Бібліотеки оптичного розпізнавання символів Tesseract пропонують розробникам можливість сканувати документи та текст у зображення. Вони використовуються для зберігання зображень документів, які більше не потрібні на папері. Їх можна використовувати в Java, створюючи контури управління для кожного символу і записуючи їх у файл. Щоб використовувати бібліотеки Tesseract, для функцій розпізнавання необхідно включити "простір імен" Java.

Інструкції

Бібліотеки Tesseract дозволяють користувачам сканувати свої документи (Джон Фокс / Stockbyte / Getty Images)

Клацніть правою кнопкою миші файл Java, який потрібно використовувати для створення документа розпізнавання. Натисніть "Відкрити за допомогою" і виберіть потрібний редактор Java.
Додайте простір імен бібліотеки OCR у верхній частині файлу. Скопіюйте та вставте наступний код у вихідний файл:

com.touch.robot.imagecomparison.tesseractocr
Створіть код, відповідальний за сканування символів для файлу. Наприклад, наступний код створює петлі через кожен символ у файлі і записує їх у файл зображення:

(I = 1; {i} <{lines} +1; i = {i}) - набір значень, які визначаються як: +1) {Typeline "{_TOCR_LINE {i}}"}
Натисніть кнопку "Зберегти" у редакторі та натисніть "Виконати", щоб запустити код у компіляторі Java.