Як використовувати OCR Tesseract в Java

Автор: Judy Howell
Дата Створення: 5 Липня 2021
Дата Оновлення: 1 Липня 2024
Anonim
Як використовувати OCR Tesseract в Java - Статті
Як використовувати OCR Tesseract в Java - Статті

Зміст

Бібліотеки оптичного розпізнавання символів Tesseract пропонують розробникам можливість сканувати документи та текст у зображення. Вони використовуються для зберігання зображень документів, які більше не потрібні на папері. Їх можна використовувати в Java, створюючи контури управління для кожного символу і записуючи їх у файл. Щоб використовувати бібліотеки Tesseract, для функцій розпізнавання необхідно включити "простір імен" Java.


Інструкції

Бібліотеки Tesseract дозволяють користувачам сканувати свої документи (Джон Фокс / Stockbyte / Getty Images)
  1. Клацніть правою кнопкою миші файл Java, який потрібно використовувати для створення документа розпізнавання. Натисніть "Відкрити за допомогою" і виберіть потрібний редактор Java.

  2. Додайте простір імен бібліотеки OCR у верхній частині файлу. Скопіюйте та вставте наступний код у вихідний файл:

    com.touch.robot.imagecomparison.tesseractocr

  3. Створіть код, відповідальний за сканування символів для файлу. Наприклад, наступний код створює петлі через кожен символ у файлі і записує їх у файл зображення:

    (I = 1; {i} <{lines} +1; i = {i}) - набір значень, які визначаються як: +1) {Typeline "{_TOCR_LINE {i}}"}

  4. Натисніть кнопку "Зберегти" у редакторі та натисніть "Виконати", щоб запустити код у компіляторі Java.