레시피-006. 이미지_텍스트 추출기 – 인공지능 업무자동화 클리커 AI RPA klicker

~~₩9900~~ ₩0 / month

이미지에서 텍스트 추출
이미지에서 텍스트를 추출하는 프로그램
다양한 언어로 추출
텍스트로 저장

Video Guide

Manual Guide

1. 사전준비

클리커는 특정 폴더에 이미지를 저장해놓고 이미지를 불러와서 글자 추출을 할 수 있습니다. 하지만 그전에 사전 준비를 해야합니다.
단, 설치과정이 조금 복잡하니 안되시는 분은 클리커 홈페이지로 문의 부탁드립니다.

1. 먼저 테서렉트(Tesseract) 를 설치합니다.

테서렉트는 이미지에서 글자인식을 가능하게 해주는 프로그램입니다.

https://github.com/UB-Mannheim/tesseract/wiki

본인에게 맞는 프로그램으로 설치해주세요.

2. 특정 폴더에 설치됩니다.
특정 폴더위치는 꼭 기억해주세요.

3. 추가 언어 설치

기본설치시는 영어만 설치됩니다.

추가로 Additional language data에 한국어 및 추출하고자 하는 언어를 체크해주세요.

설치가 추가로 안되었다고 해도 나중에 깃허브에서 다운받아서 추가도 가능합니다.

4. 환경변수 등록

제어판의 시스템 환경변수로 갑니다.

환경변수를 지정해야 합니다.

시스템 변수(S)에서 Path 선택 -> 편집 버튼 -> 새로만들기(N) -> 테서렉트가 설치된 폴더 지정. 기본 C:\Program Files\Tesseract-OCR

시스템 변수 등록까지 잘 끝냈다면 사전준비가 끝난 것입니다.

2. 클리커로 텍스트 추출

1. 이미지 준비

수정할 이미지를 temp 폴더에 넣습니다

이미지 명칭은 어떤 것이든 상관없습니다.

#temp에 이미지를 넣고 이미지 이름을 지정

img= Image.open(‘c:/temp/test.png‘)

레시피상에 폴더 명을 수정하는 것도 가능합니다.

2. 클리커 레시피 로드

클리커로 레시피를 로드 한 후 2번 스크립트 버튼 오른쪽 확인 버튼을 누릅니다.

!pip install pytesseract

!pip install pillow

!pip install pandas

3. 추출하고자 하는 언어 지정

추출하고자 하는 언어를 지정합니다.

한국어 kor

영어 eng

한국어 + 영어 kor

프랑스어 fra

등등

만약에 추출하고자 하는 언어가 설치가 안되어 있다면 학습된 모델을 다운로드하여 테서렉트 폴더에 가져다 놓으시면 됩니다.

링크접속 후 언어 다운로드

https://github.com/tesseract-ocr/tessdata

C:\Program Files\Tesseract-OCR\tessdata 까지 이동 후 해당 데이터 복사하기

(복사가 어려우신 분들은 추가언어 설치 시 미리 설치 해 주세요.)

4. 확인 버튼을 통해 추출

5. 수집결과 확인

수집결과는 C:\Temp의 text.txt로 저장됩니다.

현재는 간단하게 RPA로 글자 추출을 하는 것을 제공하고 있습니다.

아직은 기능 동작에 초점을 두어 추출 성능이 높지는 않습니다.

향후 추출 성능을 높이기 위한 버전 업그레이드가 진행 될

예정입니다. 감사합니다.

클리커는 레시피를 수정하여 원하는 정보만 커스터마이징하는 것이 가능합니다.

직접 수정하셔도 되고 수정이 어려운 분은 아래의 방법으로 연락주시길 바랍니다.

메일 : chagaunnet@gmail.com

네이버톡톡 : https://talk.naver.com/ct/w4qfvn

Version Info

이미지 텍스트 추출기

1. 사전준비

2. 클리커로 텍스트 추출

ABOUT

RECIPE

SERVICE