이미지 텍스트 추출기

9900 0 / month
  • 이미지에서 텍스트 추출
  • 이미지에서 텍스트를 추출하는 프로그램
  • 다양한 언어로 추출
  • 텍스트로 저장

Video Guide

Manual Guide

1. 사전준비

클리커는 특정 폴더에 이미지를 저장해놓고 이미지를 불러와서 글자 추출을 할 수 있습니다. 하지만 그전에 사전 준비를 해야합니다. 
단, 설치과정이 조금 복잡하니 안되시는 분은 클리커 홈페이지로 문의 부탁드립니다.
 
1. 먼저 테서렉트(Tesseract) 를 설치합니다.

테서렉트는 이미지에서 글자인식을 가능하게 해주는 프로그램입니다.

 

 

https://github.com/UB-Mannheim/tesseract/wiki

 

 

본인에게 맞는 프로그램으로 설치해주세요.

 
 
 

 

 2. 특정 폴더에 설치됩니다.
 특정 폴더위치는 꼭 기억해주세요.

 

 

3. 추가 언어 설치

기본설치시는 영어만 설치됩니다.

추가로 Additional language data에 한국어 및 추출하고자 하는 언어를 체크해주세요.

설치가 추가로 안되었다고 해도 나중에 깃허브에서 다운받아서 추가도 가능합니다.

 

 

4. 환경변수 등록

 

 

제어판의 시스템 환경변수로 갑니다.

 

 

환경변수를 지정해야 합니다.

 

시스템 변수(S)에서 Path  선택 -> 편집 버튼 -> 새로만들기(N) -> 테서렉트가 설치된 폴더 지정. 기본 C:\Program Files\Tesseract-OCR

시스템 변수 등록까지 잘 끝냈다면 사전준비가 끝난 것입니다.

2. 클리커로 텍스트 추출



1. 이미지 준비
 
수정할 이미지를 temp 폴더에 넣습니다
 

이미지 명칭은 어떤 것이든 상관없습니다.

 

 #temp에 이미지를 넣고 이미지 이름을 지정 
img= Image.open(‘c:/temp/test.png‘)

 

레시피상에 폴더 명을 수정하는 것도 가능합니다.

 

2. 클리커 레시피 로드

 

클리커로 레시피를 로드 한 후 2번 스크립트 버튼 오른쪽 확인 버튼을 누릅니다.

!pip install pytesseract

!pip install pillow

!pip install pandas

 

 

 

3. 추출하고자 하는 언어 지정


 

추출하고자 하는 언어를 지정합니다.

한국어 kor

영어 eng

한국어 + 영어 kor

프랑스어 fra

 

등등

 

만약에 추출하고자 하는 언어가 설치가 안되어 있다면 학습된 모델을 다운로드하여 테서렉트 폴더에 가져다 놓으시면 됩니다.

 

링크접속 후 언어 다운로드

https://github.com/tesseract-ocr/tessdata

 

 

 

 

 

C:\Program Files\Tesseract-OCR\tessdata 까지 이동 후 해당 데이터 복사하기

(복사가 어려우신 분들은 추가언어 설치 시 미리 설치 해 주세요.)

 

 

4. 확인 버튼을 통해 추출

 

 5. 수집결과 확인

 


 

  

 

 

수집결과는 C:\Temp의 text.txt로 저장됩니다.

 

현재는 간단하게 RPA로 글자 추출을 하는 것을 제공하고 있습니다.

아직은 기능 동작에 초점을 두어 추출 성능이 높지는 않습니다.

향후 추출 성능을 높이기 위한 버전 업그레이드가 진행 될 

예정입니다. 감사합니다. 

 

 

클리커는 레시피를 수정하여 원하는 정보만 커스터마이징하는 것이 가능합니다. 

직접 수정하셔도 되고 수정이 어려운 분은 아래의 방법으로 연락주시길 바랍니다.

메일 : chagaunnet@gmail.com

네이버톡톡 : https://talk.naver.com/ct/w4qfvn

Version Info

추천 레시피
   
아이디 기억하기