Video Guide
테서렉트는 이미지에서 글자인식을 가능하게 해주는 프로그램입니다.
https://github.com/UB-Mannheim/tesseract/wiki
본인에게 맞는 프로그램으로 설치해주세요.
3. 추가 언어 설치
기본설치시는 영어만 설치됩니다.
추가로 Additional language data에 한국어 및 추출하고자 하는 언어를 체크해주세요.
설치가 추가로 안되었다고 해도 나중에 깃허브에서 다운받아서 추가도 가능합니다.
4. 환경변수 등록
제어판의 시스템 환경변수로 갑니다.
환경변수를 지정해야 합니다.
시스템 변수(S)에서 Path 선택 -> 편집 버튼 -> 새로만들기(N) -> 테서렉트가 설치된 폴더 지정. 기본 C:\Program Files\Tesseract-OCR
시스템 변수 등록까지 잘 끝냈다면 사전준비가 끝난 것입니다.
이미지 명칭은 어떤 것이든 상관없습니다.
레시피상에 폴더 명을 수정하는 것도 가능합니다.
2. 클리커 레시피 로드
클리커로 레시피를 로드 한 후 2번 스크립트 버튼 오른쪽 확인 버튼을 누릅니다.
!pip install pytesseract
!pip install pillow
!pip install pandas
3. 추출하고자 하는 언어 지정
추출하고자 하는 언어를 지정합니다.
한국어 kor
영어 eng
한국어 + 영어 kor
프랑스어 fra
등등
만약에 추출하고자 하는 언어가 설치가 안되어 있다면 학습된 모델을 다운로드하여 테서렉트 폴더에 가져다 놓으시면 됩니다.
링크접속 후 언어 다운로드
https://github.com/tesseract-ocr/tessdata
C:\Program Files\Tesseract-OCR\tessdata 까지 이동 후 해당 데이터 복사하기
(복사가 어려우신 분들은 추가언어 설치 시 미리 설치 해 주세요.)
4. 확인 버튼을 통해 추출
5. 수집결과 확인
수집결과는 C:\Temp의 text.txt로 저장됩니다.
현재는 간단하게 RPA로 글자 추출을 하는 것을 제공하고 있습니다.
아직은 기능 동작에 초점을 두어 추출 성능이 높지는 않습니다.
향후 추출 성능을 높이기 위한 버전 업그레이드가 진행 될
예정입니다. 감사합니다.
클리커는 레시피를 수정하여 원하는 정보만 커스터마이징하는 것이 가능합니다.
직접 수정하셔도 되고 수정이 어려운 분은 아래의 방법으로 연락주시길 바랍니다.
메일 : chagaunnet@gmail.com
네이버톡톡 : https://talk.naver.com/ct/w4qfvn
Version Info
(주) 차가운 | 대표 : 김연섭 | 사업자번호 : 616-86-29484
이메일 : chagaunnet@gmail.com
주소 : 서울특별시 영등포구 시흥대로 589-8, 2층 204호