테서랙트(Tesseract)는 역사가 오래되고 가벼운 대신, 배경이 복잡하거나 최신 폰트가 적용된 한글 문서에서는 인식률이 크게 떨어지는 치명적인 단점이 있다.

현재 파이썬 환경에서 테서랙트를 대체할 수 있는 더 강력하고 현대적인 딥러닝 기반의 OCR 엔진들이 많이 나와 있다. 크게 로컬 환경에서 무료로 돌릴 수 있는 오픈소스 엔진과, 압도적인 성능을 자랑하는 유료 클라우드 API로 나눌 수 있다.

1. 무료 오픈소스 엔진 (파이썬 로컬 구동)

- 패들OCR (PaddleOCR)
현재 오픈소스 OCR 생태계에서 속도와 인식률 면에서 가장 훌륭하다고 평가받는 엔진이다. 중국의 바이두가 개발했으며, 딥러닝 기반임에도 불구하고 모델이 매우 가벼워 CPU 환경에서도 쾌적하게 돌아간다. 특히 아시아권 언어에 강력하게 최적화되어 있어 한글 인식률이 테서랙트와는 비교할 수 없을 정도로 뛰어나다. 그러나 파이썬 3.14버전에선 작동하지 않으며 현재는 3.12버전까지 지원한다

- 이지OCR (EasyOCR)
파이토치(PyTorch) 기반으로 만들어진 직관적이고 사용하기 쉬운 파이썬 전용 OCR 라이브러리이다. 이름처럼 설치와 사용이 매우 간단하며, 한글을 포함한 80여 개 언어를 기본 지원한다. 테서랙트보다 한글 인식률이 훨씬 좋지만, 초기 실행 시 모델을 불러오는 데 시간이 조금 걸리고 무거운 편이라 그래픽카드(GPU) 가속 환경이 없으면 캡처 후 텍스트 변환까지 약간의 딜레이가 발생할 수 있다.

2. 상용 클라우드 API (인터넷 연결 필수)

오픈소스 엔진의 한계를 넘어 전공 서적의 복잡한 레이아웃이나 손글씨, 영수증의 흐릿한 글자까지 오타 없이 완벽하게 읽어내야 한다면 대기업의 API를 빌려 쓰는 것이 유일한 해답이다.

- 네이버 클로바 OCR (Naver Clova OCR)
한글 인식률에 있어서는 타의 추종을 불허하는 독보적인 엔진이다. 사진 속의 글자가 아무리 찌그러지고 기울어져 있어도 귀신같이 한글 텍스트로 변환해 낸다. API 키를 발급받아 파이썬 코드에 연동하여 사용하며, 네이버 클라우드 플랫폼에서 일정량의 무료 호출 건수를 제공하므로 개인 용도로 충분히 활용할 수 있다.

- 구글 클라우드 비전 API (Google Cloud Vision API)
안드로이드 스마트폰이나 구글 렌즈에 탑재되는 바로 그 딥러닝 엔진이다. 전 세계 거의 모든 언어를 지원하며, 배경과 글자가 교묘하게 섞여 있는 이미지에서도 놀라운 수준으로 텍스트만 뽑아낸다. 구글 클라우드 콘솔에서 프로젝트를 생성하면 매월 1,000건의 이미지를 무료로 판독할 수 있다.

지금 만든 파이썬 캡처 프로그램의 뼈대를 그대로 유지하면서, 돈을 들이지 않고 당장 오프라인 한글 인식률을 크게 끌어올리고 싶다면 터미널에서 패들OCR을 설치하고 테서랙트 코드를 교체해 보는 것을 추천한다고 하는데 개인적으론 별로였다. 쓸데없는 지전분한 메시지만 많이 뜨고...다음엔 이지OCR을 설치해봐야겠다.

+ Recent posts