일반적인 사실은 다음 글을 참고하기 바란다.

2026.04.09 - [IT/Python] - Tesseract 와 EasyOCR을 비교 : 일반적으로 알려져 있는 사항

 

Tesseract 와 EasyOCR을 비교 : 일반적으로 알려져 있는 사항

테서랙트(Tesseract)와 이지OCR(EasyOCR)은 파이썬 환경에서 가장 널리 쓰이는 두 가지 오프라인 OCR 엔진이다. 두 엔진은 개발 방식과 장단점이 아주 명확하게 대비된다. 표1. 두 엔진의 핵심적인 차이

mmemories.tistory.com

 

다양하게 경험하진 못했고, 파이썬 코드를 만들어 책과 웹사이트 캡쳐한 것을 가지고 간단하게 테스트해 보았다.

 

결과적으로

  1. 스크린 캡쳐나 아니면 깨끗하게 잘 스캔된 책과 같은 페이지들을 대상으로한 인식은 2가지가 크게 다르지 않았다.
  2. 대신 EasyOCR은 로딩시에 시간이 아주 많이 걸린다. 5-10초 정도?
  3. 일반적으로 알려진 사실은 지저분하게 스캔된 책은 EasyOCR이 더 잘된다고 되어 있으나 확인하지 못했다. 지저분한 것을 구하지 못했기 때문에..
  4. 둘 다 영어는 아주 잘 되지만 한글은 아주 잘되진 않고 대충된다. 한글인식률을 높이려면 아마도 유료엔진을 사용하거나 Paddle OCR을 사용해야할 것 같다. 패들은 현재 파이썬 3.14를 지원하지 않는다.

+ Recent posts