01
OCR 핵심 기준
박스 방향핵심
- 텍스트가 기울어져도 → 박스는 항상 가로(수평)
- 텍스트 기울기에 맞춰 박스를 기울이는 것 금지
- 이미지 자체를 회전하는 것도 금지
줄 통합 기준핵심
- 줄 사이 여백 < 글자 높이의 50% → 같은 줄 (통합)
- 줄 사이 여백 ≥ 글자 높이의 50% → 다른 줄 (분리)
- 여백 퍼센트를 정확히 비교
단어 분리 기준함정
- 단어 단위 작업 시: 공백이 있으면 분리
- "Hello World" → 2개 박스
- 숫자+단위가 붙어있으면 → 1개 박스
- "5,000원" → 1개 박스
가려진 글자 처리핵심
- 50% 이상 가려지거나 번진 경우 → "불명확" 태그
- 완전 제외가 아니라 박스 + 불명확 태그
- 50% 미만 가려짐 → 정상 처리
⚠️ 최빈출 함정
- 기울어진 텍스트 → 박스는 항상 가로
- 줄 여백 30% → 50% 미만 → 통합
- "5,000원" → 숫자+단위 → 1개 박스
- 글자 60% 번짐 → 제외 아닌 불명확 태그
02
줄 통합/분리 판단 훈련
두 줄 텍스트, 줄 사이 여백 = 글자 높이의 30%
30% < 50% → 통합 (1개 박스)
두 줄 텍스트, 줄 사이 여백 = 글자 높이의 60%
60% ≥ 50% → 분리 (2개 박스)
두 줄 텍스트, 줄 사이 여백 = 글자 높이의 정확히 50%
50% = 기준치 → 분리 (이상에 해당)
"Hello World" — 단어 단위 작업
명확한 공백 → 2개 박스
"₩15,000" — 단어 단위 작업
기호+숫자 붙어 있음 → 1개 박스
03