PaddleOCR-VL-1.5-초경량 OCR의 새로운 강자

2026. 2. 2. 09:11·알쓸신잡

약 2-3개월 전부터 vlm을 이용한 OCR 모델들이 우르르 쏟아졌다. 그중에 Qwen 같은 대형 모델들도 있고 OCR에만 특화된 nanonet, dots.cor 등 소형 모델들도 다수 등장했다.
문서 파싱쪽 업무를 담당하면서 일주일에 10개씩 모델을 올렸다 내렸다 하고 있었는데 테스트 결과 정리하기도 이전에 새로운 모델이 또 출시됐다.

사실 이전 버전인 PaddleOCR-VL도 동일하게 0.9B에다가 벤치마크가 좋았어서 써봤었다.
성능은 기대만큼 괜찮았지만 아주 아주 약간의 아쉽지만 치명적인 부분들이 있었는데, 그런데 어제 마침 새로운 버전이 나왔다고 한다.

불과 0.9B 파라미터로 Gemini 3 Pro 같은 거대 모델들을 제치고 OCR 벤치마크 1위를 차지한 **PaddleOCR-VL-1.5가 그 주인공이다.

PaddleOCR-VL-1.5

바이두가 2026년 1월 29일에 공개한 초경량 비전-언어 모델(VLM)이다.
문서 인식(OCR)에 특화되어 있으면서도 크기는 겨우 0.9B 파라미터로 매우 대단하다.

핵심 구성 요소

컴포넌트 설명
비주얼 인코더 NaViT 스타일의 동적 해상도 처리
언어 모델 ERNIE-4.5-0.3B (바이두의 경량 LLM)
라이선스 Apache 2.0 (상업적 사용 가능!)
텐서 타입 BF16 (효율적 연산)

 

기본 베이스 모델은 ERNIE-4.5-0.3B이고, 여기에 NaViT 방식의 Vision Encoder을 붙여서 이미지 인식 능력을 극대화했다. 쉽게 말해서 가볍지만 똑똑한 구조라는 것이다.


놀라운 성능

이 모델의 진짜 충격적인 부분은 성능이다. OmniDocBench v1.5라는 벤치마크에서 94.5%의 정확도를 달성했다.

 

벤치마크를 보면 알겠지만 대형 모형들을 포함하여 최신 모델들을 모두 뛰어넘은 성능을 보여주고 있다.

하지만 요즘 벤치마크는 사실 믿기 어렵다는 게 사실이다. 데이터를 잘 만들고 오버피팅하면 되니까. 진짜 중요한 건 실제 환경에서 얼마나 잘 작동하느냐다.

PaddleOCR-VL-1.5는 "Real5-OmniDocBench"라는 실전 환경 테스트에서도 SOTA를 달성했다.

(Real5-OmniDocBench는 OmniDocBench v1.5 데이터셋을 기반으로 구축된, 실제 시나리오에 최적화된 새로운 벤치마크이다)

Real5 데이터셋은 다음 5가지 까다로운 시나리오를 테스트한다:

시나리오 설명 난이도
📄 스캔 스캔 아티팩트, 노이즈 포함 문서 ⭐⭐
📐 기울어짐 비뚤어진 각도로 찍힌 사진 ⭐⭐⭐
📱 화면 촬영 모니터 화면을 카메라로 찍은 이미지 (반사 포함) ⭐⭐⭐⭐
💡 조명 부분 조명, 그림자가 있는 문서 ⭐⭐⭐
📜 휘어짐 구겨진 종이, 곡면 변형 ⭐⭐⭐⭐⭐

 

 

특히 휘어진 종이나 화면 촬영 같은 건 정말 어려운 케이스다.
일반 OCR로는 제대로 인식이 안 되는 경우가 많은데, PaddleOCR-VL-1.5는 이런 상황에서도 강력하게 작동한다고 한다.

개인적으로는 이 부분이 가장 마음에 든다. 실험실 데이터가 아니라 진짜 현실에서 마주칠 법한 상황을 잘 처리한다는 거니까.


최근 LLM, VLM들의 추세에 맞게 vllm을 통한 서빙도 바로 지원한다.

# vLLM 서버 시작 (Docker)
docker run \
    --rm \
    --gpus all \
    --network host \
    ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddleocr-genai-vllm-server:latest-nvidia-gpu \
    paddleocr genai_server --model_name PaddleOCR-VL-1.5-0.9B --host 0.0.0.0 --port 8080 --backend vllm

# CLI로 호출
paddleocr doc_parser \
    -i image.png \
    --vl_rec_backend vllm-server \
    --vl_rec_server_url http://127.0.0.1:8080/v1

 

단일 NVIDIA A100에서 배치 처리(512 문서)가 가능하다고 하니, 프로덕션 환경에서도 충분히 쓸만할 것 같다.


마무리: OCR의 새로운 기준

PaddleOCR-VL-1.5를 한 문장으로 정리하면 이렇다:

"0.9B 파라미터로 Gemini를 이긴, 실전에 강한 문서 파싱의 최강자"

 

AI 업계가 "더 크고 더 강한" 모델 경쟁에 집중할 때, 바이두는 반대로 "더 작고 더 효율적인" 방향을 택했다. 그리고 그 선택이 성공했다는 게 벤치마크로 증명되었다.

특히 인상적인 부분은:

  • ✅ OmniDocBench v1.5에서 94.5% SOTA 달성
  • ✅ Real5 벤치마크에서 실전 성능 입증
  • ✅ Apache 2.0 라이선스로 상업적 활용 가능
  • ✅ 109개 언어 지원으로 글로벌 확장성 확보

앞으로 문서 처리 자동화가 필요하다면 PaddleOCR-VL-1.5를 한번 고려해 보길 바란다. 특히 리소스가 제한된 환경이나, 빠른 추론 속도가 중요한 프로덕션 시나리오라면 거의 최선의 선택일 것 같다.

데모도 공개되어있으니 직접 서빙하기 귀찮은 사람은 테스트해보면 좋을 것 같다! 

 

 

PaddleOCR-VL-1.5 Online Demo - a Hugging Face Space by PaddlePaddle

PaddleOCR-VL-1.5_Online_Demo

huggingface.co

 

참고 자료

  • HuggingFace 모델 페이지: https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5
  • 공식 문서: https://www.paddleocr.ai/latest/en/version3.x/pipeline_usage/PaddleOCR-VL.html
  • GitHub 저장소: https://github.com/PaddlePaddle/PaddleOCR
  • arXiv 논문: https://arxiv.org/abs/2601.21957
  • 온라인 데모: 

Sources:

  • HuggingFace - PaddleOCR-VL-1.5
  • PaddleOCR Official Documentation
728x90

'알쓸신잡' 카테고리의 다른 글

Daggr - HuggingFace의 새로운 AI 워크플로우 도구  (0) 2026.02.02
Microsoft VibeVoice-ASR  (0) 2026.02.02
STAX - 구글이 내놓은 LLM 평가 플랫폼  (0) 2026.01.26
Google TranslateGemma - 55개 언어 번역 모델과 EOS 이슈 해결  (0) 2026.01.22
옵시디언 새탭에서 파일 열기  (0) 2026.01.21
'알쓸신잡' 카테고리의 다른 글
  • Daggr - HuggingFace의 새로운 AI 워크플로우 도구
  • Microsoft VibeVoice-ASR
  • STAX - 구글이 내놓은 LLM 평가 플랫폼
  • Google TranslateGemma - 55개 언어 번역 모델과 EOS 이슈 해결
창빵맨
창빵맨
  • 창빵맨
    Let's be Developers
    창빵맨
    로그인/로그아웃
  • 전체
    오늘
    어제
    • 분류 전체보기 (481)
      • 알쓸신잡 (88)
      • ML & DL (85)
        • Computer v.. (22)
        • NLP (22)
        • 파이썬 머신러닝 완.. (3)
        • 개념정리 (38)
      • 리눅스 (21)
      • 프로젝트 (29)
        • 산불 발생 예측 (6)
        • 음성비서 (12)
        • pdf 병합 프로그.. (0)
        • 수위 예측 (5)
        • 가짜 뉴스 분류 (5)
        • 전력사용량 예측 (1)
      • 코딩테스트 (217)
        • 프로그래머스[Pyt.. (17)
        • 프로그래머스[Fai.. (3)
        • 백준[Python] (160)
        • 이것이취업을위한코딩.. (18)
        • 파이썬 알고리즘 (19)
      • 데이터분석실습 (25)
        • 데이터 과학 기반의.. (18)
        • 헬로 데이터 과학 (7)
      • 메모장 (0)
      • 잡담 (4)
  • Blog

    • 🏠 Home

    ✏️글쓰기
    💻 관리

    Personal

    GITHUB
    Instagram
  • 공지사항

  • 인기 글

  • 태그

    파이썬
    이것이취업을위한코딩테스트다
    BFS
    이분탐색
    나동빈
    DFS
    그리디
    이코테
    백준
    dp
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
상단으로

티스토리툴바