← All guides

Claude로 세금계산서 데이터 추출 자동화하기 (2026 한국어)

Claude Vision API로 종이·PDF 세금계산서에서 거래처·공급가액·세액을 자동 추출해 회계 데이터로 정리하는 법. 실전 코드와 검증 패턴 포함.

Claude로 세금계산서 데이터 추출 자동화하기 (2026 한국어)

Claude Vision API에 종이·PDF·이미지 세금계산서를 넣으면 거래처명, 사업자등록번호, 공급가액, 세액, 작성일자를 구조화된 JSON으로 자동 추출할 수 있습니다. 월 50-200장의 종이 계산서를 수기 입력하던 1인 사업자·경리 담당자가 장당 약 2분 → 5초로 줄이고, 입력 오타로 인한 부가세 신고 불일치를 없앱니다. 이 글은 Vision API 호출 코드, 추출 스키마, 그리고 숫자 검증(합계 = 공급가액 + 세액) 패턴을 다룹니다.

주의: 추출 결과는 반드시 원본과 대조 검증하세요. Claude는 입력 보조 도구이며, 최종 회계 처리는 세무사 확인을 권장합니다.

왜 Vision API인가

한국 세금계산서는 전자(홈택스)와 종이가 섞여 있습니다. 전자는 XML로 받지만, 종이·스캔·이미지 계산서는 여전히 수기 입력해야 합니다. Claude Vision은 이미지에서 직접 항목을 읽어 구조화합니다.

추출 대상 항목:

실전: Vision API로 추출

Python 코드

import anthropic, base64

client = anthropic.Anthropic()

with open("세금계산서.jpg", "rb") as f:
    img = base64.standard_b64encode(f.read()).decode()

msg = client.messages.create(
    model="claude-haiku-4-5",
    max_tokens=1024,
    messages=[{
        "role": "user",
        "content": [
            {"type": "image", "source": {
                "type": "base64", "media_type": "image/jpeg", "data": img}},
            {"type": "text", "text": """
이 세금계산서에서 다음을 JSON으로 추출하라:
{
  "작성일자": "YYYY-MM-DD",
  "공급자_상호": "",
  "공급자_사업자번호": "",
  "공급받는자_사업자번호": "",
  "품목": [{"명": "", "공급가액": 0, "세액": 0}],
  "공급가액_합계": 0,
  "세액_합계": 0,
  "합계금액": 0
}
숫자는 콤마 없이 정수로. 읽을 수 없는 항목은 null."""}
        ]
    }]
)
print(msg.content[0].text)

출력 검증 (필수)

추출 후 합계금액 = 공급가액 + 세액인지 자동 검증해 OCR 오류를 잡습니다.

import json
data = json.loads(msg.content[0].text)
expected = data["공급가액_합계"] + data["세액_합계"]
if expected != data["합계금액"]:
    print(f"⚠️ 불일치: {expected} ≠ {data['합계금액']} — 수동 확인 필요")

이 검증 한 줄이 잘못 추출된 계산서를 자동으로 격리합니다. 검증 우선 워크플로우는 Anthropic이 권장하는 핵심 패턴입니다.

배치 처리 (월 100장+)

수십~수백 장이면 Batch API로 50% 비용 절감하며 한 번에 처리합니다. Vision + Batch 조합 패턴은 Claude API 비용 최적화 가이드에서 다룹니다. 추출한 데이터는 그대로 부가세 신고 자동 분석 워크플로우로 넘길 수 있습니다.

정확도 높이는 팁

  1. 해상도: 300 DPI 이상 스캔 시 사업자번호·금액 인식률 크게 향상
  2. 모델 선택: 깨끗한 전자계산서 출력물은 Haiku, 흐린 종이·손글씨 메모는 Sonnet
  3. 사업자번호 형식 검증: 10자리 + 체크섬 규칙으로 추출 오류 자동 탐지
  4. 이중 추출: 중요 문서는 2회 추출 후 불일치 시 사람 검토

자주 묻는 질문

손글씨가 섞인 계산서도 인식하나요?

인쇄 항목은 높은 정확도로 인식합니다. 손글씨는 Sonnet이 더 낫지만 100%는 아니므로, 손글씨 금액은 합계 검증으로 교차 확인하세요.

전자세금계산서도 Vision으로 처리해야 하나요?

아니요. 전자계산서는 홈택스에서 XML/CSV로 받는 게 정확합니다. Vision은 종이·스캔·이미지 전용입니다.

추출 데이터를 바로 회계 프로그램에 넣어도 되나요?

검증을 통과한 데이터만 넣으세요. 합계 검증 + 사업자번호 형식 검증을 거친 뒤, 표본을 원본과 대조하는 것을 권장합니다.

비용은 얼마나 드나요?

Haiku Vision 기준 계산서 1장 추출에 약 $0.002-0.005 (이미지 토큰 포함). 월 200장이면 약 $1 내외. 자세한 계산은 비용 가이드 참고.


세무 문서 자동화 비용 최적화

Claude API 비용 최적화 마스터클래스 ($59 / 약 ₩82,000, 부가세 별도) — Vision·Batch·캐싱으로 대량 문서 처리 비용을 80% 줄이는 27가지 프로덕션 패턴. 43페이지 PDF + Excel 계산기 포함.

AI Disclosure: Claude Code로 초안 작성. 세무 내용은 일반 정보이며 실제 처리는 세무사 확인을 권장합니다.

도구와 자료