Claude로 세금계산서 데이터 추출 자동화하기 (2026 한국어)
Claude Vision API에 종이·PDF·이미지 세금계산서를 넣으면 거래처명, 사업자등록번호, 공급가액, 세액, 작성일자를 구조화된 JSON으로 자동 추출할 수 있습니다. 월 50-200장의 종이 계산서를 수기 입력하던 1인 사업자·경리 담당자가 장당 약 2분 → 5초로 줄이고, 입력 오타로 인한 부가세 신고 불일치를 없앱니다. 이 글은 Vision API 호출 코드, 추출 스키마, 그리고 숫자 검증(합계 = 공급가액 + 세액) 패턴을 다룹니다.
주의: 추출 결과는 반드시 원본과 대조 검증하세요. Claude는 입력 보조 도구이며, 최종 회계 처리는 세무사 확인을 권장합니다.
왜 Vision API인가
한국 세금계산서는 전자(홈택스)와 종이가 섞여 있습니다. 전자는 XML로 받지만, 종이·스캔·이미지 계산서는 여전히 수기 입력해야 합니다. Claude Vision은 이미지에서 직접 항목을 읽어 구조화합니다.
추출 대상 항목:
- 공급자/공급받는자 상호 + 사업자등록번호
- 작성일자
- 품목·공급가액·세액
- 합계금액
실전: Vision API로 추출
Python 코드
import anthropic, base64
client = anthropic.Anthropic()
with open("세금계산서.jpg", "rb") as f:
img = base64.standard_b64encode(f.read()).decode()
msg = client.messages.create(
model="claude-haiku-4-5",
max_tokens=1024,
messages=[{
"role": "user",
"content": [
{"type": "image", "source": {
"type": "base64", "media_type": "image/jpeg", "data": img}},
{"type": "text", "text": """
이 세금계산서에서 다음을 JSON으로 추출하라:
{
"작성일자": "YYYY-MM-DD",
"공급자_상호": "",
"공급자_사업자번호": "",
"공급받는자_사업자번호": "",
"품목": [{"명": "", "공급가액": 0, "세액": 0}],
"공급가액_합계": 0,
"세액_합계": 0,
"합계금액": 0
}
숫자는 콤마 없이 정수로. 읽을 수 없는 항목은 null."""}
]
}]
)
print(msg.content[0].text)
출력 검증 (필수)
추출 후 합계금액 = 공급가액 + 세액인지 자동 검증해 OCR 오류를 잡습니다.
import json
data = json.loads(msg.content[0].text)
expected = data["공급가액_합계"] + data["세액_합계"]
if expected != data["합계금액"]:
print(f"⚠️ 불일치: {expected} ≠ {data['합계금액']} — 수동 확인 필요")
이 검증 한 줄이 잘못 추출된 계산서를 자동으로 격리합니다. 검증 우선 워크플로우는 Anthropic이 권장하는 핵심 패턴입니다.
배치 처리 (월 100장+)
수십~수백 장이면 Batch API로 50% 비용 절감하며 한 번에 처리합니다. Vision + Batch 조합 패턴은 Claude API 비용 최적화 가이드에서 다룹니다. 추출한 데이터는 그대로 부가세 신고 자동 분석 워크플로우로 넘길 수 있습니다.
정확도 높이는 팁
- 해상도: 300 DPI 이상 스캔 시 사업자번호·금액 인식률 크게 향상
- 모델 선택: 깨끗한 전자계산서 출력물은 Haiku, 흐린 종이·손글씨 메모는 Sonnet
- 사업자번호 형식 검증: 10자리 + 체크섬 규칙으로 추출 오류 자동 탐지
- 이중 추출: 중요 문서는 2회 추출 후 불일치 시 사람 검토
자주 묻는 질문
손글씨가 섞인 계산서도 인식하나요?
인쇄 항목은 높은 정확도로 인식합니다. 손글씨는 Sonnet이 더 낫지만 100%는 아니므로, 손글씨 금액은 합계 검증으로 교차 확인하세요.
전자세금계산서도 Vision으로 처리해야 하나요?
아니요. 전자계산서는 홈택스에서 XML/CSV로 받는 게 정확합니다. Vision은 종이·스캔·이미지 전용입니다.
추출 데이터를 바로 회계 프로그램에 넣어도 되나요?
검증을 통과한 데이터만 넣으세요. 합계 검증 + 사업자번호 형식 검증을 거친 뒤, 표본을 원본과 대조하는 것을 권장합니다.
비용은 얼마나 드나요?
Haiku Vision 기준 계산서 1장 추출에 약 $0.002-0.005 (이미지 토큰 포함). 월 200장이면 약 $1 내외. 자세한 계산은 비용 가이드 참고.
세무 문서 자동화 비용 최적화
Claude API 비용 최적화 마스터클래스 ($59 / 약 ₩82,000, 부가세 별도) — Vision·Batch·캐싱으로 대량 문서 처리 비용을 80% 줄이는 27가지 프로덕션 패턴. 43페이지 PDF + Excel 계산기 포함.