과제: 다양한 양식의 서류와 이미지, 사람의 눈만으로는 한계
파트너 입점 시 신분증, 자격증, 사업자 등록 서류, 보험 서류 등 다양한 증빙을 확인해야 하는데, 국가마다 서류 양식이 달랐습니다. 같은 신분증이라도 어떤 국가는 사진이 왼쪽에, 어떤 국가는 오른쪽에 있고 유효기간 표시 위치도 제각각이었습니다. 담당자마다 판단 기준이 조금씩 달라질 수 있었고, 양이 많아지면 처리 속도도 늦어질 수밖에 없었습니다.
여기에 파트너분들이 상품 설명란을 이미지로 제작해서 등록하는 경우가 많았습니다. 투어 상품의 경우 일정이나 투어에 포함된 내용을 세로로 긴 인포그래픽 형태로 만들어 올리고, 한 상품에 수십 장이 첨부되기도 했습니다. 이런 이미지는 일반적인 텍스트 검색으로는 내용 확인 자체가 어려웠고, 입점 상품이 빠르게 늘어나는 상황에서 사람이 모든 이미지를 수기로 확인하는 것은 시간적으로 불가능에 가까웠습니다.
솔루션: Document Parse + Information Extract로 검증 파이프라인 자동화
마이리얼트립은 Upstage Document Parse와 Information Extract를 도입하여, 서류와 상품 이미지에서 텍스트를 자동 추출하고 그 위에 검증 로직을 적용하는 파이프라인을 구축했습니다.
다국어·복합 이미지에서도 정확한 인식
상품 페이지 이미지에는 한국어, 영어, 중국어, 일본어, 이탈리아어, 프랑스어 등 다양한 언어가 사용되고, 디자인 폰트가 다양하며 배경 위에 텍스트가 겹쳐져 있는 경우도 많습니다. Document Parse는 풍경 사진 위에 프로모션 문구가 겹쳐진 이미지에서도 텍스트를 정확하게 추출했고, 한국어와 영어가 섞인 이미지에서 유사한 글자가 혼동되기 쉬운 케이스에서도 안정적으로 인식했습니다.
문서 구조 인식으로 검증 로직을 바로 연결
단순히 텍스트만 추출하는 것이 아니라 문서 구조까지 인식해주어, 이미지의 어느 위치에 어떤 정보가 있는지까지 파악할 수 있었습니다. 덕분에 추출 결과 위에 검증 로직을 바로 얹을 수 있었습니다.
안정적인 API로 내부 시스템에 자연스럽게 통합
Upstage API가 안정적이고 내부 시스템에 통합하기 편리하여, 자동화 파이프라인 안에 하나의 단계로 자연스럽게 넣을 수 있었습니다.
민감한 개인정보도 안심할 수 있는 보안 환경
파트너의 신분증 등 개인정보가 포함된 문서를 다루기 때문에 보안도 중요한 요건이었습니다. Upstage가 모든 데이터 처리를 국내 리전 안에서 진행하여, 데이터가 해외로 넘어가거나 외부에 노출될 위험 없이 안전하게 처리된다는 점을 확인하고 도입을 결정했습니다.
성과: 분 단위에서 초 단위로, 월 수천 건을 자동 처리
이전에는 상품 이미지 안의 텍스트까지 확인하려면 사람이 직접 봐야 했습니다. 이제는 Document Parse가 이미지에서 몇 초 이내로 텍스트를 자동 추출해주어, 검증 로직을 바로 적용할 수 있게 되었습니다. 세로로 수천 픽셀에 달하는 긴 이미지도 자동으로 적절한 크기로 분할하여 처리합니다.
이미지 한 장당 확인 시간이 분 단위에서 초 단위로 줄었습니다. 월 수천 건의 상품 정보를 수작업 없이 자동으로 확인할 수 있게 되었고, 일관된 기준으로 빠르게 처리하면서도 정확성을 유지할 수 있게 되었습니다. 나라별로 다른 신분증 양식이나 복잡한 이미지도 모두 동일한 기준으로 처리하므로, 서류 종류가 다양해져도 처리 속도는 오히려 향상됩니다.
결과적으로 더 많은 파트너 입점과 상품 운영을 안정적으로 지원할 수 있는 기반이 되었습니다.
"업스테이지 Document Parse는 다양한 이미지 형태에서도 텍스트를 정확하게 추출해냈습니다. 풍경 사진 위에 프로모션 문구가 겹쳐진 이미지가 많은데, 배경에 묻힌 텍스트도 정확하게 추출해주었고요. 한국어와 영어가 섞인 이미지에서 유사한 글자가 혼동되기 쉬운 케이스에도 안정적으로 인식해주었습니다." — 신지민, 서비스정책팀, 마이리얼트립
우리 업무에도 적용할 수 있을까?
다양한 양식의 문서나 이미지를 다루고, 특히 다국어 문서를 처리해야 한다면 Upstage Document AI가 워크플로우 전체의 효율을 높여줄 수 있습니다. Studio에서 마이리얼트립과 동일한 문서 추출 파이프라인을 코드 없이 직접 테스트해보세요.



