KR20200091560A - 세관신고 자동화를 위한 문서 내 텍스트 자동 추출 시스템 및 이를 이용한 방법 - Google Patents

세관신고 자동화를 위한 문서 내 텍스트 자동 추출 시스템 및 이를 이용한 방법 Download PDF

Info

Publication number
KR20200091560A
KR20200091560A KR1020190008444A KR20190008444A KR20200091560A KR 20200091560 A KR20200091560 A KR 20200091560A KR 1020190008444 A KR1020190008444 A KR 1020190008444A KR 20190008444 A KR20190008444 A KR 20190008444A KR 20200091560 A KR20200091560 A KR 20200091560A
Authority
KR
South Korea
Prior art keywords
text
declaration
document
import
export
Prior art date
Application number
KR1020190008444A
Other languages
English (en)
Inventor
김재원
Original Assignee
이현아이티연구소(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이현아이티연구소(주) filed Critical 이현아이티연구소(주)
Priority to KR1020190008444A priority Critical patent/KR20200091560A/ko
Publication of KR20200091560A publication Critical patent/KR20200091560A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06K9/00442
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • G06Q10/0831Overseas transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 세관신고를 위한 수출 신고용 또는 수입 신고용 문서 내 텍스트를 자동 추출하기 위한 방법 및 이를 구현하기 위한 시스템에 관한 발명으로, 보다 상세하게는 상시 문서 내 기재된 텍스트의 행(Row)을 기준으로 텍스트 행렬을 생성하는 행렬 생성 단계; 상기 생성한 텍스트 행렬 내 2개 이상의 텍스트가 포함된 경우, 상기 생성된 텍스트 행렬을 개별 텍스트 단위로 분해하고, 분리된 텍스트가 조합 단어인지 별도 단어인지 구분하는 것을 결정하는 조합 판단 단계; 조합 단어는 하나의 단어로 추출하고, 별도 단어는 복수개의 단어로 분리하여 각각 별도의 단어로 추출하는 추출 단계; 및 상기 추출된 단어별로 상응하는 고유벡터의 계수로 저장 및 세관신고용 시스템 입력을 지원하는 고유벡터 값 저장 단계를 포함하는 것을 특징으로 하는 세관신고를 위한 수출 신고용 또는 수입 신고용 문서 내 텍스트를 자동 추출하기 위한 방법 및 시스템을 특징으로 한다.

Description

세관신고 자동화를 위한 문서 내 텍스트 자동 추출 시스템 및 이를 이용한 방법 {METHOD AND SYSTEM EXTRACTING TERMS WITHIN DOCUMENTION FOR AUTOMATING CUSTOMS DECLARATION PROCESS}
본 발명은 PDF 등 문서 내 텍스트를 자동 추출할 수 있는 시스템 및 이를 이용한 방법으로, 보다 구체적으로는 수출입 관련 문서 등을 불러와서, 불러온 문서를 그리드화하고, 그리드화된 문서에서 기재 항목을 추출할 수 있는 문서 내 텍스트 자동 추출 시스템 및 이를 이용한 방법에 관한 것이다.
관세법상 물품을 수출하기 위해서는 세관에 수출신고를 하고 수리를 받아야 한다. 수출신고란 세관에 수출신고수리를 요청하는 통관의 의사표시를 말하며, 수출을 하고자 하는 자는 전자문서로 작성된 신고 자료를 통관시스템에 전송하여야 한다. 또한, 외국물품을 수입을 하기 위해서는 세관에 수입신고를 하고 수리를 받아야 한다. 수입신고는 일정한 신고서를 갖추어 통관시스템에 전송하며, 승인이나 허가 등 요건확인물품인 경우에는 해당기관의 승인이나 허가를 받은 후에 세관장에게 수입신고를 하여야 한다. 이와 같이 물품을 수출하거나 수입하고자 하는 기업이나 개인은 세관에 신고를 하여야 한다.
대한민국의 관세청은 '유니패스(Uni-pass)라는 전자통관시스템을 개발하여 물품의 수출입 신고, 세금 납부, 화물 검사 등 통관 절차를 인터넷으로 자동화해서 세관을 방문하거나 서류를 작성할 필요 없이 처리할 수 있도록 제공하고 있다. 일반적으로 기업이 물품을 수입하거나 수출하고자 할 때, 인보이스(Invoice)를 작성하면, 관세사무소에서 수출입 신고서를 대행해서 작성해 주게 된다. 그런데 기업에서 제공하는 인보이스의 양식이 자유 양식으로 작성되어 수기로 일일이 전자통관시스템에 기재사항을 입력해야 하는 불편한 점이 있다. 또한, 기업의 무역량 증가와 개인의 해외 직구의 증가로 인하여, 수출입신고서을 작성해야 하는 건수도 꾸준히 증가하고 있어서 인보이스의 내용을 확인해 가며 전자통관시스템의 기재사항을 입력하는 데, 많은 시간이 필요로 한다.
따라서, 다양한 양식의 인보이스로부터 자동으로 수출입신고서의 기재사항을 추출하여 전자통관시스템이 입력이 용이하도록 하는 기술 개발이 요구되고 있으며, 이를 위한 전처리 단계로 문서 내 텍스트 자동 추출 시스템 및 이를 이용한 방법에 대한 개발이 요구되어 왔다.
대한민국 공개특허 제10-2007-0006367호 대한민국 등록특허 제10-0591474호 대한민국 공개특허 제10-2004-0054312호
본 발명이 이루고자 하는 기술적 과제는, 수출입 관련 문서 등 전자문서(PDF 또는 전자문서화된 팩스 파일 등)를 불러와서, 불러온 문서를 그리드화하고, 그리드화된 문서에서 기재 항목을 추출하는 세관신고 자동화를 위한 문서 내 텍스트 자동 추출 시스템 및 이를 이용한 방법을 제공하는 것이다.
다만, 본 발명이 이루고자 하는 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
전술한 본 발명의 목적 달성을 위해, 본 발명의 일 실시예에 따른 세관신고를 위한 수출 신고용 또는 수입 신고용 문서 내 텍스트를 자동 추출하기 위한 방법은 상시 문서 내 기재된 텍스트의 행(Row)을 기준으로 텍스트 행렬을 생성하는 행렬 생성 단계; 상기 생성한 텍스트 행렬 내 2개 이상의 텍스트가 포함된 경우, 상기 생성된 텍스트 행렬을 개별 텍스트 단위로 분해하고, 분리된 텍스트가 조합 단어인지 별도 단어인지 구분하는 것을 결정하는 조합 판단 단계; 조합 단어는 하나의 단어로 추출하고, 별도 단어는 복수개의 단어로 분리하여 각각 별도의 단어로 추출하는 추출 단계; 및 상기 추출된 단어별로 상응하는 고유벡터의 계수로 저장 및 세관신고용 시스템 입력을 지원하는 고유벡터 값 저장 단계를 포함하는 것을 특징으로 하는 세관신고를 위한 수출 신고용 또는 수입 신고용 문서 내 텍스트를 자동 추출하기 위한 방법의 형태로 서비스가 제공될 수 있다.
또한 상기 행렬 생성 단계는, 사용자 디스플레이 화면에 출력된(불려온) 수출입 문서(전자파일)에 기재된 텍스트들을 행(Row)을 기준으로 하나씩의 행렬을 생성하는 것을 특징으로 하는 세관신고를 위한 수출 신고용 또는 수입 신고용 문서 내 텍스트를 자동 추출하기 위한 방법이 되거나, 상기 조합 판단 단계는, 하나의 상기 행렬에 포함된 텍스트들 사이의 간격을 상호 비교 및 확인하여, 상기 텍스트들 중 일부 텍스트 상호간의 간격이 사이에 다른 텍스트들의 평균적인 간격 보다 넓은 간격이 형성된 것으로 판단되는 경우, 상기 상호간의 이격된 간격이 다른 텍스트별의 간격에 비해 큰 이웃하는 텍스트와는 별개로 분리된 별도 단어로 인식하는 반면, 평균적인 간격 또는 평균적인 간격 이내에 위치하는 상호 이웃하는 텍스트들의 경우 조합 단어로 인식하는 것을 특징으로 하는 세관신고를 위한 수출 신고용 또는 수입 신고용 문서 내 텍스트를 자동 추출하기 위한 방법으로도 제공될 수 있다.
또한 상기 조합 판단 단계는, 상기 행렬에 2개 이상의 텍스트가 포함된 경우, 상기 행렬에 포함된 각 텍스트들의 높이(및/또는 크기)에 따라 독립 단어로 인식되기 위한 최소한으로 요구되는 설정된 최소 이격간격을 확인하여, 조합 단어 또는 별도 단어 여부를 확인할 수 있는 것을 특징으로 하는 세관신고를 위한 수출 신고용 또는 수입 신고용 문서 내 텍스트를 자동 추출하기 위한 방법으로 제공되거나, 상기 추출 단계는, 각 행별로 구분 인식된 하나의 텍스트 또는 복수개의 텍스트 중 조합 단어 또는 별도 단어를 개별적으로 추출하는 것을 특징으로 하되, 추출된 텍스트가 하나의 텍스트이거나 복수개의 텍스트가 조합 단어인 경우, 하나의 용어로 인식하여 추출하는 반면, 추출된 상기 복수개의 텍스트가 별도 단어인 경우, 2개 또는 2개 이상의 분리된 단어로 각각 분리하여 추출하는 것을 특징으로 하는 세관신고를 위한 수출 신고용 또는 수입 신고용 문서 내 텍스트를 자동 추출하기 위한 방법으로 제공을 통해서도 전술한 본 발명의 목적 달성이 가능하게 된다.
또한 상기 고유벡터 값 저장 단계는, 상기 행렬별로 추출된 단어별로 고유의 벡터 값을 부여하게 되는 것을 특징으로 하는 세관신고를 위한 수출 신고용 또는 수입 신고용 문서 내 텍스트를 자동 추출하기 위한 방법이 될 수 있다.
또한 추가적으로 본 발명의 목적 달성을 위해, 수출입 관련 문서의 그리드화를 위한 경계영역 생성 조건에 대한 정보를 입력 받는 사용자입력부; 상기 수출입 관련 문서를 그리드화하여 네모 형태의 셀들을 생성하고, 그리드화된 문서의 셀 중에서 기재 항목에 해당하는 셀을 추출하고, 상기 기재 항목과 관련된 기재 내용을 포함하고 있는 셀을 추출하는 프로세싱부; 상기 그리드화된 문서에서, 기재 항목을 추출을 위한 기재 항목의 대표 명칭과 유사 명칭에 대한 정보와, 세로 방향 경계영역 설정을 위한 글자 간의 거리 기준 정보를 저장하는 데이터베이스부; 및 수출입 관련 문서로부터 읽어와 디스플레이 상에 출력하고, 그리드화된 문서 상에 기재 항목과 기재 내용을 시각적으로 구분 가능하도록 출력하는 디스플레이부;를 포함하는 것을 특징으로 하는 세관신고 자동화시스템을 이용하는 세관신고를 위한 수출 신고용 또는 수입 신고용 문서 내 텍스트를 자동 추출하기 위한 시스템에 있어서, 상기 프로세싱부는, 상시 문서 내 기재된 텍스트의 행(Row)을 기준으로 텍스트 행렬을 생성하는 행렬 생성 단계; 상기 생성한 텍스트 행렬 내 2개 이상의 텍스트가 포함된 경우, 상기 생성된 텍스트 행렬을 개별 텍스트 단위로 분해하고, 분리된 텍스트가 조합 단어인지 별도 단어인지 구분하는 것을 결정하는 조합 판단 단계; 조합 단어는 하나의 단어로 추출하고, 별도 단어는 복수개의 단어로 분리하여 각각 별도의 단어로 추출하는 추출 단계; 상기 추출된 단어별로 상응하는 고유벡터의 계수로 저장 및 세관신고용 시스템 입력을 지원하는 고유벡터 값 저장 단계를 수행하는 것을 특징으로 하는 세관신고를 위한 수출 신고용 또는 수입 신고용 문서 내 텍스트를 자동 추출하기 위한 시스템의 제공도 가능하다.
본 발명의 일 실시예에 따른 세관신고 자동화를 위한 문서 내 텍스트 자동 추출 시스템 및 이를 이용한 방법은 수출(또는 수입)하고자 하는 기업에서 제공하는 다양한 양식의 문서로부터 세관 신고에 필요한 기재 항목과 기재 내용을 자동으로 추출함으로써, 수기로 입력해야 하는 시간을 줄일 수 있다.
또한 본 발명에 의하면, 수출(또는 수입)하고자 하는 기업에서 제공하는 문서를 그리드화한 후 필요한 데이터를 추출함으로써, 필요한 기재 항목과 기재 내용을 정확하게 추출할 수 있다.
또한 본 발명에 의하면, 다양한 양식의 인보이스로부터 수출입 신고 관련 기재 항목에 해당하는 기재 내용을 일일이 찾아가며 수기로 입력하는 시간을 줄이고, 자동으로 추출하여 입력함으로써, 수출입 신고에 필요한 시간을 줄일 수 있다.
또한 본 발명에 의하면, 다양한 양식의 인보이스로부터 미리 설정된 수출입 신고 관련 기재 항목을 이용하여 기재 내용을 추출함으로써, 기재 항목과 기재 항목과 관련된 기재 내용을 추출하는 데 오류를 줄일 수 있고, 기재 내용을 추출하는 알고리즘을 간소화할 수 있다.
도 1은 본 발명의 일 실시예에 따른 세관신고 자동화 방법을 설명하기 위한 도면이다.
도 2는 본 발명과 관련된 세관신고 자동화시스템을 설명하기 위한 블럭도이다.
도 3은 본 발명의 일 실시예에 따른 문서의 그리드화에서 표 테두리를 경계영역으로 설정하는 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 문서의 그리드화에서 가로방향 경계영역으로 설정하는 방법을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 문서의 그리드화에서 세로방향 경계영역으로 설정하는 방법을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에 따른 문서의 그리드화에서 추가 경계영역으로 설정하는 방법을 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시예에 따른 그리드화된 문서에서의 기재 항목과 기재 내용을 설명하기 위한 도면이다.
도 8은 본 발명의 일 실시예에 따른 관세입력프로그램을 설명하기 위한 도면이다.
도 9는 본 발명의 일 실시예에 따른 관세입력프로그램에 입력하기 위한 인보이스의 예을 설명하기 위한 도면이다.
도 10은 본 발명의 일 실시예에 따른 관세입력프로그램과 관련된 전처리화면을 설명하기 위한 도면이다.
도 11은 본 발명의 일 실시예에 따른 관세입력프로그램과 관련된 후처리화면을 설명하기 위한 도면이다.
도 12는 본 발명의 다른 실시예에 따른 관세입력프로그램을 설명하기 위한 도면이다.
도 13은 본 발명의 다른 실시예에 따른 관세입력프로그램에 입력하기 위한 인보이스의 예을 설명하기 위한 도면이다.
도 14는 본 발명의 다른 실시예에 따른 관세입력프로그램과 관련된 전처리화면을 설명하기 위한 도면이다.
도 15는 본 발명의 다른 실시예에 따른 관세입력프로그램과 관련된 후처리화면을 설명하기 위한 도면이다.
도 16은 본 발명의 일 실시예에 따른 세관신고 자동화 시스템을 기반으로 하는 문서 내 텍스트 자동 추출 방법에 대한 과정을 설명하기 위한 도면이다.
이하에서는 첨부한 도면을 참조하여 본 발명을 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 따라서 여기에서 설명하는 실시예로 한정되는 것은 아니다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결(접속, 접촉, 결합)"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 부재를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 구비할 수 있다는 것을 의미한다.
본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
본 발명에 따른 세관신고 자동화를 위한 문서 내 텍스트 자동 추출 시스템 및 이를 이용한 방법에 대한 설명을 위해,아래와 같이 본 발명을 이용하는 세관신고 자동화 방법 및 이를 기반으로 하는 시스템에 대한 설명을 하기로 한다.
도 1은 본 발명의 일 실시예에 따른 세관신고 자동화 방법을 설명하기 위한 도면이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 세관신고 자동화 방법은 수출입 관련 문서를 불러오는 단계(S11); 불러온 문서를 그리드(Grid)화하는 단계(S12); 그리드화된 문서에서 기재 항목을 추출하는 단계(S13); 그리드화된 문서에서 기재 내용을 추출하는 단계(S14); 관세 신고서에 기재 내용을 입력하는 단계(S15)로 이루어질 수 있다.
S11단계는 수출입 관련 문서로부터 필요한 정보를 추출하기 위해 메모리로 읽어오는 과정일 수 있다. 물품을 수출입하고자 하는 기업에서 제공하는 수출입관련 서류를 메모리로 불러오기 위해 문서를 스캔하거나 파일을 실행프로그램을 하여 읽을 수 있다.
물품을 수출입하고자 하는 기업에서 종이 문서로 된 서류를 제공하였을 경우, 스캐너나 카메라를 이용하여 종이 문서로부터 문서의 내용을 파일 형태로 만들어 불러올 수 있다. 여기서 종이 문서의 내용을 저장하는 파일의 형태는 PDF 파일, 한글 파일, 텍스트 파일, 워드 파일, 엑셀 파일 및 PPT 파일과 같은 문서를 작성하거나 읽을 수 있는 전자 문서 파일이나 그림 파일(예를 들어, JPG, GIF 등) 중에서 선택된 하나 이상으로 구성될 수 있다.
물품을 수출입하고자 하는 기업에서 전자문서 파일이나 그림파일 등의 파일 형태로 된 서류를 제공하였을 경우, 해당 파일을 직접 불러올 수 있다.
S12단계는 불러온 수출입 관련 문서 파일을 그리드화하여 기재 항목별로 나누는 과정일 수 있다. 불러온 문서 파일을 기재 항목과 기재 내용을 하나의 셀(Cell) 단위로 나누거나 기재 항목, 기재 내용 각각을 셀 단위로 나눌 수 있다.
수출입 관련 문서 파일을 그리드화하여 셀 단위로 나누기 위하여, 문서의 내용 전체를 하나의 셀로 설정하고 경계영역 생성조건을 반영하여 개별 셀을 설정할 수 있다. 문서 내에서 표를 나타내는 선분이 있는 지 확인하여 경계영역으로 활용할 수 있다. 또한 다양한 문서 내의 행과 글자의 배치 조건을 확인하여 경계영역 설정 여부를 결정할 수 있다. 경계영역 설정을 위해, 구분선으로 활용하고, 글자 폰트와 글자 크기의 동일 여부, 글자 간 거리, 글자 행 간의 거리, 숫자의 포함 여부, 괄호의 여부 등의 조건을 확인하여 셀의 경계영역을 추가할 지를 결정할 수 있다.
경계영역에 의해 셀 단위로 나누어진 문서의 각 셀은 수출입 신고하고자 하는 기재 항목, 기재 내용, 기타 등의 셀로 셀 종류가 나뉘어질 수 있고, 셀 종류별로 구분할 수 있는 표시를 할 수 있다.
S13단계는 그리드화된 문서의 개별 셀 내의 글자와 기재 항목이 일치하는 지 판단하여 기재 항목을 추출하는 과정일 수 있다. 기재 항목은 수출입 관련 서류를 작성할 때, 개별 항목을 나타내는 명칭으로서, 관세통관 시스템에서 사용되는 명칭을 대표 명칭으로 사용할 수 있다. 기재 항목과 업체에서 제공하는 인보이스에서 사용하는 명칭이 유사하게 표기되는 경우도 많으므로, 대표 명칭과 관련된 유사 명칭을 데이터베이스화하여 DB에 저장할 수 있다.
명칭과 관련된 검색에서 유사 명칭이 검색될 경우에 동일한 기재사항으로 인식할 수 있다.
대표 명칭 유사 명칭
수출자 SHIPPER, EXPORTER, SELLER, SHIP FROM, 쉬퍼, 발신, 발신자, 발송인
구매자 BUYER, IMPORTER, SHIP TO, 바이어, 수신, 수신자, 수신인
적재항 PORT OF LOADING, 선적지점
목적국 FINAL DESTINATION, PORT OF DISCHARGE, 최종도착지
물품명 DESCRIPTION OF GOODS, FULL DESCRIPTION OF ALL GOODS, ITEM, 물품, 품명
기재 항목으로 인식된 셀의 경우, 셀 테두리 선의 색깔이나 굵기를 달리하여 표시하거나 셀 채우기 색이나 글자의 색이나 폰트, 크기를 다르게 하여 기재 항목으로 나타낼 수 있다.
S14단계는 그리드화된 문서의 개별 셀 내의 글자로부터 기재 내용에 해당하는 부분을 추출하는 과정일 수 있다. 기재 내용을 추출하기 위하여 기재 항목의 정렬 형태를 우선 확인한 후, 기재 항목과 관련된 기재 내용을 추출할 수 있다. 기재 항목 셀과 인접하고 있는 기재 항목 셀과 인접하고 있는 방향이 가로 방향인지 세로 방향인지 확인을 할 수 있다. 기재 항목과 인접한 기재 항목이 가로 방향으로 인접하고 있을 경우 기재 항목의 아래 위치한 셀에서 기재 항목에 대한 기재 내용으로 추출하여 메모리에 저장할 수 있다.
기재 항목 셀과 기재 항목에 해당하는 기재 내용 셀이 관련되어 있다는 것을 표시하기 위하여, 기재 항목으로 인식된 셀을 나타내는 표시와 다르게 하여, 각각의 관련된 기재 항목 셀과 기재 내용 셀별로 셀의 속성이나 글자의 속성 중의 하나를 동일하게 하여 표시할 수 있다. 예를 들어, 물품명의 기재 항목으로 인식된 셀은 셀의 채우기 색을 빨간색으로 하고, 하나의 기재 항목 셀과 이와 관련된 기재 내용 셀은 글자 색을 동일하여 녹색으로 표시하고, 다른 기재 항목 셀과 이와 관련된 기재 내용 셀은 글자 색을 동일하여 파란색으로 표시할 수 있다.
S15단계는 추출된 기재 항목과 관련된 기재 내용을 관세 신고서에 입력하는 과정일 수 있다. 관세청의 관세통관시스템의 수출입 등의 관세 신고 화면에 입력하기 위하여, 신고 화면에서 불러오기가 가능한 형태의 신고 파일로 기재 항목과 기재 내용을 포함하는 파일을 생성하여 불러오기 할 수 있다. 수출이나 수입을 하고자 하는 기업과 관련된 정보 중에 인보이스에 없고 신고 화면에 기입해야 하는 내용을 저장장치에 미리 저장하고 있다가, 신고 파일을 생성할 때 필요한 내용을 불러와 파일 내용에 추가할 수 있다.
도 2는 본 발명과 관련된 세관신고 자동화시스템(100)을 설명하기 위한 블럭도이다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 세관신고 자동화시스템(100)은 스캐닝부(110), 프로세싱부(120), 네트워크부(130), 데이터베이스부(140), 디스플레이부(150), 사용자입력부(160)를 포함할 수 있다.
프로세싱부(120)는 세관신고 자동화시스템(100)의 전반적인 동작을 제어한다. 예를 들어, 프로세싱부(120)는 데이터베이스부(140)에 저장된 프로그램들을 실행함으로써, 스캐닝부(110), 네트워크부(130), 데이터베이스부(140), 디스플레이부(150), 사용자입력부(160) 등을 제어할 수 있다.
스캐닝부(110)는 물품을 수출입하고자 하는 기업에서 종이 문서로 된 서류를 제공하였을 경우, 스캐너나 카메라를 이용하여 종이 문서로부터 문서의 내용을 파일 형태로 만들어 불러올 수 있다
프로세싱부(120)는 세관신고 자동화시스템(100)의 구동 또는 동작을 제어하거나, 세관신고 자동화시스템(100)에 설치된 응용 프로그램과 관련된 데이터 처리, 기능 또는 동작을 수행할 수 있다.
예를 들어, 프로세싱부(120)는 수출입 관련 문서를 불러와서 그리드화하여 관세청의 전자통관시스템에 입력하기 위한 데이터를 추출할 수 있다. 프로세싱부(120)는 그리드화된 문서로부터 전자통관시스템의 기재 항목과 관련된 기재 내용을 추출하여 데이터베이스부(140)에 저장할 수 있다. 프로세싱부(120)는 물품을 수출입하고자 하는 기업에서 제공하는 수출입관련 서류를 데이터베이스부(140)에서 불러오기 위해 문서를 스캔하거나 파일을 실행프로그램을 하여 읽을 수 있다. 프로세싱부(120)는 수출입 관련 문서 파일을 그리드화하여 셀 단위로 나누기 위하여, 문서의 내용 전체를 하나의 셀로 설정하고 경계영역 생성조건을 반영하여 개별 셀을 추가로 생성할 수 있다. 프로세싱부(120)는 문서 내에서 표를 나타내는 선분이 있는 지 확인하여 경계영역으로 활용하고, 문서 내의 행과 글자의 배치 조건을 확인하여 경계영역 설정 여부를 결정할 수 있다. 또한, 프로세싱부(120)는 경계영역 설정을 위해, 구분선으로 활용하고, 글자 폰트와 글자 크기의 동일 여부, 글자 간 거리, 글자 행 간의 거리, 숫자의 포함 여부, 괄호의 여부 등의 조건을 확인하여 셀의 경계영역을 추가할 지를 결정할 수 있다.
프로세싱부(120)는 그리드화된 문서의 개별 셀 내의 글자와 기재 항목이 일치하는 지 판단하여 기재 항목을 추출하고, 기재 항목과 관련된 기재 내용에 해당하는 부분을 추출할 수 있다. 프로세싱부(120)는 기재 내용을 추출하기 위하여 기재 항목의 정렬 형태를 우선 확인한 후, 기재 항목과 관련된 기재 내용을 추출할 수 있다
네트워크부(130)는 세관신고 자동화시스템(100)이 서버 또는 다른 기기와 데이터 등을 송신 또는 수신할 수 있는 연결을 구성해 줄 수 있다. 또한, 세관신고 자동화시스템(100)이 출력데이터를 서버 또는 다른 기기로 송신하거나 서버나 다른 기기로부터의 입력데이터를 수신할 수 있도록 한다. 예를 들어, 서버나 사용자 단말기로부터 수출입 관련 문서를 수신하여 데이터베이스부(140)에 저장할 수 있고, 전자통관시스템으로 기재 내용을 보내어 전자신고서가 작성되도록 할 수 있다.
네트워크부(130)는 관세청의 전자통관시스템에 접속하여 전자 신고 관련 화면 정보를 수신 받고, 전자 신고에 입력될 내용을 전자통관시스템으로 보내는 역할을 할 수 있다.
네트워크부(130)는 블루투스, NFC(Near Field Communication), WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), Zigbee, IrDA(infrared Data Association), WFD(Wi-Fi Direct), UWB(ultra wideband), Wireless USB(Wireless Universal Serial Bus), Ant+ 등의 근거리 네트워크나 3G, LTE, LTE-A, 5G 등의 이동 통신 네트워크를 지원할 수 있다
데이터베이스부(140)는 프로세싱부(120)의 처리 및 제어를 위한 프로그램을 저장할 수도 있고, 수출입을 하고자 하는 기업의 기업 정보와 수출입 관련 문서를 저장할 수 있다.
데이터베이스부(140)는 수출입 관련 문서를 그리드화하기 위한 경계영역 생성 조건을 가지고 있을 수 있다. 또한 그리드화된 문서에서 기재 항목을 추출할 때 필요한 기재 항목의 대표 명칭과 유사 명칭도 가지고 있을 수 있다. 데이터베이스부(140)는 글자 간의 거리를 3개의 범위로 나타낼 수 있는 조건을 저장하고 있을 수 있다.
데이터베이스부(140)는 플래시 메모리 타입, 하드디스크 타입, 멀티미디어 카드 마이크로 타입 및 카드 타입의 메모리, RAM, SRAM, ROM, EEPROM, PROM, 자기메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다. 또한, 세관신고 자동화시스템(100)은 인터넷 상에서 메모리의 저장 기능을 수행하는 웹 스토리지 또는 클라우드 서버를 운영할 수도 있다.
디스플레이부(150)는 세관신고 자동화시스템(100)에서 처리되는 정보를 표시하거나 디스플레이로 출력할 수 있다.
예를 들어, 디스플레이부(150)는 세관신고 자동화시스템(100)에서 구동되는 응용 프로그램의 실행화면 정보, 또는 이러한 실행화면 정보에 따른 UI(User Interface), GUI(Graphic User Interface) 정보를 표시할 수 있다. 디스플레이부(150)는 수출입 관련 문서를 그리드화하는 단계를 디스플레이에 표시하여 사용자가 실시간으로 그리드화되는 과정을 확인할 수 있도록 할 수 있다. 디스플레이부(150)는 그리드화된 문서에서 기재 항목과 기재 내용, 기타 사항에 해당하는 셀을 구분하기 용이하도록 셀의 속성과 글자의 속성을 다르게 하여 디스플레이에 표시할 수 있다.
한편, 디스플레이부(150)와 터치패드가 레이어 구조를 이루어 터치 스크린으로 구성되는 경우, 디스플레이부(150)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 디스플레이부(150)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기영동 디스플레이(electrophoretic display) 중에서 적어도 하나를 포함할 수 있다. 그리고 디바이스의 구현 형태에 따라 세관신고 자동화시스템(100)은 디스플레이부(150)를 2개 이상 포함할 수도 있다
음향출력부(미도시)는 통신부(230)로부터 수신되거나 데이터베이스부(140)에 저장된 오디오 데이터를 출력할 수 있다. 또한, 음향출력부(미도시)는 세관신고 자동화시스템(100)에서 수행되는 기능(예를 들어, 기재 내용 입력, 데이터 수신, 데이터 전송 등)과 관련된 음향 신호를 출력할 수 있다. 이러한 음향출력부(미도시)에는 스피커(speaker), 버저(Buzzer) 등이 포함될 수 있다.
사용자입력부(160)는 사용자로부터 정보를 입력받기 위한 것으로서, 사용자입력부(160)를 통해 정보가 입력되면, 프로세싱부(120)는 입력된 정보에 대응되도록 세관신고 자동화시스템(100)의 동작을 제어할 수 있다. 사용자입력부(160)는 사용자로부터 수출입 관련 문서의 그리드화를 위한 경계 영역 설정과 관련 정보를 입력 받을 수 있고, 그리드화된 문서에서 기재 항목을 추출할 때 필요한 기재 항목의 대표 명칭과 유사 명칭에 대한 정보를 입력받을 수 있다. 사용자입력부(160)는 그리드화된 문서에서 기재 항목을 추출할 때 필요한 글자 간의 거리를 3개의 범위로 나타낼 수 있는 조건을 사용자로부터 입력 받을 수 있다. 또한, 사용자입력부(160)는 전자통관시스템에 입력을 위한 기업 정보와 세부 신고 사항에 대한 입력을 사용자로부터 받을 수 있다.
이러한, 사용자입력부(160)는 기계식 입력수단 및 터치식 입력수단을 포함할 수 있다. 일 예로서, 터치식 입력수단은, 소프트웨어적인 처리를 통해 터치스크린에 표시되는 가상 키(virtual key), 소프트 키(soft key) 또는 비주얼 키(visual key)로 이루어지거나, 터치스크린 이외의 부분에 배치되는 터치 키(touch key)로 이루어질 수 있다. 한편, 가상키 또는 비주얼 키는, 다양한 형태를 가지면서 터치스크린 상에 표시되는 것이 가능하며, 예를 들어, 그래픽(graphic), 텍스트(text), 아이콘(icon), 비디오(video) 또는 이들의 조합으로 이루어질 수 있다.
도 3은 본 발명의 일 실시예에 따른 문서의 그리드화에서 표 테두리를 경계영역으로 설정하는 방법을 설명하기 위한 도면이다.
도3를 참조하면, 본 발명의 일 실시예에 따른 세관신고 자동화시스템(100)은 물품을 수출입하고자 하는 기업이 제공한 수출입 관련 문서 파일을 그리드화하여 셀 단위로 나누기 위하여, 문서의 내용 전체를 하나의 셀로 설정하는 테두리 선을 추가하고, 경계영역을 생성하기 위한 조건을 반영하여 수출입 관련 문서 파일을 여러 개의 셀을 형태로 그리드화할 수 있다.
문서의 내용 전체를 하나의 셀로 설정하는 테두리 선을 추가한 후, 수출입 수출입 관련 문서 파일에서 표의 테두리를 나타내는 테두리 선이 있는 지 확인하고, 테두리 선이 있으면 그리드 형태에서 각 셀을 나누기 위한 경계 영역으로 설정할 수 있다. 표를 나타내는 선과 밑줄친 선을 구분하기 위하여 4개 면이 모두 테두리 선으로 이루어진 형태이고, 테두리 선 내에 글자를 포함하는 형태만을 테두리 선으로 인식하고 경계 영역을 설정할 수 있다.
수출입 관련 문서 파일을 그리드화하여 셀 단위로 나누는 과정에서 문서의 글자가 인식될 수 있도록, 수출입 관련 문서 파일 상에서 글자가 텍스트로 인식될 수 있으면 그대로 글자를 읽어올 수 있다. 여기서 글자가 인식될 수 있다는 의미는 그림 파일이나 인쇄물 등의 문자를 컴퓨터 상에서 읽어 오기 위해서 OCR (Optical Character Reader)프로그램을 이용하여 텍스트를 추출하여 글자로 인식되게 하거나, 문서파일의 텍스트로 인식이 되는 글자를 의미할 수 있다. 수출입 관련 문서 파일 상에서 글자가 텍스트로 인식될 수 없으면, OCR프로그램을 이용하여 인식 가능한 글자로 변환하여 그리드화된 문서에 추가할 수 있다.
도 4는 본 발명의 일 실시예에 따른 문서의 그리드화에서 가로방향 경계영역으로 설정하는 방법을 설명하기 위한 도면이다.
도4를 참조하면, 세관신고 자동화시스템(100)은 수출입 관련 문서 파일이 표 형태로 나타내어져 있더라도, 표 테두리를 나타내는 선분이 없거나, 표의 하나의 셀 내에 기재 항목과 기재 내용을 모두 포함하는 경우가 있으므로 추가적이 그리드화를 진행할 수 있다. 수출입 관련 문서 파일 전체 또는 표의 테두리에 의해 나누어진 셀 영역 단위로 문자를 행 단위로 구분하는 경계영역을 추가할 수 있다. 먼저 문서의 내용 전체를 하나의 셀로 설정하는 테두리 선을 추가하고, 위 행의 글자와 아래 행의 글자의 폰트 크기와 서식 등의 글자 속성 정보를 비교하여 경계영역 추가 여부를 결정할 수 있다. 행 단위로 경계 영역을 추가할 때 아래 행의 글자가 위 행의 글자와 동일한 폰트 크기와 서식을 가지고 있고 일정 거리 이내에 있을 경우, 경계영역을 추가하지 않을 수 있다.
동일한 글자 속성 정보를 가지고 있는 문자를 포함하고 있는 행을 검출하여, 동일한 글자 속성 정보를 가지고 있는 문자를 가지고 있는 행이 두 개 이상일 경우, 동일 폰트의 문자를 가지고 있는 행과 바로 위의 행을 셀의 가로 방향에 대한 경계영역으로 설정할 수 있다. 동일 글자 속성 정보를 가지고 있는 문자를 포함하고 있는 행과 바로 위의 행 사이에 셀의 가로 방향에 대한 경계영역이 이미 설정되어 있으면 경계영역을 추가하지 않을 수 있다. 각 행들이 동일한 글자 속성 정보를 가지고 있는 문자를 포함하고 있는 지 판단하기 위하여, 각 행의 최초 글자의 폰트를 비교하여 판단할 수 있다. 또한, 동일한 글자 속성 정보를 가지고 있는 문자를 포함하고 있는 행이 두 개 이상일 경우, 동일 폰트의 문자를 가지고 있는 행과 바로 아래의 행을 셀의 가로 방향에 대한 경계영역으로 설정할 수 있다.
동일한 글자 속성 정보를 가지고 있는 문자를 포함하고 있는 행들의 첫번째 문자 또는 두번째 문자가 숫자로 시작하는 행들의 개수가 동일한 글자 속성 정보를 가지고 있는 문자를 포함하고 있는 행의 개수의 절반 이상일 경우, 기재 항목을 포함하고 있는 행으로 판단하여, 첫번째 문자 또는 두번째 문자가 숫자로 시작하는 행들만 동일한 글자 속성 정보를 가지고 있는 문자를 포함하고 있는 행으로 판단하여 위와 아래 행과의 사이에 경계영역을 추가로 설정할 수 있다. 또한, 동일한 글자 속성 정보를 가지고 있는 문자를 포함하고 있는 행들의 첫 문자 또는 두번째 문자가 숫자로 시작하는 행들의 개수가 동일한 글자 속성 정보를 가지고 있는 문자를 포함하고 있는 행의 개수의 절반 이상일 경우, 글자 속성 정보가 다른 행이더라도 첫번째 문자 또는 두번째 문자가 숫자로 시작하는 행에 대해 위와 아래 행과의 사이에 경계영역을 추가로 설정할 수 있다. 동일 글자 속성 정보를 가지고 있는 문자를 포함하고 있는 행과 바로 아래 행이 동일 폰트이면서 아래 행의 첫 문자가 '('로 시작할 경우 경계영역을 추가하지 않을 수 있다. 또한, 동일 글자 속성 정보를 가지고 있는 문자를 포함하고 있는 행과 바로 아래의 행 사이에 셀의 가로 방향에 대한 경계영역이 이미 설정되어 있으면 경계영역을 추가하지 않을 수 있다.
도 5는 본 발명의 일 실시예에 따른 문서의 그리드화에서 세로방향 경계영역으로 설정하는 방법을 설명하기 위한 도면이다.
도5를 참조하면, 세관신고 자동화시스템(100)은 동일 글자 속성 정보를 가지고 있는 문자를 포함하고 있는 행을 검출한 후, 동일 글자 속성 정보를 가지고 있는 문자를 포함하고 있는 행에 대하여 글자 간의 거리를 계산할 수 있다. 글자 간의 거리를 계산하여, 여러 개의 기재 항목을 포함하고 있는 지를 판단하여 여러 개의 셀로 분리할 수 있다. 글자 간의 거리를 계산하여, 글자 간의 거리를 3개의 범위로 나눌 수 있다. 예를 들어, 글자 간의 거리가 앞 글자의 가로 크기의 25%보다 작은 경우를 가장 작은 범위의 1그룹, 글자 간의 거리가 앞 글자의 가로 크기의 25%보다 크고 50%보다 작은 경우를 중간 범위의 2그룹, 글자 간의 거리가 앞 글자의 가로 크기의 50%보다 큰 경우를 가장 큰 범위의3그룹으로 설정할 수 있다. 또한, 글자 간의 거리가 앞 글자의 가로 크기에 비해 50%미만, 50%이상 100% 미만, 100% 이상으로 구분하여 3개 그룹으로 나눌 수 있다. 글자 간의 거리를 앞 글자의 가로 크기와 비교할 때, 언어별로 글자 간의 거리를 다르게 설정할 수 있다.
글자 간의 거리가 가장 작은 범위에 속하는 경우, 붙여쓰기된 문자로 인식할 수 있다. 글자 간의 거리가 중간 범위에 속하는 경우, 동일 문장 내에서 띄어쓰기된 문자로 인식할 수 있다. 세번째로, 글자 간의 거리가 가장 큰 범위에 속하는 경우, 다른 문장이나 셀로 인식하여 앞 글자와 떨어진 뒤 글자의 바로 앞 부분을 셀의 세로 방향에 대한 경계영역으로 설정할 수 있다. 셀의 세로 방향의 경계영역을 설정할 때, 문서 전체에 대하여 설정하거나, 바로 위의 가로 경계영역과 바로 아래 가로방향의 경계영역까지만 세로 방향의 경계영역을 설정할 수 있다. 또한 글자 사이에 ';'와 ':' 등의 구분자를 포함하고 있는 경우, 구분자 다음에 세로 방향의 경계 영역을 추가할 수 있다.
도 6은 본 발명의 일 실시예에 따른 문서의 그리드화에서 추가 경계영역으로 설정하는 방법을 설명하기 위한 도면이다.
도6을 참조하면, 세관신고 자동화시스템(100)은 가로 방향을 기준으로 위 아래로 인접한 행의 셀의 개수를 비교하여 위의 행에 비해 아래 행의 셀의 개수가 적을 경우, 위 행의 셀의 가로 길이와 동일한 가로 길이를 갖고, 위 행의 셀의 좌우 세로변의 연장선을 세로변으로 갖는 셀을 추가할 수 있다. 새로 추가되는 셀에서 가장 처음으로 글자가 인식되는 행을 첫번째 행으로 설정할 수 있다. 그리고 첫번째 행 다음으로 두번째 행이 인식되면 첫번째 행의 글자와 같은 글자 속성을 가지고 있는지 확인하고, 같은 글자 속성을 가지고 있으면 다음 행을 추가로 인식하고 위의 행의 글자와 같은 글자 속성을 가지고 있는 지 확인하는 과정을 반복할 수 있다. 추가로 인식되는 행이 위의 행과 글자 속성이 다르면, 추가로 인식되는 행의 바로 위에 셀의 경계영역을 설정할 수 있다. 추가로 행이 인식되기 전에 셀의 경계영역이 인식되면, 경계영역까지를 동일한 셀로 설정할 수 있다.
도 7은 본 발명의 일 실시예에 따른 그리드화된 문서에서의 기재 항목과 기재 내용을 설명하기 위한 도면이다.
도 7을 참조하면, 수출입관련 문서 파일에 경계영역이 설정되고 셀 형태로 그리드화가 완료되면, 그리드화된 문서의 개별 셀 내의 글자와 기재 항목이 일치하는 지 판단하여 기재 항목을 추출하고, 그리드화된 문서의 개별 셀 내의 글자로부터 기재 내용에 해당하는 부분을 추출하여 데이터베이스부에 저장되고, 디스플레이부에 표시될 수 있다.
기재 항목과 기재 내용을 디스플레이 상에 표시할 때, 기재 항목을 나타내는 셀은 셀 테두리 선의 색깔이나 굵기를 달리하여 표시하거나 셀 채우기 색이나 글자의 색이나 폰트, 크기를 다르게 하여 기재 항목으로 나타낼 수 있다. 또한 기재 내용에 대해서는, 기재 항목을 포함하는 셀과의 관련성을 표시하기 위하여, 기재 항목으로 인식된 셀을 나타내는 표시와 다르게 하여, 기재 항목을 포함하는 셀과 기재 항목과 관련된 기재 내용을 포함하는 셀을 셀의 속성이나 글자의 속성 중의 하나를 동일하게 하여 표시할 수 있다.
그리고 기재 항목과 기재 내용은 아래 표 2와 같은 형태로 파일로 저장되어 전자통관 시스템에 신고서 작성 시에 불러오기나 자동 입력을 위한 데이터를 활용될 수 있다.
기재 항목 기재 내용
수출자 ABC COMPANY
구매자 XYZ CORPORATION
적재항 INCHEON, SOUTH KOREA
목적국 LOS ANGLES, U. S. A
물품명 SPORTS WEARS
도 8 내지 11은 본 발명의 일 실시예에 따른 관세입력프로그램을 이용하여 인보이스로부터 전자통관시스템에 수출입 신고를 위해 필요한 기재 항목과 기재 항목과 관련된 기재 내용을 추출하는 방법을 설명하기 위한 도면이다.
도 8과 같이, 본 발명의 일 실시예에 따른 관세입력프로그램은 수출입관련 신고를 위한 인보이스로부터 전자통관시스템에 입력을 위한 데이터를 추출할 수 있다. 관세입력프로그램의 파일 불러오기를 통해 인보이스를 불러와서, 처리과정을 거쳐 관세입력프로그램 화면 상의 'Invoice' 탭 메뉴를 통해 보여줄 수 있다. 관세입력프로그램 화면 상의 설정 메뉴를 통해 프로그램의 실행과 관련된 설정을 할 수 있고, 편집, 검색, 출력의 메뉴 등도 추가로 제공할 수 있다.
도 9와 같이 구성된 인보이스로부터 관세입력프로그램을 이용하여 전자통관시스템에 입력을 위한 기재 항목과 기재 내용을 추출할 수 있다. 인보이스는 기재 항목 중의 하나인 구매자를 'DELIVERD-TO ADDRESS'로 표기하고, 기재 항목 중의 하나인 수출자를 'BILL-TO ADDRESS'로 표기하고, 구매자와 수출자에 대한 기재 내용을 아래 셀에 포함할 수 있다. 인보이스 상에는 인보이스관련 정보인 'INVOICE INFORMATION'과 물품에 대한 내용을 포함할 수 있다. 상기 인보이스를 관세입력프로그램을 이용하여 전처리과정을 거쳐, 도 10과 같이, 그리드화된 문서를 추출할 수 있다. 그리드화된 문서는 엑셀과 같은 파일 형태로 구성될 수 있다. 인보이스 상에서 가로 방향으로 가장 많은 셀을 포함하는 행을 기준으로 하여 하위 행들의 데이터를 셀 단위로 추출할 수 있다. 인보이스 상에서 가로 방향으로 가장 많은 컬럼(Column)을 포함한 행을 기준행으로 설정하고, 기준행 아래에 위치한 행들의 셀 데이터만 기준 행의 각 컬럼이 시작하는 위치를 기준으로 하여 데이터를 추출하고, 기준행 위에 위치한 행의 데이터를 추출하지 않을 수 있다. 또한, 인보이스 상에서 가장 많은 컬럼을 포함하는 행과 동일한 컬럼 수를 포함하는 행을 제외한 나머지 행의 셀 데이터는 추출하지 않을 수 있다. 인보이스로부터 추출된 데이터는 관세입력프로그램을 통해 후처리과정을 거쳐, 도 11과 같이, 수출입 관련 신고에 필요한 데이터를 추출할 수 있다. 여기서 추출된 수출입 신고에 필요한 데이터를 전자통관시스템에 입력을 위한 데이터로 활용할 수 있다. 전자통관시스템에 입력을 위한 데이터로서, 물품의 경우, HS부호, 원산지, 환급단위, FTA적용여부, 모델, 성분, 수량, 단위, 단가, 금액, 자재코드, 순중량, 계약번호 등과 같은 기재 항목을 포함할 수 있고, 기재 항목과 관련 기재 내용을 기재 항목별로 추출할 수 있다. 이를 통해, 다양한 양식의 인보이스로부터 수출입 신고 관련 기재 항목에 해당하는 기재 내용을 일일이 찾아가며 수기로 입력하는 시간을 줄이고, 자동으로 추출하여 입력함으로써, 수출입 신고에 필요한 시간을 줄일 수 있다.
도 12 내지 15는 본 발명의 다른 실시예에 따른 관세입력프로그램을 이용하여 인보이스로부터 전자통관시스템에 수출입 신고를 위해 필요한 기재 항목과 기재 항목과 관련된 기재 내용을 추출하는 방법을 설명하기 위한 도면이다.
도 12와 같이, 본 발명의 다른 실시예에 따른 관세입력프로그램은 유니커스텀즈(Uni Customs)라는 프로그램으로 명명될 수 있고, 수출입관련 신고를 위한 인보이스로부터 전자통관시스템에 입력을 위한 데이터를 추출할 수 있다. 유니커스텀즈는 파일 불러오기를 통해 인보이스를 불러와서, 처리과정을 거쳐 관세입력프로그램 화면 상의 'Invoice' 디렉토리를 통해 보여줄 수 있다. 유니커스텀즈는 전자통관시스템에 입력을 위한 데이터를 용이하기 추출하기 위하여 업체별 또는 물품별로 기재 항목에 해당하는 목록을 저장할 수 있고, 데이터관리 메뉴를 통해 특정 업체별 또는 특정 물품별로 저장된 기재 항목에 해당하는 목록을 불러올 수 있다. 불러온 기재 항목 목록을 이용하여, 기재 항목 목록에 해당하는 내용만을 인보이스에서 추출하여 기재 내용을 추가할 수 있다. 기재 항목에 해당하는 목록의 한 예로, HS부호, 원산지, 환급단위, FTA적용여부, 모델, 성분, 수량, 단위, 단가, 금액, 자재코드, 순중량, 계약번호 등과 같은 기재 항목을 포함할 수 있다.
도 13과 같이 구성된 인보이스로부터 관세입력프로그램인 유니커스텀즈를 통해 전자통관시스템에 입력을 위한 기재 항목과 기재 내용을 추출할 수 있다. 인보이스는 기재 항목 중의 하나인 수출자를 'Ship From'으로 표기하고, 기재 항목 중의 하나인 구매자를 'Ship To'로 표기하고, 수출자와 구매자에 대한 기재 내용을 'Ship From' 셀과 'Ship To'셀 아래 셀에 각각 포함할 수 있다. 인보이스 상에는 인보이스 관련 정보와 물품에 대한 내용을 포함할 수 있다. 인보이스 관련 정보는 문서번호(Document No.), 날짜 (Date), 지불 형태(Payment Term), 운송 형태 (Delivery Term) 등의 정보를 포함할 수 있다. 인보이스 상에서 물품의 기재 항목은 셀 단위로 나누어져 있고, 기재 내용은 해당하는 기재 항목 셀의 아래 쪽에 셀 테두리 없이 기재될 수 있다. 상기 인보이스를 관세입력프로그램인 유니커스텀즈를 통해 전처리과정을 거쳐, 도 14와 같이, 행 단위로 인보이스의 내용을 추출할 수 있다. 인보이스 상에서 가로 방향으로 가장 많은 셀을 포함하는 행을 기준으로 하여 하위 행들의 데이터를 추출할 수 있다. 인보이스 상에서 가로 방향으로 가장 많은 컬럼(Column)을 포함한 행을 기준행으로 설정하고 기재 항목을 추출할 수 있다. 기준행 아래에 위치한 행별로 행 내 데이터 간의 띄어쓰기 간격의 차이를 이용하여, 추출된 기재 항목별로 기재 내용을 구분해낼 수 있다. 인보이스로부터 전처리과정을 거쳐 추출된 데이터는 관세입력프로그램인 유니커스텀즈를 통해 후처리과정을 거쳐, 도 15와 같이, 수출입 관련 신고에 필요한 데이터로 추출될 수 있다. 여기서 추출된 수출입 신고에 필요한 데이터를 전자통관시스템에 입력을 위한 데이터로 활용할 수 있다. 업체별 또는 물품별로 저장된 기재 항목 목록을 관세입력프로그램인 유니커스텀즈 상에서 미리 불러와, 인보이스 상에서 기재 항목 목록에 해당하는 내용만을 추출하여 화면 상에 출력할 수 있다. 이를 통해, 다양한 양식의 인보이스로부터 미리 설정된 수출입 신고 관련 기재 항목을 이용하여 기재 내용을 추출함으로써, 기재 항목과 기재 항목과 관련된 기재 내용을 추출하는 데 오류를 줄일 수 있고, 기재 내용을 추출하는 알고리즘을 간소화할 수 있다.
본 발명의 일 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이하에서는 도 16을 참조하여, 본 발명의 일 실시예에 따른 문서 내 텍스트 자동 추출 방법 및 이를 지원하는 시스템에 대해 설명하기로 한다.
도 16은 본 발명의 일 실시예에 따른 세관신고 자동화 시스템을 기반으로 하는 문서 내 텍스트 자동 추출 방법에 대한 과정을 설명하기 위한 도면이다.
본 발명에 따른 세관신고 자동화를 위한 문서 내 텍스트 자동 추출 방법은 전술한 도 1을 통해 설명된 단계 중 "기재 항목 추출(S13 단계)"의 일부 또는 전부로 수행될 수 있다.
이 경우 보다 구체적으로는 세관신고를 위한 수출 신고용 또는 수입 신고용 전자문서(PDF 파일이나 팩스 메일 등 정보통신기기를 통해 전달받은 전자파일 등이 될 수 있다) 내 텍스트를 자동 추출하기 위한 방법은, 문서 내의 각 단어를 좌표 축으로 하는 그리드화된 공간을 생성(도 1에서의 표시된 S12에 대응 가능)하고(필요에 따라 제외 가능), 그에 상응하는 텍스트(1개의 알파벳, 기호 등) 행렬을 생성하는 단계(행렬 생성 단계, S13-1); 상기 생성한 텍스트 행렬 내 2개 이상의 텍스트(2개 이상의 알파벳 및/또는 기호 등이 포함된 경우를 지칭)가 포함된 경우, 개별 텍스트 단위로 분해하고 분리된 상기 텍스트를 하나의 단어로 조합("조합 단어"라 한다) 또는 별개의 단어("별도 단어"라 한다)인지 구분하여 결정하는 단계(조합 판단 단계, S13-2); 상기 "조합 단어"는 하나의 단어로 추출하고, 상기 "별도 단어"로 인식된 하나 이상의 단어는 분리하여 각각 별도의 단어로 추출하는 단계(추출 단계, S13-3); 추출된 단어별로 상응하는 고유벡터의 계수로 저장 및 세관신고용 시스템 입력을 지원하는 단계(고유벡터 값 저장 단계, S13-4)를 포함할 수 있다.
본 발명에 따른 행렬 생성 단계(S13-1)는 사용자 디스플레이 화면(모니터 등)에 출력된(불려온) 수출입 문서(전자파일)에 기재된 텍스트들을 행(Row)을 기준으로 하나씩의 행렬을 생성할 수 있다. 즉 일 예로 1페이지로 된 수출입 문서(Invoice)에 같은 행(Row)에 기재된 텍스트(하나의 알파벳이나 기호가 될 수 있다)의 숫자 차이에 무관하게, 텍스트가 기재된 행(Row)의 숫자가 10개일 경우, 총 10개의 행렬이 생성되는 단계를 지칭한다. 이 때 생성된 하나의 행렬은 최소 1개 이상의 텍스트(단어 또는 한글, 영어의 알파벳 1글자 또는 1개의 기호만 포함될 수도 있다)를 포함하게 된다.
본 발명에 따른 조합 판단 단계(S13-2)는 하나의 행렬에 포함된 텍스트들 사이의 간격을 상호 비교 및 확인하여 텍스트들 사이에 평균적인 간격 보다 넓은 간격이 형성된 텍스트의 경우, 이웃하는 텍스트와는 별개로 분리된 "별도 단어"로 인식하는 반면, 평균적인 간격 또는 평균적인 간격 이내에 위치하는 상호 이웃하는 텍스트들의 경우 "조합 단어"로 인식할 수 있다. 또한 본 발명에 따른 조합 판단 단계(S13-2)는 미리 설정된 텍스트들 간의 간격 규칙에 따라 "조합 단어" 또는 "별도 단어"인지 자동적으로 판단할 수도 있으며, 이와 동시에(또는 별개로) 각 텍스트들의 높이(및/또는 텍스트 크기)에 따라 필요한 2개 이상의 분리된 단어 등으로 구성되기 위해 필요한 텍스트들의 간격을 확인하여, "조합 단어" 또는 "별도 단어" 여부를 확인할 수도 있으며, 추가적으로 전자문서 작성프로그램(마이크로소프트사의 워드나 한글과 컴퓨터사의 한글 프로그램 등)에서 통상 사용되는 1개의 단어 및/또는 2개 이상의 단어 구성시 이격되는 간격(이 경우 각 프로그램에서 사용되는 글자의 크기, 폰트, 두께 등에 따른 문장간, 단어간, 텍스트간 이격 간격 등이 반영할 수 있다)을 참조하여 "조합 단어" 또는 "별도 단어"인지 판단할 수도 있다.
본 발명에 따른 추출 단계(S13-3)는 각 행별로 구분 인식된 "조합 단어"와 "별도 단어"를 개별적으로 추출하는 단계로, "조합 단어"의 경우 하나의 용어로 인식하여 추출하는 반면, "별도 단어"의 경우, 2개 또는 2개 이상의 분리된 단어로 각각 분리하여 추출하는 단계를 지칭한다.
본 발명에 따른 고유벡터 값 저장 단계(S13-4)는 하나의 텍스트 또는 2개 이상의 텍스트들로 구성되었지만, "조합 단어"로 인식된 텍스트 및 각 "별도 단어"로 인식된 분리된 텍스트들에 대해 고유의 벡터(일 예로 하나의 문서 내 X좌표와 Y좌표 값을 설정하고, 각 텍스트별로 고유한 X좌표와 Y좌표 값을 부여할 수 있다)의 값 또는 계수를 부여하고 이를 설정된 시스템(본 발명의 "데이터베이스부(140)"가 될 수 있다)에 저장하게 된다. 이후 본 발명의 시스템(100) 호출(본 발명의 "프로세싱부(120)" 및/또는 "사용자입력부(160)"가 될 수 있다)에 따라 각 텍스트별 고유벡터 값을 시스템(100)이 인식하여, 설정된 세관신고 등을 위한 사용자 웹페이지 또는 미리 상호 연동되도록 설정된 세관신고를 위한 시스템 입력창 중 설정된 위치에 해당 값을 자동적으로 입력, 반영할 수 있게 된다.
또한 본 발명에 따른 "프로세싱부(120)"는 전술한 S13-1 내지 S13-4의 전 과정 또는 일부 과정을 수행할 수 있다.
다만, 전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 세관신고 자동화시스템
110: 스캐닝부
120: 프로세싱부
130: 네트워크부
140: 데이터베이스부
150: 디스플레이부
160: 사용자입력부

Claims (7)

  1. 세관신고를 위한 수출 신고용 또는 수입 신고용 문서 내 텍스트를 자동 추출하기 위한 방법에 있어서,
    상시 문서 내 기재된 텍스트의 행(Row)을 기준으로 텍스트 행렬을 생성하는 행렬 생성 단계;
    상기 생성한 텍스트 행렬 내 2개 이상의 텍스트가 포함된 경우, 상기 생성된 텍스트 행렬을 개별 텍스트 단위로 분해하고, 분리된 텍스트가 조합 단어인지 별도 단어인지 구분하는 것을 결정하는 조합 판단 단계;
    조합 단어는 하나의 단어로 추출하고, 별도 단어는 복수개의 단어로 분리하여 각각 별도의 단어로 추출하는 추출 단계; 및
    상기 추출된 단어별로 상응하는 고유벡터의 계수로 저장 및 세관신고용 시스템 입력을 지원하는 고유벡터 값 저장 단계를 포함하는 것을 특징으로 하는 세관신고를 위한 수출 신고용 또는 수입 신고용 문서 내 텍스트를 자동 추출하기 위한 방법.
  2. 제1항에 있어서,
    상기 행렬 생성 단계는,
    사용자 디스플레이 화면에 출력된(불려온) 수출입 문서(전자파일)에 기재된 텍스트들을 행(Row)을 기준으로 하나씩의 행렬을 생성하는 것을 특징으로 하는 세관신고를 위한 수출 신고용 또는 수입 신고용 문서 내 텍스트를 자동 추출하기 위한 방법.
  3. 제1항에 있어서,
    상기 조합 판단 단계는,
    하나의 상기 행렬에 포함된 텍스트들 사이의 간격을 상호 비교 및 확인하여, 상기 텍스트들 중 일부 텍스트 상호간의 간격이 사이에 다른 텍스트들의 평균적인 간격 보다 넓은 간격이 형성된 것으로 판단되는 경우, 상기 상호간의 이격된 간격이 다른 텍스트별의 간격에 비해 큰 이웃하는 텍스트와는 별개로 분리된 별도 단어로 인식하는 반면,
    평균적인 간격 또는 평균적인 간격 이내에 위치하는 상호 이웃하는 텍스트들의 경우 조합 단어로 인식하는 것을 특징으로 하는 세관신고를 위한 수출 신고용 또는 수입 신고용 문서 내 텍스트를 자동 추출하기 위한 방법.
  4. 제1항에 있어서,
    상기 조합 판단 단계는,
    상기 행렬에 2개 이상의 텍스트가 포함된 경우,
    상기 행렬에 포함된 각 텍스트들의 높이(및/또는 크기)에 따라 독립 단어로 인식되기 위한 최소한으로 요구되는 설정된 최소 이격간격을 확인하여,
    조합 단어 또는 별도 단어 여부를 확인할 수 있는 것을 특징으로 하는 세관신고를 위한 수출 신고용 또는 수입 신고용 문서 내 텍스트를 자동 추출하기 위한 방법.
  5. 제1항에 있어서,
    상기 추출 단계는,
    각 행별로 구분 인식된 하나의 텍스트 또는 복수개의 텍스트 중 조합 단어 또는 별도 단어를 개별적으로 추출하는 것을 특징으로 하되,
    추출된 텍스트가 하나의 텍스트이거나 복수개의 텍스트가 조합 단어인 경우, 하나의 용어로 인식하여 추출하는 반면,
    추출된 상기 복수개의 텍스트가 별도 단어인 경우, 2개 또는 2개 이상의 분리된 단어로 각각 분리하여 추출하는 것을 특징으로 하는 세관신고를 위한 수출 신고용 또는 수입 신고용 문서 내 텍스트를 자동 추출하기 위한 방법.
  6. 제1항에 있어서,
    상기 고유벡터 값 저장 단계는,
    상기 행렬별로 추출된 단어별로 고유의 벡터 값을 부여하게 되는 것을 특징으로 하는 세관신고를 위한 수출 신고용 또는 수입 신고용 문서 내 텍스트를 자동 추출하기 위한 방법.
  7. 수출입 관련 문서의 그리드화를 위한 경계영역 생성 조건에 대한 정보를 입력 받는 사용자입력부; 상기 수출입 관련 문서를 그리드화하여 네모 형태의 셀들을 생성하고, 그리드화된 문서의 셀 중에서 기재 항목에 해당하는 셀을 추출하고, 상기 기재 항목과 관련된 기재 내용을 포함하고 있는 셀을 추출하는 프로세싱부; 상기 그리드화된 문서에서, 기재 항목을 추출을 위한 기재 항목의 대표 명칭과 유사 명칭에 대한 정보와, 세로 방향 경계영역 설정을 위한 글자 간의 거리 기준 정보를 저장하는 데이터베이스부; 및 수출입 관련 문서로부터 읽어와 디스플레이 상에 출력하고, 그리드화된 문서 상에 기재 항목과 기재 내용을 시각적으로 구분 가능하도록 출력하는 디스플레이부;를 포함하는 것을 특징으로 하는 세관신고 자동화시스템을 이용하는 세관신고를 위한 수출 신고용 또는 수입 신고용 문서 내 텍스트를 자동 추출하기 위한 시스템에 있어서,
    상기 프로세싱부는,
    상시 문서 내 기재된 텍스트의 행(Row)을 기준으로 텍스트 행렬을 생성하는 행렬 생성 단계; 상기 생성한 텍스트 행렬 내 2개 이상의 텍스트가 포함된 경우, 상기 생성된 텍스트 행렬을 개별 텍스트 단위로 분해하고, 분리된 텍스트가 조합 단어인지 별도 단어인지 구분하는 것을 결정하는 조합 판단 단계; 조합 단어는 하나의 단어로 추출하고, 별도 단어는 복수개의 단어로 분리하여 각각 별도의 단어로 추출하는 추출 단계; 상기 추출된 단어별로 상응하는 고유벡터의 계수로 저장 및 세관신고용 시스템 입력을 지원하는 고유벡터 값 저장 단계를 수행하는 것을 특징으로 하는 세관신고를 위한 수출 신고용 또는 수입 신고용 문서 내 텍스트를 자동 추출하기 위한 시스템.
KR1020190008444A 2019-01-23 2019-01-23 세관신고 자동화를 위한 문서 내 텍스트 자동 추출 시스템 및 이를 이용한 방법 KR20200091560A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190008444A KR20200091560A (ko) 2019-01-23 2019-01-23 세관신고 자동화를 위한 문서 내 텍스트 자동 추출 시스템 및 이를 이용한 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190008444A KR20200091560A (ko) 2019-01-23 2019-01-23 세관신고 자동화를 위한 문서 내 텍스트 자동 추출 시스템 및 이를 이용한 방법

Publications (1)

Publication Number Publication Date
KR20200091560A true KR20200091560A (ko) 2020-07-31

Family

ID=71834930

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190008444A KR20200091560A (ko) 2019-01-23 2019-01-23 세관신고 자동화를 위한 문서 내 텍스트 자동 추출 시스템 및 이를 이용한 방법

Country Status (1)

Country Link
KR (1) KR20200091560A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113296613A (zh) * 2021-03-12 2021-08-24 阿里巴巴新加坡控股有限公司 报关信息处理方法、装置及电子设备
KR102347007B1 (ko) * 2020-12-14 2022-01-05 재단법인 부산테크노파크 관세청 신고서 관리 방법 및 관세청 신고서 관리 서버

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040054312A (ko) 2002-12-18 2004-06-25 이은주 인터넷을 이용한 수출입 통관대행 방법
KR100591474B1 (ko) 2006-04-13 2006-06-20 대한민국 관세 전자 통관 시스템, 전자 통관 방법 및 방법이실행되도록 하는 프로그램을 기록한 저장매체
KR20070006367A (ko) 2005-07-08 2007-01-11 울산대학교 산학협력단 문서 중요 단어 추출 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040054312A (ko) 2002-12-18 2004-06-25 이은주 인터넷을 이용한 수출입 통관대행 방법
KR20070006367A (ko) 2005-07-08 2007-01-11 울산대학교 산학협력단 문서 중요 단어 추출 장치 및 방법
KR100591474B1 (ko) 2006-04-13 2006-06-20 대한민국 관세 전자 통관 시스템, 전자 통관 방법 및 방법이실행되도록 하는 프로그램을 기록한 저장매체

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102347007B1 (ko) * 2020-12-14 2022-01-05 재단법인 부산테크노파크 관세청 신고서 관리 방법 및 관세청 신고서 관리 서버
CN113296613A (zh) * 2021-03-12 2021-08-24 阿里巴巴新加坡控股有限公司 报关信息处理方法、装置及电子设备

Similar Documents

Publication Publication Date Title
US11775750B2 (en) Management of building plan documents utilizing comments and a correction list
CN111753500B (zh) 版式化后的电子表单与ofd合并展现及目录生成的方法
US10783367B2 (en) System and method for data extraction and searching
US9430456B2 (en) System for entering data into a data processing system
US8792141B2 (en) Embedded form extraction definition to enable automatic workflow configuration
US9213893B2 (en) Extracting data from semi-structured electronic documents
US9256798B2 (en) Document alteration based on native text analysis and OCR
US10019535B1 (en) Template-free extraction of data from documents
US11321558B2 (en) Information processing apparatus and non-transitory computer readable medium
US20220309226A1 (en) Electronic form generation from electronic documents
US11341319B2 (en) Visual data mapping
KR20200091561A (ko) 세관신고를 위한 신고기재 오류 방지 시스템
CN109447019B (zh) 基于图像识别与数据库存储的纸质扫描文档电子化方法
US20210264556A1 (en) Automatically attaching optical character recognition data to images
US20080008391A1 (en) Method and System for Document Form Recognition
KR20200091560A (ko) 세관신고 자동화를 위한 문서 내 텍스트 자동 추출 시스템 및 이를 이용한 방법
KR20200091558A (ko) 세관신고 자동화 방법 및 시스템
JP7027757B2 (ja) 情報処理装置及び情報処理プログラム
US20230162517A1 (en) Interactive visual representation of semantically related extracted data
KR20200091559A (ko) 세관신고 자동화를 위한 문서 내 텍스트 영역 자동 그리드화 방법 및 시스템
JP7425932B1 (ja) 建設施工検査結果帳票出力システム、建設施工検査結果帳票出力方法及びプログラム
KR102555809B1 (ko) 문서 양식을 웹폼으로 변환하는 방법 및 시스템
WO2023047570A1 (ja) 情報処理装置、情報処理方法、情報処理プログラム
CN112651725B (zh) 电子发票解析方法和装置
WO2023062798A1 (ja) 情報処理システム、項目値抽出方法、モデル生成方法及びプログラム

Legal Events

Date Code Title Description
N231 Notification of change of applicant