KR102631704B1 - 인공지능과 ocr을 이용한 계약서의 텍스트 추출 시스템을 이용한 텍스트 추출방법 - Google Patents

인공지능과 ocr을 이용한 계약서의 텍스트 추출 시스템을 이용한 텍스트 추출방법 Download PDF

Info

Publication number
KR102631704B1
KR102631704B1 KR1020230056140A KR20230056140A KR102631704B1 KR 102631704 B1 KR102631704 B1 KR 102631704B1 KR 1020230056140 A KR1020230056140 A KR 1020230056140A KR 20230056140 A KR20230056140 A KR 20230056140A KR 102631704 B1 KR102631704 B1 KR 102631704B1
Authority
KR
South Korea
Prior art keywords
contract
clause
metadata
text
extracted
Prior art date
Application number
KR1020230056140A
Other languages
English (en)
Inventor
김윤기
Original Assignee
주식회사 비에이치에스엔
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 비에이치에스엔 filed Critical 주식회사 비에이치에스엔
Priority to KR1020230056140A priority Critical patent/KR102631704B1/ko
Application granted granted Critical
Publication of KR102631704B1 publication Critical patent/KR102631704B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Library & Information Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 인공지능과 OCR을 이용한 계약서의 텍스트 추출 시스템을 이용한 텍스트 추출방법에 관한 것이다.
이러한 본 발명의 실시예에 따르면, 사용자로부터 계약서를 업로드 받는 업로드 단계. 상기 계약서를 광학 문자 인식(OCR, Optical Character Recognition)을 통해 상기 계약서에서 문자를 추출하는 문자 추출단계. 상기 문자가 추출된 계약서를 계약서 조항 분류 인공지능(Clause Classification)에 입력하여 상기 계약서에서 각각의 조항별 문단을 식별하는 식별단계. 상기 식별된 조항별 문단을 기계독해(MRC) 알고리즘을 통해 중요 메타데이터의 시작위치와 종료위치를 획득하여 메타데이터를 추출하는 단계. 상기 추출된 조항과 상기 메타데이터를 매칭하여 표시하는 단계 및 상기 사용자로부터 상기 추출된 조항과 메타데이터의 내용의 검토가 완료되면, 상기 검토가 완료된 계약서를 데이터베이스에 저장하는 단계를 포함한다.

Description

인공지능과 OCR을 이용한 계약서의 텍스트 추출 시스템을 이용한 텍스트 추출방법{METHOD FOR CONTRACT TEXT EXTRACTION USING ARTIFICIAL INTELLIGENCE AND OCR TEXT EXTRACTION SYSTEM}
본 발명은 인공지능을 이용하여 계약서 내부에 존재하는 복수의 항목을 자동으로 추출하여 제공하는 인공지능과 OCR을 이용한 계약서의 텍스트 추출 시스템을 이용한 텍스트 추출방법에 관한 것이다.
일반적으로 법률 문서는 법령, 판례, 해석례, 약관, 계약서 [0002] 등 다양한 형태로 존재한다. 특히, 계약서는 일반인들이 쉽게 접할 수 있는 법률 문서로서, 그 종류는 부동산계약서, 투자계약서, 매매계약서, 비밀유지계약서, 근로계약서 등 주제 및 유형별로 세분화 되어있다. 이러한 계약서는 일상생활 속에서 맺어지는 여러 관계에서 작성되는 일반적인 문서이지만 법적 효력이 담겨 있다.
즉, 계약서는 법적인 요소와 항목이 포함되어 있으며 추후 계약과 관련된 문제가 발생했을 때 참고할 수 있는 법적 근거로 활용된다.
따라서 그 내용을 작성할 때는 정해진 가이드라인을 따라야 하고, 필수적인 내용을 반드시 포함하여야 한다. 그러나 일반적으로 계약을 맺는 당사자들은 상식적 수준의 법률 지식 밖에 가지고 있지 못하기 때문에, 계약서 작성 과정에서 필수적인 내용이 누락되는 경우도 있고, 일방적으로 한 쪽에게 불리한 항목을 작성하게 되기도한다. 그렇기 때문에 많은 경우 법률인의 자문 및 검토를 받거나 주변의 도움을 받게 된다.
법률 문서의 가이드라인이 존재한다고 할지라도 그것에 정확하게 맞추는 것은 불가능하며, 법률 전문가라도 다양한 계약을 위해 쓰는 모든 항목을 커버하지는 못한다.
특히, 잘못된 항목을 잡아내는 것은 가능하다고 하더라도, 누락된 항목을 파악하는 것은 전문가 조차도 쉽지 않은 일이다. 즉, 계약서 검토 시 계약서의 중요한 내용을 정리하고 잠재적 법적 문제를 인지하여 수정해나가는 과정이 많은 시간과 인력이 소요된다.
따라서, 자연어처리, CNN(Convolutional Neural Net), LSTM(Long Short Term Memory), Transformer 등의 인공지능 기술을 이용하여 법령 조항, 약관, 계약서와 같은 구조를 갖는 법률 문서를 자동으로 의미를 독해하여 법률적 위험성 등을 분석하고, 그 해설을 제공하는 법률 문서 분석 시스템 및 방법이 요구된다.
본 발명의 배경이 되는 기술은 대한민국 특허등록 제10-2289935호(2021.08.17.공고)에 개시되어 있다.
본 발명은 상기 문제점을 해결하기 위해 도출된 것으로, 복수의 형태를 가지는 계약서를 인공지능을 통해 분석 및 추출하고, 사용자에게 해당 내용을 정렬하여 제공하기 위한 인공지능과 OCR을 이용한 계약서의 텍스트 추출 시스템을 이용한 텍스트 추출방법의 제공을 목적으로한다.
또한, 본 발명은 광학문자판별 방법과 인공지능으로 추출된 계약서 조항 문구 및 메타데이터를 통해 데이터베이스에서 필터기능으로 사용자가 계약서를 검색하고 분류하도록 하는 인공지능 OCR을 이용한 계약서의 텍스트 추출 방법의 제공을 목적으로 한다.
본 발명의 실시예에 따르면, 사용자로부터 계약서를 업로드 받는 업로드 단계, 상기 계약서를 광학 문자 인식(OCR, Optical Character Recognition)을 통해 상기 계약서에서 문자를 추출하는 문자 추출단계, 상기 문자가 추출된 계약서를 계약서 조항 분류 인공지능(Clause Classification)에 입력하여 상기 계약서에서 각각의 조항별 문단을 식별하는 식별단계, 상기 식별된 조항별 문단을 기계독해(MRC) 알고리즘을 통해 중요 메타데이터의 시작위치와 종료위치를 획득하여 메타데이터를 추출하는 단계, 상기 추출된 조항과 상기 메타데이터를 매칭하여 표시하는 단계 및 상기 사용자로부터 상기 추출된 조항과 메타데이터의 내용의 검토가 완료되면, 상기 검토가 완료된 계약서를 데이터베이스에 저장하는 단계를 포함한다.
상기 표시하는 단계는 상기 조항으로부터 계약주요항목을 추출하여 표시하고, 상기 계약주요항목에 따른 메타데이터를 추출하여 나타낼 수 있다.
상기 표시하는 단계는 상기 사용자가 상기 조항을 선택하는 경우, 상기 선택한 조항의 단락 전체를 하이라이팅 표시를 제공할 수 있다.
상기 표시하는 단계는 상기 사용자가 메타데이터를 선택하는 경우, 상기 메타데이터가 위치하는 부분을 하이라이팅 표시할 수 있다.
상기 조항분류 인공지능은 기 저장되어 있는 각각의 조항과 해당 조항에 대한 계약서 조항 문구를 학습하고, 상기 문자 추출된 계약서가 입력되는 경우, 상기 문자 추출된 계약서에서 상기 조항과 상기 조항 문구를 분류하여 블록표시를 하도록 제공할 수 있다.
상기 조항분류 인공지능은 상기 추출된 조항 중에서 주요조항을 분류하고, 상기 주요조항에는 라벨 정보를 함께 지정할 수 있다.
상기 계약서 조항 문구는 계약서 제목, 당사자, 체결일, 계약기간, 갱신, 계약금액, 손해배상, 경업금지, 독점권, 지배권변동, 비밀유지의무, 양도금지, 불가항력, 분쟁해결, 해지, 대금지급방법 등 주요항목 중 어느하나에 해당할 수 있다.
상기 기계독해(MRC) 알고리즘은 기 저장되어 있는 메타데이터를 학습하고, 상기 조항분류가 완료된 계약서에서 상기 메타데이터의 시작 위치와 종료 위치를 추출하여 블록표시를 하도록 제공할 수 있다.
상기 메타데이터는 계약서 제목, 당사자, 체결일, 계약시작일, 계약종료일, 계약기간, 통지기간, 갱신기간, 자동갱신여부, 지급금액, 부가세, 지체상금율, 손해배상금액, 준거법, 관할, 분쟁해결방법, 기타금액, 기타기간 또는 기타 날짜 등 주요항목 중에서 어느하나에 해당할 수 있다.
데이터베이스에 저장하는 단계이후에 사용자 단말기에 상기 저장된 계약서로부터 계약서 파일명, 주요계약내용, 계약유형, 계약상대방 또는 계약시작일 중에서 어느하나를 표시하도록 제공하는 제공단계를 더 포함할 수 있다.
상기 방법 및 특징을 갖는 본 발명에 따르면, 서로다른 인공지능 알고리즘을 복수회 사용함으로써, 계약서 상에서의 정확한 내용을 추출하여 사용자에게 제공할 수 있다.
또한, 계약서의 형식에 구애받지 않고 계약서 상에서의 내용을 추출하여 사용자에게 제공할 수 있다.
도 1은 본 발명의 실시예에 따른 텍스트 추출 시스템의 구성을 설명하기 위한도면이다.
도 2는 본 발명의 실시예에 따른 텍스트 추출 시스템을 이용한 텍스트 추출방법을 설명하기 위한 순서도이다.
도 3 및 도 4는 본 발명의 실시예에 따른 광학문자인식을 진행한 계약서를 설명하기 위한도면이다.
도 5 내지 도 7은 본 발명의 실시예에 따른 S5단계를 설명하기 위한 도면이다.
도 8은 본 발명의 실시예에 따른 저장된 계약서를 사용자에게 제공하기 위한 도면이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 구현예(態樣, aspect)(또는 실시예)들을 본문에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 명세서에서 사용한 용어는 단지 특정한 구현예(태양, 態樣, aspect)(또는 실시예)를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, ~포함하다~ 또는 ~이루어진다~ 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
본 명세서에서 기재한 ~제1~, ~제2~ 등은 서로 다른 구성 요소들임을 구분하기 위해서 지칭할 것일 뿐, 제조된 순서에 구애받지 않는 것이며, 발명의 상세한 설명과 청구범위에서 그 명칭이 일치하지 않을 수 있다.
설명에 앞서, 본 명세서에서 설명의 편의를 위하여 도 2에 도시된 바와같이 손에 대하여 참조하여 설명하도록 한다.
도 1은 본 발명의 실시예에 따른 텍스트 추출 시스템의 구성을 설명하기 위한도면이고, 도 2는 본 발명의 실시예에 따른 텍스트 추출 시스템을 이용한 텍스트 추출방법을 설명하기 위한 순서도이며, 도 3 및 도 4는 본 발명의 실시예에 따른 광학문자인식을 진행한 계약서를 설명하기 위한도면이고, 도 5 내지 도 7은 본 발명의 실시예에 따른 S5단계를 설명하기 위한 도면이며, 도 8은 본 발명의 실시예에 따른 저장된 계약서를 사용자에게 제공하기 위한 도면이다.
도 1에서 나타낸 것처럼, 본 발명의 실시예에 따른 텍스트 추출시스템(100)은 업로드부(110), 문자추출부(120), 문단식별부(130), 메타데이터 추출부(140), 디스플레이부(150) 및 저장부(160)를 포함하고, 텍스트 추출시스템(100)은 복수의 사용자 단말기(200) 또는 관리자 단말기(300)에 유선 또는 무선으로 연결된다.
먼저, 업로드부(110)는 사용자 단말기(200) 또는 관리자 단말기(300)를 통해 입력된 계약서를 업로드한다. 이때, 계약서는 복수의 확장자를 가지는 파일로 형성될 수 있다. 이때, PDF이외의 다른 확장자로 제작된 파일의 경우, 업로드부(110)는 다른확장자로 제작된 파일을 PDF파일의 확장자로 변환하여 업로드한다. 또한, 계약서는
다음으로, 문자추출부(120)는 PDF파일 형식으로 획득된 계약서를 광학문자인식(OCR, Optical Character Recognition)을 통해 계약서상에서 문자를 추출한다. 이때, 광학문자인식은 텍스트 이미지를 기계가 읽을 수 있는 텍스트 포맷으로 변환하는 과정을 의미한다. 이러한 광학문자인식방법은 현재 많이 사용되고 있으므로 해당 내용에 대한 설명은 생략하기로 한다.
다음으로, 문단 식별부(130)는 문자가 추출된 계약서를 계약서 조항 분류 인공지능(DC, Document Classification)에 입력하여 계약서에서 각각의 조항별 문단을 식별한다. 이때, 조항 분류 인공지능(Clause Classification)은 기 저장되어 있는 각각의 조항과 해당 조항에 대한 계약서 조항 문구를 학습하고, 문자 추출된 계약서가 입력되는 경우, 문자 추출된 계약서에서 조항과 조항 문구를 분류하여 블록표시를 하도록 디스플레이부(150)에 제공한다. 그리고 조항분류 인공지능은 추출된 조항 중에서 주요조항을 분류하고, 주요조항에는 라벨 정보를 함께 지정하여 저장한다. 여기서, 라벨정보는 추후 필터링 검색을 제공할 수 있다.
다음으로, 메타데이터 추출부(140)는 식별된 조항별 문단을 기계독해(MRC) 알고리즘을 통해 중요 메타데이터의 시작위치와 종료위치를 획득하여 메타데이터를 추출한다. 이때, 기계독해 알고리즘은 스스로 문제를 분석하고 질문에 최적화된 답안을 찾아내는 인공지능의 한 방법으로 본원 발명에서는 조항별 문단내에 존재하는 메타데이터를 추출하기 위해 사용한다. 여기서, 메타데이터는 계약서 제목, 당사자, 체결일, 계약시작일, 계약종료일, 계약기간, 통지기간, 갱신기간, 자동갱신여부, 지급금액, 부가세, 지체상금율, 손해배상금액, 준거법, 관할, 분쟁해결방법, 기타금액, 기타기간 또는 기타 날짜 등 주요항목 중에서 어느하나에 해당할 수 있다.
다음으로, 디스플레이부(150)는 추출된 조항과 메타데이터를 매칭하여 표시한다. 이때, 디스플레이부(150)는 복수의 뷰 방법을 통해 사용자 단말기(200) 또는 관리자 단말기(300)에 제공할 수 있으며, PDF뷰, OCR뷰 또는 TXT뷰 일 수 있다. 여기서, PDF뷰는 원본 PDF상에 붉은색 박스처리를 하여 각각의 글자의 위치를 표시한 화면이고, OCR뷰는 원본 PDF에서 OCR로 추출한 결과를 제공하는 화면이고, TXT뷰는 추출된 조항과 메타데이터를 텍스트 문서로 재구성하여 제공하는 화면을 의미한다.
즉, 디스플레이부(150)는 복수의 형태를 가지는 표시방법을 이용하여 사용자 단말기(200)와 관리자 단말기(300)에 제공할 수 있다. 이렇게 복수의 형태로 사용자 또는 관리자에게 제공함으로써, 사용자 또는 관리자가 확인할 수 있도록 제공한다.
다음으로 저장부(160)는 사용자로부터 추출된 조항과 메타데이터의 내용의 검토가 완료되면, 검토가 완료된 계약서를 데이터베이스에 저장한다. 이때, 데이터베이스는 사용자로부터 획득한 복수의 계약서가 저장되어 있다. 그리고 디스플레이부(150)는 저장되어 있는 복수의 계약서를 사용자 단말기(200) 또는 관리자 단말기(300)에 제공할 수 있다.
이하에서는 도 2 내지 도 8을 이용하여 본 발명의 실시예에 따른 텍스트 추출방법에 대하여 상세하게 설명하도록한다.
먼저, 도 2에서 나타낸 것처럼, 본 발명의 실시예에 따른 텍스트 추출방법은 업로드 단계(S1), 문자추출단계(S2), 문단식별단계(S3), 메타데이터 추출단계(S4), 디스플레이단계(S5) 및 저장단계(S6)를 포함한다.
먼저, 업로드 단계(S1)는 사용자 또는 관리자로부터 각각의 사용자 단말기(200) 및 관리자 단말기(300)를 통해 계약서를 입력받는다. 이때, 입력되는 계약서의 형태는 계약서의 종류에 따라 변경될 수 있으며, 기본적으로는 표준 계약서를 기준으로 작성하여 제공할 수 있다. 사용자나 관리자는 복수의 형태로 작성된 계약서를 텍스트 추출 시스템(100)에 업로드하여 제공할 수 있다. 즉, 본 발명의 실시예에 따른 텍스트 추출 시스템(100)은 다양한 계약서에 대응할 수 있다. 이때, 사용자는 텍스트 추출 시스템(100)이 제공하는 표준 계약서의 형태로 작성하여 업로드시킬 수 있다.
다음으로, 문자추출단계(S2)는 업로드된 계약서를 광학 문자 인식(OCR, Optical Character Recognition)을 통해 계약서에서 문자를 추출한다. 이때, 광학 문자인식 방법은 구글 또는 네이버등에서 제공하는 서비스를 이용하여 계약서 상의 글자의 위치와 텍스트를 추출한다. 그러면, 디스플레이부(150)는 앞서 설명한 것과 같이 문자인식된 계약서의 글자의 위치와 텍스트를 바탕으로 문서의 형태에 맞게 구성하여 사용자 단말기(200) 또는 관리자 단말기(300)에 제공한다. 이때, 디스플레이부(150)는 도 3 및 도 4에서 나타낸 것과 같이 복수의 형태를 가지는 뷰를 제공한다. 즉, 디스플레이부(150)는 사용자 또는 관리자에게 복수의 형태를 가지는 뷰를 제공함으로써, 사용자 또는 관리자가 해당 계약서를 확인할 수 있도록 제공한다.
다음으로, 문단식별단계(S3)는 문자가 추출된 계약서를 계약서 조항 분류 인공지능(Clause Classification)에 입력하여 계약서에서 각각의 조항별 문단을 식별한다. 여기서, 조항 분류 인공지능은 기 저장되어 있는 각각의 조항과 해당 조항에 대한 계약서 조항 문구를 학습하여 제작된 인공지능으로, 문자 추출된 계약서가 입력되는 경우, 문자 추출된 계약서에서 조항과 조항 문구를 분류하여 블록표시를 제공할 수 있다. 즉, 도 3에서 나타낸 것과 같이 PDF뷰어에서 블록을 나타내어 제공할 수 있다. 여기서, 계약서 조항 문구는 계약서 제목, 당사자, 체결일, 계약기간, 갱신, 계약금액, 손해배상, 경업금지, 독점권, 지배권변동, 비밀유지의무, 양도금지, 불가항력, 분쟁해결, 해지 또는 대금지급방법등 주요항목 중 어느하나에 해당할 수 있으며, 앞서 나열한 조항문구 이외의 다른 조항문구가 존재하는 경우 해당 조항문구도 해당할 수 있다.
즉, 조항분류 인공지능은 도 4에서 나타낸 것과 같이 “17조(계약의 변경)”, “제18조(중요사항의 변경)” 또는 “제19조(명칭등 사용금지)”와 같이 계약서 조항 문구와 해당 조항 문구의 세부 내용을 추출한다. 또한, 이렇게 추출된 조항 중에서 주요조항이 존재하는 경우, 주요조항에 라벨정보를 지정하여 함께 추출한다. 여기서, 주요조항은 사용자 또는 관리자가 중요한 조항인 것으로 선택한 조항인 경우에 라벨정보를 지정한다.
이러한 조항분류 인공지능을 이용함으로써, 계약서 상에 있는 각각의 조항들의 위치와 조항의 내용의 위치를 추출할 수 있어 후술할 기계독해 알고리즘을 사용하기 위한 입력값으로 활용할 수 있다.
다음으로, 메타데이터 추출단계(S4)는 식별된 조항별 문단을 기계독해(MRC) 알고리즘을 통해 중요 메타데이터의 시작위치와 종료위치를 획득하여 메타데이터를 추출한다. 먼저, 메타데이터 추출부(140)는 앞서 조항분류 인공지능을 통해 획득한 조항들의 위치와 각각의 조항의 내용들의 위치를 기계독해 알고리즘에 입력한다. 그러면, 메타데이터 추출부(140)는 앞서 설명한 조항분류 인공지능을 통해 획득한 조항들의 위치와 각각의 조항의 내용으로부터 메타데이터를 추출한다. 여기서, 메타데이터란 계약서 제목, 당사자, 체결일, 계약시작일, 계약종료일, 계약기간, 통지기간, 갱신기간, 자동갱신여부, 지급금액, 부가세, 지체상금율, 손해배상금액, 준거법, 관할, 분쟁해결방법, 기타금액, 기타기간 또는 기타 날짜 등 주요항목 중에서 어느하나에 해당할 수 있으며, 이러한 메타데이터를 추출하기 위해 기계독해 알고리즘을 이용한다.
예를들어 기계독해 알고리즘이 ‘계약서의 제목은 무엇인가요?’라고 질문하면, 도 3에서 나타낸 것과 같은 계약서인 경우 ‘물질이전계약서’라는 답변을 획득할 수 있으며, 메타데이터 추출부(140)는 해당 답변인 ‘물질이전계약서’를 메타데이터의 계약서 제목 항목으로 설정할 수 있다. 또한, 기계독해 알고리즘이 ‘손해배강은 어떻게 진행되는것인가요?’라고 질문하면, 도 4에서 나타낸 것과 같은 계약서인 경우, 해당 내용에 대하여 답변하고, 메타데이터 추출부(140)는 답변한 메타데이터를 해당 답변에 적용할 수 있다.
이렇게 메타데이터 획득부(140)는 앞서 설명한 메타데이터에 대한 복수의 정보를 획득하기 위해 복수회 기계독해 알고리즘을 이용한다. 이렇게 복수번의 기계독해 알고리즘을 이용하는 경우, 불필요한 단어들을 제거하여 저장할 수 있다.
다음으로, 디스플레이단계(S5)는 추출된 조항과 메타데이터를 매칭하여 표시한다. 즉, 디스플레이부(150)는 도 5 내지 도 7에서 나타낸 것과 같이 메타데이터에 대한 정보를 사용자에게 제공한다.
도 6 및 도 7에서 나타낸 것처럼, 디스플레이부(150)는 인공지능을 통해 가져오기가 완료된 경우에는 녹색으로 해당 부분을 마킹하여 제공하고, 디스플레이부(150)는 인공지능을 통해 가져오기가 미완료된 경우에는 노란색으로 하이라이트를 마킹하여 사용자 단말기(200) 또는 관리자 단말기(300)에 제공한다.
이때, 노란색으로 하이라이트 표시가된 부분의 경우, 사용자 또는 관리자가 사용자 단말기(200) 또는 관리자 단말기(300)를 이용하여 해당 내용을 수정할 수 있으며, 수정이 완료되는 경우, 디스플레이부(150)는 노란색으로 하이라이트된 부분을 녹색으로 마킹하여 사용자 단말기(200) 또는 관리자 단말기(300)에 다시 제공할 수 있다.
또한, 사용자 단말기(200) 또는 관리자 단말기(300)를 통해 도 6 및 도 7에서 나타낸 것과 같은 항목인 ‘계약서 제목’, ‘당사자’, ‘비밀유지’ 또는 ‘양도금지’등을 선택하는 경우, 디스플레이부(150)는 계약서 상에 해당내용이 위치한 위치를 도 5에서 나타낸 것과 같이 함께 제공할 수 있다.
다음으로, 저장단계(S6)는 사용자로부터 추출된 조항과 메타데이터의 내용의 검토가 완료되면, 검토가 완료된 계약서를 데이터베이스에 저장한다. 그러면, 도 8에서 나타낸 것과 같이 디스플레이부(150)는 데이터베이스에 저장된 복수의 계약서를 사용자 단말기(200) 및 관리자 단말기(300)에 제공할 수 있다.
이때, 사용자 또는 관리자가 각각의 사용자 단말기(200) 및 관리자 단말기(300)를 이용하여 계약서 내부의 있는 내용을 검색하는 경우, 저장부(160)는 해당 내용이 존재하는 계약서를 소팅하고, 디스플레이부(150)를 통해 사용자 단말기(200) 및 관리자 단말기(300)에 제공할 수 있다.
즉, 도 8에서 나타낸 것과 같이 ‘천재지변’이 입력된 경우, 해당 내용을 가지고 있는 계약서에대한 정보를 사용자 단말기(200) 또는 관리자 단말기(300)에 제공할 수 있다.
이렇게 서로다른 인공지능 알고리즘을 복수회 사용함으로써, 계약서 상에서의 정확한 내용을 추출하여 사용자에게 제공할 수 있으며, 계약서의 형식에 구애받지 않고 계약서 상에서의 내용을 추출하여 사용자에게 제공할 수 있다.
이상에서 첨부된 도면을 참조하여 설명한 본 발명은 통상의 기술자에 의하여 다양한 변형 및 변경이 가능하고, 청구범위를 통해 한정되지 않은 이러한 변형 및 변경은 본 발명의 권리범위에 포함되는 것으로 해석되어야 한다.
100: 텍스트 추출시스템
110: 업로드부
120: 문자추출부
130: 문단 식별부
140: 메타데이터 추출부
150: 디스플레이부
160: 저장부
200: 사용자 단말기
300: 관리자 단말기

Claims (10)

  1. 사용자로부터 계약서를 업로드 받는 업로드 단계;
    상기 계약서를 광학 문자 인식(OCR, Optical Character Recognition)을 통해 상기 계약서에서 문자를 추출하는 문자 추출단계;
    상기 문자가 추출된 계약서를 계약서 조항 분류 인공지능(Clause Classification)에 입력하여 상기 계약서에서 각각의 조항별 문단을 식별하는 식별단계;
    상기 식별된 조항별 문단을 기계독해(MRC) 알고리즘을 통해 중요 메타데이터의 시작위치와 종료위치를 획득하여 메타데이터를 추출하는 단계;
    상기 추출된 조항과 상기 메타데이터를 매칭하여 표시하는 단계; 및
    상기 사용자로부터 상기 추출된 조항과 메타데이터의 내용의 검토가 완료되면, 상기 검토가 완료된 계약서를 데이터베이스에 저장하는 단계;를 포함하고,
    상기 조항분류 인공지능은 기 저장되어 있는 각각의 조항과 해당 조항에 대한 계약서 조항 문구를 학습하고, 상기 문자 추출된 계약서가 입력되는 경우, 상기 문자 추출된 계약서에서 상기 조항과 상기 조항 문구를 분류하여 블록표시를 하도록 제공하는
    상기 조항분류 인공지능은 상기 추출된 조항 중에서 주요조항을 분류하고, 상기 주요조항에는 라벨 정보를 함께 지정하며,
    상기 계약서 조항 문구는 계약서 제목, 당사자, 체결일, 계약기간, 갱신, 계약금액, 손해배상, 경업금지, 독점권, 지배권변동, 비밀유지의무, 양도금지, 불가항력, 분쟁해결, 해지 또는 대금지급방법 등 주요항목 중 어느 하나에 해당하고,
    상기 기계독해(MRC) 알고리즘은 기 저장되어 있는 메타데이터를 학습하고, 상기 조항분류가 완료된 계약서에서 상기 메타데이터의 시작 위치와 종료 위치를 추출하여 블록표시를 하도록 제공하고,
    상기 메타데이터는 계약서 제목, 당사자, 체결일, 계약시작일, 계약종료일, 계약기간, 통지기간, 갱신기간, 자동갱신여부, 지급금액, 부가세, 지체상금율, 손해배상금액, 준거법, 관할, 분쟁해결방법, 기타금액, 기타기간 또는 기타 날짜 등 주요항목 중에서 어느 하나에 해당하며
    상기 추출된 조항과 상기 메타데이터를 매칭하여 표시하는 단계는, PDF뷰, OCR뷰 및 TXT뷰의 형태로 제공하며, 상기 조항분류 인공지능을 통해 가져오기가 미완료된 경우에는 하이라이트를 다른 색상으로 마킹하여 사용자 단말기 또는 관리자 단말기에 제공하는 것을 특징으로 하는 텍스트 추출방법.
  2. 청구항 1에 있어서,
    상기 표시하는 단계는 상기 조항으로부터 계약주요항목을 추출하여 표시하고, 상기 계약주요항목에 따른 메타데이터를 추출하여 나타내는 텍스트 추출방법.
  3. 청구항 2에 있어서,
    상기 표시하는 단계는 상기 사용자가 상기 조항을 선택하는 경우, 상기 선택한 조항의 단락 전체를 하이라이팅 표시를 제공하는 텍스트 추출방법.
  4. 청구항 2에 있어서,
    상기 표시하는 단계는 상기 사용자가 메타데이터를 선택하는 경우, 상기 메타데이터가 위치하는 부분을 하이라이팅 표시하는 텍스트 추출방법.
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 청구항 1에 있어서,
    데이터베이스에 저장하는 단계이후에
    사용자 단말기에 상기 저장된 계약서로부터 계약서 파일명, 주요계약내용, 계약유형, 계약상대방 또는 계약시작일 등 주요항목 중에서 어느하나를 표시하도록 제공하는 제공단계를 더 포함하는 텍스트 추출 방법.
KR1020230056140A 2023-04-28 2023-04-28 인공지능과 ocr을 이용한 계약서의 텍스트 추출 시스템을 이용한 텍스트 추출방법 KR102631704B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230056140A KR102631704B1 (ko) 2023-04-28 2023-04-28 인공지능과 ocr을 이용한 계약서의 텍스트 추출 시스템을 이용한 텍스트 추출방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230056140A KR102631704B1 (ko) 2023-04-28 2023-04-28 인공지능과 ocr을 이용한 계약서의 텍스트 추출 시스템을 이용한 텍스트 추출방법

Publications (1)

Publication Number Publication Date
KR102631704B1 true KR102631704B1 (ko) 2024-02-01

Family

ID=89859066

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230056140A KR102631704B1 (ko) 2023-04-28 2023-04-28 인공지능과 ocr을 이용한 계약서의 텍스트 추출 시스템을 이용한 텍스트 추출방법

Country Status (1)

Country Link
KR (1) KR102631704B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210001164A (ko) * 2019-06-27 2021-01-06 주식회사 마키나블랙 계약서 분석 장치 및 방법
JP2021504834A (ja) * 2017-03-06 2021-02-15 アップエクストリームズ、エルエルシー 交渉文書を修正及び整合するためのシステム及び方法
KR20210024365A (ko) * 2019-08-23 2021-03-05 주식회사 인텔리콘 연구소 인공지능 기반의 법률 문서 분석 시스템 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021504834A (ja) * 2017-03-06 2021-02-15 アップエクストリームズ、エルエルシー 交渉文書を修正及び整合するためのシステム及び方法
KR20210001164A (ko) * 2019-06-27 2021-01-06 주식회사 마키나블랙 계약서 분석 장치 및 방법
KR20210024365A (ko) * 2019-08-23 2021-03-05 주식회사 인텔리콘 연구소 인공지능 기반의 법률 문서 분석 시스템 및 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
한국 공개특허공보 제10-2021-0001164호(2021.01.06.) 1부.*
한국 공개특허공보 제10-2021-0024365호(2021.03.05.) 1부.*

Similar Documents

Publication Publication Date Title
KR102289935B1 (ko) 인공지능 기반의 법률 문서 분석 시스템 및 방법
KR102217040B1 (ko) 직무 추천 장치 및 직무 추천 방법
CN109241374A (zh) 一种图书信息库更新方法及图书馆书籍定位方法
Clinchant et al. Comparing machine learning approaches for table recognition in historical register books
US8949110B2 (en) System and method for extracting categories of data
Dillen et al. A benchmark dataset of herbarium specimen images with label data
CN110138992A (zh) 收据处理装置、程序的存储介质以及报告的制作方法
CN112182248A (zh) 一种电价的关键政策的统计方法
CN111860487B (zh) 基于深度神经网络的碑文标注检测识别系统
Ivanov Practice theory: a new approach for archival and recordkeeping research
Heidorn Image retrieval as linguistic and nonlinguistic visual model matching
US7716639B2 (en) Specification wizard
KR102631704B1 (ko) 인공지능과 ocr을 이용한 계약서의 텍스트 추출 시스템을 이용한 텍스트 추출방법
KR101692930B1 (ko) 의료기록지 번역 시스템 및 의료기록지 번역 방법
CN115760495A (zh) 一种实现法律案例自动标签化的方法及装置
EP3470993A1 (en) A method and system for click thru capability of electronic media
KR102511139B1 (ko) 전자기록물 공개재분류를 위한 시스템 및 그 방법
CN112784079A (zh) 图片文本的制作方法、装置、电子设备以及存储介质
Mastley Representation of Black History in Archives: A Collection-Centered Quantitative Analysis of the Billups-Garth Archive
CN112766889B (zh) 一种工作任务动态分类管理方法及装置
CN110516069A (zh) 一种基于FastText-CRF的引文元数据抽取方法
Haston et al. Herbadrop-Long-term preservation of herbarium specimen images
CN111444678B (zh) 一种基于机器阅读理解的起诉状信息抽取方法及系统
KR20180033786A (ko) 원본 문서 이미지 파일의 검색 및 제공 시스템 및 그 방법
Alam et al. Automated financial data extraction-an AI approach

Legal Events

Date Code Title Description
AMND Amendment
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant