KR20230120227A - 인공지능을 이용한 구조화된 문서 분석 시스템 및 방법 - Google Patents

인공지능을 이용한 구조화된 문서 분석 시스템 및 방법 Download PDF

Info

Publication number
KR20230120227A
KR20230120227A KR1020220016559A KR20220016559A KR20230120227A KR 20230120227 A KR20230120227 A KR 20230120227A KR 1020220016559 A KR1020220016559 A KR 1020220016559A KR 20220016559 A KR20220016559 A KR 20220016559A KR 20230120227 A KR20230120227 A KR 20230120227A
Authority
KR
South Korea
Prior art keywords
analysis
natural language
artificial intelligence
pattern
result
Prior art date
Application number
KR1020220016559A
Other languages
English (en)
Inventor
조배수
Original Assignee
빅베이스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 빅베이스 주식회사 filed Critical 빅베이스 주식회사
Priority to KR1020220016559A priority Critical patent/KR20230120227A/ko
Publication of KR20230120227A publication Critical patent/KR20230120227A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

본 발명은 인공지능을 이용한 구조화된 문서 분석 시스템 및 방법에 관한 것으로서,
더욱 상세하게는 텍스트로 입력된 법률 문서 와 계약서 등 구조화된 도메인 영역별 텍스트 문서의 의미와 구조를 분석하는 것으로,
학습데이터로 여러 종류의 인공지능 알고리즘으로 학습하여 그 데이터를 저장하고,
그 데이터의 구문 구조만 별도로 패턴화하고 학습데이터와 연결하여 의미와 구조를 패턴화하고 가장 정확한 결과를 보여주는 인공지능 알고리즘의 학습 결과와 연결하여 저장하여 데이터를 준비한다.
학습데이터가 준비되면 구조화된 문서를 입력하여 우선 문서의 구문 구조만 우선 추출하여 패턴화하고 가장 유사한 구문 구조 패턴과 매칭이 되는 인공지능 알고리즘으로 분석을 수행하여 도메인 영역별 최적의 알고리즘을 찾는 구조화된 문서 언어 분석 성능 및 정확도를 향상시키는 방법에 관한 것이다.

Description

인공지능을 이용한 구조화된 문서 분석 시스템 및 방법 {Structured document analysis system and method using artificial intelligence.}
본 발명은 인공지능을 이용한 구조화된 문서 분석 시스템 및 방법에 관한 것으로서, 더욱 상세하게는 텍스트로 입력된 법률 문서 와 계약서 등 구조화된 도메인 영역별 텍스트 문서의 의미와 구조를 분석하는 것으로, 학습데이터로 여러 종류의 인공지능 알고리즘으로 학습하여 그 데이터를 저장하고,
그 데이터의 구문 구조만 별도로 패턴화하고 학습데이터와 연결하여 의미와 구조를 패턴화하고 가장 정확한 결과를 보여주는 인공지능 알고리즘의 학습 결과와 연결하여 저장하여 데이터를 준비한다.
학습데이터가 준비되면 구조화된 문서를 입력하여 우선 문서의 구문 구조만 우선 추출하여 패턴화하고 가장 유사한 구문 구조 패턴과 매칭이 되는 인공지능 알고리즘으로 분석을 수행하여 도메인 영역별 최적의 알고리즘을 찾는 구조화된 문서 언어 분석 성능 및 정확도를 향상시키는 방법에 관한 것이다.
인공지능 법률 판례 검색 및 분석 서비스를 제공하는 기업의 경우 판례, 법조문 등의 구조화된 법률 문서를 정확하게 분석하여 목적에 맞춰 결과를 제공하는 기술로,
주요 목적의 예로 이용자의 자연어로 된 검색어를 인공지능으로 분석하여 가장 적합한 판례를 찾아주거나, 사용자가 요청한 문서의 구조를 분석하여 해당 문서에서 구조적으로 중요한 항목들을 강조하여 시각화 하거나 조건, 제한 사항 등을 추출하여 별도로 사용자가 이해하기 쉽게 표기 해주거나 별도 이용할 수 있도록 문서를 구조화하여 제공하는데 필요하다.
상기 목적을 이루는데 관련 특허 문헌으로는 “도메인 추출기반의 언어 이해 성능 향상장치및 성능 향상방법(등록번호 제 10-191391호, 이하 “선행기술 1”라 한다)“,
선행기술 1은 도메인 추출기반의 언어 이해 성능 향상장치 및 성능 향상방법에 관한 것으로서, 더욱 상세하게는 음성 인식 또는 텍스트로 입력된 검색어를 획득하여 화자의 발화 의미를 파악하여 도메인 서비스 모델을 판단하고, 판단된 도메인 서비스 모델에 최적화된 언어 모델을 통하여 자연어 분석을 수행하여 입력된 화자의 발화 의미에 내재된 사용자의 의도와 대상(개체명)에 맞는 결과물을 화자에게 제공할 수 있는 도메인 추출기반의 언어 이해 성능 향상장치 및 성능 향상방법에 관한 것으로 도메인 서비스 모델에 최적화된 언어 모델을 통하여 자연어 분석을 수행하는 것에 주안점을 두었다.
또 다른 관련특허 문헌으로는 “인공지능을 이용한 표준 문서 기반 법률 문서 분석 방법 및 이를 위한 장치(특허 공개 제 10-2022-005167, 이하 “선행기술2”라 한다.)”,
법률 문서를 표준 문서와의 인공지능을 활용한 항목(Term) 매칭을 통해 상기 표준문서의 항목별로 표시한 텀시트(Term Sheet)를 생성하는 단계; 상기 법률 문서와 상기 표준 문서에 대하여 인공지능을 활용하여 상기 항목별 유사도를 산출하는 단계; 상기 항목별 유사도를 기반으로 코멘트 데이터베이스에서 상기 법률 문서에 대한 항목별 코멘트를 생성하는 단계; 및 상기 텀시트, 항목별 유사도, 항목별 코멘트를 포함하는 상기 법률 문서의 분석 결과를 제공하는 단계를 포함하는, 인공지능을 이용한 표준 문서 기반 법률 문서 분석 방법에 관한 것으로 법률 문서의 검토를 인공지능을 활용하여 온라인상에서 구현할 수 있는 방법 및 이를 위한 장치를 제공할 수 있다.
또한, 본 발명은 표준 문서 데이터베이스와 표준 문서 기반 코멘트데이터베이스를 활용하여 법률 문서를 검토함 으로써 정확하고도 효율적으로 분석 결과를 제공할 수 있는 방법을 제공할 수 있다.
또한 “인공지능 기반의 법률 문서 분석 시스템 및 방법(특허 공개 제 10-2021-0024365, 이하 “선행기술3”라 한다.)”이 존재한다.
선행기술3은 인공지능 기반의 법률 문서 분석 시스템 및 방법을 개시한다. 본 발명은 법령 조항, 약관, 계약서와 같은 구조를 갖는 법률 문서를 인공지능 기술을 이용하여 자동으로 의미를 독해하여 법률적 위험성을 분석하고, 계약서의 누락 및 위험오류 요소를 파악하여 관련 법령과 상세한 해설을 제공할 수 있다.
선행기술3은 자연어처리, CNN(Convolutional Neural Net),LSTM (Long Short Term Memory) 등의 인공지능 기술을 이용하여 법령 조항, 약관, 계약서와 같은 구조를 갖는 법률 문서를 자동 으로 의미를 독해하여 법률적 위험성 등을 분석하고 해설을 제공하는 인공지능 기반의 법률 문서 분석 시스템및 방법을 제공한다.
이러한 구조화된 문서 분석을 위해 다양한 인공지능 기술들을 이용하고 있으나 도메인 영역별로 그 정확도가 천차만별이기 때문에 구조화된 문서에 있어 도메인 영역별로 적합한 인공지능 기술과 알고리즘을 사용해야 할 필요성이 있다.
특허문헌 0001 (등록번호 제 10-191391호) 특허문헌 0002 (특허 공개 제 10-2022-005167) 특허문헌 0003 (특허 공개 제 10-2021-0024365)
구조화된 문서 인식에 있어 도메인 영역별로 최적의 정확도가 나오는 인공지능 기술과 알고리즘을 사용해야 할 필요성이 있다.
이를 위해서는 인공지능 종류와 도메인 영역별 최적 정확도로 매칭 시켜주는 문제와 서로 다른 인공지능 기술을 도메인 영역별로 공통의 분류 체계로 분류되어야 분류된 결과 값을 이용하여 자동화된 인공지능 분석이 가능하다.
그러나 서로 다른 인공지능 학습 모델과 알고리즘에 따라 사용되는 데이터 형태 구조가 서로 달라 공통 분류 체계로 기호화, 수치화가 어려워 인공지능 학습 모델 종류별로 별도로 이용되어왔다.
이런 과제를 해결하기위해 서로 다른 자연어 인식 인공지능 알고리즘 결과 값을 공통의 분류 체계로 기호화, 수치화 하는 방법이 필요하다.
상기 공통 분류 체계로 기호화, 수치화를 통해 분류가 되어야 동일한 기준으로 분류가 되어야 알고리즘과 도메인 영역별 정확도 기준으로 구분이 가능하다.
이러한 기준을 통해 도메인 영역별 최적의 인공지능 알고리즘으로 분석을 수행하여 구조화된 문서 언어 분석 성능 및 정확도를 향상시키고자 한다.
상기 본발명이 해결하고자 하는 과제를 달성하기 위하여. 본 발명의 일 실시 예는 구조화된 문서 분석 시스템으로서, 예를 들어 설명하면 다음과 같다.
인공지능 기술을 이용한 구조화된 문서 분석 시스템 이하 분석 시스템이라 한다.
분석 시스템에서 학습 결과인 자연어 분석모델과 매칭된 구문분석패턴 을 준비하는 과정 및 준비된 모델을 이용하여 인공지능 종류와 도메인 영역별 최적 정확도로 매칭 시켜주는 과정에 있어서,
분석시스템에 분석 데이터가 입력되면, 전처리기를 통해 불용어 처리, 뛰어쓰기 처리 등 분석에 불필요 하거나 분석결과를 오염시키는 데이터를 수정 하며,
전 처리된 문서 데이터를 형태소 분석기를 이용하여 형태소로 분해한다.
형태소로 변환된 데이터를 다양한 인공지능 자연어 분석을 통해 학습하며 인공지능 자연어 분석 모델 종류별로 색인화하고 그 결과를 DB에 저장한다.
또한 형태소 분석기를 이용하여 형태소로 변환된 데이터를 구문 분석기로 분석한 후,
그 결과 값을 패턴 생성기로 분석하여 구문 구조와 기호 정보만 추출하여 구문 분석 결과 패턴을 생성하고,
그 결과를 자연어 분석모델과 매칭하여 구문 분석 패턴을 저장하여 분석 시스템에서 학습 결과인 자연어 분석모델과 매칭된 구문분석패턴 을 준비하는 과정
분석 시스템에 분석 대상 데이터를 입력하여 전처리기를 통해 불용어 처리, 뛰어쓰기 처리 등 분석에 불필요 하거나 분석결과를 오염시키는 데이터를 수정 하며,
전 처리된 문서 데이터를 형태소 분석기를 이용하여 형태소로 분해한다. 형태소로 변환된 데이터를 구문 분석기로 분석한 후 그 결과 값을 패턴 생성기로 분석하여 구문 구조와 기호 정보만 추출하여 구문 분석 결과 패턴을 생성하고,
그 결과를 구문 분석 패턴과 매칭된 구문분석 패턴 중 가장 스코어가 높은 자연어 분석모델을 찾아서 해당 모델을 기반으로 자연어분석을 진행하여 구조화된 문서 인식에 있어 도메인 영역별로 최적의 정확도가 나오는 인공지능 기술과 알고리즘을 적용하는 방법으로 다양한 자연어 처리 분석 인공지능을 사용하여 다양한 도메인 영역별 분석시 최적 매칭 하기 위한 공통의 분류 체계 기준을 구문 구조패턴으로 하는 것을 특징으로 한다.
따라서 본 발명은 다양한 자연어 분석 인공지능의 학습 결과 값인 자연어 분석모델이 모델별로 상이한 자료 구조와 유사도 측정방법, 정확도 측정 방법 등이 서로 달라 특정 기준으로 분류하여 동시에 사용하기 어려운 점을 해결하기 위하여 학습시 입력되는 수십억건의 문장의 구문분석패턴을 기호화 하여 아무리 문장내용이 서로 다르더라도 유사한 의미를 가지는 문장 간에는 문장 구조에 큰 변동이 없는 점을이용하여 문장구조를 기호화하여 기준으로 삼아 다양한 인공지능을 서로 동시에 이용 할 수있게 해주는 것을 특징으로 한다.
본 발명은 도메인 영역별 구조화된 법률 문서 등 자연어 분석을 통한 정확도와 성능 향상을 위해서는 도메인 영역별로 최적의 인공지능 알고리즘이 있으며 현재 최적의 결과를 낸다고 하더라도 향후 특정 도메인 영역에선 더 정확한 인공지능 알고리즘이 발명 될 수 있으며 새로운 인공지능이 발명 되더라도 해당 인공지능이 다른 도메인 영역에선 또 다른 인공지능이 더 최적의 결과를 내는 경우가 있어서 이러한 문제를 해결하기 위해서는 인공지능 알고리즘이 변경되더라도 위한 공통의 분류 체계 기준이 필요하다.
따라서 다양한 자연어 처리 분석 인공지능을 사용하여 다양한 도메인 영역별 분석 시 최적 매칭 하기 위한 공통의 분류 체계 기준을 구문 구조패턴으로 하여 언제든지 앞으로 새로 개발되거나 발명될 수많은 다양한 자연어 처리 분석 인공지능을 사용하여 서로 다른 인공지능 모델과 체계를 이용하더라도 다양한 도메인 영역별 최적의 성능을 기대할 수 있다.
또한, 본 발명은 다양한 인공지능을 이용하고 다른 인공지능을 계속해서 추가하더라도 구문 구조패턴을 기반으로 기준으로 하기 때문에 입력되는 새로운 내용의 문서를 사용한다 하더라도 내용이 아닌 구문 구조만을 기준으로 하기에 과거 분석 결과를 변경할 필요가 없는 장점이 있다.
도 1은 본 발명의 일 실시 예에 따른 인공지능을 이용한 구조화된 문서 분석 시스템을 나타낸 구성도.
도 2는 도 1의 실시 예에 따른 구문 분석결과 예시도 및 패턴 시트 예시도.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시 예에 따른 바람직한 실시 예를 상세하게 설명한다.
본 명세서에서 작성되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의된다.
또한 본 명세서에서 어떤 부분이 어떤 구성요소를 "포함"한다는 표현은 다른 구성요소를 배제하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
또한, "‥부", "‥기", "‥모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어, 또는 그 둘의 결합으로 구분될 수 있다.
도 1은 본 발명의 일 실시 예에 따른 인공지능을 이용한 구조화된 문서 분석 시스템 및 방법의 구성도이고, 도 2는 1의 실시예에 따른 구문 분석 결과와 구문 분석 패턴 시트 이다.
도 1 내지 도 2에 나타낸 바와 같이, 본 발명에 따른 인공지능을 이용한 구조화된 문서 분석 시스템은 이하 분석시스템이라 하며 전처리기 (1), 형태소 분석기(2) , 구문 분석기(3) , 패턴 생성기(4), DB (7), 자연어 분석기(9)를 포함하여 구성된다.
도 1의 전처리기(1)는 도메인 영역별 문서를 분석 데이터로 입력 받아 불용어 처리, 뛰어쓰기 처리 등 분석에 불필요 하거나 분석결과를 오염시키는 데이터를 수정하여 정규화 하는 역할을 한다.
그리고 형태소 분석기(2)는 전처리기(1)를 통해 정규화된 문서를 읽어 들여 형태소 분석기를 통해 어절의 최소의 의미 단위인 형태소를 추출한다.
그리고 구문 분석기(3)는 형태소 분석을 통해 생성된 형태소의 의존 관계를 구조화 하여 제공하여 문자의 구조와 의미를 파악 할 수 있게 해준다.
그리고 패턴생성기(4)는 구문 분석기(3)을 통해 구문분석 결과가 입력이 되면 입력된 구문 분석 결과에서 구문 구조와 기호 정보만 추출하여 구문 분석 결과 패턴을 생성하여,
구분 분석 패턴과 다수의 인공지능으로 자연어 분석을 통해 생성된 다수의 자연어분석 모델을 연결하여 자연어 분석모델 id 값과 자연어 모델 코드 값, 스코어 값 등을 이용하여 패턴 시트(10)를 작성한다.
이때 패턴 시트(10)의 code 값은 인공지능 자연어 분석 모델에 따라 바이너리, 숫자, 문자 등 해당 자연어 분석 모델에 따라 다른 값이 사용될 수 있다.
또한 패턴 시트(10)의 모델 타입 값은 도시된 것과 같이 숫자로 표기 될수 도 있으며 문자 또는 바이너리 등 목적에 맞춰 다양한 값으로 표기 될 수 있다.
또한 패턴 시트(10)의 score 값은 매칭 점수만 도시되어 있으나 매칭 점수 또는 정확도 중 어느 하나만 나타낼 수 있으며 여러 컬럼을 이용하여 다양하게 정확도나, 매칭횟수, 매칭 점수 등으로 자연어 분석 목적에 맞춰 다양하게 표기 될 수 있다.
또한 패턴 시트(10)의 parent node는 인공지능 자연어 분석 모델에 따라 다층 분석이 이루어질 경우 상층 분석 모델의 키 값을 나타낸다.
또한 패턴 시트(10)의 id 값은 패턴 시트 유일 값으로 숫자문자 등 다양한 조합으로 row 별로 유일한 값만 표기 될 수 있다.
도 1의 DB (7)는 분석 시스템에서 사용되는 모든 데이터가 저장되는 저장소로 파일, RDBMS, NoSQL, 메모리 등 종류에 상관 없이 데이터의 저장이 가능한 시스템으로서 며 본 발명에서는 파일로 저장하는 실시 예를 기본으로 한다.
자연어 분석기(9)는 다양한 도메인 영역별로 다양한 자연어 인공지능을 학습하고 학습 결과인 다양한 종류의 자연어분석모델을 만들어 DB에 저장하는 역할을 한다.
이때 자연어 분석 인공지능은 CNN, DNN, CNN+DNN, LSTM, GPT3 등 나열되거나 나열되지 않은 도는 향후 나올 다양한 인공지능의 개별 또는 조합으로 구현될 수 있다.
이때 자연어 분석기의 자연어분석모델은 다양한 인공지능별로 개별 특성에 따라 다양한 데이터 구조를 가질 수 있다.
이때 자연어 분석기(9)는 자연어 분석 인공지능 모델별로 비지도 학습, 지도학습 등 학습 방식이 다양 할 수 있다.
또한 자연어 분석기(9)는 자연어 분석 인공지능으로 학습한 다양한 학습결과 또는 테스트 학습 결과를 통해 제공된 분석 대상 문서의 도메인 영역별 정확도 값을 패턴 시트에 스코어 값으로 저장되도록 제공한다.
도 1에 도시된 바와 같이 본 발명의 분석 시스템을 이용하여 인공지능을 이용한 구조화된 문서 분석 시스템 의 분석 흐름은 우선 자연어 인공지능 학습을 통한 자연어 분석 모델과 패턴 시트를 생성하는 학습과정과 자연어 분석 과정 두가지 흐름을 예를 들어 설명하면 다음과 같다.
분석시스템의 학습과정은 전처리기(1)에 도메인 영역별 문서를 분석 데이터로 입력 받아 불용어 처리, 뛰어쓰기 처리 등 분석에 불필요 하거나 분석결과를 오염시키는 데이터를 수정하여 정규화 하는 단계
형태소 분석기(2)에 정규화된 문서를 입력하여 어절의 최소의 의미 단위인 형태소를 추출하는 단계
구문 분석기(3)에 형태소 분석을 결과를 입력하여 생성된 형태소의 의존 관계를 구조화한 구문 분석결과를 생성하는 단계
상기 형태소 분석 결과를 자연어 분석기(9)에 입력하여 종류별 자연어분석 인공지능 모델별로 학습하여 상술한 바와 같이 학습결과인 자연어 분석 모델을 DB(9)에 저장하는 자연어 분석 단계
상기 자연어 분석 단계에서 패턴 시트의 id 값을 생성하고 모델 타입 정보를 패턴 시트에 임시 저장하는 단계
상기 자연어 분석 단계에서 자연어 분석 인공지능으로 학습한 다양한 학습결과 또는 테스트 학습 결과를 통해 제공된 분석 대상 문서의 도메인 영역별 정확도 값을 패턴 시트에 스코어 값으로 임시 저장하는 단계
상기 자연어 분석 단계에서 자연어 분석 인공지능 모델에 따라 바이너리, 숫자, 문자 등 해당 자연어 분석 모델에 따라 생성된 값을 패턴 시트(10)의 code 값으로 임시 저장하는 단계
상기 자연어 분석 단계 및 자연어 분석 결과를 패턴 시트(10)에 임시 저장하는 단계 들을 포함하는 자연어 분석 단계
상기 구분 분석 결과를 패턴생성기(4)에 입력하여 구문 구조와 기호 정보만 추출하여 구문 분석 결과 패턴을 생성하는 단계
상기 결과 패턴 생성 하는 단계에서 구분 분석 패턴과 다수의 인공지능으로 자연어 분석을 통해 생성된 다수의 자연어분석 모델을 연결하여 자연어 분석모델 id 값과 자연어 모델 코드 값, 스코어 값 등을 이용하여 패턴 시트(10)를 작성하는 단계
상기 패턴 시트를 DB에 저장하는 단계로 이루어진 학습과정 흐름
도 1에 도시된 바와 같이 본 발명의 분석 시스템을 이용하여 인공지능을 이용한 구조화된 문서 분석 시스템 의 분석 흐름은 우선 자연어 인공지능 학습을 통한 자연어 분석 모델과 패턴 시트를 생성하는 학습과정과 자연어 분석 과정 두가지 흐름을 예를 들어 설명하면 다음과 같다.
분석시스템의 학습과정은 전처리기(1)에 도메인 영역별 문서를 분석 데이터로 입력 받아 불용어 처리, 뛰어쓰기 처리 등 분석에 불필요 하거나 분석결과를 오염시키는 데이터를 수정하여 정규화 하는 단계
형태소 분석기(2)에 정규화된 문서를 입력하여 어절의 최소의 의미 단위인 형태소를 추출하는 단계
구문 분석기(3)에 형태소 분석을 결과를 입력하여 생성된 형태소의 의존 관계를 구조화한 구문 분석결과를 생성하는 단계
상기 형태소 분석 결과를 자연어 분석기(9)에 입력하여 종류별 자연어분석 인공지능 모델별로 학습하여 상술한 바와 같이 학습결과인 자연어 분석 모델을 DB(9)에 저장하는 자연어 분석 단계
상기 자연어 분석 단계에서 패턴 시트의 id 값을 생성하고 모델 타입 정보를 패턴 시트에 임시 저장하는 단계
상기 자연어 분석 단계에서 자연어 분석 인공지능으로 학습한 다양한 학습결과 또는 테스트 학습 결과를 통해 제공된 분석 대상 문서의 도메인 영역별 정확도 값을 패턴 시트에 스코어 값으로 임시 저장하는 단계
상기 자연어 분석 단계에서 자연어 분석 인공지능 모델에 따라 바이너리, 숫자, 문자 등 해당 자연어 분석 모델에 따라 생성된 값을 패턴 시트(10)의 code 값으로 임시 저장하는 단계
상기 자연어 분석 단계 및 자연어 분석 결과를 패턴 시트(10)에 임시 저장하는 단계 들을 포함하는 자연어 분석 단계
상기 구분 분석 결과를 패턴생성기(4)에 입력하여 구문 구조와 기호 정보만 추출하여 구문 분석 결과 패턴을 생성하는 단계
상기 결과 패턴 생성 하는 단계에서 구분 분석 패턴과 다수의 인공지능으로 자연어 분석을 통해 생성된 다수의 자연어분석 모델을 연결하여 자연어 분석모델 id 값과 자연어 모델 코드 값, 스코어 값 등을 이용하여 패턴 시트(10)를 작성하는 단계
상기 패턴 시트(10)를 DB에 저장하는 단계로 이루어진 학습과정 흐름
분석 시스템의 분석 과정은 전처리기(1)에 도메인 영역별 문서를 분석 데이터로 입력 받아 데이터를 정규화 하는 단계
형태소 분석기(2)에 정규화된 문서를 입력하여 어절의 최소의 의미 단위인 형태소를 추출하는 단계
구문 분석기(3)에 형태소 분석을 결과를 입력하여 구문 분석결과를 생성하는 단계
상기 구분 분석 결과를 패턴생성기(4)에 입력하여 구문 구조와 기호 정보만 추출하여 구문 분석 결과 패턴을 생성하는 단계
상기 구문 분석 결과 패턴과 매칭이 되는 패턴 시트(10)를 DB(7)에서 찾는 단계
상기 DB(7)에서 찾은 패턴 시트(10)에서 찾은 리스트에서 높은 score 부터 하나씩 row를 추출 하는 단계
상기 찾은 패턴 시트(10) 의 모델 타입과 id 값으로 자연어 분석 인공지능 모델을 찾는 단계로 이루어진 도메인 영역별 최적의 인공지능 모델을 찾는 분석 시스템
상기 과정을 통해서 서로 다른 인공지능 모델과 체계를 이용하더라도 다양한 도메인 영역별 최적의 성능을 기대할 수 있다.
따라서, 법, 약관, 약정서, 계약서와 같은 구조화된 문서를 해석하여 분석하고, 문서의 각종 요소를 파악하여 관련 문서와 관련된 수치, 제한 등의 조건 정보를 시각화 할 수있다.
상기와 같이, 본 발명의 바람직한 실시 예를 참조하여 설명하였지만 해당 기술 분야의 숙련된 당업자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
또한, 본 발명의 특허청구범위에 기재된 도면번호는 설명의 명료성과 편의를 위해 기재한 것일 뿐 이에 한정되는 것은 아니다.
또한 각각의 실시예를 설명하는 내용중 도면에 도시된 선들의 모양과 형태나 크기 등은 설명을 위해 편의상 과장 과소되게 도시되어 있을 수 있으며, 상술된 용어들은 본 발명에서의 기능을 고려하여 정의된 용어 들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있으므로, 이러한 용어들에 대한 해석은 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
1: 전처리기
2: 형태소 분석기
3: 구문 분석기
4: 패턴 생성기
6: 패턴 시트
7: DB (구문분석패턴, 자연어 분석모델)
8: 분석데이터
9: 자연어 분석
10: 패턴 시트
11: 구문분석 샘플1
12: 구문분석 샘플2

Claims (4)

  1. 분석 시스템을 이용하여 다양한 도메인 영역의 문서를 입력 받아 자연어 인공지능 학습을 통한 자연어 분석 모델과 패턴 시트를 생성하는 학습하는 단계;
    분석 시스템을 이용하여 다양한 도메인 영역의 문서를 입력 받아 구문 분석 패턴을 추출하고 해당 패턴과 매칭되는 패턴 시트를 찾아 자연어 분석 모델을 찾고 이를 이용해 자연어 분석을 수행 하는 인공지능을 이용한 구조화된 문서 분석 시스템
  2. 제 1 항에 있어서
    상기 자연어 분석 모델과 패턴 시트를 생성하는 학습하는 단계는 전처리기(1)에 문서를 분석 데이터로 입력 받아 정규화 하는 단계;
    상기 정규화된 문서를 형태소 분석기(2)에 입력하여 어절의 최소의 의미 단위인 형태소를 추출하는 단계;
    형태소 분석을 결과를 구문 분석기(3)에 입력하여 생성된 형태소의 의존 관계를 구조화한 구문 분석결과를 생성하는 단계;
    상기 형태소 분석 결과를 자연어 분석기(9)에 입력하여 종류별 자연어분석 인공지능 모델별로 학습하여 상술한 바와 같이 학습결과인 자연어 분석 모델과 패턴 시트를 생성하여 DB(9)에 임시 저장하는 자연어 분석 단계;
    상기 구분 분석 결과를 패턴생성기(4)에 입력하여 구문 구조와 기호 정보만 추출하여 구문 분석 결과 패턴을 생성하는 단계;
    상기 결과 패턴 생성 하는 단계에서 구분 분석 패턴과 다수의 인공지능으로 자연어 분석을 통해 생성된 다수의 자연어분석 모델을 연결하여 자연어 분석모델 id 값과 자연어 모델 코드 값, 스코어 값 등을 이용하여 패턴 시트(10)를 작성하는 단계;
    상기 패턴 시트를 DB에 저장하는 단계로 이루어진 다양한 도메인 영역별 최적의 자연어 인공지능 모델을 찾기 위한 기준 패턴인 패턴 시트를 생성 하는 학습과정
  3. 제 1 항에 있어서
    상기 분석 시스템의 분석 과정은 전처리기(1)에 도메인 영역별 문서를 분석 데이터로 입력 받아 데이터를 정규화 하는 단계;
    형태소 분석기(2)에 정규화된 문서를 입력하여 어절의 최소의 의미 단위인 형태소를 추출하는 단계;
    구문 분석기(3)에 형태소 분석을 결과를 입력하여 구문 분석결과를 생성하는 단계;
    상기 구분 분석 결과를 패턴생성기(4)에 입력하여 구문 구조와 기호 정보만 추출하여 구문 분석 결과 패턴을 생성하는 단계;
    상기 구문 분석 결과 패턴과 매칭이 되는 패턴 시트(10)를 DB(7)에서 찾는 단계;
    상기 DB(7)에서 찾은 패턴 시트(10)에서 찾은 리스트에서 높은 score 부터 하나씩 row를 추출 하는 단계;
    상기 찾은 패턴 시트(10) 의 모델 타입과 id 값으로 자연어 분석 인공지능 모델을 찾는 단계로 이루어진 도메인 영역별 최적의 인공지능 모델을 찾는 분석 시스템;
  4. 제 3항에 있어서
    상기 구문 분석결과를 패턴 생성기(4)에서 구문 분석 결과의 구문 구조 첫글자 기호 정보를 부모 노드 순부터 하위 노드 순으로 구조적으로 추출하여 1차원 배열로 기호화 하는 것을 특징으로 하는 도메인 영역별 자연어 인공지능 모델 기준 생성 방법


KR1020220016559A 2022-02-09 2022-02-09 인공지능을 이용한 구조화된 문서 분석 시스템 및 방법 KR20230120227A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220016559A KR20230120227A (ko) 2022-02-09 2022-02-09 인공지능을 이용한 구조화된 문서 분석 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220016559A KR20230120227A (ko) 2022-02-09 2022-02-09 인공지능을 이용한 구조화된 문서 분석 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20230120227A true KR20230120227A (ko) 2023-08-17

Family

ID=87800270

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220016559A KR20230120227A (ko) 2022-02-09 2022-02-09 인공지능을 이용한 구조화된 문서 분석 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR20230120227A (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100191391B1 (ko) 1995-08-11 1999-06-15 세구치 류이치 건설 기계용 영역 제한 굴삭 제어 시스템
KR20210024365A (ko) 2019-08-23 2021-03-05 주식회사 인텔리콘 연구소 인공지능 기반의 법률 문서 분석 시스템 및 방법
KR20220005167A (ko) 2020-07-06 2022-01-13 주식회사 코메이크 인공지능을 이용한 표준 문서 기반 법률 문서 분석 방법 및 이를 위한 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100191391B1 (ko) 1995-08-11 1999-06-15 세구치 류이치 건설 기계용 영역 제한 굴삭 제어 시스템
KR20210024365A (ko) 2019-08-23 2021-03-05 주식회사 인텔리콘 연구소 인공지능 기반의 법률 문서 분석 시스템 및 방법
KR20220005167A (ko) 2020-07-06 2022-01-13 주식회사 코메이크 인공지능을 이용한 표준 문서 기반 법률 문서 분석 방법 및 이를 위한 장치

Similar Documents

Publication Publication Date Title
Toledo et al. Information extraction from historical handwritten document images with a context-aware neural model
JP7089330B2 (ja) 適応可能な処理コンポーネント
US6363174B1 (en) Method and apparatus for content identification and categorization of textual data
CN112434691A (zh) 基于智能解析识别的hs编码匹配、展示方法、系统及存储介质
Carbonell et al. Joint recognition of handwritten text and named entities with a neural end-to-end model
CN112307741B (zh) 保险行业文档智能化解析方法和装置
CN114036930A (zh) 文本纠错方法、装置、设备及计算机可读介质
CN111651994B (zh) 一种信息抽取方法、装置、电子设备和存储介质
CN114969275A (zh) 一种基于银行知识图谱的对话方法及其系统
WO2022256144A1 (en) Application-specific optical character recognition customization
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
Al-Sanabani et al. Improved an algorithm for Arabic name matching
Kawtrakul et al. A unified framework for automatic metadata extraction from electronic document
CN111859934A (zh) 一种中文语句隐喻识别系统
CN116360794A (zh) 数据库语言解析方法、装置、计算机设备及存储介质
KR20230120227A (ko) 인공지능을 이용한 구조화된 문서 분석 시스템 및 방법
CN113901219A (zh) 一种基于意图识别的数据分析方法及系统
CN113962196A (zh) 一种简历处理方法、装置、电子设备及存储介质
Yasin et al. Transformer-Based Neural Machine Translation for Post-OCR Error Correction in Cursive Text
Goonawardena et al. Automated spelling checker and grammatical error detection and correction model for sinhala language
Tanaka et al. Corpus Construction for Historical Newspapers: A Case Study on Public Meeting Corpus Construction Using OCR Error Correction
Anitei et al. Py4mer: A ctc-based mathematical expression recognition system
CN110232328A (zh) 一种征信报告解析方法、装置及计算机可读存储介质
Maulud et al. Towards a Complete Kurdish NLP Pipeline: Challenges and Opportunities
He Extracting document structure of a text with visual and textual cues

Legal Events

Date Code Title Description
E902 Notification of reason for refusal