KR20230087674A - 기계학습 기반의 문서 수정명령 처리 장치 및 방법 - Google Patents

기계학습 기반의 문서 수정명령 처리 장치 및 방법 Download PDF

Info

Publication number
KR20230087674A
KR20230087674A KR1020210175823A KR20210175823A KR20230087674A KR 20230087674 A KR20230087674 A KR 20230087674A KR 1020210175823 A KR1020210175823 A KR 1020210175823A KR 20210175823 A KR20210175823 A KR 20210175823A KR 20230087674 A KR20230087674 A KR 20230087674A
Authority
KR
South Korea
Prior art keywords
sentence
type
classification
word
classified
Prior art date
Application number
KR1020210175823A
Other languages
English (en)
Other versions
KR102666182B1 (ko
Inventor
양승호
손영두
최치현
신석원
Original Assignee
동국대학교 산학협력단
주식회사 인사이저
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 동국대학교 산학협력단, 주식회사 인사이저 filed Critical 동국대학교 산학협력단
Priority to KR1020210175823A priority Critical patent/KR102666182B1/ko
Priority claimed from KR1020210175823A external-priority patent/KR102666182B1/ko
Publication of KR20230087674A publication Critical patent/KR20230087674A/ko
Application granted granted Critical
Publication of KR102666182B1 publication Critical patent/KR102666182B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 기계학습 기반의 문서 수정명령 처리 장치 및 방법에 관한 것으로, 본 발명의 일실시예에 따르면 문서 수정명령 처리 장치는 참조 문서 수정 지시서로부터 수정 지시 문장을 수집하고, 상기 수집된 수정 지시 문장에서의 복수의 수정사항을 복수의 유형으로 분류하며, 상기 분류된 복수의 유형 각각에 대해 적어도 하나의 참조 단어로 구성된 적어도 하나의 참조 지시 문장을 저장하여 참조 지시 문장 집합을 구성하는 참조 문장 집합 구성부, 대상 문서 수정 지시서로부터 분류 대상 지시 문장을 수집하고, 문장 분류 모델 및 단어 분류 모델 각각에 기반하여 상기 수집된 분류 대상 지시 문장의 유형을 상기 분류된 복수의 유형 중 어느 하나의 유형으로 분류하는 제1 문장 유형 분류부, 상기 문장 분류 모델에 기반하여 분류된 어느 하나의 유형과 상기 단어 분류 모델에 기반하여 분류된 어느 하나의 유형을 조합하여 앙상블(Ensemble) 모델을 구축하고, 상기 구축된 앙상블 모델의 분류 규칙에 기반하여 상기 수집된 분류 대상 지시 문장의 유형을 상기 분류된 복수의 유형 중 어느 하나의 유형으로 추가 분류하는 제2 문장 유형 분류부 및 상기 추가 분류된 어느 하나의 유형에 기반하여 상기 대상 문서 수정 지시서의 수정사항을 인식하고, 상기 인식된 수정사항에 따라 문서 수정명령을 처리하는 수정명령 처리부를 포함할 수 있다.

Description

기계학습 기반의 문서 수정명령 처리 장치 및 방법{APPARATUS AND METHOD OF PROCESSING DOCUMENT CORRECTION COMMAND BASED ON MACHINE LEARNING}
본 발명은 기계학습 기반의 문서 수정명령 처리 장치 및 방법에 관한 것으로, 보다 빠르고 정확한 문서 수정 작업의 처리를 위해 언어 모델로 생성되는 문장 수준의 표현인 문장 임베딩(sentence embedding)과 Word2Vec으로 생성되는 단어 수준의 표현인 단어 임베딩(word embedding)을 기반으로 텍스트 형식으로 작성된 문서 수정사항을 자동으로 인식 및 분류하기 위한 기술에 관한 것이다.
최근, 기존의 계약서 수정 사항에 대한 처리는 다양한 형태로 작성된 수정 명령서를 기반으로 사람에 의해 직접 수행되며, 대부분의 수정 사항 명령서는 텍스트로 작성된다.
기존의 수정 명령 처리는 정확한 처리가 중요하기 때문에 수동으로 명령 사항을 개별적으로 확인 및 수행하는 방법이 주를 이루었다.
수동적 수정 명령 처리는 처리의 시간이 크게 길어진다는 단점이 존재함에도 불구하고 정확한 처리가 중요했기 때문에 기계학습 기반의 수정 명령 처리는 실제 적용까지 이어지기에는 한계점이 존재했다.
기계학습 기반의 계약서 관련 작업에 대한 기술은 국내외에서 개발 시도 자체가 극히 드물며 대부분이 '자연어 처리(Natural Language Processing, NLP)를 통한 해외건설 계약서의 리스크 자동추출 모델 개발(2018, 이지희)'과 같이 리스크 자동추출 기술에 대한 연구였다.
게다가 기존 계약서 관련 작업에 사용된 대부분의 기계학습 모델들은 트랜스포머(Transformer) 구조를 기반으로 한 강력한 자연어 처리 모델의 개발 전에 이루어진 연구들이다.
이러한 연구들은 룰 기반(rule-based) 모델을 이용한 전처리와 불용어(stopword) 삭제 등의 수많은 전처리 과정이 선행되어야 하고 속도와 정확성의 중요도가 높은 계약서 수정 명령 분석에 이용하기에는 무리가 있었다.
언어 모델(Language Model)은 단어 및 문장 수준의 토큰에 확률을 부여하는 모델을 말하며, 통계 기반과 기계 학습 기반의 언어 모델이 존재한다.
최근, 기계학습 알고리즘의 발전에 따라 기계학습 기반의 언어 모델이 다양한 작업에서 우수한 성능을 보이고 있다.
기계학습 중 딥러닝 알고리즘 기반의 언어 모델은 개발 초기 순환신경망 기반이 주를 이루었으나, 최근에는 어텐션 메커니즘(Attention Mechanism)을 기반으로 한 트랜스포머(Transformer) 구조가 주를 이루고 있다.
특히, BERT 및 XLNet과 같은 트랜스포머(Transformer) 구조 기반 언어 모델이 최근 일부 작업에서는 사람보다 뛰어난 성능을 보이고 있다.
해당 모델들은 언어 모델들은 계약서 분석, 특허 분석 등 기존의 텍스트 분석 작업보다 정확도나 작업의 신뢰도 굉장히 높게 요구되는 작업에도 다양한 응용이 이루어지고 있다.
Word2Vec은 텍스트 데이터를 기반으로 단어들의 출현 정보를 학습하여 단어들의 표현 벡터인 워드 임베딩(Word Embedding)을 나타내는 모델로, Google에서 개발한 단어 단위의 자연어 처리 모델 중 하나이다.
Word2Vec 또한, XLNet의 MLM방식과 비슷하게 학습 데이터에 포함된 텍스트 데이터 내 문장 안에서 단어들 사이의 중심 단어를 주변 단어로 예측하는 방식으로 학습되었다.
특히 Word2Vec은 성능도 높고 비선형 함수를 사용하지 않아 계산속도 또한 오래 걸리지 않기 때문에 다양한 작업에서 단어의 표현을 나타내는데 이용되었다.
한국등록특허 제10-2161666호, "LDA 토픽 모델링과 Word2vec을 활용한 유사 특허 문서 추천 시스템 및 방법" 한국공개특허 제10-2020-0125531호, "언어 단위와 이용 내역 간의 연관도를 이용한 항목 추천 관리 방법" 한국공개특허 제10-2021-0086849호, "문서를 생성하기 위한 방법"
본 발명은 문장 분류 모델에 해당하는 언어 모델로 생성되는 문장 수준의 표현인 문장 임베딩(sentence embedding)과 단어 분류 모델에 해당하는 Word2Vec으로 생성되는 단어 수준의 표현인 단어 임베딩(word embedding)을 기반으로 텍스트 형식으로 작성된 문서 수정사항을 자동으로 인식 및 분류하기 위한 기계학습 기반의 문서 수정명령 처리 장치 및 방법을 제공하는 것을 목적으로 한다.
본 발명은 기존의 수정 명령 지시서를 기반으로 계약서와 같은 문서 수정 작업에 활용되어, 문서 수정 작업의 효율성 및 정확성을 증가시키는 것을 목적으로 한다.
본 발명은 다양한 텍스트 데이터에 적용되어 텍스트 데이터 형식으로 작성된 지시 사항을 자동적으로 인식 및 분류함에 따라 국내외 산업에서 텍스트 데이터의 활용도를 증가시키는 것을 목적으로 한다.
본 발명은 문장 분류 모델에 해당하는 언어 모델과 단어 분류 모델에 해당하는 Word2Vec의 앙상블 기법에 기반한 앙상블 모델을 이용하여 분류 대상 지시 문장의 유형 분류에 대한 분류 정확도를 증가시키는 것을 목적으로 한다.
본 발명의 일실시예에 따르면 문서 수정명령 처리 장치는 참조 문서 수정 지시서로부터 수정 지시 문장을 수집하고, 상기 수집된 수정 지시 문장에서의 복수의 수정사항을 복수의 유형으로 분류하며, 상기 분류된 복수의 유형 각각에 대해 적어도 하나의 참조 단어로 구성된 적어도 하나의 참조 지시 문장을 저장하여 참조 지시 문장 집합을 구성하는 참조 문장 집합 구성부, 대상 문서 수정 지시서로부터 분류 대상 지시 문장을 수집하고, 문장 분류 모델 및 단어 분류 모델 각각에 기반하여 상기 수집된 분류 대상 지시 문장의 유형을 상기 분류된 복수의 유형 중 어느 하나의 유형으로 분류하는 제1 문장 유형 분류부, 상기 문장 분류 모델에 기반하여 분류된 어느 하나의 유형과 상기 단어 분류 모델에 기반하여 분류된 어느 하나의 유형을 조합하여 앙상블(Ensemble) 모델을 구축하고, 상기 구축된 앙상블 모델의 분류 규칙에 기반하여 상기 수집된 분류 대상 지시 문장의 유형을 상기 분류된 복수의 유형 중 어느 하나의 유형으로 추가 분류하는 제2 문장 유형 분류부 및 상기 추가 분류된 어느 하나의 유형에 기반하여 상기 대상 문서 수정 지시서의 수정사항을 인식하고, 상기 인식된 수정사항에 따라 문서 수정명령을 처리하는 수정명령 처리부를 포함할 수 있다.
상기 참조 문장 집합 구성부는 적어도 하나의 조항 유형 및 적어도 하나의 명령 유형에 기반하여 상기 복수의 수정사항을 상기 복수의 유형으로 분류할 수 있다.
상기 복수의 유형은 상기 적어도 하나의 조항 유형 및 상기 적어도 하나의 명령 유형의 조합에 기반하여 분류될 수 있다.
상기 적어도 하나의 조항 유형은 문서 내 구조와 관련된 유형으로서, 하위 조항(subclause), 단락(paragraph) 및 하위 단락(sub-paragraph) 중 적어도 하나를 포함할 수 있다.
상기 적어도 하나의 명령 유형은 수정 작업 종류와 관련된 유형으로서, 문장 추가 명령, 조항 추가 명령, 조항 대체 명령 및 조항 제거 명령 중 적어도 하나를 포함할 수 있다.
상기 제1 문장 유형 분류부는 상기 문장 분류 모델에 기반하여 상기 수집된 분류 대상 지시 문장과 상기 저장된 적어도 하나의 참조 지시 문장으로부터 벡터 형태의 문장 임베딩(sentence embedding)들을 추출하고, 상기 추출된 문장 임베딩들 간의 코사인 유사도에 기반하여 상기 수집된 분류 대상 지시 문장의 유형을 상기 분류된 복수의 유형 중 어느 하나의 유형으로 분류할 수 있다.
상기 제1 문장 유형 분류부는 상기 단어 분류 모델에 기반하여 상기 수집된 분류 대상 지시 문장을 구성하는 단어들과 상기 저장된 적어도 하나의 참조 단어로부터 벡터 형태의 단어 임베딩들(word embedding)을 추출하고, 상기 추출된 단어 임베딩들 간의 코사인 유사도에 기반하여 상기 수집된 분류 대상 지시 문장의 유형을 상기 분류된 복수의 유형 중 어느 하나의 유형으로 분류할 수 있다.
상기 제1 문장 유형 분류부는 상기 단어 분류 모델에 기반하여 상기 수집된 분류 대상 지시 문장의 유형을 상기 분류된 복수의 유형 중 어느 하나의 유형으로 분류하기 이전에 상기 수집된 분류 대상 지시 문장을 구성하는 단어들과 상기 저장된 적어도 하나의 참조 단어 중 하위 단락(sub-paragraph) 단어를 변형 하위 단락(subparagraph) 단어로 변형할 수 있다.
상기 적어도 하나의 참조 단어는 상기 적어도 하나의 조항 유형을 분류하기 위한 참조 단어로 하위 조항(subclause) 단어, 단락(paragraph) 단어 및 변형 하위 단락(subparagraph) 단어를 포함하고, 상기 적어도 하나의 명령 유형을 분류하기 위한 참조 단어로 추가(add), 대체(replace), 삭제(delete) 및 종료(end)를 포함할 수 있다.
상기 제1 문장 유형 분류부는 상기 단어 분류 모델에 기반하여 상기 수집된 분류 대상 지시 문장을 구성하는 단어들 각각으로부터 벡터 형태의 대상 단어 임베딩을 추출하고, 상기 추출된 대상 단어 임베딩과 참조 단어 임베딩에 포함되는 상기 하위 조항(subclause) 단어, 상기 단락(paragraph) 단어 및 상기 변형 하위 단락(subparagraph) 단어 각각과의 코사인 유사도를 측정하며, 상기 측정된 코사인 유사도 중 가장 높은 유사도 값을 저장하고, 상기 추출된 단어 임베딩에 해당하는 단어의 조항 유형을 상기 저장된 가장 높은 유사도 값에 해당하는 참조 단어에 대응하는 조항 유형으로 분류하고, 상기 추출된 대상 단어 임베딩과 상기 참조 단어 임베딩에 포함되는 상기 추가(add), 상기 대체(replace), 상기 삭제(delete) 및 상기 종료(end) 각각과의 코사인 유사도를 측정하며, 상기 측정된 코사인 유사도 중 가장 높은 유사도 값을 저장하고, 상기 추출된 단어 임베딩에 해당하는 단어의 명령 유형을 상기 저장된 가장 높은 유사도 값에 해당하는 참조 단어에 대응하는 명령 유형으로 분류할 수 있다.
상기 제1 문장 유형 분류부는 상기 추가(add)에 대하여 상기 저장된 가장 높은 유사도 값이 해당되면서, 상기 종료(add)에 대하여 상기 저장된 가장 높은 유사도 값이 사전 결정 상수보다 크거나 같을 경우 상기 추출된 대상 단어 임베딩이 포함되는 상기 수집된 분류 대상 지시 문장의 유형을 상기 문장 추가 명령으로 분류하고, 상기 추가(add)에 대하여 상기 저장된 가장 높은 유사도 값이 해당되면서, 상기 종료(add)에 대하여 상기 저장된 가장 높은 유사도 값이 사전 결정 상수보다 작을 경우 상기 추출된 대상 단어 임베딩이 포함되는 상기 수집된 분류 대상 지시 문장의 유형을 상기 조항 추가 명령으로 분류하며, 상기 삭제(delete)에 대하여 상기 저장된 가장 높은 유사도 값이 해당되면서, 상기 대체(replace)에 대하여 상기 저장된 가장 높은 유사도 값이 사전 결정 상수보다 크거나 같을 경우 상기 추출된 대상 단어 임베딩이 포함되는 상기 수집된 분류 대상 지시 문장의 유형을 상기 조항 대체 명령으로 분류하고, 상기 삭제(delete)에 대하여 상기 저장된 가장 높은 유사도 값이 해당되면서, 상기 대체(replace)에 대하여 상기 저장된 가장 높은 유사도 값이 사전 결정 상수보다 작을 경우 상기 추출된 대상 단어 임베딩이 포함되는 상기 수집된 분류 대상 지시 문장의 유형을 상기 조항 제거 명령으로 분류할 수 있다.
상기 제2 문장 유형 분류부는 상기 구축된 앙상블 모델의 분류 규칙에 기반하여 상기 적어도 하나의 조항 유형의 경우에 대하여 상기 수집된 분류 대상 지시 문장의 유형을 상기 단어 분류 모델에 기반하여 분류된 어느 하나의 조항 유형으로 추가 분류할 수 있다.
상기 제2 문장 유형 분류부는 상기 구축된 앙상블 모델의 분류 규칙에 기반하여 상기 적어도 하나의 명령 유형의 경우에 대하여 상기 문장 분류 모델이 상기 조항 제거 명령으로 분류하고, 상기 단어 분류 모델이 상기 조항 추가 명령으로 분류하는 경우에서는 상기 수집된 분류 대상 지시 문장의 유형을 상기 조항 추가 명령으로 추가 분류하며, 상기 문장 분류 모델이 상기 문장 추가 명령으로 분류하고, 상기 단어 분류 모델이 상기 조항 대체 명령으로 분류하는 경우에서는 상기 조항 대체 명령으로 추가 분류할 수 있다.
본 발명의 일실시예에 따른 문서 수정명령 처리 방법은 참조 문장 집합 구성부에서, 참조 문서 수정 지시서로부터 수정 지시 문장을 수집하고, 상기 수집된 수정 지시 문장에서의 복수의 수정사항을 복수의 유형으로 분류하며, 상기 분류된 복수의 유형 각각에 대해 적어도 하나의 참조 단어로 구성된 적어도 하나의 참조 지시 문장을 저장하여 참조 지시 문장 집합을 구성하는 단계, 제1 문장 유형 분류부에서, 대상 문서 수정 지시서로부터 분류 대상 지시 문장을 수집하고, 문장 분류 모델 및 단어 분류 모델 각각에 기반하여 상기 수집된 분류 대상 지시 문장의 유형을 상기 분류된 복수의 유형 중 어느 하나의 유형으로 분류하는 단계, 제2 문장 유형 분류부에서, 상기 문장 분류 모델에 기반하여 분류된 어느 하나의 유형과 상기 단어 분류 모델에 기반하여 분류된 어느 하나의 유형을 조합하여 앙상블(Ensemble) 모델을 구축하고, 상기 구축된 앙상블 모델의 분류 규칙에 기반하여 상기 수집된 분류 대상 지시 문장의 유형을 상기 분류된 복수의 유형 중 어느 하나의 유형으로 추가 분류하는 단계 및 수정명령 처리부에서, 상기 추가 분류된 어느 하나의 유형에 기반하여 상기 대상 문서 수정 지시서의 수정사항을 인식하고, 상기 인식된 수정사항에 따라 문서 수정명령을 처리하는 단계를 포함할 수 있다.
상기 참조 문서 수정 지시서로부터 수정 지시 문장을 수집하고, 상기 수집된 수정 지시 문장에서의 복수의 수정사항을 복수의 유형으로 분류하는 단계는 적어도 하나의 조항 유형 및 적어도 하나의 명령 유형에 기반하여 상기 복수의 수정사항을 상기 복수의 유형으로 분류하는 단계를 포함할 수 있다.
상기 복수의 유형은 상기 적어도 하나의 조항 유형 및 상기 적어도 하나의 명령 유형의 조합에 기반하여 분류되며, 상기 적어도 하나의 조항 유형은 문서 내 구조와 관련된 유형으로서, 하위 조항(subclause), 단락(paragraph) 및 하위 단락(sub-paragraph) 중 적어도 하나를 포함하고, 상기 적어도 하나의 명령 유형은 수정 작업 종류와 관련된 유형으로서, 문장 추가 명령, 조항 추가 명령, 조항 대체 명령 및 조항 제거 명령 중 적어도 하나를 포함할 수 있다.
상기 대상 문서 수정 지시서로부터 분류 대상 지시 문장을 수집하고, 문장 분류 모델 및 단어 분류 모델 각각에 기반하여 상기 수집된 분류 대상 지시 문장의 유형을 상기 분류된 복수의 유형 중 어느 하나의 유형으로 분류하는 단계는 상기 문장 분류 모델에 기반하여 상기 수집된 분류 대상 지시 문장과 상기 저장된 적어도 하나의 참조 지시 문장으로부터 벡터 형태의 문장 임베딩(sentence embedding)들을 추출하고, 상기 추출된 문장 임베딩들 간의 코사인 유사도에 기반하여 상기 수집된 분류 대상 지시 문장의 유형을 상기 분류된 복수의 유형 중 어느 하나의 유형으로 분류하는 단계를 포함할 수 있다.
상기 대상 문서 수정 지시서로부터 분류 대상 지시 문장을 수집하고, 문장 분류 모델 및 단어 분류 모델 각각에 기반하여 상기 수집된 분류 대상 지시 문장의 유형을 상기 분류된 복수의 유형 중 어느 하나의 유형으로 분류하는 단계는 상기 단어 분류 모델에 기반하여 상기 수집된 분류 대상 지시 문장을 구성하는 단어들과 상기 저장된 적어도 하나의 참조 단어로부터 벡터 형태의 단어 임베딩들(word embedding)을 추출하고, 상기 추출된 단어 임베딩들 간의 코사인 유사도에 기반하여 상기 수집된 분류 대상 지시 문장의 유형을 상기 분류된 복수의 유형 중 어느 하나의 유형으로 분류하는 단계를 포함할 수 있다.
상기 구축된 앙상블 모델의 분류 규칙에 기반하여 상기 수집된 분류 대상 지시 문장의 유형을 상기 분류된 복수의 유형 중 어느 하나의 유형으로 추가 분류하는 단계는 상기 구축된 앙상블 모델의 분류 규칙에 기반하여 상기 적어도 하나의 조항 유형의 경우에 대하여 상기 수집된 분류 대상 지시 문장의 유형을 상기 단어 분류 모델에 기반하여 분류된 어느 하나의 조항 유형으로 추가 분류하는 단계 및 상기 구축된 앙상블 모델의 분류 규칙에 기반하여 상기 적어도 하나의 명령 유형의 경우에 대하여 상기 문장 분류 모델이 상기 조항 제거 명령으로 분류하고, 상기 단어 분류 모델이 상기 조항 추가 명령으로 분류하는 경우에서는 상기 수집된 분류 대상 지시 문장의 유형을 상기 조항 추가 명령으로 추가 분류하며, 상기 문장 분류 모델이 상기 문장 추가 명령으로 분류하고, 상기 단어 분류 모델이 상기 조항 대체 명령으로 분류하는 경우에서는 상기 조항 대체 명령으로 추가 분류하는 단계를 포함할 수 있다.
본 발명은 문장 분류 모델에 해당하는 언어 모델로 생성되는 문장 수준의 표현인 문장 임베딩(sentence embedding)과 단어 분류 모델에 해당하는 Word2Vec으로 생성되는 단어 수준의 표현인 단어 임베딩(word embedding)을 기반으로 텍스트 형식으로 작성된 문서 수정사항을 자동으로 인식 및 분류하기 위한 기계학습 기반의 문서 수정명령 처리 장치 및 방법을 제공할 수 있다.
본 발명은 기존의 수정 명령 지시서를 기반으로 계약서와 같은 문서 수정 작업에 활용되어, 문서 수정 작업의 효율성 및 정확성을 증가시킬 수 있다.
본 발명은 다양한 텍스트 데이터에 적용되어 텍스트 데이터 형식으로 작성된 지시 사항을 자동적으로 인식 및 분류함에 따라 국내외 산업에서 텍스트 데이터의 활용도를 증가시킬 수 있다.
본 발명은 문장 분류 모델에 해당하는 언어 모델과 단어 분류 모델에 해당하는 Word2Vec의 앙상블 기법에 기반한 앙상블 모델을 이용하여 분류 대상 지시 문장의 유형 분류에 대한 분류 정확도를 증가시킬 수 있다.
도 1은 본 발명의 일실시예에 따른 문서 수정명령 처리 장치를 설명하는 도면이다.
도 2는 본 발명의 일실시예에 따른 참조 문장 집합 구성부의 참조 지시 문장 집합 구성 과정을 설명하는 도면이다.
도 3은 본 발명의 일실시예에 따른 제1 문장 유형 분류부의 분류 대상 지시 문장 분류 과정을 설명하는 도면이다.
도 4는 본 발명의 일실시예에 따른 문장 분류 모델을 이용한 문장 임베딩 추출 과정을 설명하는 도면이다.
도 5는 본 발명의 일실시예에 따른 문장 분류 모델을 이용한 분류 대상 지시 문장 분류 과정을 설명하는 도면이다.
도 6 및 도 7은 본 발명의 일실시예에 따른 단어 분류 모델을 이용한 단어 임베딩 추출 과정을 설명하는 도면이다.
도 8a 및 도 8b는 본 발명의 일실시예에 따른 단어 분류 모델을 이용한 분류 대상 지시 문장 분류 과정을 설명하는 도면이다.
도 9는 본 발명의 일실시예에 따른 제2 문장 유형 분류부의 분류 대상 지시 문장 분류 과정을 설명하는 도면이다.
도 10은 본 발명의 일실시예에 따른 문서 수정명령 처리 방법을 이용하여 구성되는 참조 지시 문장 집합을 설명하는 도면이다.
도 11a 및 도 11b는 본 발명의 일실시예에 따른 문서 수정명령 처리 방법을 적용한 시뮬레이션 결과를 설명하는 도면이다.
도 12는 본 발명의 일실시예에 따른 문서 수정명령 처리 방법을 설명하는 도면이다.
이하, 본 문서의 다양한 실시 예들이 첨부된 도면을 참조하여 기재된다.
실시 예 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다.
하기에서 다양한 실시 예들을 설명에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다.
그리고 후술되는 용어들은 다양한 실시 예들에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다.
본 문서에서, "A 또는 B" 또는 "A 및/또는 B 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다.
"제1," "제2," "첫째," 또는 "둘째," 등의 표현들은 해당 구성요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.
어떤(예: 제1) 구성요소가 다른(예: 제2) 구성요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다.
본 명세서에서, "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, 하드웨어적 또는 소프트웨어적으로 "~에 적합한," "~하는 능력을 가지는," "~하도록 변경된," "~하도록 만들어진," "~를 할 수 있는," 또는 "~하도록 설계된"과 상호 호환적으로(interchangeably) 사용될 수 있다.
어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다.
예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(예: CPU 또는 application processor)를 의미할 수 있다.
또한, '또는' 이라는 용어는 배타적 논리합 'exclusive or' 이기보다는 포함적인 논리합 'inclusive or' 를 의미한다.
즉, 달리 언급되지 않는 한 또는 문맥으로부터 명확하지 않는 한, 'x가 a 또는 b를 이용한다' 라는 표현은 포함적인 자연 순열들(natural inclusive permutations) 중 어느 하나를 의미한다.
이하 사용되는 '..부', '..기' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어, 또는, 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 본 발명의 일실시예에 따른 문서 수정명령 처리 장치를 설명하는 도면이다.
도 1은 본 발명의 일실시예에 따른 문서 수정명령 처리 장치의 구성 요소를 예시한다.
도 1을 참고하면, 본 발명의 일실시예에 따른 문서 수정명령 처리 장치(100)는 참조 문장 집합 구성부(110), 제1 문장 유형 분류부(120), 제2 문장 유형 분류부(130) 및 수정명령 처리부(140)를 포함한다.
본 발명의 일실시예에 따른 문서 수정명령 처리 장치(100)는 기계 학습 기반의 문장 분류 모델과 단어 분류 모델의 앙상블 기법을 이용한 계약서 수정 지시서 내 수정 사항을 자동 인식 및 분류하는 알고리즘을 이용할 수 있다.
본 발명의 일실시예에 따른 참조 문장 집합 구성부(110)는 지시 문장 기반의 수정사항 유형화 및 참조 지시 문장 집합을 구성한다.
일례로, 참조 문장 집합 구성부(110)는 참조 문서 수정 지시서로부터 수정 지시 문장을 수집하고, 수집된 수정 지시 문장에서의 복수의 수정사항을 복수의 유형으로 분류하며, 분류된 복수의 유형 각각에 대해 적어도 하나의 참조 단어로 구성된 적어도 하나의 참조 지시 문장을 저장하여 참조 지시 문장 집합을 구성할 수 있다.
본 발명의 일실시예에 따르면, 참조 문장 집합 구성부(110)는 적어도 하나의 조항 유형 및 적어도 하나의 명령 유형에 기반하여 복수의 수정사항을 복수의 유형으로 분류할 수 있다.
예를 들어, 복수의 유형은 적어도 하나의 조항 유형 및 적어도 하나의 명령 유형의 조합에 기반하여 분류될 수 있다.
본 발명의 일실시예에 따르면 적어도 하나의 조항 유형은 문서 내 구조와 관련된 유형으로서, 하위 조항(subclause), 단락(paragraph) 및 하위 단락(sub-paragraph) 중 적어도 하나를 포함할 수 있다.
한편, 적어도 하나의 명령 유형은 수정 작업 종류와 관련된 유형으로서, 문장 추가 명령, 조항 추가 명령, 조항 대체 명령 및 조항 제거 명령 중 적어도 하나를 포함할 수 있다.
다시 말해, 참조 문장 집합 구성부(110)는 기존의 수정 지시 문장들을 참고하여 수정사항을 유형화하고, 유형화된 수정사항에 따른 참조 지시 문장 집합을 구성한다.
예를 들어, 복수의 유형은 세 개의 조항 유형 및 네 개의 명령 유형의 조합에 기반하여 12가지 유형으로 유형화 될 수 있다.
참조 문장 집합 구성부(110)는 유형화된 기존 지시 문장들을 12가지 유형에 대해 각각 사전에 정해진 개수만큼 참조 지시 문장으로 저장하여 참조 지시 문장 집합을 구성한다.
참조 지시 문장 집합은 새로운 문서의 수정 지시서에 포함된 지시 문장을 분류하는데 이용될 수 있다.
본 발명의 일실시예에 따르면 제1 문장 유형 분류부(120)는 대상 문서 수정 지시서로부터 분류 대상 지시 문장을 수집하고, 문장 분류 모델 및 단어 분류 모델 각각에 기반하여 기 수집된 분류 대상 지시 문장의 유형을 복수의 유형 중 어느 하나의 유형으로 분류할 수 있다.
예를 들어, 문장 분류 모델은 언어 모델이 이용되고, 단어 분류 모델은 Word2Vec이 이용될 수 있다.
즉, 제1 문장 유형 분류부(120)는 언어 모델 및 Word2Vec 각각을 이용한 지시 문장 분류를 수행할 수 있다.
일례로, 제1 문장 유형 분류부(120)는 문장 분류 모델에 기반하여 수집된 분류 대상 지시 문장과 저장된 적어도 하나의 참조 지시 문장으로부터 벡터 형태의 문장 임베딩(sentence embedding)들을 추출하고, 추출된 문장 임베딩들 간의 코사인 유사도에 기반하여 수집된 분류 대상 지시 문장의 유형을 복수의 유형 중 어느 하나의 유형으로 분류할 수 있다.
본 발명의 일실시예에 따르면 제1 문장 유형 분류부(120)는 단어 분류 모델에 기반하여 수집된 분류 대상 지시 문장을 구성하는 단어들과 저장된 적어도 하나의 참조 단어로부터 벡터 형태의 단어 임베딩들(word embedding)을 추출하고, 추출된 단어 임베딩들 간의 코사인 유사도에 기반하여 수집된 분류 대상 지시 문장의 유형을 복수의 유형 중 어느 하나의 유형으로 분류할 수 있다.
제1 문장 유형 분류부(120)가 단어 분류 모델에 기반하여 분류 대상 지시 문장과 참조 단어의 단어 임베딩들을 추출하고, 추출된 단어 임베딩들 간의 코사인 유사도를 측정한 뒤 유형을 분류하는 구성은 도 6 내지 도 8b를 이용하여 보충 설명한다.
일례로, 제1 문장 유형 분류부(120)는 단어 분류 모델에 기반하여 수집된 분류 대상 지시 문장의 유형을 복수의 유형 중 어느 하나의 유형으로 분류하기 이전에 분류 대상 지시 문장을 구성하는 단어들과 적어도 하나의 참조 단어 중 하위 단락(sub-paragraph) 단어를 변형 하위 단락(subparagraph) 단어로 변형하는 전처리 동작을 수행할 수 있다.
전처리는 모든 참조 지시 문장 및 분류 하려는 지시 문장 내의 모든 'sub-paragraph' 단어에 대해 진행된다.
'sub-paragraph' 단어는 단어 분류 모델에 해당하는 Word2Vec 모델의 단어 집합에 포함되어 있지 않아서 처리 불가능하기 때문에 'subparagraph'으로 변형한 형태로 사용될 수 있다.
본 발명의 일실시예에 따르면 제2 문장 유형 분류부(130)는 문장 분류 모델에 기반하여 분류된 어느 하나의 유형과 단어 분류 모델에 기반하여 분류된 어느 하나의 유형을 조합하여 앙상블(Ensemble) 모델을 구축하고, 구축된 앙상블 모델의 분류 규칙에 기반하여 수집된 분류 대상 지시 문장의 유형을 분류된 복수의 유형 중 어느 하나의 유형으로 추가 분류할 수 있다.
일례로, 제2 문장 유형 분류부(130)는 앙상블 모델의 분류 규칙에 기반하여 적어도 하나의 조항 유형의 경우에 대하여 분류 대상 지시 문장의 유형을 단어 분류 모델에 기반하여 분류된 어느 하나의 조항 유형으로 추가 분류할 수 있다.
본 발명의 일실시예에 따르면 제2 문장 유형 분류부(130)는 앙상블 모델의 분류 규칙에 기반하여 적어도 하나의 명령 유형의 경우에 대하여 문장 분류 모델이 조항 제거 명령으로 분류하고, 단어 분류 모델이 조항 추가 명령으로 분류하는 경우에서는 분류 대상 지시 문장의 유형을 조항 추가 명령으로 추가 분류할 수 있다.
또한, 제2 문장 유형 분류부(130)는 문장 분류 모델이 문장 추가 명령으로 분류하고, 단어 분류 모델이 조항 대체 명령으로 분류하는 경우에서는 조항 대체 명령으로 추가 분류할 수 있다.
한편, 제2 문장 유형 분류부(130)는 상술한 경우를 제외한 나머지의 경우에서는 모두 문장 분류 모델이 분류한 유형으로 명령 유형 분류를 결정할 수 있다.
본 발명의 일실시예에 따르면 수정명령 처리부(140)는 제2 문장 유형 분류부(130)에 의해 최종적으로 분류된 어느 하나의 유형에 기반하여 대상 문서 수정 지시서의 수정사항을 인식하고, 인식된 수정사항에 따라 문서 수정명령을 처리할 수 있다.
따라서, 본 발명은 문장 분류 모델에 해당하는 언어 모델로 생성되는 문장 수준의 표현인 문장 임베딩(sentence embedding)과 단어 분류 모델에 해당하는 Word2Vec으로 생성되는 단어 수준의 표현인 단어 임베딩(word embedding)을 기반으로 텍스트 형식으로 작성된 문서 수정사항을 자동으로 인식 및 분류하기 위한 기계학습 기반의 문서 수정명령 처리 장치 및 방법을 제공할 수 있다.
도 2는 본 발명의 일실시예에 따른 참조 문장 집합 구성부의 참조 지시 문장 집합 구성 과정을 설명하는 도면이다.
도 2는 본 발명의 일실시예에 따른 문서 수정명령 처리 방법이 참조 지시 문장 집합을 구성하는 과정을 예시한다.
도 2를 참고하면, 단계(201)에서 문서 수정명령 처리 방법은 참조 문서 수정 지시서로부터 수정 지시 문장을 수집한다.
즉, 문서 수정명령 처리 방법은 기존의 수정 지시 문장들을 참고하기 위해 수정 지시 문장을 수집한다.
단계(202)에서 문서 수정명령 처리 방법은 수정 지시 문장에서의 수정 사항을 유형화한다.
즉, 문서 수정명령 처리 방법은 수정 지시 대상의 문서 내 구조와 관련된 유형으로서 조항 유형과 수정 지시 작업 중 어떠한 작업이 이루어지는가에 대한 유형으로서 명령 유형을 구분하고, 조항 유형과 명령 유형의 조합에 따른 유형으로 계약서의 수정사항을 유형화한다.
예를 들어, 조항 유형은 하위 조항(subclause), 단락(paragraph) 및 하위 단락(sub-paragraph)을 포함한다.
한편, 명령 유형은 문장 추가 명령, 조항 추가 명령, 조항 대체 명령 및 조항 제거 명령을 포함한다.
세 개의 조항 유형 및 네 개의 명령 유형의 조합에 따라 총 12개의 유형이 계약서의 수정사항을 유형화하기 위한 유형으로 결정될 수 있다.
단계(203)에서 문서 수정명령 처리 방법은 참조 지시 문장 집합을 구성한다.
즉, 문서 수정명령 처리 방법은 유형화된 기존 지시 문장들을 12가지 유형에 대해 각각 사전에 정해진 개수만큼 참조 지시 문장으로 저장하여 참조 지시 문장 집합을 구성할 수 있다.
참조 지시 문장 집합은 새로운 계약서의 수정 지시서에 포함된 지시 문장을 분류하는데 이용될 수 있다.
예를 들어, 제1 유형에 대하여 조항 유형이 'subclause'이고 명령 유형이 '문장 추가'인 경우에 제1 참조 지시 문장 및 제2 참조 지시 문장이 저장될 수 있고, 제1 참조 지시 문장 및 제2 참조 지시 문장을 구성하는 단어들은 참조 단어일 수 있다.
또한, 제12 유형에 대하여 조항 유형이 'sub-paragraph'이고, 명령 유형이 '조항 제거' 인 경우에도 사전 결정된 개수의 참조 지시 문장이 저장될 수 있다.
이때, 각 유형에 대하여 사전 결정된 개수로 저장된 참조 지시 문장들의 집합이 참조 지시 문장 집합일 수 있다.
도 3은 본 발명의 일실시예에 따른 제1 문장 유형 분류부의 분류 대상 지시 문장 분류 과정을 설명하는 도면이다.
도 3은 본 발명의 문서 수정명령 처리 장치를 구성하는 제1 문장 유형 분류부의 동작 방법에서 분류 대상 지시 문장 분류 과정을 예시한다.
즉, 문서 수정명령 처리 방법이 분류 대상 지시 문장을 분류 하는 과정을 예시한다.
다시 말해, 문서 수정명령 처리 방법이 언어 모델 및 Word2Vec 각각을 이용해 새로운 계약서의 수정 지시서 내 모든 지시 문장의 유형을 분류하는 실시예를 예시한다.
도 3을 참고하면, 단계(301)에서 문서 수정명령 처리 방법은 대상 문서 수정 지시서의 분류 대상 지시 문장을 수집한다.
즉, 문서 수정명령 처리 방법은 새로운 계약서 수정 지시서를 입력 받고, 수정 지시서의 지시 문장을 수집한다.
단계(302)에서 문서 수정명령 처리 방법은 문장 분류 모델에 기반하여 문장 임베딩을 추출 및 유사도 비교를 수행한다.
즉, 문서 수정명령 처리 방법은 문장 분류 모델을 이용한 지시 문장 분류에서 문장 분류 모델을 통해 구성한 참조 지시 문장들의 문장 임베딩과 분류 대상인 지시 문장의 문장 임베딩 간의 유사도를 기반으로 분류 대상 지시 문장의 유형을 분류한다.
우선, 문서 수정명령 처리 방법은 문장 분류 모델을 이용해 참조 지시 문장 집합과 분류 대상인 모든 지시 문장들에 대해 벡터 형태의 문장 임베딩을 추출한다.
다음으로, 문서 수정명령 처리 방법은 분류 대상인 지시 문장의 문장 임베딩과 모든 참조 지시 문장들의 문장 임베딩 간의 코사인 유사도를 비교하여 가장 높은 유사도를 갖는 참조 지시 문장에 해당하는 '조항 유형' 및 '명령 유형'으로 해당 지시 문장의 유형을 분류한다.
다시 말해, 문서 수정명령 처리 방법은 분류 대상 지시 문장으로부터의 문장 임베딩과 참조 지시 문장들의 문장 임베딩 간의 코사인 유사도에 기반하여 단계(303)에서 '조항 유형'으로 분류하거나 단계(304)에서 '명령 유형'으로 분류한다.
단계(305)에서 문서 수정명령 처리 방법은 단어 분류 모델에 기반하여 단어 임베딩을 추출 및 유사도 비교를 수행한다.
즉, 문서 수정명령 처리 방법은 단어 분류 모델을 이용한 지시 문장 분류에서 단어 분류 모델을 통해 구성한 참조 지시 문장들의 단어 임베딩과 분류 대상인 지시 문장의 단어 임베딩 간의 유사도를 기반으로 분류 대상 지시 문장의 유형을 분류한다.
우선, 문서 수정명령 처리 방법은 단어 분류 모델을 이용해 참조 지시 문장 집합에서의 참조 단어와 분류 대상인 모든 지시 문장들에서의 단어에 대해 벡터 형태의 단어 임베딩을 추출한다.
다음으로, 문서 수정명령 처리 방법은 분류 대상인 지시 문장의 단어 임베딩과 모든 참조 지시 문장들의 단어 임베딩 간의 코사인 유사도를 비교하여 가장 높은 유사도를 갖는 참조 단어에 해당하는 '조항 유형' 및 '명령 유형'으로 해당 지시 문장의 유형을 분류한다.
다시 말해, 문서 수정명령 처리 방법은 분류 대상 지시 문장으로부터의 단어 임베딩과 참조 지시 문장들의 단어 임베딩 간의 코사인 유사도에 기반하여 단계(306)에서 '조항 유형'으로 분류하거나 단계(307)에서 '명령 유형'으로 분류한다.
도 4는 본 발명의 일실시예에 따른 문장 분류 모델을 이용한 문장 임베딩 추출 과정을 설명하는 도면이다.
도 4를 참고하면, 본 발명의 일실시예에 따른 문서 수정명령 처리 장치의 제1 문장 유형 분류부는 문장 분류 모델(400)을 이용하여 분류 대상 지시 문장(410)과 참조 지시 문장(420)으로부터 분류 대상 지시 문장(410)의 문장 임베딩(411)을 추출하고, 참조 지시 문장(420)의 문장 임베딩(421)을 추출한다.
예를 들어, 문장 임베딩(411) 및 문장 임베딩(421)은 특정 '문장'의 문장 임베딩으로서 SE('문장')에 대하여 임베딩된 결과이다.
예를 들어, 문장 임베딩(411) 및 문장 임베딩(421)은 벡터의 형태를 가지고 있다.
도 5는 본 발명의 일실시예에 따른 문장 분류 모델을 이용한 분류 대상 지시 문장 분류 과정을 설명하는 도면이다.
도 5를 참고하면, 본 발명의 일실시예에 따른 문서 수정명령 처리 장치의 제1 문장 유형 분류부는 도 4에서 추출된 문장 임베딩들 간의 코사인 유사도를 비교하여 가장 높은 유사도를 갖는 참조 지시 문장에 해당하는 '조항 유형'과 '명령 유형'으로 각 지시 문장을 분류할 수 있다.
일례로, 제1 문장 유형 분류부는 참조 지시 문장 집합(500)의 문장 임베딩(501) 내지 문장 임베딩(504)과 모든 분류 대상 지시 문장(510)의 문장 임베딩(511) 내지 문장 임베딩(513) 간의 코사인 유사도를 순차적으로 비교하여 가장 높은 유사도를 갖는 참조 지시 문장의 유형으로 분류 대상 지시 문장의 유형을 결정할 수 있다.
예를 들어, 비교선(520)에 해당하는 비교 결과가 코사인 유사도가 가장 높음에 따라 분류 대상 지시 문장(511)의 유형은 참조 지시문장(503)의 유형으로 분류될 수 있다.
즉, 분류 대상 지시 문장(511)의 조항 유형은 'sub-paragraph'으로 분류하고, 명령 유형은 '조항 대체' 명령으로 분류될 수 있다.
도 6 및 도 7은 본 발명의 일실시예에 따른 단어 분류 모델을 이용한 단어 임베딩 추출 과정을 설명하는 도면이다.
도 6은 본 발명의 일실시예에 따른 문서 수정명령 처리 장치의 제1 문장 유형 분류부가 단어 분류 모델을 이용하여 참조 단어의 단어 임베딩을 추출하는 동작을 예시한다.
도 6을 참고하면, 본 발명의 일실시예에 따른 문서 수정명령 처리 장치의 제1 문장 유형 분류부는 단어 분류 모델(600)에 조항 유형 분류를 위한 참조 단어(610)와 명령 유형 분류를 위한 참조 단어(620)를 입력하고, 특정 '단어'에 대하여 조항 유형 분류를 위한 참조 단어(610)의 단어 임베딩(611)을 추출한다.
또한, 특정 '단어'에 대하여 조항 유형 분류를 위한 참조 단어(620)의 단어 임베딩(621)을 추출한다.
예를 들어, 조항 유형을 분류하기 위한 참조 단어는 하위 조항(subclause) 단어, 단락(paragraph) 단어 및 변형 하위 단락(subparagraph) 단어를 포함할 수 있다.
한편, 명령 유형을 분류하기 위한 참조 단어는 추가(add), 대체(replace), 삭제(delete) 및 종료(end)를 포함할 수 있다.
조항 유형 중 하위 조항(subclause)에 해당하는 참조 단어는 하위 조항(subclause) 단어 이고, 단락(paragraph)에 해당하는 참조 단어는 단락(paragraph) 단어이며, 하위 단락(sub-paragraph)에 해당하는 단어는 변형 하위 단락(subparagraph) 단어일 수 잇다.
명령 유형 중 문장 추가 명령에 해당하는 참조 단어는 end(종료)이고, 조항 추가 명령에 해당하는 참조 단어는 추가(add)이며, 조항 대체 명령에 해당하는 참조 단어는 대체(replace)이며, 조항 제거 명령에 해당하는 참조 단어는 삭제(delete)일 수 있다.
도 7은 본 발명의 일실시예에 따른 문서 수정명령 처리 장치의 제1 문장 유형 분류부가 단어 분류 모델을 이용하여 분류 대상 지시 문장 내 단어의 단어 임베딩을 추출하는 동작을 예시한다.
도 7을 참고하면, 본 발명의 일실시예에 따른 문서 수정명령 처리 장치의 제1 문장 유형 분류부는 단어 분류 모델(700)에 분류 대상 지시 문장(710)을 입력하고, 특정 '단어'의 단어 임베딩(711)을 추출한다.
도 8a 및 도 8b는 본 발명의 일실시예에 따른 단어 분류 모델을 이용한 분류 대상 지시 문장 분류 과정을 설명하는 도면이다.
도 8a는 본 발명의 일실시예에 따른 단어 분류 모델을 이용한 분류 대상 지시 문장 분류 과정에서 조항 유형을 분류하는 과정을 예시하며, 도 8b는 본 발명의 일실시예에 따른 단어 분류 모델을 이용한 분류 대상 지시 문장 분류 과정에서 명령 유형을 분류하는 과정을 예시한다.
도 8a 및 도 8b에 도시된 과정을 통합하여 단어 분류 모델을 이용한 유형 분류 과정이 제1 단계 내지 제5 단계로 구성되고, 도 8a는 제2 단계 및 제3 단계인 지시 문장의 조항 유형을 분류하는 단계이며, 도 8b는 제4 단계 및 제5 단계인 지시 문장의 명령 유형을 분류하는 단계일 수 있다.
여기서, 제1 단계는 도 6 및 도 7에서 설명된 단어 임베딩을 추출하는 과정에 해당된다.
도 8a를 참고하면, 본 발명의 일실시예에 따른 제1 문장 유형 분류부는 단어 분류 모델을 이용한 분류 대상 지시 문장 분류 과정에서 참조 단어 중 조항 유형에 대한 참조 단어의 단어 임베딩(800)과 분류 대상 지시 문장으로부터 추출한 단어 임베딩(810)을 각각 비교하여 코사인 유사도를 측정하고, 측정 결과 중 유사도가 가장 높은 값을 저장한다.
단어 임베딩(810)에 대한 비교선들 중 비교선(820)에 해당하는 WE('단어4')는 단어 임베딩(800) 중 WE('subclause')와 코사인 유사도가 가장 높다.
이에 따라, WE('단어4')의 조항 유형은 하위 조항(subclause)으로 분류될 수 있다.
또한, 단어 임베딩(810)과 단어 임베딩(800) 간의 추가 비교도 진행되어 나머지 참조 단어 'paragraph', 'subparagraph'의 단어 임베딩을 이용해 동일한 과정을 반복하여 최대 유사도 값이 저장될 수 있다.
도 8b를 참고하면, 본 발명의 일실시예에 따른 제1 문장 유형 분류부는 단어 분류 모델을 이용한 분류 대상 지시 문장 분류 과정에서 참조 단어 중 명령 유형에 대한 참조 단어의 단어 임베딩(830)과 분류 대상 지시 문장으로부터 추출한 단어 임베딩(840)을 각각 비교하여 코사인 유사도를 측정하고, 측정 결과 중 유사도가 가장 높은 값을 저장한다.
단어 임베딩(840)에 대한 비교선들 중 비교선(850)에 해당하는 WE('단어2')는 단어 임베딩(830) 중 WE('end')와 코사인 유사도가 가장 높다.
이에 따라 WE('단어2')의 명령 유형은 '문장 추가' 명령으로 분류될 수 있다.
또한, 단어 임베딩(840)과 단어 임베딩(830) 간의 추가 비교도 진행되어 나머지 참조 단어 'add', 'replace' 및 'delete'의 단어 임베딩을 이용해 동일한 과정을 반복하여 최대 유사도 값이 저장될 수 있다.
즉, 본 발명의 일실시예에 따르면 제1 문장 유형 분류부는 단어 분류 모델에 기반하여 분류 대상 지시 문장을 구성하는 단어들 각각으로부터 벡터 형태의 대상 단어 임베딩을 추출하고, 대상 단어 임베딩과 참조 단어 임베딩에 포함되는 하위 조항(subclause) 단어, 단락(paragraph) 단어 및 변형 하위 단락(subparagraph) 단어 각각과의 코사인 유사도를 측정한다.
또한, 제1 문장 유형 분류부는 측정된 코사인 유사도 중 가장 높은 유사도 값을 저장하고, 추출된 단어 임베딩에 해당하는 단어의 조항 유형을 저장된 가장 높은 유사도 값에 해당하는 참조 단어에 대응하는 조항 유형으로 분류하고, 추출된 대상 단어 임베딩과 상기 참조 단어 임베딩에 포함되는 추가(add), 대체(replace), 상기 삭제(delete) 및 상기 종료(end) 각각과의 코사인 유사도를 측정할 수 있다.
또한, 제1 문장 유형 분류부는 측정된 코사인 유사도 중 가장 높은 유사도 값을 저장하고, 추출된 단어 임베딩에 해당하는 단어의 명령 유형을 저장된 가장 높은 유사도 값에 해당하는 참조 단어에 대응하는 명령 유형으로 분류할 수 있다.
본 발명의 일실시예에 따르면 단어 분류 모델을 이용한 제1 문장 유형 분류부의 분류 대상 지시 문장의 유형 분류는 우선 적으로, 'add', 'replace' 및 'delete' 중 가장 큰 유사도 값을 갖는 참조 단어에 대응하는 명령 유형으로 분류한다.
일례로, 제1 문장 유형 분류부는 추가(add)에 대한 최대 유사도 값이 가장 큰 경우에서 종료(end)에 대한 최대 유사도 값이 사전에 결정된 상수보다 크거나 같을 경우에는 명령 유형이 '문장 추가'로 분류될 수 있고, 사전에 결정된 상수보다 작을 경우에는 명령 유형이 '조항 추가'로 분류될 수 있다.
또한, 제1 문장 유형 분류부는 삭제(delete)에 대한 최대 유사도 값이 가장 큰 경우에 대체(replace)에 대한 최대 유사도 값이 사전에 결정된 상수보다 크거나 같을 경우에는 명령 유형이 '조항 대체'로 분류될 수 있고, 사전에 결정된 상수보다 작을 경우에는 명령 유형이 '조항 삭제'로 분류될 수 있다.
즉, 본 발명의 일실시예에 따른 문서 수정명령 처리 방법은 단어 분류 모델을 이용한 유형 분류 과정인 제1 단계 내지 제5 단계를 새로운 계약서 수정 지시서의 모든 지시 문장에 대해 반복적으로 수행함으로써 모든 지시 문장의 조항 유형 및 명령 유형을 분류할 수 있다.
도 9는 본 발명의 일실시예에 따른 제2 문장 유형 분류부의 분류 대상 지시 문장 분류 과정을 설명하는 도면이다.
도 9는 본 발명의 일실시예에 따른 앙상블 모델을 이용한 제2 문장 유형 분류부의 지시 문장의 최종 분류 과정을 예시한다.
도 9를 참고하면, 본 발명의 일실시예에 따른 제2 문장 유형 분류부는 앙상블 모델(900)을 이용하고, 앙상블 모델(900)은 문장 분류 모델(910)과 단어 분류 모델(920)의 조합으로 이루어진다.
일례로, 앙상블 모델(900)은 문장 분류 모델(910)의 명령 유형 분류(911) 및 조항 유형 분류(912) 그리고, 단어 분류 모델(920)의 명령 유형 분류(921) 및 조항 유형 분류(922)을 앙상블 기법으로 조합하여 분류 대상 지시 문장의 최종 분류로서 최종 명령 유형 분류(930)와 최종 조항 유형 분류(931)를 진행한다.
본 발명의 일실시예에 따르면 문서 수정명령 처리 장치는 제1 문장 유형 분류부 뿐만 아니라 앙상블 모델을 이용한 제2 문장 유형 분류부를 함께 이용함에 따라 분류 정확도를 더욱 향상시킬 수 있다.
일례로, 제2 문장 유형 분류부는 조항 유형의 분류에 대하여 단어 분류 모델의 조항 유형 분류(922)의 결과를 그대로 최종 조항 유형 분류 결과(931)로 도출한다.
본 발명의 일실시예에 따르면 제2 문장 유형 분류부는 명령 유형의 분류에 대하여 문장 분류 모델의 명령 유형 분류(911)와 단어 분류 모델의 명령 유형 분류(921)를 선별적으로 함께 고려하여 최종 명령 유형 분류(930)를 도출한다.
일례로, 제2 문장 유형 분류부는 문장 분류 모델이 명령 유형 분류(911)를 '조항 제거'로 분류하고, 단어 분류 모델이 명령 유형 분류(921)를 '조항 추가'로 분류한 경우에는 '조항 추가'로 최종 명령 유형 분류(930)를 도출한다.
또한, 제2 문장 유형 분류부는 문장 분류 모델이 명령 유형 분류(911)를 '문장 추가'로 분류하고, 단어 분류 모델이 명령 유형 분류(921)를 ' 조항 대체'로 분류했을 경우 '조항 대체'로 최종 명령 유형 분류(930)를 도출한다.
또한, 나머지의 경우 모두 문장 분류 모델의 명령 유형 분류(911)로 최종 명령 유형 분류(930)를 도출한다.
예를 들어, 명령 유형 분류(911)가 '문장 추가'이고, 명령 유형 분류(921)가 '조항 추가'인 경우에 '조항 추가'로 최종 명령 유형 분류(930)가 도출된다.
따라서, 본 발명은 문장 분류 모델에 해당하는 언어 모델과 단어 분류 모델에 해당하는 Word2Vec의 앙상블 기법에 기반한 앙상블 모델을 이용하여 분류 대상 지시 문장의 유형 분류에 대한 분류 정확도를 증가시킬 수 있다.
도 10은 본 발명의 일실시예에 따른 문서 수정명령 처리 방법을 이용하여 구성되는 참조 지시 문장 집합을 설명하는 도면이다.
도 10은 본 발명의 일실시예에 따른 문서 수정명령 처리 방법이 참조 문서 수정 지시서 내에 수정 지시 문장을 이용해 참조 지시 문장 집합을 구성한 결과를 예시한다.
도 10을 참고하면, 본 발명의 일실시예에 따른 문서 수정명령 처리 방법이 분류 대상 문서로 새로운 계약서의 수정 지시서가 입력될 경우에 수정 지시서에 포함된 지시 문장을 분류하기 이전에 기존 또는 참조 수정 지시서를 이용하여 참조 지시 문장 집합을 구성한 결과를 예시한다.
본 발명의 일실시예에 따른 문서 수정명령 처리 방법은 참조 지시 문장 집합(1020)을 조항 유형(1000) 및 명령 유형(1010)의 조합에 기반하여 결정하게 된다.
예를 들어, 조항 유형(1000)이 'subclause'이고, 명령 유형(1010)이 '문장 추가'이면 참조 지시 문장 집합(1020)은 'After the subclause 4. 18, insert the following'으로 구성될 수 있다.
참조 지시 문장 집합(1020)은 적어도 하나의 참조 단어로 구성된 적어도 하나의 참조 지시 문장을 포함한다.
참조 지시 문장인 'After the subclause 4. 18, insert the following'는 참조 단어 'subclause' 및 'insert' 등 을 포함하고 있다.
도 11a 및 도 11b는 본 발명의 일실시예에 따른 문서 수정명령 처리 방법을 적용한 시뮬레이션 결과를 설명하는 도면이다.
도 11a는 본 발명의 일실시예에 따라 문서 수정명령 처리 방법이 적용될 실제 계약서의 수정 지시서를 예시하고, 도 11b는 본 발명의 일실시예에 따라 문서 수정명령 처리 방법이 앙상블 모델을 이용하여 분류 대상 지시 문장을 분류한 결과를 예시한다.
도 11a를 참고하면, 본 발명의 일실시예에 따라 문서 수정명령 처리 방법이 적용될 실제 계약서의 수정 지시서(1100)를 예시한다.
도 11b를 참고하면, 본 발명의 일실시예에 따라 문서 수정명령 처리 방법이 적용될 텍스트 데이터를 표현하는 테이블(1110)과 테이블(1110)에 대하여 문서 수정명령 처리 방법이 적용되어 예측된 결과를 나타내는 테이블(1120)과 실제 결과를 나타내는 테이블(1130)을 예시한다.
테이블(1110) 내 분류 대상 지시문장의 지시 문장들은 수정 지시서(1100)로부터 수집되었고, 제1 지시 문장 내지 제4 지시 문장에 대하여 앙상블 모델을 이용하여 분류한 결과는 테이블(1120)이 나타내고, 테이블(1130)은 테이블(1120)의 정확도를 위한 대조군이다.
여기서, 앙상블 모델은 문장 분류 모델과 단어 분류 모델의 앙상블 기법에 기반하여 구축되고, 문장 분류 모델은 언어 모델이 이용되며, 단어 분류 모델은 Word2Vec이 이용될 수 있다.
테이블(1120)과 테이블(1130) 내 데이터를 비교하면, 본 발명의 일실시예에 따른 문서 수정명령 처리 방법이 매우 정확하고, 효과적으로 수정 지시서(1100) 내에 분류 대상 지시 문장의 유형을 분류한 것을 확인할 수 있다.
따라서, 본 발명은 기존의 수정 명령 지시서를 기반으로 계약서와 같은 문서 수정 작업에 활용되어, 문서 수정 작업의 효율성 및 정확성을 증가시킬 수 있다.
도 12는 본 발명의 일실시예에 따른 문서 수정명령 처리 방법을 설명하는 도면이다.
도 12는 본 발명의 일실시예에 따른 문서 수정명령 처리 방법이 텍스트 형식으로 작성된 문서의 수정사항을 자동으로 인식 및 분류하는 보다 빠르고 정확하게 문서 수정 작업을 처리하도록 지원하는 과정을 예시한다.
도 12를 참고하면, 단계(1201)에서 본 발명의 일실시예에 따른 문서 수정명령 처리 방법은 참조 문서 수정 지시서에 기반하여 참조 지시 문장 집합을 구성한다.
즉, 문서 수정명령 처리 방법은 참조 문서 수정 지시서로부터 수정 지시 문장을 수집하고, 수집된 수정 지시 문장에서의 복수의 수정사항을 복수의 유형으로 분류하며, 분류된 복수의 유형 각각에 대해 적어도 하나의 참조 단어로 구성된 적어도 하나의 참조 지시 문장을 저장하여 참조 지시 문장 집합을 구성할 수 있다.
단계(1202)에서 본 발명의 일실시예에 따른 문서 수정명령 처리 방법은 문장 분류 모델 및 단어 분류 모델 각각에 기반하여 대상 문서 수정 지시서에 기반한 분류 대상 지시 문장의 유형을 분류한다.
즉, 문서 수정명령 처리 방법은 대상 문서 수정 지시서로부터 분류 대상 지시 문장을 수집하고, 문장 분류 모델 및 단어 분류 모델 각각에 기반하여 기 수집된 분류 대상 지시 문장의 유형을 조항 유형 및 명령 유형의 조합에 기반한 복수의 유형 중 어느 하나의 유형으로 분류할 수 있다. 여기서, 문장 분류 모델은 언어 모델이 이용되고, 단어 분류 모델은 Word2Vec이 이용될 수 있다.
단계(1203)에서 본 발명의 일실시예에 따른 문서 수정명령 처리 방법은 앙상블 모델에 기반하여 분류 대상 지시 문장의 유형을 추가 분류한다.
즉, 문서 수정명령 처리 방법은 문장 분류 모델에 기반하여 분류된 어느 하나의 유형과 상기 단어 분류 모델에 기반하여 분류된 어느 하나의 유형을 조합하여 앙상블(Ensemble) 모델을 구축하고, 구축된 앙상블 모델의 분류 규칙에 기반하여 상기 수집된 분류 대상 지시 문장의 유형을 조항 유형 및 명령 유형의 조합에 기반한 복수의 유형 중 어느 하나의 유형으로 추가 분류할 수 있다.
단계(1204)에서 본 발명의 일실시예에 따른 문서 수정명령 처리 방법은 추가 분류된 유형에 기반하여 대상 문서 수정 지시서의 수정 사항을 인식하여 문서 수정명령을 처리한다.
즉, 문서 수정명령 처리 방법은 문장 분류 모델과 단어 분류 모델에 기반하여 1차적으로 분류되고, 문장 분류 모델과 단어 분류 모델의 앙상블 모델에 기반하여 추가 분류된 어느 하나의 유형에 따라 대상 문서 수정 지시서의 수정사항을 인식하고, 인식된 수정사항에 따라 문서 수정명령을 처리할 수 있다.
정리 하면, 문서 수정명령 처리 방법은 먼저 기존 계약서의 수정 지시서를 참조 문서 수정 지시서로 하여 수정사항이 담긴 지시 문장들을 유형화한 뒤 참조 지시 문장 집합을 구성하고, 조합 유형 및 명령 유형 각각을 분류하기 위한 잠조 단어를 선정한다.
또한, 문서 수정명령 처리 방법은 언어 모델에 해당하는 문장 분류 모델과 Word2Vec에 해당하는 단어 분류 모델을 모두 이용한 앙상블 모델을 이용하여 분류 대상인 지시 문장의 조항 유형 및 명령 유형을 분류하고, 새로운 계약서의 수정 지시서가 입력되면 지시 문장의 조항 유형 및 명령 유형을 분류 결과에 기반하여 수정 사항을 자동 인식 및 분류 처리할 수 있다.
따라서, 본 발명은 다양한 텍스트 데이터에 적용되어 텍스트 데이터 형식으로 작성된 지시 사항을 자동적으로 인식 및 분류함에 따라 국내외 산업에서 텍스트 데이터의 활용도를 증가시킬 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
100: 문서 수정명령 처리 장치
110: 참조 문장 집합 구성부 120: 제1 문장 유형 분류부
130: 제2 문장 유형 분류부 140: 수정명령 처리부

Claims (16)

  1. 참조 문서 수정 지시서로부터 수정 지시 문장을 수집하고, 상기 수집된 수정 지시 문장에서의 복수의 수정사항을 복수의 유형으로 분류하며, 상기 분류된 복수의 유형 각각에 대해 적어도 하나의 참조 단어로 구성된 적어도 하나의 참조 지시 문장을 저장하여 참조 지시 문장 집합을 구성하는 참조 문장 집합 구성부;
    대상 문서 수정 지시서로부터 분류 대상 지시 문장을 수집하고, 문장 분류 모델 및 단어 분류 모델 각각에 기반하여 상기 수집된 분류 대상 지시 문장의 유형을 상기 분류된 복수의 유형 중 어느 하나의 유형으로 분류하는 제1 문장 유형 분류부;
    상기 문장 분류 모델에 기반하여 분류된 어느 하나의 유형과 상기 단어 분류 모델에 기반하여 분류된 어느 하나의 유형을 조합하여 앙상블(Ensemble) 모델을 구축하고, 상기 구축된 앙상블 모델의 분류 규칙에 기반하여 상기 수집된 분류 대상 지시 문장의 유형을 상기 분류된 복수의 유형 중 어느 하나의 유형으로 추가 분류하는 제2 문장 유형 분류부; 및
    상기 추가 분류된 어느 하나의 유형에 기반하여 상기 대상 문서 수정 지시서의 수정사항을 인식하고, 상기 인식된 수정사항에 따라 문서 수정명령을 처리하는 수정명령 처리부를 포함하는 것을 특징으로 하는
    문서 수정명령 처리 장치.
  2. 제1항에 있어서,
    상기 참조 문장 집합 구성부는 적어도 하나의 조항 유형 및 적어도 하나의 명령 유형에 기반하여 상기 복수의 수정사항을 상기 복수의 유형으로 분류하고,
    상기 복수의 유형은 상기 적어도 하나의 조항 유형 및 상기 적어도 하나의 명령 유형의 조합에 기반하여 분류되는 것을 특징으로 하는
    문서 수정명령 처리 장치.
  3. 제2항에 있어서,
    상기 적어도 하나의 조항 유형은 문서 내 구조와 관련된 유형으로서, 하위 조항(subclause), 단락(paragraph) 및 하위 단락(sub-paragraph) 중 적어도 하나를 포함하고,
    상기 적어도 하나의 명령 유형은 수정 작업 종류와 관련된 유형으로서, 문장 추가 명령, 조항 추가 명령, 조항 대체 명령 및 조항 제거 명령 중 적어도 하나를 포함하는 것을 특징으로 하는
    문서 수정명령 처리 장치.
  4. 제3항에 있어서,
    상기 제1 문장 유형 분류부는 상기 문장 분류 모델에 기반하여 상기 수집된 분류 대상 지시 문장과 상기 저장된 적어도 하나의 참조 지시 문장으로부터 벡터 형태의 문장 임베딩(sentence embedding)들을 추출하고, 상기 추출된 문장 임베딩들 간의 코사인 유사도에 기반하여 상기 수집된 분류 대상 지시 문장의 유형을 상기 분류된 복수의 유형 중 어느 하나의 유형으로 분류하는 것을 특징으로 하는
    문서 수정명령 처리 장치.
  5. 제4항에 있어서,
    상기 제1 문장 유형 분류부는 상기 단어 분류 모델에 기반하여 상기 수집된 분류 대상 지시 문장을 구성하는 단어들과 상기 저장된 적어도 하나의 참조 단어로부터 벡터 형태의 단어 임베딩들(word embedding)을 추출하고, 상기 추출된 단어 임베딩들 간의 코사인 유사도에 기반하여 상기 수집된 분류 대상 지시 문장의 유형을 상기 분류된 복수의 유형 중 어느 하나의 유형으로 분류하는 것을 특징으로 하는
    문서 수정명령 처리 장치.
  6. 제5항에 있어서,
    상기 제1 문장 유형 분류부는 상기 단어 분류 모델에 기반하여 상기 수집된 분류 대상 지시 문장의 유형을 상기 분류된 복수의 유형 중 어느 하나의 유형으로 분류하기 이전에 상기 수집된 분류 대상 지시 문장을 구성하는 단어들과 상기 저장된 적어도 하나의 참조 단어 중 하위 단락(sub-paragraph) 단어를 변형 하위 단락(subparagraph) 단어로 변형하는 것을 특징으로 하는
    문서 수정명령 처리 장치.
  7. 제5항에 있어서,
    상기 적어도 하나의 참조 단어는 상기 적어도 하나의 조항 유형을 분류하기 위한 참조 단어로 하위 조항(subclause) 단어, 단락(paragraph) 단어 및 변형 하위 단락(subparagraph) 단어를 포함하고, 상기 적어도 하나의 명령 유형을 분류하기 위한 참조 단어로 추가(add), 대체(replace), 삭제(delete) 및 종료(end)를 포함하는 것을 특징으로 하는
    문서 수정명령 처리 장치.
  8. 제7항에 있어서,
    상기 제1 문장 유형 분류부는 상기 단어 분류 모델에 기반하여 상기 수집된 분류 대상 지시 문장을 구성하는 단어들 각각으로부터 벡터 형태의 대상 단어 임베딩을 추출하고, 상기 추출된 대상 단어 임베딩과 참조 단어 임베딩에 포함되는 상기 하위 조항(subclause) 단어, 상기 단락(paragraph) 단어 및 상기 변형 하위 단락(subparagraph) 단어 각각과의 코사인 유사도를 측정하며, 상기 측정된 코사인 유사도 중 가장 높은 유사도 값을 저장하고, 상기 추출된 단어 임베딩에 해당하는 단어의 조항 유형을 상기 저장된 가장 높은 유사도 값에 해당하는 참조 단어에 대응하는 조항 유형으로 분류하고, 상기 추출된 대상 단어 임베딩과 상기 참조 단어 임베딩에 포함되는 상기 추가(add), 상기 대체(replace), 상기 삭제(delete) 및 상기 종료(end) 각각과의 코사인 유사도를 측정하며, 상기 측정된 코사인 유사도 중 가장 높은 유사도 값을 저장하고, 상기 추출된 단어 임베딩에 해당하는 단어의 명령 유형을 상기 저장된 가장 높은 유사도 값에 해당하는 참조 단어에 대응하는 명령 유형으로 분류하는 것을 특징으로 하는
    문서 수정명령 처리 장치.
  9. 제8항에 있어서,
    상기 제1 문장 유형 분류부는 상기 추가(add)에 대하여 상기 저장된 가장 높은 유사도 값이 해당되면서, 상기 종료(add)에 대하여 상기 저장된 가장 높은 유사도 값이 사전 결정 상수보다 크거나 같을 경우 상기 추출된 대상 단어 임베딩이 포함되는 상기 수집된 분류 대상 지시 문장의 유형을 상기 문장 추가 명령으로 분류하고, 상기 추가(add)에 대하여 상기 저장된 가장 높은 유사도 값이 해당되면서, 상기 종료(add)에 대하여 상기 저장된 가장 높은 유사도 값이 사전 결정 상수보다 작을 경우 상기 추출된 대상 단어 임베딩이 포함되는 상기 수집된 분류 대상 지시 문장의 유형을 상기 조항 추가 명령으로 분류하며, 상기 삭제(delete)에 대하여 상기 저장된 가장 높은 유사도 값이 해당되면서, 상기 대체(replace)에 대하여 상기 저장된 가장 높은 유사도 값이 사전 결정 상수보다 크거나 같을 경우 상기 추출된 대상 단어 임베딩이 포함되는 상기 수집된 분류 대상 지시 문장의 유형을 상기 조항 대체 명령으로 분류하고, 상기 삭제(delete)에 대하여 상기 저장된 가장 높은 유사도 값이 해당되면서, 상기 대체(replace)에 대하여 상기 저장된 가장 높은 유사도 값이 사전 결정 상수보다 작을 경우 상기 추출된 대상 단어 임베딩이 포함되는 상기 수집된 분류 대상 지시 문장의 유형을 상기 조항 제거 명령으로 분류하는 것을 특징으로 하는
    문서 수정명령 처리 장치.
  10. 제5항에 있어서,
    상기 제2 문장 유형 분류부는 상기 구축된 앙상블 모델의 분류 규칙에 기반하여 상기 적어도 하나의 조항 유형의 경우에 대하여 상기 수집된 분류 대상 지시 문장의 유형을 상기 단어 분류 모델에 기반하여 분류된 어느 하나의 조항 유형으로 추가 분류하는 것을 특징으로 하는
    문서 수정명령 처리 장치.
  11. 제5항에 있어서,
    상기 제2 문장 유형 분류부는 상기 구축된 앙상블 모델의 분류 규칙에 기반하여 상기 적어도 하나의 명령 유형의 경우에 대하여 상기 문장 분류 모델이 상기 조항 제거 명령으로 분류하고, 상기 단어 분류 모델이 상기 조항 추가 명령으로 분류하는 경우에서는 상기 수집된 분류 대상 지시 문장의 유형을 상기 조항 추가 명령으로 추가 분류하며, 상기 문장 분류 모델이 상기 문장 추가 명령으로 분류하고, 상기 단어 분류 모델이 상기 조항 대체 명령으로 분류하는 경우에서는 상기 조항 대체 명령으로 추가 분류하는 것을 특징으로 하는
    문서 수정명령 처리 장치.
  12. 참조 문장 집합 구성부에서, 참조 문서 수정 지시서로부터 수정 지시 문장을 수집하고, 상기 수집된 수정 지시 문장에서의 복수의 수정사항을 복수의 유형으로 분류하며, 상기 분류된 복수의 유형 각각에 대해 적어도 하나의 참조 단어로 구성된 적어도 하나의 참조 지시 문장을 저장하여 참조 지시 문장 집합을 구성하는 단계;
    제1 문장 유형 분류부에서, 대상 문서 수정 지시서로부터 분류 대상 지시 문장을 수집하고, 문장 분류 모델 및 단어 분류 모델 각각에 기반하여 상기 수집된 분류 대상 지시 문장의 유형을 상기 분류된 복수의 유형 중 어느 하나의 유형으로 분류하는 단계;
    제2 문장 유형 분류부에서, 상기 문장 분류 모델에 기반하여 분류된 어느 하나의 유형과 상기 단어 분류 모델에 기반하여 분류된 어느 하나의 유형을 조합하여 앙상블(Ensemble) 모델을 구축하고, 상기 구축된 앙상블 모델의 분류 규칙에 기반하여 상기 수집된 분류 대상 지시 문장의 유형을 상기 분류된 복수의 유형 중 어느 하나의 유형으로 추가 분류하는 단계; 및
    수정명령 처리부에서, 상기 추가 분류된 어느 하나의 유형에 기반하여 상기 대상 문서 수정 지시서의 수정사항을 인식하고, 상기 인식된 수정사항에 따라 문서 수정명령을 처리하는 단계를 포함하는 것을 특징으로 하는
    문서 수정명령 처리 방법.
  13. 제12항에 있어서,
    상기 참조 문서 수정 지시서로부터 수정 지시 문장을 수집하고, 상기 수집된 수정 지시 문장에서의 복수의 수정사항을 복수의 유형으로 분류하는 단계는
    적어도 하나의 조항 유형 및 적어도 하나의 명령 유형에 기반하여 상기 복수의 수정사항을 상기 복수의 유형으로 분류하는 단계를 포함하고,
    상기 복수의 유형은 상기 적어도 하나의 조항 유형 및 상기 적어도 하나의 명령 유형의 조합에 기반하여 분류되며,
    상기 적어도 하나의 조항 유형은 문서 내 구조와 관련된 유형으로서, 하위 조항(subclause), 단락(paragraph) 및 하위 단락(sub-paragraph) 중 적어도 하나를 포함하고,
    상기 적어도 하나의 명령 유형은 수정 작업 종류와 관련된 유형으로서, 문장 추가 명령, 조항 추가 명령, 조항 대체 명령 및 조항 제거 명령 중 적어도 하나를 포함하는 것을 특징으로 하는
    문서 수정명령 처리 방법.
  14. 제13항에 있어서,
    상기 대상 문서 수정 지시서로부터 분류 대상 지시 문장을 수집하고, 문장 분류 모델 및 단어 분류 모델 각각에 기반하여 상기 수집된 분류 대상 지시 문장의 유형을 상기 분류된 복수의 유형 중 어느 하나의 유형으로 분류하는 단계는
    상기 문장 분류 모델에 기반하여 상기 수집된 분류 대상 지시 문장과 상기 저장된 적어도 하나의 참조 지시 문장으로부터 벡터 형태의 문장 임베딩(sentence embedding)들을 추출하고, 상기 추출된 문장 임베딩들 간의 코사인 유사도에 기반하여 상기 수집된 분류 대상 지시 문장의 유형을 상기 분류된 복수의 유형 중 어느 하나의 유형으로 분류하는 단계를 포함하는 것을 특징으로 하는
    문서 수정명령 처리 방법.
  15. 제14항에 있어서,
    상기 대상 문서 수정 지시서로부터 분류 대상 지시 문장을 수집하고, 문장 분류 모델 및 단어 분류 모델 각각에 기반하여 상기 수집된 분류 대상 지시 문장의 유형을 상기 분류된 복수의 유형 중 어느 하나의 유형으로 분류하는 단계는
    상기 단어 분류 모델에 기반하여 상기 수집된 분류 대상 지시 문장을 구성하는 단어들과 상기 저장된 적어도 하나의 참조 단어로부터 벡터 형태의 단어 임베딩들(word embedding)을 추출하고, 상기 추출된 단어 임베딩들 간의 코사인 유사도에 기반하여 상기 수집된 분류 대상 지시 문장의 유형을 상기 분류된 복수의 유형 중 어느 하나의 유형으로 분류하는 단계를 포함하는 것을 특징으로 하는
    문서 수정명령 처리 방법.
  16. 제15항에 있어서,
    상기 구축된 앙상블 모델의 분류 규칙에 기반하여 상기 수집된 분류 대상 지시 문장의 유형을 상기 분류된 복수의 유형 중 어느 하나의 유형으로 추가 분류하는 단계는
    상기 구축된 앙상블 모델의 분류 규칙에 기반하여 상기 적어도 하나의 조항 유형의 경우에 대하여 상기 수집된 분류 대상 지시 문장의 유형을 상기 단어 분류 모델에 기반하여 분류된 어느 하나의 조항 유형으로 추가 분류하는 단계; 및
    상기 구축된 앙상블 모델의 분류 규칙에 기반하여 상기 적어도 하나의 명령 유형의 경우에 대하여 상기 문장 분류 모델이 상기 조항 제거 명령으로 분류하고, 상기 단어 분류 모델이 상기 조항 추가 명령으로 분류하는 경우에서는 상기 수집된 분류 대상 지시 문장의 유형을 상기 조항 추가 명령으로 추가 분류하며, 상기 문장 분류 모델이 상기 문장 추가 명령으로 분류하고, 상기 단어 분류 모델이 상기 조항 대체 명령으로 분류하는 경우에서는 상기 조항 대체 명령으로 추가 분류하는 단계를 포함하는 것을 특징으로 하는
    문서 수정명령 처리 방법.
KR1020210175823A 2021-12-09 기계학습 기반의 문서 수정명령 처리 장치 및 방법 KR102666182B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210175823A KR102666182B1 (ko) 2021-12-09 기계학습 기반의 문서 수정명령 처리 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210175823A KR102666182B1 (ko) 2021-12-09 기계학습 기반의 문서 수정명령 처리 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20230087674A true KR20230087674A (ko) 2023-06-19
KR102666182B1 KR102666182B1 (ko) 2024-05-16

Family

ID=

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200125531A (ko) 2019-04-25 2020-11-04 주식회사 마이셀럽스 언어 단위와 이용 내역 간의 연관도를 이용한 항목 추천 관리 방법
KR20210086849A (ko) 2019-12-31 2021-07-09 주식회사 리걸인사이트 문서를 생성하기 위한 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200125531A (ko) 2019-04-25 2020-11-04 주식회사 마이셀럽스 언어 단위와 이용 내역 간의 연관도를 이용한 항목 추천 관리 방법
KR20210086849A (ko) 2019-12-31 2021-07-09 주식회사 리걸인사이트 문서를 생성하기 위한 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
한국등록특허 제10-2161666호, "LDA 토픽 모델링과 Word2vec을 활용한 유사 특허 문서 추천 시스템 및 방법"

Similar Documents

Publication Publication Date Title
JP7193252B2 (ja) 画像の領域のキャプション付加
Lee et al. Learning binary code with deep learning to detect software weakness
Akimushkin et al. Text authorship identified using the dynamics of word co-occurrence networks
Filice et al. Kelp: a kernel-based learning platform for natural language processing
CN111401077B (zh) 语言模型的处理方法、装置和计算机设备
KR20180062321A (ko) 딥러닝-기반 키워드에 연관된 단어를 도출하는 방법과 컴퓨터프로그램
JP2005158010A (ja) 分類評価装置・方法及びプログラム
RU2721190C1 (ru) Обучение нейронных сетей с использованием функций потерь, отражающих зависимости между соседними токенами
KR20200031154A (ko) 인공 신경망을 이용한 심층 문맥 기반 문법 오류 정정
CN110162630A (zh) 一种文本去重的方法、装置及设备
JP2003271599A (ja) データ処理方法、これを用いた情報処理システム及びプログラム
WO2014073206A1 (ja) 情報処理装置、及び、情報処理方法
Vinel et al. Experimental comparison of unsupervised approaches in the task of separating specializations within professions in job vacancies
CN114330343A (zh) 词性感知嵌套命名实体识别方法、系统、设备和存储介质
CN108875024B (zh) 文本分类方法、系统、可读存储介质及电子设备
Chan et al. Variable-depth convolutional neural network for text classification
CN111259147A (zh) 基于自适应注意力机制的句子级情感预测方法及系统
CN111078881A (zh) 细粒度情感分析方法、系统、电子设备和存储介质
Kokane et al. Word sense disambiguation: a supervised semantic similarity based complex network approach
CN112925794B (zh) 基于桥接填充的复杂多表sql生成方法和装置
US20140303962A1 (en) Ordering a Lexicon Network for Automatic Disambiguation
CN112445914A (zh) 文本分类方法、装置、计算机设备和介质
CN111639500A (zh) 语义角色标注方法、装置、计算机设备及存储介质
KR20230087674A (ko) 기계학습 기반의 문서 수정명령 처리 장치 및 방법
KR102666182B1 (ko) 기계학습 기반의 문서 수정명령 처리 장치 및 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right