KR20230017578A - 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약사항 키워드 추출 기술 - Google Patents

딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약사항 키워드 추출 기술 Download PDF

Info

Publication number
KR20230017578A
KR20230017578A KR1020210099244A KR20210099244A KR20230017578A KR 20230017578 A KR20230017578 A KR 20230017578A KR 1020210099244 A KR1020210099244 A KR 1020210099244A KR 20210099244 A KR20210099244 A KR 20210099244A KR 20230017578 A KR20230017578 A KR 20230017578A
Authority
KR
South Korea
Prior art keywords
contract
construction
name recognition
entity name
deep learning
Prior art date
Application number
KR1020210099244A
Other languages
English (en)
Inventor
지석호
문성현
이기택
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020210099244A priority Critical patent/KR20230017578A/ko
Publication of KR20230017578A publication Critical patent/KR20230017578A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/08Construction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Library & Information Science (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

딥러닝 기반 개체명 인식(NER; Named Entity Recognition) 기법을 활용한 건설공사 계약서 키워드 추출 장치에 있어서, 명령어들을 저장하는 메모리; 및 상기 명령어들을 실행함으로써: 건설공사 계약서에 기재되는 계약서 조항 단어들을 분류하기 위한 키워드 카테고리들을 설정하고, 기존 건설공사 계약서들로부터 추출되는 학습용 문장들에 기초하는 기계 학습을 통해 상기 계약서 조항 단어들을 수치화하여 임베딩 벡터들로 표현하는 단어 임베딩 모델을 생성하고, 상기 임베딩 벡터들에 기초하는 딥러닝을 기반으로 상기 계약서 조항 단어들 각각을 상기 키워드 카테고리들 중 어느 하나로 분류하는 개체명 인식 모델을 생성하고, 상기 개체명 인식 모델에 기초하여 분석 대상 건설공사 계약서에 기재되는 분석 대상 단어들 각각을 상기 키워드 카테고리들 중 어느 하나로 분류하도록 구성되는 프로세서; 를 포함하는, 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약서 키워드 추출 장치가 개시된다.

Description

딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약사항 키워드 추출 기술{TECHNIQUES FOR KEYWORD EXTRACTION ON CONSTRUCTION CONTRACT DOCUMENT USING DEEP LEARNING-BASED NAMED ENTITY RECOGNITION}
본 발명은 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약사항 키워드 추출 기술에 관한 것이다. 보다 상세하게는, 본 발명은 딥러닝 기반의 개체명 인식(NER; Named Entity Recognition) 모델을 활용하여 분석 대상 건설공사 계약서의 단어들을 키워드 카테고리들 중 어느 하나로 분류하는 장치 및 방법에 관한 것이다.
국내에서 건설 산업은 국내총생산(GDP)을 기준으로 단일 업종으로는 규모가 가장 큰 산업들 중 하나이다. 특히 근래에는 IT, 인공지능 등의 스마트 기술을 건설 산업에 적용한 스마트 건설 기술이 널리 활용되고 있으며, 그 시장이 급성장하고 있다.
건설공사 계약의 체결시에 복잡한 기술 조항들로 구성되어 있는 계약서 조항들을 검토하는 업무가 실무자들의 수작업으로 진행되는 경우가 많다. 이 때 스마트 기술을 활용하면 계약서 검토 업무의 효율성과 정확성이 향상될 수 있다. 예를 들면, 다양한 계약서 검토 모델들을 활용하여 계약서 준수 여부(ACC) 및 계약 조항의 적절성 등이 판단될 수 있다.
다만, 위와 같은 종래의 계약서 검토 모델들은 미리 설정되는 특정한 규칙들에 기반하여 분석 대상 계약서가 해당 규칙들을 만족하는지의 결과만을 제공하는 규칙 기반의 모델들에 해당하므로, 검토 대상 계약서가 구체적으로 어떻게 부적절한 것인지를 알려줄 수는 없으며, 특히 규칙 기반의 모델들에 의하면 미리 설정된 규칙들을 벗어나는 계약 리스크에 대해서는 계약서 검토 지원이 전혀 이루어질 수 없다는 점이 문제될 수 있다.
특허문헌 1: 등록특허공보 제10-2161666호(2020.09.24.)
본 발명에 의해 해결하고자 하는 기술적 과제는, 종래의 규칙 기반의 모델들이 갖는 한계점을 극복하기 위해 분석 대상 계약서의 단어들에 미리 선정된 카테고리 키워드들을 매칭시키는 딥러닝 기반의 모델을 제공하는 것이다.
전술한 기술적 과제를 해결하기 위한 수단으로서, 본 발명의 일부 실시예에 따른 딥러닝 기반 개체명 인식(NER; Named Entity Recognition) 기법을 활용한 건설공사 계약서 키워드 추출 장치는, 명령어들을 저장하는 메모리; 및 상기 명령어들을 실행함으로써: 건설공사 계약서에 기재되는 계약서 조항 단어들을 분류하기 위한 키워드 카테고리들을 설정하고, 기존 건설공사 계약서들로부터 추출되는 학습용 문장들에 기초하는 기계 학습을 통해 상기 계약서 조항 단어들을 수치화하여 임베딩 벡터들로 표현하는 단어 임베딩 모델을 생성하고, 상기 임베딩 벡터들에 기초하는 딥러닝을 기반으로 상기 계약서 조항 단어들 각각을 상기 키워드 카테고리들 중 어느 하나로 분류하는 개체명 인식 모델을 생성하고, 상기 개체명 인식 모델에 기초하여 분석 대상 건설공사 계약서에 기재되는 분석 대상 단어들 각각을 상기 키워드 카테고리들 중 어느 하나로 분류하도록 구성되는 프로세서; 를 포함한다.
본 발명의 다른 실시예에 따른 메모리에 저장되는 명령어들을 실행하는 프로세서에 의해 수행되는, 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약서 키워드 추출 방법은, 건설공사 계약서에 기재되는 계약서 조항 단어들을 분류하기 위한 키워드 카테고리들을 설정하는 단계; 기존 건설공사 계약서들로부터 추출되는 학습용 문장들에 기초하는 기계 학습을 통해 상기 계약서 조항 단어들을 수치화하여 임베딩 벡터들로 표현하는 단어 임베딩 모델을 생성하는 단계; 상기 임베딩 벡터들에 기초하는 딥러닝을 기반으로 상기 계약서 조항 단어들 각각을 상기 키워드 카테고리들 중 어느 하나로 분류하는 개체명 인식 모델을 생성하는 단계; 및 상기 개체명 인식 모델에 기초하여 분석 대상 건설공사 계약서에 기재되는 분석 대상 단어들 각각을 상기 키워드 카테고리들 중 어느 하나로 분류하는 단계; 를 포함한다.
본 발명에 따른 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약서 키워드 추출 장치 및 방법에 의하면, 단어 임베딩 모델 및 개체명 인식 모델이 생성될 수 있고, 이들을 활용하여 분석 대상 건설공사 계약서에 기재되는 분석 대상 단어들 각각이 계약서 조항 단어들을 분류하기 위해 미리 설정되는 키워드 카테고리들 중 어느 하나로 분류될 수 있다. 이와 같이 분석 대상 단어들 각각에 대해 키워드 카테고리가 식별되면, 특정 카테고리의 단어들만을 따로 모아 확인하는 등 실무자들이 건설공사 계약서를 검토하는 효율 및 정확도가 향상될 수 있다.
특히, 본 발명에 따른 개체명 인식 모델은 특정한 규칙 기반의 모델이 아니기 때문에, 다양한 계약 리스크들에 대응되는 규칙들을 설정하기 위해 오랜 시간과 비용이 소요되는 문제를 해결할 수 있으며, 별도의 규칙으로 설정되어 있지 않은 신규한 계약 리스크에 대해서도 키워드 카테고리 분류를 통해 실무자의 검토를 지원할 수 있다.
도 1은 일부 실시예에 따른 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약서 키워드 추출 기술의 개요를 설명하기 위한 도면이다.
도 2는 일부 실시예에 따른 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약서 키워드 추출 장치를 구성하는 요소들을 설명하기 위한 도면이다.
도 3은 일부 실시예에 따른 키워드 카테고리들이 선정되는 과정을 설명하기 위한 도면이다.
도 4는 일부 실시예에 따른 단어 임베딩 모델의 학습 방식 및 학습 파라미터를 설명하기 위한 도면이다.
도 5는 일부 실시예에 따른 개체명 인식 모델의 기반이 되는 LSTM 모듈을 설명하기 위한 도면이다.
도 6은 일부 실시예에 따른 Bi-LSTM 방식의 개체명 인식 모델이 동작하는 방식을 설명하기 위한 도면이다.
도 7은 일부 실시예에 따른 학습 완료된 개체명 인식 모델을 활용하여 키워드 카테고리들을 분류하는 구체적인 과정을 설명하기 위한 도면이다.
도 8은 일부 실시예에 따른 분석 대상 단어들 각각을 키워드 카테고리들 중 어느 하나로 분류한 결과를 나타내는 도면이다.
도 9는 일부 실시예에 따른 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약서 키워드 추출 방법을 구성하는 단계들을 설명하기 위한 도면이다.
이하에서는 도면을 참조하여 본 발명의 실시예들이 상세하게 설명될 것이다. 이하에서의 설명은 실시예들을 구체화하기 위한 것일 뿐, 본 발명에 따른 권리범위를 제한하거나 한정하기 위한 것은 아니다. 본 발명에 관한 기술 분야에서 통상의 지식을 가진 자가 발명의 상세한 설명 및 실시예들로부터 용이하게 유추할 수 있는 것은 본 발명에 따른 권리범위에 속하는 것으로 해석되어야 한다.
본 발명에서 사용되는 용어는 본 발명에 관한 기술 분야에서 널리 사용되는 일반적인 용어로 기재되었으나, 본 발명에서 사용되는 용어의 의미는 해당 분야에 종사하는 기술자의 의도, 새로운 기술의 출현, 심사기준 또는 판례 등에 따라 달라질 수 있다. 일부 용어는 출원인에 의해 임의로 선정될 수 있고, 이 경우 임의로 선정되는 용어의 의미가 상세하게 설명될 것이다. 본 발명에서 사용되는 용어는 단지 사전적 의미만이 아닌, 명세서의 전반적인 맥락을 반영하는 의미로 해석되어야 한다.
본 발명에서 사용되는 '구성된다' 또는 '포함한다'와 같은 용어는 명세서에 기재되는 구성 요소들 또는 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 일부 구성 요소들 또는 단계들은 포함되지 않는 경우, 및 추가적인 구성 요소들 또는 단계들이 더 포함되는 경우 또한 해당 용어로부터 의도되는 것으로 해석되어야 한다.
이하에서는 도면을 참조하여 본 발명의 실시예들이 상세하게 설명될 것이다. 본 발명에 관한 기술 분야에서 통상의 지식을 가진 자에게 널리 알려져 있는 사항들에 대해서는 자세한 설명이 생략된다.
도 1은 일부 실시예에 따른 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약서 키워드 추출 기술의 개요를 설명하기 위한 도면이다.
도 1을 참조하면, 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약서 키워드 추출 기술을 구현하기 위한 키워드 카테고리 설정 과정(10), 모델 생성 과정(20) 및 키워드 카테고리 분류 과정(30)이 도시되어 있다.
딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약서 키워드 추출 기술은 딥러닝 기반의 단어 임베딩 모델(22) 및 개체명 인식 모델(23)을 활용하여 분석 대상 건설공사 계약서(31)의 분석 대상 단어들(32)로부터 키워드 카테고리들(11)을 추출하는 기술을 의미할 수 있다. 이를 위해, 키워드 카테고리 설정 과정(10), 모델 생성 과정(20) 및 키워드 카테고리 분류 과정(30)이 수행될 수 있다.
키워드 카테고리 설정 과정(10)에서는 분석 대상 건설공사 계약서(31)의 분석 대상 단어들(32)을 분류하기 위한 키워드 카테고리들(11)이 설정될 수 있다. 예를 들면, 평균 근속 년수가 약 15년인 건설 분야의 전문가들 10인을 대상으로 어떤 키워드 카테고리가 선정되어야 하는지가 문의될 수 있고, 그 답변에 기초하여 키워드 카테고리들(11)이 설정될 수 있다.
모델 생성 과정(20)에서는 딥러닝 학습 과정을 거쳐 단어 임베딩 모델(22) 및 개체명 인식 모델(23)이 생성될 수 있다. 예를 들면, 기존에 건설공사 계약서 작성시에 표준적으로 참조되는 건설공사 표준 계약서 등을 포함하는 기존 건설공사 계약서들(21)로부터 학습 데이터를 추출하여 키워드 카테고리 추출에 활용되는 단어 임베딩 모델(22) 및 개체명 인식 모델(23)이 생성될 수 있다. 한편, 기존 건설공사 계약서들(21)은 건설공사 표준 계약서 및 건설공사 표준 시방서(specification)를 포함할 수 있다.
키워드 카테고리 분류 과정(30)에서는 분석 대상 건설공사 계약서(31)의 분석 대상 단어들(32) 각각이 키워드 카테고리들(11) 중 어느 하나로 분류될 수 있다. 분석 대상 단어들(32)은 단어 임베딩 모델(22)에 의해 수치화되어 임베딩 벡터들로 표현될 수 있고, 임베딩 벡터들은 다시 개체명 인식 모델(23)로 입력되어 분석 대상 단어들(32) 각각에 어떤 키워드 카테고리가 매칭될지가 결정될 수 있다.
딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약서 키워드 추출 기술의 키워드 카테고리 설정 과정(10), 모델 생성 과정(20) 및 키워드 카테고리 분류 과정(30)에 의하면 분석 대상 단어들(32)에 키워드 카테고리들(11)이 매칭되어, 계약서 검토 실무자의 검토 정확도 및 검토 효율이 향상될 수 있다. 특히, 개체명 인식 모델(23)은 특정한 계약 리스크에 대응되어 설정되는 규칙을 기반으로 동작하는 규칙 기반의 모델이 아니기 때문에, 미리 규칙이 설정되어 있지 않은 계약 리스크에 대해서도 카테고리 분류를 통한 검토 지원이 수행될 수 있다.
도 2는 일부 실시예에 따른 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약서 키워드 추출 장치를 구성하는 요소들을 설명하기 위한 도면이다.
도 2를 참조하면, 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약서 키워드 추출 장치(200)는 메모리(210) 및 프로세서(220)를 포함할 수 있다. 다만 이에 제한되는 것은 아니고, 도 2에 도시되는 요소들 외에 다른 범용적인 요소들이 장치(200)에 더 포함될 수 있다.
장치(200)는 키워드 카테고리 설정 과정(10), 모델 생성 과정(20) 및 키워드 카테고리 분류 과정(30)을 수행하기 위한 컴퓨팅 디바이스일 수 있다. 장치(200)는 PC, 워크스테이션, 데이터 센터 서버, 클라우드 서버 또는 하이브리드 서버 등과 같은 형태로 구현될 수 있고, 또는 스마트폰, 태블릿 PC 등의 모바일 디바이스의 형태로 구현될 수도 있다. 다만 이에 제한되는 것은 아니고, 장치(200)는 프로세싱 성능을 구비하는 다양한 전자 디바이스의 형태로 구현될 수 있다.
장치(200)는 각종 데이터, 명령어들, 적어도 하나의 프로그램 또는 소프트웨어를 저장하기 위한 수단으로서 메모리(210)를 포함할 수 있고, 명령어들 또는 적어도 하나의 프로그램을 실행함으로써 각종 데이터에 대한 처리를 수행하기 위한 수단으로서 프로세서(220)를 포함할 수 있다.
메모리(210)는 키워드 카테고리 설정 과정(10), 모델 생성 과정(20) 및 키워드 카테고리 분류 과정(30)을 수행하기 위한 각종 명령어들을 저장할 수 있다. 예를 들면, 메모리(210)는 컴퓨터 프로그램 또는 모바일/웹 애플리케이션과 같은 소프트웨어를 구성하는 명령어들을 저장할 수 있고, 애플리케이션 또는 프로그램의 실행에 필요한 각종 데이터를 저장할 수 있다.
메모리(210)는 ROM, PROM, EPROM, EEPROM, 플래시 메모리, PRAM, MRAM, RRAM, FRAM 등과 같은 비휘발성 메모리로 구현될 수 있고, 또는 DRAM, SRAM, SDRAM, PRAM, RRAM, FeRAM 등의 휘발성 메모리로 구현될 수 있다. 또는, 메모리(210)는 HDD, SSD, SD, Micro-SD 등으로 구현될 수 있다.
프로세서(220)는 메모리(210)에 저장되는 명령어들을 실행함으로써 키워드 카테고리 설정 과정(10), 모델 생성 과정(20) 및 키워드 카테고리 분류 과정(30)을 구현하기 위한 일련의 처리 과정들을 수행할 수 있다. 프로세서(220)는 장치(200)를 제어하기 위한 전반적인 기능을 수행할 수 있고, 장치(200) 내부의 각종 연산들을 처리할 수 있다.
프로세서(220)는 다수의 논리 게이트들의 어레이 또는 범용적인 마이크로 프로세서로 구현될 수 있고, 단일의 프로세서 또는 복수의 프로세서들로 구성될 수 있다. 프로세서(220)는 메모리(210)와는 별개의 구성으로, 또는 메모리(210)와 함께 일체로 구성될 수 있다. 예를 들면, 프로세서(220)는 장치(200) 내에 구비되는 CPU, GPU 및 AP 중 적어도 하나의 형태로 구현될 수 있다.
프로세서(220)는, 메모리(210)에 저장되는 명령어들을 실행함으로써, 건설공사 계약서에 기재되는 계약서 조항 단어들을 분류하기 위한 키워드 카테고리들(11)을 설정하도록 구성될 수 있다.
키워드 카테고리들(11)은 분석 대상 건설공사 계약서(31)의 분석 대상 단어들(32)을 분류하기 위해 키워드들로 표현되는 카테고리들을 의미할 수 있다. 분석 대상 단어들(32)로부터 키워드 카테고리들(11)이 추출되는 경우, 계약서 검토 실무자가 분석 대상 건설공사 계약서(31)를 검토하는 정확도 및 효율이 향상될 수 있다.
프로세서(220)는, 메모리(210)에 저장되는 명령어들을 실행함으로써, 기존 건설공사 계약서들(21)로부터 추출되는 학습용 문장들에 기초하는 기계 학습을 통해 계약서 조항 단어들을 수치화하여 임베딩 벡터들로 표현하는 단어 임베딩 모델(22)을 생성하도록 구성될 수 있다.
계약서 조항 단어들 각각이 키워드 카테고리들(11) 중 어떤 것에 매칭되는지를 판별하는 개체명 인식 모델(23)의 연산 과정이 동작하기 위해서는 계약서 조항 단어들을 임베딩 벡터들로 수치화하여 벡터 공간에 맵핑시킬 것이 요구될 수 있다. 이를 위해 기존 건설공사 계약서들(21)로부터 추출되는 학습용 문장들에 기초하는 기계 학습을 통해 단어 임베딩 모델(22)이 생성될 수 있다.
프로세서(220)는, 메모리(210)에 저장되는 명령어들을 실행함으로써, 임베딩 벡터들에 기초하는 딥러닝을 기반으로 계약서 조항 단어들 각각을 키워드 카테고리들(11) 중 어느 하나로 분류하는 개체명 인식 모델(23)을 생성하도록 구성될 수 있다.
개체명 인식 모델(23)은 계약서 조항 단어들로부터 변환되는 임베딩 벡터들을 입력으로 받아 계약서 조항 단어들이 각각 어떤 키워드 카테고리들(11)에 해당하는지를 분류하는 RNN(Recurrent Neural Network) 모델을 학습시킴으로써 생성될 수 있다. 예를 들면, 계약서 조항 단어와 그에 가장 부합하는 키워드 카테고리의 페어의 복수개로 구성되는 학습 데이터에 기초하여 RNN 모델의 학습이 수행될 수 있다.
프로세서(220)는, 메모리(210)에 저장되는 명령어들을 실행함으로써, 개체명 인식 모델(23)에 기초하여 분석 대상 건설공사 계약서(31)에 기재되는 분석 대상 단어들(32) 각각을 키워드 카테고리들(11) 중 어느 하나로 분류하도록 구성될 수 있다.
분석 대상 건설공사 계약서(31)에 대한 데이터 포맷 변환을 통해 TXT 포맷의 분석 대상 단어들(32)이 생성될 수 있고, 개체명 인식 모델(23)에 의해 분석 대상 단어들(32)에 키워드 카테고리들(11)이 매칭될 수 있다. 이와 같이 분석 대상 단어들(32) 각각이 키워드 카테고리들(11) 중 어느 하나로 분류되면, 계약서 검토 실무자는 분류 결과를 활용하여 보다 정확하고 용이하게 계약 리스크를 검토할 수 있다.
도 3은 일부 실시예에 따른 키워드 카테고리들이 선정되는 과정을 설명하기 위한 도면이다.
도 3을 참조하면, 키워드 카테고리 설정 과정(10)을 수행하기 이전에, 키워드 카테고리들이 선정되는 과정을 설명하기 위한 표(310) 및 표(320)가 도시되어 있다.
표(310)와 관련하여, 키워드 카테고리들(11)은 계약서 조항 단어들을 검토함으로써 파악하고자 하는 계약 리스크 관련 질문들을 선정하는 과정 및 계약 리스크 관련 질문들에 대한 답변을 도출하기 위해 활용되는 핵심 정보의 종류를 정의하는 과정을 거쳐 설정될 수 있다.
계약 리스크 관련 질문들은 표(310)의 첫번째 열에서와 같이 건설공사 계약서 검토시에 확인해야 하는 확인 사항들을 의미할 수 있다. 예를 들면, 평균 근속 년수가 약 15년인 건설 분야의 전문가들 10인을 대상으로 문의한 결과로 계약 리스크 관련 질문들이 선정될 수 있다.
계약 리스크 관련 질문들에 대해, 표(310)의 두번째 및 세번째 열들에서와 같이 답변 도출을 위해 활용되는 핵심 정보의 종류가 정의될 수 있다. 이와 같은 핵심 정보의 종류에 의하면 계약 리스크 관련 질문들에 대한 답변이 이루어질 수 있어, 실무자의 계약서 검토 업무가 보다 체계적으로 수행될 수 있다.
표(320)와 관련하여, 키워드 카테고리들(11)은 누구의 책임인지의 제1 질문에 관한 주체/기관(ORG), 무엇을 언제까지 완료해야 하는지의 제2 질문에 관한 건설 객체(ACT) 및 계약 기준(ELM), 어떻게 얼마나 수행해야 하는지의 제3 질문에 관한 행위(STM) 및 계약 기준(ELM), 및 어떤 기준을 참조해야 하는지의 제4 질문에 관한 참조문헌(REF)을 포함할 수 있다.
표(320)에서와 같이 4개의 계약 리스크 관련 질문들에 관한 5개의 키워드 카테고리들(11)이 설정되고, 이에 더하여 달리 분류되지 않는 단어들을 처리하기 위한 미지정 카테고리(NON)가 설정되면, 이후 개체명 인식 모델(23)에 의해 분석 대상 건설공사 계약서(31)의 분석 대상 단어들(32) 각각이 6개의 키워드 카테고리들(11) 중 어느 하나로 분류될 수 있어, 그로부터 실무자가 계약서를 검토하는 업무가 보다 원활하게 진행될 수 있다.
도 4는 일부 실시예에 따른 단어 임베딩 모델의 학습 방식 및 학습 파라미터를 설명하기 위한 도면이다.
도 4를 참조하면, 기존 건설공사 계약서들(21)로부터 추출되는 학습용 문장들에 기초하여 단어 임베딩 모델(22)을 생성하기 위한 학습 방식(410) 및 단어 임베딩 모델(22)의 학습 파라미터를 설명하기 위한 표(420)가 도시되어 있다.
학습 방식(410)에 도시된 바와 같이, 단어 임베딩 모델(22)은 말뭉치(corpus) 내의 단어들을 임베딩 벡터들로 변환하는 워드 투 벡터(word2vec) 모델일 수 있다. word2vec 모델은 학습 소요 시간 대비 모델 성능이 준수하기 때문에 세계적으로 널리 활용되고 있으며, 개별 단어 자체가 아닌 주변 단어들의 분포에 따라 임베딩 벡터 변환을 수행할 수 있으므로 변환 결과인 임베딩 벡터에 단어 자체의 의미 외에도 단어 주변의 컨텍스트가 반영될 수 있다.
학습 방식(410)에서와 같이, word2vec 모델의 학습 방식으로는 (a) CBOW(Countinuous Bag-of-Words) 방식 및 (b) 스킵-그램(skip-gram) 방식의 두 가지가 존재할 수 있다. (a) CBOW 방식은 중심 단어를 주변 단어들과 유사해지도록 수정하는 방식을, (b) 스킵-그램 방식은 중심 단어로부터 예측되는 예측 단어들이 실제 주변 단어들과 유사해지도록 수정하는 방식을 의미할 수 있다. 본 발명에서는, 단어 임베딩 모델(22)이 (b) 스킵-그램 방식으로 학습되는 word2vec 모델일 수 있다.
표(420)에서는 (b) 스킵-그램 방식으로 단어 임베딩 모델(22)을 학습시키는 과정에서 활용되는 하이퍼파라미터들이 표시될 수 있다. 표(420)에 도시되어 있는 파라미터들은 일반적으로 좋은 성능을 보인다고 알려진 값들을 초기값들로 설정한 이후, 반복적인 실험을 통해 단어 임베딩 모델(22)을 위해 가장 적합한 값들로 수정된 것을 의미할 수 있다.
위와 같은 학습 방식(410) 및 표(420)와 관련하여, 단어 임베딩 모델(22)은 스킵-그램(skip-gram) 방식의 워드 투 벡터(word2vec) 모델일 수 있고, word2vec 모델은 200의 벡터 차원 크기(VectorSize), 10의 학습시 주변 단어 개수(WindowSize), 10의 최소 등장 빈도(MinimumCount) 및 200의 학습 반복수(Epochs)의 하이퍼파라미터들을 가질 수 있다.
도 5는 일부 실시예에 따른 개체명 인식 모델의 기반이 되는 LSTM 모듈을 설명하기 위한 도면이다.
도 5를 참조하면, 개체명 인식 모델(23)의 기반이 되는 LSTM 모듈의 아키텍처(510) 및 LSTM 모듈의 학습 과정에 관한 구체적인 수식(520)이 도시되어 있다.
LSTM 모듈의 아키텍처(510)와 관련하여, 개체명 인식 모델(23)은 입력 단어(x t )에 대한 출력 카테고리(h t )를 입력 단어(x t )와 인접하는 이전 단어(x t-1 )에 대한 이전 카테고리(h t-1 ) 및 이전 단어(x t-1 )의 이전 셀 상태(C t-1 )에 기초하여 결정하는 LSTM(Long Short-Term Memory) 모듈을 양방향으로 적용하는 Bi-LSTM(Bidirectional LSTM) 모델일 수 있다.
개체명 인식 모델(23)에는, 현재 시점(t)의 출력 카테고리(h t )를 도출할 때 이전 시점(t-1)의 이전 카테고리(h t-1 ) 및 이전 셀 상태(C t-1 )를 고려하는 순방향의 LSTM 모듈 및 현재 시점(t)의 출력 카테고리(h t )를 도출할 때 이후 시점(t+1)의 이후 카테고리(h t+1 ) 및 이후 셀 상태(C t+1 )를 고려하는 역방향의 LSTM 모듈이 함께 적용될 수 있다. 즉, 개체명 인식 모델(23)은 특정 단어의 키워드 카테고리를 결정할 때 앞뒤에 등장하는 단어들을 양쪽 방향에서 확인한 후 키워드 카테고리를 결정할 수 있다.
LSTM 모듈의 아키텍처(510)에서의 구체적인 연산 과정은 수식(520)과 같이 표시될 수 있다. 수식 1 내지 3의 f t , i t o t 는 각각 forget gate, input gate 및 output gate를 의미할 수 있고, 수식 4 내지 5의 C t 는 시점 t에서의 셀 스테이트(cell state)를 의미할 수 있다. x t h t 는 각각 시점 t에서의 입력 및 출력을 의미할 수 있고, WU는 파라미터들의 가중치를 결정하는 매트릭스를 의미할 수 있다. σ g 는 활성화 함수(activation function)을, b는 편향 벡터(bias vector)를 의미할 수 있다.
도 6은 일부 실시예에 따른 Bi-LSTM 방식의 개체명 인식 모델이 동작하는 방식을 설명하기 위한 도면이다.
도 6을 참조하면, Bi-LSTM 방식의 개체명 인식 모델(23)의 동작 방식(600)이 도시되어 있다. 동작 방식(600)에서는, 입력 단어들(610)에 해당하는 분석 대상 건설공사 계약서(31)의 분석 대상 단어들(32)이 단어 임베딩 모델(22)에 의해 W2V 임베딩 벡터들(620)로 변환될 수 있고, Bi-LSTM 방식의 개체명 인식 모델(23)의 연산 과정(630)을 거쳐 입력 단어들(610)에 대응되는 키워드 카테고리들(11)이 출력 카테고리들(640)로 생성될 수 있다.
동작 방식(600)의 연산 과정(630)에서는 순방향의 LSTM 모듈과 역방향의 LSTM 모듈이 함께 작용하여 단어 앞뒤에 등장하는 단어들이 양쪽 방향으로 확인될 수 있으므로, 동일한 내용을 다르게 표현한 문장도 이해될 수 있고, 건설문서 계약서가 다양한 형식과 양식으로 작성되더라도 키워드 카테고리 분류가 수행될 수 있다. 특히, Bi-LSTM 방식의 개체명 인식 모델(23)은 종래의 모델들과는 달리 규칙 기반으로 동작하는 것이 아니므로, 별도의 규칙으로 설정되어 있지 않은 신규한 계약 리스크에 대해서도 실무자 계약서 검토 지원이 이루어질 수 있다.
도 7은 일부 실시예에 따른 학습 완료된 개체명 인식 모델을 활용하여 키워드 카테고리들을 분류하는 구체적인 과정을 설명하기 위한 도면이다.
도 7을 참조하면, 학습 완료된 개체명 인식 모델(23)을 활용하여 키워드 카테고리들(11)을 분류하는 키워드 카테고리 분류 과정(30)의 상세 단계들(710) 및 상세 단계들(710)에서의 모델 평가 단계의 예시적인 결과를 나타내는 표(720)가 도시되어 있다.
상세 단계들(710)과 관련하여, 프로세서(220)는, 분석 대상 단어들(32) 각각을 분류할 때, 분석 대상 건설공사 계약서(31)의 데이터 포맷을 텍스트 형식으로 변환하여 분석 대상 코퍼스를 구축할 수 있고, 개체명 인식 모델(23)을 활용하여 분석 대상 코퍼스의 단어들을 키워드 카테고리들(11) 중 어느 하나로 분류할 수 있고, 분석 대상 코퍼스의 단어들의 분류 결과를 기반으로 개체명 인식 모델(23)의 정확도(Precision), 정밀도(Recall) 및 F1 점수를 평가할 수 있다.
상세 단계들(710)의 첫번째 데이터 준비 단계의 경우, 일반적으로 HWP, DOC 및 PDF 등의 포맷으로 관리되는 분석 대상 건설공사 계약서(31)가 PDF2TXT 과 같은 상용 프로그램을 사용하여 TXT 포맷으로 변환되어 분석 대상 코퍼스가 구축될 수 있다. 예를 들면, 분석 대상 코퍼스는 줄바꿈 기호(\n)로 구분되는 파이썬(Python) 리스트(List) 자료형으로 구축되는 텍스트 집합을 의미할 수 있다.
상세 단계들(710)의 두번째 키워드 인식 단계의 경우, 사전에 미리 학습 완료되어 있는 단어 임베딩 모델(22) 및 개체명 인식 모델(23)의 파이썬 소스 코드를 실행하여 키워드 카테고리 분류 과정(30)이 실행될 수 있고, 그 예시적인 결과는 도 8에서와 같을 수 있다.
상세 단계들(710)의 세번째 모델 평가 단계의 경우, 도 8에서와 같은 카테고리 분류 결과에 기초하여 개체명 인식 모델(23)의 정확도(Precision), 정밀도(Recall) 및 F1 점수가 평가될 수 있다. 예를 들면, 표(720)에서와 같이 6종의 키워드 카테고리들(11) 각각 및 전체 평균에 대해 정확도(Precision), 정밀도(Recall) 및 F1 점수가 산출될 수 있다. 도시된 바와 같이, 본 발명에 따른 건설공사 계약서 키워드 추출 기술은 전반적으로 준수한 성능을 갖는다는 점이 확인될 수 있다.
도 8은 일부 실시예에 따른 분석 대상 단어들 각각을 키워드 카테고리들 중 어느 하나로 분류한 결과를 나타내는 도면이다.
도 8을 참조하면, 기존 건설공사 계약서들(21)로부터 포맷 변환을 통해 추출되는 분석 대상 코퍼스(810) 및 분석 대상 코퍼스(810)에 대해 카테고리 분류가 수행된 결과(820)가 도시되어 있다.
결과(820)에 도시된 바와 같이, 분석 대상 코퍼스(810)의 단어들 각각에는 6종의 키워드 카테고리들(11) 중 어느 하나가 추출되어 있다. 이를 통해, 실무자의 계약서 검토가 보다 정확하고 효율적으로 수행될 수 있고, 특정 카테고리만을 필터링하여 집중적으로 검토하는 것도 가능해질 수 있으며, 계약 리스크 검토를 위한 규칙들이 세밀하게 설정되지 않더라도 범용적인 계약서 검토 지원이 이루어질 수 있다.
도 9는 일부 실시예에 따른 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약서 키워드 추출 방법을 구성하는 단계들을 설명하기 위한 도면이다.
도 9를 참조하면, 방법(900)은 단계(910) 내지 단계(940)를 포함할 수 있다. 다만 이에 제한되는 것은 아니고, 단계(910) 내지 단계(940) 외의 다른 범용적인 단계들이 방법(900)에 더 포함될 수 있다.
도 9의 방법(900)은 도 1 내지 도 8을 통해 설명된 장치(200)에서 시계열적으로 처리되는 단계들로 구성될 수 있다. 따라서, 이하에서 생략되는 내용이라 할지라도 이상에서 장치(200)에 대해 설명되는 내용은 방법(900)에 대해서도 동일하게 적용될 수 있다.
단계(910)에서, 장치(200)는 건설공사 계약서에 기재되는 계약서 조항 단어들을 분류하기 위한 키워드 카테고리들을 설정할 수 있다.
키워드 카테고리들은 계약서 조항 단어들을 검토함으로써 파악하고자 하는 계약 리스크 관련 질문들을 선정하는 과정 및 계약 리스크 관련 질문들에 대한 답변을 도출하기 위해 활용되는 핵심 정보의 종류를 정의하는 과정을 거쳐 설정될 수 있다.
키워드 카테고리들은 누구의 책임인지의 제1 질문에 관한 주체/기관(ORG), 무엇을 언제까지 완료해야 하는지의 제2 질문에 관한 건설 객체(ACT) 및 계약 기준(ELM), 어떻게 얼마나 수행해야 하는지의 제3 질문에 관한 행위(STM) 및 계약 기준(ELM), 및 어떤 기준을 참조해야 하는지의 제4 질문에 관한 참조문헌(REF)을 포함할 수 있다.
단계(920)에서, 장치(200)는 기존 건설공사 계약서들로부터 추출되는 학습용 문장들에 기초하는 기계 학습을 통해 계약서 조항 단어들을 수치화하여 임베딩 벡터들로 표현하는 단어 임베딩 모델을 생성할 수 있다.
단어 임베딩 모델은 스킵-그램(skip-gram) 방식의 워드 투 벡터(word2vec) 모델일 수 있고, word2vec 모델은 200의 벡터 차원 크기(VectorSize), 10의 학습시 주변 단어 개수(WindowSize), 10의 최소 등장 빈도(MinimumCount) 및 200의 학습 반복수(Epochs)의 하이퍼파라미터들을 가질 수 있다.
단계(930)에서, 장치(200)는 임베딩 벡터들에 기초하는 딥러닝을 기반으로 계약서 조항 단어들 각각을 키워드 카테고리들 중 어느 하나로 분류하는 개체명 인식 모델을 생성할 수 있다.
개체명 인식 모델은 입력 단어(x t )에 대한 출력 카테고리(h t )를 입력 단어(x t )와 인접하는 이전 단어(x t-1 )에 대한 이전 카테고리(h t-1 ) 및 이전 단어(x t-1 )의 이전 셀 상태(C t-1 )에 기초하여 결정하는 LSTM(Long Short-Term Memory) 모듈을 양방향으로 적용하는 Bi-LSTM(Bidirectional LSTM) 모델일 수 있다.
단계(940)에서, 장치(200)는 개체명 인식 모델에 기초하여 분석 대상 건설공사 계약서에 기재되는 분석 대상 단어들 각각을 키워드 카테고리들 중 어느 하나로 분류할 수 있다.
분석 대상 단어들 각각을 분류할 때, 장치(200)는, 분석 대상 건설공사 계약서의 데이터 포맷을 텍스트 형식으로 변환하여 분석 대상 코퍼스를 구축할 수 있고, 개체명 인식 모델을 활용하여 분석 대상 코퍼스의 단어들을 키워드 카테고리들 중 어느 하나로 분류할 수 있고, 분석 대상 코퍼스의 단어들의 분류 결과를 기반으로 개체명 인식 모델의 정확도(Precision), 정밀도(Recall) 및 F1 점수를 평가할 수 있다.
기존 건설공사 계약서들은 건설공사 표준 계약서 및 건설공사 표준 시방서(specification)를 포함할 수 있다.
한편 방법(900)은, 그 방법을 실행하는 명령어들을 포함하는 적어도 하나의 프로그램 또는 소프트웨어가 기록되는 컴퓨터로 판독 가능한 기록 매체에 기록될 수 있다.
컴퓨터로 판독 가능한 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령어의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드가 포함될 수 있다.
이상에서 본 발명의 실시예들이 상세하게 설명되었으나 본 발명에 따른 권리범위가 이에 한정되는 것은 아니고, 다음의 청구범위에 기재되어 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명에 따른 권리범위에 포함되는 것으로 해석되어야 한다.

Claims (8)

  1. 딥러닝 기반 개체명 인식(NER; Named Entity Recognition) 기법을 활용한 건설공사 계약서 키워드 추출 장치에 있어서,
    명령어들을 저장하는 메모리; 및
    상기 명령어들을 실행함으로써:
    건설공사 계약서에 기재되는 계약서 조항 단어들을 분류하기 위한 키워드 카테고리들을 설정하고,
    기존 건설공사 계약서들로부터 추출되는 학습용 문장들에 기초하는 기계 학습을 통해 상기 계약서 조항 단어들을 수치화하여 임베딩 벡터들로 표현하는 단어 임베딩 모델을 생성하고,
    상기 임베딩 벡터들에 기초하는 딥러닝을 기반으로 상기 계약서 조항 단어들 각각을 상기 키워드 카테고리들 중 어느 하나로 분류하는 개체명 인식 모델을 생성하고,
    상기 개체명 인식 모델에 기초하여 분석 대상 건설공사 계약서에 기재되는 분석 대상 단어들 각각을 상기 키워드 카테고리들 중 어느 하나로 분류하도록 구성되는 프로세서; 를 포함하는, 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약서 키워드 추출 장치.
  2. 제 1 항에 있어서,
    상기 키워드 카테고리들은 상기 계약서 조항 단어들을 검토함으로써 파악하고자 하는 계약 리스크 관련 질문들을 선정하는 과정 및 상기 계약 리스크 관련 질문들에 대한 답변을 도출하기 위해 활용되는 핵심 정보의 종류를 정의하는 과정을 거쳐 설정되는, 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약서 키워드 추출 장치.
  3. 제 2 항에 있어서,
    상기 키워드 카테고리들은 누구의 책임인지의 제1 질문에 관한 주체/기관(ORG), 무엇을 언제까지 완료해야 하는지의 제2 질문에 관한 건설 객체(ACT) 및 계약 기준(ELM), 어떻게 얼마나 수행해야 하는지의 제3 질문에 관한 행위(STM) 및 상기 계약 기준(ELM), 및 어떤 기준을 참조해야 하는지의 제4 질문에 관한 참조문헌(REF)을 포함하는, 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약서 키워드 추출 장치.
  4. 제 1 항에 있어서,
    상기 단어 임베딩 모델은 스킵-그램(skip-gram) 방식의 워드 투 벡터(word2vec) 모델이고,
    상기 word2vec 모델은 200의 벡터 차원 크기(VectorSize), 10의 학습시 주변 단어 개수(WindowSize), 10의 최소 등장 빈도(MinimumCount) 및 200의 학습 반복수(Epochs)의 하이퍼파라미터들을 갖는, 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약서 키워드 추출 장치.
  5. 제 1 항에 있어서,
    상기 개체명 인식 모델은 입력 단어(x t )에 대한 출력 카테고리(h t )를 입력 단어(x t )와 인접하는 이전 단어(x t-1 )에 대한 이전 카테고리(h t-1 ) 및 상기 이전 단어(x t-1 )의 이전 셀 상태(C t-1 )에 기초하여 결정하는 LSTM(Long Short-Term Memory) 모듈을 양방향으로 적용하는 Bi-LSTM(Bidirectional LSTM) 모델인, 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약서 키워드 추출 장치.
  6. 제 1 항에 있어서,
    상기 프로세서는, 상기 분석 대상 단어들 각각을 분류할 때,
    상기 분석 대상 건설공사 계약서의 데이터 포맷을 텍스트 형식으로 변환하여 분석 대상 코퍼스를 구축하고,
    상기 개체명 인식 모델을 활용하여 상기 분석 대상 코퍼스의 단어들을 상기 키워드 카테고리들 중 어느 하나로 분류하고,
    상기 분석 대상 코퍼스의 단어들의 분류 결과를 기반으로 상기 개체명 인식 모델의 정확도(Precision), 정밀도(Recall) 및 F1 점수를 평가하는, 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약서 키워드 추출 장치.
  7. 제 1 항에 있어서,
    상기 기존 건설공사 계약서들은 건설공사 표준 계약서 및 건설공사 표준 시방서(specification)를 포함하는, 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약서 키워드 추출 장치.
  8. 메모리에 저장되는 명령어들을 실행하는 프로세서에 의해 수행되는, 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약서 키워드 추출 방법에 있어서,
    건설공사 계약서에 기재되는 계약서 조항 단어들을 분류하기 위한 키워드 카테고리들을 설정하는 단계;
    기존 건설공사 계약서들로부터 추출되는 학습용 문장들에 기초하는 기계 학습을 통해 상기 계약서 조항 단어들을 수치화하여 임베딩 벡터들로 표현하는 단어 임베딩 모델을 생성하는 단계;
    상기 임베딩 벡터들에 기초하는 딥러닝을 기반으로 상기 계약서 조항 단어들 각각을 상기 키워드 카테고리들 중 어느 하나로 분류하는 개체명 인식 모델을 생성하는 단계; 및
    상기 개체명 인식 모델에 기초하여 분석 대상 건설공사 계약서에 기재되는 분석 대상 단어들 각각을 상기 키워드 카테고리들 중 어느 하나로 분류하는 단계; 를 포함하는, 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약서 키워드 추출 방법.
KR1020210099244A 2021-07-28 2021-07-28 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약사항 키워드 추출 기술 KR20230017578A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210099244A KR20230017578A (ko) 2021-07-28 2021-07-28 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약사항 키워드 추출 기술

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210099244A KR20230017578A (ko) 2021-07-28 2021-07-28 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약사항 키워드 추출 기술

Publications (1)

Publication Number Publication Date
KR20230017578A true KR20230017578A (ko) 2023-02-06

Family

ID=85223857

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210099244A KR20230017578A (ko) 2021-07-28 2021-07-28 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약사항 키워드 추출 기술

Country Status (1)

Country Link
KR (1) KR20230017578A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116957822A (zh) * 2023-09-21 2023-10-27 太平金融科技服务(上海)有限公司 表单的检测方法、装置、电子设备及存储介质
KR102670255B1 (ko) 2023-08-16 2024-05-30 한국건설기술연구원 Ifc 스키마 구조를 지니는 bim 데이터를 활용한 건설분야 개체명 사전 자동 구축 방법 및 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102161666B1 (ko) 2020-04-22 2020-10-05 한밭대학교 산학협력단 LDA 토픽 모델링과 Word2vec을 활용한 유사 특허 문서 추천 시스템 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102161666B1 (ko) 2020-04-22 2020-10-05 한밭대학교 산학협력단 LDA 토픽 모델링과 Word2vec을 활용한 유사 특허 문서 추천 시스템 및 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102670255B1 (ko) 2023-08-16 2024-05-30 한국건설기술연구원 Ifc 스키마 구조를 지니는 bim 데이터를 활용한 건설분야 개체명 사전 자동 구축 방법 및 장치
CN116957822A (zh) * 2023-09-21 2023-10-27 太平金融科技服务(上海)有限公司 表单的检测方法、装置、电子设备及存储介质
CN116957822B (zh) * 2023-09-21 2023-12-12 太平金融科技服务(上海)有限公司 表单的检测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111026842B (zh) 自然语言处理方法、自然语言处理装置及智能问答系统
Wang et al. Dependency-based long short term memory network for drug-drug interaction extraction
US11144725B2 (en) Predictive natural language rule generation
WO2021047186A1 (zh) 咨询对话处理的方法、装置、设备及存储介质
US10796104B1 (en) Systems and methods for constructing an artificially diverse corpus of training data samples for training a contextually-biased model for a machine learning-based dialogue system
Katz et al. Natural language processing in the legal domain
US20210133630A1 (en) Model induction method for explainable a.i.
US11183175B2 (en) Systems and methods implementing data query language and utterance corpus implements for handling slot-filling and dialogue intent classification data in a machine learning task-oriented dialogue system
KR20230017578A (ko) 딥러닝 기반 개체명 인식 기법을 활용한 건설공사 계약사항 키워드 추출 기술
KR20200139008A (ko) 딥러닝 기술을 활용한 법률서비스 이용자의 의도분석 기반 계약서 추천 및 자동완성 서비스
Biswas et al. Scope of sentiment analysis on news articles regarding stock market and GDP in struggling economic condition
CN115860006A (zh) 一种基于语义句法的方面级情感预测方法及装置
US20230177267A1 (en) Automated classification and interpretation of life science documents
CN114647713A (zh) 基于虚拟对抗的知识图谱问答方法、设备及存储介质
Corchado et al. Generative artificial intelligence: fundamentals
WO2023134676A1 (en) Method and system for automatically formulating optimization problem using machine learning
Fan et al. A medical pre-diagnosis system for histopathological image of breast cancer
US20210166138A1 (en) Systems and methods for automatically detecting and repairing slot errors in machine learning training data for a machine learning-based dialogue system
US11501071B2 (en) Word and image relationships in combined vector space
Ochodek Approximation of COSMIC functional size of scenario-based requirements in Agile based on syntactic linguistic features—a replication study
JP6509391B1 (ja) 計算機システム
Oswal Identifying and categorizing offensive language in social media
JP6976482B1 (ja) 情報処理装置、生成方法、及び生成プログラム
US12008341B2 (en) Systems and methods for generating natural language using language models trained on computer code
Langholz Oculum afficit: Ocular affect recognition

Legal Events

Date Code Title Description
E902 Notification of reason for refusal