KR20210056131A - 법령 분야 질의 응답 방법 및 장치 - Google Patents

법령 분야 질의 응답 방법 및 장치 Download PDF

Info

Publication number
KR20210056131A
KR20210056131A KR1020190142837A KR20190142837A KR20210056131A KR 20210056131 A KR20210056131 A KR 20210056131A KR 1020190142837 A KR1020190142837 A KR 1020190142837A KR 20190142837 A KR20190142837 A KR 20190142837A KR 20210056131 A KR20210056131 A KR 20210056131A
Authority
KR
South Korea
Prior art keywords
query
statutory
field
user
legal
Prior art date
Application number
KR1020190142837A
Other languages
English (en)
Other versions
KR102600703B1 (ko
Inventor
허정
김현
배용진
임준호
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020190142837A priority Critical patent/KR102600703B1/ko
Publication of KR20210056131A publication Critical patent/KR20210056131A/ko
Application granted granted Critical
Publication of KR102600703B1 publication Critical patent/KR102600703B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Technology Law (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 입력된 법령 분야 질의로부터 하나 이상의 키워드를 추출하는 단계; 상기 키워드에 기반하여 상기 법령 분야 질의와 유사한 하나 이상의 질의를 저장된 로그 데이터로부터 선정하는 단계; 상기 로그 데이터로부터 선정된 질의와 상기 법령 분야 질의 간 유사도에 따라 하나 이상의 법령 내용을 검색하는 단계; 상기 하나 이상의 법령 내용의 키워드와 상기 법령 분야 질의의 키워드를 비교하여 각 법령 내용에 대한 키워드 매칭률을 산출하는 단계; 상기 키워드 매칭률에 기반하여 기계 독해(Machine Reading Comprehension) 기술을 각 법령 내용에 적용하여 점수를 부여하는 단계; 및 상기 점수에 따라 법령 내용의 순위를 결정하여 정답을 제공하는 단계를 포함하는, 법령 분야 질의 응답 방법을 개시한다.

Description

법령 분야 질의 응답 방법 및 장치{APPARATUS AND METHOD FOR ANSWERING QUESTIONS RELATED TO LEGAL FIELD}
본 발명은 법령 분야에 관련된 질의에 응답하는 방법 및 장치에 관한 것으로, 더욱 상세하게는 법령 문서의 특징을 고려한 딥 러닝 알고리즘을 활용하여 법령 분야에 관련된 질의에 응답하는 방법 및 장치에 관한 것이다.
질의 응답(Question and Answering)은 사용자의 질의(Question)에 대한 정답(Answer)과 근거(Evidence)를 색인된 문서나 지식(Knowledge)으로부터 찾아서 제공하는 기술이다. 기존 질의 응답 기술은 구조화된 지식 베이스로부터 정답을 찾는 방법 또는 개체명(Named Entity)에 기반하여 정답을 찾는 방법을 사용한다.
지식 베이스로부터 정답을 찾는 질의 응답 방법은 사용자의 질문을 지식 베이스 검색을 위해 구조화된 질의(Structed Query)로 변환하여 검색한다. 따라서, 지식 베이스로부터 정답을 찾는 질의 응답 방법은 지식 베이스로 구조화된 지식만을 대상으로 하기 때문에 지식 베이스에 의존적인 단점이 있다.
또한, 개체명에 기반하여 정답을 찾는 방법은 인명, 지명 및 기관명과 같은 개체(Entity)만을 대상으로 정답을 찾는다. 따라서, 고유명사에 해당하는 개체만을 대상으로 정답을 제시할 수 있으므로, 서술형이나 개체명에 해당되지 않는 정답은 제시될 수 없는 단점이 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 지식 베이스의 의존성 문제, 개체명 정답만을 제시할 수 있는 한계를 해소하는 기계 독해 기술을 적용하여 정답을 추출하는 데 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 다른 목적은, 기계 독해 기술을 질의 응답에 적용하기 위해 정답이 포함된 단락을 정확히 검색하는 방법을 제공하는 데 있다.
싱기와 같은 문제점을 해결하기 위한 본 발명의 또 다른 목적은, 질의 응답을 위한 법령 검색 및 기계 독해 기술이 적용될 때 고려해야 하는 다양한 법령 문서의 특징을 기술적으로 활용하는 방법을 제공하는 데 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 법령 분야 질의 응답 방법은, 입력된 법령 분야 질의로부터 하나 이상의 키워드를 추출하는 단계; 상기 키워드에 기반하여 상기 법령 분야 질의와 유사한 하나 이상의 질의를 저장된 로그 데이터로부터 선정하는 단계; 상기 로그 데이터로부터 선정된 질의와 상기 법령 분야 질의 간 유사도에 따라 하나 이상의 법령 내용을 검색하는 단계; 상기 하나 이상의 법령 내용의 키워드와 상기 법령 분야 질의의 키워드를 비교하여 각 법령 내용에 대한 키워드 매칭률을 산출하는 단계; 상기 키워드 매칭률에 기반하여 기계 독해(Machine Reading Comprehension) 기술을 각 법령 내용에 적용하여 점수를 부여하는 단계; 및 상기 점수에 따라 법령 내용의 순위를 결정하여 정답을 제공하는 단계를 포함할 수 있다.
본 발명의 일 실시예에 따르면, 기계 독해 기술을 질의 응답에 효과적으로 적용하기 위해 검색 재순위화 기술을 적용하여 법령 분야에 관련된 질의에 대한 응답의 성능을 개선하는 장점을 가진다.
본 발명의 일 실시예에 따르면, 법령 문서의 구조적인 특징들을 활용하여 정답이 포함되어 있을 가능성이 높은 법령의 내용을 검색할 수 있도록 질의의 주요한 키워드를 인식하고 법령 별로 이형태 사전을 구축하여 키워드 확장을 수행하는 장점을 가진다.
도 1은 본 발명의 일 실시예에 따른 법령 분야 질의 응답 방법의 동작 순서도이다.
도 2는 키워드에 기반하여 법령 내용을 검색하는 방법의 예시도이다.
도 3은 키워드의 이형태를 고려하여 법령 내용을 검색하는 방법의 예시도이다.
도 4는 사용자가 입력한 법령 분야 질의와 유사한 질의를 선정하는 방법의 예시도이다.
도 5는 기계 독해 기술을 활용하여 사용자가 입력한 법령 분야 질의에 대한 정답을 찾는 방법의 예시도이다.
도 6은 사용자가 입력한 법령 분야 질의에 대해 제공되는 정답이 없음을 나타내는 예시도이다.
도 7은 기계 독해 기술을 활용하여 검색 재순위화하는 방법의 예시도이다.
도 8은 검색 재순위화 점수에 기반하여 제시되는 검색 결과의 예시도이다.
도 9는 사용자가 입력한 법령 분야 질의에 대해 제공되는 정답의 예시도이다.
도 10은 본 발명의 일 실시예에 따른 법령 분야 질의 응답 장치의 블록 구성도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는 데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. "및/또는"이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 법령 분야 질의 응답 방법의 동작 순서도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 법령 분야 질의 응답 방법은, 사용자가 법령 분야와 관련된 질의를 입력하고, 입력된 법령 분야 질의로부터 하나 이상의 키워드를 추출하는 단계(S100)를 포함할 수 있다. 또한, 법령 분야와 관련된 질의는 형태소 분석, 개체명 분석, 구문 분석, 의미 분석 등의 자연어 분석하는 단계(S110)가 수행될 수 있다.
또한, 본 발명의 일 실시예에 따른 법령 분야 질의 응답 방법은, 상기 키워드에 기반하여 상기 법령 분야 질의와 유사한 하나 이상의 질의를 저장된 로그 데이터로부터 선정하는 단계(S200, S210)를 포함할 수 있다. 즉, 상기 법령 분야 질의와 유사한 자주 묻는 질의(Frequently Asked Question; FAQ)가 있는지 피드백 로그로부터 검색하는 단계(S200)를 포함할 수 있고, 상기 법령 분야 질의와 유사한 질의를 선정하는 단계(S210)를 포함할 수 있다.
또한, 본 발명의 일 실시예에 따른 법령 분야 질의 응답 방법은, 상기 로그 데이터로부터 선정된 질의와 상기 법령 분야 질의 간 유사도에 따라 하나 이상의 법령 내용을 검색하는 단계(S300, S310, S320)를 포함할 수 있다.
즉, 본 발명의 일 실시예에 따른 법령 분야 질의 응답 방법은 상기 선정된 질의에 대해서도 형태소 분석, 개체명 분석, 구문 분석, 의미 분석 등의 자연어 분석하여, 사용자의 질의와 선정된 질의 간 어휘, 의미 및 구조가 모두 반영된 유사도(Similarity) 값을 계산하는 단계(S300)를 포함할 수 있다.
여기서, 본 발명의 일 실시예에 따른 법령 분야 질의 응답 방법은 사용자의 질의와 선정된 질의 간 유사도 값이 질의 간 유사도와 관련된 제 1 임계값 이상인 경우, 선정된 질의는 사용자의 질의와 유사한 질의로 판단하여 사용자에게 결과로서 제시하는 단계(S320)를 포함할 수 있다.
또한, 본 발명의 일 실시예에 따른 법령 분야 질의 응답 방법은 사용자의 질의와 선정된 질의 간 유사도 값이 질의 간 유사도와 관련된 제 1 임계값 미만인 경우, 자연어 분석된 사용자의 질의는 키워드에 기반하여 사용자의 질의와 관련된 하나 이상의 법령 내용을 검색하는 단계(S310)를 포함할 수 있다. 여기서, 검색된 법령 내용은 사용자의 질의와 키워드를 비교하여 키워드 매칭률에 따라 순위화될 수 있다.
또한, 본 발명의 일 실시예에 따른 법령 분야 질의 응답 방법은, 상기 검색된 법령 내용의 키워드 매칭률이 사용자가 기 설정한 키워드 매칭률 수치와 관련된 제 2 임계값 이상인 경우, 기계 독해(Machine Reading Comprehension) 기술에 사용된 알고리즘 및 워드 임베딩(Word Embedding) 기술에 기초하여 상기 법령 내용에 점수를 부여하고, 상기 법령 내용의 검색 순위를 점수에 따라 재순위화하는 단계(S400, S410, S420)를 포함할 수 있다.
즉, 본 발명의 일 실시예에 따른 법령 분야 질의 응답 방법은 검색된 법령 내용과 사용자의 질의 간 키워드를 비교한 키워드 매칭률이 사용자가 설정한 제 2 임계값 미만의 키워드 매칭률을 가지는 법령 내용은 사용자의 질의에 대한 정답을 제공하지 못하는 것으로 판단하고 사용자에게 질의에 대한 응답을 제시할 수 없다는 결과를 전달하는 단계(S420)를 포함할 수 있다.
또한, 본 발명의 일 실시예에 따른 법령 분야 질의 응답 방법은 검색된 법령 내용과 사용자의 질의 간 키워드를 비교한 키워드 매칭률이 사용자가 설정한 제 2 임계값 이상의 키워드 매칭률을 갖는 법령 내용은 사용자의 질의에 대한 정답 근거로서 신뢰할 수 있는 것으로 판단하고, 기계 독해(Machine Reading Comprehension) 기술에 적용되는 딥 러닝 알고리즘 및 워드 임베딩(Word Embedding) 기술을 활용하여 점수를 부여하고, 법령 내용의 검색 순위를 점수에 따라서 재순위화하는 단계(S410)를 포함할 수 있다.
또한, 본 발명의 일 실시예에 따른 법령 분야 질의 응답 방법은, 상기 법령 내용의 점수가 사용자가 기 설정한 점수와 관련된 제 3 임계값 이상인 경우, 기계 독해 기술에 사용된 알고리즘을 통해 상기 법령 분야 질의에 대한 정답을 제공하는 단계(S500, S510, S520)를 포함할 수 있다.
즉, 본 발명의 일 실시예에 따른 법령 분야 질의 응답 방법은 재순위화된 법령 내용에서 1위에 해당하는 법령 내용의 점수가 사용자가 설정한 점수와 관련된 제 3임계값 미만인 경우 재순위화된 법령 내용 모두에 사용자의 질의에 대한 정답이 포함되어 있지 않다고 판단할 수 있다. 따라서, 본 발명은 재순위화된 법령 내용에 기계 독해 기술을 적용하지 않고, 재순위화된 법령 내용의 결과를 중심으로 사용자에게 법령 내용의 검색 결과를 제시하는 단계(S520)를 포함할 수 있다.
또한, 본 발명의 일 실시예에 따른 법령 분야 질의 응답 방법은 재순위화된 법령 내용에서 1위에 해당하는 법령 내용의 점수가 제 3 임계값 이상인 경우, 법령 내용에 사용자의 질의에 대한 정답이 포함되어 있다고 판단할 수 있으므로, 재순위화된 법령 내용에 기계 독해 기술을 적용하여 정답을 추출하고, 최종적으로 정답, 출처 정보, 법령 내용을 포함하는 결과를 사용자에게 제시하는 단계(S510)를 포함할 수 있다.
도 2는 키워드에 기반하여 법령 내용을 검색하는 방법의 예시도이다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 법령 분야 질의 응답 방법은 법령에 대한 질의 응답 시스템으로서 피드백 로그에 저장된 자주 묻는 질의(FAQ)로부터 사용자의 질의와 유사한 질의를 검색하는 단계와 법령 내용을 검색하는 단계에서 정확성(Precision)과 재현성(Recall)을 높이기 위해 법령 문서의 특징을 활용하여야 한다. 즉, 국내외 법령에 대한 질의에서는 정확하게 법령을 제약하여 검색을 수행하는 것이 정답을 찾는 데 도움이 되는 바 질의에서 언급되는 키워드를 인식하는 것이 중요하다.
따라서, 사용자가 입력한 법령 분야에 대한 정답을 찾기 위한 과정은 첫째로, 법령을 제약하기 위한 정보로서 국가명과 법률명을 인식하여야 한다. 여기서, 국가명은 어떤 나라의 법령을 검색해야 하는 지 판단하고, 법률명은 많은 법률 문서 중 정답을 어디에서 찾아야 하는 지 판단한다.
둘째로, 법률 문서에는 다양한 직책, 직위 및 기관명에 해당하는 어휘가 중요하다. 따라서, 법령에 대한 질의 응답에서는 도 2를 참조하면, 사용자가 입력한 질의(질문 예시)에서 국가명, 법률명, 직위, 직책명, 기관명을 중요한 키워드 개체로서 인식하여야 하고, 키워드에 대한 검색 가중치를 높여야 한다. 예를 들어, 사용자가 법령 분야 질의로서 '헌법상 국회의원의 임기는?'과 같은 문장을 입력하였을 때, 사용자의 질의에서 키워드는 '헌법, 국회의원'이므로 '헌법'은 '법률명'으로서 인식되고, '국회의원'은 직위로서 인식된다.
도 3은 키워드의 이형태를 고려하여 법령 내용을 검색하는 방법의 예시도이다.
법령 문서에서는 법령 문서 별로 이형태를 정의하여 사용한다. 예를 들어, 도 3을 참조하면, 법령 문서 내의'국정조사(이하 "조사"라 한다)'에서 '국정조사'가 하위 조 내용에서는 '조사'로 표현되는 것을 정의하여 사용하고 있므로 '국정조사'와 '조사'는 이형태 관계에 있다.
따라서, 사용자의 법령 분야 질의에 표현된 키워드와 법령 문서에 정의된 이형태와의 매칭(Matching)을 위해서는 이형태 키워드 확장을 수행하여야 한다. 즉, 상기 예시에서 사용자의 질의에 '국정조사'로 표현되어 있는 경우 '조사'로 확장하여 법령 내용을 검색해야 정답이 포함된 법령 내용을 검색할 수 있다.
다시 도3을 참조하면, 사용자가 '국정감사에 관한 법률에서 국정조사는 원칙적으로 공개하나요?'라고 질문한 경우, 정답은 키워드 확장을 수행한 후 '국정조사'의 이형태인 '조사'를 포함하여 '감사 및 조사는 공개한다.'로써 제공될 수 있다.
다만, 이형태는 단위 법령 문서 내에서만 적용될 수 있고 다른 법령 문서 내에서는 유효하지 않으므로 사용자의 질의에서 명시적으로 법률명이 지정된 경우에 한하여 이형태 키워드 확장을 수행하여야 한다. 예를 들어, 상기 예시에서 사용자가 '국정감사에 관한 법률'과 같이 명시적으로 법률명으로 지정한 경우에 한하여 이형태 키워드 확장을 수행하여 정답을 제공할 수 있다. 또한, 이형태 사전은 법령 문서 별로 정규 표현식에 기반한 패턴을 통해 구축될 수 있다.
도 4는 사용자가 입력한 법령 분야 질의와 유사한 질의를 선정하는 방법의 예시도이다.
다시 도1을 참조하면, 본 발명의 일 실시예에 따른 법령 분야 질의 응답 방법은, 상기 로그 데이터로부터 선정된 질의와 상기 법령 분야 질의 간 유사도에 따라 하나 이상의 법령 내용을 검색하는 단계(S300, S310, S320)를 포함할 수 있다.
여기서, 본 발명의 일 실시예에 따른 법령 분야 질의 응답 방법은 사용자의 질의와 선정된 질의 간 유사도 값이 질의 간 유사도와 관련된 제 1 임계값 이상인 경우, 선정된 질의는 사용자의 질의와 유사한 질의로 판단하여 사용자에게 결과로서 제시하는 단계(S320)를 포함할 수 있다.
도 4를 참조하면, 사용자가 법령 분야 질의로서 '공인중개사법에서 중개의 의미는?'라고 질문한 경우, 피드백 로그 내에서 사용자의 질의와 유사한 질의로서 '공인중개사법에서 중개란 무엇인가?'를 선정하고, 사용자의 질의와 선정된 질의 간 유사도 값을 추출하고, 유사도 값이 제 1 임계값 이상인 경우, 정답, 출처 및 조 내용을 포함한 결과를 사용자에게 제시할 수 있다.
도 5는 기계 독해 기술을 활용하여 사용자가 입력한 법령 분야 질의에 대한 정답을 찾는 방법의 예시도이다.
최근 딥 러닝(Deep Learning) 기술의 발전과 더불어 기계 독해(Machine Reading Comprehension) 기술도 발전하고 있다. 기계 독해 기술은 단락(Paragraph)과 질문이 제시되면 단락에서 질의에 대한 정답을 찾는 기술을 의미한다. 즉, 기계 독해 기술은 정답이 포함된 단락이 제시되어야만 정답을 제공할 수 있다. 따라서, 기계 독해 기술을 활용하여 질의에 대한 정답을 제공하기 위해서는 정답이 포함된 단락을 정확히 검색하여 제시할 수 있어야 한다.
또한, 기계 독해 기술의 알고리즘은 단락에서 정답에 해당하는 위치에 대한 시작점과 끝점을 찾는 방식으로 장단기 메모리(Long Short Term Memory; LSTM) 버트(Bidirectional Encoder Representations from Transformers; BERT) 및 코버트(Korean Bidirectional Encoder Representations from Transformers; KorBERT) 등 다양한 딥 러닝 기술을 활용한다. 다만, 단락에 정답이 없는 경우에도 무조건 정답을 찾아야하는 문제가 있으나, 정답이 없다는 것도 인식(No Answer Prediction)할 수 있도록 기술 개선이 이루어지고 있다.
예를 들어, 도 5를 참조하면, 사용자가 법령 분야 질의로서 '대법관의 임기는 몇 년인가'라고 질의한 경우, 단락 내에 '대법관의 임기는 6년'으로 정답이 있으므로 기계 독해 기술에 의해 사용자의 질의에 대한 응답으로서 '6년'이라는 결과를 제시할 수 있다.
도 6은 사용자가 입력한 법령 분야 질의에 대해 제공되는 정답이 없음을 나타내는 예시도이다.
다시 도1을 참조하면, 본 발명의 일 실시예에 따른 법령 분야 질의 응답 방법은, 상기 검색된 법령 내용의 키워드 매칭률이 사용자가 기 설정한 키워드 매칭률 수치와 관련된 제 2 임계값 이상인 경우, 기계 독해(Machine Reading Comprehension) 기술에 사용된 알고리즘 및 워드 임베딩(Word Embedding) 기술에 기초하여 상기 법령 내용에 점수를 부여하고, 상기 법령 내용의 검색 순위를 점수에 따라 재순위화하는 단계(S400, S410, S420)를 포함할 수 있다.
즉, 본 발명의 일 실시예에 따른 법령 분야 질의 응답 방법은 검색된 법령 내용과 사용자의 질의 간 키워드를 비교한 키워드 매칭률이 사용자가 설정한 제 2 임계값 미만의 키워드 매칭률을 가지는 법령 내용은 사용자의 질의에 대한 정답을 제공하지 못하는 것으로 판단하고 사용자에게 질의에 대한 응답을 제시할 수 없다는 결과를 전달하는 단계(S420)를 포함할 수 있다.
도 6의 예시도는 검색된 법령 내용과 사용자의 질의 간 키워드를 비교한 키워드 매칭률이 제 2 임계값 미만인 경우를 나타내는 예시도로서 사용자에게 사용자의 질의에 대해서 응답을 제시할 수 없음을 나타낸다.
도 7은 기계 독해 기술을 활용하여 검색 재순위화하는 방법의 예시도이다.
다시 도 1을 참조하면, 피드백 로그로부터 사용자의 질의와 유사한 질의를 선정하는 단계(S210)에서는 질의 간 키워드 매칭에 기반하여 사용자의 질의와 유사한 질의를 선정하고, 법령 내용을 검색하는 단계(S310)에서는 키워드 매칭에 기반하여 키워드가 많이 매칭되는 법령 내용을 검색한다. 다만, 사용자의 질의와 정답이 포함된 문장의 경우, 다양한 패러프레이징(Paraphrasing)이 발생하므로 반드시 동일한 키워드가 사용된다고 할 수 없다. 또한, 키워드 매칭에 기반한 검색만으로 정답이 포함된 내용을 도출하는 것은 법령 분야 질의에 대하여 응답하는 기술의 성능을 저하하는 원인이 될 수 있다.
따라서, 본 발명의 일 실시예에 따른 법령 분야 질의 응답 방법은 대용량의 법률 콘텐츠를 학습하여 유사한 의미를 가지는 어휘들이 동일한 벡터 공간(vector Space)에 맵핑(Mapping)될 수 있도록 벡터화하는 워드 임베딩(Word Embedding) 기술을 활용하고, 기계 독해 기술에 적용된 딥 러닝 기술과 동일한 알고리즘을 활용하여 사용자의 질의와 관련된 하나 이상의 법령 내용에 정답의 포함 여부에 대한 추정 값으로서0과 1 사이의 점수를 부여하고, 점수에 기반하여 법령 내용의 검색 순위를 재순위화할 수 있다.
도 7을 참조하면, 키워드에 기반하여 법령 내용을 검색하는 단계(S310)에서 키워드 매칭률에 따라 검색된 법령 내용의 순위가 1차적으로 순위화될 수 있다. 예를 들어, 도 7을 참조하면, 키워드 매칭률에 따라 '검색A'가 1순위,'검색 B'가 2순위,'검색 C'가 3순위가 될 수 있다.
다만, 전술한 바와 같이 키워드 매칭에 기반한 검색만으로 정답이 포함된 내용을 도출하는 것은 법령 분야 질의에 대하여 응답하는 기술의 성능을 저하시킬 수 있으므로 워드 임베딩 기술을 활용하여 검색된 법령 내용을 재순위화하면, '검색 B'가 1순위,'검색C'가 2순위,'검색A'가 3순위로 그 순위가 바뀔 수 있다.
이어서, 기계 독해(MRC) 기술을 활용하여 검색된 법령 내용에서 정답의 위치를 찾고 사용자의 질의에 대한 정답 후보를 추출할 수 있다.
도 8은 검색 재순위화 점수에 기반하여 제시되는 검색 결과의 예시도이다.
다시 도 1을 참조하면, 본 발명의 일 실시예에 따른 법령 분야 질의 응답 방법은, 상기 검색된 법령 내용의 키워드 매칭률이 사용자가 기 설정한 키워드 매칭률 수치와 관련된 제 2 임계값 이상인 경우, 기계 독해(Machine Reading Comprehension) 기술에 사용된 알고리즘 및 워드 임베딩(Word Embedding) 기술에 기초하여 상기 법령 내용에 점수를 부여하고, 상기 법령 내용의 검색 순위를 점수에 따라 재순위화하는 단계(S400, S410, S420)를 포함할 수 있다.
즉, 본 발명의 일 실시예에 따른 법령 분야 질의 응답 방법은 재순위화된 법령 내용에서 1위에 해당하는 법령 내용의 점수가 사용자가 설정한 점수와 관련된 제 3임계값 미만인 경우 재순위화된 법령 내용 모두에 사용자의 질의에 대한 정답이 포함되어 있지 않다고 판단할 수 있다. 따라서, 본 발명은 재순위화된 법령 내용에 기계 독해 기술을 적용하지 않고, 재순위화된 법령 내용의 결과를 중심으로 사용자에게 법령 내용의 검색 결과를 제시하는 단계(S520)를 포함할 수 있다.
도 8을 참조하면, 사용자가 법령 분야 질의로서 '대통령 선거 출마 조건은?'라고 입력한 경우, 사용자의 법령 분야 질의와 유사한 질의를 선정하는 단계(S200, S210), 질의 간 유사도를 비교하는 단계(S300), 법령 내용을 검색하여 키워드를 비교하고, 검색을 재순위화하는 단계(S310, S400, S410)를 거치고, 재순위화된 검색 법령 내용의 점수가 제 3임계값 미만인 경우, 기계 독해 기술을 적용하여 정답을 찾는 과정을 생략하고, 재순위화된 법령 내용의 결과를 사용자에게 제공할 수 있다.
도 9는 사용자가 입력한 법령 분야 질의에 대해 제공되는 정답의 예시도이다.
도 9를 참조하면, 본 발명의 일 실시예에 따른 법령 분야 질의 응답 방법에 따라 입력된 법령 분야 질의로부터 하나 이상의 키워드를 추출하는 단계; 상기 키워드에 기반하여 상기 법령 분야 질의와 유사한 하나 이상의 질의를 저장된 로그 데이터로부터 선정하는 단계; 상기 로그 데이터로부터 선정된 질의와 상기 법령 분야 질의 간 유사도에 따라 하나 이상의 법령 내용을 검색하는 단계; 상기 하나 이상의 법령 내용의 키워드와 상기 법령 분야 질의의 키워드를 비교하여 각 법령 내용에 대한 키워드 매칭률을 산출하는 단계; 및 상기 키워드 매칭률에 기반하여 기계 독해(Machine Reading Comprehension) 기술을 각 법령 내용에 적용하여 점수를 부여하는 단계; 및 상기 점수에 따라 법령 내용의 순위를 결정하여 정답을 제공하는 단계를 거쳐서 사용자의 법령 분야 질의에 대한 정답이 제공될 수 있다.
따라서, 도 9의 예시도는 사용자가 법령 분야 관련 질의로서 '대한민국 영토는?'라고 입력한 경우, 정답, 출처, 조 내용을 포함하는 법령 분야 관련 질의에 대한 응답의 예시도이다.
도 10은 본 발명의 일 실시예에 따른 법령 분야 질의 응답 장치의 블록 구성도이다.
본 발명의 일 실시예에 따른 법령 분야 질의 응답 장치(1000)는 프로세서(1010) 및 프로세서를 통해 실행되는 적어도 하나의 명령 및 명령 수행의 결과를 저장하는 메모리(1020) 및 네트워크와 연결되어 통신을 수행하는 송수신 장치(1030)를 포함할 수 있다.
법령 분야 질의 응답 장치(1000)는 또한, 입력 인터페이스 장치(1040), 출력 인터페이스 장치(1050), 저장 장치(1060) 등을 더 포함할 수 있다. 법령 분야 질의 응답 장치(1000)에 포함된 각각의 구성 요소들은 버스(Bus)(1070)에 의해 연결되어 서로 통신을 수행할 수 있다.
프로세서(1010)는 메모리(1020) 및 저장 장치(1060) 중에서 적어도 하나에 저장된 프로그램 명령(program command)을 실행할 수 있다. 프로세서(1010)는 중앙 처리 장치(central processing unit, CPU), 그래픽 처리 장치(graphics processing unit, GPU), 또는 본 발명의 실시예에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다. 메모리(1020) 및 저장 장치(1060) 각각은 휘발성 저장 매체 및 비휘발성 저장 매체 중에서 적어도 하나로 구성될 수 있다. 예를 들어, 메모리(1020)는 읽기 전용 메모리(read only memory, ROM) 및 랜덤 액세스 메모리(random access memory, RAM) 중에서 적어도 하나로 구성될 수 있다.
저장 장치(1060)는 또한, 사용자로부터 입력된 법령 분야와 관련된 질의, 입력된 법령 분야 질의와 유사한 질의를 저장할 수 있다. 또한, 사용자로부터 입력된 법령 분야 질의와 관련되어 검색된 법령 내용의 결과 및 기계 독해 기술을 적용하여 추출된 정답을 저장할 수 있다.
여기서, 적어도 하나의 명령은, 입력된 법령 분야 질의로부터 하나 이상의 키워드를 추출하도록 하는 명령; 상기 키워드에 기반하여 상기 법령 분야 질의와 유사한 하나 이상의 질의를 저장된 로그 데이터로부터 선정하도록 하는 명령; 상기 로그 데이터로부터 선정된 질의와 상기 법령 분야 질의 간 유사도에 따라 하나 이상의 법령 내용을 검색하도록 하는 명령; 상기 하나 이상의 법령 내용의 키워드와 상기 법령 분야 질의의 키워드를 비교하여 각 법령 내용에 대한 키워드 매칭률을 산출하도록 하는 명령; 상기 키워드 매칭률에 기반하여 기계 독해(Machine Reading Comprehension) 기술을 각 법령 내용에 적용하여 점수를 부여하도록 하는 명령; 및 상기 점수에 따라 법령 내용의 순위를 결정하여 정답을 제공하도록 하는 명령을 포함할 수 있다.
본 발명의 실시예에 따른 방법의 동작은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 프로그램 또는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산 방식으로 컴퓨터로 읽을 수 있는 프로그램 또는 코드가 저장되고 실행될 수 있다.
또한, 컴퓨터가 읽을 수 있는 기록매체는 롬(rom), 램(ram), 플래시 메모리(flash memory) 등과 같이 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다. 프로그램 명령은 컴파일러(compiler)에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터(interpreter) 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
본 발명의 일부 측면들은 장치의 문맥에서 설명되었으나, 그것은 상응하는 방법에 따른 설명 또한 나타낼 수 있고, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 상응한다. 유사하게, 방법의 문맥에서 설명된 측면들은 또한 상응하는 블록 또는 아이템 또는 상응하는 장치의 특징으로 나타낼 수 있다. 방법 단계들의 몇몇 또는 전부는 예를 들어, 마이크로프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이용하여) 수행될 수 있다. 몇몇의 실시예에서, 가장 중요한 방법 단계들의 하나 이상은 이와 같은 장치에 의해 수행될 수 있다.
실시예들에서, 프로그램 가능한 로직 장치(예를 들어, 필드 프로그머블 게이트 어레이)가 여기서 설명된 방법들의 기능의 일부 또는 전부를 수행하기 위해 사용될 수 있다. 실시예들에서, 필드 프로그머블 게이트 어레이는 여기서 설명된 방법들 중 하나를 수행하기 위한 마이크로프로세서와 함께 작동할 수 있다. 일반적으로, 방법들은 어떤 하드웨어 장치에 의해 수행되는 것이 바람직하다.
이상 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims (1)

  1. 입력된 법령 분야 질의로부터 하나 이상의 키워드를 추출하는 단계;
    상기 키워드에 기반하여 상기 법령 분야 질의와 유사한 하나 이상의 질의를 저장된 로그 데이터로부터 선정하는 단계;
    상기 로그 데이터로부터 선정된 질의와 상기 법령 분야 질의 간 유사도에 따라 하나 이상의 법령 내용을 검색하는 단계;
    상기 하나 이상의 법령 내용의 키워드와 상기 법령 분야 질의의 키워드를 비교하여 각 법령 내용에 대한 키워드 매칭률을 산출하는 단계;
    상기 키워드 매칭률에 기반하여 기계 독해(Machine Reading Comprehension) 기술을 각 법령 내용에 적용하여 점수를 부여하는 단계; 및
    상기 점수에 따라 법령 내용의 순위를 결정하여 정답을 제공하는 단계를 포함하는, 법령 분야 질의 응답 방법.
KR1020190142837A 2019-11-08 2019-11-08 법령 분야 질의 응답 방법 및 장치 KR102600703B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190142837A KR102600703B1 (ko) 2019-11-08 2019-11-08 법령 분야 질의 응답 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190142837A KR102600703B1 (ko) 2019-11-08 2019-11-08 법령 분야 질의 응답 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20210056131A true KR20210056131A (ko) 2021-05-18
KR102600703B1 KR102600703B1 (ko) 2023-11-09

Family

ID=76158734

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190142837A KR102600703B1 (ko) 2019-11-08 2019-11-08 법령 분야 질의 응답 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102600703B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230025102A (ko) * 2021-08-13 2023-02-21 유한회사 글로벌에스씨 기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스 방법 및 장치

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
B. Pan et al., Keyword-based Query Comprehending via Multiple Optimized-Demand Augmentation, arXiv:1711.00179v1(2017)* *
H. -T. Duong et al., A Vietnamese Question Answering System in Vietnam’s Legal Documents, CISIM 2014, LNCS 8838, pp186-197(2014)* *
P. Bajaj et al. MS MARCO: A Human Generated MAchine Reading COmprehension Dataset, arXiv:1611.09268v3(2018)* *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230025102A (ko) * 2021-08-13 2023-02-21 유한회사 글로벌에스씨 기계학습 기반의 지능형 법률 판례 검색 및 통합형 법률 서비스 방법 및 장치

Also Published As

Publication number Publication date
KR102600703B1 (ko) 2023-11-09

Similar Documents

Publication Publication Date Title
US8412514B1 (en) Method and apparatus for compiling and querying a QA database
CN101878476B (zh) 用于查询扩展的机器翻译
KR101913191B1 (ko) 도메인 추출기반의 언어 이해 성능 향상장치및 성능 향상방법
US9183511B2 (en) System and method for universal translating from natural language questions to structured queries
US8321403B1 (en) Web search refinement
WO2019169858A1 (zh) 一种基于搜索引擎技术的数据分析方法及系统
US8682646B2 (en) Semantic relationship-based location description parsing
US11481417B2 (en) Generation and utilization of vector indexes for data processing systems and methods
US20220083874A1 (en) Method and device for training search model, method for searching for target object, and storage medium
US11468238B2 (en) Data processing systems and methods
US20110173210A1 (en) Identifying a topic-relevant subject
KR102090237B1 (ko) 시맨틱 트리플 기반의 지식 확장 시스템, 방법 및 컴퓨터 프로그램
JP2021507350A (ja) 複雑な回答の補強証拠取り出し
Croce et al. Neural learning for question answering in italian
US11455357B2 (en) Data processing systems and methods
JP2022073981A (ja) ソースコード取得
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
KR20210070904A (ko) 다중 문서 질의 응답을 위한 방법 및 장치
KR20210044697A (ko) Ai 기반 질의응답 시스템 및 방법
KR102285232B1 (ko) 형태소 기반 ai 챗봇 및 그의 문장의도 결정 방법
KR102600703B1 (ko) 법령 분야 질의 응답 방법 및 장치
KR102655809B1 (ko) 문단입력에 기초한 질의응답 데이터셋 생성 방법 및 장치
Li et al. Confidence estimation for knowledge base population
Lai et al. An unsupervised approach to discover media frames
KR20190058029A (ko) 질문 자동 완성 기능을 이용한 질의 응답 시스템 및 그 방법

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant