KR20190124986A

KR20190124986A - 연관법령 제공 방법

Info

Publication number: KR20190124986A
Application number: KR1020180049140A
Authority: KR
Inventors: 김형중; 김나리
Original assignee: 고려대학교 산학협력단
Priority date: 2018-04-27
Filing date: 2018-04-27
Publication date: 2019-11-06
Also published as: KR102091633B1

Abstract

연관법령 제공 방법이 개시된다. 상기 연관법령 제공 방법은 입력된 키워드에 대하여 검색 서버로부터 적어도 하나 이상의 판결문들을 검색하는 단계, 상기 검색된 적어도 하나 이상의 판결문들에 포함된 참조조문 데이터를 추출하는 단계, 상기 추출된 참조조문 데이터를 구분자를 기준으로 파싱(parsing)하는 단계, 및 상기 파싱된 참조조문 데이터를 벡터화하여 상기 참조조문 데이터에 포함된 법조항들 각각에 대한 단어 벡터들을 생성하는 단계를 포함한다.

Description

연관법령 제공 방법{Searching Method for Related Law}

본 발명은 연관법령 제공 방법에 관한 것으로서, 보다 구체적으로 워드 임베딩(Word Embedding) 기반 Law2Vec 모형을 이용한 연관법령 제공 방법에 관한 것이다.

법률정보검색은 개인이나 기업, 그리고 국가기관의 판사, 검사, 수사관에 이르기까지 법률적 판단과 해석에 필요한 근거규정을 찾는데 활용하는 수단으로서 많은 시간과 노력이 투입되는 일이다. 국가법령정보센터에 수록된 현재 유효한 법령은 약 5천 개에 이르고, 법리를 해석한 판례의 수가 증가하고 복잡해짐에 따라 효율적인 정보 검색에 대한 요구는 점점 증가하고 있다.

한편, 국내 법령정보를 텍스트 분석 기술을 활용하여 제공하는 방법에 대하여 비특허문헌 1을 참조하면, 국내 법령을 온톨로지로 변환하는 방법에 대하여 개시하고 있다. 그러나 온톨로지를 기반으로 하는 발명은 도로교통 관련 법규, 철도 분야의 주요 규정에 구축하여 의미 있는 성과를 도출하였지만 수동으로 구축하여야 하는 문제가 있으며, 자동 구축 방법에 대한 최근의 연구 또한 법령의 문장에 온톨로지 패턴을 명확하게 적용할 수 없을 경우에 변환하기 어렵다는 한계가 있다.

또한, 비특허문헌 2는 생활용어를 법률용어로 대응하는 점에 대하여 개시하고 비특허문헌 3은 토픽 모델링을 활용하여 판례를 분류하는 점에 대하여 개시하고 있으나, 전자는 생활용어와 법률용어를 탐색하기 위하여 법률용어 시소러스(thesaurus)를 조회하여 수행하여야 하므로 사전에 온톨로지로 구축된 법률용어 시소러스가 필요하며, 후자와 같은 토픽 모델링의 판례 분류 방법은 하나의 토픽으로만 분류가 가능하다는 한계가 있어서 방대한 법령 정보에 적용하기 어렵다는 문제점이 있다.

장인환, "온톨로지 기반 법률 검색시스템의 구축 및 평가에 관한 연구," 한국문헌정보학회지 제45권 제2호, 2011.5, 345-366 김지현, "법령정보 검색을 위한 생활용어와 법률용어 간의 대응관계 탐색 방법론," 지능정보연구 제18권 제3호, 2012.9, 137-152 심준식, "LDA 토픽 모델링을 활용한 판례 검색 및 분류 방법," 전자공학회논문지 제54권 제9호(통권 제478호), 2017.9, 67-75

본 발명의 목적은 법률지식에 대하여 정확한 내용을 모르더라도 검색어와 연관된 법령정보를 효율적이고 정확하게 검색할 수 있는 연관법령 제공 방법을 제공하는데 있다.

본 발명의 일 실시 예에 따른 연관법령 제공 방법은 입력된 키워드에 대하여 검색 서버로부터 적어도 하나 이상의 판결문들을 검색하는 단계, 상기 검색된 적어도 하나 이상의 판결문들에 포함된 참조조문 데이터를 추출하는 단계, 상기 추출된 참조조문 데이터를 구분자를 기준으로 파싱(parsing)하는 단계, 및 상기 파싱된 참조조문 데이터를 벡터화하여 상기 참조조문 데이터에 포함된 법조항들 각각에 대한 단어 벡터들을 생성하는 단계를 포함할 수 있다.

본 발명의 일 실시 예에 따르면, 법률지식에 대하여 정확한 내용을 모르더라도 연관법령을 검색할 수 있어 시간과 비용의 효율성을 높일 수 있다.

또한, 기존의 법령 검색 방법이 검색대항 법조항을 검색하기 위해 입력하는 키워드와 정확하게 일치하는 결과만 제공하는 것과 달리, 본 발명은 입력한 키워드와 연관성이 높은 참조법령 데이터를 토대로 검색 결과를 제공함으로써 보다 정확하고 유의미한 검색결과를 제공할 수 있다.

도 1은 본 발명의 일 실시 예에 따른 연관법령 제공 시스템을 도시한 것이다.
도 2는 본 발명의 일 실시 예에 따른 연관법령 제공 장치에 포함되는 입력부의 블록도를 도시한 것이다.
도 3은 본 발명에 적용될 수 있는 Word2Vec 알고리즘을 설명하기 위한 계층도를 도시한 것이다.
도 4는 본 발명의 일 실시 예에 따른 연관법령 제공 시스템 및 방법을 통해 연관법령이 출력되는 화면의 일 예를 도시한 것이다.
도 5는 본 발명의 일 실시 예에 따른 연관법령 제공 방법의 순서도를 도시한 것이다.

본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.

본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나 이는 본 발명의 개념에 따른 실시예들을 특정한 개시형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 "~사이에"와 "바로~사이에" 또는 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

본 명세서에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 일 실시 예에 따른 연관법령 제공 시스템을 도시한 것이다.

도 1을 참조하면, 본 발명의 일 실시 예에 따른 연관법령 제공 시스템(1)은 사용자 단말기(10), 검색 서버(20) 및 연관법령 제공 장치(30)를 포함한다.

사용자 단말기(10)는 후술할 검색 서버(20)에 검색어를 입력하기 위한 구성이다. 여기서, 검색어는 검색 서버(20)에서 판결문들을 검색하기 위한 특정 주제에 대한 키워드나 연관법령을 검색하기 위한 법령일 수 있다. 키워드는 예를 들면, 소멸시효, 손해배상, 침해 등 판결문들을 검색하기 위한 법률 용어를 포함할 수 있다.

한편, 사용자 단말기(10)는 스마트폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 데스크탑 PC(desktop personal computer), 랩탑 PC(laptop personal computer), 넷북 컴퓨터(netbook computer) 등의 다양한 형태일 수 있다.

검색 서버(20)는 사용자 단말기(10)로부터 수신한 검색 쿼리(search query)에 응답하여, 사용자 단말기(10)에 검색 결과를 제공한다. 검색 서버(20)는 검색 쿼리에 포함되어 있는 검색어 및 검색 조건에 따라 사용자 단말기(10)에 제공할 콘텐츠를 선별할 수 있으며, 검색어에 가장 적합한 순위에 따라 콘텐츠가 나열된 검색 결과를 제공할 수 있다.

일 실시 예에 따른 검색 서버(20)는 사용자가 사용자 단말기(10)를 통해 입력한 키워드에 대한 판결문들을 검색하기 위한 서버일 수 있다. 즉, 검색 서버(20)는 사용자가 법률용어와 같은 키워드를 입력하면 그에 따라 키워드에 가장 적합한 순위에 따른 판결문들을 나열한다.

다른 일 실시 예에 따른 검색 서버(20)는 사용자가 사용자 단말기(10)를 통해 입력한 법령에 대한 연관법령을 검색하기 위한 서버일 수 있다. 검색 서버(20)는 사용자의 입력에 따라 후술할 연관법령 제공 장치(30)로부터 제공받은 연관법령을 사용자 단말기(10)에 제공 및 출력할 수 있다.

한편, 검색 서버(20)는 상술한 실시 예들이 분리 또는 결합된 형태일 수 있다. 또한, 검색 서버(20)는 검색 엔진 서비스를 제공하는 것 외에 카페, 메일, 블로그, 쇼핑, 지도, 사전, 뉴스, 증권, 부동산, 영화, 음악, 게시판 등의 다양한 콘텐츠 서비스를 제공하는 포털 사이트 서버일 수 있다. 즉, 검색 서버(20)는 검색 엔진과 포털 사이트가 결합된 형태일 수 있다.

연관법령 제공 장치(30)는 사용자가 사용자 단말기(10)를 통해 입력한 법령과 연관된 연관법령을 제공하기 위한 장치로서 입력부(310), 학습부(330) 및 제공부(350)를 포함한다.

입력부(310)는 검색 서버(20)로부터 적어도 하나 이상의 판결문들을 검색하고, 검색된 판결문들로부터 참조조문 데이터를 추출하여 context를 구성한다. 본 발명의 일 실시 예에 따른 연관법령 제공 장치에 포함되는 입력부의 블록도를 도시한 도 2를 참조하면, 입력부(310)는 검색부(311), 추출부(313), 파싱부(315) 및 전처리부(317)를 포함한다.

검색부(311)는 키워드를 입력받아 검색 서버(20)로부터 적어도 하나 이상의 판결문들을 검색 및 수집한다. 키워드는 상술한 바와 같이 특정 주제와 관련된 판례를 검색하기 위한 법률용어를 포함할 수 있다. 특정 키워드를 이용하여 대한민국 대법원의 온라인 검색 서버(20)로부터 수집된 판결문들은 아래의 표 1과 같다.

키워드	카테고리		문서 개수	말뭉치
키워드	판결 법원	소송 사건	문서 개수	말뭉치
소멸시효	대한민국 대법원	민사	911	Yes
		형사	11	No
		가사	6	No
		세무	93	No
		일반 행정	58	No
손해배상	대한민국 대법원	민사	6,988	Yes
		형사	141	No
		가사	35	No
		세무	67	No
		일반 행정	137	No

표 1을 참조하면, 대한민국 대법원의 온라인 검색 서버(20)로부터 키워드(소멸시효, 손해배상)에 따라 판결문들을 수집하고, 입력한 키워드와 관련된 소송 사건에 대한 문서(판결문)를 말뭉치로 이용할 수 있다.

상술한 바와 같이 검색부(311)는 키워드에 따른 판결문을 검색 및 수집함으로써 학습에 소요되는 시간과 자원을 최소화할 수 있을 뿐만 아니라, 보다 연관성이 높은 참조조문 데이터를 포함한 판례를 학습에 이용할 수 있다.

추출부(313)는 검색부(311)를 통하여 검색된 판결문들로부터 참조조문 데이터를 추출한다. 판결문은 판례를 문서화한 것으로서, 특정 사건에 대하여 법리를 근거로 합리적 해석을 하는 내용을 포함하며, 판시사항, 판결요지, 참조조문 및 판결내용과 같은 정형화된 식별항목에 해당하는 내용을 포함한다. 이때 판결문에 포함된 참조조문이란 특정 사건에 대하여 판결을 내리는데 참조된 법조문으로서, 판결문에 설시된 법리가 담긴 가장 기초적이고 중요한 정보이다. 대한민국 판결문을 예로 들면, 참조조문은 판결문에 포함된 식별항목인 [참조조문]과 함께 병기된다.

참조조문은 쟁점이 비슷한 판례들에서 같은 참조조문이 동시에 반복되어 나타나거나 여러 개의 참조조문이 동시에 나타날 수 있는데, 이러한 참조조문의 특성은 같은 맥락에서 등장하는 단어들이 같은 의미(semantic)를 공유하는 distributional hypothesis와 유사하다고 볼 수 있다. 이에 따라, 본 발명의 일 실시 예에 따른 추출부(313)는 검색된 판결문들로부터 참조조문 데이터만을 추출함으로써 판결문에 포함된 모든 단어들을 학습에 사용하는 것이 아니라, 참조조문 데이터만 학습에 사용하도록 한다.

추출부(313)는 판결문의 형식에 따라 다양한 실시 예를 통하여 참조조문 데이터를 추출할 수 있다. 대한민국 판결문을 예로 들면, 추출부(313)는 상술한 바와 같이 판결문에 포함된 식별항목인 [참조조문]의 다음 단락에 나열된 문자열을 참조조문 데이터로서 추출할 수 있다. 한편, 대한민국 판결문과 달리 참조조문과 관련된 식별항목을 별도로 포함하고 있지 않은 판결문의 경우 §(paragraph)나 Art.와 같이 법조항을 나타내는 기호나 단어를 이용하여 참조조문 데이터를 추출할 수도 있다.

추출부(313)를 통해 추출되는 참조조문 데이터는 판결문들에 포함된 참조조문들 각각에 대한 법조항들이 나열된 문자열을 의미할 수 있다. 여기서, 법조항은 법령을 구성하는 각 법조문들을 구분하기 위한 단위로서, 대한민국 법령을 일 예로 들면 조, 항, 호, 목 순으로 구분된다. 즉, 추출부(313)는 판결문에 나타난 참조조문에 대한 법조문 전체가 아닌 해당 참조조문에 대한 법조항만을 참조조문 데이터로서 추출한다. 이때 참조조문 데이터의 일 예로서, “법률명 제○조○항” 또는 “법률명 제○조”가 있다.

상술한 바와 같이 추출부(313)는 법조문 전체가 아닌 법조항만을 학습에 사용되는 데이터로 추출함으로써 복잡한 한글 전처리의 어려움을 해결하고 연관법령의 검색 성능을 높일 수 있다.

파싱부(315)는 추출부(313)를 통하여 추출된 참조조문 데이터를 구분자를 기준으로 파싱(parsing)하여 context를 구성한다. 상술한 바와 같이 참조조문 데이터가 법조항들이 나열된 문자열인 경우 파싱부(315)는 설정된 구분자를 기준으로 참조조문 데이터를 법조항 단위로 파싱한다.

여기에, 전처리부(317)를 더 포함할 수 있다. 전처리부(317)는 파싱된 참조조문 데이터에 대하여 전처리를 수행한다. 여기서, 전처리는 참조조문 데이터에 포함된 법조항들의 단위를 통일하는 것을 의미할 수 있다. 예를 들어, 법조항들의 단위를 조 단위로 통일하고자 하는 경우, 전처리부(317)는 참조조문 데이터에 포함된 법조항들에서 조 단위 이하의 단위에 해당하는 항, 목 및 호를 제거한다.

학습부(330)는 입력부(310)를 통해 가공된 참조조문 데이터를 언어처리 알고리즘을 통하여 벡터화한다. 여기서, 언어처리 알고리즘은 자연어처리(Natural Language Processing) 분야에서 활용되는 워드 임베딩(word embedding) 알고리즘을 의미할 수 있다. 워드 임베딩은 말뭉치(corpus)에 존재하는 단어들을 연속형의 값을 갖는 벡터로 표현하기 위한 것으로서, 벡터화된 단어 벡터는 다른 단어들과 문맥상의 의미가 최대한 보존될 수 있도록 알고리즘에 의해 학습된다.

워드 임베딩 알고리즘으로는 NNLM(Neural Network Language Model), RNNLM(Recurrent Neural Net Language Model) 및 Word2Vec를 포함할 수 있으나, 본 발명은 이에 한정되지 아니하고 다양한 알고리즘을 적용하여 워드 임베딩을 실시할 수 있다.

이하에서는, Word2Vec 알고리즘을 기반으로 하는 실시 예를 설명하기로 한다. Word2Vec은 전방 전달 신경망(feedforward neural netword) 기반의 언어 모델을 활용한 워드 임베딩 알고리즘으로서, hidden layer와 output layer에서 계산에 많은 시간이 소요되는 NNLM의 문제점을 보완하여 신경망 구성의 단순함에 비해 학습된 단어의 벡터표현에 대한 우수한 성능을 나타낸다.

Word2Vec은 같은 맥락을 지닌 단어는 가까운 의미를 지고 있다고 전제하여 입력한 말뭉치의 문장에 있는 단어와 인접 단어의 관계를 이용해 단어의 의미를 학습한다. 연관된 의미의 단어들은 문서상에서 가까운 곳에 나타날 가능성이 높기 때문에 학습을 반복해 나가는 과정에서 두 단어는 점차 가까운 벡터값을 가질 수 있다.

Word2Vec은 두 가지 모델이 있는데, CBOW(Continuous Bag-Of-Words)와 skip-gram 모델이 있다. CBOW는 주변 단어가 주어졌을 때 중심 단어를 예측하는 모델이고, skip-gram은 CBOW와 반대로 중심 단어를 입력받고 그에 대한 주변 단어를 예측하는 모델이다.

본 발명에 적용될 수 있는 Word2Vec 알고리즘을 설명하기 위한 계층도를 도시한 도 3을 참조하면, 도 3에 도시된 계층도는 Word2Vec에서 skip-gram 모델을 도시한 것으로서, Input layer에서는 벡터화하고자 하는 참조조문 데이터에 포함된 법조항에 해당하는 단어들을 one-hot-encoding으로 벡터화한다. Hiddeng layer에서는 one-hot-encoding으로 벡터화된 데이터에 가중치 행렬 W와 W`를 곱하여 Output layer로 내보낸다. Output layer에서는 softmax 계산을 수행하고, 계산 결과를 진짜 단어의 계산 결과와 비교하여 역전파(backpropagation)한다.

여기서 softmax 계산은 아래의 수학식 1에 의해 수행된다.

여기서,

는 중심 법령(o)이 주어졌을 때 주변 법령(c)이 등장할 조건부 확률,

는 중심 법령에 대한 벡터값,

는 주변 법령에 대한 벡터값을 의미한다.

즉, Word2Vec은 상기 수학식 1에 의한 조건부 확률

을 최대화하는 방향으로 가중치 행렬 W,W`를 업데이트하면서 학습을 수행하여 서로 관련이 있는 법조항에 해당하는 벡터값들은 N차원 공간에서 서로 비슷한 곳에 위치하도록 한다.

학습부(330)는 상술한 바와 같이 학습을 통하여 파싱된 참조조문 데이터에 포함된 법조항들을 벡터화하여 법조항들 각각에 대한 단어 벡터들을 생성하고, 이를 제공부(350)에 제공한다.

제공부(350)는 학습부(330)를 통하여 생성된 단어 벡터들 간에 유사도를 계산하고, 계산된 유사도가 가장 높을 때의 단어 벡터에 대응하는 법조항을 검색 서버(20)에 제공한다. 유사도란 단어들 간에 의미적 연관성을 나타내는 척도로서, 본 발명의 경우 학습의 대상이 되는 법조항들 간에 연관도를 의미할 수 있다.

일 실시 예에 따른 제공부(350)는 임의의 단어 벡터 a,b에 대한 코사인 유사도(cosine similarity)를 아래의 수학식 2와 같이 계산할 수 있다.

여기서,

는 코사인 유사도를 의미한다.

즉, 제공부(350)는 학습부(330)를 통해 생성된 모든 단어 벡터들 간에 코사인 유사도를 상기 수학식 2와 같이 계산한다. 한편, 일 실시 예에 따른 제공부(350)는 모든 단어 벡터들 간에 유사도를 계산하는 것이 아니라, 생성된 단어 벡터들 중에서 검색 서버(20)가 입력받은 검색 대상 법조항에 대응하는 단어 벡터와 상기 검색 대상 법조항에 대응하는 단어 벡터를 제외한 나머지 단어 벡터들 간에만 유사도를 계산할 수도 있다.

상술한 바와 같이 제공부(350)는 단어 벡터들 간에 계산된 유사도를 이용하여 계산된 유사도가 가장 높을 때의 단어 벡터에 대응하는 법조항을 검색 서버(20)에 제공할 수 있다.

한편, 본 발명의 일 실시 예에 따른 연관법령 제공 시스템 및 방법을 통해 연관법령이 출력되는 화면의 일 예를 도시한 도 4를 참조하면, 제공부(350)가 검색 서버(20)에 제공한 법조항은 검색 서버(20)에 접속한 사용자 단말기(10)를 통해 검색창의 하단에 출력될 수 있다.

도 5는 본 발명의 일 실시 예에 따른 연관법령 제공 방법의 순서도를 도시한 것이다. 이하에서는 앞서 설명한 부분과 중복되는 부분에 대한 상세한 설명은 생략하기로 한다.

도 5를 참조하면, S410 단계는 검색부(311)를 통해 입력된 키워드에 대하여 검색 서버(20)로부터 적어도 하나 이상의 판결문들을 검색하는 단계이다. 이때, 키워드는 특정 주제와 관련된 판례를 검색하기 위한 법률용어를 포함할 수 있다.

S420 단계는 S410 단계를 통해 검색된 적어도 하나 이상의 판결문들에 포함된 참조조문 데이터를 추출하는 단계이다. 한편, 추출되는 참조조문 데이터는 판결문들에 포함된 참조조문들 각각에 대한 법조항들이 나열된 문자열을 의미할 수 있다. 여기서, 법조항은 법령을 구성하는 각 법조문들을 구분하기 위한 단위로서, 대한민국 법령을 일 예로 들면 조, 항, 호, 목 순으로 구분된다.

S430 단계는 추출된 참조조문 데이터에 대한 전처리를 수행한다. S430 단계는 S420 단계에서 참조조문 데이터를 '조'단위로 추출한 경우 생략될 수 있다.

S440 단계는 S420 단계 내지 S430 단계를 통하여 추출 및 전처리가 수행된 참조조문 데이터에 대하여 구분자를 기준으로 법조항 단위로 파싱을 수행한다.

S450 단계는 S440 단계를 통하여 파싱된 참조조문 데이터를 벡터화하여 참조조문 데이터에 포함된 법조항들 각각에 대한 단어 벡터들을 생성한다. 상술한 바와 같이 S450 단계는 NNLM, RNNLM 및 Word2Vec와 같은 워드 임베딩 알고리즘을 통하여 수행될 수 있다.

S460 단계는 S450 단계를 통해 생성된 단어 벡터들 중에서 검색 서버(20)가 입력받은 검색 대상 법조항에 대응하는 단어 벡터와 상기 검색 대상 법조항에 대응하는 단어 벡터를 제외한 나머지 단어 벡터들 간에 유사도를 계산한다. 여기서, 유사도는 예를 들면 코사인 유사도일 수 있다.

S470 단계는 S460 단계를 통해 계산된 유사도가 가장 높을 때의 단어 벡터에 대응하는 법조항을 검색 서버(20)에 제공한다.

이하에서는 상술한 본 발명의 일 실시 예에 따른 연관법령 제공 시스템 및 방법과 기존의 연관법령 검색 및 제공 기법을 비교하기로 한다. 아래의 표 2는 검색 대상 법조항이 민법 제168조이고, 표 3은 검색 대상 법조항이 민법 제755조일 때의 본 발명의 일 실시 예에 따른 연관법령 제공 시스템 및 방법을 통하여 검색 및 제공되는 연관법령과 기존의 연관법령 검색 및 제공 기법을 통하여 검색 및 제공되는 연관법령을 각각 나타낸 것이다.

상기 표 2,3을 참조하면, 기존의 기법의 경우 검색대상 법조항인 민법 제168조 및 민법 제755조라는 단어를 법조문에 포함하는 법조항에 한하여 검색되었다.

반면에, 본 발명의 경우 민법 제168조를 검색대상 법조항으로 한 경우 연관법령은 민법 제169조, 어음법 제77조 및 민법 제430조가 도출되었다. 즉, 민법 제168조의 단어 벡터에 대한 정보를 통해 민법 제168조의 '소멸시효의 중단'과 의미적으로 유사성이 있는 것으로 볼 수 있는 '시효중단의 효력'을 다룬 법조문(민법 제169조)이 도출되었으며, 민법 제755조의 단어 벡터에 대한 정보를 통해 '감독자의 책임'과 관련이 있는 '미성년자의 책임능력'을 다룬 법조문(민법 제753조)나 '업무집행자의 대리권 추정'을 다룬 법조문(민법 제709조)가 도출되었다.

따라서, 본 발명의 일 실시 예에 따른 연관법령 제공 시스템 및 방법은 단순히 검색대상 법조항을 법조문에 포함하는 법령만 검색하는 기존의 기법들과 차이점이 있다.

한편, 상술한 바와 같이 기존의 기법과의 비교를 통한 성능 평가뿐만 아니라, 정밀도 및 재현율 산정을 통하여 본 발명의 일 실시 예에 따른 연관법령 제공 시스템 및 방법에 대한 성능 평가를 수행할 수도 있다. 여기서, 정밀도 및 재현율은 검색된 연관법령이 키워드와 관련된 핵심어를 얼마나 포함하고 있는지에 대한 척도로서 각각 아래의 수학식 3 및 4에 의해 정의될 수 있다.

여기서, Precision은 정밀도이고, tp는 검색된 연관법령 중에서 적합 법령의 수이고, fp는 부적합 법령의 수이다.

여기서, Recall은 재현율이고, tn은 검색된 적합 건의 개수이고, fn은 검색되지 않은 적합 건의 개수이다.

상기 수학식 3,4를 이용하여 키워드를 '소멸시효'로 하여 검색 및 수집한 판결문들로부터 추출한 참조조문 데이터에 대하여 학습 및 벡터화를 수행한 경우 검색된 연관법령에 대한 정밀도 및 재현율을 산정한 결과는 아래의 표 4와 같다.

검색대상 법조항	Rank	정밀도[%]	재현율[%]
민법 제766조	10	60	55
	20	45	50
	30	57	63
민법 제166조	10	70	70
	20	63	60
	30	64	60
민법 제168조	10	50	63
	20	55	65
	30	50	68
평균	20	57	62

상기 표 4에서 Rank는 연관법령 결과의 순위를 의미한다. 상기 표 4를 참조하면, 상위에 rank된 연관법령이 핵심어를 포함하고 있는 유사한 법령일 확률이 더 높다. 또한, 연관법령을 많이 추출할수록 positive 관계로 도출된 법령은 negative 관계로 도출된 법령보다 핵심어가 포함된 법령이 많이 도출된다.

상술한 바와 같이 본 발명의 일 실시 예에 따른 연관법령 제공 시스템 및 방법은 정밀도뿐만 아니라 재현율 측면에서도 균형을 이루는 것을 통해 검색 및 제공되는 연관법령이 검색대항 법조항과 의미상 연관성을 가지는 결과를 제공하는 것을 알 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

연관법령 제공 장치에 의해 수행되는 연관법령 제공 방법으로서,
입력된 키워드에 대하여 검색 서버로부터 적어도 하나 이상의 판결문들을 검색하는 단계;
상기 검색된 적어도 하나 이상의 판결문들에 포함된 참조조문 데이터를 추출하는 단계;
상기 추출된 참조조문 데이터를 구분자를 기준으로 파싱(parsing)하는 단계; 및
상기 파싱된 참조조문 데이터를 벡터화하여 상기 참조조문 데이터에 포함된 법조항들 각각에 대한 단어 벡터들을 생성하는 단계를 포함하는 연관법령 제공 방법.
제1항에 있어서,
상기 벡터화하는 단계는 워드투벡(word2vec) 알고리즘을 이용하여 상기 파싱된 참조조문 데이터를 벡터화하는 연관법령 제공 방법.
제2항에 있어서,
상기 워드투벡 알고리즘은 skip-gram 모델을 기반으로 하는 연관법령 제공 방법.
제1항에 있어서,
상기 생성된 단어 벡터들 중에서 상기 검색 서버가 입력받은 검색 대상 법조항에 대응하는 단어 벡터와 상기 검색 대상 법조항에 대응하는 단어 벡터를 제외한 나머지 단어 벡터들 간에 유사도를 계산하는 단계; 및
상기 계산된 유사도가 가장 높을 때의 단어 벡터에 대응하는 법조항을 상기 검색 서버에 제공하는 단계를 더 포함하는 연관법령 제공 방법.
제4항에 있어서,
상기 유사도는 코사인 유사도(cosine similarity)인 연관법령 제공 방법.
제1항에 있어서,
상기 참조조문 데이터를 추출하는 단계는 상기 참조조문 데이터에 포함된 법조항들의 단위를 통일하는 전처리 단계를 더 포함하는 연관법령 제공 방법.