KR102091633B1 - Searching Method for Related Law - Google Patents

Searching Method for Related Law Download PDF

Info

Publication number
KR102091633B1
KR102091633B1 KR1020180049140A KR20180049140A KR102091633B1 KR 102091633 B1 KR102091633 B1 KR 102091633B1 KR 1020180049140 A KR1020180049140 A KR 1020180049140A KR 20180049140 A KR20180049140 A KR 20180049140A KR 102091633 B1 KR102091633 B1 KR 102091633B1
Authority
KR
South Korea
Prior art keywords
legal
word
providing
search
sentence data
Prior art date
Application number
KR1020180049140A
Other languages
Korean (ko)
Other versions
KR20190124986A (en
Inventor
김형중
김나리
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020180049140A priority Critical patent/KR102091633B1/en
Publication of KR20190124986A publication Critical patent/KR20190124986A/en
Application granted granted Critical
Publication of KR102091633B1 publication Critical patent/KR102091633B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Technology Law (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)

Abstract

연관법령 제공 방법이 개시된다. 상기 연관법령 제공 방법은 입력된 키워드에 대하여 검색 서버로부터 적어도 하나 이상의 판결문들을 검색하는 단계, 상기 검색된 적어도 하나 이상의 판결문들에 포함된 참조조문 데이터를 추출하는 단계, 상기 추출된 참조조문 데이터를 구분자를 기준으로 파싱(parsing)하는 단계, 및 상기 파싱된 참조조문 데이터를 벡터화하여 상기 참조조문 데이터에 포함된 법조항들 각각에 대한 단어 벡터들을 생성하는 단계를 포함한다.Disclosed is a method for providing related laws. The method of providing the related laws includes searching for at least one judgment sentence from a search server for an input keyword, extracting reference sentence data included in the searched at least one judgment sentence, and distinguishing the extracted reference sentence data. Parsing by reference, and vectorizing the parsed reference sentence data to generate word vectors for each of the legal terms included in the reference sentence data.

Description

연관법령 제공 방법{Searching Method for Related Law}Searching Method for Related Law}

본 발명은 연관법령 제공 방법에 관한 것으로서, 보다 구체적으로 워드 임베딩(Word Embedding) 기반 Law2Vec 모형을 이용한 연관법령 제공 방법에 관한 것이다.The present invention relates to a method for providing a related law, and more particularly, to a method for providing a related law using a word embedding based Law2Vec model.

법률정보검색은 개인이나 기업, 그리고 국가기관의 판사, 검사, 수사관에 이르기까지 법률적 판단과 해석에 필요한 근거규정을 찾는데 활용하는 수단으로서 많은 시간과 노력이 투입되는 일이다. 국가법령정보센터에 수록된 현재 유효한 법령은 약 5천 개에 이르고, 법리를 해석한 판례의 수가 증가하고 복잡해짐에 따라 효율적인 정보 검색에 대한 요구는 점점 증가하고 있다.Legal information retrieval is a method that is used to find ground rules necessary for legal judgment and interpretation, ranging from judges, prosecutors, and investigators of individuals, corporations, and state agencies. Currently, there are about 5,000 laws and regulations currently in the National Legal Information Center, and as the number of precedents interpreting the law increases and becomes more complex, the demand for efficient information retrieval is increasing.

한편, 국내 법령정보를 텍스트 분석 기술을 활용하여 제공하는 방법에 대하여 비특허문헌 1을 참조하면, 국내 법령을 온톨로지로 변환하는 방법에 대하여 개시하고 있다. 그러나 온톨로지를 기반으로 하는 발명은 도로교통 관련 법규, 철도 분야의 주요 규정에 구축하여 의미 있는 성과를 도출하였지만 수동으로 구축하여야 하는 문제가 있으며, 자동 구축 방법에 대한 최근의 연구 또한 법령의 문장에 온톨로지 패턴을 명확하게 적용할 수 없을 경우에 변환하기 어렵다는 한계가 있다.On the other hand, referring to Non-Patent Document 1 for a method of providing domestic legislation information using text analysis technology, a method for converting domestic legislation into an ontology is disclosed. However, the invention based on ontology has achieved meaningful results by constructing it in the road traffic related laws and regulations in the railway sector, but there is a problem that must be built manually, and recent research on the automatic construction method also has the ontology in the sentence of the statute. There is a limitation that it is difficult to convert when the pattern cannot be clearly applied.

또한, 비특허문헌 2는 생활용어를 법률용어로 대응하는 점에 대하여 개시하고 비특허문헌 3은 토픽 모델링을 활용하여 판례를 분류하는 점에 대하여 개시하고 있으나, 전자는 생활용어와 법률용어를 탐색하기 위하여 법률용어 시소러스(thesaurus)를 조회하여 수행하여야 하므로 사전에 온톨로지로 구축된 법률용어 시소러스가 필요하며, 후자와 같은 토픽 모델링의 판례 분류 방법은 하나의 토픽으로만 분류가 가능하다는 한계가 있어서 방대한 법령 정보에 적용하기 어렵다는 문제점이 있다.In addition, the non-patent document 2 discloses a point in which a living term corresponds to a legal term, and the non-patent document 3 discloses a point in which a precedent is classified using topic modeling, but the former searches for a living term and a legal term. In order to do so, thesaurus must be searched and executed, so the thesaurus, which is built with an ontology in advance, is required, and the precedent classification method of topic modeling, such as the latter, has a limitation in that it can be classified as only one topic. There is a problem that it is difficult to apply to legal information.

장인환, “온톨로지 기반 법률 검색시스템의 구축 및 평가에 관한 연구,” 한국문헌정보학회지 제45권 제2호, 2011.5, 345-366 Jang In-hwan, “A study on the construction and evaluation of an ontology-based legal search system,” Journal of the Korean Society for Library and Information Science, Vol. 2, No. 2, 2011.5, 345-366 김지현, “법령정보 검색을 위한 생활용어와 법률용어 간의 대응관계 탐색 방법론,” 지능정보연구 제18권 제3호, 2012.9, 137-152 Kim Ji-hyun, “Methodology for Searching Correspondence between Living and Legal Terms for Searching Legal Information,” Intelligent Information Research Vol. 18, No. 3, 2012.9, 137-152 심준식, “LDA 토픽 모델링을 활용한 판례 검색 및 분류 방법,” 전자공학회논문지 제54권 제9호(통권 제478호), 2017.9, 67-75 Shim Joon-sik, “Methods for Searching and Classifying Cases Using LDA Topic Modeling,” Journal of the Institute of Electronics Engineers of Korea, Vol. 54, No. 9 (passage No. 478), 2017.9, 67-75

본 발명의 목적은 법률지식에 대하여 정확한 내용을 모르더라도 검색어와 연관된 법령정보를 효율적이고 정확하게 검색할 수 있는 연관법령 제공 방법을 제공하는데 있다.An object of the present invention is to provide a method for providing related laws that can efficiently and accurately search for legal information related to a search word even if the exact contents of the legal knowledge are not known.

본 발명의 일 실시 예에 따른 연관법령 제공 방법은 입력된 키워드에 대하여 검색 서버로부터 적어도 하나 이상의 판결문들을 검색하는 단계, 상기 검색된 적어도 하나 이상의 판결문들에 포함된 참조조문 데이터를 추출하는 단계, 상기 추출된 참조조문 데이터를 구분자를 기준으로 파싱(parsing)하는 단계, 및 상기 파싱된 참조조문 데이터를 벡터화하여 상기 참조조문 데이터에 포함된 법조항들 각각에 대한 단어 벡터들을 생성하는 단계를 포함할 수 있다.The method for providing an association law according to an embodiment of the present invention includes searching for at least one judgment sentence from a search server for an input keyword, extracting reference sentence data included in the searched at least one judgment sentence, and extracting the extracted keyword The method may include parsing the reference text data, based on a separator, and vectorizing the parsed reference text data to generate word vectors for each of the legal terms included in the reference text data.

본 발명의 일 실시 예에 따르면, 법률지식에 대하여 정확한 내용을 모르더라도 연관법령을 검색할 수 있어 시간과 비용의 효율성을 높일 수 있다.According to an embodiment of the present invention, even if the exact contents of the legal knowledge are not known, the related laws can be searched to increase the efficiency of time and money.

또한, 기존의 법령 검색 방법이 검색대항 법조항을 검색하기 위해 입력하는 키워드와 정확하게 일치하는 결과만 제공하는 것과 달리, 본 발명은 입력한 키워드와 연관성이 높은 참조법령 데이터를 토대로 검색 결과를 제공함으로써 보다 정확하고 유의미한 검색결과를 제공할 수 있다.In addition, unlike the existing statute search method only provides results that exactly match the keyword entered to search the search terms and conditions, the present invention provides a search result based on reference statute data that is highly related to the entered keyword. It can provide accurate and meaningful search results.

도 1은 본 발명의 일 실시 예에 따른 연관법령 제공 시스템을 도시한 것이다.
도 2는 본 발명의 일 실시 예에 따른 연관법령 제공 장치에 포함되는 입력부의 블록도를 도시한 것이다.
도 3은 본 발명에 적용될 수 있는 Word2Vec 알고리즘을 설명하기 위한 계층도를 도시한 것이다.
도 4는 본 발명의 일 실시 예에 따른 연관법령 제공 시스템 및 방법을 통해 연관법령이 출력되는 화면의 일 예를 도시한 것이다.
도 5는 본 발명의 일 실시 예에 따른 연관법령 제공 방법의 순서도를 도시한 것이다.
1 illustrates a system for providing a related statute according to an embodiment of the present invention.
2 is a block diagram of an input unit included in an apparatus for providing related laws and regulations according to an embodiment of the present invention.
3 illustrates a hierarchical diagram for explaining the Word2Vec algorithm that can be applied to the present invention.
4 is a diagram illustrating an example of a screen through which a related statute is output through a system and method for providing a related statute according to an embodiment of the present invention.
5 is a flowchart of a method for providing a related law according to an embodiment of the present invention.

본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시예들에 대해서 특정한 구조적 또는 기능적 설명들은 단지 본 발명의 개념에 따른 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시예들은 다양한 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.Specific structural or functional descriptions of the embodiments according to the concept of the present invention disclosed in this specification are exemplified only for the purpose of explaining the embodiments according to the concept of the present invention, and the embodiments according to the concept of the present invention These can be implemented in various forms and are not limited to the embodiments described herein.

본 발명의 개념에 따른 실시예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나 이는 본 발명의 개념에 따른 실시예들을 특정한 개시형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 변경, 균등물, 또는 대체물을 포함한다.Embodiments according to the concept of the present invention can be applied to various changes and can have various forms, so that the embodiments will be illustrated in the drawings and described in detail herein. However, this is not intended to limit the embodiments according to the concept of the present invention to specific disclosure forms, and includes changes, equivalents, or substitutes included in the spirit and scope of the present invention.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.Terms such as first or second may be used to describe various components, but the components should not be limited by the terms. The above terms are only for the purpose of distinguishing one component from other components, for example, without departing from the scope of rights according to the concept of the present invention, the first component may be referred to as the second component, Similarly, the second component may also be referred to as the first component.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 "~사이에"와 "바로~사이에" 또는 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.When an element is said to be "connected" or "connected" to another component, it is understood that other components may be directly connected to or connected to the other component, but other components may exist in the middle. It should be. On the other hand, when a component is said to be "directly connected" or "directly connected" to another component, it should be understood that no other component exists in the middle. Expressions describing the relationship between the elements, for example, "between" and "immediately between" or "directly neighboring to" should also be interpreted.

본 명세서에서 사용한 용어는 단지 특정한 실시예들을 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used herein is only used to describe specific embodiments and is not intended to limit the present invention. Singular expressions include plural expressions unless the context clearly indicates otherwise. In this specification, the terms "include" or "have" are intended to designate the presence of a feature, number, step, action, component, part, or combination thereof as described, one or more other features or numbers, It should be understood that the existence or addition possibilities of steps, actions, components, parts or combinations thereof are not excluded in advance.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다.Unless otherwise defined, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by a person skilled in the art to which the present invention pertains. Terms such as those defined in a commonly used dictionary should be interpreted as having meanings consistent with meanings in the context of related technologies, and should not be interpreted as ideal or excessively formal meanings unless explicitly defined herein. Does not. Hereinafter, embodiments will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시 예에 따른 연관법령 제공 시스템을 도시한 것이다.1 illustrates a system for providing a related statute according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 일 실시 예에 따른 연관법령 제공 시스템(1)은 사용자 단말기(10), 검색 서버(20) 및 연관법령 제공 장치(30)를 포함한다.Referring to FIG. 1, a system 1 for providing a related law according to an embodiment of the present invention includes a user terminal 10, a search server 20, and a device 30 for providing related laws.

사용자 단말기(10)는 후술할 검색 서버(20)에 검색어를 입력하기 위한 구성이다. 여기서, 검색어는 검색 서버(20)에서 판결문들을 검색하기 위한 특정 주제에 대한 키워드나 연관법령을 검색하기 위한 법령일 수 있다. 키워드는 예를 들면, 소멸시효, 손해배상, 침해 등 판결문들을 검색하기 위한 법률 용어를 포함할 수 있다.The user terminal 10 is configured to input a search word into the search server 20 to be described later. Here, the search word may be a statute for searching a keyword or a related statute for a specific subject for searching for judgments in the search server 20. Keywords may include legal terms for searching for rulings, such as extinction aging, damages, and infringement, for example.

한편, 사용자 단말기(10)는 스마트폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 데스크탑 PC(desktop personal computer), 랩탑 PC(laptop personal computer), 넷북 컴퓨터(netbook computer) 등의 다양한 형태일 수 있다.On the other hand, the user terminal 10 is a smart phone (smartphone), tablet PC (tablet personal computer), mobile phone (mobile phone), desktop PC (desktop personal computer), laptop PC (laptop personal computer), netbook computer (netbook computer) ).

검색 서버(20)는 사용자 단말기(10)로부터 수신한 검색 쿼리(search query)에 응답하여, 사용자 단말기(10)에 검색 결과를 제공한다. 검색 서버(20)는 검색 쿼리에 포함되어 있는 검색어 및 검색 조건에 따라 사용자 단말기(10)에 제공할 콘텐츠를 선별할 수 있으며, 검색어에 가장 적합한 순위에 따라 콘텐츠가 나열된 검색 결과를 제공할 수 있다.The search server 20 provides a search result to the user terminal 10 in response to a search query received from the user terminal 10. The search server 20 may select content to be provided to the user terminal 10 according to the search terms and search conditions included in the search query, and may provide search results in which content is listed according to the ranking most suitable for the search terms. .

일 실시 예에 따른 검색 서버(20)는 사용자가 사용자 단말기(10)를 통해 입력한 키워드에 대한 판결문들을 검색하기 위한 서버일 수 있다. 즉, 검색 서버(20)는 사용자가 법률용어와 같은 키워드를 입력하면 그에 따라 키워드에 가장 적합한 순위에 따른 판결문들을 나열한다.The search server 20 according to an embodiment may be a server for searching for judgments on keywords entered by the user through the user terminal 10. That is, when the user inputs a keyword such as legal terminology, the search server 20 lists the judgment sentences according to the ranking most suitable for the keyword accordingly.

다른 일 실시 예에 따른 검색 서버(20)는 사용자가 사용자 단말기(10)를 통해 입력한 법령에 대한 연관법령을 검색하기 위한 서버일 수 있다. 검색 서버(20)는 사용자의 입력에 따라 후술할 연관법령 제공 장치(30)로부터 제공받은 연관법령을 사용자 단말기(10)에 제공 및 출력할 수 있다.The search server 20 according to another embodiment may be a server for searching a related statute for a statute entered by the user through the user terminal 10. The search server 20 may provide and output, to the user terminal 10, the relevant laws and regulations provided from the apparatus 30 for providing related laws to be described later according to the user's input.

한편, 검색 서버(20)는 상술한 실시 예들이 분리 또는 결합된 형태일 수 있다. 또한, 검색 서버(20)는 검색 엔진 서비스를 제공하는 것 외에 카페, 메일, 블로그, 쇼핑, 지도, 사전, 뉴스, 증권, 부동산, 영화, 음악, 게시판 등의 다양한 콘텐츠 서비스를 제공하는 포털 사이트 서버일 수 있다. 즉, 검색 서버(20)는 검색 엔진과 포털 사이트가 결합된 형태일 수 있다.Meanwhile, the search server 20 may be in the form of separate or combined embodiments described above. In addition, the search server 20 is a portal site server that provides various content services such as cafes, mail, blogs, shopping, maps, dictionaries, news, securities, real estate, movies, music, bulletin boards, in addition to providing search engine services. Can be That is, the search server 20 may have a form in which a search engine and a portal site are combined.

연관법령 제공 장치(30)는 사용자가 사용자 단말기(10)를 통해 입력한 법령과 연관된 연관법령을 제공하기 위한 장치로서 입력부(310), 학습부(330) 및 제공부(350)를 포함한다.The association law providing device 30 is a device for providing an association law related to a law entered by the user through the user terminal 10 and includes an input unit 310, a learning unit 330, and a provision unit 350.

입력부(310)는 검색 서버(20)로부터 적어도 하나 이상의 판결문들을 검색하고, 검색된 판결문들로부터 참조조문 데이터를 추출하여 context를 구성한다. 본 발명의 일 실시 예에 따른 연관법령 제공 장치에 포함되는 입력부의 블록도를 도시한 도 2를 참조하면, 입력부(310)는 검색부(311), 추출부(313), 파싱부(315) 및 전처리부(317)를 포함한다.The input unit 310 constructs a context by searching for at least one judgment sentence from the search server 20 and extracting reference sentence data from the found judgment sentences. Referring to FIG. 2, which shows a block diagram of an input unit included in an apparatus for providing related laws and regulations according to an embodiment of the present invention, the input unit 310 includes a search unit 311, an extraction unit 313, and a parsing unit 315. And a pre-processing unit 317.

검색부(311)는 키워드를 입력받아 검색 서버(20)로부터 적어도 하나 이상의 판결문들을 검색 및 수집한다. 키워드는 상술한 바와 같이 특정 주제와 관련된 판례를 검색하기 위한 법률용어를 포함할 수 있다. 특정 키워드를 이용하여 대한민국 대법원의 온라인 검색 서버(20)로부터 수집된 판결문들은 아래의 표 1과 같다.The search unit 311 receives a keyword and searches and collects at least one judgment sentence from the search server 20. Keywords may include legal terms for searching for precedents related to a particular subject, as described above. Decisions collected from the online search server 20 of the Supreme Court of the Republic of Korea using specific keywords are shown in Table 1 below.

키워드keyword 카테고리category 문서 개수Number of documents 말뭉치Corpus 판결 법원A ruling court 소송 사건cause 소멸시효Extinction aging 대한민국 대법원Supreme Court of the Republic of Korea 민사Civil 911911 YesYes 형사Detective 1111 NoNo 가사lyrics 66 NoNo 세무Tax 9393 NoNo 일반 행정General administration 5858 NoNo 손해배상Compensation for damages 대한민국 대법원Supreme Court of the Republic of Korea 민사Civil 6,9886,988 YesYes 형사Detective 141141 NoNo 가사lyrics 3535 NoNo 세무Tax 6767 NoNo 일반 행정General administration 137137 NoNo

표 1을 참조하면, 대한민국 대법원의 온라인 검색 서버(20)로부터 키워드(소멸시효, 손해배상)에 따라 판결문들을 수집하고, 입력한 키워드와 관련된 소송 사건에 대한 문서(판결문)를 말뭉치로 이용할 수 있다.Referring to Table 1, it is possible to collect judgments according to keywords (extinction prescription, damages) from the online search server 20 of the Supreme Court of the Republic of Korea, and use documents (judgments) for litigation cases related to the entered keywords as a corpus. .

상술한 바와 같이 검색부(311)는 키워드에 따른 판결문을 검색 및 수집함으로써 학습에 소요되는 시간과 자원을 최소화할 수 있을 뿐만 아니라, 보다 연관성이 높은 참조조문 데이터를 포함한 판례를 학습에 이용할 수 있다.As described above, the search unit 311 may search for and collect judgments according to keywords, thereby minimizing time and resources required for learning, and use precedents including reference texts having a more relevant reference for learning. .

추출부(313)는 검색부(311)를 통하여 검색된 판결문들로부터 참조조문 데이터를 추출한다. 판결문은 판례를 문서화한 것으로서, 특정 사건에 대하여 법리를 근거로 합리적 해석을 하는 내용을 포함하며, 판시사항, 판결요지, 참조조문 및 판결내용과 같은 정형화된 식별항목에 해당하는 내용을 포함한다. 이때 판결문에 포함된 참조조문이란 특정 사건에 대하여 판결을 내리는데 참조된 법조문으로서, 판결문에 설시된 법리가 담긴 가장 기초적이고 중요한 정보이다. 대한민국 판결문을 예로 들면, 참조조문은 판결문에 포함된 식별항목인 [참조조문]과 함께 병기된다.The extraction unit 313 extracts reference sentence data from the judgments searched through the search unit 311. The judgment document is a documented precedent, and includes a reasonable interpretation of a specific case based on the law, and includes contents corresponding to standardized identification items such as judgment, summary, reference, and judgment. At this time, the reference sentence included in the judgment is the legal sentence referenced in making a judgment on a specific case, and it is the most basic and important information that contains the jurisdiction set forth in the judgment. In the case of the Korean ruling, for example, the reference sentence is written together with the reference item [reference sentence] included in the judgment.

참조조문은 쟁점이 비슷한 판례들에서 같은 참조조문이 동시에 반복되어 나타나거나 여러 개의 참조조문이 동시에 나타날 수 있는데, 이러한 참조조문의 특성은 같은 맥락에서 등장하는 단어들이 같은 의미(semantic)를 공유하는 distributional hypothesis와 유사하다고 볼 수 있다. 이에 따라, 본 발명의 일 실시 예에 따른 추출부(313)는 검색된 판결문들로부터 참조조문 데이터만을 추출함으로써 판결문에 포함된 모든 단어들을 학습에 사용하는 것이 아니라, 참조조문 데이터만 학습에 사용하도록 한다.Reference clauses can be repeated in the same reference clauses in cases with similar issues, or multiple reference clauses can appear at the same time.The characteristics of these reference clauses are distributional in which words appearing in the same context share the same semantics. It can be said to be similar to hypothesis. Accordingly, the extracting unit 313 according to an embodiment of the present invention extracts only reference sentence data from the searched judgment sentences, so that all words included in the judgment sentence are not used for learning, but only reference sentence data is used for learning. .

추출부(313)는 판결문의 형식에 따라 다양한 실시 예를 통하여 참조조문 데이터를 추출할 수 있다. 대한민국 판결문을 예로 들면, 추출부(313)는 상술한 바와 같이 판결문에 포함된 식별항목인 [참조조문]의 다음 단락에 나열된 문자열을 참조조문 데이터로서 추출할 수 있다. 한편, 대한민국 판결문과 달리 참조조문과 관련된 식별항목을 별도로 포함하고 있지 않은 판결문의 경우 §(paragraph)나 Art.와 같이 법조항을 나타내는 기호나 단어를 이용하여 참조조문 데이터를 추출할 수도 있다.The extracting unit 313 may extract reference sentence data through various embodiments according to the form of the judgment sentence. For example, in the case of the Korean ruling sentence, the extracting unit 313 may extract the strings listed in the next paragraph of the [reference sentence], which are the identification items included in the ruling sentence, as reference sentence data as described above. On the other hand, in the case of a judgment that does not include an identification item related to a reference clause, unlike a Korean judgment, reference clause data can be extracted using symbols or words that indicate legal provisions, such as § (paragraph) or Art.

추출부(313)를 통해 추출되는 참조조문 데이터는 판결문들에 포함된 참조조문들 각각에 대한 법조항들이 나열된 문자열을 의미할 수 있다. 여기서, 법조항은 법령을 구성하는 각 법조문들을 구분하기 위한 단위로서, 대한민국 법령을 일 예로 들면 조, 항, 호, 목 순으로 구분된다. 즉, 추출부(313)는 판결문에 나타난 참조조문에 대한 법조문 전체가 아닌 해당 참조조문에 대한 법조항만을 참조조문 데이터로서 추출한다. 이때 참조조문 데이터의 일 예로서, “법률명 제○조○항” 또는 “법률명 제○조”가 있다.The reference sentence data extracted through the extraction unit 313 may refer to a string in which legal provisions for each of the reference sentences included in the judgment sentences are listed. Here, the legal clause is a unit for distinguishing each legal clause constituting the statute, and for example, Korean statutes are classified in the order of Article, Clause, Item, and Order. That is, the extracting unit 313 extracts only the legal provisions for the reference provisions as reference provision data, not the entire legal provisions for the reference provisions indicated in the judgment. At this time, as an example of the reference sentence data, there is "Article ○ Article ○ ○" or "Legal Name Article ○".

상술한 바와 같이 추출부(313)는 법조문 전체가 아닌 법조항만을 학습에 사용되는 데이터로 추출함으로써 복잡한 한글 전처리의 어려움을 해결하고 연관법령의 검색 성능을 높일 수 있다.As described above, the extraction unit 313 extracts only legal terms, not whole legal sentences, into data used for learning, thereby solving the difficulties of complex Hangul preprocessing and improving the search performance of related laws.

파싱부(315)는 추출부(313)를 통하여 추출된 참조조문 데이터를 구분자를 기준으로 파싱(parsing)하여 context를 구성한다. 상술한 바와 같이 참조조문 데이터가 법조항들이 나열된 문자열인 경우 파싱부(315)는 설정된 구분자를 기준으로 참조조문 데이터를 법조항 단위로 파싱한다.The parsing unit 315 constructs a context by parsing reference query data extracted through the extracting unit 313 based on a separator. As described above, when the reference provision data is a string in which legal provisions are listed, the parsing unit 315 parses the reference provision data in units of legal provisions based on the set separator.

여기에, 전처리부(317)를 더 포함할 수 있다. 전처리부(317)는 파싱된 참조조문 데이터에 대하여 전처리를 수행한다. 여기서, 전처리는 참조조문 데이터에 포함된 법조항들의 단위를 통일하는 것을 의미할 수 있다. 예를 들어, 법조항들의 단위를 조 단위로 통일하고자 하는 경우, 전처리부(317)는 참조조문 데이터에 포함된 법조항들에서 조 단위 이하의 단위에 해당하는 항, 목 및 호를 제거한다.Here, the pre-processing unit 317 may be further included. The preprocessing unit 317 preprocesses the parsed reference query data. Here, pre-processing may mean unifying the units of legal provisions included in the reference provision data. For example, when the unit of legal provisions is to be unified in units of trillions, the pre-processing unit 317 removes the terms, items, and titles corresponding to units less than trillion units from the legal provisions included in the reference provision data.

학습부(330)는 입력부(310)를 통해 가공된 참조조문 데이터를 언어처리 알고리즘을 통하여 벡터화한다. 여기서, 언어처리 알고리즘은 자연어처리(Natural Language Processing) 분야에서 활용되는 워드 임베딩(word embedding) 알고리즘을 의미할 수 있다. 워드 임베딩은 말뭉치(corpus)에 존재하는 단어들을 연속형의 값을 갖는 벡터로 표현하기 위한 것으로서, 벡터화된 단어 벡터는 다른 단어들과 문맥상의 의미가 최대한 보존될 수 있도록 알고리즘에 의해 학습된다.The learning unit 330 vectorizes the reference query data processed through the input unit 310 through a language processing algorithm. Here, the language processing algorithm may mean a word embedding algorithm used in the field of natural language processing. The word embedding is for expressing words in a corpus as a vector having a continuous value, and the vectorized word vector is learned by an algorithm so that other words and contextual meanings are preserved as much as possible.

워드 임베딩 알고리즘으로는 NNLM(Neural Network Language Model), RNNLM(Recurrent Neural Net Language Model) 및 Word2Vec를 포함할 수 있으나, 본 발명은 이에 한정되지 아니하고 다양한 알고리즘을 적용하여 워드 임베딩을 실시할 수 있다.The word embedding algorithm may include NNLM (Neural Network Language Model), RNNLM (Recurrent Neural Net Language Model), and Word2Vec, but the present invention is not limited thereto, and various algorithms may be applied to perform word embedding.

이하에서는, Word2Vec 알고리즘을 기반으로 하는 실시 예를 설명하기로 한다. Word2Vec은 전방 전달 신경망(feedforward neural netword) 기반의 언어 모델을 활용한 워드 임베딩 알고리즘으로서, hidden layer와 output layer에서 계산에 많은 시간이 소요되는 NNLM의 문제점을 보완하여 신경망 구성의 단순함에 비해 학습된 단어의 벡터표현에 대한 우수한 성능을 나타낸다.Hereinafter, an embodiment based on the Word2Vec algorithm will be described. Word2Vec is a word embedding algorithm that utilizes a language model based on a feedforward neural netword. It compensates for the problem of NNLM, which takes a lot of time in computation in the hidden layer and the output layer. It shows excellent performance for vector expression.

Word2Vec은 같은 맥락을 지닌 단어는 가까운 의미를 지고 있다고 전제하여 입력한 말뭉치의 문장에 있는 단어와 인접 단어의 관계를 이용해 단어의 의미를 학습한다. 연관된 의미의 단어들은 문서상에서 가까운 곳에 나타날 가능성이 높기 때문에 학습을 반복해 나가는 과정에서 두 단어는 점차 가까운 벡터값을 가질 수 있다.Word2Vec learns the meaning of a word using the relationship between the word in the corpus sentence and the adjacent word, assuming that the word with the same context has a close meaning. Words of related meanings are likely to appear close to each other in the document, so in the course of repeating learning, the two words may gradually have a close vector value.

Word2Vec은 두 가지 모델이 있는데, CBOW(Continuous Bag-Of-Words)와 skip-gram 모델이 있다. CBOW는 주변 단어가 주어졌을 때 중심 단어를 예측하는 모델이고, skip-gram은 CBOW와 반대로 중심 단어를 입력받고 그에 대한 주변 단어를 예측하는 모델이다.There are two models of Word2Vec, CBOW (Continuous Bag-Of-Words) and skip-gram model. CBOW is a model that predicts a central word when a surrounding word is given, and skip-gram is a model that receives a central word as opposed to CBOW and predicts a surrounding word for it.

본 발명에 적용될 수 있는 Word2Vec 알고리즘을 설명하기 위한 계층도를 도시한 도 3을 참조하면, 도 3에 도시된 계층도는 Word2Vec에서 skip-gram 모델을 도시한 것으로서, Input layer에서는 벡터화하고자 하는 참조조문 데이터에 포함된 법조항에 해당하는 단어들을 one-hot-encoding으로 벡터화한다. Hiddeng layer에서는 one-hot-encoding으로 벡터화된 데이터에 가중치 행렬 W와 W`를 곱하여 Output layer로 내보낸다. Output layer에서는 softmax 계산을 수행하고, 계산 결과를 진짜 단어의 계산 결과와 비교하여 역전파(backpropagation)한다.Referring to FIG. 3, which shows a hierarchical diagram for explaining the Word2Vec algorithm that can be applied to the present invention, the hierarchical diagram shown in FIG. 3 shows a skip-gram model in Word2Vec, and a reference sentence to be vectorized in the input layer. Words corresponding to legal provisions included in the data are vectorized into one-hot-encoding. In the Hiddeng layer, the data vectorized by one-hot-encoding is multiplied by the weighting matrix W and W` and exported to the Output layer. In the output layer, softmax calculation is performed, and the result of the calculation is backpropagated by comparing the result of calculation with a real word.

여기서 softmax 계산은 아래의 수학식 1에 의해 수행된다.Here, the softmax calculation is performed by Equation 1 below.

Figure 112018042163997-pat00001
Figure 112018042163997-pat00001

여기서,

Figure 112018042163997-pat00002
는 중심 법령(o)이 주어졌을 때 주변 법령(c)이 등장할 조건부 확률,
Figure 112018042163997-pat00003
는 중심 법령에 대한 벡터값,
Figure 112018042163997-pat00004
는 주변 법령에 대한 벡터값을 의미한다.here,
Figure 112018042163997-pat00002
Is the conditional probability that the surrounding statute (c) will appear when the central statute (o) is given,
Figure 112018042163997-pat00003
Is the vector value for the central statute,
Figure 112018042163997-pat00004
Denotes a vector value for surrounding laws and regulations.

즉, Word2Vec은 상기 수학식 1에 의한 조건부 확률

Figure 112018042163997-pat00005
을 최대화하는 방향으로 가중치 행렬 W,W`를 업데이트하면서 학습을 수행하여 서로 관련이 있는 법조항에 해당하는 벡터값들은 N차원 공간에서 서로 비슷한 곳에 위치하도록 한다.That is, Word2Vec is a conditional probability according to Equation 1 above.
Figure 112018042163997-pat00005
By updating the weighting matrix W, W` in the direction of maximizing, the vector values corresponding to the legal provisions related to each other are located in the N-dimensional space similar to each other.

학습부(330)는 상술한 바와 같이 학습을 통하여 파싱된 참조조문 데이터에 포함된 법조항들을 벡터화하여 법조항들 각각에 대한 단어 벡터들을 생성하고, 이를 제공부(350)에 제공한다.The learning unit 330 generates word vectors for each of the legal terms by vectorizing the legal terms included in the reference sentence data parsed through learning as described above, and provides them to the providing unit 350.

제공부(350)는 학습부(330)를 통하여 생성된 단어 벡터들 간에 유사도를 계산하고, 계산된 유사도가 가장 높을 때의 단어 벡터에 대응하는 법조항을 검색 서버(20)에 제공한다. 유사도란 단어들 간에 의미적 연관성을 나타내는 척도로서, 본 발명의 경우 학습의 대상이 되는 법조항들 간에 연관도를 의미할 수 있다.The providing unit 350 calculates similarity between word vectors generated through the learning unit 330, and provides the search server 20 with a legal provision corresponding to the word vector when the calculated similarity is highest. Similarity is a measure of semantic association between words, and in the present invention, it may mean a degree of association between legal provisions for learning.

일 실시 예에 따른 제공부(350)는 임의의 단어 벡터 a,b에 대한 코사인 유사도(cosine similarity)를 아래의 수학식 2와 같이 계산할 수 있다.The providing unit 350 according to an embodiment may calculate cosine similarity for arbitrary word vectors a and b as shown in Equation 2 below.

Figure 112018042163997-pat00006
Figure 112018042163997-pat00006

여기서,

Figure 112018042163997-pat00007
는 코사인 유사도를 의미한다.here,
Figure 112018042163997-pat00007
Means cosine similarity.

즉, 제공부(350)는 학습부(330)를 통해 생성된 모든 단어 벡터들 간에 코사인 유사도를 상기 수학식 2와 같이 계산한다. 한편, 일 실시 예에 따른 제공부(350)는 모든 단어 벡터들 간에 유사도를 계산하는 것이 아니라, 생성된 단어 벡터들 중에서 검색 서버(20)가 입력받은 검색 대상 법조항에 대응하는 단어 벡터와 상기 검색 대상 법조항에 대응하는 단어 벡터를 제외한 나머지 단어 벡터들 간에만 유사도를 계산할 수도 있다.That is, the provision unit 350 calculates the cosine similarity between all word vectors generated through the learning unit 330 as shown in Equation 2 above. On the other hand, the providing unit 350 according to an embodiment does not calculate the similarity among all word vectors, but among the generated word vectors, the word vector corresponding to the search target legal provision received by the search server 20 and the search Similarity may be calculated only among word vectors other than the word vector corresponding to the target legal provision.

상술한 바와 같이 제공부(350)는 단어 벡터들 간에 계산된 유사도를 이용하여 계산된 유사도가 가장 높을 때의 단어 벡터에 대응하는 법조항을 검색 서버(20)에 제공할 수 있다.As described above, the providing unit 350 may provide the search server 20 with a legal provision corresponding to the word vector when the similarity calculated using the similarity calculated between the word vectors is highest.

한편, 본 발명의 일 실시 예에 따른 연관법령 제공 시스템 및 방법을 통해 연관법령이 출력되는 화면의 일 예를 도시한 도 4를 참조하면, 제공부(350)가 검색 서버(20)에 제공한 법조항은 검색 서버(20)에 접속한 사용자 단말기(10)를 통해 검색창의 하단에 출력될 수 있다.On the other hand, referring to FIG. 4 showing an example of a screen in which the relevant laws are output through the system and method for providing relevant laws according to an embodiment of the present invention, the providing unit 350 provides the search server 20 Legal provisions may be output at the bottom of the search window through the user terminal 10 connected to the search server 20.

도 5는 본 발명의 일 실시 예에 따른 연관법령 제공 방법의 순서도를 도시한 것이다. 이하에서는 앞서 설명한 부분과 중복되는 부분에 대한 상세한 설명은 생략하기로 한다.5 is a flowchart of a method for providing a related law according to an embodiment of the present invention. Hereinafter, detailed descriptions of parts overlapping with those described above will be omitted.

도 5를 참조하면, S410 단계는 검색부(311)를 통해 입력된 키워드에 대하여 검색 서버(20)로부터 적어도 하나 이상의 판결문들을 검색하는 단계이다. 이때, 키워드는 특정 주제와 관련된 판례를 검색하기 위한 법률용어를 포함할 수 있다.Referring to FIG. 5, step S410 is a step of searching for at least one judgment sentence from the search server 20 for a keyword input through the search unit 311. In this case, the keyword may include legal terms for searching for precedents related to a specific subject.

S420 단계는 S410 단계를 통해 검색된 적어도 하나 이상의 판결문들에 포함된 참조조문 데이터를 추출하는 단계이다. 한편, 추출되는 참조조문 데이터는 판결문들에 포함된 참조조문들 각각에 대한 법조항들이 나열된 문자열을 의미할 수 있다. 여기서, 법조항은 법령을 구성하는 각 법조문들을 구분하기 위한 단위로서, 대한민국 법령을 일 예로 들면 조, 항, 호, 목 순으로 구분된다.Step S420 is a step of extracting reference sentence data included in at least one judgment sentence searched through step S410. Meanwhile, the extracted reference clause data may mean a string in which legal provisions for each of the reference clauses included in the judgments are listed. Here, the legal clause is a unit for distinguishing each legal clause constituting the statute, and for example, Korean statutes are classified in the order of Article, Clause, Item, and Order.

S430 단계는 추출된 참조조문 데이터에 대한 전처리를 수행한다. S430 단계는 S420 단계에서 참조조문 데이터를 '조'단위로 추출한 경우 생략될 수 있다.In step S430, pre-processing of the extracted reference query data is performed. Step S430 may be omitted when the reference query data is extracted in a 'tuple' unit in step S420.

S440 단계는 S420 단계 내지 S430 단계를 통하여 추출 및 전처리가 수행된 참조조문 데이터에 대하여 구분자를 기준으로 법조항 단위로 파싱을 수행한다.In step S440, parsing is performed in units of legal clauses based on a separator for reference sentence data that has been extracted and preprocessed through steps S420 to S430.

S450 단계는 S440 단계를 통하여 파싱된 참조조문 데이터를 벡터화하여 참조조문 데이터에 포함된 법조항들 각각에 대한 단어 벡터들을 생성한다. 상술한 바와 같이 S450 단계는 NNLM, RNNLM 및 Word2Vec와 같은 워드 임베딩 알고리즘을 통하여 수행될 수 있다.In step S450, the reference sentence data parsed through step S440 is vectorized to generate word vectors for each of the legal terms included in the reference sentence data. As described above, step S450 may be performed through word embedding algorithms such as NNLM, RNNLM, and Word2Vec.

S460 단계는 S450 단계를 통해 생성된 단어 벡터들 중에서 검색 서버(20)가 입력받은 검색 대상 법조항에 대응하는 단어 벡터와 상기 검색 대상 법조항에 대응하는 단어 벡터를 제외한 나머지 단어 벡터들 간에 유사도를 계산한다. 여기서, 유사도는 예를 들면 코사인 유사도일 수 있다.In step S460, among the word vectors generated through step S450, similarity is calculated between the word vectors corresponding to the search target legal terms input by the search server 20 and the remaining word vectors except the word vectors corresponding to the search target legal terms. . Here, the similarity may be, for example, cosine similarity.

S470 단계는 S460 단계를 통해 계산된 유사도가 가장 높을 때의 단어 벡터에 대응하는 법조항을 검색 서버(20)에 제공한다.In step S470, the search server 20 provides legal provisions corresponding to the word vector when the similarity calculated through step S460 is highest.

이하에서는 상술한 본 발명의 일 실시 예에 따른 연관법령 제공 시스템 및 방법과 기존의 연관법령 검색 및 제공 기법을 비교하기로 한다. 아래의 표 2는 검색 대상 법조항이 민법 제168조이고, 표 3은 검색 대상 법조항이 민법 제755조일 때의 본 발명의 일 실시 예에 따른 연관법령 제공 시스템 및 방법을 통하여 검색 및 제공되는 연관법령과 기존의 연관법령 검색 및 제공 기법을 통하여 검색 및 제공되는 연관법령을 각각 나타낸 것이다.Hereinafter, a system and method for providing relevant laws and regulations according to an embodiment of the present invention described above will be compared with an existing method for searching and providing related laws and regulations. Table 2 below shows the relevant laws and regulations that are searched and provided through the system and method of providing relevant laws and regulations according to an embodiment of the present invention when the legal provisions to be searched are Article 168 of the Civil Code, and Table 3 is the legal provisions to be searched for Article 755 of the Civil Code. It shows the related laws that are searched and provided through existing related laws search and provision techniques.

Figure 112018042163997-pat00008
Figure 112018042163997-pat00008

Figure 112018042163997-pat00009
Figure 112018042163997-pat00009

상기 표 2,3을 참조하면, 기존의 기법의 경우 검색대상 법조항인 민법 제168조 및 민법 제755조라는 단어를 법조문에 포함하는 법조항에 한하여 검색되었다.Referring to Tables 2 and 3 above, in the case of the existing technique, only the legal provisions that included the words of Article 168 of the Civil Code and Article 755 of the Civil Code, which are the legal terms to be searched, were searched.

반면에, 본 발명의 경우 민법 제168조를 검색대상 법조항으로 한 경우 연관법령은 민법 제169조, 어음법 제77조 및 민법 제430조가 도출되었다. 즉, 민법 제168조의 단어 벡터에 대한 정보를 통해 민법 제168조의 '소멸시효의 중단'과 의미적으로 유사성이 있는 것으로 볼 수 있는 '시효중단의 효력'을 다룬 법조문(민법 제169조)이 도출되었으며, 민법 제755조의 단어 벡터에 대한 정보를 통해 '감독자의 책임'과 관련이 있는 '미성년자의 책임능력'을 다룬 법조문(민법 제753조)나 '업무집행자의 대리권 추정'을 다룬 법조문(민법 제709조)가 도출되었다.On the other hand, in the case of the present invention, when Article 168 of the Civil Code is a legal clause to be searched for, the relevant laws and regulations are derived from Article 169 of the Civil Code, Article 77 of the Speech Act and Article 430 of the Civil Code. In other words, through the information on the word vector of Article 168 of the Civil Code, a legal statement dealing with the effect of the cessation of prescription (Article 169), which can be regarded as having a semantic similarity to the 'Suspension of Extinctive Prescription', Article 168 of the Civil Code The legal provisions dealing with 'Minor's Responsibility' related to 'Supervisor's Responsibility' through the information on the word vector of Article 755 of the Civil Code (Article 753 of the Civil Code) or the legal provisions dealing with the 'estimation of proxy for business executives' Article 709 of the Civil Code) was derived.

따라서, 본 발명의 일 실시 예에 따른 연관법령 제공 시스템 및 방법은 단순히 검색대상 법조항을 법조문에 포함하는 법령만 검색하는 기존의 기법들과 차이점이 있다.Accordingly, the system and method for providing relevant laws and regulations according to an embodiment of the present invention are different from existing techniques for simply searching for laws and regulations that include the legal clause to be searched in the legal clause.

한편, 상술한 바와 같이 기존의 기법과의 비교를 통한 성능 평가뿐만 아니라, 정밀도 및 재현율 산정을 통하여 본 발명의 일 실시 예에 따른 연관법령 제공 시스템 및 방법에 대한 성능 평가를 수행할 수도 있다. 여기서, 정밀도 및 재현율은 검색된 연관법령이 키워드와 관련된 핵심어를 얼마나 포함하고 있는지에 대한 척도로서 각각 아래의 수학식 3 및 4에 의해 정의될 수 있다.On the other hand, as described above, as well as performance evaluation through comparison with an existing technique, performance evaluation of a system and method for providing relevant laws and regulations according to an embodiment of the present invention may be performed through calculation of precision and reproducibility. Here, the precision and the reproducibility may be defined by Equations 3 and 4 below as a measure of how many keywords related to the keyword are included in the searched related laws.

Figure 112018042163997-pat00010
Figure 112018042163997-pat00010

여기서, Precision은 정밀도이고, tp는 검색된 연관법령 중에서 적합 법령의 수이고, fp는 부적합 법령의 수이다.Here, Precision is the precision, tp is the number of relevant laws among the related laws found, and fp is the number of non-conformance laws.

Figure 112018042163997-pat00011
Figure 112018042163997-pat00011

여기서, Recall은 재현율이고, tn은 검색된 적합 건의 개수이고, fn은 검색되지 않은 적합 건의 개수이다.Here, Recall is the reproducibility, tn is the number of fits found, and fn is the number of fits not found.

상기 수학식 3,4를 이용하여 키워드를 '소멸시효'로 하여 검색 및 수집한 판결문들로부터 추출한 참조조문 데이터에 대하여 학습 및 벡터화를 수행한 경우 검색된 연관법령에 대한 정밀도 및 재현율을 산정한 결과는 아래의 표 4와 같다.In the case of learning and vectorizing the reference sentence data extracted from the judgments collected by searching and collecting keywords by using the equations 3 and 4 as 'extinction aging', the result of calculating the precision and reproducibility of the searched relevant statute is as follows: Table 4 below.

검색대상 법조항Search provisions RankRank 정밀도[%]Precision [%] 재현율[%]Reproducibility [%] 민법 제766조Article 766 of the Civil Code 1010 6060 5555 2020 4545 5050 3030 5757 6363 민법 제166조Article 166 of the Civil Code 1010 7070 7070 2020 6363 6060 3030 6464 6060 민법 제168조Article 168 of the Civil Code 1010 5050 6363 2020 5555 6565 3030 5050 6868 평균Average 2020 5757 6262

상기 표 4에서 Rank는 연관법령 결과의 순위를 의미한다. 상기 표 4를 참조하면, 상위에 rank된 연관법령이 핵심어를 포함하고 있는 유사한 법령일 확률이 더 높다. 또한, 연관법령을 많이 추출할수록 positive 관계로 도출된 법령은 negative 관계로 도출된 법령보다 핵심어가 포함된 법령이 많이 도출된다.In Table 4, Rank means the rank of the result of the related laws. Referring to Table 4 above, there is a higher probability that the related statute ranked above is a similar statute containing a key word. In addition, the more relevant laws are extracted, the more laws are derived with positive relationships, and the more laws with key words are derived.

상술한 바와 같이 본 발명의 일 실시 예에 따른 연관법령 제공 시스템 및 방법은 정밀도뿐만 아니라 재현율 측면에서도 균형을 이루는 것을 통해 검색 및 제공되는 연관법령이 검색대항 법조항과 의미상 연관성을 가지는 결과를 제공하는 것을 알 수 있다.As described above, the system and method for providing an association law according to an embodiment of the present invention provide results having a semantic correlation with the provisions of the search term and the provisions of the related laws that are searched and provided through balancing not only precision but also reproducibility. You can see that

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.The device described above may be implemented with hardware components, software components, and / or combinations of hardware components and software components. For example, the devices and components described in the embodiments include, for example, a processor, controller, arithmetic logic unit (ALU), digital signal processor (micro signal processor), microcomputer, field programmable array (FPA), It may be implemented using one or more general purpose computers or special purpose computers, such as a programmable logic unit (PLU), microprocessor, or any other device capable of executing and responding to instructions. The processing device may run an operating system (OS) and one or more software applications running on the operating system. In addition, the processing device may access, store, manipulate, process, and generate data in response to the execution of the software. For convenience of understanding, a processing device may be described as one being used, but a person having ordinary skill in the art, the processing device may include a plurality of processing elements and / or a plurality of types of processing elements. It can be seen that may include. For example, the processing device may include a plurality of processors or a processor and a controller. In addition, other processing configurations, such as parallel processors, are possible.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.The software may include a computer program, code, instruction, or a combination of one or more of these, and configure the processing device to operate as desired, or process independently or collectively You can command the device. Software and / or data may be interpreted by a processing device, or to provide instructions or data to a processing device, of any type of machine, component, physical device, virtual equipment, computer storage medium or device. , Or may be permanently or temporarily embodied in the transmitted signal wave. The software may be distributed on networked computer systems, and stored or executed in a distributed manner. Software and data may be stored in one or more computer-readable recording media.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer readable medium. The computer-readable medium may include program instructions, data files, data structures, or the like alone or in combination. The program instructions recorded on the medium may be specially designed and configured for the embodiments or may be known and usable by those skilled in computer software. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tapes, optical media such as CD-ROMs, DVDs, and magnetic media such as floptical disks. -Hardware devices specially configured to store and execute program instructions such as magneto-optical media, and ROM, RAM, flash memory, and the like. Examples of program instructions include high-level language code that can be executed by a computer using an interpreter, etc., as well as machine language codes produced by a compiler. The hardware device described above may be configured to operate as one or more software modules to perform the operations of the embodiments, and vice versa.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.Although the embodiments have been described by the limited drawings as described above, a person skilled in the art can make various modifications and variations from the above description. For example, the described techniques are performed in a different order than the described method, and / or the components of the described system, structure, device, circuit, etc. are combined or combined in a different form from the described method, or other components Alternatively, even if replaced or substituted by equivalents, appropriate results can be achieved.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.Therefore, other implementations, other embodiments, and equivalents to the claims are also within the scope of the following claims.

Claims (6)

연관법령 제공 장치에 의해 수행되는 연관법령 제공 방법으로서,
입력된 키워드에 대하여 검색 서버로부터 판결문들을 검색하는 단계;
상기 판결문들에 포함된 참조조문 데이터를 추출하는 단계;
상기 참조조문 데이터를 구분자를 기준으로 파싱(parsing)하는 단계;
파싱된 참조조문 데이터를 벡터화하여 상기 참조조문 데이터에 포함된 법조항들 각각에 대한 단어 벡터들을 생성하는 단계;
상기 단어 벡터들 중에서 상기 검색 서버가 입력받은 검색 대상 법조항에 대응하는 단어 벡터와 상기 검색 대상 법조항에 대응하는 단어 벡터를 제외한 나머지 단어 벡터들 간의 유사도를 계산하는 단계; 및
가장 높은 유사도 값이 도출된 단어 벡터에 대응하는 법조항을 상기 검색 서버에 제공하는 단계를 포함하고,
상기 파싱하는 단계는 상기 참조조문 데이터에 포함된 법조항들의 단위를 미리 정해진 단위로 통일시키는 전처리 단계를 더 포함하고,
상기 유사도(
Figure 112020018880427-pat00017
)는 수학식 1에 의해 정의되는 코사인 유사도(cosine similarity)이고,
상기 수학식 1은
Figure 112020018880427-pat00018
이고,
상기 a는 상기 검색 대상 법조항에 대응하는 단어 벡터이고,
상기 b는 상기 단어 벡터들 중 상기 검색 대상 법조항에 대응하는 단어 벡터를 제외한 나머지 단어 벡터들 중 어느 하나인,
연관법령 제공 방법.
A method for providing a related law performed by an apparatus for providing related laws,
Searching for judgments from the search server for the input keyword;
Extracting reference sentence data included in the judgments;
Parsing the reference sentence data based on a separator;
Vectorizing parsed reference sentence data to generate word vectors for each of the legal terms included in the reference sentence data;
Calculating similarities between word vectors corresponding to the search target legal terms received from the search server and word vectors other than the word vectors corresponding to the search target legal terms; And
Providing the search server with a legal provision corresponding to the word vector from which the highest similarity value is derived,
The parsing step further includes a pre-processing step of unifying units of legal provisions included in the reference sentence data into predetermined units,
The similarity (
Figure 112020018880427-pat00017
) Is cosine similarity defined by Equation 1,
Equation 1 is
Figure 112020018880427-pat00018
ego,
The a is a word vector corresponding to the search term law clause,
The b is any one of the word vectors other than the word vector corresponding to the search target legal clause among the word vectors,
How to provide related laws.
제1항에 있어서,
상기 벡터화하는 단계는 워드투벡(word2vec) 알고리즘을 이용하여 상기 파싱된 참조조문 데이터를 벡터화하는 연관법령 제공 방법.
According to claim 1,
The vectorizing step is a method of providing an association method for vectorizing the parsed reference sentence data using a word-to-vec (word2vec) algorithm.
제2항에 있어서,
상기 워드투벡 알고리즘은 skip-gram 모델을 기반으로 하는 연관법령 제공 방법.
According to claim 2,
The word-to-vec algorithm is a method of providing an association method based on a skip-gram model.
삭제delete 삭제delete 삭제delete
KR1020180049140A 2018-04-27 2018-04-27 Searching Method for Related Law KR102091633B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180049140A KR102091633B1 (en) 2018-04-27 2018-04-27 Searching Method for Related Law

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180049140A KR102091633B1 (en) 2018-04-27 2018-04-27 Searching Method for Related Law

Publications (2)

Publication Number Publication Date
KR20190124986A KR20190124986A (en) 2019-11-06
KR102091633B1 true KR102091633B1 (en) 2020-03-20

Family

ID=68541869

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180049140A KR102091633B1 (en) 2018-04-27 2018-04-27 Searching Method for Related Law

Country Status (1)

Country Link
KR (1) KR102091633B1 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102255704B1 (en) * 2020-09-02 2021-05-25 주식회사 다인바인 System for providing legal service and method thereof
WO2022085823A1 (en) * 2020-10-22 2022-04-28 주식회사 데이타솔루션 Device and method for generating positioning map using topic modeling technique
CN112269796B (en) * 2020-10-23 2023-12-22 北京浪潮数据技术有限公司 Data retrieval method and related device
KR102460216B1 (en) * 2022-06-13 2022-11-01 주식회사 엘박스 Apparatus for recommending similar judgment by personalized learning set based on artificial intelligence and its operation method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101598076B1 (en) * 2014-04-15 2016-03-07 (주)광개토연구소 Method of data process for patent evaluation and apparatus of providing data for patent evaluation
KR101707941B1 (en) 2015-12-09 2017-02-27 펄슨정보기술 주식회사 Method, device and computer readable recording medium for searching precedent using automatic coversion between general term and legal term
KR101799681B1 (en) * 2016-06-15 2017-11-20 울산대학교 산학협력단 Apparatus and method for disambiguating homograph word sense using lexical semantic network and word embedding

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101803150B1 (en) * 2015-10-13 2017-11-29 이지민 Important precedents extraction and sorting method using Big Data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101598076B1 (en) * 2014-04-15 2016-03-07 (주)광개토연구소 Method of data process for patent evaluation and apparatus of providing data for patent evaluation
KR101707941B1 (en) 2015-12-09 2017-02-27 펄슨정보기술 주식회사 Method, device and computer readable recording medium for searching precedent using automatic coversion between general term and legal term
KR101799681B1 (en) * 2016-06-15 2017-11-20 울산대학교 산학협력단 Apparatus and method for disambiguating homograph word sense using lexical semantic network and word embedding

Also Published As

Publication number Publication date
KR20190124986A (en) 2019-11-06

Similar Documents

Publication Publication Date Title
Devika et al. Sentiment analysis: a comparative study on different approaches
Lippi et al. Argumentation mining: State of the art and emerging trends
KR102123974B1 (en) Similar patent search service system and method
CN107862046B (en) A kind of tax commodity code classification method and system based on short text similarity
KR102091633B1 (en) Searching Method for Related Law
Usman et al. Urdu text classification using majority voting
Le et al. Text classification: Naïve bayes classifier with sentiment Lexicon
Avasthi et al. Techniques, applications, and issues in mining large-scale text databases
Gupta et al. A novel hybrid text summarization system for Punjabi text
Hossny et al. Feature selection methods for event detection in Twitter: a text mining approach
CN112559747A (en) Event classification processing method and device, electronic equipment and storage medium
Li et al. TagDC: A tag recommendation method for software information sites with a combination of deep learning and collaborative filtering
Ikram et al. Arabic text classification in the legal domain
Budhiraja et al. A supervised learning approach for heading detection
Jadhav et al. Text summarization using neural networks
Saeidi et al. Graph representation learning in document wikification
Tian et al. Chinese short text multi-classification based on word and part-of-speech tagging embedding
Ampel et al. Distilling Contextual Embeddings Into A Static Word Embedding For Improving Hacker Forum Analytics
Yu et al. Enhancing attributed network embedding via similarity measure
Wang et al. Fusing logical relationship information of text in neural network for text classification
CN111061939B (en) Scientific research academic news keyword matching recommendation method based on deep learning
Hannah et al. A classification-based summarisation model for summarising text documents
Yang et al. Name entity extraction based on POS tagging for criminal information analysis and relation visualization
Andrian et al. Implementation of Naïve Bayes Algorithm in Sentiment Analysis of Twitter Social Media Users Regarding Their Interest to Pay the Tax
Kang et al. A transfer learning algorithm for automatic requirement model generation

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant