KR101515413B1 - Professional field search supporting method and apparatus - Google Patents

Professional field search supporting method and apparatus Download PDF

Info

Publication number
KR101515413B1
KR101515413B1 KR1020130096419A KR20130096419A KR101515413B1 KR 101515413 B1 KR101515413 B1 KR 101515413B1 KR 1020130096419 A KR1020130096419 A KR 1020130096419A KR 20130096419 A KR20130096419 A KR 20130096419A KR 101515413 B1 KR101515413 B1 KR 101515413B1
Authority
KR
South Korea
Prior art keywords
word
mapping
terminology
query
mapping table
Prior art date
Application number
KR1020130096419A
Other languages
Korean (ko)
Other versions
KR20150019474A (en
Inventor
이수원
백종범
Original Assignee
숭실대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 숭실대학교산학협력단 filed Critical 숭실대학교산학협력단
Priority to KR1020130096419A priority Critical patent/KR101515413B1/en
Priority to PCT/KR2013/011920 priority patent/WO2015023031A1/en
Publication of KR20150019474A publication Critical patent/KR20150019474A/en
Application granted granted Critical
Publication of KR101515413B1 publication Critical patent/KR101515413B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

전문분야 검색 지원 방법 및 장치가 개시된다. 전문분야 검색 지원 방법은 (a)웹 문서에서 질의-답변 데이터를 수집하는 단계; (b) 상기 질의-답변 데이터에서 질문부와 답변부를 구분하여 분석하여 단어를 추출하는 단계; (c) 상기 질문부 및 상기 답변부에 포함된 각 단어들간의 상관성 분석을 통해 일반 용어-전문 용어 매핑 확률을 계산하여 일반 용어-전문용어 매핑 테이블을 생성하는 단계; 및 (d) 상기 용어 매핑 테이블을 이용하여 질의문에 포함된 단어를 포함하는 전문 용어를 추출하여 제공하는 단계를 포함한다.A method and apparatus for specialized field search support are disclosed. A method for supporting a specialized field search includes the steps of (a) collecting query-answer data in a web document; (b) extracting words by analyzing the question part and the answer part in the question-answer data; (c) generating a general term-terminology mapping table by calculating a general term-terminology mapping probability by analyzing correlation between words included in the question portion and the answer portion; And (d) extracting and providing a terminology including a word included in the query using the term mapping table.

Description

전문분야 검색 지원 방법 및 그 장치{Professional field search supporting method and apparatus}Field of the Invention < RTI ID = 0.0 > [0001] < / RTI &

본 발명은 웹 사이트에서 수집된 Q&A 데이터 또는 판례 데이터를 이용하여 일반 용어와 전문 용어 또는 법령과의 매핑 확률을 학습한 후, 이를 이용하여 질의어에 대한 전문 용어 또는 법령을 예측하여 제공할 수 있는 전문 분야 검색 지원 방법 및 그 장치에 관한 것이다.The present invention relates to a method and apparatus for learning a mapping probability between a general term, a technical term, and a statute by using Q & A data or precedent data collected from a web site and then using the same to predict a technical term or statute for the query term Field search support method and apparatus thereof.

전문 분야에 대한 사전지식이 없는 일반인이 각종 전문 분야의 지식을 검색하고 활용하는 것은 매우 어려운 일이다. 예를 들어 의료지식이 없는 일반인이 본인의 몸상태에 대한 의료지식을 검색하고 이해하는 것은 거의 불가능한 일이며, 법률지식이 없는 일반인이 변호사의 도움 없이 본인이 처한 어려움에 해당되는 법령을 찾아 내고 활용하는 것 역시 매우 힘든 일이다. 특히 법률 분야에 있어서 법령은 일상에서 거의 사용되지 않는 법률전문용어만으로 구성되어 있다. 이로 인하여 법률전문용어를 모르는 일반인이 작성한 질의문(Query)만으로는 법령정보검색에 한계가 있다.It is very difficult for the general public who does not have prior knowledge of the specialization field to search for and utilize knowledge in various specialties. For example, it is almost impossible for a general person without medical knowledge to search for and understand medical knowledge about his or her body condition. A general person without legal knowledge can find out the laws and regulations applicable to his / her difficulties without the assistance of a lawyer. It is also very difficult to do. Especially, in the field of law, laws and ordinances consist of legal terminology rarely used in everyday life. As a result, there is a limit to legal information retrieval only by a query made by a general person who does not know legal terminology.

일반인의 법령 혹은 판례 검색 작업을 지원하기 위한 연구로는 네덜란드에서 2005년도부터 수행된 BEST-Project가 대표적이다. BEST-Project에서는 일반인이 현재 처한 상황을 입력하면 이를 일반 용어 온톨로지(User Ontology)와 매핑하여 이에 해당하는 판례 검색 결과를 사용자에게 제공하여 주는 판례 검색 시스템을 개발 중에 있다. 그러나 이러한 일반용어 온톨로지 및 전문용어 온톨로지를 구축하고 유지보수하는 작업은 많은 시간과 비용을 필요로 한다. 또한 한국어에 있어서는 일반용어와 전문용어간의 뚜렷한 구분선을 찾기가 어렵다는 문제점을 지닌다. The BEST-Project, which has been carried out since 2005 in the Netherlands, is representative of research to support the general law or the case search. The BEST-Project is developing a case search system that maps the current situation to the general term ontology and provides the case search result to the user. However, building and maintaining these generic ontology and terminology ontologies requires a lot of time and money. Also, in Korean, it is difficult to find a clear line between general terms and technical terms.

본 발명은 웹 사이트에서 수집된 Q&A 데이터 또는 판례 데이터를 이용하여 일반 용어와 전문 용어 또는 법령과의 매핑 확률을 학습한 후, 이를 이용하여 질의어에 대한 전문 용어 또는 법령을 예측하여 제공할 수 있는 전문 분야 검색 지원 방법 및 그 장치를 제공하기 위한 것이다.The present invention relates to a method and apparatus for learning a mapping probability between a general term, a technical term, and a statute by using Q & A data or precedent data collected from a web site and then using the same to predict a technical term or statute for the query term Field search support method and apparatus therefor.

본 발명의 일 측면에 따르면, 전문 분야 검색 지원 방법 및 그 장치를 제공함으로써, 웹 사이트에서 수집된 Q&A 데이터 또는 판례 데이터를 이용하여 일반 용어와 전문 용어 또는 법령과의 매핑 확률을 학습한 후, 이를 이용하여 질의어에 대한 전문 용어 또는 법령을 예측하여 제공할 수 있는 방법이 제공된다.According to an aspect of the present invention, there is provided a method and apparatus for supporting a search of a specialized field, thereby learning a mapping probability between a general term, a technical term, and a statute by using Q & A data or precedent data collected from a web site, A method for predicting and providing a terminology or a statute for a query word is provided.

본 발명의 일 실시예에 따르면, (a)웹 문서에서 질의-답변 데이터를 수집하는 단계; (b) 상기 질의-답변 데이터에서 질문부와 답변부를 구분하여 분석하여 단어를 추출하는 단계; (c) 상기 질문부 및 상기 답변부에 포함된 각 단어들간의 상관성 분석을 통해 일반 용어-전문 용어 매핑 확률을 계산하여 일반 용어-전문용어 매핑 테이블을 생성하는 단계; 및 (d) 상기 용어 매핑 테이블을 이용하여 질의문에 포함된 단어를 포함하는 전문 용어를 추출하여 제공하는 단계를 포함하는 전문 분야 검색 지원 방법이 제공될 수 있다.According to an embodiment of the present invention, there is provided a method for processing a web document, comprising the steps of: (a) collecting query-answer data in a web document; (b) extracting words by analyzing the question part and the answer part in the question-answer data; (c) generating a general term-terminology mapping table by calculating a general term-terminology mapping probability by analyzing correlation between words included in the question portion and the answer portion; And (d) extracting and providing a terminology including a word included in the query using the term mapping table.

상기 (c) 단계는, 상기 질문부 및 상기 답변부에 동시 출현한 단어의 빈도를 이용하여 상기 일반 용어-전문 용어 매핑 확률을 계산할 수 있다.In the step (c), the general term-terminology mapping probability may be calculated using the frequencies of the words simultaneously appearing in the question part and the answer part.

상기 일반 용어-전문 용어 매핑 확률은 PMI(pairwise mutual information)를 이용하여 계산되되,The general term-terminology mapping probability is calculated using PMI (pairwise mutual information)

Figure 112013073751719-pat00001
Figure 112013073751719-pat00001

Figure 112013073751719-pat00002
Figure 112013073751719-pat00002

여기서,

Figure 112013073751719-pat00003
는 일반 용어 집합을 나타내고,
Figure 112013073751719-pat00004
은 법령 출현 단어 집합을 나타낸다. 또한,
Figure 112013073751719-pat00005
는 전문 용어 집합을 나타내며,
Figure 112013073751719-pat00006
는 일반 용어 집합에는 포함되면서 법령 출현 단어 집합에는 포함되지 않는 단어들을 나타내고,
Figure 112013073751719-pat00007
는 전문 용어에 포함되면서 동시에 법령 키워드에도 포함되는 단어를 나타낸다.here,
Figure 112013073751719-pat00003
Represents a generic term set,
Figure 112013073751719-pat00004
Represents a set of words appearing in a statute. Also,
Figure 112013073751719-pat00005
Represents a terminology set,
Figure 112013073751719-pat00006
Indicates the words included in the general term set but not included in the statutory word set,
Figure 112013073751719-pat00007
Indicates a word included in a terminology keyword while being included in a terminology.

상기 (d) 단계는, 상기 매핑 테이블을 이용하여 상기 질의문에 포함된 단어와 일치하는 상기 n(자연수)개의 전문 용어를 대상으로 매핑 확률을 계산하여 예측할 수 있다.In the step (d), the mapping probability may be calculated and predicted using the mapping table with respect to the n (natural number) terms to be matched with the words included in the query.

상기 (d) 단계는, 상기 매핑 확률은 나이브 베이지안 분류기(naive Bayesian classifier)를 이용하여 계산되되,In the step (d), the mapping probability is calculated using a naive Bayesian classifier,

상기 매핑 확률은 하기 수식에 의해 계산되며,The mapping probability is calculated by the following equation,

Figure 112013073751719-pat00008
Figure 112013073751719-pat00008

여기서,

Figure 112013073751719-pat00009
이되, 상기
Figure 112013073751719-pat00010
는 매핑 테이블에 포함된 매핑 확률을 나타내고,
Figure 112013073751719-pat00011
는 전문용어를 나타내며, X는 질의문을 나타낸다.
here,
Figure 112013073751719-pat00009
However,
Figure 112013073751719-pat00010
Represents the mapping probability included in the mapping table,
Figure 112013073751719-pat00011
Denotes a terminology, and X denotes a query statement.

본 발명의 다른 실시예에 따르면, (a) 판례 데이터를 분석하여 단어를 각각 추출하는 단계; (b) 상기 단어를 이용하여 단어와 법령간 매핑 확률을 계산하여 단어-법령 매핑 테이블을 생성하는 단계; 및 (c) 상기 단어-법령 매핑 테이블을 이용하여 질의문에 대한 법령을 예측하는 단계를 포함하는 전문 분야 검색 지원 방법이 제공될 수 있다.According to another embodiment of the present invention, there is provided a method comprising: (a) analyzing precedent data and extracting each word; (b) generating a word-law mapping table by calculating a mapping probability between words and laws using the word; And (c) predicting a statute for the query statement using the word-statute mapping table.

상기 단어-법령 매핑 테이블은 단어와 법령간의 매핑에 따른 신뢰도를 포함하되, 상기 신뢰도는 하기 수식에 의해 계산되되, The word-law mapping table includes reliability according to a mapping between words and laws, and the reliability is calculated by the following equation,

Figure 112013073751719-pat00012
Figure 112013073751719-pat00012

Figure 112013073751719-pat00013
Figure 112013073751719-pat00013

여기서,

Figure 112013073751719-pat00014
는 판례 데이터내 출현한 단어의 집합을 나타내고,
Figure 112013073751719-pat00015
는 법령명에 대한 집합을 나타내며,
Figure 112013073751719-pat00016
은 판례 데이터내 출현 단어 집합에 포함되는 단어들 중 법령명에 포함되지 않는 단어를 나타내고,
Figure 112013073751719-pat00017
는 판례 데이터내에 출현하는 단어들 중 법령명의 집합에 포함되는 법령들을 나타낸다.
here,
Figure 112013073751719-pat00014
Represents a set of words appearing in precedent data,
Figure 112013073751719-pat00015
Represents a set of legal names,
Figure 112013073751719-pat00016
Represents a word not included in the legal name among the words included in the appearing word set in the precedent data,
Figure 112013073751719-pat00017
Represent laws and ordinances included in the set of statute names among the words appearing in the precedent data.

본 발명의 다른 측면에 따르면, 웹 사이트에서 수집된 Q&A 데이터 또는 판례 데이터를 이용하여 일반 용어와 전문 용어 또는 법령과의 매핑 확률을 학습한 후, 이를 이용하여 질의어에 대한 전문 용어 또는 법령을 예측하여 제공할 수 있는 장치가 제공된다.According to another aspect of the present invention, after learning the mapping probability between a general term, a technical term, and a statute by using Q & A data or precedent data collected from a web site, it is possible to predict a terminology or a statute A device is provided that can provide.

본 발명의 일 실시예에 따르면, 웹 문서에서 질의-답변 데이터를 수집하는 수집부; 상기 질의-답변 데이터에서 질문부와 답변부를 구분하여 분석하여 단어를 추출하는 추출부; 상기 질문부 및 상기 답변부에 포함된 각 단어들간의 상관성 분석을 통해 일반 용어-전문 용어 매핑 확률을 계산하여 일반 용어-전문 용어 매핑 테이블을 생성하는 매핑 테이블 생성부; 및 상기 용어 매핑 테이블을 이용하여 질의문에 포함된 단어를 포함하는 전문 용어를 추출하여 제공하는 예측부를 포함하는 전문 분야 검색 지원 장치가 제공될 수 있다.
According to an embodiment of the present invention, there is provided an information processing apparatus including a collection unit for collecting query-answer data in a web document; An extracting unit for extracting a word by analyzing a question part and an answer part in the query-answer data; A mapping table generation unit for generating a general term-terminology mapping table by calculating a general term-terminology mapping probability through analyzing the correlation between each of the words included in the question unit and the answer unit; And a prediction unit for extracting and providing a terminology including a word included in the query using the term mapping table.

본 발명의 다른 실시예에 따르면, 판례 데이터를 분석하여 단어를 각각 추출하는 추출부; 상기 단어를 이용하여 단어와 법령간 매핑 확률을 계산하여 단어-법령 매핑 테이블을 생성하는 매핑 테이블 생성부; 및 상기 단어-법령 매핑 테이블을 이용하여 질의문에 대한 법령을 예측하는 예측부를 포함하는 전문 분야 검색 지원 장치가 제공될 수 있다.According to another embodiment of the present invention, an extracting unit extracts words by analyzing precedent data; A mapping table generation unit for calculating a mapping probability between a word and a statute by using the word to generate a word-statute mapping table; And a predictor for predicting a statute for a query statement using the word-statistical mapping table.

본 발명의 일 실시예에 따른 전문 분야 검색 지원 방법 및 그 장치를 제공함으로써, 웹 사이트에서 수집된 Q&A 데이터 또는 판례 데이터를 이용하여 일반 용어와 전문 용어 또는 법령과의 매핑 확률을 학습한 후, 이를 이용하여 질의어에 대한 전문 용어 또는 법령을 예측하여 제공할 수 있다.A method and apparatus for supporting a specialized field search according to an embodiment of the present invention can learn a mapping probability between a general term, a technical term, and a statute by using Q & A data or precedent data collected from a web site, And can predict and provide a jargon or a statute for the query.

이로 인해, 본 발명은 전문 용어 또는 법령에 대해 상대적으로 지식이 적은 사용자에게 검색 편의성을 제공할 수 있는 이점이 있다.Therefore, the present invention has an advantage that it is possible to provide search convenience to a user who is relatively inexperienced about a jargon or a statute.

도 1은 본 발명의 일 실시예에 따른 전문 분야 검색 지원 장치의 구성을 개략적으로 도시한 도면.
도 2는 본 발명의 일 실시예에 따른 매핑 테이블을 예시한 도면.
도 3은 본 발명의 다른 실시예에 따른 전문 분야 검색 지원 장치의 내부 구성을 개략적으로 도시한 블록도.
도 4는 본 발명의 다른 실시예에 따른 단어-법령 매핑 테이블을 예시한 도면.
도 5는 본 발명의 일 실시예에 따른 질의어에 대해 예측된 법령에 대한 결과를 나타낸 도면.
도 6은 본 발명의 일 실시예에 따른 전문 분야 검색 지원 장치가 질의어에 대한 전문 용어를 제공하는 방법을 나타낸 순서도.
도 7은 본 발명의 다른 실시예에 따른 전문 분야 검색 지원 장치가 질의어에 대한 법령을 제공하는 방법을 나타낸 순서도.
BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 schematically shows the configuration of a specialized field search support apparatus according to an embodiment of the present invention; FIG.
FIG. 2 illustrates a mapping table according to an embodiment of the present invention. FIG.
3 is a block diagram schematically illustrating an internal configuration of a specialized field search support apparatus according to another embodiment of the present invention.
FIG. 4 illustrates a word-statutory mapping table according to another embodiment of the present invention; FIG.
FIG. 5 is a diagram illustrating a result of a statute predicted for a query according to an embodiment of the present invention; FIG.
FIG. 6 is a flowchart illustrating a method of providing a terminology for a query term according to an embodiment of the present invention. FIG.
FIG. 7 is a flowchart illustrating a method of providing a statute for a query term according to another embodiment of the present invention; FIG.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.BRIEF DESCRIPTION OF THE DRAWINGS The present invention is capable of various modifications and various embodiments, and specific embodiments are illustrated in the drawings and described in detail in the detailed description. It is to be understood, however, that the invention is not to be limited to the specific embodiments, but includes all modifications, equivalents, and alternatives falling within the spirit and scope of the invention. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, the present invention will be described in detail with reference to the accompanying drawings.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. The terms first, second, etc. may be used to describe various components, but the components should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used in this application is used only to describe a specific embodiment and is not intended to limit the invention. The singular expressions include plural expressions unless the context clearly dictates otherwise. In the present application, the terms "comprises" or "having" and the like are used to specify that there is a feature, a number, a step, an operation, an element, a component or a combination thereof described in the specification, But do not preclude the presence or addition of one or more other features, integers, steps, operations, elements, components, or combinations thereof.

본 발명은 법률 지식이 상대적으로 약한 일반인에게 법령 검색 서비스를 제공하기 위한 것으로, 일반인이 일반적으로 사용하는 일반 용어를 전문 용어로 매핑하여 제공할 수 있다.The present invention is to provide a statutory search service to a general person whose legal knowledge is relatively weak. The present invention can provide a general term used by a general person as a mapped term.

또한, 본 발명은 판례 데이터에 기초하여 단어와 법령간 매핑 확률을 기반으로 단어-법령간 매핑 테이블을 생성하고, 이를 이용하여 질의문에 대한 법령을 예측하여 제공할 수 있다. In addition, the present invention can generate a mapping table between words and statutes based on the mapping probability between words and laws based on precedent data, and can predict and provide a statute for the query using the generated mapping table.

이하, 본 발명의 실시예를 첨부한 도면들을 참조하여 상세히 설명하기로 한다.
Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 전문 분야 검색 지원 장치의 구성을 개략적으로 도시한 도면이고, 도 2는 본 발명의 일 실시예에 따른 매핑 테이블을 예시한 도면이다. 도 1에서는 웹사이트에서 Q&A 데이터를 수집하고, Q&A 데이터를 질문부와 답변부로 구분하여 단어를 각각 추출한 후 일반 용어와 전문 용어의 매핑 확률을 계산한 후 질의문에 대한 전문 용어를 예측하여 제공할 수 있는 장치에 대해 설명하기로 하자.FIG. 1 is a diagram schematically showing a configuration of a specialized field search supporting apparatus according to an embodiment of the present invention. FIG. 2 is a diagram illustrating a mapping table according to an embodiment of the present invention. In FIG. 1, the Q & A data is collected from the website and the Q & A data is divided into the question part and the answer part, and then the word is extracted. Then, the probability of mapping the general term and the technical term is calculated, Let's talk about a possible device.

도 1을 참조하면, 본 발명의 일 실시예에 따른 전문 분야 검색 지원 장치(100)는 수집부(110), 추출부(115), 매핑 테이블 생성부(120), 메모리(130) 및 제어부(135)를 포함하여 구성된다. Referring to FIG. 1, a specialized field search supporting apparatus 100 according to an exemplary embodiment of the present invention includes a collecting unit 110, an extracting unit 115, a mapping table generating unit 120, a memory 130, 135).

수집부(110)는 통신망을 통해 질의답변 데이터를 수집하기 위한 수단이다.The collection unit 110 is a means for collecting query answer data through a communication network.

예를 들어, 수집부(110)는 웹 문서에서 Q&A 데이터(예를 들어, 네이버 지식인 등)를 수집하여 데이터베이스에 저장할 수 있다.For example, the collecting unit 110 may collect Q & A data (e.g., Naver intellectuals, etc.) from a web document and store the Q & A data in a database.

추출부(115)는 Q&A 데이터를 분석하여 질문부 및 답변부를 각각 구분한 후, 질문부 및 답변부에 각각 단어를 추출하기 위한 수단이다.The extracting unit 115 is a unit for extracting words in the question part and the answer part after analyzing the Q & A data to distinguish the question part and the answer part, respectively.

예를 들어, 추출부(115)는 Q&A 데이터를 형태소 분석하여 형태소 단위로 각 단어들을 각각 추출할 수 있다. 즉, Q&A 데이터의 질문이 ""제품의 이미지 저작권에 대해 질문합니다"와 같다고 가정하자. 추출부(115)는 "제품", "이미지", "저작권", "질문"을 단어로 추출할 수 있다.For example, the extracting unit 115 can morphologically analyze the Q & A data to extract each word in morpheme units. Assume that the question in the Q & A data is the same as "I ask about the image copyright of the product." The extracting unit 115 can extract the words "product", "image", "copyright" have.

또한, Q&A 데이터 특성상 질문자에 비해 질문에 대해 답변하는 사람들이 상대적으로 해당 분야에 대한 전문가일 가능성이 높으며, 특정 웹 사이트에서는 의사, 변호사, 변리사 등과 같은 해당 분야 전문가가 답변할 수 있는 서비스를 운영하고 있다.In addition, due to the nature of Q & A data, it is highly possible that those who answer questions in comparison to the questioner are more likely to be experts in the field. On a particular website, a service is provided to respond to experts in the field such as doctors, lawyers and patent attorneys have.

이에 따라, 본 명세서에서 Q&A 데이터를 분석하여 질문부에서 추출된 단어는 구문에 따라 일반 용어로도 칭하여 설명하며, 답변부에서 추출된 단어는 구문에 따라 전문 용어로 칭하여 설명될 수 있다.Accordingly, the words extracted from the question part by analyzing the Q & A data in this specification are also referred to as general terms according to the syntax, and the words extracted from the answer part can be described as technical terms according to the syntax.

매핑 테이블 생성부(120)는 Q&A 데이터에서 추출된 각 단어들의 상호간의 상관성 분석을 통해 매핑 확률을 계산하고, 이를 기반으로 용어 매핑 테이블을 생성하기 위한 수단이다.The mapping table generation unit 120 is a means for calculating a mapping probability through correlation analysis between words extracted from the Q & A data and generating a term mapping table based on the mapping probability.

이를 위해, 매핑 테이블 생성부(120)는 질문부 및 답변부에서 각각 추출된 단어들을 대상으로 질문부 및 답변부에서 상호 출현하는 단어들의 빈도수를 이용하여 매핑 확률을 계산할 수 있다.For this, the mapping table generator 120 may calculate the mapping probability using the frequencies of the words appearing in the question part and the answer part for the words extracted from the question part and the answer part, respectively.

예를 들어, 매핑 테이블 생성부(120)는 즉, 매핑 후보 추출부(115)는 일반 용어 및 전문 용어간의 상호정보량(PMI: pairwise mutual information)을 계산하여 매핑 확률을 계산할 수 있다.For example, the mapping table generation unit 120 may calculate the mapping probability by calculating the pairwise mutual information (PMI) between the general term and the terminology.

상호정보량(PMI)은 하기 수 1을 이용하여 계산될 수 있다.The mutual information amount (PMI) can be calculated using the following equation (1).

Figure 112013073751719-pat00018
Figure 112013073751719-pat00018

Figure 112013073751719-pat00019
Figure 112013073751719-pat00019

여기서,

Figure 112013073751719-pat00020
는 질문내 출현 단어 집합을 나타내고,
Figure 112013073751719-pat00021
은 법령내 출현 단어 집합을 나타내며,
Figure 112013073751719-pat00022
는 답변내 출현 단어 집합을 나타낸다. here,
Figure 112013073751719-pat00020
Represents a set of emerging words in a query,
Figure 112013073751719-pat00021
Represents the set of words appearing in the statute,
Figure 112013073751719-pat00022
Represents the set of emerging words in the answer.

또한,

Figure 112013073751719-pat00023
는 질문내 출현 단어 집합에 포함되는 단어들 중 법령내 출현 단어 집합에 포함되지 않는 단어들을 나타내며,
Figure 112013073751719-pat00024
는 답변내 출현 단어 집합에 포함되면서 법령내 출현 단어 집합에도 포함되는 단어를 나타낸다.Also,
Figure 112013073751719-pat00023
Indicates the words not included in the set of words appearing in the statute among the words included in the set of words appearing in the question,
Figure 112013073751719-pat00024
Represents the words that are included in the set of emerging words in the answer and also included in the set of emerging words in the statute.

도 2에는 본 발명의 일 실시예에 따른 매핑 테이블이 예시되어 있다. 도 2를 참조하면, 매핑 테이블은 질문부에 포함된 단어에 대응하는 답변부에 포함된 단어와의 동시 출현 횟수와 이를 기반으로 계산된 매핑 확률이 포함된다.FIG. 2 illustrates a mapping table according to an embodiment of the present invention. Referring to FIG. 2, the mapping table includes the number of simultaneous occurrences of words included in an answer part corresponding to a word included in a question part, and a mapping probability calculated based on the number of occurrences.

예측부(125)는 매핑 테이블을 이용하여 사용자에 의해 입력된 질의문에 대한 전문 용어 매핑 확률을 계산하여 관련된 전문 용어를 예측하여 제공하기 위한 수단이다. 예측부(125)는 매핑 테이블을 참조하여, 질의문에 포함된 단어에 대응하는 전문 용어 중 매핑 확률이 높은 상위 n(자연수)개의 전문 용어를 추출하여 제공할 수도 있다.The predicting unit 125 is a means for predicting and providing a related terminology by calculating a terminology mapping probability of a query sent by the user using the mapping table. The predicting unit 125 may extract and provide the top n (natural number) terms having a high mapping probability among the terms included in the query sentence by referring to the mapping table.

예를 들어, 예측부(125)는 나이브 베이지안 분류기를 이용하여 사용자의 입력 질의문이 암시하는 법령이 무엇인지에 대한 확률을 계산할 수 있으며, 이는 하기에서 도 3을 참조하여 보다 상세히 설명하기로 한다.For example, the predictor 125 may calculate the probability of what the user's input query statement implies using the Naïve Bayesian classifier, which will be described in more detail below with reference to FIG. 3 .

메모리(130)는 본 발명의 일 실시예에 따른 전문 분야 검색 지원 장치(100)를 운용하기 위해 필요한 다양한 알고리즘, 매핑 테이블 등을 저장하기 위한 수단이다.The memory 130 is a means for storing various algorithms, mapping tables, and the like necessary for operating the specialized field search support apparatus 100 according to an embodiment of the present invention.

제어부(135)는 본 발명의 일 실시예에 따른 전문 분야 검색 지원 장치(100)의 내부 구성 요소들(예를 들어, 수집부(110), 추출부(115), 매핑 테이블 생성부(120), 메모리(130) 등)을 제어하기 위한 수단이다.The control unit 135 includes internal components (for example, the collecting unit 110, the extracting unit 115, the mapping table generating unit 120) of the apparatus for supporting a specialized field search 100 according to an exemplary embodiment of the present invention, The memory 130, and the like).

도 1에서는 본 발명의 일 실시예에 따른 일반 용어와 전문 용어간의 매핑 확률을 계산하여 이에 대한 매핑 테이블을 생성하는 것을 중심으로 설명하였다. 도 2에는 본 발명의 다른 실시예에 따른 질의문과 법령간 매핑 확률을 기반으로, 질의어에 대한 법령을 예측하여 제공할 수 있는 장치에 대해 설명하기로 한다.
In FIG. 1, the mapping probability between a general term and a terminology according to an exemplary embodiment of the present invention is calculated and a mapping table for the term is generated. FIG. 2 is a block diagram of an apparatus for predicting and providing a statute for a query language based on a mapping probability between query statements and statutes according to another embodiment of the present invention.

도 3은 본 발명의 다른 실시예에 따른 전문 분야 검색 지원 장치의 내부 구성을 개략적으로 도시한 블록도이고, 도 4는 본 발명의 다른 실시예에 따른 단어-법령 매핑 테이블을 예시한 도면이며, 도 5는 본 발명의 일 실시예에 따른 질의어에 대해 예측된 법령에 대한 결과를 나타낸 도면이다.FIG. 3 is a block diagram schematically illustrating an internal configuration of a specialized field search support apparatus according to another embodiment of the present invention, FIG. 4 illustrates a word-law mapping table according to another embodiment of the present invention, FIG. 5 is a diagram illustrating a result of a statute predicted for a query according to an embodiment of the present invention.

도 3을 참조하면, 본 발명의 다른 실시예에 따른 전문 분야 검색 지원 장치(300)는 수집부(310), 추출부(315), 매핑 테이블 생성부(320), 예측부(325), 메모리(330) 및 제어부(335)를 포함하여 구성된다.3, the apparatus 300 for searching a special field according to another embodiment of the present invention includes a collecting unit 310, an extracting unit 315, a mapping table generating unit 320, a predicting unit 325, (330) and a control unit (335).

수집부(310)는 판례 데이터를 수집하기 위한 수단이다.The collecting unit 310 is a means for collecting precedent data.

예를 들어, 수집부(310)는 판례 데이터를 제공하는 특정 웹 사이트에서 판례 데이터를 수집할 수 있다.For example, the collection unit 310 may collect precedent data at a specific web site that provides precedent data.

추출부(315)는 판례 데이터를 분석하여 단어를 각각 추출하기 위한 수단이다.The extracting unit 315 is means for analyzing precedent data and extracting each word.

예를 들어, 추출부(315)는 판례 데이터를 형태소 단위로 분석하여 단어를 각각 추출할 수 있다. 특정 문장에서 형태소 단위로 단어를 추출하는 방법 자체는 이미 당업자에게는 공지된 사항이므로 이에 대한 별도의 설명은 생략하기로 한다.For example, the extracting unit 315 can extract the words by analyzing the precedent data in morpheme units. The method of extracting words in a specific sentence from a morpheme unit itself is already known to those skilled in the art, so a separate explanation will be omitted.

매핑 테이블 생성부(320)는 판례 데이터에서 추출된 단어와 법령간의 매핑 확률을 계산하여 매핑 테이블을 생성하기 위한 수단이다. 이하, 본 명세서 도 1에서 설명한 매핑 테이블과의 구분을 위해 단어-법령 매핑 테이블로 칭하여 설명하기로 한다.The mapping table generating unit 320 is a unit for generating a mapping table by calculating a mapping probability between a word extracted from the precedent data and a statute. Hereinafter, the mapping table will be referred to as a word-statute mapping table in order to distinguish it from the mapping table described in FIG.

예를 들어, 매핑 테이블 생성부(320)는 판례 데이터에서 추출된 단어와 법령간의 매핑 확률을 계산하기 위한 척도로 신뢰도를 이용할 수 있다.For example, the mapping table generation unit 320 may use reliability as a measure for calculating a mapping probability between a word extracted from the precedent data and a statute.

매핑 테이블 생성부(320)는 하기 수 2를 이용하여 단어와 법령간의 매핑 확률을 계산할 수 있다.The mapping table generation unit 320 may calculate the mapping probability between words and laws using the following equation (2).

Figure 112013073751719-pat00025
Figure 112013073751719-pat00025

Figure 112013073751719-pat00026
Figure 112013073751719-pat00026

여기서,

Figure 112013073751719-pat00027
는 판례 데이터내 출현 단어 집합을 나타내고,
Figure 112013073751719-pat00028
는 법령명 집합을 나타내고,
Figure 112013073751719-pat00029
은 판례 데이터내 출현 단어 집합에 포함되는 단어들 중 법령명에 포함되지 않는 단어를 나타내고,
Figure 112013073751719-pat00030
는 판례 데이터 내에 출현하는 단어들 중 법령명의 집합에 포함되는 법령들을 나타낸다.here,
Figure 112013073751719-pat00027
Represents a set of emerging words in case data,
Figure 112013073751719-pat00028
Indicates a set of statute names,
Figure 112013073751719-pat00029
Represents a word not included in the legal name among the words included in the appearing word set in the precedent data,
Figure 112013073751719-pat00030
Represent laws and ordinances included in the set of statute names among the words appearing in the precedent data.

도 4에는 단어-법령 매핑 테이블이 예시되어 있다. 단어-법령 매핑 테이블은 도 4에 도시된 바와 같이, 각 단어와 해당 단어에 매핑되는 법령, 그에 따른 신뢰도가 포함된다. 즉, 각 단어에 매핑되는 법령에 대한 신뢰도가 높을수록 해당 단어에 매핑된 법령의 신뢰도가 높은 것을 의미한다.FIG. 4 illustrates a word-statute mapping table. As shown in FIG. 4, the word-statutory mapping table includes each word and a statistic mapped to the corresponding word, and reliability according to the statute. That is, the higher the reliability of the statute mapped to each word, the higher the reliability of the statute mapped to the word.

예측부(325)는 키워드-법령 테이블을 이용하여 사용자의 입력 질의문에 대한 법령 매핑 확률을 예측하기 위한 수단이다.The predicting unit 325 is means for predicting the statutory mapping probability of the input query sentence of the user using the keyword-statutory table.

예를 들어, 예측부(325)는 나이브 베이지안 분류기를 이용하여 사용자의 입력 질의문이 암시하는 법령이 무엇인지에 대한 확률을 계산할 수 있다.For example, the predictor 325 may use the Naïve Bayesian classifier to compute the probability of what the user's input query statement implies.

일반적으로 각 질의문은 여러 개의 법령과 관련되는 경우가 많으므로, 예측부(325)는 나이브 베이지안 분류기에서 MAX 함수를 제거한 수 3을 이용하여 질의문-법령 매핑 확률을 계산할 수 있다.Generally, since each query is often associated with several laws, the predictor 325 can calculate the query-statistical mapping probability using the number 3 of the Naive Bayes classifier with the MAX function removed.

이를 수식으로 표현하면 수 3과 같다.This is expressed in Equation 3.

Figure 112013073751719-pat00031
Figure 112013073751719-pat00031

여기서,

Figure 112013073751719-pat00032
는 매핑 확률을 나타내며, 이는 수2와 동일하다. 예측부(325)는 질의문-법령 매핑 확률을 예측시 매핑 확률이 지나치게 감소하는 현상을 방지하기 위해 키워드-법령 테이블을 참조하여 법령 Ci와 매핑될 확률이 높은 상위 n개의 키워드-법령 매핑만을 이용하여 매핑 확률을 계산할 수 있다. 이를 수식으로 표현하면 수 4와 같다.here,
Figure 112013073751719-pat00032
Represents the mapping probability, which is equal to the number 2. In order to prevent the mapping probability from being excessively reduced when predicting the query-statistical mapping probability, the predicting unit 325 refers to the keyword-statutory table and stores only the top n keyword-statutory mappings having a high probability of being mapped to the statute C i The mapping probability can be calculated. This can be expressed as Equation 4.

Figure 112013073751719-pat00033
Figure 112013073751719-pat00033

Figure 112013073751719-pat00034
Figure 112013073751719-pat00034

도 5에는 질의문에 대응하여 예측된 법령과 그에 따른 매핑 확률이 도시되어 있다.FIG. 5 shows the statute predicted corresponding to the query statement and the mapping probability according to the statute.

예측부(325)는 도 5에 도시된 바와 같이, 단어-법령 매핑 테이블을 이용하여 질의문에 대한 법령의 매핑 확률을 계산하고, 계산된 매핑 확률에 따라 매핑 확률이 높은 순으로 질의어에 대한 법령을 예측하여 제공할 수 있다.As shown in FIG. 5, the predicting unit 325 calculates a mapping probability of a statute for a query statement using a word-statute mapping table, and calculates a statute for the query word in descending order of mapping probability according to the calculated mapping probability Can be predicted and provided.

메모리(330)는 본 발명의 일 실시예에 따른 전문 분야 검색 지원 장치(300)를 운용하기 위해 필요한 다양한 알고리즘, 매핑 테이블 등을 저장하기 위한 수단이다.The memory 330 is a means for storing various algorithms, mapping tables, and the like necessary for operating the specialized field search supporting apparatus 300 according to an embodiment of the present invention.

제어부(335)는 본 발명의 일 실시예에 따른 전문 분야 검색 지원 장치(300)의 내부 구성 요소들(예를 들어, 수집부(310), 추출부(315), 매핑 테이블 생성부(320), 예측부, 메모리(330) 등)을 제어하기 위한 수단이다.
The control unit 335 includes internal components (for example, a collecting unit 310, an extracting unit 315, a mapping table generating unit 320) of the specialized field search supporting apparatus 300 according to an embodiment of the present invention. A prediction unit, a memory 330, and the like).

도 6은 본 발명의 일 실시예에 따른 전문 분야 검색 지원 장치가 질의어에 대한 전문 용어를 제공하는 방법을 나타낸 순서도이다.6 is a flowchart illustrating a method of providing a terminology for a query term according to an embodiment of the present invention.

단계 610에서 전문 분야 검색 지원 장치는 웹 사이트에서 Q&A 데이터를 수집하여 데이터베이스 저장한다.In step 610, the specialized search support device collects Q & A data from a web site and stores it in a database.

단계 615에서 전문 분야 검색 지원 장치는 수집된 Q&A 데이터를 질문부 및 답변부로 구분하고, 각각을 분석하여 단어를 추출한다.In step 615, the specialized field search support apparatus divides the collected Q & A data into question parts and answer parts, and extracts words by analyzing each of them.

예를 들어, 전문 분야 검색 지원 장치는 이미 전술한 바와 같이 질문부 및 답변부를 각각 형태소 단위로 분석하여 형태소 단위로 단어를 각각 추출할 수 있다. 이는 이미 당업자에게는 자명한 사항이므로 이에 대한 별도의 설명은 생략하기로 한다.For example, the specialized field search support apparatus can extract the words in morphological units by analyzing the question part and the answer part respectively in terms of morpheme as described above. It will be obvious to those skilled in the art that a separate explanation will be omitted.

단계 620에서 전문 분야 검색 지원 장치는 질문부 및 답변부에서 추출된 각각의 단어 상호간 상관성 분석을 통해 매핑 테이블을 생성한다.In step 620, the specialized field search support apparatus generates a mapping table through correlation analysis between words extracted from the question part and the answer part.

이미 전술한 바와 같이, 질문부 및 답변부에서 추출된 단어간(질문부에서 추출된 단어와 답변부에서 추출된 단어)간의 상관성 분석을 통한 매핑 확률을 계산하여 매핑 테이블을 생성할 수 있다.As described above, the mapping table can be generated by calculating the mapping probability through the correlation analysis between the words extracted from the question part and the answer part (the words extracted from the question part and the words extracted from the answer part).

단계 625에서 전문 분야 검색 지원 장치는 매핑 테이블을 이용하여 질의어에 대응하는 전문 용어를 예측하여 제공한다.In step 625, the specialized field search support apparatus predicts and provides a terminology corresponding to the query term using the mapping table.

예를 들어, 전문 분야 검색 지원 장치는 매핑 테이블을 참조하여 나이브 베이지안 분류기를 기반으로 입력된 질의어에 대한 매핑 확률을 계산한 후 매핑 확률이 높은 상위 n개의 전문 용어를 예측하여 제공할 수 있다.
For example, the specialized field search support apparatus can calculate the mapping probability for the inputted query word based on the Naïve Bayesian classifier by referring to the mapping table, and then provide the top n terms of the mapping probability with a high probability.

도 7은 본 발명의 다른 실시예에 따른 전문 분야 검색 지원 장치가 질의어에 대한 법령을 제공하는 방법을 나타낸 순서도이다.FIG. 7 is a flowchart illustrating a method of providing a statute for a query term according to another embodiment of the present invention.

단계 710에서 전문 분야 검색 지원 장치는 판례 데이터를 수집한다. 예를 들어, 전문 분야 검색 지원 장치는 웹 사이트에서 판례 데이터를 수집하여 저장할 수 있다.In step 710, the specialized search support device collects precedent data. For example, a specialized search appliance can collect precedent data from a website and store it.

단계 715에서 전문 분야 검색 지원 장치는 판례 데이터를 분석하여 단어를 각각 추출한다. 예를 들어, 전문 분야 검색 지원 장치는 판례 데이터를 형태로 단위로 분석하여 형태소 단위로 단어를 각각 추출할 수 있다. 이는 이미 당업자에게는 자명한 사항이므로 이에 대한 별도의 설명은 생략하기로 한다.In step 715, the specialized search support apparatus analyzes the case data and extracts each word. For example, a specialized field search support device can extract words in morphological units by analyzing precedent data in units of form. It will be obvious to those skilled in the art that a separate explanation will be omitted.

단계 720에서 전문 분야 검색 지원 장치는 판례 데이터에서 추출된 단어와 법령간의 매핑 확률을 계산하여 단어-법령 매핑 테이블을 생성한다.In step 720, the specialized field search support apparatus calculates a mapping probability between a word extracted from the precedent data and a statute to generate a word-statute mapping table.

이에 대해서는 도 3에서 설명한 바와 동일하므로 중복되는 설명은 생략하기로 한다.This is the same as that described with reference to FIG. 3, so duplicate descriptions will be omitted.

단계 725에서 전문 분야 검색 지원 장치는 단어-법령 매핑 테이블을 이용하여 질의문에 대한 법령을 예측한다.In step 725, the specialized search support apparatus predicts the statute of the query statement using the word-statute mapping table.

즉, 전문 분야 검색 지원 장치는 단어-법령 매핑 테이블을 참조하여 질의어에 대한 법령 매핑 확률을 계산하고, 이를 기반으로 질의어에 대한 법령을 예측할 수 있다. 이를 위해 전문 분야 검색 지원 장치는 개념분류기법인 나이브 베이지안 분류기를 이용할 수 있으며, 이는 도 3의 수4를 이용하여 설명한 바와 동일하므로 중복되는 설명은 생략하기로 한다.
That is, the apparatus for searching a specialized field can calculate a statute mapping probability of a query word by referring to a word-statute mapping table, and predict a statute for the query word based on the calculation. To this end, the expert search support apparatus can use the Naive Bayesian classifier, which is a concept classification technique, which is the same as that described with reference to the number 4 in FIG. 3, so that a duplicate description will be omitted.

한편, 본 발명의 실시예에 따른 전문 분야 검색 지원 방법은 다양한 전자적으로 정보를 처리하는 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 저장 매체에 기록될 수 있다. 저장 매체는 프로그램 명령, 데이터 파일, 데이터 구조등을 단독으로 또는 조합하여 포함할 수 있다. Meanwhile, the expert search support method according to an embodiment of the present invention may be implemented in a form of a program command that can be executed through a variety of means for processing information electronically and recorded in a storage medium. The storage medium may include program instructions, data files, data structures, and the like, alone or in combination.

저장 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 소프트웨어 분야 당업자에게 공지되어 사용 가능한 것일 수도 있다. 저장 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 전자적으로 정보를 처리하는 장치, 예를 들어, 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. Program instructions to be recorded on the storage medium may be those specially designed and constructed for the present invention or may be available to those skilled in the art of software. Examples of storage media include magnetic media such as hard disks, floppy disks and magnetic tape, optical media such as CD-ROMs and DVDs, magneto-optical media such as floptical disks, magneto-optical media and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as devices for processing information electronically using an interpreter or the like, for example, a high-level language code that can be executed by a computer.

상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.It will be apparent to those skilled in the art that various modifications and variations can be made in the present invention without departing from the spirit or scope of the invention as defined in the appended claims. It will be understood that the invention may be varied and varied without departing from the scope of the invention.

100, 300: 전문 분야 검색 지원 장치
110, 310: 수집부
115, 315: 추출부
120, 320: 매핑 테이블 생성부
125, 325: 예측부
130, 330: 메모리
135, 335: 제어부
100, 300: Specialized Field Search Support Device
110, 310: collecting unit
115, 315:
120, and 320: a mapping table generation unit
125, 325:
130, 330: Memory
135, 335:

Claims (10)

전문 분야 검색 지원 장치가 질의문에 대한 전문 용어 검색을 지원하는 방법에 있어서,
(a) 웹 문서에서 질의-답변 데이터를 수집하는 단계;
(b) 상기 질의-답변 데이터에서 질문부와 답변부를 구분하고, 상기 질문부 및 상기 답변부를 분석하여 상기 질문부의 각 단어는 일반 용어로 추출하고, 상기 답변부의 각 단어는 전문 용어로 추출하는 단계;
(c) 상기 질문부 및 상기 답변부에 포함된 상기 일반 용어와 상기 전문 용어들이 상기 질문부 및 상기 답변부에 동시에 출현한 단어의 빈도를 이용하여 일반 용어-전문 용어 매핑 확률을 계산하여 일반 용어-전문용어 매핑 테이블을 생성하는 단계-상기 매핑 테이블은 상기 질문부 및 상기 답변부에서 추출된 상기 일반 용어와 상기 전문 용어간의 매핑 확률을 포함함; 및
(d) 상기 매핑 테이블을 이용하여 상기 질의문에 포함된 단어와 일치하는 상기 일반 용어에 대응하는 매핑 확률이 높은 n개의 전문 용어를 추출하여 제공하는 단계를 포함하는 질의문에 대한 전문 용어 검색을 지원하는 방법.
A method of supporting a terminology search support device for terminology search for a query,
(a) collecting query-answer data in a web document;
(b) extracting each word of the question portion as a general term by analyzing the question portion and the answer portion, and extracting each word of the answer portion as a jargon in the question-answer data; ;
(c) calculating a general term-terminology mapping probability using the frequencies of the words in the question portion and the answer portion appearing simultaneously in the question portion and the answer portion, - generating a terminology mapping table, wherein the mapping table includes a mapping probability between the general term extracted from the query unit and the terminology; And
(d) using the mapping table to extract and provide n term terms having a high mapping probability corresponding to the general term matching the words included in the query, and providing a terminology search for the query, How to support.
삭제delete 제1 항에 있어서,
상기 일반 용어-전문 용어 매핑 확률은 PMI(pairwise mutual information)를 이용하여 계산되는 것을 특징으로 하는 질의문에 대한 전문 용어 검색을 지원하는 방법.
Figure 112015010507272-pat00035

Figure 112015010507272-pat00036

여기서,
Figure 112015010507272-pat00037
는 일반 용어 집합을 나타내고,
Figure 112015010507272-pat00038
은 법령 출현 단어 집합을 나타낸다. 또한,
Figure 112015010507272-pat00039
는 전문 용어 집합을 나타내며,
Figure 112015010507272-pat00040
는 일반 용어 집합에는 포함되면서 법령 출현 단어 집합에는 포함되지 않는 단어들을 나타내고,
Figure 112015010507272-pat00041
는 전문 용어에 포함되면서 동시에 법령 키워드에도 포함되는 단어를 나타냄.
The method according to claim 1,
Wherein the general term-terminology mapping probability is calculated using PMI (pairwise mutual information).
Figure 112015010507272-pat00035

Figure 112015010507272-pat00036

here,
Figure 112015010507272-pat00037
Represents a generic term set,
Figure 112015010507272-pat00038
Represents a set of words appearing in a statute. Also,
Figure 112015010507272-pat00039
Represents a terminology set,
Figure 112015010507272-pat00040
Indicates the words included in the general term set but not included in the statutory word set,
Figure 112015010507272-pat00041
Indicates words included in the terminology keyword while being included in the terminology.
삭제delete 제1 항에 있어서,
상기 (d) 단계는,
상기 매핑 확률은 나이브 베이지안 분류기(naive Bayesian classifier)를 이용하여 계산되는 것을 특징으로 하는 질의문에 대한 전문 용어 검색을 지원하는 방법.
The method according to claim 1,
The step (d)
Wherein the mapping probability is calculated using a naive Bayesian classifier. ≪ RTI ID = 0.0 > 18. < / RTI >
청구항 6은(는) 설정등록료 납부시 포기되었습니다.Claim 6 has been abandoned due to the setting registration fee. 제5 항에 있어서,
상기 매핑 확률은 하기 수식에 의해 계산되는 것을 특징으로 하는 질의문에 대한 전문 용어 검색을 지원하는 방법.
Figure 112015010507272-pat00042

여기서,
Figure 112015010507272-pat00043
이되, 상기
Figure 112015010507272-pat00044
는 매핑 테이블에 포함된 매핑 확률을 나타내고,
Figure 112015010507272-pat00045
는 전문용어를 나타내며, X는 질의문을 나타냄.
6. The method of claim 5,
Wherein the mapping probability is calculated by the following equation: < EMI ID = 17.0 >
Figure 112015010507272-pat00042

here,
Figure 112015010507272-pat00043
However,
Figure 112015010507272-pat00044
Represents the mapping probability included in the mapping table,
Figure 112015010507272-pat00045
Denotes a terminology, and X denotes a query statement.
전문 분야 검색 지원 장치가 질의어에 대한 법령 검색을 지원하는 방법에 있어서,
(a) 판례 데이터를 분석하여 단어를 각각 추출하는 단계;
(b) 상기 단어를 이용하여 단어와 법령간 매핑 확률을 계산하여 단어-법령 매핑 테이블을 생성하는 단계; 및
(c) 상기 단어-법령 매핑 테이블을 이용하여 상기 질의어에 대한 법령을 예측하는 단계를 포함하는 질의어에 대한 법령 검색을 지원하는 방법.
A method of supporting a statutory search for a query language,
(a) extracting words by analyzing case data;
(b) generating a word-law mapping table by calculating a mapping probability between words and laws using the word; And
(c) predicting a statute for the query term using the word-statute mapping table.
제7 항에 있어서,
상기 단어-법령 매핑 테이블은 단어와 법령간의 매핑에 따른 신뢰도를 포함하되, 상기 신뢰도는 하기 수식에 의해 계산되는 것을 특징으로 하는 질의어에 대한 법령 검색을 지원하는 방법.
Figure 112015010507272-pat00059

Figure 112015010507272-pat00060

여기서,
Figure 112015010507272-pat00061
는 판례 데이터내 출현한 단어의 집합을 나타내고,
Figure 112015010507272-pat00062
는 법령명에 대한 집합을 나타내며,
Figure 112015010507272-pat00063
은 판례 데이터내 출현 단어 집합에 포함되는 단어들 중 법령명에 포함되지 않는 단어를 나타내고,
Figure 112015010507272-pat00064
는 판례 데이터내에 출현하는 단어들 중 법령 명의 집합에 포함되는 법령들을 나타냄.
8. The method of claim 7,
Wherein the word-law mapping table includes reliability according to a mapping between a word and a statute, and the reliability is calculated by the following equation.
Figure 112015010507272-pat00059

Figure 112015010507272-pat00060

here,
Figure 112015010507272-pat00061
Represents a set of words appearing in precedent data,
Figure 112015010507272-pat00062
Represents a set of legal names,
Figure 112015010507272-pat00063
Represents a word not included in the legal name among the words included in the appearing word set in the precedent data,
Figure 112015010507272-pat00064
Represents the statutes included in the set of statutory names among the words appearing in the precedent data.
웹 문서에서 질의-답변 데이터를 수집하는 수집부;
상기 질의-답변 데이터에서 질문부와 답변부를 구분하고, 상기 질문부 및 상기 답변부를 분석하여 상기 질문부의 각 단어는 일반 용어로 추출하고, 상기 답변부의 각 단어는 전문 용어로 추출하는 추출부;
상기 질문부 및 상기 답변부에 포함된 상기 일반 용어와 상기 전문 용어들이 상기 질문부 및 상기 답변부에 동시에 출현한 단어의 빈도를 이용하여 일반 용어-전문 용어 매핑 확률을 계산하여 일반 용어-전문 용어 매핑 테이블을 생성하는 매핑 테이블 생성부-상기 매핑 테이블은 상기 질문부 및 상기 답변부에서 추출된 상기 일반 용어와 상기 전문 용어간의 매핑 확률을 포함함; 및
상기 매핑 테이블을 이용하여 질의문에 포함된 단어와 일치하는 일반 용어에 대응하는 매핑 확률이 높은 n개의 전문 용어를 추출하여 제공하는 예측부를 포함하는 전문 분야 검색 지원 장치.
A collection unit for collecting query-answer data in a web document;
An extracting unit for extracting from the query-answer data the question part and the answer part, extracting each word of the question part as a general term by analyzing the question part and the answer part, and extracting each word of the answer part as a jargon;
The general term and the terminology included in the question portion and the answer portion are used to calculate the general term to terminology mapping probability using the frequencies of the words simultaneously appearing in the question portion and the answer portion, A mapping table generation unit for generating a mapping table, the mapping table including a mapping probability between the general term extracted from the query unit and the terminology; And
And a prediction unit for extracting and providing n term terms having a high mapping probability corresponding to a general term matching a word included in the query using the mapping table.
판례 데이터를 분석하여 단어를 각각 추출하는 추출부;
상기 단어를 이용하여 단어와 법령간 매핑 확률을 계산하여 단어-법령 매핑 테이블을 생성하는 매핑 테이블 생성부; 및
상기 단어-법령 매핑 테이블을 이용하여 질의문에 대한 법령을 예측하는 예측부를 포함하는 전문 분야 검색 지원 장치.
An extracting unit for analyzing precedent data and extracting each word;
A mapping table generation unit for calculating a mapping probability between a word and a statute by using the word to generate a word-statute mapping table; And
And a predicting unit for predicting a statute for the query statement using the word-statistical mapping table.
KR1020130096419A 2013-08-14 2013-08-14 Professional field search supporting method and apparatus KR101515413B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020130096419A KR101515413B1 (en) 2013-08-14 2013-08-14 Professional field search supporting method and apparatus
PCT/KR2013/011920 WO2015023031A1 (en) 2013-08-14 2013-12-20 Method for supporting search in specialist fields and apparatus therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130096419A KR101515413B1 (en) 2013-08-14 2013-08-14 Professional field search supporting method and apparatus

Publications (2)

Publication Number Publication Date
KR20150019474A KR20150019474A (en) 2015-02-25
KR101515413B1 true KR101515413B1 (en) 2015-04-29

Family

ID=52468407

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130096419A KR101515413B1 (en) 2013-08-14 2013-08-14 Professional field search supporting method and apparatus

Country Status (2)

Country Link
KR (1) KR101515413B1 (en)
WO (1) WO2015023031A1 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101707941B1 (en) * 2015-12-09 2017-02-27 펄슨정보기술 주식회사 Method, device and computer readable recording medium for searching precedent using automatic coversion between general term and legal term
KR102607216B1 (en) * 2016-04-01 2023-11-29 삼성전자주식회사 Method of generating a diagnosis model and apparatus generating a diagnosis model thereof
CN106469212B (en) * 2016-09-05 2019-10-15 北京百度网讯科技有限公司 Man-machine interaction method and device based on artificial intelligence
CN111353301B (en) * 2020-02-24 2023-07-21 成都网安科技发展有限公司 Auxiliary secret determination method and device
CN112182019B (en) * 2020-10-20 2022-09-06 国网福建省电力有限公司经济技术研究院 Semantic parsing search method for power grid statistics professional index feature extraction

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020169743A1 (en) * 2001-05-08 2002-11-14 David Arnold Web-based method and system for identifying and searching patents
KR20040042065A (en) * 2002-11-12 2004-05-20 하창승 Intelligent information searching method using case-based reasoning algorithm and association rule mining algorithm
US10007882B2 (en) * 2008-06-24 2018-06-26 Sharon Belenzon System, method and apparatus to determine associations among digital documents
US9110979B2 (en) * 2009-12-01 2015-08-18 Apple Inc. Search of sources and targets based on relative expertise of the sources
WO2012178152A1 (en) * 2011-06-23 2012-12-27 I3 Analytics Methods and systems for retrieval of experts based on user customizable search and ranking parameters

Also Published As

Publication number Publication date
WO2015023031A1 (en) 2015-02-19
KR20150019474A (en) 2015-02-25

Similar Documents

Publication Publication Date Title
Trupthi et al. Sentiment analysis on twitter using streaming API
Bucur Using opinion mining techniques in tourism
US9621601B2 (en) User collaboration for answer generation in question and answer system
US9239875B2 (en) Method for disambiguated features in unstructured text
CN103488671B (en) For inquiring about the method and system with integrated structured and unstructured data
US10956472B2 (en) Dynamic load balancing based on question difficulty
KR101515413B1 (en) Professional field search supporting method and apparatus
KR102353545B1 (en) Method and Apparatus for Recommending Disaster Response
CN110337645A (en) The processing component that can be adapted to
WO2019116253A1 (en) Supporting evidence retrieval for complex answers
KR20130022042A (en) System for detecting and tracking topic based on topic opinion and social-influencer and method thereof
Ling et al. Knowledge representation model for crime analysis
US20180165580A1 (en) Performance of Time Intensive Question Processing in a Cognitive System
KR102334236B1 (en) Method and application of meaningful keyword extraction from speech-converted text data
Pabitha et al. Automatic question generation system
KR102334255B1 (en) Text data collection platform construction and integrated management method for AI-based voice service
Stowe et al. Linguistic analysis improves neural metaphor detection
Huang et al. Query expansion based on statistical learning from code changes
CN113450905A (en) Medical auxiliary diagnosis system, method and computer readable storage medium
Amato et al. An application of semantic techniques for forensic analysis
Tovar et al. A metric for the evaluation of restricted domain ontologies
Lima et al. Relation extraction from texts with symbolic rules induced by inductive logic programming
KR101509036B1 (en) Apparatus and method for extraction clinical knowledge
AU2019290658B2 (en) Systems and methods for identifying and linking events in structured proceedings
Di Pietro et al. Semantic crawling: an approach based on named entity recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180409

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190401

Year of fee payment: 5