KR102341563B1 - 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법 - Google Patents

매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법 Download PDF

Info

Publication number
KR102341563B1
KR102341563B1 KR1020170174020A KR20170174020A KR102341563B1 KR 102341563 B1 KR102341563 B1 KR 102341563B1 KR 1020170174020 A KR1020170174020 A KR 1020170174020A KR 20170174020 A KR20170174020 A KR 20170174020A KR 102341563 B1 KR102341563 B1 KR 102341563B1
Authority
KR
South Korea
Prior art keywords
topic
similar
text material
text
weight
Prior art date
Application number
KR1020170174020A
Other languages
English (en)
Other versions
KR20190072883A (ko
Inventor
손광석
Original Assignee
(주)킨스미디어
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)킨스미디어 filed Critical (주)킨스미디어
Priority to KR1020170174020A priority Critical patent/KR102341563B1/ko
Publication of KR20190072883A publication Critical patent/KR20190072883A/ko
Application granted granted Critical
Publication of KR102341563B1 publication Critical patent/KR102341563B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Abstract

본 발명은 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법에 관한 것으로서, 보다 상세하게는 법률이나 판례, 입법 정보와 같은 전문 텍스트 자료를 일반인도 편리하게 검색하기 위해 토픽(topic) 알고리즘을 적용하되, 법률 관련 언론 기사 또는 법률 관련 질의응답 문서를 매개 텍스트 자료로 활용하여, 최근 트렌드를 반영한 효율적인 검색이 가능하도록 하는 전문 텍스트 자료 추출 방법에 관한 것이다.
본 발명의 상기 목적은 서버가 질의어 문장으로부터 질의어 토픽을 생성하는 제 1 단계, 하나 이상의 매개 텍스트 자료 토픽 중에서 상기 질의어 토픽과 가장 유사도가 높은 최유사 매개 텍스트 자료 토픽을 선정하는 제 2 단계, 하나 이상의 전문 텍스트 자료 토픽 중에서 상기 최유사 매개 텍스트 자료 토픽과 가장 유사도가 높은 최유사 전문 텍스트 자료 토픽을 선정하는 제 3 단계 및 최유사 전문 텍스트 자료 토픽에 대응하는 최유사 전문 텍스트 자료를 표시하는 제 4 단계로 이루어지는 일련의 과정들을 포함함에 기술적 특징이 있다.

Description

매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법{Method for extracting professional text data using mediating text data topics}
본 발명은 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법에 관한 것으로서, 보다 상세하게는 법률이나 판례, 입법 정보와 같은 전문 텍스트 자료를 일반인도 편리하게 검색하기 위해 토픽(topic) 알고리즘을 적용하되, 법률 관련 언론 기사 또는 법률 관련 질의응답 문서를 매개 텍스트 자료로 활용하여, 최근 트렌드를 반영한 효율적인 검색이 가능하도록 하는 전문 텍스트 자료 추출 방법에 관한 것이다.
인터넷의 발달로 온라인 상에서 정보에 대한 접근성이 확대되고 일반인들도 법률, 기술과 같은 전문 정보를 직접 검색을 통해 확인하고자 하는 수요가 늘어나고 있다. 특히 근래에 와서는 소셜네트워크서비스(SNS)와 스마트폰, 태블릿컴퓨터 등의 모바일 단말기의 발달로 인해 이러한 변화의 속도는 가속화되고 있다.
일반인들은 전문 정보에 사용되는 어휘의 의미를 잘 모르기 때문에, 그 결과 본인의 문제 해결에 도움이 되는 적정한 정보를 찾아내는 데에 어려움을 겪는다. 또한 동 시대의 사람들이 같이 겪고 있는 문제의 트렌드(trend)를 알고 있다면 부족한 전문적 지식을 보완한 검색이 가능할 수도 있는데, 이러한 트렌드에 대한 접근성도 떨어진다는 점도 문제가 된다.
이와 같이 일반인들이 전문 정보를 검색하는 데 겪는 어려움을 해겨하기 위한 몇몇 발명이 공개된 바 있다.
대한민국 등록특허공보 제10-1707941호에는 일반용어와 법률용어 간의 자동변환을 통한 판례검색방법, 판례검색장치 및 이를 위한 컴퓨터 판독가능 기록매체에 대한 발명이 공개되어 있다. 이 발명은 일반용어와 법률용어 간의 자동변환을 통한 판례검색방법은 (a) 사용자 단말로부터 적어도 하나의 단어를 포함하는 문구 또는 문장을 수신하는 단계; (b) 상기 수신한 문구 또는 문장으로부터 어휘형태소인 일반용어를 적어도 하나 추출하는 단계; (c) 상기 추출된 적어도 하나의 일반용어 각각을 적어도 하나의 법률용어로 변환하는 단계; 및 (d) 상기 변환된 적어도 하나의 법률용어를 포함하는 판례를 검색하여, 상기 사용자 단말로 상기 판례에 대한 정보를 제공하는 단계;를 포함하는 것을 내용으로 한다.
그러나 이 발명은 일반용어와 법률용어를 단순히 매칭하여 전문정보를 검색해내는 것으로서, 매칭 관계를 서버 관리자가 직접 입력하는 등의 방법으로 구성함으로써, 효율이 떨어질 수 있다는 단점이 있으며, 최근의 트렌드를 반영한 검색이 어렵다는 한계가 있다.
상기와 같은 종래 기술의 문제점을 해결하기 위하여 안출된 본 발명은 일반인도 일반적인 용어를 이용하여 쉽게 전문적인 정보를 검색할 수 있게 하기 위한 목적이 있다.
또한 최근에 문제가 되고 있는 트렌드를 반영하여, 일반인의 부족한 전문 지식을 보완하여 보다 일반인의 검색 의도에 맞는 전문정보의 검색 가능성을 높이기 위한 다른 목적이 있다.
더 나아가 서버 관리자가 직접 용어간의 매칭관계를 입력하는 등의 비효율적인 운영 요소를 개선하는 데에 또 다른 목적이 있다.
본 발명의 상기 목적은 서버가 질의어 문장으로부터 질의어 토픽을 생성하는 제 1 단계, 하나 이상의 매개 텍스트 자료 토픽 중에서 상기 질의어 토픽과 가장 유사도가 높은 최유사 매개 텍스트 자료 토픽을 선정하는 제 2 단계, 하나 이상의 전문 텍스트 자료 토픽 중에서 상기 최유사 매개 텍스트 자료 토픽과 가장 유사도가 높은 최유사 전문 텍스트 자료 토픽을 선정하는 제 3 단계 및 최유사 전문 텍스트 자료 토픽에 대응하는 최유사 전문 텍스트 자료를 표시하는 제 4 단계를 포함하는 것을 특징으로 하는 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법를 포함하는 것을 특징으로 하는 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법에 의해 달성된다.
본 발명에 따른 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법은 일반인도 일반적인 용어를 이용하여 쉽게 전문적인 정보를 검색하는 데에 도움을 주는 효과가 있다.
또한 언론 기사 또는 질의 응답 자료의 토픽을 활용함으로써 최근에 문제가 되고 있는 트렌드를 반영하여, 일반인의 부족한 전문 지식을 보완하여 보다 일반인의 검색 의도에 맞는 전문정보의 검색 가능성을 높이는 다른 효과가 있다.
더 나아가 크롤링 등의 자동 정보 수집 방법을 활용하여 서버 관리자가 직접 용어간의 매칭관계를 입력하는 등의 비효율적인 운영 요소를 개선하는 또 다른 효과가 있다.
도 1은 본 발명의 서버의 동작을 나타내는 모식도,
도 2는 텍스트 자료와 텍스트 자료 토픽의 대응 관계를 표시하는 모식도,
도 3은 질의어 문장으로부터 전문 텍스트 자료를 추출하여 표시하는 과정을 나타낸 흐름도,
도 4는 텍스트 자료와 상부토픽 및 하부토픽의 쌍으로 구성되는 계층 구조를 지닌 텍스트 자료 토픽의 대응 관계를 표시하는 모식도이다.
본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다.
따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.
도 1은 본 발명의 서버의 동작을 나타내는 모식도이다. 도 1에 도시된 바와 같이, 본 발명에 따른 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법은 서버가 수행하며, 매개 텍스트 자료 토픽 데이터 베이스, 전문 텍스트 자료 토픽 데이터 베이스, 전문 텍스트 자료 데이터베이스와 연계하여, 사용자로부터 입력 받은 질의어 문장에 대응되는 전문 텍스트 자료를 추출하여 표시하는 기본 구조를 지니고 있다. 이러한 매개 텍스트 자료 토픽 데이터 베이스, 전문 텍스트 자료 토픽 데이터 베이스, 전문 텍스트 자료 데이터베이스는 소정 기간 동안 웹 크롤러 등을 통해 수집한 텍스트에서 이른 바 "토픽 모델링(Topic Modeling)"이라는 분석 기법에 의해 도출한 토픽들을 저장하는 방식에 의해 구축될 수 있다. 토픽 모델링은 방대한 양의 문서를 그 주제에 따라 묶음으로 군집화하는 방식의 일종으로서, 분석 대상 텍스트 자료에 대해 SAS Enterprise Miner와 같은 상용 소프트웨어 또는 R과 같은 오픈소스 소프트웨어 등을 사용하여 주요 토픽을 도출하는 방법 등에 의해 구현될 수 있다. 이러한 웹트롤러나 데이터베이스는 상기 서버에 내장되어 있을 수도 있고 외부 장치에 존재함으로써 상기 서버와 연동하여 동작할 수도 있다. 또한 전문 텍스트 자료를 표시하는 장치는 사용자의 컴퓨터, 모바일 단말기 등의 디스플레이가 될 수 있으며, 본 발명에서 '표시'한다 함은 상기 트렌드정보구축서버에서 상기와 같이 가시화를 위한 가공된 정보를 상기 가시화 기기에 전달하는 과정을 의미하는 것으로 정의하기로 한다.
도 2는 텍스트 자료와 텍스트 자료 토픽의 대응 관계를 표시하는 모식도이다. 토픽은 도 2에 도시된 바와 같이, 주요 키워드의 조합으로 나타낼 수 있다.
도 3은 질의어 문장으로부터 전문 텍스트 자료를 추출하여 표시하는 과정을 나타낸 흐름도이다. 도 3에 도시된 바와 같이, 본 발명에 따른 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법은 서버가 상기 질의어 문장으로부터 질의어 토픽을 생성하는 제 1 단계(S100), 하나 이상의 매개 텍스트 자료 토픽 중에서 상기 질의어 토픽과 가장 유사도가 높은 최유사 매개 텍스트 자료 토픽을 선정하는 제 2 단계(S110), 하나 이상의 전문 텍스트 자료 토픽 중에서 상기 최유사 매개 텍스트 자료 토픽과 가장 유사도가 높은 최유사 전문 텍스트 자료 토픽을 선정하는 제 3 단계(S120) 및 상기 최유사 전문 텍스트 자료 토픽에 대응하는 최유사 전문 텍스트 자료를 표시하는 제 4 단계(S140)를 포함하여 이루어 진다. 이처럼 일반인의 지식과 전문 정보 간의 간극을 보정할 수 있는 매개 텍스트 자료를 활용함으로써, 사전(dictionary)의 직접 입력과 같은 비효율적인 요소를 개선할 수 있다. 여기에서 토픽 간의 유사도의 산출은 이른 바 통상의 유사도 계산 방법에 의할 수 있으며, 일례로 이른바 "코사인 유사도(Cosine Similarity)"를 사용할 수 있다. 코사인 유사도는 “0”이 아닌 두 벡터 사이의 코사인 각도에 의해 유사도를 산출하는 방법이며, 토픽 간 유사도의 산출은 그 이외에도 필요에 따라 다른 산출 방법을 사용할 수 있다.
도 4는 텍스트 자료와 상부토픽 및 하부토픽의 쌍으로 구성되는 계층 구조를 지닌 텍스트 자료 토픽의 대응 관계의 실시예를 표시하는 모식도이다. 도 4에 도시된 바와 같이, 상기 매개 텍스트 자료 토픽 및 상기 전문 텍스트 자료 토픽 각각은 하나의 상부 토픽과 하나의 하부 토픽의 쌍으로 구성되는 계층 구조를 가지고, 상기 제 2 단계에서 상기 최유사 매개 텍스트 자료 토픽을 선정하는 과정은 상기 매개 텍스트 자료 토픽의 상부 토픽과 상기 질의어 토픽의 유사도를 먼저 산출하여 가장 유사도가 높은 경우에 해당하는 하나 이상의 최유사후보 매개 텍스트 자료 토픽을 선정하고, 다시 상기 최유사후보 매개 텍스트 자료 토픽 중에 그 하부 토픽과 상기 질의어 토픽의 유사도가 가장 높은 것을 상기 최유사 매개 텍스트 자료 토픽으로 선정하는 과정이며, 상기 제 3 단계에서 상기 최유사 전문 텍스트 자료 토픽을 선정하는 과정은 상기 최유사 매개 텍스트 자료 토픽의 상부 토픽과 상기 전문 텍스트 자료 토픽의 유사도를 먼저 판단하여 가장 유사도가 높은 경우에 해당하는 하나 이상의 최유사후보 전문 텍스트 자료 토픽을 선정하고, 다시 상기 최유사후보 전문 텍스트 자료 토픽 중에 그 하부 토픽과 상기 상기 최유사 매개 텍스트 자료 토픽의 하부 토픽의 유사도가 가장 높은 것을 상기 최유사 전문 텍스트 자료로 선정하는 과정이 되도록 구성할 수 있다. 이처럼 계층 구조를 이용하여 상부 토픽끼리, 그리고 하부 토픽끼리 순차적으로 유사도를 추출하여 최유사 전문 텍스트 자료를 검색하는 방식에 의해 서버의 연산 수를 줄이고 빠른 결과 표시가 가능하게 할 수 있다.
또한 위와 같은 상부 토픽과 하부 토픽의 순차적인 유사도 추출 방식에 의하지 않고 가중치를 사용하여 판단의 정확성을 높이는 방식의 다음과 같은 실시예가 있다. 즉, 상기 매개 텍스트 자료 토픽 및 상기 전문 텍스트 자료 토픽 각각은 하나의 상부 토픽과 하나의 하부 토픽의 쌍으로 구성되는 계층 구조를 가지고, 상기 상부 토픽과 상기 하부 토픽들은 고유의 가중치를 갖되, 하나의 쌍을 이루는 상기 상부 토픽과 상기 하부 토픽의 가중치의 합은 1이며, 상기 제 2 단계에서 상기 매개 텍스트 자료 토픽의 상부 토픽과 상기 질의어 토픽의 유사도에 상기 매개 텍스트 자료 토픽의 상부 토픽의 가중치를 곱한 값에, 상기 매개 텍스트 자료 토픽의 하부 토픽과 상기 질의어 토픽의 유사도에 상기 매개 텍스트 자료 토픽의 상부 토픽의 가중치를 곱한 값을 더한 것을 상기 매개 텍스트 자료 토픽과 상기 질의어 토픽의 유사도로 하며, 상기 제 3 단계에서 상기 최유사 매개 텍스트 자료 토픽의 상부 토픽과 상기 전문 텍스트 자료 토픽의 상부 토픽의 유사도에 상기 최유사 매개 텍스트 자료 토픽의 상부 토픽의 가중치를 곱하고 다시 상기 전문 텍스트 자료 토픽의 상부 토픽의 가중치를 곱한 값에, 상기 최유사 매개 텍스트 자료 토픽의 상부 토픽과 상기 전문 텍스트 자료 토픽의 하부 토픽의 유사도에 상기 최유사 매개 텍스트 자료 토픽의 상부 토픽의 가중치를 곱하고 다시 상기 전문 텍스트 자료 토픽의 하부 토픽의 가중치를 곱한 값을 더하고, 여기에 상기 최유사 매개 텍스트 자료 토픽의 하부 토픽과 상기 전문 텍스트 자료 토픽의 상부 토픽의 유사도에 상기 최유사 매개 텍스트 자료 토픽의 하부 토픽의 가중치를 곱하고 다시 상기 전문 텍스트 자료 토픽의 상부 토픽의 가중치를 곱한 값을 더하고, 여기에 상기 최유사 매개 텍스트 자료 토픽의 하부 토픽과 상기 전문 텍스트 자료 토픽의 하부 토픽의 유사도에 상기 최유사 매개 텍스트 자료 토픽의 하부 토픽의 가중치를 곱하고 다시 상기 전문 텍스트 자료 토픽의 하부 토픽의 가중치를 곱한 값을 더한 값을 상기 최유사 매개 텍스트 자료 토픽과 상기 전문 텍스트 자료 토픽의 유사도로 하게 구성할 수도 있다. 이와 같이 가중치를 활용하여 복수의 토픽을 활용함으로써 보다 정확한 결과가 도출되게 할 수 있다.
상기 매개 텍스트 자료 토픽 및 상기 전문 텍스트 자료 토픽 각각의 상부 토픽과 하부 토픽의 가중치들은 모두 0.5로 설정되게 할 수 있으며, 상기 매개 텍스트 자료 토픽 및 상기 전문 텍스트 자료 토픽 각각의 상부 토픽의 가중치들은 모두 쌍을 이루는 상기 하부 토픽의 가중치보다 크도록 설정함으로써 상부 토픽의 유사도를 더 중시할 수도 있다.
전문 텍스트 자료는 법조문 또는 입법정보 또는 판례이며, 상기 매개 텍스트 자료 토픽은 매개 텍스트 자료인 법률 관련 언론 기사 또는 법률 관련 질의응답 문서에 대응되는 토픽일 수 있다.
상기 하나 이상의 매개 텍스트 자료 토픽들은 고유의 가중치를 갖되, 최근에 등록된 매개 텍스트 자료 토픽일 수록 그 이전에 등록된 매개 텍스트 자료 토픽보다 가중치가 높게 설정되며, 상기 제 2 단계에서 상기 매개 텍스트 자료 토픽과 상기 질의어 토픽의 유사도에 다시 상기 가중치를 곱한 것을 상기 매개 텍스트 자료 토픽과 상기 질의어 토픽의 유사도로서 재산출하도록 구성할 수도 있다. 이를 통해 보다 최신의 자료 및 정보가 더 중요하게 다뤄지게 함으로써 최신의 트렌드가 전문 텍스트 자료의 추출 과정에 좀 더 잘 반영되도록 할 수 있다.
본 발명은 이상에서 살펴본 바와 같이 바람직한 실시예를 들어 도시하고 설명하였으나, 상기한 실시예에 한정되지 아니하며 본 발명의 정신을 벗어나지 않는 범위 내에서 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변경과 수정이 가능할 것이다.

Claims (9)

  1. 서버에서 질의어 문장에 대응하는 전문 텍스트 자료를 추출하는 방법에 있어서,
    상기 질의어 문장을 기반으로 질의어 토픽을 생성하는 제 1 단계;
    적어도 하나의 매개 텍스트 자료 토픽 중에서 상기 생성된 질의어 토픽과 가장 유사도가 높은 최유사 매개 텍스트 자료 토픽을 선정하는 제 2 단계;
    적어도 하나의 전문 텍스트 자료 토픽 중에서 상기 선정된 최유사 매개 텍스트 자료 토픽과 가장 유사도가 높은 최유사 전문 텍스트 자료 토픽을 선정하는 제 3 단계; 및
    상기 선정된 최유사 전문 텍스트 자료 토픽에 대응하는 최유사 전문 텍스트 자료를 표시하는 제 4 단계를 포함하는 것을 특징으로 하는 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법.
  2. 제 1 항에 있어서,
    상기 적어도 하나의 매개 텍스트 자료 토픽 각각은 하나의 상부 토픽과 하나의 하부 토픽의 쌍으로 구성되는 계층 구조로 형성되고,
    상기 제 2 단계는,
    상기 적어도 하나의 매개 텍스트 자료 토픽 중에 그 상부 토픽이 상기 질의어 토픽과 유사도가 가장 높은 경우에 해당하는 하나 이상의 최유사 후보 매개 텍스트 자료 토픽을 선정하고,
    상기 선정된 하나 이상의 최유사 후보 매개 텍스트 자료 토픽 중에 그 하부 토픽이 상기 질의어 토픽과 유사도가 가장 높은 것을 상기 최유사 매개 텍스트 자료 토픽으로 선정하는 것을 특징으로 하는 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법.
  3. 제 2 항에 있어서,
    상기 적어도 하나의 전문 텍스트 자료 토픽 각각은 하나의 상부 토픽과 하나의 하부 토픽의 쌍으로 구성되는 계층 구조로 형성되고,
    상기 제 3 단계는,
    상기 적어도 하나의 전문 텍스트 자료 토픽 중에 상기 최유사 매개 텍스트 자료 토픽의 상부 토픽과 유사도가 가장 높은 것을 최유사 후보 전문 텍스트 자료 토픽으로 선정하고,
    상기 선정된 최유사 후보 전문 텍스트 자료 토픽 중에 그 하부 토픽과 상기 상기 최유사 매개 텍스트 자료 토픽의 하부 토픽의 유사도가 가장 높은 것을 상기 최유사 전문 텍스트 자료로 선정하는 것을 특징으로 하는 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법.
  4. 제 1 항에 있어서,
    상기 적어도 하나의 매개 텍스트 자료 토픽 각각은 하나의 제1 상부 토픽과 하나의 제1 하부 토픽의 쌍으로 구성되는 계층 구조를 가지고,
    상기 적어도 하나의 매개 텍스트 자료 토픽의 각각에 대하여,
    그 제1 상부 토픽에 대응되는 제1 가중치와 그 제1 하부 토픽에 대응되는 제2 가중치의 합은 1이고,
    상기 제 2 단계에서,
    상기 적어도 하나의 매개 텍스트 자료 토픽의 각각에 대하여,
    그 제1 상부 토픽과 상기 질의어 토픽 간의 유사도에 그 제1 가중치를 곱한 값에, 그 제1 하부 토픽과 상기 질의어 토픽 간의 유사도에 그 제2 가중치를 곱한 값을 더한 것을 상기 각각의 매개 텍스트 자료 토픽과 상기 질의어 토픽 간의 유사도로 하는 것을 특징으로 하는 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법.
  5. 제 4 항에 있어서,
    상기 적어도 하나의 전문 텍스트 자료 토픽은 하나의 제2 상부 토픽과 하나의 제2 하부 토픽의 쌍으로 구성되는 계층 구조를 가지고,
    상기 적어도 하나의 전문 텍스트 자료 토픽의 각각에 대하여,
    그 상부 토픽에 대응되는 제3 가중치와 그 하부 토픽에 대응되는 제4 가중치의 합은 1이고,
    상기 제 3 단계에서,
    상기 적어도 하나의 전문 텍스트 자료 토픽의 각각에 대하여,
    그 제2 상부 토픽과 상기 최유사 매개 텍스트 자료 토픽의 상부 토픽 간의 유사도에 상기 최유사 매개 텍스트 자료 토픽의 상기 상부 토픽에 대응되는 가중치를 곱하고 다시 그 제3 가중치를 곱한 제1 값,
    그 제2 하부 토픽과 상기 최유사 매개 텍스트 자료 토픽의 상기 상부 토픽 간의 유사도에 상기 최유사 매개 텍스트 자료 토픽의 상기 상부 토픽에 대응되는 상기 가중치를 곱하고 다시 그 제4 가중치를 곱한 제2 값,
    그 제2 상부 토픽과 상기 최유사 매개 텍스트 자료 토픽의 상기 하부 토픽 간의 유사도에 상기 최유사 매개 텍스트 자료 토픽의 상기 하부 토픽에 대응되는 가중치를 곱하고 다시 그 제3 가중치를 곱한 제3 값 및
    그 제2 하부 토픽과 상기 최유사 매개 텍스트 자료 토픽의 상기 하부 토픽 간의 유사도에 상기 최유사 매개 텍스트 자료 토픽의 상기 하부 토픽의 상기 가중치를 곱하고 다시 제4 가중치를 곱한 제4 값의 합을 상기 최유사 매개 텍스트 자료 토픽과 상기 각각의 전문 텍스트 자료 토픽 간의 유사도로 하는 것을 특징으로 하는 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법.
  6. 제 5 항에 있어서,
    상기 적어도 하나의 매개 텍스트 자료 토픽 및 상기 적어도 하나의 전문 텍스트 자료 토픽 각각에 대응하는, 상기 제1 가중치, 상기 제2 가중치, 상기 제3 가중치 및 상기 제4 가중치는 모두 0.5인 것을 특징으로 하는 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법.
  7. 제 5 항에 있어서,
    상기 적어도 하나의 매개 텍스트 자료 토픽의 각각에 대응하는, 상기 제1 가중치는 상기 제2 가중치보다 크고,
    상기 적어도 하나의 전문 텍스트 자료 토픽의 각각에 대응하는, 상기 제3 가중치는 상기 제4 가중치보다 큰 것을 특징으로 하는 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법.
  8. 제 1 항에 있어서,
    상기 전문 텍스트 자료는 법조문 또는 입법정보 또는 판례이며, 상기 적어도 하나의 매개 텍스트 자료 토픽은 법률 관련 언론 기사 또는 법률 관련 질의응답 문서에 대응되는 토픽인 것을 특징으로 하는 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법.
  9. 제 8 항에 있어서,
    상기 적어도 하나의 매개 텍스트 자료 토픽의 각각은 고유의 가중치를 갖되, 최근에 등록된 매개 텍스트 자료 토픽일 수록 그 이전에 등록된 매개 텍스트 자료 토픽보다 상기 가중치가 높게 설정되며,
    상기 제 2 단계에서
    상기 각각의 매개 텍스트 자료 토픽과 상기 질의어 토픽 간의 유사도에 다시 상기 가중치를 곱한 것을 상기 각각의 매개 텍스트 자료 토픽과 상기 질의어 토픽 간의 유사도로서 재산출하는 것을 특징으로 하는 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법.
KR1020170174020A 2017-12-18 2017-12-18 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법 KR102341563B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170174020A KR102341563B1 (ko) 2017-12-18 2017-12-18 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170174020A KR102341563B1 (ko) 2017-12-18 2017-12-18 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법

Publications (2)

Publication Number Publication Date
KR20190072883A KR20190072883A (ko) 2019-06-26
KR102341563B1 true KR102341563B1 (ko) 2021-12-21

Family

ID=67105179

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170174020A KR102341563B1 (ko) 2017-12-18 2017-12-18 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법

Country Status (1)

Country Link
KR (1) KR102341563B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170344947A1 (en) 2002-12-30 2017-11-30 Thomson Reuters Global Resources Systems and methods for managing documents for law firms

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100904195B1 (ko) * 2007-12-14 2009-06-23 한국과학기술정보연구원 웹문서에 대한 사전검색과 데이터 처리 및 검색어 처리를통한 정보검색 시스템 및 그 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170344947A1 (en) 2002-12-30 2017-11-30 Thomson Reuters Global Resources Systems and methods for managing documents for law firms

Also Published As

Publication number Publication date
KR20190072883A (ko) 2019-06-26

Similar Documents

Publication Publication Date Title
Bennani-Smires et al. Simple unsupervised keyphrase extraction using sentence embeddings
CN109101479B (zh) 一种用于中文语句的聚类方法及装置
KR102354716B1 (ko) 딥 러닝 모델을 이용한 상황 의존 검색 기법
US7983902B2 (en) Domain dictionary creation by detection of new topic words using divergence value comparison
KR101465770B1 (ko) 단어 확률 결정
Stamatatos et al. Overview of the PAN/CLEF 2015 evaluation lab
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
US20180075013A1 (en) Method and system for automating training of named entity recognition in natural language processing
JP5379138B2 (ja) 領域辞書の作成
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
EP3314461A1 (en) Learning entity and word embeddings for entity disambiguation
US20180181544A1 (en) Systems for Automatically Extracting Job Skills from an Electronic Document
CN106708929B (zh) 视频节目的搜索方法和装置
US10410139B2 (en) Named entity recognition and entity linking joint training
Habib et al. An exploratory approach to find a novel metric based optimum language model for automatic bangla word prediction
Singh et al. Sentiment analysis using lexicon based approach
Liu et al. Extract Product Features in Chinese Web for Opinion Mining.
CN106570196B (zh) 视频节目的搜索方法和装置
Dawar et al. Comparing topic modeling and named entity recognition techniques for the semantic indexing of a landscape architecture textbook
WO2016210203A1 (en) Learning entity and word embeddings for entity disambiguation
US20190095525A1 (en) Extraction of expression for natural language processing
KR102341563B1 (ko) 매개 텍스트 자료 토픽을 이용한 전문 텍스트 자료 추출 방법
JP6495206B2 (ja) 文書概念ベース生成装置、文書概念検索装置、方法、及びプログラム
Vu et al. Building a vietnamese sentiwordnet using vietnamese electronic dictionary and string kernel

Legal Events

Date Code Title Description
A302 Request for accelerated examination
E701 Decision to grant or registration of patent right