KR101396131B1 - 패턴 기반 관계 유사도 측정 장치 및 방법 - Google Patents

패턴 기반 관계 유사도 측정 장치 및 방법 Download PDF

Info

Publication number
KR101396131B1
KR101396131B1 KR1020130140217A KR20130140217A KR101396131B1 KR 101396131 B1 KR101396131 B1 KR 101396131B1 KR 1020130140217 A KR1020130140217 A KR 1020130140217A KR 20130140217 A KR20130140217 A KR 20130140217A KR 101396131 B1 KR101396131 B1 KR 101396131B1
Authority
KR
South Korea
Prior art keywords
syntax tree
similarity
information
relation
sentence
Prior art date
Application number
KR1020130140217A
Other languages
English (en)
Inventor
정창후
최성필
신성호
정한민
성원경
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020130140217A priority Critical patent/KR101396131B1/ko
Application granted granted Critical
Publication of KR101396131B1 publication Critical patent/KR101396131B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 패턴 기반 관계 유사도 측정 장치 및 방법에 관한 것으로, 입력된 문장의 구문, 품사정보 및 기저구 정보를 분석하는 언어 분석부, 상기 언어 분석부에서 분석된 결과를 근거로 상기 문장의 구문 관계를 추출하고, 상기 추출된 관계를 근거로 제1 구문 트리를 생성하는 제1구문 트리 생성부, 상기 제1구문 트리 생성부에서 생성된 제1 구문 트리를 의존관계 패턴에 기반하여 제2 구문 트리로 재구성하는 제2구문 트리 생성부, 상기 제2 구문 트리 생성부에서 생성된 제2구문 트리의 말단 노드에 존재하는 단어간의 의미 정보와 연관정보를 이용하여 유사도를 구하는 유사도 측정부를 포함한다.

Description

패턴 기반 관계 유사도 측정 장치 및 방법{APPARATUS AND METHOD FOR MEASURING RELATION SIMILARITY BASED PATTERN}
본 발명은 패턴 기반 관계 유사도 측정 장치 및 방법에 관한 것으로, 보다 상세하게는 입력된 문장의 구문, 품사정보 및 기저구 정보를 분석하여 문장의 구문 관계를 추출하고, 추출된 관계를 근거로 제1 구문 트리를 생성한 후, 제1 구문 트리에 포함된 단어 쌍들이 해당 문장내에서 가지는 의존관계 패턴에 기반하여 제1 구문 트리를 제2 구문 트리로 재구성하고, 제2구문 트리의 말단 노드에 존재하는 단어간의 의미 정보와 연관정보를 이용하여 유사도를 구하는 패턴 기반 관계 유사도 측정 장치 및 방법에 관한 것이다.
인터넷의 발전으로 인해 방대한 정보가 유통되면서 구축자의 정보에 대한 요구도 다양해 지고 있다. 기존의 정보 검색이나 정보 분류를 뛰어넘어 이제는 정보에 대한 요약 및 핵심정보 추출과 같은 좀 더 세밀한 정보의 가공을 요구하고 있는 추세이다. 이러한 흐름의 일환으로 관계 추출 시스템의 중요성이 날로 부각되고 있다.
하지만, 시스템 개발과 관련하여 시스템의 성능 평가 지표가 부족하다는 것이 현재 가장 큰 문제점이 되고 있다.
또한, 현재까지 발표된 대부분의 관계 추출 시스템들은 결과물에 대한 표본 추출을 통한 수작업 검증으로 성능평가를 수행하고 있다.
관계 추출 시스템의 객관적인 비교 평가는 문서에서 중요하게 인식되는 기술용어와 이들 간의 연관관계로 이루어진 트리플 집합이 제대로 갖추어졌을 경우에 가능하다.
다시 말해서, 관계 추출 시스템의 객관적인 신뢰도 평가를 위해서는 체계적으로 구축된 테스트 컬렉션이 필요하다. 테스트 컬렉션은 주로 문헌 내에 존재하는 기술용어, 기술용어 사이의 연관관계, 적합성 판단을 거친 트리플 집합 등으로 구성되어 있다.
이러한 테스트 컬렉션은 해당 분야의 연구뿐만 아니라 상용화 시스템의 성능을 평가하여 적절한 시스템을 선택하는 데에도 매우 중요한 역할을 하므로 관련 기술의 발전뿐만 아니라 궁극적으로는 정보 유통에 있어서는 경쟁력 강화에도 필수적인 역할을 수행한다.
따라서, 대부분의 정보 시스템을 개발할 때에는 응용 분야에 맞게 구축된 테스트 컬렉션을 사용하여 시스템의 평가를 수행하는 과정이 필연적으로 따라오게 된다.
텍스트에 출현하는 기술용어 간의 연관관계를 수동으로 설정하는 일은 매우 어려운 작업이다. 만일 적용 대상이 특정 분야에 한정된 경우라면 해당 분야 전문가에 의해서 기술용어 식별이나 연관관계 설정 작업이 이루어질 수 있다.
그러나 이 역시도 매우 까다로운 작업이며 세분화된 설정 기준(미리 정의된 연관관계 집합, 관계설정 방법 및 판단기준 등)과 분야 전문가의 어휘적 판단능력 등이 요구된다는 문제점이 있다.
또한, 종래에는 두 개체 사이에 존재하는 불필요한 구문 구조 정보를 그대로 사용하고, 말단 노드에 존재하는 단어간의 의미 정보나 연관정보를 고려하지 않는다는 점으로 인해, 두 구문 구조의 유사도 정보를 정확하게 측정하는데 한계가 있다.
선행기술 1 : 한국등록특허 제10-1104113호(2011.05.18 공개)
본 발명은 상기한 문제점을 해결하기 위하여 안출된 것으로, 구문 구조의 유사성을 이용하여 관계 추출을 수행할 때, 불필요한 문맥 정보까지도 모두 포함하고 있는 구문 구조 트리를 그대로 사용하는 것이 아니라, 문장 내에 존재하는 두 개체를 연결하는 의존 관계 패턴을 추출하고, 그 의존관계 패턴에 기반하여 구문 구조 트리를 재구성한 이후에 비교를 수행하는 패턴 기반 관계 유사도 측정 장치 및 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적은 구문 구조 트리 비교시 말단 노드에 존재하는 단어간의 의미 정보와 연관 정보를 이용하여 두 구문 구조 트리의 유사도를 더욱 정교하게 측정하는 패턴 기반 관계 유사도 측정 장치 및 방법을 제공하는데 있다.
상기 목적들을 달성하기 위하여 본 발명의 일 측면에 따르면, 입력된 문장의 구문, 품사정보 및 기저구 정보를 분석하는 언어 분석부, 상기 언어 분석부에서 분석된 결과를 근거로 상기 문장의 구문 관계를 추출하고, 상기 추출된 관계를 근거로 제1 구문 트리를 생성하는 제1구문 트리 생성부, 상기 제1구문 트리 생성부에서 생성된 제1 구문 트리를 의존관계 패턴에 기반하여 제2 구문 트리로 재구성하는 제2구문 트리 생성부, 상기 제2 구문 트리 생성부에서 생성된 제2구문 트리의 말단 노드에 존재하는 단어간의 의미 정보와 연관정보를 이용하여 유사도를 구하는 유사도 측정부를 포함하는 패턴 기반 관계 유사도 측정 장치가 제공된다.
상기 제1구문 트리 생성부는 두 단백질 사이에 존재하는 상호작용을 표현하는 구문자질 및 어휘 자질에 의해 상호작용의 유무를 분석하는 가지치기에 의해 상기 입력된 문장의 구문 관계를 추출할 수 있다.
상기 제2 구문 트리 생성부는 상기 제1 구문 트리에 포함된 단어 쌍들이 해당 문장내에서 가지는 관계를 의존관계패턴으로 인식하고, 단어 쌍이 연관관계를 가진 형태인 경우 연관관계를 표현하고, 연관관계를 가진 형태가 아닌 경우 가지치지를 수행하여 제2 구문 트리를 재구성할 수 있다.
상기 유사도 측정부는 워드넷 DB와 같은 의미망을 활용하여 제2 구문트리의 말단 노드에 존재하는 단어 간의 개념을 추상화하고 이를 의미적으로 클러스터링하여 상기 단어 간의 의미 정보를 확인할 수 있다.
본 발명의 다른 측면에 따르면, 유사도 측정 장치가 패턴 기반 관계 유사도를 측정하는 방법에 있어서, 입력된 문장의 구문, 품사정보 및 기저구 정보를 분석하는 단계, 상기 분석된 결과를 근거로 상기 문장의 구문 관계를 추출하고, 상기 추출된 관계를 근거로 제1 구문 트리를 생성하는 단계, 상기 생성된 제1 구문 트리를 의존관계 패턴에 기반하여 제2 구문 트리로 재구성하는 단계, 상기 재구성된 제2구문 트리의 말단 노드에 존재하는 단어간의 의미 정보와 연관정보를 이용하여 유사도를 구하는 단계를 포함하는 패턴 기반 관계 유사도 측정 방법이 제공된다.
상기 생성된 제1 구문 트리를 의존관계 패턴에 기반하여 제2 구문 트리로 재구성하는 단계는, 상기 제1 구문 트리에 포함된 단어 쌍들이 해당 문장내에서 가지는 관계를 의존관계패턴으로 인식하고, 단어 쌍이 연관관계를 가진 형태인 경우 연관관계를 표현하고, 연관관계를 가진 형태가 아닌 경우 가지치지를 수행하여 제2 구문 트리를 재구성할 수 있다.
상기 의미 정보는 워드넷 DB와 같은 의미망을 활용하여 제2 구문트리의 말단 노드에 존재하는 단어 간의 개념을 추상화하고 이를 의미적으로 클러스터링하여 확인할 수 있다.
본 발명의 또 다른 측면에 따르면, 유사도 측정 장치에 의해 실행될 때, 입력된 문장의 구문, 품사정보 및 기저구 정보를 분석하는 단계, 상기 분석된 결과를 근거로 상기 문장의 구문 관계를 추출하고, 상기 추출된 관계를 근거로 제1 구문 트리를 생성하는 단계, 상기 생성된 제1 구문 트리를 의존관계 패턴에 기반하여 제2 구문 트리로 재구성하는 단계, 상기 재구성된 제2구문 트리의 말단 노드에 존재하는 단어간의 의미 정보와 연관정보를 이용하여 유사도를 구하는 단계를 포함하는 패턴 기반 관계 유사도 측정 방법이 프로그램으로 기록된 전자장치에서 판독 가능한 기록매체가 제공된다.
본 발명에 따르면, 구문 구조의 유사성을 이용하여 관계 추출을 수행할 때, 불필요한 문맥 정보까지도 모두 포함하고 있는 구문 구조 트리를 그대로 사용하는 것이 아니라, 문장 내에 존재하는 두 개체를 연결하는 의존 관계 패턴을 추출하고, 그 의존관계 패턴에 기반하여 구문 구조 트리를 재구성한 이후에 비교를 수행함으로써, 관계 정보를 표현하는 두 구문 구조의 유사도 정보를 보다 정확하게 측정할 수 있다.
또한, 구문 구조 트리 비교시 말단 노드에 존재하는 단어간의 의미 정보와 연관 정보를 이용하여 두 구문 구조 트리의 유사도를 더욱 정교하게 측정할 수 있다.
또한, 구분 구조 트리의 핵심 뼈대만을 비교함으로써, 유사도 측정 성능이 향상되는 효과가 있다.
또한, 문헌 빅데이터 분석을 위한 기반 텍스트 마이닝 기술로 활용할 수 있다.
도 1은 본 발명의 실시예에 따른 패턴 기반 관계 유사도 측정 장치의 구성을 개략적으로 나타낸 도면.
도 2는 도 1에 도시된 제1 구문 트리 생성부의 구성을 상세히 나타낸 도면.
도 3은 본 발명의 실시예에 따른 유사도 측정 장치가 패턴 기반 관계 유사도를 측정하는 방법을 나타낸 도면.
도 4는 본 발명의 실시예에 따른 구문트리의 예시도.
본 발명의 전술한 목적과 기술적 구성 및 그에 따른 작용 효과에 관한 자세한 사항은 본 발명의 명세서에 첨부된 도면에 의거한 이하 상세한 설명에 의해 보다 명확하게 이해될 것이다.
도 1은 본 발명의 실시예에 따른 패턴 기반 관계 유사도 측정 장치의 구성을 개략적으로 나타낸 도면, 도 2는 도 1에 도시된 제1 구문 트리 생성부의 구성을 상세히 나타낸 도면이다.
도 1을 참조하면, 패턴 기반 관계 유사도 측정 장치(100)는 언어 분석부(110), 제1구문트리 생성부(120), 제2 구문 트리 생성부(130), 유사도 측정부(140)를 포함한다.
언어 분석부(110)는 입력된 문장의 구문, 품사정보 및 기저구 정보를 분석한다. 즉, 언어 분석부(110)는 문장 집합이 입력되면, 입력된 문장에 대한 구문을 분석하고 품사 태깅 또는 기저구를 인식한다.
제1 구문 트리 생성부(120)는 언어 분석부(110)에서 분석된 결과를 근거로 문장의 구문의 관계를 추출하고, 추출된 관계를 근거로 제1 구문 트리를 생성한다.
즉, 제1구문 트리 생성부(120)는 두 단백질 사이에 존재하는 상호작용을 표현하는 구문자질 및 어휘 자질에 의해 상호작용의 유무를 분석하는 가지치기에 의해 입력된 문장의 구문의 관계를 추출한다. 이때, 제1 구문 트리 생성부(120)는 미리 표시된 단백질의 문장 내 위치와 주변 구문 정보를 이용하여 가지치기(parse tree pruning)를 수행한다.
이러한 제1 구문 트리 생성부(120)는 구문자질 추출 모듈(122), 어휘 자질 추출 모듈(124), 개체 자질 추출 모듈(126), 제1구문트리 생성 모듈(128)을 포함한다.
구문 자질 추출 모듈(122)은 언어 분석부(110)에서 분석된 구문 분석 결과에서 입력된 문장의 단백질의 위치와 주변 구문 정보를 이용하여 가지치기를 수행한다.
어휘 자질 추출 모듈(124)은 언어 분석부(110)로부터 수신된 문장 구문의 품사 정보 및 기저구 정보와 함께 문장 내에 발생한 단어 집합을 이용하여 일반 자질 벡터를 구성한다. 어휘 자질 추출 모듈(124)는 품사 태거 및 기저구 인식기를 통해 생성되는 품사 정보 및 기저구 정보와 함께 문장 내에 발생한 단어 집합을 이용한 일반 자질 벡터를 구성하는데 사용된다.
개체 자질 추출 모듈(126)은 단백질의 고유한 특성 정보가 제공되면 자질화하여 관계 추출에 적용한다. 개체 자질 추출 모듈(126)은 단백질의 고유한 특성 정보가 제공되면 이를 자질화하여 관계추출에 적용하기 위한 모듈이다.
제1구문 트리 생성 모듈(128)은 개체 자질 추출모듈에서 추출된 관계를 적용하여 제1 구문 트리를 생성한다.
상기와 같이 제1 구문 트리 생성부(120)는 문장에 대한 구문 분석 결과를 입력하여 미리 표시된 단백의 문장 내 위치와 주변 구문 정보를 이용하여 가지치기를 수행하고, 언어분석부(110)를 통해 분석된 품사 정보 및 기저구 정보와 함께 문장 내에서 발생한 단어 집합을 이용한 일반 자질 벡터를 구성한다. 또한, 단백질의 고유한 특성 정보가 제공되는 경우 이를 자질화하여 관계추출에 적용한다.
제2 구문 트리 생성부(130)는 제1구문 트리 생성부(120)에서 생성된 제1 구문 트리를 의존관계 패턴에 기반하여 제2 구문 트리로 재구성한다.
제2 구문 트리 생성부(130)는 제1 구문 트리에 포함된 단어 쌍들이 해당 문장내에서 가지는 관계를 의존관계패턴으로 인식하고, 단어 쌍이 연관관계를 가진 형태인 경우 연관관계를 표현하고, 연관관계를 가진 형태가 아닌 경우 가지치지를 수행한다. 여기서, 의존관계 패턴은 문장내에서 단어간의 관계를 의미하고, 예컨대, A단어와 B단어는 동사와 목적어 관계 등의 형태일 수 있다.
제2 구문 트리 생성부(130)는 제1구문 트리에 포함된 단어 간의 연관관계를 파악하는 기능으로 문장의 의존관계 패턴을 이용하여 단어 쌍이 가지고 있는 관계를 인식하고, 패턴분석 이후에 단어 쌍이 연관관계를 가질 수 있는 형태이면 연관관계를 표현하는 디스크립터(Descriptor:기술어)를 추출한다.
유사도 측정부(140)는 제2 구문 트리 생성부(130)에서 생성된 제2구문 트리의 말단 노드에 존재하는 단어간의 의미 정보와 연관정보를 이용하여 유사도를 구한다. 여기서, 의미 정보는 두 문장을 구성하는 모든 단어들을 교차 비교하면서 동일한 개념을 나타내는 단어쌍의 개수를 계산함으로써 얻어지며, 여기서 상기 개념은 단어에 대한 워드넷(WordNet)에서의 synset 집합 중에서, 주변 문맥 단어들과 가장 일치하는 synset으로 정의되는 의미적 개념일 수 있다.
유사도 측정부(140)는 워드넷 DB와 같은 의미망을 활용하여 획득된 디스크립터의 개념을 추상화하고 이를 의미적으로 클러스터링하는 작업으로 의미 확장을 통해서 다양한 후보 연관관계를 생성한다. 즉, 유사도 측정부(140)는 다양한 의미를 가질 수 있는 디스크립터를 의미망을 활용하여 각각 최상위 레벨의 의미로 추상화시킨 후, 해당 의미를 말단 노드에 존재하는 단어 간의 연관관계로 활용한다. 워드넷DB는 단어를 유의어 집단으로 분류하여 간략하고 일반적인 정의를 제공하고, 이러한 어휘목록 사이의 다양한 의미 관계를 기록함으로써, 사전(단어집)과 시소러스(유의어·반의어 사전)의 배합을 만들어, 보다 직관적으로 사용할 수 있고 자동화된 본문 분석과 인공지능 응용을 뒷받침한다.
유사도 측정부(140)는 용어간 유사도 계산 기법 중, 계산량 및 성능을 고려하여 선택된 기법을 활용하여, 용어들 간의 유사도를 계산한다(S110). 예를 들어, 다이스 계수(Dice coefficient), 자카드 계수(Jaccard coefficient), SimRank, SSR(Social Similarity Rank), WordNet, Google 유사도 등 다양한 기법들이 용어들 간의 유사도의 계산에 이용될 수 있다. SSR, 및 WordNet의 기법에 대하여 간략히 소개하면 다음과 같다. SSR은 두개의 용어가 하나의 객체에 포함되었을 때, 두개의 용어 간에는 유사성이 있다고 보고, 또한 두개의 객체가 공통적으로 하나의 용어를 포함하고 있을 때에도 두개의 객체간에 유사성이 있다고 보는 기법이다. WordNet에 대해 살펴보면, WordNet에서는 14만개 이상의 영어 단어들에 대해 의미적 유사성를 기반으로 산출된 용어 유사도를 제공하고 있다.
도 3은 본 발명의 실시예에 따른 유사도 측정 장치가 패턴 기반 관계 유사도를 측정하는 방법을 나타낸 도면, 4는 본 발명의 실시예에 따른 구문트리의 예시도이다.
도 3을 참조하면, 유사도 측정 장치는 문장집합이 입력되면(S302), 입력된 문장에 대한 구문을 분석하고, 품사 정보 및 기저구 정보를 분석한다(S304).
그런 후, 유사도 측정 장치는 분석된 결과를 근거로 문장의 구문 관계를 추출하고, 추출된 관계를 근거로 제1 구문 트리를 생성한다(S306).
유사도 측정 장치는 제1 구문 트리에 포함된 단어들의 의존관계 패턴에 기반하여 제2 구문 트리로 재구성한다(S308). 즉, 유사도 측정 장치는 제1 구문 트리에 포함된 단어 쌍들이 해당 문장내에서 가지는 관계를 의존관계패턴으로 인식하고, 단어 쌍이 연관관계를 가진 형태인 경우 연관관계를 표현하고, 연관관계를 가진 형태가 아닌 경우 가지치지를 수행하여 제2 구문 트리를 생성한다.
그런 후, 유사도 측정 장치는 제2구문 트리의 말단 노드에 존재하는 단어간의 의미 정보와 연관정보를 이용하여 유사도를 측정한다(S310). 이때, 유사도 측정 장치는 워드넷DB와 같은 외부 자원을 이용하여 말단 노드에 존재하는 단어간의 의미 정보를 확인할 수 있다.
유사도 측정 장치가 생성하는 구문 트리에 대해 도 4를 참조하면, (a)는 제1 구문 트리일 수 있다. 제1 구문 트리를 살펴보면, 두 단어 사이에 불필요한 구문 구조 정보가 존재함을 알 수 있다. 유사도 측정 장치는 이러한 불필요한 구문 구조 정보를 그래도 사용하지 않고, (b)와 같이 핵심 뼈대만이 남아 있는 제2 구문 트리로 재구성할 수 있다. 핵심으로 구성된 구문 구조 트리를 비교함으로써, 유사도 정보를 보다 정확하게 측정할 수 있다.
한편, 본 발명의 다른 측면에 따르면, 유사도 측정 장치에 의해 실행될 때, 입력된 문장의 구문, 품사정보 및 기저구 정보를 분석하는 단계, 상기 분석된 결과를 근거로 상기 문장의 구문 관계를 추출하고, 상기 추출된 관계를 근거로 제1 구문 트리를 생성하는 단계, 상기 생성된 제1 구문 트리를 의존관계 패턴에 기반하여 제2 구문 트리로 재구성하는 단계, 상기 재구성된 제2구문 트리의 말단 노드에 존재하는 단어간의 의미 정보와 연관정보를 이용하여 유사도를 구하는 단계를 포함하는 패턴 기반 관계 유사도 측정 방법이 프로그램으로 기록된 전자장치에서 판독 가능한 기록매체가 제공된다.
이와 같이, 본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100 : 유사도 측정 장치 110 : 언어 분석부
120 : 제1 구문 트리 생성부 130 : 제2 구문 트리 생성부
140 : 유사도 측정부

Claims (8)

  1. 입력된 문장의 구문, 품사정보를 분석하는 언어 분석부;
    상기 언어 분석부에서 분석된 결과를 근거로 상기 문장의 구문 관계를 추출하고, 상기 추출된 관계를 근거로 제1 구문 트리를 생성하는 제1구문 트리 생성부;
    상기 제1구문 트리 생성부에서 생성된 제1 구문 트리를 의존관계 패턴에 기반하여 제2 구문 트리로 재구성하는 제2구문 트리 생성부;
    상기 제2 구문 트리 생성부에서 생성된 제2구문 트리의 말단 노드에 존재하는 단어간의 의미 정보와 연관정보를 이용하여 유사도를 구하는 유사도 측정부;
    를 포함하는 패턴 기반 관계 유사도 측정 장치.
  2. 제1항에 있어서,
    상기 제1구문 트리 생성부는 두 단백질 사이에 존재하는 상호작용을 표현하는 구문자질 및 어휘 자질에 의해 상호작용의 유무를 분석하는 가지치기에 의해 상기 입력된 문장의 구문 관계를 추출하는 것을 특징으로 하는 패턴 기반 관계 유사도 측정 장치.
  3. 제1항에 있어서,
    상기 제2 구문 트리 생성부는 상기 제1 구문 트리에 포함된 단어 쌍들이 해당 문장내에서 가지는 관계를 의존관계패턴으로 인식하고, 단어 쌍이 연관관계를 가진 형태인 경우 연관관계를 표현하고, 연관관계를 가진 형태가 아닌 경우 가지치지를 수행하여 제2 구문 트리를 재구성하는 것을 특징으로 하는 패턴 기반 관계 유사도 측정 장치.


  4. 삭제
  5. 유사도 측정 장치가 패턴 기반 관계 유사도를 측정하는 방법에 있어서,
    입력된 문장의 구문, 품사정보를 분석하는 단계;
    상기 분석된 결과를 근거로 상기 문장의 구문 관계를 추출하고, 상기 추출된 관계를 근거로 제1 구문 트리를 생성하는 단계;
    상기 생성된 제1 구문 트리를 의존관계 패턴에 기반하여 제2 구문 트리로 재구성하는 단계; 및
    상기 재구성된 제2구문 트리의 말단 노드에 존재하는 단어간의 의미 정보와 연관정보를 이용하여 유사도를 구하는 단계;
    를 포함하는 패턴 기반 관계 유사도 측정 방법.
  6. 제5항에 있어서,
    상기 생성된 제1 구문 트리를 의존관계 패턴에 기반하여 제2 구문 트리로 재구성하는 단계는,
    상기 제1 구문 트리에 포함된 단어 쌍들이 해당 문장내에서 가지는 관계를 의존관계패턴으로 인식하고, 단어 쌍이 연관관계를 가진 형태인 경우 연관관계를 표현하고, 연관관계를 가진 형태가 아닌 경우 가지치지를 수행하여 제2 구문 트리를 재구성하는 것을 특징으로 하는 패턴 기반 관계 유사도 측정 방법.


  7. 삭제
  8. 유사도 측정 장치에 의해 실행될 때,
    입력된 문장의 구문, 품사정보를 분석하는 단계;
    상기 분석된 결과를 근거로 상기 문장의 구문 관계를 추출하고, 상기 추출된 관계를 근거로 제1 구문 트리를 생성하는 단계;
    상기 생성된 제1 구문 트리를 의존관계 패턴에 기반하여 제2 구문 트리로 재구성하는 단계; 및
    상기 재구성된 제2구문 트리의 말단 노드에 존재하는 단어간의 의미 정보와 연관정보를 이용하여 유사도를 구하는 단계를 포함하는 패턴 기반 관계 유사도 측정 방법이 프로그램으로 기록된 전자장치에서 판독 가능한 기록매체.
KR1020130140217A 2013-11-18 2013-11-18 패턴 기반 관계 유사도 측정 장치 및 방법 KR101396131B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130140217A KR101396131B1 (ko) 2013-11-18 2013-11-18 패턴 기반 관계 유사도 측정 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130140217A KR101396131B1 (ko) 2013-11-18 2013-11-18 패턴 기반 관계 유사도 측정 장치 및 방법

Publications (1)

Publication Number Publication Date
KR101396131B1 true KR101396131B1 (ko) 2014-05-19

Family

ID=50894399

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130140217A KR101396131B1 (ko) 2013-11-18 2013-11-18 패턴 기반 관계 유사도 측정 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101396131B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160046572A (ko) * 2014-10-21 2016-04-29 포항공과대학교 산학협력단 데이터베이스의 데이터 확장 방법 및 장치
CN107196290A (zh) * 2017-04-14 2017-09-22 国网福建省电力有限公司泉州供电公司 基于量测平衡指标和设备状态相似度寻优的支路与母线连接关系辨识方法
CN108268441A (zh) * 2017-01-04 2018-07-10 科大讯飞股份有限公司 句子相似度计算方法和装置及系统
KR20190061668A (ko) 2017-11-28 2019-06-05 (주)타이거컴퍼니 지식 네트워크 분석 방법
KR20190138562A (ko) * 2018-06-05 2019-12-13 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 정보를 생성하기 위한 방법 및 장치
CN112232074A (zh) * 2020-11-13 2021-01-15 完美世界控股集团有限公司 实体关系抽取方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101071628B1 (ko) 2009-11-27 2011-10-10 한국과학기술정보연구원 과학기술핵심개체 간 의미적 연관관계 자동 추출을 위한 시맨틱 구문 트리 커널 기반 처리 시스템 및 방법
KR101226163B1 (ko) 2012-07-16 2013-01-24 한국과학기술정보연구원 스키마 매칭 장치 및 방법
KR101241330B1 (ko) 2010-11-17 2013-03-11 한국과학기술정보연구원 술어-논항구조 기반의 관계 식별 방법 및 장치
KR101246101B1 (ko) 2010-08-25 2013-03-20 서강대학교산학협력단 바이오 텍스트 데이터로부터 개체 간의 관계를 도출하는 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101071628B1 (ko) 2009-11-27 2011-10-10 한국과학기술정보연구원 과학기술핵심개체 간 의미적 연관관계 자동 추출을 위한 시맨틱 구문 트리 커널 기반 처리 시스템 및 방법
KR101246101B1 (ko) 2010-08-25 2013-03-20 서강대학교산학협력단 바이오 텍스트 데이터로부터 개체 간의 관계를 도출하는 방법
KR101241330B1 (ko) 2010-11-17 2013-03-11 한국과학기술정보연구원 술어-논항구조 기반의 관계 식별 방법 및 장치
KR101226163B1 (ko) 2012-07-16 2013-01-24 한국과학기술정보연구원 스키마 매칭 장치 및 방법

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160046572A (ko) * 2014-10-21 2016-04-29 포항공과대학교 산학협력단 데이터베이스의 데이터 확장 방법 및 장치
KR101635275B1 (ko) * 2014-10-21 2016-07-08 포항공과대학교 산학협력단 데이터베이스의 데이터 확장 방법 및 장치
CN108268441A (zh) * 2017-01-04 2018-07-10 科大讯飞股份有限公司 句子相似度计算方法和装置及系统
CN108268441B (zh) * 2017-01-04 2021-06-22 科大讯飞股份有限公司 句子相似度计算方法和装置及系统
CN107196290A (zh) * 2017-04-14 2017-09-22 国网福建省电力有限公司泉州供电公司 基于量测平衡指标和设备状态相似度寻优的支路与母线连接关系辨识方法
CN107196290B (zh) * 2017-04-14 2023-04-07 国网福建省电力有限公司泉州供电公司 基于量测平衡指标和设备状态相似度寻优的支路与母线连接关系辨识方法
KR20190061668A (ko) 2017-11-28 2019-06-05 (주)타이거컴퍼니 지식 네트워크 분석 방법
KR20190138562A (ko) * 2018-06-05 2019-12-13 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 정보를 생성하기 위한 방법 및 장치
KR102290767B1 (ko) 2018-06-05 2021-08-17 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 정보를 생성하기 위한 방법 및 장치
CN112232074A (zh) * 2020-11-13 2021-01-15 完美世界控股集团有限公司 实体关系抽取方法、装置、电子设备及存储介质
CN112232074B (zh) * 2020-11-13 2022-01-04 完美世界控股集团有限公司 实体关系抽取方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109344236B (zh) 一种基于多种特征的问题相似度计算方法
KR101396131B1 (ko) 패턴 기반 관계 유사도 측정 장치 및 방법
US9600469B2 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
CN102567306B (zh) 一种不同语言间词汇相似度的获取方法及系统
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
JP2011118689A (ja) 検索方法及びシステム
CN114238571A (zh) 模型的训练方法、知识分类方法、装置、设备、介质
KR101070371B1 (ko) 한국어 어휘의미망을 이용한 어의 중의성 해소 장치 및 방법 그리고 그를 위한 프로그램을 기록한 기록 매체
Hussein A plagiarism detection system for arabic documents
Garrido et al. TM-gen: A topic map generator from text documents
CN113792542A (zh) 一种融合句法分析和语义角色剪枝的意图理解方法
Korobkin et al. Patent data analysis system for information extraction tasks
CN112650836A (zh) 基于句法结构元素语义的文本分析方法、装置及计算终端
KR101644044B1 (ko) 개념 및 관계 의역 시스템 및 방법
CN103793491B (zh) 一种基于柔性语义相似性度量的中文新闻故事分割方法
Mathew et al. Paraphrase identification of Malayalam sentences-an experience
CN112328811A (zh) 一种基于同类型词组的词谱聚类智能生成方法
Qasim et al. Exploiting affinity propagation for automatic acquisition of domain concept in ontology learning
Basili et al. Evaluating the information gain of probability-based PP-disambiguation methods
Thenmozhi et al. An open information extraction for question answering system
Liu et al. Quality measurement of judgment documents
Li Machine Translation Quality Estimation Algorithm Based on Intelligent Fuzzy Decision Tree Algorithm
US11928427B2 (en) Linguistic analysis of seed documents and peer groups
Nemani et al. A Cognitive Study on Semantic Similarity Analysis of Large Corpora: A Transformer-based Approach
Phyue Unknown word detection via syntax analyzer

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170327

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee