KR20190037988A - 복합명사 분석장치 및 방법, 컴퓨터 프로그램 - Google Patents
복합명사 분석장치 및 방법, 컴퓨터 프로그램 Download PDFInfo
- Publication number
- KR20190037988A KR20190037988A KR1020170127892A KR20170127892A KR20190037988A KR 20190037988 A KR20190037988 A KR 20190037988A KR 1020170127892 A KR1020170127892 A KR 1020170127892A KR 20170127892 A KR20170127892 A KR 20170127892A KR 20190037988 A KR20190037988 A KR 20190037988A
- Authority
- KR
- South Korea
- Prior art keywords
- unit
- noun
- information
- combination information
- compound noun
- Prior art date
Links
Images
Classifications
-
- G06F17/2785—
-
- G06F17/2765—
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Machine Translation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
Abstract
본 발명은 복합명사 분석장치 및 방법, 컴퓨터 프로그램에 관한 것으로서, 복합명사를 입력받는 입력부, 입력부를 통해 입력된 복합명사로부터, 단어로 기능하는 하나 이상의 단위명사를 복합명사에서 해당 단위명사가 출현한 위치에 대한 정보인 위치정보와 함께 추출하는 추출부, 추출부에 의해 추출된 하나 이상의 단위명사를 그 위치정보를 토대로 조합하여 하나 이상의 조합정보를 생성하는 조합부, 및 조합부에 의해 생성된 하나 이상의 조합정보와 복합명사 간의 유사도를 분석하는 분석부를 포함하는 것을 특징으로 한다.
Description
본 발명은 복합명사 분석장치 및 방법, 컴퓨터 프로그램에 관한 것으로서, 더욱 상세하게는 단위명사의 조합을 통해 복합명사를 분석하는 복합명사 분석장치 및 방법, 컴퓨터 프로그램에 관한 것이다.
복합명사를 분해하는 방법과 관련하여 많은 연구들이 선행되어 왔다. 특히, 정보의 의미가 중요해짐에 따라 더욱 정확한 정보와 지식을 처리하기 위해 의미를 기반으로 복합명사를 분석하는 방법이 제시되고 있다.
복합명사의 의미 분석 방법에는 주요 자원의 사용에 따라 사전·어휘망을 사용하는 지식기반(knowledge-driven) 방식과, 원시·태깅 말뭉치를 사용하는 데이터 기반(data-driven) 방식이 있다. 그 중, 지식 기반 방식은 개념의 의미적 정의나 관계에 대한 정보를 참조할 수 있으므로 자주 사용되는 명사들이 의미상으로 유사하거나 한 개념의 의미 서술에 특정 개념이 사용되는 등의 특성을 이용하여 유사도를 얻는 방법을 말한다. 정보검색 측면에서 볼 때, 검색대상이 되는 문서는 상당히 정형화되어 있어 의미 기반의 복합명사 분석 방법을 적용하기가 용이하지만, 사용자가 입력한 쿼리 등의 경우에는 문맥 또는 의미적인 연관도를 찾아보기 힘든 경우가 있어 의미 기반의 복합명사 분석 방법을 적용하기 어려운 문제가 있다.
의미 기반의 복합명사 분석 방법 이외에도, 복합명사를 구조적으로 분석하는 방법으로서 최장일치법이 존재하며, 최장일치법은 복합명사의 앞에서부터 소정의 사전과 비교하여 복수 개의 사전용어와 일치할 때 가장 긴 용어를 우선적으로 선택하는 방법을 통해 복합명사를 분해하는 방법을 말한다. 다만, 최장일치법을 통한 복합명사 분해 방법은 최장길이를 갖는 용어를 우선적으로 선택하는 일률적인 방법을 적용함으로 인해 의도하지 않은 분해 결과가 나올 가능성을 배제할 수 없는 문제점이 존재한다.
본 발명의 배경기술은 대한민국 공개특허공보 제10-2000-0039406호(2000. 07. 05. 공개)에 개시되어 있다.
본 발명의 목적은 복합명사를 구조적으로 분해, 분석하는 방법을 통해 문맥 또는 의미 기반의 복합명사 분석 방법을 적용하기 어려운 사용자 입력 쿼리 등의 경우에도 효과적으로 복합명사를 분석하는 복합명사 분석장치 및 방법, 컴퓨터 프로그램을 제공하는 것이다.
본 발명의 일 측면에 따른 복합명사 분석장치는 복합명사를 입력받는 입력부, 상기 입력부를 통해 입력된 복합명사로부터, 단어로 기능하는 하나 이상의 단위명사를 상기 복합명사에서 해당 단위명사가 출현한 위치에 대한 정보인 위치정보와 함께 추출하는 추출부, 상기 추출부에 의해 추출된 하나 이상의 단위명사를 그 위치정보를 토대로 조합하여 하나 이상의 조합정보를 생성하는 조합부, 및 상기 조합부에 의해 생성된 하나 이상의 조합정보와 상기 복합명사 간의 유사도를 분석하는 분석부를 포함하는 것을 특징으로 한다.
본 발명에 있어 상기 추출부는, 상기 복합명사를 2-gram 내지 n-gram으로 각각 분해하고, 상기 분해된 gram 중 단어로 기능하는 하나 이상의 단위명사를 결정하여 그 위치정보와 함께 추출하는 것을 특징으로 한다.
본 발명에 있어 상기 조합부는, 상기 하나 이상의 단위명사를 그 위치정보가 빠른 순으로 링크시켜 생성한 데이터 트리(data tree)로서 상기 하나 이상의 조합정보를 생성하는 것을 특징으로 한다.
본 발명에 있어 상기 조합부는, 기 생성된 조합정보의 데이터 트리에 포함된 서브 데이터 트리(sub data tree)를 공유하여 상기 하나 이상의 조합정보를 생성하는 것을 특징으로 한다.
본 발명에 있어 상기 분석부는, 상기 복합명사와의 유사도에 따라 상기 하나 이상의 조합정보를 각각 스코어링(scoring)하는 것을 특징으로 한다.
본 발명에 있어 상기 분석부는, 해당 조합정보의 미등록어의 개수, 해당 조합정보의 미등록어의 총 음절 수, 해당 조합정보에 포함된 단위명사의 개수, 및 해당 조합정보에 포함된 단위명사의 사용빈도 중 하나 이상에 근거하여 상기 복합명사와의 유사도를 판단하여 상기 하나 이상의 조합정보를 각각 스코어링하되, 상기 미등록어는, 상기 복합명사에 포함된 음절 중 해당 조합정보에서 누락된 음절인 것을 특징으로 한다.
본 발명의 일 측면에 따른 복합명서 분석방법은 입력부가, 복합명사를 입력받는 단계, 추출부가, 상기 입력부를 통해 입력된 복합명사로부터, 단어로 기능하는 하나 이상의 단위명사를 상기 복합명사에서 해당 단위명사가 출현한 위치에 대한 정보인 위치정보와 함께 추출하는 단계, 조합부가, 상기 추출부에 의해 추출된 하나 이상의 단위명사를 그 위치정보를 토대로 조합하여 하나 이상의 조합정보를 생성하는 단계, 및 분석부가, 상기 조합부에 의해 생성된 하나 이상의 조합정보와 상기 복합명사 간의 유사도를 분석하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 일 측면에 따른 컴퓨터 프로그램은 하드웨어와 결합되어, 복합명사를 입력받는 단계, 상기 입력된 복합명사로부터, 단어로 기능하는 하나 이상의 단위명사를 상기 복합명사에서 해당 단위명사가 출현한 위치에 대한 정보인 위치정보와 함께 추출하는 단계, 상기 추출된 하나 이상의 단위명사를 그 위치정보를 토대로 조합하여 하나 이상의 조합정보를 생성하는 단계, 및 상기 생성된 하나 이상의 조합정보와 상기 복합명사 간의 유사도를 분석하는 단계를 실행시키기 위하여 매체에 저장된 것을 특징으로 한다.
본 발명의 일 측면에 따르면, 본 발명은 문맥 또는 의미 기반의 복합명사 분석 방법을 적용하기 어려운 사용자 입력 쿼리 등의 경우에도 효과적으로 복합명사를 분석할 수 있고, 조합정보를 공유하는 방식을 이용하여 복합명사를 분석하는 과정에서의 연산 부하를 저감시키고 메모리를 절감시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 복합명사 분석장치를 설명하기 위한 블록구성도이다.
도 2 및 도 3은 본 발명의 일 실시예에 따른 복합명사 분석장치에서 조합부가 조합정보를 생성하는 과정을 설명하기 위한 예시도이다.
도 4는 본 발명의 일 실시예에 따른 복합명사 분석방법을 설명하기 위한 흐름도이다.
도 2 및 도 3은 본 발명의 일 실시예에 따른 복합명사 분석장치에서 조합부가 조합정보를 생성하는 과정을 설명하기 위한 예시도이다.
도 4는 본 발명의 일 실시예에 따른 복합명사 분석방법을 설명하기 위한 흐름도이다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 복합명사 분석장치 및 방법, 컴퓨터 프로그램의 일 실시예를 설명한다. 이 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로, 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 복합명사 분석장치를 설명하기 위한 블록구성도이고, 도 2 및 도 3은 본 발명의 일 실시예에 따른 복합명사 분석장치에서 조합부가 조합정보를 생성하는 과정을 설명하기 위한 예시도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 복합명사 분석장치는 입력부(10), 추출부(20), 단위명사 데이터베이스(30), 조합부(40), 분석부(50), 반환부(60) 및 제어부(70)를 포함할 수 있다.
입력부(10)는 사용자로부터 분석대상이 되는 복합명사를 입력받을 수 있다. 입력부(10)는 마우스 또는 키보드와 같은 입력장치를 통해 복합명사를 입력받을 수도 있고, 사용자가 설정 또는 선택할 수 있는 기능키를 디스플레이하는 터치패드 등의 입출력 장치를 통해 복합명사를 입력받을 수도 있다.
추출부(20)는 입력부(10)를 통해 입력된 복합명사로부터, 단어로 기능하는 하나 이상의 단위명사를, 복합명사에서 해당 단위명사가 출현한 위치에 대한 정보인 위치정보와 함께 추출할 수 있다. 이때, 추출부(20)는 복합명사를 2-gram 내지 n-gram으로 각각 분해하고, 분해된 gram 중 단어로 기능하는 하나 이상의 단위명사를 결정하여 그 위치정보와 함께 추출할 수 있다. n은 3 이상의 자연수로서, 설계자의 의도에 따라 다양하게 선택될 수 있으며, 본 실시예에서는 n이 6으로 설정된 예시로서 설명한다.
입력부(10)를 통해 사용자로부터 복합명사 '경주선덕여자중학교'를 입력받은 예시로 하여 추출부(20)의 동작을 구체적으로 설명하면, 추출부(20)는 하기와 같은 방법을 통해 복합명사를 2-gram 내지 6-gram으로 각각 분해하고, 단위명사를 위치정보(start)와 함께 추출할 수 있다.
2-gram(length:2) - 경주(start:0), 주선(start:1), 선덕(start:2), 덕여(start:3), 여자(start:4), 자중(start:5), 중학(start:6), 학교(start:7)
3-gram(length:3) - 경주선(start:0), 주선덕(start:1), 선덕여(start:2), 덕여자(start:3), 여자중(start:4), 자중학(start:5), 중학교(start:6)
4-gram(length:4) - 경주선덕(start:0), 주선덕여(start:1), 선덕여자(start:2), 덕여자중(start:3), 여자중학(start:4), 자중학교(start:5)
5-gram(length:5) - 경주선덕여(start:0), 주선덕여자(start:1), 선덕여자중(start:2), 덕여자중학(start:3), 여자중학교(start:4)
6-gram(length:6) - 경주선덕여자(start:0), 주선덕여자중(start:1), 선덕여자중학(start:2), 덕여자중학교(start:3)
상기와 같이 복합명사가 2-gram 내지 6-gram으로 각각 분해된 경우, 추출부(20)는 분해된 gram 중 단어로 기능하는(즉, 의미를 갖는) 하나 이상의 단위명사를 결정할 수 있다. 추출부(20)는 단어로 기능하는 단위명사들이 저장된 단위명사 데이터베이스(30)를 조회하여 분해된 gram 중 단어로 기능하는 하나 이상의 단위명사를 결정할 수 있다. 그리고, 추출부(20)는 결정된 단위명사를 그 위치정보(즉, 입력부(10)를 통해 입력된 복합명사에서 해당 단위명사가 출현한 위치에 대한 정보, 구체적으로는 해당 단위명사의 첫 음절의 복합명사에서의 위치, 상기 예시에서 표기된 start)와 함께 추출할 수 있다.
조합부(40)는 추출부(20)에 의해 추출된 하나 이상의 단위명사를 그 위치정보를 토대로 조합하여 하나 이상의 조합정보를 생성할 수 있다. 이때, 조합부(40)는 하나 이상의 단위명사를 그 위치정보가 빠른 순(즉, start 값이 낮은 순)으로 링크시켜 생성한 데이터 트리(data tree)로서 하나 이상의 조합정보를 생성할 수 있다.
도 2를 참조하여 구체적으로 설명하면, 조합부(40)는 2-gram으로 분해된 단위명사 중 위치정보가 가장 빠른 '경주(start:0)'를 최상위 부모 노드로 하여 위치정보가 빠른 순으로 단위명사를 링크시켜 데이터 트리를 생성한다. '경주(start:0)'와 링크될 수 있는(즉, '경주(start:0)'보다 위치정보가 늦은) 단위명사 중 위치정보가 가장 빠른 것은 '선덕(start:2)'이므로, 조합부(40)는 '경주(start:0)'와 '선덕(start:2)'을 링크시킨다. '선덕(start:2)'과 링크될 수 있는(즉, '선덕(start:2)'보다 위치정보가 늦은) 단위명사 중 위치정보가 가장 빠른 것은 '여자(start:4)'와 '여자중학교(start:4)'이므로, 조합부(40)는 '선덕(start:2)'과, '여자(start:4)' 및 '여자중학교(start:4)'를 각각 링크시킨다. '여자(start:4)'와 링크될 수 있는(즉, '여자(start:4)'보다 위치정보가 늦은) 단위명사 중 위치정보가 가장 빠른 것은 '중학(start:6)'과 '중학교(start:6)'이므로, 조합부(40)는 '여자(start:4)'와, '중학(start:6)' 및 '중학교(start:6)'를 각각 링크시킨다. 이러한 방식을 통해 조합부(40)는 데이터 트리를 생성할 수 있으며, 데이터 트리에 포함된, 최상위 부모 노드(도 2의 예시에서 '경주(start:0)')로부터 최하위 자식 노드(도 2의 예시에서 '중학(start:6)', '중학교(start:6)', '여자중학교(start:4)')까지의 각 단위명사 링크 조합이 조합정보가 된다. 조합부(40)는 2-gram 내지 6-gram으로 분해된 단위명사 각각을 최상위 부모 노드로 하여 전술한 과정을 반복 수행함으로써 하나 이상의 조합정보를 생성할 수 있다.
전술한 조합정보 생성 방식을 따를 때, 위치정보가 빠른 단위명사의 수가 많을수록 위치정보가 늦은 단위명사를 조합할 때 그 중복 조합의 경우의 수가 증가하는 문제점이 존재한다. 도 2에 도시된 예시로서 설명하면, 제4 조합정보에 포함된 '여자(start:4)'와 '중학(start:6)'의 링크, 제5 조합정보에 포함된 '여자(start:4)'와 '중학교(start:6)'의 링크, 및 제6 조합정보에 포함된 '여자중학교(start:4)'는 각각 제1 내지 제3 조합정보에 포함된 링크 조합과 동일하기 때문에, 중복 조합에 따른 성능 개선 및 메모리 절감을 위해서는 상기와 같은 중복 조합을 제거할 필요성이 존재한다.
이를 위해 본 실시예의 조합부(40)는 기 생성된 조합정보의 데이터 트리에 포함된 서브 데이터 트리(sub data tree)를 공유하여 하나 이상의 조합정보를 생성할 수 있다. 도 2에 도시된 예시에서, 조합부(40)는 '주선(start:1)'과 '여자(start:4)'를 링크시킬 때, '여자(start:4)'를 부모 노드로 하는 서브 데이터 트리(이하 제1 서브 데이터 트리)는 기 생성된 상태이므로, 조합부(40)는 도 3에 도시된 것과 같이 제1 서브 데이터 트리를 참조하기 위한 관계 정보(relation flag)를 '주선(start:1)'에 추가하여 '주선(start:1)'과 제1 서브 데이터 트리를 링크시킴으로써 기 생성된 서브 데이터 트리를 공유하여 제4 및 제5 조합정보를 생성할 수 있다. 또한, '주선(start:1)'과 '여자중학교(start:4)'를 링크시킬 때, '여자중학교(start:4)'를 부모 노드로 하는 서브 데이터 트리(제2 서브 데이터 트리)는 기 생성된 상태이므로, 조합부(40)는 도 3에 도시된 것과 같이 '주선(start:1)'과 제2 서브 데이터 트리를 링크시킴으로써 기 생성된 서브 데이터 트리를 공유하여 제6 조합정보를 생성할 수 있다. 이에 따라, 조합정보 생성 시의 연산 부하를 저감시키고 메모리 공간을 절감할 수 있다.
분석부(50)는 조합부(40)에 의해 생성된 하나 이상의 조합정보와 입력부(10)를 통해 입력된 복합명사 간의 유사도를 분석할 수 있다. 이때, 분석부(50)는 복합명사와의 유사도에 따라, 조합부(40)에 의해 생성된 하나 이상의 조합정보를 각각 스코어링할 수 있다.
분석부(50)가 각 조합정보 및 복합명사 간의 유사도를 판단하는 기준은 해당 조합정보의 미등록어의 개수, 해당 조합정보의 미등록어의 총 음절 수, 해당 조합정보에 포함된 단위명사의 개수, 및 해당 조합정보에 포함된 단위명사의 사용빈도 중 하나 이상이 될 수 있다. 여기서, 미등록어는 복합명사에 포함된 음절 중 해당 조합정보에서 누락된 음절을 의미하고, 단위명사의 사용빈도는 과거의 복합명사 분석 이력 상에서 해당 단위명사가 조합부(40)에 의해 생성된 조합정보에 포함된 빈도를 의미한다. 한편, 단위명사의 사용빈도는 단위명사 데이터베이스(30)에 저장되어 있을 수 있으며, 추출부(20)가 단위명사 데이터베이스(30)를 통해 복합명사로부터 단위명사를 추출할 때 해당 단위명사의 위치정보와 함께 추출될 수 있다.
구체적인 예시로서 설명하면, 제1 조합정보인 '경주'-'선덕'-'여자'-'중학'의 경우, 미등록어는 '교'가 되므로, 미등록어의 개수는 1, 미등록어의 총 음절 수는 1, 단위명사의 개수는 4가 된다. 제4 조합정보인 '주선'-'여자'-'중학'의 경우, 미등록어는 '경', '덕', '교'가 되므로, 미등록어의 개수는 3, 미등록어의 총 음절 수는 3, 단위명사의 개수는 3이 된다.
분석부(50)는 미등록어의 개수가 적을수록, 미등록어의 총 음절 수가 적을수록, 단위명사의 개수가 적을수록, 단위명사의 사용빈도가 높을수록 해당 조합정보에 높은 점수를 부여할 수 있으며, 점수 부여의 구체적 기준은 설계자의 의도에 따라 다양하게 설계되어 분석부(50)에 미리 설정되어 있을 수 있다.
반환부(60)는 분석부(50)에 의해 스코어링된 각 조합정보의 점수에 따라 각 조합정보를 내림차순으로 정렬하여 제어부(70)로 반환할 수 있다.
제어부(70)는 입력부(10), 추출부(20), 조합부(40), 분석부(50) 및 반환부(60)의 동작을 통합적으로 제어하며, 상기 각 구성(10-50) 간의 데이터 입출력을 매개할 수 있다. 다만, 본 실시예는 도 4에 도시된 것과 같이 입력부(10), 추출부(20), 조합부(40) 및 분석부(50) 간의 직접적인 입출력 관계에 있는 구성으로 구현될 수도 있다.
이상에서 설명한 본 실시예의 효과를 다른 예시로서 설명하면, 입력부(10)를 통해 '명지대방아파트'가 입력된 경우, 종래의 복합명사 분해방법인 최장일치법을 적용하면, '명지' 및 '명지대' 중 최장길이인 '명지대'가 우선 선정되고, 그 이후 '방아', '파트' 순으로 분해되어 '명지대'-'방아'-'파트'로 분해되어 의도하지 않은 분해 결과를 얻게 된다. 이를 해결하기 위한 방법으로서, '명지'-'대방'-'아파트'의 분해 결과를 얻기 위해 차순위의 단위명사 조합을 시도할 수 있으나, 주소 등과 같이 많은 단위명사가 띄어쓰기 없이 구성된 복합명사가 입력된 경우, 차순위의 단위명사 조합을 생성하는 과정에서 그 연산 부하가 증가하는 문제점이 발생한다. 또한 복합명사를 역순으로 분해하는 방법(즉, 후방부터 복합명사를 분해하는 방법) 또는 단위명사 간의 상호 출현 빈도를 사용하는 방법을 적용할 수 있으나, 복합명사를 역순으로 분해하는 방법 역시 연산 부하가 증가하는 문제점을 해소할 수 없으며, 상호 출현 빈도를 사용하는 방법은 상호 출현 빈도 데이터가 추가적으로 필요한 문제점이 존재한다. 본 실시예에 따를 때, 연산 부하를 최소화하면서 별도의 추가적인 데이터 없이 복합명사를 효과적으로 분해 및 분석할 수 있다.
도 4는 본 발명의 일 실시예에 따른 복합명사 분석방법을 설명하기 위한 흐름도이다.
도 4를 참조하여 본 발명의 일 실시예에 따른 복합명사 분석방법을 설명하면, 먼저 입력부(10)는 사용자로부터 분석대상이 되는 복합명사를 입력받는다(S10).
이어서, 추출부(20)는 입력부(10)를 통해 입력된 복합명사로부터, 단어로 기능하는 하나 이상의 단위명사를, 복합명사에서 해당 단위명사가 출현한 위치에 대한 정보인 위치정보와 함께 추출한다(S20). S20 단계에서, 추출부(20)는 복합명사를 2-gram 내지 n-gram으로 각각 분해하고, 분해된 gram 중 단어로 기능하는 하나 이상의 단위명사를 결정하여 그 위치정보와 함께 추출할 수 있다.
이어서, 조합부(40)는 추출부(20)에 의해 추출된 하나 이상의 단위명사를 그 위치정보를 토대로 조합하여 하나 이상의 조합정보를 생성한다(S30). S30 단계에서, 조합부(40)는 하나 이상의 단위명사를 그 위치정보가 빠른 순으로 링크시켜 생성한 데이터 트리(data tree)로서 하나 이상의 조합정보를 생성할 수 있으며, 기 생성된 조합정보의 데이터 트리에 포함된 서브 데이터 트리(sub data tree)를 공유하여 하나 이상의 조합정보를 생성할 수 있다. 도 2 및 도 3에 따라 조합정보를 생성하는 과정은 전술한 것이므로 구체적인 설명은 생략한다.
이어서, 분석부(50)는 조합부(40)에 의해 생성된 하나 이상의 조합정보와 복합명사 간의 유사도를 분석한다(S40). S40 단계에서, 분석부(50)는 복합명사와의 유사도에 따라 하나 이상의 조합정보를 각각 스코어링(scoring)할 수 있다. 분석부(50)가 각 조합정보 및 복합명사 간의 유사도를 판단하는 기준은 해당 조합정보의 미등록어의 개수, 해당 조합정보의 미등록어의 총 음절 수, 해당 조합정보에 포함된 단위명사의 개수, 및 해당 조합정보에 포함된 단위명사의 사용빈도 중 하나 이상이 될 수 있다. 여기서, 미등록어는 복합명사에 포함된 음절 중 해당 조합정보에서 누락된 음절을 의미하고, 단위명사의 사용빈도는 과거의 복합명사 분석 이력 상에서 해당 단위명사가 조합부(40)에 의해 생성된 조합정보에 포함된 빈도를 의미한다.
이어서, 반환부(60)는 분석부(50)에 의해 스코어링된 각 조합정보의 점수에 따라 각 조합정보를 내림차순으로 정렬하여 제어부(70)로 반환한다(S50).
한편, 본 실시예에 따른 복합명사 분석방법은 하드웨어와 결합되어 S10 단계 내지 S50 단계를 실행시키기 위한 컴퓨터 프로그램으로 작성될 수 있으며, 컴퓨터로 읽을 수 있는 기록매체에 저장되어 상기 컴퓨터 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 컴퓨터로 읽을 수 있는 기록매체에는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크 및 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(carrier wave)(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다.
이와 같이 본 실시예는 문맥 또는 의미 기반의 복합명사 분석 방법을 적용하기 어려운 사용자 입력 쿼리 등의 경우에도 효과적으로 복합명사를 분석할 수 있고, 조합정보를 공유하는 방식을 이용하여 복합명사를 분석하는 과정에서의 연산 부하를 저감시키고 메모리를 절감시킬 수 있다.
본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나, 이는 예시적인 것에 불과하며 당해 기술이 속하는 기술분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
10: 입력부
20: 추출부
30: 단위명사 데이터베이스
40: 조합부
50: 분석부
60: 반환부
70: 제어부
20: 추출부
30: 단위명사 데이터베이스
40: 조합부
50: 분석부
60: 반환부
70: 제어부
Claims (13)
- 복합명사를 입력받는 입력부;
상기 입력부를 통해 입력된 복합명사로부터, 단어로 기능하는 하나 이상의 단위명사를 상기 복합명사에서 해당 단위명사가 출현한 위치에 대한 정보인 위치정보와 함께 추출하는 추출부;
상기 추출부에 의해 추출된 하나 이상의 단위명사를 그 위치정보를 토대로 조합하여 하나 이상의 조합정보를 생성하는 조합부; 및
상기 조합부에 의해 생성된 하나 이상의 조합정보와 상기 복합명사 간의 유사도를 분석하는 분석부;
를 포함하는 것을 특징으로 하는 복합명사 분석장치.
- 제1항에 있어서,
상기 추출부는, 상기 복합명사를 2-gram 내지 n-gram으로 각각 분해하고, 상기 분해된 gram 중 단어로 기능하는 하나 이상의 단위명사를 결정하여 그 위치정보와 함께 추출하는 것을 특징으로 하는 복합명사 분석장치.
- 제1항에 있어서,
상기 조합부는, 상기 하나 이상의 단위명사를 그 위치정보가 빠른 순으로 링크시켜 생성한 데이터 트리(data tree)로서 상기 하나 이상의 조합정보를 생성하는 것을 특징으로 하는 복합명사 분석장치.
- 제3항에 있어서,
상기 조합부는, 기 생성된 조합정보의 데이터 트리에 포함된 서브 데이터 트리(sub data tree)를 공유하여 상기 하나 이상의 조합정보를 생성하는 것을 특징으로 하는 복합명사 분석장치.
- 제1항에 있어서,
상기 분석부는, 상기 복합명사와의 유사도에 따라 상기 하나 이상의 조합정보를 각각 스코어링(scoring)하는 것을 특징으로 하는 복합명사 분석장치.
- 제5항에 있어서,
상기 분석부는, 해당 조합정보의 미등록어의 개수, 해당 조합정보의 미등록어의 총 음절 수, 해당 조합정보에 포함된 단위명사의 개수, 및 해당 조합정보에 포함된 단위명사의 사용빈도 중 하나 이상에 근거하여 상기 복합명사와의 유사도를 판단하여 상기 하나 이상의 조합정보를 각각 스코어링하되, 상기 미등록어는, 상기 복합명사에 포함된 음절 중 해당 조합정보에서 누락된 음절인 것을 특징으로 하는 복합명사 분석장치.
- 입력부가, 복합명사를 입력받는 단계;
추출부가, 상기 입력부를 통해 입력된 복합명사로부터, 단어로 기능하는 하나 이상의 단위명사를 상기 복합명사에서 해당 단위명사가 출현한 위치에 대한 정보인 위치정보와 함께 추출하는 단계;
조합부가, 상기 추출부에 의해 추출된 하나 이상의 단위명사를 그 위치정보를 토대로 조합하여 하나 이상의 조합정보를 생성하는 단계; 및
분석부가, 상기 조합부에 의해 생성된 하나 이상의 조합정보와 상기 복합명사 간의 유사도를 분석하는 단계;
를 포함하는 것을 특징으로 하는 복합명사 분석방법.
- 제7항에 있어서,
상기 추출하는 단계에서, 상기 추출부는,
상기 복합명사를 2-gram 내지 n-gram으로 각각 분해하고, 상기 분해된 gram 중 단어로 기능하는 하나 이상의 단위명사를 결정하여 그 위치정보와 함께 추출하는 것을 특징으로 하는 복합명사 분석방법.
- 제7항에 있어서,
상기 생성하는 단계에서, 상기 조합부는,
상기 하나 이상의 단위명사를 그 위치정보가 빠른 순으로 링크시켜 생성한 데이터 트리(data tree)로서 상기 하나 이상의 조합정보를 생성하는 것을 특징으로 하는 복합명사 분석방법.
- 제9항에 있어서,
상기 생성하는 단계에서, 상기 조합부는,
기 생성된 조합정보의 데이터 트리에 포함된 서브 데이터 트리(sub data tree)를 공유하여 상기 하나 이상의 조합정보를 생성하는 것을 특징으로 하는 복합명사 분석방법.
- 제7항에 있어서,
상기 분석하는 단계에서, 상기 분석부는,
상기 복합명사와의 유사도에 따라 상기 하나 이상의 조합정보를 각각 스코어링(scoring)하는 것을 특징으로 하는 복합명사 분석방법.
- 제11항에 있어서,
상기 분석하는 단계에서, 상기 분석부는,
해당 조합정보의 미등록어의 개수, 해당 조합정보의 미등록어의 총 음절 수, 해당 조합정보에 포함된 단위명사의 개수, 및 해당 조합정보에 포함된 단위명사의 사용빈도 중 하나 이상에 근거하여 상기 복합명사와의 유사도를 판단하여 상기 하나 이상의 조합정보를 각각 스코어링하되, 상기 미등록어는, 상기 복합명사의 음절 중 해당 조합정보에서 누락된 음절인 것을 특징으로 하는 복합명사 분석방법.
- 하드웨어와 결합되어,
복합명사를 입력받는 단계;
상기 입력된 복합명사로부터, 단어로 기능하는 하나 이상의 단위명사를 상기 복합명사에서 해당 단위명사가 출현한 위치에 대한 정보인 위치정보와 함께 추출하는 단계;
상기 추출된 하나 이상의 단위명사를 그 위치정보를 토대로 조합하여 하나 이상의 조합정보를 생성하는 단계; 및
상기 생성된 하나 이상의 조합정보와 상기 복합명사 간의 유사도를 분석하는 단계;
를 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170127892A KR102395926B1 (ko) | 2017-09-29 | 2017-09-29 | 복합명사 분석장치 및 방법, 컴퓨터 프로그램 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170127892A KR102395926B1 (ko) | 2017-09-29 | 2017-09-29 | 복합명사 분석장치 및 방법, 컴퓨터 프로그램 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190037988A true KR20190037988A (ko) | 2019-04-08 |
KR102395926B1 KR102395926B1 (ko) | 2022-05-10 |
Family
ID=66164718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170127892A KR102395926B1 (ko) | 2017-09-29 | 2017-09-29 | 복합명사 분석장치 및 방법, 컴퓨터 프로그램 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102395926B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230059401A (ko) | 2021-10-26 | 2023-05-03 | 삼성에스디에스 주식회사 | 복합 명사 사전 구성 방법 및 그에 기반한 복합 명사 추출 방법 |
KR20230110967A (ko) | 2022-01-17 | 2023-07-25 | 삼육대학교산학협력단 | 소셜 빅데이터의 키워드 분석 정확도를 높이기 위한 복합 명사 추출방법 및 동 방법을 컴퓨터에서 실행하기 위한 컴퓨터 프로그램이 기록된, 컴퓨터 판독 가능한 기록 매체 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050066019A (ko) * | 2003-12-26 | 2005-06-30 | 한국전자통신연구원 | 기계번역 대역어 선정을 위한 한국어 복합명사 의미결정장치 및 방법 |
KR20100072731A (ko) * | 2008-12-22 | 2010-07-01 | 한국전자통신연구원 | 네비게이션 기기에서 음성인식 대상 키워드의 생성장치 및 방법 |
KR20130029696A (ko) * | 2011-09-15 | 2013-03-25 | 울산대학교 산학협력단 | 복합명사 분석장치 및 복합명사 분석 방법 |
KR20150010145A (ko) * | 2013-07-18 | 2015-01-28 | 에스케이텔레콤 주식회사 | 구문 분석 장치 및 이를 위한 기록매체 |
-
2017
- 2017-09-29 KR KR1020170127892A patent/KR102395926B1/ko active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050066019A (ko) * | 2003-12-26 | 2005-06-30 | 한국전자통신연구원 | 기계번역 대역어 선정을 위한 한국어 복합명사 의미결정장치 및 방법 |
KR20100072731A (ko) * | 2008-12-22 | 2010-07-01 | 한국전자통신연구원 | 네비게이션 기기에서 음성인식 대상 키워드의 생성장치 및 방법 |
KR20130029696A (ko) * | 2011-09-15 | 2013-03-25 | 울산대학교 산학협력단 | 복합명사 분석장치 및 복합명사 분석 방법 |
KR20150010145A (ko) * | 2013-07-18 | 2015-01-28 | 에스케이텔레콤 주식회사 | 구문 분석 장치 및 이를 위한 기록매체 |
Non-Patent Citations (1)
Title |
---|
Won-seok et al., an integrated indexing technique using compound noun segmentation and noun phrase synthesis, Journal of Information Science and Technology, Software Application 27, 2000.1, pp 84-95. chapter 1.* * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230059401A (ko) | 2021-10-26 | 2023-05-03 | 삼성에스디에스 주식회사 | 복합 명사 사전 구성 방법 및 그에 기반한 복합 명사 추출 방법 |
KR20230110967A (ko) | 2022-01-17 | 2023-07-25 | 삼육대학교산학협력단 | 소셜 빅데이터의 키워드 분석 정확도를 높이기 위한 복합 명사 추출방법 및 동 방법을 컴퓨터에서 실행하기 위한 컴퓨터 프로그램이 기록된, 컴퓨터 판독 가능한 기록 매체 |
KR102691165B1 (ko) | 2022-01-17 | 2024-08-05 | 삼육대학교산학협력단 | 소셜 빅데이터의 키워드 분석 정확도를 높이기 위한 복합 명사 추출방법 |
Also Published As
Publication number | Publication date |
---|---|
KR102395926B1 (ko) | 2022-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3009215B2 (ja) | 自然語処理方法および自然語処理システム | |
JP4706227B2 (ja) | ハイブリッドテキスト要約を決定する方法、システム、及び、制御プログラム、談話構文解析方法、システム、及び、該システムにおける方法、談話構成要素にテキストを分割する方法及びシステム、談話の構造表現を決定する方法及びシステム、ハイブリッドテキスト要約システム | |
KR101726667B1 (ko) | 어법컴파일방법, 어의해석방법, 디바이스, 컴퓨터 저장매체 및 장치 | |
US20090024385A1 (en) | Semantic parser | |
JP2005122743A5 (ko) | ||
JP3345763B2 (ja) | 自然言語翻訳装置 | |
Graliński et al. | PSI-toolkit: A natural language processing pipeline | |
KR20190037988A (ko) | 복합명사 분석장치 및 방법, 컴퓨터 프로그램 | |
JP4378106B2 (ja) | 文書検索装置、文書検索方法及びプログラム | |
Labidi | New combined method to improve Arabic POS tagging | |
Menon et al. | A new evolutionary parsing algorithm for ltag | |
Sevilla et al. | Enriched semantic graphs for extractive text summarization | |
JP6665029B2 (ja) | 言語解析装置、言語解析方法、及びプログラム | |
JP6145011B2 (ja) | 文正規化システム、文正規化方法及び文正規化プログラム | |
KR102661819B1 (ko) | 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법 | |
Dissanayake et al. | Enhancing conversational ai model performance and explainability for sinhala-english bilingual speakers | |
JP3937909B2 (ja) | プログラム、文処理装置及び文処理方法 | |
JP4039205B2 (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
JP6573839B2 (ja) | 文生成装置、方法、及びプログラム | |
Yli-Jyrä | Simplification of intermediate results during intersection of multiple weighted automata | |
JP3414319B2 (ja) | データ検索装置、方法及び記録媒体 | |
JP2005092615A (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
JP3827191B2 (ja) | 係り受け関係解析装置 | |
JP2005135039A (ja) | 機械翻訳装置及び機械翻訳プログラム | |
JP4889964B2 (ja) | 規則文章作成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |