KR20190037988A

KR20190037988A - 복합명사 분석장치 및 방법, 컴퓨터 프로그램

Info

Publication number: KR20190037988A
Application number: KR1020170127892A
Authority: KR
Inventors: 김대윤; 김승배; 박혜정
Original assignee: 현대엠엔소프트 주식회사
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2019-04-08
Also published as: KR102395926B1

Abstract

본 발명은 복합명사 분석장치 및 방법, 컴퓨터 프로그램에 관한 것으로서, 복합명사를 입력받는 입력부, 입력부를 통해 입력된 복합명사로부터, 단어로 기능하는 하나 이상의 단위명사를 복합명사에서 해당 단위명사가 출현한 위치에 대한 정보인 위치정보와 함께 추출하는 추출부, 추출부에 의해 추출된 하나 이상의 단위명사를 그 위치정보를 토대로 조합하여 하나 이상의 조합정보를 생성하는 조합부, 및 조합부에 의해 생성된 하나 이상의 조합정보와 복합명사 간의 유사도를 분석하는 분석부를 포함하는 것을 특징으로 한다.

Description

복합명사 분석장치 및 방법, 컴퓨터 프로그램{APPARATUS FOR ANALYZING COMPOUND NOUNS AND METHOD THEREOF, COMPUTER PROGRAM}

본 발명은 복합명사 분석장치 및 방법, 컴퓨터 프로그램에 관한 것으로서, 더욱 상세하게는 단위명사의 조합을 통해 복합명사를 분석하는 복합명사 분석장치 및 방법, 컴퓨터 프로그램에 관한 것이다.

복합명사를 분해하는 방법과 관련하여 많은 연구들이 선행되어 왔다. 특히, 정보의 의미가 중요해짐에 따라 더욱 정확한 정보와 지식을 처리하기 위해 의미를 기반으로 복합명사를 분석하는 방법이 제시되고 있다.

복합명사의 의미 분석 방법에는 주요 자원의 사용에 따라 사전·어휘망을 사용하는 지식기반(knowledge-driven) 방식과, 원시·태깅 말뭉치를 사용하는 데이터 기반(data-driven) 방식이 있다. 그 중, 지식 기반 방식은 개념의 의미적 정의나 관계에 대한 정보를 참조할 수 있으므로 자주 사용되는 명사들이 의미상으로 유사하거나 한 개념의 의미 서술에 특정 개념이 사용되는 등의 특성을 이용하여 유사도를 얻는 방법을 말한다. 정보검색 측면에서 볼 때, 검색대상이 되는 문서는 상당히 정형화되어 있어 의미 기반의 복합명사 분석 방법을 적용하기가 용이하지만, 사용자가 입력한 쿼리 등의 경우에는 문맥 또는 의미적인 연관도를 찾아보기 힘든 경우가 있어 의미 기반의 복합명사 분석 방법을 적용하기 어려운 문제가 있다.

의미 기반의 복합명사 분석 방법 이외에도, 복합명사를 구조적으로 분석하는 방법으로서 최장일치법이 존재하며, 최장일치법은 복합명사의 앞에서부터 소정의 사전과 비교하여 복수 개의 사전용어와 일치할 때 가장 긴 용어를 우선적으로 선택하는 방법을 통해 복합명사를 분해하는 방법을 말한다. 다만, 최장일치법을 통한 복합명사 분해 방법은 최장길이를 갖는 용어를 우선적으로 선택하는 일률적인 방법을 적용함으로 인해 의도하지 않은 분해 결과가 나올 가능성을 배제할 수 없는 문제점이 존재한다.

본 발명의 배경기술은 대한민국 공개특허공보 제10-2000-0039406호(2000. 07. 05. 공개)에 개시되어 있다.

본 발명의 목적은 복합명사를 구조적으로 분해, 분석하는 방법을 통해 문맥 또는 의미 기반의 복합명사 분석 방법을 적용하기 어려운 사용자 입력 쿼리 등의 경우에도 효과적으로 복합명사를 분석하는 복합명사 분석장치 및 방법, 컴퓨터 프로그램을 제공하는 것이다.

본 발명의 일 측면에 따른 복합명사 분석장치는 복합명사를 입력받는 입력부, 상기 입력부를 통해 입력된 복합명사로부터, 단어로 기능하는 하나 이상의 단위명사를 상기 복합명사에서 해당 단위명사가 출현한 위치에 대한 정보인 위치정보와 함께 추출하는 추출부, 상기 추출부에 의해 추출된 하나 이상의 단위명사를 그 위치정보를 토대로 조합하여 하나 이상의 조합정보를 생성하는 조합부, 및 상기 조합부에 의해 생성된 하나 이상의 조합정보와 상기 복합명사 간의 유사도를 분석하는 분석부를 포함하는 것을 특징으로 한다.

본 발명에 있어 상기 추출부는, 상기 복합명사를 2-gram 내지 n-gram으로 각각 분해하고, 상기 분해된 gram 중 단어로 기능하는 하나 이상의 단위명사를 결정하여 그 위치정보와 함께 추출하는 것을 특징으로 한다.

본 발명에 있어 상기 조합부는, 상기 하나 이상의 단위명사를 그 위치정보가 빠른 순으로 링크시켜 생성한 데이터 트리(data tree)로서 상기 하나 이상의 조합정보를 생성하는 것을 특징으로 한다.

본 발명에 있어 상기 조합부는, 기 생성된 조합정보의 데이터 트리에 포함된 서브 데이터 트리(sub data tree)를 공유하여 상기 하나 이상의 조합정보를 생성하는 것을 특징으로 한다.

본 발명에 있어 상기 분석부는, 상기 복합명사와의 유사도에 따라 상기 하나 이상의 조합정보를 각각 스코어링(scoring)하는 것을 특징으로 한다.

본 발명에 있어 상기 분석부는, 해당 조합정보의 미등록어의 개수, 해당 조합정보의 미등록어의 총 음절 수, 해당 조합정보에 포함된 단위명사의 개수, 및 해당 조합정보에 포함된 단위명사의 사용빈도 중 하나 이상에 근거하여 상기 복합명사와의 유사도를 판단하여 상기 하나 이상의 조합정보를 각각 스코어링하되, 상기 미등록어는, 상기 복합명사에 포함된 음절 중 해당 조합정보에서 누락된 음절인 것을 특징으로 한다.

본 발명의 일 측면에 따른 복합명서 분석방법은 입력부가, 복합명사를 입력받는 단계, 추출부가, 상기 입력부를 통해 입력된 복합명사로부터, 단어로 기능하는 하나 이상의 단위명사를 상기 복합명사에서 해당 단위명사가 출현한 위치에 대한 정보인 위치정보와 함께 추출하는 단계, 조합부가, 상기 추출부에 의해 추출된 하나 이상의 단위명사를 그 위치정보를 토대로 조합하여 하나 이상의 조합정보를 생성하는 단계, 및 분석부가, 상기 조합부에 의해 생성된 하나 이상의 조합정보와 상기 복합명사 간의 유사도를 분석하는 단계를 포함하는 것을 특징으로 한다.

본 발명의 일 측면에 따른 컴퓨터 프로그램은 하드웨어와 결합되어, 복합명사를 입력받는 단계, 상기 입력된 복합명사로부터, 단어로 기능하는 하나 이상의 단위명사를 상기 복합명사에서 해당 단위명사가 출현한 위치에 대한 정보인 위치정보와 함께 추출하는 단계, 상기 추출된 하나 이상의 단위명사를 그 위치정보를 토대로 조합하여 하나 이상의 조합정보를 생성하는 단계, 및 상기 생성된 하나 이상의 조합정보와 상기 복합명사 간의 유사도를 분석하는 단계를 실행시키기 위하여 매체에 저장된 것을 특징으로 한다.

본 발명의 일 측면에 따르면, 본 발명은 문맥 또는 의미 기반의 복합명사 분석 방법을 적용하기 어려운 사용자 입력 쿼리 등의 경우에도 효과적으로 복합명사를 분석할 수 있고, 조합정보를 공유하는 방식을 이용하여 복합명사를 분석하는 과정에서의 연산 부하를 저감시키고 메모리를 절감시킬 수 있다.

도 1은 본 발명의 일 실시예에 따른 복합명사 분석장치를 설명하기 위한 블록구성도이다.
도 2 및 도 3은 본 발명의 일 실시예에 따른 복합명사 분석장치에서 조합부가 조합정보를 생성하는 과정을 설명하기 위한 예시도이다.
도 4는 본 발명의 일 실시예에 따른 복합명사 분석방법을 설명하기 위한 흐름도이다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 복합명사 분석장치 및 방법, 컴퓨터 프로그램의 일 실시예를 설명한다. 이 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로, 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 1은 본 발명의 일 실시예에 따른 복합명사 분석장치를 설명하기 위한 블록구성도이고, 도 2 및 도 3은 본 발명의 일 실시예에 따른 복합명사 분석장치에서 조합부가 조합정보를 생성하는 과정을 설명하기 위한 예시도이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 복합명사 분석장치는 입력부(10), 추출부(20), 단위명사 데이터베이스(30), 조합부(40), 분석부(50), 반환부(60) 및 제어부(70)를 포함할 수 있다.

입력부(10)는 사용자로부터 분석대상이 되는 복합명사를 입력받을 수 있다. 입력부(10)는 마우스 또는 키보드와 같은 입력장치를 통해 복합명사를 입력받을 수도 있고, 사용자가 설정 또는 선택할 수 있는 기능키를 디스플레이하는 터치패드 등의 입출력 장치를 통해 복합명사를 입력받을 수도 있다.

추출부(20)는 입력부(10)를 통해 입력된 복합명사로부터, 단어로 기능하는 하나 이상의 단위명사를, 복합명사에서 해당 단위명사가 출현한 위치에 대한 정보인 위치정보와 함께 추출할 수 있다. 이때, 추출부(20)는 복합명사를 2-gram 내지 n-gram으로 각각 분해하고, 분해된 gram 중 단어로 기능하는 하나 이상의 단위명사를 결정하여 그 위치정보와 함께 추출할 수 있다. n은 3 이상의 자연수로서, 설계자의 의도에 따라 다양하게 선택될 수 있으며, 본 실시예에서는 n이 6으로 설정된 예시로서 설명한다.

입력부(10)를 통해 사용자로부터 복합명사 '경주선덕여자중학교'를 입력받은 예시로 하여 추출부(20)의 동작을 구체적으로 설명하면, 추출부(20)는 하기와 같은 방법을 통해 복합명사를 2-gram 내지 6-gram으로 각각 분해하고, 단위명사를 위치정보(start)와 함께 추출할 수 있다.

2-gram(length:2) - 경주(start:0), 주선(start:1), 선덕(start:2), 덕여(start:3), 여자(start:4), 자중(start:5), 중학(start:6), 학교(start:7)

3-gram(length:3) - 경주선(start:0), 주선덕(start:1), 선덕여(start:2), 덕여자(start:3), 여자중(start:4), 자중학(start:5), 중학교(start:6)

4-gram(length:4) - 경주선덕(start:0), 주선덕여(start:1), 선덕여자(start:2), 덕여자중(start:3), 여자중학(start:4), 자중학교(start:5)

5-gram(length:5) - 경주선덕여(start:0), 주선덕여자(start:1), 선덕여자중(start:2), 덕여자중학(start:3), 여자중학교(start:4)

6-gram(length:6) - 경주선덕여자(start:0), 주선덕여자중(start:1), 선덕여자중학(start:2), 덕여자중학교(start:3)

상기와 같이 복합명사가 2-gram 내지 6-gram으로 각각 분해된 경우, 추출부(20)는 분해된 gram 중 단어로 기능하는(즉, 의미를 갖는) 하나 이상의 단위명사를 결정할 수 있다. 추출부(20)는 단어로 기능하는 단위명사들이 저장된 단위명사 데이터베이스(30)를 조회하여 분해된 gram 중 단어로 기능하는 하나 이상의 단위명사를 결정할 수 있다. 그리고, 추출부(20)는 결정된 단위명사를 그 위치정보(즉, 입력부(10)를 통해 입력된 복합명사에서 해당 단위명사가 출현한 위치에 대한 정보, 구체적으로는 해당 단위명사의 첫 음절의 복합명사에서의 위치, 상기 예시에서 표기된 start)와 함께 추출할 수 있다.

조합부(40)는 추출부(20)에 의해 추출된 하나 이상의 단위명사를 그 위치정보를 토대로 조합하여 하나 이상의 조합정보를 생성할 수 있다. 이때, 조합부(40)는 하나 이상의 단위명사를 그 위치정보가 빠른 순(즉, start 값이 낮은 순)으로 링크시켜 생성한 데이터 트리(data tree)로서 하나 이상의 조합정보를 생성할 수 있다.

도 2를 참조하여 구체적으로 설명하면, 조합부(40)는 2-gram으로 분해된 단위명사 중 위치정보가 가장 빠른 '경주(start:0)'를 최상위 부모 노드로 하여 위치정보가 빠른 순으로 단위명사를 링크시켜 데이터 트리를 생성한다. '경주(start:0)'와 링크될 수 있는(즉, '경주(start:0)'보다 위치정보가 늦은) 단위명사 중 위치정보가 가장 빠른 것은 '선덕(start:2)'이므로, 조합부(40)는 '경주(start:0)'와 '선덕(start:2)'을 링크시킨다. '선덕(start:2)'과 링크될 수 있는(즉, '선덕(start:2)'보다 위치정보가 늦은) 단위명사 중 위치정보가 가장 빠른 것은 '여자(start:4)'와 '여자중학교(start:4)'이므로, 조합부(40)는 '선덕(start:2)'과, '여자(start:4)' 및 '여자중학교(start:4)'를 각각 링크시킨다. '여자(start:4)'와 링크될 수 있는(즉, '여자(start:4)'보다 위치정보가 늦은) 단위명사 중 위치정보가 가장 빠른 것은 '중학(start:6)'과 '중학교(start:6)'이므로, 조합부(40)는 '여자(start:4)'와, '중학(start:6)' 및 '중학교(start:6)'를 각각 링크시킨다. 이러한 방식을 통해 조합부(40)는 데이터 트리를 생성할 수 있으며, 데이터 트리에 포함된, 최상위 부모 노드(도 2의 예시에서 '경주(start:0)')로부터 최하위 자식 노드(도 2의 예시에서 '중학(start:6)', '중학교(start:6)', '여자중학교(start:4)')까지의 각 단위명사 링크 조합이 조합정보가 된다. 조합부(40)는 2-gram 내지 6-gram으로 분해된 단위명사 각각을 최상위 부모 노드로 하여 전술한 과정을 반복 수행함으로써 하나 이상의 조합정보를 생성할 수 있다.

전술한 조합정보 생성 방식을 따를 때, 위치정보가 빠른 단위명사의 수가 많을수록 위치정보가 늦은 단위명사를 조합할 때 그 중복 조합의 경우의 수가 증가하는 문제점이 존재한다. 도 2에 도시된 예시로서 설명하면, 제4 조합정보에 포함된 '여자(start:4)'와 '중학(start:6)'의 링크, 제5 조합정보에 포함된 '여자(start:4)'와 '중학교(start:6)'의 링크, 및 제6 조합정보에 포함된 '여자중학교(start:4)'는 각각 제1 내지 제3 조합정보에 포함된 링크 조합과 동일하기 때문에, 중복 조합에 따른 성능 개선 및 메모리 절감을 위해서는 상기와 같은 중복 조합을 제거할 필요성이 존재한다.

이를 위해 본 실시예의 조합부(40)는 기 생성된 조합정보의 데이터 트리에 포함된 서브 데이터 트리(sub data tree)를 공유하여 하나 이상의 조합정보를 생성할 수 있다. 도 2에 도시된 예시에서, 조합부(40)는 '주선(start:1)'과 '여자(start:4)'를 링크시킬 때, '여자(start:4)'를 부모 노드로 하는 서브 데이터 트리(이하 제1 서브 데이터 트리)는 기 생성된 상태이므로, 조합부(40)는 도 3에 도시된 것과 같이 제1 서브 데이터 트리를 참조하기 위한 관계 정보(relation flag)를 '주선(start:1)'에 추가하여 '주선(start:1)'과 제1 서브 데이터 트리를 링크시킴으로써 기 생성된 서브 데이터 트리를 공유하여 제4 및 제5 조합정보를 생성할 수 있다. 또한, '주선(start:1)'과 '여자중학교(start:4)'를 링크시킬 때, '여자중학교(start:4)'를 부모 노드로 하는 서브 데이터 트리(제2 서브 데이터 트리)는 기 생성된 상태이므로, 조합부(40)는 도 3에 도시된 것과 같이 '주선(start:1)'과 제2 서브 데이터 트리를 링크시킴으로써 기 생성된 서브 데이터 트리를 공유하여 제6 조합정보를 생성할 수 있다. 이에 따라, 조합정보 생성 시의 연산 부하를 저감시키고 메모리 공간을 절감할 수 있다.

분석부(50)는 조합부(40)에 의해 생성된 하나 이상의 조합정보와 입력부(10)를 통해 입력된 복합명사 간의 유사도를 분석할 수 있다. 이때, 분석부(50)는 복합명사와의 유사도에 따라, 조합부(40)에 의해 생성된 하나 이상의 조합정보를 각각 스코어링할 수 있다.

분석부(50)가 각 조합정보 및 복합명사 간의 유사도를 판단하는 기준은 해당 조합정보의 미등록어의 개수, 해당 조합정보의 미등록어의 총 음절 수, 해당 조합정보에 포함된 단위명사의 개수, 및 해당 조합정보에 포함된 단위명사의 사용빈도 중 하나 이상이 될 수 있다. 여기서, 미등록어는 복합명사에 포함된 음절 중 해당 조합정보에서 누락된 음절을 의미하고, 단위명사의 사용빈도는 과거의 복합명사 분석 이력 상에서 해당 단위명사가 조합부(40)에 의해 생성된 조합정보에 포함된 빈도를 의미한다. 한편, 단위명사의 사용빈도는 단위명사 데이터베이스(30)에 저장되어 있을 수 있으며, 추출부(20)가 단위명사 데이터베이스(30)를 통해 복합명사로부터 단위명사를 추출할 때 해당 단위명사의 위치정보와 함께 추출될 수 있다.

구체적인 예시로서 설명하면, 제1 조합정보인 '경주'-'선덕'-'여자'-'중학'의 경우, 미등록어는 '교'가 되므로, 미등록어의 개수는 1, 미등록어의 총 음절 수는 1, 단위명사의 개수는 4가 된다. 제4 조합정보인 '주선'-'여자'-'중학'의 경우, 미등록어는 '경', '덕', '교'가 되므로, 미등록어의 개수는 3, 미등록어의 총 음절 수는 3, 단위명사의 개수는 3이 된다.

분석부(50)는 미등록어의 개수가 적을수록, 미등록어의 총 음절 수가 적을수록, 단위명사의 개수가 적을수록, 단위명사의 사용빈도가 높을수록 해당 조합정보에 높은 점수를 부여할 수 있으며, 점수 부여의 구체적 기준은 설계자의 의도에 따라 다양하게 설계되어 분석부(50)에 미리 설정되어 있을 수 있다.

반환부(60)는 분석부(50)에 의해 스코어링된 각 조합정보의 점수에 따라 각 조합정보를 내림차순으로 정렬하여 제어부(70)로 반환할 수 있다.

제어부(70)는 입력부(10), 추출부(20), 조합부(40), 분석부(50) 및 반환부(60)의 동작을 통합적으로 제어하며, 상기 각 구성(10-50) 간의 데이터 입출력을 매개할 수 있다. 다만, 본 실시예는 도 4에 도시된 것과 같이 입력부(10), 추출부(20), 조합부(40) 및 분석부(50) 간의 직접적인 입출력 관계에 있는 구성으로 구현될 수도 있다.

이상에서 설명한 본 실시예의 효과를 다른 예시로서 설명하면, 입력부(10)를 통해 '명지대방아파트'가 입력된 경우, 종래의 복합명사 분해방법인 최장일치법을 적용하면, '명지' 및 '명지대' 중 최장길이인 '명지대'가 우선 선정되고, 그 이후 '방아', '파트' 순으로 분해되어 '명지대'-'방아'-'파트'로 분해되어 의도하지 않은 분해 결과를 얻게 된다. 이를 해결하기 위한 방법으로서, '명지'-'대방'-'아파트'의 분해 결과를 얻기 위해 차순위의 단위명사 조합을 시도할 수 있으나, 주소 등과 같이 많은 단위명사가 띄어쓰기 없이 구성된 복합명사가 입력된 경우, 차순위의 단위명사 조합을 생성하는 과정에서 그 연산 부하가 증가하는 문제점이 발생한다. 또한 복합명사를 역순으로 분해하는 방법(즉, 후방부터 복합명사를 분해하는 방법) 또는 단위명사 간의 상호 출현 빈도를 사용하는 방법을 적용할 수 있으나, 복합명사를 역순으로 분해하는 방법 역시 연산 부하가 증가하는 문제점을 해소할 수 없으며, 상호 출현 빈도를 사용하는 방법은 상호 출현 빈도 데이터가 추가적으로 필요한 문제점이 존재한다. 본 실시예에 따를 때, 연산 부하를 최소화하면서 별도의 추가적인 데이터 없이 복합명사를 효과적으로 분해 및 분석할 수 있다.

도 4는 본 발명의 일 실시예에 따른 복합명사 분석방법을 설명하기 위한 흐름도이다.

도 4를 참조하여 본 발명의 일 실시예에 따른 복합명사 분석방법을 설명하면, 먼저 입력부(10)는 사용자로부터 분석대상이 되는 복합명사를 입력받는다(S10).

이어서, 추출부(20)는 입력부(10)를 통해 입력된 복합명사로부터, 단어로 기능하는 하나 이상의 단위명사를, 복합명사에서 해당 단위명사가 출현한 위치에 대한 정보인 위치정보와 함께 추출한다(S20). S20 단계에서, 추출부(20)는 복합명사를 2-gram 내지 n-gram으로 각각 분해하고, 분해된 gram 중 단어로 기능하는 하나 이상의 단위명사를 결정하여 그 위치정보와 함께 추출할 수 있다.

이어서, 조합부(40)는 추출부(20)에 의해 추출된 하나 이상의 단위명사를 그 위치정보를 토대로 조합하여 하나 이상의 조합정보를 생성한다(S30). S30 단계에서, 조합부(40)는 하나 이상의 단위명사를 그 위치정보가 빠른 순으로 링크시켜 생성한 데이터 트리(data tree)로서 하나 이상의 조합정보를 생성할 수 있으며, 기 생성된 조합정보의 데이터 트리에 포함된 서브 데이터 트리(sub data tree)를 공유하여 하나 이상의 조합정보를 생성할 수 있다. 도 2 및 도 3에 따라 조합정보를 생성하는 과정은 전술한 것이므로 구체적인 설명은 생략한다.

이어서, 분석부(50)는 조합부(40)에 의해 생성된 하나 이상의 조합정보와 복합명사 간의 유사도를 분석한다(S40). S40 단계에서, 분석부(50)는 복합명사와의 유사도에 따라 하나 이상의 조합정보를 각각 스코어링(scoring)할 수 있다. 분석부(50)가 각 조합정보 및 복합명사 간의 유사도를 판단하는 기준은 해당 조합정보의 미등록어의 개수, 해당 조합정보의 미등록어의 총 음절 수, 해당 조합정보에 포함된 단위명사의 개수, 및 해당 조합정보에 포함된 단위명사의 사용빈도 중 하나 이상이 될 수 있다. 여기서, 미등록어는 복합명사에 포함된 음절 중 해당 조합정보에서 누락된 음절을 의미하고, 단위명사의 사용빈도는 과거의 복합명사 분석 이력 상에서 해당 단위명사가 조합부(40)에 의해 생성된 조합정보에 포함된 빈도를 의미한다.

이어서, 반환부(60)는 분석부(50)에 의해 스코어링된 각 조합정보의 점수에 따라 각 조합정보를 내림차순으로 정렬하여 제어부(70)로 반환한다(S50).

한편, 본 실시예에 따른 복합명사 분석방법은 하드웨어와 결합되어 S10 단계 내지 S50 단계를 실행시키기 위한 컴퓨터 프로그램으로 작성될 수 있으며, 컴퓨터로 읽을 수 있는 기록매체에 저장되어 상기 컴퓨터 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 컴퓨터로 읽을 수 있는 기록매체에는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크 및 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(carrier wave)(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다.

이와 같이 본 실시예는 문맥 또는 의미 기반의 복합명사 분석 방법을 적용하기 어려운 사용자 입력 쿼리 등의 경우에도 효과적으로 복합명사를 분석할 수 있고, 조합정보를 공유하는 방식을 이용하여 복합명사를 분석하는 과정에서의 연산 부하를 저감시키고 메모리를 절감시킬 수 있다.

본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나, 이는 예시적인 것에 불과하며 당해 기술이 속하는 기술분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.

10: 입력부
20: 추출부
30: 단위명사 데이터베이스
40: 조합부
50: 분석부
60: 반환부
70: 제어부

Claims

복합명사를 입력받는 입력부;
상기 입력부를 통해 입력된 복합명사로부터, 단어로 기능하는 하나 이상의 단위명사를 상기 복합명사에서 해당 단위명사가 출현한 위치에 대한 정보인 위치정보와 함께 추출하는 추출부;
상기 추출부에 의해 추출된 하나 이상의 단위명사를 그 위치정보를 토대로 조합하여 하나 이상의 조합정보를 생성하는 조합부; 및
상기 조합부에 의해 생성된 하나 이상의 조합정보와 상기 복합명사 간의 유사도를 분석하는 분석부;
를 포함하는 것을 특징으로 하는 복합명사 분석장치.
제1항에 있어서,
상기 추출부는, 상기 복합명사를 2-gram 내지 n-gram으로 각각 분해하고, 상기 분해된 gram 중 단어로 기능하는 하나 이상의 단위명사를 결정하여 그 위치정보와 함께 추출하는 것을 특징으로 하는 복합명사 분석장치.
제1항에 있어서,
상기 조합부는, 상기 하나 이상의 단위명사를 그 위치정보가 빠른 순으로 링크시켜 생성한 데이터 트리(data tree)로서 상기 하나 이상의 조합정보를 생성하는 것을 특징으로 하는 복합명사 분석장치.
제3항에 있어서,
상기 조합부는, 기 생성된 조합정보의 데이터 트리에 포함된 서브 데이터 트리(sub data tree)를 공유하여 상기 하나 이상의 조합정보를 생성하는 것을 특징으로 하는 복합명사 분석장치.
제1항에 있어서,
상기 분석부는, 상기 복합명사와의 유사도에 따라 상기 하나 이상의 조합정보를 각각 스코어링(scoring)하는 것을 특징으로 하는 복합명사 분석장치.
제5항에 있어서,
상기 분석부는, 해당 조합정보의 미등록어의 개수, 해당 조합정보의 미등록어의 총 음절 수, 해당 조합정보에 포함된 단위명사의 개수, 및 해당 조합정보에 포함된 단위명사의 사용빈도 중 하나 이상에 근거하여 상기 복합명사와의 유사도를 판단하여 상기 하나 이상의 조합정보를 각각 스코어링하되, 상기 미등록어는, 상기 복합명사에 포함된 음절 중 해당 조합정보에서 누락된 음절인 것을 특징으로 하는 복합명사 분석장치.
입력부가, 복합명사를 입력받는 단계;
추출부가, 상기 입력부를 통해 입력된 복합명사로부터, 단어로 기능하는 하나 이상의 단위명사를 상기 복합명사에서 해당 단위명사가 출현한 위치에 대한 정보인 위치정보와 함께 추출하는 단계;
조합부가, 상기 추출부에 의해 추출된 하나 이상의 단위명사를 그 위치정보를 토대로 조합하여 하나 이상의 조합정보를 생성하는 단계; 및
분석부가, 상기 조합부에 의해 생성된 하나 이상의 조합정보와 상기 복합명사 간의 유사도를 분석하는 단계;
를 포함하는 것을 특징으로 하는 복합명사 분석방법.
제7항에 있어서,
상기 추출하는 단계에서, 상기 추출부는,
상기 복합명사를 2-gram 내지 n-gram으로 각각 분해하고, 상기 분해된 gram 중 단어로 기능하는 하나 이상의 단위명사를 결정하여 그 위치정보와 함께 추출하는 것을 특징으로 하는 복합명사 분석방법.
제7항에 있어서,
상기 생성하는 단계에서, 상기 조합부는,
상기 하나 이상의 단위명사를 그 위치정보가 빠른 순으로 링크시켜 생성한 데이터 트리(data tree)로서 상기 하나 이상의 조합정보를 생성하는 것을 특징으로 하는 복합명사 분석방법.
제9항에 있어서,
상기 생성하는 단계에서, 상기 조합부는,
기 생성된 조합정보의 데이터 트리에 포함된 서브 데이터 트리(sub data tree)를 공유하여 상기 하나 이상의 조합정보를 생성하는 것을 특징으로 하는 복합명사 분석방법.
제7항에 있어서,
상기 분석하는 단계에서, 상기 분석부는,
상기 복합명사와의 유사도에 따라 상기 하나 이상의 조합정보를 각각 스코어링(scoring)하는 것을 특징으로 하는 복합명사 분석방법.
제11항에 있어서,
상기 분석하는 단계에서, 상기 분석부는,
해당 조합정보의 미등록어의 개수, 해당 조합정보의 미등록어의 총 음절 수, 해당 조합정보에 포함된 단위명사의 개수, 및 해당 조합정보에 포함된 단위명사의 사용빈도 중 하나 이상에 근거하여 상기 복합명사와의 유사도를 판단하여 상기 하나 이상의 조합정보를 각각 스코어링하되, 상기 미등록어는, 상기 복합명사의 음절 중 해당 조합정보에서 누락된 음절인 것을 특징으로 하는 복합명사 분석방법.
하드웨어와 결합되어,
복합명사를 입력받는 단계;
상기 입력된 복합명사로부터, 단어로 기능하는 하나 이상의 단위명사를 상기 복합명사에서 해당 단위명사가 출현한 위치에 대한 정보인 위치정보와 함께 추출하는 단계;
상기 추출된 하나 이상의 단위명사를 그 위치정보를 토대로 조합하여 하나 이상의 조합정보를 생성하는 단계; 및
상기 생성된 하나 이상의 조합정보와 상기 복합명사 간의 유사도를 분석하는 단계;
를 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.