KR20100020805A

KR20100020805A - 모바일 시스템의 개체명 추출 방법 및 그 장치

Info

Publication number: KR20100020805A
Application number: KR1020080079569A
Authority: KR
Inventors: 오준섭; 박영희; 김광춘; 서정연; 선충녕
Original assignee: 삼성전자주식회사; 서강대학교산학협력단
Priority date: 2008-08-13
Filing date: 2008-08-13
Publication date: 2010-02-23

Abstract

본 발명은 사용자로부터 입력되는 입력문을 음절 단위의 부분 개체명 부착 말뭉치로 변형하여 자질 추출하여 판단하고, 나이브 베이즈 분류기로 상기 부분 개체명을 분리하기 위한 확률 값을 계산하고, 상기 나이브 베이즈(Naive Bayesian) 분류기를 통해 분류되는 상기 부분 분류간 전이 확률 값을 계산하는 학습부와, 상기 입력문의 자질을 추출하고, 개체명의 각 위치별 확률 값을 계산하고, 상기 위치별 확률 값과, 상기 부분 분류간 전이 확률 값을 비터비(viterbi) 알고리즘에 반영하여 최적의 부분 분류를 검색하여 개체명을 제공하는 적용부를 포함하는 개체명 추출 장치를 개시함에 의해 모바일 환경에서 오류에 강하고 구조적으로 간단한 나이브 베이즈 방법을 이용하여 모바일 환경에서 언어학적 가공없는 문장에 대해 개체명을 인식할 수 있도록 하는 것이다.

Description

모바일 시스템의 개체명 추출 방법 및 그 장치{APPARATUS AND METHOD OF NAMED ENTITY RECOGNITION IN MOBILE SYSTEM}

본 발명은 모바일 시스템의 개체명 추출 방법 및 그 장치에 대한 것으로, 더욱 상세하게는,

모바일 환경에서 오류에 강하고 구조적으로 간단한 나이브 베이즈 방법을 이용하여 모바일 환경에서 언어학적 가공없는 문장에 대해 개체명을 인식할 수 있으며, 나이브 베이즈 분류 기법에서 확률 값의 크기 비교를 단순하게 각 대상 항목마다 하는 것이 아닌 순서열을 고려하여 반영함으로써 매 위치에서의 분류 기법을 사용할 때의 단점을 전이 확률을 이용하여 보정할 수 있으며, 비터비 알고리즘을 반영하여 최적으로 선택된 부분 분류의 열에 의해 각각의 개체명이 선택된 이후에 입력문내에서 요구하는 최적의 대상을 결정하기 위해 휴리스틱을 이용하여 적합성 판단을 함으로써 선택된 개체명의 적절성의 순서를 보장할 수 있는 모바일 시스템의 개체명 추출 방법 및 그 장치에 대한 것이다.

오늘날 네트워크 및 전자 기술의 발전으로 다양한 시스템 환경이 구축되고 있으며, 특히 이동성을 보장하는 모바일 시스템(예를 들어, 이동 통신 시스템)에 대한 가입자들의 관심이 증가하고 있다.

이러한, 모바일 시스템은 언제, 어디서든 고속으로 네트워크, 즉, 인터넷을 자유롭게 사용할 수 있다는 측면에서 수요가 빠르게 증가하고 있다.

그러나, 모바일 시스템에서 모바일 기기(예를 들어, 핸드폰, PDA 등)는 소형으로 구현되기 때문에 메모리 및 프로세서가 필연적으로 한정되기 때문에 가입자가 입력하는 입력문에서 대상 항목을 추출하는 성능이 다른 네트워크 시스템의 단말보다 떨어질 수밖에 없는 단점을 가진다.

즉, 모바일 기기는 가입자가 입력하는 입력문에서 대상 항목을 추출/인식하는 기능이 네트워크 단말(예를 들어, 컴퓨터)보다 떨어질 수 밖에 없다.

일반적으로 개체명, 즉 입력문에서 대상 항목을 추출하는 방법은 크게 두 가지로 분류된다.

1) 규칙에 기반한 방법

규칙을 기반한 방법은 개체명 인식을 위해 규칙들을 수작업으로 구축한 다음에 규칙들을 이용하여 새로운 문서에 대한 개체명을 인식하는 방식이며, 명확하게 정의된 고유 명사 사전이나 접사 사전, 결합 단어 사전 등을 이용한다.

이러한 규칙을 기반한 방법은 학습 코퍼스(corpus)를 구축하고, 이를 통해 자동으로 패턴을 구축하거나, 수동과 자동을 병행한 방법 등을 이용해 패턴을 이용하며, 격틀이나 구문 분석 등의 각종 언어 정보 및 분석 도구를 이용할 수도 있다.

규칙을 기반한 방법은 접근 방식에서 높은 정확률을 보이고 있으나, 패턴이 정형화되지 않은 영역에 적합하지 못하며, 사전 등의 언어 자원의 규모가 크고, 유 지 보수가 어렵다는 단점을 가진다.

2) 확률에 기반한 방법

확률을 기반한 방법은 학습 코퍼스에서 개체명 인식에 필요한 지식을 학습하는 방식이다.

이러한 학습에는 은닉 마르코프 모델(Hidden Markov Model)이나 SVM(Support Vector Machine), CRFs(Conditional Random Fields) 등과 같은 다양한 기계 학습 방법 들이 이용할 수있으며, 문자의 형태나, 철자 정보, 품사, 어휘 정보 등과 같이 비교적 분석하기 쉬운 항목을 이용한다.

그러나, 확률에 기반한 방법은 어휘 자체로부터 문자형과 같은 특징을 획득하기 어려운 한국어에서는 음절 수준이 아닌 어휘 수준의 정보에 의존함에 의해 다양한 사전 등의 지식 자원이 필요하다.

이러한, 일반적인 개체명을 추출하는 방식은 서버 환경에서의 작업을 전제하고 있으므로, 높은 성능을 위한 자원, 즉, 메모리 또는 프로세서의 성능을 고려하기 않고 있으며, 비문과 인위적 변형이 높은 영역으로 정형화된 패턴으로 인식하는데 한계를 가진다.

따라서, 모바일 시스템의 모바일 기기 환경에서 기본의 어취 중심의 개체명을 인식하는데 필요한 높은 자원 요구를 만족시키기 어려우므로, 상대적으로 자원이 제한적인 모바일 환경에서 입력되는 입력문에 대한 사전 분석적 접근을 제외하고, 직접 개체명을 추출하는 방식이 필요하다.

본 발명은 상술한 필요성을 충족시키기 위해 제안되는 것으로, 최근 활용도가 높아진 모바일 기기에서 한국어로 입력되는 입력문에서 직접 개체명을 추출할 수 있는 모바일 시스템의 개체명 추출 방법 및 그 장치를 제공하는 데 그 목적이 있다.

그리고, 본 발명은 메모리 또는 프로세서의 자원이 제한되는 상황에서 형태소 분석과 같은 언어적 분석을 위한 다양한 사전 작업 없이 직접 입력문에서 대상 항목(개체명)을 추출할 수 있는 모바일 시스템의 개체명 추출 방법 및 그 장치를 제공하는 데 그 목적이 있다.

본 발명의 일 측면에 따른 개체명 추출 장치는, 사용자로부터 입력되는 입력문을 음절 단위의 부분 개체명 부착 말뭉치로 변형하여 자질 추출하여 판단하고, 나이브 베이즈 분류기로 상기 부분 개체명을 분리하기 위한 확률 값을 계산하고, 상기 나이브 베이즈(Naive Bayesian) 분류기를 통해 분류되는 상기 부분 분류간 전이 확률 값을 계산하는 학습부와, 상기 입력문의 자질을 추출하고, 개체명의 각 위치별 확률 값을 계산하고, 상기 위치별 확률 값과, 상기 부분 분류간 전이 확률 값을 비터비(viterbi) 알고리즘에 반영하여 최적의 부분 분류를 검색하여 개체명을 제공하는 적용부를 포함한다.

학습부는, IOB 태깅 방법의 변형 중 하나를 이용하여 하나의 태그를 적어도 한 종류의 위치로 태깅하여 음절 단위의 부분 개체명 부착 말뭉치로 변형하고, 상기 태그를 시작, 중간, 끝 또는 단일 중 하나 이상의 종류로 나누어 태깅한다.

상기 학습부는, 평가 대상이 되는 상기 음성 부분 개체명 부착 말뭉치의 대상 음절 자체의 유니그램(unigram)과, 해당 음절의 좌/우측에 나타나는 단서의 유니그램, 바이그램(bigram)을 사용하여 자질을 판단하고, 시작점이 같은 정보를 동시에 얻어올 수 있는 트리(TRIE) 사전을 이용하여, 좌, 우 두 번의 검색만으로 자질 판단한다.

상기 학습부는, 상기 부분 분류의 시작 또는 끝 중 하나 이상의 분류를 추가하여 분류간 전이 확률 값을 계산하고, 분류간 전이 확률 값이 0이 되지 않도록 불완전한 말뭉치에 최소 값을 할당하며, 상기 확률 값을 로그(log) 처리한다.

상기 적용부는, 상기 입력문의 각 위치별 부분 분류 확률 값을 관측 확률로 사용하고, 상기 학습부에서 계산된 전이 확률 값을 비스터 알고리즘에 적용하여 최적의 부분 분류를 검색한다.

상기 적용부는, 상기 비스터 알고리즘에 의해 결정된 최적의 부분 분류가 다수개인 경우, 순위화하여 순위가 높은 부분 분류를 제공하고, 입력문에서 부분 분류가 발생한 위치(OccurPosition), 부분 분류의 길이(OccurLength) 또는 해당 부분 분류의 완결성(OccurComplete) 중 적어도 하나 이상을 기반으로 순위화한다.

본 발명의 다른 측면에 따른 개체명 추출 장치는, 사용자로부터 입력되는 입력문을 음절 단위의 부분 개체명 부착 말뭉치로 변형하는 말뭉치 변형부와, 상기 변형된 부분 개체명 부착 말뭉치를 자질에 따라 분리하는 자질 추출부와, 상기 분 리된 부분 개체명 부착 말뭉치를 나이브 베이즈 분류기로 분류하기 위한 확률 값을 계산하는 나비브 베이즈 확률 계산부와, 상기 나이브 베이즈 분류기를 통해 분리된 부분 분류간 전이 확률 값을 계산하는 전이 확률 계산부와, 상기 확률 값을 로그 처리하여, 상기 확률 값의 연산 부하를 감소시키는 통계치 처리부와, 상기 입력문의 자질을 추출하고, 추출된 각 자질에 대해 각 클래스별 확률 값을 계산하는 자질 추출/클래스별 나이브 베이즈 확률 계산부와, 상기 확률 값과 상기 전이 확률 값을 비터비 알고리즘에 적용하여 최적의 부분 분류를 검색하는 비터비 알고리즘 적용부와, 상기 비터비 알고리즘 적용부에서 검색되는 다수개 결과를 순위화하여, 가장 적절한 하나의 부분 분류를 선택하여 개체명을 제공하는 휴리스틱 결과 순위부를 포함한다.

상기 말뭉치 변형부는, IOB 태깅 방법의 변형 중 하나를 이용하여 하나의 태그를 시작, 중간, 끝 또는 단일 중 하나 이상의 종류별 위치로 나누어 태킹하여 변형한다.

상기 자질 추출부는, 자질 추출부는 평가 대상의 음절 자체의 유니그램(unigram)과, 해당 음절의 좌/우측에 나타나는 단서의 유니그램 또는 바이그램(bigram) 중 하나 이상의 자질로 가능성을 판단하며, 현재 대상이 되는 음절과, 좌측 음절과 우측 음절의 유니그램과, 좌측 음절과 우측 음절의 바이그램 중 하나 이상의 검색을 수행한다.

상기 자질 추출부는, 하기 수학식에 따라 위치당 검색 횟수가 결정된다.

'freqSearch'는 위치당 검색 횟수이고, 'classSearchCount'는 검색 횟수이고, 'ofClasses'는 종류별 위치이다.

상기 나이브 베이즈 확률 계산부는, 하기 수학식에 따라 확률 값을 계산한다.

상기 전이 확률 계산부는, 하기 수학식에 따라 부분 분류간 전이 확률 값을 계산한다.

상기 통계치 처리부는, 하기 수학식에 따라 상기 확률 값에 로그 처리한다.

상기 휴리스틱 결과 순위부는, 하기 수학식에 따라 부분 분류를 순서화하여 가장 높은 순서의 부분 분류를 개체명으로 제공한다.

상기 매개 변수는 α=1, β=2, γ=10이고, 'OccurPosition'는 부분 분류가 발생한 위치, 'OccurLength'는 부분 분류의 길이, 'OccurComplete'는 해당 부분 분류의 완결성이다.

본 발명의 또 다른 측면에 따른 개체명 추출 방법은, 사용자로부터 입력되는 입력문을 음절 단위의 부분 개체명 부착 말뭉치로 변형하는 말뭉치 변형 단계와, 상기 변형된 부분 개체명 부착 말뭉치를 자질에 따라 분리하는 자질 추출 단계와, 상기 분리된 부분 개체명 부착 말뭉치를 나이브 베이즈 분류기로 분류하기 위한 확률 값을 계산하는 확률 계산 단계와, 상기 나이브 베이즈 분류기를 통해 분리된 부분 분류간 전이 확률 값을 계산하는 전이 확률 계산 단계와, 상기 입력문의 자질을 추출하고, 추출된 각 자질에 대해 각 클래스별 확률 값을 계산하는 자질 추출/클래스별 확률 계산 단계와, 상기 확률 값과 상기 전이 확률 값을 비터비 알고리즘에 적용하여 최적의 부분 분류를 검색하는 비터비 알고리즘 적용 단계와, 상기 비터비 알고리즘 적용 단계에서 검색되는 다수개의 결과를 순위화하여, 가장 적절한 하나의 부분 분류를 선택하여 개체명을 제공하는 휴리스틱 결과 순위 단계를 포함한다.

상기 개체명 추출 방법은, 상기 확률 값을 로그 처리하여, 상기 확률 값의 연산 부하를 감소시키는 통계치 처리 단계를 더 포함하고, 상기 통계치 처리 단계는, 하기 수학식에 따라 상기 확률 값에 로그 처리한다.

상기 말뭉치 변형 단계는, IOB 태깅 방법의 변형 중 하나를 이용하여 하나의 태그를 시작, 중간, 끝 또는 단일 중 하나 이상의 종류별 위치로 나누어 태킹하여 음절 단위로 변형한다.

상기 자질 추출 단계는, 평가 대상의 음절 자체의 유니그램(unigram)과, 해당 음절의 좌/우측에 나타나는 단서의 유니그램 또는 바이그램(bigram) 중 하나 이상의 자질로 가능성을 판단한다.

상기 자질 추출 단계는, 현재 대상이 되는 음절과, 좌측 음절과 우측 음절의 유니그램과, 좌측 음절과 우측 음절의 바이그램 중 하나 이상의 검색을 수행하며, 상기 검색 과정을 2회 이하로 제한한다.

상기 자질 추출 단계는, 하기 수학식에 따라 위치당 검색 횟수를 결정한다.

상기 확률 계산 단계는, 하기 수학식에 따라 확률 값을 계산한다.

상기 전이 확률 계산 단계는, 하기 수학식에 따라 부분 분류간 전이 확률 값 을 계산한다.

상기 휴리스틱 결과 순위 단계는, 하기 수학식에 따라 부분 분류를 순서화하여 가장 높은 순서의 부분 분류를 개체명으로 제공한다.

상술한 바와 같은 본 발명에 따르면, 오류에 강하고 구조적으로 간단한 나이브 베이즈 방법을 이용하여 모바일 환경에서 언어학적 가공없는 문장에 대해 개체명을 인식할 수 있다.

또한 본 발명에 따르면, 나이브 베이즈 분류 기법에서 확률 값의 크기 비교를 단순하게 각 대상 항목마다 하는 것이 아닌 순서열을 고려하여 반영함으로써 매 위치에서의 분류 기법을 사용할 때의 단점을 전이 확률을 이용하여 보정할 수 있으며, 비터비 알고리즘을 반영하여 최적으로 선택된 부분 분류의 열에 의해 각각의 개체명이 선택된 이후에 입력문내에서 요구하는 최적의 대상을 결정하기 위해 휴리스틱을 이용하여 적합성 판단을 함으로써 선택된 개체명의 적절성의 순서를 보장할 수 있다.

아울러, 본 발명에 따르면, 각종 모바일 기기에서 리소스와 계산 능력상의 문제로 언어처리를 충분히 할 수 없는 환경에서도 개체명이라는 핵심적인 추출 기능을 제공할 수 있으므로 언어처리를 활용한 다양한 응용 프로그램에 적용이 가능하다. 본 발명은 입력을 가공하지 않은 대상으로 하였으나, 자원이 허락하는 한도에서 자질과 특성 집합을 변경하여 사용할 수도 있으므로, 적당한 전처리 언어모듈과 결합하여 보다 높은 성능을 보이는 개체명 추출 시스템을 구축할 수 있다.

이하 본 발명의 바람직한 실시예에 따른 모바일 시스템의 개체명 추출 방법 및 그 장치를 첨부 도면을 참조하여 상세 설명하며, 본 발명의 주된 기술 요지를 흐리거나, 주지된 기술 내용에 대한 상세 설명은 생략한다.

도 1은 본 발명의 바람직한 실시예에 따른 모바일 시스템의 모바일 기기를 설명하기 위한 도면이다.

도 1을 참조하면, 본 발명에 따른 모바일 기기는 사용자 인터페이스부(400)와, 학습부(100) 및 적용부(200)로 구성되는 개체명 추출부(300)를 포함한다.

본 발명의 상세한 설명에서는 모바일 기기가 네트워크를 통해 서버에 접속하는 모바일 인터페이스부(미도시)와, 사용자 인터페이스부(400)를 통해 입력되는 네트워크 주소 정보에 상응하는 서버에 접속하고, 사용자에게 검색 및 메일 서비스 등을 제공하는 중앙 처리부(미도시) 등과 같은 주지된 구성 요소 및 그 구성 요소에 대한 상세 설명을 생략한다.

또한, 본 발명에서는 예를 들어, 개체명 추출부(300)가 모바일 기기에 포함 되는 경우에 대하여 설명하나, 기타 단말에 포함되는 경우도 이와 동일하게 적용 가능하다.

사용자 인터페이스부(400)는 사용자로부터 문자 또는 음성 방식의 입력문을 입력받는 입력 수단(미도시), 사용자에게 영상 또는 문자 정보를 디스플레이하거나, 음성을 출력하는 출력 수단(미도시)를 포함하며, 사용자로부터 문자 또는 음성 방식으로 입력되는 입력문을 개체명 추출부(300)로 제공한다.

즉, 사용자 인터페이스부(400)는 문자 방식으로 입력되거나, 입력되는 음성을 문자 방식으로 변환하여 개체명 추출부(300)로 제공한다.

개체명 추출부(300)는 입력되는 입력문에서 개체명을 추출한다.

도 2는 본 발명의 바란직한 실시예에 따른 개체명 추출부를 설명하기 위한 블록 도면이다.

도 2를 참조하면, 학습부(100)는 말뭉치(corpus) 변형부(110), 자질 추출부(120), 나이브 베이지안(Naive Bayesian) 확률 계산부(130), 전이 확산 계산부, 통계치 변형부(150) 및 확률 데이터 저장부를 포함한다.

말뭉치 변형부(110)는 입력되는 입력문의 단어 단위의 말뭉치를 음절 단위의 부분 개체명 부착 말뭉치로 변형한다.

기존의 개체명 추출 방식에서는 개체명을 단어 단위로 태킹(tacking)하고 있으며, 사용자가 직관적으로 분류를 부착하기 위해서도 단어 단위로 관리되는 것이 바람직하다. 따라서, 말뭉치 변형부(110)는 입력문의 단어 단위의 말뭉치를 음성 단위의 부분 개체명 부착 말뭉치로 변형한다.

도 3은 본 발명에 따른 말뭉치 변형부가 말뭉치를 변형하는 방식을 설명하기 위한 도면으로, 도 3에 도시된 바와 같이, 말뭉치 변형부(110)는 단어 단위로 부착된 개체명 정보를 한글 음절 단위로 나눈다.

그리고, 말뭉치 변형부(110)는 여러 단어에 걸쳐 나타난 정보를 추출하는데 주로 이용되던 IOB 태깅 방법의 변형 중 하나를 이용하여 하나의 태그를 시작, 중간, 끝, 단일과 같이 4가지 종류의 위치로 나누어 태깅한다.

말뭉치 변형부(110)는 이와 같은 자동 변형 단계를 통해 기존 구축된 단어 단위의 말뭉치를 변형하여 적용하여 보다 직관적으로 유지하도록 한다.

자질 추출부(120)는 말뭉치 변형부(110)에서 변형된 음절 부분 개체명 부착 말뭉치를 자질에 맞게 분리한다.

나이브 베이지안 방법론에서는 하나의 평가를 위해 다수의 자질로 그 가능성을 판단하므로, 입력문의 말뭉치를 자질에 맞게 분리하는 작업이 필요하다.

자질 추출부(120)는 평가 대상이 되는 음절 부분 개체명 부착 말뭉치의 대상 음절 자체의 유니그램(unigram)과, 해당 음절의 좌/우측에 나타나는 단서의 유니그램, 바이그램(bigram)을 사용하여 총 5개의 자질로 가능성을 판단한다.

이때, 자질 추출부(120)는 하나의 분류에 대한 확률을 계산하기 위해서는 현재 대상이 되는 음절과, 좌측 음절과 우측 음절의 유니그램과, 좌측 음절과 우측 음절의 바이그램과 같이 5번의 검색이 요구된다.

따라서, 자질 추출부(120)에서 여러번의 검색 횟수는 최종적으로 한 위치에서 필요한 탐색의 횟수는 다음 수학식 1과 같이 산출될 수 있다.

상기 수학식 1에서 'freqSearch'는 위치당 탐색 횟수이고, 'classSearchCount'는 검색 횟수이고, 'ofClasses'는 시작, 중간, 끝, 단일과 같은 위치에 해당한다.

한편, 자질 추출부(120)에서 과도한 사전 탐색으로 인해 개체명 추출부(300)의 성능이 저하될 수 잇으므로, 음절 부분 개체명 부착 말뭉치의 자질을 변형하는 것이 바람직하다.

도 4는 본 발명에 따른 자질 추출부에서 개체명의 자질을 처리하는 방식을 설명하기 위한 도면으로, 도 4에 도시된 바와 같이, 자질 추출부(120)가 분리하는 자질의 집합은 우측으로 현재 대상의 음절을 포함한 유니그램, 바이그램, 트리그램(trigram)을 대상으로 하며, 좌측으로는 바이그램과 트리그램을 포함한다.

자질 추출부(120)가 상기 도 5와 같이, 자질의 집합을 구성하는 것으로, 이와 같이 구성한 이유는 5가지 자질과 같은 구성이나, 시작점이 같은 정보를 동시에 얻어올 수 있는 트리(TRIE) 사전을 이용하여, 좌, 우 두 번의 검색만으로 자질 집합에 대한 검색을 완료할 수 있기 때문이다. 즉, 5회 사전 검색을 2회 이하로 제한하는 것이 바람직하다.

한편, 나이브 베이즈 확률 계산부(130)는 나이브 베이즈 분류기를 분류하기 위해 다양한 확률값을 계산한다.

다음 수학식 2는 분류를 위한 계산을 나타내는 것이다.

상기 수학식 2에서 필요한 확률 값은 상수를 제외하고,

와

이다.

나이브 베이즈 확률 계산부(130)는 상기 수학식 2의

와

값을 말뭉치로부터 다음 수학식 3과 같은 과정을 통해 산출한다.

다음과 같은 계산을 통해 각각에 대한 확률 값을 계산하는 단계이다.

상기 수학식 3에서 마지막 수식은 실제 말뭉치에서 자질이 검색되지 않는 경우이며, 정상적인 산출이 어렵기 때문에 예를 들어, 0.01회 발생했다고 가정하여 미리 계산해두고 이를 이용하여 나이브 베이즈 분류를 수행한다.

전이 확률 계산부(140)는 상술한 나이브 베이즈 분류를 이용하여 개체명 추출을 하는 경우에 각 분류기마다 결과가 서로 유기적으로 연관되지 못하게 되므로, 부분 분류가 태그 전이를 고려한 결과를 제공한다.

도 5는 본 발명에 따른 전이 확률 계산부에서 태그 전이를 고려하는 방식을 설명하기 위한 도면으로, 도 5를 참조하면, 예를 들어, '응급'과 같은 입력문에서 빈번하게 나오는 말에 대해 문맥과 상관없이 최적의 대상으로 선택한다.

그러나, 도 5에서 '응급'의 의미는 장소 이름의 연속이므로, 이러한, 문제점을 보완하기 위해 나이브 베이즈 분류기만을 의존하는 것이 아닌 부분 분류간 태그 전이를 고려한 결과를 제공한다.

그러므로, 전이 확률 계산부(140)는 상기 도 3에서 정의된 부분 분류에 [문장 시작], [문장 끝]의 두 가지의 분류를 추가하여 분류간 전이 확률을 계산한다.

다음 수학식 4는 전이 확률 계산부(140)에서 분류간 전이 확률을 계산하는 수식이다.

한편, 전이 확률 계산부(140)는 분류간 전이가 발생할 확률 값이 0이 되어 연결이 끊기는 경우라 발생할 수 있으므로, 구축된 말뭉치가 불완전한 경우를 대비하여 충분히 작은 값을 할당하여 연결이 끊어지는 경우를 방지한다.

통계치 변형부(150)는 나이브 베이즈 확률 계산부(130)가 상기 수학식 2와 같이 산출한 확률 값은 부동 소수점의 곱으로 이루어 진다, 이러한, 부동 소수점의 곱 값은 프로세싱 환경에서는 지나치게 적은 값으로 산출되므로, 계산이 불가능하기 때문에 다음 수학식 5와 같이 로그(log)를 이용한다.

상기 수학식 5와 같이 로그를 이용하는 방법은 복잡한 부동 소수점 연산으로 인해 모바일 기기에서 연산 지원하는데 과부하가 발생될 소지가 있다. 따라서, 각 확률 값들을 학습부(100)에서 로그를 취해 계산함으로써, 곱셈과 log로 인한 계산 부담을 배제할 수 있도록 한다.

다시 도 2를 참조하면, 적용부(200)는 자질 추출/클래스별 나이브 베이즈 확률 계산부(210)와, 비터비(viterbi) 확률 계산부와, 휴리스틱(heuristic) 결과 순위부(230)를 포함한다.

자질 추출/클래스별 나이브 베이즈 확률 계산부(210)는 사용자로부터 입력되는 입력문의 자질을 추출하고, 추출된 각 자질에 대해 각 클래스별 확률 값을 계산한다.

자질 추출/클래스별 나이브 베이즈 확률 계산부(210)에서 자질의 추출은 학습부(100)의 자질 추출부(120)와 동일하다.

도 6은 본 발명에 따른 자질 추출/나이브 베이즈 확률 계산부가 클래스별 확률을 계산하는 방식을 도시한 것으로, 도 6을 참조하면, 자질 추출/나이브 베이즈 확률 계산부(210)는 입력문의 자질을 추출하고, 각 클래스별, 즉 각 위치별 확률 값을 계산한다.

그리고, 자질 추출/나이브 베이즈 확률 계산부(130)는 계산한 확률 값은 전 이 확률을 계산하기 위해 저장한다.

비터비 알고리즘 적용부(220)(200)는 자질 추출/나이브 베이즈 확률 계산부(130)에서 계산된 각 위치별 부분 분류 확률 값을 관측 확률로 사용하고, 학습부(100)의 전이 확률 계산부(140)에서 계산한 전이 확률 값을 이용하여 최적을 부분 분류의 열을 검색한다.

도 7은 본 발명에 따른 비터비 알고리즘 적용부가 최적의 부분 분류를 검색하는 방식을 설명하기 위한 도면이고, 도 8은 비터비 알고리즘을 도시한 도면이다.

도 7을 참조하면, 비터비 알고리즘 적용부(220)는 입력문을 기반으로 계산한 각 위치별 부분 분류 확률 값과, 전이 확률 계산부(140)에서 계산된 전이 확률 값을 이용하여 도 8에 도시된 것과 같은 비티비 알고리즘에 적용하여 최적의 부분 분류의 열을 검색한다.

휴리스틱 결과 순위부(230)는 연속적으로 나타나는 부분 분류의 집합 중 하나의 부분 분류를 제공한다.

즉, 휴리스틱 결과 순위부(230)는 비터비 알고리즘 적용부(220)(200)에서 최적의 부분 분류의 열은 입력문에 따라 여러개의 결과가 존재할 수 있으므로, 여러개의 결과 중 가장 적절한 하나의 부분 분류를 선택하여 제공한다.

예를 들어, 휴리스틱 결과 순위부(230)는 여러개의 부분 분류의 집합을 순위화하여, 순위가 높은 부분 분류의 열을 제공한다.

휴리스틱 결과 순위부(230)의 순위화는 예를 들어, 3가지 속성에 의해 부여할 수 있다.

1) 입력문에서 개체명이 발생한 위치(OccurPosition), 2) 추출된 개체명의 길이(OccurLength),3) 해당 개체명이 완결성(OccurComplete)을 기반으로 순위화할 수 있다.

개체명의 완결성은 하나의 분류를 구성하는 부분 분류가 전이 조건상에서 완전한가를 나타내는 척도이다.

도 9는 본 발명에 따른 개체명의 완결성을 설명하기 위한 도면으로, 도 9를 참조하면, 전이 조건 상에서 전이 확률이 낮을 수록 완결성이 높게 평가된다.

상술한 순위화의 3가지 속성 요소들은 다음 수학식 6과 같은 수식을 이용하여 통합된 접수로 계산되며, 가장 높은 점수를 가지는 부분 분류가 높은 순위를 가진다.

상기 수학식에서 각 매개 변수는 α=1, β=2, γ=10을 실험적으로 적용할 수 있다.

따라서, 본 발명에 따른 개체명 추출부(300)는 오류에 강하고 구조적으로 간단한 나이브 베이즈 방법을 이용하여 모바일 기기에서 언어학적 가공없는 문장에 대해 개체명을 인식할 수 있다.

그리고, 본 발명에 따른 개체명 추출부(300)는 나이브 베이즈 분류 기법에서 확률 값의 크기 비교를 단순하게 각 대상 항목마다 하는 것이 아닌 순서열을 고려하여 반영함으로써 매 위치에서의 분류 기법을 사용할 때의 단점을 전이 확률을 이 용하여 보정할 수 있다.

또한, 본 발명에 따른 개체명 추출부(300)는 최적으로 선택된 부분 분류의 열에 의해 각각의 개체명이 선택된 이후에 입력문내에서 요구하는 최적의 대상을 결정하기 위해 휴리스틱을 이용하여 적합성 판단을 함으로써 선택된 개체명의 적절성의 순서를 보장할 수 있다.

도 10은 본 발명에 따른 개체명 추출 방법을 설명하기 위한 플로챠트이다.

도 10을 참조하면, 모바일 기기의 개체명 추출부(300)는 사용자로부터 문자 또는 음성 방식의 입력문을 입력받는다(S 100).

개체명 추출부(300)는 사용자로부터 입력되는 입력문의 단어 단위의 말뭉치를 음성 단말의 부분 개체명 부착 말뭉치로 변형한다(S 110).

즉, 개체명 추출부(300)는 입력문의 단어 단위의 말뭉치를 음절 단위의 부분 개체명 부착 말뭉치로 변형한다.

이때, 개체명 추출부(300)는 여러 단어에 걸쳐 나타난 정보를 추출하는데 주로 이용되던 IOB 태깅 방법의 변형 중 하나를 이용하여 하나의 태그를 시작, 중간, 끝, 단일과 같이 4가지 종류의 위치로 나누어 태깅한다.

그리고, 개체명 추출부(300)는 변형된 음절 부분 개체명 부착 말뭉치를 자질에 맞게 분리한다(S 120).

개체명 추출부(300)는 평가 대상이 되는 음성 부분 개체명 부착 말뭉치의 대상 음절 자체의 유니그램(unigram)과, 해당 음절의 좌/우측에 나타나는 단서의 유니그램, 바이그램(bigram)을 사용하여 총 5개의 자질로 가능성을 판단하며, 하나의 분류에 대한 확률을 계산하기 위해서는 현재 대상이 되는 음절과, 좌측 음절과 우측 음절의 유니그램과, 좌측 음절과 우측 음절의 바이그램과 같이 5번의 검색이 요구된다.

개체명 추출부(300)는 분리된 음절 부분 개체명 부착 말뭉치를 나이브 베이즈 분류기를 분류하기 위해 다양한 확률값을 계산한다(S 130).

개체명 추출부(300)는 나이브 베이즈 분류가룰 이용하여 개체명 추출을 하는 경우에 각 분류기마다 결과가 서로 유기적으로 연관되지 못하게 되므로, 부분 분류가 태그 전이를 고려한다(S 140).

이때, 개체명 추출부(300)는 상기 도 3에서 정의된 부분 분류에 [문장 시작], [문장 끝]의 두 가지의 분류를 추가하여 분류간 전이 확률을 계산한다.

개체명 추출부(300)는 나이브 베이즈 분류기를 사용하기 위해 산출된 확률 값이 부동 소수점의 곱으로 이루어지므로, 각 확률 값들을 로그를 취해 계산한다(S 150).

한편, 개체명 추출부(300)는 학습 과정이 완료되면, 입력문의 자질을 추출하고, 클래스별, 즉 위치별 확률 값을 계산한다(S 160).

개체명 추출부(300)는 계산된 각 위치별 부분 분류 확률 값을 관측 확률로 사용하고, 전이 확률 값을 비터비 알고리즘에 적용하여 최적의 부분 분류의 열을 검색한다(S 170).

개체명 추출부(300)는 비터비 알고리즘을 통해 최적의 부분 분류 집합이 여러개 존재하는 경우, 순위화하여 순위가 높은 부분 분류의 열을 제공한다(S 180).

이때, 개체명 추출부(300)는 입력문에서 개체명이 발생한 위치(OccurPosition), 추출된 개체명의 길이(OccurLength), 해당 개체명이 완결성(OccurComplete)을 기반으로 순위화할 수 있다.

이상에서 본 발명은 기재된 구체 예에 대해서만 상세히 설명하였지만 본 발명의 기술 사상 범위 내에서 다양한 변형 및 수정이 가능함은 당업자에게 있어서 명백한 것이며, 이러한 변형 및 수정이 첨부된 특허청구범위에 속함은 당연한 것이다.

도 1은 본 발명의 바람직한 실시예에 따른 모바일 시스템의 모바일 기기를 설명하기 위한 도면.

도 2는 본 발명의 바란직한 실시예에 따른 개체명 추출부를 설명하기 위한 블록 도면.

도 3은 본 발명에 따른 말뭉치 변형부가 말뭉치를 변형하는 방식을 설명하기 위한 도면.

도 4는 본 발명에 따른 자질 추출부에서 개체명의 자질을 처리하는 방식을 설명하기 위한 도면.

도 5는 본 발명에 따른 전이 확률 계산부에서 태그 전이를 고려하는 방식을 설명하기 위한 도면.

도 6은 본 발명에 따른 자질 추출/나이브 베이즈 확률 계산부가 클래스별 확률을 계산하는 방식을 도시한 도면.,

도 7은 본 발명에 따른 비터비 알고리즘 적용부가 최적의 부분 분류를 검색하는 방식을 설명하기 위한 도면.

도 8은 비터비 알고리즘을 도시한 도면.

도 9는 본 발명에 따른 개체명의 완결성을 설명하기 위한 도면.

도 10은 본 발명에 따른 개체명 추출 방법을 설명하기 위한 플로챠트.

<도면의 주요 부분에 대한 부호 설명>

100 : 학습부 110 : 말뭉치 변형부

120 : 자질 추출부 130 : 나이브 베이즈 확률 계산부

140 : 전이 확률 계산부 150 : 통계치 변형부

200 : 적용부

210 : 자질 추출/나이브 베이즈 확률 계산부

220 : 비터비 알고리즘 적용부

230 : 휴리스틱 결과 순위부

300 : 개체명 추출부 400 : 사용자 인터페이스부

Claims

사용자로부터 입력되는 입력문을 음절 단위의 부분 개체명 부착 말뭉치로 변형하여 자질 추출하여 판단하고, 나이브 베이즈 분류기로 상기 부분 개체명을 분리하기 위한 확률 값을 계산하고, 상기 나이브 베이즈(Naive Bayesian) 분류기를 통해 분류되는 상기 부분 분류간 전이 확률 값을 계산하는 학습부와,

상기 입력문의 자질을 추출하고, 개체명의 각 위치별 확률 값을 계산하고, 상기 위치별 확률 값과, 상기 부분 분류간 전이 확률 값을 비터비(viterbi) 알고리즘에 반영하여 최적의 부분 분류를 검색하여 개체명을 제공하는 적용부를 포함하는 개체명 추출 장치.
제1 항에 있어서, 학습부는,

IOB 태깅 방법의 변형 중 하나를 이용하여 하나의 태그를 적어도 한 종류의 위치로 태깅하여 음절 단위의 부분 개체명 부착 말뭉치로 변형하는 것을 특징으로 하는 개체명 추출 장치.
제2 항에 있어서, 상기 학습부는,

상기 태그를 시작, 중간, 끝 또는 단일 중 하나 이상의 종류로 나누어 태깅하는 것을 특징으로 하는 개체명 추출 장치.
제1 항에 있어서, 상기 학습부는,

평가 대상이 되는 상기 음성 부분 개체명 부착 말뭉치의 대상 음절 자체의 유니그램(unigram)과, 해당 음절의 좌/우측에 나타나는 단서의 유니그램, 바이그램(bigram)을 사용하여 자질을 판단하는 것을 특징으로 하는 개체명 추출 장치.
제4 항에 있어서, 상기 학습부는,

시작점이 같은 정보를 동시에 얻어올 수 있는 트리(TRIE) 사전을 이용하여, 좌, 우 두 번의 검색만으로 자질 판단하는 것을 특징으로 하는 개체명 추출 장치.
제1 항에 있어서, 상기 학습부는,

상기 부분 분류의 시작 또는 끝 중 하나 이상의 분류를 추가하여 분류간 전이 확률 값을 계산하는 것을 특징으로 하는 개체명 추출 장치.
제6 항에 있어서, 상기 학습부는,

분류간 전이 확률 값이 0이 되지 않도록 불완전한 말뭉치에 최소 값을 할당하는 것을 특징으로 하는 개체명 추출 장치.
제1 항에 있어서, 상기 학습부는,

상기 확률 값을 로그(log) 처리하는 것을 특징으로 하는 개체명 추출 장치.
제1 항에 있어서, 상기 적용부는,

상기 입력문의 각 위치별 부분 분류 확률 값을 관측 확률로 사용하고, 상기 학습부에서 계산된 전이 확률 값을 비스터 알고리즘에 적용하여 최적의 부분 분류를 검색하는 것을 특징으로 하는 개체명 추출 장치.
제9 항에 있어서, 상기 적용부는,

상기 비스터 알고리즘에 의해 결정된 최적의 부분 분류가 다수개인 경우, 순위화하여 순위가 높은 부분 분류를 제공하는 것을 특징으로 하는 개체명 추출 장치.
제10 항에 있어서, 상기 적용부는,

입력문에서 부분 분류가 발생한 위치(OccurPosition), 부분 분류의 길이(OccurLength) 또는 해당 부분 분류의 완결성(OccurComplete) 중 적어도 하나 이상을 기반으로 순위화하는 것을 특징으로 하는 개체명 추출 장치.
사용자로부터 입력되는 입력문을 음절 단위의 부분 개체명 부착 말뭉치로 변형하는 말뭉치 변형부와,

상기 변형된 부분 개체명 부착 말뭉치를 자질에 따라 분리하는 자질 추출부와,

상기 분리된 부분 개체명 부착 말뭉치를 나이브 베이즈 분류기로 분류하기 위한 확률 값을 계산하는 나비브 베이즈 확률 계산부와,

상기 나이브 베이즈 분류기를 통해 분리된 부분 분류간 전이 확률 값을 계산하는 전이 확률 계산부와,

상기 확률 값을 로그 처리하여, 상기 확률 값의 연산 부하를 감소시키는 통계치 처리부와,

상기 입력문의 자질을 추출하고, 추출된 각 자질에 대해 각 클래스별 확률 값을 계산하는 자질 추출/클래스별 나이브 베이즈 확률 계산부와,

상기 확률 값과 상기 전이 확률 값을 비터비 알고리즘에 적용하여 최적의 부분 분류를 검색하는 비터비 알고리즘 적용부와,

상기 비터비 알고리즘 적용부에서 검색되는 다수개 결과를 순위화하여, 가장 적절한 하나의 부분 분류를 선택하여 개체명을 제공하는 휴리스틱 결과 순위부를 포함하는 개체명을 추출하는 장치.
제12 항에 있어서, 상기 말뭉치 변형부는,

IOB 태깅 방법의 변형 중 하나를 이용하여 하나의 태그를 시작, 중간, 끝 또는 단일 중 하나 이상의 종류별 위치로 나누어 태킹하여 변형하는 것을 특징으로 하는 개체명 추출 장치.
제12 항에 있어서, 상기 자질 추출부는,

자질 추출부는 평가 대상의 음절 자체의 유니그램(unigram)과, 해당 음절의 좌/우측에 나타나는 단서의 유니그램 또는 바이그램(bigram) 중 하나 이상의 자질로 가능성을 판단하며,

현재 대상이 되는 음절과, 좌측 음절과 우측 음절의 유니그램과, 좌측 음절과 우측 음절의 바이그램 중 하나 이상의 검색을 수행하는 개체명 추출 장치.
제14 항에 있어서, 상기 자질 추출부는,

하기 수학식에 따라 위치당 검색 횟수가 결정되는 것을 특징으로 하는 개체명 추출 장치.

'freqSearch'는 위치당 검색 횟수이고, 'classSearchCount'는 검색 횟수이고, 'ofClasses'는 종류별 위치이다.
제12 항에 있어서, 상기 나이브 베이즈 확률 계산부는,

하기 수학식에 따라 확률 값을 계산하는 것을 특징으로 하는 개체명 추출 장치.
제16 항에 있어서, 상기 나이브 베이즈 확률 계산부는,

하기 수학식에 따라 확률 값을 계산하는 것을 특징으로 하는 개체명 추출 장 치.
제12 항에 있어서, 상기 전이 확률 계산부는,

하기 수학식에 따라 부분 분류간 전이 확률 값을 계산하는 것을 특징으로 하는 개체명 추출 장치.
제18 항에 있어서, 상기 전이 확률 계산부는,

상기 부분 분류가 전이 확률 값이 0이 되지 않도록 최소 값을 할당하는 것을 특징으로 하는 개체명 추출 장치.
제12 항에 있어서, 상기 통계치 처리부는,

하기 수학식에 따라 상기 확률 값에 로그 처리하는 것을 특징으로 하는 개체명 추출 장치.
제12 항에 있어서, 상기 휴리스틱 결과 순위부는,

하기 수학식에 따라 부분 분류를 순서화하여 가장 높은 순서의 부분 분류를 개체명으로 제공하는 것을 특징으로 하는 개체명 추출 장치.

상기 매개 변수는 α=1, β=2, γ=10이고, 'OccurPosition'는 부분 분류가 발생한 위치, 'OccurLength'는 부분 분류의 길이, 'OccurComplete'는 해당 부분 분류의 완결성이다.
사용자로부터 입력되는 입력문을 음절 단위의 부분 개체명 부착 말뭉치로 변형하는 말뭉치 변형 단계와,

상기 변형된 부분 개체명 부착 말뭉치를 자질에 따라 분리하는 자질 추출 단계와,

상기 분리된 부분 개체명 부착 말뭉치를 나이브 베이즈 분류기로 분류하기 위한 확률 값을 계산하는 확률 계산 단계와,

상기 나이브 베이즈 분류기를 통해 분리된 부분 분류간 전이 확률 값을 계산하는 전이 확률 계산 단계와,

상기 입력문의 자질을 추출하고, 추출된 각 자질에 대해 각 클래스별 확률 값을 계산하는 자질 추출/클래스별 확률 계산 단계와,

상기 확률 값과 상기 전이 확률 값을 비터비 알고리즘에 적용하여 최적의 부 분 분류를 검색하는 비터비 알고리즘 적용 단계와,

상기 비터비 알고리즘 적용 단계에서 검색되는 다수개의 결과를 순위화하여, 가장 적절한 하나의 부분 분류를 선택하여 개체명을 제공하는 휴리스틱 결과 순위 단계를 포함하는 개체명 추출 방법.
제22 항에 있어서,

상기 확률 값을 로그 처리하여, 상기 확률 값의 연산 부하를 감소시키는 통계치 처리 단계를 더 포함하는 개체명 추출 방법.
제23 항에 있어서, 상기 통계치 처리 단계는,

하기 수학식에 따라 상기 확률 값에 로그 처리하는 것을 특징으로 하는 개체명 추출 방법.
제22 항에 있어서, 상기 말뭉치 변형 단계는,

IOB 태깅 방법의 변형 중 하나를 이용하여 하나의 태그를 시작, 중간, 끝 또는 단일 중 하나 이상의 종류별 위치로 나누어 태킹하여 음절 단위로 변형하는 것을 특징으로 하는 개체명 추출 방법.
제22 항에 있어서, 상기 자질 추출 단계는,

평가 대상의 음절 자체의 유니그램(unigram)과, 해당 음절의 좌/우측에 나타나는 단서의 유니그램 또는 바이그램(bigram) 중 하나 이상의 자질로 가능성을 판단하는 것을 특징으로 하는 개체명 추출 방법.
제22 항에 있어서, 상기 자질 추출 단계는,

현재 대상이 되는 음절과, 좌측 음절과 우측 음절의 유니그램과, 좌측 음절과 우측 음절의 바이그램 중 하나 이상의 검색을 수행하며,

상기 검색 과정을 2회 이하로 제한하는 것을 특징으로 하는 개체명 추출 방법.
제22 항에 있어서, 상기 자질 추출 단계는,

하기 수학식에 따라 위치당 검색 횟수를 결정하는 것을 특징으로 하는 개체명 추출 방법.

'freqSearch'는 위치당 검색 횟수이고, 'classSearchCount'는 검색 횟수이고, 'ofClasses'는 종류별 위치이다.
제22 항에 있어서, 상기 확률 계산 단계는,

하기 수학식에 따라 확률 값을 계산하는 것을 특징으로 하는 개체명 추출 방 법.
제29 항에 있어서, 상기 확률 계산 단계는,

하기 수학식에 따라 확률 값을 계산하는 것을 특징으로 하는 개체명 추출 방법.
제22 항에 있어서, 상기 전이 확률 계산 단계는,

하기 수학식에 따라 부분 분류간 전이 확률 값을 계산하는 것을 특징으로 하는 개체명 추출 방법.
제22 항에 있어서, 상기 전이 확률 계산 단계는,

상기 부분 분류가 전이 확률 값이 0이 되지 않도록 최소 값을 할당하는 것을 특징으로 하는 개체명 추출 방법.
제12 항에 있어서, 상기 휴리스틱 결과 순위 단계는,

하기 수학식에 따라 부분 분류를 순서화하여 가장 높은 순서의 부분 분류를 개체명으로 제공하는 것을 특징으로 하는 개체명 추출 방법.

상기 매개 변수는 α=1, β=2, γ=10이고, 'OccurPosition'는 부분 분류가 발생한 위치, 'OccurLength'는 부분 분류의 길이, 'OccurComplete'는 해당 부분 분류의 완결성이다.