KR20090049437A

KR20090049437A - 전역 유발 자질을 이용한 통계적 음성 언어 이해 방법 및프로그램 저장 매체

Info

Publication number: KR20090049437A
Application number: KR1020070115694A
Authority: KR
Inventors: 정민우; 이근배
Original assignee: 포항공과대학교 산학협력단
Priority date: 2007-11-13
Filing date: 2007-11-13
Publication date: 2009-05-18
Also published as: KR100932644B1

Abstract

본 발명에 의한 전역 유발 자질을 이용한 통계적 음성 언어 이해 방법은 학습용 데이터를 적용한 이전의 음성 언어 이해기와 새로운 전역 문맥 정보를 추가한 음성 언어 이해기의 성능을 비교 평가하는 정량적 기준에 따라 반복적으로 전역 유발 자질을 추출하여 유발 자질 리스트에 추가하는 과정; 음성 인식 문장에 입력되면 해당 음성 인식 문장에서 국소 문맥 정보와 상기 유발 자질 리스트를 이용하여 전역 문맥 정보를 추출하는 과정; 및 음성 언어 이해기에서 상기 국소 문맥 정보와 전역 문맥 정보를 종합처리하여 의미 부착 문장을 출력함을 특징으로 한다.

본 발명에 의하면 음성 언어 이해의 성능을 향상시키데 필요한 전역 문맥 정보를 추출하기 위해 유발 자질 정보를 자동으로 추출함으로써 구문 분석이나 규칙 작성에 소요되는 노력과 비용을 절감하며 다양한 응용 영역에 쉽게 적용 가능한 확장성을 제공한다.

Description

전역 유발 자질을 이용한 통계적 음성 언어 이해 방법 및 프로그램 저장 매체{Method for statistic voice language understanding using global trigger feature, and medium recording program thereof}

본 발명은 통계적 음성 언어 이해 방법에 관한 것으로서, 보다 상세하게는 음성 인식 결과로서 입력된 자연어 문장에 대한 국소 문맥 정보와 유발 자질 리스트를 이용하여 선택된 전역 문맥 정보를 사용하여 의미를 부착한 문장을 출력하여 음성 언어 이해기의 성능을 향상시키는 전역 유발 자질을 이용한 통계적 음성 언어 이해 방법 및 그 프로그램 저장 매체에 관한 것이다.

일반적인 통계적 음성 언어 이해 방법은 음성 인식 결과인 자연어 문장으로부터 문맥 정보를 추출하여 이를 바탕으로 해당 각 문장에 속한 단어들의 의미를 결정한다.

이때 음성 언어 이해의 성능 향상을 위해서는 기본적인 국소 문맥 정보 이외의 의미가 있는 전역 문맥 정보를 선택하는 문제가 발생한다. 종래의 기술로서 구문 분석이나 미리 작성된 규칙 정보를 이용하여 설정된 전역 문맥 정보를 이용하는 방법이 제시된 바 있으나, 이러한 방법은 구문 분석기를 만들거나 전문가에 의해 규칙을 작성되어야 하므로 많은 노력과 비용이 드는 문제점이 있었다.

또한 음성 언어의 특성상 비문법적이고 오류가 포함된 문장을 많이 포함하게 되는데 종래의 음성 언어 이해 방법들은 이러한 환경에서 성능이 저하가 뚜렷하다. 따라서 사람의 노력이 적게 들고 음성 언어 이해에 강건한 시스템을 구현하기 위해서는 개선된 방법이 요구되어 왔다.

본 발명에서 이루고자 하는 기술적 과제는 주어진 학습용 데이터로부터 전역 문맥 정보의 포함 여부에 따른 각각의 학습된 음성 언어 이해기의 성능에 기초하여 선별적으로 해당 전역 문맥 정보를 추가한 유발 자질(trigger feature) 리스트를 이용하여 음성 인식 문장을 이해하는 전역 유발 자질을 이용한 통계적 음성 언어 이해 방법 및 그 프로그램을 저장한 기록 매체를 제공하는 데 있다.

본 발명의 과제를 달성하기 위한 전역 유발 자질을 이용한 통계적 음성 언어 이해 방법은,

학습용 데이터를 적용한 이전의 음성 언어 이해기와 새로운 전역 문맥 정보를 추가한 음성 언어 이해기의 성능을 비교 평가하는 정량적 기준에 따라 반복적으로 전역 유발 자질을 추출하여 유발 자질 리스트에 추가하는 과정;

음성 인식 문장에 입력되면 해당 음성 인식 문장에서 국소 문맥 정보와 상기 유발 자질 리스트를 이용하여 전역 문맥 정보를 추출하는 과정; 및

음성 언어 이해기에서 상기 국소 문맥 정보와 전역 문맥 정보를 종합처리하여 의미 부착 문장으로 출력함을 특징으로 한다.

또한, 상기 자질 리스트에 추가하는 과정은, 국소 문맥 정보를 추출하여 제1 음성 언어 이해기를 학습시키는 과정; 및

새로운 전역 문맥 정보를 추출하여 제2 음성 언어 이해기를 학습하여 제1 음 성 언어 이해기와 비교하여 성능이 개선되면 해당 전역 문맥 정보를 유발 자질 리스트에 추가하는 과정;을 포함함을 특징으로 한다.

본 발명은 음성 언어 이해의 성능을 향상시키데 필요한 전역 문맥 정보를 추출하기 위해 유발 자질 정보를 자동으로 추출함으로써 구문 분석이나 규칙 작성에 소요되는 노력과 비용을 절감하며 다양한 응용 영역에 쉽게 적용 가능한 확장성을 제공하는 효과가 있다.

이하, 첨부 도면을 참조하여 본 발명의 바람직한 실시예를 설명하기로 한다.

본 발명에서 음성 인식 문장에서 추출되는 전역 문맥 정보는 유발 자질(trigger feature)이라고 하는 형태로 규정되며 음성 언어 이해기를 학습하는 데이터로부터 추출된다. 전역 문맥 정보에 비해 국소 문맥 정보를 추출하는 것이 용이하며 또한 이는 음성 언어 이해를 위한 기본적인 정보이기 때문에 본 발명에서는 국소 문맥 정보를 기반으로 국소 문맥 정보에서 포함하지 못하는 전역 문맥 정보들만을 선택하는 방식을 개시한다.

구문 분석기를 이용한 전역 정보 추출 방법은 언어의 문법적인 특성을 이용하는 방법으로, 명사, 동사, 형용사 등의 품사와 그것들이 문장을 이루는 관계를 분석하는 구문 분석 과정이 요구된다. 이러한 구문 분석은 문법적이고 형식화된 문장에서는 일정 수준이상의 성능을 보장하지만, 비교적 덜 형식적이고 음성 인식 오류를 많이 포함하는 음성 언어 문장에서는 잘못된 분석을 초래할 가능성이 높다. 또한 구문 분석기를 개발하는 작업은 해당 언어에 대한 전문 지식과 함께 다량의 데이터를 요구하기 때문에 많은 노력과 시간이 소요된다. 규칙 기반의 전역 정보 추출 방법은 구문 분석 방법에 비해 경량이나 해당 분야의 전문가가 데이터를 분석하여 규칙들을 작성하여야하므로 마찬가지로 많은 노력과 시간이 소요된다.

또한 두 방법 모두 새로운 영역의 시스템을 확장할 때마다 새로운 구문 분석기와 새로운 규칙을 만들어 줘야하는 번거로움이 있다. 이러한 문제점을 완화하기 위하여 본 발명에서는 음성 언어 이해기를 학습하기 위해 주어진 데이터로부터 성능 향상을 꾀하는 전역 문맥 정보를 자동으로 추출하는 방법을 설명하기로 한다.

음성 언어 이해를 위해 사용되는 문맥 정보는 크게 국소 문맥 정보와 전역 문맥 정보로 구분되며, 도 1은 본 발명에 적용되는 국소 문맥 및 전역 정보를 사용하는 예를 설명하기 위한 문맥을 나타낸다.

음성 언어 이해기는 음성 인식 문장에서 각 단어에 대한 의미를 추정하여 결정하는 역할을 하며, 응용 분야에 따라 그 의미를 정의하는 방식이 달라질 수 있다. 예를 들어 항공 예약에 대한 음성 언어 이해에서는 단어 "dec."(101, 106)가 각각 DEPART.MONTH(102)와 RETURN.MONTH(107)처럼 출발월과 회항월로 다르게 분석될 수 있다.

단어 "dec."의 의미를 결정하기 위한 국소 문맥 정보는 현재 단어(101, 106), 좌측 국소 문맥(103, 108), 그리고 우측 국소 문맥(104, 109)으로 구성된다. 그러나 두 국소 문맥 정보가 완전히 동일하기 때문에 올바른 분석 결과를 기대하기 어렵다. 따라서 국소 문맥 정보만으로 구분이 어려운 경우 전역 문맥 정보(105, 110)를 이용하여만 한다.

그러나 국소 문맥 정보와는 달리 전역 문맥 정보는 그 범위가 제한이 없으며 많은 전역 문맥 정보가 불필요한 정보를 포함하고 있다. 따라서 성능을 향상시키는 의미가 있고 중요한 문맥 정보를 유발 자질이라고 부르며 추출된 유발 자질은 실제 음성 언어 이해를 위해 적용될 때 상대적으로 경량의 기억용량과 계산 시간만을 요구한다.

이러한 유발 자질(105, 110)을 자동으로 추출하는 방법을 아래에 상술한다.

도 2는 본 발명에 의한 전역 유발 자질 정보를 선택하는 과정을 나타내는 흐름도이다. 전역 문맥 정보를 자동으로 추출하는 과정은 초기 국소 문맥 정보 추출 과정과 반복적인 평가에 의해 진행된다.

통계적 음성 언어 이해기를 학습하기 위해서는 도 1에 표기된 것과 같이 많은 학습 예제들이 주어진다. 초기에는 이러한 학습용 데이터로부터 앞서 기술한 대로 국소 문맥 정보만을 추출하여(201 단계), 제1 음성 언어 이해기를 학습한다(202 단계).

다음 과정으로 유발 자질의 후보가 되는 새로운 전역 문맥 정보가 존재하는지 판별하고(203 단계), 새로운 전역 문맥 정보가 있다면 이를 추출한다(204 단계). 이때 추출된 전역 문맥 정보를 포함하여 제2 음성 언어 이해기를 학습한다(205 단계). 두 음성 언어 이해기를 비교 평가하여(206 단계), 새로운 전역 문맥 정보를 포함한 제2 음성 언어 이해기가 제1 음성 언어 이해기보다 성능이 양호하다면 추출된 후보 전역 문맥 정보를 유발 자질 리스트에 추가한다(207 단계).

만약 제2 음성 언어 이해기가 제1 음성 언어 이해기보다 성능이 나쁘다면 추출된 후보 전역 문맥 정보는 불필요하다고 판단되어 유발 자질로 선택되지 않는다. 성능을 평가하는 기준으로는 널리 쓰이는 정확도나 F1 점수, 또는 로그우도(log-likelihood)를 적용할 수 있다.

유발 자질이 선택되었다면 제2 음성 언어 이해기를 제1 음성 언어 이해기로 대체하고(207 단계), 그렇지 않다면 제1 음성 언어 이해기를 그대로 사용한다. 다시 새로운 전역 문맥 정보가 있는지 확인하는 과정을 반복하며 새로운 전역 문맥 정보가 존재하지 않을 때까지 과정을 반복한다. 더 이상 새로운 전역 문맥 정보가 없다면 전역 문맥 정보 선택 과정이 종료되며, 이때 학습된 음성 언어 이해기와 유발 자질 리스트가 최종 결과물이 된다.

도 3은 본 발명에 의한 유발 자질 리스트를 적용하여 음성 언어를 이해하는 과정을 설명하기 위한 흐름도이다. 도 2에 도시된 흐름도를 통해 얻어진 전역 문맥 정보를 실제 음성 언어 이해에 적용할 때는 도 3에 나타낸 바와 같이 적용된다.

음성 인식 문장이 입력되면(301 단계) 국소 문맥 정보를 추출하고(302 단계), 또한 유발 자질 리스트(304)를 이용하여 전역 문맥 정보를 추출한다(303 단계). 두 국소 문맥 정보와 전역 문맥 정보를 종합하여 음성 언어 이해기에서 의미를 부착한 문장을 출력하게 된다(305, 306 단계).

본 발명과 본 발명의 이점이 상세하게 설명되었지만, 첨부된 청구 범위에 의해 규정된 본 발명의 본질과 범위에서 벗어나지 않으면서 다양한 변형, 대체 및 개조가 이루어질 수 있는 것이 이해되어야 한다. 그러므로 본 발명의 범위는 설명된 실례에 국한되어 정해져서는 안되며 후에 서술하는 특허 청구 범위뿐만 아니라 이 특허 청구 범위와 균등한 것들에 의해 정해져야 한다.

도 1은 음성 언어 이해 시스템에서 국소 문맥 및 전역 정보를 사용하는 예를 설명하기 위한 음성 인식 문맥을 나타낸다.

도 2는 본 발명에 의한 전역 유발 자질 정보를 선택하는 과정을 나타내는 흐름도이다.

도 3은 본 발명에 의한 유발 자질 리스트를 적용하여 음성 언어를 이해하는 과정을 설명하기 위한 흐름도이다.

Claims

학습용 데이터를 적용한 이전의 음성 언어 이해기와 새로운 전역 문맥 정보를 추가한 음성 언어 이해기의 성능을 비교 평가하는 정량적 기준에 따라 반복적으로 전역 유발 자질을 추출하여 유발 자질 리스트에 추가하는 과정;

음성 인식 문장에 입력되면 해당 음성 인식 문장에서 국소 문맥 정보와 상기 유발 자질 리스트를 이용하여 전역 문맥 정보를 추출하는 과정; 및

음성 언어 이해기에서 상기 국소 문맥 정보와 전역 문맥 정보를 종합처리하여 의미 부착 문장으로 출력함을 특징으로 하는 전역 유발 자질을 이용한 통계적 음성 언어 이해 방법.
제 1항에 있어서, 상기 자질 리스트에 추가하는 과정은, 국소 문맥 정보를 추출하여 제1 음성 언어 이해기를 학습시키는 과정; 및

새로운 전역 문맥 정보를 추출하여 제2 음성 언어 이해기를 학습하여 제1 음성 언어 이해기와 비교하여 성능이 개선되면 해당 전역 문맥 정보를 유발 자질 리스트에 추가하는 과정;을 포함함을 특징으로 하는 전역 유발 자질을 이용한 통계적 음성 언어 이해 방법.
제 1항에 있어서, 학습용 데이터를 적용한 이전의 음성 언어 이해기와 새로운 전역 문맥 정보를 추가한 음성 언어 이해기의 성능을 비교 평가하는 정량적 기 준에 따라 반복적으로 전역 유발 자질을 추출하여 유발 자질 리스트에 추가하는 과정;

음성 인식 문장에 입력되면 해당 음성 인식 문장에서 국소 문맥 정보와 상기 유발 자질 리스트를 이용하여 전역 문맥 정보를 추출하는 과정; 및

음성 언어 이해기에서 상기 국소 문맥 정보와 전역 문맥 정보를 종합처리하여 의미 부착 문장을 출력하는 전역 유발 자질을 이용한 통계적 음성 언어 이해 방법을 실현시키기 위한 프로그램을 기록한 저장매체.