KR100305455B1

KR100305455B1 - 연속 음성 인식시에 구두점들을 자동으로 발생시키기 위한 장치및 방법

Info

Publication number: KR100305455B1
Application number: KR1019990013422A
Authority: KR
Inventors: 탕도날드티.; 쥬시아오진; 션리킨
Original assignee: 포만 제프리 엘; 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 1998-05-13
Filing date: 1999-04-15
Publication date: 2001-09-26
Also published as: JP3282075B2; US6718303B2; US20020069055A1; JP2000029496A; KR19990087935A; CN1235312A; CN1159662C

Abstract

연속 음성 인식 시스템에서 구두점을 자동으로 발생시키기 위한 장치는 사용자의 음성을 인식하고 상기 사용자의 음성을 단어들로 변환하기 위한 수단(1,2,3,5)을 포함하고, 사용자의 음성을 인식하기 위한 수단(1,2,3,5)은 상기 사용자 음성 내의 의사 잡음들을 인식하는데 더 이용되며, 상기 장치는 사용자의 음성을 인식하기 위한 수단(1,2,3,5)의 출력 결과 내에 의사 잡음들을 표시해두기 위한 수단(9); 의사 구두점들을 포함하는 언어 모델에 기초하여, 의사 잡음들을 표시해두기 위한 수단(9)에 의해 표시된 의사 잡음들의 위치에서 가장 가능성있는 의사 구두점을 발견하여 구두점들을 발생시키기 위한 수단(10,14,13)을 포함하는 것을 특징으로 한다.

Description

연속 음성 인식시에 구두점들을 자동으로 발생시키기 위한 장치 및 방법{APPARATUS AND METHOD FOR AUTOMATICALLY GENERATING PUNCTUATION MARKS IN CONTINUOUS SPEECH RECOGNITION}

본 발명은 연속 음성의 인식 기술에 관한 것으로, 연속 음성 인식시에 구두점(punctuation marks)들을 자동으로 발생시키는 장치 및 방법에 관한 것이다. 일반적인 음성 인식 시스템은 도 1에 도시된 바와 같다. 이 시스템은 음향 모델(7)과 언어 모델(8)을 포함한다. 음향 모델(7)은 인식된 언어 내의 상용단어(commonly used word)들의 발성법(pronunciation)을 포함한다. 이와 같은 단어 발성법은, 대부분의 사람들이 이 단어를 읽을 때의 발음으로부터 통계적 방법을 사용하여 이 단어의 일반적인 발음적 특성을 나타내도록 요약된다. 언어 모델(8)은 인식된 언어에서 상용 단어가 이용되는 방법을 포함한다.

도 1에 도시된 연속 음성 인식 시스템의 동작 절차는 다음과 같다: 음성 검출 수단(1)이 사용자의 음성(speech)을 수집한다. 예를 들면, 언어를 음성 샘플들로 표현하고 이 샘플들을 발음 확률 계산 수단(2)으로 보낸다. 발음 확률 계산 수단(2)은 음향 모델(7) 내의 각각의 발성법에 대해 각각의 발성법이 음성 샘플과 동일한지에 관한 확률 평가값을 계산한다. 단어 확률 계산 수단(5)은 대량의 언어 자료로부터 요약된 언어 규칙에 따라, 언어 모델(8) 내의 단어에 대해 이 단어가 현재의 문맥 내에 발생하여야 하는지의 확률 평가값을 산출한다. 단어 정합 수단(3)은, 발음 확률 계산 수단(2)에 의해 계산된 확률값을 단어 확률 계산 수단(5)에 의해 계산된 확률값과 결합하여 (음성 샘플이 해당 단어라고 인식될 수 있는 능력을 나타내는) 연합 확률을 계산하고, 가장 큰 연합 확률값을 갖는 단어를 음성 인식의 결과로서 취한다. 문맥 발생 수단(4)은 상기 기술된 인식 결과에 의해 현재의 문맥을 수정하여 다음 음성 샘플의 인식에 사용되도록 한다. 단어 출력 수단(6)은 인식된 단어를 출력한다.

상술한 연속 인식 절차는 문자, 단어, 또는 구문 단위로 수행될 수 있다. 따라서, 본 명세서에서 사용되는 단어라는 용어는 문자, 단어, 또는 구문을 지칭한다.

인식된 결과에 구둣점을 표시하기 위해, 현재의 연속 음성 인식 시스템에서는 구두점이 구술 도중에 발음되어야 하고, 그 다음에 이들을 인식해야 한다. 예를 들어, 'Hello! World.'를 완벽하게 인식하기 위해, 화자는 'Hello exclamation point world period'라고 발음해야 한다. 즉, 현재의 음성 인식 시스템에서 구두점은 화자에 의해 음성으로 변환되어야 하고(즉, 구두점을 말로 발음해 주어야 한다), 그 다음, 음성 인식 시스템에 의해 대응하는 구두점으로서 인식되어야 한다. 따라서, 언어 모델은 구두점을 포함한다. 즉, 언어 모델(8)은 모든 구두점에 대해 각 구두점이 현재의 문맥에서 발생되어야 하는지의 여부에 관한 평가 확률값을 산출할 수 있다.

그러나, 상술한 음성 인식 시스템을 사용하는데 있어서, 사람들이 자연스런 대화를 할 때(예를 들어, 라디오 방송이나 TV 프로그램에서) 구두점을 발음하기를 기대하기는 어렵다. 더욱이, 구술 동안에 구두점을 발음한다는 것은 너무나 부자연스러운 것이다. 구두점을 발음하도록 요구받는 때에도, 사람들은 말을 할때나 기사를 읽을 때 구두점을 발음하는 것을 잊기 쉽다. 게다가, 마음속에서 나오는 매 문장을 자발적으로 말할 때, 구두점을 정확히 결정하여 틀리지 않고 유창하게 매 구두점을 정확히 발음한다는 것은 대부분의 사람들에게는 어렵다. 이러한 것은 구두점이 일상 언어에서 좀처럼 잘 사용되지 않는다는 사실때문이다.

따라서, 연속 음성 인식에 있어서, 사용하기 쉬우며 말을 할 때 구두점이 발음될 필요가 없어 사용자의 통상의 언어 생활에 영향을 주지 않도록 구두점을 자동으로 발생시키는 장치 및 방법이 절실히 요구되고 있다.

본 발명의 제1 목적은 연속 음성 인식에 있어서 구두점을 자동으로 발생시키기 위한 장치를 제공하는 것이다.

본 발명의 제2 목적은 연속 음성 인식에 있어서 구두점을 자동으로 발생시키는 방법을 제공하는 것이다.

제1 목적을 달성하기 위해, 본 발명은 연속 음성 인식에 있어서 구두점을 자동으로 발생하며, 사용자의 음성을 단어로서 인식하기 위한 음성 인식 수단을 포함하는 장치를 제공한다. 이 음성 인식 수단은 사용자의 음성에 포함된 의사 잡음들도 역시 인식하며, 나아가, 음성 인식 수단의 출력 결과 내에 의사 잡음들을 표시하기 위한 의사 잡음 표시 수단; 및 의사 구두점들을 포함하는 언어 모델에 기초하여 의사 잡음 표시 수단에 의해 표시된 의사 잡음들의 각 위치에서 가장 가능성있는 의사 구두점들을 발견하여 가장 가능성있는 의사 구두점들에 대응하는 구두점들을 발생시키기 위한 구두점 발생 수단을 포함한다.

본 발명은 연속 음성 인식에 있어서 구두점을 자동으로 발생시키기 위한 장치를 제공하며, 이 장치는 사용자의 음성을 단어로서 인식하기 위한 음성 인식 수단; 사용자가 구술하는 동안에 사용자의 동작에 응답하여 위치 표시 신호를 발생시키기 위한 구두점 위치 표시 수단 ―상기 위치 표시 신호는 음성 인식 수단의 출력 결과 내에서의 위치를 가리킴―; 의사 구두점을 포함하는 언어 모델 내에 포함된 모든 의사 구두점에 대해 각 구두점이 음성 인식 수단의 출력 결과 내에 발생할 것인지의 여부에 관한 확률 평가값을 산출하는 의사 구두점 확률 계산 수단; 의사 구두점 확률 계산 수단에 의해 계산된 확률 평가에 기초하여 위치 표시 신호가 가리키는 위치에서 의사 구두점을 발견하여 의사 구두점에 대응하는 구두점을 발생시키기 위한 의사 구두점 정합 수단을 포함한다.

제2 목적을 달성하기 위해, 본 발명은 연속 음성 인식시에 구두점을 자동으로 발생시키기 위한 방법을 제공하는데, 이 방법은 사용자의 음성을 단어로서 인식하기 위한 음성 인식 단계 ―상기 음성 인식 단계는 사용자의 음성 내의 의사 잡음을 인식하는 단계도 역시 포함함―, 음성 인식 단계의 출력 결과 내에 의사 잡음을 표시하기 위한 의사 잡음 표시 단계; 의사 잡음 표시를 포함하는 언어 모델에 기초하여 의사 잡음 표시 단계에서 표시된 모든 의사 잡음의 위치에서 가장 가능성있는 의사 구두점을 발견하여 가장 가능성있는 의사 구두점에 대응하는 구두점을 발생시키기 위한 구두점 발생 단계를 포함한다.

본 발명의 장치 및 방법에 따르면, 시스템이 구두점을 발생시키도록 사용자가 구두점을 발음할 필요가 없다. 따라서, 본 발명의 장치 및 방법을 사용하면, 사용자가 말하는데 있어서 불편을 주지 않으며 음성 인식 시스템의 정확도 및 신속성을 향상시킬 수 있다.

첨부된 도면과 연계한 본 발명의 실시예들에 대한 설명을 통해 본 발명의 다른 목적 및 특징들이 명백해질 것이다.

도 1은 종래 기술의 연속 음성 인식 시스템의 구조에 대한 개략도.

도 2는 본 발명에 따른 연속 음성 인식시에 구두점을 자동으로 발생시키기 위한 장치의 제1 실시예의 전체 구조의 개략도.

도 3은 본 발명에 따른 연속 음성 인식시에 구두점을 자동으로 발생시키기 위한 방법의 제1 실시예의 전체 흐름도.

도 4는 본 발명에 따른 연속 음성 인식시에 구두점을 자동으로 발생시키기 위한 방법의 제2 실시예의 전체 흐름도.

우선, 본 발명의 몇가지 개념이 소개될 것이다.

일상의 대화에서, 단어에 대응하는 연속된 음성을 발성하는 것 외에도, 사람들은 종종 숨을 들이마시거나 입맛 다시는 소리와 같은 잡음을 내곤한다. 이들 잡음들은 단어로서 인식될 수 없다. 게다가, 연속음 사이에는 아무 음도 없는 침묵(silence)이 있다. 일반적인 음성 인식 시스템은 이들 잡음 및 침묵을 이용하지 않고 단순히 제거한다. 실험을 통해 본 발명자들은 잡음 및 침묵과 구두점간에는 어떤 관계가 있다는 것을 발견했다. 예를 들어, 기사를 읽을 때, '.'이 발생하면, 사람들은 습관적으로 다소 긴 시간동안 읽지 않으며, ','가 발생하면, 더 짧은 시간동안 기사를 읽지 않고 재빨리 숨을 들이 쉰다. 그리고, '_＇'이 발생하면, 훨씬 더 짧은 시간 동안 읽지 않고 또한 숨도 들이 쉬지 않는다. 따라서, 본 발명의 방법에서는, 이들 잡음 및 침묵도 역시 이용될 것이다.

게다가, 2개의 단어가 이들 사이에 어떠한 다른 음이 없이 중단되지 않고 부드럽게 발음될 때, 이들 사이에는 구두점이 있어야 할 것이다. 본 발명의 방법을 구현하기 위해, '무음'(no sound)이라는 기호가 이러한 연속된 단어들 사이에 인위적으로 추가될 것이다. 본 명세서에서, 잡음, 침묵, 및 '무음'은 의사 잡음이라 언급될 것이다. 따라서, 임의의 2개의 연속음 사이에는 의사 잡음이 항상 있다.

모든 의사 잡음들은 의사 잡음 세트 D를 형성할 것이다. 따라서,

D = {'무음', 침묵, 들숨, 입맛 다시는 소리, ....}

언어에는 구두점을 표시하기 위한 어떤 규칙들이 있다. 컴퓨터에서 구두점들의 자동 표시를 용이하게 구현하기 위해, 구두점을 포함하는 방대한 양의 발음 자료로부터 통계적 방법에 의해 구두점을 표시하는 방법의 규칙을 요약하는 것이필요하다. 본 발명의 방법을 구현하기 위해, 구두점이 발생하지 말아야 할 문장 내에 이른바 무구두점(no punctuation)이 의도적으로 추가된다. 본 명세서에서, 구두점 및 '무구두점'은 의사 구두점이라고 정의된다.

2개의 단어들 사이에는 의사 구두점이 항상 있다.

모든 의사 구두점은 의사 구두점 세트 M을 구성한다.

M = {'무구두점', '마침표', '콤마', '감탄 표시', 짧은 쉼표', ...}

구두점의 자동 발생에는 필요한 단계가 2개 포함된다. 제1 단계에서, 구두점이 어디에 표시되어야 하는지, 즉, 구두점의 위치가 결정된다. 제2 단계에서, 어떤 구두점이 표시되어야 하는지, 즉, 구두점의 종류가 결정된다. 이후부터, 구두점의 위치 및 종류의 결정을 자동으로 완료할 수 있는 보다 복잡한 제1 실시예가 설명될 것이다. 그 다음, 사용자가 구두점의 위치를 가리켜줄 필요가 있는 제2 실시예가 기술될 것이다.

도 2는 본 발명에 따른 연속 음성 인식시에 구두점을 자동으로 발생시키기 위한 장치의 제1 실시예의 개략도를 도시하고 있다. 도 2에서, 참조 번호(1)은 음성 검출 수단을 가리키고, 참조 번호(2')는 발음 및 의사 잡음 확률 계산 수단을, 참조 번호(3)은 단어 정합 수단을, 참조 번호(4)는 문맥 발생 수단을, 참조 번호(5)는 단어 확률 계산 수단을, 참조 번호(6')은 인식 결과 출력 수단을, 참조 번호(7')는 의사 잡음을 포함하는 음향 모델을, 참조 번호(8)은 언어 모델을 각각 가리킨다. 상술한 구성 요소들은 도 1에 도시된 대응하는 것들과 동일하거나 유사한 기능을 가진다. 게다가, 참조 번호(9)는 의사 잡음 표시 수단을, 참조번호(10)은 의사 구두점 확률 계산 수단을, 참조 번호(11)은 의사 구두점을 포함하는 언어 모델을, 참조 번호(12)는 구두점을 포함하는 문맥 발생 수단을, 참조 번호(13)은 구두점 정합 수단을, 참조 번호(14)는 의사 구두점 조건하의 의사 잡음 확률 계산 수단을, 참조 번호(15)는 의사 구두점과 의사 잡음간의 비교표를 가리킨다.

도 2에서, 의사 잡음 세트 D의 각각의 요소에 대응하는 음향이 의사 잡음을 포함하는 음향 모델(7')[음향 모델(7')의 기능은 도 1의 음향 모델(7)과 유사함]에 추가된다. 따라서, 의사 잡음을 포함하는 음향 모델(7')의 구성 요소는 단어의 발음법 또는 의사 잡음 중 어느 하나에 대응한다. 의사 잡음을 포함하는 음향 모델(7') 내의 각각의 발음법 또는 잡음에 대해, 의사 잡음 확률 계산 수단(2')는 음성 샘플에 근접한 정도를 나타내는 확률 평가값을 매긴다. 의사 잡음을 포함하는 음형 모델은 제1 음향 모델 AM1이라 불리며, 이것은 각 단어의 발음법뿐만 아니라 각 의사 잡음에 대응하는 음향도 포함한다.

의사 구두점 세트 M 내의 각각의 요소는 의사 구두점들을 포함하는 언어 모델(11)에 추가된다. 물론, 모든 의사 구두점들이 동일한 모델로서 언어 모델(8) 내에 추가될 수 있다. 다른 구현 방법도 물론 가능하다. 단어 확률 계산 수단(5)는 도 1의 단어 확률 계산 수단(5)와 동일하며, 거기서 사용된 언어 모델은 제1 언어 모델 LM1이라 불린다. 제1 언어 모델 LM1은 인식된 언어 내에서 빈번히 사용된 모든 단어를 포함한다.

따라서, 도 1에 도시된 장치와 유사하게, 검출된 음향은, 음성 검출수단(1), 발음 및 의사 잡음 확률 계산 수단(AM1)(2'), 단어 정합 수단(3), 문맥 발생 수단(4), 단어 확률 계산 수단(LM1)(5), 의사 잡음을 포함하는 음향 모델(7'), 및 언어 모델(8)을 사용하여 대응하는 단어나 의사 잡음으로 디코딩될 수 있다. 제1 시퀀스에서 '무음'과 같은 다른 의사 잡음은 의사 잡음 표시 수단(9)를 사용하여 표시될 것이다.

(의사 구두점 표시를 포함하는) 현재의 문맥의 경우에, 의사 구두점 확률 계산 수단(10)은, 구두점들을 포함하는 방대한 양의 언어 자료로부터 요약된 언어 규칙에 기초하여, 의사 구두점들을 포함하는 언어 모델(11) 내의 각 의사 구두점이 다음번 구두점인지에 관한 확률 산정값을 계산한다. 이 장치에 의해 사용되는 언어 모델(11)은 제2 언어 모델 LM2라 불릴 것이다. 제2 언어 모델을 구축하는데 있어서, 언어 자료 내의 모든 구두점들이 예약될 것이다. 따라서, 제2 언어 모델 LM2는 모든 의사 구두점을 포함한다. 예를 들어, c가 현재의 문맥이고 m이 의사 구두점이라 가정하면, LM2의 행동은 P(m｜c)를 계산하는 것이다.

의사 구두점 조건하의 의사 잡음 확률 계산 수단은, 제2 언어 모델 AM2를 사용하여 특정 의사 잡음이 어떤 의사 구두점에서 발생하는지에 관한 확률 평가값을 산출한다. 제2 언어 모델 AM2는 통계적 방법을 사용하여 대량의 언어 자료에 기초하여 구축된다. 제2 언어 모델 AM2의 구축 동안에, 의사 구두점과 의사 잡음의 대응하는 쌍들이 발견되어 의사 구두점과 의사 잡음 사이의 비교표(15) 내에 저장된다. 의사 구두점 조건하의 의사 잡음 확률 계산 수단(14)은 의사 구두점과 의사 잡음간의 비교표(15)에 기초하여 조건부 확률 P(d｜m)을 계산한다. 여기서, m은의사 구두점이고 d는 의사 잡음이다. 제2 언어 모델 AM2의 특정 구축예가 이후에 설명될 것이다.

물론, 이와 같은 조건부 확률 P(d｜m)은 대량의 언어 자료를 사용하여 통계적 방법을 통해 미리 얻어지고 대응표에 저장된다. 구두점을 발생시키는 실제적인 절차에서, 대응하는 확률값은 표에서 회수하여 얻어진다. 즉, 의사 구두점 조건하의 의사 잡음 확률 계산 수단은 다른 방법들로 구현될 수 있으며, 이러한 방법들이 본 발명에 어떠한 제한을 가하는 것은 아니다.

구두점 정합 수단(13)은 의사 구두점 계산 수단(10)에 의해 계산된 확률 평가값 P(m｜c)와 의사 구두점 조건하의 의사 잡음 확률 계산 수단(14)에 의해 계산된 확률 평가값 P(d｜m)을 결합하고, 의사 구두점을 포함하는 언어 모델(11) 내의 모든 의사 구두점에 관하여 상관 확률 P(d｜m)^*P(m｜c)(의사 잡음을 또다른 의사 구두점으로서 인식할 확률)을 계산하며, 최대 상관 확률값을 갖는 의사 구두점을 자동으로 발생된 의사 구두점으로서 취한다. 이 절차는 다음과 같이 표현된다.

M^ML= argmax m: AM2(d, m)^*LM2(m, c)

여기서, m은 의사 구두점이고; d는 잡음이며; c는 문맥이고,

AM2(d, m) = P(d｜m),

LM2(m, c) = P(m｜c)

m = '무구두점'일 때, 구두점 대신에 단어를 나타내며, 따라서

P('무구두점'｜c) = ΣP(w｜c)

w = 워드

구두점 표시를 포함하는 문맥 발생 수단(12)는 다음 의사 잡음을 처리하기 위해 상기 언급한 바와 같이 발생된 구두점을 사용하여 현재의 문맥을 수정한다. 인식 결과 출력 수단(6')은 인식된 단어와 자동으로 발생된 의사 구두점(또는 변환된 통상의 구두점)을 출력한다.

본 발명에 따른 구두점을 자동으로 발생시키기 위한 장치의 제2 실시예로서, 연속 음성 인식시에 구두점을 자동으로 발생시키기 위한 또 다른 유형이 상술한 제1 실시예로부터 유도된다. 하지만, 구술 동안에 사용자의 동작에 응답하여 음성 인식 수단의 출력 결과 내의 위치를 가리키는 위치 표시 신호를 발생시키기 위한 구두점 위치 표시 수단을 포함한다는 점이 다르다. 이 위치 표시 수단은, 예를 들어, 마우스 또는 다른 특별한 하드웨어일 수 있다. 또한, 이 위치 표시 수단은, 의사 구두점을 포함하는 언어 모델 내에 포함된 각각의 의사 구두점에 대해, 각각의 의사 구두점이 음성 인식 수단의 출력 결과내에서 발생할 수 있는 가능성을 나타내는 확률 평가값을 산출하기 위한 의사 구두점 확률 계산 수단(10), 및 의사 구두점 확률 계산 수단에 의해 계산된 확률 평가값에 따라 위치 표시 신호에 의해 표시된 위치에서 의사 구두점을 발견하고 의사 구두점에 대응하는 구두점을 발생시키기 위한 수단을 포함한다.

의사 구두점을 자동으로 발생시키기 위한 상기 장치에서, 어떠한 의사 잡음도 이용되지 않는다. 따라서, 제1 언어 모델 AM1 및 제2 언어 모델 AM2 내의 의사 잡음부는 생략되고 그 구현이 더 용이해진다. 반면, 더 높은 정확도가 얻어진다.그러나, 사용자가 이용하기에는 제1 실시예만큼 그렇게 편리하지 않다.

도 3은 본 발명에 따른 연속 음성 인식시에 구두점을 자동으로 발생시키기 위한 방법의 제1 실시예의 흐름도이다.

단계 S31에서, 음성 인식 절차가 시작된다. 이 단계에서, 문맥 c와 같은 모든 내부 변수들은 비워진다.

단계 S32에서, 사용자가 읽는 단어의 음성이 검출된다. 단계 S33에서, 제1 음향 모델 AM1과 제1 언어 모델 LM1을 사용하여 사용자의 음성이 단어나 의사 잡음으로 디코딩된다. 예를 들어, 아래의 중국어 문장을 읽을 때,

'This apple is red, not green'

사람들은 문장 내의 단어만을 읽는다. 따라서, 다음의 각 단계들을 반복적으로 수행하여 사용자의 말은 아래의 제1 시퀀스로 디코딩될 수 있다.

'This apple is red(들숨)not green(침묵)'

단계 S34에서, 상술한 시퀀스 내에 의사 잡음이 표시된다. 여기서, 의사 잡음은 단계 S33에서 디코딩되지 않은 다른 의사 잡음을 말한다. 이 실시예에서, 구현을 용이하게 하기 위해 '무음' 표시가 2개의 연속 단어 사이에 추가된다. 따라서, 다음과 같은 제2 시퀀스가 형성된다:

'This(무음)apple(무음)is(무음)red(들숨)not(무음)green(침묵)'.

단계 S35에서, 모든 의사 구두점 m에 대해, 현재의 문맥에서의 조건부 확률 P(m｜c)가 계산된다.

단계 S36에서, 모든 의사 잡음 d에 대해, 각각의 의사 구두점 m에서의 조건부 확률 P(d｜m)이 계산된다. 다른 방법으로서, 각각의 의사 잡음 d와 각각의 의사 구두점 m에 대해, 조건부 확률 P(d｜m)이 통계적 방법을 사용하여 대량의 언어 자료에 기초하여 미리 계산되고 표에 저장된다. 그 다음, 이 표로부터 회수하여 단계 S36이 구현된다.

단계 S37에서, P(d｜m)^*P(m｜c)를 최대화하는 의사 구두점 M^ML을 계산한다.

M^ML= argmax m: P(d｜m)^*P(m｜c)

단계 S35, S36, 및 S37은 후속 절차로서 간주될 수 있다.

상기 제2 시퀀스로된 모든 의사 잡음 d 및 그 문맥 c에 대해, 최적의 의사 구두점 M^ML은 아래와 같은 관계의 제2 음향 모델(AM2)와 제2 언어 모델(LM2)를 사용하여 발견된다.

M^ML= argmax m : AM2(d, m)^*LM2(m, c)

여기서, m은 구두점이고,

AM2(d, m) = P(d｜m)

LM2(m, c) = P(m｜c)

m = '무구두점'일 때,

LM2('무구두점', c) = P('무구두점'｜c)

= Σcount(c, w)

w≠구두점

즉, 단어들 w의 모든 P(w｜c)의 합은 구두점이 아니다.

단계 S38에서, M^ML이 자동으로 발생된 의사 구두점으로서 취해지고, 현재의 문맥 c가 갱신된다. 따라서, 제3의 시퀀스가 형성될 것이다.

'This (무구두점) apple (무구두점) is (무구두점) red (콤마) not (무구두점) green(종지부)'

단계 S39에서, 연속 음성 인식이 끝났는지가 판단된다. 끝이 아니라면, 단계 S2로 점프한다. 끝이라면, 절차는 단계 S310으로 진행한다.

단계 S310에서, 인식된 단어들과 자동으로 발생된 구두점들이 출력된다. 이 단계에서, 의사 구두점들은 실제의 구두점들로 대체될 수 있다. 예를 들어, 다음의 결과가 출력된다:

'This apple is red, not green.'.

단계 S311에서, 절차는 종료한다.

상기 제1, 제2, 및 제3 시퀀스는 사용자가 매 단어를 읽을 때 단계 S32 내지 S38을 반복적으로 수행함으로써 점진적으로 형성됨에 유의한다. 즉, 상기 절차는 실시간으로 수행된다. 구두점들은 전체 문장의 디코딩 완료후에만 발생되는 것이 아니라 실시간으로 자동으로 발생될 수 있다. 일단 문맥을 구성하는 단어들의 디코딩이 완료되면, 문맥에 기초하여 구두점들이 발생된다. 물론, 음성 인식은 문장에 기초하여 수행될 수 있다. 그러나, 이러한 것이 본 발명에 어떠한 제한을 가하는 것은 아니다.

상술한 바와 같이, 제2 언어 모델 AM2는 대량의 언어 자료로부터 구축된다. 예를 들어, 다음과 같은 방법으로 구축될 수 있다.

(1) 예를 들어, 'w1w2, w3. w4'를 훈련용 문장으로서 취해보자.

훈련용 문장 내의 의사 구두점들은 다음과 같이 식별된다.

w1 '무구두점' w2 콤마 w3 종지부 w4

(2) 훈련자는 이 문장을 구두점을 읽지 않고 다음과 같이 읽는다.

'w1w2, w3. w4'

(3) 제1 음향 모델 AM1과 제1 언어 모델 LM1을 사용하여 훈련자가 발음한 문장을 디코딩한다. 상기 문장에는 구두점들이 있기 때문에, 훈련자는 읽을때 특정의 판독 스타일을 표출한다. w1과 w2 사이에는 어떠한 구두점도 없이 연속적으로 발음된다. w2를 읽고난 후, 훈련자는 콤마를 만나고 짧은 시간동안 멈추고 숨을 들이쉰다. 그 다음, 훈련자는 w3를 읽고, (종지부로 인해) 침묵을 유지한다. 마지막으로, w4가 판독된다. 예를 들어, 디코딩된 출력은 다음과 같을 것이다:

w1w2 들숨 w3 침묵 w4

(4) 디코딩된 출력에서 잡음을 표시한다. 상기 예에서, 아래 결과가 얻어진다.

w1 '무음기' w2 들숨 w3 침묵 w4

(5) 의사 구두점 m과 대응하는 의사 잡음 d를 정합시킨다.

('무구두점', '무음기')

(콤마, 들숨)

(종지부, 침묵)

의사 구두점 m과 의사 잡음간에는 (m, d)쌍이라 불리는 대응하는 관계가 있다. 쌍 (m, d)의 개수는 c(m, d)라 표현될 것이다. 훈련용 문장, 즉, 훈련자를 포함한 언어 자료는 다양한 잡음 및 보통 사람들의 언어 스타일을 포괄하기에 충분해야 한다. 따라서, c(m, d)는 일반적으로 1이상이다.

(6) P(d｜m)은 대략적으로 c(m,d)/c(m)으로 산출된다. 여기서, c(m)은 모든 의사 잡음 d'에 대해 대응하는 c(m, d')의 합계이다.

상기 방법은 제1 음향 모델 AM2의 구축 방법이다. 물론, 동일한 기능을 갖는 음향 모델 AM2를 구축하기 위해 다른 방법들이 사용될 수 있다.

도 2 및 도3을 참조하여 상술한 구두점을 자동으로 발생시키기 위한 장치 및 방법에 있어서, 사용자는 구두점을 발음할 필요도 없으며 구두점의 위치를 지정할 필요도 없다. 그러나, 사용자마다 발음 스타일이 서로 다르기 때문에, 의사 구두점이 구두점들의 위치를 결정하기 위한 한 조건으로 작용할 때 어느 정도의 오류는 반드시 있다.

이후에 기술되는 제2 실시예에서, 구술 동안에 구두점이 필요하면 구술과 동시에 그 정확한 위치를 지정하는 것이 필요하다. 이와 같은 정확한 위치 표시는, 예를 들어, 마우스를 클릭하거나 특정 하드웨어에 의해 구현될 것이다. 따라서, 의사 잡음을 사용할 필요없이, 제2 음향 모델 AM2 및 제1 음향 모델 AM1의 의사 잡음부는 생략될 것이다. 이러한 구현은 정확도는 더 높으면서 용이하게 이루질 수 있다. 그러나, 제1 실시예만큼 사용자가 조작하기에 편리하지는 않다.

도 4에 도시된 바와 같이, 본 발명에 따른 구두점을 자동으로 발생시키기 위한 방법의 제2 실시예는 다음의 단계들을 포함한다:

단계 S41에서, 음성 인식 절차가 시작된다. 이 단계에서, 문맥 c와 같은 모든 내부 변수들은 비워진다.

단계 S42에서, 사용자의 음성이 검출된다. 단계 S43에서, 사용자의 음성은 통상의 음향 모델 AM과 언어 모델 LM을 사용하여 단어들로 디코딩된다.

단계 S45에서, 구술동안 사용자가 표시한 구두점들이 식별된다.

단계 S47에서, 최적의 의사 구두점 M^ML이 다음과 같은 제2 언어 모델 LM2를 사용하여 발견된다:

M^ML= argmax m : LM2(m, c)

여기서, m은 구두점이고,

LM2(m, c) = P(m｜c)

단계 S48에서, M^ML은 자동으로 발생된 구두점이 되도록 취해지고, 현재의 문맥 c가 갱신된다.

단계 S49에서, 연속 음성 인식이 끝났는지가 판별된다. 끝나지 않았다면, 절차는 S42로 건너뛴다. 끝났다면, 단계 S410으로 진행한다.

단계 S410에서, 인식된 단어들과 자동으로 발생된 구두점들이 출력된다. 이 단계에서, 의사 구두점들이 실제 구두점들로 대체된다.

S411에서, 절차는 끝난다.

이제 제3 실시예가 기술될 것이다. 이 실시예는 기능에 있어서 제1 실시예 및 제2 실시예의 중간 형태이다. 제3 실시예는 비록 구술 동안에 구두점이 필요할 때는 명확한 위치를 사용자가 표시할 필요는 있지만, 어떤 물리적인 이동을 행하는 것이 아니라, 특별한 음, 예를 들어, '입맛 다시는 소리'를 내어 임의의 검출가능한 잡음을 발생시키거나, 일부러 침묵하여 구두점을 표시한다는 점에서 제2 실시예와는 다르다. 이런 식으로, 사용자는 보다 자유롭게 말할 수 있다. 제3 실시예는 구술 동안에 구두점의 위치에서 특별한 음이 발생되어 자연 잡음과 구두점을 위한 음간의 차이가 보다 분명하도록 한다는 점에서 제1 실시예와는 다르다. 제2 음향 모델 AM2가 구축될 때, 동일한 요건들이 훈련자에게 적용된다. 제3 실시예가 제1 실시예보다 더 높은 정확도를 가진다는 것은 실험적으로 증명된다.

본 발명의 방법은 반드시 사후 처리만으로 제한될 필요는 없다. 즉, 전체 문장의 디코딩이 완료된 후에 구두점을 자동으로 생성할 수 있을 뿐만 아니라 실시간(real time)으로 생성할 수도 있다. 즉, 구두점은 문맥을 형성하는 단어들이 디코딩되자마자 본 발명에 따라 자동으로 발생될 수 있다.

본 발명의 양호한 실시예들이 상술한 바와 같이 기술되었지만, 당업자들이 본 발명의 정신 및 영역에서 벗어나지 않고 다양한 수정 및 변경을 가할 수 있다는 것을 이해하여야 한다. 따라서, 본 발명의 영역은 첨부된 청구 범위에 의해 제한된다.

Claims

연속 음성 인식 시스템에서 구두점을 자동으로 발생시키기 위한 장치에 있어서,

사용자의 음성을 인식하고 상기 사용자의 음성을 단어들로 변환하기 위한 수단(1,2,3,5)을 포함하고,

사용자 음성을 인식하기 위한 상기 수단(1,2,3,5)은 상기 사용자 음성 내의 의사 잡음(pseudo noises)들도 역시 인식하는 것을 특징으로 하며,

상기 장치는,

사용자의 음성을 인식하기 위한 상기 수단(1,2,3,5)의 출력 결과에서 의사 잡음들을 표시하기 위한 수단(9), 및

의사 구두점들을 포함하는 언어 모델에 기초하여 의사 잡음들을 표시하기 위한 상기 수단(9)에 의해 표시된 의사 잡음들의 위치에서 가장 가능성있는 의사 구두점들을 발견하여 구두점들을 발생시키기 위한 수단(10, 14, 13)

을 더 포함하는 것을 특징으로하는 구두점 자동 발생 장치.
제1항에 있어서, 구두점들을 발생시키기 위한 상기 수단은

의사 구두점을 포함하는 언어 모델 내의 각각의 의사 구두점에 대해, 상기 구두점이 사용자의 음성을 인식하기 위한 상기 수단의 상기 출력 결과내에서 발생할 확률을 계산하기 위한 수단(10),

특정의 의사 구두점의 위치들에서 특정의 의사 잡음들이 발생할 확률들을 계산하기 위한 수단(14), 및

상기 계산된 확률들에 기초하여 의사 잡음들을 표시하기 위한 상기 수단(9)에 의해 표시된 상기 의사 잡음들의 위치들에서 가장 가능성있는 의사 구두점들을 발견하고 상기 가장 가능성있는 의사 구두점들에 대응하는 구두점들을 발생시키기 위한 수단(13)

을 포함하는 것을 특징으로 하는 구두점 자동 발생 장치.
연속 음성 인식 시스템에서 구두점을 자동으로 발생시키기 위한 장치에 있어서,

사용자의 음성을 인식하고 상기 사용자의 음성을 단어들로 변환하기 위한 수단(1,2,3,5)을 포함하고,

구술 동안에 사용자의 동작에 응답하여, 사용자 음성을 인식하기 위한 상기 수단(1,2,3,5)의 출력 결과 내에서의 위치들을 표시하는 위치 표시 신호를 발생시키기 위한 수단과,

의사 구두점을 포함하는 언어 모델 내의 각각의 의사 구두점에 대해, 상기 의사 구두점이 인식을 위한 상기 수단의 상기 출력 결과 내에서 발생할 확률을 계산하기 위한 수단(10)과,

상기 계산된 확률에 기초하여 상기 위치 표시 신호에 의해 표시된 위치들에서 가장 가능성있는 의사 구두점을 발견하고, 상기 가장 가능성있는 구두점들에 대응하는 구두점들을 발생시키기 위한 수단(13)

을 더 포함하는 것을 특징으로 하는 구두점 자동 발생 장치.
연속 음성 인식 시스템에서 구두점들을 자동으로 발생시키기 위한 방법에 있어서,

사용자의 음성을 인식하여 상기 인식된 사용자의 음성을 단어들로 변환하는 단계를 포함하고,

상기 사용자 음성 내의 의사 잡음들은 사용자 음성을 인식하는 상기 단계에서 역시 인식되는 것을 특징으로 하며,

상기 방법은,

사용자의 음성을 인식하는 상기 단계의 출력 결과 내에 의사 잡음을 표시해두는 단계, 및

의사 구두점들을 포함하는 언어 모델에 기초하여, 의사 잡음들을 표시해두는 상기 단계에서 표시된 상기 의사 잡음들의 위치들에서 가장 가능성있는 의사 구두점들을 발견하여 구두점들을 발생시키는 단계

를 더 포함하는 것을 특징으로 하는 구두점 자동 발생 방법.
연속 음성 인식 시스템에서 구두점들을 자동으로 발생시키기 위한 방법에 있어서,

사용자의 음성을 인식하여 상기 인식된 사용자의 음성을 단어들로 변환하는 단계를 포함하고,

구술 동안에 사용자의 동작에 응답하여, 사용자 음성을 인식하는 상기 단계의 출력 결과내의 위치들을 표시하는 위치 표시 신호를 발생시키는 단계,

의사 구두점들을 포함하는 언어 모델 내의 각각의 의사 구두점에 대해, 상기 구두점이 사용자 음성을 인식하는 상기 단계의 상기 출력 결과 내에서 발생할 확률을 계산하는 단계, 및

상기 계산된 확률들에 기초하여 상기 위치 표시 신호에 의해 표시된 위치들에서 가장 가능성있는 의사 구두점들을 발견하여 상기 가장 가능성있는 의사 구두점들에 대응하는 구두점들을 발생시키는 단계

를 더 포함하는 것을 특징으로 하는 구두점 자동 발생 방법.