KR19990071605A

KR19990071605A - 구두텍스트인식방법및시스템

Info

Publication number: KR19990071605A
Application number: KR1019980703881A
Authority: KR
Inventors: 하인리히 바르토시크
Original assignee: 요트.게.아. 롤페즈; 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 1996-09-27
Filing date: 1997-07-04
Publication date: 1999-09-27
Also published as: DE69709539T2; JP4339931B2; DE69709539D1; US6101467A; WO1998013822A1; JP2000502470A; KR100453021B1; EP0865651A1; EP0865651B1; ATE211847T1

Abstract

화자에 의해 발음된 상기 구두 텍스트가 제 1 데이터로 변환될 수 있는 변환 장치(33)와, 상기 제 1 데이터가 인가될 수 있고 어휘 데이터 장치(37), 언어 모델 데이터 장치(38), 참조 데이터 장치(39)가 서로 협동하도록 만들어 질 수 있으며, 인식 텍스트를 나타내는 제 2 데이터가 음성 인식 처리 동안 발생될 수 있으며, 인식 텍스트 내의 오류들을 정정하기 위한 제 3 데이터 및 정정된 텍스트를 나타내는 제 4 데이터가 발생될 수 있는 오류 정정 장치, 적응 데이터로 참조 데이터가 구두 텍스트의 화자에게 적응될 수 있는 적응 데이터가, 구두 텍스트를 나타내는 제 1 데이터 및 정정된 텍스트를 나타내는 제 4 데이터의 도움으로 발생될 수 있는 적응 수단을 구비하며, 적응 수단은 음성 인식 장치에 의해 형성되고, 어휘 데이터 장치, 어휘 모델 데이터 장치, 어휘 데이터, 언어 모델 데이터가 정정된 텍스트를 나타내는 제 4 데이터에 적응될 수 있고, 그러한 적응 이후에 새로운 음성 인식 처리가 구두 텍스트를 나타내는 제 1 데이터에 기초하여 음성 인식 장치에 의해 실행될 수 있으며, 그러한 처리에서 새롭게 인식된 텍스트를 나타내는 제 5 데이터는 적응 데이터로서 발생될 수 있으며, 적응 데이터는 참조 데이터를 적응시키기 위해 참조 데이터 장치(39)에 인가될 수 있는 구두 텍스트 인식 시스템(30).

Description

구두 텍스트 인식 방법 및 시스템

전문에서 밝힌 타입의 방법 및 제 2 단락에서 밝힌 타입의 시스템은 형태 지정 SP 6000 하에서 출원인에 의해 상업상으로 유효한 소위 음성 인식 시스템의 용어에서 공지된다. 이 공지된 방법은 도 1을 참조하면서 하기에 설명할 것이다. 도 1에 본 문장의 전후 관계에 관련된 방법의 다양한 단계들을 블록으로써 도식적으로 나타낸다.

구두 텍스트를 인식하는 공지의 방법에서, 구두 텍스트는 화자가, 도 1에 도식적으로 나타낸 마이크로폰에 대고 말하며, 마이크로폰(1)에 의해 공급된 아날로그 전기 신호들 형태의 구두 텍스트는 블록(2)에서, 아날로그 디지털 변환기로 실행된 아날로그 디지털 전환 처리에 의해 제 1 디지털 데이터로 전환된다. 구두 텍스트를 나타내는, 얻어진 디지털 데이터는 블록(3)의 메모리 내에 저장된다.

더욱이 구두 텍스트를 나타내는 제 1 디지털 데이터는 블록(4) 내의 음성 인식 장치로 실행된 음성 인식 처리를 거치게 된다. 이러한 음성 인식 처리는 어휘를 나타내며, 블록(5)의 어휘 데이터 장치 내에서 유효한 어휘 데이터와, 언어 모델을 나타내고 블록(6) 내의 언어 모델 데이터 장치 내에서 유효한 언어 모델 데이터와, 음소들을 나타내며, 블록(7) 내의 참조 데이터 장치에서 유효한 참조 데이터의 원리에 의해 영향을 받는다. 이러한 측면에서 어휘 데이터는 어휘의 낱말들뿐만 아니라 그 낱말들과 관련된 음소 시퀀스들, 즉 음성 스크립트도 나타낸다는 것을 주지하여야한다. 언어 모델 데이터에 관하여, 이것들은 텍스트 내의 낱말들의 소정의 시퀀스들의 발생 주파수뿐만 아니라 낱말들의 발생 주파수를 나타내는 데이터임을 주지하여야 한다. 참조 데이터에 관하여, 이들 데이터는 음소들, 즉 소정 수의 음소들에 대한 참조 패턴들을 나타내며, 소정 수의 음소들은 화자 특정의 방식으로 다른 사람들에 의해 다르게 발음되며, 그것은 각각의 음소에 대해 설정된 화자 특정의 참조 데이터 세트를 형성시킨다는 것을 주지하여야 한다.

참조 데이터 세트들에 관하여, 음성 인식 처리의 질은 참조 데이터 세트에 따라서 개선된다는 것, 즉 그 안에 포함된 참조 패턴들에 따라서 화자에게 더 좋게 적응된다는 것을 주지하여야 한다. 이러한 이유로 공지의 방법은 또한 하기에 설명할 바와 같이 각각의 화자에 대한 참조 데이터의 적응을 달성한다. 참조 데이터의 이러한 적응에 관해서, 원칙적으로 이러한 적응은 정정된 텍스트에 따라서 더 잘 실행되며, 인식 텍스트의 정정으로 얻어지고, 구두 텍스트와 더 잘 조화된다는 것을 또한 주지하여야 한다.

블록(4)에서 달성된 음성 인식 처리에 관하여, 그러한 음성 인식 처리에서는 음소들 및 음소 시퀀스들이 음소들을 나타내는 참조 데이터의 도움으로 구두 텍스트를 나타내는 제 1 디지털 신호들의 원리에 기초하여 인식된다고 간단히 말할 수 있으며, 마침내 낱말들 및 낱말 시퀀스들은 인식된 음소들 및 음소 시퀀스들에 기초하고 어휘 데이터 및 언어 모델 데이터의 도움으로 인식된다.

블록(4)에서 실행된 바와 같은 앞서 설명한 음성 인식 처리에 있어서, 제 2 디지털 데이터가 발생되며, 그것은 인식 텍스트를 나타낸다. 이러한 제 2 디지털 데이터는 블록(8)의 메모리에 로드 된다.

블록(9)에서 인식 텍스트는 제 2 디지털 데이터의 도움으로 표시 장치(10)에 표시된다. 표시 장치는 도 1에 도시된 모니터로 바람직하다. 인식 텍스트를 표시하는 목적은 음성 인식 처리의 오류 검출에 기초한 선택으로, 타이피스트와 같은 화자 또는 사용자에게 인식 텍스트를 체크하는 기회를 주고, 인식 텍스트 내의 오류들을 정정하는 것이다.

인식 텍스트가 간단한 방식으로 체크되게 하기 위해 메모리 내에 저장된 구두 텍스트를 나타내는 제 1 디지털 데이터는, 구두 텍스트의 청각적 재생을 위해 도 1에 도시된 스피커(12)에 신호들이 연속적으로 인가되는, 블록(11) 내의 디지털 아날로그 변환기에 의해 실행된 디지털 아날로그 전환 처리로써 아날로그 전기 신호들로 재 변환된다. 청각적으로 재생된 구두 텍스트를 듣고 표시된 인식 텍스트를 읽음으로써 인식 텍스트가 정확성과 오류들을 위해 매우 간단하게 체크될 수 있다.

사용자가 블록(4)의 음성 인식 처리의 오류 검출에 기초하여, 인식 텍스트의 오류를 검출할 때 사용자는 블록(13)의 오류 정정 장치로 오류 정정 처리를 실행할 수 있으며, 도 1에 도시된 키보드(14)로 사용자는 제 2 디지털 데이터에 의해 나타난 인식 텍스트의 정정을 위해 제 3 디지털 데이터를 발생시키며, 제 2 디지털 데이터는 따라서 블록(13)의 인식 텍스트를 정정하도록 제 3 디지털 데이터에 의해 부분적으로 대체된다. 즉 텍스트 부분들이나 낱말들 또는 사용자에 의해 부정확하게 인식된 문자들은 옳은 텍스트 부분들, 낱말들 또는 키보드(14)에 의해 엔터된 문자들로 대체된다. 엔터된 제 3 디지털 데이터에 의해 제 2 디지털 데이터의 이러한 부분적인 대체는 정정된 텍스트를 나타내는 제 4 디지털 데이터를 생기게 한다. 정정된 텍스트를 나타내는 제 4 디지털 데이터는 블록(15)의 메모리 내로 로드 된다. 저장된 제 4 디지털 데이터는 블록(16)에 표시되며, 블록(16)은 또한 도 1에 도시된 바와 같이 표시 장치(10) 상에서 달성된다. 이것은 공지 방법의 실제적인 음성 인식 처리를 마친다.

그러나 앞서 설명한 바와 같이 그러한 음성 인식 처리에 있어서, 블록(7)의 참조 데이터 장치에서 유효한 참조 데이터를 관련 화자에게 적을 시키는 것은 매우 효과적이며 그 결과로서, 향상된 인식의 질이 다른 구두 텍스트의 이어서 일어나는 음성 인식 처리 동안 얻어진다. 공지의 방법에서, 유효한 참조 데이터의 적응을 달성시키기 위해 구두 텍스트의 화자에 대한 유효한 참조 데이터의 적응을 위한 적응 데이터가 제 1 디지털 데이터 및 제 4 디지털 데이터의 도움으로 발생되며, 음소들을 나타내는 유효한 참조 데이터는 발생된 적응 데이터 및 제 1 디지털 데이터의 도움으로 구두 텍스트의 화자에게 적응되어 구두 텍스트의 화자에게 적응된 참조 데이터가 얻어진다. 상기 적응 데이터를 발생시키기 위해 공지 방법은 블록(17)의 검증 장치로 검증 처리를 실행한다. 이러한 검증 처리를 실행하기 위해 검증 장치는 화살표(18)로 표시된 바와 같이 구두 텍스트를 나타내는 제 1 디지털 데이터와, 화살표(19)로 표시된 바와 같이 인식 텍스트를 나타내는 제 2 디지털 데이터와, 화살표(20)로 표시된 바와 같이 정정된 텍스트를 나타내는 제 4 디지털 데이터와, 화살표(21)로 표시된 바와 같은 어휘 데이터와, 화살표(22)로 표시된 바와 같은 참조 데이터를 수신한다. 검증 장치에 인가된 모든 데이터의 도움으로, 특히 새로운 음성 인식 처리가 실행되는 블록(17)에서 검증 처리의 복잡한 발견적인 방법을 이용하여, 검증 장치는 구두 텍스트 내의 대응하는 텍스트 부분들과 가장 잘 매치 되는, 정정된 텍스트 내의 텍스트 부분들을 결정하며, 그것은 블록(4)의 구두 텍스트의 음성 인식 처리 동안 음성 인식 장치에 의해 인식 텍스트에 기초하여, 정정에 의해 연속적으로 얻어진 정정된 텍스트를 참작하며 달성된다. 구두 텍스트의 가장 잘 매치 되는 텍스트 부분들은 디지털 데이터로 나타내며, 그것은 앞서 설명한 적응 데이터를 형성한다. 이러한 적응 데이터는 블록(23)의 메모리 내로 로드 된다.

더욱이 블록(23)의 메모리에 저장된 적응 데이터 및 블록(3)의 메모리에 저장된 제 1 디지털 데이터는 화살표(24, 25)로 표시된 바와 같이 블록(7)의 참조 데이터 장치에 저장된 참조 데이터를 적응시키도록 사용된다. 이러한 적응의 결과로서, 참조 데이터 즉 다양한 음소들을 위한 참조 패턴들은 화자에게 저 잘 적응되며, 그것은 이어서 발음되는 텍스트의 이어서 일어나는 음성 인식 처리 동안 인식의 질을 더 좋게 한다.

앞서 설명한 공지 방법에서 명백한 바와 같이 형태 지정 SP 6000을 갖는 공지의 인식 시스템은 제 1 디지털 데이터의 도움으로 구두 텍스트의 화자에게 적응시킬 수 있다. 제 1 디지털 데이터, 제 2 디지털 데이터, 제 4 디지털 데이터, 어휘 데이터 및 참조 데이터는 이러한 검증 장치에 인가된다. 검증 장치에 인가된 모든 데이터의 도움으로 이미 설명한 바와 같이 또한 새로운 음성 인식 처리가 실행되는 검증 처리에 있어서 복잡한 발견적 방법들을 이용하여, 검증 장지는 구두 텍스트 내의 대응하는 텍스트 부분들과 가장 잘 매치 되는 정정된 텍스트 내의 텍스트 부분들을 결정하며, 그 정정된 텍스트를 참작하며, 그 검증 장치는 그렇게 해서 결정된, 가장 잘 매치 되는 텍스트 부분들에 대응하는 적응 데이터를 발생시킨다. 공지의 음성 인식 시스템의 검증 장치는 매우 복잡하고 난해하며, 그것은 데이터의 많은 양이 난해한 발견적 방법들에 의해 처리되고 분석되어야 하는 사실에 주로 기인한다. 더욱이 검증 장치의 검증 처리의 검증 사이클은 매우 복잡하며, 비교적 긴 처리 시간을 필요로 하기 때문에 별로 유익하지 못하다. 그밖에도, 공지의 음성 인식 시스템의 복잡한 검증 장치의 공급에도 불구하고, 구두 텍스트의 화자에 대한 참조 데이터의 적응이 몇몇 경우, 즉 예컨대 검증 처리 동안 불만족스럽게 적응된 참조 데이터 때문에 비교적 부정확한 음성 인식 처리만 발생하는 경우에, 비교적 천천히 진행되는데 이것은 비교적 큰 텍스트 부분이 오류 내용 때문에 검증 장치에 의해 도출되고, 비교적 작은 텍스트 부분만 참조 데이터를 적응시키기 위한 적응 데이터로서 사용될 수 있기 때문이라는 것을 알아냈다. 이것은 비교적 불충분하게 적응된 참조 데이터 및, 결과적으로 참조 데이터의 빠르고 효과적인 적응이 실제로 필요한 경우, 이러한 필요성이 만족되지 않는다는 문제점을 초래한다.

본 발명은 구두 텍스트 인식 방법에 관한 것이며, 그 방법에 의하면 화자가 발음한 구두 텍스트가 제 1 디지털 데이터로 전환되고, 구두 텍스트를 나타내는 제 1 디지털 데이터가 음성 인식 처리를 거치게 되며, 여기서 어휘를 나타내는 유효한 어휘 데이터, 언어 모델을 나타내는 유효한 언어 모델 데이터, 음소들을 나타내는 유효한 참조 데이터에 대한 처리 허용이 이루어지며, 그 처리에서는 인식 텍스트를 나타내는 제 2 디지털 데이터가 발생되며, 그 방법에 있어서 인식 텍스트가 제 2 디지털 데이터의 도움으로 표시되며, 제 3 디지털 데이터는 제 2 디지털 데이터에 의해 나타난 인식 텍스트를 정정하도록 발생되며, 제 2 디지털 데이터의 일부는 제 3 디지털 데이터에 의해 대체되고, 이 결과로 정정된 텍스트를 나타내는 제 4 디지털 데이터가 얻어지며, 구두 텍스트를 화자에게, 유효한 참조 데이터를 적응시키기 위한 적응 데이터가 제 1 디지털 데이터 및 제 4 디지털 데이터의 도움으로 발생되며, 유효한 참조 데이터는 적응된 참조 데이터를 얻도록, 제 1 디지털 데이터 및 적응 데이터의 도움으로써 구두 텍스트를 화자에게 적응된다.

본 발명은 또한 화자가 발음한 구두 텍스트가 구두 텍스트를 나타내는 제 1 디지털 데이터로 전환될 수 있는 전환 장치를 구비하며, 어휘를 나타내며 어휘 데이터 장치에 저장될 수 있는, 유효한 어휘 데이터를 위한 어휘 데이터 장치를 구비하며, 언어 모델을 나타내고 언어 모델 데이터 장치에 저장될 수 있는 유효한 언어 모델 데이터를 위한 언어 모델 데이터 장치를 구비하며, 음소들을 나타내고 참조 데이터 장치에 저장될 수 있는 유효한 참조 데이터를 위한 참조 데이터 장치를 구비하며, 언어 모델 데이터 장치 및 참조 데이터 장치는 서로 협동하도록 만들어 질 수 있으며, 거기에 제 1 디지털 데이터가 인가될 수 있으며, 인식 텍스트를 나타내는 제 2 디지털 데이터를 공급하도록 적응되며, 제 1 디지털 데이터에 기초하여 음성 인식 처리가 실행되는 동안 발생되며, 제 2 디지털 데이터가 인식 텍스트를 표시하기 위해 인가될 수 있는 표시 장치를 포함하며, 제 2 디지털 데이터로 나타낸 텍스트의 정정을 위해 제 3 디지털 데이터가 들어갈 수 있고 제 2 디지털 데이터의 일부가 제 3 디지털 데이터로 대체될 수 있으며, 그로써 정정된 텍스트를 나타내는 제 4 디지털 데이터가 발생될 수 있게하는 오류 정정 장치를 구비하며, 제 1 디지털 데이터 및 제 4 디지털 데이터가 인가될 수 있고 유효 참조 데이터를 구두 텍스트를 화자에게 적응 시키는 적응 데이터가 발생될 수 있는 적응 수단을 포함하며, 그 적응 데이터 및 제 1 디지털 데이터는 구두 텍스트를 화자에게 유효한 참조 데이터를 적응시키기 위해 참조 데이터 장치에 인가될 수 있으며, 구두 텍스트를 화자에게 적응된 참조 데이터는 참조 데이터 장치에 저장될 수 있다.

도 1은 구두 텍스트를 인식하는 종래의 방법을 도시하는 블록도.

도 2는 도 1과 동일한 방식으로 본 발명에 따른 구두 텍스트를 인식하는 방법을 도시하는 도면.

도 3은 음소들을 나타내는 참조 데이터가 빠르면서 효과적으로 적응될 수 있는, 본 발명에 따른 구두 텍스트를 인식하는 시스템을 도시하는 블록도.

본 발명의 목적은 구두 텍스트의 화자에 대한 참조 데이터의 적응이, 최소한의 비용으로 비교적 빠르고 만족스럽게 이루어질 수 있도록 하기 위해, 간단히 두 번 째 문단에서 밝힌 형태의 시스템뿐만 아니라 서두에서 밝힌 형태의 방법을 개선하고 앞서 설명한 문제점들을 없애는 것이다.

이러한 목적을 이루기 위해 전문에서 밝힌 형태의 방법은 본 발명에 따라, 유효한 어휘 어휘데이터 및 유효한 언어 모델 데이터는 정정된 텍스트를 나타내는 제 4 디지털 데이터를 얻은 후에 제 4 디지털 데이터에 의해 구두 텍스트의 화자에게 적응되며, 이어서 구두 텍스트를 나타내는 제 1 디지털 데이터는 적응된 어휘 데이터와 적응된 언어 모델 데이터와 유효한 참조 데이터가 허용되는 음성 인식 처리를 다시 거치게되며, 새로 인식 텍스트를 나타내는 제 5 디지털 데이터가 발생되며, 제 5 디지털 데이터는 적응 데이터로서 사용되며, 구두 텍스트의 화자에게, 유효한 참조 데이터를 적응시키기 위해 제 1 디지털 데이터와 함께 사용되는 것을 특징으로 한다.

더욱이 이러한 목적을 이루기 위해 두 번 째 문단에서 밝힌 형태의 시스템은 본 발명에 따라, 적응 수단이 음성 인식 장치, 어휘 데이터 장치, 언어 모델 데이터 장치에 의해 형성되며, 제 4 디지털 데이터는 어휘 데이터 장치 및 언어 모델 데이터 장치에 인가되어 유효한 어휘 데이터 및 유효한 언어 모델 데이터를 구두 텍스트의 화자에게 적응시키며, 음성 인식 장치에 의해, 새롭게 인식 텍스트를 나타내는 제 5 디지털 데이터가 어휘 데이터 및 언어 모델 데이터의 적응 이후 제 1 디지털 데이터에 기초하여 실행된 새로운 인식 처리 동안 발생될 수 있으며, 적응 데이터로서 사용된 제 5 디지털 데이터는 제 1 디지털 데이터와 함께 구두 텍스트의 화자에게, 유효한 참조 데이터를 적응시키기 위해 참조 데이터 장치에 인가될 수 있다.

본 발명에 따른 방법에 의해, 참조 데이터 장치에서 유효한 참조 데이터가 구두 텍스트의 화자에게 적응될 수 있는 수단으로 적응을 발생시키기 위한 적응 수단이 어쨌든 존재하는 수단, 즉 음성 인식 장치, 어휘 데이터 장치 및 언어 모델 데이터 장치에 의해 형성되며, 그 결과 검증 수단과 같은 분리 수단이 필요하지 않으며, 그것은 간단하고 적은 비용의 실행에 이롭다. 새롭게 인식 텍스트를 나타내는 제 5 디지털 데이터 형태의 적응 데이터의 도움으로 구두 텍스트의 화자에게 참조 데이터를 적응시키는 것은 참조 데이터가 비교적 빠르고 매우 효과적이게 처리될 수 있다는 이점이 있으며, 그것은 음성 인식 장치에 의해 새롭게 인식 텍스트의 경우에, 새롭게 인식 텍스트의 대부분은 구두 텍스트와 매우 잘 매치 된다고 가정할 수 있기 때문이며, 그 결과 새롭게 인식 텍스트를 나타내는 제 5 디지털 데이터와 구두 텍스트를 나타내는 제 1 디지털 데이터에 기초하는 참조 데이터의 적응이 특히 빠르면서 효과적으로 실행될 수 있다.

본 발명에 따른 시스템에 있어서, 만약 시스템이 퍼스널 컴퓨터에 의해 실행되면 그것은 특히 이롭다는 것이 입증되었다. 이것은 가능한 한 싼 실행이라는 관점에 있어서 매우 이롭다.

본 발명의 다른 측면뿐만 아니라 앞서 설명한 것들은 하기에 설명한 실시 예로부터 명백해질 것이며, 이러한 예시에 기초하여 명료하게 설명될 것이다.

본 발명은 이제 도면을 참조하여 더욱 상세히 설명할 것이며, 그 도면들은 본 발명이 국한되지 않은 실시 예들이다.

구두 텍스트를 인식하는 본 발명에 따른 방법은 도 2를 참조하면서 하기에 설명한다. 도 2에서, 도 1과 동일한 방법으로, 본 배경과 관계되는 방법의 단계들이 블록으로 도시된다. 본 발명에 따른 몇몇 단계들은 도 1을 참조하여 설명한 종래 방법들의 단계들과 실제로 유사하며 그 때문에 이러한 방법들을 간단하게만 설명한다.

본 발명에 따른 방법에 있어서, 화자는 마이크로폰(1)에 대고 텍스트를 말하며, 그것은 아날로그 전기 신호를 공급한다. 블록(2)에서 아날로그 전기 신호들의 형태로 공급된 구두 텍스트는 아날로그 디지털 변환기에 의해 형성된 아날로그 디지털 변환 처리로 제 1 디지털 데이터로 변환되며, 그 디지털 데이터는 구두 텍스트를 나타내며, 블록(3)내의 메모리로 로드 된다.

더욱이 구두 텍스트를 나타내는 제 1 디지털 데이터는 블록(4)의 음성 인식 장치에 의해 형성된 음성 인식 처리를 거친다. 공지의 방법과 동일한 방식으로, 본 발명에 따른 방법으로 처리된 이러한 음성 인식 처리는 또한 블록(5)의 어휘 데이터 장치에서 유효하고 어휘를 나타내는 어휘 데이터와, 블록(6)의 언어 모델 데이터 장치에서 유효하고 언어 모델을 나타내는 언어 모델 데이터와, 블록(7)의 참조 데이터 장치에서 유효하고 음소들을 나타내는 참조 데이터에 기초하여 실행된다. 도 1에 따른 공지의 방법과 동일한 방식으로 제 2 디지털 데이터가 발생되며, 그것은 본 발명에 따른 방법으로 블록(4)에서 실행된 음성 인식 처리동안 인식 텍스트를 나타낸다. 제 2 디지털 데이터는 블록(8) 내의 메모리로 로드 된다.

본 발명에 따른 방법의 제 1 동작 모드에서 블록(3)의 전체 구두 텍스트는 메모리 내로 저장될 수 있으며, 저장될 때까지 블록(4)의 음성 인식 처리를 거칠 수는 없다. 그러나 제 2 동작 모드에서 구두 텍스트는 이러한 텍스트가 말로 나타나는 동안 블록(4)에 따른 음성 인식 처리를 계속적으로 교대로 거칠 수 있다.

블록(9)에서 인식 텍스트는 제 2 디지털 데이터의 도움으로 표시 장치(10), 즉 모니터에 표시된다. 인식 텍스트를 표시함으로써 타이피스트와 같은 화자 또는 사용자는 인식 텍스트를 체크하고 그 인식 텍스트 내의 오류를 음성 인식 처리의 오류 검출에 기초하여 선택적으로 정정할 기회가 주어진다.

인식 텍스트가 간단한 방식으로 체크되게 하기 위해, 블록(3)의 메모리에 저장된 구두 텍스트를 나타내는 제 1 디지털 데이터가 블록(11)의 디지털 아날로그 변환기에 의해 실행된 디지털 아날로그 변환 처리로 디지털 아날로그 변환의 아날로그 전기 신호들로 변환되며, 그 신호들은 이어서 구두 텍스트의 청각적 재생을 위한 스피커(12)로 인가된다. 청각적으로 재생된 구두 텍스트를 청취하고 표시된 인식 텍스트를 판독함으로써 인식 텍스트는 정확성 또는 오류들을 위해 매우 간단히 체크될 수 있다.

본 발명에 따른 방법에서 구두 텍스트의 계속적 인식이 상기 제 2 동작 모드에서 실행되며, 그 동안에 구두 텍스트는 인식되고 계속적으로 표시되며, 인식된 구두 텍스트는 표시된 인식 텍스트를 계속적으로 판독함으로써 체크될 수 있다.

블록(4)의 음성 인식 처리의 오류 검출에 기초하여 인식 텍스트의 오류를 사용자가 검출할 때 사용자는 블록(13)의 오류 정정 장치에 의해 정정 처리를 실행할 수 있으며, 사용자는 키보드(14)로 제 3 디지털 데이터를 발생시키므로, 제 2 디지털 데이터는 따라서 블록(13)의 인식 텍스트를 정정하기 위해 제 3 디지털 데이터로써 부분적으로 대체된다. 이러한 전체 제 3 디지털 데이터에 의한 제 2 디지털 데이터의 부분적 대체는 정정된 텍스트를 나타내는 제 4 디지털 데이터를 생성시킨다. 정정된 텍스트를 나타내는 제 4 디지털 데이터는 블록(15)의 메모리에 로드 된다. 저장된 제 4 디지털 데이터는 블록(16)에 표시되며, 그것은 또한 표시 장치(10)에 나타난다. 이것은 본 발명에 따른 방법의 실제적인 음성 인식 처리를 포함한다.

그러나 도 1에 따른 공지 방법의 설명에서 이미 나타낸 바와 같이 도 2와 관련하여 설명한 본 발명에 따른 음성 인식 방법에서는, 블록(7)의 참조 데이터 장치에서 유효한 참조 데이터를 관련 화자에게 적응시키는 것이 매우 효과적이며, 그 결과 향상된 인식의 질이, 다른 구두 텍스트의 연속적인 음성 인식 처리 동안 얻어진다. 본 발명에 따른 방법의 유효한 참조 데이터 적응을 실행시키기 위해 본 발명에 다른 방법의 다음 단계들이 존재하는 수단들을 이용하여 이로운 방식으로 실행된다.

블록(15)의 메모리에 저장되고 정정된 텍스트를 나타내는 제 4 디지털 데이터가 화살표(26, 27)로 표시된 바와 같이 수신된 이후에 블록(5)의 어휘 데이터 장치에서 유효한 어휘 데이터와 블록(6)의 언어 모델 데이터 블록에서 유효한 언어 모델 데이터가 제 4 디지털 데이터의 도움으로 화자에게 적응된다.

어휘 데이터 및 언어 모델 데이터의 이러한 적응이 적응된 이후 블록(3)의 메모리에 저장되고 구두 텍스트를 나타내는 제 4 디지털 데이터가 블록(4)의 음성 인식 장치에 의해 실행된 음성 인식 처리를 다시 거치게 된다. 이러한 음성 인식 처리는 적응된 어휘 데이터와 적응된 언어 모델 데이터 및 아직 적응되지 않은 참조 데이터를 이용한다. 블록(4)에서 실행된 새로운 음성 인식 처리에서, 제 5 디지털 데이터가 발생되며, 그것은 새롭게 인식된 텍스트를 나타낸다. 제 5 디지털 데이터는 블록(28)의 메모리에 저장된다.

더욱이 본 발명에 따른 방법은 블록(28)의 메모리에 저장되고 새롭게 인식된 텍스트를 나타내는 제 5 디지털 데이터를 사용하며 그것은 적응 데이터로서 사용된다. 적응 데이터로서 사용된 제 5 디지털 데이터 및 블록(3)의 메모리에 저장된 제 1 디지털 데이터는 블록(7)의 화살표(29, 25)로 표시된 바와 같이 참조 데이터에 인가되어 구두 텍스트의 화자에게 참조 데이터 장치에 저장된 참조 데이터를 적응시킨다. 이러한 적응의 결과로서 참조 데이터, 즉 다양한 음소들을 위한 참조 패턴들은 구두 텍스트의 화자에게 더 잘 적응되며, 그것은 화자에 의해 연속적으로 발음된 구두 텍스트의 연속적인 음성 인식 처리 동안 더 나은 인식의 질에 이르게 한다.

구두 텍스트를 인식하기 위한 본 발명에 따른 시스템은 도 3을 참조하여 설명할 것이며, 그 시스템으로 도 2를 참조하여 설명한 음성 인식 방법이 실행될 수 있다.

도 3은 퍼스널 컴퓨터에 의해 실행된 본 발명에 따른 시스템(30)을 도시한다. 시스템(30)은 버스(31)를 포함하며, 그것은 공지의 방식으로 소정 수의 어드레스 라인과, 소정 수의 데이터 라인 및 소정 수의 제어 라인들을 포함한다. 버스(31)는 시스템(30)의 다양한 장치들을 접속시키고, 시스템(30)의 다양한 장치들 사이에 데이터를 전송시킨다. 시스템(30)의 중앙 처리 장치(32)는 버스(31)에 접속된다. 증앙 제어 장치(32)에 의해 프로그램은 시스템(30)의 다양한 처리를 제어하도록 운용될 수 있다. 중앙 제어 장치(32)의 본질적 기능들 중 하나는 시스템(30)의 개별적 장치들 사이의 데이터 전송을 제어하는 것이다. 도 3에서 이러한 데이터 전송은 방향들을 나타내기 위한 화살촉들을 갖는 실선으로써 도식적으로 나타내어진다.

시스템(30)은 제 1 음성 신호 변환 장치(33)를 구비하며, 그것은 아날로그 디지털 변환기를 구비하며, 그것으로 구두 텍스트에 대응하고 마이크로폰(1)에 의해 공급된 아날로그 전기 신호들이 제 1 디지털 데이터로 변환될 수 있다. 제 1 디지털 데이터를 저장하기 위해 시스템(30)은 버스(31)에 접속된 메모리 장치(34)를 구비한다.

시스템(30)은 버스(31)에 접속된 음성 인식 장치(35)를 더 구비한다. 시스템(30)의 제 1 동작 모드에서 제 1 메모리 장치(34)에 저장된 제 1 디지털과 시스템(30)의 제 2 동작 모드에서 음성 신호 변환 장치(33)에 의해 공급된 제 1 디지털 데이터는 음성 인식 장치(35)에 직접 인가될 수 있다. 음성 인식 장치(35)는 제 1 디지털 데이터에 기초하여 제 1 음성 인식 처리로 발생되고 인식 텍스트를 나타내는 제 2 디지털 데이터를 공급하도록 적응된다. 제 2 디지털 데이터를 저장하기 위해 시스템(30) 버스(31)에 접속된 제 2 메모리 장치(36)를 포함한다.

시스템(30)의 음성 인식 장치가 실행될 때 음성 인식 처리는 시스템(30)에서 유효하고 어휘를 나타내는 어휘 데이터와, 언어 모델을 나타내고 시스템(30)에서 유효한 언어 모델 데이터와, 음소들을 나타내고 시스템(30)에서 유효한 참조 데이터를 사용한다. 이러한 목적을 위해 시스템(30)은 버스(31)에 접속된 어휘 데이터 장치(37), 버스(31)에 접속된 언어 모델 데이터 장치(38), 버스(31)에 접속된 참조 데이터 장치(39)를 구비한다. 어휘 데이터 장치(37)는 버스(31)에 접속된 제 1 데이터 처리 장치(40)와, 버스(31)에 의해 제 1 데이터 처리 장치(40)에 접속되는 어휘 데이터 메모리 장치(41)를 구비하며, 도 3에서 기호로만 도시된다. 언어 모델 데이터 장치(38)는 버스(31)에 접속된 제 2 데이터 처리 장치(42)와, 버스(31)에 의해 데이터 처리 장치(42)에 접속된 언어 모델 데이터 메모리 장치(43)를 구비한다. 참조 데이터 장치(39)는 버스(31)에 접속된 제 3 데이터 처리 장치(44)와 버스(31)에 의해 제 3 데이터 처리 장치(44)에 접속된 참조 데이터 메모리 장치(45)를 구비한다.

도 3에 도시된 바와 같은 시스템(30)은 버스(31)에 접속된 표시 장치(10)를 갖는다. 표시 장치(10)는 버스(31)에 접속되는 표시 드라이버(46)와, 버스(31)에 의해 표시 드라이버(46)에 접속되는 표시 수단(47)을 구비하며, 그 수단으로써 판독될 텍스트가 표시된다.

시스템(30)은 또한 버스(31)에 접속된 제 2 음성 신호 변환 장치(48)를 갖는다. 제 2 음성 신호 변환 장치(48)는 기본적으로 디지털 아날로그 변환기를 구비한다. 제 2 음성 신호 변환 장치(48)에 의해 제 1 메모리 장치(34)에 저장되고 구두 텍스트를 나타내는 제 1 디지털 데이터가 아날로그 전기 신호들로 변환될 수 있으며, 그것은 스피커(12)에 인가될 수 있고, 그 스피커는 구두 텍스트의 청각적 재생을 위해 음성 신호 변환 장치(48)에 접속된다.

시스템(30)은 버스(31)에 접속된 오류 정정 장치(49)를 더 갖는다. 오류 정정 장치(49)는 버스(31)에 접속된 정정 장치(50)와, 키보드(14)에 의해 형성되고 버스(31)에 의해 정정 장치(50)에 접속되는 정정 입력 장치를 구비한다. 제 2 메모리 장치(36)에 저장된 제 2 디지털 데이터로 표현된 인식 텍스트를 정정하기 위해 오류 정정 장치(49), 즉 키보드(14)로써 제 3 디지털 데이터는 엔터될 수 있으며, 제 2 디지털 데이터의 일부는 제 3 디지털 데이터에 의해 대체될 수 있으며, 따라서 제 4 디지털 데이터가 정정 장치(50)에 의해 발생될 수 있게 한다. 정정 장치(50)에 의해 발생된 제 4 디지털 데이터는 정정된 텍스트를 나타낸다.

정정된 텍스트를 나타내는 제 4 디지털 데이터를 저장하기 위해 시스템(30)제 3 메모리 장치(51)를 버스(31)에 접속시킨다.

시스템(30)은 제 4 메모리 장치(52)를 버스(31)에 접속시키며, 그 메모리 장치는 새롭게 인식된 텍스트를 나타내는 제 5 디지털 데이터를 저장하는데 사용된다. 이러한 제 5 디지털 데이터의 발생은 하기에 상세히 설명한다.

시스템(30)은 프린팅 장치(53)를 버스(31)에 또한 접속시킨다. 프린팅 장치(53)는 버스(31)에 접속된 프린터 제어 장치(54)와, 프린터 제어 장치(54)에 버스(31)로써 접속된 프린터(55)를 구비한다.

전문에 시스템(30)의 개별 장치를 설명하였다. 하기에는 본 배경에서 중요한 시스템(30)의 몇몇 처리들에 관해서 설명한다. 이러한 측면에서 도 3의 실선으로 나타낸 데이터 전송은 시스템(30)의 한 장치에서 다른 장치로 실행되어야 한다는 것을 한 번 더 주지하여야 한다. 이러한 배경에서 사실상 그러한 데이터 전송은 관련 선에 의해 표시된 바와 같이 시스템(30)의 한 장치에서 시스템(30)의 다른 장치로 직접 실행되지 않는다는 것을 생각해야하며, 그것은 도면의 명확성을 위해 도 3에 도시하지 않는다.

시스템(30)의 사용자, 즉 화자가 소정 길이, 예컨대 몇 분 길이의 텍스트를 마이크로폰(1)에 대고 말할 때 구두 텍스트는 마이크로폰(1)으로부터 아날로그 전기 신호들의 형태로 제 1 음성 신호 변환 장치(33)로 인가되며, 그 구두 텍스트는 제 1 음성 신호 변환 장치(33)의 아날로그 디지털 변환기에 의한 아날로그 디지털 변환 처리로써 제 1 디지털 데이터로 변환된다. 중앙 제어 장치(32)의 제어 하에서 앞서 설명한 제 1 동작 모드의 제 1 음성 신호 변환 장치(33)에 의해 발생된 제 1 디지털 데이터는 점선(56)으로 표시된 바와 같은 버스(31)에 의해 제 1 메모리 장치(34)로 전달되며, 그 제 1 메모리 장치(34)에 저장된다.

제 1 메모리 장치(34)에 저장된 제 1 디지털 데이터는 중앙 제어 장치(32)의 제어 하에서 버스(31)에 의해 점선(57)에 의해 표시된 바와 같이 이러한 메모리 장치로부터 음성 인식 장치(35)로 인가될 수 있다. 앞서 설명한 제 2 동작 모드에서 제 1 디지털 데이터의 음성 인식 장치(35)로의 이러한 적응은 제 1 메모리 장치(34)에 제 1 디지털 데이터를 저장하는 것과 동시에 실행될 수 있으나 제 1 동작 모드에서는 제 1 메모리 장치(34)의 소정 길이의 구두 텍스트에 대응하는 제 1 디지털 데이터의 저장을 완성하자마자 또한 실행될 수 있다.

음성 인식 장치(35)에서 제 1 디지털 데이터는 음성 인식 처리를 거친다. 이러한 음성 인식 처리 동안 어휘 데이터 장치(37)의 어휘 데이터 메모리 장치(41)에 저장되고 어휘를 나타내는 어휘 데이터는 이러한 음성 인식 처리에 사용되기 위해 점선(58)에 의해 표시된 바와 같이 버스(31)를 거쳐 어휘 데이터 장치(37)의 제 1 데이터 처리 장치(40)에 의해 음성 인식 장치(35)에 인가된다. 더욱이 이러한 음성 인식 처리 동안, 언어 모델을 나타내고 언어 모델 데이터 장치(38)의 언어 모델 데이터 메모리 장치(43)에 저장된 언어 모델 데이터는 이러한 음성 인식 처리에 사용되도록 점선(59)에 의해 표시된 바와 같이 버스(31)를 거쳐 제 2 데이터 처리 장치(42)에 의해 음성 인식 장치(35)에 인가된다. 더욱이 이러한 음성 인식 처리 동안 참조 데이터 장치(39)의 참조 데이터 메모리 장치(45)에 저장되고 음소들을 나타내는 참조 데이터는 이러한 음성 인식 처리에 사용되도록 점선(60)에 의해 표시된 바와 같이 참조 데이터 장치(39)의 제 3 데이터 처리 장치(44)를 거쳐 음성 인식 장치(35)에 인가된다. 음성 인식 장치(35)에 의해 실행된 음성 인식 처리 동안 음소들 및 음소 시퀀스들은 음소들을 나타내는 참조 데이터의 도움으로 구두 텍스트를 나타내는 제 1 디지털 데이터에 기초하여 인식되며, 마침내는 단어들 및 단어 시퀀스들이 인식된 음소들 및 음소 시퀀스들의 도움 및 어휘 데이터와 언어 모델 데이터의 도움으로 인식된다. 그러한 음성 인식 처리들의 실행은 원래 공지된 기법이며, 더이상 하기에서 설명하지 않는다. 인식된 텍스트를 나타내는 제 2 디지털 데이터는 음성 인식 장치(35)에 의해 실행된 음성 인식 장치 처리 동안 발생된다. 음성 인식 장치(35)에 의해 발생된 제 2 디지털 데이터는 중앙 제어 장치(32)의 제어 하에서 버스(31)를 거쳐 제 2 메모리 장치(36)에 인가되고 그 메모리 장치(36)에 저장된다.

제 2 메모리 장치(36)에 저장된 제 2 디지털 데이터는 또한 중앙 처리 장치(32)의 제어 하에서 점선(62)에 의해 표시된 바와 같이 표시 장치(10)에 인가된다. 표시 장치(10)에서 인가된 제 2 디지털 데이터는 표시 드라이버(46)에 의해 처리되며, 그 이후에 인식된 텍스트는 제 2 디지털 데이터를 이용하여 표시 장치(10), 즉 표시 수단(47)에 의해 표시된다. 인식된 텍스트의 표시 결과로 사용자는 인식된 텍스트의 오류들을 정정하기 위해 음성 인식 처리의 오류 검출에 기초하여 선택적으로, 인식된 텍스트를 체크할 수 있다.

인식된 텍스트가 간단한 방식으로 체크되게 하기 위해 제 1 메모리 장치(34)에 저장된 구두 텍스트를 나타내는 제 1 디지털 데이터는 점선(63)에 의해 표시된 바와 같이 버스(31)를 거쳐 중앙 제어 장치(32)의 제어 하에서 제 2 음성 신호 변환 장치(48)에 전달될 수 있다. 제 2 음성 신호 변환 장치(48)에서 인가된 제 1 디지털 데이터는 제 2 음성 신호 변환 장치(48)의 디지털 아날로그 변환기에 의해 아날로그 전기 신호들로 변환되며, 그 신호들은 구두 텍스트의 청각적 재생을 위해 스피커(12)에 연속적으로 인가된다. 청각적으로 재생된 구두 텍스트를 청취하고 표시된 인식 텍스트를 판독함으로써 인식 텍스트는 정확성 또는 오류들을 위해 매우 간단하게 체크될 수 있다. 사용자가 음성 인식 장치(35)에 의해 실행된 음성 인식 처리의 오류 검출에 기초하여 인식된 텍스트의 오류를 검출할 때 사용자는 오류 정정 장치(49)의 키보드(14)로 오류 정정 장치(49)의 정정 장치(50)에 인가된 제 3 디지털 데이터를 사용자가 발생시키기 때문에 사용자는 오류 정정 장치(49)로 정정 처리를 실행할 수 있다. 또한 인식 텍스트를 나타내는 제 2 디지털 데이터는 중앙 제어 장치(32)의 제어 하에서 버스(31)를 거쳐 이러한 정정 장치(50)에 인가된다. 오류 정정 장치(49)의 정정 장치(50)에서 제 2 디지털 데이터의 일부는 인식 텍스트를 정정하기 위해 키보드(14)에 의해 엔터된 제 3 디지털 데이터로 대체된다. 정정 장치(50) 내의 엔터된 제 3 디지털 데이터에 의한 제 2 디지털 데이터의 이러한 부분적 대체는 정정된 텍스트를 나타내는 제 4 디지털 데이터를 생성시킨다. 정정된 텍스트를 나타내는 제 4 디지털 데이터는 오류 정정 장치(49)의 정정 장치(50)에서 제 3 메모리 장치(51)로 전달되며, 제 3 메모리 장치는 중앙 제어 장치(32)의 제어 하에서 점선(65)에 의해 표시된 바와 같이 버스(31)를 거쳐, 정정된 텍스트를 나타내는 제 4 디지털 데이터를 저장한다. 저장된 제 4 디지털 데이터는 중앙 제어 장치(32)의 제어 하에서 점선(66)에 의해 표시된 바와 같이 버스(31)를 거쳐 제 3 메모리 장치(51)로부터 표시 장치(10)로 전달되어 정정된 텍스트는 표시 장치(10)의 표시 수단(47)에 의해 그때 표시된다. 이것은 시스템(30)에 의해 실행된 실제적인 음성 인식 처리를 포함한다.

도 3에 따른 시스템은 이제 또한 관련 화자에게 참조 데이터를 적응시키기 위해 도 2와 관련하여 설명한 방법에 따라, 참조 데이터 장치(39)의 참조 데이터 메모리 장치(45)에 저장된 참조 데이터를 적응시키는데, 이것은 시스템이 시스템에 이미 공지된 화자에 의해 발음된 다른 텍스트의 새로운 음성 인식 처리의 향상된 인식의 질을 제공하기 때문이다. 참조 데이터 장치(39)의 참조 데이터 메모리 장치(45)에 저장된 참조 데이터를 적응시키기 위해 도 3에 도시된 시스템(30)은 임의의 다른 부가적 수단을 거의 필요로 하지 않아 이로운데 이것은 이러한 적응이 원리에 있어서 어쨌든 유효한 적응 수단(67)을 이용하기만 하기 때문이다. 시스템(30)에서 이러한 적응 수단(67)은 음성 인식 장치(35), 어휘 데이터 장치(37) 및 언어 모델 데이터 장치(38)에 의해 특정하게 간단한 방식으로 형성된다. 이러한 적응 수단(67)의 도움으로, 정정된 텍스트를 나타내고 제 3 메모리 장치(51)에 저장된 제 4 디지털 데이터를 수신하자마자 제 4 디지털 데이터는 점선(68, 69)에 의해 표시된 바와 같이 중앙 제어 장치(32)의 제어 하에서 시스템(30)의 어휘 데이터 장치(37) 및 언어 모델 데이터 장치(38)에 인가된다. 어휘 데이터 장치(37)에서, 인가된 제 4 디지털 데이터는 제 1 데이터 처리 장치(40)에 의해 처리되며, 이어서 어휘 데이터 메모리 장치(42)에 저장되어 어휘 데이터 메모리 장치(42)에서 유효한 어휘 데이터는 어휘 데이터 메모리 장치(41)에 저장되는 적응된 어휘 데이터를 생성시키면서 제 4 디지털 데이터에 기초하여 텍스트의 화자에게 적응된다. 언어 모델 데이터 장치(38)에서 인가된 제 4 디지털 데이터는 제 2 데이터 처리 장치(42)에 의해 처리되며, 언어 모델 데이터 장치(43)에 저장되어 언어 모델 데이터 장치(43)에서 유효한 언어 모델 데이터는 언어 모델 데이터 메모리 장치(43)에 저장된 적응된 언어 모델 데이터를 생성시키면서 제 4 디지털 데이터에 기초하여 제 2 데이터 처리 장치(42)에 의해 구두 텍스트의 화자에게 적응된다.

이러한 어휘 데이터 및 언어 모델 데이터의 적응 처리 이후 구두 텍스트를 나타내고 제 1 메모리 장치(34)에 저장된 제 1 디지털 데이터는 점선(57)으로 표시된 바와 같이 중앙 제어 장치(32)의 제어 하에서 버스(31)를 거쳐 음성 인식 장치(35)에 다시 인가된다. 음성 인식 장치(35)에서 제 1 디지털 데이터는 다시 음성 인식 처리를 거친다. 이러한 음성 인식 처리에서, 점선(58)에 의해 표시된 바와 같이 중앙 제어 장치(32)의 제어 하에서 버스(31)를 거쳐 어휘 데이터 메모리 장치(41)에 저장되고 음성 인식 장치(35)에 인가된, 적응된 어휘 데이터와, 점선(59)에 의해 표시된 바와 같이 중앙 제어 장치(32)의 제어 하에서 버스(31)를 거쳐 언어 모델 데이터 메모리 장치(43) 및 음성 인식 장치(35)에 인가된, 적응된 언어 모델 데이터에 대한 허용이 이루어진다. 이러한 경우 점선(60)에 의해 표시된 바와 같이 중앙 제어 장치(32)하에서 버스(31)를 거쳐 참조 데이터 장치(45)에 저장되고 음성 인식 장치(35)에 인가된 여전히 비적응된 참조 데이터에 대한 허용 또한 이루어진다. 반복적인 음성 인식 처리에서 음성 인식 장치(35)는 새롭게 인식된 텍스트를 나타내는 제 5 디지털 데이터를 발생시킨다. 제 5 디지털 데이터는 음성 인식 장 치(35)에서 제 4 메모리 장치(52)에 인가되며, 점선(70)에 의해 표시된 바와 같이 중앙 제어 장치(32)의 제어 하에서 버스(31)를 거쳐 제 4 메모리 장치(52)로 로드 된다.

도 3에 도시된 바와 같은 시스템에서 제 4 메모리 장치(52)에 저장되고 새롭게 인식된 텍스트를 나타내는 제 5 디지털 데이터는 참조 데이터 장치(39)의 참조 데이터 메모리 장치(45)에 저장된 참조 데이터를 적응시키기 위한 적응 데이터로서 사용된다. 참조 데이터 메모리 장치(45)에 저장된 참조 데이터의 적응을 실행시키기 위해 제 4 메모리 장치(52)에 저장된 제 5 디지털 데이터는 점선(71)에 의해 표시된 바와 같이 중앙 제어 장치(32)의 제어 하에서 버스(31)를 거쳐 참조 데이터 장치(39)에 전달된다. 이러한 목적을 위해 제 1 메모리 장치(34)에 저장된 제 1 디지털 데이터는 점선(72)에 의해 표시된 바와 같이 중앙 제어 장치(32)의 제어 하에서 버스(31)를 거쳐 참조 데이터 장치(39)에 또한 인가된다. 참조 데이터 장치(39)에 인가되고, 적응 데이터를 형성시키고 새롭게 인식된 텍스트를 나타내는 제 5 디지털 데이터와, 참조 데이터 장치(39)에 인가되고 구두 텍스트를 나타내는 제 1 디지털 데이터는 참조 데이터 장치(39)의 제 3 데이터 처리 장치(44)에서 처리되며, 처리는 새롭게 인식된 텍스트를 사용하는 구두 텍스트로부터 음소들의 새로운 표기를 유도하도록 본질적으로 실행된다. 이러한 처리가 실행된 이후에 제 3 데이터 처리 장치(44)는 참조 데이터 메모리 장치(45)에 저장된 참조 데이터를, 앞서 유도된 음소들의 표기의 도움으로 이러한 텍스트를 화자에게 적응시킨다. 이러한 적응의 결과로 참조 데이터, 즉 다양한 음소들에 대한 참조 패턴들은 화자에게 더 잘 적응되며, 그것은 이러한 화자에 의해 연속적으로 발음된 구두 텍스트의 이어지는 음성 인식 처리 동안 더 나은 인식의 질을 초래한다.

도 3에 도시된 바와 같은 시스템(30)으로 구두 텍스트, 인식 텍스트, 정정된 텍스트, 새롭게 인식된 텍스트를 프린팅 장치(53)로써 선택적으로 프린트할 수 있다. 이러한 목적을 위해 제 1 메모리 장치(34)에 저장되고 구두 텍스트를 나타내는 제 1 디지털 데이터, 제 2 메모리 장치(36)에 저장되고 인식된 텍스트를 나타내는 제 2 디지털 데이터, 제 3 메모리 장치(51)에 저장되고 정정된 텍스트를 나타내는 제 4 디지털 데이터, 제 4 메모리 장치(52)에 저장되고 새롭게 인식된 텍스트를 나타내는 제 5 디지털 데이터는 중앙 제어 장치(32)의 제어 하에서 버스(31)를 거쳐 프린팅 장치(53)에 선택적으로 인가될 수 있다. 인가된 데이터는 프린팅 장치(53)의 프린터 제어 장치(54)에 의해 처리되며, 그 후에는 관련 텍스트가 프린팅 장치(53)의 프린터(55)에 의해 프린트된다.

퍼스널 컴퓨터에 의해 실행되고 도 3에 도시된 시스템(30)에서 음성 인식 장치(35), 어휘 데이터 장치(37)의 제 1 데이터 처리 장치, 언어 모델 데이터 장치(38)의 제 2 데이터 처리 장치(42), 참조 데이터 장치(39)의 제 3 데이터 처리 장치(44), 표시 장치(10)의 표시 드라이버(46), 오류 정정 장치(49)의 정정 장치(50), 프린팅 장치(53)의 프린터 제어 장치(54)가 퍼스널 컴퓨터의 중앙 처리 장치(CPU)에 의해 실현된다.

도 3에 도시된 바와 같은 시스템(30)은 몇몇 메모리 장치들, 즉 제 1 메모리 장치(34), 제 2 메모리 장치(36), 제 3 메모리 장치(51), 제 4 메모리 장치(52), 어휘 데이터 메모리 장치(41), 언어 모델 데이터 메모리 장치(43), 참조 데이터 메모리 장치(45)를 구비한다. 각각의 이러한 메모리 장치들은 메인 메모리 및 연결된 고정 디스크 저장소, 즉 퍼스널 컴퓨터의 하드디스크에 의해 실현된다.

본 발명에 따른 방법 및 본 발명에 따른 시스템의, 앞서 설명한 바로부터 명백한 바와 같이 본 발명에 따른 수단을 통해 참조 데이터 장치에서 유효한 참조 데이터에 의한 적응 데이터의 발생을 위한 적응 수단은 구두 텍스트에 적응될 수 있으며, 따라서 구두 텍스트의 화자에게 적응될 수 있고, 어쨌든 유효한 수단, 즉 음성 인식 장치, 어휘 데이터 장치, 언어 모델 데이터 장치로 구성되어 임의의 개별적인 수단은 필요하지 않으며, 가능한 한 간단하고 저렴한 비용으로 실행하는데 이롭다. 다른 이점은 새롭게 인식된 텍스트를 나타내고 적응 데이터를 형성시키는 데이터의 도움으로 구두 텍스트의 화자에 대한 참조 데이터의 적응이 실행되는데 그것은 새롭게 인식된 텍스트의 경우 새롭게 인식된 텍스트의 대부분이 구두 텍스트와 매우 잘 매치 된다고 가정할 수 있으며, 그 결과 새롭게 인식된 텍스트를 나타내는 데이터와 구두 텍스트를 나타내는 데이터에 기초하여 특정하게 빠르고 효과적으로 실행될 수 있다.

Claims

구두 텍스트 인식 방법으로서 화자에 의해 발음된 상기 구두 텍스트는 제 1 디지털 데이터로 변환되며, 상기 구두 텍스트를 나타내는 제 1 디지털 데이터는 음성 인식 처리를 거치며,

상기 처리에서 어휘를 나타내는 유효한 어휘 데이터와, 언어 모델을 나타내는 유효한 언어 모델 데이터와, 음소들을 나타내는 유효한 참조 데이터에 대한 허용이 이루어지고,

상기 처리에서 인식 데이터를 나타내는 제 2 디지털 데이터가 발생되며,

상기 방법에서 상기 인식 데이터는 상기 제 2 디지털 데이터의 도움으로 표시되며, 상기 방법에서 제 3 디지털 데이터는 상기 제 2 디지털 데이터에 의해 나타난 상기 인식 데이터를 정정하도록 발생되며, 상기 제 2 디지털 데이터의 일부는 제 3 디지털 데이터와, 정정된 텍스트가 얻어진 것을 나타내는 제 4 디지털 데이터로 대체되며,

상기 방법에서 상기 유효한 참조 데이터를 상기 구두 텍스트의 상기 화자에게 적응시키기 위한 적응 데이터가 상기 제 1 디지털 데이터 및 상기 제 4 디지털 데이터의 도움으로 발생되며,

상기 방법에서 상기 유효한 참조 데이터가, 적응된 참조 데이터를 얻도록 상기 적응 데이터 및 상기 제 1 디지털 데이터의 도움으로 상기 구두 텍스트의 상기 화자에게 적응되는 구두 텍스트 인식 방법에 있어서,

상기 유효한 어휘 데이터 및 상기 유효한 언어 모델 데이터는 상기 정정된 텍스트를 나타내는 상기 제 4 디지털 데이터를 얻은 후 상기 제 4 디지털 데이터에 의해 상기 구두 텍스트의 화자에게 적응되며,

이어서 상기 구두 텍스트를 나타내는 상기 제 1 디지털 데이터가, 상기 적응된 어휘 데이터, 상기 적응된 언어 모델 데이터, 상기 유효한 참조 데이터에 대한 허용이 이루어지며, 새롭게 인식된 텍스트를 나타내는 제 5 디지털 데이터가 발생되는 음성 인식 처리를 다시 거치며,

상기 제 5 디지털 데이터는 상기 구두 텍스트의 상기 화자에게 상기 유효한 참조 데이터를 적응시키기 위해 적응 데이터로서 사용되며, 상기 제 1 디지털 데이터와 관련하여 사용되는 것을 특징으로 하는 구두 텍스트 인식 방법.
구두 텍스트를 인식하는 시스템으로서, 화자에 의해 발음된 상기 구두 텍스트가 상기 구두 텍스트를 나타내는 제 1 디지털 데이터로 변환될 수 있는 변환 장치와,

어휘를 나타내고 어휘 데이터 장치 내에 저장될 수 있는 유효한 어휘 데이터를 위한 어휘 데이터 장치와,

언어 모델을 나타내고 상기 언어 모델 데이터 장치 내에 저장될 수 있는 유효한 언어 모델 데이터를 위한 언어 모델 데이터 장치와,

음소들을 나타내고 상기 참조 데이터 장치 내에 저장될 수 있는 유효한 참조 데이터를 위한 참조 데이터 장치와,

상기 어휘 데이터 장치, 상기 언어 모델 데이터 장치, 상기 참조 데이터 장치가 서로 협동하도록 만들어 질 수 있으며, 상기 제 1 디지털 데이터가 인가될 수 있고, 인식 텍스트를 나타내고 상기 제 1 디지털 데이터에 기초하여 실행된 음성 인식 처리 동안 발생되는 제 2 디지털 데이터를 공급하도록 적응되는 음성 인식 장치와,

상기 인식 텍스트를 표시하기 위해 상기 제 2 디지털 데이터가 인가될 수 있는 표시 장치와,

상기 제 2 디지털 데이터로 나타낸 상기 텍스트의 상기 정정을 위해 제 3 디지털 데이터가 엔터될 수 있고 상기 제 2 디지털 데이터의 일부가 상기 제 3 디지털 데이터로 대체될 수 있으며, 그로써 정정된 텍스트를 나타내는 제 4 디지털 데이터가 발생될 수 있게 하는 오류 정정 장치와,

제 1 디지털 데이터 및 제 4 디지털 데이터가 인가될 수 있고 상기 유효한 참조 데이터를 상기 구두 텍스트의 상기 화자에게 적응시키기 위한 적응 데이터가 발생될 수 있고, 적응 데이터 및 제 1 디지털 데이터가, 상기 구두 텍스트의 상기 화자에게 상기 유효한 참조 데이터를 적응시키도록 상기 참조 데이터 장치에 인가될 수 있으며, 상기 구두 텍스트의 상기 화자에게 적응된 상기 참조 데이터는 상기 참조 데이터 장치에 저장될 수 있는 적응 수단을 구비하는 구두 텍스트 인식 시스템에 있어서,

상기 적응 수단은 상기 음성 인식 장치, 상기 어휘 데이터 장치 및 상기 언어 모델 데이터 장치에 의해 형성되고,

상기 제 4 디지털 데이터는 상기 어휘 데이터 장치 및 상기 언어 모델 데이터 장치에 인가되어 상기 유효한 어휘 데이터 및 상기 유효한 언어 모델 데이터를 상기 구두 텍스트의 상기 화자에게 인가될 수 있으며,

상기 음성 인식 장치로써, 새롭게 인식된 텍스트를 나타내는 제 5 디지털 데이터는 상기 어휘 데이터 및 상기 언어 모델 데이터의 상기 적응 이후 상기 제 1 디지털 데이터에 기초하여 실행된 새로운 음성 인식 처리 동안 발생될 수 있으며,

적응 데이터로서 사용된 상기 제 5 디지털 데이터는 상기 제 1 디지털 데이터와 함께, 상기 구두 텍스트의 상기 화자에게 상기 유효한 참조 데이터를 적응시키기 위해 상기 참조 데이터 장치에 인가될 수 있는 것을 특징으로 하는 구두 텍스트 인식 시스템.
제 2 항에 있어서, 퍼스널 컴퓨터에 의해 실행되는 것을 특징으로 하는 구두 텍스트 인식 시스템.