KR19990071605A - 구두텍스트인식방법및시스템 - Google Patents

구두텍스트인식방법및시스템 Download PDF

Info

Publication number
KR19990071605A
KR19990071605A KR1019980703881A KR19980703881A KR19990071605A KR 19990071605 A KR19990071605 A KR 19990071605A KR 1019980703881 A KR1019980703881 A KR 1019980703881A KR 19980703881 A KR19980703881 A KR 19980703881A KR 19990071605 A KR19990071605 A KR 19990071605A
Authority
KR
South Korea
Prior art keywords
data
text
digital data
digital
language model
Prior art date
Application number
KR1019980703881A
Other languages
English (en)
Other versions
KR100453021B1 (ko
Inventor
하인리히 바르토시크
Original Assignee
요트.게.아. 롤페즈
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 요트.게.아. 롤페즈, 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 요트.게.아. 롤페즈
Publication of KR19990071605A publication Critical patent/KR19990071605A/ko
Application granted granted Critical
Publication of KR100453021B1 publication Critical patent/KR100453021B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning

Abstract

화자에 의해 발음된 상기 구두 텍스트가 제 1 데이터로 변환될 수 있는 변환 장치(33)와, 상기 제 1 데이터가 인가될 수 있고 어휘 데이터 장치(37), 언어 모델 데이터 장치(38), 참조 데이터 장치(39)가 서로 협동하도록 만들어 질 수 있으며, 인식 텍스트를 나타내는 제 2 데이터가 음성 인식 처리 동안 발생될 수 있으며, 인식 텍스트 내의 오류들을 정정하기 위한 제 3 데이터 및 정정된 텍스트를 나타내는 제 4 데이터가 발생될 수 있는 오류 정정 장치, 적응 데이터로 참조 데이터가 구두 텍스트의 화자에게 적응될 수 있는 적응 데이터가, 구두 텍스트를 나타내는 제 1 데이터 및 정정된 텍스트를 나타내는 제 4 데이터의 도움으로 발생될 수 있는 적응 수단을 구비하며, 적응 수단은 음성 인식 장치에 의해 형성되고, 어휘 데이터 장치, 어휘 모델 데이터 장치, 어휘 데이터, 언어 모델 데이터가 정정된 텍스트를 나타내는 제 4 데이터에 적응될 수 있고, 그러한 적응 이후에 새로운 음성 인식 처리가 구두 텍스트를 나타내는 제 1 데이터에 기초하여 음성 인식 장치에 의해 실행될 수 있으며, 그러한 처리에서 새롭게 인식된 텍스트를 나타내는 제 5 데이터는 적응 데이터로서 발생될 수 있으며, 적응 데이터는 참조 데이터를 적응시키기 위해 참조 데이터 장치(39)에 인가될 수 있는 구두 텍스트 인식 시스템(30).

Description

구두 텍스트 인식 방법 및 시스템
전문에서 밝힌 타입의 방법 및 제 2 단락에서 밝힌 타입의 시스템은 형태 지정 SP 6000 하에서 출원인에 의해 상업상으로 유효한 소위 음성 인식 시스템의 용어에서 공지된다. 이 공지된 방법은 도 1을 참조하면서 하기에 설명할 것이다. 도 1에 본 문장의 전후 관계에 관련된 방법의 다양한 단계들을 블록으로써 도식적으로 나타낸다.
구두 텍스트를 인식하는 공지의 방법에서, 구두 텍스트는 화자가, 도 1에 도식적으로 나타낸 마이크로폰에 대고 말하며, 마이크로폰(1)에 의해 공급된 아날로그 전기 신호들 형태의 구두 텍스트는 블록(2)에서, 아날로그 디지털 변환기로 실행된 아날로그 디지털 전환 처리에 의해 제 1 디지털 데이터로 전환된다. 구두 텍스트를 나타내는, 얻어진 디지털 데이터는 블록(3)의 메모리 내에 저장된다.
더욱이 구두 텍스트를 나타내는 제 1 디지털 데이터는 블록(4) 내의 음성 인식 장치로 실행된 음성 인식 처리를 거치게 된다. 이러한 음성 인식 처리는 어휘를 나타내며, 블록(5)의 어휘 데이터 장치 내에서 유효한 어휘 데이터와, 언어 모델을 나타내고 블록(6) 내의 언어 모델 데이터 장치 내에서 유효한 언어 모델 데이터와, 음소들을 나타내며, 블록(7) 내의 참조 데이터 장치에서 유효한 참조 데이터의 원리에 의해 영향을 받는다. 이러한 측면에서 어휘 데이터는 어휘의 낱말들뿐만 아니라 그 낱말들과 관련된 음소 시퀀스들, 즉 음성 스크립트도 나타낸다는 것을 주지하여야한다. 언어 모델 데이터에 관하여, 이것들은 텍스트 내의 낱말들의 소정의 시퀀스들의 발생 주파수뿐만 아니라 낱말들의 발생 주파수를 나타내는 데이터임을 주지하여야 한다. 참조 데이터에 관하여, 이들 데이터는 음소들, 즉 소정 수의 음소들에 대한 참조 패턴들을 나타내며, 소정 수의 음소들은 화자 특정의 방식으로 다른 사람들에 의해 다르게 발음되며, 그것은 각각의 음소에 대해 설정된 화자 특정의 참조 데이터 세트를 형성시킨다는 것을 주지하여야 한다.
참조 데이터 세트들에 관하여, 음성 인식 처리의 질은 참조 데이터 세트에 따라서 개선된다는 것, 즉 그 안에 포함된 참조 패턴들에 따라서 화자에게 더 좋게 적응된다는 것을 주지하여야 한다. 이러한 이유로 공지의 방법은 또한 하기에 설명할 바와 같이 각각의 화자에 대한 참조 데이터의 적응을 달성한다. 참조 데이터의 이러한 적응에 관해서, 원칙적으로 이러한 적응은 정정된 텍스트에 따라서 더 잘 실행되며, 인식 텍스트의 정정으로 얻어지고, 구두 텍스트와 더 잘 조화된다는 것을 또한 주지하여야 한다.
블록(4)에서 달성된 음성 인식 처리에 관하여, 그러한 음성 인식 처리에서는 음소들 및 음소 시퀀스들이 음소들을 나타내는 참조 데이터의 도움으로 구두 텍스트를 나타내는 제 1 디지털 신호들의 원리에 기초하여 인식된다고 간단히 말할 수 있으며, 마침내 낱말들 및 낱말 시퀀스들은 인식된 음소들 및 음소 시퀀스들에 기초하고 어휘 데이터 및 언어 모델 데이터의 도움으로 인식된다.
블록(4)에서 실행된 바와 같은 앞서 설명한 음성 인식 처리에 있어서, 제 2 디지털 데이터가 발생되며, 그것은 인식 텍스트를 나타낸다. 이러한 제 2 디지털 데이터는 블록(8)의 메모리에 로드 된다.
블록(9)에서 인식 텍스트는 제 2 디지털 데이터의 도움으로 표시 장치(10)에 표시된다. 표시 장치는 도 1에 도시된 모니터로 바람직하다. 인식 텍스트를 표시하는 목적은 음성 인식 처리의 오류 검출에 기초한 선택으로, 타이피스트와 같은 화자 또는 사용자에게 인식 텍스트를 체크하는 기회를 주고, 인식 텍스트 내의 오류들을 정정하는 것이다.
인식 텍스트가 간단한 방식으로 체크되게 하기 위해 메모리 내에 저장된 구두 텍스트를 나타내는 제 1 디지털 데이터는, 구두 텍스트의 청각적 재생을 위해 도 1에 도시된 스피커(12)에 신호들이 연속적으로 인가되는, 블록(11) 내의 디지털 아날로그 변환기에 의해 실행된 디지털 아날로그 전환 처리로써 아날로그 전기 신호들로 재 변환된다. 청각적으로 재생된 구두 텍스트를 듣고 표시된 인식 텍스트를 읽음으로써 인식 텍스트가 정확성과 오류들을 위해 매우 간단하게 체크될 수 있다.
사용자가 블록(4)의 음성 인식 처리의 오류 검출에 기초하여, 인식 텍스트의 오류를 검출할 때 사용자는 블록(13)의 오류 정정 장치로 오류 정정 처리를 실행할 수 있으며, 도 1에 도시된 키보드(14)로 사용자는 제 2 디지털 데이터에 의해 나타난 인식 텍스트의 정정을 위해 제 3 디지털 데이터를 발생시키며, 제 2 디지털 데이터는 따라서 블록(13)의 인식 텍스트를 정정하도록 제 3 디지털 데이터에 의해 부분적으로 대체된다. 즉 텍스트 부분들이나 낱말들 또는 사용자에 의해 부정확하게 인식된 문자들은 옳은 텍스트 부분들, 낱말들 또는 키보드(14)에 의해 엔터된 문자들로 대체된다. 엔터된 제 3 디지털 데이터에 의해 제 2 디지털 데이터의 이러한 부분적인 대체는 정정된 텍스트를 나타내는 제 4 디지털 데이터를 생기게 한다. 정정된 텍스트를 나타내는 제 4 디지털 데이터는 블록(15)의 메모리 내로 로드 된다. 저장된 제 4 디지털 데이터는 블록(16)에 표시되며, 블록(16)은 또한 도 1에 도시된 바와 같이 표시 장치(10) 상에서 달성된다. 이것은 공지 방법의 실제적인 음성 인식 처리를 마친다.
그러나 앞서 설명한 바와 같이 그러한 음성 인식 처리에 있어서, 블록(7)의 참조 데이터 장치에서 유효한 참조 데이터를 관련 화자에게 적을 시키는 것은 매우 효과적이며 그 결과로서, 향상된 인식의 질이 다른 구두 텍스트의 이어서 일어나는 음성 인식 처리 동안 얻어진다. 공지의 방법에서, 유효한 참조 데이터의 적응을 달성시키기 위해 구두 텍스트의 화자에 대한 유효한 참조 데이터의 적응을 위한 적응 데이터가 제 1 디지털 데이터 및 제 4 디지털 데이터의 도움으로 발생되며, 음소들을 나타내는 유효한 참조 데이터는 발생된 적응 데이터 및 제 1 디지털 데이터의 도움으로 구두 텍스트의 화자에게 적응되어 구두 텍스트의 화자에게 적응된 참조 데이터가 얻어진다. 상기 적응 데이터를 발생시키기 위해 공지 방법은 블록(17)의 검증 장치로 검증 처리를 실행한다. 이러한 검증 처리를 실행하기 위해 검증 장치는 화살표(18)로 표시된 바와 같이 구두 텍스트를 나타내는 제 1 디지털 데이터와, 화살표(19)로 표시된 바와 같이 인식 텍스트를 나타내는 제 2 디지털 데이터와, 화살표(20)로 표시된 바와 같이 정정된 텍스트를 나타내는 제 4 디지털 데이터와, 화살표(21)로 표시된 바와 같은 어휘 데이터와, 화살표(22)로 표시된 바와 같은 참조 데이터를 수신한다. 검증 장치에 인가된 모든 데이터의 도움으로, 특히 새로운 음성 인식 처리가 실행되는 블록(17)에서 검증 처리의 복잡한 발견적인 방법을 이용하여, 검증 장치는 구두 텍스트 내의 대응하는 텍스트 부분들과 가장 잘 매치 되는, 정정된 텍스트 내의 텍스트 부분들을 결정하며, 그것은 블록(4)의 구두 텍스트의 음성 인식 처리 동안 음성 인식 장치에 의해 인식 텍스트에 기초하여, 정정에 의해 연속적으로 얻어진 정정된 텍스트를 참작하며 달성된다. 구두 텍스트의 가장 잘 매치 되는 텍스트 부분들은 디지털 데이터로 나타내며, 그것은 앞서 설명한 적응 데이터를 형성한다. 이러한 적응 데이터는 블록(23)의 메모리 내로 로드 된다.
더욱이 블록(23)의 메모리에 저장된 적응 데이터 및 블록(3)의 메모리에 저장된 제 1 디지털 데이터는 화살표(24, 25)로 표시된 바와 같이 블록(7)의 참조 데이터 장치에 저장된 참조 데이터를 적응시키도록 사용된다. 이러한 적응의 결과로서, 참조 데이터 즉 다양한 음소들을 위한 참조 패턴들은 화자에게 저 잘 적응되며, 그것은 이어서 발음되는 텍스트의 이어서 일어나는 음성 인식 처리 동안 인식의 질을 더 좋게 한다.
앞서 설명한 공지 방법에서 명백한 바와 같이 형태 지정 SP 6000을 갖는 공지의 인식 시스템은 제 1 디지털 데이터의 도움으로 구두 텍스트의 화자에게 적응시킬 수 있다. 제 1 디지털 데이터, 제 2 디지털 데이터, 제 4 디지털 데이터, 어휘 데이터 및 참조 데이터는 이러한 검증 장치에 인가된다. 검증 장치에 인가된 모든 데이터의 도움으로 이미 설명한 바와 같이 또한 새로운 음성 인식 처리가 실행되는 검증 처리에 있어서 복잡한 발견적 방법들을 이용하여, 검증 장지는 구두 텍스트 내의 대응하는 텍스트 부분들과 가장 잘 매치 되는 정정된 텍스트 내의 텍스트 부분들을 결정하며, 그 정정된 텍스트를 참작하며, 그 검증 장치는 그렇게 해서 결정된, 가장 잘 매치 되는 텍스트 부분들에 대응하는 적응 데이터를 발생시킨다. 공지의 음성 인식 시스템의 검증 장치는 매우 복잡하고 난해하며, 그것은 데이터의 많은 양이 난해한 발견적 방법들에 의해 처리되고 분석되어야 하는 사실에 주로 기인한다. 더욱이 검증 장치의 검증 처리의 검증 사이클은 매우 복잡하며, 비교적 긴 처리 시간을 필요로 하기 때문에 별로 유익하지 못하다. 그밖에도, 공지의 음성 인식 시스템의 복잡한 검증 장치의 공급에도 불구하고, 구두 텍스트의 화자에 대한 참조 데이터의 적응이 몇몇 경우, 즉 예컨대 검증 처리 동안 불만족스럽게 적응된 참조 데이터 때문에 비교적 부정확한 음성 인식 처리만 발생하는 경우에, 비교적 천천히 진행되는데 이것은 비교적 큰 텍스트 부분이 오류 내용 때문에 검증 장치에 의해 도출되고, 비교적 작은 텍스트 부분만 참조 데이터를 적응시키기 위한 적응 데이터로서 사용될 수 있기 때문이라는 것을 알아냈다. 이것은 비교적 불충분하게 적응된 참조 데이터 및, 결과적으로 참조 데이터의 빠르고 효과적인 적응이 실제로 필요한 경우, 이러한 필요성이 만족되지 않는다는 문제점을 초래한다.
본 발명은 구두 텍스트 인식 방법에 관한 것이며, 그 방법에 의하면 화자가 발음한 구두 텍스트가 제 1 디지털 데이터로 전환되고, 구두 텍스트를 나타내는 제 1 디지털 데이터가 음성 인식 처리를 거치게 되며, 여기서 어휘를 나타내는 유효한 어휘 데이터, 언어 모델을 나타내는 유효한 언어 모델 데이터, 음소들을 나타내는 유효한 참조 데이터에 대한 처리 허용이 이루어지며, 그 처리에서는 인식 텍스트를 나타내는 제 2 디지털 데이터가 발생되며, 그 방법에 있어서 인식 텍스트가 제 2 디지털 데이터의 도움으로 표시되며, 제 3 디지털 데이터는 제 2 디지털 데이터에 의해 나타난 인식 텍스트를 정정하도록 발생되며, 제 2 디지털 데이터의 일부는 제 3 디지털 데이터에 의해 대체되고, 이 결과로 정정된 텍스트를 나타내는 제 4 디지털 데이터가 얻어지며, 구두 텍스트를 화자에게, 유효한 참조 데이터를 적응시키기 위한 적응 데이터가 제 1 디지털 데이터 및 제 4 디지털 데이터의 도움으로 발생되며, 유효한 참조 데이터는 적응된 참조 데이터를 얻도록, 제 1 디지털 데이터 및 적응 데이터의 도움으로써 구두 텍스트를 화자에게 적응된다.
본 발명은 또한 화자가 발음한 구두 텍스트가 구두 텍스트를 나타내는 제 1 디지털 데이터로 전환될 수 있는 전환 장치를 구비하며, 어휘를 나타내며 어휘 데이터 장치에 저장될 수 있는, 유효한 어휘 데이터를 위한 어휘 데이터 장치를 구비하며, 언어 모델을 나타내고 언어 모델 데이터 장치에 저장될 수 있는 유효한 언어 모델 데이터를 위한 언어 모델 데이터 장치를 구비하며, 음소들을 나타내고 참조 데이터 장치에 저장될 수 있는 유효한 참조 데이터를 위한 참조 데이터 장치를 구비하며, 언어 모델 데이터 장치 및 참조 데이터 장치는 서로 협동하도록 만들어 질 수 있으며, 거기에 제 1 디지털 데이터가 인가될 수 있으며, 인식 텍스트를 나타내는 제 2 디지털 데이터를 공급하도록 적응되며, 제 1 디지털 데이터에 기초하여 음성 인식 처리가 실행되는 동안 발생되며, 제 2 디지털 데이터가 인식 텍스트를 표시하기 위해 인가될 수 있는 표시 장치를 포함하며, 제 2 디지털 데이터로 나타낸 텍스트의 정정을 위해 제 3 디지털 데이터가 들어갈 수 있고 제 2 디지털 데이터의 일부가 제 3 디지털 데이터로 대체될 수 있으며, 그로써 정정된 텍스트를 나타내는 제 4 디지털 데이터가 발생될 수 있게하는 오류 정정 장치를 구비하며, 제 1 디지털 데이터 및 제 4 디지털 데이터가 인가될 수 있고 유효 참조 데이터를 구두 텍스트를 화자에게 적응 시키는 적응 데이터가 발생될 수 있는 적응 수단을 포함하며, 그 적응 데이터 및 제 1 디지털 데이터는 구두 텍스트를 화자에게 유효한 참조 데이터를 적응시키기 위해 참조 데이터 장치에 인가될 수 있으며, 구두 텍스트를 화자에게 적응된 참조 데이터는 참조 데이터 장치에 저장될 수 있다.
도 1은 구두 텍스트를 인식하는 종래의 방법을 도시하는 블록도.
도 2는 도 1과 동일한 방식으로 본 발명에 따른 구두 텍스트를 인식하는 방법을 도시하는 도면.
도 3은 음소들을 나타내는 참조 데이터가 빠르면서 효과적으로 적응될 수 있는, 본 발명에 따른 구두 텍스트를 인식하는 시스템을 도시하는 블록도.
본 발명의 목적은 구두 텍스트의 화자에 대한 참조 데이터의 적응이, 최소한의 비용으로 비교적 빠르고 만족스럽게 이루어질 수 있도록 하기 위해, 간단히 두 번 째 문단에서 밝힌 형태의 시스템뿐만 아니라 서두에서 밝힌 형태의 방법을 개선하고 앞서 설명한 문제점들을 없애는 것이다.
이러한 목적을 이루기 위해 전문에서 밝힌 형태의 방법은 본 발명에 따라, 유효한 어휘 어휘데이터 및 유효한 언어 모델 데이터는 정정된 텍스트를 나타내는 제 4 디지털 데이터를 얻은 후에 제 4 디지털 데이터에 의해 구두 텍스트의 화자에게 적응되며, 이어서 구두 텍스트를 나타내는 제 1 디지털 데이터는 적응된 어휘 데이터와 적응된 언어 모델 데이터와 유효한 참조 데이터가 허용되는 음성 인식 처리를 다시 거치게되며, 새로 인식 텍스트를 나타내는 제 5 디지털 데이터가 발생되며, 제 5 디지털 데이터는 적응 데이터로서 사용되며, 구두 텍스트의 화자에게, 유효한 참조 데이터를 적응시키기 위해 제 1 디지털 데이터와 함께 사용되는 것을 특징으로 한다.
더욱이 이러한 목적을 이루기 위해 두 번 째 문단에서 밝힌 형태의 시스템은 본 발명에 따라, 적응 수단이 음성 인식 장치, 어휘 데이터 장치, 언어 모델 데이터 장치에 의해 형성되며, 제 4 디지털 데이터는 어휘 데이터 장치 및 언어 모델 데이터 장치에 인가되어 유효한 어휘 데이터 및 유효한 언어 모델 데이터를 구두 텍스트의 화자에게 적응시키며, 음성 인식 장치에 의해, 새롭게 인식 텍스트를 나타내는 제 5 디지털 데이터가 어휘 데이터 및 언어 모델 데이터의 적응 이후 제 1 디지털 데이터에 기초하여 실행된 새로운 인식 처리 동안 발생될 수 있으며, 적응 데이터로서 사용된 제 5 디지털 데이터는 제 1 디지털 데이터와 함께 구두 텍스트의 화자에게, 유효한 참조 데이터를 적응시키기 위해 참조 데이터 장치에 인가될 수 있다.
본 발명에 따른 방법에 의해, 참조 데이터 장치에서 유효한 참조 데이터가 구두 텍스트의 화자에게 적응될 수 있는 수단으로 적응을 발생시키기 위한 적응 수단이 어쨌든 존재하는 수단, 즉 음성 인식 장치, 어휘 데이터 장치 및 언어 모델 데이터 장치에 의해 형성되며, 그 결과 검증 수단과 같은 분리 수단이 필요하지 않으며, 그것은 간단하고 적은 비용의 실행에 이롭다. 새롭게 인식 텍스트를 나타내는 제 5 디지털 데이터 형태의 적응 데이터의 도움으로 구두 텍스트의 화자에게 참조 데이터를 적응시키는 것은 참조 데이터가 비교적 빠르고 매우 효과적이게 처리될 수 있다는 이점이 있으며, 그것은 음성 인식 장치에 의해 새롭게 인식 텍스트의 경우에, 새롭게 인식 텍스트의 대부분은 구두 텍스트와 매우 잘 매치 된다고 가정할 수 있기 때문이며, 그 결과 새롭게 인식 텍스트를 나타내는 제 5 디지털 데이터와 구두 텍스트를 나타내는 제 1 디지털 데이터에 기초하는 참조 데이터의 적응이 특히 빠르면서 효과적으로 실행될 수 있다.
본 발명에 따른 시스템에 있어서, 만약 시스템이 퍼스널 컴퓨터에 의해 실행되면 그것은 특히 이롭다는 것이 입증되었다. 이것은 가능한 한 싼 실행이라는 관점에 있어서 매우 이롭다.
본 발명의 다른 측면뿐만 아니라 앞서 설명한 것들은 하기에 설명한 실시 예로부터 명백해질 것이며, 이러한 예시에 기초하여 명료하게 설명될 것이다.
본 발명은 이제 도면을 참조하여 더욱 상세히 설명할 것이며, 그 도면들은 본 발명이 국한되지 않은 실시 예들이다.
구두 텍스트를 인식하는 본 발명에 따른 방법은 도 2를 참조하면서 하기에 설명한다. 도 2에서, 도 1과 동일한 방법으로, 본 배경과 관계되는 방법의 단계들이 블록으로 도시된다. 본 발명에 따른 몇몇 단계들은 도 1을 참조하여 설명한 종래 방법들의 단계들과 실제로 유사하며 그 때문에 이러한 방법들을 간단하게만 설명한다.
본 발명에 따른 방법에 있어서, 화자는 마이크로폰(1)에 대고 텍스트를 말하며, 그것은 아날로그 전기 신호를 공급한다. 블록(2)에서 아날로그 전기 신호들의 형태로 공급된 구두 텍스트는 아날로그 디지털 변환기에 의해 형성된 아날로그 디지털 변환 처리로 제 1 디지털 데이터로 변환되며, 그 디지털 데이터는 구두 텍스트를 나타내며, 블록(3)내의 메모리로 로드 된다.
더욱이 구두 텍스트를 나타내는 제 1 디지털 데이터는 블록(4)의 음성 인식 장치에 의해 형성된 음성 인식 처리를 거친다. 공지의 방법과 동일한 방식으로, 본 발명에 따른 방법으로 처리된 이러한 음성 인식 처리는 또한 블록(5)의 어휘 데이터 장치에서 유효하고 어휘를 나타내는 어휘 데이터와, 블록(6)의 언어 모델 데이터 장치에서 유효하고 언어 모델을 나타내는 언어 모델 데이터와, 블록(7)의 참조 데이터 장치에서 유효하고 음소들을 나타내는 참조 데이터에 기초하여 실행된다. 도 1에 따른 공지의 방법과 동일한 방식으로 제 2 디지털 데이터가 발생되며, 그것은 본 발명에 따른 방법으로 블록(4)에서 실행된 음성 인식 처리동안 인식 텍스트를 나타낸다. 제 2 디지털 데이터는 블록(8) 내의 메모리로 로드 된다.
본 발명에 따른 방법의 제 1 동작 모드에서 블록(3)의 전체 구두 텍스트는 메모리 내로 저장될 수 있으며, 저장될 때까지 블록(4)의 음성 인식 처리를 거칠 수는 없다. 그러나 제 2 동작 모드에서 구두 텍스트는 이러한 텍스트가 말로 나타나는 동안 블록(4)에 따른 음성 인식 처리를 계속적으로 교대로 거칠 수 있다.
블록(9)에서 인식 텍스트는 제 2 디지털 데이터의 도움으로 표시 장치(10), 즉 모니터에 표시된다. 인식 텍스트를 표시함으로써 타이피스트와 같은 화자 또는 사용자는 인식 텍스트를 체크하고 그 인식 텍스트 내의 오류를 음성 인식 처리의 오류 검출에 기초하여 선택적으로 정정할 기회가 주어진다.
인식 텍스트가 간단한 방식으로 체크되게 하기 위해, 블록(3)의 메모리에 저장된 구두 텍스트를 나타내는 제 1 디지털 데이터가 블록(11)의 디지털 아날로그 변환기에 의해 실행된 디지털 아날로그 변환 처리로 디지털 아날로그 변환의 아날로그 전기 신호들로 변환되며, 그 신호들은 이어서 구두 텍스트의 청각적 재생을 위한 스피커(12)로 인가된다. 청각적으로 재생된 구두 텍스트를 청취하고 표시된 인식 텍스트를 판독함으로써 인식 텍스트는 정확성 또는 오류들을 위해 매우 간단히 체크될 수 있다.
본 발명에 따른 방법에서 구두 텍스트의 계속적 인식이 상기 제 2 동작 모드에서 실행되며, 그 동안에 구두 텍스트는 인식되고 계속적으로 표시되며, 인식된 구두 텍스트는 표시된 인식 텍스트를 계속적으로 판독함으로써 체크될 수 있다.
블록(4)의 음성 인식 처리의 오류 검출에 기초하여 인식 텍스트의 오류를 사용자가 검출할 때 사용자는 블록(13)의 오류 정정 장치에 의해 정정 처리를 실행할 수 있으며, 사용자는 키보드(14)로 제 3 디지털 데이터를 발생시키므로, 제 2 디지털 데이터는 따라서 블록(13)의 인식 텍스트를 정정하기 위해 제 3 디지털 데이터로써 부분적으로 대체된다. 이러한 전체 제 3 디지털 데이터에 의한 제 2 디지털 데이터의 부분적 대체는 정정된 텍스트를 나타내는 제 4 디지털 데이터를 생성시킨다. 정정된 텍스트를 나타내는 제 4 디지털 데이터는 블록(15)의 메모리에 로드 된다. 저장된 제 4 디지털 데이터는 블록(16)에 표시되며, 그것은 또한 표시 장치(10)에 나타난다. 이것은 본 발명에 따른 방법의 실제적인 음성 인식 처리를 포함한다.
그러나 도 1에 따른 공지 방법의 설명에서 이미 나타낸 바와 같이 도 2와 관련하여 설명한 본 발명에 따른 음성 인식 방법에서는, 블록(7)의 참조 데이터 장치에서 유효한 참조 데이터를 관련 화자에게 적응시키는 것이 매우 효과적이며, 그 결과 향상된 인식의 질이, 다른 구두 텍스트의 연속적인 음성 인식 처리 동안 얻어진다. 본 발명에 따른 방법의 유효한 참조 데이터 적응을 실행시키기 위해 본 발명에 다른 방법의 다음 단계들이 존재하는 수단들을 이용하여 이로운 방식으로 실행된다.
블록(15)의 메모리에 저장되고 정정된 텍스트를 나타내는 제 4 디지털 데이터가 화살표(26, 27)로 표시된 바와 같이 수신된 이후에 블록(5)의 어휘 데이터 장치에서 유효한 어휘 데이터와 블록(6)의 언어 모델 데이터 블록에서 유효한 언어 모델 데이터가 제 4 디지털 데이터의 도움으로 화자에게 적응된다.
어휘 데이터 및 언어 모델 데이터의 이러한 적응이 적응된 이후 블록(3)의 메모리에 저장되고 구두 텍스트를 나타내는 제 4 디지털 데이터가 블록(4)의 음성 인식 장치에 의해 실행된 음성 인식 처리를 다시 거치게 된다. 이러한 음성 인식 처리는 적응된 어휘 데이터와 적응된 언어 모델 데이터 및 아직 적응되지 않은 참조 데이터를 이용한다. 블록(4)에서 실행된 새로운 음성 인식 처리에서, 제 5 디지털 데이터가 발생되며, 그것은 새롭게 인식된 텍스트를 나타낸다. 제 5 디지털 데이터는 블록(28)의 메모리에 저장된다.
더욱이 본 발명에 따른 방법은 블록(28)의 메모리에 저장되고 새롭게 인식된 텍스트를 나타내는 제 5 디지털 데이터를 사용하며 그것은 적응 데이터로서 사용된다. 적응 데이터로서 사용된 제 5 디지털 데이터 및 블록(3)의 메모리에 저장된 제 1 디지털 데이터는 블록(7)의 화살표(29, 25)로 표시된 바와 같이 참조 데이터에 인가되어 구두 텍스트의 화자에게 참조 데이터 장치에 저장된 참조 데이터를 적응시킨다. 이러한 적응의 결과로서 참조 데이터, 즉 다양한 음소들을 위한 참조 패턴들은 구두 텍스트의 화자에게 더 잘 적응되며, 그것은 화자에 의해 연속적으로 발음된 구두 텍스트의 연속적인 음성 인식 처리 동안 더 나은 인식의 질에 이르게 한다.
구두 텍스트를 인식하기 위한 본 발명에 따른 시스템은 도 3을 참조하여 설명할 것이며, 그 시스템으로 도 2를 참조하여 설명한 음성 인식 방법이 실행될 수 있다.
도 3은 퍼스널 컴퓨터에 의해 실행된 본 발명에 따른 시스템(30)을 도시한다. 시스템(30)은 버스(31)를 포함하며, 그것은 공지의 방식으로 소정 수의 어드레스 라인과, 소정 수의 데이터 라인 및 소정 수의 제어 라인들을 포함한다. 버스(31)는 시스템(30)의 다양한 장치들을 접속시키고, 시스템(30)의 다양한 장치들 사이에 데이터를 전송시킨다. 시스템(30)의 중앙 처리 장치(32)는 버스(31)에 접속된다. 증앙 제어 장치(32)에 의해 프로그램은 시스템(30)의 다양한 처리를 제어하도록 운용될 수 있다. 중앙 제어 장치(32)의 본질적 기능들 중 하나는 시스템(30)의 개별적 장치들 사이의 데이터 전송을 제어하는 것이다. 도 3에서 이러한 데이터 전송은 방향들을 나타내기 위한 화살촉들을 갖는 실선으로써 도식적으로 나타내어진다.
시스템(30)은 제 1 음성 신호 변환 장치(33)를 구비하며, 그것은 아날로그 디지털 변환기를 구비하며, 그것으로 구두 텍스트에 대응하고 마이크로폰(1)에 의해 공급된 아날로그 전기 신호들이 제 1 디지털 데이터로 변환될 수 있다. 제 1 디지털 데이터를 저장하기 위해 시스템(30)은 버스(31)에 접속된 메모리 장치(34)를 구비한다.
시스템(30)은 버스(31)에 접속된 음성 인식 장치(35)를 더 구비한다. 시스템(30)의 제 1 동작 모드에서 제 1 메모리 장치(34)에 저장된 제 1 디지털과 시스템(30)의 제 2 동작 모드에서 음성 신호 변환 장치(33)에 의해 공급된 제 1 디지털 데이터는 음성 인식 장치(35)에 직접 인가될 수 있다. 음성 인식 장치(35)는 제 1 디지털 데이터에 기초하여 제 1 음성 인식 처리로 발생되고 인식 텍스트를 나타내는 제 2 디지털 데이터를 공급하도록 적응된다. 제 2 디지털 데이터를 저장하기 위해 시스템(30) 버스(31)에 접속된 제 2 메모리 장치(36)를 포함한다.
시스템(30)의 음성 인식 장치가 실행될 때 음성 인식 처리는 시스템(30)에서 유효하고 어휘를 나타내는 어휘 데이터와, 언어 모델을 나타내고 시스템(30)에서 유효한 언어 모델 데이터와, 음소들을 나타내고 시스템(30)에서 유효한 참조 데이터를 사용한다. 이러한 목적을 위해 시스템(30)은 버스(31)에 접속된 어휘 데이터 장치(37), 버스(31)에 접속된 언어 모델 데이터 장치(38), 버스(31)에 접속된 참조 데이터 장치(39)를 구비한다. 어휘 데이터 장치(37)는 버스(31)에 접속된 제 1 데이터 처리 장치(40)와, 버스(31)에 의해 제 1 데이터 처리 장치(40)에 접속되는 어휘 데이터 메모리 장치(41)를 구비하며, 도 3에서 기호로만 도시된다. 언어 모델 데이터 장치(38)는 버스(31)에 접속된 제 2 데이터 처리 장치(42)와, 버스(31)에 의해 데이터 처리 장치(42)에 접속된 언어 모델 데이터 메모리 장치(43)를 구비한다. 참조 데이터 장치(39)는 버스(31)에 접속된 제 3 데이터 처리 장치(44)와 버스(31)에 의해 제 3 데이터 처리 장치(44)에 접속된 참조 데이터 메모리 장치(45)를 구비한다.
도 3에 도시된 바와 같은 시스템(30)은 버스(31)에 접속된 표시 장치(10)를 갖는다. 표시 장치(10)는 버스(31)에 접속되는 표시 드라이버(46)와, 버스(31)에 의해 표시 드라이버(46)에 접속되는 표시 수단(47)을 구비하며, 그 수단으로써 판독될 텍스트가 표시된다.
시스템(30)은 또한 버스(31)에 접속된 제 2 음성 신호 변환 장치(48)를 갖는다. 제 2 음성 신호 변환 장치(48)는 기본적으로 디지털 아날로그 변환기를 구비한다. 제 2 음성 신호 변환 장치(48)에 의해 제 1 메모리 장치(34)에 저장되고 구두 텍스트를 나타내는 제 1 디지털 데이터가 아날로그 전기 신호들로 변환될 수 있으며, 그것은 스피커(12)에 인가될 수 있고, 그 스피커는 구두 텍스트의 청각적 재생을 위해 음성 신호 변환 장치(48)에 접속된다.
시스템(30)은 버스(31)에 접속된 오류 정정 장치(49)를 더 갖는다. 오류 정정 장치(49)는 버스(31)에 접속된 정정 장치(50)와, 키보드(14)에 의해 형성되고 버스(31)에 의해 정정 장치(50)에 접속되는 정정 입력 장치를 구비한다. 제 2 메모리 장치(36)에 저장된 제 2 디지털 데이터로 표현된 인식 텍스트를 정정하기 위해 오류 정정 장치(49), 즉 키보드(14)로써 제 3 디지털 데이터는 엔터될 수 있으며, 제 2 디지털 데이터의 일부는 제 3 디지털 데이터에 의해 대체될 수 있으며, 따라서 제 4 디지털 데이터가 정정 장치(50)에 의해 발생될 수 있게 한다. 정정 장치(50)에 의해 발생된 제 4 디지털 데이터는 정정된 텍스트를 나타낸다.
정정된 텍스트를 나타내는 제 4 디지털 데이터를 저장하기 위해 시스템(30)제 3 메모리 장치(51)를 버스(31)에 접속시킨다.
시스템(30)은 제 4 메모리 장치(52)를 버스(31)에 접속시키며, 그 메모리 장치는 새롭게 인식된 텍스트를 나타내는 제 5 디지털 데이터를 저장하는데 사용된다. 이러한 제 5 디지털 데이터의 발생은 하기에 상세히 설명한다.
시스템(30)은 프린팅 장치(53)를 버스(31)에 또한 접속시킨다. 프린팅 장치(53)는 버스(31)에 접속된 프린터 제어 장치(54)와, 프린터 제어 장치(54)에 버스(31)로써 접속된 프린터(55)를 구비한다.
전문에 시스템(30)의 개별 장치를 설명하였다. 하기에는 본 배경에서 중요한 시스템(30)의 몇몇 처리들에 관해서 설명한다. 이러한 측면에서 도 3의 실선으로 나타낸 데이터 전송은 시스템(30)의 한 장치에서 다른 장치로 실행되어야 한다는 것을 한 번 더 주지하여야 한다. 이러한 배경에서 사실상 그러한 데이터 전송은 관련 선에 의해 표시된 바와 같이 시스템(30)의 한 장치에서 시스템(30)의 다른 장치로 직접 실행되지 않는다는 것을 생각해야하며, 그것은 도면의 명확성을 위해 도 3에 도시하지 않는다.
시스템(30)의 사용자, 즉 화자가 소정 길이, 예컨대 몇 분 길이의 텍스트를 마이크로폰(1)에 대고 말할 때 구두 텍스트는 마이크로폰(1)으로부터 아날로그 전기 신호들의 형태로 제 1 음성 신호 변환 장치(33)로 인가되며, 그 구두 텍스트는 제 1 음성 신호 변환 장치(33)의 아날로그 디지털 변환기에 의한 아날로그 디지털 변환 처리로써 제 1 디지털 데이터로 변환된다. 중앙 제어 장치(32)의 제어 하에서 앞서 설명한 제 1 동작 모드의 제 1 음성 신호 변환 장치(33)에 의해 발생된 제 1 디지털 데이터는 점선(56)으로 표시된 바와 같은 버스(31)에 의해 제 1 메모리 장치(34)로 전달되며, 그 제 1 메모리 장치(34)에 저장된다.
제 1 메모리 장치(34)에 저장된 제 1 디지털 데이터는 중앙 제어 장치(32)의 제어 하에서 버스(31)에 의해 점선(57)에 의해 표시된 바와 같이 이러한 메모리 장치로부터 음성 인식 장치(35)로 인가될 수 있다. 앞서 설명한 제 2 동작 모드에서 제 1 디지털 데이터의 음성 인식 장치(35)로의 이러한 적응은 제 1 메모리 장치(34)에 제 1 디지털 데이터를 저장하는 것과 동시에 실행될 수 있으나 제 1 동작 모드에서는 제 1 메모리 장치(34)의 소정 길이의 구두 텍스트에 대응하는 제 1 디지털 데이터의 저장을 완성하자마자 또한 실행될 수 있다.
음성 인식 장치(35)에서 제 1 디지털 데이터는 음성 인식 처리를 거친다. 이러한 음성 인식 처리 동안 어휘 데이터 장치(37)의 어휘 데이터 메모리 장치(41)에 저장되고 어휘를 나타내는 어휘 데이터는 이러한 음성 인식 처리에 사용되기 위해 점선(58)에 의해 표시된 바와 같이 버스(31)를 거쳐 어휘 데이터 장치(37)의 제 1 데이터 처리 장치(40)에 의해 음성 인식 장치(35)에 인가된다. 더욱이 이러한 음성 인식 처리 동안, 언어 모델을 나타내고 언어 모델 데이터 장치(38)의 언어 모델 데이터 메모리 장치(43)에 저장된 언어 모델 데이터는 이러한 음성 인식 처리에 사용되도록 점선(59)에 의해 표시된 바와 같이 버스(31)를 거쳐 제 2 데이터 처리 장치(42)에 의해 음성 인식 장치(35)에 인가된다. 더욱이 이러한 음성 인식 처리 동안 참조 데이터 장치(39)의 참조 데이터 메모리 장치(45)에 저장되고 음소들을 나타내는 참조 데이터는 이러한 음성 인식 처리에 사용되도록 점선(60)에 의해 표시된 바와 같이 참조 데이터 장치(39)의 제 3 데이터 처리 장치(44)를 거쳐 음성 인식 장치(35)에 인가된다. 음성 인식 장치(35)에 의해 실행된 음성 인식 처리 동안 음소들 및 음소 시퀀스들은 음소들을 나타내는 참조 데이터의 도움으로 구두 텍스트를 나타내는 제 1 디지털 데이터에 기초하여 인식되며, 마침내는 단어들 및 단어 시퀀스들이 인식된 음소들 및 음소 시퀀스들의 도움 및 어휘 데이터와 언어 모델 데이터의 도움으로 인식된다. 그러한 음성 인식 처리들의 실행은 원래 공지된 기법이며, 더이상 하기에서 설명하지 않는다. 인식된 텍스트를 나타내는 제 2 디지털 데이터는 음성 인식 장치(35)에 의해 실행된 음성 인식 장치 처리 동안 발생된다. 음성 인식 장치(35)에 의해 발생된 제 2 디지털 데이터는 중앙 제어 장치(32)의 제어 하에서 버스(31)를 거쳐 제 2 메모리 장치(36)에 인가되고 그 메모리 장치(36)에 저장된다.
제 2 메모리 장치(36)에 저장된 제 2 디지털 데이터는 또한 중앙 처리 장치(32)의 제어 하에서 점선(62)에 의해 표시된 바와 같이 표시 장치(10)에 인가된다. 표시 장치(10)에서 인가된 제 2 디지털 데이터는 표시 드라이버(46)에 의해 처리되며, 그 이후에 인식된 텍스트는 제 2 디지털 데이터를 이용하여 표시 장치(10), 즉 표시 수단(47)에 의해 표시된다. 인식된 텍스트의 표시 결과로 사용자는 인식된 텍스트의 오류들을 정정하기 위해 음성 인식 처리의 오류 검출에 기초하여 선택적으로, 인식된 텍스트를 체크할 수 있다.
인식된 텍스트가 간단한 방식으로 체크되게 하기 위해 제 1 메모리 장치(34)에 저장된 구두 텍스트를 나타내는 제 1 디지털 데이터는 점선(63)에 의해 표시된 바와 같이 버스(31)를 거쳐 중앙 제어 장치(32)의 제어 하에서 제 2 음성 신호 변환 장치(48)에 전달될 수 있다. 제 2 음성 신호 변환 장치(48)에서 인가된 제 1 디지털 데이터는 제 2 음성 신호 변환 장치(48)의 디지털 아날로그 변환기에 의해 아날로그 전기 신호들로 변환되며, 그 신호들은 구두 텍스트의 청각적 재생을 위해 스피커(12)에 연속적으로 인가된다. 청각적으로 재생된 구두 텍스트를 청취하고 표시된 인식 텍스트를 판독함으로써 인식 텍스트는 정확성 또는 오류들을 위해 매우 간단하게 체크될 수 있다. 사용자가 음성 인식 장치(35)에 의해 실행된 음성 인식 처리의 오류 검출에 기초하여 인식된 텍스트의 오류를 검출할 때 사용자는 오류 정정 장치(49)의 키보드(14)로 오류 정정 장치(49)의 정정 장치(50)에 인가된 제 3 디지털 데이터를 사용자가 발생시키기 때문에 사용자는 오류 정정 장치(49)로 정정 처리를 실행할 수 있다. 또한 인식 텍스트를 나타내는 제 2 디지털 데이터는 중앙 제어 장치(32)의 제어 하에서 버스(31)를 거쳐 이러한 정정 장치(50)에 인가된다. 오류 정정 장치(49)의 정정 장치(50)에서 제 2 디지털 데이터의 일부는 인식 텍스트를 정정하기 위해 키보드(14)에 의해 엔터된 제 3 디지털 데이터로 대체된다. 정정 장치(50) 내의 엔터된 제 3 디지털 데이터에 의한 제 2 디지털 데이터의 이러한 부분적 대체는 정정된 텍스트를 나타내는 제 4 디지털 데이터를 생성시킨다. 정정된 텍스트를 나타내는 제 4 디지털 데이터는 오류 정정 장치(49)의 정정 장치(50)에서 제 3 메모리 장치(51)로 전달되며, 제 3 메모리 장치는 중앙 제어 장치(32)의 제어 하에서 점선(65)에 의해 표시된 바와 같이 버스(31)를 거쳐, 정정된 텍스트를 나타내는 제 4 디지털 데이터를 저장한다. 저장된 제 4 디지털 데이터는 중앙 제어 장치(32)의 제어 하에서 점선(66)에 의해 표시된 바와 같이 버스(31)를 거쳐 제 3 메모리 장치(51)로부터 표시 장치(10)로 전달되어 정정된 텍스트는 표시 장치(10)의 표시 수단(47)에 의해 그때 표시된다. 이것은 시스템(30)에 의해 실행된 실제적인 음성 인식 처리를 포함한다.
도 3에 따른 시스템은 이제 또한 관련 화자에게 참조 데이터를 적응시키기 위해 도 2와 관련하여 설명한 방법에 따라, 참조 데이터 장치(39)의 참조 데이터 메모리 장치(45)에 저장된 참조 데이터를 적응시키는데, 이것은 시스템이 시스템에 이미 공지된 화자에 의해 발음된 다른 텍스트의 새로운 음성 인식 처리의 향상된 인식의 질을 제공하기 때문이다. 참조 데이터 장치(39)의 참조 데이터 메모리 장치(45)에 저장된 참조 데이터를 적응시키기 위해 도 3에 도시된 시스템(30)은 임의의 다른 부가적 수단을 거의 필요로 하지 않아 이로운데 이것은 이러한 적응이 원리에 있어서 어쨌든 유효한 적응 수단(67)을 이용하기만 하기 때문이다. 시스템(30)에서 이러한 적응 수단(67)은 음성 인식 장치(35), 어휘 데이터 장치(37) 및 언어 모델 데이터 장치(38)에 의해 특정하게 간단한 방식으로 형성된다. 이러한 적응 수단(67)의 도움으로, 정정된 텍스트를 나타내고 제 3 메모리 장치(51)에 저장된 제 4 디지털 데이터를 수신하자마자 제 4 디지털 데이터는 점선(68, 69)에 의해 표시된 바와 같이 중앙 제어 장치(32)의 제어 하에서 시스템(30)의 어휘 데이터 장치(37) 및 언어 모델 데이터 장치(38)에 인가된다. 어휘 데이터 장치(37)에서, 인가된 제 4 디지털 데이터는 제 1 데이터 처리 장치(40)에 의해 처리되며, 이어서 어휘 데이터 메모리 장치(42)에 저장되어 어휘 데이터 메모리 장치(42)에서 유효한 어휘 데이터는 어휘 데이터 메모리 장치(41)에 저장되는 적응된 어휘 데이터를 생성시키면서 제 4 디지털 데이터에 기초하여 텍스트의 화자에게 적응된다. 언어 모델 데이터 장치(38)에서 인가된 제 4 디지털 데이터는 제 2 데이터 처리 장치(42)에 의해 처리되며, 언어 모델 데이터 장치(43)에 저장되어 언어 모델 데이터 장치(43)에서 유효한 언어 모델 데이터는 언어 모델 데이터 메모리 장치(43)에 저장된 적응된 언어 모델 데이터를 생성시키면서 제 4 디지털 데이터에 기초하여 제 2 데이터 처리 장치(42)에 의해 구두 텍스트의 화자에게 적응된다.
이러한 어휘 데이터 및 언어 모델 데이터의 적응 처리 이후 구두 텍스트를 나타내고 제 1 메모리 장치(34)에 저장된 제 1 디지털 데이터는 점선(57)으로 표시된 바와 같이 중앙 제어 장치(32)의 제어 하에서 버스(31)를 거쳐 음성 인식 장치(35)에 다시 인가된다. 음성 인식 장치(35)에서 제 1 디지털 데이터는 다시 음성 인식 처리를 거친다. 이러한 음성 인식 처리에서, 점선(58)에 의해 표시된 바와 같이 중앙 제어 장치(32)의 제어 하에서 버스(31)를 거쳐 어휘 데이터 메모리 장치(41)에 저장되고 음성 인식 장치(35)에 인가된, 적응된 어휘 데이터와, 점선(59)에 의해 표시된 바와 같이 중앙 제어 장치(32)의 제어 하에서 버스(31)를 거쳐 언어 모델 데이터 메모리 장치(43) 및 음성 인식 장치(35)에 인가된, 적응된 언어 모델 데이터에 대한 허용이 이루어진다. 이러한 경우 점선(60)에 의해 표시된 바와 같이 중앙 제어 장치(32)하에서 버스(31)를 거쳐 참조 데이터 장치(45)에 저장되고 음성 인식 장치(35)에 인가된 여전히 비적응된 참조 데이터에 대한 허용 또한 이루어진다. 반복적인 음성 인식 처리에서 음성 인식 장치(35)는 새롭게 인식된 텍스트를 나타내는 제 5 디지털 데이터를 발생시킨다. 제 5 디지털 데이터는 음성 인식 장 치(35)에서 제 4 메모리 장치(52)에 인가되며, 점선(70)에 의해 표시된 바와 같이 중앙 제어 장치(32)의 제어 하에서 버스(31)를 거쳐 제 4 메모리 장치(52)로 로드 된다.
도 3에 도시된 바와 같은 시스템에서 제 4 메모리 장치(52)에 저장되고 새롭게 인식된 텍스트를 나타내는 제 5 디지털 데이터는 참조 데이터 장치(39)의 참조 데이터 메모리 장치(45)에 저장된 참조 데이터를 적응시키기 위한 적응 데이터로서 사용된다. 참조 데이터 메모리 장치(45)에 저장된 참조 데이터의 적응을 실행시키기 위해 제 4 메모리 장치(52)에 저장된 제 5 디지털 데이터는 점선(71)에 의해 표시된 바와 같이 중앙 제어 장치(32)의 제어 하에서 버스(31)를 거쳐 참조 데이터 장치(39)에 전달된다. 이러한 목적을 위해 제 1 메모리 장치(34)에 저장된 제 1 디지털 데이터는 점선(72)에 의해 표시된 바와 같이 중앙 제어 장치(32)의 제어 하에서 버스(31)를 거쳐 참조 데이터 장치(39)에 또한 인가된다. 참조 데이터 장치(39)에 인가되고, 적응 데이터를 형성시키고 새롭게 인식된 텍스트를 나타내는 제 5 디지털 데이터와, 참조 데이터 장치(39)에 인가되고 구두 텍스트를 나타내는 제 1 디지털 데이터는 참조 데이터 장치(39)의 제 3 데이터 처리 장치(44)에서 처리되며, 처리는 새롭게 인식된 텍스트를 사용하는 구두 텍스트로부터 음소들의 새로운 표기를 유도하도록 본질적으로 실행된다. 이러한 처리가 실행된 이후에 제 3 데이터 처리 장치(44)는 참조 데이터 메모리 장치(45)에 저장된 참조 데이터를, 앞서 유도된 음소들의 표기의 도움으로 이러한 텍스트를 화자에게 적응시킨다. 이러한 적응의 결과로 참조 데이터, 즉 다양한 음소들에 대한 참조 패턴들은 화자에게 더 잘 적응되며, 그것은 이러한 화자에 의해 연속적으로 발음된 구두 텍스트의 이어지는 음성 인식 처리 동안 더 나은 인식의 질을 초래한다.
도 3에 도시된 바와 같은 시스템(30)으로 구두 텍스트, 인식 텍스트, 정정된 텍스트, 새롭게 인식된 텍스트를 프린팅 장치(53)로써 선택적으로 프린트할 수 있다. 이러한 목적을 위해 제 1 메모리 장치(34)에 저장되고 구두 텍스트를 나타내는 제 1 디지털 데이터, 제 2 메모리 장치(36)에 저장되고 인식된 텍스트를 나타내는 제 2 디지털 데이터, 제 3 메모리 장치(51)에 저장되고 정정된 텍스트를 나타내는 제 4 디지털 데이터, 제 4 메모리 장치(52)에 저장되고 새롭게 인식된 텍스트를 나타내는 제 5 디지털 데이터는 중앙 제어 장치(32)의 제어 하에서 버스(31)를 거쳐 프린팅 장치(53)에 선택적으로 인가될 수 있다. 인가된 데이터는 프린팅 장치(53)의 프린터 제어 장치(54)에 의해 처리되며, 그 후에는 관련 텍스트가 프린팅 장치(53)의 프린터(55)에 의해 프린트된다.
퍼스널 컴퓨터에 의해 실행되고 도 3에 도시된 시스템(30)에서 음성 인식 장치(35), 어휘 데이터 장치(37)의 제 1 데이터 처리 장치, 언어 모델 데이터 장치(38)의 제 2 데이터 처리 장치(42), 참조 데이터 장치(39)의 제 3 데이터 처리 장치(44), 표시 장치(10)의 표시 드라이버(46), 오류 정정 장치(49)의 정정 장치(50), 프린팅 장치(53)의 프린터 제어 장치(54)가 퍼스널 컴퓨터의 중앙 처리 장치(CPU)에 의해 실현된다.
도 3에 도시된 바와 같은 시스템(30)은 몇몇 메모리 장치들, 즉 제 1 메모리 장치(34), 제 2 메모리 장치(36), 제 3 메모리 장치(51), 제 4 메모리 장치(52), 어휘 데이터 메모리 장치(41), 언어 모델 데이터 메모리 장치(43), 참조 데이터 메모리 장치(45)를 구비한다. 각각의 이러한 메모리 장치들은 메인 메모리 및 연결된 고정 디스크 저장소, 즉 퍼스널 컴퓨터의 하드디스크에 의해 실현된다.
본 발명에 따른 방법 및 본 발명에 따른 시스템의, 앞서 설명한 바로부터 명백한 바와 같이 본 발명에 따른 수단을 통해 참조 데이터 장치에서 유효한 참조 데이터에 의한 적응 데이터의 발생을 위한 적응 수단은 구두 텍스트에 적응될 수 있으며, 따라서 구두 텍스트의 화자에게 적응될 수 있고, 어쨌든 유효한 수단, 즉 음성 인식 장치, 어휘 데이터 장치, 언어 모델 데이터 장치로 구성되어 임의의 개별적인 수단은 필요하지 않으며, 가능한 한 간단하고 저렴한 비용으로 실행하는데 이롭다. 다른 이점은 새롭게 인식된 텍스트를 나타내고 적응 데이터를 형성시키는 데이터의 도움으로 구두 텍스트의 화자에 대한 참조 데이터의 적응이 실행되는데 그것은 새롭게 인식된 텍스트의 경우 새롭게 인식된 텍스트의 대부분이 구두 텍스트와 매우 잘 매치 된다고 가정할 수 있으며, 그 결과 새롭게 인식된 텍스트를 나타내는 데이터와 구두 텍스트를 나타내는 데이터에 기초하여 특정하게 빠르고 효과적으로 실행될 수 있다.

Claims (3)

  1. 구두 텍스트 인식 방법으로서 화자에 의해 발음된 상기 구두 텍스트는 제 1 디지털 데이터로 변환되며, 상기 구두 텍스트를 나타내는 제 1 디지털 데이터는 음성 인식 처리를 거치며,
    상기 처리에서 어휘를 나타내는 유효한 어휘 데이터와, 언어 모델을 나타내는 유효한 언어 모델 데이터와, 음소들을 나타내는 유효한 참조 데이터에 대한 허용이 이루어지고,
    상기 처리에서 인식 데이터를 나타내는 제 2 디지털 데이터가 발생되며,
    상기 방법에서 상기 인식 데이터는 상기 제 2 디지털 데이터의 도움으로 표시되며, 상기 방법에서 제 3 디지털 데이터는 상기 제 2 디지털 데이터에 의해 나타난 상기 인식 데이터를 정정하도록 발생되며, 상기 제 2 디지털 데이터의 일부는 제 3 디지털 데이터와, 정정된 텍스트가 얻어진 것을 나타내는 제 4 디지털 데이터로 대체되며,
    상기 방법에서 상기 유효한 참조 데이터를 상기 구두 텍스트의 상기 화자에게 적응시키기 위한 적응 데이터가 상기 제 1 디지털 데이터 및 상기 제 4 디지털 데이터의 도움으로 발생되며,
    상기 방법에서 상기 유효한 참조 데이터가, 적응된 참조 데이터를 얻도록 상기 적응 데이터 및 상기 제 1 디지털 데이터의 도움으로 상기 구두 텍스트의 상기 화자에게 적응되는 구두 텍스트 인식 방법에 있어서,
    상기 유효한 어휘 데이터 및 상기 유효한 언어 모델 데이터는 상기 정정된 텍스트를 나타내는 상기 제 4 디지털 데이터를 얻은 후 상기 제 4 디지털 데이터에 의해 상기 구두 텍스트의 화자에게 적응되며,
    이어서 상기 구두 텍스트를 나타내는 상기 제 1 디지털 데이터가, 상기 적응된 어휘 데이터, 상기 적응된 언어 모델 데이터, 상기 유효한 참조 데이터에 대한 허용이 이루어지며, 새롭게 인식된 텍스트를 나타내는 제 5 디지털 데이터가 발생되는 음성 인식 처리를 다시 거치며,
    상기 제 5 디지털 데이터는 상기 구두 텍스트의 상기 화자에게 상기 유효한 참조 데이터를 적응시키기 위해 적응 데이터로서 사용되며, 상기 제 1 디지털 데이터와 관련하여 사용되는 것을 특징으로 하는 구두 텍스트 인식 방법.
  2. 구두 텍스트를 인식하는 시스템으로서, 화자에 의해 발음된 상기 구두 텍스트가 상기 구두 텍스트를 나타내는 제 1 디지털 데이터로 변환될 수 있는 변환 장치와,
    어휘를 나타내고 어휘 데이터 장치 내에 저장될 수 있는 유효한 어휘 데이터를 위한 어휘 데이터 장치와,
    언어 모델을 나타내고 상기 언어 모델 데이터 장치 내에 저장될 수 있는 유효한 언어 모델 데이터를 위한 언어 모델 데이터 장치와,
    음소들을 나타내고 상기 참조 데이터 장치 내에 저장될 수 있는 유효한 참조 데이터를 위한 참조 데이터 장치와,
    상기 어휘 데이터 장치, 상기 언어 모델 데이터 장치, 상기 참조 데이터 장치가 서로 협동하도록 만들어 질 수 있으며, 상기 제 1 디지털 데이터가 인가될 수 있고, 인식 텍스트를 나타내고 상기 제 1 디지털 데이터에 기초하여 실행된 음성 인식 처리 동안 발생되는 제 2 디지털 데이터를 공급하도록 적응되는 음성 인식 장치와,
    상기 인식 텍스트를 표시하기 위해 상기 제 2 디지털 데이터가 인가될 수 있는 표시 장치와,
    상기 제 2 디지털 데이터로 나타낸 상기 텍스트의 상기 정정을 위해 제 3 디지털 데이터가 엔터될 수 있고 상기 제 2 디지털 데이터의 일부가 상기 제 3 디지털 데이터로 대체될 수 있으며, 그로써 정정된 텍스트를 나타내는 제 4 디지털 데이터가 발생될 수 있게 하는 오류 정정 장치와,
    제 1 디지털 데이터 및 제 4 디지털 데이터가 인가될 수 있고 상기 유효한 참조 데이터를 상기 구두 텍스트의 상기 화자에게 적응시키기 위한 적응 데이터가 발생될 수 있고, 적응 데이터 및 제 1 디지털 데이터가, 상기 구두 텍스트의 상기 화자에게 상기 유효한 참조 데이터를 적응시키도록 상기 참조 데이터 장치에 인가될 수 있으며, 상기 구두 텍스트의 상기 화자에게 적응된 상기 참조 데이터는 상기 참조 데이터 장치에 저장될 수 있는 적응 수단을 구비하는 구두 텍스트 인식 시스템에 있어서,
    상기 적응 수단은 상기 음성 인식 장치, 상기 어휘 데이터 장치 및 상기 언어 모델 데이터 장치에 의해 형성되고,
    상기 제 4 디지털 데이터는 상기 어휘 데이터 장치 및 상기 언어 모델 데이터 장치에 인가되어 상기 유효한 어휘 데이터 및 상기 유효한 언어 모델 데이터를 상기 구두 텍스트의 상기 화자에게 인가될 수 있으며,
    상기 음성 인식 장치로써, 새롭게 인식된 텍스트를 나타내는 제 5 디지털 데이터는 상기 어휘 데이터 및 상기 언어 모델 데이터의 상기 적응 이후 상기 제 1 디지털 데이터에 기초하여 실행된 새로운 음성 인식 처리 동안 발생될 수 있으며,
    적응 데이터로서 사용된 상기 제 5 디지털 데이터는 상기 제 1 디지털 데이터와 함께, 상기 구두 텍스트의 상기 화자에게 상기 유효한 참조 데이터를 적응시키기 위해 상기 참조 데이터 장치에 인가될 수 있는 것을 특징으로 하는 구두 텍스트 인식 시스템.
  3. 제 2 항에 있어서, 퍼스널 컴퓨터에 의해 실행되는 것을 특징으로 하는 구두 텍스트 인식 시스템.
KR10-1998-0703881A 1996-09-27 1997-07-04 구두텍스트인식방법및시스템 KR100453021B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP96890151 1996-09-27
EP96890151.2 1996-09-27

Publications (2)

Publication Number Publication Date
KR19990071605A true KR19990071605A (ko) 1999-09-27
KR100453021B1 KR100453021B1 (ko) 2005-04-08

Family

ID=8226210

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-1998-0703881A KR100453021B1 (ko) 1996-09-27 1997-07-04 구두텍스트인식방법및시스템

Country Status (7)

Country Link
US (1) US6101467A (ko)
EP (1) EP0865651B1 (ko)
JP (1) JP4339931B2 (ko)
KR (1) KR100453021B1 (ko)
AT (1) ATE211847T1 (ko)
DE (1) DE69709539T2 (ko)
WO (1) WO1998013822A1 (ko)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE514872C2 (sv) * 1998-09-09 2001-05-07 Sandvik Ab Skär för spårsvarvning
JP2001100781A (ja) * 1999-09-30 2001-04-13 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
US6925436B1 (en) * 2000-01-28 2005-08-02 International Business Machines Corporation Indexing with translation model for feature regularization
US7133829B2 (en) * 2001-10-31 2006-11-07 Dictaphone Corporation Dynamic insertion of a speech recognition engine within a distributed speech recognition system
US7146321B2 (en) * 2001-10-31 2006-12-05 Dictaphone Corporation Distributed speech recognition system
US6785654B2 (en) * 2001-11-30 2004-08-31 Dictaphone Corporation Distributed speech recognition system with speech recognition engines offering multiple functionalities
US20030115169A1 (en) * 2001-12-17 2003-06-19 Hongzhuan Ye System and method for management of transcribed documents
US6990445B2 (en) * 2001-12-17 2006-01-24 Xl8 Systems, Inc. System and method for speech recognition and transcription
DE10208466A1 (de) * 2002-02-27 2004-01-29 BSH Bosch und Siemens Hausgeräte GmbH Elektrisches Haushaltsgerät
US20030167174A1 (en) * 2002-03-01 2003-09-04 Koninlijke Philips Electronics N.V. Automatic audio recorder-player and operating method therefor
US7236931B2 (en) 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
US7292975B2 (en) * 2002-05-01 2007-11-06 Nuance Communications, Inc. Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription
DE10220520A1 (de) * 2002-05-08 2003-11-20 Sap Ag Verfahren zur Erkennung von Sprachinformation
EP1363271A1 (de) * 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
DE10220521B4 (de) * 2002-05-08 2005-11-24 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
DE10220524B4 (de) * 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
DE10220522B4 (de) * 2002-05-08 2005-11-17 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
US8200495B2 (en) 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7865362B2 (en) 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
ES2237345B1 (es) * 2005-02-28 2006-06-16 Prous Institute For Biomedical Research S.A. Procedimiento de conversion de fonemas a texto escrito y sistema informatico y programa informatico correspondientes.
US8032372B1 (en) 2005-09-13 2011-10-04 Escription, Inc. Dictation selection
US7756708B2 (en) * 2006-04-03 2010-07-13 Google Inc. Automatic language model update
US8635243B2 (en) 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US20080221880A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile music environment speech processing facility
US20110054897A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Transmitting signal quality information in mobile dictation application
US8949130B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US20080288252A1 (en) * 2007-03-07 2008-11-20 Cerra Joseph P Speech recognition of speech recorded by a mobile communication facility
US20110054900A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Hybrid command and control between resident and remote speech recognition facilities in a mobile voice-to-speech application
US20080312934A1 (en) * 2007-03-07 2008-12-18 Cerra Joseph P Using results of unstructured language model based speech recognition to perform an action on a mobile communications facility
US20110054894A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Speech recognition through the collection of contact information in mobile dictation application
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US8886540B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US8880405B2 (en) 2007-03-07 2014-11-04 Vlingo Corporation Application text entry in a mobile environment using a speech processing facility
US10056077B2 (en) 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
TWI319563B (en) * 2007-05-31 2010-01-11 Cyberon Corp Method and module for improving personal speech recognition capability
US9128981B1 (en) 2008-07-29 2015-09-08 James L. Geer Phone assisted ‘photographic memory’
US8379801B2 (en) 2009-11-24 2013-02-19 Sorenson Communications, Inc. Methods and systems related to text caption error correction
KR20120046627A (ko) * 2010-11-02 2012-05-10 삼성전자주식회사 화자 적응 방법 및 장치
KR101197010B1 (ko) 2011-03-30 2012-11-05 포항공과대학교 산학협력단 음성 처리 장치 및 방법
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
US9558747B2 (en) * 2014-12-10 2017-01-31 Honeywell International Inc. High intelligibility voice announcement system
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
US9741337B1 (en) * 2017-04-03 2017-08-22 Green Key Technologies Llc Adaptive self-trained computer engines with associated databases and methods of use thereof

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5315689A (en) * 1988-05-27 1994-05-24 Kabushiki Kaisha Toshiba Speech recognition system having word-based and phoneme-based recognition means
AT390685B (de) * 1988-10-25 1990-06-11 Philips Nv System zur textverarbeitung
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
AT391035B (de) * 1988-12-07 1990-08-10 Philips Nv System zur spracherkennung
US5983179A (en) * 1992-11-13 1999-11-09 Dragon Systems, Inc. Speech recognition system which turns its voice response on for confirmation when it has been turned off without confirmation
US5615296A (en) * 1993-11-12 1997-03-25 International Business Machines Corporation Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
JP2692581B2 (ja) * 1994-06-07 1997-12-17 日本電気株式会社 音響カテゴリ平均値計算装置及び適応化装置
US5787230A (en) * 1994-12-09 1998-07-28 Lee; Lin-Shan System and method of intelligent Mandarin speech input for Chinese computers
WO1997017694A1 (en) * 1995-11-04 1997-05-15 International Business Machines Corporation Method and apparatus for adapting the language model's size in a speech recognition system
US5857099A (en) * 1996-09-27 1999-01-05 Allvoice Computing Plc Speech-to-text dictation system with audio message capability
US5864805A (en) * 1996-12-20 1999-01-26 International Business Machines Corporation Method and apparatus for error correction in a continuous dictation system

Also Published As

Publication number Publication date
DE69709539T2 (de) 2002-08-29
JP4339931B2 (ja) 2009-10-07
DE69709539D1 (de) 2002-02-14
US6101467A (en) 2000-08-08
WO1998013822A1 (en) 1998-04-02
JP2000502470A (ja) 2000-02-29
KR100453021B1 (ko) 2005-04-08
EP0865651A1 (en) 1998-09-23
EP0865651B1 (en) 2002-01-09
ATE211847T1 (de) 2002-01-15

Similar Documents

Publication Publication Date Title
KR100453021B1 (ko) 구두텍스트인식방법및시스템
US8224645B2 (en) Method and system for preselection of suitable units for concatenative speech
US7155391B2 (en) Systems and methods for speech recognition and separate dialect identification
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
US6138099A (en) Automatically updating language models
EP0799471B1 (en) Information processing system
KR20050076697A (ko) 컴퓨터 구현 음성 인식 시스템 및 이 시스템으로 학습하는방법
US20010012994A1 (en) Speech recognition method, and apparatus and computer controlled apparatus therefor
CN109300468B (zh) 一种语音标注方法及装置
WO2023114064A1 (en) Adaptation and training of neural speech synthesis
US6772116B2 (en) Method of decoding telegraphic speech
EP3718107B1 (en) Speech signal processing and evaluation
JP2003162524A (ja) 言語処理装置
JP2003504675A (ja) 転送手段を有するスピーチ認識装置
JP2006018028A (ja) 対話方法、対話装置、音声対話装置、対話プログラム、音声対話プログラム及び記録媒体
JP2002091967A (ja) 言語モデル作成装置および言語モデル作成プログラムを記録した記録媒体
JP7162579B2 (ja) 音声合成装置、方法及びプログラム
JP6991409B2 (ja) 情報処理装置、プログラム及び情報処理方法
JP2001188556A (ja) 音声認識方法及び装置
EP1422691B1 (en) Method for adapting a speech recognition system
Demuynck et al. Robust phone lattice decoding
KR20010085219A (ko) 서브단어 메모리를 포함하는 음성인식 장치
JPH08171396A (ja) 音声認識装置
JP2993984B2 (ja) 文章読み上げ装置及びその方法
JP3402480B2 (ja) 文書朗読装置

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee