KR20010079734A - 음성 다이얼링을 위한 방법 및 시스템 - Google Patents

음성 다이얼링을 위한 방법 및 시스템 Download PDF

Info

Publication number
KR20010079734A
KR20010079734A KR1020017002784A KR20017002784A KR20010079734A KR 20010079734 A KR20010079734 A KR 20010079734A KR 1020017002784 A KR1020017002784 A KR 1020017002784A KR 20017002784 A KR20017002784 A KR 20017002784A KR 20010079734 A KR20010079734 A KR 20010079734A
Authority
KR
South Korea
Prior art keywords
speech recognition
words
vocabulary
word
recognition system
Prior art date
Application number
KR1020017002784A
Other languages
English (en)
Inventor
메쿠리아피쎄하
Original Assignee
클라스 노린, 쿨트 헬스트룀
텔레폰악티에볼라겟엘엠에릭슨(펍)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 클라스 노린, 쿨트 헬스트룀, 텔레폰악티에볼라겟엘엠에릭슨(펍) filed Critical 클라스 노린, 쿨트 헬스트룀
Publication of KR20010079734A publication Critical patent/KR20010079734A/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephone Function (AREA)
  • Selective Calling Equipment (AREA)

Abstract

이동 전화의 음성 인식 시스템에서, 워드는 격자 구조로 조직된다. 그러므로, 각각의 경우에, 음성 인식 시스템은 단지 전체의 어휘중 제한된 부분만을 탐색할 필요가 있다. 그러한 장치는 동시에 많은 워드를 탐색하여야만 하며 시간을 소비하고 시스템에 높은 계산 부하를 부과하는 문제점을 해결하므로 음성 인식 시스템에 대한 정확도를 상당히 증가시킬 것이다.

Description

음성 다이얼링을 위한 방법 및 시스템 {A METHOD AND A SYSTEM FOR VOICE DIALLING}
음성 인식 시스템에서, 주 목적은 기계가 성대에 의해 발성된 발음을 이해하도록 하는 것이다. 그러므로,음성 인식은 음성으로부터 곧바로 기계로 명령, 텍스트 및 데이터를 입력하도록 함으로써 인간-기계 인터페이스(MMI)를 용이하게 하기 위해 사용된다.
음성 인식에서, 컴퓨터의 임무는 음향 입력 신호를 텍스트로 변환하는 것인데, 즉 소위 전사(transcription)하는 것이다. 입력 신호의 특성은 성별, 나이, 방언 등등에 따라서 동일한 워드(word)에 대해 광범위하게 변화한다. 더구나, 몇개의 워드가 동시에 시스템으로 입력된 경우, 가령, 전체의 문장이 음성 인식 시스템으로 제공된 경우, 상이한 워드의 발음은 현재의 워드의 이전 워드 및/또는 이후 워드에 따라서 달라질 수 있다.
더구나, 잡음 및 반향 효과가 존재하기 때문에, 원 신호는 음성 인식 시스템으로 입력되기 전에 왜곡될 수 있다.
일반적으로, 음성 인식 시스템은 두 가지의 주요한 그룹; -i) 화자 독립 시스템 및 -ii) 화자 의존 시스템으로 분할될 수 있다. 화자 독립 시스템, 특히 많은 어휘(vocabulary)를 위하여 설계되고 상이한 워드 즉, 문장 또는 그 문장의 부분 사이에 멈춤이 없이 음성을 수용하기 위하여 설계된 화자 독립 시스템은 많은 음성 데이터 베이스의 사용을 필요로하고 상이한 통계적인 특성의 음성 및 워드를 사용한다. 소위 문법적인 룰 및 예측은 또한 그러한 시스템에 포함될 수 있다.
반면, 화자 종속 시스템, 특히 제한된 어휘(통상적으로 몇 백개의 워드)를 사용하며 단지 하나의 워드만이 발음되는 화자 종속 시스템은 결코 많은 데이터 베이스를 필요로하지 않는다. 대신에, 그러한 시스템은 특정 화자, 즉 어떤 경우에 그 시스템을 사용하는 화자의 트레이닝(training)을 필요로한다.
화자 종속 음성 인식 시스템은 물론 많은 이유 때문에 화자 독립 시스템에 비교하여 훨씬더 양호한 성능을 제공할 것이다. 가령, 워드의 수가 제한되며 또한 시스템을 사용하는 특정 사람에 의해 트레이닝되기 때문에, 이 시스템은 특정 워드가 어떻게 소리가 나야만 하는지를 정확하게 인지한다.
그러나, 화자 종속 시스템은 단지 제한된 범위의 용도로 사용될 수 있다. 화자 종속 시스템이 화자 독립 시스템보다 양호해야만 하는 경우는 가령, 기계로 명령을 입력하는 것이다.
그러한 경우에서, 음성 인식 시스템의 임무는 구두로 제공된 명령을 기계에 의해 이해될 수 있는 형태 즉, 기계를 제어하기 위해 사용되는 통상적인 이진 워드로 전사하는 것이다. 가령, "Go", "Stop", "Left", "Right", "Yes", "No" 등등과 같은 명령이 구두로 기계에 제공되고 나서 기계는 이에 대응하는 동작을 실행한다.
그럼에도 불구하고, 기계가 인식할 수 있는 워드의 수가 통상적으로 수백워드로 제한될지라도, 그리고 기계의 음성 인식 시스템이 사용자의 음성에 의해 트레이닝되어서 특정 워드가 그 특정 사용자에 의해 발음될때 어떻게 소리나는지를 정확하게 인지할지라도, 잘못 판단할 수 있는 많은 소스가 여전히 존재한다.
그러므로, 그 환경 내의 잡음 및 반향 효과는 음성 인식 시스템으로 입력되는 신호를 왜곡시킬 것이다. 또한, 동일한 워드의 주파수 스펙트럼은 때때로 적게 변화할 것이며, 특히 화자가 감기가 걸린 경우 등등에는, 적게 변화할 것이다.
다른 문제는 워드의 수가 비록 통상적으로 수 백개로 제한될지라도, 상당히 큰 양의 처리 전력을 필요로한다는 것이다. 통상적인 음성 인식 시스템에서, 샘플링 속도는 초당 8000 샘플이며 여기서 각 샘플은 대략 13 비트로 구성되어 있다. 이것은 통상적으로 1초동안 지속되며 대략 100000 비트로 구성되어 있는 통상적인 워드를 발생시킨다.
그러므로, 실시간 제한이 존재하는 가령, 1초 이하의 응답 시간을 필요로하는 시스템에서, 음성 인식 시스템은 각 워드 내에 포함된 상당히 많은 양의 정보를 매우 빠르게 처리할 수 있어야만 한다.
더구나, 시스템 상의 계산 부하는 워드의 수가 증가할때 매우 증가한다. 이것은 여러가지 원인에 기인한다. 그러므로, 그 시스템은 어느 워드 또는 명령이 발음되는지를 결정하고자 할때 상당히 많은 워드를 탐색하여야만 한다. 또한 워드/명령의 수가 증가할때, 제공된 명령이 다른 명령과 유사한 특성을 갖는 위험성이 증가한다. 그리고 나서, 잘못된 판단을 피하도록 하기 위하여, 그 시스템은 상이한 워드로부터 보다 많은 특성을 추출하여 요구된 가능성을 가지고 올바르게 결정하도록 한다. 최종적으로, 워드의 수가 증가된 경우 시스템이 존재하지 않는 명령 워드를 명령으로 해석할 가능성은 증가한다. 즉, 어휘가 아닌것에 대해서 거부하는 (out of vocabulary rejection)(OVR) 수행 성능이 감소된다.
음성 제어 다이얼링 시스템(VCD)을 포함하는 즉, 명령을 구두로 수신하기 위한 수단을 갖는 이동 전화와 같이 어려운 조건하에서 동작하도록 설계된 시스템에서, 그리고 차 내에서 사용될 수 있는 시스템에서, 기존의 음성 인식 시스템의 정확도는 대부분의 경우에 매우 낮다.
명령을 입력하기 위하여 음성 인식을 사용하는 시스템은 미국 5 386 494에 기술되어 있다. 미국 5 386 494에 기술된 바와 같은 시스템은 다수의 상이한 아이콘을 스크린 상에 표시한다. 어떤 아이콘을 선택함으로써, 사용자는 가능한 명령을 스크린 상에 도시된 선택 아이콘과 관련된 명령으로 제한할 수 있다. 그러나, 통상적으로 적절한 그래픽 디스플레이가 결여된 이동 전화에서 그러한 시스템을 사용하는 것은 어렵다.
또한, 미국 5515475에서는 음소(phoneme) 또는 이음(allophone)을 토대로 워드 모델을 만들도록 설계된 음성 인식 시스템이 기술되어 있다.
본 발명은 음성 인식을 위한 방법 및 시스템에 관한 것이며, 특히 음성 다이얼링과 같이 이동 전화에 명령을 입력할때 사용하기 위한 방법 및 시스템에 관한 것이다.
본 발명은 이하에 첨부 도면을 참조하여 보다 상세히 기술될 것이며, 이 실시예들에 국한되지는 않는다.
도 1은 음성 인식 시스템의 일반적인 블럭도.
도 2는 음성 인식 시스템을 사용할때 상이한 단계를 도시한 흐름도.
도 3은 음성 인식 시스템을 포함하는 이동 전화의 블럭도.
본 발명의 목적은 종래 기술에 관련된 일부의 문제점을 극복하는 것이며, 잡음이 있고 반향 효과를 갖는 환경에서 사용될 수 있는 개선된 정확도를 갖는 이동 전화 내의 방법 및 시스템을 제공하는 것이다.
이런 목적 및 다른 목적은 이동 전화 내에서 격자(trellis) 구조로 배열된 어휘를 갖는 음성 인식 시스템에 의해 달성된다. 각각의 경우에, 음성 인식 시스템의 전체의 어휘중 단지 일부분만이 음성 인식 시스템이 특정 시간에 탐색하도록 설정된 격자 구조 내의 장소에 따라서 정합을 위해 탐색된다. 어휘의 격자 구조는 어떤 명령이 임의의 적절한 방식으로 지그재그형으로되어(traversed) 그 시스템으로 제공되어야만 하는때 시스템이 어휘의 올바른 부분을 탐색하도록 한다.
그러한 장치는 동시에 많은 워드를 탐색해야만 하는 문제점을 해결하며, 특히 음성 인식 시스템이 잡음이 있는 환경에서 사용될때 음성 인식 시스템에 대한 정확도를 상당히 증가시킴으로써 잘못된 결정에 대한 위험성을 감소시킨다. 또한 그래픽 인터페이스의 부족을 보상하기 위하여, 이동 전화는 어휘의 격자 구조를 통하여 사용자를 안내하는 음성 프롬프터(voice prompter)를 가질 수 있다.
도 1에서 음성 인식 시스템의 일반적인 블럭도가 도시되어 있다. 그 시스템은 A/D 변환기(103)에 접속된 입력 단자(101)를 포함하며, 그 변환기는 신호 분석 블럭(105)에 접속된다. 신호 분석 블럭(105)은 격자를 발생시키기 위한 블럭(107)에 접속되며 워드 인식 블럭(109)에 접속된다. 블럭(109)은 결정을 하기 위한 블럭 (111)에 접속되며 그 블럭(111)은 인식된 워드를 출력한다. 블럭(109)은 또한 음성 인식 시스템 내에 저장된 어휘(113)에 접속되며, 이것은 이하에 보다 상세히 기술될 것이다. 어휘(113)는 또한 블럭(107)에 접속된다.
그러므로, 음성 신호는 입력 단자(101)에서 시스템으로 입력된다. 그리고 나서, 아날로그 음성 신호는 블럭(103)에서 대응 디지털 신호로, 가령, 8 KHz의 샘플링 주파수에서 13비트/샘플을 갖는 디지털 신호로 변환된다.
다음에, 블럭(105)에서, 디지털화된 신호의 종래 신호 분석이 수행된다. 신호 분석은 특징 추출 및 필터링과 같은 다른 종래의 동작을 포함할 수 있다. 블럭 (105)으로부터의 출력 신호는 블럭(109)으로 전송되며, 그 블럭(109) 내에서 신호는 어휘(113) 내에 저장된 워드와 비교된다. 비교를 수행하는 방법은 패턴 인식 또는 Markov Model과 같은 임의의 이미 공지된 방법일 수 있다.
어휘에서, 워드는 격자 구조로 배열된다. 그러므로, 각각의 경우에, 음성 인식 시스템의 전체 어휘중 단지 일부분만이 정합을 위해 탐색된다. 어휘의 격자 구조는 트리 구조와 같은 임의의 적절한 방식으로 지그재그형으로되어 어떤 명령이 그 시스템에 제공되어야만할때, 시스템이 어휘의 정확한 부분을 탐색하도록 한다. 이것이 동시에 많은 워드를 탐색해야만 하는 문제점을 해결하므로, 특히 음성 인식시스템이 잡음이 있는 환경에서 사용될때, 음성 인식 시스템의 정확도를 증가시킴으로써 잘못된 결정에 대한 위험성은 감소된다.
바람직한 실시예에서, 어휘의 워드는 도 1에 도시된 바와 같이, 상이한 클래스로 분할되고, 그 클래스는 차례로 하위-클래스 등등으로 분할된다. 그러므로, 우선, 시스템을 동작시키는 화자는 자신이 원하는 워드의 클래스를 선택하는데, 이 워드 클래스는 자신에 대응하는 워드를 음성 인식 시스템으로 입력함으로써 그 시스템에 의해 인식된다. 다음으로, 화자는 음성 인식 시스템으로부터 명령을 수신하는 컴퓨터 시스템에 제공하고자 명령에 대응하는 명령 워드를 입력한다. 화자가 시스템에 입력하고자 하는 명령 워드가 그 클래스의 하위-클래스 밑에 위치된다면, 화자는 물론 그 특정 하위-클래스에 대응하는 워드를 우선 입력한다.
바람직한 경우, 명령의 입력은 도 2를 참조하여 이하에 상세히 기술된 바와 같이, 가령, 음성 프롬프터와 같은 음성 인식 시스템에 의해 도움을 받는다.
어휘의 격자 구조는 음성 인식 시스템이 탐색해야만 하는 워드의 수 즉, 각각의 입력된 워드 또는 발음을 상당히 감소시키기 때문에 유용하다. 이것은 특히 음성 인식 시스템이 잡음이 있는 환경에서 사용될때 음성 인식 시스템에 대한 정확도를 개선하므로 잘못된 결정에 대한 위험성을 감소시킨다.
음성 인식 시스템의 트레이닝에 의해서, 어휘 내의 워드는 음성 인식 시스템으로 입력되어야만 한다. 그러므로, 새로운 워드가 어휘로 입력될때, 시스템은 트레이닝 모드로 스위칭된다. 이것은 블럭(105) 및 (107) 사이에 스위치(S1)을 동작시킴으로써 행하여진다.
그러므로, 스위치(S1)가 닫혀질때, 시스템은 트레이닝 모드가 된다. 트레이닝 모드에서, 종래 시스템의 트레이닝이 수행될 수 있다. 게다가, 시스템의 사용자는 시스템을 트레이닝하는 워드를 그가 발견한 격자 구조 내의 적절한 임의의 위치에 위치시킬 수 있다. 그는 또한 클래스를 추가하고 하위-클래스는 워드를 한 위치로부터 다른 위치로 이동하거나 워드, 하위-클래스 또는 클래스를 삭제할 수 있다. 이러한 동작은 음성 프롬프터에 의해 도움을 받으며, 음성 프롬프터는 도 3을 참조하여 이하에 상세히 기술된 바와 같이, 시스템 내에 제공된 음성 엔코더를 사용할 수 있다.
다른 바람직한 실시예에서, 어휘 내의 특정 위치에서 워드의 수가 어떤 소정의 임계값보다 높을때, 시스템은 자동적으로 새로운 클래스 또는 하위-클래스를 발생시킨다. 적절한 임계값은 대략 20-50 워드 범위 내에 존재할 수 있다.
본원에 기술된 바와 같은 음성 인식 시스템의 유용한 용도는 음성 인식 시스템이 이동 전화 내에 포함된 경우이다. 이러한 경우에, 이동 전화의 사용자는 어떤 전화 번호를 입력하기를 바라거나 이동 전화가 자신의 전화 번호부 내에 입력된 사람을 호출하는 것을 희망한다. 그리고 나서, 어휘는 음성 인식 시스템의 트레이닝 동안 발생된 다수의 상이한 클래스를 포함할 수 있다.
도 2에서, 이동 전화 내에 포함된 음성 인식 시스템으로 명령을 입력할때 수행되는 단계를 도시한 흐름도가 도시되어 있다. 그러므로, 우선 전화의 음성 인식 시스템은 블럭(201)에서 스위치 온된다. 거기서 음성 인식 시스템은 사용자가 접속하고자 하는 전화 번호에 대응하는 어휘의 격자 구조의 최상부 레벨의 워드중 하나의 입력을 대기한다.
바람직한 실시예에서, 워드의 입력은 음성 프롬프터에 의해 도움받을 수 있다. 그러므로, 어떤 워드가 "옵션(option)"과 같이 입력된다면, 음성 프롬프터는 격자의 현 위치에서 이용가능한 모든 옵션을 발생시킨다. 그러므로, 이 실시예에서, 음성 인식 시스템이 전화 내에 포함되며 시스템이 격자의 최상부 레벨에 있을때, 통상적으로 이용가능한 옵션의 세트는 "프렌드(friend)", "오피스(office)" 및 "페밀리(family)"와 같은 하위-클레스일 수 있고 또한 자주 사용된 번호와 관련된 워드 및 가령, "SOS"와 같이 중요한 번호는 최상부 레벨에 존재할 수 있다.
하위-클레스중 하나에 대응하는 워드가 블럭(203)에 도시된 바와 같이 입력된다면, 음성 인식 시스템은 어휘의 격자 구조에서 위치를 변화시킨다. 그러므로, 새로운 옵션이 이용가능할 것이다. 가령, "오피스"라는 워드가 블럭(203)에서 제 1 워드로 음성 인식 시스템에 제공된 경우, "오피스"라는 메뉴 밑에 위치된 하위-워드는 새 워드가 음성 인식 시스템으로 입력될때 음성 인식 시스템에 의해 탐색될 것이다. 동시에, 음성 프롬프터는 음성 인식 시스템이 워드를 올바르게 해석했는지 확인으로 사용자에게 "오피스"를 발생시킨다.
다시, 사용자가 자신의 옵션을 인지하기를 원하는 경우, 그는 "옵션"을 입력하며 음성 인식 시스템은 어휘의 격자 구조 내의 이 위치에서 이용가능한 가령, "보스(boss)", "세크러테리(secretary)" 및 "업(up)"과 같은 옵션을 반복하며, 여기서 "업"은 격자 구조에서 레벨이 올라가는 것에 대응한다. 이용가능한 다른 옵션은 격자 내의 동일한 레벨에서의 하위-클레스이다. 즉 이 경우에서는 "프렌드" 및 "페밀리"이다.
사용자가 블럭(205)에서 "세크러테리"를 제 2 워드로 입력한 경우, 이 워드는 명령에 대응하며, 이 실시예에서는 사용자가 그 시스템이 수행하기를 원하는 전화의 전화 번호부 내의 전화 번호이다. 바람직한 실시예에서, 음성 프롬프터는 "콜 세크러테리(call secretary)"를 반복하고 나서 사용자가 "예스(yes)"를 입력한 경우, 명령이 블럭(207)에서 발생되어 전화 번호부 내의 세크리테리라는 워드에 대응하는 전화 번호가 전화에 의해 접속되며 음성 인식 시스템은 블럭(209)에 의해 표현된 바와 같이 스위치-오프된다.
도 3에서, 도 1을 참조하여 상술된 바와 같은 음성 인식 시스템을 포함하는 이동 전화(301)의 블럭도가 도시되어 있다. 그러므로, 이동 전화(301)는 입력 수단 (303)을 가지며, 이 입력 수단은 A/D 변환기(305)에 접속된 종래 형태의 마이크로폰일 수 있다. A/D 변환기(305)의 출력 단자는 음성 엔코더/디코더(SPE/D)(309), 핸즈프리(handsfree) 신호 처리(HFSP) 블럭(311) 및 자동 음성 인식(ASR) 블럭 (313)을 포함하는 디지털 신호 처리(DSP) 블럭(307)에 접속된다.
DSP 블럭(307)은 또한 마이크로 제어(MC) 유닛(315), 무선 송신기/수신기 블럭(319)과 채널 엔코더/디코더 블럭(321)을 포함하는 무선 송신 유닛(317)에 접속되며, 메모리(323) 및 D/A 변환기(325)에 접속된다. 마이크로 제어 유닛(315)은 이동 전화 내부로 유입되는 모든 정보를 취급하며 DSP(307) 및 무선 송신기/수신기 블럭(319)를 제어하도록 설정된다.
그러므로, 마이크로 제어 유닛(315)는 또한 무선 송신 유닛(317)에 접속되며, 이 유닛(317)은 차례로 안테나(327)에 접속된다. D/A 변환기(325)의 출력 단자는 종래 형태의 확성기와 같은 출력 수단(329)에 접속된다.
그리고 나서, 이동 전화는 도 2를 참조하여 상술된 방식으로 동작될 수 있다. 스위치-온 될때, MC 유닛은 자동적으로 이동 전화를 구두 입력 명령을 허용하는 모드로 설정할 수 있으며, 필요한 경우, 음성 엔코더(309), D/A 변환기(325) 및 출력 단자(329)를 사용하여 상술된 바와 같이 음성 프롬프터를 통하여 명령을 출력한다.
다음으로, 명령이 제공된때, MC 유닛은 음성 인식 시스템(ASR)을 스위치-오프하여 유닛(317) 및 안테나(327)를 통하여 제공된 명령에 대응하는 전화 번호를 송신한다.
여기서, 전화 호출은 종래의 방법을 사용하여 설정되며 DSP(307)는 음향 반향 제거, 잡음 억제와 같은 종래의 처리를 수행하도록 설정되어 음성을 효율적으로 코딩한다. 호출이 종료될때, MC 유닛(315)은 DSP 유닛을 다시 설정하여 구두로 제공된 명령을 수신하도록 한다.
본원에 기술된 바와 같은 이동 전화용 음성 인식 시스템은 이전에 공지된 음성 다이얼링 시스템과 비교하여 많은 장점을 갖는다. 그러므로, 많은 워드가 어휘 내에 저장될 수 있으며, 잡음이 있는 환경에서 조차도 이동 전화의 음성 다이얼링 기능은 올바르게 동작할 수 있다. 이것은 어휘의 격자 구조 때문이다. 어휘의 격자 구조는 사용된 음성 인식 알고리즘과 무관하다. 어휘가 아닌것에 대해서 거부하는 (OVR) 수행 성능은 본원에 기술된 바와 같은 시스템을 사용할때 또한 증가될 수 있는데, 그 이유는 가능한 입력 워드의 수가 최소로 유지되기 때문이다.

Claims (10)

  1. 어휘를 포함하는 이동 전화 내의 음성 인식 시스템으로서,
    상기 어휘 내의 워드는 다수의 워드 그룹을 포함하는 격자 구조로 배열되어 전체 어휘의 제한된 수의 그룹이 매시간마다 워드를 탐색하도록 하는 것을 특징으로 하는 이동 전화에서의 음성 인식 시스템.
  2. 제 1항에 있어서,
    상기 어휘는 트리 구조로 배열되는 것을 특징으로 하는 이동 전화에서의 음성 인식 시스템.
  3. 제 1항 또는 2항에 있어서,
    상기 시스템이 특정 순간에 인식하도록 설정된 워드를 출력하는 수단을 구비하는 것을 특징으로 하는 이동 전화에서의 음성 인식 시스템.
  4. 제 3항에 있어서,
    상기 수단은 음성 프롬프터인 것을 특징으로 하는 이동 전화에서의 음성 인식 시스템.
  5. 제 1항 내지 4항중 어느 한 항에 있어서,
    한 그룹 내의 워드의 수가 어떤 소정의 임계값을 초과하는 경우, 자동적으로 새로운 그룹을 발생시키는 수단을 구비하는 것을 특징으로 하는 이동 전화에서의 음성 인식 시스템.
  6. 어휘를 포함하는 이동 전화의 음성 인식 시스템에서 음성 인식 방법으로서,
    상기 어휘 내의 워드는 다수의 워드 그룹을 포함하는 격자 구조로 배열되며, 전체 어휘의 단지 한 그룹 또는 전체 어휘의 제한된 수의 그룹만이 매시간마다 워드를 탐색하는 것을 특징으로 하는 이동 전화의 음성 인식 시스템에서 음성 인식 방법.
  7. 제 6항에 있어서,
    상기 어휘는 트리 구조로 배열되는 것을 특징으로 하는 이동 전화의 음성 인식 시스템에서 음성 인식 방법.
  8. 제 6항 또는 7항에 있어서,
    상기 시스템이 특정 순간에 인식하도록 설정된 이용가능한 워드는 상기 시스템으로부터 출력되는 것을 특징으로 하는 이동 전화의 음성 인식 시스템에서 음성 인식 방법.
  9. 제 8항에 있어서,
    상기 이용가능한 워드는 음성 프롬프터에 의해 발생되는 것을 특징으로 하는 이동 전화의 음성 인식 시스템에서 음성 인식 방법.
  10. 제 6항 내지 9항중 어느 한 항에 있어서,
    한 그룹 내의 워드의 수가 어떤 소정의 임계값을 초과한 경우, 자동적으로 새로운 그룹이 발생되는 것을 특징으로 하는 이동 전화의 음성 인식 시스템에서 음성 인식 방법.
KR1020017002784A 1998-09-04 1999-09-02 음성 다이얼링을 위한 방법 및 시스템 KR20010079734A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SE9802990-3 1998-09-04
SE9802990A SE9802990L (sv) 1998-09-04 1998-09-04 Förfarande och system för taligenkänning
PCT/SE1999/001515 WO2000014729A2 (en) 1998-09-04 1999-09-02 A method and a system for voice dialling

Publications (1)

Publication Number Publication Date
KR20010079734A true KR20010079734A (ko) 2001-08-22

Family

ID=20412481

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020017002784A KR20010079734A (ko) 1998-09-04 1999-09-02 음성 다이얼링을 위한 방법 및 시스템

Country Status (13)

Country Link
US (1) US7110948B1 (ko)
EP (1) EP1110207B1 (ko)
JP (1) JP2002524777A (ko)
KR (1) KR20010079734A (ko)
CN (1) CN1165889C (ko)
AT (1) ATE293827T1 (ko)
AU (1) AU760377B2 (ko)
BR (1) BR9913408A (ko)
DE (1) DE69924853D1 (ko)
EE (1) EE200100138A (ko)
HK (1) HK1040808B (ko)
SE (1) SE9802990L (ko)
WO (1) WO2000014729A2 (ko)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8200485B1 (en) 2000-08-29 2012-06-12 A9.Com, Inc. Voice interface and methods for improving recognition accuracy of voice search queries
US6973429B2 (en) 2000-12-04 2005-12-06 A9.Com, Inc. Grammar generation for voice-based searches
DE10122828A1 (de) 2001-05-11 2002-11-14 Philips Corp Intellectual Pty Verfahren zum Training oder zur Adaption eines Spracherkenners
US7729913B1 (en) 2003-03-18 2010-06-01 A9.Com, Inc. Generation and selection of voice recognition grammars for conducting database searches
KR100813260B1 (ko) * 2005-07-13 2008-03-13 삼성전자주식회사 코드북 탐색 방법 및 장치
US20080096172A1 (en) * 2006-08-03 2008-04-24 Sara Carlstead Brumfield Infant Language Acquisition Using Voice Recognition Software
US20080133243A1 (en) * 2006-12-01 2008-06-05 Chin Chuan Lin Portable device using speech recognition for searching festivals and the method thereof
KR100897553B1 (ko) * 2007-01-04 2009-05-15 삼성전자주식회사 사용자의 기기 사용 패턴을 이용한 음성 인식 방법 및 장치
KR100883105B1 (ko) 2007-03-30 2009-02-11 삼성전자주식회사 휴대단말기에서 음성인식을 이용한 다이얼링 방법 및 장치
US8155961B2 (en) * 2008-12-09 2012-04-10 Nokia Corporation Adaptation of automatic speech recognition acoustic models
JP6744025B2 (ja) * 2016-06-21 2020-08-19 日本電気株式会社 作業支援システム、管理サーバ、携帯端末、作業支援方法およびプログラム
US10586537B2 (en) * 2017-11-30 2020-03-10 International Business Machines Corporation Filtering directive invoking vocal utterances

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8202318A (nl) 1982-06-09 1984-01-02 Koninkl Philips Electronics Nv Systeem voor de overdracht van spraak over een gestoorde transmissieweg.
IT1179093B (it) * 1984-09-03 1987-09-16 Cselt Centro Studi Lab Telecom Procedimento e dispositivo per il riconoscimento senza addestramento preventivo di parole connesse appartenenti a piccoli vocabolari
US4821211A (en) 1987-11-19 1989-04-11 International Business Machines Corp. Method of navigating among program menus using a graphical menu tree
US5386494A (en) * 1991-12-06 1995-01-31 Apple Computer, Inc. Method and apparatus for controlling a speech recognition function using a cursor control device
US5515475A (en) * 1993-06-24 1996-05-07 Northern Telecom Limited Speech recognition method using a two-pass search
US5752232A (en) * 1994-11-14 1998-05-12 Lucent Technologies Inc. Voice activated device and method for providing access to remotely retrieved data

Also Published As

Publication number Publication date
US7110948B1 (en) 2006-09-19
ATE293827T1 (de) 2005-05-15
SE9802990D0 (sv) 1998-09-04
JP2002524777A (ja) 2002-08-06
EE200100138A (et) 2002-06-17
EP1110207A2 (en) 2001-06-27
SE9802990L (sv) 2000-03-05
AU5894499A (en) 2000-03-27
CN1165889C (zh) 2004-09-08
WO2000014729A2 (en) 2000-03-16
HK1040808B (zh) 2005-05-20
CN1317134A (zh) 2001-10-10
DE69924853D1 (de) 2005-05-25
AU760377B2 (en) 2003-05-15
HK1040808A1 (en) 2002-06-21
BR9913408A (pt) 2001-05-22
WO2000014729A3 (en) 2000-06-02
EP1110207B1 (en) 2005-04-20

Similar Documents

Publication Publication Date Title
CA2231504C (en) Process for automatic control of one or more devices by voice commands or by real-time voice dialog and apparatus for carrying out this process
US6925154B2 (en) Methods and apparatus for conversational name dialing systems
JP4263614B2 (ja) リモートコントロール装置及び情報端末装置
CN100403828C (zh) 一种便携式数字移动通讯设备及其语音控制方法和系统
KR100984528B1 (ko) 분산형 음성 인식 시스템에서 음성 인식을 위한 시스템 및방법
EP1739546A2 (en) Automobile interface
JPH07210190A (ja) 音声認識方法及びシステム
US20020091522A1 (en) System and method for hybrid voice recognition
JPH0394299A (ja) 音声認識方法と音声認識装置訓練方法
US5752230A (en) Method and apparatus for identifying names with a speech recognition program
JPH09106296A (ja) 音声認識装置及び方法
CN1264468A (zh) 给用户提供声音反馈的可扩展语音识别系统
JPH096390A (ja) 音声認識対話処理方法および音声認識対話装置
JP2007500367A (ja) 音声認識方法およびコミュニケーション機器
JP2007033754A (ja) 音声監視システムと方法並びにプログラム
WO2002095729A1 (en) Method and apparatus for adapting voice recognition templates
JPH06214587A (ja) 事前指定ワードスポッティングサブシステム及び事前ワードスポッティング方法
KR20010079734A (ko) 음성 다이얼링을 위한 방법 및 시스템
Gupta et al. Speech feature extraction and recognition using genetic algorithm
JP2002116793A (ja) データ入力システム及びその方法
WO2020044543A1 (ja) 情報処理装置、情報処理方法及びプログラム
US7844459B2 (en) Method for creating a speech database for a target vocabulary in order to train a speech recognition system
EP1316944B1 (en) Sound signal recognition system and method, and dialog control system and method using it
US20070129945A1 (en) Voice quality control for high quality speech reconstruction
Juang et al. Deployable automatic speech recognition systems: Advances and challenges

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application