KR100442308B1 - 음성인식데이터베이스에서의주소등록방법및시스템 - Google Patents

음성인식데이터베이스에서의주소등록방법및시스템 Download PDF

Info

Publication number
KR100442308B1
KR100442308B1 KR1019960039478A KR19960039478A KR100442308B1 KR 100442308 B1 KR100442308 B1 KR 100442308B1 KR 1019960039478 A KR1019960039478 A KR 1019960039478A KR 19960039478 A KR19960039478 A KR 19960039478A KR 100442308 B1 KR100442308 B1 KR 100442308B1
Authority
KR
South Korea
Prior art keywords
speed dial
template
name
utterance
registration
Prior art date
Application number
KR1019960039478A
Other languages
English (en)
Other versions
KR970017175A (ko
Inventor
미첼 비. 개멀
토마스 디. 피셔
Original Assignee
텍사스 인스트루먼츠 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텍사스 인스트루먼츠 인코포레이티드 filed Critical 텍사스 인스트루먼츠 인코포레이티드
Publication of KR970017175A publication Critical patent/KR970017175A/ko
Application granted granted Critical
Publication of KR100442308B1 publication Critical patent/KR100442308B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephone Function (AREA)

Abstract

스피드 다이얼 이름들을 등록하는 방법 및 시스템으로서, 화자 종속 템플릿들 및 관련 전화 번호들의 제공 그리고 미인식 음성을 위한 벌점 적용 가비지 모델의 제공을 포함한다. 새로운 템플릿 요구가 수신되면, 스피드 다이얼 이름 리스트가 차 있는지 여부가 판정되고(스텝 201), 해당 이름이 스피드 다이얼 리스트 상에 기존하는 이름과 많이 유사한지가 판정된다(스텝 205). 만약 많이 유사한 경우에는, 그 이름은 거절되지만, 많약 그렇지 않은 경우에는, 그 스피드 다이얼 이름이 너무 짧은지가 판정되고(스텝 302), 만약 너무 짧지 않거나 사용자가 그 짧은 이름의 입력을 원하는 경우에는, 본 시스템은 사용자에게 그 스피드 다이얼 이름을 반복할 것을 요구하고, 만약 부합하는 경우에는, 그것이 입력된다. 만약 부합하지 않는 경우에는, 본 시스템은 부합 여부를 알기 위해 1차 및 2차 발성을 교환하여 비교한다.

Description

음성 인식 데이터베이스에서의 주소 등록 방법 및 시스템{METHOD AND SYSTEM FOR ENROLLING ADDRESSES IN A SPEECH RECOGNITION DATABASE}
본 발명은 음성 인식에 관한 것으로서, 특히, 음성 인식 데이터베이스에서의 음성 인식 주소 등록에 관한 것이다.
음성 인식 데이터베이스에서의 이름 주소의 등록은 스피드 다이얼링에 사용된다. 스피드 다이얼링은, 예컨대, 특정 수의 또는 일군의 전화 번호들이 미리 저장되는 것으로서, 이름을 말하여 전화 번호가 불리게 함으로써 사용자는 해당 전화 번호 집합을 호출하기만 하면 된다. 사용자는 전화기에다 이름으로 주소를 말함으로써 스피드 다이얼링을 하고, 전화 번호 집합 내에서 해당 이름과 관련된 전화 번호가 다이얼링된다면 매우 바람직하다. 따라서 스피드 다이얼 이름 주소들을 전화 시스템에 등록하는 소정의 개선된 방법 및 장치를 제공함으로써, 전화 시스템에 말을 할 때 올바른 번호가 다이얼링되도록 하는 것이 바람직하다.
본 발명의 제1 바람직한 실시예에 따르면, 미인식 음성을 위한 벌점 적용 가비지 모델(penalized garbage model)을 제공하고, 사용자로부터 등록을 위한 새로운 발성을 수신하고, 그 새로운 발성의 템플릿을 생성함으로써, 음성 인식 데이터베이스에서 주소들을 이름으로서 등록하는 방법 및 시스템이 제공된다. 발성 반복이 그 템플릿과 비교되어, 새로운 발성 템플릿이 데이터베이스에 입력되어야 하는지를 판정해준다.
본 발명의 제2 바람직한 실시예에 따르면, 음성 인식 데이터베이스에서의 이름 등록 방법 및 시스템은, 화자 종속 템플릿(speaker dependent template)들 및 벌점 적용 가비지 모델을 구비한 데이터베이스로서, 등록하기 위한 이름을 데이터베이스에 있는 이름들과 비교하여 너무 유사한 이름을 거절하는 데이터베이스를 포함한다.
발명의 제3 바람직한 실시예에 따르면, 데이터베이스에 등록하기 위한 이름을 데이터베이스에 입력하기에 앞서 그 이름이 너무 짧은지를 판정한다.
도 1은 전화 시스템(10)의 단순화한 블록도이다. 전화 시스템(10)은 프로세서(12)에 연결되는 전화기(11)를 포함한다. 오프-훅(off-hook) 검출 회로(13)와 인식 및 기록 회로(14)는 전화기(11)와 프로세서(12)에 연결된다. 프로세서(12)는 메모리(15)에도 연결된다. 동작시, 오프-훅 검출 회로(13)는 전화기(11)가 오프-훅 상태를 나타내는 것을 프로세서(12)에 알려, 프로세서(12)가 프로세서(12) 내에 저장되어 프로세서(12)에 의해 실행되는 프로그램에 따라 명령을 모니터할 수 있게 해준다. 프로세서(12) 내의 프로그램은, 사용자가 디렉토리 이름 주소와, 엔트리 이름들의 스피드 다이얼 리스트와, 디렉토리 이름 주소와 관련된 상응하는 전화 번호를 생성할 수 있게 해준다. 전화 시스템(10)은 디렉토리 이름 주소의 화자 종속 템플릿들과, 관련 엔트리 이름들과, 전화 번호들을 저장하여, 각 사용자가 이 특정 디렉토리 이름 및 스피드 다이얼 리스트에만 접근할 수 있게 한다.
도 2는 음성 인식 전화 시스템(10)에서 다중-사용자 구두(口頭) 스피드 다이얼 디렉토리들을 생성하는 방법의 최초 흐름도이다. 제1 실시예의 프로세서(12)는 이 흐름도에 따라 프로그램된다. 전화 시스템(10)의 오프-훅 검출 회로(13)는 스텝 16에서 전화기를 모니터하여, 특정 전화기 상의 오프-훅 상태를 검출한다. 일단 오프-훅 상태가 검출되면, 스텝 17에서 프로세서(12)는 사용자에게 명령을 입력할 것을 재촉(prompt)한다. 스텝 18에서, 비교기와 메모리(15)를 포함하는 프로세서를 포함할 수 있는 프로세서(12)는 인식 및 기록 회로(14)와 더불어, 사용자의 응답을 전화 시스템(10)의 메모리(15) 내에 암호화된 복수의 템플릿들 중 하나와 비교한다. 전화 시스템(10)의 유연성 때문에, 스텝 18에서 사용자로부터 구두 단어를 수신할 수도 있고, 경우에 따라서는, 전화기(11)로부터 구두 명령어를 나타내는 상응하는 DTMF 푸시 버튼 코드들을 수신할 수도 있다. 도면 여기저기에 있는 별표(*)는 전화 시스템(10)이 구두 명령어 아니면 그 명령어를 나타내는 상응하는 DTMF 푸시 버튼 코드 중 어느 하나를 인식할 수 있음을 나타낸다. 별표는 또한 전화 시스템(10)이 모델을 사용자의 응답과 비교함에 있어 화자 독립 음성 인식(speaker independent speech recognition)을 수행함을 나타낸다. 단지 설명 편의상, 전화 시스템이 상응하는 DTMF 푸시 버튼 코드를 통한 대표 명령 대신에 구두 응답을 수신하는 것으로 하여, 바람직한 실시예의 설명을 진행하겠다.
스텝 18에서, 전화 시스템(10)은 여러 명령구 중 하나를 인식하고 요구된 명령에 따라 진행할 수 있다. 전화 시스템(10)은 스텝 19에서 사용자로부터 제1 명령으로서 수신된 전화 번호를 인식할 수 있다. 전화 시스템(10)은 스텝 20에서 사용자에게 수신된 번호를 알려주고, 순서는 계속하여 스텝 22로 진행하여, 요구된 통화를 신청하기 위해 전화 번호가 자동적으로 다이얼링될 것이다. 전화 시스템(10)은 또한 스텝 24에서 사용자로부터 수신된 제2 명령구로서 "도움 요청(help)"과 같은 비상 명령을 인식할 수 있다. 전화 시스템(10)은 스텝 26에서 사용자에게 911과 같은 비상 전화 번호가 다이얼링 중임을 알려주고, 순서는 스텝 22로 진행하여, 재차 통화가 신청될 것이다. 전화 시스템(10)은 또한 사용자로부터 제3 명령구인 취소(cancel)를 인식할 수 있고, 그 명령은 전화 시스템(10)을 스텝 17로 되돌려 현재 진행중인 임의의 명령 순서를 중지시킨다. 예를 들면, 도 1에서 볼 수 있듯이, 사용자는 전화 선로의 타단에서 연결이 이루어지기 전에 전화 통화 신청을 중단할 수 있다. 도 1의 한 점에서만 보았지만, 스텝 28에서의 취소 명령의 인식은 차후의 도면들을 참조하여 기술되는 전화 시스템 방법 내의 어디에서든지 일어날 수 있다.
전화 시스템(10)은 사용자가 사용자 디렉토리 리스트에 들어갈 것을 요구하는 경우 스텝 30에서 제4 명령어를 인식할 수 있다. 전화 시스템(10)이 이 명령을 인식하면, 처리 순서는 스텝 32로 진행하여 사용자가 디렉토리 옵션에 들어갈 수 있게 해준다. 도 3은 전화 시스템 프로그램의 디렉토리 옵션 부분의 처리 스텝들의 흐름도를 도시한 것이다. 명령 인식과 동시에, 사용자는 스텝 34에서 디렉토리 옵션에 들어간다. 허가 사용자만이 디렉토리 옵션에 들어갈 수 있게 보장하기 위하여, 전화 시스템(10)은 스텝 36 및 38에서 보안 조치를 수행하여, 사용자에게 디렉토리 옵션에 들어갈 수 있는 권한의 검증을 제공할 것을 요구한다. 검증은 사용자가 시스템에 입력하는 인증 코드일 수 있고, 또는 사용자의 음성 패턴을 전화 시스템(10) 내에 저장된 검증 템플릿과 부합하는 화자 종속 음성 인식 템플릿이 있을 수 있다.
스텝 36에서, 전화 시스템(10)은 사용자에게 합당한 검증을 재촉하고, 스텝 38에서 사용자의 검증 응답을 인식한다. 전화 시스템(10)은 검증 처리의 일부로서 스텝 36 및 38을 한 번 이상 수행할 수 있다. 만약 사용자가 제공한 검증 코드를 전화 시스템이 인식하지 못하면, 처리 순서는 취소 명령과 같은 식으로 도 2의 스텝 17로 되돌아간다. 만약 전화 시스템(10)이 유효 검증 코드를 인식하면, 처리 순서는 스텝 40으로 진행하여, 전화 시스템(10)은 사용자에게 디렉토리 옵션을 위한 네 개의 명령 중 하나를 입력할 것을 재촉한다. 사용자 검증에 대해서는 케로(Kero) 발명, 미국 특허 제5,369, 685호도 참조할 것.
일단 사용자가 적절한 검증을 제공한 후 디렉토리 옵션에 들어가면, 전화 시스템은 스텝 42에서 사용자 디렉토리 이름을 시스템에 부가하는 제1 부명령어(subcommand word)를 인식할 수 있다. 전화 시스템(10)은 디렉토리 이름을 요구함으로써 스텝 44에서 사용자를 등록하고 스텝 46에서 전화 시스템 내에 저장되는 템플릿에 사용자의 응답을 저장한다. 사용자 디렉토리 이름 등록시, 전화 시스템(10)은 템플릿을 생성하여 해당 계좌 또는 전화기용으로 이미 등록된 사용자 식별 템플릿들의 기존 리스트와 함께 저장하기 위하여 스텝 44 및 46을 반복한다. 일단 템플릿이 저장되면, 처리 순서는 스텝 40으로 진행하여, 전화 시스템(10)은 사용자에게 또 다른 명령어를 입력할 것을 재촉한다.
전화 시스템(10)은 스텝 48에서 사용자 디렉토리 이름을 삭제하는 제2 부명령어를 인식할 수 있다. 인식되면, 전화 시스템(10)은 스텝 50에서 사용자에게 삭제할 사용자 디렉토리 이름을 재촉한다. 전화 시스템(10)은 스텝 52에서 사용자가 제공하는 디렉토리 이름을 인식하고, 스텝 54에서 사용자에게 디렉토리 이름의 삭제를 확인할 것을 요구한다. 만약 사용자가 디렉토리 이름의 삭제를 확인하지 않으면, 처리 순서는 스텝 40으로 되돌아가, 전화 시스템(10)은 사용자에게 명령구를 재촉한다. 만약 사용자가 스텝 54에서 디렉토리 이름의 삭제를 확인하면, 전화 시스템(10)은 해당 디렉토리 이름용으로 생성된 템플릿과 해당 디렉토리 이름에 상응하는 전화기 리스트 엔트리들을 삭제한다. 일단 삭제되면, 처리 순서는 스텝 40으로 되돌아가, 전화 시스템(10)은 사용자에게 새로운 명령구를 재촉한다.
전화 시스템(10)은 스텝 58에서 디렉토리 이름들의 리스트를 검토하는 제3 부명령구를 인식할 수 있다. 인식되면, 전화 시스템(10)은 스텝 60에서 사용자 디렉토리 리스트를 재생(play)한 다음 스텝 40으로 되돌아가 새로운 명령구를 요구한다. 전화 시스템(10)은 또한 스텝 62에서 디렉토리 옵션 요구를 완료했는지 판정하는 제 4 명령구를 인식할 수 있다. 인식되면, 처리 순서는 도 2의 스텝 17로 되돌아가, 전화 시스템(10)은 사용자에게 전화 번호를 재촉한다.
도 2로 되돌아가, 전화 시스템(10)은 스텝 64에서 제5 명령구로서 디렉토리 이름을 인식할 수 있다. 전화 시스템(10)이 사용자 디렉토리 이름을 인식하면, 처리 순서는 스텝 66으로 진행하여, 전화 시스템(10)은 스피드 다이얼 리스트 옵션으로 들어간다. 도 4는 본 발명의 스피드 다이얼 리스트 옵션 처리의 흐름도이다. 전화 시스템(10)은 스텝 68에서 스피드 다이얼 리스트 옵션에 들어가고, 계속하여 스텝 70에서 사용자에게 통화할 이름을 요구하든지 아니면 리스트에 들어갈 것을 재촉한다. 전화기 시스템(10)이 스텝 72에서 엔트리 이름을 인식하면, 스텝 74에서 전화 시스템(10)에 의해 통화를 원하는 요구 이름을 나타내는 프롬프트가 사용자에게 주어진다. 그 때 전화 시스템(10)은 전술한 바와 같이 도 2의 스텝 22에서 통화를 신청한다. 전화 시스템(10)은 또한 스텝 76에서 리스트에 들어가는 명령을 인식하고, 스텝 78에서 사용자에게 다섯 개의 리스트 명령구 중 하나를 재촉한다.
전화 시스템(10)은 스텝 80에서 사용자 디렉토리 이름 하의 스피드 다이얼 리스트에 엔트리 이름과 전화 번호를 부가하는 제1 리스트 명령구를 인식할 수 있다. 인식되면, 전화 시스템(10)은 스텝 82에서 사용자에게 스피드 다이얼 리스트에 엔트리 이름을 등록할 것을 재촉한다. 전화 시스템(10)은 스텝 83에서 사용자에게 스텝 82에서 방금 등록된 엔트리 이름에 상응하는 전화 번호를 등록할 것을 재촉한다. 전화 시스템(10)은 스텝 84에서 사용자에 의해 등록된 이름과 전화 번호에 상응하는 템플릿을 생성하여 저장한다. 전화 시스템(10)은 스피드 다이얼 리스트용의 엔트리 이름과 전화 번호의 유효 템플릿을 검증 및 생성하기 위하여 스텝 82, 83, 및 84를 반복할 수 있다. 일단 저장되면, 처리 순서는 스텝 70에 있는 스피드 다이얼 리스트 옵션 루틴의 시작점으로 되돌아간다.
전화 시스템(10)은 스텝 86에서 엔트리 이름에 상응하는 전화 번호를 수정하는 제2 리스트 명령을 인식할 수 있다. 인식되면, 전화 시스템(10)은 스텝 88에서 사용자에게 어느 이름의 전화 번호를 수정할 것인지 그 이름을 제공하기를 재촉한다. 전화 시스템(10)은 스텝 90에서 사용자가 제공하는 이름을 인식하고, 스텝 92에서 사용자가 해당 이름에 상응하는 전화 번호를 수정할 수 있게 해준다. 전화 시스템(10)은 스텝 94에서 수정 요구된 엔트리 이름에 상응하는 수정된 번호의 템플릿을 저장한다. 전화 시스템(10)은 전화 번호 템플릿의 유효 생성을 보장하기 위해 스텝 92 및 94를 반복할 수 있다. 일단 템플릿이 저장되면, 처리 순서는 전술한 바와 같이 스텝 70으로 되돌아간다.
전화 시스템(10)은 스텝 96에서 스피드 다이얼 리스트로부터 이름을 삭제하는 제3 리스트 명령을 인식할 수 있다. 인식되면, 전화 시스템(10)은 스텝98에서 사용자에게 스피드 다이얼 리스트로부터 삭제할 이름을 재촉한다. 전화 시스템(10)은 스텝 100에서 이름을 인식하고, 스텝 102에서 사용자에게 이름의 삭제를 확인할 것을 요구한다. 만약 사용자가 엔트리 이름을 삭제하기를 원치 않는다면, 처리 순서는 스텝 70으로 되돌아간다. 만약 사용자가 엔트리 이름의 삭제를 확인하면, 전화 시스템은 스텝 104에서 엔트리 이름 템플릿과 상응하는 전화 번호 템플릿을 삭제한후 처리 순서를 스텝 70으로 돌린다.
전화 시스템(10)은 스텝 106에서 사용자가 그의 스피드 다이얼 리스트를 검토할 수 있게 해주는 제4 리스트 명령구를 인식할 수 있다. 인식되면, 전화 시스템(10)은 스텝 108에서 사용자의 스피드 다이얼 리스트를 재생한 다음 처리 순서를 스텝 70으로 돌린다.
전화 시스템(10)은 또한 스텝 110에서 사용자가 스피드 다이얼 리스트 옵션을 완료했음을 나타내는 제5 리스트 명령구를 인식할 수 있다. 인식되면, 처리 순서는 도 2의 스텝 17로 돌아가고 전술한 방법이 반복된다.
요약하면, 전화 시스템은 전화 시스템의 허가 사용자 각각을 위한 별개의 디렉토리를 생성할 수 있다. 각 사용자는 자신의 디렉토리 하에 이름들과 전화 번호들을 포함하는 스피드 다이얼 리스트를 생성할 수 있다. 화자 종속 특징을 이용함으로써, 누구도 허가 사용자의 디렉토리 또는 스피드 다이얼 리스트로의 접근을 확보할 수 없다. 상기한 것은 음성 인식을 이응한 스피드 다이얼 이름들의 등록에 대한 기초 지식으로 삼기 위함이다.
본 발명의 제1 실시예에 따르면, 도 1의 프로세서(12)는 스피드 다이얼 이름들을 스피드 다이얼 리스트에 등록하기 위해 도 5의 흐름도에 따라 동작하도록 프로그램된다. 프로세서(12)는 ELPC 및 ULPC 카운터를 포함하고, 가입자가 기본 구문을 생성한 다음 갱신할 수 있도록 해준다. 가입자에게는 구두 이름을 말할 세 번의 기회가 허용되어, 그 구두 이름을 가장 잘 인식할 수 있는 방식으로 리스트에 입력할 수 있게 한다. 본 시스템은 또한 가입자가 리스트 상에 기존하는 이름이든지 아니면 매우 유사한 이름을 리스트에 부가하는 문제를 제기한다. 또한 가입자가 등록 및 갱신된 것과는 너무 상이하게 이름을 말하는 문제를 제기한다.
어휘 외의 음성(out-of vocabularly speech)을 판정하는 가비지 모델 사용에 있어서의 최근의 발전으로, 어휘 외의 인식 능력을 제공할 뿐만 아니라 높은 수준의 어휘 내의 인식을 유지하는 새로운 인식 처리가 생겨났다. 이 새로운 인식 처리는 벌점 적용 가비지 모델을 구두 스피드 다이얼링 이름들과 병행 활용하여 어휘 외의 음성을 판별한다. 이 방법은 구두 스피드 다이얼링 등록 인식에 적용되어, 이미 스피드 다이얼 리스트 상에 있는 이름의 등록 문제 및 등록 중의 너무 많은 가변성 문제를 제기한다. "가비지 모델"은, 단어나 소리일 수 있는 임의의 음성에 대한 모델로서, 그 음성에 대해 인식 시스템 내에 다른 모델은 존재하지 않는, 모델로 정의된다. 가비지 모델을 구성하는 수단으로 몇 개의 가능성이 있다. 도 6에 도시한, 선행 기술에 흔히 사용되는 단일 가비지 모델은 단어를 이루는 소리를 형성하기 위해 연결된 음성들의 넓은 음성학적 부류들의 집합 모형을 형성한다. 도 6에서 볼 수 있듯이, 원들은 음향상 넓은 음성학적 부류들을 나타낸다. 실선들은 하나의 넓은 음성학적 부류에서 다른 부류로의 둘 중 어느 한 방향으로의 전이를 나타낸다. 점선들은 모델이 특정 상태에서 호를 그리듯이 움직일 수 있음을 나타낸다. 전이들에는 임시 음소 배열 제한들에 기초한 확률이 가중된다. 이들 제한이 요구하는 것은, 소정의 음성학적 부류가 음성을 설명하는데 오래 사용될 수록, 그 부류는 음성을 설명하는데 사용될 가능성이 더 적을 것이고, 차후의 음성을 설명하는데 사용될 가능성이 더 적을 것이고, 차후의 음성은 다른 음성 부류들에 의해 설명될 가능성이 더 클 것이라는 점이다. 이 모델은 어떠한 상태에서든지 들어가거나 나감으로써 음성 설명을 시작할 수 있다.
유사한 이름 검사 중에는, 새로운 이름이 리스트에 부가되는 상황에서 인식이 수행된다. 새로운 이름은 리스트 상의 기존 이름에 부합되든지, 아니면 병행하는 가비지 모델에 부합될 수 있다. 만약 그 이름이 기존 이름과 부합되면, 사용자는 그 이름 또는 유사한 이름이 리스트 상에 이미 존재하여, 그 이름은 부가되지 않을 것이라고 통지 받는다. 만약 새로운 이름이 병행하는 가비지 모델에 부합되면, 그 이름은 리스트 상에 존재하지 않는다고 추정되어, 이름의 부가가 계속된다. 가비지 모델에 대한 벌점은 리스트 상의 이름과의 부합 아니면 가비지 모델과의 부합에 대한 감도에 영향을 주도록 조정될 수 있다.
가비지 모델은 바람직하게는 이와 동시에 출원한 로린 네치 외(Lorin Netsch et al.) 발명, "확고한 화자 종속 음성 모델을 위한 등록 및 모델링 방법 및 장치(Enrollment and Modeling Method and Apparatus for Robust Speaker Dependent Speech Models)"라는 제명의 미국 출원 번호 제08/710,001호(1996년 9월 11일 출원)에서 논한 음소 배열 가비지 모델과 같을 수 있다. 이 모델은 언어 제한을 갖고 있다.
스피드 디이얼 리스트에 새로운 이름을 등록하고자 할 때 가입자는 "음성 다이얼 리스트 관리(Voice Dial List Management)"란 이름의 메뉴 또는 도 3의 40 위치 또는 도 4의 78 위치에 들어가서, "부가 엔트리(Add Entry)"라고 말한다. 이 명령이 인식되면, 시스템은 우선 스텝 201에서 리스트가 차 있는지 여부를 점검한다. 만약 차 있다면, 시스템은 사용자에게 차 있다고 알려준다. 이것은 메모리(15) 및 합성기(15a)로부터의 합성 음성 명령에 의해 행해질 수 있고, 다음과 같이 말한다. "당신의 리스트가 차 있다. 새로운 이름을 부가하기 전에 이름 하나를 삭제해야 한다." 사용자는 리스트 관리(List Management)로 되돌아가서 리스트 상의 이름 하나를 삭제할수 있다. 도4의 스텝 96 내지 104를 참조할 것. 만약 리스트가 차있거나 또는 리스트 상의 이름 하나를 삭제하고 "부가 엔트리 LPCCNT"(Add Entry LPCCNT)로 돌아간 다음에는 ELPC 카운터 및 ULPC 카운터가 제로로 세트된다(스텝 202). 그 후 시스템은 등록 LPC(선형 예상 코딩, Linear Predictive Coding) 또는 ELPC의 카운트 및 업데이트 선형 예상 코딩(ULPC) 카운트들을 유지할 것이다. LPC는 선형 예상 파라미터로 나타내어지는 음성 샘플이다. LPC는 선형으로 가정된다. LPC에 대해 더 알고 싶다면, 일례로, 프렌티스 홀 출판(ISBN 0-13-163841-6), 프랭크 폴사이드와 윌리엄 우드가 편집한, "컴퓨터 음성 처리(Computer Speech Processing)" 내에 있는 (제4장) 비쉬누 에스. 이탈 저(著), "음성의 선형 예상 코딩(Linear Predictive Coding of Speech)" 81-124 페이지를 참조할 것. 이것은 참증으로 여기 반영되었다. ELPC 및 ULPC의 카운트가 둘 다 제로로서(스텝 203), 전에 아무것도 입력되지 않았음을 나타낸다면, 지침의, 합성 프롬프트 문장이 재생된다(스텝 203에서 "예" 판정). 그 합성문은 다음과 같이 말할 수 있다.
"시스템은 당신이 이름을 말하는 방식을 배울 필요가 있다. 당신이 처음 이름을 말한 후 오랜 중지가 있은 다음, 시스템은 그 이름을 한 번에서 네 번까지 반복하라고 할 것이다. 앞으로, 다이얼링 파운드에 의해 이 메시지를 건너뛸 수 있다. 삑 소리 후, 이름을 부르는 음성을 말하시오."
(사용자가 이름을 말하게 끝에 삑 소리가 울린다.) 사용자는 이름을 말한다. 스텝 205에서 그 이름이 리스트에 올라 있는 (예컨대) 열 다섯 개의 이름 리스트 상에 기존하는지 아니면 특정 이름과 유사한지 아니면 가비지 모델에 부합되는지를 판정하는 체크가 이루어진다. 만약 리스트 상의 것과 부합되는 것이 있다면(리스트에 유사한 이름이 기존함을 나타냄) 시스템은 스텝 206의 부가 엔트리 재시도(Add Entry Retry)에 들어간다. 만약 재시도 초과(out of retries)가 "예"이면(스텝 207), 시스템은 음성 다이얼 리스트 관리의 메뉴 또는 도 3의 40 위치 또는 도 4의 78 위치로 되돌아간다. 만약 시도를 초과하지 않았으면(스텝 207에서 "아니오"), 시스템은 합성기(15a)를 통해 "너무 유사한" 메시지("...당신의 리스트 상의 다른 이름과 너무 유사하다. 다른 이름을 선택하시오.")를 재생하고, 도 5에 도시한 ELPC 카운터(202)를 증가시키고, 다시 시도하라는 짧은 프롬프트("삑 소리 후, 음성 다이얼링 이름을 말하시오.")를 사용한다. 만약 사용자가 시간 내에 새로운 이름을 제공하지 않으면, 시스템은 타임 아웃하고, 카운터를 증가시키고 새로운 이름을 요구한다. 만약 키보드 상의 무효 키가 눌리고/눌리거나 타임 아웃 후에는, 시스템은 스텝 202에서 카운터를 증가시키고 구두 이름을 요구한다. 만약 시스템이 세 번의 시도 후 등록에 실패하거나 5차 무효 DTMF 키가 발생하면, 시스템은 비접속된다(스텝 209). 만약 구두 이름이 부합하지 않으면, 시스템은 도 7의 "부가 엔트리 등록(Add Entry Enroll)"으로 진행한다.
도 5의 부가 엔트리 등록에서 부합하지 않는 이름을 성공적으로 말한 다음에는, 시스템은 도 7의 흐름도를 따른다. 발성은 온-라인 등록을 시작할 때 저장된다. 저장된 발성은 오프-라인 등록을 수행함으로써(스텝 301) 템플릿을 생성하는데 사용된다. 만약 발성 길이가, 예컨대, 너무 짧지 않아서 10 프레임의 데이터와 같은 최소 임계치보다 크거나 같은 정도라면(스텝 302에서 "아니오"), 시스템은 부가 엔트리 갱신하는 스텝 305로 진행하고, 도 8의 흐름도를 따른다. 만약 메시지가 너무 짧거나 또는 최소 임계치 미만(예컨대 10 프레임의 데이터 미만)이라면(스텝 302에서 "예"), 시스템은 합성기를 통해 그 템플릿이 전에 사용된 적이 없다 할지라도 사용자가 그것을 사용하고 싶어하는지 묻는다. 만약 최소 임계치 미만임을 뜻하는 "예"라면, 프롬프트 메시지는 다음과 같이 말할 수 있다.
"이름(제공된 이름)이 권장 이름 길이보다 짧다. 퍼스트 네임과 라스트 네임 모두 사용하는 것이 좋다. 어떻든 이 이름을 사용하려면, 오케이(OKAY)라고 말하라. 이 이름을 부가하는 것을 취소하려면, 취소(CANCEL)라고 말하라."
삑 소리 프롬프트가 뒤를 잇는다. 만약 응답 스텝 307에서 "오케이"가 수신되면, 시스템은 도 8의 부가 엔트리 갱신으로 진행한다. "취소"가 수신되는 경우에는, 합성문이 발생되어 "이름 부가 안됨"과 같이 제공되고, 시스템은 음성 리스트 관리 메뉴 또는 도 3의 40 위치 또는 도 4의 78 위치로 되돌아간다. 만약 아무 말도 없고(타임 아웃), 미인식 명령 또는 틀린 키가 눌리는 경우에는, 시스템은 합성 지시를 제공한 다음 되돌아가서 응답을 기다린다. 만약 다섯 번 이후 인식된 응답이 없거나 세 번의 타임 아웃 후에는, 시스템은 메시지와 비접속된다(스텝 309). DTMF키가 눌린 경우에는, 합성기는 "틀린 키"라는 메시지를 제공한다. 각 타임 아웃, 각 틀린 키 이후 그리고 3차 및 4차 미인식 음성 명령 이후, 합성기는 "오케이 또는 취소라고 말하라."고 하거나 또는 더 상세한 지시를 위해, "이 이름 부가를 계속하려면 오케이라고 말하라. 이 이름 부가를 취소하려면 취소라고 말하라."고 할 것이다. "오케이"가 인식되는 경우에는 짧은 이름이라 할지라도, 시스템은 도 8의 부가 입력 갱신으로 진행한다.
인식 판정시, 시스템은 아래 리스트된 벌점(penalty)들을 갖는 가비지 모델을 사용한다.
만약 수신된 템플릿이 리스트된 가비지 모델들 중 어떤 것에 대해 높은 점수를 갖는 경우에는, 그 템플릿은 미인식 음성에 대해 높은 점수를 받고, 미인식 음성으로서 거절된다.
도 8을 보면, 템플릿이 다운로드되고(스텝 401), 시스템은 갱신이 있었는지를 판정한다. 갱신 중에, 가비지 모델은 등록 템플릿에 없는 음성을 설명하는데 사용된다. 일례로, 등록 중에 사용자가 "어, 로저 래빗"이라고 말하는 경우에는, 가비지 모델은 "어"(헐떡 거림)를 설명하고, 갱신 발성의 "로저 래빗" 부분만이 새로운 이름 템플릿으로 추산된다. 갱신 카운터(ULPC)가 제로인 경우에는(스텝 402), 갱신을 완료하지 않았음을 뜻하고, 시스템은 합성기를 통해 사용자에게, "다시 이름을 말하시오."하고 요구한다. 갱신 카운터가 증가되고(스텝 403), 응답이 있으면 그 응답을 이용하여 템플릿의 갱신(스텝 404)이 이루어진다. 갱신이 양호했는지를 판정하기 위해 템플릿이 체크된다. 갱신이 양호했다면, 사용자는 그 이름에 대한 전화 번호를 입력하라는 요구를 받는다(스텝 405). 이는 키로 입력되거나 또는 화자 독립 인식 모델을 갖는 음성 인식을 이용하여 구두로 입력될 수 있다. 갱신이 실패하는 경우에는, 시스템은 도 9의 추가 엔트리 재시도(Add Entry Retry) 스텝으로 진행한다. 갱신이 실패하는 경우, 등록 및 갱신 발성들이 교환되고, 그 순서로 등록 및 갱신이 시도된다. 흔히 사용자는 처음에는 말할 준비가 되어 있지 않아서, 이름을 말하기 전에 "어"(헐떡 거림)와 같은 삽입이 발생할 가능성이 많을 수 있지만, 재차 말하라는 요구를 받는 경우에는 말할 준비가 되어 있다. 1차 템플릿은 "어"라는 헐떡 거림을 그 안에 갖고, 갱신을 할 때는 "어"가 없기 때문에 갱신이 실패할 수 있다. 발성들을 교환하면 깨끗한 2차 발성이 등록에 사용되고, 1차 발성으로써 갱신하므로, 발성의 처음에 있는 "어"라는 헐떡 거림은 가비지 모델에 의해 설명되고, 그 "어"는 템플릿에 포함되지 않는다. 1차와 2차 발성의 이런 교환이 실패하는 경우에는, 시도 초과(out of tries)(스텝 406)를 통해 3차 발성이 요구되고 그 응답과 2차 발성이 갱신을 위해 사용된다. 등록을 위해 3차 발성이 요구되는 경우에는, 우선 그 이름은 리스트 상의 다른 이름과 유사한지 알기 위해 체크된다. 유사한 경우에는 그 이름은 사용되지 않고, 처리 순서는 도 5의 입력 A로 진행한다. 발성이 너무 짧기 때문에 등록이 실패하는 경우에는, 시스템은 가입자에게 알리고 또 다른 발성을 재차 재촉할 것이다. 등록은 성공하지만, 발성(프레임 길이)가 너무 짧은(최소 길이 임계치 미만인) 경우에는, 가입자는 등록 이름이 너무 짧기 때문에 인식 불량이 생길 수 있다는 경고를 받을 것이다. 가입자는 "오케이" 또는 "취소"라고 말하도록 재촉 받는다.
요약하면, 갱신이 실패하는 경우에는, 2차 발성(또는 필요하다면 3차)이 1차 보다 양호한 등록 발성이 되는지를 알기 위해 발성들이 교환된다. 등록 및 갱신에 다음 순서가 시도되지만, 사용자로부터 최대 세 개의 발성만이 요구된다.
<기타 실시예>
본 발명 및 그 이점들을 상세히 서술하기는 하였으나, 첨부된 특허 청구의 범위에 의해 규정된 본 발명의 사상 및 범위에서 벗어나지 않고서 다양한 변경, 대체 및 수정이 가해질 수 있다는 점을 이해했으면 한다.
도 1은 본 발명의 방법을 구현하는 전화 시스템의 단순화한 블록도.
도 2는 음성 인식 전화 시스템에서 다중-사용자 구두(口頭) 스피드 다이얼 지시를 생성하는 방법의 흐름도.
도 3은 전화 시스템 내의 디렉토리(인명부) 이름을 등록하고 삭제하는 일반 흐름도.
도 4는 전화 시스템 내의 디렉토리 이름에 상응하는 스피드 다이얼 리스트를 등록하고 수정하는 방법의 흐름도.
도 5는 본 발명의 일실시예에 따른 음성 다이얼 부가 엔트리의 흐름도.
도 6은 단일 가비지 모델.
도 7은 도 5의 음성 다이얼 부가 엔트리 등록의 흐름도.
도 8은 도 7의 음성 다이얼 부가 엔트리 갱신의 흐름도.
도 9는 도 8의 음성 다이얼 부가 엔트리 재시도를 위한 흐름도.
<도면의 주요 부분에 대한 부호의 설명>
10 : 전화 시스템
11 : 전화기
12 : 프로세서
13 : 오프-훅 검출 회로
14 : 인식 및 기록 회로
15 : 메모리
15a : 합성기

Claims (37)

  1. 음성 인식 데이터베이스에서의 음성 인식 모델 등록 방법에 있어서,
    무관계한 음성(extraneous speech)을 설명하기 위해 벌점 적용 가비지 모델(penalized garbage model)을 제공하는 단계,
    사용자로부터 등록을 위한 새로운 음성 인식 발성을 수신하는 단계,
    등록을 위해 상기 수신된 발성의 템플릿(template)을 생성하는 단계,
    상기 사용자에게 등록될 발성을 다시 반복할 것을 요구하는 단계,
    2차 수신된 발성을 수신하는 단계,
    부합 여부를 판정하기 위해 상기 2차 발성을 상기 생성된 템플릿 그리고 상기 벌점 적용 가비지 모델들과 비교하는 단계, 및
    어휘 내의 음성(in-vocabulary speech)에 대해 부합하는 경우에는 상기 새로운 템플릿을 스피드 다이얼 리스트(speed dial list)에 부가하는 단계
    를 포함하는 것을 특징으로 하는 음성 인식 모델 등록 방법.
  2. 제1항에 있어서, 상기 비교 단계는, 상기 2차 발성 중, 상기 등록된 템플릿과 비교되는, 어휘 이외의 음성(out of vocabulary)에 대한 상기 벌점 적용 가비지 모델과 선정한 정도 범위 내에서 부합하는 임의의 발성을 거절하기 위해 상기 2차 발성을 상기 벌점 적용 가비지 모델과 비교하는 단계를 포함하는 것을 특징으로 하는 음성 인식 모델 등록 방법.
  3. 제1항에 있어서, 만약 상기 비교가 부합에 실패하는 경우에는 상기 템플릿과 상기 2차 수신된 발성을 교환(swapping)하여 상기 비교 단계를 반복하는 단계를 포함하는 것을 특징으로 하는 음성 인식 모델 등록 방법.
  4. 제3항에 있어서, 만약 상기 교환 단계 후에 비교를 얻는데 실패하는 경우에는 3차 발성을 요구하여 수신하고, 상기 3차 응답과 상기 2차 발성이 비교되고, 부합하는 경우에는 상기 2차 발성의 템플릿을 상기 데이터베이스에 입력하는 단계를 포함하는 것을 특징으로 하는 음성 인식 모델 등록 방법.
  5. 제3항에 있어서, 만약 교환 단계 후에 이전의 발성들에 대한 비교를 얻는데 실패하는 경우에는 잇따른 발성들을 요구하고, 상기 잇따른 응답과 이전의 발성이 비교되고, 부합하는 경우에는 잇따른 발성의 템플릿을 상기 데이터베이스에 입력하는 단계를 포함하는 것을 특징으로 하는 음성 인식 모델 등록 방법.
  6. 전화 시스템에서의 스피드 다이얼 이름 등록 방법에 있어서,
    무관계한 음성을 설명하기 위해 벌점 적용 가비지 모델을 제공하는 단계,
    사용자로부터 등록을 위한 새로운 스피드 다이얼 이름 발성을 수신하는 단계,
    상기 등륵을 위해 상기 수신된 스피드 다이얼 이름 발성의 템플릿을 생성하는 단계,
    사용자에게 상기 등록하기 위한 새로운 스피드 다이얼 이름 발성을 다시 반복할 것을 요구하는 단계,
    2차 수신된 새로운 스피드 다이얼 이름 발성을 수신하는 단계,
    부합 여부를 판정하기 위해 상기 2차 새로운 스피드 다이얼 이름 발성을 상기 생성된 템플릿 그리고 상기 벌점 적용 가비지 모델들과 비교하는 단계, 및
    부합하는 경우에는 상기 새로운 스피드 다이얼 이름 템플릿을 스피드 다이얼 리스트에 부가하는 단계
    를 포함하는 것을 특징으로 하는 스피드 다이얼 이름 등록 방법.
  7. 제6항에 있어서, 상기 새로운 스피드 다이얼 이름 템플릿과 관련될 전화 번호를 요구하여 부가하는 단계를 포함하는 것을 특징으로 하는 스피드 다이얼 이름 등록 방법.
  8. 제7항에 있어서, 만약 비교가 부합에 실패하는 경우에는 상기 템플릿과 상기 2차 수신된 스피드 다이얼 이름 발성을 교환하고 상기 비교 단계를 반복하는 단계를 포함하는 것을 특징으로 하는 스피드 다이얼 이름 등록 방법.
  9. 제8항에 있어서, 만약 상기 교환 단계 후에 비교를 얻는데 실패하는 경우에는 3차 새로운 스피드 다이얼 이름 발성을 요구하여 수신하고, 상기 3차 응답과 상기 2차 발성이 비교되고, 부합하는 경우에는 상기 2차 발성을 상기 스피드 다이얼 리스트에 입력하는 단계를 포함하는 것을 특징으로 하는 스피드 다이얼 이름 등록 방법.
  10. 제8항에 있어서, 잇따른 새로운 스피드 다이얼 이름 발성들을 요구하여 수신하고, 만약 교환 단계 후에 이전의 발성들에 대한 비교를 얻는데 실패하는 경우에는, 상기 잇따른 응답과 이전의 발성이 비교되고, 부합하는 경우에는 잇따른 발성의 템플릿을 상기 데이터베이스에 입력하는 단계를 포함하는 것을 특징으로 하는 스피드 다이얼 이름 등록 방법.
  11. 제6항에 있어서, 상기 비교 단계는, 상기 2차 발성 중, 선정한 정도 범위 내에서 상기 벌점 적용 가비지 모델과 부합하는 임의의 발성을 거절하기 위해 상기 2차 발성을 상기 벌점 적용 가비지 모델과 비교하는 단계를 포함하는 것을 특징으로 하는 스피드 다이얼 이름 등록 방법.
  12. 제11항에 있어서, 만약 비교가 부합에 실패하는 경우에는 상기 템플릿과 상기 2차 수신된 스피드 다이얼 이름 발성을 교환하여 상기 비교 단계를 반복하는 단계를 포함하는 것을 특징으로 하는 스피드 다이얼 이름 등록 방법.
  13. 제12항에 있어서, 만약 상기 교환 단계 후에 비교를 얻는데 실패하는 경우에는 3차 새로운 스피드 다이얼 이름 발성을 요구하여 수신하고, 상기 3차 응답과 상기 2차 발성이 비교되고, 부합하는 경우에는 상기 2차 발성을 상기 스피드 다이얼 리스트에 입력하는 단계를 포함하는 것을 특징으로 하는 스피드 다이얼 이름 등록 방법.
  14. 제10항에 있어서, 만약 교환 단계 후에 이전의 발성들에 대한 비교를 얻는데 실패하는 경우에는 잇따른 새로운 스피드 다이얼 이름 발성들을 요구하여 수신하고, 상기 잇따른 응답과 이전의 발성이 비교되고, 부합하는 경우에는 잇따른 발성의 템플릿을 상기 데이터베이스에 입력하는 단계를 포함하는 것을 특징으로 하는 스피드 다이얼 이름 등록 방법.
  15. 음성 인식 데이터베이스에서의 주소 등록 방법에 있어서,
    이름 주소들의 화자 종속 템플릿(speaker dependent template)들을 제공하는 단계,
    무관계한 음성을 설명하기 위해 벌점 적용 가비지 모델을 제공하는 단계, 및
    상기 등록하기 위한 주소가 이전에 제공된 화자 종속 템플릿과 부합하는지 아니면 상기 벌점 적용 가비지 모델과 부합하는지를 판정하고, 만약 이전에 제공된 화자 종속 템플릿과 부합하는 경우에는 상기 등록을 거절하는 단계
    를 포함하는 것을 특징으로 하는 주소 등록 방법.
  16. 전화 시스템에서의 스피드 다이얼 이름 등록 방법에 있어서,
    스피드 다이얼 이름들의 화자 종속 템플릿들 및 관련 전화 번호들을 제공하는 단계,
    미인식 음성을 위한 벌점 적용 가비지 모델을 제공하는 단계, 및
    상기 등록하기 위한 이름이 이전에 제공된 화자 종속 템플릿과 부합하는지 아니면 상기 벌점 적용 가비지 모델과 부합하는지를 판정하고, 만약 이전에 제공된 화자 종속 템플릿과 부합하는 경우에는 상기 등록을 거절하는 단계
    를 포함하는 것을 특징으로 하는 스피드 다이얼 이름 등록 방법.
  17. 제16항에 있어서,
    상기 등록하기 위한 발성이 최소 길이 임계치 미만인지를 판정하는 단계
    를 포함하는 것을 특징으로 하는 스피드 다이얼 이름 등록 방법.
  18. 제17항에 있어서, 만약 상기 발성이 상기 최소 길이 임계치 미만인 경우에는 상기 발성의 템플릿을 스피드 다이얼 리스트에 부가하기 전에 사용자의 승인을 판정하는 것을 특징으로 하는 스피드 다이얼 이름 등록 방법.
  19. 음성 인식 데이터베이스에서의 주소 등록 방법에 있어서,
    주소들의 화자 종속 템플릿들을 제공하는 단계,
    미인식 음성을 위한 벌점 적용 가비지 모델을 제공하는 단계,
    상기 등록하기 위한 주소를 수신하는 단계, 및
    상기 등록하기 위한 주소가 너무 짧은지를 판정하는 단계
    를 포함하는 것을 특징으로 하는 주소 등록 방법.
  20. 전화 시스템에서의 스피드 다이얼 이름 등록 방법에 있어서,
    스피드 다이얼 이름들의 화자 종속 템플릿들 및 관련 전화 번호들을 제공하는 단계,
    미인식 음성을 위한 벌점 가비지 모델을 제공하는 단계,
    사용자로부터 등록을 위한 새로운 스피드 다이얼 이름 발성을 수신하는 단계,
    상기 등록을 위해 상기 수신된 스피드 다이얼 이름 발성의 템플릿을 생성하는 단계,
    상기 등록하기 위한 이름이 제공된 화자 종속 템플릿과 너무 유사한지를 판정하고 만약 너무 유사한 경우에는 상기 등록을 거절하고, 또는 만약 상기 가비지 모델과 부합하는 경우에는 상기 등록을 허용하는 단계,
    상기 등록하기 위한 발성이 최소 길이 임계치 미만인지를 판정하고 만약 상기 발성이 상기 최소 길이 임계치 미만인 경우에는 상기 발성의 템플릿을 상기 스피드 다이얼 리스트에 부가하기 전에 사용자의 승인을 판정하는 단계,
    상기 사용자에게 상기 승인하기 위한 새로운 스피드 다이얼 이름 발성을 다시 반복할 것을 요구하는 단계,
    2차 수신된 새로운 스피드 다이얼 이름 발성을 수신하는 단계,
    부합 여부를 판정하기 위해 상기 2차 새로운 스피드 다이얼 이름 발성을 상기 생성된 템플릿 그리고 상기 벌점 적용 가비지 모델들과 비교하는 단계, 및
    부합하는 경우에는 상기 새로운 스피드 다이얼 이름 템플릿을 스퍼드 다이얼 리스트에 부가하는 단계
    를 포함하는 것을 특징으로 하는 스피드 다이얼 이름 등록 방법.
  21. 제20항에 있어서, 상기 새로운 스피드 다이얼 이름 템플릿과 관련시키기 위한 전화 번호를 요구하여 부가하는 단계를 포함하는 것을 특징으로 하는 스피드 다이얼 이름 등록 방법.
  22. 제21항에 있어서, 만약 비교가 부합에 실패하는 경우에는 상기 템플릿과 상기 2차 수신된 스피드 다이얼 이름 발성을 교환하여 상기 비교 단계를 반복하는 단계를 포함하는 것을 특징으로 하는 스피드 다이얼 이름 등록 방법.
  23. 제22항에 있어서, 만약 상기 교환 단계 후에 비교를 얻는데 실패하는 경우에는 3차 새로운 스피드 다이얼 이름 발성을 요구하여 수신하고, 상기 3차 응답과 상기 2차 발성이 비교되고, 부합하는 경우에는 상기 2차 발성을 상기 스피드 다이얼 리스트에 입력하는 단계를 포함하는 것을 특징으로 하는 스피드 다이얼 이름 등록 방법.
  24. 제20항에 있어서, 상기 비교 단계는, 상기 2차 발성 중, 선정한 정도 범위 내에서 상기 벌점 적용 가비지 모델과 부합하는 임의의 발성을 거절하기 위해 상기 2차 발성을 상기 벌점 적용 가비지 모델과 비교하는 단계를 포함하는 것을 특징으로 하는 스피드 다이얼 이름 등록 방법.
  25. 스피드 다이얼 이름을 등록하는 전화 장치에 있어서,
    스피드 다이얼 이름들의 화자 종속 템플릿들 및 관련 전화 번호들을 저장하는 메모리,
    미인식 음성을 위한 벌점 적용 가비지 모델을 저장하는 메모리, 및
    너무 유사하면 상기 등록을 거절하기 위해, 상기 등록하기 위한 이름을 상기 저장된 화자 종속 템플릿 또는 상기 벌점 적용 가비지 모델과 비교하는 비교 수단
    을 포함하는 것을 특징으로 하는 전화 장치.
  26. 제25항에 있어서, 상기 등록하기 위한 발성이 최소 길이 임계치 미만인지를 판정하고, 또는 만약 상기 발성이 상기 최소 길이 임계치 미만인 경우에는 상기 발성의 템플릿을 상기 스피드 다이얼 리스트에 부가하기 전에 사용자의 승인을 판정하는 수단을 포함하는 것을 특징으로 하는 전화 장치.
  27. 스피드 다이얼 이름을 등록하는 전화 장치에 있어서,
    미인식 음성을 위한 벌점 적용 가비지 모델을 저장하는 기억 장치,
    사용자로부터 등록을 위한 새로운 스피드 다이얼 이름 발성을 수신하는 수신기,
    상기 수신기에 결합되며 등록을 위해 상기 수신된 스피드 다이얼 이름 발성의 템플릿을 생성하는 생성기,
    상기 사용자에게 상기 등록하기 위한 새로운 스피드 다이얼 이름 발성을 다시 반복할 것을 요구하는 수단, 및
    상기 수신기가 상기 2차 수신된 새로운 스피드 다이얼 이름 발성의 수신에 응답하여 상기 2차 새로운 스피드 다이얼 이름 발성을 상기 생성된 템플릿 그리고 상기 벌점 적용 가비지 모델들과 비교하여 부합 여부를 판정하며, 부합하는 경우에는 상기 새로운 스퍼드 다이얼 이름 템플릿을 스피드 다이얼 리스트에 부가하는 수단
    을 포함하는 것을 특징으로 하는 전화 장치.
  28. 제27항에 있어서, 상기 새로운 스피드 다이얼 이름 템플릿과 관련시키기 위한 전화 번호를 요구하여 부가하는 수단을 포함하는 것을 특징으로 하는 전화 장치.
  29. 제27항에 있어서, 상기 수신기는, 만약 상기 비교가 부합에 실패하는 경우에는 상기 템플릿과 상기 2차 수신된 스피드 다이얼 이름 발성을 교환하고, 다시 비교하는 수단을 포함하는 것을 특징으로 하는 전화 장치.
  30. 제29항에 있어서, 만약 상기 교환 단계 후에 비교를 얻는데 실패하는 경우에는 3차 새로운 스피드 다이얼 이름 발성을 요구하여 수신하고, 상기 3차 응답과 상기 2차 발성이 비교되고, 부합하는 경우에는 상기 2차 발성을 상기 스피드 다이얼 리스트에 입력하는 수단을 포함하는 것을 특징으로 하는 전화 장치.
  31. 제27항에 있어서, 상기 수신기는, 상기 2차 발성 중, 선정한 정도 범위 내에서 상기 벌점 적용 가비지 모델과 부합하는 임의의 발성을 거절하기 위해 상기 2차 발성을 상기 벌점 적용 가비지 모델과 비교하는 수단을 포함하는 것을 특징으로 하는 전화 장치.
  32. 제31항에 있어서, 상기 수신기는, 만약 상기 비교가 부합에 실패하는 경우에는 상기 템플릿과 상기 2차 수신된 스피드 다이얼 이름 발성을 교환하여 상기 비교 단계를 반복하는 수단을 포함하는 것을 특징으로 하는 전화 장치.
  33. 제32항에 있어서, 상기 수신기는, 만약 상기 교환 단계 후에 비교를 얻는데 실패하는 경우에는 3차 새로운 스피드 다이얼 이름 발성을 요구하여 수신하고, 상기 3차 발성과 상기 2차 발성이 비교되고, 부합하는 경우에는 상기 2차 발성을 상기 스피드 다이얼 리스트에 입력하는 수단을 포함하는 것을 특징으로 하는 전화 장치.
  34. 음성 인식 데이터베이스에서의 음성 템플릿 등록 장치에 있어서,
    미인식 음성을 위한 벌점 적용 가비지 모델을 저장하는 기억 장치,
    사용자로부터 상기 데이터베이스에서의 등록을 위한 새로운 음성 주소 발성을 수신하는 수신기,
    상기 수신기에 결합되며 등록을 위해 상기 수신된 음성 주소 발성의 템플릿을 생성하는 생성기,
    상기 사용자에게 등록하기 위한 상기 새로운 음성 주소 발성을 다시 반복할 것을 요구하는 수단, 및
    상기 수신기가 상기 2차 수신된 새로운 음성 주소 발성의 수신에 응답하여 상기 2차 새로운 음성 주소 발성을 상기 생성된 템플릿 그리고 상기 벌점 적용 가비지 모델들과 비교하여 부합 여부를 판정하며, 상기 새로운 음성 다이얼 이름 템플릿과 부합하는 경우에는 상기 새로운 템플릿을 상기 데이터베이스에 부가하는 수단
    을 포함하는 것을 특징으로 하는 음성 템플릿 등록 장치.
  35. 제34항에 있어서, 상기 수신기는 만약 상기 비교가 부합에 실패하는 경우에는 상기 템플릿과 상기 2차 수신된 발성을 교환하고, 다시 비교하는 수단을 포함하는 것을 특징으로 하는 음성 템플릿 등록 장치.
  36. 제35항에 있어서, 만약 상기 교환 단계 후에 비교를 얻는데 실패하는 경우에는 3차 발성을 요구하여 수신하고, 상기 3차 응답과 상기 2차 발성이 비교되고, 부합하는 경우에는 상기 2차 발성을 상기 데이터베이스에 입력하는 수단을 포함하는 것을 특징으로 하는 음성 템플릿 등록 장치.
  37. 제34항에 있어서, 상기 수신기는 상기 2차 발성 중, 선정한 정도 범위 내에서 상기 벌점 적용 가비지 모델과 부합하는 임의의 발성을 거절하기 위해 상기 2차 발성을 상기 벌점 적용 가비지 모델과 비교하는 수단을 포함하는 것을 특징으로 하는 음성 템플릿 등록 장치.
KR1019960039478A 1995-09-12 1996-09-12 음성인식데이터베이스에서의주소등록방법및시스템 KR100442308B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US359395P 1995-09-12 1995-09-12
US60/003,593 1995-09-12

Publications (2)

Publication Number Publication Date
KR970017175A KR970017175A (ko) 1997-04-30
KR100442308B1 true KR100442308B1 (ko) 2005-04-06

Family

ID=21706613

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019960039478A KR100442308B1 (ko) 1995-09-12 1996-09-12 음성인식데이터베이스에서의주소등록방법및시스템

Country Status (6)

Country Link
EP (1) EP0762709B1 (ko)
JP (2) JP4355035B2 (ko)
KR (1) KR100442308B1 (ko)
CA (1) CA2185262C (ko)
DE (1) DE69636731T2 (ko)
MY (1) MY119374A (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19718007A1 (de) * 1997-04-29 1998-11-05 Deutsche Telekom Ag Verfahren und Anordnung zur besseren Auslastung der Leistungsfähigkeit des Spracherkenners eines sprachgesteuerten Kommunikationsendgerätes
US6012027A (en) * 1997-05-27 2000-01-04 Ameritech Corporation Criteria for usable repetitions of an utterance during speech reference enrollment
FI973093A (fi) 1997-07-23 1999-01-24 Nokia Mobile Phones Ltd Menetelmä telepalvelun ohjaamiseksi ja päätelaite
FR2769117B1 (fr) * 1997-09-29 2000-11-10 Matra Comm Procede d'apprentissage dans un systeme de reconnaissance de parole
AU1193599A (en) * 1997-11-04 1999-05-24 Alcatel Usa Sourcing, L.P. System for entollement of a spoken name dialing service
US6370237B1 (en) * 1998-12-29 2002-04-09 Alcatel Usa Sourcing, Lp Voice activated dialing with reduced storage requirements
JP2001202309A (ja) * 2000-01-17 2001-07-27 Dream Technologies Kk コンピュータに所望のアクションを行わせるためのシステム及び方法
US6845251B2 (en) * 2000-11-29 2005-01-18 Visteon Global Technologies, Inc. Advanced voice recognition phone interface for in-vehicle speech recognition applications
DE60028219T8 (de) * 2000-12-13 2007-06-14 Sony Deutschland Gmbh Verfahren zur Spracherkennung
JP3500383B1 (ja) * 2002-09-13 2004-02-23 コナミ株式会社 ゲーム装置、ゲーム装置の制御方法及びプログラム
CN100592385C (zh) * 2004-08-06 2010-02-24 摩托罗拉公司 用于对多语言的姓名进行语音识别的方法和系统
KR101952578B1 (ko) 2018-12-18 2019-02-27 유옥상 강관 회전 장치
KR102083018B1 (ko) 2019-06-07 2020-02-28 박종신 강관 회전 장치
KR102125675B1 (ko) 2020-01-14 2020-06-23 이주철 강관 회전 장치

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4644107A (en) * 1984-10-26 1987-02-17 Ttc Voice-controlled telephone using visual display
JPH01123298A (ja) * 1987-11-06 1989-05-16 Ricoh Co Ltd 音声ダイアリング装置
JPH04238398A (ja) * 1991-01-22 1992-08-26 Ricoh Co Ltd 音声認識装置及び音声ダイヤリング装置
JPH0730629A (ja) * 1993-07-07 1995-01-31 Yuhshin Co Ltd 音声ダイヤリング装置
JPH08223265A (ja) * 1995-02-13 1996-08-30 Hitachi Ltd 音声ダイヤル機能付き電話機
KR0170529B1 (ko) * 1994-08-31 1999-03-30 이우복 음성인식 자동 다이얼링 시스템

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3885683T2 (de) * 1987-09-11 1994-03-10 Toshiba Audio Video Eng Telefonapparat.
US4802231A (en) * 1987-11-24 1989-01-31 Elliot Davis Pattern recognition error reduction system
CA2015410C (en) * 1989-05-17 1996-04-02 Chin H. Lee Speech recognition employing key word modeling and non-key word modeling
US5165095A (en) * 1990-09-28 1992-11-17 Texas Instruments Incorporated Voice telephone dialing
US5212730A (en) * 1991-07-01 1993-05-18 Texas Instruments Incorporated Voice recognition of proper names using text-derived recognition models
US5179921A (en) * 1992-01-30 1993-01-19 Vincent Figliuzzi Integrated engine and compressor device
JPH06266386A (ja) * 1993-03-16 1994-09-22 Nippon Telegr & Teleph Corp <Ntt> ワードスポッティング方法
US5452340A (en) * 1993-04-01 1995-09-19 Us West Advanced Technologies, Inc. Method of voice activated telephone dialing
US5524169A (en) * 1993-12-30 1996-06-04 International Business Machines Incorporated Method and system for location-specific speech recognition
US5598507A (en) * 1994-04-12 1997-01-28 Xerox Corporation Method of speaker clustering for unknown speakers in conversational audio data

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4644107A (en) * 1984-10-26 1987-02-17 Ttc Voice-controlled telephone using visual display
JPH01123298A (ja) * 1987-11-06 1989-05-16 Ricoh Co Ltd 音声ダイアリング装置
JPH04238398A (ja) * 1991-01-22 1992-08-26 Ricoh Co Ltd 音声認識装置及び音声ダイヤリング装置
JPH0730629A (ja) * 1993-07-07 1995-01-31 Yuhshin Co Ltd 音声ダイヤリング装置
KR0170529B1 (ko) * 1994-08-31 1999-03-30 이우복 음성인식 자동 다이얼링 시스템
JPH08223265A (ja) * 1995-02-13 1996-08-30 Hitachi Ltd 音声ダイヤル機能付き電話機

Also Published As

Publication number Publication date
KR970017175A (ko) 1997-04-30
DE69636731T2 (de) 2007-10-18
EP0762709B1 (en) 2006-11-29
MX9604051A (es) 1997-07-31
EP0762709A3 (en) 2000-03-29
DE69636731D1 (de) 2007-01-11
CA2185262A1 (en) 1997-03-13
EP0762709A2 (en) 1997-03-12
JPH09205478A (ja) 1997-08-05
JP4355035B2 (ja) 2009-10-28
CA2185262C (en) 2006-08-29
MY119374A (en) 2005-05-31
JP2007124686A (ja) 2007-05-17

Similar Documents

Publication Publication Date Title
US5832429A (en) Method and system for enrolling addresses in a speech recognition database
JP2007124686A (ja) 音声認識データベースにアドレスを登録する方法とシステム
US5832063A (en) Methods and apparatus for performing speaker independent recognition of commands in parallel with speaker dependent recognition of names, words or phrases
CA2493265C (en) System and method for augmenting spoken language understanding by correcting common errors in linguistic performance
JP4672003B2 (ja) 音声認証システム
JP3388845B2 (ja) 混同するほど類似した語句の入力を防止する方法と装置
JP4173207B2 (ja) 発声音に関する話者の検証を行うためのシステム及び方法
US6185530B1 (en) Apparatus and methods for identifying potential acoustic confusibility among words in a speech recognition system
JP3479304B2 (ja) 音声コマンド制御及び検証システム
US6192337B1 (en) Apparatus and methods for rejecting confusible words during training associated with a speech recognition system
US5732187A (en) Speaker-dependent speech recognition using speaker independent models
JP2010191400A (ja) 音声認識装置およびデータ更新方法
JP2008009153A (ja) 音声対話システム
CN109003612B (zh) 基于人工智能的语音问答验证系统及其方法
JP2017167270A (ja) 音声処理装置および音声処理方法
US20020069064A1 (en) Method and apparatus for testing user interface integrity of speech-enabled devices
Rabiner et al. A voice-controlled, repertory-dialer system
EP1758351B1 (en) Method and system for enrolling addresses in a speech recognition database
US20080243498A1 (en) Method and system for providing interactive speech recognition using speaker data
MXPA96004051A (en) Method and system to register addresses in a database for recognition of ha
JP4408665B2 (ja) 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム
JP4741777B2 (ja) データベースのエントリを決定する方法
JP3465334B2 (ja) 音声対話装置及び音声対話方法
JPH10207486A (ja) 対話型音声認識方法およびこの方法を実施する装置
JP2002297189A (ja) トランスクリプション装置、トランスクリプション方法、トランスクリプションプログラム、およびそのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130628

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20140627

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20160629

Year of fee payment: 13

EXPY Expiration of term