KR100277105B1 - 음성 인식 데이터 결정 장치 및 방법 - Google Patents

음성 인식 데이터 결정 장치 및 방법 Download PDF

Info

Publication number
KR100277105B1
KR100277105B1 KR1019980006503A KR19980006503A KR100277105B1 KR 100277105 B1 KR100277105 B1 KR 100277105B1 KR 1019980006503 A KR1019980006503 A KR 1019980006503A KR 19980006503 A KR19980006503 A KR 19980006503A KR 100277105 B1 KR100277105 B1 KR 100277105B1
Authority
KR
South Korea
Prior art keywords
voice
data
value
threshold value
difference
Prior art date
Application number
KR1019980006503A
Other languages
English (en)
Other versions
KR19990071189A (ko
Inventor
박정규
Original Assignee
윤종용
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윤종용, 삼성전자주식회사 filed Critical 윤종용
Priority to KR1019980006503A priority Critical patent/KR100277105B1/ko
Priority to US09/260,188 priority patent/US6260012B1/en
Publication of KR19990071189A publication Critical patent/KR19990071189A/ko
Application granted granted Critical
Publication of KR100277105B1 publication Critical patent/KR100277105B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • H04B1/40Circuits
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition

Abstract

음성부호화기를 구비한 통신 단말기에서 음성 인식 데이터를 결정하는 방법에 있어서, 음성인식모드로 진입하는 제1과정과, 음성인식모드에서 소정의 음성이 입력되면 이를 패킷 형태로 처리하여 음성인식부로 전송하는 제2과정과, 상기 음성인식부로부터 미리 등록된 음성 특징과 가장 유사한 제1데이터 및 두 번째로 유사한 제2데이터와 그 각 데이터에 대응하는 제1 및 제2차이값을 전달받아 상기 제1 및 제2차이값의 차가 반영된 새로운 임계값을 계산하는 제3과정과, 상기 새로 계산한 임계값과 상기 제1차이값을 비교하여 상기 제1차이값이 작으면 해당 음성데이터에 대응하는 가청음이 스피커를 통해 재생되도록 하는 제4과정으로 이루어짐을 특징으로 한다.

Description

음성 인식 데이터 결정 장치 및 방법
본 발명은 음성부호화기(vocoder)를 구비한 통신 단말기(communication equipment)에서 음성을 인식하는 장치 및 방법에 관한 것으로, 특히 소정의 음성에 대한 인식의 신뢰도를 높일 수 있는 음성 인식 데이터 결정 장치 및 방법에 관한 것이다.
음성부호화기를 구비하고 음성을 인식하는 통신 단말기에는 코드분할 다중접속(Code Division Multiple Acess : 이하 CDMA라 함.)방식 전화기 등이 있다. 이러한 통신 단말기에서 이루어지는 통상적인 음성 인식 방법에 따르면, 사용자가 소정의 음성을 말하면 미리 등록된 데이터들중 그 음성과 특성이 가장 유사한 데이터를 찾아 인식 결과로 결정한다. 그러므로 등록은 되어 있더라도 특성 차이가 매우 적어 구분이 어려운 경우 잘못 인식하게 되기도 하고, 등록이 되어 있지 않은 데이터에 해당하는 음성이 입력되더라도 가장 유사한 데이터를 골라서 인식 결과로 결정함으로써 오류를 범하는 경우가 많았다.
이와 같은 문제점을 해소하기 위해 인식율을 높이면 후자와 같은 오류를 범할 확률이 높아지고, 오류 확률을 줄이면 인식율이 떨어지는 문제점이 있었다. 그 가장 큰 이유는 결정값을 상수로 함으로써 실제 발생하는 여러 가지 경우를 충실히 반영할 수 없기 때문이다.
사용자가 다이얼링하기를 원하는 상대방의 이름을 말하고 그때의 음성을 음성인식기에서 인식한다고 가정한다. 상기 음성인식기는 상기 음성(이름)의 특성을 분석하고, 미리 등록된 데이터들 및 차이값들중 가장 유사한 데이터(D1)와 그 데이터에 대응하는 차이값(E1) 그리고 두 번째 유사한 데이터(D2)와 그 데이터에 대응하는 차이값(E2) 그리고 세 번째 유사한 데이터(D3)과 그 데이터에 대응하는 차이값(E3)을 찾아 프로세서에 전달한다. 상기 프로세서는 상기 차이값들을 소정의 임계값과 비교하여 상기 임계값보다 보다 작은 차이값이 존재하면 정인식 되었다고 간주하고 해당 데이터를 인식데이터로서 결정한다. 이렇게 인식데이터를 결정하면 그 인식데이터를 스피커를 통해 재생한다. 반면에 상기 임계값보다 보다 작은 차이값이 존재하지 않으면 해당 음성에 대응되는 등록 데이터가 없는 것으로 간주한다.
상기 차이값에 대하여 부연 설명하면, 상기 차이값(E1)이 0이라면 상기 입력 음성이 미리 등록되어 있던 상기 데이터(D1)와 완벽히 동일한 것을 의미한다. 하지만 서로 조금씩 다른 음성신호가 입력되면 상기 차이값(E2)으로 중간값(예: 250)이 전달될 것이며, 완전히 다른 음성신호가 입력된 경우라면 상기 차이값(E3)으로 최대값(예: 1000)이 전달될 것이다. 결론적으로, 상기 차이값이 클수록 서로 다른 신호일 확률이 높다.
이처럼 소정의 음성을 인식한 결과(결정값)를 상수의 형태로 표시하고, 이를 다양한 조건(발음되는 데이터 고유의 특성, 개인차 등)에도 불구하고 일괄적으로 적용함으로써 오인식을 하거나 오류로 인식을 하지 못하는 경우가 많아지는 문제점을 해소하기 위해서는 적절한 보상이 이루어져야만 한다.
따라서 본 발명의 목적은 음성부호화기를 구비한 통신 단말기에서 음성 인식의 신뢰도를 높일 수 있는 음성 인식 데이터 결정 장치 및 방법을 제공함에 있다.
본 발명의 다른 목적은 셀룰러 전화기에서 음성 인식의 신뢰도를 높일 수 있는 음성 인식 데이터 결정 장치 및 방법을 제공함에 있다.
상기한 목적을 달성하기 위한 본 발명은 음성부호화기를 구비한 통신 단말기에서 음성 인식 데이터를 결정하는 방법에 있어서, 음성인식모드로 진입하는 제1과정과, 음성인식모드에서 소정의 음성이 입력되면 이를 패킷 형태로 처리하여 음성인식부로 전송하는 제2과정과, 상기 음성인식부로부터 미리 등록된 음성 특징과 가장 유사한 제1데이터 및 두 번째로 유사한 제2데이터와 그 각 데이터에 대응하는 제1 및 제2차이값을 전달받아 상기 제1 및 제2차이값의 차가 반영된 새로운 임계값을 계산하는 제3과정과, 상기 새로 계산한 임계값과 상기 제1차이값을 비교하여 상기 제1차이값이 작으면 해당 음성데이터에 대응하는 가청음이 스피커를 통해 재생되도록 하는 제4과정으로 이루어짐을 특징으로 한다.
제1도는 본 발명의 실시예에 따른 음성 인식 셀룰러 전화기의 구성도.
제2도는 본 발명의 제1실시예에 따른 음성 인식 셀룰러 전화기에서 음성 인식 데이터를 결정하는 방법을 나타낸 흐름도.
제3도는 본 발명의 제2 혹은 제3실시예에 따른 음성 인식 셀룰러 전화기에서 음성 인식 데이터를 결정하는 방법을 나타낸 흐름도.
제4도는 본 발명의 제4실시예에 따른 음성 인식 셀룰러 전화기에서 음성 인식 데이터를 결정하는 방법을 나타낸 흐름도.
이하 본 발명의 바람직한 실시예를 첨부한 도면을 참조하여 상세히 설명한다. 하기 설명에서는 구체적인 상수값 등과 같은 많은 특정(特定) 사항들이 나타나고 있는데, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐 이러한 특정 사항들 없이도 본 발명이 실시될 수 있음은 이 기술 분야에서 통상의 지식을 가길 자에게는 자명하다 할 것이다. 그리고 본 발명을 설명함에 있어, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1도는 본 발명의 실시예에 따른 셀룰러 전화기의 음성 인식 장치의 구성을 나타낸 것으로, RF(radio frequency)부와 DTMF(dual tone multu frequency)부 등 본 발명의 요지와 직접적인 관련이 없는 부분에 대해서는 도시 및 설명을 생략한다. 참조부호 100은 셀룰러 전화기 부분을 나타낸다.
마이크 30을 통해 입력된 아날로그 형태의 음성신호는 아날로그/디지털(analog to digital : 이하 A/D라 함.)변환부 20을 거쳐 디지털 형태의 펄스코드변조(Pulse Code Modulation: 이하 PCM이라 함.)신호로 변환된다. 상기 PCM신호는 음성부호화기 45에 전달되고, 상기 음성부호화기 45는 상기 PCM신호를 압축하여 패킷데이터를 출력한다. 상기 음성부호화기 45로는 예를 들어 CDMA방식 디지털 휴대용 전화기인 경우 8K QCELP(Qualcomm Code Excited Linear Prediction), GSM(Global System for Mobile communication)방식 디지털 휴대용 전화기인 경우 RPE-LTP(Regular Pulse Excitation with Long Term Prediction)방식의 것을 사용할 수 있다.
상기 음성부호화기 45에서 출력되는 패킷데이터는 디지털 휴대용 전화기의 전반적인 동작을 총괄적으로 제어하는 마이크로프로세서 50로 전달된다. 제1메모리 60은 비휘발성메모리[예: 플래쉬 메모리(flash memory), 이이피롬(EEPROM)]로서, 디지털 휴대용 전화기의 전반적인 동작을 총괄적으로 제어하는 프로그램 및 초기 서비스 데이터를 저장한다. 제2메모리 80은 램(RAM)으로서, 디지털 휴대용 전화기의 동작에 따른 각종 데이터를 일시적으로 저장한다. 음성인식부 85는 임의의 음성에 대한 특성 데이터를 출력한다. 상기 특성데이터는 초당 200바이트(byte)로 이루어지며, 해당 음성에 대한 주파수 특성이나 신호의 크기 및 크기 변화의 함수 등이다.
상기 음성인식부 85는 하드웨어적 혹은 소프트웨어적으로 구현할 수 있다. 상기 음성인식부 85가 소프트웨어적으로 구현된 것이면, 도시된 바와 같이 별도로 부가되지 않고 디지털 휴대용 전화기가 이미 구비하고 있던 상기 제1메모리 60에 저장될 수도 있다. 상기 마이크로프로세서 50는 공지의 디지털 휴대용 전화기의 동작을 제어함과 아울러 다음과 같은 음성인식제어 등작을 한다. 우선, 음성부호화기 45에서 출력되는 패킷데이터를 상기 음성인식부 85로 전달한다. 또한 상기 음성인식부 85에서 출력되는 특성 데이터 및 그 차이값에 따른 동작(예: 다이얼링)이 이루어지도록 제어한다. 또한 상기 마이크로프로세서 50는 음성 인식을 완료한 후 그 완료 사실을 사용자에게 알리기 위해 결정된 특성데이터에 대응하는 음성데이터를 읽어 상기 음성부호화기 45에 전달하고, 상기 음성부호화기 45는 상기 음성데이터를 PCM신호로 변환하여 디지털/아날로그(digital to analog: 이하 D/A라 함.)변환부 75로 전달한다. 상기 D/A변환부 75로 입력된 PCM신호는 아날로그 형태로 변환된 다음, 스피커 80을 통해 증폭되어 가청음으로 출력된다. 핸즈프리킷 연결부 500은 공지의 핸즈프리킷과 단말기의 연결 및 그때 핸즈프리킷 마이크를 통해서 입력된 음성을 상기 A/D변환부 20을 통해 디지털화하여 음성부호화기 45로 전달하는 역할을 한다.
제2도는 본 발명의 제1실시예에 따른 음성 인식 셀룰러 전화기에서 음성 인식 데이터를 결정하는 방법을 나타낸 흐름도이다. 사용자가 전화를 걸기(이는 인식의 한 예에 해당함.)위해 어떤 이름을 말한다고 가정한다.
사용자가 어떤 이름을 말하기에 앞서 대기상태인 디지털 휴대용 전화기의 특정 키를 입력하면 마이크로프로세서 50은 2a단계에서 이를 감지하고, 음성인식모드로 진입한다. 그리고 2b단계에서 소정 키의 입력을 체크하거나 기타 다른 상태 변화를 체크함으로써 사용자가 등록 혹은 인식중 어느 것을 원하는지 체크한다. 상기 2b단계에서의 체크결과 인식을 원하는 것으로 판단되면 2c단계에서 상기 사용자의 음성에 대응하여 음성부호화기 45에서 출력하는 패킷데이터가 입력되는지 체크한다. 상기 체크결과 입력되는 패킷데이터가 있으면, 2d단계에서 이를 음성인식부 85로 전달한다. 이후 2e단계에서 상기 음성인식부 85로부터 유사한 특성데이터의 인덱스와 차이값이 입력되는지 체크한다. 상기 특성데이터 인덱스는 이미 등록되어있는, 소정의 음성에 대한 특성데이터가 가지는 메모리내에서의 인덱스를 의미한다. 상기 차이값은 등록되어 있는 특성데이터들과 현재 입력된 음성의 특성데이터 사이의 차이에 해당하는 값이다. 상기 음성인식부 85에서는 현재 입력된 음성의 특정데이터와 제1메모리 60에 이미 등록되어 있는 유사 특성데이터들을 순차적으로 비교하여 가장 유사하다고 판단되는 것부터, 다시 말해서 차이값이 가장 적은 것부터 순서대로 몇 개만을 선택하여 그 특성데이터와 차이값을 함께 마이크로프로세서 50으로 전달한다.
마이크로프로세서 50은 상기 2f단계에서 유사한 특성데이터 인덱스와 차이값의 쌍이 둘 이상 입력되면, 2g단계에서 그 차이값들중 최소인 차이값이 미리 정한 임계치보다 작은지 여부를 판단한다. 상기 판단결과 임계치보다 작으면 해당 인식이 올바른 것으로 판단하고 2h단계로 진행하여 제1메모리 60으로부터 해당 특성데이터 인덱스에 대응하는 음성데이터를 읽어 음성부호화기 45로 송출하고, 옳지 않은 것이면 2i단계로 진행하여 안내메시지(예 : “다시 한번 얘기해주십시오.”)를 상기 제1메모리 60으로부터 읽어 상기 음성부호화기 45로 전달한다. 상기 음성부호화기 45는 상기 제1메모리 60으로부터 읽어낸 음성데이터 혹은 안내메시지를 처리하여 D/A변환부 75로 전달하게 되고, 아날로그 형태로 변환된 음성데이터 혹은 안내메시지는 스피커 80을 통해 가청 상태로 출력된다.
아울러, 등록시 입력 음성에 대응하는 전화번호를 제1메모리 60에 등록시켜 놓음으로써 인식의 성공시 상기 등록되어 있는 전화번호를 읽어내 DTMF발생부(도시하지 않음.)에 전달해 다이알링되도록 할 수 있다.
여기서 임계값은 올바르게 인식되었는지 여부를 판단하기 위한 값인데, 그 계산은 다음과 같이 한다.
예를 들어 음성인식부 85로부터 가장 유사한 데이터(D1)와 그 데이터에 대응하는 차이값(E1) 그리고 두 번째 유사한 데이터(D2)와 그 데이터에 대응하는 차이값(E2)을 제공받았다고 하면, 마이크로프로세서 50은 상기 두 차이값(E2, E1)의 차(E2-E1)를 구하여 새로운 임계값을 계산한다. 이때 상기 차이값의 차(E2-E1)에 가중치를 곱하여 오인식률과 오류확률의 관계를 변경할 수 있다. 상기 새로운 임계값은 다음 수학식 1과 같이 나타낼 수 있다.
[수학식 1]
임계값 = 임계값 + 가중치 × (E2-E1)
예를 들어 음성인식부 85로부터 첫 번째 유사한 데이터(D1)의 차이값(E1)으로 100, 두 번째 유사한 데이터(D2)의 차이값(E2)으로 150, 세 번째 유사한 데이터(D3)의 차이값(E3)으로 350을 전달받았고 이때 인식을 위한 임계값이 '60'이라고 가정하면, 상기 수학식 1에 의거 새로운 임계값은 '110'이 된다. 최소 차이값 '100'은 새로운 임계값 '110' 보다 작으므로 올바른 인식을 한 것으로 판단하여 데이터(D1)을 최종적으로 인식데이터로서 결정하게 된다.
다른 예를 들어 상기 음성인식부 85로부터 데이터(D1)의 차이값(E1)으로 80, 데이터(D2)의 차이값(E2)으로 90, 데이터(D3)의 차이값(E3)으로 350을 전달받았고 이때 인식을 위한 임계값이 '60'이라고 가정하면, 상기 수학식 1에 의거 새로운 임계값은 '70'이 된다. 최소 차이값 '80'은 상기 새로운 임계값 '70' 보다 작지 않으므로 등록된 특성데이터가 없는 것으로 판단한다. 다시 말해서, 상기 음성 인식의 결과는 '답없음'이 된다.
제3도는 본 발명의 제2 혹은 제3실시예에 따른 음성 인식 셀룰러 전화기에서 음성 인식 데이터를 결정하는 방법을 나타낸 흐름도이다.
본 제2실시예에 따르면, 각 음성데이터 엔트리(entry)당 하나 이상의 기억장소를 부가하여 평균값, 표준편차값 그리고 시도회수를 저장한 후 이를 바탕으로하여 새로운 임계값을 계산한다. 여기서 상기 표준편차값은 각 데이터의 변동치를 나타낸다. 상기 새로운 임계값은 다음 수학식 2 및 수학식 3과 같이 계산할 수 있다.
[수학식 2]
임계값 = 평균값 + 가증치 × 표준편차
[수학식 3]
임계값 = 상수 + 가중치 × 평균값
제3도를 참조하면, 사웅자가 어떤 이름을 말하기에 앞서 대기상태인 디지털 휴대용 전화기의 특정 키를 입력하면 마이크로프로세서 50은 3a단계에서 이를 감지하고, 음성인식모드로 진입한다. 그리고 3b단계에서 소정 키의 입력을 체크하거나 기타 다른 상태 변화를 체크함으로써 사용자가 등록 혹은 인식중 어느 것을 원하는지 체크한다. 상기 3b단계에서의 체크결과 인식을 원하는 것으로 판단되면 3c단계에서 상기 사용자의 음성에 대응하여 음성부호화기 45에서 출력하는 패킷데이터가 입력되는지 체크한다. 상기 체크결과 입력되는 패킷데이터가 있으면, 3d단계에서 이를 음성인식부 85로 전달한다. 이후 3e단계에서 마이크로프로세서 50은 상기 음성인식부 85로부터 유사한 특성데이터 인덱스와 차이값을 입력한다. 상기 음성인식부 85에서는 현재 입력된 음성의 특성데이터와 제1메모리 60에 이미 등록되어 있는 유사 특성데이터들을 순차적으로 비교하여 가장 유사하다고 판단되는 특성데이터의 인덱스와 차이값을 함께 마이크로프로세서 50으로 전달한다.
상기 특성데이터 인덱스와 차이값을 전달받은 마이크로프로세서 50은 3f단계에서 상기 차이값이 미리 정한 임계치보다 작은지 여부를 판단한다. 상기 판단결과 임계치보다 작으면 해당 인식이 올바른 것으로 판단하고 3g단계로 진행하여 제1메모리 60으로부터 해당 특성데이터 인덱스에 대응하는 음성데이터를 읽어 음성부호화기 45로 송출하고, 옳지 않은 것이면 3h단계로 진행하여 안내메시지를 상기 제1 메모리 60으로부터 읽어 상기 음성부호화기 45로 전달한다. 상기 음성부호화기 45는 상기 제1메모리 60으로부터 읽어낸 음성데이터 혹은 안내메시지를 처리하여 D/A변환부 75로 전달하게 되고, 아날로그 형태로 변환된 음성데이터 혹은 안내메시지는 스피커 80을 통해 가청 상태로 출력된다.
한편 상기 3g단계 수행후, 상기 마이크로프로세서 50은 3i단계에서 해당 엔트리별 누적평균값을 구한다. 그리고 3j단계로 진행하여 상기 엔트리별 누적평균값을 반영한 새로운 임계값을 계산하여 그 계산된 값을 임계값으로 갱신한 다음, 전술한 3a단계로 되돌아간다. 이렇게 되면 이후의 음성 인식에서는 상기 갱신된 임계값이 사용된다. 이는 해당 엔트리(본 실시예에서는 이름)의 특성 오차를 보상해주기 위한 것이다. 다시 말해서, 이름 '박정규'와 '흥길동'은 그 발음 차이가 분명하지만 '박정규'와 '박성규'는 그 차이가 크지 않다. 그러므로 어떤 사람이 하는 '박정규'라는 발음을 매번 '박정규'로 올바르게 인식할 수 있도록 하기 위해서는 그 허용되는 오차(예: 처음 발음했을 때와 두 번째 혹은 세 번째 발음했을 때 등)가 인식시에 잘 반영되어야 한다. 이를 위해 '박정규'라는 발음을 인식할 때마다 그때의 임계값을 이전 임계값에 누적하고 그 평균을 구해 새로운 임계값으로 갱신해나간다.
제3실시예에 따르면, 각 엔트리별 평균값으로부터 전체의 평균값을 구하고 표준편차를 구하며 이를 바탕으로 새로운 임계값을 계산한다. 이는 개인차를 보상하기 위한 것이다. 이러한 동작은 제3도의 3i단계 및 3j단계만 적절히 바꾸면 제3도에 의거 전술한 제2실시예와 마찬가지로 수행될 수 있으므로 별개의 도면으로 나타내지 않는다. 본 제3실시예에 따른 새로운 임계값의 계산은 다음 수학식 4 및 수학식 5와 같이 하면 된다.
[수학식 4]
임계값 = 총평균값 + 가중치 × 표준편차
[수학식 5]
임계값 = 상수 + 가중치 × 총평균값
제4도는 본 발명의 제4실시예에 따른 음성 인식 셀룰러 전화기에서 음성 인식 데이터를 결정하는 방법을 나타낸 흐름도이다.
본 제4실시예는 각각의 엔트리당 오인식이 발생할 때마다 그 회수를 기록해둠으로써 총 인식시도 회수중 오인식 회수가 차지하는 비율, 즉 오인식율을 계산한다. 그리고 상기 오인식율이 높으면 등록된 음성이 불량함을 의미하므로 해당 엔트리를 삭제하거나 재등록하도록 한다.
4a단계∼4h단계는 전술한 제3도의 3a단계∼3h단계와 동일한 동작을 나타내므로 상세한 설명을 생략한다.
4i단계에서 마이크로프로세서 50은 인식시도회수를 단위값 만큼 증가시킨다음, 4j단계에서 사용자의 응답 여부를 체크한다. 이때 만일 응답이 감지되지 않으면 4k단계로 진행하여 재시도 회수를 단위값(예: 1) 만큼 증가시킨 다음, 4l단계에서 오인식률을 계산한다. 그리고 4m단계에서 상기 계산된 오인식률을 미리 설정한 기준값(예 : 50%)과 비교한다. 상기 비교결과 상기 오인식률이 상기 기준값 보다 작으면 재인식을 할 수 있도록 상기 4a단계로 되돌아간다. 반면에 상기 계산된 오인식률이 상기 기준값 보다 작지 않으면 해당 음성데이터의 최초 등록 때 오류가 있었던 것으로 간주하고 재등록을 할 수 있도록 등록처리루틴으로 전이한다.
그런데 상기 4j단계에서 사용자의 응답이 감지되면 정상적인 인식으로 간주하여 상기 4a단계로 되돌아간다.
상기 오인식률은 상기 재시도회수를 상기 시도회수로 나눈 값이다.
한편 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도내에서 여러가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 않되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.
상술한 바와 같은 본 발명은 각각의 엔트리 차이값의 통계적 특성을 이용하여 오인식율을 줄이고, 미스(miss) 확률을 줄일 수 있다.

Claims (19)

  1. 음성 인식 셀룰러 전화기의 음성 인식 데이터 결정 장치에 있어서, 소정의 음성에 대한 특성데이터를 등록하는 제1영역, 상기 특성데이터에 대한 인식 때마다 그 시도회수를 저장하기 위한 제2영역, 해당 시도회수에서 구해진, 이전 시도회수까지 상기 제2영역에 저장된 일련의 임계값들에 대한 누적평균값을 저장하는 제3영역 및 소정의 임계값을 저장하는 제4영역을 가지는 메모리와 소정의 음성 입력에 대한 패킷데이터를 발생하는 음성부호화기와, 상기 음성부호화기에서 현재 전달된 패킷데이터를 분석하여 그 특성데이터를 발생하고, 상기 메모리에 이미 등록되어 있는 음성들의 특성데이터와 비교하여 유사한 것을 찾으면 그 찾은 특성데이터의 인덱스와 상기 발생한 특성데이터와 등록된 특성데이터의 차이값을 출력하는 음성인식부와, 상기 음성인식부에서 전달된 차이값을 소정의 임계값과 비교하여 상기 임계값 보다 상기 차이값이 작으면 상기 메모리로부터 상기 특성데이터의 인덱스에 대응되는 특성데이터를 독출하여 상기 음성부호화기에 전달하고, 그때까지 상기 특성데이터에 대한 인식 시도별 임계값들의 누적평균값을 구하여 상기 메모리의 제3영역에 저장하며, 상기 누적평균값을 상기 임계값에 반영하여 상기 제4영역의 임계값을 갱신하는 제어부로 구성되며, 상기 갱신되는 임계값은 소정의 가중치가 곱해진 표준편차에 상기 누적평균값을 더한 값임을 특징으로 하는 장치.
  2. 음성부호화기를 구비한 통신 단말기에서 음성 인식 데이터를 결정하는 방법에 있어서, 음성인식모드로 진입하는 제1과정과, 음성인식모드에서 소정의 음성이 입력되면 이를 패킷 형태로 처리하여 음성인식부로 전송하는 제2과정과, 상기 음성인식부로부터 미리 등록된 음성 특징과 가장 유사한 제1데이터 및 두 번째로 유사한 제2데이터와 그 각 데이터에 대응하는 제1 및 제2차이값을 전달받아 상기 제1 및 제2차이값의 차가 반영된 새로운 임계값을 계산하는 제3과정과, 상기 새로 계산한 임계값과 상기 제1차이값을 비교하여 상기 제1차이값이 작으면 해당 음성데이터에 대응하는 가청음이 스피커를 통해 재생되도록 하는 제4과정과, 상기 제4과정에서 상기 제1차이값이 새로 계산한 임계값 보다 작지 않으면 안내메시지를 출력하는 제5과정으로 이루어짐을 특징으로 하는 방법.
  3. 제2항에 있어서, 상기 새로 계산한 임계값은 상기 제1 및 제2 차이값의 차에 소정의 가중치를 곱한 값을 이전 임계값에서 더한 값과 동일함을 특징으로 하는 방법.
  4. 제2항 혹은 제3항중 어느 하나의 항에 있어서, 상기 제1차이값은 상기 제2차이값 보다 작은 값임을 특징으로 하는 방법.
  5. 음성 인식 셀룰러 전화기에서 음성 인식 데이터를 결정하는 방법에 있어서, 음성인식모드로 진입하는 제1과정과, 음성인식모드에서 소정의 음성이 입력되면 이를 패킷 형태로 처리하여 음성인식부로 전송하는 제2과정과, 상기 음성인식부로부터 미리 등록된 음성 특징과 가장 유사한 제1데이터 및 두 번째로 유사한 제2데이터와 그 각 데이터에 대응하는 제1 및 제2차이값을 전달받는 제3과정과, 미리 설정해놓은 소정의 임계값과 상기 제1차이값을 비교하여 상기 제1차이값이 작으면 해당 음성데이터에 대응하는 가청음이 스피커를 통해 재생되도록 하는 제4과정과, 상기 재생후 해당 음성데이터의 특징데이터 선택에 따른 오차를 보상하기 위해, 상기 음성데이터에 대한 과거의 인식 때마다 계산되었던 임계값들의 누적평균값을 계산하고 현재의 임계값에 상기 계산된 누적평균값을 반영하여 새로운 임계값을 설정한 다음 상기 제2과정으로 되돌아가는 제5과정으로 이루어짐을 특징으로 하는 방법.
  6. 제4항에 있어서, 상기 새로운 임계값은 소정의 가중치가 곱해진 표준편차에 현재의 임계값을 더한 값임을 특징으로 하는 방법.
  7. 제4항에 있어서, 상기 새로운 임계값은 소정의 가중치가 곱해진 표준편차에 상기 누적평균값을 더한 값임을 특징으로 하는 방법.
  8. 제5항에 있어서, 상기 새로운 임계값은 상기 누적평균값에 소정의 가중치를 곱한 값을 현재의 임계값에 더한 값임을 특징으로 하는 방법.
  9. 제5항 내지 제8항중 어느 하나의 항에 있어서, 상기 제4과정에서 상기 제1차이값이 상기 임계값 보다 작지 않으면 해당 음성데이터가 등록되어 있지 않음을 알리는 메시지를 출력하는 제6과정을 더 포함함을 특징으로 하는 방법.
  10. 음성 인식 셀룰러 전화기에서 음성 인식 데이터를 결정하는 방법에 있어서, 음성인식모드로 진입하는 제1과정과, 음성인식모드에서 소정의 음성이 입력되면 이를 패킷 형태로 처리하여 음성인식부로 전송하는 제2과정과, 상기 음성인식부로부터 미리 등록된 음성 특징과 가장 유사한 제1데이터 및 두 번째로 유사한 제2데이터와 그 각 데이터에 대응하는 제1 및 제2차이값을 전달받는 제3과정과, 상기 제1차이값을 미리 설정된 소정의 임계값과 비교하여 상기 제1차이값이 작으면 해당 음성데이터에 대응하는 가청음이 스피커를 통해 재생되도록 하는 제4과정과, 상기 재생후 사용자의 다양성에 따른 오차를 보상하기 위해, 등록된 모든 음성데이터에 대한 과거의 인식 때마다 계산되었던 임계값들의 누적평균값을 계산하고, 상기 계산된 누적평균값에 소정의 가중치를 곱한 값과 현재의 임계값을 더하여 새로운 임계값을 설정한 다음 상기 제2과정으로 되들아가는 제5과정으로 이루어짐을 특징으로 하는 방법.
  11. 제10항에 있어서, 상기 새로운 임계값은 소정의 가중치가 곱해진 표준편차에 상기 누적평균값을 더한 값임을 특징으로 하는 방법.
  12. 제10항에 있어서, 상기 새로운 임계값은 소정의 가중치가 곱해진 표준편차에 현재의 임계값을 더한 값임을 특징으로 하는 방법.
  13. 제10항에 있어서, 상기 새로운 임계값은 상기 누적평균값에 소정의 가중치를 곱한 값을 현재의 임계값에 더한 값임을 특징으로 하는 방법.
  14. 제10항 내지 제13항중 어느 하나의 항에 있어서, 상기 제4과정에서 상기 제1차이값이 상기 임계값 보다 작지 않으면 해당 음성데이터가 등록되어 있지 않음을 알리는 메시지를 출력하는 제6과정을 더 포함함을 특징으로 하는 방법.
  15. 음성 인식 셀룰러 전화기에서 음성 인식 데이터를 결정하는 방법에 있어서, 음성인식모드로 진입하는 제1과정과, 음성인식모드에서 소정의 음성이 입력되면 이를 패킷 형태로 처리하여 음성인식부로 전송하는 제2과정과, 상기 음성인식부로부터 미리 등록된 음성 특징과 가장 유사한 제1데이터 및 두 번째로 유사한 제2데이터와 그 각 데이터에 대응하는 제1 및 제2차이값을 전달받는 제3과정과, 상기 제1차이값을 미리 설정된 소정의 임계값과 비교하여 상기 제1차이값이 작으면 해당 음성데이터에 대응하는 가청음이 스피커를 통해 재생되도록 하는 제4과정과, 상기 재생후, 사용자의 응답 여부를 체크하여 응답이 감지되지 않으면 오인식률을 계산하여 그 계산된 오인식률이 미리 설정한 기준값 보다 작으면 재인식을 위해 상기 제2과정으로 되돌아가는 제5과정으로 이루어짐을 특징으로 하는 방법.
  16. 제15항에 있어서, 상기 제5과정에서 계산된 오인식률이 미리 설정한 기준값 보다 작지 않으면 해당 음성데이터의 최초 등록 때 오류가 있었던 것으로 것으로 간주하고 재등록을 할 수 있도록 등록처리루틴으로 진행하는 제6과정을 더 포함함을 특징으로 하는 방법.
  17. 제14항에 있어서, 상기 제5과정에서 사용자의 응답이 감지되면 정상적인 인식으로 간주하여 시도회수를 단위값만큼 증가시키고 상기 제2과정으로 되돌아가는 제7과정을 더 포함함을 특징으로 하는 방법.
  18. 제17항에 있어서, 상기 제5과정에서 사용자의 응답이 감지되지 않으면 상기 오인식률의 계산에 앞서 재시도회수를 단위값만큼 증가시키는 제5-1과정을 더 포함하여, 상기 재시도 회수를 상기 시도회수로 나눈 값을 상기 오인식률로 결정함을 특징으로 하는 방법.
  19. 제15항 내지 제18항중 어느 하나의 항에 있어서, 상기 제4과정에서 상기 제1차이값이 상기 임계값 보다 작지 않으면 해당 음성데이터가 등록되어 있지 않음을 알리는 메시지를 출력하는 제4-1과정을 더 포함함을 특징으로 하는 방법.
KR1019980006503A 1998-02-27 1998-02-27 음성 인식 데이터 결정 장치 및 방법 KR100277105B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1019980006503A KR100277105B1 (ko) 1998-02-27 1998-02-27 음성 인식 데이터 결정 장치 및 방법
US09/260,188 US6260012B1 (en) 1998-02-27 1999-03-01 Mobile phone having speaker dependent voice recognition method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019980006503A KR100277105B1 (ko) 1998-02-27 1998-02-27 음성 인식 데이터 결정 장치 및 방법

Publications (2)

Publication Number Publication Date
KR19990071189A KR19990071189A (ko) 1999-09-15
KR100277105B1 true KR100277105B1 (ko) 2001-01-15

Family

ID=19533963

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980006503A KR100277105B1 (ko) 1998-02-27 1998-02-27 음성 인식 데이터 결정 장치 및 방법

Country Status (2)

Country Link
US (1) US6260012B1 (ko)
KR (1) KR100277105B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7996218B2 (en) 2005-03-07 2011-08-09 Samsung Electronics Co., Ltd. User adaptive speech recognition method and apparatus

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100310339B1 (ko) * 1998-12-30 2002-01-17 윤종용 이동전화 단말기의 음성인식 다이얼링 방법
JP2000261537A (ja) * 1999-03-11 2000-09-22 Nec Saitama Ltd ダイヤルメモリ検索装置
US7260187B1 (en) * 1999-05-11 2007-08-21 Verizon Services Corp. Voice response apparatus and method of providing automated voice responses with silent prompting
WO2001008384A1 (fr) * 1999-07-28 2001-02-01 Mitsubishi Denki Kabushiki Kaisha Telephone cellulaire
KR20010019786A (ko) * 1999-08-30 2001-03-15 윤종용 이동통신 시스템에서 음성인식 및 문자표시 장치 및 방법
DE19948974A1 (de) * 1999-10-11 2001-04-12 Nokia Mobile Phones Ltd Verfahren zum Erkennen und Auswählen einer Tonfolge, insbesondere eines Musikstücks
DE19956747C1 (de) * 1999-11-25 2001-01-11 Siemens Ag Verfahren und Vorrichtung zur Spracherkennung sowie ein Telekommunikationssystem
US8121843B2 (en) * 2000-05-02 2012-02-21 Digimarc Corporation Fingerprint methods and systems for media signals
US7292678B2 (en) * 2000-08-31 2007-11-06 Lamson Holdings Llc Voice activated, voice responsive product locator system, including product location method utilizing product bar code and aisle-situated, aisle-identifying bar code
US6813341B1 (en) 2000-08-31 2004-11-02 Ivoice, Inc. Voice activated/voice responsive item locator
KR100383054B1 (ko) * 2000-09-08 2003-05-22 한태현 음성 인식 전화번호 안내 및 자동연결 방법과 그 시스템
KR100383053B1 (ko) * 2000-10-24 2003-05-22 한태현 이동전화용 음성 인식 전화번호 저장 및 안내, 자동연결방법 및 그 시스템
US8135589B1 (en) * 2000-11-30 2012-03-13 Google Inc. Performing speech recognition over a network and using speech recognition results
US6915262B2 (en) 2000-11-30 2005-07-05 Telesector Resources Group, Inc. Methods and apparatus for performing speech recognition and using speech recognition results
US7203651B2 (en) * 2000-12-07 2007-04-10 Art-Advanced Recognition Technologies, Ltd. Voice control system with multiple voice recognition engines
US6671354B2 (en) * 2001-01-23 2003-12-30 Ivoice.Com, Inc. Speech enabled, automatic telephone dialer using names, including seamless interface with computer-based address book programs, for telephones without private branch exchanges
US20030004720A1 (en) * 2001-01-30 2003-01-02 Harinath Garudadri System and method for computing and transmitting parameters in a distributed voice recognition system
US6941372B2 (en) * 2001-02-01 2005-09-06 Agere Systems Inc. Mobile community communicator
DE10122828A1 (de) * 2001-05-11 2002-11-14 Philips Corp Intellectual Pty Verfahren zum Training oder zur Adaption eines Spracherkenners
US7467087B1 (en) * 2002-10-10 2008-12-16 Gillick Laurence S Training and using pronunciation guessers in speech recognition
TW200409525A (en) * 2002-11-26 2004-06-01 Lite On Technology Corp Voice identification method for cellular phone and cellular phone with voiceprint password
DE10257475A1 (de) * 2002-12-09 2004-07-08 Infineon Technologies Ag Verfahren und Vorrichtung zum Ermitteln der Sprachverarbeitungs-Trennbarkeit zwischen einem ersten Wörterbucheintrag und einem zweiten Wörterbucheintrag, Sprachverarbeitungseinrichtung, Computerlesbares Speichermedium und Computerprogramm-Element
US7164934B2 (en) * 2003-01-30 2007-01-16 Hoyt Technologies, Inc. Mobile telephone having voice recording, playback and automatic voice dial pad
US20060080097A1 (en) * 2003-03-17 2006-04-13 Siemens Aktiengesellschaft Voice acknowledgement independent of a speaker while dialling by name
CN1303582C (zh) * 2003-09-09 2007-03-07 摩托罗拉公司 自动语音归类方法
KR100554442B1 (ko) * 2003-10-06 2006-02-22 주식회사 팬택앤큐리텔 음성인식 기능을 가진 이동 통신 단말기, 및 이를 위한음소 모델링 방법 및 음성 인식 방법
KR100664105B1 (ko) * 2003-12-04 2007-01-04 엘지전자 주식회사 휴대단말기의 음성 인식 방법
KR100704302B1 (ko) * 2003-12-19 2007-04-05 한국전자통신연구원 적응 훈련 기법에 의한 기준 데이터 구축 방법
US7826945B2 (en) * 2005-07-01 2010-11-02 You Zhang Automobile speech-recognition interface
KR100819848B1 (ko) * 2005-12-08 2008-04-08 한국전자통신연구원 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식장치 및 방법
US20070203701A1 (en) * 2006-02-14 2007-08-30 Intellectual Ventures Fund 21 Llc Communication Device Having Speaker Independent Speech Recognition
EP2092655A4 (en) * 2006-11-14 2012-01-25 Real Phone Card Corp METHOD AND DEVICE FOR COST-EFFECTIVE TELEPHONY
KR100897553B1 (ko) * 2007-01-04 2009-05-15 삼성전자주식회사 사용자의 기기 사용 패턴을 이용한 음성 인식 방법 및 장치
US20100178956A1 (en) * 2009-01-14 2010-07-15 Safadi Rami B Method and apparatus for mobile voice recognition training
US8515748B2 (en) * 2009-02-03 2013-08-20 International Business Machines Corporation Mobile phone communication gap recovery
WO2010120544A2 (en) * 2009-03-31 2010-10-21 Real Phone Card Corporation Method and apparatus for low cost handset with voice control
WO2013167934A1 (en) 2012-05-07 2013-11-14 Mls Multimedia S.A. Methods and system implementing intelligent vocal name-selection from directory lists composed in non-latin alphabet languages
US9691377B2 (en) 2013-07-23 2017-06-27 Google Technology Holdings LLC Method and device for voice recognition training
US9275638B2 (en) 2013-03-12 2016-03-01 Google Technology Holdings LLC Method and apparatus for training a voice recognition model database
US20140297709A1 (en) * 2013-03-27 2014-10-02 Xiaomi Inc. Method and mobile terminal for creating a contact
US9548047B2 (en) 2013-07-31 2017-01-17 Google Technology Holdings LLC Method and apparatus for evaluating trigger phrase enrollment
US10147417B2 (en) * 2016-10-03 2018-12-04 Avaya Inc. Electronic speech recognition name directory prognostication system by comparing a spoken name's packetized voice to stored phonemes
CN109559759B (zh) * 2017-09-27 2021-10-08 华硕电脑股份有限公司 具备增量注册单元的电子设备及其方法
US10777189B1 (en) * 2017-12-05 2020-09-15 Amazon Technologies, Inc. Dynamic wakeword detection
CN109584881B (zh) * 2018-11-29 2023-10-17 平安科技(深圳)有限公司 基于语音处理的号码识别方法、装置及终端设备
CN111693763B (zh) * 2020-05-22 2023-06-06 科华恒盛股份有限公司 针对模块化电气设备中功率模块的检测系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1299750C (en) * 1986-01-03 1992-04-28 Ira Alan Gerson Optimal method of data reduction in a speech recognition system
US4797929A (en) * 1986-01-03 1989-01-10 Motorola, Inc. Word recognition in a speech recognition system using data reduced word templates
US5371779A (en) 1992-03-13 1994-12-06 Nec Corporation Call initiating system for mobile telephone units
FI97919C (fi) 1992-06-05 1997-03-10 Nokia Mobile Phones Ltd Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten
US5991364A (en) * 1997-03-27 1999-11-23 Bell Atlantic Network Services, Inc. Phonetic voice activated dialing
US6003004A (en) * 1998-01-08 1999-12-14 Advanced Recognition Technologies, Inc. Speech recognition method and system using compressed speech data
US6134527A (en) * 1998-01-30 2000-10-17 Motorola, Inc. Method of testing a vocabulary word being enrolled in a speech recognition system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7996218B2 (en) 2005-03-07 2011-08-09 Samsung Electronics Co., Ltd. User adaptive speech recognition method and apparatus

Also Published As

Publication number Publication date
US6260012B1 (en) 2001-07-10
KR19990071189A (ko) 1999-09-15

Similar Documents

Publication Publication Date Title
KR100277105B1 (ko) 음성 인식 데이터 결정 장치 및 방법
EP0307193B1 (en) Telephone apparatus
US5960393A (en) User selectable multiple threshold criteria for voice recognition
CA2117932C (en) Soft decision speech recognition
EP0993728B1 (en) Cellular telephone with voice dialing function
US20060215821A1 (en) Voice nametag audio feedback for dialing a telephone call
EP1994529B1 (en) Communication device having speaker independent speech recognition
US6366649B1 (en) Method and apparatus for managing voice registration entries of voice recognition apparatus for use in both handset and hands-free kit
JPH0782351B2 (ja) 音声コマンドによりデジットシーケンスを入力するための方法
US6314166B1 (en) Method for dialling a telephone number by voice commands and a telecommunication terminal controlled by voice commands
US6788767B2 (en) Apparatus and method for providing call return service
KR100467593B1 (ko) 음성인식 키 입력 무선 단말장치, 무선 단말장치에서키입력 대신 음성을 이용하는 방법 및 그 기록매체
US20070129945A1 (en) Voice quality control for high quality speech reconstruction
KR100247009B1 (ko) 기능모드의음성인식이가능한디지털휴대용전화기및그인식방법
KR100264852B1 (ko) 디지털휴대용전화기의음성인식장치및방법
KR100291002B1 (ko) 음성인식디지털휴대용전화기에서통화종료및재다이얼링방법
US20020120446A1 (en) Detection of inconsistent training data in a voice recognition system
KR100811554B1 (ko) 음성 다이얼링 기능을 갖는 통신 단말기 및 음성 다이얼링방법
EP1385148B1 (en) Method for improving the recognition rate of a speech recognition system, and voice server using this method
KR20000003371A (ko) 휴대통신단말기에서 전화번호 안내 서비스 시 전화번호 표시장치 및 방법
KR100251714B1 (ko) 음성인식기능을갖는디지털휴대용전화기의등록음성재생및다이얼링방법
KR20000018942A (ko) 음성인식 디지털 휴대용 전화기에서 폰북 검색 방법
JPH11112633A (ja) 携帯電話
JPH02136898A (ja) 音声ダイヤリング装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120927

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20130927

Year of fee payment: 14

LAPS Lapse due to unpaid annual fee