KR100277105B1

KR100277105B1 - 음성 인식 데이터 결정 장치 및 방법

Info

Publication number: KR100277105B1
Application number: KR1019980006503A
Authority: KR
Inventors: 박정규
Original assignee: 윤종용; 삼성전자주식회사
Priority date: 1998-02-27
Filing date: 1998-02-27
Publication date: 2001-01-15
Also published as: KR19990071189A; US6260012B1

Abstract

음성부호화기를 구비한 통신 단말기에서 음성 인식 데이터를 결정하는 방법에 있어서, 음성인식모드로 진입하는 제1과정과, 음성인식모드에서 소정의 음성이 입력되면 이를 패킷 형태로 처리하여 음성인식부로 전송하는 제2과정과, 상기 음성인식부로부터 미리 등록된 음성 특징과 가장 유사한 제1데이터 및 두 번째로 유사한 제2데이터와 그 각 데이터에 대응하는 제1 및 제2차이값을 전달받아 상기 제1 및 제2차이값의 차가 반영된 새로운 임계값을 계산하는 제3과정과, 상기 새로 계산한 임계값과 상기 제1차이값을 비교하여 상기 제1차이값이 작으면 해당 음성데이터에 대응하는 가청음이 스피커를 통해 재생되도록 하는 제4과정으로 이루어짐을 특징으로 한다.

Description

음성 인식 데이터 결정 장치 및 방법

본 발명은 음성부호화기(vocoder)를 구비한 통신 단말기(communication equipment)에서 음성을 인식하는 장치 및 방법에 관한 것으로, 특히 소정의 음성에 대한 인식의 신뢰도를 높일 수 있는 음성 인식 데이터 결정 장치 및 방법에 관한 것이다.

음성부호화기를 구비하고 음성을 인식하는 통신 단말기에는 코드분할 다중접속(Code Division Multiple Acess : 이하 CDMA라 함.)방식 전화기 등이 있다. 이러한 통신 단말기에서 이루어지는 통상적인 음성 인식 방법에 따르면, 사용자가 소정의 음성을 말하면 미리 등록된 데이터들중 그 음성과 특성이 가장 유사한 데이터를 찾아 인식 결과로 결정한다. 그러므로 등록은 되어 있더라도 특성 차이가 매우 적어 구분이 어려운 경우 잘못 인식하게 되기도 하고, 등록이 되어 있지 않은 데이터에 해당하는 음성이 입력되더라도 가장 유사한 데이터를 골라서 인식 결과로 결정함으로써 오류를 범하는 경우가 많았다.

이와 같은 문제점을 해소하기 위해 인식율을 높이면 후자와 같은 오류를 범할 확률이 높아지고, 오류 확률을 줄이면 인식율이 떨어지는 문제점이 있었다. 그 가장 큰 이유는 결정값을 상수로 함으로써 실제 발생하는 여러 가지 경우를 충실히 반영할 수 없기 때문이다.

사용자가 다이얼링하기를 원하는 상대방의 이름을 말하고 그때의 음성을 음성인식기에서 인식한다고 가정한다. 상기 음성인식기는 상기 음성(이름)의 특성을 분석하고, 미리 등록된 데이터들 및 차이값들중 가장 유사한 데이터(D1)와 그 데이터에 대응하는 차이값(E1) 그리고 두 번째 유사한 데이터(D2)와 그 데이터에 대응하는 차이값(E2) 그리고 세 번째 유사한 데이터(D3)과 그 데이터에 대응하는 차이값(E3)을 찾아 프로세서에 전달한다. 상기 프로세서는 상기 차이값들을 소정의 임계값과 비교하여 상기 임계값보다 보다 작은 차이값이 존재하면 정인식 되었다고 간주하고 해당 데이터를 인식데이터로서 결정한다. 이렇게 인식데이터를 결정하면 그 인식데이터를 스피커를 통해 재생한다. 반면에 상기 임계값보다 보다 작은 차이값이 존재하지 않으면 해당 음성에 대응되는 등록 데이터가 없는 것으로 간주한다.

상기 차이값에 대하여 부연 설명하면, 상기 차이값(E1)이 0이라면 상기 입력 음성이 미리 등록되어 있던 상기 데이터(D1)와 완벽히 동일한 것을 의미한다. 하지만 서로 조금씩 다른 음성신호가 입력되면 상기 차이값(E2)으로 중간값(예: 250)이 전달될 것이며, 완전히 다른 음성신호가 입력된 경우라면 상기 차이값(E3)으로 최대값(예: 1000)이 전달될 것이다. 결론적으로, 상기 차이값이 클수록 서로 다른 신호일 확률이 높다.

이처럼 소정의 음성을 인식한 결과(결정값)를 상수의 형태로 표시하고, 이를 다양한 조건(발음되는 데이터 고유의 특성, 개인차 등)에도 불구하고 일괄적으로 적용함으로써 오인식을 하거나 오류로 인식을 하지 못하는 경우가 많아지는 문제점을 해소하기 위해서는 적절한 보상이 이루어져야만 한다.

따라서 본 발명의 목적은 음성부호화기를 구비한 통신 단말기에서 음성 인식의 신뢰도를 높일 수 있는 음성 인식 데이터 결정 장치 및 방법을 제공함에 있다.

본 발명의 다른 목적은 셀룰러 전화기에서 음성 인식의 신뢰도를 높일 수 있는 음성 인식 데이터 결정 장치 및 방법을 제공함에 있다.

상기한 목적을 달성하기 위한 본 발명은 음성부호화기를 구비한 통신 단말기에서 음성 인식 데이터를 결정하는 방법에 있어서, 음성인식모드로 진입하는 제1과정과, 음성인식모드에서 소정의 음성이 입력되면 이를 패킷 형태로 처리하여 음성인식부로 전송하는 제2과정과, 상기 음성인식부로부터 미리 등록된 음성 특징과 가장 유사한 제1데이터 및 두 번째로 유사한 제2데이터와 그 각 데이터에 대응하는 제1 및 제2차이값을 전달받아 상기 제1 및 제2차이값의 차가 반영된 새로운 임계값을 계산하는 제3과정과, 상기 새로 계산한 임계값과 상기 제1차이값을 비교하여 상기 제1차이값이 작으면 해당 음성데이터에 대응하는 가청음이 스피커를 통해 재생되도록 하는 제4과정으로 이루어짐을 특징으로 한다.

제1도는 본 발명의 실시예에 따른 음성 인식 셀룰러 전화기의 구성도.

제2도는 본 발명의 제1실시예에 따른 음성 인식 셀룰러 전화기에서 음성 인식 데이터를 결정하는 방법을 나타낸 흐름도.

제3도는 본 발명의 제2 혹은 제3실시예에 따른 음성 인식 셀룰러 전화기에서 음성 인식 데이터를 결정하는 방법을 나타낸 흐름도.

제4도는 본 발명의 제4실시예에 따른 음성 인식 셀룰러 전화기에서 음성 인식 데이터를 결정하는 방법을 나타낸 흐름도.

이하 본 발명의 바람직한 실시예를 첨부한 도면을 참조하여 상세히 설명한다. 하기 설명에서는 구체적인 상수값 등과 같은 많은 특정(特定) 사항들이 나타나고 있는데, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐 이러한 특정 사항들 없이도 본 발명이 실시될 수 있음은 이 기술 분야에서 통상의 지식을 가길 자에게는 자명하다 할 것이다. 그리고 본 발명을 설명함에 있어, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

제1도는 본 발명의 실시예에 따른 셀룰러 전화기의 음성 인식 장치의 구성을 나타낸 것으로, RF(radio frequency)부와 DTMF(dual tone multu frequency)부 등 본 발명의 요지와 직접적인 관련이 없는 부분에 대해서는 도시 및 설명을 생략한다. 참조부호 100은 셀룰러 전화기 부분을 나타낸다.

마이크 30을 통해 입력된 아날로그 형태의 음성신호는 아날로그/디지털(analog to digital : 이하 A/D라 함.)변환부 20을 거쳐 디지털 형태의 펄스코드변조(Pulse Code Modulation: 이하 PCM이라 함.)신호로 변환된다. 상기 PCM신호는 음성부호화기 45에 전달되고, 상기 음성부호화기 45는 상기 PCM신호를 압축하여 패킷데이터를 출력한다. 상기 음성부호화기 45로는 예를 들어 CDMA방식 디지털 휴대용 전화기인 경우 8K QCELP(Qualcomm Code Excited Linear Prediction), GSM(Global System for Mobile communication)방식 디지털 휴대용 전화기인 경우 RPE-LTP(Regular Pulse Excitation with Long Term Prediction)방식의 것을 사용할 수 있다.

상기 음성부호화기 45에서 출력되는 패킷데이터는 디지털 휴대용 전화기의 전반적인 동작을 총괄적으로 제어하는 마이크로프로세서 50로 전달된다. 제1메모리 60은 비휘발성메모리[예: 플래쉬 메모리(flash memory), 이이피롬(EEPROM)]로서, 디지털 휴대용 전화기의 전반적인 동작을 총괄적으로 제어하는 프로그램 및 초기 서비스 데이터를 저장한다. 제2메모리 80은 램(RAM)으로서, 디지털 휴대용 전화기의 동작에 따른 각종 데이터를 일시적으로 저장한다. 음성인식부 85는 임의의 음성에 대한 특성 데이터를 출력한다. 상기 특성데이터는 초당 200바이트(byte)로 이루어지며, 해당 음성에 대한 주파수 특성이나 신호의 크기 및 크기 변화의 함수 등이다.

상기 음성인식부 85는 하드웨어적 혹은 소프트웨어적으로 구현할 수 있다. 상기 음성인식부 85가 소프트웨어적으로 구현된 것이면, 도시된 바와 같이 별도로 부가되지 않고 디지털 휴대용 전화기가 이미 구비하고 있던 상기 제1메모리 60에 저장될 수도 있다. 상기 마이크로프로세서 50는 공지의 디지털 휴대용 전화기의 동작을 제어함과 아울러 다음과 같은 음성인식제어 등작을 한다. 우선, 음성부호화기 45에서 출력되는 패킷데이터를 상기 음성인식부 85로 전달한다. 또한 상기 음성인식부 85에서 출력되는 특성 데이터 및 그 차이값에 따른 동작(예: 다이얼링)이 이루어지도록 제어한다. 또한 상기 마이크로프로세서 50는 음성 인식을 완료한 후 그 완료 사실을 사용자에게 알리기 위해 결정된 특성데이터에 대응하는 음성데이터를 읽어 상기 음성부호화기 45에 전달하고, 상기 음성부호화기 45는 상기 음성데이터를 PCM신호로 변환하여 디지털/아날로그(digital to analog: 이하 D/A라 함.)변환부 75로 전달한다. 상기 D/A변환부 75로 입력된 PCM신호는 아날로그 형태로 변환된 다음, 스피커 80을 통해 증폭되어 가청음으로 출력된다. 핸즈프리킷 연결부 500은 공지의 핸즈프리킷과 단말기의 연결 및 그때 핸즈프리킷 마이크를 통해서 입력된 음성을 상기 A/D변환부 20을 통해 디지털화하여 음성부호화기 45로 전달하는 역할을 한다.

제2도는 본 발명의 제1실시예에 따른 음성 인식 셀룰러 전화기에서 음성 인식 데이터를 결정하는 방법을 나타낸 흐름도이다. 사용자가 전화를 걸기(이는 인식의 한 예에 해당함.)위해 어떤 이름을 말한다고 가정한다.

사용자가 어떤 이름을 말하기에 앞서 대기상태인 디지털 휴대용 전화기의 특정 키를 입력하면 마이크로프로세서 50은 2a단계에서 이를 감지하고, 음성인식모드로 진입한다. 그리고 2b단계에서 소정 키의 입력을 체크하거나 기타 다른 상태 변화를 체크함으로써 사용자가 등록 혹은 인식중 어느 것을 원하는지 체크한다. 상기 2b단계에서의 체크결과 인식을 원하는 것으로 판단되면 2c단계에서 상기 사용자의 음성에 대응하여 음성부호화기 45에서 출력하는 패킷데이터가 입력되는지 체크한다. 상기 체크결과 입력되는 패킷데이터가 있으면, 2d단계에서 이를 음성인식부 85로 전달한다. 이후 2e단계에서 상기 음성인식부 85로부터 유사한 특성데이터의 인덱스와 차이값이 입력되는지 체크한다. 상기 특성데이터 인덱스는 이미 등록되어있는, 소정의 음성에 대한 특성데이터가 가지는 메모리내에서의 인덱스를 의미한다. 상기 차이값은 등록되어 있는 특성데이터들과 현재 입력된 음성의 특성데이터 사이의 차이에 해당하는 값이다. 상기 음성인식부 85에서는 현재 입력된 음성의 특정데이터와 제1메모리 60에 이미 등록되어 있는 유사 특성데이터들을 순차적으로 비교하여 가장 유사하다고 판단되는 것부터, 다시 말해서 차이값이 가장 적은 것부터 순서대로 몇 개만을 선택하여 그 특성데이터와 차이값을 함께 마이크로프로세서 50으로 전달한다.

마이크로프로세서 50은 상기 2f단계에서 유사한 특성데이터 인덱스와 차이값의 쌍이 둘 이상 입력되면, 2g단계에서 그 차이값들중 최소인 차이값이 미리 정한 임계치보다 작은지 여부를 판단한다. 상기 판단결과 임계치보다 작으면 해당 인식이 올바른 것으로 판단하고 2h단계로 진행하여 제1메모리 60으로부터 해당 특성데이터 인덱스에 대응하는 음성데이터를 읽어 음성부호화기 45로 송출하고, 옳지 않은 것이면 2i단계로 진행하여 안내메시지(예 : “다시 한번 얘기해주십시오.”)를 상기 제1메모리 60으로부터 읽어 상기 음성부호화기 45로 전달한다. 상기 음성부호화기 45는 상기 제1메모리 60으로부터 읽어낸 음성데이터 혹은 안내메시지를 처리하여 D/A변환부 75로 전달하게 되고, 아날로그 형태로 변환된 음성데이터 혹은 안내메시지는 스피커 80을 통해 가청 상태로 출력된다.

아울러, 등록시 입력 음성에 대응하는 전화번호를 제1메모리 60에 등록시켜 놓음으로써 인식의 성공시 상기 등록되어 있는 전화번호를 읽어내 DTMF발생부(도시하지 않음.)에 전달해 다이알링되도록 할 수 있다.

여기서 임계값은 올바르게 인식되었는지 여부를 판단하기 위한 값인데, 그 계산은 다음과 같이 한다.

예를 들어 음성인식부 85로부터 가장 유사한 데이터(D1)와 그 데이터에 대응하는 차이값(E1) 그리고 두 번째 유사한 데이터(D2)와 그 데이터에 대응하는 차이값(E2)을 제공받았다고 하면, 마이크로프로세서 50은 상기 두 차이값(E2, E1)의 차(E2-E1)를 구하여 새로운 임계값을 계산한다. 이때 상기 차이값의 차(E2-E1)에 가중치를 곱하여 오인식률과 오류확률의 관계를 변경할 수 있다. 상기 새로운 임계값은 다음 수학식 1과 같이 나타낼 수 있다.

[수학식 1]

임계값 = 임계값 + 가중치 × (E2-E1)

예를 들어 음성인식부 85로부터 첫 번째 유사한 데이터(D1)의 차이값(E1)으로 100, 두 번째 유사한 데이터(D2)의 차이값(E2)으로 150, 세 번째 유사한 데이터(D3)의 차이값(E3)으로 350을 전달받았고 이때 인식을 위한 임계값이 '60'이라고 가정하면, 상기 수학식 1에 의거 새로운 임계값은 '110'이 된다. 최소 차이값 '100'은 새로운 임계값 '110' 보다 작으므로 올바른 인식을 한 것으로 판단하여 데이터(D1)을 최종적으로 인식데이터로서 결정하게 된다.

다른 예를 들어 상기 음성인식부 85로부터 데이터(D1)의 차이값(E1)으로 80, 데이터(D2)의 차이값(E2)으로 90, 데이터(D3)의 차이값(E3)으로 350을 전달받았고 이때 인식을 위한 임계값이 '60'이라고 가정하면, 상기 수학식 1에 의거 새로운 임계값은 '70'이 된다. 최소 차이값 '80'은 상기 새로운 임계값 '70' 보다 작지 않으므로 등록된 특성데이터가 없는 것으로 판단한다. 다시 말해서, 상기 음성 인식의 결과는 '답없음'이 된다.

제3도는 본 발명의 제2 혹은 제3실시예에 따른 음성 인식 셀룰러 전화기에서 음성 인식 데이터를 결정하는 방법을 나타낸 흐름도이다.

본 제2실시예에 따르면, 각 음성데이터 엔트리(entry)당 하나 이상의 기억장소를 부가하여 평균값, 표준편차값 그리고 시도회수를 저장한 후 이를 바탕으로하여 새로운 임계값을 계산한다. 여기서 상기 표준편차값은 각 데이터의 변동치를 나타낸다. 상기 새로운 임계값은 다음 수학식 2 및 수학식 3과 같이 계산할 수 있다.

[수학식 2]

임계값 = 평균값 + 가증치 × 표준편차

[수학식 3]

임계값 = 상수 + 가중치 × 평균값

제3도를 참조하면, 사웅자가 어떤 이름을 말하기에 앞서 대기상태인 디지털 휴대용 전화기의 특정 키를 입력하면 마이크로프로세서 50은 3a단계에서 이를 감지하고, 음성인식모드로 진입한다. 그리고 3b단계에서 소정 키의 입력을 체크하거나 기타 다른 상태 변화를 체크함으로써 사용자가 등록 혹은 인식중 어느 것을 원하는지 체크한다. 상기 3b단계에서의 체크결과 인식을 원하는 것으로 판단되면 3c단계에서 상기 사용자의 음성에 대응하여 음성부호화기 45에서 출력하는 패킷데이터가 입력되는지 체크한다. 상기 체크결과 입력되는 패킷데이터가 있으면, 3d단계에서 이를 음성인식부 85로 전달한다. 이후 3e단계에서 마이크로프로세서 50은 상기 음성인식부 85로부터 유사한 특성데이터 인덱스와 차이값을 입력한다. 상기 음성인식부 85에서는 현재 입력된 음성의 특성데이터와 제1메모리 60에 이미 등록되어 있는 유사 특성데이터들을 순차적으로 비교하여 가장 유사하다고 판단되는 특성데이터의 인덱스와 차이값을 함께 마이크로프로세서 50으로 전달한다.

상기 특성데이터 인덱스와 차이값을 전달받은 마이크로프로세서 50은 3f단계에서 상기 차이값이 미리 정한 임계치보다 작은지 여부를 판단한다. 상기 판단결과 임계치보다 작으면 해당 인식이 올바른 것으로 판단하고 3g단계로 진행하여 제1메모리 60으로부터 해당 특성데이터 인덱스에 대응하는 음성데이터를 읽어 음성부호화기 45로 송출하고, 옳지 않은 것이면 3h단계로 진행하여 안내메시지를 상기 제1 메모리 60으로부터 읽어 상기 음성부호화기 45로 전달한다. 상기 음성부호화기 45는 상기 제1메모리 60으로부터 읽어낸 음성데이터 혹은 안내메시지를 처리하여 D/A변환부 75로 전달하게 되고, 아날로그 형태로 변환된 음성데이터 혹은 안내메시지는 스피커 80을 통해 가청 상태로 출력된다.

한편 상기 3g단계 수행후, 상기 마이크로프로세서 50은 3i단계에서 해당 엔트리별 누적평균값을 구한다. 그리고 3j단계로 진행하여 상기 엔트리별 누적평균값을 반영한 새로운 임계값을 계산하여 그 계산된 값을 임계값으로 갱신한 다음, 전술한 3a단계로 되돌아간다. 이렇게 되면 이후의 음성 인식에서는 상기 갱신된 임계값이 사용된다. 이는 해당 엔트리(본 실시예에서는 이름)의 특성 오차를 보상해주기 위한 것이다. 다시 말해서, 이름 '박정규'와 '흥길동'은 그 발음 차이가 분명하지만 '박정규'와 '박성규'는 그 차이가 크지 않다. 그러므로 어떤 사람이 하는 '박정규'라는 발음을 매번 '박정규'로 올바르게 인식할 수 있도록 하기 위해서는 그 허용되는 오차(예: 처음 발음했을 때와 두 번째 혹은 세 번째 발음했을 때 등)가 인식시에 잘 반영되어야 한다. 이를 위해 '박정규'라는 발음을 인식할 때마다 그때의 임계값을 이전 임계값에 누적하고 그 평균을 구해 새로운 임계값으로 갱신해나간다.

제3실시예에 따르면, 각 엔트리별 평균값으로부터 전체의 평균값을 구하고 표준편차를 구하며 이를 바탕으로 새로운 임계값을 계산한다. 이는 개인차를 보상하기 위한 것이다. 이러한 동작은 제3도의 3i단계 및 3j단계만 적절히 바꾸면 제3도에 의거 전술한 제2실시예와 마찬가지로 수행될 수 있으므로 별개의 도면으로 나타내지 않는다. 본 제3실시예에 따른 새로운 임계값의 계산은 다음 수학식 4 및 수학식 5와 같이 하면 된다.

[수학식 4]

임계값 = 총평균값 + 가중치 × 표준편차

[수학식 5]

임계값 = 상수 + 가중치 × 총평균값

제4도는 본 발명의 제4실시예에 따른 음성 인식 셀룰러 전화기에서 음성 인식 데이터를 결정하는 방법을 나타낸 흐름도이다.

본 제4실시예는 각각의 엔트리당 오인식이 발생할 때마다 그 회수를 기록해둠으로써 총 인식시도 회수중 오인식 회수가 차지하는 비율, 즉 오인식율을 계산한다. 그리고 상기 오인식율이 높으면 등록된 음성이 불량함을 의미하므로 해당 엔트리를 삭제하거나 재등록하도록 한다.

4a단계∼4h단계는 전술한 제3도의 3a단계∼3h단계와 동일한 동작을 나타내므로 상세한 설명을 생략한다.

4i단계에서 마이크로프로세서 50은 인식시도회수를 단위값 만큼 증가시킨다음, 4j단계에서 사용자의 응답 여부를 체크한다. 이때 만일 응답이 감지되지 않으면 4k단계로 진행하여 재시도 회수를 단위값(예: 1) 만큼 증가시킨 다음, 4l단계에서 오인식률을 계산한다. 그리고 4m단계에서 상기 계산된 오인식률을 미리 설정한 기준값(예 : 50%)과 비교한다. 상기 비교결과 상기 오인식률이 상기 기준값 보다 작으면 재인식을 할 수 있도록 상기 4a단계로 되돌아간다. 반면에 상기 계산된 오인식률이 상기 기준값 보다 작지 않으면 해당 음성데이터의 최초 등록 때 오류가 있었던 것으로 간주하고 재등록을 할 수 있도록 등록처리루틴으로 전이한다.

그런데 상기 4j단계에서 사용자의 응답이 감지되면 정상적인 인식으로 간주하여 상기 4a단계로 되돌아간다.

상기 오인식률은 상기 재시도회수를 상기 시도회수로 나눈 값이다.

한편 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도내에서 여러가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 않되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.

상술한 바와 같은 본 발명은 각각의 엔트리 차이값의 통계적 특성을 이용하여 오인식율을 줄이고, 미스(miss) 확률을 줄일 수 있다.

Claims

음성 인식 셀룰러 전화기의 음성 인식 데이터 결정 장치에 있어서, 소정의 음성에 대한 특성데이터를 등록하는 제1영역, 상기 특성데이터에 대한 인식 때마다 그 시도회수를 저장하기 위한 제2영역, 해당 시도회수에서 구해진, 이전 시도회수까지 상기 제2영역에 저장된 일련의 임계값들에 대한 누적평균값을 저장하는 제3영역 및 소정의 임계값을 저장하는 제4영역을 가지는 메모리와 소정의 음성 입력에 대한 패킷데이터를 발생하는 음성부호화기와, 상기 음성부호화기에서 현재 전달된 패킷데이터를 분석하여 그 특성데이터를 발생하고, 상기 메모리에 이미 등록되어 있는 음성들의 특성데이터와 비교하여 유사한 것을 찾으면 그 찾은 특성데이터의 인덱스와 상기 발생한 특성데이터와 등록된 특성데이터의 차이값을 출력하는 음성인식부와, 상기 음성인식부에서 전달된 차이값을 소정의 임계값과 비교하여 상기 임계값 보다 상기 차이값이 작으면 상기 메모리로부터 상기 특성데이터의 인덱스에 대응되는 특성데이터를 독출하여 상기 음성부호화기에 전달하고, 그때까지 상기 특성데이터에 대한 인식 시도별 임계값들의 누적평균값을 구하여 상기 메모리의 제3영역에 저장하며, 상기 누적평균값을 상기 임계값에 반영하여 상기 제4영역의 임계값을 갱신하는 제어부로 구성되며, 상기 갱신되는 임계값은 소정의 가중치가 곱해진 표준편차에 상기 누적평균값을 더한 값임을 특징으로 하는 장치.
음성부호화기를 구비한 통신 단말기에서 음성 인식 데이터를 결정하는 방법에 있어서, 음성인식모드로 진입하는 제1과정과, 음성인식모드에서 소정의 음성이 입력되면 이를 패킷 형태로 처리하여 음성인식부로 전송하는 제2과정과, 상기 음성인식부로부터 미리 등록된 음성 특징과 가장 유사한 제1데이터 및 두 번째로 유사한 제2데이터와 그 각 데이터에 대응하는 제1 및 제2차이값을 전달받아 상기 제1 및 제2차이값의 차가 반영된 새로운 임계값을 계산하는 제3과정과, 상기 새로 계산한 임계값과 상기 제1차이값을 비교하여 상기 제1차이값이 작으면 해당 음성데이터에 대응하는 가청음이 스피커를 통해 재생되도록 하는 제4과정과, 상기 제4과정에서 상기 제1차이값이 새로 계산한 임계값 보다 작지 않으면 안내메시지를 출력하는 제5과정으로 이루어짐을 특징으로 하는 방법.
제2항에 있어서, 상기 새로 계산한 임계값은 상기 제1 및 제2 차이값의 차에 소정의 가중치를 곱한 값을 이전 임계값에서 더한 값과 동일함을 특징으로 하는 방법.
제2항 혹은 제3항중 어느 하나의 항에 있어서, 상기 제1차이값은 상기 제2차이값 보다 작은 값임을 특징으로 하는 방법.
음성 인식 셀룰러 전화기에서 음성 인식 데이터를 결정하는 방법에 있어서, 음성인식모드로 진입하는 제1과정과, 음성인식모드에서 소정의 음성이 입력되면 이를 패킷 형태로 처리하여 음성인식부로 전송하는 제2과정과, 상기 음성인식부로부터 미리 등록된 음성 특징과 가장 유사한 제1데이터 및 두 번째로 유사한 제2데이터와 그 각 데이터에 대응하는 제1 및 제2차이값을 전달받는 제3과정과, 미리 설정해놓은 소정의 임계값과 상기 제1차이값을 비교하여 상기 제1차이값이 작으면 해당 음성데이터에 대응하는 가청음이 스피커를 통해 재생되도록 하는 제4과정과, 상기 재생후 해당 음성데이터의 특징데이터 선택에 따른 오차를 보상하기 위해, 상기 음성데이터에 대한 과거의 인식 때마다 계산되었던 임계값들의 누적평균값을 계산하고 현재의 임계값에 상기 계산된 누적평균값을 반영하여 새로운 임계값을 설정한 다음 상기 제2과정으로 되돌아가는 제5과정으로 이루어짐을 특징으로 하는 방법.
제4항에 있어서, 상기 새로운 임계값은 소정의 가중치가 곱해진 표준편차에 현재의 임계값을 더한 값임을 특징으로 하는 방법.
제4항에 있어서, 상기 새로운 임계값은 소정의 가중치가 곱해진 표준편차에 상기 누적평균값을 더한 값임을 특징으로 하는 방법.
제5항에 있어서, 상기 새로운 임계값은 상기 누적평균값에 소정의 가중치를 곱한 값을 현재의 임계값에 더한 값임을 특징으로 하는 방법.
제5항 내지 제8항중 어느 하나의 항에 있어서, 상기 제4과정에서 상기 제1차이값이 상기 임계값 보다 작지 않으면 해당 음성데이터가 등록되어 있지 않음을 알리는 메시지를 출력하는 제6과정을 더 포함함을 특징으로 하는 방법.
음성 인식 셀룰러 전화기에서 음성 인식 데이터를 결정하는 방법에 있어서, 음성인식모드로 진입하는 제1과정과, 음성인식모드에서 소정의 음성이 입력되면 이를 패킷 형태로 처리하여 음성인식부로 전송하는 제2과정과, 상기 음성인식부로부터 미리 등록된 음성 특징과 가장 유사한 제1데이터 및 두 번째로 유사한 제2데이터와 그 각 데이터에 대응하는 제1 및 제2차이값을 전달받는 제3과정과, 상기 제1차이값을 미리 설정된 소정의 임계값과 비교하여 상기 제1차이값이 작으면 해당 음성데이터에 대응하는 가청음이 스피커를 통해 재생되도록 하는 제4과정과, 상기 재생후 사용자의 다양성에 따른 오차를 보상하기 위해, 등록된 모든 음성데이터에 대한 과거의 인식 때마다 계산되었던 임계값들의 누적평균값을 계산하고, 상기 계산된 누적평균값에 소정의 가중치를 곱한 값과 현재의 임계값을 더하여 새로운 임계값을 설정한 다음 상기 제2과정으로 되들아가는 제5과정으로 이루어짐을 특징으로 하는 방법.
제10항에 있어서, 상기 새로운 임계값은 소정의 가중치가 곱해진 표준편차에 상기 누적평균값을 더한 값임을 특징으로 하는 방법.
제10항에 있어서, 상기 새로운 임계값은 소정의 가중치가 곱해진 표준편차에 현재의 임계값을 더한 값임을 특징으로 하는 방법.
제10항에 있어서, 상기 새로운 임계값은 상기 누적평균값에 소정의 가중치를 곱한 값을 현재의 임계값에 더한 값임을 특징으로 하는 방법.
제10항 내지 제13항중 어느 하나의 항에 있어서, 상기 제4과정에서 상기 제1차이값이 상기 임계값 보다 작지 않으면 해당 음성데이터가 등록되어 있지 않음을 알리는 메시지를 출력하는 제6과정을 더 포함함을 특징으로 하는 방법.
음성 인식 셀룰러 전화기에서 음성 인식 데이터를 결정하는 방법에 있어서, 음성인식모드로 진입하는 제1과정과, 음성인식모드에서 소정의 음성이 입력되면 이를 패킷 형태로 처리하여 음성인식부로 전송하는 제2과정과, 상기 음성인식부로부터 미리 등록된 음성 특징과 가장 유사한 제1데이터 및 두 번째로 유사한 제2데이터와 그 각 데이터에 대응하는 제1 및 제2차이값을 전달받는 제3과정과, 상기 제1차이값을 미리 설정된 소정의 임계값과 비교하여 상기 제1차이값이 작으면 해당 음성데이터에 대응하는 가청음이 스피커를 통해 재생되도록 하는 제4과정과, 상기 재생후, 사용자의 응답 여부를 체크하여 응답이 감지되지 않으면 오인식률을 계산하여 그 계산된 오인식률이 미리 설정한 기준값 보다 작으면 재인식을 위해 상기 제2과정으로 되돌아가는 제5과정으로 이루어짐을 특징으로 하는 방법.
제15항에 있어서, 상기 제5과정에서 계산된 오인식률이 미리 설정한 기준값 보다 작지 않으면 해당 음성데이터의 최초 등록 때 오류가 있었던 것으로 것으로 간주하고 재등록을 할 수 있도록 등록처리루틴으로 진행하는 제6과정을 더 포함함을 특징으로 하는 방법.
제14항에 있어서, 상기 제5과정에서 사용자의 응답이 감지되면 정상적인 인식으로 간주하여 시도회수를 단위값만큼 증가시키고 상기 제2과정으로 되돌아가는 제7과정을 더 포함함을 특징으로 하는 방법.
제17항에 있어서, 상기 제5과정에서 사용자의 응답이 감지되지 않으면 상기 오인식률의 계산에 앞서 재시도회수를 단위값만큼 증가시키는 제5-1과정을 더 포함하여, 상기 재시도 회수를 상기 시도회수로 나눈 값을 상기 오인식률로 결정함을 특징으로 하는 방법.
제15항 내지 제18항중 어느 하나의 항에 있어서, 상기 제4과정에서 상기 제1차이값이 상기 임계값 보다 작지 않으면 해당 음성데이터가 등록되어 있지 않음을 알리는 메시지를 출력하는 제4-1과정을 더 포함함을 특징으로 하는 방법.