KR100868709B1

KR100868709B1 - 불리한 환경에서 동양 문자를 위한 하이브리드키패드/음성 인식 테크닉

Info

Publication number: KR100868709B1
Application number: KR1020010081533A
Authority: KR
Inventors: 창-한 후앙
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2000-12-22
Filing date: 2001-12-20
Publication date: 2008-11-13
Also published as: CN1360301A; JP2002268680A; JP4230142B2; KR20020051842A; TW533404B; CN1224955C

Abstract

불리한 환경에서, PDA, 이동 전화, 전자 사전, 및 전자 시계와 같이 적은 수의 키패드 및/또는 소량의 메모리를 지닌 소형 전자 디바이스를 위한 고도로 정확한, 동양 언어, 이를테면 중국어를 입력하는 방법 및 디바이스가 개시되어 있다. 이는 각 다음절의 중국 문자를 고립된 성조의 음절로 발언함으로써 이루어지는데, 여기서 상기 고립된 성조 음절의 모음 및 자음은 불리한 환경에서, 병음(pin-yin) 발음{기본 단위(sub-word) 유닛}, 예컨대 자음의 음향 실현으로부터 비롯된 모호함을 추가로 해결하기 위하여, 구체적으로 지정된 키패드 중 하나, 예컨대 음절의 첫번째 음소(자음 또는 모음)를 담고 있는 키를 누르는(a keystroke) 동안에 자동 음성 인식에 의해 분리된다. 만약 모호함이 여전히 존재한다면, 한 음절의 제 2 또는 제 3 병음 발음을 누르는 것이 필수적이다. 키패드 디자인은 각 키패드 내에서의 음소의 유사성 비율이 최소화되고 키들 간의 병음 발음의 유사성 비율이 최대가 되는 데이터 구동 방식으로 되어 있다.

Description

불리한 환경에서 동양 문자를 위한 하이브리드 키패드/음성 인식 테크닉{HYBRID KEYPAD/SPEECH RECOGNITION TECHNIQUE FOR ORIENTAL CHARACTERS IN ADVERSE ENVIRONMENTS}

도 1은 종래의 대어휘-연속-음성 인식(LVCSR:Large-Vocabulary-Continuous-Speech Recognition) 시스템의 개략적인 블록도.

도 2는 본 발명에 따른 병음(pin-yin) 문자를 위한 하이브리드 키패드/음성 인식 테크닉을 채택하는 전자 디바이스의 개략적인 예시도.

도 3은 도 2에 도시된 전자 디바이스에 채택된 하이브리드 키패드/음성 인식 시스템의 개략적인 블록도.

도 4는 도 3에 사용된 숫자 키패드를 통한 키 입력으로써 보조된 동양 언어로 된 음성을 인식하는 방법의 흐름도.

본 발명은 음성 신호 처리에 관한 것으로, 더 구체적으로는, 제한된 메모리 양을 지닌 핸드-헬드(hand-held)의, 소형 전자 디바이스에서의 동양 언어, 이를테면 표준 중국어(Mandarin Chinese), 일본어, 한국어 등의 자동 음성 인식(ASR: automatic speech recognition)에 관한 것이다.

자동 음성 인식(ASR)용 테크닉은 수십년 동안 개발되어 왔다. 일 예가 개인용 컴퓨터에 사용되는 대어휘-연속 음성 인식(LVCSR) 시스템이다. 도 1을 참조하면, 상기 LVCSR 시스템(1)은 특징을 뽑아내기 위해, 스펙트럼 분석 블록(15) 및 피치 분석(16)을 포함하는 음향 프론트-엔드(front-end)와, 신호를 인식하기 위한 문맥 의존 모델링을 언어 모델링과 함께 지닌 발음 사전을 전형적으로 사용한다. VCSR 시스템(1) 용 연산 및 메모리 부하는 문맥 의존 모델링 및 언어 모델링 둘 모두에 대해 처리될 다수의 파라미터로 인해서 극도로 높다. 소량의 메모리를 가지는 소형 디바이스, 이를테면 개인용 디지털 보조 장치(PDA: personal digital assistant), 이동 전화, 무선(wireless) 전화, 및 전자 사전 등에 사용되는 종래의 음성 인식 테크닉에 대해, 음향 특징 및 음성식(phonetic)/사전식(lexical) 모델은 코드집(codebook) 디자인과 함께 음성 입력 패턴을 인식하는 데에 전형적으로 활용된다. 이러한 테크닉은 동양 언어, 이를테면 표준 북경어, 일본어, 한국어 등에 특히 쓸모가 있다. LVCSR 시스템(1)은 개인용 컴퓨터 사용자를 위해 개발되고 발전되어 왔으나, 음향 특징, 즉 음성 인식기의 센서가 불리한 환경에 존재하는 배경 잡음에 의해 오염되기 쉽다는 결점을 여전히 가지고 있다. 반면에, LVCSR 시스템(1)의 감소된 인식 에러율은 주로 입력 단어의 순차 정보(knowledge), 즉 지정 언어의(language-specific) 화자가 가장 빈번히 사용하는 소위 언어 모델링으로부터 기인한다. 그리하여, LVCSR 시스템(1)은 불가피하게 다량의 메모리 기억 장소와, 상기 입력 단어의 순차를 처리하기 위한 연산 수고를 요한다. 따라서, LVCSR 시스템(1)은 특히 불리한 환경에서, 소량의 메모리를 갖는 소형 전자 디바이스에 대해서는 적합하지 않다.

불리한 환경에서 채택되는 종래의 LVCSR 테크놀로지를 관찰해본 결과, 본 발명의 발명자는 성능 저하 없이 연속 음성에서는 언어 모델을 산출해 나가는 것이 어렵다는 것을 깨달았는데, 즉, 고립된 음성의 인식이 연속 음성의 인식보다 더 쉬우며, 고립된 음성에서의 모음의 인식은 자음보다 더 쉽고, 중국 문자를 ZHU-YIN{주음(注音)} 발음으로 분석하는 것이 상대적으로 쉬우며 이는 대다수의 표준 중국어 화자, 예컨대 대만 및 홍콩에서 교육받은 화자들이 ZHU-YIN 발음에 친숙하기 때문이라는 것을 깨달았다. 전형적으로, 하나 내지 세 개의 병음(pin-yin) 발음이 하나의 중국어 문자를 위해 사용된다. 일반적으로, 동양 언어의 일부, 이를테면 중국어, 일본어, 및 한국어 등은 고립된 음성으로 S-- 쉬고--S--쉬고--S--쉬고--S--쉬고--...와 같은 음절 구조를 가지며, 여기서 S는 음절을 표시한다. 당업자는 알겠지만, 상기 음절 구조는 S = (C) + V라는 특성을 가지며, 여기서 C는 자음을 표시하고, V는 모음을 표시하며, C는 한국어, 일본어 및 중국어를 위한 선택 사항이다.

중국 문자에 관한 한, 약 20,000개의 보편적으로 사용되는 문자가 존재한다. 이들 중국 문자는 약 400개의 음절과 약 1400개의 서로 다른 발음을 가지는데, 성조(tonal) 음절이라고 불린다. 이들 성조 음절은 V + T 또는 C + V + T의 특정 구조를 지니는데, 여기서 V는 모음을 표시하고, C는 자음을 표시하며, T는 성조를 표시한다. 음성 인식 분야의 당업자는 알겠지만, 서로 다른 자음의 전력 스펙트럼에 비추어 보아, 서로 다른 자음의 음향 실현(또는 전력 스펙트럼) 사이에는 모호함이 많다고 쉽게 결론이 난다. 종래의 ASR 테크닉에 대해, 인식 에러율은 주로 자음의 음향 실현의 불안정성에 기인한다. 음향 실현의 안정성 및 자음의 모델 공동 조음(coarticulation)을 높이도록 제안된 접근법의 하나는 모델 유닛을 문맥 의존 음(phones)으로서 선택하는 것이다. 문맥-의존 음을 모델링하지 않고서는, 자음의 음향 실현의 불안정성 성질은 단어 에러율의 증가를 초래할 가능성이 매우 높다. 인식 단어 에러율을 줄이도록 제안된 또 다른 접근법은 일상 언어에서 일반적으로 사용되는 단어 순차의 정보, 즉 소위 언어 모델링을 채택하는 것이다. 언어 모델링의 사용은 불리한 환경에서 ASR 테크닉, 이를테면 전화용 대화 시스템의 중요한 인자인데, 그 이유는 불리한 환경에서의 문맥 의존 자음의 음향 실현은 명확한 음성과 비교해 보면, 훨씬 불안정해지기 때문이다. 그러나, 상기 문맥 의존 음 모델링의 불리한 점은 그것의 모델 복잡도가 높다는 것이며 많은 수의 통계 파라미터(전형적으로 100K 바이트)이 트레이닝 되어 RAM과 같은 휘발성 메모리에 저장될 필요가 있다(통계학적 방법론에 의한 추정). 또 다른 방법은 전단어(whole word) 모델링을 사용하는 것이다. 그러나, 이는 또한 모델 복잡도를 인자 300만큼 증가시킬 것이다. 게다가, LVCSR 시스템(1)을 위한 언어 모델링의 메모리 사용(N-그램, N=2,3)(전형적으로 10,000개의 단어를 가짐)은 극도로 높으며 계산적으로 비싸다. 따라서, 핸드-헬드 전자 디바이스에는 그것의 고유의 연산 및 메모리 제한으로 인하여 실현 가능하지 않다.

고립된 음성에서 모음을 쉽게 인식한다는 것에 기초하여, 고립된 음성에서 모음을 인식하기 위해 일반적으로(currently) 이용 가능한 음성 인식 테크닉에 의존하는 것이 신뢰성이 있다. 성조에 관해서는, 음성의 음향 특징이 충분한 정보를 제공하여 서로 다른 성조를 구별할 수 있다. 자음의 구별에 대한 것과 같이 이것은, 일반적인 음성 인식 테크닉의 아킬레스건에 해당하는데, 특히 음성의 음향 특징이 불리한 환경에서 잡음으로 오염될 때 그렇다.

본 발명의 첫번째 장점은 복수의 키 각각 내에 그룹 지어진 복수의 음소의 제곱 거리의 합(즉, 음향 특징 공간에서의 차이점 측정치) 대 복수의 키 가운데 복수의 음소의 제곱 거리의 합의 비가 최대화되게 핸드-헬드 전자 디바이스의 복수의 키(key) 내에 동양 언어의 자음 및 모음을 포함하여, 복수의 음소를 그룹 짓는 방법을 제공하는 것이다.

본 발명의 두번째 장점은 동양 문자를, 복수의 키로 이루어진 숫자 키패드와, 음성 입력 디바이스를 구비한 전자 디바이스에 입력하는 방법을 제공하는 것으로, 여기서 상기 동양 언어의 적어도 하나의 음소는 자음 및 모음을 포함하여, 상기 주장된 그룹 짓는 방법에 따라 복수의 키 각각에 할당되며, 상기 복수의 키 각각의 위 또는 부근에 가시적으로 나타내어지며, 여기서 상기 동양 문자를 나타내는 음성은 사용자에 의해서 구술되고 상기 오디오 입력 수단에 의해 수신되며, 사용자가 상기 동양 문자 각각을 고립된 음성 모드로 발언할 때마다 사용자는 상기 동양 문자 각각에 대응하는 음소의, 대개 자음인 첫번째 음소를 나타내는 키를 순차적으로 누르며, 대응하는 동양 문자는 순차적으로 키로 입력된(keyed-in) 자음에 기초 하여 선택된다.

본 발명의 세번째 장점은 동양 언어로 구술된 음성을 입력할 수 있어서, 하이브리드 키패드/음성 인식을 통해 상기 구술된 음성을 나타내는 동양 문자를 인식하는 전자 디바이스를 제공하는 것이며, 여기서 상기 전자 디바이스는 오디오 입력 디바이스 및 상기 방법에 따라 그룹 지어진 복수의 키를 갖춘 숫자 키패드를 구비한다. 전자 디바이스에서, 음성 인식 디바이스는 숫자 키패드를 통해 키로 입력된 음소의 순차 및 구술된 음성에 기초하여 구술된 음성으로부터 동양 문자를 인식해서, 동양 문자가 불리한 환경에서 효율적인 방식으로 전자 디바이스에 입력될 수 있게 한다.

본 발명의 네번째 장점은 상기 전자 디바이스에서 사용된 숫자 키패드를 통해 키 입력으로써 보조된 동양 언어로 된 음성을 인식하는 방법을 제공하는 것이다.

본 발명의 다섯번째 장점은 프로세서로 하여금 상기 인식 방법을 수행하게 하도록 작동하는 컴퓨터 제품을 제공하는 것이다.

본 발명은 아래에 제공된 상세한 설명 및 첨부된 도면으로부터 좀 더 완전히 이해될 것이며, 상기 도면은 오직 예시를 위한 것일 뿐으로, 따라서 제한적이지는 않다.

(실시예)

본 발명은 핸드-헬드 디바이스를 위한 매우 정확한, 하이브리드 키패드/ASR 구조를 지향하며, 다음의 상황을 고려한다.

(1) 불리한 환경에서의 종래의 음성 인식 테크놀로지의 결함. 예를 들면, 음성의 음향 특징은 변동하는 잡음(non-stationary noise) 및 채널 효과로 인해 충분히 견실하지 못하다. 그 밖에, 종래의 테크놀로지, 이를테면 전단어 모델링, 문맥-의존 음(phone) 모델링, 및 트리그램(trigram) 언어 모델링의 연산 및 메모리 부하가 너무 높다.

(2) 고립된 음성으로의 한국어, 일본어 및 중국어 언어의 일부 동양 언어 특징에 대한 음절 구조. 즉, (C) + V, 쉼, (C) + V, 쉼, (C) + V,..., 여기서 C는 자음을 표시하고, V는 모음을 표시하며, C는 한국어, 일본어 및 중국어를 위한 선택 사항이다.

본 발명은 표준 중국어 언어의 예로써 설명되고 예시될 것이다. 그러나, 당업자는 첨부된 청구항의 범위를 이탈하지 않고 본 발명의 원리 및 사상이 다른 동양 언어, 이를테면 일본어, 한국어, 광동어에도 적용된다는 것을 인식할 것이다.

도 2는 본 발명의 바람직한 실시예에 따른 핸드-헬드 전자 디바이스(20)에 대한 하이브리드 키패드/음성 인식 구조를 도시한다. 도 2에서, 빈번히 사용되는 키패드 디바이스(22) 상의 열 두개의 숫자 키, 이를테면 0 내지 9, *, 및 #는 본 발명에 의해 중국어의 ZHU-YIN(注音) 표기(기본적으로 37개의 BoPoMoFo 음으로 이루어짐)를 가시적으로 나타내도록 특별히 할당되며, 아래에 상세히 설명될 것이다. 당 분야에서 잘 알려진 바와 같이, 키패드 디바이스(22)는 또한 핸드-헬드 전자 디바이스(20)의 스크린(23) 상의 터치 패널이 될 수도 있는데, 거기에서 상기 열 두 키는 스크린(23) 상에 아이콘으로 도시된다. 동작 시, 전자 디바이스(20)의 사용자 는 고립된 음성(음성 안에 쉼이 들어가 있음)을 내는 것이 바람직한데, 상기 음성은 마이크로폰(21)에 의해 접수되고, 음절이 발언될 때마다 고립된 음성 안의 각 음절의 첫번째 병음 음소(대개 자음임)를 제공하는 키패드 디바이스(22)의 하나의 키를 실질적으로 동시에 누른다.

이제 도 3을 참조하면, 수신된 음성 신호는 이어서 A/D 변환기(24)를 통해 디지털로 샘플링되고 스펙트럼 분석 블록(25) 및 피치 분석 블록(26)으로 보내진다. 당업자에게 잘 알려진 바와 같이, 마이크로폰(21)은 A/D 변환기(24) 내에 병합되어 내장형 A/D 변환기를 지닌 디지털 마이크로폰을 형성할 수 있다. 블록(25)에서, 상기 샘플링된 음성 신호는 폭이 균일하고 시간 상 중첩되는(overlapped) 다수의 분석 게이트로 세그먼트화 된다. 이어서, 각 분석 게이트는 해밍(hamming) 윈도우라고 불리는, 음성 분석에서 일반적으로 사용되는 핵(kernel)에 의해 곱셈된다. 각 분석 게이트에서 샘플링된 음성 신호의 고속 푸리에 변형(FFT: Fast Fourier Transform)이 계산되어 상기 분석 게이트에서 샘플링된 음성 신호의 스펙트럼을 생성하고, 이어서 제곱되어 전력 스펙트럼을 낳고 스펙트럼의, 음향학적 특징을 형성한다. 그 외에, 상기 구술된 고립 음성의 성조 특징은 동양의 성조 언어, 이를테면 표준 중국어, 광동어, 타이어, 대만어 등에 대해 피치 분석 블록(26)을 통하여 샘플링된 음성 신호로부터 뽑아내어 진다. 피치 분석 블록(26)은 동양의 무성조(toneless) 언어, 이를테면 일본어 및 한국어에 대해서는 사용되지 않는다. 첫번째 키 하나를 누르는 행동을 사용자가 취하는 것은 키패드 디바이스(22)로부터의 인에이블/데이터 신호(30)로써 이 후에 표시되는 바와 같이, 음향 매치 블록(27), 고립된 음절 매치 블록(28) 및 베스트 가설 매치 블록(29)에 의한 상기 샘플링된 음성 신호의 처리의 시작 또한 표시한다. 상기 인에이블/데이터 신호(30)로써 표시된 바와 같이, 구술된 음성으로 구성된 각 음절의, 대개 자음인 음소의 정보는 상기 음향 매치 블록(27)으로 보내져서 음절의 인식을 가속시키며, 그로써 전자 디바이스(20)의 연산 부하를 줄인다. 유사하게, 고립된 음절 매칭 블록(28)은 음향 매칭 블록(27)으로부터의 각 음절 및 키패드 디바이스(22)를 통해 순차적으로 키 입력된(keyed-in) 음소(자음)에 기초하여 상기 구술된 음성 내에서, 복수의 음절로 이루어진 각 단어의 인식을 가속시킬 수 있다.

본 발명의 바람직한 실시예에 따라, 고립된 음성(음성 내에 쉼이 존재함) 모드가 바람직한데, 특히 불리한 환경에서의 ASR에 대해 그러하다. 즉, 전자 디바이스(20)의 사용자가 낸 고립된 음성이 본 발명에 따라 더 신뢰성이 있다. 또한, 본 발명의 바람직한 실시예에 따라, 구술된 각 다음절 단어에 대해, 고립된 음절 모드가 바람직하다. 즉, 다음절 단어 내의 음절 사이 사이에 쉼(pause)이 존재하여, 각 음절은 불리한 환경에서 인식하기가 더 쉽다. 본 발명의 바람직한 실시예에 따라, 각 구술된 고립된 음절에 대하여, 마이크로폰(21)에 대고 말할 때 상기 고립된 음절로 구성된 대응하는 자음(또는 모음)을 키패드 디바이스(22)를 통해 수작업으로 입력하는 것이 바람직하며, 특히 한국어, 일본어 및 중국어와 같이, 단순한 음절 구조, 즉 S=(C)+V의 구조를 지니는 언어에 대해서 그러하다. 상기 기술한 바와 같이, 그 이유는 불리한 환경에서 자음은 종래의 음성 인식 테크닉에 의해 식별되기가 상대적으로 어렵기 때문이다.

본 발명에 따라, 사용자가 키패드 디바이스(22)에 수작업으로 입력하는 것은 (i) 구술된 고립 음성이 음향 매치 블록(27)에 의해서 처리될 때; (ii) 고립된 음절 매치(28)에 의해 처리될 대응하는 구술된 고립 음절의 자음(이는 한국인, 일본인 및 중국인이 식별하기가 상대적으로 간단하다)을; 그리고 (iii) 베스트 가설 매치 블록(28)에 의해 처리될 키패드 디바이스(22) 안의 브라우징(browsing) 기능 키, 이를테면 스크롤 키 "<" 및 ">" 등을 통해 준동형(homomorphism)(즉, 발음이 같은 서로 다른 문자들, 이를테면 중국어에서

및

)의 후보 리스트로부터 원하는 음절을 제공할 수 있다.

위의 것이 주어지면, 본 발명에 따라, 전자 디바이스(20)에서 사용되는 키패드 디바이스(22)를 통해 키 입력으로써 보조된 동양 언어로 된 음성을 인식하는 방법이 도 4에 도시되어 있다. 도 4를 참조하면, 단계(41)에서, 사용자가 구술한 음성을 나타내는 음성 신호는 마이크로폰(21)에 의해서 입력된다. 단계(42)에서, 상기 음성 신호의 음성 특징은 스펙트럼 분석 블록(25) 및 피치 분석 블록(26)에 의해 뽑아진다. 단계(43)에서, 구술된 음성 안의 각 음절의 첫번째 음소와 대응하는 키(key) 정보는 사용자가 각 음절을 발언할 때 키패드 디바이스(22)를 통해 수신된다. 단계(44)에서, 구술된 음성의 각 음절은 상기 음성 신호의 음성 특징 및 단계(43)에서 수신된 순차적으로 키로 입력된 음소에 기초하여 음향 매치 블록(27)에 의해 인식된다. 단계(45)에서, 구술된 음성 내에서, 복수의 음절로 이루어진 각 단어는 단계(44)에서 인식된 각 음절 및 단계(43)에서 수신된 순차적으로 키로 입력된 음소에 기초하여 고립된 음절 매치 블록(28)에 의해 인식된다.

본 발명에 따라, 상기 인식 방법은 소프트웨어 형태의 컴퓨터-판독 가능한 매체에 기록될 수 있다. 게다가, 컴퓨터 제품은 그리하여, 전자 디바이스(20)의 프로세서로 하여금 상기 인식 방법을 수행하도록 작동한다.

표준 중국어의 37개의 ZHU-YIN (BoPoMoFo, 注音) 음소는 다음과 같이 주어진다:

본 발명에 따라, 표준 중국어의 상기 37개의 ZHU-YIN 표기는 데이터 구동 양식, 즉 중국어 문자의 음향학적 데이터베이스에 기초한 "역 선형 판별 분석(ILDA: inverse of linear discriminant analysis)"으로 키패드 디바이스의 열 두 키에 할당된다. 바람직하게는, 본 발명의 방법에 따라, 이는 키패드 디바이스(22) 안의 각 키 내에 그룹 지어진 자음 및 모음을 포함하는 수 개의 음소의 제곱 거리의 합(즉, 음향 특징 공간에서의 차이점 측정치) 대 키패드 디바이스(22)의 키 가운데 상기 음소의 제곱 거리의 합의 비를 최대화함으로써 될 수 있다. 다른 말로는, 키를 누르는 것이 갖는 효율을 보증하기 위하여 표준 중국어의 37개의 ZHU-YIN 표기를 키패드 디바이스(22) 안의 키에 할당하는 본 발명의 기준은 다음과 같이 요약된다.

- 37개의 ZHU-YIN 표기의 음향 특징 공간에서의 차이점 측정치는 키패드 디바이스(22) 안의 각 키 내에서 최대화된다.(본 발명에 따라, 대개 3 내지 4 개의 음소가 하나의 키에 할당되는데, 이릍테면 키 "1"에

및

가 할당된다). 이러한 최대화는 도 3에 도시된 ASR 시스템이 각 눌러진 키로써 나타내어진 그룹의 음소로부터 특정 음절/음소를 인식하는 것이 상대적으로 쉽다는 것을 보증할 수 있다.

- 키패드 디바이스(22) 안의 키 가운데에서 37개의 ZHU-YIN 표기의 음향 특징 공간에서의 차이점 측정치(본 발명에 따라 키 "2" 안에

, 키 "3" 안에

, 그리고 키 "6" 안에

)가 최소화된다. 이러한 최소화는 가장 모호한 소리(음소)가 키를 눌러서 식별됨을 보증할 수 있다.

키패드 디바이스(22)에 37개의 ZHU-YIN 표기의 분화된(specialized) 할당의 일 예가 도 2에 도시되어 있으며, 다음과 같이 주어진다.

키 ZHU-YIN

본 발명의 동작에 대한 일 예로서, 본 발명의 독창적인 하이브리드/키패드/음성 인식 방식에 기초하여 마이크로폰(21) 및 키패드 디바이스(22) 둘 모두를 통해 전자 디바이스(20)에

(당신 누구에요?)와 같은 다음절의 단어를 입력시키려고 의도하자 마자, 사용자는 고립된 음절 모드로 고립된 음성 "

---(쉼)------(쉼)---

---(쉼)---"을 먼저 발음하며, 상기 고립된 음성의 각 음절은 마이크로 폰(21)에 의해 순차적으로 수신된다. 사용자가 쉼 사이 사이의 각 음절을 발음할 때마다, 사용자는 그 때 상기 음절의 자음(만약 쓸 수 있다면, 한편으로 모음)을 누를 수 있다. 이는 상술한 바와 같이, 본 발명인이 불리한 환경에서 채택되는 현행 음성 인식 테크놀로지로부터 고립된 음성에서 자음보다 모음을 인식하는 것이 더 쉽다는 것을 목격하기 때문이며, 따라서 자음이 사용자가 키를 눌러 지정되어 구술된 고립 음성의 인식율을 높이는 것이 바람직하다. 예를 들어, 사용자는 중국 문자

(당신, ZUH-YIN으로

)을 위한 자음

를 나타내는 키 "#"를 직각적으로 누를 수 있다. 유사하게, 사용자는 중국 문자 "

"(...이다, ZUH-YIN으로 "

")을 위한 자음

을 나타내는 키 "3"를 누를 수 있으며, 중국 문자 "

"(누구, ZUH-YIN으로

)을 위한 자음

을 나타내는 키 "3"를 다시 누를 수 있다. 상술한 바와 같이, 상기 성조 고립된 음성에서의 성조 특징은 피치 분석 블록(26)에 의해 검색되고 이어서 음향 매치 블록(27), 고립된 음절 매치 블록(28), 및 베스트 가설 매치 블록(29)에 의해 순차적으로 분석된다. 따라서, 표준 중국어의 네 개의 성조 메이커

을 위해 할당된 성조 키(들)는 본 발명에 따라 전자 디바이스(20)에 꼭 필요한 것은 아니다.

게다가, 상기 경우에서, 사용자가 중간에 쉬어 가면서 각 음절을 발언하고 상기 음절의 자음을 나타내는 키를 동시에 누를 때마다, 수 개의 준동형(즉, 발음이 같은 서로 다른 문자)가 스크린(23) 위의 후보 리스트에 도시된다(도 2에 도시되지 않음). 그리고 나서, 사용자는 키패드 디바이스(22) 안의 스크롤 키, 이를테 면 "<" 및 ">" 및 "OK" 키(도시되지 않음)를 사용하여 원하는 중국어 문자를 선택할 수 있다. 이렇게, 상기 세 개의 중국 문자를 전자 디바이스(20)에 입력하기 위해서, 사용자는 상기 스크롤 키 및 "OK" 키와는 관계없이 종래의 테크닉에서의 적어도 6 내지 8개의 키(각 문자에 대해 적어도 두 개의 키 누름)보다는 오히려 3개의 키만을 누르면 된다. 당 기술에서 잘 알려져 있듯이, 고립된 음성에서의 동종형은 문맥 의존 학습 테크닉에 따라서 자동적으로 선택될 수 있다. 따라서, 본 발명에 따라, 불리한 환경에서 동양 언어를 입력하기에 효율적인 키 누름은 본 발명의 키 배분 및 음성 인식 방법 둘 모두에 의해서 달성될 수 있다.

본 발명의 바람직한 실시예에서, 고립되어 구술된 음절 구조에서 대응하는 자음을 나타내는 키(들)를 누름으로써, 음절 간의 모호함이 효과적으로 많이 줄여질 수 있어서, 어떠한 추가적 연산 부하 또는 메모리 사용을 초래하지 않으면서도 인식 에러율이 상당히 감소된다. 본 발명은 불리한 환경에서 사용되고 한국어, 일본어 및 중국어 등을 키패드 및 마이크로폰 둘 모두를 통해 입력할 수 있는 핸드-헬드 전자 디바이스에 대해 특히 적절한데, 그 이유는 이들 언어 모두가 단순한 음절 구조, 즉 S=(C)+V를 지니기 때문이며, 여기서 S는 특정 음절을 나타내고, C/V는 해당 자음/모음을 나타낸다.

비록 본 발명이 표준 중국어의 바람직한 실시예에 관하여 개시되었지만, 상기 개시는 본 발명을 한정하려는 의도는 아니다. 그러한 동양 언어, 이를테면 일본어, 한국어(무성조 언어), 타이어, 베트남어(성조 언어) 역시 본 발명을 채택할 수 있다. 게다가, 비록 본 발명의 예시된 실시예가 중국어에 관계된 것이긴 하지만, 키패드 디바이스(22)의 열 두개 숫자 키에 37개의 ZHU-YIN 표기를 할당하는 원리는 다른 라틴 언어, 이를테면 영어에도 적용할 수 있다. 예를 들어, 라틴 언어, 이를테면 영어의 복수의 음소의 음향 특징 공간을 얻어, 데이터 구동 방식에서 키패드 디바이스(22)의 각 키 내에 그룹 지어진 복수의 음소의 제곱 거리의 합(즉, 음향 특징 공간에서의 차이점 측정치) 대 키패드 디바이스(22)의 키 가운데 그러한 음소의 제곱 거리의 합의 비를 최대화하는 것이다. 이렇게, 영어 알파벳의 26개의 글자는 키패드 안의 수 개의, 예컨대 10개 또는 12개의 숫자 키에 할당될 수 있어서, 키패드의 규모가 현격히 줄어들 수 있다.

그래도 역시, 본 발명은 본 발명의 첨부된 청구항의 범위 및 사상을 이탈하지 않고 ASR 분야의 당업자가 변경 또는 변화시킬 수 있다.

상술한 바와 같이, 본 발명은 동양 문자를 전자 디바이스에 입력하고 동양 언어로 구술된 음성을 입력할 수 있는 등의 효과가 있다.

Claims

자음 더하기 모음 더하기 성조(tone) 또는 모음 더하기 성조의 음절 구조를 가진, 동양 언어로 구술된 음성을 입력하는 전자 디바이스로서, 상기 전자 디바이스는,

상기 구술된 음성을 나타내는 음성 신호를 수신하는 음성 수신기와,

상기 음성 수신기에 연결되고, 상기 음성 신호의 음성 특징을 뽑아내는 전처리(preprocessing) 수단과,

복수의 키를 포함하며, 여기서 각 키에는 자음 및 모음을 포함하는 적어도 하나의 음소가 할당된 키패드 수단과,

상기 음성 신호의 상기 음성 특징 및 상기 키패드 수단을 통해 순차적으로 얻어진 음소에 기초하여 상기 구술된 음성의 각 음절을 인식하는 음향 매칭 수단과,

상기 음향 매칭 수단으로부터의 각 음절 및 상기 키패드 수단을 통해 순차적으로 키로 입력된(keyed-in) 음소에 기초하여 상기 구술된 음성 내에서, 복수의 음절로 이루어진 각 단어를 인식하는 고립된 음절 매칭 수단을 포함하되,

상기 복수의 키 각각 내에 그룹 지어진 음소의 음향 특징 공간에서의 제1 차이점 측정치와 상기 복수의 키 사이의 복수의 음소의 음향 특징 공간에서의 제2 차이점 측정치의 비가 최대화되도록 각 키에 상기 적어도 하나의 음소가 할당되는, 전자 디바이스.
삭제
제 1 항에 있어서, 상기 구술된 음성에서의 각 음절의 첫번째 음소에 대응하는 키(key)는 각 음절이 발언(uttered)될 때 눌러지는, 전자 디바이스.
제 1 항에 있어서, 상기 전자 디바이스는 셀룰러 전화, 무선(wireless) 전화, 전자 사전, 개인용 디지털 보조 장치(personal digital assistant) 및 전자 시계로 이루어진 그룹으로부터 선택된 하나인, 전자 디바이스.
제 1 항에 있어서, 상기 구술된 음성은 적어도 하나의 다음절(multi-syllable) 단어로 이루어진 고립된 음성인, 전자 디바이스.
제 3 항에 있어서, 상기 구술된 음성에서의 각 음절의 첫번째 음소는 자음인, 전자 디바이스.
디스플레이를 가진 전자 디바이스로서,

자음 더하기 모음 또는 모음 중 어느 하나의 음절 구조를 갖는 동양 언어로 구술된 음성을 나타내는 음성 신호를 수신하는 음성 수신 수단과,

복수의 키를 가지며, 여기서 자음 및 모음을 포함하는 적어도 하나의 음소는 상기 복수의 키 각각에 할당되어 그 위에 가시적으로 나타내어진 숫자 키패드와,

상기 숫자 키패드를 통해 순차적으로 얻어진 음소 및 상기 음성 수신 수단에 의해 수신된 상기 구술된 음성에 기초하여 상기 구술된 음성으로부터 동양 문자를 인식하는 음성 인식 수단과,

상기 구술된 음성으로부터 상기 동양 문자를 상기 디스플레이 상에 보여주는 수단을 포함하되,

상기 복수의 키 각각 내에 그룹 지어진 음소의 음향 특징 공간에서의 제1 차이점 측정치와 상기 복수의 키 사이의 복수의 음소의 음향 특징 공간에서의 제2 차이점 측정치의 비가 최대화되도록 복수의 키 각각에 상기 적어도 하나의 음소가 할당되어, 동양 언어가 상기 숫자 키패드 및 상기 음성 수신 수단을 통해 효과적으로 입력될 수 있게 하는, 디스플레이를 가진 전자 디바이스.
삭제
숫자 키패드를 통한 키 입력을 통해 동양 언어로 된 음성을 인식하는 방법으로서, 상기 동양 음성은 자음 더하기 모음 또는 모음의 음절 구조를 가지며, 상기 숫자 키패드는 복수의 키를 갖는, 상기 음성 인식 방법으로서,

(a) 상기 음성을 나타내는 음성 신호를 입력하는 단계와,

(b) 상기 음성 신호의 음성 특징을 뽑아내는 단계와,

(c) 각 음절이 발언될 때 상기 음성에서의 각 음절의 첫번째 음소에 대응하는 키 정보를, 상기 숫자 키패드를 통해, 순차적으로 수신하는 단계와,

(d) 상기 음성 신호의 상기 음성 특징 및 (c)단계로부터 순차적으로 수신된 음소에 기초하여 상기 음성의 각 음절을 인식하는 단계와,

(e) (d)단계에서 인식된 각 음절 및 (c)단계로부터 순차적으로 수신된 음소에 기초하여 상기 음성 내에서, 복수의 음절로 이루어진, 각 단어를 인식하는 단계를 포함하되,

상기 복수의 키 각각 내에 그룹 지어진 음소의 음향 특징 공간에서의 제1 차이점 측정치와 상기 복수의 키 사이의 복수의 음소의 음향 특징 공간에서의 제2 차이점 측정치의 비가 최대화되도록 상기 숫자 키패드의 상기 복수의 키 각각에는 자음 및 모음을 포함하는 적어도 하나의 상기 음소가 할당되며, (c) 단계에서의 상기 첫번째 음소는 자음인, 음성 인식 방법.
삭제
삭제
제 7 항에 있어서, 상기 최대화는

(b1) 각 키 내에서의 상기 음소의 상기 음향 특징 공간에서의 첫번째 차이점(dissimilarity) 측정치를 최대화하여 각 키와 그룹 지어진 상기 복수의 음소가 음향상 구별되게 하는 최대화하는 것, 및

(b2) 키 사이의 상기 음소의 상기 음향 특징 공간에서의 두번째 차이점 측정치를 최소화하여 가장 모호한 음소가 같은 키 내에 그룹 지어지지 않게 하는 최소화하는 것을

포함하는, 디스플레이를 가진 전자 디바이스.
제 7 항에 있어서, 상기 동양 언어는 중국어이며, 상기 전자 디바이스의 상기 숫자 키패드는 열 두 키를 가지며,

상기 열 두 키 내에서의 상기 복수의 중국어의 음소의 그룹 짓기는 다음의 그룹,

으로 이루어지는, 디스플레이를 가진 전자 디바이스.
복수의 키로 이루어진 숫자 키패드 및 음성 입력 수단을 갖는 전자 디바이스에 동양 문자를 입력하는 방법으로서,

자음 및 모음을 포함하는 적어도 하나의 음소는 상기 복수의 키 각각에 할당되고 그 위에 가시적으로 나타나고,

상기 동양 문자를 나타내는 음성은 사용자에 의해 구술되고 상기 음성 입력 수단에 의해 수신되며, 상기 사용자가 상기 동양 문자 각각을 고립된 음성 모드로 발언할 때, 상기 동양 문자 각각에 대응하는 상기 음소의 첫번째 것을 나타내는 키를 순차적으로 누르며,

대응하는 동양 문자는 순차적으로 키로 입력된 음소에 기초하여 선택되고,

상기 복수의 키 각각 내에 그룹 지어진 음소의 음향 특징 공간에서의 제1 차이점 측정치와 상기 복수의 키 사이의 복수의 음소의 음향 특징 공간에서의 제2 차이점 측정치의 비가 최대화되도록 복수의 키 각각에 상기 적어도 하나의 음소가 할당되는 것을 특징으로 하는, 동양 문자를 입력하는 방법.
삭제
숫자 키패드를 통한 키 입력을 통해 동양 언어로 된 음성을 인식하기 위하여 프로세서로 하여금 복수의 단계를 수행하도록 동작하는, 컴퓨터 프로그램 제품을 포함하는 저장 매체로서,

상기 동양 음성은 자음 더하기 모음 또는 모음의 음절 구조를 가지며,

상기 숫자 키패드는 복수의 키를 가지며,

상기 복수의 단계는

(a) 상기 음성을 나타내는 음성 신호를 입력하는 단계와,

(b) 상기 음성 신호의 음성 특징을 뽑아내는 단계와,

(c) 각 음절이 발언될 때 상기 음성에서 각 음절의 첫번째 음소에 대응하는 키의 정보를, 상기 숫자 키패드를 통해 순차적으로 수신하는 단계와,

(d) 상기 음성 신호의 상기 음성 특징 및 (c) 단계로부터 순차적으로 수신된 음소에 기초하여 상기 음성의 각 음절을 인식하는 단계와,

(e) (d) 단계에서 인식된 각 음절 및 (c) 단계로부터 순차적으로 수신된 음소에 기초하여 상기 음성 내에서, 복수의 음절로 이루어진 각 단어를 인식하는 단계를

포함하는, 컴퓨터 프로그램 제품을 포함하는 저장 매체.
제 16 항에 있어서, 상기 숫자 키패드의 상기 복수의 키 각각에는 상기 동양 언어의 자음 및 모음을 포함하는 적어도 하나의 상기 음소가 할당되며, (c) 단계에서 상기 첫 번째 음소는 자음인, 컴퓨터 프로그램 제품을 포함하는 저장 매체.