KR20060050277A

KR20060050277A - 다중 언어의 이름들의 음성 인식을 위한 방법 및 시스템

Info

Publication number: KR20060050277A
Application number: KR1020050071867A
Authority: KR
Inventors: 시아오-린 렌; 신 헤; 팡 선; 야신 장
Original assignee: 모토로라 인코포레이티드
Priority date: 2004-08-06
Filing date: 2005-08-05
Publication date: 2006-05-19
Also published as: JP2006048058A; SG119358A1; CN100592385C; KR100769029B1; CN1731511A; JP4468264B2

Abstract

다수의 언어의 이름을 음성 인식하기 위한 방법 및 시스템(100)은 혼합식 글자-대-소리 변환기(105)내의 복수의 언어 특정 글자-대-소리 변환기를 사용한다. 일 실시예에 따른 방법은 전자 디바이스상에 문자를 포함하는 복수의 이름을 나타내는 텍스트를 저장하는 단계를 포함한다. 각 이름의 적어도 하나의 언어가 그후 식별되고, 각 이름이 개방 어휘 사전(110)에 저장된 음성 단위들의 순서화된 시퀀스로 변환된다. 다음에, 발성된 발음이 전자 디바이스와 연관된 마이크로폰(120)에서 수신되고, 발음이 특징 추출기(125)에서 특징 벡터들로 변환된다. 특징 벡터는 그후 자동 스피치 인식 엔진(automatic speech recognition engine)(130)에서 적어도 하나의 이름의 음성 단위들의 순서화된 시퀀스와 매칭된다.

자동 스피치 인식 엔진, 발음, 음성 단위

Description

다중 언어의 이름들의 음성 인식을 위한 방법 및 시스템{Method and system for voice recognition of names in multiple languages}

도 1은 본 발명의 일 실시예에 따른 다수의 언어의 이름을 음성 인식하기 위한 시스템의 기능적 구성요소를 예시하는 개략도.

도 2는 본 발명의 실시예에 따른, 두 개의 상이한 언어의 이름의 리스트와 음성 단위의 순서화된 시퀀스를 포함하는 연관된 발음을 예시하는 표.

도 3은 본 발명의 실시예에 따른 글자-대-소리 변환기의 구성요소 및 작용을 예시하는 개략도.

도 4는 북경어/영어 개방 어휘 사전을 포함하는 본 발명의 실시예에 따른 저장된 텍스트를 음성 단위로 변환하기 위한 방법을 요약하는 일반화된 흐름도.

도 5는 본 발명의 실시예에 따른 개방 어휘 사전에 저장된 이름과 발성된 발음을 매칭시키는 방법을 예시하는 일반화된 흐름도.

도 6은 본 발명의 실시예에 따라 음성 인식 시스템이 구현될 수 있는 무선 전화 형태의 개인 전자 디바이스를 예시하는 개략도.

본 발명은 일반적으로 음성 인식 프로세스들에 관한 것이다. 본 발명은 이름들이 다수의 언어들로 존재하는 개인 전자 디바이스(personal electronic device)를 사용하는 이름들의 음성 인식에 특히 유용하지만, 반드시 그에 한정되는 것은 아니다.

이동 전화들, 퍼스널 디지털 어시스턴트들(PDA들) 및 페이저들 같은 개인 전자 디바이스들은 산업화된 사회 전반에서 매우 대중화되고 있다. 이제, 수백만의 사용자가 전자 정보 및 통신에 대한 신속하고 용이한 억세스를 위해 이런 디바이스들에 의존하고 있다. 이 디바이스들의 감소된 중량 및 크기는 일반적으로 예로서, 주머니 또는 지갑에 쉽게 그들을 휴대할 수 있게 하여 그 편의성을 추가한다. 그러나, 이 디바이스들의 감소된 크기의 단점은 키패드들 및 버튼들 같은 디바이스들상의 촉각적 인터페이스들이 종종 작고 성가셔지게 한다는 것이다.

따라서, 음성 인식은 다수의 개인 전자 디바이스들에 대한 유용한 특징이다. 예로서, 음성 인식 기능들은 차량 운전자들이 도로 밖으로 그 눈을 돌릴 필요 없이 개인 전자 디바이스에 단순한 명령들을 발령할 수 있게 한다. 또한, 음성 인식은 발성된 명령이 쉽게, 그리고, 종종 작은 키패드상에 명령들을 타자하기 위해 필요한 시간 보다 매우 신속하게 실행될 수 있기 때문에, 예로서, PDA의 주소록 엔트리에 대한 억세스의 편의성을 향상시킬 수 있다.

따라서, 음성 인식 시스템들은 컴퓨터 프로그램들을 실행하고, 데이터베이스들을 억세스하기 위한 대중적인 수단이다. 그러나, 또한, 개인 전자 디바이스들의 작은 크기는 내장된 음성 인식 시스템의 성능을 제한할 수 있다. 효과적인 스피치 인식은 종종 비교적 큰 데이터베이스들 및 현저한 처리 속도를 필요로 하는 반면에, 소형 전자 디바이스들의 메모리 용량 및 처리 파워는 일반적으로 제한되어 있다. 이들 제한들을 극복하기 위해, 개인 전자 디바이스들의 스피치 인식 시스템들은 일반적으로 단지 제한된, 특정 환경들에 대해서만 맞춤화되어 있다. 예로서, 이런 시스템들은 종종 화자 의존적이며, 이는 이들이 보다 상세히 후술될 바와 같이 단지 특정 화자의 스피치 패턴들을 해석하도록 설계되어 있다는 것을 의미한다. 또한, 이런 시스템들은 종종 언어 의존적이며, 단지 제한된 어휘들만을 위해 설계되어 있다. 이들 디자인 절충들은 시스템들이 개인 전자 디바이스들의 제한된 자원들을 사용하여 특정 목적들을 위해 신뢰성있게 양호하게 동작할 수 있게 한다.

스피치 인식 시스템들은 일반적으로 데이터베이스내에 저장된 음향 모델들과 입력 발음을 매칭시킴으로써 기능한다. 그후, 매칭된 음향 모델들이 후속하여 단어 및 문장 인식을 완성하기 위해 사전 데이터베이스내의 엔트리들과 매칭된다. 음향 모델들은 종종 은닉 마코브 모델(Hidden Markov Model)들(HMM들)을 포함한다. HMM들은 평균 및 변동 벡터들을 포함하는 통계학적 기술들이며, 이는 단어들 및 발음들 같은 스피치 단위들을 기술한다. 그후, HMM 패턴 매칭이 사용되어 스피치 인식 데이터페이스내의 음향 모듈이 발성된 입력 발음과 매칭하는지 여부를 판정한다. HMM들은 일반적으로, 가우시안 혼합체들이라 지칭되는 다수의 복잡한 가우시안 가능성 분포 함수들(PDF들)을 포함하는 가능성 함수들에 기초한다. 따라서, 스피치 패턴 매칭은 가우시안 혼합체들과 입력 스피치 발음들을 매칭시키는 프로세스이다. 따라서, HMM 패턴 매칭 음향 모델들의 가용한 정교화는 성능과 메모리와 처리 자원 들 사이의 필요한 절충들을 달성할 때, 음성 인식 시스템들의 설계자들이 고려하여야만 하는 중요한 변수이다.

음성 인식 시스템들의 다른 절충들은 다수의 사용자들의 스피치를 인식하기 위한 시스템의 기능에 관련한다. 따라서, 스피치 인식 시스템들은 화자 독립적 또는 화자 의존적 중 어느 하나로서 추가로 분류된다. 화자 독립적 시스템은 주어진 언어의 주어진 화자의 스피치를 인식하도록 설계되는 반면, 화자 의존적 시스템들은 단 한 명의 화자의 스피치를 인식하도록 훈련된다. 화자 의존적 시스템들은 일반적으로, 복수의 훈련 화자들로부터 도출된 HMM들을 포함하는 음향 데이터베이스를 포함한다. 훈련 화자들의 스피치로부터 유도된 HMM들은 보다 큰 화자들의 그룹에서 발견되는 스피치 패턴들을 대표하는 것을 목적으로 하는 가우시안 혼합 파라미터들이다. 이런 시스템들은 일반적으로 화자 의존적 시스템들 보다 덜 정확하며, 그 이유는 매우 다양한 스피치 속성들을 수용하도록 스피치 모델들에 절충들이 이루어져야만 하며, 화자 독립적 시스템은 시스템을 사용하는 주어진 특정 화자의 특유의 스피치 속성들에 조율되지 않기 때문이다.

화자 의존적 시스템들은 개별 화자들의 특정 스피치 패턴들을 인식하도록 조율된다. 일반적으로 화자는 훈련 루틴 동안 화자 의존적 시스템에 다양한 스피치 패턴들을 포함하는 스크립트를 읽어준다. 그후, 훈련 스피치는 시스템이 화자의 특유한 스피치 속성들에 조율되고, 결과적으로, 시스템이 스피치 인식 동안 화자의 음성을 보다 정확하게 인식할 수 있게 하도록 스크립트와 정렬된다. 그러나, 화자 의존적 시스템은 종종 다수의 사람이 스피치 인식 시스템을 사용할 필요가 있을 수 있는 환경들에는 부적합하다. 예로서, 이동 전화들에 내장된 음성 인식 시스템들은 사용자가 명령들을 말하는 것에 의해 디바이스들을 동작시킬 수 있게 하고, 이 명령들은 그후 전화에 의해 인식된다. 그러나, 이동 전화의 1차 사용자는 다수의 친구들, 동료들 또는 가족 구성원들이 또한 전화의 스피치 인식 특징들을 사용할 수 있게 되기를 원한다. 전화의 이런 2차 사용자들은 단지 매우 짧은 기간들 동안만 음성 인식 특징을 필요로 할 수 있기 때문에, 2차 사용자들이 스피치 인식 특징을 사용하기 이전에 그 또는 그녀의 음성을 인식하도록 전화를 반드시 먼저 훈련시켜야 한다는 것은 불편하다.

마지막으로, 음성 인식 음향 모델들은 일반적으로 단지 단일 언어를 위해서만 설계된다. 따라서, 다수의 언어들의 스피치를 인식할 수 있는 스피치 인식 시스템은 다수의 음향 모델들을 필요로 하며, 이는 또한 시스템의 정교화 및 메모리 소요들을 증가시킨다.

최근 이중 언어 음성 인식 디바이스들이 개인 전자 디바이스들을 위해 개발되어 왔다. 그래서, 예로서, 이동 전화의 2-언어 사용자는 영어 및 맨드레인 같은 2개 언어들 중 어느 하나를 사용하여 전화상에 저장된 주소록으로부터 이름들을 불러낼 수 있다. 이들 디바이스에 개별 언어 특정 음성 모델들 및 어휘 데이터베이스들이 사용되기 때문에, 사용자는 일반적으로, 음성 인식 특징을 사용하기 이전에 하나의 특정 언어로 전화상의 언어 모드를 먼저 전환시켜야하는 것이 일반적이다. 그러나, 특정 언어를 사전선택하는 것에 대한 요구조건은 예로서, 주소록이 이름 또는 다른 접촉 정보의 다른 혼성물을 두 가지 언어로 포함하고 있는 경우 불편하 다. 또한, 특정 언어를 사전 선택하는 것에 대한 요구조건은 예로서, 사람의 이름이 영어이고 그의 성이 북경어인 경우, 시스템이 음성 인식을 사용하여 혼합된, 다수의 언어의 두 부분의 이름을 식별할 수 없게 한다.

따라서, 언어 모드 사이의 수동 전환을 필요로 하지 않고 다수의 언어의 이름을 인식할 수 있으며, 개인 전자 디바이스의 제한된 자원을 효과적으로 사용하는, 화자 독립적인 음성 인식을 위한 개선된 방법 및 시스템에 대한 필요성이 존재한다.

따라서, 일 양상에 따라서, 본 발명은 다수의 언어의 이름을 음성 인식하는 개선된 방법이며, 이 방법은 문자를 포함하는 복수의 이름을 나타내는 텍스트를 전자 디바이스상에 저장하는 단계; 이름 각각을 위한 적어도 하나의 언어를 식별하는 단계; 복수의 언어 특정 글자-대-소리 변환기를 사용하여 각 이름을 음성 단위의 순서화된 시퀀스로 변환하는 단계; 발성된 발음을 전자 디바이스와 연관된 마이크로폰에서 수신하는 단계; 발음을 특징 벡터로 변환하는 단계; 및 적어도 하나의 이름의 음성 단위의 순서화된 시퀀스와 특징 벡터를 매칭시키는 단계를 포함한다.

바람직하게는, 다수의 언어는 북경어를 포함하고, 각 이름을 위한 적어도 하나의 언어를 식별하는 단계는 이름이 중국어 알파벳 또는 로마자 알파벳의 문자를 포함하는지 여부를 결정하고; 로마자 알파벳의 이름이 중국어 병음(pinyin)인지 여부를 결정하는 것을 포함한다.

바람직하게는 다수의 언어는 서양 언어와 중국어로 구성된다.

바람직하게는 복수의 언어-특정 글자-대-소리 변환기는 중국어 글자-대-소리 변환기 및 서양 언어 글자-대-소리 변환기로 구성된다.

바람직하게는 중국어 글자-대-소리 변환기는 내용 의존적이며, 서양 언어 글자-대-소리 변환기는 내용 독립적이다.

바람직하게는 적어도 하나의 이름의 음성 단위의 순서화된 시퀀스와 특징 벡터를 매칭시키는 단계는 특징 벡터, 음성 단위의 순서화된 시퀀스 및 자동 스피치 인식 엔진의 가우시안 혼합 파라미터를 비교함으로써 특징 벡터를 디코딩하는 것을 포함한다.

바람직하게는 자동 스피치 인식 엔진은 비임 검색(Beam search), 비터비 알고리즘(Viterbi algorithm)을 사용한다.

바람직하게는 이름은 전자 디바이스상에 저장된 접촉 리스트의 구성요소들을 포함한다.

다른 양상에 따라서, 본 발명은 다수의 언어의 이름을 음성 인식하는 방법이며, 이는 발성된 발음을 전자 디바이스와 연관된 마이크로폰에서 수신하는 단계; 발음을 특징 벡터로 변환하는 단계; 및 문자의 표현으로서 전자 디바이스상에 저장된, 적어도 하나의 이름의 음성 단위의 순서화된 시퀀스와 특징 벡터를 매칭시키는 단계를 포함하고, 이름의 적어도 하나의 언어는 문자로부터 식별되고, 이름은 그후 복수의 언어 특정 글자-대-소리 변환기를 사용하여 음성 단위의 순서화된 시퀀스로 변환된다.

또 다른 양상에 따라서, 본 발명은 다수의 언어의 이름의 음성 인식을 위한 시스템이며, 이는 마이크로프로세서; 마이크로프로세서에 동작가능하게 접속된 적어도 하나의 메모리; 및 마이크로프로세서에 동작 가능하게 접속된 마이크로폰을 포함하고, 마이크로프로세서는 발성된 발음을 마이크로폰에서 수신하고, 발음을 특징 벡터로 변환하고, 문자의 표현으로서 메모리내에 저장된 적어도 하나의 이름의 음성 단위의 순서화된 시퀀스와 특징 벡터를 매칭시키도록 메모리내에 저장된 코드를 실행하도록 동작할 수 있으며, 이름의 적어도 하나의 언어는 문자로부터 식별되고, 이름은 그후 마이크로프로세서에 동작가능하게 연결된 복수의 언어 특정 글자-대-소리 변환기를 사용하여 음성 단위의 순서화된 시퀀스로 변환된다.

바람직하게는 이름은 시스템상에 저장된 접촉 리스트의 구성요소를 포함한다.

바람직하게는 시스템은 PDA 또는 이동 전화 중 어느 하나에 동작가능하게 연결된다.

청구범위를 포함하는 본 명세서에서, 용어 "포함한다", "포함하는", "내포하는" 또는 유사한 용어는 비배제적 포함을 의미할 목적이며, 그래서, 요소의 리스트를 포함하는 방법 또는 장치는 이들 요소만을 포함하지는 않으며, 나열되지 않은 다른 요소를 양호하게 포함할 수 있다.

본 발명을 쉽게 이해하고, 실질적인 효과를 부여하기 위해, 이제, 유사 참조 번호가 유사 요소를 지시하고 있는 첨부 도면을 참조로 예시된 양호한 실시예를 참조한다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 다수의 언어의 이름을 음성 인식하기 위한 시스템(100)의 기능적 구성요소를 예시하는 개략도가 도시되어 있다. 시스템(100)은 하기와 같이 동작한다. 글자-대-소리 변환기(105)는 이름의 텍스트를 음성 단위의 순서화된 시퀀스로 변환한다. 이름은 일반적으로 이동 전화 또는 퍼스널 디지털 어시스턴트(PDA) 같은 개인 전자 디바이스상에 개별 문자의 표현으로서 저장되어 있는 다수의 이름 중 하나이다. 예로서, 이름은 전자 디바이스상의 접촉 리스트 또는 주소록의 일부로서 저장될 수 있다. 글자-대-음성 변환기(105)는 먼저, 시스템(100)에 입력된 이름의 적어도 하나의 언어를 식별한다. 이름은 그후 개방 어휘 사전(110)내에 저장되어 있는 음성 단위의 순서화된 시퀀스로 변환된다. 시스템(100)은 또한 혼성-언어 은닉 마코브 모델(HMM) 세트(115)를 포함한다. HMM 세트(115)는 적어도 두 개의 언어로 선택된 스피치 패턴을 표현하는 가우시안 혼합 파라미터를 포함한다.

복수의 이름 및 그 연관된 음성 단위의 순서화된 시퀀스가 개방 어휘 사전(110)에 입력된 이후, 시스템(100)은 그후 마이크로폰(120) 같은 시스템(100)의 입력부에 발성된 이후 이름 중 주어진 발성된 표현을 인식할 수 있다. 마이크로폰(120)은 음성 작동 디바이스(VAD)에 동작가능하게 연결될 수 있다. 다음에, 특성 추출기(125)가 본 기술에 잘 알려진 종래의 음성 인식 기술에 따라 발성된 이름의 특징 벡터를 추출한다. 특징 벡터는 그후, 가우시안 혼합 파라미터와 특징 벡터를 비교하는 자동 스피치 인식(ASR) 엔진(130)에 의해 디코딩된다. ASR 엔진(130)은 개방 어휘 사전(110)으로부터 구성되어 스피치 인식 프로세스 동안 음성학적 모델 에 대한 검색을 안내하는 동적 문법 네트워크(135)에 의해 추가로 보조된다. 마지막으로, 개방 어휘 사전으로부터 매칭된 이름이 시스템(100)으로부터 출력된다. 그후, 매칭된 이름은 전자 디바이스에 의해, 예로서, 사람의 전화 번호 또는 다른 접촉 정보를 접촉 리스트로부터 검색하기 위해 사용될 수 있다.

따라서, 본 발명은 혼합된 다수의 언어의 단어 또는 이름의 스피치 인식이 필요한 응용처에 유용하다. 예로서, 중국에서는 화자 독립적 중국어(예로서, 북경어 또는 광둥어)와 영어 ASR 가능 이동 전화가 출현하였다. 그러나, 이들 종래 기술 시스템은 일반적으로 단지 주어진 시간에 단일 언어 모드에서만 동작한다. 예로서, 사용자가 영어 이름을 사용하여 주소록내의 정보를 검색하기 위해 ASR 특징을 사용하기를 원하는 경우, 사용자는 먼저 ASR 특성을 영어로 설정하여야만 한다. 동일 사용자가 그후 북경어 이름을 사용하여 주소록내의 정보를 검색하기를 원하면, 사용자는 먼저 북경어 이름을 검색할 수 있기 이전에 ASR 특징을 북경어로 설정하여야만 한다. 그러나, 중국의 다수의 이동 전화 사용자는 전화 주소록 내에 이름의 제1 부분은 영어이고, 제2 부분은 북경어인 이중 언어의 2 부분 이름을 포함하고 있다는 것이 관찰되었다. 종래 기술 ASR 시스템은 따라서, 이런 이중 언어적 2 부분 이름의 발성된 표현을 자동 인식할 수는 없다. 한편 본 발명은 하나의 언어로부터 다른 언어로 ASR을 사용자가 수동 전환할 필요 없이, 이런 이중 언어 2 부분 이름을 인식할 수 있다.

도 2를 참조하면, 두 개의 상이한 언어의 이름의 리스트와 음성 단위의 순서화된 시퀀스를 포함하는 그 연관된 발음을 예시하는 표가 있다. 예로서, 첫 번째 이름

이 단지 북경어(중국어 문자)이고, 개별 중국어 음소(205)를 포함하는 음성 단위의 순서화된 시퀀스로 구성된 그 발음이 이어진다. 다음 이름 "John Stone"은 단지 영어이며, 역시 개별 영어 음소(210)를 포함하는 그 발음이 이어진다. 세 번째 이름

은 북경어(중국어 문자) 성 "

" 및 영어 이름 "Jacky"을 포함하기 때문에, 이중 언어 2 부분 이름이다. 그럼에도 불구하고, 본 발명의 방법 및 시스템은 또한 영어 음소(210) 및 중국어 음소(205) 양자 모두를 포함하는 이름의 발음을 규정할 수 있다. 이런 이중 언어 2 부분 이름의 음성학적 구문화를 가능하게하는-사용자가 언어 사이를 수동 전환할 필요 없이- 본 발명의 특징을 이제 후술한다.

도 3을 참고하면, 도 1에 소개된 혼합 글자-대-소리 변환기(105)의 구성요소 및 동작을 예시하는 개략도가 있다. 예로서, 도 3에 도시된 혼합 글자-대-소리 변환기(105)는 영어 또는 북경어 중 어느 하나로 기록된 문자를 변환하도록 동작한다. 먼저, 혼합 글자-대-소리 변환기(105)는 디바이스상에 저장되어 있는 기록된 이름의 적어도 일부를 규정하기 위해 사용되는 알파벳을 식별하는 알파벳 식별기(305)를 포함한다. 이름의 저장된 부분이 중국어 문자(310)로 구성되는 경우, 이대, 문자(310)는 직접적으로 언어 특정 북경어 글자-대-소리 변환기(315)에 입력된다. 그러나, 이름의 저장된 부분이 영어 문자(320)인 경우, 이때, 이름은 중국어 병음 또는 영어 중 어느 하나로 기록될 수 있다. 따라서, 이름의 일부는 병음 식별자(325)에 의해 추가로 분류된다. 병음 식별자(325)는 병음(음조 배제)으로 표현된 모든 중국어 이름을 기본적으로 식별하는 408 음절의 병음 사전을 사용한다. 영어 문자(320)가 중국어 병음인 경우, 이때, 문자는 북경어 글자-대-소리 변환기(315)로 입력된다. 그러나, 영어 문자(320)가 영어 단어인 경우, 이들이 언어 특정 영어 글자-대-소리 변환기(330)에 입력된다. 북경어 글자-대-소리 변환기(315) 및 영어 글자-대-소리 변환기(330) 양자 모두는 언어 특정 음성 단위의 고유한 순서화된 시퀀스로 이름을 변환시키도록 동작한다. 본 기술의 숙련자는 다양한 다른 언어의 문자를 변환하는 다른 글자-대-소리 변환기(105)도 본 내용에 의해 가능하다는 것을 인지할 것이다. 본 발명의 글자-대-소리 변환기(105)는 따라서, 이중 언어, 2 부분 이름을 단일의, 음성 단위의 순서화된 시퀀스로 해석할 수 있다.

언어 모드들 사이에서 사용자가 수동으로 시스템(100)을 전환할 필요 없이 본 발명이 동작하는 것을 가능하게 하기 위해, 혼합 언어 HMM 세트(115)는 두 개의 언어들 각각에 대해 하나씩 적어도 두 개의 음향 모델 세트들을 통합한다. 예로서, 영어 및 북경어 이름들 양자를 인식하는 본 발명의 상기 실시예에 따르면, HMM 세트(115)는 이하의 두 개의 1개 언어 음향 모델 세트: 문맥(context) 의존성인 북경어 모델들 및 문맥 비의존성인 영어 모델들을 조합한다. 여기서, 문맥은 주어진 음성 단위의 좌측 및/또는 우측에 바로 인접하는 음성 단위들을 칭한다. 중국어에서, 이들 단위들은 이하에 더 상세히 설명하는 바와 같이 "어두들(initials)" 및 "어미들(finals)"이라 칭한다. 3중음 모델은 좌측 및 우측 인접 음성 단위들 양자를 고려하는 음성학적 모델이다. 두 개의 음성 단위들이 동일한 신분을 갖지만 상이한 좌측 또는 우측 문맥들을 가지면, 이들은 상이한 3중음들로 고려된다.

영어와 같은 서양 언어들로부터 중국어를 구별하는 하나의 특징은 중국어 문자들이 자음/모음(C/V) 구조에 부가하여 음조를 갖는 모든 단음절들이라는 것이다. 따라서 음절(syllable) 인식은 대부분의 중국어 스피치 인식 시스템들의 구조의 초석이다. 중국어에는 22개의 "어두들"(즉, 음절의 모음 이전의 자음) 및 38개의 "어미들"(즉, 음절의 모음 이후의 자음들)의 상이한 조합들로부터 유래하는 총 1254개의 음절들(408개의 비음조 음절들)이 있다. 어두들 중에, 21개의 진정한 어두들 및 소위 "0 어두들(zero initial)"이 있다. 본 발명의 바람직한 실시예에 따르면, 0 어두는 진정한 어두로 취급된다. 단지 제한된 훈련 데이터가 이용 가능한 상황들을 고려하면, 중국어 스피치의 일반적인 관찰은 음절 내의 동시 조음(co-articulation) 효과들이 음절들을 가로지르는 동시 조음 효과들보다 훨씬 더 중요하다는 것이다. 이는 중국어의 단음절 구조에 기인한다. 또한, 음절 내에서 어두의 음향 특성들은 어미에 매우 의존하지만, 어미의 특성들은 어두에 훨씬 덜 의존한다. 예로서, 음절 "ta" 내의 어두 "t"는 다른 음절 "tu" 내의 동일한 어두와 매우 상이하게 발음되지만, 음절 "ta" 내의 어미 "a"는 "cha" 내의 "a"와 거의 동일하게 발음된다. 따라서, 중국어 스피치 인식의 적당한 접근은 음절들을 가로지르는 조음 효과들 및 음절들 내의 선행 어두 상의 어미의 의존성 양자가 무시 가능한 것으로 가정하고, 어두들을 다음의 어미의 개시 음소에 우측-문맥 의존성이 있게 하고 어미들을 문맥 비의존성이게 하는 것이다. 따라서, 본 발명의 바람직한 실시예는 117개의 어두들 및 38개의 어미들을 포함하는 155개의 하위-음절들을 사용한다. 각각의 음절은 이어서 한 쌍의 하위-음절들로 분해된다. 본 발명의 바람직한 실시예의 중국어 음향 모델들에 사용되는 이러한 음절 분해의 예들은 표 1에 나타낸다.

중국어 음절 분해의 예들

음절	어두	어미
Nei	n_e	Ei
Tuo	t-u	Uo
Fa	f_a	A
Ya	0_I	Ia

HMM 세트(115) 내의 영어 음향 모델들의 크기를 감소시키고 따라서 전체 시스템(100)의 복잡성 및 계산 요건들을 감소시키기 위해, 본 발명의 바람직한 중국어/영어 실시예는 문맥 비의존성 영어 음향 모델들을 사용한다. 또한, 40개의 단음들이 기본 영어 모델링 단위로서 사용된다. 이러한 단음들의 일 소스는 카네기 멜론 유니버시티(CMU) 발음 사전이다. CMU 발음 사전은 이들의 대응 음성학적 발음들을 갖는 대략 127,000 영어 단어들을 포함한다. CMU 발음 사전은 또한 영어 언어의 39개의 개별 단음들을 정의한다. 대안적으로, 다른 사전들이 사용될 수 있다.

음성 단위들의 순서화된 시퀀스들과 특징 벡터들을 매칭시키는 ASR 엔진(130)의 동작 수단이 이제 더 상세히 기술된다. 엔진(130)은 시스템(100)의 의해 수신되는 발성된 발음의 특징 벡터들의 시퀀스들을 분석하기 위해 비터비형, 비임-검색 알고리즘을 사용한다. 문법 네트워크(135)에 의해 안내되어, 엔진(130)의 목적은 상태 시퀀스의 그의 대응 가우시안 파라미터들(가우시안 혼합들)이 입력 스피치 발음에 가장 매칭하는 음성 단위들의 순서화된 시퀀스를 찾는 것이다. 비터비 검색은 시간-동기식 검색 알고리즘이며, 이는 시간 t+1을 처리하기 이전에 시간 t를 완전히 처리한다. 시간 t에 대하여, 각 상태는 시간 t-1에서의 모든 상태로부터 최상의 스코어(모든 인입 경로의 합을 사용하는 대신)에 의해 갱신된다. 갱신이 이루어질 때, 또한 이는 가장 가능성있는 인입 상태를 기억하기 위해 백트래킹 포인터를 기록한다. 검색의 종점에서, 가장 가능성 있는 상태 시퀀스가 뒤따르는 이들 백트래킹 포인터에 의해 복구될 수 있다. 효과적인 간결화 기술의 도움으로, 전체 격자 또는 전체 검색 공간을 익스플로어링할 필요는 없다. 대신, 단지 가장 유망한 검색 상태 공간이 익스플로어링 될 필요가 있다. 그후, 시스템(100)을 위해 포괄적 HMM 세트가 생성되며, 이 세트는 개방 어휘 사전이 갱신되는 각 시기 이후 온라인 발생되는 동적 문법의 말단 요소의 음향 모델과 연관된다. 상기 알고리즘에 관한 부가적인 세부사항은 젤리넥 프레데릭의 "스피치 인식을 위한 통계학적 방법(MIT Press 1999 ISBN 0-262-10066-5)"에서 발견할 수 있다.

본 발명의 부가적이 설명을 위해, 도 4를 참조하면, 북경어/영어 개방 어휘 사전(110)을 포함하는 본 발명의 일 실시예에 따른 저장된 텍스트를 음성 단위로 변환하기 위한 예시적 방법(400)을 요약하는 일반화된 흐름도가 존재한다. 방법(400)은 문자를 포함하는 복수의 이름을 나타내는 텍스트가 전자 디바이스상에 저장되는 단계 405에서 시작한다. 단계 410에서, 특정 이름이 중국어 알파벳 또는 영문자 알파벳의 문자를 포함하는지가 결정된다. 이름을 포함하는 문자가 중국어 문자인 경우, 이때, 이름의 언어는 단계 415에서 북경어로 식별된다. 그러나, 문자가 영문자 알파벳인 경우, 이때, 이름의 언어는 여전히 미정이며, 그 이유는 문자가 중국어 병음일 수 있기 때문이다. 따라서, 단계 420에서, 기본적으로 병음으로 표현된(음조 배제) 모든 중국어 이름을 식별하는 408 음절의 병음 사전을 사용함으로써 문자가 중국어 병음인지가 결정된다. 문자가 병음인 것으로 결정되는 경우, 이때, 방법(400)은 다시 단계 415로 진행하며, 여기서 이름의 언어가 북경어로 식별된다. 그렇지 않은 경우에, 단계 425에서, 이름의 언어가 영어로 식별된다.

언어가 단계 415에서 북경어로 식별되는 경우, 이때, 방법(400)은 단계 430으로 이어지고, 여기서, 이름이 북경어 글자-대-소리 변환기(315)를 사용하여 음성 단위의 순서화된 시퀀스로 변환된다. 그러나, 언어가 단계 425에서 영어로 식별되는 경우, 이때, 방법(400)은 단계 435로 이어지고, 여기서, 이름은 영어 글자-대-소리 변환기(330)를 사용하여 음성 단위의 순서화된 시퀀스로 변환된다. 음성 단위의 순서화된 시퀀스는 그후 개방 어휘 사전(110)에 저장된다.

이제, 도 5를 참조하면, 본 발명의 양호한 실시예에 따른 개방 어휘 사전(110)에 저장된 이름과 발성된 발음의 매칭의 방법(500)을 예시하는 일반화된 흐름도가 있다. 방법(500)은 단계 505에서 시작하며 여기서, 발성된 발음은 전자 디바이스의 마이크로폰(120)에서 수신되고, 디바이스는 다수의 언어의 이름의 음성 인식을 위한 시스템(100)과 협력한다. 단계 510에서, 발음은 특징 벡터로 변환된다. 그후, 단계 515에서, 발음의 특징 벡터가 상술된 방법에 따른 개방 어휘 사전(110)에 저장된 적어도 하나의 이름의 음성 단위의 순서화된 시퀀스와 매칭된다.

도 6을 참조하면, 본 발명의 음성 인식 시스템(100)이 구현될 수 있는 개인 전자 디바이스의 일 예를 예시하는 개략도가 존재한다. 본 예는 본 발명의 일 실시예에 따른 다수 언어의 이름의 음성 인식을 위한 시스템100)을 포함하는 무선 전화(600) 형태의 무선 통신 디바이스를 포함한다. 전화(600)는 프로세서(603)와 통신하도록 결합된 라디오 주파수 통신 유닛(602)을 포함한다. 또한, 무선 전화(600)는 키패드(606) 및 프로세서(603)와 통신하도록 결합된 디스플레이 스크린(605)을 갖는다. 본 기술의 숙련자가 명백히 알 수 있는 바와 같이, 스크린(605)이 터치 스크린이어서 키보드(606)를 선택적이게 할 수 있다.

프로세서(603)는 무선 전화(600)에 의해 전송 또는 수신될 수 있는 음성 또는 기타 신호를 인코딩 및 디코딩하기 위해 데이터를 저장하는 연관된 코드 판독 전용 메모리(ROM)(612)를 갖는 인코더/디코더(611)를 포함한다. 프로세서(603)는 또한 공통 데이터 및 어드레스 버스(617)에 의해 인코더/디코더(611)에 결합된 마이크로프로세서(613), 문자 판독 전용 메모리(ROM)(614), 임의 접근 메모리(RAM)(604), 정적 프로그램가능 메모리(616) 및 SIM 인터페이스(618)를 포함한다. 정적 프로그램가능 메모리(616) 및 SIM 인터페이스(618)에 동작가능하게 결합된 SIM(종종 SIM 카드라 지칭됨)은 각각 무엇보다도 선택된 인입 텍스트 메시지와 전화 번호 데이터베이스(Telephone Number Database:TND)(또는 주소/전화번호부)를 저장할 수 있으며, TDN은 전화 번호를 위한 번호 필드와 이름 필드의 번호 중 하나와 연관된 식별자를 위한 이름 필드를 포함한다. 예로서, 전화 번호 데이터베이스(TND)내의 하나의 엔트리는 9199911111(번호 필드에 입력된)일 수 있으며, 이름 필드에 연관된 식별자 "Steven C! at work"를 가질 수 있다. SIM 카드 및 정적 메모리(616)는 또한 무서 전화(600)상의 패스워드 보호 기능에 대한 억세스를 가능하게 하기 위해 패스워드를 저장할 수도 있다. 글자-대-소리 변환기(105), 개방 어휘 사전(110), 혼합 언어 HMM 세트(115), 특징 추출기(125), ASR 엔진(130) 및 동적 문법 네트워크(135) 같은 본 발명의 구성요소는 코드 판독 전용 메모리(ROM)(612), 문자 판독 전용 메모리(ROM)(614), 임의 접근 메모리(RAM)(604), 정적 메모리(616) 및 SIM 카드 중 하나 이상에 부분적으로 또는 전체적으로 모두 저장될 수 있다.

마이크로프로세서(613)는 키패드(606), 스크린(605) 및 경보부(615)에 대한 결합을 위한 포트를 가지며, 경보부는 통상적으로 경보 스피커, 진동 모터 및 연관된 구동부를 포함한다. 또한, 마이크로프로세서(613)는 마이크로폰(120) 및 통신 스피커(640)에 대한 결합을 위한 포트를 갖는다. 문자 판독 전용 메모리(614)는 통신 유닛(602)에 의해 수신될 수 있는 텍스트 메시지를 디코딩 또는 인코딩하기 위한 코드를 저장한다. 본 실시예에서, 문자 판독 전용 메모리(614)는 또한 무선 전화(600)와 연관된 기능을 수행하기 위한 코드 및 마이크로프로세서(613)를 위한 오퍼레이팅 코드(OC)를 저장한다.

라디오 주파수 통신 유닛(602)은 조합된 수신기 및 송수신기이며 공용 안테나(607)를 갖는다. 통신 유닛(602)은 라디오 주파수 증폭기(609)를 경유하여 안테나(607)에 결합된 송수신기(608)를 가진다. 송수신기(608)는 도한 프로세서(603)에 통신 유닛을 결합하는 조합된 변조기/복조기(610)에 결합된다.

영어 및 북경어 언어를 위한 본 발명의 일 실시예의 실행의 예가 이하에 제공된다. 테스트 데이터베이스는 "캔슬(cancel)"과 "캐슬(castle)" 같은 혼란스럽게 근접한 발음을 갖는 단어를 포함하는 50 어휘를 포함하는 발성된 발음의 특징 벡터로 구성되었다. 데이터베이스에는 약 200 화자로부터 9494 북경어 발음과 25 화자로부터 6827 영어 발음이 포함되었다. 발음은 실제 세상 환경을 구축하려는 시도에서, 사무실, 차량, 쇼핑몰 및 거리 같은 6개의 상이한 이동 환경에서 기록되었다. 테스트의 결과가 표 2에 요약되어 있다. 단일 언어 결과는 전용 단일언어 음성 인식 시스템을 사용한 인식 정확도 율을 나타낸다. 혼합 언어 결과는 본 발명의 혼합 언어 음성 인식 시스템(100)을 사용한 인식 정확도 율을 포함한다.

시스템 성능의 예

정확도	단일언어	혼합언어	크로스 에러
북경어	98.55%	96.77%	1.78%
영어	95.01%	94.04%	0.97%

따라서, 본 발명은 언어 모드 사이에서 사용자가 시스템(100)을 수동 전환시킬 필요 없이 다수의 언어로 발성된 이름을 인식할 수 있는 개선된 음성 인식 시스템이다. 따라서, 이는 예로서, 사용자가 다수의 언어의 이름을 포함하는 저자 주소록을 가질 수 있는 경우의 다중 언어 환경에서 유용하다. 사용자가 언어 모드 사이를 전환할 필요가 없기 때문에, 시스템(100)은 제1 언어의 제1 이름과 제2 언어의 제2 이름으로 구성된 복합적인 이름까지도 인식할 수 있다. 또한, 시스템(100)의 메모리 및 처리 수요는 문맥 의존적 및 문맥 독립적 구성요소를 포함하는 조합형 음향학적 모델의 사용을 통해 경제화될 수 있다. 따라서, 시스템(100)은 이동 전화 또는 PDA 같은 제한된 메모리 및 처리 자원을 갖는 개인 전자 디바이스상에서 운용될 수 있다.

상술한 설명은 단지 양호한 예시적 실시에를 제공하며, 본 발명의 범주, 응용성 또는 구성을 제한하고자 하는 것은 아니다. 오히려, 양호한 실시예의 상세한 설명은 본 기술 분야의 숙련자들이 본 발명의 양호한 예시적 실시예를 구현할 수 있게 하는 설명을 제공하는 것이다. 첨부된 청구범위에 기술된 바와 같은 본 발명의 개념 및 범주로부터 벗어나지 않고, 요소 및 단계의 기능 및 배열에 다양한 변경이 이루어질 수 있다는 것을 이해하여야 한다.

종래 기술 시스템은 일반적으로 단지 주어진 시간에 단일 언어 모드에서만 동작한다. 종래 기술 ASR 시스템은 따라서, 이중 언어적 2 부분 이름의 발성된 표현을 자동 인식할 수는 없다. 본 발명은 하나의 언어로부터 다른 언어로 ASR을 사용자가 수동 전환할 필요 없이, 이런 이중 언어 2 부분 이름을 인식할 수 있다.

Claims

다수의 언어들의 이름들을 음성 인식하는 방법에 있어서,

문자들을 포함하는 복수의 이름들을 나타내는 텍스트를 전자 디바이스상에 저장하는 단계;

상기 이름들의 각각을 위한 적어도 하나의 언어를 식별하는 단계;

복수의 언어 특정 글자-대-소리 변환기들을 사용하여 각 이름을 음성 단위(phonetic unit)들의 순서화된 시퀀스로 변환하는 단계;

발성된 발음을 상기 전자 디바이스와 연관된 마이크로폰에서 수신하는 단계;

상기 발음을 특징 벡터들로 변환하는 단계; 및

적어도 하나의 이름의 음성 단위들의 상기 순서화된 시퀀스와 상기 특징 벡터를 매칭시키는 단계를 포함하는 음성 인식 방법.
제 1 항에 있어서, 적어도 하나의 이름의 음성 단위들의 상기 순서화된 시퀀스와 상기 특징 벡터들을 매칭시키는 단계는 상기 특징 벡터들과, 음성 단위들의 상기 순서화된 시퀀스들과, 자동 스피치 인식 엔진(automatic speech recognition engine)의 가우시안 혼합 파라미터(Gaussian mixture parameter)들을 비교함으로써 상기 특징 벡터들을 디코딩하는 단계를 포함하는, 음성 인식 방법.
제 2 항에 있어서, 상기 자동 스피치 인식 엔진은 비임 검색(Beam search), 비터비 알고리즘(Viterbi algorithm)을 사용하는, 음성 인식 방법.
제 1 항에 있어서, 상기 이름들은 상기 전자 디바이스상에 저장된 접촉 리스트의 구성요소들을 포함하는, 음성 인식 방법.
다수의 언어들의 이름들을 음성 인식하는 방법에 있어서,

발성된 발음을 상기 전자 디바이스와 연관된 마이크로폰에서 수신하는 단계;

상기 발음을 특징 벡터들로 변환하는 단계; 및

문자들의 표현들로서 상기 전자 디바이스상에 저장된 적어도 하나의 이름의 음성 단위들의 순서화된 시퀀스와 상기 특징 벡터를 매칭시키는 단계를 포함하고, 상기 이름의 적어도 하나의 언어는 문자들로부터 식별되고, 상기 이름은 그후 복수의 언어 특정 글자-대-소리 변환기들을 사용하여 음성 단위들의 상기 순서화된 시퀀스로 변환되는, 음성 인식 방법.
다수의 언어들의 이름들의 음성 인식을 위한 시스템에 있어서,

마이크로프로세서;

상기 마이크로프로세서에 동작가능하게 접속된 적어도 하나의 메모리; 및

상기 마이크로프로세서에 동작가능하게 접속된 마이크로폰을 포함하고,

상기 마이크로프로세서는 발성된 발음을 상기 마이크로폰에서 수신하고, 상기 발음을 특징 벡터들로 변환하며, 문자들의 표현들로서 상기 메모리내에 저장된 적어도 하나의 이름의 음성 단위들의 순서화된 시퀀스와 상기 특징 벡터들을 매칭시키도록 상기 메모리내에 저장된 코드를 실행하도록 동작할 수 있으며, 상기 이름의 적어도 하나의 언어는 상기 문자들로부터 식별되고, 상기 이름은 그후 상기 마이크로프로세서에 동작가능하게 접속된 복수의 언어 특정 글자-대-소리 변환기들을 사용하여 음성 단위들의 상기 순서화된 시퀀스로 변환되는, 음성 인식 시스템.
제 6 항에 있어서, 상기 특징 벡터들은, 상기 특징 벡터, 음성 단위들의 상기 순서화된 시퀀스들과 상기 마이크로프로세서에 동작가능하게 접속된 자동 스피치 인식 엔진의 가우시안 혼합 파라미터들을 비교함으로써, 적어도 하나의 이름의 음성 단위들의 상기 순서화된 시퀀스와 매칭되는, 음성 인식 시스템.
제 6 항에 있어서, 상기 이름들은 상기 시스템상에 저장된 접촉 리스트의 구성요소들을 포함하는, 음성 인식 시스템.