KR101229034B1

KR101229034B1 - 디바이스 인터페이싱을 위한 다중모드 조음 통합

Info

Publication number: KR101229034B1
Application number: KR1020117007420A
Authority: KR
Inventors: 성준형
Original assignee: 성준형
Priority date: 2008-09-10
Filing date: 2009-09-10
Publication date: 2013-02-01
Also published as: JP2012502325A; US8352260B2; WO2010030129A3; WO2010030129A2; US20100070268A1; KR20110095236A

Abstract

다중모드 조음 통합 시스템은 음성 신호를 수신하는 음성 신호 모델리티, 및 사용자로부터 입력을 수신하고, 음성 정보에 직접적으로 대응되는 소정의 입력들로부터 선택된 입력으로부터 제어 신호를 생성하는 제어 신호 모델리티를 포함한다. 쌍방향 음성 기반 음성 입력 시스템은 또한 음성 신호 및 제어 신호를 수신하여 통합하는 다중모드 통합 시스템을 포함한다. 다중모드 통합 시스템은 제어 신호를 이용하여 음성 프레임들로 전처리하고 이산화함으로써 음성 신호의 발화의 콘텍스트의 범위를 결정한다. 음성 인식기는 제어 신호와 통합된 음성 신호를 분석하여 음성 인식 결과를 출력한다. 이러한 새로운 패러다임은 모바일 디바이스들에 인터페이싱 할 때 발견되는 제약들을 극복하는데 도움이 된다. 콘텍스트 정보는 애플리케이션 환경에서 커맨드의 처리를 용이하게 한다.

Description

디바이스 인터페이싱을 위한 다중모드 조음 통합{MULTIMODAL UNIFICATION OF ARTICULATION FOR DEVICE INTERFACING}

본 발명은 명시적 조정(explicit mediation)을 통한 쌍방향 콘텍스트 조절 기능을 갖는 음성 기반 다중모드 입력 시스템에 관한 것으로서, 더욱 상세하게는 제어 신호를 통한 쌍방향 콘텍스트 조절기능을 갖는 소프트웨어-구동 음성 기반 다중모드 입력 시스템에 관한 것이다.

가장 일반적이면서 자연스러운 쌍방향 통신 수단은 구어를 통한 것이다. 특히, 실시간 통신의 경우, 잠시의 시간적 갭도 없기 때문에, 저장의 필요성도 없고, 문어로 변환할 필요도 없다. 이러한 실시간성은 이점과 동시에 제약이 된다. 음성 신호는 컴퓨터 또는 전자 장치들에 인터페이싱 할 때 일반적으로 거의 사용되지 않고 있다. 이러한 자연적인 쌍방향 통신 모드를 인간 기계 인터페이스(human machine interface)에 적용하는 경우, 쌍방향성에 영향을 미칠 수 있다. 즉, 다른 종류의 쌍방향 입력 모델리티(modality)들을 통합하여 음성 프로세싱 과정을 조정할 수 있다. 인지 과학 연구에 따르면 인간의 뇌는 복수의 감각 모델리티부터의 신호들(cues)를 통합하는 것에 의존하여 말을 인식하고 있음을 확인할 수 있다. 이를 맥거크 효과(McGurk effect)라 부른다.

여기서, 우리는 도 1에 도시된 바와 같이 음성 인식을 위한 통합 체계 및 조정 체계로 종래 기술을 분류한다. 쌍방향으로 조정하는(110) 음성 인식은 전처리 단계(112) 또는 후처리 단계(111)에서 수행될 수 있다. 컴퓨터에서 사용되는 대부분의 기존 음성 인식 시스템은 쌍방향 인터페이스를 구비하여 인식 모듈에 의해 처리되는 결과들을 확인하며, 이는 후처리 단계에서 수행된다. 1989년 5월 9일자로 에드워드 더블유. 포터(Edward W. Porter)에게 이슈된 미국 특허 No. 4,829,576는 후처리 확인을 위한 메뉴 구동 인터페이스(117)를 개시한다. 전처리 단계 조정(112)를 위해서, 하드웨어-구동 조정 (113) 또는 소프트웨어-구동 조정(114)이 있다. 하드웨어-구동 전처리 조정(113)은 상술한 미국 특허 No. 4,829,576에서 개시된다: 딕테이션(dictation) 모드 및 커맨드(command) 모드 사이에서 변환하는 하드웨어 스위치 118. 전처리 단계에서의 소프트웨어-구동 조정(114)을 위해서는, 추가 분류; 함축적(115; implicit) 및 명시적(116; explicit)이 존재한다. 전처리 단계의 명시적(explicit) 소프트웨어-구동 조정(116)은 스피치(speech) 구간 시작점 및 종료점 또는 커맨드의 지시 대상(referent target)과 같은 명시적 정보를 제공한다. 상술한 미국특허 No. 4,829,576는 음성 신호 크기(122)를 이용하여 스피치(speech) 구간 시작점 및 종료점을 결정하는 방법을 개시한다. 다른 방법으로, 1999년 3월 16일자로 이데츠구 마에카와(Idetsugu Maekawa) 등에 이슈된 미국특허 No 5,884,257는 입술 이미지 프로세싱을 이용하여 스피치 구간 시작점과 종료점을 결정하는 방법을 개시한다. 2006년 1월 24일자로 앤드류 윌슨(Andrew Wilson)에게 이슈된 미국특허 No 6,990,639 B2는 사용자가 무슨 성분을 제어하기를 원하는지 그리고 어떠한 제어 행위를 희망하는지를 결정하는 포인팅 디바이스(124)의 통합을 개시한다. 상술한 3개의 특허에서, 음성 인식의 조정은 입술 움직임들 또는 포인팅 디바이스 동작들과 같은 명시적 입력과 함께 발생한다. ‘함축적(implicit)’ 소프트웨어-구동 조정(115)에 대해서도(전처리 단계에서), 많은 선행 기술들이 존재한다. 전처리 단계에서 함축적 소프트웨어-구동 조정(115)은 보다 효율적인 인식을 위해서, 콘텍스트 결정에 도움이 될 수 있다. 1997년 3월 25일자로 빈센트 엠. 스탠포드(Vincent M. Stanford) 등에 이슈된 미국특허 No 5,615,296는 고속 콘텍스트 스위칭(119)을 함축적으로 수행하여 능동 어휘를 변경하는 소프트웨어 기반 알고리즘을 개시한다. 또한, 1993년 4월 9일자로 로렌스 에스. 길릭(Laurence S. Gillick) 등에 이슈된 미국 특허 No 5,526,463는 스피치의 시작 부분를 이용하여 매칭되는 어휘 세트를 프리 필터링(120)하는 소프트웨어 알고리즘을 개시한다. 마지막으로, 1997년 10월 14일자로 동 휴(Dong Hsu) 등에 이슈된 미국 특허 No 5,677,991는 "대용량 어휘 고립 단어 스피치 인식 모듈(large vocabulary isolated word speech recognition (ISR) module)" 과 "소용량 어휘 연속 스피치 인식 모듈(small vocabulary continuous speech recognition (CSR) module)" 사이에서 조정하는 조정(arbitration) 알고리즘을 개시한다. 상술한 3개의 특허 모두는 명시적인 사용자 입력 없이 스피치에 삽입된 신호들(cues)을 함축적으로 추론한다. 전처리 단계에서 함축적 소프트웨어-구동 조정(115)의 3가지 모두는 설계에 의해 인식 정확도를 증가시키는 반면 계산을 감소시킨다. 그러나, 멀티 센싱 모델리티를 위한 통합 체계의 경우 항상 그러한 것은 아니다. 상술한 미국 특허 No 6,990,639 B2는 계산을 늘려서라도 콘텍스트 정보를 증가시키는 수단을 제공한다; 이 특허는 포인팅 디바이스와 음성 입력을 결합하여 사용함으로써, 콘텍스트 정보의 형태로서 명령의 지시대상 또는 타겟을 갖는 음성 커맨드를 증가시킨다. 증가된 계산 비용은 음성 입력과 포인팅 디바이스 입력을 독립적으로 처리하기 때문이다. 다른 예로서, 2002년 12월 24일자로 에릭 제이. 호르비츠(Eric J. Horvitz)에게 이슈된 미국 특허 No 6,499,025 B1는 멀티 센싱 모델리티를 통합하는 방법론을 개시한다. 각각의 부가된 센싱 모델리티와 함께, 베이지안 추론 엔진 (Bayesian inference engine; 126)이 부가되고, 계산도 비례하여 증가된다.

그러나, 이러한 참조 문헌들의 각각은 하나 이상의 단점에 시달리고 있다. 따라서, 향상된 정확도를 가지면서 계산은 증가시키지 않는 더욱 효율적인 시스템의 개발이 요구된다.

배경 기술 부분에서 개시된 상술한 정보는 단지 본 발명의 배경의 이해를 높이기 위한 것이며, 따라서 그 정보는 당업자에게 이미 공지된 선행 기술을 형성하지 않는 정보를 포함할 수도 있다.

본 발명은 음성 신호를 수신하는 음성 신호 모델리티; 상기 음성 신호가 입력되는 동안, 음절 경계, 단어 경계, 동음이의어, 운율 또는 억양으로부터 발생하는 다의성(ambiguity, 多義性)를 판독하는데 도움이 되도록 소정의 입력들로부터 선택된 입력을 사용자로부터 수신하고, 상기 입력으로부터 제어신호를 생성하는 제어 신호 모델리티; 및 상기 음성 신호와 상기 제어신호를 수신하여 통합하는 다중 모드 통합 시스템을 포함하는 다중모드 조음(調音; articulation) 통합 시스템을 제공하며, 상기 다중모드 통합 시스템은, 상기 음성 신호를 음성(phonetic) 프레임들로 이산화(discretization)함으로써 상기 음성 신호의 발화(spoken utterance; 發話)의 콘텍스트의 범위를 결정하는 추론 엔진을 포함하며, 상기 추론 엔진은 상기 제어 신호와 통합되는 이산화된 상기 음성 신호를 분석하여 인식 결과를 출력한다.

본 발명은 다중모드 통합 체계를 이용하여 핸드헬드 PDA 또는 모바일 폰과 같은 전자 디바이스 또는 컴퓨터를 제어하는 시스템 및 프로세스에 관한 것이며, 다중모드 통합 시스템에서는 복수의 사용자 통신 모델리티로부터의 제어 신호들과 음성 기반 입력을 결합하여 사용자로 하여금 쌍방향으로 커맨드 추론 프로세스를 조정할 수 있게 한다. 음성 기반 입력 및 제어 신호들은 함께 처리되어 일련의 커맨드들 및 콘텍스트 정보를 생성한다. 커맨드들은 단어들 또는 어구들일 수 있으며, 이에 한정되는 것은 아니다. 그러나, 딕테이션(dictation) 또는 단순한 키보드용 대체물보다 더 큰 범위를 포함하도록 의도하는 용법을 설계할 수 있다. 현대 컴퓨팅 환경은 몇몇 애플리케이션들에 대해 멀티-태스크를 수행하며, 각각의 애플리케이션은 자체적으로 복잡한 인터페이스를 가진다. 윈도우 및 GUI 하에서, 포인팅 디바이스 및 키보드 기반 입력은 지배적인 상태이다. 본 특허의 신규한 통합 접근법은 음성 입력과 함께 인터페이스의 일 형태에 대한 대체물로서가 아닌 컴퓨팅 환경에 완전하게 인터페이싱하는 독립된 수단을 제공한다. 또한, 이러한 새로운 패러다임은 모바일 디바이스들에 인터페이싱할 때 발견되는 제약들을 극복하는데 도움이 된다. 콘텍스트 정보는 애플리케이션 환경에서 커맨드의 처리를 용이하게 한다. 콘텍스트 정보는 음성 커맨드의 타겟, 구어 커맨드의 언어, 이전에 승인된 커맨드들의 이력, 및 다른 애플리케이션에 특정된 상세사항들에 관한 정보일 수 있으며, 이에 한정되는 것은 아니다. 또한, 통합 체계에서 시너지 효과가 얻어지며, 통합 체계는 음성 신호의 전처리를 용이하게 하는 신호들(cues)로서 제어 신호들에 영향을 미친다.

도 1은 관련 선행 기술들의 분류를 도시하는 다이어그램이다.
도 2는 본 발명에 따른 일 실시형태의 고급 기능 개략도이다.
도 3은 본 발명의 실시형태에 따른 프로세싱 모듈의 구성요소를 도시한다.
도 4는 본 발명의 실시형태에 따른 음성 인식 및 제어 신호 통합 시스템의 블록 다이어그램이다.
도 5는 음성 입력 및 제어 신호의 내부 프로세싱을 도시하는 것으로서, 동작 중인 소프트웨어 컴포넌트의 예시적 스냅샷이다.
도 6은 중국어 톤(tone)의 예, 및 그 톤에 대응하는 터치스크린 상의 소정 형상을 도시한다.

본 발명의 일 목적은 디바이스 인터페이싱을 위한 다중모드 조음 통합 시스템을 제공하는 것이다.

본 발명의 다른 목적은 쌍방향의 연속 음성 기반 음성(phonetic) 인간 기계 인터페이스를 제공하는 것이다.

본 발명의 다른 목적은 연속적인 음성 신호에 별개의 제어신호들을 부가하는 방법을 제공하는 것이다.

본 발명의 다른 목적은 이러한 다중모드 통합 체계를 이용하여 음성 프레임들으로 전처리하고 이산화하는 것이다.

본 발명의 다른 목적은 최소 메모리와 프로세싱 요건으로 대용량 어휘를 갖는 효율적 연속 음성 기반 음성 입력 시스템을 제공하는 것이다.

본 발명의 또 다른 목적은 커맨드 및 증가된 콘텍스트 정보를 인식하는 것이다.

본 발명의 일 실시형태에 따르면, 다중모드 조음 통합 시스템은 음성 신호를 수신하는 음성 신호 모델리티, 상기 음성 신호를 수신하는 동안, 음성 정보에 직접적으로 대응되는 소정의 입력들로부터 선택된 하나의 입력을 사용자로부터 수신하고, 상기 입력으로부터 상기 음성 신호의 음성 정보를 운반하게 하는 제어 신호를 생성하는 제어 신호 모델리티, 및 상기 음성 신호와 상기 제어신호를 수신하여 통합하는 다중 모드 통합 시스템을 포함하며, 상기 다중모드 통합 시스템은, 상기 음성 신호를 음성(phonetic) 프레임들로 이산화함으로써 상기 음성 신호의 발화의 콘텍스트의 범위를 결정하는 추론 엔진을 포함하고, 상기 추론 엔진은 상기 제어 신호와 통합되는 이산화된 상기 음성 신호를 분석하여 인식 결과를 출력한다.

본 발명의 일 실시형태에 따르면, 상기 음성 신호는 연속적인 스피치(speech)의 신호를 포함하고, 상기 추론 엔진은 연속 스피치 인식기를 포함한다.

본 발명의 일 실시형태에 따르면, 상기 음성 신호는 고립된 단어 스피치의 신호를 포함하며, 상기 추론 엔진은 고립 단어 발성 인식기를 포함한다.

본 발명의 일 실시형태에 따르면, 상기 음성 신호 모델리티는 마이크로폰, 인공 음성 생성기 및 이들의 조합으로 구성되는 그룹 중에서 선택된 적어도 하나를 포함한다.

본 발명의 일 실시형태에 따르면, 상기 제어 신호 모델리티는 키보드, 마우스, 터치스크린, 무선 포인팅 디바이스, 안구-추적 디바이스, 뇌-기계 인터페이스 및 이들의 조합으로 구성되는 그룹 중에서 선택된 적어도 하나를 포함한다.

본 발명의 일 실시형태에 따르면, 터치 및/또는 펜 기반 제어 신호 입력을 위하여 표시되는 비침습(non-invasive) 온-스크린 대화 매니저 인터페이스를 더 포함한다.

본 발명의 일 실시형태에 따르면, 상기 사용자로부터의 상기 입력은 상기 키보드의 소정 키를 누르는 것, 상기 터치스크린의 소정 영역에서 소정 패턴으로 터치스크린을 탭하는 것, 상기 터치스크린의 소정 영역에서 소정 패턴으로 터치 스크린을 스트로킹하는 것, 그리고 소정 패턴으로 상기 마우스를 움직이는 것으로 구성된 그룹 중에서 선택된 적어도 하나를 포함한다.

본 발명의 일 실시형태에 따르면, 상기 제어 신호 모델리티는 터치스크린이고, 상기 사용자로부터의 상기 입력은 소정 개수의 손가락들로 소정 영역 상에서 상기 사용자가 말한 각 음절 또는 단어에 대해 각각 상기 터치스크린 상에서 상기 사용자가 탭하거나 또는 스트로킹 하는 것 중 적어도 하나에 의해 생성된다.

본 발명의 일 실시형태에 따르면, 상기 음성 신호를 양자화된 입력 스트림으로 변환하는 아날로그-디지털 변환 모듈, 및 상기 양자화된 입력 스트림을 벡터들의 프레임들로 변환하는 스펙트럼 특성 추출 모듈을 더 포함한다.

본 발명의 일 실시형태에 따르면, 상기 추론 엔진은, 상기 벡터들의 프레임들을 내재적(internal) 음성 표현으로 매핑하는 음향 모델, 언어 모델, 상기 발화가 어떻게 해석되는지 판단하기 위하여 상기 언어 모델과 연동하는 대화 매니저를 포함한다.

본 발명의 일 실시형태에 따르면, 상기 입력은 상기 대화 매니저 및 상기 언어 모델 중 적어도 하나를 위한 콘텍스트 정보를 더 포함하며, 상기 콘텍스트 정보는 어떤 언어가 사용되는지, 발화가 실행되거나 또는 번역(transcribe)되어야 하는지 여부, 그리고 상기 음성 신호가 구두점, 프로그래밍 언어 토큰, 또는 소정의 어휘 서브세트로부터의 어구와 관련되는지 여부로 구성되는 그룹 중에서 선택된 적어도 하나를 나타낸다.

본 발명의 일 실시형태에 따르면, 상기 제어 신호는 변이음들, 음절 경계들, 단어 경계들, 운율들, 및 억양들로 구성된 그룹 중에서 선택된 적어도 하나에서의 다의성으로부터 상기 음향 모델이 추론하는 것을 용이하게 한다.

본 발명의 일 실시형태에 따르면, 상기 추론 엔진은 상기 제어 신호에서의 오정렬(mis-alignments)을 허용한다.

본 발명의 일 실시형태에 따르면, 상기 제어 신호는 동음이의어의 다의성으로부터 상기 언어 모델이 추론하는 것을 용이하게 하다.

본 발명의 일 실시형태에 따르면, 상기 제어 신호는 상기 대화 매니저에서의 커맨드의 해석을 용이하게 한다.

본 발명의 일 실시형태에 따르면, 성문 펄스 생성 제어는 제어 신호로서 역할을 하고, 그 역도 성립한다.

본 발명의 일 실시형태에 따르면, 본 발명의 시스템은 입력을 수신하는 동안 동시에 실행되는 상기 추론 엔진으로부터 n 개의 최적 후보들의 부분 결과를 확인하는 확인 프로세싱을 더 포함한다.

본 발명의 일 실시형태에 따르면, 휴대용 디바이스는 다중모드 조음 통합 시스템을 구비한다.

본 발명의 일 실시형태에 따르면, 네비게이션 시스템은 다중모드 조음 통합 시스템을 구비한다.

본 발명의 일 실시형태에 따르면, 다중모드 조음 통합을 수행하는 방법은 음성 신호를 수신하는 단계, 상기 음성 신호를 수신하는 동안, 음성 정보에 직접적으로 대응되는 소정의 입력들로부터 선택된 하나의 입력을 사용자로부터 수신하는 단계, 상기 사용자로부터, 상기 음성 정보에 직접적으로 대응되는 소정의 입력들로부터 선택된 상기 입력으로 제어 신호를 생성하여, 상기 제어 신호로 하여금 상기 음성 신호의 음성 정보를 운반하도록 하는 단계, 상기 음성 신호와 상기 제어 신호를 통합하는 단계, 상기 음성 신호를 음성 프레임들로 이산화하여 상기 음성 신호의 발화의 콘텍스트의 범위를 결정하는 단계; 및 상기 제어 신호와 통합되는 이산화된 상기 음성 신호를 분석하여 인식 결과를 출력하는 단계를 포함한다.

본 발명의 일 실시형태에 따르면, 상기 음성 신호는 중국어 또는 일본어에 대한 것이고, 상기 음성 신호와 상기 제어 신호의 통합은 인위적인 로마자표기를 수행하지 않으면서 음성 프레임들로 처리하고 이산화하는 단계를 포함한다.

본 발명의 일 실시형태에 따르면, 상기 입력은 중국어의 톤 레벨들에 대응되는 소정의 형상으로 터치스크린을 터치하여 입력하는 것을 더 포함한다.

상술한 본 발명의 보다 완벽한 이해뿐만 아니라 본 발명의 특징들 및 이점들은 첨부된 도면과 다음의 상세한 설명의 검토를 통해 명백해 질 것이다.

본 발명에 대한 다음의 상세한 설명에서는, 발명의 일부를 형성하는 첨부 도면이 참조되며, 이 도면에는 본 발명이 실시될 수 있는 구체적인 실시예가 예시적으로 도시된다. 본 발명의 범위를 벗어나지 않으면서, 다른 실시형태들이 이용될 수도 있고, 또한 구조적인 변경들이 행해질 수도 있음은 이해될 수 있을 것이다.

제어 신호는 음성 스트림의 디코딩을 돕는 보완적인 정보 스트림으로서 정의된다. 이러한 제어 신호는 몸짓, 키보드 입력, 포인팅 디바이스 입력, 멀티-터치 스크린, 안구-추적 디바이스 입력, 뇌 기계 인터페이스 입력 (brain machine interface input) 등을 포함할 수 있다.

일상 대화에서, 몸짓 및 바디 랭귀지는 이해에 도움이 된다. 예를 들어, 대화중에 사물을 가리키는 것은 어떤 사물이 언급이 되고 있는지를 명확히 하는데 도움이 될 수 있다. 이러한 가리키는 몸짓은 이해에 도움이 되지만, 듣는 사람이 더 잘 듣게 하는 데는 도움이 되지 않는다. 또한, 종래 기술에서 사용되는 가리키는 몸짓은 음성 정보와는 관련이 없다. 음성 정보는 스피치 소리(음)의 물리적 속성과 관련이 있고, 시맨틱(semantic) 정보는 그 의미와 관련이 있다. 본 발명의 일 실시형태에 따라 제어 신호를 병합하는 목적은 시맨틱 레벨뿐만 아니라 음향 및 음성 레벨에서 음성-기반 입력의 디코딩을 향상시키는 것이다.

또한, 음성-기반 입력의 이산화을 용이하게 하기 위하여, 제어 신호 모델리티(modality)가 선택된다. 더욱 상세하게는, 완전한 ASR((Automatic Speech Recognition; 자동 스피치 인식)은 컴퓨터로 하여금 튜링-완전성(Turing-complete) 레벨의 정교함에 도달할 것을 요구한다. 구어(spoken language) 대신에 수화(sign language)를 사용하는 것은 그러한 상황을 개선하지 못한다. 그러나, 정교한 몸짓을 완수하지 않더라도 또는 수화에 대한 이해가 없더라도 손동작을 통해 실질적으로 현대의 모든 일상 디지털 디바이스들에 인터페이싱 한다. 이는 손동작이 키보드 입력 또는 포인팅 디바이스 입력으로 이산화되기 때문에 가능하다. 이러한 이산화 트릭(discretization trick)의 도움으로, 음성-기반 입력 또한 완전한 ASR에 도달하지 않더라도 디바이스들을 제어하는 방식으로 사용될 수 있다.

본 발명의 일 실시형태에 따르면, 다중모드의 조음 모델리티들을 결합하여 디바이스 인터페이싱을 가능하게 한다.

우리는 종래 기술에서 SRS(Speech Recognition Systems)에서의 어려움의 원인을 설명하였다.

키보드 또는 포인팅 장치와 같이 이산화된 입력 모델리티와 다르게, 추론 엔진은 음성-기반 입력을 디코딩한다. 이러한 추론은 다중 레벨: 1. 종료점 판단, 2. 단어 구분, 3. 단어 추론, 4. 음성 추론과 같은 복수의 레벨에서 수행된다. 첫 번째로, 쌍방향 SRS의 주요 문제는 입력 장치를 동작시키고 정지시키는 데 있다. 종래 기술에서의 해결방안은 문장의 시작과 종료를 추론하기 위하여 자동 에너지기반(energybased) 스피치/침묵(speech/silence) 검출기를 이용한다. 두 번째로, 단어 경계(word boundaries)가 추론된다. 예를 들어, "ice cream"은 "I scream"과 "eyes cream"과 동일한 음성 표현을 공유한다. 세 번째로, 동음이의어는 언어 모델과 같이, 콘텍스트에서 명확하게 되어야 한다. 마지막 네 번째로, 단어의 음성 표현에 있어서 불일치가 또한 추론된다. 2 개의 음소(phoneme)가 동일한 아이덴티티(identity)를 가지지만 상이한 좌측 또는 우측 콘텍스트를 가지는 경우, 그 것들은 상이한 트리폰(triphone)들로 간주된다. 하나의 음소의 복수 개의 실현(realization)들을 "변이음(allophone; 變異音)"들이라 부른다. 일관성 없는 변이음들의 실현은 특히 'the' 또는 'a'와 같은 짧은 기능어들(function words)을 갖는 단어 경계들 상에서의 동시조음(coarticulation) 및 연접(juncture; 連接) 효과에 기인한다. 동일한 좌측 및 우측 콘텍스트 아이덴티티(identity)를 가지는 경우에도, 상이한 단어 위치에서 상당히 다른 음의 실현이 있을 수 있으며, 이는 규칙 기반(rule based) LTS (letter-to-sound) 시스템을 불가능하게 한다. 예를 들어, 단어 "because"는 15 개 이상의 상이한 발음 변화를 가진다. 단어 경계들 및 음성 추론에 대한 해결 방법은 일반적으로 트리폰들(tri-phones) 및 서브폰(sub-phone) 모델들에서 양성된 추론 엔진을 포함한다. 빈번하게, 추론 엔진은 구분(segmentation) 및 디코딩 엔진으로서 두가지 기능을 가진다. 복잡한 문제는 각각의 다의성(ambiguity, 多義性)의 원인으로부터 합성된다.

좋은 LTS를 갖는 언어에 대해서도, 대부분의 추론 엔진들에 있는 일시적인 스피치 구조의 부적절한 표현에 기인하여 어려움이 발생한다. 일본어에는 단지 50개의 음절들이 있다. 그러나, 운율(prosody)은 음성학적으로 유사한 시퀀스를 구별하기 힘들게 한다. 예를 들어, "koko"는 여기(here)를 의미하지만, "ko-ko"는 8개의 상이한 단어들 중의 하나 일 수 있고, "koko-"는 9개의 상이한 시맨틱 매핑(mapping)들을 가지고, 마지막으로 "ko-ko-"는 22개의 상이한 시맨틱 매핑을 가진다. 또한, 중국어는 Pinyin 음역(transliteration) 방법론에 따르면 단지 56개의 기본 소리(sound)를 가진다. 모든 조합들을 생각해 보면, 가능한 개수는 413개이다. 그러나, 억양(intonation) 때문에, 실제 고유 음절들의 개수는 약 1600개이다. 예를 들어, 같은 소리 "ma"는 5개의 상이한 톤을 가지며, 각각은 의미론적으로 다르다. 동시발음(coarticulation)의 문제와 마찬가지로, 억양은 엄격한 규칙을 따르지 않으며, 추론을 요구한다. 단어 구분(word segmentation) 및 LTS가 영어에 있어서 다의성의 원인이라면, 운율은 일본어에 있어서 추론을 복잡하게 하고, 중국어에 대해서는 억양이 추론을 복잡하게 한다.

본 발명의 일 이상의 실시형태들에 의해 제공되는 해결 방안은 음성 기반 입력 모델리티와 다른 입력 모델리티들의 조음들을 결합하여 추론을 용이하게 하는 것이다. 예를 들어, 터치 스크린 인터페이스는 영어 기반 커맨드들에 대한 단어 경계들을 표시하는데 도움을 줄 수 있다. 또한, 구두점 및 애플리케이션 특정 커맨드(application specific command) 등과 같은 비영어 커맨드와 영어 기반 커맨드 사이에서 고속 콘텍스트 스위칭이 제공될 수 있다. 예를 들어, 탭(tap)과 같은 모스 부호(morse-code)는 일본어 기반 커맨드에 대해 명시적 음절 경계들 및 운율을 만들 수 있다. 예를 들어, 스트로크-기반(stroke-based) 입력은 중국어 기반 커맨드에 대해 억양 및 음절 경계들을 명시적으로 표시할 수 있다. 이는 장치들로 하여금 더 잘 이해하게 할 뿐만 아니라 더 잘 들을 수 있게 한다.

본 발명의 일 실시형태는 컴퓨터 추론에서 맥거크 효과(McGurk effect)에 상당하는 것을 이용한다. 인간들에 있어서, 입술 움직임 및 얼굴 표정과 같은 시각적 신호들은 인식 레벨에서 의미를 추론하는데 도움이 될 뿐만 아니라, 무의식적으로 음성 및 음향 특징들을 추출하는데 도움을 줄 수 있다. 마찬가지로, 본 발명의 일 실시형태는 제어신호들을 이용하고 음성 모델리티의 조음을 다른 모델리티와 통합하여 시맨틱 특징들뿐만 아니라 음성 및 음향 특징들을 추론한다.

우리는 함축적으로 삽입된 정보를 명시적으로 만드는 처리를 이산화라고 부른다. 이산화는 코드 도메인 또는 시간 도메인일 수 있는 해결 공간(solution space) 크기의 감소를 가져온다. 예를 들어, 시계열의 특성 벡터들(feature vectors)을 일련의 음소들로 구분하는 것은 시간 및 코드 도메인 모두에서 크기의 감소를 가져온다. 예를 들어, 일련의 음소들을 일련의 음절들로 그룹화하는 것은 시간 도메인의 크기의 감소를 가져온다. 예를 들어, 각 음절의 억양을 추론하는 것은 삽입된 정보를 명시적으로 만든다.

본 발명의 일 실시형태는 도 2에 도시된 바와 같이 컴퓨터에 의해 실행가능한 프로그램 모듈들과 같은 컴퓨터-실행가능한(computer-executable) 명령들(5)의 일반적인 맥락에서 설명된다. 일반적으로 프로그램 모듈들은 특정 작업들(tasks)을 수행하거나 또는 특정한 추상적 데이터 형태들(abstract data types)를 구현하는 루틴들(routines), 프로그램들, 오브젝트들(objects), 콤포넌트들(components), 데이터 구조들(structures) 등을 포함한다.

시스템에서의 입력 및 출력의 흐름은 도 2에 도시된다. 음성-기반 입력(2)은 기계에 직접 부착된 마이크로폰, 전화 통신 시스템(telephony system)으로부터의 디지털화한 음성 스트림 또는 IP 폰 시스템과 같은 음성 모델리티(1)로부터 나올 수 있다. 음성기반 입력(2)은 또한 1989년 4월 11일자로 노먼 맥레오드(Norman MacLeod)에게 이슈된 것으로 여기서 병합되어 참조되는 미국특허 No 4,821,326에 개시된 바와 같은 비가청(non-audible) 인공 발성 생성기로부터 나올 수도 있다. 제어 신호(4)는 키보드, 포인팅 디바이스, 멀티-터치 스크린, 뇌-기계 인터페이스 등을 포함하는 입력 모델리티(3) 중 어느 하나로부터 나올 수 있다. 애플리케이션 특정(application specific)을 통한 최종 출력은 2 개의 카테고리로 특정될 수 있다. 커맨드 출력(6)은 실제 단어, 어구(phrase), 문장, 커맨드 및 다른 특정 명령을 포함할 수 있다. 콘텍스트 정보 출력(8)은 커맨드 출력(7)의 번역 및 흐름을 지시하는 다른 정보를 포함할 수 있다.

본 발명의 일 실시형태에 따른 인터페이스 엔진인 처리 모듈(5)의 구성요소들은 도 3에 도시된다. A/D 변환 모듈(301)은 음성-기반 입력을 양자화된 입력 스트림으로 변환한다. 스펙트럼 특성 추출 모듈(302)는 양자화된 입력 스트림을 벡터들의 프레임들로 변환한다. 입력을 주변 잡음, 채널 왜곡 및 스피커 편차를 완화시키는 새로운 공간으로 변환시키기 위해 전처리를 수행할 수 있다. 가장 흔하게 이용되는 특성들은 MFCCs(Mel-Frequency Cepstral Coefficients) 또는 PLP (Perceptual Linear Prediction)이다. 제어 신호 처리 모듈(303)은 추론을 위해 제어 신호를 이산화한다. 대부분의 SRE(Speech Recognition Engine)들은 HMM (Hidden Markov Model)을 사용한다. 제 1 및 제2 차이 계수들(difference coefficients) 및/또는 로그(log) 에너지 레벨과 같은 부가 데이터를 특성 벡터에 증가시키는 것은 실제로 흔한 일이다. 특성 벡터 증가(feature vector augmentation)로서 기존의 HMM을 연장시키거나, 또는 다른 추론 엔진을 사용하여 HMM과 병합함으로써, 제어 신호는 음향 모델에 병합될 수 있다. 구분(segmentation) 및 추론을 위한 더욱 최근의 방법은 MEMM (Maximum Entropy Markov Model) 또는 CRF(Conditional Random Field)를 이용한다. 음향 모델 모듈(310)은 벡터들의 프레임들을 함축적 음성 표현으로 매핑한다. 다수개의 모델들이 특성들을 음성 표현으로 매핑하기 위하여 존재하며, 가우시안(Gaussian), 믹스처(mixture), 및 MLP (Multi-layer perception)를 포함한다. 음성 표현은 종종 음소-기반이 아니라 오히려 트리폰 또는 서브-음소(sub-phoneme)들로 모델링된다. 디코더 모듈 311은 추론을 처리한다. 언더 모델 모듈(312) 및 대화 매니저 모듈(313)은 디코더 모듈(311)과 밀접하게 연동한다. 또한 그래머(grammar)로 불리는 언어 모델은 단어들 사이의 구조적 관계를 모델링하며, 이는 디코딩 시에 사전확률(事前確率; prior probability)로 사용된다. 전화통신 애플리케이션들(IVR-쌍방향 음성 응답) 및 몇몇 데스크탑 커맨드 및 제어 애플리케이션들(Command and Control Applications)에서의 대화 매니저는 SRE에 의해 인식되는 단어들에 의미를 할당하고, 그 발화(utterance)가 지금까지 말한 대화에 얼마나 일치하는지를 판단하고, 다음으로 무엇을 할지를 결정한다. 딕테이션 애플리케이션에서, 대화 매니저는 그 말이 어떻게 문자화되는지- 예를 들어, 발성 구간이 문자 단어 또는 구두점을 표현하는지 여부를 판단한다. 마찬가지로, 본 발명의 일 실시형태에 따른 대화 매니저(313)는 추론에 콘텍스트를 제공하여, 딕셔너리(dictionary)를 변경시키거나 또는 커맨드가 디코딩 중에 어떻게 해석되는지 판단한다. 실제 HMM에 의한 디코딩을 위해, 비터비(Viterbi) 또는 빔 탐색(beam search)과 같은 비터비의 파생물이 사용될 수 있다. 또한, 다중-경로 디코딩 또는 A* 디코딩도 가능하다. 디코딩의 결과는 n 개의 최적 후보들(possibilities)로 감소될 수 있다. 확인(confirmatory) 제어신호가 디코딩 중에 수신되는 경우, 확인 제어 신호는 부가된 콘테스트 정보로 인해 결과적으로 디코딩 프로세스에 긍정적으로 영향을 미친다. 디코딩은 본 발명의 실시형태에서 동시에 동작하는 모든 구성요소들을 포함한다. 도 3에 도시된 바와 같이, 제어 신호 프로세싱 (303)은 음향 모델(310)과 디코더(311), 언어 모델(312) 및 대화 매니저(313)의 집합체로 공급된다. 제어 신호는 쌍방향으로 그리고 동적으로 프로세스 중에 디코딩을 제어한다.

전처리 및 후처리를 더욱 상세하게 설명하는 절차적 단계들이 도 4에 도시된다. 요약하면, 음성-기반 입력(150)은 아날로그-디지털(A/D) 변환기(151)에서 디지털화되고, 스펙트럼 특성은 고속 푸리어 변환 연산 유닛(155: FFT; fast Fourier transform operation unit)을 통해 추출된다. 동시에, 제어 신호 입력(153)이 아날로그-디지털(A/D) 변환기(154)에서 디지털화된다. 디코딩(170)은 전처리(155), 동적 프로그램밍(DP; dynamic programming) 매칭(156), 및 후처리(159)로 구성된 복합 프로세스이다. DP 얼라인머트 (동적 프로그래밍 얼라인먼트; Dynamic Programming alignment), 동적 타임 워핑(dynamic time warping), 및 원패스 디코딩(onepass decoding)과 같은 용어가 흔히 사용되고 있지만, 우리는 빔 탐색과 같은 비터비 (Viterbi) 기반 알고리즘과 같은 의미로서 일반적 의미인 용어 동적 프로그래밍(DP) 매칭(156)을 사용한다. 상술한 바와 같이, MEMM 또는 CRF과 같은 다른 추론 알고리즘들이 함께 사용될 수 있다.

후처리(159)에서의 확인 프로세스에 관해서는, 최상의 실시예로서 일본어 및 중국어 입력 시스템을 구현할 수 있다. 종래 기술에서의 키보드 기반 입력을 위해서, 일본어 및 중국어 입력은 확인 프로세싱을 거친다. 종래 기술에서 일본어를 컴퓨터에 입력하기 위해서는, 로마자로 바꿔쓰기(transliteration) 단계가 필요하다. 알파벳 키보드 입력은 46개의 문자로 구성된 히라가나로 불리는 일본어 음성 표현으로 매핑된다. 각 단어가 구분될 때, 음성 표현은 간지라고 불리는 중국 문자들에 기반한 시맨틱 표현으로 변환되며, 중국 문자들은 2000 내지 4000 개의 문자들의 범위를 가진다. 변환 처리 중에, 컴퓨터는 n 개의 최적 후보들을 제안하고, 그 때 사용자는 선택하여 확인을 한다. 중국어를 위한 키보드 기반 입력 시스템은 Pinyin라고 불리는 음성 로마자쓰기와 유사한 체계를 채택하여 왔다. 중국어 및 일본어를 로마자로 바꿔쓰기하는 것은 드보락/쿼티(Dvorak/Qwerty) 키보드 배열 만큼 단순히 사회적 관습이다. 본 발명의 일 실시형태는 명확화(disambiguation)를 위한 확인 프로세싱을 공유할 수도 있지만, 본 발명의 이 실시형태는 키보드-기반 로마자 바꿔쓰기 단계에 대한 다른 방안을 제공한다. 상술한 바와 같이, 본 발명의 일 실시형태에 따르면 스피치를 문어 형태로 변환하는 것은 쌍방향 통신을 위해 불필요하다.

우리는 다른 실시예를 통해 후처리(159)를 설명한다. 구글, 또는 아마존과 같은 인터넷 사이트들 상의 질문 박스는 그 질문이 입력될 때 n 개의 최적 후보들을 표시한다. 프로세스 중에, 희망하는 입력이 선택되고 확인되면, 디코딩을 매우 단순화 할 수 있으며, 심지어 완전히 입력하지 않고도 끝낼 수 있다. 따라서, 후처리는 완전한 입력(음성-기반 입력 및 제어 신호 입력)을 기다리지 않는다. 실시되고 있는 SRE들은 후처리를 위해 말이 끝날 때까지 기다렸다가 n 개의 최적 후보들 중 확인을 받는다. 후처리(159)는 전처리(155)와 동시에 실행된다. 후처리(159)는 전처리(155)를 조정한다. 각각의 확인된 데이터를 이용하여, 디코딩이 불필요한 것들을 제거할 것 같지는 않다. 앞서 언급한 바와 같이, 제어 신호를 통해서 디코딩은 프로세스 중에 쌍방향으로 그리고 동적으로 조정된다. 대부분의 SRE에서, 전처리(155) 및 후처리(159)는 순차적으로 실행된다. 그 용어들은 기능적 역할에 관심을 끌기 위하여 여기서는 유지된다. 그러나, 본 특허출원에서 후처리(159)는 멀티스레드 구성(multi-threaded configuration)으로 동시에 실행되고, 도 4에 도시된 바와 같이, 전처리(155)에서의 디코딩의 흐름을 제어한다.

조정의 산재(interspersed) 및 쌍방향의 측면을 기술하면서, 우리는 조정의 본질을 명확히 한다. 다른 몸짓 또는 안구-추적 기반 모델리티들과 달리, 조정은 다수개의 레벨에서 발생하며, 시맨틱 표현에 한정되지 않는다. 조정은 음향 모델(310), 언어 모델(312) 및/또는 대화 매니저(313)를 통해 추론에 도움을 줄 수 있다.

도 1에서 설명한 분류와 관련하여, 본 시스템에서 입력 스트림들의 전처리는 명시적 소프트웨어-구동 조정(116)에 가장 가깝게 해당한다. 우리는 "명시성(explicit-ness)"과 "소프트웨어-구동(software driven-ness)", 그리고, 왜 본 특허가 정확하게 특정 카테고리에 해당되지 않는지를 상세히 설명한다. 추론은 제어 신호를 통해 "명시적으로(explicitly)" 조정된다. 하드웨어-구동 조정과 달리, 본 발명에서 제공되는 소프트웨어-구동 조정은 제어 신호에 대해 약간의 오정렬(misalignment)을 허용할 수도 있다. 운율 또는 구분 오정렬 정정은 음향 모델(310)에서 수행되며, 이는 서브-음소 모델에서 구현될 수도 있다. 추론 엔진은 이러한 오정렬과 같은 신호 품질의 열화를 조절하도록 설계된다. 추론 엔진에 대한 신뢰로 인해, 조정 프로세스에는 다소의 "함축성(implicit-ness)"가 존재한다. 그러나, 자동 에너지-레벨 기반 구분과는 달리, 인터에너지(interenergy)-레벨 구분은 "명시적으로" 가능하다. 조정은 "소프트웨어" 구성요소, 즉, 음향 모델(310), 언어 모델(312), 및 대화 매니저(313)에서 발생한다. 하지만, 제어 신호 자체는 키보드, 포인팅 디바이스, 안구-추적 디바이스, 멀티-터치 스크린, 또는 뇌-기계 인터페이스와 같은 "하드웨어" 입력에 의존한다.

도 5는 제어 신호를 사용하여 단어 경계들을 추론하는 절차를 설명하기 위하여, 단순화된 형태의 이진(binary) 제어 신호를 도시한다. 통합 체계에서, 콘텍스트 정보를 운반하는 것은 제어 신호이다. 예를 들어, 누를 키를 변경하거나, 또는 탭하는 터치-스크린의 영역을 변경함으로써 제어 신호가 삽입될 수 있다. 또한, 예를 들어, 그러한 콘텍스트 정보는 음성 언어가 영어 단어, 구두점, 프로그래밍 언어 토큰(token), 또는 소정 어휘 서브세트로부터의 어구로 해석되어야 할지를 나타낼 수 있다. 이러한 설정들은 애플리케이션 특성 및 사용자 특성에 맞게 설정되며, 따라서, 계산 방법에 기초한 프로그램 주문제작(coustomization) 및 소프트웨어 활용(softwaretraining)을 위해 설정될 수 있다. 제어신호(203)에 의해 범위가 결정된 콘텍스트 정보 및 단어 경계들과 함께 식별된 음소들(202)을 이용하여, 동적 프로그램 계산에서 불필요한 부분을 제거함으로써, 계산이 매우 감소된다.

또한, 효율 이득에 직접적인 영향을 미치는 제어 신호 모델리티의 종류가 신중하게 선택된다. 직접적인 영향을 미친다는 것은 제어 신호 자체가 직접적으로 예를 들어, 단어 경계들과 같은 음성 정보에 대응되고, 계산을 요구하는 추론 엔진을 필요로 하지 않는다는 것을 의미한다. 종래 다중모드 통합 체계는 입력들의 결합을 포함하며, 입력들 각각은 프로세싱을 필요로 하며, 입력들 자체는 거의 시너지 효과를 갖지 못했다. 본 발명의 일 실시형태에 따른 통합 체계는 계산 자원(resources) 또는 전력 사용과 같은 프로세싱을 거의 필요로 하지 않는 제어 신호를 프로세싱을 필요로 하는 음성 입력과 결합함으로써 시너지 효과를 최대화하기 위한 것이다. 콘텍스트 스위칭 및 프리-필터링은 계산을 요하는 추론 엔진 없이 명시적 제어 신호를 통해 실행된다. 계산 요건이 비례적으로 증가하지 않을 뿐만 아니라, 전체적인 시너지 효과는 연속 음성 인식 시스템 만에 의해 요구되는 계산 요건 아래로 계산을 감소시킨다. 이는 특히 프로세싱 제약들 및 배터리 한도가 결정적인 모바일 디바이스들의 애플리케이션에 대해 실시간 프로세싱을 가능하게 한다.

이하, 본 발명은 다음의 실시예들을 제공함으로써 더욱 상세하게 설명된다. 실시예들은 예시적 목적를 위한 것이며, 본 발명의 범위를 한정하는 것이 아니다.

실시예 1

본 발명의 실시예 1에 따른 음성 인식 시스템이 설명된다. 본 발명의 시스템에 따르면, 프로세싱 모듈은 소프트웨어로서, 더욱 구체적으로는 운영 시스템(operating system)에 대한 인터페이스로서 구현된다. 운영 환경은 개인 컴퓨터들, 서버 컴퓨터들, 핸드헬드 디바이스들, 멀티프로세서 시스템들, 마이크로프로세서-기반 또는 프로그래밍 가능한 소비자 전자장치들, 네트워크 PC들, 미니컴퓨터들, 메인프레임 컴퓨터들, 모바일 폰들, 네비게이션 시스템 등을 포함하는 다양한 컴퓨터 시스템 구성들에서 구현될 수 있다. 본 발명의 일 실시형태에 따르면, 운영 환경은 멀티-포인트(multi-point) 터치-스크린을 갖는 개인용 컴퓨터이다. 음성 입력은 유무선 헤드셋을 통해 수신된다. 바람직하게, 제어 신호는 필요한 경우 터치-스크린, 또는 키보드/마우스를 통해 수신된다. 터치-스크린 또는 태블릿 PC의 경우, 플로우팅 인터페이스(floating inferface)가 터치 및/또는 펜-기반 제어 신호 입력을 위하여 표시된다. 액티브 애플리케이션이 부드럽게 동작하도록, 플로우팅 인터페이스는 드래깅(dragging), 리사이징(resizing), 또는 투명도-레벨 조절에 의해 조정될 수 있다. 또한, 플로우팅 인터페이스는 수신된 음소들 및/또는 단어들과 같은 피드백 정보를 표시할 수도 있다. 플로우팅 인터페이스는 또한 커맨드가 정확하게 인식되었는지 여부를 판단하는 확인(후처리) 입력을 수신할 수도 있다. 음성 입력이 어떻게 해석되어야 하는지에 대한 다른 구체적인 사항들, 즉 콘텍스트 정보 구성은 운영 시스템 셋업을 통해 커스터마이즈될(customized) 수 있다. 예를 들어, 일반적인 셋업은 플로우팅 인터페이스를 커맨드 영역, 딕테이션 영역 및 심볼 영역으로 분할할 수 있다. 예를 들어, 사용자는 각 단어를 갖는 커맨드 영역을 리드미컬하게 탭하면서, 헤드셋을 통해서 "파일을 열어라(open file)"와 같은 특정 커맨드를 말할 수 있다. 운영 시스템은 이를 인식하여 현재 액티브 애플리케이션을 열게 한다. 반면, 딕테이션 영역상에서 스크린을 탭하는 경우, 동일한 말 "파일을 열어라"는 텍스트 축어적 번역(verbatim)을 액티브 애플리케이션에 삽입할 것이다. 따라서, 말 "괄호(parenthesis)를 열어라"는 플로우팅 인터페이스의 어느 영역을 탭하는지에 따라 단어 자체 또는 ASCII 문자 "(" 로 해석될 수 있다. 가장 일반적인 용도를 벗어나서, IDE 또는 코드 에디터와 같은 복합 애플리케이션에 인터페이스 하기 위하여, 고속 콘텍스트 스위칭을 위해 복잡한 인터페이스가 안출될 수 있다. 멀티-티어 모델-뷰-제어(multi-tier Model-View-Control 소프트웨어 아키텍처에 이어, 뷰 레이어(플로우팅 인터페이스)가 개방형 API로 사용자에 의해 완전히 구성될 수 있다. 소프트웨어의 코어 및 모델 레이어는 언어 모델 및 시맨틱 모델을 제공한다. 인터페이스와 코어 레이어 사이에 음성 모델 및 콘텍스트-어휘 모델을 포함하는 제어 레이어가 있다. 알고리즘의 대부분은 추론 엔진을 이용하여 단어 경계들을 매칭시키고 DP를 사용하여 음소 시퀀스를 콘텍스트 특정 어휘 세트와 매칭시킨다. 언어 모델 및 시맨틱 모델은 인식된 토큰들을 의미적으로 일관성 있는 커맨드 및 콘텍스트로 후처리한다.

실시예 2

실시예 2의 음성 인식 시스템에 따르면, 음성 입력 신호는 속삼임 또는 무성의(unvoiced) 입술 움직임과 같은 비가청 스피치를 통해 생성된다. 예를 들어, 감시 활동, 군사 활동에서, 또는 단순히 말하는 동안 누군가 자신을 엿듣는 것을 원하지 않는 곳에서, 비가청 음성 인식 인터페이스를 위한 많은 애플리케이션들이 존재한다. 마찬가지로, 주위 또는 배경의 잡음이 매우 커서 통상적인 수준의 대화나 또는 심지어 공황, 전쟁터 또는 산업 환경과 같이 매우 큰 음성도 들리지 않는 많은 상황들이 있다. 마지막으로, 받아쓰기 경우 또는 도서관 같은 곳에서 가청 스피치 자체가 어색하고 산만한 경우들이 많이 있다.

비가청 음성 인식 인터페이스를 구현하기 위한 많은 방법들이 있다. 여기서 병합되어 참조되는 미국특허 No 5,884,257는 독순술(讀脣術) 방법을 개시한다. 여기서 병합되어 참조되는 미국 특허 No 4,821,326에서 개시된 바와 같은 인공 스피치 생성기에 의한 접근 방법이 비가청 음성 인식 인터페이스에 더욱더 적용가능하다. 상술한 특허는 초음파 성문(聲門) 펄스 생성(ultrasonic glottal pulse generation)을 통해 비가청 인공 스피치를 생성하는 수단을 개시한다. 입 동작으로 조용히 단어들을 말할 때, 초음파 성문 펄스가 초음파 검출기에 의해 형성되고 수신된다. 반송된(returned) 초음파 신호들은 비가청 음성 인식을 위해 사용될 수 있으며, 이를 통해 입 동작으로 계산 환경을 제어할 수 있다. 이와 같은 용도에서, 인공적으로 생성된 스피치는 인간 청자를 위해 의도된 것이 아니지만, 반송된 초음파 신호는 가청 주파수 범위로 변환될 수 있고, 피드백 목적으로 헤드폰을 통해 개인적으로 전송될 수 있다.

중국어 또는 태국어와 같은 성조언어(tonal language)의 경우, 톤 생성은 인공 스피치 생성시 고려할 사항들이 더 요구된다. 음소만으로는 동음이의어를 인식하기가 어렵다. 제어 신호의 모델리티를 선택하여 시너지 효과를 최대화하는 반면 요구되는 제약들을 만족시킬 수 있다.

중국어에서 톤들의 사용 예들이 도 6에 도시된다. 도 6은 음절 "ma"에 적용되는 표준 중국어(standard Mandarin)의 4가지 주요 톤들을 도시한다. 예를 들어, 사용자가 "ma"를 말하는 동안, 사용자는 터치 스크린 상에 소정의 형상을 만들어서 톤 레벨들을 표시할 수 있다. 이는 톤 레벨을 인식하는데 도움이 되고, 고립 단어 스피치 인식 프로세스 뿐만 아니라 연속 음성 인식 프로세스에서도 발화(uttrance)의 콘텍스트 범위를 정하는데 도움이 된다.

예를 들어, 비가청 음성 인식 시스템에서 중국어를 사용하는 경우, 톤 레벨은 터치패드 또는 터치-스크린 상에서 스트로크 동작에 의해 표시될 수 있다. 문자의 무성의 입술 동작과 함께 터치 패드 또는 터치 스크린에 획을 그어 톤의 5가지 가능한 변형 중 하나를 나타낼 수 있다(이는 중국 언어에 특정된 것이다). 상술한 바와 같이, 별개의 제어 신호를 선택하는 것은 성능 이득을 가능하게 한다; 이런 이유로 톤 변화는 5가지 경우로 단순화하면서 이산화할 수 있으며, 5가지 경우는 중국어의 경우에 충분한다. 헤드폰은 음소와 억양을 확인하기 위하여 인공적으로 생성된 음성을 통해 개인적인 피드백을 제공할 수 있다. 인공 스피치 생성시, 명시적 제어가 펄스 생성을 시작하고 종료한다. 이는 억양을 나타내기 위해 사용되는 같은 동작을 통해서 처리될 수 있다.; 한 번의 스트로크 동작은 펄스 생성을 시작하고 종료하고, 또한 억양을 결정한다. 따라서, 터치패드 또는 터치-스크린 스트로크는 톤을 위한 제어신호로서 또는 문자 범위 결정을 위한 제어신호로서 겸용된다. 암호화 및 보안 조치는 초음파 성문 펄스들의 주파수를 스크램블링(scrambling) 함으로써 개선될 수 있다. 중국 문자를 단지 음소 및 톤으로 판단할 때에는 많은 다의성이 있기 때문에, 시맨틱 콘텍스트를 추론하는데 후처리가 요구될 수도 있고, 또한 가능한 후보들 중 하나를 확인하기 위한 인터페이스가 제공된다. 연산 및 효율 이득의 기본 원리는 유지된다-명시적 제어 신호와의 통합.

실시예 3

다음으로, 본 발명의 실시예 3의 음성 인식 시스템이 설명된다. 본 실시예에서, 음성 인식 시스템은 헤드셋을 갖는 모바일 디바이스 상에서 구현된다. 숫자 패드 및 키보드는 모바일 세팅에서 동작이 잘 되지 않는다. 실현 가능하지만, 걸으면서 타이핑하는 것은 일상적인 용도로서는 현실적이지 않다. 모바일 디바이스들에 이용될 수 있는 음성 인식 시스템들은 추가적인 프로세싱 전력과 관련된 배터리 전력 또는 크기 제약을 희생하지 않고서도 개선될 수 있다. 예를 들어, 한국어 또는 일본어와 같이 명확한 음절 범위를 갖는 구어들은 본 발명에 의해 제공되는 체계에서 용이하게 인식될 수 있다. 터치-스크린을 갖는 모바일 디바이스에 대해서, 각 음절을 위한 탭 및 공간을 위한 스크럽은 인식 능력을 바람직한 레벨까지 개선할 만큼 충분하다. 탭 및 스크럽과 같은 모스-부호는 이동성에 방해도 되지 않는다. 한국어에서도 변이음들이 존재하므로, 시맨틱 엔진으로 약간의 후처리를 할 필요가 있다. 일본어에서는, 여백(white space)이 존재하지 않으며, 또한 동음이의어로 인한 다의성이 상당히 있다. 그러나, 단문 텍스트 메시징을 갖는 모바일 폰들을 통해 이미 광범위하게 이용가능한 바와 같이, 일본의 거의 모든 모바일 폰들은 상당히 강건한 언어 엔진 또는 적어도 스트링(string) 매칭 알고리즘을 가진다. 언어 엔진이 의미 및 사용 빈도에 기초하여 가능한 후보들을 제안할 수 있지만, 사용자 확인은 필요하며, 최악의 경우 각 어구 당 사용자 확인이 필요하다. 또한, 원리는 동일하며, 언어에 따라 효율 면에서 다소 가변적 이득을 가진다.

본 발명은 다중모드 통합 체계를 이용하여 헨드헬드 PDA 또는 모바일 폰과 같은 전자 디바이스 또는 컴퓨터를 제어하는 시스템 및 프로세스에 관한 것이며, 이 체계에서 복수의 사용자 통신 모델리티로부터의 제어신호들과 음성 기반 입력이 결합되어 사용자는 쌍방향으로 커맨드 추론 프로세스를 조정할 수 있게 된다. 음성 기반 입력 및 제어 신호들은 함께 처리되어 일련의 커맨드들과 콘텍스트 정보를 생성한다. 커맨드들은 단어들, 어구들일 수 있으나, 이에 한정되는 것은 아니다. 그러나, 딕테이션 또는 키보드의 단순 대체물보다 더 큰 범위를 포함하도록 계획된 용도를 설계한다. 현대 컴퓨팅 환경은 몇 개의 애플리케이션들에 대해 멀티-태스킹을 하며, 각 애플리케이션은 자체적으로 복잡한 인터페이스를 갖는다. 윈도우 및 GUI 패러다임 하에서는, 포인팅 디바이스 및 키보드 기반 입력이 지배적이다. 음성 입력을 사용하는 본 특허의 신규한 통합 접근법은 인터페이스의 일 측면을 위한 대체물로서가 아니라, 컴퓨팅 환경에 완전히 인터페이싱하는 독립된 수단을 제공한다. 또한, 이러한 새로운 패러다임은 모바일 디바이스들에 인터페이싱할 때 발견되는 제약들을 극복하는데 도움이 된다. 콘텍스트 정보는 애플리케이션 환경에서 커맨드들의 처리를 용이하게 한다. 콘텍스트 정보는 음성 커맨드들의 타겟, 구어 커맨드의 언어, 이전에 승인된 커맨드들의 이력 및 애플리케이션 특정 상세 사항들에 관한 정보일 수 있으며, 이에 한정되는 것은 아니다. 또한 통합 체계에서 시너지 효과를 얻을 수 있으며, 통합 체계는 음성 신호의 전처리를 용이하게 하는 신호들(cues)로서 제어 신호들에게 영향을 준다.

본 발명의 범위를 벗어나지 않으면서 상술한 구성들을 다양하게 변형시킬 수 있으므로, 상술한 설명에 포함되거나 또는 첨부된 도면에 도시된 모든 내용은 예시적으로 해석될 뿐 한정된 의미로 해석되어서는 안 된다.

Claims

다중모드 조음(調音; articulation) 통합 시스템에 있어서,
음성 신호를 수신하는 음성 신호 모델리티;
상기 음성 신호가 입력되는 동안, 음절 경계, 단어 경계, 동음이의어, 운율 또는 억양으로부터 발생하는 다의성(ambiguity; 多義性)를 판독하는데 도움이 되도록 소정의 입력들로부터 선택된 입력을 사용자로부터 수신하고, 상기 입력으로부터 제어신호를 생성하는 제어 신호 모델리티; 및
상기 음성 신호와 상기 제어신호를 수신하여 통합하는 다중 모드 통합 시스템을 포함하며,
상기 다중모드 통합 시스템은, 상기 음성 신호를 음성(phonetic) 프레임들로 이산화(discretization)함으로써 상기 음성 신호의 발화(spoken utterance; 發話)의 콘텍스트의 범위를 결정하는 추론 엔진을 포함하며,
상기 추론 엔진은 상기 제어 신호와 통합되는 이산화된 상기 음성 신호를 분석하여 인식 결과를 출력하는, 다중모드 조음 통합 시스템.
제 1항에 있어서,
상기 음성 신호는 연속적인 스피치(speech)의 신호를 포함하고, 상기 추론 엔진은 연속 스피치 인식기를 포함하는, 다중모드 조음 통합 시스템.
제 1 항에 있어서,
상기 음성 신호는 고립된 단어 스피치의 신호를 포함하며, 상기 추론 엔진은 고립 단어 발성 인식기를 포함하는, 다중모드 조음 통합 시스템.
제 1 항에 있어서,
상기 음성 신호 모델리티는 마이크로폰, 인공 음성 생성기 및 이들의 조합으로 구성되는 그룹 중에서 선택된 적어도 하나를 포함하는, 다중모드 조음 통합 시스템.
제 1 항에 있어서,
상기 제어 신호 모델리티는 키보드, 마우스, 터치스크린, 무선 포인팅 디바이스, 안구-추적 디바이스, 뇌-기계 인터페이스 및 이들의 조합으로 구성되는 그룹 중에서 선택된 적어도 하나를 포함하는, 다중모드 조음 통합 시스템.
제 5 항에 있어서,
터치 및/또는 펜 기반 제어 신호 입력을 위하여 표시되는 비침습(non-invasive) 온-스크린 대화 매니저 인터페이스를 더 포함하는, 다중모드 조음 통합 시스템.
제 5 항에 있어서,
상기 사용자로부터의 상기 입력은 상기 키보드의 소정 키를 누르는 것, 상기 터치스크린의 소정 영역에서 소정 패턴으로 터치스크린을 탭하는 것, 상기 터치스크린의 소정 영역에서 소정 패턴으로 터치스크린을 스트로킹하는 것, 그리고 소정 패턴으로 상기 마우스를 움직이는 것으로 구성된 그룹 중에서 선택된 적어도 하나를 포함하는, 다중모드 조음 통합 시스템.
제 1 항에 있어서,
상기 제어 신호 모델리티는 터치스크린이고, 상기 사용자로부터의 상기 입력은 소정 개수의 손가락들로 소정 영역 상에서 상기 사용자가 말한 각 음절 또는 단어에 대해 각각 상기 터치스크린 상에서 상기 사용자가 탭하거나 또는 스트로킹 하는 것 중 적어도 하나에 의해 생성되는, 다중모드 조음 통합 시스템.
제 1 항에 있어서,
상기 음성 신호를 양자화된 입력 스트림으로 변환하는 아날로그-디지털 변환 모듈, 및 상기 양자화된 입력 스트림을 벡터들의 프레임들로 변환하는 스펙트럼 특성 추출 모듈을 더 포함하는, 다중모드 조음 통합 시스템.
제 9 항에 있어서,
상기 추론 엔진은,
상기 벡터들의 프레임들을 내재적(internal) 음성 표현으로 매핑하는 음향 모델;
언어 모델; 및
상기 발화가 어떻게 해석되는지 판단하기 위하여 상기 언어 모델과 연동하는 대화 매니저를 포함하는, 다중모드 조음 통합 시스템.
제 10 항에 있어서,
상기 입력은 상기 대화 매니저 및 상기 언어 모델 중 적어도 하나를 위한 콘텍스트 정보를 더 포함하며,
상기 콘텍스트 정보는 어떤 언어가 사용되는지, 발화가 실행되거나 또는 번역(transcribe)되어야 하는지 여부, 그리고 상기 음성 신호가 구두점, 프로그래밍 언어 토큰, 또는 소정의 어휘 서브세트로부터의 어구와 관련되는지 여부로 구성되는 그룹 중에서 선택된 적어도 하나를 나타내는, 다중모드 조음 통합 시스템.
제 10 항에 있어서,
상기 제어 신호는 변이음들, 음절 경계들, 단어 경계들, 운율들, 및 억양들로 구성된 그룹 중에서 선택된 적어도 하나에서의 다의성으로부터 상기 음향 모델이 추론하는 것을 용이하게 하는, 다중모드 조음 통합 시스템.
제 1 항에 있어서,
상기 추론 엔진은 상기 제어 신호에서의 오정렬(mis-alignments)을 허용하는, 다중모드 조음 통합 시스템.
제 10 항에 있어서,
상기 제어 신호는 동음이의어의 다의성으로부터 상기 언어 모델이 추론하는 것을 용이하게 하는, 다중모드 조음 통합 시스템.
제 10 항에 있어서,
상기 제어 신호는 상기 대화 매니저에서의 커맨드의 해석을 용이하게 하는, 다중모드 조음 통합 시스템.
제 1 항에 있어서,
상기 사용자로부터의 상기 입력은 성조 언어(tonal language)의 톤 레벨들에 대응되고, 상기 다중모드 통합 시스템은 확인 프로세스를 이용하여 n 개의 최적 후보들을 명확하게 하는, 다중모드 조음 통합 시스템.
제 1 항에 있어서,
상기 제어 신호 모델리티는 터치스크린이고, 상기 입력은 성조 언어의 톤 레벨에 대응되는 형상으로 터치스크린을 터치함으로써 생성되는, 다중모드 조음 통합 시스템.
제 1 항에 있어서,
상기 사용자로부터의 입력은 일본어에 있어서 음절 경계들 및 운율에 대응되고, 상기 다중모드 통합 시스템은 확인 프로세스를 이용하여 n 개의 최적 후보들을 명확하게 하는, 다중모드 조음 통합 시스템.
제 1 항에 있어서,
상기 음성 신호는 가청 또는 비가청 초음파 성문(glottal) 펄스 생성을 통한 인공 스피치에 의해 생성되는, 다중모드 조음 통합 시스템.
제 19 항에 있어서,
상기 제어 신호 생성 및 상기 성문 펄스 생성은 통합되는, 다중모드 조음 통합 시스템.
제 1 항에 있어서,
상기 입력을 수신하는 동안 동시에 실행되는 상기 추론 엔진으로부터 n 개의 최적 후보들의 부분 결과를 확인하는 확인 프로세싱을 더 포함하는, 다중모드 조음 통합 시스템.
제 1 항의 다중모드 조음 통합 시스템을 구비하는 휴대용 디바이스.
제 1 항의 다중모드 조음 통합 시스템을 구비하는 네비게이션 시스템.
제 1 항의 다중모드 조음 통합 시스템을 구비하는 네트워크 서비스 시스템.
다중모드 조음 통합을 수행하는 방법에 있어서,
음성 신호를 수신하는 단계;
상기 음성 신호를 수신하는 동안, 음성 정보에 직접적으로 대응되는 소정의 입력들로부터 선택된 입력을 사용자로부터 수신하는 단계;
상기 사용자로부터의 상기 입력으로 제어 신호를 생성하여, 상기 제어 신호로 하여금 상기 음성 신호의 음성 정보를 운반하도록 하는 단계;
상기 음성 신호와 상기 제어 신호를 통합하는 단계;
상기 음성 신호를 음성 프레임들로 이산화하여 상기 음성 신호의 발화의 콘텍스트의 범위를 결정하는 단계; 및
상기 제어 신호와 통합되는 이산화된 상기 음성 신호를 분석하여 인식 결과를 출력하는 단계를 포함하는, 다중모드 조음 통합 방법.
제 25 항에 있어서,
상기 음성 신호는 연속적 스피치의 신호인, 다중모드 조음 통합 방법.
제 25 항에 있어서,
상기 입력은 키보드의 소정 키를 누르는 것, 터치스크린의 소정 영역에서 소정 패턴으로 상기 터치스크린을 탭하는 것, 터치스크린의 소정 영역에서 소정 패턴으로 상기 터치스크린을 스트로킹 하는 것, 그리고 소정 패턴으로 마우스를 움직이는 것으로 구성된 그룹 중에서 선택된 적어도 하나에 의해 생성되는, 다중모드 조음 통합 방법.
제 25 항에 있어서,
상기 입력은 소정 개수의 손가락들을 이용하여 소정 영역 상에서, 상기 사용자가 말한 각 음절 또는 단어에 대해 각각 터치스크린 상에서 상기 사용자가 탭하는 것 또는 스트로킹 하는 것 중에서 적어도 하나에 의해 생성되는, 다중모드 조음 통합 방법.
제 25 항에 있어서,
상기 음성 신호는 중국어 또는 일본어에 대한 것이고, 상기 음성 신호와 상기 제어 신호의 통합은 인위적인 로마자표기를 수행하지 않으면서 음성 프레임들로 처리하고 이산화하는 단계를 포함하는, 다중모드 조음 통합 방법.
제 29 항에 있어서,
상기 입력은 성조 언어의 톤 레벨들에 대응되는 소정의 형상으로 터치스크린을 터치하여 입력하는 것을 더 포함하는, 다중모드 조음 통합 방법.