KR20080013921A

KR20080013921A - 소비자 제품들에 대한 음성 인터페이스

Info

Publication number: KR20080013921A
Application number: KR1020077027209A
Authority: KR
Inventors: 이샤이 카미엘; 아사프 카미엘
Original assignee: 이샤이 카미엘; 아사프 카미엘
Priority date: 2005-05-25
Filing date: 2006-05-22
Publication date: 2008-02-13
Also published as: WO2006126192A2; WO2006126192A3; US20060271368A1

Abstract

전기 제품(101)의 제조자에 의하여 수행될 수 있는 전기 제품들(101)에 대한 음성 인터페이스(103)를 생성하는 방법. 제조자는 전기 제품(101)을 제어하기 위한 프로그래머블 장치(113)를 선택하며, 프로그래머블 장치(113)는 9 킬로바이트 미만의 랜덤 액세스 메모리와 초당 4100만 미만의 명령어들이 가능한 리소스들을 갖는다. 제조자는 언어 인식 모듈을 포함하는 음성 인터페이스(103)에 대한 어플리케이션을 구축하기 위한 어플리케이션 디벨로프먼트 키트가 더 제공된다. 제조자는 이 어플리케이션으로 프로그래머블 장치를 프로그래밍한다. 바람직하게는 상기 어플리케이션을 프로그래밍하고 구동하는 동안, 상기 어플리케이션은 복수의 단계들을 포함하며, 각 단계에 대하여 서로 다른 세트의 오픈 단어들이 언어 인식 모듈에 의하여 인식가능하다. 바람직하게는, 오픈 단어들은 전기 제품(101)의 사용자에게 제기된 미리 저장된 질문에 대한 응답으로서만 언어 인식 모듈에 의하여 인식된다.

가전, 프로그래머블 장치, 언어 인식, 음성 인터페이스

Description

소비자 제품들에 대한 음성 인터페이스{Voice interface for consumer products}

본 발명은 소비자 전기 제품들에 관련되며, 더 상세하게는 소비자 전기 제품들(appliances)과 인간적인 상호작용을 향상시키기 위한 음성 인터페이스에 관련된다.

현대의 사람은 일상 생활 중 온갖 기계와 전기 제품들로 넘쳐나고 있다. 대부분의 전기 제품의 사용자 인터페이스는 공통적으로 버튼들, 다이얼들 또는 키패드들을 포함한다. 그러나 인간과 기계 사이의 더 단순하고 더 자연스러우며 종종 더 편리한 인터페이스는 인간의 언어(human speech)이다. 따라서 이러한 것에 대한 필요가 있으며, 가전 제품 및 소비자 전자 제품들에 대한 음성 인터페이스를 갖는 것이 유리할 것이다.

언어 인식(speech recognition)은 과거 수십년 간에 걸쳐 개발되어 오고 있으며 다양한 방법론들이 제한된 문법 인식(constrained grammar recognition) 및 자연 언어 인식(natural language recognition)을 포함하여 자동화된 언어 인식(automated speech recognition: ASR)을 위해 도입되어 왔다.

언어 인식 기술은 여행 예약 및 정보, 재정 회계 정보, 고객 서비스 전화 라 우팅 및 디렉토리 어시스턴스(directory assistance)와 같은 전화 어플리케이션들에 이용된다. 제한된 문법 인식을 이용하여 이러한 어플리케이션은 높은 정확도를 달성할 수 있다. 전화 어플리케이션들을 위해 최적화된 언어 인식 시스템들은 종종 특정 인식의 신뢰도에 대한 정보를 제공할 수 있으며, 신뢰도가 낮으면 시스템은 발신자들이 그들의 요구를 확인하거나 반복하도록 프롬프트(prompt)하기 위해 어플리케이션을 트리거한다(예를 들어, "나는 당신이 "빌링(billing)"이라고 말하는 것을 듣는다, 맞는가?).

문법 제한 인식은 가능한 인식 문구들을 작거나 또는 중간 크기의 공식적인 문법의 가능한 응답들로 제한하며, 이는 통상적으로 문법 명세 언어(grammar specification language)를 이용하여 정의된다. 이러한 형태의 인식은 화자가 예스-노 질문들처럼 특정 질문들에 대한 짧은 응답을 제공하고 있을 때는 최상으로 동작한다; 메뉴로부터 한 선택을 고른다; 주식이나 뮤추얼 펀드 같은 파이낸셜 시큐리티들 또는 공항들의 이름들과 같은 잘 형성된 리스트로부터 한 아이템을 선택한다; 또는 통장번호와 같은 일련의 숫자들 또는 문자들을 읽는다.

문법은 프롬프트에 대한 응답으로 사람이 말할 수 있는 가장 있음직한 언어들 및 문구들을 특정하고 이들 단어들 및 문구들을 토큰(token) 또는 의미적 개념(semantic concept)으로 매핑한다. 예를 들어, 예스-노 문법은 "예스", "예", "우-후", "슈어", "오케이"를 토큰 "예스"로, "노", "노우프", "누-우", "노 웨이 두드!"를 토큰 "노"로 매핑할 것이다. 10개 숫자의 계좌 번호를 입력하는 문법은 10개의 슬롯을 가질 것이며 그 각각은 0에서 9까지일 수 있는 하나의 숫자를 포함 하며, 이는 말해진 10개 숫자 번호일 수 있는 문법에 기인한다. 만약 화자가 문법의 입력과 매칭되지 않는 것을 말한다면, 인식은 실패할 것이다. 통상적으로 인식이 실패하면, 어플리케이션은 사용자가 그들이 말한 것을 되풀이하도록 재프롬프트할 것이며, 인식은 다시 시도될 것이다. 문법 제한 인식을 이용하는 전화 응답 시스템이 잘 설계되고 반복적으로 사용자를 알아들을 수 없다면(통상적으로 질문을 잘못 이해하거나, 둔탁한 액센트를 갖거나, 중얼거리거나, 많은 양의 배후 잡음 또는 간섭(interference) 가운데서 말하는 발신자로 인하여), 전화 응답 시스템은 또 다른 입력 방법에 의해 백업되어야 하거나 전화를 교환원에게 돌려야한다. 재빨리 계속하여 반복할 것을 요청받는 발신자들은 당황하고 교란된다.

자연 언어 인식(natural language recognition)은 화자가 특정 질문들에 대하여 자연스런 문장 길이의 응답들을 제공하도록 한다. 자연 언어 인식은 통계적 모델들을 이용한다. 일반적인 절차는 토큰 또는 개념에 매칭되는 각 응답을 갖는 많은 수의 전형적인 응답들을 저장하는 것이다. 예를 들어, "내 전화를 청구서 발송부(billing department)로 포워드하라"는 개념에 대하여, 당신은 "내 청구서에 문제가 있다", "부정확하게 청구되었다", "이번달에 나는 얼마나 많이 지불해야 하는가" 등과 같은 문장들을 인식하기를 원할 것이다. 단어들이 말해진 상황을 고려하는 넓고 풍부한 문법들을 생성하는 것은 어렵다. 부가하여, 문법은 매우 넓기 때문에, 문법에서 유사한 소리의 단어들을 가질 가능성은 훨씬 증가한다.

몇몇 시스템들은 특정 질문들에 대한 문장 길이의 응답들을 허용하는 제한된 문법(constrained grammar) 및 자연 언어 인식(natural language recognition)의 혼성(hybrid)을 이용하나, 이는 자연 언어 "가비지 모델(garbage model)"을 이용하는 문장의 무관한 부분을 무시한다. 이러한 접근들과 짧은 대답들을 독려하는 프롬프트들을 결합하는 것은 인식의 정확도 및 정확성을 최대화시키는 데 있어 효과적이 될 수 있다.

언어 인식은 언어 신호를 입력함으로써 수행되는데, 통상적으로 마이크로폰을 이용하여 신호를 디지타이징한다. 언어 신호는 공지의 FFT 알고리즘들 중 어느 하나를 이용하는 고속 푸리에 변환(FFT)을 수행하는 프로세서를 포함하는 회로로 입력된다. 실제적으로, 시간 영역의 입력되어 디지타이징된 음성 신호는 입력 데이터 버퍼에 위치된다. FFT 알고리즘 및 프로세싱은 "아웃 오브 플레이스(out-of-place)"로 수행되면 즉, 출력 버퍼가 입력 버퍼와 구별된다면, 단순화된다. 예를 들어, 스톡홀름 자동분류(auto-sort) 알고리즘(스톡홀름, 1966)은 FFT 아웃 오브 플레이스의 각 단계를 수행하며, 통상적으로 두개의 어레이 사이에서 앞뒤로 쓰면서(writing back and forth), 각 단계를 가진 인덱스들의 하나의 "숫자"를 바꾸어 놓는다.

"인-플레이스(in-place)" FFT 알고리즘은 입력 및 출력(주파수 영역) 데이터에 대하여 동일한 데이터 버퍼를 이용한다. 부가적인 저장이나 별도의 숫자-반전 패스들이 없는 "인-플레이스" 알고리즘들에 대한 전형적인 전략은 중간 단계들에서의 작은 매트릭스 전위들(이것은 개별적 쌍의 숫자들을 교환한다)을 포함하며, 이는 데이터에 대한 패스들의 수를 감소시키기 위하여 라딕스 버터플라이들(radix butterflies)과 결합될 수 있다(Johnson & Burrus, 1984; Temperton, 1991; Qian et al., 1994; Hegland, 1994).

FFT를 수행한 이후, 주파수 영역 데이터는 인간의 언어가 지각되는 방식에 대응하도록 예를 들어 멜 필터링(Mel fitering)으로 일반적으로 필터링된다. 일련의 계수들이 히든 마코프 모델들(Hidden Markov Models; HMMs)에 기초하여 단어들과 음운들에 대한 음성 프린트들을 생성하도록 이용된다. 히든 마코프 모델(HMM)은 모델링되는 시스템이 알려지지 않은 파라미터들로 마코프 처리가 되도록 가정되는 통계적 모델이며, 문제는 이러한 가정에 근거하여 식별가능한 파라미터들로부터 숨겨진 파라미터들을 결정하는 것이다. 이후 추출된 모델 파라미터들은 언어 인식을 수행하기 위해 이용될 수 있다. 관찰된 일련의 음향 데이터의 확률을 주는 모델이 주어질 때, 단어 음운 또는 단어 열은 가장 있음직한 단어 열을 추론하는 것을 가능하게 한다.

참고자료

Rabiner, Lawrence, Biing-Hwang Juang Fundamentals of Speech Recognition, Prentice-Hall James W. Cooley and John W. Tukey, "복합 푸리에 시리즈의 기계 연산을 위한 알고리즘" Math, Comput. 19, 297-301(1965).

T. G. Stockham, "고속 컨볼루션 및 코릴레이션", Spring Joint Computer Conference. Proc. AFIPS 28, 229-233(1966)

H. W. Johnson and C.S. Burrus, "인 플레이스 인 오더 라딕스-2 FFT", Proc. ICASSP, 28A.2.1-28A.2.4(1984).

C. Temperton, "셀프 소팅 인 플레이스 고속 푸리에 변환", SIAM J. Sci. Stat. Comput. 12(4), 808-823(1991).

Qian, C. Lu, M. An, and R. Tolimieri, "최소한의 작업공간을 갖는 셀프 소팅 인 플레이스 FFT 알고리즘", IEEE Trans. ASSP 52(10), 2835-2836(1994).

M. Hegland, "벡터 및 평행(parallel) 처리에 적합한 셀프 소팅 인플레이스 고속 푸리에 변환 알고리즘", Numerische Mathematik 68(4), 507-547(1994).

Matteo Frigo and Steven G. Johnson: FFTW, http://www.fftw.org/. 쿨리 투키(Cooley-Tukey) 알고리즘을 이용하여 임의 크기의 하나 이상의 디멘젼으로 이산 푸리에 변환을 연산하기 위한 프리 (GPL) C 라이브러리. 역시 M. Frigo 및 S.G. Johnson.

모든 참고자료들은 마치 여기 완전히 기재된 것처럼 여기서 편입된다.

배경기술은: http://en.wikipedia.org/wiki//speech_recognition, Http://en.wikipedia.org/wiki//Cooley-Tukey_FFT_algorithm 으로부터 얻어진다.

여기에 사용된 용어 "프로그래머블 장치"는 ASIC, FPGA 또는 CPLD와 같은 기술을 이용하여 제조된 마이크로프로세서 또는 전용 장치를 참조한다. 용어들 "마이크로프로세서"와 "프로그래머블 장치"는 여기서 상호 교환적으로 사용된다.

여기에 사용된 용어 "오픈 단어들"은 언어 인식 시나리오 중 특정 단계에서 인식가능한 한 세트의 단어를 참조한다.

여기서 사용된 용어 "인-플레이스 FFT 알고리즘"은 믹스드 라딕스(mixed radix) 또는 리얼 믹스트 라딕스(real mixed radix) 알고리즘을 참조한다.

여기서 사용된 용어 "제너릭(generic)"은 본 발명의 어플리케이션 디벨로프먼트 키트(application development kit)에서 이용가능한 적당한 라이브러리들을 전형적으로 통합함으로써 음성 인터페이스 어플리케이션이 복수의 프로그래머블 장치들(또는 디바이스 패밀리)에 적용될 수 있다는 것을 의미한다.

여기에 사용된 용어들 "제조자" 및 "개발자"는 여기서 상호 교환적으로 사용되며 엔티티를 참조하며 전기 제품을 개발하여 제조한다.

용어 "독립된 제조자"는 본 발명의 어플리케이션 키트의 특성에 관련되며, 음성 인터페이스 어플리케이션들은 복수의 형태들 또는 전기 제품들 및/또는 동일 형태의 전기 제품의 복수의 제조자들을 위하여 개발될 수 있다.

본 발명에 따르면, 전기 제품의 제조자에 의하여 수행될 수 있는 전기 제품용 음성 인터페이스를 생성하는 방법이 제공된다. 제조자는 전기 제품을 제어하기 위한 프로그래머블 장치가 제공되며, 프로그래머블 장치는 9 킬로바이트 미만의 랜덤 액세스 메모리와 초당 4100만 미만의 명령어가 가능한 리소스들을 갖는다. 제조자는 언어 인식 모듈을 포함하는 음성 인터페이스에 대한 어플리케이션을 구축하기 위한 어플리케이션 디벨로프먼트 키트가 더 제공된다. 제조자는 이 어플리케이션으로 프로그래머블 장치를 프로그램한다. 예를 들어 전기 제품의 사용자에 의해서 어플리케이션이 구동될 때, 어플리케이션은 전기 제품을 작동시킨다. 바람직하게는 어플리케이션을 프로그래밍하고 구동하는 동안, 어플리케이션은 복수의 단계들을 포함하며, 각 단계에 대하여 서로 상이한 세트의 오픈 단어들이 언어 인식 모듈에 의하여 인식가능하다. 바람직하게는, 오픈 단어들은 오로지 전기 제품의 사용자에게 제기된 미리 저장된 질문에 응답하여 언어 인식 모듈에 의하여 인식된다. 바람직하게는, 언어 인식 모듈은 통제된(supervised) 인식 알고리즘을 이용한다. 바람직하게는 어플리케이션을 구동하는 동안 언어 인식 연산은 사용자의 언어가 검출되자마자 온 더 플라이(on-the-fly)로 시작된다. 바람직하게는, 프로그래머블 장치의 리소스들은 5 킬로바이트 미만의 랜덤 액세스 메모리를 포함한다. 바람직하게는, 언어 인식 모듈은 고속 푸리에 변환을 계산하기 위한 인 플레이스 알고리즘을 포함한다. 바람직하게는, 프로그래밍은 속도에 대해 최적화된 어셈블리 코드를 이용하여 수행된다. 바람직하게는, 프로그래머블 장치는 복수의 서로 다른 프로그래머블 장치 패밀리들로부터 제조자에 의해 선택된다. 바람직하게는, 코드는 복수의 프로그래머블 장치 패밀리들 사이에서 이동가능하다.

본 발명에 따르면, 소비자 전기 제품에 대한 음성 인터페이스를 통합하기 위해 소비자 전기 제품의 제조자에게 제공된 음성 인터페이스 어플리케이션 디벨로프먼트 키트가 제공된다. 디벨로프먼트 키트는 음성 인터페이스 어플리케이션의 복수의 단계들을 제조자로부터의 입력으로서 수신하는 어플리케이션 생성기를 포함하며, 각 단계에 대하여 질문이 전기 제품의 사용자에게 제기되고 제한된 수의 오픈 단어들이 상기 질문에 대한 응답으로 인식가능하다. 상기 키트는 상기 오픈 단어들이 제조자에 의하여 선택되는 데이터 베이스 단어들을 더 포함하며, 상기 데이터 베이스는 상기 단어들을 인식하기 위한 모델들을 더 포함한다. 제조자는 프로그래머블 장치 패밀리들로부터 프로그래머블 장치를 선택하고 상기 어플리케이션 생성기로 생성된 어플리케이션을 구현하는 코드로 상기 프로그래머블 장치를 프로그래밍함으로써 상기 전기 제품에 포함된 음성 인터페이스 회로를 구축한다. 바람직하게는, 오픈 단어들의 수는 프로그래머블 장치의 리소스들에 의하여 제한되어 20개 미만이다. 바람직하게는 상기 코드의 일부는 제너릭하며 상기 프로그래머블 장치 패밀리들 모두에 의해 지원된다. 상기 키트는 상기 음성 인터페이스 회로의 일부를 제어함으로써 사용자에게 질문을 제기하는 음성 출력 모듈을 더 포함한다. 바람직하게는, 상기 키트는 전기 제품에 수신된 음성 입력 데이터에 인 플레이스 고속 푸리에 변환 알고리즘을 적용하는 언어 인식 모듈을 더 포함한다. 바람직하게는, 상기 언어 인식 모듈은 통제된 인식 알고리즘들을 적용한다.

본 발명에 따르면, 기계에 의해 읽을 수 있으며 전기 제품을 제어하는 음성 인터페이스 회로를 구축하기 위한 방법을 수행하기 위해 기계에 의해 실행가능한 명령어들의 프로그램을 실체적으로 구현하는 프로그램 저장 장치가 제공된다. 상기 방법은 전기 제품의 제조자에 의하여 수행된다. 상기 방법은 음성 인터페이스 어플리케이션의 복수의 단계들에서 프로그래머블 장치를 프로그래밍하는 단계를 포함한다. 각 단계에 대하여 질문이 전기 제품의 사용자에게 제기되며 제한된 수의 오픈 단어들이 상기 질문에 대한 응답으로 인식가능하다. 상기 음성 인터페이스 회로에 포함된 상기 프로그래머블 장치는 복수의 프로그래머블 장치 패밀리들로부터 선택되고 상기 프로그래밍의 일부는 모든 프로그래머블 장치 패밀리들에게 제너릭하며 상기 프로그래밍의 일부는 상기 프로그래머블 장치의 패밀리에 특정하다. 바람직하게는 상기 프로그래머블 장치는 9 킬로바이트 미만의 랜덤 액세스 메모리와 초당 4100만 미만의 명령어가 가능한 리소스들을 포함하며, 상기 프로그래머블 장치는 5 킬로바이트 미만의 랜덤 액세스 메모리와 초당 2100만 미만의 명령어가 가능한 리소스들을 포함한다.

본 발명은 첨부하는 도면을 참조하여 여기서 예시적인 방법으로만 기재된다.

도 1은 본 발명의 일 실시예에 따라 소비자 전기 제품에 음성 인터페이스를 제공하기 위한 시스템 및 방법의 종래의 도면이다.

도 2는 본 발명의 일 실시예에 따라 어플리케이션 디벨로프먼트 키트 내의 소프트웨어 모듈들의 도면이다.

도 3은 본 발명의 일 실시예에 따라 음성 인터페이스 어플리케이션의 단계들을 나타내는 흐름도이다.

본 발명은 가전용 음성 인터페이스를 생성하는 시스템 및 방법에 관한 것이다. 도입으로서, 아침에 우리를 깨우기 위해 사용되는 유비쿼터스 시계-라디오 또는 알람 시계를 생각해보라. 시계-라디오에 대한 보통의 인터페이스는 몇 개의 버튼을 포함한다. 전형적으로 시간과 알람 모두는 하나 이상의 버튼을 누름으로써 숫자들을 통해 사이클링함으로써 설정된다. 이러한 과정은 시간과 분을 설정하기 위해 반복된다. 알람 시간도 유사하게 설정된다. 예를 들어 규칙적인 스케쥴을 갖지 않는 사람은 주중에 몇 번씩 알람 시간을 재설정하는 과정을 반복하는 것이 요구된다. 보통의 시계-라디오 인터페이스는 각 개인이 다른 스케쥴을 가질 때 침대를 공유하는 개인들에게 대체로 편리하지 않다. 개선된 시계/라디오/알람 인터페이스들 이 구매될 수 있으나, 과다한 버튼이 주어져 많은 사람들은 가장 기본적인 기능들만을 알 수 있을 뿐이다.

소비자 전기 제품으로서, 시계/라디오/알람은 매우 비용에 민감하다. 각 부가적인 특징은 유니트에 비용과 크기를 부가하면서 추가적인 버튼을 요구한다. 택일적으로 이 특성은 인간의 인터페이스에 추가적인 복잡성을 부가하면서 기존의 버튼들과 다중화될 수 있다.

본 발명의 주요한 의도는 시계-라디오와 같은 가전들에 음성 인터페이스를 제공하기 위한 것이다. 본 발명의 일 실시예에 따른 음성 인터페이스는 작은 16 비트 마이크로프로세서(예를 들어 2 킬로바이트의 랜덤 액세스 메모리와 40Mhz를 갖는 TMS320LF2401A(텍사스 인스트루먼츠 인크., 텍사스 달라스 TI 블바드 12500)) 또는 균등한 프로세서 예를 들어 초당 2000만 명령어가 가능한 ASIC(MIPS)을 사용하여 가능한 바와 같이 최소한의 연산 및 데이터 저장 리소스들을 요구함으로써 수 달러에 속하는 최소한의 추가 비용으로 구현된다. 본 발명의 실시예들에 사용된 프로그래머블 장치는 종래의 언어 인식 시스템들, 예를 들어 전화 응답 시스템들에 사용된 프로세서들보다 훨씬 낮은 리소스들을 갖는다는 것이 주지되어야 한다.

본 발명의 또 다른 의도는 가전에 대한 음성 인터페이스를 구축하기 위하여 가전의 제조자들에게 소프트웨어 툴들을 제공하기 위한 것이다. 소비자 전기 제품들의 각 제조자는 자신들의 필요에 따라 본 발명의 어플리케이션 키트의 사용으로 음성 인터페이스를 구축할 수 있다.

본 발명의 또 다른 의도는 성능, 즉 음성 인터페이스가 사용하기에 편리하도 록 충분한 속도와 인식 정확도를 제공하기 위한 것이다. 성능은 언어 인식의 속도 및 정확도 둘다에 의해 측정된다. 응답의 정확한 인식을 위해 요구되는 속도는 1-2초에 속하고 인식의 정확도는 바람직하게는 95% 이상이다. 바람직하게는 성능은 소비자 전기 제품에 대한 전체적인 비용을 저감시키면서 종래의 인터페이스가 백업으로 요구되지 않도록 하기에 충분하다.

본 발명에 따른 소비자 전기 제품에 대한 음성 인터페이스를 생성하는 시스템 및 방법의 원리들 및 동작은 도면 및 첨부되는 설명을 참조하여 더 잘 이해될 수 있다.

본 발명의 실시예들을 상세히 설명하기 전에 본 발명은 상세한 디자인 및 다음의 상세한 설명에 기재되고 도면들에 설명된 구성요소들의 배열에 대한 적용으로 한정되는 것은 아니라는 것이 이해되어야 한다. 본 발명은 다양한 방식으로 실행되고 수행되는 다른 실시예들이 가능하다. 또한 여기에 채용된 어구 및 용어는 설명을 위한 목적이며 제한적인 것으로 여겨져서는 안된다는 것이 이해되어야 한다.

여기서의 논의가 작은 소비자 전기 제품들에 초점이 있는 반면 본 발명의 원리는 큰 전기 제품들 예를 들면, 자동차나 비 소비자 어플리케이션들에의 사용에도 적용될 수 있다는 것이 주지되어야 한다.

나아가 고속 푸리에 변환을 수행하기 위한 알고리즘과 같은 언어 인식 알고리즘은 본 기술분야에서 알려진 어떠한 알고리즘도 될 수 있다.

이제 도면을 참조하면, 도 1은 소비자 전기 제품(101)에 음성 인터페이스를 제공하기 위한 시스템 및 방법을 도시한다. 통상적으로, 전기 제품(101)의 제조자/ 개발자는 개발될 소비자 전기 제품(101)의 기능을 모방하는 디벨로프먼트(development) 또는 에뮬레이션 회로(미도시) 아래 소비자 전기 제품(101)의 일부로서 음성 인터페이스 회로(103)를 구축한다. 음성 인터페이스 회로는 프로그래머블 장치, 예를 들어 퍼스널 컴퓨터(111)로의 케이블(109)을 갖는 마이크로프로세서(115)를 포함하며, 퍼스널 컴퓨터(111)는 음성 인터페이스 어플리케이션으로 마이크로프로세서를 프로그래밍한다. 마이크로프로세서(115)는 마이크로폰으로의 적절한 회로구성을 통한 연결(105) 및 전기 제품(101)으로부터의 음성 출력을 위한 스피커(미도시)로의 스피커 케이블(107)을 갖는다. 프로그램 저장 장치, 예를 들어 CDROM(113)은 전기 제품(101)에 대한 음성 인터페이스를 구축할 목적으로 퍼스널 컴퓨터(111)로 음성 인터페이스 어플리케이션 디벨로프먼트 키트를 로딩하기 위해 이용된다.

도 2는 본 발명에 따라 음성 인터페이스 어플리케이션 디벨로프먼트 키트(20)에 포함된 소프트웨어 모듈들의 블록 다이어그램을 도시한다.

어플리케이션 디벨로프먼트 키트(20)는 어플리케이션 생성기 또는 시나리오 생성기(201)를 포함한다. 어플리케이션 생성기(201)는 전기 제품(101)의 사용자들에게로 제기될 일련의 질문들을 생성하기 위해 이용된다. 어플리케이션 생성기(20)는 제기된 질문들에 유효한 사용자 응답들인 한 세트의 오픈 단어들을 정의하도록 이용된다. 음성 인터페이스가 가동될 때, 오픈 단어들의 모델들은 마이크로프로세서(115)에 부착되거나 패키징된 랜덤 액세스 메모리에 저장된다. 언어 인식을 위해 요구되는 속도 또는 정확도에 따라 작은 프로그래머블 장치(115)를 이용할 때 오픈 단어들의 수는 약 10 또는 20으로 제한된다. 바람직하게는, 어플리케이션의 임의의 단계 중 너무나 많은 오픈 단어들을 사용하려는 시도는 어플리케이션 생성기가 어플리케이션 생성기(201)를 동작시키는 개발자(제조자)에게 경고 또는 에러 메세지를 생성하도록 한다. 공통적으로 사용된 단어들은 기록된 단어들의 데이터베이스(205) 내의 음성 인터페이스 어플리케이션 키트(20)로 통상적으로 제공된다. 택일적으로 또는 부가적으로, 전기 제품의 제조자는 그 자신의 단어들을 기록하고 그 자신의 기록된 단어 데이터베이스(205)를 구축할 수 있다. 바람직하게는 어플리케이션 생성기(201)는 제너릭 언어(generic language), 전형적으로 ANSI C로 쓰여져서 많은 마이크로프로세서 패밀리들이 지원된다. 제조자/개발자는 통상적으로 제조자에 의해 이미 사용된 또는 전기 제품(101)과 이미 일체화된 것으로 마이크로프로세서(115)를 선택할 수 있다.

언어 인식 모듈(203)은 음성 데이터를 읽고 버터플라이/퍼뮤테이션(butterfly/permutation) 처리로 고속 푸리에 변환들을 수행하고 출력 데이터, 즉 멜 주파수 셉스트럼 계수들(Mel Frequency Cepstrum coefficients)을 RAM 메모리에 저장된 오픈 단어들의 모델들과 비교한다. RAM 메모리는 예를 들어 2K 단어들(또는 4K 바이트)로 제한되기 때문에 고속 푸리에 변환들(FFT)(및 인버스) 변환들은 바람직하게는 예를 들어 동일한 배열로 시간 영역 입력 음성 데이터와 출력 주파수 영역 데이터를 저장하는 인 플레이스 알고리즘을 이용하여 수행된다. 리얼 FFT 만이 요구되기 때문에 인 플레이스 알고리즘이 이용된다면 256 단어 데이터 버퍼는 충분하다. 인 플레이스 알고리즘의 사용은 연산 시간에 있어서의 불이익을 포 함한다. 연산 속도를 증가시키기 위해서, 언어 인식 모듈(203)은 속도를 위해 최적화된 어셈블러 코드로 쓰여진다. 어셈블러 코드는 통상적으로 제너릭하지 않으며, 각 프로그래머블 장치(115) 패밀리는 그 자신의 명령어 세트를 가지기 때문에, 어셈블러 코드 라이브러리들(207)이 프로그래머블 장치들(115)의 복수의 패밀리들을 지원하기 위해 어플리케이션 디벨로프먼트 키트(20)에 포함된다. 연산 속도를 더 향상시키기 위하여, 언어 인식 연산들은 음성 수신의 개시에 의하여 유발된 "온-더-플라이"로 수행되고 완전히 말해지거나 수신될 단어를 기다리지 않는다.

음성 인터페이스 어플리케이션 디벨로프먼트 키트(20)는 어플리케이션 생성기(201)에 의해 생성된 질문들을 기록하는 음성 출력 모듈을 더 포함하며 스피커 연결(107)을 통해 전기 제품(101)의 스피커 상에 질문들을 재생한다. 음성 인터페이스 디벨로프먼트 키트는 제조자 및/또는 전기 제품(101)의 사용자에 대한 도큐멘테이션(documentation)(211)을 기록하기 위한 옵션을 포함한다.

도 3은 DVD 리코더 리모트 컨트롤 유닛에 대한 음성 인터페이스 시나리오(30)를 도시한다. 음성 인터페이스 시나리오(30)는 DVD 리코더 제어 유닛에 대한 음성 인터페이스를 디벨로핑하는 동안 제조자에 의해 생성될 수 있다. 전형적으로 시나리오(30)는 백그라운드 처리로서 리스닝 단계(301)로 시작한다. 사람은 예를 들어 슬립 모드로부터 DVD를 깨우기 위해 제어 유닛을 참조하는 하나 이상의 이름들을 말하도록 프롬프트된다. 그는 이름 "챨리"를 말한다. 언어 인식 모듈(203)은 수신된 이름 "챨리"의 모델을 구축하고 하나의 모델을 연산하여 프로그래머블 장치(115)에 부착된 플래쉬 메모리 내에 "챨리"의 모델을 위치시킨다. 이어서, 파워 업 시에 "챨리"의 모델이 RAM에 로딩된다. 시나리오(30)가 진행됨에 따라 사람은 제어 유닛에 의해 오프닝 질문 및/또는 응답을 입력하도록 프롬프트된다. 사람은 기록된 단어 데이터베이스(205)로부터 단어 "헬로우"를 선택한다.

시나리오(30)는 리스닝 단계(301b)를 계속하고 기록된 단어 데이터베이스(205)로부터 두개의 오픈 단어들 {리코드, 세트}를 입력한다. 단어 "리코드"가 수신되면 이는 리코딩을 개시하기 위해 이용되고 단어 "세트"는 제어 유닛 또는 DVD 리코더에 파라미터를 세팅하기 위해 이용된다. "리코드"에 대한 응답으로, 제어 유닛은 "어느 날?(WHICH DAY?)"에 응답하도록(단계 303b) 프로그램된다. 리스닝 단계(301c)에서 유효하게 말해진 응답들인 오픈 단어들은 다음이다: {일요일, 월요일, 화요일, 수요일, 목요일, 금요일, 오늘, 내일}

시나리오(30)의 각 단계에서 단계에 관련된 오픈 단어들은 프로그래머블 장치(115)에 결합된 RAM으로 ROM 및/또는 플래쉬 메모리로부터 로딩된다. 시나리오(30)는 계속하여 진행하며(도 3에 미도시), 예를 들어 제어 유닛은 스피커를 통해 재생함으로써 질문한다:

"몇 시에 시작하는가?"

전형적으로, 이 질문에 대하여 많은 가능한 응답들이 있다. 시간에 대하여, 오픈 단어들은 예를 들어 "AM" 및 "PM"을 가진 "one"에서 "twelve"까지이다. 분을 인식하는 것은 예를 들어 사용자가 16:30에 대하여 "포 써티(FOUR THIRTY)" 또는 "하프 패스트 포(HALF PAST FOUR)"로 응답할 수 있는 추가적인 가능성들을 포함한다.

시나리오(30)의 각 단계에서, 제한된 수의 오픈 단어들은 과도한 연산 리소스들을 요구하지 않으면서 언어 인식 동작의 속도를 향상시키고 용이하게 하기 위하여 이용된다. 본 발명의 일 실시에에 따라, 제조자/개발자는 어플리케이션을 제어하므로, 제조자/개발자는 사용자가 말할 것으로 예상되는 단어들의 형태 및 순서를 예측할 수 있다. 택일적으로, 어플리케이션 생성기(201)는 날(day) 응답의 시간을 핸들링하기 위한 전용 모듈을 포함한다. 예를 들면, 시나리오(30)에서 "몇 시에 시작하느냐?"라고 물을 때 사용자 응답은 다음의 가정들을 기초로 예측된다:

제1 단어가 통상적으로 숫자이면, "one"에서 "twelve"까지의 모델들을 포함하는 오픈 단어들이 메모리에 위치된다. 제2 단어(하나가 있다면)는 "fifteen", "thirty", "forty-five", "AM", "PM", "O'clock"이 될 수 있다. 제3 단어는 AM, PM이 될 수 있다.

숫자가 인식되지 않는다면, 사용자 응답은 "가비지(garbage)"로 인식되고 프로그램은 오픈 단어로써 단어 "half"를 로딩한다. 제1 단어가 "half"라면, 제2 단어는 "past"가 되어야 한다. 제3 단어는 다시 "one"부터 "twelve"까지의 수가 되어야 한다.

제조자/개발자에게 어플리케이션 키트를 제공함으로써, 어플리케이션을 제어하는 제조자/개발자는 작은 수(열 또는 이십보다 작은)의 오픈 단어들을 유지하면서, 이 어플리케이션을 많은 단계들로 항상 분할할 수 있다. 가능성들의 수는 매우 작기 때문에 전용 인식 알고리즘(예를 들어 통제된 비터비 알고리즘)이 이용될 수 있는데, 이는 이러한 인식 알고리즘이 특정 어플리케이션 및 시나리오에 전용되기 때문이다.

언어 인식 시나리오의 매 단계에서 오픈 단어들의 수를 제한함으로써, 본 발명에 따라 어플리케이션 생성기로 권한이 부여된 제조자/개발자는 최소한의 리소스들을 갖는 프로그래머블 장치를 이용하여 음성 인터페이스를 통합하고 소비자 전기 제품에 대한 재료의 낮은 비용을 유지할 수 있다. 우리는 문장 구조를 예측할 수 있기 때문에 제1 단어는 "one"과 "twelve" 사이의 숫자이며 제2 단어는 "AM" 또는 "PM" 등이 되며, 이후 특별한 인식 알고리즘(예를 들어, 통제된(supervised) 인식 알고리즘)이 이러한 구조 형태를 위해 전용된다. 통제된 인식 알고리즘은 가능성들의 수를 축소하는 것을 허용하며 이에 의하여 더 큰 정확도를 달성한다. 또한 통제된 인식 알고리즘을 구축하는 것은 인식 처리에 대한 더 큰 정확도를 생성한다.

본 발명이 제한된 수의 실시예들에 관련하여 기재되었지만 본 발명의 많은 변형, 수정 또는 다른 응용들이 이루어질 수 있다는 것이 이해될 것이다.

Claims

전기 제품의 제조자에게 상기 전기 제품에 대한 음성 인터페이스를 제공하는 방법으로서, 상기 방법은:

(a) 상기 전기 제품을 제어하기 위한 프로그래머블 장치를 제공하는 단계로, 상기 프로그래머블 장치는 9 킬로바이트 미만의 랜덤 액세스 메모리와 초당 4100만 미만의 명령어들이 가능한 리소스들을 갖는, 단계;

(b) 언어 인식 모듈을 포함하는 상기 음성 인터페이스에 대한 어플리케이션을 구축하기 위해 제조자에게 어플리케이션 디벨로프먼트 키트를 제공하는 단계;

(c) 상기 어플리케이션으로 상기 프로그래머블 장치를 프로그래밍하는 단계로, 상기 프로그래밍하는 단계는 상기 제조자에 의하여 수행되는, 단계; 및

(d) 상기 어플리케이션을 구동하고, 그럼으로써 상기 전기 제품을 동작시키는 단계를 포함하는 방법.
청구항 1에 있어서, 상기 어플리케이션을 구동하는 단계는 복수의 단계들을 포함하며, 각 단계에서 서로 다른 세트의 오픈 단어들이 상기 언어 인식 모듈에 의하여 인식가능한, 방법.
청구항 2에 있어서, 상기 오픈 단어들은 상기 전기 제품의 사용자에게 제기된 미리 저장된 질문에 대한 응답으로만 상기 언어 인식 모듈에 의하여 인식되는, 방법.
청구항 2에 있어서, 상기 언어 인식 모듈은 적어도 하나의 통제된(supervised) 인식 알고리즘을 이용하는, 방법.
청구항 1에 있어서, 상기 어플리케이션을 구동하는 단계 중, 언어 인식 연산은 사용자의 말이 검출되자마자 온 더 플라이(on-the-fly)로 개시되는, 방법.
청구항 1에 있어서, 상기 리소스들은 5 킬로바이트 미만의 랜덤 액세스 메모리를 포함하는, 방법.
청구항 1에 있어서, 상기 언어 인식 모듈은 고속 푸리에 변환을 계산하기 위한 인 플레이스(in-place) 알고리즘을 포함하는, 방법.
청구항 1에 있어서. 상기 프로그래밍하는 단계의 적어도 일부는 속도를 위해 최적화된 어셈블리 코드를 이용하여 수행되는, 방법.
청구항 1에 있어서, 상기 프로그래머블 장치를 제공하는 단계는 상기 제조자에 의하여 수행되며, 상기 프로그래머블 장치는 복수의 서로 다른 프로그래머블 장치 패밀리들로부터 선택되는, 방법.
청구항 1에 있어서, 상기 프로그래밍하는 단계에 대한 상기 코드의 적어도 일부는 복수의 프로그래머블 장치 패밀리들 사이에서 이동가능한(portable), 방법.
소비자 전기 제품에 대한 음성 인터페이스를 통합하기 위한 상기 소비자 전기 제품의 제조자에게 제공된 음성 인터페이스 어플리케이션 디벨로프먼트 키트로서, 상기 디벨로프먼트 키트는:

(a) 제조자로부터의 입력들로서 음성 인터페이스 어플리케이션의 복수의 단계들을 수신하는 어플리케이션 생성기로서, 각 단계에 대하여 질문이 상기 전기 제품의 사용자에게 제기되고 제한된 수의 오픈 단어들이 상기 질문에 대한 응답으로 인식가능한, 어플리케이션 생성기; 및

(b) 상기 오픈 단어들이 상기 제조자에 의하여 선택되는 단어들의 데이터 베이스로서, 상기 데이터 베이스는 상기 단어들을 인식하기 위한 모델들을 더 포함하는, 데이터 베이스를 포함하며,

상기 제조자는 복수의 프로그래머블 장치 패밀리들로부터 프로그래머블 장치를 선택하고 상기 프로그래머블 장치를 상기 어플리케이션 생성기로 생성된 어플리케이션을 구현하는 코드로 프로그래밍함으로써 상기 전기 제품에 포함된 음성 인터페이스 회로를 구축하는, 디벨로프먼트 키트.
청구항 11에 있어서, 상기 오픈 단어들의 수는 상기 프로그래머블 장치의 리 소스들에 의하여 제한된 20 미만인, 키트.
청구항 11에 있어서, 상기 코드의 적어도 일부는 제너릭이며 모든 상기 프로그래머블 장치 패밀리들에 의하여 지원되는, 키트.
청구항 11에 있어서, (d) 상기 음성 인터페이스 회로의 일부를 제어함으로써 상기 사용자에게 상기 질문을 제기하는 음성 출력 모듈을 더 포함하는, 키트.
청구항 11에 있어서, (d) 상기 전기 제품에 수신된 음성 입력 데이터에 인 플레이스 고속 푸리에 변환을 적용하는 언어 인식 모듈을 더 포함하는, 키트.
청구항 11에 있어서, (d) 적어도 하나의 통제된 인식 알고리즘을 적용하는 언어 인식 모듈을 더 포함하는, 키트.
기계에 의하여 읽을 수 있으며, 전기 제품을 제어하는 음성 인터페이스 회로를 구축하기 위한 방법을 수행하기 위하여 상기 기계에 의하여 실행가능한 명령어 프로그램을 실체적으로 구현하는 프로그램 저장 장치로서, 상기 방법은 상기 전기 제품의 제조자에 의하여 수행되며, 상기 방법은:

음성 인터페이스 어플리케이션의 복수의 단계들에서 프로그래머블 장치를 프로그래밍하는 단계로, 각 단계에 대하여 질문이 상기 전기 제품의 사용자에게 제기 되며 제한된 수의 오픈 단어들이 상기 질문에 대한 응답으로 인식가능한, 단계를 포함하며,

상기 음성 인터페이스 회로에 포함된 상기 프로그래머블 장치는 복수의 프로그래머블 장치 패밀리들로부터 선택되며 상기 프로그래밍의 적어도 일부는 상기 프로그래머블 장치 패밀리들 모두에 제너릭하며 상기 프로그래밍하는 단계의 적어도 일부는 상기 프로그래머블 장치의 패밀리에 특정한, 프로그램 저장장치.
청구항 17에 있어서, 상기 프로그래머블 장치는 9 킬로바이트 미만의 랜덤 액세스 메모리 및 초당 4100만 미만의 명령어들이 가능한 리소스들을 포함하는, 프로그램 저장 장치.
청구항 17에 있어서, 상기 프로그래머블 장치는 5 킬로바이트 미만의 랜덤 액세스 메모리 및 초당 2100만 미만의 명령어들이 가능한 리소스들을 포함하는, 프로그램 저장 장치.