KR20070002017A

KR20070002017A - 멀티모달 내장형 인터페이스들의 교체가능한 커스텀화 방법및 장치

Info

Publication number: KR20070002017A
Application number: KR1020067018998A
Authority: KR
Inventors: 대니얼 엘. 로쓰; 마이클 에드깅턴; 윌리엄 바튼; 로렌스 에스. 길릭
Original assignee: 보이스 시그널 테크놀로지스, 인코포레이티드.
Priority date: 2004-02-17
Filing date: 2005-02-15
Publication date: 2007-01-04
Also published as: WO2005081508A1; EP1719337A1; JP2007525897A; CN1943218A; US20050203729A1

Abstract

본 발명의 특정 양상에 따라 이동 음성 통신 장치는 청각 정보 및 데이터를 송수신하는 무선 트랜시버 회로, 프로세서, 및 프로세서에서 실행될 때 이동 음성 통신 장치로 하여금 상기 이동 음성 통신 장치의 사용자에게 사용자 인터페이스들과 연관된 선택가능한 개성을 제공하게 하는 실행가능한 명령을 저장하는 메모리를 포함한다. 상기 실행가능한 명령은 상기 장치에서 선택가능한 개성을 구비하는 상이한 사용자 프롬프트들을 사용하는 사용자 인터페이스를 구현하는 단계를 포함하고, 여기서 다수의 사용자 프롬프트들의 각각의 선택가능한 개성은 이동 음성 통신 장치 내의 적어도 하나의 데이터베이스에 저장된 데이터로 정의되고 맵핑된다. 상기 이동 음성 통신 장치는 구두 사용자 입력을 인식하여 대응하는 인식된 단어를 제공하는 디코더, 및 상기 인식된 단어에 대응하는 단어를 합성하는 음성 합성기를 포함한다. 상기 장치는 상기 장치에 무선으로 송신되거나, 컴퓨터 인터페이스들을 통해 송신되거나, 또는 상기 장치에 메모리 카드로 제공되는 사용자-선택가능한 개성을 포함한다.

이동 통신 장치, 인터페이스, 사용자 프롬프트, 개성(personality), 멀티모달(multimodal)

Description

멀티모달 내장형 인터페이스들의 교체가능한 커스텀화 방법 및 장치{METHODS AND APPARATUS FOR REPLACEABLE CUSTOMIZATION OF MULTIMODAL EMBEDDED INTERFACES}

관계된 출원에 대한 상호 참조(cross-reference)

본 출원은 2004년 2월 17일에 출원된 미국 가특허출원 제 60/545,204호를 우선권 주장의 기초로 상기 출원의 전체 내용은 참조에 의해 본원에 편입된다.

본 발명은 일반적으로 음성 인식 성능(speech recognition capabilities)을 구비한 무선 통신 장치들(wireless communication devices)에 관계한다.

휴대용 전화기(cellular telephones)와 같은 많은 이동 통신 장치들(mobile communication devices) (여기에서는 적어도 전화(telephony) 또는 음성 통신 기능(voice communication function)을 수행하는 데이터 처리(data processing) 및 장치들을 포함하는 의미이다)은 사용자로 하여금 특정한 기능을 호출하는(invoke) 표현을 말함으로써 그러한 기능에 접근하게 하는 음성 보조 인터페이스들(voice-assisted interface)의 특징들을 갖추고 있다. 친숙한 예가 음성 다이얼링(voice dialing)이고, 사용자가 이름 또는 전화기에 사전 저장된(pre-stored) 표현을 말하면 상기 전화기가 상기 이름과 연관된 번호를 다이얼링하여 응답하는 방식이다. 대안으로, 디스플레이(display) 및 키패드(keypad)는 상기 사용자로 하여금 문자열(text string)을 타이핑(type)하도록 시각 인터페이스(visual interface)를 제공하고, 전화기는 이것에 대해 응답한다.

다이얼된 번호 또는 호출된 기능이 사용자가 진정 의도한 것인지를 확인하기 위해, 이동 전화기(mobile telephone)는 사용자에게 확인 메시지(confirmation message)를 표시할 수 있고, 이것이 옳은 경우 사용자로 하여금 계속 진행하게 하거나, 옳지 않은 경우 상기 기능을 취소하게 한다.

음성(audible) 및/또는 시각(visual) 사용자 인터페이스들(user interfaces)은 이동 전화 장치와 상호작용하기 위해 존재한다.

오디오 확인(audible confirmation) 및 다른 사용자 인터페이스들은 시각 확인 및 인터페이스들에 비해 전화 장치를 보지 않고 운전에 집중하기를 원하는 운전자가 필요로 하는 것과 같은 더욱 많은 핸즈-프리 동작(hands-free operation)을 가능케 한다.

음성 인식(speech recognition)은 전화기 사용자가 말하는 구, 단어, 소리 (일반적으로 본원에서는 발언(utterance)으로 간주되는)를 인식하는 이동 전화기에서 사용된다. 따라서, 음성 인식은 종종 폰북(phonebook) 응용에 사용된다. 하나의 실시예에서, 전화기는 전화기의 스피커 출력을 통해 주어진 오디오 확인에 따라 인식된 말해진 이름에 응답한다. 사용자는 재생(playback)을 듣고 전화기의 인식 결과를 수용하거나 또는 거부한다.

이러한 인터페이스들 즉, 음성 및 시각 인터페이스 양자의 하나의 측면은 그들이 설계에 의해 또는 우연히 하나의 개성(personality)을 구비한다는 것이다. 현재 시판중인 장치 (예를 들어, 삼성 i700 장치)의 경우에, 이동 전화기의 내부 음성(internal voice)은 "the Lady"로 표현된 개성을 구비한다. 대부분의 최신 장치들은 바로 핵심에 접근하고 "please", "thank you" 또는 심지어 "like" 같은 발언이 없는 짧은 프롬프트들을 갖는 매우 사무적인 것들이다.

[발명의 요약]

본 발명의 특정 양상에 따라 이동 음성 통신 장치(mobile voice communication device)는 청각(auditory) 정보 및 데이터를 송수신하는 무선 트랜시버 회로(transceiver circuit), 프로세서(processor), 및 프로세서상에서 실행될 경우 이동 음성 통신 장치로 하여금 상기 이동 음성 통신 장치의 사용자에게 사용자 인터페이스들과 연관된 선택가능한 개성(selectable personality)을 제공하게 하는 실행가능한 명령(executable instruction)을 저장하는 메모리(memory)를 포함한다. 상기 실행가능한 명령들은 상기 장치에서 선택가능한 개성을 구비하는 상이한 사용자 프롬프트들을 사용하는 사용자 인터페이스를 구현하는 것을 포함하고, 여기서 다수의 사용자 프롬프트들의 각각의 선택가능한 개성은 이동 음성 통신 장치 내의 적어도 하나의 데이터베이스(database)에 저장된 데이터로 정의되고 맵핑(mapped)된다. 상기 이동 음성 통신 장치는 구두 사용자 입력(spoken user input)을 인식하여 대응하는 인식된 단어를 제공하는 디코더(decoder), 및 상기 인식된 단어에 대응하는 단어를 합성하는 음성 합성기(speech synthesizer)를 포함한다. 상기 디코더는 음성 인식 엔진(speech recognition engine)을 포함한다. 상기 이동 통신 장치는 휴대용 전화기이다.

이동 음성 통신 장치는 발음(pronunciation) 데이터베이스, 합성기 데이터베이스(synthesizer database) 및 사용자 인터페이스 데이터베이스 중 하나를 구비하는 적어도 하나의 데이터베이스를 포함한다. 발음 데이터베이스는 문자-대-음소 규칙(letter-to-phoneme rules) 및/또는 다수의 단어들의 명확한 발음 및 음성 변조 규칙(phonetic modification rules)을 나타내는 데이터를 포함한다. 합성기 데이터베이스는 음소-대-사운드 규칙(phoneme-to-sound rules), 속도 제어(speed controls) 및/또는 피치 제어(pitch controls)를 나타내는 데이터를 포함한다. 사용자 인터페이스 데이터베이스는 사전 기록된(pre-recored) 음성 프롬프트들(pre-recorded audible prompts), 음성 프롬프트들과 연관된 텍스트(text), 스크린 영상(screen images) 및 애니메이션 스크립트(animation scripts)를 나타내는 데이터를 포함한다. 트랜시버 회로는 오디오 입력 장치(audio input device) 및 오디오 출력 장치(audio output device)를 구비한다. 선택가능한 개성들은 특유한 음성(voice), 악센트(accent), 단어 선택(word choices), 문법 구조(grammatical structures) 및 숨겨진 내포(hidden inclusions) 중 적어도 하나를 포함한다.

본 발명의 다른 양상은 음성 인식 성능을 포함하고, 통신 장치 상에서 다수의 상이한 사용자 프롬프트들을 사용하는 사용자 인터페이스를 구현하는 단계를 포 함하는 통신 장치의 작동 방법을 포함하는데 여기서 상이한 사용자 프롬프트들의 각각의 사용자 프롬프트는 사용자에게 대응하는 구두 입력(spoken input)을 요청하거나 또는 사용자에게 상기 장치의 동작 또는 상태에 관한 정보를 제공하고, 각각의 사용자 프롬프트는 복수의 서로 상이한 개성들로부터 선택가능한 개성을 가진다. 다수의 상이한 개성들의 각각의 개성은 상이한 사용자 프롬프트들 중 대응하는 상이한 하나에 맵핑되고; 및 임의의 이러한 개성들이 장치의 사용자에 의해 선택되는 경우, 상기 방법은 선택된 개성에 맵핑되는 사용자 프롬프트들을 생성하는 단계를 포함한다. 다수의 사용자 프롬프트들은 대응 언어 표시(corresponding language representation)를 구비하고 선택된 개성에 대한 사용자 프롬프트들을 생성할 때 상기 대응 언어 표시 또한 사용자 인터페이스들을 통해 생성된다. 또한 상기 방법은 장치의 사용자 인터페이스들을 통해 대응 언어 표시를 생성할 때 선택된 개성을 갖는 사용자에게 청각적으로 상기 언어 표시를 제공하는 단계 역시 포함한다.

상기 방법은 상이한 사용자 프롬프트들을 구비하는 다수의 사용자 선택가능한 모드(selectable modes)를 구현하는 단계를 포함하고, 각각의 상이한 사용자 프롬프트들은 상이한 개성을 구비한다. 이동 통신 장치는 무작위로 선택되는 경우 사용자 인터페이스들의 개성을 선택하는 사용자 선택가능한 모드를 포함하고, 무작위로 개성들을 스위칭함으로써 사용자에게 다중 개성들 또한 제공할 수 있어서, 분열성 전화 장치(schizophrenic telephone device)에 근접하게 된다. 사용자 선택가능한 개성들은 이동 통신 장치에 무선으로 송신되거나, 컴퓨터 인터페이스를 통 해 송신될 수 있거나 또는 메모리 장치(memory device)에 내장형으로서 이동 통신 장치에 제공될 수 있다.

일반적으로, 다른 양상에서, 본 발명은 다음을 포함하는 방법을 특징으로 한다:

다수의 개성 데이터 파일들(personality data files)을 데이터 기억장치(data storage)에 저장하는 단계로서, 각각의 데이터 파일은 상이한 대응하는 개성을 모방하기 위한 음성 작동 응용(speech-enabled application)을 구성하는 단계;

개성 데이터 파일들 중 선택된 하나에 대한 전자적 요청(electronic request)을 사용자로부터 수신하는 단계;

선택된 개성 데이터 파일에 대한 지급 의무(payment obligation)를 사용자에게 요청(request)하는 단계;

사용자로부터 지급 의무를 수신하는 것에 응해서, 상기 음성 작동 응용을 포함하는 장치에 설치되도록 선택된 개성 데이터 파일을 사용자에게 전자적으로 전송(transfer)하는 단계.

상술한 본 발명의 특징들 및 장점들은 첨부 도면에서 설명되는 바와 같이, 후술할 본 발명의 구현예에 대한 상세한 설명을 통해 더욱 명백해질 것이다.

휴대용 전화기 및 다른 네트워크 컴퓨팅 장치들(networked computing devices)과 같은 이동 음성 통신 장치들은 특정 개성을 구비하는 것으로 설명될 수 있는 멀티모달 인터페이스들(multomodal interfaces)을 구비한다. 이러한 멀티모달 인터페이스들은 거의 전적으로 소프트웨어 제품들(software products)이기 때문에, 개성을 내부 프로세스(internal processes)에 부여하는 것이 가능하다. 이러한 개성 프로파일들(personality profiles)은 상기 장치들의 사용자 인터페이스들에 의해 명백해지고 명사(celebrity), 예를 들면, 정치인 또는 코메디언, 또는 만화 캐릭터(cartoon character)일 수 있다. 상기 장치들의 사용자 인터페이스는 장치 디스플레이에 표시된 문자열을 제공하는 시각 인터페이스 뿐만 아니라 오디오 프롬프트들(audio prompts)을 제공하는 음성 인터페이스를 포함한다. 상기 프롬프트들은 특정 음성, 예를 들어 "Mickey Mouse, " "John F, Kennedy, " "Mr. T, " 등으로 기록되고 반복될 수 있다. 프롬프트들은 특정 악센트, 예를 들어 보스턴(Boston), 인디언(Indian), 또는 남부 악센트를 갖도록 구성될 수 있다.

이동 전화 장치는 음성 인식기 회로, 음성 합성 회로, 로직(logic)을 포함하고, 내장형 데이터 구조들 및 사전 기록된 프롬프트들, 스크립트 및 영상을 변화시켜 장치의 개성을 한정하고, 이것은 이어서 멀티모달 인터페이스들에 대해 특수한 개성을 제공한다. 본원에 개시된 방법 및 장치는 상기 멀티모달 인터페이스들에 대해서 더 나아가 상기 이동 통신 장치에 의해 명백해진 개성에 대해 커스텀화를 제공하는데 관계한다.

도 1은 본원에 개시된 커스텀화 방법에 사용되는 기능적 구성요소을 설명하는 전형적인 이동 전화기의 블록도이다. 시스템(10)은 입력, 출력, 처리 및 데이터베이스 구성요소들을 포함한다. 이동 전화기는 출력 스피커 및/또는 헤드폰(20), 및 입력 마이크로폰(microphone)(22)을 포함하는 오디오 시스템(18)을 사용한다. 오디오 입력 장치 또는 마이크로폰(22)은 사용자의 구두 표현(spoken utterance)을 수신한다. 입력 마이크로폰(22)은 수신한 오디오 입력 신호(audio input signal)를 음성 인식기(speech recognizer)(32)에 제공한다. 음성 인식기는 각각의 음소에 대한 음향 파라미터(acoustic parameters)의 확률적 표시(probabilistic representations)인 음향 모델(acoustic models)(34)을 포함한다. 음성 인식기는 사용자 입력 (구두 표현)을 인식하여 인식된 단어 (텍스트)를 발음 모듈(14)에 제공한다. 차례로 발음 모듈은 입력을 음성 합성기(12)에 제공한다. 인식된 단어는 시각 디스플레이 장치에 대한 문자열로서도 제공된다.

발음 모듈(14)은 출력 신호의 음향 표시(acoustic representation)를 설정하여 상기 표시를 음성 인식기에 제공한다. 발음 모듈(14)은 그 안에 저장된 문자-대-음소 규칙 및/또는 특정 단어들의 명확한 발음 및 가능한 음성 변조 규칙을 구비하는 데이터베이스를 포함한다. 발음 모듈(14)의 상이한 데이터베이스들의 이러한 데이터는 사용자 인터페이스들이 나타내는 하나의 개성을 반영하기 위해 변화될 수 있다. 예를 들어, 남부 악센트를 가진 개성에 대한 문자-대-음소 규칙은 영국 악센트를 가진 개성의 경우와 상이하고 상기 데이터베이스는 전화기에 대해 선택된 개성의 음성/악센트를 반영하기 위해 업데이트될 수 있다.

음성 합성기(12)는 시스템 프로세서(system processor)에 프로그램된 명령을 이용하여 오디오 형태의 인식된 단어를 합성한다. 합성기(12)는 상기 합성기 데이터베이스(30)에서 음소-대-사운드 규칙, 속도 제어 및 피치 제어를 액세스(access)한다. 합성기 데이터베이스 내의 데이터는 사용자 인터페이스가 표시하도록 구성될 수 있는 상이한 개성들을 표시하도록 변화될 수 있다.

또한, 특정한 사용자 인터페이스 출력은 이동 전화기에 의해 재호출(recall)되도록 사용자 인터페이스 데이터베이스(38)에 사전 기록되거나 저장될 수 있다. 이러한 사용자 인터페이스 데이터베이스는 오디오 프롬프트들, 예를 들어, "명령하세요(Say a command please)", 오디오 프롬프트들과 연관된 문자열, 배경과 같은 스크린 영상, 및 애니메이션 스크립트를 포함한다. 사용자 인터페이스 데이터베이스(38)의 데이터는 사용자에 의해 선택된 특정 개성과 연관된 상이한 프롬프트들, 스크린 디스플레이 및 스크립트를 표시하기 위해 변화될 수 있다.

이어서 상이한 데이터베이스, 예를 들어 사용자 인터페이스 데이터베이스(38), 합성기 데이터베이스(30) 및 발음 모듈(14) 데이터베이스 내의 데이터를 사용하여 멀티미디어(multomedia) 인터페이스들의 개성 및 이동 장치들(mobile devices)의 집합적인 개성을 정의한다.

상기 이동 장치들에 연관된 개성들은 더 나아가 시각 프롬프트들을 변화시킴으로써 개인화(personalize)될 수 있다. 상기 스크린 프롬프트들에 연관된 텍스트는 상기 프롬프트들의 실제적인 어법(wording)에 따라 편집되거나 변화될 수 있다.

또한 이동 통신 장치의 기분(mood) 예를 들어, 사용자의 기호(preferences)에 따라 "화난(angry)" 또는 "온건한(mellow)" 을 드러나게 하기 위해 음성 합성기의 녹음된 프롬프트들 및 운율(prosody)을 변화하는 것도 가능하다. 개성을 가질 수 있는 다른 응용들은 다운로드 정보에 제공되는 MP3 플레이어(player) 및 한 세트의 캐리어 명령(carrier commands)을 포함한다.

전화기의 음성 프로세스(voice processes)는 데이터에 의해 구동되므로, 완전한 개성은 이동 장치의 음성 및/또는 시각 인터페이스들에 도입(import)될 수 있다. "개성 프로파일"의 부분들, 즉 프롬프트들, 합성기에 대한 모델, 및 이동 장치에서의 가능한 텍스트 메시지의 변경은 다운로드가능한 제품(object)에 패키지(pachage)될 수 있었다. 이 제품은 컴퓨터 인터페이스들 또는 무선 통과 표준 이동 전화 채널(standard cell phone channels)을 통해서 무선적으로, 또는 상이한 무선 프로토콜(protocols), 예를 들어 블루투스(Bluetooth), 또는 적외선(infrared) 프로토콜 또는 광대역 라디오(wide band radio) (IEEE 802.11 또는 Wifi)를 이용하여 상용화될 수 있었다. 상기 이동 장치는 하나 이상의 개성들을 그것의 메모리 내에 초기 구성(initial configuration)으로서 저장할 수 있었다. 이 장치가 하나 이상의 개성들을 저장하면, 사용된 개성은 사용자 또는 캐리어에 의해 선택될 수 있다. 대안으로, 개성들은 사용자들이 구입할 수 있는 교체가능한 메모리 카드에 저장될 수 있다.

도 2를 참고하면, 하나의 구현예에 따라, 사용자는 "개성들"을 다운로드가능한 형태로 제공하는 제3자(third party)와의 연결을 수립함으로써 "개성"을 수득하고 (단계 300), 이는 링톤(ring tones)과 매우 유사하게 휴대용 전화기로 다운로드될 수 있다. 이것은 공지된 기술을 포함하여 다양한 방식으로, 예를 들어 WAP 프로토콜 (무선 응용 프로토콜(Wireless Application Protocol))을 사용하여 이동 전화기에서 이용가능한 브라우저(browser)를 통해서 또는 상기 언급한 임의의 다른 통신 프로토콜을 통해서 수행될 수 있다. 또는 제3자와 통신 회선(communication link)을 수립하여 수신한 "개성" 파일을 이동 전화기로 전송하는 중간 컴퓨터(intermediate computer)를 이용하여 수행될 수 있다.

상기 연결이 수립된 이후에, 제3자는 사용자로 하여금 더욱 큰 세트의 이용가능한 개성들 사이에서 하나 이상의 "개성들"을 선택할 수 있도록 이동 전화기의 디스플레이에 인터페이스들을 표시한다 (단계 302). 사용자가 개성을 선택한 이후에, 이 선택은 제3자에게 송신되고 (단계 304) 이어서 상기 사용자에게 지급 정보(payment information)를 요청한다 (단계 306). 이것은 사용자에 의해 제공된 신용 카드로 결제하기 위한 인증(authorization)의 형태일 수 있다. 거래(transaction)를 완성하기 위해, 사용자는 요청받은 인증 또는 지급 정보를 제공한다. 상기 지급 정보를 수신하자마자 (단계 308), 제3자는 이어서 상기 동일한 통신 회선을 통해 "개성" 파일을 사용자의 이동 전화기로 전송하기 시작한다 (단계 310). 전송이 끝난 후에, 상기 연결이 종료된다 (단계 312).

하나의 접근방법은 상기 전화기의 하나의 개성을 다운로드된, 새로운 대체적인 개성으로 간단히 교체하는 것이다. 이 경우, 휴대용 전화기는 단 하나의 개성, 즉 전화기에 마지막으로 다운로드된 임의의 하나의 개성을 구비할 것이다. 다른 접근방법은 상기 전화기 안에 다수의 개성들을 저장한 후 전화기의 인터페이스들을 통해 앞으로 사용될 개성을 선택하게 하는 것이다. 이것은 사용자에게 더욱 흥미있는 경험을 제공한다는 장점이 있으나 전화기 내에 더욱 큰 데이터 기억장치를 요구하기도 한다.

도 3은 다수의 개성들을 포함하는 이동 전화기의 동작에 대한 흐름도이다. 이러한 전화기에서, 구매시 또는 후속 다운로드 중 어느 하나의 경우의 사용자는 각각의 다수의 개성들에 대한 데이터 파일들을 내부 메모리에 설치한다(install) (단계 320). 사용자가 상기 전화기의 개성을 변경하고자 할 경우에는, 사용자는 단순히 전화기의 구성(configuration)을 변경하게 하는 사용자 인터페이스를 불러오기만 하면 된다. 이에 대한 응답으로, 상기 전화기는 사용자로 하여금 메모리에 설치되었던 다수의 개성들 중 하나를 선택하게 하는 LCD에 메뉴 인터페이스(menu interface)를 표시한다 (단계 322). 사용자로부터 선택을 수신하고 (단계 324), 이어서 상기 전화기는 선택된 "개성"을 활성화시킨다 (단계 326).

도 4A 및 4B는 커스텀화된 개성을 구비한 음성 다이얼러 흐름의 일례의 다이어그램이다. 단계 92에서 상기 표준 사용자 인터페이스(UI)는 사용자로부터 프롬프트들, 예를 들어 버튼 푸쉬(button push)를 수신하여 태스크(task)를 개시한다. 단계 94에서 UI는 UI 데이터베이스의 개시 명령(initiation command)을 검색한다(look up). 단계 96에서 UI는 상기 장치의 디스플레이 스크린에 개시 문자열 "명령하세요(say a command)"를 제공한다. 이어서 단계 98에서 UI는 출력 스피커를 통해 "명령하세요"를 녹음하는 오디오를 재생한다. 단계 100에서 UI는 음성 인식기에게 명령을 들으라고 말한다. 단계 102에서 상기 인식기는 입력 마이크로폰을 듣는다. 단계 104에서 음성 인식기는 오디오 입력(audio input) "John Smith"를 수신하다. 이어서 단계 106에서 음성 인식기는 상기 오디오 입력을 폰북 데이터베이스에 있는 모든 이름들과 비교하여 "John Smith"에 가장 가까운 것을 선택한다. 단계 108에서 음성 인식기는 표준 UI에 대한 최상의 매치(match)로 응답한다. 단계 110에서 UI는 상기 이름을 합성기에 전한다. 단계 112에서 합성기는 합성기 데이터베이스를 이용하여 이름의 발음을 검색한다. 단계 114에서 합성기는 상기 발음으로부터 출력 오디오를 생성하여 출력 스피커를 통해 재생한다. 단계 116에서 UI는 스크린에 상기 이름을 기록한다. 단계 118에서 UI는 확인을 위한 프롬프트들을 검색하고, 이어서 단계 120에서 UI는 출력 스피커를 통해 사용자에게 확인 프롬프트들 및 이름 ("John Smith라고 말했습니까?(Did you say John Smith?)")을 재생한다. 단계 122에서 UI는 인식기를 켠다. 단계 124에서 사용자가 "예(YES)"라고 말하면 뒤이어 단계 126에서 인식기가 상기 단어 "예"를 듣는다. 단계 128에서 UI는 폰북 데이터베이스에 있는 John Smith의 전화번호를 검색하여 단계 130에서 상기 전화번호를 이용하여 John Smith에게 다이얼링한다(dial).

도 5A 및 5B는 편하게 말하는 남부인의 커스텀화된 개성을 구비한 음성 다이얼러 흐름의 다른 일례의 다이어그램이다. 단계 152에서 상기 표준 UI는 사용자로부터 버튼 푸쉬를 수신하여 태스크를 개시한다. 단계 154에서 UI는 UI 데이터베이스의 개시 명령을 검색한다. 단계 156에서 UI는 상기 장치의 스크린 디스플레이에 개시 문자열 "What Do You Want?"를 제공한다. 단계 158에서 UI는 출력 스피커를 통해 남부의 끄는 말투(southern drawl)로 "Whaddaya Want?"를 녹음하는 오디오를 재생한다. 단계 160에서 UI는 음성 인식기에게 명령을 들으라고 말한다. 단계 162에서 상기 인식기가 작동하여 입력 마이크로폰을 듣는다. 단계 164에서 음성 인식기는 오디오 입력, 예를 들어 "John Smith"를 수신하다. 단계 166에서 음성 인식기는 상기 오디오 입력을 폰북 데이터베이스에 있는 모든 이름들과 비교하여 가장 가까운 것을 선택한다. 단계 168에서 음성 인식기는 표준 UI에 대한 최상의 매치로 응답한다. 단계 170에서 UI는 상기 이름을 음성 합성기에 전한다. 단계 172에서 합성기는 합성기 데이터베이스를 이용하여 이름의 발음을 검색한다. 단계 174에서 합성기는 상기 발음으로부터 출력 오디오를 생성하여 출력 스피커를 통해 남부의 끄는 말투로 "John Smith"를 재생한다. 단계 176에서 UI는 스크린에 이름을 기록한다. 단계 178에서 UI는 확인을 위한 프롬프트들을 검색한다. 이어서 단계 180에서 UI는 출력 스피커를 통해 사용자에게 확인 프롬프트들 및 이름 ("John Smith라고 말했습니까?(D'jou say John Smith?)")을 재생한다. 도 2B에 대해 개시한 흐름도와 유사하게, UI가 인식기를 작동시킨 후에 (단계 182), 사용자는 "예"라고 말함으로써 확인하고 (단계 184) 음성 인식기는 "예"를 듣는다 (단계 186). 단계 188에서 UI는 폰북 데이터베이스에 있는 John Smith의 전화번호를 검색하고 이어서 단계 130에서 UI는 폰북 데이터베이스의 전화번호를 이용하여 John Smith에게 다이얼링한다.

이러한 기능이 제공될 수 있는 전형적인 플랫폼(platform)은 스마트폰(smartphone)(200)으로, 이것은 도 6의 상세 블록도로 설명된다. 상기 플랫폼은 전화기 더 나아가 멀티모달 인터페이스들의 개성을 커스터마이즈(customize)하기 위한 관계된 기능들을 포함하는 내장형 응용 소프트웨어(embedded application software)를 구비한 이동 전화기이다. 본 발명의 실시예에서, 상기 응용 소프트웨어는 다른 프로그램들 중에서 사용자로 하여금 전화기에 있는 정보 (예를 들어, 확인된 사람의 전화번호)에 액세스(access)하여 구두 명령(verbal commands)을 통해 상기 이동 전화기를 제어하는 음성 인식 소프트웨어(voice recognition software)를 포함한다. 상기 음성 인식 소프트웨어는 사용자가 단어들을 말함으로써 텍스트를 이메일(email) 메시지로 입력하게 하는 음성-대-텍스트(speech-to-text) 변환 기능 형태의 개선된 기능도 포함한다.

개시된 구현예에서, 스마트폰(200)은 코어(core)에 예를 들어, 음성대역(voiceband) 및 채널 코딩 기능(channel coding functions)을 포함하는 이동 통신 기능들을 조정하는 베이스밴드(baseband) DSP(202) (디지털 신호 프로세서(digital signal processor)) 및 PocketPC 운영 체계(operating system)가 실행되는 응용 프로세서(application processor)(204) (예를 들어, Intel StrongArm SA-1110)를 포함하는 마이크로소프트 포켓PC-구동 폰(Microsoft PocketPC-powered phone)이다. 상기 전화기는 종래 PDA 특징들과 함께 GSM 음성 호출(GMS voice calls), SMS(단문 메시징 서비스(Short Messaging Service)) 텍스트 메시징, 무선 이메일 (전자 메일), 및 데스크탑-유사 웹 브라우징(desktop-like web browsing)을 지원한다.

송신 및 수신 기능들은 RF 합성기(206) 및 RF 라디오 트랜시버(208)에 이어 안테나(antenna)(212)를 통해 최종-단계 RF 송신 듀티(RF transmit duties)를 조정하는 전력증폭기 모듈(power amplifier module)(210)에 의해 구현된다. 인터페이스 ASIC(214) (주문형 반도체(application specific integrated circuit)) 및 오디오 코덱(audio CODEC)(216) (코더(coder)/디코더)은 명령 및 정보를 입력하기 위한 숫자(numeric) 또는 영숫자(alphanumeric) 키패드 (도시되지 않은)와 같은 전화기에 제공되는 스피커, 마이크로폰, 및 다른 입력/출력 장치들에 인터페이스들을 제공한다.

DSP(202)는 코드 저장(code store)을 위한 플래시 메모리(flash memory)(218)를 사용한다. 리튬-이온 전지(220)는 상기 전화기 및 전화기 내에서 전력 소비(power consumption)를 관리하는 DSP(202)와 커플링된 전력 관리 모듈(power management module)(222)에 동력을 공급한다. 응용 프로세서(214)에 대한 휘발성(Volatile) 및 비휘발성(non-volatile) 메모리는 각각 SDRAM(224) (synchronized dynamic random access memory) 및 플래시 메모리(226) 형태로 제공된다. 이러한 메모리 배열(arrangement)은 운영 체계에 대한 코드, 전화 디렉토리(phone directory)와 같은 커스텀화가능한 특징(customizable features)에 대한 코드, 및 스마트폰에 포함될 수 있는 임의의 응용 소프트웨어에 대한 코드를 저장하는데 이용되고, 이는 후술할 음성 인식 소프트웨어를 포함한다. 스마트폰용 시각 디스플레이 장치는 LCD 디스플레이(230)를 구동하는 LCD 드라이버 칩(driver chip)(228)을 포함한다. 또한 상기 전화기 내에서 다른 장치들에 대한 클록 신호(clock signal)를 제공하고 실시간 표지(indication)를 제공하는 클록 모듈(clock module)(232)도 포함된다.

상술한 모든 구성요소들은 적절하게 디자인된 하우징(housing)(234) 내에 패키징된다.

본원에 개시된 스마트폰이 다수의 상이한 시판중인 스마트폰들의 일반적인 내부 구조를 나타내고 그러한 전화기의 내부 회로 설계가 본 발명이 속하는 기술분야의 당업자에게 일반적으로 알려져 있으므로, 도 6에 도시된 구성요소들 및 그들의 동작(operation)에 대한 보다 구체적인 세부사항은 설명하지 않을 것이고, 이러한 사항들은 본 발명을 이해하는데 필요하지 않을 것이다.

상기 전화기의 내부 메모리는 전화기의 작동 및 다양한 기능들의 지원에 관계된 모든 코드를 포함하고, 여기에는 음성 인식 응용 소프트웨어에 대한 코드(240)가 포함되고, 도 6에서 블록 형태로 표시되었다. 상기 음성 인식 응용은 기본 기능에 대한 코드(242) 뿐만 아니라 개선된 기능에 대한 코드(244)를 포함하고, 이 경우에서는 음성-대-텍스트 변환 기능(244)이다. 본원에 개시된 바와 같이 멀티모달 내장형 인터페이스들의 교체가능한 커스텀화에 대한 실행가능한 명령의 코드 또는 시퀀스(sequence)는 통신 장치의 내부 메모리에 저장되고 그러한 것으로서 응용 프로세서를 구비한 임의의 전화기 또는 장치에서 구현될 수 있다.

본 발명의 원리가 적용될 수 있는 광범위한 다양한 구현예의 견지에서, 설명되는 구현예들은 단지 예시로만 이해되어야 하고 본 발명의 범위를 제한하는 것으로 인식해서는 아니 된다. 예를 들어, 흐름도 (도 4A, 4B, 5A 및 SB)의 단계들은 개시된 것들이 아닌 시퀀스일 수 있고, 더 많거나 더 적은 소자들이 상기 흐름도에 사용될 수 있다. 사용자 인터페이스 흐름은 상기 장치에 티칭 모드(teaching mode)를 부가함으로써 변경될 수 있다. 사용자-선택가능 티칭 모드(user-selectable teaching mode)에서, 상기 장치는 각각의 단계에서 사용자와 접속하여 상기 사용자에게 상기 장치가 수행하는 기능이 무엇인가에 대해서 통지하고 사용자가 앞으로 무엇을 해야만 하는가에 대해서 명령한다. 구현예들의 다양한 구성요소들을 소프트웨어에 의해 구현되는 것으로 설명하였으나, 대안으로 하드웨어(hardware) 또는 펌웨어(firmware)에 의해 구현되는 다른 구현예들도 이용될 수 있고, 그 반대도 가능하다.

멀티모달 내장형 인터페이스들의 교체가능한 커스텀화에 포함되는 방법이 컴퓨터 사용가능 매체(computer usable medium)를 포함하는 컴퓨터 프로그램 제품에 구현될 수 있다는 것은 본 발명이 속하는 기술분야의 당업자에게 명백할 것이다. 예를 들어, 이러한 컴퓨터 사용가능 매체는 하드 드라이브 장치(hard drive device), CD-ROM, DVD-ROM, 또는 컴퓨터 디스켓과 같은 읽기가능 메모리 장치(readable memory device)를 포함할 수 있고, 이것은 그 위에 저장된 컴퓨터 읽기가능 프로그램 코드 세그먼트들(computer readable program code segments)을 구비한다. 또한 상기 컴퓨터 읽기가능 매체는 버스(bus) 또는 통신 회선과 같은 통신 및 송신 매체를 포함하고, 광(optical), 유선(wired), 또는 무선(wireless) 장치는 그 위에서 디지털 또는 아날로그 데이터 신호로 운반되는 프로그램 코드 세그먼트들을 구비한다.

다른 양상, 변경, 및 구현예들은 후술하는 청구항의 범위 내에 포함된다.

도 1은 본원에 개시된 커스텀화 방법에 사용되는 기능적 구성요소들을 설명 하는 전형적인 이동 전화기의 블록도이다.

도 2는 어떠한 "개성들(personalities)"이 이동 전화기로 다운로드(downloaded)되는가에 대한 프로세스(process)를 설명하는 흐름도(flow chart)이다.

도 3은 선택된 "개성"을 가지기 위해 사용자가 어떻게 이동 전화기를 구성하는가를 설명하는 흐름도이다.

도 4A 및 4B는 커스텀화된 개성(customized personality)이 있는 음성 다이얼러 흐름(voice dialer flow)의 예를 집합적으로 설명하는 흐름도(flow diagram)이다.

도 5A 및 5B는 편하게 말하는 남부인(casual speaking southerner)의 커스텀화된 개성이 있는 음성 다이얼러 흐름의 예를 집합적으로 설명하는 흐름도이다 .

도 6은 본원에 개시된 기능이 구현될 수 있는 전형적인 이동 전화기의 블록도이다.

Claims

다음을 포함하는 이동 음성 통신 장치(mobile voice communication device):

청각(auditory) 정보 및 데이터를 송수신하는 무선 트랜시버 회로(wireless transciver circuit);

프로세서(processor); 및

프로세서상에서 실행될 경우 상기 이동 음성 통신 장치로 하여금 상기 이동 음성 통신 장치의 사용자에게 상기 장치와 연관된 선택가능한 개성(selectable personality)을 제공하게 하는 실행가능한 명령들(executable instructions)을 저장하는 메모리(memory)로서, 상기 실행가능한 명령들은 상기 장치에서 적어도 하나의 선택가능한 개성을 구비하는 다수의 상이한 사용자 프롬프트들(user prompts)을 사용하는 사용자 인터페이스(user interface)를 구현하는 것을 포함하고, 여기서 상기 다수의 사용자 프롬프트들의 각각의 선택가능한 개성은 상기 이동 음성 통신 장치 내의 적어도 하나의 데이터베이스(database)에 저장된 데이터로 정의되고 맵핑(mapped)되는 메모리.
제 1항에 있어서, 상기 이동 음성 통신 장치가 다음을 추가로 포함하는 이동 음성 통신 장치:

구두 사용자 입력(spoken user input)을 인식하여 대응하는 인식된 단어를 제공하는 디코더(decoder), 및

상기 인식된 단어에 대응하는 단어를 합성하는 음성 합성기(speech synthesizer).
제 2항에 있어서, 상기 디코더는 음성 인식 엔진(speech recognition engine)을 포함하는 것을 특징으로 하는 이동 음성 통신 장치.
제 1항에 있어서, 상기 장치는 이동 전화 장치(mobile telephone device)인 것을 특징으로 하는 이동 음성 통신 장치.
제 1항에 있어서, 상기 적어도 하나의 데이터베이스는 발음(pronunciation) 데이터베이스, 합성기 데이터베이스 및 사용자 인터페이스 데이터베이스 중 하나를 포함하는 것을 특징으로 하는 이동 음성 통신 장치.
제 5항에 있어서, 상기 발음 데이터베이스는 문자-대-음소 규칙(letter-to-phoneme rules), 다수의 단어들의 명확한 발음 및 음성 변조 규칙(phonetic modification rules) 중 적어도 하나를 나타내는 데이터를 포함하는 것을 특징으로 하는 이동 음성 통신 장치.
제 5항에 있어서, 상기 합성기 데이터베이스는 음소-대-사운드 규칙(phoneme-to-sound rules), 속도 제어(speed controls) 및 피치 제어(pitch controls) 중 적어도 하나를 나타내는 데이터를 포함하는 것을 특징으로 하는 이동 음성 통신 장치.
제 5항에 있어서, 상기 사용자 인터페이스 데이터베이스는 사전 기록된 음성 프롬프트들(pre-recorded audible prompts), 음성 프롬프트들과 연관된 텍스트(text), 스크린 영상(screen images) 및 애니메이션 스크립트(animation scripts) 중 적어도 하나를 나타내는 데이터를 포함하는 것을 특징으로 하는 이동 음성 통신 장치.
제 1항에 있어서, 상기 트랜시버 회로(transceiver circuit)는 오디오 입력 장치(audio input device) 및 오디오 출력 장치(audio output device)를 포함하는 것을 특징으로 하는 이동 음성 통신 장치.
제 1항에 있어서, 각각의 선택가능한 개성은 특유한 음성(voice), 악센트(accent), 단어 선택(word choices), 문법 구조(grammatical structures) 및 숨겨진 내포(hidden inclusions) 중 적어도 하나를 포함하는 것을 특징으로 하는 이동 음성 통신 장치.
다음을 포함하는 음성 인식 성능(voice reconition capabilities)을 포함하는 통신 장치의 작동 방법:

상기 장치에서 다수의 상이한 사용자 프롬프트들을 사용하는 사용자 인터페이스를 구현하는 단계로서, 여기서 상기 다수의 상이한 사용자 프롬프트들의 각각의 사용자 프롬프트는 상기 사용자에게 대응하는 구두 입력(spoken input)을 요청하거나 또는 상기 사용자에게 상기 장치의 동작 또는 상태에 관한 정보를 제공하기 위한 것이고, 상기 다수의 상이한 사용자 프롬프트들의 각각의 사용자 프롬프트는 다수의 서로 상이한 개성들로부터 선택가능한 적어도 하나의 개성을 가지며 상기 다수의 상이한 개성들의 각각의 개성이 상기 다수의 사용자 프롬프트들 중 대응하는 상이한 하나에 맵핑(mapped)되는 단계; 및

임의의 상기 다수의 개성들이 상기 장치의 상기 사용자에 의해 선택되는 경우, 상기 선택된 개성에 맵핑되는 상기 사용자 프롬프트들을 생성하는 단계.
제 11항에 있어서, 상기 다수의 사용자 프롬프트들의 각각의 사용자 프롬프트는 대응 언어 표시(corresponding language representation)를 구비하고 상기 선택된 개성에 대한 사용자 프롬프트들을 생성하는 단계가 상기 사용자 인터페이스를 통해 상기 대응 언어 표시를 생성하는 단계를 추가로 포함하는 방법.
제 12항에 있어서, 상기 사용자 인터페이스를 통해 상기 대응 언어 표시를 생성하는 단계가 상기 사용자에게 상기 언어 표시를 시각적으로(visually) 표시하는 단계를 추가로 포함하는 방법.
제 12항에 있어서, 상기 사용자 인터페이스를 통해 상기 대응 언어 표시를 생성하는 단계가 상기 선택된 개성을 구비하는 상기 사용자에게 상기 언어 표시를 청각적으로(audibly) 제공하는 단계를 추가로 포함하는 방법.
제 11항에 있어서, 상기 각각의 다수의 상이한 개성들은 특유한 음성, 악센트, 단어 선택, 및 문법 구조 중 적어도 하나를 포함하는 것을 특징으로 하는 방법.
제 11항에 있어서, 상기 작동 방법이 상이한 사용자 프롬프트들을 구비하는 다수의 사용자 선택가능한 모드(selectable modes)를 구현하는 방법으로서, 상기 각각의 상이한 사용자 프롬프트들은 상이한 개성을 구비하는 방법을 추가로 포함하는 방법.
제 11항에 있어서, 상기 각각의 상이한 사용자-선택가능한 개성은 상기 이동 통신 장치에 무선으로 송신되거나, 컴퓨터 인터페이스를 통해 송신되거나 또는 메모리 장치(memory device) 내에 내장형으로서 상기 이동 통신 장치에 제공되는 것 을 특징으로 하는 방법.
제 11항에 있어서, 상기 방법이 다수의 상이한 개성들 중 적어도 하나를 무작위로 생성하여 사용자 선택가능한 모드를 구현하는 단계를 추가로 포함하는 방 법.
다음을 포함하는 방법:

다수의 개성 데이터 파일들(personality data files)을 데이터 기억장치(data storage)에 저장하는 단계로서, 각각은 상이한 대응하는 개성을 모방하기 위한 음성 작동 응용(speech-enabled application)을 구성하는 단계;

개성 데이터 파일들 중 선택된 하나에 대한 전자적 요청(electronic request)을 사용자로부터 수신하는 단계;

상기 선택된 개성 데이터 파일에 대한 지급 의무(payment obligation)를 상기 사용자에게 요청(request)하는 단계;

상기 사용자로부터 상기 지급 의무를 수신하는 것에 응해서, 상기 음성 작동 응용을 포함하는 장치에 설치하도록 상기 선택된 개성 데이터 파일을 상기 사용자에게 전자적으로 전송(transfer)하는 단계.