KR20020027382A

KR20020027382A - 콘텐트 정보의 의미론에 따른 음성 명령

Info

Publication number: KR20020027382A
Application number: KR1020017016976A
Authority: KR
Inventors: 페테르 요트. 엘. 아. 스윌렌스; 야코부스 미델얀스; 오케 알베르다; 폴케르 스타인비스
Original assignee: 요트.게.아. 롤페즈; 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2000-05-03
Filing date: 2001-04-26
Publication date: 2002-04-13
Also published as: JP2003532164A; CN1193343C; CN1381039A; WO2001084539A1; EP1281173A1

Abstract

비디오나 오디오 콘텐트 정보의 재생에 관한 음성 제어나 다른 처리는 상기 콘텐트 정보에 의미적으로 관련된 음성 명령을 사용한다.

Description

콘텐트 정보의 의미론에 따른 음성 명령{VOICE COMMANDS DEPEND ON SEMANTICS OF CONTENT INFORMATION}

음성-제어된 장비는 예를 들어, 참조용으로 본 명세서에 모두 병합된 미국 특허 제 4,506,377호; 미국 특허 제 4,558,459호; 미국 특허 제 4,856,072호; 미국 특허 제5,255,326호, 및 미국 특허 제 5,950,166호로부터 알려진다. 특히, 미국 특허 제 5,255,326호는 상호작용(interactive) 오디오 제어 시스템으로서 마이크로프로세서와 연결된 음향 신호 처리기를 채용하는 상호작용 오디오 시스템을 다루고 있다. 스테레오 스피커로서 또한 수신 마이크로폰으로서 동작하는 한 쌍의 트랜시버(transceiver)는 주요 사용자로부터 음성 명령을 수신하는 신호 처리기와 연결된다. 음성 명령은 신호를 처리기에 제공하기 위해 텔레비전, 테이프, 라디오 또는 CD 플레이어와 같은 여러 종류의 다양한 디바이스를 동작하도록 처리되며, 그로부터 신호는 그 후 원하는 음향을 생성하기 위해 트랜시버의 스피커에 제공된다. 부가의 적외선 센서가 사용될 수 있는데, 이는 주요 청취자에 집중된 음향의 "듣기 좋은 지점(sweet spot)"를 유지하기 위해 음향의 균형을 일정하게 조절하는 처리기에 트랜시버 시스템을 통하여 신호를 재공급하도록 주요 청취자의 위치를 일정하게 삼각형으로 나눈다. 또한 부가 디바이스는 저장된 명령과 부합되는 음성 명령에 응답하여 신호 처리기에 의해 제어될 수 있는데, 이는 말해진 음성 명령에 따라 이들 다른 디바이스를 동작시키기 위하여 신호 처리기로부터 출력을 생성하기 위함이다. 상기 시스템은 상기 시스템에 의해 동작되는 임의의 하나의 음향 소스로부터 스테레오 음향을 재생함과 동시에 음성 명령에 응답할 수 있다.

스피치 인식은 하나의 기술인데, 이 기술의 양상은 예를 들어, 참조용으로 모두 본 명세서에 병합된 미국 특허 제 5,987,409호, 미국 특허 제 5,946,655호; 미국 특허 제 5,613,034호; 미국 특허 제 5,228,110호; 및 미국 특허 제 5,995,930호에서 논의된다.

디바이스에 관해 알려진 스피치 제어와 음성 제어 또는 응용은 상기 장비에 결합된 고정 명령 세트에 국한된다. 본 발명은 본 발명의 사용자-친밀성(user-friendliness), 및 본 발명의 동작 사용중 인간공학의 측면을 구현하였고, 만일 음성 명령 또는 음성 명령들이 상기 장치 또는 플랫폼(platform) 보다는 재생될 정보 콘텐트에 연결된다면 음성-제어가능한(voice-controllable) 장비는 강화된다. 즉, 본 발명자들은 CE 장비의 제어가 디바이스-중심(device-centric)이기보다는 콘텐트-중심(content-centric)이어야 한다고 생각한다.

본 발명은 특히 가전(CE) 장비에 의한 콘텐트 정보의 재생(play-out)의 음성 제어에 관한 것이다.

도 1 및 도 2는 본 발명에서 시스템의 블록도이다.

따라서, 본 발명의 한 양상에서, 스피치 명령과 콘텐트 정보를 CD, DVD 또는 고체 상태 메모리와 같은 데이터 캐리어 내부 또는 위에서 통합하는 것이 제안된다. 바람직하게도, 상기 명령은 콘텐트 정보의 의미에 적합하게 된다. 예를 들어, 만일 콘텐트 정보가 오디오, 예를 들어 노래의 모음(collection of songs)을 포함한다면, 상기 노래들 중 하나 이상의 특정 노래의 선택은 상기 노래 제목이나 상기 노래가사의 일부분을 말함으로써 이루어진다. 특별한 메타-데이터(meta-data)가 이러한 특성을 가능하게 하기 위해 CD의 콘텐트에 부가된다. 이러한 메타-데이터는 전형적으로, 필수적인 것은 아니지만, 그러한 특정 CD 및 CD 위의 음악에 대한 음성 제어를 가능하게 하는 상기 디바이스의 음성 제어기 또는 응용에 의해 요구되는 어휘(vocabulary)를 나타낸다. 대안적이거나 보충적으로, 사용자는 재생을 위한 음악을 선택하기 위하여 원하는 음악의 일부분을 허밍(humming)하거나 노래할(시도할) 수 있다. 본 내용에서, 참조용으로 본 명세서에 병합된 "정규화된 음악 테마를 갖는 서지의(bibliographic) 음악 데이터베이스"(관리 번호 PHA 23,241)에 대해 99년 10월 5일, 마크 호프베르그(Mark Hoffberg)에게 허여된 미국 특허 제 5,963,957호를 참조해 보자. 상기 후자의 특허는 음악 데이터베이스를 포함하는 정보 처리 시스템에 관한 것이다. 상기 음악 데이터베이스는 음악 음표(music note)의 동음 기준 시퀀스(homophonic reference sequence)를 저장한다. 상기 기준 시퀀스는 동일 스케일의 정도로 모두 정규화되며, 그래서 이들은 사전편집으로(lexicographically) 저장될 수 있다. 엔-어리(N-ary) 조회를 통하여 한 열(string)의 입력 음악 음표와 특정 기준 시퀀스 사이의 부합(match)을 찾는 동시에, 상기 시스템은 부합되는 기준 시퀀스에 관련된 서지 정보를 제공한다. 또한 이 시스템은 사용자에 의해 허밍(humming)된 입력을 엔-어리 조회를 통하여 재생 명령으로 변환하기 위해서 사용될 수 있다.

부가의 조치없이, 시스템의 오디오 출력은 예를 들어, 노래가 재생되고 있을 때 스피치-제어된 처리의 원하지 않은 활성을 트리거할 수 있다. 이 원하지 않은 활성은 예를 들어, 에코 소거를 통하여 방지되는데, 이는 스피치 명령의 수신을 활성화하기 위하여 예컨대, 필립스 일렉트로닉스의 범용의 프로그램가능한 원격제어기(universal programmable remote), 프론토(Pronto)(등록상표)의 원격제어기 위의 활성 버튼을 누름으로써 방지되거나, 장비가 특유한 몸짓을 하는 사용자를 기록하도록 시킴으로써, 및 기타 등등으로써 방지된다. 만일 콘텐트 정보가 비디오를 포함한다면, 중요한 장면(key scene)은 키워드(key word)에 의해 라벨이 붙여지며, 그래서 그러한 단어를 말하면 관련 장면의 시작에서 재생이 설정된다. 비디오 콘텐트의 키워드 프로파일은 사용자 음성 입력의 키워드에 대한 일대일 매핑(mapping)을 통하거나 사용자 음성 입력의 콘텐트 키워드 라벨 및 그들의 동의어(synonym)의 색인된 목록(indexed list) 상으로의 의미 매핑(semantic mapping)을 통하여 특정 장면을 식별하는데 사용될 수 있다. 바람직하게, 원하지 않는 활성의 생성은 예를 들어, 특정의 고정 명령 또는 접두사(prefix)와 같은 그들의 부분을 사용함으로써 방지된다. 유사하게도, 그래픽, 예를 들어, 가상 현실이나 비디오게임을 사용한 상호작용 소프트웨어 응용은 상기 처리가 스피치 입력이 디스플레이 되거나 디스플레이 될 그래픽 물체(graphics object)의 제어가능한 특성과 관련되도록 하는 것을 허용함으로써 스피치-제어가능하게 된다. 예컨대, 그래픽 물체에 의해 수행될 동작, 예를 들어 구체화(avatar)는 사용자로 하여금 의미적 내용에 맞는 적합한 단어를 말하게 함으로써 스피치-제어가능하거나 스피치-선택가능하게 된다. 이것은 다중 양식(multiple modality)의 제어를 허용하는 비디오게임(예를 들어, 조이-스틱을 통한 핸드-입력 및 스피치 입력) 뿐만 아니라 다른 언어를 가르치기 위하거나 어린이들에게 만질 수 있는 물체나 동작 같은 특정 개념에 대한 적절한 단어 및 표현을 가르치기 위한 교육용 프로그램에도 적합하다. 상기 스피치는 의도된 적절한 동작을 식별하기 위하여 처리될 데이터로 변환된다. 이것은 예를 들어 스피치 데이터와 사전-결정된 룩-업 테이블(look-up table)에 있는 항목과의 의미 부합(semantic matching) 및 가장 가까운 부합에 대한 후보를 발견함을 통하여 이루어진다. 스피치 입력과 의도된 동작 사이의 관련은 사용자-경력(user-history)을 고려함에 의하여 훈련될(trainable) 수 있다.

본 발명의 또 다른 양상에서, 상기 콘텐트가 웹(web)으로부터 다운로딩 및/또는 재생된 후 국부적으로 저장된 때에, 스피치 명령은 상기 콘텐트로부터 유도된다. 예를 들어, 가사의 키워드가 식별되고, 가사들이 속하는 오디오의 일부와 관련되게 저장된다. 이것은 전용(dedicated) 소프트웨어 응용에 의해 수행될 수 있다. 예를 들어, 연주 부분으로부터 음성 부분을 분리하고 음성 부분을 분석함으로써, 오디오 콘텐트의 첫 번째 재생동안 청취가능한 가사가 분석되거나 디지털 데이터가 분석된다. 그렇게 생성된 상기 스피치 명령은 상기 특정 콘텐트에 수반되는 기초 세트(basic set)에 부가하거나 대신하여 사용될 수 있다.

본 발명의 여전히 또 다른 양상에서, 사용자는 사전-존재(pre-existing)하거나 커스터마이즈(customized)된 웹으로부터의 명령을 다운로드할 수 있는데, 상기명령은 특정 콘텐트 정보에 속하고, 음성 제어를 가능하게 하기 위해 정보 콘텐트와 의미적으로 관련된 사용자의 장비에 저장된다. 그리하여, 사용자는 전자 콘텐트 정보에 대한 자신의 홈 라이브러리(home library)를 만들 수 있는데, 홈 라이브러리는 스피치로 완전히 구동되고 홈 네트워크에 대한 자원(resource)으로 간주된다. 예를 들어, 사용자는 자신의 쥬크박스(jukebox) 내부 및/또는 하드디스크 상에 CD, DVD의 모음집을 갖는다. 만일 상기 콘텐트가 공공연히 사용가능한 오디오 및 비디오와 관련된다면, 서비스 제공자는 미리 콘텐트의 각 부분에 대한 주석(annotation) 라이브러리를 생성할 수 있고, 사용자는 자신의 모음집에 관련된 이들 요소를 다운로드 할 수 있다. CD나 DVD를 위한 상기 주석은 디스크 식별자(disk's identifier) 뿐만 아니라 디스크 세그먼트(segment)와 결합될 수 있다. 예를 들어, 사용자에 의해 말해진 앨범의 이름은 교대로 쥬크박스에 있는 CD나 DVD의 검색과 선택을 가능하게 하는 특정 식별자에 연결된다. 노래나 장면의 명칭은 CD나 DVD의 식별자와 관련 키 프레임(key frame) 둘 모두에 연결될 수 있다. 그 때, 사용자는 "영화(movie)"와 "자동차 추적(car chase)"라는 말을 하고, 보답으로 자동차 추적에 관련된 영화속 장면을 갖는, 이용가능한 영화를 얻는다.

본 발명의 여전히 또 다른 양상에서, 스피치 명령은 전자 프로그램 가이드(EPG)에 제시된, 예를 들어, 서비스 제공자에 의해 방송된 콘텐트에 연결된다. 다시, 스피치 인터페이스는 사용자에 의해 말해진 단어나 단어들과 부합하는 특정 프로그램이나 프로그램 범주(category)를 선택하는 것을 가능하게 한다.

본 발명의 여전히 또 다른 양상에서, 사용자에 의해 말해진 명령은 서버,예를 들어, 웹 상의 서버 또는 홈 서버를 통하여 처리되고, 인스트럭션(instruction)으로써 웹-인에이블된 재생 장비(web-enabled play-out equipment)로 복귀된다. 서버는 사용가능한 콘텐트 목록(inventory) 및 콘텐트의 의미를 나타내는 단어로 된 사전을 갖는다. 상기 웹-인에이블된 장비는 예를 들어, CD나 DVD의 식별자 코드를 통하거나 파일의 헤더(header)를 통하여 서버의 콘텐트를 확인하는데, 상기에서 이러한 콘텐트에 대한 스피치 명령은 예를 들어, 룩-업 테이블을 통하여 제어를 위한 인스트럭션에 손쉽게 부합된다.

음성 제어는 예를 들어, 재생, 또는 저장, 또는 멈춤시까지 고속 전진, 등등을 위한 콘텐트 정보의 일부의 선택을 가능하게 한다. 또한, 사전에 키워드로 북마크(bookmark)된 콘텐트는 키워드 레벨에서 음성 입력에 부합하는 특정 발췌(excerpt)의 검색에 대한 음성 제어 하에서 찾을 수 있다.

본 발명의 또 다른 양상은 하나의 저장 매체, 예를 들어 CD나 DVD로부터 또 다른 저장 매체 위로 콘텐트 정보를 복사하는 것을 다룬다. 제 1 저장 매체는 상술된 음성 제어를 가능하게 하는 제어 정보 및 콘텐트 정보를 포함한다. 바람직하게도, 음성 제어를 위한 정보는 복사-보호(copy-protected)되고, 그 결과로 복사는 제어 명령을 갖지 않는다. 이것은 콘텐트 정보 산업을 지탱하는 특성으로 간주된다. 만일 소비자가 음성 제어된 버전(version)의 완전 복사본을 갖기 원한다면, 소비자는 CD 번호나 DVD 번호로의 연결에 의해 식별된 인터넷 상의 서버로부터 음성 제어 정보를 일정 가격으로 다운로드할 수 있다. 이것은 가격이 단지 상징적일지라도, 저작권자의 권리가 인정된다는 장점을 갖는다. 따라서, 이러한 특성은 콘텐트정보가 저작권자나 저작권자의 양수인의 지적 재산이라는 인식을 유지하는데 기여한다.

발명의 명칭이 "콘텐트-구동 스피치- 또는 오디오-브라우저"이고, 발명자가 마크 호프베르그 및 유진 쉬테인(Eugene Shteyn)인 99년 7월 1일 출원된 미국 출원 제 09/345,339호(관리 번호 PHA 23,700)가 본 명세서에서 참조용으로 병합된다. 이 특허 문헌은 라이브 인터넷 방송과 같은 스트림가능한(streamable) 오디오를 제공하는 자원을 발견하기 위하여 인터넷을 검색하는 것에 관련된다. 상기 자원은 자신의 파일 확장(file extension)을 기반으로 식별되고, 예를 들어 고유 언어 또는 음악 스타일에 따라 분류된다. 사용자는 문자 또는 음악 입력을 기반으로 모음(collection)을 찾을 수 있다.

본 명세서에서 사용된 "음성 명령"이라는 표현은 하나 이상의 키워드로 이루질 수 있는 음성 제어 입력을 나타내는 것으로 의미되지만, 이는 또한 더욱 풍부한 언어 표현을 포함할 수 있다.

본 발명은 수반되는 도면에 참조하여 예에 의하여 더욱 상세하게 설명된다.

본 발명은 특히 저장 매체 상에 사전-기록된 콘텐트를 사용하는 장치 또는 소프트웨어 응용의 음성 제어를 허용한다. 상기 저장 매체에 저장된 콘텐트와 의미적으로 관련되고, 결합되고, 또는 기반으로 한 음성 명령이 사용된다. 그러므로,상기 명령은 매체 콘텐트의 샘플마다 다르다. 예컨대, 작곡가 또는 작사가(X)로부터의 음악을 가진 CD에 대해 사용가능한 명령은 작곡가 또는 작사자(Y)로부터 창작된 음악을 가진 CD에 대한 사용가능한 명령과 다르다.

CD 플레이어에 대해, 동작은 다음과 같다. 사용자는 연주자"단 반 슈네벨트(Daan van Schooneveld)"의 CD를 상기 플레이어에 삽입한다. 상기 CD는 음악 및 사용자가 음성 제어를 통해 상기 CD와 상호작용하는 것을 가능하게 하는 소프트웨어를 저장한다. 사용자가 "무스탕 대니(Mustang Danny)"라고 말할 때, 상기 플레이어는 슈네벨트의 CD의 트랙 중 하나인, 그러한 제목의 락음악을 재생하기 시작한다. 사용자가 "누설 오일(leaking oil)"이라고 말할 때, 상기 플레이어는 노래 가사가 "변속기가 여전히 오일을 누설하고 있었기 때문에, 나는 빗속에서 조용히 울었다"라는 구절을 갖는 블루 송(blues song)을 재생하기 시작한다. 기타 등등이 있다. 유사한 제어 시나리오는 셋 탑 박스나 CD 드라이브를 갖는 다른 장치의 음성 제어에 응용된다. 사용자-프로그램가능한 지연(user-programmable delay)은 노래마다 명령을 분리하기 위하여 음성 명령들 사이에서 필요할 수 있다. 대안적으로, 특수한 표현이 노래마다 명령들 사이의 디바이더(divider)로서 제공되는데 이용될 수 있다. 예를 들어, 사용자는 "무스탕 대니를 두 번 연주하고, 누설 오일은 한 번 연주해라;"라고 말할 수 있다. 이것은 노래"무스탕 대니"는 연속으로 두 번 재생되고, 그 후 "누설 오일"에 관한 노래가 한 번 재생된다고 해석된다. "두 번 재생하라" 및 "한 번 재생하라"는 표현은 상기 시스템이 또 다른 음성 명령의 수신에 대해 준비하기 전에 상기 시스템이 각각의 음악으로 무엇을 하기로 되어있는지 및 각노래를 확인하기 위하여 디바이더로서 제공된다.

PC 상의 쥬크박스 응용의 음성 제어는 다음과 같이 예시된다. 쥬크박스 응용은 PC 하드디스크 드라이브(HDD) 상에 CD 콘텐트의 기록(archiving)을 허용하는 소프트웨어 응용이다. 사용자는 HDD 상에 조스 스윌렌스(Jos Swillens)의 "히트곡" CD를 기록했다. 사용자가 "스윌(Swill), 비머(Beemer)"라고 말할 때, 쥬크박스는 PC 상에 기록된 스윌렌스의 CD 트랙 중 하나인 "나의 비머는 나의 상고머리(crewcut)에 맞는다"를 재생하기 시작한다. 음성 명령은 키워드만으로 이루어질 필요는 없으나, 더욱 풍부한 언어 표현을 포함할 수 있다. 예를 들어, 사용자는 "상고머리에 관한 제목인 스윌렌스의 히트곡부터 재생해라"라고 말할 수 있고, 시스템은 예를 들어, 색인 목록에서 적절한 검색 알고리즘을 사용하여 이용가능한 선택사항 중 하나와 음성 입력을 부합시키기 위하여 음성 입력을 처리한다. 사용자가 "스윌, 항상 너의 변리사에게 친절해라"라고 말할 때, 쥬크박스는 심포니 클래식"항상 친절해라 등등"을 재생하기 시작한다.

사용자는 또한 쿠스 미델잔스(Koos Middeljans)로부터의 "히트곡" CD를 PC 상에 기록했다. 사용자가 "쿠스, 스위트 도멜 밸리(Sweet Dommel Valley)"라고 말할 때, 쥬크박스는 기록된 CD 트랙 중 하나인, 그러한 제목을 갖는 포크송(folk song)을 재생하기 시작한다. 사용자가 PC 상에 기록된 미드(Mid)의 "히트곡" CD의 또 다른 트랙인 "쿠스, 나트 더 랩(Nat the Lab)"이라고 말할 때, 쥬크박스는 "나트 더 랩"을 재생하기 시작한다. 사용자가 "미델잔스, 히트곡, 무작위"라고 말할 때, 쥬크박스는 무작위 순서로 상기 CD의 상기 트랙을 재생하기 시작한다.

저작권(copyright)에 의한 콘텐트 보호는 민감한 문제이다. 복사 보호 조치는 이용가능하고, 예를 들어 DRM(디지털 권리 관리)으로 실현된다. 이에 기여하기 위하여, CD나 DVD 상에 있는 의미적으로 관련된 콘텐트 정보와 함께 제공된 스피치 명령은 그들이 플레이어의 내장(onboard) 메모리 외의 위치에 복사되어지지 않는 방식으로 구현될 수 있다. 다른 위치로의 임의의 복사는 상기 특성을 잃게 되어 덜 매력적으로 될 것이다.

또 다른 예에서, 사용자는 쥬크박스에 대해 논의된 바와 유사한 방식으로 재생 및 음성 제어된 선택을 가능하게 하는 의미적으로 관련된 제어 데이터와 함께 콘텐트를 인터넷을 통하여 다운로드한다. 바람직하게도, 상기 제어 데이터는 본 예에서 다운로드된 데이터의 필수적인 부분이다.

쥬크박스 기술에 관한 배경에 대해, "가상 쥬크박스"에 대해 피테르 반 데르 뮤렌(Pieter van der Meulen)을 위해 99년 6월 4일 출원된 것으로서 참조용으로 본 명세서에 병합된 미국 출원 제 09/326,506호(관리 번호 PHA 23,417)를 참조해 보자.

동일 콘텐트 정보는 예를 들어, 음성 인식을 용이하게 하기 위해 서로 다른 지리적 지역의 언어 및 발음에서의 차이를 허용하도록 음성상으로(phonetically) 서로 다른 세트의 음성 명령과 결합될 수 있다. 상기 내용에서, 사용자는 바람직하게도 자신이 시스템의 음성 제어를 위해 사용하기 원하는 언어를 선택한다. 저장 매체는 사용될 것 같은 모든 언어의 명령을 저장하기에 너무나 적은 저장 용량을 가질 수 있다. 만일 음성 명령이 주로 사용될 것 같은 언어 중 하나로 매체로부터이용가능하지 않다면, 상기 재생 디바이스는 바람직하게도 원하는 언어로 등가의 스피치 명령을 다운로드할 수 있는데, 상기에서 시스템은 진행 시간에서 상기 명령을 해당하는 인스트럭션으로 번역할 것이다. 전용 서비스는 인터넷 상에서 이용가능하게 될 수 있다. 상기 내용에서, 둘 모두 참조용으로서 본 명세서에 병합된 "사용자-프로파일 기반의 인터넷-인에이블된 디바이스의 커스터마이즈된 업그레이딩" 스마트콘넥트(SmartConnect)(등록상표)에 대해 아드리안 터너(Adrian Turner) 등을 위해 98년 9월 25일 출원된 미국 출원 제 09/160,490호(관리 번호 PHA 23,500) 및 "웹-인에이블된 디바이스를 통해 서버에서 CE 장비 구성을 퍼스널라이징(personalizing)하기"에 대해 에릭 에켈(Erik Ekkel) 등을 위해 2000년 3월 6일 출원된 미국 출원 제 09/519,546호(관리 번호 US000014)에 대한 참조가 이루어진다. 이들 문헌은 인터넷을 통해 CE 최종-사용자에게 제공된 서비스를 논의한다.

미래의 오디오와 비디오에서, 콘텐트는 인터넷을 통해 더 큰 크기로 최종-사용자에게 제공될 것이 예기된다. 그 때, 기록은 안전한 환경 아래의 집에서 이루어진다. 바람직하게도, 국부적인 기록은 소비자가 특정 콘텐트 정보의 일부와 의미적으로 관련된 소비자 자신의 명령 세트를 생성하는 것을 허용한다. 이것은 약간의 편집과 바람직하게는 사용자가 콘텐트 세그먼트, 음성 입력 명령, 및 원하는 처리 또는 동작 사이의 관계를 확립하는데 도와주는 특정 그래픽 사용자 인터페이스(GUI)를 필요로 한다. 예를 들어, 만일 콘텐트 정보에 아무런 주석이 되어있지 않다면, 사용자는 그가 어느 세그먼트를 별도의 항목으로서 제어하기를 원하는지, 그가 어떤 음성 명령으로 어떻게 제어하기를 원하는지, 및 어떤 명령아래에서 어떤 세그먼트에 관해 어떤 행동이 취해져야 하는지를 구체화해야 한다. 일단 생성되면, 명령 세트는 특정 콘텐트와 함께 동일 파일에 저장되거나 고유 식별자를 사용하여 특정 콘텐트와 연결될 수 있다.

더욱 정교한 시스템에서, 음성문자(phonetic transcription)는 예를 들어, 어휘의 서브세트에 국한되거나 표준 발음의 예외에 대하여, 음소(phoneme) 목록과는 무관한, 임의의 관련 형태의 음성문자를 포함한다. 필요한 변경을 가하여, 이는 또한 선택적인 가청음(acoustic) 모델(가청음 기준)에 응용된다. 언어 모델은 선택적으로 사용될 수 있는데, 이는 예제 문장, 패턴 또는 구(phrase)를 통하여, (확률적인) 유한 상태 문법을 통하여, 그리고 (확률적인) 문맥 자유 문법 또는 다른 종류의 문법을 통한다고 하면, 어떻게 사람들이 전형적으로 시스템과 상호작용하는지와 어떻게 사람들이 문장(소위 "언어 모델")을 말하는지에 대한 설명을 포함한다. 상기 언어 모델은 통신에 대한 임의의 표준 방법의 변형을 포함할 수 있다. 스피치 이해에 관하여, 상기 시스템은 전형적으로 문법을 통하여 주어진 것으로서, 특정 단어, 명령, 구, 표현에 의해 무슨 행동이 트리거되어야 하는지에 대한 어떤 설명을 선택적으로 포함한다. 상기 시스템은 어떻게 상기 시스템이 사용자의 입력에 반응해야 하는지 및 어떻게 상기 시스템이 대화(dialogue) 모드에 들어가는지에 대한 설명을 포함하는 대화 모델을 포함할 수 있다. 예를 들어, 특정 환경아래에서 상기 시스템은 명확화(clarification) 또는 명령의 재확인 등을 요청할 수 있다. 상기 시스템은 스피치 인식기를 구성하는 데이터와 다른 데이터 사이의 관계를 이용할수 있다. 예를 들어, 상기 시스템은 현재 트랙을 재생하기 위하여 사용자가 무엇을 말할 수 있는지를 보여주는 디스플레이를 구비한다.

바람직하게, 저장 매체, 예를 들어 CD, DVD, 고체 상태(예컨대, 플래시) 메모리, 등등은 시작(start-up)중에 인식되며, 음성 명령 특성의 이용가능성을 확인하는 비트 패턴을 갖는다. 상기 확인은 예를 들어 디스플레이 상의 팝-업 스크린(pop-up screen) 또는 스피커를 통해 제공된 말해진 사전-기록된 문자를 통하여 사용자에게 전달될 수 있다.

매체에서 음성 제어 소프트웨어의 형성에 관하여, CD-DA는 CD의 후진 호환성(backwards compatibility)을 상실하지 않고 음성 명령 특성을 부가하는데 사용될 수 있는 가외(extra) 용량의 R-W 채널을 갖는다. 리드-인(lead-in) 트랙은 다양한 언어 버전에 대한 적절한 저장을 가지지 않을 수 있으나, 데이터는 디스크로부터 로컬 메모리로 다운로드될 수 있다. 이런 경우에서, 각 언어는 단지 한 번만 디스크 위에 있어야 한다. 반면에, CD ROM은 요구되는 것으로서 디스크 상에 스피치 제어 파일을 수용하는 것을 용이하게 하는 파일 구조를 갖는다. DVD는 또한 파일 구조를 가지며, CD ROM과 동일한 접근을 허용한다. 플래시, HDD 등등도 동일한 방식으로 다루어질 수 있다.

도 1은 본 발명에서 시스템(100)의 블록도이다. 시스템(100)은 캐리어(106) 위에 저장된 콘텐트 정보(104)를 재생하는 재생 장치(102)를 포함한다. 캐리어(106)는 예를 들어 CD, DVD, 또는 고체 상태 메모리를 포함한다. 대안적으로, 캐리어(106)는 HDD를 포함하는데, 콘텐트 정보(104)는 인터넷이나 다른 데이터망을 통해 HDD 상으로 다운로드된다. 실시예에서, 콘텐트 정보(104)는 디지털 형식으로 저장된다. 당업자에게는 자명한 것으로서, 콘텐트 정보(104)는 또한 아날로그 형식으로 저장될 수 있다. 장치(102)는 콘텐트 정보(104)가 최종-사용자에게 이용가능하도록 하는 렌더링 서브-시스템(108)을 갖는다. 예를 들어, 만일 콘텐트 정보(104)가 오디오를 포함한다면, 서브-시스템(108)은 하나 이상의 스피커를 포함하고, 만일 콘텐트 정보(104)가 비디오 정보를 포함하는 경우, 서브-시스템(108)은 디스플레이 모니터를 포함한다.

본 발명에 따르면, 캐리어(106)는 콘텐트 정보(104)와 의미적으로 관련된 제어 정보(110)를 포함한다. 제어 정보(110)는 데이터 처리 서브-시스템(112)이 마이크로폰(미도시됨)을 통한 사용자의 음성 입력(114)이 제어 정보에 있는 정보 항목과 부합하는지를 결정하는 것을 가능하게 한다. 만일 부합이 있다면, 관련 재생 모드가 선택되는데, 상기에서 그 예가 제시되었다. 한 편에서 제어 정보(110)와 다른 편에서 콘텐트 정보(104) 사이의 의미적 관계는 장치(102)와의 사용자-상호작용을 용이하게 하는데, 이는 상기 오디오 콘텐트의 재생 예에서 설명된 것으로서 고도의 직관적인 대응에 의한 것이다. 바람직하게, 이용가능한 콘텐트 및/또는 선택된 방식에 관한 시각(visual) 피드백이 로컬 디스플레이, 예컨대 작은 LCD(116)를 통하여 제공된다.

캐리어(106)는 한 번에 하나씩 장치(102)에 삽입될 수 있는 요소가 될 수 있다. 대안적으로, 장치(102)는 캐리어(106)와 같은 다중 캐리어(미도시됨) 가운데서나 심지어 물리적으로 서로 다른 것들, 예컨대 CD 및 반도체 메모리 가운데로부터콘텐트를 선택하는 것을 가능하게 하는 쥬크박스 기능(118)을 포함한다.

제어 정보(110)는 여기서 캐리어(106) 상에 콘텐트 정보(104)와 함께 저장되거나 기록된 것으로서 도시된다. 따라서, 사전-기록된 음성 제어 응용 및 명령을 갖는 CD, DVD, 또는 플래시가 제공될 수 있다. 대안적으로, 제어 정보(110)는 음성 입력(114)과 제어 정보(110)에서 이용가능한 하나 이상의 항목을 부합시키는 데이터 처리 시스템(112) 상에서 동작하는 전용 소프트웨어 응용과 협력한다. 이런 후자의 구성에서, 소프트웨어 응용은 제어정보와는 다른 채널을 통하여 제공되는데, 예컨대 인터넷이나 장치(102)를 설정하는 셋-업 디스켓을 통해서 제공된다.

음성 제어는 자체로서 알려져 있으며, 상기 장치의 동작 모드를 선택하기 위하여 장치와의 사용자-상호작용도 알려져 있다. 여기서, 본 발명은 그 일부가 재생을 위해 이용가능한 콘텐트 정보와 의미적으로 관련된 제어 인터페이스를 사용하는 것에 관한 것이다.

본 발명의 시스템 내부에 바람직하게 통합될 선택사항은 다음을 포함한다. 시스템(100)은 말해진 명령을 입력한 사용자에 응답하여 청각(auditory) 또는 시각 피드백을 제공한다. 예컨대, 시스템(100)은, 만일 부합이 있다면, 사전-기록된 음성으로 명령어나 명령어들을 반복함으로써, 또는 만일 부합이 있다면, 사전-기록된 음성으로 단어"확인된(confirmed)"을 제공함으로써 상기 명령의 수신을 확인한다. 이런 특성은 정보 콘텐트 항목당 상대적으로 적은 수의 사전결정된 명령으로 손쉽게 구현될 수 있다. 확인 데이터는 제어 데이터(110) 내부에서 통합될 수 있다. 만일 사용자가 제공한 음성 명령이 이해되지 않는다면, 즉 시스템(100)이 음성 명령을 인식하지 못하고, 제어 데이터(110)에서 부합을 발견하지 못한다면, 시스템(100)은 부정 상태(negative status)를 나타내는 청각 피드백을 제공한다. 예를 들어, 시스템(100)은 사전-기록된 음성으로 "이 명령을 처리할 수 없다", "이런 예술가를 찾을 수 없다", 또는 "이런 노래를 찾을 수 없다", 또는 "유사한 의미의 단어를 찾을 수 없다"를 제공한다. 청각 피드백을 대신하거나, 이에 부가하여, 시스템(100)은 시각 피드백을 제공할 수 있는데, 예컨대 만일 시스템(100)이 음성 입력을 처리할 수 있으면 녹색 섬광, 그렇지 않으면 적색광을 제공한다. 동일 선상에서, 바람직하게도 시스템(100)은 재생되기 위해 선택된 콘텐트의 예술가의 이름, 노래 제목, 또는 앨범 제목을 사전-기록되거나 합성된 음성으로 발음한다. 상기 합성된 음성은 이러한 특성을 위해 문자-언어 엔진(text-to-speech engine)을 사용하며, 그래서 시스템은 다운로드 또는 매체 캐리어로부터 오는 이용가능한 정보를 사용할 수 있다. 문자-언어(TTS) 시스템은 단어를 컴퓨터 문서(예컨대, 워드 프로세서 문서, 웹 페이지)로부터 스피커를 통하여 들을 수 있는 언어로 변환한다. TTS 시스템에서, 바람직하게도 캐리어 문장 등의 억양을 포함하는 단어는 음성문자와 함께 저장된다. 또한, 선택사항으로서, 제어 데이터(110)는 사용자에게 어느 명령, 예를 들어 어느 노래 키워드가 사용가능한지를 설명하는 사전-기록된 또는 합성된 음성 데이터를 포함한다. 사전-기록된 또는 합성된 음성 데이터는 다시 제어 데이터(110)의 일부가 될 수 있다. 사용자는 시스템이 청각 피드백을 제공하는 것을 원하지 않을 때, 상기 시스템을 켜거나 끌 수 있어야 한다.

도 2는 EPG를 갖는 시스템(200)을 예시하는 도면인데, 여기서 이용가능한 콘텐트 정보는 식별되고, 디스플레이 모니터(206) 위에 있는 행(202)과 열(204)로 배열된다. 예컨대, 각 행의 각각은 각각의 TV 채널을 나타내고, 각각의 열은 특정 타임 슬롯을 나타낸다. 각 특정 행 및 열 쌍의 교차점, 예를 들어 행(208)과 열(210)에서, 라벨 또는 제목(212)은 그 특정 타임 슬롯에서, 그 특정 채널로부터 이용가능한 콘텐트를 나타내는 것으로 도시된다. 예를 들어, 화제 분류(topical category) 및 시간에 의한 것 대신에 다른 타입의 배열이 사용될 수 있고, 이는 자원(예를 들어, 인터넷 상에 있는) 또는 채널당 프로파일 등등에 따른 사용자-선호도에 의해 등급화될 수 있다. 윈도우(214)의 경계 내부에 떨어지는 EPG의 부분이 디스플레이되도록 하기 위하여 사용자는 예를 들어, 적절한 사용자-인터페이스(예를 들어, 도시되지 않았지만, 무선 키보드나 다른 방향 디바이스 상의 화살표 키)를 통하여 윈도우(214)를 EPG의 격자를 통하여 이동함으로써 EPG를 찾을 수 있다. 상기에서, 사용자는 디스플레이된 부분에 있는 관련 라벨을 클릭하거나 하이라이팅(highlighting)함으로써 특정 콘텐트 정보를 선택할 수 있다.

전형적으로, EPG는 서비스 제공자에 의해 인터넷을 통하여 제공된다. 본 발명에서, EPG는 원하는 라벨의 클릭이나 하이라이팅과 같은 종래의 방식과는 다른 방식의 EPG와의 사용자-상호작용을 가능하게 하는 부가 제어 소프트웨어(216)로 강화된다. 바람직하게도, 제어 소프트웨어(216)는 상기 EPG와 함께 다운로드되거나, 갱신되거나 새롭게(refreshing)된다. 제어 소프트웨어(216)는 EPG에 있는 사용자-선택을 위한 프로그램을 식별하는 라벨의 의미와 관련된 제어 정보(218)를 포함한다. 예를 들어, 사용자가 사용자 입력 디바이스(220), 예를 들어 마이크로폰을 통한 음성 입력을 통하여 표현"영화"를 데이터 처리 서브-시스템에 입력할 때, EPG의 격자는 윈도우(214)에 분류"영화"에 따른 이용가능한 프로그램만 보여주도록 재-조직되고, 바꿔 말하면 상기 영화 프로그램은 다른 분류에 있는 프로그램으로부터 분명하도록 그래픽으로 나타난다. 그 때, 사용자는 바람직하게도 또한 스피치 명령 하에서 분류"영화"를 통하여 찾을 수 있다. 사용자는 그가 좋아하는 영화를 보고, 비행 사건에 관한 고전 영화로서 EPG에 나타난 제목인 표현"장대한 식스와 오케(The Magnificent Six and Okke)"을 음성 입력으로서 입력한다. 또 다른 예에서, 사용자는 "오늘밤"과 "8시부터"를 입력하고, 상기 입력하에서 윈도우(214)는 그 날 및 8시(오후 8시) 이후부터 이용가능한 프로그램의 모음을 적어도 부분적으로 보여주도록 위치된다. 여전히 또 다른 예에서, 사용자는 윈도우(214)에 디스플레이된 EPG의 부분에 있는 흥미로운 프로그램을 식별했고, 상기 프로그램의 제목을 나타내는 단어를 마이크로폰(220)에 말한다. 그 후, 사용자는 "시청하라(watch)" 또는 "기록하라(record)"를 말한다. 제목을 나타내는 단어는 제어 정보(218)와의 비교를 위해 적절한 형식으로 변환된다. 부합을 발견하자 말자, 제어 소프트웨어(216)는 마이크로프로세서(222)가 튜너(224) 및 디스플레이 모니터(206) 또는 기록 디바이스(226)를 제어하는 것을 가능하게 한다. 이런 식으로, 사용자는 음성 제어를 이용한 EPG와 상호작용할 수 있다.

상술한 바와 같이, 본 발명은 특히 가전 장비에 의한 콘텐트 정보의 재생의 음성 제어에 이용된다.

Claims

최종-사용자(end-user)가 콘텐트 정보 처리를 제어하는 것을 가능하게 하는 방법으로서,

처리될 상기 콘텐트 정보와 의미적으로 관련된 스피치(speech) 명령을 처리하는 것을 포함하는, 방법.
제 1항에 있어서, 상기 정보 콘텐트와 함께 스피치 제어 소프트웨어를 제공하는 것을 포함하는, 방법.
제 1항에 있어서, 상기 명령은 처리를 위한 상기 콘텐트 정보를 식별하는, 방법.
제 1항에 있어서, 상기 콘텐트 정보는 오디오를 포함하고, 상기 명령은 상기 오디오에서 발생하는 단어를 포함하는, 방법.
제 1항에 있어서, 상기 콘텐트 정보는 비디오 정보를 포함하고, 상기 명령은 상기 비디오에 있는 사건(event)이나 물체(object)를 식별하는, 방법.
제 1항에 있어서, 상기 콘텐트 정보는 저장 매체에 저장되고, 상기 명령은상기 처리의 제어를 위해 상기 저장 매체에 저장되는, 방법.
제 1항에 있어서, 상기 스피치 명령의 상기 처리 상태(status)에 관하여 피드백(feedback)을 상기 최종-사용자에게 제공하는 것을 포함하는, 방법.
콘텐트 정보와 최종-사용자가 스피치를 통하여 상기 콘텐트 정보의 처리를 제어하는 것을 가능하게 하는 스피치 명령을 나타내는 데이터를 구비하는, 저장 매체.
제 8항에 있어서, 상기 스피치 명령은 상기 콘텐트 정보에 의미적으로 관련된, 저장 매체.
제 8항에 있어서, 광 디스크, 자기 디스크, 및 고체 상태 메모리 중 적어도 하나를 포함하는, 저장 매체.
콘텐트 정보를 처리하는 전자 장치로서,

ㆍ스피치 명령의 수신을 위한 스피치 입력과,

ㆍ상기 콘텐트 정보와 상기 콘텐트 정보의 의미에 특유한 제어 소프트웨어를 포함하는 저장 매체의 수신을 위한 입력과,

ㆍ상기 스피치 명령의 제어 하에서 상기 소프트웨어를 통하여 상기 콘텐트 정보의처리를 위한 데이터 처리기를

포함하는, 전자 장치.
제 11항에 있어서, 상기 데이터 처리기는 상기 콘텐트 정보에 의미적으로 관련된 스피치 명령에 따라 상기 콘텐트 정보를 처리하는, 전자 장치.
제 11항에 있어서, 상기 저장 매체는 광 디스크, 자기 디스크, 및 고체 상태 메모리 중 적어도 하나를 포함하는, 전자 장치.
제 11항에 있어서, 최종-사용자에게 상기 음성 명령의 처리 상태를 나타내는 출력을 포함하는, 전자 장치.
특유 콘텐트 정보의 의미와 관련된 제어 데이터를 제공하는 방법으로서, 최종-사용자가 상기 제어 데이터에 의해 지원되는 스피치 제어를 통하여 상기 특유의 콘텐트 정보의 처리를 제어하는 것을 가능하게 하는, 방법.
제 15항에 있어서, 사용자가 데이터망을 통하여 상기 제어 데이터를 다운로드하는 것을 가능하게 하는 것을 포함하는, 방법.
제 15항에 있어서, 상기 다운로딩된 제어 데이터는 상기 특유 콘텐트 정보의복사(copy)와 함께 사용되는, 방법.
제 15항에 있어서, 상기 사용자가 데이터망을 통하여 상기 콘텐트 정보를 다운로드하는 것을 가능하게 하는 것을 포함하는, 방법.
제 15항에 있어서, 상기 콘텐트 정보는 EPG를 포함하고,

상기 처리는 상기 EPG와 상호작용(interacting)하는 것을 포함하는, 방법.
프로그램 목록에 의해 나타난 콘텐트 정보의 의미에 특유하고, 최종-사용자가 스피치 입력을 사용하여 EPG와 상호작용하는 것을 가능하게 하도록 작용하는 제어 데이터를 포함하는, EPG.
제 20항에 있어서, 상기 스피치 입력의 처리 상태에 관하여 피드백을 상기 최종-사용자에게 제공하는 것을 제어하는 소프트웨어를 포함하는, EPG.
EPG에 대해, 프로그램 목록에 의해 나타난 콘텐트 정보의 의미에 특유하고, 최종-사용자가 스피치 입력을 사용하여 EPG와 상호작용하는 것을 가능하도록 작용하는, 제어 데이터.
콘텐트 정보를 전자 처리하는 것을 제어하는 스피치 명령으로서, 상기 명령은 상기 콘텐트 정보의 의미에 의해 결정되는, 스피치 명령.