KR20070080757A

KR20070080757A - 대화형 방송 단말 장치

Info

Publication number: KR20070080757A
Application number: KR1020060012200A
Authority: KR
Inventors: 즈테크 바체슬라브; 마일보로다 알렉산드; 이바노프 알렉산더; 시게브 드미트리
Original assignee: 엘지전자 주식회사
Priority date: 2006-02-08
Filing date: 2006-02-08
Publication date: 2007-08-13
Also published as: KR100765282B1

Abstract

본 발명은 대화형 방송 단말 장치에 관한 것이다. 본 발명은 방송 신호를 복호하여 표출할 수 있는 대화형 방송 단말 장치에 있어서, 수신한 방송신호로부터 분리된 객체기술자(object descriptor)를 복호할 수 있는 객체기술자복호부; 음성을 수신하여 음성스트림을 생성하고, 상기 음성스트림으로 장면을 제어할 수 있는 장면제어부; 및 상기 객체기술자복호부로부터 장면(scene)에 포함된 객체정보를 수신하고, 상기 장면제어부로부터 장면제어명령으로 수신하여 장면을 재구성하는 장면그래프부를 포함하는 것을 특징으로 하는 대화형 방송 단말 장치를 제공한다. 본 발명에 따른 대화형 방송 단말 장치에 의하면 음성 센서를 이용하여 음성으로 장면을 제어할 수 있다.

MPEG-4, BIFS, 장면, scene, 노드, 음성, 음성인식

Description

대화형 방송 단말 장치{an interacting broadcasting terminal}

도 1은 본 발명에 따른 대화형 방송 단말 장치의 일 실시예를 나타낸 도면

도 2는 본 발명에 따른 대화형 방송 단말 장치 중 장면제어부의 일 실시예를 나타낸 도면

도 3은 본 발명에 따른 음성센서노드의 신택스의 일 예를 나타낸 도면

<도면 주요부분의 부호의 설명>

101 : 역다중화부 110 : 오디오저장부

120 : 비디오저장부 130 : 객체기술자저장부

140 : 장면기술데이터저장부 210 : 오디오복호부

220 : 비디오복호부 230 : 객체기술자복호부

240 : 장면기술복호부 300 : 장면그래프부

310 : 합성오디오복호부 320 : 합성비디오복호부

400 : 합성부 450 : 표출부

500 : 장면제어부 505 : 음성저장부

510 : 음성센서부 530 : 음성문법인식부

550 : 음성스트림복호부 551 : 스트림파서

553 : 음성인식엔진

본 발명은 대화형 방송 단말 장치에 관한 것으로서, 보다 상세하게는 음성으로 장면제어가 가능한 대화형 방송 단말 장치에 관한 것이다.

디지털 방송 시스템은 다채널화, 고품질화 및 다기능화가 가능한 방송 시스템이다. 다기능화를 위해 디지털 방송은 영상과 음성 뿐만 아니라 데이터도 전송할 수 있도록 데이터 방송 규격을 규정한다. ISO/IEC 14496-1에 규정된 MPEG(moving picture experts group)-4 규격에는 장면 내의 다양한 그래픽 객체 사이의 시공간적 관계를 표현할 수 있는 Binary Scene Format(이하 BIFS)을 규정한다.

BIFS로 불리는 MPEG-4의 장면 기술자 포맷(scene descriptor format)은 VRML(virtual reality modeling language) 등으로 구현할 수 있으며, 장면(scene)을 제어하는데 여러 가지 종류의 장치가 사용가능하다.

예를 들어, 터치 센서는 마우스나 포인팅 기기를 사용하여 장면을 제어할 수 있고, 입력 센서는 키보드나 이와 유사한 다른 주변 기기 등을 사용하여 장면을 제어할 수 있다. 상기 규격은 장면 기술이 어떻게 바뀌어야 하는지 기술하고 있지만, 장면 제어를 어떤 기기에 의해야 하는지에 대해서 규정하고 있지 않다.

본 발명의 목적은 음성 센서로 장면을 제어할 수 있는 대화형 방송 단말 장치를 제공하는 것이다.

본 발명의 다른 목적은 별도의 입력 장치를 이용하지 않고 쉽게 장면을 제어할 수 있는 대화형 방송 단말 장치를 제공하는 것이다.

본 발명의 또 다른 목적은 다수의 언어를 인식할 수 있는 음성 센서로 장면을 제어할 수 있는 대화형 방송 단말 장치를 제공하는 것이다.

상기 목적을 달성하기 위하여 본 발명은 방송 신호를 복호하여 표출할 수 있는 대화형 방송 단말 장치에 있어서. 수신한 방송신호로부터 분리된 객체기술자(object descriptor)를 복호할 수 있는 객체기술자복호부; 음성을 수신하여 음성스트림을 생성하고, 상기 음성스트림으로 장면을 제어할 수 있는 장면제어부; 및 상기 객체기술자복호부로부터 장면(scene)에 포함된 객체정보를 수신하고, 상기 장면제어부로부터 장면제어명령으로 수신하여 장면을 재구성하는 장면그래프부를 포함하는 것을 특징으로 하는 대화형 방송 단말 장치를 제공한다.

상기 음성스트림은 상기 음성스트림의 언어 정보 또는 상기 음성스트림의 오디오의 포맷(audio format) 또는 샘플링 레잇(sampling rate) 또는 샘플당 비트 수 또는 페이로드 데이터(payload data) 중 어느 하나 이상을 포함하는 액서스 유닛(access unit)단위로 구분될 수 있다.

상기 장면제어부는 수신한 음성의 언어 종류에 따라 언어 정보를 출력하는 음성센서부; 상기 수신한 음성으로부터 하나 이상의 단어를 인식하는 음성문법인식부; 및 상기 수신한 음성스트림을 파싱하고, 상기 음성문법인식부로부터 음성을 인식하여 상기 음성의 의미에 따라 상기 음성센서부가 장면제어 명령을 출력하도록 제어하는 음성스트림복호부를 포함하는 것이 바람직하다.

상기 장면제어부는 수신한 음성스트림을 파싱하는 스트림파서; 및 상기 스트림파서가 출력하는 음성스트림으로부터 음성을 인식할 수 있는 음성인식엔진을 포함할 수 있다.

상기 음성센서부는 하나 이상의 언어 종류를 인식할 수 있는 하나 이상의 음성센서노드를 포함하는 것이 바람직하다.

상기 음성센서부는 둘 이상의 음성센서노드가 존재할 경우 입력되는 음성 스트림이 상기 둘 이상의 음성센서노드 중 어느 음성센서노드에서 인식될 수 있을지 여부를 판단할 수 있다.

상기 음성센서노드는 각각 스위치 온(on) 또는 오프(off)가 가능한 것이 매우 바람직하다.

상기 음성센서노드는 장면제어에 사용될 데이터의 소스(source)정보, 또는 음성의 언어 종류 정보, 또는 상기 음성인식엔진이 인식하는 언어 정보, 또는 상기 음성센서노드가 음성을 인식했는지 여부를 나타내는 정보, 또는 음성인식 결과가 저장된 음성문법과 일치하는지 여부를 나타내는 정보, 또는 음성센서노드가 음성으로 장면제어를 실시할지 여부를 나타내는 정보, 또는 상기 음성노드가 음성제어를 실시하는 시점을 저장하는 정보 중 어느 하나 이상의 정보를 포함하는 것이 바람직하다.

다른 관점에서 본 발명은 제 1 제어 수단에 의해 표출하는 장면의 객체의 속성을 변화시켜 장면 제어를 할 수 있는 대화형 방송 단말 장치에 있어서, 상기 1 제어 수단은 수신한 음성에 따라 그 음성이 어떤 언어에 해당하는지 판단하는 하나 이상의 음성센서노드; 상기 음성센서노드가 판단한 언어종류에 따라 상기 언어에 속하는 단어를 인식하는 음성문법인식부; 및 상기 음성문법인식부가 판단한 단어의 의미를 인식하고, 그 의미에 따라 상기 음성센서노드가 상기 객체의 속성을 변화시키는 제어 명령을 출력하도록 하는 음성인식엔진을 포함하는 대화형 방송 단말 장치를 제공한다.

상기 음성센서노드가 출력하는 제어 명령은, 장면제어에 사용될 데이터의 소스(source)인 제 1 필드, 또는 음성의 언어 종류 정보인 제 2 필드, 또는 상기 음성인식엔진이 인식하는 언어 정보인 제 3 필드, 또는 상기 음성센서노드가 음성을 인식했는지 여부를 나타내는 정보인 제 4 필드, 또는 음성인식 결과가 저장된 음성문법과 일치하는지 여부를 나타내는 정보, 또는 음성센서노드가 음성으로 장면제어를 실시할 지 여부를 나타내는 제 5 필드, 또는 상기 음성노드가 음성제어를 실시하는 시점을 저장하는 정보인 제 6 필드 중 어느 하나 이상의 필드를 포함할 수 있다.

상기 제 4 필드는 상기 음성센서노드가 언어를 인식할 경우 참(TRUE)으로 설정할 수 있다.

상기 제 5 필드는 상기 음성인식엔진의 음성인식결과가 상기 제 3 필드와 일치할 경우 참(TRUE)으로 설정할 수 있다.

상기 음성센서노드는 상기 제 5 필드가 참으로 설정될 경우 상기 제 5 필드와 연결된 루트(route)로 장면을 제어할 수 있다.

상기 목적을 구체적으로 실현할 수 있는 본 발명의 바람직한 실시예를 첨부한 도면을 참조하여 설명한다.

도 1은 본 발명에 따른 대화형 방송 단말 장치의 일 실시예를 나타낸 구성도이다. 도 1을 참조하여 본 발명에 따른 대화형 방송 단말 장치의 일 실시예를 설명하면 다음과 같다. 본 발명에 따른 대화형 방송 단말 장치는 MPEG-4 엘리멘터리 스트림을 복호할 수 있다.

역다중화부(100)는 입력받은 스트림, 예를 들면 MPEG-4 엘리멘터리 스트림(elementary stream)을 각각 분리하여 각 저장부(110, 120, 130, 140)으로 출력하여 저장한다.

대화형 방송 단말 장치의 복호부(210, 220, 230, 240)들은 각각의 임시저장부(110, 120, 130, 140)에 저장된 스트림을 각각 복호한다. 즉, 오디오 복호부(210)는 오디오저장부(110)에 저장된 오디오스트림을 복호하고, 비디오복호부(220)는 비디오저장부(120)에 저장된 비디오스트림을 복호하여 각각 출력한다.

상기 오디오복호부(210)와 상기 비디오복호부(220)에서 각각 출력된 스트림 복호 데이터는 각각의 합성오디오저장부(310)와 합성비디오저장부(320)를 거쳐 합성부(400)로 출력된다.

또한, 객체기술자(object descriptor)복호부(230)와 장면기술복호부(240)는 객체기술자저장부(130)에 저장된 객체기술자와 장면기술데이터저장부(140)에 저장된 장면기술 데이터를 각각 복호한다.

상기 장면기술 데이터는 MPEG-4의 BIFS(binary format for scene) 형식의 데 이터인 것이 바람직하다.

객체기술자(object descriptor)복호부(230)는 복호된 객체기술자를 장면제어부(500)로 출력한다.

상기 역다중화부(101)는 음성 스트림을 분리하여 출력하고, 음성저장부(505)에 저장된 후 상기 분리된 음성 스트림을 저장하고, 음성스트림복호부(550)는 상기 저장한 음성스트림을 호출할 수 있다.

본 발명에 따른 대화형 방송 단말 장치는 사용자의 음성으로 장면을 제어할 수 있다. 사용자가 말을 발성할 때 음성스트림이 형성된다.

상기 음성스트림복호부(550)는 장면그래프부(scene graph unit)(300)로부터 장면에 포함되는 객체의 정보를 입력받고, 사용자가 입력하는 음성 스트림을 복호하여 상기 음성에 따라 장면을 제어할 수 있다.

상기 합성부(400)는 합성오디오저장부(310), 합성비디오저장부(320), 객체복호부(230) 및 장면그래프부(300)로부터 각각 오디오, 비디오, 객체기술자(object descriptor) 및 장면기술 데이터를 입력받고 상기 입력받은 정보들을 합성하여 출력부(450)로 출력할 수 있다.

도 2는 본 발명에 따른 대화형 방송 단말 장치에서 사용자가 입력하는 음성스트림에 따라 장면을 제어할 수 있는 장면제어부의 일 실시예를 나타낸 구성도이다. 도 2를 참조하여 장면제어부의 일 실시예의 동작을 설명하면 다음과 같다.

상기 장면제어부의 음성스트림복호부(550)는 스트림파서(stream parser)(551)와 음성인식엔진(553)을 포함할 수 있다.

상기 스트림파서(551)는 사용자가 발성하는 음성 스트림으로부터 오디오 데이터와 언어 정보를 추출할 수 있다. 상기 음성인식엔진(553)은 상기 스트림파서(551)가 추출한 음성관련 데이터로부터 그 음성을 인식할 수 있다.

상기 음성스트림복호부(550)는 입력되는 음성 스트림을 처리하기 전에 먼저 초기화되는 것이 바람직하다. 보다 상세하게는 상기 음성스트림복호부(550)가 입력되는 음성 스트림으로부터 언어에 대한 정보를 추출하면, 그 언어에 맞는 음성을 인식할 수 있도록 음성인식엔진(553)은 초기화될 수 있다.

음성센서부(510)는 다수의 음성센서노드(도 2의 예는 510a, 510b, 501c)들을 포함할 수 있다.

상기 음성스트림복호부(550)는 상기 음성센서노드(510a, 510b, 501c)들의 음성정보와, 상기 음성센서노드가 출력하는 정보에 따른 음성문법인식부(530)의 음성문법정보를 수신하여 입력되는 음성스트림을 복호할 수 있다.

상기 음성스트림복호부(550)가 음성센서노드(510a, 510b, 501c)들과 음성문법인식부(530)로부터 정보를 받을 경우, 상기 음성스트림복호부(550)는 상기 음성센서노드가 수신한 음성스트림 언어에 해당하는 "language" 필드로 언어의 종류에 대한 정보를 수신할 수 있다. 상기 "language" 필드에 대해서는 도 3에서 상세히 설명한다.

상기 음성스트림복호부(550)는 음성문법인식부(530)로부터 일치하는 음성인식결과를 수신할 경우 노드의 소정의 필드(하기의 예에서 "isActive" 필드)를 변화시켜 출력할 수 있다. 따라서, 사용자는 상기의 소정의 필드와 연결된 루트(route) 를 통해 상기 장면그래프부(300)의 장면을 변화시킬 수 있다.

도 3은 본 발명에 따른 대화형 방송 단말 장치 중 음성센서노드가 가질 수 있는 포맷의 일 예를 나타낸 도면이다. 도 3을 참조하여 음성센서노드의 각 신택스의 일 예를 설명하면 다음과 같다.

사용자가 발성한 음성 스트림의 액서스 유닛(access unit)은 스트림의 언어 정보, 상기 음성스트림의 오디오 포맷, 샘플링 레잇(sampling rate), 샘플당 비트 수 및 페이로드 데이터(payload data)를 포함할 수 있다.

또한, 상기 음성센서부의 음성센서노드는 입력되는 음성 스트림이 어떤 음성센서노드와 관련되는지 판단할 수 있다.

상기 음성스트림복호부는 음성센서노드에 관련된 필드들로부터 키워드나 문법적 구조 등의 언어 정보를 얻는다.

사용자가 말을 마치면 상기 음성스트림복호부는 상기 사용자의 말을 인지한 결과를 얻고, 그 언어에 대한 정보에 해당하는 음성센서노드에 "isActive" 필드를 변환시킨다. 상기 "isActive" 필드는 음성에 의한 장면 제어 정보가 기능함을 의미하며, 상기 "isActive" 필드에 연결된 루트(route)는 MPEG-4 장면을 변환시킬 수 있다.

상기 음성센서노드는 enabled 필드를 변화시켜 구동할 수 있다. 음성인식엔진은 음성 리소스(resource)에 민감할 수 있기 때문에 각 음성센서노드를 스위치 오프할 수 있는 것이 바람직하다.

"url" 필드는 장면제어에 사용될 데이터의 소스(source)를 규정할 수 있다. 본 발명에 의한 대화형 방송 단말 장치에 있어서, 상기 "url" 필드는 음성 스트림 타입의 스트림을 나타날 수 있는 것이 바람직하다.

"language" 필드는 음성센서노드의 언어 정보를 나타낸다. 음성인식엔진은 인식하려는 언어가 어떤 것이든 이를 인식할 수 있는 것이 바람직하기 때문에, 상기 음성센서노드는 "language" 필드를 포함하는 것이 좋다.

MPEG-4 장면이 다수의 언어로 제어될 수 있도록 본 발명에 따른 대화형 방송 단말 장치는 다수의 음성센서노드를 포함할 수 있으며, 하나의 음성센서노드는 하나의 언어에 대한 음성센서노드로서 기능하는 것이 좋다.

"speechGrammer" 필드는 음성인식엔진에 대한 언어 정보를 포함할 수 있다. 상기 언어 정보는 독립된 단어 인식자로서, 특정 언어에 있어서 하나의 단어나 어구 등이 하나의 예가 될 수 있다.

만약 언어가 일치하는 음성스트림이 존재하고 그 언어를 취급할 수 있는 음성센서노드가 작동한다면 "isRecognizing" 필드값은 논리값 TRUE가 될 수 있고, 음성 인식 결과가 상기 "speechGrammer" 필드 값과 일치하면, "isAcitive" 필드값은 논리값 TRUE가 될 수 있다.

"speechTime" 필드값은 "isActive" 필드기 논리값 TRUE로 바뀌는 최종 시점을 나타낸다.

본 발명은 MPEG-4 장면을 제어하는데 자바 스피치 API(application program interface)나 MPEG-J를 사용한 장치의 대안이 될 수 있다. 본 발명에 의하면 JAVA 가상 장치와 같은 별도의 장치가 필요하지 않기 때문에 장면제어를 수월하게 수행 할 수 있다.

상기에서 설명한 본 발명에 따른 대화형 방송 단말 장치의 효과를 설명하면 다음과 같다.

첫째, 본 발명에 따른 대화형 방송 단말 장치에 의하면 음성 센서를 이용하여 음성으로 장면을 제어할 수 있다.

둘째, 본 발명에 따른 대화형 방송 단말 장치에 의하면 별도의 입력 장치를 이용하지 않고 쉽게 장면을 제어할 수 있다.

셋째, 본 발명에 따른 대화형 방송 단말 장치에 의하면 다수의 언어로 장면을 제어할 수 있다.

Claims

방송 신호를 복호하여 표출할 수 있는 대화형 방송 단말 장치에 있어서,

수신한 방송신호로부터 분리된 객체기술자(object descriptor)를 복호할 수 있는 객체기술자복호부;

음성을 수신하여 음성스트림을 생성하고, 상기 음성스트림으로 장면을 제어할 수 있는 장면제어부; 및

상기 객체기술자복호부로부터 장면(scene)에 포함된 객체정보를 수신하고, 상기 장면제어부로부터 장면제어명령으로 수신하여 장면을 재구성하는 장면그래프부를 포함하는 것을 특징으로 하는 대화형 방송 단말 장치.
제 1항에 있어서,

상기 음성스트림은 상기 음성스트림의 언어 정보 또는 상기 음성스트림의 오디오의 포맷(audio format) 또는 샘플링 레잇(sampling rate) 또는 샘플당 비트 수 또는 페이로드 데이터(payload data) 중 어느 하나 이상을 포함하는 액서스 유닛(access unit)단위로 구분될 수 있는 것을 특징으로 하는 대화형 방송 단말 장치.
제 1항에 있어서,

상기 장면제어부는 수신한 음성의 언어 종류에 따라 언어 정보를 출력하는 음성센서부;

상기 수신한 음성으로부터 하나 이상의 단어를 인식하는 음성문법인식부; 및

상기 수신한 음성스트림을 파싱하고, 상기 음성문법인식부로부터 음성을 인식하여 상기 음성의 의미에 따라 상기 음성센서부가 장면제어 명령을 출력하도록 제어하는 음성스트림복호부를 포함하는 것을 특징으로 하는 대화형 방송 단말 장치.
제 1항에 있어서,

상기 장면제어부는 수신한 음성스트림을 파싱하는 스트림파서; 및

상기 스트림파서가 출력하는 음성스트림으로부터 음성을 인식할 수 있는 음성인식엔진을 포함하는 것을 특징으로 하는 대화형 방송 단말 장치.
제 3항에 있어서,

상기 음성센서부는 하나 이상의 언어 종류를 인식할 수 있는 하나 이상의 음성센서노드를 포함하는 것을 특징으로 하는 대화형 방송 단말 장치.
제 5항에 있어서,

상기 음성센서부는 둘 이상의 음성센서노드가 존재할 경우 입력되는 음성 스트림이 상기 둘 이상의 음성센서노드 중 어느 음성센서노드에서 인식될 수 있을지 여부를 판단할 수 있는 것을 특징으로 하는 대화형 방송 단말 장치.
제 5항에 있어서,

상기 음성센서노드는 각각 스위치 온(on) 또는 오프(off)가 가능한 것을 특징으로 하는 대화형 방송 단말 장치.
제 5항에 있어서,

상기 음성센서노드는 장면제어에 사용될 데이터의 소스(source)정보, 또는 음성의 언어 종류 정보, 또는 상기 음성인식엔진이 인식하는 언어 정보, 또는 상기 음성센서노드가 음성을 인식했는지 여부를 나타내는 정보, 또는 음성인식 결과가 저장된 음성문법과 일치하는지 여부를 나타내는 정보, 또는 음성센서노드가 음성으로 장면제어를 실시할지 여부를 나타내는 정보, 또는 상기 음성노드가 음성제어를 실시하는 시점을 저장하는 정보 중 어느 하나 이상의 정보를 포함하는 것을 특징으로 하는 대화형 방송 단말 장치.
제 1 제어 수단에 의해 표출하는 장면의 객체의 속성을 변화시켜 장면 제어를 할 수 있는 대화형 방송 단말 장치에 있어서,

상기 1 제어 수단은 수신한 음성에 따라 그 음성이 어떤 언어에 해당하는지 판단하는 하나 이상의 음성센서노드;

상기 음성센서노드가 판단한 언어종류에 따라 상기 언어에 속하는 단어를 인식하는 음성문법인식부; 및

상기 음성문법인식부가 판단한 단어의 의미를 인식하고, 그 의미에 따라 상 기 음성센서노드가 상기 객체의 속성을 변화시키는 제어 명령을 출력하도록 하는 음성인식엔진을 포함하는 것을 특징으로 하는 대화형 방송 단말 장치.
제 9항에 있어서,

상기 음성센서노드가 출력하는 제어 명령은, 장면제어에 사용될 데이터의 소스(source)인 제 1 필드(field), 또는 음성의 언어 종류 정보인 제 2 필드, 또는 상기 음성인식엔진이 인식하는 언어 정보인 제 3 필드, 또는 상기 음성센서노드가 음성을 인식했는지 여부를 나타내는 정보인 제 4 필드, 또는 음성인식 결과가 저장된 음성문법과 일치하는지 여부를 나타내는 정보, 또는 음성센서노드가 음성으로 장면제어를 실시할지 여부를 나타내는 제 5 필드, 또는 상기 음성노드가 음성제어를 실시하는 시점을 저장하는 정보인 제 6 필드 중 어느 하나 이상의 필드를 포함하는 것을 특징으로 하는 대화형 방송 단말 장치.
제 10항에 있어서,

상기 제 4 필드는 상기 음성센서노드가 언어를 인식할 경우 참(TRUE)으로 설정하는 것을 특징으로 하는 대화형 방송 단말 장치.
제 10항에 있어서,

상기 제 5 필드는 상기 음성인식엔진의 음성인식결과가 상기 제 3 필드와 일치할 경우 참(TRUE)으로 설정하는 것을 특징으로 하는 대화형 방송 단말 장치.
제 12항에 있어서,

상기 음성센서노드는 상기 제 5 필드가 참으로 설정될 경우 상기 제 5 필드와 연결된 루트(route)로 장면을 제어하는 것을 특징으로 하는 대화형 방송 단말 장치.