KR101008764B1

KR101008764B1 - 쌍방향 미디어 응답 시스템에서 시각 단서를 제공하는 방법

Info

Publication number: KR101008764B1
Application number: KR1020077028735A
Authority: KR
Inventors: 미첼 코벨; 수미트 로이; 존 앤콘; 프레데릭 후베
Original assignee: 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘.피.
Priority date: 2005-06-10
Filing date: 2006-06-09
Publication date: 2011-01-14
Also published as: WO2006135844A3; EP1889484A2; JP2008546120A; KR20080014843A; WO2006135844A2; US9955205B2; US20060282774A1

Abstract

본 발명의 실시예들은 쌍방향 미디어 응답 시스템에서 시각 단서를 제공하는 방법 및 시스템을 기술한다. 일 실시예에서, 박형 디바이스(110)에서 표시될 적어도 하나의 비주얼 프롬프트(130)가 생성된다. 그 비주얼 프롬프트(130)는 박형 디바이스(110)로 전송되어, 박형 디바이스(110)에서 표시된다.

쌍방향 미디어 응답 시스템, 박형 디바이스, 비디오 스트림, 오디오 스트림

Description

쌍방향 미디어 응답 시스템에서 시각 단서를 제공하는 방법{METHOD AND SYSTEM FOR IMPROVING INTERACTIVE MEDIA RESPONSE SYSTEMS USING VISUAL CUES}

본 발명의 실시예들은 쌍방향 미디어 시스템 분야에 관한 것이다.

휴대폰, PDA 등의 휴대용 디바이스로의 스트리밍 미디어(예를 들어, 비디오 및/또는 오디오)는 새로 부상하는 중요한 시장이다. 예를 들어, 통화 중인 사용자 인지 기간을 줄이기 위해서, 사용자 지정된 영화 예고편이나 기타 흥미로운 비디오 콘텐츠는 휴대용 디바이스에 스트리밍될 수 있다. 또, 집이나 사무실 환경에서 멀리 떨어져서 스포츠나 영화 등의 전문적으로 생산된 자료를 선택하여 볼 수 있는 것은 주문형 비디오 시장을 확장시킨다. 게다가, 비디오 백 채널(video back channel) (예를 들어, 표현, 동작, 자세 등)은 원거리 상호 작용과 근거리 상호 작용간의 인지 격차를 감소시킨다.

호출음 및 PTT(Push-to-talk) 시장에 의해 발생하는 수익에서 알 수 있는 바와 같이, 새로운 통신 서비스 시장은 아주 넓으며 예기치 않은 곳에서 나타날 수 있다. 신흥 시장에 대한 전망은 아시아에서의 제3 세대 무선 표준의 사용 및 유럽 에서의 제3 세대 무선 표준으로의 이동의 견인차 역할을 한다. 다른 나라에 비해 2.5세대/3세대 채용이 뒤떨어지는 미국에도, 소비자 핸드세트(예를 들어, 휴대폰)용 스트리밍 비디오 제품들이 이미 존재해 왔다.

안타깝게도, 이러한 시장에 대한 전망은 지금까지 크게 인식되어 있지 않은데, 이는 중요한 두 가지 장애로 인한 것이다. 그 중 하나는, 스트리밍 미디어에 액세스하는 상당수의 휴대용 디바이스는 제한된 성능(예를 들어, 제한된 처리 및/또는 메모리 용량)을 가지고 있어서 최종 사용자에게 제한된 인터페이스를 제공한다는 점이다. 따라서, 이러한 휴대용 디바이스는 리소스가 부족하기 때문에, 사용자의 가정용 컴퓨터 등에서 사용가능한 복잡한 미디어 상영 애플리케이션을 효과적으로 구동하거나 많은 양의 데이터를 저장할 수 없다. 이러한 디바이스들에서 흔히 발견되는 제한적인 인터페이스는 사용자가 각종 옵션들(예를 들어, 음성 메일 옵션 또는 액세스 가능한 영화 목록)을 탐색하여 선택하는 방법을 제한한다. 그 결과, 사용자는 통상적으로, 오디오 인터페이스를 통해 연속적으로 주어지는 옵션들이 제공될 때까지 기다려야만 한다. 이러한 인터페이스들의 또 다른 약점은 사용자가 선택된 액션(action)을 나타내는 복잡한 키잉 시퀀스(keying sequence)를 거쳐야 한다는 것이다.

상술한 시장에 대한 또 다른 장애는, 스트리밍 미디어를 휴대용 디바이스들로 전달하는데 이용되는 무선 통신 기반시설(예를 들어, 휴대 전화 네트워크)이다. 예를 들어, 스트리밍 미디어의 전달은, 전기 통신 네트워크 인터페이스와, 전기 통신 네트워크에서 유지되어야 하는 코덱 표준(codec standards)(예를 들어, 인터넷 프로토콜 멀티미디어 서브시스템(Internet Protocol Multimedia Subsystem; IMS)에 의해서 제약된다. 이것은 스트리밍 미디어의 쌍방향 제어를 구현할 수 있는 방법을 구체화한다.

전기 통신 공급자들은, 사용자에게 풍부한 기능을 갖는 응답성 인터페이스를 제공하기를 바라지만, 기존 네트워크 표준에 따르지 않을지도 모르는 휴대용 디바이스용의 특별한 클라이언트 소프트웨어를 구현하기를 반드시 원하는 것은 아니다. 예를 들어, 휴대용 디바이스 및/또는 네트워크를 침입하는 바이러스들이 점점 증가하고 있기 때문에, 전기 통신 공급자들은 자신들의 네트워크에 허용되는 데이터 타입에 매우 민감하다. 또한, 인터넷 프로토콜 네트워크에서 전기 통신 네트워크로의 데이터를 전송할 때, 보다 많은 제약들이 도입된다. 따라서, 전기 통신 공급자들은 통상 자신들의 표준을 따르지 않는 데이터 패킷이 자신들의 네트워크에 들어오는 것을 허용하지 않을 것이다. 그 결과, 휴대용 디바이스 사용자들은 자신의 디바이스에서 구동가능한 미디어 플레이어의 선택에 제한을 받는다. 또한, 기존 인터페이스들은 사용자들에게, 사용자들의 가정용 컴퓨터 시스템을 통해서 제공되는 스트리밍 미디어뿐만 아니라, 사용자들이 기대하게 되는 응답성 수준 및/또는 사용의 용이성을 제공하지 않는다.

본 발명의 실시예들은 쌍방향 미디어 응답 시스템에서 시각 단서를 제공하는 방법 및 시스템을 기술한다. 일실시예에서는, 박형 디바이스(a thin device)에 표시될 적어도 하나의 비주얼 프롬프트(visual prompt)가 생성된다. 이 비주얼 프롬프트는 박형 디바이스로 보내져 거기서 표시된다.

본 명세서에 포함되며 그 일부를 형성하는 첨부 도면은 본 발명의 실시예들을 예시하며, 본 발명의 상세한 설명과 함께 본 발명의 원리를 나타낸다. 특별히 언급되지 않는 한, 이러한 설명에서 언급된 도면들은 실제 축적으로 도시된 것이 아님을 이해해야 한다.

도 1은 본 발명의 실시예에 따라 사용되는 쌍방향 미디어 응답 시스템을 나타내는 도면.

도 2는 본 발명의 실시예에 따라 시각 단서를 이용하는 쌍방향 미디어 응답 시스템을 향상시키는 방법의 플로우챠트.

도 3은 본 발명의 실시예에 따른 미디어 스트림 생성 시스템(120)의 블록도.

도 4는 예로서의 MPEG4 파일에 대한 전송 시간 함수로서의 표시 시간을 나타내는 플롯.

도 5는 본 발명의 일 실시예에 따라 미디어 스트림의 분리 TSM의 입력 표시 시간의 함수로서 출력 표시 시간을 나타내는 시간 플롯.

도 6은 본 발명의 다른 실시예에 따라 미디어 스트림의 지연 이벤트 TSM의 입력 표시 시간의 함수소서의 출력 표시 시간을 나타내는 시간 플롯.

도 7은 본 발명의 일 실시예에 따라 미디어 스트림의 지연 동기화 TSM의 입력 표시 시간의 함수로서 출력 표시 시간을 나타낸 시간 플롯.

도 8은 본 발명의 실시예에 따라 비주얼 프롬프트를 생성하는 처리의 플로우챠트.

도 9는 본 발명의 실시예에 따라 블록킹 아티팩트에 대한 랜더링된 캐릭터의 정렬을 도시한 도면.

도 10은 본 발명의 실시예에 따라 사용되는 예시적인 컴퓨터 시스템의 블록도.

이제, 본 발명의 실시예를 상세히 참조할 것이며, 그 예가 첨부 도면에 도시된다. 본 발명은 이하의 실시예들과 함께 기술되지만, 그것은 본 발명을 이들 실시예에만 한정하기 위한 것이 아님을 이해할 것이다. 반대로, 본 발명은 첨부된 특허 청구 범위에 의해 정의된 바와 같은 본 발명의 사상 및 영역 내에 포함될 수 있는 대안, 변경 및 등가물을 커버하는 것으로 의도된다. 더욱이, 이하에 기술된 본 발명의 상세한 설명에서, 본 발명에 대한 완전한 이해를 제공하기 위해 다양한 특정 세부 사항들이 개시된다. 그러나, 본 발명의 실시예는 이들 특정 세부 사항들 없이도 실시될 수 있다. 다른 경우, 본 발명의 양상들을 불필요하게 불명료하게 하지 않도록, 잘 알려진 방법, 절차, 구성 요소 및 회로는 상세히 기술되지 않는다.

표기법 및 명명법(Notation and Nomenclature)

이하의 상세한 설명의 일부는, 컴퓨터 메모리 내의 데이터 비트에 대한 동작의 절차, 논리 블록, 처리 및 다른 심벌 표현의 관점으로 제공된다. 이들 설명 및 표현은, 데이터 처리 분야의 당업자에 의해 이용되는 수단으로서, 그들의 작업의 내용을 당업자에게 가장 효율적으로 전달하기 위한 것이다. 본 출원에 있어서, 절차, 논리 블록, 처리 등은, 원하는 결과를 초래하는 단계 또는 인스트럭션의 일관성 있는 시퀀스인 것으로 고려된다. 단계는 물리적 양들의 물리적 조작을 필요로 하는 것이다. 통상적으로, 필요한 것은 아니지만, 이들 양은 컴퓨터 시스템에서 저장되고, 전송되고, 결합되고, 비교되고, 그렇지 않은 경우 조작될 수 있는 전기 또는 자기 신호의 형태를 취한다.

그러나, 이들 및 유사한 모든 용어들은 적절한 물리적 양과 관련되며, 이들 양에 적용된 편리한 라벨일 뿐임을 알아야 한다. 이하의 설명으로부터 명백한 것으로서, 특별히 언급되지 않는 한, 본 발명 전체를 통해, "액세스", "이용", "변경", "대체" 등과 같은 용어를 이용한 설명은, 컴퓨터 시스템의 레지스터 및 메모리 내의 물리적(전자적) 양으로서 표현된 데이터를 조작하여, 컴퓨터 시스템 메모리 또는 레지스터 또는 다른 그러한 정보 저장, 송신 혹은 표시 장치 내에서 물리적 양으로서 유사하게 표현된 다른 데이터로 변환하는 컴퓨터 시스템 또는 유사한 전자 컴퓨팅 장치의 동작 및 처리를 의미함을 이해할 것이다.

도 1은 본 발명의 실시예에 따라 사용되는 쌍방향 미디어 응답 시스템(100)을 나타내는 도면이다. 도 1의 실시예에서, 박형 디바이스(thin device)(110)는 통신 네트워크(150)를 통해서 미디어 스트림 생성 시스템(120)과 통신상 연결된다. 본 명세서에서, "박형 디바이스"는, 기존 소프트웨어를 변경하는 일없이 기존 제어 스택(stack)을 이용해야 하는 전기 디바이스를 말한다. 다시 말해서, 전자 디바이스에서 이미 구동중인 소프트웨어를 변경하는 일 없이 기존 레거시 디바이스(legacy device)에 새로운 기능성을 부여해야 한다. 예를 들어, 휴대 전화 핸드세트를 "전화 모드"로 사용해야 한다. 전화 모드에서의 제어 스택은 통상 비디오 표시를 제어하기 위한 미드세션 컨트롤 메시지를 포함하고 있지 않기 때문에, 예를 들어, (음성 또는 DTMF 커맨드에 의해) 재생 장치 변경이 요구되는 것을 인지하지 못한다. 본 예에서는, 미디어 스트림 생성 시스템(120)은 불변성으로 박형 디바이스(110)로 이미 보내진 데이터, 즉, 박형 디바이스(110)에 의해 실행되는 국부적인 변경없이 보내진 형태로 박형 디바이스(110)에 의해 재생될 데이터를 처리한다. 본 발명의 실시예에서, 박형 디바이스(110)는 H.236 규격에 맞는 AMR(Adaptive Multi-Rate) 음성 스트림 및 비디오 스트림을 인코딩/디코딩하기 위해 동작가능하다. 또한, 본 실시예에서, 박형 디바이스(110)는 MPEG4 규격에 맞는 비디오 미디어 스트림을 디코딩하기 위해 동작가능하다. 본 실시예는 박형 디바이스의 사용을 기술하고 있지만, 본 발명의 실시예들은 그것에만 한정되는 것이 아님을 유념해야 한다. 다시 말해서, 본 발명의 실시예들은, 예를 들어, 가정용 컴퓨터 시스템 등에서 구현되기에 상당히 적합하다.

본 발명의 실시예에서, 통신 네트워크(150)는 (예를 들어, IEEE 802.11a 또는 802.11b 표준에 맞는) 휴대 전화 네트워크, 라디오 네트워크, Wi-Fi 네트워크, 블루투스 무선 통신 네트워크, 라디오 네트워크, 자외선 통신 네트워크, 위성 링크 등의 무선 통신 네트워크를 포함하지만 그것들로 한정되지는 않는다. 그러나, 본 발명의 실시예들은 이더넷 네트워크, 광대역 접속, 인터넷 등의 다른 네트워크에서 구현되기에도 적합하다. 본 발명의 실시예에서, 박형 디바이스(110) 및 미디어 스트림 생성 시스템(120) 간의 통신은 오디오 채널과 비디오 채널 모두를 포함한다.

본 발명의 실시예에서, 미디어 스트림 생성 시스템(120)은, 박형 디바이스(110)(예를 들어, 휴대 전화, PDA 등)에 스트리밍 미디어 컨텐츠를 제공하기 위한 하나 이상의 컴퓨터를 포함한다. 본 발명의 실시예에서, 미디어 스트림 생성 시스템(120)에 의해 생성된 미디어 스트림은, 박형 디바이스(110)로 전송되는 비디오 미디어, 오디오 미디어, 오디오/비디오 미디어, 기타 다수의 미디어 스트림(예를 들어 다수의 오디오 미디어 스트림을 포함할 수 있다. 또한, 미디어 스트림 생성 시스템(120)은 박형 디바이스(110)의 요구에 응답해서 상술한 미디어 스트림들 중 하나 이상을 변경하기도 한다. 상술한 바와 같이, 박형 디바이스(110)에 변경되지 않은 제어 스택이 보유되어 있어야 하므로, 미디어 스트림 생성 시스템(120)은 하나 이상의 미디어 스트림을 변경한 후 박형 디바이스(110)에 보낼 수 있다.

본 발명의 다른 실시예에서는, 미디어 스트림의 변경은, (박형 디바이스(110)도 아니고 미디어 스트림 생성 시스템(120)도 아닌) 제3자(third party)로부터의 요구에 응답하는 것일 수 있다. 도 1을 다시 참조하면, 제3자(140)가 미디어 스트림 생성 시스템(120)에 박형 디바이스(110)로 전송되는 미디어 스트림의 변경을 요구한다. 예를 들어, 기술 지원자가, 박형 디바이스(110)의 사용자에게 스트리밍될 데몬스트레이션 비디오를 미디어 스트림 생성 시스템(120)으로 요구할 수 있다. 이 요구에 응답해서, 미디어 스트림 생성 시스템(120)은 변경된 미디어 스트림(130)을 생성하여 박형 디바이스(110)에 전송한다.

본 발명의 실시예는, 휴대 전화 네트워크에 액세스하는 휴대 전화 또는 기타 전자 디바이스에 구현될 수 있다. 따라서, 통신 네트워크에 맞는 시그널링(signaling) 방법이 본 발명의 실시예에서 구현되는 것이 바람직하다. 최근의 통신 네트워크들은 낮은 지연, 낮은 밴드폭, 데이터 경로상에서의 음성 전송을 위해 최적화되어 있지만, 제어 경로 상에서의 높은 지연을 위해 최적화되어 있지는 않다. 예를 들어, 호출 설정/해제(call setup/teardown)를 위한 IMS 컨트롤 플레인(control plane)은 2차 앤드투앤드(second end-to-end) 이상을 취할 수 있다. 대조적으로, 메뉴 선택 및 재생 컨트롤(예를 들어, 스트리밍 정지나 미디어 스트림의 변경을 위한 바지인(barge-in))은, 사용자가 허용할 수 있는 수준의 응답성을 제공하기 위하여, 짧은 지연 응답 시간을 요구한다.

통신 네트워크의 제어 경로에서의 긴 지연과 통화중 제어를 위한 응답성이 결합하여, (예를 들어, 제어 신호가 통신 데이터 경로를 통해 보내지는) 대역 내 시그널링의 사용을 위한 바람직한 사용자 입력 전송 방법을 제공한다. 사용자 커맨드와 그 구현 간의 휴지기간이 너무 길면, 사용자는 제어기가 고장났거나 사용자의 입력이 박형 디바이스(110)에 의해서 검출되지 못했다고 생각할 수 있기 때문에, 지연이 짧은 제어를 사용하는 것이 바람직하다. 따라서, 사용자는, 미디어 스트림 생성 시스템(120)이 사용자가 의도하지 않은 동작을 수행하게 할 수도 있는 선택을 계속 입력할 수 있다. 또, 대역 외 시그널링의 사용으로 인해 사용자 커맨드에 대한 응답성에 있어서 지연이 더 길어질 수 있고, 이로 인해 쌍방향 제어 시스템을 사용하고 있음에 대한 사용자의 지각력을 감소시킨다.

통화중 제어를 위한 대역 내 시그널링은 박형 디바이스(110)에 주문형 클라이언트 소프트웨어를 다운로드함으로써 행해질 수 있다. 이러한 방법의 단점은, 소프트웨어가 기존 통신 네트워크 및 코덱 규격에 맞지 않을 수 있는 특화된 통신 신호 세트를 생성할 수 있다는 점이다. 본 발명의 실시예에서, 박형 디바이스(110)로부터의 DTMF(Dual Tone Multi-Frequency) 신호(예를 들어, 111) 또는 음성 커맨드(예를 들어, 112)의 최근의 기원적인 대역 내 인코딩을 사용하여 박형 디바이스(110)로부터의 요구를 미디어 스트림 생성 시스템(120)으로 전송한다. 또, 본 발명의 실시예는 상기 신호들로 한정되는 것이 아니라, 소프트웨어가 기존 네트워크 인터페이스 및 프로토콜 제한에 맞는다면 박형 디바이스(110)로 다운로드되는 소프트웨어를 사용할 수 있다.

도 2는 본 발명의 실시예에 따라 시각 단서를 이용하는 쌍방향 미디어 응답 시스템을 향상시키는 방법(200)의 플로우챠트이다. 도 2의 스텝 210에서, 박형 디바이스에 표시될 적어도 하나의 비주얼 프롬프트가 생성된다. 본 발명의 실시예에서 미디어 스트림의 변경은 미디어 스트림 생성 시스템(120)에 있는 소프트웨어 애플리케이션에 의해서 실행된다. 본 발명의 실시예에서, 미디어 스트림 생성 시스템(120)을 사용하여, 사용자에게 옵션을 제공하기 위한 시각 단서를 이용하는 쌍방향 미디어 응답 시스템을 구현할 수 있다. 이는 현재의 쌍방향 음성 애플리케이 션(예를 들어, 음성 메일 액세스 또는 항공좌석 예약 시스템)을 능가하는 장점인데, 왜냐하면, 비디오 채널을 사용하여 다수의 선택 사항들 또는 "비주얼 프롬프트들"을 박형 디바이스(110)의 사용자에게 동시에 제공할 수 있기 때문이다. 본 발명의 실시예에서는, 네스트(nest)된 선택 세트들이, 애플리케이션을 빠르게 탐색하는데 사용될 수 있는 텍스트 또는 아이콘 기반의 메뉴를 사용하는 사용자에게 제공될 수 있다. 사용자가 다수의 오디오 소스들을 동시에 듣기는 어렵기 때문에, 종래의 쌍방향 음성 애플리케이션들은 옵션들을 사용자에게 순차적으로 제공하는 것으로 한정된다. 따라서, 사용자는 원하는 옵션이 오디오 인터페이스를 통해 제공되기를 기다리거나, 원하는 결과에 액세스하기 위한 복잡한 키잉 시퀀스(keying sequence)를 기억하거나, 원하는 옵션을 결정하기 전에 방대한 옵션 세트를 기억해야만 할 수도 있다.

본 발명의 실시예에서, 비디오 채널을 통해 제공된 정보는 오디오 정보와 함께 제공될 수 있다. 본 발명의 실시예에서, 비주얼 프롬프트들은 오디오 채널을 통해 제공되는 정보에 대응하거나, 오디오 채널을 통해 제공되는 정보와 관련되거나, 오디오 채널을 통해 제공되는 정보와 무관한 정보를 포함할 수 있다. 본 발명의 실시예에서, 비주얼 프롬프트의 동적 생성은 VoiceXML 애플리케이션에 의해 생성된 마크업(markup) 정보에 액세스하는 것에 의해서 용이해진다. 예를 들어, 본 발명의 실시예는, 박형 디바이스(110)를 통해 오디오 프롬프트를 제공할 때 사용되는 VoiceXML 텍스트 스트링을 생성할 수 있다. 본 발명의 실시예에서, VoiceXML 텍스트 스트링은 텍스트투비디오 컴포넌트(text-to-video component)(126)가 오디오 프롬프트와 함께 제공되는 비주얼 표시(예를 들어, 비주얼 프롬프트 또는 단서)를 시각적으로 적절하게 생성하여 이용된다. 본 발명의 실시예에서, 비주얼 프롬프트는, 예를 들어, 미디어 데이터베이스(122)로부터 액세스될 수 있는, 박형 디바이스(110)로 전송되는 오디오 프롬프트의 비주얼 표시(예를 들어, 텍스트 스트링), PDF(Portable Document Format) 파일, JPEG(Joint Photographic Experts Group) 파일, MPEG 파일 등을 포함할 수 있다.

도 2의 스텝 220에서, 비주얼 프롬프트는 박형 디바이스로 전송된다. 본 발명의 실시예에서, 미디어 스트림 생성 시스템(120)이 박형 디바이스(110)와 통신하는데 이용되는 비디오 채널은 오디오 채널에 의해 전달되는 오디오 정보뿐만 아니라 비주얼 정보를 사용자에게 제공하는데 사용될 수 있다. 본 실시예는 박형 디바이스용의 프롬프트를 생성하는 것을 기술하지만, 본 발명의 실시예들은 개인용 컴퓨터, 네트워크 컴퓨터 시스템, 랩톱 컴퓨터 시스템 등의 다른 디바이스들에서 이용하기에도 적당함을 유념해야 한다. 또한, 비주얼 프롬프트는 유선 통신 네트워크, 인터넷, 무선 통신 네트워크를 통해 박형 디바이스나 컴퓨터로 전달될 수 있다.

도 2의 스텝 230에서, 비주얼 프롬프트는 박형 디바이스에 표시된다. 본 발명의 실시예는 편리하게도 사용자가 방대한 선택 세트를 빠르게 탐색하는데 사용할 수 있으면서/있으나 특정 키잉 시퀀스를 기억해야만 하는 일이 없는 복수의 옵션들을 박형 디바이스의 사용자에게 동시에 표시하는 것으로 허용한다. 본 발명의 실시예에서, 비주얼 프롬프트들은 텍스트, 아이콘, 또는 기타 비주얼 이미지를 포함할 수 있다. 사용자 오디오 인터페이스뿐만 아니라 박형 디바이스(110)의 비디오 인터페이스를 이용하여 복수의 옵션들을 동시에 보거나 원하는 선택 사항으로 빠르게 스크롤할 수 있다. 또한, 사용자는, 옵션들이 박형 디바이스(110)의 표시 상에 표시되기 때문에 볼 영화를 선택할 때 특정 키잉 시퀀스를 기억할 필요가 없다.

도 3은 본 발명의 실시예에 따른 예시적인 미디어 스트림 생성 시스템(120)의 블록도이다. 도 3에서, 박형 디바이스(110)는 통신 네트워크(150)를 통해서 미디어 스트림 생성 시스템(120)에 통신상 연결되어 있다. 미디어 리소스 서버(121)는 통신 네트워크(150)와 통신상 연결되어 있으며, 오디오 미디어 스트림 및/또는 비디오 미디어 스트림을 변경하기 위한 사용자 요구를 전달하는 박형 디바이스(110)로부터의 신호를 수신하기 위한 것이다. 미디어 리소스 서버(121)는 또한 본 발명의 실시예에 따른 박형 디바이스(110)로의 미디어 스트림 및/또는 변경된 미디어 스트림을 생성하기 위한 것이다. 본 발명의 실시예에서, 미디어 리소스 서버(121)는 또한 통신 네트워크(150)와의 통신을 위한 전화 인터페이스, 인터넷(310)으로의 인터페이스, 및 DTMF 신호 처리용 인터페이스를 포함할 수 있다. 미디어 리소스 서버(121)는 또한 미디어 데이터베이스(122), 애플리케이션 컴포넌트(123), TTS(text-to-speech) 컴포넌트(124), ARS(automatic speech recognition) 컴포넌트(125), 텍스트투비디오 컴포넌트(126), 및 동기화 관리자(127)와 통신상 연결되어 있다. 본 발명의 실시예에서, 시스템(120)은 도 3에 도시된 것과는 다르게 구성될 수도 있다. 시스템(120)의 동작을 아래에 보다 상세하게 설명한다.

본 발명의 실시예에서, 다수의 미디어 스트림이 미디어 스트림 생성 시스템(120)에 의해서 생성된다. 일실시예에서, 박형 디바이스(110)에 동시에 표시될 오디오 미디어 스트림 및 비디오 미디어 스트림이 생성된다. 본 발명의 실시예에서, 오디오 및 비디오 미디어는 대응하는 컨텐츠(예를 들어, 비디오 이미지는 "메일박스"라는 어구를 표시하면서 오디오 출력도 "메일박스"라고 말한다), 관련 컨텐츠(예를 들어, 차 사진이 표시되면서 오디오 출력은 그 차를 설명한다)일 수 있으며, 또는, 무관한 컨텐츠일 수도 있다. 그러나, 다수의 미디어 스트림을 박형 디바이스에 동시에 제공하는 것은 각 미디어의 상이한 처리 요청들로 인한 스케줄링 및 동기화 문제를 일으킬 수 있다. 예를 들어, 비디오 미디어 스트림의 디코딩 대기 시간의 증가는 통상 박형 디바이스(110)에 의해서 실행되어야 하는 보다 컴퓨터 집약적인 비디오 디코딩 때문에 일어난다. 따라서, 박형 디바이스(110)에 데이터 처리 시간을 충분히 주기 위해서는 비디오 미디어 스트림을 전송하는데 보다 긴 리드 시간(lead time)이 필요하다.

한편, 오디오 미디어 스트림은 박형 디바이스(110)의 일부에서 보다 적은 처리를 요구하며 미디어 스트림 생성 시스템(120)으로부터 실시간으로 다소 보내진다. 따라서, 비디오 전송의 리드 시간은 오디오 미디어 전송에 관해서 변할 수 있기 때문에, 미디어 스트림들이 박형 디바이스(110)에서 동시에 제공될 수 있도록 미디어 스트림의 오프셋을 동기화하는 것은 VBR(variable bit rate) 미디어 스트림에서 특히 문제가 될 수 있다.

이것은, 예로서의 MPEG4 파일에 대한 전송 시간 함수로서의 표시 시간을 나타내는 플롯인 도 4에 보다 자세히 나타나 있다. 도 4에 나타낸 바와 같이, 동시에 제공될 오디오 스트림에 대한 비디오 미디어 스트림의 전송 시간은 폭넓게 변할 수 있다. 예를 들어, 2000 밀리 초의 표시 시간으로 동시에 표시될 미디어 스트림들에 대하여, 비디오 미디어 스트림(예를 들어 410)은 약 14000 밀리 초의 전송 시간으로 전송되는데, 동시에 제공되는 오디오 미디어 스트림(예를 들어, 420)은 20000 밀리 초의 전송 시간으로 전송된다. 따라서, 이 점에 약 6000 밀리 초의 전송 오프셋이 있다. 그러나, 23000 밀리 초의 표시 시간에서, 비디오 미디어 스트림(예를 들어, 410)은 약 19500 밀리 초의 전송 시간으로 전송되는데, 동시에 제공되는 오디오 미디어 스트림(예를 들어. 420)은 약 23000 밀리 초의 전송 시간으로 전송된다. 따라서, 이 점에서는, 약 3500 밀리 초의 전송 오프셋이 있다.

오디오 및 비디오 미디어 스트림들의 타이밍 및 동기화의 다른 문제점은, 몇몇 박형 디바이스(예를 들어, 휴대 전화) 대기 시간이 짧은 통신 네트워크용으로 설계된다는 것이다. 따라서, 그러한 디바이스들의 작은 버퍼 사이즈는, 버퍼가 이미 꽉 차있어서 데이터가 손실되는 버퍼 오버플로우나 부가적인 스트리밍 미디어가 미디어 스트림 생성 시스템(120)으로부터 도착하기 전에 버퍼 내의 데이터가 처리되는 버퍼 언더플로우를 방지하기 위하여 박형 디바이스(110)와 미디어 스트림 생성 시스템(120) 간의 상당히 정확한 동기화를 필요로 한다.

초기의 오디오 코덱은, 각 데이터 패킷이 표시되는 고정 데이터 패킷 타이밍, 예를 들어, 약 20 밀리 초 기간을 사용했다. 그러나 VBR 압축 오디오 및 비디오 코덱(예를 들어, AMR 및 MPEG$)은 이러한 1패킷/1기간 규칙을 따르지 않는다. 각 패킷은, AMR 및 MPEG4의 가변 프레임 레이트 및 멀티 패킷 프레임 내에서 불연속 전송(DTX)과 마찬가지로, 폭넓게 변화할 수 있는 기간에 걸칠 수 있다. 이는, 각 데이터 패킷 내의 명시적인 태그와, 그에 대응하며 "표시 시간"이라 불리는 시간을 필요로 한다. RTP 타임 스탬프(timestamp)는 표시 시간과 함께 데이터의 명시적인 태킹(tagging)의 일예이다. VBR 압축 미디어에 대하여, 이러한 표시 시간은 압축이 일어날 때 유념되어야 하며 데이터와 함께 소스로부터 시스템을 통해서 최종적으로 클라이언트 표시까지 전송된다.

각 데이터 패킷과 연관된 그러나 다른 종류의 시간으로서 전송 시간이 있다. 파일 기반의 콘텐츠(예를 들어, 비디오 메일, 또는 VOD(video on demand))에서, 모든 데이터 패킷은 서버가 선택한 소정 시간에 서버에서 클라이언트로 전송될 수 있다. 상술한 바와 같이, VBR 미디어에 대해서, 데이터보다 몇 가지를 먼저 보내는 것이 종종 합당하다. 이것은, 비트 레이트 스무딩(smoothing)없이 I 프레임 등과 같은 멀티 패킷 비디오 프레임들이 박형 디바이스의 네트워크 인터페이스에 쇄도하여 패킷이 손실되거나 지연될 수 있기 때문에, 전송 비트 레이트를 스무딩시킬 수 있다. 비디오 미디어 패킷을 오디오 패킷보다 먼저 전송하는 것은 또한 박형 디바이스(110)에 시간을 요하는 비디오 디코드 처리를 완료할 수 있는 부가적인 시간을 허용하는데 유용하다.

동시에 제공되는 미디어 스트림들에 대하여 박형 디바이스(110)는 언패킹(unpacking), 압축해제를 실행하여 입력된 오디오 및 비디오 스트림들을 동기시켜 제공한다. 이것을 실행하기 위해서, 예를 들어, 박형 디바이스(110)는, RTP 스택으로부터 해제되는 것처럼 수신된 오디오를 디코딩하고, 100 밀리 초의 리드 시간만큼 큐(queue)를 연장하여 오디오 디바이스용의 20 밀리 초 버퍼를 큐잉(queuing)할 수 있다. 이 프리디코딩(pre-decoding)을 이용하여 디바이스-버퍼 언더플로우동안 일어날 수 있는 팝(pop)을 피할 수 있다. 그러나, 상술한 바와 같이, 이러한 보호가 있더라도, 오디오 데이터가 잘못된 시간에 클라이언트에 전송되면, 오디오 디바이스 버퍼의 오버플로우 또는 언더플로우가 발생할 수 있다.

상술한 예에 이어서, 본 발명의 실시예에서는, 박형 디바이스(110)의 오디오 큐가 20 밀리 초 버퍼를 동작시키고 해제하며, 그 경과를 나타내는 콜백(callback)을 발행한다. 박형 디바이스(110)에 있는 미디어 표시 애플리케이션은 이러한 콜백을 사용하여 해당하는 표시 시간과 동시에 비디오 프레임의 표시를 트리거한다. 오디오와 비디오 간의 상응은, 미디어 스트림 생성 시스템(120)으로부터 전송된 RTCP 패킷에 주어진 오프셋 동기화를 이용하여 RTP 타임 스탬프에 표시된 표시 시간을 이용함으로써 얻을 수 있다. 예를 들어, 각 RTCP 패킷은, 동일한 표시 타임에 대응하며 한 쌍의 RTP 타임 스탬프를 제공할 수 있는데, 그 중 하나는 오디오용이고 다른 하나는 비디오용이다. 이 정보를 이용해서, 박형 디바이스(110)는 해제된 오디오 버퍼 RTP 시간에서 필요한 비디오 프레임 RTP 시간 범위로 콜백을 맵핑할 수 있다.

따라서, 비디오 클라이언트에서의 타이밍과 동기화 요구사항은, 단지 미디어 스트림 생성 시스템(120)내에서의 빠른 데이터 처리를 위한 것이 아니라 데이터의 제어된 전송 타이밍과 동기화된 표시를 필요로 한다. 박형 디바이스(110)의 사용자가 최종 표시의 재생률을 쌍방향으로 제어하는 것이 허용되면, 표시 시간에 대하여, 전송 타이밍으로 정해진 다른 리드 시간들이 노출된다. 상술한 바와 같이, 비디오 데이터는, 압축 해제된 후, 콜백이 비디오 데이터를 표시할 수 있도록 대응하는 오디오 데이터가 제공될 때까지 박형 디바이스(110)에서 대기해야 한다. 비디오는 박형 디바이스(110)에 없어서 오디오 전용 시간에 디코딩되지 않으면 제거되기 때문에, 비디오 데이터는 대응하는 오디오 데이터에 비해 미디어 스트림 생성 시스템(120)으로부터 먼저 전송되어야 한다.

박형 디바이스(110)내에서의 지연은, 비디오가 먼저 전송되는 이유이지만, 미디어 스트림들의 가능한 탈동기화를 야기하는 박형 디바이스(110)의 대기 시간은 아니다. 대신에, 탈동기화는 재생률을 바꾸는 쌍방향 커맨드로 인해 미디어 스트림 생성 시스템(120)에서 일어난다. 오프셋 오디오 및 비디오 전송 시간에, 재생율 변화 "now"를 요구하는 사용자 생성 DTMF, 또는 음성, 신호는 불완전하게 정의된 이벤트이다. 또한, 비디오 미디어 스트림이 대응하는 오디오 미디어 스트림에 비해 먼저 전송되기 때문에, 재생율 변화에 대한 요구 수신 시에 이미 전송된 비디오 데이터를 미디어 스트림 생성 시스템(120)은 제어하고 있지 않다. 따라서, 미디어 스트림 생성 시스템(120)은 박형 디바이스(110)로 이미 송신된 미디어를 조작할 수 없다. 또한, (예를 들어, 변경되지 않은 클라이언트 성능을 이용한) 분리된 오디오/비디오 재생 및 (예를 들어 대역 내 시그널링을 통한) 오디오/비디오 쌍방향 제어 요구가 박형 디바이스(110)에 의해 구현되었기 때문에, 미디어 스트림에 대한 변경이 국부적으로 가해질 가능성은 거의 없다. 본 발명의 실시예에서, 미디어 스트림 생성 시스템(120)은 세 가지 다른 구현들, 즉, 분리 TSM(time-scale modification), 지연 이벤트 TSM 및 지연 동기화 TSM 중 하나를 이용하여 박형 디바이스의 사용자에게 스트리밍 미디어의 쌍방향 제어를 제공할 수 있다.

도 5는 본 발명의 일 실시예에 따른, 출력 표시 시간을 미디어 스트림의 분리 TSM의 입력 표시 시간의 함수로서 나타낸 시간 플롯이다. 도 5는 재생률을 증가시키라는 사용자 요구에 응답하는 비디오 미디어 스트림과 대응하는 오디오 미디어 스트림의 재생율의 변화를 나타냄을 유념한다. 도 5에서, 재생율 변화는 입력(예를 들어, 미디어 데이터베이스(122))과 출력(예를 들어, 박형 디바이스(110)) 표시 시간들 간의 기울기 변화에 반영된다. 오직 하나의 선만 나타나면, 두 선들은 전체 전송 구간에 걸쳐서 정확하게 겹쳐지며, 이는 오디오 및 비디오 미디어 스트림들의 완전한 동기화에 해당한다. 비디오 미디어 플롯(예를 들어, 510)이 오디오 미디어 플롯(예를 들어, 520) 위에 있으면, 오리지널 콘텐츠 표시에 비교해서 비디오가 늦게 표시되어 두 트랙은 탈동기화된다.

분리 TSM에서, 오디오 미디어 스트림 및 비디오 미디어 스트림의 재생율은 재생률을 증가시키라는 사용자 요구를 수신하면 둘 간의 통신없이도 즉시 변한다. 본 발명의 실시예에서, 오디오 및 비디오 미디어 스트림의 재생률의 제어는 동기화 관리자(127)에 의해서 실행된다. 도 5에서, 미디어 스트림 생성 시스템(120)은, 박형 디바이스(110)로부터, 1000 밀리 초에서 재생 속도를 정상 속도(예를 들어, 1배속)에서 50% 빠른 재생률(예를 들어, 1.5배속)로 증가시키라는 요구를 수신한다. 미디어 스트림 생성 시스템(120)의 1000 밀리 초의 스케줄 시간에서, 표시 시간이 2000 밀리 초인 비디오 미디어 스트림이 미디어 스트림 생성 시스템(120)으로부터 이미 전송되어 비디오의 프롬프트 도착 및 디코딩을 확보할 수 있지만, 오디오 미디어 스트림은 표시 시간이 1100 밀리 초인 데이터를 전송하고 있다.

1.5 계수만큼 오디오 미디어 스트림의 속도를 증가시키는 것은 900 밀리 초 데이터(2000 밀리 초 - 1100 밀리 초)였던 것을 오직 600 밀리 초 데이터(900/1.5)로 변경할 것이다. 오디오 데이터의 이러한 감소가 보정되지 않으면, 오디오 및 비디오 스트림들은 남은 재생 기간 동안 300 밀리 초 만큼 탈동기화될 것이다. 도 5에 나타낸 바와 같이, 미디어 트랙의 기울기는 미디어 스트림 생성 시스템(120)에 속도 증가 요구가 도착하자마자 다른 레이트로 변한다. 전송-표시 맵핑에 있어서의 차이로 인해, 이러한 이벤트 시간은 오디오 및 비디오 트랙에서 두 개의 다른 표시 또는 표시 기간에 대응한다. 입력 대 출력 표시 시간들로부터의 맵핑이 두 개의 상이한 입력 시간들에서의 기울기를 바꾸었기 때문에, 박형 디바이스(110)가 올바른 RTP 맵핑 로직을 사용하고 있다하더라도, 그 후의 오디오 및 비디오의 가속 표시는 항상 탈동기화된다. 다시 말해서, 대응하는 비디오 및 오디오 미디어 스트림들의 전송 시간 오프셋 때문에, 즉시 두 미디어 스트림의 속도를 증가시키는 것은 박형 디바이스(110)로 하여금 가속 오디오 미디어 스트림이 도착하는 동안 정상속도 스트리밍 비디오 미디어를 표시하게 하여, 대응하는 미디어 스트림들이어야 하는 것들을 탈동기화시킨다.

도 6은 본 발명의 다른 실시예에 따라 미디어 스트림의 지연 이벤트 TSM의 입력 표시 시간의 함수소서의 출력 표시 시간을 나타내는 시간 플롯이다. 본 발명의 실시예에서, 상술한 탈동기화를 피하기 위한 한 가지 방법은, 대응하는 미디어 스트림에 레이트 변화를 가하기 전에 미디어 스트림 중 하나의 재생률 변화의 구현을 지연시키는 것이다. 다시 말해서, (예를 들어, 약 1000 밀리 초에서) 재생률 변경을 위한 요구를 수신하면, 미디어 스트림 생성 시스템(120)의 동기화 관리자(127)는 즉시 비디오 미디어 스트림에 레이트 변경을 가하여 변경된 비디오 미디어 스트림을 생성하고, 변경이 이루어진 비디오 표시 시간을 기록한다. 그리고, 미디어 스트림 생성 시스템(120)은 오디오 스트림에서의 등가 표시 시간 동안 오디오 미디어 스트림에 대한 지연 속도 변화를 일으킨다. 따라서, 사용자 요청 수신 시 즉시 오디오 스트림에 변경을 가하기 보다, 오디오 미디어 스트림에 대한 변경이, (예를 들어, 2000 밀리 초에서) 변경된 비디오 미디어 스트림과 동시에 제공될 때까지 지연된다. 다시 말해서, 미디어 스트림 생성 시스템(120)은 두 개의 미디어 스트림의 타이밍 오프셋을 결정하고 그 오프셋과 같은 기간동안 오디오 미디어 스트림의 변경의 구현을 지연시킨다. 박형 디바이스(110)의 사용자를 위해, 오디오 및 비디오의 표시는 레이트 변경 처리 동안에는 정확하게 동기화되어 있지만, 사용자가 레이트 변경을 보거나 듣기까지 지연이 있다.

예로서, 재생률 변경에 대한 사용자 요구를 수신하면, 미디어 스트림 생성 시스템(120)은 요구가 2000 밀리 초의 비디오 표시 시간에서 발생했음을 기록하고 미디어 스트림에 요구된 레이트 변화를 즉시 가한다. 비디오 미디어 스트림과 오디오 미디어 스트림의 전송 간에는 900 밀리 초의 오프셋이 있기 때문에, 미디어 스트림 생성 시스템(120)은 요구된 변경을 오디오 미디어 스트림에 구연하는 것을 900 밀리 초 동안 지연시킨 후 변경된 오디오 스트림을 생성한다. 지연 이벤트 TSM은 전송 동안 비디오 및 오디오 스트림을 동기화된 상태로 유지한다는 장점을 갖지만, 대역폭 스무딩 요구가 비디오 미디어 스트림과 오디오 미디어 스트림의 전송간의 큰 오프셋을 필요로 할 때 특히 박형 디바이스(110)의 사용자에게 입력 커맨드가 올바로 처리되지 않았다는 것을 인식시킨다.

도 7은 본 발명의 일 실시예에 따라 미디어 스트림의 지연 동기화 TSM의 입력 표시 시간의 함수로서 출력 표시 시간을 나타낸 시간 플롯이다. 본 발명의 이 실시예에서는, 지연 동기화 TSM을 이용해서 미디어 스트림들의 탈동기화를 피한다. 다시 말해서, 약 1000 밀리 초에서 재생률 변화에 대한 요구가 수신되면, 그 즉시 미디어 스트림 생성 시스템(120)의 동기화 관리자(127)는, 오프셋인 오디오 비디오 스트림 및 비디오 미디어 스트림에 대한 표시 시간들을 유념하여 두 미디어 스트림에 그 속도 변화를 가한다. 상술한 바와 같이, 추가로 보정되지 않으면, 그 결과 박형 디바이스(110)에서 오디오 미디어가 대응하는 비디오 미디어보다 먼저 재생된다. 이러한 장기간의 탈동기화를 피하기 위해서, 미디어 스트림 생성 시스템(120)은 박형 디바이스(110)로의 오디오 출력 스트림에 보정량의 무음기간(silence)을 삽입한다. 도 5의 예를 이용하면, 미디어 스트림 생성 시스템(120)은 300 밀리 초의 무음기간을 박형 디바이스(110)에 전송될 오디오 미디어 스트림에 삽입한다. 초기에는, 오디오 미디어 스트림이 비디오 미디어 스트림에 대해 300 밀리 초 만큼 늦게 재생되기 때문에 비디오 미디어 스트림과 오디오 비디오 스트림은 탈동기화된다. 그 후, 600 밀리 초 걸쳐서, 오디오 및 미디어 미디어가 점차 재동기화되는데, 이는, 실시간으로 여전히 재생되고 있는 비디오(예를 들어, 실시간 비디오 미디어 스트림은 여전히 박형 디바이스(110)에서 처리되고 있다)보다 빠르게 재생되고 있기 때문이다. 900 밀리 초 후에는, 오디오 및 비디오 미디어 스트림들의 동기화가 회복되고 비디오는 2000 밀리 초에서 실시간보다 빠르게 재생되기 시작한다.

박형 디바이스(110)의 사용자에 대해, 재생률 변화 요구를 전송한 후, 비디오는 실시간으로 계속 재생되면서 오디오 미디어의 거의 즉시적인 무음 기간을 사용자는 인지할 것이다. 유리하게도, 이것은 그 요구가 처리되고 있음을 사용자로 하여금 즉시 인지하게 한다. 300 밀리 초의 무음 기간 후에, 오디오 스트림은 요구된 속도(예를 들어, 1.5배속)로 재생되면서 비디오는 여전히 실시간으로 재생될 것이다. 이 시간 동안, 오디오 및 비디오는 동기화되지 않을 것이고 오디오 미디어는 비디오 미디어보다 빨리 재생될 것이다. 그러나, 결국은, 오디오 및 비디오 미디어가 다시 동기화된 어떤 시점에서 변경된 비디오 미디어가 박형 디바이스(110)에 표시되기 시작할 것이다. 따라서, 박형 디바이스(110)의 사용자에 대해, 비디오 이미지의 연속성과 오디오 출력의 중단이 있다. 미디어 스트림 생성 시스템(120)에 의해 출력된 비디오 미디어가 비디오의 불연속성을 제공하는 것은 예상대로 인코딩되지 않으면 비디오 불연속성의 제공이 구현될 수 있다.

사용자가 재생률의 감소를 요구하고 있으면, 오프셋인 비디오 미디어 스트림 및 오디오 미디어 스트림에 대한 표시 시간들을 유념하여 미디어 스트림 생성 시스템(120)은 즉시 그 속도 변화를 두 미디어 스트림에 적용한다. 상술한 바와 같이, 추가로 보정되지 않으면, 그 결과 박형 디바이스(110)에서 오디오 미디어가 대응하는 비디오 미디어보다 먼저 재생된다. 탈동기화를 피하기 위하여, 미디어 스트림 생성 시스템(120)은, 박형 디바이스(110)에서 비디오 스트림에 "서스펜드(suspend)" 또는 "프리즈(freeze)"를 도입하여, 인위적으로 지연된 표시(RTP) 타임스탬프를 갖는 순차적인 비디오 프레임들을 인코딩한다. 도 5의 예를 참조하면, 정상 속도에서 정상 속도의 2/3에 해당하는 속도로 감속할 때, 미디어 스트림 생성 시스템(120)은 비디오를 지연시켜 450(=900/(2/3)-900/1) 밀리 초 동안 박형 디바이스(110)로 보낸다. 이 지연은 지연 시간과 전송 시간 모두에서 발생한다. 여전히 실시간으로 재생되는 비디오보다 오디오가 더 느리게 재생되기 때문에 오디오와 비디오는 점차 탈동기화되나. 900 밀리 초 후에, 오디오 및 비디오 미디어 스트림들의 동기화가 회복되기 시작하는데, 이는, 비디오가 프리즈되고 오디오가 계속 느리게 재생되기 때문이다. 1350 밀리 초 후에는, 동기화가 완전히 회복되어 비디오 및 오디오가 모두 느린 속도로 재생된다.

따라서, 본 발명의 실시예들은, 다수의 미디어 스트림의 동기화를 유지하면서 사용자에게 충분한 효과의 반응성을 제공하는 박형 디바이스로부터의 스트리밍 미디어를 쌍방향으로 제어하는 방법 및 시스템을 제공한다. 오디오 및 비디오 미디어 스트림의 동기화가 기술되지만, 다수의 비디오 미디어 스트림들 또는 다수의 오디오 미디어 스트림들이 박형 디바이스(110)의 사용자에게 제공될 수 있음을 물 론이다. 예를 들어, 박형 디바이스(110)가 비디오 회의에 사용되고 있다면, 사용자는 오디오 채널들 간을 스위칭하여 현재 발언하고 있는 참가자에게 집중할 수 있다. 또한, 본 발명의 실시예들은 기존 통신 네트워크 인터페이스 및 프로토콜에 맞는다. 게다가, 본 발명의 실시예들은 박형 디바이스에 특별한 클라이언트 소프트웨어를 설치할 필요없이 구현될 수 있다.

시각 단서를 이용한 쌍방향 미디어 응답 시스템 개선

본 발명의 실시예들의 다른 장점은 미디어 스트림 생성 시스템(120)을 사용하여 쌍방향 미디어 응답 시스템을 구현할 수 있다는 것이다. 이것은 현재의 쌍방향 음성 애플리케이션(예를 들어, 음성 메일 액세스 또는 항공좌석 예약 시스템)에 유익한데, 왜냐하면 비디오 채널을 이용하여 다수의 선택 사항들 또는 "비주얼 프롬프트들"을 박형 디바이스(110)에 동시에 제공할 수 있기 때문이다. 본 발명의 실시예들에서는, 네스트(nest)된 선택 세트들이, 애플리케이션을 빠르게 탐색하는데 사용될 수 있는 텍스트 또는 아이콘 기반의 메뉴를 사용하는 사용자에게 제공될 수 있다.

종래의 쌍방향 음성 애플리케이션은 옵션들을 사용자에게 순차적으로 제공하는 것으로 한정된다. 따라서, 사용자는 원하는 옵션이 오디오 인터페이스를 통해 제공되기를 기다리거나, 원하는 결과에 액세스하기 위한 복잡한 키잉 시퀀스(keying sequence)를 기억하거나, 원하는 옵션을 결정하기 전에 방대한 옵션 세트를 기억해야만 할 수도 있다. 예를 들어, 박형 디바이스의 사용자가 영화를 보 기를 원하면, 사용자는 이용가능한 영화 제목들을 순차적으로 기술하는 쌍방향 음성 애플리케이션을 호출한다. 종종, 사용자가 선택할 수 있는 이용가능한 영화 제목이 수백 개이다. 따라서, 사용자는 자신이 보길 원하는 영화 제목이 기술될 때까지 터무니없이 긴 시간을 기다려야 할 수도 있다. 보다 가능성이 높은 결과는 사용자가 원하는 영화 제목이 기술될 때까지 기다리기 보다는 단순히 장애물로 인해 시스템과 통신을 끊는다는 것이다. 또한, 사용자는, 이용가능한 옵션들 간에서 선택하려할 때, 선택을 위한 하나 이상의 키잉 시퀀스를 기억하는 어려운 시간을 가질 수도 있다. 많은 사용자들에게, 쌍방향 음성 애플리케이션을 박형 디바이스의 키패드로의 함수의 맵핑을 기술할 때 사용하는 것은 어려울 수 있다. 예를 들어, 박형 디바이스(110)를 이용하여 영화를 재생하면, 사용자는 박형 디바이스(110)의 키패드로의 재생 옵션들의 맵핑을 기억해야만 할 것이다. 따라서, 쌍방향 음성 애플리케이션은, 영화의 재생에 앞서, 사용자에게 되감기를 위해서는 4를 누르고, 재생을 위해서는 5를 누르고, 발리 감기를 위해서는 6을 누르고, 반복을 위해서는 7을 누르고, 삭제를 위해서는 8을 누르라고 말할 수 있다. 그러나, 많은 사용자들은 이러한 맵핑들을 오랜 기간 동안 기억하는 것이 어렵다는 것을 알 것이다.

본 발명의 실시예들에서, 미디어 스트림 생성 시스템(120)이 박형 디바이스(110)와의 통신을 위해서 사용하는 비주얼 채널을 사용하여 오디오 채널로 전송되는 오디오 정보뿐만 아니라 비주얼 프롬프트들을 사용자에게 제공할 수 있다. 따라서, 본 발명의 실시예들은 박형 디바이스의 사용자에게 복수의 옵션을 동시에 표시하는 것을 허용하고, 이것을 이용해서 사용자는 특별한 키잉 시퀀스를 기억하지 않고도 방대한 세트의 선택사항들을 빠르게 탐색할 수 있다. 본 발명의 실시예들에서, 비주얼 프롬프트들은 텍스트, 아이콘, 또는 기타 비주얼 이미지를 포함할 수 있다. 따라서, 본 발명의 실시예들에서는, 사용자가 박형 디바이스(110)를 이용하여 영화를 보기를 원하면, 이용가능한 제목 리스트를 보고 그 리스트를 스크롤하여 자신이 보고 싶어하는 영화를 찾을 수 있다. 사용자는 오디오 인터페이스에만 제한되지 않기 때문에, 사용자는 박형 디바이스(110)의 비디오 인터페이스를 이용하여 원하는 선택 사항까지 빠르게 스크롤할 수 있다. 또한, 옵션들이 박형 디바이스(110)의 표시에 나타나기 때문에, 사용자는 어떤 영화를 볼지 결정할 때 특정 키잉 시퀀스를 기억할 필요가 없다.

본 발명의 실시예들에서, 비디오 채널을 통해 제공되는 정보가 오디오 정보와 함께 제공된다. 예를 들어, 오디오 채널은 "당신의 수신함에 2개의 메시지가 있습니다"라는 메시지를 운반하고, 비디오 채널은 "당신의 수신함에 2개의 메시지가 있습니다"라는 대응 메시지를 전송할 수 있다. 또한, 상기 정보는 관련되어 있지만 정확하게 대응하지 않는 데이터일 수 있다. 예를 들어, 사용자는 랜트카 대여점에 접속하고, 랜트카 대여점은 어떤 차량 모델 가능한지를 열거하면서 동시에 그 차량들의 사진을 박형 디바이스(110)의 사용자에게 표시한다. 다른 예에서는, 오디오 채널이 "당신의 수신함에 2개의 메시지가 있습니다"라는 메시지를 전송하고 비디오 채널은 다음의 메시지들을 제공한다.

"첫번째 통화, 메리(415 123 4567)로부터"

"두번째 통화, 조지(415 123 4568)로부터"

따라서, 보정되면서 시각적으로 표시되는 정보는 오디오 채널을 통해 제공된 정보의 정확한 짝은 아니다. 또한, 비주얼 표시는 통상 종래의 오디오 전용 인터페이스를 통해 제공되지 않는 정보를 포함할 수 있다. 예를 들어, 박형 디바이스(110)의 사용자는 본 발명의 실시예들을 이용하여 음성 메시지가 지급 메시지(priority message)로서 플래깅(flagging)되었는지를 빠르게 결정할 수 있다. 본 발명의 다른 실시예에서는, 박형 디바이스(110)의 사용자가 통화 대기 중이면 무관한 데이터가 오디오 데이터와 함께 제공될 수 있으며, 오디오 채널은 음악을 재생하고 비디오 채널은 광고, 영화 예고편, 게임 등을 사용자에게 전송할 수 있다. 본 실시예는 비주얼 프롬프트들이 오디오 프롬프트와 함께 박형 디바이스(110)에 표시되는 것을 기술하지만, 본 발명의 실시예들은 소정 오디오 프롬프트와는 관계없이 비주얼 프롬프트를 박형 디바이스(110)에 표시하는 데에도 상당히 적합하다.

본 발명의 실시예들에서는, 비주얼 프롬프트의 동적 생성은 VoiceXML 애플리케이션(예를 들어, 도 3의 애플리케이션 컴포넌트(123))에 의해 생성된 마크업(markup) 정보에 액세스하는 것에 의해서 용이해진다. 예를 들어, VoiceXML은, 통신 IVR(Interactive Voice Responsive) 메시징, 보이스 포탈(voice portals), 비디오 표시 시퀀스 및 그와 동조된 입력 신호의 시변 해석을 기술하는 엔터테인먼트 애플리케이션에 종종 사용되는 마크업 언어이다. VoiceXML+는 이 마크업 언어를 확장하여 동조된 오디오 및 비디오 표시를 지원하여, 박형 디바이스(110)에 사용자에게 비주얼 프롬프트를 전송하는 수단으로서 비디오 채널의 사용을 허용한다. 본 발명의 실시예들에서, 애플리케이션 컴포넌트(123)는, 박형 디바이스(110)를 통해 오디오 프롬프트를 제공할 때 TTS 컴포넌트(124)에 의해 사용되는 VoiceXML 텍스트 스트링을 생성한다. 본 발명의 실시예들에서, 애플리케이션 컴포넌트(123)는 또한, 텍스트투비디오 컴포넌트(126)가 오디오 프롬프트와 함께 제공되는 비주얼 표시를 시각적으로 적절하게 생성하는데 사용하는 VoiceXML 텍스트 스트링을 생성한다. 본 발명의 실시예들에서, 비주얼 프롬프트는, 예를 들어, 미디어 데이터베이스(122)로부터 액세스될 수 있는, 박형 디바이스(110)로 전송되는 오디오 프롬프트의 비주얼 표시, PDF(Portable Document Format) 파일, JPEG(Joint Photographic Experts Group) 파일, MPEG 파일 등을 포함할 수 있다. 본 발명의 실시예들에서, 애플리케이션 컴포넌트(123)는 미디어 컴포넌트(122), TTS 컴포넌트(124), ASR 컴포넌트(125) 및/또는 인터넷(310)으로부터의 데이터에 액세스한다.

도 8은 본 발명의 실시예에 따라 비주얼 프롬프트를 생성하는 처리의 플로우챠트이다. 스텝 810에서, 박형 디바이스로부터 통화가 수신된다. 도 3을 다시 참조하면, 사용자는 박형 디바이스(110)가 미디어 스트림 생성 시스템(120)에 접속하게 한다. 예로서, 사용자는 미디어 리소스 서버(121)에 있는 음성 메일 애플리케이션에 액세스하고 있다고 가정한다. 그러나, 본 발명의 실시예들은 이러한 타입의 데이터 액세스에만 한정되는 것은 아님을 물론이다.

도 8의 스텝 820에서, 박형 디바이스의 표시 성능은 결정된다. 본 발명의 일 실시예에서, 박형 디바이스(110)와 통신이 성립된 상태에서, 미디어 스트림 생성 시스템(120)은 박형 디바이스(110)의 표시 성능을 결정하라는 메시지를 생성한다. 이것은 스크린 사이즈, 해상도, 박형 디바이스(110)의 프로세서 성능 등을 포함할 수 있다.

도 8의 스텝 830에서 비주얼 프롬프트 기술에 대한 요구가 발생하면, 음성 메일에 액세스하기 위한 사용자의 요구에 응답해서, 미디어 리소스 서버(121)는 사용자의 음성 메일 계정에 액세스한다. 본 발명의 실시예들에서, 사용자 음성 메일 계정에 액세스한 상태에서, 미디어 리소스 서버(121)는 사용자 음성 메일 계정의 파일에 액세스하여 사용자 수신함의 개요를 생성하고, TTS 컴포넌트(124)를 사용하여 음성 프롬프트를 생성하도록 데이터의 VoiceXML 마크업에 대한 요구를 생성한다. 미디어 리소스 서버(121)에 의해 전송된 애플리케이션 상태 데이터를 이용하여, 애플리케이션 컴포넌트(123)는 VoiceXML 텍스트를 생성하고, 그 VoiceXML 텍스트는 TTS 컴포넌트(124)에 의해 박형 디바이스(110)의 사용자를 위한 오디오 메시지로 변환된다.

본 발명의 실시예들에서, 텍스트투비디오 컴포넌트(126)는 오디오 메시지 표시와 함께 표시될 비주얼 프롬프트에 대한 비주얼 프롬프트 기술에 대한 요구를 애플리케이션 컴포넌트(123)로의 생성한다. 본 발명의 실시예들에서, TTS 컴포넌트(124)가 사용하는 텍스트 스트링을 생성할 때, 애플리케이션 컴포넌트(123)는, 오디오 메시지와 함께 표시될 비주얼 프롬프트의 미디어 소스를 지정하는 VoiceXML 텍스트 스트링을 생성한다. 본 실시예는 비주얼 프롬프트가 오디오 프롬프트와 함께 제공되는 것은 기술하지만, 본 발명의 실시예들에서, 오디오 정보를 동반하지 않고 비주얼 프롬프트만 생성될 수도 있다.

도 8의 스텝 840에서, 비주얼 프롬프트는 애플리케이션 컴포넌트(123)에 의해서 전송되며 박형 디바이스의 표시 성능에 의거하는 프롬프트 기술을 이용하여 생성된다. 애플리케이션 컴포넌트(123)에 의해서 생성된 VoiceXML 프롬프트 기술을 이용하여, 텍스트투비디오 컴포넌트(126)는 박형 디바이스(110)의 표시 성능에 의거한 비주얼 프롬프트를 생성한다. 다시 말해서, 애플리케이션 컴포넌트(123)는 박형 디바이스(110)의 비주얼 정보를 랜더링(rendering)하기 위한 태그를 사용자 음성 메일 수신함으로부터의 데이터에 부가한다. 예를 들어, VoiceXML 프롬프트 기술은 미디어 데이터베이스(122)에 저장된 JPEG 이미지(예를 들어, 아이콘)의 파일 기술을 포함할 수 있다. 예를 들어, 박형 디바이스(110)가 한 번의 3개의 아이콘만 표시할 수 있다고 결정되면, 텍스트투비디오 컴포넌트(126)는 박형 디바이스(110)에 전송되는 비주얼 프롬프트의 사이즈를 제한할 것이다. 따라서, 박형 디바이스(110)의 표시 성능에 의거한 비주얼 프롬프트들의 다수의 "페이지"와 음성 메일 수신함에 있는 다수의 메시지가 사용자에게 제공될 수 있다. 또한, 비주얼 프롬프트는 단순히 TTS 컴포넌트(124)에 의해 생성된 기록(transcript)의 비주얼 표시일 수 있다. 또, 본 실시예는 비주얼 프롬프트가 박형 디바이스(110)의 사용자에게 제공되는 오디오 프롬프트에 관한 것이지만, 본 발명의 실시예들은 오디오 프롬프트와 무관한 비주얼 프롬프트를 표시하는 데에도 상당히 적합함을 유념한다.

상술한 바와 같이, 애플리케이션 상태 정보는 미디어 스트림 생성 시스템(120)에 의해서 액세스되어 애플리케이션 컴포넌트(123)로 전송될 수 있다. 따라서, 애플리케이션 컴포넌트(123)는 박형 디바이스(110)에 의해 액세스될 애플리케이션의 현재 상태에 맞는 비주얼 프롬프트 기술을 생성할 수 있다. 그 결과, 박형 디바이스(110)에 표시되고 있는 것에 응답해서, 사용자 커맨드(예를 들어, DTMF 신호 또는 음성 신호)를 사용하여 현재 액세스되고 있는 애플리케이션을 제어할 수 있다. 본 예로 돌아가서, 사용자 음성 메일 수신함용 비주얼 프롬프트는 누가 메시지를 남겼는지, 걸려온 전화 번호, 메시지를 남긴 시간, 메지지가 지급 상태인지 등을 나타낼 수 있다.

도 8의 스텝 850에서, 비주얼 프롬프트가 박형 디바이스로 전송된다. 본 발명의 실시예들에서, 텍스트투비디오 컴포넌트(126)는 비주얼 프롬프트를 미디어 리소스 서버(121)에 전송하고, 미디어 리소스 서버(121)는 적당한 오디오 프롬프트와 시간적으로 함께 표시될 비주얼 프롬프트를 전송한다.

비주얼 프롬프트의 품질의 향상

본 발명의 실시예들에서, 박형 디바이스(110)에 의해 사용되는 비디오 코덱에 대한 사전 지식은 텍스트 프롬프트의 표시 품질을 개선하는데 영향을 미칠 수 있다. 예를 들어, 사용되는 비디오 코덱이 블록 기반 코덱(예를 들어, MPEG4 또는 H.263)이고 텍스트가 박형 디바이스(110)에 표시될 것임을 미리 알아서, 문자의 위치를 조정하여 블록들의 경계를 인코딩하여 문자의 선명도를 증가시킨다. 이것이 가능한 이유는, 블록 기반 비디오 코덱에서, 블록킹 아티팩트(blocking artifact)가 MPEG 블록 또는 DCT(direct cosine transform) 블록 등의 픽셀 블록들 간의 경계에서 발생하기 때문이다. 이러한 경계는, 저주파 상에서 개별 양자화기를 사용하여 각 블록을 인코딩하기 때문에 생긴다. 이러한 양자화기는 두 개의 접하는 블록 에지 상에 등가의 값들이 나타나지 않게 하므로, 표시에서 선처럼 보인다. 통상, 이러한 선은 바람직하지 못한데, 왜냐하면 블록 에지와 한 줄로 늘어선 콘텐츠에 실제 선이 없기 때문이다. 그러나, 본 발명의 실시예들에서, 텍스트가 표시될 것임에 대한 사전 지식은 이러한 블록들의 경계에 있는 선을 이용하여 표시된 문자에 더 선명한 에지를 만들기 때문에, 표시된 텍스트의 선명도를 증가시킨다. 종래의 시스템에서는, 텍스트 또는 이미지가 랜더링되는지 여부에 대한 표시가 이루어지지 않는다. 따라서, 랜더링에 대한 집합적인 해법을 이용하는 것도 텍스트 또는 이미지의 랜더링을 최적화시키지는 못한다.

도 9는 본 발명의 실시예에 따라 블록킹 아티팩트에 대한 랜더링된 캐릭터의 정열을 나타낸다. 도 9에는, 수평 경계(예를 들어, 901, 902, 903, 904, 905 및 906) 및 수직 경계(예를 들어, 911, 912, 913, 914, 915 및 916)에 의해서 규정된 복수의 비디오 블록이 나와 있다. 상술한 바와 같이, 개별 양자화기를 이용하여 각 블록을 인코딩하기 때문에, 수평 및 수직 경계는 표시에서 잘 정의된 선으로 나타난다.

종래의 표시 구현에 있어서, 출력 품질은 판독하기 어려울 수 있는데, 왜냐하면, 텍스트가 인코딩된 비트 스트림으로 나타날 것을 고려하지 않고 비트맵으로서 단순하게 처리되기 때문이다. 따라서, 캐릭터(예를 들어, 930)는 블록 중간에서 랜더링될 수 있다. 비디오 코덱은 통상 고주파 정보를 격하시키기 때문에, 블록 중앙에서 랜더링된 문자는 흐릿하게 나타날 것이다. 그러나, 본 발명의 실시예들에서는, 문자의 에지가 두 블록 간의 수직 및/또는 수평 경계와 정렬되도록 문자의 위치 지정이 조정될 수 있다. 도 9에 나타낸 바와 같이, 문자(940)는, 수직 바(bar)가 수직 경계(912)와 정렬되고 문자의 수평 바의 바닥 에지가 수평 경계(905)와 정렬되도록 위치 제어된다. 따라서, 박형 디바이스(110)에 사용되는 비디오 코덱을 앎에 있어서, 랜더링된 텍스트의 선명도를 증가시키도록 텍스트를 생성할 때 이용되는 블록들의 경계선들의 공간 맵이 생성될 수 있다. 본 예에서는, 텍스트 프롬프트가 숫자, 문자, 및/또는 사진 이외의 캐릭터를 포함할 수 있음을 유념한다.

본 발명의 실시예들에서, 캐릭터들은 서로 보다 가깝게 이동되거나 더 멀리 이동되어 단일 문자, 복수 문자, 문자 열 전체의 지터를 실행함으로써 블록킹 아티팩트를 이용할 수 있다. 본 발명의 실시예들에서, 비디오 데이터를 박형 디바이스(110)에 전송하는 브라우저 페이지 생성기(예를 들어, 미디어 리소스 서버(121))는 랜더링된 텍스트의 단순 레이아웃을 실행하여, 문자들이 블록 경계들과 정렬되도록 텍스트 라인의 문자들의 구성을 결정한다. 또한, 본 발명의 실시예들에서, 미디어 리소스 서버(121)는 비디오 블록 내의 소정 위치에서 캐릭터를 랜더링하기 위한 계수를 미리 계산할 수 있다. 예를 들면, 캐릭터가 소정의 폰트 및 크기로 랜더링된다는 것을 알면, 미디어 리소스 서버(121)는 비디오 블록 내의 소정의 위치에 캐릭터를 랜더링하기 위한 게수를 사전에 계산할 수 있다. 다시 말해서, 블 록의 경계와 정렬되도록 캐릭터의 위치가 조정될 수 있음을 알면, 미디어 리소스 서버(121)는, 캐릭터의 라인의 단순한 레이아웃을 실행할 필요없이, 블록에 대한 계수를 계산하여 그것을 비트 스트림으로 박형 디바이스(110)에 전송할 수 있다. 이렇게 하면, 미디어 리소스 서버(121)의 계산 부하가 감소될 수 있다.

본 발명의 실시예들은 또한, 각 블록에 할당된 다수의 데이터 비트들이 텍스트 또는 이미지가 그 블록 내에서 표시되는지 여부에 의거해서 변경될 수 있는, 캐릭터들의 공간 비트 할당 우선순위결정을 실행할 수 있다. 예를 들어, 사진 또는 기타 이미지를 표시할 때, 보다 낮은 주파수의 정보는 문자 또는 캐릭터를 표시할 때보다 필요하다. 따라서, 본 발명의 실시예들에서, 이미지를 표시하는 블록들에 할당된 것보다 큰 비트 할당이 문자 또는 캐릭터를 표시하는 블록들에 주어진다. 또한, 본 발명의 실시예들은, 다른 부분보다 우선시되는 텍스트에 보다 큰 비트 할당을 지정함으로써 텍스트의 일부를 강조할 수 있다. 예를 들어, 음성 메일 수신함을 표시할 때, 호출자의 이름의 캐릭터에 보다 만은 데이터를 할당함으로서 호출한 시간보다 호출자 이름을 보다 더 강조할 수 있다. 본 발명의 실시예들에서, 어떤 캐릭터를 강조할 것인가에 대한 분류는, 예를 들어, HTML 헤더, VoiceXML 텍스트 스트링, 또는 텍스트의 섹션을 식별하는, 텍스트에 부가된 기타 표기를 이용하여 용이하게 이루어질 수 있다.

본 발명의 실시예들은 또한, 비디오 프레임에 할당되는 데이터 비트의 수가 텍스트 또는 이미지가 표시되고 있는지 여부에 의거하여 변할 수 있는, 캐릭터의 시간적 비트 할당 우선순위결정을 실행할 수 있다. 예를 들어, 캐릭터는 통상 정지된 위치에 표시되기 때문에, 비디오 프레임 간의 이동은 거의 없다. 따라서, 상당수의 비트가 데이터의 다른 프레임들로부터의 데이터에 응답하지 않는 I-프레임(intra-coded frame)에 할당될 수 있다. 동영상에서는, P-프레임(predictive frame) 및 B-프레임(bi-directional frame)을 사용하여 I-프레임 내에 표시된 객체의 움직임을 전달한다. 텍스트 캐릭터는 통상 움직이지 않기 때문에, P-프레임 및 B-프레임에의 데이터 비트 할당에 대한 요구는 덜하다. 따라서, 본 발명의 실시예들에서, 일반적인 비디오 시퀀스에서 사용되는 I-프레임에 할당되는 것보다 더 많은 데이터 비트의 I-프레임에의 할당이 텍스트 캐릭터를 표시할 대 이루어질 수 있다. 따라서, 랜더링된 캐릭터는, 이미지 또는 텍스트가 랜더링되고 있는지 여부에 의거해서 데이터 비트의 할당을 우선시하지 않는 종래의 브라우저 생성기에서 보다 선명하다.

도 10을 참조하면, 본 발명의 부분들은, 예를 들어, 범용 컴퓨터 네트워크(도시 안 함)의 일부로서 사용되는 컴퓨터 시스템(1000) 내에 있는 컴퓨터 판독 가능 및 컴퓨터 실행 가능한 지시들로 구성된다. 도 10의 컴퓨터 시스템(1000)은 예일 뿐이며, 본 발명은 범용 컴퓨터 시스템, 조립식 컴퓨터 시스템, 랩톱 컴퓨터 시스템, 휴대용 컴퓨터 시스템 및 스탠드얼론(stand-alone) 컴퓨터 시스템을 포함하는 다수의 상이한 컴퓨터 시스템 내에서 동작할 수 있음은 물론이다.

본 실시예에서, 컴퓨터 시스템(1000)은, 다양한 컴포넌트 간에 디지털 정보를 전달하기 위한 어드레스/데이터 버스(1001), 디지털 정보와 지시를 처리하기 위한 CPU(1002), 디지털 정보 및 지시를 저장하기 위한 휘발성 RAM으로 구성된 휘발 성 메인 메모리(1003), 및 보다 영구성의 정보 및 지시를 저장하기 위한 비휘발성 ROM(1004)을 포함한다. 또한, 컴퓨터 시스템(1000)은 방대한 양의 데이터를 저장하기 위한 데이터 저장 디바이스(1005)(예를 들어, 자기, 광학, 플로피, 또는 테이프 드라이브 등)를 포함한다. 본 발명의 미디어를 쌍방향으로 제어하기 위한 소프트 프로그램은 휘발성 메인 메모리(1003), 데이터 저장 디바이스(1005), 도는 외부 저장 디바이스(도시 안함)에 저장될 수 있다.

게다가, 컴퓨터 시스템(1000)은 주변 디바이스(1010)(예를 들어, 컴퓨터 네트워크, 모뎀, 대용량 저장 디바이스 등)와 인터페이싱하기 위한 입출력(I/O) 신호 유닛(예를 들어, 인터페이스)(1009)을 포함할 수 있다. 따라서, 컴퓨터 시스템(1000)은 클라이언트/서버 환경 등의 네트워크 내에 연결되어, 원하는 태스크를 실행하기 위한 처리를 실행시키기 위해 다수의 클라이언트(예를 들어, 개인용 컴퓨터, 워크스테이션, 휴대용 컴퓨터, 미니컴퓨터, 단말기 등)를 이용할 수 있다. 특히, 컴퓨터 시스템(1000)은 미디어를 쌍방향으로 제어하기 위한 시스템 내에 연결될 수 있다.

본 발명의 바람직한 실시예로서, 시각 단서를 이용하여 쌍방향 미디어 응답 시스템을 향상시키는 방법 및 시스템이 기술된다. 본 발명은 특정 실시예로 설명되었지만, 본 발명은 그러한 실시예들에 의해서 제한되는 것이 아니라 첨부한 청구범위에 의해 제한되는 것으로 해석해야함은 물론이다.

Claims

쌍방향 미디어 응답 시스템(interactive media response system)에서 시각 단서(visual cue)를 제공하는 방법에 있어서,

박형 디바이스(a thin device)(10)의 표시 성능(display capabilities)을 결정하는 단계와,

상기 결정에 기초하여 상기 박형 디바이스(110) 상에 표시될 비주얼 프롬프트(a visual prompt)를 생성하는 단계와,

상기 박형 디바이스(110)에 의해 나타낼 오디오 프롬프트(an audio prompt)를 생성하는 단계와,

상기 비주얼 프롬프트와 상기 오디오 프롬프트를 상기 비주얼 프롬프트와 상기 오디오 프롬프트의 상관(a correlation)에 기초하여 동기화시켜 상기 박형 디바이스(110)에 전송하는 단계와,

상기 비주얼 프롬프트를 상기 박형 디바이스(110)에 표시하는 단계를 포함하는

방법.
제 1 항에 있어서,

상기 오디오 프롬프트와 상기 비주얼 프롬프트를 상기 박형 디바이스(110) 상에 동시에 나타내는 단계를 더 포함하는

방법.
제 2 항에 있어서,

상기 비주얼 프롬프트로 전달된 정보는 상기 오디오 프롬프트로 전달된 정보에 대응하는

방법.
제 2 항에 있어서,

상기 비주얼 프롬프트로 전달된 정보는 상기 오디오 프롬프트로 전달된 정보와 상관되는

방법.
제 2 항에 있어서,

상기 비주얼 프롬프트로 전달된 정보는 상기 오디오 프롬프트로 전달된 정보와 무관한

방법.
제 1 항 내지 제 5 항 중의 어느 한 항에 있어서,

상기 비주얼 프롬프트 생성 단계는

문자열 생성기(123)로부터 상기 비주얼 프롬프트의 기술(description)을 수신하는 단계와,

상기 기술에 근거해서 상기 비주얼 프롬프트를 생성하는 단계를 더 포함하는

방법.
제 6 항에 있어서,

상기 비주얼 프롬프트는 상기 박형 디바이스(110)에 의해 액세스되는 스트리밍 미디어 애플리케이션을 제어하기 위한 옵션을 전달하는

방법.
삭제
삭제
삭제