KR20120038654A

KR20120038654A - 방송 음성 인식 서비스를 제공하는 네트워크 ｔｖ와 서버 그리고 그 제어방법

Info

Publication number: KR20120038654A
Application number: KR20100100214A
Authority: KR
Inventors: 윤종현
Original assignee: 엘지전자 주식회사
Priority date: 2010-10-14
Filing date: 2010-10-14
Publication date: 2012-04-24
Also published as: KR101763594B1

Abstract

본 발명의 일실시예에 의한 방송 음성 인식 서비스를 제공하는 네트워크 TV는, 오디오 및 비디오 데이터를 포함하는 방송 데이터를 수신하는 방송 네트워크 인터페이스 모듈과, 상기 비디오 데이터를 디코딩 하는 비디오 디코더와, 상기 오디오 데이터를 디코딩 하는 오디오 디코더와, 상기 디코딩된 오디오 데이터에서 음성 신호를 추출하는 제1디텍터와, 상기 추출된 음성 신호에서 특징값을 추출하는 제2디텍터와, 상기 추출된 특징값을 외부 서버로 전송하는 전송부와, 그리고 상기 외부 서버로부터 수신한 리포팅 데이터가 디스플레이 되도록 제어하는 제어부를 포함한다.

Description

방송 음성 인식 서비스를 제공하는 네트워크 ＴＶ와 서버 그리고 그 제어방법{METHOD FOR PROVIDING SERVICE FOR RECOGNIZING VOICE IN BROADCAST AND NETWORK TV/SERVER FOR CONTROLLING THE METHOD}

본 발명은 네트워크 TV (network television) 기술에 대한 것으로서, 보다 상세하게는 방송 음성 인식 서비스를 제공하는 네트워크 TV와 서버 그리고 그 제어방법에 관한 것이다.

최근에 이르러서, 여러가지 종류의 네트워크 TV 등이 논의되고 있다. 상기 네트워크 TV의 일실시예는, 기존 텔레비젼이 방송 네트워크를 통해서만 제한된 데이터를 수신하던 것과 달리, 유/무선의 인터넷 네트워크를 통해 보다 다량의 정보를 실시간으로 수신하고 처리하는 기능이 기대된다. 상기 네트워크 TV의 보다 구체적인 실시예는, IPTV(internet protocol television), 스마트 TV(smart television), HBBTV(hybrid broadcast broadband television), DTV(digital television) 등이 해당된다고 할 수 있다.

다만, 상기 네트워크 TV의 구체적인 기능들이 아직 정의되지 않고 있으며, 자동 서치 기능에 대한 연구가 미비한 실정이다.

예컨대, 기존의 TV 에서는 PC 와 동일한 형태의 검색 엔진 정도가 논의되고 있으나, 이는 TV 유저에게 적합하지 않은 문제가 있었다.

또한, 종래 기술에 의하면, 방송 데이터를 처리하는 TV가 음성 인식을 수행하는 경우, 속도가 저하되는 문제가 있었다. 그러나, 전술하여 설명한 종래 기술에 의한 문제점들을 모두 해결할 수 있는 솔류션이 현재 제공되지 못하고 있는 상황이다.

본 발명의 일실시예는, 기존의 PC와 다른 스마트 TV에 적합한 검색 엔진에 대한 솔루션을 제공하고자 한다.

또한, 본 발명의 다른 일실시예는, 방송 데이터를 처리하는 TV가 음성 인식을 수행하는 경우에도 처리 속도가 저하되지 않는 방법을 제공하고자 한다.

그리고, 본 발명의 또 다른 일실시예는, 방송 데이터에 대한 음성 인식을 통해 획득한 키워드를 사용자에게 최적화된 형태로 디스플레이 하는 방법과, 부가 정보에 신속하게 액세스 하는 방법을 제공하고자 한다.

그리고, 본 발명의 일실시예에 의한 방송 음성 인식 서비스를 제공하는 서버의 제어 방법은, 네트워크 TV로부터, 방송 데이터의 음성 신호에서 추출된 특징값을 수신하는 단계와, 상기 수신된 특징값에 대응하는 적어도 하나 이상의 쿼리를 생성하는 단계와, 상기 생성된 적어도 하나 이상의 쿼리 중에서, 중요도에 따른 기준을 만족하는 특정 쿼리를 필터링 하는 단계와, 그리고 상기 필터링된 특정 쿼리에 대한 리포팅 데이터를 상기 네트워크 TV로 전송하는 단계를 포함한다.

본 발명의 일실시예에 의하면, 기존의 PC와 다른 스마트 TV에 적합한 검색 엔진에 대한 솔루션을 제공한다.

또한, 본 발명의 다른 일실시예에 의하면, 방송 데이터를 처리하는 TV가 음성 인식을 수행하는 경우에도 처리 속도가 저하되지 않는 데이터 처리 방법을 제공한다.

그리고, 본 발명의 또 다른 일실시예에 의하면, 방송 데이터에 대한 음성 인식을 통해 획득한 키워드를 사용자에게 최적화된 형태로 디스플레이 하는 방법과, 부가 정보에 신속하게 액세스 하는 방법을 제공한다.

다만, 보다 구체적인 발명의 효과에 대해서는, 이하 목차에서 상세히 후술하도록 하겠다.

도 1은 본 발명의 일실시예에 따른 네트워크 TV를 포함한 전체 방송 시스템의 일예를 개략적으로 나타낸 도면이다.
도 2는 도 1에 도시된 네트워크 TV의 일예를 보다 상세히 도시한 도면이다.
도 3은 본 발명의 일실시예에 따라 방송 음성 인식 서비스를 제공하는 네트워크 TV를 포함한 전체 시스템을 도시한 도면이다.
도 4는 도 3에 도시된 네트워크 TV와 서버를 보다 상세히 도시한 제1실시예에 대한 도면이다.
도 5는 도 3에 도시된 네트워크 TV와 서버를 보다 상세히 도시한 제2실시예에 대한 도면이다.
도 6은 본 발명의 일실시예에 따라 일반 방송 화면을 디스플레이 하는 도면이다.
도 7은 본 발명의 일실시예에 따른 방송 음성 인식 결과의 제1실시예를 도시한 도면이다.
도 8은 본 발명의 일실시예에 따른 방송 음성 인식 결과의 제2실시예를 도시한 도면이다.
도 9는 본 발명의 일실시예에 따른 방송 음성 인식 결과의 제3실시예를 도시한 도면이다.
도 10은 본 발명의 일실시예에 따른 방송 음성 인식 결과의 제4실시예를 도시한 도면이다.
도 11은 본 발명의 일실시예에 따른 방송 음성 인식 결과의 부가 정보를 디스플레이 하는 도면이다.
도 12는 본 발명의 일실시예에 따른 네트워크 TV와 서버의 전체 동작을 도시한 플로우 차트이다.
도 13은 본 발명의 다른 일실시예에 따라, 도 12에 도시된 S1202 단계를 보다 상세히 도시한 도면이다.
도 14는 본 발명의 다른 일실시예에 따라, 도 12에 도시된 S1203 단계를 보다 상세히 도시한 도면이다.
도 15는 본 발명의 다른 일실시예에 따라, 도 12에 도시된 S1205 단계 이후에 추가된 단계들을 상세히 도시한 도면이다.
도 16은 본 발명의 다른 일실시예에 따라, 도 12에 도시된 S1213 단계를 보다 상세히 도시한 도면이다.

이하에서는 첨부된 도면을 참조하여 본 발명의 여러가지 실시예들을 보다 상세히 설명하도록 하겠다. 나아가, 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 단순히 본 명세서 작성의 용이함을 고려하여 부여되는 것으로서, 상기 "모듈" 및 "부"는 서로 혼용되어 사용될 수 있으며, 하드웨어 또는 소프트웨어로 설계 가능하다.

한편, 본 명세서에서 기술되는 네트워크 TV는, 예컨대 방송 수신 기능에 컴퓨터 지원 기능을 추가한 지능형 영상표시기기로서, 방송 수신 기능에 충실하면서도 인터넷 기능 등이 추가되어, 수기 방식의 입력 장치, 터치 스크린 또는 공간 리모콘 등 보다 사용에 편리한 인터페이스를 갖출 수 있다. 그리고, 유선 또는 무선 인터넷 기능의 지원으로 인터넷 및 컴퓨터에 접속되어, 이메일, 웹브라우징, 뱅킹 또는 게임 등의 기능도 수행가능하다. 이러한 다양한 기능을 위해 표준화된 범용 OS가 사용될 수도 있다.

따라서, 본 발명에서 기술되는 네트워크 TV는, 예를 들어 범용의 OS 커널 상에, 다양한 애플리케이션이 자유롭게 추가되거나 삭제 가능하므로, 사용자 친화적인 다양한 기능이 수행될 수 있다. 상기 네트워크 TV는, 보다 구체적으로 예를 들면, 인터넷 TV, HBBTV, 스마트 TV, DTV 등이 될 수 있으며, 경우에 따라 스마트폰에도 적용 가능하다.

나아가, 이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 실시예를 상세하게 설명하지만, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다.

본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당분야에 종사하는 기술자의 의도 또는 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 가지는 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀두고자 한다.

도 1은 본 발명의 일실시예에 따른 네트워크 TV를 포함한 전체 방송 시스템의 일예를 개략적으로 나타낸 도면이다. 이하, 도 1을 참조하여, 본 발명의 일실시예에 따른 네트워크 TV를 포함한 전체 방송 시스템의 일예를 개략적으로 설명하면 다음과 같다.

도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 네트워크 TV를 포함한 전체 방송 시스템은, 컨텐츠 제공자(Content Provider;CP)(10), 서비스 제공자(Service Provider;SP)(20), 네트워크 제공자(Network Provider; NP)(30) 및 HNED(40)로 구분될 수 있다. 상기 HNED(40) 는, 예를 들어 본 발명의 실시예에 따른 네트워크 TV인 클라이언트(100)에 대응한다.

컨텐츠 제공자(10)는, 각종 컨텐츠를 제작하여 제공한다. 컨텐츠 제공자(10)에는 도 1에서와 같이 지상파 방송 송출자(terrestrial broadcaster), 케이블 방송 사업자(cable SO(System Operator) 또는 MSO(Multiple System Operator), 위성 방송 송출자(satellite broadcaster), 인터넷 방송 송출자(Internet broadcaster) 등이 예시될 수 있다. 또한, 컨텐츠 제공자(10)는, 방송 컨텐츠 외에, 다양한 애플리케이션 등을 제공할 수도 있다.

서비스 제공자(20)는, 컨텐츠 제공자(10)가 제공하는 컨텐츠들을 서비스 패키지화하여 제공할 수 있다. 예를 들어, 도 1의 서비스 제공자(20)는, 제1 지상파 방송, 제2 지상파 방송, 케이블 MSO, 위성 방송, 다양한 인터넷 방송, 애플리케이션 등을 패키지화하여 사용자에게 제공할 수 있다.

한편, 서비스 제공자(20)는, 유니캐스트(unicast) 또는 멀티캐스트(multicast) 방식을 이용하여 클라이언트(100) 측에 서비스를 제공할 수 있다. 유니캐스트 방식은 하나의 송신자와 하나의 수신자 사이에 데이터를 1:1로 전송하는 방식이다. 예를 들어, 유니캐스트 방식의 경우 수신기에서 서버에 데이터를 요청하면, 서버는 요청에 따라 데이터를 수신기에 전송할 수 있다. 멀티캐스트 방식은 특정한 그룹의 다수의 수신자에게 데이터를 전송하는 방식이다. 예를 들어, 서버는 데이터를 미리 등록된 다수의 수신기에 한꺼번에 전송할 수 있다. 이러한 멀티캐스트 등록을 위해 IGMP(Internet Group Management Protocol) 프로토콜 등이 사용될 수 있다.

네트워크 제공자(30)는, 서비스를 클라이언트(100)에게 제공하기 위한 네트워크 망을 제공할 수 있다. 클라이언트(100)는 홈 네트워크(Home Network End User;HNED)를 구축하여 서비스를 제공받을 수도 있다.

한편, 전송되는 컨텐츠를 보호하기 위한 수단으로, 제한 수신(Conditional Access) 또는 컨텐츠 보호(Content Protection) 등이 사용될 수 있다. 이러한 제한 수신이나 컨텐츠 보호를 위한 하나의 예로서, 케이블카드(CableCARD), DCAS(Downloadable Conditional Access System)와 같은 방식이 사용될 수도 있으나, 이와 같은 설계로 본 발명이 제한되는 것은 아니다.

한편, 클라이언트(100)도 네트워크를 통해, 컨텐츠를 제공하는 것이 가능하다. 이러한 경우, 상술한 바와 달리, 역으로, 클라이언트(100)가 컨텐츠 제공자가 될 수 있으며, 컨텐츠 제공자(10)가 클라이언트(100)로부터 컨텐츠를 수신할 수도 있다. 이와 같이 설계된 경우, 양방향 컨텐츠 서비스 또는 데이터 서비스가 가능한 장점이 있다.

도 2는 도 1에 도시된 네트워크 TV의 일예를 보다 상세히 도시한 도면이다. 이하, 도 2를 참조하여, 도 1에 도시된 네트워크 TV의 일예를 보다 상세히 설명하면 다음과 같다.

본 발명의 일실시예에 의한 네트워크 TV(200)는, 네트워크 인터페이스부(Network Interface)(201), TCP/IP 매니저(TCP/IP Manager)(202), 서비스 전달 매니저(Service Delivery Manager)(203), 디멀티플렉서(Demux)(205), PSI&(PSIP and/or SI) 디코더(204), 오디오 디코더(Audio Decoder)(206), 비디오 디코더(Video Decoder)(207), 디스플레이부(Display A/V and OSD Module)(208), 서비스 제어 매니저(Service Control Manager)(209), 서비스 디스커버리 매니저(Service Discovery Manager)(210), 메타데이터 매니저(Metadata Manager)(212), SI&Metadata DB(211), UI 매니저(214), 그리고 서비스 매니저(213) 등을 포함하여 이루어 진다.

네트워크 인터페이스부(201)는 네트워크 망으로부터 수신되는 패킷(packet)들을 수신하고, 네트워크 망으로 패킷을 전송한다. 즉 네트워크 인터페이스부(201)는 네트워크 망을 통해 서비스 제공자로부터 서비스, 컨텐츠 등을 수신한다.

TCP/IP 매니저(202)는, 네트워크 TV(200)로 수신되는 패킷과 네트워크 TV(200)가 전송하는 패킷에 대하여, 즉 소스로부터 목적지까지의 패킷 전달에 관여한다. 그리고 TCP/IP 매니저(202)는 수신된 패킷을 적절한 프로토콜에 대응되도록 분류하고, 서비스 전달 매니저(205), 서비스 디스커버리 매니저(210), 서비스 제어 매니저(209) 및 메타데이터 매니저(212)로 분류된 패킷을 출력한다.

서비스 전달 매니저(203)는 수신되는 서비스 데이터의 제어를 담당한다. 예를 들어, 실시간 스트리밍(real-time streaming) 데이터를 제어하는 경우 RTP/RTCP를 사용할 수 있다. 상기 실시간 스트리밍 데이터를 RTP를 사용하여 전송하는 경우, 상기 서비스 전달 매니저(203)는 상기 수신된 데이터 패킷을 RTP에 따라 파싱(parsing)하여 디멀티플렉서(205)에 전송하거나 서비스 매니저(213)의 제어에 따라 SI&Metadata DB(711)에 저장한다. 그리고 RTCP를 이용하여 상기 네트워크 수신 정보를 서비스를 제공하는 서버측에 피드백(feedback)한다.

디멀티플렉서(205)는 수신된 패킷을 오디오, 비디오, PSI(Program Specific Information) 데이터 등으로 역다중화하여 각각 오디오/비디오 디코더(206, 207), PSI&(PSIP and/or SI) Decoder(204)에 전송한다.

PSI&(PSIP and/or SI) Decoder(204)는 예를 들어, PSI(Program Specific Information) 등의 서비스 정보를 디코딩한다. 즉, PSI&(PSIP and/or SI) Decoder(204)는 상기 디멀티플렉서(205)에서 역다중화된 PSI 섹션, PSIP(Program and Service Information Protocol) 섹션 또는 SI(Service Information) 섹션 등을 수신하여 디코딩한다.

또한 상기 PSI&(PSIP and/or SI) Decoder(204)는 상기 수신된 섹션들을 디코딩하여 서비스 정보에 관한 데이터베이스를 만들고, 상기 서비스 정보에 관한 데이터베이스는 SI&Metadata DB(211)에 저장한다.

오디오/비디오 디코더(206/207)는, 상기 디멀티플렉서(205)에서 수신된 비디오 데이터와 오디오 데이터를 디코딩한다. 상기 오디오 디코더(206)에서 디코딩된 오디오 데이터 및 상기 비디오 디코더(207)에서 디코딩된 비디오 데이터는 디스플레이부(208)를 통하여 사용자에게 제공된다.

UI 매니저(214) 및 서비스 매니저(213)는, 네트워크 TV(200)의 전반적인 상태를 관리하고 유저 인터페이스를 제공하며, 다른 매니저를 관리한다.

UI 매니저(214)는 사용자를 위한 GUI(Graphic User Interface)를 OSD(On Screen Display) 등을 이용하여 제공하며, 사용자로부터 키 입력을 받아 상기 입력에 따른 수신기 동작을 수행한다. 예를 들어, 사용자로부터 채널선택에 관한 키 입력을 받으면 상기 키 입력신호를 서비스 매니저(213)에 전송한다.

서비스 매니저(213)는 서비스 전달 매니저(203), 서비스 디스커버리 매니저(210), 서비스 제어 매니저(209) 및 메타데이터 매니저(212) 등 서비스와 연관된 매니저를 제어한다.

또한 서비스 매니저(213)는 채널 맵(Channel Map)을 만들고 상기 유저 인터페이스 매니저(214)로부터 수신한 키 입력에 따라 상기 채널 맵을 이용하여 채널을 선택하다. 그리고 상기 서비스 매니저(213)는 PSI&(PSIP and/or SI) Decoder(204)로부터 채널의 서비스정보를 전송받아 선택된 채널의 오디오/비디오 PID(Packet Identifier)를 디멀티플렉서(205)에 설정한다.

서비스 디스커버리 매니저(210)는 서비스를 제공하는 서비스 제공자를 선택하는데 필요한 정보를 제공한다. 상기 서비스 매니저(213)로부터 채널선택에 관한 신호를 수신하면, 서비스 디스커버리 매니저(210)는 상기 정보를 이용하여 서비스를 찾는다.

서비스 제어 매니저(209)는 서비스의 선택과 제어를 담당한다. 예를 들어, 사용자가 기존의 방송방식과 같은 Live Broadcasting 서비스를 선택하는 경우 IGMP 또는 RTSP 등을 사용하고, VOD(Video On Demand)와 같은 서비스를 선택하는 경우에는 RTSP를 사용하여 서비스의 선택, 제어를 수행한다. 상기 RTSP 프로토콜은 실시간 스트리밍에 대해 트릭 모드(trick mode)를 제공할 수 있다. 또한, 서비스 제어 매니저(209)는 IMS(IP Multimedia Subsystem), SIP(Session Initiation Protocol)를 이용하여 IMC 게이트웨이를 통하는 세션을 초기화하고 관리할 수 있다. 상기 프로토콜들은 일 실시예이며, 구현 예에 따라 다른 프로토콜을 사용할 수도 있다.

메타데이터 매니저(212)는 서비스와 연관된 메타데이터를 관리하고 상기 메타데이터를 SI&Metadata DB(211)에 저장한다.

SI&Metadata DB(211)는 PSI&(PSIP and/or SI) Decoder(204)가 디코딩한 서비스 정보, 메타데이터 매니저(212)가 관리하는 메타데이터 및 서비스 디스커버리 매니저(210)가 제공하는 서비스 제공자를 선택하는데 필요한 정보를 저장한다. 또한 SI&Metadata DB(211)는 시스템에 대한 셋업 데이터 등을 저장할 수 있다.

SI&Metadata DB(211)는 비휘발성 메모리(NonVolatile RAM : NVRAM) 또는 플래쉬 메모리 등을 사용하여 구현될 수도 있다.

한편, 상기 IG(250)는, IMS 기반의 IPTV 서비스에 접근하기 위해 필요한 기능들을 모아 놓은 게이트웨이 이다.

도 3은 본 발명의 일실시예에 따라 방송 음성 인식 서비스를 제공하는 네트워크 TV를 포함한 전체 시스템을 도시한 도면이다. 이하, 도 3을 참조하여, 본 발명의 일실시예에 따라 방송 음성 인식 서비스를 제공하는 네트워크 TV를 포함한 전체 시스템을 개략적으로 설명하면 다음과 같다.

본 발명의 일실시예에 의한 네트워크 TV(300)는 실시간으로 수신되는 방송 데이터 중 음성 신호를 인식하고, 인식된 특정 데이터를 서버(310)에 전송한다. 상기 서버(310)는 쿼리 엔진 등을 구비하고 있어서 전송된 특정 데이터에 대응하는 검색 결과를 상기 네트워크 TV(300)에 제공한다. 따라서, 상기 네트워크 TV(300)는 상기 서버(310)로부터 전송 받은 검색 결과가 디스플레이 되도록 제어한다. 나아가, 상기 네트워크 TV(300)는 상기 서버(310)를 경유하여 적어도 하나 이상의 웹사이트들(320, 330, 340)에 접속하여 상기 검색 결과와 상관관계가 높은 데이터들을 제한적으로 수신하는 것이 가능하다. 이는 도 3에 도시된 (1), (2)에 의해 진행될 수 있다.

또는, 상기 네트워크 TV(300)는 상기 서버(310)를 경유하지 않고, 직접 상기 웹사이트들(320, 330, 340)에 접속하여 상기 검색 결과와 상관관계가 높은 데이터들을 제한적으로 수신하는 것도 가능하다. 이는 도 3에 도시된 (3)에 의해 진행될 수 있다.

종래 기술에 의하면, TV에서 현재 수신되는 방송 내용과 관련된 데이터를 획득하기 위해서, EPG(Electronic Program Guide) 정보를 수신하고, EPG 정보에 포함된 현재 방송 프로그램에 대한 요약 정보를 확인하고 액세스 한다.

그러나, 이와 같은 종래 기술에 의하면 사용자가 별도로 검색을 하는 불편함이 있었고 시간도 상당히 오래 소요되는 문제가 있었다. 나아가, EPG 정보는 프로그램 방영 시간 정보 및 간단한 프로그램 내용에 대한 정보 정도만을 포함하고 있어서(즉, 하나의 프로그램 단위임), 하나의 프로그램내 씬 또는 장면 마다의 정보를 제공하지 못하는 한계도 있다.

이와 같은 종래 기술의 문제점들을 해결하기 위한 구체적인 방법을 이하에서 보다 상세히 설명하도록 하겠다.

도 4는 도 3에 도시된 네트워크 TV와 서버를 보다 상세히 도시한 제1실시예에 대한 도면이다. 이하, 도 4를 참조하여, 도 3에 도시된 네트워크 TV와 서버를 보다 상세히 도시한 제1실시예를 설명하면 다음과 같다.

도 4에 도시된 바와 같이, 방송 음성 인식 서비스를 제공하는 네트워크 TV(400)는, 방송 네트워크 인터페이스(451), 디모듈레이터(452), 디멀티플렉서(453), 비디오 디코더(454), 비디오 디스플레이 모듈(455), 스크린(456), 오디오 디코더(457), 오디오 증폭기(458), 스피커(459), 제1디텍터(460), 제2디텍터(461), 인터넷 인터페이스(462), 그리고 제어부(463) 등을 포함한다. 전술한 모듈들은 하드웨어 또는 소프트웨어로 설계 가능하며, 필요에 따라 하드웨어와 소프트웨어의 결합으로 디자인할 수도 있다. 나아가, 도 4는 일실시예로서 본 발명의 권리범위가 도 4로 제한되는 것은 아니며, 본 발명의 권리범위는 원칙적으로 특허청구범위에 기재된 내용에 따라 정해져야 한다.

상기 방송 네트워크 인터페이스(451)는, 오디오 및 비디오 데이터를 포함하는 방송 데이터를 수신한다. 상기 디모듈레이터(452)는 상기 수신된 방송 데이터의 스트림을 디모듈레이팅 하는 역할을 수행한다. 상기 스트림은 예컨대, 종류별로 구분되어 있다.

상기 디멀티플렉서(453)는, 종류별로 구분된 스트림 중에서, 오디오 스트림을 오디오 디코더(457)로 전송하고, 비디오 스트림을 비디오 디코더(454)로 전송한다.

상기 비디오 디코더(454)는 수신된 비디오 스트림을 디코딩 하고, 상기 비디오 디스플레이 모듈(455)은 디코딩된 비디오 스트림이 상기 스크린(456)에서 출력될 수 있는 형태로 변환시킨다.

상기 오디오 디코더(457)는 수신된 오디오 스트림을 디코딩 하고, 상기 오디오 증폭기(458)는 디코딩된 오디오 스트림이 상기 스피커(459)에서 출력될 수 있는 형태로 변환시킨다.

상기 제1디텍터(460)는, 상기 오디오 디코더(457)에서 디코딩된 오디오 데이터에서 음성 신호를 추출하고, 상기 제2디텍터(461)는 상기 추출된 음성 신호에서 특징값을 추출한다.

상기 인터넷 인터페이스(462)는, 상기 추출된 특징값을 외부 서버(410)로 전송하고, 상기 제어부(463)는 상기 외부 서버(410)로부터 수신한 리포팅 데이터가 상기 스크린(456)에서 디스플레이 되도록 제어한다. 이에 대해서는 도 6 내지 도 10을 참조하여 보다 상세히 후술하도록 하겠다.

본 발명의 다른 일실시예에 의하면, 상기 제1디텍터(460)는, 상기 오디오 데이터를 분석하여 중앙에 위치한 주파수 대역의 PCM(Pulse Code Modulation) 신호를 추출하고, 그리고 상기 추출된 PCM 신호에서, 일정 범위를 초과하는 PCM 신호를 필터링한다.

보다 구체적으로 설명하면, TV 방송 내용에는 음성 뿐만 아니라 악기음, 자동차음 등 주변음이 섞여 있기 마련이다. 다만, 대부분 방송국 스튜디오는 목소리 신호를 앞쪽 가운데로 믹싱(Mixing) 하고 있기 때문에, 음성 인식의 대상이 되는 음성 데이터만을 추출하기 위해서, 2 채널(left, right) 오디오 시그널로부터 앞쪽 가운데 위치한 소리만을 음성 신호로 추출한다. 추출된 음성 신호는 예를 들어 PCM(Pulse Code Modulation) 신호로서, 약 8kMz 샘플링 비율(sampling rate)을 가지는 1개 채널의 16비트 진폭 분해능을 사용하여 얻어질 수도 있다.

나아가, 상기 PCM 신호는, 디지털 pre-emphasis 회로를 거치면서 저음 성분의 노이즈는 억제되고, 1kHz 이상의 스펙트럼 영역에 민감한 신호만이 필터링 된다.

한편, 음성 신호를 PCM 신호로 변환하는 과정을 추가적으로 설명하면 다음과 같다. 다만, 이는 일실시예이며 본 발명의 권리범위가 제한되는 것은 아니다. 예를 들어, 음성 정보를 일정 간격의 시간으로 샘플링하여 펄스진폭변호(Pulse Amplitude Modulation) 신호를 얻은 다음, 이를 다시 양자화기를 거쳐 각 진폭값을 평준화한다(이를, 양자화 과정이라 지칭하기도 함). 그리고, 이 양자화된 값에 2진 부호값을 할당함으로써 음성 신호를 PCM 신호로 변환할 수가 있다.

본 발명의 다른 일실시예에 의하면, 상기 제2디텍터(461)는, 상기 필터링된 PCM 신호를 프레임 단위로 분리하고, 상기 분리된 PCM 신호를 주파수 도메인으로 변환시키고, 상기 변환된 주파수 도메인을 분할하고, 분할된 주파수 도메인 각각의 에너지를 계산하고, 그리고 상기 계산된 에너지를 DCT(Discrete Cosine Transform) 변환하여 구해진 MFCC(Mel Frequency Cepstral Coefficient) 를 특징값으로 출력한다.

상기 출력된 특징값의 사이즈(size)는 최초 입력된 PCM 신호의 사이즈와 비교하여 약 10% 수준으로 작아지므로, 인터넷 상에서 고속 전달이 가능한 본 발명의 특유의 효과가 있다.

한편, 전술한 특징값 추출 및 MFCC 에 대하여, 추가적으로 설명하면 다음과 같다. 다만, 이는 일실시예이며 본 발명의 권리범위가 제한되는 것은 아니다. 특징값 추출은, 인식에 유용한 성분을 음성신호로부터 뽑아내는 과정이다. 특징값 추출은 일반적으로 정보의 압축, 차원 감소 과정과 관련된다.

음성 신호의 동적 특성을 반영하기 위하여 켑스트럼의 1차(delta), 2차 미분값을 사용한다. CMS 및 미분은 시간축 방향의 필터링으로 생각할 수 있으며 시간축 방향으로의 임시 비상관(temporally uncorrelated) 특징벡터를 얻는 과정이다. 필터뱅크 계수로부터 켑스트럼을 얻는 과정은 필터뱅크 계수를 비상관(uncorrelated)으로 바꾸기 위한 직교 변환(orthogonal transform)으로 고려할 수 있다. 음성인식을 위하여 주로 사용되는 특징은 LPC cepstrum, PLP cepstrum, Mel frequency cepstral coefficient (MFCC), 필터뱅크 에너지 등이 있다.

일실시예로서, MFCC를 구하는 방법을 간단히 설명하면 다음과 같다. 음성신호는 anti-aliasing filter를 거친 다음, A/D변환을 거쳐서 디지털 신호 x(n)로 변환된다. 디지털 음성신호는 고대역 통과 특성을 갖는 디지털 프리엠퍼시스 필터를 거친다. 이 필터를 사용하는 이유는 첫째로 인간의 외이/중이의 주파수 특성을 모델링하기 위하여 고대역 필터링을 한다. 이는 입술에서의 방사에 의하여 20 dB/decade로 감쇄되는 것을 보상하게 되어 음성으로부터 성도 특성만을 얻게 된다. 둘째 청각시스템이 1 kHz이상의 스펙트럼 영역에 대하여 민감하다는 사실을 어느 정도 보상하게 된다. PLP 특징추출에서는 인간 청각기관의 주파수 특성인 equal-loudness curve를 직접 모델링에 사용한다.

프리엠퍼시스된 신호는 해밍 윈도우를 씌워서 블록 단위의 프레임으로 나누어진다. 이후부터의 처리는 모두 프레임 단위로 이루어진다. 프레임의 크기는 예를 들어 20-30 ms이며 프레임 이동은 예를 들어 10 ms가 사용된다. 한 프레임의 음성신호는 FFT를 이용하여 주파수 영역으로 변환된다. 주파수 대역을 여러개의 필터뱅크로 나누고 각 뱅크에서의 에너지를 구한다. 밴드 에너지에 로그를 취한 후 discrete cosine transform (DCT)를 하면 최종적인 MFCC가 얻어진다.

나아가, 상기 서버(410)로부터 수신하는 상기 리포팅 데이터는, 상기 추출된 특징값에 대응하는 키워드를 포함하고 있다. 또한, 상기 제어부(463)는 상기 키워드가 선택된 경우, 상기 키워드에 해당하는 웹사이트에 액세스 하도록 제어하고, 그리고 상기 액세스한 웹사이트로부터 인터넷 데이터를 수신하도록 제어한다. 이에 대한 설명은 도 11을 참조하여 보다 상세히 설명하도록 하겠다.

그리고, 본 발명의 또 다른 일실시예에 의하면, 상기 제어부(463)는, 상기 키워드가 복수개인 경우, 상기 복수개의 키워드를 중요도에 따라 분류하도록 제어하고, 그리고 상기 분류된 복수개의 키워드가 차별적인 형태로 디스플레이 되도록 제어한다. 이에 대한 설명은 도 9 및 도 10을 참조하여 보다 상세히 설명하도록 하겠다.

한편, 상기 네트워크 TV는, 예를 들어 스마트 TV, 인터넷 TV 또는 HBBTV 중 어느 하나에 대응한다. 인터넷 등 네트워크 접속이 가능한 디바이스라면 본 발명을 적용할 수가 있다.

도 4에 도시된 바와 같이, 방송 음성 인식 서비스를 제공하는 서버(410)는, 수신부(411), 생성부(412), 필터링부(413) 그리고 전송부(414) 등을 포함한다. 전술한 모듈들은 하드웨어 또는 소프트웨어로 설계 가능하며, 필요에 따라 하드웨어와 소프트웨어의 결합으로 디자인할 수도 있다. 나아가, 도 4는 일실시예로서 본 발명의 권리범위가 도 4로 제한되는 것은 아니며, 본 발명의 권리범위는 원칙적으로 특허청구범위에 기재된 내용에 따라 정해져야 한다.

상기 수신부(411)는, 상기 네트워크 TV(400)로부터, 방송 데이터의 음성 신호에서 추출된 특징값을 수신한다. 상기 생성부(412)는, 상기 수신된 특징값에 대응하는 적어도 하나 이상의 쿼리를 생성하고, 상기 필터링부(413)는 상기 생성된 적어도 하나 이상의 쿼리 중에서, 중요도에 따른 기준을 만족하는 특정 쿼리를 필터링 한다. 그리고, 상기 전송부(414)는 상기 필터링된 특정 쿼리에 대한 리포팅 데이터를 상기 네트워크 TV(400)로 전송한다.

전술하여 설명한 바와 같이, 상기 특징값은, 예를 들어 PCM(Pulse Code Modulation) 신호가 DCT(Discrete Cosine Transform) 변환에 의해 구해진 MFCC(Mel Frequency Cepstral Coefficient)에 대응한다.

나아가, 본 발명의 다른 일실시예에 의하면, 상기 필터링부(413)는 일정한 시간 동안 쿼리가 발생한 횟수에 비례하여 특정 쿼리로 선정하는 방식을 이용하도록 설계된다. 예컨대, 20초 동안 "김호선" 이란 키워드가 5번 검출된 반면, "결혼" 이란 키워드가 1번 검출되었다면, 상기 필터링부(413)는 상기 "김호선" 만을 특정 쿼리로 인식하도록 설계된다. 불필요한 정보 또는 노이즈가 개입되는 것을 2차적으로 방지하기 위함이다.

또한, 상기 필터링된 특정 쿼리가 복수개 존재하는 경우, 상기 전송부(414)는 각각의 쿼리가 발생한 횟수에 비례하여 랭킹을 부여하고, 그리고 상기 랭킹에 대한 정보를 포함하는 리포팅 데이터를 상기 네트워크 TV(400)로 전송하도록 설계된다. 나아가, 상기 전송부(414)는, 상기 랭킹에 따라, 상기 쿼리에 대응하는 키워드의 표시 영역이 비례하는 리포팅 데이터를 상기 네트워크 TV(400)로 전송하도록 설계하는 것도 가능하다. 예컨대, 보다 많은 쿼리가 발생한 키워드에 대하여 상대적으로 높은 랭킹을 부여함으로써, 상기 네트워크 TV(400)는 랭킹이 높은 키워드들을 보다 큰 사이즈로 디스플레이 하는 것이 가능하다. 물론, 사이즈가 아닌 선명도, 투명도 등의 방법을 이용하여 디스플레이 할 수도 있다.

도 5는 도 3에 도시된 네트워크 TV와 서버를 보다 상세히 도시한 제2실시예에 대한 도면이다. 이하, 도 5를 참조하여, 도 3에 도시된 네트워크 TV와 서버를 보다 상세히 도시한 제2실시예를 설명하면 다음과 같다.

도 5는 도 4와 비교하여 서버(510)의 구성 모듈들이 다르게 설계된다. 따라서, 도 4와 동일한 모듈들로 구성된 네트워크 TV이므로 도 5에서는 인터넷 인터페이스(562)를 제외하고 다른 모듈들의 도시는 생략하도록 하겠다.

도 5에 도시된 바와 같이, 방송 음성 인식 서비스를 제공하는 서버(510)는, 쿼리 생성부(521), 쿼리 엔진(522), 다큐먼트 랭킹 매니지먼트(523) 그리고 다큐먼트 DB(524) 등을 포함한다. 전술한 모듈들은 하드웨어 또는 소프트웨어로 설계 가능하며, 필요에 따라 하드웨어와 소프트웨어의 결합으로 디자인할 수도 있다. 나아가, 도 5는 일실시예로서 본 발명의 권리범위가 도 5로 제한되는 것은 아니며, 본 발명의 권리범위는 원칙적으로 특허청구범위에 기재된 내용에 따라 정해져야 한다.

상기 쿼리 생성부(521)는, 상기 네트워크 TV(500)의 인터넷 인터페이스(562)를 통해 수신한 음성 인식 특징값을 사용하여 지속적으로 쿼리를 제작하게 된다. 다만, 이 과정은 종래 알려진 여러가지 소어휘 음성 인식 메써드, 대어휘 음성 인식 메써드를 차용할 수 있다. 보다 구체적으로 예를 들면, 동적 정합법(Dynamic time warping) 또는 은닉 마코프 모델(Hidden Markov Model) 등을 이용하여, 상기 수신된 음성 인식 특징값을 적어도 하나 이상의 문장으로 만들고, 단어 단위 분석 및 품사화 과정을 통해 키워드에 해당하는 쿼리를 생성한다.

상기 쿼리 엔진(522)은, 상기 쿼리 생성부(521)로부터 지속적으로 인가되는 쿼리에 대해서 중요도를 부여하고, 가장 중요도가 높은 키워드를 최종 쿼리로 선정한다. 예를 들면, 최근 20초 동안 발생한 쿼리의 횟수에 제1가산점을 부여하고, 미리 설정된 단어별 제2가산점을 이용하여, 특정 범위의 쿼리에 대해서만 선별적으로 선택한다. 보다 구체적으로 예를 들면, "유명 스타의 이름"에 대한 키워드에 대해선 가산점이 부여되도록 설계한다. 따라서, 동일한 횟수의 키워드가 복수개인 경우라 할지라도, 노이즈로 예상되는 키워드를 최종 쿼리로 선택하는 오류를 제거할 수가 있다. 또 다른 실시예로서, 방송국의 중요도, 프로그램 시간대별로 전술한 제2가산점을 다르게 셋팅하는 것도 가능하다.

상기 다큐먼트 랭킹 매니지먼트(523)는, 상기 쿼리 엔진(522)으로부터 특정 최종 쿼리에 대한 정보를 수신하고, 상기 다큐먼트 DB(524)에 저장된 데이터를 이용하여 각 쿼리에 대한 랭킹을 부여할 수가 있다. 예를 들어, 특정 쿼리와 관련된 데이터가 상기 다큐먼트 DB(524)에 상대적으로 많이 축적되어 있을 수록, 상기 다큐먼트 랭킹 매니지먼트(523)는 높은 순위의 랭킹을 부여한다. 랭킹이 부여된 정보는 상기 쿼리 엔진(522)을 통해 상기 네트워크 TV(500)에 포워딩 되고, 결국 상기 네트워크 TV(500)는 높은 순위의 랭킹을 가지는 쿼리에 대응하는 키워드와 낮은 순위의 랭킹을 가지는 쿼리에 대응하는 키워드를 차등적으로 표시하는 것이 가능한 효과가 있다.

도 6은 본 발명의 일실시예에 따라 일반 방송 화면을 디스플레이 하는 도면이다. 이하, 도 6을 참조하여, 본 발명의 일실시예에 따라 일반 방송 화면을 디스플레이 하는 과정을 설명하면 다음과 같다.

우선, 도 6에 도시된 바와 같이, 일반 방송 화면(600)만이 네트워크 TV의 스크린을 통해 출력된다. 다만, 일반 방송 화면이 출력되다가, 본 발명의 일실시예에 따라 방송 음성 인식 서비스가 제공되는 과정은 이하에서 설명하도록 하겠다.

도 7은 본 발명의 일실시예에 따른 방송 음성 인식 결과의 제1실시예를 도시한 도면이다. 이하, 도 7을 참조하여, 본 발명의 일실시예에 따른 방송 음성 인식 결과의 제1실시예를 설명하면 다음과 같다.

도 1 내지 도 5를 통해 전술한 바와 같이 방송 음성 인식 시스템이 동작하게 되면, 도 7에 도시된 바와 같이 일반 방송 화면(700)과 서버로부터 수신한 특정 쿼리에 대응하는 키워드(710)가 디스플레이 된다. 이는 상기 방송 음성 인식 시스템에 의해 특정 키워드가 단수개 검색된 경우를 가정하여, 도시하였다.

도 8은 본 발명의 일실시예에 따른 방송 음성 인식 결과의 제2실시예를 도시한 도면이다. 이하, 도 8을 참조하여, 본 발명의 일실시예에 따른 방송 음성 인식 결과의 제2실시예를 설명하면 다음과 같다.

도 1 내지 도 5를 통해 전술한 바와 같이 방송 음성 인식 시스템이 동작하게 되면, 도 8에 도시된 바와 같이 일반 방송 화면(800)과 서버로부터 수신한 복수개의 특정 쿼리에 대응하는 키워드들(810,820)이 디스플레이 된다. 이는 상기 방송 음성 인식 시스템에 의해 특정 키워드가 복수개 검색된 경우를 가정하여, 도시하였다. 나아가, 각각의 키워드들을 구별없이 디스플레이 하는 경우이다. 전술한 랭킹 내지 중요도가 동일한 경우이거나, 사용자의 선택에 따라 차등화한 디스플레이 옵션을 선택하지 않은 경우이다.

도 9는 본 발명의 일실시예에 따른 방송 음성 인식 결과의 제3실시예를 도시한 도면이다. 이하, 도 9를 참조하여, 본 발명의 일실시예에 따른 방송 음성 인식 결과의 제3실시예를 설명하면 다음과 같다.

도 1 내지 도 5를 통해 전술한 바와 같이 방송 음성 인식 시스템이 동작하게 되면, 도 9에 도시된 바와 같이 일반 방송 화면(900)과 서버로부터 수신한 복수개의 특정 쿼리에 대응하는 키워드들(910,920,930)이 디스플레이 된다. 이는 상기 방송 음성 인식 시스템에 의해 특정 키워드가 복수개 검색된 경우를 가정하여, 도시하였다. 다만, 도 8과 달리, 디스플레이 되는 각각의 키워드들이 다르게 디스플레이 된다. 예컨대, 도 9에 도시된 바와 같이, 랭킹 내지 중요도가 가장 높은 키워드(910)가 가장 큰 사이즈로 디스플레이 되고, 중간 레벨의 랭킹 내지 중요도를 가지는 키워드(920)는 중간 사이즈로 디스플레이 되며, 그리고 가장 낮은 랭킹 내지 중요도를 가지는 키워드(930)는 가장 작은 사이즈로 디스플레이 된다. 이를 통해, 사용자에게 보다 최적화된 데이터에 용이하게 액세스할 수 있는 본 발명 특유의 효과가 있다.

도 10은 본 발명의 일실시예에 따른 방송 음성 인식 결과의 제4실시예를 도시한 도면이다. 이하, 도 10을 참조하여, 본 발명의 일실시예에 따른 방송 음성 인식 결과의 제4실시예를 설명하면 다음과 같다.

도 1 내지 도 5를 통해 전술한 바와 같이 방송 음성 인식 시스템이 동작하게 되면, 도 10에 도시된 바와 같이 일반 방송 화면(1000)과 서버로부터 수신한 복수개의 특정 쿼리에 대응하는 키워드들이 리스트 형태(1010)로 디스플레이 된다. 이는 상기 방송 음성 인식 시스템에 의해 특정 키워드가 복수개 검색된 경우를 가정하여, 도시하였다. 다만, 도 9와 달리, 랭킹 또는 중요도가 높은 키워드를 리스트 가장 상단에 위치시켰고, 랭킹 또는 중요도가 낮을 수록 키워드를 아래에 위치하는 방식을 사용하였다.

도 11은 본 발명의 일실시예에 따른 방송 음성 인식 결과의 부가 정보를 디스플레이 하는 도면이다. 이하, 도 11을 참조하여, 본 발명의 일실시예에 따른 방송 음성 인식 결과의 부가 정보를 디스플레이 하는 과정을 설명하면 다음과 같다.

도 7 내지 도 9에 도시된 키워드들(710, 810, 820, 910, 920, 930)이 선택된 경우, 도 11에 도시된 바와 같이 일반 방송 화면(1100)과 함께 상기 키워드와 링크되어 있는 인터넷 화면(1110)이 디스플레이 된다. 따라서, 사용자는 자신이 원하는 키워드를 검색하기 위하여, 추가적으로 인터넷 홈페이지를 열고 키워드를 입력하는 번거로움을 줄일 수가 있다.

도 12는 본 발명의 일실시예에 따른 네트워크 TV와 서버의 전체 동작을 도시한 플로우 차트이다. 이하, 도 12를 참조하여, 본 발명의 일실시예에 따른 네트워크 TV와 서버의 전체 동작을 설명하면 다음과 같다. 한편, 이하 도 12 내지 도 16은 방법 발명에 대한 설명이나, 도 1 내지 도 11의 설명을 보충적으로 적용하여 해석할 수가 있다.

본 발명의 일실시예에 의한 방송 음성 인식 서비스를 제공하는 네트워크 TV 는 오디오 및 비디오 데이터를 포함하는 방송 데이터를 수신한다(S1200). 상기 네트워크 TV는 상기 비디오 데이터 및 오디오 데이터를 디코딩 한다(S1201).

상기 네트워크 TV는, 상기 디코딩된 오디오 데이터에서 음성 신호를 추출하고(S1202), 상기 추출된 음성 신호에서 특징값을 추출한다(S1203). 그리고, 상기 네트워크 TV는 상기 추출된 특징값을 서버로 전송한다(S1204).

본 발명의 일실시예에 의한 방송 음성 인식 서비스를 제공하는 서버는 상기 방송 데이터의 음성 신호에서 추출된 특징값을 수신한다(S1210). 상기 서버는, 상기 수신된 특징값에 대응하는 적어도 하나 이상의 쿼리를 생성한다(S1211).

나아가, 상기 서버는 상기 생성된 적어도 하나 이상의 쿼리 중에서, 중요도에 따른 기준을 만족하는 특정 쿼리를 필터링 한다(S1212). 그리고, 상기 서버는 상기 필터링된 특정 쿼리에 대한 리포팅 데이터를 상기 네트워크 TV로 전송한다(S1213).

또한, 상기 네트워크 TV는 상기 외부 서버로부터 수신한 리포팅 데이터가 디스플레이 되도록 제어한다(S1205).

도 13은 본 발명의 다른 일실시예에 따라, 도 12에 도시된 S1202 단계를 보다 상세히 도시한 도면이다. 이하, 도 13을 참조하여, 본 발명의 다른 일실시예에 따라, 도 12에 도시된 S1202 단계를 보다 상세히 설명하면 다음과 같다.

본 발명의 다른 일실시예에 따른 네트워크 TV는, 상기 오디오 데이터를 분석하여 중앙에 위치한 주파수 대역의 PCM(Pulse Code Modulation) 신호를 추출하고(S1300), 그리고 상기 추출된 PCM 신호에서, 일정 범위를 초과하는 PCM 신호를 필터링한다(S1301).

도 14는 본 발명의 다른 일실시예에 따라, 도 12에 도시된 S1203 단계를 보다 상세히 도시한 도면이다. 이하, 도 14를 참조하여, 본 발명의 다른 일실시예에 따라, 도 12에 도시된 S1203 단계를 보다 상세히 설명하면 다음과 같다.

본 발명의 다른 일실시예에 따른 네트워크 TV는, 상기 필터링된 PCM 신호를 프레임 단위로 분리하고(S1400), 상기 분리된 PCM 신호를 주파수 도메인으로 변환시키고(S1401), 상기 변환된 주파수 도메인을 분할하고(S1402), 분할된 주파수 도메인 각각의 에너지를 계산하고(S1403), 그리고 상기 계산된 에너지를 DCT(Discrete Cosine Transform) 변환하여 구해진 MFCC(Mel Frequency Cepstral Coefficient) 를 특징값으로 출력한다(S1404).

도 15는 본 발명의 다른 일실시예에 따라, 도 12에 도시된 S1205 단계 이후에 추가된 단계들을 상세히 도시한 도면이다. 이하, 도 15를 참조하여, 본 발명의 다른 일실시예에 따라, 도 12에 도시된 S1205 단계 이후에 추가된 단계들을 상세히 설명하면 다음과 같다.

본 발명의 다른 일실시예에 따른 네트워크 TV는, 상기 키워드가 선택된 경우, 상기 키워드에 해당하는 웹사이트에 액세스 하도록 제어하고(S1206), 그리고 상기 액세스한 웹사이트로부터 인터넷 데이터를 수신하도록 제어한다(S1207).

도 16은 본 발명의 다른 일실시예에 따라, 도 12에 도시된 S1213 단계를 보다 상세히 도시한 도면이다. 이하, 도 16을 참조하여, 본 발명의 다른 일실시예에 따라, 도 12에 도시된 S1213 단계를 보다 상세히 설명하면 다음과 같다.

본 발명의 다른 일실시예에 의한 서버는, 상기 필터링된 특정 쿼리가 복수개 존재하는 경우, 각각의 쿼리가 발생한 횟수에 비례하여 랭킹을 부여하고(S1600), 그리고 상기 랭킹에 대한 정보를 포함하는 리포팅 데이터를 생성하여 상기 네트워크 TV로 전송한다(S1601).

이와 같이 설계된 본 발명의 일실시예에 의하면, 임의의 프로그램에 포함되어 있는 오디오에서 음성 인식을 수행함으로써, 현재 화면과 스피커를 통해 출력되는 내용에 대한 데이터를 실시간으로 검색할 수 있는 장점이 있다.

또한, 본 발명의 다른 일실시예에 의하면, 특정 방송국 및 방송 시간대에 따른 우선 순위를 가변적으로 적용하여, 음성 인식된 단어의 빈도와 중요도를 판별하고, 히트된 관련 정보의 랭킹 정보를 이용하여 보다 정확한 키워드를 사용자에게 제공할 수가 있다.

그리고, 본 발명의 또 다른 일실시예에 의하면, 스마트 TV의 검색 속도를 매우 개선할 수가 있다. 기존의 PCM 음성 신호 정보는 상대적으로 매우 많은 데이터량을 가지고 있으므로, 인터넷 전달 과정이 느리게 되어 결과적으로 인식 반응 속도가 느려지는 한계가 있었다. 그러나, 본 발명의 또 다른 일실시예에 의하면, 상대적으로 매우 적은 량의 정보를 가지는 특징 추출값을, 인터넷을 통해 전달하므로 고속으로 검색 엔진이 동작하는 장점이 있다.

그리고, 당해 명세서에서는 물건 발명과 방법 발명이 모두 설명되고 있으며, 필요에 따라 양발명의 설명은 보충적으로 적용될 수가 있다.

본 발명에 따른 방법 발명은 모두 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

300, 400, 500 : 네트워크 TV
310, 410, 510 : 서버

Claims

방송 음성 인식 서비스를 제공하는 네트워크 TV에 있어서,
오디오 및 비디오 데이터를 포함하는 방송 데이터를 수신하는 방송 네트워크 인터페이스 모듈;
상기 비디오 데이터를 디코딩 하는 비디오 디코더;
상기 오디오 데이터를 디코딩 하는 오디오 디코더;
상기 디코딩된 오디오 데이터에서 음성 신호를 추출하는 제1디텍터;
상기 추출된 음성 신호에서 특징값을 추출하는 제2디텍터;
상기 추출된 특징값을 외부 서버로 전송하는 전송부; 그리고
상기 외부 서버로부터 수신한 리포팅 데이터가 디스플레이 되도록 제어하는 제어부
를 포함하는 방송 음성 인식 서비스를 제공하는 네트워크 TV.
제1항에 있어서,
상기 제1디텍터는,
상기 오디오 데이터를 분석하여 중앙에 위치한 주파수 대역의 PCM(Pulse Code Modulation) 신호를 추출하고, 그리고
상기 추출된 PCM 신호에서, 일정 범위를 초과하는 PCM 신호를 필터링하는
방송 음성 인식 서비스를 제공하는 네트워크 TV.
제2항에 있어서,
상기 제2디텍터는,
상기 필터링된 PCM 신호를 프레임 단위로 분리하고,
상기 분리된 PCM 신호를 주파수 도메인으로 변환시키고,
상기 변환된 주파수 도메인을 분할하고,
분할된 주파수 도메인 각각의 에너지를 계산하고, 그리고
상기 계산된 에너지를 DCT(Discrete Cosine Transform) 변환하여 구해진 MFCC(Mel Frequency Cepstral Coefficient) 를 특징값으로 출력하는
방송 음성 인식 서비스를 제공하는 네트워크 TV.
제1항에 있어서,
상기 리포팅 데이터는,
상기 추출된 특징값에 대응하는 키워드를 포함하는 방송 음성 인식 서비스를 제공하는 네트워크 TV.
제4항에 있어서,
상기 제어부는,
상기 키워드가 선택된 경우, 상기 키워드에 해당하는 웹사이트에 액세스 하도록 제어하고, 그리고
상기 액세스한 웹사이트로부터 인터넷 데이터를 수신하도록 제어하는
방송 음성 인식 서비스를 제공하는 네트워크 TV.
제4항에 있어서,
상기 제어부는,
상기 키워드가 복수개인 경우, 상기 복수개의 키워드를 중요도에 따라 분류하도록 제어하고, 그리고
상기 분류된 복수개의 키워드가 차별적인 형태로 디스플레이 되도록 제어하는
방송 음성 인식 서비스를 제공하는 네트워크 TV.
제1항에 있어서,
상기 네트워크 TV는,
스마트 TV, 인터넷 TV 또는 HBBTV 중 어느 하나에 대응하는
방송 음성 인식 서비스를 제공하는 네트워크 TV.
방송 음성 인식 서비스를 제공하는 서버의 제어 방법에 있어서,
네트워크 TV로부터, 방송 데이터의 음성 신호에서 추출된 특징값을 수신하는 단계;
상기 수신된 특징값에 대응하는 적어도 하나 이상의 쿼리를 생성하는 단계;
상기 생성된 적어도 하나 이상의 쿼리 중에서, 중요도에 따른 기준을 만족하는 특정 쿼리를 필터링 하는 단계; 그리고
상기 필터링된 특정 쿼리에 대한 리포팅 데이터를 상기 네트워크 TV로 전송하는 단계
를 포함하는 방송 음성 인식 서비스를 제공하는 서버의 제어 방법.
제8항에 있어서,
상기 필터링 하는 단계는,
일정한 시간 동안 쿼리가 발생한 횟수에 비례하여 특정 쿼리로 선정하는 방식을 이용한
방송 음성 인식 서비스를 제공하는 서버의 제어 방법.
제8항에 있어서,
상기 필터링된 특정 쿼리가 복수개 존재하는 경우,
상기 전송하는 단계는,
각각의 쿼리가 발생한 횟수에 비례하여 랭킹을 부여하는 단계; 그리고
상기 랭킹에 대한 정보를 포함하는 리포팅 데이터를 상기 네트워크 TV로 전송하는 단계
를 포함하는 방송 음성 인식 서비스를 제공하는 서버의 제어 방법.
제10항에 있어서,
상기 랭킹에 대한 정보를 포함하는 리포팅 데이터를 상기 네트워크 TV로 전송하는 상기 단계는,
상기 랭킹에 따라, 상기 쿼리에 대응하는 키워드의 표시 영역이 비례하는 리포팅 데이터를 상기 네트워크 TV로 전송하는 방송 음성 인식 서비스를 제공하는 서버의 제어 방법.
제8항에 있어서,
상기 특징값은,
PCM(Pulse Code Modulation) 신호가 DCT(Discrete Cosine Transform) 변환에 의해 구해진 MFCC(Mel Frequency Cepstral Coefficient)에 대응하는 방송 음성 인식 서비스를 제공하는 서버의 제어 방법.