KR20080080028A - 컨텐트 메터데이터로부터 정보를 추출하기 위한 방법 및장치 - Google Patents

컨텐트 메터데이터로부터 정보를 추출하기 위한 방법 및장치 Download PDF

Info

Publication number
KR20080080028A
KR20080080028A KR1020080017738A KR20080017738A KR20080080028A KR 20080080028 A KR20080080028 A KR 20080080028A KR 1020080017738 A KR1020080017738 A KR 1020080017738A KR 20080017738 A KR20080017738 A KR 20080017738A KR 20080080028 A KR20080080028 A KR 20080080028A
Authority
KR
South Korea
Prior art keywords
information
user
content
rules
rule
Prior art date
Application number
KR1020080017738A
Other languages
English (en)
Other versions
KR101472931B1 (ko
Inventor
프리양 라토드
투엉 뉴엔
아누기타 군지타파탐
미툰 세사기리
알란 메세르
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US11/789,609 external-priority patent/US8209724B2/en
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of KR20080080028A publication Critical patent/KR20080080028A/ko
Application granted granted Critical
Publication of KR101472931B1 publication Critical patent/KR101472931B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/68Systems specially adapted for using specific information, e.g. geographical or meteorological information
    • H04H60/73Systems specially adapted for using specific information, e.g. geographical or meteorological information using meta-information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • H04H60/48Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for recognising items expressed in broadcast information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/432Content retrieval operation from a local storage medium, e.g. hard-disk
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4345Extraction or processing of SI, e.g. extracting service information from an MPEG stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4348Demultiplexing of additional data and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4668Learning process for intelligent management, e.g. learning user preferences for recommending movies for recommending content, e.g. movies

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 컨텐트 메터데이터로부터 관련 정보를 추출하기 위한 방법 및 장치에 관한 것이다.
본 발명에 의한 컨텐트 메터데이터로부터 관련 정보를 추출하기 위한 방법은
사용자의 컨텐트 액세스를 모니터링하는 단계, 액세스된 컨텐트에 대한 메터데이터를 획득하는 단계, 정보 추출을 위해 1 세트의 추출 룰들을 선택하는 단계, 선택된 추출 룰들에 기반하여 컨텐트의 메터데이터로부터 키 정보를 추출하는 단계를 포함한다. 또한 상기 방법은 추가적으로 컨텐트의 타입을 결정하는 단계 및 컨텐트의 타입을 참조하여 1 세트의 추출 룰들을 선택하는 단계를 더 포함할 수 있다.
본 발명에 의한면 키 정보를 참조하여 이용 가능한 자원들을 검색함으로써 사용자에 의해, 액세스된 컨텐트와 관련된, 사용자의 잠재 관심 정보를 획득할 수 있다.

Description

컨텐트 메터데이터로부터 정보를 추출하기 위한 방법 및 장치{Method and device for extracting information from content metadata}
본 발명은 사용자에게 관련 정보를 제공하는 것에 관한 것으로, 특히 사용자에게 관련 정보를 제공하기 위해서 컨텐트의 메터데이터를 이용하는 것에 관한 것이다.
TV(TV)는 일반적인 오락(entertainment) 수단의 하나이며, 널리 보급된 가정용 오락 매체이다. 인터넷 기타 다른 홈 네트워크 장치들 상에서 얻을 수 있는 정보의 양이 급증하면서, 인터넷이나 다른 소스들로부터 사용자가 원하는 적절한 관련 정보를 검색하는 방법이 필요하게 되었다. 이러한 관련 정보 중에는 TV를 통해 사용자가 액세스하는 컨텐트에 관련된 정보도 포함된다. 이러한 정보는 사용자가 관심을 갖을 만한 정보이다(potential information).
그러나 기존의 TV 신호들은 컨텐트와 관련된 충분한 메터데이터를 공급하지 못하고 있기 때문에 사용자가 컨텐트에 관련된 정보를 찾는데 어려움을 겪고 있다. 비록 많은 국가에서 TV 컨텐트 공급자들은 TV 신호에 클로즈드 캡션(closed caption)를 심어(embed) 공급하도록 되어 있지만, 많은 TV 채널들은 각각 스포츠 경기, 소프 오페라(soap opera), 영화, 시트콤, 뉴스, 다큐먼터리, 공익 광고(infomercials), 리얼리티 TV(reality TV) 등 다양한 종류의 컨텐트을 전송한다. 이들 각각은 그 클로즈드 캡션에 서로 다른 종류(type)와 양의 유용한 컨텐트을 포함한다.
사용자가 리소스(resource) 네트워크 상에 존재하는 정보를 획득하기 위한 접근 방식에는 여러 가지가 있다. 그 중 하나는 사용자가 정보를 요청하는 것이다. 다른 접근 방식으로는 사용자가 키워드를 제공하여 정보를 특정하고 상기 사용자의 요구를 충족시킬 수 있는 정보들을 찾기 위해 정보들을 브라우징(browse)하는 것이다. 그러나 CE 장치들처럼 키보드가 없는 장치들을 가지고 키워드를 지정(specify)하는 것은 지루하고 성가신 작업이 될 수 있다.
이러한 종래의 접근 방식은 사용자의 관심사에 대해 분석를 통해 정보를 획득하는 방식을 택하지 않고 있다. 또한 정보 소스들을 특정하지도 않는다. 따라서 사용자에게 관련 정보를 제공하기 위한 방법 및 시스템으로서 액세스된 컨텐트의 타입(type)을 고려하는 적응적(adative) 검색 방식이 필요하다.
본 발명이 해결하고자 하는 과제는 상기한 종래 기술의 문제점을 극복하고 사용자의 편리성을 높여 줌과 동시에 컨텐트의 성질을 고려한 최적의 키 정보 추출 방법 및 시스템을 제공하는 것이다.
본 발명은 컨텐트 메터데이터로부터 관련된 정보를 추출하기 위한 방법 및 시스템을 제공한다. 하나의 실시예에서 이것은 특정한 정보 소스들로 한정하지 않으면서 클로즈드 캡션 정보의 분석을 포함하고 사용자 관심 정보를 획득하는 것을 포함한다. 이러한 액세스 방식은 전자 장치의 사용자에게 잠재 관심 정보(사용자가 관심을 갖을 만한 정보)에 액세스할 수 있도록 해 주는데 유용하다. 구체적으로 사용자의 장치와의 대화(interaction)를 모니터링하여 사용자가 액세스한 정보를 식별(또는 인식)하며, 그 식별된 정보를 참조하여 키 정보를 결정하는데 상기 식별된 정보는 클로즈드 캡션 정보를 포함하고 상기 키 정보를 참조하여 사용자 잠재 관심 정보를 가진 유용한 소스들을 검색하는 것을 포함한다. 이용 가능한 소스들을 검색하는 것은 질의어을 생성하고 상기 질의어를 이용하여 인터넷과 같은 외부 네트워크를 검색하는 것을 포함한다.
이러한 전자 장치의 하나의 예를 들자면 클로즈드 캡션 정보를 포함하는 TV 프로그램을 수신하는 TV와 같은 CE 장치이다. 사용자가 액세스(또는 열람)하는 TV 프로그램의 클로즈드 캡션 정보는 분석을 거친 후 그로부터 키 정보(예: 키워드/ 구(phrases))가 추출된다. 상기 키 정보는 인터넷 검색 엔진들과 같은 검색 엔진들을 이용하여 검색을 수행하는데 이용된다. 상기 검색 결과는 추천 (recommendation) 형식으로 사용자에게 제공되는데, 이는 사용자의 잠재 관심 정보(information of potential interest)를 표시한다. 사용자는 추가 정보 및/또는 보다 정확한(refined) 정보를 검색하기 위해 상기 추천 정보들 중에서 선택을 할 수 있다.
본 발명은 더 나아가 컨텐트의 타입에 기초하여 컨텐트의 메터데이터로부터 정보를 추출하는 방법을 제공한다. 일 실시예에서 이것은 액세스되는 컨텐트의 타입의 변화에 따라 적합하도록 키워드를 변경하는 것을 포함한다. 다시 말해 TV 프로그램들과 같은 컨텐트에 관련된 키워드들을 (클로즈드 캡션과 같은 메터데이터 소스들로부터) 추출하는 것은 컨텐트의 장르(genre)(또는 카테고리)에 기초하여 적응적(adaptive)으로 수행된다. 따라서 클로즈드 캡션으로부터 키워드 추출하는 것은 TV 프로그램들에 대한 EPG 정보에 따라 변경된다. EPG는 TV 프로그램들의 장르를 나타내는데 클로즈드 캡션으로부터 키워드를 추출하는 것은 상기 EPG 장르 정보를 이용하여 파라미터화(parameterized)된다.
EPG 정보에 기초한 TV 프로그램의 장르는 TV 프로그램의 클로즈드 캡션으로부터 추출할 키워드의 종류를 결정하는데 이용된다.
이하 발명의 상세한 설명, 특허청구범위 및 첨부 도면을 참조하여 본 발명에 의한 본 발명의 특징들, 측면들 그리고 장점들은 자세히 설명하기로 한다.
본 발명에 의한 정보 추출 시스템에 의할 경우 시스템이 자동으로 사용자으이 컨텐트 시청 패턴을 모니터링하고 분석하여 사용자 관심에 관련된 적절한 키워드를 제시하여 줌으로써 사용자의 편의성을 높여준다. 특히 일반적인 CE 장치들은 키보드를 구비하고 있지 않아 사용자가 컨텐트 검색을 위해 키워드 입력을 하는데 있어 매우 어려움을 겪고 있다는 사실을 고려할 때 본 발명에 의해 사용자 편의성의 증대는 현저한 것이라 할 수 있다.
또한 본 발명에 의한 정보 추출은 컨텐트에 대한 다양한 정보를 포함하고 있는 클로즈드 캡션 정보(및 EPG)를 이용함은 물론, 컨텐트의 타입을 고려하여 키 정보 추출 방식을 적응적으로 조정함으로써 사용자에게 최적의 키워드를 제공할 수 있다.
본 발명은 컨텐트 메터데이터로부터 정보를 추출하기 위한 방법 및 시스템을 제공한다. 본 발명은 더 나아가 컨텐트의 타입(장르, 카테고리)의 변화에 따라 적응적(adaptive)으로 메터데이터 소스들로부터 정보를 추출하는 방식을 변경하는 것을 가능하게 해준다. 본 발명에 의한 일 실시예에서는, 특정한 정보 소스들에 구애 받지 않고, 사용자의 관심 정보를 획득하고 분석하는 방법 및 시스템을 제공한다. 사용자는 외부 네트워크에 접속된 근거리 통신망(local area nerwork) 내의 장치와의 대화(interaction)을 하게 되는데 이러한 대화를 모니터링(monitoring)함으로써 사용자가 관심을 갖을 만한 잠재 정보(potential information)를 결정할 수 있다. 인터넷에 접속된 근거리 통신망(예: 홈 네트워크)를 구성하는 장치의 예로는 CE가 있다. 일 실시예에서는 본 발명은 클로즈드 캡션 정보를 포함하는 클로즈드 캡션 TV 프로그램밍을 수신하고 사용자 관심사를 나타내는 키 정보(key information)를 얻기 위해 클로즈드 캡션 정보를 분석하는 것을 포함한다. 상기 키 정보는 인터넷과 같은 정보 소스들로부터 (사용자가 잠재적으로 관심을 갖을 만한) 관련 정보를 검색하는데 이용된다.
TV와 같은 전형적인 CE 장치는 키보드를 포함하지 않기 때문에 사용자는 인터상의 정보를 검색하기 위해 키워드을 입력하는데 있어 곤란을 겪는다. 만약 사용자가 하나의 TV 프로그램을 시청하고 있다면 그것은 사용자가 그 TV 프로그램의 컨텐트에 관심을 갖고 있다는 사실을 말해준다. 그러므로 TV 프로그램의 컨텐트를 분석하기 위해 TV 프로그램에 대한 클로즈드 캡션 정보로써 수신한 텍스트를 수집하고 분석하게 된다. 더 나아가 컨텍스트 정보(contextual information)는 시청 중인 채널에 대한 정보로부터 수집할 수 있다. 클로즈드 캡션 정보 및 컨텐스트 정보는 결합된 후 사용자 잠재 관심 정보에 대해 사용자에게 추천하는데 이용된다.(여기서 사용자 잠재 관심 정보란 사용자가 잠재적으로 관심을 갖을 만한 정보를 의미한다.)
이렇게 수집된 정보는 사용자의 잠재 관심에 대한 하나 이상의 키워드를 결정하는데 이용할 수 있다. 이 키워드들은 다시 인터넷 상의 관련 정보를 검색하는데 이용할 수 있다. 예를 들면 만약 사용자가 볼티모어(Baltimore)를 포함하는 뉴스 취재(news coverage)를 시청하고 있다고 할 때, 단어 "볼티모어"는 키워드로서 추출된다. 이제 이 단어는 질의어로서 채택되어 검색 엔진을 통한 인터넷 검색에 이용된다. 가령 볼티모어 시(city) 또는 볼티모어 레이븐스(Baltimore Ravens)에 대한 정보를 포함하는 웹사이트들을 검색하는데 이용된다.
검색 결과는 추천(recommondations) 형식으로 사용자에게 제공된다. 이 추천 항목들은 잠재적인 검색 질의어들을 포함하므로 사용자는 이 질의어들 중 하나를 선택하여 자신의 관심 정보를 인터넷 상에서 재차 검색하는데 이용할 수 있다. 예를 들면 사용자가 TV 상에서 남극(Antarctica)에 관한 다큐먼터리를 시청하는 동안에는 "남극"이 키워드로 선택될 것이며 이 키워드를 이용한 인터넷 검색 결과로서 "북극 곰(polar bears)"이 잠재적인 관심의 추천 항목으로 사용자에게 제공될 수 있다. 이 경우 사용자는 북극 곰에 대한 더 많은 정보를 얻기 위해 이 추천 항목을 선택할 수 있다. 만약 그럴 경우 북극 곰에 대한 질의어가 검색 엔진으로 전송되고 그 검색 결과가 재차 사용자에게 디스플레이된다.
검색은 미리 설정된 숫자 또는 고정된 숫자의 카테고리, 질의어 또는 정보 소스에 국한되지 아니한다. 예를 들어 키워드는 검색을 위한 클로즈드 캡션 정보에 따라 식별된다. 키워드들은 사용자에게 제안되며 사용자가 이들 중에서 선택을 하게 되면 검색 엔진이 이를 이용하여 추가 정보를 얻게 된다. 검색 엔진은 하나 이상의 특정한 웹사이트와 같이 미리 설정된 및/또는 고정된 숫자의 소스들(sources)이 아닌, 인터넷 상의 이용 가능한(available) 소스들(검색엔진이 이용 가능한 웹사이트와는 다른)을 검색한다.
도 1은 본 발명에 의한 네트워크, 가령 로컬 네트워크(예: 홈 네트워트, 근거리 통신망(LAN))의 기능적 아키텍처(functional architecture)를 보여준다.
네트워크(10)는 인터넷(50) 상의 관련 정보를 찾기 위해 TV 클로즈드 캡션 정보를 분석하기 위한 프로세스(또는 방법)를 구현한다. 네트워크(10)는 전자 장치들(20)을 포함하는데, 그 예로는 컨텐트을 포함하는 전기 제품(appliance) 및 컨텐트을 포함하는 CE 장치(consumer electronics devices)들(30)(예: TV, DVD 플레이어, 휴대전화, PDA)이 있다. 이 네트워크(10)는 네트워크(10)를 외부 네트워크(예: 다른 로컬 네트워크, 인터넷)(50)에 접속하기 위한 인터페이스(40)를 더 포함한다. 외부 네트워크(50)는 하나 이상의 서버들(51)에 접속된다. 장치들(20, 30)은 그들 간의 통신 프로토콜로서 UPnP(Universal Plug and Play)를 지원할 수 있다. 실시예에 따라서는 본 발명이 통신 프로토콜로서 상기 UPnP 이외의 다른 네트워크 통신 프로토콜들(예: Jini, HAVi, IEEE 1394)을 채택할 수 있다는 것은 이 기술 분야의 당업자에게 자명한 것이다. 더 나아가 상기 네트워크(10)는 유선 네트워크 또는 무선 네트워크일 수 있으며 더 나아가 유/무선 결합 네트워크의 형태일 수도 있다.
앞에서 상술한 바와 같이 본 발명의 일 실시예에 의하면 TV 클로즈드 캡션 정보를 분석하고 사용자에게 관심 정보를 제안하는 방법은 도 1의 CE 장치(30)에 의해 구현될 수 있다.
TV 클로즈드 캡션 정보 분석 프로세스를 수행할 시스템은 입력으로서 TV 신호를 수신한다. 사용자가 시청하는 채널들은 계속해서 모니터링(monitoring)되며, TV 신호의 일부인 클로즈드 캡션 정보는 분석된다. 그 다음 사용자가 시청하고 있는 TV 프로그램의 핵심을 잘 표현해 줄 수 있는 1 세트의 키워드들이 결정된다.
도 2는 본 발명에 의한 예시적인 TV 클로즈드 캡션 정보 분석 시스템(200)의 기능 블록도를 보여준다. 시스템(200)은 채널 모니터(channel monitor)(201), TV 신호-텍스트 변환기(TV signal-text converter)(202), 스탑-워드 필터(stop-word filter)(204), 고유명사 검출기(proper noun detector)(206), 인덱서(indexer)(208), 사전(dictionary)(210) 및 키워드 추출기(keyword extractor)(212)를 포함한다.
모니터(201)는 TV/케이블 신호를 모니터하며 사용자에 의해 액세스/시청되는 채널 정보를 결정한다. 이 정보는 컨텍스트(context)를 캡처한 단어들을 추출하기 위해 분석되어지는 클로즈드 캡션 정보를 포함한다(도 3A, 프로세스 300). 프로세스 300은 다음과 같은 단계들을 포함한다:
단계 302: 변환기(202)는 공지된 변환 방법을 이용하여 클로즈드 캡션 정보를 텍스트로 변환한다.
단계 304: 스탑-워드 필터는 텍스트 중에 포함된 스탑 워드들을 제거한다. (스탑-워드란 "of", "on", "the" 등과 같이 그 자체로는 의미를 갖지 않는 단어를 의미한다.)
단계 306: 고유명사 검출기(206)는, 대/소문자 구별 정보(case information)가 없을 경우, 남은 텍스트에 포함된 각 단어들을 사전(210)과 비교함으로써 고유명사를 검출한다.
전형적으로 고유명사는 대문자로서 시작한다. 다른 경우에는 획득된 텍스트는 대/소문자 구별이 필요 없다. 사전(210)은 고유명사가 아닌 단어들을 포함한다. 만약 처리 중인 단어가 사전에 존재하지 않는 경우 그 단어는 고유명사로 가정된다. 고유명사는 사람, 장소 또는 사물의 특유한 이름에 대한 것이므로 유용한 컨텍스트 정보(contextual information)를 제공해 준다. 따라서 고유명사로 판명된 단어들은 고유명사 검출기(206)에 의해 태킹되며(tagged) 나중에 등급을 결정하게 된다.
단계 308: 고유명사 검출기(206)는, 대/소문자 정보가 없는 경우, 각 단어의 첫번째 단어의 대/소문자 여부를 기준으로 단어의 고유명사 여부를 결정한다. 고유명사 검출기에 의해 검출된 고유명사는 추후 등급 결정(ranking)을 위해 태킹(tagging)된다.
단계 310: 나머지 단어들 및 그들의 출현 횟수(또는 빈도(frequency))는 인덱서에 의해 기록된다. 더 자주 출현하는 단어가 중요한 단어라고 볼 수 있으므로 이 단어들로부터 키워드들이 선택될 것이다. 채널 전환이 있거나, 클로즈드 캡션 정보로부터 획득된 텍스트에 포함된 특별한 단어들을 통해 주제 전환이 있다는 사실이 밝혀지면 상기 단어들에 대한 기록은 리셋(reset)된다.
단계 312: 인덱서는 n 초 윈도우(n second window) 동안 식별된 단어(예: n 초의 시간 동안 수신된 단어들)들을 유지(또는 저장)한다. 또한 인덱서는 단어들의 빈도 및 고유명사 관련 정보들을 유지한다. 예를 들면 n=10초인 경우, 이 윈도우(window)은 지난 10초 동안 수집한 단어들을 포함하고 있다. 단계 310에서 인덱싱된(indexed) 키워드들은 현재 시청 중인 TV 프로그램/스토리(story) 등의 전체를 커버(cover)한다. 반면 이 단계에서 언급된 키워드들은 지난 n 초 동안 수집된 TV 프로그램/스토리 등을 커버한다.
단계 314: 키워드 추출기는 모든 단어들의 빈도를 이용하여 지난 n 초 동안 수집된 모든 단어들로부터 관심 단어(예: 키워드)들을 추출한다.
단계 316: 질의어 생성 모듈(205)은 상기 키워드들을 이용하여 질의어를 생성/형성한다. 검색 모듈(207)은 상기 질의어를 이용하여 인터넷상의 이용 가능한 자원들(예:검색 엔진들)을 이용하여 검색을 수행한다. 사용자 인터페이스(User Interface) 모듈(203)은 검색 결과를 추천(recommendations) 형태로 사용자에게 표시(또는 제공)된다.
단계 318: 사용자는 다시 이 추천된 항목들 중에서 일부를 선택하게 되는데, 검색 모듈(207)은 선택된 추천 항목을 이용하여 추가적인 사용자의 관심 정보를 검색하기 위해 이용 가능한 리소스들을 검색한다. 검출된 추가 정보는 UI 모듈(203)에 의해 사용자에게 표시된다.
단계 316 및 318은 사용자로 하여금 자신이 최근에 시청한 TV 프로그램에 대한 더 많은 정보를 검색할 수 있도록 해 준다. 사용자가 상기 단계 316-318을 반복하면 할수록 사용자는 보다 더 엄선된(refined) 추가 정보를 획득할 수 있다.
도 3B는 키워드 추출기(212)에 의해 수행되는 다음의 단계들을 구체적으로 보여주는 흐름도이다.
단계 314A: 사용자가 TV 제어 장치(예: 리모콘)의 특정 버튼을 활성화시키면 사용자 행위를 포함하는 사용자 요청을 공급한다. "사용자 요청"이 있게 되면 지난 n 초 동안의 단어들은 키워드 추출기에 의해 최상위 중요도를 갖는 단어들로 분류되어 저장된다(set aside).
단계 314B: 더 나아가 각 단어는 자신의 빈도 및 다른 등급 결정 메커니즘에 기초하여 등급이 정해진다.
단계 314C: 각 단어는, 단계 308 또는 310에서 생성된 태그를 이용하여, 고유명사인지 여부(proper noun status)가 조사된다.
단계 314D: 실시예에 따라서는 고유명사 중 빈도가 높은 단어가 상기 리스트 의 첫 번째 등급을 차지하게 될 것이다. 그런 다음 빈도가 높은 단어들, 그리고 다시 고유명사가 차례대로 다음 등급을 차지할 것이다. TV 프로그램이 시작되고 난 후 식별된 상기 리스트의 상위 i 개의 단어들, 출현 빈도가 높은 단어들 및 고유명사들은 시청자가 시청하고 있는 TV 프로그램의 컨텍스트(context)를 포착(capture)하고 있다고 볼 수 있다. 등급 리스트로부터 얻은 정보는 키워드로서 이용된다. 지난 n 초 윈도우에서 캡처된 단어들은 보다 엄선된 수준(at a finer level of detail)의 컨텍스트를 의미한다. 반면 TV 프로그램 시작 이후 캡처된 것으로서 높은 빈도를 갖는 고유명사들은 보다 높은 수준의 컨텍스트를 나타낸다.
일반적으로 케이블 TV, 위성 TV 방송 등은 TV 프로그램에 대한 정보를 포함하는 EPG 정보를 제공한다. EPG에 포함되어 있는 시청 중인 채널의 명칭은 채널 정보 및 TV 프로그램 정보와 더불어 질의어를 만드는데(frame) 사용된다(단계 316 및 318). 예를 들어 사용자가 BBC America의 TV 프로그램 "파노라마(Panaroma)"를 시청한다고 할 때 "파노라마"와 "BBC America"라는 단어들은 추출된 키워드들에 추가된 후 검색하고자하는 채널 및 TV 프로그램의 컨텍스트에 관련 정보를 공급한다.
더 나아가 추출된 키워드들은 다른 언어로서 변환된 후 인터넷(50) 상의 추가 정보를 검색하기 위해 이용될 수 있다. 또한 문장(sentence)의 경우와는 달리, 키워드의 경우 하나의 언어에서 다른 언어로 변환하는 것이 간단하고 언어-언어(language to language) 사전을 이용하여 변환될 수 있다. 이러한 방식은 시청자가 시청 중인 TV 프로그램에 담긴 언어의 적은 부분만을 이해하는 경우 유용하다.
도 4는 본 발명에 따라 인터넷 상의 관련 정보를 검색하기 위해 TV 클로즈드 캡션 정보를 분석하기 위한 시스템의 또 다른 실시예에 대한 기능 블록도(400)를 보여준다. 시스템(400)은 도 2의 시스템(200)의 변형된 형태인데 키워드 이외에 구(phrase)를 식별(identify)하기 위한 구 추출부(214)를 더 포함한다. 키워드("볼티모어", "레이븐스") 대신 구를 이용한다면 "볼티모어 레이븐스"가 한 예가 될 수 있다.
이 실시예에서는 키워드 추출기(212)는 키워드를 추출하기 위해 고유명사 검출기 및 인덱서로부터 얻은 정보에만 의존하지 않고 구 추출기(214)로부터도 얻은 정보도 함께 이용한다.
구 추출기(214)는 구 식별 기능(phrase identification function)를 포함하는데 이 기능(또는 함수)는 1 세트의 룰들(rules)과 함께 인덱서에 의해 기록된 주파수 및 병발(co-occurence) 정보를 이용하여 중요한 구들을 식별한다. 이것은 "국제 연합(United Nations)", "알 카에다(Al Qaeda)" 등과 같은 복수 단어로 구성된 구들을 식별하는데 있어 중요하다.
수집된 클로즈드 캡션 텍스트는 먼저 구 추출기를 거치는데 이 과정에서 구들이 캡처되며, 캡처된 구들은 인덱싱(indexing)된다. 구 추출기는 내부적으로 3 개의 리스트를 포함하는데 이들은 각각 고유명사 리스트, 사전 및 스톱-워드 리스트이다. 구 추출기는 구 추출을 위해 N-그램(gram)에 기초한 액세스 방식을 택한다. 이 액세스 방식은 개념적으로 설명하며 다음과 같다. N개 단어 길이(length of N words)를 갖는 구들을 캡처하기 위해 N 크기의 윈도우를 텍스트 에 대해 슬라이딩(slide)시켜 가능한 모든 (N 단어 길이의) 구들이 수집한다. 그런 다음 이 구들로부터 무의미한 구들을 제거(filtering out)하기 위해 다음의 1 세트의 룰들(rules)을 거치게 된다.
1. 구두점(punctuation)으로 끝나는 단어는 구(phrase)의 중간에 위치할 수 없다.
2. 2 단어 이상의 길이를 가진 구의 경우 첫 번째 단어는 정관사 "the" 및 부정관사 "a/an" 이외의 스톱-워드가 될 수 없다. 나머지 단어들은 접속(conjunctive) 스톱-워드(예: "the", "on", "at", "of", "in", "by", "for", "and", etc) 이외에는 스톱-워드가 될 수 없다. 이것은 상기한 스톱-워드들은 종종 2 이상이 결합되어 사용되기 때문이다(예: "war on terror", "wizard of oz", "the beauty and the beast", etc).
3. 고유명사와 사전에 존재하지 않는 단어들은 의미 있는 구로서 취급된다.
실시예에 따라서는, 도 2 및/또는 도 4의 인터넷/검색 엔진(50)을 제외한 모든 구성요소들은 CE 장치(예: 30)에 속한다. 다른 실시예에서는 도 2 및/또는 도 4의 다른 구성 요소들은 CE 장치에 속하는 반면, 인터넷/검색 엔진(50)은 인터넷 상에 존재하며, 사전 210은 네트워크(로컬 또는 인터넷) 상에 존재할 수 있다.
비록 여기서 제시된 실시예들에서는 클로즈드 캡션 정보를 수신하기 위한 장치로 TV를 예로 들었지만 본 발명은 정보를 수신하여 분석하고 이 결과를 이용해 사용자 관심 정보를 검색하기 위해 다른 장치들(예: 음악 재생 장치)에게도 적용될 수 있다. 더 나아가 비록 도 1에서는 클로즈드 캡션 정보를 포함하는 TV 프로그램밍을 수신하기 위해 CE 장치(30)는 홈 네트워크에 연결되는 것으로 구성되어 있다. 하지만 실시예에 따라서는 CE 장치는 독립 장치(stand-alone device)로서 홈 네트워크에 연결할 필요 없이 케이블, 위성 DSL 또는 다른 프로그래밍 소스로부터 프로그래밍을 수신할 수 있다. 이러한 독립 장치는 인터넷(50)에 연결된 것처럼 홈/로컬 네트워크의 도움 없이 정보 소스들에 연결될 필요가 있다.
더 나아가 본 발명은 비 CE 장치(non-DE device)(예: 도 1의 장치(20)) 내에 구현될 수도 있으며 독립장치일 수도 있고 또는 홈/로컬 네트워크에 접속될 수도 있다. 더 나아가 비록 본 실시예에서 사용자 관심 정보의 분석 및 결정을 위해 클로즈드 캡션 정보가 이용되지만 다른 실시예에서는 본 발명은 프로그래밍의 타입이나 사용자가 액세스/시청한 컨텐트의 타입을 나타내는 다른 타입의 정보에도 적용될 수 있다.
구 추출기는 인덱스로부터 최고 점수의 용어 및 구들을 추출하는데 쓰이는 용어 추출기 기능(또는 함수)을 포함한다. 이렇게 추출된 용어들과 구들은 사용자에게 제시되며 그리고 사용자에게 추가 관심 정보를 공급하기 위한 추가 검색을 하는데 이용될 수 있다.
대체적으로(alternatively) 구 추출기(214)는 중요한 구들을 추출하기 위해 자연어 프로세싱(natural language processing)(NLP) 태거(tagger) 및 1 세트의 추출 룰(rules)들을 포함한다. 동작 중 NLP 태거는 클로즈드 캡션 텍스트 내의 각 단어를 자신의 부분 스피치(part-of-speech)(예: 단어가 "명사", "형용사", "고유명 사" 등 중에서 어느 것인지)와 태킹한다. 추출 룰들은 중요한 일련의 태그들의 시퀀스의 종류(the kinds of sequences)를 정의한다. 예를 들면 하나의 룰은 "하나 이상의 '명사들' 시퀀스"인 구들을 추출하기 위한 것일 수 있으며, 다른 룰은 "하나 이상의 '명사'들 뒤를 따라 붙는 형용사들의 시퀀스"를 추출하기 위한 것일 수 있다. 구 추출기는 이러한 룰들을 부분 스피치 태거에 의해 태깅된 텍스트에 적용될 수도 있고 이러한 시퀀스들 뒤를 따라 붙는 구들을 추출하기도 한다. 적합한 룰들을 이용함으로써 홑 단어( single word) 키워드들을 추출하는데 이용될 수도 있다. 더 나아가 키워드 추출기(212) 및/또는 구 추출기(214)는 적응적인 키워드/구 추출을 위해 1세트의 룰들을 사용할 수 있다.
이상 상기 예들에서 컨텐트 메터데이터의 정보는 메터데이터 소스들로부터 추출된다. 추출된 정보(예: TV 프로그램들의 클로즈드 캡션으로부터 얻은 의미 있는 키워드들)는 컨텐트(예: TV 프로그램)에 관련된 추가 정보를 인터넷 등의 소스들로부터 획득하기 위해 검색 질의어로써 이용된다.
다른 실시예에서는 본 발명은 컨텐트의 타입(장르 또는 카테고리)에 기초하여 컨텐트 메터데이터로부터 키 정보(구/키워드들)를 추출하기 위한 방법 및 시스템을 제공한다.
도 5는 본 발명에 의한 관련 정보를 검색하기 위해 메터데이터를 분석하기 위한 또 다른 프로세스 450의 단계들을 포함하는 흐름도를 보여준다. 그 단계들은 다음과 같다.
단계 452: 사용자의 컨텐트 액세스를 모니터링한다.
단계 454: 액세스된 컨텐트에 대한 메터데이터를 획득한다.
단계 456: 정보 추출을 위해 1 세트의 추출 룰들을 선택한다.
단계 458: 선택된 추출 룰들에 기반하여 컨텐트의 메터데이터로부터 키 정보를 추출한다.
단계 460: 키 정보를 참조하여 이용 가능한 자원들을 검색함으로써 사용자의 잠재 관심 정보를 획득한다.
하나의 실시예에서 이것은 액세스하는 컨텐트의 타입의 변화에 따라 키 정보 추출을 수정하는 것을 포함한다. 예를 들면 메터데이터 소스들(예: 클로즈드 캡션)로부터 컨텐트(예: TV 프로그램)에 관련된 키워드를 추출하는 것은 컨텐트의 장르에 따라 적응적으로 수정된다. TV 프로그램에 대한 클로즈드 캡션 텍스트로부터 키워드를 추출하는 것은 TV 프로그램들에 대한 EPG 정보를 참조하여 수정(또는 조정)된다.
EPG 정보는 TV의 장르에 대해 알려준다. 따라서 클로즈드 캡션으로부터의 키워드 추출은 EPG 장르 정보를 이용하여 파라미터화(parameterized)된다. EPG 정보에 기초한 TV 프로그램의 장르(카테고리)는 TV 프로그램의 클로즈드 캡션으로부터 추출할 키워드의 종류(kind)를 결정하는데 이용된다. 위와 같은 방식으로 먼저 현재 시청 중인 TV 프로그램의 장르를 EPG 정보로부터 획득된다. 그리고 장르 정보는 클로즈드 캡션으로부터 추출할 (사용자(시청자)의 잠재 관심 정보를 획득하는데 있어 유용한 것으로 판단되는) 키워드들의 종류를 결정하는데 이용된다.
만약 TV 프로그램이 뉴스와 같은 사실(factual) TV 프로그램(또는 high content)인 경우 키워드들은 상대적으로 더 적극적으로 선택될 것이며, 결과적으로 더 많은 키워드들이 추출될 것이다. 반면 만약 TV 프로그램이 소프 오페라(soap opera)라면 키워드들은 매우 신중하게 추출될 것이다. 즉 사용자 잠재 관심 정보를 획득하는데 유용할 가능성이 매우 높아 보이는 것으로 판단되는 키워드들만이 추출된다. 위와 같이 키워드 추출 룰들은 TV 프로그램의 장르에 따라 수정된다.
도 6은 본 발명에 의한 키 정보 추출기의 기능 블록도를 보여준다. 이 키 정보 추출기는 액세스된 컨텐트의 장르(506)를 참조하여 컨텐트에 대한 메터데이터 정보(504)로부터 키 정보(단어/구들)(502)를 추출하기 위한 것이다. 추출된 키 정보(502)는 질의어를 생성하는데 이용되며, 이 질의어를 통해 인터넷으로부터 사용자 관심과 관련된 정보를 찾는데 이용된다. 이 추출기는 키 정보를 추출함에 있어 시청 중인 컨텐트 TV 프로그램의 장르에 따라 적응적으로(adaptively) 다르게 행동한다.
키 정보 추출기(500)은 토큰화기(508), 태거(510), 룰 엔진(512), 장르 추출기(506) 및 룰 선택기(514)를 포함한다. 토큰화기(tokenizer)(508)는 액세스되는 컨텐트에 대한 메터데이터(예: 텍스트)(504)를 문장(또는 평-텍스트 문장; plain text sentences)으로 토큰화한다. 그러면 태거(tagger)(510)는 문장 내의 각 단어의 컨텍스트를 결정함으로써 이 문장들을 태킹한다. (예를 들어 주어진 단어가 명사, 동사, 전치사 등 중에서 어느 것에 해당하는지 판단한다.) 그 다음 태깅된 문장(태깅된 텍스트)들은 룰 엔진(rule engine)(512)으로 넘겨진다.
장르 추출기(506)는 장르 소스로부터 액세스된 컨텐트의 장르를 추출한다. 룰 라이브러리(rule library)(516)는 여러 가지 룰들의 리스트를 저장한다. 이 리스트는 모든 종류의 다양한 키 정보를 추출하기 위해 이용될 수 있는 룰들을 빠짐 포함하는(exhaustive) 리스트이다. 예를 들어, 룰 라이브러리(516)는 연속적인 고유명사들을 추출하기 위한 룰, 하나의 리스트의 명사들이 뒤를 따르는 형용사(an adjective followed by a list of nouns)를 추출하기 위한 룰 등을 포함한다. 룰 라이브러리(516)에 포함된 룰들과 장르 추출기(506)로부터 얻은 장르는 룰 선택기(514)에 공급된다. 룰 선택기(514)는 하나의 장르를 룰 라이브러리로부터 얻은 1 세트의 룰들에 맵핑한다. 이러한 맵핑 기준은 미리 설정될 수도 있고 학습을 통해 설정될 수도 있다.
룰 선택기는 추출된 장르를 참조하여 태깅된 문장들로부터 키 정보를 추출하기 위해 룰 엔진에 의해 쓰여질 1 세트의 룰들을 선택한다. 룰 엔진(512)은 룰 선택기로부터 1 세트의 룰들을 수신하고 태거로부터 태깅된 텍스트의 문장을 수신한다. 룰 엔진은 이 1 세트의 룰들을 태깅된 텍스트에 적용하여 태깅된 텍스트로부터 키 정보를 추출한다. 상기한 방식으로 얻어진 키 정보는 액세스된 컨텐트에 관련된 정보를 (예를 들면, 인터넷으로부터) 획득하는데 유용한 것으로 판단된다. 획득된 관련 정보는 액세스된 컨텐트을 시청하는 자(사용자)에게 잠재적인 관심 정보가 된다.
만약에 상기 키 정보 추출 프로세스에 의해 얻어진 단어의 수가 많지 않은 경우 (예를 들면 추출 전략이 소극적인 경우)에는 키 정보는 액세스된 컨텐트에 대 한 다른 정보 소스들로부터 추출될 수 있다(가령 시청 중인 TV 프로그램에 대한 EPG 정보).
도 7은 키 정보 추출기의 한 예인 키워드 추출기(600)의 구현예를 보여준다. 이 키워드 추출기는 시청중인 TV 프로그램의 장르(606)에 기초하여 TV 프로그램들의 클로즈드 캡션(CC: Closed Caption)으로부터 키워드들(602)을 추출한다. 차례로 추출된 키워드들(602)은 질의어를 생성하는데 이용되고 이 질의어는 인터넷으로부터 관련된 사용자 관심 정보를 검색하는데 이용된다. 추출기(600)는 키워드를 추출함에 있어서 시청 중인 TV 프로그램의 장르 변화에 따라 적응적으로 다르게 동작하게 된다. 추출된 키워드들은 사용자 관심에 관한 의미 있는 키워드가 될 수 있고, 검색 질의어에 이용될 수 있으며, TV 프로그램들의 주석 달기 등에 이용될 수 있다.
키워드 추출기(600)는 CC 토큰화기(608), 부분 스피치 태거(610), 룰 엔진(612), 장르 추출기(606) 및 룰 선택기(614)를 포함한다. 토큰화기(tokenizer)(608)는 TV 프로그램의 CC 텍스트(604)를 문장(또는 평-텍스트 문장; plain text sentences)으로 토큰화한다. 그러면 부분 스피치 태거(part-of-speech tagger)(610)는 문장 내의 각 단어의 컨텍스트를 결정함으로써 이 문장들을 태킹한다. (예를 들어 주어진 단어가 명사, 동사, 전치사 등 중에서 어느 것에 해당하는지 판단한다.) 그 다음 태깅된 문장(태깅된 텍스트)들은 룰 엔진(rule engine)(612)으로 넘겨진다.
장르 추출기(606)는 EPG 정보 입력(feed)로부터 액세스된 컨텐트의 장르를 추출한다. 룰 라이브러리(rule library)(616)는 다양한 룰들의 리스트를 저장한다. 이 리스트는 모든 종류의 다양한 키 정보를 추출하기 위해 이용될 수 있는 다양한 룰들의 리스트이다. 룰 라이브러리(616)에 포함된 룰들과 장르 추출기(606)로부터 얻은 장르는 룰 선택기(614)에 공급된다. 룰 선택기(614)는 하나의 장르를 룰 라이브러리로부터 얻은 1 세트의 룰들에 맵핑한다. 이러한 맵핑 기준은 미리 설정될 수도 있고 학습을 통해 설정될 수도 있다.
룰 선택기(614)는 추출된 장르를 참조하여 1 세트의 룰들을 선택하며, 룰 엔진(612)은 이 세트의 룰들을 이용하여 태깅된 문장들로부터 키 정보를 추출한다. 룰 엔진(612)은 룰 선택기(614)로부터 1 세트의 룰들을 수신함과 동시에 태거로부터 태깅된 텍스트의 문장을 수신한다. 룰 엔진은 이 1 세트의 룰들을 태깅된 텍스트에 적용하여 태깅된 텍스트로부터 키 정보를 추출한다. 상기한 방식으로 얻어진 키 정보는 액세스된 컨텐트에 관련된 정보를 (예를 들면, 인터넷으로부터) 획득하는데 유용한 것으로 판단된다. 획득된 관련 정보는 액세스된 컨텐트을 시청자(사용자)에게 잠재적인 관심 정보가 된다.
실시예에 따라서는, TV 프로그램에 대한 클로즈드 캡션 텍스트의 스트림(stream)이 계속해서 입력되고 키워드 추출기(600)은 실시간 TV 신호들에 대해 실시간으로 동작한다. CC 토큰화기(tokenizer)(608)은 클로즈드 캡션 텍스트에 포함된 문자들의 문법을 보존하기 위해 클로즈드 캡션 텍스트를 문장으로 분해한다. 이 작업은 문장을 태깅하는데 있어 중요하다. 클로즈드 캡션 글자들(charaters)은 메모리 버퍼에 버퍼링되며, 현재 수신중인 텍스트는 문장의 끝을 검출하기 위해 분석되어 진다(예를 들면 구두점이나 띄워쓰기 등을 모니터링 함으로써). 토큰화기(608)는 구두점을 검출하고 발견적 방법(heuristics)를 이용하여 클로즈드 캡션 텍스트를 문장들로 분해한다. '토큰'이란 문장을 지칭하는 것이다. 발견적 방법의 간단한 예를 하나 들면, 띄워쓰기(space)에 이어서 마침표(.), 의문표(?), 느낌표(!)가 출현하는 경우 문장의 경계(예: 문장의 끝)로 취급하는 방법이 있다. 이 이외에도 다른 모델들도 역시 이용될 수 있다는 것은 당업자에게는 자명하다. CC 토큰화기(608)가 문장의 끝을 발견하게 되면 버퍼를 지우고 수신한 문장을 평-텍스트(plain-text)의 형태로 부분 스피치 태거(part-of speech tagger)(610)에게 공급한다.
부분 스피치 태거(610)는 평-텍스트 문장을 분석한 후 문장 내의 각 단어에 태그를 부여함으로써 태깅된 텍스트를 생성한다. 태그들(tags)이란 부분 스피치 태그들을 지칭하는 것으로 하나의 문장 내의 각 단어들은 하나의 태그를 부여받는데 이 태그는 그 단어가 그 문장 내에서 갖는 의미(sense)를 서술한다(말하자면 그 단어의 부분 스피치). 다음의 태그들의 예이다.
/NNP i.e., Proper Noun
/MOD i.e., Modal Auxiliary Verbs
/NNS i.e., Plural Noun, etc.
브릴의 태거(Brill's tagger)와 같은 룰 기반의 부분 스피치 태거가 이용될 수 있다(Brill, E. 1992. A simple rule-based part of speech tagger. In Processing of the Third Conference on Applied Natural Language Processing, 152-155. Trento, Italy). 부분 스피치를 가진 문장 내의 각 단어를 마킹하는(mark) 다른 태거들도 이용될 수 있다. 예를 들어 만약 태거(610)로 입력된 평-텍스트 문장(plain-text sentence)이 "John Wayne ran home"이라면, 태거(610)로부터 출력된 태킹된 텍스트는 "John<proper noun> Wayne<proper noun> ran<verb-past tense> home<noun>"이 된다. 이것은 나타내는 바는 다음과 같다. 태깅된 텍스트 내의 단어 "John" 및 "Wayne"은 고유명사로서 태깅되고, 단어 "ran"은 과거 시제를 갖는 동사로 태깅되며, 그리고 단어 "home"은 명사로서 태깅된다. 이 태깅된 텍스트는 룰 엔진(612)으로 넘겨진다.
이하, 문장 "John Wayne ran home"이 다큐먼터리 TV 프로그램에서 출현(occurence)하였다고 가정하자. 부분 스피치 태거(610)는 이것을 다음과 같이 태깅한다: "John/NNP Wayne/NNP ran/VBD home/NN
/NNP -> 고유명사(proper noun)
/VBD -> 동사(verb)(past tense;과거 시제)
/NN -> 명사(noun)
이제 예시적인 룰 라이브러리가 위에서와 같이 주어졌다고 가정하자.
연속적인_고유_명사(consecutive_proper_noun) : ((\w+)(/NNP))+
연속적인_단수_명사들(consecutive_singular_nouns) : ((\w+)(/NN))+
명사_접속사_명사(noun_conjunction_noun) : ((\w+)(/NN))+ ((\w+)(/CC))+ ((\w+)(/NN))+
형용사_연속된_명사들(adjective_consecutive_nouns) : ((\w+)(/ADJ))+ ((\w+)(/NN))+
룰 선택기(614)에 따라 '다큐먼터리' 장르에 대한 맵핑은 다음과 같다.
다큐먼터리-> 연속된_고유_명사(Documentary -> consecutive_proper_noun)
다음 상기 룰 '다큐먼터리-> 연속된_고유_명사'가 태깅된 문장에 적용되면, 룰 엔진(612)은 키워드 'John Wayne'을 추출한다.
상기한 바와 같이 룰 라이브러리(616)은 다양한 타입의 키워드들을 추출하는데 이용될 수 있는 룰 리스트를 유지한다. 룰들은 수동으로 룰 라이브러리에 추가된 것일 수도 있고, 선행 학습(pre-learned) 또는 경험적 학습(learned over time)을 통해 얻게 된 것일 수도 있다. 각 룰들은 룰 엔진이 이해할 수 있는 규칙적인 표현(regular expression)이다. 예를 들면, 고유명사들의 연속적인 출현을 포함한 구들을 추출하기 위한 룰은 다음과 같다.
((\w+)(/NNP))+ (1)
여기서"+"는 하나 이상의 출현을 의미하며 "\w"는 하나의 알파벳을 의미한다.
따라서 만약 태깅된 텍스트가 다음과 같이 주어진다면,
Pablo/NNP Picasso/NNP and/CC Vincent/NNP
Van/NNP Gogh/NNP were/VBD artists/NNS (2)
상기 룰 엔진(612)은 룰 (1)을 적용하여 상기 태깅된 문장 (2)로부터 2 개의 키워드 "Pablo Picasso" 및 "Vincent Van Gogh"를 추출한다. 예시적인 룰 라이브러리는 다음의 것이 될 수 있다.
연속적인_고유_명사 : ((\w+)(/NNP))+
연속적인_단수_명사들 : ((\w+)(/NN))+
명사_접속사_명사 : ((\w+)(/NN))+ ((\w+)(/CC))+ ((\w+)(/NN))+
형용사_연속된_명사들 : ((\w+)(/ADJ))+ ((\w+)(/NN))+
.
.
.
룰 선택기에서 이루어진 맵핑은 TV 프로그램의 장르를 룰 라이브러리에 포함된 룰 리스트의 서브세트(subset)에 맵핑하는 장르 맵핑을 포함한다.
뉴스(News) -> 연속적인_고유_명사(consecutive_proper_noun),
연속적인_단수_명사들(noun_conjunction_noun),
형용사_연속된_명사들(adjective_consecutive_nouns)
시트콤(Sitcom)-> 연속적인_고유_명사(consecutive_proper_noun)
.
.
.
장르 맵핑은 다음의 예시적인 단계 (a)-(e)에서와 같이 사용자 연구(user study) 및 그 결과를 분석함으로써 생성될 수 있다.
a. M 명의 사용자에게 N 개의 TV 프로그램의 사본(transcripts)을 읽게 한 후 그들이 좋은(또는 의미있는(significant)) 키워드라고 생각하는 모든 키워드들을 표시하도록 요청한다. M 및 N의 값이 높을 수록 그 키워드는 더 나은 것이다. 다음의 문장을 예를 들어 살펴 보자. "Pablo Picasso and Vincent Van Gogh were artists." 한 명의 사용자가 "Pablo Picasso"."Vincent Van Gogh" 및 "artist를 관심 있는 키워드들로서 선택하였다고 가정하자.
b. 상기 사본(transcripts)을 부분 스피치 태거(610)를 통과시킨다. 상기 문장에 대한 태그들은 다음과 같다:
Pablo/NNP Picasso/NNP and/CC Vincent/NNP
Van/NNP Gogh/NNP were/VBD artists/NNS.
c. 세트 k의 각 키워드에 대해 개별적인 단어들에 할당된 태그들을 추출한다.
마킹된(marked) 단어들에 대한 태그들은 다음과 같다.
Pablo Picasso: /NNP /NNP
Vincent Van Gogh: /NNP /NNP /NNP
Artists: /NNS
d. 앞 단계에서 추출된 각 태그 문장을 룰 엔진(612)이 이해할 수 있는 패턴(pattern)으로 변환한다. 상기 3개의 문장은 다음과 같다.
Pablo Picasso: ((\w+)(/NNP))+
Vincent Van Gogh: ((\w+)(/NNP))+
Artists: (\w+)(/NNS)
e. 상기 시퀀스로부터 고유한 패턴을 선택하고 이것들을 빈도(frequency)에 따라 등급을 매긴다.
((\w+)(/NNP))+ - frequency = 2
(\w+)(/NNS) - frequency = 1
f. 상기 결과로서 얻은 패턴들은 장르 G에 대한 후보 세트 룰(candidate set of rules)이 된다. 룰 세트의 크기를 줄이기 위해서는 최상위 "P" 룰들 또는 "F" 보다 큰 빈도를 갖는 모든 룰들을 장르 G를 위한 최종 룰 세트로서 선택할 수 있다.
상기 맵핑을 생성하기 위한 프로세스는 경험적으로 학습(learned over time)될 수 있다. 단계 (a)에서 사용자가 추출기(600)를 사용할 때마다 그리고 몇몇의 키워드들이 주어질 때마다 만약 사용자가 그들 중 하나를 클릭하면(이것은 사용자가 그 키워드가 유용하다고 생각한다는 것을 의미한다), 그것은 사용자에 의해 마킹된 키워드로서 취급된다. 이 프로세스의 나머지는 상기 단계 (b)-(f)와 같다.만약 최종 룰 세트가 이미 새로이 생성된 룰에 포함되어 있다면 그것은 폐기된다. 상기 룰 선택기(614)에서의 맵핑은 장르 맵핑 이외에도 다른 맵핑들을 포함할 수 있다. 이하에서 설명하는 바와 같이 이러한 장르에 기반하지 않는 맵핑들은 디폴트 맵핑(default)이 될 수 있다.
룰 엔진(612)은 종래의 패턴 매칭 TV 프로그램을 포함한다. 룰 엔진은 텍스트 입력 및 하나 이상의 패턴들(룰들)을 받아들여 하나 이상의 패턴들과 매치하는 모든 키워드들을 추출한다.
만약에 상기 프로세스에 의해 얻어진 키워드의 수가 많지 않은 경우 (예를 들면 추출 전략이 소극적인 경우)에는 키 정보는 액세스된 컨텐트에 대한 다른 정보 소스들로부터 추출될 수 있다(가령 시청 중인 TV 프로그램에 대한 EPG 정보). 키워드의 수가 충분한지 불충분한지 판단하는 기준은 장르에 관계없이 정해 질 수 있지만 장르별로 정해질 수도 있다. 즉 장르의 구별 없이 키워드의 수가 고정된 임계값(constraint)(예: x)에 못 미치는 경우 부족한 것으로 판단할 수도 있고, 장르 별로 서로 다른 고정된 값을 기준으로 판단할 수 있다. (예: 시트콤은 x보다 작은 경우 부족한 것으로 결정하는 반면, 뉴스의 경우에는 y보다 작은 경우 충분치 않은 것으로 결정할 수 있다.) TV 프로그램에 대한 EPG 정보로부터 키워드를 추출하는 것은 다음과 같다.
EPG 항목(entry)은 수 개의 구조화된(structured) 항목들(예: 제목, 배우)과 수 개의 준-구조화된(semi-structured) 항목들(예: 서술(description))을 포함한다. 클로즈드 캡션의 경우에서와 같은 방식으로 키워드들은 EPG에 포함된 준-구조화된 항목들로부터 추출된다. 반면 구조화된 항목들에 포함된 정보는 별도의 처리 없이 그대로 이용될 수 있다.
실시예에 따라서는 추출기(500 및 600)의 구성요소들은 메모리 및 마이크로프로세서를 포함하는 TV 하드웨어로서 구현될 수도 있고 또한 펌웨어(firmware)로서 구현될 수도 있다. 그러므로 각 추출기(500, 600) 내의 구성 요소들 간의 통신은 함수 호출(function call)에 의해 이루어진다. 룰 선택기가 참조하게 되는 룰 라이브러리는 TV 내에 포함된 데이터베이스의 형태로 구현될 수 있다. 또한 룰 라 이브러리는 네트워크 상의 서버로 구현될 수도 있으며, 이 경우 룰 선택기와의 통신은 HTTP, SOAP 또는 다른 유사한 프로토콜들을 통해 이루어질 수 있다.
도 8은 키워드 추출기의 또 다른 실시예(700)를 보여준다. 이 실시예에서는 TV 프로그램의 클로즈드 캡션(CC)(704)으로부터 키워드들(702)을 추출하기 위해 컨텐트의 장르를 참조하지 않고 컨텐트 메터데이터로부터 키워드들을 추출한다. 키워드 추출기(700)는 CC 토큰화기(708), 부분 스피치 태거(710), 룰 엔진(712) 및 룰 선택기(714)를 포함한다. CC 토큰화기(708), 부분 스피치 태거(710) 및 룰 엔진(712)은 각각 도 7의 CC 토큰화기(608), 부분 스피치 태거(610) 및 룰 엔진(612)과 유사하다.
또한 도 7의 룰 라이브러리(616)과 마찬가지로 도 8의 룰 라이브러리(716)는 모든 종류의 다양한 키워드들을 추출하기 위해 이용되는 다양한 룰들의 리스트를 저장한다. 룰 라이브러리(716)의 룰들은 룰 선택기(714)로 공급된다.
룰 선택기(714)는 "디폴트 맵핑(default mapping)"을 포함하는데, 디폴트 맵핑이란 룰 엔진을 위해 라이브러리(716)로부터 룰들을 선택하는 역활을 한다. (예: 룰 선택기(714)는 룰들을 선택하기 위해 디폴트 맵핑 룰 A, B, C 등을 사용하는데, 이 맵핑 룰들은 장르를 이용하지 않는다.) 룰 엔진(712)은 룰 선택기(714)로부터 1 세트의 룰들을 수신하고, 태거(710)으로부터 태깅된 텍스트 문장을 수신한다. 룰 엔진(712)은 이 세트의 룰들을 태킹된 텍스트에 적용하여 태깅된 텍스트로부터 키워드들을 추출한다.
실시예에 따라서는, 만약 TV 프로그램과 관련된 장르가 없는 경우에야 비로 서 시스템은 "디폴트 맵핑"을 이용한다. 이 경우 지극히 소극적인(conservertive) 키워드 추출 룰들을 채택함으로써, 중요한 것일 확률이 높은 키워드만이 추출되도록 한다. 예를 들어, 이 룰 선택기는 다음의 디폴트 맵핑 항목을 가질 수 있다.
디폴트-> 연속적인_고유_명사(Degault-> consecutive_proper_noun)
도 9는 다른 실시예에 의한 키 추출기(800)을 보여준다. 이 실시예에서 TV 프로그램의 클로즈드 캡션(CC)(804)으로부터 키워드(802) 추출을 위해 TV 프로그램의 장르를 이용할 것인가는 선택적이다(optional). 키워드 추출기(800)은 CC 토큰화기(808), 부분 스피치 태거(810), 룰 엔진(812) 및 룰 선택기(814)를 포함한다. 키워드 추출기는 도 7의 장르 추출기과 유사한 장르 추출기(806)를 더 포함한다. CC 토큰화기(808), 부분 스피치 태거(810) 및 룰 엔진(812)은 각각 도 8의 CC 토큰화기(708), 부분 스피치 태거(710) 및 룰 엔진(712)과 유사하다.
또한 도 8의 룰 라이브러리(716)와 마찬가지로 도 9의 룰 라이브러리(816)는 모든 종류의 다양한 키워드들을 추출하기 위해 이용되는 다양한 룰들의 리스트를 저장한다. 룰 라이브러리(816)의 룰들은 룰 선택기(814)로 공급된다.
룰 선택기(814)는 하나의 장르를 룰 라이브러리에 포함된 1 세트의 룰들로 장르 맵핑하는 것을 포함한다. 이 장르 맵핑은 미리 설정될 수도 있고 학습적으로 이루어 질 수도 있다.
장르 추출기(806)에 의해 추출된 장르를 참조하여 룰 선택기(814)는 라이브 러리(816)로부터 1 세트의 룰들을 선택하기 위해 장르 맵핑을 이용한다. 룰 엔진은 선택된 1 세트의 룰들을 이용하여 태깅된 문장들로부터 키워드들을 추출한다. 룰 선택기(814)는 또한 라이브러리(816)에 포함된 1 세트의 룰로 맵핑하기 위한 "디폴트" 맵핑을 포함한다(예: 만약 이용할 장르가 없다면, 디폴트 맵핑 룰 A, B, C 등이 이용된다.) 룰 선택기(814)에 의한 디폴트 맵핑은 상기한 룰 선택기(714)에서의 그것과 유사하다.
만약 TV 프로그램의 장르가 알려지지 않거나 또는 이용되지 않는 경우 룰 선택기(814)는 룰 라이브러리(816)로부터 룰들을 선택하기 위해 TV 프로그램의 장르에 의존하지 않는 디폴트 맵핑을 이용한다. 만약 TV 프로그램의 장르가 알려진 경우에는 룰 선택기(814)는 룰 라이브러리(816)로부터 룰들을 선택하기 위해 장르 추출기에 의해 추출된 장르를 참조하는 장르 맵핑을 이용한다. 실시예에 따라서는 장르 추출기(806)에 의해 TV 프로그램의 장르가 주어지더라도 룰 선택기(814)는 이에 의존하지 않고 룰 선택을 위해 디폴트 맵핑을 이용할 수도 있다. 룰 선택기(814)는 선택적으로 맵핑 방법에 대한 선택 신호(CTL)를 수신할 수 있다. 이 선택 신호(CTL)는 룰 선택기(814)에게 룰 선택을 위해 장르 맵핑을 선택하도록 명려하거나 아니면, 디폴트 맵핑을 선택하도록 명령한다.
룰 엔진(712)은 룰 선택기(714)로부터 1 세트의 룰들을 수신하고 태거(710)로부터 태킹된 텍스트 문장을 수신한다. 룰 엔진은 상기 1 세트 룰들을 태깅된 텍스트에 적용하여 태깅된 텍스트로부터 키워드들을 선택한다.
도 2 및 도 4의 추출기 212 및/또는 추출기 214를 구현하기 위해 상기 추출 기 600, 700 또는 800 중 하나를 선택할 수 있다. 도 10은 도 4의 시스템(400)에 기초한 시스템(900)을 보여준다. 시스템(900)은 키워드 추출기(800)을 이용한다. 상기한 바와 같이 키워드 추출기(800)가 키워드 추출을 위해 TV 프로그램 장르를 이용할 것인가는 선택 사항이다. 하지만 키워드 추출기(800)는 (EPG 입력(905)으로부터 추출된) TV 프로그램 장르에 따라 키워드를 추출 방법을 적응적으로 수정하는 능력을 가진다. 이 실시예에서 모듈 202, 203, 205, 207 및 800은 디지털 TV(30A)와 같은 CE 장치 내에 구현된다. TV(30A)는 LAN에 연결되어 있다.
위에서는 설명한 실시예들은 홈 네트워크의 범주(context)에 국한되었지만 본 발명은 상기 실시예들에 국한되지 않으며 홈 네트워크(예: LAN)의 일부를 구성하지 않는 독립 장치에도 적용될 수 있음은 당업자에게 있어 자명한 사실이다. 예를 들어 도 10의 TV(30A)는 LAN에 연결될 필요가 없다.
본 발명은 논리 회로(logic circuits), 애플리케이션 고유의 집적회로(application specific integrated circuits), 펌웨어(firm) 등으로 구현될 수 있으며 특히, 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드 디스크, 플로피 디스크, 플래쉬 메모리, 광 데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산 되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
도 1은 본 발명에 의한 전자 장치들을 포함하는 네트워크의 예를 보여준다.
도 2는 본 발명에 따라 인터넷 상에서 관련 정보를 찾기 위해 TV 클로즈드 캡션 정보를 분석하기 위한 시스템의 일 실시예에 대한 기능 블록도이다.
도 3a는 본 발명에 따라 인터넷 상에서 관련 정보를 찾기 위해 TV 클로즈드 캡션 정보를 분석하기 위한 방법을 보여주는 흐름도이다.
도 3b는 도 3a의 방법 중 키워드 추출 단계의 구체적인 동작을 보여주는 흐름도이다.
도 4는 본 발명에 따라 인터넷 상에서 관련 정보를 찾기 위해 TV 클로즈드 캡션 정보를 분석하기 위한 시스템의 또 다른 실시예에 대한 기능 블록도이다.
도 5는 본 발명에 의한 관련 정보 검색을 위한 메터데이터 정보의 분석을 위한 또 다른 방법을 보여주는 흐름도이다.
도 6은 본 발명에 따른 컨텐트의 장르에 적응적으로 키 정보를 추출하기 위한 키 정보 추출기의 기능 블록도이다.
도 7은 본 발명에 따라 TV 프로그램 장르에 적응적으로 키 정보를 추출하기 위한 키 정보 추출기의 기능 블록도이다.
도 8은 본 발명에 따라 TV 프로그램 장르를 이용하지 않고 키 정보를 추출하기 위한 키 정보 추출기의 기능 블록도이다.
도 9는 키워드 추출기의 또 다른 실시예에 대한 기능 블록도로서, 이 키워드 추출기는 키워드 추출을 위해 TV 프로그램 장르에 적응적으로 대처할 수 있는 능력 을 가진 것일 수도 있고 TV 프로그램 장르를 이용하지 않고서도 키워드 추출을 수행할 수 있다.
도 10은 본 발명에 의한 인터넷 상에서 관련 정보를 찾기 위해 키워드 추출을 위한 TV 클로즈드 캡션 정보를 분석하기 위한 시스템의 기능 블록도로서, 이 시스템은 도 9의 키워드 추출기를 이용한다.

Claims (37)

  1. 사용자에 의한 컨텐트 액세스를 모니터링하는 단계;
    정보 추출을 위한 1 세트의 추출 룰을 선택하는 단계;
    상기 선택된 추출 룰를 참조하여 상기 컨텐트의 메터데이터로부터 키 정보를 추출하는 단계를 포함하는 컨텐트의 메터데이터로부터 정보를 추출하는 방법.
  2. 제 1항에 있어서, 상기 정보 추출 방법은 컨텐트의 타입을 결정하는 단계를 더 포함하는 정보 추출 방법.
  3. 제 2항에 있어서, 상기 정보 추출을 위한 한 세트의 추출 룰을 선택하는 단계는 상기 컨텐트의 타입에 기초하여 상기 1 세트의 추출 룰을 선택하는 단계를 더 포함하는 정보 추출 방법.
  4. 제 3항에 있어서, 상기 컨텐트은 TV 프로그램을 포함하며, 상기 TV 프로그램에 대한 메터데이터는 상기 TV 프로그램과 관련된 클로즈드 캡션 정보를 포함하는 정보 추출 방법.
  5. 제 4항에 있어서, 상기 컨텐트의 타입을 결정하는 단계는 EPG로부터 TV 프로그램의 장르를 추출하는 단계를 포함하는 정보 추출 방법.
  6. 제 3항에 있어서, 상기 1 세트의 추출 룰들을 선택하는 단계는 상기 컨텐트 타입에 기초하여 룰 라이브러리로부터 1 세트의 추출 룰들을 선택하는 단계를 더 포함하며, 상기 룰 라이브러리는 다양한 키워드들을 추출하기 위한 룰 리스트를 포함하는 정보 추출 방법.
  7. 제 4항에 있어서, 상기 키 정보 추출 단계는 상기 TV 프로그램의 클로즈드 캡션 텍스트를 하나 이상의 문장들로 토큰화하는 단계를 더 포함하는 정보 추출 방법.
  8. 제 7항에 있어서, 상기 키 정보 추출 단계는 상기 문장 내의 각 단어의 컨텍스트를 참조하여 각 단어들을 태킹하는 단계를 더 포함하는 정보 추출 방법.
  9. 제 8항에 있어서, 상기 키 정보 추출 단계는 상기 추출 룰들을 참조하여 태깅된 각 문장으로부터 키워드를 추출하는 단계를 더 포함하는 정보 추출 방법.
  10. 제 3항에 있어서, 상기 컨텐트 타입에 기초하여 1 세트의 추출 룰들을 선택하는 단계는 컨텐트을 1 세트의 룰들에 맵핑함으로써 추출 룰들을 선택하는 단계를 더 포함하며, 상기 1 세트의 룰들은 다양한 키워드들을 추출하기 위한 룰들을 포함하는 하나의 룰 라이브러리에 포함된 복수의 룰들로부터 얻게 되는 정보 추출 방 법.
  11. 제 1항에 있어서, 상기 정보 추출 방법은 상기 키 정보를 참조하여 이용 가능한 소스들을 검색함으로써 사용자가 관심을 갖을 만한 정보를 획득하는 단계를 더 포함하는 정보 추출 방법.
  12. 제 11항에 있어서, 상기 정보 추출 방법은 사용자가 관심을 갖을 만한 정보를 제공하는 단계를 더 포함하는 정보 추출 방법.
  13. 제 11항에 있어서, 상기 정보 추출 방법은 이용 가능한 소스들을 검색하는 단계는 상기 키 정보에 기초하여 질의어를 생성하고, 상기 질의어를 이용하여 외부 네트워크를 검색하는 단계를 더 포함하는 정보 추출 방법.
  14. 제 1항에 있어서, 상기 컨텐트은 CE 장치를 통해 액세스되며, 상기 사용자에 의한 액세스를 모티터링 단계는 사용자와 상기 CE 장치 간의 대화를 모니터링하는 단계를 더 포함하는 정보 추출 방법.
  15. 제 14항에 있어서, 상기 키 정보를 결정하는 단계는 상기 선택된 룰들을 기초로 상기 장치를 통해 액세스된 컨텐트의 메터데이터로부터 키 정보를 추출하는 단계를 포함하는 정보 추출 방법.
  16. 제 15항에 있어서, 상기 모니터링하는 단계는 사용자가 상기 장치를 통해 어느 컨텐트에 액세스하기로 선택하였는지 모니터링하는 단계를 더 포함하는 정보 추출 방법.
  17. 제 16항에 있어서, 상기 모니터링하는 단계는 상기 사용자가 상기 장치를 통해 액세스하기로 선택한 채널을 통해 공급되는 클로즈드 캡션 정보를 모니터링하는 단계 더 포함하는 정보 추출 방법.
  18. 제 11항에 있어서, 상기 정보 추출 방법은
    사용자에게 사용자가 관심을 갖을 만한 정보로서 상기 검색 결과를 제공하는 단계;
    상기 사용자 잠재 관심 정보 중 사용자가 선택한 선택 정보를 수신하는 단계:및
    상기 사용자 선택한 정보에 기초하여 다시 이용 가능한 소스를 검색함으로써 추가적인 사용자 잠재 관심 정보를 획득하는 단계를 포함하는 정보 추출 방법.
  19. 제 14항에 있어서, 상기 컨텐트은 CE 장치를 통해 액세스되며, 상기 장치는 근거리 지역 통신망에 접속될 수 있으며, 그리고
    이용 가능한 소스들을 검색하는 단계는 상기 키 정보를 참조하여 질의어를 생성하고, 상기 질의어를 이용하여 인터넷을 검색하는 것을 더 포함하는 정보 추출 방법.
  20. 하나의 장치을 통해 액세스되는 컨텐트을 모니터링하도록 구성된 모니터;
    정보 추출을 위한 1 세트의 추출 룰들을 선택하도록 구성된 룰 선택기; 및
    상기 선택된 룰들에 기초하여 컨텐트의 메터데이터로부터 키 정보를 추출하도록 구성된 정보 추출기를 포함하는 장치.
  21. 제 20항에 있어서, 상기 장치는 컨텐트의 타입을 결정하도록 구성된 타입 추출기를 더 포함하는 장치.
  22. 제 21항에 있어서, 상기 룰 선택기는 더 나아가 상기 컨텐트 타입에 기초하여 1 세트의 추출 룰들을 선택하도록 구성된 장치.
  23. 제 22항에 있어서, 상기 컨텐트은 TV 프로그램을 포함하며 상기 TV 프로그램의 메터데이터는 상기 TV 프로그램과 관련된 클로즈드 캡션 정보를 포함하는 장치.
  24. 제 23항에 있어서, 상기 컨텐트 타입 추출기는 더 나아가 EPG로부터 TV 프로그램의 장르를 추출함으로써 컨텐트의 타입을 결정하도록 구성된 장치.
  25. 제 22항에 있어서, 상기 룰 선택기는 더 나이가 1 세트의 추출 룰을 선택하는 단계는 상기 컨텐트 타입에 기초하여 룰 라이브러리로부터 1 세트의 추출 룰을 선택하도록 구성되며, 상기 룰 라이브러리는 다양한 키워드들을 추출하기 위한 룰 리스트를 포함하는 장치.
  26. 제 23항에 있어서, 상기 정보 추출기는 상기 TV 프로그램의 클로즈드 캡션 텍스트를 하나 이상의 문장들로 토큰화하도록 구성된 토큰화기를 포함하는 장치.
  27. 제 26항에 있어서, 상기 정보 추출기는 상기 문장 내의 각 단어의 컨텍스트를 참조하여 각 단어들을 태킹하기 위한 태거를 더 포함하는 장치.
  28. 제 27항에 있어서, 상기 정보 추출기는 상기 추출 룰들을 참조하여 태깅된 각 문장으로부터 키워드를 추출하도록 구성된 룰 엔진을 더 포함하는 장치.
  29. 제 22항에 있어서, 상기 룰 추출기는 더 나아가 컨텐트 타입에 기초하여 1 세트의 추출 룰을 선택함에 있어서, 컨텐트을 1 세트의 룰들에 맵핑함으로써 추출 룰들을 선택하도록 구성되며, 상기 1세트의 룰들은 룰 라이브러리에 포함된 복수의 룰들로부터 얻게 되며, 상기 룰 라이브러리는 키워드들을 추출하기 위한 다양한 룰들을 포함하는 장치.
  30. 제 22항에 있어서, 상기 장치는 검색 모듈을 더 포함하며, 상기 검색 모듈은 상기 키 정보를 참조하여 사용자가 관심을 갖을 만한 정보를 가진 이용 가능한 소스들을 검색하도록 구성되는 장치.
  31. 제 30항에 있어서, 상기 장치는 사용자가 관심을 갖을 만한 정보를 제공하도록 구성된 사용자 인터페이스를 더 포함하는 장치.
  32. 제 30항에 있어서, 상기 검색 모듈은 더 나아가 상기 키 정보에 기초하여 질의어를 생성하고, 상기 질의어를 이용하여 외부 네트워크를 검색하도록 구성된 장치.
  33. 제 20항에 있어서, 상기 모니터는 더 나아가 상기 사용자가 상기 장치를 통해 액세스하기 위해 선택한 채널을 통해 공급되는 클로즈드 캡션 정보를 모니터링하도록 구성된 장치.
  34. 제 30항에 있어서, 상기 장치는
    사용자에게 사용자가 관심을 갖을 만한 정보로서 상기 검색 결과를 제공하도록 구성되고,
    상기 사용자 잠재 관심 정보 중 사용자가 선택한 선택 정보를 수신하는 사용자 인터페이스를 더 포함하며,
    상기 검색 모듈은 더 나아가 상기 사용자 선택한 정보에 기초하여 추가적으로 사용자 잠재 관심 정보를 갖는 이용 가능한 소스를 검색하도록 구성된 장치.
  35. 제 33항에 있어서, 상기 장치는 CE 장치를 포함하는 장치.
  36. 제 35항에 있어서, 상기 CE 장치는 근거리통신망에 접속하도록 구성된 장치.
  37. 제 33항에 있어서, 상기 장치는 TV를 포함하는 장치.
KR1020080017738A 2007-02-28 2008-02-27 컨텐트 메터데이터로부터 정보를 추출하기 위한 방법 및장치 KR101472931B1 (ko)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US90396207P 2007-02-28 2007-02-28
US60/903,962 2007-02-28
US11/789,609 2007-04-25
US11/789,609 US8209724B2 (en) 2007-04-25 2007-04-25 Method and system for providing access to information of potential interest to a user
US11/821,938 2007-06-26
US11/821,938 US8115869B2 (en) 2007-02-28 2007-06-26 Method and system for extracting relevant information from content metadata

Publications (2)

Publication Number Publication Date
KR20080080028A true KR20080080028A (ko) 2008-09-02
KR101472931B1 KR101472931B1 (ko) 2014-12-15

Family

ID=39715425

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080017738A KR101472931B1 (ko) 2007-02-28 2008-02-27 컨텐트 메터데이터로부터 정보를 추출하기 위한 방법 및장치

Country Status (3)

Country Link
US (1) US8115869B2 (ko)
KR (1) KR101472931B1 (ko)
CN (1) CN101267518B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180123591A (ko) * 2011-05-25 2018-11-16 구글 엘엘씨 디바이스 메타데이터를 위한 폐쇄 자막 스트림 사용

Families Citing this family (109)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7490092B2 (en) * 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
US8042132B2 (en) 2002-03-15 2011-10-18 Tvworks, Llc System and method for construction, delivery and display of iTV content
WO2003026275A2 (en) 2001-09-19 2003-03-27 Meta Tv, Inc. Interactive user interface for television applications
US7703116B1 (en) 2003-07-11 2010-04-20 Tvworks, Llc System and method for construction, delivery and display of iTV applications that blend programming information of on-demand and broadcast service offerings
US8220018B2 (en) 2002-09-19 2012-07-10 Tvworks, Llc System and method for preferred placement programming of iTV content
US8578411B1 (en) 2003-03-14 2013-11-05 Tvworks, Llc System and method for controlling iTV application behaviors through the use of application profile filters
US11381875B2 (en) 2003-03-14 2022-07-05 Comcast Cable Communications Management, Llc Causing display of user-selectable content types
US8819734B2 (en) 2003-09-16 2014-08-26 Tvworks, Llc Contextual navigational control for digital television
US7818667B2 (en) 2005-05-03 2010-10-19 Tv Works Llc Verification of semantic constraints in multimedia data and in its announcement, signaling and interchange
US8200688B2 (en) 2006-03-07 2012-06-12 Samsung Electronics Co., Ltd. Method and system for facilitating information searching on electronic devices
US8209724B2 (en) * 2007-04-25 2012-06-26 Samsung Electronics Co., Ltd. Method and system for providing access to information of potential interest to a user
US8115869B2 (en) 2007-02-28 2012-02-14 Samsung Electronics Co., Ltd. Method and system for extracting relevant information from content metadata
US20080250010A1 (en) * 2007-04-05 2008-10-09 Samsung Electronics Co., Ltd. Method and system for determining and pre-processing potential user queries related to content in a network
US8510453B2 (en) 2007-03-21 2013-08-13 Samsung Electronics Co., Ltd. Framework for correlating content on a local network with information on an external network
US8863221B2 (en) 2006-03-07 2014-10-14 Samsung Electronics Co., Ltd. Method and system for integrating content and services among multiple networks
US8843467B2 (en) 2007-05-15 2014-09-23 Samsung Electronics Co., Ltd. Method and system for providing relevant information to a user of a device in a local network
US9043197B1 (en) * 2006-07-14 2015-05-26 Google Inc. Extracting information from unstructured text using generalized extraction patterns
US8935269B2 (en) 2006-12-04 2015-01-13 Samsung Electronics Co., Ltd. Method and apparatus for contextual search and query refinement on consumer electronics devices
US20090055393A1 (en) * 2007-01-29 2009-02-26 Samsung Electronics Co., Ltd. Method and system for facilitating information searching on electronic devices based on metadata information
US9286385B2 (en) 2007-04-25 2016-03-15 Samsung Electronics Co., Ltd. Method and system for providing access to information of potential interest to a user
JP2009025968A (ja) * 2007-07-18 2009-02-05 Fujifilm Corp 関連語辞書作成装置、方法、及びプログラム、並びにコンテンツ検索装置
US20090228777A1 (en) * 2007-08-17 2009-09-10 Accupatent, Inc. System and Method for Search
US8275764B2 (en) * 2007-08-24 2012-09-25 Google Inc. Recommending media programs based on media program popularity
US8191088B2 (en) * 2007-09-14 2012-05-29 At&T Intellectual Property I, L.P. Apparatus and method for managing media content
JP2009094658A (ja) * 2007-10-05 2009-04-30 Hitachi Ltd 関連情報提供装置、及び関連情報提供方法
US8176068B2 (en) 2007-10-31 2012-05-08 Samsung Electronics Co., Ltd. Method and system for suggesting search queries on electronic devices
US20090132462A1 (en) * 2007-11-19 2009-05-21 Sony Corporation Distributed metadata extraction
KR101392273B1 (ko) * 2008-01-07 2014-05-08 삼성전자주식회사 키워드 제공 방법 및 이를 적용한 영상기기
US8145648B2 (en) * 2008-09-03 2012-03-27 Samsung Electronics Co., Ltd. Semantic metadata creation for videos
US8938465B2 (en) 2008-09-10 2015-01-20 Samsung Electronics Co., Ltd. Method and system for utilizing packaged content sources to identify and provide information based on contextual information
JP2010087976A (ja) * 2008-10-01 2010-04-15 Sony Corp 情報処理装置、情報取得方法、情報取得プログラム及び情報検索システム
US11832024B2 (en) 2008-11-20 2023-11-28 Comcast Cable Communications, Llc Method and apparatus for delivering video and video-related content at sub-asset level
US20100161441A1 (en) * 2008-12-24 2010-06-24 Comcast Interactive Media, Llc Method and apparatus for advertising at the sub-asset level
US9442933B2 (en) 2008-12-24 2016-09-13 Comcast Interactive Media, Llc Identification of segments within audio, video, and multimedia items
US8713016B2 (en) 2008-12-24 2014-04-29 Comcast Interactive Media, Llc Method and apparatus for organizing segments of media assets and determining relevance of segments to a query
CN101771957B (zh) * 2008-12-26 2012-10-03 中国移动通信集团公司 一种用户兴趣点确定方法与装置
US11531668B2 (en) * 2008-12-29 2022-12-20 Comcast Interactive Media, Llc Merging of multiple data sets
US8176043B2 (en) * 2009-03-12 2012-05-08 Comcast Interactive Media, Llc Ranking search results
JP5171718B2 (ja) * 2009-03-31 2013-03-27 株式会社東芝 コンテンツ推薦装置、方法、及びプログラム
US20100250614A1 (en) * 2009-03-31 2010-09-30 Comcast Cable Holdings, Llc Storing and searching encoded data
US10225625B2 (en) * 2009-04-06 2019-03-05 Vitac Corporation Caption extraction and analysis
US8533223B2 (en) * 2009-05-12 2013-09-10 Comcast Interactive Media, LLC. Disambiguation and tagging of entities
CN102473249A (zh) * 2009-06-29 2012-05-23 德山真旭 工作流程处理程序、信息处理装置以及工作流程处理方法
US9892730B2 (en) 2009-07-01 2018-02-13 Comcast Interactive Media, Llc Generating topic-specific language models
US9213776B1 (en) 2009-07-17 2015-12-15 Open Invention Network, Llc Method and system for searching network resources to locate content
US8713078B2 (en) 2009-08-13 2014-04-29 Samsung Electronics Co., Ltd. Method for building taxonomy of topics and categorizing videos
US20110225152A1 (en) * 2010-03-15 2011-09-15 Microsoft Corporation Constructing a search-result caption
US9645996B1 (en) * 2010-03-25 2017-05-09 Open Invention Network Llc Method and device for automatically generating a tag from a conversation in a social networking website
EP2564589A4 (en) * 2010-04-30 2014-06-04 Thomson Licensing PRIMARY SCREEN VISIBILITY VIA A KINETIC UI FRAMEWORK
US8918803B2 (en) * 2010-06-25 2014-12-23 At&T Intellectual Property I, Lp System and method for automatic identification of key phrases during a multimedia broadcast
US8423555B2 (en) 2010-07-09 2013-04-16 Comcast Cable Communications, Llc Automatic segmentation of video
JP4977241B2 (ja) * 2010-07-16 2012-07-18 株式会社東芝 表示装置及び表示方法
US8701043B2 (en) * 2010-08-26 2014-04-15 Verizon Patent And Licensing Inc. Methods and systems for dynamically providing access to enhanced content during a presentation of a media content instance
KR101700365B1 (ko) * 2010-09-17 2017-02-14 삼성전자주식회사 미디어 컨텐츠 관련 정보 제공 방법, 이 방법을 수행할 수 있는 디바이스와 서버 및 저장 매체
KR20120060692A (ko) * 2010-12-02 2012-06-12 삼성전자주식회사 디스플레이장치 및 컨텐츠 검색방법
US8935300B1 (en) 2011-01-03 2015-01-13 Intellectual Ventures Fund 79 Llc Methods, devices, and mediums associated with content-searchable media
US8745683B1 (en) * 2011-01-03 2014-06-03 Intellectual Ventures Fund 79 Llc Methods, devices, and mediums associated with supplementary audio information
US8452774B2 (en) * 2011-03-10 2013-05-28 GM Global Technology Operations LLC Methodology to establish term co-relationship using sentence boundary detection
CN102739973B (zh) * 2011-05-11 2018-05-04 新奥特(北京)视频技术有限公司 一种实现字幕梵高油画特效的方法
US9043444B2 (en) 2011-05-25 2015-05-26 Google Inc. Using an audio stream to identify metadata associated with a currently playing television program
US10467289B2 (en) 2011-08-02 2019-11-05 Comcast Cable Communications, Llc Segmentation of video according to narrative theme
CN103782284B (zh) * 2011-09-12 2021-05-11 英特尔公司 使用发现来理解用户行为、兴趣和喜好
US9009143B2 (en) 2011-10-03 2015-04-14 Microsoft Corporation Use of off-page content to enhance captions with additional relevant information
CN102510445B (zh) * 2011-10-14 2015-04-01 上海文广科技(集团)有限公司 节目源智能信息制作系统及制作方法
US20130151936A1 (en) * 2011-12-12 2013-06-13 Microsoft Corporation Page preview using contextual template metadata and labeling
US8751424B1 (en) * 2011-12-15 2014-06-10 The Boeing Company Secure information classification
WO2013115235A1 (ja) * 2012-02-03 2013-08-08 シャープ株式会社 出力システム、出力システムの制御方法、制御プログラム、および記録媒体
JP5330559B2 (ja) * 2012-03-26 2013-10-30 株式会社東芝 電子機器及び表示制御方法
CN103455908A (zh) * 2012-05-30 2013-12-18 Sap股份公司 云环境中的头脑风暴
TWI470999B (zh) 2012-06-19 2015-01-21 Wistron Corp 編輯與儲存串流的方法、裝置、系統
US20140109137A1 (en) * 2012-10-11 2014-04-17 Faisal Mushtaq Method and apparatus for user interaction with programs utilizing closed captioning data content
US10395642B1 (en) * 2012-11-19 2019-08-27 Cox Communications, Inc. Caption data fishing
US10880609B2 (en) 2013-03-14 2020-12-29 Comcast Cable Communications, Llc Content event messaging
US10277945B2 (en) * 2013-04-05 2019-04-30 Lenovo (Singapore) Pte. Ltd. Contextual queries for augmenting video display
KR101799294B1 (ko) 2013-05-10 2017-11-20 삼성전자주식회사 디스플레이 장치 및 이의 제어 방법
KR20140133357A (ko) 2013-05-10 2014-11-19 삼성전자주식회사 디스플레이 장치 및 그 ui 화면 제공 방법
US9817911B2 (en) * 2013-05-10 2017-11-14 Excalibur Ip, Llc Method and system for displaying content relating to a subject matter of a displayed media program
CN103309993B (zh) * 2013-06-20 2016-09-14 天脉聚源(北京)传媒科技有限公司 一种关键词的提取方法及装置
KR102123062B1 (ko) 2013-08-06 2020-06-15 삼성전자주식회사 콘텐츠에 관한 정보를 획득하는 방법 및 이를 이용한 영상 표시 장치, 그리고 콘텐츠에 관한 정보를 제공하는 서버 시스템.
US9544650B1 (en) * 2013-08-20 2017-01-10 Google Inc. Methods, systems, and media for presenting news items corresponding to media content
BR112016006860B8 (pt) * 2013-09-13 2023-01-10 Arris Entpr Inc Aparelho e método para criar um único fluxo de dados de informações combinadas para renderização em um dispositivo de computação do cliente
US9996529B2 (en) * 2013-11-26 2018-06-12 Oracle International Corporation Method and system for generating dynamic themes for social data
US10002187B2 (en) * 2013-11-26 2018-06-19 Oracle International Corporation Method and system for performing topic creation for social data
CN103631975A (zh) * 2013-12-26 2014-03-12 成都科来软件有限公司 一种数据提取方法及装置
US9615122B2 (en) * 2014-01-30 2017-04-04 Echostar Technologies L.L.C. Methods and apparatus to synchronize second screen content with audio/video programming using closed captioning data
US8913187B1 (en) 2014-02-24 2014-12-16 The Directv Group, Inc. System and method to detect garbled closed captioning
KR101865299B1 (ko) 2014-04-27 2018-06-07 엘지전자 주식회사 방송 전송 장치, 방송 전송 장치의 동작 방법, 방송 수신 장치 및 방송 수신 장치의 동작 방법
US9189514B1 (en) 2014-09-04 2015-11-17 Lucas J. Myslinski Optimized fact checking method and system
US11783382B2 (en) 2014-10-22 2023-10-10 Comcast Cable Communications, Llc Systems and methods for curating content metadata
EP3026584A1 (en) * 2014-11-25 2016-06-01 Samsung Electronics Co., Ltd. Device and method for providing media resource
KR102185700B1 (ko) * 2014-11-28 2020-12-02 삼성전자주식회사 디스플레이 장치 및 이의 정보 제공 방법
CN106713973A (zh) * 2015-07-13 2017-05-24 中兴通讯股份有限公司 搜索节目的方法及装置
US9923860B2 (en) 2015-07-29 2018-03-20 International Business Machines Corporation Annotating content with contextually relevant comments
KR102468763B1 (ko) * 2016-02-05 2022-11-18 삼성전자 주식회사 영상처리장치 및 그 제어방법
CN108701339A (zh) 2016-02-23 2018-10-23 开利公司 从自然语言文档中提取策略以用于物理访问控制
CN107180058B (zh) * 2016-03-11 2024-06-18 百度在线网络技术(北京)有限公司 一种用于基于字幕信息进行查询的方法和装置
KR102557574B1 (ko) * 2016-05-17 2023-07-20 엘지전자 주식회사 디지털 디바이스 및 그 제어 방법
US9900632B1 (en) 2016-12-30 2018-02-20 Echostar Technologies L.L.C. Viewing suggestions based on closed-captioned content from multiple tuners
US10992400B2 (en) * 2017-05-05 2021-04-27 Vidhi Techinnovation Opportunities Network Private Limited Method and system for extraction of event data from user devices
US11140450B2 (en) * 2017-11-28 2021-10-05 Rovi Guides, Inc. Methods and systems for recommending content in context of a conversation
CA3084663A1 (en) 2017-12-14 2019-06-20 Rovi Guides, Inc. Systems and methods for aggregating related media content based on tagged content
US20190236211A1 (en) * 2018-01-31 2019-08-01 Dell Products L. P. Method for dynamic monitoring of organization content and proactive suggestion of changes for effective search engine optimization
US11570502B2 (en) * 2018-05-01 2023-01-31 Telefonaktiebolaget Lm Ericsson (Publ) Providing personalized messages in adaptive streaming
CN108984582B (zh) * 2018-05-04 2023-07-28 中国信息安全研究院有限公司 一种查询请求处理方法
CN109614604B (zh) * 2018-12-17 2022-05-13 北京百度网讯科技有限公司 字幕处理方法、装置及存储介质
KR20200084413A (ko) * 2018-12-21 2020-07-13 삼성전자주식회사 컴퓨팅 장치 및 그 동작 방법
US10856041B2 (en) * 2019-03-18 2020-12-01 Disney Enterprises, Inc. Content promotion using a conversational agent
EP3901875A1 (en) 2020-04-21 2021-10-27 Bayer Aktiengesellschaft Topic modelling of short medical inquiries
EP4036933A1 (de) 2021-02-01 2022-08-03 Bayer AG Klassifizierung von mitteilungen über arzneimittel

Family Cites Families (133)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5715445A (en) 1994-09-02 1998-02-03 Wolfe; Mark A. Document retrieval system employing a preloading procedure
US5790935A (en) 1996-01-30 1998-08-04 Hughes Aircraft Company Virtual on-demand digital information delivery system and method
US5983237A (en) 1996-03-29 1999-11-09 Virage, Inc. Visual dictionary
US5867799A (en) 1996-04-04 1999-02-02 Lang; Andrew K. Information system and method for filtering a massive flow of information entities to meet user information classification needs
US7069575B1 (en) 1997-01-13 2006-06-27 Sedna Patent Services, Llc System for interactively distributing information services
WO1998035303A1 (en) 1997-01-24 1998-08-13 The Board Of Regents Of The University Of Washington Method and system for network information access
US5974406A (en) 1997-08-18 1999-10-26 International Business Machines Corporation Automated matching, scheduling, and notification system
US6480844B1 (en) 1998-03-25 2002-11-12 At&T Corp. Method for inferring behavioral characteristics based on a large volume of data
EP0963115A1 (en) 1998-06-05 1999-12-08 THOMSON multimedia Apparatus and method for selecting viewers' profile in interactive TV
US6334127B1 (en) 1998-07-17 2001-12-25 Net Perceptions, Inc. System, method and article of manufacture for making serendipity-weighted recommendations to a user
US7720723B2 (en) 1998-09-18 2010-05-18 Amazon Technologies, Inc. User interface and methods for recommending items to users
US6317722B1 (en) 1998-09-18 2001-11-13 Amazon.Com, Inc. Use of electronic shopping carts to generate personal recommendations
US7284202B1 (en) 1998-10-09 2007-10-16 Microsoft Corporation Interactive multi media user interface using affinity based categorization
US7110998B1 (en) * 1998-10-13 2006-09-19 Virtual Gold, Inc. Method and apparatus for finding hidden patterns in the context of querying applications
US6253238B1 (en) 1998-12-02 2001-06-26 Ictv, Inc. Interactive cable television system with frame grabber
US6412073B1 (en) 1998-12-08 2002-06-25 Yodiee.Com, Inc Method and apparatus for providing and maintaining a user-interactive portal system accessible via internet or other switched-packet-network
US6842877B2 (en) 1998-12-18 2005-01-11 Tangis Corporation Contextual responses based on automated learning techniques
US6637028B1 (en) 1999-02-18 2003-10-21 Cliq Distribution, Inc. Integrated television and internet information system
JP2000242661A (ja) * 1999-02-23 2000-09-08 Fujitsu Ltd 関連情報検索装置および関連情報検索処理を実行するプログラムを記録した記憶媒体
GB9904662D0 (en) 1999-03-01 1999-04-21 Canon Kk Natural language search method and apparatus
US6493703B1 (en) 1999-05-11 2002-12-10 Prophet Financial Systems System and method for implementing intelligent online community message board
US20010003214A1 (en) 1999-07-15 2001-06-07 Vijnan Shastri Method and apparatus for utilizing closed captioned (CC) text keywords or phrases for the purpose of automated searching of network-based resources for interactive links to universal resource locators (URL's)
WO2001006398A2 (en) 1999-07-16 2001-01-25 Agentarts, Inc. Methods and system for generating automated alternative content recommendations
US7181438B1 (en) 1999-07-21 2007-02-20 Alberti Anemometer, Llc Database access system
US7158986B1 (en) 1999-07-27 2007-01-02 Mailfrontier, Inc. A Wholly Owned Subsidiary Of Sonicwall, Inc. Method and system providing user with personalized recommendations by electronic-mail based upon the determined interests of the user pertain to the theme and concepts of the categorized document
US6774926B1 (en) 1999-09-03 2004-08-10 United Video Properties, Inc. Personal television channel system
US8528019B1 (en) 1999-11-18 2013-09-03 Koninklijke Philips N.V. Method and apparatus for audio/data/visual information
US7720712B1 (en) 1999-12-23 2010-05-18 Amazon.Com, Inc. Placing a purchase order using one of multiple procurement options
US6981040B1 (en) 1999-12-28 2005-12-27 Utopy, Inc. Automatic, personalized online information and product services
JP3718402B2 (ja) 2000-03-07 2005-11-24 株式会社東芝 情報配信システム、情報提供装置、情報蓄積装置及び情報提供方法
US7260579B2 (en) 2000-03-09 2007-08-21 The Web Access, Inc Method and apparatus for accessing data within an electronic system by an external system
US7062561B1 (en) 2000-05-23 2006-06-13 Richard Reisman Method and apparatus for utilizing the social usage learned from multi-user feedback to improve resource identity signifier mapping
EP1410637A2 (en) 2000-07-27 2004-04-21 Koninklijke Philips Electronics N.V. Transcript triggers for video enhancement
GB2366478B (en) 2000-08-16 2005-02-09 Roke Manor Research Lan services delivery system
US7062488B1 (en) 2000-08-30 2006-06-13 Richard Reisman Task/domain segmentation in applying feedback to command control
WO2002019096A2 (en) 2000-08-31 2002-03-07 Docubase Reconfiguration and preservation of setup data
KR20030060917A (ko) 2000-10-20 2003-07-16 웨벡스프레스 인코포레이티드 방송표시장치에 관련대화식컨텐츠를 제공하는 시스템 및방법
GB0026353D0 (en) 2000-10-27 2000-12-13 Canon Kk Apparatus and a method for facilitating searching
US20020162120A1 (en) 2001-04-25 2002-10-31 Slade Mitchell Apparatus and method to provide supplemental content from an interactive television system to a remote device
US20020161767A1 (en) 2001-04-30 2002-10-31 Shapiro Aaron M. System and method for updating content on a plurality of content server computers over a network
US6826512B2 (en) 2001-06-28 2004-11-30 Sony Corporation Using local devices as diagnostic tools for consumer electronic devices
US7028024B1 (en) 2001-07-20 2006-04-11 Vignette Corporation Information retrieval from a collection of information objects tagged with hierarchical keywords
US7793326B2 (en) 2001-08-03 2010-09-07 Comcast Ip Holdings I, Llc Video and digital multimedia aggregator
US7389307B2 (en) * 2001-08-09 2008-06-17 Lycos, Inc. Returning databases as search results
US6792421B2 (en) 2001-08-13 2004-09-14 Genesis Group Inc. System and method for retrieving location-qualified site data
JP2003099442A (ja) 2001-09-26 2003-04-04 Toshiba Corp キー概念抽出規則作成方法、キー概念抽出方法、キー概念抽出規則作成装置、キー概念抽出装置、そのためのプログラム及び記録媒体
US20030074547A1 (en) 2001-10-11 2003-04-17 Haines Robert E. Hardcopy output engine consumable supply management and method
US7158961B1 (en) 2001-12-31 2007-01-02 Google, Inc. Methods and apparatus for estimating similarity
US20030131013A1 (en) 2002-01-07 2003-07-10 Cameron Pope Automated system and methods for determining relationships between information resources
US7343365B2 (en) 2002-02-20 2008-03-11 Microsoft Corporation Computer system architecture for automatic context associations
AUPS138502A0 (en) 2002-03-27 2002-05-09 Aceinc Pty Limited Browsing tools and methods
JP3627715B2 (ja) 2002-03-27 2005-03-09 ソニー株式会社 情報処理装置および方法、記録媒体、プログラム、並びに情報処理システム
US7716199B2 (en) 2005-08-10 2010-05-11 Google Inc. Aggregating context data for programmable search engines
US7203940B2 (en) 2002-04-29 2007-04-10 Hewlett-Packard Development Company, Lp. Automated installation of an application
US7899915B2 (en) 2002-05-10 2011-03-01 Richard Reisman Method and apparatus for browsing using multiple coordinated device sets
US8006268B2 (en) * 2002-05-21 2011-08-23 Microsoft Corporation Interest messaging entertainment system
US6766523B2 (en) 2002-05-31 2004-07-20 Microsoft Corporation System and method for identifying and segmenting repeating media objects embedded in a stream
JP2004056462A (ja) 2002-07-19 2004-02-19 Sony Corp 映像検索支援方法及び映像検索支援装置、並びに放送受信装置
EP1860579A1 (en) 2002-08-30 2007-11-28 Sony Deutschland Gmbh Method to split a multiuser profile
US8370203B2 (en) 2002-10-07 2013-02-05 Amazon Technologies, Inc. User interface and methods for recommending items to users
US20040073944A1 (en) 2002-10-15 2004-04-15 General Instrument Corporation Server-based software architecture for digital television terminal
EP1573594A2 (en) 2002-12-11 2005-09-14 Koninklijke Philips Electronics N.V. Method and system for utilizing video content to obtain text keywords or phrases for providing content related links to network-based resources
US7020746B2 (en) 2003-01-28 2006-03-28 Microsoft Corporation Method and system for an atomically updated, central cache memory
US7885963B2 (en) 2003-03-24 2011-02-08 Microsoft Corporation Free text and attribute searching of electronic program guide (EPG) data
US7194460B2 (en) 2003-03-31 2007-03-20 Kabushiki Kaisha Toshiba Search device, search system, and search method
US7225187B2 (en) 2003-06-26 2007-05-29 Microsoft Corporation Systems and methods for performing background queries from content and activity
US7162473B2 (en) 2003-06-26 2007-01-09 Microsoft Corporation Method and system for usage analyzer that determines user accessed sources, indexes data subsets, and associated metadata, processing implicit queries based on potential interest to users
GB2403636A (en) 2003-07-02 2005-01-05 Sony Uk Ltd Information retrieval using an array of nodes
US7693827B2 (en) 2003-09-30 2010-04-06 Google Inc. Personalization of placed content ordering in search results
EP1692629B1 (en) 2003-12-05 2011-06-08 Koninklijke Philips Electronics N.V. System & method for integrative analysis of intrinsic and extrinsic audio-visual data
US7761885B2 (en) 2004-04-28 2010-07-20 Fujitsu Limited Task computing
US7363294B2 (en) 2003-12-19 2008-04-22 Fuji Xerox Co., Ltd. Indexing for contextual revisitation and digest generation
US7716158B2 (en) 2004-01-09 2010-05-11 Microsoft Corporation System and method for context sensitive searching
US20050177555A1 (en) 2004-02-11 2005-08-11 Alpert Sherman R. System and method for providing information on a set of search returned documents
US8041713B2 (en) 2004-03-31 2011-10-18 Google Inc. Systems and methods for analyzing boilerplate
JP4366249B2 (ja) 2004-06-02 2009-11-18 パイオニア株式会社 情報処理装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、および、情報取得装置
EP1777628A4 (en) 2004-06-30 2008-12-17 Panasonic Corp RECORDING MEDIUM AND DEVICE AND METHOD FOR RECORDING INFORMATION ON A RECORDING MEDIUM
US7617176B2 (en) 2004-07-13 2009-11-10 Microsoft Corporation Query-based snippet clustering for search result grouping
US7603349B1 (en) 2004-07-29 2009-10-13 Yahoo! Inc. User interfaces for search systems using in-line contextual queries
US7634461B2 (en) 2004-08-04 2009-12-15 International Business Machines Corporation System and method for enhancing keyword relevance by user's interest on the search result documents
US8407239B2 (en) 2004-08-13 2013-03-26 Google Inc. Multi-stage query processing system and method for use with tokenspace repository
US7386542B2 (en) 2004-08-30 2008-06-10 The Mitre Corporation Personalized broadcast news navigator
JP4588395B2 (ja) 2004-09-24 2010-12-01 富士通株式会社 情報処理端末
US20060074883A1 (en) 2004-10-05 2006-04-06 Microsoft Corporation Systems, methods, and interfaces for providing personalized search and information access
US20060084430A1 (en) 2004-10-14 2006-04-20 Ng Eric M System and method for categorizing information into zones to determine delivery patterns
CN1808430A (zh) 2004-11-01 2006-07-26 西安迪戈科技有限责任公司 智能、图示和自动化互联网和计算机信息的检索和挖掘方法
US7853562B2 (en) 2004-11-02 2010-12-14 Sap Ag System and method for obtaining information from a data management system
KR100657010B1 (ko) 2004-12-22 2006-12-14 한국전자통신연구원 홈게이트웨이와 서비스 게이트웨이 플랫폼을 이용한 댁내UPnP 장치에 대한 댁외 멀티미디어 서비스 제공자의멀티미디어 서비스 장치 및 방법
JP2006186426A (ja) * 2004-12-24 2006-07-13 Toshiba Corp 情報検索表示装置、情報検索表示方法および情報検索表示プログラム
US7512601B2 (en) 2005-01-18 2009-03-31 Microsoft Corporation Systems and methods that enable search engines to present relevant snippets
US7565345B2 (en) 2005-03-29 2009-07-21 Google Inc. Integration of multiple query revision models
US20060242283A1 (en) 2005-04-21 2006-10-26 Dell Products L.P. System and method for managing local storage resources to reduce I/O demand in a storage area network
US7433935B1 (en) 2005-04-29 2008-10-07 Hewlett-Packard Development Company, L.P. Self-adapting plug-in service
WO2007004110A2 (en) 2005-06-30 2007-01-11 Koninklijke Philips Electronics N.V. System and method for the alignment of intrinsic and extrinsic audio-visual information
US7882262B2 (en) 2005-08-18 2011-02-01 Cisco Technology, Inc. Method and system for inline top N query computation
US20080242279A1 (en) 2005-09-14 2008-10-02 Jorey Ramer Behavior-based mobile content placement on a mobile communication facility
US20070073894A1 (en) 2005-09-14 2007-03-29 O Ya! Inc. Networked information indexing and search apparatus and method
US20090029687A1 (en) 2005-09-14 2009-01-29 Jorey Ramer Combining mobile and transcoded content in a mobile search result
US20070198485A1 (en) 2005-09-14 2007-08-23 Jorey Ramer Mobile search service discovery
US7895193B2 (en) 2005-09-30 2011-02-22 Microsoft Corporation Arbitration of specialized content using search results
US20070107019A1 (en) 2005-11-07 2007-05-10 Pasquale Romano Methods and apparatuses for an integrated media device
US20070130585A1 (en) 2005-12-05 2007-06-07 Perret Pierre A Virtual Store Management Method and System for Operating an Interactive Audio/Video Entertainment System According to Viewers Tastes and Preferences
US7792858B2 (en) 2005-12-21 2010-09-07 Ebay Inc. Computer-implemented method and system for combining keywords into logical clusters that share similar behavior with respect to a considered dimension
KR100728025B1 (ko) 2006-01-02 2007-06-14 삼성전자주식회사 UPnP 네트워크에서 외부의 유료 컨텐트를 획득하기위한 방법 및 장치
US8060357B2 (en) 2006-01-27 2011-11-15 Xerox Corporation Linguistic user interface
US7610279B2 (en) 2006-01-31 2009-10-27 Perfect Market, Inc. Filtering context-sensitive search results
US7844603B2 (en) 2006-02-17 2010-11-30 Google Inc. Sharing user distributed search results
US8195650B2 (en) 2007-02-28 2012-06-05 Samsung Electronics Co., Ltd. Method and system for providing information using a supplementary device
US20080250010A1 (en) * 2007-04-05 2008-10-09 Samsung Electronics Co., Ltd. Method and system for determining and pre-processing potential user queries related to content in a network
US8209724B2 (en) 2007-04-25 2012-06-26 Samsung Electronics Co., Ltd. Method and system for providing access to information of potential interest to a user
US8510453B2 (en) 2007-03-21 2013-08-13 Samsung Electronics Co., Ltd. Framework for correlating content on a local network with information on an external network
US8115869B2 (en) 2007-02-28 2012-02-14 Samsung Electronics Co., Ltd. Method and system for extracting relevant information from content metadata
US20080235209A1 (en) 2007-03-20 2008-09-25 Samsung Electronics Co., Ltd. Method and apparatus for search result snippet analysis for query expansion and result filtering
US20070214123A1 (en) 2006-03-07 2007-09-13 Samsung Electronics Co., Ltd. Method and system for providing a user interface application and presenting information thereon
US9100723B2 (en) 2006-03-07 2015-08-04 Samsung Electronics Co., Ltd. Method and system for managing information on a video recording
US8843467B2 (en) 2007-05-15 2014-09-23 Samsung Electronics Co., Ltd. Method and system for providing relevant information to a user of a device in a local network
US8200688B2 (en) 2006-03-07 2012-06-12 Samsung Electronics Co., Ltd. Method and system for facilitating information searching on electronic devices
US20070220037A1 (en) 2006-03-20 2007-09-20 Microsoft Corporation Expansion phrase database for abbreviated terms
US20070233287A1 (en) 2006-03-30 2007-10-04 Samsung Electronics Co., Ltd. Dynamic generation of tasks in resource constrained devices
US8442973B2 (en) 2006-05-02 2013-05-14 Surf Canyon, Inc. Real time implicit user modeling for personalized search
US7685192B1 (en) 2006-06-30 2010-03-23 Amazon Technologies, Inc. Method and system for displaying interest space user communities
JP4372134B2 (ja) 2006-09-29 2009-11-25 株式会社日立製作所 データ比較機能を有するストレージシステム
US7822738B2 (en) 2006-11-30 2010-10-26 Microsoft Corporation Collaborative workspace context information filtering
US8935269B2 (en) 2006-12-04 2015-01-13 Samsung Electronics Co., Ltd. Method and apparatus for contextual search and query refinement on consumer electronics devices
US10664850B2 (en) 2006-12-29 2020-05-26 Provenance Asset Group Llc Providing advertising content to at least one communicating terminal
US7921176B2 (en) 2007-01-03 2011-04-05 Madnani Rajkumar R Mechanism for generating a composite email
US20090055393A1 (en) 2007-01-29 2009-02-26 Samsung Electronics Co., Ltd. Method and system for facilitating information searching on electronic devices based on metadata information
US20080183681A1 (en) 2007-01-29 2008-07-31 Samsung Electronics Co., Ltd. Method and system for facilitating information searching on electronic devices
US20080183596A1 (en) 2007-01-31 2008-07-31 Ebay Inc. Bid system for presentation of data items
US7552114B2 (en) 2007-03-07 2009-06-23 International Business Machines Corporation System, and method for interactive browsing
US20090077065A1 (en) 2007-09-13 2009-03-19 Samsung Electronics Co., Ltd. Method and system for information searching based on user interest awareness
US8176068B2 (en) 2007-10-31 2012-05-08 Samsung Electronics Co., Ltd. Method and system for suggesting search queries on electronic devices
US8938465B2 (en) 2008-09-10 2015-01-20 Samsung Electronics Co., Ltd. Method and system for utilizing packaged content sources to identify and provide information based on contextual information

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180123591A (ko) * 2011-05-25 2018-11-16 구글 엘엘씨 디바이스 메타데이터를 위한 폐쇄 자막 스트림 사용
KR20200015836A (ko) * 2011-05-25 2020-02-12 구글 엘엘씨 디바이스 메타데이터를 위한 폐쇄 자막 스트림 사용
KR20200094806A (ko) * 2011-05-25 2020-08-07 구글 엘엘씨 디바이스 메타데이터를 위한 폐쇄 자막 스트림 사용

Also Published As

Publication number Publication date
US8115869B2 (en) 2012-02-14
KR101472931B1 (ko) 2014-12-15
US20080204595A1 (en) 2008-08-28
CN101267518B (zh) 2011-05-18
CN101267518A (zh) 2008-09-17

Similar Documents

Publication Publication Date Title
KR101472931B1 (ko) 컨텐트 메터데이터로부터 정보를 추출하기 위한 방법 및장치
US11468109B2 (en) Searching for segments based on an ontology
US11197036B2 (en) Multimedia stream analysis and retrieval
US8209724B2 (en) Method and system for providing access to information of potential interest to a user
US8782056B2 (en) Method and system for facilitating information searching on electronic devices
US9100723B2 (en) Method and system for managing information on a video recording
US20080235209A1 (en) Method and apparatus for search result snippet analysis for query expansion and result filtering
US20060167859A1 (en) System and method for personalized searching of television content using a reduced keypad
US20080183681A1 (en) Method and system for facilitating information searching on electronic devices
US8341673B2 (en) Information processing apparatus and method as well as software program
US9286385B2 (en) Method and system for providing access to information of potential interest to a user
KR20010086393A (ko) 비디오 세그먼트를 다른 비디오 세그먼트 또는 정보원에링크시키는 방법 및 장치
JP2013529331A (ja) 表示中のテレビジョン・コンテンツのための自動画像発見および推薦
JP6429382B2 (ja) コンテンツ推薦装置、及びプログラム
KR20030007727A (ko) 자동 비디오 리트리버 제니
Hölbling et al. Content-based tag generation to enable a tag-based collaborative tv-recommendation system.
KR101480411B1 (ko) 전자 장치 상에서 정보 검색을 용이하게 하는 방법 및 시스템
Rautiainen et al. Kuukkeli-TV: Online content-based services and applications for broadcast TV with long-term user experiments
Goto et al. A TV agent system that integrates knowledge and answers users' questions

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
J201 Request for trial against refusal decision
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20171120

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20181119

Year of fee payment: 5