KR101524376B1 - 방송 콘텐츠에 키워드를 색인하는 방법 및 장치 - Google Patents

방송 콘텐츠에 키워드를 색인하는 방법 및 장치 Download PDF

Info

Publication number
KR101524376B1
KR101524376B1 KR1020130161025A KR20130161025A KR101524376B1 KR 101524376 B1 KR101524376 B1 KR 101524376B1 KR 1020130161025 A KR1020130161025 A KR 1020130161025A KR 20130161025 A KR20130161025 A KR 20130161025A KR 101524376 B1 KR101524376 B1 KR 101524376B1
Authority
KR
South Korea
Prior art keywords
broadcast content
keywords
noun
broadcast
word
Prior art date
Application number
KR1020130161025A
Other languages
English (en)
Inventor
오연희
정철우
한성희
안태성
오수영
정병희
김희정
Original Assignee
한국방송공사
주식회사 솔트룩스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국방송공사, 주식회사 솔트룩스 filed Critical 한국방송공사
Priority to KR1020130161025A priority Critical patent/KR101524376B1/ko
Application granted granted Critical
Publication of KR101524376B1 publication Critical patent/KR101524376B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/232Content retrieval operation locally within server, e.g. reading video streams from disk arrays

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

방송 콘텐츠에 하나 이상의 키워드들을 색인하는 방법 및 장치가 제공된다. 하나 이상의 키워드들은 방송 콘텐츠의 텍스트 정보를 분석함으로써 추출될 수 있다. 하나 이상의 키워드들은 방송 콘텐츠의 내용을 나타낼 수 있다. 하나 이상의 키워드들이 방송 콘텐츠에 색인됨으로써 방송 콘텐츠를 검색하려는 사용자는 검색어를 통해 방송 콘텐츠를 검색할 수 있다.

Description

방송 콘텐츠에 키워드를 색인하는 방법 및 장치{METHOD AND APPARATUS FOR INDEXING KEYWORD TO BROADCAST CONTENT}
기술 분야는 방송 콘텐츠에 키워드를 색인하는 기술에 관한 것으로, 특히 방송 콘텐츠의 텍스트 정보의 단어를 방송 콘텐츠의 키워드로서 선정하는 방법 및 장치에 관한 것이다.
일년 동안 제작되는 방송 콘텐츠들의 수는 방대할 수 있다. 더욱이 수십 년간 제작되고 저장되는 방송 콘텐츠들의 수는 더욱 방대할 수 있다. 방송 콘텐츠를 소비하려는 시청자는 수 많은 방송 콘텐츠들 중 시청자가 원하는 특정 방송 콘텐츠를 검색하기를 원할 수 있다. 시청자는 방송 콘텐츠들을 제공하는 서버에 접속하여 방송 콘텐츠들을 검색할 수 있다. 방송 콘텐츠들을 검색하기 위해 키워드(keyword)가 이용될 수 있다.
키워드는 방송 콘텐트의 내용과 연관이 있는 단어일 수 있다. 방송 콘텐츠에 방송 콘텐츠의 내용과 연관이 있는 키워드들이 색인되어 있는 경우, 시청자는 키워드를 입력하여 방송 콘텐츠를 쉽게 검색할 수 있다.
한국공개특허 제10-2002-0001960호(공개일 2002년 01월 09일)에는 인터넷상에서 방송파일과 멀티미디어 데이터를 효율적으로 검색할 수 있는 방법에 대한 발명이 공개되어 있다. 공개 발명의 장치적 구성은 방송과 멀티미디어 데이터의 속성정보를 저장하는 검색 주서버와 방송과 멀티미디어 파일이 보관되어있는 데이터 서버로 구성된다. 공개발명은 인터넷 사용자가 인터넷 상의 방송파일과 멀티미디어 데이터를 검색하고자 할 때 찾고자 하는 검색어를 입력하면 검색어의 내용을 포함하는 방송과 멀티미디어 파일의 위치를 1차 검색결과로 보여준다. 이때 사용자는 바로 파일로 접근해서 결과를 볼 수도 있고 선택한 파일 내에서 2차 검색을 실시하여 방송파일 및 멀티미디어 데이터의 내의 원하는 위치로 바로 접근해서 볼 수 있게 된다.
일 실시예는 제1 방송 콘텐츠와 내용적으로 유사한 제2 방송 콘텐츠를 설정하기 위해 제1 방송 콘텐츠에 키워드를 색인하는 장치 및 방법을 제공할 수 있다.
일 실시예는 실시간으로 방송되는 방송 콘텐츠의 실시간 키워드를 방송 콘텐츠에 색인하는 장치 및 방법을 제공할 수 있다.
일 측면에 있어서, 제1 방송 콘텐츠의 메타데이터 및 부가데이터 중 적어도 하나의 텍스트 정보를 분석함으로써 복수의 명사 단어들을 추출하는 단계, 상기 복수의 명사 단어들 중 하나 이상의 단어들을 상기 제1 방송 콘텐츠의 하나 이상의 제1 키워드(keyword)들로서 선정하는 단계, 상기 하나 이상의 제1 키워드들을 상기 제1 방송 콘텐츠에 색인하는 단계, 상기 하나 이상의 제1 키워드들과 복수의 방송 콘텐츠들의 각각에 색인된 하나 이상의 제2 키워드들의 유사도를 계산하는 단계, 상기 계산된 유사도에 기반하여 상기 복수의 방송 콘텐츠들 중 제2 방송 콘텐츠를 선정하는 단계 및 선정된 상기 제2 방송 콘텐츠를 상기 제1 방송 콘텐츠의 유사 방송 콘텐츠로 설정하는 단계를 포함하는, 방송 콘텐츠 키워드 색인 방법이 제공된다.
방송 콘텐츠 키워드 색인 방법은 단말로부터 검색어를 수신하는 단계를 더 포함할 수 있다.
방송 콘텐츠 키워드 색인 방법은 상기 검색어가 상기 하나 이상의 제1 키워드들 중 하나인 경우 상기 제1 방송 콘텐츠를 상기 검색어에 대한 결과로서 출력하는 단계를 더 포함할 수 있다.
방송 콘텐츠 키워드 색인 방법은 상기 제1 방송 콘텐츠의 유사 콘텐츠로서 상기 제2 방송 콘텐츠를 출력하는 단계를 더 포함할 수 있다.
다른 일 측면에 있어서, 방송 콘텐츠의 메타데이터 및 부가데이터 중 적어도 하나의 텍스트 정보를 분석함으로써 복수의 명사 단어들을 추출하는 단계, 소정의 시간 동안의 상기 방송 콘텐츠 내의 상기 복수의 명사 단어들의 출현 빈도를 각각 계산하는 단계, 계산된 상기 출현 빈도에 기반하여 상기 복수의 명사 단어들 중 상기 방송 콘텐츠의 하나 이상의 키워드들을 선정하는 단계 및 상기 선정된 하나 이상의 키워드들을 상기 방송 콘텐츠에 색인하는 단계를 포함하는, 방송 콘텐츠 키워드 색인 방법이 제공된다.
상기 방송 콘텐츠는 실시간으로 방송되는 방송 콘텐츠일 수 있다.
상기 방송 콘텐츠 키워드 색인 방법은 상기 선정된 하나 이상의 키워드들을 상기 방송 콘텐츠에 대한 실시간 키워드들로서 출력하는 단계를 더 포함할 수 있다.
상기 복수의 명사 단어들을 추출하는 단계는, 상기 방송 콘텐츠의 자막 데이터를 분리하는 단계를 포함할 수 있다.
상기 복수의 명사 단어들을 추출하는 단계는 상기 자막 데이터의 상기 텍스트 정보를 분석함으로써 상기 복수의 명사 단어들을 추출할 수 있다.
상기 방송 콘텐츠는 상기 자막 데이터를 포함하는 디지털 방송 콘텐츠일 수 있다.
상기 복수의 명사 단어들을 추출하는 단계는, 상기 방송 콘텐츠의 실시간 자막을 제공하는 자막 서버로부터 상기 방송 콘텐츠의 자막 데이터를 수신하는 단계를 포함할 수 있다.
상기 복수의 명사 단어들을 추출하는 단계는 상기 자막 데이터의 상기 텍스트 정보를 분석함으로써 상기 복수의 명사 단어들을 추출할 수 있다.
상기 방송 콘텐츠 키워드 색인 방법은 상기 하나 이상의 키워드들 및 상기 소정의 시간에 대한 정보를 서로 간에 연관하는 단계를 더 포함할 수 있다.
상기 방송 콘텐츠에 색인하는 단계는 상기 소정의 시간에 대한 정보와 서로 연관된 상기 하나 이상의 키워드들을 상기 방송 콘텐츠에 색인할 수 있다.
상기 방송 콘텐츠 키워드 색인 방법은 시각 정보를 수신하는 단계를 더 포함할 수 있다.
상기 방송 콘텐츠 키워드 색인 방법은 상기 수신한 시각 정보가 상기 소정의 시간에 대한 정보에 대응하는 경우 상기 소정의 시간에 대한 정보와 서로 연관된 상기 하나 이상의 키워드들을 출력하는 단계를 더 포함할 수 있다.
상기 방송 콘텐츠 키워드 색인 방법은 출력될 상기 하나 이상의 키워드들의 출력 개수를 수신하는 단계를 더 포함할 수 있다.
상기 출력하는 단계는 상기 출현 빈도에 기반하여 계산된 하나 이상의 키워드들 각각의 중요도 값에 따라 상기 하나 이상의 키워드들 중 상기 출력 개수의 키워드들을 출력할 수 있다.
상기 방송 콘텐츠 키워드 색인 방법은 상기 계산된 출현 빈도에 기반하여 상기 복수의 명사 단어들의 중요도 값을 각각 계산하는 단계를 더 포함할 수 있다.
상기 중요도 값을 각각 계산하는 단계는 상기 메타데이터 및 상기 부가데이터 중 적어도 하나의 항목에 할당된 가중치를 상기 복수의 명사 단어들 중 상기 항목에서 추출된 명사 단어에 부여함으로써 상기 중요도 값을 각각 계산할 수 있다.
상기 하나 이상의 키워드들을 선정하는 단계는 상기 각각의 중요도 값에 기반하여 상기 복수의 명사 단어들 중 상기 방송 콘텐츠의 하나 이상의 키워드들을 선정할 수 있다.
상기 방송 콘텐츠 키워드 색인 방법은 상기 하나 이상의 키워드들 및 상기 하나 이상의 키워드들에 대해 각각 계산된 중요도 값을 서로 간에 연관하는 단계를 더 포함할 수 있다.
상기 색인하는 단계는 상기 각각의 중요도 값과 서로 간에 연관된 상기 하나 이상의 키워드들을 상기 방송 콘텐츠에 색인할 수 있다.
또 다른 일 측면에 있어서, 방송 콘텐츠의 메타데이터 및 부가데이터 중 적어도 하나의 텍스트 정보를 분석함으로써 지역명 또는 관광지명을 나타내는 명사 단어를 추출하는 단계, 상기 명사 단어에 해당하는 주소의 제1 지역 코드 및 상기 명사 단어를 서로 간에 연관하는 단계 및 상기 명사 단어와 서로 간에 연관된 상기 제1 지역 코드를 상기 방송 콘텐츠의 키워드로서 상기 방송 콘텐츠에 색인하는 단계를 포함하는, 방송 콘텐츠 키워드 색인 방법이 제공된다.
상기 제1 지역 코드를 상기 명사 단어와 서로 간에 연관하는 단계는 상기 명사 단어에 해당하는 상기 주소의 상위 주소의 제2 지역 코드, 상기 제1 지역 코드 및 상기 명사 단어를 서로 간에 연관할 수 있다.
상기 제1 지역 코드를 상기 방송 콘텐츠에 색인하는 단계는 상기 명사단어 및 상기 제1 지역 코드와 서로 간에 연관된 상기 제2 지역 코드를 상기 방송 콘텐츠의 키워드로서 상기 방송 콘텐츠에 색인할 수 있다.
방송 콘텐츠 키워드 색인 방법은 단말로부터 검색어를 수신하는 단계를 더 포함할 수 있다.
방송 콘텐츠 키워드 색인 방법은 상기 검색어가 지역명 또는 관광지명을 나타내는 경우 상기 검색어에 해당하는 주소의 제3 지역 코드를 검출하는 단계를 더 포함할 수 있다.
방송 콘텐츠 키워드 색인 방법은 상기 제3 지역 코드가 상기 제1 지역 코드에 대응하는 경우 상기 방송 콘텐츠를 상기 검색어에 대한 결과로 출력하는 단계를 더 포함할 수 있다.
방송 콘텐츠 키워드 색인 방법은 단말로부터 검색어를 수신하는 단계를 더 포함할 수 있다.
방송 콘텐츠 키워드 색인 방법은 상기 검색어가 지역명 또는 관광지명을 나타내는 경우 상기 검색어에 해당하는 주소의 제3 지역 코드를 검출하는 단계를 더 포함할 수 있다.
방송 콘텐츠 키워드 색인 방법은 상기 제3 지역 코드가 상기 제2 지역 코드에 대응하는 경우 상기 방송 콘텐츠를 상기 검색어에 대한 결과로 출력하는 단계를 더 포함할 수 있다.
제1 방송 콘텐츠와 내용적으로 유사한 제2 방송 콘텐츠를 설정하기 위해 제1 방송 콘텐츠에 키워드를 색인하는 장치 및 방법이 제공된다.
실시간으로 방송되는 방송 콘텐츠의 실시간 키워드를 방송 콘텐츠에 색인하는 장치 및 방법이 제공된다.
방송 콘텐츠에 지역 코드를 색인하는 장치 및 방법이 제공된다.
도 1은 일 실시예에 따른 방송 콘텐츠 키워드 색인 장치의 구성도를 도시한다.
도 2는 일 예에 따른 방송 콘텐츠에 색인된 키워드들을 이용하여 방송 콘텐츠를 제공하는 방법을 도시한다.
도 3은 일 실시예에 따른 유사 방송 콘텐츠를 제공하기 위한 방송 콘텐츠 키워드 색인 방법의 흐름도를 도시한다.
도 4는 일 예에 따른 키워드를 선정하기 위한 명사 단어의 필드 및 필드의 가중치를 도시한다.
도 5는 일 실시예에 따른 소정의 시간 동안의 키워드를 제공하기 위한 방송 콘텐츠 키워드 색인 방법의 흐름도를 도시한다.
도 6은 일 예에 따른 방송 콘텐츠의 실시간 키워드들을 제공하는 방법을 도시한다.
도 7은 일 예에 따른 복수의 명사 단어들을 추출하는 방법의 흐름도를 도시한다.
도 8은 일 예에 따른 시각 정보에 대응하는 방송 콘텐츠의 키워드들을 출력하는 방법의 흐름도를 도시한다.
도 9는 일 예에 따른 중요도 값과 연관된 키워드를 방송 콘텐츠에 색인하는 방법의 흐름도를 도시한다.
도 10은 일 실시예에 따른 지역 코드를 제공하기 위한 방송 콘텐츠 키워드 색인 방법의 흐름도를 도시한다.
도 11은 일 예에 따른 상위 주소의 지역 코드와 연관된 키워드를 방송 콘텐츠에 색인하는 방법의 흐름도를 도시한다.
도 12는 일 예에 따른 검색어에 대한 결과를 출력하는 방송 콘텐츠 키워드 색인 방법의 흐름도를 도시한다.
도 13은 일 예에 따른 검색어에 대응하는 방송 콘텐츠를 제공하는 방법을 도시한다.
이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
실시예에는 다양한 변경이 가해질 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 실시예를 실시 형태에 대해 한정하려는 것이 아니며, 실시예는 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
실시예에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 실시예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도 1은 일 실시예에 따른 방송 콘텐츠 키워드 색인 장치의 구성도를 도시한다.
방송 콘텐츠는 영상, 메타데이터 및 부가데이터를 포함할 수 있다. 메타데이터 및 부가데이터는 텍스트 정보를 포함할 수 있다.
방송 콘텐츠의 메타데이터 및 부가데이터 중 적어도 하나의 텍스트 정보로부터 추출된 단어가 방송 콘텐츠의 키워드로 이용될 수 있다. 키워드는 방송 콘텐츠에 색인될 수 있다. 방송 콘텐츠에 색인된 키워드는 방송 콘텐츠를 검색하기 위해 이용될 수 있다.
방송 콘텐츠는 프로그램, 회별 프로그램, 세그먼트 콘텐츠, 촬영원본, 취재원본 및 뉴스 아이템 중 하나일 수 있다.
세그먼트 콘텐츠는 콘텐츠 내부에 존재하는 콘텐츠일 수 있다. 예를 들어, 개그 프로그램에 존재하는 복수의 개그 코너들 각각은 세그먼트 콘텐츠일 수 있다. 동일한 코너의 세그먼트 콘텐츠들의 집합은 세그먼트 콘텐츠의 그룹일 수 있다. 예를 들어, 세그먼트 콘텐츠가 개그 코너인 "달인"인 경우, 세그먼트 콘텐츠의 그룹은 복수 회차의 "달인"을 포함하는 콘텐츠일 수 있다.
회별 프로그램의 상위 콘텐츠는 프로그램일 수 있다. 촬영원본 또는 취재원본의 상위 콘텐츠는 회별 프로그램일 수 있다. 뉴스 아이템의 상위 콘텐츠는 뉴스 아이템을 포함하는 회별 프로그램(예를 들어, 회별 뉴스 프로그램)을 포함하는 프로그램일 수 있다. 세그먼트 콘텐츠의 상위 콘텐츠는 세그먼트 콘텐츠를 포함하는 회별 프로그램을 포함하는 프로그램일 수 있다.
프로그램의 메타데이터는 프로그램 명, 기획의도 및 출연자 이름 중 적어도 하나를 포함할 수 있다. 회별 프로그램의 메타데이터는 프로그램 명, 부제 및 출연자 이름 중 적어도 하나를 포함할 수 있다. 세그먼트의 메타데이터는 세그먼트 명, 세그먼트 내용 및 세그먼트의 출연자 이름 중 적어도 하나를 포함할 수 있다. 촬영원본 또는 취재원본의 메타데이터는 소재 명 및 소재의 상세내용 중 적어도 하나를 포함할 수 있다. 뉴스 아이템의 메타데이터는 아이템 명 및 아이템의 내용 중 적어도 하나를 포함할 수 있다.
회별 프로그램의 부가데이터는 줄거리, 콘텐츠의 자막, 큐시트, 원고, 대본, 프리뷰 노트 중 적어도 하나를 포함할 수 있다.
콘텐츠 정보는 방송 콘텐츠의 프로그램 명, 부제, 자막, 대본, 원고, 세그먼트 명, 세그먼트 내용, 아이템 명, 아이템 내용, 방송 일시, 회차 정보, 출연자, 연출자, 제작자, 스태프, 줄거리 및 키워드 중 적어도 하나를 포함할 수 있다.
콘텐츠 정보는 메타데이터 또는 부가데이터에 포함될 수 있다. 즉, 콘텐츠 정보는 메타데이터 및 부가데이터 중 적어도 하나의 항목일 수 있다.
방송 콘텐츠 키워드 색인 장치(100)(이하에서, 방송 콘텐츠 키워드 색인 장치(100)는 장치(100)로 약술된다)는 텍스트 분석부(110), 키워드 선정부(120), 색인부(130), 유사도 계산부(140), 통신부(150), 지역 코드 연관부(160) 및 저장부(170)를 포함할 수 있다.
키워드 선정부(120), 색인부(130), 유사도 계산부(140), 통신부(150), 지역 코드 연관부(160) 및 저장부(170)에 대해, 하기에서 도 2 내지 도 13을 참조하여 상세히 설명된다.
방송 콘텐츠의 메타데이터 및 부가데이터 중 적어도 하나의 텍스트 정보로부터 추출된 단어를 방송 콘텐츠의 키워드로서 방송 콘텐츠에 색인하는 방법에 대해, 하기에서 도 2 내지 도 13을 참조하여 상세히 설명된다.
도 2는 일 예에 따른 방송 콘텐츠에 색인된 키워드들을 이용하여 방송 콘텐츠를 제공하는 방법을 도시한다.
일 실시예에 따르면, 장치(100)는 검색어(210)를 수신할 수 있다.
장치(100)는 검색어(210)에 대응하는 하나 이상의 방송 콘텐츠들(220)을 검색할 수 있다.
사용자로부터 하나 이상의 방송 콘텐츠들(220) 중 선택된 방송 콘텐츠(230)를 수신할 수 있다.
선택된 방송 콘텐츠(230)가 프로그램인 경우 장치(100)는 방송 콘텐츠(230)의 하위 콘텐츠인 회별 프로그램들을 출력할 수 있다.
장치(100)는 출력된 회별 프로그램을 출력할 때, 각각의 회별 프로그램에 색인된 키워드들(240 또는 242)을 함께 출력할 수 있다.
장치(100)는 방송 콘텐츠(230)의 유사 콘텐츠들(250)을 출력할 수 있다.
유사 방송 콘텐츠를 제공하기 위한 방송 콘텐츠 키워드 색인 방법에 대해, 도 3 내지 도 4를 참조하여 상세히 설명된다.
앞서 도 1을 참조하여 설명된 기술적 내용들이 그대로 적용될 수 있으므로, 보다 상세한 설명은 이하 생략하기로 한다.
도 3은 일 실시예에 따른 유사 방송 콘텐츠를 제공하기 위한 방송 콘텐츠 키워드 색인 방법의 흐름도를 도시한다.
단계(310)에서, 텍스트 분석부(110)는 제1 방송 콘텐츠의 메타데이터 및 부가데이터 중 적어도 하나의 텍스트 정보를 분석함으로써 복수의 명사 단어들을 추출할 수 있다.
단계(320)에서, 키워드 선정부(120)는 복수의 명사 단어들 중 하나 이상의 단어들을 제1 방송 콘텐츠의 하나 이상의 제1 키워드(keyword)들로서 선정할 수 있다.
키워드 선정부(120)는 추출된 복수의 명사 단어들 각각에 대해 티에프-아이디에프(Term Frequency-Inverse Document Frequency; TF-IDF)의 방식을 적용함으로써 복수의 명사 단어들 각각에 대한 중요도 값을 계산할 수 있다.
중요도 값은 하기의 [수학식 1] 내지 [수학식 3]에 의해 계산될 수 있다.
Figure 112013117439373-pat00001
[수학식 1]에서, t는 명사 단어를 나타낼 수 있다. c는 방송 콘텐츠를 나타낼 수 있다. d는 방송 콘텐츠의 프로그램 명, 부제, 자막, 대본, 원고, 세그먼트 명, 세그먼트 내용, 아이템 명, 아이템 내용, 방송 일시, 회차 정보, 출연자, 연출자, 제작자, 스태프, 줄거리 또는 키워드의 항목을 나타낼 수 있다. tf(t, d)는 d가 나타내는 항목 내의 t의 개수일 수 있다. w는 d가 나타내는 항목에 대한 가중치일 수 있다. d가 나타내는 항목에 대한 가중치가 없는 경우 w는 1일 수 있다. n은 c가 포함하는 항목의 개수일 수 있다. TF(t, c, n)은 c에 존재하는 t의 빈도값일 수 있다.
Figure 112013117439373-pat00002
[수학식 2]에서, C는 방송 콘텐츠의 상위 콘텐츠일 수 있다. 예를 들어, c가 회별 프로그램인 경우, C는 상기의 회별 프로그램을 포함하는 복수의 회별 프로그램들의 그룹일 수 있다. 복수의 회별 프로그램들의 그룹은 프로그램일 수 있다.
[수학식 2]에서, |C|는 C가 포함하는 방송 콘텐츠의 개수일 수 있다. |{c∈C:t∈c}|는 C가 포함하는 방송 콘텐츠들 중 t를 포함하는 방송 콘텐츠의 개수일 수 있다. IDF(t, c, C)는 역 상위 콘텐츠 빈도값일 수 있다. IDF(t, c, C)는 t가 상위 콘텐츠 내에서 얼마나 공통적으로 나타나는지를 나타내는 값일 수 있다.
Figure 112013117439373-pat00003
TF-IDF는 t의 중요도 값일 수 있다.
키워드 선정부(120)는 중요도 값을 계산하기 위해, 추출된 단어에 가중치를 부여할 수 있다. 가중치는 추출된 단어의 항목에 따라 다르게 설정될 수 있다.
추출된 단어의 항목에 따라 부여되는 가중치에 대해, 하기에서 도 4를 참조하여 상세히 설명된다.
키워드 선정부(120)는 계산된 중요도 값이 큰 순서대로 복수의 명사 단어들 각각에게 순위를 할당할 수 있다.
키워드 선정부(120)는 복수의 명사 단어들 중 소정의 순위 내의 명사 단어들을 제1 방송 콘텐츠의 제1 키워드들로서 선정할 수 있다.
단계(330)에서, 색인부(130)는 하나의 제1 키워드들을 제1 방송 콘텐츠에 색인할 수 있다.
단계(340)에서, 유사도 계산부(140)는 하나 이상의 제1 키워드들과 복수의 방송 콘텐츠들의 각각에 색인된 하나 이상의 제2 키워드들의 유사도를 계산할 수 있다.
유사도 계산부(140)는 유사도를 계산할 때, 하나 이상의 제1 키워드들 중 소정의 개수의 키워드들 및 하나 이상의 제2 키워드들 중 소정의 개수의 키워드들을 사용할 수 있다. 예를 들어, 하나 이상의 제1 키워드들 중 큰 중요도 값이 계산된 소정의 개수의 키워드들이 사용될 수 있다.
단계(350)에서, 유사도 계산부(140)는 계산된 유사도에 기반하여 복수의 방송 콘텐츠들 중 제2 방송 콘텐츠를 선정할 수 있다.
선정된 제2 방송 콘텐츠는 복수 일 수 있다. 유사도 계산부(140)는 선정된 제2 방송 콘텐츠가 복수인 경우, 제1 방송 콘텐츠와 유사도가 큰 순서대로 복수의 제2 방송 콘텐츠들의 각각에 순위를 부여할 수 있다.
단계(360)에서, 유사도 계산부(140)는 선정된 제2 방송 콘텐츠를 제1 방송 콘텐츠의 유사 방송 콘텐츠로 설정할 수 있다.
단계(370)에서, 통신부(150)는 단말로부터 검색어를 수신할 수 있다.
검색어는 단말의 사용자에 의해 단말에 입력될 수 있다.
단계(380)에서, 통신부(150)는 검색어가 하나 이상의 제1 키워드들 중 하나인 경우 제1 방송 콘텐츠를 검색어에 대한 결과로서 단말로 출력할 수 있다.
단계(390)에서, 통신부(150)는 제1 방송 콘텐츠의 유사 콘텐츠로서 상기 제2 방송 콘텐츠를 단말로 출력할 수 있다.
저장부(170)는 제1 방송 콘텐츠의 데이터를 저장할 수 있다.
저장부(170)는 단계들(310 내지 380)의 처리 결과를 저장할 수 있다. 예를 들어, 저장부(170)는 추출된 복수의 명사 단어들, 하나 이상의 제1 키워드들, 제1 키워드들이 색인된 제1 방송 콘텐츠의 데이터, 하나 이상의 제1 키워드들 및 제2 키워드들 간의 유사도, 제1 방송 콘텐츠의 유사 콘텐츠로 설정된 제2 방송 콘텐츠의 정보 중 적어도 하나를 저장할 수 있다.
앞서 도 1 내지 도 2를 참조하여 설명된 기술적 내용들이 그대로 적용될 수 있으므로, 보다 상세한 설명은 이하 생략하기로 한다.
도 4는 일 예에 따른 키워드를 선정하기 위한 명사 단어의 필드 및 필드의 가중치를 도시한다.
전술된 추출된 단어의 항목에 따라 부여되는 가중치에 대해 도 4를 참조하여 상세히 설명된다.
예를 들어, 단어의 항목은 아카이브 키워드, 전자 큐시트, 큐시트, 원고, 대본, 자막, 줄거리, 키워드, 제작자, 스태프, 출연자, 연출자, 부제, 프로그램 명, 세그먼트 명, 세그먼트 내용, 아이템 명, 아이템 내용, 방송 일시, 회차 정보 및 표준 분류 중 하나일 수 있다.
필드명(410)은 단어의 항목을 나타낼 수 있다.
필드명(4010)의 ARCHIVE_KEYWORD는 아카이브 키워드를, ARCHIVE_REF_DATA_102는 참조자료의 전자 큐시트를, ARCHIVE_REF_DATA_103 는 참조 자료의 큐시트를, ARCHIVE_REF_DATA_104는 참조자료의 원고 또는 대본을, ARCHIVE_REF_DATA_106는 참조자료의 자막을, ARCHIVE_REF_DATA_108는 참조자료의 줄거리를, CAPTION_CONTENT는 자막을, PERSON_101_INDEX는 제작자를, PERSON_102_INDEX는 스태프를, PERSON_103_INDEX는 출연자를, PROGRAM_SUBTITLE는 부제를, PROGRAM_TITLE 1은 프로그램 명을, SEGMENT_TITLE 1은 세그먼트 명을, STD_CLASSIFICATION_INTEGRA_NER은 표준 분류를 각각 나타낼 수 있다.
가중치(420)는 필드명(410)의 각각에 해당하는 가중치를 나타낼 수 있다. 가중치(420)는 장치(100)의 운영자에 의해 각각 설정될 수 있다.
추출된 단어의 필드에 따라, 추출된 단어에 해당 필드의 가중치가 부여될 수 있다. 예를 들어, "유재석"이라는 명사 단어가 출연자를 나타내는 PERSON_103_INDEX의 필드에서 추출된 경우, "유재석"에는 "30"의 가중치가 부여될 수 있다.
방송 콘텐츠가 실시간 방송인 경우, 장치(100)는 방송되는 내용과 관련된 키워드를 실시간으로 추출할 수 있다. 실시간 방송의 키워드를 실시간으로 색인하는 방법에 대해, 하기에서 도 5 내지 도 8을 참조하여 상세히 설명된다.
앞서 도 1 내지 도 3을 참조하여 설명된 기술적 내용들이 그대로 적용될 수 있으므로, 보다 상세한 설명은 이하 생략하기로 한다.
도 5는 일 실시예에 따른 소정의 시간 동안의 키워드를 제공하기 위한 방송 콘텐츠 키워드 색인 방법의 흐름도를 도시한다.
단계(510)에서, 텍스트 분석부(110)는 방송 콘텐츠의 메타데이터 및 부가데이터 중 적어도 하나의 텍스트 정보를 분석함으로써 복수의 명사 단어들을 추출할 수 있다.
방송 콘텐츠는 실시간으로 방송되는 방송 콘텐츠일 수 있다.
실시간으로 방송되는 방송 콘텐츠의 텍스트 정보를 분석하는 방법에 대해, 하기에도 도 7을 참조하여 상세히 설명된다.
단계(520)에서, 키워드 선정부(120)는 소정의 시간 동안의 방송 콘텐츠 내의 복수의 명사 단어들의 출현 빈도를 각각 계산할 수 있다.
소정의 시간은 방송 콘텐츠가 실시간으로 출력되고 있는 현재 시각으로부터 특정의 과거 시각까지의 시간일 수 있다. 예를 들어, 소정의 시간은 현재 시각으로부터 과거의 5분의 시간일 수 있다.
또한, 소정의 시간은 일정한 시간의 간격으로 정해질 수 있다. 예를 들어, 소정의 시간은 방송 콘텐츠의 방송 시각으로부터 5분 단위로 설정될 수 있다.
단계(530)에서, 키워드 선정부(120)는 계산된 상기 출현 빈도에 기반하여 복수의 명사 단어들 중 방송 콘텐츠의 하나 이상의 키워드들을 선정할 수 있다.
키워드 선정부(120)는 방송 콘텐츠의 방송 시작 시각으로부터 현재 시각까지의 복수의 명사 단어들 각각의 누적 출현 빈도를 계산할 수 있다.
키워드 선정부(120)는 복수의 명사 단어들 각각의 누적 출현 빈도 및 소정의 시간 동안의 출현 빈도를 이용하여 복수의 명사 단어들 각각의 중요도 값을 계산할 수 있다. 중요도 값은 전술된 [수학식 1] 내지 [수학식 3]을 이용하여 계산될 수 있다.
키워드 선정부(120)는 복수의 명사 단어들 중 중요도 값이 큰 순서의 소정의 개수를 방송 콘텐츠의 하나 이상의 키워드들로 선정할 수 있다.
중요도 값을 계산함으로써 각각의 중요도 값과 서로 간에 연관된 하나 이상의 키워드들을 방송 콘텐츠에 색인하는 방법에 대해, 하기에서 도 9를 참조하여 상세히 설명된다.
단계(540)에서, 색인부(130)는 하나 이상의 키워드들 및 소정의 시간에 대한 정보를 서로 간에 연관할 수 있다.
단계(550)에서, 색인부(130)는 선정된 하나 이상의 키워드들을 방송 콘텐츠에 색인할 수 있다.
색인부(130)는 하나 이상의 키워드들 및 소정의 시간에 대한 정보가 서로 간에 연관된 경우, 소정의 시간에 대한 정보와 서로 연관된 하나 이상의 키워드들을 방송 콘텐츠에 색인할 수 있다. 예를 들어, 소정의 시간에 대한 정보는 소정의 시간의 시작 시각 및 종료 시각을 포함할 수 있다.
소정의 시간에 대한 정보는 방송 콘텐츠의 시작 시각으로부터 방송이 진행된 시간의 정보를 포함할 수 있다. 예를 들어, 소정의 시간에 대한 정보는 시작 시간으로부터 45분 후 및 50분 후 사이의 시간에 대한 정보일 수 있다.
소정의 시간에 대한 정보는 날짜 정보를 포함할 수도 있다.
단계(560)에서, 통신부(150)는 선정된 하나 이상의 키워드들을 방송 콘텐츠에 대한 실시간 키워드들로서 출력할 수 있다.
방송 콘텐츠에 대한 실시간 키워드들은 현재 시각이 변화함에 따라 변경될 수 있다. 예를 들어, 소정의 시간이 방송 콘텐츠의 방송 시각으로부터 5분 단위로 설정된 경우, 실시간 키워드들은 5분 단위로 변경될 수 있다.
도 3에서, 단계(560)는 단계(550)가 수행된 후 수행되는 것으로 도시되었으나, 도시된 바와 다르게, 단계(550) 및 단계(560)는 병렬적으로 수행될 수 있다.
저장부(170)는 단계들(510 내지 560)의 처리 결과를 저장할 수 있다
통신부(150)는 단말로 실시간 키워드들을 출력할 수 있다. 출력되는 실시간 키워드들에 대해, 하기에서 도 6을 참조하여 상세히 설명된다.
앞서 도 1 내지 도 4를 참조하여 설명된 기술적 내용들이 그대로 적용될 수 있으므로, 보다 상세한 설명은 이하 생략하기로 한다.
도 6은 일 예에 따른 방송 콘텐츠의 실시간 키워드들을 제공하는 방법을 도시한다.
통신부(150)는 단말로 실시간으로 방송되는 방송 콘텐츠(610)에 대한 실시간 키워드들(620)을 출력할 수 있다.
현재 시각은 방송 콘텐츠(610)가 실시간으로 방송되고 있을 수 있다.
실시간 키워드들(620)은 현재 시각에 해당하는 방송 콘텐츠(610)의 실시간 키워드들일 수 있다. 현재 시각이 변화함에 따라 실시간 키워드들(620)은 변화될 수 있다.
실시간 키워드들(620) 중 가장 상단에 위치한 키워드는 중요도 값이 다른 실시간 키워드들(620)에 비해 더 큰 값일 수 있다. 예를 들어, "동해안"은 소정의 시간 동안 방송 콘텐츠(620) 내에서 출현 빈도가 가장 높은 키워드일 수 있다.
앞서 도 1 내지 도 5를 참조하여 설명된 기술적 내용들이 그대로 적용될 수 있으므로, 보다 상세한 설명은 이하 생략하기로 한다.
도 7은 일 예에 따른 복수의 명사 단어들을 추출하는 방법의 흐름도를 도시한다.
전술된 단계(510)는 하기의 단계들(710 및 720)을 포함할 수 있다.
단계(710)에서, 텍스트 분석부(110)는 방송 콘텐츠의 자막 데이터를 방송 콘텐츠로부터 분리할 수 있다. 자막 데이터는 텍스트 정보 및 텍스트 정보의 타임 코드를 포함할 수 있다. 타임 코드는 텍스트 정보가 출력되는 시각에 관한 정보일 수 있다.
방송 콘텐츠는 자막 데이터를 포함하는 디지털 방송 콘텐츠일 수 있다.
텍스트 분석부(110)는 자막 데이터의 텍스트 정보를 분석함으로써 복수의 명사 단어들을 추출할 수 있다.
단계(720)에서, 통신부(150)는 방송 콘텐츠의 실시간 자막을 제공하는 자막 서버로부터 방송 콘텐츠의 자막 데이터를 수신할 수 있다. 자막 데이터는 텍스트 정보 및 텍스트 정보의 타임 코드를 포함할 수 있다.
텍스트 분석부(110)는 자막 데이터의 텍스트 정보를 분석함으로써 복수의 명사 단어들을 추출할 수 있다.
단계(710) 및 단계(720)는 선택적으로 수행될 수 있다. 예를 들어, 방송 콘텐츠가 디지털 방송 콘텐츠인 경우 단계(710)만이 수행될 수 있다.
단계(710) 또는 단계(720)이 수행된 후, 전술된 단계(520)가 수행될 수 있다.
사용자는 단말을 통해 색인된 방송 콘텐츠의 실시간 키워드들을 검색할 수 있다. 방송 콘텐츠에 색인된 키워드들을 제공하는 방법에 대해, 하기에서 도 8을 참조하여 상세히 설명된다.
앞서 도 1 내지 도 6을 참조하여 설명된 기술적 내용들이 그대로 적용될 수 있으므로, 보다 상세한 설명은 이하 생략하기로 한다.
도 8은 일 예에 따른 시각 정보에 대응하는 방송 콘텐츠의 키워드들을 출력하는 방법의 흐름도를 도시한다.
하기의 단계들(810 내지 830)은 전술된 단계(550)가 수행된 후, 수행될 수 있다.
단계(810)에서, 통신부(150)는 단말로부터 시각 정보를 수신할 수 있다. 시각 정보는 날짜 정보 및 시간 정보일 수 있다. 예를 들어, 시각 정보는 "3월 8일 22시 25분"일 수 있다. 또는, 시각 정보는 방송 콘텐츠의 시작 시각으로부터 "30분 후"일 수 있다.
단계(820)에서, 통신부(150)는 단말로부터 출력될 하나 이상의 키워드들의 출력 개수를 수신할 수 있다. 예를 들어, 출력 개수는 10개일 수 있다.
단계(820)는 수행되지 않을 수도 있다. 예를 들어, 단말로부터 출력 개수가 수신되지 않는 경우 단계(820)가 수행되지 않을 수 있다.
단계(830)에서, 통신부(150)는 수신한 시각 정보가 소정의 시간에 대한 정보에 대응하는 경우 소정의 시간에 대한 정보와 서로 연관된 하나 이상의 키워드들을 단말로 출력할 수 있다.
예를 들어, 수신한 시각 정보가 소정의 시간 내에 포함되는 경우 수신한 시각 정보가 소정의 시간에 대한 정보에 대응할 수 있다.
통신부(150)는 단계(820)가 수행된 경우 출현 빈도에 기반하여 계산된 하나 이상의 키워드들 각각의 중요도 값에 따라 하나 이상의 키워드들 중 출력 개수의 키워드들을 단말로 출력할 수 있다.
앞서 도 1 내지 도 7을 참조하여 설명된 기술적 내용들이 그대로 적용될 수 있으므로, 보다 상세한 설명은 이하 생략하기로 한다.
도 9는 일 예에 따른 중요도 값과 연관된 키워드를 방송 콘텐츠에 색인하는 방법의 흐름도를 도시한다.
하나 이상의 키워드들의 중요도 값을 계산함으로써 각각의 중요도 값과 서로 간에 연관된 하나 이상의 키워드들을 방송 콘텐츠에 색인하는 방법에 대해 하기의 단계들(910 내지 940)을 통해 설명될 수 있다.
단계(910)는 전술된 단계(520)가 수행된 후, 수행될 수 있다.
단계(910)에서, 키워드 선정부(120)는 계산된 출현 빈도에 기반하여 복수의 명사 단어들의 중요도 값을 각각 계산할 수 있다.
키워드 선정부(120)는 복수의 명사 단어들 각각의 누적 출현 빈도 및 소정의 시간 동안의 출현 빈도를 이용하여 복수의 명사 단어들 각각의 중요도 값을 계산할 수 있다. 중요도 값은 전술된 [수학식 1] 내지 [수학식 3]을 이용하여 계산될 수 있다.
키워드 선정부(120)는 메타데이터 및 부가데이터 중 적어도 하나의 항목에 할당된 가중치를 복수의 명사 단어들 중 상기의 항목에서 추출된 명사 단어에 부여함으로써 복수의 명사 단어들의 중요도 값을 각각 계산할 수 있다.
단계(920)에서, 키워드 선정부(120)는 각각의 중요도 값에 기반하여 복수의 명사 단어들 중 방송 콘텐츠의 하나 이상의 키워드들을 선정할 수 있다.
단계(910)가 수행된 경우, 전술된 단계(530)는 단계(920)를 포함할 수 있다. 즉, 단계(530)에서, 키워드 선정부(120)는 각각의 중요도 값에 기반하여 복수의 명사 단어들 중 방송 콘텐츠의 하나 이상의 키워드들을 선정할 수 있다.
단계(930)에서, 색인부(130)는 하나 이상의 키워드들 및 하나 이상의 키워드들에 대해 각각 계산된 중요도 값을 서로 간에 연관할 수 있다.
단계(910)가 수행된 경우, 전술된 단계(540)는 단계(930)를 포함할 수 있다. 즉, 단계(540)에서, 색인부(130)는 하나 이상의 키워드들, 소정의 시간에 대한 정보 및 하나 이상의 키워드들에 대해 각각 계산된 중요도 값을 서로 간에 연관할 수 있다.
단계(940)에서, 색인부(130)는 각각의 중요도 값과 서로 간에 연관된 하나 이상의 키워드들을 방송 콘텐츠에 색인할 수 있다.
단계(910)가 수행된 경우, 전술된 단계(550)는 단계(940)를 포함할 수 있다. 즉, 단계(550)에서, 색인부(130)는 소정의 시간에 대한 정보 및 하나 이상의 키워드들에 대해 각각 계산된 중요도 값과 서로 간에 연관된 하나 이상의 키워드들을 방송 콘텐츠에 색인할 수 있다.
단계(940)가 수행된 후, 전술된 단계(560)가 수행될 수 있다.
선정된 키워드가 지역을 나타내는 경우, 해당 지역에 관한 내용을 포함하는 방송 콘텐츠가 키워드를 통해 식별될 수 있다.
추출된 명사 단어가 지역명 또는 관광지명인 경우 지역명 또는 관광지명에 해당하는 주소를 나타내는 지역 코드 및 명사 단어를 서로 간에 연관하여 방송 콘텐츠에 색인하는 방법에 관해, 하기에서 도 10 내지 도 13을 참조하여 상세히 설명된다.
앞서 도 1 내지 도 8을 참조하여 설명된 기술적 내용들이 그대로 적용될 수 있으므로, 보다 상세한 설명은 이하 생략하기로 한다.
도 10은 일 실시예에 따른 지역 코드를 제공하기 위한 방송 콘텐츠 키워드 색인 방법의 흐름도를 도시한다.
단계(1010)에서, 텍스트 분석부(110)는 방송 콘텐츠의 메타데이터 및 부가데이터 중 적어도 하나의 텍스트 정보를 분석함으로써 지역명 또는 관광지명을 나타내는 명사 단어를 추출할 수 있다.
지역명은 행정구역 상의 명칭일 수 있다. 예를 들어, 지역명은 "서울", "영등포구" 등일 수 있다.
관광지명은 강의 이름, 산의 이름, 유적지 명 및 시설물의 명칭 중 적어도 하나를 포함할 수 있다.
단계(1020)에서, 지역 코드 연관부(160)는 명사 단어에 해당하는 주소의 제1 지역 코드 및 명사 단어를 서로 간에 연관할 수 있다.
지역 코드는 계층들을 가진 숫자들의 조합일 수 있다. 계층들은 행정구역 상의 구조에 따라 구분될 수 있다. 예를 들어, "서울시 강남구 논현동"인 경우, "서울시"에 할당된 숫자가 "1"이고, "강남구"에 할당된 숫자가 "22"이고, "논현동"에 할당된 숫자가 "17"인 경우, "서울시 강남구 논현동"에 해당하는 지역 코드는 "12217000"일 수 있다. 지역 코드 중 "000"은 더 하위의 주소를 나타내기 위해 이용될 수 있다.
상기의 지역 코드는 설명을 위한 예시일 뿐이며, 상기의 지역 코드와는 상이한 체계의 지역 코드가 사용될 수도 있다.
단계(1030)에서, 색인부(130)는 명사 단어와 서로 간에 연관된 제1 지역 코드를 방송 콘텐츠의 키워드로서 방송 콘텐츠에 색인할 수 있다.
저장부(170)는 단계들(1010 내지 1030)의 처리 결과를 저장할 수 있다
단계(1020)에서는 추출된 명사 단어에 해당하는 주소의 제1 지역 코드 및 명사 단어를 서로 간에 연관할 수 있다. 추가적으로, 주소의 상위 주소의 제2 지역 코드 및 명사 단어를 서로 간에 연관하는 방법에 대해, 하기에서 도 11을 참조하여 상세히 설명된다.
앞서 도 1 내지 도 9를 참조하여 설명된 기술적 내용들이 그대로 적용될 수 있으므로, 보다 상세한 설명은 이하 생략하기로 한다.
도 11은 일 예에 따른 상위 주소의 지역 코드와 연관된 키워드를 방송 콘텐츠에 색인하는 방법의 흐름도를 도시한다.
하기의 단계들(1110 내지 1120)은 전술된 단계(1010)가 수행된 후, 수행될 수 있다.
단계(1110)에서, 지역 코드 연관부(160)는 추출된 명사 단어에 해당하는 주소의 상위 주소의 제2 지역 코드 및 명사 단어를 서로 간에 연관할 수 있다.
전술된 단계(1020)는 단계(1110)를 포함할 수 있다. 즉, 색인부(130)는 추출된 명사 단어에 해당하는 주소의 상위 주소의 제2 지역 코드, 제1 지역 코드 및 명사 단어를 서로 간에 연관할 수 있다.
단계(1120)에서, 색인부(130)는 명사 단어와 서로 연관된 제2 지역 코드를 방송 콘텐츠의 키워드로서 방송 콘텐츠에 색인할 수 있다.
전술된 단계(1020)는 단계(1110)를 포함할 수 있다. 즉, 색인부(130)는 명사 단어 및 제1 지역 코드와 서로 간에 연관된 제2 지역 코드를 방송 콘텐츠의 키워드로서 방송 콘텐츠에 색인할 수 있다.
방송 콘텐츠에 색인된 키워드는 방송 콘테츠의 검색에 이용될 수 있다. 키워드를 이용하여 방송 콘텐츠를 제공하는 방법에 대해, 하기에서 도 12 내지 도 13을 참조하여 상세히 설명된다.
앞서 도 1 내지 도 10을 참조하여 설명된 기술적 내용들이 그대로 적용될 수 있으므로, 보다 상세한 설명은 이하 생략하기로 한다.
도 12는 일 예에 따른 검색어에 대한 결과를 출력하는 방송 콘텐츠 키워드 색인 방법의 흐름도를 도시한다.
하기의 단계들(1210 내지 1230)은 전술된 단계(1030)가 수행된 후, 수행될 수 있다.
단계(1210)에서, 통신부(150)는 단말로부터 검색어를 수신할 수 있다.
단계(1220)에서, 지역 코드 연관부(160)는 검색어가 지역명 또는 관광지명을 나타내는 경우 검색어에 해당하는 제3 지역 코드를 검출할 수 있다.
예를 들어, 수신한 검색어가 "서울시 강남구 논현동"인 경우, 검출된 제3 지역 코드는 "12217000"일 수 있다.
단계(1230)에서, 통신부(150)는 제3 지역 코드가 제1 지역 코드에 대응하는 경우 방송 콘텐츠를 검색어에 대한 결과로 출력할 수 있다.
또한, 통신부(150)는 제3 지역 코드가 제2 지역 코드에 대응하는 경우 방송 콘텐츠를 검색어에 대한 결과로 출력할 수 있다.
예를 들어, 수신한 검색어가 "서울시 강남구"인 경우, 검출된 제3 지역 코드는 "12200000"일 수 있다.
방송 콘텐츠의 제1 지역 코드가 "12217000"인 경우, 방송 콘텐츠의 제2 지역 코드는 "12200000" 또는 "10000000"일 수 있다. 방송 콘텐츠에 제2 지역 코드로 "12200000"가 색인되어 있는 경우, 색인부(130)는 검색어, "서울시 강남구"에 대한 결과로 상기의 방송 콘텐츠를 출력할 수 있다.
검색어에 대한 검색 결과를 제공하는 방법에 대해, 하기에도 도 13을 참조하여 상세히 설명된다.
앞서 도 1 내지 도 11을 참조하여 설명된 기술적 내용들이 그대로 적용될 수 있으므로, 보다 상세한 설명은 이하 생략하기로 한다.
도 13은 일 예에 따른 검색어에 대응하는 방송 콘텐츠를 제공하는 방법을 도시한다.
통신부(150)는 단말로부터 검색어(1310)를 수신할 수 있다. 예를 들어 검색어(1310)는 "통영"일 수 있다. "통영"은 지역명일 수 있다.
지역 코드 연관부(160)는 검색어(1310)에 해당하는 주소(1320)를 검출할 수 있다. 예를 들어, "통영"에 해당하는 주소는 경상남도 통영시일 수 있다.
지역 코드 연관부(160)는 "경상남도 통영시"에 해당하는 제3 지역 코드를 검출할 수 있다.
통신부(150)는 제3 지역 코드를 이용하여 제1 지역 코드 또는 제2 지역 코드가 색인된 방송 콘텐츠들(1330)을 검색할 수 있다. 통신부(150)는 검색된 방송 콘텐츠들(1330)을 단말로 출력할 수 있다. 통신부(150)는 방송 콘텐츠들(1330)을 동일한 프로그램들의 그룹들로 제공할 수 있다.
통신부(150)는 검색어(1310)에 해당하는 주소를 지도(1340)에 표시함으로써 단말에 출력할 수 있다.
앞서 도 1 내지 도 12를 참조하여 설명된 기술적 내용들이 그대로 적용될 수 있으므로, 보다 상세한 설명은 이하 생략하기로 한다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
100: 방송 콘텐츠 키워드 색인 장치
110: 텍스트 분석부
120: 키워드 선정부
130: 색인부
140: 유사도 계산부
150: 통신부
160: 지역 코드 연관부

Claims (17)

  1. 삭제
  2. 삭제
  3. 방송 콘텐츠의 메타데이터 및 부가데이터 중 적어도 하나의 텍스트 정보를 분석함으로써 복수의 명사 단어들을 추출하는 단계;
    소정의 시간 동안의 상기 방송 콘텐츠 내의 상기 복수의 명사 단어들의 출현 빈도를 각각 계산하는 단계;
    계산된 상기 출현 빈도에 기반하여 상기 복수의 명사 단어들 중 상기 방송 콘텐츠의 하나 이상의 키워드들을 선정하는 단계;
    상기 하나 이상의 키워드들 및 상기 소정의 시간에 대한 정보를 서로 간에 연관하는 단계; 및
    상기 소정의 시간에 대한 정보와 서로 연관된 상기 하나 이상의 키워드들을 상기 방송 콘텐츠에 색인하는 단계
    를 포함하는, 방송 콘텐츠 키워드 색인 방법.
  4. 제3항에 있어서,
    상기 방송 콘텐츠는 실시간으로 방송되는 방송 콘텐츠인, 방송 콘텐츠 키워드 색인 방법.
  5. 제4항에 있어서,
    상기 선정된 하나 이상의 키워드들을 상기 방송 콘텐츠에 대한 실시간 키워드들로서 출력하는 단계
    를 더 포함하는, 방송 콘텐츠 키워드 색인 방법.
  6. 제4항에 있어서,
    상기 복수의 명사 단어들을 추출하는 단계는,
    상기 방송 콘텐츠의 자막 데이터를 분리하는 단계
    를 포함하고,
    상기 복수의 명사 단어들을 추출하는 단계는 상기 자막 데이터의 상기 텍스트 정보를 분석함으로써 상기 복수의 명사 단어들을 추출하고,
    상기 방송 콘텐츠는 상기 자막 데이터를 포함하는 디지털 방송 콘텐츠인, 방송 콘텐츠 키워드 색인 방법.
  7. 제4항에 있어서,
    상기 복수의 명사 단어들을 추출하는 단계는,
    상기 방송 콘텐츠의 실시간 자막을 제공하는 자막 서버로부터 상기 방송 콘텐츠의 자막 데이터를 수신하는 단계
    를 포함하고,
    상기 복수의 명사 단어들을 추출하는 단계는 상기 자막 데이터의 상기 텍스트 정보를 분석함으로써 상기 복수의 명사 단어들을 추출하는, 방송 콘텐츠 키워드 색인 방법.
  8. 삭제
  9. 제3항에 있어서,
    시각 정보를 수신하는 단계; 및
    상기 수신한 시각 정보가 상기 소정의 시간에 대한 정보에 대응하는 경우 상기 소정의 시간에 대한 정보와 서로 연관된 상기 하나 이상의 키워드들을 출력하는 단계
    를 더 포함하는, 방송 콘텐츠 키워드 색인 방법.
  10. 제9항에 있어서,
    출력될 상기 하나 이상의 키워드들의 출력 개수를 수신하는 단계
    를 더 포함하고,
    상기 출력하는 단계는 상기 출현 빈도에 기반하여 계산된 하나 이상의 키워드들 각각의 중요도 값에 따라 상기 하나 이상의 키워드들 중 상기 출력 개수의 키워드들을 출력하는, 방송 콘텐츠 키워드 색인 방법.
  11. 제3항에 있어서,
    상기 계산된 출현 빈도에 기반하여 상기 복수의 명사 단어들의 중요도 값을 각각 계산하는 단계
    를 더 포함하고,
    상기 중요도 값을 각각 계산하는 단계는 상기 메타데이터 및 상기 부가데이터 중 적어도 하나의 항목에 할당된 가중치를 상기 복수의 명사 단어들 중 상기 항목에서 추출된 명사 단어에 부여함으로써 상기 중요도 값을 각각 계산하고,
    상기 하나 이상의 키워드들을 선정하는 단계는 상기 각각의 중요도 값에 기반하여 상기 복수의 명사 단어들 중 상기 방송 콘텐츠의 하나 이상의 키워드들을 선정하는, 방송 콘텐츠 키워드 색인 방법.
  12. 제11항에 있어서,
    상기 하나 이상의 키워드들 및 상기 하나 이상의 키워드들에 대해 각각 계산된 중요도 값을 서로 간에 연관하는 단계
    를 더 포함하고,
    상기 색인하는 단계는 상기 각각의 중요도 값과 서로 간에 연관된 상기 하나 이상의 키워드들을 상기 방송 콘텐츠에 색인하는, 방송 콘텐츠 키워드 색인 방법.
  13. 방송 콘텐츠의 메타데이터 및 부가데이터 중 적어도 하나의 텍스트 정보를 분석함으로써 지역명 또는 관광지명을 나타내는 명사 단어를 추출하는 단계;
    상기 명사 단어에 해당하는 주소의 제1 지역 코드 및 상기 명사 단어를 서로 간에 연관하는 단계; 및
    상기 명사 단어와 서로 간에 연관된 상기 제1 지역 코드를 상기 방송 콘텐츠의 키워드로서 상기 방송 콘텐츠에 색인하는 단계
    를 포함하는, 방송 콘텐츠 키워드 색인 방법.
  14. 제13항에 있어서,
    상기 제1 지역 코드를 상기 명사 단어와 서로 간에 연관하는 단계는 상기 명사 단어에 해당하는 상기 주소의 상위 주소의 제2 지역 코드, 상기 제1 지역 코드 및 상기 명사 단어를 서로 간에 연관하고,
    상기 제1 지역 코드를 상기 방송 콘텐츠에 색인하는 단계는 상기 명사 단어 및 상기 제1 지역 코드와 서로 간에 연관된 상기 제2 지역 코드를 상기 방송 콘텐츠의 키워드로서 상기 방송 콘텐츠에 색인하는, 방송 콘텐츠 키워드 색인 방법.
  15. 제13항에 있어서,
    단말로부터 검색어를 수신하는 단계;
    상기 검색어가 지역명 또는 관광지명을 나타내는 경우 상기 검색어에 해당하는 주소의 제3 지역 코드를 검출하는 단계; 및
    상기 제3 지역 코드가 상기 제1 지역 코드에 대응하는 경우 상기 방송 콘텐츠를 상기 검색어에 대한 결과로 출력하는 단계
    를 더 포함하는, 방송 콘텐츠 키워드 색인 방법.
  16. 제14항에 있어서,
    단말로부터 검색어를 수신하는 단계;
    상기 검색어가 지역명 또는 관광지명을 나타내는 경우 상기 검색어에 해당하는 주소의 제3 지역 코드를 검출하는 단계; 및
    상기 제3 지역 코드가 상기 제2 지역 코드에 대응하는 경우 상기 방송 콘텐츠를 상기 검색어에 대한 결과로 출력하는 단계
    를 더 포함하는, 방송 콘텐츠 키워드 색인 방법.
  17. 제3항 내지 제7항 및 제9항 내지 제16항 중 어느 한 항의 방법을 수행하는 프로그램을 수록한 컴퓨터 판독 가능 기록 매체.
KR1020130161025A 2013-12-23 2013-12-23 방송 콘텐츠에 키워드를 색인하는 방법 및 장치 KR101524376B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130161025A KR101524376B1 (ko) 2013-12-23 2013-12-23 방송 콘텐츠에 키워드를 색인하는 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130161025A KR101524376B1 (ko) 2013-12-23 2013-12-23 방송 콘텐츠에 키워드를 색인하는 방법 및 장치

Publications (1)

Publication Number Publication Date
KR101524376B1 true KR101524376B1 (ko) 2015-06-05

Family

ID=53500055

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130161025A KR101524376B1 (ko) 2013-12-23 2013-12-23 방송 콘텐츠에 키워드를 색인하는 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101524376B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114500931A (zh) * 2021-11-17 2022-05-13 安徽电信规划设计有限责任公司 一种基于大数据服务的无线通信平台

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009159475A (ja) * 2007-12-27 2009-07-16 Toshiba Corp 番組検索装置および番組検索方法
KR20100032540A (ko) * 2008-09-18 2010-03-26 주식회사 케이티 사용자 단말에 방송 콘텐츠를 제공하는 방법 및 시스템
KR20100094154A (ko) * 2009-02-18 2010-08-26 주식회사 인스프리트 사용자 맞춤형 iptv 광고 제공 시스템 및 광고 제공 방법
KR101102638B1 (ko) * 2003-11-13 2012-01-04 파나소닉 주식회사 프로그램 추천장치, 프로그램 추천장치의 프로그램 추천방법 및 기록매체

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101102638B1 (ko) * 2003-11-13 2012-01-04 파나소닉 주식회사 프로그램 추천장치, 프로그램 추천장치의 프로그램 추천방법 및 기록매체
JP2009159475A (ja) * 2007-12-27 2009-07-16 Toshiba Corp 番組検索装置および番組検索方法
KR20100032540A (ko) * 2008-09-18 2010-03-26 주식회사 케이티 사용자 단말에 방송 콘텐츠를 제공하는 방법 및 시스템
KR20100094154A (ko) * 2009-02-18 2010-08-26 주식회사 인스프리트 사용자 맞춤형 iptv 광고 제공 시스템 및 광고 제공 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114500931A (zh) * 2021-11-17 2022-05-13 安徽电信规划设计有限责任公司 一种基于大数据服务的无线通信平台

Similar Documents

Publication Publication Date Title
US10552754B2 (en) Systems and methods for recognizing ambiguity in metadata
US10606889B2 (en) Systems, methods and computer program products for searching within movies (SWiM)
US20110087703A1 (en) System and method for deep annotation and semantic indexing of videos
US20080059488A1 (en) System and method for positional representation of content for efficient indexing, search, retrieval, and compression
JP2013541793A (ja) マルチモード検索クエリー入力手法
JP2010073114A (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
EP2588976A1 (en) Method and apparatus for managing video content
WO2015188719A1 (zh) 结构化数据与图片的关联方法与关联装置
de Oliveira Barra et al. Large scale content-based video retrieval with LIvRE
KR102281266B1 (ko) 영상 내 자막 키워드 추출 및 순위 산정 시스템 및 방법
Apostolidis et al. Automatic fine-grained hyperlinking of videos within a closed collection using scene segmentation
JP4734048B2 (ja) 情報検索装置、情報検索方法および情報検索プログラム
KR101640317B1 (ko) 오디오 및 비디오 데이터를 포함하는 영상의 저장 및 검색 장치와 저장 및 검색 방법
US8264727B2 (en) Data processing apparatus, method, program, and storage medium for setting identification information based on metadata, and advantageously displaying print data
US20080016068A1 (en) Media-personality information search system, media-personality information acquiring apparatus, media-personality information search apparatus, and method and program therefor
KR101524376B1 (ko) 방송 콘텐츠에 키워드를 색인하는 방법 및 장치
Hebert et al. PIVAJ: displaying and augmenting digitized newspapers on the web experimental feedback from the" Journal de Rouen" collection
Strobel et al. Metadata for scientific audiovisual media: current practices and perspectives of the TIB| AV-Portal
Berhe et al. Scene linking annotation and automatic scene characterization in tv series
Finsterwald et al. The movie mashup application MoMa: geolocalizing and finding movies
KR101525326B1 (ko) 방송 콘텐츠 제공 방법 및 장치
Neumann et al. TIB's Portal for audiovisual media: New ways of indexing and retrieval
Galuscáková et al. CUNI at MediaEval 2015 Search and Anchoring in Video Archives: Anchoring via Information Retrieval.
JP2008009807A (ja) 映像データベース構築装置、映像検索装置及び不明語検索装置
JP2007006116A (ja) 映像インデキシング装置

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180517

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190508

Year of fee payment: 5