KR100993957B1 - 키워드의 자동 추출 장치 및 방법, 및 기록 매체 - Google Patents

키워드의 자동 추출 장치 및 방법, 및 기록 매체 Download PDF

Info

Publication number
KR100993957B1
KR100993957B1 KR1020057001427A KR20057001427A KR100993957B1 KR 100993957 B1 KR100993957 B1 KR 100993957B1 KR 1020057001427 A KR1020057001427 A KR 1020057001427A KR 20057001427 A KR20057001427 A KR 20057001427A KR 100993957 B1 KR100993957 B1 KR 100993957B1
Authority
KR
South Korea
Prior art keywords
keyword
character string
dictionary
registered
extracting
Prior art date
Application number
KR1020057001427A
Other languages
English (en)
Other versions
KR20050025999A (ko
Inventor
키무라히토시
오누마켄스케
이치오카히데토시
Original Assignee
소니 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 주식회사 filed Critical 소니 주식회사
Publication of KR20050025999A publication Critical patent/KR20050025999A/ko
Application granted granted Critical
Publication of KR100993957B1 publication Critical patent/KR100993957B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • H04H60/48Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for recognising items expressed in broadcast information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/56Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4828End-user interface for program selection for searching program descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • H04N21/8405Generation or processing of descriptive data, e.g. content descriptors represented by keywords

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

컨텐츠의 타이틀 문자열 정보로부터, 서브장르를 나타내는 문자열이 등록되어 있는 제 1의 키워드 사전을 이용하여 키워드의 추출을 행하는 제 1의 추출 수단(19)과, 이 컨텐츠의 상세 문자열 정보로부터 인명이 등록되어 있는 제 2의 키워드 사전을 이용한 키워드의 추출과, 자종 끊는 법을 이용한 키워드의 추출을 행하는 제 2의 추출 수단(19)을 구비한다. 이로써, CPU의 처리 능력이나 메모리의 용량이 그다지 크지 않은 가전 제품에서도 EPG 정보와 같은 컨텐츠의 타이틀 문자열 정보 및 상세 문자열 정보로부터, 유저가 컨텐츠를 검색하기 위한 키워드를, 효율적이고 또한 정밀도 높게 자동적으로 추출할 수 있도록 한다.
Figure R1020057001427
키워드 추출, 방송 프로그램

Description

키워드의 자동 추출 장치 및 방법, 및 기록 매체{AUTOMATIC KEYWORD EXTRACTION DEVICE AND METHOD, AND RECORDING MEDIUM}
본 발명은 EPG(Electronic Program Guide : 전자 방송프로그램 가이드) 정보와 같은 컨텐츠의 타이틀 문자열 정보 및 상세 문자열 정보로부터, 키워드를 자동적으로 추출하는 장치 및 방법, 기록 매체 및 프로그램에 관한 것이다.
근래 본격화되고 있는 디지털 텔레비전 방송에서는, 방송프로그램의 영상·음성 데이터와 함께, 방송프로그램의 타이틀을 나타내는 정보(타이틀 문자열 정보)나 방송프로그램의 상세를 설명하는 정보(상세 문자열 정보)나 방송프로그램의 장르를 나타내는 정보 등을 포함한 EPG 정보가 방송국으로부터 송신된다. 디지털 방송에 대응한 텔레비전 수신기에서는, 이 EPG 정보에 의거하여 화면상에 전자 방송프로그램 가이드를 표시시킬 수 있다.
또한, 아날로그 텔레비전 방송에서도, 이러한 EPG 정보가 송신되고 있는 것이 있다.
유저는, 보고 싶은 방송프로그램을 검색한 경우, 이 전자 방송프로그램 가이드를 이용하여, 대략적인 장르(예를 들면 스포츠, 드라마 등)를 선택한 후, 타이틀로부터 검색하거나, 상세 문자열 정보를 읽어서 검색하거나 한다.
그러나, 방송프로그램의 타이틀을 붙이는 방법은 천차만별이기 때문에, 타이틀로부터의 검색은 유저에 있어서 반드시 행하기 쉬운 것은 아니다. 또한, 방송프로그램의 상세 문자열 정보는 문장의 형식으로 기술되어 있고 몇페이지나 걸치는 것이 적지 않기 때문에, 상세 문자열 정보로부터의 검색도 유저에 있어서 번거롭다.
이에 대해, 예를 들면 연예인명 등의 키워드를 이용하여 방송프로그램을 검색할 수 있도록 하면, 유저에 있어서 검색이 매우 용이해진다. 그런데, 현재 방송국으로부터 송신되는 EPG 정보에는, 키워드는 독립하여 포함되어 있지 않다. 그 때문에, 키워드를 이용한 검색을 가능하게 하기 위해서는, EPG 정보로부터 키워드를 추출하는 것이 필요하게 된다.
종래, 이 키워드의 추출 방법으로서는, 텔레비전 수신기에 표시된 전자 방송프로그램 가이드중 상세 문자열 정보의 문장 중에서, 유저가 키워드로서 결정하고 싶은 문자열의 선두 및 말미의 단어를 커서 등으로 지정한다는 방법이 존재하고 있다.
그러나, 이 종래의 추출 방법에서는, 유저가 스스로 키워드 지정을 위한 조작을 행하여야 하기 때문에, 번잡함과 함께 다수의 키워드를 단시간에 추출하는 것은 곤란하다.
다른 한편, 일반적인 키워드의 자동 추출 방법으로서는, 일본어 형태 요소 해석이라는 방법이 알려져 있다. 그러나, 이 방법은, 프로그램의 사이즈나 사용하는 사전의 사이즈가 매우 큼과 더불어, CPU에 큰 부하가 걸린다. 따라서 텔레비전 수신기와 같이 CPU의 처리 능력이나 메모리의 용량이 그다지 크지 않은 가전 제품에서 이 방법을 이용하는 것은, 매우 비효율적이다.
또한, 일반적인 키워드의 자동 추출 방법으로서는, 자종(字種) 끊는 법이라는 방법도 알려져 있다. 이 방법은, 한자·가타카나·히라가나·알파벳·숫자 등의 자종의 차이를 검출함에 의해 키워드를 추출하는 것이다. 그러나, 이 자종 끊는 법만으로는 방송프로그램을 검색하기 위한 키워드의 추출을 정밀도 높게 행할 수 없다. 즉, 성씨(苗字)가 한자이고 이름이 히라가나나 가타카나인 연예인명(예를 들면 '이시다(石田) 아카리(あかり)'라는 명칭)은, 성씨와 이름이 분할되어 버리기 때문에 추출할 수 없다.
또한, 이름이 알파벳으로 표기되고 성씨가 가타카나로 표기된 외국인명이나 이름과 성씨 사이에 '·'(중점)이 삽입된 외국인명(예를 들면 'B·도우리(ドゥ-リ-)'라는 명칭)도, 이름과 성씨가 분할되어 버리기 때문에 추출할 수 없다.
본 발명은, 상술한 점을 감안하여, CPU의 처리 능력이나 메모리의 용량이 그다지 크지 않은 가전 제품에서도, EPG 정보와 같은 컨텐츠의 타이틀 문자열 정보 및 상세 문자열 정보로부터, 유저가 컨텐츠를 검색하기 위한 키워드를, 효율적이며 또한 정밀도 높게 자동적으로 추출할 수 있도록 하는 것을 과제로 하여 이루어진 것이다.
이 과제를 해결하기 위해, 본 출원인은 컨텐츠의 타이틀 문자열 정보로부터 서브장르를 나타내는 문자열이 등록되어 있는 제 1의 키워드 사전을 이용하여 키워 드의 추출을 행하는 제 1의 추출 수단과, 이 컨텐츠의 상세 문자열 정보로부터, 인명이 등록되어 있는 제 2의 키워드 사전을 이용한 키워드의 추출과, 자종 끊는 법을 이용한 키워드의 추출을 행하는 제 2의 추출 수단을 구비한 키워드 자동 추출 장치를 제안한다.
이 키워드 자동 추출 장치에서는, 컨텐츠의 타이틀 문자열 정보(예를 들면 텔레비전 방송에서는 EPG 정보중 타이틀 문자열 정보)로부터는, 서브장르를 나타내는 문자열이 등록되어 있는 제 1의 키워드 사전을 이용하여 키워드가 추출된다.
또한, 컨텐츠의 상세 문자열 정보(예를 들면 텔레비전 방송에서는 EPG 정보중 상세 문자열 정보)로부터는, 인명이 등록되어 있는 제 2의 키워드 사전을 이용하여 키워드가 추출됨과 함께, 자종 끊는 법을 이용한 키워드의 추출도 행하여진다. 그 때, 제 2의 키워드 사전에 등록되어 있는 인명이라면, 성씨가 한자이고 이름이 히라가나나 가타카나의 인명도 키워드로서 추출된다. 또한, 제 2의 키워드 사전에 등록되어 있지 않는 인명이라도, 자종 끊는 법을 이용함에 의해 키워드로서 추출된다.
이와 같이, 타이틀 문자열 정보로부터의 키워드의 추출과 상세 문자열 정보로부터의 키워드의 추출을, 각각의 정보에 맞추어 서로 다른 키워드 사전과 룰(자종 끊는 법을 이용하는지의 여부 등)로 행함에 의해, 작은 사이즈의 프로그램이나 사전으로 정밀도 높게 키워드를 추출할 수 있다.
이로써, CPU의 처리 능력이나 메모리의 용량이 그다지 크지 않은 가전 제품에서도, EPG 정보와 같은 컨텐츠의 타이틀 문자열 정보 및 상세 문자열 정보로부 터, 유저가 컨텐츠를 검색하기 위한 키워드를, 효율적이고 또한 정밀도 높게 자동적으로 추출할 수 있게 된다.
또한, 이 키워드 자동 추출 장치에 있어서, 일예로서, 제 1의 추출 수단은 제 1의 키워드 사전에 등록되어 있는 문자열을 포함하는 타이틀 문자열중, 소정의 제외 문자열 사전에 등록되어 있는 문자열을 제외한 부분에서 키워드를 추출하는 것이 알맞다.
그것에 의해, 타이틀에 포함되어 있는 문자열중, 컨텐츠를 검색하기 위해서는 부적절한(너무 일반적인) 문자열이 키워드에 포함되는 것을 방지할 수 있다. 따라서 유저는, 추출된 키워드를 이용하여, 컨텐츠를 더욱 더 효율적으로 검색할 수 있게 된다.
또한, 이 키워드 자동 추출 장치에 있어서, 일예로서, 제 1의 추출 수단은, 제 1의 키워드 사전에 등록되어 있는 문자열을 포함하는 타이틀 문자열중, 히라가나, 가타카나, 한자, 숫자, 알파벳 이외의 특수 문자로 구획되어 있는 문자열을 키워드로서 추출하는 것이 알맞다.
그것에 의해, 이러한 특수 문자로 구획되어 있지 않는 타이틀에 관해서는, 그 타이틀에 포함되는 복수의 문자열이 뿔뿔이 흩어진 키워드로서 추출되는 일 없이, 그 타이틀 그 자체가 그대로의 형태로 키워드로서 추출되게 된다.
이러한 특수 문자로 구획되어 있지 않는 타이틀은, 그 타이틀에 포함되는 개개의 문자열은 의미가 너무 넓고 컨텐츠 검색을 위한 키워드로서 그다지 도움이 되지 않고(검색 결과가 매우 많아지고), 타이틀 그 자체로서 비로서 컨텐츠의 효율적 인 검색을 위한 키워드로서 도움이 되는 것이 많다. 따라서 유저는, 추출된 키워드(타이틀 그 자체)를 이용하여, 컨텐츠를 더욱 더 효율적으로 검색할 수 있게 된다.
또 한편으로는, 특수 문자로 구획되어 있는 타이틀에 관해서는, 특수 문자로 구획되어 있는 개개의 문자열이 각각 키워드로서 추출되게 된다.
특수 문자(예를 들면 스페이스나 '×' 등)로 구획되어 있는 타이틀은, 그 특수 문자로 구획되어 있는 개개의 문자열이 각각 컨텐츠 검색을 위한 키워드로서 도움이 되고, 타이틀 그 자체로서는 지나치게 한정되어 컨텐츠 검색을 위한 키워드로서 그다지 도움이 되지 않는(검색 결과가 제로 또는 매우 적어지는) 일이 많다. 따라서 유저는, 추출된 키워드(특수 문자로 구획되어 있는 개개의 문자열)를 이용하여, 역시 컨텐츠를 더욱 더 효율적으로 검색할 수 있게 된다.
또한, 이 키워드 자동 추출 장치에 있어서, 일예로서, 제 2의 추출 수단은, 제 2의 키워드 사전을 이용하여 키워드를 추출한 상세 문자열 정보의 나머지 부분중, 소정의 제외 문자열 사전에 등록되어 있는 문자열을 제외한 부분에서, 자종 끊는 법을 이용한 키워드의 추출을 행하는 것이 알맞다.
그것에 의해, 상세 문자열 정보에 포함되어 있는 문자열중, 컨텐츠를 검색하기 위해서는 부적절한 문자열이 키워드에 포함된 것을 방지할 수 있다. 따라서 유저는, 추출된 키워드를 이용하여, 컨텐츠를 더욱 더 효율적으로 검색할 수 있게 된다.
또한, 이 키워드 자동 추출 장치에 있어서, 일예로서, 제 2의 추출 수단은, 자종 끊는 법을 이용하면서, 가타카나와 알파벳을 동일 자종으로서 취급함과 함께, '·'(중점)은, 그 직전의 문자가 가타카나, 알파벳인 경우에는 각각 가타카나, 알파벳으로서 취급하는 것이 알맞다.
그것에 의해, 이름이 알파벳으로 표기되고 성씨가 가타카나로 표기된 외국인명이나 이름과 성씨와의 사이에 '·'(중점)이 삽입된 외국인명도, 키워드로서 추출할 수 있게 된다.
또한, 이 키워드 자동 추출 장치에 있어서, 제 2의 키워드 사전을 네트워크 경유로 다운로드하는 수단을 또한 구비하고, 제 2의 추출 수단은 이 다운로드된 제 2의 키워드 사전을 이용하는 것이 알맞다.
그것에 의해, 제 2의 키워드 사전으로서, 최신의 사전(최근 유명해진 정도의 사람의 명칭도 등록되어 있는 사전)을 이용하여 키워드를 추출할 수 있게 된다.
다음에, 본 출원인은, 컨텐츠의 타이틀 문자열 정보로부터, 서브장르를 나타내는 문자열이 등록되어 있는 제 1의 키워드 사전을 이용하여 키워드의 추출을 행하는 제 1의 스텝과, 이 컨텐츠의 상세 문자열 정보로부터, 인명이 등록되어 있는 제 2의 키워드 사전을 이용한 키워드의 추출과, 자종 끊는 법을 이용한 키워드의 추출을 행하는 제 2의 스텝을 갖는 키워드 자동 추출 방법을 제안한다.
또한, 키워드 자동 추출 장치의 프로그램으로서, 컨텐츠의 타이틀 문자열 정보로부터, 서브장르를 나타내는 문자열이 등록되어 있는 제 1의 키워드 사전을 이용하여 키워드의 추출을 행하는 제 1의 추출 스텝과, 이 컨텐츠의 상세 문자열 정보로부터, 인명이 등록되어 있는 제 2의 키워드 사전을 이용한 키워드의 추출과, 자종 끊는 법을 이용한 키워드의 추출을 행하는 제 2의 추출 스텝을 포함하는 컴퓨 터가 판독 가능한 프로그램이 기록되어 있는 기록 매체를 제안한다.
또한, 키워드 자동 추출 장치를 제어하는 컴퓨터에, 컨텐츠의 타이틀 문자열 정보로부터, 서브장르를 나타내는 문자열이 등록되어 있는 제 1의 키워드 사전을 이용하여 키워드의 추출을 행하는 제 1의 추출 스텝과, 이 컨텐츠의 상세 문자열 정보로부터, 인명이 등록되어 있는 제 2의 키워드 사전을 이용한 키워드의 추출과, 자종 끊는 법을 이용한 키워드의 추출을 행하는 제 2의 추출 스텝을 실행시키는 프로그램을 제안한다.
이 키워드 자동 추출 방법이나 기록 매체나 프로그램에 의하면, 전술한 본 발명에 관한 키워드 자동 추출 장치에 관해 설명한 것과 완전히 같이 하여, CPU의 처리 능력이나 메모리의 용량이 그다지 크지 않은 가전 제품에서도, EPG 정보와 같은 컨텐츠의 타이틀 문자열 정보 및 상세 문자열 정보로부터, 유저가 컨텐츠를 검색하기 위한 키워드를, 효율적이고 또한 정밀도 높게 자동적으로 추출할 수 있게 된다.
도 1은 본 발명을 적용한 방송프로그램 기록 재생 장치를 포함하는 디지털 텔레비전 방송 수신 시스템의 개요를 도시한 도면.
도 2는 도 1의 방송프로그램 기록 재생 장치의 하드웨어 구성을 도시한 블록도.
도 3은 도 2의 CPU가 실행하는 키워드의 자동 추출 처리를 도시한 플로우 차트.
도 4는 도 2의 CPU가 실행하는 키워드의 자동 추출 처리를 도시한 플로우 차트.
도 5는 도 3의 처리에 있어서의 키워드 추출을 위한 룰을 도시한 도면.
도 6은 도 4의 처리에 있어서의 키워드 추출을 위한 룰을 도시한 도면.
도 7은 본 발명을 적용한 아날로그 텔레비전 방송용의 방송프로그램 기록 재생 장치의 하드웨어 구성을 도시한 블록도.
이하, 디지털 텔레비전 방송의 프로그램을 기록·재생하는 장치에 본 발명을 적용한 예에 관해, 도면을 이용하여 설명한다.
도 1은 본 발명을 적용한 방송프로그램 기록 재생 장치를 포함하는 디지털 텔레비전 방송 수신 시스템의 개요를 도시한 도면이다. 텔레비전 방송국으로부터 송신된 디지털 방송 신호가, 안테나(1)에서 수신되어 방송프로그램 기록 재생 장치(2)에 입력된다. 방송프로그램 기록 재생 장치(2)는 디스플레이 및 스피커를 포함하는 표시 장치(3)에 접속됨과 함께, 인터넷(4)에 접속되어 있다.
도 2는 방송프로그램 기록 재생 장치(2)의 하드웨어 구성을 도시한 블록도이다. 이 방송프로그램 기록 재생 장치(2)에서는, 튜너(11), 복조기(12), 디스크램블러(13), 다중 분리기(14)가 차례로 접속됨과 함께, 다중 분리기(14)에 대해 영상 디코더(15), 영상 신호 처리 회로(17)와 음성 디코더(16), D/A 변환기(18)가 각각 차례로 접속되어 있다.
또한, 튜너(11) 내지 D/A 변환기(18), CPU(19), ROM(20), 메인 메모리 (RAM)(21), 플래시 메모리(22), 리모트 컨트롤러용의 인터페이스(23), HDD(하드 디스크 드라이브)용의 인터페이스(24), 인터넷 접속용의 통신 인터페이스(25)가 서로 시스템 버스(26)로 이어져 있다. 인터페이스(24)에는 텔레비전 방송프로그램을 녹화하기 위한 HDD(하드 디스크 드라이브)(27)가 접속되어 있다.
이 방송프로그램 기록 재생 장치(2)에 부속한 리모트 컨트롤러(이하 리모컨이라고 부른다)(28)에는, 통상의 디지털 방송용 텔레비전 수신기에 부속한 리모컨에서와 같은 각종의 조작 버튼(전원 버튼이나, 선국 버튼이나, 녹화 예약 버튼이나, 재생 버튼이나, EPG 화면상에서 선택을 행하기 위한 방향 키나 결정 키 등)이 마련되어 있다.
텔레비전 방송프로그램의 시청시에는, 방송프로그램 기록 재생 장치(2)에 입력한 디지털 방송 신호는, 리모컨(28)의 선국 조작에 의거하여 튜너(11)에서 주파수대가 선택된 후 복조기(12)에서 복조되고, 디스크램블러(13)에서 스크램블이 풀린 후, 다중 분리기(14)에서, 복수 채널분의 방송프로그램의 영상·음성 데이터의 패킷이나 EPG 정보의 패킷으로 분리된다.
이 복수 채널분의 텔레비전 방송프로그램의 영상·음성의 패킷중, 리모컨(28)의 선국 조작에 의거하여 추출한 1채널분의 패킷의 영상, 음성 데이터가 각각 영상 디코더(15), 음성 디코더(16)에 의해 MPEG-2Video, MPEG-2Audio로 복호된다. 또한, EPG 정보의 패킷은 CPU(19)에 보내진다.
그리고, 영상 디코더(15)에서 복호된 영상 신호나, EPG 정보를 이용하여 CPU(19)에서 작성된 전자 방송프로그램 가이드 표시용의 영상 신호가, 영상 신호 처리 회로(17)에서 NTSC 방식으로의 변환이나 믹싱 등을 시행해지고, 영상 출력 단자(29)로부터 출력하여 도 1의 표시 장치(3)에 보내진다.
또한, 음성 디코더(16)에서 복호된 음성 신호가, D/A 변환기(18)에서 아날로그 변환되고, 음성 출력 단자(30)로부터 출력하여 도 1의 표시 장치(3)에 보내진다.
CPU(19)는, ROM(20)에 격납된 프로그램이나 데이터에 의거하여, 메인 메모리(21)를 워킹 메모리로서 이용하여 이 방송프로그램 기록 재생 장치(2) 전체를 제어한다.
CPU(19)가 행하는 처리에는, 리모컨(28)의 선국 조작에 의거한 텔레비전 방송프로그램의 시청시의 처리나, 리모컨(28)의 녹화 예약 조작에 의거한 HDD(27)에의 텔레비전 방송프로그램의 녹화 처리 외에, 키워드의 자동 추출 처리가 있다.
ROM(20)에는, 이 키워드의 자동 추출 처리에서 이용하기 위한 사전으로서, 타이틀용 키워드 사전, 타이틀용 제외 문자열 사전, 상세 정보용 키워드 사전 및 상세 정보용 제외 문자열 사전이 격납되어 있다.
타이틀용 키워드 사전에는, '프로야구', '골프', '사커', '온천', '바둑', '장기', '영화' 등의 서브장르(EPG 정보중 장르 정보에 의한 '스포츠'라는 대략적인 장르보다도 세밀한 장르)를 나타내는 문자열이나, '사모(戀)', '사랑(愛)'라는 문자열이나, 프로야구의 구단명의 문자 열과 같이, 방송프로그램의 타이틀에 포함되어 있는 일이 많은 문자열중, 방송프로그램을 검색하기 위해 유효 또한 중요한 문자열이 등록되어 있다.
타이틀용 제외 문자열 사전에는, '영화', 'BS', 방송프로그램표의 독특한 기호(예를 들면, 뉴스 프로그램을 나타내는, N을 사각의 테두리로 둘러싼 기호)와 같이, 방송프로그램의 타이틀에 포함되어 있는 문자열중, 방송프로그램을 검색하기 위한 키워드로서는 너무 일반적인 문자열이 등록되어 있다.
상세 정보용 키워드 사전에는, 텔레비전 방송프로그램에 등장하는 일이 많은 유명인(연예인, 스포츠 선수, 정치가, 문화인 등)의 명칭중, 히라가나만, 히라가나와 한자의 조합, 히라가나와 가타카나의 조합, 한자와 가타카와의 조합, 2문자 이하의 한자만, 6문자 이상의 한자만의 명칭의 문자열이 각각 등록되어 있다. 또한, 상세 정보용 키워드 사전에는, 예를 들면 '온천'과 같은, EPG 정보중 상세 문자열 정보에 포함되어 있는 일이 많은 문자열중, 인명 이외의 문자 열로서 방송프로그램을 검색하기 위한 키워드로서 적절한 문자열도 등록되어 있다.
상세 정보용 제외 문자열 사전에는, '게스트(ゲスト)', '이상(以上)', '감독(監督)'과 같이, EPG 정보중 상세 문자열 정보에 포함되어 있는 일이 많은 문자열중, 방송프로그램을 검색하기 위한 키워드로서는 부적절한 문자열이 등록되어 있다.
또한, CPU(19)는, 상세 정보용 키워드 사전에 관해서는, 인터넷 경유로 전용의 사이트로부터 최신의 것(최근에서야 유명해진 사람의 명칭 등이 등록되어 있는 것)을 다운로드하여 플래시 메모리(22)에도 기억시킨다.
또한, CPU(19)는, 키워드의 자동 추출 처리를 행하는 전제로서, 유저의 선국 조작시나 유저의 녹화 예약 조작에 의거한 녹화시에 다중 분리기(14)로부터 보내진 EPG 정보의 패킷을 플래시 메모리(22)에 기억시킨다.
도 3 및 도 4는 CPU(19)가 실행하는 키워드의 자동 추출 처리를 도시한 플로우 차트이다. 이 중, 도 3은 타이틀 문자열 정보로부터 키워드를 추출하는 처리로서, 최초에, 플래시 메모리(22)에 기억시킨 EPG 정보 중에서, 타이틀 문자열 정보를 취출한다(스텝 S1).
계속해서, 그 타이틀 문자열 정보가 나타내는 복수의 방송프로그램의 타이틀로부터, 타이틀용 키워드 사전에 등록되어 있는 문자열('골프', '사커', '온천', '바둑', '장기', '영화'라는 서브장르를 나타내는 문자열 등)을 찾는다. 그리고, 그들의 방송프로그램의 타이틀중, 이 타이틀용 키워드 사전에 등록되어 있는 문자열이 포함되어 있는 타이틀의 문자열 전체를, 키워드의 추출 대상으로 한다(스텝 S2).
계속해서, 스텝 S2에서 키워드의 추출 대상으로 한 타이틀중, 타이틀용 제외 문자열 사전에 등록되어 있는 문자열('영화', 'BS' 등)의 부분을 스페이스로 치환한다(스텝 S3).
계속해서, 스텝 S3을 경유한 타이틀의 문자열로부터, 도 5에 도시한 바와 같은 타이틀용의 추출 룰로 키워드를 추출한다(스텝 S4).
이 타이틀용 추출 룰에서는, 그 타이틀의 문자열이 히라가나, 가타카나, 한자, 숫자, 알파벳 이외의 특수 문자(스페이스나 ×나 「」 등)로 구획되어 있지 않은 경우는, 그 타이틀의 문자열을 그대로 키워드로서 추출한다. 다른 한편, 그 타이틀의 문자열이 이러한 특수 문자로 구획되어 있는 경우는, 특수 문자로 구획되어 있는 각 문자열중 2문자 이상의 문자열을 각각 키워드로서 추출한다.
단, '·'(중점)은 특수 문자로서는 취급하지 않는다. 그리고, 키워드로서 추출한 문자열의 선두나 말미에 '·'(중점)이 존재하는 경우에는, '·'(중점)을 제외한 부분을 키워드로 한다.
최후로, 스텝 S4에서 추출한 키워드를, 타이틀 문자열 정보중 키워드의 리스트로서 플래시 메모리(22)에 기억시킨다(스텝 S5).
다음에, 도 4는 상세 문자열 정보로부터 키워드를 추출하는 처리로서, 최초에, 플래시 메모리(22)에 기억시킨 EPG 정보 중에서, 상세 문자열 정보를 취출한다(스텝 S11).
계속해서, 그 상세 문자열 정보로부터, 상세 정보용 키워드 사전에 등록되어 있는 문자열(유명한 사람의 명칭 등)을 찾는다. 그리고, 그 상세 문자열 정보중, 이 상세 정보용 키워드 사전에 등록되어 있는 문자열을 키워드로서 추출함과 함께, 그 문자열의 부분을 반각(半角) 스페이스로 치환한다(스텝 S12).
계속해서, 스텝 S12를 경유한 상세 문자열 정보의 문자열중, 상세 정보용 제외 문자열 사전에 등록되어 있는 문자열('게스트', '이상', '감독' 등)의 부분을 반각 스페이스로 치환한다(스텝 S13).
계속해서, 스텝 S13을 경유한 상세 문자열 정보의 문자열로부터, 도 6에 도시한 바와 같은 상세 문자열 정보용의 추출 룰로 키워드를 추출한다(스텝 S14).
이 상세 문자열 정보용 추출 룰에서는, 기본적으로는, 히라가나와 가타카나와 한자와 숫자와 알파벳과 기타의 자종(字種)의 문자를 서로 분리하는 자종 끊는 법을 이용한다.
단, 가타카나와 알파벳은 동일한 자종으로서 취급한다(분리하지 않는다). 또한, '·'(중점)은, 그 직전의 문자가 가타카나, 알파벳인 경우에는 각각 가타카나, 알파벳으로서 취급한다(분리하지 않는다).
그리고, 분리한 각 문자열중, 히라가나만의 문자열, 2문자 이하의 한자만의 문자열, 6문자 이상의 한자만의 문자열을 제외한 문자열을, 각각 키워드로서 추출한다. 단, 키워드로서 추출한 문자열의 선두나 말미에 '·'(중점)이 존재하는 경우에는, '·'(중점)을 제외한 부분을 키워드로 한다.
최후로, 스텝 S12에서 추출한 키워드와, 스텝 S14에서 추출한 키워드를, 상세 문자열 정보중 키워드의 리스트로서 플래시 메모리(22)에 기억시킨다(스텝 S15).
다음에, 이 방송프로그램 기록 재생 장치(2)에서 방송프로그램 검색을 위한 키워드가 추출되는 양상을, 구체적인 예를 들어 설명한다.
유저의 선국 조작시나 유저의 녹화 예약 조작에 의거한 녹화시에 다중 분리기(14)로부터 보내져 플래시 메모리(22)에 기억된 EPG 정보중 타이틀 문자열 정보에, 예를 들면 다음과 같은 타이틀이 포함되어 있다고 한다(다만, □□ , △△은 프로야구팀 이름이다).
사랑의 헛소동(愛のから騷ぎ)
프로야구 중계(プロ野球中繼) □□×△△
BS 영화 「스페이스·워즈」( BS映畵「スペ-ス·ウォ-ズ」)
그러면, 도 3의 처리에서는, '사랑', '프로야구', '영화'라는 문자열이 타이틀용 키워드 사전에 등록되어 있기 때문에, 스텝 S2에서 이들의 각 타이틀에 관해 각각 그 타이틀의 문자열 전체가 키워드의 추출 대상이 된다.
그리고, 이들의 타이틀중, BS 영화「스페이스·워즈」에 대해서는, 스텝 S3에서, 'BS'의 부분과 '영화'의 부분이 스페이스로 치환된다.
또한, 이들의 타이틀중, 프로야구 중계 □□×△△에 대해서는, '프로야구 중계'와 '□□'와의 사이에 스페이스(특수 기호)가 존재하고, '□□'와 '△△'의 사이에도 ×(특수 기호)가 존재하기 때문에, 스텝 S4에서, 문자열 '프로야구 중계', '□□', '△△'가 각각 키워드로서 추출된다.
또한, 이들의 타이틀중, 'BS', '영화'의 부분이 스페이스 치환된 「스페이스·워즈」에 대해서는, 「」(특수 기호)로 구획되어 있고, 또한 '·'(중점)은 특수 기호로서 취급하지 않기 때문에, 스텝 S4에서 본래의 영화 타이틀 그 자체인 '스페이스·워즈'가 키워드로서 추출된다.
또한, 이들의 타이틀중, 사랑의 헛소동은, 특수 기호로 구분되어 있지 않기 때문에, 스텝 S4에서 타이틀 그 자체인 '사랑의 헛소동'이 키워드로서 추출된다.
따라서 스텝 S5에서는, 이하의 문자열이 방송프로그램 검색용의 키워드로서 플래시 메모리(22)에 기억된다(전술한 바와 같이 □□, △△은 프로야구팀 이름이다).
사랑의 헛소동
프로야구 중계
□□
△△
스페이스·워즈
이와 같이 하여, 사랑의 헛소동, 스페이스·워즈와 같이 특수 문자로 구획되어 있지 않은 타이틀에 대해서는, 도 3의 처리에 의해 그 타이틀에 포함되는 복수의 문자열이 뿔뿔이 흩어진 키워드로서 추출되는 일 없이, 그 타이틀 그 자체가 그대로의 형태로 키워드로서 추출된다.
이러한 특수 문자로 구획되어 있지 않은 타이틀은, 그 타이틀에 포함되는 '사랑', '스페이스' 등의 개개의 문자열은 의미가 너무 넓고 방송프로그램 검색을 위한 키워드로서 그다지 도움이 되지 않고(검색 결과가 매우 많아지고), 타이틀 그 자체로서 비로서 방송프로그램의 효율적인 검색을 위한 키워드로서 도움이 되는 일이 많다. 따라서 유저는 추출된 키워드(타이틀 그 자체)를 이용하여, 방송프로그램을 효율적으로 검색할 수 있게 된다.
또한, 스페이스·워즈라는 영화의 타이틀 문자열에 대해서는 타이틀 문자열 정보에 있어서 이 타이틀에 부가되어 있던 'BS', '영화'라는 방송프로그램 검색을 위해서는 지나치게 일반적인 문자열이 키워드에 포함되어 있지 않음과 함께, 이 타이틀 문자열 정보에 있어서 이 타이틀을 둘러싸고 있던 「」도 키워드에 포함되어 있지 않다. 따라서 유저는 방송프로그램을 효율적으로 검색할 수 있게 된다.
또 한편으로는, 프로야구 중계 □□×△△와 같이 특수 문자(스페이스나 '×')로 구획되어 있는 타이틀에 대해서는, 도 3의 처리에 의해 특수 문자로 구획되 어 있는 개개의 문자열인 프로야구 중계, □□, △△이 각각 키워드로서 추출된다.
이러한 특수 문자로 구획되어 있는 타이틀은, 그 특수 문자로 구획되어 있는 개개의 문자열이 각각 방송프로그램 검색을 위한 키워드로서 도움이 되고, 타이틀 그 자체로서는 지나치게 한정되어 방송프로그램 검색을 위한 키워드로서 그다지 도움이 되지 않는(대전(對戰)팀(□□나 △△의 구체명)이 다르면 다른 타이틀이 되어 버리기 때문에 검색 결과가 제로 또는 매우 적어진다) 일이 많다. 따라서 유저는, 추출된 키워드(특수 문자로 구획되어 있는 개개의 문자열)를 이용하여, 역시 방송프로그램을 효율적으로 검색할 수 있게 된다.
다른 한편, 도 4의 처리에서는, 플래시 메모리(22)에 기억된 EPG 정보중 이들 타이틀의 방송프로그램의 상세 문자열 정보로부터, 상세 정보용 키워드 사전에 등록되어 있는 유명인(사랑의 헛소동이라는 방송프로그램의 사회자, 게스트나, 영화 스페이스·워즈에 출연하고 있는 배우)의 명칭 등이, 스텝 S12에서 키워드로서 추출된다.
그 때, 성씨(苗字)가 한자이고 이름이 히라가나나 가타카나의 유명인의 명칭(예를 들면 이시다(石田) 아카리(あかり)라는 명칭)도 이 상세 정보용 키워드 사전에 등록되어 있기 때문에, 그러한 유명인의 명칭도 키워드로서 추출된다.
또한, 인터넷 경유로 다운로드한 최신의 상세 정보용 키워드 사전도 이용하기 때문에, 최근에서야 유명해진 사람의 명칭도 키워드로서 추출된다.
또한, 그 상세 문자열 정보중, 그 유명인의 명칭 등의 부분과, 상세 정보용 제외 문자열 사전에 등록되어 있는 문자열('게스트', '이상', '감독' 등)의 부분이 스텝 S12 및 S13에서 반각 스페이스로 치환된다.
그리고, 이 스페이스 치환된 상세 문자열 정보의 문자열로부터, 스텝 S14에서 도 6에 도시한 룰에 의해 키워드가 추출된다.
그 때, 가타카나와 알파벳은 동일한 자종으로서 취급됨과 함께 '·'(중점)은 그 직전의 문자가 가타카나, 알파벳인 경우에는 각각 가타카나, 알파벳으로서 다루어지기 때문에, 이름과 성씨와의 사이에 '·'(중점)이 삽입된 외국인명(예를 들면 B·도우리)도 키워드로서 추출된다.
또한, 최신의 상세 정보용 키워드 사전에도 아직 등록되어 있지 않은 사람(예를 들면 막 데뷔한 무명의 연예인)의 명칭이라도, 히라가나만의 명칭이나 2문자 이하의 한자만의 명칭이나 6문자 이상의 한자만의 명칭(즉 인명으로서 그다지 없을 것 같은 명칭)이 아니면 키워드로서 추출된다.
또한, '게스트', '이상', '감독'과 같은 방송프로그램 검색을 위해서는 부적절한 문자열은, 스페이스 치환되어 있기 때문에 키워드로서 추출되는 일은 없다.
이로써, 스텝 S15에서는, 성씨가 한자이고 이름이 히라가나나 가타카나의 유명인 이름이나, 최근에서야 유명해진 사람의 명칭이나, 이름이 알파벳으로 표기되고 성씨가 가타카나로 표기된 외국인명이나, 이름과 성씨와의 사이에 '·'(중점)이 삽입된 외국인명도, 방송프로그램 검색용의 키워드로서 플래시 메모리(22)에 기억된다. 따라서 유저는, 추출된 키워드를 이용하여, 방송프로그램을 효율적으로 검색할 수 있게 된다.
또한, 도 3 및 도 4의 처리에 의해 플래시 메모리(22)에 기억시킨 키워드를 유저가 방송프로그램 검색을 위해 이용하는 방법으로서는, 예를 들면, 리모컨(28)에 의한 소정의 조작에 의거하여, CPU(19)가 방송프로그램 검색용 화면(키워드를 일람 표시함과 함께 유저가 그 중 소망하는 키워드를 선택하여 검색을 지시하기 위한 화면)의 영상 신호를 작성하여 영상 신호 처리 회로(17), 영상 출력 단자(29)를 경유하여 표시 장치(3)에 보낸다는, 적절한 방법을 취하는 것이 바람직하다.
이상과 같이, 이 방송프로그램 기록 재생 장치(2)에서는, EPG 정보중 타이틀 문자열 정보로부터의 키워드의 추출과 상세 문자열 정보로부터의 키워드의 추출을, 각각의 정보에 맞추어 서로 다른 키워드 사전과 룰로 행함에 의해, 작은 사이즈의 프로그램이나 사전으로 정밀도 높게 키워드를 추출할 수 있도록 되어 있다.
이로써, CPU(19)의 처리 능력이나 메모리(ROM(20)나 플래시 메모리(22) 등)의 용량이 그다지 크지 않아도, EPG 정보중 타이틀 문자열 정보 및 상세 문자열 정보로부터, 유저가 방송프로그램을 검색하기 위한 키워드를 효율적이고 또한 정밀도 높게 자동적으로 추출할 수 있도록 되어 있다.
또한, 이상의 예에서는, 디지털 텔레비전 방송의 프로그램을 기록·재생하는 장치에 본 발명을 적용하고 있다. 그러나, 이에 한하지 않고, 아날로그 텔레비전 방송의 방송프로그램을 기록·재생하는 방송프로그램 기록 재생 장치에도 본 발명을 적용하면 좋은 것은 물론이다.
도 7은 본 발명을 적용한 아날로그 텔레비전 방송용의 방송프로그램 기록 재생 장치의 하드웨어 구성을 도시한 블록도이다. 안테나(31)에서 수신되어 방송프로그램 기록 재생 장치(41)에 입력한 아날로그 방송 신호중 영상·음성 신호는, 튜너 (42)에서 주파수대가 선택되고, MPEG 인코더(43)에서 부호화된다.
텔레비전 방송프로그램의 시청시에는, 이 부호화된 영상·음성 데이터는, MPEG 디코더(47)에서 복호되고, 방송프로그램 기록 재생 장치(41)로부터 표시 장치(61)에 보내진다.
다른 한편, 텔레비전 방송프로그램의 기록시에는, MPEG 인코더(43)에서 부호화된 영상·음성 데이터는, 버스(44)를 통하여 주기억 장치(45)에 보내지고, 주기억 장치(45)에 기록된다.
그리고, 재생시에는, 주기억 장치(45)로부터 판독된 영상·음성 데이터가 버스(44)를 통하여 MPEG 디코더(47)에 보내지고, MPEG 디코더(47)에서 복호되고, 방송프로그램 기록 재생 장치(41)로부터 표시 장치(61)에 보내진다.
또한, 튜너(42)에서 주파수대가 선택된 아날로그 방송 신호로부터, EPG 취득 모듈(46)에서 EPG 정보가 취득된다. 이 EPG 정보도, 버스(44)를 통하여 주기억 장치(45)에 보내지고, 주기억 장치(45)에 기억된다.
또한, 인터넷(71)과 접속하기 위한 통신 인터페이스(48), ROM(49), 주기억 장치(50), 보조 기억 장치(51), MPEG 디코더(47)가 서로 버스(52)로 이어져 있다.
이 방송프로그램 기록 재생 장치(41)에서도, 전술한 바와 같은 타이틀용 키워드 사전, 타이틀용 제외 문자열 사전, 상세 정보용 키워드 사전 및 상세 정보용 제외 문자열 사전이 ROM(49)에 격납되어 있음(상세 정보용 키워드 사전에 관해서는 인터넷 경유로 전용의 사이트로부터 최신의 것을 다운로드하여 보조 기억 장치(51)에도 기억시킨다)과 함께, 방송프로그램 기록 재생 장치(41) 전체를 제어하는 CPU(53)가, 도 3 및 도 4에 도시한 것과 같은 키워드의 자동 추출 처리를 이들의 사전 및 주기억 장치(45) 내의 EPG 정보를 이용하여 행하고, 추출한 키워드를 보조 기억 장치(51)에 기억시킨다.
이 방송프로그램 기록 재생 장치(41)에서도, 도 1 및 도 2의 방송프로그램 기록 재생 장치(2)에 관해 설명한 것과 완전히 같이 하여, EPG 정보중 타이틀 문자열 정보로부터의 키워드의 추출과 상세 문자열 정보로부터의 키워드의 추출을, 각각의 정보에 맞추어 서로 다른 키워드 사전과 룰로 행함에 의해, 작은 사이즈의 프로그램이나 사전에서 정밀도 높게 키워드를 추출할 수 있다.
이로써, CPU(53)의 처리 능력이나 메모리(ROM(49)이나 보조 기억 장치(51) 등)의 용량이 그다지 크지 않아도, EPG 정보중 타이틀 문자열 정보 및 상세 문자열 정보로부터, 유저가 방송프로그램을 검색하기 위한 키워드를 효율적이고 또한 정밀도 높게 자동적으로 추출할 수 있다.
또한, 이상의 예에서는, 표시 장치와는 별도로 된 방송프로그램 기록 재생 장치에 본 발명을 적용하고 있다. 그러나, 이에 한하지 않고, 이 방송프로그램 기록 재생 장치와 표시 장치가 일체로 된 텔레비전 수신기나, 방송프로그램의 기록 재생 기능을 갖지 않는 텔레비전 수신기에도 본 발명을 적용하여도 좋다.
또한, 이상의 예에서는, EPG 정보중 방송프로그램의 타이틀 문자열 정보, 상세 문자열 정보로부터의 키워드의 검색을 위해 본 발명을 적용하고 있다. 그러나, 이에 한하지 않고, 텔레비전 방송프로그램 이외의 컨텐츠(예를 들면 인터넷 경유로 배신되는 컨텐츠)의 타이틀 문자열 정보, 상세 문자열 정보로부터의 키워드의 검색 을 위해서도 본 발명을 적용하였다.
또한, 본 발명은, 이상의 예에 한하지 않고, 본 발명의 요지를 일탈하는 일 없이, 그 밖에 다양한 구성을 취할 수 있음은 물론이다.
이상과 같이, 본 발명에 의하면, CPU의 처리 능력이나 메모리의 용량이 그다지 크지 않은 가전 제품에서도, EPG 정보와 같은 방송프로그램의 타이틀 문자열 정보 및 상세 문자열 정보로부터, 유저가 방송프로그램을 검색하기 위한 키워드를, 효율적이고 또한 정밀도 높게 자동적으로 추출할 수 있다는 효과를 얻을 수 있다.

Claims (14)

  1. 컨텐츠의 타이틀 문자열 정보로부터, 서브장르를 나타내는 문자열이 등록되어 있는 제 1의 키워드 사전을 이용하여 키워드의 추출을 행하는 제 1의 추출 수단과,
    상기 컨텐츠의 상세 문자열 정보로부터, 인명이 등록되어 있는 제 2의 키워드 사전을 이용한 키워드의 추출과, 자종 끊는 법을 이용한 키워드의 추출을 행하는 제 2의 추출 수단을 구비한 것을 특징으로 하는 키워드 자동 추출 장치.
  2. 제 1항에 있어서,
    상기 제 1의 추출 수단은, 제 1의 키워드 사전에 등록되어 있는 문자열을 포함하는 타이틀 문자열중, 소정의 제외 문자열 사전에 등록되어 있는 문자열을 제외한 부분에서 키워드를 추출하는 것을 특징으로 하는 키워드 자동 추출 장치.
  3. 제 1항에 있어서,
    상기 제 1의 추출 수단은, 제 1의 키워드 사전에 등록되어 있는 문자열을 포함하는 타이틀 문자열중, 히라가나, 가타카나, 한자, 숫자, 알파벳 이외의 특수 문자로 구획되어 있는 문자열을 키워드로서 추출하는 것을 특징으로 하는 키워드 자동 추출 장치.
  4. 제 1항에 있어서,
    상기 제 2의 추출 수단은, 상기 제 2의 키워드 사전을 이용하여 키워드를 추출한 상기 상세 문자열 정보의 나머지 부분중, 소정의 제외 문자열 사전에 등록되어 있는 문자열을 제외한 부분에서, 자종 끊는 법을 이용한 키워드의 추출을 행하는 것을 특징으로 하는 키워드 자동 추출 장치.
  5. 제 1항에 있어서,
    상기 제 2의 추출 수단은, 자종 끊는 법을 이용하면서, 가타카나와 알파벳을 동일 자종으로서 취급함과 함께, '·'(중점)은, 그 직전의 문자가 가타카나, 알파벳인 경우에는 각각 가타카나, 알파벳으로서 취급하는 것을 특징으로 하는 키워드 자동 추출 장치.
  6. 제 1항에 있어서,
    상기 제 2의 키워드 사전을 네트워크 경유로 다운로드하는 수단을 또한 구비하고, 상기 제 2의 추출 수단은 상기 다운로드된 제 2의 키워드 사전을 이용하는 것을 특징으로 하는 키워드 자동 추출 장치.
  7. 컨텐츠의 타이틀 문자열 정보로부터, 서브장르를 나타내는 문자열이 등록되어 있는 제 1의 키워드 사전을 이용하여 키워드의 추출을 행하는 제 1의 스텝과,
    상기 컨텐츠의 상세 문자열 정보로부터, 인명이 등록되어 있는 제 2의 키워 드 사전을 이용한 키워드의 추출과, 자종 끊는 법을 이용한 키워드의 추출을 행하는 제 2의 스텝을 갖는 것을 특징으로 하는 키워드 자동 추출 방법.
  8. 제 7항에 있어서,
    상기 제 1의 스텝에서, 제 1의 키워드 사전에 등록되어 있는 문자열을 포함하는 타이틀 문자열중, 소정의 제외 문자열 사전에 등록되어 있는 문자열을 제외한 부분에서 키워드를 추출하는 것을 특징으로 하는 키워드 자동 추출 방법.
  9. 제 7항에 있어서,
    상기 제 1의 스텝에서, 제 1의 키워드 사전에 등록되어 있는 문자열을 포함하는 타이틀 문자열중, 히라가나, 가타카나, 한자, 숫자, 알파벳 이외의 특수 문자로 구획되어 있는 문자열을 키워드로서 추출하는 것을 특징으로 하는 키워드 자동 추출 방법.
  10. 제 7항에 있어서,
    상기 제 2의 스텝에서, 상기 제 2의 키워드 사전을 이용하여 키워드를 추출한 상기 상세 문자열 정보의 나머지 부분중, 소정의 제외 문자열 사전에 등록되어 있는 문자열을 제외한 부분에서, 자종 끊는 법을 이용한 키워드의 추출을 행하는 것을 특징으로 하는 키워드 자동 추출 방법.
  11. 제 7항에 있어서,
    상기 제 2의 스텝에서, 자종 끊는 법을 이용하면서, 가타카나와 알파벳을 동일 자종으로서 취급함과 함께, '·'(중점)은, 그 직전의 문자가 가타카나, 알파벳인 경우에는 각각 가타카나, 알파벳으로서 취급하는 것을 특징으로 하는 키워드 자동 추출 방법.
  12. 제 7항에 있어서,
    상기 제 2의 키워드 사전을 네트워크 경유로 다운로드하는 스텝을 또한 가지며, 상기 제 2의 스텝에서는 상기 다운로드한 제 2의 키워드 사전을 이용하는 것을 특징으로 하는 키워드 자동 추출 방법.
  13. 키워드 자동 추출 장치의 프로그램으로서,
    컨텐츠의 타이틀 문자열 정보로부터, 서브장르를 나타내는 문자열이 등록되어 있는 제 1의 키워드 사전을 이용하여 키워드의 추출을 행하는 제 1의 추출 스텝과,
    상기 컨텐츠의 상세 문자열 정보로부터, 인명이 등록되어 있는 제 2의 키워드 사전을 이용한 키워드의 추출과, 자종 끊는 법을 이용한 키워드의 추출을 행하는 제 2의 추출 스텝을 포함하는 것을 특징으로 하는 컴퓨터가 판독 가능한 프로그램이 기록되어 있는 기록 매체.
  14. 삭제
KR1020057001427A 2002-07-30 2003-07-30 키워드의 자동 추출 장치 및 방법, 및 기록 매체 KR100993957B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002221698A JP4040382B2 (ja) 2002-07-30 2002-07-30 キーワードの自動抽出装置及び方法、記録媒体、並びにプログラム
JPJP-P-2002-00221698 2002-07-30

Publications (2)

Publication Number Publication Date
KR20050025999A KR20050025999A (ko) 2005-03-14
KR100993957B1 true KR100993957B1 (ko) 2010-11-11

Family

ID=31184873

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057001427A KR100993957B1 (ko) 2002-07-30 2003-07-30 키워드의 자동 추출 장치 및 방법, 및 기록 매체

Country Status (6)

Country Link
US (1) US7577972B2 (ko)
EP (1) EP1544751A4 (ko)
JP (1) JP4040382B2 (ko)
KR (1) KR100993957B1 (ko)
CN (1) CN100530174C (ko)
WO (1) WO2004012101A1 (ko)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006013619A (ja) 2004-06-22 2006-01-12 Pioneer Electronic Corp データ処理装置、その方法、そのプログラム、および、そのプログラムを記録した記録媒体
JP2006041978A (ja) * 2004-07-28 2006-02-09 Matsushita Electric Ind Co Ltd 放送受信装置
JP4498903B2 (ja) * 2004-11-30 2010-07-07 シャープ株式会社 番組情報抽出装置、番組情報表示装置、番組情報抽出方法、プログラム、および、プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2007074169A (ja) * 2005-09-05 2007-03-22 Sharp Corp 番組抽出装置
US7461093B2 (en) 2005-09-12 2008-12-02 Sharp Kabushiki Kaisha Network connecting device, server device, terminal device, system, receiving method, character input method, transmission method, program, and computer-readable storage medium
JP2007079745A (ja) * 2005-09-12 2007-03-29 Sharp Corp ネットワーク接続装置、サーバ装置、端末装置、システム、受信方法、文字入力方法、送信方法、プログラムおよびコンピュータ読み取り可能な記録媒体
CN100444591C (zh) * 2006-08-18 2008-12-17 北京金山软件有限公司 获取网页关键字的方法及其应用系统
EP1901187A3 (de) 2006-09-16 2009-02-04 LOEWE OPTA GmbH Verfahren zur Suche nach Nutzdaten in Datenbanken von unterhaltungselektronischen Geräten
TW200836564A (en) * 2007-02-16 2008-09-01 Mstar Semiconductor Inc Control circuit of a display with program searching function, and method for controlling the display to receive program information and select program
JP5178109B2 (ja) * 2007-09-25 2013-04-10 株式会社東芝 検索装置、方法及びプログラム
JP2009094658A (ja) * 2007-10-05 2009-04-30 Hitachi Ltd 関連情報提供装置、及び関連情報提供方法
JP2010003383A (ja) * 2008-06-23 2010-01-07 Victor Co Of Japan Ltd 放送番組記録再生装置
JP5392227B2 (ja) * 2010-10-14 2014-01-22 株式会社Jvcケンウッド フィルタリング装置およびフィルタリング方法
US8606788B2 (en) * 2011-06-15 2013-12-10 Microsoft Corporation Dictionary for hierarchical attributes from catalog items
JP5516641B2 (ja) * 2012-04-27 2014-06-11 株式会社Jvcケンウッド 放送番組記録再生装置
CN105554519B (zh) * 2015-12-24 2019-02-22 北京酷云互动科技有限公司 Epg信息解析方法及系统
CN106933799A (zh) * 2015-12-31 2017-07-07 北京四维图新科技股份有限公司 一种兴趣点poi名称的中文分词方法及装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0810452B2 (ja) * 1988-04-18 1996-01-31 日本電信電話株式会社 日本語対象文固有用語抽出処理装置
US9286294B2 (en) * 1992-12-09 2016-03-15 Comcast Ip Holdings I, Llc Video and digital multimedia aggregator content suggestion engine
US5870084A (en) * 1996-11-12 1999-02-09 Thomson Consumer Electronics, Inc. System and method for efficiently storing and quickly retrieving glyphs for large character set languages in a set top box
JP3880116B2 (ja) * 1996-12-27 2007-02-14 キヤノン株式会社 電子ファイリングシステム、電子ファイリング方法及び記録媒体
JPH10198667A (ja) * 1996-12-28 1998-07-31 Casio Comput Co Ltd 文字列変換装置およびそのプログラム記録媒体
JP4287054B2 (ja) * 1998-05-22 2009-07-01 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ キーワード検出手段を有する記録装置
JP3645720B2 (ja) * 1998-10-02 2005-05-11 松下電器産業株式会社 Epg情報表示方法、及びプログラム記録媒体
US7209942B1 (en) * 1998-12-28 2007-04-24 Kabushiki Kaisha Toshiba Information providing method and apparatus, and information reception apparatus
JP2001075959A (ja) * 1999-08-31 2001-03-23 Matsushita Electric Ind Co Ltd 文書処理装置
US6449766B1 (en) * 1999-12-23 2002-09-10 Webtv Networks, Inc. System and method for consolidating television rating systems
JP4253152B2 (ja) * 2000-01-05 2009-04-08 三菱電機株式会社 キーワード抽出装置
US6463428B1 (en) * 2000-03-29 2002-10-08 Koninklijke Philips Electronics N.V. User interface providing automatic generation and ergonomic presentation of keyword search criteria
JP2001337980A (ja) * 2000-05-29 2001-12-07 Sony Corp 電子番組ガイド検索方法及び電子番組ガイド検索装置
US6925650B1 (en) * 2000-08-21 2005-08-02 Hughes Electronics Corporation Method and apparatus for automated creation of linking information

Also Published As

Publication number Publication date
US7577972B2 (en) 2009-08-18
KR20050025999A (ko) 2005-03-14
CN1682220A (zh) 2005-10-12
JP4040382B2 (ja) 2008-01-30
EP1544751A4 (en) 2007-12-26
JP2004062639A (ja) 2004-02-26
WO2004012101A1 (ja) 2004-02-05
CN100530174C (zh) 2009-08-19
US20060116869A1 (en) 2006-06-01
EP1544751A1 (en) 2005-06-22

Similar Documents

Publication Publication Date Title
KR100993957B1 (ko) 키워드의 자동 추출 장치 및 방법, 및 기록 매체
US8826131B2 (en) Information processing apparatus, information processing method, and information processing program for generating content lists
JP4198786B2 (ja) 情報フィルタリングシステム、情報フィルタリング装置、映像機器および情報フィルタリング方法
US8250623B2 (en) Preference extracting apparatus, preference extracting method and preference extracting program
JP3844901B2 (ja) 電子番組ガイド受信システム
JP4623985B2 (ja) 電子番組ガイド(epg)データのフリーテキスト検索および属性検索
KR101484633B1 (ko) 영상 녹화 재생장치 및 영상 녹화 재생 방법
JPH1169253A (ja) 統合番組ガイドを有する放送受信装置
US20060282407A1 (en) Display method
KR100988255B1 (ko) 정보 처리 장치 및 방법, 및 프로그램이 기록된 컴퓨터로 판독가능한 매체
JP2009118168A (ja) 番組録画再生装置、および、番組録画再生方法
JPWO2008078717A1 (ja) 番組データ管理サーバ、識別子割当装置、番組データ管理方法及びプログラム
JP2006217215A (ja) 番組検索装置、番組検索方法、プログラムおよび記録媒体ならびに受信装置
JP5225418B2 (ja) 情報処理装置及び方法
KR101573331B1 (ko) 방송 수신장치 및 그 키워드 검색 방법
JP2001028717A (ja) 情報表示装置及び情報受信装置並びにそれらの方法
JP3772449B2 (ja) テレビジョン番組の記録再生装置および方法
JP3225020B2 (ja) 番組表表示システムおよび番組表表示装置
EP1463059A2 (en) Recording and reproduction apparatus
CN101605011B (zh) 信息处理装置、信息处理方法
JP2008027186A (ja) 情報検索装置および情報検索方法
JP6028505B2 (ja) 録画再生装置および番組検索方法
KR100694423B1 (ko) 디지털 방송 수신기에 있어서 키워드 인덱스를 이용한전자프로그램가이드 정보 검색 방법 및 장치
JP2011035628A (ja) キーワード検索システム、デジタル放送受信機及びキーワード検索方法
CN112866793B (zh) 一种媒体模式切换方法、装置、设备和存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20131025

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20141024

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20151023

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20161019

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20171018

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20181031

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20191023

Year of fee payment: 10