WO2004012101A1 - キーワードの自動抽出装置及び方法、記録媒体、並びにプログラム - Google Patents

キーワードの自動抽出装置及び方法、記録媒体、並びにプログラム Download PDF

Info

Publication number
WO2004012101A1
WO2004012101A1 PCT/JP2003/009678 JP0309678W WO2004012101A1 WO 2004012101 A1 WO2004012101 A1 WO 2004012101A1 JP 0309678 W JP0309678 W JP 0309678W WO 2004012101 A1 WO2004012101 A1 WO 2004012101A1
Authority
WO
WIPO (PCT)
Prior art keywords
keyword
character string
dictionary
registered
extracting
Prior art date
Application number
PCT/JP2003/009678
Other languages
English (en)
French (fr)
Inventor
Hitoshi Kimura
Kensuke Ohnuma
Hidetoshi Ichioka
Original Assignee
Sony Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corporation filed Critical Sony Corporation
Priority to US10/523,332 priority Critical patent/US7577972B2/en
Priority to EP03771430A priority patent/EP1544751A4/en
Publication of WO2004012101A1 publication Critical patent/WO2004012101A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • H04H60/48Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for recognising items expressed in broadcast information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/56Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4828End-user interface for program selection for searching program descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • H04N21/8405Generation or processing of descriptive data, e.g. content descriptors represented by keywords

Definitions

  • Kokiaki is a device and method for automatically extracting keywords from title string information and detailed string information of content such as EPG (Electronic Program Guide) information, recording media, and About the program.
  • EPG Electronic Program Guide
  • EPG information including information indicating the genre of the program are transmitted from the broadcasting station.
  • an electronic program guide can be displayed on a screen based on the EPG information.
  • the user can use this electronic program guide to select a broad genre (for example, sports, drama, etc.) and then search from the title or read the detailed character string information. Searching.
  • a broad genre for example, sports, drama, etc.
  • the present invention provides a method for a user to obtain content from content title character string information and detailed character string information, such as EPG information, even in a home electric appliance having a CPU processing capacity and a memory capacity not so large.
  • the purpose of the present invention is to make it possible to automatically and efficiently extract a keyword for searching for a keyword. Disclosure of the invention
  • the present applicant extracts a keyword from the title character string information using a first keyword dictionary in which a character string indicating a sub-genre is registered. From the extraction means 1 and the detailed character string information of this content, a keyword is extracted using a second keyword dictionary in which personal names are registered, and a keyword is extracted using a character type separation method.
  • a keyword is extracted using a second keyword dictionary in which personal names are registered, and a keyword is extracted using a character type separation method.
  • the first character string indicating the sub-genre is registered from the title character string information of the content (for example, in TV broadcasting, the title character string information in the EPG information).
  • the keywords are extracted using the keyword dictionary.
  • a keyword is extracted using a second keyword dictionary in which personal names are registered.
  • keywords are extracted using the character type cutting method.
  • the person name is registered in the second keyword dictionary, the last name Are also kanji characters and the names of hiragana and katakana are also extracted as keywords.
  • even a person's name not registered in the second keyword dictionary is extracted as a keyword by using the character type separation method.
  • keyword extraction from the title string information and the keyword extraction from the detailed character string information are performed in accordance with each type of keyword dictionary and rule (character type separation method).
  • keywords can be extracted accurately with a small-sized program or dictionary.
  • users can search for content from title character string information and detailed character string information of content such as EPG information even for home appliances that do not have large CPU processing capacity and memory capacity. Can be automatically and efficiently extracted with high accuracy.
  • the first extraction means is a predetermined exclusion character string of a title character string including a character string registered in the first keyword dictionary. It is preferable to extract keywords from the parts excluding character strings registered in the dictionary.
  • the first extraction means is configured to use, for example, Hiragana and Katakana among the title character strings including the character strings registered in the first keyword dictionary.
  • a character string delimited by special characters other than, kanji, numbers, and alphabets It is preferable to extract as a code.
  • Titles that are not delimited by these special characters are not useful as keywords for content search because the individual character strings in the title are too broad (search results). And the title itself often serves only as a keyword for efficient content search. Therefore, the user can search the content more efficiently using the extracted keyword (the title itself).
  • individual character strings separated by special characters will be extracted as keywords.
  • the second extraction means includes, among the remaining portions of the detailed character string information obtained by extracting the keywords using the second keyword dictionary, Predetermined Excluded Character Strings It is preferable to extract a keyword from the portion excluding the character strings registered in the dictionary using the character type cutting method. As a result, it is possible to prevent an inappropriate character string for searching for a content from being included in the keyword, out of the character strings that may be included in the detailed character string information. Therefore, the user can use the extracted keywords to search for the content more efficiently.
  • the second extraction means uses the character type separation method, treats katakana and alphabet as the same character type, and If the character immediately preceding it is a katakana or an alphabet, it is preferable to treat it as katakana or an alphabet.
  • a means for downloading a second key word dictionary via a network is further provided, and the second extraction means is provided with the downloaded second key word dictionary. It is preferable to use a dictionary.
  • keywords can be extracted using the latest dictionary (a dictionary in which the names of people who have just recently become famous) are registered as the second keyword dictionary.
  • the present applicant performs a first step of extracting a keyword from the title character string information of the content using a first keyword dictionary in which a character string indicating a subgenre is registered; From the detailed character string information of this content, a key word is extracted using a second key word dictionary in which personal names are registered, and a keyword is extracted using the character type cutting method for IJ.
  • a program for an automatic keyword extracting device which extracts keywords from the title character string information of the content using a first keyword dictionary in which a character string indicating a subgenre is registered.
  • the first extraction step from the detailed character string information of the content, extraction of a keyword using a second keyword dictionary in which personal names are registered, and extraction of a keyword using a character type separation method
  • the present invention proposes a recording medium in which a computer-readable program including an extraction step and a second extraction step is recorded.
  • the computer that controls the automatic keyword extraction device extracts keywords from the title character string information of the content using the first keyword dictionary in which character strings indicating subgenres are registered.
  • the first extraction step from the detailed character string information of this content, the extraction of keywords using a second keyword dictionary in which personal names are registered, and the extraction of keywords using character type separation
  • a household electrical appliance having a CPU processing capacity and a memory capacity not so large.
  • FIG. 1 is a diagram showing an outline of a digital television broadcast receiving system including a program recording / reproducing apparatus to which the present invention is applied.
  • FIG. 2 is a block diagram showing a hardware configuration of the program recording / reproducing apparatus of FIG.
  • FIG. 3 is a flowchart showing an automatic keyword extraction process executed by the CPU of FIG.
  • FIG. 4 is a flowchart showing automatic keyword extraction processing executed by the CPU of FIG.
  • FIG. 5 is a diagram showing rules for keyword extraction in the processing of FIG.
  • FIG. 6 is a diagram showing rules for keyword extraction in the processing of FIG.
  • FIG. 7 is a block diagram showing a hardware configuration of a program recording / reproducing apparatus for analog television broadcasting to which the present invention is applied.
  • FIG. 1 is a diagram showing an outline of a digital television broadcast receiving system including a program recording / reproducing apparatus to which the present invention is applied.
  • a digital broadcast signal transmitted from a television broadcasting station is received by an antenna 1 and input to a program recording / reproducing apparatus 2.
  • the program recording / reproducing device 2 is connected to a display device 3 including a display and a speaker, and is also connected to the Internet 4.
  • FIG. 2 is a block diagram showing a hardware configuration of the program recording / reproducing apparatus 2.
  • a tuner 11, a demodulator 12, a descrambler 13, and a demultiplexer 14 are connected in order, and a video decoder 15 and a demultiplexer 14 are connected to the demultiplexer 14.
  • the video signal processing circuit 17, the audio decoder 16, and the DZA converter 18 are connected in that order.
  • the interface 23 for the motor controller, the interface 24 for the HDD (node disk drive), and the communication interface 25 for connecting the Internet are connected to the system bus 2. 6 tied.
  • the interface 24 is connected to a hard disk drive (HDD) 27 for recording television programs.
  • HDD hard disk drive
  • a remote controller (hereinafter referred to as a remote controller) 28 attached to the program recording / reproducing apparatus 2 includes various types of remote controllers similar to those used in a normal digital broadcast television receiver. Operation buttons (power button, channel selection button ⁇ , recording reservation button ⁇ , playback button ⁇ , direction key and enter key for selecting on the EPG screen, etc.) are provided.
  • the digital broadcast signal input to the program recording / reproducing device 2 is selected by the tuner 11 based on the tuning operation of the remote controller 28, and then the demodulator 12 is used to select the frequency band. After being demodulated and descrambled by the descrambler 13, it is separated by the demultiplexer 14 into a bucket of video and audio data of a program for a plurality of channels and a packet of EPG information.
  • the video and audio data of the bucket for one channel extracted based on the channel selection operation of the remote control 28 are the video and audio data, respectively.
  • Decoder 15 and audio decoder 16 decode MPEG-2 Video and MPEG-2 Audio. Also, the No. 0 packet of the EPG information is sent to the CPU 19.
  • the video signal decoded by the video decoder 15 and the video signal for electronic program guide display created by the CPU 19 using the EPG information are converted into the NTSC format by the video signal processing circuit 17.
  • the image is output from the video output terminal 29 and sent to the display device 3 in FIG.
  • the audio signal decoded by the audio decoder 16 is converted into an analog signal by the DZA converter 18, output from the audio output terminal 30, and sent to the display device 3 shown in FIG.
  • the CPU 19 controls the entire program recording / reproducing apparatus 2 using the main memory 21 as working memory based on programs and data stored in the ROM 20.
  • the processing performed by the CPU 19 includes processing during viewing of a TV program based on the channel selection operation of the remote controller 28 and television program transmission to the HDD 27 based on the recording reservation operation of the remote controller 28.
  • processing during viewing of a TV program based on the channel selection operation of the remote controller 28 and television program transmission to the HDD 27 based on the recording reservation operation of the remote controller 28 includes processing during viewing of a TV program based on the channel selection operation of the remote controller 28 and television program transmission to the HDD 27 based on the recording reservation operation of the remote controller 28.
  • there is an automatic keyword extraction process In addition to the video recording process, there is an automatic keyword extraction process.
  • the ROM 20 includes a dictionary for titles, a keyword dictionary for titles, a dictionary for character strings excluded, a keyword dictionary for detailed information, and a character dictionary for detailed information. Contains the column dictionary.
  • the title keyword dictionary contains sub-genres such as' professional baseball, '' golf, '' sucker, '' onsen, '' go, '' shogi ',' movie, etc. (based on genre information in EPG information).
  • a general genre such as 'sports'
  • a character string such as 'love' or 'love'
  • a character string of a professional baseball team name Of the character strings often included in the title, valid and important character strings for searching for programs are registered.
  • the title exclusion string dictionary contains the program title, such as 'movie', 'BS', or a program listing-specific symbol (for example, a symbol indicating a news program with N enclosed in a square frame).
  • a character string that is too general as a keyword for searching for programs is registered.
  • Keyword dictionaries for detailed information include celebrities who often appear in television programs (entertainers, athletes, politicians, cultural figures, etc.). Of the names, only hiragana, a combination of hiragana and kanji, a combination of hiragana and katakana, a combination of kanji and katakana,
  • Character strings with names of only two or fewer kanji characters and only six or more kanji characters are registered.
  • the keyword dictionary for detailed information includes character strings other than person names, such as 'hot spring', which are often included in detailed character string information in EPG information.
  • An appropriate character string is also registered as a key word for searching programs.
  • Excluded character string dictionaries for detailed information include character strings that are often included in detailed character string information in EPG information, such as “guest”, “over”, and “director”. Inappropriate character strings are registered as keywords for searching for programs.
  • the CPU 19 downloads the latest dictionary (the name of the person who has just recently become famous) from the dedicated site via the Internet. And store it in flash memory 22 as well.
  • the CPU 19 is also supposed to perform the automatic keyword extraction processing by assuming the packet of the EPG information sent from the demultiplexer 14 at the time of the user's channel selection operation or the recording based on the user's recording reservation operation. Is stored in the flash memory 22.
  • FIGS. 3 and 4 are flowcharts showing an automatic keyword extraction process executed by the CPU 19.
  • FIG. 3 shows a process for extracting a keyword from the title character string information.
  • the title character string information is extracted from the EPG information stored in the flash memory 22 (step S 1).
  • step S 2 From the title of a plurality of programs indicated by the title character string information, the title for the keyword dictionary that are registered string ( 'Gol full ,,' whip over ',' hot spring ,, f Go ' , 'Shogi', 'movie' Character string indicating the genre). Then, of the titles of those programs, the entire character string of the title including the character string registered in this title keyword dictionary is extracted as a keyword (step S 2).
  • step S3 the character strings ('movie', 'BS', etc.) registered in the title exclusion string dictionary are represented by spaces. Replace (step S3).
  • step S4 keywords are extracted from the title character string after step S3 according to the extraction rule for titles as shown in Fig. 5 (step S4).
  • ' ⁇ ' (Midpoint) is not treated as a special character. If a character string extracted as a keyword has a “•” (middle point) at the beginning or end of the character string, the portion excluding the “•” (middle point) is used as a keyword.
  • step S4 the keyword extracted in step S4 is stored in flash memory 22 as a list of keywords in the title character string information (step S5).
  • FIG. 4 shows a process of extracting a keyword from the detailed character string information.
  • the detailed character string information is extracted from the EPG information stored in the flash memory 22 (step S11). ).
  • a character string (such as a name of a famous person) registered in the detailed information keyword dictionary is searched. And of the detailed character string information, a character string registered in this detailed information keyword dictionary is extracted as a keyword, and the character string part is replaced with a single-byte space (step S). 1 2).
  • step S12 the character strings ('guest', 'or more,', 'director', etc.) registered in the detailed information exclusion string dictionary are extracted. Replace the part with a space (step S13).
  • step S14 a keyword is extracted from the character string of the detailed character string information that has undergone step S13 by using an extraction rule for the detailed character string information as shown in FIG. 6 (step S14).
  • the extraction rules for detailed character string information basically use a character type separation method that separates hiragana, katakana, kanji, numbers, alphabets, and other characters.
  • katakana and alphabet are treated as the same character type (do not separate). If the character immediately preceding it is katakana or alphabet, it is treated as katakana or alphabet, respectively (not separated).
  • the character strings excluding the hiragana-only character string, the two-character or less kanji-only character string, and the six-character or more kanji-only character string are used as keywords. Extract. However, if ' ⁇ ' (middle point) exists at the beginning or end of the character string extracted as a keyword, the portion excluding ' ⁇ ' (middle point) is used as the keyword.
  • step S12 and the keyword extracted in step S14 are stored in the flash memory 22 as a list of keywords in the detailed character string information. (Step S15).
  • the title character string information in the EPG information sent from the demultiplexer 14 and stored in the flash memory 22 at the time of the user's channel selection operation or recording based on the user's recording reservation operation is as follows. It is assumed that such titles are included (however, ⁇ , ⁇ are the names of professional baseball teams).
  • step S4 since the noise of love is not separated by a special symbol, in step S4, the noise of love, which is the title itself, is extracted as a keyword. You. Therefore, in step S5, the following character strings are stored in the flash memory 22 as keywords for program search (as described above, ⁇ , ⁇ are professional baseball team names).
  • Titles that are not separated by such special characters are used as keywords for program search because the individual character strings such as 'love ,,' and 'space' contained in the title are too broad in meaning. It is not very useful (the search results are very large) and often serves only as a title itself as a keyword for efficient program search. Therefore, the user will be able to efficiently search for programs using the extracted keywords (the titles themselves).
  • the title string of the movie Space Wars is too general for searching for programs such as 'BS' and 'movie' which were added to this title in the title string information.
  • the keyword is not included in the keyword, and "", which surrounds the title in the title string information, is not included in the keyword. Therefore, users can search for programs efficiently.
  • step S12 the names of the host of the turmoil and the show, the guest, and the names of actors appearing in the movie Space Wars are extracted as keywords in step S12.
  • the part such as the name of the celebrity and character strings registered in the detailed information exclusion character string dictionary ('guest' 'Over', 'director' etc.) are replaced with single-byte spaces in steps S12 and S13.
  • step S14 a keyword is extracted from the space-replaced character string of the detailed character string information according to the rule shown in FIG.
  • Katakana and Alphabet are treated as the same character type, and ' ⁇ , (middle dot) indicates Katakana and Alphabet if the character immediately before it is Katakana and Alphabet, respectively. Since it is treated as an alphabet, a foreign name with a ' ⁇ ' (middle dot) inserted between the name and last name (for example, ⁇ ⁇ Dooly) is also extracted as a keyword.
  • the names of people who are not yet registered in the latest keyword dictionary for detailed information are only hiragana, kanji characters of 2 characters or less, or characters of 6 characters or more. If it is not a name consisting only of vague characters (that is, a name that is unlikely to be a personal name), it is extracted as a keyword.
  • character strings that are inappropriate for program search such as 'guest,', 'more than,' and 'director' are not extracted as keywords because of the space substitution. .
  • step S15 the surname was written in kanji, the name of a celebrity such as Hiragana or Katakana, the name of a person who just became famous recently, the name was written in alphabetical letters, and the last name was written in katakana
  • the names of foreigners and the names of foreigners with a " ⁇ " (middle dot) between their first and last names are also stored in the flash memory 22 as keywords for program search. Therefore, the user can efficiently search for programs using the extracted keywords.
  • the keyword stored in the flash memory 22 by the processing of FIGS. 3 and 4 is used by the user for program search.
  • the CPU 19 displays a program search screen (a list of keywords and a user selects a desired keyword in the screen).
  • An appropriate method such as creating a video signal for selecting and instructing a search) and sending it to the display device 3 via the video signal processing circuit 17 and the video output terminal 29, may be used. .
  • the extraction of the key word from the title character string information in the EPG information and the extraction of the key word from the detailed character string information are performed according to the respective information.
  • keywords can be extracted accurately with a small program or dictionary.
  • the present invention is applied to an apparatus that records and reproduces digital television broadcast programs.
  • the present invention is not limited to this, and it goes without saying that the present invention may be applied to a program recording / reproducing apparatus for recording / reproducing a program of analog television broadcasting.
  • FIG. 7 is a block diagram showing a hardware configuration of a program recording / reproducing apparatus for analog television broadcasting to which the present invention is applied.
  • the video and audio signals in the analog broadcast signal received by the antenna 31 and input to the program recording / reproducing device 41 are selected in frequency band by the tuner 42 and encoded by the MPEG encoder 43.
  • the encoded video / audio data is decoded by an MPEG decoder 47, and the program recording / reproducing device 41 To the display device 6 1.
  • the video / audio data encoded by the MPEG encoder 43 is sent to the main storage device 45 via the bus 44 and recorded on the main storage device 45.
  • the video and audio data read from the main storage device 45 is sent to the MPEG decoder 47 via the bus 44 and decoded by the MPEG decoder 47 so that the program recording / reproducing device 41 Is sent to the display device 6 1.
  • EPG information is acquired by the EPG acquisition module 46 from the analog broadcast signal whose frequency band is selected by the tuner 42. This EPG information is also sent to the main storage device 45 via the bus 44 and stored in the main storage device 45.
  • a communication interface 48, ROM 49, main storage device 50, auxiliary storage device 51, and MPEG decoder 47 for connecting to the Internet 71 are connected to each other by a path 52. ing.
  • the title keyword dictionary, title exclusion character string dictionary, detailed information keyword dictionary, and detailed information exclusion character string dictionary are stored in the ROM 49 as described above.
  • the detailed information keyword dictionary the latest one is downloaded from a dedicated site via the Internet and stored in the auxiliary storage device 51.
  • the CPU 53 that controls the whole performs the same keyword automatic extraction processing as shown in FIGS. 3 and 4 using these dictionaries and the EPG information in the main storage device 45, and extracts the extracted keywords. Is stored in the auxiliary storage device 51.
  • the keyword extraction from the title character string information in the EPG information and the detailed character string are performed in exactly the same way as described for the program recording / reproducing device 2 in FIGS. From information By extracting keywords using different keyword dictionaries and rules according to the respective information, it is possible to extract keywords with high accuracy using a small-sized program or dictionary.
  • the title character string information and the detailed character string information in the EPG information can be used.
  • the present invention is applied to a program recording / reproducing device separate from the display device.
  • the present invention is not limited to this, and the present invention is also applied to a television receiver in which the program recording / reproducing device and the display device are integrated or a television receiver having no program recording / reproducing function. Good.
  • the present invention is applied to search for a keyword from the title character string information and detailed character string information of the program in the EPG information.
  • the present invention is not limited to this, and may be used to search for a keyword from the title character string information and detailed character string information of content other than television programs (for example, contents distributed via the Internet). May be applied.
  • the present invention is not limited to the above examples, and may take various other configurations without departing from the gist of the present invention.
  • the present invention even in a home electric appliance where the processing capacity of the CPU and the capacity of the memory are not so large, the user can obtain the information from the title character string information and the detailed character string information of the program such as the EPG information.
  • the advantage is that keywords for searching for programs can be automatically and efficiently extracted with high accuracy.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

コンテンツのタイトル文字列情報から、サブジャンルを示す文字列が登録されている第1のキーワード辞書を用いてキーワードの抽出を行う第1の抽出手段19と、このコンテンツの詳細文字列情報から、人名が登録されている第2のキーワード辞書を用いたキーワードの抽出と、字種切り法を利用したキーワードの抽出とを行う第2の抽出手段19とを備える。これにより、CPUの処理能力やメモリの容量がさほど大きくない家電製品でも、EPG情報のようなコンテンツのタイトル文字列情報及び詳細文字列情報から、ユーザーがコンテンツを検索するためのキーワードを、効率よく且つ精度よく自動的に抽出できるようにする。

Description

明 細 書
キーワー ドの自動抽出装置及び方法、 記録媒体、 並びにプロダラ ム
技術分野
本癸明は、 E P G ( Electronic Program Guide: 電子番組ガイ ド) 情報のよ うなコンテンツのタイ トル文字列情報及び詳細文字 列情報から、 キーワー ドを自動的に抽出する装置及び方法、 記録 媒体、 並びにプログラムに関する。 背景技術
近年本格化しているディジタルテレビジョ ン放送では、 番組の 映像 · 音声データ と ともに、 番組のタイ トルを示す情報 (タイ ト ル文字列情報) や番組の詳細を説明する情報 (詳細文字列情報) や番組のジャンルを示す情報等を含んだ E P G情報が、 放送局か ら送信される。 ディジタル放送に対応したテレビジョ ン受信機で は、 この E P G情報に基づいて画面上に電子番組ガイ ドを表示さ せるこ とができる。
また、 アナログテレビジョ ン放送でも、 こ う した E P G情報が 送信されているものがある。
ユーザーは、 見たい番組を検索する場合、 この電子番組ガイ ド を利用して、 大まかなジャンル (例えばスポーツ, ドラマ等) を 選んだ後、 タイ トルから検索したり、 詳細文字列情報を読んで検 索したり している。
しかし、 番組のタイ トルの付け方は千差万別であるので、 タイ ト からの検索はユーザーにとって必ずしも行いやすいものでは ない。 また、 番組の詳細文字列情報は文章の形式で記述されてお り何ページにも亘ることが少なく ないので、 詳細文字列情報から の検索もユーザーにとって面倒である。 これに対し、 例えば芸能人名等のキーワー ドを用いて番組を検 索できるよ うにすれば、 ユーザーにとって検索が非常に容易にな る。 しかるに、 現在放送局から送信される E P G情報には、 キー ワー ドは独立して含まれていない。 そのため、 キーワードを用い た検索を可能にするためには、 E P G情報からキーワー ドを抽出 することが必要になる。 ' . 従来、 このキーワー ドの抽出方法と しては、 テレビジョ ン受信 機に表示された電子番組ガイ ド中の詳細文字列情報の文章の中か ら、 ユーザーが、 キーワー ドと して決定したい文字列の先頭及び 末尾の語をカーソル等で指定する という方法が存在していた。
しかし、 この従来の抽出方法では、 ユーザーが自 らキーヮー ド 指定のための操作を行わなければならないので、 煩雑である と と もに、 多数のキーヮー ドを短時間に抽出することは困難である。 他方、 一般的なキーワー ドの自動抽出方法と しては、 日本語形 態要素解析という方法が知られている。 しかし、 この方法は、 プ ログラムのサイズや使用する辞書のサイズが非常に大きいと と も に、 C P Uに大きな負荷をかけてしま う。 したがって、 テレビジ ヨ ン受信機のよ う に C P Uの処理能力やメモリ の容量がさほど大 き く ない家電製品でこの方法を用いることは、 極めて非効率的で ある。
さ らに、 一般的なキーワー ドの自動抽出方法と しては、 字種切 り法という方法も知られている。 この方法は、 漢字 · カタカナ ' 平仮名 · アルファべッ ト · 数字等の字種の違いを検出するこ とに よってキーワー ドを抽出するものである。 しかし、 この字種切り 法だけでは、 番組を検索するためのキーワー ドの抽出を精度よく 行う ことはできない。 すなわち、 苗字が漢字で名前が平仮名や力 タカナの芸能人名 (例えば '石田あかり ' という よ う な名称) は、 苗字と名前とが分割されてしま う ので抽出するこ とができない。 また、 名前がアルファべッ トで表記され苗字がカタカナで表記さ れた外国人名や名前と苗字との間に ' · ' (中点) が揷入された外 国人名 (例えば ' B · ドゥーリー, という よ う な名称) も、 名前 と苗字とが分割されてしま う ので抽出することができない。
本発明は、 上述の点に鑑み、 C P Uの処理能力やメモリ の容量 がさほど大きく ない家電製品でも、 E P G情報のよ うなコンテン ッのタイ トル文字列情報及び詳細文字列情報から、 ユーザーがコ ンテンッを検索するためのキーワー ドを、 効率よく 且つ精度よく 自動的に抽出できるよ う にするこ とを課題と してなされたもので ある。 発明の開示
この課題を解決するために、 本出願人は、 コンテンツのタイ ト ル文字列情報から、 サブジャンルを示す文字列が登録されている 第 1 のキーヮー ド辞書を用いてキーヮー ドの抽出を行う第 1 の抽 出手段と、 このコンテンツの詳細文字列情報から、 人名が登録さ れている第 2のキーヮー ド辞書を用いたキーヮー ドの抽出と、 字 種切り法を利用したキーヮー ドの抽出とを行う第 2 の抽出手段と を備えたキーワード自動抽出装置を提案する。
このキーワー ド自動抽出装置では、 コンテンツのタイ トル文字 列情報 (例えばテレビジョ ン放送では E P G情報中のタイ トル文 字列情報) からは、 サブジャンルを示す文字列が登録されている 第 1 のキーヮー ド辞書を用いてキーヮー ドが抽出される。
また、 コンテンツの詳細文字列情報 (例えばテレビジョ ン放送 では E P G情報中の詳細文字列情報) からは、 人名が登録されて いる第 2のキーヮー ド辞書を用いてキーワードが抽出される と と もに、 字種切り法を利用したキーワー ドの抽出も行われる。 その 際、 第 2 のキーワー ド辞書に登録されている人名であれば、 苗字 が漢字で名前が平仮名やカタカナの人名もキーヮー ドと して抽出 される。 また、 第 2 のキーワー ド辞書に登録されていない人名で も、 字種切り法を利用するこ とによってキーワー ドと して抽出さ れる。
このよ う に、 タイ トル文字列情報からのキーワー ドの抽出と詳 細文字列情報からのキーヮー ドの抽出とを、 それぞれの情報に合 せて互いに異なるキーヮー ド辞書とルール (字種切り法を利用す るか否か等) で行う ことによ り、 小さなサイズのプログラムや辞 書で精度よ く キーヮー ドを抽出するこ とができる。
これによ り、 C P Uの処理能力やメモリ の容量がさほど大き く ない家電製品でも、 E P G情報のよ う なコンテンツのタイ トル文 字列情報及ぴ詳細文字列情報から、 ユーザーがコンテンツを検索 するためのキーワー ドを、 効率よく 且つ精度よく 自動的に抽出す ることができるよ う になる。
なお、 このキーワー ド自動抽出装置において、 一例と して、 第 1 の抽出手段は、 第 1 のキーワー ド辞書に登録されている文字列 を含むタイ トル文字列の う ち、 所定の除外文字列辞書に登録され ている文字列を除外した部分からキーワー ドを抽出することが好 適である。
それによ り、タイ トルに含まれていることのある文字列のう ち、 コンテンツを検索するためには不適切な (一般的過ぎるよ う な) 文字列がキーワー ドに含まれるこ とを防止するこ とができる。 し たがって、 ユーザーは、 抽出されたキーワー ドを用いて、 コンテ ンッを一層効率的に検索することができるよ う になる。
さ らに、 このキーワー ド自動抽出装置において、 一例と して、 第 1 の抽出手段は、 第 1 のキーワー ド辞書に登録されている文字 列を含むタイ トル文字列のう ち、 平仮名, カタカナ, 漢字, 数字, アルファベッ ト以外の特殊文字で区切られている文字列をキーヮ ー ドと して抽出することが好適である。
それによ り、 こ う した特殊文字で区切られていないタイ トルに ついては、 そのタイ トルに含まれる複数の文字列がばらばらのキ 一ワー ドと して抽出されることなく 、 そのタイ トルそのものがそ のままの形でキーワー ドと して抽出されるよ う になる。
こ う した特殊文字で区切られていないタイ トルは、 そのタイ ト ルに含まれる個々の文字列は意味が広すぎてコ ンテンツ検索のた めのキーワー ドと してあま り役立たず (検索結果が非常に多く な り)、タイ トルそのものと してはじめてコンテンツの効率的な検索 のためのキーワー ドと して役立つこ とが多い。 したがって、 ユー ザ一は、 抽出されたキーワー ド (タイ トルそのもの) を用いて、 コンテンツを一層効率的に検索するこ とができるよ う になる。 また一方では、特殊文字で区切られているタイ トルについては、 特殊文字で区切られている個々の文字列がそれぞれキーワー ドと して抽出されるよ う になる。
特殊文字 (例えばスペースや ' X ' 等) で区切られているタイ トルは、 その特殊文字で区切られている個々の文字列がそれぞれ コンテンツ検索のためのキーワー ドと して役立ち、 タイ トルその ものと しては限定されすぎてコ ンテンツ検索のためのキーヮー ド と してあま り役立たない (検索結果がゼロまたは非常に少なく な る) こ とが多い。 したがって、 ユーザーは、 抽出されたキーヮー ド (特殊文字で区切られている個々の文字列) を用いて、 やはり コンテンツを一層効率的に検索するこ とができるよ う になる。
さ らに、 このキーワー ド自動抽出装置において、 一例と して、 第 2の抽出手段は、 第 2のキーワー ド辞書を用いてキーワー ドを 抽出した詳細文字列情報の残り の部分のう ち、 所定の除外文字列 辞書に登録されている文字列を除外した部分から、 字種切り法を 利用したキーワー ドの抽出を行う こ とが好適である。 それによ り、 詳細文字列情報に含まれていることのある文字列 の う ち、 コンテンツを検索するためには不適切な文字列がキーヮ ー ドに含まれることを防止することができる。 したがって、 ユー ザ一は、 抽出されたキーワー ドを用いて、 コンテンツを一層効率 的に検索するこ とができるよ うになる。
さ らに、 このキーワー ド自動抽出装置において、 一例と して、 第 2 の抽出手段は、 字種切り法を利用しつつ、 カタカナとアルフ ァベッ ト とを同一字種と して扱う と ともに、 ' · , (中点) は、 そ の直前の文字がカタカナ, アルファベッ トである場合にはそれぞ れカタカナ, アルファベッ ト と して扱う こ とが好適である。
それによ り、 名前がアルファべッ トで表記され苗字がカタカナ で表記された外国人名や名前と苗字との間に ' · ' (中点) が挿入 された外国人名も、 キーワー ドと して抽出することができるよ う になる。
さ らに、 このキーワー ド自動抽出装置において、 第 2のキーヮ 一ド辞書をネッ トワーク経由でダウンロー ドする手段をさ らに備 え、 第 2の抽出手段はこのダウンロー ドされた第 2のキーヮー ド 辞書を用いるこ とが好適である。
それによ り、 第 2 のキーワード辞書と して、 最新の辞書 (最近 有名になったばかり の人の名称も登録されている辞書) を用いて キーワー ドを抽出するこ とができるよ うになる。
次に、 本出願人は、 コンテンツのタイ トル文字列情報から、 サ ブジャンルを示す文字列が登録されている第 1 のキーヮー ド辞書 を用いてキーヮー ドの抽出を行う第 1 のステップと、 このコンテ ンッの詳細文字列情報から、 人名が登録されている第 2 のキーヮ 一ド辞書を用いたキーヮー ドの抽出と、 字種切り法を禾 IJ用したキ 一ワー ドの抽出とを行う第 2 のステップとを有するキーワー ド自 動抽出方法を提案する。 また、 キーワー ド自動抽出装置のプログラムであって、 コンテ ンッのタイ トル文字列情報から、 サブジャンルを示す文字列が登 録されている第 1 のキーヮー ド辞書を用いてキーヮー ドの抽出を 行う第 1 の抽出ステップと、 このコ ンテンツの詳細文字列情報か ら、 人名が登録されている第 2のキーワー ド辞書を用いたキーヮ ー ドの抽出と、 字種切り法を利用したキーワー ドの抽出とを行う 第 2 の抽出ステップとを含むコンピュータが読み取り可能なプロ グラムが記録されている記録媒体を提案する。
また、 キーワー ド自動抽出装置を制御するコンピュータに、 コ ンテンッのタイ トル文字列情報から、 サブジャンルを示す文字列 が登録されている第 1 のキーワー ド辞書を用いてキーワー ドの抽 出を行う第 1 の抽出ステップと、 このコンテンツの詳細文字列情 報から、 人名が登録されている第 2 のキーワー ド辞書を用いたキ 一ワー ドの抽出と、 字種切り法を利用したキーヮー ドの抽出とを 行う第 2 の抽出ステップとを実行させるプログラムを提案する。
このキーワー ド自動抽出方法や記録媒体やプログラムによれば 前述の本発明に係るキーワー ド自動抽出装置について説明したの と全く 同様にして、 C P Uの処理能力やメモリ の容量がさほど大 きく ない家電製品でも、 E P G情報のよ う なコンテンツのタイ ト ル文字列情報及び詳細文字列情報から、 ユーザーがコンテンツを 検索するためのキーワー ドを、 効率よく且つ精度よ く 自動的に抽 出するこ とができるよ う になる。 図面の簡単な説明
図 1 は、 本発明を適用した番組記録再生装置を含むデジタルテ レビジョ ン放送受信システムの概要を示す図である。
図 2は、 図 1 の番組記録再生装置のハー ドウエア構成を示すブ ロ ック図である。 図 3は、 図 2の C P Uが実行するキーワー ドの自動抽出処理を 示すフローチヤ一トである。
図 4は、 図 2の C P Uが実行するキーヮー ドの自動抽出処理を 示すフローチヤ一トである。
図 5は、 図 3 の処理におけるキーワー ド抽出のためのルールを 示す図である。
図 6は、 図 4の処理におけるキーヮー ド抽出のためのルールを 示す図である。
図 7は、 本発明を適用したアナログテレビジョ ン放送用の番組 記録再生装置のハー ドウエア構成を示すブロ ック図である。 発明を実施するための最良の形態
以下、 デジタルテレビジョ ン放送の番組を記録 ' 再生する装置 に本発明を適用した例について、 図面を用いて説明する。
図 1 は、 本発明を適用した番組記録再生装置を含むデジタルテ レビジョ ン放送受信システムの概要を示す図である。 テレビジョ ン放送局から送信されたデジタル放送信号が、 アンテナ 1 で受信 されて番組記録再生装置 2 に入力する。 番組記録再生装置 2は、 ディ スプレイ及びス ピーカを含む表示装置 3 に接続される と と も に、 インターネッ ト 4に接続されている。
図 2は、 番組記録再生装置 2のハー ドウェア構成を示すブロ ッ ク図である。 この番組記録再生装置 2では、 チューナ 1 1 , 復調 器 1 2, デスクランブラ 1 3, 多重分離器 1 4が順に接続される と と もに、 多重分離器 1 4 に対して映像デコーダ 1 5, 映像信号 処理回路 1 7 と音声デコーダ 1 6, D Z A変換器 1 8 とがそれぞ れ順に接続されている。
また、 チューナ 1 1〜D/A変換器 1 8, C P U 1 9 , R OM 2 0, メイ ンメ モリ (R AM) 2 1, フラ ッシュメモ リ 2 2, リ モー ト コ ン ト ローラ用のイ ンターフェース 2 3, HD D ( ノヽー ド ディ スク ドライ ブ) 用のイ ンターフェース 2 4, イ ンターネ ッ ト 接続用の通信インターフェース 2 5が、 互いにシステムバス 2 6 で結ばれている。 インターフェース 2 4には、 テレビ番組を録画 するための HD D (ハー ドディスク ドライブ) 2 7が接続されて いる。
この番組記録再生装置 2に付属したリ モー ト コ ン ト ローラ (以 下リモコンと呼ぶ) 2 8 には、 通常のデジタル放送用テレビジョ ン受信機に付属したリ モコ ンにおけるのと同じ各種の操作釦 (電 源釦や、 選局釦ゃ、 録画予約釦ゃ、 再生釦ゃ、 E P G画面上で選 択を行うための方向キーや決定キー等) が設けられている。
テ レビ番組の視聴時には、 番組記録再生装置 2 に入力したデジ タル放送信号は、 リ モコ ン 2 8の選局操作に基づいてチューナ 1 1で周波数帯を選択された後、 復調器 1 2で復調され、 デスクラ ンブラ 1 3でスクランブルを解かれた後、 多重分離器 1 4で、 複 数チャ ンネル分の番組の映像 · 音声データ のバケツ トゃ E P G情 報のパケッ トに分離される。
こ の複数チャ ンネル分のテレビ番組の映像 · 音声のバケ ツ トの う ち、 リモコ ン 2 8の選局操作に基づいて抽出した 1 チャ ンネル 分のバケツ トの映像,音声データが、それぞれ映像デコーダ 1 5, 音声デコーダ 1 6 によ り MP E G— 2 V i d e o, M P E G— 2 A u d i oで復号される。 また、 E P G情報のノヽ0ケッ トは C P U 1 9 に送られる。
そして、 映像デコーダ 1 5で復号された映像信号や、 E P G情 報を用いて C P U 1 9で作成された電子番組ガイ ド表示用の映像 信号が、 映像信号処理回路 1 7で N T S C方式への変換やミキシ ング等を施され、 映像出力端子 2 9から出力して図 1 の表示装置 3に送られる。 また、 音声デコーダ 1 6で復号された音声信号が、 DZA変換 器 1 8でアナログ変換され、 音声出力端子 3 0から出力して図 1 の表示装置 3 に送られる。
C P U 1 9 は、 R OM 2 0に格納されたプログラムやデータに 基づき、 メイ ンメモリ 2 1 をワーキングメモ リ と して用いてこの 番組記録再生装置 2全体を制御する。
C P U 1 9が行う処理には、 リ モ コ ン 2 8の選局操作に基づく テレビ番組の視聴時の処理や、 リ モコン 2 8の録画予約操作に基 づく HD D 2 7へのテ レビ番組の録画処理の他に、 キーワー ドの 自動抽出処理がある。
R OM 2 0 には、 このキーワー ドの自動抽出処理で用いるため の辞書と して、 タイ トル用キーワー ド辞書, タイ トル用除外文字 列辞書, 詳細情報用キーヮー ド辞書及び詳細情報用除外文字列辞 書が格納されている。
タイ トル用キーワー ド辞書には、 'プロ野球,, 'ゴルフ,, 'サッ カー,, '温泉,, '囲碁,, '将棋', '映画, 等のサブジャンル ( E P G情報中のジャンル情報による 'スポーツ, といったよ う な大 まかなジャンルよ り も細かいジャンル) を示す文字列や、 '恋', '愛, といった文字列や、 プロ野球の球団名の文字列のよ う に、 番組のタイ トルに含まれていることの多い文字列のう ち、 番組を 検索するために有効且つ重要な文字列が登録されている。
タイ トル用除外文字列辞書には、 '映画', ' B S ', 番組表独特 の記号 (例えば、 ニュース番組を表す、 Nを四角の枠で囲んだ記 号) といったよ う に、 番組のタイ トルに含まれているこ とのある 文字列の う ち、 番組を検索するためのキーワー ドと しては一般的 過ぎる文字列が登録されている。
詳細情報用キーヮー ド辞書には、 テレビジョ ン番組に登場する こ との多い有名人 (芸能人, スポーツ選手, 政治家, 文化人等) の名称のう ち、 平仮名のみ, 平仮名 と漢字との組み合わせ, 平仮 名とカタカナとの組み合わせ, 漢字とカタカナとの組み合わせ,
2文字以下の漢字のみ, 6文字以上の漢字のみの名称の文字列が それぞれ登録されている。また、詳細情報用キーワー ド辞書には、 例えば '温泉' という よ う な、 E P G情報中の詳細文字列情報に 含まれているこ と の多い文字列のう ち、 人名以外の文字列であつ て番組を検索するためのキーヮー ドと して適切な文字列も登録さ れている。
詳細情報用除外文字列辞書には、 'ゲス ト ', '以上', '監督' の よ う に、 E P G情報中の詳細文字列情報に含まれているこ と の多 い文字列のう ち、 番組を検索するためのキーワードと しては不適 切な文字列が登録されている。
なお、 C P U 1 9 は、 詳細情報用キーワー ド辞書に関しては、 インターネッ ト経由で専用のサイ トから最新のもの (最近有名に なったばかり の人の名称等が登録されているもの) をダウンロー ドしてフラ ッシュメモリ 2 2 にも記憶させる。
また、 C P U 1 9 は、 キーワー ドの自動抽出処理を行う前提と して、 ユーザーの選局操作時やユーザーの録画予約操作に基づく 録画時に多重分離器 1 4から送られた E P G情報のパケッ トをフ ラッシュメモリ 2 2 に記憶させる。
図 3, 図 4は、 C P U 1 9が実行するキーワー ドの自動抽出処 理を示すフローチャー トである。 このう ち、 図 3は、 タイ トル文 字列情報からキーワードを抽出する処理であり 、 最初に、 フラ ッ シュメモリ 2 2 に記憶させた E P G情報の中から、 タイ トル文字 列情報を取り出す (ステップ S 1 )。
続いて、 そのタイ トル文字列情報が示す複数の番組のタイ トル から、 タイ トル用キーワー ド辞書に登録されている文字列 ('ゴル フ,, 'サッ ー ', '温泉,, f 囲碁', '将棋,, '映画, といったサ ブジャンルを示す文字列等) を探す。 そして、 それらの番組のタ ィ トルのう ち、 このタイ トル用キーワー ド辞書に登録されている 文字列が含まれているタイ トルの文字列全体を、 キーワー ドの抽 出対象とする (ステップ S 2 )。
続いて、 ステップ S 2でキーワー ドの抽出対象と したタイ トル の う ち、 タイ トル用除外文字列辞書に登録されている文字列 ('映 画,, ' B S ' 等) の部分をスペースで置換する (ステップ S 3 )。
続いて、 ステップ S 3 を経たタイ トルの文字列から、 図 5に示 すよ うなタイ トル用の抽出ルールでキーワー ドを抽出する (ステ ップ S 4 )。
このタイ トル用抽出ルールでは、 そのタイ トルの文字列が平仮 名, カタカナ, 漢字, 数字, アルファベッ ト以外の特殊文字 (ス ペースや Xや 「」 等) で区切られていない場合は、 そのタイ トル の文字列をそのままキーワー ドと して抽出する。 他方、 そのタイ トルの文字列がこ う した特殊文字で区切られている場合は、 特殊 文字で区切られている各文字列のう ちの 2文字以上の文字列をそ れぞれキーヮー ドと して抽出する。
伹し、 ' · ' (中点) は特殊文字と しては扱わない。 そして、 キ 一ワー ドと して抽出した文字列の先頭か末尾に ' · ' (中点) が存 在する場合には、 ' ·, (中点) を除いた部分をキーヮー ドとする。
最後に、 ステップ S 4で抽出したキーワー ドを、 タイ トル文字 列情報中のキーワー ドの リ ス ト と してフラ ッシュメモ リ 2 2 に記 憶させる (ステップ S 5 )。
次に、 図 4は、 詳細文字列情報からキーワー ドを抽出する処理 であり、 最初に、 フラ ッシュメモリ 2 2に記憶させた E P G情報 の中から、 詳細文字列情報を取り 出す (ステップ S 1 1 )。
続いて、 その詳細文字列情報から、 詳細情報用キーワー ド辞書 に登録されている文字列 (有名な人の名称等) を探す。 そして、 その詳細文字列情報のう ち、 この詳細情報用キーワー ド辞書に登 録されている文字列をキーワー ドと して抽出すると ともに、 その 文字列の部分を半角スペースで置換する (ステ ップ S 1 2 )。
続いて、ステップ S 1 2 を経た詳細文字列情報の文字列のう ち、 詳細情報用除外文字列辞書に登録されている文字列 ('ゲス ト ', '以上,, '監督, 等) の部分を半角スペースで置換する (ステツ プ S 1 3 )。
続いて、 ステップ S 1 3 を経た詳細文字列情報の文字列から、 図 6 に示すよ うな詳細文字列情報用の抽出ルールでキーワー ドを 抽出する (ステ ップ S 1 4 )。
こ の詳細文字列情報用抽出ルールでは、 基本的には、 平仮名と カタカナと漢字と数字とアルフ ァべッ ト とその他の字種の文字と を互いに分離する字種切り法を利用する。
但し、カタカナとアルフ ァべッ ト とは同一の字種と して扱う(分 離しない)。 また、 ' · , (中点) は、 その直前の文字がカタカナ, アルフ ァべッ トである場合にはそれぞれカタカナ, アルフ ァべッ ト と して扱う (分離しない)。
そして、 分離した各文字列のう ち、 平仮名のみの文字列, 2文 字以下の漢字のみの文字列, 6文字以上の漢字のみの文字列を除 いた文字列を、 それぞれキーワー ドと して抽出する。 但し、 キー ワー ドと して抽出した文字列の先頭か末尾に ' · ' (中点) が存在 する場合には、 ' · ' (中点) を除いた部分をキーワー ドとする。
最後に、 ステップ S 1 2で抽出したキーワー ドと、 ステップ S 1 4で抽出したキーワー ドを、 詳細文字列情報中のキーワー ドの リ ス ト と してフラ ッシュ メ モ リ 2 2 に記憶させる (ステ ップ S 1 5 )。
次に、 こ の番組記録再生装置 2 において番組検索のためのキー ワー ドが抽出される様子を、 具体例を挙げて説明する。 ユーザーの選局操作時やユーザーの録画予約操作に基づく録画 時に多重分離器 1 4から送られてフラッシュメ モ リ 2 2に記憶さ れた E P G情報中のタイ トル文字列情報に、 例えば次のよ うなタ ィ トルが含まれていたとする (但し□□, △△はプロ野球チーム 名である)。
愛のから騒ぎ
プロ野球中継 □□ X△△
B S映画 「スペース ' ウォーズ」
すると、 図 3の処理では、 '愛', 'プロ野球', '映画, という文 字列がタイ トル用キーワー ド辞書に登録されているので、 ステツ プ S 2で、 これらの各タイ トルについて、 それぞれそのタイ トル の文字列全体がキーヮー ドの抽出対象となる。
そして、 これらのタイ トルのう ち、 B S映画 「スペース ' ゥォ ーズ」 については、 ステップ S 3で、 ' B S, の部分と '映画, の 部分とがスペースで置換される。
また、 これらのタイ トルの う ち、 プロ野球中継 ロロ 厶厶に ついては、 'プロ野球中継, と '□□, との間にスペース (特殊記 号) が存在し、 '□□, と '△△, との間にも X (特殊記号) が存 在するので、 ステップ S 4 で、 文字列 'プロ野球中継,, '□□ ', '△△, がそれぞれキーワー ドと して抽出される。
また、 これらのタイ トルの う ち、 ' B S ', '映画, の部分をスぺ ース置換された 「スペース ' ウォーズ」 については、 「」 (特殊記 号) で区切られており、 また ' · ' (中点) は特殊記号と して扱わ ないので、 ステップ S 4で、 本来の映画のタイ トルそのものであ る 'スペース ' ウォーズ, がキーワー ドと して抽出される。
また、 これらのタイ トルのう ち、 愛のから騒ぎは、 特殊記号で 区切られていないので、 ステップ S 4で、 タイ トルそのものであ る '愛のから騒ぎ, がキーワー ドと して抽出される。 したがって、 ステップ S 5では、 以下の文字列が番組検索用の キーワー ドと してフラッシュメモリ 2 2に記憶される (前述のよ うに□□, △△はプロ野球チーム名である')。
愛のから騒ぎ
プロ野球中継
□□
Δ Δ
スぺ—ス · ウォーズ
このよ うにして、 愛のから騒ぎ, スペース ' ウォーズという よ う に特殊文字で区切られていないタイ トルについては、 図 3の処 理によ り 、 そのタイ トルに含まれる複数の文字列がばらばらのキ 一ワー ドと して抽出されることなく 、 そのタイ トルそのものがそ のままの形でキーヮー ドと して抽出される。
こ う した特殊文字で区切られていないタイ トルは、 そのタイ ト ルに含まれる '愛,, 'スペース , 等の個々の文字列は意味が広す ぎて番組検索のためのキーヮー ドと してあま り役立たず (検索結 '果が非常に多く なり)、タイ トルそのものと してはじめて番組の効 率的な検索のためのキーワー ドと して役立つことが多い。 したが つて、 ユーザーは、 抽出されたキーワー ド (タイ トルそのもの) を用いて、 番組を効率的に検索することができるよ う になる。 また、 スペース · ウォーズという映画のタイ トル文字列につい ては、 タイ トル文字列情報においてこのタイ トルに付加されてい た ' B S ', '映画' という よ う な番組検索のためには一般的過ぎ る文字列がキーヮー ドに含まれていないと と もに、 このタイ トル 文字列情報においてこのタイ トルを囲っていた 「」 もキーワー ド に含まれていない。 したがって、 ユーザーは番組を効率的に検索 するこ とができるよ うになる。
また一方では、 プロ野球中継 D D X A Aとレ、う よ うに特殊文 字 (スペースや ' Χ ' ) で区切られているタイ トルについては、 図 3の処理によ り 、 特殊文字で区切られている個々の文字列である プロ野球中継, □□, Δ Δがそれぞれキーワー ドと して抽出され る。
こ う した特殊文字で区切られているタイ トルは、 その特殊文字 で区切られている個々の文字列がそれぞれ番組検索のためのキー ヮー ドと して役立ち、 タイ トルそのものと しては限定されすぎて 番組検索のためのキーヮー ドと してあま り役立たない (対戦チー ム (口口や△△の具体名) が異なれば別のタイ トルになってしま う ので、 検索結果がゼロまたは非常に少なく なる) こ とが多い。 したがって、 ユーザーは、 抽出されたキーワー ド (特殊文字で区 切られている個々の文字列) を用いて、 やはり番組を効率的に検 索するこ とができるよ う になる。
他方、 図 4 の処理では、 フラ ッシュメモリ 2 2に記憶された Ε P G情報中のこれらのタイ トルの番組の詳細文字列情報から、 詳 細情報用キーワー ド辞書に登録されている有名人 (愛のから騒ぎ とレヽぅ番組の司会者, ゲス トや、 映画スペース · ウォーズに出演 している俳優) の名称等が、 ステップ S 1 2でキーワー ドと して 抽出される。
その際、 苗字が漢字で名前が平仮名やカタカナの有名人の名称 (例えば石田あかり という名称) も この詳細情報用キーワー ド辞 書に登録されているので、 そ う した有名人の名称もキーワー ドと して抽出される。
また、 インターネッ ト経由でダウンロー ドした最新の詳細情報 用キーワー ド辞書も用いるので、 最近有名になったばかり の人の 名称もキーヮー ドと して抽出される。
また、 その詳細文字列情報のう ち、 その有名人の名称等の部分 と、詳細情報用除外文字列辞書に登録されている文字列('ゲス ト ' '以上', '監督' 等) の部分とが、 ステップ S 1 2及ぴ S 1 3で 半角スペースに置換される。
そして、こ のスペース置換された詳細文字列情報の文字列から、 ステップ S 1 4で、 図 6 に示したルールによってキーワー ドが抽 出される。
その際、 カタカナとアルファべッ ト とは同一の字種と して扱わ れると と もに ' · , (中点) はその直前の文字がカタカナ, アルフ アベッ トである場合にはそれぞれカタカナ, アルフ ァべッ ト と し て扱われるので、 名前と苗字との間に ' · ' (中点) が挿入された 外国人名 (例えば Β · ドゥーリー) もキーワー ドと して抽出され る。
また、 最新の詳細情報用キーワー ド辞書にもまだ登録されてい ない人(例えばデビューしたばかり の無名の芸能人)の名称でも、 平仮名のみの名称や 2文字以下の漢字のみの名称や 6文字以上の 漠字のみの名称 (すなわち人名と してあま り なさそう な名称) で なければキーヮー ドと して抽出される。
また、 'ゲス ト,, '以上,, '監督' といったよ う な番組検索のた めには不適切な文字列は、 スペース置換されているのでキーヮー ドと して抽出されるこ とはない。
これによ り、 ステップ S 1 5では、 苗字が漢字で名前が平仮名 やカタカナの有名人名や、最近有名になったばかり の人の名称や、 名前がアルファベッ トで表記され苗字がカタカナで表記された外 国人名や、 名前と苗字との間に ' · ' (中点) が揷入された外国人 名も、 番組検索用のキーワー ドと してフラッシュメモリ 2 2 に記 憶される。 したがって、 ユーザーは、 抽出されたキーワー ドを用 いて、 番組を効率的に検索するこ とができるよ う になる。
なお、 図 3, 図 4の処理によってフラッシュメモリ 2 2に記憶 させたキーヮー ドをユーザーが番組検索のために用いる方法と し ては、 例えば、 リ モコ ン 2 8 による所定の操作に基づき、 C P U 1 9が、 番組検索用画面 (キーワー ドを一覧表示する と と もにュ 一ザ一がその中の所望のキーワー ドを選択して検索を指示するた めの画面) の映像信号を作成して映像信号処理回路 1 7, 映像出 力端子 2 9 を経て表示装置 3 に送る といったよ うな、 適宜の方法 をとればよい。
以上のよ う に、 この番組記録再生装置 2では、 E P G情報中の タイ トル文字列情報からのキーヮー ドの抽出と詳細文字列情報か らのキーヮー ドの抽出とを、 それぞれの情報に合せて互いに異な るキーワー ド辞書とルールとで行う ことによ り 、 小さなサイズの プログラムや辞書で精度よく キーワー ドを抽出するこ とができる よ う になっている。
これによ り、 C P U 1 9の処理能力やメモリ (R OM 2 0ゃフ ラッシュメモリ 2 2等) の容量がさほど大き く なく ても、 E P G 情報中のタイ トル文字列情報及び詳細文字列情報から、 ユーザー が番組を検索するためのキーワー ドを効率よく 且つ精度よく 自動 的に抽出するこ とができるよ う になつている。
なお、以上の例では、デジタルテレビジョ ン放送の番組を記録 ' 再生する装置に本発明を適用している。 しかし、 これに限らず、 アナログテレビジョ ン放送の番組を記録 · 再生する番組記録再生 装置にも本発明を適用してよいこ とはもちろんである。
図 7は、 本発明を適用したアナログテ レ ビジョ ン放送用の番組 記録再生装置のハー ドウエア構成を示すブロ ック図である。 アン テナ 3 1 で受信されて番組記録再生装置 4 1 に入力したアナログ 放送信号中の映像 · 音声信号は、 チューナ 4 2で周波数帯を選択 され、 MP E Gエンコーダ 4 3で符号化される。
テ レビ番組の視聴時には、 この符号化された映像 · 音声データ は、 M P E Gデコーダ 4 7で復号されて、 番組記録再生装置 4 1 から表示装置 6 1 に送られる。
他方、 テレビ番組の記録時には、 M P E Gエンコーダ 4 3で符 号化された映像 * 音声データは、 バス 4 4を介して主記憶装置 4 5 に送られて、 主記憶装置 4 5に記録される。
そして、 再生時には、 主記憶装置 4 5 から読み出された映像 · 音声データが、バス 4 4を介して M P E Gデコーダ 4 7に送られ、 M P E Gデコーダ 4 7で復号されて、 番組記録再生装置 4 1 から 表示装置 6 1 に送られる。
また、 チューナ 4 2で周波数帯を選択されたアナログ放送信号 から、 E P G取得モジュール 4 6で E P G情報が取得される。 こ の E P G情報も、 バス 4 4を介して主記憶装置 4 5 に送られて、 主記憶装置 4 5 に記憶される。
また、 イ ンターネッ ト 7 1 と接続するための通信イ ンターフヱ ース 4 8, R OM 4 9 , 主記憶装置 5 0, 補助記憶装置 5 1, M P E Gデコーダ 4 7が、 互いにパス 5 2で結ばれている。
この番組記録再生装置 4 1 でも、 前述のよ うなタイ トル用キー ワー ド辞書, タイ トル用除外文字列辞書, 詳細情報用キーワー ド 辞書及び詳細情報用除外文字列辞書が R O M 4 9に格納されてい る (詳細情報用キーワー ド辞書に関してはイ ンターネッ ト経由で 専用のサイ トから最新のものをダウンロー ドして捕助記憶装置 5 1 にも記憶させる) と と もに、 番組記録再生装置 4 1全体を制御 する C P U 5 3が、 図 3, 図 4に示したのと同じキーワー ドの自 動抽出処理をこれらの辞書及び主記憶装置 4 5内の E P G情報を 用いて行い、 抽出したキーワー ドを補助記憶装置 5 1 に記憶させ る。
この番組記録再生装置 4 1 でも、 図 1 , 図 2の番組記録再生装 置 2について説明したのと全く 同様にして、 E P G情報中のタイ トル文字列情報からのキーワー ドの抽出と詳細文字列情報からの キーヮー ドの抽出とを、 それぞれの情報に合せて互いに異なるキ 一ワー ド辞書とルールとで行う こ とにより、 小さなサイズのプロ グラムや辞書で精度よく キーヮー ドを抽出することができる。
これによ り 、 C P U 5 3 の処理能力やメモリ (R O M 4 9や補 助記憶装置 5 1等) の容量がさほど大きく なく ても、 E P G情報 中のタイ トル文字列情報及び詳細文字列情報から、 ユーザーが番 組を検索するためのキーワー ドを効率よく且つ精度よく 自動的に 抽出するこ とができる。
また、 以上の例では、 表示装置とは別体となった番組記録再生 装置に本発明を適用している。 しかし、 これに限らず、 この番組 記録再生装置と表示装置とがー体となったテレビジョ ン受信機や. 番組の記録再生機能を有しないテレビジョ ン受信機にも本発明を 適用してよい。
また、 以上の例では、 E P G情報中の番組のタイ トル文字列情 報, 詳細文字列情報からのキーワー ドの検索のために本発明を適 用している。 しかし、 これに限らず、 テレビジョ ン番組以外のコ ンテンッ (例えばイ ンターネッ ト経由で配信される コンテンツ) のタイ トル文字列情報, 詳細文字列情報からのキーヮー ドの検索 のためにも本発明を適用してよい。
また、 本発明は、 以上の例に限らず、 本発明の要旨を逸脱する こ となく 、 その他様々の構成をと り う るこ とはもちろんである。 以上のよ うに、 本発明によれば、 C P Uの処理能力やメモ リ の 容量がさほど大き く ない家電製品でも、 E P G情報のよ うな番組 のタイ トル文字列情報及び詳細文字列情報から、 ユーザーが番組 を検索するためのキーワー ドを、 効率よく且つ精度よ く 自動的に 抽出するこ とができる という効果が得られる。

Claims

求 の
1 . コンテンツのタイ トル文字列情報から、 サブジャンルを示す 文字列が登録されている第 1 のキーヮー ド辞書を用いてキーヮー ドの抽出を行う第 1 の抽出手段と、
前記コンテンツの詳細文字列情報から、 人名が登録されている 第 2 のキーヮー ド辞書を用いたキーヮー ドの抽出と、 字種切り法 を利用したキーヮー ド言の青抽出とを行う第 2 の抽出手段と
を備えたこ とを特徴とするキーワード自動抽出装置。
2 . 前記第 1 の抽出手段は、 第 1 のキーワー ド辞書に登録されて いる文字列を含むタイ トル文字列のう ち、 所定の除外文字列辞書 に登録されている文字列を除外した部分からキーワー ドを抽出す ることを特徴とする請求の範囲第 1項記載のキーワー ド自動抽出 装置。
3 . 前記第 1 の抽出手段は、 第 1 のキーワー ド辞書に登録されて いる文字列を含むタィ トル文字列のう ち、 平仮名, カタカナ, 漢 字, 数字, アルファベッ ト以外の特殊文字で区切られている文字 列をキーヮー ドと して抽出するこ とを特徴とする請求の範囲第 1 項記載のキーヮー ド自動抽出装置。
4 . 前記第 2 の抽出手段は、 前記第 2 のキーワー ド辞書を用いて キーワードを抽出した前記詳細文字列情報の残りの部分のう ち、 所定の除外文字列辞書に登録されている文字列を除外した部分か ら、 字種切り法を利用したキーワードの抽出を行う ことを特徴と する請求の範囲第 1項記載のキーワー ド自動抽出装置。
5 . 前記第 2 の抽出手段は、 字種切り法を利用しつつ、 カタカナ とアルファベッ ト と を同一字種と して极ぅ と と もに、 ' · ' (中 点) は、 その直前の文字がカタカナ, アルファベッ トである場合 にはそれぞれカタカナ, アルファべッ ト と して扱う ことを特徴と する請求の範囲第 1項記載のキーワー ド自動抽出装置。
6 . 前記第 2 のキーワー ド辞書をネッ トワーク経由でダウンロー ドする手段
をさ らに備え、 前記第 2 の抽出手段は前記ダウンロー ドされた第 2のキーヮー ド辞書を用いることを特徴とする請求の範囲第 1項 記載のキーワー ド自動抽出装置。
7 . コンテンツのタイ トル文字列情報から、 サブジャンルを示す 文字列が登録されている第 1 のキーヮー ド辞書を用いてキーヮー ドの抽出を行う第 1 のステップと、
前記コ ンテンツの詳細文字列情報から、 人名が登録されている 第 2 のキーワー ド辞書を用いたキーワー ドの抽出と、 字種切り法 を利用したキーヮー ドの抽出とを行う第 2のステップと
を有することを特徴とするキーヮー ド自動抽出方法。
8 . 前記第 1 のステップで、 第 1 のキーワー ド辞書に登録されて いる文字列を含むタイ トル文字列の う ち、 所定の除外文字列辞書 に登録されている文字列を除外した部分からキーヮー ドを抽出す るこ とを特徴とする請求の範囲第 7項記載のキーワー ド自動抽出 方法。
9 . 前記第 1 のステップで、 第 1 のキーワー ド辞書に登録されて いる文字列を含むタイ トル文字列のう ち、 平仮名, カタカナ, 漢 字, 数字, アルファベッ ト以外の特殊文字で区切られている文字 列をキーワー ドと して抽出することを特徴とする請求の範囲第 7 項記載のキーワー ド自動抽出方法。
1 0 . 前記第 2のステップで、 前記第 2 のキーワー ド辞書を用い てキーワー ドを抽出した前記詳細文字列情報の残り の部分のう ち 所定の除外文字列辞書に登録されている文字列を除外した部分か ら、 字種切り法を利用したキーワー ドの抽出を行う こ とを特徴と する請求の範囲第 7項記載のキーワー ド自動抽出方法。
1 1 . 前記第 2のステップで、 字種切り法を利用しつつ、 カタ力 ナとアルファベッ ト とを同一字種と して扱う と ともに、 ' · , (中 点) は、 その直前の文字がカタカナ, アルファべッ トである場合 にはそれぞれカタカナ, アルファべッ ト と して扱う ことを特徴と する請求の範囲第 7項記載のキーワー ド自動抽出方法。
1 2 . 前記第 2のキーワード辞書をネッ トワーク経由でダウン口 ー ドするステップ
をさ らに有し、 前記第 2 のステップでは前記ダウンロー ドした第 2のキーヮー ド辞書を用いるこ とを特徴とする請求の範囲第 7項 記載のキーワー ド自動抽出方法。
1 3 . キーワー ド自動抽出装置のプログラムであって、
コ ンテンツのタイ トル文字列情報から、 サブジャンルを示す文 字列が登録されている第 1のキーヮー ド辞書を用いてキーヮー ド の抽出を行う第 1 の抽出ステップと、
前記コンテンツの詳細文字列情報から、 人名が登録されている 第 2 のキーワー ド辞書を用いたキーワー ドの抽出と、 字種切り法 を利用したキーワー ドの抽出とを行う第 2の抽出ステップと を含むこ とを特徴とするコンピュータが読み取り可能なプログラ ムが記録されている記録媒体。
1 4 . キーワー ド自動抽出装置を制御するコンピュータに、 コ ンテンツのタイ トル文字列情報から、 サブジャ ンルを示す文 字列が登録されている第 1のキーヮー ド辞書を用いてキーヮー ド の抽出を行う第 1 の抽出ステップと、
前記コンテンツの詳細文字列情報から、 人名が登録されている 第 2 のキーヮー ド辞書を用いたキーヮー ドの抽出と、 字種切り法 を利用したキーワー ドの抽出とを行う第 2の抽出ステップと を実行させることを特徴とするプログラム。
PCT/JP2003/009678 2002-07-30 2003-07-30 キーワードの自動抽出装置及び方法、記録媒体、並びにプログラム WO2004012101A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US10/523,332 US7577972B2 (en) 2002-07-30 2003-07-30 Extracting keywords from multilingual alphabetic and glyph scripts in an electronic programming guide
EP03771430A EP1544751A4 (en) 2002-07-30 2003-07-30 DEVICE AND METHOD FOR AUTOMATIC KEYWORD EXTRACTION, RECORDING MEDIA AND PROGRAM

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002-221698 2002-07-30
JP2002221698A JP4040382B2 (ja) 2002-07-30 2002-07-30 キーワードの自動抽出装置及び方法、記録媒体、並びにプログラム

Publications (1)

Publication Number Publication Date
WO2004012101A1 true WO2004012101A1 (ja) 2004-02-05

Family

ID=31184873

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2003/009678 WO2004012101A1 (ja) 2002-07-30 2003-07-30 キーワードの自動抽出装置及び方法、記録媒体、並びにプログラム

Country Status (6)

Country Link
US (1) US7577972B2 (ja)
EP (1) EP1544751A4 (ja)
JP (1) JP4040382B2 (ja)
KR (1) KR100993957B1 (ja)
CN (1) CN100530174C (ja)
WO (1) WO2004012101A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1610240A1 (en) * 2004-06-22 2005-12-28 Pioneer Corporation Data processing device, method thereof, program thereof, and recording medium recording the program
CN105554519A (zh) * 2015-12-24 2016-05-04 北京酷云互动科技有限公司 Epg信息解析方法及系统

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006041978A (ja) * 2004-07-28 2006-02-09 Matsushita Electric Ind Co Ltd 放送受信装置
JP4498903B2 (ja) * 2004-11-30 2010-07-07 シャープ株式会社 番組情報抽出装置、番組情報表示装置、番組情報抽出方法、プログラム、および、プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2007074169A (ja) * 2005-09-05 2007-03-22 Sharp Corp 番組抽出装置
US7461093B2 (en) 2005-09-12 2008-12-02 Sharp Kabushiki Kaisha Network connecting device, server device, terminal device, system, receiving method, character input method, transmission method, program, and computer-readable storage medium
JP2007079745A (ja) * 2005-09-12 2007-03-29 Sharp Corp ネットワーク接続装置、サーバ装置、端末装置、システム、受信方法、文字入力方法、送信方法、プログラムおよびコンピュータ読み取り可能な記録媒体
CN100444591C (zh) * 2006-08-18 2008-12-17 北京金山软件有限公司 获取网页关键字的方法及其应用系统
EP1901187A3 (de) 2006-09-16 2009-02-04 LOEWE OPTA GmbH Verfahren zur Suche nach Nutzdaten in Datenbanken von unterhaltungselektronischen Geräten
TW200836564A (en) * 2007-02-16 2008-09-01 Mstar Semiconductor Inc Control circuit of a display with program searching function, and method for controlling the display to receive program information and select program
JP5178109B2 (ja) * 2007-09-25 2013-04-10 株式会社東芝 検索装置、方法及びプログラム
JP2009094658A (ja) * 2007-10-05 2009-04-30 Hitachi Ltd 関連情報提供装置、及び関連情報提供方法
JP2010003383A (ja) * 2008-06-23 2010-01-07 Victor Co Of Japan Ltd 放送番組記録再生装置
JP5392227B2 (ja) * 2010-10-14 2014-01-22 株式会社Jvcケンウッド フィルタリング装置およびフィルタリング方法
US8606788B2 (en) * 2011-06-15 2013-12-10 Microsoft Corporation Dictionary for hierarchical attributes from catalog items
JP5516641B2 (ja) * 2012-04-27 2014-06-11 株式会社Jvcケンウッド 放送番組記録再生装置
CN106933799A (zh) * 2015-12-31 2017-07-07 北京四维图新科技股份有限公司 一种兴趣点poi名称的中文分词方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0810452B2 (ja) * 1988-04-18 1996-01-31 日本電信電話株式会社 日本語対象文固有用語抽出処理装置
JPH10198667A (ja) * 1996-12-28 1998-07-31 Casio Comput Co Ltd 文字列変換装置およびそのプログラム記録媒体
JP2001075959A (ja) * 1999-08-31 2001-03-23 Matsushita Electric Ind Co Ltd 文書処理装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9286294B2 (en) 1992-12-09 2016-03-15 Comcast Ip Holdings I, Llc Video and digital multimedia aggregator content suggestion engine
US5870084A (en) * 1996-11-12 1999-02-09 Thomson Consumer Electronics, Inc. System and method for efficiently storing and quickly retrieving glyphs for large character set languages in a set top box
JP3880116B2 (ja) * 1996-12-27 2007-02-14 キヤノン株式会社 電子ファイリングシステム、電子ファイリング方法及び記録媒体
KR100686622B1 (ko) * 1998-05-22 2007-02-23 코닌클리케 필립스 일렉트로닉스 엔.브이. 키워드 검출수단을 구비한 기록장치
JP3645720B2 (ja) * 1998-10-02 2005-05-11 松下電器産業株式会社 Epg情報表示方法、及びプログラム記録媒体
US7209942B1 (en) * 1998-12-28 2007-04-24 Kabushiki Kaisha Toshiba Information providing method and apparatus, and information reception apparatus
US6449766B1 (en) * 1999-12-23 2002-09-10 Webtv Networks, Inc. System and method for consolidating television rating systems
JP4253152B2 (ja) * 2000-01-05 2009-04-08 三菱電機株式会社 キーワード抽出装置
US6463428B1 (en) * 2000-03-29 2002-10-08 Koninklijke Philips Electronics N.V. User interface providing automatic generation and ergonomic presentation of keyword search criteria
JP2001337980A (ja) * 2000-05-29 2001-12-07 Sony Corp 電子番組ガイド検索方法及び電子番組ガイド検索装置
US6925650B1 (en) * 2000-08-21 2005-08-02 Hughes Electronics Corporation Method and apparatus for automated creation of linking information

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0810452B2 (ja) * 1988-04-18 1996-01-31 日本電信電話株式会社 日本語対象文固有用語抽出処理装置
JPH10198667A (ja) * 1996-12-28 1998-07-31 Casio Comput Co Ltd 文字列変換装置およびそのプログラム記録媒体
JP2001075959A (ja) * 1999-08-31 2001-03-23 Matsushita Electric Ind Co Ltd 文書処理装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KEN'ICHI HINATSU: "JICST ni okeru keyword jido chushutsu system no shiyo", THE JOURNAL OF INFORMATION SCIENCE AND TECHNOLOGY ASSOCIATION, vol. 42, no. 11, 1 November 1992 (1992-11-01), pages 1051 - 1057, XP002973372 *
See also references of EP1544751A4 *
YUICHIRO AOKI ET AL.: "information retrieval system data-710", NEC GIHO, vol. 41, no. 12, 31 October 1998 (1998-10-31), pages 33 - 39, XP002973333 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1610240A1 (en) * 2004-06-22 2005-12-28 Pioneer Corporation Data processing device, method thereof, program thereof, and recording medium recording the program
US7506811B2 (en) 2004-06-22 2009-03-24 Pioneer Corporation Data processing device, method thereof, program thereof, and recording medium recording the program
CN105554519A (zh) * 2015-12-24 2016-05-04 北京酷云互动科技有限公司 Epg信息解析方法及系统

Also Published As

Publication number Publication date
EP1544751A4 (en) 2007-12-26
US20060116869A1 (en) 2006-06-01
KR20050025999A (ko) 2005-03-14
JP4040382B2 (ja) 2008-01-30
JP2004062639A (ja) 2004-02-26
KR100993957B1 (ko) 2010-11-11
CN1682220A (zh) 2005-10-12
EP1544751A1 (en) 2005-06-22
US7577972B2 (en) 2009-08-18
CN100530174C (zh) 2009-08-19

Similar Documents

Publication Publication Date Title
US7890490B1 (en) Systems and methods for providing advanced information searching in an interactive media guidance application
JP4198786B2 (ja) 情報フィルタリングシステム、情報フィルタリング装置、映像機器および情報フィルタリング方法
WO2004012101A1 (ja) キーワードの自動抽出装置及び方法、記録媒体、並びにプログラム
US8381249B2 (en) Systems and methods for acquiring, categorizing and delivering media in interactive media guidance applications
US7587673B2 (en) Information processing apparatus, method and program
US20150007234A1 (en) Systems and methods for acquiring, categorizing and delivering media in interactive media guidance applications
US8341673B2 (en) Information processing apparatus and method as well as software program
EP2080117A2 (en) Systems and methods for acquiring, categorizing and delivering media in interactive media guidance applications
US20060239646A1 (en) Device and method of storing an searching broadcast contents
US8195687B2 (en) Program retrieval support device for accumulating and searching pieces of program information and corresponding programs and a method for performing the same
JP4200393B2 (ja) 情報処理装置および情報処理方法
JP2004343320A (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JPWO2008078717A1 (ja) 番組データ管理サーバ、識別子割当装置、番組データ管理方法及びプログラム
US20040193592A1 (en) Recording and reproduction apparatus
WO2007060968A1 (ja) 放送受信装置、情報記録再生装置および情報抽出方法
CN101605011B (zh) 信息处理装置、信息处理方法
JP2008027186A (ja) 情報検索装置および情報検索方法
JP6029530B2 (ja) 情報処理装置及び情報処理方法
JP4623070B2 (ja) キーワードの自動抽出装置及び方法、記録媒体、並びにプログラム
WO2009107708A1 (ja) コンテンツ再生装置、コンテンツ再生システム、コンテンツ再生方法、コンテンツ再生プログラム、および、記録媒体
JP2009159475A (ja) 番組検索装置および番組検索方法
JP4403717B2 (ja) 番組受信装置、番組受信方法、番組記録装置、情報処理装置及び情報提供システム
AU2018241142B2 (en) Systems and Methods for Acquiring, Categorizing and Delivering Media in Interactive Media Guidance Applications
JP2005057523A (ja) 番組付加情報抽出装置、番組表示装置および番組記録装置
US8627374B2 (en) Video content search system and method with automatic multi-term grouping and search

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): CN KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PT RO SE SI SK TR

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 1020057001427

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 2003771430

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 1020057001427

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 20038223856

Country of ref document: CN

WWP Wipo information: published in national office

Ref document number: 2003771430

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2006116869

Country of ref document: US

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 10523332

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 10523332

Country of ref document: US