WO2011033671A1 - タイトル判別装置 - Google Patents

タイトル判別装置 Download PDF

Info

Publication number
WO2011033671A1
WO2011033671A1 PCT/JP2009/066437 JP2009066437W WO2011033671A1 WO 2011033671 A1 WO2011033671 A1 WO 2011033671A1 JP 2009066437 W JP2009066437 W JP 2009066437W WO 2011033671 A1 WO2011033671 A1 WO 2011033671A1
Authority
WO
WIPO (PCT)
Prior art keywords
title
program
similarity
extracted
unit
Prior art date
Application number
PCT/JP2009/066437
Other languages
English (en)
French (fr)
Inventor
潤也 高倉
亘 仲野
真弘 関根
功雄 三原
靖和 樋口
康晋 山内
優 鈴木
Original Assignee
株式会社 東芝
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社 東芝 filed Critical 株式会社 東芝
Priority to PCT/JP2009/066437 priority Critical patent/WO2011033671A1/ja
Priority to JP2011531744A priority patent/JP5320470B2/ja
Publication of WO2011033671A1 publication Critical patent/WO2011033671A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • H04N9/8233Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being a character code signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • H04H60/37Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for identifying segments of broadcast information, e.g. scenes or extracting programme ID
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • H04H60/47Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for recognising genres
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/68Systems specially adapted for using specific information, e.g. geographical or meteorological information
    • H04H60/72Systems specially adapted for using specific information, e.g. geographical or meteorological information using electronic programme guides [EPG]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4334Recording operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4821End-user interface for program selection using a grid, e.g. sorted out by channel and broadcast time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors

Definitions

  • the present invention relates to a title discrimination device.
  • FIG. 1 is a schematic configuration diagram of a title determination device according to a first embodiment.
  • the program selection unit 6 displays a list of program titles detected by the program title determination unit 9 on the screen display unit 12, accepts selection of a program to be reserved for viewing or recording from the user, and the program reservation management unit 5 To notify.
  • the program title determination unit 9 selects the same title program for the program that the user has selected to search for the same title program via the program selection unit 6, and stores the program information (title element and Detection is performed based on the determination rule stored in the determination rule storage unit 13 and elements other than the title.
  • the program title determination unit 9 notifies the program selection unit 6 of information on a list of programs detected as the same title program. Details of the same title program detection process will be described later.
  • Step S105 It is determined whether EPGs have been acquired for all receivable channels. If the EPG has been acquired for all channels, the process ends. If there is an unacquired channel, the process returns to step S103.
  • Step S504 It is determined whether or not the element selected in Step S502 or S503 includes a plurality of character types.
  • the character type refers to hiragana, katakana, kanji, alphabet, numbers, symbols, and the like.
  • “Tenjinjin” includes multiple kanji and hiragana characters, and therefore includes a plurality of character types. If a plurality of character types are included, the process proceeds to step S505, and if not included, the process proceeds to step S513.
  • Step S603 A score of title similarity (S title ) between the central content and the target content is calculated. Details of the title similarity calculation method will be described later.
  • the genre similarity S genre is calculated so as to be 1.0 when the genres of the two programs match, and 0.0 when they do not match.
  • S genre can be calculated by the following equation. here, And
  • Equation 5 and Equation 7 may be replaced with the following Equation 9 and Equation 10, respectively.
  • w (person i ) and w (keyword i ) are weights determined by person i and keyword i . For example, if a person who is likely to appear even if it is not the same title program, or a keyword that is likely to appear in the program overview even if it is not the same title program is registered in the dictionary, Can reduce the weight. Alternatively, it is possible to obtain an attribute of a person or a keyword and set a weight according to the attribute.
  • Step S701 0.0 as the initial value for the title similarity S title is set.
  • Step S704 One title element of the target content that is not compared with the title element of the central content is selected.
  • the title elements of the target content are selected in order from the element with the highest level.
  • the larger value added when the respective elements match is added.
  • 0.3 is added when the divider division element of the central content matches the character type division element of the target content.
  • the value to be added may be a smaller value, an average value, or a value to be added to each combination in advance, instead of the larger value.
  • FIG. 22 shows the similarity of each item.
  • the title similarity according to the possibility of being the same title program can be calculated.
  • program B has a large determination threshold because elements other than the title do not match, but since the title is a match between the complete elements, a large value is added to the title similarity and the program is determined to be the same title program. be able to.
  • the program title determination unit 9 determines the similarity of each item used in the determination process for the program selected by the user as an erroneous determination, using the determination rule generation information. It has a function of writing to the storage unit 15.
  • the same title discriminating apparatus 100 includes a recording / playback execution unit 10, a program recording unit 11, and a screen display unit 12, and displays a list of the same title programs for a program selected by a user, and records / plays back a program.
  • these components may be omitted and only the search for the same title program may be performed.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

 EPGから、複数の抽出方法による番組のタイトル要素の抽出と、少なくとも1つ以上のタイトル以外の要素の抽出とを行い、2つの番組間でタイトル要素同士が一致した場合に、そのタイトル要素の抽出方法に応じた重みを加味したタイトル類似度を算出し、タイトル以外の要素の一致に応じて非タイトル類似度を算出し、当該非タイトル類似度に応じた閾値を取得し、前記タイトル類似度が当該閾値以上である場合に、前記2つの番組を同一タイトル番組の関係にあると判定する。

Description

タイトル判別装置
 本発明は、タイトル判別装置に関するものである。
 テレビジョン放送には、地上波放送、BS放送、CS放送、ケーブルテレビ、インターネット放送など、様々な放送形態があり、視聴者には多数の番組が提供されている。視聴者が視聴を望む番組を探す状況の1つとして、同一タイトル番組の検索がある。
 同一タイトル番組を検索する方法として、ユーザが選択した番組の番組タイトルと、番組情報から抽出された番組の番組タイトルとを比較する。ある一定以上の部分が一致した場合に、抽出された番組を同一タイトル番組として判定する(特許文献1)。
 上記の検索方法は、番組名の一致度合いに一定の閾値を設け、この閾値を上回る場合に同一タイトル番組と判定している。この閾値を高くすれば、実際は同一タイトル番組でない番組を同一タイトル番組であると誤判定する可能性は低くなる。一方同一タイトル番組であるにも関わらず同一タイトル番組でないと誤判定する可能性が高くなる。
 逆に、この閾値を低くすれば、実際は同一タイトル番組であるにも関わらず同一タイトル番組ではないと誤判定する可能性は低くなる。一方、同一タイトル番組でないにも関わらず同一タイトル番組であると誤判定する可能性が高くなる。
 このように、従来の検索方法では、精度良く番組タイトルを検出することが出来なかった。
特開2007-102489号公報
 本発明は、番組タイトルの判定精度を向上させるタイトル判別装置を提供することを目的とする。
 本発明の一態様による同一タイトル判別装置は、複数の番組についての番組タイトルを示すタイトル情報及び前記番組タイトルとは異なるデータを示す非タイトル情報を含むEPGを受信する受信部と、前記複数の番組の各々に対して、前記タイトル情報からの複数の抽出方法によるタイトル要素の抽出、及び前記非タイトル情報からの前記タイトル要素とは異なる要素である非タイトル要素の抽出を行う抽出部と、2つの番組の間において前記タイトル要素の比較を行い、一致したタイトル要素の抽出方法に応じた重みを反映させたタイトル類似度を算出し、前記2つの番組の間において前記非タイトル要素の比較を行って非タイトル類似度を算出し、前記非タイトル類似度に対応した閾値と前記タイトル類似度との比較を行い、前記タイトル類似度が前記閾値以上であれば前記2つの番組が同一タイトル番組の関係にあると判定する判定部と、を備えるものである。
 本発明によれば、番組タイトルの判定精度を向上させることができる。
第1の実施形態に係るタイトル判定装置の概略構成図。 EPG受信処理のフローチャート。 番組情報抽出処理のフローチャート。 タイトル要素抽出処理のフローチャート。 分割子分割要素抽出処理のフローチャート。 字種分割要素抽出処理のフローチャート。 抽出されるタイトル要素の一例を示す図。 抽出されるタイトル要素の一例を示す図。 番組タイトル検出処理のフローチャート。 番組選択画面の一例を示す図。 番組タイトルの一覧画面を示す図。 タイトル類似度算出処理のフローチャート。 判定閾値算出処理のフローチャート。 判定ルールの一例を示す図。 番組タイトルの判定を行う番組の例を示す図。 抽出される番組情報の一例を示す図。 抽出される番組情報の一例を示す図。 抽出される番組情報の一例を示す図。 抽出される番組情報の一例を示す図。 抽出される番組情報の一例を示す図。 抽出される番組情報の一例を示す図。 番組間の各項目の類似度の例を示す図。 第2の実施形態に係るタイトル判定装置の概略構成図。 判定ルール更新処理のフローチャート。 誤判定番組の選択画面の一例を示す図。 誤判定番組の選択画面の別の例を示す図。 ルール生成情報の一例を示す図。
 以下、本発明の実施の形態を図面に基づいて説明する。
 (第1の実施形態)図1に本発明の第1の実施形態に係るタイトル判別装置100の概略構成を示す。タイトル判別装置100は、放送受信部1、信号分離部2、EPG取得部3、EPG記憶部4、番組予約管理部5、番組選択部6、番組情報抽出部7、抽出番組情報記憶部8、番組タイトル判定部9、録画再生実行部10、番組記録部11、画面表示部12及び判定ルール記憶部13を備える。
 以下、同一タイトル番組は、例えば「天地人 第13話」に対して「天地人 第13話の再放送」のような同一の内容の番組だけでなく、「天地人 第13話」に対して「天地人 第14話」のような同一シリーズの異なる回の番組、「相棒 シーズン3 」に対して「相棒 シーズン4」のような続編の関係にあるシリーズの番組、「相棒」に対して「劇場版 相棒」のような続編が映画化された番組などの、同一の内容でない番組も含む。
 放送受信部1は、EPG取得部3又は番組予約管理部5により選択された放送局の放送波を受信し、受信した信号を復調する。放送受信部1が受信する放送は、EPG(Electronic Program Guide)の情報が含まれていれば、地上波デジタル放送、BS放送、CS放送、インターネット放送など任意の放送形態でよい。また、放送受信部1は、2つ以上の放送形態の放送を受信できてもよい。また、放送受信部1は、同時に複数の放送局の信号を受信・復調できてもよい。また、放送受信部1は、インターネットで提供されるEPGの情報を受信するようにしてもよい。
 信号分離部2は、放送受信部1で復調された信号を、EPGの情報と、映像や音声が含まれる情報とに分離する。EPG情報はEPG取得部3へ送られ、映像・音声情報は録画再生実行部10へ送られる。
 EPG取得部3は、信号分離部2からEPG情報を取得する。EPGには、放送予定である番組の番組タイトルを示すタイトル情報や、放送日時情報、放送局情報、番組タイトル情報、番組ジャンル情報、番組概要情報等の番組タイトル以外のデータを示す情報(非タイトル情報)が含まれている。
 EPG取得部3は、取得したEPGの情報をEPG記憶部4に記憶させる。EPG記憶部4は、EPGの情報を、番組予約管理部5、番組選択部6及び番組情報抽出部7が読み取り可能な形式で記憶する。EPG記憶部4には、例えばHDDやフラッシュメモリを用いることができる。
 番組予約管理部5は、番組選択部6を介してユーザによって選択された番組の視聴予約や録画予約の管理を行う。番組予約管理部5は、予約された番組の放送時刻になると、放送受信部1に対して録画や視聴する番組のチャンネルを受信するよう設定を行い、また録画再生実行部10に対して録画や再生を実行するよう設定を行う。
 番組選択部6は、EPG記憶部4に記憶されているEPGの番組の中から、ユーザが番組を選択するための手段を提供する。例えば、番組選択部6は、EPGの一覧を画面表示部12に表示させる。そして、番組選択部6は、表示された一覧の中からユーザがリモコン操作等により同一タイトル番組を検索したい番組を選択するためのGUI(Graphical User Interface)画面を生成し、画面表示部12に表示させる。番組選択部6は、GUI画面を介してユーザから番組選択を受け付け、番組タイトル判定部9に通知する。
 また、番組選択部6は、番組タイトル判定部9により検出された番組タイトルの一覧を画面表示部12に表示させ、視聴予約や録画予約を行う番組の選択をユーザから受け付け、番組予約管理部5へ通知する。
 番組情報抽出部7は、番組タイトル判定部9において番組タイトルを検出するために必要な情報(タイトル要素と非タイトル要素)を、EPG記憶部4に記憶されているEPGから抽出する。タイトル情報からタイトル要素が抽出され、非タイトル情報から少なくとも1つ以上のタイトル以外の要素(非タイトル要素)が抽出される。
 番組情報抽出部7は、番組タイトル情報から複数の抽出方法により、複数の番組タイトル要素を抽出する。抽出されたタイトル要素は、その抽出方法の情報と共に、抽出番組情報記憶部8に記憶される。
 また、番組情報抽出部7は、タイトル以外の要素として、例えばEPGの放送日時情報から放送日時要素を抽出したり、放送局情報から放送局要素を抽出したり、番組ジャンル情報から番組ジャンル要素を抽出したりできる。また、番組情報抽出部7は、番組概要情報に記載されている内容に対して形態素解析などを行い、キーワード要素、登場人物要素を抽出できる。番組情報抽出部7は、キーワード要素や登場人物要素を、番組概要情報からでなく、番組タイトル情報から抽出してもよい。抽出されたこれらのタイトル以外の要素も、その要素の種類と共に、抽出番組情報記憶部8に記憶される。
 抽出番組情報記憶部8は、番組情報抽出部7により抽出されたタイトル要素及びタイトル以外の要素を記憶する。抽出番組情報記憶部8には、例えばHDDやフラッシュメモリを用いることができる。
 判定ルール記憶部13は、番組タイトル判定部9が、ユーザにより選択された番組と同一タイトル番組と判定する番組を検出するためのルールを記憶する。ここに記憶されるルールは、例えば各項目の類似度を算出するための重みや、同一タイトル番組であるかを判定する閾値などである。
 番組タイトル判定部9は、ユーザが番組選択部6を介して同一タイトル番組を検索するように選択した番組に対する同一タイトル番組を、抽出番組情報記憶部8に記憶されている番組情報(タイトル要素及びタイトル以外の要素)及び判定ルール記憶部13に記憶されている判定ルールに基づいて検出する。番組タイトル判定部9は、同一タイトル番組として検出した番組の一覧の情報を番組選択部6へ通知する。同一タイトル番組の検出処理の詳細は後述する。
 録画再生実行部10は、番組予約管理部5からの設定に基づいて、信号分離部2から受け取った映像・音声情報を、番組記録部11に書き込んだり、画面表示部12にて再生できるように映像を送ったりする。また、録画再生実行部10は、映像記録部11に記録されている映像を読み出して、画面表示部12へ送ることができる。また、録画再生実行部10は、番組記録部11に映像を書き込む際にエンコードし、読み出す際にデコードするようにしてもよい。
 番組記録部11は、録画再生実行部10から送られてきた映像や音声を記録する。番組記録部11は記録媒体として、HDD、フラッシュメモリ、DVD等を用いることができる。
 画面表示部12は、録画再生実行部10により再生された映像を画面に表示させる。また、画面表示部12は、ユーザによる番組選択操作実行時には、番組選択部6により生成されるGUI画面を映像に重畳して表示させる。タイトル判別装置100自身にディスプレイを備えて画面表示部12が当該ディスプレイに映像を表示させてもよく、また、画面表示部12が映像出力端子を介して映像を外部出力し、外部の表示機器に映像を表示させるようにしてもよい。
 このような構成のタイトル判別装置100の動作について以下に詳細に説明する。
 まず、図2に示すフローチャートを用いてEPGの取得処理について説明する。この処理は主にEPG取得部3によって実行され、例えば一定時間毎に、現在時刻における最新のEPGが取得される。
 (ステップS101)前回のEPGが取得されてから一定時間が経過したか否かが判定される。一定時間が経過していた場合はステップS102に進む。
 (ステップS102)EPG取得部3が、EPGの受信に要する時間の間、放送受信部1が番組録画等で使用されないかを、番組予約管理部5に対して問い合わせる。放送受信部1がEPG取得に使用可能であれば、ステップS103に進む。この処理により、EPGを取得するために番組録画ができなくなることを防ぐことができる。
 (ステップS103)EPGが未取得のチャンネルのうち1つのチャンネルが選択される。そして、選択されたチャンネルの放送を受信・復調するように放送受信部1が設定される。
 (ステップS104)EPG取得部3が、選択されたチャンネルのEPGを信号分離部2から取得し、その内容をEPG記憶部4に書き込む。
 (ステップS105)受信可能な全てのチャンネルについてEPGが取得されたか否かが判断される。全てのチャンネルについてEPGが取得されている場合は処理を終了し、未取得のチャンネルがある場合はステップS103に戻る。
 このようなEPG取得処理により、EPG記憶部4には、最新のEPGの内容が記憶される。
 次に、番組情報抽出部7による番組情報抽出処理を図3に示すフローチャートを用いて説明する。
 (ステップS201)番組情報(タイトル要素及びタイトル以外の要素)が未抽出の番組のうち1つの番組が選択される。
 (ステップS202)選択された番組の番組タイトル情報から複数の抽出方法により複数のタイトル要素が抽出される。タイトル要素の抽出方法については後述する。抽出されたタイトル要素はその抽出方法の情報と共に抽出番組情報記憶部8に記憶される。
 (ステップS203)選択された番組のタイトル以外の要素がEPGに含まれる非タイトル情報から抽出される。タイトル以外の要素(非タイトル要素)として、例えば、放送局、放送時間、ジャンル、登場人物、キーワード等が抽出される。例えば、EPGの放送日時情報から放送開始時刻要素、放送局情報から放送局要素、番組ジャンル情報から番組ジャンル要素が抽出される。また、番組概要情報に記載されている内容に対して形態素解析など行うことでキーワード要素、登場人物要素が抽出される。キーワード要素や登場人物要素は、番組タイトル情報から抽出することもできる。抽出されたタイトル以外の要素は、その種類と共に抽出番組情報記憶部8に記憶される。
 (ステップS204)全ての番組について番組情報が抽出されたか否かが判定される。全ての番組について番組情報が抽出されている場合は処理を終了し、未抽出の番組がある場合はステップS201に戻る。
 次に、ステップS202におけるタイトル要素の抽出処理について図4に示すフローチャートを用いて説明する。
 (ステップS301)番組タイトルの文字列がそのまま抽出され、完全要素として記憶される。この完全要素が抽出方法の情報となる。
 (ステップS302)完全要素が特定の記号(分割子)により分割されて抽出され、分割子分割要素として記憶される。この分割子分割要素が抽出方法の情報となる。
 (ステップS303)分割子分割要素が文字の種類により分割されて抽出され、字種分割要素として記憶される。この字種分割要素が抽出情報の種類となる。
 次に、ステップS302における分割子分割要素の抽出処理について図5に示すフローチャートを用いて説明する。
 (ステップS401)分割子分割要素の抽出元となる完全要素の文字列の長さLが検出される。ここで、文字列の最後尾には文字列の終端を表す終端文字が含まれており、長さLは終端文字を含めた文字列の長さとする。
 (ステップS402)文字列を先頭から順次走査していくための変数の初期設定として、i=1、d=0 が設定される。iは走査する文字の位置(順番)を示し、dは分割子であった文字の位置を示す。この初期設定により、1文字目から順次文字列を走査していくこととなる。また、d=0と設定することは、0文字目に仮想的に分割子があると仮定することに相当する。
 (ステップS403)i文字目が分割子であるか否かが判定される。例えば、“(”、“)”(括弧)、“「”、“」”(カギ括弧)、“ ”(スペース)、といった記号が分割子と定義される。また、終端文字も分割子とみなされる。i文字目が、分割子である場合はステップS404へ進み、分割子でない場合はステップS410へ進む。
 (ステップS404)i-1文字目の文字も分割子であるか、すなわち分割子が連続しているか否かが判定される。i文字目の直前の分割子の位置が変数dに記憶されているため、i-1=dであれば、ステップS409へ進む。i-1文字目が分割子でない場合はステップS405へ進む。
 (ステップS405)i文字目の分割子と、その直前の分割子(d文字目)との間の文字が分割子分割要素候補として抽出される。たとえば、“天下人たち(12)「本能寺の変」”というタイトルに対して抽出処理を行っていた場合、i=6のとき、6文字目の “(” が分割子であり、その直前の分割子の位置dは0であることから、1~5文字目の“天下人たち”が分割子分割要素候補として抽出される。同様に、“12”や“本能寺の変”も分割子分割要素候補となる。
 (ステップS406)抽出された分割子分割要素候補がストップパターンに該当するか否かが判定される。ストップパターンは、同一タイトル番組同士でなくてもタイトルに共通して含まれる可能性が高い文字列のパターンである。例えば、“最終回”、“再放送”といった特定の単語、数字のみで構成される文字列、文字列の長さがN文字(例えばN=2)に満たない短い文字列、などをストップパターンとすることができる。ストップパターンはテーブルとして図示しない記憶部に記憶されている。
 上記の例では、“12”は数字のみで構成されているため、ストップパターンに該当する。ステップS405で抽出された分割子分割要素候補がストップパターンに該当する場合はステップS409へ進み、該当しない場合はステップS407へ進む。
 (ステップS407)分割子分割要素候補が、すでに抽出された分割子分割要素と重複しているか否かが判定される。重複している場合はステップS409へ進み、重複していない場合はステップS408へ進む。
 (ステップS408)分割子分割要素候補が分割子分割要素として抽出番組情報記憶部8に記憶される。
 (ステップS409)分割子の位置dがiに更新される。
 (ステップS410)走査する文字の位置が次に進む。
 (ステップS411)文字列の終端まで走査が完了したか否かが判定される。終端まで完了した場合は処理を終了し、完了していない場合はステップS403に戻る。
 このような処理により、タイトルの完全要素から分割子によって分割された分割要素が抽出される。例えば、“天下人たち(12)「本能寺の変」”という完全要素からは、“天下人たち”及び“本能寺の変”が分割子分割要素として抽出される。
 次に、ステップS303における字種分割要素の抽出処理について図6に示すフローチャートを用いて説明する。
 (ステップS501)ステップS302において分割子分割要素が抽出されたか否かが判定される。分割子分割要素が抽出されていない場合はステップS502へ進み、抽出されている場合はステップS503へ進む。
 (ステップS502)字種分割要素の抽出対象として、完全要素が選択される。
 (ステップS503)字種分割要素の抽出処理が行われていない分割子分割要素の中から、1つの分割子分割要素が選択される。
 (ステップS504)ステップS502又はS503で選択された要素に、複数の字種が含まれているか否かが判定される。ここで、字種とは、ひらがな、カタカナ、漢字、アルファベット、数字、記号などを指す。例えば、“天下人たち”には、漢字とひらがなが含まれているため、複数の字種が含まれていることになる。複数の字種が含まれている場合はステップS505へ進み、含まれていない場合はステップS513へ進む。
 (ステップS505)字種分割処理を行う要素の文字列の長さLが検出される。ここで、文字列は最後尾に文字列の終端を表す終端文字を含むものとし、Lは終端文字を含めた文字列の長さとする。
 (ステップS506)文字列を順次走査していくための変数の初期設定として、i=1、d=1が設定される。iは走査する文字の位置(順番)を示し、dは文字種の境界を示す。d文字目の文字種とd-1文字目の文字種が異なる。d=1と設定することは、0文字目に1文字目と異なる文字種の文字が仮想的に存在すると仮定することに相当する。
 (ステップS507)i文字目とi+1文字目が異なる字種であるか否かが判定される。異なる文字種の場合はステップS508へ進み、同じ文字種の場合はステップS513へ進む。
 (ステップS508)文字列のd文字目からi文字目までが、字種分割要素候補として抽出される。例えば“天下人たち”という要素から、d=1、i=3のとき1文字目から3文字目までの“天下人”が字種分割要素候補として抽出される。
 (ステップS509)字種分割要素候補がストップパターンに該当するか否かが判定される。この処理は、図5に示すステップS406と同様の処理である。字種分割要素候補がストップパターンに該当する場合はステップS512へ進み、該当しない場合はステップS510へ進む。
 (ステップS510)字種分割要素候補が、すでに抽出された要素と重複しているか否かが判定される。ここで比較対象となる要素には、字種分割要素だけでなく、分割子分割要素および完全要素も含まれる。重複する要素が存在した場合はステップS512へ進み、存在しない場合はステップS511へ進む。
 (ステップS511)字種分割要素候補が字種分割要素として抽出番組情報記憶部8に記憶される。
 (ステップS512)字種の境界位置を記憶する変数dの内容がi+1に更新される。
 (ステップS513)走査する文字の位置が次に進む。
 (ステップS514)文字列の終端まで走査が完了したか否かが判定される。終端まで完了した場合はステップS515へ進み、完了していない場合はステップS507に戻る。
 (ステップS515)ステップS302において分割子分割要素が抽出されたか否かが判定される。分割子分割要素が抽出されていない場合は処理を終了し、抽出されている場合はステップS516へ進む。
 (ステップS516)全ての分割子分割要素に対して字種分割要素抽出処理が実施されたか否かが判定される。実施した場合は処理を終了し、実施していない分割子分割要素がある場合はステップS503に戻る。
 図4~図6に示す処理により、タイトルの文字列から完全要素、分割子分割要素、字種分割要素、の3種類の要素が抽出され、抽出番組情報記憶部8に記憶される。例えば、“天下人たち(12)「本能寺の変」”からは、図7に示すようなタイトル要素が、その要素の抽出方法の種類及び抽出元(由来)の情報と共に、抽出番組情報記憶部8に記憶される。
 また、ここでは抽出方法を完全要素、分割子分割要素、字種分割要素の3種類としたが、さらに粒度を細かく設定してもよい。例えば、分割子1として“(”、“)”(括弧)、“「”、“」”(カギ括弧)、分割子2として“ ”(スペース)のように分割子を2種類に分類する。そして、分割子1による分割を行って抽出した要素に対して、分割子2による分割を行い要素を抽出してもよい。これにより、例えば、“日曜劇場「The Story of New York」”のようなタイトルからは、分割子1による分割により、“日曜劇場”及び“The Story of New York”が抽出され、その後の分割子2による分割により“The”、“Story”、“of”、“New”、“York”が抽出される。
 同様に、字種分割にも階層を設けてもよい。例えば、第1段階では、漢字とひらがなを同一字種とみなし、第2段階では、漢字とひらがなを異なる字種とみなす、という階層を設けることができる。例えば、これにより、例えば、“美味しいカレーライス”という文字列に対して、第1段階では“美味しい”及び“カレーライス”が抽出され、第2段階において“美味”と“しい”とが分離される。
 例えば、タイトル中の“美味しい”という文字列が一致した場合と、“しい”という文字列が一致した場合とでは、前者の方が同一タイトル番組である可能性は高い。上記の例のように、抽出方法の階層を多くすることで、抽出方法ごとの差を考慮したタイトル類似度の得点(重み)を算出することが可能となる。
 また、形態素解析により分割を行うことも可能である。例えば、“美味しいカレーライス”という文字列に対して形態素解析を行い、“美味しい”と“カレーライス”という形態素に分解できた場合、それぞれを形態素分割要素として抽出する。このような形態素解析による分割を字種分割の代わりに行うことで、抽出方法を完全要素、分割子分割要素、形態素分割要素、の3種類とすることができる。
 抽出方法はそれぞれ組み合わせて使用することが可能であり、その組み合わせ方は上記の組み合わせに限らない。抽出方法の組み合わせは、完全要素、分割子分割要素、字種分割要素、形態素分割要素のうち少なくとも2つを含むものであれば、任意の組み合わせでよい。
 また、上記のタイトル要素抽出方法は、日本語や中国語などのように漢字を用いない言語に対しても有効である。例えば、“Dinosaurs2009: Triceratops”のようにアルファベット、記号、数字のみで構成されるタイトルに対しても同様の処理を行うことで、図8に示すようなタイトル要素を抽出することができる。
 続いて、番組タイトルの検出処理について、図9のフローチャートを用いて詳細に説明する。
 (ステップS601)ユーザが、同一タイトル番組を検索したい番組を選択する。ユーザは、図10に示すようなGUI画面を介して番組を選択する。この例では、EPG記憶部4に記憶されているEPGの内容を元に番組選択部6により作成された番組一覧101が、画面表示部12においてユーザに対して表示される。
 ユーザは、番組一覧の中からリモコンなどの操作により、ある1つの番組を選択する。ユーザの選択動作に伴い、同一タイトル番組検索メニュー102が表示される。この同一タイトル番組検索メニュー102において「はい」が選択されると、選択された番組が番組選択部6から番組タイトル判定部9に通知され、番組タイトルの検索が実行される。
 この例では、放送予定である番組の一覧から、同一タイトル番組を検索したい番組が選択されていたが、番組予約管理部5において管理されている録画予約を行った番組の一覧から選択できるようにしてもよい。
 (ステップS602)ステップS601で選択された番組と同一タイトル番組であるか否かの判定が未実施である番組から、1つの番組が抽出される。以降のステップS603~S607の処理は、ステップS601で選択された番組と、このステップで抽出された番組のペアに対して行われる。以下の説明では、ステップS601で選択された番組を中心コンテンツ、このステップS602で抽出された番組を対象コンテンツと称して説明を行う。
 (ステップS603)中心コンテンツと対象コンテンツとの間の、タイトル類似度(Stitle)のスコアが算出される。タイトル類似度の算出方法の詳細は後述する。
 (ステップS604)中心コンテンツと対象コンテンツとの間の、タイトル以外の項目の類似度が算出される。本実施形態では、タイトル以外の類似度として、放送局類似度Sservice、放送開始時刻類似度Stime、ジャンル類似度Sgenre、登場人物類似度Sperson、キーワード類似度Skeywordが算出される。
 放送局類似度Sserviceは、2つの番組の放送局が同一であるとき1.0、2つの番組の放送局が異なるときに0.0となるように算出される。2つの放送局が系列放送局であった場合には、そのことを加味して放送局類似度が算出されるようにしてもよい。
 放送開始時間類似度Stimeは、例えば2つの番組の放送開始時刻の差が大きくなるほど値が小さくなるような関数で算出することができる。例えば、time1を中心コンテンツの放送開始時刻、time2を対象コンテンツの放送開始時刻(いずれも0時0分0秒からの経過秒)とし、以下のような数式1から算出できる。
Figure JPOXMLDOC01-appb-M000001
 ここで、min(A,B)はAとBの小さい方を与える演算子とする。数式1によれば、2つの番組の開始時刻が同一であればStimeは1.0、2つの番組の開始時刻が12時間離れていればStimeは0.0となる。また、放送日の差や放送曜日を加味した関数にしてもよい。
 ジャンル類似度Sgenreは、2つの番組のジャンルが一致していた場合に1.0、一致していなかった場合に0.0となるように算出される。ジャンルが複数登録されている場合には、その全ての組み合わせについて一致、不一致を判定し、一致した数の合計をジャンル類似度の値とし得る。例えば、中心コンテンツのジャンルがG1個、対象コンテンツのジャンルがG2個登録されていた場合、Sgenreは以下の数式により算出できる。
Figure JPOXMLDOC01-appb-M000002
 ここで、
Figure JPOXMLDOC01-appb-M000003
とする。
 なお、インターネット放送と地上波デジタル放送など、異なる放送形態においては、異なるジャンル体系が用いられている場合がある。この場合、互いに対応するジャンルのテーブルを予め保持しておき、これを参照してジャンルが一致したか否かを判定すればよい。
 また、ジャンルが「大ジャンル/中ジャンル」のような形式となっていることがある。例えば、「ドラマ/国内ドラマ」と「ドラマ/時代劇」は大ジャンルまでは一致していることになる。この場合、数式3の代わりに、以下の数式4のような大ジャンルのみの一致を考慮した式を用いてもよい。
Figure JPOXMLDOC01-appb-M000004
 登場人物類似度Spersonは、中心コンテンツから抽出された登場人物数をP1、対象コンテンツから抽出された登場人物数をP2として、以下の数式5から算出できる。
Figure JPOXMLDOC01-appb-M000005
 ここで、
Figure JPOXMLDOC01-appb-M000006
とする。
 キーワード類似度Skeywordは、中心コンテンツから抽出されたキーワードをK1個、対象コンテンツから抽出されたキーワードをK2個として、以下の数式7から算出できる。
Figure JPOXMLDOC01-appb-M000007
 ここで、
Figure JPOXMLDOC01-appb-M000008
とする。
 また、数式5及び数式7は、それぞれ以下の数式9、数式10に置き換えてもよい。
Figure JPOXMLDOC01-appb-M000009
Figure JPOXMLDOC01-appb-M000010
 ここでw(personi)およびw(keywordi)は、personiおよびkeywordiによって決まる重みである。例えば、同一タイトル番組でなくても出演している可能性が高い人物や、同一タイトル番組でなくても番組概要中に出現する可能性が高いキーワードを辞書に登録しておき、該当した場合には重みを小さくするといったことが可能である。あるいは、人物やキーワードの属性を求め、その属性に応じた重みとすることも可能である。これには、公知の固有表現抽出手法(質問応答と日本語固有表現抽出および固有表現体系の関係についての考察、市村由美,他,情報処理学会研究報告,NL-161-3,2004)を用いることができる。
 (ステップS605)ステップS604で算出されたタイトル以外の類似度から、同一タイトル番組であると判定するタイトル類似度の閾値(Ttitle)が算出される。この処理の詳細は後述する。
 (ステップS606)ステップS603で算出されたタイトル類似度(Stitle)と、ステップS605で算出された閾値(Ttitle)が比較される。StitleがTtitle以上であれば対象コンテンツは同一タイトル番組であると判定され、ステップS607へ進む。StitleがTtitle未満であれば、対象コンテンツは同一タイトル番組ではないと判定され、ステップS608へ進む。
 (ステップS607)対象コンテンツが同一タイトル番組一覧のリストに追加される。
 (ステップS608)全ての番組に対して同一タイトル番組であるか否かの判定が行われた場合はステップS609へ進む。未判定の番組がある場合はステップS602に戻る。
 (ステップS609)同一タイトル番組と判定された番組の一覧がユーザに対して表示される。例えば、図11に示すようなGUIにて、同一タイトル番組と判定された番組の一覧103が表示される。ユーザはこの一覧の中から視聴、または予約したい番組を操作選択メニュー104により選択することができる。番組選択部6は、ユーザにより選択された番組を、番組予約管理部5に通知する。番組予約管理部5は、通知された番組を視聴予約または録画予約番組リストへ追加する。
 次に、図9のステップS603におけるタイトル類似度の算出処理について、図12に示すフローチャートを用いて説明する。
 (ステップS701)タイトル類似度Stitleの初期値として0.0が設定される。
 (ステップS702)比較を行う中心コンテンツのタイトル要素のレベルが最高位に設定される。ここで、タイトル要素には、完全要素、分割子分割要素、字種分割要素の3種類があるものとし、要素のレベルは、完全要素>分割子分割要素>字種分割要素とする。
 (ステップS703)設定されたレベルの中心コンテンツのタイトル要素のうち、未選択のタイトル要素が1つ選択される。
 (ステップS704)中心コンテンツのタイトル要素と比較されていない対象コンテンツのタイトル要素が1つ選択される。ここで、対象コンテンツのタイトル要素はレベルの高い要素から順に選択される。
 (ステップS705)ステップS703で選択された中心コンテンツのタイトル要素と、ステップS704で選択された対象コンテンツのタイトル要素が一致し、かつ、どちらのタイトル要素にもスキップフラグが立っていないかが判定される。ここで、スキップフラグとは、同一のタイトル要素に由来するタイトル要素の一致を重複してタイトル類似度に加算することを防ぐために、各タイトル要素に付与される情報のことである。タイトル要素同士が一致しており、かつ、どちらの要素にもスキップフラグが立っていなかった場合はステップS706へ進む。それ以外の場合はステップS708へ進む。
 (ステップS706)一致しているタイトル要素に応じた値がタイトル類似度に加算される。ここで、タイトル類似度に加算される値は、一致した要素の抽出方法に応じて決定される。例えば、完全要素同士が一致した場合は1.0、分割子分割要素同士が一致した場合は0.3、字種分割要素同士が一致した場合は0.05のように異なる重みがタイトル類似度に加算される。高いレベルの要素が一致している程、加算される値は大きくなる。
 また、異なる抽出方法の要素同士が一致した場合は、それぞれの要素同士が一致した場合に加算される値の大きいほうの値が加算される。例えば、中心コンテンツの分割子分割要素と対象コンテンツの字種分割要素とが一致した場合は、0.3が加算される。なお、加算される値は、大きい方の値でなく、小さい方の値としてもよいし、平均値としてもよいし、あらかじめ各組み合わせに対して加算する値を定めておいてもよい。
 また、タイトル類似度に加算する値に対して、タイトル要素の抽出方法以外の項目を考慮してもよい。例えば、タイトル要素の文字列の長さが長いほど、タイトル類似度に加算する値を大きくしてもよいし、タイトル要素の語句の属性に応じた重みを考慮してもよい。
 (ステップS707)一致したタイトル要素に由来するタイトル要素に対してスキップフラグを立てる。まず、一致したタイトル要素自体に対してスキップフラグを立てる。また、各タイトル要素は、その由来となった(抽出元の)タイトル要素の情報も有しているので、それを辿ることで、各タイトル要素は一致したタイトル要素に由来するか否かが分かる。一致したタイトル要素に由来するタイトル要素であれば、そのタイトル要素にもスキップフラグを立てる。この処理は、中心コンテンツのタイトル要素および対象コンテンツのタイトル要素双方に対して行われる。
 このスキップフラグが立っているタイトル要素に関しては、これ以降、一致してもタイトル類似度に重みは加算されなくなる。例えば、中心コンテンツの分割子分割要素と、対象コンテンツの分割子分割要素が一致した場合、これらの分割子分割要素から抽出された文字種分割要素同士も一致することになるが、スキップフラグが立っているため、タイトル類似度に重みは加算されなくなる。
 (ステップS708)ステップS703で選択された中心コンテンツのタイトル要素が、対象コンテンツの全てのタイトル要素と比較済みの場合はステップS709へ進む。比較していない対象コンテンツのタイトル要素がある場合はステップS704に戻る。
 (ステップS709)ステップS703で設定されているレベルのタイトル要素が全て選択された場合はステップS710へ進む。未選択のタイトル要素がある場合はステップS703に戻る。
 (ステップS710)ステップS703で設定されているレベルが最低位である場合は処理を終了する。最低位でない場合はステップS711へ進む。
 (ステップS711)比較を行う中心コンテンツのタイトル要素のレベルを1段階下げる。
 このような処理によりタイトル類似度Stitleが算出される。
 次に、図9のステップS605における判定閾値Ttitleの算出処理について、図13に示すフローチャートを用いて説明する。
 (ステップS801)閾値Ttitleに初期値(例えば1.0)が設定される。
 (ステップS802)判定ルール記憶部13に記憶されているルールのうち、未選択のルールが1つ選択される。判定ルール記憶部13には、図14に示すような、タイトル以外の類似度の条件、優先順位及び閾値が規定されたルールが記憶されている。ルールはルール番号順に選択してもよいし、優先順位順に選択してもよい。
 (ステップS803)ステップS802で選択したルールに、ステップS604で算出された類似度が適合しているか否かが判定される。適合している場合はステップS804へ進む。適合していない場合はステップS806へ進む。
 (ステップS804)ステップS802で選択されたルールが、既に適合すると判定されているルールの優先順位より高いか否かが判定される。高い場合はステップS805へ進む。低い場合はステップS806へ進む。
 (ステップS805)ステップS802で選択されたルールを適合ルールとし、このルールに対応する閾値を判定閾値Ttitleに設定する。
 (ステップS806)全てのルールが選択された場合は処理を終了する。未選択のルールがある場合はステップS802に戻る。
 このような処理により、タイトル以外の類似度に応じた判定閾値Ttitleを算出することができる。
 なお、タイトル以外の類似度の値に応じて、Ttitleが決定される関数であれば上記のように複数のルールへの適合を判定して値を決定する方法でなくてもよい。例えば、
Figure JPOXMLDOC01-appb-M000011
のような線形式から求めてもよい。また、線形式に限らずロジット回帰など各種の式を用いることが可能である。あるいは、ニューラルネットワークのような方法を用いても良い。
 また、番組のジャンルに応じて、閾値を決定するためのルールや式を変更することもできる。こうすれば、EPGへの記載内容のジャンルごとの傾向に合ったルールや式とすることができ、同一タイトルであると判定する精度をさらに高くすることが可能である。
 あるいは、番組の放送形態に応じて、閾値を決定するためのルールや式を変更することもできる。こうすれば、EPGへの記載内容の放送形態ごとの傾向に合ったルールや式とすることができ、同一タイトルであると判定する精度をさらに高くすることが可能である。
 以上のような処理を用いた同一タイトル番組の判定の一例を示す。ここでは、図15に示す番組A(中心コンテンツ)と、番組B~F(対象コンテンツ)とが同一タイトル番組であるか否かを判定する。
 まず、番組A~Fの各々の番組情報(タイトル要素及びタイトル以外の要素)が抽出される。図16~図21はそれぞれ番組A~Fの番組情報を示す。
 次に、番組Aと番組B~Fとの各項目の類似度が算出される。図22は各項目の類似度を示す。
 次に、タイトル以外の類似度から図14に示すルールに基づいて、同一タイトル番組と判定するタイトル類似度の閾値Ttitleが決定される。閾値Ttitleは、番組A-番組Bでは1.0、番組A-番組Cでは0.2、番組A-番組Dでは0.05、番組A-番組Eでは0.2、番組A-番組Fでは1.0となる。従って、番組B、C、Dは番組Aと同一タイトル番組であると判定され、番組E、Fは同一タイトル番組ではないと判定される。
 番組Aに対するタイトル類似度の値のみをみると、番組Fの方が番組Dよりも大きい。従って、同一タイトル番組であると判定するタイトル類似度の閾値を一定の値とした場合、番組Dを同一タイトル番組と判定するためには、番組Fも同一タイトル番組であると判定しなければならない。
 しかし、本実施形態のようにタイトル以外の項目の類似度に応じて判定閾値を変えることで、番組Dは同一タイトル番組であり、番組Fは同一タイトル番組ではないと判定することができる。
 また、番組Dのように文字列の一部分しか一致していない場合であっても、文字の種類が変化した部分で分割した要素(字種分割要素)同士の一致を比較することにより、文字列の部分マッチ処理を行うことなく、同一タイトル番組であると判定できる。
 また、複数のタイトル要素の抽出法を用意し、タイトル要素が一致した場合に、抽出法毎に異なる値をタイトル類似度に加算することにより、同一タイトル番組である可能性に応じたタイトル類似度の値を算出することができる。例えば、番組Bはタイトル以外の要素が一致していないため判定閾値が大きくなるが、タイトルが完全要素同士の一致であるためタイトル類似度に大きな値が加算され、同一タイトル番組であると判定することができる。
 このように、本実施形態により、同一タイトル番組の判定精度を向上させることができる。
 (第2の実施形態)図23に本発明の第2の実施形態に係るタイトル判定装置の概略構成を示す。本実施形態は、図1に示す第1の実施形態と比較して、判定ルール更新部14及び判定ルール生成情報記憶部15が設けられている点が異なる。図23において、図1に示す第1の実施形態と同一部分には同一符号を付して説明を省略する。
 番組選択部6は、上記第1の実施形態で説明した機能に加えて、実際には同一タイトル番組ではないが同一タイトル番組であると誤判定された番組や、実際には同一タイトル番組であるが同一タイトル番組でないと誤判定された番組を、ユーザが選択できるようにする機能を有する。
 番組タイトル判定部9は、上記第1の実施形態で説明した機能に加えて、誤判定であるとユーザが選択した番組について、判定の過程で用いた各項目の類似度を、判定ルール生成情報記憶部15へ書き込む機能を有する。
 ルール生成情報記憶部15は、同一タイトル番組である番組間の類似度の値および、同一タイトル番組でない番組間の類似度の値を、それぞれ例えば数千例以上あらかじめ記憶している。また、ルール生成情報記憶部15は、番組選択部6を介してユーザが誤判定であると選択した番組間の各類似度の値も、その都度新たに記憶することができる。
 判定ルール更新部14は、判定ルール生成情報記憶部15に記憶されている類似度の値および同一タイトル番組であるか否かの情報に基づいて、番組タイトル判定部9において同一タイトル番組であるかを判定するためのルールを生成する。このルールは図14に示すルールと同様の形式のものである。判定ルール更新部14は、生成したルールを判定ルール記憶部13に書き込み、判定ルール記憶部13の記憶内容を更新する。
 このような構成の同一タイトル判定装置の動作について、図24に示すフローチャートを用いて説明する。
 (ステップS1001)ユーザが同一タイトル番組を検索したい番組を選択し、画面に同一タイトル番組と判定された番組タイトルの一覧が表示される。この処理は図9に示したフローチャートと同様の処理であるので説明は省略する。
 (ステップS1002)表示された同一タイトル番組の一覧から、誤判定である番組をユーザが選択する。番組選択部6は、画面表示部12を介して図25に示すような画面を表示する。ユーザは同一タイトル番組と判定された番組一覧103の中に誤判定されている番組があった場合、その番組を選択し例えば操作選択メニュー105から誤判定である旨を通知する。
 また、たとえば図26(a)に示すような「非表示候補を表示」のようなメニューボタン106を選択することで、図26(b)に示すような同一タイトル番組でないと判定された番組の一覧107を表示するようにしてもよい。この一覧の中に誤判定された番組があった場合にも、ユーザは操作選択メニュー105から誤判定である旨を通知することができる。この一覧107は、例えば、タイトル類似度が判定閾値未満であった番組のうち、判定閾値との差が小さい番組から順に表示される。
 (ステップS1003)ステップS1002でユーザにより誤判定であると選択された番組の類似度の値が、ルール生成情報記憶部15のルール生成情報に追加される。同一タイトル番組であると判定された番組の一覧の中から誤判定として選択された番組は、同一タイトル番組でないという正解データと共に記憶され、同一タイトル番組でないと判定された番組の一覧から誤判定として選択された番組は同一タイトル番組であるという正解データと共に記憶される。
 (ステップS1004)ルール生成情報記憶部15に記憶されているルール生成情報を元に、同一タイトル番組であると判定するためのルールを再学習させる。ルール生成情報は、例えば図27に示すように、各類似度の値と、同一タイトル番組であるか否かの正解データの情報が含まれる。
 判定ルール更新部14は、このルール生成情報を用いて、図14に示すような同一タイトル判定閾値決定ルールを新たに生成し、判定ルール記憶部13に記憶させる。ルールを生成する方法としては、例えば、文献:Breinmanら, Classification and Regression Trees, 1984に記載されているような方法を用いることができる。
 同一タイトル番組判定部9は、新たなルールを用いて同一タイトル番組であるかの判定を行う。なお、ルールの学習方法は上記の例に限らず、ロジット回帰分析や、逆誤差伝播学習など一般的な統計的学習方法を用いることが可能である。
 このように、本実施形態により、ユーザが誤判定であると判定した番組を学習データとして判定ルールを再学習させることにより、判定ルールを更新することができる。これにより、同一タイトル番組の判定精度をさらに向上させることができる。
 上記実施形態に係る同一タイトル判別装置100は、録画再生実行部10、番組記録部11、画面表示部12を備え、ユーザにより選択された番組に対する同一タイトル番組の一覧の表示、番組の録画・再生を行えるものであったが、これらの構成要素を省略し、同一タイトル番組の検索だけを行うようにしてもよい。
 なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
1 放送受信部
2 信号分離部
3 EPG取得部
4 EPG記憶部
5 番組予約管理部
6 番組選択部
7 番組情報抽出部
8 抽出番組情報記憶部
9 番組タイトル判定部
10 録画再生実行部
11 番組記録部
12 画面表示部
13 判定ルール記憶部
100 タイトル判別装置

Claims (5)

  1.  複数の番組についての番組タイトルを示すタイトル情報及び前記番組タイトルとは異なるデータを示す非タイトル情報を含む電子番組表を受信する受信部と、
     前記複数の番組に対して、前記タイトル情報からの複数の抽出方法によるタイトル要素の抽出、及び前記非タイトル情報からの前記タイトル要素とは異なる要素である非タイトル要素の抽出を行う抽出部と、
     2つの番組の間において前記タイトル要素の比較を行い、一致したタイトル要素の抽出方法に応じた重みを反映させたタイトル類似度を算出し、前記2つの番組の間において前記非タイトル要素の比較を行って非タイトル類似度を算出し、前記非タイトル類似度に対応した閾値と前記タイトル類似度との比較を行い、前記タイトル類似度が前記閾値以上であるかを判定する判定部と、
     を備えるタイトル判別装置。
  2.  前記閾値は、前記2つの番組の一方のジャンル又は放送形態に応じて変更される取得方法により取得されることを特徴とする請求項1に記載のタイトル判別装置。
  3.  前記複数の抽出方法は、番組タイトル文字列をそのままタイトル要素として抽出する第1の抽出方法、前記番組タイトル文字列を所定の記号の位置で分割した文字列をタイトル要素として抽出する第2の抽出方法、前記番組タイトル文字列を文字種の変わり目で分割した文字列をタイトル要素として抽出する第3の抽出方法、及び前記番組タイトル文字列に対して形態素解析を行い、形態素毎に分割した文字列をタイトル要素として抽出する第4の抽出方法のうち、少なくともいずれか2つを含むことを特徴とする請求項2に記載のタイトル判別装置。
  4.  前記第2の抽出方法で抽出されたタイトル要素が一致した場合に前記タイトル類似度に反映される重みは、前記第3の抽出方法で抽出されたタイトル要素が一致した場合に前記タイトル類似度に反映される重み及び前記第4の抽出方法で抽出されたタイトル要素が一致した場合に前記タイトル類似度に反映される重みより大きく、前記第1の抽出方法で抽出されたタイトル要素が一致した場合に前記タイトル類似度に反映される重みより小さいことを特徴とする請求項3に記載のタイトル判別装置。
  5.  前記非タイトル類似度の条件と当該条件に対応する前記閾値とが規定されたルールが複数記憶されている第1記憶部と、
     前記判定部が前記ルールを参照して前記閾値を取得し、前記タイトル類似度が前記閾値以上であるかの判定を行った判定結果のうち、ユーザにより誤判定であると選択された番組に対応する前記タイトル類似度及び前記非タイトル類似度を記憶する第2記憶部と、
     前記第2記憶部に記憶されている前記タイトル類似度及び前記非タイトル類似度を用いて前記第1記憶部に記憶されている前記ルールを更新する更新部と、
     をさらに備えることを特徴とする請求項1に記載のタイトル判別装置。
PCT/JP2009/066437 2009-09-18 2009-09-18 タイトル判別装置 WO2011033671A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2009/066437 WO2011033671A1 (ja) 2009-09-18 2009-09-18 タイトル判別装置
JP2011531744A JP5320470B2 (ja) 2009-09-18 2009-09-18 タイトル判別装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2009/066437 WO2011033671A1 (ja) 2009-09-18 2009-09-18 タイトル判別装置

Publications (1)

Publication Number Publication Date
WO2011033671A1 true WO2011033671A1 (ja) 2011-03-24

Family

ID=43758297

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/066437 WO2011033671A1 (ja) 2009-09-18 2009-09-18 タイトル判別装置

Country Status (2)

Country Link
JP (1) JP5320470B2 (ja)
WO (1) WO2011033671A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101429623B1 (ko) * 2012-10-04 2014-08-13 한양대학교 에리카산학협력단 중복 뉴스 탐지 시스템 및 중복 뉴스 탐지 방법
EP2961179A1 (en) * 2014-06-24 2015-12-30 LG Electronics Inc. Method for controlling broadcast receiving device
JP2018092324A (ja) * 2016-12-01 2018-06-14 日本放送協会 コンテンツ同定装置及びプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003046921A (ja) * 2001-08-03 2003-02-14 Victor Co Of Japan Ltd 番組の予約記録方法、番組予約記録装置、及び番組予約記録用プログラム。
JP2005102059A (ja) * 2003-09-26 2005-04-14 Nec Corp 番組同定装置、番組同定方法、プログラム
JP2007096930A (ja) * 2005-09-29 2007-04-12 Nec Personal Products Co Ltd 番組検索システム
JP2007102489A (ja) * 2005-10-04 2007-04-19 Sharp Corp 番組データ処理装置、番組データ処理方法、制御プログラム、記録媒体、ならびに、番組データ処理装置を備えた録画装置、再生装置、および、情報表示装置
JP2007201573A (ja) * 2006-01-24 2007-08-09 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2009110603A (ja) * 2007-10-30 2009-05-21 Toshiba Corp 録画再生装置、および番組再生方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003046921A (ja) * 2001-08-03 2003-02-14 Victor Co Of Japan Ltd 番組の予約記録方法、番組予約記録装置、及び番組予約記録用プログラム。
JP2005102059A (ja) * 2003-09-26 2005-04-14 Nec Corp 番組同定装置、番組同定方法、プログラム
JP2007096930A (ja) * 2005-09-29 2007-04-12 Nec Personal Products Co Ltd 番組検索システム
JP2007102489A (ja) * 2005-10-04 2007-04-19 Sharp Corp 番組データ処理装置、番組データ処理方法、制御プログラム、記録媒体、ならびに、番組データ処理装置を備えた録画装置、再生装置、および、情報表示装置
JP2007201573A (ja) * 2006-01-24 2007-08-09 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP2009110603A (ja) * 2007-10-30 2009-05-21 Toshiba Corp 録画再生装置、および番組再生方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101429623B1 (ko) * 2012-10-04 2014-08-13 한양대학교 에리카산학협력단 중복 뉴스 탐지 시스템 및 중복 뉴스 탐지 방법
EP2961179A1 (en) * 2014-06-24 2015-12-30 LG Electronics Inc. Method for controlling broadcast receiving device
US9681187B2 (en) 2014-06-24 2017-06-13 Lg Electronics Inc. Method for controlling broadcast receiving device
JP2018092324A (ja) * 2016-12-01 2018-06-14 日本放送協会 コンテンツ同定装置及びプログラム

Also Published As

Publication number Publication date
JP5320470B2 (ja) 2013-10-23
JPWO2011033671A1 (ja) 2013-02-07

Similar Documents

Publication Publication Date Title
US11197036B2 (en) Multimedia stream analysis and retrieval
JP4550725B2 (ja) 映像視聴支援システム
KR100988153B1 (ko) 정보 검색 시스템, 정보 처리 장치 및 방법, 정보 검색장치 및 방법
CN100485686C (zh) 视频观看支持系统及方法
EP2417767B1 (en) Apparatus and method for providing information related to broadcasting programs
CN100372372C (zh) 电子节目指南数据的自由文本和属性搜索
US8750681B2 (en) Electronic apparatus, content recommendation method, and program therefor
JP5845764B2 (ja) 情報処理装置及び情報処理プログラム
JP5225037B2 (ja) 番組情報表示装置および方法
JP4619915B2 (ja) 番組データ処理装置、番組データ処理方法、制御プログラム、記録媒体、ならびに、番組データ処理装置を備えた録画装置、再生装置、および、情報表示装置
WO2005066837A1 (ja) 辞書作成装置および辞書作成方法
US20090132074A1 (en) Automatic segment extraction system for extracting segment in music piece, automatic segment extraction method, and automatic segment extraction program
KR20000054561A (ko) 비디오 인덱싱 방식을 이용한 네트워크 기반의 비디오검색 시스템 및 그 운영방법
JP4950753B2 (ja) コメント収集解析装置およびそのプログラム
KR20130083829A (ko) 디스플레이된 텔레비전 컨텐츠에 대한 자동 이미지 디스커버리 및 추천
US8406606B2 (en) Playback apparatus and playback method
CN103621058A (zh) 信息处理设备和信息处理方法
JP4601306B2 (ja) 情報検索装置、情報検索方法、およびプログラム
JP5320470B2 (ja) タイトル判別装置
JP2004295102A5 (ja)
JP5202217B2 (ja) 放送コンテンツから時事性のあるキーワードを抽出する放送受信装置及びプログラム
EP2336900A2 (en) Search device and search method
US8264727B2 (en) Data processing apparatus, method, program, and storage medium for setting identification information based on metadata, and advantageously displaying print data
JP4480654B2 (ja) 番組検索システム
JP2006203619A (ja) 嗜好別番組分類装置および嗜好別番組分類方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09849530

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2011531744

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09849530

Country of ref document: EP

Kind code of ref document: A1