JPWO2007043679A1 - 情報処理装置およびプログラム - Google Patents

情報処理装置およびプログラム Download PDF

Info

Publication number
JPWO2007043679A1
JPWO2007043679A1 JP2007540220A JP2007540220A JPWO2007043679A1 JP WO2007043679 A1 JPWO2007043679 A1 JP WO2007043679A1 JP 2007540220 A JP2007540220 A JP 2007540220A JP 2007540220 A JP2007540220 A JP 2007540220A JP WO2007043679 A1 JPWO2007043679 A1 JP WO2007043679A1
Authority
JP
Japan
Prior art keywords
information
content
identifier
search condition
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007540220A
Other languages
English (en)
Inventor
伊原 正典
正典 伊原
龍太郎 江川
龍太郎 江川
寛 大塚
寛 大塚
敬 丸野
敬 丸野
光吉 俊二
俊二 光吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of JPWO2007043679A1 publication Critical patent/JPWO2007043679A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/26603Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel for automatically generating descriptors from content, e.g. when it is not made available by its provider, using content analysis techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording

Abstract

入力された各種情報に基づいて共起情報を利用することにより、任意のコンテンツ情報を容易に検索できる情報検索装置等を提供すること。コンテンツ情報の視覚情報や聴覚情報や文字情報やセンサ情報から特徴量を抽出し、抽出された特徴量から評価関数を用いて識別子を生成する。そして、特徴量及び/又は前記識別子をコンテンツ又はコンテンツ内の位置に関連づけて索引情報として記憶する。また、入力された検索条件を特徴量及び/又は識別子に変換し、変換された特徴量及び/又は識別子を用いて前記索引情報と前記検索条件とのコンテンツ情報内の近傍における共起情報に基づいた適合を検出することでコンテンツ又はコンテンツ内の位置を特定する。

Description

コンテンツ情報を獲得するコンテンツ情報獲得手段と、検索条件を入力する検索条件入力手段と、前記コンテンツ情報獲得手段により獲得されたコンテンツ情報から、前記検索条件入力手段により入力された検索条件に適合するコンテンツ情報又は当該コンテンツ情報内の位置を特定する特定手段と、を備えた情報処理装置等に関する。
従来、一般的な情報処理装置を用いたコンテンツ情報検索において、コンテンツ情報の変化を検出する方法は特許文献1のように提案されており、特徴量として音量の変化を用い、一定の閾値を越える個所をハイライトシーンとして捉える方法が提案されている。
ここで、特徴量とは入力された音声や動画などの情報に関し時系列的変化や隣接画素との変化や指定した範囲内での色や音響周波数等の変化や割合を数量化した値である。変化の割合を数値に変換する方法としては、種々の方法が考えられるが、例えば、音声であればケプストラムやFFTを用いて周波数軸の変化に基づく数値に変換したりする方法が考えられ、映像であれば時系列的変化や隣接画素における輝度や色相の差分値や相対値や絶対値として数値にしたりする方法が考えられ、より詳しくは変形例に別途後述する。
また、コンテンツ情報に対し音声による検索を実行する場合、主人公の名前のような固有名詞は辞書に登録されていないことも多く検出を行うこが困難であったため非特許文献1のように語彙に依存しない音素認識を応用した検索技術として、任意のキーワードを検索する方法が提案されており、この検索技術の基本となる音素認識や応用技術である音素片認識は特許文献2にあるように古くからの公知技術として用いられ、音素辞書を用いて装置を制御するユーザインタフェースとして非特許文献2のように音素辞書と音素認識により装置制御方法を辞書に登録する方法が説明されている。
また、このような技術の応用として非特許文献3によれば、音素認識による音素記号列や画像認識による検索する方法が提案されており、例えば、「静止画→単語集合→テキスト→音声→動画」として画像に関連付けられた文字列を音素列や音素片列に変換したり、音素列や音素片列を文字列に相互に変換して連鎖的に検索したりする方法が提案されている。
また、特許文献3によれば、音素及び/又は音素片による記号列を地理的な位置情報と関連付けてデータベースに登録し、市街情報に多い固有名詞を伴う情報の検索と提供を実現する情報配信装置と受信装置が提案されており、特許文献4によれば音素片認識により索引付けされた音声情報の検索が提案されており、それらの引用文献にも関連技術が提案されている。
また、他の認識技術に関しても、声の特徴情報から感情を認識する技術が特許文献5に開示されており、音階や楽器の検出技術に関しては非特許文献4による提案がなされており、動画像や静止画像を認識し、文字列などを検出することで、検出された文字列に基づいて検索を実行する方法が特許文献6により提案されており、特許文献7等によりジェスチャ認識や動作認識と呼ばれる画像から動作を認識する方法が提案されており、特許文献8によれば顔画像の認識を行う方法が提案されているように、近年多様な入力に対する認識技術が提案・発明されている。
また、文章内の単語や文字の同一文中における同時出現頻度に基づいた共起関係を共起確率や共分散行列を用いて計測し意味を推定するための文章特徴を抽出する方法として特許文献9やそれらの引用文献に基づく方法が提案されているが、複数の認識に基づく情報に関し時系列的に近い情報を組合せることで特定のシーン特徴を抽出・学習し検索によってコンテンツやコンテンツ内の時間軸上の位置や表示画面上の位置や音読上の位置を特定するために用いるという方法は提案されていない。
なお、複数の異なる情報が相互の位置的近傍に生じる状態を一般的に「共起」と呼ぶことが知られており「共起関係」や「共起状態」や「共起情報」ともいい、ある情報の近傍に発生する情報を組合せて任意の情報が発生する条件の評価に用いることが可能であり、共起確率や共起情報に基づく共分散行列を用いて文章の意味推定などに利用されている。また、位置的近傍とは時系列的位置や音読位置や表示位置に基づいた時空間的な近傍と本発明では考えてよい。例えば、「人が泣いている」という文において、「人」と「泣」とは同じ文中に存在するという点で位置的近傍にあることから共起関係にあるといえる。
また、特許文献10にはコンテンツ情報を感性語空間にて索引付けする方法が提案されており、非特許文献5においては映像と音声に対して発話内容に基づいた文字列による索引を与えて検索する方法が提案されているが、それぞれコンテンツ情報内の認識結果や認識のための特徴量や識別子に基づいた共起関係を用いて検索のための評価関数を構成することは提案されていない。
また、例えばコールセンターにおける商品の評判調査や動画像などのコンテンツ情報に対する趣味に応じた検索や医療現場における患者の看護やロボット若しくはエージェントの仮想人格における反応といった人間が臨機応変な対応をしている場面若しくはその模倣において、環境から得られる複数の特徴量や識別子(特徴を弁別する記号)に基づいて構成された共起関係に基づく情報を用いて評価し、その評価結果に基づいて検出を行い利用者にとって利便性の高い情報や処理を提供する方法は提案されていない。
このため、本発明を用いることで特許文献11のような電話による応対を実行するコールセンターのような環境において、オペレータと顧客の相性を評価し円滑なコミュニケーションを図れるオペレータを割当てるようなシステムを機能拡張したり、特許文献12のようにフレーム単位に映像の特徴量を抽出し、映像の特徴量同士が一致するか否かを評価し検索をする方法を改善したりすることも可能であり、これらの情報を分析するために特許文献13を用いて多変量解析し共起関係を分析しても良い。
なお、従来の出願や文献によると、音素と音節を混同しているものが多く見受けられるが、本発明における音節や音素や音素片とは日本語で「あかさたな」という発音を例にする場合、音節表記した場合であれば「あ/か/さ/た/な」もしくは「a/ ka/ sa/ ta/ na」と表記され、音素表記した場合は「a/ k/ a/ s/ a/ t/ a/ n/ a」もしくは「a/ cl/ k/ a/ s/ a/ cl/ t/ a/ n/ a」と表記され、音素片表記であれば「a/ a-k/ k/ k-a/ a/ a-s/ s/ s-a/ a/ a-t/ t/ t-a/ a/ a-n/ n/ n-a/ a」もしくは「a/ a-cl/ cl/ cl-k/ k/ k-a/ a/ a-s/ s/ s-a/ a/ a-cl/ cl/ cl-t/ t/ t-a/ a/ a-n/ n/ n-a/ a」といった例がバイグラムであれば考えられ、「a-a-a/ a-cl-cl/ cl-cl-cl/ cl-cl-k/ cl-k-k/ k-k-a/ a-a-a/ a-a-s/ s-s-s/ s-a-a/ … t-a-a/ a-a-n/ n-n-n/ n-a-a/ a-a-a」と言った例がトライグラムの例となり、音素の前半部、中盤部、後半部といった任意の位置に基づく分離による音素片であっても良く、/cl/ は無声破裂音における発音前の無音部もしくは無声部を指しており、音素、音素片ともに任意の改善により異なる表記記号に変更しても良い。
なお、音素及び音素片認識と通常の音声認識の違いを説明すると、音素認識や音素片認識は一般的な音声認識と違い意味や内容を解釈しないという特徴があり、より詳しくは音素認識や音素片認識は文法に関わる言語モデルを用いないため認識結果として意味を捉えていないこと、若しくは漢字のような意味を含む記号に変換していないこと、若しくは同音異義語や同音異表記語を弁別しないこと、文脈に応じて名詞や動詞といった品詞の弁別を行わないこという特徴があり、表音記号別の音響モデルを用いて発話音の発話音を分析し発話音記号と認識記号の一致のみを評価するという特徴がある。
また、「音素」とは、音声を構成する要素である母音や子音を指し、「音素片」とは1つの音素をより細かく分割した要素であり、たとえば「あ」の始端、「あ」の中盤、「あ」の終端と分割したり「あ」と「い」の間の音といった中間音であったりする発話音声に対しての音素の変化を踏まえた表記を示し、「音素識別子」や「音素片識別子」と表記しても良い。
特開2004−233541号公報 特開昭62−220998号公報 特開2004−54915号公報 特開2002−221984号公報 特開2002−91482号公報 特開2002−14973号公報 特開平09−330400号公報 特開平5−153581号公報 特開平7−36883号公報 特開2005−107718号公報 特開2004−280158号公報 特開平10−320400号公報 特願2005−147048号公報 中沢正幸, 遠藤隆, 古川清, 豊浦潤, 岡隆一(新情報処理開発機構), 「音声波形からの音素片記号系列を用いた音声要約と話題要約の検討」,信学技報, SP96-28, pp.61--68, June 1996. 「高齢化社会対応型生活支援インターフェースに関する研究開発」、青森県工業総合研究センターによるキープロジェクト研究報告書 Vol.5、Apr.1998〜Mar.2001 031 岡隆一, 高橋裕信, 西村拓一, 関本信博, 森靖英, 伊原正典, 矢部博明, 橋口博樹, 松村博. パターン検索のアルゴリズム・マップ -"CrossMediator" を支えるもの -. Someone Unknown, editor, 人工知能学会研究会, volume 1, pages 1-6. 人工知能学会, 2001. 谷 真宏: "Bayesian Networkによる楽器音特徴量の統合と楽器同定への応用", 2003年 電子情報通信学会総合大会 『D-14 音声・聴覚』 D-14-21, p188, March 2003 長尾 確、「セマンティック・トランスコーディング-より実用的な"Semantic Web"に向けて-」、人間主体の知的情報技術に関する調査研究VI-3.6、財団法人 日本情報処理開発協会 先端情報技術研究所、平成15年3月
従来の検索は画像や映像に関連付けられた文字列や音声情報を用いて検索する方法や単独の認識方法や特徴抽出方法により得られた識別子や特徴量を評価する検索方法が一般的であったため、言語表現しづらい抽象概念に基づく検索やシーンの盛り上がりといった感覚的な概念に基づく検索や趣味や主観に応じた検索は困難であるという課題があった。
このため、前記非特許文献3によれば音素認識により獲得された音素記号を識別子として用いた検索を行っているが、画像情報や映像情報から獲得される画像特徴量や画像認識による画像識別子や動作認識による動作識別子と音声情報から獲得される感情認識による感情識別子や音素認識による音素識別子といった複数の認識方法に基づく識別子や特徴量を組合せた共起情報に基づいて共分散行列を構成し、新しく索引付や検索に用いる評価関数を構成する方法は提案されていない。
そこで、発明者はこのような多様な認識の結果得られる識別子や特徴量の共起関係に基づいて評価関数を作り検索や索引付を行うことで、従来不可能であったシーンの盛り上がりといった抽象的な検索が可能であると考えるとともに、解析結果として構成される任意の評価関数に対し評価関数名を利用者や製作者が適宜命名し、命名された文字列に基づいて音素列や音素片列を生成することにより、検索条件の指定に利用者が構成命名した評価関数や索引を用いたり、構成された評価関数を交換配布したりすることで利便性の高い検索環境を実現できると考えた。
このような情報の共起関係に関する技術は前述の通り文章内の単語や文字の同一文中における同時出現頻度に基づいた共起関係を共起確率や共分散行列を用いて計測し意味を推定するための文章特徴を抽出する方法として前記特許文献9やそれらの引用文献に基づく方法が提案されているが、本発明では各種認識方法により抽出された識別子やそれらを認識するための特徴量を用いた共起確率や共分散行列や共起行列といった共起情報を用いることを特徴としている。
このような課題に基づいて色々な装置を検討した場合、例えば、シリーズ物の映画の中で一般的にいわれる「キメ台詞」を検索することは困難であり、同様の台詞がお笑い番組の中でネタとして用いられているかどうかの判断はより困難であったり、加えてそれらを判別し自動的に収録するということは困難であったり、「キメ台詞」のところばかりをスキップしながら閲覧するといったことが困難であったり、主人公の名前を泣きながら呼んでいるのか、怒って呼んでいるのか、嬉しそうに呼んでいるのかを判断しストーリの盛り上がりに応じて検索することが困難であったり、動画音声ストリームから音声認識置いて単語を同定することは現状の音声認識システムでは困難であったり、音声ストリームから音素を認識した場合であっても映画などのコンテンツにおいて配役名称は記号化できても、配役名に関連する役者名を記号化することは困難であったり、映像ストリームにおける配役名や役者名は文字列記号であるため検索には文字列記号のみでしか実施できなかったり、映像や音声によるシーンの感情的な盛り上がりを検索できないという課題があった。
この課題は、主にコンテンツ中の発話単語や画像情報を認識することで容易に利用者の意図する検索や検出が可能であると考えられていたことに起因するが、実際のコンテンツ情報は単一の認識結果により得られるものばかりではない点、従来は単語レベルで認識しようとしていたが、コンテンツ中では叫び声や泣声といった単語にならない音がシーンの盛り上がりに影響する点、単純な認識と索引付と検索では検索結果が絞り込めない点、シーンで生じる音声から認識される感情を考慮していない点、機械音や爆発音といった環境音と発話音に基づく音素列を認識し索引付けると共にそれらがほぼ同時に生じている区間を共起情報に基づいて検出するといった方法が実現されていない点といった複数の要因により生じていた。
また、言語によって音素や音素片に対する認識の違いや解釈の偏りがあり、母国語が異なる人や音素記号列の表記方法が必ずしも統一できないため、国際的に利用しようとすると充分に実用には耐えないという課題があり、任意の端末に情報を提供する際の汎用性が低く国際音素記号と地域言語における音素記号の違いを充分に吸収できるものではないという課題があった。
また、消費者との対話を収録し分析するCRMシステムにおいて、消費者相談窓口の顧客との対話状況から音声特徴を収録しながら、顧客の商品に対する評価を客観的且つ定量的に把握すし収録し分析することが困難であったり、相談窓口のオペレータが対話状況から即座に該当商品のマニュアルを入手するといったことが困難であったりするという課題があった。
また、カラオケなどではタイトルのわからない曲を歌いたい場合や音楽データを検索する際にその音楽や映像の感情的盛り上がりや膨大な音楽や映像タイトルを検索したり、特定のキーワードの出現位置を検索したりすることや歌詞のサビの部分からの検索など困難であるという課題があった。
また、従来からあるEPGやBML、RSS、文字放送などのテキスト検索ではその入力が煩雑であり、映像音声ストリームから抽出した情報に基づいて音素記号や音素片記号、感情を識別するための感情識別子、楽器を識別するための楽器識別子、音階を識別するための音階識別子、言語や音素や音素片や感情や楽器や音階を識別するための音声特徴、屋内の音の響き方や音の位置を識別するための音響特徴、風景や人物や物や動物や文字などの形状や運動を判別するための画像特徴及び画像認識結果を生成しそれらを組合せ目的とする抽象概念の対象となるシーンの盛り上がりなどの検索は実施されていなかったため、自由度の高い検索が行えないという課題があり、これらの組合せはより詳しく後述する。
そして、このような課題に対する一般的な対策として提案された従来技術によれば、音素列と文字列変換することで相互の検索を実現する方法は提案されているが、それらを画像認識結果や感情認識結果、音素認識結果に基づいた共起状態を評価して学習したり、学習結果を用いてより複雑な検索を実施したりするといった異なる評価基準に基づく認識による索引を用いて複合的な検索を行うことは出来なかった。
また、従来技術では表情に基づいた感情認識はなされているが、音声入力から得られた音素列や音素片列と感情識別子に対して画像入力による表情画像を関連付けて分類し検索評価、学習する方法は提案されておらず、音素や音素片による認識は提案されていないため映画やドラマのようなコンテンツから感情や音素列や画像特徴を伴う適当なシーンを検索・検出したり、検出に基づいて録画を開始したり、再生したり、嫌なところをスキップ再生したり、アナウンスを流したり、メールを配信したり、RSSを生成したりするといった利用はなされていないため、本発明のような利用者感情やコンテンツ内で表現される感情を踏まえた音声入力を伴う検索や検出、索引付けに関する課題を解決していないとともに、本発明は感情や感性の発生や制御を行う装置ではないため装置としての発明分野も異なる。
さらに、前記非特許文献3のようなシステムでは画像を一様に区分化し、区分化された画像特徴に統計的に関連付けられた単語文字列を音素や音素片に展開し発話に基づいて検索したり、映像内で発話されている個所を検索したりすることは可能であるが、認識に伴う特定の画像特徴傾向や感情特徴傾向や音声特徴傾向を組合せ共起状態に基づいて統計的に分類し評価関数を構成して識別子を与えたり、識別子の対象を示す呼称の発話にともなう音素列・音素片列を関連付けたり、それらの識別子を検索するための索引付評価関数を構成したりすることは不可能であった。
このため、ある発話音素列・音素片列と画像特徴や画像特徴と感情識別子が関連付けられた傾向分析に基づいて検索をすることは不可能であるばかりではなく、感情識別子を含めた共起情報を用いていないため「悲鳴を伴う爆発シーン」や「泣きながら主人公の名前を叫んでいるシーン」といったコンテンツ情報のシーンの盛り上がりに関わるような検索は出来なかった。
このように、従来の検索技術では人の感覚や趣味、主観、感情に配慮した自由度の高い検索を実現することが困難であったため、検索装置に対する複雑な入力が不得意な人と得意な人との間にデジタルデバイドと呼ばれる情報格差が生まれ情報化社会における一般的な課題となっている。
そこで、上述した課題に鑑み、本発明が目的とするところは、入力された各種情報に基づいて共起情報を利用することにより、任意のコンテンツ情報を容易に検索できる情報検索装置等を提供することである。
上記の課題を解決するために、第1の発明の情報処理装置は、コンテンツ情報を獲得するコンテンツ情報獲得手段と、検索条件を入力する検索条件入力手段と、前記コンテンツ情報獲得手段により獲得されたコンテンツ情報から、前記検索条件入力手段により入力された検索条件に適合するコンテンツ情報又は当該コンテンツ情報内の位置を特定する特定手段と、を備えており、コンテンツ情報から特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段により抽出された特徴量から評価関数を用いて識別子を生成する識別子生成手段と、前記特徴量及び/又は前記識別子を前記コンテンツ又は前記コンテンツ内の位置に関連づけて索引情報として記憶する索引情報記憶手段と、前記検索条件入力手段により入力された検索条件を特徴量及び/又は識別子に変換する検索条件変換手段と、を更に備え、前記特定手段は、前記検索条件変換手段により変換された特徴量及び/又は識別子を用いて前記索引情報と前記検索条件との適合を検出することでコンテンツ又はコンテンツ内の位置を特定する検索特定手段を有することを特徴とする。
第2の発明の情報処理装置は、コンテンツ情報を獲得するコンテンツ情報獲得手段と、検索条件を入力する検索条件入力手段と、前記コンテンツ情報獲得手段により獲得されたコンテンツ情報から、前記検索条件入力手段により入力された検索条件に適合するコンテンツ情報又は当該コンテンツ情報内の位置を特定する特定手段と、を備えており、コンテンツ情報から複数の異なる特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段により抽出された複数の異なる特徴量から評価関数を用いて複数の異なる識別子を生成する識別子生成手段と、複数の異なる前記特徴量及び/又は前記識別子を前記コンテンツ又は前記コンテンツ内の位置に関連づけて索引情報として記憶する索引情報記憶手段と、前記検索条件入力手段により入力された検索条件を複数の異なる特徴量及び/又は識別子に変換する検索条件変換手段と、を更に備え、前記特定手段は、前記検索条件変換手段により変換された複数の異なる特徴量及び/又は識別子を用いて前記索引情報と前記検索条件との適合を検出することでコンテンツ又はコンテンツ内の位置を特定する検索特定手段を有することを特徴とする。
また、第3の発明は、第1又は第2の発明の情報処理装置において、前記索引情報記憶手段は、コンテンツから獲得された特徴量及び/又は識別子に基づいて構成される共起情報を前記コンテンツ又は前記コンテンツ内の位置に関連づけて更に記憶しており、前記検索条件変換手段によって検索条件から変換された特徴量及び/又は識別子に基づく共起情報を検索条件共起情報として構成する検索条件共起情報構成手段を更に備え、前記検索特定手段は、前記検索条件共起情報構成手段により構成された検索条件共起情報と、前記索引共起情報とのとの適合を検出することでコンテンツ又はコンテンツ内の位置を特定する共起検索特定手段を有することを特徴とする。
また、第4の発明は、第1から第3の発明のいずれかに記載の情報処理装置において、前記コンテンツには文字情報が含まれており、前記識別子生成手段は、前記文字情報に基づいて識別子を生成することを特徴とする。
また、第5の発明は、第4の発明の情報処理装置において、前記文字情報と識別子とを対応づけて辞書情報として記憶する辞書情報記憶手段を更に備え、前記識別子生成手段は、前記コンテンツに含まれる文字情報から前記辞書情報を用いて識別子を生成することを特徴とする。
また、第6の発明は、第1から第5の発明のいずれか一つに記載の情報処理装置において、辞書情報記憶手段に前記識別子と標準パターンとを対応づけて標準パターン辞書情報として記憶する標準パターン辞書情報記憶手段を更に備え、前記識別子を前記標準パターン辞書情報を用いることにより標準パターンによる特徴量へ変換する識別子特徴量変換手段を更に有することを特徴とする。
また、第7の発明は、第1から第6の発明のいずれか一つに記載の情報処理装置において、前記索引情報記憶手段は、前記コンテンツ情報の実時間に基づいて前記特徴量及び/又は前記識別子を前記コンテンツ又は前記コンテンツ内の位置に関連づけて更に記憶しており、前記特定手段は、実時間で配信されるコンテンツから前記索引情報と前記検索条件との適合を検出する手段であることを特徴とする請求項1から6のいずれか一項に記載の情報処理装置。
また、第8の発明は、第1から第7の発明のいずれか一つに記載の情報処理装置において、コンテンツ情報の検索中及び/又は検索結果若しくは検出結果に対して共起情報及び/又は前記索引情報により関連付けられた広告情報を提示することを特徴とする。
また、第9の発明は、第2の発明の情報処理装置において、前記特徴量抽出手段が抽出する複数の異なる特徴量のうち、少なくとも1つは前記コンテンツから音素認識の際に用いられる音素情報から抽出される特徴量、若しくは音素情報から生成される音素識別子であることを特徴とする。
また、第10の発明は、第2の発明の情報処理装置において、前記特徴量抽出手段が抽出する複数の異なる特徴量のうち、少なくとも1つは前記コンテンツから音素片認識の際に用いられる音素片情報から抽出される特徴量、若しくは音素片情報から生成される音素片識別子であることを特徴とする。
また、第11の発明は、第2の発明の情報処理装置において、前記特徴量抽出手段が抽出する複数の異なる特徴量のうち、少なくとも1つは前記コンテンツから感情認識の際に用いられる感情情報から抽出される特徴量、若しくは感情情報から生成される感情識別子であることを特徴とする。
また、第12の発明は、第2の発明の情報処理装置において、前記特徴量抽出手段が抽出する複数の異なる特徴量のうち、少なくとも1つは前記コンテンツから聴覚情報に基づく認識の際に用いられる聴覚情報から抽出される特徴量、若しくは聴覚情報から生成される識別子であることを特徴とする。
また、第13の発明は、第2の発明の情報処理装置において、前記特徴量抽出手段が抽出する複数の異なる特徴量のうち、少なくとも1つは前記コンテンツから視覚情報に基づく認識の際に用いられる視覚情報から抽出される特徴量、若しくは視覚情報から生成される識別子であることを特徴とする。
また、第14の発明は、第2の発明の情報処理装置において、前記コンテンツには文字情報が含まれており、前記特徴量抽出手段が抽出する複数の異なる特徴量若しくは識別子生成手段が生成する識別量のうち、少なくとも1つは文字情報から抽出される特徴量若しくは文字情報から生成される識別子であることを特徴とする。
また、第15の発明は、第2の発明の情報処理装置において、前記特徴量抽出手段が抽出する複数の異なる特徴量若しくは識別子生成手段が生成する複数の異なる識別子のうち少なくとも1つは、番組情報から抽出される特徴量若しくは番組情報が識別子であることを特徴とする。
また、第16の発明は、第2の発明の情報処理装置において、前記特徴量抽出手段が抽出する複数の異なる特徴量若しくは識別子生成手段が生成する複数の異なる識別子のうち少なくとも1つは、センサ情報から抽出される特徴量若しくはセンサ情報が識別子であることを特徴とする。
また、第17の発明は、第3の発明の情報処理装置において、コンテンツから獲得された特徴量及び/又は識別子に基づいて構成される共起情報から、前記評価関数を再構成する評価関数再構成手段を備えることを特徴とする。
また、第18の発明は、第3の発明の情報処理装置において、前記検索条件変換手段によって検索条件から変換された特徴量及び/又は識別子に基づいて構成される共起情報から、前記評価関数を再構成する評価関数再構成手段を備えることを特徴とする。
また、第19の発明は、第3の発明の情報処理装置において、前記共起検索特定手段によりコンテンツ又はコンテンツ内の位置が特定された結果に基づいて共起情報を構成する検索結果共起情報構成手段を備え、前記検索結果共起情報構成手段に基づいて構成された共起情報から、前記評価関数を再構成する評価関数再構成手段を備えることを特徴とする。
第20の発明は、コンテンツを獲得するコンテンツ獲得手段と、前記コンテンツから所定の場面を検索するための検索条件を入力する検索条件入力手段と、前記検索条件に適合する内容を前記コンテンツ記憶手段に記憶されたコンテンツの中から特定する特定手段を備えた情報処理装置において、前記コンテンツから抽出される音素認識に用いるための音素特徴量及び/又は音素認識により得られた音素識別子と、前記コンテンツから抽出される感情認識に用いるための感情特徴量及び/又は感情認識により得られた感情識別子と、を関連付けて索引として記録する索引記録手段を備え、前記特定手段は、前記索引記録手段により記録された索引情報に基づいて前記検索条件に適合する内容を前記コンテンツから特定する索引特定手段を有することを特徴とする。
第21の発明は、コンテンツを獲得するコンテンツ獲得手段と、前記コンテンツから所定の場面を検索するための検索条件を入力する検索条件入力手段と、前記検索条件に適合する内容を前記コンテンツ記憶手段に記憶されたコンテンツの中から特定する特定手段を備えた情報処理装置において、前記コンテンツから抽出される音素片認識に用いるための音素片特徴量及び/又は音素片認識により得られた音素片識別子と、前記コンテンツから抽出される感情認識に用いるための感情特徴量及び/又は感情認識により得られた感情識別子と、を関連付けて索引として記録する索引記録手段を備え、前記特定手段は、前記索引記録手段により記録された索引情報に基づいて前記検索条件に適合する内容を前記コンテンツから特定する索引特定手段を有することを特徴とする。
第22の発明は、コンテンツを獲得するコンテンツ獲得手段と、前記コンテンツから所定の場面を検索するための検索条件を入力する検索条件入力手段と、前記検索条件に適合する内容を前記コンテンツ記憶手段に記憶されたコンテンツの中から特定する特定手段を備えた情報処理装置において、前記コンテンツから抽出される音素認識に用いるための音素特徴量及び/又は音素認識により得られた音素識別子と、前記コンテンツから抽出される感情認識に用いるための感情特徴量及び/又は感情認識により得られた感情識別子と、前記コンテンツから抽出される第1の認識に用いるための第1の特徴量及び/又は第1の認識により得られた第1の識別子と、を関連付けて索引として記録する索引記録手段を備え、前記特定手段は、前記索引記録手段により記録された索引情報に基づいて前記検索条件に適合する内容を前記コンテンツから特定する索引特定手段を有することを特徴とする。
第23の発明は、コンテンツを獲得するコンテンツ獲得手段と、前記コンテンツから所定の場面を検索するための検索条件を入力する検索条件入力手段と、前記検索条件に適合する内容を前記コンテンツ記憶手段に記憶されたコンテンツの中から特定する特定手段を備えた情報処理装置において、前記コンテンツから抽出される音素片認識に用いるための音素片特徴量及び/又は音素片認識により得られた音素片識別子と、前記コンテンツから抽出される感情認識に用いるための感情特徴量及び/又は感情認識により得られた感情識別子と、前記コンテンツから抽出される第1の認識に用いるための第1の特徴量及び/又は第1の認識により得られた第1の識別子と、を関連付けて索引として記録する索引記録手段を備え、前記特定手段は、前記索引記録手段により記録された索引情報に基づいて前記検索条件に適合する内容を前記コンテンツから特定する索引特定手段を有することを特徴とする。
第24の発明は、コンテンツを獲得するコンテンツ獲得手段と、前記コンテンツから所定の場面を検索するための検索条件を入力する検索条件入力手段と、前記検索条件に適合する内容を前記コンテンツ記憶手段に記憶されたコンテンツの中から特定する特定手段を備えた情報処理装置において、前記コンテンツから抽出される音素認識に用いるための音素特徴量及び/又は音素認識により得られた音素識別子と、前記コンテンツから抽出される第1の認識に用いるための第1の特徴量及び/又は第1の認識により得られた第1の識別子と、を関連付けて索引として記録する索引記録手段を備え、前記特定手段は、前記索引記録手段により記録された索引情報に基づいて前記検索条件に適合する内容を前記コンテンツから特定する索引特定手段を有することを特徴とする。
第25の発明は、コンテンツを獲得するコンテンツ獲得手段と、前記コンテンツから所定の場面を検索するための検索条件を入力する検索条件入力手段と、前記検索条件に適合する内容を前記コンテンツ記憶手段に記憶されたコンテンツの中から特定する特定手段を備えた情報処理装置において、前記コンテンツから抽出される音素片認識に用いるための音素片特徴量及び/又は音素片認識により得られた音素片識別子と、前記コンテンツから抽出される第1の認識に用いるための第1の特徴量及び/又は第1の認識により得られた第1の識別子と、を関連付けて索引として記録する索引記録手段を備え、前記特定手段は、前記索引記録手段により記録された索引情報に基づいて前記検索条件に適合する内容を前記コンテンツから特定する索引特定手段を有することを特徴とする。
第26の発明は、コンテンツを獲得するコンテンツ獲得手段と、前記コンテンツから所定の場面を検索するための検索条件を入力する検索条件入力手段と、前記検索条件に適合する内容を前記コンテンツ記憶手段に記憶されたコンテンツの中から特定する特定手段を備えた情報処理装置において、前記コンテンツから抽出される感情認識に用いるための感情特徴量及び/又は感情認識により得られた感情識別子と、前記コンテンツから抽出される第1の認識に用いるための第1の特徴量及び/又は第1の認識により得られた第1の識別子と、を関連付けて索引として記録する索引記録手段を備え、前記特定手段は、前記索引記録手段により記録された索引情報に基づいて前記検索条件に適合する内容を前記コンテンツから特定する索引特定手段を有することを特徴とする。
第27の発明は、第22から第26のいずれか一つに記載の発明の情報処理装置において、前記第1の識別子及び/又は第1の特徴量が聴覚情報及び/又は視覚情報及び/又は文字情報及び/又はセンサ情報に基づく識別子及び/又は特徴量であることを特徴とする。
本発明によれば、発明者は共起情報を用いた評価は、ある情報の近傍に発生する情報を組合せて任意の情報が発生する条件の確率的な評価に用いることができることを利用してコンテンツ情報の意味推定を踏まえた検索などに利用するために、このような共起関係の情報を検索や学習に利用することができると考えた。
例えば、アクション映画における「悲鳴」と「爆発音」と「赤や黄色の画像情報における放射状の移動を伴う画面変化としての爆発映像」等は共起関係の特徴をもつ情報として評価・解釈することで検索・学習を実施し、課題の解決を図ろうとするものである。
より具体的には、従来技術にある多様な認識方法を組合せて動画像における音声ストリームと映像ストリームをフレームごとに音素・音素片と感情と画像特徴を認識し、それらの認識結果として得られた識別子を用いて動画像に対し索引付けを実行すると共に、識別子の共起確率をフレーム毎に構成し、共起行列に基づき共起確率の推移を複数フレームに渡り集計して、共分散行列を求め共分散行列の固有値と固有ベクトルから評価関数を構成する。
続けて、構成された評価関数を用いてコンテンツ情報に索引付を行うことで、コンテンツ情報内の多様な認識結果の共起情報によって索引付を行うことが出来る。この際、評価関数を多変量解析により再構成し評価関数の数を任意に増やしたり、増えた評価関数により検出された画像傾向や音声傾向から人手で評価関数名を定義したりすることで検索時の条件として選択できるようにしたりても良いし、検索結果に対する利用者の操作に基づいて評価関数を再構成しても良いし、固有値固有ベクトルばかりではなくHMMによる学習を実施しても良い。
このようにして構成された評価関数に基づく索引により、利用者は画像特徴や音響特徴や検出される感情の組合せに基づいた従来不可能な検索の結果を獲得することが可能となり、利用状況に合わせて評価関数が再構成される機能により、より自らの主観にあったコンテンツ情報の検索が可能となる。
そして、構成された評価関数に基づいてコンテンツを索引付したり、配信中のコンテンツから任意の傾向を検出したりすることで、従来の音素や音素片による索引検索では不可能であった検索を行うことで、人の趣味や嗜好に合わせた検索や情報の収録、収集、配信、再利用が可能となり、従来では不可能であった課題の克服できると考え、利用者の嗜好にあったコンテンツの検出やシーンの検索、商品の評判調査、運転者の感情への配慮、うめき声と感情の検出による医療利用を情報処理装置により実現するものである。
なお、従来の共起情報に基づく検索においては音声認識における単語探索や文書内単語列の共起情報を利用した検索に専ら用いられ、認識された文字列の共起確率や多様な文章のから文脈を解釈し文章を同定するために利用されることが一般的であった。
しかし、本発明ではこの共起情報の利用に着目することで従来の単語情報の組合せではなく、コンテンツ情報中の音声に含まれる音素列や音素片列と感情認識による感情識別子と画像特徴や画像関連識別子の共起状態を評価する評価関数を構成することにより、ある映像の一場面において特徴的に共起する画像特徴や音声特徴に基づいた検索や検出を行うことが発明の要点となっている。
このように、本発明は人間にとって無意識に共起される画像と音素と感情の共起状態を記録・分類・蓄積し、記録・分類・蓄積された情報に基づいて再度識別子を構成し検索・検出に利用できるようにすることで従来の単純な認識による検索では解決できなかった課題の解決を図ろうとするものであり、共起関係に基づく検索は聴覚情報や視覚情報や文字情報のそれぞれが単独であっても行えるため、電話対応における音声情報内に生じる発話認識と感情認識の共起関係を利用することで各種応用も可能であり、医療や顧客相談、営業、販売といった利用が可能であると判断できるとともに、ロボットや映像製作・編集のツールとしても利用可能である。
より具体的に説明すると、動画像コンテンツ情報の時系列変化に応じて音素30個(母音、子音、無音)、感情4個(喜、怒、哀、楽〔平常心〕)、色空間Web Color216色(Web Colorは、「WEB セーフカラー」「ブラウザ共通色」等とも呼ばれる)の合計250個の要素からなる共起行列をフレームごとに構成して共起確率を求め、これらを90フレーム(3秒)に渡り集計して共起確率の共分散行列を構成し、共分散行列の固有値固有ベクトルを求め評価関数を構成する。
このようにして構成された、評価関数を用いてコンテンツ情報をフレーム単位に再度索引付けを行うことにより、共起状態に基づく索引付けが可能となり、このように構成された評価関数を用いて多変量解析を行い、分類されたそれぞれの情報に人手により関数の名称や識別子を与えたり、多変量解析により得られた関数と共起する確率の高い文字列を関数の名称や識別子として与えたりし、利用者からの指示に応じて利用できるようになる。
そして、自然発話による音素列や音素片列、感情識別子に基づいて任意の単語文字列に変換したり、音素列や音素片列により音声を直接検索したり、登録されているキーワードを音素列や音素片列に変換したり、辞書にない音素列を辞書登録したり、画像特徴の認識結果として得られた識別子を音素列・音素片列に変換したりするとともにそれら音素列や音素片列に関連付けられた映像や感情関する識別子の共起情報に基づいて辞書を構成したりすることが出来る。
そして、複数の認識手段により獲得された識別子に基づく共起行列を用いて構成された評価関数によって索引付・検索・検出・学習を行うことにより、従来では不可能であった、感情を伴う不特定単語や画像特徴との共起関係に基づく検索が可能となり、コンテンツ中の悲鳴に伴う画像変化の激しいシーンや泣声に伴う暗闇のシーンといった従来の単純な単語や画像変化の検出といった方法では検索不可能であったコンテンツの盛り上がりに応じたシーン検索を可能とし、コンテンツやコンテンツ内の時間軸上の位置や表示画面上の位置や音読上の位置を検索により特定できる様になるとともに、共起情報による学習により索引付に用いられた情報から新しく識別用評価関数を構成することも出来る。
すなわち、本発明は従来技術にあるような音素と索引文字列を相互に変換し検索を行うのではなく、音素・音素片からなる識別子列と認識に用いる評価関数により獲得された識別子との相互変換を行うことで検索・検出を行ったり、音素・音素片からなる識別子や識別子列と感情や映像といった他の識別子や識別子列や特徴量との共起行列を用いて評価関数を構成し索引付け・検索・検出・学習を行ったり、これらの索引付・検索・検出・学習を自動的もしくは利用者指示に基づいて再帰的に行うことにより新規に評価関数を構成したり、既存の評価関数を更新したりすることで利用者の意図を反映した索引付け・検索・検出・学習を実現することにより課題の解決を図る。
なお、利用する識別子は前述の音素や色情報ばかりではなく「感情識別子」や「音階識別子」、「環境音識別子」、画像認識による文字、画像認識に伴う「人物識別子」、「物体識別子」といった識別子である各種識別子とは、音声や映像からそれぞれの目的に応じた特徴量を用いて、評価関数やHMMによる確率や尤度、距離により弁別された記号を指し、感情認識による「感情識別子」、環境音認識による「環境音識別子」、画像認識による「文字」、顔検出と画像認識による「人物識別子」や「表情識別子」や「物体識別子」、動画像の「動作識別子」などを指し、これらの認識に動画セグメンテーションや静止画像のセグメンテーションや音声セグメンテーションといった技術を用いても良いし、番組情報や文字情報やセンサ情報などを組合せても良い。
また、このような識別子や特徴量に基づいた共起確率の遷移確率や共分散行列の遷移確率や共起行列の遷移確率を用いて時系列的変化を考慮した評価関数を構成しても良く、複数フレームにわたる時系列変化を伴った特徴情報や識別子を一つの行列空間であらわし、その行列空間の固有値や固有ベクトルを求めることで遷移確率を考慮した評価関数を構成したり、同じ評価関数を時系列的に異なるフレームに基づいた共起情報に対し実施し、その評価結果を多変量解析して利用したり出来るため課題の解決をより効率的にすることも可能である。
以上の課題解決方法に従って、前述の関連する課題の解決法を必要な認識手段の組合せを変えて説明すると、テレビ番組における芸能人や商品名などの名称には特有の固有名詞が多く用いられており、声を入力しこれを単語に変換する際の変換効率・変換精度が良くないという状況と、携帯情報端末においてはキーによる文字入力が困難であるという状況に鑑み、誤認識の発生しやすい単語レベルの音声認識を行うのではなく、より音声波形に近い音声特徴や音素特徴などの記号列、つまり「音素列」や「音素片列」を音声情報として用いて特定の固有名詞の検出を行うことと、感情認識による「感情識別子」を利用してコンテンツ中の感情特徴を検出することを組合せると共に関連する映像や音響に基づいた識別子や特徴量の共起情報を利用することで、効率的な情報の検索を実現できる。
また、従来の音素や音素片による索引検索では映画であればシーンの盛り上がり、お笑いであれば視聴者の受け具合、消費者相談窓口であれば顧客の感情の起伏といった感情の変化や爆発音や風の音といった環境音、流れている音楽の韻律、同期して表示される画像の特徴や画像の変化特徴、画像の特徴に伴う認識結果としての文字列により獲得される識別子や特徴量に対して呼称を与え、その呼称を音素列や音素片列を用いて検索することで、人の趣味や嗜好に合わせた検索や情報の収録、収集、配信、再利用が可能となり、従来では不可能であった課題を克服できる。
また、本発明では音素や音素片と共に感情や画像などの識別子や特徴量に応じた索引付けをコンテンツ情報に自動的に行い、それらの識別子の組合せにより検索をすることで、お笑い番組のネタであれば周囲の特徴量に「笑い」と判別できる特徴量が出現し、且つ特定の台詞の音素や音素片列が出現する場所を検出できるようになるため、従来の映像検索システムでは実現できない検索装置の提供を実現したり、その特徴傾向をもつ番組を自動的に録画したり、検出に伴いメールを配信することが可能な情報処理装置を実現する。また、笑いの感情識別子と同時に顔検出と顔特徴量抽出を行うことで識別子や特徴量の共起情報を学習することにより「笑い状態」の識別子や識別関数を構成してもよい。
また、消費者相談窓口の消費者とオペレータの音声から常時特徴抽出を行い、音素認識を実施し認識された音素にあわせて商品を特定する手段と、検出された感情を特定された商品名と共に記録する手段とを有することで、特定の商品に関する利用者の感情的評価を収録し、製品品質の分析に用いたり、特定された商品名発話から、相談窓口のオペレータの端末画面に目的の製品のマニュアルを表示させたりして課題の解決を図る。
また、音階特徴と音素特徴と感情特徴を組合せることで、楽曲の歌声と利用者の歌声から認識された「サビ」の音階と歌詞の音素列と感情識別子を用いて楽曲の検索を実施したり、入力された文字列を音素記号列に展開したり、音階の遷移状態、感情特徴出現頻度を比較し類似性の高い楽曲を検索することで趣味に合った音楽の検索をしたりすることで従来に無い音楽の検索を可能として課題の解決を図る。
また、利用者の発話を音素列に変換するとともにEPGやBML、RSS、文字放送における役者名を音素列に変換し、利用者の発話音素列と一致する役者名音素列を探し、一致した音素列の役者名に関連付けられた配役名を検出する。この際、音素列は文字入力された単語やキーワードを音素列に展開しても良い。
そして、配信される動画像に同期した音声に対する音素認識を実施しながら音素列索引を構成するとともに、EPGやBML、RSS、文字放送から検出された役者名に基づく配役名の音素列と一致する個所を検索する。この際、配役名に伴う音声信号に含まれる感情特徴や番組ジャンルを評価してもよい。
この処理の後、配役名に基づく音素列と利用者指定の感情特徴が一致したことを検出することで録画を開始したり、対象範囲のみをスキップしながら再生したり、一致度合に基づくランキングを実施して一覧をつくり利用者の操作を促すための検索結果として出力し利便性の高い検索を実現して課題の解決を図る。
また、音声から得た特徴量に基づき認識された音素や音素片による記号列や感情や音階、楽器音、環境音などの識別子及び/又は映像から得た特徴量に基づき認識された形状や色、文字、動作などの識別子を多変量解析手法により分類し本発明にもちいる新しい識別子として利用することで課題の解決を図ってもよい。
また、利用者が頻繁に録画したりスキップ再生したりする情報の特徴量を学習し、学習した特徴量の検出に伴い自動的に録画を開始したり、スキップ再生を開始したり、検出にともないメールやRSSを配信したりするといった任意の処理を実施して課題の解決を図ってもよい。
これらを踏まえて、本発明は従来の音声に伴う識別子ばかりではなく、映像や音声から抽出される識別子や特徴量として音声から認識される感情識別子、環境音識別子、楽器識別子及び映像識別子、動作識別子、形状識別子を組合せて索引付けや検索を実施して検索結果を得ると共に、それら処理における識別子や特徴量の共起状態を学習したり、音素や音素片、感情識別子、及び本実施例に記載されている他の識別子の情報を配信したり、配信された情報に基づいて検索や検出を実施したりすることを特徴としている。
また、前記非特許文献12や非特許文献13のようなシステムと異なり、文字情報の構文解析は行わず、単純な単語出現頻度を用いた共起状態のみを評価するため品詞の弁別は行わないといった特徴があり、単語間の共起情報を利用する場合であっても漢字といった意味の次元ではなく、音素や音素片に展開された発音記号レベルでの共起状態を用いて検索を行うシステムであり、得られた検索結果に対し構文解析を行ってもよい。
このように、従来では相互に変換しながらコンテンツ情報内で表現される音声や画像に関連付けられた文字列を検索するにとどまっていた検索技術とは異なり、本発明では従来技術に記載された各種特徴抽出技術や各種認識技術を組合せることで複数の音声特徴量や映像特徴量や画像特徴量や文章特徴量の認識に基づく記号や識別子、文字などを組合せて索引付けを行いそれらの共起情報に基づいた検索や検出や検出に伴う任意の処理や利用者の選択結果や再利用状況に基づいた各種識別子の共起状態を用いる識別子の学習や特徴量の再構成を行うことで、従来不可能であった人の主観や感情を考慮した複雑で個人差の大きなコンテンツ情報表現に対する検索処理が可能となり、発話や文字列に含まれる形容詞や副詞を含む単語に関連した抽象的な検索を可能とし、デジタルデバイドの元となる情報処理装置の利用における煩雑さを低減することで課題の解決を図ることができる。
このように、従来技術では困難であった、固有名詞を含めた感情や環境音、画像特徴、運動特徴と言った任意の識別子や特徴量を共起状態に基づいた関連付けにより記録・学習し弁別するとともに、それらの識別子に音素列や音素片列、感情識別子を関連付けて共起状態を学習したり、それぞれの識別子や特徴量を音素や音素片や文字列で検索条件に指定したり、索引付けをコンテンツ情報に実施したりすることで、複雑な主観的条件に基づく情報の検索や記録、配信、受信を実現するばかりでなく、国際的な発音の違いに対応したり、HDDレコーダやパソコン、携帯端末やカーナビ、ロボットなどを用いて利用者に対して簡易な情報の検索提供手段を実現したりできるため、生活における情報調達の利便性を改善できる情報配信装置や情報端末、情報処理装置を実現し、デジタルデバイドに関わる課題の低減を図る。
また、言語化しづらい形容詞や副詞を表現するコンテンツ情報に対して多様な認識に伴う特徴量及び/又は識別子の共起情報に基づいた索引付を行うことでメタ共起検索(Meta-occur Retrieval)若しくは抽象共起検索(Abstracts Co-occur Retrieval)を実現し、コンテンツ情報の画像・映像と音声・音響と音素列・音素片列や感情を含めた各種認識による識別子の共起情報に基づいたオントロジーやセマンティックスの抽出によるアノテーション情報を構成することでコンテンツ情報に対する音素列・音素片列と感情を中心とした多次元識別子に基づくグラウンディングの実現を図り、それらを再利用することにより情報検索方法に関する知識共有を実現できる。
本実施形態における装置の基本構成例を示す図。 基本的な索引付けの手順を示す図。 特徴量識別子変換による識別子生成の動作を示す図。 映像索引データの構成例を示す図。 単位時間指定方式における映像索引データの構成例を示す図。 索引共起状態学習の動作を示す図。 索引からの学習例の手順を示す図。 感情と音素と映像の共起行列の一例を示す図。 感情と音素と映像の共分散行列の一例を示す図。 基本的な検索手順を示す図。 識別子特徴量変換部の動作を示す図。 基本的な検索条件からの学習例を示す図。 基本的な検出手順の動作を示す図。 索引情報生成装置の構成例を示す図。 検索装置の構成例を示す図。 索引付け方法の動作を示す図。 検索方法の動作を示す図。 基本的な文字列による検索依頼及び実施方法の動作手順について示す図。 検索処理の一例を示す図。 本実施形態における利用環境の一例を示す図。 送信側の処理手順の一例を示す図。 受信側の処理手順の一例を示す図。 検索処理の状態遷移を示す図。 制御辞書の構成の一例を示す図。 基本的な外部情報の獲得手順の一例を示す図。 EPG情報を利用した検索及び任意処理方法の一例を示す図。 消費者感情による商品信頼性調査応用における状態遷移を示す図。 言語音素記号の検索手順の一例を示す図。 言語別文字列の音素記号検索手順の一例を示す図。 記号変換関数の構成例を示す図。 国際音素記号の変換手順の一例を示す図。 日本語音素国際音素記号の変換辞書の一例を示す図。 国際音素から日本語音素への変換例の一例を示す図。 音素から温度編への変換例を示す図。 音素片から音素への変換例を示す図。 国際音素記号の検索手順の一例を示す図。 国際音素記号の検索手順の一例を示す図。 国際音素記号の検索手順の一例を示す図。
符号の説明
10 情報処理部
102 索引検索評価部
104 共起情報学習部
106 辞書抽出部
108 索引情報生成部
110 索引記号列合成部
112 制御部
114 メタ記号抽出部
116 特徴量抽出部
118 識別子特徴量変換部
120 特徴量識別子変換部
122 評価一覧出力部
20 記録部
22 情報記録蓄積部
202 コンテンツ保存部
204 評価関数保存部
206 索引情報保存部
208 特徴量保存部
210 プログラム保存部
212 共起学習保存部
214 辞書情報保存部
216 広告情報保存部
30 情報入力部
40 情報出力部
50 通信回線部
続いて、本発明を適用した場合の情報検索装置の一例について説明する。
[構成]
まず、本発明による装置の具体構成例を説明する。本発明による装置は図1の装置基本構成例のように、情報処理部10、記憶部20、情報入力部30、情報出力部40、通信回線部50を備えて構成されている。この装置はテレビやディスプレイなどの表示装置を内蔵していても外付けで持っていても良い。
通信回線部50は他の情報処理装置との有線無線を問わない通信を行い、他の情報処理装置と相互の通信や制御を出来るように構成されている。例えば、本発明を用いた装置同士や通信回線を経由して相互に情報の検索閲覧、提供を実施してもよい。
なお、この通信回線部50は任意情報の取得や配信を実行する機能を持ち、より具体的にはイーサネット(登録商標)やATM(Asynchronous Transfer Mode)、ファイバーチャネル、無線LAN、赤外線通信などの装置類を必要に応じ組合せて構成されており、IPやTCP、UDP、IEEE802系のような任意の通信プロトコルを用いることができる。
情報入力部30はキーボードやポインティングデバイス、動画像キャプチャ装置、テレビ放送関連情報受信回路、マイク入力といった情報の入力を可能とする装置により構成され、量子化された情報を情報処理部の指示により記憶部に保存したり、情報処理部の加工や指示に基づいて情報出力部に情報を出力したりする機能を持ってもよい。
なお、この情報入力部30はモーションキャプチャ装置、カメラ、RFIDリーダ、バーコードリーダ、画像スキャナ、スイッチパネル、OCR、カードリーダ、後述されるセンサ類といった他の入力装置や入力装置に接続する端子類を必要に応じ組合せて具備していても良い。
情報出力部40は画像表示装置、スピーカ出力といった情報の出力を可能とする装置により構成され、量子化された情報を情報処理部の指示により記憶部への情報保存や再生をしたり、情報処理部の加工や指示により情報を出力したりする機能を持っていてもよい。
なお、この情報出力部40はプリンタや任意の駆動機械や造形装置、ミーリングマシン、といった他の出力装置や出力装置に接続する端子類を必要に応じ組合せて具備していても良く、検索結果に基づいた情報を出力することでポスターを印刷したり、樹脂製品の造形出力を行ったりしても良い。
情報処理部10はCPUといった電子回路に基づいた演算回路により構成されており、情報入力部30や記憶部20から取得した情報を処理する。そして、当該処理した結果を記憶部20に保存したり、再生したり、加工したりして情報出力部40や記憶部20に出力したり、通信回線部50経由で他の情報処理装置と情報の交換のための送受信を行ったり、情報の受配信を行ったりする。また、情報処理部10は図1にあるように、プログラムにより検索に必要な各種処理を実現するためのプログラムモジュールコードや、それらを実行するための専用電子回路により構成されてもよい。
なお、情報処理部10は一般的にDSP、リコンフィギュアラブルプロセッサ、FPGA、ASIC等の組合せにより構成されていることが考えら記憶部20は、RAM、ROM、フラッシュメモリ、ハードディスク、光ディスク、リムーバブルディス等により構成されることが知られている。
そして、情報処理部10は、特徴量や索引の識別子からなる検索条件と索引情報の一致度を評価して検索をする索引検索評価部102と、特徴量や検索条件、検索結果により得られた共起情報を学習する共起情報学習部104と、辞書情報保存部から目的の変換のための情報を抽出する辞書抽出部106と、抽出された特徴量から認識処理により識別子を決定し索引付けを行う索引情報生成部108と、コンテンツ情報に対して索引情報の合成を行う索引記号列合成部110と、各機能部の制御を行う制御部112と、コンテンツ情報からMPEG7のような索引情報を取得したり通信回線部からRSS情報やXMLなどのマークアップ言語による情報を取得したり、情報入力部から受信した放送波に基づきEPG情報を取得したのちに任意の記号情報における命令や変数、属性を抽出するメタ記号抽出部114と、情報入力部経由で外部から得られる自然情報及び通信回線部や記憶部から取得した映像や画像、音声といった情報処理装置で処理可能なコンテンツ情報から特徴量を抽出する特徴量抽出部116と、利用者の認識による識別子や記憶媒体や通信により外部から取得した識別子、内部でコンテンツなどから抽出された識別子などに対して、その識別子の標準的な特徴量に変換する識別子特徴量変換部118と、コンテンツ情報や利用者の入力から取得した特徴量を識別子に変換する特徴量識別子変換部120と、検索結果として評価一覧として出力する評価一覧出力部122と、を備えて構成されており、これらの必要に応じた組合せにより検索、検出、索引付けが行われる。
なお、コンテンツ情報に関しては音声情報による音楽、コンテンツに付属するメタ情報、文字情報による文書や番組情報としてのEPGやBML、譜面情報としての音階、一般的な静止画や動画像、3次元情報としてのポリゴンデータやベクトルデータやテクスチャデータやモーションデータ(動作データ)、可視化数値データによる静止画像や動画像、宣伝や広告を目的としたコンテンツ情報等を含んでいても良く、視覚情報や聴覚情報や文字情報やセンサ情報により構成されていおり、その位置は時系列的であったり、表示における座標情報であったり、文章の音読位置であったり、図表の記録順序や識別番号順序であったり、視覚情報や聴覚情報から算出される位置や座標に基づく時空間座標であったりしても良く、その近傍から共起情報を構成しても良い。
記憶部20は情報処理部10の制御に伴って、各情報を蓄積・記録するための情報記録蓄積部22を備えている。ここで、情報記録蓄積部22は、例えばRAMやフラッシュメモリなどの半導体記憶装置を用いて構成されてもよいし、任意のインターフェースを用いて外部のハードディスクや光ディスク、磁気ディスクを用いて構成されても良いし、それら記憶部が交換可能な記憶媒体で構成されても良い。
そして、図1に示すように記憶部20は、検索対象となる動画像や静止画像、音声、文書を保存するコンテンツ情報保存部202と、識別子に関連する評価関数としてのHMMやベイズ識別関数や任意の距離関数の認識テンプレートを保存する評価関数保存部204と、コンテンツ情報を検索するための索引となる識別子や任意の記号列を保存する索引情報保存部206と、コンテンツ情報から抽出された特徴量情報を保存する特徴量保存部208と、プログラムによる検索に必要な各種処理を実現するためのプログラムモジュールのコードやパラメータを保存するプログラム保存部210と、共起情報学習部で学習した識別子の認識テンプレートや本発明を用いて再学習した識別子の認識テンプレートといったHMMや評価関数を保存する共起学習保存部212と、任意の識別子もしくは特徴量と他の任意の識別子もしくは特徴量とを相互に変換する変換テーブル情報からなる辞書情報を保存する辞書情報保存部214と、コンテンツ情報検索中などに情報処理部からの指示により宣伝を行うための広告情報を保存する広告情報保存部216と、の領域を確保して構成されている。
また、対象となるコンテンツ情報については『コンテンツ情報の例』、利用する特徴量や識別子については『特徴量や識別子の例』、識別子や特徴量の相互変換に用いる辞書に関しては『辞書構成の例』により詳しく記述し、情報処理装置1を検索装置として用いるにはコンテンツ情報を装置に入力して索引付けを実行するステップや利用者の入力に基づいて検索に用いる問合せ識別子列(クエリ)を構成するステップと検索を問合せ識別子列(クエリ)に基づいて索引を参照し検索結果の絞込みを実行するステップと検索結果に基づいて検索結果の一覧を出力するステップとが一般的に必要でありそれらに必要な機能は『基本的な索引処理例』や『基本的な検索処理例』に詳述し、これらの検索のための索引情報から索引情報の共起状態を学習する手順に関し『共起状態の学習処理手順例』に詳述する。
また、サーバクライアントモデルを導入し、任意の処理部や記憶部をサーバとクライアントに分割して通信で結びサーバ・クライアント間で情報を交換することにより同等のサービスやインフラ、検索、索引付け、検出と検出に伴う任意処理を実施しても良く『端末及び基地局に用いる情報処理装置の手順例』に詳しく述べる。
なお、本実施例においては一部ハードウェアを用いて実施されているが、これらのハードウェアはソフトウェアを用いて同様の効果を得ることが良く知られており、各処理部と同様の処理を行うプログラムを情報処理部に用いられるCPUやDSPなどにより実施しても良いし、任意の部分ごとに機能や装置を分離して複数の情報処理装置を通信により連携させて実施してもよい。
[動作例]
≪基本的な索引処理例≫
まず、索引付手段の基本的な動作(処理手順)について図2の動作フローに従って概略を説明する。まず、コンテンツ情報に基づく映像又は音声等の自然情報や利用者の入力による文字情報やコンテンツ情報に関連した索引情報やメタ情報から抽出された文字情報や外部から受信した番組情報やセンサ情報等の各種情報が情報入力部30から入力されたり、通信回線部50やコンテンツ保存部202から獲得されると(ステップS0201)、入力された視覚情報や聴覚情報やセンサ情報に基づく自然情報や文字情報の特徴量を抽出するために、特徴量抽出処理(S0202)が特徴量抽出部116により実行される。
ここで、自然情報とは聴覚情報や視覚情報やセンサ情報であり、コンテンツ情報や広告情報として情報入力部30に接続された外部機器や通信回線部50を経由した外部の情報配信装置や交換可能な外部記憶媒体により獲得され、コンテンツ情報保存部202に保存されたコンテンツ情報や広告情報保存部216に保存された広告情報としても提供される。
特徴量抽出処理(ステップS0202)は入力された自然情報から特徴量を抽出する処理であり、例えば、音声が入力された場合はFFT等の処理が施され、画像であれば1画像中の色空間を量子化することにより特徴量が抽出される。なお、特徴抽出方法は別記するように多様な形態が考えられるため、後述するように実装に依存しても良い。
続いて、特徴量識別子変換部120により、同一分野の識別子の中から特定の識別子を評価するために複数の評価関数へ抽出された特徴量を与え、同一分野の中で一番類似性の高い識別子を選択するための特徴量識別子変換処理による識別子生成処理が実行される(ステップS0203)。なお、識別子生成処理に用いる特徴量識別子変換処理については図3を用いて後述する。
また、評価関数を用いずにコンテンツに付随したメタ情報の文字列やBMLやEPGなどの番組情報である文字情報を識別子に直接用いる識別子生成処理(ステップS0203)や辞書情報保存部216と辞書抽出部106からなる辞書機能を用いて文字列をIDに変換し識別子とする識別子生成処理(ステップS0203)を実行しても良い。
なお、同一分野の識別子とは、例えば音素認識を例に取ると音素識別子における同一分野としては母音や子音や無音があり、より詳しく記載すると母音であれば「a/i/u/e/o」といった識別子に分類でき、音素識別子としては日本語で約30種類程度のものが一般的に知られている。
そして、同一分野の識別子は音素片であれば数千種類のものが識別子として存在し、文字認識であれば文字ごとの識別子や文字の部品ごとの識別子が存在し、顔認識であれば登録されている人物の数だけの識別子が存在し、楽器や環境音や図形や動作であれば辞書情報に登録されているだけの数の識別子が存在する。
そして、これらの識別子には前述のように音素や音素片文字や画像や顔や楽器や環境音や図形や動作といった複数の異なる情報を認識するために目的に応じて複数の異なる特徴量の抽出を行い認識する分野に応じた分類がなされている。
このようにして、特徴量識別子変換部120により変換された識別子に基づいて、索引情報生成部108により、コンテンツ情報に対し時系列的に索引付を行って索引を生成する索引付処理が実行される(ステップS0204)。ここで、索引付処理は音声と映像から獲得できる識別子や特徴量のみならず、先述の利用者の入力による文字情報やコンテンツ情報に関連した索引情報やメタ情報から抽出された文字情報や外部から受信した番組情報やセンサ情報や他のコンテンツ情報や広告情報などを利用し関連付けて記録してもよい。
そして、生成された索引に基づいて、データベースに記録されたり(ステップS0205a)、MPEGファイルが変更されたり(ステップS0205b)、索引情報が記録されたり(ステップS0205c)する。
続いて、特徴量識別子変換部120が実行する特徴量識別子変換処理について、図3を用いて説明する。まず、抽出された特徴量が入力されると(ステップS0301)、評価関数処理が実行される(ステップS0302)。ここで、評価関数処理とは、入力された特徴量に対し、例えば距離関数などの評価関数により尤度を評価する処理である。そして、特徴量に対し、対象となる評価関数を全て評価を行ったか否かを判定する(ステップS0303)。ここで、評価する評価関数がまだある場合には、残っている評価関数に基づいて評価関数処理を実行する(ステップS0303;No→ステップS0302)。
対象となる評価関数を用いて総て評価が終わった場合(ステップS0303;Yes)、評価結果の中で一番尤度の高い識別子を選択する(ステップS0304)。そして、選択された識別子を出力する記号識別子出力ステップ(ステップS0305)が実行されることにより、複数の評価関数から最適な識別子を評価結果として獲得することが出来る。
このようにして音声や映像の識別子認識処理により関連付けられて記録された識別子情報に基づく索引は、例えば、適切な単位時間を設けて、その単位時間ごとに識別子を記録する方法や識別子をある程度まとめて、ある識別子の発生時刻と消失時刻を格納する方法により索引情報の記録が実行でき図4のようにコンテンツ情報の時間軸やシーン名称と関連付けて発話音素や画像の識別子や特徴量を記録したり、図5のように映像の変化に合わせてそのシーン内で生じている環境音認識による笛の音や爆発音や発話音素の索引付をしたり、特徴量の索引付をしたり、先述の利用者の入力による文字情報やコンテンツ情報に関連した索引情報やメタ情報から抽出された文字情報や外部から受信した番組情報やセンサ情報を利用することでコンテンツ情報内の位置を特定するための検索用索引が構成できる。
より具体的には、特徴量抽出処理(ステップS0202)で抽出された特徴量と識別子生成処理(ステップS0203)で特徴量から生成された識別子が映像、音声ともに獲得され、索引付処理(ステップS0204)の索引付けによって獲得された識別子を図4の例であれば識別種別項目が音素の行に音素記号と音素認識特徴量がコンテンツ情報の時間軸情報と関連付けられて記録ステップ(S0205a、S0205b、S0205c)で記録され、図5の例であれば音素記号に音素識別子が音声特徴量に音素認識用の特徴量がコンテンツ情報の時間軸情報と関連付けられて記録ステップ(S0205a、S0205b、S0205c)によりコンテンツに対する聴覚情報や視覚情報や感情情報の認識や特徴抽出に伴う複数の識別子や特徴量に基づいたコンテンツ情報内の位置的近傍の索引情報としての「索引共起情報」が記録される。
この際、映像や感情に関しても認識された識別子や認識に用いる特徴量や先述の利用者の入力による文字情報やコンテンツ情報に関連した索引情報やメタ情報から抽出された文字情報や外部から受信した番組情報やセンサ情報をコンテンツ情報の時間軸情報と関連付けて記録することで、検索のための索引情報として用いることができ、前述の音素と感情や視覚情報や聴覚情報とを組合せることで後述される学習に用いるための「索引共起情報」を生成し記録できる。
なお、これらの索引情報はテキスト文字列でファイルに記載することにより実現できるとともに、MPEG変更(ステップS0205b)においては索引記号合成部110によりMPEGファイルからメタ記号抽出部114により抽出したメタ情報記述エリアに対する索引情報の合成処理を行っても良い。なお、索引情報は文字列情報ばかりではなく、文字列から構成されるハッシュIDや文字列から変換されたASCIIコードのような一対一の関係にある数値IDなどであってもよい。
≪共起状態の学習処理手順例≫
続いて、共起状態を学習することにより、索引付を行う処理手順について、図6を用いて説明する。共起状態学習処理の手順では、関連付けられて記録された識別子の共起状態を図6に従って学習し、後述する図8や図9のように共起情報を構成することで、共起情報に基づいた評価関数を作りコンテンツ情報に対し索引付を行う処理を行う。なお、この共起行列を構成するために集計するフレームの数は本実施例においては限定されているが任意の値であってもよく、人間の認識に影響のあるとされる12Hz付近や24Hz付近や60Hz(16ms)付近や110Hz(9ms)付近やテレビ等の同期信号を基準にして、集計する単位時間を任意に決めても良い。
まず、図6は、索引共起状態学習処理の基本的な処理手順を示す図である。前述の索引付によりコンテンツ情報に対して施された複数の認識方法よる索引情報を位置的近傍に対して抽出をおこなうことでコンテンツに対する聴覚情報や視覚情報や感情情報の認識や特徴抽出に伴う複数の識別子や特徴量に基づいて構成された位置的近傍の索引情報としての「索引共起情報」を獲得できる。
より具体的には前記索引付手段によりフレーム毎に記録された音素に基づく音素記号からなる音素識別子による聴覚情報の索引を抽出する(ステップS0601)。次に、前述の検出された音素と同じフレームの画像データの特徴量から色識別子を抽出することにより視覚情報の索引を抽出する(ステップS0602)。さらに、同じフレームの感情認識に基づく感情識別子に基づいて感情情報の索引を抽出する(ステップS0603)。そして、抽出されたそれぞれの索引情報に基づいて共起情報を構成するフレームごとの共起行列(図8)を構成する(ステップS0604)。これにより、複数の識別子や特徴量により構成された位置的近傍の索引情報としての「索引共起情報」となる。なお、抽出するフレームの幅は任意に指定しても良く、人間にとって連続的に感じる境界値の14Hz、27Hz、55Hz、110Hz付近を対象として索引共起情報を構成してもよいし、一般的に用いられる文字による検索に用いられる文字情報を索引共起情報に含ませても良い。
そして、ステップS0604において索引情報により構成された共起行列に基づいて位置的近傍の識別子や特徴量による「索引共起情報」が構成され「索引共起情報」による学習処理(ステップS0605)が実行される。ここで、学習に用いる特徴量や識別子の集計処理(ステップS0605a、ステップS0605b)は、近傍の例として毎秒30フレームの動画像であれば90フレーム(3秒)毎といった所定間隔ごとに集計を実行しても良いし、統計的検定により過去の平均値から一定幅乖離したタイミングまで集計を実行しても良いし、公知の検出技術により検出された情報が一定である範囲や境界毎に対して集計を行っても良いし、指定された教師情報が同一の範囲に対して集計を行っても良い処理であり、集計範囲の終了に応じて評価関数を構成する(ステップS0605c、ステップS0605d)を実行する。そして、学習処理が実行されることにより、評価関数が生成・再構成され、生成・再構成された評価関数は学習情報として共起学習保存部212に保存される(ステップS0606)。
続いて、学習処理(ステップS0605)について詳しく説明する。まず、フレーム毎に識別子の共起情報を集計する(ステップS0605a)。共起情報を集計する時間幅としては、所定のフレーム数・時間毎に集計を行い、例えば、90フレーム(3秒間)毎に識別子の共起情報を集計しフレーム間共起情報を生成する(ステップS0605b)。続いて、生成したフレーム間共起情報から共分散行列を生成し、生成された共分散行列から共起行列の固有値・固有ベクトルを算出し学習情報を生成する(ステップS0605c)。そして、算出された固有値・固有ベクトルに基づいて評価関数の標準テンプレートを生成し学習結果を生成する(ステップS0605d)。これらの処理が実施されることにより評価関数が構成される。
なお、集計するフレームの幅や1フレームの時間長は装置構成により任意に指定しても良く、人間にとって連続的に感じる境界値の14Hz、27Hz、55Hz、110Hz付近を対象として共起情報を構成してもよいし、集計したフレーム間情報を「索引共起情報」としても利用しても良い。
そして、構成された評価関数の標準テンプレート(関数パラメータ)を再利用できるように記憶媒体に保存する(ステップS0606)。具体的には、ステップS0605dで生成された評価関数等を共起学習保存部212に保存する。このようにして構成された評価関数を用いて図2のステップS0203の特徴量識別子変換に用いることにより索引付手順を実施して再度索引付けを行うことにより、共起情報に基づいた評価関数を用いてコンテンツ情報に対する索引付けへの利用が可能となる。
この学習に用いる索引情報に基づいた共起情報について図8、図9を用いて具体的に説明する。識別子として音素30個(母音5個、子音24個、無音1個)、感情4個(喜、怒、哀、楽)の要素からなる識別子と、Web Color216色(Web Colorは、「WEB セーフカラー」「ブラウザ共通色」等とも呼ばれる)による各色の表示画素数を示す識別子を組合せて得られる250要素かける250要素の共起行列や共分散行列により構成する。
なお、この構成は必要に応じてコンテンツに対し時系列的に関連付けられたセンサ入力に基づくセンサ情報を用いるためにセンサ情報の種類に応じて共起行列に項目を追加したり、コンテンツに関連する索引情報やメタ情報における文字情報に応じて共起行列に項目を追加したり、共起情報から構成される評価関数の標準パターンを検索条件に設定する時の呼称に前記文字情報を用いたりしても良い。
そして、図8は共起情報の一例を示す図である。横軸と縦軸に同じ要素が入り縦軸と横軸の交点に動画像におけるフレーム中の画像と音声に関する出現回数が入る。出現回数とはある識別子がフレーム中に何回出現しているかを示す値であり1フレーム中の短い時間内に任意の音素や画素や感情識別子が幾つ発生するかにより評価される数である。
例えば、行列の中身は、感情「喜」、母音「A」の共起回数は「0」、感情「喜」と画像識別子として赤の出現回数は「6」となっている。なお、これらの情報はコンテンツ情報から抽出される値のため必ずしも一定ではなく、フレーム内で認識された識別子の出現回数を識別子の種類ごとに正規化して確率値としてもよいし、フレーム内の出現確率に基づいてフレーム間の確率遷移行列を構成してもよい。
また、図9は感情特徴と音素特徴との映像特徴の共分散行列の一例を示す図である。ここで、本図は横軸と縦軸はそれぞれの特徴量の呼称となっており動画像における数秒間の複数フレームから獲得された特徴量がそのフレーム全体における平均から見てどの程度散らばりがあるかを示している。例えば、感情特徴は喜怒哀楽の4つがどの程度の分散を持っているかを示し、音素や画像に関しても、それぞれの距離評価結果がどの程度平均から乖離しているかを示している。
この例の場合、例えば感情のパラメータの4番目と感情パラメータ1番目の共分散は「0.42」となっており、映像のパラメータの1番目と感情パラメータ1番目の変化の相関性は「0.32」となっているが、これらの情報はコンテンツ情報から抽出される値のため必ずしも一定ではない。
このように、本発明の特徴は人が検索のために指定した共起条件や索引付けのときに検出された共起情報や検索結果として利用者が頻繁に利用した情報における共起情報を用いて、複数の異なる性質の識別子による共起行列や共起行列に基づく共起確率と複数の異なる性質の特徴量に基づく共分散行列を構成し検索のための評価関数をつくり、検索や検出に利用する所にある。なお、図中にある例としての行列は正方対角行列を想定しているため、図中の下三角行列部分は省略してある。
この際、評価関数を構成するために前もって識別子が特定された自然情報の入力に基づいて特徴量を学習させて標準パターンを抽出し、抽出された標準パターンにより評価関数を構成してもよいし、多変量解析により自己組織化させ構成された識別子を用いて標準パターンを抽出してもよい。そして、得られた標準パターンは必要に応じて評価関数保存部204に保存され、識別子と標準パターンを相互に変換するための関連付け情報として標準パターン辞書情報が辞書情報保存部214に保存される。
なお、標準パターンは評価関数と組合せて識別子を特定するために用いられ、入力される識別子が特定されていない標本特徴量と特定識別子に帰属する特徴量によって構成された母集団の平均や分散によって構成され、評価関数をユークリッド距離やマハラノビス距離の評価に利用され、標準テンプレートや標準パラメータや評価関数パラメータと呼ばれる場合もある。
また、標準パターンは入力される特徴量と評価関数を用いた多変量解析などによる方法で特徴量から評価関数に用いるためのパラメータを生成したりしてもよく、生成されたパラメータに基づいてHMM、ベイズ識別関数、マハラノビス距離、ユークリッド距離といった任意の識別子評価関数を利用しても良い。なお、それら評価関数を構成するパラメータは多変量解析などの数学的方法により構成される事が一般的に知られているため抽出方法や学習方法は実装に依存する。
この際、評価関数を用いて多変量解析を行い自己組織化させることで分類し評価関数を複数設けることで、分類されたそれぞれの評価関数に人手により名称や識別子を与えたり、多変量解析により得られた評価関数と共起する確率の高いコンテンツ情報に含まれる文字列を関数の名称や識別子として与えたりすることで利用者からの評価関数の名称指定により評価関数を検索や検出に利用できるようにしてもよい。
また、関連付けて記録される識別子情報は音素や音素片の記号であったり、識別子評価関数を構成するために用いられた母集団につけられた名称や呼称、識別子や識別子列であったり、代表する特徴量平均自体であったり、音素や音素片ばかりでなく別記される画像や音声や感情に関する識別子や特徴量やそれらの組合せであったり、利用者の入力による文字情報やコンテンツに関連した索引情報やメタ情報から抽出された文字情報や外部から受信した番組情報やセンサ情報を利用しても良い。
そして、同様の方法で索引付けされた広告情報と索引付けされたコンテンツ情報の任意個所においてコンテンツ情報の識別子や特徴量と広告情報の識別子や特徴量が前述の評価関数によって類似性があると評価された場合に広告を関連付けるステップを実行したり、索引付け中に宣伝をおこなったりしても良いし、コンテンツ情報の再生時に一時停止状態にしている間だけ任意の広告や評価関数により関連付けられた広告を再生したりしても良いし、これらの評価関数は後述する『識別子再構築の例』や『検索・検出・索引付けによる識別子学習』を用いて再構成しても良い。
また、索引に用いられる識別子の獲得により共起状態を評価する評価関数を構成し検索するためにコンテンツに記録されるメタ情報やEPG情報を識別子として用いても良く、図7のようにEPGやBMLなどの番組情報を取得する処理(ステップS0701)を追加して放送中に獲得されるEPGやBMLによる番組情報を利用し共起状態を構成して索引付を行ってもよい。
なお、図面が図6と比べ異なるので補足するが、ステップS0701において文字情報として獲得される番組情報としてのEPGはそのまま識別子として利用され、それ以外の識別子や特徴量はステップS0601からステップS0603と同等の処理が行われ、番組情報を識別子として同一の番組情報において共起関係にある他の識別子や特徴量を用いて図8や図9の共起行列が構成される。この際、評価関数の名称に文字情報や番組情報に基づく番組分野の名称文字列を用いることで文字情報や番組情報を関連付けた索引付を行っても良い。
この結果、獲得された共起情報に基づいてステップS0605に相当するステップS0703からステップS0705の学習処理が実施され、識別子を構成するための評価関数を構築することが出来るとともに、必要であれば獲得された関数を用いてコンテンツに再度索引付を行ってもよい。
≪基本的な検索処理例≫
次に、検索処理の手順を説明するために図10に基づいて説明する。まず、利用者から撮像や発話音声、文字列入力等の検索条件が入力されると(ステップS1001)、入力された検索条件に基づいてクエリ生成処理が実行され(ステップS1002)、クエリが生成される。例えば、音声であれば利用者の発話に対する音素認識や音素片認識に基づいた音素列、音素片列に基づいてクエリが生成され、文字列であればテキスト入力による文字列の音素列や音素片列への変換に基づいてクエリが生成され、撮像であれば画像認識によるクエリが生成されることによって、それぞれの認識手法により検索条件が生成される。
この際、入力文字列や視覚長方や聴覚情報に対する複数の認識方法により獲得された識別子を用いて検索条件が構成され、同時に指定された識別子や文字列の共起関係により検索条件から共起行列を構成することで「索引共起情報」と同様に「検索条件共起情報」を構成し、本発明の「索引共起情報」との類似評価に用いる「検索条件共起情報」としてクエリに利用することが可能になる。
また、入力された文字列やそれぞれの認識結果により獲得された識別子を辞書情報保存部と辞書抽出部に基づく辞書機能によって関連付けられた文字列や識別子に変換したり、関連付けられた標準パターンに変換したりすることで、利用者の入力した検索条件の共起関係ばかりではなく「検索条件から認識された情報に関連付けられた情報」と「検索条件として入力された情報」の共起関係や「検索条件から認識された情報」と「検索条件として入力された情報」の共起関係や「検索条件から認識された情報」と「検索条件として入力された情報に関連付けられた情報」の共起関係に基づいた「検索条件共起情報」が構成できクエリとして利用可能であり、本発明の学習に用いる「索引共起情報」としての利用も可能である。
なお、このクエリ入力の際、利用者の入力による文字情報やコンテンツに関連した索引情報やメタ情報から抽出された文字情報や外部から受信した番組情報やセンサ情報を利用してもよく、感情識別子や画像識別子などを示す文字列や音素列や音素片列といった記号列をテキスト入力やメニュー選択、音声人力により実施してもよく、これらの記号列を辞書情報に基づいて他の識別子や特徴量や識別子列に変換して検索を行いコンテンツ情報内の位置を特定しても良い。
そして、コンテンツ保存部202に保存されているコンテンツ情報のうち、検索対象のコンテンツ情報に対して繰返し検索を行い、全てのコンテンツ情報に対して索引とクエリの一致を評価する検索処理が実行される(ステップS1003)。ここで、検索処理が実行されることにより、検索対象のコンテンツ情報の識別子又は特徴量に基づく「索引共起情報」と「検索条件共起情報」が比較され検索結果が獲得される。
この比較は、「索引共起情報」と「検索条件共起情報」の一致をDPや距離関数により評価しても良いし、それぞれの共起情報を評価関数で評価し、獲得された識別子の一致や距離の遠近を評価することにより類似性や同一性や一致度の比較しても良いし、全ての識別子や特徴量を評価するのではなく一部の同種の識別子や特徴量を評価することで類似性や同一性や一致度の比較・評価を行っても良い。
そして、獲得された検索結果に基づいて検索評価結果の一致度を評価し、検索結果の順位付けを行う(ステップS1004)。さらに、順位付された検索評価結果に基づいて評価結果一覧を作成し表示する評価結果一覧表示処理(ステップS1005)が実行される。この際、記憶部にある広告情報を利用者に表示したり、通信回線経由で取得した広告を提示したり、先の索引付けで関連付けられた広告内容を記憶部や通信回線部から獲得して利用者に提示しても良い。
また、このときに実時間配信中の「索引共起情報」による索引付がなされていないコンテンツを利用するのであれば、図13のようにコンテンツを時分割で獲得するステップS1301とコンテンツの獲得終了を確認するステップS1302とコンテンツの獲得によって特徴量の抽出や識別子の生成を行いながら索引付を行うステップS1303を実行し、「検索条件共起情報」と「索引共起情報」の比較を行い一致する個所を検出するステップS1304を実行し、検出に応じて分岐するステップS1305、後述されるような録画の開始やチャネルの切換や通知やメール配信やロボットの動作変更といった後述されるような任意の処理(ステップS1306)を実行することも可能である。
この結果、従来の検索であれば索引付の項で述べた共起状態に基づいた索引付や共起状態に基づいて構成された評価関数による索引付がなされていないため、共起状態に基づいた検索は実施できなかったが、本発明においては、コンテンツに対し前述の方法で施された「索引共起情報」に対して、入力検索条件としての入力文字列に基づき辞書を参照して文字列に関連する特徴量や識別子に変換して検索に用いたり、入力音声から生成された音素列・音素片列をはじめとする特徴量や識別子を直接検索に用いたり、入力音声から生成された音素列・音素片列に基づき辞書を参照して関連する特徴量や識別子に変換して検索に用いたり、入力画像・映像・センサから抽出・生成された特徴量や識別子を直接検索に用いたり、入力画像・映像・センサから抽出・生成された特徴量や識別子に基づき辞書を参照して関連する特徴量や識別子に変換して検索に用いたり、することにより入力検索条件から変換された識別子や特徴量を用いた「検索条件共起情報」を構成することによって、コンテンツ情報に対する「索引共起情報」による索引と利用者の入力した「検索条件共起情報」による検索条件とを比較することで「検索条件共起情報」と「索引共起情報」の一致する対象を検索・検出をすることが可能となり、コンテンツやコンテンツ内の時間軸上の位置や表示画面上の位置や音読上の位置を特定することが可能となる。
なお、検索評価結果の一致度評価方法はHMMを用いたり、ベイズ識別関数といった確率や距離を用いる方法であったり、多変量解析によるクラスタリングされた母集団への帰属度合を評価したり、DPやCDPといった記号列のマッチング方法であることが良く知られているため、より詳しくは『特徴量同士や識別子列同士の一致を評価する方法の例』に述べる。
また、検索を特徴量で行う場合において、入力文字列や入力音声や入力画像にから生成されたクエリに用いられる識別子を特徴量へ変換するには、識別子特徴量変換部118が実行する識別子特徴量変換処理により変換される。この、識別子特徴量変換処理について、図11を用いて説明する。
まず、特徴量に変換するための識別子(識別子列)が入力されると(ステップS1101)、対象記号抽出処理を実行する(ステップS1102)。ここで、対象記号抽出処理とは入力された識別子(識別子列)に関して識別子から特徴量に変換するために辞書情報を用いて識別子に関連付けられた特徴量を選択抽出する処理である。
この際、必要に応じて音素を音素片に分割したりする様な識別子の細分化が必要かどうかを判定する(ステップS1103)。ここで、更に細分化する必要があると判定した場合には(ステップS1103;Yes)、記号細分化処理を実行し(ステップS1104)、更に細分化した後に再度対象記号抽出処理を実行する。例えば、識別子が音素である場合に、更に音素片に細分化してから対象記号抽出処理を実行することにより細分化された情報に適した特徴量を獲得することが出来る。
そして、細分化が必要ではないと判定した場合には(ステップS1103;No)、選択された特徴量に基づいて識別子に応じて特徴量同士の距離評価を行うために特徴量を出力する(ステップS1105)。このように、上述した識別子特徴量変換処理が実行されることにより、入力された識別子や識別子列が特徴量に変換され、特徴量による検索を実施できるようになる。
また、このような検索条件や検索結果を用いて図6の索引共起状態学習方法を実行することにより利用者の趣味や趣向の偏りを統計的に分析し抽出することができるため、図12のように、検索条件の共起状態を学習する処理(ステップS1202)や検索結果の共起状態を学習する処理(ステップS1206)や検索結果の中で利用者が選択した検索結果の共起状態を学習する処理(ステップS1209)を通常の検索手順に追加することによって、利用者の意志に基づく趣味に沿った検索に伴う共起情報を学習することが可能となり、利用者に合わせた索引付用の評価関数を構成することが出来る。
この図12の処理は、まず利用者らの音声入力や文字列入力や画像入力により検索条件が入力される(ステップS1201)。そして、検索条件情報としての入力文字列や発話から得られる音素列・音素片列や画像から得られる特徴量・識別子やそれらの検索条件情報に基づいて辞書情報保存部214から辞書情報抽出部106によって抽出された関連する特徴量や識別子の共起情報を獲得して学習する(ステップS1202)。この、学習された共起情報に基づいて評価関数が構成され、当該評価関数を保存する(ステップS1203)。
より具体的には、発話音素列により認識された発話が「検索、ボカーン、爆発」であった場合、キーワードの「検索」で命令辞書に基づいて検索処理を選択し、「ボカーン」で検索条件音素列に「b/ o/ k/ a/ a/ a/ a/ n/ n/ n/ n/ n」という擬音音素列を設定し、「爆発」で爆発音の特徴量を集めて構成された爆発音評価関数の識別子と「暖色系の面積が時系列的に増える画像」の画像特徴とを検索条件に設定することで複数識別子と特徴量の共起状態が構成できる。
なお、検索条件の構成において利用者の入力が前述のように「ボカーン」であった場合、同じような爆発音に関する擬音の「ドカーン」を「d/ o/ k/ a/ a/ a/ a/ n」とすることで関連性のある擬音ばかりではなく、関連性のある識別子や特徴量や識別子列による検索を実施できるように検索条件を構成しても良いし、辞書によって関連付けられた認識方法の異なる特徴量や識別子や識別子列に変換し検索条件として追加しても良い。
そして、音素列と爆発音評価関数の識別子と画像特徴とに基づいた「索引共起情報」と同様の「検索条件共起情報」を構成し前述の「共起状態の学習処理手順」に従って評価関数を構成することで検索条件の学習が可能となる。なお、「暖色系が広がる特徴量」は暖色系の赤や黄色の画面内占有面積が時系列的に増加することを評価することで計測可能である。
この際、ステップS1201において入力される文字列や音素列・音素片列が辞書情報保存部214に保存されている場合、辞書情報保存部214から辞書抽出部106により抽出された情報に基づいて他の識別子や特徴量に変換した後に学習のための共起情報に用いても良いし、識別子特徴量変換部118を用いて識別子を特徴量に変換して検索に利用しても良い。
続けて、前述の検索条件として指定された共起情報に基づいた検索としてステップS1204が実行され、検索条件に一致度の高い検索結果が獲得される。そして、取得された検索結果のうち例えば一致率が80%を超えた検索結果としてコンテンツ情報から得られる対象シーンに付けられた索引情報に用いられる特徴量や識別子による共起情報を学習するステップS1206が実行される。そして、学習結果としてステップS1207にて保存される。この際、学習の対象となる共起情報は上位10位以内であったり、一致率90%以上であったりといった条件を与えてもよい。
つづいて、利用者により検索結果が選択(以下、利用者により選択された検索結果を「選択検索結果」という。)されると(ステップS1208;Yes)、選択検索結果に基づいて共起情報が学習される(ステップS1209)。そして、ステップS1209において学習された共起情報に基づいて評価関数が再構成され、保存される(ステップS1210)。そして、利用者から再度検索結果の中から利用したい検索結果が選択されると(ステップS1211;Yes)、再度ステップS1209から処理が実行される。
このようにして検索されたコンテンツ情報は1つのコンテンツジャンルやカテゴリといった分類であったり、コンテンツとしての1枚の画像であったり、画像を集めた写真集であったり、1曲の音楽であったり、1曲の音楽におけるサビの演奏部分であったり、映画やビデオなどの作品であったり、作品中の1シーンであったり、特定分野の作品における共通した画像や音声の特徴をもつ範囲であったりしてもよく、コンテンツ情報における特定の識別子や特徴量の共起傾向に基づいた検索結果の獲得が可能となるため、利用者の指示によるコンテンツのシーン検索やタイトル検索が可能となる。
そして、利用者からの再度の検索の入力がなされるか否か、すなわち処理を終了するか否かが選択される。ここで、再度検索条件が入力される操作がなされると(ステップS1212;No)、ステップS1201に処理が遷移し実行される。また、検索条件が入力されない操作がなされると(ステップS121;Yes)、本処理を終了する。
この結果、構成された複数の特徴量や複数の識別子の共起情報に基づく評価関数によって決定した識別子や特徴量をコンテンツ情報に関連付けて記録・検索・検出することにより、従来よりも複雑な趣味や趣向、興味に合わせた検索を実現することが可能となり、音素や音素辺及び/又は感情及び/又はその他の識別子及び/又はそれらの特徴量の共起状態を用いた情報検索による利便性の向上を実現できる。
そして、このように獲得された検索結果や検索条件や索引に基づいた共起情報や共起情報から学習された評価関数を用いて広告や宣伝を関連付けたり、関連付ける条件や評価関数に従って課金条件を変更したり、広告情報保存部216に保存された広告情報の索引を評価して類似性の高い広告を提示したりしてもよく、キーワードやキーワード音素列に関連付けられた特徴量や識別子を広告条件に利用したり、利用頻度の高い検索条件に関する広告料の設定を高額にしたり、表示する2次元画像や3次元画像の形状データやテクスチャデータの変更や位置の変更をおこなったりしてもよい。
なお、検索結果や検索条件として獲得された音素記号列や音素片記号列、各種識別子列から前述の索引付のときと同様に共起情報が構成され、識別子列同士の一致評価を行い検索条件に従って類似性の高いコンテンツ情報の検索を実行してもよいし、利用者の発話音素及び利用者の発話音素に基づいた音声認識辞書登録済み感情単語音素列により選択された感情識別子及び利用者の発話音素に基づいた音声認識辞書登録済み色単語音素列により選択された色識別子の共起情報を用いて前述の索引付と同様に組合せられた索引情報を構成してもよい。
また、音声から得た特徴量に基づき認識された音素や音素片による記号列や感情や音階、楽器音、環境音などの識別子及び/又は映像から得た特徴量に基づき認識された形状や色、文字、動作などの識別子や前述、後述される識別子と関連付けられた特徴量を多変量解析手法を用いて分析や分類、学習を実施し識別子を構成しても良いし、それらの実施に伴い新しい識別子を構成し利用しても良いし、詳細は『識別子再構築の例』に述べる。
また、入力文字列や入力音素列を他の識別子や特徴量に変換するには『辞書構成の例』に詳述されるように相互の情報変換を実施しても良いし、識別子から特徴量への変換や特徴量から識別子への変換は後述されるそれぞれの項目にあるように任意に構成することが出来る。
また、このように構成された識別関数情報を『利用者同士の情報共有手順例』に基づき交換・配信・共有したりすることも可能であり、利用者同士で評価関数を再利用することにより利便性を改善してもよいし、『端末及び基地局に用いる情報処理装置の手順例』に詳述するが、サーバクライアントモデルにより処理をサーバとクライアントに分割して装置を通信で結びサーバ・クライアント間で情報を交換することにより同等のサービスやインフラ、検索、索引付け、検出と検出に伴う任意処理を実施しても良い。
また、センサ情報を用いる場合であれば、監視カメラなどに温度センサをつけ周囲の温度変化と画像特徴の変化を検出し、前述の共起情報において音素識別子として爆発の生じたときの音素列を認識し画面内における暖色系の画素数の増加を特徴量とし、温度の上昇を温度センサ情報として共起行列に追加し記録することにより爆発に伴う共起情報を学習したり、索引付たり、検索したりすることも出来る。
また、映像入力や音声入力やセンサ入力は複数のチャネルから入力されても良く、各チャネルからの入力のずれを利用して、ステレオ画像やステレオ音声による特徴量や識別子を構成し位置を推定したり、移動を推定したり、ある事象とある事象が時系列的に差を持っていても必ず関連して起こることを、異なるチャネルの識別子や特徴量に数秒から数分若しくはそれ以上の時系列幅を持たせて共起関係を評価することで検出しても良い。
このように、本発明の第一の特徴は後述されるコンテンツ情報に対する索引付けにおいて、音素情報や音素片情報及び/又は感情情報及び/又は聴覚情報や視覚情報や文字情報や番組情報やセンサ情報等との組合せにより、多様な索引付けを実行するとともに付けられた索引に基づいた共起情報の学習をすることと共起情報に基づいた検索を行うことにあり、第二の特徴は本発明の検索処理の例にあるように本発明に用いる識別子や特徴量に対して各々の呼称に基づいて音素列や音素片列を割当てる辞書を用いて音声入力や画像入力、文字列入力に対する検索を実行するところにある。
そして、本発明ではこの音素や音素片として音素や音素片の連続状態を示した情報として、どのようにこれらの要素が変化するかを示した情報である「連続音素」や「連続音素片」を考慮しても良く、「音素列」や「音素片列」とは、これら音素や音素片が記号や識別子として並んだ情報列を指し「音素識別子列」や「音素変識別子列」と表記しても良く、各種識別子は識別子列としての一致評価を考慮することも出来る。
このため、各々の識別子認識方法や特徴量抽出方法や識別子列一致度評価方法や情報分類方法や情報学習方法や通信伝達手順や記憶媒体の種類や通信媒体の種類や情報処理装置の構成や端末と配信基地局の構成や装置の形状や装置の大きさや装置の設置場所や装置に用いるセンサ類に関しては必要に応じて任意に組合せて装置を製作したり、プログラムを実施したりしても良く、従来の検索では独立に扱われていた音素や音素片と画像関連特徴量と感情識別子と音響情報とを組合せて共起状態を利用することで、それらの共起状態を学習し、索引付けし、検索結果を用いて再学習し、識別子共起辞書の構築や相互変換を行うことで生じる検索や検出における利便性の向上した検索が本発明に基づく情報処理装置の特徴となり、コンテンツ情報に対して時間軸や情報の閲覧順序に従い複数の認識方法や複数の特徴抽出方法による索引付けを行うとともに、発話から検出される感情と音素列・音素片列及びそれら識別子や特徴量の共起状態を利用して検索や検出や多変量解析を利用した共起状態の学習と学習結果を用いた検索や検出への利用を行うことができる。
また、本発明に基づいて実施される広告・宣伝は従来の発明と任意に組み合わされても良く、広告へのアクセス頻度やコンテンツの利用頻度や広告の質や大きさや時間に応じて料金を変更したり、クイズやアンケートにより景品を提供したりしてもよく、本発明を用いて検出された対象に関する広告結果を統計的に処理し、インタラクティブな広告を実行することが出来る。
また、検索条件に従ったコンテンツを検索し特定する検索特定機能を用いて実時間で配信されるコンテンツから条件に合致する情報を検出することで、メールを配信したり、条件に合致したチャンネルに変更したり、録画や再生を開始したり、ロボットやエージェントが発話を開始したり、録画した別チャネルのコンテンツを検出時間まで遡って再生したり、装置の設定を変更したり、検出結果へのリンクを含むショートカットを構成したり、検出した情報を用いてコンテンツを集約することで利用者へ提示したり、することが可能である。
また、本発明は後述されるその他の特徴量や識別子を用いて索引付けを実行することと、その索引の共起状態により新規識別子の学習や識別子の再構築を実行することと、共起状態を利用した検索条件の設定を実行することと、利用者の指定した検索条件に基づいて新規識別子の学習や既存識別子の再構築を実行することと、検索条件に従って獲得した検索結果における共起状態に基づいて新規識別子の学習や既存識別子の再構築を実行することと、新規識別子や再構築された既存識別子を組合せた共起情報に基づく検索や検出そして共起情報の多変量解析や学習により構成された識別子や特徴量に基づく検索や検出の実施にある。
また、本発明の検索処理の例にあるように本発明に用いる識別子や特徴量に対して各々の呼称に基づいた音素列や音素片列や感情識別子もしくはそれらの記号列を用いたハッシュ値を用いることにより、検索条件や検出条件としての入力文字列や入力音声や入力画像の認識に伴う識別子や特徴量に関連付けられた内部IDや呼称文字列と認識に用いられる音素列や音素片列による記号列との変換辞書及び/又は共起辞書を構成し、検索条件や検出条件として与えられた入力音声や入力文字列、入力画像に基づいて識別子や特徴量を抽出したのちに識別子の変換辞書や共起辞書、特徴量の共分散行列に基づく評価関数などを利用して必要な対象を選別し、前述の検索や検出に用いる検索条件や検出条件としての入力文字列や入力音声や入力画像の認識に伴う識別子や特徴量を利用して文字列以外の識別子や特徴量を組合せた共起情報による条件生成処理の実施や音素認識や音素片認識にともなう発話音素列及び/又は発話音素片列に関連付けられた画像識別子や画像特徴量、環境音識別子や環境音特徴量、感情識別子や感情特徴量、配信される番組情報に基づく番組識別子や画像識別子や音響識別子の共起状態に基づく番組識別子や画像特徴量や音響特徴量の共起特徴量に基づく番組特徴量を用いた検索、検出、索引付け、共起情報の学習、識別子の再構築にある。
また、コンテンツに関連付けて識別子や特徴量を保存・記録する方法は、専用のデータベースに時間情報と共に記録や、映像や音声の情報と同時に使用する別ファイルとしての索引ファイルへの保存やMPEGファイルなどの映像ストリームに挿入してMPEGファイルの空きエリアやコメントエリア、メタ情報記載エリアの更新やEPGやBMLによるマークアップ言語等を利用した番組情報や文字放送等を用いて配信して利用者側が受け取って前述のような方法で記憶媒体に保存することで本発明による索引情報を利用しても良い。
<本発明の適用例について>
本発明を各種適用できる範囲や技術について説明する。対象となるコンテンツ情報としての「コンテンツ情報の例」、共起情報に利用可能な特徴量や識別子としての「特徴量や識別子の例」、識別子や特徴量を音素や音素片記号列に変換したり識別子同士を変換したりするための「辞書構成の例」、辞書を構成したりコンテンツ情報を識別子に変換するための「自然情報から特徴量に変換する方法の例」と「特徴量から識別子列に変換する方法の例」、各種認識を用いて索引付を行う「情報索引付け方法の例」、識別子に基づいて特徴量検索を行うための「識別子列から特徴量に変換する方法の例」、検索において対象範囲を検出するために類似度を評価するための「特徴量同士や識別子列同士の一致を評価する方法の例」、本発明に基づく「情報検索方法の例」、本発明の検索機能により検出された情報に応じて処理を行う「識別子の検出に伴う任意処理の例」、検索結果や索引を利用して学習を行う「検索・検出・索引付けに基づく識別子学習の例」、学習を利用した「識別子再構築の例」を変形例として記載する。
≪コンテンツ情報の例≫
まず、本発明を用いて実施される検索や索引付けの対象となるコンテンツとコンテンツ情報について説明すると、もっぱらコンテンツとは、映画、ドラマ、写真、報道、アニメ、イラスト、絵画、音楽、プロモーションビデオ、小説、雑誌、ゲーム、論文、教科書、辞書、書籍、コミック、カタログ、ポスター、放送番組情報などを示していることが一般的によく知られているが、本発明では公共情報、地図情報、商品情報、販売情報、広告情報や予約状況、視聴状況、道路状況といった情報やアンケート、監視カメラ映像、衛星写真、ブログ、模型、人形、ロボットのカメラ・マイク入力などを含んでも良い。
また、映像の時系列的変化、音声の時系列変化、読み手の音読位置の時系列的変化を期待する文章、HTMLにおけるマークアップ言語表記による電子情報、それらにより生成された検索指標情報などであっても良く、音読位置を時間軸として解釈して句点や文や文章をフレームとして捕らえても良い。
また、コンテンツに付属するメタ情報、文字情報による文書情報や番組情報としてのEPGやBML、譜面情報としての音階、一般的な静止画や動画像、3次元情報としてのポリゴンデータやベクトルデータやテクスチャデータやモーションデータ(動作データ)、可視化数値データによる静止画像や動画像、宣伝や広告を目的としたコンテンツ情報等を含んでいても良く、視覚情報や聴覚情報や文字情報やセンサ情報を含む自然情報により構成されている。
≪特徴量や識別子の例≫
次に、本発明の変形例として考慮される識別子や特徴量について説明する。本発明に用いられる特徴量と識別子は自然情報として聴覚情報や視覚情報やセンサ情報が中心に定義されており、聴覚情報や視覚情報やセンサ情報に音素や音素片と感情とを関連付けて索引付けを行うとともに、それらの情報の共起状態を評価することで検索を行っている。
まず、聴覚情報に基づくの特徴量や識別子であれば、音声や音響に用いるFFTやケプストラムやメルケプストラム、方向性パターンといった周波数特徴や音量特徴およびそれらの特徴の時間遷移による変化や異なる位置での収録音の音量や位相、周波数成分の差分といった公知の特徴抽出方法により獲得された特徴量から認識される識別子として、音素や音素片、喜怒哀楽を示す感情識別子、声の音質に伴う人物識別子、音階識別子、ピアノやギターを識別する楽器識別子、爆発音や雨音、パチンコ屋の音、風の音、波の音、機械音、騒音といった環境音識別子や効果音識別子が利用でき、音声波形から抽出された特徴量をそれぞれの呼称ごとに集めた母集団に分類し、分類された母集団に基づき多変量解析による距離関数や学習によるHMM関数といった評価関数を構成する。そして、評価関数に関連付けられた呼称音素列や呼称音素片列、文字列ID、数値IDにより、音声や音響の特徴量に基づく環境音識別子や騒音識別子、機械音識別子といった音声情報に基づく識別子を構成できる。
次に、視覚情報に基づく特徴量や識別子であれば、画像や映像に用いられる輝度差分や色差分、動きベクトルといった公知の動画特徴量や静止画特徴を用いて認識される識別子として、市街地や緑地、海岸、山岳、砂漠、天候、表情、時刻や季節による日の陰り方を示す風景識別子、自動車や人、顔、花、動物、植物といった物体を示す物体識別子、輝度や色、輪郭といった画像特徴を示す画像識別子、物体の運動速度や運動の変化や挙動に伴う状態の変化といった動作を示す動作識別子、画像範囲に応じた画像系識別子の出現位置を示す表示位置識別子が利用でき、動画像や静止画像から抽出された特徴量をそれぞれの呼称ごとに集めた母集団に分類し、分類された母集団に基づき多変量解析による距離関数や学習によるHMM関数といった評価関数を構成する。そして、評価関数に関連付けられた呼称音素列や呼称音素片列、文字列ID、数値IDにより、動画像や静止画像の特徴量に基づく風景識別子や物体識別子、動作識別子といった動画像や静止画像に基づく識別子を構成できる。
また、聴覚情報や視覚情報や文字情報に基づいた認識による感情情報としての感情識別子であれば表情や声の調子による喜怒哀楽といった一般的な感情ばかりでなく、心理学関連書籍に記載された感情や精神状態を示す単語を検出、認識することで識別として用いても良い。
そして、これらの識別子や特徴量は先の実施例のような1フレーム内の色の出現頻度や音素ばかりではなく、複数フレームにまたがった識別子や特徴量、複数フレームにまたがる識別子や特徴量の遷移情報に基づいた識別子や特徴量、表示画面中の座標情報を持つ特徴量や識別子、視覚情報や聴覚情報を用いた位置の算術推定空間座標系の座標情報を持つ特徴量や識別子、時間軸と関連付けて抽出された特徴量や識別子であってもよいし、検出された特徴量から算術的な空間計算により復元された奥行きや3次元画像情報の座標情報としての奥行き、復元された奥行きや座標情報としての奥行きにより算出された面積や質量や容積や速度及び数値情報としての面積や質量や容積や速度、算出された面積や質量や容積や速度及び数値情報としての面積や質量や容積や速度から推定される重さや質量や属性情報としての重さや質量といった情報を用いても良い。
このため、識別子の表記には音声や動画像や静止画像による特徴量に基づいた評価関数に対して文字列IDや数値IDを関連付けた識別子を用いたり、音声や動画像や静止画像から認識された任意の文字列を用いたりしてもよく、識別子を組合せて識別子列として利用したり、評価関数を用いた識別子の認識により獲得された評価値を利用して識別子の共起確率や特徴量の共分散行列やHMMの出力確率やHMMの遷移確率や距離関数の距離値やDPの一致度評価値といった任意の評価値の組合せを特徴量としてHMMや評価関数の再構築に用いてもよいし、識別子の時系列的な変化に基づいて識別子列を構成しても良い。
また、多変量解析にともなう自己組織化により学習された母集団に識別子を与えて検索や認識、検出、索引付けを行っても良いし、それらの識別子を検索条件に用いても良いし、多変量解析に用いる複数の画像や映像や音声に伴う特徴量を組合せて学習された母集団の識別子を評価するための特徴量に用いても良い。
また、任意の識別子に関する特徴量平均や分散や呼称文字列や呼称に伴う音素列や音素片列を用いて算術的に取得されたハッシュ値を索引付けに用いても良いし、音素と音素の連続回数や連続時間や「長、中、短」のような数種類に分類された長さ情報を用いて「discernment -long」、「discernment -short」といった長さ情報つきの記号や識別子を用いたり、音素1つの範囲内における位置情報を用いて「phoneme -front」、「phoneme -rear」といった位置情報つきの記号や識別子を用いたり、それらの識別子や記号を記号列や識別子列として組合せ、新しく識別子を構成しても良いに用いたりしても良いし、音素や音素変を含む各種識別子が評価結果として連続する区間における評価関数から出力される距離や尤度の平均を前述の識別子を分類する長さ情報や識別子の長さに伴う重み情報に利用しても良い。
この際、前述の従来技術に記載されているような特徴量を用いたり、それらの文献に引用された特徴量を用いても良く、任意の画像認識技術を用いて、芸能人などのテレビ出演者の顔から特徴を抽出し、抽出された特徴量に基づいて認識し、認識された識別子に対してEPGやBML、RSS、文字放送、字幕といった番組情報として用いられる文字情報や利用者や映像付随音声の発話による音素記号列や文字情報から変換された音素列・音素片列を関連付けることにより、表示人物や表示内容を弁別するための識別子を設けたり、同様に表示物体に対して識別子を設けたりして本発明を変形させても良い。
また、文字列による文章情報や文字情報であれば任意の文書処理方法と組合せても良く、それらに関わる特許や文献にあるような文字列に対する特徴抽出方法を組合せて実現してもよいし、後述される「複数の識別子と複数の検索条件に伴う検索および任意処理の実施例」のような共起状態を用いた情報評価方法を用いても良く、文字列情報における文字間隔や文字数や文字出現頻度や文字共起頻度をはじめ、文章情報における単語間隔や単語数や単語出現頻度や単語共起頻度や文章情報における記号間隔や記号数や記号出現頻度や記号共起頻度などを組合せて特徴量としたり、それらの特徴量に基づく文章解析や認識に伴う識別子を利用しても良い。
また、本発明の応用により、環境音を擬音として処理し音素列や音素片列の認識に基づいて評価することで環境音特徴や環境音識別子や効果音識別子と音素識別子や音素片識別子による共起行列を構成した後に特徴量を学習して擬音特徴や擬音識別子として新規特徴量や新規識別子を構成しても良いし、声の質や変化に基づく人物識別子や声の質や変化に基づく感情識別子を用いて認識に用いる音響モデルを変化させ、認識率の改善に利用しても良い。
また、任意のプロトコルにおいて指定された識別子とその識別しに関わる物品の名称とを関連付けて利用してもよく、例えばMIDIなどのインターフェース規格ではゼネラルMIDIと呼ばれる方式ではIDと楽器とが直接関連付けられており、これを利用して楽器番号と楽器名称を対応付けるといった方法が考えられ、それらのIDと特徴量の共起行列を構成しても良いし、同様にJANコードなどではメーカーコードやアイテムコードなどにより一意に対象を固定できるため、通常のバーコードや二次元バーコード、RFIDタグ、文字放送、クローズドキャプション、EPG、字幕、BML、RSSなどを用いても良い。
また、共起状態に基づいて構成される特徴量や識別子による共起情報とは、任意の識別子や任意の特徴量、任意の識別子に応じた認識結果として出力される距離情報や確率情報が指定時間範囲内において同時発生したことを踏まえた情報であり、例えば「笑顔」が画像認識された際に時間的近傍で認識された「笑い声」音素識別子や「笑い」感情識別子、「笑い」動作識別子の共起確率や動作特徴量の共起分散行列によって新しく表現される特徴量であるとともに、それらの新しく表現された特徴量に基づいて「笑い状態」識別子という識別子とその評価関数や評価HMMを構成しても良い。
この際、指定される時間範囲として一般的な時間表現ばかりではなく時系列的な動画像におけるフレーム(フィールド)数や特徴量の近隣フレーム平均からの乖離度合、文書音読時の文字数や文字位置、単語数、文の数、文章の数、章やページの数といった、利用者の音読時における時系列的遷移を考慮した単位に基づいて共起対象範囲を求めても良いし、文字情報は文章情報や番組情報を含んでも良い。
また、複数の撮像情報からえら得た画像特徴に基づいた2.5次元特徴や3次元特徴により立体情報を生成し、生成された立体情報とポリゴン情報やテクスチャ情報からなる立体情報との距離評価を行い立体画像や立体映像検索における立体形状一致評価や擬似三次元や三次元情報の重心からの座標位置や座標群の固有値や固有ベクトルを用いる距離評価による一致度評価を実施しても良い。
また、音階種別とは「ドレミファソラシド」といった音階情報であり、オクターブ情報を含む者であってもよく、音階識別子の時間軸の出現遷移状態にともなうテンポやリズム、和音情報などをふくんでもよい。また、楽器種別とは楽器の音響情報をまとめて学習させることで実現できることが知られており、公知文献によれば単音認識では90%超えることが知られている。
また、環境音種別の認識としてはFFTやケプストラムやメルケプストラム、方向性パターン、フォルマント抽出といった周波数特徴や音量特徴およびそれらの特徴の時間遷移による変化や異なる位置での収録音の音量や位相、周波数成分の差分による音声特徴、左右の位相差や音量差による音源位置、周波数分布特性や音程遷移に基づく音色に始まり、波の音や風邪の音などを楽器識別と同様、偏りのある情報ごとにまとめて評価関数をもちいることで認識可能であり、応用として機械音種別に利用することも出来る。より具体的には、エンジン音や排気音、蒸気機関車の音、線路を走る音、風の音、動物や虫、鳥の鳴き声、波の音、木々の音、クラクション、悲鳴、雄叫び、泣き声、笑い声、地響きといった自然音や機械音、生物の発する音、爆発音など情報に基づいた特徴量や識別子が構成でき、音響識別子であれば、音階識別子、音量識別子、音色識別子、和音識別子などが考えられ、音位置識別子や音源方向識別子であれば音の発生している方向の上下左右を弁別したり、反響状態識別子であれば屋内の反射音の速度により部屋の広さを弁別したり、楽器種別であればトランペットやピアノ音を弁別したり、機械音識別子であれば、機械の音、エンジン音、タペット音、スクリュー音、排気音、工具音、家具音、飛行音、騒音であったり、自然音識別子であれば、風の音、波の音、咆哮音、爆発音、環境音識別子や効果音識別子であったり、音声識別子であれば言語識別子、話速識別子、感嘆音声識別子、歓声識別子、罵声識別子であったりしてもよく、これらの識別子に特化した特徴量を組合せることが考えられる。
また、画像種別の識別子としては輝度微分に基づく輪郭や色相差、色濃度やそれらの差分といった特徴量に始まり、人の顔を認識するための顔種別、人の顔の形状から認識される表情種別や人物種別、歩き方や服装、体格から判別される人物種別、画像の色成分や形状成分から検出され砂漠や海や都市を弁別できる風景種別、画像特徴の時間的遷移により抽出される手話やジェスチャ、ダンス、動物の挙動や機械の動作に基づく動作種別、そして、それらの特徴量が表示範囲のどのような位置にあるのかによって、例えば、画面上の右上の数値は時刻の文字画像情報と共起率が高いことから時刻情報であることを検出するといった位置を示したり、表示範囲の物体の向きに関連した表示位置種別といった情報に基づいた特徴量や識別子が構成でき、画像識別子であれば、輝度識別子、彩度識別子、色相識別子、輪郭識別子、動作識別子、画像位置識別子、速度識別子、移動方向識別子といったものや物体識別子であれば、動物識別子、植物識別子、機械識別子、工具識別子、家具識別子、人物識別子、材質識別子、標識識別子、風景識別子といったものや、形状識別子であれば、顔識別子、表情識別子、口形識別子、服装識別子、髪型識別子、皮膚識別子、体形識別子、姿勢識別子、波形形状識別子といったものや文字識別子であれば、言語識別子、フォント識別子、文字サイズ識別子、記号種別等を用いてもよく、これらの識別子に特化した特徴量を組合せることが考えられる。
また、これらの識別子や特徴量はそれぞれの図14、図15中の特徴量抽出部や特徴量識別子変換部において処理が行われ、特徴量識別子変換、文字列・特徴量識別子変換、検索結果生成処理、特徴量抽出部に全ての識別子や特徴量は記載されていないが実装されていると考えてよく、自然情報から特徴量を抽出する方法に従って特徴量を抽出し、抽出された特徴量から評価関数を用いて識別子を特定する処理と入力された表音記号列に基づいて特徴量や識別子に変換する処理が実施され、索引付けや検索、学習に用いることが出来るとともに、音素や音素片、感情識別子と共に用いられる識別子や特徴量は実装に応じて変更することが可能であるため、画像や音声や感情の認識結果にともなう共起状態の索引付けや学習、検索、検索結果の利用および各種識別子の呼称に応じた音素や音素片による検索条件の生成を目的とする本発明にとって個々の認識技術は発明の対象ではない。
また、記号に対して意味や音をもたせることで弁別できる文字記号種別、意味が図形記号化されて弁別される標識種別、前述の画像特徴の要素となり、角や曲線、輪郭を弁別する形状種別、それらを組合せ意味がある程度固定された図形や図形の要素を弁別する図形記号種別、番組情報として放送番組の内容を弁別するためのEPGや文字放送、BML、RSSを用いたガイドといった放送番組や配信コンテンツに関する番組種別といった情報に基づいた識別子や特徴量が構成でき、EPGであれば番組内容をBMLであれば番組内容ばかりではなく、番組内での進行に伴う状況の変化を文字列で獲得できる。
また、センサ情報であればセンサ入力に伴う識別子として、本発明に温度センサやガスセンサ、運動センサを追加して、それらのセンサからの入力情報が人の生命に危険を与える可能性を分類することで識別子を構成し、識別子に関する画像や音声に伴う共起情報を収集し、ロボットによる人の安全のための保護評価や装置自体の安全評価のために用いても良いし、心拍センサや脳はセンサ、筋電流センサ、皮膚抵抗センサと組合せて医療用の精神分析装置を構成しても良い。また、歩行ナビやカーナビ等に関連した発明と組合せて、GPSなどの位置情報に基づいて位置識別子を取得し関連付けて検索を実施したり共起状態を学習したりしても良いし、これらの特徴量や識別子の共起状態に基づくサービスや装置を認識や分類、弁別、評価のために多層ベイズや多層HMM、多層ニューラルネットワークなどを用いて構成してもよい。
また、例えば特定の騒音だけを集めた音や特定の楽器だけを集めた音、ピアノやドラム、犬や猫、自動車や工場などの機械音、歓声、音階などの異なる特徴を基準として構成された識別子であってもよく、本発明に基づく装置の外部から入力される映像に対して同様に特徴抽出と認識の処理を行い顔に基づいて人物や表情を識別したり、形状や色に基づいて物品や文字や図形、記号、標識を識別したり、フレーム間差分や音源位置の変化により動作を識別したりしてもよく、それらを映像や音声に関連付けて記録し索引付けに利用したりしても良いし、将来的に匂いや味、温度、湿度、重さ、硬さ、粘度、密度、大きさといった環境や化学成分、物理特性に関する索引付けがなされてもよい。
そして、情報処理部内には情報入力部経由で外部から得られる自然情報及び通信回線部や記憶部から取得した映像や画像、音声、音声情報による音楽、文書、楽譜情報としての音楽、静止画や動画像、ポリゴンデータやベクトルデータ、数値データによる静止画像や動画像、といった情報処理装置で処理可能なコンテンツ情報から特徴量を抽出する特徴量抽出部があり、特徴量や検索条件、検索結果により得られた共起情報を学習する共起情報学習部があり、抽出された特徴量から認識処理により識別子を決定し索引付けを行う索引情報生成部があり、特徴量や索引の識別子からなる検索条件と索引情報の一致度を評価して検索をする索引検索評価部があり、検索結果として評価一覧として出力する評価一覧出力部があり、コンテンツ情報や利用者の入力から取得した特徴量を識別子に変換する特徴量識別子変換部があり、利用者の認識による識別子や記憶媒体や通信により外部から取得した識別子、内部でコンテンツなどから抽出された識別子などに対して、その識別子の標準的な特徴量に変換する識別子特徴量変換部があり、辞書情報保存部から目的の変換のための情報を抽出する辞書抽出部があり、コンテンツ情報からMPEG7のような索引情報を取得したり通信回線部からRSS情報やXMLなどのマークアップ言語による情報を取得したり、情報入力部から受信した放送波に基づきEPGやBML、RSS、文字放送の情報を取得したのちに任意の記号情報における命令や変数、属性を抽出するメタ記号抽出部があり、これらの必要に応じた組合せにより検索、検出、索引付けが行われてもよい。
このため、例えば特定の騒音だけを集めた音や特定の楽器だけを集めた音、ピアノやドラム、犬や猫、自動車や工場などの機械音、歓声、音階などの異なる特徴を基準として構成された識別子であってもよく、本発明に基づく装置の外部から入力される映像に対して同様に特徴抽出と認識の処理を行い顔に基づいて人物や表情を識別したり、形状や色に基づいて物品や文字や図形、記号、標識を識別したり、フレーム間差分や音源位置の変化により動作を識別したりしてもよく、それらを映像や音声に関連付けて記録し索引付けに利用したりしても良いし、将来的に匂いや味、温度、湿度、重さ、硬さ、粘度、密度、大きさといった環境や化学成分、物理特性に関する索引付けがなされてもよい。
また、コンテンツに関連付けて識別子や特徴量を保存・記録する方法は、専用のデータベースに時間情報と共に記録する方法や、映像や音声の情報と同時に使用する別ファイルとしての索引ファイルを保存する方法、MPEGファイルなどの映像ストリームに挿入してMPEGファイルの空きエリアやコメントエリア、メタ情報記載エリアを更新する方法、EPGやBML、RSS、文字放送のようなマークアップ言語を用いて配信して利用者側が受け取って前述のような方法で保存する方法を用いても良い。
また、検索条件や検索結果から得られる音声情報から抽出した音素及び/又は音素片及び/又は感情識別子及び/又は音階記号及び/又は楽器識別子及び/又は環境音識別子及び/又は動画像及び/又は静止画像から抽出した動画特徴量及び/又は顔識別子及び/又は人物識別子及び/又は物体識別子及び/又は表情識別子及び/又は動作識別子及び/又は表示位置識別子、EPGや文字放送、BML、RSSやコンテンツに関連したウェブサイトから抽出した文字列や文字列の共起情報を任意に組合せて識別関数やHMMを構成したり、構成されたHMMや識別関数に対応する識別子を構成したり、識別結果としての距離や一致度やHMMの出力確率を特徴量として『検索・検出・索引付けに基づく識別子学習の例』や『識別子再構築の例』にあるような共起情報の学習や識別子構築を実施しても良いし、前述の各種特徴量を組合せて多変量解析により分類し識別子を与えて任意の分類用評価関数を構成してもよい。
また、この際、後述されるようなHTMLやXML、RSS、CGIといったプロトコルやマークアップ言語、スクリプト、プログラム言語、バイナリコードなどを用いて音素や音素片、感情識別子、音階識別子、楽器識別子、環境音識別子といった情報を認識するためのテンプレートや特徴抽出アルゴリズム、記号列一致評価アルゴリズム、記号認識アルゴリズムを通信回線経由で取得、配信しても良く『利用者同士の情報共有手順例』に詳しく述べる。
≪辞書構成の例≫
次に、本発明に用いられる前述の識別子や特徴量を相互に変換する辞書機能について、記憶部20の辞書情報保存部214及び情報処理部10の辞書抽出部106により説明する。これらの辞書はハッシュバッファやマップバッファといった一般的なアルゴリズムによる情報処理方法や保存方法の利用やデータベースといった汎用プログラムによって実施可能であり、辞書機能で利用する辞書情報を記憶媒体に保存された索引によって関連付けられた情報群とすることも可能であることが一般的によく知られており、公知の方法によって任意に実装できるため、実装に依存する。
より具体的な辞書構成としては、前述のような識別子を入力するステップと入力された識別子に関連付けられた他の識別子を選択し出力するステップによる方法があり、識別子を入力するステップと入力された識別子に関連付けられた識別関数を選択し出力するステップによる方法があり、識別子列を入力するステップと入力された識別子列に関連付けられた識別子を選択し出力するステップによる方法があり、識別子列を入力するステップと入力された識別子列に関連付けられた識別子列を選択し出力するステップによる方法があり、識別子を入力するステップと入力された識別子に関連付けられた他の識別子の標準パターンや標準パターンに用いられる識別子群の平均値を選択し出力するステップによる方法があり、そのどれもが連想配列と呼ばれる方法を用いることで実装でき、それらの組合せにより、任意の識別子と関連する識別子や識別子列や識別子群や標準パターンとの情報変換が可能となる。
なお、識別子とは評価関数により特徴量から認識される情報を分類するための情報であり、識別子列とは同じ系統の識別子が時系列的に並んだ情報であり、識別子群とは任意の識別子が複数集まって共起関係にあることが好ましい情報である。
まず、これらの辞書は任意のキーワードやIDなどにより索引付けがなされている。より具体的な例は、制御辞書や日本語音素国際音素記号変換辞書と同様に記号や識別子、変数、特徴量による構成となる。他にも日本語単語音素列変換辞書や動作識別子呼称音素列変換辞書、顔画像識別子名称音素列変換辞書などの前述の識別子や特徴量といった任意の組合せが考えられ、日本語単語音素列変換辞書であれば「日本語」という文字列を「n/i/h/o/n/g/o」という音素列に変換を実施し、動作識別子呼称音素列変換辞書であれば「うなずく動作」を示す識別子と「u/n/a/z/u/k/u」という音素列記号への変換を実施し、顔画像識別子名称音素列変換辞書であれば「太郎さんの顔」を示す識別子と「t/a/r/o/u」という音素列記号への変換に応じて実行する。
このように、一対一であったり、一対多であったり、多対一であったりする相関性を定量的に記録保存し、保存された情報に基づいて識別子同士の変換や識別子列と識別子の変換といった処理が可能となり、これらの辞書は変換のための参照情報群によって構成され、辞書が多対一の場合であれば共起情報に基づいた関連付け情報により辞書情報を構成しても良いし、共起情報による固有値や固有ベクトルを用いて「識別子再構築の例」にあるように評価関数と識別子の辞書を構成しても良いし、特徴量や識別子を音素列や音素片列や数値IDや文字列IDにより変換できるように辞書を構成しても良いし、音素列や音素片列や数値IDや文字列IDを評価関数や識別子に変換する辞書として構成しても良い。
もちろん、前述の識別子や特徴量に基づいた組合せによる任意辞書として、例えば動作識別子日本語変換辞書により「うなずく動作」識別子から「うなづく」と言う日本語の呼称に変換したのちに日本語音素辞書を参照して「u/n/a/z/u/k/u」としこれらの特徴量や識別子の共起状態を観測し「うなずく状態」と言う独自の識別子を構成できる。そして、顔画像認識による「太郎さんの顔」という識別子と「うなずく状態」識別子の情報の共起状態を評価して「太郎さんがうなずく」という新しい識別子を構成しても良い。
このように、識別子と言語依存単語とを関連付けた辞書を前述の特徴量や識別子ごとに構成することで任意の識別子や特徴量を組合せた辞書を構築しても良し、再構築結果を利用して再々構築しても良く、抽象的な単語や副詞や形容詞、未知の名詞と関連付けることにより、それらの単語や音素列に対する特徴量の共起状態を学習し検索に用いる識別子や特徴量として用いても良いし、それらの識別子に関連づけられた音素列や音素片列に基づいてMD5やCRCなどの算術処理によりハッシュ値を算出し、データベースに記録された情報と音素列・音素片列とハッシュ値を関連付けて保存し効率的な辞書内の音素・音素片に関連する識別子や特徴量による検索や異なる識別子同士や識別子と特徴量や音素列・音素片列と識別子や音素列・音素片列と特徴量や音素列・音素片列と音素や音素片や音素列・音素片列と音素列・音素片列の相互の変換が出来るように辞書を構成しても良いし、ハッシュ値同士を評価するDPを用いても良い。
また、動画像や静止画像と音声に伴い検出される識別子の共起情報や識別子の呼称を音素や音素片で表記するといった本発明に用いられる動画像や静止画像や音声に関連付けた索引を辞書の索引に用いることで映像と音声から抽出される任意の特徴量や識別子の相関性に基づいて辞書が構成できるとともに、辞書を組合せて画像や音響や感情の識別子と音素列や音素片列や文字列を変換したり画像や音響や音声や感情に関する識別子や特徴量の共起状態を評価したりする変換テーブルによって新規に辞書情報を構成することが出来る。本例では表記を簡易にするために音素列による記載を行っているが音素片列を用いた辞書構造であっても良いし、これらの共起辞書は公知技術の映像や音声のその他センサ類から抽出された特徴量や識別子の組合せによるため実装に依存することになる。
そして、自然発話の認識による音素列や音素片列、感情識別子に基づいて任意の単語文字列を選択し変換辞書によって単語文字列に関連付けられた任意の識別子や特徴量へ変換し検索したり、任意の音素列や音素片列、識別子に変換辞書によって関連付けられた識別子評価関数を用いて検索したり、音素列や音素片列や感情識別子により音声を直接検索したり、辞書に登録されているキーワードを音素列や音素片列に変換して発話音素認識により利用したり、変換辞書に登録されていない音素列や音素片列や識別子を変換辞書に登録したり、それらの共起情報に基づいて変換辞書を構成したりすることが出来る。
また、これらの辞書は音素や音素片列に限らず、別記された任意の識別子や特徴量の共起状態に基づいて構成された共起辞書であってもよく、共起状態に利用者が任意名称を割当てることで任意名称から共起情報への変換や共起情報に関連付けられた任意言語の単語に基づいて音素列や音素片列に変換するといった利用を行っても良く、認識された音素列や音素片列により音声を合成したり、音素列や音素片列に基づいて検索したり、音素列や音素片列に関連付けられた表音文字や単語を利用者に表示したりして利用者に判断を仰いでも良い。
なお、『自然情報から特徴量に変換する方法の例』や『特徴量から識別子列に変換する方法の例』を用いて識別子と特徴量の変換を相互に行っても良い。
≪自然情報から特徴量に変換する方法の例≫
次に、索引付けや検索を行うために必要な自然情報から特徴量に変換する特徴量抽出機能について、記憶部20のプログラム保存部210に保存された特徴抽出プログラム若しくは情報処理部10の特徴量抽出部116に基づいて説明する。これらの特徴量抽出機能は多様な公知の一般的なアルゴリズムによる情報処理方法である汎用プログラムによって実施可能であり、基本的に実装に依存する。
動画像や静止画像であれば、文字認識や画像認識に用いられる特徴量、例えば輝度分布や色相抽出、スパイダーネットなどのメッシュ抽出、フレーム間における局所自己相関の変位パターンによって画像形状や動画像の変化やフレーム間差分により動作特徴量が抽出され、映像や画像の特徴量として抽出で、自己相関係数抽出、高次自己相関抽出等と組合せることもできる。また、音声特徴であれば、FFTやケプストラムやメルケプストラム、方向性パターン、フォルマント抽出、リズム抽出、ハーモニクス抽出、自己相関係数抽出、高次自己相関抽出を用いた周波数特徴や音量特徴それらの変化特徴の抽出が可能である。
また、音声においては周波数成分や周波数分布、音量、音源方向やそれらの差分、差分の差分といった多次差分特徴、およびこれらの情報の平均及び分散や標準偏差による値やそれらの値の指数部であったり、画像においては色分布や輝度分布、再度分布、色微積分値、輝度微積分値、彩度微積分値、同様に分析されたRGB値やHSV値、YR−YB−Y値、YCM値といったそれぞれの周波数成分分布、色や輝度、周波数の差分、差分の差分といった多次差分特徴、およびこれらの情報の平均及び分散や標準偏差による値やそれらの値の指数部であったり、認識された画像関連識別子や画像関連特徴量の画像範囲内における物体の表示位置に基づいた特徴量であったり、動画像であれば画像で挙げた特徴の時間軸遷移であったり、立体画像であれば2.5次元特徴や2.5次元特徴から復元された各種三次元特徴量、CGに用いられる三次元画像座標情報、三次元テクスチャ情報、三次元動き情報、三次元色変化情報、三次元光源変化情報、三次元硬度テクスチャ情報、任意の画像認識や2.5次元画像特徴抽出といった特徴抽出方法やそれらの組合せであったり、それらの特徴量から認識された時刻情報、天候情報、季節情報、地域情報、文化情報、といった識別子を用いることが可能である。
このような、時間軸、空間軸、物理量、視覚変化、聴覚変化、人間の主観軸や観測に伴う情報の変化を捉え特徴量や識別子として用いる方法が従来から数多く提案されており、前述の従来技術に記載されているような特徴量を用いたり、それらの文献に引用された各種特徴量を組合せたりして用いることも可能であり、実装に依存し、これらの自然情報から特徴量に変換する処理は自然情報を入力するステップと特徴量に変換するステップに相当する。
≪特徴量から識別子列に変換する方法の例≫
次に、索引付けや検索に必要な、特徴量と任意の識別子の類似性を確率及び/又は距離や尤度によって評価する特徴量識別子変換機能もしくは認識機能について、記憶部20のプログラム保存部210に保存された特徴量識別子変換プログラム及び情報処理部10の特徴量識別子変換部120に関して説明する。これらの特徴量抽出機能は多様な公知の一般的なアルゴリズムによる情報処理方法である汎用プログラムによって実施可能であり、基本的に実装に依存する。
この方法は従来からいくつも提案されており、例えば、同じ識別子に分類された特徴量をHMMに与えて、HMMの遷移確率や出力確率を学習させて評価関数として用いる方法や、同じ識別子に分類された特徴量の平均と分散から共分散行列を求めたのち固有値と固有ベクトルを求めて距離関数を構成し、識別子情報群の重心と入力サンプルの距離を求めるベイズ識別関数やマハラノビス距離関数を用いたり、単に入力サンプルと識別子群の平均ベクトルとのユークリッド距離関数を用いたりして距離関数を用いる方法が提案されており、これらの手順は実装に依存するため任意の方法を用いることが出来る。
そして、このような評価関数により入力された自然情報から抽出された特徴量と記号や識別子との類似性が数値として評価可能となり、入力サンプルの特徴量と一番重心に距離の近い関数に関連付けられた識別子や一番尤度の高いHMMに関連付けられた識別子、一番近い距離を示した任意の距離関数に関連付けられた識別子、一番帰属する確率の高い母集団に関連付けられた識別子が評価関数による評価結果として認識され、単語の認識、音素の認識、音素片の認識、物の認識、文字の認識、顔の認識や口形素や表情の認識、感情の認識、音や楽器、動作の認識が実施されるとともに、これらの認識の時系列的な変化を伴って識別子記号列を得ることが出来る。
このような方法により、入力特徴量に対して複数の識別子の中から正しい識別子が選択されるということは、選択されるべき識別子の評価関数と比較対象である入力特徴量との距離が最小になったり、出力確率が最大になったりすることによる類似性の評価であり、識別子がXであるとあらかじめ解っている入力特徴量Vに対して、識別子評価関数X、Y、Zによる類似性評価を行い結果として尤も類似していると評価される値を出力した識別子評価関数がXであれば識別子の認識は成功したと判断できる。
この際、確率モデルを用いた認識方法として、共分散行列の対角成分のみを考える無相関正規確率分布(対角正規確率分布)や厳密だがデータ数が少ないと正確にモデルのパラメータを推定するのは困難な共分散行列の全成分を考える全相関正規確率分布、いくつかの正規分布の和で表現されるモデルを用いる混合正規確率分布(無相関および全相関)、ベクトル量子化 (VQ) を用いて特徴量ベクトルの空間を分割する離散確率分布などを利用して、各母集団の重心からの距離や帰属確率を入力特徴量に基づいて評価処理を実施し、認識結果として識別子を得る方法が考えられている。
また、音素や音素片、感情識別子、その他任意の識別子を評価する方法は前述のような各種距離関数や確率関数により尤度を求める評価関数を用いて評価する方法が一般的であり、それらの評価をコンテンツの時間軸や表示位置に従ってセグメンテーションし、セグメントごとに順次評価して識別子を与えたり、時間軸上を任意の単位時間で区切ってフレーム毎に順次評価することで時系列的な特徴量の識別子を与えたりすることで索引付けのための特徴量から識別子への変換を実施できる。
この際、音声であれば1フレームのFFTやケプストラムやメルケプストラム、方向性パターンによるデータは任意の次元のベクトルでも良いし、動画像や静止画像に関する画像特徴であれば1フレームは任意のピクセルサイズで構成されてもよく、これらのフレーム間誤差ベクトルやピクセル間誤差ベクトルを任意次元で与えても良いし、任意幅のフレーム差分特徴量や、フレーム差分特徴の累積による特徴量を用いても良い。この時点での特徴量の取り方は実装に依存するため任意の方法を用いても良い。
もちろん、ユークリッド距離以外にも、マハラノビス距離をはじめ距離として用いることの出来るベイズ識別関数の出力や確率の逆数値や自然対数等を底とした確率値や自然対数等を底とした値の指数部やシティブロック距離、チェスボード距離、オクタゴナル距離、へクス距離、ミンコフスキー距離の他、類似度やそれらの距離に重み付け処理をした距離といった任意の距離算出方法、固有値や固有ベクトルの組合せや固有値や固有ベクトルなどの用いた距離算出方法、固有値や固有ベクトルのノルム、最大固有成分などの組合せにより距離算出に用いてもよい。
より具体的には自然情報が入力されるステップで例えば音声や画像などのAD変換を伴うセンサ装置などからの出力が入力される。次に自然情報から特徴量を抽出するステップで音声ならFFTやケプストラムやメルケプストラム、方向性パターンなど、画像なら輝度や彩度のデルタ情報や輪郭情報、時間軸差分によるデルタ情報など、識別子に応じて最適な方法で特徴量が抽出される。
次に、ベイズやHMM、距離関数による認識により特徴量評価を行うステップが実施され、評価に基づいて一番確率の高い識別子や距離の近い識別子を選択するステップが実施される。そして、選択された記号や識別子を認識結果として出力することにより、音素や音素片の記号、感情識別子、画像識別子、顔ID、認識文字、環境音ID、機械音識別子、風景識別子、音階識別子などが得られ索引付けに用いられる。これらの手順は評価関数処理のステップと評価関数の終わりを確認するステップとにより複数の評価関数を用いて識別子が評価・選択・出力されるステップとして実施される。
この際、アナログ値を扱えるプロセッサであればアナログ値を直接入力してもよいし、アナログ値を評価できるプロセッサであれば、アナログ値のまま評価計算やマッチングといった認識や検索処理を行っても良いし、デジタル値をアナログ値に変換して評価計算しても良い。
また、音声関連の識別子による索引であれば、楽器ごとの音を集めた母集団との距離を測る楽器種別の識別子や特徴量を用い、エンジン音や排気音、ドアの音といった機械音ごとの音を集めた母集団との距離を測る機械音種別の識別子や特徴量を用い、風の音や波の音、鳥や動物の鳴き声といった環境音ごとの音を集めた母集団との距離を測る環境音種別の識別子や特徴量を用いることが可能である。
また、画像関連の識別子による索引であれば画像種別を基本として、映像中の人を弁別するために顔種別や服装や体格に基づく人物種別や身振り手振りや表情の元となる動作種別を用いたり、風景種別及び/又は画像位置種別及び/又は看板やビルの表面に記載された文字の認識による文字記号種別及び/又は道路にある標識による交通制限を弁別するための標識種別及び/又は車や船、机や電話などの形状種別及び/又はトイレや非常口などの図形記号種別を用いたりすることで識別子を索引付けに用いても良い。
≪情報索引付け方法の例≫
次に、本発明に基づく装置による索引付けについて説明する。索引付方法は、検索のたびに認識による索引付けを行う方法も考えられるが、索引情報は一度構成すればコンテンツの内容が変化しない限り何度でも再利用可能なため、索引付けは最初に記憶部に登録されるとき、もしくは最初に検索対象になるとき、もしくは最初に登録されてから装置自体の外部からの利用頻度が下がったときなど任意のタイミングで索引付けを実施してもよく、コンテンツの索引付けが終わった後でコンテンツ情報を外部の装置から扱えるように登録されたように見えても良い。
また、この索引付けは情報の収録時に適切な単位時間(例えば16ミリ秒)ごとの認識による索引付けを行うことで収録されたコンテンツに対する索引付けばかりではなく、生放送番組中に放送と同時に索引付けを行いながら索引情報のリアルタイム配信を行っても良い。
まず、本発明に基づく索引付け装置は音声・映像入力のステップ(S0201)を実行することで、外部からコンテンツ情報を取得する。ここで取得されるコンテンツとは、前述のように映像や音声に限らず静止画や文書情報、BML、EPG認識された字幕や映像に含まれる文字列などの任意のコンテンツ情報であってよい。
次に、索引付けの実施手順を説明する。情報入力部30や通信回線部50もしくは交換可能な記憶媒体を用いて記憶部から取得したコンテンツ情報は特徴量抽出部116により特徴量となる数値データに変換される特徴量抽出ステップS0202を実行する。
この変換ステップS0202で用いられる特徴量は前述の『自然情報から特徴量に変換する例』や『特徴量や識別子の例』や『従来の技術』にあるように、動画像や静止画像、音声、文章からの特徴量抽出方法が提案されており、特徴量抽出部116において視覚情報に基づく静止画特徴抽出部や動画特徴抽出部、及び聴覚情報に基づく感情特徴抽出部や音素特徴抽出部や音素片特徴抽出部、及び文字情報に基づく番組情報抽出部といった特徴分類方法や特徴抽出方法により特徴量を抽出する。
より具体的には、音声波形であればケプストラムなど、画像特徴であれば輝度や色相のデルタ信号など、文章であれば文字や単語の共起確率、EPGやBMLから展開された音素や音素片の記号列などであってもよいし、いずれかの公知である任意の特徴量抽出方法であっても良い。
次に、特徴量識別子変換部120やステップS0203によって記号化され識別子を割当てられる。前述の『特徴量から識別子列に変換する方法の例』にあるように特徴量を認識することで『特徴量や識別子の例』や『従来の技術』にあるような従来から利用されている任意の特徴量や任意の特徴量を用いて認識された識別子をコンテンツ情報の時系列に関連付けて索引付けをするステップS0204を実行し索引情報を構成する。
より具体的には、音声波形であれば音素や音素片、感情識別子、環境識別子、動画層や静止画像であれば形状識別子、顔識別子、表情識別子、文字識別子、物体識別子、動作識別子、文章であれば単語識別子や単語の共起状態識別子などであってもよい。また、このような識別子に関連付ける処理と共に特徴量や識別子が類似した広告を関連付けてもよい。
次に、構成された索引情報は索引記号列合成部110によってMPEG情報に追加ストリームや既存のMPEG7情報に対する追加変更として記録したり、情報記録蓄積部22に索引情報を別ファイルとして記録したり、情報記録蓄積部22と情報処理部により構成された専用のデータベースに索引情報を記録したりすることで、利用者が検索を行いたい場合に利用できるようにする。
このような索引付け処理によって、数種類の特徴量や識別子による記号列がコンテンツに関連付けて生成され「索引共起情報」として構成できるとともに「索引共起情報」を用いたメタデータが付随したコンテンツ情報を構築することが出来るようになる。
この際、特徴量と識別子による記号の変換部をより詳しく記載した図によれば複数の識別子や特徴量を関連付けて評価していることがわかる。つまり、本発明における共起情報とは、音声に伴う感情の変化や映像の変化に伴う音響の変化、映像の変化に伴う感情の変化、映像や音声の変化に伴う字幕やEPGやBML、RSS、文字放送の変化を関連付けて認識し、コンテンツに対して音素及び/又は音素片及び/又は感情識別子により索引付けをおこない、同様に他の音階や環境音、認識文字列、画像識別子といった識別子による索引付けを実施し、コンテンツにおける相関性のある変化に基づいて構成され、検索をしたり、検索条件や検索結果から抽出された特徴量を学習して新規識別子を構成したりするところに特徴がある。
また、共起状態を学習するステップでコンテンツに索引付けを行いながら各種識別子や特徴量の共起状態を学習し、数量化分析IV類などにより自律的に分類してクラスタ毎に索引付けを行い、それらの分類されたクラスタ毎に利用者が任意の文字列や音素列・音素片列を与えて検索に用いても良い。
≪識別子列から特徴量に変換する方法の例≫
次に、検索や辞書構築に必要な識別子を特徴量に変換する方法に関して説明する。
まず、利用者や装置内で変換が必要とされる記号列や識別子列が入力されるステップが実施され、それらの情報からマークアップ言語などであれば必要なタグや属性を、通常の入力文字列であれば入力単語に基づいた変換辞書による音素列や音素片列や任意の識別子を抽出する対象抽出ステップを実行する。
次に、得られた識別子を必要であれば音素から音素片へと、画像から画像素へと変換する識別子の細分化処理を実行する。なお、ここでいう画像素とは画像に対する部分要素であり、顔画像を例にすると顔画像は顔全体を示し顔画像素である場合は目、鼻、口といった顔を構成する部品のような任意の画像傾向を部品として分離したときの分類に基づいて識別子を割当てた要素となる。
次に、識別子を特徴量に変換するために、該当する識別子のサンプル平均値を用いて識別子平均設定のステップを実施し、平均値によって構成された特徴量が出力される。このように識別子に応じて変換された平均値による特徴量は常に母集団の重心を意味する値となるため、識別子評価関数に与えると常に識別子の重心と特徴量の距離が0となるため正確に認識される。
この変換により、任意の識別子Xから変換された特徴量Yと異なる任意の識別子Vから変換された特徴量Wとの距離評価を行うことが可能となり識別子同士の記号一致ばかりではなく、距離評価を実現できるようにあるため、同じ特徴量を用いた識別子同士の距離を評価したり、識別子から特徴量への変換辞書を構成したりできるようになる。
また、音声においては言語に関連付けられた音声情報ばかりではなく、音階や環境音、騒音、笑い声、声から得られる感情特徴といった任意の音声に関連する識別子に関し、音階識別子であればそれぞれの音階の、環境音であればそれぞれの波の音や風の音といった音声種別の、感情識別子であれば感情にともなう特徴種別の特徴量における平均値を用いることで識別子から特徴量への変換に利用できる。
また、画像においては「マル」や「バツ」、「三角」、「四角」といった基本的な図形ばかりでなく、道路標識や人の顔、指紋画像、風景画像、車種、建造物、文字といった任意の形状に関連する登録積みの識別子や移動方向や移動速度に関連する動作識別子であれば認識に用いられる特徴量の平均値を用いることで識別子から特徴量への変換に利用できる。
そして、「マル」や「バツ」といった文字列から変換辞書を通じて画像識別子を選定し、画像識別子に関連付けられた音素や音素片列へ変換した後で音声特徴量にして「マル」や「バツ」が発話されている個所を探す検索を行ったり、「マル」や「バツ」の画像識別子に関連付けられた画像特徴量から「マル」や「バツ」の表示されている個所を探すといった異なる目的の識別子間を相互に変換した検索を行ったりすることが出来るようになる。
また、任意の画像を検索対象とする場合であれば、その画像を細分化し周囲の形状や色相にあわせて画像素記号列や画像素片記号列といった識別子を構成してもよく、識別子の配列を画像特徴による空間的な前後左右の変化に合わせて識別子の遷移確率を求めて最適な識別子列を構成したり、それらの特徴の時系列的変化に応じて動作識別子を最適な空間的時系列的配置の識別子列に変更したりしてから特徴量を構成してもよい。
≪特徴量同士や識別子列同士の一致を評価する方法の例≫
次に、検索に必要な特徴量同士や識別子同士の一致を評価する方法について説明する。
まず、特徴量同士を評価する方法として距離関数を用いる方法がよく知られており、一般的に特徴量はベクトルで構成されているため特徴量同士のユークリッド距離を測る。より具体的には、同じ特徴抽出方法で得られた第1の入力ベクトルと第2の入力ベクトルに関し特徴ベクトルにおける各要素の差の二乗から累積を求め距離とする。なお、その他の各種距離関数は別途記載するが、このように距離関数に同じ特徴抽出方法による同次元数のベクトルを二つ与えることでベクトル間距離を測ることができる。
なお、一般的に特徴量と識別子の距離を測る場合には同じ母集団に分類された特徴量の平均ベクトルが評価基準となる標準パターンが用いられており、被評価入力特徴ベクトルと評価用基準となる標準パターンとの距離を測ることで母集団重心との距離を評価する方法が一般的によく知られており、実装に依存して任意の方法を用いてもよく、母集団の平均と分散から3σ境界や統計的検定境界や経験値による境界等を設けて母集団に帰属しているか否かを評価しても良い。
このように、公知の任意の方法で特徴量同士の距離は簡単に求めることができるが、特徴量同士の距離を特徴量に関連する識別子の一致不一致評価に安易に用いることはできないため、利用者は任意の閾値を設定する必要があり、例えば同じ母集団に分類された標本の平均特徴量と標準偏差に対して被評価用入力特徴量が3σより大きく乖離していれば不一致、小さければ一致とすることで特徴量と特徴量に伴う識別子の一致不一致が判別できるようになり「索引共起情報」と「検索条件共起情報」との一致や類似性も評価できるようになる。
次に、識別子列同士の一致不一致を評価する方法としてはDPマッチングなどがよく知られており、距離の大小や確率の高低を比較するために任意数の識別子の組合せによる任意長の識別子列の中から正しい識別子列を選択することができる。より具体的には「a,a,a,a,b,b,b,b」と「a,a,a,a,a,a,b,b」は100%出現する記号と順序が一致し「a,a,a,a,b,b,b,b」と「a,a,a,c,c,b,b,b」は75%一致すると評価される。なお、識別子列の一致評価にはCDPやShift−CDP、mp−CDP、RIF−CDP、Self−applicative−CDP等といった任意のマッチング関数を必要に応じて実装に用いてもよい。
このDPマッチング(動的計画法)によれば、二つの記号列における要素間の対応付け(整列化)を行いながら効率的に類似度を計算することができるため、被検索側記号列と検索要求記号列との一致率をパーセンテージであらわすことができるようになる。
この際、複数のフレームからなる識別子列において各フレームの識別子が一致すれば「0」、不一致なら「1」として評価結果を構成し、フレーム数分の評価結果の累積を生成し、全てのフレームが一致すれば累積値は「0」で不一致度は0%となり、全てのフレームが不一致であればフレーム数と累積値は等しくなり不一致度100%と評価できる。
なお、一般的にサンプルのフレーム長はまちまちなので、DPマッチングを行った結果の累積距離を双方のフレーム数の和で割った値を用いることにより長さの違いを補正することが出来る。そしてサンプルに対し任意の識別子種別に応じた標準テンプレートとのマッチングを順次行い評価することで、マッチング関数の結果値としての距離が最も小さい(累積距離が最も小さい)つまり一致率の高い識別子が認識結果として出力可能となる。
この際、時間軸においてフレームごとに出力される識別子が連続して同じ場合、時系列的にフレーム間で識別子が変化したことを検出して連続する識別子をまとめることにより索引付けを行ったり、連続するフレーム数を一致度評価の重み付けに利用し、同じ識別子の重みの差が少なければ識別子が一致したと評価したり、時系列的な識別子の母集団重心からの距離を特徴量として時系列における複数の識別子距離の遷移を用いて一致度評価関数を構成し、120秒ごとに1フレームの識別子情報を20秒ごとに1フレームに減らしたり逆に240秒ごとに1フレームへ増やしたりしてもよいし、特徴量平均や分散や呼称文字列や音素列や音素片列によるハッシュ値やそれらのハッシュ値同士のDPによりマッチングを行っても良いし、識別子の連続する区間の距離評価関数から出力される距離や距離平均を識別子の境界評価に利用してもよい。
また、正しい識別子列が選択されるということは正しい識別子列Xと比較対照である識別子列Vの距離が最小になったり確率が最大になったりすることであり、識別子列が特定のX列であるとあらかじめ解っている標本識別子列Vに対して、識別子列X列、識別子列Y列、識別子列Z列に対する一致評価をマッチング関数により行い結果として最も一致度が高いとして選択された識別子列がX列であれば認識が成功と判断される。
また、前述の識別子が一致しているか否かをいったん特徴量に変換し距離で評価する方法を用いれば、見かけ上異なる識別子の距離を評価することも可能であり、距離の累積により連続した特徴量に変換された識別子同士の距離を評価することで検索を実現できる。そして、特徴量同士の距離が近ければ「0」に近く一致を意味し、逆に大きな数であれば不一致を意味し、連続したフレーム数で割ることにより正規化も可能となり、定量化可能となる。もちろん、サンプルの平均と分散から3σ以内であれば一致したと評価したり、計算の仕方として逆数を取ったり、一致すれば「1」という論理構造を逆転させた一致評価方法を用いたりすることで評価方法を実装に応じて変更することも可能である。
また、一般的によく知られている方法としてはDPやCDPといった方法や音声や音楽、映像に特化した検索方法や一致評価方法がある。これらの方法は色々な応用事例の紹介や特許出願がなされており、実装に依存して任意の方法が選択できる。
そして、識別子の時系列的変化はDPやCDPといった一致度評価手順により出力され、得られた評価値を用いて一致度合を画面上に表記し順位付けし、一覧として表示しても良いし、音声合成によりアナウンスしても良い。
≪情報検索方法の例≫
次に、本発明に基づく装置による検索について説明する。
本発明による検索装置は各種コンテンツに対して前述のように索引付けが行われているものとする。この索引付けは情報の収録時に適切な単位時間(例えば16ミリ秒)ごとに索引付けを行って収録されたテレビ放送番組のようなリアルタイム配信情報でも良いし、それらを集約してフレーム間の変化のあるところのみを記録しても良いし、これらの索引情報をEPGやBML、RSS、文字放送などで配信しても良いし、DVDのファイルに関連付けて併記しても良いし、文章ファイルであれば単語ごとや文ごと、節ごとや章ごとに索引情報を構成しても良い。そして、索引付けされた情報は索引付けに用いた識別子に合うように利用者の入力を識別子に変換することで検索を実行する。
次に、本検索装置は音声・文字列入力のステップを実行して索引付けされたコンテンツに対し検索条件を指定する。この検索条件の指定は、大きく分けて、音声によるもの、文字列によるもの、動画や静止画によるものがある。そして、音声による検索では、利用者発話や検索に使用する音声から音素や音素片、感情識別子を認識し音素や音素片列により直接検索を実行する方法と、認識された音素や音素片を用いて識別子変換辞書を参照し、音素列や音素片列に関連付けられた他の特徴量や識別子を検索条件に含ませる方法と、認識された音素や音素片に基づいて命令辞書を参照し、検出された命令を除いた音素列や音素片列に関連付けられた他の特徴量や識別子を用いて検索する方法とがあり、認識される感情識別子に基づいて利用者の感情に配慮した処理を行っても良い。
そして、検索文字列による検索は、検索文字列から直接検索を実行する方法と検索文字列を用いて識別子変換辞書を参照し、検索文字列に関連付けられた他の特徴量や識別子を検索条件に含ませる方法と検索文字列に基づいて命令辞書を参照し、検出された命令を除いた検索文字列に関連付けられた他の特徴量や識別子を用いて検索する方法とがあり、検索文字列を音素列や音素片列に識別子変換辞書を用いて変換して検索を実施してもよいし、認識される感情識別子に基づいて利用者の感情に配慮した処理を行っても良い。
そして、動画や静止画による検索は、利用者撮像による映像や動画や静止画から検索に使用する画像識別子や動作識別子を認識し画像識別子や動作識別子により直接検索を実行する方法と認識された画像識別子や動作識別子を用いて識別子変換辞書を参照し、画像識別子や動作識別子に関連付けられた他の特徴量や識別子を検索条件に含ませる方法と認識された画像識別子や動作識別子に基づいて命令辞書を参照し、検出された命令を除いた画像識別子や動作識別子に関連付けられた他の特徴量や識別子を用いて検索する方法とがあり、認識された文字列や画像氏関連識別氏や動作識別子を識別子変換辞書を用いて音素列や音素片列に変換して検索を実施してもよいし、認識される感情識別子に基づいて利用者の感情に配慮した処理を行っても良い。
これらの検索条件構成方法に共通する点は、記号化・識別子化されていない情報はいったん記号化・識別子化したのち識別子変換辞書を経由して、関連付けられた他の識別子に変換され、検索条件に加えられるところにあり、変換辞書から獲得した識別子に基づいて必要であれば、その識別子の平均特徴量に変換することで特徴量を用いた検索に利用しても良く、太郎さんの顔画像を提示し認識された名前に基づいて音声検索することで太郎さんが誰かに呼ばれているシーンを探したり、太郎さんを呼んでいる声が花子さんの声質であることを条件に加えることで花子さんが太郎さんを呼んでいるシーンを探したりすることが出来る。なお、辞書による変換方法は前述の『辞書構成の例』および『識別子特徴量変換』、『特徴量識別子変換』の項目を参考されたい。また、ここで取得される検索条件は利用者の指示により入力される情報であって、映像や音声に限らず静止画や文書情報、EPGやBML、RSS、文字放送などの情報を利用して特徴量や識別子を構成してもよい。
次に、検索の実施手順を説明する。まず、情報入力部30や通信回線部50もしくは交換可能な記憶媒体を用いた記憶部から取得した検索識別子列や文字列であれば辞書抽出部を参照して検索に用いることの出来る識別子列に変換したり、前述の『識別子から特徴量に変換する方法の例』に基づいて特徴量に変換したりして検索に適した検索条件を入力するステップS1001を実行する。
そして、発話音声や検索サンプル画像といった自然情報による検索条件であれば特徴抽出をしたり、抽出された特徴量を用いて識別子を認識したりして検索に用いることが可能な情報をステップS1001で構成することにより、コンテンツ情報の索引と同じ指標に基づいて利用者指定の検索条件に対する識別子や特徴量の選択を行い、検索条件を構成するクエリ生成ステップS1002を実行する。この際、検索に利用可能な各種識別子や各種特徴量を組合せることで一般的な文字列のみによる検索条件に変換し条件付けを施しても良い。
より具体的には、音声であれば発話や音声ファイルの入力により音声情報を音素列や音素片列へ変換や認識をしたあとで、音素列・音素片列命令変換辞書を参照して検索条件から命令に該当する発話部分を抽出削除し、残りの音素列・音素片列を検索用に利用して検索を行ったり、映像であればカメラやファイルからの画像指定により、画像識別子や画像特徴量へ変換や認識をしたあとで検索条件の情報に利用したり、文章や単語であれば文章や単語から制御命令単語を抽出した残りを検索用に音素や画像識別子への変換を実施して視覚や聴覚などの異なる情報を組合せた検索条件としての「検索条件共起情報」を構成して検索装置に与える。
この際、文字列による検索条件であれば「海の画像検索」という文字列により装置に指示し「海」と言う文字列と「画像検索」という命令文字列がある場合、命令文字列を除外した「海」という文字列に関連付けられた画像特徴量を用いて色特徴と動作特徴の共起情報による検索条件を構成したり、「海」を検出するために色識別子と動作識別子の共起情報により構成された評価関数によって検索条件を構成したり、「海」の評価関数により索引付けが行われていれば「海」識別子への変換により検索条件を構成したりすることによって「検索条件共起情報」を構成してもよい。
また、音声による検索条件であれば「音声検索、アイ シャル リターン、爆発音」と利用者が音声指示し命令発話音素列に該当する「音声検索」という命令辞書に登録された発話音素列を除外した「アイ シャル リターン、爆発音」部分の音素列・音素片列で従来方法によりコンテンツ中の爆発音を伴う発話箇所の検出や検索を行ったり、悲しみの感情が共起する「ぼくはしにません!」や「とーびー おあ のっと とーびー」といった台詞の検出や検索を行ったりしても良いし、毎週放送される連続ドラマであれば音階の変化に特定の共起情報の傾向がある場合にテーマソングとの比較を行い一致度が高ければハイライトシーンであると評価するように構成しても良い。
そして、このような検索条件に用いる情報を利用して、同時に使用される検索条件の組合せを用いることで「検索条件共起情報」を構成し「索引共起情報」との一致や類似性を評価するための検索条件としたり、このような「検索条件共起情報」を複数の利用者から収集して「検索条件共起情報」としたり、収集された「検索条件共起情報」を用いて評価関数を構成したりすることが出来る。
次に、記憶部の情報記録蓄積部から索引情報を読込み、この読込まれた索引情報と先ほどの検索条件情報をDPや距離関数などで評価し情報の一致度の高い個所を保存されている索引情報に基づいてコンテンツの選択とコンテンツ内の位置選択を行うために『特徴量同士や識別子列同士の一致を評価する方法の例』に従った検索を実行する検索ステップ(S1003)を実行する。
そして、コンテンツ毎に検索条件と類似度の高いフレーム個所や検索条件と類似度の高い索引個所がそれぞれの識別子や特徴量ごとに検出され、複数の識別子や特徴量の類似度が高いコンテンツ内の位置が検索条件における総和や論理式に基づいた条件設定により順に並べられ検索結果評価に基づいて検索結果の順位付けを行う順位付けステップ(S1004)を実行する。なお、類似度はDPによる一致度や距離評価方法や確率評価方法といった前述の類似性評価方法を組合せて実施しても良い。
この評価は、特に指標を儲けず順位付けしない評価一覧や、単純に各識別子の評価距離や評価確率の総和に従い最大値や最小値を求めて順位付けした評価一覧や、OR式やAND式のような論理式に基づいて絞り込み選択した値により順位付けした評価一覧や、論理式応じて計算した値により順位付けした評価一覧が考えられる。なお、論理式応じて計算した値による評価一覧とは、例えば「(青or緑)and動きの大きい映像」という条件付けは次のような関数で表現する。
A=((b−B)+(g−G))×(m−M)
A:画面内特徴
b:青特徴
B:青特徴平均
g:緑特徴
G:緑特徴平均
m:動き特徴
M:動き特徴平均
このように画面内の画像特徴に関する共起状態を数式により表現することでアンドもしくはオアもしくはエクスクルーシブオアもしくはノットといった論理構造を数式に置き換えることが可能であり、アンドは掛け算、オアは足し算、エクスクルーシブオアは大きいほう、エクスクルーシブアンドは小さいほう、ノットは掛ける−1として数式化することにより特徴量を評価したり、個々の特徴量による共分散行列に基づいてマハラノビス距離を得て評価したり、共起確率や距離関数によって類似性を評価したりすることで共起状態を算術評価することにより検索結果を順位付けし提示することが可能となる。
また、共起状態を共起行列や共分散行列として用い距離評価関数を構成したり、共起確率に基づいて確率関数を構成したり、複数の共起情報を組合せたりすることで共起情報に基づく類似性を評価した検索を行うことが出来る。そして、距離であれば値が小さい場合、確率であれば値が大きい場合に類似性が高いと見なされるため、検索結果の評価として複数の識別子や特徴量に応じた順位付けを実現できる。
なお、この例における青特徴とは画面内で青を中心とした±15度の色相に含まれる画素の全画面中の出現頻度であり、青特徴平均とはコンテンツ・アーカイブ全体での青特徴の平均と考えても良く、緑や赤も同様であるとともに実装に依存するため任意の方法を用いても良い。また、利用者の入力する単語や画像傾向から感性的に得られる単語と特徴量の共起辞書や単語特徴量変換辞書に用いられる関連付けにおける解りやすい事例としては季節ごとに自然における色の出現頻度が、春は薄緑と桜色、夏は深緑と青、秋は黄色と橙色、冬は白と灰色というように、感性に関連付けられた代表的な色特徴を用いて画像を分類するといった方法のように特徴量の組合せが考えられる。
また、動き特徴とは映像の時間軸デルタに基づいた特徴であったり、MPEG4などで用いられる動き特徴ベクトルの大きさであったりしてもよく、現在のフレームから±15フレームといった任意の時間間隔で起きている画像の変化情報に基づく特徴と、それらの特徴のコンテンツ・アーカイブ中での平均であっても良く、これらは任意の正規化や補正がなされていても良く、これらの特徴量に基づいた評価式の構成は実装に依存するため任意の組合せを用いても良い。
この際、色ばかりでなく画像認識技術や音声認識技術を組合せて、得られる顔IDや動きID、画像ID、音素や音素片による識別子を組合せ任意の評価関数を構成することも可能となる。なお、識別子同士の距離評価は前述のDPなどを用いることで可能であり、特徴量同士の距離評価は任意の距離関数で可能であり、識別子と特徴量の類似度評価はHMMや距離関数などに可能であり、前述の識別子と特徴量の記載やそれらの相互変換方法に詳述されている。もちろん、多層ベイズやニューラルネットワークなどの各種評価方式の組合せて効率的な分類を行うことにより性能の改善を図ることも可能である。
次に、ここで得られた検索結果を類似度の高い順に一覧にして利用者に提示し、ランキング付けの指標として類似度の値を利用者が閲覧できるようにする評価結果一覧ステップ(S1005)を実行し、検索結果の一覧を出力部に出力して画面表示したり、通信回線部を経由して利用者端末に送信したりして利用者に提示したのちに利用者が再度検索依頼をしたか否かを評価する利用者処理継続確認ステップ(S1006)を実行する。
このようにして、本発明の「索引共起情報」と「検索条件共起情報」との一致や類似性の評価による共起情報を用いた複合検索が実施されて検索結果を得ることができる。この際、それぞれの検索結果や検索結果として得られた近傍の特徴量に基づく共起情報を用いて「索引共起情報」や「検索条件共起情報」と組合せた共起確率や共起行列により検索に用いる評価関数を構成しても良い。
また、入力された文字列を任意の識別子や特徴量に変換し検索を実行する共起状態に基づいた学習は「識別子再構築の例」や検索結果を用いたり、補助情報としてEPGやRSS、HTML、XML、BML、文字放送との関連付けにより検索結果と補助情報の共起情報を用いたりすることで識別子を学習しても良いし、サーバ・クライアント形式により任意の構成をとり、任意の識別子や特徴量を選択的に用いて検索を実行するサービスを実現してもよい。
また、検索のための文字列を放送受信部やインターネットに接続された情報回線部、記憶部における記録情報からXMLやHTML、MPEG7、RSS、文字放送、BML、EPGといった任意の手段で取得し、それらの文字列に基づいて検索指標となる特徴量や識別子列に変換することで検索を実施しても良いし、サーバ・クライアント形式により任意の構成をとり、任意の識別子や特徴量を選択的に用いて検索を実行するサービスとして実現してもよく検索文字列から検索条件を生成できる。
なお、文字列による検索はそれぞれの特徴抽出方法に関連する文字列識別子変換辞書や識別子特徴量変換辞書を用いて任意の文字列に関連付けられた識別子や識別子の特徴量を選択し利用することで実施され、後述される『識別子の再構築例』で構成された新しい識別子を用いても良い。例えば、出演者の名前を音素列や音素片列に変換してコンテンツ検索をしたり、「アクション映画」という単語からアクション映画に分類されるコンテンツにおける爆発音のコンテンツ内での出現頻度を求め、複数のアクション映画から爆発音出現頻度の平均値を求めてアクション映画評価関数を構成してアクション映画評価関数により索引付けを行うことでアクション映画関数に基づいたコンテンツ検索を実施したりすることができる。
また、検索結果に基づいて任意の特徴量や識別子の共起状態を得るステップがある。この共起状態は共起確率や共起行列、共分散行列を用いることで構成可能であり、例えばある条件下で一致率が70%以上の上位10位以内の共起情報という条件付けにより、共起状態を選別し学習に用いることができる。このように構成された共起情報を利用者が何度も閲覧したり、後述される情報共有方法によって何度も外部から利用されたりする場合この共起情報は利用価値が高いと判断される。そして利用頻度の高い共起情報に特定の識別子を与えることで共起状態に基づく評価関数が構成でき共起学習保存部や評価関数保存部に新しい識別子と特徴量の共起情報や評価関数として記録する。
前述の「青特徴と緑特徴」の共起状態の関数であれば、検索結果として「森と青空」や「海と海岸」といった傾向の映像を得ることができ、動きの大きい場合を踏まえると、「木が大きくゆれる森」、「雲が早く動く森と青空」、「波が激しく動く森が見える海岸線」といった動きの大きな映像の検索がMPEG4などの動き特徴を利用した識別子と組合せることで可能となる。
この検索結果に対し利用者の選択した情報に基づいて学習すると「海」に偏りがある場合、特徴量にも「海」の特徴量への偏りが生じることを利用して識別関数を『識別子再構築の例』にあるように再度構成し、学習される共起情報に反映させることができる。また、水平線が中央にある映像であれば波の動きを伴って画像の下半分よりに青い色が増えるため「海」や「海岸」がある映像特徴に基づく評価関数を構築することができる。
この際、利用者に選択されなかったものや検索結果に否定的意味合いのある利用者の削除指示などに基づいて検索結果を選別することで、検索対象から除外すべき情報群の識別関数を新しく構成でき、先の対象となる検索結果から除外対象の検索結果を取除いたり、ある目的の識別子や条件では共起確率が低いにもかかわらず別の識別子では共起確率の高い識別子を捜して、検索条件に識別子や特徴量を追加したり削除したりすることで検索結果から不要なものを取除き、より効率的な検索結果の提示ができる。
また、検索結果を評価するユーザインタフェースを用いて、利用者が性能の改善を実施できるようにしても良いし、文字列による検索と組合せてコンテンツタイトルやジャンル、監督などのコンテンツ属性との組合せにより検索効率を改善しても良いし、検索条件や識別子や特徴量に基づく共起状態に対して任意の名称を与え、繰返し検索や検出、指示に利用できるようにしたり、それら検索条件や検索式を通信回線経由で交換や配信ができるようにしたりしても良い。
また、EPGやBML、RSS、文字放送を用いる例として、EPGやBML、RSS、文字放送といった放送補助情報から抽出される番組のジャンルやその番組内の映像・音声から抽出された特徴量や発生音素列の出現頻度、環境音の識別子出現頻度を用いて前述のような番組ジャンル識別関数を構成したり、出演者名称と顔認識による顔IDとを関連付け、異なる番組内で共に認識される顔IDと出演者名称を関連付けて共起行列を作り特定の出演者を検出する評価関数を構成したり、出現頻度の高い顔IDとEPGやBML、RSS、文字放送の出演者リストでの記載順とを関連付けて出演者の名称と顔画像を関連付ける評価関数を構成したり、人の発話した音素列や音素片列に基づいた名称をEPGやBML、RSS、文字放送から検出して録画やスキップ再生を行ったりしてもよく、HTMLやXML、RSS、BMLといった任意のマークアップ言語情報を記憶部の辞書情報保存部にある音素記号変換辞書を用いて音素や環境音識別子、画像識別子といった前述の識別子に変換し検索や検出に伴う任意処理を実施たり、それらの利用状況を記録しその記録結果に応じて利用頻度の高い検索条件の共起情報を用いて識別子の再学習をしても良い。
そして、このように構成された識別関数や検索結果、検索結果における共起状態情報は『利用者同士の情報共有手順例』にあるように通信回線部を経由して他の装置から閲覧取得できるようにP2Pソフトなどの技術を用いて再利用したり、任意のサイト上にCGIや任意のWeb技術などを用いて公開したりすることにより、任意の利用者が課金などを伴い利用したり、記憶媒体に入れて販売したりしてもよい。
この際、利用する情報の精度や内容の細かさ、処理の早さ、利用回数、利用時間、などによって利用金額を変えたり、本発明の利用によって得られた検索結果を利用する行為に対して課金したり、金額を変えたりしても良いし、それらの情報の価値を守るために暗号化したりしても良い。
また、再利用頻度の高い共起状態情報や評価関数や評価パラメータ類を自装置の記憶部に保存したり、必要に応じて通信回線部経由で外部から取得したり、取得した評価関数や識別子を用いて生成されたメタ情報を他の利用者に提示したり販売したりしてもよい。
また、検索には多少の時間がかかるため、一般的な広告や利用者の日ごろ利用する頻度の高い特徴量や識別子の組合せ、検索キーワードに関連付けられた識別子や特徴量の組合せによって、利用者の日ごろの利用コンテンツと類似度が高いと判断できる広告を検索中や一覧作成中、検索条件入力中に提示してもよい。
≪識別子の検出に伴う任意処理の例≫
次に、本発明に基づく装置による検出に伴う任意処理について説明する。
まず、利用者は任意処理のきっかけとなる検出条件を検索条件と同様に入力する。入力は音声であったり、映像情報であったり、文字列であったり、本発明により得られた識別子であったり、それらの組合せであっても良い。この入力に従って、本発明は検出条件を検索のときと同じ手順で特徴量や識別子の組合せにより共起状態を構成し検出条件を設定するステップを実行する。
次に、構成された検出条件に基づいて放送波やネットワーク、撮像装置から獲得される番組を取得しながら、特徴量と特徴量に基づいた識別子により、索引付けを実施しながら情報を装置内の記憶部に収録する。そして、索引付けされた収録情報を収録と同時に検出条件の共起情報と比較し一致度合を評価する。この評価は前述のベイズやHMM、マハラノビス距離、ユークリッド距離、DPといった前述の識別子同士の距離や識別子列同士の一致度や特徴量同士の距離を評価する任意の評価方法を用いても良い。
この評価結果として、検出条件に基づいた特定の識別子や識別子列、特徴量における重心からの距離が1σ以内に入った場合や特定の識別子や識別子列、特徴量である確率的に60%である場合や識別子列同士の一致度が60%を越える場合を条件として、登録された任意の処理を実行する。この60%という値は音素認識や感情認識画像認識において認識結果が一般的に60%以上あれば実用化を考慮できる点に起因しており利用者環境によって任意の率に変更してもよく、認識率が連続して20%未満の場合であれば現在の処理を停止したり、早送りや削除の対象であることを示すフラグを設定したりするといった処理を行っても良い。
また、利用者に興味のあるシーンのみを検出して処理を実行するのではなく、悲鳴と共に画面内に内臓や血液が表示されているときの特徴量を検出し、恐怖映画などのバイオレンスシーンや公序良俗に反するシーンを早送りしたり、映像にモザイクなどの加工を加えたりすることで、利用者にとって不快なシーンを回避するように共起情報による検出機能を利用しても良い。
このようにして、放送局やネットワーク、撮像装置から獲得される情報を認識し、コンテンツ情報が利用者の目的とするものであるか否かを検出し、検出に伴い制御部から装置制御を行うことで、録画や再生、早送り、検索、利用者の別端末への告知、視聴中の画面への通知、装置の移動したり、アナウンスを流したり、メールを配信したり、RSSを生成したり、ブックマークを行ったりすることが可能となる。
続けて、より詳しくは後述するが、商品応用例として説明する。まず、利用者は検索条件を入力する。入力された検索条件は、EPGやBML、RSS、文字放送を参照して利用者の入力した情報に関連付けられた、配役名を獲得し、音素や音素片検索を前述の方法で実行する。この結果、常時録画を実施しながら配役名が発話されている箇所から一時間分だけ過去に遡って保存したり、EPGやBML、RSS、文字放送によって番組ごとやCM時間ごとや画面の特徴量の変化ごとに削除対象範囲を確定したり、そのような変化ごとにコンテンツ内に境界を設け利用者が指示するための指標にしたりしてもよい。
このように、コンテンツにおける各種識別子の共起状態を用いて検出を施すことで、コンテンツに対して複数の検出箇所から指定範囲を構成して保存対象と削除対象に分類したり、検出されたところから遡って映像や音声の情報を保存したり、利用者の指定により共起情報から学習した嫌なシーンのスキップ再生を実施したり、検出された個所から数秒前まで戻して再生たりすることが可能になる。なお、この例は後の商品応用としてもより詳細に解説してある。
また、本発明による共起状態の検出技術を用いて、EPGやBML、RSS、文字放送、MPEG7から獲得した俳優や監督などの関わっている作品の広告を実施したり、スキップ再生中に広告を実施したり、任意の共起状態の検出条件で広告をその時節に合わせて新しいものや季節や時刻に適切なものに差換えたりしても良い。
≪検索・検出・索引付けに基づく識別子学習の例≫
次に、検索・検出・索引付けに基づく識別子学習について説明する。
前述の装置構成と索引や検索結果、検索条件における共起状態に基づいた学習を行うステップにより、『識別子再構築の例』などを含め任意の識別子及び/又は任意の特徴量の共起状態である「検索の結果に基づく共起情報」や「索引付けにより抽出される共起情報」や「利用者指定の検出条件及び/又は検索条件に基づいた共起情報」を共起行列や共分散行列として求め共起確率による確率評価関数や固有値・固有ベクトルによる距離評価関数やHMMによる学習や多変量解析による分類と評価関数の構築といった方法により構成しIDや利用者指定文字列を定義することにより新しい識別子を学習することができる。
まず、索引付けを実施している場合であれば、時系列的に近接する専用索引データベースや索引ファイルやコンテンツファイルの索引・属性エリアに記録された特徴量及び/又は識別子を収集するステップと収集した特徴量や識別子の共起状態に基づいて共起確率や共起行列や共分散行列を構成するステップとが実施される。近接するフレームとは利用者の定義により実装に応じて任意に指定できるが、細かい粒度が必要であれば16msといったビデオ映像の1コマを単位としても良く、逆に3秒(180フレーム)という時間単位を区切っても良く、統計的に距離の離れた特徴が検出されたフレームからフレームまでの区間に区切っても良く、このステップにより獲得された情報に基づいて共起情報を構成し、HMMや共分散行列により学習を行ったり距離関数を構成したりした後に、学習や距離関数による評価関数を共起学習保存部や評価関数保存部に保存する。
また、検索結果や検索条件、検出条件を利用するのであれば、検索結果として提示した情報や検索条件や検出条件として指定した情報に関し、利用者が選択したコンテンツにおける識別子や特徴量の共起情報をサンプルとして収集するステップを実行する。そして、収集により獲得したサンプルに基づいて識別子や特徴量の共起情報を取得する。共起情報の組合せは別途記載されている内容や後述の『複数の識別子と複数の検索条件に伴う索引付けおよび検索、任意処理の実施例』にあるように幾つもの組合せが考えられる。そして、共起状態に基づいてベイズやHMMによる学習処理を行い、学習結果として得られた学習パラメータや距離関数を記憶部の共起学習保存部や評価関数保存部に保存する。また、検索条件や検出条件も同様に検索条件や検出条件の指定状況をサンプルとして収集することにより学習サンプルを獲得し、学習サンプルにより評価関数を構成できる。
この際、ニューラルネットワークやファジー、遺伝的アルゴリズム、カオス、フラクタルといった任意の学習アルゴリズムを組合せたり、再利用される共起情報に関して、共起情報同士の共起情報を再帰的に利用し評価関数を構成したり、検索評価条件に用いる共起行列の各要素を共起確率や共起行列の要素値の高低に応じて利用したり、検索条件や検出条件に用いる共起行列の各要素を遺伝的アルゴリズムの有効無効フラグに用いたりしても良い。
また、共起行列の範囲指定方法として、1作品もしくは1番組、任意の識別子や特徴量が共起している範囲、特定の識別子の出現に基づいたセグメントによる指定範囲の画像特徴量や音声特徴量を分類・分析・多変量解析しそれらの特徴量の出現時間を評価したり、分類された情報から共起行列や共起確率共分散行列を構成し評価関数をつくり、評価結果として得られた識別子の出現頻度を求めたり、それらの識別子の単位時間における出現ヒストグラムからシーンの特徴や評価関数を構築し評価するといった方法を用いても良く、それらを用いた検索条件よって抽出された検索結果に関し検索条件以外の識別子や特徴量において共起確率の高いもの(例えば70%以上)や距離の近いもの(例えば距離平均の3σ以内)を新規対象として共起情報構成のステップで学習に用いる方法や、逆に帰属確率の低いもの(例えば3σより離れるもの)を除外して共起情報構成のステップで学習に用いる方法が考えられる。
これらの識別子再構築に用いる特徴量は、評価関数の出力値、HMMの出力確率、識別子列同士の類似度といった値に基づいて任意に構成される。本実施例においては、前述にあるような色の出現頻度や感情識別子の出現頻度、人の動作や仕草、歩き方、表情といった画像特徴量や音素や音素片、音階、和音コードといった特徴量ベクトルの共起状態を共分散行列として組合せて用いてもよく、識別子の共起行列を構成してもよく、このような方法を用いることで後述される「複数の識別子と複数の検索条件に伴う検索および任意処理の実施例」のような検索を実現できるようになる。
そして、このようにして得られた特徴量や識別子の共起情報に対し任意のラベル付けを行うことにより評価関数に文字列が与えられ記憶部に保存され学習結果がされる。なお、識別子や特徴量に与えた文字列を新規のXMLなどにおけるマークアップ言語におけるタグ名に用いたり、与えられた文字列自体を音素や音素片のような識別子記号列に変換し利用者からの音声入力に対応できるようにしたり、表情識別子や形状識別子、動作識別子などと関連づけ評価関数を構成し利用者の映像入力に対して対応できるようにしたりしてもよい。
より具体的には、検索結果として提示した一覧に対し利用者が繰返し選択を行いコンテンツの閲覧を行った検索条件において、検索条件との距離評価結果がその共起情報の重心から見て3σ以内であったり、確率評価結果が80%以上であったりする場合、選択されたコンテンツの対象範囲における索引の共起情報を共起行列や共起確率としてとらえ、それらの索引に用いられた識別子や特徴量に基づいて新しく評価関数を構成する。評価関数は例えばベイズ識別関数であったり、マハラノビス距離関数であったり、HMM関数であったりしてもよく、それらの新規に構成された評価関数により帰属確率や評価距離といった尤度を得ることが出来る。
このように、本発明の特徴は従来技術としての各種識別子の認識や特徴抽出方法、フレーム幅や時間幅の指定や範囲選択方法、識別子列のマッチング方法にあるのではなく、音素や音素片と感情識別子を踏まえた他の音響識別子や画像識別子の共起情報に基づく索引付けと、索引付けを利用した検索・検出と、検出により開始される録画や再生などの処理と索引付けにおける共起情報の学習と検索結果の利用状況に基づく共起情報の学習とその共起情報の学習によって得られた新規の識別子および新規の特徴量とそれらの識別子や特徴量を音素列や音素片列を用いて検索条件に指定できる識別子変換辞書にある。
≪識別子再構築の例≫
次に、本発明に基づく識別子再構築方法について説明する。
本発明に基づく装置により識別子を再構築するには出力されたDPの一致度の値、HMMの出力確率の値、ベイズ識別関数の出力値、その他特徴量を評価するための距離関数の距離値や検索結果のうち利用者に利用されている検索結果に関連付けられた識別子や特徴量といったものを複数組合せて特徴量とし、新規のベイズ識別関数やHMM確率評価関数、距離評価関数、確率評価関数、尤度評価関数などを構成することで実施でき、このような識別子再構築方法は前記の特徴量を踏まえ多層ベイズ若しくは多層ニューラルネットワーク、多層HMMなどの任意の学習方法と認識方法を実装に応じて組合せ利用できる。
この際、識別子や特徴量の関連付けによる共起情報を識別関数の構築に用いても良いし、以下のような構成で共起情報を組合せても良く、識別子の共起確率を特徴量とする学習、特徴量の共分散行列を特徴量とする学習、識別子の共起確率と特徴量の共分散行列を特徴量とする学習、距離関数の出力を特徴量とする学習、識別子を評価したHMMの出力確率を特徴量とする学習、識別子を評価したHMMの遷移確率を特徴量とする学習といった方法を組合せてHMM学習パラメータとして与えたり、共分散行列を構成して固有値と固有ベクトルを求め評価関数を構成することで評価関数のパラメータを学習したり、平均値を求めて距離評価に用いる評価関数のパラメータを学習したりすることで、任意の識別子や特徴量に基づく学習を実施し識別子の再構築、利用者が頻繁に指定する検索条件や検出条件に伴う識別子や特徴量の共起情報を用いる識別子の再構築、利用者選択後長時間利用される検索結果に伴う識別子や特徴量の共起情報を用いる識別子の再構築を行うことができる。
例えば、感情識別子と音素片であれば、感情識別子として、喜怒哀楽の4個と音素片約400個の識別子の認識結果を得る。次に、音素片列に対しDPマッチングにより「k/o/r/a」と発話している部分を検索する。この結果、「k/o/r/a」と発話している部分の周囲で生じている感情識別子を獲得することができ共起情報を構成できるため、怒りの感情と音素片列「k/o/r/a」の共起状態を学習することや共起状態における特徴量を学習し識別子を新しく「怒っている[k/o/r/a]」という識別子や「喜んでいる[k/o/r/a]」という識別子を構築することが可能となる。なお、再構築による学習に用いる情報はDPマッチングの一致率と感情特徴や感情識別子の一比率を用いたり、音素列や音素片列の評価関数と感情識別子の評価関数による尤度や確率、距離を用いたりしても良い。この際、例えば、映像特徴や画像特徴、動画特徴や静止画特徴、音階特徴や環境音特徴といった特徴量の抽出方法による関連付けの組合せが可能であり、感情と発話に伴い特徴抽出された人の顔の特徴量から感情を伴う表情識別子を構成してもよい。
なお、識別子を再学習する際の範囲は識別子の境界である場合や特徴量の平均から3σ以上はなれた場合、特徴量の時間的空間的変化が時間的空間的に異なる情報位置の時間的空間的変化の平均より3σ以上はなれた場合、その他の統計的な検定において有意な乖離を持つ場合、検索対象となった情報の周囲の情報を含めた平均から3σ以内に情報がある場合、任意の利用者指定時間幅を用いる場合といった指定の境界条件に基づいて、識別子を再学習するための対象となる情報範囲を構成しても良い。
識別子の関連付けの例としては、番組情報と表示位置の関連付け、番組情報と感情の関連付け、番組情報と音素、音素片の関連付け、番組情報と風景画像の関連付け、番組情報と文章の関連付け、番組情報と環境音の関連付け、番組情報と音階やテンポ、和音やコード進行の関連付け、番組情報と表情画像の関連付け、番組情報と物体画像との関連付け番組情報と動作情報との関連付けや、表示位置と感情の関連付け、表示位置と音素、音素片の関連付け、表示位置と風景画像の関連付け、表示位置と文章の関連付け、表示位置と環境音の関連付け、表示位置と音階やテンポ、和音やコード進行の関連付け、表示位置と表情画像の関連付け、表示位置と物体画像との関連付け、表示位置と動作情報との関連付けや、 感情と音素、音素片の関連付け、感情と風景画像の関連付け、感情と文章の関連付け、感情と環境音の関連付け、感情と音階やテンポ、和音やコード進行の関連付け、感情と表情画像の関連付け、感情と物体画像との関連付け、感情と動作情報の関連付けや、音素、音素片と風景画像の関連付け、音素、音素片と文章の関連付け、音素、音素片と環境音の関連付け、音素、音素片と音階やテンポ、和音やコード進行の関連付け、音素、音素片と表情画像の関連付け、音素、音素片と物体画像との関連付け、音素、音素片と動作情報の関連付けや、風景画像と文章の関連付け、風景画像と環境音の関連付け、風景画像と音階やテンポ、和音やコード進行の関連付け、風景画像と表情画像の関連付け、風景画像と物体画像との関連付け、風景画像と動作情報の関連付けや、文章と環境音の関連付け、文章と音階やテンポ、和音やコード進行の関連付け、文章と表情画像の関連付け、文章と物体画像との関連付け、文章と動作情報の関連付けや、環境音と音階やテンポ、和音やコード進行の関連付け、環境音と表情画像の関連付け、環境音と物体画像との関連付け、環境音と動作情報の関連付けや、音階やテンポ、和音やコード進行と表情画像の関連付け、音階やテンポ、和音やコード進行と物体画像との関連付け、音階やテンポ、和音やコード進行と動作情報の関連付けや、表情画像と物体画像との関連付け、表情画像と動作情報の関連付けや、物体画像と動作情報の関連付け、画像情報と音響情報の関連付けおよび前述された任意の識別子や特徴量との関連付けが可能であり、これらの関連付けによる共起状態の学習を行うステップによって実施されるとともに、共起学習保存部に保存されマハラノビスによる距離評価やHMMによる確率評価、ベイズ識別関数による距離評価やそれらの組合せによる尤度評価が実施され、特徴抽出部である識別子特徴量変換部におけるその他の識別関数に用いられたり、複合検索結果生成処理にあるその他一致度評価に用いてもよい。
このような組合せによる評価結果に従い、例えば悲鳴や爆発音、笑い声、感嘆音などの音声区間を集めることで「悲鳴識別関数」や「爆発音識別関数」、「笑い声識別関数」、「へー」といった音声を識別する「感嘆声識別関数」を構築でき、それらの独自識別関数を組合せて音素認識と動画特徴と感情特徴を同時に索引付けし検索を行えるようにしたり、「笑顔関数」や「泣き顔関数」をつくり同様の検索を行えるようにしたり、それら識別関数の識別結果による共起状態の学習を行えるようにしたり、特定の番組における最初の数秒間のタイトル画像特徴と音素認識による番組タイトル発話認識により特定番組を認識・検出できる評価関数構築を行えるようにしたり、遺伝的アルゴリズムの遺伝子フラグ指定に共起状態に基づいた共起頻度の高い識別子の有無を利用したりしてもよい。
そして、1番組中に出現する識別子や特徴量の頻度や偏りにより番組のジャンルに伴う画像と音声の傾向を分析することが可能になるとともに、分析結果に基づいた共起情報を学習し「ホラー映画識別関数」や「アクション映画識別関数」、「コメディー番組識別関数」、「ウンチク番組識別関数」を構成することで新しい識別子や識別関数を構築することが可能となり、後述される「複数の識別子と複数の検索条件に伴う検索および任意処理の実施例」のような従来にない検索や検出が実現される。
次に、検索効率を上げるために検索条件を自律的に追加し再構築する具体的な方法として、検索条件としての入力された特徴量や識別子が検索結果として得られたコンテンツに対し高い類似度(例えば80%)を示し、同一のコンテンツに関連付けられた検索条件に指定されていない他の識別子や他の特徴量の類似度も高い場合(例えば80%)、検索条件に指定されていない他の識別子や特徴量を指定された検索条件と共に共起情報保存部に記録する。
次に、このような共起状態に基づいて関連付けられた情報の累積がある一定値(例えば1000件であったり、評価次元数のn倍であったりしてもよい)を越えた時点で共起情報による共起行列を構成し、共分散行列や共起確率を求め距離評価関数やHMMによる学習を実施して評価関数を再構成することができる。この際、分散の多い情報や確率の低い情報は計算から除外して評価次元数を減らして計算効率を上げても良いし、コマンド制御のなどの定型句や特定単語の場合であればコマンドを文字列から展開された音素列や音素片列ばかりではなく装置による認識に対する利用者の肯定若しくは否定の指示に伴い、認識された音素列や音素片列を用いて、音素や音素片識別のための評価関数テンプレートを更新しても良い。
より具体的には、音素や音素片であれば「わー」と認識される音素・音素片による識別子列において前後数秒間に爆発音が環境音として1000回の検索において80%以上検出された場合、「わー」の音素や音素片は共起情報として学習の対象になり評価関数の再構成により「爆発音」を検索する場合に「わー」と言う音素列も同時に評価するようになるとともに、画像特徴として放射線状の動作特徴が1000回の検索において80%以上検出された場合には動作特徴量も共起情報の学習対象として用いられ「わー」の音素や音素片と「放射線状」の動作特徴と「爆発音」環境音識別子や効果音識別子の共起状態によって識別関数を構成し爆発シーンの検索を実施してもよく、文字列による検索依頼を実行するために「爆発シーン」と表記された文字列を評価関数に関連付けて利用したり、音声発話による検索依頼を実行するために「b/ a/ k/ u/ h/ a/ ts/ u/ sh/ i/ i/ n」と音素や音素片列による識別子を与えて音声利用できるようにしたりしても良い。
また、感情識別子であれば「わー」と認識される音素・音素片による識別子列が感情識別子の「悲しみ」と同時に認識された場合、共起情報として識別子の共起行列を構成して共起確率を求める方法や特徴量ベクトルの共分散行列により固有値・固有ベクトルを求めベイズ識別関数やマハラノビス距離を構成する方法を用いることができる。そして、検索対象となるコンテンツ情報に対して尤度評価関数を構成することにより「悲しいシーン」を検索する場合に「わー」と言う音素列の有無を評価可能となるとともに、同じ「わー」という発話を検出しても「喜び」の感情が認識されているか否かによって、利用者の「悲しいシーン検索」とは異なるシーンとして検索結果から除外することで、感情に伴い質の異なる検索結果を提供できる。この際、入力された検索条件の文字列が顔文字と呼ばれる「(^^)」や「(;;)」といった表記を用いることで「喜び」や「悲しみ」といった感情識別文字列として利用し、文字列識別子変換辞書を経由して感情特徴量や感情識別子に変換し検索に用いても良い。
そして、このように構成された尤度評価関数は共起学習保存部や評価関数保存部に評価関数のパラメータやテンプレートを保存するとともに指定文字列や指定単語と文字列や単語の発話に基づく音素列・音素片列との関係を辞書部に登録される。また、検索条件の利用価値を評価するために通信回線経由で利用できる検索条件の第三者利用頻度を学習サンプルに用いて利用価値の評価を行っても良いし、「各種識別子の出力確率」及び/又は「各種識別子の共起確率」及び/又は「各種識別子の遷移確率」及び/又は「各種識別子の共起確率」及び/又は「各種特徴量」とを組合せて一組の「特徴量」とし、共分散行列に基づいて固有値固有ベクトルを求め評価関数を構成したり、それらを特徴量としてHMMに与えて学習させたり、各種多変量解析を用いてクラスタリングを行って母集団を構成し母集団帰属評価関数を作ったり、遺伝的アルゴリズムにおいて、利用品度の高い検索や検索結果、索引付け処理中に生じる共起確率の高い識別子や特徴量及び、識別関数から得た距離の平均からの乖離状態が3σを超える識別子や特徴量及び、平均確率からみて特に共起確率及び/又は出現確率の高い識別子や特徴量を遺伝子フラグとして用いても良い。
また、感情の認識に伴い音素や音素片の認識辞書を切り替えたり、認識される環境音の変化に伴い、音素や音素片の認識辞書を切り替えたり、認識される風景画像に伴い表示物体の画像認識辞書を切り替えたり、認識される画像に伴い音素や音素片の認識辞書を切り替えたりといった、共起状態に応じた辞書の切換を行っても良く、本発明によって得られた共起関係に基づく情報を感性情報としてとらえ、コンテンツ情報の検索に利用しても良い。
なお、ここに挙げた事例は本発明を実行するための例を説明しているため、上記以外の複数の識別子と複数の索引付けおよび検索条件に伴う検索、検出、検索結果が考慮され、詳細は任意処理例や製品応用例として別途後述する。
<本発明の応用例について>
本発明に基づいた装置を利用する上での応用例として、サーバ・クライアント環境を考慮した「端末及び基地局に用いる情報処理装置の手順例」、利用者同士の情報交換や共有により利便性の改善を考慮した「利用者同士の情報共有手順例」、本発明を利用した「ユーザインタフェースの例」を記載する。
≪端末及び基地局に用いる情報処理装置の手順例≫
まず、基地局と端末に関わるサーバ・クライアントによる処理システムについて説明する。本装置と端末は図20のように構成され、利用者端末と配信基地局と端末や基地局に制御されるロボットなどの装置や制御するリモコンにより構成され、リモコンやロボットは端末の一形態や基地局の一形態として利用されても良く、利用者は端末に対して音声を発話し、端末若しくは基地局で認識処理のために以下にあるような任意の処理手順を実行する。
第1の方法では、発話により得られた音声や撮像された映像から特徴量抽出を実施し、特徴量を対象となる中継個所や基地局装置に送信し、特徴量を受信した基地局装置はその特徴量に応じて音素記号列及び/又は音素片記号列と感情記号列、その他画像識別子を生成する。そして、生成された記号列に基づいて、一致する制御手段を選択し実行する。
第2の方法は、発話により得られた音声や撮像された映像から特徴量抽出を実施し、端末内で音素記号列及び/又は音素片記号列、感情記号列、その他画像識別子といった認識に伴う識別子を生成し、生成された記号列を対象となる中継個所や基地局装置に送信する。そして、制御される基地局装置は受信した記号列に基づき一致する制御手段を選択し実行する。
第3の方法は、発話により得られた音声や撮像された映像から特徴量抽出を実施し、端末内で生成された特徴量に基づき音素列及び/又は音素片記号列、感情記号列、その他画像識別子を認識し、認識された記号列に基づき制御内容を選択し、制御方法を制御する基地局装置や情報配信を中継する装置に対し送信する。
そして、第4の方法は端末を用いて発話により得られた音声や撮像された映像の音声波形や画像をそのまま制御する基地局装置に送信し、制御する装置内で音素記号列及び/又は音素片記号列、感情記号列、その他画像識別子を認識し、認識された記号列に基づいて制御手段を選択し、選択された制御を制御される中継個所や基地局装置が実行するというものである。同様に感情識別子も音声から特徴抽出や記号化が可能であり、環境音など音や映像の特徴や識別子についても同様である。
この際、端末から単純に波形のみを送信したり、特徴量を送信したり、認識された識別子列を送信したり、識別子列に関連付けられた命令やメッセージなどの処理手順を送信しても良く、それらの送信情報にあわせて配信基地局の構成を変更してクライアントサーバモデルを実施しても良く、送信側が図21の構成受信側が図22の構成となり、相互に送受信することも可能である。
そして、入力された音素列や音素片列に基づいて関連付けられた処理手順へ変換する命令辞書は、端末側にあっても配信基地局側にあってもよく、新しい制御命令やメディア種別、フォーマット種別、装置名に関する音素記号列や画像識別子、感情識別子といった記号列を、XMLやHTMLのような後述されるマークアップ言語やRSS、CGIを用いて情報の送受信や配信を行っても良い。
次に、より具体的な手順について説明する。まず、特徴量や識別子を抽出したり、評価関数を構成したりすることで、任意の通信回線に接続された環境で他の端末や装置類との情報交換を実行する。
次に、端末側の処理として音素片を用いた場合を例に説明すると、利用者は発話を伴って音声波形を端末と装置に与える。端末側装置は与えられた音声を分析し特徴量に変換する。次に変換された特徴量をHMMやベイズといった認識技術により認識し識別子に変換する。
この際、変換された識別子は音素や音素片、感情識別子、各種画像識別子を意味するものとなるが、他にも別記されるように音声であれば音素や環境音や音階であったり、画像であれば画像や動作に基づいた識別子であったりしてもよい。そして、得られた識別子に基づいて音素、音素片記号列による辞書をDPマッチングにより参照して任意の処理手順を選択し、選択された処理手順を対象となる装置に送信し制御を実行することで、本発明を利用して携帯端末をリモコンとして用いたり、ロボットによる家電制御を実施したりすることが可能であり、通信先にいる相手の顔や声から謙譲や表情を検出して円滑なコミュニケーションを実行するための感情指標の表示や発話音表記の表示や点字出力部を設けた障害者との対話装置なども構成しても良い。
このような手順で処理された情報は端末側のCPU性能によって、動画や音声といった自然情報から特徴量への変換をせずに元の情報のまま送信したり、特徴量への変換で留めて送信したり、識別子への変換で留めて送信したり、制御情報の選択まで行ってから送信したり、任意の変換水準を選択することができ、受信側は任意の状態から情報に基づいて処理可能な受信側装置として構成され、獲得した情報に基づき配信局や制御装置に送信したり、獲得した情報に基づいて検索や記録、メール配信、機械制御、装置制御といった任意の処理を実施しても良い。
そして、図23検索処理の状態遷移図にあるように、適宜クエリとなる識別子列や文字列、特徴量を配信側基地局に送信し、そのクエリに従った情報を入手する。この際、通信の待ち時間や検索の待ち時間に宣伝や広告を表示しても良く、音声による制御を行う際は通信により制御項目の選択が出来るようにするために図24制御辞書構成例にあるような制御辞書を交換・獲得しても良い。
また、この制御命令辞書は音素や音素片、感情識別子といった前述されるような任意の識別子や特徴量と装置制御情報で構成することにより自由に内容を更新して再利用できるようにすることが可能であり、任意の識別子と特徴量を関連付けた検索のための辞書情報を入替たり再構成したりすることで、流行の検索キーワードを更新出来るようにしてもよい。
なお制御命令辞書は、従来の赤外線リモコンで制御できる製品に送信するための赤外線制御情報が装置制御情報として選択されたり、それらの制御情報の組合せにより一連の作業をバッチ処理のように連続的に実施したり、装置のCPU性能に応じて識別子を認識せずに特徴量情報のみを音声対制御応情報処理装置に送信するようにしてもよい。
このような方法で音声制御が出来ない従来装置に対しても赤外線リモコンによる制御を組合せることで音声情報から変換辞書経由で赤外線リモコンの信号を提供したり、音声制御の可能な装置であれば、特徴量や音声波形に基づいて命令を認識し制御したりすることが出来るとともに、性能改善に伴う制御用辞書の変更を実行することや、制御用辞書のバージョン情報と確認するといったことや、装置の状態がどのようになっているかを確認することができる。
また、このような方法でサーバクライアントモデルを導入し、任意の処理ステップでサーバとクライアントに分割して通信で結びサーバ・クライアント間で任意の情報を交換することにより同等のサービスやインフラ、検索、索引付けを実施しても良い。
また、通信先にある基幹サーバからDVDレコーダやネットワークTV、STB、HDDレコーダ、音楽録再装置、映像録再装置といったクライアント端末によって獲得された情報を赤外線通信やFMやVHF周波数帯域通信、802.11b、ブルートゥース、ZigBee、WiFi、WiMAX、UWB、WUSB(Ultra Wide Band)などの無線通信を経由して携帯端末や携帯電話に情報を提供することでEPGやBML、RSS、文字放送によるデータ放送やテレビ映像、文字放送を携帯端末や携帯電話で利用できるようにしたり、音声入力や文字列入力、携帯端末や携帯電話を振り動かす操作によりクライアント端末の制御内容を指示したり、携帯端末や携帯電話を一般的なリモコンとしてクライアント端末操作に利用したりしても良い。
≪利用者同士の情報共有手順例≫
まず、利用者は図20のような環境において自分の装置上において構築された検索条件式と検索条件式に用いられる識別子や特徴量及び/又は関数パラメータを選定し通信回線及び/又は記憶媒体を経由して、第三者に提供する。この際、検索条件式及び/又は識別子及び/又は特徴量及び/又は関数パラメータを任意のサーバ上に公開することで、第三者に販売や提供しても良いしP2Pソフトを用いて共有しても良い。また、有名人や専門誌、専門家などの嗜好や価値観に基づいた検索条件や識別子や特徴量や関数パラメータの組合せを通信回線経由や雑誌添付により販売しても良い。
この結果、図25にあるような手順で他者の検索条件式及び/又は関数パラメータを記憶媒体から複製したり通信回線経由でダウンロードしたりすることにより、索引付けに用いられた特徴量の抽出方法や識別関数により選択された識別子が同様の構成であれば自装置上でそれらの検索条件式が利用できるようになる。なお、これらの配信情報にウイルスが組込まれないように対策を施してもよい。
そして、装置ごとに識別子や特徴量に違いが生じる場合は検索に関わる評価関数や検索条件といった情報を獲得したり変換したりしてもよく、利用者は他の装置で他者と同じ方法による検索条件式を取得することができる。この変換において、後述される国際音素記号と言語依存音素記号の変換のように共起情報に基づく識別子間の変換を行ったり、他の識別子を音素記号へ変換するために、識別子の共起行列やHMM、ベイズ、帰属確率といった評価関数による情報空間における変換を行ったりしても良い。
この際、音素列や音素片列と処理手順を変換する辞書は、端末側にあっても配信基地局側にあってもよく、新しい制御命令やメディア種別、フォーマット種別、装置名に関する音素記号列や画像特徴、感情識別子といった記号列をXMLやHTMLのような後述されるマークアップ言語やRSS、CGIによって表現してもよく、このようにして構成された情報の送受信や配信を行っても良い。
次に、より具体的な手順について図20に基づいて説明する。まず、第1の利用者の装置である端末Aは他の端末Cやインターネット経由による基地局Bなどの通信可能な情報処理装置対し接続を試みる。この結果、接続可能であれば従来からのプロトコルやRSS、CGIを用いて他の装置が検索に用いることのできる情報を配信しているか確認する。そして、配信されているようであれば一覧を取得するステップを実行する。
次に、端末Aは通信回線や赤外線により目的の検索実施方法に関する詳細な情報を取得するための評価関数取得ステップを実行する。この結果、端末Aは関数の構成に必要な数値情報や識別子記号列、評価式といった検索に必要な情報を取得することができるようになる。
この検索に必要な情報は音素や音素片認識を考慮する場合、ベイズ関数であれば音素や音素片ごとの特徴量に基づいた固有値と固有ベクトルと平均値と事前確率といった数値情報及び識別子記号であり、DPなどでマッチングするのであれば検索指標となる同一表記記号群の音素や音素片からなる識別子記号列であり、HMMであれば音素や音素片ごとの標準テンプレートデータとなり、認識する対象や識別子によってこれらの情報は適宜、画像認識テンプレートや音響認識テンプレート、環境音テンプレート、動作認識テンプレートなどやそれぞれの識別子列や評価関数に変更される。
次に、自装置内の記憶容量に余裕がなければ、利用頻度の低い識別関数やDP、HMMを削除し先ほど取得した情報に基づいて新しい評価関数を自装置の記憶部に登録し毎回通信により取得しなくても再利用できるようにする評価関数切換ステップを実行する。
もちろん、実施形態によっては毎回通信により評価関数を取得し、記憶部に記憶し、サービスの終了や電源の切断に伴い記憶した評価関数を削除するといった方法を用いても良いし、配布された記憶媒体から取得したりしても良い。
また図20にあるように、情報を交換する対象は基地局や他の端末ばかりではなく本発明を用いたロボットやリモコンといった情報処理部や情報入出力部、記憶部を本発明と関連する構成で内包する装置であれば、任意の実施形態が考えられる。
≪ユーザインタフェースの例≫
次に、ユーザインタフェースへの利用について説明する。
前述の端末及び基地局に用いる情報処理装置の手順例のような方法で制御法方法を獲得し、入力対象となるコマンドの音素列記号と制御コマンドを変換するための辞書を設け、人の発話を音素認識し目的のコマンドが実施されるようにすることで音声による操作を実現することができる。この際、音声情報から感情を分析し、検出された結果が「悲しみ」の感情であり「えーん」という発話に関連付けられた音素や音素片が検出されれば慰める文脈を選んだり、「怒り」の感情が検出され「こら」という発話に関連付けられた音素や音素片が検出されればなだめる文脈を選んだりといった処理手段を実施してもよい。
この際、利用者の感情が怒りを伴っている場合においては、利用者に対して謝るようなメッセージを音声や文字列により提示しても良いし、カメラなどを追加して「端末及び基地局に用いる情報処理装置の手順例」にあるような特徴抽出と認識処理の組合せを利用したり、音素や音素片、感情識別子、画像識別子といった前述の任意の識別子や特徴量に基づく認識を実施し、識別子の組合せに伴って処理を選択・変更したりしても良いし、加えて感情識別子や楽器識別子、音階識別子、環境音識別子などの認識結果を用いてもよい。
また、本発明による検索装置を用いて抽出された利用者の嗜好や主観を利用者自身に評価させることで強化学習を実施し、抽出された情報の精度を改善しても良い。例えば、評価時の利用者の発話に伴う感情や音素列、音素片列の認識結果が肯定的意味合いに関連付けられた「いいね」といった誉め言葉などの音素や音素片の記号列もしくは肯定的意味合いに関連付けられた感情である「喜び」や「安堵」などの識別子が検出された場合に強化学習を実施したり、認識結果が否定的意味合いに関連付けられた「だめね」といった言葉などの音素や音素片の記号列もしくは否定的意味合いに関連付けられた感情である「悲しみ」や「怒り」、「落胆」である場合に次の強化学習の対象からはずしたり、否定的意味合いの特徴群を新しく設けて否定対象を学習するための強化学習を実施したりしてもよい。
また、操作可能な処理に関するキーワードを画面に表示し音素列や音素片列リストを選択したり、発話したりして利用者に提示しても良いし、表示されない隠しコマンドがあっても良く、このような一般的な音声認識を用いない感情を伴う音素・音素片認識による音声ユーザインタフェースが実現できる。
この際、音素列や音素片列や感情識別子と処理手順を変換する辞書は、端末側にあっても配信基地局側にあってもよく、新しい制御命令やメディア種別、フォーマット種別、装置名に関する音素記号列や画像特徴、感情識別子といった記号列を、XMLやHTML、RDFのような後述されるマークアップ言語やRSS、CGIを用いて情報の送受信や配信を行っても良く組合せることで利便性を図ることが出来る。
<共起情報の組合せ例について>
より具体的に本発明の基本となる複数の識別子や特徴量に基づいた共起情報の組合せを用いる手順について説明する。まず、大枠としての複数種類の識別子による検索例処理手順と複数種類の識別子による検索に基づいた任意処理手順を示し、続けて各々の識別子に伴う組合せの具体例を示す。これらの識別子や特徴量の組合せは必要に応じて2個や3個であっても良いし、4個以上や10数個以上の組合せにより実施しても良く、これらの識別子の共起確率や特徴量の共分散行列に基づいて構成された共起辞書を参照し、利用者の指示にともない検索条件を構成することで従来にはない検索の実現を図る。
なお、本発明における共起状態若しくは共起情報とは、聴覚情報や視覚情報やセンサ情報からなる自然情報に基づいており、映像及び/又は音声から獲得される識別子や特徴量を用いて構成される情報を基本とし、配信される文字情報や検知されるセンサ情報を用いる複数の関連付けられた情報であって、利用に応じた適切な単位時間内にそれらの識別子や特徴量が同時に発生していることを特徴としており、複数の共起情報からなる時間遷移に伴い構成されていても良く、それらの平均と分散から構成される共分散行列や共起確率であっても良く、それらの確率遷移行列を用いて共起情報の状態遷移モデルを構成しても良く、コンテンツの索引情報に用いられる「索引共起情報」や利用者の入力した検索条件を利用して構成された「共起検索条件情報」として使用されている。
≪複数種類の識別子による検索処理手順の例≫
複数種類の識別子による検索処理を実行するために検索条件や検出条件を指定する際、識別子や特徴量が評価される範囲の境界は時間軸を分割したフレーム数であっても良いし、任意の識別方法で得られた特徴量の乖離状態が閾値を超過もしくは未満の場合であっても良いし、任意の検出や識別方法で得られた識別子境界であってもよい。
そして、任意の範囲にどのような識別子が共起するか否かの偏りを調べると共にEPGやBML、RSS、文字放送、字幕や映像に含まれる文字などを用いて配信情報に索引を与えたり、出演者の構成やタイトル、監督、プロデューサの名称や役者の配役上の家族関係や人間関係を識別子として用いたり、識別子や特徴量を分類し共起辞書を構成しても良い。
そして、検索結果として得られた識別子に関連付けられた文字列や識別子IDを変換辞書により他の識別子や識別子列に変換し、その識別子や識別子列がコンテンツ情報と一致する箇所を検索することで検索結果として得られた識別子に文字列や識別子IDを経由して関連付けられた他の識別子や識別子列を抽出できるようになり、中間符号系として識別子IDや文字列を用いる共起関係に基づいた検索が実施できる。
より具体的には出演者の名称をEPGやBML、RSS、文字放送、認識された字幕や映像に含まれる文字列といった文字情報を取得したり、利用者の発話若しくは入力した音素列に一致する出演者の名称を検出したり、その名称が映像情報内で発話されている個所や字幕の表示されている箇所を検出したりする。
この結果、検出箇所が利用者の目的に関連のあるシーンであると判断してコンテンツ情報を再生したり、録画したり、スキップしたり、特定のタイトル画像特徴により録画の開始をしたりしてもよいし、それらの処理において統計的処理に伴い共起行列や共起確率を用いて検索対象を絞り込むなどの方法を用いても良いし、識別子や特徴量を分類し共起辞書を構成しても良い。
また、EPGやMPEG7、BML、RSS、XML、Webサイト、認識された字幕や映像に含まれる文字列などにより出演者の構成やタイトル、監督、プロデューサ、スポーツチームの名称や役者の配役上の家族関係や人間関係といった番組情報を識別子として用い主役と敵役が共起しているシーンや主役と恋人が共起しているシーンといった検索を画像特徴やシーンで表現される感情、シーンで発せられる音声に伴う音素列や音素片列、シーンにおける映像特徴の変化によって多変量解析し識別子を与え音素列や音素片列と番組情報と画像特徴もしくは画像識別子を用いて索引付け、検索、検出、学習を行うといった方法も可能である。
≪複数種類の識別子による検索に基づいた任意処理手順の例≫
例えば、入力された文字列を音素や音素片による記号列に変換したり、利用者の発話音声による音素や音素片に基づく記号情報と感情や環境音、画像特徴により認識された識別子を用いたりしてクエリを構成するとともに本発明に基づいた放送内容の情報蓄積装置への収録を開始する。
この際、収録と同時に記号列を評価し事前に登録されている記号列との一致を評価して一致がある一定の割合を超えた場合その前後1時間を長期保存対象として登録し、一定時間経過後に収録された情報蓄積部から長期保存対象に含まれない情報を削除することで有限な記憶容量において不要な情報を削除し効率的な情報の保存を実現する。この際、統計的処理に伴い共起行列や共起確率を用いて検出対象を絞り込むといった方法を用いても良い、識別子や特徴量を分類し共起辞書を構成しても良い。
≪文字列と識別子による検索の例≫
例えば、入力されたコンテンツ情報に関し音声から認識される感情や環境音、映像から認識される画像特徴や動作識別子、物体識別子により索引付けを行い本発明に基づきデータベースとして収録する。次に、利用者から入力された音声や文字列を音素や音素片による記号列に変換して収録されたデータベースにクエリとして与えて検索を行い、目的の情報として検出された検索結果を利用者に提示する。
この際、一般的に擬音と呼ばれる「ワンワン」や「ドカーン」といった音も比較的近似した音素や音素片として認識されるため検索に用いて環境音識別子を補助する検索用索引として利用しても良いし、文字入力によるクエリとして獲得された「(^^)」や「(;;)」顔文字から検索に用いる感情識別子を「喜」や「哀」とすることで文字列から感情識別子を選定し検索条件を構成して検索を実施しても良いし、これらの感情識別子の検出によりチャットやエージェント、ロボットの人工知能として本発明の検索技術を利用し装置と人間の対話に用いてもよく、識別子や特徴量を分類し共起辞書を構成しても良い。
≪感情と固有名詞に伴う検索の例≫
例えば、ある固有名詞を音素や音素片記号に変換することである固有名詞を検出し、ある固有名詞とその固有名詞の発生箇所付近の感情特徴や感情識別子を評価したり、固有名詞を発した話者の音声がその固有名詞の発話時間近辺で持つ感情特徴や感情識別子の出現確率を評価したりすることで、ある固有名詞に伴う感情の出現頻度から、ある固有名詞に対する利用者の感情の偏りを評価して利用者の嗜好に応じた検索が可能となる。
≪感情と画像に伴う検索の例≫
顔検出のアルゴリズムにより得られた画像特徴と感情認識による感情識別子を組合せることで、特定の感情における表情の特徴量を検出し、その特徴量を統計的に学習することで、表情を弁別する検索を実行することを可能としたり、3次元や2.5次元に基づいた特徴量を用いて顔を一定の方向と大きさに変換したのち、変化や動作のある個所を別項目として学習し識別子を与えて顔の一部を目や口として分離し表情の変化を学習したりしてもよいし、同様の方法で他の検索に用いるための体や機械、装置類を分類してもよい。
また、主人公の顔の検出と主人公の名称に伴う音素列と感情識別子との共起状態を検索することで、従来であれば音量でしか検索できなかったシーンの盛り上がりを主人公の名前を呼ぶ声に込められた感情に基づいて検索を実施したり、画面内に大きなサイズで文字が検出されたシーンと歓声に伴う音素列や音素片列による盛り上がりと興奮感情識別子の検出により共起状態に基づく検索を実施したりすることでスポーツの得点シーンや映画のハイライトシーンの検索が可能となる。
この際、EPGやBML、RSS、文字放送における任意のタグや呼称と関連付け、EPGでスポーツ番組であることを検出し、BMLで点数の変化を検出し、点数の変化が表示された時間と前後して、感情特徴から興奮が検出された個所に、再生位置を移動することでスポーツのハイライトシーンを検出し、その時間的周辺にある画像特徴を学習することにより画像のみの情報からスポーツのハイライトシーンを検出できるようにしても良いし、ブログに添付されされた動画を分析してブログの文章と関連付けて整理したり、検索をかけたり出来るようにしたりしてもよいし、それらの検出個所まで早送りをしたり、前記学習によって利用者が頻繁に早送りなどの否定的な操作を行う場合にその範囲を嫌なシーンや興味の薄いシーン、公序良俗に反するシーンと見なして特徴量を抽出を行い自動的にスキップ再生をしたり、得点や記載内容に変化があった旨メールやRSSで配信したりするといったサービスを実施してもよい。
≪画像と環境音に伴う検索の例≫
例えば、映像特徴量にフレーム間で変化のあるシーンの特徴を抽出した場合において部分動き特徴が大きくそれらの運動方向が平行でない場合であって、赤や黄色の暖色系特徴が画面上に多く存在すると共に放射状の動きが検出され、爆発音と識別される音声特徴量が検出された場合、そのシーンを爆発シーンとして動画像に同期して索引情報を記録する。同様に画面内に青が多く波の音が検出された場合は海辺のシーンとし、青の中にゆっくり動く白い塊が検出され風の音が検出された場合は空のシーンとして索引情報を記録する。このような索引情報が実施されその映像全体の長さに対して索引の出現する頻度を求め、その頻度の類似度合を評価することで画面上の表現の偏りを検出するとともに、利用者閲覧状況を同様に分析することで利用者の閲覧状況とコンテンツに出現する識別子頻度を踏まえた検索を実現する。また、画像認識により得点表示画面の特徴量を分析し、それに伴う音声による感情特徴や歓声のような環境音を識別することで、共起状態を利用した特定のシーンの検索を実施してもよい。
≪環境音と番組情報に伴う検索の例≫
例えば、放送配信されるBMLやEPGなどから取得したジャンルがアクションと分類された動画像を収録する間、映像と音声の特徴量と識別子を生成収録する。その収録された特徴量と識別子に基づいて情報を多変量解析し、アクション映画における各識別子の出現頻度を取得し分析する。この結果、分析された特徴量を用いて任意の距離評価関数やHMMなどの認識関数を構成することが可能であり、例えば爆発音や急激な画面特徴の変化を評価するための評価関数が構築できるため、特徴量の学習によってEPGやBML、RSS、文字放送からなる文字情報や画像から認識された字幕や映像に含まれる文字情報や独自の評価関数による評価結果を得ることが可能となり、それらの共起状態に基づいて利用者の趣味や趣向に合わせた評価関数や評価結果の閾値を設定することによりコンテンツ情報の録画や再生といった任意の処理を実施したり、検索を実施したりすることが可能となる。この際、出演者の構成やタイトル、監督、プロデューサの名称や役者の配役上の家族関係や人間関係を識別子として用いたり、それらを音素・音素片展開して用いたりすることで識別子の一致度を合わせて評価しても良い。
≪感情と音階に伴う検索の例≫
例えば、前述の各種方法で販売用の音楽を感情特徴や感情識別子、音階特徴や音階識別子、音素や音素片の記号列によって索引付けをおこないデータベース内に登録し、利用者が好みであると指定した音楽から得られる識別子や特徴量からなる索引情報とデータベース内に登録されている音楽の識別子や特徴量からなる索引情報との距離や一致率を評価することで、利用者の趣味や興味に基づいた音楽情報の検索が可能となる。
≪その他の組合せによる検索例≫
楽器種別に関しては、楽器名称と音響特徴、楽器名称と画像特徴の共起情報から任意の楽器が演奏されていたり表示されていたりするシーンやページの検索が可能となり、ピアノの出ている映画を検索したいときに「ピアノ[p/i/a/n/o]」と発音し音素列検索をしたり、音素列に基づいて、ピアノばかり映っている画像情報から構成した画像特徴評価関数やピアノの音ばかり集めた音響特徴から構成した楽器評価関数を用いて共起状態による検索をしたのち、それらの特徴にしたがって音声ストリームや映像ストリームを検索しても良いし、検索指示により検出された音声や映像ストリームを記録したりスキップ再生したりといった任意の処理を実施しても良く、EPGやBML、RSS、文字放送にピアノメーカが記載されている場合はURLなどを取得してWebに接続して情報を取得しても良いし、演奏中である音楽における楽器の音色を切り替える指示を行っても良く、識別子や特徴量を分類し共起辞書を構成しても良い。
機械音種別に関しては、自動車のタペット音やエンジン音、機関車の排気音を用いても前述のようなシーンの検索が可能であり、それらの音の呼称を音素列や音素片列に変換して検索に利用できるようにしても良いし、「エンジン音」という検索条件であればエンジン音のなっているシーンだけを検索したり、エンジンのシーンであれば、エンジンの画像特徴量とエンジン音のあるシーンを検索したりするといった方法をとってもよい。
環境音種別に関しては、前述のいくつかの例に加え風の音や波の音といった自然音を加えてもよく動物や虫の鳴き声やオフィスの音飲み屋の音、スポーツなどの声援、駅の改札といった環境により偏りのある音を集めて特徴量の共起状態を観測し評価関数を構築しても良いし、雑音種別として自動車の騒音や工場の騒音といった分類に映画やドラマなどを楽器のときと同様にシーン検索に用いたり、ホワイトノイズやピンクノイズといったノイズの種類によってアンプなどの機器における試験装置の試験用ノイズを発生させたりしてもよく、それらの音の呼称を音素列や音素片列に変換して検索に利用できるようにしても良い。
顔種別に関しては、顔の特徴量と感情識別子を関連付けて検索することで感情に伴う表情識別子のための指標となる画像を検索するといったことが可能であり、それらの音の呼称を音素列や音素片列に変換して検索に利用できるようにしても良い。
人物種別に関しては、顔の特徴量と名前に関する音素列や音素片列を関連付けて検索することで感情に伴う表情識別子のための指標となる画像を検索したり、服装や体格、髪型などの情報を画像特徴量から構成して市街監視システムに用いて追跡対象者の名称から記録された映像を検索したりするといったことが可能となり、それらの人物や服装、体格の呼称を音素列や音素片列に変換して検索に利用できるようにしても良い。
表情種別に関しては、前述の顔種別と感情種別にもとづいて表情種別とした場合、人物種別と関連付けることで、ある人物の感情的振る舞いを踏まえたシーン検索をキーワード提示により音素や音素片記号列により可能となり、それらの表情や感情の呼称を音素列や音素片列に変換して検索に利用できるようにしても良い。
動作種別に関しては、前述の顔種別と感情種別にもとづいて表情種別とした場合、人物種別と関連付けることで、ある人物の感情的振る舞いや仕草、動作、ジェスチャ、歩き方を踏まえたシーン検索が可能となるとともに、動作識別子と音素や音素片列を関連付けることで入力された映像情報から手話情報を検出し音声合成により発話するといった処理や、発話を音素列に変換し、音素列に関連付けられた動作をCGで再生して手話を表示するといった方法が考えられ、それらの動作の呼称を音素列や音素片列に変換して検索に利用できるようにしても良い。
風景種別に関しては、色特徴や直線や曲線の単位面積あたりの存在確率といった画像特徴の共起情報で自然画像と市街画像を分類したり、シーンの呼称に基づいて音素列から特徴量に変換したり、シーンを見て発話した内容の音素列や音素片列により索引付けを行い検索したりすることが可能となる。位置情報を用いると風景種別と音素列を関連付けることで、大量に蓄積された映画や放送の映像から任意の画像特徴に基づいて任意の地域の情報を音声により検索することが可能となり、映画の有名なシーンに用いられたロケ場所の画像特徴に基づいて旅行ガイドを構築したり、類似した風景の検出をしたりすることが可能となり、それらの風景や地名の呼称を音素列や音素片列に変換して検索に利用できるようにしても良い。
表示位置種別に関しては、画面内のどの位置にどのような画像があるかを評価すると共に、その範囲を指定して表示し、利用者に名称を呼んでもらうことで、本発明の装置が表示内容を学習するための指標にするといった方法が考えられ、一般的な顔検出技術を用いて顔の位置を検出したあとで、検出した複数の位置に数字を表示し、順に「1番はだれ?」、「2番はだれ?」として、利用者に名前を呼んでもらい学習したり、「この人は○○さん?」と学習した音素列や音素片列から発話して確認をとるといった方法を用いたり、「わからない[w/a/k/a/r/a/n/a/i]」という特定の制御のためのキーワードに関連付けられた音素列や音素片列が検出された場合は学習対象からはずしたり、特徴量だけ学習し名称や呼称との関連付けが保留にされたフラグを立てたりといった方法を用いて学習効率を改善しても良いし、それらの表示位置の呼称を音素列や音素片列に変換して検索に利用できるようにしても良い。
画像種別に関しては、前述のいくつかの例に加え楽器や車種、機種、動植物の種類といったものを弁別するための名称の音素列や関連する音響特徴量と関連付けて検索することで、前述のピアノであればピアノが表示されていて且つ音楽が鳴っているシーンを検索したりしてもよいし、ピアノメーカのカタログをウェブサイト経由で取得しても良いし、それらの音の呼称を音素列や音素片列に変換して検索に利用できるようにしても良く任意の製品や商品の呼称を用いてもよい。
文字記号種別に関しては、認識処理により識別された文字列を音素列や音素片列に変換し検索の対象としたり、静止画であればクリックしたり範囲指定したところの単語に関連する音声や映像を表示したり検索したりすることが可能となるとともに、それらの文字やフォントの呼称を音素列や音素片列に変換して検索に利用できるようにしても良い。
標識種別に関しては、カーナビなどのガイドに関して音素や音素片を用いた検索に用いたり、車の運転中に検出されたものを音素や音素片によって音声合成によりアナウンスしたり、配信されたニュースなどにおいて異国の標識の意味を字幕合成したりすることが可能となり、それらの標識の呼称を音素列や音素片列に変換して検索に利用できるようにしても良い。
形状種別に関しては、丸いものや四角いもの尖ったものを識別することで、ロボットの動作の妨げになるものや人に危険を及ぼすものを検出するとか、関連付けられた画像特徴に基づいて抽象的なキーワードの音素列や音素片列で検索を実施し、該当したものを検出するといった利用も可能であり、任意の番組にけるオープニングテロップのような固定的な映像とオープニング発話のような固定的発話の音素列や音素片列を関連付けた検索が出来るとともに、それらの形状の呼称を音素列や音素片列に変換して検索に利用できるようにしても良いし、波形の形状種別を用いることで複数箇所から抽出される脳波や脈波の変化を統計的に分析して識別子を与えて検索に利用できるようにしても良い。
図形記号種別に関しては、映画のシーンに出現する図形や記号を検索し、他国語に配信するときに記号や標識の字幕を入れる指標とするといった利用や抽象的なマルやバツ、正解アイコン、不正解アイコンのような図形を検出しクイズ番組のシーンの検出に用いることが可能であり、編集時に用いることでメタ情報表記作業を簡易にすることが出来るとともに、それらの図形や記号の呼称を音素列や音素片列に変換して検索に利用できるようにしても良い。
放送番組種別に関しては、出演者や作者、司会、番組タイトルといった番組情報が獲得できるため、番組のジャンルによって画面構成や音響特徴に関する偏りを抽出し番組の傾向分析のための指標に用いることが可能であり、それらの番組ジャンルやカテゴリの呼称を音素列や音素片列に変換して検索に利用できるようにしても良い。
また、将来的に味や匂いや触覚、音感、湿感、質感といった任意の感覚を記録・再生できるようになった場合であっても、それらの特徴量と識別子を本実施例の記録媒体への索引に追加し、利用者の利便性を図っても良い。
この結果、従来不可能であった多様な共起情報に基づく情報の検出が可能となり、検出に伴う録画、検索、スキップ再生、ダイジェスト再生、メール配信、メッセンジャへのメッセージ、RSS配信が可能になる。
<製品としての応用事例>
これから記載する製品事例は前述された新規性に基づく実施要件及び構成要件としての『基本的な検索装置の構成と技術について』、『複数の識別子と複数の検索条件に伴う索引付けおよび検索、任意処理について』を用いて、それぞれの分野に応じた例に記載される用語傾向や画像傾向や音響傾向や制御辞書に基づいた識別子の共起辞書を構成したり、識別子と音素及び/又は音素片列や識別子と文字列や識別子と特徴量を変換する辞書を用いて検索条件や検出条件を構成したりすることにより、本発明における構成要素や実施要素を組合せて実現できる商品やサービスソリューションの例を示している。
≪放送録画及び映像録再、映像検索システムの例≫
画像と環境音に伴う検索の例や環境音とEPGやBML、RSS、文字放送に伴う検索の例と複数の識別子に伴う音声映像検索の例と識別子の検出に伴う任意処理の例を組合せた応用例として図26を例に説明する。
まず、ビデオカメラなどの映像収録装置を設置し、複数のマイクからの音声を抽出分析し音素に変換することで、特定のキーワードが発せられた方向にカメラを向けたり、キーワードに応じて録画を開始したりといった方法が考えられる。また、鼻歌を歌った場合に歌詞を音素化し同時に旋律を抽出することで特定の音楽を選択して録画したり、すでに収録された録画内容から再生したりしてもよい。また、感情を伴う映像検索を実行することでシーンの盛り上がりを検出したり、特定の感情を伴う曲調の音楽を検出したりするといった方法を用いても良いし、利用者がポインティングデバイスやリモコンにより指定したシーンと類似性の高いシーンを検索・検出してもよい。
このようにして、収録時に同時に音素記号や感情記号を索引付けし、EPGやBML、RSS、文字放送のような後述されるマークアップ言語やCGIを用いたサービスに伴い録画範囲や検索範囲を決定したり、不要な部分を削除したり、再生時に自動的にシーンをスキップしてもよい。このため、特定のキーワードを音素に変関し音素の一致を確認しながら録画を一時ファイルとして実施し、目的のキーワードが検出され場合にインデイックスを構成しながら感情特徴をする。
また、EPGやBML、RSS、文字放送を用いてファイルやファイル名称、目的の動画や静止画、音声、文章およびそれらの時系列的な提示順序に関する関連付け情報からなるファイルを分類し再生や記録を実行する装置に関し、指示するための対象情報に関する音素列や音素片列を構成したり、音素列や音素片列をEPGやBML、RSS、文字放送で配信したり、受信したEPGやBML、RSSに基づいた音素列や音素片列を用いて記録内容や記録対象を検索したり、録画したり、再生したりすることで、利用者の利便性を図っても良い。
もちろん、これらのサービスを実行する装置は卓上情報処理装置であったり携帯情報端末であったりしてもよく、それらを用いて通信基地局を経由して本発明の内容を実施してもよく、携帯端末から過程の家庭の本発明を利用した装置などに電話をして実現したり、携帯端末で認識された情報を家庭の家庭の本発明を利用した装置にメールで送信したりしてもよい。
この結果、本発明を用いて次のようなことが実現可能となる。例えば、有名人の「有名夫(ありなお[/a/r/i/n/a/o/])」という人物がテレビに出演する際、その当日にその情報を取得した利用者が、どのチャンネルで出るのか、どの時間に出るのか解らないとしても、すでに出演が終わっていなければ、本発明を利用した家庭の装置に「有名夫(ありなお[/a/r/i/n/a/o/])、録画(ろくが[/r/o/k/u/g/a/])」とキーワードを与えることで、家庭の本発明を利用した装置は受信できる全てのチャンネルの録画を開始して収録すると共に、そのキーワードの中から命令部を除いた音声を音素展開し収録しながら、その収録内容に対し音素記号列の検索による検出を実行する。
次に、本発明を利用した装置が対象のキーワードを検出する本実施例ではその一致度合を60%とし、1分ごとに保存フラグ境界を設けながらコンテンツを録画し、60%を1分間に超えない箇所は1時間後にその録画コンテンツ情報を削除対象とする。逆に、そのキーワードが60%以上一致する部分が検出された個所から、例えば一時間前まで及び/又はEPGやBML、RSS、文字放送による番組の境界までを保存対象とする。
この結果、「有名夫(ありなお[/a/r/i/n/a/o/])」という単語の出てくる放送が自動的にその単語の派生付近一時間を保存することで、どのチャネルで放送されるのか、いつ放送されるかわからないままでも、自動的に録画することが可能となる。なお、本発明により録画された映像をその単語の出現回数や一致度に応じて順位付けし、一覧として表示しても良い。
また、このとき同時に顔検出を実施し役者の名称と顔特徴との関連付けて学習することをくりかえし、特定の人物が画面内にいるかどうかを学習しても良い。この際、再生時に利用者に対して、記録対象となった名称が出力される顔特徴のどれと一致するかを指示させることで、学習効率の改善を図り自動検出録画に関する性能の改善を装置自身が自立的に行っても良い。くわえて、EPGやBML、RSS、文字放送などによる役者名と顔特徴との一致度から自立的に役者名とその人物の顔特徴との一致度合を評価しながら学習しても良い。
また、有名人(ありなお)が俳優である場合において映像や音声作品内で異なる名称で呼ばれることが考えられる。この場合、例えば次のような手順で、番組内検索を実行することが出来る。EPGやBML、RSS、文字放送で任意の番組の出演者一覧における俳優名を漢字やかな・英単語から音素や音素片による記号列変換した情報を用いて利用者発話から俳優名を検索したり、従来からあるようにテキスト入力された俳優名を検索したりして、目的の俳優名を抽出する。次に俳優名に関連付けられた配役名を抽出する。
次に配役名に基づいて音素や音素片による辞書を参照しながら配役名に基づく音素や音素片による記号列を構成する。そして、音素や音素片による記号列で索引付けされた映像や音声作品情報に対し音素や音素片による記号列による検索を実行する。この結果、目的の俳優の配役名に関連付けられたシーンを検索することが可能となり、従来の一般的な音素や音素片による検索では不可能だったEPGやBML、RSS、文字放送に関連付けられた検索が可能となるため、映像や音声作品における検索の利便性を向上できる。
また、爆発音識別子による索引と罵倒語に関連付けられた音素記号列による索引、韻律の激しい音楽などが識別子として記録された時間が他の笑い声や歓声といった識別子の出現頻度より高い映像情報はアクション番組であるし、それらを集約して評価関数を作り、アクション番組度合を評価し検索する方法や映像情報内に暗い映像時間と悲鳴に関連付けられた音素や音素片による記号列や感情識別子列による索引の出現頻度が全体の映像時間の長さに対して他の多くの映像音声情報における悲鳴に関連付けられた索引の出現頻度平均より多く検出される場合にホラー番組であると評価する関数を作りホラー番組度合を評価し検索するといった方法や会議情報の収録に用いて会議における感情の起伏や内容の変化を分類できる検索装置が実現できる。
また、爆発音や風の音や波の音などの環境音も本発明による識別子再構築処理により、時系列的に分解して環境音としての環境音素片を構成するといった方法が考えられる。同様に、口形素も時系列に分解して口形素片としてみたり、動画像であれば映像の変化を動作素や動作素片としてみたり、画像情報であれば画像も画像素や画像素片としてみたりすることで検索のための新しい指標を再構築してもよい。
そして、悲鳴や爆発音などの特徴を学習した場合、そういった危険を示す情報の発生に応じて録画を開始する監視カメラや、収録内容で24時間以上経過し悲鳴や爆発音の前後1時間以外を削除して収録を継続する監視記録システムを構成し治安対策に利用することも可能である。
このように、従来であれば音素や音素片による記号列により音声発話に関連した情報だけが検索対象となっていたが、本発明のような複数の方法による特徴量と識別子を用いることで番組内容に則した情報検索を実現可能とする。もちろん、音声だけにこれらの技術を用いラジオ録音に対して実行するといった方法で機能縮小された装置により本発明を実施手も良いし、監視カメラなどに利用して窓や扉画像を識別する識別関数の画像特徴評価距離が平均より乖離したことを検出して窓や扉の破損を検出したり、鍵のある扉の前で人が長時間動かずに細かい動作をしていることを検出することで犯罪の防止を行ったりしても良いし、動画像のシーン境界を検出して映像編集機に利用しても良いし、マークアップ言語を用いたり、文字列から音素や音素片に変換したりして検索することで、音声や他の識別子を用いることにより天候を画像特徴により検出し屋内設備を制御して換気や照明を制御したり、名前や合言葉や顔認証を用いて個人認証や金額発話による課金決済を実施したりしても良い。
この際、音素列や音素片列と処理手順を変換する辞書は、端末側にあっても配信基地局側にあってもよく、修正情報や新しい番組や役者名、番組ジャンル、配信局名に関する音素記号列や画像特徴、音声特徴、感情識別子といった記号列を、XMLやHTMLのような後述されるマークアップ言語やRSS、CGIを用いて情報の送受信や配信を行っても良く組合せることで利便性を図ることが出来る。
もちろん、これらのサービスを実行する装置は卓上情報処理装置であったり、車載型端末であったり、携帯情報端末であったり、装着型情報端末であったりしてもよく、それらを用いて通信基地局を経由して本発明の内容を実施してもよい。
≪消費者感情にともなう製品品質分析システムの例≫
前述の固有名詞と感情識別子を用いた検索例や複数の識別子に伴う音声映像検索により任意の処理を実行する例の応用として本発明を用いたCRM(Customer Relationship Management)システムに関し図27を例に説明する。
まず、消費者の感情に伴う発話を本発明における複数の分析装置と識別装置を用いて分析索引付けする。この結果得られた音素や音素片、感情識別子を検索しその頻度をもとめることで特定の型番の商品を示す音素列とそれに伴う怒りや悲しみといった感情から、消費者から見た商品の評判をその感情特徴や商品を特定できる音素記号列の出現数から定量的に分析することが可能とであり、それらの結果をHTMLやXMLのような後述されるマークアップ言語やCGIを用いて表示したり、特定された商品のマニュアルを表示したりするようにしてもよい。
より具体的に説明すると、消費者が相談窓口のオペレータに電話や店頭で対話を要求する。このときオペレータ消費者双方の音声の特徴量を抽出し、抽出された特徴量から感情や音素、音素片を認識する。
この際、前述の方法で認識された音素や音素片、感情を情報蓄積装置に蓄積する。次に、蓄積された情報を商品の名称に関連付けられた音素や音素片の出現している音声情報と感情識別子で怒りや悲しみの感情識別子が認識されている音声情報との関連性を評価する。
関連性の評価方法は、特定の商品型番が検出される音声情報における怒りの感情や悲しみの感情が発生している時間の長いものを消費者評価が低いと位置付けても良い。このように音声情報内で認識された音素記号列と、感情識別子の分布を評価することで、消費者の商品に対する感情を定量的に評価することが可能となり商品の信頼性に関する分析を定量的に行うことが可能となる。
この結果、本発明を用いて次のようなことが実現可能となる。例えば、型番「1X5(いちえっくすご[/i/ch/i/e/cl/k/u/s/u/g/o/])」という商品の相談が消費者からあった際、消費者相談オペレータはその名前を復唱し、本発明を用いた装置に検索を実行する。この結果、検索された「1X5(いちえっくすご[/i/ch/i/e/cl/k/u/s/u/g/o/])」のマニュアルがオペレータの画面に表示され、消費者の質問に回答することができる。この際、消費者の感情を認識し情報蓄積装置に関連付けて保存することで、ある商品の感情面での評価を定量的に記録することができる。
この際、本発明を利用した装置が対象となる商品名の検索を実行する際において音素や音素片記号列の一致度合の基準を60%とし、60%を超える商品のリストを構成し一覧として表示することで、オペレータは対象となる商品のマニュアルを選択しても良い。
そして、「1X5(いちえっくすご[/i/ch/i/e/cl/k/u/s/u/g/o/])」という単語に関連付けられた感情特徴や音素記号列、音素片記号列を収録し分析することが可能となる。この際、収録された商品番号と同一の音声情報群に関する感情出現時間の分析により商品信頼性を定量的に評価することができる。
この際、音素列や音素片列と処理手順を変換する辞書は、端末側にあっても配信基地局側にあってもよく、修正情報や新しい商品名や商品ジャンルに関する音素記号列や画像特徴、音声特徴、感情識別子といった記号列を、XMLやHTMLのような後述されるマークアップ言語やRSS、CGIを用いて情報の送受信や配信を行っても良く組合せることで利便性を図ることが出来る。
もちろん、これらのサービスを実行する装置は卓上情報処理装置であったり、車載型端末であったり、携帯情報端末であったり、装着型情報端末であったりしてもよく、オペレータや顧客の心理状態を分析してストレス過剰にならないように確認しても良いよく、それらを用いて通信基地局を経由して本発明の内容を実施してもよい。
≪ウェブブラウザ操作の例≫
まず、利用者は利用者のブラウザに対して音声を発話する。発話された音声はその特徴量を抽出する。そして、第1の方法ではこの特徴量を対象となる装置に送信し、特徴量を受信した装置はその特徴量に応じて音素記号列及び/又は音素片記号列と感情記号列を生成する。そして、生成された記号列に基づいて、一致する制御手段を選択し実行する。
第2の方法は、利用者のブラウザ内で音素記号列及び/又は音素片記号列、感情記号列を生成し、生成された記号列を対象となる装置に送信する。そして、制御される装置は受信した記号列に基づき一致する制御手段を選択し実行する。
第3の方法は利用者のブラウザ内で生成された特徴量に基づき音素及び/又は音素片記号、感情記号列を認識し、認識された記号列に基づき制御内容を選択し、制御方法を制御する装置に対し送信する。
そして、第4の方法は、利用者のブラウザを用いて音声波形をそのまま制御する装置に送信し、制御する装置内で音素記号列及び/又は音素片記号列、感情記号列を認識し、認識された記号列に基づいて制御手段を選択し、選択された制御を制御される装置が実行するというものである。
この際、利用者の感情が怒りを伴っている場合においては、利用者に対して謝るようなメッセージを音声や文字列により提示しても良い。同様に感情識別子も音声から特徴抽出や記号化が可能であり、環境音など音や映像の特徴や識別子についても同様である。
そして、リンクを示すリファレンスタグに例えば発音という名称の新しい変数や属性を追加して、話者の発音を音素化してウェブページ内を検索し、一致するページに移動するといった方法が考えられる。
このように、XMLやHTMLのような後述されるマークアップ言語やCGIを用いることでRSSやブログ、ウェブ上のカタログ販売といったシステムにおいて、意味や文脈といった認識をせずに音素の一致するものを検索することで容易に音声による操作を実現できる。
この際、ブラウザ側情報処理端末内でサービスもしくはデーモンといったバックグラウンドプロセスにより記号列同士のマッチングや特徴量抽出、記号列の認識といった処理を直接ブラウザが処理することなく実施してもよい。
また、音素列や音素片列と処理手順を変換する辞書は、端末側にあっても配信基地局側にあってもよく、修正情報や新しいタグや変数、属性に関する音素記号列や画像特徴、音声特徴、感情識別子といった記号列を、XMLやHTMLのような後述されるマークアップ言語やRSS、CGIを用いて情報の送受信や配信を行っても良く組合せることで利便性を図ることが出来る。
もちろん、これらのサービスを実行する装置は卓上情報処理装置であったり、車載型端末であったり、携帯情報端末であったり、装着型情報端末であったりしてもよく、それらを用いて通信基地局を経由して本発明の内容を実施しても良く組合せて実現しても良い。
≪カーナビゲーション装置の例≫
感情と固有名詞に伴う検索の例や複数の識別子に伴う音声映像検索の例の応用として、VICSなどの情報配信技術と組合せ、カーナビと利用者の対話を位置に基づいて、音素記号列や音素片記号列、感情識別子を伴い多変量解析することで特定の位置において人が落ち着いた口調になったり、感情を高ぶらせた口調になったりすることが検出可能となり、交通事故状況とあわせて評価することにより利用者の情緒面に起因する交通事故の発生状況を分析し、それにともなう検索を実行することで事前に利用者にアナウンスを促し注意を喚起するといったサービスが実施できる。この際、頻繁に発話する単語に関する音声特徴の感情特徴のばらつきを評価し情緒的な安定を検出しても良く、それらを分析することで交通渋滞中の利用者の感情傾向による危険予測を行ったり、車両運行状況の監視を行ったりしても良い。
また、車内での音声で「事故状況(j/i/k/o/j/o/u/k/y/o/u)」という音素列を検出すると共に車載カメラで画像認識により事故車両が検出された場合においては、その情報を基地局に送信しVICS経由や携帯電話といった任意の通信手段経由で受信し、経路選択変更するといったサービスを実施してもよいし、各車両から発信される情報をオービスなどで捕らえて基地局に送信しても良い。
この際、音素列や音素片列と処理手順を変換する辞書は、端末側にあっても配信基地局側にあってもよく、新しい地名やタイトルや住所、道路に関する音素記号列や画像特徴、感情識別子といった記号列を、VICSやXMLやHTMLのような後述されるマークアップ言語やRSS、CGIを用いて情報の送受信や配信を行っても良く組合せることで利便性を図ることが出来る。
もちろん、これらのサービスを実行する装置は卓上情報処理装置であったり、車載型端末であったり、携帯情報端末であったり、装着型情報端末であったりしてもよく、それらを用いて通信基地局を経由して検索を行ったり、単独で検索を行ったりすることで本発明の内容を実施してもよい。
≪カラオケ選曲および音楽検索システムの例≫
感情と音階に伴う検索の例や文字列と識別子による音声映像検索の例、複数の識別子に伴う音声映像検索により任意の処理を実行する例の応用として、カラオケが楽曲販売システムでの実施例を説明する。
本発明によれば曲名やサビの歌詞を音素列や音素片列及び音階列として記録し、それらの一致するところを検索することで、カラオケでのタイトル検索に用いることができる。また、カラオケのような特徴構成に加え、音階記号の出現頻度同士を比べて一致率の高いものや出現分布構造、出現位置分布を比較し検索することが可能である。
より具体的には「○○バンドの悲しい曲」で「○○バンド」の音素列・音素片列と一致する演奏者の名称に基づいて全曲リストから抽出したリストから「悲しい」感情識別子の一曲中における出現頻度の高いものを探し、「○○バンド風の悲しい曲」で「○○バンド」の楽曲特徴の似た曲から「悲しい」識別子の出現頻度の高い曲を探すといった方法が用いることができる。また、このような検索により得られた共起情報を学習することで利用者の好みを学習しても良いし、利用者が選択再生した後、繰返して選択した場合や楽曲を最後まで視聴した場合は検索結果を利用者が肯定したと判断し、一回きりである場合やすぐに次の楽曲に移った場合は否定的判断をしたと解釈するように構成しても良い。この際、クエリの「○○バンド」は音声で発話して自然言語処理に利用しても良いし、文字列入力によって音素展開して検索しても良いし、文字列のまま検索して楽曲特徴と感情特徴の類似性を評価しても良い。
また、感情識別子の出現頻度や出現分布構造や出現位置分布を比較し一致どの高いものを検索することも可能である。また、音素記号や音素片の出現頻度や出現位置分布を比較し歌詞構成の似たものや特定のキーワードの含まれる音楽を検索することも可能である。そして、それらの検索結果に基づき楽曲を販売するサービスも実施できる。また、音符の遷移情報や和音やコード進行の遷移情報を特徴量として用い、楽曲の構造の一致度を評価しても良いし、音符の遷移情報や和音やコード進行の遷移情報から特徴量を抽出し識別関数を構成して識別子を判別できるようにしても良い。
また、感情認識により音楽ごとに感情認識結果の傾向が異なることを利用して、楽曲に応じて発生する感情識別子の傾向を音楽ジャンルごとに統計処理により抽出して多変量解析し音楽ジャンル識別子としたり、楽曲における感情識別子の出現傾向の類似度を距離評価したりして利用者の感性パラメータに応じた検索を本発明に基づいて行い感性傾向の近い音楽を検索して利用者に提示することで、利用者の好みに応じた楽曲を推薦するといったサービスも可能である。
このように従来、認識された音階情報が単独で用いられていた検索販売方法に加えて感情識別子や音素記号列、音素片記号列を組合せることで、利用者の趣味に応じた歌詞や旋律傾向、感情傾向、声質傾向を持つ楽曲作品の検索が可能となる。
この際、音素列や音素片列と処理手順を変換する辞書は、端末側にあっても配信基地局側にあってもよく、新しい楽曲のタイトルや歌詞、旋律に関する音素記号列や音階記号列、感情識別子といった記号列を、XMLやHTMLのような後述されるマークアップ言語やRSS、CGIを用いて情報の送受信や配信を行っても良く組合せることで利便性を図ることが出来る。
もちろん、これらのサービスを実行する装置は卓上情報処理装置であったり、車載型端末であったり、携帯情報端末であったり、装着型情報端末であったりしてもよく、それらを用いて通信基地局を経由して本発明の内容を実施してもよい。
なお、従来技術にある鼻歌と歌詞による検索は、鼻歌と言う行為と歌詞発話と言う行為に分離されるため、本発明における共起情報に基づく検索とは異なる。
≪商品検索注文システムの例≫
本発明は音声操作の応用であり、利用者は情報端末及び/又は端末側ブラウザに対して音声を発話する。発話された音声はその特徴量を抽出する。そして、第1の方法ではこの特徴量を対象となる装置に送信し、特徴量を受信した配信装置はその特徴量に応じて音素記号列及び/又は音素片記号列と感情記号列を生成する。そして、生成された記号列に基づいて、一致する配信装置側の制御手段を選択し実行する。
第2の方法は、情報端末及び/又は端末側ブラウザ内で音素記号列及び/又は音素片記号列、感情記号列を生成し、生成された記号列を対象となる配信装置側に送信する。そして、配信装置側は受信した記号列に基づき一致する制御および配信手段を選択し実行する。
第3の方法は情報端末及び/又は端末側ブラウザ内で生成された特徴量に基づき音素及び/又は音素片記号、感情記号列を認識し、認識された記号列に基づき制御内容を選択し、制御方法を制御する配信装置側に対し送信する。制御方法を受信した配信装置は制御方法に基づき目的の処理を実施し情報を提供する。
そして、第4の方法は、情報端末及び/又は端末側ブラウザを用いて音声波形をそのまま制御する装置に送信し、制御する配信装置側で音素記号列及び/又は音素片記号列、感情記号列を認識し、認識された記号列に基づいて制御手段を選択し、選択された制御を配信装置側が実行するというものである。
この際、利用者の感情が怒りを伴っている場合においては、利用者に対して謝るようなメッセージを音声や文字列により提示しても良い。同様に感情識別子も音声から特徴抽出や記号化が可能であり、環境音など音や映像の特徴や識別子についても同様であり、『カラオケ楽曲検索』にあるような方法を組合せて検索したりすることが出来る。
この際、表示されている商品に関しCGIやHTMLに音素記号列を組込み、それらの記号に基づいて検索評価することで一致するページに移動したり、商品の注文や詳細の表示をしたりするといった方法であってもよい。これらの検索対象は書籍やAVコンテンツ、デジタル素材、化粧品、医薬品、食品、自動車などの工業製品といった任意の固有名詞をもつ物に対して実施してもよい。
また、各固有名詞を複数の話者により発話させて同一音素に複数の音素や音素片の認識テンプレートをもたせることで、利用するページの音素列の検索率を改善するといった方法も考えられる。また、このような受発注システムの処理手順の一部を用いてエキスパートシステムなどの応用システムを構築してもよい。
この際、音素列や音素片列と処理手順を変換する辞書は、端末側にあっても配信基地局側にあってもよく、新しい商品や商品ジャンルに関する音素記号列や画像特徴、音声特徴、感情識別子といった記号列を、XMLやHTMLのような後述されるマークアップ言語やRSS、CGIを用いて情報の送受信や配信を行っても良い。
もちろん、これらのサービス自体は映画や写真、小説などのコンテンツ配信サービスであってもよく、デジタル素材配布サービスや商品販売サービスであってもよく、これらのサービスを実行する装置は卓上情報処理装置であったり、車載型端末であったり、携帯情報端末であったり、装着型情報端末であったりしてもよく、それらを用いて通信基地局を経由して本発明の内容を実施してもよい。
≪音声サービスの例≫
例えば、書籍の販売に伴い音声により朗読するサービスなどを実行する場合、音素や音素片をもちいたり、込められた感情を認識に基づいた識別子で評価したりすることで、任意の台詞や文章位置を検索することが可能である。
この際、朗読に音声合成を用いる場合、発話者の音素片別音声合成のテンプレートを変更することで、好みの芸能人の音声に発話辞書やテンプレートを変更して朗読するといったサービスを実施してもよいし、その朗読における音声合成のためのパラメータに関する発話辞書若しくはテンプレートを感情の変化に伴い変化させてもよく組合せることで利便性を図ることが出来る。
また、本音声サービスを応用してロボットやエージェントの音声合成のためのテンプレートやパラメータを配信し利用者のロボットやエージェントが利用者の趣味に合った有名人の音声で感情を伴いながら発話したり、家電の制御を行ったりするサービスも実施したり、本音声サービスを応用して利用者の発話とサービス側の提供する発話を比較して会話学習サービスなども実現できる。
≪音声操作を可能とするリモコンの例≫
まず、利用者はリモコンに対して音声を発話する。発話された音声はその特徴量を抽出する。そして、第1の方法ではこの特徴量を対象となる装置に送信し、特徴量を受信した装置はその特徴量に応じて音素記号列及び/又は音素片記号列と感情記号列を生成する。そして、生成された記号列に基づいて、一致する制御手段を選択し実行する。
第2の方法は、リモコン内で音素記号列及び/又は音素片記号列、感情記号列を生成し、生成された記号列を対象となる装置に送信する。そして、制御される装置は受信した記号列に基づき一致する制御手段を選択し実行する。
第3の方法はリモコン内で生成された特徴量に基づき音素及び/又は音素片記号、感情記号列を認識し、認識された記号列に基づき制御内容を選択し、制御方法を制御する装置に対し送信する。
そして、第4の方法は、リモコンを用いて音声波形をそのまま制御する装置に送信し、制御する装置内で音素記号列及び/又は音素片記号列、感情記号列を認識し、認識された記号列に基づいて制御手段を選択し、選択された制御を制御される装置が実行するというものである。
この際、利用者の感情が怒りを伴っている場合においては、利用者に対して謝るようなメッセージを音声や文字列により提示しても良い。同様に感情識別子も音声から特徴抽出や記号化が可能であり、環境音など音や映像の特徴や識別子についても同様である。
このようなリモコン技術をロボットに導入して、家電制御を行ったり、カーナビゲーションシステムに組み込んで制御を行ったりしてもよい。この際、RSSやHTML、XMLのような後述されるマークアップ言語やCGIを用いて被操作側装置に任意の新しい制御記号列情報の配信を行ったり、音素や音素片や音声波形を用いて利用するリモコンや携帯端末の更新された音素記号列情報を赤外線や無線を経由して受信したり、送信したりしてもよい。
この際、音素列や音素片列と処理手順を変換する辞書は、端末側にあっても配信基地局側にあってもよく、修正情報や新しい機能に関する音素記号列や画像特徴、音声特徴、感情識別子といった記号列を、XMLやHTMLのような後述されるマークアップ言語やRSS、CGIを用いて情報の送受信や配信を行っても良く組合せることで利便性を図ることが出来る。
もちろん、これらのサービスを実行する装置は卓上情報処理装置であったり、車載型端末であったり、携帯情報端末であったり、装着型情報端末であったりしてもよく、それらを用いて通信基地局を経由して本発明の内容を実施してもよい。
≪携帯端末に用いる例≫
まず、利用者は携帯端末に対して音声を発話する。発話された音声はその特徴量を抽出する。そして、第1の方法ではこの特徴量を対象となる装置に送信し、特徴量を受信した装置はその特徴量に応じて音素記号列及び/又は音素片記号列と感情記号列を生成する。そして、生成された記号列に基づいて、一致する制御手段を選択し実行する。
第2の方法は、携帯端末内で音素記号列及び/又は音素片記号列、感情記号列を生成し、生成された記号列を対象となる装置に送信する。そして、制御される装置は受信した記号列に基づき一致する制御手段を選択し実行する。
第3の方法は携帯端末内で生成された特徴量に基づき音素及び/又は音素片記号、感情記号列を認識し、認識された記号列に基づき制御内容を選択し、制御方法を制御する装置に対し送信する。
そして、第4の方法は、携帯端末を用いて音声波形をそのまま制御する装置に送信し、制御する装置内で音素記号列及び/又は音素片記号列、感情記号列を認識し、認識された記号列に基づいて制御手段を選択し、選択された制御を制御される装置が実行するというものである。
この際、利用者の感情が怒りを伴っている場合においては、利用者に対して謝るようなメッセージを音声や文字列により提示しても良い。同様に感情識別子も音声から特徴抽出や記号化が可能であり、環境音など音や映像の特徴や識別子についても同様である。
また、携帯端末の赤外線を用いてDVDデッキやテレビ、エアコンといった目的の装置を制御したり、制御するためにその装置のIPアドレスを赤外線や無線LANを用いて取得したりし、携帯端末用インターネットや屋内LANを経由して目的の装置の制御情報を取得して制御する場合、本発明を用いた制御リストを取得することで携帯端末や携帯電話による音声制御を実現できる。
もちろん、携帯端末から目的の装置に自分のIPアドレスやメールアドレスを送信し、目的の装置がそのIPアドレスに基づいて任意のポートに接続し制御情報を送信したり、目的の装置が制御情報をメールに添付して携帯端末に送信したり、単純に赤外線のやり取りで制御情報を取得するといった方法であってもよい。また、携帯端末のマイクからの入力を音素認識や音素片認識、感情認識、環境音認識、音階認識を実施して、検索サービスを実施してもよい。
この際、音素列や音素片列と処理手順を変換する辞書は、端末側にあっても配信基地局側にあってもよく、修正情報や新しいコンテンツや番組ジャンル、役者名に関する音素記号列や画像特徴、音声特徴、感情識別子といった記号列を、XMLやHTMLのような後述されるマークアップ言語やRSS、CGIを用いて情報の送受信や配信を行っても良く組合せることで利便性を図ることが出来る。
また、携帯端末での通話を随時処理し、感情の起伏や発話内容を評価することで、例えば怒りや悲しみという感情や疲労が会話中の端末利用者の発話から頻繁に観測された場合、通話終了後に元気になるようなコンテンツとして、おいしい近所のお店であったり、元気になる音楽やイラスト、映像作品を端末利用者に提示するといったサービスを実施したり、発話中の音素に基づいて宣伝を実行するというサービスも可能である。
また、携帯端末のマイクを低性能な物と高性能な物を複数個用意して認識用の高性能な音声収録を行ったり、収録する際のサンプリングレートを上げて、認識を実行すると共に音声通話送信用にサンプリングレートを低く変換し通話用音声情報を構成して通話用圧縮音声情報を生成したりしても良い。
もちろん、これらのサービスを実行する装置は卓上情報処理装置であったり、車載型端末であったり、携帯電話情報端末であったり、装着型情報端末であったりしてもよく、それらを用いて通信基地局を経由して本発明の内容を実施してもよい。
≪ロボットやエージェントに用いる例≫
例えば、ロボットやコンピュータのエージェント・インターフェースであれば付随する撮像装置やマイク、録音装置に伴う画像認識機能や音声認識機能を用いて前述の検出録画機能と同等の検出を実施し、利用者と共にテレビを見ているときに、特定の芸能人に反応して任意の処理を実施したり、特定のキーワードに反応し任意の処理を実施したり、特定の感情に反応し任意の処理を実施したりことで、利用者と共にロボットが笑ったり泣いたりする演出を実施したり、利用者の嗜好に合わせて周辺に置かれた他の装置を制御するロボットを実現することが可能となる。また他の処理と同様に、特徴量の抽出や記号化を行ってから基幹サーバにリクエストするという方法を用いても良い。
より具体的に説明すると、本発明を利用したロボットやエージェントは、コンテンツを利用者が閲覧している最中にコンテンツから抽出される識別子や特徴量と利用者の表情や発話に伴う音素・音素片・感情に関する特徴量と識別子を観測することにより、利用者の特徴量や識別子とコンテンツの特徴量や識別子の共起状態を観測することが出来るようになる。この際、本発明を用いたコンテンツ再生装置から感情や音素に関わる識別子や特徴量を取得しても良いし、自装置内の索引付け機能を用いてコンテンツや利用者の感情や音素に関わる識別子や特徴量を抽出しても良い。
このようにして、例えば「お笑い番組」において収集された特徴量や識別子によって「お笑い番組利用者状況評価関数」を構成し、コンテンツが「お笑い番組の特徴量」を示し、利用者が「喜んでいる特徴量」を示し、「お笑い番組利用者状況評価関数」における特徴量の重心に利用者とコンテンツの特徴量や識別子が近い場合、ロボットやエージェントに「楽しい」という感情表現をさせることで擬似感情としての演出をすることが可能となる。もちろん、他の「喜怒哀楽」のような他の感情であっても同様にして、利用者とコンテンツから得られる特徴量と識別子の共起状態によって状況を学習させても良い。
また、任意の物体に付属するRFIDやJANコード、バーコードを識別子として、その識別子の得られる物体の画像やぶつかったときの音、操作したときの音から特徴量を学習し、その物体の質量や重量などから運搬可能であるか、衝突時に回避するべきかどうか、利用者に提示した場合にどういった感情を示すかを関連付けて記録し学習することで装置自身が自動学習し装置の挙動や利用効率を自律的に改善するために利用しても良いし、映像コンテンツ内から特定の人物を認識し、その人物の表す感情特徴の出現頻度や強度が他の人物の表す感情の平均より例えば3σ以上乖離している場合において、その人物の性格特性を同定し、その人物との対話やコミュニケーションにおける補正値などに用いたり、その人物の性格を言い当てたりしても良いし、感情の変化に伴い顔の特徴量を抽出し表情の種類を自律的に学習したり、同時に発話される音声に対し音素や音素片による認識を行い得られた記号列を収録し、感情に伴う発話に含まれる音素や音素片傾向を分析したり、同時に環境音を認識し騒音や爆発音などの外部音響に対する利用者の反応による表情の変化を学習しても良い。
そして、このような方法によって学習された情報に基づいて、CGやロボットやエージェントなどの仮想人格における知識DBに用いて利用者の感性や対応に応じてCGやロボットやエージェントのリアクションを変化させり、CGやロボットやエージェントの表情変化に用いたりしても良し、EPGやBML、RSS、文字放送などの外部情報を用いてテレビなどの放送情報を取得し、利用者の好みに合いそうな芸能人や時事情報の提供を行っても良いし、前述の動画検索録画手段により収録された情報の再生回数や再生視聴時間に基づいて分析する方法を用いて利用者の嗜好を分析しても良いし、本発明を用いたロボットに携帯電話の実施例のように赤外線通信や無線LANなどを用いて周囲の装置の制御方法を取得し、利用者の音声に従った装置制御をすることで装置制御の利便性改善を図ったり、現在表示している情報の識別子や特徴量を獲得しても良い。
このように、複数の識別子と特徴量との共起状態に基づいた情報を多元的に評価、学習することで、ロボットやエージェントの知識データベースとして用いることが可能であり、人とのコミュニケーションに必要な情報を映像や音楽により学習することで、より汎用性の高いロボットやエージェントインタフェースの実現が可能となるとともに、ロボットの動作に伴う各種センサ入力や画像情報や音響情報や音声情報の共起状態を評価して、ロボットの自律的動作を学習させたり、学習結果にしたがって自律的に行動したり、学習結果にしたがって人に対して指示をしたりしてもよいし、ゲーム内での仮想人格としてキャラクタやNPCの知識DBに用いたりしても良い。
この際、音素列や音素片列と処理手順を変換する辞書は、端末側にあっても配信基地局側にあってもよく、ロボットの修正情報や新しい情報、機能に関する音素記号列や画像特徴、音声特徴、感情識別子といった記号列を、XMLやHTMLのような後述されるマークアップ言語やRSS、CGIを用いて情報の送受信や配信を行っても良く組合せることで利便性を図ることが出来る。
もちろん、これらのサービスを実行する装置は卓上情報処理装置であったり、車載型端末であったり、携帯情報端末であったり、装着型情報端末であったりしてもよく、それらを用いて通信基地局を経由して本発明の内容を実施してもよい。
≪医療分析装置の例≫
つづけて、医療応用としての分析装置の例を説明する。本発明の音声と画像から抽出される音素や音素片、文字や表情、仕草に加えて、脈拍センサや脳波センサ、筋電流センサ、皮膚抵抗センサ、体重計、血圧計、体温計を用いて観測対象者の発話に伴う感情と脳波や脈拍などセンサから得られる特徴量を本発明に基づいて索引付けながら収録する。
次に本発明を用いて、各特徴量や識別子の共起状態を観測・分析し学習することにより、特定の感情に伴う脳波の傾向や血圧傾向、体温傾向、体重傾向、脈拍傾向、表情傾向に関する多変量解析を実施して分類し偏りを抽出するするとともに、専門家によって本発明により学習・分類された傾向に基づいて心理状態に関する識別子の割り当てを行う。
このようにして分類された情報に基づき追加された索引を利用して本発明に用いられる再学習を実行することで、心理傾向分析を行う装置や分析された傾向に基づいて利用者との対を行うことで感情と発話と脳波若しくは脈拍若しくは皮膚抵抗若しくは筋電流、血圧傾向、体温傾向、体重傾向の変化にともない記録を採りそれらの情報を参考にカウンセリングや精神分析や各種センサとの併用により尿や血液といった体液や体調、皮膚や毛髪、排泄物などの成分に関する共起情報を評価して診断参照情報の整理を実行する装置を構成できるとともに重症患者のうめき声や挙動を観察し状態の変化を検出する装置などが構成できる。
また、同様の方法で人の動作に関する偏りを抽出し分析することで、背骨の異常や歩き方の異常を検出したり、骨折などの外傷治療後の改善状態を記録分析することで、医療における治療効果の評価を定量的に行う装置を構成したり、人と対話することでカウンセリングや精神分析を試みる情報処理装置の仮想人格に用いる知識情報データベースとして構成したりしても良いし、義足や義手のといった医療機器に利用する制御情報を画像情報や音響情報を用いた身体動作に関する共起情報によって構築や抽出に用いても良いし、患者や利用者の健康に関連する情報の変化に基づいた健康管理システムを構成しても良い。
≪国際音素記号と言語別音素記号、音素と音素片の記号変換例≫
次に、このような共起状態を評価する検索において、異国語で発話されたコンテンツを検索する際に音素特徴傾向が言語により異なるため、それらを補完する技術が必要になることが将来的な課題として予測されるため、共起状態を利用した音素記号変換方法について説明する。
また、同様の共起情報の組合せを日本語音素と英語音素の共起状態を評価することで異なる言語間の変換を行うようにすることも可能であり、言語の違いによる音素記号の変化や偏りを解決するために、国際的な音素表記の基準に対して、言語ごとに帰属確率を考慮した変換のための標準テンプレートとして変換テンプレートを持ち、それらのテンプレートをHMMや距離評価関数として構成することにより音素情報空間を互いに変換可能とし、利便性の向上による課題の解決を図る。
共起状態を学習したり、それぞれの識別子や特徴量を音素や音素片や文字列で検索条件に指定したり、索引付けをコンテンツ情報に実施したりすることで、複雑な主観的条件に基づく情報の検索や記録、配信、受信を実現するばかりでなく、国際的な発音の違いに対応したりすることが可能となる。
また、これらのコンテンツ検索において、海外のコンテンツも含まれることを考慮し発音環境の変化への対策として外国語音素と日本語音素の変換方法を実現するとともに音素の変換ばかりではなく、音素列と画像特徴の変換や効果音と音素片列の変換や感情と文字列の変換といった人間にとって共起状態にある情報同士の変換により検索条件を整え検索を行うことで課題の解決を図ろうとするものである。
もちろん、共起状態を用いるため、映像特徴同士や動作特徴同士、映像と音声に関連した識別子、和音や環境音などの識別子、感情識別子を組合せることで困った表情のときに出力される音声特徴などの共起状態を学習し、新しく「困った態度」識別子を構成するといった利用や、音声識別子と画像識別子を獲得する層と共起状態を処理する層と共起状態の時系列遷移を処理する層といった方法で多層ベイズや多層HMMを構成し利用することも可能である。
そして、このような多様な認識の出力を人種や言語ごとに分類して文化による評価層などを与えることにより異なる背景に基づいた認識結果による識別子同士の変換を実施しても良く、確率的に偏りのある共起情報を用いる変換によって、異なる背景でありながら類似性のある情報の変換を実現することが可能となる。
識別子変換の特徴は言語依存のある音素表記を国際音素記号若しくは異なる言語環境に基づく音素及び音素片の認識により異なる言語特性を持つ音素記号の共起情報に基づいた音素変換辞書や音素片変換辞書の利用による異言語音素変換処理及び言語に関連付けられた識別子以外の識別子に関する同様の共起状態に基づく識別子変換処理の実施にある。
前述の『本発明を用いた識別子再構築の例』にあるように、例えば、国際音素で表記された場合であれば、国際音素記号HMMの出力確率を特徴量として言語別音素記号に基づくHMMの学習を実行する。また逆に、言語別音素記号に基づくHMMであれば、言語別音素記号の出力確率を国際音素記号に基づいて学習する。同様に、音素片から音素への変換や音素から音素片への変換をそれぞれ学習する方法を用いてもよいし、HMMばかりではなくベイズ識別関数やマハラノビス距離などの距離を用いる方法や尤度や確率を用いる方法であってもよく、国際音素への帰属確率に日本語音素を用いた応用例もあわせて示している。
また、国際音素記号に対する各言語における音素の帰属確率を求め、対応する表を作り国際音素辞書を用いて特徴量から音素同定し、各言語に依存した音素記号列に変換したり、異なる言語間での音素の帰属確率を求めて帰属確率の高い順に評価したりすることで、他の言語や他の言語を母語とする人の発話特徴を利用する装置の言語特徴に変換したりしてもよい。なお、音素、音素片変換や異言語間音素、音素片変換ばかりでなく、画像識別子同士の変換や画像識別子と音素、音素片列の変換もこれら識別子の共起状態に基づいて構成でき前述の辞書機能で利用することにより実施してもよい。
また、国際音素記号との対応は国際音声学会による国際音声記号ガイドブック等を参考にしIPA番号やIPA記号、UCS符号番号と関連付けたり、これらの記号や番号を識別子としたりして音素変換の管理に用いてもよい。また、異なる言語間の音素記号を国際音素記号に変換する場合、帰属確率テーブルと前後の音素間の遷移確率を利用したり、出力確率を再学習してHMMなどにより記号間の変換を実施したり、出力確率や特徴量の共起情報を用いてユークリッド距離関数やベイズ識別関数といった評価関数を構成し記号変換関数として利用したりしても良い。
この際、音素片から音素や音素から音素片の変換テーブルを用いて同一言語内での音素と音素片の相互変換を実現したり、地域言語音素記号と国際音素記号の変換や地域言語音素片記号と国際音素片記号の変換、それぞれの音素片音素間変換を実施したりしても良い。例えば、この処理によって日本語音素記号から国際音素記号を経由して英語音素記号へと識別子変換をしたり、日本語音素記号から英語音素記号へ変換したりするといった異なる言語依存がある音素、音素片同士の識別子変換をしたり、前述の音素記号変換テーブルを用いて識別子変換をしたりできると共に識別子変換された識別子列を用いて検索を実施しても良いし、この変換テンプレートは時間的遷移を考慮し、モノグラムばかりではなくバイグラムやトライグラムといったユニグラム構成の音素HMMや音素片HMMを用いても良い。
このような方法により、
画像→英語名称→英語音素列索引付け→日本語音素列変換→日本語発話入力→日本語音素列検索
日本語発話→日本語音素列→日本語キーワード→英語訳→英語音素列→英語DB音素列検索
といった言語に依存した発話を他言語に変換しながら検索することが可能となり、英語圏で構成された「役者の写真」を集めたデータベースを「役者名の日本語発音」に基づいた音素列で検索するといった任意のメタ共起検索が可能となる。もちろん、役者ばかりではなく自動車や工具、花、化粧品といった商品の販売カタログのようなものを構成してもよいし、検索のための一覧表示などに用いても良い。
次に、より具体的な変換関数の構成手順について説明する。
まず、図28と図29によれば、単純な言語依存の音声と文字列による検索手順が記載されている。この記載によれば、入力された文字列や音声波形が言語依存で識別子に変換されクエリに用いられるとともに言語依存の識別子で索引付けされたデータベースを用いて検索することがわかる。
しかしながら、音素や音素片と言った識別子は言語によって異なるためその表記が必ずしも一致するわけではなく、識別子も同様に千差万別である。このような多様な識別子を相互に検索できるようにするためには、識別子記号列の変換を行う必要がある。この識別子の変換には、それぞれの言語環境で構成された識別子評価関数を同一の発話に対し認識を行うことで各識別子の共起状態を観測し、その認識結果として出力される識別子や出力確率、尤度、距離、特徴量などを学習することで識別子間の記号の変更を実現することが図30や図31の手順にあるように可能である。
より詳しく説明すると、例えば英語による発話の情報と日本語による発話情報とを索引付けや検索時と同様に自然情報を特徴量に変換する。次に特徴量に基づいて、日本語と英語の音素や音素片認識を実行する。この結果、お互いの言語に依存した音声情報をお互いの言語に依存した認識過程を経て識別子による索引付けが実施される。
次に、実施された識別子列による索引を観測し互いの識別子の共起状態や出力確率の遷移を観測する。この結果、各音素や音素片において日本語で英語を認識した場合の日本語音素と英語音素の共起状態が抽出できる。同様に英語で認識した日本語の音素共起情報も構成できる。このようにして得られた共起情報を元に日本語音素列で発話した場合の英語音素認識関数としてHMMやベイズ識別関数などの評価関数を構成し、識別関数のための内部定数をファイルなどの記憶媒体に保存し再利用できるようにする。
この結果得られた識別関数を用いて英語の発話情報を英語対応の日本語音素識別により認識することで異なる言語間の音素記号変換が可能となる。なお、このような変換における共起情報に関し共起確率に基づいて国際音素記号と日本語の変換例を示したのが図32であり、英語と日本語ばかりではなく、中国語やドイツ語フランス語、ベトナム語、スペイン語などを組合せたり、その中間音素に国債音素記号を用いたり、相互に変換できる評価関数を構成したりしても良い。
同様に、任意の音声波形に対して音素と音素片で同時に索引付けを実施したり、日本語音素と英語音素と国際音素記号とで同時に索引付けしたりすることで、異なる言語に依存した音素や音素片で索引付けすることにより、共起状態を観測し認識のためのHMMやベイズによる識別関数を構成してもよい。
また、音素や音素片の共起状態を観測することで図33にあるように多層HMMを構成したり、多層ベイズ関数を構成したりするといった方法も可能であり、その応用として、音素から音素片や音素片から音素といった図34や図35のような異なる識別子特性における識別子変換を実施できるようになる。
この方法は、音素HMMや音素片HMMから出力確率に基づいて現在の音素を同定したり、変換HMM層に入力したりする方法であったり、複数のベイズ関数の確率指数部出力を並列で評価し距離情報の配列を特徴量として構成する多層ベイズによる方法であったりしても良い。
具体的には、図33であれば日本語の出力確率の遷移状態を入力する音素変換HMMを構成するために、両方の音素評価関数で索引付けした後に、変換元の音素HMMの出力確率を国際音素記号で分類されたHMMに入力し学習させる。その学習に基づいて、出力確率を評価し国際音素記号を割当てる。この際、学習に関しては共起行列や共起確率を用いたり、出力確率の値や特徴量をベイズ関数の標本ベクトルとして与え、複数の標本ベクトルから共分散行列を構成したのち固有値固有ベクトルを求め評価関数としたりしても良い。
また、図34であれば現在のフレームにおける音素HMMの出力確率と次のフレームにおける音素HMMの出力確率と前のフレームの出力確率から「無音」から「A」の発話に遷移する過程において無音の確率の高いフレームを「Pau」とし、「A」の出力確率が増加しているフレームを「A」とし、これらの記号を時系列的に並べて「Pau-A-A」という音素遷移に基づいた記号を割当てている。この際、最初のフレームや最後のフレームは前後のフレームが欠けるので自己フレームと同じ識別子で埋めている。
この場合、例えば単純なモデルで2フレーム目を考えると音素片の過去フレームは「Pau」が第一位なので音素片の左は「Pau」、中心フレームは前後の出力確率の平均が最大になる「A」、右フレームは「A」が第一位なので音素片の右の記号は「A」となりその時系列変化に基づいて音素片を「Pau-A-A」と構成する。このようにして、音素片と音素の変換を実現することも可能である。
また、図35であれば現在のフレームにおける音素片HMMの出力確率と次のフレームにおける音素片HMMの出力確率から「無音」から「A」の発話に遷移する過程における出力確率の高い音素片記号において無音が音素片記号に占める割合の高い部分では「Pau」とし、「A」無音が音素片記号に占める割合の高い部分では「A」とし、記号を割当てている。例えば2フレーム目では「Pau-A-A」が60%、「A-A-A」が20%、その他20%となっていおり、その他は表記から省略されている。
この場合、単純なモデルで2フレーム目を考えると「Pau 」が音素片第1位の三分の一を占めているためPau=(60÷3)%となり、「A」が音素片第1位の三分の二と2位の全てを占めているため A=(60÷3×2)+(20÷3×3)%として計算するとPau=20%、A=60%となり、2フレーム目の記号は「A」となる。このようにして、音素片と音素の変換を実現することも可能であり、これらの識別子に基づいた評価式の構成は例えば前後のフレームの第1位音素を考慮するなどといった方法で任意の組合せを用いても良い。
また、図32のような国際音素記号変換表を用いる場合上記のような変換において中間形態として国際音素記号を用いる方法がいくつか考えられ、図36や図37や図38にあるように認識を言語別に行った後に国際音素記号に変換し国際音素記号による検索を実行する方法や、認識を国際音素記号で行った後に各言語別の音素記号に変換し言語別音素記号で検索する方法や、認識を話者言語別に行い国際音素記号に変換し、コンテンツ言語に変換した後に検索や検出を行う方法や、入力された文字列を国際音素記号に変換して検索したのちそれぞれの言語向け音素に変換して提示する方法など任意の組合を用いても良い。
また、日本語や英語、フランス語、スペイン語、ドイツ語、韓国語、中国語、インド語、イスラム語、ヘブライ語、アラム語、ベトナム語、ギリシャ語などの任意の言語による文字列を検索対象とする場合であれば文字列の発音に基づいて音素列や音素片列を構成したり、ひらがなやカタカナといった任意の言語における発音表記や国際音素表記に変換したりした後で特徴量へ変換し共起状態を確認して言語間の音素変換を実現しても良いし、それぞれの言語に依存した音素や音素片に関し国際音素記号を中間形態に用いて前述の方法で変換しても良い。
このように、言語状態や画像状態、音響状態といった異なる環境の識別子に用いる評価関数を用いて同一の環境に基づく情報に対して評価することで共起状態を観測し、各識別子の交換可能性を確率的に補足することで環境の変化に対応した評価関数を構築することが可能であり、特に国際音素記号と地域別音素記号や音素と音素片の識別子変換に識別子の共起状態を学習させ用いることによって本発明の検索の多様化を実現できる。
また、識別子同士の変換例として音素間や音素片音素間の変換例をあげたが、本発明の実施例に記載されるような、環境識別子と音素識別子の変換として「波の音」と「z/ a/ p/ p/ a/ a/ a/ a/ n/ n/ n/ n/ n」といった擬音音素列の変換や画像識別子と呼称としての音素識別子列の変換も時間的共起情報の遷移から変換可能であり、類似した形状の評価やそれにともなう識別子の変換などに利用しても良い。
<その他一般>
また、本発明は、音素記号や音素片記号に基づく識別子及び感情識別子を中心に言及しているが、「従来の技術」や「従来技術の課題」、「課題の解決方法」に記載された各種技術文献、及びそれらの文献における引用文献に基づいて環境音識別子、感情識別子、楽器識別子、音階識別子や画像識別子、人物識別子、動作識別子、表情識別子、表示位置識別子、番組識別子といった従来からある他の特徴量や識別子のための認識技術や識別技術を用いて施された識別記号の組合せによる索引付け方法と検索要求を実行することにより、本発明の実施例における利便性の向上を図ってもよい。
また、GUIのクリックやポインティング操作、音声入力による指示操作により検索対象や検出対象や学習対象となる代表的なサンプル画像や音声範囲や映像部品を指定して選択したりしてもよいし、それらの組合せにより株の売買、商品の売買、オークション、予約、アンケート、コンテンツの視聴、コンテンツと利用者の共起状態の伝達による視聴状況調査などを実施しても良いし、特徴の抽出や識別子の認識や検索や学習や検出は端末側や基地局側や中継局のいずれで行っても良いし、クラスタやグリッドなどの分散処理を実施しても良いし、感情識別子を用いて音声認識の感情に伴う文脈遷移係数を変更したり、感情認識により認識された感情によって分岐する選択肢を追加したり、利用者の声から認識される感情識別子で処理の選択範囲や分岐範囲を与えたり、キーワードに関連付けられた識別子とキーワードに関連付けられた広告とを関連付けて提示したりしてもよい。
また、利用者の指示により選択・指定する映像などの部品はMPEG4などで用いられる画像オブジェクトの画像輪郭や3次元画像における座標情報を利用して選択範囲の境界を特定する方法を用いても良いし、音声などの無音部や周波数の偏りから検出される境界を利用しても良いし、画像内の表示物体を発音することにより索引付を行ったり、選択したりしても良いし、番組中の撮影場所に関して緯度、経度といった位置情報を用いて観光案内などの宣伝を行っても良いし、認識された識別子や抽出された特徴量に応じて広告や宣伝を実施したり、広告や宣伝を実行するための索引付を行ったりしても良い。
検索結果や本発明を用いて索引付されたコンテンツ情報に対して識別子や特徴量をマークアップ言語のタグや属性として追加し、配信することにより利用者の操作に応じた関連するコンテンツの提供や広告の提供や商品の販売を行っても良く、利用者の意図に基づいたコンテンツ操作やコンテンツ編集やコンテンツ利用が実施できる。
また、検索結果を用いてコンテンツに関連した情報を補足したり注釈付けたりするアノテーション処理を行っても良いし、本発明に用いられる共起情報を利用してコンテンツ検索ばかりではなく、ネットワーク上の情報を自立的に収集・検索するボットシステムなどを構成してもよい。
この際、音素片とは時間軸上に音素の中心部や前部、後部と複数に分解された音素記号であったり、第一の音素と第二の音素といった音素間や音素片間の遷移状態における第一の音素から第二の音素に変化する位置に基づく中間特徴を持つ音素情報であったりしてもよいし、検出された感情や環境音や人物に基づいて認識しやすいように音素認識辞書や音素片テンプレートを切り替えたりしてもよい。
また、本発明に用いられる識別子は前述の音素や音素片を含め感情特徴から抽出された識別子であったり、画像特徴から抽出された画像識別子であったり、音響特徴をから抽出された楽器識別子や音階識別子、環境音識別子であるような情報同士を同時に評価し検索や検出することにより、従来になく利便性の高い任意のサービスを実現する情報処理装置と考えてもよい。
また、特定の感情識別子や環境音識別子、音階識別子といった音声関連識別子が発生している音声情報において、音素や音素片、各種識別子の認識のための特徴量の偏りを検出し、同一音素における感情別の偏りを学習することで、任意の音素に伴う感情の認識や環境音を伴う音素認識と同時に行えるように特徴量の再学習を行って音素や音素片の認識率改善を行っても良いし、コンテンツ情報のフレーム内共起情報に基づいてフレーム間確率遷移行列を求めてコンテンツ情報の検索に用いたり、コンテンツ情報の評価関数に用いたりしても良い。
また、このような主観を伴う定量化困難な情報は認識のたびに量子化されるため必ず累積誤差が生じ確率的な再現性を得る必要があり、本発明のように多様な識別子と特徴量を用いることで、例えば利用回数が多いとか新規に多数の項目での検索登録をしたといった利用者の肯定的な反応や行動により、EPGやBML、RSS、文字放送や画像特徴及び識別子、音声特徴及び識別子といった各種識別子や各種特徴量を含めた検出情報の共起状態を評価し、利用者による指定以外の識別子や特徴量における共起情報を検索や検出や学習に用いることで「気づき」を演出し利用者が収録し再生する頻度の高い情報を自律的に収集したり、収集した情報の評価を音声や文字画像により提示し利用者の主観を反映させたりしても良い。
また、音声から得た特徴量に基づき認識された音素や音素片による記号列や感情や音階、楽器音、環境音などの識別子及び/又は映像から得た特徴量に基づき認識された形状や色、文字、動作などの識別子、番組情報識別子を数量化分析I類からIV類を踏まえた多変量解析により分類・多変量解析し本発明に追加的に用いる新しい識別子として利用してもよく、平均と分散から3σに帰属するか、2σに帰属するか、1σに帰属するかといった形で3段階に評価して、検索結果の指標に用いても良い。
また、これらの処理における特徴量はスカラやベクトル、マトリクス、任意階のテンソルといった多次元配列や複素数や四元数、八元数といった多元数によって構成されていても良い。
このような方法により、人間の感覚を記号化した任意の情報同士を任意の時間幅を持たせて共起状態の評価が可能となり、映像や音声を伴う情報の索引付けや検索、検出が可能となるため従来では定量化による検索や検出が困難であった情報の検索や検出が実現でき、人にやさしいサービスやそのようなサービスを実現する装置や情報処理システムや通信基地局や携帯端末を実現することができるため、インターネットなどのポータルサイトや検索サイト、販売サイト、SNS(Social Networking Site)、知識を共有するエキスパートシステムサイト、オークションサイト、文字放送、情報を整理するための多変量解析システム、スクリーニングシステム、ネットワーク上の信用情報や認証情報を取り扱う認証サイト、アグリゲートサービス、情報処理装置のグラフィカル・インターフェースやタンジブル・インターフェース、エージェントインタフェース、ロボット、仮想現実、拡張現実などにおいてRSS(RDF Site Summary)等を用いて情報を配信する際に本発明を用いるために、XML(eXtensible Markup Language)やSOA(Service Oriented Architecture)、RDF(Resource Description Framework)、BML (Broadcast Markup Language)、SMIL (Synchronized Multimedia Integration Language)、MathML(Mathematical Markup Language)、Xpath(XML Path Language)、SML(Simple(or Stupid or Software)Markup Language)、MCF(Meta Contents Framework)、DDML (Document Definition Markup Language)、DSSSL(Document Style Semantics and Specification Language)、DSML(Directory Services Markup Language)、DTD(Document Type Definition)、GML(Geography Markup Language)、SMIL(Synchronized Multimedia Integration Language)、SGML(Standard Generalized Mark-up Language)、RDF(Resource Description Framework)等のメタ表現形式の分類指標に本発明を用いてもよく、SOAP(Simple Object Access Protocol)やUDDI(Universal Description, Discovery, and Integration)、WDL(Web Services Description Language)、SVG(Scalable Vector Graphics)、HTML(HyperText Markup Language)、URI(Uniform Resource Identifier)、WAP (The Wireless Application Protocol)、XQL(XML Query Language)、VML(Vector Markup Language)、URL(Uniform Resource Locator)、EPG(Electronic Program Guide)、DLNA(Digital Living Network Alliance)、BML(Broadcast Markup Language)等の各種プロトコルやスクリプト、マークアップ言語、スキーマといった情報処理言語の変数、属性や任意のタグ、属性、関数といった手段を任意に組合せてサービスを実施してもよい。この際、修正情報や新規情報は修正や新規を示すタグや変数、属性、命令を用いたりして表現や表記、実装されても良く前述の『マークアップ言語の解釈・変換・配信・制御装置の例』を組合せることで利便性を図ることが出来る。
また、外部から入力される情報は音声や映像ばかりではなく、脈拍計や血圧計といった健康管理計測器類や味覚センサや嗅覚センサ、人体センサ、熱センサ、湿度センサ、温度センサ、照度センサといった環境観測低機器類、およびラマン分光分析、紫外、赤外、可視分光光度計、レーザ・アブレーション誘導結合プラズマ質量分析装置、定性定量分析、蛍光X線元素分析装置、光散乱レーザートモグラフィー装置、フーリエ変換型赤外分光光度計、軟X線透過装置、カラリーメータ、スペクトロリノ、ケープディテクタ、熱分析オペレーションシステム、示差熱・熱重量同時測定装置、示差走査熱量計、熱機械、分析装置、熱膨張計、分解発生ガス分析装置、熱分析自動試料交換装置、湿度発生装置、プラズマグラフト重合装置、紫外線グラフト重合装置、全有機炭素量分析装置、ガスクロマトグラフィ、液体クロマトグラフィ、浸透圧計、動的粘弾性測定装置、イオン化質量分析装置、ICP(Inductively Coupled Plasma)発光分析装置、蛍光分光測定装置、生化学自動分析装置、自動輸血検査装置、自動化学発光酵素免疫分析装置、光電測光式発光分光分析装置、質量分析装置といった各種分析装置からの入力を特徴量として用い識別関数を構成し、映像や音声情報に関連付けて記録し索引や任意の処理を実行する基準や変数、属性に用いたり、ロボットなどの行動指標の基準や変数、属性に用いたりしても良く、これらの検出により人間の身体に発生する危険を検知・予測しても良い。
また、情報検索装置を含む人工知能や人口無能といった処理系もしくはロボットやパソコン、カーナビ、基幹サーバや通信基地局といった情報端末や情報処理装置、携帯電話や腕時計、装身具形状端末、リモコン、PDA、ICカード、インテリジェントRFID、身体埋め込み端末といった携帯端末であってもよく、本発明は検索及び検出手法の実施応用であるため、演算部や記憶部といった情報処理機能を有すれば任意の情報処理装置を含む装置上や回線上の情報配信装置で本発明は実施可能である。
また、市街情報支援システムの支援情報機器として映像や音声、文章を提供するためにGPSや地磁気位置検出システムの組合せにより位置情報と関連付けて位置に基づいた情報支援を実施しても良く、任意の識別子による共起行列や特徴量を用いた距離関数を利用しても良い。
また、本発明による検索装置を用いて利用者のよく利用する検索条件に基づいて利用者の嗜好情報を構成し分析を行ったり、それらを集計して多変量解析することで新しい嗜好カテゴリを設けたりしても良く、任意の識別子による共起行列や特徴量を用いた距離関数を利用しても良い。
また、本発明による検索装置を用いて前述の任意の識別子や特徴量の組合せによる検索条件に基づいた共起行列や共起確率、距離関数を用いて任意の手段による広告や宣伝を行っても良く、他者との嗜好情報の類似度を評価して嗜好に基づいた相性占いに用いても良いし、検索中のみに限らず学習中や検索結果の提示中といった利用者の指示を待つっている間や利用者を待たせている間に宣伝を行っても良い。
また、本発明による検索装置を用いて利用者が画面を見ながら発話しながら索引付けを行っても良いし、抽出された利用者の嗜好や主観を利用者自身に評価させることで強化学習を実施し、抽出された情報の制度を改善しても良いし、検索結果にサムネイルなどの小さな画像や動画を表示して一覧を構成しても良いし、検索結果の検索条件との一致率を色の濃さや明るさ、アイコンの個数、グラフ描画で表現したり、順位を整えて表現したりしてもよい。
また、前述のような識別子を用い配信される情報の音素情報や感情情報、環境音情報、音階情報、楽器情報を関連付け、さらには画像認識情報、顔情報、色空間情報、画像内物体情報、認識文字列情報を関連付けして情報のデータベースへの登録やデータベースからの検索及び各コンテンツファイルの修正や変更、コンテンツファイルに関連付けられた付属ファイル生成のなどの管理を行う情報処理装置に提供するようにすれば、情報登録および情報検索を簡単にかつ高精度で実現できるのである。なお、この際、登録・検索対象としての入力された音声情報や映像情報を統計的に収束させることにより、記録された情報の効率的な登録と、該登録内容の閲覧に伴うサービスを提供することもできる。
また、前述のような識別子を生成したり識別子の相関性を分析してカテゴリを構成したりする評価関数やHMMを構成し、それらの評価関数や構成情報を利用者同士で配信したり交換したりすることで、関連付けられた音声情報に基づく音素や音素片の情報、感情情報、環境音情報、音階情報、楽器情報等を関連付けたり、さらには画像認識情報、顔情報、色空間情報、画像内物体情報、動作情報、認識文字列情報、認識記号情報を関連付けたりして情報のデータベースへの登録やデータベースからの検索条件の設定などを行い他の情報処理装置に提供するようにすることで任意の情報登録および情報検索を簡単にかつ高精度に実現できる。
また、前述の動作特徴は映像ばかりではなく、音声の音源移動情報やエコー探索などの反射波変化情報であったり、モータや圧力センサからのフィードバックやトルク情報であったりしてもよいし、ロボットの操作情報や接触情報を利用してもよい。
また、前述のような登録や検索の際に対象としての入力された音声情報や映像情報を統計的に収束させることにより、記録された情報の効率的な登録や利用者同士の交換や販売を行い、該登録内容の閲覧に伴うより効率的なサービスを提供することもできる。
また、前述のような音素や音素片による記号列や識別子を他の装置へ送信し装置の処理内容を変更させたり音素や音素片による記号列を他の装置から受信して装置の処理・制御手段を修正・追加したりしてもよい。この際、国際音素記や音素片や任意の言語の音素や音素片を用いても良い。
また、前述のような新しく識別子を構築する際の評価基準として、一般的な認識率が60%程度であることから、60%を超える一致率を示す既存の識別子がどの程度あるかを評価して、その評価に基づいた共起行列や共起確率、ベイズ、HMMといった確率関数や尤度関数、距離関数といった評価関数を構成し、新しい識別子の基準としても良いし、複数の識別子の一致率が平均60%程度の場合において新しい評価関数や識別子を構成しても良いし、記号列の一致度を測るためにDPやCDP、リフCDPといった任意の記号列マッチング手法を組合せても良いし、ニューラルネットワークやファジー、カオス、フラクタル、遺伝的アルゴリズムといったものと組合せて、学習効率の改善を図っても良い。
また、上記情報処理装置は例えば主記憶部や補助記憶部といった記憶部及び情報の評価演算処理を行う情報処理部、外部の装置との情報を交換する通信部、利用者の指示を受ける入力部、利用者に処理結果を提示する出力部などを有する情報処理装置に基づいた情報登録及び情報検索が可能な装置により構成されるものとし、パーソナルコンピュータや大型コンピュータ、基幹サーバや通信基地局などを考慮できる。また、データベースに記録されている情報の統計的分析を行うプログラムを用いて情報分析が可能な装置とするこがより好ましい。
また、本発明を用いたサービスと課金システムを連携して利用者への付加価値の提供による利用者心理や利用者の趣味・嗜好に配慮した情報配信サービスやエージェントサービスを実現してもよい。
また、利用者がロボットやエージェントの提示した結果を肯定的に捕らえると強化学習されるアルゴリズムにより肯定された回数の多い内容や検索のための評価関数を増やすようにアルゴリズムを構築することで、ロボットやエージェントが利用者に肯定されたいという存在欲を与え、ロボットやエージェントが自律的に学習するという学習モデルを構成しても良い。
また、学習結果による共起情報で利用頻度の低いものは利用者の評価や空き容量の程度を条件にして自動的に削除したり、外部の記憶装置や通信先の記憶装置に保存して自装置内のものを削除したり、条件を簡易化した索引や識別関数を残し必要なときに外部から通信回線を用いて取得するといった方法を用いても良い。
また、上記携帯情報端末は例えば携帯電話やPDA(Personal Digital Assistant)、ノート型コンピュータ、ウェアラブルコンピュータ、腕時計型コンピュータ、カーナビなどの車載型コンピュータなどのいわゆる可搬型・装着型の情報端末を考慮でき、移動・装着・保持等の方法や形態、形状などは限定されるものではなく、より具体的には携帯電話、カーナビ、DVDレコーダ、HDDレコーダ、映像録再装置、音楽録再装置、STB、モデム、FAX、電話機、パソコン、情報配信サーバ、情報配信基地局、店頭情報端末、キャッシュレジスタ、POS(Point Of Sales system)端末、ATM、プロジェクター、テレビ、ビデオ、編集機などであってもよい。
また、これら情報処理装置と携帯情報端末には特徴抽出部や利用者情報入力部、情報検索部、情報蓄積部、クエリ情報送受信部が実行するために必要な任意の組合せで含まれており、それらの処理間の情報は無線LANや赤外線通信、携帯電話、通常LAN、有線回線、無線回線などを経由してインターネット、イントラネットなどの通信網により情報の交換や相互検索を行うことが可能であってもよく、マークアップ言語を用いるのであればマークアップ言語送受信部、マークアップ言語解釈部を必要に応じて情報入力部や情報出力部に追加してあってもよい。
また、広告を行う際の広告情報は通信回線経由で取得しても良いし、コンテンツに付属した広告を提示しても良いし、広告状態の記録を取って広告効果を検証しても良いし、広告の成立頻度の高い検索共起情報を分析しても良いし、索引付けのときに得られた共起情報と類似性の高い共起情報をもつ広告を提示しても良く、それらをサービスとして提供しても良い。
また、記憶部にある任意の情報は同一装置内にあってもよいし、通信回線を経由して他の装置から取得してもよいし、コンテンツ検索のサービスを行っても良い。
また、本発明に基づいた検索システムはデータベースや索引検索評価部を情報処理装置に内蔵しても外付けにしても良く、外付けである場合には情報処理装置に無線有線を問わず何らかの手段により通信可能にすることで実現することが可能である。
なお、本発明はあくまでも例であって、必ずしも本文中の記載に拘束されるものではなく、任意の特許や文献に記載された技術と組合せて性能の改善を図っても良い。

Claims (29)

  1. コンテンツ情報を獲得するコンテンツ情報獲得手段と、
    検索条件を入力する検索条件入力手段と、
    前記コンテンツ情報獲得手段により獲得されたコンテンツ情報から、前記検索条件入力手段により入力された検索条件に適合するコンテンツ情報又は当該コンテンツ情報内の位置を特定する特定手段と、
    を備えた情報処理装置において、
    コンテンツ情報から特徴量を抽出する特徴量抽出手段と、
    前記特徴量抽出手段により抽出された特徴量から評価関数を用いて識別子を生成する識別子生成手段と、
    前記特徴量及び/又は前記識別子を前記コンテンツ又は前記コンテンツ内の位置に関連づけて索引情報として記憶する索引情報記憶手段と、
    前記検索条件入力手段により入力された検索条件を特徴量及び/又は識別子に変換する検索条件変換手段と、を備え、
    前記特定手段は、前記検索条件変換手段により変換された特徴量及び/又は識別子を用いて前記索引情報と前記検索条件との適合を検出することでコンテンツ又はコンテンツ内の位置を特定する検索特定手段を有することを特徴とする情報処理装置。
  2. コンテンツ情報を獲得するコンテンツ情報獲得手段と、
    検索条件を入力する検索条件入力手段と、
    前記コンテンツ情報獲得手段により獲得されたコンテンツ情報から、前記検索条件入力手段により入力された検索条件に適合するコンテンツ情報又は当該コンテンツ情報内の位置を特定する特定手段と、
    を備えた情報処理装置において、
    コンテンツ情報から複数の異なる特徴量を抽出する特徴量抽出手段と、
    前記特徴量抽出手段により抽出された複数の異なる特徴量から評価関数を用いて複数の異なる識別子を生成する識別子生成手段と、
    複数の異なる前記特徴量及び/又は前記識別子を前記コンテンツ又は前記コンテンツ内の位置に関連づけて索引情報として記憶する索引情報記憶手段と、
    前記検索条件入力手段により入力された検索条件を複数の異なる特徴量及び/又は識別子に変換する検索条件変換手段と、を備え、
    前記特定手段は、前記検索条件変換手段により変換された複数の異なる特徴量及び/又は識別子を用いて前記索引情報と前記検索条件との適合を検出することでコンテンツ又はコンテンツ内の位置を特定する検索特定手段を有することを特徴とする情報処理装置。
  3. 前記索引情報記憶手段は、コンテンツから獲得された特徴量及び/又は識別子に基づいて構成される共起情報を前記コンテンツ又は前記コンテンツ内の位置に関連づけて更に記憶しており、
    前記検索条件変換手段によって検索条件から変換された特徴量及び/又は識別子に基づく共起情報を検索条件共起情報として構成する検索条件共起情報構成手段を更に備え、
    前記検索特定手段は、前記検索条件共起情報構成手段により構成された検索条件共起情報と、前記索引共起情報とのとの適合を検出することでコンテンツ又はコンテンツ内の位置を特定する共起検索特定手段を有することを特徴とする請求項1または2に記載の情報処理装置。
  4. 前記コンテンツには文字情報が含まれており、
    前記識別子生成手段は、前記文字情報に基づいて識別子を生成することを特徴とする請求項1から3のいずれか一項に記載の情報処理装置。
  5. 前記文字情報と識別子とを対応づけて辞書情報として記憶する辞書情報記憶手段を更に備え、
    前記識別子生成手段は、前記コンテンツに含まれる文字情報から前記辞書情報を用いて識別子を生成することを特徴とする請求項4に記載の情報処理装置。
  6. 辞書情報記憶手段に前記識別子と標準パターンとを対応づけて標準パターン辞書情報として記憶する標準パターン辞書情報記憶手段を更に備え、
    前記識別子を前記標準パターン辞書情報を用いることにより標準パターンによる特徴量へ変換する識別子特徴量変換手段を更に有することを特徴とする請求項1から5のいずれか一項に記載の情報処理装置。
  7. 前記索引情報記憶手段は、前記コンテンツ情報の実時間に基づいて前記特徴量及び/又は前記識別子を前記コンテンツ又は前記コンテンツ内の位置に関連づけて更に記憶しており、
    前記特定手段は、実時間で配信されるコンテンツから前記索引情報と前記検索条件との適合を検出する手段であることを特徴とする請求項1から6のいずれか一項に記載の情報処理装置。
  8. コンテンツ情報の検索中及び/又は検索結果若しくは検出結果に対して共起情報及び/又は前記索引情報により関連付けられた広告情報を提示することを特徴とする請求項1から7のいずれか一項に記載の情報処理装置。
  9. 前記特徴量抽出手段が抽出する複数の異なる特徴量のうち、少なくとも1つは前記コンテンツから音素認識の際に用いられる音素情報から抽出される特徴量、若しくは音素情報から生成される音素識別子であることを特徴とする請求項2に記載の情報処理装置。
  10. 前記特徴量抽出手段が抽出する複数の異なる特徴量のうち、少なくとも1つは前記コンテンツから音素片認識の際に用いられる音素片情報から抽出される特徴量、若しくは音素片情報から生成される音素片識別子であることを特徴とする請求項2に記載の情報処理装置。
  11. 前記特徴量抽出手段が抽出する複数の異なる特徴量のうち、少なくとも1つは前記コンテンツから感情認識の際に用いられる感情情報から抽出される特徴量、若しくは感情情報から生成される感情識別子であることを特徴とする請求項2に記載の情報処理装置。
  12. 前記特徴量抽出手段が抽出する複数の異なる特徴量のうち、少なくとも1つは前記コンテンツから聴覚情報に基づく認識の際に用いられる聴覚情報から抽出される特徴量、若しくは聴覚情報から生成される識別子であることを特徴とする請求項2に記載の情報処理装置。
  13. 前記特徴量抽出手段が抽出する複数の異なる特徴量のうち、少なくとも1つは前記コンテンツから視覚情報に基づく認識の際に用いられる視覚情報から抽出される特徴量、若しくは視覚情報から生成される識別子であることを特徴とする請求項2に記載の情報処理装置。
  14. 前記コンテンツには文字情報が含まれており、
    前記特徴量抽出手段が抽出する複数の異なる特徴量若しくは識別子生成手段が生成する識別量のうち、少なくとも1つは文字情報から抽出される特徴量若しくは文字情報から生成される識別子であることを特徴とする請求項2に記載の情報処理装置。
  15. 前記特徴量抽出手段が抽出する複数の異なる特徴量若しくは識別子生成手段が生成する複数の異なる識別子のうち少なくとも1つは、番組情報から抽出される特徴量若しくは番組情報が識別子であることを特徴とする請求項2に記載の情報処理装置。
  16. 前記特徴量抽出手段が抽出する複数の異なる特徴量若しくは識別子生成手段が生成する複数の異なる識別子のうち少なくとも1つは、センサ情報から抽出される特徴量若しくはセンサ情報が識別子であることを特徴とする請求項2に記載の情報処理装置。
  17. コンテンツから獲得された特徴量及び/又は識別子に基づいて構成される共起情報から、前記評価関数を再構成する評価関数再構成手段を備えることを特徴とする請求項3に記載の情報処理装置。
  18. 前記検索条件変換手段によって検索条件から変換された特徴量及び/又は識別子に基づいて構成される共起情報から、前記評価関数を再構成する評価関数再構成手段を備えることを特徴とする請求項3に記載の情報処理装置。
  19. 前記共起検索特定手段によりコンテンツ又はコンテンツ内の位置が特定された結果に基づいて共起情報を構成する検索結果共起情報構成手段を備え、
    前記検索結果共起情報構成手段に基づいて構成された共起情報から、前記評価関数を再構成する評価関数再構成手段を備えることを特徴とする請求項3に記載の情報処理装置。
  20. コンテンツを獲得するコンテンツ獲得手段と、前記コンテンツから所定の場面を検索するための検索条件を入力する検索条件入力手段と、前記検索条件に適合する内容を前記コンテンツ記憶手段に記憶されたコンテンツの中から特定する特定手段を備えた情報処理装置において、
    前記コンテンツから抽出される音素認識に用いるための音素特徴量及び/又は音素認識により得られた音素識別子と、前記コンテンツから抽出される感情認識に用いるための感情特徴量及び/又は感情認識により得られた感情識別子と、を関連付けて索引として記録する索引記録手段を備え、
    前記特定手段は、前記索引記録手段により記録された索引情報に基づいて前記検索条件に適合する内容を前記コンテンツから特定する索引特定手段を有することを特徴とする情報処理装置。
  21. コンテンツを獲得するコンテンツ獲得手段と、前記コンテンツから所定の場面を検索するための検索条件を入力する検索条件入力手段と、前記検索条件に適合する内容を前記コンテンツ記憶手段に記憶されたコンテンツの中から特定する特定手段を備えた情報処理装置において、
    前記コンテンツから抽出される音素片認識に用いるための音素片特徴量及び/又は音素片認識により得られた音素片識別子と、前記コンテンツから抽出される感情認識に用いるための感情特徴量及び/又は感情認識により得られた感情識別子と、を関連付けて索引として記録する索引記録手段を備え、
    前記特定手段は、前記索引記録手段により記録された索引情報に基づいて前記検索条件に適合する内容を前記コンテンツから特定する索引特定手段を有することを特徴とする情報処理装置。
  22. コンテンツを獲得するコンテンツ獲得手段と、前記コンテンツから所定の場面を検索するための検索条件を入力する検索条件入力手段と、前記検索条件に適合する内容を前記コンテンツ記憶手段に記憶されたコンテンツの中から特定する特定手段を備えた情報処理装置において、
    前記コンテンツから抽出される音素認識に用いるための音素特徴量及び/又は音素認識により得られた音素識別子と、前記コンテンツから抽出される感情認識に用いるための感情特徴量及び/又は感情認識により得られた感情識別子と、前記コンテンツから抽出される第1の認識に用いるための第1の特徴量及び/又は第1の認識により得られた第1の識別子と、を関連付けて索引として記録する索引記録手段を備え、
    前記特定手段は、前記索引記録手段により記録された索引情報に基づいて前記検索条件に適合する内容を前記コンテンツから特定する索引特定手段を有することを特徴とする情報処理装置。
  23. コンテンツを獲得するコンテンツ獲得手段と、前記コンテンツから所定の場面を検索するための検索条件を入力する検索条件入力手段と、前記検索条件に適合する内容を前記コンテンツ記憶手段に記憶されたコンテンツの中から特定する特定手段を備えた情報処理装置において、
    前記コンテンツから抽出される音素片認識に用いるための音素片特徴量及び/又は音素片認識により得られた音素片識別子と、前記コンテンツから抽出される感情認識に用いるための感情特徴量及び/又は感情認識により得られた感情識別子と、前記コンテンツから抽出される第1の認識に用いるための第1の特徴量及び/又は第1の認識により得られた第1の識別子と、を関連付けて索引として記録する索引記録手段を備え、
    前記特定手段は、前記索引記録手段により記録された索引情報に基づいて前記検索条件に適合する内容を前記コンテンツから特定する索引特定手段を有することを特徴とする情報処理装置。
  24. コンテンツを獲得するコンテンツ獲得手段と、前記コンテンツから所定の場面を検索するための検索条件を入力する検索条件入力手段と、前記検索条件に適合する内容を前記コンテンツ記憶手段に記憶されたコンテンツの中から特定する特定手段を備えた情報処理装置において、
    前記コンテンツから抽出される音素認識に用いるための音素特徴量及び/又は音素認識により得られた音素識別子と、前記コンテンツから抽出される第1の認識に用いるための第1の特徴量及び/又は第1の認識により得られた第1の識別子と、を関連付けて索引として記録する索引記録手段を備え、
    前記特定手段は、前記索引記録手段により記録された索引情報に基づいて前記検索条件に適合する内容を前記コンテンツから特定する索引特定手段を有することを特徴とする情報処理装置。
  25. コンテンツを獲得するコンテンツ獲得手段と、前記コンテンツから所定の場面を検索するための検索条件を入力する検索条件入力手段と、前記検索条件に適合する内容を前記コンテンツ記憶手段に記憶されたコンテンツの中から特定する特定手段を備えた情報処理装置において、
    前記コンテンツから抽出される音素片認識に用いるための音素片特徴量及び/又は音素片認識により得られた音素片識別子と、前記コンテンツから抽出される第1の認識に用いるための第1の特徴量及び/又は第1の認識により得られた第1の識別子と、を関連付けて索引として記録する索引記録手段を備え、
    前記特定手段は、前記索引記録手段により記録された索引情報に基づいて前記検索条件に適合する内容を前記コンテンツから特定する索引特定手段を有することを特徴とする情報処理装置。
  26. コンテンツを獲得するコンテンツ獲得手段と、前記コンテンツから所定の場面を検索するための検索条件を入力する検索条件入力手段と、前記検索条件に適合する内容を前記コンテンツ記憶手段に記憶されたコンテンツの中から特定する特定手段を備えた情報処理装置において、
    前記コンテンツから抽出される感情認識に用いるための感情特徴量及び/又は感情認識により得られた感情識別子と、前記コンテンツから抽出される第1の認識に用いるための第1の特徴量及び/又は第1の認識により得られた第1の識別子と、を関連付けて索引として記録する索引記録手段を備え、
    前記特定手段は、前記索引記録手段により記録された索引情報に基づいて前記検索条件に適合する内容を前記コンテンツから特定する索引特定手段を有することを特徴とする情報処理装置。
  27. 前記第1の識別子及び/又は第1の特徴量が聴覚情報及び/又は視覚情報及び/又は文字情報及び/又はセンサ情報及び/又は番組情報に基づく識別子及び/又は特徴量であることを特徴とする請求項22から26のいずれか一項に記載の情報処理装置。
  28. コンピュータに、
    コンテンツ情報を獲得するコンテンツ情報獲得機能と、
    検索条件を入力する検索条件入力機能と、
    前記コンテンツ情報獲得機能により獲得されたコンテンツ情報から、前記検索条件入力機能により入力された検索条件に適合するコンテンツ情報又は当該コンテンツ情報内の位置を特定する特定機能と、
    を備えた情報処理装置において、
    コンテンツ情報から特徴量を抽出する特徴量抽出機能と、
    前記特徴量抽出機能により抽出された特徴量から評価関数を用いて識別子を生成する識別子生成機能と、
    前記特徴量及び/又は前記識別子を前記コンテンツ又は前記コンテンツ内の位置に関連づけて索引情報として記憶する索引情報記憶機能と、
    前記検索条件入力機能により入力された検索条件を特徴量及び/又は識別子に変換する検索条件変換機能と、を備え、
    前記特定機能は、前記検索条件変換機能により変換された特徴量及び/又は識別子を用いて前記索引情報と前記検索条件との適合を検出することでコンテンツ又はコンテンツ内の位置を特定する検索特定機能を実現させるプログラム。
  29. コンピュータに、
    コンテンツ情報を獲得するコンテンツ情報獲得機能と、
    検索条件を入力する検索条件入力機能と、
    前記コンテンツ情報獲得機能により獲得されたコンテンツ情報から、前記検索条件入力機能により入力された検索条件に適合するコンテンツ情報又は当該コンテンツ情報内の位置を特定する特定機能と、
    を備えた情報処理装置において、
    コンテンツ情報から複数の異なる特徴量を抽出する特徴量抽出機能と、
    前記特徴量抽出機能により抽出された複数の異なる特徴量から評価関数を用いて複数の異なる識別子を生成する識別子生成機能と、
    複数の異なる前記特徴量及び/又は前記識別子を前記コンテンツ又は前記コンテンツ内の位置に関連づけて索引情報として記憶する索引情報記憶機能と、
    前記検索条件入力機能により入力された検索条件を複数の異なる特徴量及び/又は識別子に変換する検索条件変換機能と、を備え、
    前記特定機能は、前記検索条件変換機能により変換された複数の異なる特徴量及び/又は識別子を用いて前記索引情報と前記検索条件との適合を検出することでコンテンツ又はコンテンツ内の位置を特定する検索特定機能を実現させるプログラム。
JP2007540220A 2005-10-14 2006-10-16 情報処理装置およびプログラム Pending JPWO2007043679A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2005300674 2005-10-14
JP2005300674 2005-10-14
PCT/JP2006/320557 WO2007043679A1 (ja) 2005-10-14 2006-10-16 情報処理装置およびプログラム

Publications (1)

Publication Number Publication Date
JPWO2007043679A1 true JPWO2007043679A1 (ja) 2009-04-23

Family

ID=37942896

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007540220A Pending JPWO2007043679A1 (ja) 2005-10-14 2006-10-16 情報処理装置およびプログラム

Country Status (2)

Country Link
JP (1) JPWO2007043679A1 (ja)
WO (1) WO2007043679A1 (ja)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5153434B2 (ja) * 2008-04-22 2013-02-27 キヤノン株式会社 情報処理装置及び情報処理方法
JP5581574B2 (ja) * 2008-07-09 2014-09-03 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP5132479B2 (ja) * 2008-08-26 2013-01-30 日本電信電話株式会社 コンテクスト抽出サーバ、コンテクスト抽出方法、およびプログラム
JP5326169B2 (ja) * 2009-05-13 2013-10-30 株式会社日立製作所 音声データ検索システム及び音声データ検索方法
JP2012174029A (ja) * 2011-02-22 2012-09-10 Sony Corp 情報処理装置、情報処理方法、及びプログラム
US8898581B2 (en) 2011-02-22 2014-11-25 Sony Corporation Display control device, display control method, search device, search method, program and communication system
JP5560226B2 (ja) * 2011-04-05 2014-07-23 日本電信電話株式会社 電子情報アクセスシステム、方法及びプログラム
US9106979B2 (en) * 2012-03-14 2015-08-11 Arris Technology, Inc. Sentiment mapping in a media content item
JP6106397B2 (ja) * 2012-09-28 2017-03-29 株式会社エクシング カラオケ装置、及びコンピュータプログラム
JP5605661B2 (ja) * 2012-12-25 2014-10-15 コリア インスティチュート オブ インダストリアル テクノロジー 人工情緒発生装置及び方法
JP6288476B2 (ja) * 2013-04-17 2018-03-07 パナソニックIpマネジメント株式会社 映像受信装置、及び、映像受信装置における情報表示制御方法
JP6413268B2 (ja) * 2014-03-17 2018-10-31 株式会社ニコン コンテンツ感想出力装置およびコンテンツ感想出力システム
JP6336351B2 (ja) * 2014-08-08 2018-06-06 東芝テック株式会社 情報処理装置及びプログラム
JP6003971B2 (ja) * 2014-12-22 2016-10-05 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
JP6003972B2 (ja) * 2014-12-22 2016-10-05 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
WO2016103651A1 (ja) * 2014-12-22 2016-06-30 日本電気株式会社 情報処理システム、情報処理方法、及び、記録媒体
JP2017182261A (ja) * 2016-03-29 2017-10-05 大日本印刷株式会社 情報処理装置、情報処理方法、およびプログラム
US11288723B2 (en) 2015-12-08 2022-03-29 Sony Corporation Information processing device and information processing method
JP6742731B2 (ja) * 2016-01-07 2020-08-19 株式会社見果てぬ夢 ネオメディア生成装置、ネオメディア生成方法、及びネオメディア生成プログラム
US10574777B2 (en) * 2017-06-06 2020-02-25 International Business Machines Corporation Edge caching for cognitive applications
CN109146450A (zh) * 2017-06-16 2019-01-04 阿里巴巴集团控股有限公司 支付方法、客户端、电子设备、存储介质和服务器
JP2019008607A (ja) * 2017-06-26 2019-01-17 Jcc株式会社 映像管理サーバー及び映像管理システム
JP6824127B2 (ja) * 2017-08-09 2021-02-03 日本電信電話株式会社 ロボット制御装置、ロボット制御方法およびロボット制御プログラム
CN110096938B (zh) * 2018-01-31 2022-10-04 腾讯科技(深圳)有限公司 一种视频中的动作行为的处理方法和装置
JP6517398B2 (ja) * 2018-05-01 2019-05-22 東芝テック株式会社 情報処理装置及びプログラム
CN110582025B (zh) 2018-06-08 2022-04-01 北京百度网讯科技有限公司 用于处理视频的方法和装置
CN108875682A (zh) 2018-06-29 2018-11-23 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN113038998A (zh) * 2018-11-15 2021-06-25 索尼互动娱乐有限责任公司 游戏中的动态音乐创建
US11328700B2 (en) 2018-11-15 2022-05-10 Sony Interactive Entertainment LLC Dynamic music modification
JP6997733B2 (ja) * 2019-02-20 2022-01-18 Kddi株式会社 情報処理装置、情報処理方法、及びプログラム
CN109889891B (zh) * 2019-03-05 2023-03-24 腾讯科技(深圳)有限公司 获取目标媒体文件的方法、装置及存储介质
WO2020246075A1 (ja) * 2019-06-04 2020-12-10 ソニー株式会社 行動制御装置と行動制御方法およびプログラム
CN111126635B (zh) * 2019-12-25 2023-06-20 哈尔滨新中新电子股份有限公司 一种基于顾客满意度分析用于diy商店pos机维护类型选择的评估方法
EP3895036A1 (en) * 2020-02-21 2021-10-20 Google LLC Systems and methods for extracting temporal information from animated media content items using machine learning
WO2022049690A1 (ja) * 2020-09-03 2022-03-10 日本電信電話株式会社 移動量推定装置、移動量推定方法およびプログラム
JPWO2022180858A1 (ja) * 2021-02-26 2022-09-01
CN116452241B (zh) * 2023-04-17 2023-10-20 广西财经学院 一种基于多模态融合神经网络的用户流失概率计算方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08286693A (ja) * 1995-04-13 1996-11-01 Toshiba Corp 情報処理装置
JP2002175304A (ja) * 1998-12-17 2002-06-21 Matsushita Electric Ind Co Ltd 映像検索装置及びその方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000090133A (ja) * 1998-09-08 2000-03-31 Fujitsu Ltd 3次元pt板モデル生成装置
JP4344418B2 (ja) * 1999-03-31 2009-10-14 シャープ株式会社 音声要約装置及び音声要約プログラムを記録した記録媒体
JP2001243185A (ja) * 2000-03-01 2001-09-07 Sony Corp 広告情報表示方法、広告情報表示システム、広告情報表示装置および記録媒体
JP2002007432A (ja) * 2000-06-23 2002-01-11 Ntt Docomo Inc 情報検索システム
JP2003167914A (ja) * 2001-11-30 2003-06-13 Fujitsu Ltd マルチメディア情報検索方法、プログラム、記録媒体及びシステム
JP2005182703A (ja) * 2003-12-24 2005-07-07 Triax Inc 画像解析システム及び画像解析方法並びにこれに用いる携帯型通信端末のストラップ

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08286693A (ja) * 1995-04-13 1996-11-01 Toshiba Corp 情報処理装置
JP2002175304A (ja) * 1998-12-17 2002-06-21 Matsushita Electric Ind Co Ltd 映像検索装置及びその方法

Also Published As

Publication number Publication date
WO2007043679A1 (ja) 2007-04-19

Similar Documents

Publication Publication Date Title
JPWO2007043679A1 (ja) 情報処理装置およびプログラム
Li et al. CHEAVD: a Chinese natural emotional audio–visual database
KR102018295B1 (ko) 구간 영상 검색 및 제공 장치, 방법 및 컴퓨터-판독가능 매체
Kaminskas et al. Contextual music information retrieval and recommendation: State of the art and challenges
US20210352380A1 (en) Characterizing content for audio-video dubbing and other transformations
CN113569088B (zh) 一种音乐推荐方法、装置以及可读存储介质
CN109844708A (zh) 通过聊天机器人推荐媒体内容
US20140289323A1 (en) Knowledge-information-processing server system having image recognition system
Buitelaar et al. Mixedemotions: An open-source toolbox for multimodal emotion analysis
CN105895087A (zh) 一种语音识别方法及装置
CN109920409B (zh) 一种声音检索方法、装置、系统及存储介质
Somandepalli et al. Computational media intelligence: Human-centered machine analysis of media
US9525841B2 (en) Imaging device for associating image data with shooting condition information
CN112418011A (zh) 视频内容的完整度识别方法、装置、设备及存储介质
WO2007069512A1 (ja) 情報処理装置及びプログラム
CN114946193A (zh) 使用基于云的语音结合的定制视频制作服务提供系统
Maybury Multimedia information extraction: Advances in video, audio, and imagery analysis for search, data mining, surveillance and authoring
Wang et al. Generating images from spoken descriptions
Wang et al. Scene-aware background music synthesis
Nikolaus et al. Learning english with peppa pig
Yang Research on Music Content Recognition and Recommendation Technology Based on Deep Learning.
KR102261539B1 (ko) 지능형 한국 문화 플랫폼 서비스 제공 시스템
CN117331460A (zh) 基于多维交互数据分析的数字化展厅内容优化方法及装置
CN117011745A (zh) 一种数据处理方法、装置、计算机设备以及可读存储介质
CN113407766A (zh) 视觉动画显示方法及相关设备

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100824

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101221