JPWO2007069512A1 - Information processing apparatus and program - Google Patents

Information processing apparatus and program Download PDF

Info

Publication number
JPWO2007069512A1
JPWO2007069512A1 JP2007550144A JP2007550144A JPWO2007069512A1 JP WO2007069512 A1 JPWO2007069512 A1 JP WO2007069512A1 JP 2007550144 A JP2007550144 A JP 2007550144A JP 2007550144 A JP2007550144 A JP 2007550144A JP WO2007069512 A1 JPWO2007069512 A1 JP WO2007069512A1
Authority
JP
Japan
Prior art keywords
information
phoneme
recognition
phonetic symbol
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007550144A
Other languages
Japanese (ja)
Inventor
伊原 正典
正典 伊原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of JPWO2007069512A1 publication Critical patent/JPWO2007069512A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks

Abstract

コンテンツ情報に利用されるマークアップ言語の表記に対して、変更を加えて保存し、変更を加えたりした情報を配信する配信装置と受信する受信端末とに用いる情報処理装置を構成することができる。より具体的には、マークアップ言語で記載された音素辞書情報を変更してタグを追加したり、変数や属性を追加したりして保存・変更・配信することにより、音声認識技術と音素認識技術を利用し情報処理装置を操作する。これにより、コンテンツ情報に含まれる単語や文字列に対して音声認識を行う際に、音声認識辞書に単語モデルや音響モデルや文法モデルや品詞情報が認識辞書に登録されていなくても、コンテンツ情報から音素や音素片からなる表音記号認識に用いる表音記号によって認識辞書情報を動的に構成し利用することにより適切な音声認識を実現することが可能な情報処理装置等を提供することができる。It is possible to configure an information processing apparatus that is used for a distribution apparatus that distributes and stores information in which changes are made with respect to the markup language notation used for content information and stores the changed information. . More specifically, speech recognition technology and phoneme recognition can be achieved by changing the phoneme dictionary information written in the markup language to add tags, adding variables and attributes, and saving, changing, and delivering. Operate information processing equipment using technology. As a result, when speech recognition is performed on words or character strings included in the content information, even if the word model, acoustic model, grammar model, and part-of-speech information are not registered in the recognition dictionary, the content information It is possible to provide an information processing apparatus and the like capable of realizing appropriate speech recognition by dynamically constructing and using recognition dictionary information by phonetic symbols used for phonetic symbol recognition made up of phonemes and phonemes. it can.

Description

本発明は音声認識において音素認識及び/又は音素片認識を用いる情報処理装置等に関する。   The present invention relates to an information processing apparatus that uses phoneme recognition and / or phoneme piece recognition in speech recognition.

従来から一般的に音声を用いる情報処理装置や操作方法は音声認識に関する技術が知られている。音声認識を行う方法としては、一般的に利用者発話に伴う音声から統計的に作られた音素や音素片による音響モデルや標準パラメータやテンプレートを用いた音素認識や音素片認識により音素や音素片を時系列的に抽出し音素や音素片記号列を獲得する方法が知られている。   2. Description of the Related Art Conventionally, technologies relating to speech recognition are known as information processing apparatuses and operation methods that generally use speech. As a method of performing speech recognition, generally, a phoneme or phoneme segment is obtained by phoneme recognition or phoneme recognition using an acoustic model or a standard parameter or template based on a phoneme or phoneme statistically generated from speech accompanying user utterance. There is known a method for extracting phonemes and phoneme symbol strings by extracting chronologically.

そして、音素列や音素片列からなる単語が記録された音声認識辞書を用いて、認識された音素列や音素片列と音声認識辞書に登録された音素列や音素片列との一致を評価し、評価の結果一致度の高い音素列や音素片列に関連付けられた単語を取得したり、装置制御の命令を実行したりすることで音声認識や認識に伴う処理を実現する。   Then, using a speech recognition dictionary in which words consisting of phoneme strings and phoneme string strings are recorded, evaluation is made on the match between the recognized phoneme string or phoneme string string and the phoneme string or phoneme string string registered in the speech recognition dictionary. Then, a speech associated with a phoneme sequence or a phoneme segment sequence with a high degree of coincidence as a result of the evaluation is obtained, or a process associated with speech recognition or recognition is realized by executing a device control command.

ここで、装置を制御するユーザインタフェースとしては、非特許文献1のように音素の認識辞書により特定される単語と単語に関連付けて辞書登録された装置制御方法を音素の認識処理により選択し実施する方法があり、音素や音素片の認識技術としては特許文献1に示されるように古くからの公知技術として用いられている。   Here, as a user interface for controlling the device, as in Non-Patent Document 1, a device specified by the phoneme recognition dictionary and a device control method registered in the dictionary in association with the word are selected and implemented by phoneme recognition processing. As a technique for recognizing phonemes and phoneme pieces, as shown in Patent Document 1, it has been used as a known technique for a long time.

また、音声の認識において、人の対話における発話単語は省略形や「おー」や「うーん」といった感嘆語や造語などの変化が多く、特にコンテンツ情報では商品名や役者名などは辞書登録が困難な固有名詞が多く必ずしも全ての単語を辞書登録できなかった。そこで、音素認識を用いてコンテンツを検索する技術が特許文献2や非特許文献2や非特許文献3等において提案されている。   In speech recognition, spoken words in human dialogue often change abbreviations and exclamation words and coined words such as “Oo” and “Uon”. Especially in content information, product names and actor names are registered in the dictionary. There were many difficult proper nouns, and not all words could be registered in the dictionary. Therefore, Patent Document 2, Non-Patent Document 2, Non-Patent Document 3, and the like have proposed techniques for searching for content using phoneme recognition.

ここで、特許文献3には、マークアップ言語の1つであるHTMLにおける音声認識への利用において、認識可能な単語の表示表現を変えることで、利用者による音声操作がやりやすくなるような提案がなされている。   Here, Patent Document 3 proposes that a user can easily perform a voice operation by changing the display expression of a recognizable word in use for speech recognition in HTML, which is one of markup languages. Has been made.

また、特許文献4には、最低限必要な語彙に伴う音響モデルによる認識辞書データを動的に獲得する方法が提案されている。   Patent Document 4 proposes a method for dynamically acquiring recognition dictionary data based on an acoustic model with a minimum vocabulary.

また、特許文献5によれば、マークアップ言語の1つであるHTMLにおける音声認識への利用において、認識可能な単語を特定するために特定の記号で範囲を指定し、音声による認識が行えることを利用者に明示する方法が提案され、発音が難解な単語には認識可能な読み方を記載することで利便性を図っている。
特開昭62−220998号公報 特開2005−70312号公報 特開平11−25098号公報 特開2002−91858号公報 特開2005−18241号公報 「高齢化社会対応型生活支援インターフェースに関する研究開発」、青森県工業総合研究センターによるキープロジェクト研究報告書 Vol.5、Apr.1998〜Mar.2001 031 中沢正幸, 遠藤隆, 古川清, 豊浦潤, 岡隆一(新情報処理開発機構), 「音声波形からの音素片記号系列を用いた音声要約と話題要約の検討」,信学技報, SP96-28, pp.61--68, June 1996. 岡 隆一, 高橋裕信, 西村拓一, 関本信博, 森靖英, 伊原正典, 矢部博明, 橋口博樹, 松村博. パターン検索のアルゴリズム・マップ -"CrossMediator" を支えるもの -. Someone Unknown, editor, 人工知能学会研究会, volume 1, pages 1-6. 人工知能学会, 2001.
Further, according to Patent Document 5, in the use for speech recognition in HTML, which is one of markup languages, a range can be designated by a specific symbol to identify a recognizable word, and speech recognition can be performed. Is proposed to the user, and the words that are difficult to pronounce are described with a recognizable reading method for convenience.
Japanese Patent Laid-Open No. 62-220998 JP 2005-70312 A JP-A-11-25098 JP 2002-91858 A JP 2005-18241 A “Research and development on life support interface for aging society”, Key Project Research Report by Aomori Prefectural Industrial Research Center Vol.5, Apr.1998-Mar.2001 031 Masayuki Nakazawa, Takashi Endo, Kiyoshi Furukawa, Jun Toyoura, Ryuichi Oka (New Information Processing Development Corporation), "Study of speech summaries and topic summaries using phoneme symbol sequences from speech waveforms," IEICE Tech. 28, pp. 61--68, June 1996. Ryuichi Oka, Hironobu Takahashi, Takuichi Nishimura, Nobuhiro Sekimoto, Hidehide Mori, Masanori Ihara, Hiroaki Yabe, Hiroki Hashiguchi, Hiroshi Matsumura. Pattern Search Algorithm Map-What Supports "CrossMediator" Study Group of Society, volume 1, pages 1-6. Japanese Society for Artificial Intelligence, 2001.

また、音素記号列のマークアップ言語における利用方法はMPEG2などの動画ストリーム内で用いられるMPEG7における記述としてSegment および Media Locatorという構成を使用して、<Media Locator>でビデオコンテンツ内のSegmentもしくはFrameを直接指定したり、<Media Locator>でコンテンツを指し、<Media Time>でそのコンテンツ内部の時間位置を指定すると共に適当な固有名詞を指定するタグと組合せたりという使い方や、前述のSegmentでコンテンツを割当てたりする際にVisual、Audioのローレベルなメタデータとして、固定の間隔で同種のメタデータを付けるための<Series>という記述方法を用いたりする方法がある。この際、オーディオだと<Scalable Series>として指定する方法がりMPEG7オーディオには、自動音声認識結果である単語(word)ラティスと音素(phone)ラティスとを記述する <Spoken Content DS>というものがある。   Also, the phoneme symbol string markup language can be used in the MPEG7 description used in a video stream such as MPEG2, using the structure of Segment and Media Locator, and the <Media Locator> can be used to specify the Segment or Frame in the video content. You can specify it directly, or use <Media Locator> to point to the content, <Media Time> to specify the time position inside the content and combine it with a tag that specifies an appropriate proper noun, When assigning, there is a method of using <Series> description method to attach the same kind of metadata at fixed intervals as low level metadata of Visual and Audio. At this time, there is a method of specifying as <Scalable Series> for audio, and MPEG7 audio has <Spoken Content DS> which describes a word lattice and a phone lattice as a result of automatic speech recognition. .

また、VoiceXMLという音声認識における標準化方式では文脈にあわせて文法に依存した認識を実施するために、これまで製品間でバラバラだったユーザインタフェースユーザインタフェースの記述を統一的な手法を表記する方法が提案されているが、文脈や文法に依存せず音素や音素片といった表音記号識別子を使って任意のタグの対象範囲に属性を与え、辞書情報を動的に構成する方法は提案されていない。   In addition, VoiceXML, a standardized method for speech recognition, proposes a method for expressing user interface and user interface descriptions that have been divided between products so far in order to implement grammar-dependent recognition according to the context. However, a method for dynamically constructing dictionary information by assigning an attribute to a target range of an arbitrary tag using a phonetic symbol identifier such as a phoneme or a phoneme without depending on context or grammar has not been proposed.

なお、従来の出願や文献によると、音素と音節を混同しているものが多く見受けられるが、本発明における音素とは日本語で「あかさたな」という発音を例にする場合、音節表記した場合であれば「あ/か/さ/た/な」もしくは「a/ ka/ sa/ ta/ na」と単音声で表記され、音素表記した場合は「a/ k/ a/ s/ a/ t/ a/ n/ a」もしくは「a/ cl/ k/ a/ s/ a/ cl/ t/ a/ n/ a」と表記され、音素片表記であれば「a/ a-k/ k/ k-a/ a/ a-s/ s/ s-a/ a/ a-t/ t/ t-a/ a/ a-n/ n/ n-a/ a」もしくは「a/ a-cl/ cl/ cl-k/ k/ k-a/ a/ a-s/ s/ s-a/ a/ a-cl/ cl/ cl-t/ t/ t-a/ a/ a-n/ n/ n-a/ a」といった例がバイグラムであれば考えられ、「a-a-a/ a-cl-cl/ cl-cl-cl/ cl-cl-k/ cl-k-k/ k-k-a/ a-a-a/ a-a-s/ s-s-s/ s-a-a/ … t-a-a/ a-a-n/ n-n-n/ n-a-a/ a-a-a」と言った例がトライグラムの例となり、音素を時系列的に前半部、中盤部、後半部といった任意の位置に基づいて分解した音素片であっても良く、/cl/ は発音前の無音部もしくは無声部を指しており、これらの音素や音素片はともに任意の改善により任意の音を示す音素や表記記号や表音記号や発音記号及びそれらを時系列的に分解した音素片のような表記記号片や表音記号片や発音記号片に変更しても良い。   According to conventional applications and documents, many phonemes and syllables are confused, but the phoneme in the present invention is the case where the pronunciation of “Akasana” in Japanese is used as an example, and the syllable is used. If there is a phonetic notation, “a / ka / sa / ta / na” or “a / ka / sa / ta / na” is displayed in a single voice, and “a / k / a / s / a / t / a / n / a '' or `` a / cl / k / a / s / a / cl / t / a / n / a '', or `` a / ak / k / ka / a '' / as / s / sa / a / at / t / ta / a / an / n / na / a '' or `` a / a-cl / cl / cl-k / k / ka / a / as / s / sa An example such as `` / a / a-cl / cl / cl-t / t / ta / a / an / n / na / a '' can be considered as bigram, `` aaa / a-cl-cl / cl-cl- cl / cl-cl-k / cl-kk / kka / aaa / aas / sss / saa /… taa / aan / nnn / naa / aaa Arbitrary parts such as the first half, middle board, and second half / Cl / points to the silent or unvoiced part before sounding, and both these phonemes and phonemes are phonemes that represent any sound by any improvement. You may change into a notation symbol piece, a phonetic symbol piece, and a phonetic symbol piece like a notation symbol, a phonetic symbol, a phonetic symbol, and the phoneme piece which decomposed them time-sequentially.

また、音素及び音素片を用いる表音記号認識と通常の音声認識の違いを説明すると、音素認識や音素片認識は一般的な音声認識と違い意味や内容を解釈する語彙認識を行わないという特徴と音響モデルを単語や文法や品詞などの言語モデルの変化に応じて動的に構成しないという特徴があり、より詳しくは音素認識や音素片認識は文法に関わる言語モデルを用いないため認識結果として意味を捉えていないこと、若しくは漢字のような意味を含む記号に変換していないこと、若しくは同音異義語や同音異表記語を弁別しないこと、文脈に応じて名詞や動詞といった品詞の弁別を行わないこと、若しくは形態素解析や構文解析を行わないことなどといった特徴があり、本件では音素認識や音素片認識をはじめとして、音素や音素片や発音記号や(時系列的に分割された発音記号としての)発音記号片とそれらの記号列に基づく表音記号を用いた認識を併せて表音記号認識として表記している。   In addition, the difference between phonetic symbol recognition using phonemes and phonemes and normal speech recognition is explained. Phone recognition and phoneme recognition do not perform vocabulary recognition that interprets meaning and content unlike general speech recognition. And acoustic models are not dynamically constructed according to changes in language models such as words, grammar, and parts of speech. More specifically, phoneme recognition and phoneme recognition do not use grammar-related language models. Does not capture meaning, or does not convert to symbols that contain meaning such as kanji, or does not distinguish homonyms or homonyms, and differentiates parts of speech such as nouns and verbs according to context In this case, phonemes, phonemes, phonetic symbols, phonetic symbols, phonetic symbols, It is denoted as phonetic symbol recognition together recognition using phonetic symbols based on time series of the divided phonetic symbol) phonetic symbols pieces and their symbol string.

このように、音素及び音素片による認識は表音記号別の静的な音響モデルを用いて発話者の発話音を分析し発話にともなう表音記号列と認識辞書内の表音記号列の一致のみを評価するという特徴から認識処理や認識辞書の構成が単純になり音の一致のみを評価するため辞書未登録語や感嘆詞であっても音素や音素片といった表音記号や発音記号からなる識別子列の認識が可能となる。   In this way, recognition by phonemes and phonemes is performed by analyzing a speaker's utterance using a static acoustic model for each phonetic symbol and matching the phonetic symbol string accompanying the utterance with the phonetic symbol string in the recognition dictionary. The recognition process and the structure of the recognition dictionary are simplified due to the feature of evaluating only the phoneme, and the phonetic symbols and phonetic symbols such as phonemes and phonemes are used even for unregistered words and exclamation words to evaluate only the sound match. It is possible to recognize the identifier string.

この際、従来からあるように話者の発話特性に合わせて学習し性能を改善する動的な音響モデルを用いても良いが、一般的な音声認識のような単語や文法に依存して音響モデルを動的に切替えるといった処理を音素認識や音素片認識では行わないという特徴がある。   At this time, as in the past, a dynamic acoustic model that learns according to the speaker's utterance characteristics and improves performance may be used, but depending on words and grammar as in general speech recognition, There is a feature that the process of dynamically switching the model is not performed in phoneme recognition or phoneme recognition.

このため、音素列や音素片列を登録済み辞書内容と比較することで未登録音素列や音素片列の検出が容易に可能となり、音素や音素片を用いた表音記号認識による認識結果に基づいて単語を限定し再度一般的な文法を加味した音声認識を実施することで効率的な音声認識を実現するといった方法も考えられる。   For this reason, comparing phoneme strings and phoneme string sequences with registered dictionary contents makes it possible to easily detect unregistered phoneme strings and phoneme string sequences, resulting in recognition results by phonetic symbol recognition using phonemes and phoneme segments. It is also conceivable to implement efficient speech recognition by limiting speech based on words and implementing speech recognition that takes into account general grammar again.

そして、音素や音素片による認識方法は辞書に登録されていない単語がある場合であっても、認識対象文中の未登録単語をひらがな文字表記に変換し、変換されたひらがな文字列の遷移状態に合わせて、機知の情報から得られる韻律に基づき音素列や音素片列に変換した記号列を認識辞書に一時的に登録し、利用者の発話を音素列や音素片列として認識した後に獲得された音素列や音素片列と認識辞書の音素列や音素片列とを比較することで記号列同士の一致度を測り認識結果を獲得し、認識結果として利用頻度が下がれば削除するといった方法により、従来の音声認識よりも自由度の高い動的な音素や音素片による辞書構成を持つ音声認識が可能となる。   And even if there is a word that is not registered in the dictionary, the recognition method using phonemes and phoneme fragments converts unregistered words in the sentence to be recognized into hiragana character notation, and changes to the transition state of the converted hiragana character string. In addition, a symbol string converted to a phoneme string or phoneme string string based on the prosody obtained from witness information is temporarily registered in the recognition dictionary, and acquired after the user's utterance is recognized as a phoneme string or phoneme string string. By comparing the phoneme sequence or phoneme sequence with the phoneme sequence or phoneme sequence of the recognition dictionary, the degree of coincidence between the symbol sequences is measured, and the recognition result is acquired. In addition, it is possible to perform speech recognition having a dictionary configuration with dynamic phonemes and phonemes having a higher degree of freedom than conventional speech recognition.

また、このとき、音素や音素片単位の音響モデルを利用者の発話に合わせて再学習するといった方法により、文法や単語に依存しない動的な音響モデル辞書により認識精度を改善するように利用者の発話から得られる音響情報を教師情報として再利用して、認識のための再学習を実施してもよい。   At this time, the user can improve the recognition accuracy with a dynamic acoustic model dictionary that does not depend on grammar or words by re-learning the phoneme or phoneme unit acoustic model according to the user's utterance. Re-learning for recognition may be performed by reusing the acoustic information obtained from the utterances as teacher information.

従来の音声認識技術において、人の対話における発話単語の省略形や「おー」や「うーん」といった感嘆語(感嘆詞)や造語などは時代や環境に伴う違いも多く語、特にコンテンツ情報では商品名や役者名などの流行に依存する動的な固有名詞は認識辞書への登録は非効率的であったため、膨大で変化に富む音声認識を実用化する場合の課題として古くから存在するものの音響モデルや文法モデルを含む認識辞書を繰返し配布することはその情報量の大きさから比較的困難であるため認識辞書に登録されていない語彙に依存した認識は事実上不可能であった。   In conventional speech recognition technology, abbreviations of spoken words in human dialogue, exclamation words (exclamation words) such as “Oo” and “Uon” and coined words have many differences depending on the times and environments, especially in content information Although dynamic proper nouns that depend on trends such as product names and actor names have been inefficiently registered in the recognition dictionary, they have existed for a long time as a challenge when putting huge and varied speech recognition into practical use. Since it is relatively difficult to repeatedly distribute recognition dictionaries including acoustic models and grammatical models, recognition based on vocabularies not registered in the recognition dictionary is virtually impossible.

また、従来の音声認識では一般的に韻律モデルや文法モデルの学習が不可欠であり、そういった処理手順が前述の造語や流行語や固有名詞などに基づく辞書未登録語の認識の課題となっており、そういった未登録単語に関連する韻律や単語間の共起関係による文法モデルの学習が困難であるという課題があった。   Also, in conventional speech recognition, learning of prosodic models and grammatical models is generally indispensable, and such processing procedures have become issues for recognition of unregistered words based on the aforementioned coined words, buzzwords and proper nouns. There is a problem that it is difficult to learn a grammar model based on the prosody related to such unregistered words and the co-occurrence relationship between words.

また、従来マークアップ言語による音声情報はコンテツ情報としての映像や音声に同期した音声情報以外は検索や操作の対象にできなかった。そして、音素記号列を含む情報を利用者に提供するためには事前に音声情報を認識し音素と単語ID(単語識別子)を関連付けて保存する必要があったため、不特定単語に対する容易な音素列・音素片の提供方法や操作方法が無いという課題があった。   Conventionally, audio information in a markup language cannot be searched or operated except for audio information synchronized with video and audio as content information. In order to provide information including a phoneme symbol string to a user, it is necessary to recognize speech information in advance and store the phoneme and a word ID (word identifier) in association with each other.・ There was a problem that there was no method of providing or operating a phoneme.

また、上述した特許文献3に開示された技術では、辞書に登録されていない単語を認識するための方法は提示されていない。さらに、特許文献4に開示された技術では、語彙に依存しない音声認識を行うことができず、未知の単語に対してその都度韻律モデルを学習する等の手段をとる必要があり、自由度の高い音声認識を実現することができなかった。さらに、特許文献5に開示された技術では、音声認識方法が従来の音声認識方法と差異が無く、音素や音素片を用いた認識が出来ないと言った問題点があった。   Further, in the technique disclosed in Patent Document 3 described above, a method for recognizing a word that is not registered in the dictionary is not presented. Furthermore, in the technique disclosed in Patent Document 4, speech recognition that does not depend on vocabulary cannot be performed, and it is necessary to take measures such as learning prosodic models for unknown words each time. High voice recognition could not be realized. Furthermore, the technique disclosed in Patent Document 5 has a problem that the speech recognition method is not different from the conventional speech recognition method, and recognition using phonemes or phonemes cannot be performed.

このような課題を踏まえ、本発明が目的とするところは、コンテンツ情報に含まれる単語や文字列に対して音声認識を行う際に、音声認識辞書に単語モデルや音響モデルや文法モデルや品詞情報が登録されていなくても、音素や音素片からなる表音記号認識を用いた表音記号に基づく認識辞書情報を利用することでより適切な音声認識を実現することが出来る情報処理装置等を提供することを目的とする。   Based on such problems, the object of the present invention is to use a word model, an acoustic model, a grammar model, and a part-of-speech information in a speech recognition dictionary when speech recognition is performed on a word or character string included in content information. An information processing device that can realize more appropriate speech recognition by using recognition dictionary information based on phonetic symbols using phonetic symbol recognition consisting of phonemes and phoneme pieces even if is not registered The purpose is to provide.

上記の課題を解決するために、第1の発明の情報処理装置は、文字情報及び/又はメタ情報を含むコンテンツ情報を取得するコンテンツ情報取得手段と、前記コンテンツ情報取得手段により取得されたコンテンツ情報から、表音記号からなる認識表音記号列を検出する認識表音記号列検出手段と、前記認識表音記号列を用いて認識辞書情報を生成する認識辞書情報生成手段と、を備えることを特徴とする。   In order to solve the above problems, an information processing apparatus according to a first aspect of the present invention includes a content information acquisition unit that acquires content information including character information and / or meta information, and content information acquired by the content information acquisition unit. And a recognition phonetic symbol string detecting means for detecting a recognized phonetic symbol string consisting of phonetic symbols, and a recognition dictionary information generating means for generating recognition dictionary information using the recognized phonetic symbol string. Features.

第2の発明の情報処理装置は、文字情報及び/又はメタ情報を含むコンテンツ情報を取得するコンテンツ情報取得手段と、前記コンテンツ情報取得手段により取得されたコンテンツ情報から、文字情報及び/又はメタ情報に基づいて展開対象文字列を検出する展開対象文字列検出手段と、文字列と表音記号とを対応づけて記憶する表音記号記憶手段と、前記表音記号記憶手段を参照することにより、前記展開対象文字列を認識表音記号列に変換する表音記号変換手段と、前記認識表音記号列を用いて認識辞書情報を生成する認識辞書情報生成手段と、を備えることを特徴とする。   An information processing apparatus according to a second aspect of the present invention includes a content information acquisition unit that acquires content information including character information and / or meta information, and character information and / or meta information from the content information acquired by the content information acquisition unit. By referring to the expansion target character string detection means for detecting the expansion target character string based on the character string, the phonetic symbol storage means for storing the character string and the phonetic symbol in association with each other, and the phonetic symbol storage means, A phonetic symbol conversion unit that converts the expansion target character string into a recognized phonetic symbol string; and a recognition dictionary information generation unit that generates recognition dictionary information using the recognition phonetic symbol string. .

また、第3の発明は、第2の発明の情報処理装置において、前記表音記号変換手段により変換された表音記号を、前記コンテンツ情報に付加することにより当該コンテンツ情報を保存するコンテンツ情報保存手段を更に備えることを特徴とする。   In addition, in the information processing apparatus according to the second aspect, in the information processing apparatus according to the second aspect, the content information is stored by adding the phonetic symbols converted by the phonetic symbol conversion means to the content information. The apparatus further comprises means.

また、第4の発明は、第1から第3の発明のいずれかに記載の情報処理装置において、前記コンテンツ情報保存手段により保存されたコンテンツ情報と、当該コンテンツ情報に基づいて生成された認識辞書情報とを他の情報処理端末に送信する送信手段を更に備えることを特徴とする。   According to a fourth aspect of the present invention, in the information processing apparatus according to any one of the first to third aspects, content information stored by the content information storage unit and a recognition dictionary generated based on the content information It is further characterized by further comprising transmission means for transmitting information to another information processing terminal.

また、第5の発明は、第1から第4の発明のいずれかに記載の情報処理装置において、音声を入力する音声入力手段と、前記音声入力手段により入力された音声の特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段により抽出された特徴量から、表音記号に変換する特徴量表音記号変換手段と、前記特徴量表音記号変換手段により変換された表音記号と、前記認識辞書情報に含まれる認識表音記号列を構成する表音記号とを評価し、もっとも類似する表音記号に対応して所定の処理を実行する処理実行手段と、を更に備えることを特徴とする。   According to a fifth invention, in the information processing apparatus according to any one of the first to fourth inventions, a voice input means for inputting voice, and a feature amount of the voice input by the voice input means are extracted. A feature amount extracting unit; a feature amount phonetic symbol converting unit that converts the feature amount extracted by the feature amount extracting unit into a phonetic symbol; and a phonetic symbol converted by the feature amount phonetic symbol converting unit. And a process executing means for evaluating a phonetic symbol constituting a recognized phonetic symbol string included in the recognition dictionary information and executing a predetermined process corresponding to the most similar phonetic symbol. Features.

また、第6の発明は、第5の発明の情報処理装置において、前記コンテンツ情報には、音素情報及び/又は音素片情報が含まれており、前記処理実行手段は、前記特徴量表音記号変換手段により変換された表音記号と、前記認識辞書情報に含まれる認識表音記号列を構成する表音記号とを評価し、もっとも類似する表音記号に対応して利用者に対し、音声発話による情報の提示を行うことを特徴とする。   According to a sixth aspect of the present invention, in the information processing apparatus according to the fifth aspect of the invention, the content information includes phoneme information and / or phoneme piece information, and the processing execution means includes the feature quantity phonetic symbol. The phonetic symbols converted by the conversion means and the phonetic symbols constituting the recognized phonetic symbol string included in the recognition dictionary information are evaluated, and the user is notified of the voice corresponding to the most similar phonetic symbol. It is characterized by presenting information by utterance.

また、第7の発明は、第1から第6の発明のいずれかの情報処理装置において、前記表音記号は、音素又は音素片であることを特徴とする。   According to a seventh aspect, in the information processing apparatus according to any one of the first to sixth aspects, the phonetic symbol is a phoneme or a phoneme piece.

また、第8の発明は、第1から第6の発明のいずれかの情報処理装置において、前記実行される処理は、音素認識に伴う認証処理であることを特徴とする。   The eighth invention is characterized in that in the information processing apparatus according to any one of the first to sixth inventions, the executed process is an authentication process accompanying phoneme recognition.

また、第9の発明のプログラムは、コンピュータに、マークアップ言語を用いて記述された情報を解釈するマークアップ言語解釈ステップと前記解釈によって指定された属性を獲得する属性獲得ステップと、属性獲得ステップによって獲得された属性に関連付けられた表音記号列及び/又は音素列及び/又は音素片列を抽出する表音記号抽出ステップと、前記表音記号抽出ステップによって、音素認識部で用いる音素列辞書を変更する辞書変更ステップと、を実現させることを特徴とする。   According to a ninth aspect of the invention, there is provided a program for interpreting information described using a markup language in a computer, an attribute acquiring step for acquiring an attribute designated by the interpretation, an attribute acquiring step, A phonetic symbol extraction step for extracting a phonetic symbol sequence and / or a phoneme sequence and / or a phoneme fragment sequence associated with the attribute acquired by the phoneme sequence, and a phoneme sequence dictionary used in the phoneme recognition unit by the phonetic symbol extraction step And a dictionary changing step for changing.

また、第10の発明のプログラムは、コンピュータに、マークアップ言語を用いて記述された情報を解釈するマークアップ言語解釈ステップと前記解釈によって指定された属性を獲得する属性獲得ステップと、属性獲得ステップによって獲得された属性に関連付けられた表音記号列及び/又は音素列及び/又は音素片列を抽出する表音記号抽出ステップと、前記属性獲得ステップによって獲得された属性に基づき利用者が入力する情報の種別を評価する情報種別評価ステップと、前記情報評価ステップによって、音素認識部で用いる音素列辞書を変更する辞書変更ステップと、を実現させることを特徴とする。   According to a tenth aspect of the present invention, there is provided a program for interpreting information described using a markup language in a computer, an attribute acquiring step for acquiring an attribute designated by the interpretation, an attribute acquiring step, A phonetic symbol extraction step of extracting a phonetic symbol string and / or a phoneme sequence and / or a phoneme fragment sequence associated with the attribute acquired by the user, and a user inputs based on the attribute acquired by the attribute acquisition step An information type evaluation step for evaluating the type of information and a dictionary changing step for changing a phoneme string dictionary used in the phoneme recognition unit are realized by the information evaluation step.

本発明によれば、音素認識を用いた情報処理装置を利用するために、提供されるコンテンツ情報の認識に必要な音素辞書をコンテンツ情報に関連付けられた若しくはコンテンツ情報に含まれるマークアップ言語から獲得することで表示内容に関する不特定単語に対応することができる。したがって、商品販売のような不特定単語が頻発する可能性の高い処理を単体の装置やサーバ・クライアント環境で行うために、音素列や音素片列や各種識別子の呼称をマークアップ言語のタグ属性として記載し、コンテンツの画像やページ単位の文章や文章構成におけるフレームや動画像の1コマとしてのフレームや動画像の複数フレームにまたがるシーン単位に発話音素辞書を指定が出来るようにすることで課題の解決を図ろうとするものである。   According to the present invention, in order to use an information processing device using phoneme recognition, a phoneme dictionary necessary for recognition of provided content information is acquired from a markup language associated with the content information or included in the content information. By doing so, it is possible to deal with unspecified words related to display contents. Therefore, in order to perform processing with a high possibility of unspecified words such as product sales in a single device or server / client environment, the name of a phoneme string, phoneme string string, or various identifiers is a tag attribute in the markup language. It is a problem to be able to specify the utterance phoneme dictionary in scene units that span multiple frames of moving images or frames as frames of moving images or frames in content images, sentences in page units or sentence structures It is intended to solve this problem.

また、これらの操作に用いるキーワードを音素展開することで、利用者に送信するHTMLやXML、RSS、EPG、BML、MPEG7、CSVといった配布用ファイル形式やマークアップ言語によって変数や属性、特定タグとして音声操作に関する音素列や音素片列を用いた識別子を任意のマークアップ言語やスクリプトと関連付けて組込む方法により容易に音声を利用した索引付けや利用者が音声を用いて情報を獲得、閲覧、操作したりするための音声制御情報を配布共有したり、端末側で音声制御情報の獲得を行うことを可能とし課題の解決を図ろうとするものである。   Also, by expanding the phonemes used for these operations, as variables, attributes, and specific tags depending on the file format for distribution and markup language such as HTML, XML, RSS, EPG, BML, MPEG7, CSV sent to the user Indexing using voices easily by incorporating identifiers using phoneme strings and phoneme strings related to voice operations in association with arbitrary markup languages and scripts, and users can acquire, view, and manipulate information using voice Therefore, it is possible to distribute and share voice control information for the purpose of acquisition and to acquire voice control information on the terminal side, and to solve the problem.

そして、本発明は音素や音素片を用いて不特定単語を認識するという従来の技術を実施するにあたり、インターネット環境で変化する多様なコンテンツに対してコンテンツ情報の一場面中に出現する単語に制約があることを利用し、音素列や音素片列による動的な辞書構成方法を提供することで、韻律モデルや文法モデルを利用しない不特定単語に対応した音声認識処理の実現を図り利便性の向上を実現しようとしている。   And, when the present invention implements the conventional technique of recognizing unspecified words using phonemes or phonemes, it restricts the words appearing in one scene of content information to various contents changing in the Internet environment. By providing a dynamic dictionary construction method using phoneme sequences and phoneme segment sequences, it is possible to realize speech recognition processing for unspecified words without using prosodic models or grammatical models. We are trying to realize improvements.

また、MPEG7であれば映像情報のシーンを表すタグの中でそのシーン名称や、役者名、配役名を音素記号列や音素片記号列を用いて属性や変数、タグによる範囲指定により音声ストリームの認識個所以外をマークアップ言語で記載した情報を用いて、音素検索技術による任意の役者名や配役名での検索を実施することでマークアップ言語情報により場面に応じた音素列が獲得できるため任意の指示や検索を行える装置が実現でき課題の解決が図られる。   In the case of MPEG7, a scene name, an actor name, and a cast name in a tag representing a scene of video information are specified by attributes, variables, and range specification by a tag using a phoneme symbol string or a phoneme symbol string. Using the information described in the markup language other than the recognition location, and performing a search with any actor name or cast name using the phoneme search technology, any phoneme string corresponding to the scene can be obtained from the markup language information. A device capable of performing instructions and searching can be realized, and the problem can be solved.

また、HTMLであれば、対象とするリンクやCGI表記に音素記号列を含む変数、属性を設けたり、特定のタグで囲まれた範囲を音素列に変換し、タグの変数、属性として埋め込んだり、選択したい商品を囲むテーブルタグのテーブル要素ごとに変数、属性を設け各要素タグに名称を音素列記号で変数、属性として与えたり、フォームタグやインプットタグの変数、属性として音素列を与え、与えられた音素列に基づいて、情報を送信したり次のページへ遷移するといった方法により課題の解決が図られる。   In HTML, a variable or attribute including a phoneme symbol string is provided in the target link or CGI notation, or a range surrounded by a specific tag is converted into a phoneme string and embedded as a tag variable or attribute. , Provide variables and attributes for each table element of the table tag surrounding the product you want to select and give each element tag a name as a variable or attribute with a phoneme string symbol, or give a phoneme string as a variable or attribute for a form tag or input tag, Based on a given phoneme string, the problem can be solved by a method of transmitting information or transitioning to the next page.

また、RSSによる音素列や音素片列の配信を行っても良いし、タグを用いてキーワードにIDを関連付け、IDと音素列・音素片列を関連付けた認識辞書情報としてCSVファイルを提供することで認識の対象となるキーワードを特定するといった方法を用いても良いし、顔や指紋などの画像認識辞書と音素や音素片による表音記号列を用いた固有名詞を伴う認識辞書と話者ごとの音素や音素片に基づく音響モデルとを関連付けることで合言葉による個人認証を行っても良い。   Also, a phoneme string or phoneme string string may be distributed by RSS, ID is associated with a keyword using a tag, and a CSV file is provided as recognition dictionary information that associates the ID with the phoneme string / phoneme string string. You can use a method that identifies the keywords that are to be recognized in, an image recognition dictionary such as a face or fingerprint, a recognition dictionary with proper nouns using phonetic or phonetic symbol strings, and for each speaker Individual authentication using secret words may be performed by associating with an acoustic model based on phonemes or phoneme pieces.

このようにして、音素や音素片による認識辞書の内容をマークアップ言語の属性や任意のタグや辞書ファイルとして外部から獲得することにより、情報処理装置の操作を可能とし、課題の解決を図ることができる。   In this way, the contents of the recognition dictionary based on phonemes and phonemes are acquired from the outside as markup language attributes, arbitrary tags, and dictionary files, thereby enabling operation of the information processing apparatus and solving problems. Can do.

すなわち、コンテンツ情報に明確に含まれない単語が指定の無い限り認識辞書に含まれないため、誤認識の生じる確率が低減されると共に、音声操作をしたり、音素列や音素片列による装置制御に利用したり、情報に種類によって画像や音声を伴う認証条件を変えられるため汎用性の高い個人認証をしたり、情報処理装置間の情報交換に利用したりするために既存のマークアップ言語を拡張し音素や音素片による表記を追加したり、マークアップ言語やコンテンツに付随もしくは関連付けられた音素や音素片による辞書情報を用いたりすることによって利便性の高いユーザインタフェースを実現することができる。   That is, since words that are not clearly included in the content information are not included in the recognition dictionary unless specified, the probability of misrecognition is reduced, voice operation is performed, and device control by phoneme strings or phoneme string strings The existing markup language can be used for personal authentication with high versatility, and for information exchange between information processing devices. A highly convenient user interface can be realized by adding notations with phonemes and phonemes, and using dictionary information with phonemes and phonemes associated with or associated with markup languages and contents.

本発明を利用した情報処理装置のブロック図。1 is a block diagram of an information processing apparatus using the present invention. 認識辞書情報のデータ構造の一例を示した図。The figure which showed an example of the data structure of recognition dictionary information. 表音記号付与処理の動作フローを示した図。The figure which showed the operation | movement flow of the phonetic symbol provision process. 表音記号付与処理の動作を説明するための図。The figure for demonstrating the operation | movement of a phonetic symbol provision process. 表音記号付与処理の動作を説明するための図。The figure for demonstrating the operation | movement of a phonetic symbol provision process. 表音記号付与処理の動作を説明するための図。The figure for demonstrating the operation | movement of a phonetic symbol provision process. 表音記号付与処理の動作を説明するための図。The figure for demonstrating the operation | movement of a phonetic symbol provision process. 認識辞書更新処理の動作フローを示した図。The figure which showed the operation | movement flow of recognition dictionary update processing. 認識辞書情報の異なるデータ構造を示した図。The figure which showed the data structure from which recognition dictionary information differs. 認識辞書情報更新処理の動作フローを示した図。The figure which showed the operation | movement flow of recognition dictionary information update processing. 認識辞書情報更新処理の動作を説明するための図。The figure for demonstrating operation | movement of recognition dictionary information update processing. 認識辞書情報更新処理の動作を説明するための図。The figure for demonstrating operation | movement of recognition dictionary information update processing. 認識辞書情報更新処理の動作を説明するための図。The figure for demonstrating operation | movement of recognition dictionary information update processing. 認識辞書情報更新処理の動作を説明するための図。The figure for demonstrating operation | movement of recognition dictionary information update processing. サーバ・クライアントモデルに適用した場合における動作フローを示した図。The figure which showed the operation | movement flow at the time of applying to a server client model. サーバ・クライアントモデルに適用した場合における動作フローを示した図。The figure which showed the operation | movement flow at the time of applying to a server client model. 本実施形態における変形例を説明するための図。The figure for demonstrating the modification in this embodiment. 本実施形態における変形例を説明するための図。The figure for demonstrating the modification in this embodiment.

符号の説明Explanation of symbols

1 情報処理装置
10 制御部
20 記憶部
202 コンテンツ情報
204 表音記号変換テーブル
206 認識辞書情報
208 表音記号付与プログラム
210 認識辞書情報更新プログラム
212 音声操作プログラム
30 通信部
40 入出力部
50 操作部
60 表示部
DESCRIPTION OF SYMBOLS 1 Information processing apparatus 10 Control part 20 Storage part 202 Content information 204 Phonetic symbol conversion table 206 Recognition dictionary information 208 Phonetic symbol addition program 210 Recognition dictionary information update program 212 Voice operation program 30 Communication part 40 Input / output part 50 Operation part 60 Display section

本発明はコンテンツ情報に利用されるマークアップ言語の表記に対して、変更を加えて保存したり、保存して利用したり、変更を加えた情報をそのまま利用したりする装置や変更を加えた情報を配信する配信装置と受信し認識や認識に伴う操作や応答に利用する受信端末とに用いる情報処理装置を構成することができる。より具体的にはXMLやHTMLによる例にあるように、すでにあるマークアップ言語で記載された情報を変更しタグを追加したり、変数や属性を追加したりして保存・変更・配信する方法とそれらの情報を受信して情報処理装置を操作する方法である。   In the present invention, a markup language notation used for content information is changed and saved, or saved and used, or the changed information is used as it is, and a change has been added. It is possible to configure an information processing apparatus that is used for a distribution apparatus that distributes information and a reception terminal that is received and used for recognition and operations and responses associated with recognition. More specifically, as shown in the example of XML or HTML, a method of saving, changing, and distributing information by changing information written in an existing markup language and adding a tag or adding a variable or attribute And receiving the information and operating the information processing apparatus.

<コンテンツ情報の例>
まず、本発明を用いて実施される検索や索引付けの対象となるコンテンツとコンテンツ情報について説明すると、もっぱらコンテンツとは、映画、ドラマ、写真、報道、アニメ、イラスト、絵画、音楽、プロモーションビデオ、小説、雑誌、ゲーム、論文、教科書、辞書、書籍、コミック、カタログ、ポスター、放送番組情報などを示していることが一般的によく知られているが、本発明では公共情報、地図情報、商品情報、販売情報、広告情報や予約状況、視聴状況、道路状況といった情報やアンケート、監視カメラ映像、衛星写真、ブログ、模型、人形、ロボットであっても良いし、それらの装置に具備されたカメラ・マイク・センサ入力などで得られる情報やそれらの情報や状態や状況の呼称やそれらの抽象概念や上位概念や下位概念に関する呼称を音素や音素片による記号列に展開した情報を含んでも良い。
<Example of content information>
First, the content and content information to be searched and indexed using the present invention will be described. The content is exclusively a movie, a drama, a photo, a news report, an animation, an illustration, a painting, music, a promotional video, It is generally well known that novels, magazines, games, papers, textbooks, dictionaries, books, comics, catalogs, posters, broadcast program information, etc., but in the present invention, public information, map information, products Information, sales information, advertising information, reservation status, viewing status, viewing status, road status information and questionnaires, surveillance camera images, satellite photos, blogs, models, dolls, robots, and cameras equipped in these devices・ Information obtained by microphone / sensor input, etc., names of such information, status and situation, abstract concepts, superordinate concepts and subordinate concepts It may include information that expand the designation about the symbol string by phonemes or phoneme.

また、映像の時系列的変化、音声の時系列変化、読み手の音読位置の時系列的変化を期待する文章、HTMLにおけるマークアップ言語表記による電子情報、それらにより生成された検索指標情報などであっても良く、音読位置を時間軸として解釈して句点や文や章や文章をフレームとして捕らえても良い。   In addition, there are video time-series changes, audio time-series changes, texts that expect readers' reading positions in time-series, electronic information in markup language notation in HTML, search index information generated by them, and the like. Alternatively, the reading position may be interpreted as a time axis, and a punctuation mark, sentence, chapter, or sentence may be captured as a frame.

また、コンテンツに付属するメタ情報、文字情報による文書や番組情報としてのEPGやBML、譜面情報としての音階、一般的な静止画や動画像、3次元情報としてのポリゴンデータやベクトルデータやテクスチャデータやモーションデータ(動作データ)、可視化数値データによる静止画像や動画像、宣伝や広告を目的としたコンテンツ情報等を含んでいても良く、視覚情報や聴覚情報や文字情報やセンサ情報を含む自然情報により構成されている。   Also, meta information attached to content, EPG and BML as documents and text information by character information, musical scale as musical score information, general still images and moving images, polygon data, vector data and texture data as three-dimensional information And motion data (motion data), still images and moving images based on visualization numerical data, content information for the purpose of advertisement and advertisement, etc., and natural information including visual information, auditory information, text information, and sensor information It is comprised by.

そして、従来から用いられるMPEG7などの音素(phone)ラティスを記述する <Spoken Content DS>タグを用いてコンテンツの音声内容を認識して音素列を付与するという方法が提案されているが、この方法はコンテンツ内で生じている音声情報の認識に基づいた記号列により索引付されているため、利用者がコンテンツのタイトルや出演者を音声操作によって検索できるようにするために音素表記や音素片表記といった発音記号や表音記号を用いた表記による情報の提供を行っているわけではない。   A method of recognizing the content of a content using a <Spoken Content DS> tag describing a phoneme (phone) lattice such as MPEG7 used conventionally and adding a phoneme sequence has been proposed. Is indexed by a symbol string based on the recognition of audio information generated in the content, so that the user can search for the title and performer of the content by voice operation, phoneme notation and phoneme notation Information is not provided by notation using phonetic symbols and phonetic symbols.

このため、コンテンツタイトルや出演者などの名称や表現に関わる不特定単語や固有名詞を必ずしも音声認識に利用できないため、本発明のようなシーンの説明文やタイトルや出演者名称といったコンテンツ情報にかかわる文字情報を音素展開することで併記し、タグの変数や属性としてMPEG情報内に音素記号列や音素片記号列や音節記号列をはじめ任意の発音記号や表音記号に基づく識別子を埋め込むことで音声認識への音素認識技術の利用を図ることができる。   For this reason, unspecified words and proper nouns related to the names and expressions of content titles and performers cannot always be used for speech recognition, and therefore are related to content information such as scene descriptions, titles, and performer names as in the present invention. Character information is written together by expanding the phoneme, and as a variable or attribute of the tag, an identifier based on a phonetic symbol string, phoneme symbol string, syllable symbol string, or any phonetic symbol or phonetic symbol is embedded in the MPEG information. Use of phoneme recognition technology for speech recognition can be achieved.

つまり、マークアップ言語の音声処理の対象となるタグで囲まれた部分が任意の文字列であれば、その文字列を音素記号列や音素片記号列に展開し音素記号や音素片記号を用いて認識に利用できるようにすると共に、利用者の発話から認識された音素記号列や音素片記号列との一致を評価したり、発話した音素を任意の表音文字に変換したりして表音文字同士の一致を図っても良いし、利用者の発話認識結果にもとづいた音素記号列との一致を評価して、利用者の操作対象や検索対象であるとしてもよい。また、表意記号で記載されているアットマークや鍵括弧といった文字や記号であれば適切な表音記号列による音素記号や音素片記号に変換してもよいし、複数の発話が推測できる文字列であれば、従来の音声認識のように複数の音素列や音素片列や音節記号列を与えていても良い。   In other words, if the part enclosed by the tag that is the target of speech processing in markup language is an arbitrary character string, the character string is expanded into a phoneme symbol string or phoneme symbol string, and a phoneme symbol or phoneme symbol is used. It can be used for recognition, and it is evaluated by matching the phoneme symbol string and phoneme symbol string recognized from the user's utterance, or by converting the uttered phoneme into arbitrary phonetic characters. The phonetic characters may be matched, or the phoneme symbol string based on the user's utterance recognition result may be evaluated to be the user's operation target or search target. In addition, any character or symbol such as an at sign or a key bracket described in ideograms may be converted to a phoneme symbol or phoneme symbol by an appropriate phonetic symbol string, or a character string from which multiple utterances can be estimated If so, a plurality of phoneme strings, phoneme string strings, and syllable symbol strings may be given as in conventional speech recognition.

そして、認識された音素列や音素片列をクエリとしてデータベースに与えDPやHMM等の記号列マッチング方法により検索し、検索結果に音素列や音素片列を加えて利用者から閲覧できるように一覧として検索結果を提示し、検索結果に含まれる音素列に基づいて商品を選択し、獲得した制御方法から課金や購入手続きを行うための音素列や音素片列を認識に伴い認識辞書から検出することで販売に伴う一連の処理を実施したり、パスワードを利用者発話音声特徴などにより構成された音素認識辞書や画像特徴により構成された指紋や虹彩や顔や掌紋などの認識辞書と組合せることで認証を行い課金したりすることで、物品や権利といった商品やコンテンツ情報の検索・閲覧・販売・認証・課金手続きを実現することが出来る。   Then, the recognized phoneme sequence or phoneme sequence is given to the database as a query, searched by a symbol sequence matching method such as DP or HMM, and added to the search result so that it can be viewed by the user by adding the phoneme sequence or phoneme sequence. The search result is presented, the product is selected based on the phoneme sequence included in the search result, and the phoneme sequence and phoneme sequence for performing the charge and purchase procedure are detected from the recognition dictionary with the recognition. In this way, a series of processes associated with sales can be performed, and passwords can be combined with phoneme recognition dictionaries composed of user utterance voice features and fingerprint dictionaries such as fingerprints, irises, faces and palm prints. By performing the authentication and charging with, it is possible to realize a search / browse / sales / authentication / billing procedure for goods and content information such as goods and rights.

このように、コンテンツの再生個所やページや表示個所といった情報内の位置に応じて認識結果として獲得されるべき任意の単語を評価するために必要な表音記号に基づく識別子や識別子列の認識辞書を切替えることで多彩な利用環境における不特定単語に対する汎用性の高い辞書構成を可能とし、動的に構成される音素や音素片を用いた表音記号による認識辞書に基づいて認識された単語を提示したり、任意の処理を実施したり、広告のURLを獲得したり、広告を提示したり、装置を操作したりすることで、利用者にコンテンツや広告の配信において利便性の高い情報の提示の実現やWebなどのインターネット環境においてCGI処理のポストやゲットに用いる変数に音素列や音素片列を利用することにより検索条件の指定をして送信したり、Webページ切替えや操作を行ったりすることができる。   In this way, an identifier or identifier string recognition dictionary based on phonetic symbols necessary for evaluating an arbitrary word to be acquired as a recognition result in accordance with a position in information such as a content reproduction location, page, or display location. Can be used to create a highly versatile dictionary structure for unspecified words in a variety of usage environments. Words recognized based on a phonetic symbol recognition dictionary using dynamically constructed phonemes and phonemes By presenting, performing arbitrary processing, acquiring the URL of the advertisement, presenting the advertisement, and operating the device, information that is highly convenient for content and advertisement distribution to the user Specifying search conditions and sending them by using phoneme strings and phoneme string sequences as variables used for CGI processing posts and get in the Internet environment such as presentation and Web Or, it is possible to and go the Web page switching and operation.

なお、日本語を音素に展開する手順はよく知られており、表意文字で得る漢字かな混じり表記を表音文字に変換する「分ち書き」プログラムを用いて「カナ表記」にした後に「カナ表記」にともなう「ローマ字」などの発音記号を用いて音素記号変換や音素片記号変換を実施し認識に用いる記号列を構成する方法があり、同様の手順で音節記号による記載を行う方法もある。   The procedure for expanding Japanese into phonemes is well known, and after converting it to “kana notation” using a “split writing” program that converts kanji-kana mixed notation obtained from ideograms into phonograms, There is a method of constructing a symbol string to be used for recognition by using phonetic symbol conversion and phoneme symbol conversion using phonetic symbols such as `` Roman characters '' accompanying `` notation '', and there is also a method of describing with syllable symbols in the same procedure .

そして、英語であれば英語音素記号や発音記号を用いて音素記号列に変換したり、国際音素記号を用いて音素記号列に変換したりすることが可能であり、任意の言語やその言語に適した音素記号や音素片記号を用いても良く、各種言語において発音辞典もあることから、言語に応じた発音記号に基づいて表音記号による識別子としての音素や表音記号を時系列的に分解した識別子としての音素片、そして、それらの表音記号を数字と対応付けて適当な文字コードにして表記したりすることにより任意の表音記号に基づくマークアップ言語を用いた情報の配信が可能となる。   If it is English, it can be converted into a phoneme symbol string using an English phoneme symbol or a phonetic symbol, or converted into a phoneme symbol string using an international phoneme symbol. Appropriate phonetic symbols and phoneme symbols may be used, and there are pronunciation dictionaries in various languages, so phonemes and phonetic symbols as phonogram identifiers are time-sequentially based on phonetic symbols according to the language. Distributing information using markup languages based on arbitrary phonetic symbols by dissociating phonemes as disassembled identifiers and expressing them as appropriate character codes in association with numbers It becomes possible.

この際、必要であれば音素記号列を音素片記号列に変換することで、検索における利便性の向上を図っても良いし、環境音識別子や音階識別子、画像識別子、動作識別子をそれぞれの環境音ラティスや音階ラティスとしたり、MPEGストリーム中に画像識別子や動作識別子のセクションを設けたり、それらの識別子の呼称に関する発音に基づいて音素列や音素片列を与えても良い。   At this time, if necessary, the phoneme symbol string may be converted into a phoneme symbol string to improve the convenience of the search. The environmental sound identifier, the scale identifier, the image identifier, and the motion identifier are assigned to each environment. It may be a sound lattice or a scale lattice, a section of image identifiers or motion identifiers may be provided in the MPEG stream, and a phoneme sequence or a phoneme segment sequence may be given based on pronunciation related to the names of these identifiers.

次に、より具体的な手順について図を用いて説明する。
〔装置構成〕
まず、本発明を適用した場合の情報処理装置1の装置構成について図1を用いて説明する。ここで、情報処理装置1は、通常汎用的なコンピュータや、専用端末、携帯移動端末等の各情報処理機器で実現される装置である。
Next, a more specific procedure will be described with reference to the drawings.
〔Device configuration〕
First, the apparatus configuration of the information processing apparatus 1 when the present invention is applied will be described with reference to FIG. Here, the information processing apparatus 1 is an apparatus that is realized by each information processing device such as a general-purpose computer, a dedicated terminal, and a portable mobile terminal.

図1に示すように、情報処理装置1は、制御部10と、記憶部20と、通信部30と、入出力部40と、操作部50と、表示部60とを備えて構成されている。ここで、各機能部は、バスを介してそれぞれ制御部10に接続されている。なお、操作部50や表示部60は任意に取外し可能な装置であってもよい。   As illustrated in FIG. 1, the information processing apparatus 1 includes a control unit 10, a storage unit 20, a communication unit 30, an input / output unit 40, an operation unit 50, and a display unit 60. . Here, each functional unit is connected to the control unit 10 via a bus. Note that the operation unit 50 and the display unit 60 may be arbitrarily removable devices.

まず、通信部30は、他の装置とLAN(Local Area Network)や、インターネット等の通信網を介して情報交換を行うための機能部である。ここで、通信部30は、一般的にイーサネット(登録商標)や、モデム、無線LAN、ケーブルテレビ装置といったコンテンツ情報を送信及び/又は受信できる装置により構成されている。   First, the communication unit 30 is a functional unit for exchanging information with other devices via a LAN (Local Area Network) or a communication network such as the Internet. Here, the communication unit 30 is generally configured by a device capable of transmitting and / or receiving content information such as Ethernet (registered trademark), a modem, a wireless LAN, and a cable television device.

つぎに、入出力部40は、他の装置や外部から情報を入出力するための機能部であり、例えばマイクやスキャナ、キャプチャボード、カメラ、センサ類等の入力装置や、スピーカやプリンタ、造形装置、表示装置等の出力装置から構成されている。   Next, the input / output unit 40 is a functional unit for inputting / outputting information from / to another device or from the outside, such as an input device such as a microphone, a scanner, a capture board, a camera, or sensors, a speaker, a printer, It consists of output devices such as devices and display devices.

記憶部20は、情報処理装置1内における情報を取得して記憶したり、制御部10により実行されるプログラムが記憶されたりする機能部である。記憶部20は、半導体記憶素子としてのROMやRAM、磁気記憶媒体としてのハードディスクや磁気テープ、光記憶媒体としてのCD(Compact Disk)やDVD(Digital Versatile Disk)等から構成されている。   The storage unit 20 is a functional unit that acquires and stores information in the information processing apparatus 1 and stores a program executed by the control unit 10. The storage unit 20 includes a ROM or RAM as a semiconductor storage element, a hard disk or magnetic tape as a magnetic storage medium, a CD (Compact Disk) or a DVD (Digital Versatile Disk) as an optical storage medium, or the like.

具体的には、記憶部20には、コンテンツ情報202と、表音記号変換テーブル204と、認識辞書情報206とを記憶しており、表音記号付加プログラム208と、認識辞書情報更新プログラム210と、音声操作プログラム212とを格納している。   Specifically, the storage unit 20 stores content information 202, a phonetic symbol conversion table 204, and recognition dictionary information 206, a phonetic symbol addition program 208, a recognition dictionary information update program 210, and the like. The voice operation program 212 is stored.

コンテンツ情報202には、外部から通信部30を介して取得されたコンテンツや、入出力部40を介して入力されたコンテンツが保存されている。また、表音記号変換テーブル204は、コンテンツ情報の中から表音記号に変換される際に参照されるテーブルであり、例えば文字列と音素等の表音記号とが対応づけられて記憶されているテーブルである。   The content information 202 stores content acquired from the outside via the communication unit 30 and content input via the input / output unit 40. The phonetic symbol conversion table 204 is a table that is referred to when the content information is converted into phonetic symbols. For example, a character string and a phonetic symbol such as a phoneme are associated with each other and stored. It is a table.

認識辞書情報206は、単語と音素列や音素片列等(以下、これら音素列等を表音記号として示す)との関係を記憶している情報である。例えば、図9に示すように、項目「Title」と、対象単語として「お得キャンペーン」と、音素列(表音記号)として対象単語から展開された「o/t/o/k/u/ky/a…」とが対応づけて記憶されている。認識辞書情報206は、項目等の他にも例えば「商品名」、「商品の愛称」及び「商品の愛称に基づく音素列」といった固有名詞を登録しても良く、一般的な言語辞書に登録されないような感嘆語や罵倒誤を含む単語を音素列や音素片列によって動的に入替えることで多様な認識を実現する認識辞書を構成している。   The recognition dictionary information 206 is information that stores a relationship between a word and a phoneme sequence, a phoneme segment sequence, and the like (hereinafter, these phoneme sequences are indicated as phonetic symbols). For example, as shown in FIG. 9, an item “Title”, a “profit campaign” as a target word, and “o / t / o / k / u /” expanded from the target word as a phoneme string (phonetic symbol). “ky / a…” is stored in association with each other. The recognition dictionary information 206 may register proper nouns such as “product name”, “product nickname”, and “phoneme string based on product nickname” in addition to items, etc., and may be registered in a general language dictionary. A recognition dictionary that realizes a variety of recognitions is constructed by dynamically exchanging words including exclamation words and misunderstandings that are not used by phoneme strings or phoneme string strings.

操作部50は、ユーザからの操作入力を受信する機能部であり、キーボードやマウスやカメラやリモコン(ワイヤレス含む)といった操作に伴う情報を入力する入力装置等で構成されている。また、表示部60は、情報処理装置1が出力する情報を利用者ユーザに視認させるために出力する機能部であり、ディスプレイやプロジェクタ等を含む操作に関わる表示をおこなう表示装置を用いて構成されている。   The operation unit 50 is a functional unit that receives an operation input from a user, and includes an input device that inputs information associated with an operation such as a keyboard, a mouse, a camera, and a remote controller (including wireless). The display unit 60 is a functional unit that outputs information output by the information processing apparatus 1 so that the user can visually recognize the information. The display unit 60 is configured using a display device that performs display related to operations including a display and a projector. ing.

制御部10は、記憶部20に記憶されている各種プログラムを呼び出すことにより、プログラムに対応する機能を実現するための処理を実行したり、情報処理装置1の各機能部を制御したりすることを行っている。   The control unit 10 calls various programs stored in the storage unit 20 to execute a process for realizing a function corresponding to the program or to control each functional unit of the information processing apparatus 1. It is carried out.

制御部10は、記憶部20から表音記号付加プログラム208を読み出して実行することにより、後述する表音記号付加処理を実現する。また、記憶部20から認識辞書情報更新プログラム210を読み出して実行することにより、後述する認識辞書情報更新処理を実現する。また、音声操作プログラム212を読み出して実行することにより、音声操作処理を実現する。   The control unit 10 reads out the phonetic symbol addition program 208 from the storage unit 20 and executes it, thereby realizing a phonetic symbol addition process to be described later. Moreover, the recognition dictionary information update program 210 mentioned later is implement | achieved by reading and executing the recognition dictionary information update program 210 from the memory | storage part 20. FIG. Further, the voice operation processing is realized by reading and executing the voice operation program 212.

また、制御部10は、プログラムを実行することにより、音素・音素片認識処理やタグ情報の獲得やタグ識別子の獲得や音素列・音素片列の獲得や利用者発話音声の音素・音素片認識による音素列・音素片列と辞書登録情報に関連付けられた音素列・音素片列の類似度評価により単語の選択を行うことができるとともに、入出力部からマイクを利用して音声波形を獲得し、音声認識に用いたり、スピーカを利用して本発明により獲得した音素列や音素片列を用いて音声合成により利用者に情報を提供したりしても良い。   In addition, the control unit 10 executes a program to acquire phoneme / phoneme recognition processing, tag information acquisition, tag identifier acquisition, phoneme string / phoneme string array, and phoneme / phoneme recognition of user utterance speech. Can select words based on similarity evaluation between phoneme sequence / phoneme segment sequence and phoneme sequence / phoneme segment sequence associated with dictionary registration information, and acquire speech waveform from input / output unit using microphone It may be used for speech recognition, or information may be provided to the user by speech synthesis using a phoneme sequence or phoneme segment sequence obtained by the present invention using a speaker.

なお、制御部10は、通常CPU(Central Processor Unit)やDSP、ASIC等を用いて構成されており、また、これらを任意に組合せて実現することも可能である。   Note that the control unit 10 is usually configured using a CPU (Central Processor Unit), DSP, ASIC, or the like, and can be realized by arbitrarily combining them.

<動作>
続いて、情報処理装置1が実行する各動作処理について説明する。
<Operation>
Next, each operation process executed by the information processing apparatus 1 will be described.

<表音記号付加処理>
まず、表音記号付加処理について図3を用いて説明する。図3は、表音記号付加処理を説明するための動作フローであり、制御部10が、記憶部20の表音記号付加プログラム208を読み出して実行することにより実現される処理である。
<Phonetic symbol addition processing>
First, the phonetic symbol addition processing will be described with reference to FIG. FIG. 3 is an operation flow for explaining the phonetic symbol addition processing, which is realized by the control unit 10 reading and executing the phonetic symbol addition program 208 in the storage unit 20.

まず、制御部10は、通信部30により受信されるか、入出力部40により入力されることにより保存されているコンテンツ情報202を取得する(ステップS301)。   First, the control unit 10 acquires content information 202 stored by being received by the communication unit 30 or input by the input / output unit 40 (step S301).

次に、読み込まれたコンテンツ情報202から展開対象文字列を検出する(ステップS302)。ここで、展開対象文字列とは、表示制御方法の変化を識別するための文字列(情報)であり、例えばマークアップ言語の場合を一例に取ると、リンクを示すタグ<A>や、タイトルを示すタグ<TITLE>といったものである。このタグに挟まれた範囲を対象として音素や音素片等の表音記号に展開される展開対象文字列が検出される。   Next, a development target character string is detected from the read content information 202 (step S302). Here, the expansion target character string is a character string (information) for identifying a change in display control method. For example, in the case of a markup language, a tag <A> indicating a link or a title It is a tag <TITLE> indicating A character string to be expanded that is expanded into phonetic symbols such as phonemes and phoneme pieces is detected for the range between the tags.

次に、展開対象文字列を発話に伴う発音記号からなる音素列や音素片列(表音記号)に展開する(ステップS303)。これにより、例えばタイトルやリンク先の呼称が表音記号に変換される。この展開文字列を表音記号に変換する際には、タグに含まれる情報であるALT属性やID属性といった他の属性を参照することで文字列を獲得し、音素列や音素片列へ変換することで辞書登録するための表音記号列を用いて認識辞書情報を構成したり、画像ファイル名や音楽ファイル名や映像ファイル名や文書ファイル名から音素や音素片列を構成したり、画像ファイルや音楽ファイルや映像ファイルや文書ファイル内に記載されたタグの属性やタグに挟まれた文字列を利用して音素や音素片列を構成したり、タグに挟まれた文字列から音素列や音素片列を構成したり、タグに属性として関連付けられたリンク情報を用いてリンク先にあるファイルの名称やファイルに含まれている文字情報に基づいてタグやタグの属性やタグに挟まれた文字列を利用して音素列や音素片列を構成したり、といった任意の方法を用いることで辞書に登録する表音記号列を構成する方法が考えられる。   Next, the expansion target character string is expanded into a phoneme string or a phoneme string string (phonetic symbol) composed of phonetic symbols accompanying the utterance (step S303). Thereby, for example, the title and the name of the link destination are converted into phonetic symbols. When this expanded character string is converted into phonetic symbols, the character string is acquired by referring to other attributes such as the ALT attribute and ID attribute that are information contained in the tag, and converted into a phoneme string or phoneme string string. To compose recognition dictionary information using phonetic symbol strings for dictionary registration, compose phoneme and phoneme string sequences from image file names, music file names, video file names and document file names, A phoneme or phoneme string sequence is constructed using the tag attributes and the text string sandwiched between tags, which are described in files, music files, video files, and document files, and phoneme strings are generated from the text strings sandwiched between tags. Or a phoneme segment string, or by using link information associated with the tag as an attribute, the name of the file at the link destination or the character information contained in the file is sandwiched between the tag or tag attribute or tag String Or configure the phoneme sequence and phoneme sequence by use, how to configure the phonetic symbol string registered in the dictionary by using an arbitrary method such as is conceivable.

具体的には、表音記号変換テーブル204を用いて表音記号に変換される。例えば、タイトルタグに囲まれた文字列「メイン」に対して、表音記号変換テーブル204を参照し表音記号として「m/e/i/n/」と変換される。   Specifically, the phonetic symbols are converted into phonetic symbols using the phonetic symbol conversion table 204. For example, a character string “main” surrounded by title tags is converted to “m / e / i / n /” as a phonetic symbol by referring to the phonetic symbol conversion table 204.

また、このような表音記号への展開を行わなくても既にコンテンツ情報自体のタグとして表音記号展開された属性を与えている場合もあり、認識に用いるための表音記号列による認識表音記号列が構成されていてもよく、例えばコンテンツ情報を獲得するステップS401を実施した後に図4から図7に示されるようなマークアップ言語情報から付随するメタ情報から「pronounce属性」を検出するステップS402を実施し、検出された「pronounce属性」の変数として記述されている音素や音素片からなる表音記号列を抽出し、抽出された表音記号列と「pronounce属性」が検出されたメタ情報とを関連付けて辞書情報として登録するステップS403を実施することにより、音声操作プログラムを用いたり、情報処理装置が認識可能な発話音を表記する表音記号列に関連付けられたメタ情報としてのタグやCGIなどを用いる処理内容や遷移先ページを特定したり、することで任意の処理や手順や操作を指定して、動的な表音記号列を用いた認識を実現する。   In addition, there is a case where the attribute of the phonetic symbol expansion is already given as a tag of the content information itself without performing such development to the phonetic symbol, and the recognition table by the phonetic symbol string to be used for recognition is used. The phonetic symbol string may be configured. For example, after performing step S401 for acquiring the content information, the “pronounce attribute” is detected from the accompanying meta information from the markup language information as shown in FIGS. Step S402 is performed, and a phonetic symbol string composed of phonemes and phoneme pieces described as a variable of the detected “pronounce attribute” is extracted, and the extracted phonetic symbol string and “pronounce attribute” are detected. By executing step S403 of associating with meta information and registering it as dictionary information, a table that uses a voice operation program or expresses an utterance sound that can be recognized by the information processing apparatus A dynamic phonetic symbol string that specifies any processing, procedure, or operation by specifying a processing content or transition destination page using a tag or CGI as meta information associated with the phonetic symbol string, Realize recognition using.

この結果、表音記号保存処理が実行され表音記号認識に用いる認識表音記号列が保存される(ステップS304)。表音記号保存処理とは、ステップS303において変換された認識に用いる表音記号を保存する処理であり、例えば、それぞれのタグに既に属性として記録されている表音記号を抽出したり、タグに挟まれた文字列から展開して新しく属性として表音記号(音素列や音素片列)を追加する処理(ステップS304a)や、それぞれのタグに音声の認識対象であることを示すタグや属性をコンテンツ情報に追加したりする処理(ステップS304b)や、認識させたい固有名詞を分離し表音記号に変換し認識表音記号列を構成することで認識辞書情報206を構成して更新する処理(ステップS304c)が実行される。これにより、コンテンツ情報と認識に利用したい単語の音素列や音素片列からなる表音記号列としての認識表音記号列とを明確にする処理が実施されることとなる。   As a result, the phonetic symbol storage process is executed, and the recognized phonetic symbol string used for phonetic symbol recognition is stored (step S304). The phonetic symbol storage processing is processing for storing the phonetic symbols used for recognition converted in step S303. For example, the phonetic symbols that are already recorded as attributes in the respective tags are extracted, A process (step S304a) of adding a phonetic symbol (phoneme string or phoneme fragment string) as a new attribute by expanding from the sandwiched character string, and a tag or attribute indicating that each tag is a speech recognition target Processing to add to content information (step S304b), processing to configure and update recognition dictionary information 206 by separating proper nouns to be recognized, converting them into phonetic symbols, and forming recognition phonetic symbol strings ( Step S304c) is executed. Thus, processing for clarifying the content information and the recognized phonetic symbol string as a phonetic symbol string including a phoneme string or a phoneme string string of a word to be used for recognition is performed.

そして、制御部10は、変更されたコンテンツ情報202を更新保存したり、関連付けられた認識表音記号列からなる音素や音素片を用いた表音記号認識のための認識辞書情報を更新保存したりする(ステップS305)。これにより、利用者の発話の認識や通信部経由での配信に変更されたコンテンツ情報を利用できるようにする。   Then, the control unit 10 updates and saves the changed content information 202, and updates and saves recognition dictionary information for phonetic symbol recognition using phonemes and phonemes composed of associated recognition phonetic symbol strings. (Step S305). This makes it possible to use the content information changed to the recognition of the user's utterance and the distribution via the communication unit.

なお、上述した処理は、情報処理装置1が実行することとして説明したが、コンテンツ情報を配信する配信装置(サーバ)側が実行することで受信側の音素列への変換にともなう情報の処理負担を減らすようにしても良い。配信装置側が実行することにより、利用者からのコンテンツ情報の呼び出しに応じて配信装置は音声による制御情報の付随したコンテンツ情報を配信する。したがって、情報処理装置1(端末装置)はコンテンツのページやフレーム応じて分類された音素情報が情報処理装置で獲得可能となり制約の少ない任意単語を音声利用することができるようになる。   Although the above-described processing has been described as being executed by the information processing device 1, the processing load of information accompanying conversion to a phoneme string on the receiving side is executed by the distribution device (server) side that distributes content information. You may make it reduce. When the distribution apparatus executes, the distribution apparatus distributes content information accompanied by voice control information in response to a call of content information from a user. Therefore, the information processing device 1 (terminal device) can acquire phoneme information classified according to the page and frame of the content by the information processing device, and can use voice of arbitrary words with less restrictions.

ここで、表音記号付加処理を実行した場合の動作例について、図を用いて説明する。まず図4は、情報処理装置1が取得したコンテンツ情報202の様子を示した図である。ステップS301が実行されることにより、通信部30又は入出力部40からコンテンツ情報202を取得し、記憶部20に保存する。   Here, an operation example when the phonetic symbol addition processing is executed will be described with reference to the drawings. First, FIG. 4 is a diagram showing the state of the content information 202 acquired by the information processing apparatus 1. By executing step S301, the content information 202 is acquired from the communication unit 30 or the input / output unit 40 and stored in the storage unit 20.

そして、表音記号(音素列・音素片列)による評価対象として目的となるタグに関連する情報を検出する(ステップS302)。なお、図4の情報はステップS302で抽出処理を実行する場合に、RSSのアイテムセクションを用いたコンテンツ情報例であり、アイテムセクションから対象文字列を抽出して変換処理を施したものが図5又は図6として記載されている。   And the information relevant to the tag used as the evaluation object by the phonetic symbol (phoneme sequence / phoneme segment sequence) is detected (step S302). Note that the information in FIG. 4 is an example of content information using an RSS item section when the extraction process is executed in step S302. FIG. 5 shows an example in which a target character string is extracted from the item section and converted. Or it is described as FIG.

そして、取得したコンテンツ情報に含まれるタグの中から、展開対象文字列の対象となるタグが検出されたら、そのタグで指定されている範囲の文字列を検出する。例えば図4ではタイトルを意味するタグ「<title>」から「</title>」までの間に挟まれた「お得キャンペーン」を表音記号列への展開対象文字列として検出する。この際、不要な括弧記号を削除してもよく、この文字列の抽出によって配信側の指定した任意のタイトル文字列を取得できる。   When a tag that is the target of the expansion target character string is detected from the tags included in the acquired content information, the character string in the range specified by the tag is detected. For example, in FIG. 4, a “profit campaign” sandwiched between tags “<title>” and “</ title>” meaning a title is detected as a character string to be expanded into a phonetic symbol string. At this time, unnecessary parenthesis symbols may be deleted, and an arbitrary title character string designated by the distribution side can be acquired by extracting the character string.

そして、取得できた文字列を確認し、表音記号変換テーブル204を用いて文字列の発音に従った表音記号列に変換する。そして、図5に示すように、もともとのコンテンツ情報202に記載されたタグに属性や変数として例えば新規にpronounce属性を追加して表音記号列を追記する処理や(ステップS304a)、図6に示すように、<pronounce>〜</pronounce>タグを新たに設定する処理や、表音記号と認識する単語や命令を関連付けて認識辞書情報206として保存すると共に、認識辞書情報206をコンテンツ情報202に認識辞書情報206の獲得先としてURLを<META>タグなどにより記載し関連付ける処理(ステップS304c)等が実行されコンテンツ情報に表音記号認識に用いる表音記号列情報を追記したり関連付けたりすることが可能となる。   Then, the acquired character string is confirmed and converted into a phonetic symbol string according to the pronunciation of the character string using the phonetic symbol conversion table 204. Then, as shown in FIG. 5, for example, a new pronouncation attribute is added as an attribute or variable to the tag described in the original content information 202 to add a phonetic symbol string (step S304a), and FIG. As shown in the figure, processing for newly setting <pronounce> to </ pronounce> tags, a word and a command recognized as a phonetic symbol are associated and stored as recognition dictionary information 206, and the recognition dictionary information 206 is stored as content information 202. A process of describing and associating a URL with a <META> tag or the like as the acquisition destination of the recognition dictionary information 206 (step S304c) or the like is executed, and phonogram symbol string information used for phonogram recognition is added to or associated with content information It becomes possible.

そして、前述の変更を行ったコンテンツ情報202を他の端末に直接配信したり、装置内で利用したりすることで表音記号(音素や音素片や発音記号や発音記号片)に基づいた操作を行えることとなる。   Then, the operation based on phonetic symbols (phonemes, phonemes, phonetic symbols, phonetic symbols) by distributing the content information 202 with the above-mentioned changes directly to other terminals or using it in the device. Will be able to.

また、例えばMPEG7では図7のように、「<Pronounse DS>」タグを追加して、コンテンツ種別の音素列を記載したり、背後にある環境音として「Rainsound」が生じていると併記したり、フレーズタグに置ける出演者に関する表記に対して属性として配役名の音素記号列「pronounce=”t/o/m/u”」を加えている。また、HTMLではボタンやリンクに関連付けた構成の実施例を提示しており、任意のタグで挟まれた範囲をキーワードとして検索し、コンテンツの閲覧検索に役立てたり、操作のための発音を音素記号列として提供したりしてもよいし、獲得された音素や音素片といった表音記号列を情報処理装置1における音声合成発話のための発話音素や発話音素片の単語辞書に用いてもよい。   In addition, for example, in MPEG7, as shown in FIG. 7, a “<Pronounse DS>” tag is added to describe a phoneme string of content type, or “Rainsound” is generated as an environmental sound behind. The phonetic symbol string “pronounce =” t / o / m / u ”” is added as an attribute to the notation about the performer that can be placed in the phrase tag. In addition, HTML presents an example of a configuration associated with a button or link, and a range between arbitrary tags is searched as a keyword, which is useful for browsing and searching for content, and pronunciation for operation is a phoneme symbol. It may be provided as a sequence, or a phonetic symbol sequence such as acquired phonemes or phonemes may be used in a word dictionary of speech phonemes or speech phonemes for speech synthesis speech in the information processing apparatus 1.

このように、表音記号付加処理によれば、取得されたコンテンツ情報に基づいて音声操作を行うための表音記号を付加することで表音記号認識に用いる表音記号辞書に組込むための表音記号列情報を含むコンテンツ情報を構成することができる。   Thus, according to the phonetic symbol addition processing, a table for incorporation into the phonetic symbol dictionary used for phonetic symbol recognition by adding a phonetic symbol for performing voice operation based on the acquired content information. Content information including phonetic symbol string information can be configured.

<認識辞書情報更新処理>
次に、コンテンツ情報202に、すでに表音記号が付加されている場合における認識辞書情報更新処理について図8を用いて説明する。図8は、認識辞書情報更新処理に係る動作フローを示した図であり、制御部110が、記憶部120の認識辞書情報更新プログラム210を実行することにより実現される処理である。
<Recognition dictionary information update process>
Next, a recognition dictionary information update process in the case where a phonetic symbol has already been added to the content information 202 will be described with reference to FIG. FIG. 8 is a diagram illustrating an operation flow related to the recognition dictionary information update process, which is a process realized when the control unit 110 executes the recognition dictionary information update program 210 of the storage unit 120.

まず、制御部10は、コンテンツ情報202を取得する(ステップS401)。次に、制御部10は、読み出されたコンテンツ情報202から表音記号列を抽出する(ステップS402)。本実施形態においては、コンテンツ情報202に含まれるタグ(「<」と「>」に挟まれた部分)を抽出することにより、表音記号列が含まれているタグを特定し抽出することとなる。   First, the control unit 10 acquires content information 202 (step S401). Next, the control unit 10 extracts a phonetic symbol string from the read content information 202 (step S402). In the present embodiment, by extracting a tag (a portion sandwiched between “<” and “>”) included in the content information 202, a tag including a phonetic symbol string is specified and extracted. Become.

例えば、制御部10がタイトルタグ「<TITLE>」の「pronounce属性」を抽出することにより、その引数である表音記号として、音素記号列「o/t/o/k/u…」を抽出する。そして、抽出された音素列をページタイトルとして保存するとともに認識辞書情報206に登録する(ステップS403)。   For example, the control unit 10 extracts the “pronounce attribute” of the title tag “<TITLE>” to extract the phoneme symbol string “o / t / o / k / u... To do. Then, the extracted phoneme string is stored as a page title and registered in the recognition dictionary information 206 (step S403).

なお、これらの辞書をページの切替えに応じて変化する表示内容にしたがって切替えることで表示内容に無い単語による誤認識を避けることが可能となり音声認識率の改善を図り操作性を向上させても良いし、コンテンツ情報に任意のタグや文字列を用いて関連付けられた辞書情報のURLなどから必要な音素列を獲得し認識単語や制御方法への関連付けを行う辞書情報を更新しても良い。   In addition, by switching these dictionaries according to the display contents that change according to the page switching, it is possible to avoid erroneous recognition due to words that are not in the display contents, thereby improving the speech recognition rate and improving operability. Then, a necessary phoneme string may be acquired from a URL or the like of dictionary information associated with content information using an arbitrary tag or character string, and dictionary information for associating with a recognized word or control method may be updated.

また、配信されるコンテンツ情報に音素列や音素片列が記載されていなかったり、関連する音素辞書が関連付けられていなかったりした場合、前述の音素列・音素片列を埋め込む手順に従って音素や音素片の記号列をコンテンツ中から構成し、辞書情報を構築しても良く、構成された辞書情報は同一の単語が用いられているか否かを検出することで利用可能であれば再利用しても良い。   In addition, when the phoneme sequence or phoneme sequence is not described in the content information to be distributed or the related phoneme dictionary is not associated, the phoneme or phoneme sequence is performed according to the procedure for embedding the phoneme sequence / phoneme sequence. May be constructed from the content to construct dictionary information, and the constructed dictionary information may be reused if it can be used by detecting whether or not the same word is used. good.

また、制御用認識辞書を構成する場合に音素記号列が変化しない制御命令であれば図9の様に制御命令に関連したIDと命令単語と音素列を関連付けた辞書を用いて制御用の命令単語を特定するIDを命令弁別用IDとして記載したコンテンツ情報の配信や記憶媒体への記録を実施したのち、通信部から受信したコンテンツ情報や記憶媒体から獲得したコンテンツ情報に関連付けられた情報において音素情報や音素片情報を記載する個所に記載された命令弁別用IDから命令用単語を特定し、特定された命令単語から音素や音素片への変換機能を行うことで音素列や音素片列を構成し認識に用いたり、前記制御命令に関連付けられた音素列や音素片列に基づくハッシュ値を命令弁別用IDに用いたりすることで、冗長になりやすい送信時の音素列表現を短縮し通信効率の改善を図っても良い。   If the control command does not change the phoneme symbol string when the control recognition dictionary is configured, the control command using the dictionary in which the ID related to the control command, the command word, and the phoneme sequence are associated as shown in FIG. After the distribution of the content information in which the ID for specifying the word is described as the command discrimination ID and the recording to the storage medium, the phoneme is used in the information associated with the content information received from the communication unit or the content information acquired from the storage medium. The command word is specified from the command discrimination ID described in the location where the information or phoneme information is described, and the phoneme string or phoneme string is converted by performing the conversion function from the specified command word to the phoneme or phoneme. Sounds at the time of transmission that tend to be redundant by configuring and using for recognition, or by using a hash value based on a phoneme sequence or phoneme segment sequence associated with the control command as an instruction discrimination ID To shorten the string representation may be working to improve the communication efficiency.

また、記憶媒体や通信手段を経由して獲得され記憶部に保存されたコンテンツ情報202に関し、表音記号への変換や追加がなされて無い場合は前述の方法で内容の解釈を行い当該情報処理装置1に応じた識別子列による表音記号へ変換し、既にコンテンツ情報202の内容に対して表音記号の記載や変換や更新が既になされている場合はコンテンツ情報202の内容に対する変換や更新をしなくてもよい。   In addition, regarding the content information 202 acquired via the storage medium or the communication means and stored in the storage unit, when the conversion to the phonetic symbol or addition is not performed, the content is interpreted by the above-described method and the information processing is performed. Conversion to a phonetic symbol by an identifier sequence corresponding to the device 1, and if the content of the content information 202 has already been described, converted or updated, the content of the content information 202 is converted or updated. You don't have to.

また、これらの変換はコンテンツ情報配給者や利用者の状況によりサーバ側で変換して配信しても、クライアントで受信したものを適宜変換しても、装置単体で外部の記憶媒体から獲得した情報を自装置で利用可能なように変換しても、ゲートウエイやルータなどの中継手段を用いて変換しても良い。   In addition, these conversions are information obtained from an external storage medium by a single device, whether it is converted and distributed on the server side depending on the situation of the content information distributor or user, even if it is properly converted by the client May be converted so that it can be used by the device itself, or may be converted using relay means such as a gateway or a router.

<音声操作処理>
次に、音声操作処理について、図10を用いて説明する。まず、制御部10は、通信部30又は入出力部40に取得されたコンテンツ情報や、記憶部20に保存されているコンテンツ情報202を取得する(ステップS501)。
<Voice operation processing>
Next, the voice operation process will be described with reference to FIG. First, the control unit 10 acquires content information acquired in the communication unit 30 or the input / output unit 40 and content information 202 stored in the storage unit 20 (step S501).

次に、取得されたコンテンツ情報から、音素や音素片などにより構成された表音記号を抽出する(ステップS502)。そして、抽出された表音記号に基づいて認識辞書情報206を更新登録する(ステップS503)。   Next, phonetic symbols composed of phonemes and phoneme pieces are extracted from the acquired content information (step S502). Then, the recognition dictionary information 206 is updated and registered based on the extracted phonetic symbols (step S503).

次に、利用者からの発話に基づく音声入力が入出力部40からあるまで待機する(ステップS504;No)。ここで、利用者から音声入力がなされると(ステップS504;Yes)、制御部10は入力された利用者の音声の特徴量を抽出する(ステップS505)。そして、抽出された特徴量から音素や音素片といった表音記号を認識し、表音記号に変換する(ステップS506)。   Next, it waits until there is a voice input based on the utterance from the user from the input / output unit 40 (step S504; No). Here, when a voice input is made by the user (step S504; Yes), the control unit 10 extracts a feature amount of the input voice of the user (step S505). Then, phonetic symbols such as phonemes and phoneme segments are recognized from the extracted feature quantities and converted into phonetic symbols (step S506).

そして、ステップS506において変換された表音記号と、先に認識辞書に登録された表音記号とがどの程度一致しているかを判定する一致評価を実行する(ステップS507)。この一致評価は本装置の記憶部に記憶されている音響や音声の標準モデルや標準パラメータや標準テンプレートとの一致度を評価関数によって評価し評価結果としての表音記号を特定する。そして、一致評価に基づいて特定された表音記号を時系列的に複数得ることで表音記号列を特定する。そして、特定された表音記号列に一番類似度の高い表音記号列を表音記号の認識結果とし、認識結果に関連付けられた情報に伴い、装置操作や検索処理を実行する(ステップS508)。   Then, a coincidence evaluation is performed to determine how much the phonetic symbols converted in step S506 match the phonetic symbols previously registered in the recognition dictionary (step S507). In this coincidence evaluation, the degree of coincidence with a standard model, standard parameter, or standard template of sound or speech stored in the storage unit of the present apparatus is evaluated by an evaluation function, and a phonetic symbol as an evaluation result is specified. Then, the phonetic symbol string is specified by obtaining a plurality of phonetic symbols specified based on the coincidence evaluation in time series. Then, the phonetic symbol string having the highest similarity to the identified phonetic symbol string is set as the phonetic symbol recognition result, and device operation and search processing are executed in accordance with the information associated with the recognition result (step S508). ).

ここで、認識結果に伴う処理とは、例えば本発明を用いた表音記号列の認識によって実現される固有名詞を伴う文字列の生成や各動作命令や情報もしくは商品に関する検索の実行や表音記号列の認識に伴い特定された一連の利用者への情報提示や利用者の指示ずる操作等である。具体的には、ウェブブラウザのページ切替えやテレビやビデオの操作、ロボットやナビゲーション装置やコンピュータや映像音響機器もしくは調理器もしくは洗濯機もしくはエアコンといった家電の音声や文字や画像や映像による応答、検索条件の指示、情報処理装置が提示する情報の保存や変更や登録や削除、認識結果に伴う広告や番組内容の指定や閲覧、キーワードや発話特徴による個人認証といった一連の処理や操作である。また、顔や指紋などの画像認識辞書と音素や音素片による表音記号列を用いた固有名詞を伴う認識辞書と話者ごとの音素や音素片に基づく音響モデルとを関連付けることで合言葉による個人認証を行っても良く、認証に伴い課金やサービスの選別を行うことが出来る。   Here, the process associated with the recognition result is, for example, generation of a character string with proper nouns realized by recognition of a phonetic symbol string using the present invention, execution of a search for each operation command, information or product, and phonetic For example, information is presented to a series of users identified in accordance with the recognition of the symbol string, and an operation is instructed by the user. Specifically, web browser page switching, TV and video operations, robots, navigation devices, computers, audiovisual equipment, cooking appliances, washing machines, air conditioners, responses by voice, text, images, and video, search conditions Is a series of processes and operations such as storing, changing, registering and deleting information presented by the information processing apparatus, specifying and browsing advertisements and program contents associated with recognition results, and personal authentication based on keywords and utterance characteristics. In addition, by using an image recognition dictionary such as face or fingerprint, a recognition dictionary with proper nouns using phonetic symbol strings based on phonemes or phonemes, and an acoustic model based on phonemes or phonemes for each speaker, Authentication may be performed, and charging and service selection can be performed along with the authentication.

具体的には、利用者からの質問に答えるための音声合成に先ほどの認識辞書で登録されている音素列や音素片列による単語を発話させることで、認識可能な単語を明示したり、認識結果に応じて任意の操作を実施したり、認識結果に応じて認識された文字列や単語列を提示したり、音素列や音素片列に関連付けられた広告を行ったりすることが、従来の音声認識技術との組合せにより出来るようになる。   Specifically, by recognizing or recognizing a recognizable word by uttering a word with a phoneme sequence or phoneme sequence registered in the recognition dictionary for speech synthesis to answer a user's question. Performing any operation according to the result, presenting the recognized character string or word string according to the recognition result, or performing an advertisement associated with the phoneme string or phoneme string string, It becomes possible by combining with voice recognition technology.

そして、次の音声入力を実施するか否かを判断する(ステップS509)。ここで、再度音声入力がされる場合は(ステップS509;Yes)、音声が入力されることを待機する処理としてステップS504に処理が戻る。また、音声の入力がされない場合(ステップS509;No)、次のコンテンツ情報を獲得するか否かを判断する(ステップS510)。ここで、次のコンテンツ情報を獲得する場合は(ステップS510;Yes)、新たにコンテンツを獲得するためにステップS501から処理を繰り返し実行する。また、新たにコンテンツ情報を獲得しない場合には(ステップS510;No)、処理を終了し利用者の発話を待つといった一連の処理を行う。   Then, it is determined whether or not the next voice input is performed (step S509). If the voice is input again (step S509; Yes), the process returns to step S504 as a process for waiting for the voice to be input. If no voice is input (step S509; No), it is determined whether or not to acquire the next content information (step S510). Here, when acquiring the next content information (step S510; Yes), in order to acquire a new content, a process is repeatedly performed from step S501. If new content information is not acquired (step S510; No), a series of processes such as ending the process and waiting for the user's utterance are performed.

すなわち、本発明を利用する装置は獲得されたマークアップ言語による情報から音素や音素片といった表音記号による識別子や識別子を特定するための特徴量を用いて利用者が音声操作を行える箇所をマークアップ言語情報から獲得するとともに、必要であれば指紋や表情や掌紋などの画像や動作に関連する任意の識別子を獲得し組合せることで個人認証などに利用したり、認識によるエージェントやロボットの対応動作に利用したりすることもできる。   That is, the apparatus using the present invention marks a place where a user can perform a voice operation by using an identifier by a phonetic symbol such as a phoneme and a phoneme from the information in the acquired markup language and a feature amount for specifying the identifier. Acquired from up-language information, and if necessary, it can be used for personal authentication by acquiring and combining images and actions such as fingerprints, facial expressions, palm prints, etc. It can also be used for operation.

そして、利用者の発話や入力により得られた識別子や特徴量によって従来マウス操作で行われる選択処理を実施し、テーブルタグの任意の行や列、リンクや操作ボタンにフォーカスを与えたり、カーソルをオーバラップさせたり、これらの操作に伴うイベントをオペレーティングシステムからブラウザへ発行したり、赤外線やLANや電話回線等といった通信手段を用いて他の装置を制御したり、認識された単語に応じてエージェントやロボット対応動作を変化させたりすることで、音素や音素片と言った表音記号列の認識に伴う一連の処理を実施することができる。   A selection process conventionally performed by mouse operation is performed based on identifiers and feature values obtained by user's utterances and inputs, and focus is given to any row or column, link or operation button of the table tag, or the cursor is moved. Overlapping, issuing events associated with these operations from the operating system to the browser, controlling other devices using communication means such as infrared, LAN and telephone lines, and agents according to recognized words By changing the robot-corresponding operation, a series of processes associated with recognition of phonetic symbol strings such as phonemes and phoneme pieces can be performed.

そして、ステップS501により獲得されたコンテンツ情報は、タグ内の「pronounce」属性情報を検出(ステップS502)し、認識辞書情報206に登録(ステップS503)する。このとき、認識用の表音記号列がどのようなタグと関連付けられているかを同時に登録することで、画面構成情報の表示位置や表示項目を前後のタグとの組合せによってブラウザにおける各タグを処理する際の表示位置を特定したり、MPEG7などにおけるコンテンツ情報中のシーンやタイトルや時系列位置を示すタグとの関連付けによってシーン位置を特定したり、地図情報を表記するXMLなどによって緯度経度による空間位置情報や地名や地域の情報や店舗の情報と関連付けたりすることで物理的な位置を特定したりできるようになる。   The content information acquired in step S501 detects the “pronounce” attribute information in the tag (step S502) and registers it in the recognition dictionary information 206 (step S503). At this time, by registering what kind of tag is associated with the phonetic symbol string for recognition, each tag in the browser is processed by combining the display position and display item of the screen configuration information with the preceding and following tags. Space for latitude / longitude by specifying the display position at the time of mapping, specifying the scene position by associating it with the tag indicating the scene, title and time-series position in the content information in MPEG7, etc. The physical position can be specified by associating it with the position information, the place name, the area information, or the store information.

続けて、図11から図14を用いて音声操作処理の動作例について説明する。利用者が「一行目、起案者」と発音した場合テーブルタグのカラム選択において最上位の行に記載されたテーブルタグのpronounce属性を用いてi/ch/i/gy/o/u/m/eとk/i/a/n/sh/aといった音素列と利用者の発話音素との一致を認識辞書から確定する。この結果、発話の音素列にあった「起案者」列を選択し、行を指定するタグにある「一行目」を選択することで「一行目」の「起案者」が選択される(ステップS506)。   Next, an example of the voice operation process will be described with reference to FIGS. When the user pronounces “first line, drafter” i / ch / i / gy / o / u / m / using the table tag's “pronounce” attribute in the top row in table tag column selection A match between the phoneme sequence such as e and k / i / a / n / sh / a and the user's utterance phoneme is determined from the recognition dictionary. As a result, the “drafter” column in the phoneme column of the utterance is selected, and the “first row” in the tag for designating the row is selected, so that the “first drafter” is selected (step) S506).

また、図11にあるHTMLのそれぞれの送信ボタンに属性として設けられた音素列が検出された場合はフォームタグの指定に従っての送信を行ったり、利用者発話の音素列を認識し「ts/u/g/i/e」との一致度が高ければリンク先へ移動したりすることでウエッブブラウジング処理を行うことが出来る。そして、ページ間の移動の際に「移動しますか?」といった質問を利用者に音声や文字列や画像や映像によって提供する(ステップS506)といった利用者への応対を伴うエージェントやロボットなどの対話処理を行っても良いし、顔や指紋などの画像認識辞書と音素や音素片による表音記号列を用いた固有名詞を伴う認識辞書と話者ごとの音素や音素片に基づく音響モデルとを関連付けることで合言葉による個人認証を行っても良い。   If a phoneme string provided as an attribute for each HTML transmission button shown in FIG. 11 is detected, transmission is performed according to the designation of the form tag, or the phoneme string of the user utterance is recognized and “ts / u If the degree of coincidence with “/ g / i / e” is high, the web browsing process can be performed by moving to the link destination. Then, when moving between pages, an agent such as an agent or a robot that responds to the user such as providing a question such as “Do you want to move?” To the user by voice, character string, image, or video (step S506). Dialogue processing may be performed, image recognition dictionaries such as faces and fingerprints, recognition dictionaries with proper nouns using phonetic symbols and phonemes and acoustic models based on phonemes and phonemes for each speaker It is also possible to perform personal authentication using secret words by associating.

次に、利用者から見た場合のブラウザ画像を提示して説明すると図11をHTMLブラウザで表示した場合、図12のようになる、ここで「イチギョウメ」という発話をすると属性の「i/ch/i/g/y/o/u/m/e」というpronounce属性の音素列にしたがって、図13のように一行目にフォーカスB300が設定され、「ショウサイ」という発音にしたがってpronounce属性の音素列が「sh/o/u/s/a/i」と記載されているボタンB302に対し図14のように選択された後にクリック処理が実施されフォームが送信される(ステップS506)。   Next, when the browser image viewed from the user is presented and explained, when FIG. 11 is displayed with an HTML browser, it becomes as shown in FIG. 12. Here, when the utterance “Ichiyoume” is spoken, the attribute “i / ch” is displayed. The focus B300 is set in the first line as shown in FIG. 13 in accordance with the phoneme string of the “pronounced attribute” / i / g / y / o / u / m / e ”, and the phoneme string of the“ pronounced ”attribute is set in accordance with the pronunciation“ shosai ” Is selected as shown in FIG. 14 for the button B302 in which “sh / o / u / s / a / i” is written, a click process is performed and a form is transmitted (step S506).

この際、詳細ボタンがたくさん表示されると、どのボタンかわからなくなるので「装置側から何行目ですか?」とアナウンスしたり「起案番号は幾つですか?」と利用者に提示した内容から容易に類推できる対象の音素列や音素片列を取得できるように質問したりすることで音声や表示によるインタラクティブな処理を実施しても良いし、それらの発話内容を単語や発話記号列やボイスXMLで提供してもよい。   At this time, if a lot of detailed buttons are displayed, it will not be understood which button, so it will be announced from the contents of the announcement “How many lines are there from the device side” or “How many draft numbers?” Interactive processing by voice or display may be performed by asking questions so that target phoneme sequences or phoneme segment sequences that can be easily analogized can be obtained. It may be provided in XML.

このようなイベントを受け取ったブラウザはそれらのイベントに従って事前に設定されている処理を実施し、例えばHTMLにおける<a>タグであれば、指定のリンク先へアクセスし任意のウエッブページや画像や映像や音楽や商品情報を獲得したり、「<INPUT TYPE="button">」や「<INPUT TYPE="submit">」、「<INPUT TYPE="image">」、「<BUTTON TYPE="〜">」といった操作入力タグであれば該当のボタンや画像が押下された状態へHTML処理を遷移させたり、「<FRAME>」タグであれば、フレームの名称に従ってフレームの選択を行ったり、「<SELECT>」タグであれば、利用者の発話した音素、音素片による発音記号列のあるセレクトタグにフォーカスを移し、オプションタグの中から選択候補を構成し、任意の項目を選択したり、「<HR>」や「<A NAME="">」タグであれば、そのタグに変数や属性として関連付けられた音素や音素片による発音記号列を用いて関連するタグのある目的の行までスクロールしたり、「<TITLE>」タグであればタグで挟まれた範囲を発音記号列に展開するとともに自身のURLと関連付けてブックマークに記憶するといった処理が実施できる(ステップS506)。   A browser that has received such an event performs processing set in advance according to those events. For example, in the case of an <a> tag in HTML, a specified link destination is accessed and an arbitrary web page, image, or video is displayed. , Music and product information, "<INPUT TYPE =" button ">", "<INPUT TYPE =" submit ">", "<INPUT TYPE =" image ">", "<BUTTON TYPE =" ~ If it is an operation input tag such as “>”, the HTML process is shifted to a state where the corresponding button or image is pressed, and if it is a “<FRAME>” tag, a frame is selected according to the name of the frame, or “ If it is a <SELECT> tag, the focus shifts to the select tag with phonetic symbols and phonetic symbol strings generated by the user, configures selection candidates from the option tags, selects any item, If it ’s a “<HR>” or “<A NAME="”>” tag, Scroll to the target line with the related tag using the phonetic symbol string associated with the variable or attribute of the tag as a variable or attribute, or if the tag is a <TITLE> tag, It is possible to execute a process of expanding the phonetic symbol string and storing it in the bookmark in association with its own URL (step S506).

もちろん、これらの表音記号による認識はスクリプトなどと連携してこれらの処理を実施してもよいし、「<EMBED SRC="">」や「<OBJECT>」、「<APPLET CODE="">」などのタグによって任意の拡張機能を追加し、それらのプログラムへの変数や属性として与えたり、それらを外部から操作するための命令や表音記号である音素や音素片や発音記号による識別子列や特徴量に用いたり、スクリプトと連携して利用するための情報に用いたり、スクリプトの制御条件に用いたりしても良い。   Of course, recognition by these phonetic symbols may be performed in cooperation with a script or the like, or "<EMBED SRC =" ">", "<OBJECT>", "<APPLET CODE =" " Add arbitrary extension functions with tags such as ``> '', give them as variables and attributes to those programs, and identifiers by phonemes, phonemes and phonetic symbols that are instructions and phonetic symbols for operating them externally It may be used for columns and feature quantities, for information used in conjunction with scripts, or for script control conditions.

また、例えばXMLやRDFを用いたRSSやMPEG7であれば、図4のようなアイテムセクションを選択対象とするために図5のような変数や属性の追加や図6のようなタグの追加による変更を加える方法をとっても良く、RDFの「Dublin Core」に基づく要素タイプに「pronounce」要素を追加して、音素や音素片によるシーン名や役者、配役名の呼称表記を行ったり、「img-type」や「img-position」要素を追加して画像の表示位置や特徴量を記載したり、「motion」要素を追加して画面内の動作を表記したり、「env- sound」要素を追加して環境音識別子や特徴量を記載したりしても良い。   For example, in the case of RSS or MPEG7 using XML or RDF, in order to select an item section as shown in FIG. 4, addition of variables and attributes as shown in FIG. 5 or addition of tags as shown in FIG. You can use a method of adding changes, adding a “pronounce” element to the element type based on the “Dublin Core” of RDF, and naming the scene names, actors, and cast names with phonemes and phonemes. "type" and "img-position" elements are added to describe the display position and feature amount of the image, "motion" elements are added to describe the operation in the screen, and "env-sound" elements are added Then, environmental sound identifiers and feature quantities may be described.

また、図11では表音文字であるカナ発音のための音節表記用のタグや音素用のタグを示しているが、これらのタグは音素片、入力映像による画像識別子などであってもよく、例えば、利用者の音声や表情から怒っていることが認識された場合や画像内から特定の識別子が検出された場合に処理されるスクリプトや内容の提示、リンク先への移動といった処理を実施してもよい。   Further, FIG. 11 shows a syllable notation tag for phonetic pronunciation that is a phonetic character and a tag for phoneme, but these tags may be phoneme segments, image identifiers by input video, etc. For example, when a user's voice or facial expression is recognized as being angry, or when a specific identifier is detected from within an image, processing such as presentation of a script or content, or movement to a link destination is performed. May be.

そして、これらのタグや属性、要素は一般的に解釈する装置において文字列の一致により評価され、それらの文字列にあわせて情報処理装置内に収録された処理を実施する関数やプロセスやプログラムやサービスにそのタグや属性に基づく情報を提供する。   These tags, attributes, and elements are generally evaluated by matching character strings in a device that interprets them, and functions, processes, programs, etc. that perform processing recorded in the information processing device according to those character strings. Providing services with information based on their tags and attributes.

なお、音素や音素片の認識関数に対しては音素列や音素片列を提供して認識対象辞書に登録したり、他の識別子や特徴量であれば、検出結果としての評価係数を変更したり、周辺機器への指示情報の出力を行ったり、異音同義語を辞書構成により用意したり、異音同義語を辞書登録するために表音記号列を記載する属性に複数の表音記号列を境界記号で弁別できるようにして記載したり、認識によって得られた結果を補正する処理を実施したりしてもよい。   For phoneme and phoneme recognition functions, a phoneme sequence or phoneme sequence is provided and registered in the recognition target dictionary, or if it is another identifier or feature, the evaluation coefficient as a detection result is changed. To output instruction information to peripheral devices, to prepare allophone synonyms with a dictionary structure, and to register a phonetic symbol string to register the allophone synonyms in the dictionary. A column may be described so that it can be discriminated by a boundary symbol, or a process for correcting a result obtained by recognition may be performed.

また、単純に表示する文字列を発音タグで挟んで発音対象として指定して漢字かな混じり文や英文、中文といった他言語の文字列を発音のための表音記号を用いて音素や音素片による記号列に変換して認識や命令制御、検出、検索に利用してもよいし、表音記号をアルファベットにより表記するばかりではなく、アスキーコードやエビセディックコードのような数値に置き換えてマークアップ言語内に記載しても良い。   Also, simply specify a character string to be displayed by placing a character string to be displayed between pronunciation tags, and use a phoneme or phoneme using a phonetic symbol for pronunciation of a character string in another language such as a kanji mixed sentence, an English sentence, or a Chinese sentence. It can be converted into a symbol string and used for recognition, command control, detection, and search. Not only the phonetic symbols are written in alphabets, they are also replaced with numerical values such as ASCII codes and evidic codes. It may be described in the language.

また、このような方法で単語に関連付けられた特徴量や識別子に関連する映像や台詞、画面特徴や表示物体を制御することでCGなどにより映画や番組の生成や製作を行うツールに利用しても良いし、コンテンツ閲覧中の発話状況を認識したり、利用者の音声操作による投票や閲覧回数などによる内容評価を用いたりすることで映画や番組とそれらのシーンなどから得られた特徴量や識別子との相関性に基づいて映画や番組を評価しても良い。   Also, it can be used as a tool for creating and producing movies and programs by CG etc. by controlling video and dialogue related to features and identifiers associated with words in this way, screen features and display objects. It is also possible to recognize the utterance status while browsing the content, use the content evaluation based on the vote by the voice operation of the user and the number of browsing, etc. You may evaluate a movie and a program based on the correlation with an identifier.

<サーバ・クライアントモデル>
なお、上述した仕組みは、マークアップ言語を用いた検索手順をサーバ・クライアントモデルにより実装しても良い。具体的に図15にサーバ・クライアントモデルにおける処理における状態遷移を示す。
<Server / client model>
In the above-described mechanism, a search procedure using a markup language may be implemented by a server / client model. Specifically, FIG. 15 shows a state transition in processing in the server / client model.

まず、クライアントとなる端末装置はクエリを生成する。クエリの生成方法は、一般的な文字列入力による方法であったり、音声入力による方法であったり、画像を示してその特徴量をクエリとする方法であってもよい。   First, a terminal device serving as a client generates a query. The query generation method may be a general method using character string input, a method using voice input, or a method of displaying an image and using the feature amount as a query.

そして、生成されたクエリに基づいてサーバとなる配信装置は適切なものを検索し、検索結果にしたがって配信基地局は端末装置に本発明を用いた検索結果一覧の情報を配信する。そして、端末装置は取得した情報のマークアップ言語を解釈し特定のタグに挟まれている範囲の文字列を音素や音素片などの前述の識別子に変換し、利用者が発話する音声入力情報にしたがって音素や音素片を獲得して音素列や音素片列といった表音記号列を構成し音素列や音素片列に基づくマッチング処理を実施する。   Then, based on the generated query, the distribution device serving as a server searches for an appropriate one, and the distribution base station distributes the search result list information using the present invention to the terminal device according to the search result. Then, the terminal device interprets the markup language of the acquired information, converts the character string in the range sandwiched between specific tags into the above-mentioned identifiers such as phonemes and phonemes, and converts them into voice input information spoken by the user. Therefore, phonemes and phoneme pieces are acquired to form phonetic symbol strings such as phoneme strings and phoneme string strings, and matching processing based on the phoneme strings and phoneme string strings is performed.

そして、一致度の高い操作やキーワード、識別子列にしたがってそれぞれの処理を行ったのちに、指定された識別子列によるクエリを構成するとともに、それらのクエリを配信基地局に送信し検索を実施することで、マークアップ言語を用いた音声制御を伴う検索を実施する。この際、構成されたクエリは装置単体での検索に利用しても良い。   And after performing each process according to operations with high degree of coincidence, keywords, and identifier strings, construct a query with the specified identifier string, and send those queries to the distribution base station to perform a search Then, a search with voice control using a markup language is performed. At this time, the constructed query may be used for a search by a single device.

なお、図16では端末側でのマークアップ言語解釈により音声処理のための音素や音素片などの識別子記号列の挿入や設定を実施しているが、配信側サーバで識別子記号列を挿入したり、事前に手入力により挿入したり、配信基地局側装置やそれらと連携する装置上で識別子を構成し挿入したり、単体の情報処理装置を用いたりすることで本発明を用いた操作や処理を実現するための変数や属性の追加やタグの追加、マークアップ言語情報の内容の変更を行ったり、識別子や特徴量に関連した辞書の変更や追加、削除を行っても良い。   In FIG. 16, the insertion and setting of identifier symbol strings such as phonemes and phonemes for speech processing are performed by the markup language interpretation on the terminal side. Operation and processing using the present invention by manually inserting in advance, constructing and inserting identifiers on distribution base station side devices and devices linked with them, or using a single information processing device It is also possible to add variables and attributes, add tags, change the contents of markup language information, or change, add, or delete dictionaries related to identifiers and feature quantities.

また、本発明により生成された新しい識別子の組合せに関し、任意の名称に基づく単語を与えて検索を実施たり、任意の名称に音素や音素片による記号列を与えて音声制御に対応したり、操作のためのキーワードとして音素や音素片による記号列を与え操作できるようにしたりしても良いし、このような発音記号列を広告に関連付けたり、アドバタイズ属性を追加して関連する広告のURLを発話記号属性と同一タグ内に表記することで広告と発話記号列とを関連付けたりしても良い。   In addition, regarding a new identifier combination generated by the present invention, a search is performed by giving a word based on an arbitrary name, a symbol string using a phoneme or phoneme is given to an arbitrary name, and voice control is performed, For example, a symbol string using phonemes or phonemes may be given as a keyword for the operation, and the phonetic symbol string may be operated by associating with the advertisement, or an advertisement attribute is added to utter the URL of the related advertisement. An advertisement and an utterance symbol string may be associated with each other by describing the symbol attribute in the same tag.

また、ブラウザ内で表示された画像に関する識別子や制御対象となるキーワードの音素や音素片に関して、識別子列や識別子列を圧縮した記号列やIDを用いることで端末に利用しやすく変換して必要な情報を送り、マークアップ言語を解釈せずに装置での音声利用を行うことも容易に考えられ、それらの辞書情報をリモコンや携帯電話において通信回線経由で取り込んだり、メールで獲得したり、他の装置からダウンロードすることで利便性の高い操作環境を構成しても良い。   In addition, identifiers related to images displayed in the browser, and phonemes and phonemes of keywords to be controlled are converted to be easily usable on terminals by using symbol strings and IDs obtained by compressing identifier strings and identifier strings. Sending information and using the voice in the device without interpreting the markup language can be easily considered, such dictionary information can be acquired via a communication line with a remote control or mobile phone, acquired by e-mail, etc. A highly convenient operating environment may be configured by downloading from the above device.

また、ファイル名を音素列で記載することでファイル名に基づいた認識辞書を構成しても良いし、音素列・音素片列によりファイル名を設定して音素・音素片認識でマークアップ言語内の情報を選択できるようにしてもよいし、認識に伴い證券番号や企業名による株価検索やJANコードによる商品検索ばかりではなく商品名や出演者名や会社名や地域名による検索を行い、多様なサービスを実施しても良いし、位置や装置に応じて音素辞書を変更したりページに応じて音素辞書を変更したりコンテンツの画像やページ単位の文章や文章構成におけるフレームや動画像の1コマとしてのフレームや動画像の複数フレームにまたがるシーン単位に応じて音素辞書を変更したりしても良い。   In addition, a recognition dictionary based on the file name may be configured by describing the file name as a phoneme string, or the file name is set by the phoneme string / phoneme string sequence and the phoneme / phoneme segment recognition is used in the markup language. It is possible to select various information, and in addition to the stock price search by coupon number or company name or the product search by JAN code, the search by product name, performer name, company name or region name is also performed. You can change the phoneme dictionary according to the location and device, change the phoneme dictionary according to the page, or change the content image, the text in the page unit, and the frame or moving image 1 The phoneme dictionary may be changed according to scene units that span frames as frames or multiple frames of moving images.

また、図17のようにRIFF形式のようなチャンクヘッダを持つ情報形式に対して本発明による索引付けを行うのであれば、チャンクヘッダとして「PRON」といったタグを任意に設けて音素列や音素片列を表記しても良く、その内容は通常ファイルであればファイル名や製作日時、製作者といった一般的なメタデータを記載したり、2D・3Dの画像であれば表示物体や人物の呼称や部品の呼称に伴う音素・音素片を記載したり、音声ファイルであれば出現音声の音素・音素片を記載したり、音楽ファイルの歌詞やタイトルを音素・音素片で記載しても良いし、自由記載エリアに音素・音素片を記載しても良いし、検索に利用したりしても良い。   In addition, when indexing according to the present invention is performed for an information format having a chunk header such as the RIFF format as shown in FIG. 17, a tag such as “PRON” is arbitrarily provided as a chunk header, and a phoneme string or phoneme segment is provided. Columns may be written, and if the contents are regular files, general metadata such as the file name, production date and time, producers, etc., or 2D / 3D images, the names of display objects and people, You can list the phonemes and phonemes that accompany the name of the parts, if they are audio files, you can list the phonemes and phonemes of the appearing speech, or you can write the lyrics and titles of music files in phonemes and phonemes, Phonemes / phonemes may be written in the free description area, or may be used for searching.

<変形例>
なお、本実施例では表音記号として音素を中心に例を記載しているが、音素部分を音素片に変更したり、音素の種類を国際音素記号や英語、中国語といった異なる言語の音素列に変更したり、認識された画像に基づいた識別子によって丸い画像をコンピュータに提示したのか三角の画像を提示したのかによってマークアップ言語の処理における選択範囲や分岐内容を構成したりしても良いし、提示された写真に基づいて検索を実施したり、写真の特徴量に関連付けられた呼称を音素列や音素片列に展開しマークアップ言語や専用記号列で送受信することで音声による操作を行っても良いし、アスキーコード以外の文字記号化方法であるユニコードやJISコード、ISOコードを用いても良いし、音素や音素片に基づいた任意の数値IDを与えた独自文字コード体系を用いても良い。
<Modification>
In this embodiment, the phoneme is mainly used as a phonetic symbol. However, the phoneme portion is changed to a phoneme segment, or the phoneme sequence is a phoneme string of different languages such as an international phoneme symbol, English, or Chinese. Or a selection range or branch content in markup language processing may be configured depending on whether a round image is presented to a computer or a triangular image by an identifier based on the recognized image. , Search based on the presented photos, or perform voice operations by expanding the names associated with the feature quantities of the photos into phoneme strings and phoneme strings and sending and receiving them in markup language and dedicated symbol strings Alternatively, Unicode, JIS code, or ISO code, which is a character encoding method other than ASCII code, may be used, and an arbitrary numerical ID based on phonemes or phonemes is given. And it may be used a unique character code system.

また、本発明に用いられる識別子列や識別子は音階種別、楽器種別、機械音種別、環境音種別、画像種別、顔種別、表情種別、人物種別、動作種別、風景種別、表示位置種別、文字記号種別、標識種別、形状種別、図形記号種別、放送番組種別といった識別子を一つあるいは複数の組合せによりそれら識別に用いる呼称に基づいて属性や変数名、識別子を指定してもよいし、識別子列は識別子が時系列遷移に応じて連続的に記載されたものとして捕らえても良いし、それらの呼称に基づいて音素や音素片列に変換して利用しても良いし、CGIにおけるGETメソッドやPOSTメソッドを用いてそれらの識別子や識別子列を送信して検索結果を得ても良い。   Further, the identifier string and identifier used in the present invention are scale type, instrument type, mechanical sound type, environmental sound type, image type, face type, facial expression type, person type, action type, landscape type, display position type, character symbol An attribute, a variable name, or an identifier may be designated based on a designation used for identification by one or a plurality of identifiers such as a classification, a label classification, a shape classification, a graphic symbol classification, and a broadcast program classification. The identifiers may be captured as continuously described according to time series transitions, converted into phonemes or phoneme strings based on their names, or used in GET methods or POST in CGI. A search result may be obtained by transmitting those identifiers and identifier strings using a method.

このように、音声に関する特徴量の呼称とそれらの識別子と識別関数、静止画像や動画像に関する特徴の呼称と識別子と識別関数によってマークアップ言語に属性と変数を与えることで音声により操作可能なマークアップ言語を構成できるとともに、このようなマークアップ言語を処理する情報処理装置が提供する表音記号列によって利用者が音声による装置制御を実現できるためコンテンツの検索ばかりではなく公共情報、地図情報、商品販売、予約状況、視聴状況、アンケート、監視カメラ映像、衛星写真、ブログ、ロボットや機器の制御などに応用することが出来る。なお、これらの要求に対して任意のマークアップ言語を用いて検索や処理結果をサーバからクライアントに返信してもよい。   In this way, the feature names related to speech and their identifiers and identification functions, the feature names and identifiers and identification functions related to still images and moving images, and the mark and language that can be operated by speech by giving attributes and variables to the markup language In addition to searching for content, public information, map information, and the like, the user can realize device control by voice using a phonetic symbol string provided by an information processing device that processes such a markup language. It can be applied to merchandise sales, reservation status, viewing status, questionnaires, surveillance camera images, satellite photos, blogs, robots and equipment control. Note that the search and processing results may be returned from the server to the client using any markup language in response to these requests.

<端末及び基地局に用いる情報処理装置の手順例>
また、本発明は基地局と端末に関わるサーバ・クライアントによる処理システムについても適用可能である。本装置と端末は図18のように構成され、通信回線を経由して接続し、他の装置から情報を取得したり、他の装置に情報を配信したりすることで、音声操作に関する情報を交換可能とし、利用者の利便性を改善する。なお、ここで用いる共有回線はインターネットばかりではなくLANや電話回線などの広域通信網や屋内通信網であれば有線無線を問わずに用いても良く、対象となる装置は家電やリモコン、ロボット、携帯電話、通信基地局であっても良く、ウェブサービス、電話サービス、EPG配信などのサービスであっても良く、任意の装置やサービスに対して実施できる。
<Procedure example of information processing apparatus used for terminal and base station>
The present invention is also applicable to a processing system using a server and a client related to a base station and a terminal. This device and the terminal are configured as shown in FIG. 18, and are connected via a communication line to acquire information from other devices and distribute information to other devices, so that information related to voice operations can be obtained. It can be exchanged to improve user convenience. The shared line used here is not limited to the Internet but may be used regardless of wired wireless as long as it is a wide area communication network such as a LAN or a telephone line or an indoor communication network, and the target devices are home appliances, remote controllers, robots, It may be a mobile phone or a communication base station, or may be a service such as a web service, a telephone service, or an EPG distribution, and can be implemented for any device or service.

また、利用者端末と配信基地局と端末や基地局に制御されるロボットなどの装置や制御するリモコンにより構成され、リモコンやロボットは端末の一形態や基地局の一形態として利用されても良く、利用者は端末に対して音声を発話し、端末若しくは基地局で認識処理のために以下にあるような任意の処理手順を実施する。   Further, it is configured by a user terminal, a distribution base station, a device such as a robot controlled by the terminal or the base station, and a remote controller to be controlled, and the remote control and the robot may be used as one form of the terminal or one form of the base station. The user speaks voice to the terminal, and performs an arbitrary processing procedure as described below for recognition processing at the terminal or the base station.

第1の方法では、発話により得られた音声や撮像された映像から特徴量抽出を実施し、特徴量を対象となる中継個所や基地局装置に送信し、特徴量を受信した基地局装置はその特徴量に応じて音素記号列・音素片記号列やその他画像識別子を生成する。そして、生成された記号列に基づいて、一致する制御手段を選択し実施する。   In the first method, a feature amount is extracted from voice obtained by speech or a captured image, the feature amount is transmitted to a target relay location or base station device, and the base station device that has received the feature amount A phoneme symbol string / phoneme symbol string and other image identifiers are generated according to the feature amount. Then, based on the generated symbol string, a matching control means is selected and executed.

第2の方法は、発話により得られた音声や撮像された映像から特徴量抽出を実施し、端末内で音素記号列・音素片記号列、その他画像識別子といった認識に伴う識別子を生成し、生成された記号列を対象となる中継個所や基地局装置に送信する。そして、制御される基地局装置は受信した記号列に基づき一致する制御手段を選択し実施する。   In the second method, feature amounts are extracted from speech obtained by utterance or captured video, and identifiers associated with recognition such as phoneme symbol strings / phoneme symbol strings and other image identifiers are generated in the terminal. The received symbol string is transmitted to the target relay location or base station apparatus. Then, the base station apparatus to be controlled selects and executes a matching control means based on the received symbol string.

第3の方法は、発話により得られた音声や撮像された映像から特徴量抽出を実施し、端末内で生成された特徴量に基づき音素列・音素片記号列、その他画像識別子を認識し、認識された記号列に基づき制御内容を選択し、制御方法を制御する基地局装置や情報配信を中継する装置に対し送信する。   The third method performs feature amount extraction from voice obtained by speech or captured video, recognizes phoneme strings / phoneme symbol strings, and other image identifiers based on the feature amounts generated in the terminal, The control content is selected based on the recognized symbol string, and transmitted to the base station device that controls the control method and the device that relays information distribution.

そして、第4の方法は端末を用いて発話により得られた音声や撮像された映像の音声波形や画像をそのまま制御する基地局装置に送信し、制御する装置内で音素記号列・音素片記号列、その他画像識別子を認識し、認識された記号列に基づいて制御手段を選択し、選択された制御を制御される中継個所や基地局装置が実施するというものである。同様に環境音など音や映像の特徴や識別子についても同様である。   And the 4th method transmits to the base station apparatus which controls the voice waveform and image of the audio | voice obtained by utterance using the terminal, and the imaged image | video as it is, and phoneme symbol string and phoneme symbol in the apparatus to control The system recognizes the sequence and other image identifiers, selects the control means based on the recognized symbol sequence, and the selected relay station or base station apparatus performs the selected control. The same applies to sound and video features and identifiers such as environmental sounds.

この際、端末から単純に波形のみを送信したり、特徴量を送信したり、認識された識別子列を送信したり、識別子列に関連付けられた命令やメッセージなどの処理手順を送信しても良く、それらの送信情報にあわせて配信基地局の構成を変更してクライアントサーバモデルを実施しても良く、送信側と受信側が相互に送受信することも可能であり、前述される識別子に関連する画像や音声や動作などの特徴量をマークアップ言語の属性に与えて、利用者側から提供される情報から抽出される特徴量と配信情報から抽出される特徴量との一致度を評価し、検索や認識を行うことで任意の制御や利用者への応対を伴う情報処理を実現しても良いし、顔や指紋などの画像認識辞書と音素や音素片による表音記号列を用いた固有名詞を伴う認識辞書と話者ごとの音素や音素片に基づく音響モデルとを関連付けることで合言葉による個人認証を行っても良い。   At this time, the terminal may simply transmit only a waveform, transmit a feature amount, transmit a recognized identifier string, or transmit a processing procedure such as a command or a message associated with the identifier string. The client server model may be implemented by changing the configuration of the distribution base station according to the transmission information, and the transmission side and the reception side can transmit and receive each other, and the image related to the identifier described above Features such as voice, voice, and motion are assigned to markup language attributes, and the degree of coincidence between the feature amount extracted from the information provided by the user and the feature amount extracted from the distribution information is evaluated and searched Information processing with arbitrary control and user interaction may be realized by performing recognition, or proper nouns using image recognition dictionaries such as faces and fingerprints and phonetic symbol strings made up of phonemes and phonemes Recognition dictionary with It may be subjected to a personal authentication by the slogan by associating an acoustic model based on the phoneme or phoneme of each finisher.

また、入力された音素列や音素片列に基づいて関連付けられた処理手順へ変換する命令辞書は、端末側にあっても配信基地局側にあってもよく、新しい制御命令やメディア種別、フォーマット種別、装置名に関する音素記号列や画像識別子といった記号列を、XMLやHTMLのような後述されるマークアップ言語やRSS、CGIを用いて情報の送受信や配信や交換を行っても良い。   In addition, the command dictionary for converting to an associated processing procedure based on the input phoneme sequence or phoneme segment sequence may be on the terminal side or the distribution base station side, and a new control command, media type, format A symbol string such as a phoneme symbol string and an image identifier relating to the type and the device name may be transmitted / received, distributed, or exchanged using a markup language such as XML or HTML, RSS, or CGI, which will be described later.

より具体的な辞書情報の配信や交換の手順について説明する。まず、特徴量や識別子を抽出したり、評価関数を構成したりすることで、任意の赤外線や無線LAN、電話回線や有線LAN等を問わず通信回線に接続された環境で他の端末や装置類との情報交換を行う。   A more specific procedure for distributing and exchanging dictionary information will be described. First, by extracting feature quantities and identifiers, or configuring evaluation functions, other terminals and devices in an environment connected to a communication line regardless of any infrared, wireless LAN, telephone line, wired LAN, etc. Exchange information with other classes.

次に、端末側の処理として音素片を用いた場合を例に説明すると、利用者は発話を伴って音声波形を端末と装置に与える。端末側装置は与えられた音声を分析し特徴量に変換する。次に変換された特徴量をHMMやベイズといった各種認識技術により認識し識別子に変換する。   Next, a case where a phoneme piece is used as processing on the terminal side will be described as an example. The terminal side device analyzes the given voice and converts it into a feature value. Next, the converted feature amount is recognized by various recognition technologies such as HMM and Bayes and converted into an identifier.

この際、変換された識別子は音素や音素片、各種画像識別子を示す情報となるが、他にも別記されるように音声であれば音素や環境音や音階であったり、画像であれば画像や動作に基づいた識別子であったりしてもよい。そして、得られた識別子に基づいて音素、音素片記号列による辞書をDPマッチングにより参照して任意の処理手順を選択し、選択された処理手順を対象となる装置に送信し制御を実施することで、本発明を利用して携帯端末をリモコンとして用いたり、ロボットによる家電制御を実施したりすることが可能であり、通信先にいる相手との円滑なコミュニケーションを実施するための発話音表記の表示や点字出力部を設けて障害者との対話装置なども構成しても良い。   At this time, the converted identifier is information indicating a phoneme, a phoneme piece, and various image identifiers. However, as described elsewhere, if it is a voice, it is a phoneme, an environmental sound, a scale, or an image if it is an image. Or an identifier based on the operation. Then, based on the obtained identifier, a dictionary based on phonemes and phoneme symbol strings is referred to by DP matching to select an arbitrary processing procedure, and the selected processing procedure is transmitted to the target device for control. Thus, it is possible to use the mobile terminal as a remote control using the present invention, or to control home appliances by robots, and the utterance sound notation for smooth communication with the other party at the communication destination An interactive device with a disabled person may be configured by providing a display and a Braille output unit.

このような手順で処理された情報は端末側のCPU性能によって、動画や音声といった自然情報から特徴量への変換をせずに元の情報のまま送信したり、特徴量への変換で留めて送信したり、識別子への変換で留めて送信したり、制御情報の選択まで行ってから送信したり、任意の変換水準を選択することができ、受信側は任意の状態から情報に基づいて処理可能な受信側装置として構成され、獲得した情報に基づき配信局や制御装置に送信したり、獲得した情報に基づいて検索や記録、メール配信、機械制御、装置制御といった任意の処理を実施しても良い。   Depending on the CPU performance of the terminal, the information processed in such a procedure can be transmitted as it is without converting natural information such as video and audio into feature values, or can be converted into feature values. It can be sent, sent after being converted into an identifier, sent after the control information is selected, can be selected, and any conversion level can be selected, and the receiving side can process based on information from any state It is configured as a possible receiving side device, and it transmits to the distribution station and control device based on the acquired information, or performs arbitrary processing such as search, recording, mail distribution, machine control, device control based on the acquired information Also good.

そして、検索処理に用いるために、適宜クエリとなる識別子列や文字列、特徴量を認識により獲得し、配信側基地局に送信し、そのクエリに従った情報を入手する。この際、通信の待ち時間や検索の待ち時間に宣伝や広告を表示しても良く、音声による制御を行う際は通信により制御項目の選択が出来るようにするために制御辞書を構成し相互に辞書情報の交換・獲得を行い、その手順はP2P技術を利用して行っても良いし、それらの情報を販売、配布しても良い。   Then, for use in search processing, an identifier string, a character string, and a feature amount that are appropriately used as a query are acquired by recognition, and are transmitted to the distribution-side base station to obtain information according to the query. At this time, advertisements and advertisements may be displayed during the communication waiting time and the search waiting time, and when performing control by voice, a control dictionary is constructed so that control items can be selected by communication. The dictionary information is exchanged / acquired, and the procedure may be performed using the P2P technology, or the information may be sold and distributed.

また、この制御命令辞書は音素や音素片といった前述されるような任意の識別子や特徴量と装置制御情報で構成することにより自由に内容を更新して再利用できるようにすることが可能であり、任意の識別子と特徴量を関連付けた検索のための辞書情報を入れ替えたり再構成したりすることで、流行の検索キーワードを更新出来るようにしてもよいし、これらのコンテンツ情報の位置や構成に応じて変更される認識辞書情報は顔認識するための辞書や指紋認識するための辞書や文字認識するための辞書や図形認識するための辞書であってもよい。   In addition, this control command dictionary can be freely renewed and reused by configuring it with arbitrary identifiers such as phonemes and phonemes as described above, feature quantities, and device control information. It may be possible to update trendy search keywords by replacing or reconfiguring dictionary information for search that associates arbitrary identifiers with feature amounts, and the position and configuration of these content information The recognition dictionary information changed accordingly may be a dictionary for face recognition, a dictionary for fingerprint recognition, a dictionary for character recognition, or a dictionary for figure recognition.

なお、制御命令辞書は従来の赤外線リモコンで制御できる製品に送信するための赤外線制御情報が装置制御情報として選択されたり、それらの制御情報の組合せにより一連の作業をバッチ処理のように連続的に実施したり、装置のCPU性能に応じて識別子を認識せずに特徴量情報のみを音声対制御応情報処理装置に送信するようにしてもよい。   In the control command dictionary, infrared control information to be transmitted to a product that can be controlled by a conventional infrared remote controller is selected as device control information, or a series of operations are continuously performed as a batch process by combining those control information. It may be implemented or only the feature amount information may be transmitted to the speech-controlling information processing apparatus without recognizing the identifier according to the CPU performance of the apparatus.

このような方法で音声制御が出来ない従来装置に対しても赤外線リモコンによる制御を組合せることで音声情報から変換辞書経由で赤外線リモコンの信号を提供したり、音声制御の可能な装置であれば、特徴量や音声波形に基づいて命令を認識し制御したりすることが出来るとともに、性能改善に伴う制御用辞書の変更を実施することや、制御用辞書のバージョン情報と確認するといったことや、装置の状態がどのようになっているかを確認することができる。   Any device capable of providing an infrared remote control signal from a voice information via a conversion dictionary by combining control by an infrared remote controller even with a conventional device that cannot perform voice control by such a method, or a device capable of voice control. In addition to being able to recognize and control commands based on feature quantities and speech waveforms, changing the control dictionary to improve performance, checking with version information of the control dictionary, It is possible to confirm the state of the device.

また、このような方法でサーバ・クライアントモデルを導入し、任意の処理ステップでサーバとクライアントに分割して通信で結びサーバ・クライアント間で任意の情報を交換することにより同等のサービスやインフラ、検索、索引付けを実現することができる。   In addition, by introducing the server / client model in this way, the server and the client can be divided into arbitrary processing steps, connected by communication, and exchanged arbitrary information between the server and client. Indexing can be realized.

また、顔や指紋や音声特徴の認識による個人認証を併せて行うために、音素認識辞書情報に個人の音声特性に合わせた音響モデルや標準パラメータや標準テンプレートを用いた音素認識辞書を利用することで、画像や音声を伴う認識辞書を利用者に応じて変更可能し、汎用性の高い個人認証を実現すること可能となる。したがって、課金を行ったり、鍵の施錠や開錠を行ったり、サービスを選択したり、利用の許諾を行ったり、著作物の利用を行ったりといった各種操作や操作を用いるサービスが本発明を用いて認識を行う情報端末を利用して実現できる。   Also, in order to perform personal authentication by recognizing faces, fingerprints, and voice features, use a phoneme recognition dictionary that uses acoustic models, standard parameters, and standard templates that match the phonetic recognition dictionary information. Therefore, the recognition dictionary with images and sounds can be changed according to the user, and highly versatile personal authentication can be realized. Therefore, a service using various operations and operations such as charging, locking and unlocking keys, selecting a service, granting use, and using a copyrighted work uses the present invention. This can be realized by using an information terminal that performs recognition.

また、本発明を用いて認識を行う端末を利用して、通信先にある基幹サーバからDVDレコーダやネットワークTV、STB、HDDレコーダ、音楽録再装置、映像録再装置といったクライアント端末によって獲得された情報を赤外線通信やFMやVHF周波数帯域通信、802.11b、ブルートゥース(登録商標)、ZigBee、WiFi、WiMAX、UWB、WUSB(Ultra Wide Band)などの無線通信を経由して携帯端末や携帯電話に情報を提供することでEPGやBML、RSS、文字放送によるデータ放送やテレビ映像、文字放送を携帯端末や携帯電話で利用できるようにしたり、音声入力や文字列入力、携帯端末や携帯電話を振り動かす操作により情報端末や家電や情報機器やロボットの操作や制御手順の指示を行ったり、携帯端末や携帯電話を一般的なリモコンとしてクライアント端末から家電や情報機器やロボットの操作や制御手順の指示を行ったりといった遠隔操作を行っても良い。   In addition, using a terminal that performs recognition using the present invention, it is acquired by a client terminal such as a DVD recorder, a network TV, an STB, an HDD recorder, a music recording / playback apparatus, or a video recording / playback apparatus from a core server at a communication destination. Information is transferred to mobile terminals and mobile phones via wireless communication such as infrared communication, FM, VHF frequency band communication, 802.11b, Bluetooth (registered trademark), ZigBee, WiFi, WiMAX, UWB, WUSB (Ultra Wide Band), etc. By providing information, it is possible to use EPG, BML, RSS, teletext data broadcasting, TV video, teletext on mobile terminals and mobile phones, voice input, character string input, swing mobile terminals and mobile phones. The operation of the information terminals, home appliances, information devices, robots, and instructions for control procedures are performed by moving the Terminal or a mobile phone may be subjected to remote operations such as and go an indication of the general consumer electronics as a remote control from the client terminal and information equipment and operation of the robot and control procedures.

また、マークアップ言語により構成された情報におけるHTMLのFORMタグといった入力項目に関連付けられて抽出された属性に基づいた音素辞書が認識辞書情報206に事前に登録されている場合、認識の優先順位を事前に登録された音素辞書に変更しても良いし事前に登録された辞書を用いて認識対象を限定しても良い。   In addition, when a phoneme dictionary based on an attribute extracted in association with an input item such as an HTML FORM tag in information configured in a markup language is registered in the recognition dictionary information 206 in advance, the recognition priority is set. It may be changed to a phoneme dictionary registered in advance, or a recognition target may be limited using a dictionary registered in advance.

また、マークアップ言語により構成された情報の属性変数に基づいた音素列や音素片列といった表音記号列に関し、同時に認識される可能性のある音素列や音素片列表音記号列を複数併記することで認識辞書情報206を複数で構成し、同一の属性変数を持つ入力項目に関して同一の認識辞書情報206を利用するように構成しても良い。   Also, for phonetic symbol strings such as phoneme strings and phoneme string strings based on attribute variables of information configured in markup language, a plurality of phoneme strings and phoneme string phonetic symbol strings that may be recognized simultaneously are written together. Thus, a plurality of recognition dictionary information 206 may be configured, and the same recognition dictionary information 206 may be used for input items having the same attribute variable.

また、属性変数に音素列や音素片列や表音記号列を複数用いて認識される可能性のある単語を複数表記しても良く例えば任意の単位といった助数詞が音素列や音素片列や表音記号列として表記されている場合、認識辞書情報206を数詞専用に切替えたり、メニュー項目に応じた専用辞書に切替えたり、地名や駅名といった限定的固有名詞辞書に切替えたりするといった方法を用いても良い。   In addition, a plurality of words that may be recognized using a plurality of phoneme strings, phoneme string strings, and phonetic symbol strings may be described as attribute variables. For example, a classifier such as an arbitrary unit may be represented as a phoneme string, phoneme string string, or table. When it is expressed as a phonetic symbol string, the recognition dictionary information 206 is switched to a number only, switched to a dedicated dictionary according to a menu item, or switched to a limited proper noun dictionary such as a place name or a station name. Also good.

また、マークアップ言語に基づく表示に用いるべく選択された文字コードに応じて、音声波形から音素や音素片といった表音記号による識別子へ変換を行うステップ(S506)に用いられるベイズ識別関数やHMMに用いる標準パターンや標準テンプレートといった学習結果として得られる値や固有値・固有ベクトルによる値や共分散行列による値を言語ごとに複数用意し、表示がロシア語ならロシア語標準テンプレート、表示が中国語なら中国語語標準テンプレート、と切替えることにより多言語に対応しても良いし、利用者の情報処理装置もしくはオペレーティングシステムもしくはブラウザ固有の言語環境に関する情報を取得することにより認識に用いる標準テンプレートを多言語から選択しても良い。   Further, according to the character code selected to be used for the display based on the markup language, the Bayes discriminant function or HMM used in the step (S506) of converting the speech waveform into an identifier by phonetic symbols such as phonemes and phonemes. Prepare multiple values for each language, such as the standard pattern to be used and the standard template, the values obtained as learning results, the values by eigenvalues / eigenvectors, and the values by covariance matrix. It is possible to support multiple languages by switching to a word standard template, or select a standard template to be used for recognition by acquiring information about the user's information processing device, operating system, or browser-specific language environment from multiple languages You may do it.

また、利用者の指定により、例えばロシア語話者が中国語を発話した場合の標準テンプレートといった利用者の母国語・母語と利用する装置環境で認識される言語との違いで生じる訛りや方言に対応するように標準テンプレートを選択出来るようにシステムを構成しても良く、利用者の発話から訛りや方言などを学習しテンプレートを構成できるようにしてもよい。   In addition, according to the user's designation, for example, the utterances and dialects that arise due to the difference between the user's native language and native language and the language recognized in the device environment used, such as a standard template when a Russian speaker speaks Chinese The system may be configured so that a standard template can be selected so as to correspond, or the template may be configured by learning the utterance and dialect from the user's utterance.

また、属性変数に応じてクッキーやセッションの内容を音素や音素片による表音記号列に変換して認識辞書情報206を切替えるといった方法を用いても良いし、音声から認識された音素列や音素片列といった表音記号列や音声から抽出された特徴量をAJAXといったスクリプトを用いる手法やCGI(Common Gateway Interface)のパラメータとしてステータスや環境変数を伝達する手法やプログラムによるソケット通信といった任意の変数伝達手段によって基地局に送信し、基地局側で受信した音素や音素片からなる表音記号列や基地局側で受信した音声特徴量に基づき認識された音素列や音素片列といった表音記号列を用いて利用者の発話を弁別し任意の処理を行ったり、検索条件を構成してコンテンツ情報や広告情報や地域情報の検索処理を行ったりしてもよい。   Alternatively, a method may be used in which the content of the cookie or session is converted into a phonetic symbol string using phonemes or phoneme pieces according to the attribute variable and the recognition dictionary information 206 is switched, or a phoneme string or phoneme recognized from speech is used. Arbitrary variable transmission such as a method that uses a script such as AJAX, a feature value extracted from a phonetic symbol string such as a single row, a script, a CGI (Common Gateway Interface) parameter, or a socket communication by a program A phonetic symbol string such as a phoneme string or phoneme string recognized based on a voice feature received by the base station or a phonetic symbol string made up of phonemes or phonemes received by the base station The user's utterances are discriminated by using, and arbitrary processing is performed, or search processing of content information, advertisement information, and regional information by configuring search conditions It may be carried out or.

そして、それらの表音記号列の認識処理に伴って変化する端末装置の絵、文字、アイコン、CG(Computer Graphics)をはじめとした表示情報もしくは音楽、警告音をはじめとした出力音情報もしくはロボット、機械装置、通信装置、電子機器、電子楽器をはじめとした装置類の動作制御情報もしくは音声や静止画像や動画像などを認識するための認識辞書情報206もしくは映像や音声や画像から特徴抽出するためのプログラム、スクリプト、関数式などの処理手順情報といった任意の情報を組合せてそれらを更新するための情報送信を基地局から行ったり、端末装置内で自律的に任意の処理を実施したりしてもよい。   And display information or music including terminal picture, character, icon, CG (Computer Graphics) or output sound information such as warning sound or robot that changes in accordance with the recognition process of these phonetic symbol strings Feature extraction from motion control information of devices such as mechanical devices, communication devices, electronic devices, electronic musical instruments, recognition dictionary information 206 for recognizing audio, still images, moving images, etc., or video, audio, images For example, a base station can send information for combining and updating arbitrary information such as processing procedure information such as a program, a script, and a function expression, or perform arbitrary processing in a terminal device. May be.

また、認識結果として取得された音素や音素片と言った表音記号に関して複数のフレームに分割され時系列的に連続した認識結果を得る場合において、複数フレームにまたがる複数の音素や音素片に対する認識結果として獲得された入力音声と音素や音素片といった表音記号との距離情報などを特徴量として利用しベイズ識別関数のパラメータを構成したり、時系列的に縮退させるために複数のフレームにまたがる複数の音素や音素片に対する認識結果として獲得された距離情報を用いてHMMのパラメータを構成したり、複数フレームにおける認識結果によって第一位と評価された識別子をDP等で評価したりすることで従来の音声認識に用いられた技術と組合せて動的な音声認識を構成したりしても良い。   In addition, when phonetic symbols such as phonemes and phonemes obtained as recognition results are divided into a plurality of frames to obtain recognition results that are continuous in time series, recognition for a plurality of phonemes and phonemes across multiple frames is performed. The distance between the input speech acquired as a result and phonetic symbols such as phonemes and phonemes is used as a feature value to configure the parameters of the Bayes discriminant function, or to span multiple frames to degenerate in time series By configuring the parameters of the HMM using distance information acquired as a recognition result for a plurality of phonemes and phonemes, or by evaluating an identifier evaluated as the first place by a recognition result in a plurality of frames by DP or the like Dynamic speech recognition may be configured in combination with the technology used for conventional speech recognition.

より具体的には、まず、コンテンツ情報を取得するステップ(S401、S501)によってマークアップ言語情報を獲得し、マークアップ言語情報からタグを検出しタグからタグ属性を検出するタグ属性検出手段とあわせて検出された属性に関連付けられる表音記号列を抽出する表音記号列抽出ステップ(S402、S502)を実施し認識に用いる表音記号列として認識辞書情報206へ登録するステップ(S403、S503)を実施する。これらのステップ(S401からS403、S501からS503)は文字列の評価処理や検出処理により製作できるが従来の音声認識システムや音素認識による検索や音素列認識によるWEBブラウザやインターネット環境で行われる操作や検索やコンテンツ情報の閲覧において用いられてはいない。   More specifically, first, markup language information is acquired in steps (S401 and S501) of acquiring content information, and tag attribute detection means for detecting a tag from the markup language information and detecting a tag attribute from the tag is combined. A step of extracting a phonetic symbol string (S402, S502) for extracting a phonetic symbol string associated with the detected attribute and registering it in the recognition dictionary information 206 as a phonetic symbol string used for recognition (S403, S503) To implement. These steps (S401 to S403, S501 to S503) can be produced by character string evaluation processing and detection processing, but operations performed in a conventional speech recognition system, a search by phoneme recognition, a WEB browser by phoneme sequence recognition, and the Internet environment It is not used for searching or browsing content information.

次に、話者の音声入力を待つステップ(S504)を実施し、音声入力の開始に従って演算部で実施される特徴量の抽出を行うステップ(S505)を実施し、音素認識及び/又は音素片認識をはじめとする表音記号認識プログラムに基づいて表音記号の認識による特徴量から識別子への変換を行うステップ(S506)が実施される。このステップ(S506)は距離評価関数や統計的検定手法を用いたり、多変量解析を利用した学習結果を用いたり、HMMのようなアルゴリズムを用いたりすることが一般的に知られている。そして、認識された表音記号に基づいた時系列的な連続により表音記号列が構成される。   Next, the step of waiting for the speaker's voice input (S504) is performed, and the step of extracting the feature amount performed by the calculation unit according to the start of the voice input (S505) is performed, and phoneme recognition and / or phoneme pieces are performed. Based on the phonetic symbol recognition program including recognition, a step (S506) of converting the feature value into the identifier by recognition of the phonetic symbol is performed. It is generally known that this step (S506) uses a distance evaluation function or a statistical test method, uses a learning result using multivariate analysis, or uses an algorithm such as HMM. A phonetic symbol string is formed by time-series continuation based on the recognized phonetic symbols.

次に、構成された前記表音記号列とマークアップ言語のタグに付随した属性から抽出された表音記号列による認識辞書情報206とを比較し認識辞書情報206内を検索することにより、表音記号列同士の一致度合を評価するステップ(S507)を実施し、認識対象として妥当であるか否かを評価する。この認識対象であるか否かを判断するための比較はDPやHMMやオートマトンといった記号列比較評価に利用可能なアルゴリズムを任意に用いてもよいし、それらを多重化して階層化処理による認識を実現してもよく従来から多様な方法が発明・考案されている。   Next, the phonetic symbol string is compared with the recognition dictionary information 206 based on the phonetic symbol string extracted from the attribute attached to the tag of the markup language, and the recognition dictionary information 206 is searched, thereby comparing the phonetic symbol string. A step (S507) of evaluating the degree of coincidence between the phonetic symbol strings is performed, and it is evaluated whether or not it is appropriate as a recognition target. For the comparison to determine whether or not it is a recognition target, an algorithm that can be used for symbol string comparison and evaluation such as DP, HMM, and automaton may be arbitrarily used. Various methods have been invented and devised from the past.

この結果として認識辞書情報206から特定された表音記号列に関連付けられる文字列やIDといった識別情報に基づいて、文字列を表示したり、任意の処理を実行に移したり、情報を交換したり、イベントを発生させたり、ステータスを変化させたり、任意の動作を機械装置に行わせたりすることで、表音記号を用いた認識処理が実現され任意の処理を実行するステップ(S508)が実施されることにより、従来の文法依存や静的な登録単語依存とは異なる音声を用いた情報処理が実現可能となる。   As a result, on the basis of identification information such as a character string or ID associated with the phonetic symbol string specified from the recognition dictionary information 206, a character string is displayed, an arbitrary process is performed, information is exchanged, etc. The recognition process using the phonetic symbols is realized by generating an event, changing the status, or causing the machine device to perform an arbitrary operation, and executing the arbitrary process (S508). As a result, information processing using speech different from conventional grammar dependency and static registered word dependency can be realized.

この際、前記表音記号列による認識辞書情報206を複数持つとともに前記タグ属性検出手段により検出された入力項目を弁別するための種類情報に基づいて表音記号列との一致を評価するステップ(S507)で用いる認識辞書情報206を切替ながら認識対象となる入力項目の属性に応じて選択される認識辞書情報206に登録された表音記号列と音声波形から獲得された表音記号認識結果との記号列比較評価によって一致度評価を行うときの認識対象となる認識辞書情報206に含まれる表音記号列を限定し認識効率を改善することができる。   At this time, a step of evaluating a match with the phonetic symbol string based on the type information for distinguishing the input items detected by the tag attribute detecting means and having a plurality of recognition dictionary information 206 by the phonetic symbol string ( A phonetic symbol recognition result obtained from the phonetic symbol string and the speech waveform registered in the recognition dictionary information 206 selected according to the attribute of the input item to be recognized while switching the recognition dictionary information 206 used in S507) The recognition efficiency can be improved by limiting the phonetic symbol strings included in the recognition dictionary information 206 to be recognized when the matching score is evaluated by the symbol string comparison evaluation.

そして、情報処理装置が入力すべき項目に応じて音声入力を評価する認識辞書情報(206)を切替える場合、属性の名称や属性に関連付けられた単語の認識辞書情報(206)を適切に選択するために、属性から獲得された情報が「書籍」であれば単位の「冊(s/a/ts/u|v/o/ly/u/m)」といった助数詞を用いるとともに助数詞に応じた「数詞(number)」に関連付けられる表音記号列を用いた認識辞書を認識された表音記号列の検索対象に選択するようにしたり、属性から獲得された情報が「駅名」であれば接尾語としての「駅(e/k/i|s/u/t/e/i/sh/o/N)」と「駅名として使用される名詞群」に関連付けられた表音記号列を用いた認識辞書を認識された表音記号列の検索対象に選択されるようにしたり、属性から獲得された情報が郵便番号や電話番号であれば単純に数詞の表音記号列を用いた認識辞書を認識された表音記号列の検索対象に選択されるようにしたりすることで、特定の枠組みに含まれる名詞群を用いて認識対象を制限することにより利用者に対して入力対象となる項目に関連付けられた属性に従った複数の認識辞書情報206の切替を実施し、認識された表音記号列の検索対象になる認識辞書情報206を属性に基づいて分類することにより認識性能の改善を図ることも出来る。   Then, when switching the recognition dictionary information (206) that evaluates the voice input according to the item to be input by the information processing apparatus, the recognition dictionary information (206) of the word associated with the attribute name or attribute is appropriately selected. Therefore, if the information acquired from the attribute is “book”, the unit “book (s / a / ts / u | v / o / ly / u / m)” is used, and the “ Select the recognition dictionary using the phonetic symbol string associated with “number” as the search target for the recognized phonetic symbol string, or if the information obtained from the attribute is “station name”, the suffix Using phonetic symbol strings associated with "stations (e / k / i | s / u / t / e / i / sh / o / N)" and "nouns used as station names" The dictionary can be selected as a search target for recognized phonetic symbol strings, and the information obtained from the attribute is a zip code or telephone number If there are nouns included in a specific framework, simply select a recognition dictionary using a phonetic symbol string of a number as a search target for the recognized phonetic symbol string. Dictionary information 206 to be searched for recognized phonetic symbol strings by switching the plurality of recognition dictionary information 206 according to the attribute associated with the item to be input to the user by restricting Recognition performance can be improved by classifying 206 based on attributes.

また、情報処理装置が入力すべき項目を音声入力の行われる順序や未入力の項目選別に従って属性の名称や属性に関連付けられた単語の音声出力をすることで、利用者に対して入力対象となる項目を促しながら複数の認識辞書情報206に対して切替を実施し、分類する属性に基づいて認識性能の改善を行っても良い。   In addition, by outputting voice of words associated with attribute names and attributes in accordance with the order in which voice input is performed and the selection of items that have not been input, the information processing apparatus can input the items to be input. The recognition performance may be improved on the basis of the attribute to be classified by switching the plurality of recognition dictionary information 206 while prompting the item.

そして、継続する音声があれば従来の処理を繰返すステップ(S509)や年季認識に伴う処理ステップ(S508)や他の外部操作に伴う装置内のステータスの変化に応じて次のコンテンツやマークアップ言語を取得するか否かを評価するステップ(S510)が実施され、状況に応じて本処理は終了する。   Then, if there is a continuous voice, the next content or markup language is changed in accordance with the step of repeating the conventional processing (S509), the processing step associated with year recognition (S508), or the status change in the device accompanying other external operations. The step (S510) for evaluating whether or not to acquire is executed, and this process ends depending on the situation.

なお、装置内のステータスの変化はマルチスレッドプログラムや、他のプログラムの一部として機能する際に他のプログラムやプロセスによって値が変化し、マルチスレッド型のプログラムやイベントドリブン型のプログラム等に用いると仮定すればわかりやすく、同様に本発明の任意処理で他のプロセスや他のプログラムのためにステータスを書き換えたり、イベントを発生させたりすることも考えられる。   Note that the status change in the device changes depending on other programs and processes when functioning as a part of other programs or multithread programs, and is used for multithread programs, event-driven programs, etc. Assuming that, it is easy to understand, and similarly, it is possible to rewrite the status or generate an event for another process or another program in the arbitrary processing of the present invention.

また、本発明の方法を利用してマークアップ言語の指定によって表示される文字列もしくは表示される画像や画像の特徴に関連付けられた文字列もしくは出力される音声・音楽等や音声・音楽等の音響特徴に関連付けられた文字列といった各種文字列を表音記号列に変換し辞書登録することで表示される任意の情報を利用者の入力音声や文字列によって表音記号列の検索により検出し、検出された情報に関連付けられたコンテンツ関連情報や広告や映像やリンクのような任意情報所在個所に関する情報や音楽や音声に基づいて利用者の操作などにより情報の提供を実施できるとともに、これらの入力は音声やテキスト入力ばかりではなくメニューなどのリストから文字列を選択したり、ボタン操作におけるボタンのラベルによる文字列を用いたりして行なわれても良い。   In addition, a character string displayed by designating a markup language by using the method of the present invention or a character string associated with a displayed image or an image feature or output voice / music, voice / music, etc. Arbitrary information displayed by converting various character strings such as character strings associated with acoustic features into phonetic symbol strings and registering them in the dictionary is detected by searching the phonetic symbol strings based on the user's input voice and character strings. In addition to content-related information associated with the detected information, information related to the location of arbitrary information such as advertisements, videos and links, music and voice, etc., it is possible to provide information by user operation, etc. In addition to voice and text input, you can select a character string from a list such as a menu, or use a character string based on a button label in button operation. It may be carried out in interest.

また、下記例のように
(例)
< img href=”./flower_lily1.jpg”
recog_dic_type=”flower_name” recog_dic_url=”./flower.prono”
name=”lily” prono=”l/i/l/i/y”>
タグに含まれる表音記号辞書に関わる属性に応じて表音記号を読込む際に表音記号辞書の所在を示すURLやURI、IPアドレス、ディレクトリパスなどの情報によって表音記号認識辞書や表音記号列辞書といった情報の位置や場所を示す ”recog_dic_uri” といった属性による情報を用いたり、”recog_dic_type”のように辞書で認識する対象の種類を示す情報を用いたりすることによって再利用頻度の高い表音記号辞書などを区別することで表音記号列による辞書情報や認識用音響特性テンプレート辞書情報をマークアップ言語から獲得される属性に関連付けて提供してもよい。
Also, as in the example below (example)
<img href = ”./ flower_lily1.jpg”
recog_dic_type = ”flower_name” recog_dic_url = ”./ flower.prono”
name = ”lily” prono = ”l / i / l / i / y”>
When reading a phonetic symbol according to an attribute related to the phonetic symbol dictionary included in the tag, the phonetic symbol recognition dictionary or table is read according to information such as URL, URI, IP address, directory path, etc. indicating the location of the phonetic symbol dictionary. Reuse frequency is high by using information based on attributes such as “recog_dic_uri” indicating the position and location of information such as a phonetic symbol dictionary, or using information indicating the type of target recognized in the dictionary such as “recog_dic_type” By distinguishing phonetic symbol dictionaries and the like, dictionary information based on phonetic symbol strings and acoustic characteristic template dictionary information for recognition may be provided in association with attributes acquired from the markup language.

また、過去に読込んだ辞書情報を一般的にキャッシュと呼ばれる方法である程度保存しておき、前述の属性が特定の単語範囲を示す場合に辞書の優先順位を上げて再度読み込む手間を省いてもよいし、スタイルシートのように別ファイルとしてページごとに読込んでIDなどにより関連付けた表音記号辞書を組込んでもよいし、ヘッダーブロックに記載してIDで関連付けた表音記号辞書を組込んでも良いし、タグごとに属性として与えた表音記号辞書を組込んでも良いし、ファイルや通信回線経由の読込み時におけるヘッダ情報に表音記号辞書を含ませても良く、表音記号列テンプレート辞書として利用することも出来る。   Also, it is possible to save the dictionary information read in the past to some extent by a method generally called a cache, and save the trouble of increasing the priority of the dictionary and reading it again when the above-mentioned attribute indicates a specific word range. Alternatively, a phonetic symbol dictionary that is read for each page as a separate file, such as a style sheet, and is associated with an ID may be incorporated, or a phonetic symbol dictionary that is associated with an ID described in a header block may be incorporated. It is also possible to incorporate a phonetic symbol dictionary given as an attribute for each tag, or to include a phonetic symbol dictionary in header information when reading via a file or communication line. It can also be used as

また、音声にテキストデータを埋め込める「音響OFDM」を用いて音声波形情報に表音記号列を埋め込んでも良いし、埋め込まれた表音記号列や関連するマークアップ言語情報を復元して音声データ内の表音記号検索や関連する情報を字幕などにより表示したりするために利用してもよいため、ラジオやテレビなどの極めて一般的な音声データから復調された表音記号列を検索に利用することも出来る。   In addition, “acoustic OFDM” that can embed text data in speech may be used to embed phonetic symbol strings in speech waveform information, or speech data may be restored by restoring the embedded phonetic symbol strings and related markup language information. Can be used to search for phonetic symbols and display related information in subtitles, etc., so use phonetic symbol strings demodulated from extremely general audio data such as radio and television for searching You can also

また、表音記号認識によって獲得された表音記号列を用いて、検索対象として検索される表音記号列によって索引付されたデータベースは、複数のキーワードに基づく表音記号列の論理的な間に基づく組合せであってもよく、ブーリアンモデルにより論理性を表記できる構成であっても良く、それらの組合せによってクエリを構成しデータベースに提供し検索結果を獲得することが可能である。   In addition, a database indexed by a phonetic symbol string searched as a search target using a phonetic symbol string acquired by phonetic symbol recognition is a logical space between phonetic symbol strings based on a plurality of keywords. It is also possible to use a combination based on the above, or a configuration in which logicality can be expressed using a Boolean model, and a combination of these can constitute a query and provide it to a database to obtain a search result.

このようにして、従来の単語と音声特徴群をHMMなどにより確率的に結びつける方法とはことなり、本発明は表音記号と音声特徴をベイズ識別関数などによる確率に基づく距離によって関連付けることにより表音記号列を獲得し、獲得された表音記号列と単語文字列とをマークアップ言語を介して直接関連付ける方法によって、従来の一般的な認識に比べ認識対象となる単語に制約を加えて効率的な認識を実現することを可能とするための辞書情報の動的な提供をマークアップ言語で実現することが可能となるとともに、クエリに直接単語を利用せずに表音記号列を用いたり音素や音素片記号列を用いたりすることでHMMやDPのマッチングを用いるデータベースを構成し検索を行っても良い。   In this way, unlike the conventional method of stochastically connecting a word and a voice feature group by HMM or the like, the present invention represents a table by associating a phonetic symbol and a voice feature by a distance based on a probability based on a Bayes discriminant function or the like. By acquiring the phonetic symbol string and directly associating the acquired phonetic symbol string and the word character string via the markup language, it is more efficient by restricting the words to be recognized compared to conventional general recognition. It is possible to dynamically provide dictionary information for enabling real recognition in markup languages, and use phonetic symbol strings without using words directly in queries. A database using HMM or DP matching may be constructed and searched by using phonemes or phoneme symbol strings.

また、発話音素や発話音素変といった表音記号による属性ばかりではなく画像識別子や画像認識後の識別子や画像関連特徴量や動作特徴量や動作識別子などを属性として用いても良い。   Further, not only attributes based on phonetic symbols such as utterance phonemes and utterance phoneme changes, but also image identifiers, identifiers after image recognition, image-related feature amounts, motion feature amounts, motion identifiers, and the like may be used as attributes.

本発明は音声認識において音素認識又は音素片認識を用いる情報処理装置等に関する。   The present invention relates to an information processing apparatus that uses phoneme recognition or phoneme piece recognition in speech recognition.

従来から一般的に音声を用いる情報処理装置や音声認識に関する技術が知られている。音声認識を行う方法としては、一般的に利用者発話に伴う音声から統計的に作られた音素や音素片による音響モデルや標準パラメータやテンプレートを用いた音素認識や音素片認識により音素や音素片を時系列的に抽出し音素や音素片列を獲得する方法が知られている。 The information processing apparatus and commonly used voice conventionally technique is known for voice recognition. As a method of performing speech recognition, generally, a phoneme or phoneme segment is obtained by phoneme recognition or phoneme recognition using an acoustic model or a standard parameter or template based on a phoneme or phoneme statistically generated from speech accompanying user utterance. There is known a method of extracting phonemes in a time series and acquiring phoneme strings and phoneme string strings.

そして、音素列や音素片列からなる単語が記録された音声認識辞書を用いて、認識された音素列や音素片列と音声認識辞書に登録された音素列や音素片列との一致を評価し、評価の結果一致度の高い音素列や音素片列に関連付けられた単語を取得したり、装置制御の命令を実行したりすることで音声認識や認識に伴う処理を実現する。 Then, using the phoneme sequence and phoneme speech recognition dictionary word is recorded consisting of columns, and recognized phoneme sequence and phoneme sequence, the match between the phoneme sequence and phoneme sequence is registered in the speech recognition dictionary The speech recognition and the processing associated with the recognition are realized by evaluating and acquiring a word associated with a phoneme string or phoneme string string having a high degree of coincidence as a result of the evaluation or executing a device control command.

ここで、装置を制御するユーザインタフェースとしては、非特許文献1のように音素の認識辞書により特定される単語と単語に関連付けて辞書登録された装置制御方法を音素の認識処理により選択し実施する方法があり、音素や音素片の認識技術としては特許文献1に示されるように古くからの公知技術として用いられている。 Here, as the user interface for controlling the device, and words specified by the phoneme recognition dictionary as in Non-Patent Document 1, selected by the phoneme recognition process and a device control method which is the dictionary registered in association with the word As a technique for recognizing phonemes and phoneme pieces, as disclosed in Patent Document 1, it has been used as a known technique for a long time.

また、音声の認識において、人の対話における発話単語は省略形や「おー」や「うーん」といった感嘆語や造語などの変化が多く、特にコンテンツ情報では商品名や役者名などは辞書登録が困難な固有名詞が多く必ずしも全ての単語を辞書登録できなかった。そこで、音素認識を用いてコンテンツを検索する技術が特許文献2や非特許文献2や非特許文献3等において提案されている。   In speech recognition, spoken words in human dialogue often change abbreviations and exclamation words and coined words such as “Oo” and “Uon”. Especially in content information, product names and actor names are registered in the dictionary. There were many difficult proper nouns, and not all words could be registered in the dictionary. Therefore, Patent Document 2, Non-Patent Document 2, Non-Patent Document 3, and the like have proposed techniques for searching for content using phoneme recognition.

ここで、特許文献3には、マークアップ言語の1つであるHTMLにおける音声認識への利用において、認識可能な単語の表示表現を変えることで、利用者による音声操作がやりやすくなるような提案がなされている。   Here, Patent Document 3 proposes that a user can easily perform a voice operation by changing the display expression of a recognizable word in use for speech recognition in HTML, which is one of markup languages. Has been made.

また、特許文献4には、最低限必要な語彙に伴う音響モデルによる認識辞書データを動的に獲得する方法が提案されている。   Patent Document 4 proposes a method for dynamically acquiring recognition dictionary data based on an acoustic model with a minimum vocabulary.

また、特許文献5によれば、マークアップ言語の1つであるHTMLにおける音声認識への利用において、認識可能な単語を特定するために特定の記号で範囲を指定し、音声による認識が行えることを利用者に明示する方法が提案され、発音が難解な単語には認識可能な読み方を記載することで利便性を図っている。
特開昭62−220998号公報 特開2005−70312号公報 特開平11−25098号公報 特開2002−91858号公報 特開2005−18241号公報 「高齢化社会対応型生活支援インターフェースに関する研究開発」、青森県工業総合研究センターによるキープロジェクト研究報告書 Vol.5、Apr.1998〜Mar.2001 031 中沢正幸, 遠藤隆, 古川清, 豊浦潤, 岡隆一(新情報処理開発機構), 「音声波形からの音素片記号系列を用いた音声要約と話題要約の検討」,信学技報, SP96-28, pp.61--68, June 1996. 岡 隆一, 高橋裕信, 西村拓一, 関本信博, 森靖英, 伊原正典, 矢部博明, 橋口博樹, 松村博. パターン検索のアルゴリズム・マップ -"CrossMediator" を支えるもの -. Someone Unknown, editor, 人工知能学会研究会, volume 1, pages 1-6. 人工知能学会, 2001.
Further, according to Patent Document 5, in the use for speech recognition in HTML, which is one of markup languages, a range can be designated by a specific symbol to identify a recognizable word, and speech recognition can be performed. Is proposed to the user, and the words that are difficult to pronounce are described with a recognizable reading method for convenience.
Japanese Patent Laid-Open No. 62-220998 JP 2005-70312 A JP-A-11-25098 JP 2002-91858 A JP 2005-18241 A “Research and development on life support interface for aging society”, Key Project Research Report by Aomori Prefectural Industrial Research Center Vol.5, Apr.1998-Mar.2001 031 Masayuki Nakazawa, Takashi Endo, Kiyoshi Furukawa, Jun Toyoura, Ryuichi Oka (New Information Processing Development Corporation), "Study of speech summaries and topic summaries using phoneme symbol sequences from speech waveforms," IEICE Tech. 28, pp. 61--68, June 1996. Ryuichi Oka, Hironobu Takahashi, Takuichi Nishimura, Nobuhiro Sekimoto, Hidehide Mori, Masanori Ihara, Hiroaki Yabe, Hiroki Hashiguchi, Hiroshi Matsumura. Pattern Search Algorithm Map-What Supports "CrossMediator" Study Group of Society, volume 1, pages 1-6. Japanese Society for Artificial Intelligence, 2001.

また、音素記号列のマークアップ言語における利用方法はMPEG2などの動画ストリーム内で用いられるMPEG7における記述としてSegment及びMedia Locatorという構成を使用して、<Media Locator>でビデオコンテンツ内のSegment又はFrameを直接指定したり、<Media Locator>でコンテンツを指し、<Media Time>でそのコンテンツ内部の時間位置を指定すると共に適当な固有名詞を指定するタグと組合せたりという使い方や、前述のSegmentでコンテンツを割当てたりする際にVisual、Audioのローレベルなメタデータとして、固定の間隔で同種のメタデータを付けるための<Series>という記述方法を用いたりする方法がある。この際、オーディオだと<Scalable Series>として指定する方法がりMPEG7オーディオには、自動音声認識結果である単語(word)ラティスと音素(phone)ラティスとを記述する<Spoken Content DS>というものがある。 In addition, the use method of the phoneme symbol string in the markup language uses a configuration called Segment and Media Locator as a description in MPEG7 used in a moving picture stream such as MPEG2, and uses <Media Locator> to set Segment or Frame in video content. You can specify it directly, or use <Media Locator> to point to the content, <Media Time> to specify the time position inside the content and combine it with a tag that specifies an appropriate proper noun, When assigning, there is a method of using <Series> description method to attach the same kind of metadata at fixed intervals as low level metadata of Visual and Audio. In this case, it's audio in the MPEG7 audio how to specify the Oh Ri as <Scalable Series>, the word is an automatic speech recognition result (word) Lattice and phoneme (phone) those that describe the lattice <Spoken Content DS> There is.

また、VoiceXMLという音声認識における標準化方式では文脈にあわせて文法に依存した認識を実施するために、これまで製品間でバラバラだったユーザインタフェースの記述を統一的な手法を表記する方法が提案されているが、文脈や文法に依存せず音素や音素片といった表音記号識別子を使って任意のタグの対象範囲に属性を与え、辞書情報を動的に構成する方法は提案されていない。 In addition, VoiceXML, a standardized method for speech recognition, proposes a method for expressing a unified method for describing user interfaces that have been divided among products so far, in order to implement recognition that depends on the grammar according to the context. However, no method has been proposed for dynamically constructing dictionary information by assigning attributes to the target range of an arbitrary tag using phonetic symbol identifiers such as phonemes and phoneme pieces regardless of context and grammar.

なお、従来の出願や文献によると、音素と音節を混同しているものが多く見受けられるが、本発明における音素とは日本語で「あかさたな」という発音を例にする場合、音節表記した場合であれば「あ/か/さ/た/な」もしくは「a/ ka/ sa/ ta/ na」と単音声で表記され、音素表記した場合は「a/ k/ a/ s/ a/ t/ a/ n/ a」もしくは「a/ cl/ k/ a/ s/ a/ cl/ t/ a/ n/ a」と表記され、音素片表記であれば「a/ a-k/ k/ k-a/ a/ a-s/ s/ s-a/ a/ a-t/ t/ t-a/ a/ a-n/ n/ n-a/ a」もしくは「a/ a-cl/ cl/ cl-k/ k/ k-a/ a/ a-s/ s/ s-a/ a/ a-cl/ cl/ cl-t/ t/ t-a/ a/ a-n/ n/ n-a/ a」といった例がバイグラムであれば考えられ、「a-a-a/ a-cl-cl/ cl-cl-cl/ cl-cl-k/ cl-k-k/ k-k-a/ a-a-a/ a-a-s/ s-s-s/ s-a-a/ … t-a-a/ a-a-n/ n-n-n/ n-a-a/ a-a-a」と言った例がトライグラムの例となり、音素を時系列的に前半部、中盤部、後半部といった任意の位置に基づいて分解した音素片であっても良く、/cl/ は発音前の無音部もしくは無声部を指しており、これらの音素や音素片はともに任意の改善により任意の音を示す音素や表記記号や表音記号や発音記号及びそれらを時系列的に分解した音素片のような表記記号片や表音記号片や発音記号片に変更しても良い。   According to conventional applications and documents, many phonemes and syllables are confused, but the phoneme in the present invention is the case where the pronunciation of “Akasana” in Japanese is used as an example, and the syllable is used. If there is a phonetic notation, “a / ka / sa / ta / na” or “a / ka / sa / ta / na” is displayed in a single voice, and “a / k / a / s / a / t / a / n / a '' or `` a / cl / k / a / s / a / cl / t / a / n / a '', or `` a / ak / k / ka / a '' / as / s / sa / a / at / t / ta / a / an / n / na / a '' or `` a / a-cl / cl / cl-k / k / ka / a / as / s / sa An example such as `` / a / a-cl / cl / cl-t / t / ta / a / an / n / na / a '' can be considered as bigram, `` aaa / a-cl-cl / cl-cl- cl / cl-cl-k / cl-kk / kka / aaa / aas / sss / saa /… taa / aan / nnn / naa / aaa Arbitrary parts such as the first half, middle board, and second half / Cl / points to the silent or unvoiced part before sounding, and both these phonemes and phonemes are phonemes that represent any sound by any improvement. You may change into a notation symbol piece, a phonetic symbol piece, and a phonetic symbol piece like a notation symbol, a phonetic symbol, a phonetic symbol, and the phoneme piece which decomposed them time-sequentially.

また、音素及び音素片を用いる表音記号認識と通常の音声認識の違いを説明すると、音素認識や音素片認識は一般的な音声認識と違い意味や内容を解釈する語彙認識を行わないという特徴と音響モデルを単語や文法や品詞などの言語モデルの変化に応じて動的に構成しないという特徴があり、より詳しくは音素認識や音素片認識は文法に関わる言語モデルを用いないため認識結果として意味を捉えていないこと、若しくは漢字のような意味を含む記号に変換していないこと、若しくは同音異義語や同音異表記語を弁別しないこと、文脈に応じて名詞や動詞といった品詞の弁別を行わないこと、若しくは形態素解析や構文解析を行わないことなどといった特徴があり、本件では音素認識や音素片認識をはじめとして、音素や音素片や発音記号や(時系列的に分割された発音記号としての)発音記号片とそれらの記号列に基づく表音記号を用いた認識を併せて表音記号認識として表記している。   In addition, the difference between phonetic symbol recognition using phonemes and phonemes and normal speech recognition is explained. Phone recognition and phoneme recognition do not perform vocabulary recognition that interprets meaning and content unlike general speech recognition. And acoustic models are not dynamically constructed according to changes in language models such as words, grammar, and parts of speech. More specifically, phoneme recognition and phoneme recognition do not use grammar-related language models. Does not capture meaning, or does not convert to symbols that contain meaning such as kanji, or does not distinguish homonyms or homonyms, and differentiates parts of speech such as nouns and verbs according to context In this case, phonemes, phonemes, phonetic symbols, phonetic symbols, phonetic symbols, It is denoted as phonetic symbol recognition together recognition using phonetic symbols based on time series of the divided phonetic symbol) phonetic symbols pieces and their symbol string.

このように、音素及び音素片による認識は表音記号別の静的な音響モデルを用いて発話者の発話音を分析し発話にともなう表音記号列と認識辞書内の表音記号列の一致のみを評価するという特徴から認識処理や認識辞書の構成が単純になり音の一致のみを評価するため辞書未登録語や感嘆詞であっても音素や音素片といった表音記号や発音記号からなる識別子列の認識が可能となる。   In this way, recognition by phonemes and phonemes is performed by analyzing a speaker's utterance using a static acoustic model for each phonetic symbol and matching the phonetic symbol string accompanying the utterance with the phonetic symbol string in the recognition dictionary. The recognition process and the structure of the recognition dictionary are simplified due to the feature of evaluating only the phoneme, and the phonetic symbols and phonetic symbols such as phonemes and phonemes are used even for unregistered words and exclamation words to evaluate only the sound match. It is possible to recognize the identifier string.

この際、従来からあるように話者の発話特性に合わせて学習し性能を改善する動的な音響モデルを用いても良いが、一般的な音声認識のような単語や文法に依存して音響モデルを動的に切替えるといった処理を音素認識や音素片認識では行わないという特徴がある。   At this time, as in the past, a dynamic acoustic model that learns according to the speaker's utterance characteristics and improves performance may be used, but depending on words and grammar as in general speech recognition, There is a feature that the process of dynamically switching the model is not performed in phoneme recognition or phoneme recognition.

このため、音素列や音素片列を登録済み辞書内容と比較することで未登録音素列や音素片列の検出が容易に可能となり、音素や音素片を用いた表音記号認識による認識結果に基づいて単語を限定し再度一般的な文法を加味した音声認識を実施することで効率的な音声認識を実現するといった方法も考えられる。   For this reason, comparing phoneme strings and phoneme string sequences with registered dictionary contents makes it possible to easily detect unregistered phoneme strings and phoneme string sequences, resulting in recognition results by phonetic symbol recognition using phonemes and phoneme segments. It is also conceivable to implement efficient speech recognition by limiting speech based on words and implementing speech recognition that takes into account general grammar again.

そして、音素や音素片による認識方法は辞書に登録されていない単語がある場合であっても、認識対象文中の未登録単語をひらがな文字表記に変換し、変換されたひらがな文字列の遷移状態に合わせて、既知の情報から得られる韻律に基づき音素列や音素片列に変換した記号列を認識辞書に一時的に登録し、利用者の発話を音素列や音素片列として認識した後に獲得された音素列や音素片列と認識辞書の音素列や音素片列とを比較することで記号列同士の一致度を測り認識結果を獲得し、認識結果として利用頻度が下がれば削除するといった方法により、従来の音声認識よりも自由度の高い動的な音素や音素片による辞書構成を持つ音声認識が可能となる。 And even if there is a word that is not registered in the dictionary, the recognition method using phonemes and phoneme fragments converts unregistered words in the sentence to be recognized into hiragana character notation, and changes to the transition state of the converted hiragana character string. In addition, a symbol string converted into a phoneme string or phoneme string string based on the prosody obtained from known information is temporarily registered in the recognition dictionary, and acquired after the user's utterance is recognized as a phoneme string or phoneme string string. By comparing the phoneme sequence or phoneme sequence with the phoneme sequence or phoneme sequence of the recognition dictionary, the degree of coincidence between the symbol sequences is measured, and the recognition result is acquired. In addition, it is possible to perform speech recognition having a dictionary configuration with dynamic phonemes and phonemes having a higher degree of freedom than conventional speech recognition.

また、このとき、音素や音素片単位の音響モデルを利用者の発話に合わせて再学習するといった方法により、文法や単語に依存しない動的な音響モデル辞書により認識精度を改善するように利用者の発話から得られる音響情報を教師情報として再利用して、認識のための再学習を実施してもよい。   At this time, the user can improve the recognition accuracy with a dynamic acoustic model dictionary that does not depend on grammar or words by re-learning the phoneme or phoneme unit acoustic model according to the user's utterance. Re-learning for recognition may be performed by reusing the acoustic information obtained from the utterances as teacher information.

従来の音声認識技術において、人の対話における発話単語の省略形や「おー」や「うーん」といった感嘆語(感嘆詞)や造語などは時代や環境に伴う違いも多く語、特にコンテンツ情報では商品名や役者名などの流行に依存する動的な固有名詞は認識辞書への登録は非効率的であったため、膨大で変化に富む音声認識を実用化する場合の課題として古くから存在するものの音響モデルや文法モデルを含む認識辞書を繰返し配布することはその情報量の大きさから比較的困難であるため認識辞書に登録されていない語彙に依存した認識は事実上不可能であった。   In conventional speech recognition technology, abbreviations of spoken words in human dialogue, exclamation words (exclamation words) such as “Oo” and “Uon” and coined words have many differences depending on the times and environments, especially in content information Although dynamic proper nouns that depend on trends such as product names and actor names have been inefficiently registered in the recognition dictionary, they have existed for a long time as a challenge when putting huge and varied speech recognition into practical use. Since it is relatively difficult to repeatedly distribute recognition dictionaries including acoustic models and grammatical models, recognition based on vocabularies not registered in the recognition dictionary is virtually impossible.

また、従来の音声認識では一般的に韻律モデルや文法モデルの学習が不可欠であり、そういった処理手順が前述の造語や流行語や固有名詞などに基づく辞書未登録語の認識の課題となっており、そういった未登録単語に関連する韻律や単語間の共起関係による文法モデルの学習が困難であるという課題があった。   Also, in conventional speech recognition, learning of prosodic models and grammatical models is generally indispensable, and such processing procedures have become issues for recognition of unregistered words based on the aforementioned coined words, buzzwords and proper nouns. There is a problem that it is difficult to learn a grammar model based on the prosody related to such unregistered words and the co-occurrence relationship between words.

また、従来マークアップ言語による音声情報はコンテツ情報としての映像や音声に同期した音声情報以外は検索や操作の対象にできなかった。そして、音素記号列を含む情報を利用者に提供するためには事前に音声情報を認識し音素と単語ID(単語識別子)を関連付けて保存する必要があったため、不特定単語に対する容易な音素列・音素片の提供方法や操作方法が無いという課題があった。   Conventionally, audio information in a markup language cannot be searched or operated except for audio information synchronized with video and audio as content information. In order to provide information including a phoneme symbol string to a user, it is necessary to recognize speech information in advance and store the phoneme and a word ID (word identifier) in association with each other.・ There was a problem that there was no method of providing or operating a phoneme.

また、上述した特許文献3に開示された技術では、辞書に登録されていない単語を認識するための方法は提示されていない。さらに、特許文献4に開示された技術では、語彙に依存しない音声認識を行うことができず、未知の単語に対してその都度韻律モデルを学習する等の手段をとる必要があり、自由度の高い音声認識を実現することができなかった。さらに、特許文献5に開示された技術では、音声認識方法が従来の音声認識方法と差異が無く、音素や音素片を用いた認識が出来ないと言った問題点があった。   Further, in the technique disclosed in Patent Document 3 described above, a method for recognizing a word that is not registered in the dictionary is not presented. Furthermore, in the technique disclosed in Patent Document 4, speech recognition that does not depend on vocabulary cannot be performed, and it is necessary to take measures such as learning prosodic models for unknown words each time. High voice recognition could not be realized. Furthermore, the technique disclosed in Patent Document 5 has a problem that the speech recognition method is not different from the conventional speech recognition method, and recognition using phonemes or phonemes cannot be performed.

このような課題を踏まえ、本発明が目的とするところは、コンテンツ情報に含まれる単語や文字列に対して音声認識を行う際に、音声認識辞書に単語モデルや音響モデルや文法モデルや品詞情報が登録されていなくても、音素や音素片からなる表音記号認識を用いた表音記号に基づく認識辞書情報を利用することでより適切な音声認識を実現することが出来る情報処理装置等を提供することを目的とする。   Based on such problems, the object of the present invention is to use a word model, an acoustic model, a grammar model, and a part-of-speech information in a speech recognition dictionary when speech recognition is performed on a word or character string included in content information. An information processing device that can realize more appropriate speech recognition by using recognition dictionary information based on phonetic symbols using phonetic symbol recognition consisting of phonemes and phoneme pieces even if is not registered The purpose is to provide.

上記の課題を解決するために、第1の発明の情報処理装置は、文字情報及び/又はメタ情報を含むコンテンツ情報を取得するコンテンツ情報取得手段と、前記コンテンツ情報取得手段により取得されたコンテンツ情報から、表音記号からなる認識表音記号列を検出する認識表音記号列検出手段と、前記認識表音記号列を用いて認識辞書情報を生成する認識辞書情報生成手段と、を備えることを特徴とする。   In order to solve the above problems, an information processing apparatus according to a first aspect of the present invention includes a content information acquisition unit that acquires content information including character information and / or meta information, and content information acquired by the content information acquisition unit. And a recognition phonetic symbol string detecting means for detecting a recognized phonetic symbol string consisting of phonetic symbols, and a recognition dictionary information generating means for generating recognition dictionary information using the recognized phonetic symbol string. Features.

第2の発明の情報処理装置は、文字情報及び/又はメタ情報を含むコンテンツ情報を取得するコンテンツ情報取得手段と、前記コンテンツ情報取得手段により取得されたコンテンツ情報から、文字情報及び/又はメタ情報に基づいて展開対象文字列を検出する展開対象文字列検出手段と、文字列と表音記号とを対応づけて記憶する表音記号記憶手段と、前記表音記号記憶手段を参照することにより、前記展開対象文字列を認識表音記号列に変換する表音記号変換手段と、前記認識表音記号列を用いて認識辞書情報を生成する認識辞書情報生成手段と、を備えることを特徴とする。   An information processing apparatus according to a second aspect of the present invention includes a content information acquisition unit that acquires content information including character information and / or meta information, and character information and / or meta information from the content information acquired by the content information acquisition unit. By referring to the expansion target character string detection means for detecting the expansion target character string based on the character string, the phonetic symbol storage means for storing the character string and the phonetic symbol in association with each other, and the phonetic symbol storage means, A phonetic symbol conversion unit that converts the expansion target character string into a recognized phonetic symbol string; and a recognition dictionary information generation unit that generates recognition dictionary information using the recognition phonetic symbol string. .

また、第3の発明は、第2の発明の情報処理装置において、前記表音記号変換手段により変換された表音記号を、前記コンテンツ情報に付加することにより当該コンテンツ情報を保存するコンテンツ情報保存手段を更に備えることを特徴とする。   In addition, in the information processing apparatus according to the second aspect, in the information processing apparatus according to the second aspect, the content information is stored by adding the phonetic symbols converted by the phonetic symbol conversion means to the content information. The apparatus further comprises means.

また、第4の発明は、第1から第3の発明のいずれかに記載の情報処理装置において、前記コンテンツ情報保存手段により保存されたコンテンツ情報と、当該コンテンツ情報に基づいて生成された認識辞書情報とを他の情報処理端末に送信する送信手段を更に備えることを特徴とする。   According to a fourth aspect of the present invention, in the information processing apparatus according to any one of the first to third aspects, content information stored by the content information storage unit and a recognition dictionary generated based on the content information It is further characterized by further comprising transmission means for transmitting information to another information processing terminal.

また、第5の発明は、第1から第4の発明のいずれかに記載の情報処理装置において、音声を入力する音声入力手段と、前記音声入力手段により入力された音声の特徴量を抽出する特徴量抽出手段と、前記特徴量抽出手段により抽出された特徴量から、表音記号に変換する特徴量表音記号変換手段と、前記特徴量表音記号変換手段により変換された表音記号と、前記認識辞書情報に含まれる認識表音記号列を構成する表音記号とを評価し、もっとも類似する表音記号に対応して所定の処理を実行する処理実行手段と、を更に備えることを特徴とする。   According to a fifth invention, in the information processing apparatus according to any one of the first to fourth inventions, a voice input means for inputting voice, and a feature amount of the voice input by the voice input means are extracted. A feature amount extracting unit; a feature amount phonetic symbol converting unit that converts the feature amount extracted by the feature amount extracting unit into a phonetic symbol; and a phonetic symbol converted by the feature amount phonetic symbol converting unit. And a process executing means for evaluating a phonetic symbol constituting a recognized phonetic symbol string included in the recognition dictionary information and executing a predetermined process corresponding to the most similar phonetic symbol. Features.

また、第6の発明は、第5の発明の情報処理装置において、前記コンテンツ情報には、音素情報及び/又は音素片情報が含まれており、前記処理実行手段は、前記特徴量表音記号変換手段により変換された表音記号と、前記認識辞書情報に含まれる認識表音記号列を構成する表音記号とを評価し、もっとも類似する表音記号に対応して利用者に対し、音声発話による情報の提示を行うことを特徴とする。   According to a sixth aspect of the present invention, in the information processing apparatus according to the fifth aspect of the invention, the content information includes phoneme information and / or phoneme piece information, and the processing execution means includes the feature quantity phonetic symbol. The phonetic symbols converted by the conversion means and the phonetic symbols constituting the recognized phonetic symbol string included in the recognition dictionary information are evaluated, and the user is notified of the voice corresponding to the most similar phonetic symbol. It is characterized by presenting information by utterance.

また、第7の発明は、第1から第6の発明のいずれかの情報処理装置において、前記表音記号は、音素又は音素片であることを特徴とする。   According to a seventh aspect, in the information processing apparatus according to any one of the first to sixth aspects, the phonetic symbol is a phoneme or a phoneme piece.

また、第8の発明は、第1から第6の発明のいずれかの情報処理装置において、前記実行される処理は、音素認識に伴う認証処理であることを特徴とする。   The eighth invention is characterized in that in the information processing apparatus according to any one of the first to sixth inventions, the executed process is an authentication process accompanying phoneme recognition.

また、第9の発明のプログラムは、コンピュータに、マークアップ言語を用いて記述された情報を解釈するマークアップ言語解釈ステップと前記解釈によって指定された属性を獲得する属性獲得ステップと、属性獲得ステップによって獲得された属性に関連付けられた表音記号列及び/又は音素列及び/又は音素片列を抽出する表音記号抽出ステップと、前記表音記号抽出ステップによって、音素認識部で用いる音素列辞書を変更する辞書変更ステップと、を実現させることを特徴とする。   According to a ninth aspect of the invention, there is provided a program for interpreting information described using a markup language in a computer, an attribute acquiring step for acquiring an attribute designated by the interpretation, an attribute acquiring step, A phonetic symbol extraction step for extracting a phonetic symbol sequence and / or a phoneme sequence and / or a phoneme fragment sequence associated with the attribute acquired by the phoneme sequence, and a phoneme sequence dictionary used in the phoneme recognition unit by the phonetic symbol extraction step And a dictionary changing step for changing.

また、第10の発明のプログラムは、コンピュータに、マークアップ言語を用いて記述された情報を解釈するマークアップ言語解釈ステップと前記解釈によって指定された属性を獲得する属性獲得ステップと、属性獲得ステップによって獲得された属性に関連付けられた表音記号列及び/又は音素列及び/又は音素片列を抽出する表音記号抽出ステップと、前記属性獲得ステップによって獲得された属性に基づき利用者が入力する情報の種別を評価する情報種別評価ステップと、前記情報評価ステップによって、音素認識部で用いる音素列辞書を変更する辞書変更ステップと、を実現させることを特徴とする。   According to a tenth aspect of the present invention, there is provided a program for interpreting information described using a markup language in a computer, an attribute acquiring step for acquiring an attribute designated by the interpretation, an attribute acquiring step, A phonetic symbol extraction step of extracting a phonetic symbol string and / or a phoneme sequence and / or a phoneme fragment sequence associated with the attribute acquired by the user, and a user inputs based on the attribute acquired by the attribute acquisition step An information type evaluation step for evaluating the type of information and a dictionary changing step for changing a phoneme string dictionary used in the phoneme recognition unit are realized by the information evaluation step.

本発明によれば、音素認識を用いた情報処理装置を利用するために、提供されるコンテンツ情報の認識に必要な音素辞書をコンテンツ情報に関連付けられた若しくはコンテンツ情報に含まれるマークアップ言語から獲得することで表示内容に関する不特定単語に対応することができる。したがって、商品販売のような不特定単語が頻発する可能性の高い処理を単体の装置やサーバ・クライアント環境で行うために、音素列や音素片列や各種識別子の呼称をマークアップ言語のタグ属性として記載し、コンテンツの画像やページ単位の文章や文章構成におけるフレームや動画像の1コマとしてのフレームや動画像の複数フレームにまたがるシーン単位に発話音素辞書を指定が出来るようにすることで課題の解決を図ろうとするものである。   According to the present invention, in order to use an information processing device using phoneme recognition, a phoneme dictionary necessary for recognition of provided content information is acquired from a markup language associated with the content information or included in the content information. By doing so, it is possible to deal with unspecified words related to display contents. Therefore, in order to perform processing with a high possibility of unspecified words such as product sales in a single device or server / client environment, the name of a phoneme string, phoneme string string, or various identifiers is a tag attribute in the markup language. It is a problem to be able to specify the utterance phoneme dictionary in scene units that span multiple frames of moving images or frames as frames of moving images or frames in content images, sentences in page units or sentence structures It is intended to solve this problem.

また、これらの操作に用いるキーワードを音素展開することで、利用者に送信するHTMLやXML、RSS、EPG、BML、MPEG7、CSVといった配布用ファイル形式やマークアップ言語によって変数や属性、特定タグとして音声操作に関する音素列や音素片列を用いた識別子を任意のマークアップ言語やスクリプトと関連付けて組込む方法により容易に音声を利用した索引付けや利用者が音声を用いて情報を獲得、閲覧、操作したりするための音声制御情報を配布共有したり、端末側で音声制御情報の獲得を行うことを可能とし課題の解決を図ろうとするものである。   Also, by expanding the phonemes used for these operations, as variables, attributes, and specific tags depending on the file format for distribution and markup language such as HTML, XML, RSS, EPG, BML, MPEG7, CSV sent to the user Indexing using voices easily by incorporating identifiers using phoneme strings and phoneme strings related to voice operations in association with arbitrary markup languages and scripts, and users can acquire, view, and manipulate information using voice Therefore, it is possible to distribute and share voice control information for the purpose of acquisition and to acquire voice control information on the terminal side, and to solve the problem.

そして、本発明は音素や音素片を用いて不特定単語を認識するという従来の技術を実施するにあたり、インターネット環境で変化する多様なコンテンツに対してコンテンツ情報の一場面中に出現する単語に制約があることを利用し、音素列や音素片列による動的な辞書構成方法を提供することで、韻律モデルや文法モデルを利用しない不特定単語に対応した音声認識処理の実現を図り利便性の向上を実現しようとしている。   And, when the present invention implements the conventional technique of recognizing unspecified words using phonemes or phonemes, it restricts the words appearing in one scene of content information to various contents changing in the Internet environment. By providing a dynamic dictionary construction method using phoneme sequences and phoneme segment sequences, it is possible to realize speech recognition processing for unspecified words without using prosodic models or grammatical models. We are trying to realize improvements.

また、MPEG7であれば映像情報のシーンを表すタグの中でそのシーン名称や、役者名、配役名を音素記号列や音素片記号列を用いて属性や変数、タグによる範囲指定により音声ストリームの認識個所以外をマークアップ言語で記載した情報を用いて、音素検索技術による任意の役者名や配役名での検索を実施することでマークアップ言語情報により場面に応じた音素列が獲得できるため任意の指示や検索を行える装置が実現でき課題の解決が図られる。   In the case of MPEG7, a scene name, an actor name, and a cast name in a tag representing a scene of video information are specified by attributes, variables, and range specification by a tag using a phoneme symbol string or a phoneme symbol string. Using the information described in the markup language other than the recognition location, and performing a search with any actor name or cast name using the phoneme search technology, any phoneme string corresponding to the scene can be obtained from the markup language information. A device capable of performing instructions and searching can be realized, and the problem can be solved.

また、HTMLであれば、対象とするリンクやCGI表記に音素記号列を含む変数、属性を設けたり、特定のタグで囲まれた範囲を音素列に変換し、タグの変数、属性として埋め込んだり、選択したい商品を囲むテーブルタグのテーブル要素ごとに変数、属性を設け各要素タグに名称を音素列記号で変数、属性として与えたり、フォームタグやインプットタグの変数、属性として音素列を与え、与えられた音素列に基づいて、情報を送信したり次のページへ遷移するといった方法により課題の解決が図られる。   In HTML, a variable or attribute including a phoneme symbol string is provided in the target link or CGI notation, or a range surrounded by a specific tag is converted into a phoneme string and embedded as a tag variable or attribute. , Provide variables and attributes for each table element of the table tag surrounding the product you want to select and give each element tag a name as a variable or attribute with a phoneme string symbol, or give a phoneme string as a variable or attribute for a form tag or input tag, Based on a given phoneme string, the problem can be solved by a method of transmitting information or transitioning to the next page.

また、RSSによる音素列や音素片列の配信を行っても良いし、タグを用いてキーワードにIDを関連付け、IDと音素列・音素片列を関連付けた認識辞書情報としてCSVファイルを提供することで認識の対象となるキーワードを特定するといった方法を用いても良いし、顔や指紋などの画像認識辞書と音素や音素片による表音記号列を用いた固有名詞を伴う認識辞書と話者ごとの音素や音素片に基づく音響モデルとを関連付けることで合言葉による個人認証を行っても良い。   Also, a phoneme string or phoneme string string may be distributed by RSS, ID is associated with a keyword using a tag, and a CSV file is provided as recognition dictionary information that associates the ID with the phoneme string / phoneme string string. You can use a method that identifies the keywords that are to be recognized in, an image recognition dictionary such as a face or fingerprint, a recognition dictionary with proper nouns using phonetic or phonetic symbol strings, and for each speaker Individual authentication using secret words may be performed by associating with an acoustic model based on phonemes or phoneme pieces.

このようにして、音素や音素片による認識辞書の内容をマークアップ言語の属性や任意のタグや辞書ファイルとして外部から獲得することにより、情報処理装置の操作を可能とし、課題の解決を図ることができる。   In this way, the contents of the recognition dictionary based on phonemes and phonemes are acquired from the outside as markup language attributes, arbitrary tags, and dictionary files, thereby enabling operation of the information processing apparatus and solving problems. Can do.

すなわち、コンテンツ情報に明確に含まれない単語が指定の無い限り認識辞書に含まれないため、誤認識の生じる確率が低減されると共に、音声操作をしたり、音素列や音素片列による装置制御に利用したり、情報に種類によって画像や音声を伴う認証条件を変えられるため汎用性の高い個人認証をしたり、情報処理装置間の情報交換に利用したりするために既存のマークアップ言語を拡張し音素や音素片による表記を追加したり、マークアップ言語やコンテンツに付随もしくは関連付けられた音素や音素片による辞書情報を用いたりすることによって利便性の高いユーザインタフェースを実現することができる。   That is, since words that are not clearly included in the content information are not included in the recognition dictionary unless specified, the probability of misrecognition is reduced, voice operation is performed, and device control by phoneme strings or phoneme string strings The existing markup language can be used for personal authentication with high versatility, and for information exchange between information processing devices. A highly convenient user interface can be realized by adding notations with phonemes and phonemes, and using dictionary information with phonemes and phonemes associated with or associated with markup languages and contents.

本発明はコンテンツ情報に利用されるマークアップ言語の表記に対して、変更を加えて保存したり、保存して利用したり、変更を加えた情報をそのまま利用したりする装置や変更を加えた情報を配信する配信装置と受信し認識や認識に伴う操作や応答に利用する受信端末とに用いる情報処理装置を構成することができる。より具体的にはXMLやHTMLによる例にあるように、すでにあるマークアップ言語で記載された情報を変更しタグを追加したり、変数や属性を追加したりして保存・変更・配信する方法とそれらの情報を受信して情報処理装置を操作する方法である。   In the present invention, a markup language notation used for content information is changed and saved, or saved and used, or the changed information is used as it is, and a change has been added. It is possible to configure an information processing apparatus that is used for a distribution apparatus that distributes information and a reception terminal that is received and used for recognition and operations and responses associated with recognition. More specifically, as shown in the example of XML or HTML, a method of saving, changing, and distributing information by changing information written in an existing markup language and adding a tag or adding a variable or attribute And receiving the information and operating the information processing apparatus.

<コンテンツ情報の例>
まず、本発明を用いて実施される検索や索引付けの対象となるコンテンツとコンテンツ情報について説明すると、もっぱらコンテンツとは、映画、ドラマ、写真、報道、アニメ、イラスト、絵画、音楽、プロモーションビデオ、小説、雑誌、ゲーム、論文、教科書、辞書、書籍、コミック、カタログ、ポスター、放送番組情報などを示していることが一般的によく知られているが、本発明では公共情報、地図情報、商品情報、販売情報、広告情報や予約状況、視聴状況、道路状況といった情報やアンケート、監視カメラ映像、衛星写真、ブログ、模型、人形、ロボットであっても良いし、それらの装置に具備されたカメラ・マイク・センサ入力などで得られる情報やそれらの情報や状態や状況の呼称やそれらの抽象概念や上位概念や下位概念に関する呼称を音素や音素片による記号列に展開した情報を含んでも良い。
<Example of content information>
First, the content and content information to be searched and indexed using the present invention will be described. The content is exclusively a movie, a drama, a photo, a news report, an animation, an illustration, a painting, music, a promotional video, It is generally well known that novels, magazines, games, papers, textbooks, dictionaries, books, comics, catalogs, posters, broadcast program information, etc., but in the present invention, public information, map information, products Information, sales information, advertising information, reservation status, viewing status, viewing status, road status information and questionnaires, surveillance camera images, satellite photos, blogs, models, dolls, robots, and cameras equipped in these devices・ Information obtained by microphone / sensor input, etc., names of such information, status and situation, abstract concepts, superordinate concepts and subordinate concepts It may include information that expand the designation about the symbol string by phonemes or phoneme.

また、映像の時系列的変化、音声の時系列変化、読み手の音読位置の時系列的変化を期待する文章、HTMLにおけるマークアップ言語表記による電子情報、それらにより生成された検索指標情報などであっても良く、音読位置を時間軸として解釈して句点や文や章や文章をフレームとして捕らえても良い。   In addition, there are video time-series changes, audio time-series changes, texts that expect readers' reading positions in time-series, electronic information in markup language notation in HTML, search index information generated by them, and the like. Alternatively, the reading position may be interpreted as a time axis, and a punctuation mark, sentence, chapter, or sentence may be captured as a frame.

また、コンテンツに付属するメタ情報、文字情報による文書や番組情報としてのEPGやBML、譜面情報としての音階、一般的な静止画や動画像、3次元情報としてのポリゴンデータやベクトルデータやテクスチャデータやモーションデータ(動作データ)、可視化数値データによる静止画像や動画像、宣伝や広告を目的としたコンテンツ情報等を含んでいても良く、視覚情報や聴覚情報や文字情報やセンサ情報を含む自然情報により構成されている。   Also, meta information attached to content, EPG and BML as documents and text information by character information, musical scale as musical score information, general still images and moving images, polygon data, vector data and texture data as three-dimensional information And motion data (motion data), still images and moving images based on visualization numerical data, content information for the purpose of advertisement and advertisement, etc., and natural information including visual information, auditory information, text information, and sensor information It is comprised by.

そして、従来から用いられるMPEG7などの音素(phone)ラティスを記述する <Spoken Content DS>タグを用いてコンテンツの音声内容を認識して音素列を付与するという方法が提案されているが、この方法はコンテンツ内で生じている音声情報の認識に基づいた記号列により索引付されているため、利用者がコンテンツのタイトルや出演者を音声操作によって検索できるようにするために音素表記や音素片表記といった発音記号や表音記号を用いた表記による情報の提供を行っているわけではない。   A method of recognizing the content of a content using a <Spoken Content DS> tag describing a phoneme (phone) lattice such as MPEG7 used conventionally and adding a phoneme sequence has been proposed. Is indexed by a symbol string based on the recognition of audio information generated in the content, so that the user can search for the title and performer of the content by voice operation, phoneme notation and phoneme notation Information is not provided by notation using phonetic symbols and phonetic symbols.

このため、コンテンツタイトルや出演者などの名称や表現に関わる不特定単語や固有名詞を必ずしも音声認識に利用できないため、本発明のようなシーンの説明文やタイトルや出演者名称といったコンテンツ情報にかかわる文字情報を音素展開することで併記し、タグの変数や属性としてMPEG情報内に音素記号列や音素片記号列や音節記号列をはじめ任意の発音記号や表音記号に基づく識別子を埋め込むことで音声認識への音素認識技術の利用を図ることができる。   For this reason, unspecified words and proper nouns related to the names and expressions of content titles and performers cannot always be used for speech recognition, and therefore are related to content information such as scene descriptions, titles, and performer names as in the present invention. Character information is written together by expanding the phoneme, and as a variable or attribute of the tag, an identifier based on a phonetic symbol string, phoneme symbol string, syllable symbol string, or any phonetic symbol or phonetic symbol is embedded in the MPEG information. Use of phoneme recognition technology for speech recognition can be achieved.

つまり、マークアップ言語の音声処理の対象となるタグで囲まれた部分が任意の文字列であれば、その文字列を音素記号列や音素片記号列に展開し音素記号や音素片記号を用いて認識に利用できるようにすると共に、利用者の発話から認識された音素記号列や音素片記号列との一致を評価したり、発話した音素を任意の表音文字に変換したりして表音文字同士の一致を図っても良いし、利用者の発話認識結果にもとづいた音素記号列との一致を評価して、利用者の操作対象や検索対象であるとしてもよい。また、表意記号で記載されているアットマークや鍵括弧といった文字や記号であれば適切な表音記号列による音素記号や音素片記号に変換してもよいし、複数の発話が推測できる文字列であれば、従来の音声認識のように複数の音素列や音素片列や音節記号列を与えていても良い。   In other words, if the part enclosed by the tag that is the target of speech processing in markup language is an arbitrary character string, the character string is expanded into a phoneme symbol string or phoneme symbol string, and a phoneme symbol or phoneme symbol is used. It can be used for recognition, and it is evaluated by matching the phoneme symbol string and phoneme symbol string recognized from the user's utterance, or by converting the uttered phoneme into arbitrary phonetic characters. The phonetic characters may be matched, or the phoneme symbol string based on the user's utterance recognition result may be evaluated to be the user's operation target or search target. In addition, any character or symbol such as an at sign or a key bracket described in ideograms may be converted to a phoneme symbol or phoneme symbol by an appropriate phonetic symbol string, or a character string from which multiple utterances can be estimated If so, a plurality of phoneme strings, phoneme string strings, and syllable symbol strings may be given as in conventional speech recognition.

そして、認識された音素列や音素片列をクエリとしてデータベースに与えDPやHMM等の記号列マッチング方法により検索し、検索結果に音素列や音素片列を加えて利用者から閲覧できるように一覧として検索結果を提示し、検索結果に含まれる音素列に基づいて商品を選択し、獲得した制御方法から課金や購入手続きを行うための音素列や音素片列を認識に伴い認識辞書から検出することで販売に伴う一連の処理を実施したり、パスワードを利用者発話音声特徴などにより構成された音素認識辞書や画像特徴により構成された指紋や虹彩や顔や掌紋などの認識辞書と組合せることで認証を行い課金したりすることで、物品や権利といった商品やコンテンツ情報の検索・閲覧・販売・認証・課金手続きを実現することが出来る。   Then, the recognized phoneme sequence or phoneme segment sequence is given to the database as a query and searched by a symbol sequence matching method such as DP or HMM, and the phoneme sequence or phoneme segment sequence is added to the search result so that the user can view it. The search result is presented, the product is selected based on the phoneme sequence included in the search result, and the phoneme sequence and phoneme sequence for performing the charge and purchase procedure are detected from the recognition dictionary with the recognition. By combining a password with a phoneme recognition dictionary composed of user uttered voice features and a recognition dictionary such as fingerprints, irises, faces and palmprints composed of image features By performing the authentication and charging with, it is possible to realize a search / browse / sales / authentication / billing procedure for goods and content information such as goods and rights.

このように、コンテンツの再生個所やページや表示個所といった情報内の位置に応じて認識結果として獲得されるべき任意の単語を評価するために必要な表音記号に基づく識別子や識別子列の認識辞書を切替えることで多彩な利用環境における不特定単語に対する汎用性の高い辞書構成を可能とし、動的に構成される音素や音素片を用いた表音記号による認識辞書に基づいて認識された単語を提示したり、任意の処理を実施したり、広告のURLを獲得したり、広告を提示したり、装置を操作したりすることで、利用者にコンテンツや広告の配信において利便性の高い情報の提示の実現やWebなどのインターネット環境においてCGI処理のポストやゲットに用いる変数に音素列や音素片列を利用することにより検索条件の指定をして送信したり、Webページ切替えや操作を行ったりすることができる。   In this way, an identifier or identifier string recognition dictionary based on phonetic symbols necessary for evaluating an arbitrary word to be acquired as a recognition result in accordance with a position in information such as a content reproduction location, page, or display location. Can be used to create a highly versatile dictionary structure for unspecified words in a variety of usage environments. Words recognized based on a phonetic symbol recognition dictionary using dynamically constructed phonemes and phonemes By presenting, performing arbitrary processing, acquiring the URL of the advertisement, presenting the advertisement, and operating the device, information that is highly convenient for content and advertisement distribution to the user Specifying search conditions and sending them by using phoneme strings and phoneme string sequences as variables used for CGI processing posts and get in the Internet environment such as presentation and Web Or, it is possible to and go the Web page switching and operation.

なお、日本語を音素に展開する手順はよく知られており、表意文字で得る漢字かな混じり表記を表音文字に変換する「分ち書き」プログラムを用いて「カナ表記」にした後に「カナ表記」にともなう「ローマ字」などの発音記号を用いて音素記号変換や音素片記号変換を実施し認識に用いる記号列を構成する方法があり、同様の手順で音節記号による記載を行う方法もある。   The procedure for expanding Japanese into phonemes is well known, and after converting it to “kana notation” using a “split writing” program that converts kanji-kana mixed notation obtained from ideograms into phonograms, There is a method of constructing a symbol string to be used for recognition by using phonetic symbol conversion and phoneme symbol conversion using phonetic symbols such as `` Roman characters '' accompanying `` notation '', and there is also a method of describing with syllable symbols in the same procedure .

そして、英語であれば英語音素記号や発音記号を用いて音素記号列に変換したり、国際音素記号を用いて音素記号列に変換したりすることが可能であり、任意の言語やその言語に適した音素記号や音素片記号を用いても良く、各種言語において発音辞典もあることから、言語に応じた発音記号に基づいて表音記号による識別子としての音素や表音記号を時系列的に分解した識別子としての音素片、そして、それらの表音記号を数字と対応付けて適当な文字コードにして表記したりすることにより任意の表音記号に基づくマークアップ言語を用いた情報の配信が可能となる。   If it is English, it can be converted into a phoneme symbol string using an English phoneme symbol or a phonetic symbol, or converted into a phoneme symbol string using an international phoneme symbol. Appropriate phonetic symbols and phoneme symbols may be used, and there are pronunciation dictionaries in various languages, so phonemes and phonetic symbols as phonogram identifiers are time-sequentially based on phonetic symbols according to the language. Distributing information using markup languages based on arbitrary phonetic symbols by dissociating phonemes as disassembled identifiers and expressing them as appropriate character codes in association with numbers It becomes possible.

この際、必要であれば音素記号列を音素片記号列に変換することで、検索における利便性の向上を図っても良いし、環境音識別子や音階識別子、画像識別子、動作識別子をそれぞれの環境音ラティスや音階ラティスとしたり、MPEGストリーム中に画像識別子や動作識別子のセクションを設けたり、それらの識別子の呼称に関する発音に基づいて音素列や音素片列を与えても良い。   At this time, if necessary, the phoneme symbol string may be converted into a phoneme symbol string to improve the convenience of the search. The environmental sound identifier, the scale identifier, the image identifier, and the motion identifier are assigned to each environment. It may be a sound lattice or a scale lattice, a section of image identifiers or motion identifiers may be provided in the MPEG stream, and a phoneme sequence or a phoneme segment sequence may be given based on pronunciation related to the names of these identifiers.

次に、より具体的な手順について図を用いて説明する。
〔装置構成〕
まず、本発明を適用した場合の情報処理装置1の装置構成について図1を用いて説明する。ここで、情報処理装置1は、通常汎用的なコンピュータや、専用端末、携帯移動端末等の各情報処理機器で実現される装置である。
Next, a more specific procedure will be described with reference to the drawings.
〔Device configuration〕
First, the apparatus configuration of the information processing apparatus 1 when the present invention is applied will be described with reference to FIG. Here, the information processing apparatus 1 is an apparatus that is realized by each information processing device such as a general-purpose computer, a dedicated terminal, and a portable mobile terminal.

図1に示すように、情報処理装置1は、制御部10と、記憶部20と、通信部30と、入出力部40と、操作部50と、表示部60とを備えて構成されている。ここで、各機能部は、バスを介してそれぞれ制御部10に接続されている。なお、操作部50や表示部60は任意に取外し可能な装置であってもよい。   As illustrated in FIG. 1, the information processing apparatus 1 includes a control unit 10, a storage unit 20, a communication unit 30, an input / output unit 40, an operation unit 50, and a display unit 60. . Here, each functional unit is connected to the control unit 10 via a bus. Note that the operation unit 50 and the display unit 60 may be arbitrarily removable devices.

まず、通信部30は、他の装置とLAN(Local Area Network)や、インターネット等の通信網を介して情報交換を行うための機能部である。ここで、通信部30は、一般的にイーサネット(登録商標)や、モデム、無線LAN、ケーブルテレビ装置といったコンテンツ情報を送信及び/又は受信できる装置により構成されている。   First, the communication unit 30 is a functional unit for exchanging information with other devices via a LAN (Local Area Network) or a communication network such as the Internet. Here, the communication unit 30 is generally configured by a device capable of transmitting and / or receiving content information such as Ethernet (registered trademark), a modem, a wireless LAN, and a cable television device.

つぎに、入出力部40は、他の装置や外部から情報を入出力するための機能部であり、例えばマイクやスキャナ、キャプチャボード、カメラ、センサ類等の入力装置や、スピーカやプリンタ、造形装置、表示装置等の出力装置から構成されている。   Next, the input / output unit 40 is a functional unit for inputting / outputting information from / to another device or from the outside, such as an input device such as a microphone, a scanner, a capture board, a camera, or sensors, a speaker, a printer, It consists of output devices such as devices and display devices.

記憶部20は、情報処理装置1内における情報を取得して記憶したり、制御部10により実行されるプログラムが記憶されたりする機能部である。記憶部20は、半導体記憶素子としてのROMやRAM、磁気記憶媒体としてのハードディスクや磁気テープ、光記憶媒体としてのCD(Compact Disk)やDVD(Digital Versatile Disk)等から構成されている。   The storage unit 20 is a functional unit that acquires and stores information in the information processing apparatus 1 and stores a program executed by the control unit 10. The storage unit 20 includes a ROM or RAM as a semiconductor storage element, a hard disk or magnetic tape as a magnetic storage medium, a CD (Compact Disk) or a DVD (Digital Versatile Disk) as an optical storage medium, or the like.

具体的には、記憶部20には、コンテンツ情報202と、表音記号変換テーブル204と、認識辞書情報206とを記憶しており、表音記号付加プログラム208と、認識辞書情報更新プログラム210と、音声操作プログラム212とを格納している。   Specifically, the storage unit 20 stores content information 202, a phonetic symbol conversion table 204, and recognition dictionary information 206, a phonetic symbol addition program 208, a recognition dictionary information update program 210, and the like. The voice operation program 212 is stored.

コンテンツ情報202には、外部から通信部30を介して取得されたコンテンツや、入出力部40を介して入力されたコンテンツが保存されている。また、表音記号変換テーブル204は、コンテンツ情報の中から表音記号に変換される際に参照されるテーブルであり、例えば文字列と音素等の表音記号とが対応づけられて記憶されているテーブルである。   The content information 202 stores content acquired from the outside via the communication unit 30 and content input via the input / output unit 40. The phonetic symbol conversion table 204 is a table that is referred to when the content information is converted into phonetic symbols. For example, a character string and a phonetic symbol such as a phoneme are associated with each other and stored. It is a table.

認識辞書情報206は、単語と音素列や音素片列等(以下、これら音素列等を表音記号として示す)との関係を記憶している情報である。例えば、図に示すように、項目「Title」と、対象単語として「お得キャンペーン」と、音素列(表音記号)として対象単語から展開された「o/t/o/k/u/ky/a…」とが対応づけて記憶されている。認識辞書情報206は、項目等の他にも例えば「商品名」、「商品の愛称」及び「商品の愛称に基づく音素列」といった固有名詞を登録しても良く、一般的な言語辞書に登録されないような感嘆語や罵倒を含む単語を音素列や音素片列によって動的に入替えることで多様な認識を実現する認識辞書を構成している。 The recognition dictionary information 206 is information that stores a relationship between a word and a phoneme sequence, a phoneme segment sequence, and the like (hereinafter, these phoneme sequences are indicated as phonetic symbols). For example, as shown in FIG. 2 , the item “Title”, “profit campaign” as the target word, and “o / t / o / k / u /” expanded from the target word as a phoneme string (phonetic symbol). “ky / a…” is stored in association with each other. The recognition dictionary information 206 may register proper nouns such as “product name”, “product nickname”, and “phoneme string based on product nickname” in addition to items, etc., and may be registered in a general language dictionary. A recognition dictionary that realizes various recognitions is constructed by dynamically exchanging words including exclamation words and abuse words that cannot be used by phoneme strings or phoneme string strings.

操作部50は、ユーザからの操作入力を受信する機能部であり、キーボードやマウスやカメラやリモコン(ワイヤレス含む)といった操作に伴う情報を入力する入力装置等で構成されている。また、表示部60は、情報処理装置1が出力する情報を利用者ユーザに視認させるために出力する機能部であり、ディスプレイやプロジェクタ等を含む操作に関わる表示をおこなう表示装置を用いて構成されている。   The operation unit 50 is a functional unit that receives an operation input from a user, and includes an input device that inputs information associated with an operation such as a keyboard, a mouse, a camera, and a remote controller (including wireless). The display unit 60 is a functional unit that outputs information output by the information processing apparatus 1 so that the user can visually recognize the information. The display unit 60 is configured using a display device that performs display related to operations including a display and a projector. ing.

制御部10は、記憶部20に記憶されている各種プログラムを呼び出すことにより、プログラムに対応する機能を実現するための処理を実行したり、情報処理装置1の各機能部を制御したりすることを行っている。   The control unit 10 calls various programs stored in the storage unit 20 to execute a process for realizing a function corresponding to the program or to control each functional unit of the information processing apparatus 1. It is carried out.

制御部10は、記憶部20から表音記号付加プログラム208を読み出して実行することにより、後述する表音記号付加処理を実現する。また、記憶部20から認識辞書情報更新プログラム210を読み出して実行することにより、後述する認識辞書情報更新処理を実現する。また、音声操作プログラム212を読み出して実行することにより、音声操作処理を実現する。   The control unit 10 reads out the phonetic symbol addition program 208 from the storage unit 20 and executes it, thereby realizing a phonetic symbol addition process to be described later. Moreover, the recognition dictionary information update program 210 mentioned later is implement | achieved by reading and executing the recognition dictionary information update program 210 from the memory | storage part 20. FIG. Further, the voice operation processing is realized by reading and executing the voice operation program 212.

また、制御部10は、プログラムを実行することにより、音素・音素片認識処理やタグ情報の獲得やタグ識別子の獲得や音素列・音素片列の獲得や利用者発話音声の音素・音素片認識による音素列・音素片列と辞書登録情報に関連付けられた音素列・音素片列の類似度評価により単語の選択を行うことができるとともに、入出力部からマイクを利用して音声波形を獲得し、音声認識に用いたり、スピーカを利用して本発明により獲得した音素列や音素片列を用いて音声合成により利用者に情報を提供したりしても良い。   In addition, the control unit 10 executes a program to acquire phoneme / phoneme recognition processing, tag information acquisition, tag identifier acquisition, phoneme string / phoneme string array, and phoneme / phoneme recognition of user utterance speech. Can select words based on similarity evaluation between phoneme sequence / phoneme segment sequence and phoneme sequence / phoneme segment sequence associated with dictionary registration information, and acquire speech waveform from input / output unit using microphone It may be used for speech recognition, or information may be provided to the user by speech synthesis using a phoneme sequence or phoneme segment sequence obtained by the present invention using a speaker.

なお、制御部10は、通常CPU(Central Processor Unit)やDSP、ASIC等を用いて構成されており、また、これらを任意に組合せて実現することも可能である。   Note that the control unit 10 is usually configured using a CPU (Central Processor Unit), DSP, ASIC, or the like, and can be realized by arbitrarily combining them.

<動作>
続いて、情報処理装置1が実行する各動作処理について説明する。
<Operation>
Next, each operation process executed by the information processing apparatus 1 will be described.

<表音記号付加処理>
まず、表音記号付加処理について図3を用いて説明する。図3は、表音記号付加処理を説明するための動作フローであり、制御部10が、記憶部20の表音記号付加プログラム208を読み出して実行することにより実現される処理である。
<Phonetic symbol addition processing>
First, the phonetic symbol addition processing will be described with reference to FIG. FIG. 3 is an operation flow for explaining the phonetic symbol addition processing, which is realized by the control unit 10 reading and executing the phonetic symbol addition program 208 in the storage unit 20.

まず、制御部10は、通信部30により受信されるか、入出力部40により入力されることにより保存されているコンテンツ情報202を取得する(ステップS301)。   First, the control unit 10 acquires content information 202 stored by being received by the communication unit 30 or input by the input / output unit 40 (step S301).

次に、読み込まれたコンテンツ情報202から展開対象文字列を検出する(ステップS302)。ここで、展開対象文字列とは、表示制御方法の変化を識別するための文字列(情報)であり、例えばマークアップ言語の場合を一例に取ると、リンクを示すタグ<A>や、タイトルを示すタグ<TITLE>といったものである。このタグに挟まれた範囲を対象として音素や音素片等の表音記号に展開される展開対象文字列が検出される。   Next, a development target character string is detected from the read content information 202 (step S302). Here, the expansion target character string is a character string (information) for identifying a change in display control method. For example, in the case of a markup language, a tag <A> indicating a link or a title It is a tag <TITLE> indicating A character string to be expanded that is expanded into phonetic symbols such as phonemes and phoneme pieces is detected for the range between the tags.

次に、展開対象文字列を発話に伴う発音記号からなる音素列や音素片列(表音記号)に展開する(ステップS303)。これにより、例えばタイトルやリンク先の呼称が表音記号に変換される。この展開文字列を表音記号に変換する際には、タグに含まれる情報であるALT属性やID属性といった他の属性を参照することで文字列を獲得し、音素列や音素片列へ変換することで辞書登録するための表音記号列を用いて認識辞書情報を構成したり、画像ファイル名や音楽ファイル名や映像ファイル名や文書ファイル名から音素や音素片列を構成したり、画像ファイルや音楽ファイルや映像ファイルや文書ファイル内に記載されたタグの属性やタグに挟まれた文字列を利用して音素や音素片列を構成したり、タグに挟まれた文字列から音素列や音素片列を構成したり、タグに属性として関連付けられたリンク情報を用いてリンク先にあるファイルの名称やファイルに含まれている文字情報に基づいてタグやタグの属性やタグに挟まれた文字列を利用して音素列や音素片列を構成したり、といった任意の方法を用いることで辞書に登録する表音記号列を構成する方法が考えられる。   Next, the expansion target character string is expanded into a phoneme string or a phoneme string string (phonetic symbol) composed of phonetic symbols accompanying the utterance (step S303). Thereby, for example, the title and the name of the link destination are converted into phonetic symbols. When this expanded character string is converted into phonetic symbols, the character string is acquired by referring to other attributes such as the ALT attribute and ID attribute that are information contained in the tag, and converted into a phoneme string or phoneme string string. To compose recognition dictionary information using phonetic symbol strings for dictionary registration, compose phoneme and phoneme string sequences from image file names, music file names, video file names and document file names, A phoneme or phoneme string sequence is constructed using the tag attributes and the text string sandwiched between tags, which are described in files, music files, video files, and document files, and phoneme strings are generated from the text strings sandwiched between tags. Or a phoneme segment string, or by using link information associated with the tag as an attribute, the name of the file at the link destination or the character information contained in the file is sandwiched between the tag or tag attribute or tag String Or configure the phoneme sequence and phoneme sequence by use, how to configure the phonetic symbol string registered in the dictionary by using an arbitrary method such as is conceivable.

具体的には、表音記号変換テーブル204を用いて表音記号に変換される。例えば、タイトルタグに囲まれた文字列「メイン」に対して、表音記号変換テーブル204を参照し表音記号として「m/e/i/n/」と変換される。   Specifically, the phonetic symbols are converted into phonetic symbols using the phonetic symbol conversion table 204. For example, a character string “main” surrounded by title tags is converted to “m / e / i / n /” as a phonetic symbol by referring to the phonetic symbol conversion table 204.

また、このような表音記号への展開を行わなくても既にコンテンツ情報自体のタグとして表音記号展開された属性を与えている場合もあり、認識に用いるための表音記号列による認識表音記号列が構成されていてもよく、例えばコンテンツ情報を獲得するステップS401を実施した後に図4から図7に示されるようなマークアップ言語情報から付随するメタ情報から「pronounce属性」を検出するステップS402を実施し、検出された「pronounce属性」の変数として記述されている音素や音素片からなる表音記号列を抽出し、抽出された表音記号列と「pronounce属性」が検出されたメタ情報とを関連付けて辞書情報として登録するステップS403を実施することにより、音声操作プログラムを用いたり、情報処理装置が認識可能な発話音を表記する表音記号列に関連付けられたメタ情報としてのタグやCGIなどを用いる処理内容や遷移先ページを特定したり、することで任意の処理や手順や操作を指定して、動的な表音記号列を用いた認識を実現する。   In addition, there is a case where the attribute of the phonetic symbol expansion is already given as a tag of the content information itself without performing such development to the phonetic symbol, and the recognition table by the phonetic symbol string to be used for recognition is used. The phonetic symbol string may be configured. For example, after performing step S401 for acquiring the content information, the “pronounce attribute” is detected from the accompanying meta information from the markup language information as shown in FIGS. Step S402 is performed, and a phonetic symbol string composed of phonemes and phoneme pieces described as a variable of the detected “pronounce attribute” is extracted, and the extracted phonetic symbol string and “pronounce attribute” are detected. By executing step S403 of associating with meta information and registering it as dictionary information, a table that uses a voice operation program or expresses an utterance sound that can be recognized by the information processing apparatus A dynamic phonetic symbol string that specifies any processing, procedure, or operation by specifying a processing content or transition destination page using a tag or CGI as meta information associated with the phonetic symbol string, Realize recognition using.

この結果、表音記号保存処理が実行され表音記号認識に用いる認識表音記号列が保存される(ステップS304)。表音記号保存処理とは、ステップS303において変換された認識に用いる表音記号を保存する処理であり、例えば、それぞれのタグに既に属性として記録されている表音記号を抽出したり、タグに挟まれた文字列から展開して新しく属性として表音記号(音素列や音素片列)を追加する処理(ステップS304a)や、それぞれのタグに音声の認識対象であることを示すタグや属性をコンテンツ情報に追加したりする処理(ステップS304b)や、認識させたい固有名詞を分離し表音記号に変換し認識表音記号列を構成することで認識辞書情報206を構成して更新する処理(ステップS304c)が実行される。これにより、コンテンツ情報と認識に利用したい単語の音素列や音素片列からなる表音記号列としての認識表音記号列とを明確にする処理が実施されることとなる。   As a result, the phonetic symbol storage process is executed, and the recognized phonetic symbol string used for phonetic symbol recognition is stored (step S304). The phonetic symbol storage processing is processing for storing the phonetic symbols used for recognition converted in step S303. For example, the phonetic symbols that are already recorded as attributes in the respective tags are extracted, A process (step S304a) of adding a phonetic symbol (phoneme string or phoneme fragment string) as a new attribute by expanding from the sandwiched character string, and a tag or attribute indicating that each tag is a speech recognition target Processing to add to content information (step S304b), processing to configure and update recognition dictionary information 206 by separating proper nouns to be recognized, converting them into phonetic symbols, and forming recognition phonetic symbol strings ( Step S304c) is executed. Thus, processing for clarifying the content information and the recognized phonetic symbol string as a phonetic symbol string including a phoneme string or a phoneme string string of a word to be used for recognition is performed.

そして、制御部10は、変更されたコンテンツ情報202を更新保存したり、関連付けられた認識表音記号列からなる音素や音素片を用いた表音記号認識のための認識辞書情報を更新保存したりする(ステップS305)。これにより、利用者の発話の認識や通信部経由での配信に変更されたコンテンツ情報を利用できるようにする。   Then, the control unit 10 updates and saves the changed content information 202, and updates and saves recognition dictionary information for phonetic symbol recognition using phonemes and phonemes composed of associated recognition phonetic symbol strings. (Step S305). This makes it possible to use the content information changed to the recognition of the user's utterance and the distribution via the communication unit.

なお、上述した処理は、情報処理装置1が実行することとして説明したが、コンテンツ情報を配信する配信装置(サーバ)側が実行することで受信側の音素列への変換にともなう情報の処理負担を減らすようにしても良い。配信装置側が実行することにより、利用者からのコンテンツ情報の呼び出しに応じて配信装置は音声による制御情報の付随したコンテンツ情報を配信する。したがって、情報処理装置1(端末装置)はコンテンツのページやフレーム応じて分類された音素情報が情報処理装置で獲得可能となり制約の少ない任意単語を音声利用することができるようになる。   Although the above-described processing has been described as being executed by the information processing device 1, the processing load of information accompanying conversion to a phoneme string on the receiving side is executed by the distribution device (server) side that distributes content information. You may make it reduce. When the distribution apparatus executes, the distribution apparatus distributes content information accompanied by voice control information in response to a call of content information from a user. Therefore, the information processing device 1 (terminal device) can acquire phoneme information classified according to the page and frame of the content by the information processing device, and can use voice of arbitrary words with less restrictions.

ここで、表音記号付加処理を実行した場合の動作例について、図を用いて説明する。まず図4は、情報処理装置1が取得したコンテンツ情報202の様子を示した図である。ステップS301が実行されることにより、通信部30又は入出力部40からコンテンツ情報202を取得し、記憶部20に保存する。   Here, an operation example when the phonetic symbol addition processing is executed will be described with reference to the drawings. First, FIG. 4 is a diagram showing the state of the content information 202 acquired by the information processing apparatus 1. By executing step S301, the content information 202 is acquired from the communication unit 30 or the input / output unit 40 and stored in the storage unit 20.

そして、表音記号(音素列・音素片列)による評価対象として目的となるタグに関連する情報を検出する(ステップS302)。なお、図4の情報はステップS302で抽出処理を実行する場合に、RSSのアイテムセクションを用いたコンテンツ情報例であり、アイテムセクションから対象文字列を抽出して変換処理を施したものが図5又は図6として記載されている。   And the information relevant to the tag used as the evaluation object by the phonetic symbol (phoneme sequence / phoneme segment sequence) is detected (step S302). Note that the information in FIG. 4 is an example of content information using an RSS item section when the extraction process is executed in step S302. FIG. 5 shows an example in which a target character string is extracted from the item section and converted. Or it is described as FIG.

そして、取得したコンテンツ情報に含まれるタグの中から、展開対象文字列の対象となるタグが検出されたら、そのタグで指定されている範囲の文字列を検出する。例えば図4ではタイトルを意味するタグ「<title>」から「</title>」までの間に挟まれた「お得キャンペーン」を表音記号列への展開対象文字列として検出する。この際、不要な括弧記号を削除してもよく、この文字列の抽出によって配信側の指定した任意のタイトル文字列を取得できる。   When a tag that is the target of the expansion target character string is detected from the tags included in the acquired content information, the character string in the range specified by the tag is detected. For example, in FIG. 4, a “profit campaign” sandwiched between tags “<title>” and “</ title>” meaning a title is detected as a character string to be expanded into a phonetic symbol string. At this time, unnecessary parenthesis symbols may be deleted, and an arbitrary title character string designated by the distribution side can be acquired by extracting the character string.

そして、取得できた文字列を確認し、表音記号変換テーブル204を用いて文字列の発音に従った表音記号列に変換する。そして、図5に示すように、もともとのコンテンツ情報202に記載されたタグに属性や変数として例えば新規にpronounce属性を追加して表音記号列を追記する処理や(ステップS304a)、図6に示すように、<pronounce>〜</pronounce>タグを新たに設定する処理や、表音記号と認識する単語や命令を関連付けて認識辞書情報206として保存すると共に、認識辞書情報206をコンテンツ情報202に認識辞書情報206の獲得先としてURLを<META>タグなどにより記載し関連付ける処理(ステップS304c)等が実行されコンテンツ情報に表音記号認識に用いる表音記号列情報を追記したり関連付けたりすることが可能となる。   Then, the acquired character string is confirmed and converted into a phonetic symbol string according to the pronunciation of the character string using the phonetic symbol conversion table 204. Then, as shown in FIG. 5, for example, a new pronouncation attribute is added as an attribute or variable to the tag described in the original content information 202 to add a phonetic symbol string (step S304a), and FIG. As shown in the figure, processing for newly setting <pronounce> to </ pronounce> tags, a word and a command recognized as a phonetic symbol are associated and stored as recognition dictionary information 206, and the recognition dictionary information 206 is stored as content information 202. A process of describing and associating a URL with a <META> tag or the like as the acquisition destination of the recognition dictionary information 206 (step S304c) or the like is executed, and phonogram symbol string information used for phonogram recognition is added to or associated with content information It becomes possible.

そして、前述の変更を行ったコンテンツ情報202を他の端末に直接配信したり、装置内で利用したりすることで表音記号(音素や音素片や発音記号や発音記号片)に基づいた操作を行えることとなる。   Then, the operation based on phonetic symbols (phonemes, phonemes, phonetic symbols, phonetic symbols) by distributing the content information 202 with the above-mentioned changes directly to other terminals or using it in the device. Will be able to.

また、例えばMPEG7では図7のように、「<Pronounse DS>」タグを追加して、コンテンツ種別の音素列を記載したり、背後にある環境音として「Rainsound」が生じていると併記したり、フレーズタグに置ける出演者に関する表記に対して属性として配役名の音素記号列「pronounce=”t/o/m/u”」を加えている。また、HTMLではボタンやリンクに関連付けた構成の実施例を提示しており、任意のタグで挟まれた範囲をキーワードとして検索し、コンテンツの閲覧検索に役立てたり、操作のための発音を音素記号列として提供したりしてもよいし、獲得された音素や音素片といった表音記号列を情報処理装置1における音声合成発話のための発話音素や発話音素片の単語辞書に用いてもよい。   In addition, for example, in MPEG7, as shown in FIG. 7, a “<Pronounse DS>” tag is added to describe a phoneme string of content type, or “Rainsound” is generated as an environmental sound behind. The phonetic symbol string “pronounce =” t / o / m / u ”” is added as an attribute to the notation about the performer that can be placed in the phrase tag. In addition, HTML presents an example of a configuration associated with a button or link, and a range between arbitrary tags is searched as a keyword, which is useful for browsing and searching for content, and pronunciation for operation is a phoneme symbol. It may be provided as a sequence, or a phonetic symbol sequence such as acquired phonemes or phonemes may be used in a word dictionary of speech phonemes or speech phonemes for speech synthesis speech in the information processing apparatus 1.

このように、表音記号付加処理によれば、取得されたコンテンツ情報に基づいて音声操作を行うための表音記号を付加することで表音記号認識に用いる表音記号辞書に組込むための表音記号列情報を含むコンテンツ情報を構成することができる。   Thus, according to the phonetic symbol addition processing, a table for incorporation into the phonetic symbol dictionary used for phonetic symbol recognition by adding a phonetic symbol for performing voice operation based on the acquired content information. Content information including phonetic symbol string information can be configured.

<認識辞書情報更新処理>
次に、コンテンツ情報202に、すでに表音記号が付加されている場合における認識辞書情報更新処理について図8を用いて説明する。図8は、認識辞書情報更新処理に係る動作フローを示した図であり、制御部110が、記憶部120の認識辞書情報更新プログラム210を実行することにより実現される処理である。
<Recognition dictionary information update process>
Next, a recognition dictionary information update process in the case where a phonetic symbol has already been added to the content information 202 will be described with reference to FIG. FIG. 8 is a diagram illustrating an operation flow related to the recognition dictionary information update process, which is a process realized when the control unit 110 executes the recognition dictionary information update program 210 of the storage unit 120.

まず、制御部10は、コンテンツ情報202を取得する(ステップS401)。次に、制御部10は、読み出されたコンテンツ情報202から表音記号列を抽出する(ステップS402)。本実施形態においては、コンテンツ情報202に含まれるタグ(「<」と「>」に挟まれた部分)を抽出することにより、表音記号列が含まれているタグを特定し抽出することとなる。   First, the control unit 10 acquires content information 202 (step S401). Next, the control unit 10 extracts a phonetic symbol string from the read content information 202 (step S402). In the present embodiment, by extracting a tag (a portion sandwiched between “<” and “>”) included in the content information 202, a tag including a phonetic symbol string is specified and extracted. Become.

例えば、制御部10がタイトルタグ「<TITLE>」の「pronounce属性」を抽出することにより、その引数である表音記号として、音素記号列「o/t/o/k/u…」を抽出する。そして、抽出された音素列をページタイトルとして保存するとともに認識辞書情報206に登録する(ステップS403)。   For example, the control unit 10 extracts the “pronounce attribute” of the title tag “<TITLE>” to extract the phoneme symbol string “o / t / o / k / u... To do. Then, the extracted phoneme string is stored as a page title and registered in the recognition dictionary information 206 (step S403).

なお、これらの辞書をページの切替えに応じて変化する表示内容にしたがって切替えることで表示内容に無い単語による誤認識を避けることが可能となり音声認識率の改善を図り操作性を向上させても良いし、コンテンツ情報に任意のタグや文字列を用いて関連付けられた辞書情報のURLなどから必要な音素列を獲得し認識単語や制御方法への関連付けを行う辞書情報を更新しても良い。   In addition, by switching these dictionaries according to the display contents that change according to the page switching, it is possible to avoid erroneous recognition due to words that are not in the display contents, thereby improving the speech recognition rate and improving operability. Then, a necessary phoneme string may be acquired from a URL or the like of dictionary information associated with content information using an arbitrary tag or character string, and dictionary information for associating with a recognized word or control method may be updated.

また、配信されるコンテンツ情報に音素列や音素片列が記載されていなかったり、関連する音素辞書が関連付けられていなかったりした場合、前述の音素列・音素片列を埋め込む手順に従って音素や音素片の記号列をコンテンツ中から構成し、辞書情報を構築しても良く、構成された辞書情報は同一の単語が用いられているか否かを検出することで利用可能であれば再利用しても良い。   In addition, when the phoneme sequence or phoneme sequence is not described in the content information to be distributed or the related phoneme dictionary is not associated, the phoneme or phoneme sequence is performed according to the procedure for embedding the phoneme sequence / phoneme sequence. May be constructed from the content to construct dictionary information, and the constructed dictionary information may be reused if it can be used by detecting whether or not the same word is used. good.

また、制御用認識辞書を構成する場合に音素記号列が変化しない制御命令であれば図9の様に制御命令に関連したIDと命令単語と音素列を関連付けた辞書を用いて制御用の命令単語を特定するIDを命令弁別用IDとして記載したコンテンツ情報の配信や記憶媒体への記録を実施したのち、通信部から受信したコンテンツ情報や記憶媒体から獲得したコンテンツ情報に関連付けられた情報において音素情報や音素片情報を記載する個所に記載された命令弁別用IDから命令用単語を特定し、特定された命令単語から音素や音素片への変換機能を行うことで音素列や音素片列を構成し認識に用いたり、前記制御命令に関連付けられた音素列や音素片列に基づくハッシュ値を命令弁別用IDに用いたりすることで、冗長になりやすい送信時の音素列表現を短縮し通信効率の改善を図っても良い。   If the control command does not change the phoneme symbol string when the control recognition dictionary is configured, the control command using the dictionary in which the ID related to the control command, the command word, and the phoneme sequence are associated as shown in FIG. After the distribution of the content information in which the ID for specifying the word is described as the command discrimination ID and the recording to the storage medium, the phoneme is used in the information associated with the content information received from the communication unit or the content information acquired from the storage medium. The command word is specified from the command discrimination ID described in the location where the information or phoneme information is described, and the phoneme string or phoneme string is converted by performing the conversion function from the specified command word to the phoneme or phoneme. Sounds at the time of transmission that tend to be redundant by configuring and using for recognition, or by using a hash value based on a phoneme sequence or phoneme segment sequence associated with the control command as an instruction discrimination ID To shorten the string representation may be working to improve the communication efficiency.

また、記憶媒体や通信手段を経由して獲得され記憶部に保存されたコンテンツ情報202に関し、表音記号への変換や追加がなされて無い場合は前述の方法で内容の解釈を行い当該情報処理装置1に応じた識別子列による表音記号へ変換し、既にコンテンツ情報202の内容に対して表音記号の記載や変換や更新が既になされている場合はコンテンツ情報202の内容に対する変換や更新をしなくてもよい。   In addition, regarding the content information 202 acquired via the storage medium or the communication means and stored in the storage unit, when the conversion to the phonetic symbol or addition is not performed, the content is interpreted by the above-described method and the information processing is performed. Conversion to a phonetic symbol by an identifier sequence corresponding to the device 1, and if the content of the content information 202 has already been described, converted or updated, the content of the content information 202 is converted or updated. You don't have to.

また、これらの変換はコンテンツ情報配給者や利用者の状況によりサーバ側で変換して配信しても、クライアントで受信したものを適宜変換しても、装置単体で外部の記憶媒体から獲得した情報を自装置で利用可能なように変換しても、ゲートウエイやルータなどの中継手段を用いて変換しても良い。   In addition, these conversions are information obtained from an external storage medium by a single device, whether it is converted and distributed on the server side depending on the situation of the content information distributor or user, even if it is properly converted by the client May be converted so that it can be used by the device itself, or may be converted using relay means such as a gateway or a router.

<音声操作処理>
次に、音声操作処理について、図10を用いて説明する。まず、制御部10は、通信部30又は入出力部40に取得されたコンテンツ情報や、記憶部20に保存されているコンテンツ情報202を取得する(ステップS501)。
<Voice operation processing>
Next, the voice operation process will be described with reference to FIG. First, the control unit 10 acquires content information acquired in the communication unit 30 or the input / output unit 40 and content information 202 stored in the storage unit 20 (step S501).

次に、取得されたコンテンツ情報から、音素や音素片などにより構成された表音記号を抽出する(ステップS502)。そして、抽出された表音記号に基づいて認識辞書情報206を更新登録する(ステップS503)。   Next, phonetic symbols composed of phonemes and phoneme pieces are extracted from the acquired content information (step S502). Then, the recognition dictionary information 206 is updated and registered based on the extracted phonetic symbols (step S503).

次に、利用者からの発話に基づく音声入力が入出力部40からあるまで待機する(ステップS504;No)。ここで、利用者から音声入力がなされると(ステップS504;Yes)、制御部10は入力された利用者の音声の特徴量を抽出する(ステップS505)。そして、抽出された特徴量から音素や音素片といった表音記号を認識し、表音記号に変換する(ステップS506)。   Next, it waits until there is a voice input based on the utterance from the user from the input / output unit 40 (step S504; No). Here, when a voice input is made by the user (step S504; Yes), the control unit 10 extracts a feature amount of the input voice of the user (step S505). Then, phonetic symbols such as phonemes and phoneme segments are recognized from the extracted feature quantities and converted into phonetic symbols (step S506).

そして、ステップS506において変換された表音記号と、先に認識辞書に登録された表音記号とがどの程度一致しているかを判定する一致評価を実行する(ステップS507)。この一致評価は本装置の記憶部に記憶されている音響や音声の標準モデルや標準パラメータや標準テンプレートとの一致度を評価関数によって評価し評価結果としての表音記号を特定する。そして、一致評価に基づいて特定された表音記号を時系列的に複数得ることで表音記号列を特定する。そして、特定された表音記号列に一番類似度の高い表音記号列を表音記号の認識結果とし、認識結果に関連付けられた情報に伴い、装置操作や検索処理を実行する(ステップS508)。   Then, a coincidence evaluation is performed to determine how much the phonetic symbols converted in step S506 match the phonetic symbols previously registered in the recognition dictionary (step S507). In this coincidence evaluation, the degree of coincidence with a standard model, standard parameter, or standard template of sound or speech stored in the storage unit of the present apparatus is evaluated by an evaluation function, and a phonetic symbol as an evaluation result is specified. Then, the phonetic symbol string is specified by obtaining a plurality of phonetic symbols specified based on the coincidence evaluation in time series. Then, the phonetic symbol string having the highest similarity to the identified phonetic symbol string is set as the phonetic symbol recognition result, and device operation and search processing are executed in accordance with the information associated with the recognition result (step S508). ).

ここで、認識結果に伴う処理とは、例えば本発明を用いた表音記号列の認識によって実現される固有名詞を伴う文字列の生成や各動作命令や情報もしくは商品に関する検索の実行や表音記号列の認識に伴い特定された一連の利用者への情報提示や利用者の指示ずる操作等である。具体的には、ウェブブラウザのページ切替えやテレビやビデオの操作、ロボットやナビゲーション装置やコンピュータや映像音響機器もしくは調理器もしくは洗濯機もしくはエアコンといった家電の音声や文字や画像や映像による応答、検索条件の指示、情報処理装置が提示する情報の保存や変更や登録や削除、認識結果に伴う広告や番組内容の指定や閲覧、キーワードや発話特徴による個人認証といった一連の処理や操作である。また、顔や指紋などの画像認識辞書と音素や音素片による表音記号列を用いた固有名詞を伴う認識辞書と話者ごとの音素や音素片に基づく音響モデルとを関連付けることで合言葉による個人認証を行っても良く、認証に伴い課金やサービスの選別を行うことが出来る。   Here, the process associated with the recognition result is, for example, generation of a character string with proper nouns realized by recognition of a phonetic symbol string using the present invention, execution of a search for each operation command, information or product, and phonetic For example, information is presented to a series of users identified in accordance with the recognition of the symbol string, and an operation is instructed by the user. Specifically, web browser page switching, TV and video operations, robots, navigation devices, computers, audiovisual equipment, cooking appliances, washing machines, air conditioners, responses by voice, text, images, and video, search conditions Is a series of processes and operations such as storing, changing, registering and deleting information presented by the information processing apparatus, specifying and browsing advertisements and program contents associated with recognition results, and personal authentication based on keywords and utterance characteristics. In addition, by using an image recognition dictionary such as face or fingerprint, a recognition dictionary with proper nouns using phonetic symbol strings based on phonemes or phonemes, and an acoustic model based on phonemes or phonemes for each speaker, Authentication may be performed, and charging and service selection can be performed along with the authentication.

具体的には、利用者からの質問に答えるための音声合成に先ほどの認識辞書で登録されている音素列や音素片列による単語を発話させることで、認識可能な単語を明示したり、認識結果に応じて任意の操作を実施したり、認識結果に応じて認識された文字列や単語列を提示したり、音素列や音素片列に関連付けられた広告を行ったりすることが、従来の音声認識技術との組合せにより出来るようになる。   Specifically, by recognizing or recognizing a recognizable word by uttering a word with a phoneme sequence or phoneme sequence registered in the recognition dictionary for speech synthesis to answer a user's question. Performing any operation according to the result, presenting the recognized character string or word string according to the recognition result, or performing an advertisement associated with the phoneme string or phoneme string string, It becomes possible by combining with voice recognition technology.

そして、次の音声入力を実施するか否かを判断する(ステップS509)。ここで、再度音声入力がされる場合は(ステップS509;Yes)、音声が入力されることを待機する処理としてステップS504に処理が戻る。また、音声の入力がされない場合(ステップS509;No)、次のコンテンツ情報を獲得するか否かを判断する(ステップS510)。ここで、次のコンテンツ情報を獲得する場合は(ステップS510;Yes)、新たにコンテンツを獲得するためにステップS501から処理を繰り返し実行する。また、新たにコンテンツ情報を獲得しない場合には(ステップS510;No)、処理を終了し利用者の発話を待つといった一連の処理を行う。   Then, it is determined whether or not the next voice input is performed (step S509). If the voice is input again (step S509; Yes), the process returns to step S504 as a process for waiting for the voice to be input. If no voice is input (step S509; No), it is determined whether or not to acquire the next content information (step S510). Here, when acquiring the next content information (step S510; Yes), in order to acquire a new content, a process is repeatedly performed from step S501. If new content information is not acquired (step S510; No), a series of processes such as ending the process and waiting for the user's utterance are performed.

すなわち、本発明を利用する装置は獲得されたマークアップ言語による情報から音素や音素片といった表音記号による識別子や識別子を特定するための特徴量を用いて利用者が音声操作を行える箇所をマークアップ言語情報から獲得するとともに、必要であれば指紋や表情や掌紋などの画像や動作に関連する任意の識別子を獲得し組合せることで個人認証などに利用したり、認識によるエージェントやロボットの対応動作に利用したりすることもできる。   That is, the apparatus using the present invention marks a place where a user can perform a voice operation by using an identifier by a phonetic symbol such as a phoneme and a phoneme from the information in the acquired markup language and a feature amount for specifying the identifier. Acquired from up-language information, and if necessary, it can be used for personal authentication by acquiring and combining images and actions such as fingerprints, facial expressions, palm prints, etc. It can also be used for operation.

そして、利用者の発話や入力により得られた識別子や特徴量によって従来マウス操作で行われる選択処理を実施し、テーブルタグの任意の行や列、リンクや操作ボタンにフォーカスを与えたり、カーソルをオーバラップさせたり、これらの操作に伴うイベントをオペレーティングシステムからブラウザへ発行したり、赤外線やLANや電話回線等といった通信手段を用いて他の装置を制御したり、認識された単語に応じてエージェントやロボット対応動作を変化させたりすることで、音素や音素片と言った表音記号列の認識に伴う一連の処理を実施することができる。   A selection process conventionally performed by mouse operation is performed based on identifiers and feature values obtained by user's utterances and inputs, and focus is given to any row or column, link or operation button of the table tag, or the cursor is moved. Overlapping, issuing events associated with these operations from the operating system to the browser, controlling other devices using communication means such as infrared, LAN and telephone lines, and agents according to recognized words By changing the robot-corresponding operation, a series of processes associated with recognition of phonetic symbol strings such as phonemes and phoneme pieces can be performed.

そして、ステップS501により獲得されたコンテンツ情報は、タグ内の「pronounce」属性情報を検出(ステップS502)し、認識辞書情報206に登録(ステップS503)する。このとき、認識用の表音記号列がどのようなタグと関連付けられているかを同時に登録することで、画面構成情報の表示位置や表示項目を前後のタグとの組合せによってブラウザにおける各タグを処理する際の表示位置を特定したり、MPEG7などにおけるコンテンツ情報中のシーンやタイトルや時系列位置を示すタグとの関連付けによってシーン位置を特定したり、地図情報を表記するXMLなどによって緯度経度による空間位置情報や地名や地域の情報や店舗の情報と関連付けたりすることで物理的な位置を特定したりできるようになる。   The content information acquired in step S501 detects the “pronounce” attribute information in the tag (step S502) and registers it in the recognition dictionary information 206 (step S503). At this time, by registering what kind of tag is associated with the phonetic symbol string for recognition, each tag in the browser is processed by combining the display position and display item of the screen configuration information with the preceding and following tags. Space for latitude / longitude by specifying the display position at the time of mapping, specifying the scene position by associating it with the tag indicating the scene, title and time-series position in the content information in MPEG7, etc. The physical position can be specified by associating it with the position information, the place name, the area information, or the store information.

続けて、図11から図14を用いて音声操作処理の動作例について説明する。利用者が「一行目、起案者」と発音した場合テーブルタグのカラム選択において最上位の行に記載されたテーブルタグのpronounce属性を用いてi/ch/i/gy/o/u/m/eとk/i/a/n/sh/aといった音素列と利用者の発話音素との一致を認識辞書から確定する。この結果、発話の音素列にあった「起案者」列を選択し、行を指定するタグにある「一行目」を選択することで「一行目」の「起案者」が選択される(ステップS506)。   Next, an example of the voice operation process will be described with reference to FIGS. When the user pronounces “first line, drafter” i / ch / i / gy / o / u / m / using the table tag's “pronounce” attribute in the top row in table tag column selection A match between the phoneme sequence such as e and k / i / a / n / sh / a and the user's utterance phoneme is determined from the recognition dictionary. As a result, the “drafter” column in the phoneme column of the utterance is selected, and the “first row” in the tag for designating the row is selected, so that the “first drafter” is selected (step) S506).

また、図11にあるHTMLのそれぞれの送信ボタンに属性として設けられた音素列が検出された場合はフォームタグの指定に従っての送信を行ったり、利用者発話の音素列を認識し「ts/u/g/i/e」との一致度が高ければリンク先へ移動したりすることでウエッブブラウジング処理を行うことが出来る。そして、ページ間の移動の際に「移動しますか?」といった質問を利用者に音声や文字列や画像や映像によって提供する(ステップS506)といった利用者への応対を伴うエージェントやロボットなどの対話処理を行っても良いし、顔や指紋などの画像認識辞書と音素や音素片による表音記号列を用いた固有名詞を伴う認識辞書と話者ごとの音素や音素片に基づく音響モデルとを関連付けることで合言葉による個人認証を行っても良い。   If a phoneme string provided as an attribute for each HTML transmission button shown in FIG. 11 is detected, transmission is performed according to the designation of the form tag, or the phoneme string of the user utterance is recognized and “ts / u If the degree of coincidence with “/ g / i / e” is high, the web browsing process can be performed by moving to the link destination. Then, when moving between pages, an agent such as an agent or a robot that responds to the user such as providing a question such as “Do you want to move?” To the user by voice, character string, image, or video (step S506). Dialogue processing may be performed, image recognition dictionaries such as faces and fingerprints, recognition dictionaries with proper nouns using phonetic symbols and phonemes and acoustic models based on phonemes and phonemes for each speaker It is also possible to perform personal authentication using secret words by associating.

次に、利用者から見た場合のブラウザ画像を提示して説明すると図11をHTMLブラウザで表示した場合、図12のようになる、ここで「イチギョウメ」という発話をすると属性の「i/ch/i/g/y/o/u/m/e」というpronounce属性の音素列にしたがって、図13のように一行目にフォーカスB300が設定され、「ショウサイ」という発音にしたがってpronounce属性の音素列が「sh/o/u/s/a/i」と記載されているボタンB302に対し図14のように選択された後にクリック処理が実施されフォームが送信される(ステップS506)。   Next, when the browser image viewed from the user is presented and explained, when FIG. 11 is displayed with an HTML browser, it becomes as shown in FIG. 12. Here, when the utterance “Ichiyoume” is spoken, the attribute “i / ch” is displayed. The focus B300 is set in the first line as shown in FIG. 13 in accordance with the phoneme string of the “pronounced attribute” / i / g / y / o / u / m / e ”, and the phoneme string of the“ pronounced ”attribute is set in accordance with the pronunciation“ shosai ” Is selected as shown in FIG. 14 for the button B302 in which “sh / o / u / s / a / i” is written, a click process is performed and a form is transmitted (step S506).

この際、詳細ボタンがたくさん表示されると、どのボタンかわからなくなるので「装置側から何行目ですか?」とアナウンスしたり「起案番号は幾つですか?」と利用者に提示した内容から容易に類推できる対象の音素列や音素片列を取得できるように質問したりすることで音声や表示によるインタラクティブな処理を実施しても良いし、それらの発話内容を単語や発話記号列やボイスXMLで提供してもよい。   At this time, if a lot of detailed buttons are displayed, it will not be understood which button, so it will be announced from the contents of the announcement “How many lines are there from the device side” or “How many draft numbers?” Interactive processing by voice or display may be performed by asking questions so that target phoneme sequences or phoneme segment sequences that can be easily analogized can be obtained. It may be provided in XML.

このようなイベントを受け取ったブラウザはそれらのイベントに従って事前に設定されている処理を実施し、例えばHTMLにおける<a>タグであれば、指定のリンク先へアクセスし任意のウエッブページや画像や映像や音楽や商品情報を獲得したり、「<INPUT TYPE="button">」や「<INPUT TYPE="submit">」、「<INPUT TYPE="image">」、「<BUTTON TYPE="〜">」といった操作入力タグであれば該当のボタンや画像が押下された状態へHTML処理を遷移させたり、「<FRAME>」タグであれば、フレームの名称に従ってフレームの選択を行ったり、「<SELECT>」タグであれば、利用者の発話した音素、音素片による発音記号列のあるセレクトタグにフォーカスを移し、オプションタグの中から選択候補を構成し、任意の項目を選択したり、「<HR>」や「<A NAME="">」タグであれば、そのタグに変数や属性として関連付けられた音素や音素片による発音記号列を用いて関連するタグのある目的の行までスクロールしたり、「<TITLE>」タグであればタグで挟まれた範囲を発音記号列に展開するとともに自身のURLと関連付けてブックマークに記憶するといった処理が実施できる(ステップS506)。   A browser that has received such an event performs processing set in advance according to those events. For example, in the case of an <a> tag in HTML, a specified link destination is accessed and an arbitrary web page, image, or video is displayed. , Music and product information, "<INPUT TYPE =" button ">", "<INPUT TYPE =" submit ">", "<INPUT TYPE =" image ">", "<BUTTON TYPE =" ~ If it is an operation input tag such as “>”, the HTML process is shifted to a state where the corresponding button or image is pressed, and if it is a “<FRAME>” tag, a frame is selected according to the name of the frame, or “ If it is a <SELECT> tag, the focus shifts to the select tag with phonetic symbols and phonetic symbol strings generated by the user, configures selection candidates from the option tags, selects any item, If it ’s a “<HR>” or “<A NAME="”>” tag, Scroll to the target line with the related tag using the phonetic symbol string associated with the variable or attribute of the tag as a variable or attribute, or if the tag is a <TITLE> tag, It is possible to execute a process of expanding the phonetic symbol string and storing it in the bookmark in association with its own URL (step S506).

もちろん、これらの表音記号による認識はスクリプトなどと連携してこれらの処理を実施してもよいし、「<EMBED SRC="">」や「<OBJECT>」、「<APPLET CODE="">」などのタグによって任意の拡張機能を追加し、それらのプログラムへの変数や属性として与えたり、それらを外部から操作するための命令や表音記号である音素や音素片や発音記号による識別子列や特徴量に用いたり、スクリプトと連携して利用するための情報に用いたり、スクリプトの制御条件に用いたりしても良い。   Of course, recognition by these phonetic symbols may be performed in cooperation with a script or the like, or "<EMBED SRC =" ">", "<OBJECT>", "<APPLET CODE =" " Add arbitrary extension functions with tags such as ``> '', give them as variables and attributes to those programs, and identifiers by phonemes, phonemes and phonetic symbols that are instructions and phonetic symbols for operating them externally It may be used for columns and feature quantities, for information used in conjunction with scripts, or for script control conditions.

また、例えばXMLやRDFを用いたRSSやMPEG7であれば、図4のようなアイテムセクションを選択対象とするために図5のような変数や属性の追加や図6のようなタグの追加による変更を加える方法をとっても良く、RDFの「Dublin Core」に基づく要素タイプに「pronounce」要素を追加して、音素や音素片によるシーン名や役者、配役名の呼称表記を行ったり、「img-type」や「img-position」要素を追加して画像の表示位置や特徴量を記載したり、「motion」要素を追加して画面内の動作を表記したり、「env- sound」要素を追加して環境音識別子や特徴量を記載したりしても良い。   For example, in the case of RSS or MPEG7 using XML or RDF, in order to select an item section as shown in FIG. 4, addition of variables and attributes as shown in FIG. 5 or addition of tags as shown in FIG. You can use a method of adding changes, adding a “pronounce” element to the element type based on the “Dublin Core” of RDF, and naming the scene names, actors, and cast names with phonemes and phonemes. "type" and "img-position" elements are added to describe the display position and feature amount of the image, "motion" elements are added to describe the operation in the screen, and "env-sound" elements are added Then, environmental sound identifiers and feature quantities may be described.

また、図11では表音文字であるカナ発音のための音節表記用のタグや音素用のタグを示しているが、これらのタグは音素片、入力映像による画像識別子などであってもよく、例えば、利用者の音声や表情から怒っていることが認識された場合や画像内から特定の識別子が検出された場合に処理されるスクリプトや内容の提示、リンク先への移動といった処理を実施してもよい。   Further, FIG. 11 shows a syllable notation tag for phonetic pronunciation that is a phonetic character and a tag for phoneme, but these tags may be phoneme segments, image identifiers by input video, etc. For example, when a user's voice or facial expression is recognized as being angry, or when a specific identifier is detected from within an image, processing such as presentation of a script or content, or movement to a link destination is performed. May be.

そして、これらのタグや属性、要素は一般的に解釈する装置において文字列の一致により評価され、それらの文字列にあわせて情報処理装置内に収録された処理を実施する関数やプロセスやプログラムやサービスにそのタグや属性に基づく情報を提供する。   These tags, attributes, and elements are generally evaluated by matching character strings in a device that interprets them, and functions, processes, programs, etc. that perform processing recorded in the information processing device according to those character strings. Providing services with information based on their tags and attributes.

なお、音素や音素片の認識関数に対しては音素列や音素片列を提供して認識対象辞書に登録したり、他の識別子や特徴量であれば、検出結果としての評価係数を変更したり、周辺機器への指示情報の出力を行ったり、異音同義語を辞書構成により用意したり、異音同義語を辞書登録するために表音記号列を記載する属性に複数の表音記号列を境界記号で弁別できるようにして記載したり、認識によって得られた結果を補正する処理を実施したりしてもよい。   For phoneme and phoneme recognition functions, a phoneme sequence or phoneme sequence is provided and registered in the recognition target dictionary, or if it is another identifier or feature, the evaluation coefficient as a detection result is changed. To output instruction information to peripheral devices, to prepare allophone synonyms with a dictionary structure, and to register a phonetic symbol string to register the allophone synonyms in the dictionary. A column may be described so that it can be discriminated by a boundary symbol, or a process for correcting a result obtained by recognition may be performed.

また、単純に表示する文字列を発音タグで挟んで発音対象として指定して漢字かな混じり文や英文、中文といった他言語の文字列を発音のための表音記号を用いて音素や音素片による記号列に変換して認識や命令制御、検出、検索に利用してもよいし、表音記号をアルファベットにより表記するばかりではなく、アスキーコードやエビセディックコードのような数値に置き換えてマークアップ言語内に記載しても良い。   Also, simply specify a character string to be displayed by placing a character string to be displayed between pronunciation tags, and use a phoneme or phoneme using a phonetic symbol for pronunciation of a character string in another language such as a kanji mixed sentence, an English sentence, or a Chinese sentence. It can be converted into a symbol string and used for recognition, command control, detection, and search. Not only the phonetic symbols are written in alphabets, they are also replaced with numerical values such as ASCII codes and evidic codes. It may be described in the language.

また、このような方法で単語に関連付けられた特徴量や識別子に関連する映像や台詞、画面特徴や表示物体を制御することでCGなどにより映画や番組の生成や製作を行うツールに利用しても良いし、コンテンツ閲覧中の発話状況を認識したり、利用者の音声操作による投票や閲覧回数などによる内容評価を用いたりすることで映画や番組とそれらのシーンなどから得られた特徴量や識別子との相関性に基づいて映画や番組を評価しても良い。   Also, it can be used as a tool for creating and producing movies and programs by CG etc. by controlling video and dialogue related to features and identifiers associated with words in this way, screen features and display objects. It is also possible to recognize the utterance status while browsing the content, use the content evaluation based on the vote by the voice operation of the user and the number of browsing, etc. You may evaluate a movie and a program based on the correlation with an identifier.

<サーバ・クライアントモデル>
なお、上述した仕組みは、マークアップ言語を用いた検索手順をサーバ・クライアントモデルにより実装しても良い。具体的に図15にサーバ・クライアントモデルにおける処理における状態遷移を示す。
<Server / client model>
In the above-described mechanism, a search procedure using a markup language may be implemented by a server / client model. Specifically, FIG. 15 shows a state transition in processing in the server / client model.

まず、クライアントとなる端末装置はクエリを生成する。クエリの生成方法は、一般的な文字列入力による方法であったり、音声入力による方法であったり、画像を示してその特徴量をクエリとする方法であってもよい。   First, a terminal device serving as a client generates a query. The query generation method may be a general method using character string input, a method using voice input, or a method of displaying an image and using the feature amount as a query.

そして、生成されたクエリに基づいてサーバとなる配信装置は適切なものを検索し、検索結果にしたがって配信基地局は端末装置に本発明を用いた検索結果一覧の情報を配信する。そして、端末装置は取得した情報のマークアップ言語を解釈し特定のタグに挟まれている範囲の文字列を音素や音素片などの前述の識別子に変換し、利用者が発話する音声入力情報にしたがって音素や音素片を獲得して音素列や音素片列といった表音記号列を構成し音素列や音素片列に基づくマッチング処理を実施する。   Then, based on the generated query, the distribution device serving as a server searches for an appropriate one, and the distribution base station distributes the search result list information using the present invention to the terminal device according to the search result. Then, the terminal device interprets the markup language of the acquired information, converts the character string in the range sandwiched between specific tags into the above-mentioned identifiers such as phonemes and phonemes, and converts them into voice input information spoken by the user. Therefore, phonemes and phoneme pieces are acquired to form phonetic symbol strings such as phoneme strings and phoneme string strings, and matching processing based on the phoneme strings and phoneme string strings is performed.

そして、一致度の高い操作やキーワード、識別子列にしたがってそれぞれの処理を行ったのちに、指定された識別子列によるクエリを構成するとともに、それらのクエリを配信基地局に送信し検索を実施することで、マークアップ言語を用いた音声制御を伴う検索を実施する。この際、構成されたクエリは装置単体での検索に利用しても良い。   And after performing each process according to operations with high degree of coincidence, keywords, and identifier strings, construct a query with the specified identifier string, and send those queries to the distribution base station to perform a search Then, a search with voice control using a markup language is performed. At this time, the constructed query may be used for a search by a single device.

なお、図16では端末側でのマークアップ言語解釈により音声処理のための音素や音素片などの識別子記号列の挿入や設定を実施しているが、配信側サーバで識別子記号列を挿入したり、事前に手入力により挿入したり、配信基地局側装置やそれらと連携する装置上で識別子を構成し挿入したり、単体の情報処理装置を用いたりすることで本発明を用いた操作や処理を実現するための変数や属性の追加やタグの追加、マークアップ言語情報の内容の変更を行ったり、識別子や特徴量に関連した辞書の変更や追加、削除を行っても良い。   In FIG. 16, the insertion and setting of identifier symbol strings such as phonemes and phonemes for speech processing are performed by the markup language interpretation on the terminal side. Operation and processing using the present invention by manually inserting in advance, constructing and inserting identifiers on distribution base station side devices and devices linked with them, or using a single information processing device It is also possible to add variables and attributes, add tags, change the contents of markup language information, or change, add, or delete dictionaries related to identifiers and feature quantities.

また、本発明により生成された新しい識別子の組合せに関し、任意の名称に基づく単語を与えて検索を実施たり、任意の名称に音素や音素片による記号列を与えて音声制御に対応したり、操作のためのキーワードとして音素や音素片による記号列を与え操作できるようにしたりしても良いし、このような発音記号列を広告に関連付けたり、アドバタイズ属性を追加して関連する広告のURLを発話記号属性と同一タグ内に表記することで広告と発話記号列とを関連付けたりしても良い。 In addition, regarding the new identifier combination generated by the present invention, search is performed by giving a word based on an arbitrary name, or by providing a symbol string by a phoneme or phoneme to an arbitrary name, and corresponding to voice control, It may be possible to operate by giving a symbol string using phonemes or phoneme as a keyword for operation, or to associate such a phonetic symbol string with an advertisement, or by adding an advertisement attribute to a URL of a related advertisement. The advertisement and the utterance symbol string may be associated with each other by describing them in the same tag as the utterance symbol attribute.

また、ブラウザ内で表示された画像に関する識別子や制御対象となるキーワードの音素や音素片に関して、識別子列や識別子列を圧縮した記号列やIDを用いることで端末に利用しやすく変換して必要な情報を送り、マークアップ言語を解釈せずに装置での音声利用を行うことも容易に考えられ、それらの辞書情報をリモコンや携帯電話において通信回線経由で取り込んだり、メールで獲得したり、他の装置からダウンロードすることで利便性の高い操作環境を構成しても良い。   In addition, identifiers related to images displayed in the browser, and phonemes and phonemes of keywords to be controlled are converted to be easily usable on terminals by using symbol strings and IDs obtained by compressing identifier strings and identifier strings. Sending information and using the voice in the device without interpreting the markup language can be easily considered, such dictionary information can be acquired via a communication line with a remote control or mobile phone, acquired by e-mail, etc. A highly convenient operating environment may be configured by downloading from the above device.

また、ファイル名を音素列で記載することでファイル名に基づいた認識辞書を構成しても良いし、音素列・音素片列によりファイル名を設定して音素・音素片認識でマークアップ言語内の情報を選択できるようにしてもよいし、認識に伴い證券番号や企業名による株価検索やJANコードによる商品検索ばかりではなく商品名や出演者名や会社名や地域名による検索を行い、多様なサービスを実施しても良いし、位置や装置に応じて音素辞書を変更したりページに応じて音素辞書を変更したりコンテンツの画像やページ単位の文章や文章構成におけるフレームや動画像の1コマとしてのフレームや動画像の複数フレームにまたがるシーン単位に応じて音素辞書を変更したりしても良い。   In addition, a recognition dictionary based on the file name may be configured by describing the file name as a phoneme string, or the file name is set by the phoneme string / phoneme string sequence and the phoneme / phoneme segment recognition is used in the markup language. It is possible to select various information, and in addition to the stock price search by coupon number or company name or the product search by JAN code, the search by product name, performer name, company name or region name is also performed. You can change the phoneme dictionary according to the location and device, change the phoneme dictionary according to the page, or change the content image, the text in the page unit, and the frame or moving image 1 The phoneme dictionary may be changed according to scene units that span frames as frames or multiple frames of moving images.

また、図17のようにRIFF形式のようなチャンクヘッダを持つ情報形式に対して本発明による索引付けを行うのであれば、チャンクヘッダとして「PRON」といったタグを任意に設けて音素列や音素片列を表記しても良く、その内容は通常ファイルであればファイル名や製作日時、製作者といった一般的なメタデータを記載したり、2D・3Dの画像であれば表示物体や人物の呼称や部品の呼称に伴う音素・音素片を記載したり、音声ファイルであれば出現音声の音素・音素片を記載したり、音楽ファイルの歌詞やタイトルを音素・音素片で記載しても良いし、自由記載エリアに音素・音素片を記載しても良いし、検索に利用したりしても良い。   In addition, when indexing according to the present invention is performed for an information format having a chunk header such as the RIFF format as shown in FIG. 17, a tag such as “PRON” is arbitrarily provided as a chunk header, and a phoneme string or phoneme segment is provided. Columns may be written, and if the contents are regular files, general metadata such as the file name, production date and time, producers, etc., or 2D / 3D images, the names of display objects and people, You can list the phonemes and phonemes that accompany the name of the parts, if they are audio files, you can list the phonemes and phonemes of the appearing speech, or you can write the lyrics and titles of music files in phonemes and phonemes, Phonemes / phonemes may be written in the free description area, or may be used for searching.

<変形例>
なお、本実施例では表音記号として音素を中心に例を記載しているが、音素部分を音素片に変更したり、音素の種類を国際音素記号や英語、中国語といった異なる言語の音素列に変更したり、認識された画像に基づいた識別子によって丸い画像をコンピュータに提示したのか三角の画像を提示したのかによってマークアップ言語の処理における選択範囲や分岐内容を構成したりしても良いし、提示された写真に基づいて検索を実施したり、写真の特徴量に関連付けられた呼称を音素列や音素片列に展開しマークアップ言語や専用記号列で送受信することで音声による操作を行っても良いし、アスキーコード以外の文字記号化方法であるユニコードやJISコード、ISOコードを用いても良いし、音素や音素片に基づいた任意の数値IDを与えた独自文字コード体系を用いても良い。
<Modification>
In this embodiment, the phoneme is mainly used as a phonetic symbol. However, the phoneme portion is changed to a phoneme segment, or the phoneme sequence is a phoneme string of different languages such as an international phoneme symbol, English, or Chinese. Or a selection range or branch content in markup language processing may be configured depending on whether a round image is presented to a computer or a triangular image by an identifier based on the recognized image. , Search based on the presented photos, or perform voice operations by expanding the names associated with the feature quantities of the photos into phoneme strings and phoneme strings and sending and receiving them in markup language and dedicated symbol strings Alternatively, Unicode, JIS code, or ISO code, which is a character encoding method other than ASCII code, may be used, and an arbitrary numerical ID based on phonemes or phonemes is given. And it may be used a unique character code system.

また、本発明に用いられる識別子列や識別子は音階種別、楽器種別、機械音種別、環境音種別、画像種別、顔種別、表情種別、人物種別、動作種別、風景種別、表示位置種別、文字記号種別、標識種別、形状種別、図形記号種別、放送番組種別といった識別子を一つあるいは複数の組合せによりそれら識別に用いる呼称に基づいて属性や変数名、識別子を指定してもよいし、識別子列は識別子が時系列遷移に応じて連続的に記載されたものとして捕らえても良いし、それらの呼称に基づいて音素や音素片列に変換して利用しても良いし、CGIにおけるGETメソッドやPOSTメソッドを用いてそれらの識別子や識別子列を送信して検索結果を得ても良い。   Further, the identifier string and identifier used in the present invention are scale type, instrument type, mechanical sound type, environmental sound type, image type, face type, facial expression type, person type, action type, landscape type, display position type, character symbol An attribute, a variable name, or an identifier may be designated based on a designation used for identification by one or a plurality of identifiers such as a classification, a label classification, a shape classification, a graphic symbol classification, and a broadcast program classification. The identifiers may be captured as continuously described according to time series transitions, converted into phonemes or phoneme strings based on their names, or used in GET methods or POST in CGI. A search result may be obtained by transmitting those identifiers and identifier strings using a method.

このように、音声に関する特徴量の呼称とそれらの識別子と識別関数、静止画像や動画像に関する特徴の呼称と識別子と識別関数によってマークアップ言語に属性と変数を与えることで音声により操作可能なマークアップ言語を構成できるとともに、このようなマークアップ言語を処理する情報処理装置が提供する表音記号列によって利用者が音声による装置制御を実現できるためコンテンツの検索ばかりではなく公共情報、地図情報、商品販売、予約状況、視聴状況、アンケート、監視カメラ映像、衛星写真、ブログ、ロボットや機器の制御などに応用することが出来る。なお、これらの要求に対して任意のマークアップ言語を用いて検索や処理結果をサーバからクライアントに返信してもよい。   In this way, the feature names related to speech and their identifiers and identification functions, the feature names and identifiers and identification functions related to still images and moving images, and the mark and language that can be operated by speech by giving attributes and variables to the markup language In addition to searching for content, public information, map information, and the like, the user can realize device control by voice using a phonetic symbol string provided by an information processing device that processes such a markup language. It can be applied to merchandise sales, reservation status, viewing status, questionnaires, surveillance camera images, satellite photos, blogs, robots and equipment control. Note that the search and processing results may be returned from the server to the client using any markup language in response to these requests.

<端末及び基地局に用いる情報処理装置の手順例>
また、本発明は基地局と端末に関わるサーバ・クライアントによる処理システムについても適用可能である。本装置と端末は図18のように構成され、通信回線を経由して接続し、他の装置から情報を取得したり、他の装置に情報を配信したりすることで、音声操作に関する情報を交換可能とし、利用者の利便性を改善する。なお、ここで用いる共有回線はインターネットばかりではなくLANや電話回線などの広域通信網や屋内通信網であれば有線無線を問わずに用いても良く、対象となる装置は家電やリモコン、ロボット、携帯電話、通信基地局であっても良く、ウェブサービス、電話サービス、EPG配信などのサービスであっても良く、任意の装置やサービスに対して実施できる。
<Procedure example of information processing apparatus used for terminal and base station>
The present invention is also applicable to a processing system using a server and a client related to a base station and a terminal. This device and the terminal are configured as shown in FIG. 18, and are connected via a communication line to acquire information from other devices and distribute information to other devices, so that information related to voice operations can be obtained. It can be exchanged to improve user convenience. The shared line used here is not limited to the Internet but may be used regardless of wired wireless as long as it is a wide area communication network such as a LAN or a telephone line or an indoor communication network, and the target devices are home appliances, remote controllers, robots, It may be a mobile phone or a communication base station, or may be a service such as a web service, a telephone service, or an EPG distribution, and can be implemented for any device or service.

また、利用者端末と配信基地局と端末や基地局に制御されるロボットなどの装置や制御するリモコンにより構成され、リモコンやロボットは端末の一形態や基地局の一形態として利用されても良く、利用者は端末に対して音声を発話し、端末若しくは基地局で認識処理のために以下にあるような任意の処理手順を実施する。   Further, it is configured by a user terminal, a distribution base station, a device such as a robot controlled by the terminal or the base station, and a remote controller to be controlled, and the remote control and the robot may be used as one form of the terminal or one form of the base station. The user speaks voice to the terminal, and performs an arbitrary processing procedure as described below for recognition processing at the terminal or the base station.

第1の方法では、発話により得られた音声や撮像された映像から特徴量抽出を実施し、特徴量を対象となる中継個所や基地局装置に送信し、特徴量を受信した基地局装置はその特徴量に応じて音素記号列・音素片記号列やその他画像識別子を生成する。そして、生成された記号列に基づいて、一致する制御手段を選択し実施する。   In the first method, a feature amount is extracted from voice obtained by speech or a captured image, the feature amount is transmitted to a target relay location or base station device, and the base station device that has received the feature amount A phoneme symbol string / phoneme symbol string and other image identifiers are generated according to the feature amount. Then, based on the generated symbol string, a matching control means is selected and executed.

第2の方法は、発話により得られた音声や撮像された映像から特徴量抽出を実施し、端末内で音素記号列・音素片記号列、その他画像識別子といった認識に伴う識別子を生成し、生成された記号列を対象となる中継個所や基地局装置に送信する。そして、制御される基地局装置は受信した記号列に基づき一致する制御手段を選択し実施する。   In the second method, feature amounts are extracted from speech obtained by utterance or captured video, and identifiers associated with recognition such as phoneme symbol strings / phoneme symbol strings and other image identifiers are generated in the terminal. The received symbol string is transmitted to the target relay location or base station apparatus. Then, the base station apparatus to be controlled selects and executes a matching control means based on the received symbol string.

第3の方法は、発話により得られた音声や撮像された映像から特徴量抽出を実施し、端末内で生成された特徴量に基づき音素列・音素片記号列、その他画像識別子を認識し、認識された記号列に基づき制御内容を選択し、制御方法を制御する基地局装置や情報配信を中継する装置に対し送信する。   The third method performs feature amount extraction from voice obtained by speech or captured video, recognizes phoneme strings / phoneme symbol strings, and other image identifiers based on the feature amounts generated in the terminal, The control content is selected based on the recognized symbol string, and transmitted to the base station device that controls the control method and the device that relays information distribution.

そして、第4の方法は端末を用いて発話により得られた音声や撮像された映像の音声波形や画像をそのまま制御する基地局装置に送信し、制御する装置内で音素記号列・音素片記号列、その他画像識別子を認識し、認識された記号列に基づいて制御手段を選択し、選択された制御を制御される中継個所や基地局装置が実施するというものである。同様に環境音など音や映像の特徴や識別子についても同様である。   And the 4th method transmits to the base station apparatus which controls the voice waveform and image of the audio | voice obtained by utterance using the terminal, and the imaged image | video as it is, and phoneme symbol string and phoneme symbol in the apparatus to control The system recognizes the sequence and other image identifiers, selects the control means based on the recognized symbol sequence, and the selected relay station or base station apparatus performs the selected control. The same applies to sound and video features and identifiers such as environmental sounds.

この際、端末から単純に波形のみを送信したり、特徴量を送信したり、認識された識別子列を送信したり、識別子列に関連付けられた命令やメッセージなどの処理手順を送信しても良く、それらの送信情報にあわせて配信基地局の構成を変更してクライアントサーバモデルを実施しても良く、送信側と受信側が相互に送受信することも可能であり、前述される識別子に関連する画像や音声や動作などの特徴量をマークアップ言語の属性に与えて、利用者側から提供される情報から抽出される特徴量と配信情報から抽出される特徴量との一致度を評価し、検索や認識を行うことで任意の制御や利用者への応対を伴う情報処理を実現しても良いし、顔や指紋などの画像認識辞書と音素や音素片による表音記号列を用いた固有名詞を伴う認識辞書と話者ごとの音素や音素片に基づく音響モデルとを関連付けることで合言葉による個人認証を行っても良い。   At this time, the terminal may simply transmit only a waveform, transmit a feature amount, transmit a recognized identifier string, or transmit a processing procedure such as a command or a message associated with the identifier string. The client server model may be implemented by changing the configuration of the distribution base station according to the transmission information, and the transmission side and the reception side can transmit and receive each other, and the image related to the identifier described above Features such as voice, voice, and motion are assigned to markup language attributes, and the degree of coincidence between the feature amount extracted from the information provided by the user and the feature amount extracted from the distribution information is evaluated and searched Information processing with arbitrary control and user interaction may be realized by performing recognition, or proper nouns using image recognition dictionaries such as faces and fingerprints and phonetic symbol strings made up of phonemes and phonemes Recognition dictionary with It may be subjected to a personal authentication by the slogan by associating an acoustic model based on the phoneme or phoneme of each finisher.

また、入力された音素列や音素片列に基づいて関連付けられた処理手順へ変換する命令辞書は、端末側にあっても配信基地局側にあってもよく、新しい制御命令やメディア種別、フォーマット種別、装置名に関する音素記号列や画像識別子といった記号列を、XMLやHTMLのような後述されるマークアップ言語やRSS、CGIを用いて情報の送受信や配信や交換を行っても良い。   In addition, the command dictionary for converting to an associated processing procedure based on the input phoneme sequence or phoneme segment sequence may be on the terminal side or the distribution base station side, and a new control command, media type, format A symbol string such as a phoneme symbol string and an image identifier relating to the type and the device name may be transmitted / received, distributed, or exchanged using a markup language such as XML or HTML, RSS, or CGI, which will be described later.

より具体的な辞書情報の配信や交換の手順について説明する。まず、特徴量や識別子を抽出したり、評価関数を構成したりすることで、任意の赤外線や無線LAN、電話回線や有線LAN等を問わず通信回線に接続された環境で他の端末や装置類との情報交換を行う。   A more specific procedure for distributing and exchanging dictionary information will be described. First, by extracting feature quantities and identifiers, or configuring evaluation functions, other terminals and devices in an environment connected to a communication line regardless of any infrared, wireless LAN, telephone line, wired LAN, etc. Exchange information with other classes.

次に、端末側の処理として音素片を用いた場合を例に説明すると、利用者は発話を伴って音声波形を端末と装置に与える。端末側装置は与えられた音声を分析し特徴量に変換する。次に変換された特徴量をHMMやベイズといった各種認識技術により認識し識別子に変換する。   Next, a case where a phoneme piece is used as processing on the terminal side will be described as an example. The terminal side device analyzes the given voice and converts it into a feature value. Next, the converted feature amount is recognized by various recognition technologies such as HMM and Bayes and converted into an identifier.

この際、変換された識別子は音素や音素片、各種画像識別子を示す情報となるが、他にも別記されるように音声であれば音素や環境音や音階であったり、画像であれば画像や動作に基づいた識別子であったりしてもよい。そして、得られた識別子に基づいて音素、音素片記号列による辞書をDPマッチングにより参照して任意の処理手順を選択し、選択された処理手順を対象となる装置に送信し制御を実施することで、本発明を利用して携帯端末をリモコンとして用いたり、ロボットによる家電制御を実施したりすることが可能であり、通信先にいる相手との円滑なコミュニケーションを実施するための発話音表記の表示や点字出力部を設けて障害者との対話装置なども構成しても良い。   At this time, the converted identifier is information indicating a phoneme, a phoneme piece, and various image identifiers. However, as described elsewhere, if it is a voice, it is a phoneme, an environmental sound, a scale, or an image if it is an image. Or an identifier based on the operation. Then, based on the obtained identifier, a dictionary based on phonemes and phoneme symbol strings is referred to by DP matching to select an arbitrary processing procedure, and the selected processing procedure is transmitted to the target device for control. Thus, it is possible to use the mobile terminal as a remote control using the present invention, or to control home appliances by robots, and the utterance sound notation for smooth communication with the other party at the communication destination An interactive device with a disabled person may be configured by providing a display and a Braille output unit.

このような手順で処理された情報は端末側のCPU性能によって、動画や音声といった自然情報から特徴量への変換をせずに元の情報のまま送信したり、特徴量への変換で留めて送信したり、識別子への変換で留めて送信したり、制御情報の選択まで行ってから送信したり、任意の変換水準を選択することができ、受信側は任意の状態から情報に基づいて処理可能な受信側装置として構成され、獲得した情報に基づき配信局や制御装置に送信したり、獲得した情報に基づいて検索や記録、メール配信、機械制御、装置制御といった任意の処理を実施しても良い。   Depending on the CPU performance of the terminal, the information processed in such a procedure can be transmitted as it is without converting natural information such as video and audio into feature values, or can be converted into feature values. It can be sent, sent after being converted into an identifier, sent after the control information is selected, can be selected, and any conversion level can be selected, and the receiving side can process based on information from any state It is configured as a possible receiving side device, and it transmits to the distribution station and control device based on the acquired information, or performs arbitrary processing such as search, recording, mail distribution, machine control, device control based on the acquired information Also good.

そして、検索処理に用いるために、適宜クエリとなる識別子列や文字列、特徴量を認識により獲得し、配信側基地局に送信し、そのクエリに従った情報を入手する。この際、通信の待ち時間や検索の待ち時間に宣伝や広告を表示しても良く、音声による制御を行う際は通信により制御項目の選択が出来るようにするために制御辞書を構成し相互に辞書情報の交換・獲得を行い、その手順はP2P技術を利用して行っても良いし、それらの情報を販売、配布しても良い。   Then, for use in search processing, an identifier string, a character string, and a feature amount that are appropriately used as a query are acquired by recognition, and are transmitted to the distribution-side base station to obtain information according to the query. At this time, advertisements and advertisements may be displayed during the communication waiting time and the search waiting time, and when performing control by voice, a control dictionary is constructed so that control items can be selected by communication. The dictionary information is exchanged / acquired, and the procedure may be performed using the P2P technology, or the information may be sold and distributed.

また、この制御命令辞書は音素や音素片といった前述されるような任意の識別子や特徴量と装置制御情報で構成することにより自由に内容を更新して再利用できるようにすることが可能であり、任意の識別子と特徴量を関連付けた検索のための辞書情報を入れ替えたり再構成したりすることで、流行の検索キーワードを更新出来るようにしてもよいし、これらのコンテンツ情報の位置や構成に応じて変更される認識辞書情報は顔認識するための辞書や指紋認識するための辞書や文字認識するための辞書や図形認識するための辞書であってもよい。   In addition, this control command dictionary can be freely renewed and reused by configuring it with arbitrary identifiers such as phonemes and phonemes as described above, feature quantities, and device control information. It may be possible to update trendy search keywords by replacing or reconfiguring dictionary information for search that associates arbitrary identifiers with feature amounts, and the position and configuration of these content information The recognition dictionary information changed accordingly may be a dictionary for face recognition, a dictionary for fingerprint recognition, a dictionary for character recognition, or a dictionary for figure recognition.

なお、制御命令辞書は従来の赤外線リモコンで制御できる製品に送信するための赤外線制御情報が装置制御情報として選択されたり、それらの制御情報の組合せにより一連の作業をバッチ処理のように連続的に実施したり、装置のCPU性能に応じて識別子を認識せずに特徴量情報のみを音声対制御応情報処理装置に送信するようにしてもよい。   In the control command dictionary, infrared control information to be transmitted to a product that can be controlled by a conventional infrared remote controller is selected as device control information, or a series of operations are continuously performed as a batch process by combining those control information. It may be implemented or only the feature amount information may be transmitted to the speech-controlling information processing apparatus without recognizing the identifier according to the CPU performance of the apparatus.

このような方法で音声制御が出来ない従来装置に対しても赤外線リモコンによる制御を組合せることで音声情報から変換辞書経由で赤外線リモコンの信号を提供したり、音声制御の可能な装置であれば、特徴量や音声波形に基づいて命令を認識し制御したりすることが出来るとともに、性能改善に伴う制御用辞書の変更を実施することや、制御用辞書のバージョン情報と確認するといったことや、装置の状態がどのようになっているかを確認することができる。   Any device capable of providing an infrared remote control signal from a voice information via a conversion dictionary by combining control by an infrared remote controller even with a conventional device that cannot perform voice control by such a method, or a device capable of voice control. In addition to being able to recognize and control commands based on feature quantities and speech waveforms, changing the control dictionary to improve performance, checking with version information of the control dictionary, It is possible to confirm the state of the device.

また、このような方法でサーバ・クライアントモデルを導入し、任意の処理ステップでサーバとクライアントに分割して通信で結びサーバ・クライアント間で任意の情報を交換することにより同等のサービスやインフラ、検索、索引付けを実現することができる。   In addition, by introducing the server / client model in this way, the server and the client can be divided into arbitrary processing steps, connected by communication, and exchanged arbitrary information between the server and client. Indexing can be realized.

また、顔や指紋や音声特徴の認識による個人認証を併せて行うために、音素認識辞書情報に個人の音声特性に合わせた音響モデルや標準パラメータや標準テンプレートを用いた音素認識辞書を利用することで、画像や音声を伴う認識辞書を利用者に応じて変更可能し、汎用性の高い個人認証を実現すること可能となる。したがって、課金を行ったり、鍵の施錠や開錠を行ったり、サービスを選択したり、利用の許諾を行ったり、著作物の利用を行ったりといった各種操作や操作を用いるサービスが本発明を用いて認識を行う情報端末を利用して実現できる。   Also, in order to perform personal authentication by recognizing faces, fingerprints, and voice features, use a phoneme recognition dictionary that uses acoustic models, standard parameters, and standard templates that match the phonetic recognition dictionary information. Therefore, the recognition dictionary with images and sounds can be changed according to the user, and highly versatile personal authentication can be realized. Therefore, a service using various operations and operations such as charging, locking and unlocking keys, selecting a service, granting use, and using a copyrighted work uses the present invention. This can be realized by using an information terminal that performs recognition.

また、本発明を用いて認識を行う端末を利用して、通信先にある基幹サーバからDVDレコーダやネットワークTV、STB、HDDレコーダ、音楽録再装置、映像録再装置といったクライアント端末によって獲得された情報を赤外線通信やFMやVHF周波数帯域通信、802.11b、ブルートゥース(登録商標)、ZigBee、WiFi、WiMAX、UWB、WUSB(Ultra Wide Band)などの無線通信を経由して携帯端末や携帯電話に情報を提供することでEPGやBML、RSS、文字放送によるデータ放送やテレビ映像、文字放送を携帯端末や携帯電話で利用できるようにしたり、音声入力や文字列入力、携帯端末や携帯電話を振り動かす操作により情報端末や家電や情報機器やロボットの操作や制御手順の指示を行ったり、携帯端末や携帯電話を一般的なリモコンとしてクライアント端末から家電や情報機器やロボットの操作や制御手順の指示を行ったりといった遠隔操作を行っても良い。   In addition, using a terminal that performs recognition using the present invention, it is acquired by a client terminal such as a DVD recorder, a network TV, an STB, an HDD recorder, a music recording / playback apparatus, or a video recording / playback apparatus from a core server at a communication destination. Information is transferred to mobile terminals and mobile phones via wireless communication such as infrared communication, FM, VHF frequency band communication, 802.11b, Bluetooth (registered trademark), ZigBee, WiFi, WiMAX, UWB, WUSB (Ultra Wide Band), etc. By providing information, it is possible to use EPG, BML, RSS, teletext data broadcasting, TV video, teletext on mobile terminals and mobile phones, voice input, character string input, swing mobile terminals and mobile phones. The operation of the information terminals, home appliances, information devices, robots, and instructions for control procedures are performed by moving the Terminal or a mobile phone may be subjected to remote operations such as and go an indication of the general consumer electronics as a remote control from the client terminal and information equipment and operation of the robot and control procedures.

また、マークアップ言語により構成された情報におけるHTMLのFORMタグといった入力項目に関連付けられて抽出された属性に基づいた音素辞書が認識辞書情報206に事前に登録されている場合、認識の優先順位を事前に登録された音素辞書に変更しても良いし事前に登録された辞書を用いて認識対象を限定しても良い。   In addition, when a phoneme dictionary based on an attribute extracted in association with an input item such as an HTML FORM tag in information configured in a markup language is registered in the recognition dictionary information 206 in advance, the recognition priority is set. It may be changed to a phoneme dictionary registered in advance, or a recognition target may be limited using a dictionary registered in advance.

また、マークアップ言語により構成された情報の属性変数に基づいた音素列や音素片列といった表音記号列に関し、同時に認識される可能性のある音素列や音素片列表音記号列を複数併記することで認識辞書情報206を複数で構成し、同一の属性変数を持つ入力項目に関して同一の認識辞書情報206を利用するように構成しても良い。   Also, for phonetic symbol strings such as phoneme strings and phoneme string strings based on attribute variables of information configured in markup language, a plurality of phoneme strings and phoneme string phonetic symbol strings that may be recognized simultaneously are written together. Thus, a plurality of recognition dictionary information 206 may be configured, and the same recognition dictionary information 206 may be used for input items having the same attribute variable.

また、属性変数に音素列や音素片列や表音記号列を複数用いて認識される可能性のある単語を複数表記しても良く例えば任意の単位といった助数詞が音素列や音素片列や表音記号列として表記されている場合、認識辞書情報206を数詞専用に切替えたり、メニュー項目に応じた専用辞書に切替えたり、地名や駅名といった限定的固有名詞辞書に切替えたりするといった方法を用いても良い。   In addition, a plurality of words that may be recognized using a plurality of phoneme strings, phoneme string strings, and phonetic symbol strings may be described as attribute variables. For example, a classifier such as an arbitrary unit may be represented as a phoneme string, phoneme string string, or table. When it is expressed as a phonetic symbol string, the recognition dictionary information 206 is switched to a number only, switched to a dedicated dictionary according to a menu item, or switched to a limited proper noun dictionary such as a place name or a station name. Also good.

また、マークアップ言語に基づく表示に用いるべく選択された文字コードに応じて、音声波形から音素や音素片といった表音記号による識別子へ変換を行うステップ(S506)に用いられるベイズ識別関数やHMMに用いる標準パターンや標準テンプレートといった学習結果として得られる値や固有値・固有ベクトルによる値や共分散行列による値を言語ごとに複数用意し、表示がロシア語ならロシア語標準テンプレート、表示が中国語なら中国語語標準テンプレート、と切替えることにより多言語に対応しても良いし、利用者の情報処理装置もしくはオペレーティングシステムもしくはブラウザ固有の言語環境に関する情報を取得することにより認識に用いる標準テンプレートを多言語から選択しても良い。   Further, according to the character code selected to be used for the display based on the markup language, the Bayes discriminant function or HMM used in the step (S506) of converting the speech waveform into an identifier by phonetic symbols such as phonemes and phonemes. Prepare multiple values for each language, such as the standard pattern to be used and the standard template, the values obtained as learning results, the values by eigenvalues / eigenvectors, and the values by covariance matrix. It is possible to support multiple languages by switching to a word standard template, or select a standard template to be used for recognition by acquiring information about the user's information processing device, operating system, or browser-specific language environment from multiple languages You may do it.

また、利用者の指定により、例えばロシア語話者が中国語を発話した場合の標準テンプレートといった利用者の母国語・母語と利用する装置環境で認識される言語との違いで生じる訛りや方言に対応するように標準テンプレートを選択出来るようにシステムを構成しても良く、利用者の発話から訛りや方言などを学習しテンプレートを構成できるようにしてもよい。   In addition, according to the user's designation, for example, the utterances and dialects that arise due to the difference between the user's native language and native language and the language recognized in the device environment used, such as a standard template when a Russian speaker speaks Chinese The system may be configured so that a standard template can be selected so as to correspond, or the template may be configured by learning the utterance and dialect from the user's utterance.

また、属性変数に応じてクッキーやセッションの内容を音素や音素片による表音記号列に変換して認識辞書情報206を切替えるといった方法を用いても良いし、音声から認識された音素列や音素片列といった表音記号列や音声から抽出された特徴量をAJAXといったスクリプトを用いる手法やCGI(Common Gateway Interface)のパラメータとしてステータスや環境変数を伝達する手法やプログラムによるソケット通信といった任意の変数伝達手段によって基地局に送信し、基地局側で受信した音素や音素片からなる表音記号列や基地局側で受信した音声特徴量に基づき認識された音素列や音素片列といった表音記号列を用いて利用者の発話を弁別し任意の処理を行ったり、検索条件を構成してコンテンツ情報や広告情報や地域情報の検索処理を行ったりしてもよい。   Alternatively, a method may be used in which the content of the cookie or session is converted into a phonetic symbol string using phonemes or phoneme pieces according to the attribute variable and the recognition dictionary information 206 is switched, or a phoneme string or phoneme recognized from speech is used. Arbitrary variable transmission such as a method that uses a script such as AJAX, a feature value extracted from a phonetic symbol string such as a single row, a script, a CGI (Common Gateway Interface) parameter, or a socket communication by a program A phonetic symbol string such as a phoneme string or phoneme string recognized based on a voice feature received by the base station or a phonetic symbol string made up of phonemes or phonemes received by the base station The user's utterances are discriminated by using, and arbitrary processing is performed, or search processing of content information, advertisement information, and regional information by configuring search conditions It may be carried out or.

そして、それらの表音記号列の認識処理に伴って変化する端末装置の絵、文字、アイコン、CG(Computer Graphics)をはじめとした表示情報もしくは音楽、警告音をはじめとした出力音情報もしくはロボット、機械装置、通信装置、電子機器、電子楽器をはじめとした装置類の動作制御情報もしくは音声や静止画像や動画像などを認識するための認識辞書情報206もしくは映像や音声や画像から特徴抽出するためのプログラム、スクリプト、関数式などの処理手順情報といった任意の情報を組合せてそれらを更新するための情報送信を基地局から行ったり、端末装置内で自律的に任意の処理を実施したりしてもよい。   And display information or music including terminal picture, character, icon, CG (Computer Graphics) or output sound information such as warning sound or robot that changes in accordance with the recognition process of these phonetic symbol strings Feature extraction from motion control information of devices such as mechanical devices, communication devices, electronic devices, electronic musical instruments, recognition dictionary information 206 for recognizing audio, still images, moving images, etc., or video, audio, images For example, a base station can send information for combining and updating arbitrary information such as processing procedure information such as a program, a script, and a function expression, or perform arbitrary processing in a terminal device. May be.

また、認識結果として取得された音素や音素片と言った表音記号に関して複数のフレームに分割され時系列的に連続した認識結果を得る場合において、複数フレームにまたがる複数の音素や音素片に対する認識結果として獲得された入力音声と音素や音素片といった表音記号との距離情報などを特徴量として利用しベイズ識別関数のパラメータを構成したり、時系列的に縮退させるために複数のフレームにまたがる複数の音素や音素片に対する認識結果として獲得された距離情報を用いてHMMのパラメータを構成したり、複数フレームにおける認識結果によって第一位と評価された識別子をDP等で評価したりすることで従来の音声認識に用いられた技術と組合せて動的な音声認識を構成したりしても良い。   In addition, when phonetic symbols such as phonemes and phonemes obtained as recognition results are divided into a plurality of frames to obtain recognition results that are continuous in time series, recognition for a plurality of phonemes and phonemes across multiple frames is performed. The distance between the input speech acquired as a result and phonetic symbols such as phonemes and phonemes is used as a feature value to configure the parameters of the Bayes discriminant function, or to span multiple frames to degenerate in time series By configuring the parameters of the HMM using distance information acquired as a recognition result for a plurality of phonemes and phonemes, or by evaluating an identifier evaluated as the first place by a recognition result in a plurality of frames by DP or the like Dynamic speech recognition may be configured in combination with the technology used for conventional speech recognition.

より具体的には、まず、コンテンツ情報を取得するステップ(S401、S501)によってマークアップ言語情報を獲得し、マークアップ言語情報からタグを検出しタグからタグ属性を検出するタグ属性検出手段とあわせて検出された属性に関連付けられる表音記号列を抽出する表音記号列抽出ステップ(S402、S502)を実施し認識に用いる表音記号列として認識辞書情報206へ登録するステップ(S403、S503)を実施する。これらのステップ(S401からS403、S501からS503)は文字列の評価処理や検出処理により製作できるが従来の音声認識システムや音素認識による検索や音素列認識によるWEBブラウザやインターネット環境で行われる操作や検索やコンテンツ情報の閲覧において用いられてはいない。   More specifically, first, markup language information is acquired in steps (S401 and S501) of acquiring content information, and tag attribute detection means for detecting a tag from the markup language information and detecting a tag attribute from the tag is combined. A step of extracting a phonetic symbol string (S402, S502) for extracting a phonetic symbol string associated with the detected attribute and registering it in the recognition dictionary information 206 as a phonetic symbol string used for recognition (S403, S503) To implement. These steps (S401 to S403, S501 to S503) can be produced by character string evaluation processing and detection processing, but operations performed in a conventional speech recognition system, a search by phoneme recognition, a WEB browser by phoneme sequence recognition, and the Internet environment It is not used for searching or browsing content information.

次に、話者の音声入力を待つステップ(S504)を実施し、音声入力の開始に従って演算部で実施される特徴量の抽出を行うステップ(S505)を実施し、音素認識及び/又は音素片認識をはじめとする表音記号認識プログラムに基づいて表音記号の認識による特徴量から識別子への変換を行うステップ(S506)が実施される。このステップ(S506)は距離評価関数や統計的検定手法を用いたり、多変量解析を利用した学習結果を用いたり、HMMのようなアルゴリズムを用いたりすることが一般的に知られている。そして、認識された表音記号に基づいた時系列的な連続により表音記号列が構成される。   Next, the step of waiting for the speaker's voice input (S504) is performed, and the step of extracting the feature amount performed by the calculation unit according to the start of the voice input (S505) is performed, and phoneme recognition and / or phoneme pieces are performed. Based on the phonetic symbol recognition program including recognition, a step (S506) of converting the feature value into the identifier by recognition of the phonetic symbol is performed. It is generally known that this step (S506) uses a distance evaluation function or a statistical test method, uses a learning result using multivariate analysis, or uses an algorithm such as HMM. A phonetic symbol string is formed by time-series continuation based on the recognized phonetic symbols.

次に、構成された前記表音記号列とマークアップ言語のタグに付随した属性から抽出された表音記号列による認識辞書情報206とを比較し認識辞書情報206内を検索することにより、表音記号列同士の一致度合を評価するステップ(S507)を実施し、認識対象として妥当であるか否かを評価する。この認識対象であるか否かを判断するための比較はDPやHMMやオートマトンといった記号列比較評価に利用可能なアルゴリズムを任意に用いてもよいし、それらを多重化して階層化処理による認識を実現してもよく従来から多様な方法が発明・考案されている。   Next, the phonetic symbol string is compared with the recognition dictionary information 206 based on the phonetic symbol string extracted from the attribute attached to the tag of the markup language, and the recognition dictionary information 206 is searched, thereby comparing the phonetic symbol string. A step (S507) of evaluating the degree of coincidence between the phonetic symbol strings is performed, and it is evaluated whether or not it is appropriate as a recognition target. For the comparison to determine whether or not it is a recognition target, an algorithm that can be used for symbol string comparison and evaluation such as DP, HMM, and automaton may be arbitrarily used. Various methods have been invented and devised from the past.

この結果として認識辞書情報206から特定された表音記号列に関連付けられる文字列やIDといった識別情報に基づいて、文字列を表示したり、任意の処理を実行に移したり、情報を交換したり、イベントを発生させたり、ステータスを変化させたり、任意の動作を機械装置に行わせたりすることで、表音記号を用いた認識処理が実現され任意の処理を実行するステップ(S508)が実施されることにより、従来の文法依存や静的な登録単語依存とは異なる音声を用いた情報処理が実現可能となる。   As a result, on the basis of identification information such as a character string or ID associated with the phonetic symbol string specified from the recognition dictionary information 206, a character string is displayed, an arbitrary process is performed, information is exchanged, etc. The recognition process using the phonetic symbols is realized by generating an event, changing the status, or causing the machine device to perform an arbitrary operation, and executing the arbitrary process (S508). As a result, information processing using speech different from conventional grammar dependency and static registered word dependency can be realized.

この際、前記表音記号列による認識辞書情報206を複数持つとともに前記タグ属性検出手段により検出された入力項目を弁別するための種類情報に基づいて表音記号列との一致を評価するステップ(S507)で用いる認識辞書情報206を切替ながら認識対象となる入力項目の属性に応じて選択される認識辞書情報206に登録された表音記号列と音声波形から獲得された表音記号認識結果との記号列比較評価によって一致度評価を行うときの認識対象となる認識辞書情報206に含まれる表音記号列を限定し認識効率を改善することができる。   At this time, a step of evaluating a match with the phonetic symbol string based on the type information for distinguishing the input items detected by the tag attribute detecting means and having a plurality of recognition dictionary information 206 by the phonetic symbol string ( A phonetic symbol recognition result obtained from the phonetic symbol string and the speech waveform registered in the recognition dictionary information 206 selected according to the attribute of the input item to be recognized while switching the recognition dictionary information 206 used in S507) The recognition efficiency can be improved by limiting the phonetic symbol strings included in the recognition dictionary information 206 to be recognized when the matching score is evaluated by the symbol string comparison evaluation.

そして、情報処理装置が入力すべき項目に応じて音声入力を評価する認識辞書情報(206)を切替える場合、属性の名称や属性に関連付けられた単語の認識辞書情報(206)を適切に選択するために、属性から獲得された情報が「書籍」であれば単位の「冊(s/a/ts/u|v/o/ly/u/m)」といった助数詞を用いるとともに助数詞に応じた「数詞(number)」に関連付けられる表音記号列を用いた認識辞書を認識された表音記号列の検索対象に選択するようにしたり、属性から獲得された情報が「駅名」であれば接尾語としての「駅(e/k/i|s/u/t/e/i/sh/o/n)」と「駅名として使用される名詞群」に関連付けられた表音記号列を用いた認識辞書を認識された表音記号列の検索対象に選択されるようにしたり、属性から獲得された情報が郵便番号や電話番号であれば単純に数詞の表音記号列を用いた認識辞書を認識された表音記号列の検索対象に選択されるようにしたりすることで、特定の枠組みに含まれる名詞群を用いて認識対象を制限することにより利用者に対して入力対象となる項目に関連付けられた属性に従った複数の認識辞書情報206の切替を実施し、認識された表音記号列の検索対象になる認識辞書情報206を属性に基づいて分類することにより認識性能の改善を図ることも出来る。   Then, when switching the recognition dictionary information (206) that evaluates the voice input according to the item to be input by the information processing apparatus, the recognition dictionary information (206) of the word associated with the attribute name or attribute is appropriately selected. Therefore, if the information acquired from the attribute is “book”, the unit “book (s / a / ts / u | v / o / ly / u / m)” is used, and the “ Select the recognition dictionary using the phonetic symbol string associated with “number” as the search target for the recognized phonetic symbol string, or if the information obtained from the attribute is “station name”, the suffix Using phonetic symbol strings associated with "station (e / k / i | s / u / t / e / i / sh / o / n)" and "nouns used as station names" The dictionary can be selected as a search target for recognized phonetic symbol strings, and the information obtained from the attribute is a zip code or telephone number If there are nouns included in a specific framework, simply select a recognition dictionary using a phonetic symbol string of a number as a search target for the recognized phonetic symbol string. Dictionary information 206 to be searched for recognized phonetic symbol strings by switching the plurality of recognition dictionary information 206 according to the attribute associated with the item to be input to the user by restricting Recognition performance can be improved by classifying 206 based on attributes.

また、情報処理装置が入力すべき項目を音声入力の行われる順序や未入力の項目選別に従って属性の名称や属性に関連付けられた単語の音声出力をすることで、利用者に対して入力対象となる項目を促しながら複数の認識辞書情報206に対して切替を実施し、分類する属性に基づいて認識性能の改善を行っても良い。   In addition, by outputting voice of words associated with attribute names and attributes in accordance with the order in which voice input is performed and the selection of items that have not been input, the information processing apparatus can input the items to be input. The recognition performance may be improved on the basis of the attribute to be classified by switching the plurality of recognition dictionary information 206 while prompting the item.

そして、継続する音声があれば従来の処理を繰返すステップ(S509)や年季認識に伴う処理ステップ(S508)や他の外部操作に伴う装置内のステータスの変化に応じて次のコンテンツやマークアップ言語を取得するか否かを評価するステップ(S510)が実施され、状況に応じて本処理は終了する。   Then, if there is a continuous voice, the next content or markup language is changed in accordance with the step of repeating the conventional processing (S509), the processing step associated with year recognition (S508), or the status change in the device accompanying other external operations. The step (S510) for evaluating whether or not to acquire is executed, and this process ends depending on the situation.

なお、装置内のステータスの変化はマルチスレッドプログラムや、他のプログラムの一部として機能する際に他のプログラムやプロセスによって値が変化し、マルチスレッド型のプログラムやイベントドリブン型のプログラム等に用いると仮定すればわかりやすく、同様に本発明の任意処理で他のプロセスや他のプログラムのためにステータスを書き換えたり、イベントを発生させたりすることも考えられる。   Note that the status change in the device changes depending on other programs and processes when functioning as a part of other programs or multithread programs, and is used for multithread programs, event-driven programs, etc. Assuming that, it is easy to understand, and similarly, it is possible to rewrite the status or generate an event for another process or another program in the arbitrary processing of the present invention.

また、本発明の方法を利用してマークアップ言語の指定によって表示される文字列もしくは表示される画像や画像の特徴に関連付けられた文字列もしくは出力される音声・音楽等や音声・音楽等の音響特徴に関連付けられた文字列といった各種文字列を表音記号列に変換し辞書登録することで表示される任意の情報を利用者の入力音声や文字列によって表音記号列の検索により検出し、検出された情報に関連付けられたコンテンツ関連情報や広告や映像やリンクのような任意情報所在個所に関する情報や音楽や音声に基づいて利用者の操作などにより情報の提供を実施できるとともに、これらの入力は音声やテキスト入力ばかりではなくメニューなどのリストから文字列を選択したり、ボタン操作におけるボタンのラベルによる文字列を用いたりして行なわれても良い。   In addition, a character string displayed by designating a markup language by using the method of the present invention or a character string associated with a displayed image or an image feature or output voice / music, voice / music, etc. Arbitrary information displayed by converting various character strings such as character strings associated with acoustic features into phonetic symbol strings and registering them in the dictionary is detected by searching the phonetic symbol strings based on the user's input voice and character strings. In addition to content-related information associated with the detected information, information related to the location of arbitrary information such as advertisements, videos and links, music and voice, etc., it is possible to provide information by user operation, etc. In addition to voice and text input, you can select a character string from a list such as a menu, or use a character string based on a button label in button operation. It may be carried out in interest.

また、下記例のように
(例)
< img href=”./flower_lily1.jpg”
recog_dic_type=”flower_name” recog_dic_url=”./flower.prono”
name=”lily” prono=”l/i/l/i/y”>
タグに含まれる表音記号辞書に関わる属性に応じて表音記号を読込む際に表音記号辞書の所在を示すURLやURI、IPアドレス、ディレクトリパスなどの情報によって表音記号認識辞書や表音記号列辞書といった情報の位置や場所を示す ”recog_dic_uri” といった属性による情報を用いたり、”recog_dic_type”のように辞書で認識する対象の種類を示す情報を用いたりすることによって再利用頻度の高い表音記号辞書などを区別することで表音記号列による辞書情報や認識用音響特性テンプレート辞書情報をマークアップ言語から獲得される属性に関連付けて提供してもよい。
Also, as in the example below (example)
<img href = ”./ flower_lily1.jpg”
recog_dic_type = ”flower_name” recog_dic_url = ”./ flower.prono”
name = ”lily” prono = ”l / i / l / i / y”>
When reading a phonetic symbol according to an attribute related to the phonetic symbol dictionary included in the tag, the phonetic symbol recognition dictionary or table is read according to information such as URL, URI, IP address, directory path, etc. indicating the location of the phonetic symbol dictionary. Reuse frequency is high by using information based on attributes such as “recog_dic_uri” indicating the position and location of information such as a phonetic symbol dictionary, or using information indicating the type of target recognized in the dictionary such as “recog_dic_type” By distinguishing phonetic symbol dictionaries and the like, dictionary information based on phonetic symbol strings and acoustic characteristic template dictionary information for recognition may be provided in association with attributes acquired from the markup language.

また、過去に読込んだ辞書情報を一般的にキャッシュと呼ばれる方法である程度保存しておき、前述の属性が特定の単語範囲を示す場合に辞書の優先順位を上げて再度読み込む手間を省いてもよいし、スタイルシートのように別ファイルとしてページごとに読込んでIDなどにより関連付けた表音記号辞書を組込んでもよいし、ヘッダーブロックに記載してIDで関連付けた表音記号辞書を組込んでも良いし、タグごとに属性として与えた表音記号辞書を組込んでも良いし、ファイルや通信回線経由の読込み時におけるヘッダ情報に表音記号辞書を含ませても良く、表音記号列テンプレート辞書として利用することも出来る。   Also, it is possible to save the dictionary information read in the past to some extent by a method generally called a cache, and save the trouble of increasing the priority of the dictionary and reading it again when the above-mentioned attribute indicates a specific word range. Alternatively, a phonetic symbol dictionary that is read for each page as a separate file, such as a style sheet, and is associated with an ID may be incorporated, or a phonetic symbol dictionary that is associated with an ID described in a header block may be incorporated. It is also possible to incorporate a phonetic symbol dictionary given as an attribute for each tag, or to include a phonetic symbol dictionary in header information when reading via a file or communication line. It can also be used as

また、音声にテキストデータを埋め込める「音響OFDM」を用いて音声波形情報に表音記号列を埋め込んでも良いし、埋め込まれた表音記号列や関連するマークアップ言語情報を復元して音声データ内の表音記号検索や関連する情報を字幕などにより表示したりするために利用してもよいため、ラジオやテレビなどの極めて一般的な音声データから復調された表音記号列を検索に利用することも出来る。   In addition, “acoustic OFDM” that can embed text data in speech may be used to embed phonetic symbol strings in speech waveform information, or speech data may be restored by restoring the embedded phonetic symbol strings and related markup language information. Can be used to search for phonetic symbols and display related information in subtitles, etc., so use phonetic symbol strings demodulated from extremely general audio data such as radio and television for searching You can also

また、表音記号認識によって獲得された表音記号列を用いて、検索対象として検索される表音記号列によって索引付されたデータベースは、複数のキーワードに基づく表音記号列の論理的な間に基づく組合せであってもよく、ブーリアンモデルにより論理性を表記できる構成であっても良く、それらの組合せによってクエリを構成しデータベースに提供し検索結果を獲得することが可能である。   In addition, a database indexed by a phonetic symbol string searched as a search target using a phonetic symbol string acquired by phonetic symbol recognition is a logical space between phonetic symbol strings based on a plurality of keywords. It is also possible to use a combination based on the above, or a configuration in which logicality can be expressed using a Boolean model, and a combination of these can constitute a query and provide it to a database to obtain a search result.

このようにして、従来の単語と音声特徴群をHMMなどにより確率的に結びつける方法とはことなり、本発明は表音記号と音声特徴をベイズ識別関数などによる確率に基づく距離によって関連付けることにより表音記号列を獲得し、獲得された表音記号列と単語文字列とをマークアップ言語を介して直接関連付ける方法によって、従来の一般的な認識に比べ認識対象となる単語に制約を加えて効率的な認識を実現することを可能とするための辞書情報の動的な提供をマークアップ言語で実現することが可能となるとともに、クエリに直接単語を利用せずに表音記号列を用いたり音素や音素片記号列を用いたりすることでHMMやDPのマッチングを用いるデータベースを構成し検索を行っても良い。   In this way, unlike the conventional method of stochastically connecting a word and a voice feature group by HMM or the like, the present invention represents a table by associating a phonetic symbol and a voice feature by a distance based on a probability based on a Bayes discriminant function or the like. By acquiring the phonetic symbol string and directly associating the acquired phonetic symbol string and the word character string via the markup language, it is more efficient by restricting the words to be recognized compared to conventional general recognition. It is possible to dynamically provide dictionary information for enabling real recognition in markup languages, and use phonetic symbol strings without using words directly in queries. A database using HMM or DP matching may be constructed and searched by using phonemes or phoneme symbol strings.

また、発話音素や発話音素変といった表音記号による属性ばかりではなく画像識別子や画像認識後の識別子や画像関連特徴量や動作特徴量や動作識別子などを属性として用いても良い。   Further, not only attributes based on phonetic symbols such as utterance phonemes and utterance phoneme changes, but also image identifiers, identifiers after image recognition, image-related feature amounts, motion feature amounts, motion identifiers, and the like may be used as attributes.

本発明を利用した情報処理装置のブロック図。1 is a block diagram of an information processing apparatus using the present invention. 認識辞書情報のデータ構造の一例を示した図。The figure which showed an example of the data structure of recognition dictionary information. 表音記号付与処理の動作フローを示した図。The figure which showed the operation | movement flow of the phonetic symbol provision process. 表音記号付与処理の動作を説明するための図。The figure for demonstrating the operation | movement of a phonetic symbol provision process. 表音記号付与処理の動作を説明するための図。The figure for demonstrating the operation | movement of a phonetic symbol provision process. 表音記号付与処理の動作を説明するための図。The figure for demonstrating the operation | movement of a phonetic symbol provision process. 表音記号付与処理の動作を説明するための図。The figure for demonstrating the operation | movement of a phonetic symbol provision process. 認識辞書更新処理の動作フローを示した図。The figure which showed the operation | movement flow of recognition dictionary update processing. 認識辞書情報の異なるデータ構造を示した図。The figure which showed the data structure from which recognition dictionary information differs. 認識辞書情報更新処理の動作フローを示した図。The figure which showed the operation | movement flow of recognition dictionary information update processing. 認識辞書情報更新処理の動作を説明するための図。The figure for demonstrating operation | movement of recognition dictionary information update processing. 認識辞書情報更新処理の動作を説明するための図。The figure for demonstrating operation | movement of recognition dictionary information update processing. 認識辞書情報更新処理の動作を説明するための図。The figure for demonstrating operation | movement of recognition dictionary information update processing. 認識辞書情報更新処理の動作を説明するための図。The figure for demonstrating operation | movement of recognition dictionary information update processing. サーバ・クライアントモデルに適用した場合における動作フローを示した図。The figure which showed the operation | movement flow at the time of applying to a server client model. サーバ・クライアントモデルに適用した場合における動作フローを示した図。The figure which showed the operation | movement flow at the time of applying to a server client model. 本実施形態における変形例を説明するための図。The figure for demonstrating the modification in this embodiment. 本実施形態における変形例を説明するための図。The figure for demonstrating the modification in this embodiment.

符号の説明Explanation of symbols

1 情報処理装置
10 制御部
20 記憶部
202 コンテンツ情報
204 表音記号変換テーブル
206 認識辞書情報
208 表音記号付与プログラム
210 認識辞書情報更新プログラム
212 音声操作プログラム
30 通信部
40 入出力部
50 操作部
60 表示部
DESCRIPTION OF SYMBOLS 1 Information processing apparatus 10 Control part 20 Storage part 202 Content information 204 Phonetic symbol conversion table 206 Recognition dictionary information 208 Phonetic symbol addition program 210 Recognition dictionary information update program 212 Voice operation program 30 Communication part 40 Input / output part 50 Operation part 60 Display section

Claims (10)

文字情報及び/又はメタ情報を含むコンテンツ情報を取得するコンテンツ情報取得手段と、
前記コンテンツ情報取得手段により取得されたコンテンツ情報から、表音記号からなる認識表音記号列を検出する認識表音記号列検出手段と、
前記認識表音記号列を用いて認識辞書情報を生成する認識辞書情報生成手段と、
を備えることを特徴とする情報処理装置。
Content information acquisition means for acquiring content information including character information and / or meta information;
Recognized phonetic symbol string detecting means for detecting a recognized phonetic symbol string consisting of phonetic symbols from the content information acquired by the content information acquiring means;
Recognition dictionary information generating means for generating recognition dictionary information using the recognition phonetic symbol string;
An information processing apparatus comprising:
文字情報及び/又はメタ情報を含むコンテンツ情報を取得するコンテンツ情報取得手段と、
前記コンテンツ情報取得手段により取得されたコンテンツ情報から、文字情報及び/又はメタ情報に基づいて展開対象文字列を検出する展開対象文字列検出手段と、文字列と表音記号とを対応づけて記憶する表音記号記憶手段と、
前記表音記号記憶手段を参照することにより、前記展開対象文字列を認識表音記号列に変換する表音記号変換手段と、
前記認識表音記号列を用いて認識辞書情報を生成する認識辞書情報生成手段と、
を備えることを特徴とする情報処理装置。
Content information acquisition means for acquiring content information including character information and / or meta information;
A development target character string detection unit that detects a development target character string based on character information and / or meta information from the content information acquired by the content information acquisition unit, and stores the character string and a phonetic symbol in association with each other. Phonetic symbol storage means for
A phonetic symbol conversion means for converting the expansion target character string into a recognized phonetic symbol string by referring to the phonetic symbol storage means;
Recognition dictionary information generating means for generating recognition dictionary information using the recognition phonetic symbol string;
An information processing apparatus comprising:
前記表音記号変換手段により変換された表音記号を、前記コンテンツ情報に付加することにより当該コンテンツ情報を保存するコンテンツ情報保存手段を更に備えることを特徴とする請求項2に記載の情報処理装置。   3. The information processing apparatus according to claim 2, further comprising content information storage means for storing the phonetic symbol converted by the phonetic symbol conversion means to the content information by storing the content information. . 前記コンテンツ情報保存手段により保存されたコンテンツ情報と、当該コンテンツ情報に基づいて生成された認識辞書情報とを他の情報処理端末に送信する送信手段を更に備えることを特徴とする請求項1から3のいずれか一項に記載の情報処理装置。   4. The transmission apparatus according to claim 1, further comprising a transmission unit configured to transmit the content information stored by the content information storage unit and the recognition dictionary information generated based on the content information to another information processing terminal. The information processing apparatus according to any one of the above. 音声を入力する音声入力手段と、
前記音声入力手段により入力された音声の特徴量を抽出する特徴量抽出手段と、
前記特徴量抽出手段により抽出された特徴量から、表音記号に変換する特徴量表音記号変換手段と、
前記特徴量表音記号変換手段により変換された表音記号と、前記認識辞書情報に含まれる認識表音記号列を構成する表音記号とを評価し、もっとも類似する表音記号に対応して所定の処理を実行する処理実行手段と、
を更に備えることを特徴とする請求項1から4のいずれか一項に記載の情報処理装置。
Voice input means for inputting voice;
Feature quantity extraction means for extracting the feature quantity of the voice input by the voice input means;
A feature value phonetic symbol conversion unit for converting the feature amount extracted by the feature amount extraction unit into a phonetic symbol;
Evaluating the phonetic symbols converted by the feature value phonetic symbol conversion means and the phonetic symbols constituting the recognized phonetic symbol string included in the recognition dictionary information, and corresponding to the most similar phonetic symbols Processing execution means for executing predetermined processing;
The information processing apparatus according to claim 1, further comprising:
前記コンテンツ情報には、音素情報及び/又は音素片情報が含まれており、
前記処理実行手段は、前記特徴量表音記号変換手段により変換された表音記号と、前記認識辞書情報に含まれる認識表音記号列を構成する表音記号とを評価し、もっとも類似する表音記号に対応して利用者に対し、音声発話による情報の提示を行うことを特徴とする請求項5に記載の情報処理装置。
The content information includes phoneme information and / or phoneme piece information,
The processing execution means evaluates the phonetic symbols converted by the feature value phonetic symbol conversion means and the phonetic symbols constituting the recognized phonetic symbol string included in the recognition dictionary information, and the most similar table is evaluated. 6. The information processing apparatus according to claim 5, wherein information is presented by voice utterance to a user corresponding to a phonetic symbol.
前記表音記号は、音素又は音素片であることを特徴とする請求項1から6のいずれか一項に記載の情報処理装置。   The information processing apparatus according to claim 1, wherein the phonetic symbol is a phoneme or a phoneme piece. 前記実行される処理は、音素認識に伴う認証処理であることを特徴とする請求項5から7のいずれか一項に記載の情報処理装置。   The information processing apparatus according to claim 5, wherein the executed process is an authentication process associated with phoneme recognition. コンピュータに、
マークアップ言語を用いて記述された情報を解釈するマークアップ言語解釈ステップと前記解釈によって指定された属性を獲得する属性獲得ステップと、
属性獲得ステップによって獲得された属性に関連付けられた表音記号列及び/又は音素列及び/又は音素片列を抽出する表音記号抽出ステップと、
前記表音記号抽出ステップによって、音素認識部で用いる音素列辞書を変更する辞書変更ステップと、
を実現させることを特徴とするプログラム。
On the computer,
A markup language interpretation step of interpreting information described using a markup language, and an attribute acquisition step of acquiring an attribute specified by the interpretation;
A phonetic symbol extraction step of extracting a phonetic symbol sequence and / or a phoneme sequence and / or a phoneme segment sequence associated with the attribute acquired by the attribute acquisition step;
A dictionary change step for changing a phoneme string dictionary used in the phoneme recognition unit by the phonetic symbol extraction step;
A program characterized by realizing.
コンピュータに、
マークアップ言語を用いて記述された情報を解釈するマークアップ言語解釈ステップと前記解釈によって指定された属性を獲得する属性獲得ステップと、
属性獲得ステップによって獲得された属性に関連付けられた表音記号列及び/又は音素列及び/又は音素片列を抽出する表音記号抽出ステップと、
前記属性獲得ステップによって獲得された属性に基づき利用者が入力する情報の種別を評価する情報種別評価ステップと、
前記情報評価ステップによって、音素認識部で用いる音素列辞書を変更する辞書変更ステップと、
を実現させることを特徴とするプログラム。
On the computer,
A markup language interpretation step of interpreting information described using a markup language, and an attribute acquisition step of acquiring an attribute specified by the interpretation;
A phonetic symbol extraction step of extracting a phonetic symbol sequence and / or a phoneme sequence and / or a phoneme segment sequence associated with the attribute acquired by the attribute acquisition step;
An information type evaluation step for evaluating the type of information input by the user based on the attribute acquired by the attribute acquisition step;
A dictionary change step for changing a phoneme string dictionary used in the phoneme recognition unit by the information evaluation step;
A program characterized by realizing.
JP2007550144A 2005-12-15 2006-12-06 Information processing apparatus and program Pending JPWO2007069512A1 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2005361670 2005-12-15
JP2005361670 2005-12-15
PCT/JP2006/324348 WO2007069512A1 (en) 2005-12-15 2006-12-06 Information processing device, and program

Publications (1)

Publication Number Publication Date
JPWO2007069512A1 true JPWO2007069512A1 (en) 2009-05-21

Family

ID=38162820

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007550144A Pending JPWO2007069512A1 (en) 2005-12-15 2006-12-06 Information processing apparatus and program

Country Status (2)

Country Link
JP (1) JPWO2007069512A1 (en)
WO (1) WO2007069512A1 (en)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5163202B2 (en) * 2008-03-18 2013-03-13 株式会社国際電気通信基礎技術研究所 Article estimation system
JP2009244432A (en) * 2008-03-29 2009-10-22 Kddi Corp Voice recognition device, method and program for portable terminal
WO2016088241A1 (en) * 2014-12-05 2016-06-09 三菱電機株式会社 Speech processing system and speech processing method
JP7035526B2 (en) * 2017-03-17 2022-03-15 株式会社リコー Information processing equipment, programs and information processing methods
US11138506B2 (en) * 2017-10-10 2021-10-05 International Business Machines Corporation Abstraction and portability to intent recognition
JP7009338B2 (en) * 2018-09-20 2022-01-25 Tvs Regza株式会社 Information processing equipment, information processing systems, and video equipment
CN111489735B (en) * 2020-04-22 2023-05-16 北京声智科技有限公司 Voice recognition model training method and device
CN111639219A (en) * 2020-05-12 2020-09-08 广东小天才科技有限公司 Method for acquiring spoken language evaluation sticker, terminal device and storage medium
CN112201238A (en) * 2020-09-25 2021-01-08 平安科技(深圳)有限公司 Method and device for processing voice data in intelligent question answering and related equipment

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10222342A (en) * 1997-02-06 1998-08-21 Nippon Telegr & Teleph Corp <Ntt> Hypertext speech control method and device therefor
JP2001034151A (en) * 1999-07-23 2001-02-09 Matsushita Electric Ind Co Ltd Language learning teaching material preparing device and language learning system
JP2003202890A (en) * 2001-12-28 2003-07-18 Canon Inc Speech recognition device, and method and program thereof
JP3945778B2 (en) * 2004-03-12 2007-07-18 インターナショナル・ビジネス・マシーンズ・コーポレーション Setting device, program, recording medium, and setting method

Also Published As

Publication number Publication date
WO2007069512A1 (en) 2007-06-21

Similar Documents

Publication Publication Date Title
CN109086408B (en) Text generation method and device, electronic equipment and computer readable medium
CN111968649B (en) Subtitle correction method, subtitle display method, device, equipment and medium
JPWO2007069512A1 (en) Information processing apparatus and program
KR102018295B1 (en) Apparatus, method and computer-readable medium for searching and providing sectional video
JPWO2007043679A1 (en) Information processing apparatus and program
JP4689670B2 (en) Interactive manuals, systems and methods for vehicles and other complex devices
Freitas et al. Speech technologies for blind and low vision persons
JP5178109B2 (en) Search device, method and program
EP3125134B1 (en) Speech retrieval device, speech retrieval method, and display device
CN105224581B (en) The method and apparatus of picture are presented when playing music
CN112449253B (en) Interactive video generation
US20200058288A1 (en) Timbre-selectable human voice playback system, playback method thereof and computer-readable recording medium
CN101309327A (en) Sound chat system, information processing device, speech recognition and key words detectiion
CN103348338A (en) File format, server, view device for digital comic, digital comic generation device
CN109920409B (en) Sound retrieval method, device, system and storage medium
KR101410601B1 (en) Spoken dialogue system using humor utterance and method thereof
JP2015148701A (en) Robot control device, robot control method and robot control program
CN114946193A (en) Customized video production service providing system using cloud-based voice integration
JP2004334409A (en) Data browsing support device, data browsing method, and data browsing program
KR101804679B1 (en) Apparatus and method of developing multimedia contents based on story
CN116682411A (en) Speech synthesis method, speech synthesis system, electronic device, and storage medium
JPH09274428A (en) Sign language animation forming device
JP4367713B2 (en) Broadcast receiving method, broadcast receiving system, first device, second device, voice recognition method, voice recognition device, program, and recording medium
AT&T untitled
JP2006195900A (en) Multimedia content generation device and method

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110621

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120124