JPWO2006093003A1 - 辞書データ生成装置及び電子機器 - Google Patents
辞書データ生成装置及び電子機器 Download PDFInfo
- Publication number
- JPWO2006093003A1 JPWO2006093003A1 JP2007505866A JP2007505866A JPWO2006093003A1 JP WO2006093003 A1 JPWO2006093003 A1 JP WO2006093003A1 JP 2007505866 A JP2007505866 A JP 2007505866A JP 2007505866 A JP2007505866 A JP 2007505866A JP WO2006093003 A1 JPWO2006093003 A1 JP WO2006093003A1
- Authority
- JP
- Japan
- Prior art keywords
- data
- keyword
- voice
- program
- dictionary data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims description 99
- 238000012545 processing Methods 0.000 claims description 58
- 239000000284 extract Substances 0.000 claims description 17
- 230000004397 blinking Effects 0.000 claims 1
- 238000000605 extraction Methods 0.000 claims 1
- 230000000877 morphologic effect Effects 0.000 description 19
- 230000006870 function Effects 0.000 description 13
- 235000016496 Panda oleosa Nutrition 0.000 description 9
- 240000000220 Panda oleosa Species 0.000 description 9
- 238000012986 modification Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 7
- 239000002245 particle Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
- H04N21/8405—Generation or processing of descriptive data, e.g. content descriptors represented by keywords
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/426—Internal components of the client ; Characteristics thereof
- H04N21/42646—Internal components of the client ; Characteristics thereof for reading from or writing on a non-volatile solid state storage medium, e.g. DVD, CD-ROM
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
- H04N21/440236—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/482—End-user interface for program selection
- H04N21/4828—End-user interface for program selection for searching program descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/44—Receiver circuitry for the reception of television signals according to analogue transmission standards
- H04N5/60—Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Navigation (AREA)
- User Interface Of Digital Computer (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
Description
11・・・TV受信部
12・・・信号処理部
13・・・EPGデータ処理部
14・・・DVDドライブ
15・・・ハードディスク
16・・・復号処理部
17・・・システム制御部
18・・・音声認識部
19・・・操作部
20・・・記録制御部
21・・・再生制御部
22・・・ROM/RAM
[1.1]実施形態の構成
以下、本実施形態にかかる情報記録再生装置RPの構成を示すブロック図である図1を参照しつつ本願の実施の形態について説明する。なお、以下に説明する実施の形態は、データの記録および読み出しが行なわれるハードディスクドライブ(以下、「HDD」という。)及びDVDドライブを備えた、所謂、ハードディスク/DVDレコーダに対して本願を適用した場合の実施の形態である。また、以下において、「放送番組」とは放送波を介して各放送局から提供されるコンテンツを示すものとする。
(a)地上アナログ放送や地上デジタル放送等に対応した放送波をTV受信部11にて受信して放送番組に対応したコンテンツデータをDVD及びハードディスク151に記録する一方、DVD及びハードディスク151に記録されたコンテンツデータを再生する記録再生機能。
(b)TV受信部11により受信された放送波に含まれるEPGデータを抽出して当該EPGデータに基づいてモニタMNに番組表を表示させる番組表表示機能。
ると共に、キー入力ポート等の各種入出力ポートを含み、情報記録再生装置RPの全体的な機能を統括的に制御する。かかる制御に際して、システム制御部17は、ROM/RAM22に記録されている制御情報や制御プログラムを利用すると共に当該ROM/RAM22をワークエリアとして利用する。
次いで、図3を参照しつつ本実施形態にかかる情報記録再生装置RPの動作について説明する。なお、DVD或いはハードディスク151に対するコンテンツデータの記録動作及び再生動作については従来のハードディスク/DVDレコーダと異なるところが無いため、以下においては情報記録再生装置RPにおいて番組表表示時に実行される処理について説明することとする。また、以下の説明においては、既にハードディスク151のEPGデータ記録領域にEPGデータが記録されているものとして説明を行う。
(1)変形例1
上記実施形態における方法を採用した場合、表示可能文字数「N」の値によっては、複数の番組に対して同一のキーワードが設定される場合が想定される。例えば、表示可能文字数「N」を5文字とした場合、「ニュース●●●(●●●は品詞)」と、「ニュース▲▲▲(▲▲▲は品詞)」の双方に対して、「ニュース」なるキーワードが設定されてしまう(もちろん、「N」の値を充分に大きくすれば、このような事態が発生する可能は、限りなく「0」に近い値となるため、このような方法を採用する必要性はない。)。このような事態が発生した場合の対策方法としては、次のような方法を採用することが可能である。
この対策方法は、キーワードに変更を加えることなく、音声入力時に当該キーワードに対応する番組名の候補を表示してユーザに選択させる方法である。例えば、上記例の場合、「ニュース●●●」と「ニュース▲▲▲」の双方に対して同一のキーワード(「ニュース」)を設定する。そして、ユーザが「ニュース」なる音声を発話した場合、このキーワードに基づいて「ニュース●●●」と「ニュース▲▲▲」の双方を抽出すると共に、選択候補として両者をモニタMNに表示させ、当該表示に従ってユーザが選択した放送番組を録画対象として選択する。
この対策方法は、両番組名間においてキーワード上の際が生じるまで、キーワードとして設定する文字数を延長する方法である。例えば、上記のような例の場合、「ニュース●●●」と「ニュース▲▲▲」が、各放送番組に対応したキーワードということになる。但し、この方法を採用した場合、キーワードの全文が番組表示欄中に表示できなくなってしまうため、本対策方法を採用する場合、当該番組名の全文が表示欄中に表示できるようにフォントサイズを小さくして、これら番組名を表示させる方法を採用することが必要となる。
上記実施形態においては、(a)番組名中にひらがな及びカタカナ以外の文字列が含まれている場合(図3ステップS3「yes」)や、(b)番組名が表示可能文字数「N」を越えている場合(ステップS4「yes」)に形態素解析を実行する手法を用いていたが、これらの判断ステップを設けることなく、全番組名に対して一律に形態素解析を行い(ステップS7)、ステップS5及びステップS8〜S10の処理を実行するようにしても良い。
上記実施形態においては、番組名に対応したテキストデータに対して形態素解析を施すことにより、番組名を複数の品詞に分割してキーワードを設定し、特徴量パターンを生成する手法を採用していた。しかし、形態素解析以外の手法を用いてキーワードを設定することも可能である。例えば、次のような手法を採用することも可能である。
(a)番組名に漢字が含まれていない場合
(i)先頭からN文字を抽出する、或いは、
(ii)先頭からN文字、後ろからM文字を抽出して、結合する。
(b)番組名の漢字が含まれている場合
(i)2文字以上連続した漢字を抽出する、或いは、
(ii)ひらがなの直前、或いは、直後の2文字以上の連続した漢字を抽出する。
上記実施形態においては、キーワードの意味内容については一切加味することなくキーワードを設定する構成を採用していた。しかし、番組名中の一部を抽出した結果、例えば、当該抽出後のキーワードが放送禁止用語等の不適切な用語に一致するような場合も想定される。このような場合、当該キーワード中の最後の品詞を削除する等の方法により、キーワードの内容を変更するようにしても良い。
ータに基づき、前記特定された入力コマンドに対応する処理を実行する実行手段と、前記辞書データに基づいて、ユーザに発話させるべきキーワードを表示するための表示データを生成し、表示装置に供給する表示制御手段とを具備し、前記辞書データにおける前記キーワードが、当該キーワードを表示する前記表示装置において表示可能な文字数の範囲内にて設定されており、前記表示制御手段は、前記表示可能な文字数の範囲内にて前記表示データを生成し、前記表示装置に供給することを特徴とする。
[0007]
また更に、本願の他の観点において請求項12に記載の辞書データ生成方法は、ユーザにより発話された音声に基づいてユーザの入力コマンドを認識する音声認識装置において用いられる音声認識用の辞書データを生成するための辞書データ生成方法であって、前記コマンドに対応したテキストデータを取得する取得ステップと、前記音声認識用のキーワードを表示するための表示装置において表示可能な前記キーワードの文字数を特定する特定ステップと、前記取得されたテキストデータの中から前記特定された文字数の範囲内にて一部の文字列を抽出し、当該文字列を前記キーワードとして設定する設定ステップと、前記設定されたキーワードに対応した音声の特徴量を示す特徴量データを生成すると共に、当該コマンドに対応した処理内容を特定するための内容データを前記特徴量データと対応付けることにより前記辞書データを生成する生成ステップと、を具備することを特徴とする。
[0008]
更に、本願の他の観点において請求項13に記載の電子機器の制御方法は、コマンドに対応した文字列の一部に設定されたキーワードに対応した音声の特徴量を示す特徴量データと、前記コマンドに対応した処理内容を特定するための内容データとが対応付けられた辞書データを用いて、ユーザの発話音声に対応する入力コマンドを認識する音声認識装置を備えた電子機器の制御方法であって、前記辞書データに基づいて、ユーザに発話させるべきキーワードを表示するための表示データを生成し、表示装置に供給する表示ステップと、前記表示装置に表示された画像に従って、ユーザの発話音声が入力された場合に、前記辞書データに基づいて当該発話音声に対応する入力コマンドを特定する音声認識ステップと、前記内容データに基づき、前記特定された入力コマンドに対応する処理を実行する実行ステップとを具備し、前記辞書データにおける前記キーワードが、当該キーワードを表示する前記表示装置において表示可能な文字数の範囲内にて設定されており、前記表示ステップにおいては、前記表示可能な文字数の範囲内にて前記表示データを生成し、前記表示装置に供給することを特徴とする。
[0009]
更にまた、本願の他の観点において請求項14に記載の辞書データ生成プログラムは、ユーザにより発話された音声に基づいてユーザの入力コマンドを認識する音声
認識装置において用いられる音声認識用の辞書データをコンピュータにより生成するための辞書データ生成プログラムであって、前記コンピュータを、前記コマンドに対応したテキストデータを取得する取得手段、前記音声認識用のキーワードを表示するための表示装置において表示可能な前記キーワードの文字数を特定する特定手段、前記取得された各テキストデータの中から前記特定された文字数の範囲内にて一部の文字列を抽出し、当該文字列を前記キーワードとして設定する設定手段、前記設定されたキーワードに対応した音声の特徴量を示す特徴量データを生成すると共に、当該コマンドに対応した処理内容を特定するための内容データを前記特徴量データと対応付けることにより前記辞書データを生成する生成手段、として機能させることを特徴とする。
[0010]
また、本願の他の観点において請求項15に記載の処理プログラムは、コマンドに対応した文字列の一部に設定されたキーワードに対応した音声の特徴量を示す特徴量データと、前記コマンドに対応した処理内容を特定するための内容データとが対応付けられた辞書データを記録した記録手段と、前記辞書データを用いて、ユーザの発話音声に対応する入力コマンドを認識する音声認識装置と、を備えたコンピュータにおいて処理を実行するための処理プログラムであって、前記コンピュータを、前記辞書データに基づいて、ユーザに発話させるべきキーワードを表示するための表示データを生成し、表示装置に供給する表示手段、前記表示装置に表示された画像に従って、ユーザの発話音声が入力された場合に、前記辞書データに基づいて当該発話音声に対応する入力コマンドを特定する音声認識手段、前記内容データに基づき、前記特定された入力コマンドに対応する処理を実行する実行手段、として機能させると共に、前記辞書データにおける前記キーワードが、当該キーワードを表示する前記表示装置において表示可能な文字数の範囲内にて設定されており、前記表示手段としての前記コンピュータを、前記表示可能な文字数の範囲内にて前記表示データを生成し、前記表示装置に供給するように機能させることを特徴とする。
[0011]
また更に、本願の他の観点において請求項16に記載のコンピュータに読み取り可能な情報記録媒体は、請求項14に記載の辞書データ生成プログラムが記録されたことを特徴とする。
[0012]
更に、本願の他の観点において請求項17に記載のコンピュータに読み取り可能な情報記録媒体は、請求項15に記載の処理プログラムが記録されたことを特徴とする。
Claims (17)
- ユーザにより発話された音声に基づいてユーザの入力コマンドを認識する音声認識装置において用いられる音声認識用の辞書データを生成するための辞書データ生成装置であって、
前記コマンドに対応したテキストデータを取得する取得手段と、
前記取得されたテキストデータから一部の文字列を抽出し、当該文字列をキーワードとして設定する設定手段と、
前記設定されたキーワードに対応した音声の特徴量を示す特徴量データを生成すると共に、当該コマンドに対応した処理内容を特定するための内容データを当該特徴量データと対応付けることにより前記辞書データを生成する生成手段と、
前記キーワードを表示するための表示装置おいて表示可能な前記キーワードの文字数を特定する特定手段と、を備え、
前記設定手段は、前記特定手段によって特定された文字数の範囲内にて前記キーワードを設定することを特徴とする辞書データ生成装置。 - 放送番組の番組表を表示するための電子番組表情報を受信する受信手段を更に備え、
前記取得手段は、前記受信手段によって受信された前記電子番組表情報から各放送番組の番組名を示すテキストデータを取得し、
前記設定手段は、当該テキストデータから一部の文字列を抽出することにより番組名の一部をキーワードとして設定することを特徴とする請求項1に記載の辞書データ生成装置。 - 前記設定手段は、前記テキストデータに対応した文字列における最後尾から所定数の品詞を削除することにより、前記テキストデータから一部の文字列を抽出することを特徴とする請求項1に記載の辞書データ生成装置。
- 前記設定手段が前記キーワードを設定する際おける、文字列の抽出条件を示す条件データを記録した条件データ記録手段を更に備え、
前記設定手段は、前記特定手段により特定された文字数及び前記条件データの双方に基づき前記テキストデータから一部の文字列を抽出することを特徴とする請求項1に記載の辞書データ生成装置。 - 前記設定手段は、前記キーワードを設定する際に、当該設定するキーワードと同一の文字列からなるキーワードが他のコマンドに対応して設定されている場合には、キーワードとして設定する文字数を増加させることを特徴とする請求項1に記載の辞書データ生成装置。
- ユーザにより発話された音声に基づいてユーザの入力コマンドを認識する音声認識装置を備えた電子機器であって、
前記コマンドに対応した文字列の一部に設定されたキーワードに対応した音声の特徴量を示す特徴量データと、前記コマンドに対応した処理内容を特定するための内容データとが対応付けられた辞書データを記録した記録手段と、
ユーザの発話音声を入力するための入力手段と、
前記記録された辞書データに基づいて前記発話音声に対応する入力コマンドを特定する音声認識手段と、
前記内容データに基づき、前記特定された入力コマンドに対応する処理を実行する実行手段と、
前記辞書データに基づいて、ユーザに発話させるべきキーワードを表示するための表示データを生成し、表示装置に供給する表示制御手段と
を具備することを特徴とする電子機器。 - 前記表示制御手段は、前記コマンドに対応した文字列の一部であって、少なくとも前記キーワードを含む文字列を表示するための表示データを生成する際に、当該文字列の中に含まれる前記キーワードに対応する文字部分のみを強調表示させることを特徴とする請求項6に記載の電子機器。
- 前記表示制御手段は、前記強調表示を行うに際して、
(a)前記キーワード部分のみ文字の色を変えて表示させる、
(b)当該キーワード部分の文字フォントを変えて表示させる、
(c)当該キーワード部分の文字を太線にて表示させる、
(d)当該キーワード部分の文字サイズを変えて表示させる、
(e)当該キーワード部分の文字を枠で囲って表示させる、
(f)当該キーワード部分の文字を点滅表示させる、
(g)当該キーワード部分の文字を反転表示させる、
という手法の少なくとも何れか1つの手法により前記強調表示を行うことを特徴とする請求項7に記載の電子機器。 - 放送番組の番組表を表示するための電子番組表情報を受信する受信手段を更に備え、
前記記録手段には、前記放送番組を指定するコマンドに対応した内容データと、当該番組名に対応した文字列の一部に設定されたキーワードに対応する前記特徴量データとが対応付けられた前記辞書データが記録されており、
前記表示制御手段は、前記受信された電子番組表情報に基づいて前記番組表を前記表示装置に表示させると共に、当該表示に際して、前記辞書データに基づいて、ユーザに発話させるべきキーワード部分を強調表示させることを特徴とする請求項7又は8に記載の電子機器。 - 前記放送番組に対応したコンテンツデータを記録するためのコンテンツデータ記録手段を更に備え、
前記受信手段は、前記電子番組表情報と共に前記コンテンツデータを受信し、
前記実行手段は、前記特定された入力コマンドに対応した内容データにより指定される前記放送番組に対応する放送チャネル及び放送時刻の少なくとも一方を前記電子番組表情報から抽出すると共に、(a)当該放送番組に対応した前記コンテンツデータの録画予約を行い、或いは、(b)前記受信手段における受信チャネルの切換を行う、ことを特徴とする請求項9に記載の電子機器。 - 前記表示制御手段は、前記音声認識手段によって特定された入力コマンドが複数存在する場合に、何れの実行コマンドを実行すべきかをユーザに選択させるための選択画像を前記表示装置に表示させる選択画面表示制御手段を更に備えることを特徴とする請求項6に記載の電子機器。
- ユーザにより発話された音声に基づいてユーザの入力コマンドを認識する音声認識装置において用いられる音声認識用の辞書データを生成するための辞書データ生成方法であって、
前記コマンドに対応したテキストデータを取得する取得ステップと、
前記音声認識用のキーワードを表示するための表示装置おいて表示可能な前記キーワードの文字数を特定する特定ステップと、
前記取得されたテキストデータの中から前記特定された文字数の範囲内にて一部の文字列を抽出し、当該文字列を前記キーワードとして設定する設定ステップと、
前記設定されたキーワードに対応した音声の特徴量を示す特徴量データを生成すると共に、当該コマンドに対応した処理内容を特定するための内容データを前記特徴量データと対応付けることにより前記辞書データを生成する生成ステップと、
を具備することを特徴とする辞書データ生成方法。 - コマンドに対応した文字列の一部に設定されたキーワードに対応した音声の特徴量を示す特徴量データと、前記コマンドに対応した処理内容を特定するための内容データとが対応付けられた辞書データを用いて、ユーザの発話音声に対応する入力コマンドを認識する音声認識装置を備えた電子機器の制御方法であって、
前記辞書データに基づいて、ユーザに発話させるべきキーワードを表示するための表示データを生成し、表示装置に供給する表示ステップと、
前記表示装置に表示された画像に従って、ユーザの発話音声が入力された場合に、前記辞書データに基づいて当該発話音声に対応する入力コマンドを特定する音声認識ステップと、
前記内容データに基づき、前記特定された入力コマンドに対応する処理を実行する実行ステップと、
を具備することを特徴とする電子機器の制御方法。 - ユーザにより発話された音声に基づいてユーザの入力コマンドを認識する音声認識装置において用いられる音声認識用の辞書データをコンピュータにより生成するための辞書データ生成プログラムであって、
前記コンピュータを、
前記コマンドに対応したテキストデータを取得する取得手段、
前記音声認識用のキーワードを表示するための表示装置おいて表示可能な前記キーワードの文字数を特定する特定手段、
前記取得された各テキストデータの中から前記特定された文字数の範囲内にて一部の文字列を抽出し、当該文字列を前記キーワードとして設定する設定手段、
前記設定されたキーワードに対応した音声の特徴量を示す特徴量データを生成すると共に、当該コマンドに対応した処理内容を特定するための内容データを前記特徴量データと対応付けることにより前記辞書データを生成する生成手段、
として機能させることを特徴とする辞書データ生成プログラム。 - コマンドに対応した文字列の一部に設定されたキーワードに対応した音声の特徴量を示す特徴量データと、前記コマンドに対応した処理内容を特定するための内容データとが対応付けられた辞書データを記録した記録手段と、前記辞書データを用いて、ユーザの発話音声に対応する入力コマンドを認識する音声認識装置と、を備えたコンピュータにおいて処理を実行するための処理プログラムであって、
前記コンピュータを、
前記辞書データに基づいて、ユーザに発話させるべきキーワードを表示するための表示データを生成し、表示装置に供給する表示手段、
前記表示装置に表示された画像に従って、ユーザの発話音声が入力された場合に、前記辞書データに基づいて当該発話音声に対応する入力コマンドを特定する音声認識手段、
前記内容データに基づき、前記特定された入力コマンドに対応する処理を実行する実行手段、
として機能させることを特徴とする処理プログラム。 - 請求項14に記載の辞書データ生成プログラムが記録されたことを特徴とするコンピュータに読み取り可能な情報記録媒体。
- 請求項15に記載の処理プログラムが記録されたことを特徴とするコンピュータに読み取り可能な情報記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005054128 | 2005-02-28 | ||
JP2005054128 | 2005-02-28 | ||
PCT/JP2006/303192 WO2006093003A1 (ja) | 2005-02-28 | 2006-02-22 | 辞書データ生成装置及び電子機器 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2006093003A1 true JPWO2006093003A1 (ja) | 2008-08-07 |
JP4459267B2 JP4459267B2 (ja) | 2010-04-28 |
Family
ID=36941037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007505866A Expired - Fee Related JP4459267B2 (ja) | 2005-02-28 | 2006-02-22 | 辞書データ生成装置及び電子機器 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20080126092A1 (ja) |
JP (1) | JP4459267B2 (ja) |
WO (1) | WO2006093003A1 (ja) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
US9026447B2 (en) | 2007-11-16 | 2015-05-05 | Centurylink Intellectual Property Llc | Command and control of devices and applications by voice using a communication base system |
WO2009147927A1 (ja) | 2008-06-06 | 2009-12-10 | 株式会社レイトロン | 音声認識装置、音声認識方法および電子機器 |
KR101427686B1 (ko) * | 2008-06-09 | 2014-08-12 | 삼성전자주식회사 | 프로그램 선택 방법 및 그 장치 |
WO2009150591A1 (en) * | 2008-06-11 | 2009-12-17 | Koninklijke Philips Electronics N.V. | Method and device for the generation of a topic-specific vocabulary and computer program product |
US20140074821A1 (en) * | 2012-09-12 | 2014-03-13 | Applied Systems, Inc. | System, Method and Device Having Data Display Regulation and Tabular Output |
US8290971B2 (en) * | 2008-09-09 | 2012-10-16 | Applied Systems, Inc. | Method and apparatus for remotely displaying a list by determining a quantity of data to send based on the list size and the display control size |
JP2010072507A (ja) * | 2008-09-22 | 2010-04-02 | Toshiba Corp | 音声認識検索装置及び音声認識検索方法 |
CN101355664B (zh) * | 2008-09-23 | 2010-08-04 | 华为终端有限公司 | 一种节目的播放方法、装置和系统 |
JP5332847B2 (ja) * | 2009-04-10 | 2013-11-06 | ソニー株式会社 | コンテンツ処理装置および方法、プログラム、並びに記録媒体 |
JP5465926B2 (ja) * | 2009-05-22 | 2014-04-09 | アルパイン株式会社 | 音声認識辞書作成装置及び音声認識辞書作成方法 |
JP2012003407A (ja) * | 2010-06-15 | 2012-01-05 | Sony Corp | 情報処理装置、同一性判定システム、同一性判定方法およびコンピュータプログラム |
WO2013102954A1 (ja) * | 2012-01-06 | 2013-07-11 | パナソニック株式会社 | 放送受信装置および音声辞書構築処理方法 |
US20140181672A1 (en) * | 2012-12-20 | 2014-06-26 | Lenovo (Beijing) Co., Ltd. | Information processing method and electronic apparatus |
EP3203471B1 (en) * | 2013-01-29 | 2023-03-08 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder for generating a frequency enhanced audio signal, method of decoding, encoder for generating an encoded signal and method of encoding using compact selection side information |
WO2016147342A1 (ja) * | 2015-03-18 | 2016-09-22 | 三菱電機株式会社 | 情報提供システム |
CN106572049B (zh) * | 2015-10-09 | 2019-08-27 | 腾讯科技(深圳)有限公司 | 一种身份验证方法及装置 |
US10448762B2 (en) | 2017-09-15 | 2019-10-22 | Kohler Co. | Mirror |
US10887125B2 (en) | 2017-09-15 | 2021-01-05 | Kohler Co. | Bathroom speaker |
US11093554B2 (en) | 2017-09-15 | 2021-08-17 | Kohler Co. | Feedback for water consuming appliance |
US11099540B2 (en) | 2017-09-15 | 2021-08-24 | Kohler Co. | User identity in household appliances |
US11314215B2 (en) | 2017-09-15 | 2022-04-26 | Kohler Co. | Apparatus controlling bathroom appliance lighting based on user identity |
FR3077656A1 (fr) * | 2018-02-07 | 2019-08-09 | Christophe Leveque | Procede de transformation d’une sequence pour la rendre executable par une machine |
CN109002186B (zh) * | 2018-06-28 | 2020-12-25 | 北京金山安全软件有限公司 | 一种输入预测方法及装置 |
JP7183600B2 (ja) * | 2018-07-20 | 2022-12-06 | 株式会社リコー | 情報処理装置、システム、方法およびプログラム |
US11526674B2 (en) * | 2019-03-01 | 2022-12-13 | Rakuten Group, Inc. | Sentence extraction system, sentence extraction method, and information storage medium |
JP7377043B2 (ja) * | 2019-09-26 | 2023-11-09 | Go株式会社 | 操作受付装置及びプログラム |
US11526544B2 (en) | 2020-05-07 | 2022-12-13 | International Business Machines Corporation | System for object identification |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7562392B1 (en) * | 1999-05-19 | 2009-07-14 | Digimarc Corporation | Methods of interacting with audio and ambient music |
JP3865149B2 (ja) * | 1995-08-22 | 2007-01-10 | 株式会社リコー | 音声認識装置および方法、辞書作成装置および情報記憶媒体 |
JPH1125098A (ja) * | 1997-06-24 | 1999-01-29 | Internatl Business Mach Corp <Ibm> | 情報処理装置、リンク先ファイルの取得方法および記憶媒体 |
US6040829A (en) * | 1998-05-13 | 2000-03-21 | Croy; Clemens | Personal navigator system |
JP3456176B2 (ja) * | 1999-09-27 | 2003-10-14 | 日本電気株式会社 | 録画再生処理装置及び録画再生処理システム |
JP2001229180A (ja) * | 2000-02-17 | 2001-08-24 | Nippon Telegr & Teleph Corp <Ntt> | コンテンツ検索装置 |
JP2001309256A (ja) * | 2000-04-26 | 2001-11-02 | Sanyo Electric Co Ltd | デジタルテレビ放送受信機 |
JP2002041276A (ja) * | 2000-07-24 | 2002-02-08 | Sony Corp | 対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体 |
JP2004295017A (ja) * | 2003-03-28 | 2004-10-21 | Ntt Comware Corp | マルチモーダルシステムおよび音声入力方法 |
JP2005242183A (ja) * | 2004-02-27 | 2005-09-08 | Toshiba Corp | 音声認識装置、表示制御装置、レコーダ装置、表示方法およびプログラム |
-
2006
- 2006-02-22 JP JP2007505866A patent/JP4459267B2/ja not_active Expired - Fee Related
- 2006-02-22 US US11/817,276 patent/US20080126092A1/en not_active Abandoned
- 2006-02-22 WO PCT/JP2006/303192 patent/WO2006093003A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US20080126092A1 (en) | 2008-05-29 |
JP4459267B2 (ja) | 2010-04-28 |
WO2006093003A1 (ja) | 2006-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4459267B2 (ja) | 辞書データ生成装置及び電子機器 | |
TWI233026B (en) | Multi-lingual transcription system | |
JP3657844B2 (ja) | テレビ番組自動検索システム | |
US7013273B2 (en) | Speech recognition based captioning system | |
US10522133B2 (en) | Methods and apparatus for correcting recognition errors | |
US20190221200A1 (en) | Assisted Media Presentation | |
EP3125134B1 (en) | Speech retrieval device, speech retrieval method, and display device | |
US20060136226A1 (en) | System and method for creating artificial TV news programs | |
US20050080631A1 (en) | Information processing apparatus and method therefor | |
WO1998025216A9 (en) | Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data | |
WO1998025216A1 (en) | Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data | |
JP2003518266A (ja) | 音声認識システムのテキスト編集用音声再生 | |
JP2000250575A (ja) | 双方向性テレビ受像機を自動的に選局するための音声理解装置およびその方法 | |
CN110740275B (zh) | 一种非线性编辑系统 | |
CN110781649B (zh) | 一种字幕编辑方法、装置及计算机存储介质、电子设备 | |
KR101100191B1 (ko) | 멀티미디어 재생장치와 이를 이용한 멀티미디어 자료검색방법 | |
US10911831B2 (en) | Information processing apparatus, information processing method, program, and information processing system | |
JP4157418B2 (ja) | データ閲覧支援装置、データ閲覧方法及びデータ閲覧プログラム | |
JP5591428B2 (ja) | 自動記録装置 | |
US20090055167A1 (en) | Method for translation service using the cellular phone | |
KR20120083025A (ko) | 서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스 및 그 제어 방법 | |
JP2007257134A (ja) | 音声検索装置、音声検索方法および音声検索プログラム | |
JP4175141B2 (ja) | 音声認識機能を有する番組情報表示装置 | |
JP2010175708A (ja) | 音声認識検索システム及び音声認識検索方法 | |
KR20080051876A (ko) | 전자사전 검색이 가능한 멀티미디어 파일 재생장치 및검색방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100118 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100209 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100209 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130219 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |