JPWO2006093003A1

JPWO2006093003A1 - 辞書データ生成装置及び電子機器

Info

Publication number: JPWO2006093003A1
Application number: JP2007505866A
Authority: JP
Inventors: 川添　佳洋; 佳洋川添; 岳彦塩田
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 2005-02-28
Filing date: 2006-02-22
Publication date: 2008-08-07
Anticipated expiration: 2026-02-22
Also published as: US20080126092A1; JP4459267B2; WO2006093003A1

Abstract

音声認識用の辞書データのデータ量を削減しつつ、この辞書データを利用した場合においても、確実な音声認識を実現する。情報記録再生装置ＲＰは、ＥＰＧデータ中から各番組名を示すテキストデータを取得し、当該取得された各テキストデータから番組表の番組表欄中に表示可能な文字数「Ｎ」の範囲内にてキーワードを設定すると共に、この設定された各キーワードに対応した音声の特徴量を示す特徴量パターンを生成して、当該特徴量パターンを番組名を特定するためのテキストデータと対応付けることにより辞書データを生成する。また、番組表の表示に際しても、キーワード部分については強調表示を行うことにより、ユーザにキーワードの内容を提示するようになっている。

Description

本発明は、ユーザにより発話された音声からユーザの入力コマンドを認識する技術分野に属する。

従来から、ＤＶＤレコーダやナビゲーション装置といった電子機器の中には、所謂、音声認識装置を搭載し、ユーザが音声を発話することによって各種コマンド（すなわち、電子機器に対する実行命令）の入力を可能とする機能が設けられたものが存在している。この種の音声認識装置においては、各コマンドを示すキーワードに対応した音声の特徴量パターン（例えば、隠れマルコフモデルによって示される特徴量パターン）をデータベース化しておき（以下、このデータを「辞書データ」という。）、この辞書データ内の特徴量パターンと、ユーザの発話音声に対応した特徴量とのマッチングを行って、ユーザの発話音声に対応したコマンドを特定するようになっている。また、近年では、地上デジタル放送やＢＳデジタル放送等の各種放送フォーマットにおいて空き帯域を用いて放送されるＥＰＧ（Electric Program Guide）データ中に含まれる番組名等のテキストデータを用いて、上述した辞書データを生成し、この生成された辞書データを用いてユーザの選択した番組を特定する機能が設けられたテレビ受信機も提案されるに至っている（特許文献１参照）。
特開２００１−３０９２５６号公報

ところで、上記特許文献１に記載の発明においては、１つの番組名に対して複数のキーワードを設定し、各キーワード毎に音声の特徴量パターンを生成する方法が採用されているため、辞書データの生成に要する処理量が大幅に増加するのみならず、辞書データのデータ量が非常に大きくなってしまい実用性に乏しいものとなっていた。一方、辞書データのデータ量を削減する観点からは各コマンドに対して簡易なキーワードを割り当て、当該キーワードをユーザに発話させる方法も考えられるが、この方法では、如何なるキーワードを発話した場合に如何なるコマンド入力がなされるのかということを、ユーザが把握できなくなりコマンド入力が不可能となる可能性がある。

本願は以上説明した事情に鑑みてなされたものであり、その課題の一例としては、音声認識用の辞書データのデータ量を削減しつつ、この辞書データを利用した場合においても、確実な音声認識を実現する辞書データ生成装置、辞書データ生成方法、及び、電子機器とその制御方法、辞書データ生成プログラム、処理プログラム並びにこれらプログラムを記録した情報記録媒体を提供することを目的とする。

上述した課題を解決するため本願の一つの観点において請求項１に記載の辞書データ生成装置は、ユーザにより発話された音声に基づいてユーザの入力コマンドを認識する音声認識装置において用いられる音声認識用の辞書データを生成するための辞書データ生成装置であって、前記コマンドに対応したテキストデータを取得する取得手段と、前記取得されたテキストデータから一部の文字列を抽出し、当該文字列をキーワードとして設定する設定手段と、前記設定されたキーワードに対応した音声の特徴量を示す特徴量データを生成すると共に、当該コマンドに対応した処理内容を特定するための内容データを当該特徴量データと対応付けることにより前記辞書データを生成する生成手段と、前記キーワードを表示するための表示装置おいて表示可能な前記キーワードの文字数を特定する特定手段と、を備え、前記設定手段は、前記特定手段によって特定された文字数の範囲内にて前記キーワードを設定することを特徴とする。

また、本願の他の観点において、請求項６に記載の電子機器は、ユーザにより発話された音声に基づいてユーザの入力コマンドを認識する音声認識装置を備えた電子機器であって、前記コマンドに対応した文字列の一部に設定されたキーワードに対応した音声の特徴量を示す特徴量データと、前記コマンドに対応した処理内容を特定するための内容データとが対応付けられた辞書データを記録した記録手段と、ユーザの発話音声を入力するための入力手段と、前記記録された辞書データに基づいて前記発話音声に対応する入力コマンドを特定する音声認識手段と、前記内容データに基づき、前記特定された入力コマンドに対応する処理を実行する実行手段と、前記辞書データに基づいて、ユーザに発話させるべきキーワードを表示するための表示データを生成し、表示装置に供給する表示制御手段とを具備することを特徴とする。

また更に、本願の他の観点において請求項１２に記載の辞書データ生成方法は、ユーザにより発話された音声に基づいてユーザの入力コマンドを認識する音声認識装置において用いられる音声認識用の辞書データを生成するための辞書データ生成方法であって、前記コマンドに対応したテキストデータを取得する取得ステップと、前記音声認識用のキーワードを表示するための表示装置おいて表示可能な前記キーワードの文字数を特定する特定ステップと、前記取得されたテキストデータの中から前記特定された文字数の範囲内にて一部の文字列を抽出し、当該文字列を前記キーワードとして設定する設定ステップと、前記設定されたキーワードに対応した音声の特徴量を示す特徴量データを生成すると共に、当該コマンドに対応した処理内容を特定するための内容データを前記特徴量データと対応付けることにより前記辞書データを生成する生成ステップと、を具備することを特徴とする。

更に、本願の他の観点において請求項１３に記載の電子機器の制御方法は、コマンドに対応した文字列の一部に設定されたキーワードに対応した音声の特徴量を示す特徴量データと、前記コマンドに対応した処理内容を特定するための内容データとが対応付けられた辞書データを用いて、ユーザの発話音声に対応する入力コマンドを認識する音声認識装置を備えた電子機器の制御方法であって、前記辞書データに基づいて、ユーザに発話させるべきキーワードを表示するための表示データを生成し、表示装置に供給する表示ステップと、前記表示装置に表示された画像に従って、ユーザの発話音声が入力された場合に、前記辞書データに基づいて当該発話音声に対応する入力コマンドを特定する音声認識ステップと、前記内容データに基づき、前記特定された入力コマンドに対応する処理を実行する実行ステップとを具備することを特徴とする。

更にまた、本願の他の観点において請求項１４に記載の辞書データ生成プログラムは、ユーザにより発話された音声に基づいてユーザの入力コマンドを認識する音声認識装置において用いられる音声認識用の辞書データをコンピュータにより生成するための辞書データ生成プログラムであって、前記コンピュータを、前記コマンドに対応したテキストデータを取得する取得手段、前記音声認識用のキーワードを表示するための表示装置おいて表示可能な前記キーワードの文字数を特定する特定手段、前記取得された各テキストデータの中から前記特定された文字数の範囲内にて一部の文字列を抽出し、当該文字列を前記キーワードとして設定する設定手段、前記設定されたキーワードに対応した音声の特徴量を示す特徴量データを生成すると共に、当該コマンドに対応した処理内容を特定するための内容データを前記特徴量データと対応付けることにより前記辞書データを生成する生成手段、として機能させることを特徴とする。

また、本願の他の観点において請求項１５に記載の処理プログラムは、コマンドに対応した文字列の一部に設定されたキーワードに対応した音声の特徴量を示す特徴量データと、前記コマンドに対応した処理内容を特定するための内容データとが対応付けられた辞書データを記録した記録手段と、前記辞書データを用いて、ユーザの発話音声に対応する入力コマンドを認識する音声認識装置と、を備えたコンピュータにおいて処理を実行するための処理プログラムであって、前記コンピュータを、前記辞書データに基づいて、ユーザに発話させるべきキーワードを表示するための表示データを生成し、表示装置に供給する表示手段、前記表示装置に表示された画像に従って、ユーザの発話音声が入力された場合に、前記辞書データに基づいて当該発話音声に対応する入力コマンドを特定する音声認識手段、前記内容データに基づき、前記特定された入力コマンドに対応する処理を実行する実行手段、として機能させることを特徴とする。

また更に、本願の他の観点において請求項１６に記載のコンピュータに読み取り可能な情報記録媒体は、請求項１４に記載の辞書データ生成プログラムが記録されたことを特徴とする。

更に、本願の他の観点において請求項１７に記載のコンピュータに読み取り可能な情報記録媒体は、請求項１５に記載の処理プログラムが記録されたことを特徴とする。

実施形態における情報記録再生装置ＲＰの構成を示すブロック図である。同実施形態においてモニタＭＮに表示される番組表の表示欄と、当該表示欄に表示可能な文字数との関係を示す概念図である。同実施形態においてシステム制御部１７が番組表を表示する際に実行する処理を示すフローチャートである。変形例２においてシステム制御部１７が番組表を表示する際に実行する処理を示すフローチャートである。

符号の説明

ＲＰ・・・情報記録再生装置
１１・・・ＴＶ受信部
１２・・・信号処理部
１３・・・ＥＰＧデータ処理部
１４・・・ＤＶＤドライブ
１５・・・ハードディスク
１６・・・復号処理部
１７・・・システム制御部
１８・・・音声認識部
１９・・・操作部
２０・・・記録制御部
２１・・・再生制御部
２２・・・ＲＯＭ／ＲＡＭ

［１］実施形態
［１．１］実施形態の構成
以下、本実施形態にかかる情報記録再生装置ＲＰの構成を示すブロック図である図１を参照しつつ本願の実施の形態について説明する。なお、以下に説明する実施の形態は、データの記録および読み出しが行なわれるハードディスクドライブ（以下、「ＨＤＤ」という。）及びＤＶＤドライブを備えた、所謂、ハードディスク／ＤＶＤレコーダに対して本願を適用した場合の実施の形態である。また、以下において、「放送番組」とは放送波を介して各放送局から提供されるコンテンツを示すものとする。

まず、同図に示すように本実施形態にかかる情報記録再生装置ＲＰは、ＴＶ受信部１１と、信号処理部１２と、ＥＰＧデータ処理部１３と、ＤＶＤドライブ１４と、ＨＤＤ１５と、復号処理部１６と、システム制御部１７と、音声認識部１８と、操作部１９と、記録制御部２０と、再生制御部２１と、ＲＯＭ／ＲＡＭ２２と、これら各要素を相互に接続するバス２３を有し、大別して以下の機能を実現するようになっている。
（ａ）地上アナログ放送や地上デジタル放送等に対応した放送波をＴＶ受信部１１にて受信して放送番組に対応したコンテンツデータをＤＶＤ及びハードディスク１５１に記録する一方、ＤＶＤ及びハードディスク１５１に記録されたコンテンツデータを再生する記録再生機能。
（ｂ）ＴＶ受信部１１により受信された放送波に含まれるＥＰＧデータを抽出して当該ＥＰＧデータに基づいてモニタＭＮに番組表を表示させる番組表表示機能。

ここで、本実施形態に特徴的な事項として、この情報記録再生装置ＲＰは上記番組表の表示に先立ち、表示対象となるＥＰＧデータから番組名を示すテキストデータを抽出して、当該番組名をキーワード（音声認識用）とする音声認識用の辞書データ（具体的には、各キーワードと、当該キーワードに対応した特徴量パターンが対応づけられたデータ）を生成すると共に、この辞書データを用いて音声認識を行うことにより、ユーザが発話した音声に対応する番組名を特定して、放送番組の録画予約のための処理を実行するようになっている（「特許請求の範囲」における「コマンド」は、例えば、かかる処理の実行命令に対応している。）。

なお、上記特徴量パターンの具体的な内容に関しては任意であるが、説明の具体化のため本実施形態において「特徴量パターン」と呼ぶときは対象となるキーワードに対応したＨＭＭ（隠れマルコフモデルにより定義される音声の遷移状態を表現した統計的信号モデル）により示される音声の特徴量のパターンを示すデータを意味するものとする。また、辞書データの具体的な生成方法についても任意であるが、本実施形態においては番組名に対応したテキストデータに対して形態素解析（すなわち、自然言語で書かれた文を品詞（読み仮名を含む。以下、同様。）等の形態素の列に分割する処理）を行い、当該番組名を複数の品詞に分割すると共に当該番組名に対応した特徴量パターンを生成して辞書データを生成するものとし、他の方法を採用した例については変形例の項にて説明することとする。

ここで、かかる機能の実現に際して留意すべき点が２つある。

まず１つには、ＥＰＧデータに含まれる番組名の中には形態素解析が不可能なものが存在する可能性があり、かかる事態が発生した場合、当該番組名に対応する特徴量パターンが生成できず、当該番組名の音声認識が不可能となってしまうと言うことである。このような事態が発生すると、１つの番組表中に音声認識が可能な番組名と不可能な番組名が混在することとなり、何らの手当も行わない場合にはユーザの利便性が低下する結果を招来する。従って、ユーザの利便性向上を図る観点からは番組表の表示に際して音声認識が可能な番組名と不可能な番組名とを区別して表示することが望ましいこととなる。

もう１点は、番組表を表示しようとする場合、各時間帯に対応した番組表示欄のスペースに限りがあるということである。従って、番組名が長い場合には当該番組名の全てを表示欄中に表示できなくなる可能性が生じてしまう（例えば、図２参照）。かかる場合に、番組名の全文をキーワードとして特徴量パターンを生成してしまうと、ユーザは番組名全文（すなわち、音声認識用のキーワード）を番組表から拾い出せず、何と発話すれば良いのか分からないという事態を招来しかねない。また、１つの番組名に対して複数のキーワードを設定しておけば、ユーザが一部のみ発声した場合でも番組名を特定することは可能となるが、この方法では、辞書データのデータ量が膨大となってしまう。

以上の観点から、本実施形態においては、（ａ）音声認識に用いることが可能なキーワード部分を番組表中において強調表示する一方、（ｂ）番組表の番組表示欄に番組名を全文表示できない番組名に関しては表示可能な文字数の範囲内において音声認識用のキーワードを作成し、当該キーワード部分のみを強調表示する方法を採用し、もって、ユーザがキーワードを正しく発話する際の利便性を確保することとした。

例えば、図２に示す例において、表示欄Ｓ１〜Ｓ３に５文字までの番組名表示が可能である場合を想定する。この例の場合、例えば、「●▲の町（４文字）」なる番組名は表示欄中に全文表示が可能であるため、情報記録再生装置ＲＰは、この番組名の全文をキーワードとして用いて、特徴量パターンを生成し、当該番組名全体を番組表中において強調表示する。一方、「●●家の晩餐（６文字）」のように番組名の全文が表示欄中に表示しきれない場合、情報記録再生装置ＲＰは、「●●家の晩餐」なる番組名を構成する品詞（すなわち、形態要素）中、最後の「晩餐」なる品詞を削除した、「●●家の」なる文字列をキーワードに設定し、当該キーワードに対応する特徴量パターンを生成すると共に、番組表の表示に際しても、「●●家の」の部分のみ強調表示する。更に、「ん＄→♂か」のように品詞として成立していない場合や、番組名に未知の固有名詞が含まれる場合、或いは、番組名が文法に従っていない単語列の場合、形態素解析ができず特徴量パターンを生成することが不可能となるため、情報記録再生装置ＲＰは、強調表示を一切行うことなく当該番組名を表示して音声認識が不可能であることをユーザに提示する。

なお、番組表においてキーワード部分を強調表示する方法については任意であり、例えば、（表示方法１）当該キーワード部分のみ文字の色を変えるようにしても良く、（表示方法２）当該部分の文字フォントを変えるようにしても良く、更には（表示方法３）文字を太線にて表示するようにしても良く、（表示方法４）文字サイズを変えても良い。また、（表示方法５）当該キーワード部分に下線を引くようにしても良く、（表示方法６）枠で囲ったり、或いは、（表示方法７）点滅表示させても良く、（表示方法８）反転表示するようにしても良い。

以下、かかる機能を実現するための本実施形態にかかる情報記録再生装置ＲＰの具体的な構成について説明することとする。

まず、ＴＶ受信部１１は、地上アナログ放送等のアナログ放送及び地上デジタル放送、ＣＳ（Communication Satellite）放送、ＢＳ（Broadcasting Satellite）デジタル放送等のデジタル放送のチューナであり、アンテナＡＴを介して放送波を受信する。そして、ＴＶ受信部１１は、例えば、受信対象となる放送波がアナログ方式によるものの場合、当該放送波をＴＶ用の映像信号および音声信号（以下、「ＴＶ信号」という。）に復調して信号処理部１２及びＥＰＧデータ処理部１３に供給する。これに対して受信対象となる放送波がデジタル方式によるものの場合、ＴＶ受信部１１は当該受信した放送波に含まれるトランスポートストリームを抽出して信号処理部１２及びＥＰＧデータ処理部１３に供給する。

信号処理部１２は、記録制御部２０による制御の下、ＴＶ受信部１１から供給される信号に対して所定の信号処理を施す。例えば、ＴＶ受信部１１からアナログ放送に対応したＴＶ信号が供給された場合、信号処理部１２は、当該ＴＶ信号に対して所定の信号処理及びＡ／Ｄ変換を施して、所定形式のデジタルデータ（すなわち、コンテンツデータ）に変換する。この際、信号処理部１２は、当該デジタルデータを、例えば、ＭＰＥＧ（Moving Picture Coding Experts Group）形式に圧縮してプログラムストリームを生成し、この生成されたプログラムストリームをＤＶＤドライブ１４、ＨＤＤ１５、或いは、復号処理部１６に供給する。これに対して、ＴＶ受信部１１からデジタル放送に対応したトランスポートストリームが供給された場合、信号処理部１２は、当該ストリームに含まれるコンテンツデータをプログラムストリームに変換した後、ＤＶＤドライブ１４、ＨＤＤ１５、或いは、復号処理部１６に供給する。

ＥＰＧデータ処理部１３は、システム制御部１７による制御の下、ＴＶ受信部１１から供給される信号に含まれるＥＰＧデータを抽出し、この抽出したＥＰＧデータをＨＤＤ１５に供給する。例えば、アナログ放送に対応したＴＶ信号が供給された場合、ＥＰＧデータ処理部１３は当該供給されたＴＶ信号のＶＢＩに含まれるＥＰＧデータを抽出してＨＤＤ１５に供給する。また、デジタル放送に対応したトランスポートストリームが供給された場合、ＥＰＧデータ処理部１３は、当該ストリーム中に含まれているＥＰＧデータを抽出して、ＨＤＤ１５に供給する。

ＤＶＤドライブ１４は、装着されたＤＶＤに対するデータの記録及び再生を行い、ＨＤＤ１５は、ハードディスク１５１に対するデータの記録及び再生を行う。このＨＤＤ１５のハードディスク１５１内には、放送番組に対応したコンテンツデータを記録するためのコンテンツデータ記録領域１５１ａが設けられると共に、ＥＰＧデータ処理部１３から供給されるＥＰＧデータを記録するためのＥＰＧデータ記録領域１５１ｂや情報記録再生装置ＲＰにおいて生成された辞書データを記録するための辞書データ記録領域１５１ｃが設けられている。

次いで、復号処理部１６は、例えば、信号処理部１２から供給され、ＤＶＤおよびハードディスク１５１から読み出されたプログラムストリーム形式のコンテンツデータを音声データと映像データに分離すると共に、これらの各データをデコードする。そして、復号処理部１６は、このデコードされたコンテンツデータをＮＴＳＣ形式の信号に変換し、当該変換された映像信号及び音声信号を映像信号出力端子Ｔ１および音声信号出力端子Ｔ２を介してモニタＭＮに出力する。なお、モニタＭＮにデコーダ等が搭載されている場合には信号処理部１５においてデコード等を行う必要はなく、コンテンツデータをそのままモニタに出力すれば良い。

システム制御部１７は、主としてＣＰＵ（Central Processing Unit）により構成され
ると共に、キー入力ポート等の各種入出力ポートを含み、情報記録再生装置ＲＰの全体的な機能を統括的に制御する。かかる制御に際して、システム制御部１７は、ＲＯＭ／ＲＡＭ２２に記録されている制御情報や制御プログラムを利用すると共に当該ＲＯＭ／ＲＡＭ２２をワークエリアとして利用する。

例えば、このシステム制御部１７は操作部１９に対する入力操作に応じて、記録制御部２０及び再生制御部２１を制御し、ＤＶＤ或いはハードディスク１５１に対するデータの記録及び再生を行わせる。

また、例えば、システム制御部１７は所定のタイミングにてＥＰＧデータ処理部１３を制御して、放送波に含まれているＥＰＧデータを抽出させ、当該抽出されたＥＰＧデータを用いてＥＰＧデータ記録領域１５１ｂに記録されたＥＰＧデータを更新させる。なお、ＥＰＧデータの更新のタイミングは任意であり、例えば、毎日、所定の時刻にＥＰＧデータが放送される環境下においては、当該時刻をＲＯＭ／ＲＡＭ２１に記録しておき、当該時刻にＥＰＧデータを更新するようにしても良い。

更に、このシステム制御部１７は、ＥＰＧデータ記録領域１５１ｂに記録されたＥＰＧデータに基づく番組表表示に先立って、上述した音声認識用の辞書データを生成し、当該生成した辞書データを辞書データ記録領域１５１ｃに記録すると共に、ＥＰＧデータに基づく番組表表示に際しては、当該番組表中においてキーワード部分を強調表示させる。かかる辞書データの生成機能を実現するため、本実施形態においてシステム制御部１７には、形態素解析用データベース（以下、「データベース」を「ＤＢ」という。）１７１と、サブワード特徴量ＤＢ１７２とが設けられている。なお、両ＤＢ１７１及び１７２は、物理的には、ハードディスク１５１内に所定の記録領域を設けることにより実現するようにすれば良い。

ここで、この形態素解析ＤＢ１７１は、ＥＰＧデータから抽出されたテキストデータに対して形態素解析を行うためのデータが格納されたＤＢであり、例えば、品詞分解及び各品詞に対して振り仮名を割り当てるための国語辞書に対応したデータ等が格納されている。これに対して、サブワード特徴量ＤＢ１７２は、例えば、各音節や各音素、或いは、複数の音節及び音素の組み合わせにより表現される音声の単位（以下、「サブワード」という。）毎に、当該サブワードに対応するＨＭＭの特徴量パターンを格納したＤＢとなっている。

本実施形態において辞書データを生成する場合、システム制御部１７は、形態素解析ＤＢ１７１に格納されたデータを用いて、各番組名に対応したテキストデータに対する形態素解析を実行すると共に、当該処理により得られた番組名を構成する各サブワードに対応した特徴量パターンをサブワード特徴量ＤＢ１７２から読み出す。そして、当該読み出した特徴量パターンを組み合わせることにより、番組名（或いは、その一部）に対応した特徴量パターンを生成することとなる。なお、システム制御部１７により生成されてハードディスク１５１内に保存された辞書データを消去するタイミングについては任意であるが、この辞書データはＥＰＧデータの更新等に伴って利用できなくなるものであることから、本実施形態においては番組表の表示時に毎回辞書データを生成すると共に、番組表の表示完了時にハードディスク１５１に記録されている辞書データを削除するものとして説明を行う。

次いで、音声認識部１８には、ユーザが発話した音声を集音するためのマイクロフォンＭＣが設けられている。このマイクロフォンＭＣにユーザの発話音声が入力されると、音声認識部１８は、予め定められた時間間隔毎に当該音声の特徴量パターンを抽出し、当該パターンと辞書データ内の特徴量パターンとのマッチングの割合（すなわち、類似度）を算出する。そして、音声認識部１８は、入力音声の全てにおける類似度を積算し、この積算された類似度が最も高いキーワード（すなわち、番組名、或いは、その一部）を認識結果としてシステム制御部１７に出力することとなる。この結果、システム制御部１７においては、当該番組名に基づきＥＰＧデータが検索され、録画対象となる放送番組が特定されることとなる。

なお、音声認識部１８において採用する具体的な音声認識手法については任意である。例えば、キーワードスポッティング（すなわち、音声認識用のキーワードに対して不要語を付けた場合でもキーワード部分を抽出して、音声認識を行う手法）や大語彙連続音声認識（ディクテーション）といった、従来から用いられている手法を採用すれば、ユーザが余計な言葉（以下、「不要語」という。）を付けてキーワードを発話した場合（例えば、番組名の一部についてキーワードが設定されているにもかかわらず、ユーザが番組名を当初から知っていて、番組名の全文を発話した場合等）においても、確実にユーザの発話音声に含まれるキーワードを抽出して音声認識を実現することが可能となる。

操作部１９は、数字キー等の各種キーを有するリモートコントロール装置及び当該リモートコントロール装置から送信された信号を受光する受光部等を有し、ユーザの入力操作に対応した制御信号をバス２３を介してシステム制御部１７に出力する。記録制御部２０は、システム制御部１７による制御の下、ＤＶＤ或いはハードディスク１５１に対するコンテンツデータの記録を制御し、再生制御部２１は、システム制御部１７による制御の下、ＤＶＤ或いはハードディスク１５１に記録されたコンテンツデータの再生を制御する。

［１．２］実施形態の動作
次いで、図３を参照しつつ本実施形態にかかる情報記録再生装置ＲＰの動作について説明する。なお、ＤＶＤ或いはハードディスク１５１に対するコンテンツデータの記録動作及び再生動作については従来のハードディスク／ＤＶＤレコーダと異なるところが無いため、以下においては情報記録再生装置ＲＰにおいて番組表表示時に実行される処理について説明することとする。また、以下の説明においては、既にハードディスク１５１のＥＰＧデータ記録領域にＥＰＧデータが記録されているものとして説明を行う。

まず、情報記録再生装置ＲＰの電源がオンの状態において、ユーザが操作部１８の図示せぬリモコン装置に対して番組表の表示を行う旨の入力操作を行う。すると、情報記録再生装置ＲＰにおいては、この入力操作をトリガとしてシステム制御部１７が図３に示す処理を開始する。

この処理において、まず、システム制御部１７は、ＨＤＤ１５に対して制御信号を出力して、表示対象となる番組表に対応したＥＰＧデータをＥＰＧデータ記録部１５１ｂから読み出させると共に（ステップＳ１）、この読み出されたＥＰＧデータをサーチして当該ＥＰＧデータ中に含まれる番組名に対応したテキストデータを抽出する（ステップＳ２）。次いで、システム制御部１７は、この抽出したテキストデータ中にひらがな及びカタカナ以外の文字が含まれているか否かを判定し（ステップＳ３）、この判定において「ｎｏ」と判定すると、当該番組名の全文字数が番組表の表示欄中に表示可能な文字数「Ｎ」を越えているか否かを判定する状態となる（ステップＳ４）。なお、この際、表示可能な文字数「Ｎ」を特定する方法は任意であり、例えば、表示可能文字数を示すデータをＲＯＭ／ＲＡＭ２２に予め記録しておき、当該データに基づいて「Ｎ」を特定する構成を採用しても良い。

そして、この判定において、「ｎｏ」と判定した場合、すなわち、当該テキストデータに対応した文字列の全てを番組表の表示欄に表示可能な場合、システム制御部１７は、当該テキストデータに含まれている各仮名文字に対応した特徴量パターンをサブワード特徴量ＤＢ１７２から読み出して、当該文字列（すなわち、キーワードとなる番組名）に対応した特徴量パターンを生成し、当該特徴量パターンとキーワード部分に対応したテキストデータ（すなわち、番組名の全部、或いは、その一部に対応したテキストデータ）を対応付けてＲＯＭ／ＲＡＭ２２に記憶する（ステップＳ５）。なお、この特徴量パターンと対応付けられたテキストデータは、音声認識時に入力コマンド（本実施形態においては奥が予約）を特定するために用いられ、例えば、「特許請求の範囲」における「内容データ」に対応することとなる。

かかるステップＳ５の終了後、システム制御部１７は当該番組表中の全番組名に対応した特徴量パターンの生成が完了したか否かを判定する状態となり（ステップＳ６）、この判定において「ｙｅｓ」を判定すると処理をステップＳ１１に移行させる一方、「ｎｏ」と判定すると処理をステップＳ２にリターンさせる。

一方、（１）ステップＳ３において「ｙｅｓ」と判定した場合、すなわち、番組名に対応した文字列中にひらがな及びカタカナ以外の文字が含まれている場合、（２）ステップＳ４において「ｙｅｓ」と判定した場合、には何れの場合においても、システム制御部１７は、処理をステップＳ７に移行させ、ＥＰＧデータから抽出された番組名に対応したテキストデータに対して、形態素解析を行う（ステップＳ７）。この際、システム制御部１７は、形態素解析ＤＢ１７１に格納されているデータに基づいて、当該テキストデータに対応した文字列を品詞単位に分解すると共に、この分解された各品詞に対応した読み仮名を決定する処理を実行する。

ここで、上述のように番組名に対応した文字列が品詞として成立していない場合（例えば、上記図２「ん＄→♂か」）や番組名が文法に従っていないような場合等には、当該テキストデータに対応する文字列の形態素解析を行うことが不可能となってくる。そこで、システム制御部１７は、ステップＳ８において、ステップＳ７における形態素解析が成功したか否かを判定し、失敗したものと判定した場合には（「ｎｏ」）、ステップＳ９、Ｓ１０及びステップＳ５の処理を実行することなく、処理をステップＳ６に進め、辞書データの生成が完了したか否かを判定する状態となる。

これに対して、ステップＳ８において形態素解析が成功したものと判定した場合、システム制御部１７は、当該番組名が表示可能文字数「Ｎ」を越えているか否かを判定する状態となる（ステップＳ９）。例えば、上記図２に示す例の場合、番組表の表示欄には５文字表示可能であるため、「●▲の町」なる番組名は全文字の表示が可能となっている。かかる場合に、システム制御部１７は、ステップＳ９において「ｙｅｓ」と判定し、サブワード特徴量ＤＢ１７２に格納されているデータに基づいて当該番組名の読み仮名に対応した特徴量パターンを生成し、当該特徴量パターンとキーワード部分に対応したテキストデータを対応付けてＲＯＭ／ＲＡＭ２２に格納して（ステップＳ５）、ステップＳ６の処理を実行する。

一方、上記図２に示す例における「●●家の晩餐」なる番組名のように表示欄中に、全文字を表示しきれない場合、システム制御部１７は、ステップＳ９において、当該番組名の文字数が表示可能文字数「Ｎ」を越えているものと判定し（「ｙｅｓ」）、当該番組名中の最後の品詞（すなわち、「晩餐」）に対応した仮名部分を仮名文字列から削除して（ステップＳ１０）、再度、ステップＳ９の処理を実行する。そして、システム制御部１７は、このステップＳ９及びＳ１０の処理を繰り返すことにより、順次、番組名を構成する品詞を削除していき、品詞削除後の番組名が表示可能文字数「Ｎ」以下となった時点でステップＳ９における判定が「ｙｅｓ」となって、処理がステップＳ５、Ｓ６と移行することとなる。

その後、システム制御部１７は、同様の処理を繰り返し、読み出されたＥＰＧデータに含まれる全番組名に対応したテキストデータについてステップＳ２〜Ｓ１０の処理を繰り返し、全番組名に対応したテキストデータ及び特徴量パターンがＲＯＭ／ＲＡＭ２２に格納された状態となると、ステップＳ６において「ｙｅｓ」と判定し、処理をステップＳ１１に移行させる。このステップＳ１１において、システム制御部１７は、ＲＯＭ／ＲＡＭ２２に格納されている特徴量パターンと、キーワード部分に対応したテキストデータに基づき辞書データを生成し、当該生成した辞書データをハードディスク１５１の辞書データ記録領域１５１ｃに記録する。

次に、システム制御部１７は、ＥＰＧデータに基づいて番組表表示用のデータを生成し、当該生成したデータを復号処理部１６に供給する（ステップＳ１２）。この際、システム制御部１７は、辞書データ中のキーワード部分に対応したテキストデータを抽出し、当該テキストデータに対応した番組名中、キーワード部分に対応した文字列のみが強調表示されるように番組表表示用のデータを生成する。この結果、モニタＭＮには、例えば、図２に例示したように、音声認識用のキーワード部分のみが強調表示された状態となり、ユーザは、この番組表においてどの文字列に対応した音声を発話すれば良いのかを把握することが可能となるのである。そして、番組表の表示処理が完了すると、システム制御部１７は、ユーザによって番組名を指定する音声入力がなされたか否かを判定する状態となり（ステップＳ１３）、この判定において「ｎｏ」と判定すると、表示を終了するか否かを判定する状態となる（ステップＳ１４）。そして、このステップＳ１４において、「ｙｅｓ」と判定するとハードディスク１５１に記録された辞書データを削除して（ステップＳ１５）、処理を終了する一方、「ｎｏ」と判定すると、再度、処理をステップＳ１３にリターンすることにより、ユーザの入力操作を待機する状態となる。

このようにして、システム制御部１７が入力待機状態に移行すると、これに併せて、音声認識部１９はユーザによる発話音声の入力を待機する状態となる。そして、この状態においてユーザがマイクＭＣに対して、例えば、「●●家の」なるキーワードを発話入力すると、音声認識部１８は当該入力された音声と辞書データ内の特徴量パターンとのマッチング処理を行う。そして、このマッチング処理により入力音声と類似度の高い特徴量パターンを特定すると共に、当該特徴量パターンと対応付けて記述されたキーワード部分のテキストデータを抽出し、当該抽出したテキストデータをシステム制御部１７に出力する。

一方、音声認識部１９からテキストデータが供給されると、システム制御部１７においては、ステップＳ１３における判定が「ｙｅｓ」に変化し、放送番組の録画予約のための処理が実行された後（ステップＳ１６）、処理がステップＳ１４に移行する。このステップＳ１６においてシステム制御部１７は、音声認識部１９から供給されたテキストデータに基づいてＥＰＧデータを検索し、当該ＥＰＧデータ中において当該テキストデータに対応する番組名を対応付けて記述された放送チャネル及び放送時刻を示すデータを抽出する。そして、システム制御部１７は、この抽出したデータをＲＯＭ／ＲＡＭ２２に記憶すると共に、当該日時になると記録制御部２０に対して録画ｃｈを示す制御信号を出力する。記録制御部２０は、このようにして供給される制御信号に基づいてＴＶ受信部１１の受信帯域を予約されているチャネルに同調するように変更させると共に、ＤＶＤドライブ１４或いはＨＤＤ１５におけるデータ記録を開始させ、録画予約された放送番組に対応するコンテンツデータを、順次、ＤＶＤ或いはハードディスク１５１に記録させるのである。

このようにして、本実施形態にかかる情報記録再生装置ＲＰは、ＥＰＧデータ中から各番組名を示すテキストデータを取得し、当該取得された各テキストデータから番組表の番組表欄中に表示可能な文字数「Ｎ」の範囲内にてキーワードを設定すると共に、この設定された各キーワードに対応した音声の特徴量を示す特徴量パターンを生成して、当該特徴量パターンを番組名を特定するためのテキストデータと対応付けることにより辞書データを生成する構成となっている。この構成により、番組名の一部をキーワードとしつつ辞書データが生成されるため、音声認識用の辞書データのデータ量の削減が可能となる。また、かかる生成に際しては、番組表表示欄に表示可能な文字数の範囲内にてキーワードが設定されるため、キーワードの発話内容を確実に番組表表示欄内に表示させ、もって、この辞書データを利用した際における音声認識を確実なものとすることが可能となる。

更に、上記実施形態においては、番組名に対応したテキストデータから一部分を抽出する際に、表示可能文字数「Ｎ」となるまで、順次、最後尾から所定数の品詞を削除する構成となっているため、より確実にキーワードの文字数を削減でき、確実な音声認識を実現することが可能となる。

更にまた、上記実施形態においては、番組表表示時に当該番組表においてキーワードを表示しているため、ユーザは、番組表を視認することで、自身の発話すべきキーワードを確実に認識することが可能となり、もって、ユーザの利便性確保及び音声認識の確実性の向上に寄与することが可能となる。

特に、本実施形態においては、上述した表示方法１〜８のように強調表示を行う構成を採用しているので、番組表表示欄にキーワード部分以外の文字を含む番組名が表示される場合であっても、ユーザに対して発話すべきキーワードを確実に提示することが可能となる。

なお、本実施形態においては、ハードディスク／ＤＶＤレコーダである情報記録再生装置ＲＰに本願を適用した場合を例に説明したが、ＰＤＰや液晶パネル、更には有機ＥＬ（Electro Luminescent）パネル等を搭載したテレビ受像器、或いは、パーソナルコンピュータやカーナビゲーション装置等の電子機器に対しても適用可能である。

また、上記実施形態においては、ＥＰＧデータを用いて辞書データを生成する構成を採用したが、辞書データを生成する際に用いるデータの種別は任意であり、テキストデータを含むものであれば、どのようなデータであっても応用可能である。例えば、ＷＷＷ（World Wide Web）上の各ページ（例えば、チケット予約を行うホームページ等）に対応したＨＴＭＬ（Hyper Text Markup Language）データやレストランのメニューを示すデータにより辞書データ生成するようにしても良い。更に、宅配用のＤＢに基づいて辞書データを作成すれば、宅配の配送を電話等において受け付ける際に用いられる音声認識装置に応用することも可能である。

また更に、上記実施形態においては、ユーザの発話音声に基づいて放送番組の録画予約を行う構成について説明したが、ユーザの発話音声に基づいて実行する処理内容（すなわち、実行コマンドに対応した処理の内容）については任意であり、例えば、受信チャネルの切換等を実行させるようにすることも可能である。

更に、上記実施形態においては、１つの番組名に対して１つのキーワードを設定し、当該キーワードに対応する特徴量パターンを１つ生成する構成を採用していた。しかし、１つの番組名に対して複数のキーワードを設定し、各キーワード毎に特徴量パターンを生成するようにしても良い。例えば、上記図２に示した「●●家の晩餐」なる番組名の場合、「●●」、「●●家」及び「●●家の」なる３つのキーワードを設定し、各キーワード毎に特徴量パターンを生成するようにする。かかる方法を採用することにより、ユーザの発話揺れに対応することが可能となり、もって音声認識の精度を向上させることが可能となる。

更にまた、上記実施形態においては、番組表の表示時に表示欄における表示文字数に制限があることを前提として説明を行ったが、表示文字数に制限のない場合であっても、上記と同様に番組名の一部をキーワードとして設定して特徴量パターンを生成することによって、番組名の全てをユーザに発話させることなく音声認識を行い、番組の録画予約等を行うことが可能となり、もって、ユーザの利便性を向上させることが可能となる。

また、上記実施形態においては、キーワード部分以外をも含む形態にて番組名を表示する構成を採用したが、番組表中にはキーワードのみを表示するようにすることも可能である。

また、上記実施形態においては、ＤＶＤドライブ１４及びＨＤＤ１５の双方を搭載した情報記録再生装置ＲＰを例に説明したが、ＤＶＤ１４或いはＨＤＤ１５の何れか一方のみを搭載した情報記録再生装置ＲＰについても、上記実施形態と同様の処理を実行することが可能である。但し、ＨＤＤ１５を搭載しない電子機器の場合、形態素解析ＤＢ１７１やサブワード特徴量ＤＢ１７２、更には、ＥＰＧデータの記録領域を別個設けることが必要となるためフラッシュメモリを設けるか、或いは、ＤＶＤドライブ１４にＤＶＤ-ＲＷを装着し、これらの記録媒体上に上記各データを記録しておくことが必要となる。

また更に、本実施形態においては、ＥＰＧデータをハードディスク１５１内に記録する方法を採用したが、ＥＰＧデータが常に放送される環境が実現される場合には、リアルタイムにてＥＰＧデータを取得し、当該ＥＰＧデータに基づいて辞書データを生成するようにしても良い。

更に、上記実施形態においては番組表の表示に際して、その都度、辞書データを生成し、当該辞書データを用いて音声認識を行う構成を採用していたがＥＰＧデータの受信時に当該ＥＰＧデータに対応する辞書データを生成しておき、この辞書データを用いて番組録画等の処理を実行するようにしても良い。

更にまた、上記実施形態においては、情報記録再生装置ＲＰにおいて音声認識用のキーワードを設定する構成を採用していたが、ＥＰＧデータ生成時に形態素解析を行い、ＥＰＧデータ中に始めからキーワードの内容を示すデータを記述して放送を行う構成としても良い。この場合、情報記録再生装置ＲＰにおいては、当該キーワードに基づいて特徴量パターンを生成し、当該特徴量パターンと、ＥＰＧデータに含まれているキーワードを示すデータ及び番組名のテキストデータに基づいて辞書データを生成するようにすれば良い。

また、上記実施形態においては、番組名に基づいて音声認識用のキーワードを抽出する際に、単に形態素解析ＤＢ１７１に格納された国語辞書に対応したデータに基づいて読み仮名を割り当て、当該読み仮名に基づいて特徴量パターンを生成する方法を採用していた。しかし、映画の題名等の中には、「□□マン２」というような題名が多く、この場合、この「２」の部分が「ツー」と発音すべきか「ニ」と発音すべきかがユーザに把握できない場合も生じうる。従って、かかる場合には、この「２」を除いてキーワードを決定するようにすれば良い。

また更に、上記実施形態においては、情報記録装置ＲＰにて辞書データを生成し、当該辞書データを用いて番組表表示を行う構成を採用していたが、辞書データの生成処理、或いは、番組表の表示処理の動作を規定するプログラムが記録された記録媒体と、それを読み取るコンピュータと、を備え、このコンピュータで当該プログラムを読み込むことによって上述と同様の処理動作を実行するようにしても良い。

［１．３］実施形態の変形例
（１）変形例１
上記実施形態における方法を採用した場合、表示可能文字数「Ｎ」の値によっては、複数の番組に対して同一のキーワードが設定される場合が想定される。例えば、表示可能文字数「Ｎ」を５文字とした場合、「ニュース●●●（●●●は品詞）」と、「ニュース▲▲▲（▲▲▲は品詞）」の双方に対して、「ニュース」なるキーワードが設定されてしまう（もちろん、「Ｎ」の値を充分に大きくすれば、このような事態が発生する可能は、限りなく「０」に近い値となるため、このような方法を採用する必要性はない。）。このような事態が発生した場合の対策方法としては、次のような方法を採用することが可能である。

＜対策方法１＞
この対策方法は、キーワードに変更を加えることなく、音声入力時に当該キーワードに対応する番組名の候補を表示してユーザに選択させる方法である。例えば、上記例の場合、「ニュース●●●」と「ニュース▲▲▲」の双方に対して同一のキーワード（「ニュース」）を設定する。そして、ユーザが「ニュース」なる音声を発話した場合、このキーワードに基づいて「ニュース●●●」と「ニュース▲▲▲」の双方を抽出すると共に、選択候補として両者をモニタＭＮに表示させ、当該表示に従ってユーザが選択した放送番組を録画対象として選択する。

＜対策方法２＞
この対策方法は、両番組名間においてキーワード上の際が生じるまで、キーワードとして設定する文字数を延長する方法である。例えば、上記のような例の場合、「ニュース●●●」と「ニュース▲▲▲」が、各放送番組に対応したキーワードということになる。但し、この方法を採用した場合、キーワードの全文が番組表示欄中に表示できなくなってしまうため、本対策方法を採用する場合、当該番組名の全文が表示欄中に表示できるようにフォントサイズを小さくして、これら番組名を表示させる方法を採用することが必要となる。

（２）変形例２
上記実施形態においては、（ａ）番組名中にひらがな及びカタカナ以外の文字列が含まれている場合（図３ステップＳ３「ｙｅｓ」）や、（ｂ）番組名が表示可能文字数「Ｎ」を越えている場合（ステップＳ４「ｙｅｓ」）に形態素解析を実行する手法を用いていたが、これらの判断ステップを設けることなく、全番組名に対して一律に形態素解析を行い（ステップＳ７）、ステップＳ５及びステップＳ８〜Ｓ１０の処理を実行するようにしても良い。

また、上記実施形態においては、キーワード設定時に条件を設定しない構成を採用していたが、例えば、キーワードの最後尾の品詞が助詞以外（例えば、名詞や動詞）で終わるという条件を設定し、当該条件の設定内容をＲＯＭ／ＲＡＭ２２に記録しておくようにしても良い（以下、この設定条件を示すデータを「条件データ」という。）。

図４に、上記条件を設定し、且つ、全ての番組名に対して一律に形態素解析を行う手法を採用した場合における処理内容を示す。同図に示すように、かかる方法を採用した場合、上記図３におけるステップＳ１及びＳ２の処理を実行した後、ステップＳ７〜Ｓ１０の処理が実行されることとなる。また、このステップＳ１０の後に、抽出されたキーワードが設定条件の内容に合致するか否か、具体的には、最後尾の品詞が助詞になっているか否かを条件データに基づいて判定し（ステップＳ１００）、「ｙｅｓ」と判定するとステップＳ１０にリターンし、当該助詞を削除して、再度ステップＳ１００の処理を繰り返すこととなる。この処理が実行されると、例えば、上記図２に示す「●●家の」のようなキーワードについては、助詞（「の」）で終了しているため、この「の」が削除され「●●家」がキーワードとして設定されることとなる。

その後、このステップＳ９、Ｓ１０、Ｓ１００の処理が繰り返されて、キーワードが表示可能文字数「Ｎ」以下となった時点で、上記図３のステップＳ５、Ｓ６、及びステップＳ１１〜ステップＳ１６の処理が実行されることとなる。

（３）変形例３
上記実施形態においては、番組名に対応したテキストデータに対して形態素解析を施すことにより、番組名を複数の品詞に分割してキーワードを設定し、特徴量パターンを生成する手法を採用していた。しかし、形態素解析以外の手法を用いてキーワードを設定することも可能である。例えば、次のような手法を採用することも可能である。

まず、以下の手法により、番組名の中から所定数の文字列を抽出する。
（ａ）番組名に漢字が含まれていない場合
（ｉ）先頭からＮ文字を抽出する、或いは、
（ｉｉ）先頭からＮ文字、後ろからＭ文字を抽出して、結合する。
（ｂ）番組名の漢字が含まれている場合
（ｉ）２文字以上連続した漢字を抽出する、或いは、
（ｉｉ）ひらがなの直前、或いは、直後の２文字以上の連続した漢字を抽出する。

次いで、この抽出した文字列中に漢字が含まれている場合、国語辞典或いは漢和辞典のＤＢ（形態素解析ＤＢ１７１に換えて設ける）中から当該漢字の読みを抽出する。そして、取得された仮名文字に対応する特徴量パターンをサブワード特徴量ＤＢ１７１に格納されたデータに基づいて生成するのである。かかる方法を採用すれば、形態素解析を行うことなく、番組名に対応したテキストデータを品詞に分解して特徴量パターンを生成することが可能となる。

（４）変形例４
上記実施形態においては、キーワードの意味内容については一切加味することなくキーワードを設定する構成を採用していた。しかし、番組名中の一部を抽出した結果、例えば、当該抽出後のキーワードが放送禁止用語等の不適切な用語に一致するような場合も想定される。このような場合、当該キーワード中の最後の品詞を削除する等の方法により、キーワードの内容を変更するようにしても良い。

【０００３】
ータに基づき、前記特定された入力コマンドに対応する処理を実行する実行手段と、前記辞書データに基づいて、ユーザに発話させるべきキーワードを表示するための表示データを生成し、表示装置に供給する表示制御手段とを具備し、前記辞書データにおける前記キーワードが、当該キーワードを表示する前記表示装置において表示可能な文字数の範囲内にて設定されており、前記表示制御手段は、前記表示可能な文字数の範囲内にて前記表示データを生成し、前記表示装置に供給することを特徴とする。
［０００７］
また更に、本願の他の観点において請求項１２に記載の辞書データ生成方法は、ユーザにより発話された音声に基づいてユーザの入力コマンドを認識する音声認識装置において用いられる音声認識用の辞書データを生成するための辞書データ生成方法であって、前記コマンドに対応したテキストデータを取得する取得ステップと、前記音声認識用のキーワードを表示するための表示装置において表示可能な前記キーワードの文字数を特定する特定ステップと、前記取得されたテキストデータの中から前記特定された文字数の範囲内にて一部の文字列を抽出し、当該文字列を前記キーワードとして設定する設定ステップと、前記設定されたキーワードに対応した音声の特徴量を示す特徴量データを生成すると共に、当該コマンドに対応した処理内容を特定するための内容データを前記特徴量データと対応付けることにより前記辞書データを生成する生成ステップと、を具備することを特徴とする。
［０００８］
更に、本願の他の観点において請求項１３に記載の電子機器の制御方法は、コマンドに対応した文字列の一部に設定されたキーワードに対応した音声の特徴量を示す特徴量データと、前記コマンドに対応した処理内容を特定するための内容データとが対応付けられた辞書データを用いて、ユーザの発話音声に対応する入力コマンドを認識する音声認識装置を備えた電子機器の制御方法であって、前記辞書データに基づいて、ユーザに発話させるべきキーワードを表示するための表示データを生成し、表示装置に供給する表示ステップと、前記表示装置に表示された画像に従って、ユーザの発話音声が入力された場合に、前記辞書データに基づいて当該発話音声に対応する入力コマンドを特定する音声認識ステップと、前記内容データに基づき、前記特定された入力コマンドに対応する処理を実行する実行ステップとを具備し、前記辞書データにおける前記キーワードが、当該キーワードを表示する前記表示装置において表示可能な文字数の範囲内にて設定されており、前記表示ステップにおいては、前記表示可能な文字数の範囲内にて前記表示データを生成し、前記表示装置に供給することを特徴とする。
［０００９］
更にまた、本願の他の観点において請求項１４に記載の辞書データ生成プログラムは、ユーザにより発話された音声に基づいてユーザの入力コマンドを認識する音声

【０００４】
認識装置において用いられる音声認識用の辞書データをコンピュータにより生成するための辞書データ生成プログラムであって、前記コンピュータを、前記コマンドに対応したテキストデータを取得する取得手段、前記音声認識用のキーワードを表示するための表示装置において表示可能な前記キーワードの文字数を特定する特定手段、前記取得された各テキストデータの中から前記特定された文字数の範囲内にて一部の文字列を抽出し、当該文字列を前記キーワードとして設定する設定手段、前記設定されたキーワードに対応した音声の特徴量を示す特徴量データを生成すると共に、当該コマンドに対応した処理内容を特定するための内容データを前記特徴量データと対応付けることにより前記辞書データを生成する生成手段、として機能させることを特徴とする。
［００１０］
また、本願の他の観点において請求項１５に記載の処理プログラムは、コマンドに対応した文字列の一部に設定されたキーワードに対応した音声の特徴量を示す特徴量データと、前記コマンドに対応した処理内容を特定するための内容データとが対応付けられた辞書データを記録した記録手段と、前記辞書データを用いて、ユーザの発話音声に対応する入力コマンドを認識する音声認識装置と、を備えたコンピュータにおいて処理を実行するための処理プログラムであって、前記コンピュータを、前記辞書データに基づいて、ユーザに発話させるべきキーワードを表示するための表示データを生成し、表示装置に供給する表示手段、前記表示装置に表示された画像に従って、ユーザの発話音声が入力された場合に、前記辞書データに基づいて当該発話音声に対応する入力コマンドを特定する音声認識手段、前記内容データに基づき、前記特定された入力コマンドに対応する処理を実行する実行手段、として機能させると共に、前記辞書データにおける前記キーワードが、当該キーワードを表示する前記表示装置において表示可能な文字数の範囲内にて設定されており、前記表示手段としての前記コンピュータを、前記表示可能な文字数の範囲内にて前記表示データを生成し、前記表示装置に供給するように機能させることを特徴とする。
［００１１］
また更に、本願の他の観点において請求項１６に記載のコンピュータに読み取り可能な情報記録媒体は、請求項１４に記載の辞書データ生成プログラムが記録されたことを特徴とする。
［００１２］
更に、本願の他の観点において請求項１７に記載のコンピュータに読み取り可能な情報記録媒体は、請求項１５に記載の処理プログラムが記録されたことを特徴とする。

Claims

ユーザにより発話された音声に基づいてユーザの入力コマンドを認識する音声認識装置において用いられる音声認識用の辞書データを生成するための辞書データ生成装置であって、
前記コマンドに対応したテキストデータを取得する取得手段と、
前記取得されたテキストデータから一部の文字列を抽出し、当該文字列をキーワードとして設定する設定手段と、
前記設定されたキーワードに対応した音声の特徴量を示す特徴量データを生成すると共に、当該コマンドに対応した処理内容を特定するための内容データを当該特徴量データと対応付けることにより前記辞書データを生成する生成手段と、
前記キーワードを表示するための表示装置おいて表示可能な前記キーワードの文字数を特定する特定手段と、を備え、
前記設定手段は、前記特定手段によって特定された文字数の範囲内にて前記キーワードを設定することを特徴とする辞書データ生成装置。
放送番組の番組表を表示するための電子番組表情報を受信する受信手段を更に備え、
前記取得手段は、前記受信手段によって受信された前記電子番組表情報から各放送番組の番組名を示すテキストデータを取得し、
前記設定手段は、当該テキストデータから一部の文字列を抽出することにより番組名の一部をキーワードとして設定することを特徴とする請求項１に記載の辞書データ生成装置。
前記設定手段は、前記テキストデータに対応した文字列における最後尾から所定数の品詞を削除することにより、前記テキストデータから一部の文字列を抽出することを特徴とする請求項１に記載の辞書データ生成装置。
前記設定手段が前記キーワードを設定する際おける、文字列の抽出条件を示す条件データを記録した条件データ記録手段を更に備え、
前記設定手段は、前記特定手段により特定された文字数及び前記条件データの双方に基づき前記テキストデータから一部の文字列を抽出することを特徴とする請求項１に記載の辞書データ生成装置。
前記設定手段は、前記キーワードを設定する際に、当該設定するキーワードと同一の文字列からなるキーワードが他のコマンドに対応して設定されている場合には、キーワードとして設定する文字数を増加させることを特徴とする請求項１に記載の辞書データ生成装置。
ユーザにより発話された音声に基づいてユーザの入力コマンドを認識する音声認識装置を備えた電子機器であって、
前記コマンドに対応した文字列の一部に設定されたキーワードに対応した音声の特徴量を示す特徴量データと、前記コマンドに対応した処理内容を特定するための内容データとが対応付けられた辞書データを記録した記録手段と、
ユーザの発話音声を入力するための入力手段と、
前記記録された辞書データに基づいて前記発話音声に対応する入力コマンドを特定する音声認識手段と、
前記内容データに基づき、前記特定された入力コマンドに対応する処理を実行する実行手段と、
前記辞書データに基づいて、ユーザに発話させるべきキーワードを表示するための表示データを生成し、表示装置に供給する表示制御手段と
を具備することを特徴とする電子機器。
前記表示制御手段は、前記コマンドに対応した文字列の一部であって、少なくとも前記キーワードを含む文字列を表示するための表示データを生成する際に、当該文字列の中に含まれる前記キーワードに対応する文字部分のみを強調表示させることを特徴とする請求項６に記載の電子機器。
前記表示制御手段は、前記強調表示を行うに際して、
（ａ）前記キーワード部分のみ文字の色を変えて表示させる、
（ｂ）当該キーワード部分の文字フォントを変えて表示させる、
（ｃ）当該キーワード部分の文字を太線にて表示させる、
（ｄ）当該キーワード部分の文字サイズを変えて表示させる、
（ｅ）当該キーワード部分の文字を枠で囲って表示させる、
（ｆ）当該キーワード部分の文字を点滅表示させる、
（ｇ）当該キーワード部分の文字を反転表示させる、
という手法の少なくとも何れか１つの手法により前記強調表示を行うことを特徴とする請求項７に記載の電子機器。
放送番組の番組表を表示するための電子番組表情報を受信する受信手段を更に備え、
前記記録手段には、前記放送番組を指定するコマンドに対応した内容データと、当該番組名に対応した文字列の一部に設定されたキーワードに対応する前記特徴量データとが対応付けられた前記辞書データが記録されており、
前記表示制御手段は、前記受信された電子番組表情報に基づいて前記番組表を前記表示装置に表示させると共に、当該表示に際して、前記辞書データに基づいて、ユーザに発話させるべきキーワード部分を強調表示させることを特徴とする請求項７又は８に記載の電子機器。
前記放送番組に対応したコンテンツデータを記録するためのコンテンツデータ記録手段を更に備え、
前記受信手段は、前記電子番組表情報と共に前記コンテンツデータを受信し、
前記実行手段は、前記特定された入力コマンドに対応した内容データにより指定される前記放送番組に対応する放送チャネル及び放送時刻の少なくとも一方を前記電子番組表情報から抽出すると共に、（ａ）当該放送番組に対応した前記コンテンツデータの録画予約を行い、或いは、（ｂ）前記受信手段における受信チャネルの切換を行う、ことを特徴とする請求項９に記載の電子機器。
前記表示制御手段は、前記音声認識手段によって特定された入力コマンドが複数存在する場合に、何れの実行コマンドを実行すべきかをユーザに選択させるための選択画像を前記表示装置に表示させる選択画面表示制御手段を更に備えることを特徴とする請求項６に記載の電子機器。
ユーザにより発話された音声に基づいてユーザの入力コマンドを認識する音声認識装置において用いられる音声認識用の辞書データを生成するための辞書データ生成方法であって、
前記コマンドに対応したテキストデータを取得する取得ステップと、
前記音声認識用のキーワードを表示するための表示装置おいて表示可能な前記キーワードの文字数を特定する特定ステップと、
前記取得されたテキストデータの中から前記特定された文字数の範囲内にて一部の文字列を抽出し、当該文字列を前記キーワードとして設定する設定ステップと、
前記設定されたキーワードに対応した音声の特徴量を示す特徴量データを生成すると共に、当該コマンドに対応した処理内容を特定するための内容データを前記特徴量データと対応付けることにより前記辞書データを生成する生成ステップと、
を具備することを特徴とする辞書データ生成方法。
コマンドに対応した文字列の一部に設定されたキーワードに対応した音声の特徴量を示す特徴量データと、前記コマンドに対応した処理内容を特定するための内容データとが対応付けられた辞書データを用いて、ユーザの発話音声に対応する入力コマンドを認識する音声認識装置を備えた電子機器の制御方法であって、
前記辞書データに基づいて、ユーザに発話させるべきキーワードを表示するための表示データを生成し、表示装置に供給する表示ステップと、
前記表示装置に表示された画像に従って、ユーザの発話音声が入力された場合に、前記辞書データに基づいて当該発話音声に対応する入力コマンドを特定する音声認識ステップと、
前記内容データに基づき、前記特定された入力コマンドに対応する処理を実行する実行ステップと、
を具備することを特徴とする電子機器の制御方法。
ユーザにより発話された音声に基づいてユーザの入力コマンドを認識する音声認識装置において用いられる音声認識用の辞書データをコンピュータにより生成するための辞書データ生成プログラムであって、
前記コンピュータを、
前記コマンドに対応したテキストデータを取得する取得手段、
前記音声認識用のキーワードを表示するための表示装置おいて表示可能な前記キーワードの文字数を特定する特定手段、
前記取得された各テキストデータの中から前記特定された文字数の範囲内にて一部の文字列を抽出し、当該文字列を前記キーワードとして設定する設定手段、
前記設定されたキーワードに対応した音声の特徴量を示す特徴量データを生成すると共に、当該コマンドに対応した処理内容を特定するための内容データを前記特徴量データと対応付けることにより前記辞書データを生成する生成手段、
として機能させることを特徴とする辞書データ生成プログラム。
コマンドに対応した文字列の一部に設定されたキーワードに対応した音声の特徴量を示す特徴量データと、前記コマンドに対応した処理内容を特定するための内容データとが対応付けられた辞書データを記録した記録手段と、前記辞書データを用いて、ユーザの発話音声に対応する入力コマンドを認識する音声認識装置と、を備えたコンピュータにおいて処理を実行するための処理プログラムであって、
前記コンピュータを、
前記辞書データに基づいて、ユーザに発話させるべきキーワードを表示するための表示データを生成し、表示装置に供給する表示手段、
前記表示装置に表示された画像に従って、ユーザの発話音声が入力された場合に、前記辞書データに基づいて当該発話音声に対応する入力コマンドを特定する音声認識手段、
前記内容データに基づき、前記特定された入力コマンドに対応する処理を実行する実行手段、
として機能させることを特徴とする処理プログラム。
請求項１４に記載の辞書データ生成プログラムが記録されたことを特徴とするコンピュータに読み取り可能な情報記録媒体。
請求項１５に記載の処理プログラムが記録されたことを特徴とするコンピュータに読み取り可能な情報記録媒体。