WO2013102954A1

WO2013102954A1 - 放送受信装置および音声辞書構築処理方法

Info

Publication number: WO2013102954A1
Application number: PCT/JP2012/000056
Authority: WO
Inventors: 武早川; 晴次木村
Original assignee: パナソニック株式会社
Priority date: 2012-01-06
Filing date: 2012-01-06
Publication date: 2013-07-11

Abstract

　文字認識部(110)は、放送信号に含まれる字幕データから画面表示される字幕文字列を認識する。音声認識部(151)は、字幕文字列が画面表示される期間に出力される音声データを取得し、字幕文字列の読み方に対応する字幕音声データとして認識する。未登録単語抽出部(152)は、字幕文字列を単語単位に分解して字幕単語を求め、また字幕音声データを単語単位に分解して単語音声データを求める。そして、未登録単語抽出部(152)は、単語音声データが音声辞書(112)に登録されていない字幕単語を未登録単語として抽出し、未登録単語からなる登録候補リストを生成する。単語登録部(153)は、登録候補リストに基づいて、未登録単語を対応する単語音声データと共に音声辞書(112)に登録する。

Description

放送受信装置および音声辞書構築処理方法

　本発明は、テレビジョン放送などを受信する放送受信装置に関し、より特定的には、音声辞書および合成音声を生成する機能を有した放送受信装置、およびこの放送受信装置が実行する音声辞書構築処理方法に関する。

　近年、目の不自由な方のために、受信番組に関して文字列で提供される情報（放送局名、番組名、番組の内容など）を音声で読み上げる合成音声機能を備えた放送受信装置が実用化されている。この合成音声機能を備えた放送受信装置には、文字列を構成する単語とこの単語の読み方を示す音声データ（音声波形や韻律などによって定義される）とを対応付けた複数の情報が、音声辞書として予め内蔵されている。そして、文字列の音声読み上げを行う場合には、番組名などの文字列を構成する複数の単語にそれぞれ対応付けられた音声データを音声辞書から取得し、音声データに基づいて合成音声を生成してスピーカなどから発声する。

　ところで、音声辞書は、放送受信装置が有する不揮発性メモリなどに保存されており、装置の出荷後もその内容は変更されないのが一般的である。しかし、装置の出荷後に新たな流行語が出てきたり、新人俳優が登場したりして、当初の音声辞書に登録されていない単語が生じることはよくあることである。このような状態の音声辞書を使用し続けた場合、誤った読み方や無音部分の発生などの不具合を引き起こすおそれがあり得る。

　このような不具合を回避する方法の１つとしては、ネットワークで接続されたサーバから最新の音声辞書をダウンロードして、放送受信装置が内蔵する音声辞書を更新するという方法がある。

　また、不具合を回避する他の方法としては、例えば特許文献１に開示された装置が提案されている。この特許文献１に開示された装置が実行する方法では、音声辞書に登録されていない単語が発見された場合、ユーザがその単語を文字列として装置に入力する。装置は、入力された単語に当てはまる読み方の候補を複数示す。ユーザは、この複数の候補の中から読み方を選択し、音声辞書に登録する。

特開平８－３２０８６４号公報

　しかし、上述した最新の音声辞書をダウンロードする方法は、放送受信装置がネットワークと接続される環境になければならず、設備面でもコスト面でも課題が残る。また、常に最新の音声辞書にしておくためには、音声辞書を毎日のようにダウンロードしなければならず、ユーザの作業が煩わしいという課題もある。

　また、上記特許文献１に開示された方法では、入力された単語の読み方を候補として幾つか示されるだけなので、単語を入力したユーザがその単語の読みを理解していることが前提となる。このため、特許文献１に開示された方法は、ユーザが読み方を全く知らない未知の単語を音声辞書に登録することには適していない。また、最初の単語をユーザが装置に入力する必要があり、ユーザの登録操作が煩わしいという課題もある。

　それ故に、本発明の目的は、読み方が全くわからない未知の単語であっても、設備面およびコスト面を気にせずに、またユーザに煩わしい登録操作を要求することなく、簡単に音声辞書に単語登録することができる放送受信装置および音声辞書構築処理方法を提供することである。

　本発明は、音声データを対応付けた単語を複数格納した音声辞書を備える放送受信装置に向けられている。そして、上記問題を解決するために、本発明の放送受信装置は、放送信号から映像データおよび音声データを生成する生成部、放送信号に含まれる付加データから、字幕データおよび字幕表示期間を取得する処理部、字幕データから、画面表示される字幕文字列を認識する文字認識部、字幕表示期間に出力される音声データを取得し、字幕文字列の読み方に対応する字幕音声データとして認識する音声認識部、字幕文字列および字幕音声データを単語単位に分解した字幕単語および単語音声データをそれぞれ求め、単語音声データが音声辞書に登録されていない字幕単語を未登録単語として抽出し、未登録単語からなる登録候補リストを生成する未登録単語抽出部、および登録候補リストに基づいて、未登録単語を対応する単語音声データと共に音声辞書に登録する単語登録部を備えている。

　また、本発明の放送受信装置は、付加データに基づいて、字幕が合成される映像データのジャンルを判定するジャンル判定部をさらに備えることで、音声認識部および未登録単語抽出部を、ジャンル判定部によって映像データが特定のジャンルであると判定された場合にのみ動作させることが可能となる。この特定のジャンルは、少なくともドラマまたは映画であることが好ましい。

　また、本発明の放送受信装置は、通信部を用いて登録候補リストを外部の通信機器へ送信するようにしてもよい。この場合、通信部が、外部の通信機器で選択された未登録単語の全部または一部に関する情報を受信し、単語登録部が、通信部が受信した情報に示された未登録単語を、対応する単語音声データと共に音声辞書に登録することができる。
　この単語登録部は、ユーザからの要求に応じて、登録候補リストを画面表示させてもよいし、また、画面表示された登録候補リストの中からユーザによって選択された未登録単語０を、対応する単語音声データと共に音声辞書に登録してもよい。

　なお、上記放送受信装置が実行する処理は、放送信号から映像データおよび音声データを生成するステップ、放送信号に含まれる付加データから、字幕データおよび字幕表示期間を取得するステップ、字幕データから、画面表示される字幕文字列を認識するステップ、字幕表示期間に出力される音声データを取得し、字幕文字列の読み方に対応する字幕音声データとして認識するステップ、字幕文字列を単語単位に分解した字幕単語を求め、字幕音声データを単語単位に分解した単語音声データを求めるステップ、単語音声データが音声辞書に登録されていない字幕単語を未登録単語として抽出するステップ、未登録単語からなる登録候補リストを生成するステップ、および登録候補リストに基づいて、未登録単語を対応する単語音声データと共に音声辞書に登録するステップを含む、音声辞書を構築する処理方法として捉えることができる。

　上記本発明によれば、テレビジョン放送を受信しておくだけで、音声辞書に登録されていない新たな単語が放送で使用された場合に、この単語を音声辞書に追加することが可能となる。従って、音声辞書を常に最新の状態にしておくこともできる。

図１は、本発明の第１の実施形態に係る放送受信装置１０の構成を示す図である。図２は、本発明の第１の実施形態に係る放送受信装置１０が行う音声辞書構築処理の手順を示すフローチャートである。図３は、図２で説明する音声辞書構築処理の具体的な一例を示す図である。図４は、ユーザへ登録候補リストが提示される辞書登録確認画面４００の一例を示す図である。図５は、本発明の第２の実施形態に係る放送受信装置２０の構成を示す図である。図６は、本発明の第２の実施形態に係る放送受信装置２０が行う音声辞書構築処理の手順を示すフローチャートである。図７は、本発明の第３の実施形態に係る放送受信装置３０の構成を示す図である。図８は、ユーザへ登録候補リストが提示される他の辞書登録確認画面８００の一例を示す図である。

　以下、図面を参照して、本発明の実施形態について詳細に説明する。
　なお、各実施形態では、地上デジタル放送やＢＳデジタル放送などのテレビジョン放送を受信する放送受信装置であって、特に読み方を示す音声データを対応付けた単語を複数格納した音声辞書を内蔵し、この音声辞書を利用して字幕の内容を音声で読み上げる機能を備えた放送受信装置に、本発明を適用する例を説明する。

　　＜第１の実施形態＞
　図１は、本発明の第１の実施形態に係る放送受信装置１０の構成を示す図である。図１において、第１の実施形態に係る放送受信装置１０は、基本処理ユニット１００および音声辞書構築処理ユニット１５０を備えている。

　基本処理ユニット１００は、字幕内容の音声読み上げが可能な放送受信装置が備える一般的な機能ブロックであり、受信部１０１、信号分離部１０２、映像生成部１０３、映像合成部１０４、映像表示部１０５、音声生成部１０６、音声合成部１０７、音声再生部１０８、付加データ処理部１０９、文字認識部１１０、読み上げ音声生成部１１１、および音声辞書１１２で構成されている。
　音声辞書構築処理ユニット１５０は、本発明の特徴となるユニークな機能ブロックであり、音声認識部１５１、未登録単語抽出部１５２、および単語登録部１５３で構成されている。

・基本処理ユニット１００の構成
　まず、放送受信装置１０の基本処理ユニット１００を構成する各機能ブロックを説明する。
　受信部１０１は、例えばチューナであり、アンテナ１２０を介してテレビジョン放送信号を受信し、受信したデジタル放送信号に必要な処理（高周波処理および復調処理）を施して、トランスポートストリームを生成する。
　信号分離部１０２は、受信部１０１による生成処理で得られたトランスポートストリームを、映像データのＰＥＳパケット（Ｐａｃｋｅｔｉｚｅｄ　Ｅｌｅｍｅｎｔａｒｙ　Ｓｔｒｅａｍ　Ｐａｃｋｅｔｓ）を含むビットストリーム（以下、映像ストリームという）、音声データのＰＥＳパケットを含むビットストリーム（以下、音声ストリームという）、および字幕や放送番組に関する情報を含む付加データに分離する。

　映像生成部１０３は、信号分離部１０２による分離処理で得られた映像ストリームを入力し、映像ストリームを復号して映像データを生成する。
　映像合成部１０４は、映像生成部１０３による生成処理で得られた映像データをそのまま映像表示部１０５へ出力したり、付加データ処理部１０９から与えられる字幕や番組名などをＯＳＤ（Ｏｎ　Ｓｃｒｅａｎ　Ｄｉｓｐｌａｙ）表示させるためのデータを、映像データに合成して映像表示部１０５へ出力したりする。この映像表示部１０５へ出力するデータの切り換えは、例えばリモコンなどを介して入力部（図示せず）に入力されるユーザ指示に従って行われる。
　映像表示部１０５は、液晶ディスプレイなどであり、映像データを映像に変換して画面表示する装置である。なお、この映像表示部１０５は、図１のように放送受信装置１０に内蔵されていてもよいし、別体（モニターなど）で外部に設けられてもよい。

　音声生成部１０６は、信号分離部１０２による分離処理で得られた音声ストリームを入力し、音声ストリームを復号して放送音声データを生成する。そして、音声生成部１０６は、生成処理で得られた放送音声データを音声合成部１０７および音声認識部１５１へ出力する。
　音声合成部１０７は、音声生成部１０６による生成処理で得られた放送音声データと、読み上げ音声生成部１１１で生成された読み上げ音声データ（後述する）とを、入力する。そして、音声合成部１０７は、放送音声データをそのまま音声再生部１０８へ出力したり、放送音声データに読み上げ音声データを合成して音声再生部１０８へ出力したりする。この音声再生部１０８へ出力する音声データの切り換えは、例えばリモコンなどを介して入力部（図示せず）に入力されるユーザ指示に従って行われる。
　音声再生部１０８は、スピーカなどであり、音声データを音声に変換して再生する装置である。なお、この音声再生部１０８は、図１のように放送受信装置１０に内蔵されていてもよいし、別体で外部に設けられてもよい。

　付加データ処理部１０９は、信号分離部１０２による分離処理で得られた付加データを入力し、付加データの中から字幕データ、字幕データを出力する期間（以下、字幕表示期間という）、および番組名などに関する番組データを取得する。字幕データは、字幕ＰＥＳパケットのＰＥＳデータ領域に「字幕を表示するための文字情報」として記述される。また、字幕表示期間は、字幕ＰＥＳパケットのＰＥＳデータ領域に「送出タイミング」および「消去タイミング」として記述される。
　なお、字幕ＰＥＳパケットについては、日本民間放送連盟が策定したＮＡＢ技術規準Ｔ０２７－１９９６などに詳述されている。

　文字認識部１１０は、付加データ処理部１０９が取得した字幕データを解析して、字幕として画面表示される文字列（以下、字幕文字列という）を認識する。
　読み上げ音声生成部１１１は、文字認識部１１０で認識された字幕文字列をキーとして音声辞書１１２を検索する。そして、読み上げ音声生成部１１１は、この字幕文字列を構成する各単語に対応付けられた音声データを音声辞書１１２から取得し、字幕文字列を音声によって読み上げるための音声データ（以下、読み上げ音声データという）として音声合成部１０７に出力する。
　音声辞書１１２は、意味を有する言語単位である単語とこの単語の読み方を示す音声データ（音声波形や韻律などによって定義される）とを対応付けた、単語と音声データとを対とするレコードが、複数格納されている。

　上述した音声合成部１０７は、ユーザから字幕内容の音声読み上げの指示を受けると、音声生成部１０６による生成処理で得られた放送音声データに、読み上げ音声生成部１１１が生成した読み上げ音声データを合成して、音声再生部１０８へ出力する。

・音声辞書構築処理ユニット１５０の構成
　次に、放送受信装置１０の音声辞書構築処理ユニット１５０を構成する各機能ブロックを説明する。
　音声認識部１５１は、付加データ処理部１０９が取得した字幕表示期間に従って、字幕表示期間に音声生成部１０６から送出される放送音声データを字幕音声データとして取得する。そして、音声認識部１５１は、取得した字幕音声データを解析して、字幕音声データを文字列（以下、音声文字列という）として認識する。

　未登録単語抽出部１５２は、文字認識部１１０が出力する字幕文字列と、音声認識部１５１が出力する音声文字列として認識された字幕音声データとを入力し、それぞれの文字列を単語単位に分解する。この文字列の単語単位への分解には、周知の最長一致法などの形態素解析を適用することができる。次に、未登録単語抽出部１５２は、字幕文字列を分解して得られた複数の単語（以下、字幕単語という）および音声文字列を単語に分解して得られた複数の音声データ（以下、単語音声データという）に基づいて、字幕単語と単語音声データとを対とするレコードを複数作成する。そして、未登録単語抽出部１５２は、音声辞書１１２に格納されている登録済みのレコード（単語と音声データの対）と、新たに作成した字幕単語と単語音声データとを対とするレコードとのマッチング処理を行い、音声辞書１１２にまだ格納されていない字幕単語と単語声データとを対とするレコードを記述した登録候補リストを生成する。

　単語登録部１５３は、未登録単語抽出部１５２で生成された登録候補リストを入力し、登録候補リストに記述されたレコードを新たなレコードとして音声辞書１１２に登録する。このとき、単語登録部１５３は、映像表示部１０５を用いた画面表示などによって登録候補リストをユーザに提示して、ユーザによって選択された字幕単語と単語音声データとの対だけを音声辞書１１２に登録してもよいし、ユーザに選択されることなく登録候補リストに記述された全ての字幕単語と単語音声データとの対を音声辞書１１２に登録してもよい。

・放送受信装置１０が行う音声辞書構築処理
　次に、放送受信装置１０によって行われる、音声辞書１１２に未登録の字幕単語を新たに登録する音声辞書構築処理を説明する。
　図２は、本発明の第１の実施形態に係る放送受信装置１０が行う音声辞書構築処理の手順を示すフローチャートである。図３は、図２で説明する音声辞書構築処理の具体的な一例を示す図である。

　図２に示す音声辞書構築処理は、典型的には、信号分離部１０２によって分離された付加データの中に字幕データが存在する場合に実行される。
　付加データ処理部１０９は、信号分離部１０２による分離処理で得られた付加データに基づいて、受信部１０１が受信（選局）している番組の字幕データおよびその字幕データの字幕表示期間を取得する（ステップＳ２０１）。文字認識部１１０は、付加データ処理部１０９が取得した字幕データ（図３の［ａ１］）を、字幕文字列（図３の［ｂ１］）として認識する（ステップＳ２０２）。音声認識部１５１は、付加データ処理部１０９が取得した字幕表示期間に音声生成部１０６から送出される放送音声データ、つまり字幕文字列に対応する字幕音声データ（図３の［ａ２］）を音声文字列（図３の［ｂ２］）として認識する（ステップＳ２０３）。

　未登録単語抽出部１５２は、字幕文字列を単語に分解し（図３の［ｃ１］）、また字幕音声データを音声文字列に従って単語に分解する（図３の［ｃ２］）。次に、未登録単語抽出部１５２は、字幕文字列を分解して得た字幕単語と音声文字列を分解して得た単語音声データとを対とするレコード（図３の［ｄ］）を作成し（ステップＳ２０４）、音声辞書１１２に格納されている登録済みのレコードとマッチング処理などを用いて比較する（ステップＳ２０５）。そして、未登録単語抽出部１５２は、音声辞書１１２に登録されていないレコードを抽出し、この抽出した未登録レコードによって構成される登録候補単語リスト（図３の［ｅ］）を作成する（ステップＳ２０６）。

　単語登録部１５３は、登録候補リストに記述されているレコードの一部または全部を、音声辞書１１２に登録する（ステップＳ２０７）。このレコードの登録は、単語登録部１５３によって自動的に行われるか、ユーザの指示に基づいて行われる。ユーザの指示は、例えば図４に示す画面を用いたＧＵＩ（グラフィカル・ユーザ・インタフェース）を介して行われる。

　図４は、ユーザへ登録候補リストが提示される辞書登録確認画面４００の一例を示す図である。この辞書登録確認画面４００は、任意の条件が満足されたとき、例えばリストの数が所定の値を超えたときや、放送番組が終了したときなどに自動的に表示されてもよいし、ユーザからの要求に応じて表示されてもよい。

　辞書登録確認画面４００の中央には、字幕単語４０１と単語音声データ４０２とを対とするレコードからなる登録候補リストが示される。各レコードには、単語の登録が完了したか否かを表す状態４０３が記述される。登録ボタン４０４は、登録候補リスト上で選択しているレコードを音声辞書１１２に登録する場合に押される。なお、登録ボタン２０４が押されると、登録確認画面４２０が表示されてもよい。削除ボタン４０５は、登録候補リスト上で選択しているレコードを登録候補リストから削除する場合に押される。読み上げボタン４０６は、登録候補リスト上で選択しているレコードの単語の読み方を聞きたい、すなわち音声データの読み上げを行いたい場合に押される。この読み上げボタン４０６の機能によって、ユーザは単語の読み方を実際に聞いて確認してから、音声辞書１１２に登録するか削除するかを決定することができる。設定／変更ボタン４０７は、音声辞書構築処理の利便性を図るために設けられたボタンであり、自由に設計することができる。例えば、音声辞書１１２への単語登録の自動または手動を設定したり、音声データ（読み方）を修正したり、音声データのアクセントの位置や強さ、ポーズなどの韻律を変更したりすることができる。

　以上のように、本発明の第１の実施形態に係る放送受信装置１０およびこの装置が行う音声辞書構築処理方法によれば、字幕データと字幕表示期間に発声される音声データとに基づいて、字幕に用いられた単語とその単語の読み方を示す音声データとを対とするレコードを作成することができる。
　これにより、テレビジョン放送を受信しておけば、音声辞書１１２に登録されていない新たな単語が放送で使用された場合に、この単語を音声辞書１１２に追加することが可能となる。従って、音声辞書１１２を常に最新の状態にしておくこともできる。
　また、音声辞書１１２に登録されていない新たな単語を自動的に音声辞書１１２に追加するように構成すれば、音声辞書１１２への単語登録に伴う煩わしい操作をユーザに強いる必要がなくなる。

　　＜第２の実施形態＞
　本発明が提供する音声辞書構築処理は、画面表示される字幕文字列と、この字幕文字列について放送音声で流れる読み方（発声）とに基づいて、未登録レコードを作成する。よって、作成される未登録レコードの単語と音声データとの対応付けをより信頼性のある確かなものとするためには、画面表示される字幕文字列に対してほぼ同時に放送音声によって流れる読み方（発声）が基本的に一致している必要がある。

　しかしながら、放送番組も様々なタイプがあり、字幕文字列と放送音声とが一致している番組もあれば、一致していない番組もある。典型的には、前者タイプの番組としては、台詞を字幕表示することを目的とした番組、例えばドラマや映画などが挙げられ、後者タイプの番組としては、要約した内容が字幕表示され易い番組、例えばニュースやスポーツなどが挙げられる。

　そこで、本第２の実施形態では、番組データに含まれるジャンルに関する情報から番組のタイプを判断して音声辞書構築処理の実行または不実行を制御し、音声辞書１１２の信頼性をさらに向上させることを目的とする放送受信装置２０を説明する。

　図５は、本発明の第２の実施形態に係る放送受信装置２０の構成を示す図である。図５において、第２の実施形態に係る放送受信装置２０は、基本処理ユニット１００および音声辞書構築処理ユニット２５０を備えている。音声辞書構築処理ユニット２５０は、音声認識部２５１、未登録単語抽出部２５２、単語登録部１５３、およびジャンル判定部２５４で構成されている。

　図５に示すように、第２の実施形態に係る放送受信装置２０は、上記第１の実施形態に係る放送受信装置１０と、音声辞書構築処理ユニット２５０における音声認識部２５１、未登録単語抽出部２５２、およびジャンル判定部２５４の構成が異なる。放送受信装置２０のこれらの異なる構成以外は、放送受信装置１０と同じであるため、同一の参照符号を付して説明を省略する。

・音声辞書構築処理ユニット２５０の構成
　放送受信装置２０の音声辞書構築処理ユニット２５０を構成する各機能ブロックを説明する。
　ジャンル判定部２５４は、付加データ処理部１０９が抽出した番組データから、受信している番組のジャンルに関する情報を取得する。番組のジャンルとは、ドラマ、映画、ニュース、スポーツ、および音楽などの、番組のタイプを分類するための識別子である。ジャンル判定部２５４は、取得した番組のジャンルを判断し、音声辞書構築処理を実行するのか、実行しないのかを決定する。この決定は、予め定められたジャンル、典型的にはドラマまたは映画に該当するか否かによって行われる。番組のジャンルがドラマまたは映画に該当しない場合、ジャンル判定部２５４は、音声辞書構築処理を実行しないように、音声認識部２５１および未登録単語抽出部２５２を制御する。

　音声認識部２５１は、ジャンル判定部２５４による処理不実行の制御に従って、付加データ処理部１０９が字幕表示期間を出力してきても、音声生成部１０６から送出される放送音声データを取得する処理を行わない。
　また、未登録単語抽出部２５２は、ジャンル判定部２５４による処理不実行の制御に従って、音声認識部１５１からの音声データの入力、および文字認識部１１０からの字幕文字列の入力を停止する。

・放送受信装置２０が行う音声辞書構築処理
　次に、放送受信装置２０によって行われる、音声辞書１１２に未登録の字幕単語を新たに登録する構築処理を説明する。
　図６は、本発明の第２の実施形態に係る放送受信装置２０が行う音声辞書構築処理の手順を示すフローチャートである。

　図６に示す音声辞書構築処理は、典型的には、信号分離部１０２によって分離された付加データの中に字幕データが存在する場合に実行される。
　付加データ処理部１０９は、信号分離部１０２による分離処理で得られた付加データに基づいて、受信部１０１が受信（選局）している番組の字幕データ、その字幕データの字幕表示期間、および番組データを取得する（ステップＳ６０１）。ジャンル判定部２５４は、付加データ処理部１０９が取得した番組データから、番組のジャンルに関する情報を抽出し、音声辞書構築処理を実行する対象を示した所定のジャンルに、この抽出した番組のジャンルが一致するか否かを判断する（ステップＳ６０２）。

　ジャンル判定部２５４が抽出した番組のジャンルが所定のジャンルに一致する場合（ステップＳ６０２：Ｙｅｓ）、音声辞書構築処理ユニット２５０は、図２で説明したステップＳ２０２～Ｓ２０７の音声辞書構築処理を実行する。一方、ジャンル判定部２５４が抽出した番組のジャンルが所定のジャンルに一致しない場合（ステップＳ６０２：Ｎｏ）、音声辞書構築処理ユニット２５０は、音声辞書構築処理を実行することなく処理を終了する。

　以上のように、本発明の第２の実施形態に係る放送受信装置２０およびこの装置が行う音声辞書構築処理方法によれば、受信している番組のジャンルを判断して、番組が所定のジャンルである場合にだけ、音声辞書構築処理を実行する。
　これにより、音声辞書１１２の構築に有用なレコードだけを作成することが可能となり、音声辞書１１２の信頼性をさらに向上させることができる。

　　＜第３の実施形態＞
　本発明が提供する音声辞書構築処理は、受信番組の視聴を妨げないという観点から、登録候補リストに記述されたレコードの音声辞書１１２への登録は、バックグラウンドで自動的に行われるか、受信番組の放送が終了した後などに登録候補リストをユーザに提示し（図４など）、ユーザからの指示に基づいて行われることが望ましい。

　しかしながら、音声辞書１１２へ全てのレコードを自動的に登録してしまう場合、誤った単語と音声データとの対が登録されてしまうおそれがある。また、受信番組の放送終了後などにユーザに手動で登録させる場合、番組の放送終了前に放送受信装置の電源が切られたり、番組の終了後に直ちに別の番組の視聴を開始したりして、ユーザの利便性がよいとは必ずしもいえない。

　そこで、本第３の実施形態では、受信番組の視聴を妨げることなく、番組放送と並行して（番組放送中に）登録候補リストに記述されたレコードの登録／不登録の選択を行うこと目的とする放送受信装置３０を説明する。

　図７は、本発明の第３の実施形態に係る放送受信装置３０の構成を示す図である。図７において、第３の実施形態に係る放送受信装置３０は、基本処理ユニット１００および音声辞書構築処理ユニット３５０を備えている。音声辞書構築処理ユニット３５０は、音声認識部１５１、未登録単語抽出部１５２、単語登録部３５３、および通信部３５５で構成されている。

　図７に示すように、第３の実施形態に係る放送受信装置３０は、上記第１の実施形態に係る放送受信装置１０と、音声辞書構築処理ユニット３５０における単語登録部３５３および通信部３５５の構成が異なる。放送受信装置３０のこれらの異なる構成以外は、放送受信装置１０と同じであるため、同一の参照符号を付して説明を省略する。

・音声辞書構築処理ユニット３５０の構成
　放送受信装置３０の音声辞書構築処理ユニット３５０を構成する各機能ブロックを説明する。
　音声認識部１５１は、付加データ処理部１０９が取得した字幕表示期間に、音声生成部１０６から送出される放送音声データを取得する。そして、音声認識部１５１は、取得した放送音声データ（字幕音声データ）を解析して、音声文字列を認識する。
　未登録単語抽出部１５２は、字幕文字列を単語単位に分解した字幕単語、および音声文字列として認識された字幕音声データを単語単位に分解した単語音声データに基づいて、新たなレコードを複数作成する。そして、未登録単語抽出部１５２は、音声辞書１１２にまだ格納されていない新たなレコードを記述した登録候補リストを生成する。

　通信部３５５は、未登録単語抽出部１５２で生成された登録候補リストを入力し、外部の通信機器に送信する。また、通信部３５５は、登録候補リストに記述されたレコードの登録／不登録に関する指示を外部の通信機器から受信し、単語登録部３５３へ出力する。
　単語登録部３５３は、未登録単語抽出部１５２で生成された登録候補リストおよび通信部３５５が出力するレコードの登録／不登録に関する指示を入力し、登録が指示されたレコードを新たなレコードとして音声辞書１１２に登録する。

　外部の通信機器としては、スマートフォンなどの携帯情報端末が適している。携帯情報端末は、通信部３５５から登録候補リストを受信すると、自らの画面に例えば図４に示したような辞書登録確認画面４００を表示させ、登録すべきレコードの取捨選択をユーザに促すことを行う。ユーザから登録すべきレコードが指示されると、外部の通信機器は、登録すべきレコードの情報を通信部３５５に送信する。

　この処理により、放送受信装置３０とは異なる外部の通信機器でＧＵＩを介した音声辞書構築処理が可能となる。よって、受信番組の視聴しつつ、リアルタイムで必要な新たなレコードの登録操作を並行して同時に行うことができる。

　なお、通信部３５５から送信される登録候補リストは、外部の通信機器が有する音声辞書の構築に反映させることも可能である。また、外部の通信機器が有する音声辞書のレコードを通信部３５５に送信し、放送受信装置３０の音声辞書１１２の構築に反映させることももちろん可能である。

　以上のように、本発明の第３の実施形態に係る放送受信装置３０およびこの装置が行う音声辞書構築処理方法によれば、外部の通信機器に登録候補リストを送信し、外部の通信機器の画面を使用して登録すべきレコードの取捨選択をユーザに行わせる。
　これにより、外部の通信機器を所持しながら受信番組を視聴していれば、音声辞書１１２に登録されていない新たな単語が受信番組で使用された場合であっても、受信番組の視聴を妨げることなく、この新たな単語を音声辞書１１２に追加することが可能となる。

　なお、第３の実施形態に係る放送受信装置３０の構成に、上記第２の実施形態に係る放送受信装置２０で説明した音声認識部２５１、未登録単語抽出部２５２、およびジャンル判定部２５４の構成を加えてもよい。

　　＜変形例＞
　上記実施形態では、音声辞書構築処理ユニット１５０、２５０、および３５０は、ユーザに手動で単語の辞書登録を行わせる場合、１つの字幕単語と１つの単語音声データとを対とするレコードを作成して、そのレコードを登録するか否かをユーザに選択させる例を説明した。しかし、このような方法以外にも、次のような方法が考えられる。

　図８のように、字幕文字列を分解して得られた複数の単語（字幕単語）を列挙した一覧と、音声文字列を分解して得られた複数の単語（単語音声データ）を列挙した一覧とからなる、辞書登録確認画面８００をユーザに示す。ユーザは、この双方の一覧からそれぞれ１つを選択して対を作成して、音声辞書１１２に登録する。
　この処理を用いれば、例えば字幕データの字幕表示期間に対して放送音声データの発声タイミングが遅延していて、字幕単語と単語音声データとを上手く対にできないような場合でも、ユーザによって簡単な処理で正しい対のレコードを作成することができる。

　なお、上記実施形態では、日本で採用されている字幕表示システムに本発明の音声辞書構築処理を適用させた場合を説明した。しかし、欧州で採用されているサブタイトルシステムや、米国で採用されているクローズドキャプションシステムについても、同様に本発明の音声辞書構築処理を適用することが可能である。

　また、本発明の各実施形態における放送受信装置を構成する一部または全部の機能ブロックは、中央処理装置（ＣＰＵ）、記憶装置（メモリ（ＲＯＭ、ＲＡＭ等）、ハードディスク等）、および入出力装置などのハードウエア資源を用いることで実現され、典型的には集積回路であるＩＣ（ＬＳＩ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩ等とも称される）として具現化される。これらの機能ブロックは、個別に１チップ化されてもよいし、一部または全部を含むように１チップ化されてもよい。
　また、集積回路化の手法は、ＩＣに限るものではなく、専用回路または汎用プロセッサで実現してもよい。また、ＩＣ製造後にプログラムすることが可能なＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）や、ＩＣ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
　さらには、半導体技術の進歩または派生する別の技術により、ＩＣに置き換わる集積回路化の技術（バイオ技術など）が登場すれば、当然その技術を用いて機能ブロックの集積化を行ってもよい。

　また、上述した本発明の各実施形態における放送受信装置が実行する音声辞書構築処理方法は、記憶装置に格納された音声辞書構築処理方法の手順を実行可能な所定のプログラムデータが、ＣＰＵによって解釈実行されることで実現されてもよい。この場合、プログラムデータは、ＣＤ－ＲＯＭやフレキシブルディスク等の記録媒体を介して記憶装置内に導入されてもよいし、記録媒体上から直接実行されてもよい。なお、記録媒体は、ＲＯＭやＲＡＭやフラッシュメモリ等の半導体メモリ、フレキシブルディスクやハードディスク等の磁気ディスクメモリ、ＣＤ－ＲＯＭやＤＶＤやＢＤ等の光ディスクメモリ、およびメモリカードなどをいう。また、記録媒体は、電話回線や搬送路などの通信媒体も含む概念である。

　本発明は、音声データを対応付けた単語を複数格納した音声辞書を内蔵し、この音声辞書を利用して字幕の内容を音声で読み上げる機能を備えた放送受信装置などに利用可能であり、特に音声辞書を常に最新の状態にしておきたい場合などに有用である。

１０、２０、３０　放送受信装置
１００　基本処理ユニット
１０１　受信部
１０２　信号分離部
１０３　映像生成部
１０４　映像合成部
１０５　映像表示部
１０６　音声生成部
１０７　音声合成部
１０８　音声再生部
１０９　付加データ処理部
１１０　文字認識部
１１１　読み上げ音声生成部
１１２　音声辞書
１２０　アンテナ
１５０、２５０、３５０　音声辞書構築処理ユニット
１５１、２５１　音声認識部
１５２、２５２　未登録単語抽出部
１５３、３５３　単語登録部
２５４　ジャンル判定部
３５５　通信部
４００、４２０、８００　確認画面
４０１　字幕単語
４０２　単語音声データ
４０３　状態
４０４～４０７　ボタン

Claims

　音声データを対応付けた単語を複数格納した音声辞書を備える放送受信装置であって、
　放送信号から映像データおよび音声データを生成する生成部、
　前記放送信号に含まれる付加データから、字幕データおよび字幕表示期間を取得する処理部、
　前記字幕データから、画面表示される字幕文字列を認識する文字認識部、
　前記字幕表示期間に出力される音声データを取得し、前記字幕文字列の読み方に対応する字幕音声データとして認識する音声認識部、
　前記字幕文字列および前記字幕音声データを単語単位に分解した字幕単語および単語音声データをそれぞれ求め、当該単語音声データが前記音声辞書に登録されていない字幕単語を未登録単語として抽出し、当該未登録単語からなる登録候補リストを生成する未登録単語抽出部、および
　前記登録候補リストに基づいて、前記未登録単語を対応する前記単語音声データと共に前記音声辞書に登録する単語登録部を備える、放送受信装置。
　前記付加データに基づいて、前記字幕が合成される前記映像データのジャンルを判定するジャンル判定部をさらに備え、
　前記音声認識部および前記未登録単語抽出部は、前記ジャンル判定部によって前記映像データが特定のジャンルであると判定された場合にのみ動作する、請求項１に記載の放送受信装置。
　前記特定のジャンルは、少なくともドラマまたは映画である、請求項２に記載の放送受信装置。
　前記登録候補リストを外部の通信機器へ送信する通信部をさらに備える、請求項１に記載の放送受信装置。
　前記通信部は、前記外部の通信機器で選択された前記未登録単語の全部または一部に関する情報を受信し、
　前記単語登録部は、前記通信部が受信した情報に示された未登録単語を、対応する前記単語音声データと共に前記音声辞書に登録する、請求項４に記載の放送受信装置。
　前記単語登録部は、ユーザからの要求に応じて、前記登録候補リストを画面表示させる、請求項１に記載の放送受信装置。
　前記単語登録部は、画面表示された前記登録候補リストの中からユーザによって選択された未登録単語を、対応する前記単語音声データと共に前記音声辞書に登録する、請求項６に記載の放送受信装置。
　放送受信装置が備える音声データを対応付けた単語を複数格納した音声辞書を構築する処理方法であって、
　放送信号から映像データおよび音声データを生成するステップ、
　前記放送信号に含まれる付加データから、字幕データおよび字幕表示期間を取得するステップ、
　前記字幕データから、画面表示される字幕文字列を認識するステップ、
　前記字幕表示期間に出力される音声データを取得し、前記字幕文字列の読み方に対応する字幕音声データとして認識するステップ、
　前記字幕文字列を単語単位に分解した字幕単語を求め、前記字幕音声データを単語単位に分解した単語音声データを求めるステップ、
　前記単語音声データが前記音声辞書に登録されていない前記字幕単語を未登録単語として抽出するステップ、
　前記未登録単語からなる登録候補リストを生成するステップ、および
　前記登録候補リストに基づいて、前記未登録単語を対応する前記単語音声データと共に前記音声辞書に登録するステップを含む、音声辞書を構築する処理方法。