WO2016042765A1

WO2016042765A1 - 映像音声処理装置、映像音声処理方法およびプログラム

Info

Publication number: WO2016042765A1
Application number: PCT/JP2015/004718
Authority: WO
Inventors: 鈴木　達也; 義幸笹川; 達人堀部; 田中　俊介
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2014-09-19
Filing date: 2015-09-16
Publication date: 2016-03-24
Also published as: US20170034568A1; JP6609795B2; JPWO2016042765A1

Abstract

　ユーザが聞き取りやすい音声を生成できる映像音声処理装置を提供する。映像音声処理装置は、映像生成部と、選択部と、音量調整部と、を備える。映像生成部は、複数の動画像が表示される領域が、表示画面内を、予め定められた方向に自動的に移動する表示映像の映像信号を生成する。選択部は、複数の動画像の表示画面内における位置に応じて、それら複数の動画像の中から１つの動画像の音声信号を選択する。音量調整部は、選択部で選択された音声信号が、他の音声信号より大きい音量で出力されるように、複数の動画像のそれぞれの音声信号の音量を調整する。

Description

映像音声処理装置、映像音声処理方法およびプログラム

　本開示は、複数の動画像を１つの表示画面内に表示する映像を生成する映像音声処理装置および映像音声処理方法に関する。

　特許文献１は、複数の動画像を１つの表示画面内に表示する技術を用いた情報処理装置を開示する。その情報処理装置は、番組表示のスクロール操作と連動するように、各番組の音声出力座標を決定し、それらの音声出力座標に基づいて各番組の音声を合成する。

特開２００３－８７６８１号公報

　複数の動画像を１つの表示画面内に表示する映像を生成する映像音声処理装置では、ユーザが聞き取りやすい音声を生成できることが望ましい。

　本開示は、ユーザが聞き取りやすい音声を生成できる映像音声処理装置および映像音声処理方法を提供する。

　本開示における映像音声処理装置は、映像生成部と、選択部と、音量調整部と、を備える。映像生成部は、複数の動画像が表示される領域が、表示画面内を、予め定められた方向に自動的に移動する表示映像の映像信号、を生成する。選択部は、複数の動画像の表示画面内における位置に応じて、それら複数の動画像の中から１つの動画像の音声信号を選択する。音量調整部は、選択部で選択された音声信号が、他の音声信号より大きい音量で出力されるように、複数の動画像のそれぞれの音声信号の音量を調整する。

　本開示における映像音声処理装置は、複数の動画像が１つの表示画面内に表示されるときに、ユーザが聞き取りやすい音声を生成することができる。

図１は、実施の形態１における映像音声処理装置の一構成例を示すブロック図である。図２は、実施の形態１における映像音声処理装置で生成される表示映像の一例を模式的に示す図である。図３は、実施の形態１における映像音声処理装置で行う音声調整処理の概要を模式的に示す図である。図４は、実施の形態１において２つの動画像が出音領域に含まれるときの映像音声処理装置の動作の一例を模式的に示す図である。図５は、実施の形態１において２つの動画像が出音領域に含まれるときの各動画像の音量の時間変化の一例を模式的に示す図である。図６は、実施の形態１における映像音声処理装置で実行する映像音声生成処理の一例を示すフローチャートである。図７は、実施の形態１における初期音量設定処理の一例を示すフローチャートである。図８は、他の実施の形態の変形例１における出音領域に含まれる動画像の音量の時間変化の一例を模式的に示す図である。図９は、他の実施の形態の変形例２において２つの動画像が出音領域に含まれるときの映像音声処理装置の動作の一例を模式的に示す図である。図１０は、他の実施の形態の変形例２において２つの動画像が出音領域に含まれるときの各動画像の音量の時間変化の一例を模式的に示す図である。図１１は、他の実施の形態の変形例２における映像音声処理装置で実行する映像音声生成処理の一例を示すフローチャートである。図１２は、他の実施の形態の変形例３における音声調整処理の概要を模式的に示す図である。図１３は、他の実施の形態の変形例３における映像音声処理装置で実行する映像音声生成処理の一例を示すフローチャートである。図１４は、他の実施の形態の変形例４における映像音声処理装置の一構成例を示すブロック図である。図１５は、他の実施の形態の変形例４における表示映像の一例を模式的に示す図である。

　以下、適宜図面を参照しながら、実施の形態を詳細に説明する。ただし、必要以上に詳細な説明は省略する場合がある。例えば、すでによく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

　なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。

　また、各図は、模式図であり、必ずしも厳密に図示されたものではない。また、各図において、同じ構成要素については同じ符号を付している。

　（実施の形態１）
　以下、図１～図１５を用いて、実施の形態１を説明する。

　まず、映像音声処理装置１００の構成を説明する。

　［１－１．映像音声処理装置の構成］
　図１は、実施の形態１における映像音声処理装置１００の一構成例を示すブロック図である。

　図１に示す映像音声処理装置１００は、複数の動画像が１つの表示画面内に表示される映像信号を生成する。例えば、映像音声処理装置１００は、テレビ、レコーダ、パーソナルコンピュータ、携帯端末またはスマートフォン、等に搭載される。

　映像音声処理装置１００は、映像生成部１０１と、操作受付部１０２と、制御部１０３と、映像出力部１０４と、選択部１０５と、音量調整部１０６と、音声出力部１０７と、を備える。

　映像生成部１０１は、複数の動画像が表示される領域が、表示画面内を予め定められた方向に自動的に移動（以下、「スクロール」と記す）する表示映像の映像信号（以下、「表示映像信号」とも記す）を生成して出力する。また、映像生成部１０１は、それら複数の動画像に対応した複数の音声の音声信号を出力する。

　映像生成部１０１は、選局部１１１と、放送信号分離部１１２と、コンテンツデータ分離部１１３と、映像再生部１１４と、音声再生部１１５と、ＯＳＤ（Ｏｎ　Ｓｃｒｅｅｎ　Ｄｉｓｐｌａｙ）生成部１１６と、表示合成部１１７と、を備える。

　選局部１１１は、アンテナ１３１で受信された複数の放送信号から、再生の対象となる放送番組の信号を選択し、選択した放送番組の信号を放送信号分離部１１２へ出力する。選局部１１１は、例えば、ＴＳ（トランスポート・ストリーム）を放送信号分離部１１２へ出力する。

　放送信号分離部１１２は、選局部１１１から出力されるＴＳから、映像データと音声データとを分離し、映像データを映像再生部１１４へ出力し、音声データを音声再生部１１５へ出力する。

　コンテンツデータ分離部１１３は、記憶装置１３２から動画コンテンツを取得し、取得した動画コンテンツの映像データを映像再生部１１４へ出力し、音声データを音声再生部１１５へ出力する。なお、記憶装置１３２は、例えばＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）等の大容量記憶装置である。記憶装置１３２は、複数の動画コンテンツを蓄積し、ユーザに選択された動画コンテンツを出力する。

　映像再生部１１４は、放送信号分離部１１２から出力される放送番組の映像データ、および、コンテンツデータ分離部１１３から出力される動画コンテンツの映像データをそれぞれ再生して複数の映像信号を生成し、生成した複数の映像信号を表示合成部１１７へ出力する。

　音声再生部１１５は、放送信号分離部１１２から出力される放送番組の音声データ、および、コンテンツデータ分離部１１３から出力される動画コンテンツの音声データをそれぞれ再生して複数の音声信号を生成し、生成した複数の音声信号を音量調整部１０６へ出力する。

　なお、本実施の形態では、映像音声処理装置１００が、動画コンテンツおよび放送番組の両方を再生できるように構成された構成例を示すが、本開示は何らこの構成に限定されない。映像音声処理装置１００は、それらのいずれか一方のみを再生するように構成されていてもよい。そのように映像音声処理装置１００が構成されている場合、映像再生部１１４および音声再生部１１５は、複数の動画コンテンツおよび複数の放送番組のいずれか一方のみを再生する。なお、図１に示す映像音声処理装置１００において、映像再生部１１４および音声再生部１１５は、複数の動画コンテンツおよび複数の放送番組のいずれか一方のみを再生してもよい。

　なお、図１には、アンテナ１３１および記憶装置１３２が共に映像音声処理装置１００の外部に設置された構成例を示したが、本開示は何らこの構成に限定されない。アンテナ１３１および記憶装置１３２の少なくとも一方が、映像音声処理装置１００に含まれてもよい。映像音声処理装置１００は、動画コンテンツを自身で保持し、保持した動画コンテンツを再生するように構成されてもよい。また、映像音声処理装置１００は、例えば動画サーバ等に蓄積された動画コンテンツを、インターネット等を介して取得するように構成されてもよい。

　ＯＳＤ生成部１１６は、ＯＳＤ映像を表示画面に表示するためのＯＳＤ映像信号を生成する。

　表示合成部１１７は、映像再生部１１４で再生された複数の映像信号およびＯＳＤ映像信号を互いに合成して表示映像信号を生成し、生成した表示映像信号を出力する。生成された表示映像信号は、複数の動画像を含む表示映像を表示画面に表示するための映像信号である。このように、表示合成部１１７は、映像再生部１１４で再生された複数の映像信号を互いに重畳した表示映像信号を生成する。

　操作受付部１０２は、ユーザ操作を受ける。ユーザ操作には、例えば、ユーザによる、映像音声処理装置１００への直接操作や、リモートコントローラ（図示せず）を使用した映像音声処理装置１００への遠隔操作、等が含まれる。

　制御部１０３は、操作受付部１０２が受け付けたユーザ操作等に応じて、映像生成部１０１を制御する。例えば、制御部１０３は、選局部１１１が選局する放送信号の指定、コンテンツデータ分離部１１３が取得する動画コンテンツの指定、放送信号分離部１１２が処理する放送番組の指定、ＯＳＤ生成部１１６へのＯＳＤ生成指示、および表示合成部１１７への表示映像信号の生成指示、等を行う。

　映像出力部１０４は、表示合成部１１７で生成された表示映像信号を、モニタ等の表示部へ出力する。なお、図１には、モニタが映像音声処理装置１００の外部に設置された構成例を示したが、本開示は何らこの構成に限定されない。映像音声処理装置１００は、表示部を備え、その表示部に表示映像を表示するように構成されてもよい。

　選択部１０５は、表示合成部１１７から出力される表示映像信号にもとづき、音声再生部１１５から出力される複数の音声信号のうちの一つの音声信号を選択する。すなわち、選択部１０５は、複数の動画像の表示画面内における位置に応じて、それら複数の動画像の中から１つの動画像の音声信号を選択する。以下、音声信号を単に「音声」とも記す。

　音量調整部１０６は、音声再生部１１５から出力される複数の音声信号の音量を調整して出力音声信号を生成し、生成した出力音声信号を音声出力部１０７へ出力する。このとき、音量調整部１０６は、選択部１０５で選択された音声信号が、他の音声信号より大きい音量で出力されるように、複数の動画像のそれぞれの音声信号の音量を調整する。

　音声出力部１０７は、音量調整部１０６で生成された出力音声信号をスピーカへ出力する。なお、図１には、スピーカが映像音声処理装置１００の外部に設置された構成例を示したが、本開示は何らこの構成に限定されない。映像音声処理装置１００は、スピーカを備え、そのスピーカから音声を出すように構成されてもよい。

　次に、映像音声処理装置１００で生成される表示映像について説明する。

　［１－２．表示映像］
　図２は、実施の形態１における映像音声処理装置１００で生成される表示映像の一例を模式的に示す図である。

　図２には、画面２０１に、動画２０２Ａ、動画２０２Ｂ、動画２０２Ｃが時間の経過と共に画面２０１の右から左へ移動する映像が表示される例を示す。なお、動画２０２Ａ～２０２Ｃは、映像再生部１１４で生成される複数の映像信号に対応する。動画２０２Ａ～２０２Ｃの各々は、例えば、放送番組、ユーザが録画または撮影した動画コンテンツ、または、インターネット等を経由して外部の動画サーバ等から取得された動画コンテンツ、等である。

　図２に示すように、映像音声処理装置１００で生成される表示映像では、複数の動画像（例えば、動画２０２Ａ～２０２Ｃ）を含む画像が、画面２０１の右から左方向に自動的にスクロールする。これにより、複数の動画像が、順次、画面２０１に表示される。

　なお、図示していないが、画面２０１において、動画像の表示領域外に、他の情報が表示されてもよい。他の情報は、例えば、静止画、テキスト情報、メニュー、アイコン、またはリンク情報（例えば、ＵＲＬ（Ｕｎｉｆｏｒｍ　Ｒｅｓｏｕｒｃｅ　Ｌｏｃａｔｏｒ））、等、であってもよい。

　なお、図２には、画面２０１に３つの動画２０２Ａ～２０２Ｃが表示される例を示したが、画面２０１に表示される動画像の数は、２つ以下であってもよく、４つ以上であってもよい。また、画面２０１に表示される各動画像のサイズは、互いに同じであってもよく、互いに異なっていてもよい。また、図２に示す画面２０１における動画２０２Ａ～２０２Ｃの配置位置は、単なる一例に過ぎず、各動画像は適切に配置されればよい。

　なお、図２には、映像音声処理装置１００で生成される表示映像において、複数の動画像（例えば、動画２０２Ａ～２０２Ｃ）を含む画像が、画面２０１の右から左方向にスクロールする例を示しているが、本開示は、スクロールの方向を何ら限定しない。画像は、画面２０１の左から右方向にスクロールしてもよいし、あるいは画面２０１の上から下方向または下から上方向にスクロールしてもよい。また、画像は斜め方向にスクロールしてもよい。また、図２には、画像が直線的にスクロールする動作例を示しているが、例えば波状等、所定の軌跡を描きながらスクロールしてもよい。

　また、映像音声処理装置１００で生成される表示映像においては、画面全体がスクロールしてもよいし、複数の動画像を含む、画面内の一部の領域のみがスクロールしてもよい。

　なお、映像音声処理装置１００は、例えば、ユーザ操作が一定時間行われなかった場合に、表示映像において、図２に示すような、動画像が自動的にスクロールする動作（以下、「自動スクロール動作」とも記す）を開始してもよい。また、映像音声処理装置１００は、自動スクロール動作を行っている最中にユーザ操作が行われたときに、自動スクロール動作を解除してもよい。あるいは、映像音声処理装置１００は、所定のユーザ操作を受け付けたときに、自動スクロール動作の開始、または解除、を行ってもよい。

　次に、映像音声処理装置１００で行う音声調整処理を説明する。

　［１－３．音声調整処理］
　図３は、実施の形態１における映像音声処理装置１００で行う音声調整処理の概要を模式的に示す図である。図３の（ａ）は、画面２０１に、動画２０２Ａと、動画２０２Ｂの一部と、が表示されている様子を模式的に示す図である。なお、図３の（ａ）には、画面２０１の表示領域を模式的に示しており、横軸は画面２０１の横方向（長手方向）を表し、縦軸は画面２０１の縦方向（短手方向）を表す。また、図３の（ａ）に示す例では、動画２０２Ｂの約１／３は画面２０１に表示され、約２／３は画面２０１外にあるが、動画２０２Ｂはスクロールにより左方向に徐々に移動して画面２０１に表示される面積が徐々に大きくなることを示している。図３の（ｂ）は、出音領域に含まれる動画像の音量を模式的に示す図である。図３の（ｂ）の縦軸は音量の大きさを表す。

　映像音声処理装置１００は、図３に示すように、画面２０１内に出音領域２０３を設ける。出音領域２０３とは、図３（ａ）に示す位置Ｘ１から位置Ｘ２までの領域のことであり、映像音声処理装置１００が、動画像の音声を出力する領域のことである。図３に示す例では、映像音声処理装置１００において、出音領域２０３を画面２０１の中心付近に設定しているが、本開示は、出音領域２０３を何ら図３に示す範囲に限定しない。例えば、出音領域２０３は、画面２０１の全体を覆うように設定されてもよい。

　図３に示す例では、画面２０１に、動画２０２Ａと、動画２０２Ｂの一部と、が表示され、動画２０２Ａは出音領域２０３に含まれており、動画２０２Ｂは出音領域２０３に含まれていない。この例では、映像音声処理装置１００は、出音領域２０３に含まれる動画２０２Ａを、音声を出力する対象の動画像（以下、「対象動画」とも記す）として選択する。そして、対象動画の音声の音量（以下、「音量Ｖ２」と記す）を、対象動画以外の動画像の音声の音量（以下、「音量Ｖ１」と記す）よりも大きい音量に設定する。なお、音量Ｖ１は、０（ゼロ）であってもよい。すなわち、映像音声処理装置１００は、対象動画の音声のみを出力し、対象動画以外の音声は出力しないように動作してもよい。

　図３に示すように、動画像が出音領域２０３に含まれて対象動画になると、映像音声処理装置１００は、その動画像の音量を音量Ｖ１から徐々に大きくし、音量Ｖ２にする。また、対象動画が出音領域２０３から出音領域２０３外に移動して対象動画でなくなると、映像音声処理装置１００は、その動画像の音量を音量Ｖ２から徐々に小さくし、音量Ｖ１に戻す。なお、対象動画の音量が音量Ｖ１から音量Ｖ２に達するまでの時間、および音量Ｖ２から音量Ｖ１に達するまでの時間は、ユーザが違和感を感じないようにそれぞれ適切に設定されることが望ましい。

　なお、図３に示す音量のグラフは、音量調整部１０６が元の音声信号に乗算する利得（ゲイン）を示す。

　なお、以下では、判定に用いる動画像の位置を、動画像の左端とする動作例を示す。すなわち、映像音声処理装置１００の選択部１０５は、動画像の左端が出音領域２０３に含まれると、その動画像は出音領域２０３に含まれたと判定し、動画像の左端が出音領域２０３から出音領域２０３外に移動すると、その動画像は出音領域２０３に含まれなくなったと判定する。しかし、判定に用いる動画像の位置は、何ら動画像の左端に限定されるものではない。例えば、動画像の中心が判定に用いられてもよく、または動画像の右端が判定に用いられてもよい。あるいは、それら以外の位置が判定に用いられてもよい。

　以下、２つの動画２０２Ａ、動画２０２Ｂが出音領域２０３に含まれるときの動作例を説明する。なお、以下では、音量Ｖ１が０（ゼロ）に設定された動作例を説明する。また、３つ以上の動画像が出音領域２０３に含まれるときでも、以下の説明と同様の処理を適用することができる。なお、音量Ｖ１は何ら０に限定されるものではなく、他の数値でもよい。

　２つの動画像が出音領域２０３に同時に含まれる場合、映像音声処理装置１００は、先に出音領域２０３に含まれた方の動画像の音声を出力する。また、映像音声処理装置１００は、音声を出力している動画像が出音領域２０３から出音領域２０３外に移動して出音領域２０３に含まれなくなると、音声の出力対象の動画像を、後から出音領域２０３に含まれた方の動画像に切り替える。

　すなわち、選択部１０５は、出音領域２０３に複数の動画像が含まれていれば、それら複数の動画像のうち、最も早く出音領域２０３に含まれた動画像の音声信号を選択する。また、選択部１０５は、それまで選択していた音声信号に対応する動画像が出音領域２０３から出音領域２０３外に移動して選択の対象外となったときは、その時点で出音領域２０３に含まれている複数の動画像のうち、最も早く出音領域２０３に含まれた動画像の音声信号を選択する。

　図４は、実施の形態１において２つの動画像（動画２０２Ａ、動画２０２Ｂ）が出音領域２０３に含まれるときの映像音声処理装置１００の動作の一例を模式的に示す図である。なお、図４には、画面２０１の表示映像を模式的に示しており、（ａ）、（ｂ）、（ｃ）の順に時間が経過するものとする。また、図４には動画像のスクロール方向を白抜きの矢印で示す。また、図４には、まず動画２０２Ａが出音領域２０３に含まれ、動画２０２Ａ（動画２０２Ａの左端）が出音領域２０３から出音領域２０３外に移動する前に動画２０２Ｂ（動画２０２Ｂの左端）が出音領域２０３に含まれ、その後、動画２０２Ａ（動画２０２Ａの左端）が出音領域２０３から出音領域２０３外に移動して出音領域２０３に含まれなくなるときの動作例を示す。なお、図４のスクロール方向を示す白抜きの矢印は、便宜的に示したものであり、画面２０１に表示されるわけではない。

　図５は、実施の形態１において２つの動画像（動画２０２Ａ、動画２０２Ｂ）が出音領域２０３に含まれるときの各動画像の音量の時間変化の一例を模式的に示す図である。

　まず、図４の（ａ）に、図５の時刻Ｔ１から時刻Ｔ２までの状態を示す。なお、図４、図５では、時刻Ｔ１に動画２０２Ａ（動画２０２Ａの左端）が出音領域２０３に含まれ、時刻Ｔ２に動画２０２Ｂ（動画２０２Ｂの左端）が出音領域２０３に含まれ、時刻Ｔ３に動画２０２Ａ（動画２０２Ａの左端）が出音領域２０３から出音領域２０３外に移動して出音領域２０３に含まれなくなるものとする。したがって、時刻Ｔ１から時刻Ｔ２までの期間では、動画２０２Ａは出音領域２０３に含まれ、動画２０２Ｂは出音領域２０３外にあり出音領域２０３に含まれない。この場合、映像音声処理装置１００は動画２０２Ａの音声を出力する。

　次に、図４の（ｂ）に、図５の時刻Ｔ２から時刻Ｔ３までの状態を示す。時刻Ｔ２から時刻Ｔ３までの期間は、動画２０２Ａは出音領域２０３に含まれるので、映像音声処理装置１００は、引き続き動画２０２Ａの音声を出力し、動画２０２Ｂの音声は出力しない。

　次に、図４の（ｃ）に、図５の時刻Ｔ３以降の状態を示す。時刻Ｔ３に動画２０２Ａは出音領域２０３から出音領域２０３外に移動して出音領域２０３に含まれなくなるので、映像音声処理装置１００は、時刻Ｔ３で、音声の出力対象の動画像を、動画２０２Ａから動画２０２Ｂに切り替える。このとき、映像音声処理装置１００の音量調整部１０６は、動画２０２Ａの音声を徐々に下げてフェードアウトさせ、動画２０２Ｂの音声を徐々に上げてフェードインさせる。

　すなわち、音量調整部１０６は、選択部１０５が選択する音声を他の音声に切り替えるときに、選択を外れた音声の音量を徐々に小さくするとともに、新たに選択された音声の音量を徐々に大きくする。

　次に、映像音声生成処理を説明する。

　［１－４．映像音声生成処理の流れ］
　図６は、実施の形態１における映像音声処理装置１００で実行する映像音声生成処理の一例を示すフローチャートである。

　まず、映像再生部１１４は、複数の動画コンテンツの映像データの再生を開始し、音声再生部１１５は、複数の動画コンテンツの音声データの再生を開始する（ステップＳ１０１）。

　次に、表示合成部１１７は、ステップＳ１０１で再生された複数の動画像を含む表示映像を生成する（ステップＳ１０２）。ステップＳ１０２で生成される表示映像には、例えばＯＳＤ映像が含まれていてもよい。

　次に、選択部１０５および音量調整部１０６は、初期音量設定処理を行う（ステップＳ１０３）。なお、ステップＳ１０３が実行された時点では、表示映像において画像のスクロールは開始されていない。

　ここで、ステップＳ１０３の初期音量設定処理を、図７を用いて説明する。

　図７は、実施の形態１における初期音量設定処理の一例を示すフローチャートである。

　まず、選択部１０５は、出音領域２０３内に動画像が存在するか否かを判定する（ステップＳ１２１）。

　ステップＳ１２１において、出音領域２０３内に動画像は存在しないと判定された場合（ステップＳ１２１のＮｏ）、選択部１０５は、いずれの動画像の音声も選択せず、音量調整部１０６は、いずれの動画像の音声も出力しない。

　なお、この動作は、音量Ｖ１が０に設定されたときの動作である。音量Ｖ１が０でなければ、音量調整部１０６は、出音領域２０３外の動画像の音声（すなわち、選択部１０５で選択されなかった音声）の音量を、あらかじめ設定された音量Ｖ１に調整する。

　ステップＳ１２１において、出音領域２０３内に動画像は存在すると判定された場合（ステップＳ１２１のＹｅｓ）、選択部１０５は、出音領域２０３に含まれる動画像の音声を選択する（ステップＳ１２２）。出音領域２０３内に複数の動画像が含まれていれば、選択部１０５は、それら複数の動画像のうち、表示映像のスクロールの方向にもとづき、最も早く出音領域２０３に含まれたと判断される動画像の音声を選択する。図４に示す例では、選択部１０５は、最も左側に位置する動画像の音声を選択する。

　次に、音量調整部１０６は、選択部１０５で選択された音声の音量を音量Ｖ２に設定し、選択部１０５で選択されなかった音声の音量を音量Ｖ２より小さい音量Ｖ１（例えば、０）に設定する（ステップＳ１２３）。

　そして、音量調整部１０６は、音量調整後の複数の音声信号を合成して出力音声信号を生成し、音声出力部１０７に出力する。

　以上の処理が、初期音量設定処理である。

　図６に戻り、ステップＳ１０３以降の処理を説明する。

　ステップＳ１０３の後、表示合成部１１７は、表示映像をあらかじめ定められた方向（例えば、画面２０１の右から左方向）にスクロールして、表示映像の表示位置を更新する（ステップＳ１０４）。

　次に、選択部１０５は、ステップＳ１０４で実行された処理（すなわち、表示映像における動画像の表示位置の更新）により、現在出音中の動画像が、出音領域２０３に含まれなくなったか否かを判定する（ステップＳ１０５）。ステップＳ１０５の判定は、例えば、動画像の左端が出音領域２０３に含まれているか否かに基づき、行われる。この判定基準は、後述のステップＳ１０９で行われる判定においても同様である。なお、この判定基準は一例であり、他の判定基準が設定されてもよい。

　ステップＳ１０５において、現在出音中の動画像は出音領域２０３から出音領域２０３外に移動して出音領域２０３に含まれなくなった、と判定された場合（ステップＳ１０５のＹｅｓ）、選択部１０５は、その動画像の音声の選択を解除し、音量調整部１０６は、現在出音中の動画像の音量を徐々に小さくする（ステップＳ１０６）。

　次に、選択部１０５は、出音領域２０３に、現在出音中の動画像以外の動画像（以下、「他の動画像」とも記す）が含まれているか否かを判定する（ステップＳ１０７）。

　ステップＳ１０７において、出音領域２０３に他の動画像が含まれていると判定された場合（ステップＳ１０７のＹｅｓ）、選択部１０５は、出音領域２０３に含まれる他の動画像の音声を選択する。そして、音量調整部１０６は、選択部１０５で選択された音声の音量を徐々に大きくする（ステップＳ１０８）。

　ステップＳ１０８において、他の動画像が複数であれば、選択部１０５は、それら複数の他の動画像のうち、表示映像のスクロールの方向にもとづき、最も早く出音領域２０３に含まれたと判断される動画像の音声を選択する。例えば、選択部１０５は、それら複数の他の動画像のうち、最も左側に位置する動画像の音声を選択する。

　ステップＳ１０５において、現在出音中の動画像は出音領域２０３に含まれる、と判定された場合（ステップＳ１０５のＮｏ）、または、ステップＳ１０７において、出音領域２０３に他の動画像は含まれていないと判定された場合（ステップＳ１０７のＮｏ）、または、ステップＳ１０８の後、選択部１０５は、出音領域２０３に新たな動画像が含まれたか否かを判定する（ステップＳ１０９）。

　ステップＳ１０９において、出音領域２０３に新たな動画像が含まれたと判定された場合（ステップＳ１０９のＹｅｓ）、選択部１０５は、出音領域２０３に、他の動画像が含まれているか否かを判定する（ステップＳ１１０）。すなわち、選択部１０５は、現在出音中の動画像が出音領域２０３に存在するか否かを判定する。

　ステップＳ１１０において、出音領域２０３に現在出音中の動画像は含まれていないと判定された場合（ステップＳ１１０のＮｏ）、選択部１０５は、出音領域２０３に新たに含まれた動画像の音声を選択する。そして、音量調整部１０６は、選択部１０５で選択された音声の音量を徐々に大きくする（ステップＳ１１１）。

　ステップＳ１１０において、出音領域２０３に、現在出音中の動画像が含まれていると判定された場合（ステップＳ１１０のＹｅｓ）、選択部１０５は、出音領域２０３に含まれている現在出音中の動画像の音声選択を継続する。すなわち、選択部１０５は、出音領域２０３に新たに含まれた動画像の音声を選択しない。

　次に、制御部１０３は、自動スクロール動作が継続されているか否かを判定する（ステップＳ１１２）。

　ステップＳ１１２において、自動スクロール動画は継続されていると判定された場合（ステップＳ１１２のＹｅｓ）、処理はステップＳ１０４に戻り、ステップＳ１０４以降の処理が実行される。

　ステップＳ１１２において、自動スクロール動画は終了したと判定された場合（ステップＳ１１２のＮｏ）、映像音声処理装置１００は処理を終了する。映像音声処理装置１００は、例えば、ユーザによる操作を受け付けた場合、等に処理を終了する。

　なお、実施の形態１では、ステップＳ１０８、ステップＳ１１１において音声をフェードイン（音声の音量を徐々に大きく）し、ステップＳ１０６において音声をフェードアウト（音声の音量を徐々に小さく）する動作例を説明したが、本開示は何らこの動作例に限定されない。ステップＳ１０８、ステップＳ１１１のフェードインおよびステップＳ１０６のフェードアウトの少なくとも一方は行われなくてもよい。この場合、例えば、ステップＳ１０５～ステップＳ１１１の処理の代わりに、ステップＳ１０３の初期音声設定処理と同様の処理が行われればよい。

　また、実施の形態１では、出音領域２０３に動画像の左端が含まれたときに、出音領域２０３に動画像が含まれた、と判定される動作例を説明したが、本開示は何らこの動作例に限定されない。動画像の中央または右端に基づきこの判定が行われてもよい。あるいは、その他の判定基準（例えば、動画像の面積、等）に基づきこの判定が行われてもよい。

　［１－５．効果］
　以上のように、本実施の形態における映像音声処理装置は、映像生成部と、選択部と、音量調整部と、を備える。映像生成部は、複数の動画像が表示される領域が、表示画面内を、予め定められた方向に自動的に移動する表示映像の映像信号、を生成する。選択部は、複数の動画像の表示画面内における位置に応じて、それら複数の動画像の中から１つの動画像の音声信号を選択する。音量調整部は、選択部で選択された音声信号が、他の音声信号より大きい音量で出力されるように、複数の動画像のそれぞれの音声信号の音量を調整する。

　なお、映像音声処理装置１００および後述の映像音声処理装置１００Ａは、それぞれが映像音声処理装置の一例である。映像生成部１０１は映像生成部の一例である。選択部１０５は選択部の一例である。音量調整部１０６は音量調整部の一例である。動画２０２Ａ、動画２０２Ｂ、動画２０２Ｃは、複数の動画像の一例である。画面２０１は表示画面の一例である。

　これにより、本実施の形態における映像音声処理装置は、複数の動画像が自動的にスクロールする表示映像において、一つの動画像の音声信号を選択し、その音声信号による音声がユーザに聞き取りやすいように複数の音声の音量を調整できる。すなわち、本実施の形態における映像音声処理装置は、複数の動画像が１つの表示画面内に表示されるときに、ユーザが聞き取りやすい音声を生成することができる。

　また、その映像音声処理装置において、選択部は、複数の動画像のうち、表示画面内の予め定められた出音領域に含まれる動画像の音声信号を選択してもよい。

　なお、出音領域２０３は出音領域の一例である。

　これにより、その映像音声処理装置は、ユーザに認識されやすい領域に存在する動画像の音声信号を選択して出音できる。すなわち、その映像音声処理装置は、複数の動画像の音声から１つの音声を適切に選択して出音することができる。

　また、その映像音声処理装置において、選択部は、出音領域に含まれる複数の動画像のうち、最も早く出音領域２０３に含まれた動画像の音声信号を選択してもよい。

　これにより、その映像音声処理装置は、ユーザが注目している動画像の音声が途中で他の動画像の音声に切り替わることを防止できる。

　また、その映像音声処理装置において、音量調整部は、選択部が選択する音声信号を他の音声信号に切り替えるときに、選択を外れた音声信号の音量を徐々に小さくするとともに、新たに選択された音声信号の音量を徐々に大きくしてもよい。

　これにより、その映像音声処理装置は、選択部が選択する音声信号を他の音声信号に切り替えるときに、ユーザがより聞きやすい音声の切り替えを実現することができる。

　（他の実施の形態）
　以上のように、本出願において開示する技術の例示として、実施の形態１を説明した。しかしながら、本開示における技術は、これに限定されず、変更、置き換え、付加、省略等を行った実施の形態にも適用できる。また、上記実施の形態１で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。

　そこで、以下、他の実施の形態を例示する。

　［変形例１］
　映像音声処理装置１００の音量調整部１０６は、表示映像における動画像のスクロールの速度に応じて、音声のフェードアウトに要する時間（音声を音量Ｖ２から徐々に小さくして音量Ｖ１にするまでの時間）またはフェードインに要する時間（音声を音量Ｖ１から徐々に大きくして音量Ｖ２にするまでの時間）を変更してもよい。すなわち、音量調整部１０６は、音声をフェードアウトまたはフェードインするときの単位時間当たりの音量の変化量を、表示映像における動画像のスクロールの速度に応じて変更してもよい。変形例１では、そのような動作をするように構成された映像音声処理装置１００を説明する。

　図８は、他の実施の形態の変形例１における出音領域２０３に含まれる動画像の音量の時間変化の一例を模式的に示す図である。図８の（ａ）には動画像のスクロールの速度が相対的に遅い場合の音量の時間変化を示し、図８の（ｂ）には動画像のスクロールの速度が相対的に速い場合の音量の時間変化を示す。

　図８に一例を示すように、音量調整部１０６は、動画像のスクロールの速度が相対的に遅い場合に音声のフェードアウトまたはフェードインに要する時間ｔ０を、動画像のスクロールの速度が相対的に速い場合に音声のフェードアウトまたはフェードインに要する時間ｔ１よりも長くしてもよい。

　このように、音量調整部は、選択部が選択する音声信号を他の音声信号に切り替えるときに、音声信号の音量を変化させるのに要する時間を、複数の動画像が表示画面内を移動する速さに応じて変更してもよい。

　すなわち、音量調整部は、表示映像における動画像のスクロールの速度が速いほど、選択部で選択する音声を切り替えるときの、選択を外れた音声の音量を徐々に小さくする時間、および、新たに選択された音声の音量を徐々に大きくする時間、を短くしてもよい。

　このように構成された音量調整部を備えた映像音声処理装置では、音声のフェードアウトまたはフェードインを、スクロールの速度に応じて適切に行うことができる。

　また、音量調整部１０６は、選択部１０５においてどの動画像の音声も選択されていない状態から新たな音声が選択される場合と、選択部１０５において選択される音声が切り替えられる場合とで、音声のフェードインまたはフェードアウトに要する時間を変更してもよい。例えば、音量調整部１０６は、選択部１０５において選択される音声が切り替えられる場合の音声のフェードインまたはフェードアウトに要する時間を、選択部１０５においてどの音声も選択されていない状態から新たな音声が選択される場合の音声のフェードインまたはフェードアウトに要する時間よりも短くしてもよい。このように構成された音量調整部１０６は、選択部１０５において選択される音声が切り替えられる場合に、音声を連続的に切り替えることができる。

　［変形例２］
　実施の形態１では、選択部１０５および音量調整部１０６は、複数の動画像が出音領域２０３に含まれる場合、それら複数の動画像のうち、先に出音領域２０３に含まれた動画像の音声を選択し、その音声を出力する動作例を説明した。しかし、本開示は何らこの構成に限定されない。例えば、選択部１０５および音量調整部１０６は、複数の動画像が出音領域２０３に含まれる場合、後から出音領域２０３に含まれた動画像の音声を選択し、その音声を出力するように構成されてもよい。

　すなわち、選択部１０５は、出音領域２０３に複数の動画像が含まれていれば、それら複数の動画像のうち、最も遅く出音領域２０３に含まれた動画像の音声信号を選択してもよい。言い換えると、選択部１０５は、新たな動画像が出音領域２０３に含まれたときは、その動画像の音声信号を選択するように動作してもよい。

　変形例２では、そのような動作をするように構成された映像音声処理装置１００を説明する。

　以下、２つの動画２０２Ａ、動画２０２Ｂが出音領域２０３に含まれるときの動作例を説明する。なお、以下では、音量Ｖ１が０に設定された動作例を説明する。また、３つ以上の動画像が出音領域２０３に含まれるときでも、以下の説明と同様の処理を適用することができる。なお、音量Ｖ１は何ら０に限定されるものではない。

　図９は、他の実施の形態の変形例２において２つの動画像（動画２０２Ａ、動画２０２Ｂ）が出音領域２０３に含まれるときの映像音声処理装置１００の動作の一例を模式的に示す図である。なお、図９には、画面２０１の表示映像を模式的に示しており、（ａ）、（ｂ）、（ｃ）の順に時間が経過するものとする。また、図９には動画像のスクロール方向を白抜きの矢印で示す。また、図９には、まず動画２０２Ａが出音領域２０３に含まれ、動画２０２Ａ（動画２０２Ａの左端）が出音領域２０３から出音領域２０３外に移動する前に動画２０２Ｂ（動画２０２Ｂの左端）が出音領域２０３に含まれ、その後、動画２０２Ａ（動画２０２Ａの左端）が出音領域２０３から出音領域２０３外に移動して出音領域２０３に含まれなくなるときの動作例を示す。なお、図９のスクロール方向を示す白抜きの矢印は、便宜的に示したものであり、画面２０１に表示されるわけではない。

　図１０は、他の実施の形態の変形例２において２つの動画像（動画２０２Ａ、動画２０２Ｂ）が出音領域２０３に含まれるときの各動画像の音量の時間変化の一例を模式的に示す図である。

　まず、図９の（ａ）に、図１０の時刻Ｔ１から時刻Ｔ２までの状態を示す。なお、図９、図１０では、時刻Ｔ１に動画２０２Ａ（動画２０２Ａの左端）が出音領域２０３に含まれ、時刻Ｔ２に動画２０２Ｂ（動画２０２Ｂの左端）が出音領域２０３に含まれ、時刻Ｔ３に動画２０２Ａ（動画２０２Ａの左端）が出音領域２０３から出音領域２０３外に移動して出音領域２０３に含まれなくなるものとする。したがって、時刻Ｔ１から時刻Ｔ２までの期間では、動画２０２Ａは出音領域２０３に含まれ、動画２０２Ｂは出音領域２０３外にあり出音領域２０３に含まれない。この場合、映像音声処理装置１００は動画２０２Ａの音声を出力する。

　次に、図９の（ｂ）に、図１０の時刻Ｔ２から時刻Ｔ３までの状態を示す。時刻Ｔ２から時刻Ｔ３までの期間は、動画２０２Ａは出音領域２０３に含まれるが、時刻Ｔ２で動画２０２Ｂ（動画２０２Ｂの左端）が出音領域２０３外から出音領域２０３内に移動し出音領域２０３に含まれるので、映像音声処理装置１００は、音声の出力対象の動画像を、動画２０２Ａから動画２０２Ｂに切り替える。このとき、映像音声処理装置１００の音量調整部１０６は、動画２０２Ａの音声を徐々に下げてフェードアウトさせ、動画２０２Ｂの音声を徐々に上げてフェードインさせる。

　次に、図９の（ｃ）に、図１０の時刻Ｔ３以降の状態を示す。時刻Ｔ３以降、時刻Ｔ４までの期間は、動画２０２Ｂは出音領域２０３に含まれるので、映像音声処理装置１００は、動画２０２Ｂの音声を引き続き出力する。

　図１１は、他の実施の形態の変形例２における映像音声処理装置１００で実行する映像音声生成処理の一例を示すフローチャートである。なお、図１１に示すフローチャートにおいて、ステップＳ１０１～ステップＳ１０５およびステップＳ１１２の各処理は、図６のフローチャートの同ステップに示す処理と実質的に同じなので説明を省略する。

　なお、図６のフローチャートのステップＳ１０５では、現在出音中の動画像が出音領域２０３から出音領域２０３外に移動して出音領域２０３に含まれなくなったか否かが判定される処理を説明した。しかし、図１１のフローチャートのステップＳ１０５では、出音中の動画像か否かにかかわらず、単に動画像が出音領域２０３から出音領域２０３外に移動して出音領域２０３に含まれなくなったか否かが判定される。この判定は、実施の形態１と同様に、例えば、動画像の左端が出音領域２０３に含まれているか否かに基づき行われる。これは、以下の他の変形例においても同様である。しかし、本開示は何らこの動作例に限定されない。例えば、動画像の中央または右端に基づきこの判定が行われてもよい。あるいは、その他の判定基準（例えば、動画像の面積、等）に基づきこの判定が行われてもよい。

　ステップＳ１０５において、動画像が出音領域２０３から出音領域２０３外に移動して出音領域２０３に含まれなくなった、と判定された場合（ステップＳ１０５のＹｅｓ）、選択部１０５は、出音領域２０３に他の動画像が含まれているか否かを判定する（ステップＳ１０６Ａ）。

　ステップＳ１０６Ａにおいて、出音領域２０３に他の動画像は含まれていないと判定された場合（ステップＳ１０６ＡのＮｏ）、ステップＳ１０５で出音領域２０３から出音領域２０３外に移動して出音領域２０３に含まれなくなったと判定された動画像は、現在出音中の動画像である。したがって、選択部１０５は、出音領域２０３から出音領域２０３外に移動して出音領域２０３に含まれなくなった動画像の音声選択を解除する。そして、音量調整部１０６は、選択部１０５で選択を解除された音声の音量を徐々に小さくする（ステップＳ１０７Ａ）。

　なお、ステップＳ１０６Ａにおいて、出音領域２０３に他の動画像が含まれていると判定された場合（ステップＳ１０６ＡのＹｅｓ）、図１１に示すフローチャートでは、ステップＳ１０５で出音領域２０３から出音領域２０３外に移動して出音領域２０３に含まれなくなったと判定された動画像は、現在出音中の動画像ではない。したがって、選択部１０５および音量調整部１０６は、選択中の音声を変更せず（音声の選択切り替えを行わず）、現在の状態を継続する。

　ステップＳ１０５において、動画像は出音領域２０３から出音領域２０３外に移動していないと判定された場合（ステップＳ１０５のＮｏ）、または、ステップＳ１０６Ａにおいて、出音領域２０３に他の動画像が含まれていると判定された場合（ステップＳ１０６ＡのＹｅｓ）、または、ステップＳ１０７Ａの後、選択部１０５は、出音領域２０３に新たな動画像が含まれたか否かを判定する（ステップＳ１０８Ａ）。

　ステップＳ１０８Ａにおいて、出音領域２０３に新たな動画像が含まれたと判定された場合（ステップＳ１０８ＡのＹｅｓ）、選択部１０５は、出音領域２０３に新たに含まれた動画像の音声を選択する。そして、音量調整部１０６は、選択部１０５で新たに選択された音声の音量を徐々に大きくする（ステップＳ１０９Ａ）。

　次に、選択部１０５は、新たに出音領域２０３に含まれた動画像以外の動画像（他の動画像）が出音領域２０３に含まれているか否かを判定する（ステップＳ１１０Ａ）。

　ステップＳ１１０Ａにおいて、出音領域２０３に他の動画像が含まれていると判定された場合（ステップＳ１１０ＡのＹｅｓ）は、新たに出音領域２０３に含まれた動画像以外に、現在出音中の動画像が出音領域２０３に存在することになる。したがって、選択部１０５は、出音領域２０３に新たに含まれた動画像以外の、現在出音中の動画像の音声選択を解除する。そして、音量調整部１０６は、選択部１０５で選択を解除された音声の音量を徐々に小さくする（ステップＳ１１１Ａ）。

　このように、選択部は、出音領域に含まれる複数の動画像のうち、最も遅く出音領域に含まれた動画像の音声信号を選択してもよい。

　このように構成された映像音声処理装置では、常に、新たに出音領域に含まれる動画像の音声を出音することができる。

　［変形例３］
　変形例３では、スクロールする複数の動画像間の距離が相対的に短い場合の、映像音声処理装置１００の動作を説明する。

　選択部１０５は、選択部１０５が選択中の音声信号に対応する動画像が出音領域２０３から出音領域２０３外に移動して出音領域２０３に含まれなくなるときに、出音領域２０３に設定された遷移対象領域２０４（図１２参照）に含まれない動画像の音声信号は、次の選択の対象外としてもよい。

　以下、２つの動画２０２Ａ、動画２０２Ｂが出音領域２０３に含まれるときの動作例を説明する。３つ以上の動画像が出音領域２０３に含まれるときでも、以下の説明と同様の処理を適用することができる。

　図１２は、他の実施の形態の変形例３における音声調整処理の概要を模式的に示す図である。

　図１２に一例を示すように、動画２０２Ａから動画２０２Ｂまでの距離が相対的に短い場合、選択部１０５で選択される音声が、動画２０２Ａの音声から動画２０２Ｂの音声に切り替わった後、直ちに動画２０２Ｂは出音領域２０３から出音領域２０３外に移動してしまう。そのため、動画２０２Ｂの音声が出力される期間は相対的に短期間になる。

　このような状態の発生を防止するために、図１２に一例を示すように、遷移対象領域２０４を、動画像のスクロール方向にもとづき、出音領域２０３内に設けてもよい。本変形例では、出音領域２０３内の、スクロールする動画像の出口側の領域を除く領域を遷移対象領域２０４に設定する。図１２に示す例では、出音領域２０３の右側の領域を遷移対象領域２０４とする。

　遷移対象領域２０４とは、以下のように設定された領域である。すなわち、選択部１０５は、動画２０２Ａが出音領域２０３から出音領域２０３外に移動して出音領域２０３に含まれなくなるときに、動画２０２Ｂが遷移対象領域２０４に含まれていれば、動画２０２Ｂの音声を選択する。しかし、動画２０２Ｂが遷移対象領域２０４に含まれていなければ、動画２０２Ｂの音声を選択しない。

　図１３は、他の実施の形態の変形例３における映像音声処理装置１００で実行する映像音声生成処理の一例を示すフローチャートである。なお、図１３のフローチャートに示す各処理は、図６のフローチャートに示す各処理と比較して、ステップＳ１０７がステップＳ１０７Ｂに置き換えられている点が異なる。しかし、この点を除き、両者は実質的に同じであるので、詳細な説明は省略し、ステップＳ１０７Ｂの処理のみを説明する。

　選択部１０５は、遷移対象領域２０４に、現在出音中の動画像以外の動画像が含まれているか否かを判定する（ステップＳ１０７Ｂ）。

　ステップＳ１０７Ｂにおいて、遷移対象領域２０４に、現在出音中の動画像以外の動画像が含まれていると判定された場合（ステップＳ１０７ＢのＹｅｓ）は、図６のフローチャートに示すステップＳ１０８と同様のステップＳ１０８が実行される。

　ステップＳ１０７Ｂにおいて、遷移対象領域２０４に、現在出音中の動画像以外の動画像は含まれていないと判定された場合（ステップＳ１０７ＢのＮｏ）は、図６のフローチャートに示すステップＳ１０９と同様のステップＳ１０９が実行される。

　このように、選択部１０５は、例えば、出音領域２０３に２つの動画像が含まれ、そのうちの一方の動画像（先に出音領域２０３に含まれた動画像）が出音領域２０３から出音領域２０３外に移動したときに、他方の動画像（後に出音領域２０３に含まれた動画像）が遷移対象領域２０４に含まれていれば、他方の動画像の音声を選択し、他方の動画像が遷移対象領域２０４に含まれていなければ、他方の動画像の音声を選択しない、という動作をしてもよい。この動作は、出音領域２０３に２つの動画像が含まれ、そのうちの一方の動画像が出音領域２０３から出音領域２０３外に移動したときに、他方の動画像が予め定められた時間以内に出音領域２０３から出音領域２０３外に移動する場合には、他方の動画像を選択しない、と言い換えることができる。

　このように、選択部は、選択部が選択中の音声信号に対応する動画像が出音領域から出音領域２０３外に移動して出音領域２０３に含まれなくなったときに、出音領域に設定された遷移対象領域に含まれない動画像は次の選択の対象外としてもよい。

　なお、遷移対象領域２０４は遷移対象領域の一例である。

　このように構成された映像音声処理装置では、スクロールする複数の動画像間の距離が相対的に短い場合に、後から出音領域に含まれた動画像の音声が短期間だけ出力される、という現象が生じることを防止することができる。

　［変形例４］
　実施の形態１では、音量の表示について特に触れなかったが、映像生成部は、選択部によって選択された音声信号の音量を示すアイコンを生成してもよい。

　例えば、表示画面内をスクロールする動画像のそれぞれに、各動画像の音量を示すアイコンを重畳して表示してもよい。

　変形例４では、表示画面内をスクロールする動画像のそれぞれに、各動画像の音量を示すアイコンを重畳して表示するように構成された映像音声処理装置１００Ａを説明する。

　図１４は、他の実施の形態の変形例４における映像音声処理装置１００Ａの一構成例を示すブロック図である。

　映像音声処理装置１００Ａは、映像生成部１０１Ａと、操作受付部１０２と、制御部１０３と、映像出力部１０４と、選択部１０５と、音量調整部１０６と、音声出力部１０７と、を備える。

　映像生成部１０１Ａは、選局部１１１と、放送信号分離部１１２と、コンテンツデータ分離部１１３と、映像再生部１１４と、音声再生部１１５と、ＯＳＤ生成部１１６と、表示合成部１１７Ａと、を備える。

　なお、図１４に示す映像音声処理装置１００Ａは、図１に示す映像音声処理装置１００と比較して、映像生成部１０１Ａの表示合成部１１７Ａの機能が、映像生成部１０１の表示合成部１１７の機能と異なる。しかし、この点を除き、両者は実質的に同じであるので、詳細な説明は省略し、表示合成部１１７Ａのみを説明する。

　図１４に示す映像音声処理装置１００Ａの表示合成部１１７Ａは、図１に示す映像音声処理装置１００の表示合成部１１７が有する機能に加え、さらに、表示画面内をスクロールする動画像の音量を示すアイコンを生成して各動画像に重畳して表示する機能を有する。

　表示合成部１１７Ａが生成する、動画像の音量を示すアイコンの一例を、図１５に示す。

　図１５は、他の実施の形態の変形例４における表示映像の一例を模式的に示す図である。

　図１５に示す例では、表示合成部１１７Ａは、動画２０２Ａの音量を示すアイコンとしてアイコン２０５Ａを生成し、動画２０２Ｂの音量を示すアイコンとしてアイコン２０５Ｂを生成する。そして、表示合成部１１７Ａは、動画２０２Ａにはアイコン２０５Ａを重畳し、動画２０２Ｂにはアイコン２０５Ｂを重畳し、それらを互いに合成して表示映像信号を生成する。

　したがって、画面２０１には、アイコン２０５Ａが重畳された動画２０２Ａ、およびアイコン２０５Ｂが重畳された動画２０２Ｂ、がそれぞれ表示され、それらの動画像が画面２０１内を右から左にスクロールする。

　図１５に示す例では、表示合成部１１７Ａは、音量の大きさに応じた大きさでアイコンを生成する。すなわち、表示合成部１１７Ａは、音量が相対的に大きい動画像には、相対的に大きいアイコンを生成してその動画像に重畳し、音量が相対的に小さい動画像には、相対的に小さいアイコンを生成してその動画像に重畳する。したがって、ユーザは、例えば図１５に示す例では、画面２０１に表示されたアイコン２０５Ａとアイコン２０５Ｂとを見比べることで、現在出力されている音声は動画２０２Ａの音声であることを、容易に理解できる。

　なお、本開示は、何ら図１５に示す動作例に限定されない。例えば、表示合成部１１７Ａは、選択部１０５で選択された音声に関してのみ音量を示すアイコンを生成し、選択部１０５で選択されていない音声に関しては音量を示すアイコンを生成しなくてもよい。図１５に示す例では、表示合成部１１７Ａは、動画２０２Ａのアイコン２０５Ａのみを画面２０１に表示し、動画２０２Ｂのアイコン２０５Ｂは画面２０１に表示しなくてもよい。その場合、ユーザは、画面２０１に表示されたアイコン２０５Ａを見ることで、現在出力されている音声は動画２０２Ａの音声であることを、容易に理解できる。

　また、表示合成部１１７Ａは、音量の大きさを、アイコンの大きさでなく、アイコンの色で表してもよい。

　また、表示合成部１１７Ａは、音声のフェードイン時、または音声のフェードアウト時に、その効果に連動してアイコンのデザインを変更してもよい。

　また、表示合成部１１７Ａは、音量の大きさを示すアイコンを、動画像がそのアイコンで隠れないように、動画像の上でなく、動画像の周辺に表示してもよい。

　このように、映像生成部は、選択部によって選択された音声信号の音量を示すアイコンを生成してもよい。これにより、ユーザは、表示画面をスクロールする動画像の音量を視覚的に確認することができる。

　以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。

　したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。

　また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。

　例えば、これらの全般的または具体的な態様は、装置、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭ等の記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

　また、上記実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

　また、上記で用いた数字は、全て本開示を具体的に説明するために例示するものであり、本開示は例示された数字に制限されない。

　また、ブロック図における機能ブロックの分割は一例であり、複数の機能ブロックを一つの機能ブロックとして実現したり、一つの機能ブロックを複数に分割したり、一部の機能を他の機能ブロックに移してもよい。また、類似する機能を有する複数の機能ブロックの機能を単一のハードウェアまたはソフトウェアが並列または時分割に処理してもよい。

　また、上記のフローチャートに示す複数のステップが実行される順序は、本開示を具体的に説明するために例示するためのものであり、上記以外の順序であってもよい。また、上記ステップの一部が、他のステップと同時（並列）に実行されてもよい。

　本開示は、映像音声処理装置に適用可能である。具体的には、テレビ、レコーダ、パーソナルコンピュータまたはタブレット端末装置などに、本開示は適用可能である。

１００，１００Ａ　　映像音声処理装置
１０１，１０１Ａ　　映像生成部
１０２　　操作受付部
１０３　　制御部
１０４　　映像出力部
１０５　　選択部
１０６　　音量調整部
１０７　　音声出力部
１１１　　選局部
１１２　　放送信号分離部
１１３　　コンテンツデータ分離部
１１４　　映像再生部
１１５　　音声再生部
１１６　　ＯＳＤ生成部
１１７，１１７Ａ　　表示合成部
１３１　　アンテナ
１３２　　記憶装置
２０１　　画面
２０２Ａ，２０２Ｂ，２０２Ｃ，Ａ，Ｂ，Ｃ　　動画
２０３　　出音領域
２０４　　遷移対象領域
２０５Ａ，２０５Ｂ　　アイコン

Claims

複数の動画像が表示される領域が、表示画面内を予め定められた方向に自動的に移動する表示映像の映像信号を生成する映像生成部と、
複数の前記動画像の前記表示画面内における位置に応じて、複数の前記動画像の中から１つの動画像の音声信号を選択する選択部と、
前記選択部で選択された音声信号が、他の音声信号より大きい音量で出力されるように、複数の前記動画像のそれぞれの音声信号の音量を調整する音量調整部と、を備える、
映像音声処理装置。
前記選択部は、複数の前記動画像のうち、前記表示画面内の予め定められた出音領域に含まれる動画像の音声信号を選択する、
請求項１に記載の映像音声処理装置。
前記選択部は、前記出音領域に含まれる前記複数の動画像のうち、最も早く前記出音領域に含まれた動画像の音声信号を選択する、
請求項２に記載の映像音声処理装置。
前記選択部は、前記出音領域に含まれる前記複数の動画像のうち、最も遅く前記出音領域に含まれた動画像の音声信号を選択する、
請求項２に記載の映像音声処理装置。
前記選択部は、前記選択部が選択中の音声信号に対応する動画像が前記出音領域から前記出音領域外に移動して前記出音領域に含まれなくなるときに、前記出音領域に設定された遷移対象領域に含まれない動画像は次の選択の対象外とする、
請求項３に記載の映像音声処理装置。
前記音量調整部は、前記選択部が選択する音声信号を他の音声信号に切り替えるときに、前記選択を外れた音声信号の音量を徐々に小さくするとともに、新たに前記選択がなされた音声信号の音量を徐々に大きくする、
請求項１に記載の映像音声処理装置。
前記音量調整部は、前記選択部が選択する音声信号を他の音声信号に切り替えるときに、音声信号の音量を変化させるのに要する時間を、複数の前記動画像が前記表示画面内を移動する速さに応じて変更する、
請求項６記載の映像音声処理装置。
前記映像生成部は、前記選択部によって選択された音声信号の音量を示すアイコンを生成する、
請求項１に記載の映像音声処理装置。
複数の動画像が表示される領域が、表示画面内を予め定められた方向に自動的に移動する表示映像の映像信号を生成し、
複数の前記動画像の前記表示画面内における位置に応じて、複数の前記動画像の中から１つの動画像の音声信号を選択し、
前記選択がなされた音声信号が、他の音声信号より大きい音量で出力されるように、複数の前記動画像のそれぞれの音声信号の音量を調整する、
映像音声処理方法。
請求項９記載の映像音声処理方法をコンピュータに実行させるための、
プログラム。