JPWO2015097818A1

JPWO2015097818A1 - テレビシステムとサーバ装置及びテレビ装置

Info

Publication number: JPWO2015097818A1
Application number: JP2015554405A
Authority: JP
Inventors: 直希山梨
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2013-12-26
Filing date: 2013-12-26
Publication date: 2017-03-23
Anticipated expiration: 2033-12-26
Also published as: US20160148623A1; WO2015097818A1; US10102867B2; JP6290260B2

Abstract

実施の形態によれば、サーバ装置が、複数のコンテンツを選択的に提供するコンテンツ提供手段と、前記コンテンツの音響信号から音声成分と非音声成分を分離して別々の音量に設定する音源分離手段とを備え、前記サーバ装置とネットワークを通じて接続されるテレビ装置が、前記サーバ装置のコンテンツ提供手段に前記コンテンツの選択を指示すると共に、前記音源分離手段に対して音源分離の処理実行を指示する指示手段と、前記指示に応答して前記サーバ装置から提供されるコンテンツを再生する再生手段とを備える。

Description

この発明の実施の形態は、サーバ装置から提供されるコンテンツをテレビ装置にて再生するテレビシステムに係り、特に音響信号を再生する処理に関する。

近年、音響信号の再生技術にあっては、音声と非音声（背景音）とを分離して別々に音量を設定する音源分離処理が実用化され、テレビ装置において、音声再生のオプションとして、音源分離機能の搭載が検討されている。この音源分離機能は、音響信号の音源となっている音声成分と非音声成分とに、指定の割合で分離し再生することができる。この機能は、コンテンツの内容に応じて背景音を下げて音声を明瞭にしたり、音声を消去してカラオケとして利用したりすることができ、視聴者毎のニーズに合わせた音響再生が可能となる。

しかしながら、テレビ装置に音源分離機能を搭載すると、テレビ装置のコストアップにつながる。そこで、テレビ装置の外部で音源分離処理を実行させることが要望されている。

以上述べたように、テレビ装置に音源分離機能を搭載すると、テレビ装置のコストアップにつながる。

そこで、テレビ装置の外部で音源分離処理を実行させることのできるテレビシステムとサーバ装置及びテレビ装置を提供することを目的とする。

上記の構成によるテレビシステムは、テレビ装置からの要求に応じてサーバ装置側で音響信号の音源分離処理を実行して、要求元のテレビ装置に提供することができる。これにより、テレビ装置の外部で音源分離処理を実行させることのできるテレビシステムとサーバ装置及びテレビ装置を提供することができる。

実施の形態に係るテレビシステムの構成を示すブロック図である。図１に示すシステムに用いられる音源分離処理部の構成を示す機能ブロック図である。図２に示す音源分離処理部の機能を説明するための図である。図１に示すシステムにおいて、音源分離処理を実行する際のテレビ装置とサーバ装置との処理手順を示すシーケンス図である。図１に示すシステムにおいて、テレビ装置側で音源分離処理の処理指示をサーバ装置に通知するためのメニュー画面を示す図である。

以下、実施の形態について図面を参照して詳細に説明する。

図１は、実施の形態に係わるテレビシステムを概略的に示すブロック図である。図１に示すように、このシステムは、サーバ装置１１とテレビ装置１２とをネットワーク１３を通じて接続した構成である。図では１台のテレビ装置１２をネットワーク１３に接続しているが、システムとして複数台のテレビ装置を接続した構成であってもよい。また、以下の説明において、音声コンテンツは音声を含むファイルを意味し、コンテンツとして映像を含む場合もあるが、ここでは説明を簡単にするため、映像の処理については省略する。

図１において、サーバ装置１１はネットワークと接続され、テレビ装置１２との間でデータの送受信を行う受信部１１１及び送信部１１２を備える。また、記録部１１３、コンテンツ処理部１１４及びモニタ出力部１１５を備える。

上記記録部１１３は、テレビ番組等のコンテンツを蓄積するためのハードディスク等の記録装置を備える。上記コンテンツ処理部１１４は、上記受信部１１２を通じてネットワーク上のテレビ装置１２から送信される指示データを受け取り、その指示データに基づいて記録部１１３から該当するコンテンツを読み出してストリームデータにデコード処理を行う。そして、その処理の一機能として音源分離部１１４Ａを備える。

この音源分離部１１４Ａは、上記指示データ中の音源制御指示に応じて、デコードされた音響信号の音源を解析し、音声と非音声に分離し、指定の比率で音量を設定し出力する。上記出力部１１５は、コンテンツ処理部１１４でデコードされたストリームデータをモニタ出力する。また、コンテンツ処理部１１４で得られたストリームデータは送信部１１２を通じて要求元のテレビ装置１２に送られる。

上記テレビ装置１２は、デジタル放送受信用チューナ１２２を搭載する。このチューナ１２２は、図中のアンテナ１２１で受信したＢＳ，ＣＳ，地上波等のデジタル放送のうち、ユーザが指示した視聴用のチャンネルＣＨを選局し復調する。復調されたチャンネルの放送信号は信号処理部１２３で様々なデジタル信号として取り出され処理される。映像信号は映像処理部１２４で正しい画面サイズに調整され、表示処理部１２５でさらに文字情報等グラフィックが重ねられてディスプレイ表示部１２６にて画面表示される。また、音声信号は音声処理部１２７で音響処理して増幅され、スピーカ１２８で音声として出力される。

前記１２２，１２３，１２４，１２５，１２７といったデバイスは、ＩＩＣ−ＢＵＳといった通信ライン１２９を介して制御部（マイコン）１２１０でコントロールされており、データの授受を行っている。またテレビ装置１２には他にＲＡＭ１２１１、ＲＯＭ１２１２、キーボード１２１３、リモコン１２１４から信号を受信する受光部（リモコン受信）１２１５が接続されており、それぞれ信号やデータの授受を行っている。またこのテレビ装置１２は、ＬＡＮ端子１２１６、無線ＬＡＮ送受信部１２１７、Ｂｌｕｅｔｏｏｔｈ送受信部１２１８を持っており、外部とネットワーク通信してリモコン１２１４と同様にテレビをコントロールすることができる。このテレビ装置１２は、音声処理部１２７に音源分離機能を持たないが、サーバ装置１１に搭載される音源分離部１１４Ａに音源分離処理を指示するための音源分離指示機能を備える。

上記構成において、上記サーバ装置１１に搭載される音源分離部１１４Ａについて具体的に説明する。
本実施形態の音源分離部１１４Ａは、非負行列因子分解を用いた技術であり、非音声信号が含まれる蓋然性が高い区間における音響信号のスペクトログラム（スペクトル特徴）から、非音声信号の特徴を表す第１の基底行列を作成する。そして、音声信号が含まれる尤もらしさを表す音声尤度を利用して、第１の基底行列から音声信号との関連性が高い成分を除外して第２の基底行列を作成する。この第２の基底行列を用いて音声信号の特徴を表す第３の基底行列と第１の係数行列を計算し、第３の基底行列と第１の係数行列の積により、音声信号のスペクトログラムを推定する。最後に、推定された音声信号のスペクトログラムを時間信号に変換することで、音響信号から音声信号を分離する。

このように、本実施形態の音源分離部１１４Ａは、作成された非音声信号の第１の基底行列から音声信号との関連性が高い成分を除外した第２の基底行列を作成する。これにより、非音声信号の特徴を正確に表す基底行列を作成することができ、結果として、音声信号の分離性能を向上させることができる。

図２は上記音源分離部１１４Ａの構成を示すブロック図である。この音源分離部１１４Ａは、音響取得部Ａ１と、尤度計算部Ａ２と、音声・非音声判別部Ａ３と、スペクトル特徴抽出部Ａ４と、第１基底行列作成部Ａ５と、第２基底行列作成部Ａ６と、スペクトル特徴推定部Ａ７と、逆変換部Ａ８とを備える。

上記音響取得部Ａ１は、音声信号と非音声信号を含んだ音響信号を取得する。上記尤度計算部Ａ２は、音響信号から音声信号および非音声信号の特徴を表す音響特徴を抽出し、この音響特徴を利用して、音響信号に音声信号が含まれる尤もらしさを表す音声尤度と非音声信号が含まれる尤もらしさを表す非音声尤度を計算する。上記音声・非音声判別部Ａ３は、音声尤度と非音声尤度を利用して、音響信号の所定区間ごとに音声・非音声を判別する。上記スペクトル特徴抽出部Ａ４は、音響信号をフーリエ変換してスペクトログラムを抽出する。上記第１基底行列作成部Ａ５は、非音声信号と判別された区間の音響信号から抽出されたスペクトログラムを利用して、非音声信号の特徴を表す第１の基底行列を作成する。

上記第２基底行列作成部Ａ６は、音声尤度を利用して、第１の基底行列から音声信号との関連性が高い列ベクトルの成分を除外して第２の基底行列を作成する。上記スペクトル特徴推定部Ａ７は、スペクトログラムを前記第２の基底行列を用いて非負行列因子分解することにより、音声信号の特徴を表す第３の基底行列および第１の係数行列を計算し、この第３の基底行列および第１の係数行列の積により、音響信号に含まれる音声信号のスペクトログラムを推定する。上記逆変換部Ａ８は、推定された音声信号のスペクトログラムを逆フーリエ変換により時間信号に変換する。

上記構成による音源分離部１１４Ａにおいて、音響取得部Ａ１は、記録部１１３から読み出される音響信号または受信部１１１によって接続されたテレビ装置１２から送信される音響信号を取得する。

尤度計算部Ａ２は、音響取得部Ａ１で取得された音響信号から、音声信号および非音声信号の特徴を表す音響特徴を抽出する。そして、この音響特徴を利用して、音響信号に音声信号が含まれる尤もらしさ（音声尤度）および非音声信号が含まれる尤もらしさ（非音声尤度）を計算する。

具体的には、尤度計算部Ａ２は、音響信号を長さ２５ｍｓ（４００サンプル）、間隔８ｍｓ（１２８サンプル）のフレームに分割する。フレーム分割にはハミング窓を使用する。次に、各フレームから音響特徴を抽出する。音響特徴としては、各フレームの音響信号をフーリエ変換して得られるスペクトルだけでなく、ＬＰＣケプストラムやＭＦＣＣ等のケプストラム系の特徴量を用いることができる。そして、抽出された音響特徴を予め学習した音声モデルおよび非音声モデルと照合して、各フレームの音声尤度および非音声尤度を計算する。

音声・非音声判別部Ａ３は、尤度計算部Ａ２で計算されたフレーム毎の音声尤度および非音声尤度を用いて、所定区間ごとに音声信号が音声であるか非音声であるかを判別する。本実施形態では、所定区間の長さを４００ｍｓ（５０フレーム分）に設定する。音声・非音声判別部Ａ３は、５０フレーム分の音声尤度および非音声尤度の平均値を計算し、その大小を比較することで音声・非音声を判別する。この他にも、各平均値を予め設定した閾値と比較して音声・非音声を判別してもよい。

スペクトル特徴抽出部Ａ４は、音響信号を長さ２５ｍｓ（４００サンプル）、間隔８ｍｓ（１２８サンプル）のフレームに分割し、各フレームの音響信号をフーリエ変換（周波数解析）してスペクトルを抽出する。なお、本実施形態では、各フレームに対して１１２点の零詰めを行った後、５１２点の離散フーリエ変換を実行する。

１基底行列作成部Ａ５は、スペクトル特徴抽出部Ａ４で抽出された複数フレームのスペクトル（スペクトログラム）を利用して、非音声信号の特徴を表す第１の基底行列Ｈを作成する。ここで本実施形態では、音声・非音声判別部Ａ３において非音声と判別された区間の音響信号から抽出されたスペクトログラムを利用して、第１の基底行列Ｈを作成する。

第１基底行列作成部Ａ５は、まず、Ｔ個のフレームから抽出した各Ｆ次元のスペクトルの全要素を格納した行数Ｆ、列数Ｔの行列Ｚを作成する。次に、この行列Ｚを、行数Ｆ・列数Ｄの第１の基底行列Ｈと、行数Ｄ・列数Ｔの係数行列Ｕの積で近似する。ここで、Ｄは基底の数を表し、経験的に３２に設定する。第１の基底行列Ｈと係数行列Ｕの導出は、第１の基底行列Ｈと係数行列Ｕの積と行列Ｚの二乗誤差を基準とした反復法により行う。この際、第１の基底行列Ｈおよび係数行列Ｕの初期行列には、ランダム値を用いることができる。

第２基底行列作成部Ａ６は、尤度計算部Ａ２で計算された音声尤度を利用して、第１の基底行列Ｈから音声信号との関連性が高い列ベクトルの成分を除外した第２の基底行列Ｂを作成する。これにより、非音声信号の特性を表す第２の基底行列Ｂを正確に作成することができる。

スペクトル特徴推定部Ａ７は、スペクトル特徴抽出部Ａ４で抽出されたスペクトル特徴を第２の基底行列Ｂを用いて非負行列因子分解することにより、音声信号の特徴を表す第３の基底行列Ｍおよび第１の係数行列Ｖを計算する。そして、この第３の基底行列Ｍと第１の係数行列Ｖの積を取ることにより、音響信号に含まれる音声信号のスペクトル特徴を推定する。

逆変換部Ａ８は、推定された音声信号のスペクトログラムを離散逆フーリエ変換することにより時間信号に変換する。これにより、音響信号から音声信号を分離することができる。

上記構成による音源分離部１１４Ａは、図３に示すように、通常モード（音声・非音声の音量を均等にする）、音声モード（非音声を完全に抑圧）、カラオケモード(音声を完全に抑圧）の機能を有する。このように、複数段階の音量調整モードを備えることで、ユーザがテレビ装置１２を通じてサーバ装置１１に各モードをいずれかを選択するように指示する、あるいはその比率を指示することが可能である。

図１に示すシステムにおいて、図４に示すシーケンス図を参照して、音源分離処理を実行する際のテレビ装置とサーバ装置との処理手順を説明する。

まず、テレビ装置１２において、起動時に、あるいは定期的に、あるいはデバイスリストを開くときに、サーバ装置１１に搭載機能の一覧を示すサーバ管理情報を要求する。サーバ装置１１は、要求に応答して、音源分離機能を含むサーバ管理情報をテレビ装置１２に送り返す。テレビ装置１２は、サーバ管理情報を取得すると、その情報に示される機能一覧をメニュー画面に表示する。

ここで、ユーザの操作により、テレビ装置１２からサーバ装置１１にコンテンツリストが要求されると、サーバ装置１１は記録部１１３に記録されるコンテンツのリストを作成してテレビ装置１２に送り返す。

テレビ装置１２は、コンテンツリストを受け取ると、そのリストに基づいてコンテンツ選択画面を表示する。このとき、オプションとして、音源分離機能を利用するためのメニュー画面（図３に示す複数段階の音量調整モードを表示）も提示する。メニュー画面の一例を図５に示す。ユーザがその選択画面から任意のコンテンツと音量調整モードのいずれかを選択操作すると、そのコンテンツの再生要求が音源分離モードの選択指示と共にサーバ装置１２に送られる。サーバ装置１２は、コンテンツ再生要求と音量調整モードの選択指示を受けると、該当するコンテンツを読み出し、ストリームデータに変換する。このとき、音量調整モードが選択指示されている場合には、読み出されたコンテンツをストリームデータに変換する際に、対応する音源分離処理を実行し、指定モードに対応する比率で音量を設定する。このようにして生成されたストリームデータを要求元のテレビ装置１２に送出する。

テレビ装置１２は、要求したコンテンツのストリームデータを受けると、そのストリームデータを再生出力する。この状態で、ユーザの音量調整モードの変更指示があった場合、その変更指示はサーバ装置１１に通知され、サーバ装置１１はその変更指示に基づいて音源分離処理における音量調整モードを変更し、モード変更指示に応じた比率の音量でストリームデータを生成しテレビ装置１２に送信する。

以上の処理により、テレビ装置１２が音源分離機能を搭載していなくても、サーバ装置１１が音源分離機能を有しているので、テレビ装置１２のコストアップを抑圧しつつ、音源分離機能を利用したいユーザのニーズにも対応することができる。

このとき、本実施形態では、サーバ装置１１は音源分離機能を有することを示す情報をネットワーク経由で提供するようにすることで、クライアント側のテレビ装置１２では、サーバ装置１１が音源分離機能を搭載しており、その機能を利用できることがユーザに知らせることができる。

この場合、クライアント側のテレビ装置１２は、サーバ装置１１が音源分離機能を有することを判別し、サーバ装置１１の録画番組をネットワーク経由で再生する際に、音源分離設定（人声とその他音を別々に音量設定）を行うＧＵＩを表示する。そして、ユーザのＧＵＩ表示に対する操作に応じて、設定された音源分離設定をサーバ装置１１へ送る。これにより、サーバ装置１１は、テレビ装置１２から送られてきた音源分離設定に応じて、音源分離機能で音量調整したストリームをクライアントのテレビ装置１２へ配信することができる。

尚、上記の実施形態では、ストリームでコンテンツを提供する場合について説明したが、ダウンロードで行う場合でも同様に実施可能である。また、クライアント側のテレビ装置が音源分離機能を有する場合には、搭載している音源分離機能で音量調整したストリームをサーバ装置１１へアップロードしておけば、他の音源分離機能を有していないテレビ装置で音源分離されたストリームを視聴することが可能となる。すなわち、この場合は、音源分離機能を備えるテレビ装置がサーバ装置として機能することになる。

また、上記音源分離機能を有するテレビ装置において、音源分離機能で音源分離されたストリームをサーバ装置１１にアップロードする際に、サーバ装置１１が音源分離機能を有している場合には、テレビ装置１２側で音源分離機能による音量調整を行わないでアップロードするようにしてもよい。

その他、上記実施形態では、初期段階で、テレビ装置１２からの要求に応じてサーバ装置１１からサーバ管理情報を提示するようにしたが、テレビ装置１２が最初からサーバ装置１１を利用する機能としてプリセットされているようにしても、同様に実施可能である。

なお、この発明は上記した実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を種々変形して具体化することができる。また、上記した実施の形態に開示されている複数の構成要素を適宜に組み合わせることにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除しても良いものである。さらに、異なる実施の形態に係る構成要素を適宜組み合わせても良いものである。

実施の形態によれば、サーバ装置が、複数のコンテンツを指示に応じて選択的に提供するコンテンツ提供手段と、前記提供するコンテンツの音響信号を指示に応じて非負行列因子分解処理によって音声成分の音源と非音声成分の音源に分離し、それぞれの音源の音量を指示に応じて設定する音源分離手段とを備え、前記サーバ装置とネットワークを通じて接続されるテレビ装置が、前記サーバ装置のコンテンツ提供手段に対して前記コンテンツの選択を指示すると共に、前記音源分離手段に対して前記音源の分離及び音量の設定の処理実行を指示する指示手段と、前記指示に応答して前記サーバ装置から提供されるコンテンツを再生する再生手段とを備え、前記非負行列因子分解処理は、前記非音声信号が含まれる蓋然性が高い区間における音響信号のスペクトログラムから、前記非音声信号の特徴を表す第１の基底行列を作成し、前記第１の基底行列から前記音声信号との関連性が高い成分を除外することで前記非音声信号の特徴を正確に表す第２の基底行列を作成し、前記第２の基底行列を用いて前記音響信号の前記音声信号の特徴を表す第３の基底行列と第１の係数行列を計算し、前記第３の基底行列と前記第１の係数行列の積により前記音声信号のスペクトログラムを推定し、推定された前記音声信号のスペクトログラムを時間信号に変換することで前記音響信号から前記音声信号を分離する。

Claims

複数のコンテンツを選択的に提供するコンテンツ提供手段と、前記コンテンツの音響信号から音声成分と非音声成分を分離して別々の音量に設定する音源分離手段とを備えるサーバ装置と、
前記サーバ装置とネットワークを通じて接続され、前記サーバ装置のコンテンツ提供手段に前記コンテンツの選択を指示すると共に、前記音源分離手段に対して音源分離の処理実行を指示する指示手段と、前記指示に応答して前記サーバ装置から提供されるコンテンツを再生する再生手段とを備えるテレビ装置と
を具備するテレビシステム。
前記サーバ装置の音源分離手段は、前記音声成分と非音声成分の音量の比率を段階的に変更する比率変更手段を備え、前記テレビ装置の指示手段は、前記音声成分と非音声成分の音量の比率を段階的に指示する比率指示手段を備える請求項１記載のテレビシステム。
前記サーバ装置は、前記テレビ装置にサーバ搭載機能として音源分離手段を備えることを示すサーバ管理情報を提供し、
前記テレビ装置は、前記サーバ管理情報から前記音源分離手段の有無を判別しサーバ機能メニューとして提示する請求項１記載のテレビシステム。
ネットワークを通じてテレビ装置と接続されるサーバ装置であって、
前記テレビ装置に複数のコンテンツを選択的に提供するコンテンツ提供手段と、
前記テレビ装置からの要求に応じて前記テレビ装置に提供するコンテンツの音響信号から音声成分と非音声成分を分離して別々の音量に設定する音源分離手段と
を備えるサーバ装置。
前記音源分離手段は、前記音声成分と非音声成分の音量の比率を段階的に変更する比率変更手段を備え、前記テレビ装置からの比率指示に従って前記音声成分と非音声成分の音量を指示された比率で設定する請求項４記載のサーバ装置。
前記テレビ装置にサーバ搭載機能として音源分離手段を備えることを示すサーバ管理情報を提供し、前記テレビ装置に、前記サーバ管理情報を通じて前記音源分離手段の有無を判別させ、サーバ機能メニューとして提示させる請求項４記載のサーバ装置。
複数のコンテンツを選択的に提供するコンテンツ提供手段と、前記コンテンツの音響信号から音声成分と非音声成分を分離して別々の音量に設定する音源分離手段とを備えるサーバ装置とネットワークを通じて接続されるテレビ装置であって、
前記サーバ装置のコンテンツ提供手段に前記コンテンツの選択を指示すると共に、前記音源分離手段に対して音源分離の処理実行を指示する指示手段と、
前記指示に応答して前記サーバ装置から提供されるコンテンツを再生する再生手段と
を備えるテレビ装置。
前記サーバ装置の音源分離手段が、前記音声成分と非音声成分の音量の比率を段階的に変更する比率変更手段を備えるとき、前記指示手段は、前記音声成分と非音声成分の音量の比率を段階的に指示する比率指示手段を備える請求項７記載のテレビ装置。
前記サーバ装置が、サーバ搭載機能として音源分離手段を備えることを示すサーバ管理情報を提供するとき、前記指示手段は、前記サーバ管理情報から前記音源分離手段の有無を判別しサーバ機能メニューとして提示する請求項７記載のテレビ装置。