JPWO2015097818A1 - テレビシステムとサーバ装置及びテレビ装置 - Google Patents

テレビシステムとサーバ装置及びテレビ装置 Download PDF

Info

Publication number
JPWO2015097818A1
JPWO2015097818A1 JP2015554405A JP2015554405A JPWO2015097818A1 JP WO2015097818 A1 JPWO2015097818 A1 JP WO2015097818A1 JP 2015554405 A JP2015554405 A JP 2015554405A JP 2015554405 A JP2015554405 A JP 2015554405A JP WO2015097818 A1 JPWO2015097818 A1 JP WO2015097818A1
Authority
JP
Japan
Prior art keywords
sound source
source separation
server
television
server device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015554405A
Other languages
English (en)
Other versions
JP6290260B2 (ja
Inventor
直希 山梨
直希 山梨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JPWO2015097818A1 publication Critical patent/JPWO2015097818A1/ja
Application granted granted Critical
Publication of JP6290260B2 publication Critical patent/JP6290260B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • H04N21/8113Monomedia components thereof involving special audio data, e.g. different tracks for different languages comprising music, e.g. song in MP3 format
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

実施の形態によれば、サーバ装置が、複数のコンテンツを選択的に提供するコンテンツ提供手段と、前記コンテンツの音響信号から音声成分と非音声成分を分離して別々の音量に設定する音源分離手段とを備え、前記サーバ装置とネットワークを通じて接続されるテレビ装置が、前記サーバ装置のコンテンツ提供手段に前記コンテンツの選択を指示すると共に、前記音源分離手段に対して音源分離の処理実行を指示する指示手段と、前記指示に応答して前記サーバ装置から提供されるコンテンツを再生する再生手段とを備える。

Description

この発明の実施の形態は、サーバ装置から提供されるコンテンツをテレビ装置にて再生するテレビシステムに係り、特に音響信号を再生する処理に関する。
近年、音響信号の再生技術にあっては、音声と非音声(背景音)とを分離して別々に音量を設定する音源分離処理が実用化され、テレビ装置において、音声再生のオプションとして、音源分離機能の搭載が検討されている。この音源分離機能は、音響信号の音源となっている音声成分と非音声成分とに、指定の割合で分離し再生することができる。この機能は、コンテンツの内容に応じて背景音を下げて音声を明瞭にしたり、音声を消去してカラオケとして利用したりすることができ、視聴者毎のニーズに合わせた音響再生が可能となる。
しかしながら、テレビ装置に音源分離機能を搭載すると、テレビ装置のコストアップにつながる。そこで、テレビ装置の外部で音源分離処理を実行させることが要望されている。
以上述べたように、テレビ装置に音源分離機能を搭載すると、テレビ装置のコストアップにつながる。
そこで、テレビ装置の外部で音源分離処理を実行させることのできるテレビシステムとサーバ装置及びテレビ装置を提供することを目的とする。
実施の形態によれば、サーバ装置が、複数のコンテンツを選択的に提供するコンテンツ提供手段と、前記コンテンツの音響信号から音声成分と非音声成分を分離して別々の音量に設定する音源分離手段とを備え、前記サーバ装置とネットワークを通じて接続されるテレビ装置が、前記サーバ装置のコンテンツ提供手段に前記コンテンツの選択を指示すると共に、前記音源分離手段に対して音源分離の処理実行を指示する指示手段と、前記指示に応答して前記サーバ装置から提供されるコンテンツを再生する再生手段とを備える。
上記の構成によるテレビシステムは、テレビ装置からの要求に応じてサーバ装置側で音響信号の音源分離処理を実行して、要求元のテレビ装置に提供することができる。これにより、テレビ装置の外部で音源分離処理を実行させることのできるテレビシステムとサーバ装置及びテレビ装置を提供することができる。
実施の形態に係るテレビシステムの構成を示すブロック図である。 図1に示すシステムに用いられる音源分離処理部の構成を示す機能ブロック図である。 図2に示す音源分離処理部の機能を説明するための図である。 図1に示すシステムにおいて、音源分離処理を実行する際のテレビ装置とサーバ装置との処理手順を示すシーケンス図である。 図1に示すシステムにおいて、テレビ装置側で音源分離処理の処理指示をサーバ装置に通知するためのメニュー画面を示す図である。
以下、実施の形態について図面を参照して詳細に説明する。
図1は、実施の形態に係わるテレビシステムを概略的に示すブロック図である。図1に示すように、このシステムは、サーバ装置11とテレビ装置12とをネットワーク13を通じて接続した構成である。図では1台のテレビ装置12をネットワーク13に接続しているが、システムとして複数台のテレビ装置を接続した構成であってもよい。また、以下の説明において、音声コンテンツは音声を含むファイルを意味し、コンテンツとして映像を含む場合もあるが、ここでは説明を簡単にするため、映像の処理については省略する。
図1において、サーバ装置11はネットワークと接続され、テレビ装置12との間でデータの送受信を行う受信部111及び送信部112を備える。また、記録部113、コンテンツ処理部114及びモニタ出力部115を備える。
上記記録部113は、テレビ番組等のコンテンツを蓄積するためのハードディスク等の記録装置を備える。上記コンテンツ処理部114は、上記受信部112を通じてネットワーク上のテレビ装置12から送信される指示データを受け取り、その指示データに基づいて記録部113から該当するコンテンツを読み出してストリームデータにデコード処理を行う。そして、その処理の一機能として音源分離部114Aを備える。
この音源分離部114Aは、上記指示データ中の音源制御指示に応じて、デコードされた音響信号の音源を解析し、音声と非音声に分離し、指定の比率で音量を設定し出力する。上記出力部115は、コンテンツ処理部114でデコードされたストリームデータをモニタ出力する。また、コンテンツ処理部114で得られたストリームデータは送信部112を通じて要求元のテレビ装置12に送られる。
上記テレビ装置12は、デジタル放送受信用チューナ122を搭載する。このチューナ122は、図中のアンテナ121で受信したBS,CS,地上波等のデジタル放送のうち、ユーザが指示した視聴用のチャンネルCHを選局し復調する。復調されたチャンネルの放送信号は信号処理部123で様々なデジタル信号として取り出され処理される。映像信号は映像処理部124で正しい画面サイズに調整され、表示処理部125でさらに文字情報等グラフィックが重ねられてディスプレイ表示部126にて画面表示される。また、音声信号は音声処理部127で音響処理して増幅され、スピーカ128で音声として出力される。
前記122,123,124,125,127といったデバイスは、IIC−BUSといった通信ライン129を介して制御部(マイコン)1210でコントロールされており、データの授受を行っている。またテレビ装置12には他にRAM1211、ROM1212、キーボード1213、リモコン1214から信号を受信する受光部(リモコン受信)1215が接続されており、それぞれ信号やデータの授受を行っている。またこのテレビ装置12は、LAN端子1216、無線LAN送受信部1217、Bluetooth送受信部1218を持っており、外部とネットワーク通信してリモコン1214と同様にテレビをコントロールすることができる。このテレビ装置12は、音声処理部127に音源分離機能を持たないが、サーバ装置11に搭載される音源分離部114Aに音源分離処理を指示するための音源分離指示機能を備える。
上記構成において、上記サーバ装置11に搭載される音源分離部114Aについて具体的に説明する。
本実施形態の音源分離部114Aは、非負行列因子分解を用いた技術であり、非音声信号が含まれる蓋然性が高い区間における音響信号のスペクトログラム(スペクトル特徴)から、非音声信号の特徴を表す第1の基底行列を作成する。そして、音声信号が含まれる尤もらしさを表す音声尤度を利用して、第1の基底行列から音声信号との関連性が高い成分を除外して第2の基底行列を作成する。この第2の基底行列を用いて音声信号の特徴を表す第3の基底行列と第1の係数行列を計算し、第3の基底行列と第1の係数行列の積により、音声信号のスペクトログラムを推定する。最後に、推定された音声信号のスペクトログラムを時間信号に変換することで、音響信号から音声信号を分離する。
このように、本実施形態の音源分離部114Aは、作成された非音声信号の第1の基底行列から音声信号との関連性が高い成分を除外した第2の基底行列を作成する。これにより、非音声信号の特徴を正確に表す基底行列を作成することができ、結果として、音声信号の分離性能を向上させることができる。
図2は上記音源分離部114Aの構成を示すブロック図である。この音源分離部114Aは、音響取得部A1と、尤度計算部A2と、音声・非音声判別部A3と、スペクトル特徴抽出部A4と、第1基底行列作成部A5と、第2基底行列作成部A6と、スペクトル特徴推定部A7と、逆変換部A8とを備える。
上記音響取得部A1は、音声信号と非音声信号を含んだ音響信号を取得する。上記尤度計算部A2は、音響信号から音声信号および非音声信号の特徴を表す音響特徴を抽出し、この音響特徴を利用して、音響信号に音声信号が含まれる尤もらしさを表す音声尤度と非音声信号が含まれる尤もらしさを表す非音声尤度を計算する。上記音声・非音声判別部A3は、音声尤度と非音声尤度を利用して、音響信号の所定区間ごとに音声・非音声を判別する。上記スペクトル特徴抽出部A4は、音響信号をフーリエ変換してスペクトログラムを抽出する。上記第1基底行列作成部A5は、非音声信号と判別された区間の音響信号から抽出されたスペクトログラムを利用して、非音声信号の特徴を表す第1の基底行列を作成する。
上記第2基底行列作成部A6は、音声尤度を利用して、第1の基底行列から音声信号との関連性が高い列ベクトルの成分を除外して第2の基底行列を作成する。上記スペクトル特徴推定部A7は、スペクトログラムを前記第2の基底行列を用いて非負行列因子分解することにより、音声信号の特徴を表す第3の基底行列および第1の係数行列を計算し、この第3の基底行列および第1の係数行列の積により、音響信号に含まれる音声信号のスペクトログラムを推定する。上記逆変換部A8は、推定された音声信号のスペクトログラムを逆フーリエ変換により時間信号に変換する。
上記構成による音源分離部114Aにおいて、音響取得部A1は、記録部113から読み出される音響信号または受信部111によって接続されたテレビ装置12から送信される音響信号を取得する。
尤度計算部A2は、音響取得部A1で取得された音響信号から、音声信号および非音声信号の特徴を表す音響特徴を抽出する。そして、この音響特徴を利用して、音響信号に音声信号が含まれる尤もらしさ(音声尤度)および非音声信号が含まれる尤もらしさ(非音声尤度)を計算する。
具体的には、尤度計算部A2は、音響信号を長さ25ms(400サンプル)、間隔8ms(128サンプル)のフレームに分割する。フレーム分割にはハミング窓を使用する。次に、各フレームから音響特徴を抽出する。音響特徴としては、各フレームの音響信号をフーリエ変換して得られるスペクトルだけでなく、LPCケプストラムやMFCC等のケプストラム系の特徴量を用いることができる。そして、抽出された音響特徴を予め学習した音声モデルおよび非音声モデルと照合して、各フレームの音声尤度および非音声尤度を計算する。
音声・非音声判別部A3は、尤度計算部A2で計算されたフレーム毎の音声尤度および非音声尤度を用いて、所定区間ごとに音声信号が音声であるか非音声であるかを判別する。本実施形態では、所定区間の長さを400ms(50フレーム分)に設定する。音声・非音声判別部A3は、50フレーム分の音声尤度および非音声尤度の平均値を計算し、その大小を比較することで音声・非音声を判別する。この他にも、各平均値を予め設定した閾値と比較して音声・非音声を判別してもよい。
スペクトル特徴抽出部A4は、音響信号を長さ25ms(400サンプル)、間隔8ms(128サンプル)のフレームに分割し、各フレームの音響信号をフーリエ変換(周波数解析)してスペクトルを抽出する。なお、本実施形態では、各フレームに対して112点の零詰めを行った後、512点の離散フーリエ変換を実行する。
1基底行列作成部A5は、スペクトル特徴抽出部A4で抽出された複数フレームのスペクトル(スペクトログラム)を利用して、非音声信号の特徴を表す第1の基底行列Hを作成する。ここで本実施形態では、音声・非音声判別部A3において非音声と判別された区間の音響信号から抽出されたスペクトログラムを利用して、第1の基底行列Hを作成する。
第1基底行列作成部A5は、まず、T個のフレームから抽出した各F次元のスペクトルの全要素を格納した行数F、列数Tの行列Zを作成する。次に、この行列Zを、行数F・列数Dの第1の基底行列Hと、行数D・列数Tの係数行列Uの積で近似する。ここで、Dは基底の数を表し、経験的に32に設定する。第1の基底行列Hと係数行列Uの導出は、第1の基底行列Hと係数行列Uの積と行列Zの二乗誤差を基準とした反復法により行う。この際、第1の基底行列Hおよび係数行列Uの初期行列には、ランダム値を用いることができる。
第2基底行列作成部A6は、尤度計算部A2で計算された音声尤度を利用して、第1の基底行列Hから音声信号との関連性が高い列ベクトルの成分を除外した第2の基底行列Bを作成する。これにより、非音声信号の特性を表す第2の基底行列Bを正確に作成することができる。
スペクトル特徴推定部A7は、スペクトル特徴抽出部A4で抽出されたスペクトル特徴を第2の基底行列Bを用いて非負行列因子分解することにより、音声信号の特徴を表す第3の基底行列Mおよび第1の係数行列Vを計算する。そして、この第3の基底行列Mと第1の係数行列Vの積を取ることにより、音響信号に含まれる音声信号のスペクトル特徴を推定する。
逆変換部A8は、推定された音声信号のスペクトログラムを離散逆フーリエ変換することにより時間信号に変換する。これにより、音響信号から音声信号を分離することができる。
上記構成による音源分離部114Aは、図3に示すように、通常モード(音声・非音声の音量を均等にする)、音声モード(非音声を完全に抑圧)、カラオケモード(音声を完全に抑圧)の機能を有する。このように、複数段階の音量調整モードを備えることで、ユーザがテレビ装置12を通じてサーバ装置11に各モードをいずれかを選択するように指示する、あるいはその比率を指示することが可能である。
図1に示すシステムにおいて、図4に示すシーケンス図を参照して、音源分離処理を実行する際のテレビ装置とサーバ装置との処理手順を説明する。
まず、テレビ装置12において、起動時に、あるいは定期的に、あるいはデバイスリストを開くときに、サーバ装置11に搭載機能の一覧を示すサーバ管理情報を要求する。サーバ装置11は、要求に応答して、音源分離機能を含むサーバ管理情報をテレビ装置12に送り返す。テレビ装置12は、サーバ管理情報を取得すると、その情報に示される機能一覧をメニュー画面に表示する。
ここで、ユーザの操作により、テレビ装置12からサーバ装置11にコンテンツリストが要求されると、サーバ装置11は記録部113に記録されるコンテンツのリストを作成してテレビ装置12に送り返す。
テレビ装置12は、コンテンツリストを受け取ると、そのリストに基づいてコンテンツ選択画面を表示する。このとき、オプションとして、音源分離機能を利用するためのメニュー画面(図3に示す複数段階の音量調整モードを表示)も提示する。メニュー画面の一例を図5に示す。ユーザがその選択画面から任意のコンテンツと音量調整モードのいずれかを選択操作すると、そのコンテンツの再生要求が音源分離モードの選択指示と共にサーバ装置12に送られる。サーバ装置12は、コンテンツ再生要求と音量調整モードの選択指示を受けると、該当するコンテンツを読み出し、ストリームデータに変換する。このとき、音量調整モードが選択指示されている場合には、読み出されたコンテンツをストリームデータに変換する際に、対応する音源分離処理を実行し、指定モードに対応する比率で音量を設定する。このようにして生成されたストリームデータを要求元のテレビ装置12に送出する。
テレビ装置12は、要求したコンテンツのストリームデータを受けると、そのストリームデータを再生出力する。この状態で、ユーザの音量調整モードの変更指示があった場合、その変更指示はサーバ装置11に通知され、サーバ装置11はその変更指示に基づいて音源分離処理における音量調整モードを変更し、モード変更指示に応じた比率の音量でストリームデータを生成しテレビ装置12に送信する。
以上の処理により、テレビ装置12が音源分離機能を搭載していなくても、サーバ装置11が音源分離機能を有しているので、テレビ装置12のコストアップを抑圧しつつ、音源分離機能を利用したいユーザのニーズにも対応することができる。
このとき、本実施形態では、サーバ装置11は音源分離機能を有することを示す情報をネットワーク経由で提供するようにすることで、クライアント側のテレビ装置12では、サーバ装置11が音源分離機能を搭載しており、その機能を利用できることがユーザに知らせることができる。
この場合、クライアント側のテレビ装置12は、サーバ装置11が音源分離機能を有することを判別し、サーバ装置11の録画番組をネットワーク経由で再生する際に、音源分離設定(人声とその他音を別々に音量設定)を行うGUIを表示する。そして、ユーザのGUI表示に対する操作に応じて、設定された音源分離設定をサーバ装置11へ送る。これにより、サーバ装置11は、テレビ装置12から送られてきた音源分離設定に応じて、音源分離機能で音量調整したストリームをクライアントのテレビ装置12へ配信することができる。
尚、上記の実施形態では、ストリームでコンテンツを提供する場合について説明したが、ダウンロードで行う場合でも同様に実施可能である。また、クライアント側のテレビ装置が音源分離機能を有する場合には、搭載している音源分離機能で音量調整したストリームをサーバ装置11へアップロードしておけば、他の音源分離機能を有していないテレビ装置で音源分離されたストリームを視聴することが可能となる。すなわち、この場合は、音源分離機能を備えるテレビ装置がサーバ装置として機能することになる。
また、上記音源分離機能を有するテレビ装置において、音源分離機能で音源分離されたストリームをサーバ装置11にアップロードする際に、サーバ装置11が音源分離機能を有している場合には、テレビ装置12側で音源分離機能による音量調整を行わないでアップロードするようにしてもよい。
その他、上記実施形態では、初期段階で、テレビ装置12からの要求に応じてサーバ装置11からサーバ管理情報を提示するようにしたが、テレビ装置12が最初からサーバ装置11を利用する機能としてプリセットされているようにしても、同様に実施可能である。
なお、この発明は上記した実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を種々変形して具体化することができる。また、上記した実施の形態に開示されている複数の構成要素を適宜に組み合わせることにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除しても良いものである。さらに、異なる実施の形態に係る構成要素を適宜組み合わせても良いものである。
実施の形態によれば、サーバ装置が、複数のコンテンツを指示に応じて選択的に提供するコンテンツ提供手段と、前記提供するコンテンツの音響信号を指示に応じて非負行列因子分解処理によって音声成分の音源と非音声成分の音源に分離し、それぞれの音源の音量を指示に応じて設定する音源分離手段とを備え、前記サーバ装置とネットワークを通じて接続されるテレビ装置が、前記サーバ装置コンテンツ提供手段に対して前記コンテンツの選択を指示すると共に、前記音源分離手段に対して前記音源分離及び音量の設定の処理実行を指示する指示手段と、前記指示に応答して前記サーバ装置から提供されるコンテンツを再生する再生手段とを備え、前記非負行列因子分解処理は、前記非音声信号が含まれる蓋然性が高い区間における音響信号のスペクトログラムから、前記非音声信号の特徴を表す第1の基底行列を作成し、前記第1の基底行列から前記音声信号との関連性が高い成分を除外することで前記非音声信号の特徴を正確に表す第2の基底行列を作成し、前記第2の基底行列を用いて前記音響信号の前記音声信号の特徴を表す第3の基底行列と第1の係数行列を計算し、前記第3の基底行列と前記第1の係数行列の積により前記音声信号のスペクトログラムを推定し、推定された前記音声信号のスペクトログラムを時間信号に変換することで前記音響信号から前記音声信号を分離する。

Claims (9)

  1. 複数のコンテンツを選択的に提供するコンテンツ提供手段と、前記コンテンツの音響信号から音声成分と非音声成分を分離して別々の音量に設定する音源分離手段とを備えるサーバ装置と、
    前記サーバ装置とネットワークを通じて接続され、前記サーバ装置のコンテンツ提供手段に前記コンテンツの選択を指示すると共に、前記音源分離手段に対して音源分離の処理実行を指示する指示手段と、前記指示に応答して前記サーバ装置から提供されるコンテンツを再生する再生手段とを備えるテレビ装置と
    を具備するテレビシステム。
  2. 前記サーバ装置の音源分離手段は、前記音声成分と非音声成分の音量の比率を段階的に変更する比率変更手段を備え、前記テレビ装置の指示手段は、前記音声成分と非音声成分の音量の比率を段階的に指示する比率指示手段を備える請求項1記載のテレビシステム。
  3. 前記サーバ装置は、前記テレビ装置にサーバ搭載機能として音源分離手段を備えることを示すサーバ管理情報を提供し、
    前記テレビ装置は、前記サーバ管理情報から前記音源分離手段の有無を判別しサーバ機能メニューとして提示する請求項1記載のテレビシステム。
  4. ネットワークを通じてテレビ装置と接続されるサーバ装置であって、
    前記テレビ装置に複数のコンテンツを選択的に提供するコンテンツ提供手段と、
    前記テレビ装置からの要求に応じて前記テレビ装置に提供するコンテンツの音響信号から音声成分と非音声成分を分離して別々の音量に設定する音源分離手段と
    を備えるサーバ装置。
  5. 前記音源分離手段は、前記音声成分と非音声成分の音量の比率を段階的に変更する比率変更手段を備え、前記テレビ装置からの比率指示に従って前記音声成分と非音声成分の音量を指示された比率で設定する請求項4記載のサーバ装置。
  6. 前記テレビ装置にサーバ搭載機能として音源分離手段を備えることを示すサーバ管理情報を提供し、前記テレビ装置に、前記サーバ管理情報を通じて前記音源分離手段の有無を判別させ、サーバ機能メニューとして提示させる請求項4記載のサーバ装置。
  7. 複数のコンテンツを選択的に提供するコンテンツ提供手段と、前記コンテンツの音響信号から音声成分と非音声成分を分離して別々の音量に設定する音源分離手段とを備えるサーバ装置とネットワークを通じて接続されるテレビ装置であって、
    前記サーバ装置のコンテンツ提供手段に前記コンテンツの選択を指示すると共に、前記音源分離手段に対して音源分離の処理実行を指示する指示手段と、
    前記指示に応答して前記サーバ装置から提供されるコンテンツを再生する再生手段と
    を備えるテレビ装置。
  8. 前記サーバ装置の音源分離手段が、前記音声成分と非音声成分の音量の比率を段階的に変更する比率変更手段を備えるとき、前記指示手段は、前記音声成分と非音声成分の音量の比率を段階的に指示する比率指示手段を備える請求項7記載のテレビ装置。
  9. 前記サーバ装置が、サーバ搭載機能として音源分離手段を備えることを示すサーバ管理情報を提供するとき、前記指示手段は、前記サーバ管理情報から前記音源分離手段の有無を判別しサーバ機能メニューとして提示する請求項7記載のテレビ装置。
JP2015554405A 2013-12-26 2013-12-26 テレビシステムとサーバ装置及びテレビ装置 Expired - Fee Related JP6290260B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/084927 WO2015097818A1 (ja) 2013-12-26 2013-12-26 テレビシステムとサーバ装置及びテレビ装置

Publications (2)

Publication Number Publication Date
JPWO2015097818A1 true JPWO2015097818A1 (ja) 2017-03-23
JP6290260B2 JP6290260B2 (ja) 2018-03-07

Family

ID=53477754

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015554405A Expired - Fee Related JP6290260B2 (ja) 2013-12-26 2013-12-26 テレビシステムとサーバ装置及びテレビ装置

Country Status (3)

Country Link
US (1) US10102867B2 (ja)
JP (1) JP6290260B2 (ja)
WO (1) WO2015097818A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101958664B1 (ko) * 2017-12-11 2019-03-18 (주)휴맥스 멀티미디어 콘텐츠 재생 시스템에서 다양한 오디오 환경을 제공하기 위한 장치 및 방법
JP7389070B2 (ja) * 2021-01-25 2023-11-29 トヨタ自動車株式会社 情報処理装置、情報処理方法、およびプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003259245A (ja) * 2002-03-06 2003-09-12 Funai Electric Co Ltd テレビジョン受信装置
JP2005071090A (ja) * 2003-08-25 2005-03-17 Hideyoshi Tominaga コンテンツ処理装置および配信システム
JP2009128906A (ja) * 2007-11-19 2009-06-11 Mitsubishi Electric Research Laboratories Inc 音響信号と雑音信号とを含む混成信号の雑音を除去するための方法およびシステム
JP2010512042A (ja) * 2006-12-01 2010-04-15 エルジー エレクトロニクス インコーポレイティド 命令入力装置及び方法、メディア信号のユーザインタフェース表示方法及びその具現装置、並びにミックス信号処理装置及びその方法
JP2012208737A (ja) * 2011-03-30 2012-10-25 Toshiba Corp 医用システム
JP2013050604A (ja) * 2011-08-31 2013-03-14 Nippon Hoso Kyokai <Nhk> 音響処理装置およびそのプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002159099A (ja) 2000-11-20 2002-05-31 Matsushita Electric Ind Co Ltd 音場制御装置
US20070044137A1 (en) * 2005-08-22 2007-02-22 Bennett James D Audio-video systems supporting merged audio streams
CN102362507A (zh) 2009-03-27 2012-02-22 松下电器产业株式会社 网络控制设备、网络控制系统、网络控制方法及程序
JP5662276B2 (ja) 2011-08-05 2015-01-28 株式会社東芝 音響信号処理装置および音響信号処理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003259245A (ja) * 2002-03-06 2003-09-12 Funai Electric Co Ltd テレビジョン受信装置
JP2005071090A (ja) * 2003-08-25 2005-03-17 Hideyoshi Tominaga コンテンツ処理装置および配信システム
JP2010512042A (ja) * 2006-12-01 2010-04-15 エルジー エレクトロニクス インコーポレイティド 命令入力装置及び方法、メディア信号のユーザインタフェース表示方法及びその具現装置、並びにミックス信号処理装置及びその方法
JP2009128906A (ja) * 2007-11-19 2009-06-11 Mitsubishi Electric Research Laboratories Inc 音響信号と雑音信号とを含む混成信号の雑音を除去するための方法およびシステム
JP2012208737A (ja) * 2011-03-30 2012-10-25 Toshiba Corp 医用システム
JP2013050604A (ja) * 2011-08-31 2013-03-14 Nippon Hoso Kyokai <Nhk> 音響処理装置およびそのプログラム

Also Published As

Publication number Publication date
US20160148623A1 (en) 2016-05-26
WO2015097818A1 (ja) 2015-07-02
US10102867B2 (en) 2018-10-16
JP6290260B2 (ja) 2018-03-07

Similar Documents

Publication Publication Date Title
JP6253671B2 (ja) 電子機器、制御方法およびプログラム
JP4913038B2 (ja) 音声レベル制御
JP2019525571A (ja) ライブ音楽実演のマルチメディア・コンテンツのネットワーク・ベースの処理および配送
JP2002123295A (ja) 消費者電化製品に関連する装置をボイス制御する方法及び装置
JP5085769B1 (ja) 音響制御装置、音響補正装置、及び音響補正方法
JP6945130B2 (ja) 音声提示方法、音声提示プログラム、音声提示システム及び端末装置
US20230009878A1 (en) Adjusting audio and non-audio features based on noise metrics and speech intelligibility metrics
US20160267925A1 (en) Audio processing apparatus that outputs, among sounds surrounding user, sound to be provided to user
JP2012032447A (ja) 音質制御装置及び音質制御方法
JP6290260B2 (ja) テレビシステムとサーバ装置及びテレビ装置
JP2005530213A (ja) 音声信号処理装置
JP2010283605A (ja) 映像処理装置及び方法
KR20130139074A (ko) 오디오 신호 처리 방법 및 이를 적용한 오디오 신호 처리 장치
WO2014141413A1 (ja) 情報処理装置、出力方法およびプログラム
JP4982617B1 (ja) 音響制御装置、音響補正装置、及び音響補正方法
WO2016051534A1 (ja) 音響システム、通信機器及びプログラム
US20200111475A1 (en) Information processing apparatus and information processing method
KR102160756B1 (ko) 디스플레이 장치 및 디스플레이 장치의 제어 방법
KR101573868B1 (ko) 노래 가사 자동 디스플레이 방법, 노래 가사를 인식하는 서버 및 이 서버를 포함하는 노래 가사 자동 디스플레이 시스템
JP6690200B2 (ja) 端末装置、通信方法
JP6610195B2 (ja) 端末装置、通信方法
JP7453712B2 (ja) オーディオ再生方法、装置、コンピュータ可読記憶媒体及び電子機器
JP6822540B2 (ja) 端末装置、通信方法及び通信プログラム
US11594113B2 (en) Decoding device, decoding method, and program
CN113096674B (zh) 一种音频处理方法、装置及电子设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161205

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170724

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20170914

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20170914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180207

R150 Certificate of patent or registration of utility model

Ref document number: 6290260

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees