JPWO2016151974A1 - 情報処理装置、情報処理方法、クライアント装置、サーバ装置および情報処理システム - Google Patents

情報処理装置、情報処理方法、クライアント装置、サーバ装置および情報処理システム Download PDF

Info

Publication number
JPWO2016151974A1
JPWO2016151974A1 JP2017507346A JP2017507346A JPWO2016151974A1 JP WO2016151974 A1 JPWO2016151974 A1 JP WO2016151974A1 JP 2017507346 A JP2017507346 A JP 2017507346A JP 2017507346 A JP2017507346 A JP 2017507346A JP WO2016151974 A1 JPWO2016151974 A1 JP WO2016151974A1
Authority
JP
Japan
Prior art keywords
user
video
information processing
importance
server device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017507346A
Other languages
English (en)
Inventor
浩平 宮本
浩平 宮本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2016151974A1 publication Critical patent/JPWO2016151974A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/152Multipoint control units therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0117Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving conversion of the spatial resolution of the incoming video signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computer Graphics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Studio Devices (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

【課題】通信回線に送出される映像のデータ量を抑制しつつ、ユーザが所望する映像品質の低下を抑えることが可能な技術が提供されることが望まれる。【解決手段】クライアント装置のユーザが発話しているか否かに応じた前記ユーザの重要度に基づいて、前記クライアント装置からサーバ装置に送信される前記ユーザの映像の品質を制御する映像品質制御部、を備える、情報処理装置が提供される。【選択図】図5

Description

本開示は、情報処理装置、情報処理方法、クライアント装置、サーバ装置および情報処理システムに関する。
近年、映像を制御する技術として様々な技術が開示されている。例えば、ネットワーク帯域を常時監視し、ネットワーク帯域の監視結果に基づいてアダプティブにネットワークに送出される映像のデータ量を制御する技術が開示されている(例えば、特許文献1参照。)。また、複数のユーザの中から発話者を検出し、検出した発話者に応じて映像の撮像または表示を制御する技術が開示されている(例えば、特許文献2参照。)。
特開2014−175961号公報 特開2011−244455号公報
しかし、通信回線に送出される映像のデータ量を抑制しつつ、ユーザが所望する映像品質の低下を抑えることが可能な技術が提供されることが望まれる。
本開示によれば、クライアント装置のユーザが発話しているか否かに応じた前記ユーザの重要度に基づいて、前記クライアント装置からサーバ装置に送信される前記ユーザの映像の品質を制御する映像品質制御部、を備える、情報処理装置が提供される。
本開示によれば、クライアント装置のユーザが発話しているか否かに応じた前記ユーザの重要度に基づいて、前記クライアント装置からサーバ装置に送信される前記ユーザの映像の品質を制御すること、を含む、情報処理方法が提供される。
本開示によれば、ユーザが発話しているか否かに応じた前記ユーザの重要度に基づいて、サーバ装置に送信される前記ユーザの映像の品質を制御する映像品質制御部を備える、クライアント装置が提供される。
本開示によれば、複数のクライアント装置それぞれについて、ユーザが発話しているか否かに基づいて、前記ユーザの前記重要度を算出するデータ解析部と、前記複数のクライアント装置それぞれについて、前記重要度に基づいて、前記クライアント装置から前記サーバ装置に送信される前記ユーザの映像の品質を指示する映像品質指示部と、を備える、サーバ装置が提供される。
本開示によれば、複数のクライアント装置とサーバ装置とを有する情報処理システムであって、前記複数のクライアント装置それぞれは、ユーザが発話しているか否かに応じた前記ユーザの重要度に基づいて、クライアント装置から前記サーバ装置に送信される前記ユーザの映像の品質を制御する映像品質制御部を備える、情報処理システムが提供される。
以上説明したように本開示によれば、通信回線に送出される映像のデータ量を抑制しつつ、ユーザが所望する映像品質の低下を抑えることが可能な技術が提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の実施形態に係る情報処理システムの第1の構成例を示す図である。 本開示の実施形態に係る情報処理システムの第2の構成例を示す図である。 本開示の実施形態に係る情報処理システムの第3構成例を示す図である。 本開示の実施形態に係る情報処理システムの第4構成例を示す図である。 本開示の実施形態に係る情報処理システムの機能構成例を示すブロック図である。 発話区間と重要度の関係の例を示す図である。 クライアント装置からサーバ装置に送信される映像の例を説明するための図である。 クライアント装置からサーバ装置に送信される視点領域データの例を説明するための図である。 クライアント装置のユーザの映像の表示例を示す図である。 本開示の実施形態に係るクライアント装置の動作の流れを示すフローチャートである。 本開示の実施形態に係るサーバ装置の動作の流れを示すフローチャートである。 本開示の実施形態に係るサーバ装置の動作の流れを示すフローチャートである。 本開示の実施形態に係るクライアント装置のハードウェア構成例を示すブロック図である。 本開示の実施形態に係るサーバ装置のハードウェア構成例を示すブロック図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、本明細書および図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なる数字を付して区別する場合もある。また、異なる実施形態の類似する構成要素については、同一の符号の後に異なるアルファベットを付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。
なお、説明は以下の順序で行うものとする。
1.本開示の実施形態
1.1.システム構成例
1.2.クライアント装置の機能構成例
1.3.サーバ装置の機能構成例
1.4.具体的な説明
1.5.クライアント装置の動作例
1.6.サーバ装置の動作例
1.7.クライアント装置のハードウェア構成例
1.8.サーバ装置のハードウェア構成例
2.むすび
<1.本開示の実施形態>
[1.1.システム構成例]
まず、図面を参照しながら本開示の実施形態に係る情報処理システムの構成例について説明する。図1は、本開示の実施形態に係る情報処理システムの第1の構成例を示す図である。図1に示したように、本開示の実施形態に係る情報処理システム1Aは、端末10−1と、端末10−2とを備える。端末10−1および端末10−2それぞれは、カメラ111および表示部112を備える。端末10−1および端末10−2それぞれは、カメラ111によって撮像されたユーザの映像を、互いに送信し合う。また、端末10−1および端末10−2それぞれは、受信した映像を表示部112に表示させる。
図2は、本開示の実施形態に係る情報処理システム1の第2の構成例を示す図である。図2に示すように、本開示の実施形態に係る情報処理システム1Bは、クライアント装置10−1〜10−4を備える。クライアント装置10−4は、サーバ装置40としても機能する。クライアント装置10−1〜10−4それぞれは、カメラ111および表示部112を備える。クライアント装置10−1〜10−4それぞれは、カメラ111によって撮像されたユーザの映像を、サーバ装置40に送信する。また、クライアント装置10−1〜10−4は、サーバ装置40から受信したクライアント装置10−1〜10−4それぞれの映像を表示部112に表示させる。
図3は、本開示の実施形態に係る情報処理システム1の第3の構成例を示す図である。図3に示すように、本開示の実施形態に係る情報処理システム1Cは、クライアント装置10−1〜10−9と、サーバ装置40とを備える。図3に示すように、サーバ装置40は、MCU(Multipoint Control Unit)であってよい。クライアント装置10−1〜10−9それぞれは、カメラ111および表示部112を備える。クライアント装置10−1〜10−9それぞれは、カメラ111によって撮像されたユーザの映像を、サーバ装置40に送信する。また、クライアント装置10−1〜10−9は、サーバ装置40から受信したクライアント装置10−1〜10−9それぞれの映像を表示部112に表示させる。
図4は、本開示の実施形態に係る情報処理システム1の第4の構成例を示す図である。図4に示すように、本開示の実施形態に係る情報処理システム1Dは、クライアント装置10−1〜10−6と、サーバ装置40とを備える。クライアント装置10−1〜10−6それぞれは、カメラ111および表示部112を備える。クライアント装置10−1〜10−6それぞれは、カメラ111によって撮像されたユーザの映像を、通信回線を介してサーバ装置40に送信する。また、クライアント装置10−1〜10−6それぞれは、サーバ装置40から通信回線を介して受信したクライアント装置10−1〜10−6それぞれの映像を表示部112に表示させる。
なお、本開示の実施形態においては、図1〜図4に示したように、映像がクライアント装置(端末)10によって送受信されてよいが、映像以外の情報もクライアント装置10によって送受信されてよい。例えば、クライアント装置10によって集音されたユーザの音声もサーバ装置40によって束ねられ、クライアント装置10によって出力されてよい。かかる場合、情報処理システム1は、ビデオ会議システムとして機能し得る。
本明細書においては、情報処理システム1がビデオ会議システムに適用される例を主に説明する。なお、以下の説明においては、図2に示した情報処理システム1の第2の構成例によって情報処理システム1Bが構成される場合を例に挙げて説明を行う。しかし、本開示の実施形態に係る情報処理システム1の構成例は、図2に示した情報処理システム1の第2の構成例に限定されない。
以上、本開示の実施形態に係る情報処理システム1の構成例について説明した。
[1.2.クライアント装置の機能構成例]
続いて、本開示の実施形態に係る情報処理システム1の機能構成例について説明する。図5は、本開示の実施形態に係る情報処理システム1の機能構成例を示すブロック図である。図5に示したように、本開示の実施形態に係る情報処理システム1は、クライアント装置10と、サーバ装置40とを備える。なお、図5に示した例では、紙面の都合上、クライアント装置10は単数であるが、図2に示した情報処理システム1の第2の構成例においては、クライアント装置10は複数存在する。
クライアント装置10は、カメラ111と、表示部112と、目領域撮像部113と、マイクロフォン114とを備える。また、クライアント装置10は、映像取得部211と、算出部212と、映像品質制御部213と、映像圧縮部214と、視点領域検出部215と、データ送信部216と、映像品質受付部217と、データ受信部218と、出力制御部219と、算出結果データ311の記憶部と、視点領域データ312の記憶部とを備える。
以下のクライアント装置10が有する各機能ブロックの説明において、「クライアント装置10」という記述は、その機能ブロックを内部に有するクライアント装置10を意味する。カメラ111は、クライアント装置10のユーザ(以下、単に「ユーザ」とも言う。)を撮像してユーザの映像を得る。カメラ111によって得られたユーザの映像は、映像取得部211に出力される。図5に示した例では、カメラ111が単数であるが、カメラ111は複数であってもよい。
映像取得部211は、カメラ111によって撮像されたユーザの映像に対して、所定の映像フォーマット、所定の解像度、所定のフレームレートに変換する処理を施す。また、映像取得部211は、複数のカメラ111から映像を取得する場合には、複数のカメラ111それぞれから得られた映像を合成するスティッチング機能を有していてもよいし、複数のカメラ111それぞれから得られた映像から1の映像を選択するスイッチ機能を有していてもよい。映像取得部211によって取得された映像は、算出部212に出力される。
また、マイクロフォン114は、周囲の音を収集することによって音情報を得る。マイクロフォン114によって取得された音情報は、算出部212に出力される。なお、図5に示した例では、マイクロフォン114が単数であるが、マイクロフォン114は複数であってもよい。また、マイクロフォン114の代わりに、マイクロフォンアレイが用いられてもよい。
算出部212は、ユーザが発話しているか否かに基づいて、ユーザの重要度を算出する。重要度の値域は特に限定されないが、例えば、「0」から「100」までであってもよい。ユーザが発話しているか否かはどのように算出されてもよい。例えば、算出部212は、ユーザが発話しているか否かを、カメラ111によって撮像された映像またはマイクロフォン114によって集音された音情報に基づいて判定すればよい。
例えば、ユーザの発する音声以外に所定の音量を超える音量の音源が存在しないような環境下では、マイクロフォン114によって集音された音情報の音量が閾値を超えるか否かによってユーザが発話しているか否かを判定してもよい。一方、ユーザの発する音声以外に所定の音量を超える音量の音源が存在するような環境下では、特開2007−156493号公報などにおいても開示されているように、マイクロフォン114によって集音された音情報の特徴解析、カメラ111によって撮像された映像の特徴解析などによって、ユーザが発話しているか否かを判定してもよい。
また、重要度を算出する手法も特に限定されない。重要度を算出する手法は、ユーザによってあらかじめ設定されていてもよいし、動的に変更されてもよい。例えば、算出部212は、発話しているユーザのほうが発話していないユーザよりも重要度が高いとかんがえられるため、ユーザが発話している場合にはユーザが発話していない場合よりも、ユーザの重要度を高くすればよい。
あるいは、算出部212は、クライアント装置10のユーザによる連続する発話の長さ、発話内容および発話間隔の少なくともいずれか一つに基づいて、ユーザの重要度を算出してもよい。図6は、発話区間と重要度の関係の例を示す図である。図6に示すように、算出部212は、ユーザによる発話が開始されると徐々に重要度を高くしてよい(時刻T1〜T2、T5〜T6)。また、算出部212は、ユーザによる連続する発話の長さが所定の長さを超えたら重要度を一定に保ってもよい(時刻T2〜T3、T6〜T7)。
一方、算出部212は、ユーザによる発話が終了されると徐々に重要度を低くしてよい(時間T3〜T4、T7〜T8、T10〜T11)。また、算出部212は、ユーザによる連続する発話の長さが所定の長さを超えたら重要度を一定に保ってもよい(時刻T4〜T5、T8〜T9)。
また、算出部212は、発話がなされているか否かに対して重要度を完全に追従させなくてもよい。例えば、算出部212は、ユーザによる発話間隔が所定の間隔よりも短い場合には、重要度を一定に保ってもよい(T9〜T10)。また、算出部212は、発話内容の重要性が高いほど、重要度を高くしてもよい。図6には、算出部212は、時間T11〜T12の発話内容の重要性が所定の重要性よりも低いため、重要度を低く算出した例が示されている。例えば、発話内容の重要性については、特開2000−075892号公報などにおいても開示されているような手法により算出され得る。
このようにして算出された重要度は、算出結果データ311として記憶される。映像品質制御部213は、算出結果データ311を重要度として取得し、取得した重要度に基づいて、クライアント装置10からサーバ装置40に送信される映像の品質を制御する。例えば、映像品質制御部213は、ユーザの重要度が高いほど、ユーザの映像の品質を高くすればよい。
また、サーバ装置40からユーザの映像の品質を指示される場合もある。かかる場合には、映像品質制御部213は、サーバ装置40から指示された品質に従うか否かを決定してよい。すなわち、映像品質制御部213は、サーバ装置40から指示された品質に従うと決定した場合には、サーバ装置40から指示された品質になるように映像の品質を制御し、サーバ装置40から指示された品質に従わないと決定した場合には、算出部212によって算出された品質になるように映像の品質を制御してよい。
より具体的には、映像品質制御部213は、サーバ装置40に接続されているクライアント装置10の数に基づいて、サーバ装置40から指示された映像の品質に従うか否かを決定してよい。例えば、映像品質制御部213は、サーバ装置40に接続されているクライアント装置10の数が所定の数を上回る場合に、サーバ装置40から指示された品質になるように映像の品質を制御し、サーバ装置40に接続されているクライアント装置10の数が所定の数以下である場合に、算出部212によって算出された品質になるように映像の品質を制御してよい。
また、映像品質制御部213は、クライアント装置10−1〜10−4それぞれのユーザの視線に基づいて、サーバ装置40から指示された映像の品質に従うか否かを決定してもよい。例えば、映像品質制御部213は、そのユーザの映像に当てられている視線の数が所定の数を上回る場合に、サーバ装置40から指示された品質になるように映像の品質を制御し、そのユーザの映像に当てられている視線の数が所定の数以下である場合に、算出部212によって算出された品質になるように映像の品質を制御してよい。
あるいは、サーバ装置40から映像の品質が強制的に指示された場合も想定される。かかる場合には、映像品質制御部213は、サーバ装置40から指示された品質になるように映像の品質を制御すればよい。なお、サーバ装置40からの映像品質の指示は、映像品質受付部217によって受け付けられてよい。
また、映像品質制御部213は、クライアント装置10のユーザの映像の通信回線の帯域にさらに基づいて、クライアント装置10からサーバ装置40に送信されるユーザの映像の品質を制御してもよい。例えば、映像品質制御部213は、クライアント装置10のユーザの映像の通信回線の帯域が広いほど、クライアント装置10からサーバ装置40に送信されるユーザの映像の品質が高くなるように映像の品質を制御すればよい。また、映像品質制御部213は、データ送信部216から映像の品質を低くするように要求された場合に、映像品質を低くしてもよい。
映像圧縮部214は、映像品質制御部213による制御に従ってユーザの映像をエンコードする。このとき、映像圧縮部214は、エンコードに要する時間が所定の所要時間を超えた場合には、エンコードに要する時間を軽減させるようにエンコード処理を変更してもよい。また、映像圧縮部214は、変更後のエンコード処理を映像品質制御部213に通知してもよい。そうすれば、映像品質制御部213は、変更後のエンコード処理を行うように映像圧縮部214を制御することが可能となる。
視点領域検出部215は、目領域撮像部113によって撮像されたユーザの目領域から視点Eyが存在する領域を検出する。そのとき、カメラ111によって撮像されたユーザの映像も視点領域の検出に用いられてよい。視点領域を検出する手法は特に限定されないが、特開平10−154220号公報によって開示されている手法などが用いられ得る。なお、あらかじめユーザによって設定された視点を含む領域が視点領域とされてもよい。そうすれば、あらかじめユーザによって設定された視点を含む領域の映像品質を制御することが可能である。
このようにして検出された視点領域は、視点領域データ312として記憶される。データ送信部216は、音情報とユーザの映像と算出結果データ311と視点領域データ312とをサーバ装置40に送信する。ユーザの映像と算出結果データ311と視点領域データ312とは、データ送信部216によって適宜に統合されてからサーバ装置40に送信されてよい。また、データ送信部216は、サーバ装置40との通信回線の帯域を監視しており、帯域が閾値よりも狭くなった場合に、映像の品質を低くするように映像品質制御部213に要求してもよい。
なお、クライアント装置10が有する各機能ブロック(例えば、映像取得部211、算出部212、映像品質制御部213、映像圧縮部214、視点領域検出部215、出力制御部219など)の一部または全部は、他の装置に存在してもよい。すなわち、これらの機能ブロック(情報処理装置)の一部または全部は、クライアント装置10と、サーバ装置40と、クライアント装置10およびクライアント装置10の外部に存在する1または複数の外部装置(不図示)とのうち、いずれか一つに組み込まれ、または二つ以上に分散されて組み込まれていてもよい。
以上、本開示の実施形態に係るクライアント装置10の機能構成例について説明した。
[1.3.サーバ装置の機能構成例]
図5に示すように、サーバ装置40は、データ受信部411と、映像解凍部412と、データ解析部413と、映像品質指示部414と、映像品質調整部415と、映像圧縮部416と、データ送信部417とを備える。データ受信部411は、音情報とユーザの映像と算出結果データ311と視点領域データ312とをクライアント装置10−1〜10−4それぞれから受信する。
映像解凍部412は、クライアント装置10−1〜10−4それぞれのユーザの映像をデコードする。データ受信部411および映像解凍部412は、クライアント装置10−1〜10−4それぞれに対応するように並列的に動作してもよいし、クライアント装置10−1〜10−4に順次に対応するように直列的に動作してもよい。
データ解析部413は、クライアント装置10−1〜10−4それぞれについて、ユーザが発話しているか否かに基づいて、ユーザの重要度を算出する。例えば、データ解析部413は、以下の式(1)に示すように、クライアント装置10−1〜10−4それぞれについて、ユーザが発話しているか否かに応じた重要度にクライアント装置10ごとの重み付け係数を乗算することによってユーザの新たな重要度を算出してよい。
F(A)=Dn×xn ・・・(1)
ここで、Fは、データ解析部413によって算出されるクライアント装置10ごとの重要度を示している。Aは、算出結果データ311を示しており、クライアント装置10から受信される。Dは、クライアント装置10ごとの重み付け係数を示している。xは、クライアント装置10ごとの重要度を示しており、算出結果データ311から取得される。nは、クライアント装置10の識別情報である。なお、重み付け係数はあらかじめ決まっていてもよいし、動的に変更されてもよい。
なお、上記した例では、重み付け係数を用いる手法を説明したが、クライアント装置10ごとの重要度は、他の手法によって算出されてもよい。例えば、データ解析部413は、クライアント装置10−1〜10−4それぞれから受信された音情報に対して音声認識処理を施すことによって、クライアント装置10−1〜10−4それぞれのユーザの発話内容を纏めた上で、発話内容全体における会話の流れや文脈を解析し、解析結果に基づいて、クライアント装置10ごとの重要度を算出してもよい。音声認識処理は、クライアント装置10−1〜10−4によってなされてもよい。
あるいは、データ解析部413は、クライアント装置10−1〜10−4それぞれについて、クライアント装置10−1〜10−4それぞれのユーザの視線に基づいて、ユーザの重要度を算出してもよい。より詳細には、より多くのユーザからの視線を集めているユーザの映像はより重要度が高いと考えられるため、データ解析部413は、視線が当てられている数が多い映像に写っているユーザほど、重要度を高くしてもよい。
例えば、データ解析部413は、以下の式(2)に示すように、クライアント装置10−1〜10−4それぞれについて、映像に対して視線が当てられている数に基づいてユーザの重要度を算出してよい。
F(B)=d×e ・・・(2)
ここで、上記と同様に、Fは、データ解析部413によって算出されるクライアント装置10ごとの重要度を示している。Bは、視点領域データ312を示しており、クライアント装置10から受信される。dは、そのクライアント装置10のユーザの映像が他のユーザによって当てられている視線の数を示している。eは、サーバ装置40に接続されているクライアント装置10の数から「1」を減じた値である。これにより、ユーザの映像を表示しているクライアント装置10を視線の数としてカウントせずに済む。
また、式(2)を発展させて、重要度F(B)に対して、クライアント装置10ごとの重み付け係数を乗算してもよいし、時間軸方向に調整をしてもよい(例えば、重要度F(B)に対して時間方向に所定の傾斜を付してもよい。)。また、重要度F(A)を単独で用いてもよいし、重要度F(B)を単独で用いてもよいし、以下の式(3)に示すように、重要度F(A)および重要度F(B)の双方を用いてもよい。
F=a×F(A)+b×F(B) ・・・(3)
ここで、上記と同様に、Fは、データ解析部413によって算出されるクライアント装置10ごとの重要度を示している。aおよびbは、重み付け係数を示している。なお、重み付け係数はあらかじめ決まっていてもよいし、動的に変更されてもよい。式(3)を用いれば、aを「0」にすることによって、ユーザが発話しているか否かに基づく重要度F(A)を無視することも可能であり、bを「0」にすることによって、ユーザの視点領域を無視することも可能である。
図5に戻って説明を続ける。映像品質指示部414は、クライアント装置10−1〜10−4それぞれのユーザの重要度に基づいて、クライアント装置10−1〜10−4それぞれからサーバ装置40に送信されるユーザの映像の品質を指示する。このとき、上記したように、映像品質指示部414は、クライアント装置10−1〜10−4それぞれに対してクライアント装置10−1〜10−4それぞれからサーバ装置40に送信されるユーザの映像の品質を強制的に指示することも可能である。
映像品質調整部415は、クライアント装置10−1〜10−4それぞれの重要度に基づいて、サーバ装置40からクライアント装置10−1〜10−4それぞれに送信されるユーザの映像の品質を調整する。
映像圧縮部416は、映像品質調整部415による調整に従って、クライアント装置10−1〜10−4それぞれのユーザの映像をエンコードする。クライアント装置10−1〜10−4それぞれのユーザの映像は、別々にエンコードされてもよいし、1枚に合成された形式でブロックごとにエンコードされてもよい。
また、映像圧縮部416は、映像圧縮部214と同様に、エンコードに要する時間が所定の所要時間を超えた場合には、エンコードに要する時間を軽減させるようにエンコード処理を変更してもよい。また、映像圧縮部416は、変更後のエンコード処理を映像品質調整部415に通知してもよい。そうすれば、映像品質調整部415は、変更後のエンコード処理を行うように映像圧縮部416を制御することが可能となる。
データ送信部417は、クライアント装置10−1〜10−4それぞれのユーザの映像をクライアント装置10−1〜10−4に送信する。このとき、データ送信部417は、クライアント装置10−1〜10−4との通信回線の帯域を監視しており、帯域が閾値よりも狭くなった場合に、映像の品質を低くするように映像品質調整部415に要求してもよい。また、データ送信部417は、クライアント装置10−1〜10−4それぞれの音情報をクライアント装置10−1〜10−4に送信してよい。
クライアント装置10−1〜10−4それぞれにおいては、データ受信部218がサーバ装置40から送信されたデータを受信し、出力制御部219がクライアント装置10−1〜10−4それぞれのユーザの映像を表示部112に表示させる。また、クライアント装置10−1〜10−4それぞれにおいて、出力制御部219が、データ受信部218によって受信された音情報を図示しないスピーカから出力させてもよい。
以上、本開示の実施形態に係るサーバ装置40の機能構成例について説明した。
[1.4.具体的な説明]
続いて、具体例を用いながら、情報処理システム1の機能についてより具体的に説明する。図7は、クライアント装置10からサーバ装置40に送信される映像の例を説明するための図である。図7に示すように、クライアント装置10−1〜10−4それぞれにおいては、表示部112が、データ受信部218によってサーバ装置40から受信された映像Mv1’〜Mv4’を表示している。また、クライアント装置10−1〜10−4それぞれにおいては、図示しないスピーカが、データ受信部218によってサーバ装置40から受信された音情報を出力している。クライアント装置10−1〜10−4それぞれのユーザは、映像Mv1’〜Mv4’を見ながら音情報を聴くことによって発話者の状況を把握できる。
図7をより詳細に参照すると、クライアント装置10−1のカメラ111の撮像範囲には、ユーザU1が存在している。また、クライアント装置10−2のカメラ111の撮像範囲には、ユーザU2が存在している。また、クライアント装置10−3のカメラ111の撮像範囲には、ユーザU3が存在している。また、クライアント装置10−4のカメラ111の撮像範囲には、ユーザU4が存在している。これらのユーザの中で、ユーザU1は、「こんにちは」と発話している発話者であり、他のユーザは非発話者である。
したがって、クライアント装置10−1の算出部212は、発話者であるユーザU1の重要度を非発話者の重要度よりも高く算出する。一方、クライアント装置10−2の算出部212は、非発話者であるユーザU2の重要度を発話者の重要度よりも低く算出する。同様に、クライアント装置10−3の算出部212は、非発話者であるユーザU3の重要度を発話者の重要度よりも低く算出し、クライアント装置10−4の算出部212は、非発話者であるユーザU4の重要度を発話者の重要度よりも低く算出する。
続いて、クライアント装置10−1の映像品質制御部213は、ユーザU1の重要度に基づいて発話者であるユーザU1の映像品質を非発話者の映像品質よりも高くなるように映像圧縮部214を制御する。一方、クライアント装置10−2の映像品質制御部213は、ユーザU2の重要度に基づいて非発話者であるユーザU2の映像品質を発話者の映像品質よりも低くなるように映像圧縮部214を制御する。
同様に、クライアント装置10−3の映像品質制御部213は、ユーザU3の重要度に基づいて非発話者であるユーザU3の映像品質を発話者の映像品質よりも低くなるように映像圧縮部214を制御し、クライアント装置10−4の映像品質制御部213は、非発話者であるユーザU4の映像品質を発話者の映像品質よりも低くなるように映像圧縮部214を制御する。
続いて、クライアント装置10−1〜10−4それぞれにおいて、映像圧縮部214が映像品質制御部213による制御に従って映像をエンコードし、データ送信部216がサーバ装置40に映像を送信する。図7に示すように、クライアント装置10−1から送信される映像Mv1の品質は、クライアント装置10−2〜10−4それぞれから送信される映像Mv2〜Mv4の品質よりも高くなる(図7では、矢印の太さが映像品質の高さを示している)。これによって、発話者であるユーザU1の映像品質の低下を抑えつつ、非発話者であるユーザU2、U3、U4の映像のデータ量を抑制することが可能となる。
図8は、クライアント装置10からサーバ装置40に送信される視点領域データ312の例を説明するための図である。図8に示すように、クライアント装置10−1において、ユーザU1が映像Mv1’に視線を当てているとする(視点Ey1に視線が当てられているとする)。このとき、クライアント装置10−1において、視点領域検出部215は、目領域撮像部113によって撮像されたユーザU1の目領域から視点領域として視点Ey1が存在する領域(図8に示した例では、左上の矩形領域)を検出し、視点領域を示すデータを視点領域データ312として記憶する。
同様に、クライアント装置10−2〜10−4それぞれにおいて、ユーザU2、U3、U4が発話者(ユーザU1)の映像Mv1’に視線を当てているとする(視点Ey2〜Ey4に視線が当てられているとする)。このとき、クライアント装置10−2〜10−4それぞれにおいて、視点領域検出部215は、目領域撮像部113によって撮像されたユーザの目領域から視点領域として視点Ey2〜Ey4が存在する領域(図8に示した例では、左上の矩形領域)を検出し、視点領域を示すデータを視点領域データ312として記憶する。
続いて、クライアント装置10−1〜10−4それぞれにおいて、データ送信部216は、視点領域データ312をサーバ装置40に送信する。データ送信部216は、視点領域データ312とともにユーザの映像および算出結果データ311もサーバ装置40に送信してよい。サーバ装置40において、データ受信部411は、クライアント装置10−1〜10−4それぞれから視点領域データ312を受信する。
データ解析部413は、クライアント装置10−1〜10−4それぞれから受信された視点領域データ312を参照することによって、最も多く視線が当てられている映像Mv1’に写っているユーザU1の重要度を、映像Mv2’、映像Mv3’および映像Mv4’に写っているユーザU2、U3、U4の重要度よりも高く算出すればよい。映像品質指示部414は、重要度のより高いユーザU1の映像品質を重要度のより低いユーザU2、U3、U4の映像品質よりも高くする指示をクライアント装置10−1〜10−4に送信する。
クライアント装置10−1〜10−4において、映像品質受付部217は、ユーザの映像品質の指示を受信し、映像品質制御部213は、サーバ装置40から指示された品質に従うと決定した場合には、サーバ装置40から指示された品質になるように映像の品質を制御し、サーバ装置40から指示された品質に従わないと決定した場合には、算出部212によって算出された品質になるよう映像の品質を制御する。映像品質調整部415は、重要度のより高いユーザU1の映像品質が重要度のより低いユーザU2、ユーザU3、U4の映像品質よりも高くなるように映像品質を調整する。
映像圧縮部416は、映像品質調整部415による調整に従って、クライアント装置10−1〜10−4それぞれのユーザの映像をエンコードする。データ送信部417は、クライアント装置10−1〜10−4それぞれのユーザの映像をクライアント装置10−1〜10−4に送信する。
クライアント装置10−1〜10−4それぞれにおいては、データ受信部218がサーバ装置40から送信されたデータを受信し、出力制御部219は、クライアント装置10−1〜10−4それぞれのユーザの映像Mv1〜Mv4を表示部112に表示させる。また、クライアント装置10−1〜10−4それぞれにおいて音情報がマイクロフォンによって収集され、サーバ装置40に送信された場合には、出力制御部219は、それらの音情報を図示しないスピーカから出力させてもよい。
図9は、クライアント装置10−1〜10−4それぞれのユーザの映像Mv1〜Mv4の表示例を示す図である。図9に示すように、映像Mv1〜Mv4が、サーバ装置40からクライアント装置10−1〜10−4それぞれに送信される。また、クライアント装置10−1〜10−4それぞれにおいては、図9に示すように、出力制御部219は、クライアント装置10−1〜10−4それぞれのユーザの映像Mv1〜Mv4を表示部112に表示させる。上記したように、ユーザU1の映像Mv1の品質がユーザU2、U3、U4の映像Mv2〜Mv4の品質よりも高くなっている(図9では、映像Mv1〜Mv4それぞれに写っているユーザの太さが映像品質の高さを示している)。
以上、具体例を用いながら、情報処理システム1の機能について具体的に説明した。
[1.5.クライアント装置の動作例]
続いて、本開示の実施形態に係るクライアント装置10の動作の流れについて説明する。図10は、本開示の実施形態に係るクライアント装置10の動作の流れを示すフローチャートである。なお、図10のフローチャートは、本開示の実施形態に係るクライアント装置10の動作の流れの例に過ぎないため、本開示の実施形態に係るクライアント装置10の動作の流れは、図10のフローチャートに示された例に限定されない。
図10に示すように、クライアント装置10は、サーバ装置40との間で接続を確立し(S11)、サーバ装置40と接続が切れるまで、S13からS32までの動作とS21からS32までの動作とを繰り返す(S12)。映像取得部211は、カメラ111から映像を取得し(S13)、算出部212は、重要度の算出が不要である場合には(S14において「No」)、S16に進む。一方。算出部212は、重要度の算出が必要である場合には(S14において「Yes」)、ユーザの重要度を算出し(S15)、S16に進む。
続いて、映像品質制御部213は、映像品質の制御が不要である場合には(S16において「No」)、S31に進む。一方、映像品質制御部213は、映像品質の制御が必要である場合には(S16において「Yes」)、映像品質を制御し(S17)、S31に進む。一方、データ受信部218は、サーバ装置40から送信された各映像を受信し(SS21)、出力制御部219は、各映像を表示部112に表示させる(S22)。ユーザは、表示された各映像のいずれかに視線を当てる。視点領域検出部215は、ユーザの視点領域を検出し(S23)、S31に進む。
続いて、映像圧縮部416は、映像を圧縮(エンコード)し(S31)、データ送信部417は、データ(映像圧縮部416によって圧縮(エンコード)された映像、視点領域データおよび重要度の算出結果データなど)を、サーバ装置40に送信する(S32)。S33は、上記した繰り返し動作の終端に相当し、繰り返し動作が終了したら、このフローチャートに示した動作も終了する。
以上、本開示の実施形態に係るクライアント装置10の動作の流れについて説明した。
[1.6.サーバ装置の動作例]
続いて、本開示の実施形態に係るサーバ装置40の動作の流れについて説明する。図11および図12は、本開示の実施形態に係るサーバ装置40の動作の流れを示すフローチャートである。なお、図11および図12のフローチャートは、本開示の実施形態に係るサーバ装置40の動作の流れの例に過ぎないため、本開示の実施形態に係るサーバ装置40の動作の流れは、図11および図12のフローチャートに示された例に限定されない。
図11に示すように、サーバ装置40は、n台のクライアント装置10との間で接続を確立し(S41)、全てのクライアント装置10と接続が切れるまで、S43からS60までの動作を繰り返す。その繰り返し動作の中において、k=1,2,3,…,nについて、S44からS45までの動作を繰り返す(S43)。まず、サーバ装置40において、データ受信部411は、クライアント装置kからデータ(映像、視点領域データおよび算出結果データなど)を受信する(S44)。そして、映像解凍部412は、受信した映像を解凍(デコード)する(S45)。S46は、上記した繰り返し動作の終端に相当する。
続いて、データ解析部413は、重要度の算出が不要である場合には(S51において「No」)、S53に進む。一方。データ解析部413は、重要度の算出が必要である場合には(S51において「Yes」)、ユーザの重要度を算出し(S52)、S53に進む。サーバ装置40は、k=1,2,3,…,nについて、S54からS56(またはS57)までの動作を繰り返す(S53)。映像品質指示部414は、映像品質の指示が不要である場合には(S54において「No」)、S56に進む。一方、映像品質指示部414は、映像品質の指示が必要である場合には(S54において「Yes」)、映像品質をクライアント装置kに指示する(S55)。
また、映像品質調整部415は、映像品質の調整が不要である場合には(S56において「No」)、S58に進む。一方、映像品質調整部415は、映像品質の調整が必要である場合には(S56において「Yes」)、映像品質を調整し(S57)、S58に進む。S58は、上記した繰り返し動作の終端に相当する。続いて、映像圧縮部416は、映像品質調整部415による調整に従って各映像を圧縮(エンコード)し(S59)、データ送信部417は、クライアント装置10−1〜10−4それぞれにデータ(各映像)を送信する(S60)。S61は、上記した繰り返し動作の終端に相当する。繰り返し動作が終了したら、このフローチャートに示した動作も終了する。
以上、本開示の実施形態に係るサーバ装置40の動作の流れについて説明した。
[1.7.クライアント装置のハードウェア構成例]
次に、図13を参照して、本開示の実施形態に係るクライアント装置10のハードウェア構成例について説明する。図13は、本開示の実施形態に係るクライアント装置10のハードウェア構成例を示すブロック図である。
図13に示すように、クライアント装置10は、CPU(Central Processing unit)801、ROM(Read Only Memory)803、およびRAM(Random Access Memory)805を含む。また、クライアント装置10は、ホストバス807、ブリッジ809、外部バス811、インターフェース813、入力装置815、出力装置817、ストレージ装置819、ドライブ821、接続ポート823、通信装置825を含んでもよい。さらに、クライアント装置10は、必要に応じて、撮像装置833、およびセンサ835を含んでもよい。クライアント装置10は、CPU801に代えて、またはこれとともに、DSP(Digital Signal Processor)またはASIC(Application Specific Integrated Circuit)と呼ばれるような処理回路を有してもよい。
CPU801は、演算処理装置および制御装置として機能し、ROM803、RAM805、ストレージ装置819、またはリムーバブル記録媒体827に記録された各種プログラムに従って、クライアント装置10内の動作全般またはその一部を制御する。ROM803は、CPU801が使用するプログラムや演算パラメータなどを記憶する。RAM805は、CPU801の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。CPU801、ROM803、およびRAM805は、CPUバスなどの内部バスにより構成されるホストバス807により相互に接続されている。さらに、ホストバス807は、ブリッジ809を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス811に接続されている。
入力装置815は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチおよびレバーなど、ユーザによって操作される装置である。入力装置815は、ユーザの音声を検出するマイクロフォンを含んでもよい。入力装置815は、例えば、赤外線やその他の電波を利用したリモートコントロール装置であってもよいし、クライアント装置10の操作に対応した携帯電話などの外部接続機器829であってもよい。入力装置815は、ユーザが入力した情報に基づいて入力信号を生成してCPU801に出力する入力制御回路を含む。ユーザは、この入力装置815を操作することによって、クライアント装置10に対して各種のデータを入力したり処理動作を指示したりする。また、後述する撮像装置833も、ユーザの手の動き、ユーザの指などを撮像することによって、入力装置として機能し得る。このとき、手の動きや指の向きに応じてポインティング位置が決定されてよい。
出力装置817は、取得した情報をユーザに対して視覚的または聴覚的に通知することが可能な装置で構成される。出力装置817は、例えば、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、有機EL(Electro−Luminescence)ディスプレイ、プロジェクタなどの表示装置、ホログラムの表示装置、スピーカおよびヘッドホンなどの音声出力装置、ならびにプリンタ装置などであり得る。出力装置817は、クライアント装置10の処理により得られた結果を、テキストまたは画像などの映像として出力したり、音声または音響などの音声として出力したりする。また、出力装置817は、周囲を明るくするためライトなどを含んでもよい。
ストレージ装置819は、クライアント装置10の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置819は、例えば、HDD(Hard Disk Drive)などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置819は、CPU801が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。
ドライブ821は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体827のためのリーダライタであり、クライアント装置10に内蔵、あるいは外付けされる。ドライブ821は、装着されているリムーバブル記録媒体827に記録されている情報を読み出して、RAM805に出力する。また、ドライブ821は、装着されているリムーバブル記録媒体827に記録を書き込む。
接続ポート823は、機器をクライアント装置10に直接接続するためのポートである。接続ポート823は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポートなどであり得る。また、接続ポート823は、RS−232Cポート、光オーディオ端子、HDMI(登録商標)(High−Definition Multimedia Interface)ポートなどであってもよい。接続ポート823に外部接続機器829を接続することで、クライアント装置10と外部接続機器829との間で各種のデータが交換され得る。
通信装置825は、例えば、通信ネットワーク50に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置825は、例えば、有線または無線LAN(Local Area Network)、Bluetooth(登録商標)、またはWUSB(Wireless USB)用の通信カードなどであり得る。また、通信装置825は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデムなどであってもよい。通信装置825は、例えば、インターネットや他の通信機器との間で、TCP/IPなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置825に接続される通信ネットワーク50は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信などである。
撮像装置833は、例えば、CCD(Charge Coupled Device)またはCMOS(Complementary Metal Oxide Semiconductor)などの撮像素子、および撮像素子への被写体像の結像を制御するためのレンズなどの各種の部材を用いて実空間を撮像し、撮像画像を生成する装置である。撮像装置833は、静止画を撮像するものであってもよいし、また動画を撮像するものであってもよい。
センサ835は、例えば、加速度センサ、ジャイロセンサ、地磁気センサ、光センサ、音センサなどの各種のセンサである。センサ835は、例えばクライアント装置10の筐体の姿勢など、クライアント装置10自体の状態に関する情報や、クライアント装置10の周辺の明るさや騒音など、クライアント装置10の周辺環境に関する情報を取得する。また、センサ835は、GPS(Global Positioning System)信号を受信して装置の緯度、経度および高度を測定するGPSセンサを含んでもよい。
以上、クライアント装置10のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更され得る。
以上、本開示の実施形態に係るクライアント装置10のハードウェア構成例について説明した。
[1.8.サーバ装置のハードウェア構成例]
次に、図14を参照して、本開示の実施形態に係るサーバ装置40のハードウェア構成例について説明する。図14は、本開示の実施形態に係るサーバ装置40のハードウェア構成例を示すブロック図である。
図14に示すように、サーバ装置40は、CPU(Central Processing unit)901、ROM(Read Only Memory)903、およびRAM(Random Access Memory)905を含む。また、サーバ装置40は、ホストバス907、ブリッジ909、外部バス911、インターフェース913、ストレージ装置919、ドライブ921、接続ポート923、通信装置925を含んでもよい。サーバ装置40は、CPU901に代えて、またはこれとともに、DSP(Digital Signal Processor)またはASIC(Application Specific Integrated Circuit)と呼ばれるような処理回路を有してもよい。
CPU901は、演算処理装置および制御装置として機能し、ROM903、RAM905、ストレージ装置919、またはリムーバブル記録媒体927に記録された各種プログラムに従って、サーバ装置40内の動作全般またはその一部を制御する。ROM903は、CPU901が使用するプログラムや演算パラメータなどを記憶する。RAM905は、CPU901の実行において使用するプログラムや、その実行において適宜変化するパラメータなどを一時的に記憶する。CPU901、ROM903、およびRAM905は、CPUバスなどの内部バスにより構成されるホストバス907により相互に接続されている。さらに、ホストバス907は、ブリッジ909を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス911に接続されている。
ストレージ装置919は、サーバ装置40の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置919は、例えば、HDD(Hard Disk Drive)などの磁気記憶部デバイス、半導体記憶デバイス、光記憶デバイス、または光磁気記憶デバイスなどにより構成される。このストレージ装置919は、CPU901が実行するプログラムや各種データ、および外部から取得した各種のデータなどを格納する。
ドライブ921は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体927のためのリーダライタであり、サーバ装置40に内蔵、あるいは外付けされる。ドライブ921は、装着されているリムーバブル記録媒体927に記録されている情報を読み出して、RAM905に出力する。また、ドライブ921は、装着されているリムーバブル記録媒体927に記録を書き込む。
接続ポート923は、機器をサーバ装置40に直接接続するためのポートである。接続ポート923は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポートなどであり得る。また、接続ポート923は、RS−232Cポート、光オーディオ端子、HDMI(登録商標)(High−Definition Multimedia Interface)ポートなどであってもよい。接続ポート923に外部接続機器929を接続することで、サーバ装置40と外部接続機器929との間で各種のデータが交換され得る。
通信装置925は、例えば、通信ネットワーク50に接続するための通信デバイスなどで構成された通信インターフェースである。通信装置925は、例えば、有線または無線LAN(Local Area Network)、Bluetooth(登録商標)、またはWUSB(Wireless USB)用の通信カードなどであり得る。また、通信装置925は、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、または、各種通信用のモデムなどであってもよい。通信装置925は、例えば、インターネットや他の通信機器との間で、TCP/IPなどの所定のプロトコルを用いて信号などを送受信する。また、通信装置925に接続される通信ネットワーク50は、有線または無線によって接続されたネットワークであり、例えば、インターネット、家庭内LAN、赤外線通信、ラジオ波通信または衛星通信などである。
以上、サーバ装置40のハードウェア構成の一例を示した。上記の各構成要素は、汎用的な部材を用いて構成されていてもよいし、各構成要素の機能に特化したハードウェアにより構成されていてもよい。かかる構成は、実施する時々の技術レベルに応じて適宜変更され得る。
以上、本開示の実施形態に係るサーバ装置40のハードウェア構成例について説明した。
<2.むすび>
以上説明したように、本開示の実施形態によれば、クライアント装置10のユーザが発話しているか否かに応じたユーザの重要度に基づいて、クライアント装置10からサーバ装置40に送信されるユーザの映像の品質を制御する映像品質制御部213、を備える、情報処理装置が提供される。かかる構成によれば、通信回線に送出される映像のデータ量を抑制しつつ、ユーザが所望する映像品質の低下を抑えることが可能な技術が提供されることが可能となる。
また、高解像度の映像を用いたビデオ会議が普及してきている点、複数拠点がビデオ会議に参加することが当たり前になってきている点、さらに無線ネットワーク網を利用したビデオ会議が増えてきている点などを考慮すると、通信回線の帯域を抑えることは必要不可欠である。例えば、複数拠点においてビデオ会議を行う場合などでは、発話者以外のユーザの映像の品質を低下させることによって、大幅に通信回線の帯域を抑えることも可能となる。本技術は、伝送帯域をコントロールする新たな手法として様々なシチュエーションで利用可能であると考えられる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、コンピュータに内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上記したクライアント装置10が有する機能と同等の機能を発揮させるためのプログラムも作成可能である。また、該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。
また、例えば、コンピュータに内蔵されるCPU、ROMおよびRAMなどのハードウェアを、上記したサーバ装置40が有する機能と同等の機能を発揮させるためのプログラムも作成可能である。また、該プログラムを記録した、コンピュータに読み取り可能な記録媒体も提供され得る。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏し得る。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
クライアント装置のユーザが発話しているか否かに応じた前記ユーザの重要度に基づいて、前記クライアント装置からサーバ装置に送信される前記ユーザの映像の品質を制御する映像品質制御部、
を備える、情報処理装置。
(2)
前記映像品質制御部は、前記ユーザの重要度が高いほど、前記ユーザの映像の品質を高くする、
前記(1)に記載の情報処理装置。
(3)
前記情報処理装置は、前記クライアント装置の前記ユーザが発話しているか否かに基づいて、前記ユーザの前記重要度を算出する算出部を備える、
前記(1)または(2)に記載の情報処理装置。
(4)
前記算出部は、前記クライアント装置の前記ユーザが発話しているか否かをカメラによって撮像された映像またはマイクロフォンによって集音された音情報に基づいて判定する、
前記(3)に記載の情報処理装置。
(5)
前記算出部は、前記クライアント装置の前記ユーザが発話している場合には前記ユーザが発話していない場合よりも、前記ユーザの重要度を高くする、
前記(3)または(4)に記載の情報処理装置。
(6)
前記算出部は、前記クライアント装置の前記ユーザによる連続する発話の長さ、発話内容および発話間隔の少なくともいずれか一つに基づいて、前記ユーザの重要度を算出する、
前記(3)〜(5)のいずれか一項に記載の情報処理装置。
(7)
前記映像品質制御部は、前記クライアント装置の前記ユーザの映像の通信回線の帯域にさらに基づいて、前記クライアント装置から前記サーバ装置に送信される前記ユーザの映像の品質を制御する、
前記(1)〜(6)のいずれか一項に記載の情報処理装置。
(8)
前記情報処理装置は、前記クライアント装置と、前記サーバ装置と、前記クライアント装置および前記クライアント装置の外部に存在する1または複数の外部装置とのうち、いずれか一つに組み込まれ、または二つ以上に分散されて組み込まれている、
前記(1)〜(7)のいずれか一項に記載の情報処理装置。
(9)
クライアント装置のユーザが発話しているか否かに応じた前記ユーザの重要度に基づいて、前記クライアント装置からサーバ装置に送信される前記ユーザの映像の品質を制御すること、
を含む、情報処理方法。
(10)
ユーザが発話しているか否かに応じた前記ユーザの重要度に基づいて、サーバ装置に送信される前記ユーザの映像の品質を制御する映像品質制御部を備える、
クライアント装置。
(11)
複数のクライアント装置それぞれについて、ユーザが発話しているか否かに基づいて、前記ユーザの重要度を算出するデータ解析部と、
前記複数のクライアント装置それぞれについて、前記重要度に基づいて、前記クライアント装置から前記サーバ装置に送信される前記ユーザの映像の品質を指示する映像品質指示部と、
を備える、サーバ装置。
(12)
前記データ解析部は、前記複数のクライアント装置それぞれについて、前記ユーザが発話しているか否かに応じた重要度に前記クライアント装置に対応する重み付け係数を乗算することによって前記ユーザの新たな重要度を算出する、
前記(11)に記載のサーバ装置。
(13)
前記データ解析部は、前記複数のクライアント装置それぞれについて、前記複数のクライアント装置それぞれのユーザの視線に基づいて、前記ユーザの重要度を算出する、
前記(11)または(12)に記載のサーバ装置。
(14)
前記データ解析部は、前記視線が当てられている数が多い映像に写っているユーザほど、重要度を高くする、
前記(13)に記載のサーバ装置。
(15)
前記サーバ装置は、
前記複数のクライアント装置それぞれについて、前記重要度に基づいて、前記サーバ装置から前記クライアント装置に送信される前記ユーザの映像の品質を調整する映像調整部を備える、
前記(11)〜(14)のいずれか一項に記載のサーバ装置。
(16)
複数のクライアント装置とサーバ装置とを有する情報処理システムであって、
前記複数のクライアント装置それぞれは、
ユーザが発話しているか否かに応じた前記ユーザの重要度に基づいて、クライアント装置から前記サーバ装置に送信される前記ユーザの映像の品質を制御する映像品質制御部を備える、
情報処理システム。
(17)
前記サーバ装置は、
前記複数のクライアント装置それぞれについて、前記ユーザが発話しているか否かに基づいて、前記ユーザの前記重要度を算出するデータ解析部と、
前記複数のクライアント装置それぞれについて、前記重要度に基づいて、前記クライアント装置から前記サーバ装置に送信される前記ユーザの映像の品質を指示する映像品質指示部と、
前記(16)に記載の情報処理システム。
(18)
前記映像品質制御部は、前記サーバ装置から指示された前記ユーザの映像の品質に従うか否かを決定する、
前記(17)に記載の情報処理システム。
(19)
前記映像品質制御部は、前記サーバ装置に接続されている前記クライアント装置の数に基づいて、前記サーバ装置から指示された前記映像の品質に従うか否かを決定する、
前記(18)に記載の情報処理システム。
(20)
前記映像品質制御部は、前記複数のクライアント装置それぞれのユーザの視線に基づいて、前記サーバ装置から指示された前記映像の品質に従うか否かを決定する、
前記(18)に記載の情報処理システム。
1(1A〜1D) 情報処理システム
10 クライアント装置(端末)
40 サーバ装置
111 カメラ
112 表示部
113 目領域撮像部
114 マイクロフォン
211 映像取得部
212 算出部
213 映像品質制御部
214 映像圧縮部
215 視点領域検出部
216 データ送信部
217 映像品質受付部
218 データ受信部
219 出力制御部
311 算出結果データ
312 視点領域データ
411 データ受信部
412 映像解凍部
413 データ解析部
414 映像品質指示部
415 映像品質調整部
416 映像圧縮部
417 データ送信部
Mv1〜Mv4 映像
Mv1’〜Mv4’ 映像
U1〜U4 ユーザ
Ey(Ey1〜Ey4) 視点

Claims (20)

  1. クライアント装置のユーザが発話しているか否かに応じた前記ユーザの重要度に基づいて、前記クライアント装置からサーバ装置に送信される前記ユーザの映像の品質を制御する映像品質制御部、
    を備える、情報処理装置。
  2. 前記映像品質制御部は、前記ユーザの重要度が高いほど、前記ユーザの映像の品質を高くする、
    請求項1に記載の情報処理装置。
  3. 前記情報処理装置は、前記クライアント装置の前記ユーザが発話しているか否かに基づいて、前記ユーザの前記重要度を算出する算出部を備える、
    請求項1に記載の情報処理装置。
  4. 前記算出部は、前記クライアント装置の前記ユーザが発話しているか否かをカメラによって撮像された映像またはマイクロフォンによって集音された音情報に基づいて判定する、
    請求項3に記載の情報処理装置。
  5. 前記算出部は、前記クライアント装置の前記ユーザが発話している場合には前記ユーザが発話していない場合よりも、前記ユーザの重要度を高くする、
    請求項3に記載の情報処理装置。
  6. 前記算出部は、前記クライアント装置の前記ユーザによる連続する発話の長さ、発話内容および発話間隔の少なくともいずれか一つに基づいて、前記ユーザの重要度を算出する、
    請求項3に記載の情報処理装置。
  7. 前記映像品質制御部は、前記クライアント装置の前記ユーザの映像の通信回線の帯域にさらに基づいて、前記クライアント装置から前記サーバ装置に送信される前記ユーザの映像の品質を制御する、
    請求項1に記載の情報処理装置。
  8. 前記情報処理装置は、前記クライアント装置と、前記サーバ装置と、前記クライアント装置および前記クライアント装置の外部に存在する1または複数の外部装置とのうち、いずれか一つに組み込まれ、または二つ以上に分散されて組み込まれている、
    請求項1に記載の情報処理装置。
  9. クライアント装置のユーザが発話しているか否かに応じた前記ユーザの重要度に基づいて、前記クライアント装置からサーバ装置に送信される前記ユーザの映像の品質を制御すること、
    を含む、情報処理方法。
  10. ユーザが発話しているか否かに応じた前記ユーザの重要度に基づいて、サーバ装置に送信される前記ユーザの映像の品質を制御する映像品質制御部を備える、
    クライアント装置。
  11. 複数のクライアント装置それぞれについて、ユーザが発話しているか否かに基づいて、前記ユーザの重要度を算出するデータ解析部と、
    前記複数のクライアント装置それぞれについて、前記重要度に基づいて、前記クライアント装置から前記サーバ装置に送信される前記ユーザの映像の品質を指示する映像品質指示部と、
    を備える、サーバ装置。
  12. 前記データ解析部は、前記複数のクライアント装置それぞれについて、前記ユーザが発話しているか否かに応じた重要度に前記クライアント装置に対応する重み付け係数を乗算することによって前記ユーザの新たな重要度を算出する、
    請求項11に記載のサーバ装置。
  13. 前記データ解析部は、前記複数のクライアント装置それぞれについて、前記複数のクライアント装置それぞれのユーザの視線に基づいて、前記ユーザの重要度を算出する、
    請求項11に記載のサーバ装置。
  14. 前記データ解析部は、前記視線が当てられている数が多い映像に写っているユーザほど、重要度を高くする、
    請求項13に記載のサーバ装置。
  15. 前記サーバ装置は、
    前記複数のクライアント装置それぞれについて、前記重要度に基づいて、前記サーバ装置から前記クライアント装置に送信される前記ユーザの映像の品質を調整する映像調整部を備える、
    請求項11に記載のサーバ装置。
  16. 複数のクライアント装置とサーバ装置とを有する情報処理システムであって、
    前記複数のクライアント装置それぞれは、
    ユーザが発話しているか否かに応じた前記ユーザの重要度に基づいて、クライアント装置から前記サーバ装置に送信される前記ユーザの映像の品質を制御する映像品質制御部を備える、
    情報処理システム。
  17. 前記サーバ装置は、
    前記複数のクライアント装置それぞれについて、前記ユーザが発話しているか否かに基づいて、前記ユーザの前記重要度を算出するデータ解析部と、
    前記複数のクライアント装置それぞれについて、前記重要度に基づいて、前記クライアント装置から前記サーバ装置に送信される前記ユーザの映像の品質を指示する映像品質指示部と、
    請求項16に記載の情報処理システム。
  18. 前記映像品質制御部は、前記サーバ装置から指示された前記ユーザの映像の品質に従うか否かを決定する、
    請求項17に記載の情報処理システム。
  19. 前記映像品質制御部は、前記サーバ装置に接続されている前記クライアント装置の数に基づいて、前記サーバ装置から指示された前記映像の品質に従うか否かを決定する、
    請求項18に記載の情報処理システム。
  20. 前記映像品質制御部は、前記複数のクライアント装置それぞれのユーザの視線に基づいて、前記サーバ装置から指示された前記映像の品質に従うか否かを決定する、
    請求項18に記載の情報処理システム。
JP2017507346A 2015-03-24 2015-12-29 情報処理装置、情報処理方法、クライアント装置、サーバ装置および情報処理システム Pending JPWO2016151974A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2015061305 2015-03-24
JP2015061305 2015-03-24
PCT/JP2015/086577 WO2016151974A1 (ja) 2015-03-24 2015-12-29 情報処理装置、情報処理方法、クライアント装置、サーバ装置および情報処理システム

Publications (1)

Publication Number Publication Date
JPWO2016151974A1 true JPWO2016151974A1 (ja) 2018-01-11

Family

ID=56977922

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017507346A Pending JPWO2016151974A1 (ja) 2015-03-24 2015-12-29 情報処理装置、情報処理方法、クライアント装置、サーバ装置および情報処理システム

Country Status (3)

Country Link
US (1) US10142593B2 (ja)
JP (1) JPWO2016151974A1 (ja)
WO (1) WO2016151974A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11632413B1 (en) * 2022-07-18 2023-04-18 Rovi Guides, Inc. Methods and systems for streaming media content

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08294102A (ja) * 1995-04-19 1996-11-05 Canon Inc 動画像通信会議システム及びその通信方法
JP4564432B2 (ja) * 2005-09-14 2010-10-20 株式会社東芝 映像合成装置、映像合成方法およびプログラム
US7768543B2 (en) * 2006-03-09 2010-08-03 Citrix Online, Llc System and method for dynamically altering videoconference bit rates and layout based on participant activity
JP4845581B2 (ja) * 2006-05-01 2011-12-28 三菱電機株式会社 画像及び音声通信機能付テレビジョン放送受像機
US8248448B2 (en) 2010-05-18 2012-08-21 Polycom, Inc. Automatic camera framing for videoconferencing
CN103828349B (zh) * 2011-06-07 2019-01-08 英特尔公司 对视频会议流的自动隐私调整
JP2013126103A (ja) * 2011-12-14 2013-06-24 Fujitsu Ltd 通信装置および通信制御方法
US9118940B2 (en) * 2012-07-30 2015-08-25 Google Technology Holdings LLC Video bandwidth allocation in a video conference
JP6123368B2 (ja) 2013-03-11 2017-05-10 株式会社リコー 情報処理装置、通信制御方法及びプログラム
US9379999B2 (en) * 2014-09-29 2016-06-28 Avaya Inc. Audio power based media bandwidth management

Also Published As

Publication number Publication date
WO2016151974A1 (ja) 2016-09-29
US20180070054A1 (en) 2018-03-08
US10142593B2 (en) 2018-11-27

Similar Documents

Publication Publication Date Title
US9762857B2 (en) Video and audio processing devices and video conference system
JP4872871B2 (ja) 音源方向検出装置、音源方向検出方法及び音源方向検出カメラ
JP5651786B2 (ja) 監視カメラによって取り込まれたディジタルビデオストリームを制御可能に見るためのシステムおよび方法
US20090096927A1 (en) System and method for video coding using variable compression and object motion tracking
KR101661201B1 (ko) 휴대용 단말기에서 줌 마이크 기능을 지원하기 위한 장치 및 방법
JP5538918B2 (ja) 音声信号処理装置、音声信号処理システム
JP6377557B2 (ja) 通信システム、通信方法、およびプログラム
WO2021143388A1 (zh) 码率切换方法及设备
WO2016151974A1 (ja) 情報処理装置、情報処理方法、クライアント装置、サーバ装置および情報処理システム
US20170171492A1 (en) Display control apparatus, imaging apparatus, and display control method
JP2017103641A (ja) 情報処理装置、会議システム、情報処理方法およびプログラム
JP6835205B2 (ja) 撮影収音装置、収音制御システム、撮影収音装置の制御方法、及び収音制御システムの制御方法
JP2009118151A (ja) 通信システム、送信装置、中継装置、受信装置及び送信プログラム
US20160372130A1 (en) Image-based techniques for audio content
JP4582329B2 (ja) バーチャル映像用信号生成方法および送受信端末
JP2006339869A (ja) 映像信号と音響信号の統合装置
WO2020006664A1 (zh) 拍摄装置的控制方法、拍摄装置、拍摄系统和存储介质
KR101143164B1 (ko) 휴대 단말기에서 동영상 촬영 시 오디오 입력 신호 처리 방법 및 장치
EP2575362A1 (en) Multimodal mobile video telephony
JPWO2016002322A1 (ja) 画像処理装置、画像処理方法およびプログラム
JP2012199911A (ja) 情報処理装置
CN114449341B (zh) 音频处理方法、装置、可读介质及电子设备
US11823706B1 (en) Voice activity detection in audio signal
JP2017092950A (ja) 情報処理装置、会議システム、情報処理方法およびプログラム
JP7293863B2 (ja) 音声処理装置、音声処理方法およびプログラム