JPWO2011013605A1 - プレゼンテーションシステム - Google Patents

プレゼンテーションシステム Download PDF

Info

Publication number
JPWO2011013605A1
JPWO2011013605A1 JP2011524762A JP2011524762A JPWO2011013605A1 JP WO2011013605 A1 JPWO2011013605 A1 JP WO2011013605A1 JP 2011524762 A JP2011524762 A JP 2011524762A JP 2011524762 A JP2011524762 A JP 2011524762A JP WO2011013605 A1 JPWO2011013605 A1 JP WO2011013605A1
Authority
JP
Japan
Prior art keywords
speaker
unit
image
student
acoustic signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011524762A
Other languages
English (en)
Inventor
渡辺 透
透 渡辺
隆平 天野
隆平 天野
昇 吉野部
昇 吉野部
田中 真文
真文 田中
企世子 辻
企世子 辻
一男 石本
一男 石本
俊朗 中莖
俊朗 中莖
鍬田 海平
海平 鍬田
吉田 昌弘
昌弘 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Publication of JPWO2011013605A1 publication Critical patent/JPWO2011013605A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

デジタルカメラ1は、教室内の各生徒を被写体に含めた撮影を行い、オプティカルフローを用いて、発言者となるべき生徒が椅子から立ち上がる動作や口を動かす動作を検出することで撮影画像上における発言者(何れかの生徒)の位置を特定し、発言者の顔部分の画像データを抽出する。PC2は、プロジェクタ3を用いてスクリーン4上に教材を表示させ、デジタルカメラ1から抽出画像データが伝送された際、その抽出画像データに基づきスクリーン4上に発言者の顔の映像を重畳表示させる。

Description

本発明は、映像表示を用いて学習や討論等を進めるためのプレゼンテーションシステムに関する。
近年、教育現場では、PC(パーソナルコンピュータ)等の情報端末やプロジェクタが用いられることも多く、このような教育現場では、情報端末から送信される教材の内容がプロジェクタのスクリーン上に表示される(例えば下記特許文献1参照)。教室内の各生徒は、スクリーンの表示内容を見ながら先生の話を聞くことで学習を進め、その過程において、随時、自身の考え等を発言する。
一方、少人数(数人程度)で行われる授業も少なくはないものの、多人数の生徒が並んだ状態(例えば、数十人の生徒が二次元配列状に並んだ状態)で授業が行われることも多く、後者の場合は、全員が発言者(何れかの生徒)の顔を見ながら発言者の発言を聞くことは難しく、結果、発言者以外の各生徒はスクリーンや自身のノート等を見ながら発言を聞くことも多い。
しかし、発言内容を聞く時は発言を行う者の顔を見るのが本来の姿であるし、発言者の顔を見ながら発言内容を聞いた方が言葉だけでは表現しきれない発言者の意図を汲み取れることも多い。また、先生と多人数の生徒がコミュニケーションを取りながら協働することで授業は成り立つものであるため、生徒間のコミュニケーションは必要なものであるし、発言者の顔を見るというコミュニケーションがあった方が、各生徒の授業への参加意欲や授業の臨場感が増し、集団学習の利点(競争心による勉強意欲向上効果など)が活かされる、と思われる。
他方、ペンタブレット等のポインティングデバイスを用いて生徒に問題の解答を行わせるという教育スタイルが教育現場に採用されることもある。この教育スタイルは、鉛筆で紙に答えを書くという従来のスタイルの延長線上にある教育スタイルであり、解答するという動作が視覚だけに頼って成される。人間の多様な感覚を刺激して学習を行えば、生徒の学習意欲や記憶力の向上を期待できる。
教育現場における問題点について説明したが、学会発表や会議等においても同様のことが言える。
特開2004−77739号公報
そこで本発明は、複数人が学習や討論等を行う際において、それらの効率等の向上に寄与するプレゼンテーションシステムを提供することを目的とする。
本発明に係る第1プレゼンテーションシステムは、複数の人物を被写体に含めた撮影を行って撮影結果を表す信号を出力する撮像部と、前記撮像部の出力に基づき、画像上において前記複数の人物の中から発言者を検出する発言者検出部と、前記発言者検出部の検出結果に基づき、前記撮像部の出力から前記発言者の画像部分の画像データを発言者画像データとして抽出する抽出部と、を備え、前記発言者画像データに基づく映像を、前記複数の人物が視認可能な表示画面上に表示することを特徴とする。
これにより、複数の人物の全員が発言者の顔を見ながら発言内容を聞くことができるようになる。結果、例えば、当該プレゼンテーションシステムを教育現場に適用した場合であれば、発言者の顔を見るという生徒間のコミュニケーションによって各生徒の授業への参加意欲(勉強意欲)や授業の臨場感が増し、集団学習の利点(競争心による勉強意欲向上効果など)がより良く活かされるようになる。加えて、発言者以外の各生徒は、発言者の顔を見ながら発言内容を聞くことによって、言葉だけでは表現しきれない発言者の意図を汲み取ることができるようになる。即ち、言葉以外の情報(例えば、表情から読み取れる発言の自信度)をも得ることができるようになり、発言を聞くことで得られる学習の効率が向上する。
また例えば、前記撮像部の周辺音に応じた音響信号を生成する音響信号生成部を第1プレゼンテーションシステムに更に設け、前記音響信号生成部は、前記発言者検出部の検出結果に基づき、前記音響信号において前記発言者が位置する方向より到来する音の成分が強調されるように前記音響信号の指向性を制御するようにしても良い。
より具体的には例えば、前記撮像部の周辺音に応じた音響信号を個別に出力する複数のマイクロホンから成るマイク部を第1プレゼンテーションシステムに更に設け、前記音響信号生成部は、前記複数のマイクロホンの出力音響信号を用いて、前記発言者からの音の成分が強調された発言者音響信号を生成する。
そして例えば、第1プレゼンテーションシステムにおいて、前記発言者画像データ及び前記発言者音響信号に応じたデータを、互いに関連付けて記録するようにしても良い。
或いは例えば、第1プレゼンテーションシステムにおいて、前記発言者画像データ、前記発言者音響信号に応じたデータ、及び、前記発言者の発言時間に応じたデータを、互いに関連付けて記録するようにしても良い。
具体的には例えば、第1プレゼンテーションシステムは、所定の映像を前記表示画面上に表示しているときにおいて、前記抽出部より前記発言者画像データが抽出された際、前記表示画面において前記発明者画像データに基づく映像を前記所定の映像上に重畳して表示する。
本発明に係る第2プレゼンテーションシステムは、複数の人物の夫々に対応して設けられ、対応する人物が発した音声に応じた音響信号を出力する複数のマイクロホンと、各マイクロホンの出力音響信号に基づく音声認識処理により、各マイクロホンの出力音響信号を文字データに変換する音声認識部と、前記複数の人物が視認可能な1又は複数の表示装置と、前記文字データが予め設定された条件を満たすか否かに応じて前記表示装置の表示内容を制御する表示制御部と、を備えたことを特徴とする。
これにより、発声動作、音声による聴覚の刺激、音声に応じた表示内容制御による視覚の刺激を、教育システム等に組み入れることができる。例えば、当該プレゼンテーションシステムを教育現場に適用した場合においては、従来方式と比べて、より生徒の五感が刺激され、生徒の学習意欲の向上、記憶力の向上が期待される。
本発明に係る第3プレゼンテーションシステムは、被写体の撮影を行って撮影結果を表す信号を出力する撮像部と、前記撮像部の周辺音に応じた音響信号を出力するマイク部と、前記マイク部の出力音響信号に基づいて複数の人物の中から発言者を検出する発言者検出部と、を備え、前記発言者を前記被写体に含めた状態における前記撮像部の出力を、前記複数の人物が視認可能な表示画面上に表示することを特徴とする。
これによっても、複数の人物の全員が発言者の顔を見ながら発言内容を聞くことができるようになる。結果、例えば、当該プレゼンテーションシステムを教育現場に適用した場合であれば、発言者の顔を見るという生徒間のコミュニケーションによって各生徒の授業への参加意欲(勉強意欲)や授業の臨場感が増し、集団学習の利点(競争心による勉強意欲向上効果など)がより良く活かされるようになる。加えて、発言者以外の各生徒は、発言者の顔を見ながら発言内容を聞くことによって、言葉だけでは表現しきれない発言者の意図を汲み取ることができるようになる。即ち、言葉以外の情報(例えば、表情から読み取れる発言の自信度)をも得ることができるようになり、発言を聞くことで得られる学習の効率が向上する。
具体的には例えば、第3プレゼンテーションシステムにおいて、前記マイク部は、前記撮像部の周辺音に応じた音響信号を個別に出力する複数のマイクロホンを有し、前記発言者検出部は、前記複数のマイクロホンの出力音響信号に基づき、前記マイク部の設置位置との関係において前記発言者からの音の到来方向である音声到来方向を判定し、その判定結果を用いて前記発言者を検出する。
より具体的には例えば、第3プレゼンテーションシステムにおいて、前記音声到来方向の判定結果に基づいて前記複数のマイクロホンの出力音響信号から前記発言者より到来する音響信号成分を抽出することにより、前記発言者からの音の成分が強調された発言者音響信号を生成する。
或いは例えば、第3プレゼンテーションシステムにおいて、前記マイク部は、各々が前記複数の人物の何れかに対応付けられた複数のマイクロホンを有し、前記発言者検出部は、各マイクロホンの出力音響信号の大きさに基づいて前記発言者を検出する。
より具体的には例えば、第3プレゼンテーションシステムにおいて、前記複数のマイクロホンの内、前記発言者としての人物に対応付けられたマイクロホンの出力音響信号を用いて、前記発言者からの音の成分を含む発言者音響信号を生成する。
そして例えば、第3プレゼンテーションシステムにおいて、前記発言者を前記被写体に含めた状態における前記撮像部の出力に基づく画像データ、及び、前記発言者音響信号に応じたデータを、互いに関連付けて記録するようにしても良い。
或いは例えば、第3プレゼンテーションシステムにおいて、前記発言者を前記被写体に含めた状態における前記撮像部の出力に基づく画像データ、前記発言者音響信号に応じたデータ、及び、前記発言者の発言時間に応じたデータを、互いに関連付けて記録するようにしても良い。
また例えば、第3プレゼンテーションシステムにおいて、前記複数の人物の中に音を発している人物が複数存在する場合、前記発言者検出部は、前記マイク部の出力音響信号に基づいて、音を発している複数の人物を複数の発言者として検出し、当該プレゼンテーションシステムは、前記複数のマイクロホンの出力音響信号から、前記複数の発言者からの音響信号を個別に生成する。
また例えば、第3プレゼンテーションシステムにおいて、前記マイク部の出力音響信号に基づく音響信号が複数のスピーカの内の全部又は一部にて再生され、当該プレゼンテーションシステムは、前記発言者音響信号を再生させる際、前記複数のスピーカの内、前記発言者に対応付けられたスピーカにて前記発言者音響信号を再生させる。
本発明に係る第4プレゼンテーションシステムは、複数の人物の撮影を行って撮影結果を表す信号を出力する撮像部と、前記撮像部の出力に基づき前記人物ごとに前記人物の画像である個人画像を生成し、これによって前記複数の人物に対応する複数の個人画像を生成する個人画像生成部と、前記複数の人物が視認可能な表示画面上に、前記複数の個人画像を複数回に分けて順次表示させる表示制御部と、を備え、所定のトリガ信号を受けたときに前記表示画面に表示されている個人画像に対応する人物が発言者に成るべきことを提示することを特徴とする。
映像表示された人物が発言者になるというルールを教育現場に持ち込むことにより、授業等の緊張感が高まり、学習効率の向上効果等が期待される。
本発明によれば、複数人が学習や討論等を行う際において、それらの効率等の向上に寄与するプレゼンテーションシステムを提供することが可能となる。
本発明の意義ないし効果は、以下に示す実施の形態の説明により更に明らかとなろう。ただし、以下の実施の形態は、あくまでも本発明の一つの実施形態であって、本発明ないし各構成要件の用語の意義は、以下の実施の形態に記載されたものに制限されるものではない。
本発明の第1実施形態に係る教育システムの全体構成図である。 教育システムを利用する複数の人物(生徒)を示した図である。 本発明の第1実施形態に係るデジタルカメラの概略的な内部ブロック図である。 図3のマイク部の内部構成図である。 図3のデジタルカメラに内包される部位のブロック図である。 図2に示される複数の人物の内、一人の人物が発言のために立っている様子を示した図である。 (a)及び(b)は、夫々、本発明の第1実施形態に係り、発言者、マイクロホン原点及び音声到来方向の関係を示した図と、音声到来方向の検出方法を説明するための図である。 本発明の第1実施形態に係り、1枚のフレーム画像から抽出された4つの顔領域を示す図である。 (a)及び(b)は、図1のスクリーンに表示されるべき画像の例を示した図である。 図1のスクリーンに表示されるべき画像の例を示した図である。 本発明の第2実施形態に係る教育システムの全体構成を教育システムの利用者と共に示した図である。 図11に示される1つの情報端末の概略的な内部ブロック図である。 本発明の第3実施形態に係る教育システムの全体構成を教育システムの利用者と共に示した図である。 本発明の第3実施形態に係る教育システムの全体構成を教育システムの利用者と共に示した図であって、図13との比較においてスクリーンの表示内容が変化する様子を示した図である。 本発明の第4実施形態に係る教育システムの全体構成を、教育システムの利用者と共に示した図である。 本発明の第4実施形態に係り、スクリーンの表示内容の例を示す図である。 本発明の第4実施形態に係り、スクリーンの表示内容の他の例を示す図である。 本発明の第5実施形態に係り、デジタルカメラの概略的な構成図である。 (a)及び(b)は、本発明の第5実施形態に係る教育現場を説明するための図である。 本発明の第5実施形態に係り、教育システムの一部のブロック図である。 本発明の第5実施形態に係り、デジタルカメラで取得されるフレーム画像の例を示す図である。 本発明の第5実施形態に係り、教室内に4つのスピーカが配置される様子を示す図である。 (a)及び(b)は、本発明の第6実施形態に係る教育現場を説明するための図である。 本発明の第6実施形態に係り、教育システムの一部のブロック図である。 本発明の第7実施形態に係る教育現場を説明するための図である。 本発明の第8実施形態に係り、教育システムの一部のブロック図である。 本発明の第9実施形態に係る2つの教室を示した図である。 本発明の第9実施形態に係り、各教室に生徒が収容される様子を示した図である。 本発明の第9実施形態に係り、教育システムの一部のブロック図である。 本発明の第10実施形態に係るプロジェクタの外観構成を示す図である。 本発明の第10実施形態に係るプロジェクタの内部構成を示す斜視図である。 本発明の第10実施形態に係るプロジェクタの内部構成を示す平面図である。 本発明の第10実施形態に係るプロジェクタの構成を示すブロック図である。
以下、本発明の実施の形態につき、図面を参照して具体的に説明する。参照される各図において、同一の部分には同一の符号を付し、同一の部分に関する重複する説明を原則として省略する。
<<第1実施形態>>
本発明の第1実施形態を説明する。図1は、第1実施形態に係る教育システム(プレゼンテーションシステム)の全体構成図である。図1の教育システムは、撮像装置であるデジタルカメラ1、パーソナルコンピュータ(以下、PCと略記する)2、プロジェクタ3及びスクリーン4を含んで構成される。図2には、教育システムを利用する複数の人物が示されている。教育システムが教育現場で利用されることを想定して以下の説明を行うが、教育システムを、学会発表、会議など、様々な状況下で利用することが可能である(後述の他の実施形態においても同様)。第1実施形態に係る教育システムを、任意の年齢層の生徒に対する教育現場に採用することができる。図2に示される各人物は教育現場における生徒である。生徒の人数が4人であることを想定し、4人の人物としての4人の生徒を符号61〜64によって参照する。但し、生徒の数は、2以上であれば何人でも構わない。各生徒61〜64の前方には机が設置されており、図2に示す状況では、各生徒61〜64が個々に割り当てられた椅子に座っている。
図3は、デジタルカメラ1の概略的な内部ブロック図である。デジタルカメラ1は、静止画像及び動画像を撮影可能なデジタルビデオカメラであり、符号11〜16によって参照される各部位を備える。尚、後述の任意の実施形態にて述べられるデジタルカメラを、デジタルカメラ1と同等のデジタルカメラとすることができる。
撮像部11は、光学系と、絞りと、CCD(Charge Coupled Device)やCMOS(Complementary Metal Oxide Semiconductor)イメージセンサなどから成る撮像素子と、を有する。撮像部11における撮像素子は、光学系及び絞りを介して入射した被写体を表す光学像を光電変換することによって、該光学像を表す電気信号を映像信号処理部12に出力する。映像信号処理部12は、撮像部11からの電気信号に基づいて、撮像部11によって撮影された画像(以下、「撮影画像」ともいう)を表す映像信号を生成する。撮像部11では、所定のフレームレートで順次撮影が行われ、次々と撮影画像が得られる。フレームレートの逆数である、1つのフレーム周期(例えば、1/60秒)分の映像信号によって表される撮影画像をフレーム又はフレーム画像とも言う。
マイク部13は、デジタルカメラ1の筐体上の異なる位置に配置された複数のマイクロホンから形成される。本実施形態では、図4に示す如く、マイク部13が、無指向性のマイクロホン13A及び13Bから形成されるものとする。マイクロホン13A及び13Bは、個別にデジタルカメラ1の周辺音(厳密にはマイクロホン自身の周辺音)をアナログの音響信号に変換する。音響信号処理部14は、マイクロホン13A及び13Bからの各音響信号をデジタル信号に変換する変換処理を含む音響信号処理を実行し、音響信号処理後の音響信号を出力する。尚、マイクロホン13A及び13Bの中心(厳密には例えば、マイクロホン13Aの振動板の中心とマイクロホン13Bの振動板の中心との中間地点)を、便宜上、マイクロホン原点と呼ぶ。
主制御部15は、CPU(Central Processing Unit)、ROM(Read Only Memory)及びRAM(Random Access Memory)等を備え、デジタルカメラ1の各部位の動作を統括的に制御する。通信部16は、主制御部15の制御の下、外部機器との間で必要な情報を無線にて送受信する。
図1の教育システムでは、通信部16の通信対象はPC2である。PC2には無線通信機能が備えられており、通信部16が送信する任意の情報はPC2に伝達される。尚、デジタルカメラ1とPC2との間の通信を有線通信にて実現しても構わない。
PC2は、スクリーン4に表示されるべき映像の内容を決定し、その映像の内容を表す映像情報を無線又は有線でプロジェクタ3に伝達する。これにより、PC2にて決定されたスクリーン4にて表示されるべき映像が、実際にプロジェクタ3からスクリーン4に投影されてスクリーン4上に表示される。図1において、破線直線はプロジェクタ3からの投影光をイメージ化したものである(後述の図11及び図13〜図15においても同様)。生徒61〜64がスクリーン4の表示内容を視認できるように、プロジェクタ3及びスクリーン4は設置されている。プロジェクタ3は表示装置として機能する。該表示装置の構成要素に、スクリーン4が含まれていると考えても構わないし、スクリーン4が含まれていないと考えても構わない(後述の他の実施形態においても同様)。
デジタルカメラ1の撮影範囲内に、生徒61〜64が全て収まるようにデジタルカメラ1の設置場所及び設置方向は調整される。従って、デジタルカメラ1は、生徒61〜64を被写体に含めた状態でフレーム画像列の撮影を行う。例えば、撮像部11の光軸を生徒61〜64の方向に向けつつ、図1に示す如くスクリーン4の上部にデジタルカメラ1を設置する。フレーム画像列とは、時系列に並ぶフレーム画像の集まりを指す。
デジタルカメラ1は、生徒61〜64の中から発言者を検出し、発言者の顔部分の画像データを抽出する機能を備える。図5は、この機能を担う部位のブロック図である。発言者検出部21及び抽出部22を、図3の主制御部15に設けることができる。
発言者検出部21及び抽出部22には、撮像部11の撮影によって得られたフレーム画像の画像データが次々と入力される。画像データとは、デジタル値で表現された映像信号の一種である。発言者検出部21は、フレーム画像の画像データに基づき、フレーム画像の全画像領域から人物の顔の画像データが存在する画像領域(全画像領域の一部)を顔領域として抽出する顔検出処理を実行可能である。顔検出処理によって、フレーム画像上及び画像空間上における顔の位置及び大きさが顔ごとに検出される。画像空間とは、フレーム画像等の任意の二次元画像が配置される、二次元座標空間を指す。実際には例えば、顔領域が矩形領域である場合、フレーム画像上及び画像空間上における顔領域の中心位置と顔領域の水平及び垂直方向の大きさが、顔の位置及び大きさとして検出される。以下の説明では、顔領域の中心位置を、単に顔の位置という。
発言者検出部21は、フレーム画像の画像データに基づき、生徒61〜64の中から、現に音声を発している生徒又はこれから発言を行おうとしている生徒を発言者として検出し、画像空間上における発言者の顔領域の位置及び大きさを特定する発言者情報を生成する。発言者の検出方法として様々な検出方法を利用できる。以下、複数の検出方法を例示する。
例えば、図6に示す如く、発言者が椅子から立ち上がって発言するという発言スタイルが教育現場で採用されている場合には、画像空間上における各顔の位置又は位置変化から、発言者を検出することができる。より具体的は、各フレーム画像に対して顔検出処理を実行することで各フレーム画像上における生徒61〜64の顔の位置を監視しておく。そして、或る注目した顔の位置が、対応する机から離れる方向に所定距離以上移動した場合に、その注目した顔を有する生徒が発言者であると判断すると共に、その注目した顔についての顔領域の位置及び大きさを発言者情報に含める。
また例えば、フレーム画像列の画像データに基づいて時間的に隣接するフレーム画像間のオプティカルフローを導出し、該オプティカルフローに基づいて発言者に対応する特定動作を検出することで発言者を検出するようにしても良い。
特定動作とは、例えば、椅子から立ち上がる動作や、発言するために口を動かす動作である。
即ち例えば、生徒61の顔領域が生徒61の机から遠ざかる方向に移動していることを示すオプティカルフローが得られた場合、生徒61を発言者として検出することができる(生徒62等が発言者である場合も同様)。
或いは例えば、生徒61の顔領域内における口周辺部の動き量を算出し、該動き量が基準動き量よりも大きい場合に生徒61を発言者として検出することもできる(生徒62等についても同様)。生徒61の顔領域内における口周辺部のオプティカルフローは、その口周辺部を形成する各部分における動きの向き及び大きさを表す動きベクトルの束である。これらの動きベクトルの大きさの平均値を、口周辺部の動き量として算出することができる。生徒61が発言者として検出された場合、生徒61の顔領域の位置及び大きさが発言者情報に含められる(生徒62等が発言者である場合も同様)。
また例えば、マイク部13を用いて得た音響信号を利用して発言者を検出するようにしても良い。具体的には例えば、マイクロホン13A及び13Bの出力音響信号の位相差に基づいて、マイクロホン13A及び13Bの出力音響信号の主成分が何れの方向からマイクロホン原点(図4参照)に向かって到来したものであるのかを判定する。判定した方向を、音声到来方向と呼ぶ。図7(a)に示す如く、音声到来方向は、マイクロホン原点と発言者を結ぶ方向を表す。マイクロホン13A及び13Bの出力音響信号の主成分を発言者の音声であるとみなすことができる。
複数のマイクロホンの出力音響信号の位相差に基づく、音声到来方向の判定方法として公知の任意の方法を利用することができる。図7(b)を参照して、この判定方法を簡単に説明する。図7(b)に示す如く、無指向性マイクロホンとしてのマイクロホン13A及び13Bは、距離Lkを隔てて配置されている。マイクロホン13Aとマイクロホン13Bとを結ぶ平面であって、且つ、デジタルカメラ1の前方及び後方の境界となる平面13Pを想定する(平面13Pに直交する二次元図面である図7(b)では、平面13Pが線分として現れている)。前方側には、教育システムが導入される教室内の各生徒が存在している。平面13Pの前方に音源が存在し、音源とマイクロホン13A及びマイクロホン13Bとを結ぶ各直線と平面13Pとの成す角度がθであるとする(但し、0°<θ<90°)。また、その音源はマイクロホン13Aよりもマイクロホン13Bに近い位置に存在するものとする。この場合、音源からマイクロホン13Aまでの距離は、音源からマイクロホン13Bまでの距離よりも、距離Lkcosθだけ長くなる。従って、音の速さをVkとすると、音源から発せられた音は、その音がマイクロホン13Bに到達してから“Lkcosθ/Vk”に相当する時間だけ遅れてマイクロホン13Aに到達することになる。この時間差“Lkcosθ/Vk”は、マイクロホン13A及び13Bの出力音響信号の位相差となって現れるため、マイクロホン13A及び13Bの出力音響信号の位相差(即ち、Lkcosθ/Vk)を求めることで、発言者としての音源の音声到来方向(即ちθの値)を求めることができる。上述の説明から明らかなように、角度θは、マイクロホン13A及び13Bの設置位置を基準とした、発言者からの音の到来方向を表している。
一方で、生徒61〜64の位置とデジタルカメラ1(マイクロホン原点)の位置との間の実空間上における距離や、撮像部11の焦点距離等に基づき、発言者(生徒61、62、63又は64)の画像空間上における位置と音声到来方向の対応付けを予め行っておく。即ち、音声到来方向が求まれば、フレーム画像上の全画像領域中のどの当たりの画像領域に、発言者の顔の画像データが存在するのかが特定されるように、上記の対応付けを予め行っておく。これにより、音声到来方向の判定結果と顔検出処理の結果から、フレーム画像上における発言者の顔の位置を検出することができる。発言者の顔領域がフレーム画像上の特定画像領域内に存在していることが音声到来方向の判定結果から判明し、仮に、その特定画像領域内に生徒61の顔領域が存在していたとしたならば、生徒61が発言者として検出されて生徒61の顔領域の位置及び大きさが発言者情報に含められる(生徒62等が発言者である場合も同様)。
更に例えば、生徒61〜64の先生が発した、何れかの生徒を指名する音声の音響信号に基づいて発言者を検出するようにしても良い。この場合、生徒61〜64の呼び名(氏名やニックネーム)を呼び名データとして予め発言者検出部21に登録しておくと共に、音響信号に基づいて音響信号に含まれる音声を文字データに変換する音声認識処理を発言者検出部21にて実行できるように発言者検出部21を形成しておく。そして、マイクロホン13A又は13Bの出力音響信号に音声認識処理を施して得られた文字データが生徒61の呼び名データと一致する時、或いは、該文字データに生徒61の呼び名データが含まれる時、生徒61を発言者として検出することができる(生徒62等が発言者である場合も同様)。この際、フレーム画像上の全画像領域中のどの当たりの画像領域に生徒61の顔領域が存在するのかを予め決めておくようにすれば、音声認識処理により生徒61が発言者として検出された時点で、顔検出処理の結果から、発言者情報に含められるべき顔の位置及び大きさを決定することができる(生徒62等が発言者である場合も同様)。尚、生徒61〜64の顔画像を予め登録顔画像として発言者検出部21に記憶させておき、音声認識処理により生徒61が発言者として検出された場合、フレーム画像から抽出された各顔領域内の画像と生徒61の登録顔画像とを照合することで、フレーム画像から抽出された顔領域の何れが生徒61の顔領域であるのかを判断するようにしても良い(生徒62等が発言者である場合も同様)。
上述の如く、画像データ及び/又は音響信号に基づく多様な方法によって発言者の検出を行うことができるが、発言者が発言するスタイル(例えば、座ったまま発言するのか、起立して発言するのか)や先生が生徒を指名するスタイルは教育現場によって様々であるため、どのような状況においても正確な発言者検出ができるように、上述の検出方法の内の複数を併用して、発言者検出を行うようにすることが望ましい。
図5の、抽出部22は、発言者の顔領域の位置及び大きさを規定する発言者情報に基づき、各フレーム画像の画像データから発言者の顔領域内の画像データを抽出し、抽出した画像データを発言者画像データとして出力する。図8の画像60は、発言者の検出後に撮影されたフレーム画像の例を表している。尚、図8では、図示の簡略化上、生徒61〜64の顔のみが示されている(胴体等の図示を省略)。図8において、破線矩形領域61F〜64Fは、夫々、フレーム画像60上における生徒61〜64の顔領域である。仮に発言者が生徒61であった場合、抽出部22は、フレーム画像60の画像データが入力された際に、フレーム画像60の画像データから顔領域61Fの画像データを発言者画像データとして抽出及び出力する。尚、発言者の顔領域の画像データだけでなく、発言者の肩部分や上半身部分の画像データをも発言者画像データに含めるようにしても構わない。
主制御部15は、抽出部22から発言者画像データが出力された場合、その発言者画像データを通信部16を介してPC2に伝達する。PC2には、図9(a)に示すような、原画像70の画像データが予め格納されている。原画像70には、勉強用の情報(数式や英文等)が記されている。抽出部22から発言者画像データが出力されていない場合には、原画像70そのものの映像がスクリーン4上に表示されるように、PC2はプロジェクタ3に映像情報を送出する。一方、抽出部22から発言者画像データが出力されている場合、PC2は、原画像70と発言者画像データから図9(b)に示すような加工画像71を生成し、加工画像71の映像がスクリーン4上に表示されるように、PC2はプロジェクタ3に映像情報を送出する。加工画像71は、原画像70上の所定位置に発言者画像データに基づく顔領域内の画像72を重畳して得られる画像である。画像72が配置される上記の所定位置は、予め定められた固定位置であっても良いし、該所定位置を原画像70の内容に応じて変化させても良い。例えば、原画像70の内、濃淡変化の少ない平坦部(勉強用の情報が記載されていない部分)を検出し、該平坦部に画像72を配置するようにしても良い。
図5の抽出部22は、発言者が特定された後、フレーム画像列の画像データに基づいて発言者の顔領域の位置をフレーム画像列上で追尾し、最新のフレーム画像上における発言者の顔領域内の画像データを発言者画像データとして次々と抽出する。この次々と抽出される発言者画像データに基づいて加工画像71上の画像72を更新することにより、スクリーン4上において、発言者の顔画像は動画像となる。
また、音響信号処理部14にて、発言者の音声の音響信号のみを抽出する音源抽出処理を行うようにしても良い。音源抽出処理では、上述の方法によって音声到来方向を検出した後、音声到来方向の指向性を高める指向性制御によって、マイクロホン13A及び13Bの出力音響信号から発言者の音声の音響信号のみを抽出し、抽出した音響信号を発言者音響信号として生成する。実際には、マイクロホン13A及び13Bの出力音響信号の位相差を調整することにより、マイクロホン13A及び13Bの出力音響信号の内、音声到来方向より到来した音の信号成分を強調し、この強調後の音響信号であるモノラルの音響信号を発言者音響信号として生成する。結果、発言者音響信号においては、音声到来方向の指向性が他の方向のそれよりも高くなる。指向性制御の方法として様々な方法が既に提案されており、音響信号処理部14は、公知の方法を含む任意の指向性制御方法(例えば、特開2000−81900号公報、特開平10−313497号公報に記載の方法)を用いて発言者音響信号を生成することができる。
デジタルカメラ1は、得られた発言者音響信号をPC2に伝送することができる。発言者音響信号を、生徒61〜64がいる教室内に配置されたスピーカ(不図示)から出力することもできるし、デジタルカメラ1又はPC2に設けられた記録媒体(不図示)に記録することもできる。また、PC2において発言者音響信号の信号強度を測定し、測定された信号強度に応じた指標を、図9(b)の加工画像71上に重畳するようにしても良い。該信号強度の測定をデジタルカメラ1側で行うことも可能である。図10に、その指標を加工画像71上に重畳することで得た画像74を示す。画像74上におけるインジケータ75の状態は、発言者音響信号の信号強度に応じて変化し、その変化の様子がスクリーン4の表示内容にも反映される。発言者は、このインジケータ75の状態を見ることで自身の声の大きさを認識することができ、結果、はきはきとした発言を心がける動機付けを得ることができる。
本実施形態に如く、スクリーン4上に発言者の顔画像を表示するようにすれば、生徒全員が発言者の顔を見ながら発言内容を聞くことができるようになる。発言者の顔を見るという生徒間のコミュニケーションによって各生徒の授業への参加意欲(勉強意欲)や授業の臨場感が増し、集団学習の利点(競争心による勉強意欲向上効果など)がより良く活かされるようになる。加えて、発言者以外の各生徒は、発言者の顔を見ながら発言内容を聞くことによって、言葉だけでは表現しきれない発言者の意図を汲み取ることができるようになる。即ち、言葉以外の情報(例えば、表情から読み取れる発言の自信度)をも得ることができるようになり、発言を聞くことで得られる学習の効率が向上する。
本実施形態に係る教育システムの基本的な動作及び構成を説明したが、以下のような応用例も教育システムに適用可能である。
例えば、生徒61〜64が発言者となって発言した回数を発言者検出部21の検出結果に基づいて生徒ごとに計数し、計数した回数をPC2上のメモリ等に記録するようにしても良い。また、この際、生徒ごとに、発言を行っている時間の長さもPC2上のメモリ等に記録するようにしても良い。先生は、これらの記録データを、生徒の学習意欲評価等のための支援データとして利用することができる。
また、生徒61〜64の内、複数の生徒が発言者となるべく挙手した場合、通常は、その挙手した複数の生徒の内の1人が先生により発言者として指名されるが、挙手した複数の生徒を上記オプティカルフロー等に基づいてデジタルカメラ1側で自動検出し、乱数等を利用してデジタルカメラ1が挙手した複数の生徒の中から発言者となるべき一人の生徒を指名するようにしても良い。この場合も、デジタルカメラ1が発言者として指名した生徒の顔領域の画像データが発言者画像データとして抽出されて、スクリーン4上に発言者の顔画像が表示される。先生が発言者を指名する方法では、どうしても主観的な要素が介在し、発言者として指名される生徒に偏りが生じる、或いは、実際には偏りが生じていなくても偏りが生じているのではないかという不公平感が生じる。このような偏りや不公平感は、生徒の学習意欲向上にとっての阻害要因であり、排除されたほうが望ましい。上述ようなデジタルカメラ1による発言者指名方法は、該阻害要因の排除に寄与する。
また、PC2からプロジェクタ3に伝達される映像情報及びマイク部13にて得られた音響信号に基づく音声情報(発言者音響信号を含む)を、生徒61〜64以外の生徒が授業を受けるサテライト教室に配信するようにしても良い。即ち例えば、PC2からプロジェクタ3に伝達される映像情報及びマイク部13にて得られた音響信号に基づく音声情報を、無線又は有線にてPC2からPC2以外の情報端末に伝達する。該情報端末は、サテライト教室に配置されたプロジェクタに該映像情報を送出することでサテライト教室に配置されたスクリーン上にスクリーン4と同じ映像を表示させる。それと共に、該情報端末は、サテライト教室に配置されたスピーカに該音声情報を送出する。これにより、サテライト教室で授業を受ける各生徒は、スクリーン4と同じ映像を見ることができると共に、スクリーン4が配置された教室内の音声と同様の音声を聞くことができる。
また、上述の例では、抽出部22にて抽出された発言者画像データが一旦PC2に送出されているが、該発言者画像データをデジタルカメラ1内の抽出部22から直接プロジェクタ3に供給するようにし、PC2からの原画像70(図9(a)参照)と抽出部22からの発言者画像データに基づいて加工画像71(図9(b)参照)を生成する処理をプロジェクタ3内において実行するようにしても良い。
図1に示す例では、デジタルカメラ1とプロジェクタ3が別の筐体に収められているが、デジタルカメラ1とプロジェクタ3を共通の筐体内に収めることも可能である(即ち、デジタルカメラ1とプロジェクタ3を一体化することも可能である)。この場合、デジタルカメラ1及びプロジェクタ3を一体化した装置を、スクリーン4の上部に設置するようにしても良い。デジタルカメラ1及びプロジェクタ3を一体化すれば、発言者画像データをプロジェクタ3に供給する際に無線通信等を行う必要が無くなる。スクリーン4から数センチメートル程度離すだけで数10インチの映像を投影することのできる超短焦点プロジェクタをプロジェクタ3として用いれば、上述のような一体化の実現が容易となる。
また、発言者検出部21及び抽出部22がデジタルカメラ1に設けられている例を上述したが、発言者検出部21及び抽出部22は、教育システム(プレゼンテーションシステム)を形成する、デジタルカメラ1以外の任意の構成要素に含まれていても良い。
即ち例えば、発言者検出部21及び抽出部22の何れか又は双方をPC2に設けるようにしても良い。発言者検出部21及び抽出部22がPC2に設けられる場合には、撮像部11の撮影によって得られたフレーム画像の画像データを、そのまま通信部16を介してPC2に供給すればよい。抽出部22をPC2に設けるようにすれば、抽出に関してより自由度の高い設定が可能となる。例えば、生徒の顔画像の登録処理等を、PC2にて動作するアプリケーション上にて行う、といったことが可能になる。また、発言者検出部21及び抽出部22の何れか又は双方をプロジェクタ3に設けることも可能である。
また、マイク部13及び音響信号処理部14から成る部位は、発言者音響信号を生成する音響信号生成部として機能するが、この音響信号生成部の機能の全部又は一部を、デジタルカメラ1ではなく、PC2又はプロジェクタ3に担わせるようにしても良い。
尚、本実施形態では、教室内の風景を撮影するデジタルカメラの台数が1台であることを想定したが、デジタルカメラの台数は複数台であっても構わない。複数台のデジタルカメラを連係させることにより、多方面からみた映像をスクリーン上に表示させることができる。
<<第2実施形態>>
本発明の第2実施形態を説明する。図11は、第2実施形態に係る教育システム(プレゼンテーションシステム)の全体構成を、教育システムの利用者と共に示した図である。第2実施形態に係る教育システムを、任意の年齢層の生徒に対する教育現場に採用することができるが、特に例えば、小、中及び高校生に対する教育現場への採用が適している。図11に示される人物160A〜160Cは教育現場における生徒である。本実施形態では、生徒の人数が3人であることが想定されるが、生徒の数は2以上であれば何人でも構わない。各生徒160A〜160Cの前方には机が設置されていると共に、生徒160A〜160Cには夫々情報端末101A〜101Cが割り当てられている。図11の教育システムは、先生用情報端末としてのPC102、プロジェクタ103、スクリーン104及び生徒用情報端末としての情報端末101A〜101Cを含んで構成される。
図12は、情報端末101Aの概略的な内部ブロック図である。情報端末101Aは、情報端末101Aに対応する生徒160Aが発した音声を収音して音響信号に変換するマイクロホン111と、マイクロホン111からの音響信号に必要な信号処理を施す音響信号処理部112と、無線通信又は有線通信にてPC102間との通信を行う通信部113と、液晶ディスプレイパネル等から成る表示部114と、を備える。
音響信号処理部112は、マイクロホン111からの音響信号の波形に基づき、その音響信号に含まれる音声を文字データに変換する音声認識処理を実行することができる。通信部113は、音響信号処理部112にて得られた文字データを含む、任意の情報をPC102に伝達することができる。任意の映像を表示部114に表示させることができ、PC102から通信部113に対して送られた映像信号に基づく映像を表示部114に表示させることもできる。
情報端末101B及び101Cの構成は、情報端末101Aのそれと同じである。但し、当然、情報端末101B及び101Cにおけるマイクロホン111は、夫々、生徒160B及び160Cが発した音声を収音して音響信号に変換する。生徒160A〜160Cは、夫々、情報端末101A〜101Cの表示部114の表示内容を視認することができる。情報端末101A〜101Cは、通信部113を用いてPC102と通信を行う際、各情報端末に個別に割り当てられた固有のID番号をPC102に伝える。これにより、PC102は、受信情報が何れの情報端末から送信されたものであるかを認識することができる。尚、情報端末101A〜101Cの夫々から表示部114を割愛することも可能である。
PC102は、スクリーン104に表示されるべき映像の内容を決定し、その映像の内容を表す映像情報を無線又は有線でプロジェクタ103に伝達する。これにより、PC102にて決定されたスクリーン104にて表示されるべき映像が、実際にプロジェクタ103からスクリーン104に投影されてスクリーン104上に表示される。生徒160A〜160Cがスクリーン104の表示内容を視認できるように、プロジェクタ103及びスクリーン104は設置されている。PC102は、表示部114及びスクリーン104に対する表示制御部としても機能し、通信部113を介して表示部114の表示内容を自由に変更することができると共に、プロジェクタ103を介してスクリーン104の表示内容を自由に変更することができる。
PC102には、情報端末101A〜101Cから特定の文字データが伝達された時に特定の動作をするように形成された特定のプログラムがインストールされている。教育システムの管理者(例えば先生)は、授業内容に合わせて特定のプログラムの動作を自由にカスタマイズすることができる。以下に、特定のプログラムの動作例を幾つか列記する。
第1の動作例では、特定のプログラムが社会学習用プログラムであるとし、この社会学習用プログラムの実行時には、まず都道府県名が併記されていない日本地図の映像がスクリーン104及び/又は各表示部114上に表示される。例えば、日本地図上における「北海道」の位置を答えさせる問題を生徒に対して出題したい時、先生はPC102を操作することで日本地図上における北海道を指定する。この指定が成されると、PC102は、スクリーン104及び/又は各表示部114の日本地図上における北海道の映像部分を明滅させる。各生徒は、明滅している部分の都道府県名を、自身に対応する情報端末のマイクロホン111に向かって発声する。この際、生徒160Aが発声した都道府県名が「北海道」であることを示す文字データが情報端末101AよりPC102に伝達された場合、社会学習用プログラムは、情報端末101Aの表示部114及び/又はスクリーン104上における日本地図の北海道の表示部分に「北海道」という文字が表示されるように、情報端末101Aの表示部114及び/又はスクリーン104の表示内容を制御する。このような表示内容の制御は、生徒160Aの発声した都道府県名が「北海道」と異なる場合には実行されず、その場合には別の表示が成される。生徒160B又は160Cの発声内容に応じた表示制御も、生徒160Aのそれと同様である。
第2の動作例では、特定のプログラムが算数学習用プログラムであるとし、この算数学習用プログラムの実行時には、まず各欄が空白となっている九九の表の映像がスクリーン104及び/又は各表示部114上に表示される。例えば、4と5の積を答えさせる問題を生徒に対して出題したい時、先生はPC102を操作することで九九の表上における「4×5」の欄を指定する。この指定が成されると、PC102は、スクリーン104及び/又は各表示部114の九九の表上における「4×5」の欄の映像部分を明滅させる。各生徒は、明滅している部分の答え(即ち、4と5の積の値)を、自身に対応する情報端末のマイクロホン111に向かって発声する。この際、生徒160Aが発声した数値が「20」であることを示す文字データが情報端末101AよりPC102に伝達された場合、算数学習用プログラムは、情報端末101Aの表示部114及び/又はスクリーン104上における「4×5」の欄の表示部分に数値「20」が表示されるように、情報端末101Aの表示部114及び/又はスクリーン104の表示内容を制御する。このような表示内容の制御は、生徒160Aの発声した数値が「20」と異なる場合には実行されず、その場合には別の表示が成される。生徒160B又は160Cの発声内容に応じた表示制御も、生徒160Aのそれと同様である。
第3の動作例では、特定のプログラムが英語学習用プログラムであるとし、この英語学習用プログラムの実行時には、まず、英語の動詞の文言(“take”、“eat”など)がスクリーン104及び/又は各表示部114上に表示される。例えば、英語の動詞の文言“take”の過去形を答えさせる問題を生徒に対して出題したい時、先生はPC102を操作することで文言 “take”を指定する。この指定が成されると、PC102は、スクリーン104及び/又は各表示部114に表示されている文言“take”の映像部分を明滅させる。各生徒は、明滅している文言“take”の過去形(即ち、“took”)を、自身に対応する情報端末のマイクロホン111に向かって発声する。この際、生徒160Aが発声した文言が“took”であることを示す文字データが情報端末101AよりPC102に伝達された場合、英語学習用プログラムは、情報端末101Aの表示部114及び/又はスクリーン104上に表示されている文言“take”が文言“took”に変化するように、情報端末101Aの表示部114及び/又はスクリーン104の表示内容を制御する。このような表示内容の制御は、生徒160Aの発声した文言が“took”と異なる場合には実行されず、その場合には別の表示が成される。生徒160B又は160Cの発声内容に応じた表示制御も、生徒160Aのそれと同様である。
ペンタブレット等のポインティングデバイスを用いて生徒に解答を行わせるという方法も考えられるが、本実施形態の如く、発声によって解答を行わせて該解答結果を表示画面に反映することにより、より生徒の五感が刺激される。結果、生徒の学習意欲の向上、記憶力の向上を期待できる。
上述の構成例では、生徒用の情報端末側で音声認識処理を実行しているが、生徒用の情報端末以外の任意の装置にて音声認識処理を行うようにしても良く、PC102又はプロジェクタ103にて音声認識処理を行うようにしても構わない。PC102又はプロジェクタ103にて音声認識処理を行う場合には、各情報端末のマイクロホン111から得られた音響信号を通信部113を介してPC102又はプロジェクタ103に伝達し、PC102又はプロジェクタ103において、情報端末ごとに、伝達された音響信号の波形に基づき該音響信号に含まれる音声を文字データに変換すればよい。
尚、プロジェクタ103に、各生徒の様子又はスクリーン104の表示映像を撮影するデジタルカメラを設けておき、該デジタルカメラの撮影結果を何らかの形で教育現場に利用するようにしても良い。例えば、プロジェクタ103に設けられたデジタルカメラの撮影範囲に各生徒を収めておき、第1実施形態で述べた方法を採用することで、スクリーン104上に発言者の画像を表示するようにしても良い(後述の他の実施形態においても同様)。
<<第3実施形態>>
本発明の第3実施形態を説明する。図13は、第3実施形態に係る教育システムの全体構成を、教育システムの利用者と共に示した図である。第3実施形態に係る教育システムを、任意の年齢層の生徒に対する教育現場に採用することができるが、特に例えば、小、中及び高校生に対する教育現場への採用が適している。図13に示される人物260A〜260Cは教育現場における生徒である。本実施形態では、生徒の人数が3人であることが想定されるが、生徒の数は2以上であれば何人でも構わない。各生徒260A〜260Cの前方には机が設置されていると共に、生徒260A〜260Cには夫々情報端末201A〜201Cが割り当てられている。図13の教育システムは、プロジェクタ203、スクリーン204及び情報端末201A〜201Cを含んで構成される。
プロジェクタ203は、所望の映像をスクリーン204に投影する。生徒260A〜260Cがスクリーン204の表示内容を視認できるように、プロジェクタ203及びスクリーン204は設置されている。
情報端末201A〜201Cの夫々とプロジェクタ203との間で無線通信が可能となるように、各情報端末とプロジェクタ203に通信部が内蔵されている。情報端末201A〜201Cは、プロジェクタ203と通信を行う際、各情報端末に個別に割り当てられた固有のID番号をプロジェクタ203に伝える。これにより、プロジェクタ203は、受信情報が何れの情報端末から送信されたものであるかを認識することができる。
情報端末201A〜201Cの夫々には、キーボート、ペンタブレット、タッチパネル等のポインティングデバイスが備えられており、各生徒260A〜260Cは、夫々、情報端末201A〜201Cのポインティングデバイスを操作することで任意の情報(問題に対する答えなど)をプロジェクタ203に送信することができる。
図13に示す例では、英語の学習が行われており、生徒260A〜260Cは、先生が出した問いかけに対する解答を、情報端末201A〜201Cのポインティングデバイスを用いて入力する。生徒260A〜260Cの解答は、情報端末201A〜201Cからプロジェクタ203に送信され、プロジェクタ203は、生徒260A〜260Cの解答を表す文字等をスクリーン204に投影する。この際、スクリーン204上のどの解答が何れの生徒の解答であるのかが分かるように、スクリーン204の表示内容が制御される。例えば、スクリーン204上において、生徒260Aの解答の付近に生徒260Aの呼び名(氏名、ニックネーム、識別番号等)を表示するようにする(生徒260B及び生徒260Cについても同様)。
先生は、レーザーポインタを用いて、スクリーン204上の任意の解答を指定することができる。レーザーポインタによる光を受光しているか否かを検出する複数の検出体をマトリクス状にスクリーン204の表示面に配置しておくことにより、レーザーポインタによる光がスクリーン204のどの部分に照射されているかをスクリーン204にて検出することができる。プロジェクタ203は、この検出結果に基づいてスクリーン204の表示内容を変更することができる。尚、レーザーポインタ以外のマンマシンインターフェイス(例えば、プロジェクタ203に接続されたスイッチ)を用いて、スクリーン204上の解答の指定が行われても良い。
例えば、スクリーン204上の、生徒260Aの解答が記載された表示部分がレーザーポインタにより指定された時、図14に示す如く、その指定が成される前と比べて、スクリーン204上の、生徒260Aの解答の表示サイズを拡大する(或いは、生徒260Aの解答の表示部分を明滅等させるようにしてもよい)。以後、教育現場では、先生と生徒260Aとの間の質疑応答等が行われることが想定される。
また、本実施形態に係る教育システムでは、以下のような使用形態も想定される。先生の出題に対し、生徒260A〜260Cは、それぞれ情報端末201A〜201Cのポインティングデバイスを用いて解答する。例えば、情報端末201A〜201Cのポインティングデバイスを、表示機能をも備えたペンタブレット(液晶ペンタブレット)で構成し、生徒260A〜260Cは、専用ペンを用いて対応するペンタブレットに自身の解答を書き込む。
先生は、任意のマンマシンインターフェイス(PC、ポインティングデバイス、スイッチ等)を用いて情報端末201A〜201Cの何れかを指定することができ、その指定結果はプロジェクタ203に伝送される。仮に、情報端末201Aが指定された場合、プロジェクタ203は情報端末201Aに対して送信要求を行い、この送信要求に応じて、情報端末201Aは情報端末201Aのペンタブレットへの書き込み内容に応じた情報をプロジェクタ203に伝達する。プロジェクタ203は、伝達された情報に応じた映像をスクリーン204上に表示する。単純には例えば、情報端末201Aのペンタブレットに書き込まれた内容を、そのままスクリーン204上に表示することができる。情報端末201B又は201Cが指定された場合も同様である。
尚、図13に示す構成ではPC(パーソナルコンピュータ)が教育システムに組み込まれていないが、第2実施形態のように、本実施形態に係る教育システムに先生用情報端末としてのPCを組み込むようにしても良い。PCを組み込んだ場合、PCは情報端末201A〜201Cと通信を行って各生徒の解答に応じた映像情報を作成し、該映像情報を無線又は有線でプロジェクタ203に伝達することで該映像情報に応じた映像をスクリーン204上に表示させることができる。
<<第4実施形態>>
本発明の第4実施形態を説明する。図15は、第4実施形態に係る教育システムの全体構成を、教育システムの利用者と共に示した図である。第4実施形態に係る教育システムを、任意の年齢層の生徒に対する教育現場に採用することができるが、特に例えば、小及び中学生に対する教育現場への採用が適している。図15に示される人物360A〜360Cは教育現場における生徒である。本実施形態では、生徒の人数が3人であることが想定されるが、生徒の数は2以上であれば何人でも構わない。各生徒360A〜360Cの前方には机が設置されていると共に、生徒360A〜360Cには夫々情報端末301A〜301Cが割り当てられている。また、教育現場における先生には先生用の情報端末302が割り当てられる。
図15の教育システムは、情報端末301A〜301C、情報端末302、プロジェクタ303及びスクリーン304を含んで構成される。プロジェクタ303には、デジタルカメラ331が搭載されており、デジタルカメラ331はスクリーン304の表示内容を必要に応じて撮影する。情報端末301A〜301Cと情報端末302との間で無線通信が可能であると共に、プロジェクタ303と情報端末302との間で無線通信が可能である。情報端末301A〜301Cは、情報端末302と通信を行う際、各情報端末301A〜301Cに個別に割り当てられた固有のID番号を情報端末302に伝える。これにより、情報端末302は、受信情報が何れの情報端末(301A、301B又は301C)から送信されたものであるのかを認識することができる。
先生用の情報端末302は、スクリーン304に表示されるべき映像の内容を決定し、その映像の内容を表す映像情報を無線通信によってプロジェクタ303に伝達する。これにより、情報端末302にて決定されたスクリーン304にて表示されるべき映像が、実際にプロジェクタ303からスクリーン304に投影されてスクリーン304上に表示される。生徒360A〜360Cがスクリーン304の表示内容を視認できるように、プロジェクタ303及びスクリーン304は設置されている。
情報端末302には、例えば薄型PCであり、二次電池を駆動源として動作する。情報端末302には、タッチパネル及びタッチペンから成るポインティングデバイスと、情報端末302の筐体に対して着脱可能に構成されたデジタルカメラである着脱可能カメラと、が備えられており、更にレーザーポインタ等も備えられうる。情報端末302において、タッチパネルは表示部として機能する。
生徒用の情報端末301Aは、タッチパネル及びタッチペンから成るポインティングデバイスと、情報端末301Aの筐体に対して着脱可能に構成されたデジタルカメラである着脱可能カメラと、を備え、二次電池を駆動源として動作する。情報端末301Aにおいて、タッチパネルは表示部として機能する。情報端末301B及び301Cは、情報端末301Aと同じものである。
情報端末302は、インターネット等の通信網を介して或いは記録媒体を介して、学習内容が記載された教材コンテンツを入手することができる。先生は情報端末302のポインティングデバイスを操作することによって、入手された1又は複数の教材コンテンツの中から表示したい教材コンテンツを選択する。この選択が成されると、選択された教材コンテンツの映像が情報端末302のタッチパネルに表示される。一方で、情報端末302は、選択された教材コンテンツの映像情報をプロジェクタ303又は情報端末301A〜301Cに伝送することで、選択された教材コンテンツの映像をスクリーン304上又は情報端末301A〜301Cの各タッチパネル上に表示することができる。尚、情報端末302の着脱可能カメラにて任意の教材、テキスト、生徒の作品などを撮影し、撮影画像の画像データを情報端末302からプロジェクタ303又は情報端末301A〜301Cに送ることで該撮影画像をスクリーン304上又は情報端末301A〜301Cの各タッチパネル上に表示させることも可能である。
スクリーン304上又は情報端末301A〜301Cの各タッチパネル上に、学習用の問題(例えば算数の問題)が表示されたとき、生徒360A〜360Cは情報端末301A〜301Cのポインティングデバイスを用いて該問題に対して解答する。即ち、情報端末301A〜301Cのタッチパネル上に解答を書き込む、或いは、選択式の問題である場合には正解と思われる選択肢をタッチペンで選択する。生徒360A〜360Cが情報端末301A〜301Cに入力した解答は、夫々、解答A、B及びCとして、先生用の情報端末302に伝送される。
先生が情報端末302のポインティングデバイスを用いて、情報端末302の動作モードの1つである解答チェックモードを選択すると、情報端末302において解答チェックモード用プログラムを動作する。
解答チェックモード用プログラムは、まず、教室内における生徒用情報端末の配列状態に適合するようなテンプレート画像を作成し、該テンプレート画像をスクリーン304に表示させるための映像情報をプロジェクタ303に送信する。これにより例えば、スクリーン304の表示内容は、図16のようになる。今、解答チェックモード用プログラム上における生徒360A〜360Cの呼び名が、夫々、生徒A、B及びCであるとする。そうすると、教室内の生徒360A〜360Cの並び方と同様の並び方にて、テンプレート画像には、生徒Aと記載された四角枠、生徒Bと記載された四角枠及び生徒Cと記載された四角枠が並んで描画される。本実施形態の想定とは異なるが、仮に(5×4)人の生徒が二次元配列状に並んでいるとしたならば、対応する呼び名が各々に記載された(5×4)個の四角枠を含むテンプレート画像が生成され、スクリーン304の表示内容は、図17のようになる。
解答チェックモード用プログラムの動作中において、情報端末302のポインティングデバイスを用いて先生が生徒A(即ち、生徒360A)を選択した場合、解答チェックモード用プログラムは、解答Aをスクリーン304に表示させるための映像情報を作成して該映像情報をプロジェクタ303に送信する。これにより、情報端末301Aのタッチパネルに書き込まれた内容と同じ内容、又は、情報端末301Aのタッチパネルの表示内容と同じ内容が、スクリーン304に表示される。
尚、情報端末302のポインティングデバイスを用いて先生が生徒A(即ち、生徒360A)を選択した場合、情報端末301Aから直接プロジェクタ303に映像情報を無線伝送することで、情報端末301Aのタッチパネルに書き込まれた内容と同じ内容、又は、情報端末301Aのタッチパネルの表示内容と同じ内容を、スクリーン304に表示させるようにしても良い。また、ポインティングデバイスを用いるのではなく、情報端末302に備えられたレーザーポインタを用いて先生は生徒Aを選択することも可能である。レーザーポインタはスクリーン304上の任意の位置を指定することができ、スクリーン304は、第3実施形態で述べた方法にて指定位置を検出する。解答チェックモード用プログラムは、スクリーン304からプロジェクタ303を通じて伝送されてきた指定位置に基づき、何れの生徒が選択されたのかを認識することができる。生徒A(即ち、生徒360A)が選択された場合の動作を説明したが、生徒B又はC(即ち、生徒360B又は360C)が選択された場合も同様である。
教材コンテンツによっては、生徒が、スクリーン専用ペンを用いて直接スクリーン304に解答等の記入或いは描画を行う。スクリーン304上を移動するスクリーン専用ペンの軌跡は、スクリーン304上に表示される。この軌跡の表示がなされている時において、先生が情報端末302に対して所定の記録操作を行うと、その操作内容がプロジェクタ303に伝送されてデジタルカメラ331がスクリーン304の表示画面を撮影する。情報端末302の制御の下、この撮影によって得られた画像を、情報端末302及び情報端末301A〜301Cに転送して情報端末302及び情報端末301A〜301Cの各タッチパネル上に表示することも可能であるし、情報端末302における記録媒体に記録することも可能である。
また、生徒用の情報端末301A〜301Cに搭載された着脱可能カメラは、対応する生徒360A〜360Cの顔を撮影することができる。情報端末301A〜301Cは、生徒360A〜360Cの顔の撮影画像の画像データを情報端末302に送ることにより或いはプロジェクタ303に直接送ることで、スクリーン304の表示画面の周辺部分に各顔の撮影画像を表示させることができる。これにより、先生がスクリーン304の方を向いていても、先生は各生徒の様子を確認することが可能である(例えば、生徒が寝ていないかを確認することができる)。
<<第5実施形態>>
本発明の第5実施形態を説明する。第5実施形態及び後述の各実施形態において、特に記述しない事項に関しては、矛盾なき限り、上述の第1、第2、第3又は第4実施形態にて述べた事項を、第5実施形態及び後述の各実施形態に適用することができる。第5実施形態に係る教育システム(プレゼンテーションシステム)の全体構成図は、第1実施形態のそれと同じである(図1参照)。即ち、第5実施形態に係る教育システムは、デジタルカメラ1、PC2、プロジェクタ3及びスクリーン4を含んで構成される。
但し、第5実施形態では、図18に示す如く、撮像部11の光軸方向を変化させるためのカメラ駆動機構17がデジタルカメラ1に設けられていることを想定する。カメラ駆動機構17は、撮像部11を固定する雲台及び該雲台を回転駆動させるためのモータ等から成る。デジタルカメラ1の主制御部15又はPC2は、カメラ駆動機構17を用いて撮像部11の光軸方向を変化させることができる。図4のマイクロホン13A及び13Bは上記雲台には固定されていない。従って、カメラ駆動機構17を用いて撮像部11の光軸方向を変化させたとしても、マイクロホン13A及び13Bの位置や収音方向に影響は生じないものとする。尚、マイクロホン13A及び13Bから成るマイク部13は、デジタルカメラ1の外部に設けられたマイク部であると解釈するようにしても良い。
第5実施形態では、以下の教室環境EEAを想定する(図19(a)及び(b)参照)。この教育環境EEAでは、教育システムが導入される教室500内に人物である16人の生徒ST[1]〜ST[16]が存在しており、生徒ST[1]〜ST[16]の夫々には机が割り当てられており、計16個の机は縦横に4個ずつ並んで配置され(図19(b)参照)、生徒ST[1]〜ST[16]は各机に対応付けられた椅子に座っており(図19(a)において、机及び椅子の図示を省略)、生徒ST[1]〜ST[16]がスクリーン4の表示内容を視認できるようにプロジェクタ3及びスクリーン4が教室500内に設置されている。
図1に示す如く、例えば、デジタルカメラ1をスクリーン4上部に設置することができる。マイクロホン13A及び13Bは、個別にデジタルカメラ1の周辺音(厳密にはマイクロホン自身の周辺音)を音響信号に変換し、得られた音響信号を出力する。マイクロホン13A及び13Bの出力音響信号は、アナログ信号及びデジタル信号のどちらでも良く、第1実施形態で述べたように図3の音響信号処理部14においてデジタルの音響信号に変換されるものであっても良い。生徒ST[i]が音声を発している場合、デジタルカメラ1の周辺音には、発言者としての生徒ST[i]の音声が含まれる(iは整数)。
今、生徒ST[1]〜ST[16]の内の一部のみが同時に撮像部11の撮影範囲内に収まるように、デジタルカメラ1の設置場所及び設置方向並びに撮像部11の撮影画角が設定されているものとする。第1及び第2タイミング間においてカメラ駆動機構17を用いて撮像部11の光軸方向変化が生じたことを想定すると、例えば、第1タイミングにおいては生徒ST[1]、ST[2]及びST[5]のみが撮像部11の撮影範囲内に収まり、第2タイミングにおいては生徒ST[3]、ST[4]及びST[8]のみが撮像部11の撮影範囲内に収まる。
図20は、第5実施形態に係る教育システムの一部のブロック図であり、教育システムは、符号17及び符号31〜36によって参照される各部位を備える。図20に示される各部位は、教育システムを形成する何れか任意の装置内に設けられ、それらの全部又は一部を、デジタルカメラ1又はPC2に設けておくこともできる。例えば、音声到来方向判定部32を内包する発言者検出部31、発言者画像データ生成部33及び発言者音響信号生成部34をデジタルカメラ1内に設ける一方、記録制御部としての機能を有する制御部35及び記録媒体36をPC2内に設けるようにしても良い。教育システムにおいて、任意の異なる部位間の情報伝達を、無線通信又は有線通信により実現することができる(他の全ての実施形態においても同様)。
音声到来方向判定部32は、マイクロホン13A及び13Bの出力音響信号に基づいて、マイクロホン13A及び13Bの設置位置を基準とした発言者からの音の到来方向、即ち音声到来方向を判定する(図7(a)参照)。出力音響信号の位相差に基づく音声到来方向の判定方法は、第1実施形態で述べたものと同様であり、この判定によって、音声到来方向の角度θが求まる(図7(b)参照)。
発言者検出部31は、音声到来方向判定部32にて求められた角度θに基づき、発言者を検出する。生徒ST[i]と図7(b)に示される平面13Pとの成す角度をθST[i]にて表し、θST[1]〜θST[16]は互いに異なるものとする。そうすると、角度θが求められた時点で、発言者が何れの生徒であるかを検出することができる。隣接する生徒間の角度差(例えば、θST[6]とθST[7]の差)が互いに十分に離れている場合、音声到来方向判定部32の判定結果のみに基づいて発言者を正確に検出することができるが、その角度差が小さい場合には画像データを更に併用することで発言者の検出を高精度化することができる(詳細は後述)。
発言者検出部31は、角度θに対応する音源が撮像部11の撮影範囲内に収まるように、カメラ駆動機構17を用いて撮像部11の光軸方向を変化させる。
例えば、生徒ST[3]、ST[4]及びST[8]のみが撮像部11の撮影範囲内に収まっている状態において、生徒ST[2]が発言者として声を発したとする。この場合、音声到来方向判定部32では、生徒ST[2]と平面13Pとの成す角度θST[2]が角度θとして求められ、発言者検出部31は、角度θ(=θST[2])に対応する音源、即ち生徒ST[2]が撮像部11の撮影範囲内に収まるように、カメラ駆動機構17を用いて撮像部11の光軸方向を変化させる。“生徒ST[i]が撮像部11の撮影範囲内に収まる”とは、少なくとも生徒ST[i]の顔が撮像部11の撮影範囲内に収まる状態を意味する。
音声到来方向判定部32にて求められた角度θに基づき発言者が生徒ST[1]、ST[2]及びST[5]の何れかであることが判断できるものの、角度θだけでは発言者が生徒ST[1]、ST[2]及びST[5]の何れであるのかを判別し難い場合、発言者検出部31は、画像データを併用して発言者を特定することができる。即ち例えば、この場合、角度θに基づき生徒ST[1]、ST[2]及びST[5]が撮像部11の撮影範囲内に収まるように、カメラ駆動機構17を用いて撮像部11の光軸方向を変化させ、この状態で撮像部11から得られるフレーム画像の画像データを用いて、発言者が生徒ST[1]、ST[2]及びST[5]の何れであるのかを検出することができる。フレーム画像の画像データに基づき複数の生徒の中から発言者を検出する方法として第1実施形態で述べたそれを利用することができる。
発言者検出部31は、発言者の検出後又は検出過程において、発言者に注目した撮影制御を成すことができる。角度θに対応する音源が撮像部11の撮影範囲内に収まるように、カメラ駆動機構17を用いて撮像部11の光軸方向を変化させる制御も、この撮影制御に含まれる。この他、例えば、生徒ST[1]〜ST[16]の顔の内、発言者としての生徒の顔のみが撮像部11の撮影範囲内に収まるように、カメラ駆動機構17を用いて撮像部11の光軸方向を変化させても良く、この際、必要に応じて撮像部11の撮影画角も制御するようにしても良い。
発言者を撮像部11の撮影範囲内に収めた状態での撮影によって得られたフレーム画像を、フレーム画像530と呼ぶ。図21にフレーム画像530の例が示されている。図21のフレーム画像530では、発言者としての一人の生徒のみが写し出されているが、フレーム画像530には、発言者だけでなく発言者以外の生徒の画像データも存在することがある。PC2は、フレーム画像530の画像データを通信を介してデジタルカメラ1から受け取り、フレーム画像530そのもの又はフレーム画像530に基づく画像を、映像としてスクリーン4に表示させることができる。
図20の発言者検出部31に第1実施形態で述べた発言者情報を生成させ、図5に示す抽出部22を図20の発言者画像データ生成部33に設けておくことができる。そうすると、発言者画像データ生成部33は、発言者情報に基づきフレーム画像530の画像データから発言者画像データを抽出することができる。発言者画像データにて表される画像を、映像としてスクリーン4に表示させることもできる。
発言者音響信号生成部34は、第1実施形態と同様の方法を用いて、音声到来方向の判定結果に基づき、マイクロホン13A及び13Bの出力音響信号から発言者より到来する音響信号成分を抽出し、これによって発言者からの音の成分が強調された音響信号である発言者音響信号を生成する。発言者音響信号生成部34にて、上述の何れかの実施形態で述べた音声認識処理を実行し、発言者音響信号に含まれる音声を文字データ(以下、発言者文字データと呼ぶ)に変換するようにしても良い。
撮像部11の出力に基づく画像データ(例えば発言者画像データ)及びマイク部13の出力に基づく音響信号データ(例えば、発言者音響信号を表すデータ)等、任意のデータを、記録媒体36に記録させることができ且つ教育システムを形成する任意の装置に対して送信することができ且つ任意の再生装置上で再生することできる。制御部35において、これらの記録、送信及び再生の制御を成すことができる。
本実施形態によっても、生徒全員が発言者の顔を見ながら発言内容を聞くことができるようになるため、第1実施形態と同様の効果が得られる。
以下、本実施形態に適用することのできる幾つかの応用技術又は変形技術を、技術α1〜α5として説明する。矛盾なき限り、技術α1〜α5の内の複数の技術を組み合わせて実施することもできる。
[技術α1]
技術α1を説明する。技術α1において、制御部35は、発言者画像データ及び発言者音響信号に応じた発言者音響データを互いに関連付けて記録媒体36に記録させる。発言者音響データは、例えば、発言者音響信号そのもの若しくはそれの圧縮信号又は発言者文字データである。複数のデータの関連付け記録方法は任意である。例えば、関連付けられるべき複数のデータを1つのファイル内に格納した上で、該ファイルを記録媒体36に記録すればよい。動画像形式の発言者画像データと発言者音響信号を記録媒体36から読み出せば、発言者の動画像を音声付きで再生することもできる。
制御部35は、発言者が発言を行っている時間の長さ(以下、発言時間と言う)を計測することもできる。発言時間は、発言者の検出が成された時点から、所定の発言終了条件が成立までの時間の長さである。発言終了条件は、例えば、発言者による発声の後、一定時間当該発言者からの発声が検知されない場合、或いは、席から立った状態で発言していた発言者が着席した場合に成立する。制御部35は、発言者画像データ、発言者音響データ及び発言時間データを互いに関連付けて記録媒体36に記録させることができる。発言時間データは、上記発言時間を表すデータである。
発言者画像データ及び発言者音響データの関連付け記録、又は、発言者画像データ、発言者音響データ及び発言時間データの関連付け記録を、発言者ごとに(即ち生徒ごとに)個別に実施することができる。関連付け記録された発言者画像データ及び発言者音響データを総称して、又は、関連付け記録された発言者画像データ、発言者音響データ及び発言時間データを総称して、関連付け記録データと呼ぶ。尚、他の付加データが関連付け記録データに付与されていても良い。
教育システムにおける管理者(例えば先生)は、記録媒体36の記録データの中から、発言者ごとに関連付け記録データを自由に読み出すことができる。例えば、生徒ST[2]の発言内容を聴きたい場合、生徒ST[2]の固有番号等をPC2に入力することにより、生徒ST[2]が発言者になっている状態における映像及び音声を、任意の再生機器(例えばPC2)上で再生させることができる。また、関連付け記録データを、映像及び音声付きの授業内容議事録として活用することもできる。
[技術α2]
技術α2を説明する。本実施形態では、カメラ駆動機構17を用いることを想定したが、技術α2では、カメラ駆動機構17を用いずに生徒ST[1]〜ST[16]の全てが撮像部11の撮影範囲内に収まるようにデジタルカメラ1を設置しておき、発言者の検出後、第1実施形態の抽出部22と同様のトリミングにより、フレーム画像の画像データから発言者画像データの画像データを得るようにする。
[技術α3]
技術α3を説明する。討論においては、複数の生徒が同時に発声することもある。技術α3では、複数の生徒が同時に発声している状況を想定し、複数の発言者の音響信号を個別に生成する。例えば、生徒ST[1]及びST[4]が同時に発言者となって同時に発声する状態を考える。発言者音響信号生成部34は、マイクロホン13A及び13Bの出力音響信号に基づき生徒ST[1]から到来した音の信号成分を指向性制御によって強調することにより、マイクロホン13A及び13Bの出力音響信号から生徒ST[1]についての発言者音響信号を抽出する一方で、マイクロホン13A及び13Bの出力音響信号に基づき生徒ST[4]から到来した音の信号成分を指向性制御によって強調することにより、マイクロホン13A及び13Bの出力音響信号から生徒ST[4]についての発言者音響信号を抽出する。生徒ST[1]及びST[4]の発言者音響信号の分離抽出に、公知の方法を含む任意の指向性制御方法(例えば、特開2000−81900号公報、特開平10−313497号公報に記載の方法)を用いることができる。
音声到来方向判定部32は、生徒ST[1]及びST[4]についての発言者音響信号から、夫々、生徒ST[1]及びST[4]に対応する音声到来方向を判定することができる、即ち角度θST[1]及びθST[4]を検出することができる。検出された角度θST[1]及びθST[4]に基づき、発言者検出部31は、生徒ST[1]及びST[4]が共に発言者であると判断する。
制御部35は、複数の発言者が同時に発声している場合、複数の発言者の発言者音響信号を個別に記録媒体36に記録しておくことができる。例えば、第1発言者としての生徒ST[1]の発言者音響信号をLチャンネル用音響信号として、且つ、第2発言者としての生徒ST[4]の発言者音響信号をRチャンネル用音響信号として取り扱い、それらの音響信号をステレオ記録させることができる。また、Q人の発言者が同時に発声している場合には(Qは3以上の整数)、Q人の発言者の発言者音響信号を別個のチャンネル信号として取り扱い、Q個のチャンネル信号から形成されるマルチチャンネル信号(例えば、5.1チャンネル信号)を記録媒体36に記録しておくようにしても良い。
発言者検出部31によって、生徒ST[1]及びST[4]が共に発言者であると判断された場合、生徒ST[1]及びST[4]の双方が同時に撮像部11の撮影範囲内に収まるように、必要に応じて、撮像部11の撮影画角を調整すると共にカメラ駆動機構17を用いて撮像部11の撮影方向を調整するようにしても良い。そして、第1実施形態で述べた方法を用いて図20の発言者検出部31に生徒ST[1]及びST[4]の発言者情報を個別に生成させ(図5も参照)、各発言者情報に基づくトリミングをフレーム画像に対して実行することで、発言者画像データ生成部33にて生徒ST[1]及びST[4]の発言者画像データを個別に生成するようにしても良い。更に、技術α1で述べた、発言者ごとの関連付け記録を実施するようにしても良い。
[技術α4]
技術α4を説明する。教室500内に複数のスピーカを設置しておき、複数のスピーカの全部又は一部を用いて、発言者音響信号をリアルタイムで再生するようにしても良い。例えば、図22に示す如く、矩形状の教室500の四隅にスピーカSP1〜SP4を1つずつ設置しておく。生徒ST[1]〜ST[16]の何れもが発言者となっていない場合には、マイク部13の出力音響信号に基づく音響信号、又は、任意の音響信号を、スピーカSP1〜SP4の全部又は一部にて再生することができる。
また、生徒ST[1]〜ST[16]の夫々に1つずつヘッドホンを割り当てておき、各ヘッドホンにて、マイク部13の出力音響信号に基づく音響信号(例えば発言者音響信号)又は任意の音響信号を、再生するようにしても良い。例えば、PC2が、スピーカSP1〜SP4における再生及び各ヘッドホンにおける再生を制御する。
[技術α5]
技術α5を説明する。本実施形態では、マイク部13が2つのマイクロホン13A及び13Bから成る場合を想定したが、マイク部13に含まれるマイクロホンの個数は3以上であっても良く、発言者音響信号の形成に利用されるマイクロホンの個数は3以上であっっても良い。
尚、上述の技術α1〜α5を、上述の第1、第2、第3又は第4実施形態に適用することもできる(但し、技術α2を除く)。上述の技術α1を、第1、第2、第3又は第4実施形態において実施する場合、第1、第2、第3又は第4実施形態の教育システムを形成する何れか任意の装置(例えばデジタルカメラ1又はPC2)内に、制御部35及び記録媒体36を設けておけばよい。上述の技術α3を、第1、第2、第3又は第4実施形態において実施する場合、第1、第2、第3又は第4実施形態の教育システムを形成する何れか任意の装置(例えばデジタルカメラ1又はPC2)内に、発言者検出部31、発言者画像データ生成部33、発言者音響信号生成部34、制御部35及び記録媒体36を設けておけばよい。
<<第6実施形態>>
本発明の第6実施形態を説明する。第6実施形態に係る教育システム(プレゼンテーションシステム)の全体構成図は、第1実施形態のそれと同じである(図1参照)。また、第5実施形態において述べた事項を、矛盾なき限り、第6実施形態において実施しても良い。以下では、第5実施形態と同様、カメラ駆動機構17がデジタルカメラ1に設けられることを想定する。
第6実施形態でも、図19(a)及び(b)に示す教育環境EEAを想定する。但し、第6実施形態では、図23(a)に示す如く、教育環境EEAにおける教室500内に、図4のマイク部13と異なる、4つのマイクロホンMC1〜MC4が設けられている。図24に示す如く、マイクロホンMC1〜MC4はマイク部550を形成する。発言者検出部552及び発言者音響信号生成部553を内包する音響信号処理部551は、図1のデジタルカメラ1又はPC2内に設けられる。図24に示されるマイク部550も、教育システムの構成要素であると考えても良い。マイクロホンMC1〜MC4は、教室500内の互いに異なる位置である、教室500の四隅に配置される。教育環境EEAにマイクロホンMC1〜MC4を設置した教育環境を、便宜上、教育環境EEBと呼ぶ。尚、マイク部550を形成するマイクロホンの個数は4に限定されず、2以上であれば良い。
図23(b)に示す如く、教室500内のエリアを、4つの分割エリア541〜544に細分化することができる。マイクロホンMC1〜MC4の内、分割エリア541内の各位置はマイクロホンMC1に対して最も近く、分割エリア542内の各位置はマイクロホンMC2に対して最も近く、分割エリア543内の各位置はマイクロホンMC3に対して最も近く、分割エリア544内の各位置はマイクロホンMC4に対して最も近い。分割エリア541内には、生徒ST[1]、ST[2]、ST[5]及びST[6]が位置し、分割エリア542内には、生徒ST[3]、ST[4]、ST[7]及びST[8]が位置し、分割エリア543内には、生徒ST[9]、ST[10]、ST[13]及びST[14]が位置し、分割エリア544内には、生徒ST[11]、ST[12]、ST[15]及びST[16]が位置する。従って、マイクロホンMC1〜MC4の内、生徒ST[1]、ST[2]、ST[5]及びST[6]に最も近いマイクロホンはマイクロホンMC1であり、生徒ST[3]、ST[4]、ST[7]及びST[8]に最も近いマイクロホンはマイクロホンMC2であり、生徒ST[9]、ST[10]、ST[13]及びST[14]に最も近いマイクロホンはマイクロホンMC3であり、生徒ST[11]、ST[12]、ST[15]及びST[16]に最も近いマイクロホンはマイクロホンMC4である。
マイクロホンMC1〜MC4の夫々は、自身の周辺音を音響信号に変換し、得られた音響信号を音響信号処理部551に出力する。
発言者検出部552は、マイクロホンMC1〜MC4の出力音響信号に基づいて発言者を検出する。上述したように、教室500内における各位置はマイクロホンMC1〜MC4の何れかと対応付けられており、結果、教室500内の各生徒はマイクロホンMC1〜MC4の何れかと対応付けられている。発言者検出部552を含む音響信号処理部551に、このような生徒ST[1]〜ST[16]とマイクロホンMC1〜MC4との対応関係を予め認識させておくこともできる。
発言者検出部552は、マイクロホンMC1〜MC4の出力音響信号の大きさを比較し、最大の大きさに対応する分割エリア内に発言者が存在すると判断する。出力音響信号の大きさとは、出力音響信号のレベル又はパワーである。マイクロホンMC1〜MC4の内、出力音響信号の大きさが最大となっているマイクロホンを、発言者近傍マイクロホンと呼ぶ。例えば、マイクロホンMC1が発言者近傍マイクロホンであるならば、マイクロホンMC1に対応する分割エリア541内の生徒ST[1]、ST[2]、ST[5]及びST[6]の何れかが発言者であると判断し、マイクロホンMC2が発言者近傍マイクロホンであるならば、マイクロホンMC2に対応する分割エリア542内の生徒ST[3]、ST[4]、ST[7]及びST[8]の何れかが発言者であると判断する。マイクロホンMC3又はMC4が発言者近傍マイクロホンである場合も同様である。
発言者近傍マイクロホンがマイクロホンMC1であるとき、カメラ駆動機構17を用いて生徒ST[1]、ST[2]、ST[5]及びST[6]を撮像部11の撮影範囲内に収め、この状態で得られたフレーム画像の画像データに基づき、発言者が生徒ST[1]、ST[2]、ST[5]及びST[6]の何れであるかを特定するようにしても良い。同様に、発言者近傍マイクロホンがマイクロホンMC2であるとき、カメラ駆動機構17を用いて生徒ST[3]、ST[4]、ST[7]及びST[8]を撮像部11の撮影範囲内に収め、この状態で得られたフレーム画像の画像データに基づき、発言者が生徒ST[3]、ST[4]、ST[7]及びST[8]の何れであるかを特定するようにしても良い。マイクロホンMC3又はMC4が発言者近傍マイクロホンである場合も同様である。フレーム画像の画像データに基づき複数の生徒の中から発言者を検出する方法として第1実施形態で述べたそれを利用することができる。
尚、教育環境EEBとは異なるが、仮に分割エリアごとに1人の生徒しか存在しない場合には、即ち例えば、分割エリア541、542、543及び544に夫々生徒ST[1]、ST[4]、ST[13]及びST[16]しか存在しない場合(図19(a)及び図23(b)参照)には、発言者近傍マイクロホンの検出のみによって発言者を特定することができる。つまり、この場合、発言者近傍マイクロホンがマイクロホンMC1であるならば、生徒ST[1]が発言者として特定され、発言者近傍マイクロホンがマイクロホンMC2であるならば、生徒ST[4]が発言者として特定される(マイクロホンMC3又はMC4が発言者近傍マイクロホンである場合も同様)。
発言者音響信号生成部553(以下、生成部553と略記する)は、発言者検出部552にて検出された発言者からの音の成分を含む発言者音響信号を生成する。マイクロホンMC1〜MC4の内、発言者に対応するマイクロホン(即ち発言者近傍マイクロホン)の出力音響信号をMCAとし、それら以外の3つのマイクロホンの出力音響信号をMCB、MCC及びMCDとした場合、“MIX=kA・MCA+kB・MCB+kC・MCC+kD・MCD”に従った信号混合により得られる音響信号MIXを、発言者音響信号として生成することができる。ここで、kB、kC及びkDはゼロまたは正の値を持ち、kAはkB、kC及びkDよりも大きな値を持つ。
発言者検出部552は、発言者の検出後又は検出過程において、発言者に注目した撮影制御を成すことができる。発言者が撮像部11の撮影範囲内に収まるように、カメラ駆動機構17を用いて撮像部11の光軸方向を変化させる制御も、この撮影制御に含まれる。この他、例えば、生徒ST[1]〜ST[16]の顔の内、発言者としての生徒の顔のみが撮像部11の撮影範囲内に収まるように、カメラ駆動機構17を用いて撮像部11の光軸方向を変化させても良く、この際、必要に応じて撮像部11の撮影画角も制御するようにしても良い。
発言者を撮像部11の撮影範囲内に収めた状態での撮影によって得られたフレーム画像が、図21のフレーム画像530である場合、第5実施形態と同様、PC2は、フレーム画像530の画像データを通信を介してデジタルカメラ1から受け取り、フレーム画像530そのもの又はフレーム画像530に基づく画像を、映像としてスクリーン4に表示させることもできる。
第6実施形態に係る教育システムに発言者画像データ生成部33を設けておき、発言者検出部552による発言者の検出結果に基づき、第1又は第5実施形態で述べた方法に従って、発言者画像データを発言者画像データ生成部33に生成させても良い。図24の発言者検出部552に第1実施形態で述べた発言者情報を生成させてもよく、この場合、発言者画像データ生成部33は、発言者情報に基づきフレーム画像530の画像データから発言者画像データを抽出することができる。発言者画像データにて表される画像を、映像としてスクリーン4に表示させることもできる。
更に、第6実施形態に係る教育システムに図20の制御部35及び記録媒体36を設けておき、それらに第5実施形態で述べた記録動作を実行させると良い。撮像部11の出力に基づく画像データ(例えば発言者画像データ)及びマイク部550の出力に基づく音響信号データ(例えば、発言者音響信号を表すデータ)等、任意のデータを、記録媒体36に記録させることができ且つ教育システムを形成する任意の装置に対して送信することができ且つ任意の再生装置上で再生することできる。尚、発言者が特定されていない期間においては、マイクロホンMC1〜MC4の出力音響信号を等比率で混合して得た音響信号を記録媒体36に記録しておくことができる。
本実施形態によっても、生徒全員が発言者の顔を見ながら発言内容を聞くことができるようになるため、第1実施形態と同様の効果が得られる。
尚、マイクロホン13A及び13Bの出力音響信号を用い、第5実施形態で述べた方法に従って発言者を検出した後、発言者の検出結果に基づいてマイクロホンMC1〜MC4の出力音響信号から発言者音響信号を生成するようにしても良い。或いは、マイクロホンMC1〜MC4の出力音響信号を用いて発言者を検出した後、第5実施形態と同様にして、マイクロホン13A及び13Bの出力音響信号から発言者音響信号を生成するようにしても良い。
第6実施形態においても、上記の技術α1、α2及びα5を実施することができる。
第6実施形態においても、上記の技術α3を実施することができる。第6実施形態において技術α3を実施する場合、発言者検出部552は、技術α3で述べた方法に従い複数の生徒が発言者であると判断することができる。これにより例えば、生徒ST[1]及びST[4]が発言者であると判断された場合、発言者音響信号生成部553は、生徒ST[1]に対応するマイクロホンMC1を発言者近傍マイクロホンと捉えた状態でマイクロホンMC1〜MC4の出力音響信号(或いはマイクロホンMC1の出力音響信号のみ)から生徒ST[1]に対応する発言者音響信号を生成する一方で、生徒ST[4]に対応するマイクロホンMC2を発言者近傍マイクロホンと捉えた状態でマイクロホンMC1〜MC4の出力音響信号(或いはマイクロホンMC2の出力音響信号のみ)から生徒ST[4]に対応する発言者音響信号を生成する。生成された複数の発言者の発言者音響信号を、技術α3で述べた方法に従って記録することができる。
第6実施形態においても、上記の技術α4を実施することができる。この際、ハウリングを考慮して発言者音響信号の再生用スピーカを選択するようにしても良い。即ち、以下のように技術α4を実施すると良い。図22に示されるスピーカSP1〜SP4は、それぞれのマイクロホンMC1〜MC4に近接して配置され、それぞれ分割エリア541〜544内に位置しているものとする(図23(a)及び(b)も参照)。PC2は、発言者の検出結果に基づき、スピーカSP1〜SP4の中から発言者音響信号の再生用スピーカを選択し、選択された再生用スピーカのみから発言者音響信号を再生させる。再生用スピーカは、スピーカSP1〜SP4の内の1、2又は3つのスピーカであり、発言者に最も近いスピーカは再生用スピーカから除外される。これにより、ハウリングの発生を抑制することができる。即ち例えば、発言者が生徒ST[1]である場合には、スピーカMC1は再生用スピーカとして選択されず、スピーカMC2、MC3及びMC4の全部又は一部が再生用スピーカとして選択される。発言者と再生用スピーカとして選択されるべきスピーカとの対応関係をテーブルデータとしてPC2に持たせておき、該テーブルデータを用いて再生用スピーカを選択するようにしても良い。例えば、生徒ST[1]に対応付けられた再生用スピーカがスピーカMC2、MC3及びMC4であること、及び、生徒ST[4]に対応付けられた再生用スピーカがスピーカMC1、MC3及びMC4であること等が該テーブルデータに記されている。
<<第7実施形態>>
本発明の第7実施形態を説明する。第7実施形態は、第6実施形態の一部を変形した実施形態であり、本実施形態において特に述べない事項に関しては、第6実施形態の記載が本実施形態に適用される。
第7実施形態では、生徒ST[1]〜ST[16]の夫々に対して1つずつ生徒用マイクロホンが割り当てられている。生徒ST[i]に割り当てられた生徒用マイクロホンをMT[i]にて表す(図25参照)。生徒用マイクロホンMT[1]〜MT[16]は、夫々、生徒ST[1]〜ST[16]の近傍に設置されて生徒ST[1]〜ST[16]の声を収音する。生徒用マイクロホンMT[i]は、生徒ST[i]の声を音響信号に変換し、得られた音響信号を音響信号処理部551(図24参照)に出力することができる。第6実施形態で想定した教室環境EEBに生徒用マイクロホンMT[1]〜MT[16]を付加した教室環境を、教室環境EECと呼ぶ。
図24の発言者検出部552は、第6実施形態で述べた方法によって発言者を検出することもできるし、生徒用マイクロホンMT[1]〜MT[16]の出力音響信号に基づいて発言者を検出することもできる。
後者の検出は、例えば、以下のようにして実現できる。発言者検出部552は、生徒用マイクロホンMT[1]〜MT[16]の出力音響信号の内、出力音響信号の大きさが最大となっている生徒用マイクロホンが発言生徒マイクロホンであると判定する、或いは、出力音響信号の大きさが所定レベル以上となっている生徒用マイクロホンが発言生徒マイクロホンであると判定する。そして、発言生徒マイクロホンに対応する生徒を発言者として検出することができる。従って、生徒用マイクロホンMT[i]が発言生徒マイクロホンであると判定されたならば、生徒ST[i]は発言者であると検出することができる。
図24の生成部553は、第6実施形態で述べた方法によって発言者音響信号を生成することもできるし、生徒用マイクロホンMT[1]〜MT[16]の出力音響信号に基づいて発言者音響信号を生成することもできる。
後者の生成は、例えば、以下のようにして実現できる。上述の方法によって発言生徒マイクロホンが特定された後、生成部553は、発言生徒マイクロホンの出力音響信号そのものを発言者音響信号として生成することができる、或いは、発言生徒マイクロホンの出力音響信号に所定の信号処理を施すことで発言者音響信号を生成することができる。生成部553で生成された発言者音響信号は、当然に発言者からの音の成分を含む。
撮像部11の出力に基づく画像データ(例えば発言者画像データ)及び生徒用マイクロホンMT[1]〜MT[16]の出力に基づく音響信号データ(例えば、発言者音響信号を表すデータ)等、任意のデータを、記録媒体36に記録させることができ且つ教育システムを形成する任意の装置に対して送信することができ且つ任意の再生装置上で再生することできる。
<<第8実施形態>>
本発明の第8実施形態を説明する。第8実施形態に係る教育システム(プレゼンテーションシステム)の全体構成図は、第1実施形態のそれと同じである(図1参照)。第8実施形態における教室環境は、第5、第6又は第7実施形態における教室環境EEA、EEB又はEECと同じである。第8実施形態のデジタルカメラ1にカメラ駆動機構17を設けておいても良い(図18参照)。但し、ここでは、第1実施形態と同様、デジタルカメラ1の撮影範囲内に、常に生徒ST[1]〜ST[16]が全て収まるようにデジタルカメラ1の設置場所及び撮影方向が固定されていることを想定する。
図26は、第8実施形態に係る教育システムの一部のブロック図であり、教育システムは、個人画像生成部601及び表示制御部602を備える。図26に示される各部位は、教育システムを形成する何れか任意の装置内に設けられ、それらの全部又は一部を、デジタルカメラ1又はPC2に設けておくこともできる。例えば、個人画像生成部601をデジタルカメラ1内に設ける一方、表示制御部602をPC2内に設けるようにしても良い。
個人画像生成部601には、撮像部11よりフレーム画像の画像データが供給される。個人画像生成部601は、フレーム画像の画像データに基づく第1実施形態で述べた顔検出処理により、フレーム画像の全画像領域から生徒ST[1]〜ST[16]の顔領域を個別に抽出し、生徒ST[1]〜ST[16]の顔領域内の画像を個別に個人画像として生成する。生徒ST[i]の顔領域内の画像である、生徒ST[i]の個人画像をIS[i]にて表す。個人画像IS[1]〜IS[16]の画像データは表示制御部602に送られる。尚、複数のデジタルカメラを用いて個人画像IS[1]〜IS[16]を生成するようにしても構わない。
PC2の操作者である先生は、PC2に所定操作を成すことで発言者指定プログラムをPC2上で起動させることができる。発言者指定プログラムが起動すると、表示制御部602は、個人画像IS[1]〜IS[16]の中から1又は複数の個人画像を選択し、選択した個人画像をスクリーン4上で表示させる。選択される個人画像は、所定の周期(例えば、0.5秒)で変更され、この変更はPC2上で発生させた乱数等に従って成される。従って、発言者指定プログラムを起動させると、スクリーン4上に表示される個人画像が個人画像IS[1]〜IS[16]の中でランダムに切り替わりながら、個人画像IS[1]〜IS[16]が複数回に分けてスクリーン4上に順次表示される。
発言者指定プログラムの動作中において、PC2の操作者である先生が特定操作をPC2等に成すと、PC2内でトリガ信号が発生する。特定操作に関係なく、乱数等に従ってトリガ信号をPC2内で自動生成するようにしても良い。発生したトリガ信号は表示制御部602に与えられる。表示制御部602は、トリガ信号を受けると、スクリーン4上に表示される個人画像の変更を停止し、その個人画像に対応する生徒が発言者となるべきことをスクリーン4上の映像等によって提示する。
即ち例えば、トリガ信号の発生時点において表示されていた個人画像が個人画像IS[2]であった場合、表示制御部602は、トリガ信号の発生後、スクリーン4上に表示される個人画像を個人画像IS[2]で固定すると共に、「発言を行ってください」等のメッセージをスクリーン4上に表示させることで、個人画像IS[2]に対応する生徒ST[2]が発言者となるべきことを各生徒に提示する。この提示を受けて、生徒ST[2]が実際に発言者となって発言を行うことになる。
発言者の特定後の動作は上述の何れかの実施形態で述べたものと同様であり、発言者画像データ及び発言者音響信号などの生成、記録、送信及び再生等が教育システム内で成される。即ち例えば、トリガ信号の発生後、生徒ST[2]が実際に発言者となって発言を行っている期間においては、上述の各実施形態と同様、発言者としての生徒ST[2]の個人画像IS[2]がスクリーン4上に表示される。発言者としての生徒ST[2]の個人画像IS[2]の画像データは、上述してきた発言者画像データに相当する。
発言者の映像を表示することで、生徒全員が発言者の顔を見ながら発言内容を聞くことができるようになるため、第1実施形態と同様の効果が得られる。また、映像表示された生徒が発言者になるというルールを教育現場に持ち込むことにより、授業の緊張感が高まり、生徒の学習効率の向上効果等も期待される。
尚、上述の方法ではなく、以下の方法によって発言者の指名を行うようにしても良い。生徒ST[1]〜ST[16]に対応する16個の机の位置と、撮像部11の撮影範囲上の位置との対応関係情報を予め教育システムに与えておく。即ち、机ごとに(換言すれば生徒ごとに)生徒ST[i]の机がフレーム画像上のどの部分に存在するのかを示す対応関係情報を、予め教育システムに与えておく。PC2の操作者である先生は、PC2に所定操作を成すことで第2発言者指定プログラムをPC2上で起動させることができる。第2発言者指定プログラムが起動すると、教室500内の16個の机(換言すれば席)を模した映像がPC2の表示画面上に表示され、先生は、所定操作によってPC2の表示画面上における何れかの机を選択する。PC2は、選択された机に対応する生徒が発言者となるべきであると判断し、上記の対応関係情報を用いて、選択された机に対応する生徒の個人画像を個人画像生成部601から取得する。取得された個人画像は、発言者となるべき生徒の映像としてスクリーン4上に表示される。
例えば、第2発言者指定プログラムの起動後、生徒ST[2]に対応する机がPC2上で選択された場合、選択された机に対応する生徒の個人画像が個人画像IS[2]であることが上記対応関係情報から分かる。このため、個人画像IS[2]が、発言者となるべき生徒の映像としてスクリーン4上に表示される。
<<第9実施形態>>
本発明の第9実施形態を説明する。第9実施形態では、特にサテライト教室に注目した、上述の各実施形態に対する変形技術又は補足的技術を説明する。図27には、2つの教室RA及びRBが示されている。教室RAには、デジタルカメラ1A、PC2A、プロジェクタ3A及びスクリーン4Aが設置されており、教室RBには、デジタルカメラ1B、PC2B、プロジェクタ3B及びスクリーン4Bが設置されている。デジタルカメラ1A及び1Bとしてデジタルカメラ1を用いることができ、PC2A及び2BとしてPC2を用いることができ、プロジェクタ3A及び3Bとしてプロジェクタ3を用いることができ、スクリーン4A及び4Bとしてスクリーン4を用いることができる。
プロジェクタ3Aからスクリーン4Aに映像情報を供給することによりスクリーン4A上で該映像情報に応じた映像が表示される。同様に、プロジェクタ3Bからスクリーン4Bに映像情報を供給することによりスクリーン4B上で該映像情報に応じた映像が表示される。一方で、プロジェクタ3Aからスクリーン4Aに供給される映像情報と同じ映像情報を無線又は有線通信を介してプロジェクタ3Bに伝達することで、スクリーン4A上の映像と同じ映像をスクリーン4B上に表示させることができる。逆に、プロジェクタ3Bからスクリーン4Bに供給される映像情報と同じ映像情報を無線又は有線通信を介してプロジェクタ3Aに伝達することで、スクリーン4B上の映像と同じ映像をスクリーン4A上に表示させることができる。
また、図27には示されていないが、上述の任意の実施形態で述べた任意のスピーカを教室RA及びRBの夫々に設置することができ、上述の任意の実施形態で述べた任意のマイクロホンを教室RA及びRBの夫々に設置することができる。教室RA内のマイクロホンの出力音響信号に基づく任意の音響信号(例えば発言者音響信号)を教室RA内の任意のスピーカにて再生することができる。同様に、教室RB内のマイクロホンの出力音響信号に基づく任意の音響信号(例えば発言者音響信号)を教室RB内の任意のスピーカにて再生することができる。一方で、教室RA内のスピーカに供給される音響信号と同じ音響信号を無線又は有線通信を介して教室RB内のスピーカに伝達することで、教室RA内のスピーカにて再生される音響信号と同じ音響信号を教室RB内のスピーカにて再生させることができる。逆に、教室RB内のスピーカに供給される音響信号と同じ音響信号を無線又は有線通信を介して教室RA内のスピーカに伝達することで、教室RB内のスピーカにて再生される音響信号と同じ音響信号を教室RA内のスピーカにて再生させることができる。
教室RA及びRBの夫々には、1以上の生徒が存在している。教室RA内の各生徒がデジタルカメラ1Aの撮影範囲に収められ、教室RA内の各生徒がデジタルカメラ1Bの撮影範囲に収められる。
教室RA及びRBの内、サテライト教室ではない方の教室を本教室と呼ぶ。サテライト教室以外の、上述の各実施形態で述べた教室は本教室に相当する。教室RA及びRBの内、どちらも本教室になりうるし、どちらもサテライト教室となりうる。ここでは、教室RAが本教室であって、教室RBがサテライト教室であるとする。尚、サテライト教室は2以上存在しても良い。
第1実施形態において、サテライト教室に映像情報等を配信する技術を説明したが、これについて更に説明を加える。
例えば、図28に示す如く、教室RAに4人の生徒811〜814が存在し、教室RBに4人の生徒815〜818が存在している状況を想定する。この場合、デジタルカメラ1Aの撮像部11及びデジタルカメラ1Bの撮像部11は、8人の生徒811〜818を撮影する複眼撮像部851を形成する、と考えることもできる(図29参照)。
デジタルカメラ1Aの発言者検出部21(図5参照)は、デジタルカメラ1Aの撮像部11の出力に基づき生徒811〜814の中から発言者を検出することができるし、デジタルカメラ1Bの発言者検出部21は、デジタルカメラ1Bの撮像部11の出力に基づき、生徒815〜818の中から発言者を検出することができる。そうすると、デジタルカメラ1Aの発言者検出部21及びデジタルカメラ1Bの発言者検出部21は、複眼撮像部851の出力に基づき、画像上において生徒811〜818の中から発言者を検出する総合発言者検出部852を形成する、と考えることもできる(図29参照)。
デジタルカメラ1Aの抽出部22(図5参照)は、デジタルカメラ1Aの発言者検出部21からの発言者情報とデジタルカメラ1Aの撮像部11からの画像データに基づき発言者画像データを生成することができるし、デジタルカメラ1Bの抽出部22は、デジタルカメラ1Bの発言者検出部21からの発言者情報とデジタルカメラ1Bの撮像部11からの画像データに基づき発言者画像データを生成することができる。そうすると、デジタルカメラ1Aの抽出部22及びデジタルカメラ1Bの抽出部22は、総合発言者検出部852の検出結果に基づき、複眼撮像部851の出力から発言者の画像部分の画像データを発言者画像データとして抽出する総合抽出部853を形成する、と考えることもできる(図29参照)。
生徒811〜818の内、生徒811が発言者である場合には、複眼撮像部851の出力から総合発言者検出部852によって生徒811が発言者であることが検出され、総合抽出部853により複眼撮像部851の出力から生徒811の画像部分の画像データが発言者画像データとして抽出される。結果、発言者画像データに基づく映像(生徒811の顔の映像)が、生徒811〜814が視認可能なスクリーン4A及び生徒815〜818が視認可能なスクリーン4Bに表示される。スクリーン4A及びスクリーン4Bは、生徒811〜818が視認可能な表示画面854を形成する、と考えることもできる(図29参照)。
教室RA及びRBの夫々に4人の生徒が存在していることを想定したが、各教室に存在すべき生徒の一部が授業を欠席することもあり、結果例えば、教室RA内に生徒が一人しかいない、教室RB内に生徒が一人しかいない、或いは、教室RA及びRBの夫々に生徒が1人ずつしかいないといった状況も発生しうるが、それらの状況においても上述と同様の動作が行われる。
第1実施形態に注目して、複数の教室に対する教育システムの適用方法を詳細に説明したが、第1実施形態以外の他の実施形態においても同様に考えることができる。考え方としては、教育システムにおける全生徒が1つの教室内に収容されているならば必要装置群を当該1つの教室に配置すれば足るが、教育システムにおける全生徒が複数の教室内にわかれて収容されているならば必要装置群を教室ごとに配置すればよいだけのことである。必要装置群には、デジタルカメラ1、PC2、プロジェクタ3及びスクリーン4が含まれ、必要に応じて、上述の任意の実施形態で述べた任意のスピーカ及びマイクロホンが含まれる。
例えば、第5〜第7実施形態において、教育システムにおけるY人の生徒がZ個の教室内にわかれて収容される場合(Y及びZは2以上の整数)、Z個の教室に配置されたデジタルカメラ1の撮像部11(計Z個の撮像部)はY人の生徒を撮影する複眼撮像部を形成すると考えることができ、Z個の教室に配置されたマイクロホンは複眼撮像部の周辺音に応じた音響信号を出力する総合マイク部を形成すると考えることができ、教育システムには、総合マイク部の出力音響信号に基づいてY人の生徒の中から発言者を検出する総合発言者検出部が備えられていると考えることができる。
Y人の生徒が第5実施形態等で述べた生徒ST[1]〜ST[16]である場合において(図19(a)等参照)、生徒ST[9]〜ST[16]を教室500内に収容できない場合、生徒ST[9]〜ST[16]は教室500と異なるサテライト教室に収容される。この際、サテライト教室に収容された生徒ST[9]〜ST[16]は、教室500のデジタルカメラ1の撮影範囲に収まらないため、生徒ST[1]〜ST[16]を撮影する撮像部を、生徒ST[1]〜ST[8]を撮影するための撮像部と、生徒ST[9]〜ST[16]を撮影するための撮像部に分ければよいだけのことである。マイクロホンやスピーカについても同様である。
このように、教育システムの構成要素(例えば、撮像部、表示画面、複数のマイクロホンから成るマイク部及び複数のスピーカから成るスピーカ部)の夫々は、複数の教室に分かれて配置されていても良い。
<<第10実施形態>>
本発明の第10実施形態を説明する。第10実施形態では、上述の各実施形態におけるプロジェクタとして利用可能なプロジェクタの一例を説明する。本実施形態におけるスクリーンとは、上述の各実施形態におけるスクリーンに相当する。
図30は、本実施形態に係るプロジェクタ3001の外観構成を示す図である。本実施形態では、便宜上、プロジェクタ3001から見てスクリーンのある方向を前方向と定義し、前方向の反対方向を後方向と定義し、スクリーン側からプロジェクタ3001を見たときの右方向及び左方向を夫々右方向及び左方向と定義する。前後左右方向に垂直な方向は上方向及び下方向である。上方向及び下方向の内、プロジェクタ3001からスクリーンに向かう方向により近い方向を上方向と定義する。下方向は、上方向の反対方向である。
本実施形態に係るプロジェクタ3001は、いわゆる短焦点投写型のプロジェクタである。短焦点投写型のプロジェクタの設置に必要なスペースは小さいため、短焦点投写型のプロジェクタは教育現場等に好適である。プロジェクタ3001は、略方形状の本体キャビネット3010を備える。本体キャビネット3010の上面には、後方に向けて下る第1傾斜面3101と、この第1傾斜面3101に続いて後方に向けて上る第2傾斜面3102が形成される。第2傾斜面3102は上斜め前方を向いており、この第2傾斜面3102に投写口3103が形成される。投写口3103から上斜め前方へ出射された映像光が、プロジェクタ3001の前方に配されたスクリーンに拡大投写される。
図31及び図32は、プロジェクタ3001の内部構成を示す図である。図31は、プロジェクタ3001の斜視図であり、図32は、プロジェクタ3001の平面図である。なお、図31及び図32では、便宜上、本体キャビネット3010を一点鎖線にて表す。
図32に示すように、上方から見て、キャビネット3010内は、2つの二点鎖線L1及びL2によって4つの領域に区画され得る。以下、説明の便宜上、その4つの領域の内、右前に形成される領域を第1領域と定義し、第1領域から対角の位置にある領域を第2領域と定義し、左前に形成される領域を第3領域と定義し、第3領域から対角の位置にある領域を第4領域と定義する。
図31及び図32を参照して、本体キャビネット3010の内部には、光源装置3020と、導光光学系3030と、DMD(DigitalMicro-mirror Device)3040と、投写光学ユニット3050と、制御回路3060と、LED駆動回路3070とが配置される。
光源装置3020は、3つの光源ユニット3020R、3020G及び3020Bを有する。赤色光源ユニット3020Rは、赤色波長帯の光(以下「R光」という)を出射する赤色光源3201Rと、赤色光源3201Rで発生した熱を放出するためのヒートシンク3202Rとにより構成される。緑色光源ユニット3020Gは、緑色波長帯の光(以下「G光」という)を出射する緑色光源3201Gと、緑色光源3201Gで発生した熱を放出するためのヒートシンク3202Gとにより構成される。青色光源ユニット3020Bは、青色波長帯の光(以下「B光」という)を出射する青色光源3201Bと、青色光源3201Bで発生した熱を放出するためのヒートシンク3202Bとにより構成される。
各光源3201R、3201G及び3201Bは、高出力タイプのLED光源であり、基板上に配されたLED(赤色LED、緑色LED及び青色LED)によって構成される。赤色LEDは、たとえば、AlGaInP(アルミニウムインジウムガリウムリン)から構成され、緑色LED及び青色LEDは、たとえば、GaN(窒化ガリウム)から構成される。
導光光学系3030は、各光源3201R、3201G及び3201Bに対応して設けられた第1レンズ3301R、3301G及び3301B並びに第2レンズ3302R、3302G及び3302Bと、ダイクロイックプリズム3303と、中空のロッドインテグレータ(以下、中空ロッドと略記する)3304と、2つのミラー3305及び3307と、2つのリレーレンズ3306及び3308と、により構成される。
光源3201R、3201G及び3201Bから出射されたR光、G光及びB光は、第1レンズ3301R、3301G及び3301B並びに第2レンズ3302R、3302G及び3302Bによって平行光化され、ダイクロイックプリズム3304によって、それらの光路が合成される。
ダイクロイックプリズム3304から出射された光(R光、B光及びG光)は、中空ロッド3304に入射する。中空ロッド3304は、内部が中空であり、内側面がミラー面となっている。中空ロッド3304は、入射端面側から出射端面側に向かって断面積が大きくなるテーパ形状を有する。中空ロッド3304において、光は、ミラー面によって反射が繰り返され、出射端面における照度分布が均一化される。
なお、中空ロッド3304を用いることによって、中実のロッドインテグレータよりも屈折率が小さい(空気の屈折率<ガラスの屈折率)ので、ロッド長を短くすることが可能になる。
中空ロッド3304から出射された光は、ミラー3305及び3307による反射とリレーレンズ3306及び3308によるレンズ作用によってDMD3040に照射される。
DMD3040は、マトリクス状に配された複数のマイクロミラーを備える。1つのマイクロミラーは、1つの画素を構成する。マイクロミラーは、入射するR光、G光及びB光に対応するDMD駆動信号に基づいて、高速でオン・オフ駆動される。
マイクロミラーの傾斜角度が切り替えられることによって、各光源3201R、3201G及び3201Bからの光(R光、G光及びB光)が変調される。具体的には、ある画素のマイクロミラーがオフ状態の場合には、このマイクロミラーによる反射光はレンズユニット501には入射しない。一方、マイクロミラーがオン状態の場合には、このマイクロミラーによる反射光はレンズユニット3501に入射する。マイクロミラーがオン状態にある時間の比率を調整することにより、画素ごとに画像の階調が調整される。
投写光学ユニット3050は、レンズユニット3501及び曲面ミラー3502と、これらを収容するハウジング3503とにより構成される。
DMD3040によって変調された光(映像光)は、レンズユニット3501を通り、曲面ミラー3502へ出射される。映像光は、曲面ミラー3502によって反射され、ハウジング3503に形成された投写口3103から外部へ出射される。
図33は、本実施形態に係るプロジェクタの構成を示すブロック図である。
図33を参照して、制御回路3060は、信号入力回路3601と、信号処理回路3602と、DMD駆動回路3603とを含む。
信号入力回路3601は、コンポジット信号、RGB信号などの各種映像信号に対応する各種入力端子を介して入力された映像信号を信号処理回路3602へ出力する。
信号処理回路3602は、RGB信号以外の映像信号をRGB信号に変換する処理や、入力した映像信号の解像度をDMD3040の解像度に変換するスケーリング処理、あるいは、ガンマ補正等の各種の補正処理を行う。そして、これら処理を施したRGB信号を、DMD駆動回路3603及びLED駆動回路3070へ出力する。
信号処理回路3602は、同期信号生成回路3602aを含む。同期信号生成回路3602aは、光源3201R、3201G及び3201Bの駆動と、DMD3040の駆動とを同期させるための同期信号を生成する。生成された同期信号は、DMD駆動回路3603及びLED駆動回路3070へ出力される。
DMD駆動回路3603は、信号処理回路3602からのRGB信号に基づいて、R光、G光及びB光に対応するDMD駆動信号(オン、オフ信号)を生成する。そして、生成した各光に対応するDMD駆動信号を、同期信号に従って、1フレームの画像ごとに時分割にて順次DMD3040へ出力する。
LED駆動回路3070は、信号処理回路3602からのRGB信号に基づいて、光源3201R、3201G及び3201Bを駆動する。具体的には、LED駆動回路3070は、パルス幅変調方式(PWM)によりLED駆動信号を生成し、LED駆動信号(駆動電流)を各光源3201R、3201G及び3201Bに出力する。
即ち、LED駆動回路3070は、RGB信号に基づいて、パルス波のデューティ比を調整することにより、各光源3201R、3201G及び3201Bから出力される光量を調整する。これにより、各光源3201R、3201G、3201Bから出力される光量が、画像の色情報に応じて、1フレームの画像ごとに調整される。
また、LED駆動回路3070は、同期信号に従って、各光源にLED駆動信号を出力する。これにより、各光源3201R、3201G及び3201Bから出射される光(R光、G光、B光)の発光タイミングと、それぞれの光に対応するDMD駆動信号がDMD3040へ出力されるタイミングとの同期を取ることができる。
即ち、R光に対応するDMD駆動信号が出力されている期間に、そのときの画像の色情報に適する光量のR光が、赤色光源3201Rから出射される。同様に、G光に対応するDMD駆動信号の出力されている期間に、そのときの画像の色情報に適する光量のG光が、緑色光源3201Gから出射される。さらに、B光に対応するDMD駆動信号の出力されている期間に、そのときの画像の色情報に適する光量のB光が、青色光源3201Bから出射される。
画像の色情報に応じて各光源3201R、3201G及び3201Bから出射される光の光量を変えることにより、消費電力を抑えながら投写画像の高輝度化を図ることができる。
スクリーンには、R光、G光及びB光による画像が、順次、投写されることになる。しかしながら、これら画像の切り替わりが非常に高速で行われるため、ユーザの目にはちらつきのないカラー画像として映る。
図31及び図32を再び参照する。光源ユニット320R、320G及び320B、導光光学系3030、DMD3040、投写光学ユニット3050、制御回路3060並びにLED駆動回路3070は、本体キャビネット3010の底面を取付面として、取付面上に配置される。
投写光学ユニット3050は、本体キャビネット3010の中央よりも右側面寄りであって、前後方向におけるほぼ中央から後部(第4領域)にかけて配置される。ここで、レンズユニット3501はほぼ中央に位置し、曲面ミラー3502は後部に位置する。
DMD3040は、レンズユニット3501の前方に配置される。即ち、DMD3040は、本体キャビネット3010の中央よりも右側面寄りであって、前面の近く(第1領域)に配置される。
光源装置3020は、レンズユニット3501及びDMD3040の左側方(第3領域)に配置される。赤色光源3201Rと青色光源3201Bは、緑色光源3201Gの上方側に配置されると共に、緑色光源3201Gを挟んで互いに対向する位置に配置される。
ここで、投写光学ユニット3050において、曲面ミラー3502は、本体キャビネット3010の底面から低い位置(第4領域下部)に配置されており、レンズユニット3501は、曲面ミラーよりもやや高い位置(第4領域の中間高さ位置)に配置されている。また、DMD3040は、本体キャビネット3010の底面から高い位置(第1領域上部)に配置されており、3つの光源3201R、3201G及び3201Bは、本体キャビネット3010の底面に対して低い位置(第3領域下部)に配置される。このため、3つの光源3201R、3201G及び3201Bの配置位置からDMD3040の前方位置に亘って導光光学系3030の各構成部品が配列されており、導光光学系3030は、プロジェクタの前方から見て、直角に2つ折りされた構成を有する。
即ち、第1レンズ3301R、3301G及び3301Bと、第2レンズ3302R、3302G及び3302Bと、ダイクロイックプリズム3303は、3つの光源3201R、3201G及び3201Bで囲まれた領域内に配置される。中空ロッド3304は、ダイクロイックプリズム3303の上方に、上下方向に沿って配置される。そして、中空ロッド3304の上方からレンズユニット3501側に向かって、順にミラー3305、リレーレンズ3306及びミラー3307が配置され、ミラー3307とDMD3040の間に、リレーレンズ3308が配置される。
このように、各光源3201R、3201G及び3201Bから中空ロッド3304により上方に導光された後、レンズユニット3502へ屈曲する光路が、導光光学系3030に形成される。これにより、導光光学系3030の左右方向の長さが短くできるので、本体キャビネット3010の底面の面積を小さくすることが可能となる。よって、プロジェクタのコンパクト化を図ることが可能となる。
制御回路3060は、本体キャビネット3010の右側面近傍であって、前後方向におけるほぼ中央から前端にかけて配置される。制御回路3060は、所定のパターン配線が形成された基板上に各種の電装部品を実装されており、基板面が本体キャビネット3010の右側面に沿うように配置される。
制御回路3060の前端部であって、本体キャビネット3010の右前角部の位置(第1領域最端部)には、DMD駆動回路3603により生成されたDMD駆動信号が出力される出力端子部3604が設けられる。この出力端子部3604は、たとえば、コネクタで構成される。出力端子部3604には、DMD3040から延びるケーブル3401が接続されており、ケーブル3401を介してDMD3040へDMD駆動信号が送られる。
LED駆動回路3070は、本体キャビネット10の左後角部(第2領域)に配置される。LED駆動回路3070は、所定のパターン配線が形成された基板上に各種の電装部品を実装することにより構成される。
LED駆動回路3070の前方(前端部)には、3つの出力端子部3701R、3701G及び3701Bが設けられる。出力端子部3701R、3701G及び3701Bには、それぞれ、対応する光源3201R、3201G及び3201Bから延びるケーブル3203R、3203G及び3203Bが接続されており、これらケーブル3203R、3203G及び3203Bを介して光源3201R、3201G及び3201BへLED駆動信号(駆動電流)が送られる。
ここで、3つの光源3201R、3201G及び3201Bのうち、赤色光源3201RがLED駆動回路3070の最も近くに配置される。これにより、3つのケーブル3203R、3203G及び3203Bの中で、赤色光源3201Rに対するケーブル3203Rが最も短くなる。
なお、制御回路3060の出力端子部3604は、DMD3040と同様、第1領域上部に配置される。一方、LED駆動回路3070は、光源3201R、3201G及び3201Bと同様、第2領域下部に配置される。
<<変形等>>
上述の実施形態の内、複数の実施形態を組み合わせることも可能である。上述した説明文中に示した具体的な数値は、単なる例示であって、当然の如く、それらを様々な数値に変更することができる。上述の実施形態の変形例または注釈事項として、以下に、注釈1及び注釈2を記す。各注釈に記載した内容は、矛盾なき限り、任意に組み合わせることが可能である。
[注釈1]
各実施形態における教育システムを、ハードウェア、或いは、ハードウェアとソフトウェアの組み合わせによって構成することができる。ソフトウェアを用いて教育システムを構成する場合、ソフトウェアにて実現される部位についてのブロック図は、その部位の機能ブロック図を表すことになる。ソフトウェアを用いて実現される機能をプログラムとして記述し、該プログラムをプログラム実行装置(例えばコンピュータ)上で実行することによって、その機能を実現するようにしてもよい。
[注釈2]
各実施形態における教育システムでは、先生及び教室内の複数の生徒に参照される表示装置をプロジェクタ及びスクリーンによって構成しているが、該表示装置を任意の種類の表示装置(液晶ディスプレイパネルを用いた表示装置など)に変更することができる。
1 デジタルカメラ
2 PC
3 プロジェクタ
4 スクリーン
101A〜101C 生徒用の情報端末
102 PC
103 プロジェクタ
104 スクリーン
201A〜201C 生徒用の情報端末
203 プロジェクタ
204 スクリーン
301A〜301C 生徒用の情報端末
302 先生用の情報端末
303 プロジェクタ
304 スクリーン
31 発言者検出部
32 音声到来方向判定部
33 発言者画像データ生成部
34 発言者音響信号生成部
35 制御部
36 記録媒体
MC1〜MC4 マイクロホン
551 音響信号処理部
552 発言者検出部
553 発言者音響信号生成部
601 個人画像生成部
602 表示制御部

Claims (17)

  1. 複数の人物を被写体に含めた撮影を行って撮影結果を表す信号を出力する撮像部と、
    前記撮像部の出力に基づき、画像上において前記複数の人物の中から発言者を検出する発言者検出部と、
    前記発言者検出部の検出結果に基づき、前記撮像部の出力から前記発言者の画像部分の画像データを発言者画像データとして抽出する抽出部と、を備え、
    前記発言者画像データに基づく映像を、前記複数の人物が視認可能な表示画面上に表示する
    ことを特徴とするプレゼンテーションシステム。
  2. 前記撮像部の周辺音に応じた音響信号を生成する音響信号生成部を更に備え、
    前記音響信号生成部は、前記発言者検出部の検出結果に基づき、前記音響信号において前記発言者が位置する方向より到来する音の成分が強調されるように前記音響信号の指向性を制御する
    ことを特徴とする請求項1に記載のプレゼンテーションシステム。
  3. 前記撮像部の周辺音に応じた音響信号を個別に出力する複数のマイクロホンから成るマイク部を更に備え、
    前記音響信号生成部は、前記複数のマイクロホンの出力音響信号を用いて、前記発言者からの音の成分が強調された発言者音響信号を生成する
    ことを特徴とする請求項2に記載のプレゼンテーションシステム。
  4. 前記発言者画像データ及び前記発言者音響信号に応じたデータを、互いに関連付けて記録する
    ことを特徴とする請求項3に記載のプレゼンテーションシステム。
  5. 前記発言者画像データ、前記発言者音響信号に応じたデータ、及び、前記発言者の発言時間に応じたデータを、互いに関連付けて記録する
    ことを特徴とする請求項3に記載のプレゼンテーションシステム。
  6. 所定の映像を前記表示画面上に表示しているときにおいて、前記抽出部より前記発言者画像データが抽出された際、前記表示画面において前記発明者画像データに基づく映像を前記所定の映像上に重畳して表示する
    ことを特徴とする請求項1〜請求項5の何れかに記載のプレゼンテーションシステム。
  7. 複数の人物の夫々に対応して設けられ、対応する人物が発した音声に応じた音響信号を出力する複数のマイクロホンと、
    各マイクロホンの出力音響信号に基づく音声認識処理により、各マイクロホンの出力音響信号を文字データに変換する音声認識部と、
    前記複数の人物が視認可能な1又は複数の表示装置と、
    前記文字データが予め設定された条件を満たすか否かに応じて前記表示装置の表示内容を制御する表示制御部と、を備えた
    ことを特徴とするプレゼンテーションシステム。
  8. 被写体の撮影を行って撮影結果を表す信号を出力する撮像部と、
    前記撮像部の周辺音に応じた音響信号を出力するマイク部と、
    前記マイク部の出力音響信号に基づいて複数の人物の中から発言者を検出する発言者検出部と、を備え、
    前記発言者を前記被写体に含めた状態における前記撮像部の出力を、前記複数の人物が視認可能な表示画面上に表示する
    ことを特徴とするプレゼンテーションシステム。
  9. 前記マイク部は、前記撮像部の周辺音に応じた音響信号を個別に出力する複数のマイクロホンを有し、
    前記発言者検出部は、前記複数のマイクロホンの出力音響信号に基づき、前記マイク部の設置位置との関係において前記発言者からの音の到来方向である音声到来方向を判定し、その判定結果を用いて前記発言者を検出する
    ことを特徴とする請求項8に記載のプレゼンテーションシステム。
  10. 前記音声到来方向の判定結果に基づいて前記複数のマイクロホンの出力音響信号から前記発言者より到来する音響信号成分を抽出することにより、前記発言者からの音の成分が強調された発言者音響信号を生成する
    ことを特徴とする請求項9に記載のプレゼンテーションシステム。
  11. 前記マイク部は、各々が前記複数の人物の何れかに対応付けられた複数のマイクロホンを有し、
    前記発言者検出部は、各マイクロホンの出力音響信号の大きさに基づいて前記発言者を検出する
    ことを特徴とする請求項8に記載のプレゼンテーションシステム。
  12. 前記複数のマイクロホンの内、前記発言者としての人物に対応付けられたマイクロホンの出力音響信号を用いて、前記発言者からの音の成分を含む発言者音響信号を生成する
    ことを特徴とする請求項11に記載のプレゼンテーションシステム。
  13. 前記発言者を前記被写体に含めた状態における前記撮像部の出力に基づく画像データ、及び、前記発言者音響信号に応じたデータを、互いに関連付けて記録する
    ことを特徴とする請求項10又は請求項12に記載のプレゼンテーションシステム。
  14. 前記発言者を前記被写体に含めた状態における前記撮像部の出力に基づく画像データ、前記発言者音響信号に応じたデータ、及び、前記発言者の発言時間に応じたデータを、互いに関連付けて記録する
    ことを特徴とする請求項10又は請求項12に記載のプレゼンテーションシステム。
  15. 前記複数の人物の中に音を発している人物が複数存在する場合、前記発言者検出部は、前記マイク部の出力音響信号に基づいて、音を発している複数の人物を複数の発言者として検出し、
    当該プレゼンテーションシステムは、前記複数のマイクロホンの出力音響信号から、前記複数の発言者からの音響信号を個別に生成する
    ことを特徴とする請求項9〜請求項12の何れかに記載のプレゼンテーションシステム。
  16. 前記マイク部の出力音響信号に基づく音響信号が複数のスピーカの内の全部又は一部にて再生され、
    当該プレゼンテーションシステムは、前記発言者音響信号を再生させる際、前記複数のスピーカの内、前記発言者に対応付けられたスピーカにて前記発言者音響信号を再生させる
    ことを特徴とする請求項12に記載のプレゼンテーションシステム。
  17. 複数の人物の撮影を行って撮影結果を表す信号を出力する撮像部と、
    前記撮像部の出力に基づき前記人物ごとに前記人物の画像である個人画像を生成し、これによって前記複数の人物に対応する複数の個人画像を生成する個人画像生成部と、
    前記複数の人物が視認可能な表示画面上に、前記複数の個人画像を複数回に分けて順次表示させる表示制御部と、を備え、
    所定のトリガ信号を受けたときに前記表示画面に表示されている個人画像に対応する人物が発言者に成るべきことを提示する
    ことを特徴とするプレゼンテーションシステム。
JP2011524762A 2009-07-27 2010-07-26 プレゼンテーションシステム Pending JPWO2011013605A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009174009 2009-07-27
JP2009174009 2009-07-27
PCT/JP2010/062501 WO2011013605A1 (ja) 2009-07-27 2010-07-26 プレゼンテーションシステム

Publications (1)

Publication Number Publication Date
JPWO2011013605A1 true JPWO2011013605A1 (ja) 2013-01-07

Family

ID=43529260

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011524762A Pending JPWO2011013605A1 (ja) 2009-07-27 2010-07-26 プレゼンテーションシステム

Country Status (3)

Country Link
US (1) US20120077172A1 (ja)
JP (1) JPWO2011013605A1 (ja)
WO (1) WO2011013605A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5983065B2 (ja) * 2012-06-08 2016-08-31 株式会社リコー 操作制御装置、操作制御方法
JP2014115488A (ja) 2012-12-11 2014-06-26 Funai Electric Co Ltd 画像表示装置
US9065972B1 (en) 2013-03-07 2015-06-23 Rawles Llc User face capture in projection-based systems
WO2015058799A1 (en) * 2013-10-24 2015-04-30 Telefonaktiebolaget L M Ericsson (Publ) Arrangements and method thereof for video retargeting for video conferencing
JP6387641B2 (ja) * 2014-01-15 2018-09-12 セイコーエプソン株式会社 プロジェクター、表示装置、表示システムおよび表示装置の制御方法
CA2881644C (en) * 2014-03-31 2023-01-24 Smart Technologies Ulc Defining a user group during an initial session
US10699422B2 (en) * 2016-03-18 2020-06-30 Nec Corporation Information processing apparatus, control method, and program
JP6790396B2 (ja) * 2016-03-18 2020-11-25 株式会社リコー 情報処理装置、情報処理システム、サービス処理実行制御方法及びプログラム
JP7035669B2 (ja) * 2018-03-19 2022-03-15 セイコーエプソン株式会社 表示装置の制御方法、表示装置および表示システム
WO2020090324A1 (ja) * 2018-11-01 2020-05-07 株式会社新日本科学 会議支援システム
JP7259447B2 (ja) * 2019-03-20 2023-04-18 株式会社リコー 発話者検出システム、発話者検出方法及びプログラム
US11164341B2 (en) 2019-08-29 2021-11-02 International Business Machines Corporation Identifying objects of interest in augmented reality
CN111710200A (zh) * 2020-07-31 2020-09-25 青海卓旺智慧信息科技有限公司 一种高效的直播教育控制管理装置及系统
JPWO2023286383A1 (ja) * 2021-07-15 2023-01-19

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05137138A (ja) * 1991-11-13 1993-06-01 Omron Corp テレビ会議システム
JP3355598B2 (ja) 1996-09-18 2002-12-09 日本電信電話株式会社 音源分離方法、装置及び記録媒体
JPH10285531A (ja) * 1997-04-11 1998-10-23 Canon Inc Tv会議記録装置及び方法並びに記憶媒体
JP3435357B2 (ja) 1998-09-07 2003-08-11 日本電信電話株式会社 収音方法、その装置及びプログラム記録媒体
JP2004077739A (ja) 2002-08-16 2004-03-11 Toshiba Eng Co Ltd 電子教育システム
JP2004118314A (ja) * 2002-09-24 2004-04-15 Advanced Telecommunication Research Institute International 発話者検出システムおよびそれを用いたテレビ会議システム
WO2007145331A1 (ja) * 2006-06-16 2007-12-21 Pioneer Corporation カメラ制御装置、カメラ制御方法、カメラ制御プログラムおよび記録媒体
JP2008311910A (ja) * 2007-06-14 2008-12-25 Yamaha Corp 通信装置および会議システム
US8249269B2 (en) * 2007-12-10 2012-08-21 Panasonic Corporation Sound collecting device, sound collecting method, and collecting program, and integrated circuit

Also Published As

Publication number Publication date
WO2011013605A1 (ja) 2011-02-03
US20120077172A1 (en) 2012-03-29

Similar Documents

Publication Publication Date Title
WO2011013605A1 (ja) プレゼンテーションシステム
Moubayed et al. The furhat back-projected humanoid head–lip reading, gaze and multi-party interaction
US8289367B2 (en) Conferencing and stage display of distributed conference participants
Kuratate et al. “Mask-bot”: A life-size robot head using talking head animation for human-robot communication
JP7347597B2 (ja) 動画編集装置、動画編集方法及びプログラム
JP2014187559A (ja) 仮想現実提示システム、仮想現実提示方法
JP2018036690A (ja) 一対多コミュニケーションシステムおよびプログラム
JPWO2019139101A1 (ja) 情報処理装置、情報処理方法およびプログラム
JP2016045814A (ja) 仮想現実サービス提供システム、仮想現実サービス提供方法
CN112887654B (zh) 一种会议设备、会议系统及数据处理方法
CN117321984A (zh) 基于内容类型或参与者角色的视频会议电话中的空间音频
JP2014164537A (ja) 仮想現実サービス提供システム、仮想現実サービス提供方法
JP4501037B2 (ja) 通信制御システムと通信装置および通信方法
JP2007030050A (ja) ロボット制御装置、ロボット制御システム、ロボット装置、およびロボット制御方法
Cavaco et al. From pixels to pitches: Unveiling the world of color for the blind
Kuratate et al. Mask-bot''-a life-size talking head animated robot for AV speech and human-robot communication research
JP2017147512A (ja) コンテンツ再生装置、コンテンツ再生方法及びプログラム
JP7459890B2 (ja) 表示方法、表示システムおよびプログラム
JP6849228B2 (ja) 教室システム
JP4632132B2 (ja) 語学学習システム
Green et al. The interview box: Notes on a prototype system for video-recording remote interviews
JP7567555B2 (ja) 仮想空間共有システム、仮想空間共有方法及び仮想空間共有プログラム
JP2003333561A (ja) モニタ画面表示方法、端末装置及びテレビ会議システム
US11979448B1 (en) Systems and methods for creating interactive shared playgrounds
CN108961865A (zh) 一种针对架子鼓的裸眼3d互动培训系统及方法