WO2023210388A1 - 情報処理装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2023210388A1
WO2023210388A1 PCT/JP2023/014959 JP2023014959W WO2023210388A1 WO 2023210388 A1 WO2023210388 A1 WO 2023210388A1 JP 2023014959 W JP2023014959 W JP 2023014959W WO 2023210388 A1 WO2023210388 A1 WO 2023210388A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
sound
camera
text
colored
Prior art date
Application number
PCT/JP2023/014959
Other languages
English (en)
French (fr)
Inventor
尚子 菅野
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023210388A1 publication Critical patent/WO2023210388A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 

Abstract

本技術は、楽曲における各演者の担当部分を容易に把握できるようにする情報処理装置および方法、並びにプログラム。 情報処理装置は、複数の音源の音のテキストを含むテキスト情報と、少なくとも1つの音源を被写体として含む1または複数の映像とに基づいて、発せられている音の音源を表す色で、テキストにおける発せられている音に対応する部分、図形、または音源を示す文字列が表示される提示用映像を生成する映像生成部を備える。本技術は映像処理システムに適用することができる。

Description

情報処理装置および方法、並びにプログラム
 本技術は、情報処理装置および方法、並びにプログラムに関し、特に、楽曲における各演者の担当部分を容易に把握できるようにした情報処理装置および方法、並びにプログラムに関する。
 例えばライブ会場では、事前に準備したCG(Computer Graphics)映像をLED(Light Emitting Diode)ビジョンやLEDモニタなどと呼ばれる表示装置に表示したり、ライブ会場でリアルタイムに撮影しているカメラ映像をLEDビジョンに表示したりする等の映像演出が行われる。
 また、事前に準備したCG映像とリアルタイム撮影しているカメラ映像を合成して得られるはめ込み映像と呼ばれる映像をLEDビジョンに表示したり、上記の各映像に楽曲の歌詞を重畳してLEDビジョンに表示したりするなどの映像演出も行われる。さらに近年では、これらの映像がライブストリーミング配信されることもある。
 このようなライブ会場で表示される映像は、映像卓と呼ばれる場所で生成される。映像卓とは、ライブ会場において全ての映像信号が集約される、映像マスタコントロールルーム(主調整室)のような場所である。
 映像卓には、複数の映像サーバやスイッチャ、ルータなどが配置され、映像卓にいるオペレータは出力する映像信号を選択する。
 一例として、例えばライブ会場内に配置された10人程度の各カメラマンが撮影するカメラ映像が映像卓のルータに集約され、それらのカメラ映像に対して、適宜、エフェクト処理やCG合成が行われて最終的に提示する映像(最終映像)が生成される。そして、その最終映像がライブ会場内に設置されたLEDビジョンに表示される。なお、最終映像等に対する楽曲の歌詞の重畳処理なども映像卓で行われる。
 現状では、映像卓で行われる、最終映像を生成して出力するための映像信号制御は、オペレータが譜割に沿ってスイッチング操作等を行うことで実現されている。
 譜割とは、複数人のメンバ(演者)で楽曲を歌う場合に、楽曲の小節ごとに、どのメンバがどの歌詞部分を歌うかが記載されているものである。すなわち、譜割とは、楽曲における各メンバ(演者)の担当部分を示す情報である。
 譜割の表記ルールはアーティストごとに異なるが、例えば譜割には楽曲の歌詞が記載されており、全員で歌う歌詞の部分(ハモリ箇所)には下線が引かれていたり、その歌詞の部分を担当する担当者(歌うメンバ)の名前が記載されていたりする。
 ライブ演出の打合せや進行決定は、このような譜割に基づき行われる。具体的には、例えばライブ時におけるカメラスイッチの切り替えや照明点灯、特殊効果発動等の各タイミングは譜割に基づき決定される。
 上述のように、映像卓における映像信号制御は、オペレータ(映像制作スタッフ)が譜割に沿って手動で行う。同様に、ライブ会場内のカメラマンも譜割を参照した他のスタッフの音声指示などに従ってカメラ操作を行う。
 そのため、オペレータやカメラマン等が一目瞭然で楽曲における各演者(メンバ)の担当部分を把握できるようにすれば、操作ミスや撮影ミスの発生を低減させることができる。
 また、ライブの観客等に対して提示する演出映像に歌詞を重畳表示させる場合おいても、楽曲における各演者の担当部分が一目で分かるようにすれば、観客等はどの演者が楽曲のどの部分を歌っているかを瞬時に把握し、よりライブを楽しむことができるようになる。
 例えば、楽曲の歌詞の提示に関する技術として、楽曲の音程に応じて歌詞情報の文字を色分けして提示する伴奏曲再生表示装置が提案されている(例えば、特許文献1参照)。
 また、例えばリアルタイムに発生するライブ映像と、演者の出演の背景映像とを比較することで、楽曲に同期して歌詞テロップを表示させる技術も提案されている(例えば、特許文献2参照)。
特許第2647890号公報 特開2008-145978号公報
 しかしながら、上述した技術では、楽曲における各演者の担当部分を容易に把握することは困難であった。
 例えば特許文献1に記載の技術では、楽曲の音程を瞬時に把握することができるように歌詞情報を提示することはできるが、楽曲を複数人の演者で歌うことは考慮されておらず、各演者の担当部分に関わる表示を行うことはできない。
 同様に、特許文献2に記載の技術においても、楽曲を複数人の演者で歌うことは考慮されていないため、各演者の担当部分に関わる表示を行うことができない。
 本技術は、このような状況に鑑みてなされたものであり、楽曲における各演者の担当部分を容易に把握できるようにするものである。
 本技術の第1の側面の情報処理装置は、複数の音源の音のテキストを含むテキスト情報と、少なくとも1つの前記音源を被写体として含む1または複数の映像とに基づいて、発せられている音の前記音源を表す色で、前記テキストにおける前記発せられている音に対応する部分、図形、または前記音源を示す文字列が表示される提示用映像を生成する映像生成部を備える。
 本技術の第1の側面の情報処理方法またはプログラムは、複数の音源の音のテキストを含むテキスト情報と、少なくとも1つの前記音源を被写体として含む1または複数の映像とに基づいて、発せられている音の前記音源を表す色で、前記テキストにおける前記発せられている音に対応する部分、図形、または前記音源を示す文字列が表示される提示用映像を生成するステップを含む。
 本技術の第1の側面においては、複数の音源の音のテキストを含むテキスト情報と、少なくとも1つの前記音源を被写体として含む1または複数の映像とに基づいて、発せられている音の前記音源を表す色で、前記テキストにおける前記発せられている音に対応する部分、図形、または前記音源を示す文字列が表示される提示用映像が生成される。
 本技術の第2の側面の情報処理装置は、複数の音源の音を含むオーディオデータ、または前記オーディオデータのメタデータと、前記オーディオデータについて予め用意された、前記複数の前記音源の音のテキストを含むテキスト情報とに基づいて、複数の各前記音源の音の前記テキストに対して前記音源ごとに異なる色が付加された色付きテキスト情報を生成する色処理部を備える。
 本技術の第2の側面の情報処理方法またはプログラムは、複数の音源の音を含むオーディオデータ、または前記オーディオデータのメタデータと、前記オーディオデータについて予め用意された、前記複数の前記音源の音のテキストを含むテキスト情報とに基づいて、複数の各前記音源の音の前記テキストに対して前記音源ごとに異なる色が付加された色付きテキスト情報を生成するステップを含む。
 本技術の第2の側面においては、複数の音源の音を含むオーディオデータ、または前記オーディオデータのメタデータと、前記オーディオデータについて予め用意された、前記複数の前記音源の音のテキストを含むテキスト情報とに基づいて、複数の各前記音源の音の前記テキストに対して前記音源ごとに異なる色が付加された色付きテキスト情報が生成される。
本技術について説明する図である。 色付き譜割データの例を示す図である。 情報処理装置の構成例を示す図である。 メタデータの例を示す図である。 色付き譜割データ生成処理を説明するフローチャートである。 映像処理システムの構成例を示す図である。 表示処理を説明するフローチャートである。 合成映像生成装置の構成例を示す図である。 合成映像生成処理を説明するフローチャートである。 カメラ映像とスコアの表示例を示す図である。 リターン映像の例を示す図である。 合成映像の例を示す図である。 合成映像の例を示す図である。 合成映像の例を示す図である。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
 本技術は、楽曲の歌詞の各部分に対して、それらの部分を担当する演者に対応する色情報を付加することで、楽曲における各演者の担当部分を容易に把握できるようにするものである。
 まず、図1を参照して本技術の概要について説明する。なお、以下では具体的な一例として、本技術をライブ演出に適用した場合について説明する。
 図1の例では、実際のライブにおいて映像演出を行うにあたり、事前処理とリアルタイム処理とが行われる。事前処理は、ライブ前に事前に行っておく処理であり、リアルタイム処理は、事前処理の結果を用いてライブ中に行われる処理である。
 事前処理では、予め用意されたライブで演奏する楽曲の音源、すなわち楽曲のオーディオデータに対して、必要に応じて音源分離処理が行われ、楽曲全体のオーディオデータが、楽器音のオーディオデータと、歌声のオーディオデータとに分離される。
 なお、以下、楽曲のうちの楽器音、より詳細には演者の歌声以外の音を再生するためのオーディオデータを楽器音データとも称し、演者の歌声のみを再生するためのオーディオデータを歌声データとも称することとする。予め歌声データがある場合には、音源分離処理は不要となる。
 歌声データから、楽曲の各区間について、それらの区間を複数の演者(メンバ)のうちのどの演者が歌っているか、すなわちどの演者が担当しているかを特定することができる。
 次に、楽曲の歌声データと、予め用意された楽曲の歌詞情報、より詳細には譜割データとの比較が行われる。
 譜割データは、楽曲の歌詞情報と、楽曲の歌詞の各部分を担当する演者を示す情報とを含むデータである。換言すれば、譜割データは、歌声データに基づき再生される複数の各音源の音のテキスト、すなわち複数の演者により歌われる楽曲の歌詞のテキストと、テキストの各部分の音を発する音源(各歌詞部分を歌っている演者)を示す情報とを含むテキスト情報である。
 歌声データと譜割データの比較結果に基づいて、楽曲の歌詞の各部分に対して担当する演者に対応する色情報が付加されて、担当する演者ごとに色分けされた歌詞情報が得られる。ここでは、色分けされた歌詞情報として、色付き譜割データが得られる。
 例えば演者に対応する色、すなわち演者を表す色はどのようにして定められてもよいが、演者(メンバ)に対して、その演者のメンバカラーを割り当てるようにすれば、楽曲における各演者の担当部分をさらに容易に把握できるようになる。
 一般的に、グループアーティストではメンバ個人を識別するためメンバカラーが決められていることが多く、例えば衣装やマイクロホン、イヤホン等に対してもメンバごとに色付けが行われ、間違いが生じないようになされている。また、ファンは、ライブ中に応援しているメンバカラーのLEDライトを点滅させることで、メンバ(アーティスト)にメッセージを送るといったことをする。
 そのため、複数の各演者(メンバ)に対して、それらの演者のメンバカラーを割り当てるようにすれば、オペレータやカメラマンなどのスタッフだけでなく、ライブの観客やライブ配信の視聴者等も、メンバカラーに対応する演者を瞬時に把握することが可能である。
 以上のような事前処理により色付き譜割データが得られる。色付き譜割データには、楽曲の歌詞情報と、楽曲の歌詞の各部分を担当する演者を示す情報と、楽曲の歌詞の各部分について、その部分を担当する演者を示す色情報とが含まれている。
 換言すれば、色付き譜割データは、複数の演者の歌声(音声)という、オーディオデータに基づく複数の音源の音のテキスト情報の各部分、すなわち歌詞の各部分に対して、音源(演者)ごとに異なる色を付加した色付きテキスト情報であるということができる。
 ここで、色付き譜割データの具体的な例を図2に示す。
 図2には、図中、左側に色情報が付加される前の1つの楽曲の譜割データの例が示されており、図中、右側には譜割データに対して色情報を付加することで得られた色付き譜割データの例が示されている。
 図中、左側に示す譜割データでは、楽曲の譜割における左側の欄に演者名が記されており、中央の欄には歌詞情報が何コーラス目の部分であるかが記されており、右側の欄には小節ごとに区切られて楽曲の歌詞が黒字、すなわち単色の文字で記されている。
 この例では3人の演者「佐藤」、「田中」、および「鈴木」からなるグループ(3人グループ)により楽曲が歌われる。
 譜割においては、記載されている区間(小節)ごとの歌詞の左側に記された演者名が、その歌詞の部分を担当する演者を示している。
 具体的には、例えば譜割の一番上に記載されている楽曲の出だし部分「どんぐりころころ どんぶりこ」は、演者「佐藤」の担当となっている。また、演者名の欄に「全員」と記されている楽曲部分は、3人の全演者が歌う(担当する)ことを示している。
 いま、演者「佐藤」、「田中」、および「鈴木」のそれぞれのメンバカラーが「緑」、「青」、および「オレンジ」であるとする。
 そのような場合、図中、左側に示した譜割データと、各演者のメンバカラーとから図中、右側に示す色付き譜割データが得られる。
 この色付き譜割データにより示される譜割の構成、すなわち楽曲の歌詞の記載欄や各部分を担当する演者名(メンバ名)の記載欄の配置は、図中、左側に示した譜割データにおける場合と同じとなっている。
 図2に示す譜割データと色付き譜割データの差異は、譜割データにおいては楽曲の歌詞が担当する演者によらず同じ色(単色)の文字で記されているのに対して、色付き譜割データにおいては楽曲の歌詞が担当する演者のメンバカラーの文字で記されている点である。
 例えば、色付き譜割データにより示される譜割の一番上に記載されている楽曲の出だし部分「どんぐりころころ どんぶりこ」は、演者「佐藤」が担当となっているため、その出だし部分の歌詞は演者「佐藤」のメンバカラーである緑色の文字で記されている。
 また、演者名の欄に「全員」と記されている、全演者が同時に担当する部分の歌詞は、例えば黒や白など、どの演者のメンバカラーとも異なる色の文字で記されている。
 このような色情報が付加された色付き譜割データでは、楽曲のどの部分をどの演者が担当するかを瞬時に、かつ直感的に把握することができる。
 例えばオペレータやカメラマン等のスタッフだけでなく、アーティスト(演者)が色付き譜割データを利用してもよく、そのような場合においても各演者には、誰が楽曲のどの部分を歌うのかは一目瞭然である。
 図1の説明に戻り、事前処理によって色付き譜割データが得られると、その後、ライブ中には、色付き譜割データに基づきリアルタイム処理が行われる。
 リアルタイム処理では、ライブ会場内にある複数のカメラにより撮影が行われ、その結果得られた複数のカメラ映像に対して顔認識処理が行われる。
 顔認識処理により、カメラ映像内にどの演者(メンバ)が被写体として映っているかを特定できるため、顔認識処理の結果と色付き譜割データ等とから、演出用(提示用)の映像の生成に用いられるカメラ映像の候補が選択される。すなわち、撮影により得られた複数のカメラ映像のなかから、1または複数のカメラ映像が演出用の映像の生成に用いられるカメラ映像の候補として選択される。
 この場合、例えば楽曲における現在演奏中の部分を担当している演者(メンバ)が被写体として含まれているカメラ映像が候補として選択されるようにしてもよい。
 このようにして得られた候補に対して、適宜、オペレータ等による最終的な選択が行われ、最終的に選択された1または複数のカメラ映像と、色付き譜割データとに基づき、演出用の映像である合成映像が生成され、得られた合成映像がライブ会場で提示される。
 例えば合成映像の生成時には、複数のカメラ映像の一部または全部や予め用意されたCG映像などが並べられて合成されたり、合成映像上に楽曲における演奏中の部分の歌詞が、その部分を担当する演者のメンバカラーで合成(重畳)されたりする。
 このとき、オペレータ等の映像制作スタッフは色付き譜割データを参照したり、色付き譜割データに基づき選択されて提示された候補(カメラ映像)を参照したりしながら、スイッチング操作や照明点灯、特殊効果の発動等の操作を行うことができる。
 したがって、映像制作スタッフによるカメラのスイッチングのタイミングや特殊効果の発動等のタイミングの間違いの発生を抑制することができる。
 また、色付き譜割データに基づき生成された、楽曲における演奏中の部分、より詳細には演奏中の部分の直後の部分をどの演者(メンバ)が担当するかが視覚的に理解できる映像がリターン映像として生成されるようにしてもよい。そのような場合、リターン映像がライブ会場内の各カメラまたはカメラに対応する表示装置等に供給され、表示される。
 なお、リターン映像は、観客に提示される合成映像と同じ映像であってもよいし、合成映像とは異なる映像であってもよい。また、リターン映像はカメラごとに異なるようにしてもよい。
 このようなリターン映像を提示することで、カメラマンには自身がどのタイミングで、どの演者(メンバ)を撮影すべきかが一目瞭然になるので、撮り損ないや撮影タイミングミス、フォーカスズレなどといった撮影ミスの発生を抑制することができる。
 さらに、ライブ会場において色付き譜割データに基づき生成された、色情報付きの歌詞が表示される合成映像を提示することで、ライブ会場にいる観客やライブ映像の視聴者は、どの演者がどの箇所を歌っているかを視覚的に容易に把握することができる。
〈情報処理装置の構成例〉
 図3は、上述した事前処理を行うコンピュータ等からなる情報処理装置の構成例を示す図である。例えば、図3に示す情報処理装置11は映像卓に設置されてもよいし、映像卓とは異なる場所に設置されていてもよい。
 情報処理装置11は音源分離部21、歌声解析部22、比較部23、および色処理部24を有している。
 音源分離部21には、楽曲の音を再生するオーディオデータである音源データが供給される。音源分離部21は、供給された音源データに対して音源分離処理を行うことで、音源データから楽器音データと歌声データとを分離し、得られた歌声データを歌声解析部22に供給する。
 ここでは歌声データは、演者の歌声という目的とする音源(演者)の音を含むオーディオデータであり、楽器音データは、楽器の音などの演者とは異なる他の音源、すなわち目的外の音源の音を含むオーディオデータである。
 なお、予め楽器音をリミックスする前の歌声データがある場合には、音源分離処理は不要であり、そのような場合には音源分離部21は設けられていなくてもよい。
 歌声解析部22は、音源分離部21から供給された歌声データに対して歌声解析、すなわち解析処理を行う。
 例えば歌声解析では、歌声データに基づく音(歌声)において、どの演者がどの区間を歌っているかが特定される。換言すれば、歌声データの複数の区間ごとに、それらの区間に音(歌声)が含まれている演者(音源)が特定される。
 具体的な例として、例えば歌声データにおける歌声の周波数と、予め用意された各演者の声の周波数とを照合することにより、歌声解析を実現することができる。
 また、歌声解析部22は、歌声データの区間ごとの声の解析結果(歌声解析の結果)に基づいて楽曲のメタデータを生成する。さらに歌声解析部22は、例えば歌声解析として歌声データに対する音声認識処理を行うことで、仮の歌詞情報を生成する。
 歌声解析部22は、歌声解析により得られた楽曲のメタデータと仮の歌詞情報を比較部23に供給する。
 例えば歌声解析部22は、音声認識処理により歌声データに基づく歌声(音声)の文字起こし、すなわち歌声データのテキスト化を行い、その結果を示す文字情報(テキスト情報)を楽曲の仮の歌詞を示す歌詞情報とする。この歌詞情報は、仮の歌詞を示す情報であり、歌詞情報により示される歌詞は、必ずしも正確な歌詞であるとは限らない。
 また、楽曲のメタデータは、歌声データの各区間にどの演者の声が含まれているかを示すデータとされる。すなわち、メタデータには、歌声データの複数の各区間について、それらの区間に音(歌声)が含まれている演者(音源)を示す情報が含まれている。なお、楽曲の音源データに予めメタデータが含まれている場合には、そのメタデータが利用されるようにしてもよい。
 図4にメタデータの一例を示す。この例では図中、横方向は時間を示しており、メタデータがタイムライン表示されている。
 図4に示すメタデータは、歌声データを複数の時間区間に分割したときの時間方向に並ぶ複数の各区間を示す情報と、それらの各区間に声(音声)が含まれている演者を示す情報とが含まれる動画像データとされている。
 特に、この例では、時間方向に並べられた四角形が1つの区間(時間区間)を表しており、各区間には、それらの区間に音声が含まれている演者を示す色情報が付加されている。
 具体的には、この例では1つの楽曲が3人の演者「佐藤」、「田中」、および「鈴木」により歌われ、それらの演者「佐藤」、「田中」、および「鈴木」のメンバカラーが「緑」、「青」、および「オレンジ」とされている。
 このようなメタデータを再生すると、再生時刻ごと、すなわち時間区間ごとに、その時間区間に対応する楽曲の部分を担当する演者を表す色が表示される。また、演者を表す色(色情報)とともに演者名が表示されるようにしてもよい。
 具体的には、例えば区間T1では演者「佐藤」を表す色「緑」が提示される。換言すれば、区間T1に対しては演者「佐藤」を示す色情報「緑」が付加(付与)されている。
 また、区間T2では演者「田中」および「鈴木」を表す色「青」および「オレンジ」が提示されており、楽曲における区間T2に対応する部分は演者「田中」および「鈴木」により歌われることが分かる。
 特に、全演者の数より少ない複数の色情報が提示されている区間は、複数の演者が同時に担当するハモリと呼ばれる区間となっており、ハモリ区間では、よりキーの高いパートを担当する演者を表す色が区間を表す四角形内の上側の部分に表示される。すなわち、ハモリ箇所においては、その箇所におけるパートごとに、パートに対応する色情報の提示領域が予め定められている。
 この例では、区間T2において上側の領域に表示された色「青」と下側の領域に表示された色「オレンジ」とから、つまり各領域の位置関係から各パートの担当を視覚的に瞬時に把握することができる。すなわち、色「青」に対応する演者「田中」が上のパートを担当し、色「オレンジ」に対応する演者「鈴木」が下のパートを担当することを直感的に把握することができる。
 また、区間T3では全ての演者「佐藤」、「田中」、および「鈴木」のそれぞれを示す色「緑」、「青」および「オレンジ」のそれぞれが提示されており、楽曲の区間T3に対応する部分は全演者により歌われることが分かる。
 なお、ここでは各区間に対して色情報が付加される例について説明したが、メタデータは、歌声データの各区間にどの演者の音声が含まれているかを特定できる情報であれば、どのような情報であってもよい。例えば、メタデータでは、歌声データの各区間に対して、演者を識別する数値等の識別子や演者名が付加(表示)されるようにしてもよい。
 図3の説明に戻り、比較部23は、歌声データと、予め用意された楽曲の譜割データとを比較する。
 すなわち、より詳細には比較部23は、歌声解析部22から供給された楽曲のメタデータおよび仮の歌詞情報と、予め用意された譜割データとを比較し、その比較結果とメタデータを色処理部24に供給する。
 比較部23では、例えば歌声データのテキスト化の結果である仮の歌詞情報と、譜割データにより示される正しい歌詞とが比較されて、歌声データにおける各区間と、譜割データに基づく譜割における楽曲の各小節との対応関係が特定される。換言すれば、歌声データと譜割データの同期が行われる。
 また、比較部23では、メタデータにより示される各区間に付加された色情報により示される演者と、譜割データに基づく譜割における各小節の担当演者との対応関係が比較される。仮の歌詞情報およびメタデータの一方と、譜割データとの比較にあたっては、他方と譜割データとの比較結果も適宜参照されるようにしてもよい。
 このような比較を行うことで、歌声データに基づく楽曲の各区間(小節)の特定や、楽曲の各区間を担当する演者の特定の精度を向上させ、より正確な色付き譜割データを得ることができるようになる。
 色処理部24は、比較部23から供給されたメタデータおよび比較結果に基づいて、色付き譜割データを生成し、得られた色付き譜割データを図示せぬ記録媒体等に出力する。
 例えば色処理部24では、メタデータや比較部23での比較結果に基づいて、楽曲の音源データに対して予め用意された譜割データに含まれている歌詞情報に対して色情報を付加することで、すなわち歌詞に対する色付けを行うことで色付き譜割データが生成される。なお、比較部23での比較結果に基づいて、仮の歌詞情報やメタデータの補正を行うようにすれば、色処理部24では譜割データを用いなくても正しい色付き譜割データを生成することが可能である。
〈色付き譜割データ生成処理の説明〉
 次に、情報処理装置11の動作について説明する。
 情報処理装置11は、ライブ開始前の適切なタイミングにおいて、上述した事前処理として、ライブで演奏される楽曲ごとに図5に示す色付き譜割データ生成処理を行う。
 以下、図5のフローチャートを参照して、情報処理装置11により行われる色付き譜割データ生成処理について説明する。
 ステップS11において音源分離部21は、供給された音源データに対して音源分離処理を行い、その結果得られた歌声データを歌声解析部22に供給する。
 ステップS12において歌声解析部22は、音源分離部21から供給された歌声データに対して歌声解析を行って仮の歌詞情報とメタデータを生成し、比較部23に供給する。
 例えばステップS12では、歌声解析の結果に基づいて楽曲のメタデータが生成されるとともに、歌声データに基づいて、音声認識処理等により仮の歌詞情報が生成される。これにより、例えば図4に示したメタデータが得られる。
 ステップS13において比較部23は、歌声解析部22から供給された楽曲のメタデータおよび仮の歌詞情報と、予め用意された譜割データとを比較する比較処理を行い、比較処理により得られた比較結果とメタデータを色処理部24に供給する。
 ステップS14において色処理部24は、比較部23から供給されたメタデータおよび比較結果に基づいて色処理を行うことで色付き譜割データを生成し、得られた色付き譜割データを出力する。
 例えば色処理では、比較処理の結果(比較結果)が考慮されて、適宜、メタデータにより示される各区間の開始位置や終了位置などが修正され、譜割データにおける歌詞情報に対して担当演者を示す色情報が付加され、色付き譜割データとされる。
 このようにして色付き譜割データが得られると、色付き譜割データ生成処理は終了する。
 以上のようにして情報処理装置11は、歌声データと譜割データとに基づいて、歌声解析や比較処理、色処理を行うことで、色付き譜割データを生成する。
 このようにして色付き譜割データを生成することで、得られた色付き譜割データによって、楽曲における各演者の担当部分を容易に把握することができるようになる。
 ライブ等においては、セットリストや楽曲の長さなどが決まるのは、ライブリハーサルの数日前であることが多く、数多くの楽曲の譜割データに適切に手書きで書き込みを行うのは困難である。この点、本技術を用いれば、多くの楽曲について、人手を必要とすることなく短時間で適切な色付き譜割データを得ることが可能である。
〈映像処理システムの構成例〉
 図6は、上述したリアルタイム処理を行う映像処理システムの構成例を示す図である。
 図6に示す映像処理システム61は、俯瞰カメラ71-1、ツアーカメラ71-2乃至ツアーカメラ71-N、SDI(Serial Digital Interface)ルータ72、カメラスイッチャ73、CG/カメラ映像合成部74、最終映像スイッチャ75、歌詞合成部76、および表示部77を有している。
 俯瞰カメラ71-1は、例えばライブ会場内における、ライブ会場全体を俯瞰できる位置などに配置されたカメラである。俯瞰カメラ71-1は、ライブ会場全体を被写体として撮影を行い、その結果得られたカメラ映像をSDIルータ72に供給する。
 ツアーカメラ71-2乃至ツアーカメラ71-Nは、例えばライブ会場内の固定の位置に配置されるか、またはライブ会場内にいるカメラマンとともに会場内を移動する。
 ツアーカメラ71-2乃至ツアーカメラ71-Nは、ライブ会場内の少なくとも一部を被写体として撮影し、その結果得られたカメラ映像をSDIルータ72に供給する。
 なお、以下、ツアーカメラ71-2乃至ツアーカメラ71-Nを特に区別する必要のない場合、単にツアーカメラ71とも称することとする。
 一例として、ライブ会場内では、例えば8台乃至10台のツアーカメラ71が用いられて撮影が行われるが、ツアーカメラ71の数はいくつであってもよい。
 また、以下、俯瞰カメラ71-1とツアーカメラ71を特に区別する必要のない場合、単にカメラ71とも称することとする。以下では、カメラ71により撮影されたカメラ映像には、ステージ上等でパフォーマンスを行う複数の演者のうちの少なくとも1人の演者が被写体として含まれているものとする。
 SDIルータ72には、ライブ会場内にある全てのカメラ71で得られたカメラ映像が集約される。SDIルータ72は、複数の各カメラ71から供給されたカメラ映像をカメラスイッチャ73に供給する。
 なお、各カメラ71とSDIルータ72との接続は、有線であってもよいし、無線であってもよいし、有線と無線を組み合わせたものであってもよい。
 カメラスイッチャ73は、SDIルータ72から供給された複数のカメラ映像のうちの任意の1または複数のカメラ映像をCG/カメラ映像合成部74に供給するとともに、SDIルータ72から供給された複数のカメラ映像のうちの任意の1または複数のカメラ映像を最終映像スイッチャ75に供給する。
 例えばCG/カメラ映像合成部74に供給されるカメラ映像と、最終映像スイッチャ75に供給されるカメラ映像とは、互いに異なる映像とされる。
 CG/カメラ映像合成部74は、カメラスイッチャ73から供給されたカメラ映像に対して、他のカメラ映像や予め用意されたCG映像を合成することで合成映像(以下、合成カメラ映像とも称する)を生成し、最終映像スイッチャ75に供給する。
 最終映像スイッチャ75は、カメラスイッチャ73から供給されたカメラ映像、CG/カメラ映像合成部74から供給された合成カメラ映像、および予め用意されたCG映像のうちの少なくとも何れか1つに基づいて合成映像を生成し、歌詞合成部76に供給する。
 また、最終映像スイッチャ75は、事前処理により生成された色付き譜割データに基づいてリターン映像を生成する。このとき、最終映像スイッチャ75は、適宜、カメラスイッチャ73から供給されたカメラ映像や、CG/カメラ映像合成部74から供給された合成カメラ映像なども用いてリターン映像を生成する。上述のようにリターン映像は、カメラマンに対して撮影タイミング等の確認のために提示される提示用の映像である。
 最終映像スイッチャ75は、生成したリターン映像をカメラ71、またはカメラ71を操作するカメラマンの近傍に配置されたSDIモニタやタブレット等の表示装置に供給し、リターン映像を表示させる。
 なお、各カメラ71、またはカメラ71に対応する表示装置と、最終映像スイッチャ75との間の接続は有線であってもよいし、無線であってもよいし、有線と無線を組み合わせたものであってもよい。
 歌詞合成部76は、最終映像スイッチャ75から供給された合成映像に対して、事前処理で生成された色付き譜割データに基づき色付きの歌詞情報(色付きのテキスト情報)、すなわち色情報が付加された歌詞を重畳させ、最終的な合成映像とする。歌詞合成部76は、最終的な合成映像を表示部77に供給し、提示用映像として表示させる。
 例えば、映像処理システム61を構成するSDIルータ72乃至歌詞合成部76は、映像卓に配置される。
 表示部77は、例えばLEDビジョンや液晶パネル等の表示装置からなり、ライブ会場内のステージ等に配置される。LEDビジョンは、LEDパネルからなる大型の表示装置である。表示部77は、歌詞合成部76から供給された合成映像を表示することで、ライブの観客等に対して合成映像を提示する。
〈表示処理の説明〉
 続いて、映像処理システム61の動作の大まかな流れについて説明する。すなわち、以下、図7のフローチャートを参照して、映像処理システム61による表示処理について説明する。この表示処理は、上述のリアルタイム処理として行われる。
 ステップS41において複数の各カメラ71は、ライブ会場内の一部または全部を被写体として撮影を行い、その結果得られたカメラ映像をSDIルータ72に供給する。また、SDIルータ72は、複数の各カメラ71から供給されたカメラ映像をカメラスイッチャ73に供給する。
 ステップS42においてカメラスイッチャ73は、CG/カメラ映像合成部74や最終映像スイッチャ75へと出力するカメラ映像の切り替えを行う。
 例えばオペレータ等は、色付き譜割データや、適宜、提示されたカメラ映像などを参照しながら、CG/カメラ映像合成部74や最終映像スイッチャ75へと出力するカメラ映像を切り換える切り替え操作を行う。換言すれば、CG/カメラ映像合成部74へと供給するカメラ映像、および最終映像スイッチャ75へと供給するカメラ映像が選択される。
 すると、カメラスイッチャ73は、オペレータ等による切り替え操作に従って、SDIルータ72から供給された複数のカメラ映像のうちの指定されたカメラ映像をCG/カメラ映像合成部74に供給する。
 同様にカメラスイッチャ73は、オペレータ等による切り替え操作に従って、SDIルータ72から供給された複数のカメラ映像のうちの指定されたカメラ映像を最終映像スイッチャ75に供給する。
 ステップS43においてCG/カメラ映像合成部74は、カメラスイッチャ73から供給されたカメラ映像に基づき映像合成を行う。
 例えばCG/カメラ映像合成部74は、カメラスイッチャ73から供給されたカメラ映像同士を合成したり、カメラスイッチャ73から供給されたカメラ映像とCG映像を合成したりすることで合成カメラ映像を生成し、最終映像スイッチャ75に供給する。
 ステップS44において最終映像スイッチャ75は合成映像を生成し、歌詞合成部76に供給する。
 例えば最終映像スイッチャ75は、カメラスイッチャ73から供給されたカメラ映像、CG/カメラ映像合成部74から供給された合成カメラ映像、および予め用意されたCG映像の少なくとも何れか1つに基づいて合成映像を生成する。このとき最終映像スイッチャ75は、適宜行われるオペレータ等による選択(切り替え)等の操作や、事前に用意された色付き譜割データに基づき合成映像の生成を行う。
 また、最終映像スイッチャ75は、適宜、カメラスイッチャ73から供給されたカメラ映像や、CG/カメラ映像合成部74から供給された合成カメラ映像も用いて、事前処理により生成された色付き譜割データに基づきリターン映像を生成する。
 ステップS45において歌詞合成部76は、最終映像スイッチャ75から供給された合成映像と、事前に用意された色付き譜割データとに基づいて歌詞合成を行う。
 すなわち、歌詞合成部76は、最終映像スイッチャ75からの合成映像に対して、色付き譜割データに基づき色付きの歌詞情報を重畳させ(合成し)、最終的な合成映像とする。
 ステップS46において歌詞合成部76は、ステップS45で生成された最終的な提示用の合成映像を表示部77に供給し、表示部77に合成映像を表示させる。
 ステップS47において最終映像スイッチャ75は、カメラ71、またはカメラ71を操作するカメラマンの近傍に配置された表示装置に生成したリターン映像を供給し、カメラ71または表示装置にリターン映像を表示させる。
 ステップS48において最終映像スイッチャ75は、合成映像を表示させる処理を終了するか否かを判定する。
 ステップS48において、まだ処理を終了しないと判定された場合、その後、処理はステップS41に戻り、上述した処理が繰り返し行われる。
 これに対して、ステップS48において処理を終了すると判定された場合、映像処理システム61の各部は行っている処理を停止し、表示処理は終了する。
 以上のようにして映像処理システム61は、色付き譜割データを用いて合成映像やリターン映像を生成し、表示させる。
 このようにすることで、合成映像を提示されたライブの観客やライブ配信の視聴者、リターン映像を提示されたカメラマンに対して、楽曲における各演者の担当部分を容易に把握させることができる。
〈合成映像生成装置の構成例〉
 ここで、合成映像の生成のより具体的な例について説明する。
 図8は、表示部77に表示される最終的な合成映像を生成する合成映像生成装置の構成例を示す図である。
 図8に示す合成映像生成装置121は、図6に示したカメラスイッチャ73、CG/カメラ映像合成部74、最終映像スイッチャ75、および歌詞合成部76からなる情報処理装置である。なお、合成映像生成装置121は、1つの装置により実現されてもよいし、複数の装置により実現されてもよい。
 合成映像生成装置121は顔認識部131、譜割比較部132、カメラ映像選択部133、および映像合成部134を有している。
 特に、カメラ映像選択部133はカメラスイッチャ73により実現され、提示用映像である合成映像の生成に用いるカメラ映像の候補を選択する候補選択部として機能する。また、映像合成部134は、CG/カメラ映像合成部74、最終映像スイッチャ75、および歌詞合成部76により実現され、提示用の合成映像を生成する映像生成部として機能する。
 顔認識部131には、SDIルータ72から出力された複数のカメラ映像が供給される。
 顔認識部131は、供給されたカメラ映像に対して顔認識処理を行い、カメラ映像内に被写体として含まれている演者(メンバ)を特定し、その特定結果を顔認識処理の結果として譜割比較部132に供給する。また、顔認識部131は、供給された複数のカメラ映像も譜割比較部132に供給する。
 なお、顔認識部131では、複数のカメラ映像(映像信号)ごとに別々に顔認識処理が行われるようにしてもよいし、カメラスイッチャ73が複数のカメラ映像を統合することで得らえた1つの集合映像に対して顔認識処理が行われるようにしてもよい。
 例えば、カメラスイッチャ73では、矢印W11に示すように3×3や4×4など、複数のカメラ映像を並べて得られるカメラ映像列が表示される。
 矢印W11に示す例では、縦方向および横方向の各方向に3つのカメラ映像が並べられ、合計9個のカメラ映像からなる3×3(3行3列)のカメラ映像列が形成されている。
 例えばカメラ映像列を形成するカメラ映像P11は、1つのカメラ71により撮影されたものであり、カメラ映像P11には所定の1人の演者(メンバ)が被写体として含まれている。同様に、カメラ映像P12は、カメラ映像P11の撮影を行ったカメラ71とは異なる他のカメラ71により撮影されたものであり、カメラ映像P12にもカメラ映像P11における場合と同じ演者が被写体として含まれている。
 例えばカメラスイッチャ73が、矢印W11に示すカメラ映像列と同じ配列(配置)で複数のカメラ映像を並べて合成することで1つの集合映像を生成し、その集合映像を顔認識部131の入力とするようにしてもよい。そのような場合、顔認識処理では、集合映像のどの領域、すなわち集合映像を構成するどのカメラ映像に、どの演者が被写体として含まれているかが特定される。
 例えば、予め用意された各演者の顔の複数の特徴点と、カメラ映像から抽出された顔の複数の特徴点とを比較して、それらの特徴点の類似度、より詳細には各特徴点の位置関係の類似度に基づき顔認識処理が行われるようにしてもよい。そのような場合、カメラ映像に被写体として含まれている顔と、予め定められた演者との類似度を示すスコアも顔認識処理の結果として出力されるようにしてもよい。
 その他、カメラ71にAI(Artificial Intelligence)認識機能が搭載されているなど、カメラ71側が顔認識機能を有している場合には、カメラ71で顔認識処理が行われるようにしてもよい。そのような場合、例えば顔認識処理の結果がメタデータとしてカメラ映像に付与される。顔認識処理の結果は、例えばカメラ映像に被写体として含まれている演者(メンバ)を示す演者情報などとすることができる。
 譜割比較部132は、顔認識部131から供給された顔認識処理の結果と、事前に用意された色付き譜割データとを比較し、その比較結果とカメラ映像をカメラ映像選択部133に供給する。
 この場合、例えば譜割比較部132には、色付き譜割データにおける、演者により現在演奏されている部分が供給される。すなわち、譜割比較部132では、色付き譜割データに基づき、現在演奏中の歌詞部分や、その歌詞部分を担当する演者を特定することが可能となっている。
 同様に、映像合成部134においても色付き譜割データに基づき、現在演奏中の歌詞部分や、その歌詞部分を担当する演者を特定することが可能となっている。
 例えば譜割比較部132では、顔認識処理の結果と、色付き譜割データにおける現在演奏中の部分(小節部分)とを比較することで、楽曲の現在演奏中の部分を担当している演者(メンバ)が被写体として含まれているカメラ映像を特定することができる。換言すれば、カメラ映像に被写体として含まれている演者が、現在、音を発しているか否か(歌っているか否か)を特定することができる。
 カメラ映像選択部133は、譜割比較部132から供給された比較結果に基づいて、譜割比較部132から供給された複数のカメラ映像のなかから、1または複数のカメラ映像を最終的な合成映像(提示用合成映像)を生成するのに用いる映像の候補として選択する。
 例えばカメラ映像選択部133では、少なくとも楽曲における演奏中の部分を担当している演者(メンバ)、すなわち現在歌っている演者(発せられている音の音源)が被写体として含まれているカメラ映像が候補として選択される。
 この場合、複数のカメラ71で同じ演者を被写体として撮影することもあるので、候補として選択されるカメラ映像は1つであることもあれば、複数となることもある。また、例えば、候補として選択されたカメラ映像の識別は、そのカメラ映像を撮影したカメラ71を識別するカメラ番号などにより行われるようにしてもよい。
 その他、オペレータ等による選択操作に従って、候補とするカメラ映像が選択されてもよい。そのような場合、例えば顔認識処理の結果として演者との類似度を示すスコアが求められているときには、カメラ映像とともにスコアを表示すれば、オペレータ等はスコアやカメラ映像を参照して候補とするカメラ映像を選択することができる。
 カメラ映像選択部133は、候補として選択した1または複数のカメラ映像を映像合成部134に供給する。
 映像合成部134は、カメラ映像選択部133から候補として供給された1または複数のカメラ映像のうちの少なくとも1以上のカメラ映像と、事前に用意された色付き譜割データとに基づいて合成映像を生成し、表示部77に供給する。
 例えば映像合成部134は、カメラ映像選択部133から供給された複数のカメラ映像を並べて合成することで合成映像を生成し、その合成映像に対して色付き譜割データに基づき、色付きの歌詞情報を重畳させることで最終的な合成映像とする。
 なお、カメラ映像選択部133において候補として選択されたカメラ映像全てが合成映像の生成に用いられる必要はなく、候補として選択されたカメラ映像のうちの1以上のものが用いられて合成映像が生成されればよい。
 例えば複数の候補のなかからオペレータ等により選択された1つの候補(カメラ映像)がそのまま合成映像とされてもよい。その他、合成映像の生成には、候補のなかから選択されたカメラ映像だけでなく、予め用意されたCG映像も用いられるようにしてもよい。
 合成映像の具体的な例として、例えば矢印W11に示したカメラ映像列が得られ、同じ演者を被写体として含むカメラ映像P11とカメラ映像P12が候補として選択された場合、矢印W12に示す合成映像が得られる。
 この合成映像では、現在歌っている演者を被写体として含むカメラ映像P11とカメラ映像P12とが並べられて配置されており、それらのカメラ映像P11とカメラ映像P12の部分には、楽曲における現在演奏中の部分の歌詞情報が色付きで重畳されている。
 特にこの例では、歌詞情報の色は、カメラ映像P11やカメラ映像P12に含まれている演者(メンバ)、すなわち演奏中の部分を歌っている演者のメンバカラーとなっている。
 換言すれば、提示用映像である合成映像において、現在、発せられている音の音源(演者)を表す色で、色付き譜割データに記載された歌詞情報における現在演奏中の部分、つまり発せられている音に対応する部分が表示されている。
 以上の顔認識部131乃至映像合成部134により行われる処理は、図7を参照して説明した表示処理におけるステップS42乃至ステップS45の処理に対応する。
 なお、映像合成部134が、色付き譜割データに基づいて、カメラ71ごとにリターン映像を生成し、得られたリターン映像を各カメラ71またはカメラ71に対応する表示装置に供給するようにしてもよい。
〈合成映像生成処理の説明〉
 続いて、図9のフローチャートを参照して、合成映像生成装置121により行われる合成映像生成処理について説明する。この合成映像生成処理は、図7の表示処理におけるステップS42乃至ステップS45の処理に対応する。
 ステップS81において顔認識部131は、供給されたカメラ映像に対して顔認識処理を行い、顔認識処理の結果とカメラ映像を譜割比較部132に供給する。
 ステップS82において譜割比較部132は、顔認識部131から供給された顔認識処理の結果と色付き譜割データとを比較し、その比較結果と、顔認識部131から供給されたカメラ映像をカメラ映像選択部133に供給する。
 ステップS83においてカメラ映像選択部133は、譜割比較部132から供給された比較結果に基づいて、譜割比較部132から供給された複数のカメラ映像のなかから、合成映像を生成するのに用いるカメラ映像の候補を選択する。そしてカメラ映像選択部133は、候補として選択したカメラ映像を映像合成部134に供給する。
 ステップS84において映像合成部134は、カメラ映像選択部133から供給されたカメラ映像と、事前に用意された色付き譜割データとに基づいて合成映像を生成する。
 また、映像合成部134は、適宜、色付き譜割データに基づいてリターン映像も生成する。リターン映像には、発せられる音の音源を表す色、すなわち演者のメンバカラーで、色付き譜割データに記載された歌詞情報における提示対象となる部分や、任意の図形、演者名等の文字列(テキスト)などが表示される。
 最終的な合成映像やリターン映像が生成されると、合成映像生成処理は終了する。
 ステップS84で生成された合成映像は、例えば図7のステップS46の処理において表示部77に供給され、表示される。また、ステップS84で生成されたリターン映像は、例えば図7のステップS47の処理において、カメラ71またはカメラ71に対応する表示装置に供給され、表示される。
 以上のようにして合成映像生成装置121は、カメラ映像と色付き譜割データとに基づいて合成映像を生成する。
 この場合、例えば色付き歌詞情報が重畳された合成映像を生成すれば、合成映像を提示されたライブの観客やライブ配信の視聴者に対して、楽曲における各演者の担当部分を容易に把握させることができる。
 しかも、例えば顔認識処理を行ったり、色付き譜割データを用いたりすることで、必ずしもオペレータ等のスイッチング操作などを必要とせずに、リアルタイムかつ自動で合成映像を生成することが可能である。
 同様に、色付き譜割データに基づきリターン映像を生成することで、カメラマンに対しても楽曲における各演者の担当部分を容易に把握させることができる。
〈ユーザインターフェースの例〉
 ここで、以上において説明した合成映像やリターン映像、カメラスイッチャ73や最終映像スイッチャ75でオペレータ等に対して提示されるユーザインターフェース(UI(User Interface))等の具体的な例について説明する。
 まず、カメラスイッチャ73において、図示せぬ表示部によりオペレータ等に対して提示されるユーザインターフェースの例について説明する。
 カメラスイッチャ73、すなわち合成映像生成装置121では、例えば図示せぬ表示部に図10の矢印W41に示すカメラ映像列が表示されるとする。矢印W41に示すカメラ映像列は、図8における矢印W11に示したカメラ映像列と同様のものとなっている。
 また、顔認識部131において、顔認識処理時に各カメラ映像に対して顔認識のスコア(演者らしさのスコア)や、カメラ映像の画角、すなわち構図の良し悪しを示すスコアなど、カメラ映像に対して顔認識処理の結果に基づきスコアが求められるとする。
 具体的には、例えばカメラ映像において、顔の特徴点からなる領域が画角全体の領域に対して占める割り合い、つまりカメラ映像における演者の顔の領域の大きさや、カメラ映像から抽出された顔の特徴点の数などに基づいて、カメラ映像のスコアが求められる。
 このとき、例えばカメラ映像において演者の横顔が映っているときには、カメラ映像から抽出される顔の特徴点の数が減るので、構図等のスコアが低くなるようにされるなどしてもよい。
 このような場合、例えば矢印W42に示すように、映像合成部134が図示せぬ表示部、より詳細には表示部に表示されるUI上にカメラ映像選択部133で候補として選択された各カメラ映像を、それらのカメラ映像のスコアとともに表示させるようにしてもよい。
 この例では、UI上には3つのカメラ映像P31乃至カメラ映像P33が表示されており、それらのカメラ映像P31乃至カメラ映像P33の図中、下側に各カメラ映像のスコアが表示されている。特に、ここではカメラ映像の構図(画角)に関するスコアが表示されており、演者の顔が大きく映っているカメラ映像P31のスコアが高いことが分かる。
 なお、各カメラ映像のスコアは、例えば構図に関するスコアであってもよいし、顔認識での演者の顔との類似度合いを示すスコア、つまり演者らしさを示すスコアであってもよいし、それらの両方のスコアなど、複数の項目ごとにスコアが表示されてもよい。
 オペレータ等は、このようにして表示されたカメラ映像自体だけでなく、カメラ映像のスコアも参考にしながらスイッチング操作等を行い、最終的に表示部77に表示させるカメラ映像、すなわち合成映像の生成に用いるカメラ映像を選択(指定)する。
 オペレータ等によるスイッチング操作等によって、1または複数のカメラ映像が指定された場合、例えば図9のステップS84では、スイッチング操作等により指定されたカメラ映像に基づいて合成映像が生成される。また、スイッチング操作等により指定されたカメラ映像がそのまま合成映像とされてもよい。
 その他、映像合成部134が、オペレータ等による操作によらず、候補として選択された複数のカメラ映像のなかから、スコアの高い順に1または複数のカメラ映像を選択し、合成映像の生成に用いるようにしてもよい。
 以上のように、カメラ映像のスコアを提示することで、オペレータ等はスコアも参照しながら、より適切なカメラ映像を選択し、合成映像を生成させることができる。
 例えばカメラ映像内に複数の演者が映っていることもある。このような場合に、顔認識のスコア、すなわち演者との類似度を示すスコアを表示すれば、現在歌っている演者のカメラ映像であるかどうかを容易かつ瞬時に特定することができるようになる。
 なお、図10に示した例のような各候補(カメラ映像)とスコアを、映像合成部134ではなくカメラスイッチャ73(カメラ映像選択部133)が図示せぬ表示部に表示させるようにしてもよい。そのような場合、カメラスイッチャ73は、表示させた複数の候補のなかからオペレータ等により選択された最終的なカメラ映像を選択し、選択したカメラ映像を映像合成部134に供給する。
〈リターン映像の例〉
 図11にカメラ71の表示部に表示されるリターン映像の例を示す。
 例えば図11の矢印W51に示す例では、カメラ71の表示部としてのファインダまたはモニタにおいて、被写体を含むスルー画像に重畳されて、リターン映像としての色付き歌詞情報が表示されている。
 特に、歌詞情報、すなわち歌詞を表す文字列(テキスト)は、その歌詞情報の部分を担当する演者(メンバ)のメンバカラーで表示されているとともに、演奏されている楽曲の音のタイミングと合わせて表示される。換言すれば、楽曲の現在演奏中の歌詞部分、または楽曲の現在演奏中の部分の直後に演奏される歌詞部分がメンバカラーで表示される。
 また、例えば矢印W52に示す例では、カメラ71の表示部としてのファインダまたはモニタにおいて、スルー画像全体を囲む枠K11がリターン映像として表示されている。
 特に、リターン映像としての色付きの図形である枠K11は、楽曲の現在演奏中の部分、または楽曲の現在演奏中の部分の直後に演奏される部分を担当する演者(メンバ)のメンバカラーで表示される。そして、その該当部分を担当する演者(メンバ)が変化すると、リターン映像として表示される枠の色も変化する。
 換言すれば、演奏されている楽曲の音のタイミングと合わせて、楽曲におけるカメラマンへの提示対象となる部分を担当する演者(メンバ)のメンバカラーを示す情報がリターン映像として表示される。
 なお、リターン映像は枠K11に限らず、他の任意の図形であってもよいし、演者名など、演者を示す色付きテキスト情報(文字列)などであってもよい。そのような場合においてもリターン映像としての図形や演者名等の文字列は、演者のメンバカラーで表示される。
 矢印W51や矢印W52に示すリターン映像を楽曲の音のタイミングに合わせて表示させれば、どのタイミングでどの演者を撮影するべきかが一目瞭然となる。これにより、撮り損ないや撮影タイミングミス、フォーカスズレなどといった撮影ミスの発生を抑制することができる。
 なお、リアルタイムに撮影対象となる演者の情報がリターン映像として表示されても撮影に間に合わないこともある。そこで、楽曲の現在演奏中の部分の直後の部分について、その部分の色付き歌詞情報、その部分を担当する演者のメンバカラーの図形や演者名などをカメラ71ごとに別々にリターン映像として生成すれば、撮影ミスの発生をさらに抑制することができる。
 その他、映像合成部134が色付き譜割データに基づいて、カメラ71に対して制御信号を供給することで、カメラ71に設けられた点灯部としてのタリーランプを点灯(発光)させるようにしてもよい。この場合、映像合成部134では、どのカメラ71によりどの演者が撮影されるかが既知であるとする。
 例えばカメラ71における、被写体側から見える部分にはタリーランプと呼ばれる点灯部が設けられている。一般的にタリーランプは、どのカメラで放送用の撮影を行っているかを確認するのに利用されている。しかしながら、演者側からはタリーランプが設けられたカメラによって、どの演者の撮影を行っているかは知ることができない。
 そこで、映像合成部134が、楽曲の現在演奏中の部分を担当している演者を被写体として撮影を行っているカメラ71に対して制御信号を供給し、そのカメラ71のタリーランプを、演奏中の部分を担当している演者のメンバカラーで点灯させるようにしてもい。
 そうすれば、演者は、自身がどのカメラ71の方向に視線や顔等を向ければよいかを瞬時に把握することができ、より良い構図のカメラ映像を得ることができるようになる。
〈合成映像の例〉
 例えば、ライブ会場では複数の演者のグループショット映像を合成映像として表示することもある。また、複数の各演者を時分割で1人ずつ合成映像として表示することもある。
 図12は、合成映像としてグループショット映像を表示させる場合の例を示している。
 この例では、ステージ上において5人の演者によりパフォーマンスが行われており、それらの演者の背後に合成映像が表示されている。
 特に、この例では合成映像が各演者(メンバ)に対応する5つのメンバ領域に分割されている。そして、各演者の後ろの部分には、それらの演者が大きく表示されたメンバ領域が配置されるように合成映像が表示されている。
 図13は、合成映像としてグループショット映像を表示させる場合の他の例を示している。
 この例では、合成映像は、演者の人数と同じ数のメンバ領域R11乃至メンバ領域R15に分割されており、各メンバ領域には、それらのメンバ領域に対応する1人の演者(メンバ)の映像が表示されている。
 具体的には、例えばメンバ領域R11には所定の1人の演者が表示されており、メンバ領域R12には他の1人の演者が表示されている。
 また、合成映像には、楽曲の演奏中の部分の歌詞情報が色付きで表示されており、この例では表示されている歌詞情報の部分は、演者全員により合唱される部分となっている。
 このとき、歌詞情報における各メンバ領域のそれぞれに表示されている部分のそれぞれは、それらのメンバ領域に対応する演者のメンバカラーで表示されるようにすることができる。具体的には、例えば歌詞情報のうち、メンバ領域R11内に表示されている部分は、そのメンバ領域R11に対応する演者のメンバカラーで表示される。
 その他、例えば歌詞情報のうち、全員で合唱される部分、つまり演者全員が担当する部分を、全ての演者のメンバカラー(メンバカラー全色)でグラデーション表示してもよい。
 このような合成映像は、例えば複数の各カメラ71で得られたカメラ映像をクロップ合成することにより生成することができる。
 合成映像の画面全体をメンバ領域に分割して各メンバ領域に演者(メンバ)を表示させたり、メンバ領域に応じた色で歌詞情報を表示させたりすることで、映像臨場感を向上させることができる。
〈その他の例〉
 以上のような色付き譜割データは、演者の増減や演者に対応する色の変更などに対して柔軟に対応可能である。すなわち、臨機応変に譜割の色分けを変更することができる。
 例えば複数の演者からなるグループのメンバ構成が変更された場合においても、色付き譜割データにおける演者の構成や演者を表す色を容易に変更することができる。
 また、以上においては、演者ごとに色を対応付ける例について説明したが、複数の演者に対して色を対応付けるようにしてもよい。
 具体的には、例えば大人数のグループアイドル等の場合には、一期生は青、二期生は緑、三期生は赤、四期生は黄色など、複数の演者からなる小グループごとに色分けを行うようにしてもよい。この場合においても臨機応変に譜割の色分けを変更することができる。
 その他、例えばカラオケ等においてユーザが任意のメンバカラーを指定できるようにしてもよい。そうすれば、ユーザの好みに合わせて色分けを変更することができる。
 具体的な例として、例えば男女の声で色分けをすることが考えられる。また、例えば、5人グループの楽曲を2人のユーザで歌唱する場合に、5色の色分けをユーザ(歌唱者)の数である2色に減らすることも可能である。このような場合、歌のタイミングに無理のない色付き譜割データを生成すればよい。
 さらに、本技術は、例えば譜割色分けを利用した3DCG歌詞生成や3DCGエフェクト生成にも適用することができる。
 一般的に、ライブ配信における歌詞表示は2Dの白文字表示が多い。また、グリーンバックやIR(Infra-Red)/SWIR(Short Wavelength Infra-Red)カメラ、デプスカメラ、Deep Learning等を用いた前景背景抽出技術が進化してきている。
 そこで、例えば図14に示すようにカメラ映像から前景である演者FG11のみを抽出し、その演者FG11の映像をCG映像等の背景映像に合成するとともに、色付き譜割データに基づき生成された色付きの歌詞情報LY11を背景映像に合成し、最終的な合成映像としてもよい。
 この例では、リアルタイムで抽出された人物の前景である演者FG11の映像が背景に重畳(合成)されており、また、歌詞情報LY11も色付き譜割データに基づき色分けされ、背景映像として表示されている。特に、この例では歌詞情報LY11の表示は、少しずつ色が変化していくグラデーション表示とされている。
 なお、歌詞情報だけでなく、パーティクル等のエフェクトや背景映像の色も色付き譜割データに基づいて色分け表示してもよい。
 以上のようにすることで、直前まで映像変更が可能となるだけでなく、映像制作時間を短縮することもできる。さらに新しい映像表現を行うことができる。
 さらに本技術は、ライブに限らず、舞台演出やテレビのテロップ、各種の映像配信サービス、映画字幕などにも適用することができる。
 例えば、色付き譜割データと同様のデータを生成することで、舞台のセリフを演者ごとや性別ごと、小グループごとなどに色分けすることができる。同様に、テレビテロップなどについても、出演者ごとなどに色分けすることが可能である。
 近年、各放送局は難聴者向けや文字多重放送など、様々な取り組みを行っており、テレビ放送などに適用可能な本技術は有用である。
 また、例えば本技術を映画字幕に適用する場合、映画コンテンツの音声データに対して音声認識処理を行い、音声文字や翻訳を行ったうえで登場人物に応じてセリフの色分けを行えばよい。
 本技術は、音声認識処理と顔認識処理の同時のリアルタイム処理が可能になれば、事前処理なしに色分け等を行うこともできる。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
 図15は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 複数の音源の音のテキストを含むテキスト情報と、少なくとも1つの前記音源を被写体として含む1または複数の映像とに基づいて、発せられている音の前記音源を表す色で、前記テキストにおける前記発せられている音に対応する部分、図形、または前記音源を示す文字列が表示される提示用映像を生成する映像生成部を備える
 情報処理装置。
(2)
 前記テキスト情報は、複数の各前記音源の音の前記テキストに対して前記音源ごとに異なる前記色が付加された色付きテキスト情報である
 (1)に記載の情報処理装置。
(3)
 前記提示用映像には、前記複数の前記音源のうち、少なくとも発せられている音の前記音源が被写体として表示される
 (1)または(2)に記載の情報処理装置。
(4)
 複数の前記映像に対して顔認識処理を行う顔認識部をさらに備え、
 前記映像生成部は、前記顔認識処理の結果と前記テキスト情報とに基づいて、前記提示用映像を生成する
 (1)乃至(3)の何れか一項に記載の情報処理装置。
(5)
 前記顔認識処理の結果と前記テキスト情報とに基づいて、前記複数の前記映像のなかから、前記提示用映像の生成に用いる前記映像の候補を選択する候補選択部をさらに備え、 前記映像生成部は、前記候補とされた1または複数の前記映像のうちの1以上の前記映像に基づいて前記提示用映像を生成する
 (4)に記載の情報処理装置。
(6)
 前記映像生成部は、前記候補として選択された前記1または複数の前記映像を、前記映像に対して前記顔認識処理の結果に基づき求められたスコアとともに表示させる
 (5)に記載の情報処理装置。
(7)
 前記スコアは、前記音源らしさのスコア、または前記映像の構図のスコアである
 (6)に記載の情報処理装置。
(8)
 前記映像生成部は、前記候補として前記スコアとともに提示された前記1または複数の前記映像のうち、オペレータにより選択された1または複数の前記映像に基づいて前記提示用映像を生成する
 (6)または(7)に記載の情報処理装置。
(9)
 前記候補選択部は、発せられている音の前記音源が被写体として含まれている前記映像を前記候補として選択する
 (5)乃至(8)の何れか一項に記載の情報処理装置。
(10)
 前記提示用映像は、前記音源を被写体として含む前記映像を撮影するカメラごとに生成され、前記カメラ、または前記カメラに対応する表示装置に供給される
 (2)に記載の情報処理装置。
(11)
 前記映像生成部は、現在発せられている音の直後に発せられる音の前記音源を表す色で、前記テキストにおける前記直後に発せられる音に対応する部分、前記図形、または前記文字列が表示される前記提示用映像を生成し、前記カメラまたは前記表示装置に供給する
 (10)に記載の情報処理装置。
(12)
 前記映像生成部は、前記色付きテキスト情報に基づいて、現在発せられている音の前記音源を被写体として撮影を行うカメラの点灯部を、前記現在発せられている音の前記音源を表す色で発光させる
 (2)に記載の情報処理装置。
(13)
 前記色付きテキスト情報は、楽曲の色付き譜割データである
 (2)に記載の情報処理装置。
(14)
 情報処理装置が、
 複数の音源の音のテキストを含むテキスト情報と、少なくとも1つの前記音源を被写体として含む1または複数の映像とに基づいて、発せられている音の前記音源を表す色で、前記テキストにおける前記発せられている音に対応する部分、図形、または前記音源を示す文字列が表示される提示用映像を生成する
 情報処理方法。
(15)
 複数の音源の音のテキストを含むテキスト情報と、少なくとも1つの前記音源を被写体として含む1または複数の映像とに基づいて、発せられている音の前記音源を表す色で、前記テキストにおける前記発せられている音に対応する部分、図形、または前記音源を示す文字列が表示される提示用映像を生成する
 ステップを含む処理をコンピュータに実行させるプログラム。
(16)
 複数の音源の音を含むオーディオデータ、または前記オーディオデータのメタデータと、前記オーディオデータについて予め用意された、前記複数の前記音源の音のテキストを含むテキスト情報とに基づいて、複数の各前記音源の音の前記テキストに対して前記音源ごとに異なる色が付加された色付きテキスト情報を生成する色処理部を備える
 情報処理装置。
(17)
 前記複数の前記音源の音と、前記複数の前記音源とは異なる他の音源の音とを含む音源データに対して音源分離処理を行う音源分離部をさらに備え、
 前記色処理部は、前記音源分離処理により得られた、前記複数の前記音源の音の前記オーディオデータと前記テキスト情報とに基づいて前記色付きテキスト情報を生成する
 (16)に記載の情報処理装置。
(18)
 前記オーディオデータに対して、複数の区間ごとに、前記区間に音が含まれている前記音源を特定する解析処理を行う解析部をさらに備え、
 前記色処理部は、前記解析処理の結果と前記テキスト情報とに基づいて、前記色付きテキスト情報を生成する
 (16)または(17)に記載の情報処理装置。
(19)
 前記オーディオデータのテキスト化を行う解析処理を行う解析部をさらに備え、
 前記色処理部は、前記テキスト化の結果と前記テキスト情報とに基づいて、前記色付きテキスト情報を生成する
 (16)乃至(18)の何れか一項に記載の情報処理装置。
(20)
 前記メタデータは、前記オーディオデータの複数の各区間について、前記区間に音が含まれている前記音源を示す情報を含む
 (16)に記載の情報処理装置。
(21)
 前記色付きテキスト情報は、楽曲の色付き譜割データである
 (16)乃至(20)の何れか一項に記載の情報処理装置。
(22)
 情報処理装置が、
 複数の音源の音を含むオーディオデータ、または前記オーディオデータのメタデータと、前記オーディオデータについて予め用意された、前記複数の前記音源の音のテキストを含むテキスト情報とに基づいて、複数の各前記音源の音の前記テキストに対して前記音源ごとに異なる色が付加された色付きテキスト情報を生成する
 情報処理方法。
(23)
 複数の音源の音を含むオーディオデータ、または前記オーディオデータのメタデータと、前記オーディオデータについて予め用意された、前記複数の前記音源の音のテキストを含むテキスト情報とに基づいて、複数の各前記音源の音の前記テキストに対して前記音源ごとに異なる色が付加された色付きテキスト情報を生成する
 ステップを含む処理をコンピュータに実行させるプログラム。
 11 情報処理装置, 21 音源分離部, 22 歌声解析部, 23 比較部, 24 色処理部, 61 映像処理システム, 73 カメラスイッチャ, 75 最終映像スイッチャ, 76 歌詞合成部, 121 合成映像生成装置, 131 顔認識部, 132 譜割比較部, 133 カメラ映像選択部, 134 映像合成部

Claims (20)

  1.  複数の音源の音のテキストを含むテキスト情報と、少なくとも1つの前記音源を被写体として含む1または複数の映像とに基づいて、発せられている音の前記音源を表す色で、前記テキストにおける前記発せられている音に対応する部分、図形、または前記音源を示す文字列が表示される提示用映像を生成する映像生成部を備える
     情報処理装置。
  2.  前記テキスト情報は、複数の各前記音源の音の前記テキストに対して前記音源ごとに異なる前記色が付加された色付きテキスト情報である
     請求項1に記載の情報処理装置。
  3.  前記提示用映像には、前記複数の前記音源のうち、少なくとも発せられている音の前記音源が被写体として表示される
     請求項1に記載の情報処理装置。
  4.  複数の前記映像に対して顔認識処理を行う顔認識部をさらに備え、
     前記映像生成部は、前記顔認識処理の結果と前記テキスト情報とに基づいて、前記提示用映像を生成する
     請求項1に記載の情報処理装置。
  5.  前記顔認識処理の結果と前記テキスト情報とに基づいて、前記複数の前記映像のなかから、前記提示用映像の生成に用いる前記映像の候補を選択する候補選択部をさらに備え、 前記映像生成部は、前記候補とされた1または複数の前記映像のうちの1以上の前記映像に基づいて前記提示用映像を生成する
     請求項4に記載の情報処理装置。
  6.  前記映像生成部は、前記候補として選択された前記1または複数の前記映像を、前記映像に対して前記顔認識処理の結果に基づき求められたスコアとともに表示させる
     請求項5に記載の情報処理装置。
  7.  前記スコアは、前記音源らしさのスコア、または前記映像の構図のスコアである
     請求項6に記載の情報処理装置。
  8.  前記映像生成部は、前記候補として前記スコアとともに提示された前記1または複数の前記映像のうち、オペレータにより選択された1または複数の前記映像に基づいて前記提示用映像を生成する
     請求項6に記載の情報処理装置。
  9.  前記候補選択部は、発せられている音の前記音源が被写体として含まれている前記映像を前記候補として選択する
     請求項5に記載の情報処理装置。
  10.  前記提示用映像は、前記音源を被写体として含む前記映像を撮影するカメラごとに生成され、前記カメラ、または前記カメラに対応する表示装置に供給される
     請求項2に記載の情報処理装置。
  11.  前記映像生成部は、現在発せられている音の直後に発せられる音の前記音源を表す色で、前記テキストにおける前記直後に発せられる音に対応する部分、前記図形、または前記文字列が表示される前記提示用映像を生成し、前記カメラまたは前記表示装置に供給する
     請求項10に記載の情報処理装置。
  12.  前記映像生成部は、前記色付きテキスト情報に基づいて、現在発せられている音の前記音源を被写体として撮影を行うカメラの点灯部を、前記現在発せられている音の前記音源を表す色で発光させる
     請求項2に記載の情報処理装置。
  13.  前記色付きテキスト情報は、楽曲の色付き譜割データである
     請求項2に記載の情報処理装置。
  14.  情報処理装置が、
     複数の音源の音のテキストを含むテキスト情報と、少なくとも1つの前記音源を被写体として含む1または複数の映像とに基づいて、発せられている音の前記音源を表す色で、前記テキストにおける前記発せられている音に対応する部分、図形、または前記音源を示す文字列が表示される提示用映像を生成する
     情報処理方法。
  15.  複数の音源の音のテキストを含むテキスト情報と、少なくとも1つの前記音源を被写体として含む1または複数の映像とに基づいて、発せられている音の前記音源を表す色で、前記テキストにおける前記発せられている音に対応する部分、図形、または前記音源を示す文字列が表示される提示用映像を生成する
     ステップを含む処理をコンピュータに実行させるプログラム。
  16.  複数の音源の音を含むオーディオデータ、または前記オーディオデータのメタデータと、前記オーディオデータについて予め用意された、前記複数の前記音源の音のテキストを含むテキスト情報とに基づいて、複数の各前記音源の音の前記テキストに対して前記音源ごとに異なる色が付加された色付きテキスト情報を生成する色処理部を備える
     情報処理装置。
  17.  前記オーディオデータに対して、複数の区間ごとに、前記区間に音が含まれている前記音源を特定する解析処理を行う解析部をさらに備え、
     前記色処理部は、前記解析処理の結果と前記テキスト情報とに基づいて、前記色付きテキスト情報を生成する
     請求項16に記載の情報処理装置。
  18.  前記色付きテキスト情報は、楽曲の色付き譜割データである
     請求項16に記載の情報処理装置。
  19.  情報処理装置が、
     複数の音源の音を含むオーディオデータ、または前記オーディオデータのメタデータと、前記オーディオデータについて予め用意された、前記複数の前記音源の音のテキストを含むテキスト情報とに基づいて、複数の各前記音源の音の前記テキストに対して前記音源ごとに異なる色が付加された色付きテキスト情報を生成する
     情報処理方法。
  20.  複数の音源の音を含むオーディオデータ、または前記オーディオデータのメタデータと、前記オーディオデータについて予め用意された、前記複数の前記音源の音のテキストを含むテキスト情報とに基づいて、複数の各前記音源の音の前記テキストに対して前記音源ごとに異なる色が付加された色付きテキスト情報を生成する
     ステップを含む処理をコンピュータに実行させるプログラム。
PCT/JP2023/014959 2022-04-28 2023-04-13 情報処理装置および方法、並びにプログラム WO2023210388A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022074120 2022-04-28
JP2022-074120 2022-04-28

Publications (1)

Publication Number Publication Date
WO2023210388A1 true WO2023210388A1 (ja) 2023-11-02

Family

ID=88518460

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/014959 WO2023210388A1 (ja) 2022-04-28 2023-04-13 情報処理装置および方法、並びにプログラム

Country Status (1)

Country Link
WO (1) WO2023210388A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07261652A (ja) * 1994-03-23 1995-10-13 Takeshi Yamamoto 語学学習方法及び語学学習用記録媒体
US20130103399A1 (en) * 2011-10-21 2013-04-25 Research In Motion Limited Determining and conveying contextual information for real time text
JP2017005371A (ja) * 2015-06-05 2017-01-05 ローランド株式会社 共演映像演出装置および共演映像演出システム
JP2017068144A (ja) * 2015-09-30 2017-04-06 株式会社エクシング カラオケ装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07261652A (ja) * 1994-03-23 1995-10-13 Takeshi Yamamoto 語学学習方法及び語学学習用記録媒体
US20130103399A1 (en) * 2011-10-21 2013-04-25 Research In Motion Limited Determining and conveying contextual information for real time text
JP2017005371A (ja) * 2015-06-05 2017-01-05 ローランド株式会社 共演映像演出装置および共演映像演出システム
JP2017068144A (ja) * 2015-09-30 2017-04-06 株式会社エクシング カラオケ装置

Similar Documents

Publication Publication Date Title
US11862198B2 (en) Synthesizing a presentation from multiple media clips
JP4261644B2 (ja) マルチメディア編集方法及び装置
Zettl Television production handbook
US20080260184A1 (en) Virtual Recording Studio
KR20180080642A (ko) 음원과 동기화되는 동영상을 편집하는 방법
KR100748059B1 (ko) 실시간 다층 동영상 합성보드
KR101414217B1 (ko) 실시간 영상합성 장치 및 그 방법
KR101843025B1 (ko) 카메라워크 기반 영상합성 시스템 및 영상합성방법
WO2023210388A1 (ja) 情報処理装置および方法、並びにプログラム
CN1719872A (zh) 基于全身融合的电影秀娱乐系统
JP5310682B2 (ja) カラオケ装置
TWI706292B (zh) 虛擬劇場演播系統
Atkinson Cinema Remixed 4.0: The Rescoring, Remixing, and Live Performance of Film Soundtracks
JP5256682B2 (ja) 情報処理装置、情報処理方法及びプログラム
KR20070064082A (ko) 크로마키 기법을 적용한 개인 홍보 영상 제작 시스템 및방법
JP2014235301A (ja) ジェスチャーによるコマンド入力識別システム
KR102625045B1 (ko) 영상 편집 장치, 영상 편집 방법 및 컴퓨터 프로그램
JP7267568B2 (ja) 映像・音声合成方法
US20230305800A1 (en) Video-informed Spatial Audio Expansion
KR101743874B1 (ko) 복수의 공연객체들의 협업을 이용한 동영상 컨텐츠 생성 시스템 및 방법
JP2008236708A (ja) バーチャル撮影スタジオの媒体制作装置
TWI246324B (en) Method and system for media production in virtual studio
KR20240022199A (ko) 공연, 강연 및 방송촬영 등이 가능한 이동식 가변형 가상 스튜디오 시스템
Ramamurthy Post-Production
KR20000049304A (ko) 노래 반주기를 이용한 뮤직 비디오 촬영장치 및 촬영방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23796132

Country of ref document: EP

Kind code of ref document: A1