WO2022003798A1

WO2022003798A1 - サーバおよび複合コンテンツデータ作成システム、複合コンテンツデータ作成方法、プログラム

Info

Publication number: WO2022003798A1
Application number: PCT/JP2020/025589
Authority: WO
Inventors: 尚武石橋; 雄康高松
Original assignee: 株式会社オープンエイト
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2022-01-06
Also published as: JPWO2022003798A1

Abstract

【課題】複合コンテンツデータを簡便に作成することを可能とするサーバ等を提供すること。【解決手段】複数のカットを含むベースデータの各カットに対して、一以上の素材コンテンツデータを設定する素材コンテンツデータ設定部と、前記ベースデータの全体を通して設定された全体音データのうち、前記カットごとに対応する前記全体音データの一部を個別に音量設定する全体音データシーン音量設定部と、前記ベースデータに基づき複合コンテンツデータを生成する複合コンテンツデータ生成部と、を備える、サーバおよび複合コンテンツデータ作成システム、複合コンテンツデータ作成方法、プログラム。

Description

サーバおよび複合コンテンツデータ作成システム、複合コンテンツデータ作成方法、プログラム

　本発明は、複合コンテンツデータを生成するサーバ等に関する。

　従来から、動画等コンテンツデータ作成が行われており、例えば、特許文献１には、複数のチャプタを有する動画から所望のシーン画像を効率的に検索する動画処理装置が提案されている。

特開２０１１－１３０００７号公報

　動画等コンテンツデータを作成することには多大な手間がかかり、特に、テキストデータや画像、音データなどの複数の素材コンテンツデータが用いられた複合コンテンツデータを作成する場合には、最適な組み合わせを考慮することがユーザの技術レベルによっては難しいため、簡便に複合コンテンツデータを作成することができるシステムの提供が求められていた。さらに、音データについては、従来の複合コンテンツデータ作成システムでは、複合コンテンツデータ全体に音データ（例えば、音楽データ）１つが設定されるだけであり、同一種類の素材コンテンツデータ間においても、より複合的に組み合わせることが可能なシステムの提供も求められていた。

　そこで、本発明では、複合コンテンツデータを簡便に作成することを可能とするサーバ等を提供することを目的とする。

　上記課題を解決するための本発明の主たる発明は、複数のカットを含むベースデータの各カットに対して、一以上の素材コンテンツデータを設定する素材コンテンツデータ設定部と、前記ベースデータの全体を通して設定された全体音データのうち、前記カットごとに対応する前記全体音データの一部を個別に音量設定する全体音データシーン音量設定部と、前記ベースデータに基づき複合コンテンツデータを生成する複合コンテンツデータ生成部と、を備える、ことを特徴とするサーバ、である。

　本発明によれば、複合コンテンツデータを簡便に作成することを可能とするサーバ等を提供することが可能となる。

実施形態例に係るシステムの構成図である。実施形態例に係るサーバの構成図である。実施形態例に係る管理端末、ユーザ端末の構成図である。実施形態例に係るシステムの機能ブロック図である。カットを構成する画面レイアウト例を説明する図である。実施形態例に係るシステムのフローチャートである。複合コンテンツデータを構成する複数のカットを画面上に一覧表示する態様の説明図である。実施形態例に係る複合コンテンツデータにおける音データに関するデータ構造を説明する図である。実施形態例に係る複合コンテンツデータ編集画面を説明する図である。実施形態例に係る全体音データ音量調整画面を説明する図である。実施形態例に係るシーン編集画面を説明する図である。実施形態例に係るトリミング部を説明する図である。実施形態例に係るエフェクト設定部を説明する図である。

　本発明の実施形態の内容を列記して説明する。本発明の実施の形態によるサーバ等は、以下のような構成を備える。
［項目１］
　複数のカットを含むベースデータの各カットに対して、一以上の素材コンテンツデータを設定する素材コンテンツデータ設定部と、
　前記ベースデータの全体を通して設定された全体音データのうち、前記カットごとに対応する前記全体音データの一部を個別に音量設定する全体音データシーン音量設定部と、
　前記ベースデータに基づき複合コンテンツデータを生成する複合コンテンツデータ生成部と、を備える、
　ことを特徴とするサーバ。
［項目２］
　項目１に記載のサーバであって、
　さらに、前記全体音データの全体を通した音量を設定する全体音データ音量設定部を備え、
　前記全体音データシーン音量設定部は、前記カットごとに前記全体音データ音量設定部により設定された音量に対する音量の増減割合を設定する、を備える、
　ことを特徴とするサーバ。
［項目３］
　項目１または２のいずれかに記載のサーバであって、
　さらに、前記カットごとに設定された音素材データの音量を設定する音素材データ音量設定部と、を備える、
　ことを特徴とするサーバ。
［項目４］
　項目１ないし３のいずれかに記載のサーバであって、
　さらに、前記カットごとに設定された動画素材データの音データの音量を設定する動画素材音データ音量設定部と、を備える、
　ことを特徴とするサーバ。
［項目５］
　項目１ないし４のいずれかに記載のサーバであって、
　さらに、第１のカットに設定した音データの音量をミュートにした場合に、前記第１のカットの前の第２のカットの音データの音量に対してエフェクトを設定するエフェクト設定部と、を備える、
　ことを特徴とするサーバ。
［項目６］
　項目１ないし５のいずれかに記載のサーバであって、
　さらに、前記素材コンテンツデータとして動画素材データを記憶する際に、当該動画素材データの音データを抽出して当該音データも前記素材コンテンツデータとして記憶する素材コンテンツデータ記憶部と、を備える、
　ことを特徴とするサーバ。
［項目７］
　複数のカットを含むベースデータの各カットに対して、一以上の素材コンテンツデータを設定する素材コンテンツデータ設定部と、
　前記ベースデータの全体を通して設定された全体音データのうち、前記カットごとに対応する前記全体音データの一部を個別に音量設定する全体音データシーン音量設定部と、
　前記ベースデータに基づき複合コンテンツデータを生成する複合コンテンツデータ生成部と、を備える、
　ことを特徴とする複合コンテンツデータ作成システム。
［項目８］
　素材コンテンツデータ設定部により、複数のカットを含むベースデータの各カットに対して、一以上の素材コンテンツデータを設定するステップと、
　全体音データシーン音量設定部により、前記ベースデータの全体を通して設定された全体音データのうち、前記カットごとに対応する前記全体音データの一部を個別に音量設定するステップと、
　複合コンテンツデータ生成部により、前記ベースデータに基づき複合コンテンツデータを生成するステップと、を含む、
　ことを特徴とする複合コンテンツデータ作成方法。
［項目９］
　複合コンテンツデータ作成方法をコンピュータに実行させるプログラムであって、
　前記複合コンテンツデータ作成方法は、
　素材コンテンツデータ設定部により、複数のカットを含むベースデータの各カットに対して、一以上の素材コンテンツデータを設定するステップと、
　全体音データシーン音量設定部により、前記ベースデータの全体を通して設定された全体音データのうち、前記カットごとに対応する前記全体音データの一部を個別に音量設定するステップと、
　複合コンテンツデータ生成部により、前記ベースデータに基づき複合コンテンツデータを生成するステップと、を含む、
　ことを特徴とするプログラム。

　＜実施の形態の詳細＞
　以下、本発明の実施の形態による複合コンテンツデータを作成するためのシステム（以下「本システム」という）等について説明する。添付図面において、同一または類似の要素には同一または類似の参照符号及び名称が付され、各実施形態の説明において同一または類似の要素に関する重複する説明は省略することがある。また、各実施形態で示される特徴は、互いに矛盾しない限り他の実施形態にも適用可能である。

　＜構成＞
　実施形態例に係る本システムは、図１に示すように、サーバ１と、管理者端末２と、ユーザ端末３とを備えて構成される。サーバ１と、管理者端末２と、ユーザ端末３は、ネットワークを介して互いに通信可能に接続されている。ネットワークは、ローカルネットワークであってもよいし、外部ネットワークに接続可能なものであってもよい。図１の例では、サーバ１を１台で構成する例を説明しているが、複数台のサーバ装置によりサーバ１を実現することも可能である。また、サーバ１と管理者端末２が共通化されていてもよい。

　＜サーバ１＞
　図２は、図１に記載のサーバ１のハードウェア構成を示す図である。なお、図示された構成は一例であり、これ以外の構成を有していてもよい。また、サーバ１は、例えばワークステーションやパーソナルコンピュータのような汎用コンピュータとしてもよいし、或いはクラウド・コンピューティングによって論理的に実現されてもよい。

　サーバ１は、少なくとも、プロセッサ１０、メモリ１１、ストレージ１２、送受信部１３、入出力部１４等を備え、これらはバス１５を通じて相互に電気的に接続される。

　プロセッサ１０は、サーバ１全体の動作を制御し、各要素間におけるデータの送受信の制御、及びアプリケーションの実行及び認証処理に必要な情報処理等を行う演算装置である。例えばプロセッサ１０はＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）およびＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）であり、ストレージ１２に格納されメモリ１１に展開された本システムのためのプログラム等を実行して各情報処理を実施する。なお、プロセッサ１０の処理能力は、必要な情報処理を実行するために十分であればよいので、例えば、プロセッサ１０はＣＰＵのみで構成されていてもよいし、これに限るものでもない。

　メモリ１１は、ＤＲＡＭ（Ｄｙｎａｍｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等の揮発性記憶装置で構成される主記憶と、フラッシュメモリやＨＤＤ（Ｈａｒｄ　Ｄｉｓｃ　Ｄｒｉｖｅ）等の不揮発性記憶装置で構成される補助記憶と、を含む。メモリ１１は、プロセッサ１０のワークエリア等として使用され、また、サーバ１の起動時に実行されるＢＩＯＳ（Ｂａｓｉｃ　Ｉｎｐｕｔ　／　Ｏｕｔｐｕｔ　Ｓｙｓｔｅｍ）、及び各種設定情報等を格納してもよい。

　ストレージ１２は、アプリケーション・プログラム等の各種プログラムを格納する。各処理に用いられるデータを格納したデータベースがストレージ１２に構築されていてもよい。

　送受信部１３は、サーバ１をネットワークに接続する。

　入出力部１４は、キーボード・マウス類等の情報入力機器、及びディスプレイ等の出力機器である。

　バス１５は、上記各要素に共通に接続され、例えば、アドレス信号、データ信号及び各種制御信号を伝達する。

＜管理者端末２、ユーザ端末３＞
　図３に示される管理者端末２、ユーザ端末３もまた、プロセッサ２０、メモリ２１、ストレージ２２、送受信部２３、入出力部２４等を備え、これらはバス２５を通じて相互に電気的に接続される。各要素の機能は、上述したサーバ１と同様に構成することが可能であることから、各要素の詳細な説明は省略する。管理者は、管理者端末２により、例えばサーバ１の設定変更やデータベースの運用管理などを行う。ユーザは、ユーザ端末３によりサーバ１にアクセスして、例えば、複合コンテンツデータを作成または閲覧することなどができる。

＜サーバ１の機能＞
　図４は、サーバ１に実装される機能を例示したブロック図である。本実施の形態においては、サーバ１は、通信部１１０、被識別情報解析部１２０、第２のデータ生成部１３０、複合コンテンツデータ生成部１４０、関連付け部１５０、記憶部１６０、分類器１７０を備えている。複合コンテンツデータ生成部１４０は、第２のデータ割り当て部１４２、素材コンテンツデータ割り当て部１４４を含む。また、記憶部１６０は、ベースデータ記憶部１６２、素材コンテンツデータ記憶部１６４、複合コンテンツデータ記憶部１６６、インターフェース情報記憶部１６８などの各種データベースを含む。なお、素材コンテンツデータ設定部１９０については、後述する。

　通信部１１０は、管理者端末２や、ユーザ端末３と通信を行う。通信部１１０は、ユーザ端末３から、例えば被識別情報を含む第１のデータを受け付ける受付部としても機能する。そして、第１のデータは、例えば、被識別情報を含む記事（例えば、プレスリリースや、ニュースなど）などのテキストデータ、被識別情報を含む画像データ（例えば、写真や、イラストなど）若しくは動画データ、被識別情報を含む音声データなどであってもよい。なお、ここでいうテキストデータは、サーバ１に送信された時点においてテキストデータであるものに限らず、例えば、サーバ１に送信された音声データを既知の音声認識技術により生成されたテキストデータであってもよい。また、第１のデータは、例えば記事などのテキストデータなどが、既存の抽出的要約若しくは生成的要約などの自動要約技術により要約されたもの（被識別情報を含む）であってもよく、その場合、ベースデータに含まれるカット数が減り、複合コンテンツデータ全体のデータ容量を小さくすることができ、内容も簡潔なものとなり得る。

　また、ここでいう音声データは、マイク等の入力装置により取得された音声データに限らず、動画データから抽出された音声データや、テキストデータから生成された音声データであってもよい。前者の場合、例えばラフスケッチなどの仮画像及び仮映像による動画といった仮動画から、ナレーションやセリフなどの音声データだけを抽出し、後述されるように当該音声データを基に素材コンテンツデータと共に複合コンテンツデータを生成するようにしてもよい。後者の場合、例えば、ストーリーのあるテキストデータから音声データを作成し、例えば童話であれば、読み上げられたストーリーと素材コンテンツデータによる紙芝居や動画を複合コンテンツデータとして生成するようにしてもよい。

　第２のデータ生成部１３０は、例えば第１のデータを分割する必要がないと判定した場合（例えば、テキストデータが予め設定された文字数以下の短文であったりするなど）には、第２のデータ生成部１３０は、そのまま第１のデータを第２のデータとして生成する。一方で、例えば第１のデータを分割する必要があると判定した場合（例えば、予め設定された文字数よりも長文であったりするなど）には、第２のデータ生成部１３０は、第１のデータを分割し、それぞれ第１のデータの被識別情報の少なくとも一部を含む第２のデータとして生成する。なお、第２のデータ生成部１３０による第１のデータ分割の方法は、既知の何れの技術を利用してもよく、例えば、第１のデータがテキスト化できるものであれば、ベースデータの各カットの最大文字数及び文節間の修飾関係を解析し、文章として自然な区間が各カットに収まるように文を区切るようにしてもよい。

　被識別情報解析部１２０は、上述の第２のデータを解析し、被識別情報を取得する。ここで、被識別情報は、被識別情報解析部１２０により解析可能であれば、どのような情報であってもよい。一つの態様としては、被識別情報は、言語モデルにより定義された単語形式であり得る。より具体的には、後述の単語ベクトルを伴う一以上の単語（例えば、「渋谷、新宿、六本木」や「渋谷、ランドマーク、若者」など）であってもよい。なお、当該単語には、言語モデルに応じて「ん」などの通常はそれ単体では利用されない単語も含み得る。また、上記単語形式の代わりに文全体を表すベクトルを伴う文書、または画像や動画から抽出された特徴ベクトルであってもよい。

　複合コンテンツデータ生成部１４０は、ベースデータ記憶部１６２から一以上のカットを含むベースデータを読み出し、素材コンテンツデータ記憶部１６４に記憶された素材コンテンツデータと上述の第２のデータが割り当てられたベースデータを複合コンテンツデータとして生成するとともに複合コンテンツデータ記憶部１６６に記憶し、ユーザ端末３に複合コンテンツデータを表示する。なお、図５は、ベースデータを構成するカットの画面レイアウトの一例である。同図中第２のデータフィールド３１に編集された第２のデータ（例えば、区切られたテキスト文章など）が挿入され、素材コンテンツデータフィールド３２に選択された素材コンテンツデータが挿入される。ベースデータの各カットには、予め設定されている上述の最大文字数（テキストデータの場合）や、画面レイアウト、再生時間（動画の場合）が規定されている。また、複合コンテンツデータは、必ずしも複合コンテンツデータ記憶部１６６に保存される必要はなく、適当なタイミングで記憶されてもよい。また、第２のデータのみが割り当てられたベースデータを複合コンテンツデータの経過情報としてユーザ端末３に表示するようにしてもよい。

　第２のデータ割り当て部１４２は、例えば複数のカットに、シーン１、シーン２、シーン３やカット１、カット２、カット３といったように番号がふられており、この番号順に、第２のデータを順次割り当てていく。なお、このような割り当て方法に限定されず、例えば、第２のデータ割り当て部１４２は、第２のデータの数に合わせて、ベースデータに含まれるカット数を予め設定された数から増減し、第２のデータを割り当てるようにしてもよい。

　関連付け部１５０は、上述の第２のデータに含まれる被識別情報の少なくとも一部と、例えば、素材コンテンツデータから抽出される抽出情報（例えば、分類器が抽出したクラスラベルなど）と比較し、例えば、互いの類似度などを判定して、第２のデータに適した素材コンテンツデータ（例えば、類似度が高いものなど）と第２のデータとを互いに関連付けを行う。より具体的な例としては、例えば、第２のデータに含まれる被識別情報が「先生」を表し、抽出情報が「顔」である素材コンテンツデータＡ（例えば、女性の画像）と「山」である素材コンテンツデータＢ（例えば、富士山の画像）が用意されている場合、「先生」から得られる単語ベクトルと「顔」から得られる単語ベクトルの関連は、「先生」から得られる単語ベクトルと「山」から得られる単語ベクトルの関連よりも類似しているため、第２のデータは素材コンテンツデータＡと関連付けられる。なお、素材コンテンツデータの抽出情報は、ユーザが予め抽出して素材コンテンツデータ記憶部１６４に記憶したものであってもよく、後述の分類器１７０により抽出されたものであってもよい。また、上記類似度の判定は、単語ベクトルを学習した学習済モデルを用意し、そのベクトルを利用してコサイン類似度やWord Mover’s Distanceなどの方法により単語の類似度を判定してもよい。

　素材コンテンツデータは、例えば、画像データや、動画データ、音データ（例えば、音楽データ、音声データ、効果音など）などであり得るが、これに限定されない。また、素材コンテンツデータは、ユーザまたは管理者が素材コンテンツデータ記憶部１６４に格納するものであってもよいし、ネットワーク上から、素材コンテンツデータを取得し、素材コンテンツデータ記憶部１６４に格納するものであってもよい。

　素材コンテンツデータ割り当て部１４４は、上述の関連付けに基づき、対応する第２のデータが割り当てられたカットに、適した素材コンテンツデータを割り当てる。

　インターフェース情報記憶部１６８は、管理者端末２若しくはユーザ端末３の表示部（ディスプレイ等）に表示するための各種制御情報を格納している。

　分類器１７０は、学習データを学習データ記憶部（不図示）から取得し、機械学習させることで、学習済モデルとして作成される。分類器１７０の作成は、定期的に行われる（例えば、年に数回程度）。分類器作成用の学習データは、ネットワークから収集したデータやユーザ保有のデータにクラスラベルをつけたものを利用してもよいし、クラスラベルのついたデータセットを調達して利用してもよい。そして、分類器１７０は、例えば、畳み込みニューラルネットワークを利用した学習済モデルであり、素材コンテンツデータを入力すると、１つまたは複数の抽出情報（例えば、クラスラベルなど）を抽出する。分類器１７０は、例えば、素材コンテンツデータに関連するオブジェクトを表すクラスラベル（例えば、魚介、焼肉、人物、家具）を抽出する。

　図６は、複合コンテンツデータを作成する流れの一例を説明する図である。

　まず、サーバ１は、少なくとも被識別情報を含む第１のデータをユーザ端末３より通信部１１０を介して受け付ける（ステップＳ１０１）。本例においては、被識別情報は、例えば一以上の単語であり、第１のデータは、例えば一以上の単語を含む記事からなるテキストデータまたはそのテキストデータを要約したものであり得る。

　次に、サーバ１は、複合コンテンツデータ生成部１４０により、一以上のカットを含むベースデータをベースデータ記憶部１６２から読み出す（ステップＳ１０２）。本例においては、ベースデータは、例えば複数の空白カットを含むものであってもよいし、所定の素材コンテンツデータや書式情報などが各カットに設定済みのテンプレートデータ（例えば、音楽データや背景画像、フォント情報など）であってもよい。

　次に、サーバ１は、被識別情報解析部１２０により、第１のデータを解析して被識別情報を取得し、第２のデータ生成部１３０により、被識別情報の少なくとも一部を含む一以上の第２のデータを生成する（ステップＳ１０３）。第２のデータは、ベースデータの各カットの最大文字数及び文節間の修飾関係を解析し、文章として自然な区間が各カットに収まるように文を区切った個々のテキストデータであり得る。

　次に、サーバ１は、第２のデータ割り当て部により、第２のデータをカットに割り当てる（ステップＳ１０４）。なお、この状態のベースデータをユーザ端末３にて表示をするようにして、経過を確認可能にしてもよい。

　次に、サーバ１は、第２のデータに含まれる被識別情報の少なくとも一部と、素材コンテンツデータから抽出された抽出情報に基づき、関連付け部１５０により、素材コンテンツデータ記憶部１６４の素材コンテンツデータと第２のデータとを互いに関連付けし（ステップＳ１０５）、素材コンテンツデータ割り当て部１４４によりその素材コンテンツデータをカットに割り当てる（ステップＳ１０６）。

　そして、サーバ１は、第２のデータ及び素材コンテンツデータが割り当てられたベースデータを複合コンテンツデータとして生成するとともに複合コンテンツデータ記憶部１６６に記憶し、ユーザ端末３に複合コンテンツデータを表示する（ステップＳ１０７）。なお、複合コンテンツデータの表示は、図７に例示するように、複合コンテンツデータを構成する複数のカットを画面上に一覧表示することができる。各カットには、表示される素材コンテンツデータおよび第２データと共に各カットの再生時間（秒数）の情報も表示されてもよい。ユーザは、例えば、第２のデータフィールド３１や対応するボタンをクリックすることで、その内容を修正することができ、素材コンテンツデータフィールド３２や対応するボタンをクリックすることで素材コンテンツデータを差し替えることができる。さらに、他の素材コンテンツデータをユーザがユーザ端末から各シーンに追加することも可能である。

　なお、上述の複合コンテンツデータを作成する流れは一例であり、例えば、ベースデータを読み出すためのステップＳ１０２は、第２のデータまたは素材コンテンツデータの割り当てまでに読み出されていればいつ実行されていてもよい。また、例えば、第２のデータの割り当てのためのステップＳ１０４と、関連付けのためのステップＳ１０５と、素材コンテンツデータの割り当てのためのステップＳ１０６の順番も、互いに齟齬が生じなければ何れの順番で実行されてもよい。

　また、これまで説明した被識別情報解析部１２０及び関連付け部１５０、分類器１７０を用いた素材コンテンツデータ設定部１９０は、複合コンテンツデータ作成システムの１つの設定機能であってもよく、素材コンテンツデータ設定部１９０による設定方法はこれに限らず、例えば、従来の複合コンテンツデータ作成システムと同様に、ユーザ端末からユーザが各データフィールドの全てまたは一部に対して任意の素材コンテンツを設定可能にしてもよいし、例えば第２のデータフィールド３１にユーザがユーザ端末により任意のテキストを入力し、これらのテキストから上述のように被識別情報を抽出して素材コンテンツを関連付けるといったように、ユーザ操作と組み合わせた設定方法であってもよい。

（音データ設定機能）
　図８～図１３を参照しながら、複合コンテンツデータにおける音データに関する様々な設定方法例について説明する。

　図８は、複合コンテンツデータに音データに関するデータ構造の一例を説明する図である。ここでいう音データとは、例えば、音楽データやナレーション等の音声データ、効果音、環境音データなどを含む。

　複合コンテンツデータは、上述のとおり、例えばシーン１－５といったように複数のカットにより構成され得る。図８の例示においては、シーン１－４においては動画素材データが素材コンテンツデータとして設定されているため、動画素材データの音データが複合コンテンツデータの各シーンに含まれることとなる。なお、シーン５では、例えば画像データの音データを含まない素材コンテンツデータが背景画像として設定されていてもよい。

　そして、図８の例示においては、各シーンにおいて、ユーザがユーザ端末より選択した音データ、または、被識別情報と関連付け可能なタグ情報が付された音データなどが音素材データとして一以上選択することが可能であり、例えばシーン２、５では素材音データが複数選択されており、シーン４では一つも選択されていない。

　さらに、図８の例示においては、例えばシーン１－５を通して流れる全体音データも設定可能であり、後述のとおり、各シーンにおいてその音量が設定可能である。

　図９には、例えばユーザ端末のＷｅｂブラウザ上に表示される複合コンテンツデータ編集画面９００が示されており、全体音データの音量を設定するための全体音データ音量設定部９１０や、各シーンに関する情報を表示し、各シーンの編集画面へ移行するためのリンクなどを有するシーン情報表示部９２０がさらに示されている。この全体音データ音量設定部９１０により、複合コンテンツデータに設定された全体音データの音量を設定可能である。

　また、図１０に例示されるように、全体音データ音量設定部９１０において、全体調整用のリンク９１２をユーザがユーザ端末にて選択することによって、全体音データ音量調整画面９２０が例えば別ウィンドウとして表示される。全体音データ音量調整画面９２０においては、全体音データ音量設定部９１０に対応する全体音データ音量設定部９３０を有するとともに、さらに各シーンにおいての音量を設定するための全体音データシーン音量設定部９４０をシーン数に対応する数有している。この全体音データシーン音量設定部９４０は、例えば全体音データ音量設定部９３０において設定された音量を、各シーンにおいていずれの割合で再生するかを設定するものであってもよい。これにより、複合コンテンツデータ全体に対する全体音データを設定した場合に、各シーンのコンセプト（例えば静かなシーンや元気のあるシーンなど）にあった音量を設定可能であったり、例えば図１０に例示されるシーン２のように全体音データの音量をオフとして、動画素材データの音データや音素材データのみを視聴可能に設定するなど、ユーザの希望にあわせて柔軟に設定することが可能となり、簡便でありながら質の高い複合コンテンツデータを作成することが可能となります。

　図１１には、例えばユーザ端末のＷｅｂブラウザ上に表示されるシーン編集画面１１００が示されており、全体音データシーン音量設定部９４０に対応する全体音データシーン音量設定部１１１０や、動画素材データの音データの音量を設定する動画素材音データ音量設定部１１２０、例えば音楽データや音声データ等の音素材データの音量を設定する音素材データ音量設定部１１３０、１１４０がさらに示されている。ここで、例えば音楽データや音声データ等の音だけが再生される音素材データである場合には音素材データ音量設定部１１３０に示されるように音データのタイトル等のテキスト名が表示されているが、例えば動画素材データから抽出した音データを音素材データとして設定する場合には、音素材データ音量設定部１１４０に示されるように、動画素材データのサムネイル画像であったり、動画素材データから抽出したことを示す画像など、音素材データ音量設定部１１３０とは互いに異なる表示にすると両者の区別がつきやすいが、これに限らず、いずれも音データのタイトル等のテキスト名で表示してもよい。また、動画素材データから抽出した音データについては、動画素材データとして本システムに記憶する際に、併せて音データも抽出して記憶するようにしてもよい。なお、動画素材データから音データを抽出する際には、既知の方法を用いて実行されてもよい。

　これにより、各シーンにおいて、様々な音データを総合的に設定することが可能となるため、ユーザの希望にあわせて柔軟に設定することが可能となり、簡便でありながら質の高い複合コンテンツデータを作成することが可能となります。また、シーンごとに編集することにより、例えばタイムライン等で俯瞰的に全てのデータを一度に設定するよりも、ユーザの選択対象や検討対象が限定され、ユーザにとって簡便な複合コンテンツデータ編集のユーザインタフェースを提供することが可能となります。

　また、図１２に示されるように、各音データは、各シーンにおいて規定される再生時間に合わせて、ユーザが音データにおける再生範囲（例えば、音データにおける開始時間と終了時間）を設定するためのトリミング部１２００が提供されてもよい。

　図１３は、全体音データの一部をミュート（音量ゼロ）に設定した際のエフェクトについて説明する図である。例えば、シーン２をミュート設定とした場合には、前のシーン１の全体音データの音量に対して、例えばフェードアウトのように徐々に音量が小さくなってシーンが切り替わるようなエフェクトをデフォルトでエフェクト設定部により設定するようにしてもよい。これにより、シーンの切り替わり時に音データがブツ切りになるユーザの違和感を軽減することが可能である。また、最後のシーン３においても同様のエフェクトをデフォルトで設定してもよく、シーン途中でのエフェクトに比べて長く設定する（例えば、シーン途中だと１０フレーム分のエフェクトを設定するが、最後のシーン終了部分には３０フレーム分のエフェクトを設定するなど）ことで、より自然に複合コンテンツデータの再生終了を演出することができる。なお、上記ミュートに関する目的に限らず、エフェクト設定部においては、各カットのあらゆる部分に対してエフェクト（例えば、フェード、ディレイ、エコー、リバーブなど）が設定可能であってもよいし、デフォルト設定ではなくユーザがシーン編集画面等からエフェクト設定部によりエフェクト設定が可能であってもよい。

　以上に説明した実施形態例の本システムによれば、編集用ソフト、サーバ、専門技術を持った編集者などを自前で揃えなくとも、簡単に複合コンテンツデータを作成することが可能となる。例えば、下記のような場面での活用が想定される。
　１）ＥＣショップで販売している商品情報の動画化
　２）プレスリリース情報、ＣＳＲ情報などを動画で配信
　３）利用方法・オペレーションフローなどのマニュアルを動画化
　４）動画広告として活用できるクリエイティブを制作

　以上、本発明の好ましい実施形態例について説明したが、本発明の技術的範囲は上記実施形態の記載に限定されるものではない。上記実施形態例には様々な変更・改良を加えることが可能であり、そのような変更または改良を加えた形態のものも本発明の技術的範囲に含まれる。

１　サーバ
２　管理者端末
３　ユーザ端末

Claims

　複数のカットを含むベースデータの各カットに対して、一以上の素材コンテンツデータを設定する素材コンテンツデータ設定部と、
　前記ベースデータの全体を通して設定された全体音データのうち、前記カットごとに対応する前記全体音データの一部を個別に音量設定する全体音データシーン音量設定部と、
　前記ベースデータに基づき複合コンテンツデータを生成する複合コンテンツデータ生成部と、を備える、
　ことを特徴とするサーバ。
　請求項１に記載のサーバであって、
　さらに、前記全体音データの全体を通した音量を設定する全体音データ音量設定部を備え、
　前記全体音データシーン音量設定部は、前記カットごとに前記全体音データ音量設定部により設定された音量に対する音量の増減割合を設定する、を備える、
　ことを特徴とするサーバ。
　請求項１または２のいずれかに記載のサーバであって、
　さらに、前記カットごとに設定された音素材データの音量を設定する音素材データ音量設定部と、を備える、
　ことを特徴とするサーバ。
　請求項１ないし３のいずれかに記載のサーバであって、
　さらに、前記カットごとに設定された動画素材データの音データの音量を設定する動画素材音データ音量設定部と、を備える、
　ことを特徴とするサーバ。
　請求項１ないし４のいずれかに記載のサーバであって、
　さらに、第１のカットに設定した音データの音量をミュートにした場合に、前記第１のカットの前の第２のカットの音データの音量に対してエフェクトを設定するエフェクト設定部と、を備える、
　ことを特徴とするサーバ。
　請求項１ないし５のいずれかに記載のサーバであって、
　さらに、前記素材コンテンツデータとして動画素材データを記憶する際に、当該動画素材データの音データを抽出して当該音データも前記素材コンテンツデータとして記憶する素材コンテンツデータ記憶部と、を備える、
　ことを特徴とするサーバ。
　複数のカットを含むベースデータの各カットに対して、一以上の素材コンテンツデータを設定する素材コンテンツデータ設定部と、
　前記ベースデータの全体を通して設定された全体音データのうち、前記カットごとに対応する前記全体音データの一部を個別に音量設定する全体音データシーン音量設定部と、
　前記ベースデータに基づき複合コンテンツデータを生成する複合コンテンツデータ生成部と、を備える、
　ことを特徴とする複合コンテンツデータ作成システム。
　素材コンテンツデータ設定部により、複数のカットを含むベースデータの各カットに対して、一以上の素材コンテンツデータを設定するステップと、
　全体音データシーン音量設定部により、前記ベースデータの全体を通して設定された全体音データのうち、前記カットごとに対応する前記全体音データの一部を個別に音量設定するステップと、
　複合コンテンツデータ生成部により、前記ベースデータに基づき複合コンテンツデータを生成するステップと、を含む、
　ことを特徴とする複合コンテンツデータ作成方法。
　複合コンテンツデータ作成方法をコンピュータに実行させるプログラムであって、
　前記複合コンテンツデータ作成方法は、
　素材コンテンツデータ設定部により、複数のカットを含むベースデータの各カットに対して、一以上の素材コンテンツデータを設定するステップと、
　全体音データシーン音量設定部により、前記ベースデータの全体を通して設定された全体音データのうち、前記カットごとに対応する前記全体音データの一部を個別に音量設定するステップと、
　複合コンテンツデータ生成部により、前記ベースデータに基づき複合コンテンツデータを生成するステップと、を含む、
　ことを特徴とするプログラム。