WO2022003798A1 - サーバおよび複合コンテンツデータ作成システム、複合コンテンツデータ作成方法、プログラム - Google Patents

サーバおよび複合コンテンツデータ作成システム、複合コンテンツデータ作成方法、プログラム Download PDF

Info

Publication number
WO2022003798A1
WO2022003798A1 PCT/JP2020/025589 JP2020025589W WO2022003798A1 WO 2022003798 A1 WO2022003798 A1 WO 2022003798A1 JP 2020025589 W JP2020025589 W JP 2020025589W WO 2022003798 A1 WO2022003798 A1 WO 2022003798A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
content data
volume
cut
sound
Prior art date
Application number
PCT/JP2020/025589
Other languages
English (en)
French (fr)
Inventor
尚武 石橋
雄康 高松
Original Assignee
株式会社オープンエイト
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社オープンエイト filed Critical 株式会社オープンエイト
Priority to JP2022533294A priority Critical patent/JPWO2022003798A1/ja
Priority to PCT/JP2020/025589 priority patent/WO2022003798A1/ja
Publication of WO2022003798A1 publication Critical patent/WO2022003798A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring

Definitions

  • the present invention relates to a server or the like that generates composite content data.
  • Patent Document 1 proposes a moving image processing device that efficiently searches for a desired scene image from moving images having a plurality of chapters.
  • Creating content data such as moving images takes a lot of time and effort, and in particular, when creating composite content data using multiple material content data such as text data, images, and sound data, the optimum combination should be used. Since it is difficult to consider depending on the technical level of the user, it has been required to provide a system that can easily create composite content data. Further, regarding the sound data, in the conventional composite content data creation system, only one sound data (for example, music data) is set in the entire composite content data, and the composite content data of the same type is more composited. There was also a need to provide a system that could be combined in a targeted manner.
  • an object of the present invention is to provide a server or the like that enables easy creation of composite content data.
  • the main invention of the present invention for solving the above problems is to set one or more material content data for each cut of the base data including a plurality of cuts, and through the material content data setting unit and the whole of the base data.
  • the overall sound data scene volume setting unit that individually sets the volume of a part of the overall sound data corresponding to each cut, and the composite content that generates composite content data based on the base data. It is a server characterized by having a data generation unit.
  • the server or the like has the following configurations.
  • a material content data setting unit that sets one or more material content data for each cut of the base data including multiple cuts, Of the overall sound data set throughout the entire base data, the overall sound data scene volume setting unit that individually sets the volume of a part of the overall sound data corresponding to each cut, and A composite content data generation unit that generates composite content data based on the base data is provided.
  • a server that features that.
  • the whole sound data scene volume setting unit is provided with setting an increase / decrease ratio of the volume with respect to the volume set by the whole sound data volume setting unit for each cut.
  • a server that features that. [Item 3] The server according to any one of items 1 or 2. Further, the sound material data volume setting unit for setting the volume of the sound material data set for each cut is provided. A server that features that. [Item 4] The server described in any one of items 1 to 3 and Further, it is provided with a video material sound data volume setting unit for setting the volume of the sound data of the video material data set for each cut. A server that features that. [Item 5] The server according to any one of items 1 to 4.
  • the effect setting unit for setting the effect with respect to the volume of the sound data of the second cut before the first cut.
  • prepare prepare A server that features that.
  • the server according to any one of items 1 to 5.
  • the material content data storage unit that extracts the sound data of the moving image material data and stores the sound data as the material content data is provided. A server that features that.
  • a material content data setting unit that sets one or more material content data for each cut of the base data including multiple cuts, Of the overall sound data set throughout the entire base data, the overall sound data scene volume setting unit that individually sets the volume of a part of the overall sound data corresponding to each cut, and A composite content data generation unit that generates composite content data based on the base data is provided.
  • a complex content data creation system characterized by this.
  • the composite content data generation unit includes a step of generating composite content data based on the base data.
  • a method for creating complex content data which is characterized by the fact that.
  • [Item 9] A program that causes a computer to execute a method for creating complex content data.
  • the method for creating composite content data is as follows. A step to set one or more material content data for each cut of the base data including multiple cuts by the material content data setting unit. A step of individually setting a part of the whole sound data corresponding to each cut among the whole sound data set through the whole of the base data by the whole sound data scene volume setting unit.
  • the composite content data generation unit includes a step of generating composite content data based on the base data.
  • the present system a system for creating composite content data according to an embodiment of the present invention (hereinafter referred to as “the present system”) and the like will be described.
  • the same or similar elements are designated by the same or similar reference numerals and names, and duplicate description of the same or similar elements may be omitted in the description of each embodiment.
  • the features shown in each embodiment can be applied to other embodiments as long as they do not contradict each other.
  • the system according to the embodiment is configured to include a server 1, an administrator terminal 2, and a user terminal 3.
  • the server 1, the administrator terminal 2, and the user terminal 3 are connected to each other so as to be able to communicate with each other via a network.
  • the network may be a local network or may be connectable to an external network.
  • an example in which one server 1 is configured is described, but it is also possible to realize the server 1 by a plurality of server devices. Further, the server 1 and the administrator terminal 2 may be shared.
  • FIG. 2 is a diagram showing a hardware configuration of the server 1 shown in FIG.
  • the configuration shown in the figure is an example, and may have other configurations.
  • the server 1 may be a general-purpose computer such as a workstation or a personal computer, or may be logically realized by cloud computing.
  • the server 1 includes at least a processor 10, a memory 11, a storage 12, a transmission / reception unit 13, an input / output unit 14, and the like, and these are electrically connected to each other through a bus 15.
  • the processor 10 is an arithmetic unit that controls the operation of the entire server 1, controls the transmission and reception of data between each element, and performs information processing necessary for application execution and authentication processing.
  • the processor 10 is a CPU (Central Processing Unit) and a GPU (Graphics Processing Unit), and executes each information processing by executing a program or the like for the system stored in the storage 12 and expanded in the memory 11.
  • the processing power of the processor 10 may be sufficient to execute necessary information processing, and therefore, for example, the processor 10 may be composed only of a CPU, and is not limited to this.
  • the memory 11 includes a main storage composed of a volatile storage device such as a DRAM (Dynamic Random Access Memory) and an auxiliary storage composed of a non-volatile storage device such as a flash memory and an HDD (Hard Disk Drive). ..
  • the memory 11 is used as a work area of the processor 10, and may store a BIOS (Basic Input / Output System) executed when the server 1 is started, various setting information, and the like.
  • BIOS Basic Input / Output System
  • the storage 12 stores various programs such as application programs.
  • a database storing data used for each process may be built in the storage 12.
  • the transmission / reception unit 13 connects the server 1 to the network.
  • the input / output unit 14 is an information input device such as a keyboard and a mouse, and an output device such as a display.
  • the bus 15 is commonly connected to each of the above elements and transmits, for example, an address signal, a data signal, and various control signals.
  • the administrator terminal 2 and the user terminal 3 shown in FIG. 3 also include a processor 20, a memory 21, a storage 22, a transmission / reception unit 23, an input / output unit 24, and the like, which are electrically connected to each other through a bus 25. .. Since the functions of each element can be configured in the same manner as the server 1 described above, detailed description of each element will be omitted.
  • the administrator uses the administrator terminal 2 to, for example, change the settings of the server 1 and manage the operation of the database.
  • the user can access the server 1 by the user terminal 3 to create or browse the composite content data, for example.
  • FIG. 4 is a block diagram illustrating the functions implemented in the server 1.
  • the server 1 includes a communication unit 110, an identified information analysis unit 120, a second data generation unit 130, a composite content data generation unit 140, an association unit 150, a storage unit 160, and a classifier 170.
  • the composite content data generation unit 140 includes a second data allocation unit 142 and a material content data allocation unit 144.
  • the storage unit 160 includes various databases such as a base data storage unit 162, a material content data storage unit 164, a composite content data storage unit 166, and an interface information storage unit 168.
  • the material content data setting unit 190 will be described later.
  • the communication unit 110 communicates with the administrator terminal 2 and the user terminal 3.
  • the communication unit 110 also functions as a reception unit that receives, for example, first data including identification information from the user terminal 3.
  • the first data is, for example, text data such as an article containing the identified information (for example, a press release or news), image data including the identified information (for example, a photograph or an illustration) or video data.
  • Voice data including identified information may be used.
  • the text data referred to here is not limited to text data at the time of transmission to the server 1, and is, for example, text data generated by a known voice recognition technique for the voice data transmitted to the server 1. You may.
  • the first data may be, for example, text data such as an article summarized by an existing automatic summarization technique such as an extractive summarization or a generative summarization (including identified information).
  • an existing automatic summarization technique such as an extractive summarization or a generative summarization (including identified information).
  • the number of cuts included in the base data can be reduced, the data capacity of the entire composite content data can be reduced, and the content can be simplified.
  • the voice data referred to here is not limited to voice data acquired by an input device such as a microphone, but may be voice data extracted from video data or voice data generated from text data.
  • voice data such as narration and dialogue
  • the temporary video such as a temporary image such as a rough sketch and a video with a temporary video
  • the composite content is combined with the material content data based on the audio data.
  • Data may be generated.
  • audio data may be created from text data with a story, and in the case of a fairy tale, for example, a picture-story show or a moving image based on a read-aloud story and material content data may be generated as composite content data.
  • the second data generation unit 130 determines that it is not necessary to divide the first data (for example, the text data is a short sentence having a preset number of characters or less).
  • the data generation unit 130 directly generates the first data as the second data.
  • the second data generation unit 130 uses the first data generation unit 130.
  • the data is divided and generated as second data including at least a part of the identified information of the first data.
  • any known technique may be used.
  • each of the base data can be used.
  • the maximum number of characters in the cut and the modification relationship between the phrases may be analyzed, and the sentences may be separated so that the natural sections of the sentence fit in each cut.
  • the identified information analysis unit 120 analyzes the above-mentioned second data and acquires the identified information.
  • the identified information may be any information as long as it can be analyzed by the identified information analysis unit 120.
  • the identified information can be in the word form defined by the language model. More specifically, it may be one or more words with a word vector described later (for example, "Shibuya, Shinjuku, Roppongi", "Shibuya, landmark, youth”, etc.). It should be noted that the word may include a word that is not normally used by itself, such as "n", depending on the language model. Further, instead of the above word format, it may be a document accompanied by a vector representing the entire sentence, or a feature vector extracted from an image or a moving image.
  • the composite content data generation unit 140 reads the base data including one or more cuts from the base data storage unit 162, and the material content data stored in the material content data storage unit 164 and the above-mentioned second data are assigned to the base.
  • the data is generated as composite content data and stored in the composite content data storage unit 166, and the composite content data is displayed on the user terminal 3.
  • FIG. 5 is an example of the screen layout of the cuts constituting the base data.
  • the edited second data (for example, a delimited text sentence) is inserted into the second data field 31 in the figure, and the selected material content data is inserted into the material content data field 32.
  • the preset maximum number of characters in the case of text data
  • screen layout in the case of moving image
  • playback time in the case of moving image
  • the composite content data does not necessarily have to be stored in the composite content data storage unit 166, and may be stored at an appropriate timing.
  • the base data to which only the second data is assigned may be displayed on the user terminal 3 as the progress information of the composite content data.
  • the second data allocation unit 142 for example, a plurality of cuts are numbered such as scene 1, scene 2, scene 3 and cut 1, cut 2, and cut 3, and the second data is assigned in the order of the numbers. Are sequentially assigned.
  • the second data allocation unit 142 is not limited to such an allocation method, and for example, the second data allocation unit 142 increases or decreases the number of cuts included in the base data from a preset number according to the number of the second data.
  • the second data may be assigned.
  • the association unit 150 compares at least a part of the identified information contained in the above-mentioned second data with, for example, the extracted information extracted from the material content data (for example, the class label extracted by the classifier). For example, the degree of similarity with each other is determined, and the material content data suitable for the second data (for example, one having a high degree of similarity) and the second data are associated with each other.
  • material content data A for example, an image of a woman
  • “mountain" in which the identified information contained in the second data represents a "teacher” and the extracted information is a "face”.
  • the material content data B for example, the image of Mt.
  • Fuji is prepared, the relationship between the word vector obtained from the "teacher” and the word vector obtained from the "face” is the word vector obtained from the "teacher".
  • the second data is associated with the material content data A because it is more similar than the association of the word vectors obtained from the "mountain”.
  • the extraction information of the material content data may be extracted in advance by the user and stored in the material content data storage unit 164, or may be extracted by the classifier 170 described later. Further, for the determination of the similarity, a trained model in which a word vector is learned may be prepared, and the similarity of words may be determined by a method such as cosine similarity or Word Mover's Distance using the vector.
  • the material content data may be, for example, image data, moving image data, sound data (for example, music data, audio data, sound effects, etc.), but is not limited thereto. Further, the material content data may be stored in the material content data storage unit 164 by the user or the administrator, or the material content data is acquired from the network and stored in the material content data storage unit 164. May be.
  • the material content data allocation unit 144 allocates suitable material content data to the cut to which the corresponding second data is assigned based on the above-mentioned association.
  • the interface information storage unit 168 stores various control information for display on the display unit (display or the like) of the administrator terminal 2 or the user terminal 3.
  • the classifier 170 is created as a trained model by acquiring training data from a training data storage unit (not shown) and performing machine learning.
  • the classifier 170 is created on a regular basis (for example, several times a year).
  • the learning data for creating the classifier data collected from the network or data owned by the user with a class label may be used, or a data set with a class label may be procured and used. ..
  • the classifier 170 is, for example, a trained model using a convolutional neural network, and when material content data is input, one or a plurality of extraction information (for example, a class label) is extracted.
  • the classifier 170 extracts, for example, class labels (eg, seafood, roasted meat, people, furniture) representing objects related to material content data.
  • class labels eg, seafood, roasted meat, people, furniture
  • FIG. 6 is a diagram illustrating an example of a flow for creating composite content data.
  • the server 1 receives the first data including at least the identified information from the user terminal 3 via the communication unit 110 (step S101).
  • the identified information may be, for example, one or more words
  • the first data may be, for example, text data consisting of an article containing one or more words or a summary of the text data.
  • the server 1 reads the base data including one or more cuts from the base data storage unit 162 by the composite content data generation unit 140 (step S102).
  • the base data may include, for example, a plurality of blank cuts, or template data (for example, music data or background image) in which predetermined material content data, format information, or the like is set for each cut. , Font information, etc.).
  • the server 1 analyzes the first data by the identified information analysis unit 120 to acquire the identified information, and the second data generation unit 130 includes at least a part of the identified information.
  • the second data of the above is generated (step S103).
  • the second data may be individual text data in which the maximum number of characters in each cut of the base data and the modification relationship between clauses are analyzed, and the sentences are divided so that a natural section as a sentence fits in each cut.
  • the server 1 allocates the second data to the cut by the second data allocation unit (step S104).
  • the progress may be confirmed by displaying the base data in this state on the user terminal 3.
  • the server 1 is based on at least a part of the identified information included in the second data and the extracted information extracted from the material content data, and the association unit 150 causes the material content data of the material content data storage unit 164. And the second data are associated with each other (step S105), and the material content data is assigned to the cut by the material content data allocation unit 144 (step S106).
  • the server 1 generates the base data to which the second data and the material content data are assigned as the composite content data, stores the composite content data storage unit 166, and displays the composite content data on the user terminal 3 (step). S107).
  • a plurality of cuts constituting the composite content data can be displayed in a list on the screen.
  • information on the reproduction time (seconds) of each cut may be displayed together with the displayed material content data and the second data.
  • the user can modify the content by clicking, for example, the second data field 31 or the corresponding button, and replace the material content data by clicking the material content data field 32 or the corresponding button. Can be done. Further, it is also possible for the user to add other material content data to each scene from the user terminal.
  • step S102 for reading the base data is executed at any time as long as it has been read by the time of allocation of the second data or the material content data. You may. Further, for example, the order of step S104 for allocating the second data, step S105 for associating, and step S106 for allocating the material content data is also executed in any order as long as there is no discrepancy between them. May be done.
  • the material content data setting unit 190 using the identified information analysis unit 120, the association unit 150, and the classifier 170 described above may be one setting function of the composite content data creation system, and the material content data.
  • the setting method by the setting unit 190 is not limited to this, and for example, as in the conventional composite content data creation system, the user can set arbitrary material content for all or part of each data field from the user terminal.
  • the user inputs arbitrary text in the second data field 31 by the user terminal, extracts the identified information from these texts as described above, and associates the material content with the user operation. It may be a combination setting method.
  • FIG. 8 is a diagram illustrating an example of a data structure relating to sound data for composite content data.
  • the sound data referred to here includes, for example, voice data such as music data and narration, sound effects, and environmental sound data.
  • the composite content data can be composed of a plurality of cuts, for example, scenes 1-5.
  • the sound data of the moving image material data is included in each scene of the composite content data.
  • the material content data that does not include the sound data of the image data may be set as the background image.
  • each scene one or more sound data selected by the user from the user terminal, sound data with tag information that can be associated with the identified information, and the like are selected as sound material data. For example, in scenes 2 and 5, a plurality of material sound data are selected, and in scene 4, none of them are selected.
  • the whole sound data flowing through scenes 1-5 can be set, and the volume can be set in each scene as described later.
  • FIG. 9 shows, for example, a composite content data editing screen 900 displayed on a Web browser of a user terminal, and relates to an overall sound data volume setting unit 910 for setting the volume of overall sound data and each scene. Further shown is a scene information display unit 920 having a link for displaying information and shifting to an edit screen of each scene.
  • the volume of the overall sound data set in the composite content data can be set by the overall sound data volume setting unit 910.
  • the overall sound data volume adjustment screen 920 when the user selects the link 912 for overall adjustment on the user terminal, the overall sound data volume adjustment screen 920 is set as a separate window, for example. Is displayed.
  • the overall sound data volume adjustment screen 920 has an overall sound data volume setting unit 930 corresponding to the overall sound data volume setting unit 910, and further has an overall sound data scene volume setting unit 940 for setting the volume in each scene. Has a number corresponding to the number of scenes.
  • the whole sound data scene volume setting unit 940 may set, for example, the ratio of the volume set in the whole sound data volume setting unit 930 to be reproduced in each scene.
  • the volume suitable for the concept of each scene (for example, a quiet scene or a lively scene) can be set, or is exemplified in FIG. 10, for example. It is possible to flexibly set according to the user's wishes, such as turning off the volume of the whole sound data and setting only the sound data and sound material data of the video material data to be viewable as in scene 2, which is convenient. However, it is possible to create high-quality composite content data.
  • FIG. 11 shows, for example, a scene editing screen 1100 displayed on a Web browser of a user terminal, such as an overall sound data scene volume setting unit 1110 corresponding to an overall sound data scene volume setting unit 940, and video material data.
  • the moving image material sound data volume setting unit 1120 for setting the volume of the sound data of, for example, the sound material data volume setting unit 1130 and 1140 for setting the volume of the sound material data such as music data and voice data are further shown.
  • a text name such as a title of sound data is displayed as shown in the sound material data volume setting unit 1130.
  • the sound data extracted from the video material data when the sound data extracted from the video material data is set as the sound material data, it may be a thumbnail image of the video material data or extracted from the video material data as shown in the sound material data volume setting unit 1140. It is easy to distinguish between the two if the display is different from that of the sound material data volume setting unit 1130, such as an image showing that the sound has been done. .. Further, the sound data extracted from the moving image material data may be stored in the system as the moving image material data, and the sound data may be extracted and stored at the same time. When extracting the sound data from the moving image material data, it may be executed by using a known method.
  • the user sets a reproduction range (for example, a start time and an end time in the sound data) in the sound data according to the reproduction time defined in each scene.
  • the trimming unit 1200 of the above may be provided.
  • FIG. 13 is a diagram illustrating an effect when a part of the whole sound data is set to mute (volume zero).
  • the effect is set by default with respect to the volume of the entire sound data of the previous scene 1 so that the volume gradually decreases and the scene is switched, for example, fade-out. It may be set according to the part. This makes it possible to reduce the user's discomfort that the sound data is cut off when the scene is switched.
  • the same effect may be set by default in the last scene 3, and it is set longer than the effect in the middle of the scene (for example, in the middle of the scene, the effect for 10 frames is set, but the last one.
  • effects for example, fade, delay, echo, reverb, etc.
  • the default setting may be set.
  • the user may be able to set the effect from the scene edit screen or the like using the effect setting unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】複合コンテンツデータを簡便に作成することを可能とするサーバ等を提供すること。 【解決手段】複数のカットを含むベースデータの各カットに対して、一以上の素材コンテンツデータを設定する素材コンテンツデータ設定部と、前記ベースデータの全体を通して設定された全体音データのうち、前記カットごとに対応する前記全体音データの一部を個別に音量設定する全体音データシーン音量設定部と、前記ベースデータに基づき複合コンテンツデータを生成する複合コンテンツデータ生成部と、を備える、サーバおよび複合コンテンツデータ作成システム、複合コンテンツデータ作成方法、プログラム。

Description

サーバおよび複合コンテンツデータ作成システム、複合コンテンツデータ作成方法、プログラム
 本発明は、複合コンテンツデータを生成するサーバ等に関する。
 従来から、動画等コンテンツデータ作成が行われており、例えば、特許文献1には、複数のチャプタを有する動画から所望のシーン画像を効率的に検索する動画処理装置が提案されている。
特開2011-130007号公報
 動画等コンテンツデータを作成することには多大な手間がかかり、特に、テキストデータや画像、音データなどの複数の素材コンテンツデータが用いられた複合コンテンツデータを作成する場合には、最適な組み合わせを考慮することがユーザの技術レベルによっては難しいため、簡便に複合コンテンツデータを作成することができるシステムの提供が求められていた。さらに、音データについては、従来の複合コンテンツデータ作成システムでは、複合コンテンツデータ全体に音データ(例えば、音楽データ)1つが設定されるだけであり、同一種類の素材コンテンツデータ間においても、より複合的に組み合わせることが可能なシステムの提供も求められていた。
 そこで、本発明では、複合コンテンツデータを簡便に作成することを可能とするサーバ等を提供することを目的とする。
 上記課題を解決するための本発明の主たる発明は、複数のカットを含むベースデータの各カットに対して、一以上の素材コンテンツデータを設定する素材コンテンツデータ設定部と、前記ベースデータの全体を通して設定された全体音データのうち、前記カットごとに対応する前記全体音データの一部を個別に音量設定する全体音データシーン音量設定部と、前記ベースデータに基づき複合コンテンツデータを生成する複合コンテンツデータ生成部と、を備える、ことを特徴とするサーバ、である。
 本発明によれば、複合コンテンツデータを簡便に作成することを可能とするサーバ等を提供することが可能となる。
実施形態例に係るシステムの構成図である。 実施形態例に係るサーバの構成図である。 実施形態例に係る管理端末、ユーザ端末の構成図である。 実施形態例に係るシステムの機能ブロック図である。 カットを構成する画面レイアウト例を説明する図である。 実施形態例に係るシステムのフローチャートである。 複合コンテンツデータを構成する複数のカットを画面上に一覧表示する態様の説明図である。 実施形態例に係る複合コンテンツデータにおける音データに関するデータ構造を説明する図である。 実施形態例に係る複合コンテンツデータ編集画面を説明する図である。 実施形態例に係る全体音データ音量調整画面を説明する図である。 実施形態例に係るシーン編集画面を説明する図である。 実施形態例に係るトリミング部を説明する図である。 実施形態例に係るエフェクト設定部を説明する図である。
 本発明の実施形態の内容を列記して説明する。本発明の実施の形態によるサーバ等は、以下のような構成を備える。
[項目1]
 複数のカットを含むベースデータの各カットに対して、一以上の素材コンテンツデータを設定する素材コンテンツデータ設定部と、
 前記ベースデータの全体を通して設定された全体音データのうち、前記カットごとに対応する前記全体音データの一部を個別に音量設定する全体音データシーン音量設定部と、
 前記ベースデータに基づき複合コンテンツデータを生成する複合コンテンツデータ生成部と、を備える、
 ことを特徴とするサーバ。
[項目2]
 項目1に記載のサーバであって、
 さらに、前記全体音データの全体を通した音量を設定する全体音データ音量設定部を備え、
 前記全体音データシーン音量設定部は、前記カットごとに前記全体音データ音量設定部により設定された音量に対する音量の増減割合を設定する、を備える、
 ことを特徴とするサーバ。
[項目3]
 項目1または2のいずれかに記載のサーバであって、
 さらに、前記カットごとに設定された音素材データの音量を設定する音素材データ音量設定部と、を備える、
 ことを特徴とするサーバ。
[項目4]
 項目1ないし3のいずれかに記載のサーバであって、
 さらに、前記カットごとに設定された動画素材データの音データの音量を設定する動画素材音データ音量設定部と、を備える、
 ことを特徴とするサーバ。
[項目5]
 項目1ないし4のいずれかに記載のサーバであって、
 さらに、第1のカットに設定した音データの音量をミュートにした場合に、前記第1のカットの前の第2のカットの音データの音量に対してエフェクトを設定するエフェクト設定部と、を備える、
 ことを特徴とするサーバ。
[項目6]
 項目1ないし5のいずれかに記載のサーバであって、
 さらに、前記素材コンテンツデータとして動画素材データを記憶する際に、当該動画素材データの音データを抽出して当該音データも前記素材コンテンツデータとして記憶する素材コンテンツデータ記憶部と、を備える、
 ことを特徴とするサーバ。
[項目7]
 複数のカットを含むベースデータの各カットに対して、一以上の素材コンテンツデータを設定する素材コンテンツデータ設定部と、
 前記ベースデータの全体を通して設定された全体音データのうち、前記カットごとに対応する前記全体音データの一部を個別に音量設定する全体音データシーン音量設定部と、
 前記ベースデータに基づき複合コンテンツデータを生成する複合コンテンツデータ生成部と、を備える、
 ことを特徴とする複合コンテンツデータ作成システム。
[項目8]
 素材コンテンツデータ設定部により、複数のカットを含むベースデータの各カットに対して、一以上の素材コンテンツデータを設定するステップと、
 全体音データシーン音量設定部により、前記ベースデータの全体を通して設定された全体音データのうち、前記カットごとに対応する前記全体音データの一部を個別に音量設定するステップと、
 複合コンテンツデータ生成部により、前記ベースデータに基づき複合コンテンツデータを生成するステップと、を含む、
 ことを特徴とする複合コンテンツデータ作成方法。
[項目9]
 複合コンテンツデータ作成方法をコンピュータに実行させるプログラムであって、
 前記複合コンテンツデータ作成方法は、
 素材コンテンツデータ設定部により、複数のカットを含むベースデータの各カットに対して、一以上の素材コンテンツデータを設定するステップと、
 全体音データシーン音量設定部により、前記ベースデータの全体を通して設定された全体音データのうち、前記カットごとに対応する前記全体音データの一部を個別に音量設定するステップと、
 複合コンテンツデータ生成部により、前記ベースデータに基づき複合コンテンツデータを生成するステップと、を含む、
 ことを特徴とするプログラム。
 <実施の形態の詳細>
 以下、本発明の実施の形態による複合コンテンツデータを作成するためのシステム(以下「本システム」という)等について説明する。添付図面において、同一または類似の要素には同一または類似の参照符号及び名称が付され、各実施形態の説明において同一または類似の要素に関する重複する説明は省略することがある。また、各実施形態で示される特徴は、互いに矛盾しない限り他の実施形態にも適用可能である。
 <構成>
 実施形態例に係る本システムは、図1に示すように、サーバ1と、管理者端末2と、ユーザ端末3とを備えて構成される。サーバ1と、管理者端末2と、ユーザ端末3は、ネットワークを介して互いに通信可能に接続されている。ネットワークは、ローカルネットワークであってもよいし、外部ネットワークに接続可能なものであってもよい。図1の例では、サーバ1を1台で構成する例を説明しているが、複数台のサーバ装置によりサーバ1を実現することも可能である。また、サーバ1と管理者端末2が共通化されていてもよい。
 <サーバ1>
 図2は、図1に記載のサーバ1のハードウェア構成を示す図である。なお、図示された構成は一例であり、これ以外の構成を有していてもよい。また、サーバ1は、例えばワークステーションやパーソナルコンピュータのような汎用コンピュータとしてもよいし、或いはクラウド・コンピューティングによって論理的に実現されてもよい。
 サーバ1は、少なくとも、プロセッサ10、メモリ11、ストレージ12、送受信部13、入出力部14等を備え、これらはバス15を通じて相互に電気的に接続される。
 プロセッサ10は、サーバ1全体の動作を制御し、各要素間におけるデータの送受信の制御、及びアプリケーションの実行及び認証処理に必要な情報処理等を行う演算装置である。例えばプロセッサ10はCPU(Central Processing Unit)およびGPU(Graphics Processing Unit)であり、ストレージ12に格納されメモリ11に展開された本システムのためのプログラム等を実行して各情報処理を実施する。なお、プロセッサ10の処理能力は、必要な情報処理を実行するために十分であればよいので、例えば、プロセッサ10はCPUのみで構成されていてもよいし、これに限るものでもない。
 メモリ11は、DRAM(Dynamic Random Access Memory)等の揮発性記憶装置で構成される主記憶と、フラッシュメモリやHDD(Hard Disc Drive)等の不揮発性記憶装置で構成される補助記憶と、を含む。メモリ11は、プロセッサ10のワークエリア等として使用され、また、サーバ1の起動時に実行されるBIOS(Basic Input / Output System)、及び各種設定情報等を格納してもよい。
 ストレージ12は、アプリケーション・プログラム等の各種プログラムを格納する。各処理に用いられるデータを格納したデータベースがストレージ12に構築されていてもよい。
 送受信部13は、サーバ1をネットワークに接続する。
 入出力部14は、キーボード・マウス類等の情報入力機器、及びディスプレイ等の出力機器である。
 バス15は、上記各要素に共通に接続され、例えば、アドレス信号、データ信号及び各種制御信号を伝達する。
<管理者端末2、ユーザ端末3>
 図3に示される管理者端末2、ユーザ端末3もまた、プロセッサ20、メモリ21、ストレージ22、送受信部23、入出力部24等を備え、これらはバス25を通じて相互に電気的に接続される。各要素の機能は、上述したサーバ1と同様に構成することが可能であることから、各要素の詳細な説明は省略する。管理者は、管理者端末2により、例えばサーバ1の設定変更やデータベースの運用管理などを行う。ユーザは、ユーザ端末3によりサーバ1にアクセスして、例えば、複合コンテンツデータを作成または閲覧することなどができる。
<サーバ1の機能>
 図4は、サーバ1に実装される機能を例示したブロック図である。本実施の形態においては、サーバ1は、通信部110、被識別情報解析部120、第2のデータ生成部130、複合コンテンツデータ生成部140、関連付け部150、記憶部160、分類器170を備えている。複合コンテンツデータ生成部140は、第2のデータ割り当て部142、素材コンテンツデータ割り当て部144を含む。また、記憶部160は、ベースデータ記憶部162、素材コンテンツデータ記憶部164、複合コンテンツデータ記憶部166、インターフェース情報記憶部168などの各種データベースを含む。なお、素材コンテンツデータ設定部190については、後述する。
 通信部110は、管理者端末2や、ユーザ端末3と通信を行う。通信部110は、ユーザ端末3から、例えば被識別情報を含む第1のデータを受け付ける受付部としても機能する。そして、第1のデータは、例えば、被識別情報を含む記事(例えば、プレスリリースや、ニュースなど)などのテキストデータ、被識別情報を含む画像データ(例えば、写真や、イラストなど)若しくは動画データ、被識別情報を含む音声データなどであってもよい。なお、ここでいうテキストデータは、サーバ1に送信された時点においてテキストデータであるものに限らず、例えば、サーバ1に送信された音声データを既知の音声認識技術により生成されたテキストデータであってもよい。また、第1のデータは、例えば記事などのテキストデータなどが、既存の抽出的要約若しくは生成的要約などの自動要約技術により要約されたもの(被識別情報を含む)であってもよく、その場合、ベースデータに含まれるカット数が減り、複合コンテンツデータ全体のデータ容量を小さくすることができ、内容も簡潔なものとなり得る。
 また、ここでいう音声データは、マイク等の入力装置により取得された音声データに限らず、動画データから抽出された音声データや、テキストデータから生成された音声データであってもよい。前者の場合、例えばラフスケッチなどの仮画像及び仮映像による動画といった仮動画から、ナレーションやセリフなどの音声データだけを抽出し、後述されるように当該音声データを基に素材コンテンツデータと共に複合コンテンツデータを生成するようにしてもよい。後者の場合、例えば、ストーリーのあるテキストデータから音声データを作成し、例えば童話であれば、読み上げられたストーリーと素材コンテンツデータによる紙芝居や動画を複合コンテンツデータとして生成するようにしてもよい。
 第2のデータ生成部130は、例えば第1のデータを分割する必要がないと判定した場合(例えば、テキストデータが予め設定された文字数以下の短文であったりするなど)には、第2のデータ生成部130は、そのまま第1のデータを第2のデータとして生成する。一方で、例えば第1のデータを分割する必要があると判定した場合(例えば、予め設定された文字数よりも長文であったりするなど)には、第2のデータ生成部130は、第1のデータを分割し、それぞれ第1のデータの被識別情報の少なくとも一部を含む第2のデータとして生成する。なお、第2のデータ生成部130による第1のデータ分割の方法は、既知の何れの技術を利用してもよく、例えば、第1のデータがテキスト化できるものであれば、ベースデータの各カットの最大文字数及び文節間の修飾関係を解析し、文章として自然な区間が各カットに収まるように文を区切るようにしてもよい。
 被識別情報解析部120は、上述の第2のデータを解析し、被識別情報を取得する。ここで、被識別情報は、被識別情報解析部120により解析可能であれば、どのような情報であってもよい。一つの態様としては、被識別情報は、言語モデルにより定義された単語形式であり得る。より具体的には、後述の単語ベクトルを伴う一以上の単語(例えば、「渋谷、新宿、六本木」や「渋谷、ランドマーク、若者」など)であってもよい。なお、当該単語には、言語モデルに応じて「ん」などの通常はそれ単体では利用されない単語も含み得る。また、上記単語形式の代わりに文全体を表すベクトルを伴う文書、または画像や動画から抽出された特徴ベクトルであってもよい。
 複合コンテンツデータ生成部140は、ベースデータ記憶部162から一以上のカットを含むベースデータを読み出し、素材コンテンツデータ記憶部164に記憶された素材コンテンツデータと上述の第2のデータが割り当てられたベースデータを複合コンテンツデータとして生成するとともに複合コンテンツデータ記憶部166に記憶し、ユーザ端末3に複合コンテンツデータを表示する。なお、図5は、ベースデータを構成するカットの画面レイアウトの一例である。同図中第2のデータフィールド31に編集された第2のデータ(例えば、区切られたテキスト文章など)が挿入され、素材コンテンツデータフィールド32に選択された素材コンテンツデータが挿入される。ベースデータの各カットには、予め設定されている上述の最大文字数(テキストデータの場合)や、画面レイアウト、再生時間(動画の場合)が規定されている。また、複合コンテンツデータは、必ずしも複合コンテンツデータ記憶部166に保存される必要はなく、適当なタイミングで記憶されてもよい。また、第2のデータのみが割り当てられたベースデータを複合コンテンツデータの経過情報としてユーザ端末3に表示するようにしてもよい。
 第2のデータ割り当て部142は、例えば複数のカットに、シーン1、シーン2、シーン3やカット1、カット2、カット3といったように番号がふられており、この番号順に、第2のデータを順次割り当てていく。なお、このような割り当て方法に限定されず、例えば、第2のデータ割り当て部142は、第2のデータの数に合わせて、ベースデータに含まれるカット数を予め設定された数から増減し、第2のデータを割り当てるようにしてもよい。
 関連付け部150は、上述の第2のデータに含まれる被識別情報の少なくとも一部と、例えば、素材コンテンツデータから抽出される抽出情報(例えば、分類器が抽出したクラスラベルなど)と比較し、例えば、互いの類似度などを判定して、第2のデータに適した素材コンテンツデータ(例えば、類似度が高いものなど)と第2のデータとを互いに関連付けを行う。より具体的な例としては、例えば、第2のデータに含まれる被識別情報が「先生」を表し、抽出情報が「顔」である素材コンテンツデータA(例えば、女性の画像)と「山」である素材コンテンツデータB(例えば、富士山の画像)が用意されている場合、「先生」から得られる単語ベクトルと「顔」から得られる単語ベクトルの関連は、「先生」から得られる単語ベクトルと「山」から得られる単語ベクトルの関連よりも類似しているため、第2のデータは素材コンテンツデータAと関連付けられる。なお、素材コンテンツデータの抽出情報は、ユーザが予め抽出して素材コンテンツデータ記憶部164に記憶したものであってもよく、後述の分類器170により抽出されたものであってもよい。また、上記類似度の判定は、単語ベクトルを学習した学習済モデルを用意し、そのベクトルを利用してコサイン類似度やWord Mover’s Distanceなどの方法により単語の類似度を判定してもよい。
 素材コンテンツデータは、例えば、画像データや、動画データ、音データ(例えば、音楽データ、音声データ、効果音など)などであり得るが、これに限定されない。また、素材コンテンツデータは、ユーザまたは管理者が素材コンテンツデータ記憶部164に格納するものであってもよいし、ネットワーク上から、素材コンテンツデータを取得し、素材コンテンツデータ記憶部164に格納するものであってもよい。
 素材コンテンツデータ割り当て部144は、上述の関連付けに基づき、対応する第2のデータが割り当てられたカットに、適した素材コンテンツデータを割り当てる。
 インターフェース情報記憶部168は、管理者端末2若しくはユーザ端末3の表示部(ディスプレイ等)に表示するための各種制御情報を格納している。
 分類器170は、学習データを学習データ記憶部(不図示)から取得し、機械学習させることで、学習済モデルとして作成される。分類器170の作成は、定期的に行われる(例えば、年に数回程度)。分類器作成用の学習データは、ネットワークから収集したデータやユーザ保有のデータにクラスラベルをつけたものを利用してもよいし、クラスラベルのついたデータセットを調達して利用してもよい。そして、分類器170は、例えば、畳み込みニューラルネットワークを利用した学習済モデルであり、素材コンテンツデータを入力すると、1つまたは複数の抽出情報(例えば、クラスラベルなど)を抽出する。分類器170は、例えば、素材コンテンツデータに関連するオブジェクトを表すクラスラベル(例えば、魚介、焼肉、人物、家具)を抽出する。
 図6は、複合コンテンツデータを作成する流れの一例を説明する図である。
 まず、サーバ1は、少なくとも被識別情報を含む第1のデータをユーザ端末3より通信部110を介して受け付ける(ステップS101)。本例においては、被識別情報は、例えば一以上の単語であり、第1のデータは、例えば一以上の単語を含む記事からなるテキストデータまたはそのテキストデータを要約したものであり得る。
 次に、サーバ1は、複合コンテンツデータ生成部140により、一以上のカットを含むベースデータをベースデータ記憶部162から読み出す(ステップS102)。本例においては、ベースデータは、例えば複数の空白カットを含むものであってもよいし、所定の素材コンテンツデータや書式情報などが各カットに設定済みのテンプレートデータ(例えば、音楽データや背景画像、フォント情報など)であってもよい。
 次に、サーバ1は、被識別情報解析部120により、第1のデータを解析して被識別情報を取得し、第2のデータ生成部130により、被識別情報の少なくとも一部を含む一以上の第2のデータを生成する(ステップS103)。第2のデータは、ベースデータの各カットの最大文字数及び文節間の修飾関係を解析し、文章として自然な区間が各カットに収まるように文を区切った個々のテキストデータであり得る。
 次に、サーバ1は、第2のデータ割り当て部により、第2のデータをカットに割り当てる(ステップS104)。なお、この状態のベースデータをユーザ端末3にて表示をするようにして、経過を確認可能にしてもよい。
 次に、サーバ1は、第2のデータに含まれる被識別情報の少なくとも一部と、素材コンテンツデータから抽出された抽出情報に基づき、関連付け部150により、素材コンテンツデータ記憶部164の素材コンテンツデータと第2のデータとを互いに関連付けし(ステップS105)、素材コンテンツデータ割り当て部144によりその素材コンテンツデータをカットに割り当てる(ステップS106)。
 そして、サーバ1は、第2のデータ及び素材コンテンツデータが割り当てられたベースデータを複合コンテンツデータとして生成するとともに複合コンテンツデータ記憶部166に記憶し、ユーザ端末3に複合コンテンツデータを表示する(ステップS107)。なお、複合コンテンツデータの表示は、図7に例示するように、複合コンテンツデータを構成する複数のカットを画面上に一覧表示することができる。各カットには、表示される素材コンテンツデータおよび第2データと共に各カットの再生時間(秒数)の情報も表示されてもよい。ユーザは、例えば、第2のデータフィールド31や対応するボタンをクリックすることで、その内容を修正することができ、素材コンテンツデータフィールド32や対応するボタンをクリックすることで素材コンテンツデータを差し替えることができる。さらに、他の素材コンテンツデータをユーザがユーザ端末から各シーンに追加することも可能である。
 なお、上述の複合コンテンツデータを作成する流れは一例であり、例えば、ベースデータを読み出すためのステップS102は、第2のデータまたは素材コンテンツデータの割り当てまでに読み出されていればいつ実行されていてもよい。また、例えば、第2のデータの割り当てのためのステップS104と、関連付けのためのステップS105と、素材コンテンツデータの割り当てのためのステップS106の順番も、互いに齟齬が生じなければ何れの順番で実行されてもよい。
 また、これまで説明した被識別情報解析部120及び関連付け部150、分類器170を用いた素材コンテンツデータ設定部190は、複合コンテンツデータ作成システムの1つの設定機能であってもよく、素材コンテンツデータ設定部190による設定方法はこれに限らず、例えば、従来の複合コンテンツデータ作成システムと同様に、ユーザ端末からユーザが各データフィールドの全てまたは一部に対して任意の素材コンテンツを設定可能にしてもよいし、例えば第2のデータフィールド31にユーザがユーザ端末により任意のテキストを入力し、これらのテキストから上述のように被識別情報を抽出して素材コンテンツを関連付けるといったように、ユーザ操作と組み合わせた設定方法であってもよい。
(音データ設定機能)
 図8~図13を参照しながら、複合コンテンツデータにおける音データに関する様々な設定方法例について説明する。
 図8は、複合コンテンツデータに音データに関するデータ構造の一例を説明する図である。ここでいう音データとは、例えば、音楽データやナレーション等の音声データ、効果音、環境音データなどを含む。
 複合コンテンツデータは、上述のとおり、例えばシーン1-5といったように複数のカットにより構成され得る。図8の例示においては、シーン1-4においては動画素材データが素材コンテンツデータとして設定されているため、動画素材データの音データが複合コンテンツデータの各シーンに含まれることとなる。なお、シーン5では、例えば画像データの音データを含まない素材コンテンツデータが背景画像として設定されていてもよい。
 そして、図8の例示においては、各シーンにおいて、ユーザがユーザ端末より選択した音データ、または、被識別情報と関連付け可能なタグ情報が付された音データなどが音素材データとして一以上選択することが可能であり、例えばシーン2、5では素材音データが複数選択されており、シーン4では一つも選択されていない。
 さらに、図8の例示においては、例えばシーン1-5を通して流れる全体音データも設定可能であり、後述のとおり、各シーンにおいてその音量が設定可能である。
 図9には、例えばユーザ端末のWebブラウザ上に表示される複合コンテンツデータ編集画面900が示されており、全体音データの音量を設定するための全体音データ音量設定部910や、各シーンに関する情報を表示し、各シーンの編集画面へ移行するためのリンクなどを有するシーン情報表示部920がさらに示されている。この全体音データ音量設定部910により、複合コンテンツデータに設定された全体音データの音量を設定可能である。
 また、図10に例示されるように、全体音データ音量設定部910において、全体調整用のリンク912をユーザがユーザ端末にて選択することによって、全体音データ音量調整画面920が例えば別ウィンドウとして表示される。全体音データ音量調整画面920においては、全体音データ音量設定部910に対応する全体音データ音量設定部930を有するとともに、さらに各シーンにおいての音量を設定するための全体音データシーン音量設定部940をシーン数に対応する数有している。この全体音データシーン音量設定部940は、例えば全体音データ音量設定部930において設定された音量を、各シーンにおいていずれの割合で再生するかを設定するものであってもよい。これにより、複合コンテンツデータ全体に対する全体音データを設定した場合に、各シーンのコンセプト(例えば静かなシーンや元気のあるシーンなど)にあった音量を設定可能であったり、例えば図10に例示されるシーン2のように全体音データの音量をオフとして、動画素材データの音データや音素材データのみを視聴可能に設定するなど、ユーザの希望にあわせて柔軟に設定することが可能となり、簡便でありながら質の高い複合コンテンツデータを作成することが可能となります。
 図11には、例えばユーザ端末のWebブラウザ上に表示されるシーン編集画面1100が示されており、全体音データシーン音量設定部940に対応する全体音データシーン音量設定部1110や、動画素材データの音データの音量を設定する動画素材音データ音量設定部1120、例えば音楽データや音声データ等の音素材データの音量を設定する音素材データ音量設定部1130、1140がさらに示されている。ここで、例えば音楽データや音声データ等の音だけが再生される音素材データである場合には音素材データ音量設定部1130に示されるように音データのタイトル等のテキスト名が表示されているが、例えば動画素材データから抽出した音データを音素材データとして設定する場合には、音素材データ音量設定部1140に示されるように、動画素材データのサムネイル画像であったり、動画素材データから抽出したことを示す画像など、音素材データ音量設定部1130とは互いに異なる表示にすると両者の区別がつきやすいが、これに限らず、いずれも音データのタイトル等のテキスト名で表示してもよい。また、動画素材データから抽出した音データについては、動画素材データとして本システムに記憶する際に、併せて音データも抽出して記憶するようにしてもよい。なお、動画素材データから音データを抽出する際には、既知の方法を用いて実行されてもよい。
 これにより、各シーンにおいて、様々な音データを総合的に設定することが可能となるため、ユーザの希望にあわせて柔軟に設定することが可能となり、簡便でありながら質の高い複合コンテンツデータを作成することが可能となります。また、シーンごとに編集することにより、例えばタイムライン等で俯瞰的に全てのデータを一度に設定するよりも、ユーザの選択対象や検討対象が限定され、ユーザにとって簡便な複合コンテンツデータ編集のユーザインタフェースを提供することが可能となります。
 また、図12に示されるように、各音データは、各シーンにおいて規定される再生時間に合わせて、ユーザが音データにおける再生範囲(例えば、音データにおける開始時間と終了時間)を設定するためのトリミング部1200が提供されてもよい。
 図13は、全体音データの一部をミュート(音量ゼロ)に設定した際のエフェクトについて説明する図である。例えば、シーン2をミュート設定とした場合には、前のシーン1の全体音データの音量に対して、例えばフェードアウトのように徐々に音量が小さくなってシーンが切り替わるようなエフェクトをデフォルトでエフェクト設定部により設定するようにしてもよい。これにより、シーンの切り替わり時に音データがブツ切りになるユーザの違和感を軽減することが可能である。また、最後のシーン3においても同様のエフェクトをデフォルトで設定してもよく、シーン途中でのエフェクトに比べて長く設定する(例えば、シーン途中だと10フレーム分のエフェクトを設定するが、最後のシーン終了部分には30フレーム分のエフェクトを設定するなど)ことで、より自然に複合コンテンツデータの再生終了を演出することができる。なお、上記ミュートに関する目的に限らず、エフェクト設定部においては、各カットのあらゆる部分に対してエフェクト(例えば、フェード、ディレイ、エコー、リバーブなど)が設定可能であってもよいし、デフォルト設定ではなくユーザがシーン編集画面等からエフェクト設定部によりエフェクト設定が可能であってもよい。
 以上に説明した実施形態例の本システムによれば、編集用ソフト、サーバ、専門技術を持った編集者などを自前で揃えなくとも、簡単に複合コンテンツデータを作成することが可能となる。例えば、下記のような場面での活用が想定される。
 1)ECショップで販売している商品情報の動画化
 2)プレスリリース情報、CSR情報などを動画で配信
 3)利用方法・オペレーションフローなどのマニュアルを動画化
 4)動画広告として活用できるクリエイティブを制作
 以上、本発明の好ましい実施形態例について説明したが、本発明の技術的範囲は上記実施形態の記載に限定されるものではない。上記実施形態例には様々な変更・改良を加えることが可能であり、そのような変更または改良を加えた形態のものも本発明の技術的範囲に含まれる。
1 サーバ
2 管理者端末
3 ユーザ端末

 

Claims (9)

  1.  複数のカットを含むベースデータの各カットに対して、一以上の素材コンテンツデータを設定する素材コンテンツデータ設定部と、
     前記ベースデータの全体を通して設定された全体音データのうち、前記カットごとに対応する前記全体音データの一部を個別に音量設定する全体音データシーン音量設定部と、
     前記ベースデータに基づき複合コンテンツデータを生成する複合コンテンツデータ生成部と、を備える、
     ことを特徴とするサーバ。
  2.  請求項1に記載のサーバであって、
     さらに、前記全体音データの全体を通した音量を設定する全体音データ音量設定部を備え、
     前記全体音データシーン音量設定部は、前記カットごとに前記全体音データ音量設定部により設定された音量に対する音量の増減割合を設定する、を備える、
     ことを特徴とするサーバ。
  3.  請求項1または2のいずれかに記載のサーバであって、
     さらに、前記カットごとに設定された音素材データの音量を設定する音素材データ音量設定部と、を備える、
     ことを特徴とするサーバ。
  4.  請求項1ないし3のいずれかに記載のサーバであって、
     さらに、前記カットごとに設定された動画素材データの音データの音量を設定する動画素材音データ音量設定部と、を備える、
     ことを特徴とするサーバ。
  5.  請求項1ないし4のいずれかに記載のサーバであって、
     さらに、第1のカットに設定した音データの音量をミュートにした場合に、前記第1のカットの前の第2のカットの音データの音量に対してエフェクトを設定するエフェクト設定部と、を備える、
     ことを特徴とするサーバ。
  6.  請求項1ないし5のいずれかに記載のサーバであって、
     さらに、前記素材コンテンツデータとして動画素材データを記憶する際に、当該動画素材データの音データを抽出して当該音データも前記素材コンテンツデータとして記憶する素材コンテンツデータ記憶部と、を備える、
     ことを特徴とするサーバ。
  7.  複数のカットを含むベースデータの各カットに対して、一以上の素材コンテンツデータを設定する素材コンテンツデータ設定部と、
     前記ベースデータの全体を通して設定された全体音データのうち、前記カットごとに対応する前記全体音データの一部を個別に音量設定する全体音データシーン音量設定部と、
     前記ベースデータに基づき複合コンテンツデータを生成する複合コンテンツデータ生成部と、を備える、
     ことを特徴とする複合コンテンツデータ作成システム。
  8.  素材コンテンツデータ設定部により、複数のカットを含むベースデータの各カットに対して、一以上の素材コンテンツデータを設定するステップと、
     全体音データシーン音量設定部により、前記ベースデータの全体を通して設定された全体音データのうち、前記カットごとに対応する前記全体音データの一部を個別に音量設定するステップと、
     複合コンテンツデータ生成部により、前記ベースデータに基づき複合コンテンツデータを生成するステップと、を含む、
     ことを特徴とする複合コンテンツデータ作成方法。
  9.  複合コンテンツデータ作成方法をコンピュータに実行させるプログラムであって、
     前記複合コンテンツデータ作成方法は、
     素材コンテンツデータ設定部により、複数のカットを含むベースデータの各カットに対して、一以上の素材コンテンツデータを設定するステップと、
     全体音データシーン音量設定部により、前記ベースデータの全体を通して設定された全体音データのうち、前記カットごとに対応する前記全体音データの一部を個別に音量設定するステップと、
     複合コンテンツデータ生成部により、前記ベースデータに基づき複合コンテンツデータを生成するステップと、を含む、
     ことを特徴とするプログラム。

     
PCT/JP2020/025589 2020-06-29 2020-06-29 サーバおよび複合コンテンツデータ作成システム、複合コンテンツデータ作成方法、プログラム WO2022003798A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022533294A JPWO2022003798A1 (ja) 2020-06-29 2020-06-29
PCT/JP2020/025589 WO2022003798A1 (ja) 2020-06-29 2020-06-29 サーバおよび複合コンテンツデータ作成システム、複合コンテンツデータ作成方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/025589 WO2022003798A1 (ja) 2020-06-29 2020-06-29 サーバおよび複合コンテンツデータ作成システム、複合コンテンツデータ作成方法、プログラム

Publications (1)

Publication Number Publication Date
WO2022003798A1 true WO2022003798A1 (ja) 2022-01-06

Family

ID=79315801

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/025589 WO2022003798A1 (ja) 2020-06-29 2020-06-29 サーバおよび複合コンテンツデータ作成システム、複合コンテンツデータ作成方法、プログラム

Country Status (2)

Country Link
JP (1) JPWO2022003798A1 (ja)
WO (1) WO2022003798A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11120187A (ja) * 1997-10-09 1999-04-30 Nippon Telegr & Teleph Corp <Ntt> マルチメディアデータ管理・提示方法及び装置及びマルチメディアデータ管理・提示プログラムを格納した記憶媒体
JP2020096373A (ja) * 2020-03-05 2020-06-18 株式会社オープンエイト サーバおよびプログラム、動画配信システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11120187A (ja) * 1997-10-09 1999-04-30 Nippon Telegr & Teleph Corp <Ntt> マルチメディアデータ管理・提示方法及び装置及びマルチメディアデータ管理・提示プログラムを格納した記憶媒体
JP2020096373A (ja) * 2020-03-05 2020-06-18 株式会社オープンエイト サーバおよびプログラム、動画配信システム

Also Published As

Publication number Publication date
JPWO2022003798A1 (ja) 2022-01-06

Similar Documents

Publication Publication Date Title
CN102256049B (zh) 自动化故事生成
US9213705B1 (en) Presenting content related to primary audio content
US20150261419A1 (en) Web-Based Video Navigation, Editing and Augmenting Apparatus, System and Method
JP5634853B2 (ja) 電子コミックのビューワ装置、電子コミックの閲覧システム、ビューワプログラム、ならびに電子コミックの表示方法
JP2020005309A (ja) 動画編集サーバおよびプログラム
CN112995736A (zh) 语音字幕合成方法、装置、计算机设备及存储介质
WO2019245033A1 (ja) 動画編集サーバおよびプログラム
JP2020065307A (ja) サーバおよびプログラム、動画配信システム
US10691871B2 (en) Devices, methods, and systems to convert standard-text to animated-text and multimedia
US20160217828A1 (en) Method and system for automatic generation of an animated message from one or more images
JP6730760B2 (ja) サーバおよびプログラム、動画配信システム
JP6903365B1 (ja) サーバおよびデータ割り当て方法
Chi et al. Synthesis-Assisted Video Prototyping From a Document
JP6603929B1 (ja) 動画編集サーバおよびプログラム
WO2022003798A1 (ja) サーバおよび複合コンテンツデータ作成システム、複合コンテンツデータ作成方法、プログラム
JP2006050469A (ja) コンテンツ生成装置、コンテンツ生成方法、プログラムおよび記録媒体
JP2007079736A (ja) データ編集装置、データ編集方法およびデータ編集プログラム
JP6979738B1 (ja) サーバおよびアニメーション推薦システム、アニメーション推薦方法、プログラム
WO2022201236A1 (ja) サーバおよびシステム、画像切り抜き方法、プログラム
US20150371423A1 (en) Means and methods of transforming a fictional book into a computer generated 3-D animated motion picture ie “Novel&#39;s Cinematization”
JP2005141424A (ja) 情報処理方法及び情報処理装置
KR102636708B1 (ko) 프레젠테이션 문서에 대한 수어 발표 영상을 제작할 수 있는 전자 단말 장치 및 그 동작 방법
US20060230069A1 (en) Media transmission method and a related media provider that allows fast downloading of animation-related information via a network system
JP2020065308A (ja) サーバおよびプログラム
JP2023137704A (ja) ハイライト動画生成システム、ハイライト動画生成方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20943174

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022533294

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20943174

Country of ref document: EP

Kind code of ref document: A1