WO2022201236A1 - サーバおよびシステム、画像切り抜き方法、プログラム - Google Patents

サーバおよびシステム、画像切り抜き方法、プログラム Download PDF

Info

Publication number
WO2022201236A1
WO2022201236A1 PCT/JP2021/011671 JP2021011671W WO2022201236A1 WO 2022201236 A1 WO2022201236 A1 WO 2022201236A1 JP 2021011671 W JP2021011671 W JP 2021011671W WO 2022201236 A1 WO2022201236 A1 WO 2022201236A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
data
saliency
image data
clipping
Prior art date
Application number
PCT/JP2021/011671
Other languages
English (en)
French (fr)
Inventor
孝弘 坪野
タン ハン ファン
美帆 折坂
Original Assignee
株式会社オープンエイト
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社オープンエイト filed Critical 株式会社オープンエイト
Priority to PCT/JP2021/011671 priority Critical patent/WO2022201236A1/ja
Publication of WO2022201236A1 publication Critical patent/WO2022201236A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/27Server based end-user applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor

Definitions

  • the present invention relates to a server and system, an image clipping method, and a program.
  • Patent Document 1 proposes a moving image processing apparatus that efficiently searches for a desired scene image from a moving image having a plurality of chapters.
  • the main inventions of the present invention for solving the above problems are a saliency information creating unit that creates saliency information of image data, a composition information setting unit that sets composition information, a saliency information of the image data and the
  • the server comprises: a clipping range setting unit for setting a clipping range for the image data based on set composition information; and a clipping unit for clipping the image data based on the clipping range.
  • FIG. 1 is a configuration diagram of a system according to an embodiment
  • FIG. 1 is a configuration diagram of a server according to an embodiment
  • FIG. 3 is a configuration diagram of a management terminal and a user terminal according to an embodiment
  • FIG. 1 is a functional block diagram of a system according to an embodiment
  • FIG. FIG. 4 is a diagram for explaining an example screen layout that constitutes a cut
  • 4 is a flow chart of a system according to an example embodiment
  • FIG. 10 is an explanatory diagram of an aspect of displaying a list of a plurality of cuts forming composite content data on a screen
  • FIG. 10 is a diagram illustrating an image clipping method according to an embodiment
  • FIG. 3 shows an example original image for saliency-based detection
  • FIG. 10 illustrates an example of saliency object detection for the image of FIG. 9
  • FIG. 10 shows an example of saliency map detection for the image of FIG. 9
  • FIG. 10 illustrates an example of hybrid saliency map detection for the image of FIG. 9
  • 4 is a diagram illustrating an example of composition information according to an embodiment
  • a server or the like has the following configuration.
  • [Item 1] a saliency information creation unit that creates saliency information of image data; a composition information setting unit for setting composition information; a clipping range setting unit that sets a clipping range for the image data based on the saliency information of the image data and the set composition information; a clipping unit for clipping the image data based on the clipping range;
  • a server characterized by: [Item 3] The server according to item 1, wherein the saliency information is obtained by saliency map detection;
  • a server characterized by: [Item 4] The server according to item 1, wherein the saliency information is obtained by saliency object detection;
  • An image clipping method characterized by: [Item 9]
  • this system A system for creating composite content data (hereinafter referred to as "this system") and the like according to an embodiment of the present invention will now be described.
  • this system A system for creating composite content data (hereinafter referred to as "this system") and the like according to an embodiment of the present invention.
  • this system A system for creating composite content data (hereinafter referred to as "this system") and the like according to an embodiment of the present invention.
  • this system A system for creating composite content data (hereinafter referred to as "this system") and the like according to an embodiment of the present invention.
  • this system A system for creating composite content data (hereinafter referred to as "this system") and the like according to an embodiment of the present invention will now be described.
  • this system the same or similar elements are denoted by the same or similar reference numerals and names, and duplicate descriptions of the same or similar elements may be omitted in the description of each embodiment.
  • the features shown in each embodiment can be applied to other embodiments as long as they are not mutually contradictory.
  • the system includes a server 1, an administrator terminal 2, and a user terminal 3.
  • FIG. 1 The server 1, the administrator terminal 2, and the user terminal 3 are communicably connected to each other via a network.
  • the network may be a local network or may be connectable to an external network.
  • the server 1 is composed of one unit is described, but it is also possible to realize the server 1 using a plurality of server devices.
  • the server 1 and the administrator terminal 2 may be shared.
  • FIG. 2 is a diagram showing the hardware configuration of the server 1 shown in FIG. 1. As shown in FIG. Note that the illustrated configuration is an example, and other configurations may be employed. Also, the server 1 may be a general-purpose computer such as a workstation or a personal computer, or may be logically realized by cloud computing.
  • the server 1 includes at least a processor 10 , a memory 11 , a storage 12 , a transmission/reception section 13 , an input/output section 14 and the like, which are electrically connected to each other through a bus 15 .
  • the processor 10 is an arithmetic device that controls the overall operation of the server 1, controls transmission and reception of data between elements, executes applications, and performs information processing necessary for authentication processing.
  • the processor 10 is a CPU (Central Processing Unit) and a GPU (Graphics Processing Unit), and executes programs for this system stored in the storage 12 and developed in the memory 11 to perform each information process. It should be noted that the processing capability of the processor 10 only needs to be sufficient for executing necessary information processing, so for example, the processor 10 may be composed only of a CPU, and is not limited to this.
  • the memory 11 includes a main memory composed of a volatile memory device such as a DRAM (Dynamic Random Access Memory), and an auxiliary memory composed of a non-volatile memory device such as a flash memory or a HDD (Hard Disc Drive). .
  • the memory 11 is used as a work area or the like for the processor 10, and may store a BIOS (Basic Input/Output System) executed when the server 1 is started, various setting information, and the like.
  • BIOS Basic Input/Output System
  • the storage 12 stores various programs such as application programs.
  • a database storing data used for each process may be constructed in the storage 12 .
  • the transmission/reception unit 13 connects the server 1 to the network.
  • the input/output unit 14 is an information input device such as a keyboard and mouse, and an output device such as a display.
  • a bus 15 is commonly connected to the above elements and transmits, for example, address signals, data signals and various control signals.
  • the administrator terminal 2 and the user terminal 3 shown in FIG. 3 also include a processor 20, a memory 21, a storage 22, a transmission/reception section 23, an input/output section 24, etc. These are electrically connected to each other through a bus 25. . Since the function of each element can be configured in the same manner as the server 1 described above, detailed description of each element will be omitted.
  • the administrator uses the administrator terminal 2 to, for example, change the settings of the server 1 and manage the operation of the database.
  • a user can access the server 1 from the user terminal 3 to create or view composite content data, for example.
  • FIG. 4 is a block diagram illustrating functions implemented in the server 1.
  • the server 1 includes a communication unit 110, an identified information analysis unit 120, a second data generation unit 130, a composite content data generation unit 140, an association unit 150, a storage unit 160, a classifier 170, an image A cutout 180 is provided.
  • Composite content data generator 140 includes base data generator 142 , second data allocation unit 144 , and material content data allocation unit 146 .
  • the storage unit 160 includes storage areas such as the memory 11 and the storage 11, and includes a base data storage unit 161, a material content data storage unit 163, a composite content data storage unit 165, an interface information storage unit 167, and composition information.
  • the image clipping unit 180 includes an image accepting unit 181 , a saliency information creating unit 183 , a composition information setting unit 185 , a clipping range setting unit 187 and a clipping unit 189 .
  • the material content data setting unit 190 is executed by the processor 10, for example, although it will be described later.
  • the communication unit 110 communicates with the administrator terminal 2 and the user terminal 3.
  • the communication unit 110 also functions as a reception unit that receives first data including information to be identified, for example, from the user terminal 3 .
  • the first data is, for example, text data such as articles containing information to be identified (for example, press releases, news, etc.), image data containing information to be identified (for example, photographs, illustrations, etc.), or video data. , voice data including information to be identified, and the like.
  • the text data here is not limited to text data at the time of transmission to the server 1, but may be text data generated by a known voice recognition technique from voice data transmitted to the server 1, for example.
  • the first data may be text data such as articles, etc., summarized by existing automatic summarization technology such as extractive summary or generative summary (including information to be identified).
  • extractive summary or generative summary (including information to be identified).
  • generative summary including information to be identified.
  • the audio data referred to here is not limited to audio data acquired by an input device such as a microphone, but may be audio data extracted from video data or audio data generated from text data.
  • audio data such as narration and lines are extracted from temporary images such as rough sketches and temporary moving images such as temporary video, and composite content is extracted along with material content data based on the audio data as will be described later.
  • Data may be generated.
  • voice data may be created from text data with a story, and in the case of fairy tales, for example, a picture-story show or moving image based on the read-out story and material content data may be generated as composite content data.
  • the second data generation unit 130 determines that it is not necessary to divide the first data (for example, the text data is a short sentence with a preset number of characters or less), the second data generation unit 130 The data generator 130 generates the first data as it is as the second data.
  • the second data generation unit 130 divides the first data.
  • the data is divided and generated as second data each including at least part of the information to be identified of the first data.
  • division number information of the second data is also generated. Any known technique may be used for the method of dividing the first data by the second data generation unit 130. For example, if the first data can be converted into text, Based on the analysis results of the maximum number of characters in each cut of the base data and the modification relationship between clauses, sentences may be separated so that a natural section as a sentence fits into each cut.
  • the identified information analysis unit 120 analyzes the second data described above and acquires identified information.
  • the information to be identified may be any information as long as it can be analyzed by the information to be identified analysis unit 120 .
  • the identified information may be in word form defined by a language model. More specifically, it may be one or more words (for example, "Shibuya, Shinjuku, Roppongi” or "Shibuya, Landmark, Teen”) accompanied by a word vector, which will be described later.
  • the words may include words that are not usually used alone, such as "n", depending on the language model.
  • a feature vector extracted from a document, an image, or a moving image may be used instead of the above-described word format.
  • the composite content data generation unit 140 generates base data including the number of cuts (one or more cuts) according to the division number information of the second data generated by the second data generation unit 130 described above. and the material content data newly input from the user terminal 3 and/or the material content data stored in the material content data storage unit 163 and the base data in which the above-described second data is assigned to each cut are combined.
  • the composite content data is generated as content data, stored in the composite content data storage unit 165 , and displayed on the user terminal 3 . It should be noted that FIG. 5 is an example of a screen layout of cuts that constitute the base data.
  • Edited second data (for example, delimited text sentences) is inserted in a second data field 31 in the figure, and selected material content data is inserted in a material content data field 32 .
  • the preset maximum number of characters in the case of text data
  • screen layout in the case of moving images
  • playback time in the case of moving images
  • composite content data does not necessarily need to be stored in the composite content data storage unit 165, and may be stored at appropriate timing.
  • the base data to which only the second data is assigned may be displayed on the user terminal 3 as progress information of the composite content data.
  • the second data allocation unit 144 assigns numbers to the one or more cuts generated by the base data generation unit 142 described above, such as scene 1, scene 2, scene 3, or cut 1, cut 2, cut 3, for example.
  • the second data are sequentially assigned in this numerical order.
  • the association unit 150 compares at least part of the information to be identified included in the second data described above with, for example, extracted information extracted from the material content data (for example, class labels extracted by the classifier), For example, mutual similarity or the like is determined, and material content data suitable for the second data (for example, data having a high degree of similarity) and the second data are associated with each other.
  • material content data A for example, an image of a woman
  • identified information included in the second data represents "teacher” and extracted information is "face” and "mountain”.
  • is prepared for example, an image of Mt.
  • the relationship between the word vector obtained from “teacher” and the word vector obtained from “face” is the word vector obtained from "teacher” and
  • the second data is associated with the material content data A because it is more similar than the association of word vectors obtained from "mountain”.
  • the extraction information of the material content data may be extracted in advance by the user and stored in the material content data storage unit 163, or may be extracted by the classifier 170, which will be described later.
  • the above similarity determination may be performed by preparing a trained model that has learned word vectors, and using the vectors to determine the similarity of words by a method such as cosine similarity or Word Mover's Distance.
  • Material content data can be, for example, image data, video data, sound data (eg, music data, voice data, sound effects, etc.), but is not limited to this.
  • the material content data may be stored in the material content data storage unit 163 by the user or administrator, or may be acquired from the network and stored in the material content data storage unit 163. may be
  • the material content data allocation unit 146 allocates suitable material content data to cuts to which the corresponding second data is allocated, based on the above-described association.
  • the interface information storage unit 167 stores various control information to be displayed on the display unit (display, etc.) of the administrator terminal 2 or the user terminal 3.
  • the classifier 170 acquires learning data from a learning data storage unit (not shown) and performs machine learning to create a trained model. Creation of the classifier 170 occurs periodically.
  • the learning data for creating a classifier may be data collected from the network or data owned by the user with class labels attached, or a data set with class labels may be procured and used. .
  • the classifier 170 is, for example, a trained model using a convolutional neural network, and upon input of material content data, extracts one or a plurality of extracted information (eg, class labels, etc.).
  • the classifier 170 for example, extracts class labels representing objects associated with the material content data (eg, seafood, grilled meat, people, furniture).
  • FIG. 6 is a diagram explaining an example of the flow of creating composite content data.
  • the server 1 receives first data including at least identification information from the user terminal 3 via the communication unit 110 (step S101).
  • the identified information is, for example, one or more words
  • the first data may be, for example, text data consisting of an article containing one or more words or a summary of the text data.
  • the server 1 acquires identified information by analyzing the first data by the identified information analysis unit 120, and generates one or more data containing at least part of the identified information by the second data generation unit 130. Second data and division number information are generated (step S102).
  • the server 1 causes the base data generation section 142 to generate the base data including the number of cuts according to the division number information by the composite content data generation section 140 (step S103).
  • the server 1 allocates the second data to the cut by the second data allocation unit (step S104).
  • the base data in this state may be displayed on the user terminal 3 so that the progress can be checked.
  • the server 1 causes the association unit 150 to extract the material content data in the material content data storage unit 163. and the second data (step S105), and the material content data allocation unit 146 allocates the material content data to the cut (step S106).
  • the server 1 generates the base data to which the second data and the material content data are assigned as composite content data, stores the composite content data in the composite content data storage unit 165, and displays the composite content data on the user terminal 3 (step S107).
  • a list of a plurality of cuts forming the composite content data can be displayed on the screen.
  • information on the playback time (in seconds) of each cut may also be displayed.
  • the user can, for example, correct the content by clicking the second data field 31 or the corresponding button, and replace the material content data by clicking the material content data field 32 or the corresponding button. can be done.
  • step S102 for reading the base data may be executed as long as it has been read before the assignment of the second data or material content data.
  • step S104 for assigning the second data, step S105 for association, and step S106 for assigning material content data are executed in any order if there is no discrepancy with each other.
  • the material content data setting unit 190 using the identified information analysis unit 120, the association unit 150, and the classifier 170 described so far may be one setting function of the composite content data creation system.
  • the setting method by the setting unit 190 is not limited to this.
  • the base data is generated by the base data generation unit 142 in the above example, but it may be read from the base data storage unit 161 instead.
  • the read-out base data may include, for example, a predetermined number of blank cuts, or template data in which predetermined material content data, format information, etc. have been set for each cut (for example, music data, background data, etc.). image, font information, etc.) may be used.
  • the user may be able to set any material content to all or part of each data field from the user terminal.
  • a setting method may be combined with a user operation, such as a user inputting arbitrary text using a user terminal, extracting information to be identified from these texts as described above, and associating material content.
  • image clipping function An example of an image clipping method by the image clipping unit 180 will be described with reference to FIGS. 8 to 13.
  • FIG. For example, in step S106 described above, when material content data is assigned to a cut, the image clipping method is appropriately executed according to prior settings, selection by the user, and the like.
  • FIG. 8 is a diagram explaining an example of the flow of image clipping.
  • the server 1 receives image data as material content data from the image reception unit 181 (step S201).
  • acceptance of image data is not limited to user input from the user terminal 3 , and acceptance of image data selected by the server 1 by the association unit 150 is also included.
  • a saliency determination model is a trained model of saliency obtained by a known learning method such as saliency object detection in FIG. 10 or saliency map detection in FIG.
  • FIG. 10 shows an example using a saliency object detection model, which can be implemented by a known method such as an encoder-decoder model.
  • a saliency object detection model is used for the animal image shown in FIG. 9, a result of detecting the shape of the animal as shown in FIG. 10 is obtained.
  • FIG. 11 shows an example using a saliency map detection model, which can be realized by a known method such as a trained model using a convolutional neural network.
  • a saliency map detection model which can be realized by a known method such as a trained model using a convolutional neural network.
  • the position of the clipping frame may be a portion that the user does not intend.
  • the saliency map detection of FIG. 11 since the whole image of the object is unknown, a portion unintended by the user may be the position of the clipping frame.
  • a hybrid saliency map detection model that combines saliency object detection and saliency map detection is used to acquire saliency information. , it is possible to capture the information of both of the visually conspicuous parts and improve the accuracy of the clipping frame setting.
  • the accuracy of saliency detection is affected by the image quality, for example, as a step before step S202, by combining known super-resolution techniques, the resolution of the image is first increased, and then the saliency is detected. By performing the detection, the accuracy of the saliency information can be further improved.
  • the composition information setting unit 185 sets composition information indicating where in the clipping range the portion with high salience in the saliency information of the image data should be positioned for high aesthetics as a photograph (step S203).
  • the composition information may be stored in the composition information storage unit 169, and may be, for example, center bias, rule of thirds, or a combination thereof, as shown in FIG. 13, but is limited to these. Instead, it may be a known composition (for example, a composition showing the golden ratio, etc.).
  • the setting of composition information for example, a configuration in which the user sets arbitrary composition information from one or more pieces of composition information presented to the user terminal 3, or an image type associated with image data (for example, person, animal, landscape, etc.).
  • the composition information is selected based on the distribution of the saliency information and the distribution of the composition information (for example, the composition with the highest overlapping ratio). good.
  • the image type may be set by the user from the user terminal 3, or may be automatically set by image analysis or the like.
  • the clipping range setting unit 187 sets the clipping range of the image data based on the above-described saliency information and composition information (step S204).
  • the size of the clipping range may be set to an arbitrary size by the user from the user terminal 3, or may be set to a default value.
  • the clipping range is set so that the portion with the highest saliency in the saliency map information is positioned at the center based on the center bias, as shown in FIG.
  • the clipping range is set so that the animal's face is positioned at the center.
  • the clipping ranges can be set with only the information of the portion with the highest saliency in the saliency map information.
  • the clipping range is set so that the animal's face is positioned at the upper right or upper left point in the rule of thirds by judging the overlap between the overall distribution of information and the distribution of composition information.
  • the clipping range is set so as to form a composition in which faces are lined up on the left and right. be.
  • the clipping range setting unit 187 by setting the clipping range using the saliency information and the composition information by the clipping range setting unit 187, the margins that are not considered only by the saliency information (for example, in the animal image illustrated in FIG. 9 If there is, the margin above the face, etc.) is formed in the clipped image, so it is possible to set the clipping range at a highly aesthetic position with respect to the image data.
  • the clipping unit 189 performs clipping on the clipping range set by the clipping range setting unit 187 to generate a clipped image (step S205).

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】複合コンテンツデータを簡便に作成することを可能とする、特に画像に対して適切な画像の切り抜きを可能とするサーバ等を提供すること。 【解決手段】画像データの顕著性情報を作成する顕著性情報作成部と、構図情報を設定する構図情報設定部と、前記画像データの顕著性情報及び前記設定された構図情報に基づき前記画像データに対する切り抜き範囲を設定する切り抜き範囲設定部と、前記切り抜き範囲に基づき前記画像データを切り抜く切り抜き部と、を備える、ことを特徴とするサーバおよびシステム、画像切り抜き方法、プログラム。

Description

サーバおよびシステム、画像切り抜き方法、プログラム
 本発明は、サーバおよびシステム、画像切り抜き方法、プログラムに関する。
 従来から、動画等コンテンツデータ作成が行われており、例えば、特許文献1には、複数のチャプタを有する動画から所望のシーン画像を効率的に検索する動画処理装置が提案されている。
特開2011-130007号公報
 動画等コンテンツデータを作成することには多大な手間がかかり、特に、テキストデータや画像、音データなどの複数の素材コンテンツデータが用いられた複合コンテンツデータを作成する場合には、最適な組み合わせを考慮することがユーザの技術レベルによっては難しいため、簡便に複合コンテンツデータを作成することができるシステムの提供が求められていた。また、画像データについては、選択する必要があり、適切なアニメーションを選択することもユーザの技術レベルによっては難しいため、適切な画像切り抜きが可能なシステムの提供も求められていた。
 そこで、本発明では、複合コンテンツデータを簡便に作成することを可能とする、特に適切な画像切り抜きが可能とするサーバ等を提供することを目的とする。
 上記課題を解決するための本発明の主たる発明は、画像データの顕著性情報を作成する顕著性情報作成部と、構図情報を設定する構図情報設定部と、前記画像データの顕著性情報及び前記設定された構図情報に基づき前記画像データに対する切り抜き範囲を設定する切り抜き範囲設定部と、前記切り抜き範囲に基づき前記画像データを切り抜く切り抜き部と、を備える、ことを特徴とするサーバである。
 本発明によれば、複合コンテンツデータを簡便に作成することを可能とする、特に適切な画像切り抜きが可能とするサーバ等を提供することが可能となる。
実施形態例に係るシステムの構成図である。 実施形態例に係るサーバの構成図である。 実施形態例に係る管理端末、ユーザ端末の構成図である。 実施形態例に係るシステムの機能ブロック図である。 カットを構成する画面レイアウト例を説明する図である。 実施形態例に係るシステムのフローチャートである。 複合コンテンツデータを構成する複数のカットを画面上に一覧表示する態様の説明図である。 実施形態例に係る画像切り抜き方法を説明する図である。 顕著性に基づく検出のための元画像例を示す図である。 図9の画像に対する顕著性物体検出の一例を示す図である。 図9の画像に対する顕著性マップ検出の一例を示す図である。 図9の画像に対するハイブリッド顕著性マップ検出の一例を示す図である。 実施形態例に係る構図情報の一例を説明する図である。
 本発明の実施形態の内容を列記して説明する。本発明の実施の形態によるサーバ等は、以下のような構成を備える。
[項目1]
 画像データの顕著性情報を作成する顕著性情報作成部と、
 構図情報を設定する構図情報設定部と、
 前記画像データの顕著性情報及び前記設定された構図情報に基づき前記画像データに対する切り抜き範囲を設定する切り抜き範囲設定部と、
 前記切り抜き範囲に基づき前記画像データを切り抜く切り抜き部と、を備える、
 ことを特徴とするサーバ。
[項目2]
 項目1に記載のサーバであって、
 前記顕著性情報は、顕著性物体検出及び顕著性マップ検出を用いたハイブリッド顕著性マップ検出により取得される、
 ことを特徴とするサーバ。
[項目3]
 項目1に記載のサーバであって、
 前記顕著性情報は、顕著性マップ検出により取得される、
 ことを特徴とするサーバ。
[項目4]
 項目1に記載のサーバであって、
 前記顕著性情報は、顕著性物体検出により取得される、
 ことを特徴とするサーバ。
[項目5]
 項目1ないし4のいずれかに記載のサーバであって、
 前記構図情報設定部は、ユーザ端末上の選択に応じて前記構図情報を設定する、
 ことを特徴とするサーバ。
[項目6]
 項目1ないし4のいずれかに記載のサーバであって、
 前記構図情報設定部は、前記画像データに関連付けられた画像種別に応じて前記構図情報を設定する、
 ことを特徴とするサーバ。
[項目7]
 画像データの顕著性情報を作成する顕著性情報作成部と、
 構図情報を設定する構図情報設定部と、
 前記画像データの顕著性情報及び前記設定された構図情報に基づき前記画像データに対する切り抜き範囲を設定する切り抜き範囲設定部と、
 前記切り抜き範囲に基づき前記画像データを切り抜く切り抜き部と、を備える、
 ことを特徴とするシステム。
[項目8]
 顕著性情報作成部により、画像データの顕著性情報を作成するステップと、
 構図情報設定部により、構図情報を設定するステップと、
 切り抜き範囲設定部により、前記画像データの顕著性情報及び前記設定された構図情報に基づき前記画像データに対する切り抜き範囲を設定するステップと、
 切り抜き部により、前記切り抜き範囲に基づき前記画像データを切り抜くステップと、を含む、
 ことを特徴とする画像切り抜き方法。
[項目9]
 画像切り抜き方法をコンピュータに実行させるプログラムであって、
 前記画像切り抜き方法は、
 顕著性情報作成部により、画像データの顕著性情報を作成するステップと、
 構図情報設定部により、構図情報を設定するステップと、
 切り抜き範囲設定部により、前記画像データの顕著性情報及び前記設定された構図情報に基づき前記画像データに対する切り抜き範囲を設定するステップと、
 切り抜き部により、前記切り抜き範囲に基づき前記画像データを切り抜くステップと、を含む、
 ことを特徴とするプログラム。
 <実施の形態の詳細>
 以下、本発明の実施の形態による複合コンテンツデータを作成するためのシステム(以下「本システム」という)等について説明する。添付図面において、同一または類似の要素には同一または類似の参照符号及び名称が付され、各実施形態の説明において同一または類似の要素に関する重複する説明は省略することがある。また、各実施形態で示される特徴は、互いに矛盾しない限り他の実施形態にも適用可能である。
 <構成>
 実施形態例に係る本システムは、図1に示すように、サーバ1と、管理者端末2と、ユーザ端末3とを備えて構成される。サーバ1と、管理者端末2と、ユーザ端末3は、ネットワークを介して互いに通信可能に接続されている。ネットワークは、ローカルネットワークであってもよいし、外部ネットワークに接続可能なものであってもよい。図1の例では、サーバ1を1台で構成する例を説明しているが、複数台のサーバ装置によりサーバ1を実現することも可能である。また、サーバ1と管理者端末2が共通化されていてもよい。
 <サーバ1>
 図2は、図1に記載のサーバ1のハードウェア構成を示す図である。なお、図示された構成は一例であり、これ以外の構成を有していてもよい。また、サーバ1は、例えばワークステーションやパーソナルコンピュータのような汎用コンピュータとしてもよいし、或いはクラウド・コンピューティングによって論理的に実現されてもよい。
 サーバ1は、少なくとも、プロセッサ10、メモリ11、ストレージ12、送受信部13、入出力部14等を備え、これらはバス15を通じて相互に電気的に接続される。
 プロセッサ10は、サーバ1全体の動作を制御し、各要素間におけるデータの送受信の制御、及びアプリケーションの実行及び認証処理に必要な情報処理等を行う演算装置である。例えばプロセッサ10はCPU(Central Processing Unit)およびGPU(Graphics Processing Unit)であり、ストレージ12に格納されメモリ11に展開された本システムのためのプログラム等を実行して各情報処理を実施する。なお、プロセッサ10の処理能力は、必要な情報処理を実行するために十分であればよいので、例えば、プロセッサ10はCPUのみで構成されていてもよいし、これに限るものでもない。
 メモリ11は、DRAM(Dynamic Random Access Memory)等の揮発性記憶装置で構成される主記憶と、フラッシュメモリやHDD(Hard Disc Drive)等の不揮発性記憶装置で構成される補助記憶と、を含む。メモリ11は、プロセッサ10のワークエリア等として使用され、また、サーバ1の起動時に実行されるBIOS(Basic Input / Output System)、及び各種設定情報等を格納してもよい。
 ストレージ12は、アプリケーション・プログラム等の各種プログラムを格納する。各処理に用いられるデータを格納したデータベースがストレージ12に構築されていてもよい。
 送受信部13は、サーバ1をネットワークに接続する。
 入出力部14は、キーボード・マウス類等の情報入力機器、及びディスプレイ等の出力機器である。
 バス15は、上記各要素に共通に接続され、例えば、アドレス信号、データ信号及び各種制御信号を伝達する。
<管理者端末2、ユーザ端末3>
 図3に示される管理者端末2、ユーザ端末3もまた、プロセッサ20、メモリ21、ストレージ22、送受信部23、入出力部24等を備え、これらはバス25を通じて相互に電気的に接続される。各要素の機能は、上述したサーバ1と同様に構成することが可能であることから、各要素の詳細な説明は省略する。管理者は、管理者端末2により、例えばサーバ1の設定変更やデータベースの運用管理などを行う。ユーザは、ユーザ端末3によりサーバ1にアクセスして、例えば、複合コンテンツデータを作成または閲覧することなどができる。
<サーバ1の機能>
 図4は、サーバ1に実装される機能を例示したブロック図である。本実施の形態においては、サーバ1は、通信部110、被識別情報解析部120、第2のデータ生成部130、複合コンテンツデータ生成部140、関連付け部150、記憶部160、分類器170、画像切り抜き部180を備えている。複合コンテンツデータ生成部140はベースデータ生成部142、第2のデータ割り当て部144、素材コンテンツデータ割り当て部146を含む。また、記憶部160は、メモリ11やストレージ11等の記憶領域より構成されており、ベースデータ記憶部161、素材コンテンツデータ記憶部163、複合コンテンツデータ記憶部165、インターフェース情報記憶部167、構図情報記憶部169などの各種データベースを含む。画像切り抜き部180は、画像受付部181、顕著性情報作成部183、構図情報設定部185、切り抜き範囲設定部187、切り抜き部189を含む。なお、素材コンテンツデータ設定部190については、後述するが、例えばプロセッサ10により実行されている。
 通信部110は、管理者端末2や、ユーザ端末3と通信を行う。通信部110は、ユーザ端末3から、例えば被識別情報を含む第1のデータを受け付ける受付部としても機能する。そして、第1のデータは、例えば、被識別情報を含む記事(例えば、プレスリリースや、ニュースなど)などのテキストデータ、被識別情報を含む画像データ(例えば、写真や、イラストなど)若しくは動画データ、被識別情報を含む音声データなどであってもよい。なお、ここでいうテキストデータは、サーバ1に送信された時点においてテキストデータであるものに限らず、例えば、サーバ1に送信された音声データを既知の音声認識技術により生成されたテキストデータであってもよい。また、第1のデータは、例えば記事などのテキストデータなどが、既存の抽出的要約若しくは生成的要約などの自動要約技術により要約されたもの(被識別情報を含む)であってもよく、その場合、ベースデータに含まれるカット数が減り、複合コンテンツデータ全体のデータ容量を小さくすることができ、内容も簡潔なものとなり得る。
 また、ここでいう音声データは、マイク等の入力装置により取得された音声データに限らず、動画データから抽出された音声データや、テキストデータから生成された音声データであってもよい。前者の場合、例えばラフスケッチなどの仮画像及び仮映像による動画といった仮動画から、ナレーションやセリフなどの音声データだけを抽出し、後述されるように当該音声データを基に素材コンテンツデータと共に複合コンテンツデータを生成するようにしてもよい。後者の場合、例えば、ストーリーのあるテキストデータから音声データを作成し、例えば童話であれば、読み上げられたストーリーと素材コンテンツデータによる紙芝居や動画を複合コンテンツデータとして生成するようにしてもよい。
 第2のデータ生成部130は、例えば第1のデータを分割する必要がないと判定した場合(例えば、テキストデータが予め設定された文字数以下の短文であったりするなど)には、第2のデータ生成部130は、そのまま第1のデータを第2のデータとして生成する。一方で、例えば第1のデータを分割する必要があると判定した場合(例えば、予め設定された文字数よりも長文であったりするなど)には、第2のデータ生成部130は、第1のデータを分割し、それぞれ第1のデータの被識別情報の少なくとも一部を含む第2のデータとして生成する。この時、併せて第2データの分割数情報についても生成する。なお、第2のデータ生成部130による第1のデータ分割の方法は、既知の何れの技術を利用してもよく、例えば、第1のデータがテキスト化できるものであれば、予め設定されたベースデータの各カットの最大文字数や文節間の修飾関係の解析結果に基づき、文章として自然な区間が各カットに収まるように文を区切るようにしてもよい。
 被識別情報解析部120は、上述の第2のデータを解析し、被識別情報を取得する。ここで、被識別情報は、被識別情報解析部120により解析可能であれば、どのような情報であってもよい。一つの態様としては、被識別情報は、言語モデルにより定義された単語形式であり得る。より具体的には、後述の単語ベクトルを伴う一以上の単語(例えば、「渋谷、新宿、六本木」や「渋谷、ランドマーク、若者」など)であってもよい。なお、当該単語には、言語モデルに応じて「ん」などの通常はそれ単体では利用されない単語も含み得る。また、上記単語形式の代わりに文全体を表すベクトルを伴う文書、または画像や動画から抽出された特徴ベクトルであってもよい。
 複合コンテンツデータ生成部140は、上述の第2のデータ生成部130により生成された第2データの分割数情報に応じた数のカット(一以上のカット)を含むベースデータをベースデータ生成部142により生成し、ユーザ端末3から新たに入力された素材コンテンツデータおよび/または素材コンテンツデータ記憶部163に記憶された素材コンテンツデータと上述の第2のデータが各カットに割り当てられたベースデータを複合コンテンツデータとして生成するとともに複合コンテンツデータ記憶部165に記憶し、ユーザ端末3に複合コンテンツデータを表示する。なお、図5は、ベースデータを構成するカットの画面レイアウトの一例である。同図中第2のデータフィールド31に編集された第2のデータ(例えば、区切られたテキスト文章など)が挿入され、素材コンテンツデータフィールド32に選択された素材コンテンツデータが挿入される。ベースデータの各カットには、予め設定されている上述の最大文字数(テキストデータの場合)や、画面レイアウト、再生時間(動画の場合)が規定されていてもよい。また、複合コンテンツデータは、必ずしも複合コンテンツデータ記憶部165に保存される必要はなく、適当なタイミングで記憶されてもよい。また、第2のデータのみが割り当てられたベースデータを複合コンテンツデータの経過情報としてユーザ端末3に表示するようにしてもよい。
 第2のデータ割り当て部144は、上述のベースデータ生成部142により生成された一以上のカットに、例えばシーン1、シーン2、シーン3やカット1、カット2、カット3といったように番号がふられており、この番号順に、第2のデータを順次割り当てていく。
 関連付け部150は、上述の第2のデータに含まれる被識別情報の少なくとも一部と、例えば、素材コンテンツデータから抽出される抽出情報(例えば、分類器が抽出したクラスラベルなど)と比較し、例えば、互いの類似度などを判定して、第2のデータに適した素材コンテンツデータ(例えば、類似度が高いものなど)と第2のデータとを互いに関連付けを行う。より具体的な例としては、例えば、第2のデータに含まれる被識別情報が「先生」を表し、抽出情報が「顔」である素材コンテンツデータA(例えば、女性の画像)と「山」である素材コンテンツデータB(例えば、富士山の画像)が用意されている場合、「先生」から得られる単語ベクトルと「顔」から得られる単語ベクトルの関連は、「先生」から得られる単語ベクトルと「山」から得られる単語ベクトルの関連よりも類似しているため、第2のデータは素材コンテンツデータAと関連付けられる。なお、素材コンテンツデータの抽出情報は、ユーザが予め抽出して素材コンテンツデータ記憶部163に記憶したものであってもよく、後述の分類器170により抽出されたものであってもよい。また、上記類似度の判定は、単語ベクトルを学習した学習済モデルを用意し、そのベクトルを利用してコサイン類似度やWord Mover’s Distanceなどの方法により単語の類似度を判定してもよい。
 素材コンテンツデータは、例えば、画像データや、動画データ、音データ(例えば、音楽データ、音声データ、効果音など)などであり得るが、これに限定されない。また、素材コンテンツデータは、ユーザまたは管理者が素材コンテンツデータ記憶部163に格納するものであってもよいし、ネットワーク上から、素材コンテンツデータを取得し、素材コンテンツデータ記憶部163に格納するものであってもよい。
 素材コンテンツデータ割り当て部146は、上述の関連付けに基づき、対応する第2のデータが割り当てられたカットに、適した素材コンテンツデータを割り当てる。
 インターフェース情報記憶部167は、管理者端末2若しくはユーザ端末3の表示部(ディスプレイ等)に表示するための各種制御情報を格納している。
 分類器170は、学習データを学習データ記憶部(不図示)から取得し、機械学習させることで、学習済モデルとして作成される。分類器170の作成は、定期的に行われる。分類器作成用の学習データは、ネットワークから収集したデータやユーザ保有のデータにクラスラベルをつけたものを利用してもよいし、クラスラベルのついたデータセットを調達して利用してもよい。そして、分類器170は、例えば、畳み込みニューラルネットワークを利用した学習済モデルであり、素材コンテンツデータを入力すると、1つまたは複数の抽出情報(例えば、クラスラベルなど)を抽出する。分類器170は、例えば、素材コンテンツデータに関連するオブジェクトを表すクラスラベル(例えば、魚介、焼肉、人物、家具)を抽出する。
 図6は、複合コンテンツデータを作成する流れの一例を説明する図である。
 まず、サーバ1は、少なくとも被識別情報を含む第1のデータをユーザ端末3より通信部110を介して受け付ける(ステップS101)。本例においては、被識別情報は、例えば一以上の単語であり、第1のデータは、例えば一以上の単語を含む記事からなるテキストデータまたはそのテキストデータを要約したものであり得る。
 次に、サーバ1は、被識別情報解析部120により、第1のデータを解析して被識別情報を取得し、第2のデータ生成部130により、被識別情報の少なくとも一部を含む一以上の第2のデータ及び分割数情報を生成する(ステップS102)。
 次に、サーバ1は、複合コンテンツデータ生成部140により、上述の分割数情報に応じた数のカットを含むベースデータをベースデータ生成部142により生成する(ステップS103)。
 次に、サーバ1は、第2のデータ割り当て部により、第2のデータをカットに割り当てる(ステップS104)。なお、この状態のベースデータをユーザ端末3にて表示をするようにして、経過を確認可能にしてもよい。
 次に、サーバ1は、第2のデータに含まれる被識別情報の少なくとも一部と、素材コンテンツデータから抽出された抽出情報に基づき、関連付け部150により、素材コンテンツデータ記憶部163の素材コンテンツデータと第2のデータとを互いに関連付けし(ステップS105)、素材コンテンツデータ割り当て部146によりその素材コンテンツデータをカットに割り当てる(ステップS106)。
 そして、サーバ1は、第2のデータ及び素材コンテンツデータが割り当てられたベースデータを複合コンテンツデータとして生成するとともに複合コンテンツデータ記憶部165に記憶し、ユーザ端末3に複合コンテンツデータを表示する(ステップS107)。なお、複合コンテンツデータの表示は、図7に例示するように、複合コンテンツデータを構成する複数のカットを画面上に一覧表示することができる。各カットには、表示される素材コンテンツデータおよび第2データと共に各カットの再生時間(秒数)の情報も表示されてもよい。ユーザは、例えば、第2のデータフィールド31や対応するボタンをクリックすることで、その内容を修正することができ、素材コンテンツデータフィールド32や対応するボタンをクリックすることで素材コンテンツデータを差し替えることができる。さらに、他の素材コンテンツデータをユーザがユーザ端末から各シーンに追加することも可能である。
 なお、上述の複合コンテンツデータを作成する流れは一例であり、例えば、ベースデータを読み出すためのステップS102は、第2のデータまたは素材コンテンツデータの割り当てまでに読み出されていればいつ実行されていてもよい。また、例えば、第2のデータの割り当てのためのステップS104と、関連付けのためのステップS105と、素材コンテンツデータの割り当てのためのステップS106の順番も、互いに齟齬が生じなければ何れの順番で実行されてもよい。
 また、これまで説明した被識別情報解析部120及び関連付け部150、分類器170を用いた素材コンテンツデータ設定部190は、複合コンテンツデータ作成システムの1つの設定機能であってもよく、素材コンテンツデータ設定部190による設定方法はこれに限らない。例えば、ベースデータは上述の例ではベースデータ生成部142により生成されているが、これに代えてベースデータ記憶部161から読み出すようにしてもよい。読み出されたベースデータは、例えば所定の数の空白カットを含むものであってもよいし、所定の素材コンテンツデータや書式情報などが各カットに設定済みのテンプレートデータ(例えば、音楽データや背景画像、フォント情報などが設定されている)であってもよい。さらに、従来の複合コンテンツデータ作成システムと同様に、ユーザ端末からユーザが各データフィールドの全てまたは一部に対して任意の素材コンテンツを設定可能にしてもよいし、例えば第2のデータフィールド31にユーザがユーザ端末により任意のテキストを入力し、これらのテキストから上述のように被識別情報を抽出して素材コンテンツを関連付けるといったように、ユーザ操作と組み合わせた設定方法であってもよい。
(画像切り抜き機能)
 図8~図13を参照しながら、画像切り抜き部180による画像切り抜き方法例について説明する。例えば、上述のステップS106において、素材コンテンツデータをカットに割り当てる際に、当該画像切り抜き方法が事前の設定やユーザによる選択等に応じて適宜実行される。
 図8は、画像切り抜きの流れの一例を説明する図である。まず、サーバ1は、素材コンテンツデータとなる画像データを画像受付部181より受け付ける(ステップS201)。ここで、画像データの受け付けについては、ユーザ端末3からのユーザ入力だけに限らず、サーバ1が関連付け部150により選択した画像データの受付についても含まれる。
 次に、顕著性情報作成部183は、顕著性判定モデルに基づき、画像データから視覚的に注意が向けられる被写体の位置を検出する(ステップS202)。顕著性判定モデルは、例えば図10の顕著性物体検出や図11の顕著性マップ検出などのような既知の学習方法により得られる顕著性に関する学習済みモデルである。
 図10では、顕著性物体検出モデルを用いた例であり、例えばエンコーダデコーダモデルなどの既知の方法で実現可能である。例えば、図9の動物画像に対して、顕著性物体検出モデルを用いた場合には、図10のように動物の形状が検出された結果が得られる。
 また、図11では、顕著性マップ検出モデルを用いた例であり、例えば畳み込みニューラルネットワークを利用した学習済モデルなどの既知の方法で実現可能である。例えば、図9の動物画像に対して、顕著性マップ検出モデルを用いた場合には、図11のように動物の顔部分に視覚的顕著性が強く検出された結果が得られる。
 ところで、図10の顕著性物体検出を用いた場合には、顕著性の濃淡がないため、ユーザが意図しない部分が切り抜き枠の位置となり得る。図11の顕著性マップ検出を用いた場合においても、物体の全体像が不明であるために、ユーザが意図しない部分が切り抜き枠の位置となり得る。
 そこで、図12に示されるように、顕著性情報の取得のために、顕著性物体検出と顕著性マップ検出を組み合わせたハイブリッド顕著性マップ検出モデルを用いることで、物体の輪郭とその物体の中で視覚的顕著性の高い箇所の双方の情報を捉え、切り抜き枠設定の精度を高めることができる。
 さらに、顕著性の検出の精度は画質の影響を受けることを鑑み、例えばステップS202の前のステップとして、既知の超解像度技術を組み合わせることで、先に画像の解像度を上げてから、顕著性の検出を行うことで、より顕著性情報の精度を高めることができる。
 次に、構図情報設定部185は、画像データの顕著性情報における顕著性が高い部分が切り抜き範囲のどこに位置すると写真としての審美性が高いかを示す構図情報を設定する(ステップS203)。構図情報は、構図情報記憶部169に記憶されていてもよく、例えば図13に記載されるような、センターバイアスや三分割法、これらを組み合わせたものなどであるが、これらに限定されるものではなく、既知の構図(例えば、黄金比を示す構図など)であってもよい。構図情報の設定については、例えば、ユーザがユーザ端末3に提示された一以上の構図情報から任意の構図情報を設定する構成や、画像データに関連付けられた画像種別(例えば、人物、動物、風景など)に応じてサーバ1が構図情報を選択または推薦する構成、顕著性情報の分布と構図情報の分布に基づき構図情報を選択する(例えば、重なる割合が一番多い構図など)であってもよい。なお、当該画像種別は、ユーザによりユーザ端末3から設定されてもよいし、画像分析等により自動的に設定されてもよい。
 次に、切り抜き範囲設定部187は、上述の顕著性情報及び構図情報に基づき、画像データの切り抜き範囲を設定する(ステップS204)。切り抜き範囲の大きさについては、ユーザによりユーザ端末3から任意の大きさに設定されてもよいし、デフォルト値が設定されていてもよい。一例として構図情報としてセンターバイアスが選択されている場合には、顕著性マップ情報における顕著性が一番高い部分がセンターバイアスに基づき中心に位置するように切り抜き範囲を設定され、図9に例示された動物の画像データの場合には、動物の顔が中心に位置するように切り抜き範囲が設定される。他の例として構図情報として三分割法が選択されている場合には、顕著性マップ情報における顕著性が一番高い部分の情報だけでは少なくとも4つの切り抜き範囲が設定され得るが、さらに顕著性マップ情報全体分布と構図情報の分布との重なりなどを判定することにより、三分割法における右上または左上の点に動物の顔が位置するように切り抜き範囲が設定される。さらに他の例として、図9に例示された動物が左右に位置する画像データの場合には、三分割法による構図情報を用いると、左右に顔が並ぶ構図となるように切り抜き範囲が設定される。これらのように、切り抜き範囲設定部187により顕著性情報及び構図情報を用いて切り抜き範囲を設定することで、顕著性情報だけだと考慮されない余白(例えば、図9に例示される動物の画像であれば、特に顔部分の上側の余白など)が切り抜き画像に形成されるので、画像データに対して審美性の高い位置に切り抜き範囲を設定することが可能となる。
 最後に、切り抜き部189により、切り抜き範囲設定部187により設定された切り抜き範囲に対して、切り抜きを実行し、切り抜き画像を生成する(ステップS205)。
 以上に説明した実施形態例の本システムによれば、編集用ソフト、サーバ、専門技術を持った編集者などを自前で揃えなくとも、簡単に複合コンテンツデータを作成することが可能となる。例えば、下記のような場面での活用が想定される。
 1)ECショップで販売している商品情報の動画化
 2)プレスリリース情報、CSR情報などを動画で配信
 3)利用方法・オペレーションフローなどのマニュアルを動画化
 4)動画広告として活用できるクリエイティブを制作
 以上、本発明の好ましい実施形態例について説明したが、本発明の技術的範囲は上記実施形態の記載に限定されるものではない。上記実施形態例には様々な変更・改良を加えることが可能であり、そのような変更または改良を加えた形態のものも本発明の技術的範囲に含まれる。
1 サーバ
2 管理者端末
3 ユーザ端末

 

Claims (9)

  1.  画像データの顕著性情報を作成する顕著性情報作成部と、
     構図情報を設定する構図情報設定部と、
     前記画像データの顕著性情報及び前記設定された構図情報に基づき前記画像データに対する切り抜き範囲を設定する切り抜き範囲設定部と、
     前記切り抜き範囲に基づき前記画像データを切り抜く切り抜き部と、を備える、
     ことを特徴とするサーバ。
  2.  請求項1に記載のサーバであって、
     前記顕著性情報は、顕著性物体検出及び顕著性マップ検出を用いたハイブリッド顕著性マップ検出により取得される、
     ことを特徴とするサーバ。
  3.  請求項1に記載のサーバであって、
     前記顕著性情報は、顕著性マップ検出により取得される、
     ことを特徴とするサーバ。
  4.  請求項1に記載のサーバであって、
     前記顕著性情報は、顕著性物体検出により取得される、
     ことを特徴とするサーバ。
  5.  請求項1ないし4のいずれかに記載のサーバであって、
     前記構図情報設定部は、ユーザ端末上の選択に応じて前記構図情報を設定する、
     ことを特徴とするサーバ。
  6.  請求項1ないし4のいずれかに記載のサーバであって、
     前記構図情報設定部は、前記画像データに関連付けられた画像種別に応じて前記構図情報を設定する、
     ことを特徴とするサーバ。
  7.  画像データの顕著性情報を作成する顕著性情報作成部と、
     構図情報を設定する構図情報設定部と、
     前記画像データの顕著性情報及び前記設定された構図情報に基づき前記画像データに対する切り抜き範囲を設定する切り抜き範囲設定部と、
     前記切り抜き範囲に基づき前記画像データを切り抜く切り抜き部と、を備える、
     ことを特徴とするシステム。
  8.  顕著性情報作成部により、画像データの顕著性情報を作成するステップと、
     構図情報設定部により、構図情報を設定するステップと、
     切り抜き範囲設定部により、前記画像データの顕著性情報及び前記設定された構図情報に基づき前記画像データに対する切り抜き範囲を設定するステップと、
     切り抜き部により、前記切り抜き範囲に基づき前記画像データを切り抜くステップと、を含む、
     ことを特徴とする画像切り抜き方法。
  9.  画像切り抜き方法をコンピュータに実行させるプログラムであって、
     前記画像切り抜き方法は、
     顕著性情報作成部により、画像データの顕著性情報を作成するステップと、
     構図情報設定部により、構図情報を設定するステップと、
     切り抜き範囲設定部により、前記画像データの顕著性情報及び前記設定された構図情報に基づき前記画像データに対する切り抜き範囲を設定するステップと、
     切り抜き部により、前記切り抜き範囲に基づき前記画像データを切り抜くステップと、を含む、
     ことを特徴とするプログラム。

     
PCT/JP2021/011671 2021-03-22 2021-03-22 サーバおよびシステム、画像切り抜き方法、プログラム WO2022201236A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/011671 WO2022201236A1 (ja) 2021-03-22 2021-03-22 サーバおよびシステム、画像切り抜き方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/011671 WO2022201236A1 (ja) 2021-03-22 2021-03-22 サーバおよびシステム、画像切り抜き方法、プログラム

Publications (1)

Publication Number Publication Date
WO2022201236A1 true WO2022201236A1 (ja) 2022-09-29

Family

ID=83395293

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/011671 WO2022201236A1 (ja) 2021-03-22 2021-03-22 サーバおよびシステム、画像切り抜き方法、プログラム

Country Status (1)

Country Link
WO (1) WO2022201236A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107545576A (zh) * 2017-07-31 2018-01-05 华南农业大学 基于构图规则的图像编辑方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107545576A (zh) * 2017-07-31 2018-01-05 华南农业大学 基于构图规则的图像编辑方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ARA, TAKAYUKI: "Automatic initial view generation for 360 degree panoramic images", IPSJ SIG TECHNICAL REPORTS, 29 August 2016 (2016-08-29) *
JIEYING SHE ; DUO WANG ; MINGLI SONG: "Automatic image cropping using sparse coding", PATTERN RECOGNITION (ACPR), 2011 FIRST ASIAN CONFERENCE ON, IEEE, 28 November 2011 (2011-11-28), pages 490 - 494, XP032130064, ISBN: 978-1-4577-0122-1, DOI: 10.1109/ACPR.2011.6166623 *
LU PENG; ZHANG HAO; PENG XUJUN; JIN XIAOFU: "Learning the Relation Between Interested Objects and Aesthetic Region for Image Cropping", IEEE TRANSACTIONS ON MULTIMEDIA, IEEE, USA, vol. 23, 9 October 2020 (2020-10-09), USA, pages 3618 - 3630, XP011884057, ISSN: 1520-9210, DOI: 10.1109/TMM.2020.3029882 *

Similar Documents

Publication Publication Date Title
CN111460183B (zh) 多媒体文件生成方法和装置、存储介质、电子设备
US10380227B2 (en) Generating layout for content presentation structures
US8719029B2 (en) File format, server, viewer device for digital comic, digital comic generation device
US7603620B2 (en) Creating visualizations of documents
CN110023927B (zh) 用于将布局应用于文档的系统和方法
JP2020005309A (ja) 動画編集サーバおよびプログラム
US20180189249A1 (en) Providing application based subtitle features for presentation
KR20050052421A (ko) 동적 열람이 가능한 전자 문서의 제작 및 열람 방법
WO2019245033A1 (ja) 動画編集サーバおよびプログラム
JP2020065307A (ja) サーバおよびプログラム、動画配信システム
US10691871B2 (en) Devices, methods, and systems to convert standard-text to animated-text and multimedia
JP6730760B2 (ja) サーバおよびプログラム、動画配信システム
KR101804679B1 (ko) 스토리에 기초하는 멀티미디어 콘텐츠 개발 장치 및 방법
JP6903364B1 (ja) サーバおよびデータ割り当て方法
TW201523421A (zh) 決定用於擷取的文章之圖像
JP6603929B1 (ja) 動画編集サーバおよびプログラム
WO2022201236A1 (ja) サーバおよびシステム、画像切り抜き方法、プログラム
JP2007079736A (ja) データ編集装置、データ編集方法およびデータ編集プログラム
WO2022201515A1 (ja) サーバおよびアニメーション推薦システム、アニメーション推薦方法、プログラム
US11532111B1 (en) Systems and methods for generating comic books from video and images
JP6713183B1 (ja) サーバおよびプログラム
KR102281298B1 (ko) 인공지능 기반 동영상 합성을 위한 시스템 및 방법
WO2022003798A1 (ja) サーバおよび複合コンテンツデータ作成システム、複合コンテンツデータ作成方法、プログラム
WO2022201237A1 (ja) サーバおよびテキストフィールド配置位置方法、プログラム
JP6710884B2 (ja) サーバおよびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21932850

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21932850

Country of ref document: EP

Kind code of ref document: A1