JPWO2022125127A5 - - Google Patents

Download PDF

Info

Publication number
JPWO2022125127A5
JPWO2022125127A5 JP2023535081A JP2023535081A JPWO2022125127A5 JP WO2022125127 A5 JPWO2022125127 A5 JP WO2022125127A5 JP 2023535081 A JP2023535081 A JP 2023535081A JP 2023535081 A JP2023535081 A JP 2023535081A JP WO2022125127 A5 JPWO2022125127 A5 JP WO2022125127A5
Authority
JP
Japan
Prior art keywords
image
media content
content item
bounding box
spaces
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023535081A
Other languages
Japanese (ja)
Other versions
JP2024501444A (en
Publication date
Priority claimed from US17/116,944 external-priority patent/US11798210B2/en
Application filed filed Critical
Publication of JP2024501444A publication Critical patent/JP2024501444A/en
Publication of JPWO2022125127A5 publication Critical patent/JPWO2022125127A5/ja
Pending legal-status Critical Current

Links

Claims (15)

メディアコンテンツを画像の上にオーバーレイするのに適したスペースを検出するためのコンピュータ実装方法であって、
メディアコンテンツ挿入システムによって、メディアコンテンツオーバーレイのための候補画像を受け取るステップと、
前記候補画像をニューラルネットワークに入力するステップであって、前記ニューラルネットワークは、複数の画像と、該複数の画像の各画像に対して1つ以上の対応する境界ボックスとを含むトレーニングデータを用いてトレーニングされている、ステップと、
前記ニューラルネットワークから、メディアコンテンツを前記候補画像に挿入するための1つ以上の境界ボックスを表す座標と1つ以上の寸法とを受け取るステップと、
前記1つ以上の境界ボックスのうちのある境界ボックス内に表示されるべきメディアコンテンツアイテムに対する要求を送信するステップであって、前記要求は、前記1つ以上の境界ボックスの前記1つ以上の寸法を含む、ステップと、
前記要求に応答して前記メディアコンテンツアイテムを受け取るステップと、
前記候補画像と、前記境界ボックス内に前記候補画像の上にオーバーレイされた前記メディアコンテンツアイテムとを表示させるステップと、
を含む、方法。
A computer-implemented method for detecting a suitable space for overlaying media content on top of an image, the method comprising:
receiving candidate images for media content overlay by a media content insertion system;
inputting the candidate images into a neural network, the neural network using training data including a plurality of images and one or more corresponding bounding boxes for each image of the plurality of images; The steps being trained,
receiving from the neural network coordinates and one or more dimensions representing one or more bounding boxes for inserting media content into the candidate image;
transmitting a request for a media content item to be displayed within a bounding box of the one or more bounding boxes, the request including the one or more dimensions of the one or more bounding boxes; steps, including;
receiving the media content item in response to the request;
displaying the candidate image and the media content item overlaid on the candidate image within the bounding box;
including methods.
前記複数の画像を受け取るステップと、
前記複数の画像の各々に対して1つ以上のベクトルを受け取るステップであって、各ベクトルは一組の座標と一組の寸法とを含み、前記1つ以上のベクトルの各ベクトルは特定の境界ボックスを表す、ステップと、
前記複数の画像の各々と、対応する1つ以上のベクトルとを使用して前記ニューラルネットワークをトレーニングするステップと、
を更に含む、請求項1に記載の方法。
receiving the plurality of images;
receiving one or more vectors for each of the plurality of images, each vector including a set of coordinates and a set of dimensions, each vector of the one or more vectors defining a particular boundary; a step representing a box;
training the neural network using each of the plurality of images and the corresponding one or more vectors;
2. The method of claim 1, further comprising:
前記メディアコンテンツを前記候補画像に挿入するための前記1つ以上の境界ボックスを表す前記座標と前記1つ以上の寸法とを受け取るステップは、各境界ボックスについて、
前記候補画像の水平軸に沿った第1オフセットを表す第1座標及び前記候補画像の垂直軸に沿った第2オフセットを表す第2座標と、
前記第1座標から前記水平軸に沿って延びる第1寸法と、
前記第2座標から前記垂直軸に沿って延びる第2寸法と、
対応する境界ボックスが、前記メディアコンテンツを前記候補画像に挿入するのに適したエリア内で前記候補画像の上に配置される確率と、
を受け取るステップを含む、請求項1に記載の方法。
receiving the coordinates and the one or more dimensions representing the one or more bounding boxes for inserting the media content into the candidate image, comprising: for each bounding box;
a first coordinate representing a first offset along a horizontal axis of the candidate image and a second coordinate representing a second offset along a vertical axis of the candidate image;
a first dimension extending from the first coordinate along the horizontal axis;
a second dimension extending from the second coordinate along the vertical axis;
a probability that a corresponding bounding box is placed over the candidate image within a suitable area for inserting the media content into the candidate image;
2. The method of claim 1, comprising the step of receiving.
各境界ボックスについて、対応する確率が閾値確率を満たすかどうかを判断するステップと、
特定の境界ボックスの確率が前記閾値確率を満たさないと判断したことに応答して、前記特定の境界ボックスを前記要求から除外するステップと、
を更に含む、請求項3に記載の方法。
for each bounding box, determining whether the corresponding probability satisfies a threshold probability;
excluding the particular bounding box from the request in response to determining that the probability of the particular bounding box does not meet the threshold probability;
4. The method of claim 3, further comprising:
前記要求に応答して、前記1つ以上の境界ボックスに対応する複数のメディアコンテンツアイテムを受け取るステップと、
前記複数のメディアコンテンツアイテムから、最も高い確率を有する境界ボックスに対応する特定のメディアコンテンツアイテムを識別するステップと、
前記特定のメディアコンテンツアイテムを前記メディアコンテンツアイテムとして選択するステップと、
を更に含む、請求項に記載の方法。
receiving a plurality of media content items corresponding to the one or more bounding boxes in response to the request;
identifying from the plurality of media content items a particular media content item that corresponds to a bounding box with the highest probability;
selecting the particular media content item as the media content item;
4. The method of claim 3 , further comprising:
前記候補画像が、ビデオコンテンツアイテムに関連付けられるビデオフレームであると判断するステップと、
前記ビデオコンテンツアイテムのビデオフレームのセットを取得するステップであって、前記ビデオフレームのセットは、前記候補画像に続いて再生されるビデオフレームを含む、ステップと、
前記ビデオフレームのセットの各ビデオフレームを前記ニューラルネットワークに入力するステップと、
前記ビデオフレームのセット内の各ビデオフレームについて、前記ニューラルネットワークから、1つ以上の境界ボックスを表す対応する座標と、対応する1つ以上の寸法とを受け取るステップと、
前記ビデオフレームのセットの各ビデオフレームにおいて、前記セット内の各々の他のビデオフレームにおける境界ボックスと一致する境界ボックスを識別するステップと、
各々の他のビデオフレームの境界ボックスと一致する前記境界ボックスを前記要求に含めるステップと、
を更に含む、請求項1に記載の方法。
determining that the candidate image is a video frame associated with a video content item;
obtaining a set of video frames of the video content item, the set of video frames including a video frame to be played subsequent to the candidate image;
inputting each video frame of the set of video frames into the neural network;
For each video frame in the set of video frames, receiving from the neural network corresponding coordinates representing one or more bounding boxes and corresponding one or more dimensions;
identifying, in each video frame of the set of video frames, a bounding box that matches a bounding box in each other video frame in the set;
including in the request the bounding box that matches the bounding box of each other video frame;
2. The method of claim 1, further comprising:
メディアコンテンツを画像の上にオーバーレイするのに適したスペースを検出するためのシステムであって、
命令がエンコードされたメモリと、
前記命令を実行すると、請求項1乃至6のいずれか一項に記載の方法の動作を実行させる1つ以上のプロセッサと、
を備える、システム。
A system for detecting a suitable space for overlaying media content on top of an image, the system comprising:
memory in which instructions are encoded;
one or more processors whose execution of the instructions causes the operations of the method of any one of claims 1 to 6 to be carried out;
A system equipped with.
命令を記憶する非一時的コンピュータ読取可能媒体であって、前記命令は、1つ以上のプロセッサによって実行されると、前記1つ以上のプロセッサに、請求項1乃至6のいずれか一項に記載の方法の動作を実行させる、非一時的コンピュータ読取可能媒体。 7. A non-transitory computer-readable medium storing instructions, the instructions, when executed by one or more processors, transmitting information to the one or more processors as claimed in any one of claims 1 to 6. A non-transitory computer-readable medium for performing the operations of the method . メディアコンテンツを画像の上にオーバーレイするのに適したスペースを検出するためのコンピュータ実装方法であって、
メディアコンテンツアイテムオーバーレイのための画像を受け取るステップと、
1つ以上の画像処理技術のセットを使用して前記受け取った画像を処理して、メディアコンテンツアイテムオーバーレイのための前記画像内に1つ以上の提案スペースを自動的に生成するステップと、
1つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための前記画像内の前記1つ以上の提案スペースから1つ以上の境界ボックスを自動的に選択するステップと、
前記画像内の選択された対応する1つ以上の境界ボックスにおいて、オーバーレイのための1つ以上のメディアコンテンツアイテムを選択するステップと、
前記画像と、前記画像内の前記対応する1つ以上の境界ボックス内にオーバーレイされた前記選択された1つ以上のメディアコンテンツアイテムとを表示させるステップと、
を含む、方法。
A computer-implemented method for detecting a suitable space for overlaying media content on top of an image, the method comprising:
receiving an image for a media content item overlay;
processing the received image using a set of one or more image processing techniques to automatically generate one or more suggested spaces within the image for media content item overlay;
applying one or more heuristic rules to automatically select one or more bounding boxes from the one or more suggested spaces within the image for media content item overlay;
selecting one or more media content items for overlay at one or more selected corresponding bounding boxes in the image;
displaying the image and the selected one or more media content items overlaid within the corresponding one or more bounding boxes within the image;
including methods.
1つ以上の画像処理技術のセットを使用して前記受け取った画像を処理して、メディアコンテンツアイテムオーバーレイのための前記画像内に1つ以上の提案スペースを自動的に生成するステップは、
前記受け取った画像のバイナリ行列の表現を生成するステップと、
前記生成されたバイナリ行列において所定の最小閾値パラメータを満たす1つ以上の長方形スペースを決定するステップと、
前記生成されたバイナリ行列において前記決定された1つ以上の長方形スペース内のテキスト及び顔をブロックアウトするステップと、
前記長方形スペースのソート済みリストを生成するステップであって、ソートは、所定のパラメータに基づいて実行される、ステップと、
前記生成されたソート済みリスト内の長方形スペースを、前記受け取った画像内のメディアコンテンツアイテムオーバーレイのための前記1つ以上の提案スペースとして提供するステップと、
を更に含む、請求項に記載の方法。
processing the received image using a set of one or more image processing techniques to automatically generate one or more suggested spaces within the image for media content item overlay;
generating a binary matrix representation of the received image;
determining one or more rectangular spaces in the generated binary matrix that satisfy a predetermined minimum threshold parameter;
blocking out text and faces within the determined one or more rectangular spaces in the generated binary matrix;
generating a sorted list of rectangular spaces, the sorting being performed based on predetermined parameters;
providing a rectangular space in the generated sorted list as the one or more suggested spaces for overlaying media content items in the received image;
10. The method of claim 9 , further comprising:
1つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための前記画像内の前記1つ以上の提案スペースから1つ以上の境界ボックスを自動的に選択するステップは、
前記画像に重ね合わされるグリッド上に位置するように1つ以上の提案スペースを修正することに基づいて、境界ボックスを生成するステップと、
決定される隣接する列のグループが、前記1つ以上の提案スペースのうちのある提案スペースとの重なりの所定の最小閾値を満たすように、前記画像上に重ね合わされる隣接する列の複数のグループから隣接する列のグループを決定することに基づいて、境界ボックスを生成するステップと、
前記1つ以上の提案スペースの重み付けされた組合せである境界ボックスを生成するステップと、
前記1つ以上の提案スペースを使用して、所定の目標プロパティに基づいて境界ボックスを生成するステップと、
のうちの1つ以上を含む、請求項に記載の方法。
applying one or more heuristic rules to automatically select one or more bounding boxes from the one or more suggested spaces in the image for media content item overlay;
generating a bounding box based on modifying one or more proposal spaces to be located on a grid overlaid on the image;
a plurality of groups of adjacent columns superimposed on said image such that a determined group of adjacent columns satisfies a predetermined minimum threshold of overlap with a certain proposal space of said one or more proposal spaces; generating a bounding box based on determining groups of adjacent columns from
generating a bounding box that is a weighted combination of the one or more proposal spaces;
generating a bounding box based on predetermined target properties using the one or more proposal spaces;
10. The method of claim 9 , comprising one or more of:
前記選択された1つ以上の境界ボックスは、前記受け取った画像内の境界ボックスの位置を記述するパラメータと、前記受け取った画像内の境界ボックスのレイアウトを記述するパラメータとによって記述される、
請求項に記載の方法。
the selected one or more bounding boxes are described by parameters describing the position of the bounding box within the received image and parameters describing the layout of the bounding box within the received image;
The method according to claim 9 .
前記受け取った画像が、ビデオコンテンツアイテムに関連付けられるビデオフレームであると判断するステップと、
前記ビデオコンテンツアイテムのビデオフレームのセットを取得するステップであって、前記ビデオフレームのセットは、前記受け取った画像を表示した後に表示されるビデオフレームを含む、ステップと、
1つ以上の画像処理技術のセットを使用して、前記取得されたビデオフレームのセット内の各ビデオフレームを処理して、メディアコンテンツアイテムオーバーレイのための各ビデオフレーム内に1つ以上の提案スペースを自動的に生成するステップと、
1つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための各ビデオフレーム内の前記1つ以上の提案スペースから1つ以上の境界ボックスを自動的に選択するステップと、
各ビデオフレーム画像と、各ビデオフレーム内の対応する1つ以上の境界ボックス内にオーバーレイされた前記選択された1つ以上のメディアコンテンツアイテムとを表示させるステップと、
を更に含む、請求項に記載の方法。
determining that the received image is a video frame associated with a video content item;
obtaining a set of video frames of the video content item, the set of video frames including video frames to be displayed after displaying the received image;
processing each video frame in said acquired set of video frames using a set of one or more image processing techniques to create one or more suggested spaces within each video frame for media content item overlay; a step of automatically generating
applying one or more heuristic rules to automatically select one or more bounding boxes from the one or more suggested spaces within each video frame for media content item overlay;
displaying each video frame image and the selected one or more media content items overlaid within a corresponding one or more bounding boxes within each video frame;
10. The method of claim 9 , further comprising:
コンピュータプロセッサによって実行されると、該コンピュータプロセッサに、請求項9乃至13のいずれか一項に記載の方法のステップを実行させる命令を記憶するための非一時的コンピュータ読取可能媒体。 A non-transitory computer-readable medium for storing instructions that, when executed by a computer processor, cause the computer processor to perform the steps of the method according to any one of claims 9 to 13 . コンピュータシステムであって、
コンピュータプロセッサと、
コンピュータプロセッサによって実行されると、該コンピュータプロセッサに、請求項9乃至13のいずれか一項に記載の方法のステップを実行させる命令を記憶するための非一時的コンピュータ読取可能媒体と、を備える、コンピュータシステム。
A computer system,
a computer processor;
a non-transitory computer-readable medium for storing instructions that, when executed by a computer processor, cause the computer processor to perform the steps of the method according to any one of claims 9 to 13 ; computer system.
JP2023535081A 2020-12-09 2021-01-29 Detecting suitable image spaces for overlaying media content Pending JP2024501444A (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/116,944 2020-12-09
US17/116,944 US11798210B2 (en) 2020-12-09 2020-12-09 Neural network based detection of image space suitable for overlaying media content
PCT/US2021/015739 WO2022125127A1 (en) 2020-12-09 2021-01-29 Detection of image space suitable for overlaying media content

Publications (2)

Publication Number Publication Date
JP2024501444A JP2024501444A (en) 2024-01-12
JPWO2022125127A5 true JPWO2022125127A5 (en) 2024-02-07

Family

ID=74759469

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023535081A Pending JP2024501444A (en) 2020-12-09 2021-01-29 Detecting suitable image spaces for overlaying media content

Country Status (5)

Country Link
US (1) US11798210B2 (en)
EP (1) EP4218246A1 (en)
JP (1) JP2024501444A (en)
CN (1) CN116584100A (en)
WO (1) WO2022125127A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11989858B2 (en) 2022-09-30 2024-05-21 Salesforce, Inc. Systems and methods of determining margins of an image for content insertion to form a composite image

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7983446B2 (en) 2003-07-18 2011-07-19 Lockheed Martin Corporation Method and apparatus for automatic object identification
SG119229A1 (en) 2004-07-30 2006-02-28 Agency Science Tech & Res Method and apparatus for insertion of additional content into video
US8438472B2 (en) 2009-01-02 2013-05-07 Apple Inc. Efficient data structures for parsing and analyzing a document
US9646389B2 (en) 2014-08-26 2017-05-09 Qualcomm Incorporated Systems and methods for image scanning
US9594984B2 (en) * 2015-08-07 2017-03-14 Google Inc. Business discovery from imagery
WO2017095948A1 (en) * 2015-11-30 2017-06-08 Pilot Ai Labs, Inc. Improved general object detection using neural networks
WO2017165538A1 (en) * 2016-03-22 2017-09-28 Uru, Inc. Apparatus, systems, and methods for integrating digital media content into other digital media content
US10726443B2 (en) 2016-07-11 2020-07-28 Samsung Electronics Co., Ltd. Deep product placement
US10657364B2 (en) 2016-09-23 2020-05-19 Samsung Electronics Co., Ltd System and method for deep network fusion for fast and robust object detection
US11019283B2 (en) 2018-01-18 2021-05-25 GumGum, Inc. Augmenting detected regions in image or video data
US10691936B2 (en) 2018-06-29 2020-06-23 Konica Minolta Laboratory U.S.A., Inc. Column inferencer based on generated border pieces and column borders
US11087178B2 (en) 2019-04-12 2021-08-10 Facebook, Inc. Automated visual suggestion, generation, and assessment using computer vision detection
US11900644B2 (en) 2019-10-31 2024-02-13 Rakuten Group, Inc. Document image analysis apparatus, document image analysis method and program thereof
US11334771B2 (en) 2019-12-12 2022-05-17 Vade Usa, Incorporated Methods, devices and systems for combining object detection models

Similar Documents

Publication Publication Date Title
US20240168625A1 (en) Simulated handwriting image generator
Ogawa et al. Object detection for comics using manga109 annotations
US11551337B2 (en) Boundary-aware object removal and content fill
US11341653B2 (en) Apparatus and method for training model for image segmentation
CN108121997A (en) Use the object classification in the image data of machine learning model
US11783610B2 (en) Document structure identification using post-processing error correction
US11455502B2 (en) Learning device, classification device, learning method, classification method, learning program, and classification program
JP6722351B2 (en) Learning device, image recognition device, learning method and program
CN111626284A (en) Method and device for removing handwritten fonts, electronic equipment and storage medium
CN111652142A (en) Topic segmentation method, device, equipment and medium based on deep learning
CN111651361A (en) Script-free automatic testing method based on visual page
CN111652144A (en) Topic segmentation method, device, equipment and medium based on target region fusion
KR102200608B1 (en) Apparatus and method for character detection
US10546406B2 (en) User generated character animation
JP6623851B2 (en) Learning method, information processing device and learning program
CN113570615A (en) Image processing method based on deep learning, electronic equipment and storage medium
US11715197B2 (en) Image segmentation method and device
JPWO2022125127A5 (en)
CN111860261B (en) Passenger flow value statistical method, device, equipment and medium
CN111967312B (en) Method and system for identifying important persons in picture
CN114742991A (en) Poster background image selection, model training, poster generation method and related device
CN113591845A (en) Multi-topic identification method and device and computer equipment
CN112085025B (en) Object segmentation method, device and equipment
CN116584100A (en) Image space detection suitable for overlay media content
CN114648751A (en) Method, device, terminal and storage medium for processing video subtitles