JPWO2022125127A5 - - Google Patents
Download PDFInfo
- Publication number
- JPWO2022125127A5 JPWO2022125127A5 JP2023535081A JP2023535081A JPWO2022125127A5 JP WO2022125127 A5 JPWO2022125127 A5 JP WO2022125127A5 JP 2023535081 A JP2023535081 A JP 2023535081A JP 2023535081 A JP2023535081 A JP 2023535081A JP WO2022125127 A5 JPWO2022125127 A5 JP WO2022125127A5
- Authority
- JP
- Japan
- Prior art keywords
- image
- media content
- content item
- bounding box
- spaces
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims 22
- 238000013528 artificial neural network Methods 0.000 claims 6
- 239000013598 vector Substances 0.000 claims 5
- 239000011159 matrix material Substances 0.000 claims 3
- 230000000903 blocking effect Effects 0.000 claims 1
- 238000003780 insertion Methods 0.000 claims 1
- 230000037431 insertion Effects 0.000 claims 1
Claims (15)
メディアコンテンツ挿入システムによって、メディアコンテンツオーバーレイのための候補画像を受け取るステップと、
前記候補画像をニューラルネットワークに入力するステップであって、前記ニューラルネットワークは、複数の画像と、該複数の画像の各画像に対して1つ以上の対応する境界ボックスとを含むトレーニングデータを用いてトレーニングされている、ステップと、
前記ニューラルネットワークから、メディアコンテンツを前記候補画像に挿入するための1つ以上の境界ボックスを表す座標と1つ以上の寸法とを受け取るステップと、
前記1つ以上の境界ボックスのうちのある境界ボックス内に表示されるべきメディアコンテンツアイテムに対する要求を送信するステップであって、前記要求は、前記1つ以上の境界ボックスの前記1つ以上の寸法を含む、ステップと、
前記要求に応答して前記メディアコンテンツアイテムを受け取るステップと、
前記候補画像と、前記境界ボックス内に前記候補画像の上にオーバーレイされた前記メディアコンテンツアイテムとを表示させるステップと、
を含む、方法。 A computer-implemented method for detecting a suitable space for overlaying media content on top of an image, the method comprising:
receiving candidate images for media content overlay by a media content insertion system;
inputting the candidate images into a neural network, the neural network using training data including a plurality of images and one or more corresponding bounding boxes for each image of the plurality of images; The steps being trained,
receiving from the neural network coordinates and one or more dimensions representing one or more bounding boxes for inserting media content into the candidate image;
transmitting a request for a media content item to be displayed within a bounding box of the one or more bounding boxes, the request including the one or more dimensions of the one or more bounding boxes; steps, including;
receiving the media content item in response to the request;
displaying the candidate image and the media content item overlaid on the candidate image within the bounding box;
including methods.
前記複数の画像の各々に対して1つ以上のベクトルを受け取るステップであって、各ベクトルは一組の座標と一組の寸法とを含み、前記1つ以上のベクトルの各ベクトルは特定の境界ボックスを表す、ステップと、
前記複数の画像の各々と、対応する1つ以上のベクトルとを使用して前記ニューラルネットワークをトレーニングするステップと、
を更に含む、請求項1に記載の方法。 receiving the plurality of images;
receiving one or more vectors for each of the plurality of images, each vector including a set of coordinates and a set of dimensions, each vector of the one or more vectors defining a particular boundary; a step representing a box;
training the neural network using each of the plurality of images and the corresponding one or more vectors;
2. The method of claim 1, further comprising:
前記候補画像の水平軸に沿った第1オフセットを表す第1座標及び前記候補画像の垂直軸に沿った第2オフセットを表す第2座標と、
前記第1座標から前記水平軸に沿って延びる第1寸法と、
前記第2座標から前記垂直軸に沿って延びる第2寸法と、
対応する境界ボックスが、前記メディアコンテンツを前記候補画像に挿入するのに適したエリア内で前記候補画像の上に配置される確率と、
を受け取るステップを含む、請求項1に記載の方法。 receiving the coordinates and the one or more dimensions representing the one or more bounding boxes for inserting the media content into the candidate image, comprising: for each bounding box;
a first coordinate representing a first offset along a horizontal axis of the candidate image and a second coordinate representing a second offset along a vertical axis of the candidate image;
a first dimension extending from the first coordinate along the horizontal axis;
a second dimension extending from the second coordinate along the vertical axis;
a probability that a corresponding bounding box is placed over the candidate image within a suitable area for inserting the media content into the candidate image;
2. The method of claim 1, comprising the step of receiving.
特定の境界ボックスの確率が前記閾値確率を満たさないと判断したことに応答して、前記特定の境界ボックスを前記要求から除外するステップと、
を更に含む、請求項3に記載の方法。 for each bounding box, determining whether the corresponding probability satisfies a threshold probability;
excluding the particular bounding box from the request in response to determining that the probability of the particular bounding box does not meet the threshold probability;
4. The method of claim 3, further comprising:
前記複数のメディアコンテンツアイテムから、最も高い確率を有する境界ボックスに対応する特定のメディアコンテンツアイテムを識別するステップと、
前記特定のメディアコンテンツアイテムを前記メディアコンテンツアイテムとして選択するステップと、
を更に含む、請求項3に記載の方法。 receiving a plurality of media content items corresponding to the one or more bounding boxes in response to the request;
identifying from the plurality of media content items a particular media content item that corresponds to a bounding box with the highest probability;
selecting the particular media content item as the media content item;
4. The method of claim 3 , further comprising:
前記ビデオコンテンツアイテムのビデオフレームのセットを取得するステップであって、前記ビデオフレームのセットは、前記候補画像に続いて再生されるビデオフレームを含む、ステップと、
前記ビデオフレームのセットの各ビデオフレームを前記ニューラルネットワークに入力するステップと、
前記ビデオフレームのセット内の各ビデオフレームについて、前記ニューラルネットワークから、1つ以上の境界ボックスを表す対応する座標と、対応する1つ以上の寸法とを受け取るステップと、
前記ビデオフレームのセットの各ビデオフレームにおいて、前記セット内の各々の他のビデオフレームにおける境界ボックスと一致する境界ボックスを識別するステップと、
各々の他のビデオフレームの境界ボックスと一致する前記境界ボックスを前記要求に含めるステップと、
を更に含む、請求項1に記載の方法。 determining that the candidate image is a video frame associated with a video content item;
obtaining a set of video frames of the video content item, the set of video frames including a video frame to be played subsequent to the candidate image;
inputting each video frame of the set of video frames into the neural network;
For each video frame in the set of video frames, receiving from the neural network corresponding coordinates representing one or more bounding boxes and corresponding one or more dimensions;
identifying, in each video frame of the set of video frames, a bounding box that matches a bounding box in each other video frame in the set;
including in the request the bounding box that matches the bounding box of each other video frame;
2. The method of claim 1, further comprising:
命令がエンコードされたメモリと、
前記命令を実行すると、請求項1乃至6のいずれか一項に記載の方法の動作を実行させる1つ以上のプロセッサと、
を備える、システム。 A system for detecting a suitable space for overlaying media content on top of an image, the system comprising:
memory in which instructions are encoded;
one or more processors whose execution of the instructions causes the operations of the method of any one of claims 1 to 6 to be carried out;
A system equipped with.
メディアコンテンツアイテムオーバーレイのための画像を受け取るステップと、
1つ以上の画像処理技術のセットを使用して前記受け取った画像を処理して、メディアコンテンツアイテムオーバーレイのための前記画像内に1つ以上の提案スペースを自動的に生成するステップと、
1つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための前記画像内の前記1つ以上の提案スペースから1つ以上の境界ボックスを自動的に選択するステップと、
前記画像内の選択された対応する1つ以上の境界ボックスにおいて、オーバーレイのための1つ以上のメディアコンテンツアイテムを選択するステップと、
前記画像と、前記画像内の前記対応する1つ以上の境界ボックス内にオーバーレイされた前記選択された1つ以上のメディアコンテンツアイテムとを表示させるステップと、
を含む、方法。 A computer-implemented method for detecting a suitable space for overlaying media content on top of an image, the method comprising:
receiving an image for a media content item overlay;
processing the received image using a set of one or more image processing techniques to automatically generate one or more suggested spaces within the image for media content item overlay;
applying one or more heuristic rules to automatically select one or more bounding boxes from the one or more suggested spaces within the image for media content item overlay;
selecting one or more media content items for overlay at one or more selected corresponding bounding boxes in the image;
displaying the image and the selected one or more media content items overlaid within the corresponding one or more bounding boxes within the image;
including methods.
前記受け取った画像のバイナリ行列の表現を生成するステップと、
前記生成されたバイナリ行列において所定の最小閾値パラメータを満たす1つ以上の長方形スペースを決定するステップと、
前記生成されたバイナリ行列において前記決定された1つ以上の長方形スペース内のテキスト及び顔をブロックアウトするステップと、
前記長方形スペースのソート済みリストを生成するステップであって、ソートは、所定のパラメータに基づいて実行される、ステップと、
前記生成されたソート済みリスト内の長方形スペースを、前記受け取った画像内のメディアコンテンツアイテムオーバーレイのための前記1つ以上の提案スペースとして提供するステップと、
を更に含む、請求項9に記載の方法。 processing the received image using a set of one or more image processing techniques to automatically generate one or more suggested spaces within the image for media content item overlay;
generating a binary matrix representation of the received image;
determining one or more rectangular spaces in the generated binary matrix that satisfy a predetermined minimum threshold parameter;
blocking out text and faces within the determined one or more rectangular spaces in the generated binary matrix;
generating a sorted list of rectangular spaces, the sorting being performed based on predetermined parameters;
providing a rectangular space in the generated sorted list as the one or more suggested spaces for overlaying media content items in the received image;
10. The method of claim 9 , further comprising:
前記画像に重ね合わされるグリッド上に位置するように1つ以上の提案スペースを修正することに基づいて、境界ボックスを生成するステップと、
決定される隣接する列のグループが、前記1つ以上の提案スペースのうちのある提案スペースとの重なりの所定の最小閾値を満たすように、前記画像上に重ね合わされる隣接する列の複数のグループから隣接する列のグループを決定することに基づいて、境界ボックスを生成するステップと、
前記1つ以上の提案スペースの重み付けされた組合せである境界ボックスを生成するステップと、
前記1つ以上の提案スペースを使用して、所定の目標プロパティに基づいて境界ボックスを生成するステップと、
のうちの1つ以上を含む、請求項9に記載の方法。 applying one or more heuristic rules to automatically select one or more bounding boxes from the one or more suggested spaces in the image for media content item overlay;
generating a bounding box based on modifying one or more proposal spaces to be located on a grid overlaid on the image;
a plurality of groups of adjacent columns superimposed on said image such that a determined group of adjacent columns satisfies a predetermined minimum threshold of overlap with a certain proposal space of said one or more proposal spaces; generating a bounding box based on determining groups of adjacent columns from
generating a bounding box that is a weighted combination of the one or more proposal spaces;
generating a bounding box based on predetermined target properties using the one or more proposal spaces;
10. The method of claim 9 , comprising one or more of:
請求項9に記載の方法。 the selected one or more bounding boxes are described by parameters describing the position of the bounding box within the received image and parameters describing the layout of the bounding box within the received image;
The method according to claim 9 .
前記ビデオコンテンツアイテムのビデオフレームのセットを取得するステップであって、前記ビデオフレームのセットは、前記受け取った画像を表示した後に表示されるビデオフレームを含む、ステップと、
1つ以上の画像処理技術のセットを使用して、前記取得されたビデオフレームのセット内の各ビデオフレームを処理して、メディアコンテンツアイテムオーバーレイのための各ビデオフレーム内に1つ以上の提案スペースを自動的に生成するステップと、
1つ以上のヒューリスティックルールを適用して、メディアコンテンツアイテムオーバーレイのための各ビデオフレーム内の前記1つ以上の提案スペースから1つ以上の境界ボックスを自動的に選択するステップと、
各ビデオフレーム画像と、各ビデオフレーム内の対応する1つ以上の境界ボックス内にオーバーレイされた前記選択された1つ以上のメディアコンテンツアイテムとを表示させるステップと、
を更に含む、請求項9に記載の方法。 determining that the received image is a video frame associated with a video content item;
obtaining a set of video frames of the video content item, the set of video frames including video frames to be displayed after displaying the received image;
processing each video frame in said acquired set of video frames using a set of one or more image processing techniques to create one or more suggested spaces within each video frame for media content item overlay; a step of automatically generating
applying one or more heuristic rules to automatically select one or more bounding boxes from the one or more suggested spaces within each video frame for media content item overlay;
displaying each video frame image and the selected one or more media content items overlaid within a corresponding one or more bounding boxes within each video frame;
10. The method of claim 9 , further comprising:
コンピュータプロセッサと、
コンピュータプロセッサによって実行されると、該コンピュータプロセッサに、請求項9乃至13のいずれか一項に記載の方法のステップを実行させる命令を記憶するための非一時的コンピュータ読取可能媒体と、を備える、コンピュータシステム。 A computer system,
a computer processor;
a non-transitory computer-readable medium for storing instructions that, when executed by a computer processor, cause the computer processor to perform the steps of the method according to any one of claims 9 to 13 ; computer system.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/116,944 | 2020-12-09 | ||
US17/116,944 US11798210B2 (en) | 2020-12-09 | 2020-12-09 | Neural network based detection of image space suitable for overlaying media content |
PCT/US2021/015739 WO2022125127A1 (en) | 2020-12-09 | 2021-01-29 | Detection of image space suitable for overlaying media content |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2024501444A JP2024501444A (en) | 2024-01-12 |
JPWO2022125127A5 true JPWO2022125127A5 (en) | 2024-02-07 |
Family
ID=74759469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023535081A Pending JP2024501444A (en) | 2020-12-09 | 2021-01-29 | Detecting suitable image spaces for overlaying media content |
Country Status (5)
Country | Link |
---|---|
US (1) | US11798210B2 (en) |
EP (1) | EP4218246A1 (en) |
JP (1) | JP2024501444A (en) |
CN (1) | CN116584100A (en) |
WO (1) | WO2022125127A1 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11989858B2 (en) | 2022-09-30 | 2024-05-21 | Salesforce, Inc. | Systems and methods of determining margins of an image for content insertion to form a composite image |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7983446B2 (en) | 2003-07-18 | 2011-07-19 | Lockheed Martin Corporation | Method and apparatus for automatic object identification |
SG119229A1 (en) | 2004-07-30 | 2006-02-28 | Agency Science Tech & Res | Method and apparatus for insertion of additional content into video |
US8438472B2 (en) | 2009-01-02 | 2013-05-07 | Apple Inc. | Efficient data structures for parsing and analyzing a document |
US9646389B2 (en) | 2014-08-26 | 2017-05-09 | Qualcomm Incorporated | Systems and methods for image scanning |
US9594984B2 (en) * | 2015-08-07 | 2017-03-14 | Google Inc. | Business discovery from imagery |
WO2017095948A1 (en) * | 2015-11-30 | 2017-06-08 | Pilot Ai Labs, Inc. | Improved general object detection using neural networks |
WO2017165538A1 (en) * | 2016-03-22 | 2017-09-28 | Uru, Inc. | Apparatus, systems, and methods for integrating digital media content into other digital media content |
US10726443B2 (en) | 2016-07-11 | 2020-07-28 | Samsung Electronics Co., Ltd. | Deep product placement |
US10657364B2 (en) | 2016-09-23 | 2020-05-19 | Samsung Electronics Co., Ltd | System and method for deep network fusion for fast and robust object detection |
US11019283B2 (en) | 2018-01-18 | 2021-05-25 | GumGum, Inc. | Augmenting detected regions in image or video data |
US10691936B2 (en) | 2018-06-29 | 2020-06-23 | Konica Minolta Laboratory U.S.A., Inc. | Column inferencer based on generated border pieces and column borders |
US11087178B2 (en) | 2019-04-12 | 2021-08-10 | Facebook, Inc. | Automated visual suggestion, generation, and assessment using computer vision detection |
US11900644B2 (en) | 2019-10-31 | 2024-02-13 | Rakuten Group, Inc. | Document image analysis apparatus, document image analysis method and program thereof |
US11334771B2 (en) | 2019-12-12 | 2022-05-17 | Vade Usa, Incorporated | Methods, devices and systems for combining object detection models |
-
2020
- 2020-12-09 US US17/116,944 patent/US11798210B2/en active Active
-
2021
- 2021-01-29 WO PCT/US2021/015739 patent/WO2022125127A1/en active Application Filing
- 2021-01-29 EP EP21708432.6A patent/EP4218246A1/en active Pending
- 2021-01-29 CN CN202180079414.6A patent/CN116584100A/en active Pending
- 2021-01-29 JP JP2023535081A patent/JP2024501444A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240168625A1 (en) | Simulated handwriting image generator | |
Ogawa et al. | Object detection for comics using manga109 annotations | |
US11551337B2 (en) | Boundary-aware object removal and content fill | |
US11341653B2 (en) | Apparatus and method for training model for image segmentation | |
CN108121997A (en) | Use the object classification in the image data of machine learning model | |
US11783610B2 (en) | Document structure identification using post-processing error correction | |
US11455502B2 (en) | Learning device, classification device, learning method, classification method, learning program, and classification program | |
JP6722351B2 (en) | Learning device, image recognition device, learning method and program | |
CN111626284A (en) | Method and device for removing handwritten fonts, electronic equipment and storage medium | |
CN111652142A (en) | Topic segmentation method, device, equipment and medium based on deep learning | |
CN111651361A (en) | Script-free automatic testing method based on visual page | |
CN111652144A (en) | Topic segmentation method, device, equipment and medium based on target region fusion | |
KR102200608B1 (en) | Apparatus and method for character detection | |
US10546406B2 (en) | User generated character animation | |
JP6623851B2 (en) | Learning method, information processing device and learning program | |
CN113570615A (en) | Image processing method based on deep learning, electronic equipment and storage medium | |
US11715197B2 (en) | Image segmentation method and device | |
JPWO2022125127A5 (en) | ||
CN111860261B (en) | Passenger flow value statistical method, device, equipment and medium | |
CN111967312B (en) | Method and system for identifying important persons in picture | |
CN114742991A (en) | Poster background image selection, model training, poster generation method and related device | |
CN113591845A (en) | Multi-topic identification method and device and computer equipment | |
CN112085025B (en) | Object segmentation method, device and equipment | |
CN116584100A (en) | Image space detection suitable for overlay media content | |
CN114648751A (en) | Method, device, terminal and storage medium for processing video subtitles |