WO2022044100A1 - Learning device, search device, learning method, and program - Google Patents

Learning device, search device, learning method, and program Download PDF

Info

Publication number
WO2022044100A1
WO2022044100A1 PCT/JP2020/031933 JP2020031933W WO2022044100A1 WO 2022044100 A1 WO2022044100 A1 WO 2022044100A1 JP 2020031933 W JP2020031933 W JP 2020031933W WO 2022044100 A1 WO2022044100 A1 WO 2022044100A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning
video
data
unit
loss
Prior art date
Application number
PCT/JP2020/031933
Other languages
French (fr)
Japanese (ja)
Inventor
昌弘 安田
康智 大石
登 原田
悠馬 小泉
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2020/031933 priority Critical patent/WO2022044100A1/en
Priority to JP2022544917A priority patent/JPWO2022044100A1/ja
Publication of WO2022044100A1 publication Critical patent/WO2022044100A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

In this learning device, which performs learning so as to maximize or minimize a loss value calculated by means of an integrated function in which multiple loss functions are integrated, the multiple loss functions include a first loss function in which the magnitude of the value changes with progress of the learning, and at least one second loss function which is different from the first loss function, wherein the integrated function calculates the aforementioned loss value on the basis of a value obtained by normalizing the value of the first loss function and on the basis of the value of the second loss function.

Description

学習装置、検索装置、学習方法、及びプログラムLearning device, search device, learning method, and program
 本発明は、学習装置、検索装置、学習方法、及びプログラムに関する。 The present invention relates to a learning device, a search device, a learning method, and a program.
 視覚的な出来事と音響的な出来事は、しばしば関連して同時に発生する。例えば、唇の動きと話し声、通り過ぎる車とエンジン音、映画の映像と効果音等は、同時に発生しやすい出来事である。こうした視覚的な出来事と音響的な出来事との関連性から、例えば車が走行する映像を見たときに、その車のエンジン音を推定することが可能である。このような、映像と音との「共起」を利用した技術として、クロスモーダル検索がある。 Visual and acoustic events are often related and occur at the same time. For example, lip movements and voices, passing cars and engine sounds, movie images and sound effects, etc. are events that are likely to occur at the same time. From the relationship between such visual events and acoustic events, it is possible to estimate the engine sound of a car, for example, when watching an image of the car traveling. Cross-modal search is a technology that utilizes such "co-occurrence" of video and sound.
 クロスモーダル検索は、例えば、映像と音との「共起」を利用して、映像に対して適切な音を、又は音に対して適切な映像を、推定及び検索することができる技術である。従来、このような映像及び音のクロスモーダル検索に関する検討は、主に、映像と音との共起における限定的な(単一の)側面に着目して行われてきた。ここでいう限定的な側面とは、例えば、物理的側面又は言語的側面等である。 Cross-modal search is a technology that can estimate and search for an appropriate sound for an image or an appropriate image for a sound by using, for example, "co-occurrence" between an image and a sound. .. Traditionally, studies on such cross-modal search of video and sound have mainly focused on the limited (single) aspect of co-occurrence of video and sound. The limited aspect referred to here is, for example, a physical aspect or a linguistic aspect.
 例えば、非特許文献1には、映像と音との共起における言語的側面に着目したクロスモーダル検索に関する技術として、画像に現れる物体と話し言葉とを関連付けるための学習モデルについて記載されている。また、例えば、非特許文献2には、映像と音との共起における物理的側面に着目したクロスモーダル検索に関する技術として、映像から、物体と物体との物理的な相互作用から発生する音を推定するための機械学習の学習モデルについて記載されている。これにより、例えば、ある物体を棒で叩く映像から、これに対応する音を推定及び検索することが可能になる。 For example, Non-Patent Document 1 describes a learning model for associating an object appearing in an image with a spoken language as a technique for cross-modal search focusing on the linguistic aspect of co-occurrence of video and sound. Further, for example, in Non-Patent Document 2, as a technique for cross-modal search focusing on the physical aspect in the coexistence of video and sound, sound generated from the physical interaction between an object and an object is described from the video. It describes a learning model of machine learning for estimation. This makes it possible to estimate and search for the corresponding sound from, for example, an image of hitting an object with a stick.
 従来、クロスモーダル検索に関する技術分野では、上記のような機械学習を用いて推定及び検索の精度を向上させるための技術について様々な検討が行われてきた。一般的に、機械学習を用いて推定及び検索の精度を向上させるためには、詳細なラベル付けがなされた学習データが予め用意される必要がある。 Conventionally, in the technical field related to cross-modal search, various studies have been conducted on techniques for improving the accuracy of estimation and search using machine learning as described above. Generally, in order to improve the accuracy of estimation and retrieval by using machine learning, it is necessary to prepare learning data with detailed labels in advance.
 ところで、実世界で用いられている動画では、映像と音とが複雑に混ざりあっていることが多い。例えば、テレビ放送における動画では、映像とともに、例えばキャスターの声及びBGM効果音等の複数の音声が同時に用いられることも多い。そのため、実世界で用いられている動画では、映像と音との共起関係は、より複雑な関係性を有している。このような複雑な共起関係に基づいて推定及び検索が行われるためには、より大規模な学習データが必要になる。しかしながら、こうした大規模な学習データに対して詳細なラベル付けが行われる場合、学習データの作成に要するコストや労力が増大するという課題があった。 By the way, in videos used in the real world, video and sound are often mixed in a complicated manner. For example, in a moving image in a television broadcast, a plurality of voices such as a caster's voice and a BGM sound effect are often used at the same time together with the video. Therefore, in the moving image used in the real world, the co-occurrence relationship between the image and the sound has a more complicated relationship. Larger-scale learning data is required for estimation and retrieval based on such complicated co-occurrence relationships. However, when detailed labeling is performed on such a large-scale training data, there is a problem that the cost and labor required for creating the training data increase.
 上記事情に鑑み、本発明は、学習データの作成に要するコストや労力を削減することができる学習装置、検索装置、学習方法、及びプログラムを提供することを目的とする。 In view of the above circumstances, an object of the present invention is to provide a learning device, a search device, a learning method, and a program that can reduce the cost and labor required for creating learning data.
 本発明の一態様は、複数の損失関数が統合された統合関数によって算出される損失値を最大化又は最小化させるように学習を行う学習装置であって、前記複数の損失関数は、前記学習の進行に伴って値の大きさが変化する第1損失関数と、前記第1損失関数とは異なる少なくとも1つの第2損失関数とを含み、前記統合関数は、前記第1損失関数の値を正規化した値と、前記第2損失関数の値とに基づいて前記損失値を算出する学習装置である。 One aspect of the present invention is a learning device that learns to maximize or minimize the loss value calculated by the integrated function in which a plurality of loss functions are integrated, and the plurality of loss functions are the learning. The integrated function includes a first loss function whose value changes with the progress of the first loss function and at least one second loss function different from the first loss function, and the integrated function uses the value of the first loss function. It is a learning device that calculates the loss value based on the normalized value and the value of the second loss function.
 また、本発明の一態様は、同一の動画に含まれる映像データ及び音響データの入力を受け付ける入力部と、前記映像データと、前記音響データと、前記映像データを含む前記動画が特定の音声を含むか否かを示す弱ラベルのラベルデータとに基づいて、前記映像データと前記特定の音声との共起関係を学習する学習部と、を備える学習装置である。 Further, in one aspect of the present invention, an input unit that accepts input of video data and acoustic data included in the same moving image, the video data, the acoustic data, and the moving image including the video data produce specific audio. It is a learning device including a learning unit for learning the co-occurrence relationship between the video data and the specific voice based on the label data of a weak label indicating whether or not the video data is included.
 また、本発明の一態様は、同一の動画に含まれる映像データ及び音響データの入力を受け付ける入力部と、前記映像データを含む動画に含まれる音声を種別するラベルデータに基づいて、前記映像データと前記音声との共起関係と、前記映像データと共起する前記音声の種別とをマルチタスク学習する学習部と、を備える学習装置である。 Further, one aspect of the present invention is based on an input unit that accepts input of video data and acoustic data included in the same moving image and label data that classifies audio included in the moving image including the video data. It is a learning device including a learning unit for multi-task learning of the co-occurrence relationship between the voice and the voice and the type of the voice that co-occurs with the video data.
 また、本発明の一態様は、上記の学習装置による学習結果を用いて映像データに対応する音声を検索する検索装置である。 Further, one aspect of the present invention is a search device that searches for audio corresponding to video data using the learning results of the above learning device.
 また、本発明の一態様は、複数の損失関数が統合された統合関数によって算出される損失値を最大化又は最小化させるように学習を行う学習方法であって、前記複数の損失関数は、前記学習の進行に伴って値の大きさが変化する第1損失関数と、前記第1損失関数とは異なる少なくとも1つの第2損失関数とを含み、前記統合関数は、前記第1損失関数の値を正規化した値と、前記第2損失関数の値とに基づいて前記損失値を算出する学習方法である。 Further, one aspect of the present invention is a learning method in which learning is performed so as to maximize or minimize the loss value calculated by the integrated function in which the plurality of loss functions are integrated, and the plurality of loss functions are the same. The integrated function includes a first loss function whose value magnitude changes as the learning progresses, and at least one second loss function different from the first loss function, and the integrated function is the first loss function. It is a learning method to calculate the loss value based on the value obtained by normalizing the value and the value of the second loss function.
 また、本発明の一態様は、同一の動画に含まれる映像データ及び音響データの入力を受け付ける入力ステップと、前記映像データを含む前記動画が特定の音響データを含むか否かを示す弱ラベルのデータに基づいて、前記映像データと前記音響データとの共起関係を学習する学習ステップと、を有する学習方法である。 Further, one aspect of the present invention includes an input step for accepting input of video data and acoustic data included in the same moving image, and a weak label indicating whether or not the moving image containing the video data contains specific acoustic data. It is a learning method having a learning step of learning a co-occurrence relationship between the video data and the acoustic data based on the data.
 また、本発明の一態様は、同一の動画に含まれる映像データ及び音響データの入力を受け付ける入力ステップと、前記映像データを含む動画に含まれる特定の音響データを複数の種類のいずれかに分類するラベルデータに基づいて、前記映像データと前記音響データとの共起関係と、前記映像データと共起する前記音響データの種類とをマルチタスク学習する学習ステップと、を有する学習方法である。 Further, one aspect of the present invention classifies an input step that accepts input of video data and acoustic data included in the same moving image and specific acoustic data included in the moving image including the video data into one of a plurality of types. It is a learning method having a co-occurrence relationship between the video data and the acoustic data and a learning step for multi-task learning of the type of the acoustic data co-occurring with the video data based on the label data.
 また、本発明の一態様は、上記の学習装置としてコンピュータを機能させるためのプログラムである。 Further, one aspect of the present invention is a program for operating a computer as the above-mentioned learning device.
 また、本発明の一態様は、上記の検索装置としてコンピュータを機能させるためのプログラムである。 Further, one aspect of the present invention is a program for operating a computer as the above-mentioned search device.
 本発明により、学習データの作成に要するコストや労力を削減することができる。 According to the present invention, the cost and labor required to create learning data can be reduced.
本発明の第1の実施形態における検索システムの構成の概要図。The schematic diagram of the structure of the search system in 1st Embodiment of this invention. 本発明の第1の実施形態における検索システム1の構成を示すブロック図。The block diagram which shows the structure of the search system 1 in 1st Embodiment of this invention. 本発明の第1の実施形態における学習装置10の機能構成を示すブロック図。The block diagram which shows the functional structure of the learning apparatus 10 in the 1st Embodiment of this invention. 本発明の第1の実施形態における検索装置20の機能構成を示すブロック図。The block diagram which shows the functional structure of the search apparatus 20 in 1st Embodiment of this invention. 本発明の第1の実施形態における学習装置10の動作を示すフローチャート。The flowchart which shows the operation of the learning apparatus 10 in the 1st Embodiment of this invention. 本発明の第1の実施形態における検索装置20の動作を示すフローチャート。The flowchart which shows the operation of the search apparatus 20 in 1st Embodiment of this invention. 本発明の第1の実施形態の実施例における客観評価実験の実験結果を示す図。The figure which shows the experimental result of the objective evaluation experiment in the Example of 1st Embodiment of this invention. 本発明の第1の実施形態の実施例における主観評価実験の実験結果を示す図。The figure which shows the experimental result of the subjective evaluation experiment in the Example of 1st Embodiment of this invention.
 本発明は、映像と音との間の結びつき(関連性)を利用して、映像から当該映像に対応する音を、あるいは音から当該音に対応する映像を推定・検索するクロスモーダル検索を対象とする。以下、実施形態の学習装置、検索装置、学習方法、及びプログラムについて、図面を参照しながら説明する。 The present invention is intended for a cross-modal search that estimates and searches for a sound corresponding to the image from the image or an image corresponding to the sound from the sound by utilizing the connection (relationship) between the image and the sound. And. Hereinafter, the learning device, the search device, the learning method, and the program of the embodiment will be described with reference to the drawings.
<第1の実施形態>
 以下、第1の実施形態における検索システムについて説明する。本実施形態における検索システムは、実世界における動画のように映像と複数の音との共起が混在する動画を対象とする。本実施形態における検索システムは、映像から、ある特定の対象に注目して、当該映像に対応する適切な音を検索するクロスモーダル検索を行う。
<First Embodiment>
Hereinafter, the search system according to the first embodiment will be described. The search system in the present embodiment targets a moving image in which a moving image and a plurality of sounds co-occur, such as a moving image in the real world. The search system in the present embodiment pays attention to a specific target from the video and performs a cross-modal search to search for an appropriate sound corresponding to the video.
 以下、一例として、検索システムが、テレビ放送の動画における映像から、当該映像に対応する適切な「効果音」を推定する場合について説明する。一般的に、テレビ放送において効果音は、例えば「話し声」や「音楽(例えばBGM)」等の、他の音響要素と混ざり合って現れる。そのため、テレビ放送の動画において、映像と音との共起関係は複雑な関係性を有している。 Hereinafter, as an example, a case where the search system estimates an appropriate "sound effect" corresponding to the video from the video in the video of the television broadcast will be described. Generally, in television broadcasting, sound effects appear mixed with other acoustic elements such as "speaking voice" and "music (eg BGM)". Therefore, the co-occurrence relationship between video and sound has a complicated relationship in moving images of television broadcasting.
 このような映像と音との共起関係が複雑な関係性を有している動画において、映像とある特定の音(本実施形態では効果音)との共起に着目したクロスモーダル検索を行うためには、まずクロスモーダル検索の対象となる映像及び音を識別することが必要である。 In such a moving image in which the co-occurrence relationship between the image and the sound has a complicated relationship, a cross-modal search focusing on the co-occurrence between the image and a specific sound (sound effect in the present embodiment) is performed. In order to do so, it is first necessary to identify the video and sound that are the targets of the cross-modal search.
 本実施形態では、クロスモーダル検索の対象となる映像及び音の識別に、機械学習が用いられる。このような映像と音との共起関係が複雑な関係性を有する動画について精度の高い推定及び検索が行われるためには、大規模な学習データが必要である。しかしながら、こうした大規模な学習データに対して詳細なラベル付けが行われると、学習データの作成に要するコストや労力が増大する。 In this embodiment, machine learning is used to identify the video and sound that are the targets of the cross-modal search. Large-scale learning data is required in order to perform highly accurate estimation and retrieval of moving images having a complicated co-occurrence relationship between video and sound. However, detailed labeling of such large-scale training data increases the cost and labor required to create the training data.
 そのため、クロスモーダル検索の対象となる映像及び音を識別する識別器では、弱ラベルに基づく学習データを用いた機械学習(弱ラベル学習)が望ましい。ここでいう弱ラベルに基づく学習データとは、詳細なラベルが無く、例えばメタデータやタグ等がラべル付けされた学習データである。
 本実施形態では、弱ラベルに基づく学習データは、入力映像及び入力音声が効果音を含んでいるか否かのみを示す弱いラベル付けがなされた学習データである。
Therefore, machine learning (weak label learning) using learning data based on weak labels is desirable for the classifier that identifies the video and sound to be cross-modal search. The learning data based on the weak label referred to here is learning data without a detailed label and to which, for example, metadata and tags are labeled.
In the present embodiment, the learning data based on the weak label is weakly labeled learning data indicating only whether or not the input video and the input sound include sound effects.
 なお、本実施形態における「音声」とは、人間の声に限られるものではなく、人間の声以外の音も含む音響信号全般のことをいう。例えば、本実施形態における「音声」には、テレビ放送における動画等に含まれるBGMや効果音等も含まれる。 Note that the "voice" in the present embodiment is not limited to the human voice, but refers to all acoustic signals including sounds other than the human voice. For example, the "voice" in the present embodiment also includes BGM, sound effects, and the like included in moving images and the like in television broadcasting.
 本実施形態における検索システムは、実世界における動画のように映像と複数の音との共起が混在する動画についてのクロスモーダル検索を可能にするため、三項損失に基づく表現学習を行う学習装置と、目的対象検出(Awareness mechanism)とを組み合わせたシステムである。この目的対象検出部は、入力映像及び入力音声が効果音を含んでいるか否かのみを示す前述の弱ラベルに基づいて機械学習する。 The search system in the present embodiment is a learning device that performs expression learning based on ternary loss in order to enable cross-modal search for a video in which a video and a plurality of sounds co-occur, such as a video in the real world. And a system that combines target target detection (Awareness mechanism). The target target detection unit performs machine learning based on the above-mentioned weak label indicating only whether or not the input video and the input sound include sound effects.
 近年、クロスモーダル検索は、主にDNN(Deep Neural Network)を用いた表現学習が用いられることによって発展してきた。表現学習において、DNNは、三項損失(Tripple Loss)等の、例えば映像と音声とを類似性に基づいて関連づけるコスト関数を用いて学習する。最も基本的な形の三項損失は、以下の(1)式によって示される。 In recent years, cross-modal search has been developed mainly by using expression learning using DNN (Deep Neural Network). In expression learning, DNN learns using a cost function such as triple loss, which associates video and audio based on similarity, for example. The most basic form of trinomial loss is expressed by equation (1) below.
 なお、以下の説明において、数式及び関数における下付文字を、アンダーバー“_”を用いて記載する。例えば、“X”の文字に“m”が下付文字として付加された文字列を示す場合には、“X_m”と記載する。また、数式及び関数における上付文字を、キャレット“^”を用いて記載する。例えば、“X”の文字に“n”が上付文字として付加された文字列を示す場合には、“X^n”と記載する。また、例えば、“X”の文字に“m”が下付文字として付加され、かつ、“X”の文字に“n”が上付文字として付加された文字列を示す場合には、“X^n_m”と記載する。 In the following description, the subscript characters in mathematical formulas and functions are described using the underscore "_". For example, when indicating a character string in which "m" is added as a subscript character to the character "X", it is described as "X_m". In addition, superscripts in mathematical formulas and functions are described using the caret "^". For example, when indicating a character string in which "n" is added as a superscript to the character "X", it is described as "X ^ n". Further, for example, when indicating a character string in which "m" is added as a subscript to the character "X" and "n" is added as a superscript to the character "X", "X" is indicated. It is described as "^ n_m".
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000001
 ここで、N_bは、ミニバッチ学習におけるミニバッチのサンプル数を示す。また、A_m,P_m,及びN_mは、ミニバッチに含まれるサンプルデータのうちm番目のサンプルデータの、基準入力(Anchor)、類似ペア(Positive)、及び非類似ペア(Negative)に対応する埋め込み表現を示す。また、D(a,b)は、ベクトルaとベクトルbとのL2ノルム(ユークリッド距離)を示す。また、δは、マージンパラメータと呼ばれ、正定数を示す。 Here, N_b indicates the number of mini-batch samples in mini-batch learning. Further, A_m, P_m, and N_m represent embedded expressions corresponding to the reference input (Anchor), the similar pair (Positive), and the dissimilar pair (Negative) of the m-th sample data among the sample data included in the mini-batch. show. Further, D (a, b) indicates the L2 norm (Euclidean distance) between the vector a and the vector b. Further, δ is called a margin parameter and indicates a positive constant.
 機械学習の安定化を目的として、マージンパラメータδは、機械学習の進行に伴って変化を伴う場合がある。例えば、非特許文献3に記載の技術は、機械学習の安定化を目的として、機械学習の進行に伴ってマージンパラメータδの値を以下の(2)式のように増加させる。 For the purpose of stabilizing machine learning, the margin parameter δ may change as machine learning progresses. For example, the technique described in Non-Patent Document 3 increases the value of the margin parameter δ as the machine learning progresses, as shown in the following equation (2), for the purpose of stabilizing machine learning.
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000002
 ここで、δ_0及びδ_maxは、δの初期値及び最大値を示す。また、γは、現時点の学習エポック数を最大エポック数で除算した値である。 Here, δ_0 and δ_max indicate the initial value and the maximum value of δ. Further, γ is a value obtained by dividing the current number of learning epochs by the maximum number of epochs.
 また、非特許文献1に記載の技術は、映像と音声との間のクロスモーダル検索を行うが、当該音声には、映像を説明する文章のみが含まれる。したがって、非特許文献1に記載の技術分野では、映像と音声とは、言語的側面の関係性によって常に結びついている。このような、映像と音声との間の限定的な(単一の)側面の共起のみを含む動画に対しては、例えば前述の(1)式のように、入力されたサンプルの類似度に基づくコスト関数を用いた表現学習は有効である。 Further, the technique described in Non-Patent Document 1 performs a cross-modal search between video and audio, and the audio includes only sentences explaining the video. Therefore, in the technical field described in Non-Patent Document 1, video and audio are always connected by the relationship of linguistic aspects. For such a moving image containing only a limited (single) aspect of co-occurrence between video and audio, the similarity of the input sample, for example, as in equation (1) above. Expression learning using a cost function based on is effective.
 一方、実世界で用いられる動画では、映像と複数の音声とが同時に存在し、当該音声ごとにそれぞれ異なる側面での映像と音声との共起が混在する。そのため、実世界で用いられる動画に対しては、例えば前述の(1)式のようなコスト関数を用いた従来の表現学習では十分な学習効果を得ることが困難である場合がある。 On the other hand, in moving images used in the real world, video and multiple audios exist at the same time, and co-occurrence of video and audio in different aspects is mixed for each audio. Therefore, for moving images used in the real world, it may be difficult to obtain a sufficient learning effect by conventional expression learning using a cost function such as the above-mentioned equation (1).
 前述の通り、本実施形態における検索システムは、実世界における動画のように映像と複数の音声とが混在する場合において、弱ラベルに基づく学習データを用いた機械学習によって映像と音との間のクロスモーダル検索を可能にする。実世界における動画では、様々な観点における映像と音との共起が含まれている。例えば、テレビ番組においては、字幕等の視覚効果、映像シーンの変更(切り替え)、人物の動作等の、映像に含まれる様々な変化のタイミングに合わせて、短時間の(例えば約1~5秒間程度の)効果音が付与される。 As described above, in the search system of the present embodiment, when video and a plurality of audios are mixed as in a moving image in the real world, machine learning using learning data based on weak labels is performed between video and sound. Enables cross-modal search. Video in the real world includes co-occurrence of video and sound from various perspectives. For example, in a TV program, a short time (for example, about 1 to 5 seconds) is adjusted to the timing of various changes included in the video, such as visual effects such as subtitles, change (switching) of the video scene, and movement of a person. (Degree) sound effect is given.
 但し、このような効果音は、一般的に、例えば音声やBGM等の他の音響効果と比べて発生時間が短い。そのため、効果音は、他の音響効果の中に埋もれてしまう傾向がある。しかしながら、人間は、このように映像と音声との間で複数種類の共起が混在しており、かつ、効果音のように他の音響効果の中に埋もれてしまいがちな音響効果であっても、あるいは他の視覚効果の中に埋もれてしまいがちな視覚効果であっても、適切に認識して映像効果と音声効果との関連付けを行うことができる。これは、人間が、これらの映像効果及び音声効果を認識して、注意を向けることができる能力を有するためである。 However, such sound effects generally have a shorter generation time than other acoustic effects such as voice and BGM. Therefore, sound effects tend to be buried in other acoustic effects. However, human beings have a mixture of multiple types of co-occurrence between video and audio, and are sound effects that tend to be buried in other sound effects, such as sound effects. Or even visual effects that tend to be buried in other visual effects can be properly recognized and associated with audio effects. This is because humans have the ability to recognize and pay attention to these video and audio effects.
 本実施形態における検索システムは、上記のような人間の能力を模倣するべく、前述の従来技術における映像と音との共起関係に基づく表現学習に対して、目的対象検出が組み合わされたものである。 The search system in the present embodiment is a combination of target object detection and expression learning based on the co-occurrence relationship between video and sound in the above-mentioned prior art in order to imitate the human ability as described above. be.
[検索システムの概要]
 以下、本実施形態における検索システムの概要について説明する。本実施形態における検索システムは、映像と音とのクロスモーダルでの表現学習と、弱ラベルに基づく目的対象検出におけるマルチタスク学習とを行う。
[Overview of search system]
Hereinafter, the outline of the search system in this embodiment will be described. The search system in the present embodiment performs cross-modal expression learning of video and sound, and multi-task learning in target target detection based on weak labels.
 図1は、本発明の第1の実施形態における検索システム1の構成の概要図である。本実施形態における検索システム1は、映像クエリ抽出部(Video encoder)、音声辞書抽出部(Audio encoder)、及び目的対象検出部(Awareness mechanism)の3つの構成部からなるDNNを含んで構成される。 FIG. 1 is a schematic diagram of the configuration of the search system 1 according to the first embodiment of the present invention. The search system 1 in the present embodiment includes a DNN including a video query extraction unit (Video encoder), a voice dictionary extraction unit (Audio encoder), and a target target detection unit (Awareness mechanism). ..
 映像クエリ抽出部(Video encoder)は映像を、また、音声辞書抽出部(Audio encoder)は音声を、それぞれ共通の埋め込み空間内でベクトルにエンコードして埋め込みを行う。埋め込みとは、高次元ベクトルの低次元空間への変換である。映像クエリ抽出部による埋め込みと音声辞書抽出部による埋め込みとは、検索時においては、それぞれクエリと辞書としての役割を有する。 The video query extraction unit (Video encoder) encodes the video, and the voice dictionary extraction unit (Audio encoder) encodes the audio into a vector in a common embedded space for embedding. Embedding is the transformation of a high-dimensional vector into a low-dimensional space. The embedding by the video query extraction unit and the embedding by the voice dictionary extraction unit have the roles of a query and a dictionary, respectively, at the time of search.
 目的対象検出部(Awareness mechanism)では、学習時のみ使用される。目的対象検出部は、入力映像及び入力音声に、それぞれ目的対象が含まれているか否かを識別するように機械学習が行われる。 In the target target detection unit (Awareness mechanism), it is used only during learning. The target object detection unit performs machine learning so as to identify whether or not the input video and the input sound include the target object.
[マージン正規化]
 目的対象検出部は、弱ラベルに基づくマルチタスク学習を行う。以下、目的対象検出部によるマージン正規化について説明する。
 N個のタスクからなるマルチタスク学習の損失関数は、各タスクの損失関数L_iの重み付き和として以下の(3)式によって表すことができる。
[Margin normalization]
The target target detection unit performs multi-task learning based on the weak label. The margin normalization by the target target detection unit will be described below.
The loss function of multi-task learning consisting of N tasks can be expressed by the following equation (3) as a weighted sum of the loss function L_i of each task.
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000003
 ここで、λ_iは、i番目のタスクに対する正定数の重みである。λ_iにより、各タスクに対する損失関数の値の大きさが調整される。 Here, λ_i is a positive constant weight for the i-th task. λ_i adjusts the magnitude of the value of the loss function for each task.
 しかしながら、学習が進行するにつれて値の範囲が変化する損失関数と、学習が進行しても値の範囲が変化しない損失関数とが統合される場合において、上記のような固定の正定数の重みであるλ_iが用いられると、各タスクに対する損失関数の値の大きさに不均衡が生じる。これにより、値の大きい方の損失関数ばかりが評価されてしまい、正しく学習がなされない状況が生じうる。 However, when the loss function whose value range changes as the learning progresses and the loss function whose value range does not change as the learning progresses are integrated, the weight of the fixed positive constant as described above is used. When a certain λ_i is used, there is an imbalance in the magnitude of the value of the loss function for each task. As a result, only the loss function having the larger value is evaluated, and a situation may occur in which learning is not performed correctly.
 このような問題を解決するため、学習が進行するにつれて値の範囲が変化する損失関数の値が、学習の進行に応じて正規化される必要がある。そして、正規化された損失関数の値が、学習が進行しても値の範囲が変化しない損失関数の値と統合される必要がある。 In order to solve such a problem, it is necessary to normalize the value of the loss function whose range of values changes as the learning progresses. Then, the value of the normalized loss function needs to be integrated with the value of the loss function whose range of values does not change as the learning progresses.
 前述の(1)式によって示される三項損失のコスト関数の値は、前述の(2)式によって示されるマージンパラメータδの導入によって学習の進行とともに値の範囲が大きく変化する。これに対し、本実施形態における検索システム1は、マージン正規化を行う。ここでいうマージン正規化とは、三項損失のコスト関数をマージンパラメータδによって除算することで、学習の進行に伴う損失関数の値の範囲の変化を打ち消して正規化する手法である。 The value range of the value of the cost function of the trinomial loss represented by the above-mentioned equation (1) changes greatly with the progress of learning due to the introduction of the margin parameter δ represented by the above-mentioned equation (2). On the other hand, the search system 1 in the present embodiment performs margin normalization. The margin normalization here is a method of dividing the cost function of the trinomial loss by the margin parameter δ to cancel and normalize the change in the value range of the loss function as the learning progresses.
 前述の(1)式によって示される三項損失のN個のコスト関数L^triplet_iと、マージンパラメータδに依存しないM個のコスト関数L^stable_jによるマルチタスク学習において、上記のマージン正規化を適用した全体のコスト関数は以下の(4)式によって表される。 The above margin normalization is applied to multitask learning by N cost functions L ^ triplet_i of the trinomial loss shown by the above equation (1) and M cost functions L ^ table_j that do not depend on the margin parameter δ. The total cost function is expressed by the following equation (4).
Figure JPOXMLDOC01-appb-M000004
Figure JPOXMLDOC01-appb-M000004
 ここで、δ_iはi番目のタスクに対するマージンパラメータである。δ_iは、学習の進行伴って変化する正の実数、又は正定数である。マージン正規化が行われることにより、前述のマージンパラメータδの値の増加による学習の安定化と、前述の損失関数の不均衡の解消とが両立される。 Here, δ_i is a margin parameter for the i-th task. δ_i is a positive real number or a positive constant that changes as learning progresses. By performing the margin normalization, the stabilization of learning by increasing the value of the margin parameter δ described above and the elimination of the imbalance of the loss function described above are compatible.
[検索システムの構成]
 以下、第1の実施形態における検索システム1の構成について説明する。
 本実施形態における検索システム1による検索処理の目的対象は、一例として、テレビ放送における効果音、及び付随する映像効果である。
[Search system configuration]
Hereinafter, the configuration of the search system 1 according to the first embodiment will be described.
The object of the search process by the search system 1 in the present embodiment is, for example, a sound effect in a television broadcast and an accompanying video effect.
 図2は、本発明の第1の実施形態における検索システム1の構成を示すブロック図である。図2に示されるように、本実施形態における検索システム1は、学習装置10と検索装置20とを有する。
 学習装置10は、機械学習を行い、学習結果である学習モデルを生成する。学習装置10は、生成された学習モデルを検索装置20へ出力する。
 検索装置20は、学習装置10から出力された学習モデルを取得する。検索装置20は、取得した学習モデルを用いて検索処理を実行する。
FIG. 2 is a block diagram showing a configuration of the search system 1 according to the first embodiment of the present invention. As shown in FIG. 2, the search system 1 in the present embodiment has a learning device 10 and a search device 20.
The learning device 10 performs machine learning and generates a learning model which is a learning result. The learning device 10 outputs the generated learning model to the search device 20.
The search device 20 acquires the learning model output from the learning device 10. The search device 20 executes a search process using the acquired learning model.
[学習装置の構成]
 以下、学習装置10の構成について説明する。
 図3は、本発明の第1の実施形態における学習装置10の機能構成を示すブロック図である。
[Configuration of learning device]
Hereinafter, the configuration of the learning device 10 will be described.
FIG. 3 is a block diagram showing a functional configuration of the learning device 10 according to the first embodiment of the present invention.
 図3に示されるように、学習装置10は、映像入力部101と、音声入力部102と、スペクトログラム抽出部103と、映像クエリ抽出部104と、音声辞書抽出部105と、目的対象検出部106と、第1検出結果出力部107と、第2検出結果出力部108と、目的対象ラベル記憶部109と、検出コスト計算部110と、埋め込みコスト計算部111と、学習コスト計算部112とを含んで構成される。 As shown in FIG. 3, the learning device 10 includes a video input unit 101, a voice input unit 102, a spectrogram extraction unit 103, a video query extraction unit 104, a voice dictionary extraction unit 105, and a target target detection unit 106. The first detection result output unit 107, the second detection result output unit 108, the target target label storage unit 109, the detection cost calculation unit 110, the embedding cost calculation unit 111, and the learning cost calculation unit 112 are included. Consists of.
 映像入力部101は、入力データを取得する。本実施形態において、入力データは、音声付きの映像(動画)である。当該音声付きの映像は、短時間ごと(例えば数秒ごと)の映像クリップに分割されている。映像入力部101は、入力データから映像データを取り出す。映像入力部101は、取得した映像に対して、解像度を下げる処理及びフレームの間引き処理を行うことによって画像圧縮を行う。映像入力部101は、取得した映像に対して、後段の映像クエリ抽出部104に入力可能となるように上記の画像圧縮を行う。映像入力部101は、圧縮された映像を映像クエリ抽出部104へ出力する。 The video input unit 101 acquires input data. In the present embodiment, the input data is a video (moving image) with audio. The video with audio is divided into video clips every short time (for example, every few seconds). The video input unit 101 takes out video data from the input data. The video input unit 101 compresses the acquired video by performing a resolution lowering process and a frame thinning process. The video input unit 101 performs the above-mentioned image compression so that the acquired video can be input to the video query extraction unit 104 in the subsequent stage. The video input unit 101 outputs the compressed video to the video query extraction unit 104.
 音声入力部102は、入力データを取得する。本実施形態において、入力データは、音声付きの映像(動画)である。音声入力部102に入力される入力データは、前述の映像入力部101に入力される入力データと同一のデータである。音声入力部102は、入力データから音響データを取り出す。音声入力部102は、取得した音響データを、スペクトログラム抽出部103へ出力する。 The voice input unit 102 acquires input data. In the present embodiment, the input data is a video (moving image) with audio. The input data input to the voice input unit 102 is the same data as the input data input to the video input unit 101 described above. The voice input unit 102 extracts acoustic data from the input data. The voice input unit 102 outputs the acquired acoustic data to the spectrogram extraction unit 103.
 なお、入力データである音声付きの映像(動画)が映像データと音響データとに予め分離され、分離された映像データと音響データとがそれぞれ映像入力部101と音声入力部102とに入力される構成であってもよい。この場合、入力データを映像データと音響データとに分離する機能部は、学習装置10の内部に備えられていてもよいし、学習装置10の外部に備えられていてもよい。 The video (video) with audio, which is input data, is separated into video data and acoustic data in advance, and the separated video data and acoustic data are input to the video input unit 101 and the audio input unit 102, respectively. It may be configured. In this case, the functional unit that separates the input data into the video data and the acoustic data may be provided inside the learning device 10 or may be provided outside the learning device 10.
 スペクトログラム抽出部103は、音声入力部102から出力された音響データを取得する。スペクトログラム抽出部103は、取得した音響データに対して、短時間フーリエ変換(STFT)を行う。スペクトログラム抽出部103は、短時間フーリエ変換がなされた音響データを音声辞書抽出部105へ出力する。 The spectrogram extraction unit 103 acquires the acoustic data output from the voice input unit 102. The spectrogram extraction unit 103 performs a short-time Fourier transform (STFT) on the acquired acoustic data. The spectrogram extraction unit 103 outputs the acoustic data subjected to the short-time Fourier transform to the speech dictionary extraction unit 105.
 映像クエリ抽出部104(Video encoder)は、映像入力部101から出力された映像データを取得する。映像クエリ抽出部104は、取得した映像データを入力とするDNNモデルによって、目的対象音声の検索クエリとして用いるための埋め込みベクトル(embedding)を抽出する。映像クエリ抽出部104は、抽出された埋め込みベクトルを目的対象検出部106及び埋め込みコスト計算部111へ出力する。 The video query extraction unit 104 (Video encoder) acquires the video data output from the video input unit 101. The video query extraction unit 104 extracts an embedded vector (embedding) for use as a search query for the target audio by using a DNN model that inputs the acquired video data. The video query extraction unit 104 outputs the extracted embedded vector to the target target detection unit 106 and the embedding cost calculation unit 111.
 音声辞書抽出部105(Audio encoder)は、スペクトログラム抽出部103から出力された音響データを取得する。音声辞書抽出部105は、取得した音響データを入力とするDNNモデルによって、音響効果の検索クエリとして用いるための埋め込みベクトル(embedding)を抽出する。音声辞書抽出部105は、抽出された埋め込みベクトルを目的対象検出部106及び埋め込みコスト計算部111へ出力する。 The voice dictionary extraction unit 105 (Audio encoder) acquires the acoustic data output from the spectrogram extraction unit 103. The voice dictionary extraction unit 105 extracts an embedded vector (embedding) for use as a search query for sound effects by using a DNN model that inputs acquired sound data. The voice dictionary extraction unit 105 outputs the extracted embedded vector to the target target detection unit 106 and the embedding cost calculation unit 111.
 目的対象検出部106(Awareness mechanism)は、映像クエリ抽出部104から出力された埋め込みベクトル、及び音声辞書抽出部105から出力された埋め込みベクトルを取得する。目的対象検出部106は、映像クエリ抽出部104から出力された埋め込みベクトル、又は音声辞書抽出部105から出力された埋め込みベクトルを入力とするDNNモデルによって、入力データが目的対象を含んでいるか否かを検出する。 The target target detection unit 106 (Awareness mechanism) acquires an embedded vector output from the video query extraction unit 104 and an embedded vector output from the audio dictionary extraction unit 105. Whether or not the input data includes the target object by the DNN model in which the embedded vector output from the video query extraction unit 104 or the embedded vector output from the voice dictionary extraction unit 105 is input to the target target detection unit 106. Is detected.
 なお、目的対象検出部106は、映像クエリ抽出部104から出力された埋め込みベクトル及び音声辞書抽出部105から出力された埋め込みベクトルの双方の入力に対して、同一のDNNモデルを用いて検出を行う。ただし、映像クエリ抽出部104から出力された埋め込みベクトルを入力とする計算と、音声辞書抽出部105から出力された埋め込みベクトルを入力とする計算とは、それぞれ独立に行われる。 The target target detection unit 106 detects both the input of the embedded vector output from the video query extraction unit 104 and the embedded vector output from the audio dictionary extraction unit 105 using the same DNN model. .. However, the calculation using the embedded vector output from the video query extraction unit 104 as the input and the calculation using the embedded vector output from the audio dictionary extraction unit 105 as the input are performed independently.
 目的対象検出部106は、映像クエリ抽出部104から出力された埋め込みベクトルを入力とする計算による検出結果を第1検出結果出力部107へ出力する。また、目的対象検出部106は、音声辞書抽出部105から出力された埋め込みベクトルを入力とする計算による検出結果を第2検出結果出力部108へ出力する。 The target target detection unit 106 outputs the detection result calculated by inputting the embedded vector output from the video query extraction unit 104 to the first detection result output unit 107. Further, the target target detection unit 106 outputs the detection result calculated by inputting the embedded vector output from the voice dictionary extraction unit 105 to the second detection result output unit 108.
 第1検出結果出力部107は、目的対象検出部106から出力された検出結果を取得する。ここで、第1検出結果出力部107が取得する検出結果とは、目的対象検出部106において、映像クエリ抽出部104から出力された埋め込みベクトルを入力とするDNNモデルによる計算によって検出された、入力データが目的対象を含んでいるか否かを示す情報である。第1検出結果出力部107は、取得した検出結果を示す情報を検出コスト計算部110へ出力する。 The first detection result output unit 107 acquires the detection result output from the target target detection unit 106. Here, the detection result acquired by the first detection result output unit 107 is an input detected by the DNN model in which the embedded vector output from the video query extraction unit 104 is input in the target target detection unit 106. Information indicating whether or not the data includes a target object. The first detection result output unit 107 outputs information indicating the acquired detection result to the detection cost calculation unit 110.
 第2検出結果出力部108は、目的対象検出部106から出力された検出結果を取得する。ここで、第2検出結果出力部108が取得する検出結果とは、目的対象検出部106において、音声辞書抽出部105から出力された埋め込みベクトルを入力とするDNNモデルによる計算によって検出された、入力データが目的対象を含んでいるか否かを示す情報である。第2検出結果出力部108は、取得した検出結果を示す情報を検出コスト計算部110へ出力する。 The second detection result output unit 108 acquires the detection result output from the target target detection unit 106. Here, the detection result acquired by the second detection result output unit 108 is an input detected by the DNN model in which the embedded vector output from the voice dictionary extraction unit 105 is input in the target target detection unit 106. Information indicating whether or not the data includes a target object. The second detection result output unit 108 outputs the information indicating the acquired detection result to the detection cost calculation unit 110.
 目的対象ラベル記憶部109は、ラベルデータを予め記憶する。本実施形態において、ラベルデータとは、映像入力部101及び音声入力部102に入力される入力データの各映像クリップに検索の目的対象が含まれているか否かを示す情報である。すなわち、目的対象ラベル記憶部109に記憶されたラベルデータは、弱ラベルのラベルデータである。 The target target label storage unit 109 stores label data in advance. In the present embodiment, the label data is information indicating whether or not each video clip of the input data input to the video input unit 101 and the audio input unit 102 includes the target target of the search. That is, the label data stored in the target target label storage unit 109 is weak label label data.
 目的対象ラベル記憶部109は、例えば、RAM(Random Access Memory)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、及びHDD(Hard Disk Drive)等の記憶媒体、又はこれらの記憶媒体の任意の組み合わせを含んで構成される。 The target label storage unit 109 is, for example, a storage medium such as a RAM (RandomAccessMemory), a flash memory, an EEPROM (Electrically ErasableProgrammableReadOnlyMemory), and an HDD (HardDiskDrive), or any of these storage media. Consists of combinations.
 検出コスト計算部110は、第1検出結果出力部107から出力された検出結果を示す情報、及び第2検出結果出力部108から出力された検出結果を示す情報を取得する。また、検出コスト計算部110は、目的対象ラベル記憶部109に記憶された目的対象のラベルデータである目的対象ラベルを取得する。 The detection cost calculation unit 110 acquires information indicating the detection result output from the first detection result output unit 107 and information indicating the detection result output from the second detection result output unit 108. Further, the detection cost calculation unit 110 acquires the target target label which is the label data of the target target stored in the target target label storage unit 109.
 検出コスト計算部110は、第1検出結果出力部107から出力された検出結果を示す情報、及び第2検出結果出力部108から出力された検出結果を示す情報、及び目的対象ラベル記憶部109から取得された目的対象ラベルに基づいて、検出コストを計算する。 The detection cost calculation unit 110 is from the information indicating the detection result output from the first detection result output unit 107, the information indicating the detection result output from the second detection result output unit 108, and the target target label storage unit 109. Calculate the detection cost based on the obtained target label.
 ここで、第1検出結果出力部107から出力された検出結果を示す情報及び第2検出結果出力部108から出力された検出結果を示す情報と、目的対象ラベル記憶部109から取得された目的対象ラベルとの間のBCE(Binary Corss Entropy)を、検出コスト関数L_awareとする。
 検出コスト計算部110は、検出コスト関数L_awareを学習コスト計算部112へ出力する。
Here, the information indicating the detection result output from the first detection result output unit 107, the information indicating the detection result output from the second detection result output unit 108, and the target target acquired from the target target label storage unit 109. The BCE (Binary Conclusion Entry) between the label and the label is defined as the detection cost function L_aware.
The detection cost calculation unit 110 outputs the detection cost function L_aware to the learning cost calculation unit 112.
 埋め込みコスト計算部111は、映像クエリ抽出部104から出力された埋め込みベクトル、及び音声辞書抽出部105から出力された埋め込みベクトルを取得する。埋め込みコスト計算部111は、映像クエリ抽出部104から出力された埋め込みベクトル及び音声辞書抽出部105から出力された埋め込みベクトルと、以下の(5)式によって示されるコスト関数に基づいて、埋め込みコストL_tripletを計算する。 The embedding cost calculation unit 111 acquires the embedding vector output from the video query extraction unit 104 and the embedding vector output from the audio dictionary extraction unit 105. The embedding cost calculation unit 111 is based on the embedding vector output from the video query extraction unit 104, the embedding vector output from the voice dictionary extraction unit 105, and the cost function represented by the following equation (5), and the embedding cost L_triplet. To calculate.
Figure JPOXMLDOC01-appb-M000005
Figure JPOXMLDOC01-appb-M000005
 (5)式の右辺の2つの項は、いずれも(1)式で表される三項損失関数である。三項損失関数における、類似ペア及び非類似ペアの構成は、第1項のL_interでは映像と音声との間の類似性に基づいて行われ、第2項のL_intraでは映像内の類似性及び音声内の類似性に基づいて行われる。また、λ_1は正定数である。 The two terms on the right side of Eq. (5) are both trinomial loss functions expressed by Eq. (1). The composition of similar pairs and dissimilar pairs in the trinomial loss function is based on the similarity between video and audio in the first term L_inter, and in the second term L_intra, the similarity and audio in the video. It is done based on the similarities within. Further, λ_1 is a positive constant.
 埋め込みコスト計算部111は、算出された埋め込みコストL_tripletを学習コスト計算部112へ出力する。 The embedding cost calculation unit 111 outputs the calculated embedding cost L_triplet to the learning cost calculation unit 112.
 学習コスト計算部112は、検出コスト計算部110から出力された検出コスト関数L_awareを取得する。また、学習コスト計算部112は、埋め込みコスト計算部111から出力された埋め込みコストL_tripletを取得する。学習コスト計算部112は、取得した検出コスト関数L_awareと埋め込みコストL_tripletに基づいて、以下の(6)式によって全体の学習コストLを計算する。 The learning cost calculation unit 112 acquires the detection cost function L_aware output from the detection cost calculation unit 110. Further, the learning cost calculation unit 112 acquires the embedding cost L_triplet output from the embedding cost calculation unit 111. The learning cost calculation unit 112 calculates the total learning cost L by the following equation (6) based on the acquired detection cost function L_aware and the embedding cost L_triplet.
Figure JPOXMLDOC01-appb-M000006
Figure JPOXMLDOC01-appb-M000006
 ここで、δは、(1)式で表される三項損失関数におけるマージンパラメータである。学習コスト計算部112は、(6)式の右辺の第1項において埋め込みコストL_tripletをδで除算することによって、前述のマージン正規化を行う。 Here, δ is a margin parameter in the trinomial loss function expressed by Eq. (1). The learning cost calculation unit 112 performs the above-mentioned margin normalization by dividing the embedding cost L_triplet by δ in the first term on the right side of the equation (6).
 学習装置10は、(6)式によって表される全体のコスト関数Lを最少化するように、映像クエリ抽出部104のDNNモデルのパラメータ、音声辞書抽出部105のDNNモデルのパラメータ、及び目的対象検出部106のDNNモデルのパラメータを更新する。 The learning device 10 has the parameters of the DNN model of the video query extraction unit 104, the parameters of the DNN model of the voice dictionary extraction unit 105, and the target object so as to minimize the overall cost function L represented by the equation (6). The parameters of the DNN model of the detection unit 106 are updated.
 なお、本実施形態では、値を最小化することによって最適化されるコスト関数が用いられるものとしたが、値を最大化することによって最適化されるコスト関数が用いられてもよい。 In the present embodiment, the cost function optimized by minimizing the value is used, but the cost function optimized by maximizing the value may be used.
 学習装置10は、機械学習が完了した場合、更新された映像クエリ抽出部104のDNNモデルを示す情報、及び音声辞書抽出部105のDNNモデルを示す情報を、後述される検索装置20へ出力する。 When the machine learning is completed, the learning device 10 outputs the updated information indicating the DNN model of the video query extraction unit 104 and the information indicating the DNN model of the audio dictionary extraction unit 105 to the search device 20 described later. ..
[検索装置の構成]
 以下、検索装置20の構成について説明する。
 図4は、本発明の第1の実施形態における検索装置20の機能構成を示すブロック図である。
[Search device configuration]
Hereinafter, the configuration of the search device 20 will be described.
FIG. 4 is a block diagram showing a functional configuration of the search device 20 according to the first embodiment of the present invention.
 図4に示されるように、検索装置20は、映像入力部201と、音声入力部202と、スペクトログラム抽出部203と、映像クエリ抽出部204と、音声辞書抽出部205と、音声辞書記憶部206と、埋め込み距離計算部207と、音声検索結果出力部208と、映像出力部209とを含んで構成される。 As shown in FIG. 4, the search device 20 includes a video input unit 201, a voice input unit 202, a spectrogram extraction unit 203, a video query extraction unit 204, a voice dictionary extraction unit 205, and a voice dictionary storage unit 206. The embedded distance calculation unit 207, the audio search result output unit 208, and the video output unit 209 are included.
 映像入力部201は、入力データを取得する。本実施形態において、入力データは、音声付きの映像(動画)である。当該音声付きの映像は、短時間ごと(例えば数秒ごと)の映像クリップに分割されている。映像入力部201は、入力データから映像データを取り出す。映像入力部201は、取得した映像に対して、解像度を下げる処理及びフレームの間引き処理を行うことによって画像圧縮を行う。映像入力部201は、取得した映像に対して、後段の映像クエリ抽出部204に入力可能となるように上記の画像圧縮を行う。映像入力部201は、圧縮された映像を映像クエリ抽出部204へ出力する。 The video input unit 201 acquires input data. In the present embodiment, the input data is a video (moving image) with audio. The video with audio is divided into video clips every short time (for example, every few seconds). The video input unit 201 takes out video data from the input data. The video input unit 201 performs image compression on the acquired video by performing a resolution lowering process and a frame thinning process. The video input unit 201 performs the above-mentioned image compression so that the acquired video can be input to the video query extraction unit 204 in the subsequent stage. The video input unit 201 outputs the compressed video to the video query extraction unit 204.
 音声入力部202は、入力データを取得する。本実施形態において、入力データは、音声付きの映像(動画)である。音声入力部202に入力される入力データは、前述の映像入力部201に入力される入力データと同一のデータである。音声入力部202は、入力データから音響データを取り出す。音声入力部202は、取得した音響データを、スペクトログラム抽出部203へ出力する。 The voice input unit 202 acquires input data. In the present embodiment, the input data is a video (moving image) with audio. The input data input to the audio input unit 202 is the same data as the input data input to the video input unit 201 described above. The voice input unit 202 extracts acoustic data from the input data. The voice input unit 202 outputs the acquired acoustic data to the spectrogram extraction unit 203.
 なお、入力データである音声付きの映像(動画)が映像データと音響データとに予め分離され、分離された映像データと音響データとがそれぞれ映像入力部201と音声入力部202とに入力される構成であってもよい。この場合、入力データを映像データと音響データとに分離する機能部は、検索装置20の内部に備えられていてもよいし、検索装置20の外部に備えられていてもよい。 The video (video) with audio, which is input data, is separated into video data and acoustic data in advance, and the separated video data and acoustic data are input to the video input unit 201 and the audio input unit 202, respectively. It may be configured. In this case, the functional unit that separates the input data into the video data and the acoustic data may be provided inside the search device 20 or may be provided outside the search device 20.
 なお、上記の通り本実施形態においては、音声入力部202は、前述の学習装置10の音声入力部102と同様に、映像入力部201に入力される入力データと同一のデータから音響データを取り出すものとしたが、これに限られるものではない。音声入力部202は、映像入力部201に入力される入力データに含まれる音響データとは別の音響データ取得するようにしてもよい。 As described above, in the present embodiment, the audio input unit 202 extracts acoustic data from the same data as the input data input to the video input unit 201, similarly to the audio input unit 102 of the learning device 10 described above. However, it is not limited to this. The audio input unit 202 may acquire acoustic data different from the acoustic data included in the input data input to the video input unit 201.
 スペクトログラム抽出部203は、音声入力部202から出力された音響データを取得する。スペクトログラム抽出部203は、取得した音響データに対して、短時間フーリエ変換(STFT)を行う。スペクトログラム抽出部203は、短時間フーリエ変換がなされた音響データを音声辞書抽出部205へ出力する。 The spectrogram extraction unit 203 acquires the acoustic data output from the voice input unit 202. The spectrogram extraction unit 203 performs a short-time Fourier transform (STFT) on the acquired acoustic data. The spectrogram extraction unit 203 outputs the acoustic data subjected to the short-time Fourier transform to the speech dictionary extraction unit 205.
 映像クエリ抽出部204(Video encoder)は、映像入力部201から出力された映像データを取得する。映像クエリ抽出部204は、取得した映像データを入力とするDNNモデルによって、目的対象音声の検索クエリとして用いるための埋め込みベクトル(embedding)を抽出する。映像クエリ抽出部204は、抽出された埋め込みベクトルを埋め込み距離計算部207へ出力する。 The video query extraction unit 204 (Video encoder) acquires the video data output from the video input unit 201. The video query extraction unit 204 extracts an embedded vector (embedding) for use as a search query for the target audio by using a DNN model that inputs the acquired video data. The video query extraction unit 204 outputs the extracted embedded vector to the embedding distance calculation unit 207.
 音声辞書抽出部205(Audio encoder)は、スペクトログラム抽出部203から出力された音響データを取得する。音声辞書抽出部205は、取得した音響データを入力とするDNNモデルによって、音響効果の検索クエリとして用いるための埋め込みベクトル(embedding)を抽出する。音声辞書抽出部205は、抽出された埋め込みベクトルを音声辞書記憶部206に記録する。 The voice dictionary extraction unit 205 (Audio encoder) acquires the acoustic data output from the spectrogram extraction unit 203. The voice dictionary extraction unit 205 extracts an embedded vector (embedding) to be used as a search query for sound effects by a DNN model in which the acquired sound data is input. The voice dictionary extraction unit 205 records the extracted embedded vector in the voice dictionary storage unit 206.
 音声辞書記憶部206は、音声辞書抽出部205によって記録された埋め込みベクトルである音声辞書を記憶する。音声辞書とは、検索対象とする音声入力全体が、音声辞書抽出部205によって辞書に変換されたものである。
 音声辞書記憶部206は、記憶媒体例えば、RAM、フラッシュメモリ、EEPROM、及びHDDの記憶媒体、又はこれらの記憶媒体の任意の組み合わせを含んで構成される。
The voice dictionary storage unit 206 stores a voice dictionary which is an embedded vector recorded by the voice dictionary extraction unit 205. The voice dictionary is a dictionary in which the entire voice input to be searched is converted into a dictionary by the voice dictionary extraction unit 205.
The voice dictionary storage unit 206 is configured to include storage media such as RAM, flash memory, EEPROM, and HDD storage media, or any combination of these storage media.
 埋め込み距離計算部207は、映像クエリ抽出部204から出力された埋め込みベクトルを取得する。また、埋め込み距離計算部207は、音声辞書記憶部206に記憶された埋め込みベクトル(音声辞書)を取得する。埋め込み距離計算部207は、映像クエリ抽出部204から出力された埋め込みベクトルと、音声辞書記憶部206に記憶された埋め込みベクトルとの間の距離(例えば、ユークリッド距離)を計算する。埋め込み距離計算部207は、算出された距離を示す情報を音声検索結果出力部208へ出力する。 The embedding distance calculation unit 207 acquires the embedding vector output from the video query extraction unit 204. Further, the embedded distance calculation unit 207 acquires an embedded vector (voice dictionary) stored in the voice dictionary storage unit 206. The embedded distance calculation unit 207 calculates the distance (for example, the Euclidean distance) between the embedded vector output from the video query extraction unit 204 and the embedded vector stored in the voice dictionary storage unit 206. The embedded distance calculation unit 207 outputs information indicating the calculated distance to the voice search result output unit 208.
 音声検索結果出力部208は、埋め込み距離計算部207から出力された、埋め込みベクトル間の距離を示す情報を取得する。音声検索結果出力部208は、取得した情報に基づく距離を短い順に並べ替えた場合に先頭となる距離(すなわち、最も短い距離)に対応する埋め込みベクトル(音声辞書)を特定する。音声検索結果出力部208は、特定された埋め込みベクトルに対応する音響データを映像出力部209へ出力する。 The voice search result output unit 208 acquires the information indicating the distance between the embedding vectors output from the embedding distance calculation unit 207. The voice search result output unit 208 identifies an embedded vector (voice dictionary) corresponding to the leading distance (that is, the shortest distance) when the distances based on the acquired information are sorted in ascending order. The voice search result output unit 208 outputs the acoustic data corresponding to the specified embedded vector to the video output unit 209.
 映像出力部209は、音声検索結果出力部208から出力された音響データを取得する。映像出力部209は、映像入力部201によって取得された入力データに含まれる映像データに、当該音響データを結合する。映像出力部209は、音声付きの映像を出力する。 The video output unit 209 acquires the acoustic data output from the voice search result output unit 208. The video output unit 209 combines the acoustic data with the video data included in the input data acquired by the video input unit 201. The video output unit 209 outputs a video with audio.
[学習装置の動作]
 以下、学習装置10の動作の一例について説明する。
 図5は、本発明の第1の実施形態における学習装置10の動作を示すフローチャートである。
[Operation of learning device]
Hereinafter, an example of the operation of the learning device 10 will be described.
FIG. 5 is a flowchart showing the operation of the learning device 10 according to the first embodiment of the present invention.
 学習装置10の映像入力部101及び音声入力部102は、入力データを取得する(ステップS001)。本実施形態において、入力データは、音声付きの映像(動画)である。当該音声付きの映像は、短時間ごと(例えば数秒ごと)の映像クリップに分割されている。 The video input unit 101 and the audio input unit 102 of the learning device 10 acquire input data (step S001). In the present embodiment, the input data is a video (moving image) with audio. The video with audio is divided into video clips every short time (for example, every few seconds).
 次に、映像入力部101は、入力データから映像データを取り出す。映像入力部101は、取得した映像に対して、解像度を下げる処理及びフレームの間引き処理を行うことによって画像圧縮を実行する(ステップS002)。 Next, the video input unit 101 takes out video data from the input data. The video input unit 101 executes image compression by performing a resolution lowering process and a frame thinning process on the acquired video (step S002).
 次に、映像クエリ抽出部104は、映像入力部101から取得した映像データを入力とするDNNモデルによって、目的対象音声の検索クエリとして用いるための埋め込みベクトルを抽出する(ステップS003)。 Next, the video query extraction unit 104 extracts an embedded vector to be used as a search query for the target audio by using a DNN model that inputs video data acquired from the video input unit 101 (step S003).
 次に、音声入力部102は、入力データから音響データを取り出す。スペクトログラム抽出部103は、音声入力部102から取得した音響データに対して、短時間フーリエ変換を実行する(ステップS004)。 Next, the voice input unit 102 extracts acoustic data from the input data. The spectrogram extraction unit 103 executes a short-time Fourier transform on the acoustic data acquired from the voice input unit 102 (step S004).
 次に、音声辞書抽出部105は、スペクトログラム抽出部103から取得した音響データを入力とするDNNモデルによって、音響効果の検索クエリとして用いるための埋め込みベクトルを抽出する(ステップS005)。 Next, the voice dictionary extraction unit 105 extracts an embedded vector to be used as a search query for acoustic effects by a DNN model that inputs acoustic data acquired from the spectrogram extraction unit 103 (step S005).
 次に、目的対象検出部106は、映像クエリ抽出部104から取得した埋め込みベクトルを入力とするDNNモデル、及び音声辞書抽出部105から取得した埋め込みベクトルを入力とするDNNモデルによって、入力データが目的対象を含んでいるか否かを判定する(ステップS006)。 Next, the target target detection unit 106 uses a DNN model that inputs an embedded vector acquired from the video query extraction unit 104 and a DNN model that inputs an embedded vector acquired from the voice dictionary extraction unit 105 to input data. It is determined whether or not the target is included (step S006).
 検出コスト計算部110は、映像クエリ抽出部104から取得した埋め込みベクトルを入力とするDNNモデルによる上記の判定結果、音声辞書抽出部105から取得した埋め込みベクトルを入力とするDNNモデルによる上記の判定結果、及び目的対象ラベル記憶部109に予め記憶された目的対象ラベルに基づいて、検出コストを算出する(ステップS007)。 The detection cost calculation unit 110 has the above determination result by the DNN model inputting the embedded vector acquired from the video query extraction unit 104, and the above determination result by the DNN model inputting the embedded vector acquired from the voice dictionary extraction unit 105. , And the detection cost is calculated based on the target target label stored in advance in the target target label storage unit 109 (step S007).
 埋め込みコスト計算部111は、映像クエリ抽出部104から取得した埋め込みベクトル及び音声辞書抽出部105から取得した埋め込みベクトルと、コスト関数とに基づいて、埋め込みコストを算出する(ステップS008)。 The embedding cost calculation unit 111 calculates the embedding cost based on the embedding vector acquired from the video query extraction unit 104, the embedding vector acquired from the voice dictionary extraction unit 105, and the cost function (step S008).
 学習コスト計算部112は、検出コスト計算部から取得した検出コストと、埋め込みコスト計算部111から取得した埋め込みコストとに基づいて、全体の学習コストを算出する(ステップS009)。
 以上で、図5のフローチャートが示す学習装置10の動作が終了する。
The learning cost calculation unit 112 calculates the total learning cost based on the detection cost acquired from the detection cost calculation unit and the embedding cost acquired from the embedding cost calculation unit 111 (step S009).
This completes the operation of the learning device 10 shown in the flowchart of FIG.
[検索装置の動作]
 以下、検索装置20の動作の一例について説明する。
 図6は、本発明の第1の実施形態における検索装置20の動作を示すフローチャートである。
[Operation of search device]
Hereinafter, an example of the operation of the search device 20 will be described.
FIG. 6 is a flowchart showing the operation of the search device 20 according to the first embodiment of the present invention.
 検索装置20は、学習装置10から学習モデルを取得する(ステップS101)。ここでいう学習モデルには、例えば、学習装置10による機械学習が行われた後の、学習装置10の映像クエリ抽出部104のDNNモデルのパラメータ及び音声辞書抽出部105のDNNモデルのパラメータを含む。検索装置20は、学習装置10の映像クエリ抽出部104のDNNモデルのパラメータ及び音声辞書抽出部105のDNNモデルのパラメータを、それぞれ検索装置20の映像クエリ抽出部204のDNNモデル及び音声辞書抽出部205のDNNモデルに設定する。 The search device 20 acquires a learning model from the learning device 10 (step S101). The learning model referred to here includes, for example, the parameters of the DNN model of the video query extraction unit 104 of the learning device 10 and the parameters of the DNN model of the voice dictionary extraction unit 105 after machine learning is performed by the learning device 10. .. The search device 20 sets the parameters of the DNN model of the video query extraction unit 104 of the learning device 10 and the parameters of the DNN model of the voice dictionary extraction unit 105 to the DNN model and the voice dictionary extraction unit of the video query extraction unit 204 of the search device 20, respectively. Set to 205 DNN model.
 検索装置20の映像入力部201及び音声入力部202は、入力データを取得する(ステップS102)。本実施形態において、入力データは、音声付きの映像(動画)である。当該音声付きの映像は、短時間ごと(例えば数秒ごと)の映像クリップに分割されている。 The video input unit 201 and the audio input unit 202 of the search device 20 acquire input data (step S102). In the present embodiment, the input data is a video (moving image) with audio. The video with audio is divided into video clips every short time (for example, every few seconds).
 次に、映像入力部201は、入力データから映像データを取り出す。映像入力部201は、取得した映像に対して、解像度を下げる処理及びフレームの間引き処理を行うことによって画像圧縮を実行する(ステップS103)。 Next, the video input unit 201 takes out video data from the input data. The video input unit 201 executes image compression by performing a resolution lowering process and a frame thinning process on the acquired video (step S103).
 次に、映像クエリ抽出部204は、映像入力部201から取得した映像データを入力とするDNNモデルによって、目的対象音声の検索クエリとして用いるための埋め込みベクトルを抽出する(ステップS104)。 Next, the video query extraction unit 204 extracts an embedded vector to be used as a search query for the target audio by using a DNN model that inputs video data acquired from the video input unit 201 (step S104).
 次に、音声入力部202は、入力データから音響データを取り出す。スペクトログラム抽出部203は、音声入力部202から取得した音響データに対して、短時間フーリエ変換を実行する(ステップS105)。 Next, the voice input unit 202 extracts acoustic data from the input data. The spectrogram extraction unit 203 executes a short-time Fourier transform on the acoustic data acquired from the voice input unit 202 (step S105).
 次に、音声辞書抽出部205は、スペクトログラム抽出部203から取得した音響データを入力とするDNNモデルによって、音響効果の検索クエリとして用いるための埋め込みベクトルを抽出する(ステップS106)。 Next, the voice dictionary extraction unit 205 extracts an embedded vector to be used as a search query for acoustic effects by a DNN model that inputs acoustic data acquired from the spectrogram extraction unit 203 (step S106).
 次に、埋め込み距離計算部207は、映像クエリ抽出部204から出力された埋め込みベクトルと、音声辞書抽出部205から出力された埋め込みベクトルとの間の距離(例えば、ユークリッド距離)を算出する(ステップS107)。 Next, the embedded distance calculation unit 207 calculates the distance (for example, the Euclidean distance) between the embedded vector output from the video query extraction unit 204 and the embedded vector output from the voice dictionary extraction unit 205 (step). S107).
 次に、音声検索結果出力部208は、埋め込み距離計算部207によって算出された距離を短い順に並べ替えた場合に先頭となる距離(すなわち、最も短い距離)に対応する埋め込みベクトル(音声辞書)を特定する(ステップS108)。音声検索結果出力部208は、特定された埋め込みベクトルに対応する音響データを映像出力部209へ出力する。 Next, the voice search result output unit 208 creates an embedded vector (voice dictionary) corresponding to the leading distance (that is, the shortest distance) when the distances calculated by the embedded distance calculation unit 207 are rearranged in ascending order. Specify (step S108). The voice search result output unit 208 outputs the acoustic data corresponding to the specified embedded vector to the video output unit 209.
 次に、映像出力部209は、映像入力部201によって取得された入力データに含まれる映像データに、音声検索結果出力部208から取得した音響データを結合する。そして、映像出力部209は、音声付きの映像を出力する。
 以上で、図6のフローチャートが示す検索装置20の動作が終了する。
Next, the video output unit 209 combines the audio data acquired from the voice search result output unit 208 with the video data included in the input data acquired by the video input unit 201. Then, the video output unit 209 outputs a video with audio.
This completes the operation of the search device 20 shown in the flowchart of FIG.
[実施例]
 以下に、上記説明した第1の実施形態における検索システム1の実施例について説明する。
[Example]
Hereinafter, an embodiment of the search system 1 according to the first embodiment described above will be described.
 本実施例の実施条件は以下の通りである。
・検索の目的対象は、テレビ放送における効果音、及び付随する映像効果とした。
・映像入力部及び音声入力部に入力される入力データは、10日分(240時間分)のテレビ放送に相当する音声付き映像した。また、音声付き映像を6.4[秒]ごとに分割したものを入力データとした。
The implementation conditions of this embodiment are as follows.
-The purpose of the search was the sound effects in TV broadcasting and the accompanying video effects.
-The input data input to the video input unit and the audio input unit was a video with audio equivalent to 10 days (240 hours) of television broadcasting. Further, the input data was obtained by dividing the video with audio into 6.4 [seconds].
・映像入力部は、入力データから取得された映像データに対し、解像度を224×224[Pixel]に変換する処理を行い、フレーム数を5[fps]に間引く処理を行うものとした。
・音声入力部は、入力データに含まれる音声に対し、48[kHz]のサンプリングレートでサンプリングを行うものとした。
・スペクトログラム抽出部103は、窓関数をハミング窓とし、窓長は2048[点]とし、シフト幅を1024[点]として、短時間フーリエ変換(STFT)を行うものとした。
-The video input unit performs a process of converting the resolution of the video data acquired from the input data to 224 × 224 [Pixel], and performs a process of thinning out the number of frames to 5 [fps].
-The voice input unit shall sample the voice contained in the input data at a sampling rate of 48 [kHz].
The spectrogram extraction unit 103 performs a short-time Fourier transform (STFT) with the window function as a humming window, the window length as 2048 [points], and the shift width as 1024 [points].
・目的対象ラベル記憶部は、映像入力部及び音声入力部に入力される入力データ(6.4秒ごとの各映像クリップ)に対して、検索の目的対象が含まれているか否かを示すラベルデータをそれぞれ記憶しているものとした。
・埋め込み距離計算部は、映像クエリ抽出部から出力された埋め込みベクトルと、音声辞書記憶部に記憶された埋め込みベクトルとの間のユークリッド距離を計算するものとした。
-Target target label The storage unit is a label indicating whether or not the search target target is included in the input data (each video clip every 6.4 seconds) input to the video input unit and the audio input unit. It is assumed that each data is stored.
-The embedded distance calculation unit calculates the Euclidean distance between the embedded vector output from the video query extraction unit and the embedded vector stored in the voice dictionary storage unit.
 以下に、上記の実施条件に従って行われた評価実験の実験結果について説明する。評価実験では、客観評価に基づく評価実験(以下、「客観評価実験」という。)と、主観評価に基づく評価実験(以下、「主観評価実験」という。)とをそれぞれ行った。客観評価実験及び主観評価実験では、本発明による提案方式の有効性を示すため、以下の手法ごとの実験結果を互いに比較した。 The experimental results of the evaluation experiment conducted according to the above-mentioned implementation conditions will be described below. In the evaluation experiment, an evaluation experiment based on objective evaluation (hereinafter referred to as "objective evaluation experiment") and an evaluation experiment based on subjective evaluation (hereinafter referred to as "subjective evaluation experiment") were conducted. In the objective evaluation experiment and the subjective evaluation experiment, in order to show the effectiveness of the proposed method according to the present invention, the experimental results for each of the following methods were compared with each other.
(A)比較対象手法1(Triplet1)
 学習装置の目的対象検出部を用いず、かつ、学習装置に入力される入力データ(学習データ)として、目的対象(すなわち、効果音)を含むサンプルデータのみを用いる。
(B)比較対象手法2(Triplet2)
 学習装置の目的対象検出部を用いず、かつ、学習装置に入力される入力データ(学習データ)として、目的対象(すなわち、効果音)を含むサンプルデータと、目的対象含まないサンプルデータとを半数ずつ用いる。
(C)提案方式(Proposed)
 学習装置の目的対象検出部を用いて、かつ、学習装置に入力される入力データ(学習データ)として、目的対象(すなわち、効果音)を含むサンプルデータと、目的対象含まないサンプルデータとを半数ずつ用いる。
(A) Comparison target method 1 (Triplet 1)
The target object detection unit of the learning device is not used, and only the sample data including the target object (that is, the sound effect) is used as the input data (learning data) input to the learning device.
(B) Comparison target method 2 (Triplet2)
Half of the sample data including the target object (that is, the sound effect) and the sample data not including the target object as the input data (learning data) input to the learning device without using the target object detection unit of the learning device. Use one by one.
(C) Proposed method
Half of the sample data including the target object (that is, the sound effect) and the sample data not including the target object as the input data (learning data) input to the learning device using the target object detection unit of the learning device. Use one by one.
 以下に、実験結果として、客観評価に基づく実験結果と、主観評価に基づく実験結果とをそれぞれ示す。 Below, as the experimental results, the experimental results based on the objective evaluation and the experimental results based on the subjective evaluation are shown.
 まず、客観評価実験の実験結果について説明する。
 客観評価実験では、検索結果の正確性の評価指標であるランキング精度を各手法ごとに算出した。
First, the experimental results of the objective evaluation experiment will be described.
In the objective evaluation experiment, the ranking accuracy, which is an evaluation index of the accuracy of the search results, was calculated for each method.
 図7は、本発明の第1の実施形態の実施例における客観評価実験の実験結果を示す図である。図7において、「(A)Triplet1」、「(B)Triplet2」、及び「(C)Proposed」は、それぞれ前述の(A)比較対象手法1、(B)比較対象手法2、及び(C)提案方式による検索結果のランキング精度を表している。また、「Random」は、ランダム検索による検索結果のランキング精度を表している。 FIG. 7 is a diagram showing the experimental results of the objective evaluation experiment in the embodiment of the first embodiment of the present invention. In FIG. 7, “(A) Triplet 1”, “(B) Triplet 2”, and “(C) Proposed” are the above-mentioned (A) comparison target method 1, (B) comparison target method 2, and (C), respectively. It shows the ranking accuracy of the search results by the proposed method. Further, "Random" represents the ranking accuracy of the search result by the random search.
 図7に示されるように、本客観評価実験において、ランダム検索、(A)比較対象手法1、(B)比較対象手法2、及び(C)提案方式による検索結果のランキング精度は、それぞれ“0.500”、“0.625”、“0.685”、及び“0.716”となった。このように、本客観評価実験では、(C)提案方式が他の手法を上回り、最も高いランキング精度を達成する評価結果となった。 As shown in FIG. 7, in this objective evaluation experiment, the ranking accuracy of the random search, (A) comparison target method 1, (B) comparison target method 2, and (C) proposed method is "0", respectively. It became .500 "," 0.625 "," 0.685 ", and" 0.716 ". As described above, in this objective evaluation experiment, the proposed method (C) surpassed the other methods, and the evaluation result achieved the highest ranking accuracy.
 次に、主観評価実験の実験結果について説明する。
 主観評価実験では、19名の被験者を対象として、手法ごとに被験者が受ける感覚を調査することにより検証するものとした。
Next, the experimental results of the subjective evaluation experiment will be described.
In the subjective evaluation experiment, 19 subjects were targeted for verification by investigating the sensations received by the subjects for each method.
 具体的には、主観評価実験では、(A)比較対象手法1、(B)比較対象手法2、(C)提案方式、及びランダム検索によってそれぞれ出力された音声(効果音)付き映像を19名の被験者が視聴し、各視聴者が、各手法による映像に付与された音声(効果音)の適切さを5段階で評価するものとした。この評価における評価値(主観評価スコア)は、19名による5段階評価の平均値(MOS Score)とした。 Specifically, in the subjective evaluation experiment, 19 images with audio (sound effects) output by (A) comparison target method 1, (B) comparison target method 2, (C) proposal method, and random search, respectively. The subjects watched the video, and each viewer evaluated the appropriateness of the sound (sound effect) given to the video by each method on a five-point scale. The evaluation value (subjective evaluation score) in this evaluation was the average value (MOS Core) of the five-grade evaluation by 19 persons.
 図8は、本発明の第1の実施形態の実施例における主観評価実験の実験結果を示す図である。図8には、ランダム検索、(A)比較対象手法1、(B)比較対象手法2、及び(C)提案方式の場合における主観評価スコアがそれぞれ示されている。図8に示されるように、主観評価実験においても、(C)提案方式が他の手法を上回り、最も高い主観評価スコアを達成する評価結果となった。 FIG. 8 is a diagram showing the experimental results of the subjective evaluation experiment in the embodiment of the first embodiment of the present invention. FIG. 8 shows the subjective evaluation scores in the case of the random search, (A) comparison target method 1, (B) comparison target method 2, and (C) proposed method, respectively. As shown in FIG. 8, in the subjective evaluation experiment, the proposed method (C) surpassed the other methods, and the evaluation result achieved the highest subjective evaluation score.
 また、図8に示される主観評価実験の評価結果に対する片側マン・ホイットニーU検定によれば、(C)提案方式と他の手法との間に、統計的有意差(p<0.05)が確認された。すなわち、上記の主観評価実験の評価結果は、本実施形態における検索システム1が有効に動作することを示している。 Further, according to the one-sided Mann-Whitney U test for the evaluation results of the subjective evaluation experiment shown in FIG. 8, there is a statistically significant difference (p <0.05) between the proposed method and the other method. confirmed. That is, the evaluation results of the above subjective evaluation experiment show that the search system 1 in the present embodiment operates effectively.
 このように、テレビ放送の動画(音声付き映像)に対する効果音の推定・検索における客観評価実験及び主観評価実験により、本実施形態における検索システム1が、目的対象検出を用いない従来の検索システムと比較して、より適切な効果音を推定・検索できることが示された。 As described above, the search system 1 in the present embodiment is different from the conventional search system that does not use the target target detection by the objective evaluation experiment and the subjective evaluation experiment in the estimation / search of the sound effect for the moving image (video with sound) of the television broadcast. By comparison, it was shown that more appropriate sound effects can be estimated and searched.
 以上のような構成を備えることにより、本発明の第1の実施形態における検索システム1は、入力映像及び音声が効果音を含んでいるか否かを示す弱ラベルを用いて機械学習を行うため、学習データの作成に要するコストや労力を抑えつつ、効果的に機械学習を行うことができる。 By providing the above configuration, the search system 1 in the first embodiment of the present invention performs machine learning using a weak label indicating whether or not the input video and sound include sound effects. Machine learning can be effectively performed while reducing the cost and labor required to create training data.
 なお、上記の第1の実施形態における検索システム1は、映像を入力として、当該映像に対応する効果音を推定する構成であるが、これに限られるものではない。例えば、検索システムが、効果音を入力として、当該効果音に対応する映像を推定する構成であってもよい。 Note that the search system 1 in the first embodiment described above has a configuration in which a video is input and a sound effect corresponding to the video is estimated, but the present invention is not limited to this. For example, the search system may be configured to use the sound effect as an input and estimate the video corresponding to the sound effect.
 なお、上記の第1の実施形態における検索システム1は、ラベルデータとして、効果音を含んでいるか否かを示す弱ラベルを用いるものとしたが、これに限られるものではない。例えば、人間の声を含んでいるか否かを示す弱ラベルが用いられる場合、入力された映像に対して、特定の話者の声を出力するようなシステムを実現することが可能である。 The search system 1 in the first embodiment described above uses a weak label indicating whether or not a sound effect is included as label data, but the label data is not limited to this. For example, when a weak label indicating whether or not a human voice is included is used, it is possible to realize a system that outputs the voice of a specific speaker with respect to the input video.
 なお、上記の第1の実施形態における検索システム1は、映像と音声との共起関係に基づいてクロスモーダル検索を行う構成であるが、これに限られるものではない。例えば、検索システムが、映像とテキスト情報(例えば字幕放送における字幕)との共起関係、又は、効果音とテキスト情報との共起関係を用いてクロスモーダル検索を行う構成であってもよい。 Note that the search system 1 in the first embodiment described above is configured to perform a cross-modal search based on the co-occurrence relationship between video and audio, but is not limited to this. For example, the search system may be configured to perform a cross-modal search using a co-occurrence relationship between video and text information (for example, subtitles in subtitle broadcasting) or a co-occurrence relationship between sound effects and text information.
 なお、図1では、テレビ放送においてニュースが開始された時点における映像と効果音とを示しているが、本発明は、このような映像コンテンツが切り替わる際の映像と音声との共起関係に基づくクロスモーダル検索に限定されるものではない。本発明は、例えば、パネル、話者、テロップ等の表示・非表示の切り替えの際の映像と音声との共起関係に基づくクロスモーダル検索等にも適用可能である。 Note that FIG. 1 shows the video and sound effects at the time when the news is started in the television broadcast, but the present invention is based on the co-occurrence relationship between the video and the audio when such video content is switched. It is not limited to cross-modal search. The present invention can also be applied to, for example, a cross-modal search based on a co-occurrence relationship between video and audio when switching display / non-display of a panel, a speaker, a telop, or the like.
 上記の第1の実施形態において説明したように、学習コスト計算部112で用いられるマージン正規化を適用した全体のコスト関数L_multiは、前述の(4)式のように一般化される。このマージン正規化は、以下に説明する第2実施形態~第5の実施形態のような変形例が考えられる。 As described in the first embodiment above, the entire cost function L_multi to which the margin normalization used in the learning cost calculation unit 112 is applied is generalized as in the above equation (4). This margin normalization may be a modification as in the second to fifth embodiments described below.
<第2の実施形態>
[内積距離を用いた三項損失関数に対するマージン正規化]
 第1の実施形態では、前述の(1)式に示される三項損失関数において、基準入力(Anchor)と類似ペア(Positive)及び非類似ペア(Negative)との距離の計量のために、L2ノルムであるD(a,b)が用いられる構成であった。この距離の計量が他の手法で行われた場合であっても、マージン正規化を適用することは可能である。例えば、この距離の計量のために、以下の(7)式によって示されるような内積距離であるD(a,b)が用いられる構成であってもよい。
<Second embodiment>
[Margin normalization for trinomial loss function using inner product distance]
In the first embodiment, in the trinomial loss function represented by the above equation (1), L2 is used to measure the distance between the reference input (Anchor) and the similar pair (Positive) and the dissimilar pair (Negative). The configuration used the norm D (a, b). It is possible to apply margin normalization even if this distance metric is done by other means. For example, in order to measure this distance, D (a, b), which is an inner product distance as shown by the following equation (7), may be used.
Figure JPOXMLDOC01-appb-M000007
Figure JPOXMLDOC01-appb-M000007
<第3の実施形態>
[異なるマージンを持つ複数の三項損失関数に対するマージン正規化]
 第1の実施形態において前述の(5)式によって表される埋め込みコストL_tripletと同様に埋め込みコストL_tripletが複数の三項損失関数の和からなっており、かつ、それぞれの三項損失関数のマージンパラメータδの値が異なる場合であっても、マージン正規化を適用することは可能である。
<Third embodiment>
[Margin normalization for multiple trinomial loss functions with different margins]
Similar to the embedding cost L_triplet expressed by the above equation (5) in the first embodiment, the embedding cost L_triplet consists of the sum of a plurality of trinomial loss functions, and the margin parameter of each trinomial loss function. It is possible to apply margin normalization even if the values of δ are different.
 例えば、前述の(5)式によって表される埋め込みコスト示されるL_tripletは、L_interとL_intraとの二つの三項損失関数の項の和からなっている。これらの項のマージンパラメータδをそれぞれδ_inter及びδ_intraとした場合、マージン正規化を適用した全体の学習コストLは以下の(8)式によって表される。 For example, the L_triplet represented by the embedding cost represented by the above equation (5) consists of the sum of the terms of the two trinomial loss functions of L_inter and L_intra. When the margin parameters δ of these terms are δ_inter and δ_intra, respectively, the total learning cost L to which the margin normalization is applied is expressed by the following equation (8).
Figure JPOXMLDOC01-appb-M000008
Figure JPOXMLDOC01-appb-M000008
<第4の実施形態>
[多クラス分類問題とのマルチタスク学習におけるマージン正規化]
 マージン正規化は、マージンに依存しない任意の損失関数を用いた学習と組み合わせたマルチタスク学習に適用することができる。
<Fourth Embodiment>
[Margin normalization in multi-task learning with multi-class classification problems]
Margin normalization can be applied to multi-task learning combined with learning using any margin-independent loss function.
 例えば図3に示される第1の実施形態における学習装置10の、目的対象検出部106、第1検出結果出力部107、第2検出結果出力部108、目的対象ラベル記憶部109、検出コスト計算部110、及び学習コスト計算部112を、それぞれ以下に説明する効果音識別部106b、第1検出結果出力部107b、第2検出結果出力部108b、効果音識別ラベル記憶部109b、検出コスト計算部110b、及び学習コスト計算部112bのような構成にすることが可能である。これにより、多クラス分類問題とのマルチタスク学習へのマージン正規化を行うことができる。 For example, the target target detection unit 106, the first detection result output unit 107, the second detection result output unit 108, the target target label storage unit 109, and the detection cost calculation unit of the learning device 10 according to the first embodiment shown in FIG. The 110 and the learning cost calculation unit 112 are the sound effect identification unit 106b, the first detection result output unit 107b, the second detection result output unit 108b, the sound effect identification label storage unit 109b, and the detection cost calculation unit 110b, which are described below, respectively. , And the learning cost calculation unit 112b can be configured. This makes it possible to perform margin normalization for multi-task learning with a multi-class classification problem.
 効果音識別ラベル記憶部109bは、ラベルデータを予め記憶する。本実施形態において、ラベルデータとは、映像入力部101及び音声入力部102に入力される入力データの各映像クリップに対して付与される、「1.番組開始音」、「2.字幕同期音」、「3.項目強調同期音」、「4.シーン強調音」、及び「5.その他」の5種類のいずれかに効果音を分類するラベルデータである。ラベルデータは、例えばOne-hot表現のベクトルの形をとるものとする。 The sound effect identification label storage unit 109b stores the label data in advance. In the present embodiment, the label data is "1. program start sound" and "2. subtitle synchronization sound" given to each video clip of the input data input to the video input unit 101 and the audio input unit 102. , "3. Item-enhanced synchronized sound", "4. Scene-enhanced sound", and "5. Other". The label data is, for example, in the form of a vector of One-hot expression.
 効果音識別ラベル記憶部109bは、例えば、RAM、フラッシュメモリ、EEPROM、及びHDD等の記憶媒体、又はこれらの記憶媒体の任意の組み合わせを含んで構成される。 The sound effect identification label storage unit 109b is configured to include, for example, a storage medium such as a RAM, a flash memory, an EEPROM, and an HDD, or any combination of these storage media.
 効果音識別部106bは、映像クエリ抽出部104から出力された埋め込みベクトル、及び音声辞書抽出部105から出力された埋め込みベクトルを取得する。効果音識別部106bは、映像クエリ抽出部104から出力された埋め込みベクトル、又は音声辞書抽出部105から出力された埋め込みベクトルを入力とするDNNモデルによって、入力データに含まれる効果音を識別する。 The sound effect identification unit 106b acquires the embedded vector output from the video query extraction unit 104 and the embedded vector output from the audio dictionary extraction unit 105. The sound effect identification unit 106b identifies the sound effect included in the input data by the DNN model that inputs the embedded vector output from the video query extraction unit 104 or the embedded vector output from the voice dictionary extraction unit 105.
 なお、効果音識別部106bは、映像クエリ抽出部104から出力された埋め込みベクトル及び音声辞書抽出部105から出力された埋め込みベクトルの双方の入力に対して、同一のDNNモデルを用いて検出を行う。ただし、映像クエリ抽出部104から出力された埋め込みベクトルを入力とする計算と、音声辞書抽出部105から出力された埋め込みベクトルを入力とする計算とは、それぞれ独立に行われる。 The sound effect identification unit 106b detects both the input of the embedded vector output from the video query extraction unit 104 and the embedded vector output from the audio dictionary extraction unit 105 using the same DNN model. .. However, the calculation using the embedded vector output from the video query extraction unit 104 as the input and the calculation using the embedded vector output from the audio dictionary extraction unit 105 as the input are performed independently.
 ここで、DNNモデルは、64次元の入力、128次元の隠れ層、及び5次元のソフトマックス関数の出力を持つ全結合層からなるものとする。 Here, the DNN model is composed of a fully connected layer having a 64-dimensional input, a 128-dimensional hidden layer, and a 5-dimensional softmax function output.
 効果音識別部106bは、映像クエリ抽出部104から出力された埋め込みベクトルを入力とする計算による検出結果を第1検出結果出力部107bへ出力する。また、効果音識別部106bは、音声辞書抽出部105から出力された埋め込みベクトルを入力とする計算による検出結果を第2検出結果出力部108bへ出力する。 The sound effect identification unit 106b outputs the detection result calculated by inputting the embedded vector output from the video query extraction unit 104 to the first detection result output unit 107b. Further, the sound effect identification unit 106b outputs the detection result calculated by inputting the embedded vector output from the voice dictionary extraction unit 105 to the second detection result output unit 108b.
 第1検出結果出力部107bは、効果音識別部106bから出力された検出結果を取得する。ここで、第1検出結果出力部107bが取得する検出結果とは、効果音識別部106bにおいて、映像クエリ抽出部104から出力された埋め込みベクトルを入力とするDNNモデルによる計算によって検出された、入力データに含まれる効果音を識別する情報である。第1検出結果出力部107bは、取得した検出結果を示す情報を検出コスト計算部110bへ出力する。 The first detection result output unit 107b acquires the detection result output from the sound effect identification unit 106b. Here, the detection result acquired by the first detection result output unit 107b is an input detected by a calculation by the DNN model in which the embedded vector output from the video query extraction unit 104 is input in the sound effect identification unit 106b. Information that identifies the sound effects contained in the data. The first detection result output unit 107b outputs information indicating the acquired detection result to the detection cost calculation unit 110b.
 第2検出結果出力部108bは、効果音識別部106bから出力された検出結果を取得する。ここで、第2検出結果出力部108bが取得する検出結果とは、効果音識別部106bにおいて、音声辞書抽出部105から出力された埋め込みベクトルを入力とするDNNモデルによる計算によって検出された、入力データに含まれる効果音を識別する情報である。第2検出結果出力部108bは、取得した検出結果を示す情報を検出コスト計算部110bへ出力する。 The second detection result output unit 108b acquires the detection result output from the sound effect identification unit 106b. Here, the detection result acquired by the second detection result output unit 108b is an input detected by a calculation by the DNN model in which the embedded vector output from the voice dictionary extraction unit 105 is input in the sound effect identification unit 106b. Information that identifies the sound effects contained in the data. The second detection result output unit 108b outputs the information indicating the acquired detection result to the detection cost calculation unit 110b.
 検出コスト計算部110bは、第1検出結果出力部107bから出力された検出結果を示す情報、及び第2検出結果出力部108bから出力された検出結果を示す情報を取得する。また、検出コスト計算部110bは、効果音識別ラベル記憶部109bに記憶されたラベルデータを取得する。 The detection cost calculation unit 110b acquires information indicating the detection result output from the first detection result output unit 107b and information indicating the detection result output from the second detection result output unit 108b. Further, the detection cost calculation unit 110b acquires the label data stored in the sound effect identification label storage unit 109b.
 検出コスト計算部110bは、第1検出結果出力部107bから出力された検出結果を示す情報、及び第2検出結果出力部108bから出力された検出結果を示す情報、及び効果音識別ラベル記憶部109bから取得されたラベルデータに基づいて、検出コストを計算する。 The detection cost calculation unit 110b has information indicating the detection result output from the first detection result output unit 107b, information indicating the detection result output from the second detection result output unit 108b, and the sound effect identification label storage unit 109b. Calculate the detection cost based on the label data obtained from.
 ここで、第1検出結果出力部107bから出力された検出結果を示す情報及び第2検出結果出力部108bから出力された検出結果を示す情報と、効果音識別ラベル記憶部109bから取得されたラベルデータとの間の交差エントロピー(Corss Entropy)を、検出コスト関数L_classとする。
 検出コスト計算部110bは、検出コスト関数L_classを学習コスト計算部112bへ出力する。
Here, the information indicating the detection result output from the first detection result output unit 107b, the information indicating the detection result output from the second detection result output unit 108b, and the label acquired from the sound effect identification label storage unit 109b. Let the Cross Entry between the data and the data be the detection cost function L_class.
The detection cost calculation unit 110b outputs the detection cost function L_class to the learning cost calculation unit 112b.
 学習コスト計算部112は、検出コスト計算部110bから出力された検出コスト関数L_classを取得する。また、学習コスト計算部112bは、埋め込みコスト計算部111から出力された埋め込みコストL_tripletを取得する。学習コスト計算部112bは、取得した検出コスト関数L_classと埋め込みコストL_tripletに基づいて、以下の(9)式によって全体の学習コストLを計算する。 The learning cost calculation unit 112 acquires the detection cost function L_class output from the detection cost calculation unit 110b. Further, the learning cost calculation unit 112b acquires the embedding cost L_triplet output from the embedding cost calculation unit 111. The learning cost calculation unit 112b calculates the total learning cost L by the following equation (9) based on the acquired detection cost function L_class and the embedding cost L_triplet.
Figure JPOXMLDOC01-appb-M000009
Figure JPOXMLDOC01-appb-M000009
<第5の実施形態>
[サンプル選択に適応的なマージン増減に対するマージン正規化]
 マージンパラメータδを、入力されるサンプルデータに依存する形とすることも可能である。この場合、三項損失関数T_δは、例えば、以下の(10)式によって表すことができる。
<Fifth Embodiment>
[Margin normalization for margin increase / decrease adaptive to sample selection]
It is also possible to make the margin parameter δ dependent on the input sample data. In this case, the trinomial loss function T_δ can be expressed by, for example, the following equation (10).
Figure JPOXMLDOC01-appb-M000010
Figure JPOXMLDOC01-appb-M000010
 このとき、ミニバッチ学習におけるミニバッチ内のベクトルの距離の和を取る処理において、マージンパラメータδの値は一定ではない。そのため、マージンパラメータδの値をそのまま正規化係数として用いることはできない。しかしながら、各サンプルデータの組に対するマージンの平均値として、以下の(11)式によって示されるマージンパラメータδ-(“δ”の上に“-”)を正規化係数として用いることで、マージン正規化を適用することは可能である。 At this time, the value of the margin parameter δ is not constant in the process of taking the sum of the distances of the vectors in the mini-batch in the mini-batch learning. Therefore, the value of the margin parameter δ cannot be used as it is as the normalization coefficient. However, margin normalization is performed by using the margin parameter δ- (“−” on “δ”) represented by the following equation (11) as the normalization coefficient as the average value of the margin for each set of sample data. Is possible to apply.
Figure JPOXMLDOC01-appb-M000011
Figure JPOXMLDOC01-appb-M000011
 以上説明したように、本発明の各実施形態における検索システムは、映像と音声との共起関係を利用したクロスモーダル検索における機械学習、及び検索を行うシステムである。例えば、映像と音声との共起関係には、上記のようなテレビ放送における映像と効果音との共起関係をはじめ、走行中の自動車の映像と当該自動車のエンジン音との共起関係等、様々なものがある。 As described above, the search system in each embodiment of the present invention is a system for performing machine learning and search in cross-modal search using the co-occurrence relationship between video and audio. For example, the co-occurrence relationship between video and audio includes the co-occurrence relationship between video and sound effects in TV broadcasting as described above, the co-occurrence relationship between video of a moving vehicle and the engine sound of the vehicle, and the like. , There are various things.
 クロスモーダル検索では、特に機械学習を用いた検索技術の面を中心に様々なアプローチがされている。しかしながら、検索精度を高めるために学習データを大規模化かつ詳細化した場合、ラベル付けに要する費用が増大し、実用面で課題となっている。これに対し、前述の各実施形態における検索システムは、例えば入力映像及び音声が効果音を含んでいるか否かを示すラベルデータ等の弱ラベルを用いて機械学習を行うため、学習データの作成に要するコストや労力を抑えつつ、効果的に機械学習を行うことができる。 In cross-modal search, various approaches are taken, especially in terms of search technology using machine learning. However, when the training data is made large-scale and detailed in order to improve the search accuracy, the cost required for labeling increases, which poses a practical problem. On the other hand, the search system in each of the above-described embodiments performs machine learning using weak labels such as label data indicating whether or not the input video and audio include sound effects, and thus is used for creating learning data. Machine learning can be performed effectively while reducing the cost and labor required.
 上述した実施形態によれば、学習装置は、複数の損失関数が統合された統合関数によって算出される損失値を最大化又は最小化させるように学習を行う。例えば、学習装置は、実施形態における学習装置10であり、複数の統合関数は、実施形態における(5)式に示される埋め込みコスト関数L_triplet及び検出コスト関数L_awareであり、統合関数は、実施形態における(6)式に示される学習コスト関数Lであり、損失値は、実施形態における全体の学習コストである。 According to the above-described embodiment, the learning device performs learning so as to maximize or minimize the loss value calculated by the integrated function in which a plurality of loss functions are integrated. For example, the learning device is the learning device 10 in the embodiment, the plurality of integrated functions are the embedded cost function L_triplet and the detection cost function L_aware represented by the equation (5) in the embodiment, and the integrated function is the integrated function in the embodiment. It is a learning cost function L shown in the equation (6), and the loss value is the total learning cost in the embodiment.
 また、上述した実施形態によれば、複数の損失関数は、学習の進行に伴って値の大きさが変化する第1損失関数と、第1損失関数とは異なる少なくとも1つの第2損失関数とを含む。統合関数は、第1損失関数の値を正規化した値と、第2損失関数の値とに基づいて損失値を算出する。例えば、第1損失関数は、実施形態における(5)式に示される埋め込みコスト関数L_tripletであり、第2損失関数は、検出コスト関数L_awareであり、第1損失関数の値を正規化した値とは、実施形態における(6)式に示されるL_triplet/δである。 Further, according to the above-described embodiment, the plurality of loss functions include a first loss function whose value magnitude changes as learning progresses, and at least one second loss function different from the first loss function. including. The integrated function calculates the loss value based on the normalized value of the first loss function and the value of the second loss function. For example, the first loss function is the embedded cost function L_triplet shown in the equation (5) in the embodiment, the second loss function is the detection cost function L_aware, and the value of the first loss function is normalized. Is L_triplet / δ represented by the equation (6) in the embodiment.
 なお、第1損失関数は、三項損失関数であり、第1損失関数の正規化は、三項損失関数を学習の進行に伴って値が増加するパラメータによって除算することによって行われるようにしてもよい。例えば、パラメータは、実施形態における(2)式に示されるマージンパラメータδである。 The first loss function is a ternary loss function, and the normalization of the first loss function is performed by dividing the ternary loss function by a parameter whose value increases as the learning progresses. May be good. For example, the parameter is the margin parameter δ represented by the equation (2) in the embodiment.
 また、上述した実施形態によれば、学習装置は、同一の動画に含まれる映像データ及び音響データの入力を受け付ける入力部と、映像データと、音響データと、映像データを含む動画が特定の音声を含むか否かを示す弱ラベルのラベルデータとに基づいて、映像データと特定の音声との共起関係を学習する学習部とを備える。例えば、入力部は、実施形態における映像入力部101及び音声入力部102であり、学習部は、実施形態における映像クエリ抽出部104、音声辞書抽出部105、及び目的対象検出部106であり、特定の音声は、実施形態における効果音である。 Further, according to the above-described embodiment, the learning device includes an input unit that accepts input of video data and acoustic data included in the same moving image, video data, acoustic data, and a moving image including the video data as a specific audio. It is provided with a learning unit for learning the co-occurrence relationship between the video data and a specific voice based on the label data of a weak label indicating whether or not the data is included. For example, the input unit is the video input unit 101 and the audio input unit 102 in the embodiment, and the learning unit is the video query extraction unit 104, the audio dictionary extraction unit 105, and the target target detection unit 106 in the embodiment. The voice of is a sound effect in the embodiment.
 なお、学習部は、三項損失関数を含む複数の損失関数が統合された統合関数によって算出される損失値を最大化又は最小化させるように学習を行い、三項損失関数が学習の進行に伴って値の大きさが変化する損失関数である場合、三項損失関数の値を正規化するようにしてもよい。 The learning unit performs learning so as to maximize or minimize the loss value calculated by the integrated function in which a plurality of loss functions including the ternary loss function are integrated, and the ternary loss function advances the learning. If the value is a loss function whose magnitude changes with it, the value of the ternary loss function may be normalized.
 また、上述した実施形態によれば、学習装置は、同一の動画に含まれる映像データ及び音響データの入力を受け付ける入力部と、映像データと、音響データと、映像データを含む動画に含まれる音声を種別するラベルデータとに基づいて、映像データと音声との共起関係と、映像データと共起する音声の種別とをマルチタスク学習する学習部とを備える。例えば、ラベルデータは、実施形態における効果音識別ラベル記憶部109bに記憶されたラベルデータであり、学習部は、実施形態における効果音識別部106bである。 Further, according to the above-described embodiment, the learning device includes an input unit that accepts input of video data and acoustic data included in the same moving image, video data, acoustic data, and audio included in the moving image including the video data. It is provided with a learning unit for multi-task learning of the co-occurrence relationship between the video data and the audio and the type of the audio co-occurring with the video data based on the label data that classifies the data. For example, the label data is the label data stored in the sound effect identification label storage unit 109b in the embodiment, and the learning unit is the sound effect identification unit 106b in the embodiment.
 また、上述した実施形態によれば、検索装置は、上記の学習装置による学習結果を用いて映像データに対応する音声を検索する検索装置である。例えば、検索装置は、実施形態における検索装置20であり、学習結果は実施形態における学習済みの映像クエリ抽出部104のDNNモデル及びおける学習済みの音声辞書抽出部105のDNNモデルである。 Further, according to the above-described embodiment, the search device is a search device that searches for audio corresponding to video data using the learning results of the above-mentioned learning device. For example, the search device is the search device 20 in the embodiment, and the learning result is the DNN model of the learned video query extraction unit 104 and the DNN model of the learned voice dictionary extraction unit 105 in the embodiment.
 上述した各実施形態における検索システムの構成の一部又は全部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。 A part or all of the configuration of the search system in each of the above-described embodiments may be realized by a computer. In that case, a program for realizing this function may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read by a computer system and executed. The term "computer system" as used herein includes hardware such as an OS and peripheral devices. Further, the "computer-readable recording medium" refers to a portable medium such as a flexible disk, a magneto-optical disk, a ROM, or a CD-ROM, and a storage device such as a hard disk built in a computer system. Further, a "computer-readable recording medium" is a communication line for transmitting a program via a network such as the Internet or a communication line such as a telephone line, and dynamically holds the program for a short period of time. It may also include a program that holds a program for a certain period of time, such as a volatile memory inside a computer system that is a server or a client in that case. Further, the above program may be for realizing a part of the above-mentioned functions, and may be further realized for realizing the above-mentioned functions in combination with a program already recorded in the computer system. It may be realized by using a programmable logic device such as FPGA (Field Programmable Gate Array).
 以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 As described above, the embodiment of the present invention has been described in detail with reference to the drawings, but the specific configuration is not limited to this embodiment, and the design and the like within a range not deviating from the gist of the present invention are also included.
1…検索システム、10…学習装置、20…検索装置、101…映像入力部、102…音声入力部、103…スペクトログラム抽出部、104…映像クエリ抽出部、105…音声辞書抽出部、106…目的対象検出部、106b…効果音識別部、107,107b…第1検出結果出力部、108,108b…第2検出結果出力部、109…目的対象ラベル記憶部、109b…効果音識別ラベル記憶部、110,110b…検出コスト計算部、111…埋め込みコスト計算部、112,112b…学習コスト計算部、201…映像入力部、202…音声入力部、203…スペクトログラム抽出部、204…映像クエリ抽出部、205…音声辞書抽出部、206…音声辞書記憶部、207…埋め込み距離計算部、208…音声検索結果出力部、209…映像出力部 1 ... Search system, 10 ... Learning device, 20 ... Search device, 101 ... Video input unit, 102 ... Voice input unit, 103 ... Spectrogram extraction unit, 104 ... Video query extraction unit, 105 ... Voice dictionary extraction unit, 106 ... Purpose Target detection unit, 106b ... Sound effect identification unit, 107, 107b ... First detection result output unit, 108, 108b ... Second detection result output unit, 109 ... Target target label storage unit, 109b ... Sound sound identification label storage unit, 110, 110b ... Detection cost calculation unit, 111 ... Embedded cost calculation unit, 112, 112b ... Learning cost calculation unit, 201 ... Video input unit, 202 ... Audio input unit, 203 ... Spectrogram extraction unit, 204 ... Video query extraction unit, 205 ... Audio dictionary extraction unit, 206 ... Audio dictionary storage unit, 207 ... Embedded distance calculation unit, 208 ... Audio search result output unit, 209 ... Video output unit

Claims (11)

  1.  複数の損失関数が統合された統合関数によって算出される損失値を最大化又は最小化させるように学習を行う学習装置であって、
     前記複数の損失関数は、前記学習の進行に伴って値の大きさが変化する第1損失関数と、前記第1損失関数とは異なる少なくとも1つの第2損失関数とを含み、
     前記統合関数は、前記第1損失関数の値を正規化した値と、前記第2損失関数の値とに基づいて前記損失値を算出する
     学習装置。
    A learning device that learns to maximize or minimize the loss value calculated by the integrated function in which multiple loss functions are integrated.
    The plurality of loss functions include a first loss function whose value magnitude changes as the learning progresses, and at least one second loss function different from the first loss function.
    The integrated function is a learning device that calculates the loss value based on the value obtained by normalizing the value of the first loss function and the value of the second loss function.
  2.  前記第1損失関数は、三項損失関数であり、
     前記第1損失関数の正規化は、前記三項損失関数を前記学習の進行に伴って値が増加するパラメータによって除算することによって行われる
     請求項1に記載の学習装置。
    The first loss function is a trinomial loss function.
    The learning device according to claim 1, wherein the normalization of the first loss function is performed by dividing the trinomial loss function by a parameter whose value increases as the learning progresses.
  3.  同一の動画に含まれる映像データ及び音響データの入力を受け付ける入力部と、
     前記映像データと、前記音響データと、前記映像データを含む前記動画が特定の音声を含むか否かを示す弱ラベルのラベルデータとに基づいて、前記映像データと前記特定の音声との共起関係を学習する学習部と、
     を備える学習装置。
    An input unit that accepts input of video data and acoustic data included in the same video,
    Co-occurrence of the video data and the specific audio based on the video data, the acoustic data, and weakly labeled label data indicating whether the moving image containing the video data contains a specific audio. The learning department that learns relationships and
    A learning device equipped with.
  4.  前記学習部は、
     三項損失関数を含む複数の損失関数が統合された統合関数によって算出される損失値を最大化又は最小化させるように学習を行い、
     前記三項損失関数が前記学習の進行に伴って値の大きさが変化する損失関数である場合、前記三項損失関数の値を正規化する
     請求項3に記載の学習装置。
    The learning unit
    Learning is performed to maximize or minimize the loss value calculated by the integrated function in which multiple loss functions including the trinomial loss function are integrated.
    The learning device according to claim 3, wherein when the trinomial loss function is a loss function whose value changes with the progress of learning, the value of the trinomial loss function is normalized.
  5.  同一の動画に含まれる映像データ及び音響データの入力を受け付ける入力部と、
     前記映像データと、前記音響データと、前記映像データを含む動画に含まれる音声を種別するラベルデータとに基づいて、前記映像データと前記音声との共起関係と、前記映像データと共起する前記音声の種別とをマルチタスク学習する学習部と、
     を備える学習装置。
    An input unit that accepts input of video data and acoustic data included in the same video,
    Based on the video data, the acoustic data, and the label data that classifies the audio included in the moving image including the video data, the co-occurrence relationship between the video data and the audio and the co-occurrence with the video data. A learning unit that multi-tasks the types of voice,
    A learning device equipped with.
  6.  請求項1から5のうちいずれか一項に記載の学習装置による学習結果を用いて映像データに対応する音声を検索する検索装置。 A search device that searches for audio corresponding to video data using the learning results of the learning device according to any one of claims 1 to 5.
  7.  複数の損失関数が統合された統合関数によって算出される損失値を最大化又は最小化させるように学習を行う学習方法であって、
     前記複数の損失関数は、前記学習の進行に伴って値の大きさが変化する第1損失関数と、前記第1損失関数とは異なる少なくとも1つの第2損失関数とを含み、
     前記統合関数は、前記第1損失関数の値を正規化した値と、前記第2損失関数の値とに基づいて前記損失値を算出する
     学習方法。
    It is a learning method in which learning is performed so as to maximize or minimize the loss value calculated by the integrated function in which a plurality of loss functions are integrated.
    The plurality of loss functions include a first loss function whose value magnitude changes as the learning progresses, and at least one second loss function different from the first loss function.
    The integrated function is a learning method for calculating the loss value based on the value obtained by normalizing the value of the first loss function and the value of the second loss function.
  8.  同一の動画に含まれる映像データ及び音響データの入力を受け付ける入力ステップと、
     前記映像データと、前記音響データと、前記映像データを含む前記動画が特定の音声を含むか否かを示す弱ラベルのラベルデータに基づいて、前記映像データと前記特定の音声との共起関係を学習する学習ステップと、
     を有する学習方法。
    An input step that accepts input of video data and acoustic data included in the same video,
    A co-occurrence relationship between the video data and the specific audio based on the video data, the acoustic data, and weakly labeled label data indicating whether or not the moving image containing the video data contains a specific audio. And learning steps to learn
    Learning method with.
  9.  同一の動画に含まれる映像データ及び音響データの入力を受け付ける入力ステップと、
     前記映像データと、前記音響データと、前記映像データを含む動画に含まれる音声を複数の種類のいずれかに分類するラベルデータとに基づいて、前記映像データと前記音声との共起関係と、前記映像データと共起する前記音声の種類とをマルチタスク学習する学習ステップと、
     を有する学習方法。
    An input step that accepts input of video data and acoustic data included in the same video,
    Based on the video data, the acoustic data, and the label data that classifies the audio included in the moving image including the video data into any of a plurality of types, the co-occurrence relationship between the video data and the audio and the co-occurrence relationship between the video data and the audio. A learning step for multi-task learning of the type of audio that co-occurs with the video data,
    Learning method with.
  10.  請求項1から5のうちいずれか一項に記載の学習装置としてコンピュータを機能させるためのプログラム。 A program for operating a computer as the learning device according to any one of claims 1 to 5.
  11.  請求項6に記載の検索装置としてコンピュータを機能させるためのプログラム。 A program for operating a computer as the search device according to claim 6.
PCT/JP2020/031933 2020-08-25 2020-08-25 Learning device, search device, learning method, and program WO2022044100A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2020/031933 WO2022044100A1 (en) 2020-08-25 2020-08-25 Learning device, search device, learning method, and program
JP2022544917A JPWO2022044100A1 (en) 2020-08-25 2020-08-25

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/031933 WO2022044100A1 (en) 2020-08-25 2020-08-25 Learning device, search device, learning method, and program

Publications (1)

Publication Number Publication Date
WO2022044100A1 true WO2022044100A1 (en) 2022-03-03

Family

ID=80354824

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/031933 WO2022044100A1 (en) 2020-08-25 2020-08-25 Learning device, search device, learning method, and program

Country Status (2)

Country Link
JP (1) JPWO2022044100A1 (en)
WO (1) WO2022044100A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024047816A1 (en) * 2022-08-31 2024-03-07 日本電信電話株式会社 Video-related sound reproduction method, video-related sound reproduction device, and video-related sound reproduction program

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CHEN YING, HUANGKANG CHEN: "Speaker Recognition Based on Multimodal GenerativeAdversarial Nets with Triplet-loss", JOURNAL OF ELECTRONICS & INFORMATION TECHNOLOGY, ZHONGGUO KEXUEYUAN DIANZIXUE YANJIUSUO,CHINESE ACADEMY OF SCIENCES, INSTITUTE OF ELECTRONICS, CN, vol. 42, no. 2, 1 February 2020 (2020-02-01), CN , pages 379 - 385, XP055910312, ISSN: 1009-5896, DOI: 10.11999/JEIT190154 *
KRANTI KUMAR PARIDA; NEERAJ MATIYALI; TANAYA GUHA; GAURAV SHARMA: "Coordinated Joint Multimodal Embeddings for Generalized Audio-Visual Zeroshot Classification and Retrieval of Videos", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 19 October 2019 (2019-10-19), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081517866 *
SANCHITA GHOSE; JOHN J. PREVOST: "AutoFoley: Artificial Synthesis of Synchronized Sound Tracks for Silent Videos with Deep Learning", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 21 February 2020 (2020-02-21), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081607675 *
SHIKUN LIU; EDWARD JOHNS; ANDREW J. DAVISON: "End-to-End Multi-Task Learning with Attention", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 28 March 2018 (2018-03-28), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081199140 *
ZHAO CHEN; VIJAY BADRINARAYANAN; CHEN-YU LEE; ANDREW RABINOVICH: "GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 7 November 2017 (2017-11-07), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081325645 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024047816A1 (en) * 2022-08-31 2024-03-07 日本電信電話株式会社 Video-related sound reproduction method, video-related sound reproduction device, and video-related sound reproduction program

Also Published As

Publication number Publication date
JPWO2022044100A1 (en) 2022-03-03

Similar Documents

Publication Publication Date Title
US11869261B2 (en) Robust audio identification with interference cancellation
Makino et al. Recurrent neural network transducer for audio-visual speech recognition
Hong et al. Dynamic captioning: video accessibility enhancement for hearing impairment
US7636662B2 (en) System and method for audio-visual content synthesis
Potamianos et al. Hierarchical discriminant features for audio-visual LVCSR
JP2001092974A (en) Speaker recognizing method, device for executing the same, method and device for confirming audio generation
JP6323947B2 (en) Acoustic event recognition apparatus and program
Marcheret et al. Detecting audio-visual synchrony using deep neural networks.
Bredin et al. Audiovisual speech synchrony measure: application to biometrics
Temko et al. Fuzzy integral based information fusion for classification of highly confusable non-speech sounds
Ivanko et al. Multimodal speech recognition: increasing accuracy using high speed video data
Argones Rua et al. Audio-visual speech asynchrony detection using co-inertia analysis and coupled hidden markov models
CN111147871B (en) Singing recognition method and device in live broadcast room, server and storage medium
CN116312552A (en) Video speaker journaling method and system
WO2022044100A1 (en) Learning device, search device, learning method, and program
CN113239903B (en) Cross-modal lip reading antagonism dual-contrast self-supervision learning method
Sharma et al. A comprehensive empirical review of modern voice activity detection approaches for movies and TV shows
Tapu et al. Dynamic subtitles: A multimodal video accessibility enhancement dedicated to deaf and hearing impaired users
CN114512134A (en) Method and device for voiceprint information extraction, model training and voiceprint recognition
Paleček Experimenting with lipreading for large vocabulary continuous speech recognition
Dean et al. Dynamic visual features for audio–visual speaker verification
Livescu et al. Multi-view learning of acoustic features for speaker recognition
Stappen et al. MuSe 2020--The First International Multimodal Sentiment Analysis in Real-life Media Challenge and Workshop
Saz et al. Background-tracking acoustic features for genre identification of broadcast shows
Irie et al. Latent topic driving model for movie affective scene classification

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20951355

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022544917

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20951355

Country of ref document: EP

Kind code of ref document: A1