WO2020054822A1 - 音解析装置及びその処理方法、プログラム - Google Patents

音解析装置及びその処理方法、プログラム Download PDF

Info

Publication number
WO2020054822A1
WO2020054822A1 PCT/JP2019/035975 JP2019035975W WO2020054822A1 WO 2020054822 A1 WO2020054822 A1 WO 2020054822A1 JP 2019035975 W JP2019035975 W JP 2019035975W WO 2020054822 A1 WO2020054822 A1 WO 2020054822A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
frame
feature amount
tag
feature
Prior art date
Application number
PCT/JP2019/035975
Other languages
English (en)
French (fr)
Inventor
大塚 誠
Original Assignee
LiLz株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LiLz株式会社 filed Critical LiLz株式会社
Priority to JP2020546206A priority Critical patent/JP6882814B2/ja
Publication of WO2020054822A1 publication Critical patent/WO2020054822A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Definitions

  • the present invention relates to an apparatus for analyzing sound using machine learning and a method for processing the same, and in particular, efficiently generates teacher data necessary for machine learning from a large amount of accumulated sound data, and
  • the present invention relates to a sound analysis apparatus using machine learning for easily detecting and searching for a related event, a processing method thereof, and a program.
  • Patent Document 1 discloses that an algorithm for extracting data features is constructed at high speed.
  • Patent Literature 1 describes that based on the similarity of teacher data, a constructed algorithm used for a gene used to construct a new algorithm is selected, and a first-generation gene is generated using the selected algorithm.
  • teacher data for an event can be efficiently generated from sound data for a long time.
  • the present invention has been made in view of the above circumstances, and efficiently generates teacher data necessary for machine learning from a large amount of accumulated sound data, and easily detects and searches for a specific sound-related event. To provide a sound analysis device using machine learning for the same, a processing method thereof, and a program.
  • the present invention for solving the problems of the above-mentioned conventional example is a sound analyzing apparatus for analyzing sound, wherein a feature amount generating means for generating a feature amount vector for a sound frame of sound data, When selected as a frame, a distance calculating means for calculating a distance between the feature amount of the query frame and each sound frame based on the feature amount vector, and an event tag for a plurality of sound frames according to the distance.
  • Tagging means for performing tagging
  • feature amount selecting means for selecting a feature amount of a tagged sound frame from all feature amounts, and inputting the selected feature amount, and determining an event occurrence probability or type for each sound frame.
  • a machine learning model that outputs a prediction value, and error calculation means that calculates an error between the prediction value of the sound frame and the correct answer tag and inputs the error to the machine learning model. .
  • the learned machine learning model outputs a predicted value for an input sound frame based on the feature vector generated by the feature generator.
  • the present invention provides a sound analysis device, comprising: a distance calculation unit that calculates a distance of a text feature of a tag name with respect to a data set of a sound feature tagged by a third party as a candidate for teacher data; Means for sorting the tag names in the order of the closest distance to generate a recommended tag list, and the machine learning model converts a data set of sound feature amounts corresponding to the tag names selected from the recommended tag list into teacher data. It is to learn as.
  • the present invention is a processing method of a sound analysis device for analyzing sound, wherein a feature amount is generated for a sound frame of sound data, and when a sound frame of an event is selected as a query frame, the query is performed based on the feature amount. Calculates the distance between the feature values of the frame and each sound frame, tags events for multiple sound frames according to the distance, and selects the feature value of the tagged sound frame from all feature values. The selected feature amount is input, and the machine learning model outputs the event occurrence probability or type for each sound frame as a predicted value, and calculates the error between the predicted value of the sound frame and the correct answer tag to calculate the machine learning model. To enter.
  • the learned machine learning model outputs a predicted value for an input sound frame based on the generated feature amount vector.
  • the feature amount of the text of the tag name is distance-calculated, and the distance calculated is closer to the distance.
  • the tag names are sorted to generate a recommended tag list, and the machine learning model learns a data set of sound feature amounts corresponding to the tag names selected from the recommended tag list as teacher data.
  • the present invention is a computer program used in a sound analysis device for analyzing sound, the sound analysis device comprising: a feature amount generation unit configured to generate a feature amount for a sound frame of sound data; When selected as, distance calculating means for calculating a distance between the feature amount of the query frame and each sound frame based on the feature amount, and tagging of an event to a plurality of sound frames according to the distance. Tagging means for performing, a feature amount selecting means for selecting a feature amount of a tagged sound frame from all feature amounts, and an input value of the selected feature amount, and a prediction value of an event occurrence probability or type for each sound frame.
  • a machine learning model that outputs as a function, and an error calculator that calculates an error between a predicted value of a sound frame and a correct answer tag and inputs the error to the machine learning model.
  • the learned machine learning model outputs a predicted value for an input sound frame based on the feature vector generated by the feature generator.
  • the present invention provides a distance calculation means for calculating a distance of a text feature of a tag name with respect to a data set of sound characteristics tagged by a third party as a candidate for teacher data in the program. And a sorting means for generating a recommended tag list by sorting tag names in ascending order of numbers.
  • the machine learning model learns a data set of sound feature amounts corresponding to the tag names selected from the recommended tag list as teacher data. Is what you do.
  • the feature amount generation unit generates a feature amount for a sound frame of sound data, and when the sound frame of the event is selected as a query frame, the distance calculation unit determines the query frame based on the feature amount.
  • the tagging means calculates the distance between the feature amounts of the sound frames and each of the sound frames, the tagging means tags the event to a plurality of sound frames in accordance with the distance, and the feature amount selecting means calculates the tagged sound
  • the feature amount of the frame is selected from all the feature amounts, the machine learning model receives the selected feature amount as input, and outputs the event occurrence probability or tag type for each sound frame as a predicted value. Since the sound analysis apparatus calculates the error between the predicted value of the frame and the correct answer tag and inputs the error to the machine learning model, there is an effect that teacher data can be efficiently generated.
  • the learned machine learning model is the sound analysis device that outputs a predicted value for an input sound frame based on the feature amount vector generated by the feature amount generation unit, There is an effect that a sound-related event can be easily detected and searched.
  • FIG. 3 is a diagram illustrating an event occurrence time. It is a figure showing the relation between a tag and a label. It is the schematic which summarized the learning process of this apparatus. It is the schematic which shows the application example of the learning process in this apparatus.
  • a sound analysis device (the present device) according to an embodiment of the present invention includes a feature amount generation unit configured to generate a feature amount for a sound frame of sound data, and a feature amount based on a feature amount when a sound frame of an event is selected as a query frame.
  • Distance calculating means for calculating a distance between the feature amount of the query frame and each sound frame, tagging means for tagging a plurality of sound frames in accordance with the distance,
  • a feature amount selecting means for selecting a feature amount from all the feature amounts, a machine learning model which receives the selected feature amount as an input, and outputs an event (tag) occurrence probability or a tag type for each sound frame as a predicted value, Error calculating means for calculating an error between a predicted value of each sound frame and a correct answer tag and inputting the calculated error to a machine learning model.
  • the learned machine learning model outputs a predicted value for the input sound frame based on the feature amount vector generated by the feature amount generation unit, the specific sound-related Events can be easily detected and searched.
  • FIG. 1 is a schematic diagram of the present apparatus.
  • the present device (sound analysis device) 1 has a control unit 11, a storage unit 12, and an interface unit 13.
  • the control unit 11 of the device 1 reads a processing program from the storage unit 12, and executes a learning step, a prediction step, an analysis step, and the like. Details of these steps will be described later.
  • the storage unit 12 stores a processing program operated by the control unit 11, and stores sound data and other data.
  • the display unit 14, the input unit 15, the sound input unit 16, and the network 2 are connected to the interface unit 13.
  • the display unit 14 displays screens shown in FIGS. 6 to 9 described later.
  • the input unit 15 is used when performing tagging and labeling.
  • the sound input unit 16 is for inputting sound from the outside, and is an input device to which an input device such as a microphone or a reproducing device for reproducing recorded sound is connected.
  • the network 2 is the Internet or an in-house network.
  • the learning step, prediction step, and analysis step executed by the present apparatus will be specifically described.
  • the units and models described below are realized by software such as a program.
  • FIG. 2 is a schematic diagram of the learning step.
  • the machine learning model optimizes the parameters of the machine learning model based on the predicted value output by inputting the feature amount of the tagged sound frame and the correct answer tag. This learning step is performed repeatedly.
  • the tag is the name of the event indicated by the specific sound, and the label indicates whether or not any sound includes the sound of the event. Therefore, tagging means that the sound is associated with the event, and labeling means that the sound includes the sound of an arbitrary event. Note that there are cases where both tagging and labeling are performed, and cases where only one is performed. The specific relationship between the tag and the label will be described later with reference to FIG.
  • the feature amount generation unit 111 generates a feature amount vector for a sound frame of the sound data (a query frame and all frames selected as a reference of an event).
  • the distance calculation unit 112 calculates the distance between the query frame and other sound frames (all frames) from the feature amount vector.
  • the tagging unit 121 tags an arbitrary frame based on the distance information from the calculation result from the distance calculation unit 112.
  • a tag selected manually may be attached to an arbitrary frame while referring to the distance information and listening to the sound of the frame.
  • a plurality of tags may be tagged to one frame.
  • the tagging information for each frame is output to the error calculating means 118.
  • the tag selecting means 122 selects what tag is to be assigned, and may be selected manually or may be assigned a plurality of tags.
  • the feature amount selecting unit 123 selects a feature amount corresponding to the tagged frame. This feature amount is input to the machine learning model 114 as a feature amount to which a correct answer tag has been added. Then, the machine learning model 114 inputs the feature amount to which the correct answer tag has been added from the feature amount selection unit 123 and outputs a predicted value.
  • the error calculation means 118 calculates an error based on the correct tag (tagging information) and the predicted value, and outputs the error to the machine learning model 114.
  • the machine learning model 114 optimizes the parameters of the machine learning model based on the feature amount to which the correct answer tag is input from the feature amount selecting unit 123 and the error information input from the error calculating unit 118.
  • the predicted value is, for example, the occurrence probability or tag type of an event (tag) of each sound frame.
  • the machine learning model 114 is a binary classifier if the predicted value is a binary decision, but is a multi-valued classifier if the predicted value is multi-valued.
  • Examples of the machine learning model 114 include a linear regression model, a support vector machine, a random forest, a gradient boosting machine, a k-nearest neighbor method, and a voting classifier.
  • the prediction step is a process of predicting an event (tag) occurrence probability or a tag type for each sound frame of input sound data to be analyzed using the learned machine learning model 114.
  • the prediction step may be referred to as an inference step.
  • the prediction step in the present apparatus will be described with reference to FIG.
  • FIG. 3 is a schematic diagram of the prediction step.
  • the feature value generation unit 111 generates a feature value vector for input sound data.
  • the machine learning model 114 Since the machine learning model 114 that has been learned in the learning step inputs the feature amount of the input sound frame and outputs a predicted value, a specific sound-related event can be easily detected and searched. Things.
  • FIG. 4 is a flowchart of a high-speed search for teacher data candidates and a process of generating teacher data.
  • a feature amount vector is generated for sound data in frame units (S1).
  • a feature amount vector is generated for a reference query frame and all other sound frames.
  • a query frame is selected (S2), and the distance between the query frame and other sound frames is calculated using the feature amount (S3).
  • FIG. 5 is a diagram illustrating a distance from a query point.
  • FIG. 5 shows the distance between the feature amounts of the other sound frames using the feature amount of the query frame as a query point.
  • the horizontal axis indicates elapsed time (seconds)
  • the vertical axis indicates the length of the distance, the lower side is closer, and the upper side is farther.
  • Query points are indicated by bold vertical lines between 400 and 600 seconds.
  • a specific number of points protruding downward and close to zero are extracted as teacher data candidates, and tag data is added to the sound data of those points. Make the attachment.
  • FIG. 6 is a diagram illustrating the probability of occurrence of each event.
  • the horizontal axis indicates events 1, 2, 3, and the vertical axis indicates the occurrence probability.
  • FIG. 7 is a diagram illustrating an event occurrence time.
  • the "minute” of the occurrence time is represented on the vertical axis in units of 20 minutes
  • the "second” of the occurrence time is represented on the horizontal axis in units of 60 seconds. According to FIG. 7, the time at which the event 1 occurs can be intuitively grasped based on the relationship between “minute” and “second”.
  • FIG. 8 is a diagram illustrating the relationship between tags and labels.
  • the sound data frame may not include the squeal of either the cow or the dog, or may include both squeals.
  • FIG. 9 is a schematic diagram summarizing the learning process of the present device.
  • the audio feature value extraction unit 111a extracts a feature value from the learning sound data, and calculates and stores the feature value of each frame.
  • the audio feature amount extraction unit 111b extracts the feature amount from the query sound data, calculates and stores the feature amount of the query sound. Note that the audio feature amount extracting means 111a and 111b correspond to the feature amount generating means 111 in FIG. Then, the distance calculation unit 112 calculates and stores distance information of the feature amount of the query sound and the feature amount of each frame. The distance calculation means 112 corresponds to the distance calculation means 112 in FIG.
  • the user performs tag selection, performs tagging (tagging) based on various tag information using the learning data and the distance information, and stores the tagging information of each frame.
  • Tag selection is performed by the tag selection unit 122 of FIG. 2, and tagging is performed by the tagging unit 121 of FIG.
  • the feature value selection means 123 selects the feature value tagged by the feature value selection means 123 , and the feature value of the tagged frame is output.
  • the feature amount of the tagged frame is input as a candidate for teacher data, and the model 114 outputs an event (tag) occurrence probability or a tag type for each sound frame as a predicted value.
  • the error calculating means 118 calculates the error between the predicted value of each sound frame and the correct answer tag and outputs the error to the model 114.
  • the model 114 corresponds to the machine learning model 114 in FIG.
  • tag addition is performed after the distance calculation unit 112, and may be performed by a program or manually. In the case of manual operation, it is necessary to tag the prepared sound while looking at the distance information of the feature amount of each sound frame.
  • a tagging information group (a tag and a sound feature associated therewith) that is close to a query tag that the user wants to search and that is tagged by a third party (another person) Volume) to further reduce tagging work.
  • the user is a person who performs sound search processing using the present apparatus, and a third party (another or another user) has already tagged sound data using the present apparatus.
  • FIG. 10 is a schematic diagram showing an application example of the learning process in the present device.
  • a data set of a tag and a sound feature amount associated with the tag by another user (a data set which is a candidate for teacher data: an audio feature amount data set / tag name tagged with a tag name) Is stored using a network, and a user inputs a query tag, and also stores a feature data set tagged with a query tag name.
  • the text (text) feature amount of the tag name is distance-calculated by the distance calculating unit 211, and the sorting unit 212 sorts the tags in the order of the tag name having the closest distance to generate a recommended tag list.
  • the distance calculating means 211 is the same as the distance calculating means 114 in FIGS. Then, the user selects a tag name, makes the model 114 learn based on the sound feature amount of each frame corresponding to the selected tag name, and tagging information (teacher data), and outputs a predicted value.
  • the user performs an answer matching on the teacher data using the unique data set (audio feature amount data set / query tag name tagged with a query tag name) tagged by the user with respect to the trained model 114.
  • the validity of the teacher data is low, if the validity of the teacher data is low, a part of the original data set (sound feature amount of each frame + tagging information) is used as the teacher data. You may make it learn using it.
  • FIG. 10 when a user wants to make a sound searcher (this device) with a tag of “dogs”, the user searches for a list of tagging information groups created by the user in the past. You can select a group of tagging information that is close to the query tag you want to use as learning data for your own sound searcher.
  • the names of the tag groups vary depending on the user. For example, a tag of a dog may be "dogs", “dog”, “dog” or the like. Therefore, it is easy to select a tag name by treating the tag name as a natural language feature quantity and listing the tag names that the user wants to create, "dogs", and the tag name whose distance in the feature quantity space of the tag name is short from the top. . For example, “dog” and “dog” come to the top of the recommended tag list.
  • the performance of the sound searcher created by the method shown in FIG. 10 is matched using a unique data set uniquely tagged by the user. If the performance does not appear, a part of the original data set tagged by the user is included in the teacher data.
  • the tagging information group created by another person is used as learning data.
  • a frame to be tagged is searched and translated using a feature amount space of tag information which is a natural language.
  • the query frame is determined based on the feature amount.
  • the tagging means 121 calculates a distance between the feature amounts of the sound frames and the sound frames, and the tagging means 121 tags the plurality of sound frames in accordance with the distance. Is selected from all the feature values, the machine learning model 114 receives the selected feature value as an input, and outputs the occurrence probability or tag type of an event (tag) for each sound frame as a predicted value, and outputs an error.
  • the calculating means 118 calculates the error between the predicted value of the sound frame and the correct answer tag and inputs the calculated error to the machine learning model 114. ⁇ is efficiently generated can be effectively teacher data required for learning.
  • the learned machine learning model 114 outputs a prediction value for an input sound frame based on the feature amount vector generated by the feature amount generation unit 111, thereby providing a specific sound. There is an effect that a related event can be easily detected and searched.
  • the text feature amount of the tag name is calculated by the distance calculating means.
  • the distance is calculated in 211, the sorting unit 212 sorts the tags in the order of the tag name having the shortest distance, generates a recommended tag list, and uses the data set of the sound feature amount in which the tag name is selected from the recommended tag list as the teacher data as a learning data. Since the learning is performed by 114, there is an effect that another user can effectively use the data set of the tagged sound feature amount.
  • the present invention provides a sound analysis using machine learning that can efficiently generate teacher data necessary for machine learning from a large amount of accumulated sound data and can easily detect and search for a specific sound-related event. It is suitable for an apparatus, a processing method thereof, and a program.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 蓄積した多量の音データの中から教師データを効率的に生成し、特定の音関連イベントを容易に検知および検索する機械学習を用いた音解析装置を提供する。 【解決手段】 特徴量生成手段111が音データの音フレームについて特徴量を生成し、距離計算手段112がイベントの音フレームをクエリフレームとして選択されると、特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算し、タグ付け手段121が、当該距離に応じて複数の音フレームに対してタグ付けし、特徴量選択手段123が、タグ付けされた音フレームの特徴量を全特徴量ベクトルから選択し、機械学習モデル114が、当該選択された特徴量を入力とし、音フレーム毎のイベント(タグ)の発生確率又はタグ種別等を予測値として出力し、誤差計算手段118が、音フレームの予測値と正解タグとの誤差を計算して機械学習モデル114に入力する。

Description

音解析装置及びその処理方法、プログラム
 本発明は、機械学習を用いて音を解析する装置及びその処理方法に係り、特に、蓄積した多量の音データの中から機械学習に必要となる教師データを効率的に生成し、特定の音関連イベントを容易に検知及び検索するための機械学習を用いた音解析装置及びその処理方法、プログラムに関する。
[従来の技術]
 例えば、7200時間の音声データの中から、24時間に1回程度の割合でランダムに発生する音関連イベントを見つけ出すような音解析装置を作ろうとした場合に、例えば、イベント100回分の教師データを作成する場合には、2400時間の録音データを端から聞くしかないものであった。
[関連技術]
 尚、関連する先行技術として、特開2008-123180号公報「情報処理装置および方法、並びに、プログラム」(特許文献1)がある。
 特許文献1には、データの特徴を抽出するアルゴリズムを高速に構築することが示されている。
特開2008-123180号公報
 上述したように、機械学習を用いた特定の音関連イベントを検知及び検索する音解析装置を作成するためには、長時間録音データを端から聞いて教師データを作成する地道な作業が必要であるという問題点があった。
 特許文献1には、教師データの類似度に基づいて、新規アルゴリズムの構築に用いる遺伝子に利用する構築済アルゴリズムを選択し、それを利用して第1世代の遺伝子を生成することが記載されているが、長い時間の音データからイベントについての教師データを効率的に生成できることについては記載がない。
 本発明は上記実情に鑑みて為されたもので、蓄積した多量の音データの中から機械学習に必要となる教師データを効率的に生成し、特定の音関連イベントを容易に検知及び検索するための機械学習を用いた音解析装置及びその処理方法、プログラムを提供することを目的とする。
 上記従来例の問題点を解決するための本発明は、音を解析する音解析装置であって、音データの音フレームについて特徴量ベクトルを生成する特徴量生成手段と、イベントの音フレームがクエリフレームとして選択されると、特徴量ベクトルに基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算する距離計算手段と、当該距離に応じて複数の音フレームに対してイベントのタグ付けを行うタグ付け手段と、タグ付けされた音フレームの特徴量を全特徴量から選択する特徴量選択手段と、当該選択された特徴量を入力とし、音フレーム毎のイベント発生確率又は種別を予測値として出力する機械学習モデルと、音フレームの予測値と正解タグとの誤差を計算して機械学習モデルに入力する誤差計算手段とを有するものである。
 本発明は、上記音解析装置において、学習済み機械学習モデルが、特徴量生成手段で生成された特徴量ベクトルに基づいて、入力される音フレームについて、予測値を出力するものである。
 本発明は、上記音解析装置において、教師データの候補として第三者によってタグ付けされた音特徴量のデータセットについて、タグ名称のテキストの特徴量を距離計算する距離計算手段と、距離計算された距離の近い順にタグ名称をソートして推薦タグリストを生成するソート手段とを有し、機械学習モデルが、推薦タグリストから選定されたタグ名称に対応する音特徴量のデータセットを教師データとして学習するものである。
 本発明は、音を解析する音解析装置の処理方法であって、音データの音フレームについて特徴量を生成し、イベントの音フレームがクエリフレームとして選択されると、特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算し、当該距離に応じて複数の音フレームに対してイベントのタグ付けを行い、タグ付けされた音フレームの特徴量を全特徴量から選択し、当該選択された特徴量を入力とし、音フレーム毎のイベント発生確率又は種別を予測値として機械学習モデルが出力し、音フレームの予測値と正解タグとの誤差を計算して機械学習モデルに入力するものであ。
 本発明は、上記処理方法において、学習済み機械学習モデルが、生成された特徴量ベクトルに基づいて、入力される音フレームについて、予測値を出力するものである。
 本発明は、上記処理方法において、教師データの候補として第三者によってタグ付けされた音特徴量のデータセットについて、タグ名称のテキストの特徴量を距離計算し、距離計算された距離の近い順にタグ名称をソートして推薦タグリストを生成し、機械学習モデルが、推薦タグリストから選定されたタグ名称に対応する音特徴量のデータセットを教師データとして学習するものである。
 本発明は、音を解析する音解析装置で使用されるコンピュータプログラムであって、音解析装置を、音データの音フレームについて特徴量を生成する特徴量生成手段と、イベントの音フレームがクエリフレームとして選択されると、特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算する距離計算手段と、当該距離に応じて複数の音フレームに対してイベントのタグ付けを行うタグ付け手段と、タグ付けされた音フレームの特徴量を全特徴量から選択する特徴量選択手段と、当該選択された特徴量を入力とし、音フレーム毎のイベント発生確率又は種別を予測値として出力する機械学習モデルと、音フレームの予測値と正解タグとの誤差を計算して機械学習モデルに入力する誤差計算手段として機能させるものである。
 本発明は、上記プログラムにおいて、学習済み機械学習モデルが、特徴量生成手段で生成された特徴量ベクトルに基づいて、入力される音フレームについて、予測値を出力するものである。
 本発明は、上記プログラムにおいて、教師データの候補として第三者によってタグ付けされた音特徴量のデータセットについて、タグ名称のテキストの特徴量を距離計算する距離計算手段と、距離計算された距離の近い順にタグ名称をソートして推薦タグリストを生成するソート手段とを機能させ、機械学習モデルが、推薦タグリストから選定されたタグ名称に対応する音特徴量のデータセットを教師データとして学習するものである。
 本発明によれば、特徴量生成手段が、音データの音フレームについて特徴量を生成し、距離計算手段が、イベントの音フレームがクエリフレームとして選択されると、特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算し、タグ付け手段が、当該距離に応じて複数の音フレームに対してイベントのタグ付けを行い、特徴量選択手段が、タグ付けされた音フレームの特徴量を全特徴量から選択し、機械学習モデルが、当該選択された特徴量を入力とし、音フレーム毎のイベント発生確率又はタグ種別を予測値として出力し、誤差計算手段が、音フレームの予測値と正解タグとの誤差を計算して機械学習モデルに入力する音解析装置としているので、教師データを効率的に生成できる効果がある。
 本発明によれば、学習済み機械学習モデルが、特徴量生成手段で生成された特徴量ベクトルに基づいて、入力される音フレームについて、予測値を出力する上記音解析装置としているので、特定の音関連イベントを容易に検知及び検索できる効果がある。
本装置の概略図である。 学習ステップの概略図である。 予測ステップの概略図である。 教師データの高速検索・生成処理のフロー図である。 クエリポイントからの距離を示す図である。 各イベントの発生確率を示す図(グラフB)である。 イベントの発生時刻を示す図である。 タグとラベルの関係を示す図である。 本装置の学習プロセスをまとめた概略図である。 本装置における学習プロセスの応用例を示す概略図である。
 本発明の実施の形態について図面を参照しながら説明する。
[実施の形態の概要]
 本発明の実施の形態に係る音解析装置(本装置)は、音データの音フレームについて特徴量を生成する特徴量生成手段と、イベントの音フレームがクエリフレームとして選択されると特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算する距離計算手段と、当該距離に応じて複数の音フレームに対してタグ付けするタグ付け手段と、タグ付けされた音フレームの特徴量を全特徴量から選択する特徴量選択手段と、当該選択された特徴量を入力とし、音フレーム毎のイベント(タグ)発生確率又はタグ種別等を予測値として出力する機械学習モデルと、各音フレームの予測値と正解タグとの誤差を計算して機械学習モデルに入力する誤差計算手段とを有するものであり、長い時間の音データからイベントについての教師データを効率的に生成できるものである。
 特に、本装置は、学習済み機械学習モデルが、特徴量生成手段で生成された特徴量ベクトルに基づいて、入力される音フレームについて、予測値を出力するようにしているので、特定の音関連イベントを容易に検知及び検索できるものである。
[本装置:図1]
 本装置について図1を参照しながら説明する。図1は、本装置の概略図である。
 本装置(音解析装置)1は、図1に示すように、制御部11と、記憶部12と、インタフェース部13とを有している。
 本装置1の制御部11は、記憶部12から処理プログラムを読み込み、学習ステップ、予測ステップ、解析ステップ等を実行する。これらステップの詳細については後述する。
 記憶部12は、制御部11で動作する処理プログラムを記憶し、音データ、その他のデータを記憶する。
 インタフェース部13には、表示部14、入力部15、音入力部16、ネットワーク2が接続している。
 表示部14は、後述する図6~図9の画面を表示する。
 入力部15は、タグ付け、ラベル付けを行う場合に用いられる。
 音入力部16は、外部からの音を入力するものであり、マイク等の入力装置又は録音した音を再生する再生装置が接続する入力装置である。
 ネットワーク2は、インターネット又は社内ネットワークである。
 本装置で実行される学習ステップ、予測ステップ、解析ステップについて具体的に説明する。尚、以下に説明する手段、モデルは、プログラム等のソフトウェアによって実現されるものである。
[学習ステップ:図2]
 本装置における学習ステップについて図2を参照しながら説明する。図2は、学習ステップの概略図である。
 学習ステップは、機械学習モデルが、タグ付けされた音フレームの特徴量を入力することで出力される予測値と正解タグを基に機械学習モデルのパラメータを最適化する。この学習ステップは、繰り返し為される場合ものである。
 ここで、タグとは、特定の音が示すイベントの名称であり、ラベルは、任意の音に当該イベントの音が含まれているか否かを示すものである。
 従って、タグ付けとは、イベントに対応付けられているということで、ラベル付けとは、その音に、任意のイベントの音が含まれているか否かを対応付けることである。尚、タグ付けとラベル付けの両方が行われる場合と片方のみが行われる場合がある。
 尚、タグとラベルの具体的関係については、図8を用いて後述する。
 学習ステップは、図2に示すように、特徴量生成手段111が、音データの音フレーム(イベントの基準として選択されたクエリフレームと全フレーム)について特徴量ベクトルを生成する。
 距離計算手段112が、特徴量ベクトルからクエリフレームとその他の音フレーム(全フレーム)との距離を計算する。
 そして、タグ付け手段121は、距離計算手段112からの計算結果から距離情報に基づいて任意のフレームにタグ付けを行う。当該距離情報を参考にしながら任意のフレームに対して、そのフレームの音を聞きながら、人手で選定されたタグのタグ付けを行うようにしてもよい。また、1つのフレームに対して複数のタグのタグ付けを行ってもよい。このフレーム毎のタグ付け情報を誤差計算手段118に出力する。
 タグ選定手段122は、どのようなタグを付与するか選定するもので、人手によって選定してもよく、また複数タグの付与を選定してもよい。
 特徴量選択手段123は、タグ付けされたフレームに対応する特徴量を選択する。この特徴量は、正解タグが付与された特徴量として機械学習モデル114に入力される。
 そして、機械学習モデル114は、特徴量選択手段123から正解タグが付与された特徴量を入力し、予測値を出力する。
 誤差計算手段118は、正解タグ(タグ付け情報)と予測値を元に誤差を計算し、機械学習モデル114に出力する。
 機械学習モデル114は、特徴量選択手段123からから入力された正解タグが付与された特徴量と、誤差計算手段118から入力された誤差情報を基に、機械学習モデルのパラメータを最適化する。
 予測値とは、例えば、各音フレームのイベント(タグ)の発生確率又はタグ種別等である。
 機械学習モデル114は、予測値が二値判定であれば二値分類器となるが、予測値が多値の場合には多値分類器となる。
 機械学習モデル114としては、例えば、線形回帰モデル、サポートベクターマシン、ランダムフォレスト、勾配ブースティングマシン、k最近傍法、Voting分類器等がある。
[予測ステップ:図3]
 予測ステップは、学習済みの機械学習モデル114を使用して、入力される解析対象の音データの各音フレームごとのイベント(タグ)発生確率またはタグ種別等を予測する処理である。予測ステップを推論ステップと称することがある。
 本装置における予測ステップについて図3を参照しながら説明する。図3は、予測ステップの概略図である。
 本装置における予測ステップは、特徴量生成手段111が、入力される音データについて特徴量ベクトルを生成する。
 そして、学習ステップで学習済みの機械学習モデル114が、入力される音フレームの特徴量を入力して、予測値を出力するようにしているので、特定の音関連イベントを容易に検知および検索できるものである。
[教師データ候補の高速検索と教師データの生成処理:図4]
 次に、教師データ候補を高速に検索し、教師データを生成する処理について図4を参照しながら説明する。図4は、教師データ候補の高速検索と教師データの生成処理のフロー図である。
 図4に示すように、音データについてフレーム単位で特徴量ベクトルを生成する(S1)。ここでは、基準となるクエリフレームとその他の全ての音フレームについて特徴量ベクトルが生成される。
 次に、クエリフレームを選択し(S2)、特徴量を用いて、そのクエリフレームとその他の音フレームとの距離を計算する(S3)。
 そして、距離が近い複数の音データ(教師データ候補)を再生し(S4)、イベントとのタグ、ラベル付け処理を行う(S5)。
[クエリポイントからの距離:図5]
 次に、クエリポイントからの距離について図5を参照しなから説明する。図5は、クエリポイントからの距離を示す図である。
 図5には、クエリフレームの特徴量をクエリポイントとして、その他の音フレームについて特徴量の距離を示している。
 横軸が経過時間(秒)で、縦軸が距離の長短であり、下側が近く、上側が遠くなっている。
 クエリポイントは、400秒から600秒の間で太い縦線で示されている。
 図5に示す折れ線グラフで下側に突出してゼロに近い(クエリフレームの特徴量との距離が近い)、特定の数のポイントを教師データの候補として抽出し、それらのポイントの音データにタグ付けを行う。
[各イベントの発生確率:図6]
 次に、各イベントの発生確率について図6を参照しながら説明する。図6は、各イベントの発生確率を示す図である。
 図6では、横軸にイベント1,2,3を示し、縦軸に発生確率を示している。
[イベントの発生時刻:図7]
 次に、イベントの発生時刻について図7を参照しながら説明する。図7は、イベントの発生時刻を示す図である。
 図7では、イベント1について、発生時刻の「分」を20分単位で縦軸に表し、発生時刻の「秒」を60秒単位で横軸に表している。
 図7により、イベント1が発生する時刻を「分」と「秒」との関係で直感的に把握することができる。
[タグとラベルの関係:図8]
 次に、音データに対してタグとラベルの関係について図8を参照しながら説明する。図8は、タグとラベルの関係を示す図である。
 図8の上側に示された音データに対して、動物の鳴き声として「牛」と「犬」をタグとした場合に、音データのフレームにそれらの音が含まれている場合は「〇」とし、対応する音が含まれていない場合は「×」とする。この「〇」「×」をつけることが、ラベル付けと呼ぶ。また、ラベル付けされていない場合は「-」を付している。
 そして、各フレームに対して各タグのラベル付けをすることを「タグ付け」と呼んでいる。
 尚、音データのフレームには、牛又は犬のいずれの鳴き声が含まれていない場合があり、また、両方の鳴き声が含まれている場合もある。
[本装置における学習プロセスのまとめ:図9]
 本装置における学習プロセスのまとめについて図9を参照しながら説明する。図9は、本装置の学習プロセスをまとめた概略図である。
 図9に示すように、本装置は、学習用音データから特徴量をaudio特徴量抽出手段111aが抽出し、各フレームの特徴量を算出して記憶する。
 また、クエリ音データからaudio特徴量抽出手段111bが特徴量を抽出し、クエリ音の特徴量を算出して記憶する。尚、audio特徴量抽出手段111a,111bは、図2の特徴量生成手段111に相当している。
 そして、距離計算手段112が、クエリ音の特徴量と各フレームの特徴量の距離情報を計算して記憶する。距離計算手段112は、図2の距離計算手段112に相当している。
 更に、ユーザがタグ選定を行うとともに、学習用データと上記距離情報を用いて、各種タグ情報を基にタグ付け(タグ付与)を行い、各フレームのタグ付け情報を記憶する。タグ選定は、図2のタグ選定手段122で為され、タグ付けは、図2のタグ付け手段121で為される。
 そして、各フレームの特徴量と各フレームのタグ付け情報を基に特徴量選択手段123でタグ付けされた特徴量のみを選択し、タグ付けされたフレームの特徴量を出力する。そのタグ付けされたフレームの特徴量を教師データの候補として入力し、モデル114は、音フレーム毎のイベント(タグ)発生確率またはタグ種別等を予測値として出力する。誤差計算手段118は、各音フレームの予測値と正解タグとの誤差を計算してモデル114に出力する。モデル114は、図2の機械学習モデル114が相当している。
 図9では、タグ付与を距離計算手段112の後段で行うようにしており、プログラムで行ってもよいし、人手によって行ってもよい。
 人手による場合は、準備した音に対して各音フレームの特徴量の距離情報を見ながら、タグ付けを行う必要がある。次に説明する応用例では、音検索の準備を効率的に行うために、自分が探したいクエリタグに近い、第三者(他人)がタグ付けしたタグ付け情報群(タグとそれに紐づく音特徴量)を利用し、タグ付け作業を更に軽減できるものとしている。
 ここで、ユーザとは、本装置を利用して音検索の処理を行う者であり、第三者(他人又は他のユーザ)とは、本装置を利用して既に音データにタグ付けを行った者である。
[応用例:音探索プラットフォームの提供:図10]
 次に、本装置の応用例について図10を参照しながら説明する。図10は、本装置における学習プロセスの応用例を示す概略図である。
 図10に示すように、他のユーザが独自にタグとそれに紐づく音特徴量のデータセット(教師データの候補となるデータセット:タグ名称でタグ付けされたaudio特徴量データセット/タグ名称)を、ネットワークを利用して記憶し、また、ユーザ本人がクエリタグの入力を行い、クエリタグ名称でタグ付けされた特徴量データセットも記憶する。
 次に、タグ名称のtext(テキスト)特徴量を距離計算手段211で距離計算し、ソート手段212が距離の近いタグ名称順にソートし、推薦タグリストを生成する。距離計算手段211は、図2,図9の距離計算手段114と同様のものである。
 そして、ユーザは、タグ名称を選定し、選定したタグ名称に対応する各フレームの音特徴量とタグ付け情報(教師データ)に基づいてモデル114で学習させ、予測値を出力する。
 更に、ユーザは、学習させたモデル114について、ユーザが自分でタグ付けした独自データセット(クエリタグ名称でタグ付けされたaudio特徴量データセット/クエリタグ名称)を用いて、教師データについて答え合わせを行い、教師データの妥当性を確認するようにし、確認の結果、教師データの妥当性が低い場合には、その独自データセット(各フレームの音特徴量+タグ付け情報)の一部を教師データとして利用して学習させるようにしてもよい。
 図10を具体的に説明すると、例えば、ユーザが「dogs」というタグで音検索器(本装置)を作りたい場合は、ユーザは過去に作ったユーザのタグ付け情報群のリストから自分が探したいクエリタグに近いタグ付け情報群を選び、自分の音検索器の学習データとして使うことができる。
 タグ群の名称は、ユーザによって付け方がまちまちである。例えば、犬のタグでも、「dogs」「dog」「犬」などを付けるものである。そのため、タグ名を自然言語の特徴量として扱い、ユーザが作りたいクエリタグ「dogs」とタグ名の特徴量空間の距離が近いタグ名を上位からリストアップすることでタグ名を選びやすくものである。例えば、「dog」「犬」が推薦タグリストの上位に出てくるようになる。
 図10に示す手法によって作成された音検索器のパフォーマンスは、ユーザが独自にタグ付けした独自データセットを使って答え合わせを行う。
 もし、パフォーマンスが出ない場合には、自分がタグ付けした独自データセットの一部も教師データに含めるようにする。
 本装置では、各フレームの音の特徴量空間の距離情報に基づき、タグ付けすべきフレームを探しやすくするものであるが、図10の応用例では、他人が作成したタグ付け情報群を学習データとして流用するために、自然言語であるタグ情報の特徴量空間を使って、タグ付けすべきフレームを探し訳すしたものである。
 尚、図10の学習プロセスの応用例を、本装置の図9で説明した学習プロセスに追加して、両方の学習プロセスを選択して利用できるようにしてもよい。
[実施の形態の効果]
 本装置によれば、特徴量生成手段111が音データの音フレームについて特徴量を生成し、距離計算手段112がイベントの音フレームがクエリフレームとして選択されると、特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算し、タグ付け手段121が、当該距離に応じて複数の音フレームに対してタグ付けし、特徴量選択手段123が、タグ付けされた音フレームの特徴量を全特徴量から選択し、機械学習モデル114が、当該選択された特徴量を入力とし、音フレーム毎のイベント(タグ)の発生確率又はタグ種別等を予測値として出力し、誤差計算手段118が、音フレームの予測値と正解タグとの誤差を計算して機械学習モデル114に入力するようにしているので、蓄積した大量の音データの中から機械学習に必要となる教師データを効率的に生成できる効果がある。
 また、本装置によれば、学習済み機械学習モデル114が、特徴量生成手段111で生成された特徴量ベクトルに基づいて、入力される音フレームについて、予測値を出力することで、特定の音関連イベントを容易に検知及び検索することができる効果がある。
 また、本装置の応用例によれば、他のユーザが独自にタグ付けした各フレームのaudio特徴量とタグ付け情報(音特徴量のデータセット)について、タグ名称のtext特徴量を距離計算手段211で距離計算し、ソート手段212が距離の近いタグ名称順にソートし、推薦タグリストを生成し、当該推薦タグリストからタグ名称が選定された音特徴量のデータセットを教師データとして機械学習モデル114に学習させるようにしているので、他のユーザがタグ付けされた音特徴量のデータセットを有効に利用できる効果がある。
 本発明は、蓄積した多量の音データの中から機械学習に必要となる教師データを効率的に生成し、特定の音関連イベントを容易に検知および検索することができる機械学習を用いた音解析装置及びその処理方法、プログラムに好適である。
 1…音解析装置(本装置)、 2…ネットワーク、 11…制御部、 12…記憶部、 13…インタフェース部、 14…表示部、 15…入力部、 16…音入力部、 111…特徴量生成手段、 112…距離演算手段 114…機械学習モデル、 115…主成分分析手段、 116…距離演算手段、 117…表示処理手段、 118…誤差計算手段、 121…タグ付け手段、 122…タグ選定手段、 123…特徴量選択手段

Claims (9)

  1.  音を解析する音解析装置であって、
     音データの音フレームについて特徴量を生成する特徴量生成手段と、
     イベントの音フレームがクエリフレームとして選択されると、前記特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算する距離計算手段と、
     当該距離に応じて複数の音フレームに対して前記イベントのタグ付けを行うタグ付け手段と、
     前記タグ付けされた音フレームの特徴量を全特徴量から選択する特徴量選択手段と、
     当該選択された特徴量を入力とし、前記音フレーム毎のイベント発生確率又は種別を予測値として出力する機械学習モデルと、
     前記音フレームの予測値と正解タグとの誤差を計算して前記機械学習モデルに入力する誤差計算手段とを有する音解析装置。
  2.  学習済み機械学習モデルが、特徴量生成手段で生成された特徴量に基づいて、入力される音フレームについて、予測値を出力する請求項1記載の音解析装置。
  3.  教師データの候補として第三者によってタグ付けされた音特徴量のデータセットについて、タグ名称のテキストの特徴量を距離計算する距離計算手段と、
     前記距離計算された距離の近い順にタグ名称をソートして推薦タグリストを生成するソート手段とを有し、
     機械学習モデルが、前記推薦タグリストから選定されたタグ名称に対応する音特徴量のデータセットを教師データとして学習する請求項1又は2記載の音声解析装置。
  4.  音を解析する音解析装置の処理方法であって、
     音データの音フレームについて特徴量を生成し、
     イベントの音フレームがクエリフレームとして選択されると、前記特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の距離を計算し、
     当該距離に応じて複数の音フレームに対して前記イベントのタグ付けを行い、
     前記タグ付けされた音フレームの特徴量を全特徴量から選択し、
     当該選択された特徴量を入力とし、前記音フレーム毎のイベント発生確率又は種別を予測値として機械学習モデルが出力し、
     前記音フレーム予測値と正解タグとの誤差を計算して前記機械学習モデルに入力する処理方法。
  5.  学習済の機械学習モデルが、生成された特徴量に基づいて、入力される音フレームについて、予測値を出力する請求項4記載の処理方法。
  6.  教師データの候補として第三者によってタグ付けされた音特徴量のデータセットについて、タグ名称のテキストの特徴量を距離計算し、
     前記距離計算された距離の近い順にタグ名称をソートして推薦タグリストを生成し、
     機械学習モデルが、前記推薦タグリストから選定されたタグ名称に対応する音特徴量のデータセットを教師データとして学習する請求項4又は5記載の処理方法。
  7.  音を解析する音解析装置で使用されるコンピュータプログラムであって、
     前記音解析装置を、
     音データの音フレームについて特徴量を生成する特徴量生成手段と、
     イベントの音フレームがクエリフレームとして選択されると、前記特徴量に基づいて当該クエリフレームと各音フレームとの特徴量間の類似性の距離を計算する距離計算手段と、
     当該距離に応じて複数の音フレームに対して前記イベントのタグ付けを行うタグ付け手段と、
     前記タグ付けされた音フレームの特徴量を全特徴量から選択する特徴量選択手段と、
     当該選択された特徴量を入力とし、前記音フレーム毎のイベント発生確率又は種別を予測値として出力する機械学習モデルと、
     前記音フレームの予測値と正解タグとの誤差を計算して前記機械学習モデルに入力する誤差計算手段として機能させるプログラム。
  8.  学習済みの機械学習モデルが、特徴量生成手段で生成された特徴量に基づいて、入力される音フレームについて、予測値を出力する請求項7記載のプログラム。
  9.  教師データの候補として第三者によってタグ付けされた音特徴量のデータセットについて、タグ名称のテキストの特徴量を距離計算する距離計算手段と、
     前記距離計算された距離の近い順にタグ名称をソートして推薦タグリストを生成するソート手段とを機能させ、
     機械学習モデルが、前記推薦タグリストから選定されたタグ名称に対応する音特徴量のデータセットを教師データとして学習する請求項7又は8記載のプログラム。
PCT/JP2019/035975 2018-09-13 2019-09-12 音解析装置及びその処理方法、プログラム WO2020054822A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020546206A JP6882814B2 (ja) 2018-09-13 2019-09-12 音解析装置及びその処理方法、プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018171951 2018-09-13
JP2018-171951 2018-09-13

Publications (1)

Publication Number Publication Date
WO2020054822A1 true WO2020054822A1 (ja) 2020-03-19

Family

ID=69778399

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/035975 WO2020054822A1 (ja) 2018-09-13 2019-09-12 音解析装置及びその処理方法、プログラム

Country Status (2)

Country Link
JP (2) JP6882814B2 (ja)
WO (1) WO2020054822A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114567811A (zh) * 2022-02-28 2022-05-31 广州欢聊网络科技有限公司 用于声音排序的多模态模型训练方法、系统及相关设备
WO2024077511A1 (zh) * 2022-10-12 2024-04-18 广州视源电子科技股份有限公司 互动统计方法、装置、设备、系统及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009508156A (ja) * 2005-09-08 2009-02-26 ユニバーシティー オブ イースト アングリア 音楽分析
JP2014164126A (ja) * 2013-02-25 2014-09-08 Nippon Telegr & Teleph Corp <Ntt> 音響信号分析方法、装置、及びプログラム
JP2015049398A (ja) * 2013-09-02 2015-03-16 本田技研工業株式会社 音響認識装置、音響認識方法、及び音響認識プログラム
JP2015212731A (ja) * 2014-05-01 2015-11-26 日本放送協会 音響イベント認識装置、及びプログラム
US20180061439A1 (en) * 2016-08-31 2018-03-01 Gregory Frederick Diamos Automatic audio captioning
JP2019049601A (ja) * 2017-09-08 2019-03-28 Kddi株式会社 音波信号から音波種別を判定するプログラム、システム、装置及び方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009508156A (ja) * 2005-09-08 2009-02-26 ユニバーシティー オブ イースト アングリア 音楽分析
JP2014164126A (ja) * 2013-02-25 2014-09-08 Nippon Telegr & Teleph Corp <Ntt> 音響信号分析方法、装置、及びプログラム
JP2015049398A (ja) * 2013-09-02 2015-03-16 本田技研工業株式会社 音響認識装置、音響認識方法、及び音響認識プログラム
JP2015212731A (ja) * 2014-05-01 2015-11-26 日本放送協会 音響イベント認識装置、及びプログラム
US20180061439A1 (en) * 2016-08-31 2018-03-01 Gregory Frederick Diamos Automatic audio captioning
JP2019049601A (ja) * 2017-09-08 2019-03-28 Kddi株式会社 音波信号から音波種別を判定するプログラム、システム、装置及び方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114567811A (zh) * 2022-02-28 2022-05-31 广州欢聊网络科技有限公司 用于声音排序的多模态模型训练方法、系统及相关设备
CN114567811B (zh) * 2022-02-28 2024-02-09 广州欢聊网络科技有限公司 用于声音排序的多模态模型训练方法、系统及相关设备
WO2024077511A1 (zh) * 2022-10-12 2024-04-18 广州视源电子科技股份有限公司 互动统计方法、装置、设备、系统及存储介质

Also Published As

Publication number Publication date
JP6924975B2 (ja) 2021-08-25
JP6882814B2 (ja) 2021-06-02
JPWO2020054822A1 (ja) 2021-04-01
JP2021119401A (ja) 2021-08-12

Similar Documents

Publication Publication Date Title
US10380236B1 (en) Machine learning system for annotating unstructured text
CN108153800B (zh) 信息处理方法、信息处理装置以及记录介质
WO2019046463A1 (en) SYSTEM AND METHOD FOR THE DEFINITION OF DIALOGUE INTENTIONS AND THE CONSTRUCTION OF INTENTION RECOGNITION MODELS WITHOUT PRIOR KNOWLEDGE
KR20200007969A (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN111783518A (zh) 训练样本生成方法、装置、电子设备及可读存储介质
JP2003330948A (ja) ウェブページを評価する装置および方法
CN111190997A (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN111368048A (zh) 信息获取方法、装置、电子设备及计算机可读存储介质
CN113821605B (zh) 一种事件抽取方法
JP6924975B2 (ja) 音解析装置及びその処理方法、プログラム
US20220058213A1 (en) Systems and methods for identifying dynamic types in voice queries
JP2007157058A (ja) 分類モデル学習装置、分類モデル学習方法、及び分類モデルを学習するためのプログラム
WO2008062822A1 (fr) Dispositif d&#39;exploration de texte, procédé d&#39;exploration de texte et programme d&#39;exploration de texte
JP6772394B1 (ja) 情報学習装置、情報処理装置、情報学習方法、情報処理方法及びプログラム
Prajwal et al. Universal semantic web assistant based on sequence to sequence model and natural language understanding
CN116524915A (zh) 一种基于语义交互的弱监督语音-视频定位方法和系统
JP2007241881A (ja) 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
CN116089578A (zh) 智能问答数据自动标注方法、系统及存储介质
CN112447173A (zh) 语音交互方法、装置及计算机存储介质
Eken et al. Predicting defects with latent and semantic features from commit logs in an industrial setting
CN114548314A (zh) 文本匹配方法、装置、存储介质及电子设备
CN117217238B (zh) 一种基于大型语言模型的智能交互系统及方法
CN117834780B (zh) 一种智能外呼客户意图预测分析系统
JP2019194759A (ja) 対話システム補強装置及びコンピュータプログラム
CN116049413B (zh) 基于事件演化的用户观点和立场获取方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19860820

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020546206

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19860820

Country of ref document: EP

Kind code of ref document: A1