WO2023013081A1 - 学習装置、推定装置、学習方法及び学習プログラム - Google Patents

学習装置、推定装置、学習方法及び学習プログラム Download PDF

Info

Publication number
WO2023013081A1
WO2023013081A1 PCT/JP2021/029451 JP2021029451W WO2023013081A1 WO 2023013081 A1 WO2023013081 A1 WO 2023013081A1 JP 2021029451 W JP2021029451 W JP 2021029451W WO 2023013081 A1 WO2023013081 A1 WO 2023013081A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
age
person
neural network
unit
Prior art date
Application number
PCT/JP2021/029451
Other languages
English (en)
French (fr)
Inventor
直弘 俵
厚徳 小川
佑樹 北岸
歩相名 神山
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/029451 priority Critical patent/WO2023013081A1/ja
Priority to JP2023539592A priority patent/JPWO2023013081A1/ja
Publication of WO2023013081A1 publication Critical patent/WO2023013081A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the present invention relates to a learning device, an estimation device, a learning method, and a learning program.
  • Non-Patent Documents 1 and 2 There is a demand for age estimation technology that estimates a person's age from face image data and voice data in the call center and marketing fields.
  • a human age estimation method using a neural network (for example, Non-Patent Documents 1 and 2) is known.
  • Non-Patent Document 1 an NN that converts voice data into a feature amount vector and an NN that estimates the posterior probability of an age label from the feature amount vector are connected so that the posterior probability for the correct age value is maximized. It is described that the age can be estimated with high accuracy by learning these NNs at the same time.
  • Non-Patent Document 2 an NN that converts face image data into a feature amount vector and an NN that estimates the posterior probability of an age label from the feature amount vector are connected to maximize the posterior probability for the correct age value. It is described that the age can be estimated with high accuracy by learning these NNs at the same time.
  • Non-Patent Documents 1 and 2 due to changes in appearance and hearing due to differences in face direction and utterance content, etc., facial image data and voice data of the same person may differ. However, there is a problem that the result of age estimation by NN is changed.
  • Non-Patent Document 1 describes a method for improving the robustness of a model by adding noise and convoluting multiple reverberation characteristics to training speech data to increase the amount of apparent data. is described.
  • Non-Patent Document 2 there is a method for improving the robustness of a model by performing geometric processing such as reduction, enlargement, and rotation on face image data for learning to increase the amount of apparent data.
  • Non-Patent Documents 1 and 2 do not impose restrictions on NN learning so that the same output is made for the same person's data. For this reason, the methods described in Non-Patent Documents 1 and 2 may not guarantee that the NN behaves the same when the same person's data is input. There was a problem that the NN might return a significantly different result for each data.
  • An object is to provide an apparatus, a learning method and a learning program.
  • a learning device includes a data processing unit that generates a plurality of data that differ in appearance or hearing from face image data or voice data of the same person. , a conversion unit that converts a plurality of data into feature amount vectors using a first neural network, and a target person's age from the plurality of feature amount vectors converted by the conversion unit using a second neural network and the multiple feature amount vectors of the same person transformed by the transforming unit are made to be close to each other on the feature space. and an updating unit that updates each parameter of the first neural network and the second neural network so that an error between the person's age and the person's true age becomes small.
  • the estimation apparatus includes a conversion unit that converts face image data or voice data into a feature amount vector using a first neural network, and a second neural network that is converted by the conversion unit using a second neural network.
  • FIG. 1 is a diagram schematically showing an example of the configuration of a learning device according to an embodiment.
  • 2 is a diagram for explaining the flow of processing in the learning apparatus shown in FIG. 1;
  • FIG. 3 is a diagram illustrating an example of the configuration of the first NN.
  • FIG. 4 is a diagram illustrating an example of the configuration of the first NN.
  • FIG. 5 is a diagram illustrating an example of the configuration of the second NN.
  • FIG. 6 is a flowchart showing a processing procedure of learning processing according to the embodiment.
  • FIG. 9 is a diagram illustrating an example of a computer that implements a learning device and an estimation device by executing programs.
  • FIG. 1 is a diagram schematically showing an example of the configuration of a learning device according to an embodiment.
  • FIG. 2 is a diagram for explaining the flow of processing in the learning device shown in FIG.
  • the learning device 10 for example, a computer or the like including ROM (Read Only Memory), RAM (Random Access Memory), CPU (Central Processing Unit), etc. is loaded with a predetermined program, and the CPU executes a predetermined program. It is realized by executing the program.
  • the learning device 10 also has a communication interface for transmitting and receiving various information to and from another device connected via a wired connection or a network or the like.
  • the learning device 10 has a data processing unit 11, an estimating unit 12, an updating unit 13, and a control processing unit .
  • the learning data is face image data or voice data to which the true age of the target person is assigned as the correct age.
  • the data processing unit 11 changes the way it looks or sounds to the face image data or voice data, which are learning data.
  • the data processing unit 11 artificially processes face image data or voice data, which are data for learning, to produce a plurality of data with different appearances and sounds from the same person's face image data or voice data. to create
  • the data processing unit 11 when processing audio data, adds a plurality of noises recorded in advance, convolves impulse responses recorded in different reverberant environments, deletes a part of the audio signal, and/or Alternatively, by cutting out only a part of the voice signal, a plurality of data with different sounds are created from voice data of the same person.
  • the data processing unit 11 when targeting face image data, adds noise to the face image data, performs geometric transformation such as scaling and rotation, and/or hides part of the image data.
  • a plurality of data with different appearances are created from face image data of the same person.
  • the estimation unit 12 estimates the age of the target person based on multiple face image data or multiple voice data based on the same person's face image data or voice data created by the data processing unit 11 .
  • the estimating unit 12 has a feature amount transforming unit 121 (transforming unit) and an age estimating unit 122 (estimating unit).
  • the feature amount conversion unit 121 uses the first NN 1211 to convert a plurality of face image data or voice data into fixed-dimensional feature amount vectors.
  • the first NN 1211 is a NN that converts a plurality of face image data or a plurality of voice data of a person generated by the data processing unit 11 into a feature amount vector.
  • the first NN 1211 is implemented by an NN that converts facial image data into feature vectors using the technique described in Non-Patent Document 2, for example.
  • FIG. 3 is a diagram illustrating an example of the configuration of the first NN 1211.
  • the first NN 1211 is implemented by, for example, an NN having a structure as shown in FIG.
  • the first NN 1211 is implemented by a convolutional NN consisting of multiple residual blocks employing squeeze-and-excitation.
  • the first NN 1211 is implemented by an NN that converts speech data into feature vectors using the technique described in Non-Patent Document 1, for example.
  • FIG. 4 is a diagram illustrating an example of the configuration of the first NN 1211.
  • the first NN 1211 is implemented by, for example, an NN having a structure as shown in FIG.
  • the first NN 1211 is realized by a convolutional NN consisting of multiple time-delay layers and statistical pooling layers.
  • the age estimation unit 122 uses the second NN 1221 to estimate the age of the target person from a plurality of feature amount vectors converted by the feature amount conversion unit 121 .
  • the second NN 1221 is a NN that estimates the age of the target person from a series of feature quantity vectors transformed by the first NN 1211 .
  • the second NN 1221 is implemented by an NN that estimates the age value of the target person from the feature amount vector, for example, using the technology described in Non-Patent Document 1.
  • FIG. 5 is a diagram illustrating an example of the configuration of the second NN 1221. As shown in FIG. This second NN 1221 is implemented by, for example, an NN having a structure as shown in FIG. For example, the second NN 1221 is realized by a fully-connected NN consisting of a plurality of 512-dimensional fully-connected layers and a one-dimensional fully-connected layer.
  • the updating unit 13 adds each feature amount vector based on a plurality of face image data or voice data converted by the feature amount conversion unit 121, the age estimation result of the target person estimated by the age estimation unit 122, and the learning data.
  • Each parameter of the first NN 1211 and the second NN 1221 is updated based on the obtained correct age.
  • the update unit 13 causes the feature amount vectors of the same person converted by the feature amount conversion unit 121 to be close to each other in the feature space, and the age estimation unit 122 extracts the feature amount vectors of the same person from each feature amount vector.
  • Each parameter of the first NN 1211 and the second NN 1221 is updated so that the error between the estimated person's age and the person's true age becomes small.
  • the first term of the formula (1) is the distance between feature vector vectors (see FIG. 2), which can be obtained from the output of the first NN 1211.
  • the second term of the formula (1) is the estimated error (see FIG. 2) between the estimated age of the target person and the true age (correct age), and the correct age given to the learning data and the second NN1221 can be obtained by the output of Note that ⁇ and ⁇ in Equation (1) are learning weights set in advance, and both are positive constants.
  • the control processing unit 14 causes the data processing unit 11, the feature amount conversion unit 121, the age estimation unit 122, and the update unit 13 to repeatedly execute the processing until a predetermined condition is satisfied.
  • the control processing unit 14 causes the updating unit 125 to repeatedly update the parameters of the first NN 1211 and the second NN 1221 until a predetermined condition is satisfied.
  • the predetermined condition is, for example, reaching a predetermined number of iterations, or that the amount of update between the parameters of the first NN 1211 and the second NN 1221 is less than a predetermined threshold. It is a condition that the learning of and is sufficiently performed.
  • FIG. 6 is a flowchart showing a processing procedure of learning processing according to the embodiment.
  • the data processing unit 11 performs data processing such as adding noise or extracting a random region from the face image data or voice data of the same person in the learning data. , a plurality of data with different appearances or sounds are generated (step S1).
  • the feature amount conversion unit 121 uses the first NN 1211 to convert each of the plurality of data generated in step S1 into feature amount vectors (step S2).
  • the age estimation unit 122 uses the second NN 1221 to estimate the age of the target person from a plurality of feature amount vectors converted by the feature amount conversion unit 121 (step S3).
  • the update unit 13 causes the feature amount vectors of the same person converted by the feature amount conversion unit 121 to be close to each other in the feature space, and the age estimation unit 122 extracts the feature amount vectors of the same person from each feature amount vector.
  • Each parameter of the first NN 1211 and the second NN 1221 is updated so that the error between the estimated person's age and the person's true age becomes small (step S4).
  • the control processing unit 14 determines whether or not a predetermined condition is satisfied (step S5). If the predetermined condition is not satisfied (step S5: No), the learning device 10 returns to step S1 and performs each process of data processing, feature conversion, age estimation, and parameter update. On the other hand, if the predetermined condition is satisfied (step S5: Yes), the learning device 10 ends the learning process.
  • FIG. 7 is a diagram schematically illustrating an example of a configuration of an estimation device according to an embodiment
  • 8 is a flowchart showing an estimation processing procedure executed by the estimation device shown in FIG. 7.
  • the estimation device 20 shown in FIG. 7 has a feature amount conversion unit 221 (conversion unit) having a first NN 1211 and an age estimation unit 222 (estimation unit) having a second NN 1221 .
  • the first NN 1211 and the second NN 1221 are NNs that have been learned by the learning device 10 .
  • the feature amount conversion unit 221 When the feature amount conversion unit 221 receives input of face image data or voice data (step S11 in FIG. 8), it uses the first NN 1211 to convert the face image data or voice data into feature amounts (step S11 in FIG. 8). step S12).
  • the age estimation unit 222 uses the second NN 1221 to estimate the age of the target person from the feature amount vector converted by the feature amount conversion unit 221 (step S13 in FIG. 8), and outputs the estimated age (step S13 in FIG. 8). step S14).
  • the average absolute error between the correct age value and the estimated age of the speaker using the first NN1211 and the second NN1221 was 5.87 years.
  • the correlation coefficient between the correct age value and the estimation result of the speaker's age was 0.92.
  • the first NN 1211 and the second NN 1221 are trained by restricting the feature vectors of the data of the same person with different appearances and hearings so that the feature vectors approach explicitness.
  • the result of age estimation close to each other was output with high accuracy, and it was confirmed that it functions effectively.
  • the feature extractor (first NN 1211) that is invariant to these variations and the age detector that is robust to the effects of these variations are used.
  • estimator (second NN 1221).
  • the intermediate feature amounts inside the NN are mutually different.
  • the learning device 10 is similar to the techniques described in Non-Patent Document 1 and Non-Patent Document 2 in that input data that has been processed in some way is used as learning data. differ in
  • Non-Patent Document 1 voice is processed, and in Non-Patent Document 2, images are processed in the same manner as the data processing unit in the present embodiment, and used as learning data. However, in both the techniques of Non-Patent Documents 1 and 2, these processed data are used only as normal learning data. That is, in the techniques described in Non-Patent Documents 1 and 2, only the second term of the loss L in Equation (1) is used.
  • the first term of the loss L in the equation (1) is used so that it becomes nearly explicit even in the feature vector space.
  • the techniques described in Non-Patent Documents 1 and 2 simply increase the variation of the learning data, but in the present embodiment, in addition to this, the behavior of the NN remains unchanged with respect to each variation.
  • the first NN 1211 may be changed to one suitable for each type of input data.
  • Each component of the learning device 10 and the estimating device 20 is functionally conceptual and does not necessarily need to be physically configured as illustrated. That is, the specific forms of distribution and integration of the functions of the learning device 10 and the estimating device 20 are not limited to those illustrated, and all or part of them can be functioned in arbitrary units according to various loads and usage conditions. can be physically or physically distributed or integrated.
  • each process performed in the learning device 10 and the estimation device 20 may be realized by a CPU, a GPU (Graphics Processing Unit), and a program that is analyzed and executed by the CPU and GPU. good. Further, each process performed in the learning device 10 and the estimation device 20 may be implemented as hardware based on wired logic.
  • FIG. 9 is a diagram showing an example of a computer that realizes the learning device 10 and the estimation device 20 by executing programs.
  • the computer 1000 has a memory 1010 and a CPU 1020, for example.
  • Computer 1000 also has hard disk drive interface 1030 , disk drive interface 1040 , serial port interface 1050 , video adapter 1060 and network interface 1070 . These units are connected by a bus 1080 .
  • the memory 1010 includes a ROM 1011 and a RAM 1012.
  • the ROM 1011 stores a boot program such as BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • Hard disk drive interface 1030 is connected to hard disk drive 1090 .
  • a disk drive interface 1040 is connected to the disk drive 1100 .
  • a removable storage medium such as a magnetic disk or optical disk is inserted into the disk drive 1100 .
  • Serial port interface 1050 is connected to mouse 1110 and keyboard 1120, for example.
  • Video adapter 1060 is connected to display 1130, for example.
  • the hard disk drive 1090 stores an OS (Operating System) 1091, application programs 1092, program modules 1093, and program data 1094, for example. That is, a program that defines each process of the learning device 10 and the estimation device 20 is implemented as a program module 1093 in which code executable by the computer 1000 is described. Program modules 1093 are stored, for example, on hard disk drive 1090 .
  • the hard disk drive 1090 stores a program module 1093 for executing processing similar to the functional configurations of the learning device 10 and the estimation device 20 .
  • the hard disk drive 1090 may be replaced by an SSD (Solid State Drive).
  • the setting data used in the processing of the above-described embodiment is stored as program data 1094 in the memory 1010 or the hard disk drive 1090, for example. Then, the CPU 1020 reads out the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as necessary and executes them.
  • the program modules 1093 and program data 1094 are not limited to being stored in the hard disk drive 1090, but may be stored in a removable storage medium, for example, and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program modules 1093 and program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). Program modules 1093 and program data 1094 may then be read by CPU 1020 through network interface 1070 from other computers.
  • LAN Local Area Network
  • WAN Wide Area Network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

学習装置(10)は、同一人物の顔画像データ或いは音声データから、見え方或いは聞こえ方の異なる複数のデータを生成するデータ加工部(11)と、第1のNN(1211)を用いて、複数のデータを特徴量ベクトルにそれぞれ変換する特徴量変換部(121)と、第2のNN(1221)を用いて、特徴量変換部(121)によって変換された複数の特徴量ベクトルから対象人物の年齢を推定する年齢推定部(122)と、特徴量変換部(121)によって変換された同一の人物の複数の特徴量ベクトルが、特徴空間上で互いに近くなるようにしつつ、年齢推定部(122)によって同一の人物に対する各特徴量ベクトルから推定された人物の年齢と人物の真の年齢との誤差が小さくなるように、第1のNN(1211)及び第2のNN(1221)の各パラメータを更新する更新部(13)と、を有する。

Description

学習装置、推定装置、学習方法及び学習プログラム
 本発明は、学習装置、推定装置、学習方法及び学習プログラムに関する。
 人物の年齢を顔画像データや音声データから推定する年齢推定技術が、コールセンターやマーケティング分野において求められている。これに対し、近年、音声処理及び画像処理分野において、ニューラルネットワーク(NN)を用いた人物年齢推定手法(例えば、非特許文献1,2)が知られている。
 非特許文献1では、音声データを特徴量ベクトルに変換するNNと、特徴量ベクトルから年齢ラベルの事後確率を推定するNNとを連結し、正解の年齢値に対する事後確率を最大とするように、これらのNNを同時に学習させることで、高い精度で年齢を推定できることが記載されている。
 同様に、非特許文献2では、顔画像データを特徴量ベクトルに変換するNNと、特徴量ベクトルから年齢ラベルの事後確率を推定するNNとを連結し、正解の年齢値に対する事後確率を最大とするように、これらのNNを同時に学習させることで、高い精度で年齢を推定できることが記載されている。
P.Ghahremani, et al. "End-to-End Deep Neural Network Age Estimation", Proc. Interspeech, pp. 277-281, 2018., [online],[令和3年6月19日検索],インターネット<URL:https://www.isca-speech.org/archive/Interspeech_2018/pdfs/2015.pdf> R. Rothe, et al. "Deep Expectation of Real and Apparent Age from a Single Image Without Facial Landmarks", in  International Journal of Computer Vision, vol. 126, no. 2-4, pp. 144-157, Springer, 2018., [online],[令和3年6月19日検索],インターネット<URL: https://www.research-collection.ethz.ch/bitstream/20.500.11850/204027/1/eth-50296-01.pdf%20%3E>
 ここで、非特許文献1,2に記載の年齢推定技術において、顔の向きや発話内容の違い等に起因する見え方や聞こえ方の変化により、同じ人物の顔画像データや音声データであっても、NNによる年齢推定結果が変わってしまうという問題がある。
 この問題を解決するため、例えば非特許文献1には、学習用の音声データに対し、雑音付与や複数の残響特性を畳み込み、見かけのデータ量を増やすことで、モデルの頑健性を向上させる手法が記載されている。
 また、例えば非特許文献2には、学習用の顔画像データに対し縮小、拡大、回転などの幾何学的処理を行い、見かけのデータ量を増やすことで、モデルの頑健性を向上させる手法が記載されている。
 このように、非特許文献1,2に記載の手法を用いて、学習データのバリエーションを増やしてモデルを学習することで、モデルの頑健性は向上する。
 しかしながら、非特許文献1,2に記載の手法では、同一人物のデータに対して同一の出力をするように、NNの学習に制約を与えることはしない。このため、非特許文献1,2に記載の手法では、同一人物のデータを入力した際にNNが同じ挙動を行うことが保証されないおそれがある、すなわち、同一人物のデータを入力しても、各データに対し、NNが大きく異なる結果を返すおそれがあるという問題があった。
 本発明は、上記に鑑みてなされたものであって、同一人物の異なるデータが入力された場合に、高い精度で、近い年齢推定結果を出力する推定器を取得することができる学習装置、推定装置、学習方法及び学習プログラムを提供することを目的とする。
 上述した課題を解決し、目的を達成するために、本発明に係る学習装置は、同一人物の顔画像データ或いは音声データから、見え方或いは聞こえ方の異なる複数のデータを生成するデータ加工部と、第1のニューラルネットワークを用いて、複数のデータを特徴量ベクトルにそれぞれ変換する変換部と、第2のニューラルネットワークを用いて、変換部によって変換された複数の特徴量ベクトルから対象人物の年齢を推定する推定部と、変換部によって変換された同一の人物の複数の特徴量ベクトルが、特徴空間上で互いに近くなるようにしつつ、推定部によって同一の人物に対する各特徴量ベクトルから推定された人物の年齢と人物の真の年齢との誤差が小さくなるように、第1のニューラルネットワーク及び第2のニューラルネットワークの各パラメータを更新する更新部と、を有することを特徴とする。
 また、本発明かかる推定装置は、第1のニューラルネットワークを用いて、顔画像データ或いは音声データを特徴量ベクトルに変換する変換部と、第2のニューラルネットワークを用いて、変換部によって変換された特徴量ベクトルから対象人物の年齢を推定する推定部と、を有し、第1のニューラルネットワーク及び第2のニューラルネットワークは、第1のニューラルネットワークが変換した同一の人物の見え方或いは聞こえ方の異なる複数のデータに基づく複数の特徴量ベクトルが、特徴空間上で互いに近くなるようにしつつ、第2のニューラルネットワークが同一の人物に対する各特徴量ベクトルから推定した人物の年齢と人物の真の年齢との誤差が小さくなるように、学習されたことを特徴とする。
 本発明によれば、同一人物の異なるデータが入力された場合に、高い精度で、近い年齢推定結果を出力する推定器を取得することができる。
図1は、実施の形態に係る学習装置の構成の一例を模式的に示す図である。 図2は、図2は、図1に示す学習装置における処理の流れを説明する図である。 図3は、第1のNNの構成の一例を説明する図である。 図4は、第1のNNの構成の一例を説明する図である。 図5は、第2のNNの構成の一例を説明する図である。 図6は、実施の形態に係る学習処理の処理手順を示すフローチャートである。 図7は、実施の形態に係る推定装置の構成の一例を模式的に示す図である。 図8は、図7に示す推定装置が実行する推定処理手順を示すフローチャートである。 図9は、プログラムが実行されることにより、学習装置及び推定装置が実現されるコンピュータの一例を示す図である。
 以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。なお、以下では、ベクトルであるAに対し、“~A”と記載する場合は「“A”の直上に“~”が記された記号」と同等であるとする。
[実施の形態]
 本実施の形態では、入力の顔画像データ或いは音声データから、ニューラルネットワーク(NN)を用いて人物の年齢を推定する推定モデルに対する学習について説明する。本実施の形態では、推定器に対する学習時に、推定器の前段のNNで得られる入力データの特徴量が、同一人物に対応するものほど近い値を示すような学習基準を用いることによって、同一人物の見え方や聞こえ方の異なるデータが入力された場合に、高精度で近い年齢推定結果を出力する推定器の取得を実現した。
[学習装置]
 次に、実施の形態に係る学習装置について説明する。図1は、実施の形態に係る学習装置の構成の一例を模式的に示す図である。図2は、図1に示す学習装置における処理の流れを説明する図である。
 実施の形態に係る学習装置10は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。また、学習装置10は、有線接続、或いは、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースを有する。
 図1及び図2に示すように、学習装置10は、データ加工部11、推定部12、更新部13及び制御処理部14を有する。学習用データは、対象人物の真の年齢が正解年齢として付与された顔画像データ或いは音声データである。
 データ加工部11は、学習用データである顔画像データ或いは音声データに対し、見え方或いは聞こえ方の変化を与える。データ加工部11は、学習用データである顔画像データ或いは音声データに対して人工的な加工を行うことで、同一人物の顔画像データ或いは音声データから、見え方や聞こえ方の異なる複数のデータを作成する。
 例えば、データ加工部11は、音声データを加工対象とする場合、事前に収録した複数の雑音を付加する、異なる残響環境で収録したインパルス応答を畳み込む、音声信号の一部を削除する、及び/または、音声信号の一部のみを切出することにより、同一人物の音声データから、聞こえ方の異なる複数のデータを作成する。
 例えば、データ加工部11は、顔画像データを対象とする場合、顔画像データに対しノイズを付与する、拡大縮小や回転などの幾何的変換を行う、及び/または画像データの一部を隠すことにより、同一人物の顔画像データから、見え方の異なる複数のデータを作成する。
 推定部12は、データ加工部11によって作成された、同一人物の顔画像データ或いは音声データに基づく複数の顔画像データ或いは複数の音声データを基に、対象人物の年齢を推定する。推定部12は、特徴量変換部121(変換部)及び年齢推定部122(推定部)を有する。
 特徴量変換部121は、第1のNN1211を用いて、複数の顔画像データ或いは音声データを、固定次元の特徴量ベクトルにそれぞれ変換する。第1のNN1211は、データ加工部11が生成した、人物の複数の顔画像データ或いは複数の音声データを、特徴量ベクトルに変換するNNである。
 顔画像データを対象とする場合、第1のNN1211は、例えば、非特許文献2に記載の技術を用いて、顔画像データを特徴ベクトルに変換するNNにより実現される。図3は、第1のNN1211の構成の一例を説明する図である。この場合、第1のNN1211は、例えば、図3に示すような構造を持つNNにより実現される。一例を挙げると、第1のNN1211は、Squeeze-and-Excitationを採用した複数のResidual blockからなる畳み込みNNにより実現される。
 音声データを対象とする場合、第1のNN1211は、例えば、非特許文献1に記載の技術を用いて、音声データを特徴ベクトルに変換するNNにより実現される。図4は、第1のNN1211の構成の一例を説明する図である。この場合、第1のNN1211は、例えば、図4に示すような構造を持つNNにより実現される。一例を挙げると、第1のNN1211は、複数のtime-delay 層とstatistical pooling層なる畳み込みNNにより実現される。
 年齢推定部122は、第2のNN1221を用いて、特徴量変換部121によって変換された複数の特徴量ベクトルから対象人物の年齢を推定する。第2のNN1221は、第1のNN1211により変換された一連の特徴量ベクトルから、対象人物の年齢をそれぞれ推定するNNである。
 第2のNN1221は、例えば、非特許文献1に記載の技術を用いて、特徴量ベクトルから対象人物の年齢値を推定するNNにより実現される。図5は、第2のNN1221の構成の一例を説明する図である。この第2のNN1221は、例えば、図5に示すような構造を持つNNにより実現される。一例を挙げると、第2のNN1221は、複数の512次元の全結合層と、1次元の全結合層からなる全接続NNにより実現される。
 更新部13は、特徴量変換部121が変換した、複数の顔画像データ或いは音声データに基づく各特徴量ベクトルと、年齢推定部122が推定した対象人物の年齢推定結果と、学習用データに付与された正解年齢とを基に、第1のNN1211及び第2のNN1221の各パラメータを更新する。
 更新部13は、特徴量変換部121によって変換された同一の人物の複数の特徴量ベクトルが、特徴空間上で互いに近くなるようにしつつ、年齢推定部122によって同一の人物に対する各特徴量ベクトルから推定された人物の年齢と人物の真の年齢との誤差が小さくなるように、第1のNN1211及び第2のNN1221の各パラメータを更新する。
 例えば、更新部13は、データ加工部11から得られたN個の加工済みデータに対し、第1のNN1211を適用し得られた特徴量ベクトルをそれぞれx,x,・・・,xとし、各特徴量ベクトルに対し第2のNN1221を適用しそれぞれ得られた年齢推定結果を~y,~y,・・・,~yとし、当該人物の真の年齢をyとし、損失をLとし、更新対象のパラメータをθとして、式(1)によりパラメータ(第1のNN1211、第2のNN1221の各パラメータ)を更新する。
Figure JPOXMLDOC01-appb-M000001
 式(1)式の第一項は、特徴量ベクトル間距離(図2参照)であり、第1のNN1211の出力より得ることができる。式(1)の第二項は、対象人物の推定年齢と真の年齢(正解年齢)との推定誤差(図2参照)であり、学習用データに付与された正解年齢と、第2のNN1221の出力とにより取得できる。なお、式(1)におけるλおよびμは予め設定される学習重みであり、いずれも正の定数である。
 制御処理部14は、所定の条件を満たすまで、データ加工部11、特徴量変換部121、年齢推定部122及び更新部13による処理を繰り返し実行させる。制御処理部14は、所定の条件を満たすまで、更新部125による第1のNN1211と第2のNN1221とのパラメータの更新を繰り返し実行させる。所定の条件とは、例えば、所定の繰り返し回数に達すること、第1のNN1211と第2のNN1221のパラメータとの更新量が所定の閾値未満となること等、第1のNN1211と第2のNN1221との学習が充分に行われた状態となる条件である。
[学習処理の処理手順]
 次に、学習装置10が実行する学習処理について説明する。図6は、実施の形態に係る学習処理の処理手順を示すフローチャートである。
 図6に示すように、学習装置10では、データ加工部11が、学習用データのうち、同一人物の顔画像データ或いは音声データから、ノイズ付与やランダムな領域の抽出などのデータ加工を行うことで、見え方或いは聞こえ方の異なる複数のデータを生成する(ステップS1)。
 そして、特徴量変換部121が、第1のNN1211を用いて、ステップS1において生成された複数のデータを特徴量ベクトルにそれぞれ変換する(ステップS2)。年齢推定部122は、第2のNN1221を用いて、特徴量変換部121によって変換された複数の特徴量ベクトルから対象人物の年齢を推定する(ステップS3)。
 更新部13は、特徴量変換部121によって変換された同一の人物の複数の特徴量ベクトルが、特徴空間上で互いに近くなるようにしつつ、年齢推定部122によって同一の人物に対する各特徴量ベクトルから推定された人物の年齢と人物の真の年齢との誤差が小さくなるように、第1のNN1211及び第2のNN1221の各パラメータを更新する(ステップS4)。
 制御処理部14は、所定の条件を満たすか否かを判定する(ステップS5)。所定の条件を満たしていない場合(ステップS5:No)、学習装置10は、ステップS1に戻り、データ加工、特徴量変換、年齢推定、パラメータ更新の各処理を行う。一方、所定の条件を満たした場合(ステップS5:Yes)、学習装置10は、学習処理を終了する。
[推定装置]
 次に、実施の形態に係る推定装置について説明する。図7は、実施の形態に係る推定装置の構成の一例を模式的に示す図である。図8は、図7に示す推定装置が実行する推定処理手順を示すフローチャートである。
 図7に示す推定装置20は、第1のNN1211を有する特徴量変換部221(変換部)と、第2のNN1221を有する年齢推定部222(推定部)とを有する。第1のNN1211及び第2のNN1221は、学習装置10によって学習済みのNNである。
 特徴量変換部221は、顔画像データ或いは音声データの入力を受け付けると(図8のステップS11)、第1のNN1211を用いて、顔画像データ或いは音声データを特徴量にそれぞれ変換する(図8のステップS12)。
 年齢推定部222は、第2のNN1221を用いて、特徴量変換部221によって変換された特徴量ベクトルから対象人物の年齢を推定し(図8のステップS13)、推定年齢を出力する(図8のステップS14)。
[評価実験]
 次に、学習装置10によって、式(1)を基に学習された第1のNN1211及び第2のNN1221について評価実験を行った。ここでは、スマートフォン搭載のマイクロフォンで収録した375話者の3750発話を学習データとして用いて、第1のNN1211及び第2のNN1221を学習した。その後、推定装置20は、同じく120話者の1300発話に対し、第1のNN1211及び第2のNN1221を用いて、話者の年齢の推定を行った。
 その結果、正解年齢値と、第1のNN1211及び第2のNN1221を用いた話者の年齢の推定結果との平均絶対誤差は5.87歳であった。また、正解年齢値と話者の年齢の推定結果との相関係数は0.92であった。
 参考として、式(1)の第二項のみを用いて第1のNN及び第2のNNを学習した場合、正解年齢値と、話者の年齢の推定結果との絶対誤差は6.72歳で、その相関係数は0.88であった。
[実施の形態の効果]
 したがって、本実施の形態のように、異なる見え方や聞こえ方のする同一人物のデータに対し、特徴ベクトルが陽に近づくように制約を与えて、第1のNN1211及び第2のNN1221を学習することで、同一人物の異なるデータが入力された場合、高い精度で、近い年齢推定結果を出力することが分かり、有効に機能することが確認できた。
 このように、本実施の形態によれば、異なる見え方や聞こえ方のする入力データに対し、これら変動に不変な特徴抽出器(第1のNN1211)と、これらの変動の影響に頑健な年齢推定器(第2のNN1221)とを得ることができる。言い換えると、本実施の形態では、顔画像データ或いは音声データから年齢推定を行うNNを学習する場合に、「同一人物の異なるデータ」が与えられた際に、NNの内部の中間特徴量が互いに同じような値になるような制約を与えることで、発話内容や顔の角度の違いの変化に関わらず同じような年齢推定結果を出力できるNNを実現することができた。
 なお、学習装置10は、入力データに何らかの加工を加えたものを学習データとして用いるという点に置いて、非特許文献1、非特許文献2に記載の技術と類似しているが、以下の点において相違する。
 非特許文献1では音声、非特許文献2では画像に対して、本実施の形態におけるデータ加工部と同様の加工を行い、学習用データとして用いる。しかしながら、非特許文献1,2のいずれの技術においても、これら加工されたデータは通常の学習データとしてのみ用いられる。すなわち、非特許文献1,2記載の技術においては、式(1)の損失Lの第二項のみを用いる。
 これに対し、本実施の形態では、異なる加工が施された同一人物の複数のデータに対し、式(1)の損失Lの第一項により、特徴量ベクトル空間においても陽に近くなるように制約を与えることで、見え方或いは聞こえ方の違いに対し、より頑健に年齢を推定することが可能である。言い換えると、非特許文献1,2記載の技術では、単に学習データのバリエーションを増やすだけであるが、本実施の形態では、これに加えて更に各変動に対してNNの挙動が不変になるように陽に制約を与えることで、これらの変動に対し、より頑健なNNを実現する。
 なお、本実施の形態は、画像データ、音声データ等の入力の違いに関わらず適用可能である。具体的には、第1のNN1211を各入力データの種別に適したものに変えればよい。
[実施の形態のシステム構成について]
 学習装置10及び推定装置20の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、学習装置10及び推定装置20の機能の分散及び統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。
 また、学習装置10及び推定装置20においておこなわれる各処理は、全部または任意の一部が、CPU、GPU(Graphics Processing Unit)、及び、CPU、GPUにより解析実行されるプログラムにて実現されてもよい。また、学習装置10及び推定装置20においておこなわれる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。
 また、実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。
[プログラム]
 図9は、プログラムが実行されることにより、学習装置10及び推定装置20が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
 ハードディスクドライブ1090は、例えば、OS(Operating System)1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、学習装置10及び推定装置20の各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、学習装置10及び推定装置20における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
 また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例及び運用技術等は全て本発明の範疇に含まれる。
 10 学習装置
 11 データ加工部
 12 推定部
 13 更新部
 14 制御処理部
 121,221 特徴量変換部
 122,222 年齢推定部
 1211 第1のNN
 1221 第2のNN

Claims (6)

  1.  同一人物の顔画像データ或いは音声データから、見え方或いは聞こえ方の異なる複数のデータを生成するデータ加工部と、
     第1のニューラルネットワークを用いて、前記複数のデータを特徴量ベクトルにそれぞれ変換する変換部と、
     第2のニューラルネットワークを用いて、前記変換部によって変換された複数の特徴量ベクトルから対象人物の年齢を推定する推定部と、
     前記変換部によって変換された同一の人物の複数の特徴量ベクトルが、特徴空間上で互いに近くなるようにしつつ、前記推定部によって前記同一の人物に対する各特徴量ベクトルから推定された前記人物の年齢と前記人物の真の年齢との誤差が小さくなるように、前記第1のニューラルネットワーク及び前記第2のニューラルネットワークの各パラメータを更新する更新部と、
     を有することを特徴とする学習装置。
  2.  所定の条件を満たすまで、前記データ加工部、前記変換部、前記推定部及び前記更新部による処理を繰り返し実行させる制御処理部をさらに有することを特徴とする請求項1に記載の学習装置。
  3.  前記データ加工部は、前記同一人物の顔画像データ或いは音声データに対し、ノイズ付与、または、ランダムな領域の抽出を行うことで、前記同一人物の顔画像データ或いは音声データから、見え方或いは聞こえ方の異なる複数のデータを生成することを特徴とする請求項1または2に記載の学習装置。
  4.  第1のニューラルネットワークを用いて、顔画像データ或いは音声データを特徴量ベクトルに変換する変換部と、
     第2のニューラルネットワークを用いて、前記変換部によって変換された特徴量ベクトルから対象人物の年齢を推定する推定部と、
     を有し、
     前記第1のニューラルネットワーク及び前記第2のニューラルネットワークは、前記第1のニューラルネットワークが変換した同一の人物の見え方或いは聞こえ方の異なる複数のデータに基づく複数の特徴量ベクトルが、特徴空間上で互いに近くなるようにしつつ、前記第2のニューラルネットワークが前記同一の人物に対する各特徴量ベクトルから推定した前記人物の年齢と前記人物の真の年齢との誤差が小さくなるように、学習されたことを特徴とする推定装置。
  5.  学習装置が実行する学習方法であって、
     同一人物の顔画像データ或いは音声データから、見え方或いは聞こえ方の異なる複数のデータを生成する工程と、
     第1のニューラルネットワークを用いて、前記複数のデータを特徴量ベクトルにそれぞれ変換する工程と、
     第2のニューラルネットワークを用いて、前記変換する工程によって変換された複数の特徴量ベクトルから対象人物の年齢を推定する工程と、
     前記変換する工程によって変換された同一の人物の複数の特徴量ベクトルが、特徴空間上で互いに近くなるようにしつつ、前記推定する工程によって前記同一の人物に対する各特徴量ベクトルから推定された前記人物の年齢と前記人物の真の年齢との誤差が小さくなるように、前記第1のニューラルネットワーク及び前記第2のニューラルネットワークの各パラメータを更新する工程と、
     を含んだことを特徴とする学習方法。
  6.  コンピュータを請求項1~3のいずれか一つに記載の学習装置として機能させるための学習プログラム。
PCT/JP2021/029451 2021-08-06 2021-08-06 学習装置、推定装置、学習方法及び学習プログラム WO2023013081A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2021/029451 WO2023013081A1 (ja) 2021-08-06 2021-08-06 学習装置、推定装置、学習方法及び学習プログラム
JP2023539592A JPWO2023013081A1 (ja) 2021-08-06 2021-08-06

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/029451 WO2023013081A1 (ja) 2021-08-06 2021-08-06 学習装置、推定装置、学習方法及び学習プログラム

Publications (1)

Publication Number Publication Date
WO2023013081A1 true WO2023013081A1 (ja) 2023-02-09

Family

ID=85155505

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/029451 WO2023013081A1 (ja) 2021-08-06 2021-08-06 学習装置、推定装置、学習方法及び学習プログラム

Country Status (2)

Country Link
JP (1) JPWO2023013081A1 (ja)
WO (1) WO2023013081A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019244298A1 (ja) * 2018-06-21 2019-12-26 日本電気株式会社 属性識別装置、属性識別方法、およびプログラム記録媒体
JP2020004381A (ja) * 2018-06-29 2020-01-09 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 情報プッシュ方法及び装置
JP2020173562A (ja) * 2019-04-09 2020-10-22 株式会社日立製作所 物体認識システム及び物体認識方法
CN112215157A (zh) * 2020-10-13 2021-01-12 北京中电兴发科技有限公司 一种基于多模型融合的人脸特征降维提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019244298A1 (ja) * 2018-06-21 2019-12-26 日本電気株式会社 属性識別装置、属性識別方法、およびプログラム記録媒体
JP2020004381A (ja) * 2018-06-29 2020-01-09 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 情報プッシュ方法及び装置
JP2020173562A (ja) * 2019-04-09 2020-10-22 株式会社日立製作所 物体認識システム及び物体認識方法
CN112215157A (zh) * 2020-10-13 2021-01-12 北京中电兴发科技有限公司 一种基于多模型融合的人脸特征降维提取方法

Also Published As

Publication number Publication date
JPWO2023013081A1 (ja) 2023-02-09

Similar Documents

Publication Publication Date Title
US9824683B2 (en) Data augmentation method based on stochastic feature mapping for automatic speech recognition
CN108922544B (zh) 通用向量训练方法、语音聚类方法、装置、设备及介质
JP4316583B2 (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
WO2020045313A1 (ja) マスク推定装置、マスク推定方法及びマスク推定プログラム
JP6517760B2 (ja) マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム
JP2018141922A (ja) ステアリングベクトル推定装置、ステアリングベクトル推定方法およびステアリングベクトル推定プログラム
WO2019163736A1 (ja) マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム
CN110998723B (zh) 使用神经网络的信号处理装置及信号处理方法、记录介质
WO2019138897A1 (ja) 学習装置および方法、並びにプログラム
KR20220022286A (ko) 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치
JP6711765B2 (ja) 形成装置、形成方法および形成プログラム
WO2023013081A1 (ja) 学習装置、推定装置、学習方法及び学習プログラム
WO2018151124A1 (ja) パラメタ算出装置、パラメタ算出方法、及び、パラメタ算出プログラムが記録された記録媒体
Zhang et al. Effective online unsupervised adaptation of Gaussian mixture models and its application to speech classification
KR102363636B1 (ko) 통계적 불확실성 모델링을 활용한 음성 인식 방법 및 장치
JP7293162B2 (ja) 信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法及び学習プログラム
JP2018146610A (ja) マスク推定装置、マスク推定方法およびマスク推定プログラム
JP6930408B2 (ja) 推定装置、推定方法および推定プログラム
WO2019208137A1 (ja) 音源分離装置、その方法、およびプログラム
JP2021033466A (ja) 符号化装置、復号装置、パラメータ学習装置、およびプログラム
JP6324647B1 (ja) 話者適応化装置、音声認識装置および音声認識方法
JP5647159B2 (ja) 事前分布計算装置、音声認識装置、事前分布計算方法、音声認識方法、プログラム
JP7571888B2 (ja) 学習装置、推定装置、学習方法及び学習プログラム
JP7533782B2 (ja) 学習装置、学習方法、および、学習プログラム
WO2023013075A1 (ja) 学習装置、推定装置、学習方法及び学習プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21952904

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023539592

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21952904

Country of ref document: EP

Kind code of ref document: A1