WO2022249241A1 - 学習装置、学習方法、および、学習プログラム - Google Patents

学習装置、学習方法、および、学習プログラム Download PDF

Info

Publication number
WO2022249241A1
WO2022249241A1 PCT/JP2021/019615 JP2021019615W WO2022249241A1 WO 2022249241 A1 WO2022249241 A1 WO 2022249241A1 JP 2021019615 W JP2021019615 W JP 2021019615W WO 2022249241 A1 WO2022249241 A1 WO 2022249241A1
Authority
WO
WIPO (PCT)
Prior art keywords
age
person
unit
estimated
learning device
Prior art date
Application number
PCT/JP2021/019615
Other languages
English (en)
French (fr)
Inventor
直弘 俵
厚徳 小川
歩相名 神山
佑樹 北岸
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/019615 priority Critical patent/WO2022249241A1/ja
Priority to JP2023523725A priority patent/JPWO2022249241A1/ja
Publication of WO2022249241A1 publication Critical patent/WO2022249241A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the present invention relates to a learning device, a learning method, and a learning program for learning an estimator that estimates a person's age.
  • Age estimation technology that estimates a person's age from voice and facial images is expected to be applied in call centers and in the marketing field.
  • Non-Patent Document 1 discloses a technology for estimating the age of a speaker by connecting an NN that converts a speech signal into a feature amount vector and an NN that estimates age, and simultaneously learning them.
  • Non-Patent Literatures 2 and 3 disclose techniques for estimating the age of a speaker by connecting an NN that converts a face image into a feature amount vector and an NN that estimates the age, and having them learn at the same time.
  • Non-Patent Document 4 There is also a known technique for estimating age using face information and voice information at the same time (see Non-Patent Document 4). For example, in Non-Patent Document 4, by connecting face information and voice information and estimating the age by multi-way regression, the speaker's age can be estimated with higher accuracy than when using either information (modality). A technique for estimating the age of
  • the aging of the speaker affects the face information and voice information of the speaker, but there are individual differences in aging. Therefore, a large amount of training data is required to construct an NN that operates robustly even for unknown persons.
  • a large-scale NN that requires learning of a large number of parameters, there is a problem that if there is not a sufficient amount of learning data, the accuracy of age estimation for an unknown person will drop significantly due to over-learning.
  • Non-Patent Document 3 a large number of facial images of celebrities and their age information are collected from the Web and used for NN learning. Also, in the technique described in Non-Patent Document 1, NN is trained using an English speech corpus that is open to the public for speaker estimation of about 1,000 people.
  • age estimation based on voice information is more difficult than age estimation based on face information.
  • the present invention provides a moving image collection unit that collects moving images with sound from the Web, a series of facial images of a person extracted from the collected moving images, and the extracted series of facial images.
  • a data extraction unit for extracting the voice of the person in the face image of the above;
  • a first neural network for estimating the age of the person in the face image using the series of extracted face images;
  • a second NN that estimates the age of the person using voice, and the difference between the age of the person estimated by the first NN and the age of the person estimated by the second NN is small.
  • an update unit for updating each parameter of the first NN or the second NN, and the moving image collection unit, the data extraction unit, the first NN, the second 2, and a control processing unit that repeatedly executes the processing by the updating unit.
  • FIG. 1 is a diagram showing a configuration example of a learning device.
  • FIG. 2 is a diagram showing an example of the first NN in FIG.
  • FIG. 3 is a diagram showing an example of the second NN in FIG.
  • FIG. 4 is a flow chart showing an example of a processing procedure of the learning device of FIG.
  • FIG. 5 is a diagram for explaining an estimation device that estimates age using the second NN learned by the learning device.
  • FIG. 6 is a diagram showing an example of a computer that executes a learning program.
  • the learning device 10 includes an NN (first NN 123) that estimates a person's age using face information, and a NN (second NN 124) that estimates a person's age using voice information.
  • the first NN 123 estimates the age of the person using face information of the collected moving image.
  • the learning device 10 estimates the age of the person by the second NN 124 using the audio information of the moving image. Then, the learning device 10 updates each parameter of the second NN 124 so that the estimation result of the person's age by the second NN 124 approaches the estimation result of the person's age by the first NN 123 , for example.
  • the learning device 10 includes an input/output unit 11 and a control unit 12 .
  • the input/output unit 11 controls input/output of various data.
  • the input/output unit 11 receives an input of a moving image with human voice from, for example, a web archive.
  • the control unit 12 controls the learning device 10 as a whole.
  • the control unit 12 includes a video collection unit 121 , a data extraction unit 122 , a first NN 123 , a second NN 124 , an update unit 125 and a control processing unit 126 .
  • the video collection unit 121 collects videos with audio archived on the Web.
  • the moving image collection unit 121 collects a person's interview moving image or the like from a web archive.
  • the data extraction unit 122 extracts a series of face images of a person and the voice of the person from the moving images collected by the moving image collecting unit 121 .
  • the first NN 123 is a NN that estimates the age of a person using a series of face images of the person extracted by the data extraction unit 122 .
  • the first NN 123 is implemented, for example, by using the technique described in Non-Patent Document 2 to connect an NN that estimates an age to an NN that converts a face image into a feature vector.
  • This first NN 123 is realized by, for example, an NN having a structure as shown in FIG.
  • the first NN 123 is realized by a convolutional NN consisting of multiple residual blocks employing squeeze-and-excitation.
  • This NN replaces the final layer of a pretrained model in ImageNet with two fully connected layers that output the posterior probabilities and age values for the age 101 class, respectively, and consists of softmax cross entropy and squared error minimization criteria. It is a class classifier that fine-tunes the entire model on a multitasking basis.
  • the second NN 124 is a NN that estimates the age of the person using the person's voice extracted by the data extraction unit 122 .
  • the second NN 124 is implemented, for example, by using the technique described in Non-Patent Document 1 to connect an NN that estimates age to an NN that converts speech signals into feature vectors.
  • This second NN 124 is implemented by, for example, an NN having a structure as shown in FIG.
  • the second NN 124 is a NN that estimates age based on the x-vector.
  • an x-vector extractor for example, the one learned from the Kaldi SRE16 recipe except for SRE10 is used.
  • the second NN 124 calculates the age by applying an NN consisting of two 512-dimensional fully connected layers and a one-dimensional fully connected layer outputting the age value to the x-vector extracted by the extractor. presume.
  • the updating unit 125 updates each parameter of the second NN 124 so that the difference between the person's age estimated by the first NN 123 and the person's age estimated by the second NN 124 becomes smaller.
  • the estimation unit 125 updates the parameters (each parameter of the second NN 124) according to the following equation (1).
  • Equation (1) is a preset learning weight and is a positive constant.
  • the control processing unit 126 causes the moving image collecting unit 121, the data extracting unit 122, the first NN 123, the second NN 124, and the updating unit 125 to repeatedly execute the processing until a predetermined condition is satisfied. That is, the control processing unit 126 causes the updating unit 125 to repeatedly update the parameters of the second NN 124 until a predetermined condition is satisfied.
  • the predetermined condition is, for example, a condition that the second NN 124 has sufficiently learned, such as reaching a predetermined number of iterations, or an update amount of the parameter of the second NN 124 being less than a predetermined threshold. be.
  • an estimator (second NN 124) that accurately estimates a person's age from voice information without using a large amount of learning data.
  • the moving image collection unit 121 of the learning device 10 collects, for example, moving images with audio that are archived on the Web (S1).
  • the data extraction unit 122 extracts a series of facial images of a person and the voice of the person from the moving images collected by the moving image collecting unit 121 (S2).
  • the first NN 123 uses the series of facial images extracted in S2 to estimate the age of the person in the series of facial images (S3). Also, the second NN 124 estimates the age of the person using the voice extracted in S2 (S4). Then, the updating unit 125 updates each parameter of the second NN 124 so that the difference between the age of the person estimated by the first NN 123 in S3 and the age of the person estimated by the second NN 124 becomes small. is updated (S5).
  • the control processing unit 126 satisfies a predetermined condition, for example, the number of times of processing of S1 to S5 has reached a predetermined number, or the update amount of the parameter of the second NN 124 has become less than a predetermined threshold. is satisfied (Yes in S6), the process is terminated. On the other hand, if the control processing unit 126 satisfies a predetermined condition, for example, the number of times of processing S1 to S5 has not reached a predetermined number, or the update amount of the parameter of the second NN 124 is equal to or greater than a predetermined threshold. If not (No in S6), the process returns to S1, and the processing by the moving image collecting unit 121, the data extracting unit 122, the first NN 123, the second NN 124, and the updating unit 125 is executed again.
  • a predetermined condition for example, the number of times of processing of S1 to S5 has reached a predetermined number, or the update amount of the parameter of the second NN 124 has
  • an estimator (second NN 124) that accurately estimates a person's age from voice information without using a large amount of learning data.
  • the learning device 10 is similar to the technology disclosed in Non-Patent Document 4 in that it uses both voice and face images, but differs in the following points.
  • Non-Patent Document 4 learns an age estimator by connecting voice information and face information. It differs in that the second NN 124 is trained to imitate the first NN 123 that estimates the age of a person from facial images.
  • Non-Patent Document 4 can be applied only when age labels are assigned to all data. Assign labels automatically. For this reason, the learning device 10 has the advantage of being able to learn even from data to which no age label has been assigned.
  • Non-Patent Document 4 uses multi-way regression as an age estimator, so it is necessary to extract intermediate feature values.
  • the learning device 10 by using the NN as the age estimator, it is possible to directly estimate the age of the person from the voice and face image with high accuracy.
  • the roles of the first NN 123 and the second NN 124 of the learning device 10 can be exchanged.
  • the learning device 10 sets each of the first NN 123 to imitate the second NN 124. parameters may be updated.
  • the learning device 10 reduces the error between the person's age estimated from the face image by the first NN 123 and the person's age estimated from the voice by the second NN 124 by setting each parameter of the first NN 123 may be updated.
  • the learning device 10 may of course estimate the age of the person from the input voice (voice information) using the learned second NN 124.
  • the second NN 124 learned by the learning device 10 may be used by an external device. For example, as shown in FIG. 5, an estimation device 20 installed outside the learning device 10 may estimate the age of a person from voice information using the second NN 124 learned by the learning device 10. .
  • the framework for learning the second NN 124 (speech age estimator) to imitate the first NN 123 (face age estimator) as in the learning device 10 functions effectively. rice field.
  • each constituent element of each part shown in the figure is functionally conceptual, and does not necessarily need to be physically configured as shown in the figure.
  • the specific form of distribution and integration of each device is not limited to the illustrated one, and all or part of them can be functionally or physically distributed and integrated in arbitrary units according to various loads and usage conditions. Can be integrated and configured.
  • all or any part of each processing function performed by each device can be implemented by a CPU and a program executed by the CPU, or implemented as hardware based on wired logic.
  • the learning device 10 described above can be implemented by installing a program on a desired computer as package software or online software.
  • the information processing device can function as the learning device 10 by causing the information processing device to execute the above program.
  • the information processing apparatus referred to here includes a desktop or notebook personal computer.
  • information processing devices include mobile communication terminals such as smartphones, mobile phones and PHS (Personal Handyphone Systems), and terminals such as PDAs (Personal Digital Assistants).
  • the learning device 10 can also be implemented as a server device that uses a terminal device used by a user as a client and provides the client with services related to the above processing.
  • the server device may be implemented as a web server, or may be implemented as a cloud that provides services related to the above processing by outsourcing.
  • FIG. 8 is a diagram showing an example of a computer that executes a learning program.
  • the computer 1000 has a memory 1010 and a CPU 1020, for example.
  • Computer 1000 also has hard disk drive interface 1030 , disk drive interface 1040 , serial port interface 1050 , video adapter 1060 and network interface 1070 . These units are connected by a bus 1080 .
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM (Random Access Memory) 1012 .
  • the ROM 1011 stores a boot program such as BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • Hard disk drive interface 1030 is connected to hard disk drive 1090 .
  • a disk drive interface 1040 is connected to the disk drive 1100 .
  • a removable storage medium such as a magnetic disk or optical disk is inserted into the disk drive 1100 .
  • Serial port interface 1050 is connected to mouse 1110 and keyboard 1120, for example.
  • Video adapter 1060 is connected to display 1130, for example.
  • the hard disk drive 1090 stores, for example, an OS 1091, application programs 1092, program modules 1093, and program data 1094. That is, the program that defines each process executed by the learning device 10 is implemented as a program module 1093 in which computer-executable code is described. Program modules 1093 are stored, for example, on hard disk drive 1090 .
  • the hard disk drive 1090 stores a program module 1093 for executing processing similar to the functional configuration of the learning device 10 .
  • the hard disk drive 1090 may be replaced by an SSD (Solid State Drive).
  • the data used in the processes of the above-described embodiments are stored as program data 1094 in the memory 1010 or the hard disk drive 1090, for example. Then, the CPU 1020 reads out the program modules 1093 and program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as necessary and executes them.
  • the program modules 1093 and program data 1094 are not limited to being stored in the hard disk drive 1090, but may be stored in a removable storage medium, for example, and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, the program modules 1093 and program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). Program modules 1093 and program data 1094 may then be read by CPU 1020 through network interface 1070 from other computers.
  • LAN Local Area Network
  • WAN Wide Area Network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

学習装置(10)は、Web上から音声付の動画を収集し、収集した動画中から、人物の一連の顔画像および音声を抽出する。そして、学習装置(10)は、顔画像の人物の年齢を推定する第1のNN(123)を用いて、抽出した一連の顔画像の人物の年齢を推定する。また、学習装置(10)は、音声により人物の年齢を推定する第2のNN(124)を用いて、抽出した音声の人物の年齢を推定する。次に、学習装置(10)は、第1のNN(123)により推定した人物の年齢と、第2のNN(124)により推定した当該人物の年齢との差が小さくなるように、第1のNN(123)または第2のNN(124)の各パラメータを更新する。学習装置(10)は、所定の条件を満たすまで、上記の処理を繰り返し実行することにより、第1のNN(123)または第2のNN(124)の学習を行う。

Description

学習装置、学習方法、および、学習プログラム
 本発明は、人物の年齢を推定する推定器を学習するための、学習装置、学習方法、および、学習プログラムに関する。
 音声や顔画像から人物の年齢を推定する年齢推定技術は、コールセンターやマーケティング分野において応用が期待される。
 音声分野においては、近年、ニューラルネットワーク(NN)を用いた年齢推定技術として、音声波形から話者の年齢を直接推定する手法(非特許文献1参照)が知られている。例えば、非特許文献1には、音声信号を特徴量ベクトルに変換するNNと年齢を推定するNNとを連結し、同時に学習させることで、話者の年齢を推定する技術が開示されている。
 一方、画像分野においても、NNを用いて顔画像から年齢を直接推定する手法(非特許文献2、非特許文献3参照)が知られている。例えば、非特許文献2、3には、顔画像を特徴量ベクトルに変換するNNと年齢を推定するNNとを連結し、同時に学習させることで、話者の年齢を推定する技術が開示されている。
 また、顔情報と音声情報を同時に用いて年齢を推定する技術も知られている(非特許文献4参照)。例えば、非特許文献4には、顔情報と音声情報とを連結し、multi-way回帰により年齢を推定することで、どちらか一方の情報(モダリティ)を用いた場合よりも高い精度で話者の年齢を推定する技術が開示されている。
P.Ghahremani, et al. "End-to-End Deep Neural Network Age Estimation", Proc. Interspeech, pp. 277-281, 2018.[2021年5月11日検索]、インターネット<https://www.isca-speech.org/archive/Interspeech_2018/pdfs/2015.pdf> A.Fariza, et al. "Age Estimation System Using Deep Residual Network Classification Method", in Proc. IES, 2019, pp. 607-611、[2021年5月11日検索]、インターネット<https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8901521> R. Rothe, et al. "Deep Expectation of Real and Apparent Age from a Single Image Without Facial Landmarks", in  International Journal of Computer Vision, vol. 126, no. 2-4, pp. 144-157, Springer, 2018. E.Pantraki, C.Kotropoulos, "Multi-Way Regression for Age Prediction Exploiting Speech and Face Image Information", in Proc. In EUSIPCO, 2017, pp. 2196-2200.,[2021年5月11日検索]、インターネット<https://www.eurasip.org/Proceedings/Eusipco/Eusipco2017/papers/1570348322.pdf>
 ここで、話者の顔情報や音声情報には話者の加齢が影響を与えるが、加齢には個人差がある。このため、未知の人物に対しても頑健に動作するNNを構築するためには、大量の教師データが必要となる。特に多数のパラメータの学習が必要な大規模なNNを用いる場合、充分な量の学習データがないと、過学習により未知の人物に対する年齢の推定精度が著しく低下してしまうという問題がある。
 この問題を解決するため、例えば、非特許文献3に記載の技術では、芸能人等の顔画像とその芸能人の年令情報をWeb上より多数収集し、NNの学習に用いている。また、非特許文献1に記載の技術では、1000人程度の話者推定用に公開されている英語音声コーパスを用いてNNの学習を行っている。
 しかし、顔データと比べて音声データは利用可能なデータ数が少ない。また、利用可能な音声コーパスの多くは狭帯域の英語音声に限定されている。このため、上記の音声コーパスで学習したNNを、広帯域音声や日本語音声にそのまま適用すると、年齢の推定精度が低下するという問題がある。そのため、音声情報による年齢の推定は、顔情報による年齢の推定よりも困難であることが知られている。
 そこで、本発明は、前記した問題を解決し、大量の学習データを用いなくても、人物の年齢を精度よく推定する推定器を得ることを課題とする。
 前記した課題を解決するため、本発明は、Web上から音声付の動画を収集する動画収集部と、前記収集された動画中から、人物の一連の顔画像を抽出し、抽出された前記一連の顔画像の人物の音声を抽出するデータ抽出部と、前記抽出された一連の顔画像を用いて、前記顔画像の人物の年齢を推定する第1のNNと、前記抽出された前記人物の音声を用いて、前記人物の年齢を推定する第2のNNと、前記第1のNNにより推定された人物の年齢と、前記第2のNNにより推定された当該人物の年齢との差が小さくなるように、前記第1のNNまたは前記第2のNNの各パラメータを更新する更新部と、所定の条件を満たすまで、前記動画収集部、前記データ抽出部、前記第1のNN、前記第2のNN、および、前記更新部による処理を繰り返し実行させる制御処理部と、を備えることを特徴とする。
 本発明によれば、大量の学習データを用いなくても、人物の年齢を精度よく推定する推定器を得ることができる。
図1は、学習装置の構成例を示す図である。 図2は、図1の第1のNNの例を示す図である。 図3は、図1の第2のNNの例を示す図である。 図4は、図1の学習装置の処理手順の例を示すフローチャートである。 図5は、学習装置により学習された第2のNNを用いて、年齢の推定を行う推定装置を説明するための図である。 図6は、学習プログラムを実行するコンピュータの例を示す図である。
 以下、図面を参照しながら、本発明を実施するための形態(実施形態)について説明する。本発明は、本実施形態に限定されない。
[概要]
 図1を参照しながら、本実施形態の学習装置10の概要を説明する。学習装置10は、顔情報を用いて人物の年齢を推定するNN(第1のNN123)と、音声情報を用いて人物の年齢を推定するNN(第2のNN124)とを備える。学習装置10は、Webアーカイブ等から人物の音声付きの動画を収集すると、収集した動画の顔情報を用いて第1のNN123により人物の年齢を推定する。また、学習装置10は、動画の音声情報を用いて第2のNN124により当該人物の年齢を推定する。そして、学習装置10は、例えば、第2のNN124による人物の年齢の推定結果が、第1のNN123による当該人物の年齢の推定結果に近づくように、第2のNN124の各パラメータを更新する。
[構成例]
 引き続き、図1を用いて学習装置10の構成例を説明する。学習装置10は、入出力部11と、制御部12とを備える。入出力部11は、各種データの入出力を司る。入出力部11は、例えば、Webアーカイブから、人物の音声付きの動画の入力を受け付ける。
 制御部12は、学習装置10全体の制御を司る。例えば、制御部12は、動画収集部121と、データ抽出部122と、第1のNN123と、第2のNN124と、更新部125と、制御処理部126とを備える。
 動画収集部121は、Web上にアーカイブされている音声付の動画を収集する。例えば、動画収集部121は、Webアーカイブから、人物のインタビュー動画等を収集する。
 データ抽出部122は、動画収集部121により収集された動画から、人物の一連の顔画像とその人物の音声とを抽出する。
 第1のNN123は、データ抽出部122により抽出された人物の一連の顔画像を用いて、当該人物の年齢を推定するNNである。第1のNN123は、例えば、非特許文献2に記載の技術を用いて、顔画像を特徴ベクトルに変換するNNに、年齢を推定するNNを連結することにより実現される。この第1のNN123は、例えば、図2に示すような構造を持つNNにより実現される。
 一例を挙げると、第1のNN123は、Squeeze-and-Excitationを採用した複数のResidual blockからなる畳み込みNNにより実現される。このNNは、例えば、ImageNetで事前学習したモデルの最終層を年齢101クラスに対する事後確率と年齢値とをそれぞれ出力する2つの全接続層に置き換え、softmax cross entropyおよび2乗誤差最小化基準からなるマルチタスク基準で、モデル全体をファインチューニングしたクラス分類器である。
 第2のNN124は、データ抽出部122により抽出された人物の音声を用いて、当該人物の年齢を推定するNNである。第2のNN124は、例えば、非特許文献1に記載の技術を用いて、音声信号を特徴ベクトルに変換するNNに、年齢を推定するNNを連結することにより実現される。この第2のNN124は、例えば、図3に示すような構造を持つNNにより実現される。
 一例を挙げると、第2のNN124は、x-vectorに基づき、年齢を推定するNNである。なお、x-vectorの抽出器として、例えば、Kaldi SRE16 レシピからSRE10を除き学習したものを用いる。第2のNN124は、抽出器により抽出されたx-vectorに対し、2層の512次元の全接続層および年齢値を出力する1次元の全接続層からなるNNを適用することにより、年齢を推定する。
 更新部125は、第1のNN123により推定された人物の年齢と、第2のNN124により推定された当該人物の年齢との差が小さくなるように、第2のNN124の各パラメータを更新する。
 例えば、第1のNN123による人物の年齢の推定値をy1、第2のNN124による人物の年齢の推定値をy2と、y1とy2との間の損失をL、更新対象のパラメータをθとして、更新部125は、以下の式(1)によりパラメータ(第2のNN124の各パラメータ)を更新する。
Figure JPOXMLDOC01-appb-M000001
 なお、式(1)におけるμは予め設定される学習重みで正の定数である。更新部125が上記のようにして第2のNN124のパラメータを更新することにより、第1のNN123を模倣するように第2のNN124のパラメータが更新されることになる。
 制御処理部126は、所定の条件を満たすまで、動画収集部121、データ抽出部122、第1のNN123、第2のNN124、および、更新部125による処理を繰り返し実行させる。つまり、制御処理部126は、所定の条件を満たすまで、更新部125による第2のNN124のパラメータの更新を繰り返し実行させる。所定の条件とは、例えば、所定の繰り返し回数に達する、第2のNN124のパラメータの更新量が所定の閾値未満となる等、第2のNN124の学習が充分に行われた状態となる条件である。
 このような学習装置10によれば、大量の学習データを用いなくても、音声情報から人物の年齢を精度よく推定する推定器(第2のNN124)を得ることができる。
[処理手順の例]
 次に、図4を用いて、学習装置10の処理手順の例を説明する。まず、学習装置10の動画収集部121は、例えば、Web上にアーカイブされている音声付の動画を収集する(S1)。次に、データ抽出部122は、動画収集部121により収集された動画中から、人物の一連の顔画像とその人物の音声とを抽出する(S2)。
 S2の後、第1のNN123は、S2で抽出された一連の顔画像を用いて、一連の顔画像の人物の年齢を推定する(S3)。また、第2のNN124は、S2で抽出された音声を用いて、当該人物の年齢を推定する(S4)。そして、更新部125は、S3で第1のNN123により推定された人物の年齢と、第2のNN124により推定された当該人物の年齢との差が小さくなるように、第2のNN124の各パラメータを更新する(S5)。
 S5の後、制御処理部126は、例えば、S1~S5の処理回数が所定の回数に達した、または、第2のNN124のパラメータの更新量が所定の閾値未満となった等、所定の条件を満たすと判定した場合(S6でYes)、処理を終了する。一方、制御処理部126が、例えば、S1~S5の処理回数が所定の回数に達していない、または、第2のNN124のパラメータの更新量が所定の閾値以上である等、所定の条件を満たしていないとした場合(S6でNo)、S1へ戻り、動画収集部121、データ抽出部122、第1のNN123、第2のNN124、および、更新部125による処理を再度実行させる。
 このような学習装置10によれば、大量の学習データを用いなくても、音声情報から人物の年齢を精度よく推定する推定器(第2のNN124)を得ることができる。
 なお、学習装置10は音声と顔画像の両方を用いるという点において非特許文献4に開示される技術と類似しているが、以下の点において相違する。
 第1に、非特許文献4に開示される技術は音声情報と顔情報を連結して年齢推定器を学習するが、学習装置10は、音声から人物の年齢推定を行う第2のNN124が、顔画像から人物の年齢推定を行う第1のNN123を模倣するように、第2のNN124を学習する点において異なる。
 また、非特許文献4に開示される技術では、すべてのデータに年齢ラベルが付与された場合にのみ適用できるのに対し、学習装置10は第1のNN123により、動画における一連の顔画像に年齢ラベルを自動的に付与する。このため、学習装置10は、年齢ラベルが付与されていないデータからでも学習が可能であるという利点がある。
 第2に、非特許文献4に開示される技術では、年齢推定器として、multi-way回帰を用いるため、中間特徴量の抽出が必要である。しかし、学習装置10においては、年齢推定器として、NNを用いることで、音声や顔画像から高い精度で人物の年齢を直接推定することができる。
[その他の実施形態]
 なお、学習装置10の第1のNN123と第2のNN124の役割を交換することもできる。例えば、第1のNN123よりも、第2のNN124の方が年齢の推定精度が高い場合、学習装置10は、第1のNN123が第2のNN124を模倣するように、第1のNN123の各パラメータを更新してもよい。つまり、学習装置10は、第1のNN123で顔画像から推定した人物の年齢と、第2のNN124で音声から推定した人物の年齢との誤差を小さくなるように、第1のNN123の各パラメータを更新してもよい。
 また、学習装置10は、第2のNN124の学習後、学習された第2のNN124を用いて、入力された音声(音声情報)から人物の年齢を推定してももちろんよい。また、学習装置10により学習された第2のNN124は、外部装置により用いられてもよい。例えば、図5に示すように、学習装置10の外部に設置される推定装置20が、学習装置10により学習された第2のNN124を用いて、音声情報から人物の年齢を推定してもよい。
[実験結果]
 以下に、学習装置10を用いて学習された第2のNN124の実験結果を示す。ここでは、学習装置10が、YouTube(登録商標)から収集した4479話者の約15万動画を学習データとして用いて、第2のNN124(音声年齢推定器)を学習した。その後、学習装置10は、同じくYouTubeから収集した497話者の16000動画に対し、上記の第2のNN124を用いて、話者の年齢の推定を行った。その結果、正解年齢値と、上記の第2のNN124による話者の年齢の推定結果との絶対誤差は8.59歳であった。また、正解年齢値と話者の年齢の推定結果との相関係数は0.70であった。
 一方、参考として、学習データに付与された真の年齢値を用いて第2のNN124を学習した場合は、上記の第2のNN124による話者の年齢の推定結果との絶対誤差は7.43歳で、その相関係数は0.74であった。このことから、学習装置10のように、第1のNN123(顔年齢推定器)を模倣するように第2のNN124(音声年齢推定器)を学習する枠組みは、有効に機能することが確認できた。
[システム構成等]
 また、図示した各部の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
 また、前記した実施形態において説明した処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
 前記した学習装置10は、パッケージソフトウェアやオンラインソフトウェアとしてプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を学習装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等の端末等がその範疇に含まれる。
 また、学習装置10は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の処理に関するサービスを提供するサーバ装置として実装することもできる。この場合、サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。
 図8は、学習プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
 ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記の学習装置10が実行する各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、学習装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
 また、上述した実施形態の処理で用いられるデータは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続される他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
10 学習装置
20 推定装置
11 入出力部
12 制御部
121 動画収集部
122 データ抽出部
123 第1のNN
124 第2のNN
125 更新部
126 制御処理部

Claims (6)

  1.  Web上から音声付の動画を収集する動画収集部と、
     前記収集された動画中から、人物の一連の顔画像を抽出し、抽出された前記一連の顔画像の人物の音声を抽出するデータ抽出部と、
     前記抽出された一連の顔画像を用いて、前記顔画像の人物の年齢を推定する第1のNNと、
     前記抽出された前記人物の音声を用いて、前記人物の年齢を推定する第2のNNと、
     前記第1のNNにより推定された人物の年齢と、前記第2のNNにより推定された当該人物の年齢との差が小さくなるように、前記第1のNNまたは前記第2のNNの各パラメータを更新する更新部と、
     所定の条件を満たすまで、前記動画収集部、前記データ抽出部、前記第1のNN、前記第2のNN、および、前記更新部による処理を繰り返し実行させる制御処理部と、
     を備えることを特徴とする学習装置。
  2.  前記所定の条件は、
     前記動画収集部、前記データ抽出部、前記第1のNN、前記第2のNN、および、前記更新部による処理の繰り返し回数が所定回数に達すること、
     または、
     前記更新部による前記第1のNNまたは前記第2のNNのパラメータの更新量が所定の閾値未満となること
     であることを特徴とする請求項1に記載の学習装置。
  3.  前記更新部は、
     前記第1のNNにより推定された人物の年齢と、前記第2のNNにより推定された当該人物の年齢との差が小さくなるように、前記第2のNNの各パラメータを更新する
     ことを特徴とする請求項1に記載の学習装置。
  4.  前記更新部は、
     前記第1のNNにより推定された人物の年齢と、前記第2のNNにより推定された当該人物の年齢との差が小さくなるように、前記第1のNNの各パラメータを更新する
     ことを特徴とする請求項1に記載の学習装置。
  5.  学習装置により実行される学習方法であって、
     Web上から音声付の動画を収集する動画収集工程と、
     前記収集された動画中から、人物の一連の顔画像を抽出し、抽出された前記一連の顔画像の人物の音声を抽出するデータ抽出工程と、
     顔画像を用いて、前記顔画像の人物の年齢を推定する第1のNNにより、前記抽出された一連の顔画像を用いて、前記顔画像の人物の年齢を推定する第1の年齢推定工程と、
     人物の音声を用いて、前記人物の年齢を推定する第2のNNにより、前記抽出された前記人物の音声を用いて、前記人物の年齢を推定する第2の年齢推定工程と
     前記第1のNNにより推定された人物の年齢と、前記第2のNNにより推定された当該人物の年齢との差が小さくなるように、前記第1のNNまたは前記第2のNNの各パラメータを更新する更新工程と、
     所定の条件を満たすまで、前記動画収集工程、前記データ抽出工程、前記第1の年齢推定工程、前記第2の年齢推定工程、および、前記更新工程による処理を繰り返し実行させる制御工程と、
     を含むことを特徴とする学習方法。
  6.  請求項1から請求項4のいずれか1項に記載の学習装置として、コンピュータを機能させることを特徴とする学習プログラム。
PCT/JP2021/019615 2021-05-24 2021-05-24 学習装置、学習方法、および、学習プログラム WO2022249241A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2021/019615 WO2022249241A1 (ja) 2021-05-24 2021-05-24 学習装置、学習方法、および、学習プログラム
JP2023523725A JPWO2022249241A1 (ja) 2021-05-24 2021-05-24

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/019615 WO2022249241A1 (ja) 2021-05-24 2021-05-24 学習装置、学習方法、および、学習プログラム

Publications (1)

Publication Number Publication Date
WO2022249241A1 true WO2022249241A1 (ja) 2022-12-01

Family

ID=84229662

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/019615 WO2022249241A1 (ja) 2021-05-24 2021-05-24 学習装置、学習方法、および、学習プログラム

Country Status (2)

Country Link
JP (1) JPWO2022249241A1 (ja)
WO (1) WO2022249241A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010066844A (ja) * 2008-09-09 2010-03-25 Fujifilm Corp 動画コンテンツの加工方法及び装置、並びに動画コンテンツの加工プログラム
JP2010152866A (ja) * 2008-12-23 2010-07-08 Korea Electronics Telecommun 音声及び映像に基づく性別−年齢識別方法及びその装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010066844A (ja) * 2008-09-09 2010-03-25 Fujifilm Corp 動画コンテンツの加工方法及び装置、並びに動画コンテンツの加工プログラム
JP2010152866A (ja) * 2008-12-23 2010-07-08 Korea Electronics Telecommun 音声及び映像に基づく性別−年齢識別方法及びその装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TAWARA, NAOHIRO ET AL.: "Study of using multi-modal data for speaker age estimation", REPORTS CD-ROM OF THE 2020 AUTUMN MEETING THE ACOUSTICAL SOCIETY OF JAPAN, vol. 2020, 2020, pages 905 - 906, ISSN: 1880-7658 *

Also Published As

Publication number Publication date
JPWO2022249241A1 (ja) 2022-12-01

Similar Documents

Publication Publication Date Title
JP6637078B2 (ja) 音響モデル学習装置、音響モデル学習方法及びプログラム
CN109934261B (zh) 一种知识驱动参数传播模型及其少样本学习方法
WO2019017403A1 (ja) マスク計算装置、クラスタ重み学習装置、マスク計算ニューラルネットワーク学習装置、マスク計算方法、クラスタ重み学習方法及びマスク計算ニューラルネットワーク学習方法
JP6831343B2 (ja) 学習装置、学習方法及び学習プログラム
CN111523640A (zh) 神经网络模型的训练方法和装置
CN116861995A (zh) 多模态预训练模型的训练及多模态数据处理方法和装置
JP6620882B2 (ja) ドメイン適応を用いたパターン認識装置、方法およびプログラム
WO2020222384A1 (ko) 전자 장치 및 이의 제어 방법
US20210073645A1 (en) Learning apparatus and method, and program
CN111785257A (zh) 一种针对少量标注样本的空管语音识别方法及装置
CN113434683B (zh) 文本分类方法、装置、介质及电子设备
KR20190136578A (ko) 음성 인식 방법 및 장치
JP2018028618A (ja) マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム
CN111104874B (zh) 人脸年龄预测方法及模型的训练方法、装置及电子设备
WO2022246986A1 (zh) 数据处理方法、装置、设备及计算机可读存储介质
US11366984B1 (en) Verifying a target object based on confidence coefficients generated by trained models
CN114360520A (zh) 语音分类模型的训练方法、装置、设备及存储介质
CN114078203A (zh) 一种基于改进pate的图像识别方法和系统
WO2022249241A1 (ja) 学習装置、学習方法、および、学習プログラム
JP6910002B2 (ja) 対話行為推定方法、対話行為推定装置及びプログラム
JP2019095599A (ja) 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム
CN109033413B (zh) 一种基于神经网络的需求文档和服务文档匹配方法
Tong et al. Graph convolutional network based semi-supervised learning on multi-speaker meeting data
JP6636973B2 (ja) マスク推定装置、マスク推定方法およびマスク推定プログラム
CN115170919A (zh) 图像处理模型训练及图像处理方法、装置、设备和存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21942899

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023523725

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21942899

Country of ref document: EP

Kind code of ref document: A1