WO2023032016A1 - 推定方法、推定装置および推定プログラム - Google Patents
推定方法、推定装置および推定プログラム Download PDFInfo
- Publication number
- WO2023032016A1 WO2023032016A1 PCT/JP2021/031807 JP2021031807W WO2023032016A1 WO 2023032016 A1 WO2023032016 A1 WO 2023032016A1 JP 2021031807 W JP2021031807 W JP 2021031807W WO 2023032016 A1 WO2023032016 A1 WO 2023032016A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- information
- mind
- learning
- state
- nonverbal
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 30
- 238000004364 calculation method Methods 0.000 claims abstract description 16
- 230000008569 process Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000002372 labelling Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000010365 information processing Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004630 mental health Effects 0.000 description 1
- 230000006996 mental state Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000010454 slate Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
Definitions
- the present invention relates to an estimation method, an estimation device, and an estimation program.
- Estimation of the state of mind that appears in such nonverbal/paralinguistic information is generally performed by labeling each label that represents a defined state of mind for inputs such as feature values and data itself extracted from speech and video images. It is defined as supervised learning that outputs posterior probabilities and the like (see Non-Patent Document 1).
- emotions and facial expression recognition are classified into several classes such as normal, joy, sadness, surprise, fear, ashamed, anger, and contempt.
- degree of specificity such as the level of understanding, is classified into arbitrary levels.
- labels corresponding to classes defined in this way are annotated by one or more workers.
- the results of annotations made by workers may match globally, but it is difficult to match locally. For example, when multiple workers annotate with 5 levels of understanding, even if all workers agree that the level of understanding is low, "do not understand” or “somewhat do not understand” Evaluation may be divided by a small margin. In this case, if biases such as worker fatigue, experience, and judgment criteria change, the results may also change. In this way, in supervised learning, inaccurate correct labels containing noise are mixed, which adversely affects learning and evaluation.
- the present invention has been made in view of the above, and aims to accurately correct labels that represent states of mind appearing in nonverbal/paralinguistic information.
- an estimation method is an estimation method executed by an estimation device, which includes nonverbal information or paralinguistic information and an acquisition step of acquiring learning data including correct labels representing states of mind appearing in the nonverbal information or paralinguistic information; and calculating posterior probabilities of the states of mind with respect to the acquired nonverbal information or paralinguistic information. learning the model parameters of a model for estimating the state of mind appearing in the input nonverbal information or paralinguistic information, using the calculating step, the learning data, and the calculated posterior probability of the state of mind; and a learning step.
- FIG. 1 is a schematic diagram illustrating a schematic configuration of an estimation device.
- FIG. 2 is a diagram for explaining the processing of the estimation device.
- FIG. 3 is a diagram illustrating a data configuration of learning data.
- FIG. 4 is a flowchart showing an estimation processing procedure.
- FIG. 5 is a flowchart showing an estimation processing procedure.
- FIG. 6 is a diagram illustrating a computer that executes an estimation program;
- FIG. 1 is a schematic diagram illustrating a schematic configuration of an estimation device.
- FIG. 2 is a diagram for explaining the processing of the estimation device.
- the estimation device 10 of the present embodiment uses a neural network for a moving image showing the upper body of a subject, which is nonverbal/paralinguistic information, to calculate the degree of understanding as the state of mind that appears in the nonverbal/paralinguistic information. Estimated in 5 stages. The degree of comprehension is, for example, 1. 2. do not understand; Somewhat do not understand;3. 4. Normal state; 5. Somewhat understand; It is defined as understanding, and the higher the number, the better the understanding.
- the estimation device 10 of the present embodiment is realized by a general-purpose computer such as a personal computer, and includes an input unit 11, an output unit 12, a communication control unit 13, a storage unit 14, and a control unit 15. Prepare.
- the input unit 11 is implemented using input devices such as a keyboard and a mouse, and inputs various instruction information such as processing start to the control unit 15 in response to input operations by the practitioner.
- the output unit 12 is implemented by a display device such as a liquid crystal display, a printing device such as a printer, an information communication device, or the like.
- the communication control unit 13 is realized by a NIC (Network Interface Card) or the like, and controls communication between the control unit 15 and an external device such as a server or a device for managing learning data via a network.
- NIC Network Interface Card
- the storage unit 14 is implemented by semiconductor memory devices such as RAM (Random Access Memory) and flash memory, or storage devices such as hard disks and optical disks. Note that the storage unit 14 may be configured to communicate with the control unit 15 via the communication control unit 13 . In the present embodiment, the storage unit 14 stores, for example, learning data 14a used for estimation processing, which will be described later, model parameters 14b generated and updated in the estimation processing, and the like.
- FIG. 3 is a diagram illustrating the data configuration of learning data.
- the learning data 14a includes at least moving image data showing the upper body of the subject as non-verbal/paralinguistic information, data IDs for identifying each moving image data, comprehension levels appearing in each moving image data, and the like. correct label representing the state of mind of In the example shown in FIG. 3, comprehension level labels are included as correct labels.
- the learning data 14a may include an individual ID that can identify an individual, and a label representing a person's attributes such as age and gender.
- the learning data 14a may be learned, developed, divided into evaluation sets, or data expanded as necessary.
- preprocessing such as contrast normalization and face detection may be performed, and only areas with video data may be used.
- codec of the input data is not particularly limited.
- the learning data 14a holds the correct label of the degree of understanding updated by the processing of the updating unit 15d, which will be described later.
- H264 format video data recorded by a web camera at 30 frames per second is resized so that one side is 224 pixels. do it.
- Each of the X pieces of moving image data is provided with the correct label of the degree of understanding given by the personal ID of the S subjects, the name A, and the correct label of the degree of understanding updated by the processing of the updating unit 15d.
- the updated comprehension level label is included as the updated correct answer label.
- the control unit 15 is implemented using a CPU (Central Processing Unit), NP (Network Processor), FPGA (Field Programmable Gate Array), etc., and executes a processing program stored in memory. Thereby, the control unit 15 functions as an acquisition unit 15a, a calculation unit 15b, a learning unit 15c, and an updating unit 15d, as illustrated in FIG. Note that these functional units may be implemented in different hardware. For example, the acquisition unit 15a may be implemented in hardware different from other functional units. Also, the control unit 15 may include other functional units.
- the acquisition unit 15a acquires learning data 14a that includes nonverbal information or paralinguistic information and correct labels representing states of mind appearing in the nonverbal information or paralinguistic information given by a plurality of workers. Specifically, the acquisition unit 15a receives video data showing the upper body of the subject as nonverbal/paralinguistic information via the input unit 11 or from a device that generates learning data via the communication control unit 13. Then, the learning data 14a including the data ID for identifying each piece of moving image data and the correct label representing the state of mind such as the degree of understanding appearing in each piece of moving image data is acquired.
- the acquisition unit 15a causes the storage unit 14 to store learning data 14a acquired in advance prior to the following processing.
- the acquisition unit 15a may transfer the acquired learning data 14a to the calculation unit 15b described below without storing the acquired learning data 14a in the storage unit 14. FIG.
- the calculation unit 15b calculates the posterior probability of the state of mind for the acquired nonverbal information or paralinguistic information. For example, the calculation unit 15b uses a neural network to calculate the posterior probability of a state of mind, such as the level of understanding, that appears in the moving image data, that is, the event to be predicted for the moving image data of the learning data 14a.
- processing using the neural network described below is not limited to this embodiment. good too.
- the calculation unit 15b extracts a frame-by-frame feature amount from video data x 1:T having a frame length of T using a 2D CNN (Convolutional Neural Network).
- the calculation unit 15b calculates an embedding expression tensor H x in the time direction, as shown in the following equation (1), using an RNN (Recurrent Neural Network) having D-dimensional output.
- ⁇ is the CNN parameter set and ⁇ is the RNN parameter set.
- the calculation unit 15b calculates the time of interest in the time direction using the multi-head self attention mechanism as shown in the following equation (2), and calculates the weighted sum vector v in the time direction. do.
- the calculation unit 15b calculates attention weight from queryQ i and keyK i , applies it to valueV i , and finally calculates the sum in the time direction.
- d is the number of attention heads
- i is each attention head
- W i Q , W i K , and W i V are weights for Query, key, and value in each attention head.
- the calculation unit 15b calculates the posterior probability p(C
- W 1 FC and W 2 FC represent the weights of the two fully connected layers
- D FC represents the number of output dimensions of the first fully connected layer
- a ReLU function is used as the activation function of the first fully connected layer.
- the learning unit 15c uses the learning data 14a and the calculated posterior probability of the state of mind to learn the model parameters 14b of the model for estimating the state of mind appearing in the input nonverbal information or paralinguistic information. .
- the learning unit 15c updates the model parameter set ⁇ and acquires the learned model parameter set ⁇ '.
- the learning unit 15c can apply well-known loss functions and update methods.
- the model parameter set ⁇ may include those pre-trained in any other task, initial values may be generated with arbitrary random numbers, and some model parameters may not be updated. may
- the learning unit 15c uses the stochastic gradient method (SGD) to update the model parameter set ⁇ using the cross entropy L shown in the following equation (4) as a loss function.
- SGD stochastic gradient method
- mx is the correct distribution of the input moving image data x 1:T .
- the method of expressing the correct answer distribution is not particularly limited, and for example, it may be expressed as a one-hot vector using the comprehension level label L x illustrated in FIG.
- the correct distribution may be expressed by approximating a normal distribution centered on the correct class, or may be expressed by using the annotation result as it is as a soft-label.
- the learning unit 15c causes the storage unit 14 to store the acquired learned model parameter set ⁇ ' as the model parameter 14b.
- the updating unit 15d updates the correct label of the learning data 14a using the learned model parameters 14b. Specifically, when the degree of similarity between the posterior probability of the state of mind calculated using the learned model parameter 14b and the correct label of the learning data 14a is equal to or greater than a predetermined threshold, the updating unit 15d Update the correct label of the learning data 14a.
- the updating unit 15d updates the correct label L obtained by normalizing the label distribution of the learning data 14a given by a plurality of workers.
- the updating unit 15d uses the trained model parameter set ⁇ ′ to predict the posterior probability of the degree of understanding for the learning data 14a.
- the updating unit 15d calculates the degree of similarity between the correct label and the posterior probability, and updates the correct label if the calculated degree of similarity is greater than or equal to a predetermined threshold.
- the update unit 15d updates the correct label Lx of the understanding level of the input video data x using the trained model parameter ⁇ ′.
- x 1: T , ⁇ ') are calculated.
- the updating unit 15d calculates the degree of similarity between L x and p(C
- the similarity calculated by the updating unit 15d is not particularly limited, but is calculated using an algorithm capable of calculating the distance and similarity between vectors, such as cross entropy, Kullback-Leibler divergence, cosine similarity, Euclidean distance, etc. do.
- the update unit 15d calculates cosine similarity c x ( ⁇ 1 ⁇ c x ⁇ 1), for example, as shown in the following equation (5).
- the updating unit 15d can also determine whether or not to update based on whether or not a specific condition is satisfied. For example, the updating unit 15d may set the update determination for L x to TRUE when max(p(C
- the updating unit 15d determines whether or not the calculated similarity is equal to or greater than a predetermined threshold value, and if true, updates L x and sets the post-update understanding level label L x ′ to p(C
- the update unit 15d may perform update determination based on a single condition, or may perform update determination by combining a plurality of AND conditions and OR conditions.
- the update unit 15d performs preprocessing such as re-normalizing a small value such as less than 0.1 as 0, and then substitutes p(C
- preprocessing such as re-normalizing a small value such as less than 0.1 as 0, and then substitutes p(C
- You may L x ' is used in the calculation of the loss function instead of L x as a correct label when continuing to learn the model parameter 14b.
- the processing of the updating unit 15d can be activated at any timing during the learning of the model parameters 14b by the learning unit 15c.
- the updating unit 15d may start the process when the number of times of updating the model parameter 14b through learning in the learning unit 15c reaches a predetermined threshold value or more.
- the updating unit 15d may be more complicated.
- the model parameter 14b may be updated 100 times later.
- FIG. 4 shows the learning processing procedure.
- the flowchart in FIG. 4 is started, for example, at the timing when an instruction to start the learning process is received.
- the acquisition unit 15a acquires learning data 14a including nonverbal information or paralinguistic information and correct labels representing states of mind appearing in the nonverbal information or paralinguistic information given by a plurality of workers (step S1).
- the acquiring unit 15a causes the storage unit 14 to store the acquired learning data 14a.
- the acquisition unit 15a may transfer the acquired learning data 14a to the calculation unit 15b without storing the learning data 14a in the storage unit 14 .
- calculation unit 15b calculates the posterior probability of the state of mind for the acquired nonverbal information or paralinguistic information (step S2).
- the learning unit 15c uses the learning data 14a and the calculated posterior probability of the state of mind to obtain model parameters 14b of a model for estimating the state of mind appearing in the input nonverbal information or paralinguistic information. is learned (step S3). This completes a series of learning processes.
- FIG. 5 shows the update processing procedure.
- the flowchart in FIG. 5 is started, for example, at the timing when an instruction to start update processing is received.
- the updating unit 15d uses the learned model parameters 14b to calculate the posterior probability of the degree of understanding for the learning data 14a (step S11).
- the updating unit 15d updates the correct label of the learning data 14a when the similarity between the calculated posterior probability of the state of mind and the correct label of the learning data 14a is equal to or greater than a predetermined threshold (step S12). This completes a series of update processes.
- the acquisition unit 15a acquires the state of mind appearing in nonverbal information or paralinguistic information and the nonverbal information or paralinguistic information given by a plurality of workers.
- learning data 14a including a correct label representing
- the calculation unit 15b calculates the posterior probability of the state of mind for the acquired nonverbal information or paralinguistic information.
- the learning unit 15c uses the learning data 14a and the calculated posterior probability of the state of mind to learn the model parameters 14b of the model for estimating the state of mind appearing in the input nonverbal information or paralinguistic information. .
- the estimating apparatus 10 can accurately estimate the state of mind appearing in the nonverbal information or the paralinguistic information by learning global labeling using the correct labels assigned by a plurality of people. . Therefore, the estimating device 10 can accurately assign a label representing the state of mind using the estimated result. Thus, according to the estimation device 10, it is possible to accurately correct the label representing the state of mind appearing in the nonverbal/paralinguistic information.
- the updating unit 15d updates the correct label of the learning data 14a using the learned model parameters 14b. Specifically, when the degree of similarity between the posterior probability of the state of mind calculated using the learned model parameter 14b and the correct label of the learning data 14a is equal to or greater than a predetermined threshold, the updating unit 15d Update the correct label of the learning data 14a.
- the estimating device 10 can correct the correct label only when the distribution of the correct label assignment results by multiple people is similar to some extent. Therefore, it is possible to eliminate the possibility that a label of a class with a far meaning is erroneously assigned, and to modify the label locally without changing the global label assignment. In addition, by referring to the tendency of labeling by humans, certain constraints are set, and label correction can be stably performed with a small amount of data. Thus, according to the estimation device 10, it is possible to correct labels with high accuracy even for data that is difficult to label.
- the learning unit 15c updates the model parameter 14b by learning for a number of times greater than or equal to a predetermined threshold value
- the processing of the updating unit 15d is activated. As a result, it is possible to correct the label with higher accuracy.
- the estimating device 10 can be implemented by installing an estimating program that executes the above estimating process as package software or online software on a desired computer.
- the information processing device can function as the estimation device 10 by causing the information processing device to execute the above estimation program.
- information processing devices include mobile communication terminals such as smartphones, mobile phones and PHS (Personal Handyphone Systems), and slate terminals such as PDAs (Personal Digital Assistants).
- the functions of the estimation device 10 may be implemented in a cloud server.
- FIG. 6 is a diagram showing an example of a computer that executes an estimation program.
- Computer 1000 includes, for example, memory 1010 , CPU 1020 , hard disk drive interface 1030 , disk drive interface 1040 , serial port interface 1050 , video adapter 1060 and network interface 1070 . These units are connected by a bus 1080 .
- the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012 .
- the ROM 1011 stores a boot program such as BIOS (Basic Input Output System).
- BIOS Basic Input Output System
- Hard disk drive interface 1030 is connected to hard disk drive 1031 .
- Disk drive interface 1040 is connected to disk drive 1041 .
- a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1041, for example.
- a mouse 1051 and a keyboard 1052 are connected to the serial port interface 1050, for example.
- a display 1061 is connected to the video adapter 1060 .
- the hard disk drive 1031 stores an OS 1091, application programs 1092, program modules 1093 and program data 1094, for example. Each piece of information described in the above embodiment is stored in the hard disk drive 1031 or the memory 1010, for example.
- the estimation program is stored in the hard disk drive 1031 as a program module 1093 in which instructions to be executed by the computer 1000 are written, for example.
- the hard disk drive 1031 stores a program module 1093 that describes each process executed by the estimation device 10 described in the above embodiment.
- data used for information processing by the estimation program is stored as program data 1094 in the hard disk drive 1031, for example. Then, the CPU 1020 reads out the program module 1093 and the program data 1094 stored in the hard disk drive 1031 to the RAM 1012 as necessary, and executes each procedure described above.
- program module 1093 and program data 1094 related to the estimation program are not limited to being stored in the hard disk drive 1031.
- they are stored in a removable storage medium and read by the CPU 1020 via the disk drive 1041 or the like.
- the program module 1093 and program data 1094 related to the estimation program are stored in another computer connected via a network such as LAN (Local Area Network) or WAN (Wide Area Network), and via network interface 1070 It may be read by CPU 1020 .
- LAN Local Area Network
- WAN Wide Area Network
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
取得部(15a)が、非言語情報またはパラ言語情報と、複数の作業者により付与された該非言語情報またはパラ言語情報に表れる心の状態を表す正解ラベルとを含む学習データ(14a)を取得する。算出部(15b)が、取得された非言語情報またはパラ言語情報について、心の状態の事後確率を算出する。学習部(15c)が、学習データ(14a)と、算出された心の状態の事後確率とを用いて、入力された非言語情報またはパラ言語情報に表れる心の状態を推定するモデルのモデルパラメタ(14b)を学習する。
Description
本発明は、推定方法、推定装置および推定プログラムに関する。
従来、人間の音声や顔、身振り手振り等の非言語・パラ言語情報に表れる心の状態を自動的に推定する技術の研究開発が行われてきた。例えば、エージェントやロボットとの対話において、それらの反応の生成時に対話相手の心の状態を反映させたり、メンタルヘルスケアの一環として推定結果を活用したり、web会議等で参加者の状態を数値化して把握しやすくしたりすることが期待されている。
このような非言語・パラ言語情報に表れる心の状態の推定は、一般に、音声や動画像から抽出される特徴量やデータそのもの等の入力に対し、定義された心の状態を表す各ラベルの事後確率等を出力する教師あり学習として定義される(非特許文献1参照)。
ここで、感情や表情認識は、平常、喜び、悲しみ、驚き、恐怖、憎悪、怒り、軽蔑等のいくつかのクラスに分類される。また、理解度等の特定の度合いは任意の段階に分類される。教師あり学習においては、このように定義されたクラスに対応するラベルが、一人または複数の作業者によってアノテーションされる。
しかしながら、このようなアノテーションすなわちラベル付与の作業は、ラベルの粒度が細かくなるほど難しくなる。例えば、理解度であれば、理解していない、普通、理解しているという3段階から、理解していない、やや理解していない、普通、やや理解している、理解しているという5段階に粒度を細かくすると、ラベル付与の難易度が上がる。
このように粒度の細かい分類問題に対しては、作業者によるアノテーション結果は、大局的には一致しても局所的には一致しにくい。例えば、5段階の理解度について、複数名の作業者がアノテーションを行う場合、全作業者で理解度が低いことは一致しても、「理解していない」「やや理解していない」については僅差で評価が分かれる場合がある。この場合に、作業者にかかる疲労、経験、判断基準等のバイアスが変わると、結果も変わる可能性がある。これでは、教師あり学習ではノイズの含まれた正確ではない正解ラベルが混在することになり、学習や評価に対して悪影響を及ぼす。
そこで、従来、relabeling等といわれるラベルの修正技術が知られている(非特許文献2、3参照)。
D. Rangulov and M. Fahim, "Emotion Recognition on large video dataset based on Convolutional Feature Extractor and Recurrent Neural Network",2020 IEEE 4th International Conference on Image Processing, Applications and Systems(IPAS), 2020年
K. Wang, X. Peng, J. Yang, S. Lu, and Y. Qiao, "Suppressing Uncertainties for Large-Scale Facial Expression Recognition", 2020年
B. Zhang, L. Li, S. Wang, Z. Zha, and Q. Huang, "State-Relabeling Adversarial Active Learning", 2020年
しかしながら、従来技術では、非言語・パラ言語情報に表れる心の状態を表すラベルの修正を正確に行うことは困難であった。例えば、従来技術では、1名の作業者のラベル付与結果あるいは複数名の投票結果の最大値だけをラベルとして保持しており、人間の知見を十分に活かせているとは言い難い。
本発明は、上記に鑑みてなされたものであって、非言語・パラ言語情報に表れる心の状態を表すラベルの修正を精度高く行うことを目的とする。
上述した課題を解決し、目的を達成するために、本発明に係る推定方法は、推定装置が実行する推定方法であって、非言語情報またはパラ言語情報と、複数の作業者により付与された該非言語情報またはパラ言語情報に表れる心の状態を表す正解ラベルとを含む学習データを取得する取得工程と、取得された前記非言語情報またはパラ言語情報について、前記心の状態の事後確率を算出する算出工程と、前記学習データと、算出された前記心の状態の事後確率とを用いて、入力された非言語情報またはパラ言語情報に表れる心の状態を推定するモデルのモデルパラメタを学習する学習工程と、を含んだことを特徴とする。
本発明によれば、非言語・パラ言語情報に表れる心の状態を表すラベルの修正を精度高く行うことが可能となる。
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[推定装置の構成]
図1は、推定装置の概略構成を例示する模式図である。また、図2は、推定装置の処理を説明するための図である。本実施形態の推定装置10は、非言語・パラ言語情報である対象者の上半身が映る動画に対して、ニューラルネットワークを用いて、非言語・パラ言語情報に表れる心の状態として、理解度を5段階で推定する。理解度は、例えば、1.理解していない、2.やや理解していない、3.平常状態、4.やや理解している、5.理解している、として、数字が大きいほど理解していることを表すように定義される。
図1は、推定装置の概略構成を例示する模式図である。また、図2は、推定装置の処理を説明するための図である。本実施形態の推定装置10は、非言語・パラ言語情報である対象者の上半身が映る動画に対して、ニューラルネットワークを用いて、非言語・パラ言語情報に表れる心の状態として、理解度を5段階で推定する。理解度は、例えば、1.理解していない、2.やや理解していない、3.平常状態、4.やや理解している、5.理解している、として、数字が大きいほど理解していることを表すように定義される。
まず、図1に例示するように、本実施形態の推定装置10は、パソコン等の汎用コンピュータで実現され、入力部11、出力部12、通信制御部13、記憶部14、および制御部15を備える。
入力部11は、キーボードやマウス等の入力デバイスを用いて実現され、実施者による入力操作に対応して、制御部15に対して処理開始などの各種指示情報を入力する。出力部12は、液晶ディスプレイなどの表示装置、プリンター等の印刷装置、情報通信装置等によって実現される。通信制御部13は、NIC(Network Interface Card)等で実現され、サーバや、学習用データを管理する装置等の外部の装置と制御部15とのネットワークを介した通信を制御する。
記憶部14は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。なお、記憶部14は、通信制御部13を介して制御部15と通信する構成でもよい。本実施形態において、記憶部14には、例えば、後述する推定処理に用いられる学習データ14aや、推定処理で生成・更新されるモデルパラメタ14b等が記憶される。
ここで、図3は、学習データのデータ構成を例示する図である。図3に示すように、学習データ14aには、少なくとも非言語・パラ言語情報としての対象者の上半身が映る動画データと、各動画データを識別するデータIDと、各動画データに表れる理解度等の心の状態を表す正解ラベルとが含まれる。図3に示す例では、正解ラベルとしての理解度ラベルが含まれている。
学習データ14aには、個人を識別可能な個人ID、年齢、性別等の人物の属性を表すラベルが含まれていてもよい。また、必要に応じて、学習データ14aの学習、開発、あるいは評価セットへの分割やデータ拡張が行われてもよい。
なお、コントラストの正規化、顔検出等の事前処理を行って、動画データのある領域のみが利用されてもよい。また、入力データ(動画データ)のコーデック等は特に限定されない。また、学習データ14aには、後述する更新部15dの処理によって更新された理解度の正解ラベルが保持される。
具体的には、後述する推定処理で動画データから理解度を推定する場合に、例えばWebカメラで30フレーム/秒で収録されたH264形式の動画データを、1辺が224ピクセルとなるようにリサイズするとよい。X個の各動画データには、S人の対象者の個人ID,A名によって付与された理解度の正解ラベル、更新部15dの処理によって更新された理解度の正解ラベルが付与される。図3に示す例では、更新された正解ラベルとして、更新後理解度ラベルが含まれている。
図1の説明に戻る。制御部15は、CPU(Central Processing Unit)やNP(Network Processor)やFPGA(Field Programmable Gate Array)等を用いて実現され、メモリに記憶された処理プログラムを実行する。これにより、制御部15は、図1に例示するように、取得部15a、算出部15b、学習部15c、および更新部15dとして機能する。なお、これらの機能部は、それぞれが異なるハードウェアに実装されてもよい。例えば取得部15aは他の機能部とは異なるハードウェアに実装されてもよい。また、制御部15は、その他の機能部を備えてもよい。
取得部15aは、非言語情報またはパラ言語情報と、複数の作業者により付与された該非言語情報またはパラ言語情報に表れる心の状態を表す正解ラベルとを含む学習データ14aを取得する。具体的には、取得部15aは、入力部11を介して、あるいは学習データを生成する装置等から通信制御部13を介して、非言語・パラ言語情報としての対象者の上半身が映る動画データと、各動画データを識別するデータIDと、各動画データに表れる理解度等の心の状態を表す正解ラベルとを含む学習データ14aを取得する。
取得部15aは、以下の処理に先立って予め取得した学習データ14aを、記憶部14に記憶させる。なお、取得部15aは、取得した学習データ14aを記憶部14に記憶させずに、以下に示す算出部15bに転送してもよい。
算出部15bは、取得された非言語情報またはパラ言語情報について、心の状態の事後確率を算出する。例えば、算出部15bは、学習データ14aの動画データについて、ニューラルネットワークを用いて、予測したい事象すなわち動画データに表れる理解度等の心の状態に関する事後確率を算出する。
なお、以下に説明するニューラルネットワークを用いた処理は、本実施形態に限定されず、例えば、Batch Normalization、ドロップアウト、L1/L2正則化等の周知の技術の要素が任意の箇所に付与されてもよい。
具体的には、算出部15bは、フレーム長Tの動画データx1:Tから、2D CNN(Convolutional Neural Network)で、フレーム単位の特徴量を抽出する。次に、算出部15bは、D次元の出力次元を持つRNN(Recurrent Neural Network)で、次式(1)に示すように、時間方向の埋め込み表現テンソルHxを算出する。ここで、θはCNNのパラメタ集合、φはRNNのパラメタ集合である。
次に、算出部15bは、次式(2)に示すように、multi-head self attention機構を用いて、時間方向に対して着目すべき時刻を算出し、時間方向の重み付け和ベクトルvを算出する。
上記式(2)では、算出部15bは、queryQiおよびkeyKiからattention weightを算出して、valueViに適用し、最後に時間方向の合計を算出している。
ここで、dはattention headsの数、iは各attention heads、Wi
Q、Wi
K、Wi
Vはそれぞれ、各attention headsにおけるQuery、key、valueに対する重みを表す。
最後に、算出部15bは、次式(3)に示すように、2層の全結合層を用いて、5段階の理解度のそれぞれに対する事後確率p(C|x1:T)を算出する。
ここで、W1
FC、W2
FCは、2層の全結合層の重みを表し、DFCは1層目の全結合層の出力次元数を表し、Cは予測ラベルの数を表す(本実施形態ではC=5)。また、1層目の全結合層の活性化関数には、ReLU関数が用いられている。
学習部15cは、学習データ14aと、算出された心の状態の事後確率とを用いて、入力された非言語情報またはパラ言語情報に表れる心の状態を推定するモデルのモデルパラメタ14bを学習する。
具体的には、学習部15cは、モデルパラメタ集合Ωを更新し、学習済みモデルパラメタ集合Ω’を取得する。学習部15cは、周知の損失関数や更新手法を適用可能である。例えば、モデルパラメタ集合Ωは、任意の他のタスクで事前学習されたものが含まれてもよいし、任意の乱数で初期値が生成されてもよいし、一部のモデルパラメタが更新されなくてもよい。
例えば、学習部15cは、確率的勾配法(SGD)を用いて、次式(4)に示す交差エントロピーLを損失関数として、モデルパラメタ集合Ωを更新する。その際には、学習率等のハイパーパラメタには任意の値が用いられる。
ここで、mxは入力される動画データx1:Tの正解分布である。正解分布の表現手法は特に限定されず、例えば、図3に例示した理解度ラベルLxを用いて、one-hot vectorとして表現されてもよい。あるいは、正解分布は、正解クラスを中心とする正規分布を近似して表されてもよいし、アノテーション結果をそのままsoft-labelとして用いて表されてもよい。
なお、学習部15cは、取得した学習済みモデルパラメタ集合Ω’をモデルパラメタ14bとして、記憶部14に記憶させる。
図1の説明に戻る。更新部15dは、学習されたモデルパラメタ14bを用いて、学習データ14aの正解ラベルを更新する。具体的には、更新部15dは、学習されたモデルパラメタ14bを用いて算出された心の状態の事後確率と、学習データ14aの正解ラベルとの類似度が所定の閾値以上である場合に、学習データ14aの正解ラベルを更新する。
例えば、更新部15dは、複数の作業者によって付与された学習データ14aのラベルの分布を正規化した正解ラベルLを更新する。まず、更新部15dは、学習済みモデルパラメタ集合Ω’を用いて、学習データ14aに対する理解度の事後確率を予測する。その後、更新部15dは、正解ラベルと事後確率との類似度を算出し、算出した類似度が所定の閾値以上であれば、正解ラベルを更新する。
更新部15dは、学習済みモデルパラメタΩ’を用いて、入力される動画データxの理解度の正解ラベルLxを更新する場合に、まず、各理解度に対する事後確率p(C|x1:T,Ω’)を算出する。次に、更新部15dは、Lxとp(C|x1:T,Ω’)との類似度を算出する。更新部15dが算出する類似度は特に限定されないが、例えば、交差エントロピー、カルバック・ライブラー・ダイバージェンス、コサイン類似度、ユークリッド距離等、ベクトル間の距離や類似度を算出可能なアルゴリズムを用いて算出する。
更新部15dは、例えば、次式(5)に示すように、コサイン類似度cx(-1≦cx≦1)を算出する。
また、更新部15dは、特定の条件を満たすか否かを基準として更新可否を判定することも可能である。例えば、更新部15dは、max(p(C|x1:T,Ω’))が所定の閾値以上である場合に、Lxに対する更新判定をTRUEとしてもよい。
あるいは、更新部15dは、Lxの上位の2値が隣接していて、かつその比率が4:6~6:4の範囲内であれば、その2クラス内で正解が変わる場合の更新判定をTRUEとしてもよい。例えば、図3に示したデータID=0000002のデータの理解度ラベルにおいて、上位2値(0.4、0.6)が隣接していて、かつその比率が4:6~6:4の範囲内であるので、更新判定はTRUEとされる。一方、データID=0001459のデータの理解度ラベルにおいて、上位2値(0.8、0.2)が隣接しているものの、その比率が4:6~6:4の範囲内ではないため、更新判定はFALSEとされる。
次に、更新部15dは、算出した類似度が所定の閾値以上か否かを判定し、真であればLxを更新して、更新後理解度ラベルLx’にp(C|x1:T,Ω’)を代入する。その際に、更新部15dは、単一の条件で更新判定してもよいし、複数のAND条件やOR条件を組み合わせて更新判定を行ってもよい。
また、更新部15dは、0.1未満等のわずかな値を0として再度正規化する等の事前処理を行った後に、Lx’にp(C|x1:T,Ω’)を代入してもよい。Lx’は、モデルパラメタ14bを引き続き学習する際の正解ラベルとして、Lxの代わりに損失関数の計算に用いられる。
なお、更新部15dの処理は、学習部15cのモデルパラメタ14bの学習の任意のタイミングで起動可能である。例えば、更新部15dは、学習部15cにおいてモデルパラメタ14bの学習による更新回数が所定の閾値以上に達した場合に、処理を起動するようにしてもよい。あるいは、更新部15dは、より複雑に、例えば、1回目の処理の起動は、学習部15cにおけるモデルパラメタ14bの更新回数が1000回後に行い、2回目以降の処理の起動は、学習部15cにおけるモデルパラメタ14bの更新回数が100回後に行うようにしてもよい。
[推定処理]
次に、推定装置10による推定処理について説明する。図4よび図5は、推定処理手順を示すフローチャートである。本実施形態の推定処理は、学習処理と更新処理とを含む。まず、図4は、学習処理手順を示す。図4のフローチャートは、例えば、学習処理の開始を指示する入力があったタイミングで開始される。
次に、推定装置10による推定処理について説明する。図4よび図5は、推定処理手順を示すフローチャートである。本実施形態の推定処理は、学習処理と更新処理とを含む。まず、図4は、学習処理手順を示す。図4のフローチャートは、例えば、学習処理の開始を指示する入力があったタイミングで開始される。
まず、取得部15aは、非言語情報またはパラ言語情報と、複数の作業者により付与された該非言語情報またはパラ言語情報に表れる心の状態を表す正解ラベルとを含む学習データ14aを取得する(ステップS1)。取得部15aは、取得した学習データ14aを記憶部14に記憶させる。あるいは、取得部15aは、取得した学習データ14aを記憶部14に記憶させずに、算出部15bに転送してもよい。
また、算出部15bが、取得された非言語情報またはパラ言語情報について、心の状態の事後確率を算出する(ステップS2)。
次に、学習部15cが、学習データ14aと、算出された心の状態の事後確率とを用いて、入力された非言語情報またはパラ言語情報に表れる心の状態を推定するモデルのモデルパラメタ14bを学習する(ステップS3)。これにより、一連の学習処理が終了する。
次に、図5は、更新処理手順を示す。図5のフローチャートは、例えば、更新処理の開始を指示する入力があったタイミングで開始される。
まず、更新部15dは、学習されたモデルパラメタ14bを用いて、学習データ14aに対する理解度の事後確率を算出する(ステップS11)。
次に、更新部15dは、算出された心の状態の事後確率と、学習データ14aの正解ラベルとの類似度が所定の閾値以上である場合に、学習データ14aの正解ラベルを更新する(ステップS12)。これにより、一連の更新処理が終了する。
[効果]
以上、説明したように、本実施形態の推定装置10において、取得部15aが、非言語情報またはパラ言語情報と、複数の作業者により付与された該非言語情報またはパラ言語情報に表れる心の状態を表す正解ラベルとを含む学習データ14aを取得する。算出部15bが、取得された非言語情報またはパラ言語情報について、心の状態の事後確率を算出する。学習部15cが、学習データ14aと、算出された心の状態の事後確率とを用いて、入力された非言語情報またはパラ言語情報に表れる心の状態を推定するモデルのモデルパラメタ14bを学習する。
以上、説明したように、本実施形態の推定装置10において、取得部15aが、非言語情報またはパラ言語情報と、複数の作業者により付与された該非言語情報またはパラ言語情報に表れる心の状態を表す正解ラベルとを含む学習データ14aを取得する。算出部15bが、取得された非言語情報またはパラ言語情報について、心の状態の事後確率を算出する。学習部15cが、学習データ14aと、算出された心の状態の事後確率とを用いて、入力された非言語情報またはパラ言語情報に表れる心の状態を推定するモデルのモデルパラメタ14bを学習する。
これにより、推定装置10は、複数名により付与された正解ラベルを用いた大局的なラベル付与の学習により、非言語情報またはパラ言語情報に表れる心の状態を精度高く推定することが可能となる。したがって、推定装置10は、推定した結果を用いて心の状態を表すラベルを精度高く付与することが可能となる。このように、推定装置10によれば、非言語・パラ言語情報に表れる心の状態を表すラベルの修正を精度高く行うことが可能となる。
また、更新部15dが、学習されたモデルパラメタ14bを用いて、学習データ14aの正解ラベルを更新する。具体的には、更新部15dは、学習されたモデルパラメタ14bを用いて算出された心の状態の事後確率と、学習データ14aの正解ラベルとの類似度が所定の閾値以上である場合に、学習データ14aの正解ラベルを更新する。
これにより、推定装置10は、複数名による正解ラベルの付与結果の分布とある程度類似している場合にのみ、正解ラベルを修正することが可能となる。したがって、誤って意味の遠いクラスのラベルが付与される可能性を排除して、大局的なラベル付与を変えることなく局所的にラベルの修正を行うことが可能となる。また、人間によるラベル付与の傾向を参照することにより、ある種の制約を設けることとなり、少ないデータ量で安定してラベル修正を行うことが可能となる。このように、推定装置10によれば、ラベル付与が難しいデータに対しても、精度高くラベルの修正を行うことが可能となる。
学習部15cにおいてモデルパラメタ14bの学習による更新回数が所定の閾値以上に達した場合に、更新部15dの処理を起動する。これにより、さらに精度高くラベルの修正を行うことが可能となる。
[プログラム]
上記実施形態に係る推定装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、推定装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の推定処理を実行する推定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の推定プログラムを情報処理装置に実行させることにより、情報処理装置を推定装置10として機能させることができる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。また、推定装置10の機能を、クラウドサーバに実装してもよい。
上記実施形態に係る推定装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。一実施形態として、推定装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の推定処理を実行する推定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の推定プログラムを情報処理装置に実行させることにより、情報処理装置を推定装置10として機能させることができる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。また、推定装置10の機能を、クラウドサーバに実装してもよい。
図6は、推定プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011およびRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。ディスクドライブ1041には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1051およびキーボード1052が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1061が接続される。
ここで、ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。上記実施形態で説明した各情報は、例えばハードディスクドライブ1031やメモリ1010に記憶される。
また、推定プログラムは、例えば、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、ハードディスクドライブ1031に記憶される。具体的には、上記実施形態で説明した推定装置10が実行する各処理が記述されたプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。
また、推定プログラムによる情報処理に用いられるデータは、プログラムデータ1094として、例えば、ハードディスクドライブ1031に記憶される。そして、CPU1020が、ハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
なお、推定プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1041等を介してCPU1020によって読み出されてもよい。あるいは、推定プログラムに係るプログラムモジュール1093やプログラムデータ1094は、LAN(Local Area Network)やWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述および図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例および運用技術等は全て本発明の範疇に含まれる。
10 推定装置
11 入力部
12 出力部
13 通信制御部
14 記憶部
14a 学習データ
14b モデルパラメタ
15 制御部
15a 取得部
15b 算出部
15c 学習部
15d 更新部
11 入力部
12 出力部
13 通信制御部
14 記憶部
14a 学習データ
14b モデルパラメタ
15 制御部
15a 取得部
15b 算出部
15c 学習部
15d 更新部
Claims (6)
- 推定装置が実行する推定方法であって、
非言語情報またはパラ言語情報と、複数の作業者により付与された該非言語情報またはパラ言語情報に表れる心の状態を表す正解ラベルとを含む学習データを取得する取得工程と、
取得された前記非言語情報またはパラ言語情報について、前記心の状態の事後確率を算出する算出工程と、
前記学習データと、算出された前記心の状態の事後確率とを用いて、入力された非言語情報またはパラ言語情報に表れる心の状態を推定するモデルのモデルパラメタを学習する学習工程と、
を含んだことを特徴とする推定方法。 - 学習された前記モデルパラメタを用いて、前記学習データの正解ラベルを更新する更新工程を、さらに含んだことを特徴とする請求項1に記載の推定方法。
- 前記更新工程は、学習された前記モデルパラメタを用いて算出された心の状態の事後確率と、前記学習データの正解ラベルとの類似度が所定の閾値以上である場合に、前記学習データの正解ラベルを更新することを特徴とする請求項2に記載の推定方法。
- 前記学習工程において前記モデルパラメタの学習による更新回数が所定の閾値以上に達した場合に、前記更新工程を起動することを特徴とする請求項2に記載の推定方法。
- 非言語情報またはパラ言語情報と、複数の作業者により付与された該非言語情報またはパラ言語情報に表れる心の状態を表す正解ラベルとを含む学習データを取得する取得部と、
取得された前記非言語情報またはパラ言語情報について、前記心の状態の事後確率を算出する算出部と、
前記学習データと、算出された前記心の状態の事後確率とを用いて、入力された非言語情報またはパラ言語情報に表れる心の状態を推定するモデルのモデルパラメタを学習する学習部と、
を有することを特徴とする推定装置。 - 非言語情報またはパラ言語情報と、複数の作業者により付与された該非言語情報またはパラ言語情報に表れる心の状態を表す正解ラベルとを含む学習データを取得する取得ステップと、
取得された前記非言語情報またはパラ言語情報について、前記心の状態の事後確率を算出する算出ステップと、
前記学習データと、算出された前記心の状態の事後確率とを用いて、入力された非言語情報またはパラ言語情報に表れる心の状態を推定するモデルのモデルパラメタを学習する学習ステップと、
をコンピュータに実行させるための推定プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023544821A JPWO2023032016A1 (ja) | 2021-08-30 | 2021-08-30 | |
PCT/JP2021/031807 WO2023032016A1 (ja) | 2021-08-30 | 2021-08-30 | 推定方法、推定装置および推定プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2021/031807 WO2023032016A1 (ja) | 2021-08-30 | 2021-08-30 | 推定方法、推定装置および推定プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023032016A1 true WO2023032016A1 (ja) | 2023-03-09 |
Family
ID=85412290
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2021/031807 WO2023032016A1 (ja) | 2021-08-30 | 2021-08-30 | 推定方法、推定装置および推定プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2023032016A1 (ja) |
WO (1) | WO2023032016A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009259109A (ja) * | 2008-04-18 | 2009-11-05 | Nippon Telegr & Teleph Corp <Ntt> | ラベル付与装置、ラベル付与プログラム、ラベル付与プログラムが記録された記録媒体、および、ラベル付与方法 |
JP2017199254A (ja) * | 2016-04-28 | 2017-11-02 | 日本電気株式会社 | 会話分析装置、会話分析方法および会話分析プログラム |
WO2019102884A1 (ja) * | 2017-11-21 | 2019-05-31 | 日本電信電話株式会社 | ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 |
-
2021
- 2021-08-30 WO PCT/JP2021/031807 patent/WO2023032016A1/ja active Application Filing
- 2021-08-30 JP JP2023544821A patent/JPWO2023032016A1/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009259109A (ja) * | 2008-04-18 | 2009-11-05 | Nippon Telegr & Teleph Corp <Ntt> | ラベル付与装置、ラベル付与プログラム、ラベル付与プログラムが記録された記録媒体、および、ラベル付与方法 |
JP2017199254A (ja) * | 2016-04-28 | 2017-11-02 | 日本電気株式会社 | 会話分析装置、会話分析方法および会話分析プログラム |
WO2019102884A1 (ja) * | 2017-11-21 | 2019-05-31 | 日本電信電話株式会社 | ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2023032016A1 (ja) | 2023-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11455807B2 (en) | Training neural networks for vehicle re-identification | |
US11367271B2 (en) | Similarity propagation for one-shot and few-shot image segmentation | |
CN109740620B (zh) | 人群画像分类模型的建立方法、装置、设备和存储介质 | |
US20160071024A1 (en) | Dynamic hybrid models for multimodal analysis | |
US11335093B2 (en) | Visual tracking by colorization | |
CN113255557B (zh) | 一种基于深度学习的视频人群情绪分析方法及系统 | |
CN112561060A (zh) | 神经网络训练方法及装置、图像识别方法及装置和设备 | |
EP4435660A1 (en) | Target detection method and apparatus | |
US20130142399A1 (en) | Face recognition using multilayered discriminant analysis | |
CN114817612A (zh) | 多模态数据匹配度计算和计算模型训练的方法、相关装置 | |
Ponce-López et al. | Non-verbal communication analysis in victim–offender mediations | |
CN112686232B (zh) | 基于微表情识别的教学评价方法、装置、电子设备及介质 | |
CN110867225A (zh) | 字符级临床概念提取命名实体识别方法及系统 | |
CN114758382A (zh) | 基于自适应补丁学习的面部au检测模型建立方法及应用 | |
CN113920575A (zh) | 一种人脸表情识别方法、装置及存储介质 | |
Ramakrishnan et al. | A novel approach for emotion recognition for pose invariant images using prototypical networks | |
Krishnaveni | A novel framework using binary attention mechanism based deep convolution neural network for face emotion recognition | |
WO2023032016A1 (ja) | 推定方法、推定装置および推定プログラム | |
Pathak et al. | Deep learning model for facial emotion recognition | |
JP2008046864A (ja) | 顔画像認識装置及び顔画像認識プログラム | |
JP2007249394A (ja) | 顔画像認識装置及び顔画像認識プログラム | |
JP6947460B1 (ja) | プログラム、情報処理装置、及び方法 | |
KR102334666B1 (ko) | 얼굴 이미지 생성 방법 | |
JP5931021B2 (ja) | 対人認知傾向モデル学習装置、対人認知状態推定装置、対人認知傾向モデル学習方法、対人認知状態推定方法及びプログラム | |
Tiwari et al. | Personality prediction from Five-Factor Facial Traits using Deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21955911 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2023544821 Country of ref document: JP |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 21955911 Country of ref document: EP Kind code of ref document: A1 |