WO2020240730A1 - 受話者推定装置、受話者推定方法、及び受話者推定プログラム - Google Patents

受話者推定装置、受話者推定方法、及び受話者推定プログラム Download PDF

Info

Publication number
WO2020240730A1
WO2020240730A1 PCT/JP2019/021287 JP2019021287W WO2020240730A1 WO 2020240730 A1 WO2020240730 A1 WO 2020240730A1 JP 2019021287 W JP2019021287 W JP 2019021287W WO 2020240730 A1 WO2020240730 A1 WO 2020240730A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
feature amount
constraint
state
receiver
Prior art date
Application number
PCT/JP2019/021287
Other languages
English (en)
French (fr)
Inventor
咲子 二本柳
岡登 洋平
啓吾 川島
相川 勇之
聖崇 加藤
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2019/021287 priority Critical patent/WO2020240730A1/ja
Priority to JP2021521651A priority patent/JP6945767B2/ja
Publication of WO2020240730A1 publication Critical patent/WO2020240730A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Definitions

  • the present invention relates to a receiver estimation device, a receiver estimation method, and a receiver estimation program.
  • a technology has been proposed that estimates the receiver of the audio emitted by the speaker based on the video information obtained by photographing the participants in the conversation. See, for example, Patent Documents 1 and 2. Using these techniques, it is possible to estimate the speaker of the voice emitted by the speaker, that is, the speaker intended by the speaker.
  • the receiver is, for example, a device other than the speaker or a device capable of accepting voice operations.
  • the behavior of the speaker includes, for example, the posture and movement of the speaker.
  • the state of restricting the behavior of the speaker includes, for example, the position of the speaker's seat, the state in which the speaker is operating the device, the state in which the speaker is gazing forward, and the like.
  • the speaker estimation device is a device that estimates the receiver of the voice emitted by the speaker, and there is one or more participants including the speaker acquired by the state acquisition unit.
  • the state of the device including the feature amount extraction unit that generates the feature amount information by extracting the feature amount about the state in the area from the area state information indicating the state in the area to be performed and the target device that accepts the operation by voice.
  • the constraint reference data is acquired from the first storage unit that stores the constraint reference data, which is the data indicating the state of restricting the behavior of the participant in the region, in advance, and the constraint reference data is acquired.
  • the constraint state information acquisition unit that acquires the constraint state information indicating the state that restricts the behavior of the participant based on the state information, the device state information, and the constraint reference data, the constraint state information, and the constraint.
  • a feature amount processing unit that selects one or more feature amounts used for estimating the receiver from the feature amount information based on the reference data and generates processing feature amount information based on the one or more feature amounts. It is characterized by having a receiver estimation unit that estimates the receiver based on the processing feature amount information.
  • the speaker estimation method is a method of estimating the receiver of the voice emitted by the speaker, and there is one or more participants including the speaker acquired by the state acquisition unit.
  • the restriction reference data is acquired from the first storage unit that acquires the state information and stores the constraint reference data which is the data indicating the state of restricting the behavior of the participant in the region in advance, and the region state information, Based on the device state information and the constraint reference data, a step of acquiring constraint state information indicating a state in which the participant's behavior is restricted, and the feature based on the constraint state information and the constraint reference data.
  • FIG. 5 is a functional block diagram schematically showing a configuration of a receiver estimation device according to the first embodiment. It is a figure which shows the example of the operation of the constraint state information acquisition part of the receiver estimation device which concerns on Embodiment 1.
  • FIG. It is a figure which shows the example of the operation of the feature amount extraction part of the receiver estimation apparatus which concerns on Embodiment 1.
  • FIG. It is a figure which shows the example of the operation of the feature amount processing part of the receiver estimation apparatus which concerns on Embodiment 1.
  • FIG. It is a figure which shows another example of the operation of the feature amount processing part of the receiver estimation apparatus which concerns on Embodiment 1.
  • FIG. 5 is a functional block diagram schematically showing a configuration of a receiver estimation device according to the first embodiment. It is a figure which shows the example of the operation of the constraint state information acquisition part of the receiver estimation device which concerns on Embodiment 1.
  • FIG. It is a figure which shows the example of the operation of the feature amount extraction part of the receiver estimation apparatus
  • FIG. It is a figure which shows the example of the hardware composition of the receiver estimation apparatus which concerns on Embodiment 1.
  • FIG. It is a flowchart which shows the operation of the receiver estimation apparatus which concerns on Embodiment 1.
  • FIG. It is a figure which shows the example of the operation of the constraint state information acquisition part of the receiver estimation device which concerns on Embodiment 1.
  • FIG. It is a figure which shows the example of the operation of the feature amount processing part of the receiver estimation apparatus which concerns on Embodiment 1.
  • FIG. It is a figure which shows another example of the operation of the feature amount processing part of the receiver estimation apparatus which concerns on Embodiment 1.
  • FIG. It is a functional block diagram which shows schematic structure of the receiver estimation apparatus which concerns on Embodiment 2 of this invention.
  • FIG. 5 is a functional block diagram schematically showing a configuration of a receiver estimation device according to a fourth embodiment of the present invention.
  • FIG. 5 is a functional block diagram schematically showing a configuration of a receiver estimation device according to a modified example of the fourth embodiment. It is a flowchart which shows the operation of the receiver estimation apparatus which concerns on Embodiment 4.
  • FIG. 1 is a diagram schematically showing the configuration of the receiver estimation system according to the first embodiment.
  • the receiver estimation system includes a state acquisition unit 20, a device 30, an input unit 40, a receiver estimation device 100, and an output unit 50.
  • the input unit 40 and the output unit 50 may be a part of the receiver estimation device 100.
  • the input unit 40 is an input interface as an input device for receiving a signal.
  • the output unit 50 is an output interface as an output device that outputs a signal.
  • the speaker estimation device 100 estimates the speaker of the voice emitted by the speaker who is one of the participants of one or more conversations, that is, the speaker intended by the speaker. Participants are in a predetermined area 10. Participants in the conversation are, for example, a plurality of participants 11, 12, .... When the speaker emits a voice (for example, a voice message for voice operation) addressed to the target device 31 that accepts the voice operation, even if the participant of the conversation is one participant who is the speaker. Good. Region 10 is, for example, the passenger compartment of a vehicle. Participants are, for example, the driver and passengers of the vehicle.
  • the state acquisition unit 20 acquires the area state information A0 indicating the state in the area 10 and transmits the area state information A0 to the input unit 40.
  • the state acquisition unit 20 is, for example, an audio acquisition unit 21 that generates audio information A1 by acquiring audio in the area 10, and a video acquisition unit 22 that generates video information A2 by shooting an image in the area 10. And have.
  • the voice acquisition unit 21 has, for example, one or more microphones.
  • the image acquisition unit 22 has, for example, one or more cameras.
  • the area state information A0 is information including at least one of audio information A1 and video information A2.
  • the voice information A1 is information based on the voice (that is, the utterance of the speaker) uttered by the speaker who is a participant.
  • the video information A2 is information on a moving image or a still image acquired by photographing a participant including a speaker.
  • the video information A2 is, for example, information on a moving image or a still image including the behavior of the participant at the time of utterance.
  • the video information A2 is image information showing the movement of the participant's face or the participant's body as a whole.
  • the video information A2 may be moving image information composed of a plurality of frames of images arranged in a time series.
  • the device 30 transmits the device information B0 indicating the state of the device 30 itself to the input unit 40.
  • the device 30 has, for example, a target device 31 operated by the participant and a peripheral device 32 operated by the participant.
  • the target device 31 is a device having a voice operation function (also referred to as a “voice dialogue device”) that operates according to a voice instruction.
  • the target device 31 is, for example, an in-vehicle device including a car navigation system provided in the vehicle or a smart speaker which is a speaker corresponding to interactive voice operation.
  • the target device information B1 may include, for example, current location information such as GPS (Global Positioning System) information in a car navigation system, guidance voice information regarding a traveling route, and the like.
  • the target device 31 may have a display screen 33.
  • the peripheral device 32 is a device other than the target device 31.
  • the peripheral device 32 is, for example, the vehicle itself.
  • Peripheral device 32 is a device existing around a place of conversation (that is, area 10) of participants such as a passenger compartment of a vehicle.
  • the peripheral device 32 is a device that may cause a state of restricting the behavior of a participant when operated by any of the participants.
  • Participant behavior includes, for example, the participant's posture and movement (ie, movement). Participant behavior is also referred to as participant behavior.
  • the state of restricting the behavior of the participant includes, for example, the position of the seat of the participant, the state of the participant operating the device 30, the state of the participant looking forward, and the like.
  • Peripheral device information B2 includes at least information representing the state of the peripheral device 32 existing around the region 10. For example, if the peripheral device 32 is an automobile, the peripheral device information B2 includes CAN (Control Area Network) information including vehicle speed and steering wheel operation information, running state information indicating a running state, and the like.
  • the traveling state information includes a state in which the vehicle is running, a state in which the vehicle is stopped, and the like.
  • the target device 31 transmits the target device information B1 indicating the state of the target device 31 itself to the input unit 40.
  • the peripheral device 32 transmits the peripheral device information B2 indicating the state of the peripheral device 32 itself to the input unit 40.
  • the device information B0 is information including at least one of the target device information B1 and the peripheral device information B2.
  • the speaker estimation device 100 estimates the speaker intended by the speaker based on the device information B0, the area state information A0, and various reference data (C1 and C2 shown in FIG. 2 described later) stored in advance. Then, the estimation result information D4 including the information indicating the estimated receiver is output.
  • the receiver estimation device 100 includes constraint state information (constraint state items) that constrain the behavior of the participant in order to acquire the processing feature amount information (D3 shown in FIG. 2 described later) used for estimating the receiver. Take into account D2) shown in FIG. 2 below. That is, the constraint state information includes a plurality of constraint state items.
  • the constrained state items include, for example, the position of the speaker's seat, the state in which the speaker is operating the device 30, the state in which the speaker is gazing forward, and the like.
  • the receiver is a participant other than the speaker among the participants or the target device 31.
  • the output unit 50 outputs the output information D5 based on the estimation result information D4. For example, when it is estimated that the receiver is the target device 31, the output unit 50 transmits the output information D5 indicating that the receiver is the target device 31 to the target device 31.
  • the target device 31 that has received the output information D5 determines that the voice emitted by the speaker is a voice operation for itself, and can operate according to the voice operation.
  • the target device 31 does not receive the output information D5 indicating that the receiver is the target device 31, or when the target device 31 receives the output information D5 indicating that the receiver is not the target device 31, the speaker emits the output information D5. It can be determined that the voice is not a voice operation for oneself.
  • the output unit 50 outputs the output information D5 based on the estimation result information D4.
  • the first storage unit 150 and the second storage unit 160 may be different storage devices from each other.
  • the first storage unit 150 and the second storage unit 160 may be different storage areas in the same storage device.
  • the input unit 40 receives the device information B0 and the area state information A0 as input information.
  • the device information B0 and the area state information A0 are provided to the receiver estimation device 100.
  • the device information B0 includes the target device information B1, the peripheral device information B2, or both of them.
  • the area state information A0 includes audio information A1, video information A2, or both.
  • the input unit 40 provides the received device information B0 and area state information A0 to the constraint state information acquisition unit 110. Further, the input unit 40 provides the area state information A0 to the feature amount extraction unit 120.
  • FIG. 3 is a diagram showing an example of the operation of the constraint state information acquisition unit 110 of the receiver estimation device 100.
  • FIG. 3 shows in tabular form an example of the constraint reference data C1 stored in the first storage unit 150 and an example of the constraint state information D2 generated by the constraint state information acquisition unit 110.
  • the constraint reference data C1 shown in FIG. 3 includes constraint state reference items shown as constraint conditions R_1 to R_m. m is a positive integer.
  • the constraint reference data C1 includes information indicating the magnitude of the constraint (that is, the degree of the constraint).
  • Each of the constraint state reference items shown as the constraint conditions R_1 to R_m includes running state information, device operation information which is the operation state of the peripheral device 32, seat position information which is the position of the speaker's seat, and the like.
  • the constraint reference data C1 is not limited to the example of FIG.
  • the constraint state information acquisition unit 110 generates the constraint state information D2 based on the device information B0, the area state information A0, and the constraint reference data C1.
  • the constraint state information D2 shown in FIG. 3 includes constraint state items in each of the n frames having frame numbers t_1 to t_n arranged in chronological order.
  • the constraint state information acquisition unit 110 provides the constraint state information D2 to the feature amount processing unit 130.
  • the constraint state information D2 may include an item relating to a participant who is a candidate for the receiver at the time of utterance.
  • the constraint state information acquisition unit 110 may predetermined the type of the constraint state item in each of the plurality of frames included in the generated constraint state information D2.
  • the constraint state information acquisition unit 110 sets, for example, running state information, device operation information, seat position information, and the like as constraint state items included in the constraint reference data C1.
  • the constraint state information acquisition unit 110 sets the constraint state items included in the generated constraint state information D2 to the running state information of the vehicle based on the peripheral device information B2.
  • Device operation information of peripheral device 32, seat position information of participants, and the like can be set.
  • the traveling state information of the vehicle includes whether the traveling state information of the vehicle is running or the stopped state in which the vehicle is stopped.
  • the device operation information includes, for example, a right turn operation and a left turn operation by the steering wheel of the vehicle as the peripheral device 32.
  • the constraint state information acquisition unit 110 can include seat position information of the speaker and a participant other than the speaker as the constraint state item included in the generated constraint state information D2, based on the video information A2.
  • the seat position information is, for example, a driver's seat, a passenger seat, a rear seat, or the like of a vehicle.
  • the constraint reference data C1 is composed of a plurality of pieces of information representing the constraint state, a pattern of combinations of the constraint states, and information indicating the magnitude of the constraint for each pattern.
  • a database that contains constraint state criteria items.
  • the constraint reference data C1 is a plurality of information in which a plurality of columns of information representing the constraint states and information defining the magnitude of the constraint determined by the combination of the constraint states are associated with each other.
  • Constraint conditions R_1 to R_m are added as identification symbols to the plurality of constraint state reference items.
  • the constraint state information acquisition unit 110 as the constraint state reference item acquired from the constraint reference data C1, for example, the constraint state (for example, running state information, device operation) of each column defined in the constraint reference data C1 shown in FIG. Get information, seat location information, etc.).
  • the constraint state for example, running state information, device operation
  • the feature amount extraction unit 120 receives the area state information A0 from the input unit 40. That is, the feature amount extraction unit 120 receives at least one of the audio information A1 and the video information A2 from the input unit 40.
  • the feature amount extraction unit 120 generates the feature amount information D1 by extracting one or more feature amounts used for estimating the receiver intended by the speaker.
  • the feature amount extraction unit 120 provides the feature amount information D1 to the feature amount processing unit 130.
  • FIG. 4 is a diagram showing an example of the operation of the feature amount extraction unit 120 of the receiver estimation device 100 according to the first embodiment.
  • FIG. 4 shows an example of the feature amount information D1 generated by the feature amount extraction unit 120 in a table format.
  • the feature amount information D1 can include a voice feature amount such as a fundamental frequency component (that is, pitch), sound pressure (that is, power), and a sound spectrum of sound.
  • the feature amount information D1 can include an image feature amount such as a participant's face orientation, line-of-sight direction, and opening degree indicating the degree of mouth opening.
  • the feature amount information D1 shows the audio feature amount and the image feature amount extracted for each t_n from the frame t_1 corresponding to the time series in a tabular format.
  • the feature amount information D1 may include a statistical value such as an average value or a variance of the voice information A1 for each utterance of a participant who is a candidate for the receiver.
  • the utterance unit corresponds to the period from the start to the end of one utterance by the same speaker.
  • the feature amount information D1 may include character string information, numerical information, and the like representing at least one feature amount of the audio feature amount extracted from the audio information A1 and the image feature amount extracted from the video information A2.
  • the feature amount extraction unit 120 may set a type of feature amount other than the type shown in the example of FIG. 4 as the type of the feature amount extracted from the audio information A1 and the video information A2.
  • the feature amount processing unit 130 selects one or more feature amounts used for estimating the receiver from the feature amount information D1 based on the constraint state information D2 and the constraint reference data C1, and selects one or more feature amounts.
  • the processing feature amount information D3 based on is generated.
  • the feature amount processing unit 130 provides the processing feature amount information D3 to the receiver estimation unit 140.
  • FIG. 5 is a diagram showing an example of the operation of the feature amount processing unit 130 of the receiver estimation device 100.
  • the feature amount processing unit 130 selects one or more feature amounts from the feature amount information D1 based on the constraint state information D2 and the constraint reference data C1, and sets the selected one or more feature amounts as the processing feature amount information D3.
  • the feature amount processing unit 130 acquires the constraint state reference item indicated by any of the constraint conditions R_1 to R_m, which is the information referred to from the constraint reference data C1, based on the constraint state information D2.
  • the constraint state information D2 includes a constraint state item indicating running state information, device operation information, seat position information, and the like.
  • the feature amount processing unit 130 generates processing feature amount information D3 (shown in FIG. 10 described later) that sets the magnitude of the participant's constraint to "large” based on the constraint state information D2 and the constraint reference data C1. To do.
  • the feature amount processing unit 130 may predetermine the constraint state reference item set as the processing feature amount information D3.
  • the feature amount processing unit 130 may select and process the feature amount according to the information indicating the "magnitude of constraint". Further, the feature amount processing unit 130 may determine information indicating the feature amount to be processed such as processing for each constraint state reference item.
  • FIG. 6 is a diagram showing another example of the operation of the feature amount processing unit 130 of the receiver estimation device 100.
  • the feature amount processing unit 130 selects one or more feature amounts from the feature amount information D1 based on the constraint state obtained based on the constraint state information D2 and the constraint reference data C1, and one or more selected features.
  • the processing feature amount information D3 may be generated by weighting each of the amounts.
  • FIG. 6 shows an example of the constraint state reference item acquired from the constraint reference data C1 based on the constraint state information D2.
  • the feature quantity processing unit 130 acquires the constraint state reference item indicated by any of the constraint conditions R_1 to R_m, which is the information referred to from the constraint reference data C1, based on the constraint state information D2.
  • the feature amount processing unit 130 sets the magnitude of the participant's constraint to be "large” and the weight to be "0.5” based on the constraint state information D2 and the constraint reference data C1 (described later). (Shown in FIG. 11) is generated.
  • the feature amount processing unit 130 may predetermine the constraint state reference item set as the processing feature amount information D3. Further, the feature amount processing unit 130 may select and process the feature amount according to the information representing the "magnitude of constraint" and the "weight” of the constraint. Further, the feature amount processing unit 130 may determine information indicating the feature amount to be processed such as processing for each constraint state reference item.
  • the set weight may be a value used for processing a value representing a feature amount.
  • the set weight may be a value used for a statistical model used when estimating the receiver, a parameter of a classifier such as an SVM (support vector machine) or a neural network, or network information.
  • the receiver estimation unit 140 receives the processing feature amount information D3, refers to the estimation reference data C2, and outputs the estimation result information D4 indicating the result of estimating the receiver based on the processing feature amount information D3 and the estimation reference data C2. Provided to section 50.
  • the processed feature amount information D3 includes at least one of the values representing the voice feature amount or the image feature amount associated with the utterance to be estimated by the receiver.
  • the estimation reference data C2 includes reference data in which the rules for estimating the receiver by the combination of the processed feature amount information D3 such as the utterance content at the time of the participant's utterance, the face direction or the line-of-sight direction are predetermined. Further, any parameter or model such as a statistical model, SVM or neural network for estimating the receiver based on the processing feature amount information D3 may be used.
  • the output unit 50 outputs the output information D5 indicating the result of the estimation of the receiver based on the estimation result information D4.
  • the estimation result information D4 includes, for example, character string information or numerical information indicating which of the participants the receiver is. Further, the estimation result information D4 may be numerical information or the like expressing the probability that any one of the participants is the receiver.
  • the output information D5 is, for example, information such as character string information or numerical information representing information indicating the estimation result of the receiver, or an image indicating the receiver, based on the estimation result information D4. Further, the output information D5 may include numerical information indicating the probability that any one of the participants is the receiver.
  • FIG. 7 is a diagram showing an example of the hardware configuration of the receiver estimation device 100 according to the first embodiment.
  • the receiver estimation device 100 is, for example, a memory 202 as a storage device for storing a program as software, that is, the receiver estimation program according to the first embodiment, and an information processing unit that executes a program stored in the memory 202.
  • the processor 201 is provided as the above.
  • the receiver estimation device 100 may be a general-purpose computer.
  • the processor 201 is an arithmetic unit.
  • the arithmetic unit has a CPU (Central Processing Unit).
  • the arithmetic unit may have a GPU (Graphics Processing Unit) in addition to the CPU.
  • the arithmetic unit may include a time providing function that provides time information.
  • the receiver estimation program is stored in the memory 202 from a storage medium that stores information via a medium reader (not shown) or via a communication interface (not shown) that can be connected to the Internet or the like.
  • the receiver estimation device 100 may have a storage 203 which is a storage device for storing various information such as a database.
  • the storage 203 may be a storage device existing on the cloud that can be connected via a communication interface (not shown).
  • the processor 201 reads various programs from the storage 203 and executes the programs using the memory 202 as a work area.
  • the receiver estimation device 100 may have a display for displaying an image.
  • the constraint state information acquisition unit 110, the feature amount extraction unit 120, the feature amount processing unit 130, and the receiver estimation unit 140 shown in FIG. 2 are realized by the processor 201 that executes the program stored in the memory 202. Can be done. Further, a part of each configuration shown in FIG. 2 may be realized by a processor 201 that executes a program stored in the memory 202. Further, the first storage unit 150 and the second storage unit 160 shown in FIG. 2 may be a part of the storage 203.
  • the input interface 204 which is an input device, is an input unit 40 shown in FIG.
  • the output interface 205 which is an output device, is an output unit 50 shown in FIG.
  • the input unit 40, the constraint state information acquisition unit 110, the feature amount extraction unit 120, the feature amount processing unit 130, the receiver estimation unit 140, and the output unit 50 shown in FIG. 2 are all or partly formed by an electric circuit. It may be realized.
  • FIG. 8 is a flowchart showing the operation of the receiver estimation device 100.
  • step S10 the input unit 40 receives the device information B0 and the area state information A0. That is, the input unit 40 receives at least one of the target device information B1 and the peripheral device information B2, and at least one of the audio information A1 and the video information A2.
  • the constraint state information acquisition unit 110 is based on predetermined constraint state items (for example, running state information, device operation information, seat position information, etc. in the constraint state information D2 in FIG. 3), target device information B1, and surroundings.
  • the constraint state information D2 is generated by acquiring the corresponding constraint state item from the device information B2, the audio information A1, and the video information A2. Further, the constraint state information acquisition unit 110 may generate the constraint state information D2 by referring to the constraint reference data C1 and extracting information corresponding to a predetermined constraint state item from the constraint reference data C1. ..
  • the constraint state information acquisition unit 110 uses the constraint reference data C1 shown in FIG. 3 to obtain the travel state information and the device which are the constraint states. Acquire operation information, seat position information, etc.
  • the constraint state information acquisition unit 110 determines the vehicle running state information (for example, running, stopping) or device operation information (for example, handle operation, accelerator operation, blinker) from the peripheral device information B2 as the constraint state corresponding to the acquired constraint state. Operation), the participant's seat position information (for example, driver's seat, passenger seat) in the vehicle is acquired from the video information A2.
  • the constraint state information acquisition unit 110 provides the acquired information indicating the constraint state as information for each frame arranged in a time series as shown in FIG.
  • FIG. 9 is a diagram showing an example of the operation of the constraint state information acquisition unit 110 of the receiver estimation device 100.
  • FIG. 9 shows an example in which the constraint state information acquisition unit 110 generates the constraint state information D2 from the peripheral device information B2 and the video information A2.
  • the constraint state information acquisition unit 110 generates the constraint state information D2 by extracting the constraint state items from the peripheral device information B2 and the video information A2, which are information arranged in time series.
  • the constraint state information acquisition unit 110 generates the constraint state information D2 for each frame arranged in the time series, but generates the constraint state information D2 for each utterance to be estimated by the receiver. You may.
  • the constraint state information acquisition unit 110 may use statistical values (for example, average value, maximum value, representative value, etc.) in the utterance unit as the values included in the constraint state information.
  • step S30 the feature amount extraction unit 120 generates the feature amount information D1 by extracting the feature amount from the area state information A0. That is, the feature amount extraction unit 120 generates the feature amount information D1 by extracting the feature amount from at least one of the audio information A1 and the video information A2.
  • the feature amount extraction unit 120 extracts voice feature amounts such as pitch, power, and spectrum of sound from voice information A1.
  • the feature amount extraction unit 120 extracts an image feature amount such as the face orientation, the line-of-sight direction, and the opening degree of the mouth of the participant from the video information A2.
  • a known method can be used.
  • the feature amount extraction unit 120 may generate the feature amount information D1 by storing the extracted feature amount for each frame corresponding to the time series as shown in FIG. Further, in FIG. 4, the feature amount extraction unit 120 extracts the feature amount for each frame arranged in the time series, but the feature amount may be extracted for each utterance to be estimated by the receiver.
  • the feature amount extraction unit 120 may use a statistical value (for example, an average value, a maximum value, a representative value, etc.) in each utterance unit as a value included in the feature amount information D1.
  • step S40 the feature amount processing unit 130 generates the processing feature amount information D3 from the feature amount information D1 by using the constraint state information D2 and the constraint reference data C1.
  • FIG. 10 is a diagram showing an example of the operation of the feature amount processing unit 130 of the receiver estimation device 100.
  • the feature amount processing unit 130 selects desired information from the feature amount information D1 based on the constraint state information D2 and the constraint state reference item obtained from the constraint reference data C1. By doing so, processing feature amount information D3 is generated.
  • the feature amount processing unit 130 refers to the constraint state items including the running state information, the device operation information, the seat position information, etc. from the constraint state information D2, and the constraint corresponding to these constraint state items. Acquire the constraint state reference item of the reference data C1.
  • FIG. 11 is a diagram showing another example of the operation of the feature amount processing unit 130 of the receiver estimation device 100.
  • the feature amount processing unit 130 obtains desired information in the feature amount information D1 based on the constraint state information D2 and the constraint state reference item obtained from the constraint reference data C1.
  • Processing feature amount information D3 is generated by selecting and weighting.
  • the feature amount processing unit 130 refers to the constraint state items such as the running state information, the device operation information, and the seat position information from the constraint state information D2, and the constraint standard corresponding to these constraint state items. Acquire the constraint state reference item of data C1.
  • the running state information is "running"
  • the device operation information is “accelerator”
  • the seat position information is “driver's seat”.
  • the feature amount processing unit 130 determines the "face orientation" of the image feature amount in the feature amount information D1 based on the size and weight of the constraint. By setting weights in the information in the column, the machining feature amount information D3 is generated. Further, the feature amount processing unit 130 determines in advance a feature amount to be weighted according to the constraint state reference item, and determines a method of selecting or weighting the feature amount according to the magnitude and weight of the constraint.
  • the feature amount processing unit 130 may predetermine the feature amount to be weighted for each constraint state reference item.
  • the feature amount processing unit 130 may use the set weight for processing a value representing the feature amount.
  • the feature amount processing unit 130 may use the set weight for a statistical model used when estimating the receiver, a parameter of a classifier such as an SVM or a neural network, or network information.
  • step S50 the receiver estimation unit 140 estimates the receiver from the processed feature amount information D3 with reference to the estimation reference data C2, and outputs the estimation result information D4 indicating the estimation result. That is, the receiver estimation unit 140 receives the processed feature amount information D3 including at least one voice feature amount or image feature amount associated with the utterance to be estimated by the receiver, and the processed feature amount information D3 and the estimation reference data. Estimate the recipient based on C2. However, the receiver estimation unit 140 may estimate the receiver from the processing feature amount information D3 without using the estimation reference data C2.
  • the estimation reference data C2 is, for example, the estimation of the receiver by combining the items of the processed feature amount information D3 such as the information indicating the utterance content, the face orientation of the participant, and the line-of-sight direction of the participant at the time of the participant's utterance.
  • the receiver estimation unit 140 whose rules are predetermined data, can estimate the receiver based on the processing feature amount information D3 and the estimation reference data C2. For example, if the utterance to be estimated by the participant by the participant includes information indicating an arbitrary person or thing in the participant, the receiver estimation unit 140 estimates the target as the receiver. You may. Further, the receiver estimation unit 140 may set a threshold value for identifying the receiver for each feature amount, and estimate the receiver based on the threshold value.
  • the receiver estimation unit 140 may receive the processing feature amount information D3, learn the model by a statistical model, SVM, a neural network, or the like and use it as the estimation reference data C2 to estimate the receiver.
  • the receiver estimation unit 140 may estimate the receiver by using other known methods of estimating, determining, identifying, and detecting the receiver, listener, utterance receiver, and the like.
  • the estimation result information D4 may be character string information indicating whether the speaker for the utterance is one of the participants, numerical information, numerical information indicating the probability that each participant is a speaker, or the like. Good.
  • the receiver estimation unit 140 provides the estimation result information D4 to the output unit 50.
  • Step S60 the output unit 50 outputs the output information D5 based on the estimation result information D4.
  • the output unit 50 outputs character string information, numerical information, an image showing the receiver, etc. based on the estimation result information D4 as output information D5. Further, the output unit 50 may output numerical information indicating the probability that each of the participants is a receiver as the output information D5.
  • ⁇ 1-3 Effect As described above, if the speaker estimation device 100, the speaker estimation method, and the speaker estimation program according to the first embodiment are used, the constraint state of the participants during conversation is taken into consideration. Since the receiver is estimated using the processing feature amount information D3 generated by the input, the accuracy of the estimation of the receiver can be improved. For example, as shown in FIG. 10 or 11, since the processing feature amount information D3 used for the estimation of the receiver is set according to the constraint state information D2, the accuracy of the estimation of the receiver can be improved.
  • FIG. 12 is a functional block diagram schematically showing the configuration of the receiver estimation device 200 according to the second embodiment.
  • the receiver estimation device 200 is a device capable of implementing the receiver estimation method according to the second embodiment.
  • components that are the same as or correspond to the components shown in FIG. 2 are designated by the same reference numerals as those shown in FIG.
  • the feature amount extraction unit 120 stores the feature amount reference data C3, which is data indicating the requirement as the feature amount, in advance from the third storage unit 170.
  • C3 is acquired and the feature amount information D1 is generated by extracting the feature amount satisfying the requirement as the feature amount indicated by the acquired feature amount reference data C3 from the area state information A0. It is different from the receiver estimation device 100.
  • the receiver estimation device 200 according to the second embodiment is the same as the receiver estimation device 100 according to the first embodiment.
  • the constraint state information acquisition unit 110 updates the feature amount reference data C3 based on the constraint state information D2.
  • the feature amount reference data C3 includes, for example, threshold information indicating a threshold value used when extracting a voice feature amount from the voice information A1 or when extracting an image feature amount from the video information A2.
  • the threshold information is updated according to the constraint state information D2 input to the third storage unit 170. This update process is performed by, for example, the constraint state information acquisition unit 110.
  • the feature amount extraction unit 120 may use different threshold values when extracting face orientation information, opening degree information indicating the degree of mouth opening, or the like as an image feature amount based on the constraint state information D2.
  • the receiver estimation device 200 estimates the receiver of a participant's conversation in the vehicle
  • the driver concentrates on the road surface in front or the situation in front of the preceding vehicle and its surroundings during normal straight-ahead driving. It is necessary to do (that is, the degree of constraint is large). Therefore, when the driver is the speaker, the face-to-face movement by the driver is minimal. Further, when the driver talks to another participant in the passenger seat or the like, the driver only turns his face toward the receiver for a moment, and does not turn his face toward the receiver significantly. However, when the vehicle is stopped according to an instruction such as a traffic light, the degree of attention of the driver to the situation in front of the vehicle and its surroundings is low (that is, the degree of restriction is small).
  • the feature amount extraction unit 120 extracts the face orientation information as the image feature amount as "left” or “right”, and the seat position information as information representing the face orientation object such as "passenger seat” or “rear seat”.
  • face orientation information may be erroneously extracted. Therefore, the reference data such as the threshold value included in the feature amount reference data C3 is changed based on the running state information such as "running” and “stop” or the device operation information such as "turn left and right” included in the constraint state information D2.
  • the feature amount extraction unit 120 can appropriately extract the feature amount according to the situation of the participants.
  • the feature amount reference data C3 may represent the threshold value information as a reference when extracting the feature amount as numerical information. Further, the feature amount reference data C3 may be information representing the parameters of the feature amount extraction model, or may be the feature amount extraction model learned according to the constraint state information D2.
  • the feature amount reference data C3 may be configured to include, for example, threshold information for extracting a voice feature amount or an image feature amount.
  • the feature amount extraction unit 120 may extract the feature amount based on this threshold value and generate the feature amount information D1.
  • the feature amount reference data C3 may be information representing the parameters of the feature amount extraction model or the feature amount extraction model itself.
  • the feature amount extraction unit 120 may generate the feature amount information D1 by extracting the feature amount based on the parameter information in the feature amount reference data C3 or the feature amount extraction model.
  • the constraint state information acquisition unit 110 updates the estimation reference data C2 used for estimating the receiver based on the constraint state information D2.
  • the estimation reference data C2 is based on, for example, a combination of voice features or image features included in the processed feature information D3 such as the utterance content at the time of the participant's utterance, the participant's face orientation, and the participant's line-of-sight direction. It is configured to include threshold information when estimating the speaker.
  • the threshold information in the estimation reference data C2 may be configured to be changed according to the constraint state information D2.
  • the receiver estimation unit 140 for example, based on the constraint state information D2 (that is, depending on whether the constraint is large or small), determines the participant's facial information or the degree of opening of the participant's mouth in the estimation reference data C2. Different thresholds may be used for the opening degree information shown.
  • the receiver estimation device 200 estimates the receiver of a participant's conversation in the vehicle
  • the driver concentrates his / her consciousness on the road surface in front or the situation in front of the preceding vehicle and its surroundings during normal straight-ahead driving. Must be done, and facial movements are minimal. Therefore, when talking to other participants such as the passenger seat, the face is only turned to the receiver for a moment, and the face is not turned to the receiver too much.
  • the degree of attention to the situation in front of the vehicle and its surroundings is reduced, and the speaker may turn his / her face to the receiver of the conversation more than during normal driving.
  • the face orientation information which is an image feature amount
  • the seat position information is "passenger seat” or “rear seat”, which is used in the estimation of the receiver.
  • the reference data such as the threshold value included in the estimation reference data C2 can be changed based on the running state information such as "running” and “stop” or the device operation information such as "turn left and right” included in the constraint state information D2. By doing so, it is possible to estimate the receiver according to the situation of the participants.
  • the estimation reference data C2 may represent the reference threshold information or rule for estimating the receiver based on the processing feature amount information D3 as numerical value or character string information, or may be a statistical model, SVM, or neural network. It may be a parameter or a model such as, and the model may be one learned according to the constraint state information D2.
  • the constraint state information acquisition unit 110, the feature amount extraction unit 120, the feature amount processing unit 130, and the receiver estimation unit 140 shown in FIG. 12 are processors 201 that execute a program stored in the memory 202 shown in FIG. Can be realized by. Further, a part of each configuration shown in FIG. 2 may be realized by a processor 201 that executes a program stored in the memory 202. Further, the first storage unit 150, the second storage unit 160, and the third storage unit 170 shown in FIG. 12 may be a part of the storage 203.
  • the input unit 40, the constraint state information acquisition unit 110, the feature amount extraction unit 120, the feature amount processing unit 130, the receiver estimation unit 140, and the output unit 50 shown in FIG. 12 are all or partly formed by an electric circuit. It may be realized.
  • FIG. 13 is a flowchart showing the operation of the receiver estimation device 200.
  • the same or corresponding processing step as the processing step shown in FIG. 8 is designated by the same reference numeral as that shown in FIG.
  • step S21 the constraint state information acquisition unit 110 updates the feature amount reference data C3 with reference to the constraint state information D2.
  • the feature amount reference data C3 is configured to include threshold information when extracting an audio feature amount or an image feature amount from the audio information A1 and the video information A2, or information representing the parameters of the feature amount extraction model or the feature amount extraction model itself.
  • the threshold information or the parameter information or the feature amount extraction model may be changed according to the constraint state information D2. For example, when extracting face orientation information or opening degree information indicating the degree of mouth opening as an image feature amount, threshold information or parameter information is updated according to the magnitude or type of the constraint indicated by the constraint state information D2. You may.
  • step S30 the feature amount extraction unit 120 receives either the audio information A1 or the video information A2, refers to the feature amount reference data C3, and extracts the feature amount to generate the feature amount information D1. ..
  • the feature amount extraction unit 120 extracts voice feature amounts such as sound pitch, power, and spectrum from the voice information A1.
  • the feature amount extraction unit 120 extracts an image feature amount such as a face direction, a line-of-sight direction, and an opening degree indicating the degree of opening of the mouth from the image information A2.
  • the feature amount information D1 such as the voice feature amount and the image feature amount may be extracted by using a known feature amount extraction method.
  • the feature amount extraction unit 120 may refer to the feature amount reference data at the time of extraction and use the threshold information associated with the feature amount extraction, the parameter information of the feature amount extraction model, or the feature amount extraction model itself.
  • the feature amount extraction unit 120 may generate and provide the feature amount information D1 in a format stored for each frame corresponding to the time series, or the feature amount time series information. In addition, it may be provided as a statistical value such as an average value or a variance for each utterance of a participant who is a candidate for a receiver.
  • the feature amount information D1 may be information including character string information or numerical information representing at least one feature amount from the audio feature amount extracted from the audio information A1 and the image feature amount extracted from the video information A2.
  • step S41 the estimation reference data C2 refers to the constraint state information D2 and updates the reference data used for estimating the receiver.
  • the estimation reference data C2 is, for example, a combination of the voice feature amount or the image feature amount included in the processed feature amount information D3 such as the utterance content at the time of the participant's utterance or the face orientation and the line-of-sight direction, and the estimation of the receiver. Threshold information, parameter information of the speaker estimation model, and the speaker estimation model may be included. As for the estimation reference data C2, the threshold information and the like may be updated according to the constraint state information D2. For example, the constraint state information D2 may have different threshold values depending on the degree of constraint when using face orientation information, opening degree information indicating the degree of mouth opening, or the like for estimating the receiver. ..
  • the estimation reference data C2 may represent the reference threshold information or rule for estimating the receiver based on the processing feature amount information D3 as numerical value or character string information, or may be a statistical model, SVM, or neural network. It may be a parameter or model such as. The model may be learned according to the constraint state information D2.
  • ⁇ 2-3 Effect As described above, if the speaker estimation device 200, the speaker estimation method, and the speaker estimation program according to the second embodiment are used, the constraint state of the participants at the time of conversation is taken into consideration. Since the receiver is estimated using the processed feature amount information D3 generated by the input, the accuracy of the estimation of the receiver can be improved.
  • the feature amount extraction unit 120 extracts the feature amount using the feature amount reference data C3 stored in advance, it is possible to generate appropriate feature amount information D1. Further, since the feature amount reference data C3 is updated based on the constraint state information D2, the feature amount extraction unit 120 can generate more appropriate feature amount information.
  • the feature amount reference data C3 can determine the reference value at the time of feature amount extraction based on the constraint state information D2, the threshold value or the model used for the feature amount extraction is appropriate according to the surrounding conditions of the participants. Has the effect of being able to change, adjust, update, and learn.
  • the receiver can be set according to the surrounding conditions of the participant who is a candidate for the receiver. It has the effect that the threshold value or model of the feature amount used for estimation can be appropriately changed, adjusted, updated, and learned.
  • FIG. 14 is a functional block diagram schematically showing the configuration of the receiver estimation device 300 according to the third embodiment.
  • the receiver estimation device 300 is a device capable of implementing the receiver estimation method according to the third embodiment.
  • components that are the same as or correspond to the components shown in FIG. 2 are designated by the same reference numerals as those shown in FIG.
  • the receiver estimation device 300 according to the third embodiment further includes a screen presence / absence information acquisition unit 180 that acquires screen presence / absence information F1 indicating whether or not the target device 31 has a display screen based on the device information B0.
  • the feature amount processing unit 130 generates the processing feature amount information D3 based on the constraint state information D2, the constraint reference data C1, and the screen presence / absence information F1.
  • the receiver estimation device 300 according to the third embodiment is the same as the receiver estimation device 100 according to the first embodiment.
  • the screen presence / absence information acquisition unit 180 acquires the screen presence / absence information F1 based on the target device information B1 in the device information B0.
  • the target device 31 is, for example, a car navigation system or a smart speaker.
  • the screen presence / absence information acquisition unit 180 displays the display screen (for example, the figure) of the target device 31 based on the basic spec information included in the target device information B1 or the input information by the user operation unit (for example, the touch panel) provided in the target device 31. It is determined whether or not the display screen 33) shown in 1 is provided, and screen presence / absence information F1 indicating the result of the determination is generated.
  • the feature amount processing unit 130 receives the constraint state information D2, the feature amount information D1, and the screen presence / absence information F1, refers to the constraint reference data C1, and selects the feature amount to be used for estimating the receiver from the feature amount information D1. Or select and process.
  • the feature amount processing unit 130 provides the processing feature amount information D3 to the receiver estimation unit 140.
  • the speaker estimation device 300 estimates the receiver of a participant's conversation in the vehicle, the speaker tends to turn his / her face to a device having a display screen such as a car navigation system. Conversely, speakers are less likely to turn their faces to devices that do not have a display screen, such as smart speakers. Therefore, the receiver estimation device 300 uses the face orientation information as the feature amount for the estimation of the receiver when the target device has a display screen, and receives the face orientation information when the target device does not have the display screen. It is not used as a feature of the person's estimation.
  • the receiver estimation device 300 uses the face orientation information as the feature amount of the speaker's estimation and sets the weight to a large value, and the target device does not have the display screen.
  • the face orientation information is used as the estimated feature amount of the receiver and the weight is set to a small value.
  • the receiver estimation device 300 uses the screen presence / absence information F1 in addition to the constraint state information D2, and is based on the constraint state reference item (for example, shown in FIG. 5) acquired with reference to the constraint reference data C1. Therefore, any information of the feature amount information D1 may be selected or weighted as the processed feature amount information D3.
  • An example of acquiring the constraint state reference item from the constraint reference data C1 based on the constraint state information D2 is shown in FIG. 5, but the constraint state information D2 includes running state information, device operation information, and seat position information.
  • the screen presence / absence information F1 may be included as the constraint state information.
  • the constraint state information acquisition unit 110 acquires the constraint state reference item based on the constraint state information D2, for example, the running state information is "running”, the device operation information is “accelerator”, and the seat position.
  • the information is "driver's seat” and the screen presence / absence information F1 is "none”
  • the magnitude of the participant's constraint may be set to "large” according to the rule shown in the constraint criterion data C1. ..
  • the constraint state information acquisition unit 110, the feature amount extraction unit 120, the feature amount processing unit 130, and the receiver estimation unit 140 shown in FIG. 14 are processors 201 that execute a program stored in the memory 202 shown in FIG. Can be realized by. Further, a part of each configuration shown in FIG. 14 may be realized by a processor 201 that executes a program stored in the memory 202. Further, the first storage unit 150, the second storage unit 160, and the third storage unit 170 shown in FIG. 12 may be a part of the storage 203.
  • the input unit 40, the constraint state information acquisition unit 110, the feature amount extraction unit 120, the feature amount processing unit 130, the receiver estimation unit 140, and the output unit 50 shown in FIG. 14 are all or partly formed by an electric circuit. It may be realized.
  • FIG. 15 is a flowchart showing the operation of the receiver estimation device 300.
  • the same or corresponding processing step as the processing step shown in FIG. 8 is designated by the same reference numeral as that shown in FIG.
  • step S11 the screen presence / absence information acquisition unit 180 acquires the screen presence / absence information F1 with reference to the target device information B1.
  • step S40 the feature amount processing unit 130 generates the processing feature amount information D3 from the feature amount information D1 by using the constraint state information D2, the screen presence / absence information F1, and the constraint reference data C1.
  • the feature amount processing unit 130 selects desired information from the feature amount information D1 based on the constraint state information D2, the screen presence / absence information F1, and the constraint state reference item obtained from the constraint reference data C1. Generates processing feature amount information D3.
  • the running state information is "driving”
  • the device operation information is “accelerator”
  • the seat position information is “driver's seat”
  • the screen presence / absence information F1 is "none”. If so, set the participant constraint to "Large”. If the constraint is large, body movements such as face orientation are suppressed, so the "face orientation" column of the image feature amount is deleted from the feature amount information D1 to generate the processed feature amount information D3.
  • the feature amount processing unit 130 may determine the feature amount to be selected or processed according to the constraint state reference item in advance, and determine the feature amount selection or processing method according to the magnitude of the constraint. Further, the feature amount processing unit 130 may predetermine the feature amount to be selected for each constraint state reference item.
  • the feature amount processing unit 130 determines in advance a feature amount to be weighted according to the constraint state reference item, and determines a method of selecting or weighting the feature amount according to the magnitude and weight of the constraint. May be good. Further, the feature amount processing unit 130 may predetermine the feature amount to be weighted for each constraint state reference item. The feature amount processing unit 130 may use the set weight for processing a value representing the feature amount. Further, the feature amount processing unit 130 may use the set weight for a statistical model used when estimating the receiver, a parameter of a classifier such as an SVM or a neural network, or network information.
  • ⁇ 3-3 Effect As described above, if the speaker estimation device 300, the speaker estimation method, and the speaker estimation program according to the third embodiment are used, the constraint state of the participants at the time of conversation is taken into consideration. Since the receiver is estimated using the processed feature amount information D3 generated by the input, the accuracy of the estimation of the receiver can be improved.
  • the feature amount is appropriately selected and processed (for example, weighting) according to the change in behavior. This can be done, and there is an effect that the accuracy of the estimation of the receiver can be improved.
  • the feature amount processing unit 130 uses the screen presence / absence information F1 as the constraint state information in addition to the constraint state information D2 and selects and processes the feature amount by referring to the constraint reference data, the participant's constraint state can be set. By setting in more detail, there is an effect that an appropriate feature amount can be selected according to the state of the participant.
  • FIG. 16 is a functional block diagram schematically showing the configuration of the receiver estimation device 400 according to the fourth embodiment.
  • the receiver estimation device 400 is a device capable of implementing the receiver estimation method according to the fourth embodiment.
  • components that are the same as or correspond to the components shown in FIG. 2 are designated by the same reference numerals as those shown in FIG.
  • the receiver estimation device 400 according to the fourth embodiment receives the participant information G1 which is information indicating the mutual relationship of the participants, and the intimacy information indicating the mutual intimacy of the participants based on the participant information G1.
  • the feature amount processing unit 130 has an intimacy acquisition unit 190 for generating G2, and the feature amount processing unit 130 generates processing feature amount information D3 based on the constraint state information D2, the constraint reference data C1, and the intimacy information G2. This is different from the receiver estimation device 100 according to the first embodiment.
  • the receiver estimation device 400 according to the fourth embodiment is the same as the receiver estimation device 100 according to the first embodiment.
  • the intimacy acquisition unit 190 shown in FIG. 16 receives the participant information G1 and generates the intimacy information G2 based on the participant information G1.
  • Participant information G1 is provided from a storage unit (not shown) that stores information indicating the relationship between participants in advance.
  • This storage unit may be the storage 203 shown in FIG. 7.
  • the participant information G1 may be provided from a server on the network.
  • the participant information G1 may be input from a user operation device such as a keyboard that accepts user operations.
  • the information representing the relationship between the participants is, for example, a hierarchical relationship such as "boss and subordinate", a highly intimate relationship such as "family”, and the like.
  • Participant information G1 may be one that expresses the relationship between participants as character string information, one that expresses the intimacy of participants numerically, and the like.
  • the intimacy acquisition unit 190 generates intimacy information G2 based on the information included in the participant information G1 indicating the relationship between the participants.
  • the intimacy information G2 is, for example, the one in which the character string information indicating the relationship between the participants included in the participant information G1 is replaced with numerical information. Further, the intimacy information G2 may be information indicating the degree of intimacy (for example, "high", "low”, etc.) based on the information indicating the relationship between the participants. Further, the intimacy acquisition unit 190 may generate the intimacy information G2 by calculating the intimacy based on the numerical string information indicating the relationship between the participants included in the participant information G1.
  • the intimacy information G2 includes, for example, character string information indicating the intimacy of the participants, numerical information, or both of them.
  • the feature amount processing unit 130 receives the constraint state information D2, the feature amount information D1, and the intimacy information G2, refers to the constraint reference data C1, and selects and processes the feature amount to be used for estimating the receiver from the feature amount information D1. To do.
  • the feature amount processing unit 130 provides the processing feature amount information D3 to the receiver estimation unit 140.
  • the feature amount processing unit 130 uses the intimacy information G2 as the constraint state information in addition to the constraint state information D2, and based on the constraint state reference item acquired with reference to the constraint reference data C1, the feature amount information D1
  • the processing feature amount information D3 is obtained by selecting or weighting any feature amount information of.
  • the feature amount processing unit 130 may use the information indicating the degree of intimacy (for example, "high” or “low”) as it is as the information indicating the intimacy of the participants included in the intimacy information G2. .. Further, when the information representing the intimacy of the participants included in the intimacy information G2 is represented by numerical information, the feature amount processing unit 130 sets the numerical value in the range of the designated value (for example, " It may be determined whether or not it is within 0.5 ⁇ intimacy ⁇ 1.0 "), and the constraint state information D2 when this condition is satisfied may be used for calculating the processing feature amount.
  • FIG. 17 is a functional block diagram schematically showing the configuration of the receiver estimation device 500 according to the modified example of the fourth embodiment.
  • components that are the same as or correspond to the components shown in FIG. 16 are designated by the same reference numerals as those shown in FIG.
  • the receiver estimation device 500 differs from the receiver estimation device 400 in that the estimation reference data C2 used for estimating the receiver is updated based on the intimacy information G2. In other respects, the receiver estimator 500 is the same as the receiver estimator 400.
  • the estimation reference data C2 in FIG. 17 includes threshold information for estimating the receiver by, for example, a combination of the audio feature amount and the image feature amount included in the processed feature amount information D3.
  • the threshold information may be updated according to the intimacy information G2.
  • the estimation reference data C2 represents reference threshold information or rules as numerical values or character string information.
  • the estimation reference data C2 may be a parameter or model such as a statistical model, SVM or neural network.
  • the estimation reference data C2 may be processed or learned based on the intimacy information G2.
  • the constraint state information acquisition unit 110, the feature amount extraction unit 120, the feature amount processing unit 130, and the receiver estimation unit 140 shown in FIG. 16 or FIG. 17 execute a program stored in the memory 202 shown in FIG. It can be realized by the processor 201. Further, a part of the configuration shown in FIG. 16 or FIG. 17 may be realized by the processor 201 that executes the program stored in the memory 202. Further, the first storage unit 150 and the second storage unit 160 shown in FIG. 16 or FIG. 17 may be a part of the storage 203.
  • FIG. 18 is a flowchart showing the operation of the receiver estimation device 400.
  • the same or corresponding processing step as the processing step shown in FIG. 8 is designated by the same reference numeral as that shown in FIG.
  • step S31 the intimacy acquisition unit 190 acquires (that is, generates) intimacy information G2 based on the participant information G1.
  • the intimacy acquisition unit 190 obtains intimacy information from, for example, participant information G1 including information indicating a preset relationship between participants or information indicating a relationship between participants directly input from an operating device. Extract G2.
  • Participant information G1 may include, for example, information representing a hierarchical relationship such as "boss and subordinate” or information representing a highly intimate relationship such as "family”, and these relationships are represented by a character string. It may be expressed as information or as a numerical value indicating the intimacy of each participant. The higher the number indicating intimacy, the higher the intimacy. For example, in the case of "boss and subordinate", the intimacy of the boss is "0.3", the intimacy of the subordinate is "0.2”, and each value is a value indicating the relationship between the participants. Participant information G1 May be. If it is a "family", the intimacy of the parent may be "0.8” and the intimacy of the child may be "0.7". These pieces of information may be used as participant information G1 as numerical string information.
  • the intimacy information G2 extracted by the intimacy acquisition unit 190 includes character string information indicating the relationship between participants in the participant information G1, it is replaced with numerical information based on a preset rule. You may. For example, the intimacy acquisition unit 190 sets the intimacy to "0.5” in the case of “boss and subordinate” and "1.5” in the case of "family”. Density information G2 may be generated. Further, the intimacy information G2 may be information indicating the degree of intimacy from the information indicating the relationship between the participants. For example, the intimacy acquisition unit 190 may be set to have an intimacy of "low” for "bosses and subordinates” and an intimacy of "high” for "family”.
  • the intimacy information G2 may calculate the intimacy based on the numerical string when the participant information G1 includes the numerical string information indicating the relationship between the participants.
  • the intimacy acquisition unit 190 is a numerical string in which values such as boss intimacy "0.3” and subordinate intimacy “0.2" are set as values representing the relationship between "boss and subordinate”. If it is information, the intimacy may be added and the intimacy information G2 may be set such that the intimacy between the boss and the subordinate is "0.5".
  • the intimacy information G2 includes character string information or numerical information representing the intimacy of the participants.
  • the intimacy acquisition unit 190 provides the intimacy information G2 to the feature amount processing unit 130. Further, the intimacy acquisition unit 190 provides the intimacy information G2 to the second storage unit 160 and updates the estimation reference data C2.
  • step S32 the estimation reference data C2 is updated with reference data information used for estimating the receiver based on the intimacy information G2.
  • the estimation reference data C2 includes threshold information when estimating the receiver by, for example, a combination of the audio feature amount or the image feature amount included in the processed feature amount information D3.
  • the threshold information may be updated according to the intimacy information G2. For example, different threshold values may be set as the threshold value used for estimating the receiver, such as face orientation information or opening degree information indicating the degree of mouth opening, based on the intimacy information G2. Further, when the intimacy is high, a person tends to neglect the movement during conversation, and in that case, the threshold value when using the face orientation information may be set to be lowered.
  • the estimation reference data C2 may represent the reference threshold information or rule as numerical value or character string information, or may be a parameter or model such as a statistical model, SVM or neural network, and the reference data thereof is the parent. Processing or learning may be performed based on the density information G2.
  • step S40 the feature amount processing unit 130 refers to the constraint state information D2, the intimacy information G2, and the constraint reference data C1, selects and processes the feature amount information D1, and outputs it as the processing feature amount information D3. ..
  • the feature amount processing unit 130 uses the intimacy information G2 as the constraint state information in addition to the constraint state information D2, and based on the constraint state reference item acquired with reference to the constraint reference data C1, the feature amount information D1 is arbitrarily selected.
  • the processing feature amount information D3 is generated by selecting or weighting the feature amount information of.
  • An example of acquiring the constraint state reference item from the constraint reference data C1 based on the constraint state information D2 is the same as in the case of FIG.
  • the information may include constraint state items such as running state information, device operation information, seat position information, and intimacy in advance.
  • the running state information is "running”
  • the device operation information is “accelerator”
  • the seat position information is “driver's seat”.
  • the magnitude of the participant's constraint may be set to “large” by matching with the rule as shown in the constraint criterion data C1.
  • the information indicating the intimacy of the participants included in the intimacy information G2 may include the information indicating the degree of intimacy (“high” or “low”) as it is in the constraint state item.
  • the intimacy is represented by numerical information
  • information indicating whether the numerical value is within the specified value range (for example, "0.5 ⁇ intimacy ⁇ 1.0") is used as a constraint state item. May be good.
  • the feature amount information D1 is weighted using the numerical information representing the intimacy included in the intimacy information G2, the same as in the case of FIG. 6 which is an example of acquiring the constraint state reference item from the constraint reference data C1.
  • the weights set in the constraint state reference items of the constraint reference data C1 and 603 may be processed by using the numerical information representing the intimacy. For example, when the weight "0.5" is acquired, the value of the weight may be adjusted by adding, subtracting, multiplying, dividing, or the like the intimacy "0.5" set in the intimacy information G2.
  • ⁇ 4-3 Effect As described above, if the speaker estimation device 400 or 500, the speaker estimation method, and the speaker estimation program according to the fourth embodiment are used, the constrained state of the participants during conversation can be determined. Since the receiver is estimated using the processed feature amount information D3 generated in consideration, the accuracy of the estimation of the receiver can be improved.
  • the intimacy acquisition unit 190 when the behavior associated with the utterance during conversation changes due to the intimacy of the participants, the feature amount used for estimating the receiver can be appropriately selected and processed. This has the effect of improving the accuracy of the speaker's estimation.
  • the feature amount processing unit 130 uses the intimacy information G2 as the constraint state information in addition to the constraint state information D2 and refers to the constraint reference data to perform feature amount selection and processing, the constraint state of the participants can be further adjusted. By setting in detail, there is an effect that an appropriate feature amount can be selected according to the intimacy of the participants.
  • the estimation reference data C2 can be updated based on the intimacy information G2 of the participants, the intimacy of the participants even if the behavior during conversation changes due to the difference in the intimacy of the participants.
  • an appropriate feature amount threshold or model can be used for feature amount extraction or receiver estimation, and there is an effect that the accuracy of the receiver estimation can be improved.
  • the first storage unit 150, the second storage unit 160, and the third storage unit 170 are shown as a part of the receiver estimation device. It may be an external storage device connected to the receiver estimation device or a storage device provided in a server on a network that can be communicated by a communication device provided in the receiver estimation device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Image Analysis (AREA)

Abstract

受話者推定装置(100)は、発話者を含む1人以上の参加者が存在する領域内の状態を示す領域状態情報(A0、A1、A2)から特徴量情報(D1)を生成する特徴量抽出部(120)と、音声による操作を受け付ける対象機器(31)を含む機器(30)の状態を示す機器状態情報(B0、B1、B2)を取得し、第1の記憶部(150)から制約基準データ(C1)を取得し、領域状態情報、機器状態情報、及び制約基準データに基づいて、参加者の行動を制約している状態を示す制約状態情報(D2)を取得する制約状態情報取得部(110)と、制約状態情報及び制約基準データに基づいて特徴量情報から受話者の推定に用いられる1つ以上の特徴量を選択し、1つ以上の特徴量に基づく加工特徴量情報(D3)を生成する特徴量加工部(130)と、加工特徴量情報(D3)に基づいて受話者を推定する受話者推定部(140)とを有する。

Description

受話者推定装置、受話者推定方法、及び受話者推定プログラム
 本発明は、受話者推定装置、受話者推定方法、及び受話者推定プログラムに関する。
 会話の参加者を撮影することで得られた映像情報に基づいて発話者が発する音声の受け手である受話者を推定する技術が提案されている。例えば、特許文献1及び2を参照。これらの技術を用いれば、発話者が発する音声の受話者すなわち発話者が意図する受話者を推定することができる。受話者は、例えば、発話者以外の参加者又は音声操作を受け付けることができる機器である。
特開2017-118364号公報 特開2007-147762号公報
 しかしながら、発話者の行動を制約する状態が存在する場合には、発話者が意図する受話者の推定の精度が低下するという問題がある。ここで、発話者の行動は、例えば、発話者の姿勢及び動作を含む。また、発話者の行動を制約する状態は、例えば、発話者の座席の位置、発話者が機器を操作している状態、発話者が前方を注視している状態、などを含む。
 本発明は、上記従来の課題を解決するためになされたものであり、発話者が発する音声の受話者の推定の精度を向上させることができる受話者推定装置、受話者推定方法、及び受話者推定プログラムを提供することを目的とする。
 本発明の一態様に係る受話者推定装置は、発話者が発する音声の受話者を推定する装置であって、状態取得部によって取得された、前記発話者を含む1人以上の参加者が存在する領域内の状態を示す領域状態情報から前記領域内の状態についての特徴量を抽出することによって、特徴量情報を生成する特徴量抽出部と、音声による操作を受け付ける対象機器を含む機器の状態を示す機器状態情報を取得し、前記領域内において前記参加者の行動を制約する状態を示すデータである制約基準データを予め記憶する第1の記憶部から前記制約基準データを取得し、前記領域状態情報、前記機器状態情報、及び前記制約基準データに基づいて、前記参加者の行動を制約している状態を示す制約状態情報を取得する制約状態情報取得部と、前記制約状態情報及び前記制約基準データに基づいて前記特徴量情報から前記受話者の推定に用いられる1つ以上の特徴量を選択し、前記1つ以上の特徴量に基づく加工特徴量情報を生成する特徴量加工部と、前記加工特徴量情報に基づいて前記受話者を推定する受話者推定部と、を有することを特徴とする。
 本発明の一態様に係る受話者推定方法は、発話者が発する音声の受話者を推定する方法であって、状態取得部によって取得された、前記発話者を含む1人以上の参加者が存在する領域内の状態を示す領域状態情報から前記領域内の状態についての特徴量を抽出することによって、特徴量情報を生成するステップと、音声による操作を受け付ける対象機器を含む機器の状態を示す機器状態情報を取得し、前記領域内において前記参加者の行動を制約する状態を示すデータである制約基準データを予め記憶する第1の記憶部から前記制約基準データを取得し、前記領域状態情報、前記機器状態情報、及び前記制約基準データに基づいて、前記参加者の行動を制約している状態を示す制約状態情報を取得するステップと、前記制約状態情報及び前記制約基準データに基づいて前記特徴量情報から前記受話者の推定に用いられる1つ以上の特徴量を選択し、前記1つ以上の特徴量に基づく加工特徴量情報を生成するステップと、前記加工特徴量情報に基づいて前記受話者を推定するステップと、を有することを特徴とする。
 本発明によれば、発話者が発する音声の受話者の推定の精度を向上させることができる。
本発明の実施の形態1に係る受話者推定システムの構成を概略的に示す図である。 実施の形態1に係る受話者推定装置の構成を概略的に示す機能ブロック図である。 実施の形態1に係る受話者推定装置の制約状態情報取得部の動作の例を示す図である。 実施の形態1に係る受話者推定装置の特徴量抽出部の動作の例を示す図である。 実施の形態1に係る受話者推定装置の特徴量加工部の動作の例を示す図である。 実施の形態1に係る受話者推定装置の特徴量加工部の動作の他の例を示す図である。 実施の形態1に係る受話者推定装置のハードウェア構成の例を示す図である。 実施の形態1に係る受話者推定装置の動作を示すフローチャートである。 実施の形態1に係る受話者推定装置の制約状態情報取得部の動作の例を示す図である。 実施の形態1に係る受話者推定装置の特徴量加工部の動作の例を示す図である。 実施の形態1に係る受話者推定装置の特徴量加工部の動作の他の例を示す図である。 本発明の実施の形態2に係る受話者推定装置の構成を概略的に示す機能ブロック図である。 実施の形態2に係る受話者推定装置の動作を示すフローチャートである。 本発明の実施の形態3に係る受話者推定装置の構成を概略的に示す機能ブロック図である。 実施の形態3に係る受話者推定装置の動作を示すフローチャートである。 本発明の実施の形態4に係る受話者推定装置の構成を概略的に示す機能ブロック図である。 実施の形態4の変形例に係る受話者推定装置の構成を概略的に示す機能ブロック図である。 実施の形態4に係る受話者推定装置の動作を示すフローチャートである。
 以下に、本発明の実施の形態に係る受話者推定装置、受話者推定方法、及び受話者推定プログラムを、図面を参照しながら説明する。以下の実施の形態は、例にすぎず、本発明の範囲内で種々の変更が可能である。
《1》実施の形態1
《1-1》構成
 図1は、実施の形態1に係る受話者推定システムの構成を概略的に示す図である。受話者推定システムは、状態取得部20と、機器30と、入力部40と、受話者推定装置100と、出力部50とを有する。入力部40及び出力部50は、受話者推定装置100の一部であってもよい。入力部40は、信号を受信する入力装置として入力インタフェースである。出力部50は、信号を出力する出力装置として出力インタフェースである。
 受話者推定装置100は、1人以上の会話の参加者のうちのいずれか1人である発話者が発する音声の受話者すなわち発話者が意図する受話者を推定する。参加者は、予め決められた領域10に存在する。会話の参加者は、例えば、複数の参加者11,12,…である。発話者が、音声操作を受け付ける対象機器31に宛てた音声(例えば、音声操作のための音声メッセージ)を発する場合には、会話の参加者は発話者である1名の参加者であってもよい。領域10は、例えば、車両の車室である。参加者は、例えば、車両の運転者と同乗者である。
 状態取得部20は、領域10内の状態を示す領域状態情報A0を取得し、領域状態情報A0を入力部40に送信する。状態取得部20は、例えば、領域10内における音声を取得することによって音声情報A1を生成する音声取得部21と、領域10内の映像を撮影することによって映像情報A2を生成する映像取得部22とを有する。音声取得部21は、例えば、1台以上のマイクを有する。映像取得部22は、例えば、1台以上のカメラを有する。領域状態情報A0は、音声情報A1及び映像情報A2の少なくとも1つを含む情報である。音声情報A1は、参加者である発話者が発する音声(すなわち、発話者の発話)に基づく情報である。映像情報A2は、発話者を含む参加者を撮影することによって取得された動画像又は静止画像の情報である。映像情報A2は、例えば、参加者の発話時における振る舞いを含む動画像又は静止画像の情報である。例えば、映像情報A2は、参加者の顔又は参加者の身体の全体の動作を示す画像の情報である。映像情報A2は、時系列に並ぶ複数フレームの画像から構成される動画像の情報であってもよい。
 機器30は、機器30自身の状態を示す機器情報B0を入力部40に送信する。機器30は、例えば、参加者によって操作される対象機器31と、参加者によって操作される周辺機器32とを有する。対象機器31は、音声による指示に従って動作する音声操作機能を有する機器(「音声対話機器」とも称される。)である。対象機器31は、例えば、車両内に備えられたカーナビゲーションシステムを含む車載機器又は対話型の音声操作に対応したスピーカであるスマートスピーカである。対象機器情報B1は、例えば、カーナビゲーションシステムにおけるGPS(Global Positioning System)情報などの現在地情報、走行経路に関する案内音声情報、などを含んでもよい。対象機器31は、表示画面33を有してもよい。
 周辺機器32は、対象機器31以外の機器である。周辺機器32は、例えば、車両自体である。周辺機器32は、車両の車室などの参加者の会話の場(すなわち、領域10)の周囲に存在する機器である。周辺機器32は、参加者のいずれかによって操作されたときに、参加者の行動を制約する状態が生じ得る機器である。参加者の行動は、例えば、参加者の姿勢及び動作(すなわち、動き)を含む。参加者の行動は、参加者の振る舞いとも称される。また、参加者の行動を制約する状態は、例えば、参加者の座席の位置、参加者が機器30を操作している状態、参加者が前方を注視している状態、などを含む。周辺機器情報B2は、領域10の周囲に存在する周辺機器32の状態を表す情報を少なくとも含む。例えば、周辺機器情報B2は、周辺機器32が自動車であれば車速及びハンドル操作情報を含むCAN(Controller Area Network)情報、走行状態を示す走行状態情報、などを含む。走行状態情報は、車両が走行中である状態、車両が停車中である状態、などを含む。
 対象機器31は、対象機器31自身の状態を示す対象機器情報B1を入力部40に送信する。周辺機器32は、周辺機器32自身の状態を示す周辺機器情報B2を入力部40に送信する。機器情報B0は、対象機器情報B1及び周辺機器情報B2の少なくとも1つを含む情報である。
 受話者推定装置100は、機器情報B0、領域状態情報A0、及び予め記憶された各種の基準データ(後述の図2に示されるC1、C2)に基づいて、発話者が意図する受話者を推定し、推定された受話者を示す情報を含む推定結果情報D4を出力する。受話者推定装置100は、受話者の推定に用いられる加工特徴量情報(後述の図2に示されるD3)の取得のために、参加者の行動を制約する制約状態項目を含む制約状態情報(後述の図2に示されるD2)を考慮に入れる。つまり、制約状態情報は、複数の制約状態項目を含む。制約状態項目は、例えば、発話者の座席の位置、発話者が機器30を操作している状態、発話者が前方を注視している状態、などを含む。図1の例では、受話者は、参加者のうちの発話者以外の参加者又は対象機器31である。
 出力部50は、推定結果情報D4に基づく出力情報D5を出力する。例えば、受話者が対象機器31であると推定された場合、出力部50は、対象機器31に、受話者が対象機器31であることを示す出力情報D5を送信する。出力情報D5を受信した対象機器31は、発話者が発する音声が自己に対する音声操作であると判断し、音声操作に従って動作することができる。一方、対象機器31は、受話者が対象機器31であることを示す出力情報D5を受信しない場合又は受話者が対象機器31でないことを示す出力情報D5を受信した場合には、発話者が発する音声が自己に対する音声操作ではないと判断することができる。
 図2は、実施の形態1に係る受話者推定装置100の構成を概略的に示す機能ブロック図である。受話者推定装置100は、実施の形態1に係る受話者推定方法を実施することができる装置である。図2に示されるように、受話者推定装置100は、制約状態情報取得部110と、制約基準データC1を記憶する第1の記憶部150と、特徴量抽出部120と、特徴量加工部130と、受話者推定部140と、推定基準データC2を記憶する第2の記憶部160とを有する。受話者推定装置100は、入力部40を介して受け取った機器情報B0及び領域状態情報A0と、予め記憶された各種の基準データである制約基準データC1及び推定基準データC2とに基づいて受話者を推定するための処理を行い、推定の結果を示す推定結果情報D4を出力する。出力部50は、推定結果情報D4に基づく出力情報D5を出力する。第1の記憶部150と第2の記憶部160とは、互いに異なる記憶装置であってもよい。第1の記憶部150と第2の記憶部160とは、同じ記憶装置の中の互いに異なる記憶領域であってもよい。
 次に、各構成を詳細に説明する。入力部40は、機器情報B0及び領域状態情報A0を入力情報として受信する。機器情報B0及び領域状態情報A0は、受話者推定装置100に提供される。機器情報B0は、対象機器情報B1、又は周辺機器情報B2、又はこれらの両方を含む。領域状態情報A0は、音声情報A1、又は映像情報A2、又はこれらの両方を含む。入力部40は、受信された機器情報B0及び領域状態情報A0を、制約状態情報取得部110に提供する。また、入力部40は、領域状態情報A0を特徴量抽出部120に提供する。
 制約状態情報取得部110は、受話者の発話時に、機器情報B0及び領域状態情報A0を入力部40から受け取る。また、制約状態情報取得部110は、制約基準データC1を参照する。制約状態情報取得部110は、参加者の行動を制約する制約状態を示す制約状態情報D2を取得(すなわち、生成)する。制約状態情報取得部110は、取得された制約状態情報D2を、特徴量加工部130に提供する。制約状態情報D2は、例えば、発話者の姿勢の制約、周囲状況による発話者の動きの制約、などの発話者の行動の制約を示す情報を含む。制約状態情報D2は、例えば、文字列情報、数値情報、などで表現される。
 図3は、受話者推定装置100の制約状態情報取得部110の動作の例を示す図である。図3は、第1の記憶部150に記憶されている制約基準データC1の例と制約状態情報取得部110によって生成される制約状態情報D2の例とを表形式で示している。図3に示される制約基準データC1は、制約条件R_1からR_mとして示される、制約状態基準項目を含んでいる。mは、正の整数である。図3の例では、制約基準データC1は、制約の大きさ(すなわち、制約の程度)を示す情報を含んでいる。制約条件R_1からR_mとして示される制約状態基準項目の各々は、走行状態情報、周辺機器32の操作状態である機器操作情報、発話者の座席の位置である席位置情報、などを含んでいる。ただし、制約基準データC1は、図3の例に限定されない。
 制約状態情報取得部110は、機器情報B0、領域状態情報A0、及び制約基準データC1に基づいて制約状態情報D2を生成する。図3に示される制約状態情報D2は、時系列順に並ぶフレーム番号t_1からt_nのn個のフレームの各々における制約状態項目を含んでいる。制約状態情報取得部110は、制約状態情報D2を特徴量加工部130に提供する。また、制約状態情報D2は、発話時における受話者の候補である参加者に関する項目を含んでもよい。制約状態情報取得部110は、生成される制約状態情報D2に含まれる複数のフレームの各々における制約状態項目の種類を予め定めていてもよい。制約状態情報取得部110は、制約基準データC1に含まれる制約状態項目として、例えば、走行状態情報、機器操作情報、席位置情報、などを設定する。
 例えば、参加者が存在する領域10が車内である場合、制約状態情報取得部110は、生成される制約状態情報D2に含まれる制約状態項目を、周辺機器情報B2に基づいて車両の走行状態情報、周辺機器32の機器操作情報、参加者の席位置情報、などに設定することができる。車両の走行状態情報は、車両が走行中である走行状態情報であるか車両が停止している停止状態であるか、を含む。機器操作情報は、例えば、周辺機器32としての車両のハンドルによる右折操作、左折操作、などを含む。制約状態情報取得部110は、生成される制約状態情報D2に含まれる制約状態項目として、映像情報A2に基づいて、発話者及び発話者以外の参加者の席位置情報を含めることができる。席位置情報は、例えば、車両の運転席、助手席、後部座席、などである。
 図3に示されるように、制約基準データC1は、制約状態を表す情報と、各制約状態の組み合わせのパターンと、そのパターン毎に制約の大きさを定めた情報と、で構成された複数の制約状態基準項目を含むデータベースである。制約基準データC1は、例えば、図3に示されるように、制約状態を表す複数列の情報と、制約状態の組み合わせによって決定される制約の大きさを定めた情報と、を互いに対応付けた複数の制約状態基準項目で構成される。複数の制約状態基準項目には、識別記号として制約条件R_1からR_mが付される。制約状態情報取得部110は、制約基準データC1から取得する制約状態基準項目として、例えば、図3に示される制約基準データC1で定義された各列の制約状態(例えば、走行状態情報、機器操作情報、席位置情報、など)を取得する。
 特徴量抽出部120は、入力部40から領域状態情報A0を受け取る。つまり、特徴量抽出部120は、入力部40から音声情報A1及び映像情報A2のうちの少なくとも1つを受け取る。特徴量抽出部120は、発話者が意図する受話者の推定に用いられる1つ以上の特徴量を抽出することによって、特徴量情報D1を生成する。特徴量抽出部120は、特徴量情報D1を特徴量加工部130に提供する。
 図4は、実施の形態1に係る受話者推定装置100の特徴量抽出部120の動作の例を示す図である。図4は、特徴量抽出部120によって生成される特徴量情報D1の例を表形式で示している。特徴量情報D1は、音の基本周波数成分(すなわち、ピッチ)、音圧(すなわち、パワー)、音のスペクトル、などの音声特徴量を含むことができる。特徴量情報D1は、参加者の顔向き、視線方向、口の開き度合を示す開口度などの画像特徴量を含むことができる。図4に示されるように、特徴量情報D1は、時系列に対応するフレームt_1からt_n毎に抽出された音声特徴量及び画像特徴量を表形式で示している。また、特徴量情報D1は、受話者の候補である参加者の発話単位での音声情報A1の平均値又は分散などの統計値を含んでもよい。発話単位とは、同じ発話者による1回の発話の開始から終了までに対応する。特徴量情報D1は、音声情報A1から抽出された音声特徴量及び映像情報A2から抽出された画像特徴量の少なくとも1つの特徴量を表す文字列情報、数値情報、などを含んでもよい。特徴量抽出部120は、音声情報A1及び映像情報A2から抽出される特徴量の種類として、図4の例に示される種類以外の種類の特徴量を設定してもよい。
 特徴量加工部130は、制約状態情報D2及び制約基準データC1に基づいて特徴量情報D1から受話者の推定に用いられる1つ以上の特徴量を選択し、選択された1つ以上の特徴量に基づく加工特徴量情報D3を生成する。特徴量加工部130は、加工特徴量情報D3を受話者推定部140に提供する。
 図5は、受話者推定装置100の特徴量加工部130の動作の例を示す図である。特徴量加工部130は、制約状態情報D2及び制約基準データC1に基づいて特徴量情報D1から1つ以上の特徴量を選択し、選択された1つ以上の特徴量を加工特徴量情報D3とする。図5に示されるように、特徴量加工部130は、制約状態情報D2に基づいて、制約基準データC1から参照する情報である制約条件R_1からR_mのいずれかで示される制約状態基準項目を取得する。図5の例では、制約状態情報D2は、走行状態情報、機器操作情報、席位置情報、などを示す制約状態項目を含む。特徴量加工部130は、制約状態情報D2及び制約基準データC1に基づいて、参加者の制約の大きさを「大」と設定する加工特徴量情報D3(後述する図10に示される)を生成する。特徴量加工部130は、加工特徴量情報D3として設定される制約状態基準項目を予め定めておいてもよい。また、特徴量加工部130は、「制約の大きさ」を表す情報に応じて特徴量の選択及び加工を行ってもよい。また、特徴量加工部130は、加工などの処理を行う特徴量を示す情報を制約状態基準項目ごとに定めてもよい。
 図6は、受話者推定装置100の特徴量加工部130の動作の他の例を示す図である。特徴量加工部130は、制約状態情報D2及び制約基準データC1に基づいて得られた制約状態に基づいて特徴量情報D1から1つ以上の特徴量を選択し、選択された1つ以上の特徴量の各々に重み付けを行うことによって加工特徴量情報D3を生成してもよい。図6は、制約状態情報D2に基づいて制約基準データC1から取得する制約状態基準項目の例を示す。図6に示されるように、特徴量加工部130は、制約状態情報D2に基づいて、制約基準データC1から参照する情報である制約条件R_1からR_mのいずれかで示される制約状態基準項目を取得する。特徴量加工部130は、制約状態情報D2及び制約基準データC1に基づいて、参加者の制約の大きさを「大」、重みを「0.5」と設定する加工特徴量情報D3(後述する図11に示される)を生成する。特徴量加工部130は、加工特徴量情報D3として設定される制約状態基準項目を予め定めておいてもよい。また、特徴量加工部130は、「制約の大きさ」及び制約の「重み」を表す情報に応じて特徴量の選択及び加工を行ってもよい。また、特徴量加工部130は、加工などの処理を行う特徴量を示す情報を制約状態基準項目ごとに定めてもよい。設定された重みは、特徴量を表す値を加工するために用いられる値であればよい。設定された重みは、受話者を推定する際に用いられる統計モデル、SVM(サポートベクターマシン)又はニューラルネットワークなどの識別器のパラメータ又はネットワーク情報などに用いる値であってもよい。
 受話者推定部140は、加工特徴量情報D3を受け取り、推定基準データC2を参照し、加工特徴量情報D3及び推定基準データC2に基づいて受話者を推定した結果を示す推定結果情報D4を出力部50に提供する。
 加工特徴量情報D3は、受話者の推定の対象となる発話に伴う音声特徴量又は画像特徴量を表す値の少なくとも1つを含む。推定基準データC2は、参加者の発話時における発話内容、顔向き又は視線方向などの加工特徴量情報D3の組み合わせによる受話者の推定のルールが予め定められた基準データを含む。また、加工特徴量情報D3を基に受話者を推定するための、統計モデル、SVM又はニューラルネットワークなどのパラメータ又はモデルであればよい。
 出力部50は、推定結果情報D4に基づく、受話者の推定の結果を示す出力情報D5を出力する。
 推定結果情報D4は、例えば、受話者が参加者のうちのいずれであるかを示す文字列情報又は数値情報を含む。また、推定結果情報D4は、参加者のうちのいずれかが受話者であることを示す確率を表現した数値情報などであってもよい。出力情報D5は、推定結果情報D4を基に、例えば、受話者の推定の結果を示す情報を表した文字列情報又は数値情報、又は受話者を示す画像などの情報である。また、出力情報D5は、参加者のうちのいずれかが受話者であることを示す確率を表した数値情報を含んでもよい。
 図7は、実施の形態1に係る受話者推定装置100のハードウェア構成の例を示す図である。受話者推定装置100は、例えば、ソフトウェアとしてのプログラム、すなわち、実施の形態1に係る受話者推定プログラムを格納する記憶装置としてのメモリ202と、メモリ202に格納されたプログラムを実行する情報処理部としてのプロセッサ201とを備える。受話者推定装置100は、汎用のコンピュータであってもよい。プロセッサ201は、演算装置である。演算装置は、CPU(Centaral Processiong Unit)を有する。演算装置は、CPUに加えてGPU(Graphics Processing Unit)を有してもよい。演算装置は、時刻情報を提供する時刻提供機能を備えてもよい。
 受話者推定プログラムは、情報を記憶する記憶媒体から媒体読取装置(図示せず)を介して又はインターネットなどに接続可能な通信インタフェース(図示せず)を介してメモリ202に格納される。また、受話者推定装置100は、データベースなどの各種情報を格納する記憶装置であるストレージ203を有してもよい。ストレージ203は、通信インタフェース(図示せず)を介して接続可能なクラウド上に存在する記憶装置であってもよい。プロセッサ201は、種々のプログラムをストレージ203から読み込んで、メモリ202を作業エリアとしてプログラムを実行する。また、受話者推定装置100は、画像を表示するディスプレイを有してもよい。
 図2に示される制約状態情報取得部110、特徴量抽出部120、特徴量加工部130、及び受話者推定部140は、メモリ202に格納されているプログラムを実行するプロセッサ201によって実現されることができる。また、図2に示される各構成の一部を、メモリ202に格納されているプログラムを実行するプロセッサ201によって実現してもよい。また、図2に示される第1の記憶部150及び第2の記憶部160は、ストレージ203の一部であってもよい。
 入力装置である入力インタフェース204は、図2に示される入力部40である。出力装置である出力インタフェース205は、図2に示される出力部50である。
 なお、図2に示される入力部40、制約状態情報取得部110、特徴量抽出部120、特徴量加工部130、受話者推定部140、及び出力部50の全体又は一部は、電気回路によって実現されてもよい。
《1-2》動作
 次に、実施の形態1に係る受話者推定装置100の動作を説明する。図8は、受話者推定装置100の動作を示すフローチャートである。
(ステップS10)
 ステップS10において、入力部40は、機器情報B0及び領域状態情報A0を受信する。すなわち、入力部40は、対象機器情報B1及び周辺機器情報B2の少なくとも1つと、音声情報A1及び映像情報A2の少なくとも1つを受信する。
(ステップS20)
 ステップS20において、制約状態情報取得部110は、機器情報B0、領域状態情報A0、及び制約基準データC1に基づいて制約状態情報D2を取得(すなわち、生成)する。
 制約状態情報取得部110は、予め定められた制約状態項目(例えば、図3の制約状態情報D2における走行状態情報、機器操作情報、席位置情報、など)に基づいて、対象機器情報B1、周辺機器情報B2、音声情報A1、及び映像情報A2、から該当する制約状態項目を取得することによって制約状態情報D2を生成する。また、制約状態情報取得部110は、制約基準データC1を参照し、制約基準データC1から、予め定められた制約状態項目に対応する情報を抽出することによって制約状態情報D2を生成してもよい。
 例えば、受話者推定装置100が車内における参加者の会話の受話者を推定する場合、制約状態情報取得部110は、図3に示される制約基準データC1から、制約状態である走行状態情報、機器操作情報、席位置情報、などを取得する。制約状態情報取得部110は、取得した制約状態に対応する制約状態として、周辺機器情報B2から車両の走行状態情報(例えば、走行、停止)又は機器操作情報(例えば、ハンドル操作、アクセル操作、ウィンカー操作)、映像情報A2から車両内における参加者の席位置情報(例えば、運転席、助手席)などを取得する。制約状態情報取得部110は、取得した制約状態を示す情報を、図3に示されるように、時系列に並ぶフレーム毎の情報として提供する。
 図9は、受話者推定装置100の制約状態情報取得部110の動作の例を示す図である。図9は、制約状態情報取得部110が、周辺機器情報B2と映像情報A2とから制約状態情報D2を生成する例を示している。図9に示されるように、制約状態情報取得部110は、時系列に並ぶ情報である周辺機器情報B2及び映像情報A2から制約状態項目を抽出することで、制約状態情報D2を生成する。また、図9では、制約状態情報取得部110は、時系列に並ぶフレーム毎に制約状態情報D2を生成しているが、受話者の推定の対象となる発話単位で制約状態情報D2を生成してもよい。この場合、制約状態情報取得部110は、制約状態情報に含まれる値として、発話単位における統計値(例えば、平均値、最大値、代表値など)を用いてもよい。
(ステップS30)
 ステップS30において、特徴量抽出部120は、領域状態情報A0から特徴量を抽出することによって特徴量情報D1を生成する。すなわち、特徴量抽出部120は、音声情報A1及び映像情報A2の少なくとも1つから特徴量を抽出することによって特徴量情報D1を生成する。
 例えば、特徴量抽出部120は、音声情報A1から、音のピッチ、パワー、スペクトルなどの音声特徴量を抽出する。また、特徴量抽出部120は、映像情報A2から、参加者の顔向き、視線方向、口の開き度合である開口度、などの画像特徴量を抽出する。映像情報A2から画像特徴量を抽出する手法としては、公知の方法を使用することができる。特徴量抽出部120は、抽出した特徴量を、図4に示されるように時系列に対応するフレーム毎に格納することによって、特徴量情報D1を生成してもよい。また、図4では、特徴量抽出部120は、時系列に並ぶフレーム毎に特徴量を抽出しているが、受話者の推定の対象となる発話単位で特徴量を抽出してもよい。この場合、特徴量抽出部120は、特徴量情報D1に含まれる値として、各発話単位における統計値(例えば、平均値、最大値、代表値など)を用いてもよい。
(ステップS40)
 ステップS40において、特徴量加工部130は、制約状態情報D2及び制約基準データC1を用いて、特徴量情報D1から加工特徴量情報D3を生成する。
 図10は、受話者推定装置100の特徴量加工部130の動作の例を示す図である。図10に示されるように、特徴量加工部130は、制約状態情報D2と、制約基準データC1から得られた制約状態基準項目とに基づいて、特徴量情報D1のうちの所望の情報を選択することによって加工特徴量情報D3を生成する。図10の例では、特徴量加工部130は、制約状態情報D2から走行状態情報、機器操作情報、席位置情報、などを含む制約状態項目を参照し、これらの制約状態項目に対応する、制約基準データC1の制約状態基準項目を取得する。例えば、特徴量加工部130は、走行状態情報が「走行」であり、機器操作情報が「アクセル」であり、席位置情報が「運転席」である制約状態基準項目における参加者の制約の大きさを「大」に設定する。制約の大きさが「大」である場合には、運転者の顔向きなどの身体動作が抑制されるので、特徴量加工部130は、特徴量情報D1から、画像特徴量の「顔向き」の列の情報を削除することによって、加工特徴量情報D3を生成する。また、特徴量加工部130は、制約状態基準項目に応じて選択又は加工される特徴量を予め定めておき、制約の大きさに応じて、特徴量の選定又は加工の方法を決定してもよい。また、特徴量加工部130は、選定される特徴量を制約状態基準項目ごとに予め定めておいてもよい。
 図11は、受話者推定装置100の特徴量加工部130の動作の他の例を示す図である。図11に示されるように、特徴量加工部130は、制約状態情報D2と、制約基準データC1とから得られた制約状態基準項目とに基づいて、特徴量情報D1のうちの所望の情報を選択し、重み付けすることによって加工特徴量情報D3を生成する。図11の例では、特徴量加工部130は、制約状態情報D2から走行状態情報、機器操作情報、席位置情報、などの制約状態項目を参照し、これらの制約状態項目に対応する、制約基準データC1の制約状態基準項目を取得する。例えば、特徴量加工部130は、走行状態情報が「走行」であり、機器操作情報が「アクセル」であり、席位置情報が「運転席」である制約状態基準項目における参加者の制約の大きさを「大」、重みを「0.5」に設定する。制約の大きさが「大」、重みが「0.5」である場合には、特徴量加工部130は、制約の大きさと重みに基づいて、特徴量情報D1における画像特徴量の「顔向き」の列の情報に重みを設定することによって、加工特徴量情報D3を生成する。また、特徴量加工部130は、制約状態基準項目に応じて重み付けされる特徴量を予め定めておき、制約の大きさ及び重みに応じて、特徴量の選定又は重み付け処理の方法を決定してもよい。また、特徴量加工部130は、重み付けされる特徴量を制約状態基準項目ごとに予め定めておいてもよい。特徴量加工部130は、設定された重みを、特徴量を表す値を加工するために用いてもよい。また、特徴量加工部130は、設定された重みを、受話者を推定する際に用いる統計モデル又はSVM又はニューラルネットワークなどの識別器のパラメータ又はネットワーク情報などに用いてもよい。
(ステップS50)
 ステップS50において、受話者推定部140は、推定基準データC2を参照して、加工特徴量情報D3から受話者を推定し、推定の結果を示す推定結果情報D4を出力する。つまり、受話者推定部140は、受話者の推定の対象となる発話に伴う音声特徴量又は画像特徴量を少なくとも1つを含む加工特徴量情報D3を受け取り、加工特徴量情報D3と推定基準データC2とに基づいて、受話者を推定する。ただし、受話者推定部140は、推定基準データC2を用いないで、加工特徴量情報D3から受話者を推定してもよい。
 推定基準データC2は、例えば、参加者の発話時における、発話内容を示す情報、参加者の顔向き、参加者の視線方向、などの加工特徴量情報D3の項目の組み合わせによる受話者の推定のルールが予め定められたデータである、受話者推定部140は、加工特徴量情報D3及び推定基準データC2に基づいて受話者を推定することができる。例えば、受話者推定部140は、参加者による受話者の推定の対象となる発話に、参加者の中の任意の人又はモノを示す情報が含まれている場合、その対象を受話者と推定してもよい。また、受話者推定部140は、特徴量毎に受話者を識別するための閾値を設けておき、閾値に基づいて受話者を推定してもよい。また、受話者推定部140は、加工特徴量情報D3を受け取り、統計モデル、SVM又はニューラルネットワークなどによりモデルを学習して推定基準データC2とし、受話者を推定してもよい。また、受話者推定部140は、その他の公知の受話者、聞き手、発話の受け手などの推定、判定、識別、検出手法を用いて受話者を推定してもよい。
 推定結果情報D4は、発話に対する受話者が参加者のうちのいずれかであるかを示す文字列情報、数値情報、参加者の各々が受話者である確率を示す数値情報、などであってもよい。受話者推定部140は、推定結果情報D4を出力部50に提供する。
(ステップS60)
 ステップS60において、出力部50は、推定結果情報D4に基づく出力情報D5を出力する。出力部50は、推定結果情報D4に基づく文字列情報、数値情報、受話者を示す画像、などを出力情報D5として出力する。また、出力部50は、参加者の各々が受話者である確率を示す数値情報を出力情報D5として出力してもよい。
《1-3》効果
 以上に説明したように、実施の形態1に係る受話者推定装置100、受話者推定方法、及び受話者推定プログラムを用いれば、会話時における参加者の制約状態を考慮に入れて生成された加工特徴量情報D3を用いて受話者が推定されるので、受話者の推定の精度を向上させることができる。例えば、図10又は図11に示されるように、制約状態情報D2に応じて受話者の推定に用いられる加工特徴量情報D3を設定するので、受話者の推定の精度を向上させることができる。
《2》実施の形態2
《2-1》構成
 図12は、実施の形態2に係る受話者推定装置200の構成を概略的に示す機能ブロック図である。受話者推定装置200は、実施の形態2に係る受話者推定方法を実施することができる装置である。図12において、図2に示される構成要素と同一又は対応する構成要素には、図2に示される符号と同じ符号が付される。実施の形態2に係る受話者推定装置200は、特徴量抽出部120が、特徴量としての要件を示すデータである特徴量基準データC3を予め記憶する第3の記憶部170から特徴量基準データC3を取得し、取得された特徴量基準データC3によって示される特徴量としての要件を満たす特徴量を領域状態情報A0から抽出することによって特徴量情報D1を生成する点において、実施の形態1に係る受話者推定装置100と相違する。他の点に関して、実施の形態2に係る受話者推定装置200は、実施の形態1に係る受話者推定装置100と同じである。
 実施の形態2において、制約状態情報取得部110は、制約状態情報D2に基づいて特徴量基準データC3を更新する。特徴量基準データC3は、例えば、音声情報A1から音声特徴量を抽出する際又は映像情報A2から画像特徴量を抽出する際に用いられる閾値を示す閾値情報を含む。閾値情報は、第3の記憶部170に入力される制約状態情報D2に応じて更新される。この更新の処理は、例えば、制約状態情報取得部110によって行われる。特徴量抽出部120は、制約状態情報D2に基づいて、顔向き情報又は口の開き度合を示す開口度情報などを画像特徴量として抽出する際に、異なる閾値を用いてもよい。
 例えば、受話者推定装置200が車内における参加者の会話の受話者を推定する場合、運転者は、通常の直進走行時には、前方の路面又は先行車などの前方とその周囲の状況に意識を集中することが必要である(すなわち、制約の度合いが大きい)。このため、運転者が発話者である場合、運転者による顔向きの動作は、最小限である。また、運転者が、助手席などにいる他の参加者に話しかける際には、運転者は、受話者に対して一瞬顔を向ける程度であり、顔を受話者に大きく向けることはない。しかし、信号機などの指示にしたがって車両が停車しているときには、運転者による前方とその周囲の状況への注意の程度は低い(すなわち、制約の程度は小さい)。このため、発話者は、受話者に対しては通常走行時の場合より、顔を受話者に大きく向けることが多い。この際、特徴量抽出部120は、画像特徴量として顔向き情報を「左」又は「右」、席位置情報を「助手席」又は「後部座席」などの顔向き対象を表す情報として抽出する場合、直進走行時と停車時とで同様の閾値を用いると、顔向き情報を誤って抽出する場合がある。そこで、特徴量基準データC3に含まれる閾値などの基準データを、制約状態情報D2に含まれる「走行」、「停車」などの走行状態情報又は「右左折」などの機器操作情報に基づいて変更できるようにすることで、特徴量抽出部120は、参加者の状況に応じて適切に特徴量を抽出することができる。
 特徴量基準データC3は、特徴量を抽出する際の基準となる閾値情報を数値情報で表したものでもよい。また、特徴量基準データC3は、特徴量抽出モデルのパラメータを表す情報であってもよく、特徴量抽出モデルを制約状態情報D2に応じて学習したものでもよい。
 特徴量抽出部120は、音声情報A1又は映像情報A2のいずれか1つを受け取り、特徴量基準データC3を参照して特徴量を抽出することによって、受話者の推定に用いる特徴量情報D1を生成する。特徴量抽出部120は、特徴量情報D1を、特徴量加工部130に提供する。
 特徴量基準データC3は、例えば、音声特徴量又は画像特徴量を抽出する際の閾値情報を含むように構成されてもよい。特徴量抽出部120は、この閾値に基づいて特徴量を抽出して、特徴量情報D1を生成してもよい。また、特徴量基準データC3は、特徴量抽出モデルのパラメータを表す情報又は特徴量抽出モデルそのものであってもよい。また、特徴量抽出部120は、特徴量基準データC3におけるパラメータ情報又は特徴量抽出モデルに基づいて特徴量を抽出することによって特徴量情報D1を生成してもよい。
 制約状態情報取得部110は、制約状態情報D2に基づいて、受話者の推定に用いる推定基準データC2を更新する。
 推定基準データC2は、例えば、参加者の発話時における発話内容、参加者の顔向き、参加者の視線方向、などの加工特徴量情報D3に含まれる音声特徴量又は画像特徴量の組み合わせにより、受話者の推定を行う際の閾値情報を含むように構成される。推定基準データC2における閾値情報は、制約状態情報D2に応じて変更されるように構成されてもよい。受話者推定部140は、例えば、制約状態情報D2に基づいて(すなわち、制約が大きいか小さいかに応じて)、推定基準データC2における参加者の顔向き情報又は参加者の口の開き度合を示す開口度情報について、異なる閾値を用いてもよい。
 例えば、受話者推定装置200が車内における参加者の会話の受話者を推定する場合、運転者は、通常の直進走行時には、前方の路面又は先行車などの前方とその周囲の状況に意識を集中する必要があり、顔向きの動作は最小限である。そのため、助手席などの他の参加者に話しかける際も、受話者に対しては一瞬顔を向ける程度であり、あまり顔を受話者に大きく向けることはない。しかし、停車時には、前方とその周囲の状況への注意の程度が低くなり、発話者は、会話の受話者に対しては通常走行時と比較し大きく顔を向ける場合がある。この際、画像特徴量である顔向き情報を「左」又は「右」、席位置情報を「助手席」又は「後部座席」などの顔向き対象を表す情報に変換し受話者の推定で使用する場合、通常の直進走行時と停車時で同様の閾値を用いると、受話者を誤って推定する場合がある。そこで、推定基準データC2に含まれる閾値などの基準データを、制約状態情報D2に含まれる「走行」、「停車」などの走行状態情報又は「右左折」などの機器操作情報に基づいて変更できるようにすることで、参加者の状況に応じた受話者の推定が行える。推定基準データC2は、加工特徴量情報D3を基に受話者を推定するための、基準となる閾値情報又はルールを数値又は文字列情報で表したものでもよいし、統計モデル、SVM又はニューラルネットワークなどのパラメータ又はモデルであってもよく、モデルは、制約状態情報D2に応じて学習したものでもよい。
 図12に示される制約状態情報取得部110、特徴量抽出部120、特徴量加工部130、及び受話者推定部140は、図7に示されるメモリ202に格納されているプログラムを実行するプロセッサ201によって実現されることができる。また、図2に示される各構成の一部を、メモリ202に格納されているプログラムを実行するプロセッサ201によって実現してもよい。また、図12に示される第1の記憶部150、第2の記憶部160及び第3の記憶部170は、ストレージ203の一部であってもよい。
 なお、図12に示される入力部40、制約状態情報取得部110、特徴量抽出部120、特徴量加工部130、受話者推定部140、及び出力部50の全体又は一部は、電気回路によって実現されてもよい。
《2-2》動作
 次に、実施の形態2の受話者推定装置の動作を説明する。図13は、受話者推定装置200の動作を示すフローチャートである。図13において、図8に示される処理ステップと同一又は対応する処理ステップには、図8に示される符号と同じ符号が付される。
 (ステップS21)
 ステップS21において、制約状態情報取得部110は、特徴量基準データC3を、制約状態情報D2を参照して更新する。
 特徴量基準データC3は、音声情報A1、映像情報A2から音声特徴量又は画像特徴量を抽出する際の閾値情報又は特徴量抽出モデルのパラメータを表す情報又は特徴量抽出モデルそのものを含むように構成してもよく、閾値情報又はパラメータ情報又は特徴量抽出モデルは、制約状態情報D2に応じて変更することができるようにしてもよい。例えば、顔向き情報又は口の開き度合を示す開口度情報などを画像特徴量として抽出する際に、制約状態情報D2が示す制約の大きさ又は種類に応じて、閾値情報又はパラメータ情報が更新されてもよい。
(ステップS30)
 ステップS30において、特徴量抽出部120は、音声情報A1又は映像情報A2のいずれか1つを受け取り、特徴量基準データC3を参照して、特徴量を抽出することによって特徴量情報D1を生成する。
 特徴量抽出部120は、音声情報A1から音のピッチ、パワー、スペクトル、などの音声特徴量を抽出する。特徴量抽出部120は、映像情報A2から顔向き、視線方向、口の開き度合を示す開口度、などの画像特徴量を抽出する。音声特徴量、及び画像特徴量などの特徴量情報D1は、公知の特徴量抽出手法を用いて抽出されてもよい。また、特徴量抽出部120は、抽出の際に、特徴量基準データを参照し、特徴量抽出に伴う閾値情報又は特徴量抽出モデルのパラメータ情報又は特徴量抽出モデルそのものを用いてもよい。
 特徴量抽出部120は、特徴量情報D1を、図4に示されるように、時系列に対応するフレーム毎に格納した形式で生成し、提供してもよく、また、特徴量の時系列情報の他、受話者の候補である参加者の発話単位での平均値又は分散などの統計値として提供してもよい。特徴量情報D1は、音声情報A1から抽出された音声特徴量、及び映像情報A2から抽出された画像特徴量から少なくとも1つの特徴量を表す文字列情報又は数値情報を含む情報であればよい。
(ステップS41)
 ステップS41において、推定基準データC2は、制約状態情報D2を参照し、受話者の推定に用いる基準データを更新する。
 推定基準データC2は、例えば、参加者の発話時における発話内容又は顔向き、視線方向などの加工特徴量情報D3に含まれる音声特徴量又は画像特徴量の組み合わせ、受話者の推定を行う際の閾値情報、受話者の推定モデルのパラメータ情報、受話者の推定モデルを含んでもよい。推定基準データC2は、制約状態情報D2に応じて、閾値情報などが更新されてもよい。例えば、制約状態情報D2は、顔向き情報又は口の開き度合を示す開口度情報などを受話者の推定に用いる際に、制約の程度の大きさに応じて、異なる閾値を有してもよい。推定基準データC2は、加工特徴量情報D3を基に受話者を推定するための、基準となる閾値情報又はルールを数値又は文字列情報で表したものでもよいし、統計モデル、SVM又はニューラルネットワークなどのパラメータ又はモデルであってもよい。モデルは、制約状態情報D2に応じて学習したものであってもよい。
《2-3》効果
 以上に説明したように、実施の形態2に係る受話者推定装置200、受話者推定方法、及び受話者推定プログラムを用いれば、会話時における参加者の制約状態を考慮に入れて生成された加工特徴量情報D3を用いて受話者が推定されるので、受話者の推定の精度を向上させることができる。
 また、特徴量抽出部120は、予め記憶された特徴量基準データC3を用いて特徴量を抽出するので、適切な特徴量情報D1を生成することができる。さらに、特徴量基準データC3は、制約状態情報D2に基づいて更新されるので、特徴量抽出部120は、より適切な特徴量情報を生成することができる。
 また、特徴量基準データC3は、制約状態情報D2に基づいて特徴量抽出時の基準値を定められるようにしたので、参加者の周囲状況などに応じて特徴量抽出に用いる閾値又はモデルを適切に変更、調整、更新、学習することができるという効果がある。
 また、制約基準データC1は、制約状態情報D2に基づいて受話者の推定時の基準値を定められるようにしたので、受話者の候補である参加者の周囲状況などに応じて、受話者の推定に用いる特徴量の閾値又はモデルを適切に変更、調整、更新、学習することができるという効果がある。
《3》実施の形態3
《3-1》構成
 図14は、実施の形態3に係る受話者推定装置300の構成を概略的に示す機能ブロック図である。受話者推定装置300は、実施の形態3に係る受話者推定方法を実施することができる装置である。図14において、図2に示される構成要素と同一又は対応する構成要素には、図2に示される符号と同じ符号が付される。実施の形態3に係る受話者推定装置300は、機器情報B0に基づいて対象機器31が表示画面を有するか否かを示す画面有無情報F1を取得する画面有無情報取得部180をさらに有し、特徴量加工部130が制約状態情報D2、制約基準データC1、及び画面有無情報F1に基づいて加工特徴量情報D3を生成する点において、実施の形態1に係る受話者推定装置100と相違する。他の点に関して、実施の形態3に係る受話者推定装置300は、実施の形態1に係る受話者推定装置100と同じである。
 画面有無情報取得部180は、機器情報B0のうちの対象機器情報B1に基づいて画面有無情報F1を取得する。対象機器31は、例えば、カーナビゲーションシステム又はスマートスピーカなどである。画面有無情報取得部180は、対象機器情報B1に含まれる基本スペック情報又は対象機器31に備えられるユーザ操作部(例えば、タッチパネル)による入力情報などに基づいて対象機器31が表示画面(例えば、図1に示される表示画面33)を有するか否かを判別し、判別の結果を示す画面有無情報F1を生成する。
 特徴量加工部130は、制約状態情報D2、特徴量情報D1、及び画面有無情報F1を受け取り、制約基準データC1を参照し、特徴量情報D1から受話者の推定に用いる特徴量を選択し、又は選択及び加工する。特徴量加工部130は、加工特徴量情報D3を受話者推定部140に提供する。
 受話者推定装置300が車内における参加者の会話の受話者を推定する場合、発話者はカーナビゲーションシステムのような表示画面がある機器に対しては顔を向ける傾向が高い。逆に、発話者はスマートスピーカのような表示画面がない機器に対しては顔を向ける傾向は低い。したがって、受話者推定装置300は、対象機器が表示画面を有する場合には顔向き情報を受話者の推定の特徴量として使用し、対象機器が表示画面を有しない場合には顔向き情報を受話者の推定の特徴量として使用しない。あるいは、受話者推定装置300は、対象機器が表示画面を有する場合には顔向き情報を受話者の推定の特徴量として使用し且つ重みを大きな値に設定し、対象機器が表示画面を有しない場合には顔向き情報を受話者の推定の特徴量として使用し且つ重みを小さな値に設定する。
 例えば、受話者推定装置300は、制約状態情報D2に加えて、画面有無情報F1を用いて、制約基準データC1を参照して取得した制約状態基準項目(例えば、図5に示される)に基づいて、特徴量情報D1の任意の情報を選択、又は重み付けしたものを加工特徴量情報D3としてもよい。制約状態情報D2に基づいて、制約基準データC1から制約状態基準項目を取得する例は、図5に示されているが、制約状態情報D2は、走行状態情報、機器操作情報、席位置情報の情報に加えて画面有無情報F1を制約状態情報として含んでもよい。例えば、制約状態情報取得部110は、制約状態情報D2に基づいて制約状態基準項目を取得する場合、例えば、走行状態情報が「走行」であり、機器操作情報が「アクセル」であり、席位置情報が「運転席」であり、画面有無情報F1が「無」である場合に、制約基準データC1に示されるルールにしたがって、参加者の制約の大きさを「大」と設定してもよい。
 図14に示される制約状態情報取得部110、特徴量抽出部120、特徴量加工部130、及び受話者推定部140は、図7に示されるメモリ202に格納されているプログラムを実行するプロセッサ201によって実現されることができる。また、図14に示される各構成の一部を、メモリ202に格納されているプログラムを実行するプロセッサ201によって実現してもよい。また、図12に示される第1の記憶部150、第2の記憶部160及び第3の記憶部170は、ストレージ203の一部であってもよい。
 なお、図14に示される入力部40、制約状態情報取得部110、特徴量抽出部120、特徴量加工部130、受話者推定部140、及び出力部50の全体又は一部は、電気回路によって実現されてもよい。
《3-2》動作
 次に、実施の形態3に係る受話者推定装置300の動作を説明する。図15は、受話者推定装置300の動作を示すフローチャートである。図15において、図8に示される処理ステップと同一又は対応する処理ステップには、図8に示される符号と同じ符号が付される。
(ステップS11)
 ステップS11において、画面有無情報取得部180は、対象機器情報B1を参照して、画面有無情報F1を取得する。
(ステップS40)
 ステップS40において、特徴量加工部130は、制約状態情報D2、画面有無情報F1、及び制約基準データC1を用いて、特徴量情報D1から加工特徴量情報D3を生成する。
 特徴量加工部130は、制約状態情報D2と、画面有無情報F1と、制約基準データC1から得られた制約状態基準項目とに基づいて、特徴量情報D1のうちの所望の情報を選択することによって加工特徴量情報D3を生成する。加工特徴量情報D3は、例えば、走行状態情報が「走行」であり、機器操作情報が「アクセル」であり、席位置情報が「運転席」であり、画面有無情報F1が「無」である場合、参加者の制約を「大」に設定する。制約が大きい場合、顔向きなどの身体動作が抑制されるので、特徴量情報D1から、画像特徴量の「顔向き」列を削除して、加工特徴量情報D3を生成する。特徴量加工部130は、制約状態基準項目に応じて選択又は加工される特徴量を予め定めておき、制約の大きさに応じて、特徴量の選定又は加工の方法を決定してもよい。また、特徴量加工部130は、選定される特徴量を制約状態基準項目ごとに予め定めておいてもよい。
 また、特徴量加工部130は、制約状態基準項目に応じて重み付けされる特徴量を予め定めておき、制約の大きさ及び重みに応じて、特徴量の選定又は重み付け処理の方法を決定してもよい。また、特徴量加工部130は、重み付けされる特徴量を制約状態基準項目ごとに予め定めておいてもよい。特徴量加工部130は、設定された重みを、特徴量を表す値を加工するために用いてもよい。また、特徴量加工部130は、設定された重みを、受話者を推定する際に用いる統計モデル又はSVM又はニューラルネットワークなどの識別器のパラメータ又はネットワーク情報などに用いてもよい。
《3-3》効果
 以上に説明したように、実施の形態3に係る受話者推定装置300、受話者推定方法、及び受話者推定プログラムを用いれば、会話時における参加者の制約状態を考慮に入れて生成された加工特徴量情報D3を用いて受話者が推定されるので、受話者の推定の精度を向上させることができる。
 また、対象機器31が表示画面を有しているか否かにより、会話時における参加者の行動が変化する場合に、行動の変化に応じて適切に特徴量の選択及び加工(例えば、重み付け)を行うことができ、受話者の推定の精度を向上させることができるという効果がある。
 また、特徴量加工部130は、制約状態情報D2に加え画面有無情報F1を制約状態情報とし、制約基準データを参照し特徴量の選択及び加工を行うようにしたので、参加者の制約状態をより詳細に設定することで、参加者の状態に応じた適切な特徴量を選択することができるという効果がある。
《4》実施の形態4
《4-1》構成
 図16は、実施の形態4に係る受話者推定装置400の構成を概略的に示す機能ブロック図である。受話者推定装置400は、実施の形態4に係る受話者推定方法を実施することができる装置である。図16において、図2に示される構成要素と同一又は対応する構成要素には、図2に示される符号と同じ符号が付される。実施の形態4に係る受話者推定装置400は、参加者の互いの関係を示す情報である参加者情報G1を受け取り、参加者情報G1に基づいて参加者の互いの親密度を示す親密度情報G2を生成する親密度取得部190をさらに有し、特徴量加工部130は、制約状態情報D2、制約基準データC1、及び親密度情報G2に基づいて加工特徴量情報D3を生成する点において、実施の形態1に係る受話者推定装置100と相違する。他の点に関して、実施の形態4に係る受話者推定装置400は、実施の形態1に係る受話者推定装置100と同じである。
 図16に示される親密度取得部190は、参加者情報G1を受け取り、参加者情報G1に基づいて親密度情報G2を生成する。
 参加者情報G1は、予め参加者同士の関係性を表す情報を記憶している記憶部(図示せず)から提供される。この記憶部は、図7に示されるストレージ203であってもよい。また、参加者情報G1は、ネットワーク上のサーバから提供されてもよい。また、参加者情報G1は、ユーザ操作を受け付けるキーボードなどのユーザ操作装置から入力されてもよい。参加者同士の関係性を表す情報は、例えば、「上司と部下」のような上下関係のある関係性、「家族」のような親密性の高い関係性、などである。参加者情報G1は、参加者同士の関係性を文字列情報として表したもの、参加者の親密度を数値であらわしたもの、などであってもよい。
 親密度取得部190は、参加者情報G1に含まれる参加者同士の関係性を表す情報に基づいて、親密度情報G2を生成する。親密度情報G2は、例えば、参加者情報G1に含まれる参加者同士の関係性を表す文字列情報を数値情報に置換したものである。また、親密度情報G2は、例えば、参加者同士の関係性を表す情報に基づいて、親密度の程度(例えば、「高」「低」など)を表した情報でもよい。また、親密度取得部190は、参加者情報G1に含まれる参加者同士の関係性を表す数値列情報に基づいて、親密度を計算することによって親密度情報G2を生成してもよい。親密度情報G2は、例えば、参加者の親密度を表す文字列情報、又は数値情報、又はこれらの両方を含んでいる。
 特徴量加工部130は、制約状態情報D2、特徴量情報D1、及び親密度情報G2を受け取り、制約基準データC1を参照し、特徴量情報D1から受話者の推定に用いる特徴量を選択及び加工する。特徴量加工部130は、加工特徴量情報D3を受話者推定部140に提供する。
 一般的に、親密度が高い参加者同士であると、会話の際に発話に伴う動作を怠けやすくなり、上下関係があるなどで親密度が低い場合、発話の際の行動は動作を伴ったものとなりやすい。この際、親密度の違いによらず同様の特徴量情報を受話者の推定の特徴量として使用すると、受話者を誤って推定する可能性が高い。そこで、特徴量加工部130は、制約状態情報D2に加え、親密度情報G2を制約状態情報として用いて、制約基準データC1を参照して取得した制約状態基準項目に基づいて、特徴量情報D1の任意の特徴量情報を選択、又は重み付けしたものを加工特徴量情報D3とする。また、特徴量加工部130は、親密度情報G2に含まれる参加者の親密度を表す情報として、親密度の程度を表す情報(例えば、「高」又は「低」)をそのまま用いてもよい。また、特徴量加工部130は、親密度情報G2に含まれる参加者の親密度を表す情報が、親密度が数値情報で表されている場合、その数値が指定の値の範囲(例えば、「0.5<親密度<1.0」)に入っているかを判定し、この条件を満たす場合の制約状態情報D2を加工特徴量の算出に用いてもよい。
 図17は、実施の形態4の変形例に係る受話者推定装置500の構成を概略的に示す機能ブロック図である。図17において、図16に示される構成要素と同一又は対応する構成要素には、図16に示される符号と同じ符号が付される。受話者推定装置500は、受話者の推定に用いられる推定基準データC2が親密度情報G2に基づいて更新される点において、受話者推定装置400と相違する。他の点に関して、受話者推定装置500は、受話者推定装置400と同じである。
 図17における推定基準データC2は、例えば、加工特徴量情報D3に含まれる音声特徴量及び画像特徴量の組み合わせにより、受話者の推定を行う際の閾値情報を含んでいる。閾値情報は、親密度情報G2に応じて更新されてもよい。推定基準データC2は、基準となる閾値情報又はルールを数値又は文字列情報で表したものである。推定基準データC2は、統計モデル、SVM又はニューラルネットワークなどのパラメータ又はモデルであってもよい。推定基準データC2は、親密度情報G2に基づいて加工又は学習したものであってもよい。
 図16又は図17に示される制約状態情報取得部110、特徴量抽出部120、特徴量加工部130、及び受話者推定部140は、図7に示されるメモリ202に格納されているプログラムを実行するプロセッサ201によって実現されることができる。また、図16又は図17に示される構成の一部を、メモリ202に格納されているプログラムを実行するプロセッサ201によって実現してもよい。また、図16又は図17に示される第1の記憶部150及び第2の記憶部160は、ストレージ203の一部であってもよい。
 なお、図16又は図17に示される入力部40、制約状態情報取得部110、特徴量抽出部120、特徴量加工部130、受話者推定部140、及び出力部50の全体又は一部は、電気回路によって実現されてもよい。
《4-2》動作
 次に、実施の形態4に係る受話者推定装置400の動作を説明する。図18は、受話者推定装置400の動作を示すフローチャートである。図18において、図8に示される処理ステップと同一又は対応する処理ステップには、図8に示される符号と同じ符号が付される。
(ステップS31)
 ステップS31において、親密度取得部190は、参加者情報G1に基づいて親密度情報G2を取得(すなわち、生成)する。
 親密度取得部190は、例えば、予め設定された参加者同士の関係性を表す情報又は操作機器から直接入力された参加者同士の関係性を表す情報を含む参加者情報G1から、親密度情報G2を抽出する。参加者情報G1には、例えば、「上司と部下」のような上下関係を表す情報又は「家族」のような親密性の高い関係性を表す情報を含んでもよく、これらの関係性を文字列情報として表したもの又はそれぞれの参加者の親密度を表す数値として表現してもよい。親密度を示す数値が大きいほど、親密度は高い。例えば、「上司と部下」であれば、上司の親密度を「0.3」、部下の親密度を「0.2」として各値を参加者同士の関係性を表す値として参加者情報G1としてもよい。また、「家族」であれば親の親密度を「0.8」、子の親密度を「0.7」としてもよい。これらの情報を、数値列情報として参加者情報G1としてもよい。
 親密度取得部190で抽出する親密度情報G2は、参加者情報G1に参加者同士の関係性を表す文字列情報が含まれている場合、それを予め設定したルールに基づいて数値情報に置換してもよい。例えば、親密度取得部190は、「上司と部下」の場合には親密度を「0.5」、「家族」の場合には親密度を「1.5」のように設定することで親密度情報G2を生成してもよい。また、親密度情報G2は、参加者同士の関係性を表す情報から、親密度の程度を表した情報でもよい。例えば、親密度取得部190は、「上司と部下」であれば親密度「低」、「家族」であれば親密度「高」と設定してもよい。また、親密度情報G2は、参加者情報G1に参加者同士の関係性を表す数値列情報が含まれている場合、数値列に基づいて親密度を計算してもよい。例えば、親密度取得部190は、「上司と部下」の関係性を表す値として上司の親密度「0.3」、部下の親密度「0.2」のように値が設定された数値列情報であった場合、親密度を加算し、上司と部下の親密度「0.5」のように親密度情報G2を設定してもよい。親密度情報G2は、参加者の親密度を表す文字列情報、又は数値情報を含む。親密度取得部190は、親密度情報G2を特徴量加工部130に提供する。また、親密度取得部190は、親密度情報G2を第2の記憶部160に提供し、推定基準データC2を更新する。
(ステップS32)
 ステップS32において、推定基準データC2は、親密度情報G2に基づいて、受話者の推定に用いる基準データ情報が更新される。
 推定基準データC2は、例えば、加工特徴量情報D3に含まれる音声特徴量又は画像特徴量の組み合わせにより、受話者の推定を行う際の閾値情報を含んでいる。閾値情報は、親密度情報G2に応じて更新されてもよい。例えば、親密度情報G2に基づいて、顔向き情報又は口の開き度合を示す開口度情報などを受話者の推定に用いられる閾値として、異なる閾値が設定されてもよい。また、親密度が高い場合、人は会話時の動作を怠ける傾向があるため、その際は顔向き情報を用いるときの閾値が下がるように設定されてもよい。推定基準データC2は、基準となる閾値情報又はルールを数値又は文字列情報で表したものでもよく、統計モデル、SVM又はニューラルネットワークなどのパラメータ又はモデルであってもよく、それらの基準データは親密度情報G2に基づいて加工又は学習を行ってもよい。
(ステップS40)
 ステップS40において、特徴量加工部130は、制約状態情報D2と、親密度情報G2と、制約基準データC1とを参照し、特徴量情報D1を選択及び加工し、加工特徴量情報D3として出力する。
 特徴量加工部130は、制約状態情報D2に加え、親密度情報G2を制約状態情報として用いて、制約基準データC1を参照して取得した制約状態基準項目に基づいて、特徴量情報D1の任意の特徴量情報を選択、又は重み付けすることによって、加工特徴量情報D3を生成する。制約状態情報D2に基づいて、制約基準データC1から制約状態基準項目を取得する例は、図5の場合と同様である。親密度情報を用いた場合、例えば、図5では、走行状態情報、機器操作情報、席位置情報、親密度などの制約状態項目を予め含む情報としてもよい。これらの制約状態項目に基づいて制約状態基準項目を取得する場合、例えば、走行状態情報が「走行」であり、機器操作情報が「アクセル」であり、席位置情報が「運転席」であり、親密度が「高」である場合、制約基準データC1に示されるようなルールとの一致により、参加者の制約の大きさは「大」に設定されてもよい。
 また、親密度情報G2に含まれる参加者の親密度を表す情報は、親密度の程度を表す情報(「高」又は「低」)をそのまま制約状態項目に含んでもよい。また、親密度が数値情報で表されている場合、その数値が指定の値の範囲(例えば、「0.5<親密度<1.0」)に入っているかを示す情報を制約状態項目としてもよい。また、親密度情報G2に含まれる親密度を表す数値情報を用いて特徴量情報D1に重み付け処理を行う場合、制約基準データC1から制約状態基準項目を取得する例である図6の場合と同様に、制約基準データC1、603の各制約状態基準項目に設定された重みを、親密度を表す数値情報を用いて加工してもよい。例えば、重み「0.5」を取得した場合、親密度情報G2に設定された親密度「0.5」を加算、減算、乗算、除算などを用いて重みの値を調整してもよい。
《4-3》効果
 以上に説明したように、実施の形態4に係る受話者推定装置400又は500、受話者推定方法、及び受話者推定プログラムを用いれば、会話時における参加者の制約状態を考慮に入れて生成された加工特徴量情報D3を用いて受話者が推定されるので、受話者の推定の精度を向上させることができる。
 また、親密度取得部190を備えるようにしたことで、参加者の親密度により会話時の発話に伴う行動が変化する場合に、受話者の推定に用いる特徴量を適切に選択及び加工することができ、受話者の推定の精度を向上させることができるという効果がある。
 また、特徴量加工部130は、制約状態情報D2に加え親密度情報G2を制約状態情報とし、制約基準データを参照し特徴量選択及び加工を行うようにしたので、参加者の制約状態をより詳細に設定することで、参加者の親密度に応じた適切な特徴量を選択することができるという効果がある。
 また、推定基準データC2を参加者の親密度情報G2に基づいて、更新できるようにしたので、参加者の親密度の違いにより会話時の行動に変化が生じた場合でも、参加者の親密度に応じて適切な特徴量の閾値又はモデルを、特徴量抽出又は受話者の推定に用いることができ、受話者の推定の精度を向上させることができるという効果がある。
《5》変形例
 上記実施の形態では、第1の記憶部150、第2の記憶部160、及び第3の記憶部170が受話者推定装置の一部として示されているが、これらは、受話者推定装置に接続された外部の記憶装置又は受話者推定装置に備えられた通信装置によって通信可能なネットワーク上のサーバに備えられた記憶装置であってもよい。
 10 領域、 11,12,… 参加者、 20 状態取得部、 21 音声取得部、 22 映像取得部、 30 機器、 31 対象機器、 32 周辺機器、 33 表示画面、 40 入力部、 50 出力部、 100、200、300、400、500 受話者推定装置、 110 制約状態情報取得部、 120 特徴量抽出部、 130 特徴量加工部、 140 受話者推定部、 150 第1の記憶部、 160 第2の記憶部、 170 第3の記憶部、 180 画面有無情報取得部、 190 親密度取得部、 A0 領域状態情報、 A1 音声情報 A2 映像情報、 B0 機器情報、 B1 対象機器情報、 B2 周辺機器情報、 C1 制約基準データ、 C2 推定基準データ、 C3 特徴量基準データ、 D1 特徴量情報、 D2 制約状態情報、 D3 加工特徴量情報、 D4 推定結果情報、 D5 出力情報。

Claims (17)

  1.  発話者が発する音声の受話者を推定する受話者推定装置であって、
     状態取得部によって取得された、前記発話者を含む1人以上の参加者が存在する領域内の状態を示す領域状態情報から前記領域内の状態についての特徴量を抽出することによって、特徴量情報を生成する特徴量抽出部と、
     音声による操作を受け付ける対象機器を含む機器の状態を示す機器状態情報を取得し、前記領域内において前記参加者の行動を制約する状態を示すデータである制約基準データを予め記憶する第1の記憶部から前記制約基準データを取得し、前記領域状態情報、前記機器状態情報、及び前記制約基準データに基づいて、前記参加者の行動を制約している状態を示す制約状態情報を取得する制約状態情報取得部と、
     前記制約状態情報及び前記制約基準データに基づいて前記特徴量情報から前記受話者の推定に用いられる1つ以上の特徴量を選択し、前記1つ以上の特徴量に基づく加工特徴量情報を生成する特徴量加工部と、
     前記加工特徴量情報に基づいて前記受話者を推定する受話者推定部と、
     を有することを特徴とする受話者推定装置。
  2.  前記状態取得部は、前記領域内における音声を取得することによって音声情報を生成する音声取得部と、前記領域内の映像を撮影することによって映像情報を生成する映像取得部とを有し、
     前記領域状態情報は、前記音声情報及び前記映像情報のうちの少なくとも1つを含む
     ことを特徴とする請求項1に記載の受話者推定装置。
  3.  前記音声情報は、前記音声の音圧を示す情報、前記音声の基本周波数成分を示す情報、及び前記音声のスペクトルのうちの少なくとも1つを含むことを特徴とする請求項2に記載の受話者推定装置。
  4.  前記映像情報は、前記参加者の座席の位置を示す情報、前記参加者の顔向きを示す情報、前記参加者の視線方向を示す情報、及び前記参加者の口の開口度を示す情報のうちの少なくとも1つを含むことを特徴とする請求項2又は3に記載の受話者推定装置。
  5.  前記機器は、前記対象機器の他に、前記参加者によって操作される周辺機器を含むことを特徴とする請求項1から4のいずれか1項に記載の受話者推定装置。
  6.  前記機器状態情報は、前記周辺機器の状態及び前記周辺機器に対して実行された操作のうちの少なくとも1つを含むことを特徴とする請求項5に記載の受話者推定装置。
  7.  前記加工特徴量情報は、前記特徴量抽出部によって生成された前記特徴量情報から選択された前記1つ以上の特徴量を含む情報であることを特徴とする請求項1から6のいずれか1項に記載の受話者推定装置。
  8.  前記加工特徴量情報は、前記特徴量抽出部によって生成された前記特徴量情報から選択された前記1つ以上の特徴量と、前記1つ以上の特徴量の各々の重みとを含む情報であることを特徴とする請求項1から6のいずれか1項に記載の受話者推定装置。
  9.  前記受話者推定部は、
     前記参加者のいずれか1人が発話するときの前記参加者が存在する領域内の状態を示す推定基準データを予め記憶している第2の記憶部から前記推定基準データを取得し、
     前記推定基準データと前記加工特徴量情報とに基づいて前記受話者を推定する
     ことを特徴とする請求項1から8のいずれか1項に記載の受話者推定装置。
  10.  前記受話者推定部は、前記対象機器及び前記参加者のうちの前記発話者以外の人の中から、前記受話者を推定することを特徴とする請求項1から9のいずれか1項に記載の受話者推定装置。
  11.  前記特徴量抽出部は、
     前記特徴量としての要件を示すデータである特徴量基準データを予め記憶する第3の記憶部から前記特徴量基準データを取得し、
     前記特徴量基準データによって示される前記特徴量としての前記要件を満たす特徴量を前記領域状態情報から抽出することによって前記特徴量情報を生成する
     ことを特徴とする請求項1から10のいずれか1項に記載の受話者推定装置。
  12.  前記特徴量基準データは、前記制約状態情報に基づいて更新されることを特徴とする請求項11に記載の受話者推定装置。
  13.  前記機器情報に基づいて前記対象機器が表示画面を有するか否かを示す画面有無情報を取得する画面有無情報取得部をさらに有し、
     前記特徴量加工部は、前記制約状態情報、前記制約基準データ、及び前記画面有無情報に基づいて前記加工特徴量情報を生成する
     ことを特徴とする請求項1から12のいずれか1項に記載の受話者推定装置。
  14.  前記参加者の互いの関係を示す情報である参加者情報を受け取り、前記参加者情報に基づいて前記参加者の互いの親密度を示す親密度情報を取得する親密度取得部をさらに有し、
     前記特徴量加工部は、前記制約状態情報、前記制約基準データ、及び前記親密度情報に基づいて前記加工特徴量情報を生成する
     ことを特徴とする請求項1から13のいずれか1項に記載の受話者推定装置。
  15.  前記参加者の互いに関係を示す情報である参加者情報を受け取り、前記参加者情報に基づいて前記参加者の互いの親密度を示す親密度情報を取得する親密度取得部をさらに有し、
     前記推定基準データは、前記親密度情報に基づいて更新される
     ことを特徴とする請求項9に記載の受話者推定装置。
  16.  発話者が発する音声の受話者を推定する受話者推定方法であって、
     状態取得部によって取得された、前記発話者を含む1人以上の参加者が存在する領域内の状態を示す領域状態情報から前記領域内の状態についての特徴量を抽出することによって、特徴量情報を生成するステップと、
     音声による操作を受け付ける対象機器を含む機器の状態を示す機器状態情報を取得し、前記領域内において前記参加者の行動を制約する状態を示すデータである制約基準データを予め記憶する第1の記憶部から前記制約基準データを取得し、前記領域状態情報、前記機器状態情報、及び前記制約基準データに基づいて、前記参加者の行動を制約している状態を示す制約状態情報を取得するステップと、
     前記制約状態情報及び前記制約基準データに基づいて前記特徴量情報から前記受話者の推定に用いられる1つ以上の特徴量を選択し、前記1つ以上の特徴量に基づく加工特徴量情報を生成するステップと、
     前記加工特徴量情報に基づいて前記受話者を推定するステップと、
     を有することを特徴とする受話者推定方法。
  17.  発話者が発する音声の受話者を推定する処理をコンピュータに実行させる受話者推定プログラムであって、
     状態取得部によって取得された、前記発話者を含む1人以上の参加者が存在する領域内の状態を示す領域状態情報から前記領域内の状態についての特徴量を抽出することによって、特徴量情報を生成する処理と、
     音声による操作を受け付ける対象機器を含む機器の状態を示す機器状態情報を取得し、前記領域内において前記参加者の行動を制約する状態を示すデータである制約基準データを予め記憶する第1の記憶部から前記制約基準データを取得し、前記領域状態情報、前記機器状態情報、及び前記制約基準データに基づいて、前記参加者の行動を制約している状態を示す制約状態情報を取得する処理と、
     前記制約状態情報及び前記制約基準データに基づいて前記特徴量情報から前記受話者の推定に用いられる1つ以上の特徴量を選択し、前記1つ以上の特徴量に基づく加工特徴量情報を生成する処理と、
     前記加工特徴量情報に基づいて前記受話者を推定する処理と、
     を前記コンピュータに実行させることを特徴とする受話者推定プログラム。
PCT/JP2019/021287 2019-05-29 2019-05-29 受話者推定装置、受話者推定方法、及び受話者推定プログラム WO2020240730A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2019/021287 WO2020240730A1 (ja) 2019-05-29 2019-05-29 受話者推定装置、受話者推定方法、及び受話者推定プログラム
JP2021521651A JP6945767B2 (ja) 2019-05-29 2019-05-29 受話者推定装置、受話者推定方法、及び受話者推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/021287 WO2020240730A1 (ja) 2019-05-29 2019-05-29 受話者推定装置、受話者推定方法、及び受話者推定プログラム

Publications (1)

Publication Number Publication Date
WO2020240730A1 true WO2020240730A1 (ja) 2020-12-03

Family

ID=73552773

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/021287 WO2020240730A1 (ja) 2019-05-29 2019-05-29 受話者推定装置、受話者推定方法、及び受話者推定プログラム

Country Status (2)

Country Link
JP (1) JP6945767B2 (ja)
WO (1) WO2020240730A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022244178A1 (ja) * 2021-05-20 2022-11-24 三菱電機株式会社 受話者推定装置、受話者推定方法、及び受話者推定プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006079427A (ja) * 2004-09-10 2006-03-23 Toshiba Tec Corp 携帯情報機器
JP2007272534A (ja) * 2006-03-31 2007-10-18 Advanced Telecommunication Research Institute International 省略語補完装置、省略語補完方法、及びプログラム
JP2010206392A (ja) * 2009-03-02 2010-09-16 Nippon Telegr & Teleph Corp <Ntt> 発話向き推定装置、方法及びプログラム
US20160353059A1 (en) * 2015-01-09 2016-12-01 Boe Technology Group Co., Ltd. Remote Conference System and Method of Performing Remote Conference

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4804801B2 (ja) * 2005-06-03 2011-11-02 日本電信電話株式会社 会話構造推定方法、プログラム、および記録媒体
CN111801667B (zh) * 2017-11-17 2024-04-02 日产自动车株式会社 车辆用操作辅助装置和车辆用操作辅助方法
JP2020080503A (ja) * 2018-11-14 2020-05-28 本田技研工業株式会社 エージェント装置、エージェント提示方法、およびプログラム
JP2020095121A (ja) * 2018-12-11 2020-06-18 パナソニックIpマネジメント株式会社 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006079427A (ja) * 2004-09-10 2006-03-23 Toshiba Tec Corp 携帯情報機器
JP2007272534A (ja) * 2006-03-31 2007-10-18 Advanced Telecommunication Research Institute International 省略語補完装置、省略語補完方法、及びプログラム
JP2010206392A (ja) * 2009-03-02 2010-09-16 Nippon Telegr & Teleph Corp <Ntt> 発話向き推定装置、方法及びプログラム
US20160353059A1 (en) * 2015-01-09 2016-12-01 Boe Technology Group Co., Ltd. Remote Conference System and Method of Performing Remote Conference

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022244178A1 (ja) * 2021-05-20 2022-11-24 三菱電機株式会社 受話者推定装置、受話者推定方法、及び受話者推定プログラム
JPWO2022244178A1 (ja) * 2021-05-20 2022-11-24
JP7309095B2 (ja) 2021-05-20 2023-07-14 三菱電機株式会社 受話者推定装置、受話者推定方法、及び受話者推定プログラム

Also Published As

Publication number Publication date
JPWO2020240730A1 (ja) 2021-09-30
JP6945767B2 (ja) 2021-10-06

Similar Documents

Publication Publication Date Title
JP6869339B2 (ja) 音声認識のためのシステム及び方法
US10943400B2 (en) Multimodal user interface for a vehicle
US10872603B2 (en) Dialog device and dialog method
US20180204572A1 (en) Dialog device and dialog method
CN111661068B (zh) 智能体装置、智能体装置的控制方法及存储介质
US10929652B2 (en) Information providing device and information providing method
JP2019164345A (ja) サウンドデータを処理するシステム、ユーザ端末及びシステムの制御方法
JP6713490B2 (ja) 情報提供装置及び情報提供方法
CN107825429A (zh) 对话装置和方法
JP2020109578A (ja) 情報処理装置及びプログラム
CN111694433A (zh) 语音交互的方法、装置、电子设备及存储介质
JP2018055550A (ja) 施設満足度算出装置
JP2019158975A (ja) 発話システム
JP6552548B2 (ja) 地点提案装置及び地点提案方法
JP6945767B2 (ja) 受話者推定装置、受話者推定方法、及び受話者推定プログラム
JP2019101472A (ja) 感情推定装置
CN111746435B (zh) 信息提供装置、信息提供方法及存储介质
CN112988990A (zh) 信息提供装置、信息提供方法及存储介质
JP7331850B2 (ja) 情報処理装置及び情報処理方法
JP6387287B2 (ja) 不明事項解消処理システム
JP7309095B2 (ja) 受話者推定装置、受話者推定方法、及び受話者推定プログラム
US20210326659A1 (en) System and method for updating an input/output device decision-making model of a digital assistant based on routine information of a user
KR102490035B1 (ko) 감정 상태 추정을 이용한 vr 시뮬레이터 제어 방법
WO2023210171A1 (ja) 音声対話装置及び音声対話方法
CN114296680B (zh) 基于面部图像识别的虚拟试驾装置、方法和存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19930730

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021521651

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19930730

Country of ref document: EP

Kind code of ref document: A1