WO2022244178A1 - 受話者推定装置、受話者推定方法、及び受話者推定プログラム - Google Patents

受話者推定装置、受話者推定方法、及び受話者推定プログラム Download PDF

Info

Publication number
WO2022244178A1
WO2022244178A1 PCT/JP2021/019147 JP2021019147W WO2022244178A1 WO 2022244178 A1 WO2022244178 A1 WO 2022244178A1 JP 2021019147 W JP2021019147 W JP 2021019147W WO 2022244178 A1 WO2022244178 A1 WO 2022244178A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
state
constraint
feature amount
unit
Prior art date
Application number
PCT/JP2021/019147
Other languages
English (en)
French (fr)
Inventor
咲子 二本柳
啓吾 川島
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to JP2023514700A priority Critical patent/JP7309095B2/ja
Priority to PCT/JP2021/019147 priority patent/WO2022244178A1/ja
Publication of WO2022244178A1 publication Critical patent/WO2022244178A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Definitions

  • the present disclosure relates to a listener estimation device, a listener estimation method, and a listener estimation program.
  • a listener estimation device that estimates the listener, who is the receiver of the voice uttered by the speaker, based on the video information and audio information of the participants in the conversation. See, for example, US Pat. Using this technology, it is possible to estimate the listener intended by the speaker.
  • a listener is, for example, a device that can accept a participant other than the speaker or a voice operation.
  • An object of the present disclosure is to provide a listener estimation device, a listener estimation method, and a listener estimation program that can improve the accuracy of listener estimation.
  • a listener estimation device of the present disclosure is a device for estimating a listener of a voice uttered by a speaker, Feature quantity information is obtained by extracting a feature quantity for the state of the region from the region state information indicating the state of the region in which the one or more participants including the speaker are present, which is acquired by the state acquisition unit. and a constraint reference that is data indicating the state of restricting the behavior of the participant in the region by obtaining device state information indicating the state of the device including the target device that accepts the operation by voice.
  • an information selection unit for selecting one or more feature amounts used for estimating the listener from the feature amount information of the acquisition period based on the constraint state information and the constraint reference data;
  • the present invention is characterized by comprising a feature amount processing unit that generates processed feature amount information based on a quantity, and a receiver estimation unit that estimates the receiver based on the processed feature amount information.
  • a speaker estimation method of the present disclosure is a method executed by a speaker estimation device for estimating a speaker of a speech uttered by a speaker, and includes one or more persons including the speaker acquired by a state acquisition unit.
  • a step of generating feature amount information by extracting a feature amount for a state in an area from area state information indicating a state in an area in which a participant exists; Acquiring device state information indicating a state, obtaining the constraint reference data from a first storage unit pre-storing the constraint reference data, which is data indicating a state for constraining the behavior of the participant in the area, a step of acquiring constraint state information indicating a state in which the behavior of the participant is constrained based on the region state information, the device state information, and the constraint reference data; Selecting and selecting preliminary operation information including the acquisition period corresponding to the constraint state information from a second storage unit pre-stored with preliminary operation condition data indicating a relationship with the preliminary operation information including the acquisition period of the quantity information outputting the feature amount
  • FIG. 1 is a diagram schematically showing the configuration of a listener estimation system according to Embodiment 1;
  • FIG. 1 is a functional block diagram schematically showing the configuration of a listener estimation device according to Embodiment 1;
  • FIG. 2 is a diagram showing an example of the hardware configuration of the listener estimation device according to Embodiment 1;
  • FIG. 4 is a flow chart showing the operation of the receiver estimation device according to Embodiment 1;
  • 3 is a diagram showing an example of operation of a constraint state information acquisition unit shown in FIG. 1;
  • FIG. 2 is a diagram showing an example of the operation of a feature extraction unit shown in FIG. 1;
  • FIG. 2 is a diagram showing an example of preliminary operating condition data shown in FIG. 1;
  • FIG. 2 is a diagram showing another example of preliminary operating condition data shown in FIG. 1;
  • FIG. 3 is a diagram showing an example of the operation of a preliminary motion information selection unit shown in FIG. 1;
  • FIG. 3 is a diagram showing an example of the operation of a feature quantity processing unit shown in FIG. 1;
  • FIG. 9 is a diagram showing another example of the operation of the feature amount processing unit shown in FIG. 1;
  • FIG. 11 is a functional block diagram schematically showing the configuration of a listener estimation device according to Embodiment 2; 9 is a flow chart showing the operation of the receiver estimation device according to Embodiment 2;
  • 13A and 13B are diagrams illustrating the operation of a preliminary motion type obtaining unit illustrated in FIG. 12;
  • FIG. 13A and 13B are diagrams illustrating an example of the operation of a preliminary motion information selection unit illustrated in FIG. 12;
  • FIG. 12 is a diagram showing another example of the operation of a preliminary motion information selection unit illustrated in FIG. 12;
  • FIG. 12
  • a listener estimation device, a listener estimation method, and a listener estimation program according to the embodiment will be described below with reference to the drawings.
  • the following embodiments are merely examples, and the embodiments can be combined as appropriate and each embodiment can be modified as appropriate.
  • FIG. 1 is a diagram schematically showing the configuration of a listener estimation system according to Embodiment 1.
  • the listener estimation system has a state acquisition unit 20 , a device 30 , an input unit 40 , a listener estimation device 100 and an output unit 50 .
  • the input unit 40 and the output unit 50 may be part of the listener estimation device 100 .
  • the input unit 40 is an input interface as an input device for receiving signals.
  • the output unit 50 is an output interface as an output device that outputs signals.
  • the listener estimation device 100 estimates the listener of the voice uttered by the speaker who is one of the one or more participants in the conversation, that is, the intended receiver of the speaker. Participants are present in a predetermined area 10 . Participants in the conversation are, for example, a plurality of participants 11, 12, . When a speaker emits a voice addressed to the target device 31 that accepts voice operation (for example, a voice message for voice operation), even if the participant in the conversation is one participant who is the speaker, good.
  • the listener estimation system is, for example, a vehicle system mounted on a vehicle. Area 10 is, for example, the passenger compartment of a vehicle. The participants are, for example, the driver and passengers of the vehicle.
  • the state acquisition unit 20 acquires area state information A0 indicating the state of the area 10 and transmits the area state information A0 to the input unit 40.
  • the state acquisition unit 20 includes, for example, an audio acquisition unit 21 that acquires audio in the area 10 to generate audio information A1, and an image acquisition unit 22 that generates video information A2 by capturing an image in the area 10. and
  • the voice acquisition unit 21 has, for example, one or more microphones.
  • the video acquisition unit 22 has, for example, one or more cameras.
  • the area state information A0 is information including at least one of audio information A1 and video information A2.
  • the voice information A1 is information based on the voice uttered by the speaker who is a participant (that is, the speaker's utterance).
  • the video information A2 is information of moving images or still images obtained by photographing participants including the speaker.
  • the video information A2 is, for example, moving image or still image information including the behavior of the participant when speaking.
  • the video information A2 is information of an image showing the motion of the face of the participant or the entire body of the participant.
  • the video information A2 may be moving image information composed of a plurality of frames of images arranged in time series.
  • the device 30 transmits to the input unit 40 device information (also referred to as "device state information") B0 indicating the state of the device 30 itself.
  • the device 30 has, for example, a target device 31 operated by a participant and a peripheral device 32 operated by the participant.
  • the target device 31 is a device (also referred to as a “voice interaction device”) having a voice operation function that operates according to voice instructions.
  • the target device 31 is, for example, an in-vehicle device including a car navigation system provided in the vehicle, or a smart speaker that is a speaker corresponding to interactive voice operation.
  • the target device information B1 may include, for example, current location information such as GPS information measured by a GPS (Global Positioning System), which is a positioning device in a car navigation system that can use map information, guidance voice information regarding the driving route, and the like. good.
  • the target device 31 may have a display screen 33 .
  • the peripheral device 32 is a device other than the target device 31.
  • Peripherals 32 are, for example, the vehicle itself or part of the vehicle.
  • the peripheral device 32 is a device that exists around the place of conversation of the participants (that is, the area 10), such as the passenger compartment of the vehicle.
  • the peripheral device 32 is a device that, when operated by any of the participants, can cause a condition that restricts the behavior of the participants.
  • a participant's behavior includes, for example, the participant's posture and movement (ie, movement). Participant behavior is also referred to as participant behavior.
  • states that restrict the behavior of the participants include, for example, the position of the participant's seat, the state in which the participant is operating the device 30, the state in which the participant is gazing ahead, and the like.
  • the peripheral device information B2 includes at least information representing the state of the peripheral devices 32 existing around the area 10 .
  • the peripheral device information B2 includes CAN (Controller Area Network) information including vehicle speed and steering wheel operation information, driving state information indicating the driving state, and the like.
  • the running state information includes a state in which the vehicle is running, a state in which the vehicle is stopped, and the like.
  • the target device 31 transmits to the input unit 40 target device information B1 indicating the state of the target device 31 itself.
  • the peripheral device 32 transmits peripheral device information B ⁇ b>2 indicating the state of the peripheral device 32 itself to the input unit 40 .
  • the device information B0 is information including at least one of the target device information B1 and the peripheral device information B2.
  • Listener estimation apparatus 100 detects the intended receiver of the speaker based on equipment information B0, area state information A0, and various pre-stored reference data (for example, C1, C2, etc. shown in FIG. 2 to be described later). and outputs estimation result information D4 including information indicating the estimated receiver.
  • Listener estimation apparatus 100 acquires constraint state information ( D2) shown in FIG. 2 below is taken into consideration. That is, the constraint state information includes a plurality of constraint state items.
  • the restricted state items include, for example, the position of the speaker's seat, the state in which the speaker is operating the device 30, the state in which the speaker is gazing forward, and the like. In the example of FIG. 1, the listener is the participant other than the speaker or the target device 31 among the participants.
  • the output unit 50 outputs output information D5 based on the estimation result information D4. For example, when the receiver is estimated to be the target device 31 , the output unit 50 transmits to the target device 31 output information D ⁇ b>5 indicating that the receiver is the target device 31 .
  • the target device 31 that has received the output information D5 can determine that the voice uttered by the speaker is a voice operation for itself, and can operate according to the voice operation.
  • the target device 31 does not receive the output information D5 indicating that the receiver is the target device 31 or receives the output information D5 indicating that the receiver is not the target device 31, the speaker issues It can be determined that the voice is not a voice manipulation of itself.
  • FIG. 2 is a functional block diagram schematically showing the configuration of listener estimation apparatus 100 according to Embodiment 1.
  • Listener estimation apparatus 100 is an apparatus capable of implementing the listener estimation method according to the first embodiment.
  • listener estimation apparatus 100 includes constraint state information acquisition section 110, first storage section 150 that stores constraint reference data C1, feature amount extraction section 120, and feature amount processing section 130. , a receiver estimation unit 140, a preliminary operation information selection unit 160, and a second storage unit 170 for storing preliminary operation condition data C2.
  • the receiver estimation apparatus 100 estimates the receiver based on the device information B0 and the area state information A0 received via the input unit 40, and the constraint reference data C1 and preliminary operation condition data which are various reference data stored in advance. is performed, and estimation result information D4 indicating the result of estimation is output.
  • the output unit 50 outputs output information D5 based on the estimation result information D4.
  • the first storage unit 150 and the second storage unit 170 may be storage devices different from each other.
  • the first storage unit 150 and the second storage unit 170 may be different storage areas in the same storage device.
  • FIG. 3 is a diagram showing an example of the hardware configuration of listener estimation apparatus 100 according to Embodiment 1.
  • Listener estimation apparatus 100 includes, for example, a memory 202 as a storage device that stores a program as software, that is, the listener estimation program according to Embodiment 1, and an information processing unit that executes the program stored in memory 202. and a processor 201 as Listener estimation apparatus 100 may be a general-purpose computer.
  • Processor 201 is an arithmetic device.
  • the computing device has a CPU (Central Processing Unit).
  • the computing device may have a GPU (Graphics Processing Unit) in addition to the CPU.
  • the computing device may have a time providing function for providing time information.
  • the listener estimation program is stored in the memory 202 from a storage medium that stores information via a medium reader (not shown) or via a communication interface (not shown) that can be connected to the Internet or the like.
  • Listener estimation apparatus 100 may also have storage 203, which is a storage device for storing various information such as a database.
  • the storage 203 may be a storage device existing on the cloud connectable via a communication interface (not shown).
  • the processor 201 reads various programs from the storage 203 and executes the programs using the memory 202 as a work area.
  • Listener estimation apparatus 100 may also have a display for displaying an image.
  • the constraint state information acquisition unit 110, the feature amount extraction unit 120, the feature amount processing unit 130, and the listener estimation unit 140 shown in FIG. can be done. Also, part of each configuration shown in FIG. 2 may be realized by the processor 201 executing a program stored in the memory 202 . Also, the first storage unit 150 and the second storage unit 170 shown in FIG. 2 may be part of the storage 203 .
  • the input interface 204 which is an input device, is the input unit 40 shown in FIG.
  • the output interface 205 which is an output device, is the output unit 50 shown in FIG.
  • FIG. 4 is a flowchart showing the operation of the listener estimation device 100.
  • the input unit 40 receives the device information B0 and the area state information A0 as input information.
  • the device information B0 and the area state information A0 are provided to the listener estimation apparatus 100.
  • the device information B0 includes target device information B1, peripheral device information B2, or both.
  • the area state information A0 includes audio information A1, video information A2, or both.
  • the input unit 40 provides the constraint state information acquisition unit 110 with the received device information B0 and area state information A0. Also, the input unit 40 provides the feature amount extraction unit 120 with the area state information A0.
  • the restricted state information acquisition unit 110 acquires area state information A0 indicating the state of the area 10 in which one or more participants including the speaker are present, and the state of the device 30 including the target device 31 that accepts voice operations. acquires device information B0 indicating a condition, acquires constraint reference data C1 that is data indicating a state in which the behavior of the participant is constrained in the area 10, and obtains based on the region state information A0, the device information B0, and the constraint reference data C1 Then, the restricted state information D2 indicating the restricted state of the participant's action is obtained (steps S10 and S20).
  • the feature amount extraction unit 120 extracts feature amount information about the state of the area 10 from the area state information A0 indicating the state of the area 10 in which one or more participants including the speaker are present. D0 is generated (step S30).
  • the preliminary operation information selection unit 160 stores in advance the preliminary operation condition data C2 indicating the relationship between the constraint state information D2′ assumed in advance and the preliminary operation information including the acquisition period of the feature amount information D0. , the preparatory motion information including the acquisition period corresponding to the constraint state information D2 is selected, and the feature amount information D1 of the acquisition period is output based on the preparatory motion information including the selected acquisition period (step S40).
  • the feature amount processing unit 130 selects one or more feature amounts to be used for estimation of the listener from the feature amount information D1 of the acquisition period based on the constraint state information D2 and the constraint reference data C1. is generated (step S60).
  • the receiver estimation unit 140 estimates the receiver based on the processed feature amount information D3 (step S70).
  • the constraint state information acquisition unit 110 receives the device information B0 and the area state information A0 from the input unit 40 when the receiver speaks. Further, the constraint state information acquisition unit 110 refers to the constraint reference data C1. The constraint state information acquisition unit 110 acquires (that is, generates) constraint state information D2 indicating a constraint state that constrains the behavior of the participant. The restricted state information acquisition unit 110 provides the acquired restricted state information D ⁇ b>2 to the feature amount processing unit 130 and the preliminary motion information selection unit 160 .
  • the constraint state information D2 includes, for example, information indicating restrictions on the actions of the speaker, such as restrictions on the speaker's posture and restrictions on the movement of the speaker due to surrounding conditions.
  • the constraint state information D2 is represented by, for example, character string information, numeric information, and the like.
  • FIG. 5 is a diagram showing an example of the operation of the constraint state information acquisition unit 110.
  • FIG. 5 shows an example of constraint reference data C1 stored in the first storage unit 150 and an example of constraint state information D2 generated by the constraint state information acquisition unit 110 in tabular form.
  • FIG. 5 shows the operation of step S20 of FIG.
  • constraint criteria data C1 includes constraint status criteria items denoted as constraints R_1 to R_m. m is a positive integer.
  • the constraint reference data C1 includes information indicating the magnitude of constraint (that is, the degree of constraint).
  • Each of the constraint state reference items indicated as constraint conditions R_1 to R_m includes driving state information, device operation information that is the operating state of the peripheral device 32, seat position information that is the speaker's seat position, and the like.
  • the constraint reference data C1 is not limited to the example in FIG.
  • the constraint state information acquisition unit 110 generates constraint state information D2 based on the device information B0, the area state information A0, and the constraint reference data C1.
  • the constraint state information D2 shown in FIG. 3 includes constraint state items in each of n frames with frame numbers t_1 to t_n arranged in chronological order.
  • the constraint state information acquisition section 110 provides the constraint state information D2 to the feature quantity processing section 130 and the preliminary motion information selection section 160 . Further, the constraint state information D2 may include items related to participants who are candidates for the listener at the time of speaking.
  • the constraint state information acquisition unit 110 may predetermine the types of constraint state items in each of a plurality of frames included in the generated constraint state information D2.
  • the constraint state information acquisition unit 110 sets, for example, driving state information, device operation information, seat position information, etc., as constraint state items included in the constraint reference data C1.
  • the restriction state information acquisition unit 110 acquires the restriction state item included in the generated restriction state information D2 as the running state information of the vehicle based on the peripheral device information B2. , device operation information of the peripheral device 32, participant's seat position information, and the like.
  • the vehicle running state information is, for example, information indicating any one of a running state in which the vehicle is running, a slow-moving state in which the vehicle is slowing down, and a stopped state in which the vehicle is stopped.
  • the device operation information includes, for example, a right turn operation, a left turn operation, etc. by the steering wheel of the vehicle as the peripheral device 32 .
  • the restricted state information acquisition unit 110 can include seat position information of the speaker and participants other than the speaker based on the video information A2 as restricted state items included in the generated restricted state information D2.
  • the seat position information is, for example, the driver's seat, passenger's seat, rear seat, etc. of the vehicle.
  • the constraint reference data C1 consists of a plurality of pieces of information including information representing constraint states, patterns of combinations of constraint states, and information defining the magnitude of constraints for each pattern.
  • a database containing constraint status criteria items For example, as shown in FIG. 5, the constraint reference data C1 is a plurality of columns of information representing the constraint state and information defining the size of the constraint determined by the combination of the constraint states. constraint state criteria items.
  • Constraint conditions R_1 to R_m are attached as identification symbols to the plurality of constraint state criteria items.
  • the constraint state information acquisition unit 110 acquires the constraint state reference item from the constraint reference data C1, for example, the constraint state of each column defined in the constraint reference data C1 shown in FIG. information, seat position information, etc.).
  • the feature amount extraction unit 120 receives the area state information A0 from the input unit 40.
  • FIG. The feature amount extraction unit 120 generates feature amount information D0 by extracting one or more feature amounts used for estimating the listener intended by the speaker.
  • the feature quantity extraction unit 120 provides the feature quantity information D ⁇ b>0 to the feature quantity processing unit 130 .
  • FIG. 6 is a diagram showing an example of the operation of the feature quantity extraction unit 120.
  • FIG. FIG. 6 shows an example of the feature amount information D0 generated by the feature amount extraction unit 120 in tabular form.
  • the feature amount information D0 can include sound feature amounts such as the fundamental frequency component of sound (ie, pitch), sound pressure (ie, power), and spectrum of sound.
  • the feature amount information D0 can include image feature amounts such as the participant's face direction, line-of-sight direction, and degree of mouth opening.
  • the feature amount information D0 indicates, in tabular form, audio feature amounts and image feature amounts extracted for each frame of frame numbers t_1 to t_n corresponding to time series.
  • the feature amount information D0 may include a statistical value such as an average value or variance of the voice information A1 for each utterance of the participant who is the candidate for the listener.
  • An utterance unit corresponds to the start to end of one utterance by the same speaker.
  • the feature amount information D0 may include character string information, numerical information, etc. representing at least one of the audio feature amount extracted from the audio information A1 and the image feature amount extracted from the video information A2.
  • the feature amount extraction unit 120 may set a type of feature amount other than the types shown in the example of FIG. 6 as the type of feature amount to be extracted from the audio information A1 and the video information A2.
  • the preliminary operation information selection unit 160 stores preliminary operation condition data C2 indicating the relationship between presupposed (that is, predetermined) constraint state information D2′ and preliminary operation information including the acquisition period of the feature amount information D0 in a database. Preliminary motion information including the acquisition period corresponding to the constraint state information D2 is selected from the second storage unit 170 stored in advance as a to output
  • FIG. 7 is a diagram showing an example of preliminary operation condition data C2 used by the preliminary operation information selection unit 160.
  • the preliminary operation condition data C2 includes, as presupposed constraint state information D2', vehicle running state, vehicle running speed, device operation, seat position, road type of the road on which the vehicle is running, and the following: distance to the right or left turn point, the content of navigation guidance (that is, navigation guidance), and road conditions, and the acquisition period of feature amount information D0 corresponding to these previously assumed constraint state information D2' I'm in.
  • R_1 of the preliminary operation condition data C2 in FIG. 7 is an example when the preliminary operation is captured in a short period (past 5 seconds).
  • a short preliminary action for example, navigation
  • the vehicle is traveling at a high speed (for example, a speed higher than a predetermined threshold)
  • the driver has a lot of restrictions
  • the utterance of the speaker who does not have time to spare is a short preliminary action (for example, navigation).
  • the vehicle is running ⁇ near the intersection'', etc.).
  • the feature amount information D1 for a short acquisition period for example, the past 5 seconds
  • it is possible to use the feature amount information D1 for a longer acquisition period that is, if it contains extra information. It is considered that the receiver's estimation accuracy is improved more than the case).
  • R_3 of the preliminary operation condition data C2 in FIG. 7 is an example when the preliminary operation is captured in a long section (past 20 seconds).
  • a long section for example, when the vehicle is slowing down (for example, a speed below a predetermined threshold), the driver's constraints are small, and the utterance of the speaker who has time to spare is a long preparatory action (for example, navigation). After the guidance "go straight ahead", the vehicle is running "near the traffic light", etc.).
  • the feature amount information D1 for a long acquisition period for example, the past 20 seconds
  • it is possible to use the feature amount information D1 for a shorter acquisition period i.e., not including the necessary information. It is considered that the receiver's estimation accuracy is improved more than the case).
  • FIG. 8 is a diagram showing another example of preliminary operation condition data C2 used by the preliminary operation information selection unit 160.
  • the preliminary operation condition data C2 includes, as presupposed constraint state information D2', vehicle running state, vehicle running speed, equipment operation, seat position, road type of the road on which the vehicle is running, and the following: distance to the right or left turn point, the content of navigation guidance (that is, navigation guidance), and road conditions, and the acquisition period of feature amount information D0 corresponding to these previously assumed constraint state information D2' I'm in.
  • R_2 of the preliminary operation condition data C2 in FIG. 8 is an example when the preliminary operation is captured in an intermediate length section (past 15 seconds).
  • the driver does not have much time to spare, so the utterance of the speaker tends to follow a relatively short preliminary action.
  • driving on an expressway is very restrictive because it forces the driver to feel tense all the time.
  • the feature amount information D1 for a relatively long acquisition period for example, the past 15 seconds
  • FIG. 9 is a diagram showing an example of the operation of the preliminary motion information selection unit 160.
  • FIG. FIG. 9 shows an example of the operation of step S40 of FIG.
  • the preliminary motion information selection unit 160 selects presupposed (that is, predetermined) constraint state information D2′ (for example, including items such as condition, driving state, equipment operation, and seat position).
  • the preliminary motion information selection unit 160 selects the feature amount information D0 during the acquisition period (frame numbers t_10 to t_20) from the current time to the past 10 seconds, and selects the acquisition period (frame numbers t_10 to t_20) based on this preliminary motion information. period) is output.
  • the feature amount processing unit 130 selects the feature amount used for estimation of the listener from the feature amount information D1 during the acquisition period (the period from frame number t_10 to t_20) based on the constraint state information D2 and the constraint reference data C1, and selects the feature amount.
  • the processed feature amount information D3 is generated based on the one or more feature amounts obtained.
  • the feature amount processing section 130 provides the receiver estimation section 140 with the processed feature amount information D3.
  • FIG. 10 is a diagram showing an example of the operation of the feature quantity processing unit 130.
  • the feature amount processing unit 130 selects one or more feature amounts from the feature amount information D1 based on the constraint state information D2 and the constraint reference data C1, and treats the selected one or more feature amounts as processed feature amount information D3. do.
  • the feature quantity processing unit 130 acquires a constraint state criterion item indicated by any one of the constraint conditions R_1 to R_m, which is information referenced from the constraint criterion data C1. do.
  • the constraint state information D2 includes constraint state items indicating the running state, equipment operation, seat position, and the like.
  • the feature quantity processing unit 130 generates processed feature quantity information D3 that sets the size of the constraint of the participant to "large” based on the constraint state information D2 and the constraint reference data C1.
  • the feature quantity processing unit 130 may predetermine a constraint state reference item set as the processed feature quantity information D3. Further, the feature amount processing unit 130 may select and process the feature amount according to information representing the "magnitude of constraint". Further, the feature amount processing unit 130 may determine information indicating feature amounts to be processed such as processing for each constraint state criterion item.
  • FIG. 11 is a diagram showing another example of the operation of the feature quantity processing unit 130.
  • the feature amount processing unit 130 selects one or more feature amounts from the feature amount information D1 based on the constraint state obtained based on the constraint state information D2 and the constraint reference data C1, and converts the selected one or more features
  • the processed feature quantity information D3 may be generated by weighting each of the quantities.
  • FIG. 11 shows an example of constraint state criterion items acquired from the constraint criterion data C1 based on the constraint state information D2. As shown in FIG.
  • the feature amount processing unit 130 acquires a constraint state criterion item indicated by any one of the constraint conditions R_1 to R_m, which is information referenced from the constraint criterion data C1. do. Based on the constraint state information D2 and the constraint reference data C1, the feature quantity processing unit 130 generates processed feature quantity information D3 that sets the magnitude of the constraint of the participant to "large” and the weight to "0.5". .
  • the feature quantity processing unit 130 may predetermine a constraint state reference item set as the processed feature quantity information D3. Further, the feature amount processing unit 130 may select and process the feature amount according to information representing the "magnitude of constraint" and the "weight" of the constraint.
  • the feature amount processing unit 130 may determine information indicating feature amounts to be processed such as processing for each constraint state criterion item.
  • the set weight may be a value used for processing the value representing the feature quantity.
  • the set weight may be a value used for parameters of a discriminator such as a statistical model, SVM (support vector machine) or neural network, or network information used when estimating a listener.
  • the listener estimation unit 140 receives the processed feature amount information D3 and provides the output unit 50 with estimation result information D4 indicating the result of estimating the listener.
  • the processed feature amount information D3 includes at least one value representing a speech feature amount or an image feature amount associated with an utterance to be estimated by the receiver.
  • Estimation reference data stored in the storage unit may be used to estimate the receiver.
  • the estimation reference data includes reference data in which rules for estimating the listener based on the combination of the processed feature amount information D3 such as the utterance content, face orientation, line-of-sight direction, etc., when the participant speaks are predetermined.
  • a parameter or model such as a statistical model, SVM (Support Vector Machine), or neural network for estimating the listener based on the processed feature amount information D3 may be used.
  • the output unit 50 outputs output information D5 indicating the result of estimation of the receiver based on the estimation result information D4.
  • the estimation result information D4 includes, for example, character string information or numerical information indicating which of the participants the listener is. Also, the estimation result information D4 may be numerical information expressing the probability that one of the participants is the receiver.
  • the output information D5 is, for example, information such as character string information or numerical information indicating the result of estimation of the receiver, or an image indicating the receiver.
  • the output information D5 may also include numerical information representing the probability that one of the participants is the listener.
  • the input unit 40 receives the device information B0 and the area state information A0. That is, the input unit 40 receives at least one of the target device information B1 and the peripheral device information B2, and at least one of the audio information A1 and the video information A2.
  • the constraint state information acquisition unit 110 acquires (that is, generates) constraint state information D2 based on the device information B0, the area state information A0, and the constraint reference data C1.
  • the restricted state information acquisition unit 110 acquires the target device information B1 and the peripheral device information B2 based on predetermined restricted state items (for example, the running state, device operation, seat position, etc. in the restricted state information D2 of FIG. 5). , audio information A1, and video information A2 to generate constraint state information D2. Further, the constraint state information acquisition unit 110 may generate the constraint state information D2 by referring to the constraint reference data C1 and extracting information corresponding to a predetermined constraint state item from the constraint reference data C1. .
  • predetermined restricted state items for example, the running state, device operation, seat position, etc. in the restricted state information D2 of FIG. 5
  • audio information A1 for example, the running state, device operation, seat position, etc. in the restricted state information D2 of FIG. 5
  • audio information A1 for example, the running state, device operation, seat position, etc. in the restricted state information D2 of FIG. 5
  • audio information A1 for example, the running state, device operation, seat position, etc. in the restricted state
  • the constraint state information acquisition unit 110 obtains the constraint reference data C1 shown in FIG. , seat position, etc.
  • the constraint state information acquisition unit 110 obtains the vehicle running state (eg, running, stopped) or device operation (eg, steering wheel operation, accelerator operation, blinker operation) from the peripheral device information B2 as a constraint state corresponding to the acquired constraint state.
  • information such as the seat positions of the participants in the vehicle (for example, the driver's seat and the passenger's seat) are obtained from the video information A2.
  • the constraint state information acquisition unit 110 provides the acquired information indicating the constraint state as information for each frame arranged in time series, as shown in FIG.
  • the feature quantity extraction unit 120 generates feature quantity information D0 by extracting a feature quantity from the area state information A0. That is, the feature quantity extraction unit 120 generates the feature quantity information D0 by extracting a feature quantity from at least one of the audio information A1 and the video information A2.
  • the feature quantity extraction unit 120 extracts speech feature quantities such as the pitch, power, and spectrum of sound from the speech information A1. Further, the feature amount extraction unit 120 extracts image feature amounts such as the participant's face orientation, line-of-sight direction, degree of mouth opening, and the like, from the video information A2.
  • a known method can be used as a method for extracting the image feature amount from the video information A2.
  • the feature amount extraction unit 120 may generate the feature amount information D0 by storing the extracted feature amount for each frame corresponding to the time series as shown in FIG. Further, in FIG. 6, the feature amount extraction unit 120 extracts the feature amount for each frame arranged in time series, but the feature amount may be extracted for each utterance to be estimated by the listener. In this case, feature amount extraction section 120 may use a statistical value (for example, average value, maximum value, representative value, etc.) in each utterance unit as the value included in feature amount information D0.
  • a statistical value for example, average value, maximum value, representative value, etc.
  • the preliminary motion information selection unit 160 corresponds to the restricted state information D2 (for example, the frame number t_20, the running state is running, and the seat position is the driver's seat) from the preliminary motion condition data C2. (For example, condition R_1, driving state is running, equipment operation is left turn, seat position is driver's seat, acquisition preliminary action period is the period from the current time to the past 10 seconds.) is selected. do.
  • the preliminary motion information selection unit 160 selects the feature amount information D0 of the acquisition period from the current time to the past 10 seconds, and outputs the feature amount information D1 of the acquisition period based on this preliminary motion information.
  • Step S50 in FIG. 4 The feature quantity processing unit 130 generates processed feature quantity information D3 from the feature quantity information D1 using the constraint state information D2 and the constraint reference data C1.
  • feature quantity processing section 130 selects desired information from feature quantity information D1 based on constraint state information D2 and constraint state reference items obtained from constraint reference data C1. By doing so, the processed feature amount information D3 is generated.
  • the feature amount processing unit 130 refers to the constraint state items including the driving state information, the device operation information, the seat position information, etc. from the constraint state information D2, and the constraint state items corresponding to these constraint state items. Acquire the constraint state criterion item of the criterion data C1.
  • the feature amount processing unit 130 selects a desired value from the feature amount information D1 based on the constraint state information D2 and the constraint state reference item obtained from the constraint reference data C1. Information is selected and weighted to generate processed feature amount information D3.
  • the feature quantity processing unit 130 refers to constraint state items such as driving state information, equipment operation information, and seat position information from the constraint state information D2, and sets constraint criteria corresponding to these constraint state items. Acquire the constraint state criterion item of the data C1.
  • the feature amount processing unit 130 determines the size of the participant's constraint in the constraint state criterion item in which the running state information is "running", the device operation information is “accelerator”, and the seat position information is “driver's seat”. Set the weight to "large” and the weight to "0.5". When the size of the constraint is “large” and the weight is "0.5”, the feature amount processing unit 130 calculates the "face orientation" of the image feature amount in the feature amount information D0 based on the size and weight of the constraint. ] column, the processed feature amount information D3 is generated.
  • the listener estimation unit 140 estimates the listener from the processed feature amount information D3, and outputs estimation result information D4 indicating the estimation result. That is, the listener estimation unit 140 receives the processed feature amount information D3 including at least one of the speech feature amount or the image feature amount associated with the utterance to be estimated by the receiver, and estimates the receiver.
  • Step S70 in FIG. 4 The output unit 50 outputs output information D5 based on the estimation result information D4.
  • the output unit 50 outputs, as output information D5, character string information, numerical information, an image indicating the receiver, etc., based on the estimation result information D4. Further, the output unit 50 may output numerical information indicating the probability that each of the participants is the receiver as the output information D5.
  • FIG. 12 is a functional block diagram schematically showing the configuration of listener estimation apparatus 200 according to the second embodiment.
  • Listener estimation apparatus 200 is an apparatus capable of implementing the listener estimation method according to the second embodiment. 12, the same or corresponding components as those shown in FIG. 2 are given the same reference numerals as those shown in FIG.
  • the listener estimation apparatus 200 according to Embodiment 2 further includes a preliminary motion type acquisition unit 180 that outputs preliminary motion type information regarding which of before, during, and after an utterance based on the feature amount information D0.
  • Listener estimation apparatus 200 according to the second embodiment is the same as listener estimation apparatus 100 according to the first embodiment with respect to other configurations.
  • FIG. 13 is a flowchart showing the operation of the listener estimation device 200.
  • the preliminary motion type acquisition unit 180 acquires the preliminary motion type information based on the feature amount information D0 (step S35), and the preliminary motion information selection unit 160 acquires the feature amount information D0 and the constraint state information. Selecting preliminary motion information from preliminary motion condition data C2 based on D2, preliminary motion condition data C2, and preliminary motion type information, and outputting feature amount information D1 of the acquisition period based on the selected preliminary motion information ( Step S40) is different from listener estimation apparatus 100 according to the first embodiment. Regarding other operations, listener estimation apparatus 200 according to the second embodiment is the same as listener estimation apparatus 100 according to the first embodiment.
  • FIG. 14 is a diagram showing the operation of the preliminary motion type acquisition unit 180 shown in FIG.
  • Preliminary motion type acquisition section 180 outputs preliminary motion type information regarding before, during, or after speech to preliminary motion information selection section 160 based on feature amount information D0.
  • FIG. 14 shows that the user is speaking when the voice power is high, and that the voice power is high when speaking to the device.
  • FIG. 14 shows that when the degree of opening of the mouth is 0, the person is not speaking, and when the degree of opening of the mouth is a large value, the person is speaking.
  • FIG. 15 is a diagram showing an example of the operation of the preliminary motion information selection section 160 shown in FIG.
  • Preliminary motion information selecting section 160 selects from second storage section 170 the first period corresponding to restricted state information D2 acquired by restricted state information acquiring section 110 and the second period indicated by the preliminary motion type information.
  • Preliminary motion information including the acquisition period is selected, and the feature amount information D1 of the acquisition period is output based on the selected preliminary motion information including the acquisition period.
  • the first period of time is the period of 5 seconds before the utterance.
  • the second period is the period indicated by the preliminary motion type information, and is the period during which the user is speaking.
  • the preliminary motion information selection unit 160 selects preliminary motion information from the preliminary motion condition data C2 based on the feature amount information D0, the constraint state information D2, the preliminary motion condition data C2, and the preliminary motion type information, An example of processing for outputting feature amount information D1 for an acquisition period based on selected preliminary motion information is shown. Subsequent processing is the same as in the case of the first embodiment.
  • the first storage unit 150 and the second storage unit 170 are shown as part of the listener estimation device, but they are connected to the listener estimation device. It may be a storage device provided in a server on a network that can communicate with an external storage device or a communication device provided in the receiver estimation device.
  • Second storage unit 180 Preliminary motion type acquisition unit, A0 Region state information, A1 Audio information, A2 Video information, B0 Device information, B1 Target device information, B2 Peripheral device information, C1 Constraint reference data, C2 Preliminary motion condition data, D0 Feature amount information , D1: Acquisition period feature amount information, D2: Restricted state information, D3: Processing feature amount information, D4: Estimation result information, D5: Output information.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

受話者推定装置(100)は、領域状態情報(A0)から特徴量情報(D0)を生成する特徴量抽出部(120)と、領域状態情報(A0)、機器状態情報(B0)、及び制約基準データ(C1)に基づいて、制約状態情報(D2)を取得する制約状態情報取得部(110)と、予め想定された制約状態情報(D2´)と特徴量情報の取得期間を含む予備動作情報との関係を示す予備動作条件データ(C2)から、制約状態情報に対応する取得期間を含む予備動作情報を選択し、取得期間の特徴量情報(D1)を出力する予備動作情報選択部(160)と、制約状態情報(D2)及び制約基準データ(C1)に基づいて取得期間の特徴量情報(D1)から受話者の推定に用いられる1つ以上の特徴量を選択し、1つ以上の特徴量に基づく加工特徴量情報(D3)を生成する特徴量加工部(130)と、加工特徴量情報に基づいて受話者を推定する受話者推定部(140)とを有する。

Description

受話者推定装置、受話者推定方法、及び受話者推定プログラム
 本開示は、受話者推定装置、受話者推定方法、及び受話者推定プログラムに関する。
 会話の参加者の映像情報及び音声情報などに基づいて発話者が発する音声の受け手である受話者を推定する受話者推定装置の提案がある。例えば、特許文献1を参照。この技術を用いれば、発話者が意図する受話者を推定することができる。受話者は、例えば、発話者以外の参加者又は音声操作を受け付けることができる機器である。
国際公開第2020/240730号
 しかしながら、上記受話者推定装置において、受話者の推定精度を向上させたいという要求がある。
 本開示は、受話者の推定精度を向上させることができる受話者推定装置、受話者推定方法、及び受話者推定プログラムを提供することを目的とする。
 本開示の受話者推定装置は、発話者が発する音声の受話者を推定する装置であって、
 状態取得部によって取得された、前記発話者を含む1人以上の参加者が存在する領域内の状態を示す領域状態情報から前記領域内の状態についての特徴量を抽出することによって、特徴量情報を生成する特徴量抽出部と、音声による操作を受け付ける対象機器を含む機器の状態を示す機器状態情報を取得し、前記領域内において前記参加者の行動を制約する状態を示すデータである制約基準データを予め記憶する第1の記憶部から前記制約基準データを取得し、前記領域状態情報、前記機器状態情報、及び前記制約基準データに基づいて、前記参加者の行動を制約している状態を示す制約状態情報を取得する制約状態情報取得部と、予め想定された制約状態情報と前記特徴量情報の取得期間を含む予備動作情報との関係を示す予備動作条件データを予め記憶する第2の記憶部から、前記制約状態情報に対応する前記取得期間を含む予備動作情報を選択し、選択された前記取得期間を含む予備動作情報に基づいて前記取得期間の前記特徴量情報を出力する予備動作情報選択部と、前記制約状態情報及び前記制約基準データに基づいて前記取得期間の前記特徴量情報から前記受話者の推定に用いられる1つ以上の特徴量を選択し、前記1つ以上の特徴量に基づく加工特徴量情報を生成する特徴量加工部と、前記加工特徴量情報に基づいて前記受話者を推定する受話者推定部と、を有することを特徴とする。
 本開示の受話者推定方法は、発話者が発する音声の受話者を推定する受話者推定装置によって実行される方法であって、状態取得部によって取得された、前記発話者を含む1人以上の参加者が存在する領域内の状態を示す領域状態情報から前記領域内の状態についての特徴量を抽出することによって、特徴量情報を生成するステップと、音声による操作を受け付ける対象機器を含む機器の状態を示す機器状態情報を取得し、前記領域内において前記参加者の行動を制約する状態を示すデータである制約基準データを予め記憶する第1の記憶部から前記制約基準データを取得し、前記領域状態情報、前記機器状態情報、及び前記制約基準データに基づいて、前記参加者の行動を制約している状態を示す制約状態情報を取得するステップと、予め想定された制約状態情報と前記特徴量情報の取得期間を含む予備動作情報との関係を示す予備動作条件データを予め記憶する第2の記憶部から、前記制約状態情報に対応する前記取得期間を含む予備動作情報を選択し、選択された前記取得期間を含む予備動作情報に基づいて前記取得期間の前記特徴量情報を出力するステップと、前記制約状態情報及び前記制約基準データに基づいて前記取得期間の前記特徴量情報から前記受話者の推定に用いられる1つ以上の特徴量を選択し、前記1つ以上の特徴量に基づく加工特徴量情報を生成するステップと、前記加工特徴量情報に基づいて前記受話者を推定するステップと、を有することを特徴とする。
 本開示によれば、受話者の推定精度を向上させることができる。
実施の形態1に係る受話者推定システムの構成を概略的に示す図である。 実施の形態1に係る受話者推定装置の構成を概略的に示す機能ブロック図である。 実施の形態1に係る受話者推定装置のハードウェア構成の例を示す図である。 実施の形態1に係る受話者推定装置の動作を示すフローチャートである。 図1に示される制約状態情報取得部の動作の例を示す図である。 図1に示される特徴量抽出部の動作の例を示す図である。 図1に示される予備動作条件データの例を示す図である。 図1に示される予備動作条件データの他の例を示す図である。 図1に示される予備動作情報選択部の動作の例を示す図である。 図1に示される特徴量加工部の動作の例を示す図である。 図1に示される特徴量加工部の動作の他の例を示す図である。 実施の形態2に係る受話者推定装置の構成を概略的に示す機能ブロック図である。 実施の形態2に係る受話者推定装置の動作を示すフローチャートである。 図12に示される予備動作種別取得部の動作を示す図である。 図12に示される予備動作情報選択部の動作の例を示す図である。
 以下に、実施の形態に係る受話者推定装置、受話者推定方法、及び受話者推定プログラムを、図面を参照しながら説明する。以下の実施の形態は、例にすぎず、実施の形態を適宜組み合わせること及び各実施の形態を適宜変更することが可能である。
《1》実施の形態1
《1-1》構成の概要
〈受話者推定システム〉
 図1は、実施の形態1に係る受話者推定システムの構成を概略的に示す図である。受話者推定システムは、状態取得部20と、機器30と、入力部40と、受話者推定装置100と、出力部50とを有する。入力部40及び出力部50は、受話者推定装置100の一部であってもよい。入力部40は、信号を受信する入力装置としての入力インタフェースである。出力部50は、信号を出力する出力装置としての出力インタフェースである。
 受話者推定装置100は、1人以上の会話の参加者のうちのいずれか1人である発話者が発する音声の受話者すなわち発話者が意図する受話者を推定する。参加者は、予め決められた領域10に存在する。会話の参加者は、例えば、複数の参加者11,12,…である。発話者が、音声操作を受け付ける対象機器31に宛てた音声(例えば、音声操作のための音声メッセージ)を発する場合には、会話の参加者は発話者である1名の参加者であってもよい。受話者推定システムは、例えば、車両に搭載される車両用のシステムである。領域10は、例えば、車両の車室である。参加者は、例えば、車両の運転者と同乗者である。
 状態取得部20は、領域10内の状態を示す領域状態情報A0を取得し、領域状態情報A0を入力部40に送信する。状態取得部20は、例えば、領域10内における音声を取得することによって音声情報A1を生成する音声取得部21と、領域10内の映像を撮影することによって映像情報A2を生成する映像取得部22とを有する。音声取得部21は、例えば、1台以上のマイクを有する。映像取得部22は、例えば、1台以上のカメラを有する。領域状態情報A0は、音声情報A1及び映像情報A2の少なくとも1つを含む情報である。音声情報A1は、参加者である発話者が発する音声(すなわち、発話者の発話)に基づく情報である。映像情報A2は、発話者を含む参加者を撮影することによって取得された動画像又は静止画像の情報である。映像情報A2は、例えば、参加者の発話時における振る舞いを含む動画像又は静止画像の情報である。例えば、映像情報A2は、参加者の顔又は参加者の身体の全体の動作を示す画像の情報である。映像情報A2は、時系列に並ぶ複数フレームの画像から構成される動画像の情報であってもよい。
 機器30は、機器30自身の状態を示す機器情報(「機器状態情報」ともいう。)B0を入力部40に送信する。機器30は、例えば、参加者によって操作される対象機器31と、参加者によって操作される周辺機器32とを有する。対象機器31は、音声による指示に従って動作する音声操作機能を有する機器(「音声対話機器」とも称される。)である。対象機器31は、例えば、車両内に備えられたカーナビゲーションシステムを含む車載機器又は対話型の音声操作に対応したスピーカであるスマートスピーカである。対象機器情報B1は、例えば、地図情報を利用可能なカーナビゲーションシステムにおける測位装置であるGPS(Global Positioning System)によって計測されるGPS情報などの現在地情報、走行経路に関する案内音声情報、などを含んでもよい。対象機器31は、表示画面33を有してもよい。
 周辺機器32は、対象機器31以外の機器である。周辺機器32は、例えば、車両自体又は車両の一部である。周辺機器32は、車両の車室などの参加者の会話の場(すなわち、領域10)の周囲に存在する機器である。周辺機器32は、参加者のいずれかによって操作されたときに、参加者の行動を制約する状態が生じ得る機器である。参加者の行動は、例えば、参加者の姿勢及び動作(すなわち、動き)を含む。参加者の行動は、参加者の振る舞いとも称される。また、参加者の行動を制約する状態は、例えば、参加者の座席の位置、参加者が機器30を操作している状態、参加者が前方を注視している状態、などを含む。周辺機器情報B2は、領域10の周囲に存在する周辺機器32の状態を表す情報を少なくとも含む。例えば、周辺機器情報B2は、周辺機器32が自動車であれば車速及びハンドル操作情報を含むCAN(Controller Area Network)情報、走行状態を示す走行状態情報、などを含む。走行状態情報は、車両が走行中である状態、車両が停車中である状態、などを含む。
 対象機器31は、対象機器31自身の状態を示す対象機器情報B1を入力部40に送信する。周辺機器32は、周辺機器32自身の状態を示す周辺機器情報B2を入力部40に送信する。機器情報B0は、対象機器情報B1及び周辺機器情報B2の少なくとも1つを含む情報である。
 受話者推定装置100は、機器情報B0、領域状態情報A0、及び予め記憶された各種の基準データ(例えば、後述の図2に示されるC1、C2など)に基づいて、発話者が意図する受話者を推定し、推定された受話者を示す情報を含む推定結果情報D4を出力する。受話者推定装置100は、受話者の推定に用いられる加工特徴量情報(後述の図2に示されるD3)の取得のために、参加者の行動を制約する制約状態項目を含む制約状態情報(後述の図2に示されるD2)を考慮に入れる。つまり、制約状態情報は、複数の制約状態項目を含む。制約状態項目は、例えば、発話者の座席の位置、発話者が機器30を操作している状態、発話者が前方を注視している状態、などを含む。図1の例では、受話者は、参加者のうちの発話者以外の参加者又は対象機器31である。
 出力部50は、推定結果情報D4に基づく出力情報D5を出力する。例えば、受話者が対象機器31であると推定された場合、出力部50は、対象機器31に、受話者が対象機器31であることを示す出力情報D5を送信する。出力情報D5を受信した対象機器31は、発話者が発する音声が自己に対する音声操作であると判断し、音声操作に従って動作することができる。一方、対象機器31は、受話者が対象機器31であることを示す出力情報D5を受信しない場合又は受話者が対象機器31でないことを示す出力情報D5を受信した場合には、発話者が発する音声が自己に対する音声操作ではないと判断することができる。
〈受話者推定装置100〉
 図2は、実施の形態1に係る受話者推定装置100の構成を概略的に示す機能ブロック図である。受話者推定装置100は、実施の形態1に係る受話者推定方法を実施することができる装置である。図2に示されるように、受話者推定装置100は、制約状態情報取得部110と、制約基準データC1を記憶する第1の記憶部150と、特徴量抽出部120と、特徴量加工部130と、受話者推定部140と、予備動作情報選択部160と、予備動作条件データC2を記憶する第2の記憶部170とを有する。受話者推定装置100は、入力部40を介して受け取った機器情報B0及び領域状態情報A0と、予め記憶された各種の基準データである制約基準データC1及び予備動作条件データとに基づいて受話者を推定するための処理を行い、推定の結果を示す推定結果情報D4を出力する。出力部50は、推定結果情報D4に基づく出力情報D5を出力する。第1の記憶部150と第2の記憶部170とは、互いに異なる記憶装置であってもよい。第1の記憶部150と第2の記憶部170とは、同じ記憶装置の中の互いに異なる記憶領域であってもよい。
 図3は、実施の形態1に係る受話者推定装置100のハードウェア構成の例を示す図である。受話者推定装置100は、例えば、ソフトウェアとしてのプログラム、すなわち、実施の形態1に係る受話者推定プログラムを格納する記憶装置としてのメモリ202と、メモリ202に格納されたプログラムを実行する情報処理部としてのプロセッサ201とを備える。受話者推定装置100は、汎用のコンピュータであってもよい。プロセッサ201は、演算装置である。演算装置は、CPU(Centaral Processiong Unit)を有する。演算装置は、CPUに加えてGPU(Graphics Processing Unit)を有してもよい。演算装置は、時刻情報を提供する時刻提供機能を備えてもよい。
 受話者推定プログラムは、情報を記憶する記憶媒体から媒体読取装置(図示せず)を介して又はインターネットなどに接続可能な通信インタフェース(図示せず)を介してメモリ202に格納される。また、受話者推定装置100は、データベースなどの各種情報を格納する記憶装置であるストレージ203を有してもよい。ストレージ203は、通信インタフェース(図示せず)を介して接続可能なクラウド上に存在する記憶装置であってもよい。プロセッサ201は、種々のプログラムをストレージ203から読み込んで、メモリ202を作業エリアとしてプログラムを実行する。また、受話者推定装置100は、画像を表示するディスプレイを有してもよい。
 図2に示される制約状態情報取得部110、特徴量抽出部120、特徴量加工部130、及び受話者推定部140は、メモリ202に格納されているプログラムを実行するプロセッサ201によって実現されることができる。また、図2に示される各構成の一部を、メモリ202に格納されているプログラムを実行するプロセッサ201によって実現してもよい。また、図2に示される第1の記憶部150及び第2の記憶部170は、ストレージ203の一部であってもよい。
 入力装置である入力インタフェース204は、図2に示される入力部40である。出力装置である出力インタフェース205は、図2に示される出力部50である。
 なお、図2に示される入力部40、制約状態情報取得部110、特徴量抽出部120、予備動作情報選択部160、特徴量加工部130、受話者推定部140、及び出力部50の全体又は一部は、電気回路によって実現されてもよい。
 図4は、受話者推定装置100の動作を示すフローチャートである。入力部40は、機器情報B0及び領域状態情報A0を入力情報として受信する。機器情報B0及び領域状態情報A0は、受話者推定装置100に提供される。機器情報B0は、対象機器情報B1、又は周辺機器情報B2、又はこれらの両方を含む。領域状態情報A0は、音声情報A1、又は映像情報A2、又はこれらの両方を含む。入力部40は、受信された機器情報B0及び領域状態情報A0を、制約状態情報取得部110に提供する。また、入力部40は、領域状態情報A0を特徴量抽出部120に提供する。
 制約状態情報取得部110は、発話者を含む1人以上の参加者が存在する領域10内の状態を示す領域状態情報A0を取得し、音声による操作を受け付ける対象機器31を含む機器30の状態を示す機器情報B0を取得し、領域10内において参加者の行動を制約する状態を示すデータである制約基準データC1を取得し、領域状態情報A0、機器情報B0、及び制約基準データC1に基づいて、参加者の行動を制約している状態を示す制約状態情報D2を取得する(ステップS10、S20)。特徴量抽出部120は、発話者を含む1人以上の参加者が存在する領域10内の状態を示す領域状態情報A0から領域10内の状態についての特徴量を抽出することによって、特徴量情報D0を生成する(ステップS30)。
 予備動作情報選択部160は、予め想定された制約状態情報D2´と特徴量情報D0の取得期間を含む予備動作情報との関係を示す予備動作条件データC2を予め記憶する第2の記憶部170から、制約状態情報D2に対応する取得期間を含む予備動作情報を選択し、選択された取得期間を含む予備動作情報に基づいて取得期間の特徴量情報D1を出力する(ステップS40)。特徴量加工部130は、制約状態情報D2及び制約基準データC1に基づいて取得期間の特徴量情報D1から受話者の推定に用いられる1つ以上の特徴量を選択し、1つ以上の特徴量に基づく加工特徴量情報D3を生成する(ステップS60)。受話者推定部140は、加工特徴量情報D3に基づいて受話者を推定する(ステップS70)。
《1-2》構成の詳細
〈制約状態情報取得部110〉
 次に、各構成を詳細に説明する。制約状態情報取得部110は、受話者の発話時に、機器情報B0及び領域状態情報A0を入力部40から受け取る。また、制約状態情報取得部110は、制約基準データC1を参照する。制約状態情報取得部110は、参加者の行動を制約する制約状態を示す制約状態情報D2を取得(すなわち、生成)する。制約状態情報取得部110は、取得された制約状態情報D2を、特徴量加工部130と予備動作情報選択部160に提供する。制約状態情報D2は、例えば、発話者の姿勢の制約、周囲状況による発話者の動きの制約、などの発話者の行動の制約を示す情報を含む。制約状態情報D2は、例えば、文字列情報、数値情報、などで表現される。
 図5は、制約状態情報取得部110の動作の例を示す図である。図5は、第1の記憶部150に記憶されている制約基準データC1の例と制約状態情報取得部110によって生成される制約状態情報D2の例とを表形式で示している。図5は、図4のステップS20の動作を示す。図5では、制約基準データC1は、制約条件R_1からR_mとして示される、制約状態基準項目を含んでいる。mは、正の整数である。図5の例では、制約基準データC1は、制約の大きさ(すなわち、制約の程度)を示す情報を含んでいる。制約条件R_1からR_mとして示される制約状態基準項目の各々は、走行状態情報、周辺機器32の操作状態である機器操作情報、発話者の座席の位置である席位置情報、などを含んでいる。ただし、制約基準データC1は、図5の例に限定されない。
 制約状態情報取得部110は、機器情報B0、領域状態情報A0、及び制約基準データC1に基づいて制約状態情報D2を生成する。図3に示される制約状態情報D2は、時系列順に並ぶフレーム番号t_1からt_nのn個のフレームの各々における制約状態項目を含んでいる。制約状態情報取得部110は、制約状態情報D2を特徴量加工部130と予備動作情報選択部160に提供する。また、制約状態情報D2は、発話時における受話者の候補である参加者に関する項目を含んでもよい。制約状態情報取得部110は、生成される制約状態情報D2に含まれる複数のフレームの各々における制約状態項目の種類を予め定めていてもよい。制約状態情報取得部110は、制約基準データC1に含まれる制約状態項目として、例えば、走行状態情報、機器操作情報、席位置情報、などを設定する。
 例えば、参加者が存在する領域10が車内である場合、制約状態情報取得部110は、生成される制約状態情報D2に含まれる制約状態項目を、周辺機器情報B2に基づいて車両の走行状態情報、周辺機器32の機器操作情報、参加者の席位置情報、などに設定することができる。車両の走行状態情報は、例えば、車両が走行中である走行状態、車両が徐行している徐行状態、車両が停止している停止状態のいずれかを示す情報である。機器操作情報は、例えば、周辺機器32としての車両のハンドルによる右折操作、左折操作、などを含む。制約状態情報取得部110は、生成される制約状態情報D2に含まれる制約状態項目として、映像情報A2に基づいて、発話者及び発話者以外の参加者の席位置情報を含めることができる。席位置情報は、例えば、車両の運転席、助手席、後部座席、などである。
 図5に示されるように、制約基準データC1は、制約状態を表す情報と、各制約状態の組み合わせのパターンと、そのパターン毎に制約の大きさを定めた情報と、で構成された複数の制約状態基準項目を含むデータベースである。制約基準データC1は、例えば、図5に示されるように、制約状態を表す複数列の情報と、制約状態の組み合わせによって決定される制約の大きさを定めた情報と、を互いに対応付けた複数の制約状態基準項目で構成される。複数の制約状態基準項目には、識別記号として制約条件R_1からR_mが付される。制約状態情報取得部110は、制約基準データC1から取得する制約状態基準項目として、例えば、図5に示される制約基準データC1で定義された各列の制約状態(例えば、走行状態情報、機器操作情報、席位置情報、など)を取得する。
〈特徴量抽出部120〉
 特徴量抽出部120は、入力部40から領域状態情報A0を受け取る。つまり、特徴量抽出部120は、入力部40から音声情報A1及び映像情報A2のうちの少なくとも1つを受け取る。特徴量抽出部120は、発話者が意図する受話者の推定に用いられる1つ以上の特徴量を抽出することによって、特徴量情報D0を生成する。特徴量抽出部120は、特徴量情報D0を特徴量加工部130に提供する。
 図6は、特徴量抽出部120の動作の例を示す図である。図6は、特徴量抽出部120によって生成される特徴量情報D0の例を表形式で示している。特徴量情報D0は、音の基本周波数成分(すなわち、ピッチ)、音圧(すなわち、パワー)、音のスペクトル、などの音声特徴量を含むことができる。特徴量情報D0は、参加者の顔向き、視線方向、口の開き度合を示す開口度などの画像特徴量を含むことができる。図6に示されるように、特徴量情報D0は、時系列に対応するフレーム番号t_1からt_nのフレーム毎に抽出された音声特徴量及び画像特徴量を表形式で示している。また、特徴量情報D0は、受話者の候補である参加者の発話単位での音声情報A1の平均値又は分散などの統計値を含んでもよい。発話単位とは、同じ発話者による1回の発話の開始から終了までに対応する。特徴量情報D0は、音声情報A1から抽出された音声特徴量及び映像情報A2から抽出された画像特徴量の少なくとも1つの特徴量を表す文字列情報、数値情報、などを含んでもよい。特徴量抽出部120は、音声情報A1及び映像情報A2から抽出される特徴量の種類として、図6の例に示される種類以外の種類の特徴量を設定してもよい。
〈予備動作情報選択部160〉
 予備動作情報選択部160は、予め想定された(すなわち、予め決められた)制約状態情報D2´と特徴量情報D0の取得期間を含む予備動作情報との関係を示す予備動作条件データC2をデータベースとして予め記憶する第2の記憶部170から、制約状態情報D2に対応する取得期間を含む予備動作情報を選択し、選択された取得期間を含む予備動作情報に基づいて取得期間の特徴量情報D1を出力する。
 図7は、予備動作情報選択部160によって使用される予備動作条件データC2の例を示す図である。図7の例では、予備動作条件データC2は、予め想定された制約状態情報D2´として、車両の走行状態、車両の走行速度、機器操作、席位置、走行している道路の道路種別、次の右左折地点までの距離、ナビゲーション案内(すなわち、ナビ案内)の内容、及び道路状況を含んでおり、これらの予め想定された制約状態情報D2´に対応する特徴量情報D0の取得期間を含んでいる。
 図7の予備動作条件データC2のR_1は、予備動作を短い区間(過去5秒)で捉える時の例である。例えば、車両が早い速度(例えば、予め決められた閾値より速い速度)で走行しているときには、運転者の制約が大きく、時間に余裕のない発話者の発話は、短い予備動作(例えば、ナビ案内「次を右折です」のすぐ後、車両が「交差点付近」を走行している、など)に続いて行われる傾向がある。このような場合には、短い取得期間(例えば、過去5秒)の特徴量情報D1を用いることで、これより長い取得期間の特徴量情報D1を用いる場合(すなわち、余分な情報を含んでいる場合)よりも、受話者の推定精度が向上すると考えられる。
 図7の予備動作条件データC2のR_3は、予備動作を長い区間(過去20秒)で捉える時の例である。例えば、車両が遅い速度(例えば、予め決められた閾値以下の速度)で徐行しているときには、運転者の制約が小さく、時間に余裕のある発話者の発話は、長い予備動作(例えば、ナビ案内「直進です」の後、車両が「信号付近」を走行している、など)に続いて行われる傾向がある。このような場合には、長い取得期間(例えば、過去20秒)の特徴量情報D1を用いることで、これより短い取得期間の特徴量情報D1を用いる場合(すなわち、必要な情報を含んでいない場合)よりも、受話者の推定精度が向上すると考えられる。
 図8は、予備動作情報選択部160によって使用される予備動作条件データC2の他の例を示す図である。図8の例では、予備動作条件データC2は、予め想定された制約状態情報D2´として、車両の走行状態、車両の走行速度、機器操作、席位置、走行している道路の道路種別、次の右左折地点までの距離、ナビゲーション案内(すなわち、ナビ案内)の内容、及び道路状況を含んでおり、これらの予め想定された制約状態情報D2´に対応する特徴量情報D0の取得期間を含んでいる。
 図8の予備動作条件データC2のR_2は、予備動作を中間の長さの区間(過去15秒)で捉える時の例である。例えば、道路種別により、制約が常時大きいと推測できるときには、運転者に時間の余裕があまりないので、発話者の発話は、比較的短い予備動作に続いて行われる傾向がある。例えば、高速道路の走行は常時緊張感を強いられるため制約が大きいが、発話者の予備動作がある程度余裕を持って起こすため、比較的長い区間で予備動作を捉える必要がある。このような場合には、比較的長い取得期間(例えば、過去15秒)の特徴量情報D1を用いることで、これより短い取得期間の特徴量情報D1を用いる場合(すなわち、必要な情報を含んでいない場合)よりも、受話者の推定精度が向上すると考えられる。
 図9は、予備動作情報選択部160の動作の例を示す図である。図9は、図4のステップS40の動作の例を示す。図9に示されるように、予備動作情報選択部160は、予め想定された(すなわち、予め決められた)制約状態情報D2´(例えば、条件、走行状態、機器操作、席位置の項目を含む)と特徴量情報D0の取得期間を含む予備動作情報(例えば、取得予備動作の期間)との関係を示す予備動作条件データC2から、制約状態情報D2(例えば、フレーム番号t_20、走行状態が走行、席位置が運転席)に対応する取得期間を含む予備動作情報(例えば、条件R_1、走行状態が走行、機器操作が左折、席位置が運転席、取得予備動作の期間が現時点から過去10秒までの期間である。)を選択する。予備動作情報選択部160は、現時点から過去10秒までの取得期間(フレーム番号t_10からt_20の期間)の特徴量情報D0を選択し、この予備動作情報に基づく取得期間(フレーム番号t_10からt_20の期間)の特徴量情報D1を出力する。
〈特徴量加工部130〉
 特徴量加工部130は、制約状態情報D2及び制約基準データC1に基づいて取得期間(フレーム番号t_10からt_20の期間)の特徴量情報D1から受話者の推定に用いられる特徴量を選択し、選択された1つ以上の特徴量に基づく加工特徴量情報D3を生成する。特徴量加工部130は、加工特徴量情報D3を受話者推定部140に提供する。
 図10は、特徴量加工部130の動作の例を示す図である。特徴量加工部130は、制約状態情報D2及び制約基準データC1に基づいて特徴量情報D1から1つ以上の特徴量を選択し、選択された1つ以上の特徴量を加工特徴量情報D3とする。図5に示されるように、特徴量加工部130は、制約状態情報D2に基づいて、制約基準データC1から参照する情報である制約条件R_1からR_mのいずれかで示される制約状態基準項目を取得する。図10の例では、制約状態情報D2は、走行状態、機器操作、席位置、などを示す制約状態項目を含む。特徴量加工部130は、制約状態情報D2及び制約基準データC1に基づいて、参加者の制約の大きさを「大」と設定する加工特徴量情報D3を生成する。特徴量加工部130は、加工特徴量情報D3として設定される制約状態基準項目を予め定めておいてもよい。また、特徴量加工部130は、「制約の大きさ」を表す情報に応じて特徴量の選択及び加工を行ってもよい。また、特徴量加工部130は、加工などの処理を行う特徴量を示す情報を制約状態基準項目ごとに定めてもよい。
 図11は、特徴量加工部130の動作の他の例を示す図である。特徴量加工部130は、制約状態情報D2及び制約基準データC1に基づいて得られた制約状態に基づいて特徴量情報D1から1つ以上の特徴量を選択し、選択された1つ以上の特徴量の各々に重み付けを行うことによって加工特徴量情報D3を生成してもよい。図11は、制約状態情報D2に基づいて制約基準データC1から取得する制約状態基準項目の例を示す。図11に示されるように、特徴量加工部130は、制約状態情報D2に基づいて、制約基準データC1から参照する情報である制約条件R_1からR_mのいずれかで示される制約状態基準項目を取得する。特徴量加工部130は、制約状態情報D2及び制約基準データC1に基づいて、参加者の制約の大きさを「大」、重みを「0.5」と設定する加工特徴量情報D3を生成する。特徴量加工部130は、加工特徴量情報D3として設定される制約状態基準項目を予め定めておいてもよい。また、特徴量加工部130は、「制約の大きさ」及び制約の「重み」を表す情報に応じて特徴量の選択及び加工を行ってもよい。また、特徴量加工部130は、加工などの処理を行う特徴量を示す情報を制約状態基準項目ごとに定めてもよい。設定された重みは、特徴量を表す値を加工するために用いられる値であればよい。設定された重みは、受話者を推定する際に用いられる統計モデル、SVM(サポートベクターマシン)又はニューラルネットワークなどの識別器のパラメータ又はネットワーク情報などに用いる値であってもよい。
〈受話者推定部140〉
 受話者推定部140は、加工特徴量情報D3を受け取り、受話者を推定した結果を示す推定結果情報D4を出力部50に提供する。加工特徴量情報D3は、受話者の推定の対象となる発話に伴う音声特徴量又は画像特徴量を表す値の少なくとも1つを含む。受話者の推定には、記憶部に記憶されている推定基準データを用いてもよい。ここで、推定基準データは、参加者の発話時における発話内容、顔向き又は視線方向などの加工特徴量情報D3の組み合わせによる受話者の推定のルールが予め定められた基準データを含む。また、加工特徴量情報D3を基に受話者を推定するための、統計モデル、SVM(Support Vector Machine)又はニューラルネットワークなどのパラメータ又はモデルであればよい。
〈出力部50〉
 出力部50は、推定結果情報D4に基づく、受話者の推定の結果を示す出力情報D5を出力する。推定結果情報D4は、例えば、受話者が参加者のうちのいずれであるかを示す文字列情報又は数値情報を含む。また、推定結果情報D4は、参加者のうちのいずれかが受話者であることを示す確率を表現した数値情報などであってもよい。出力情報D5は、推定結果情報D4を基に、例えば、受話者の推定の結果を示す情報を表した文字列情報又は数値情報、又は受話者を示す画像などの情報である。また、出力情報D5は、参加者のうちのいずれかが受話者であることを示す確率を表した数値情報を含んでもよい。
《1-3》動作
 次に、実施の形態1に係る受話者推定装置100の動作を詳細に説明する。
(図4のステップS10)
 入力部40は、機器情報B0及び領域状態情報A0を受信する。すなわち、入力部40は、対象機器情報B1及び周辺機器情報B2の少なくとも1つと、音声情報A1及び映像情報A2の少なくとも1つを受信する。
(図4のステップS20)
 制約状態情報取得部110は、機器情報B0、領域状態情報A0、及び制約基準データC1に基づいて制約状態情報D2を取得(すなわち、生成)する。
 制約状態情報取得部110は、予め定められた制約状態項目(例えば、図5の制約状態情報D2における走行状態、機器操作、席位置、など)に基づいて、対象機器情報B1、周辺機器情報B2、音声情報A1、及び映像情報A2、から該当する制約状態項目を取得することによって制約状態情報D2を生成する。また、制約状態情報取得部110は、制約基準データC1を参照し、制約基準データC1から、予め定められた制約状態項目に対応する情報を抽出することによって制約状態情報D2を生成してもよい。
 例えば、受話者推定装置100が車内における参加者の会話の受話者を推定する場合、制約状態情報取得部110は、図5に示される制約基準データC1から、制約状態である走行状態、機器操作、席位置、などの情報を取得する。制約状態情報取得部110は、取得した制約状態に対応する制約状態として、周辺機器情報B2から車両の走行状態(例えば、走行、停止)又は機器操作(例えば、ハンドル操作、アクセル操作、ウィンカー操作)、映像情報A2から車両内における参加者の席位置(例えば、運転席、助手席)などの情報を取得する。制約状態情報取得部110は、取得した制約状態を示す情報を、図5に示されるように、時系列に並ぶフレーム毎の情報として提供する。
(図4のステップS30)
 特徴量抽出部120は、領域状態情報A0から特徴量を抽出することによって特徴量情報D0を生成する。すなわち、特徴量抽出部120は、音声情報A1及び映像情報A2の少なくとも1つから特徴量を抽出することによって特徴量情報D0を生成する。
 例えば、特徴量抽出部120は、音声情報A1から、音のピッチ、パワー、スペクトルなどの音声特徴量を抽出する。また、特徴量抽出部120は、映像情報A2から、参加者の顔向き、視線方向、口の開き度合である開口度、などの画像特徴量を抽出する。映像情報A2から画像特徴量を抽出する手法としては、公知の方法を使用することができる。特徴量抽出部120は、抽出した特徴量を、図6に示されるように時系列に対応するフレーム毎に格納することによって、特徴量情報D0を生成してもよい。また、図6では、特徴量抽出部120は、時系列に並ぶフレーム毎に特徴量を抽出しているが、受話者の推定の対象となる発話単位で特徴量を抽出してもよい。この場合、特徴量抽出部120は、特徴量情報D0に含まれる値として、各発話単位における統計値(例えば、平均値、最大値、代表値など)を用いてもよい。
(図4のステップS40)
 予備動作情報選択部160は、図7から図9に示されるように、予備動作条件データC2から、制約状態情報D2(例えば、フレーム番号t_20、走行状態が走行、席位置が運転席)に対応する取得期間を含む予備動作情報(例えば、条件R_1、走行状態が走行、機器操作が左折、席位置が運転席、取得予備動作の期間が現時点から過去10秒までの期間である。)を選択する。予備動作情報選択部160は、現時点から過去10秒までの取得期間の特徴量情報D0を選択し、この予備動作情報に基づく取得期間の特徴量情報D1を出力する。
(図4のステップS50)
 特徴量加工部130は、制約状態情報D2及び制約基準データC1を用いて、特徴量情報D1から加工特徴量情報D3を生成する。
 図10に示されるように、特徴量加工部130は、制約状態情報D2と、制約基準データC1から得られた制約状態基準項目とに基づいて、特徴量情報D1のうちの所望の情報を選択することによって加工特徴量情報D3を生成する。図10の例では、特徴量加工部130は、制約状態情報D2から走行状態情報、機器操作情報、席位置情報、などを含む制約状態項目を参照し、これらの制約状態項目に対応する、制約基準データC1の制約状態基準項目を取得する。
 また、図11に示されるように、特徴量加工部130は、制約状態情報D2と、制約基準データC1とから得られた制約状態基準項目とに基づいて、特徴量情報D1のうちの所望の情報を選択し、重み付けすることによって加工特徴量情報D3を生成する。図11の例では、特徴量加工部130は、制約状態情報D2から走行状態情報、機器操作情報、席位置情報、などの制約状態項目を参照し、これらの制約状態項目に対応する、制約基準データC1の制約状態基準項目を取得する。例えば、特徴量加工部130は、走行状態情報が「走行」であり、機器操作情報が「アクセル」であり、席位置情報が「運転席」である制約状態基準項目における参加者の制約の大きさを「大」、重みを「0.5」に設定する。制約の大きさが「大」、重みが「0.5」である場合には、特徴量加工部130は、制約の大きさと重みに基づいて、特徴量情報D0における画像特徴量の「顔向き」の列の情報に重みを設定することによって、加工特徴量情報D3を生成する。
(図4のステップS60)
 受話者推定部140は、加工特徴量情報D3から受話者を推定し、推定の結果を示す推定結果情報D4を出力する。つまり、受話者推定部140は、受話者の推定の対象となる発話に伴う音声特徴量又は画像特徴量を少なくとも1つを含む加工特徴量情報D3を受け取り、受話者を推定する。
(図4のステップS70)
 出力部50は、推定結果情報D4に基づく出力情報D5を出力する。出力部50は、推定結果情報D4に基づく文字列情報、数値情報、受話者を示す画像、などを出力情報D5として出力する。また、出力部50は、参加者の各々が受話者である確率を示す数値情報を出力情報D5として出力してもよい。
《1-4》効果
 以上に説明したように、実施の形態1に係る受話者推定装置100、受話者推定方法、及び受話者推定プログラムを用いれば、会話時における参加者の制約状態を考慮に入れて、且つ、予備動作情報に基づく取得期間(例えば、フレーム番号t_10からt_20の期間)の特徴量情報D1を用いて、加工特徴量情報D3を生成し、受話者を推定するので、受話者の推定の精度を向上させることができる。
《2》実施の形態2
《2-1》構成
 図12は、実施の形態2に係る受話者推定装置200の構成を概略的に示す機能ブロック図である。受話者推定装置200は、実施の形態2に係る受話者推定方法を実施することができる装置である。図12において、図2に示される構成要素と同一又は対応する構成要素には、図2に示される符号と同じ符号が付される。実施の形態2に係る受話者推定装置200は、特徴量情報D0に基づいて発話前、発話中、及び発話後のいずれであるかに関する予備動作種別情報を出力する予備動作種別取得部180を更に有し、制約状態情報取得部110で取得された制約状態情報D2に対応する第1の期間と予備動作種別情報が示す第2の期間とからなる取得期間を含む予備動作情報を選択し、選択された取得期間を含む予備動作情報に基づいて取得期間の特徴量情報D1を出力する点において、実施の形態1に係る受話者推定装置100と相違する。他の構成に関して、実施の形態2に係る受話者推定装置200は、実施の形態1に係る受話者推定装置100と同じである。
 図13は、受話者推定装置200の動作を示すフローチャートである。受話者推定装置200は、予備動作種別取得部180が特徴量情報D0に基づいて予備動作種別情報を取得する点(ステップS35)と、予備動作情報選択部160が特徴量情報D0、制約状態情報D2、予備動作条件データC2、及び予備動作種別情報に基づいて、予備動作条件データC2から予備動作情報を選択し、選択された予備動作情報に基づく取得期間の特徴量情報D1を出力する点(ステップS40)とにおいて、実施の形態1に係る受話者推定装置100と相違する。他の動作に関して、実施の形態2に係る受話者推定装置200は、実施の形態1に係る受話者推定装置100と同じである。
 図14は、図12に示される予備動作種別取得部180の動作を示す図である。予備動作種別取得部180は、特徴量情報D0に基づいて発話前、発話中、及び発話後のいずれであるかに関する予備動作種別情報を予備動作情報選択部160に出力する。図14は、音声パワーが大きいときに発話中であること、機器に向かって発話するときには大きな音声パワーになることを示している。また、図14は、口の開き具合を示す開口度が0のどきは発話しておらず、口の開口度が大きい値であるときは、発話中であることを示している。
 図15は、図12に示される予備動作情報選択部160の動作の例を示す図である。予備動作情報選択部160は、第2の記憶部170から、制約状態情報取得部110で取得された制約状態情報D2に対応する第1の期間と予備動作種別情報が示す第2の期間とからなる取得期間を含む予備動作情報を選択し、選択された前記取得期間を含む予備動作情報に基づいて取得期間の前記特徴量情報D1を出力する。図15の例では、第1の期間は、発話前の5秒の期間である。第2の期間は、予備動作種別情報が示す期間であり、発話中の期間である。図15は、予備動作情報選択部160が、特徴量情報D0、制約状態情報D2、予備動作条件データC2、及び予備動作種別情報に基づいて、予備動作条件データC2から予備動作情報を選択し、選択された予備動作情報に基づく取得期間の特徴量情報D1を出力する処理の例を示している。これ以降の処理は、実施の形態1の場合と同じである。
《2-3》効果
 以上に説明したように、実施の形態2に係る受話者推定装置200、受話者推定方法、及び受話者推定プログラムを用いれば、会話時における参加者の制約状態を考慮に入れて、且つ、予備動作情報に基づく取得期間(例えば、フレーム番号t_15からt_20の期間)の特徴量情報D1を用いて、加工特徴量情報D3を生成し、受話者を推定するので、受話者の推定の精度を向上させることができる。
《3》変形例
 上記実施の形態では、第1の記憶部150及び第2の記憶部170が受話者推定装置の一部として示されているが、これらは、受話者推定装置に接続された外部の記憶装置又は受話者推定装置に備えられた通信装置によって通信可能なネットワーク上のサーバに備えられた記憶装置であってもよい。
 10 領域、 11,12 参加者、 20 状態取得部、 21 音声取得部、 22 映像取得部、 30 機器、 31 対象機器、 32 周辺機器、 33 表示画面、 40 入力部、 50 出力部、 100、200 受話者推定装置、 110 制約状態情報取得部、 120 特徴量抽出部、 130 特徴量加工部、 140 受話者推定部、 150 第1の記憶部、 160 予備動作情報選択部、 170 第2の記憶部、 180 予備動作種別取得部、 A0 領域状態情報、 A1 音声情報、 A2 映像情報、 B0 機器情報、 B1 対象機器情報、 B2 周辺機器情報、 C1 制約基準データ、 C2 予備動作条件データ、 D0 特徴量情報、 D1 取得期間の特徴量情報、 D2 制約状態情報、 D3 加工特徴量情報、 D4 推定結果情報、 D5 出力情報。

Claims (15)

  1.  発話者が発する音声の受話者を推定する受話者推定装置であって、
     状態取得部によって取得された、前記発話者を含む1人以上の参加者が存在する領域内の状態を示す領域状態情報から前記領域内の状態についての特徴量を抽出することによって、特徴量情報を生成する特徴量抽出部と、
     音声による操作を受け付ける対象機器を含む機器の状態を示す機器状態情報を取得し、前記領域内において前記参加者の行動を制約する状態を示すデータである制約基準データを予め記憶する第1の記憶部から前記制約基準データを取得し、前記領域状態情報、前記機器状態情報、及び前記制約基準データに基づいて、前記参加者の行動を制約している状態を示す制約状態情報を取得する制約状態情報取得部と、
     予め想定された制約状態情報と前記特徴量情報の取得期間を含む予備動作情報との関係を示す予備動作条件データを予め記憶する第2の記憶部から、前記制約状態情報に対応する前記取得期間を含む予備動作情報を選択し、選択された前記取得期間を含む予備動作情報に基づいて前記取得期間の前記特徴量情報を出力する予備動作情報選択部と、
     前記制約状態情報及び前記制約基準データに基づいて前記取得期間の前記特徴量情報から前記受話者の推定に用いられる1つ以上の特徴量を選択し、前記1つ以上の特徴量に基づく加工特徴量情報を生成する特徴量加工部と、
     前記加工特徴量情報に基づいて前記受話者を推定する受話者推定部と、
     を有することを特徴とする受話者推定装置。
  2.  前記状態取得部は、前記領域内における音声を取得することによって音声情報を生成する音声取得部と、前記領域内の映像を撮影することによって映像情報を生成する映像取得部とを有し、
     前記領域状態情報は、前記音声情報及び前記映像情報のうちの少なくとも1つを含む
     ことを特徴とする請求項1に記載の受話者推定装置。
  3.  前記音声情報は、前記音声の音圧を示す情報、前記音声の基本周波数成分を示す情報、及び前記音声のスペクトルのうちの少なくとも1つを含むことを特徴とする請求項2に記載の受話者推定装置。
  4.  前記映像情報は、前記参加者の座席の位置を示す情報、前記参加者の顔向きを示す情報、前記参加者の視線方向を示す情報、及び前記参加者の口の開口度を示す情報のうちの少なくとも1つを含むことを特徴とする請求項2又は3に記載の受話者推定装置。
  5.  前記機器は、前記対象機器の他に、前記参加者によって操作される周辺機器を含むことを特徴とする請求項1から4のいずれか1項に記載の受話者推定装置。
  6.  前記機器状態情報は、前記周辺機器の状態及び前記周辺機器に対して実行された操作のうちの少なくとも1つを含むことを特徴とする請求項5に記載の受話者推定装置。
  7.  前記受話者推定装置は、車両に搭載される車両用装置であり、
     前記予備動作条件データは、前記車両の走行状態を示す情報、前記車両の走行速度を示す情報、前記車両における前記機器の操作を示す情報、前記車両が走行している道路種別を示す情報、前記車両が走行している位置から右左折地点までの距離を示す情報、前記車両の運転を支援するナビゲーション情報、及び前記車両が走行している位置付近の道路状況を示す情報のうちの、1つの情報又は2つ以上の情報の組み合わせと、前記取得期間との関係を示す
     ことを特徴とする請求項1から6のいずれか1項に記載の受話者推定装置。
  8.  前記取得期間は、前記予備動作情報選択部による予備動作選択の前の予め決められた時間であり、
     前記取得期間は、前記車両の走行速度が予め決められた第1の閾値より速い場合に第1の時間に設定され、前記車両の走行速度が前記予め決められた第1の閾値以下の場合に前記第1の時間より長い第2の時間に設定される
     ことを特徴とする請求項7に記載の受話者推定装置。
  9.  前記取得期間は、前記予備動作情報選択部による予備動作選択の前の予め決められた時間であり、
     前記取得期間は、前記車両の走行速度が予め決められた第1の閾値より速く且つ前記車両から右左折地点までの距離が第2の閾値以下である場合に第1の時間より短い時間に設定される
     ことを特徴とする請求項8に記載の受話者推定装置。
  10.  前記特徴量情報に基づいて発話前、発話中、及び発話後のいずれであるかに関する予備動作種別情報を出力する予備動作種別取得部を更に有し、
     前記予備動作情報選択部は、前記第2の記憶部から、前記制約状態情報取得部で取得された前記制約状態情報に対応する第1の期間と前記予備動作種別情報が示す第2の期間とからなる前記取得期間を含む予備動作情報を選択し、選択された前記取得期間を含む予備動作情報に基づいて前記取得期間の前記特徴量情報を出力する
     ことを特徴とする請求項7から9のいずれか1項に記載の受話者推定装置。
  11.  前記加工特徴量情報は、前記取得期間の前記特徴量情報から選択された前記1つ以上の特徴量を含む情報であることを特徴とする請求項1から10のいずれか1項に記載の受話者推定装置。
  12.  前記加工特徴量情報は、前記取得期間の前記特徴量情報から選択された前記1つ以上の特徴量と、前記1つ以上の特徴量の各々の重みとを含む情報であることを特徴とする請求項1から10のいずれか1項に記載の受話者推定装置。
  13.  前記受話者推定部は、前記対象機器及び前記参加者のうちの前記発話者以外の人の中から、前記受話者を推定することを特徴とする請求項1から12のいずれか1項に記載の受話者推定装置。
  14.  発話者が発する音声の受話者を推定する受話者推定装置によって実行される方法であって、
     状態取得部によって取得された、前記発話者を含む1人以上の参加者が存在する領域内の状態を示す領域状態情報から前記領域内の状態についての特徴量を抽出することによって、特徴量情報を生成するステップと、
     音声による操作を受け付ける対象機器を含む機器の状態を示す機器状態情報を取得し、前記領域内において前記参加者の行動を制約する状態を示すデータである制約基準データを予め記憶する第1の記憶部から前記制約基準データを取得し、前記領域状態情報、前記機器状態情報、及び前記制約基準データに基づいて、前記参加者の行動を制約している状態を示す制約状態情報を取得するステップと、
     予め想定された制約状態情報と前記特徴量情報の取得期間を含む予備動作情報との関係を示す予備動作条件データを予め記憶する第2の記憶部から、前記制約状態情報に対応する前記取得期間を含む予備動作情報を選択し、選択された前記取得期間を含む予備動作情報に基づいて前記取得期間の前記特徴量情報を出力するステップと、
     前記制約状態情報及び前記制約基準データに基づいて前記取得期間の前記特徴量情報から前記受話者の推定に用いられる1つ以上の特徴量を選択し、前記1つ以上の特徴量に基づく加工特徴量情報を生成するステップと、
     前記加工特徴量情報に基づいて前記受話者を推定するステップと、
     を有することを特徴とする受話者推定方法。
  15.  発話者が発する音声の受話者を推定する処理をコンピュータに実行させる受話者推定プログラムであって、
     状態取得部によって取得された、前記発話者を含む1人以上の参加者が存在する領域内の状態を示す領域状態情報から前記領域内の状態についての特徴量を抽出することによって、特徴量情報を生成するステップと、
     音声による操作を受け付ける対象機器を含む機器の状態を示す機器状態情報を取得し、前記領域内において前記参加者の行動を制約する状態を示すデータである制約基準データを予め記憶する第1の記憶部から前記制約基準データを取得し、前記領域状態情報、前記機器状態情報、及び前記制約基準データに基づいて、前記参加者の行動を制約している状態を示す制約状態情報を取得するステップと、
     予め想定された制約状態情報と前記特徴量情報の取得期間を含む予備動作情報との関係を示す予備動作条件データを予め記憶する第2の記憶部から、前記制約状態情報に対応する前記取得期間を含む予備動作情報を選択し、選択された前記取得期間を含む予備動作情報に基づいて前記取得期間の前記特徴量情報を出力するステップと、
     前記制約状態情報及び前記制約基準データに基づいて前記取得期間の前記特徴量情報から前記受話者の推定に用いられる1つ以上の特徴量を選択し、前記1つ以上の特徴量に基づく加工特徴量情報を生成するステップと、
     前記加工特徴量情報に基づいて前記受話者を推定するステップと、
     を前記コンピュータに実行させることを特徴とする受話者推定プログラム。
PCT/JP2021/019147 2021-05-20 2021-05-20 受話者推定装置、受話者推定方法、及び受話者推定プログラム WO2022244178A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023514700A JP7309095B2 (ja) 2021-05-20 2021-05-20 受話者推定装置、受話者推定方法、及び受話者推定プログラム
PCT/JP2021/019147 WO2022244178A1 (ja) 2021-05-20 2021-05-20 受話者推定装置、受話者推定方法、及び受話者推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/019147 WO2022244178A1 (ja) 2021-05-20 2021-05-20 受話者推定装置、受話者推定方法、及び受話者推定プログラム

Publications (1)

Publication Number Publication Date
WO2022244178A1 true WO2022244178A1 (ja) 2022-11-24

Family

ID=84141501

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/019147 WO2022244178A1 (ja) 2021-05-20 2021-05-20 受話者推定装置、受話者推定方法、及び受話者推定プログラム

Country Status (2)

Country Link
JP (1) JP7309095B2 (ja)
WO (1) WO2022244178A1 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006079427A (ja) * 2004-09-10 2006-03-23 Toshiba Tec Corp 携帯情報機器
JP2006338529A (ja) * 2005-06-03 2006-12-14 Nippon Telegr & Teleph Corp <Ntt> 会話構造推定方法
JP2007272534A (ja) * 2006-03-31 2007-10-18 Advanced Telecommunication Research Institute International 省略語補完装置、省略語補完方法、及びプログラム
WO2019097674A1 (ja) * 2017-11-17 2019-05-23 日産自動車株式会社 車両用操作支援装置
JP2020080503A (ja) * 2018-11-14 2020-05-28 本田技研工業株式会社 エージェント装置、エージェント提示方法、およびプログラム
JP2020095121A (ja) * 2018-12-11 2020-06-18 パナソニックIpマネジメント株式会社 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体
WO2020240730A1 (ja) * 2019-05-29 2020-12-03 三菱電機株式会社 受話者推定装置、受話者推定方法、及び受話者推定プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006079427A (ja) * 2004-09-10 2006-03-23 Toshiba Tec Corp 携帯情報機器
JP2006338529A (ja) * 2005-06-03 2006-12-14 Nippon Telegr & Teleph Corp <Ntt> 会話構造推定方法
JP2007272534A (ja) * 2006-03-31 2007-10-18 Advanced Telecommunication Research Institute International 省略語補完装置、省略語補完方法、及びプログラム
WO2019097674A1 (ja) * 2017-11-17 2019-05-23 日産自動車株式会社 車両用操作支援装置
JP2020080503A (ja) * 2018-11-14 2020-05-28 本田技研工業株式会社 エージェント装置、エージェント提示方法、およびプログラム
JP2020095121A (ja) * 2018-12-11 2020-06-18 パナソニックIpマネジメント株式会社 音声認識システム、学習済みモデルの生成方法、音声認識システムの制御方法、プログラム、及び移動体
WO2020240730A1 (ja) * 2019-05-29 2020-12-03 三菱電機株式会社 受話者推定装置、受話者推定方法、及び受話者推定プログラム

Also Published As

Publication number Publication date
JPWO2022244178A1 (ja) 2022-11-24
JP7309095B2 (ja) 2023-07-14

Similar Documents

Publication Publication Date Title
US11158068B2 (en) Information processing apparatus, control method, and program
US10943400B2 (en) Multimodal user interface for a vehicle
JP6639444B2 (ja) 情報提供装置及び情報提供方法
US10872603B2 (en) Dialog device and dialog method
JP6713490B2 (ja) 情報提供装置及び情報提供方法
JP6612707B2 (ja) 情報提供装置
US10901503B2 (en) Agent apparatus, agent control method, and storage medium
JP2018055550A (ja) 施設満足度算出装置
US20200309549A1 (en) Control apparatus, control method, and storage medium storing program
DE112018003014T5 (de) Erfahrung-bereitstellungssystem, erfahrung-bereitstellungsverfahren und erfahrung-bereitstellungsprogramm
CN108932290B (zh) 地点提案装置及地点提案方法
JP7354888B2 (ja) 情報処理装置、プログラム、及び、情報処理方法
CN111667824A (zh) 智能体装置、智能体装置的控制方法及存储介质
WO2021258671A1 (zh) 基于车载数字人的辅助驾驶交互方法及装置、存储介质
JP7309095B2 (ja) 受話者推定装置、受話者推定方法、及び受話者推定プログラム
JP6945767B2 (ja) 受話者推定装置、受話者推定方法、及び受話者推定プログラム
CN112988990A (zh) 信息提供装置、信息提供方法及存储介质
CN112951216B (zh) 一种车载语音处理方法及车载信息娱乐系统
WO2020003392A1 (ja) 運転支援装置および運転モード判断モデル生成装置
JP2023136194A (ja) 情報処理装置、移動体、それらの制御方法、プログラム、及び記憶媒体
JP2018195167A (ja) 情報提供装置および情報提供方法
JP2021108072A (ja) レコメンドシステム、レコメンド方法およびプログラム
JP2020095389A (ja) 地点情報記録システム、地点情報案内システム、地点情報記録プログラムおよび地点情報案内プログラム
CN114296680B (zh) 基于面部图像识别的虚拟试驾装置、方法和存储介质
CN117213519A (zh) 一种导航方法、装置、设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21940792

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023514700

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21940792

Country of ref document: EP

Kind code of ref document: A1