WO2019073803A1 - 音声入力装置および方法、並びにプログラム - Google Patents

音声入力装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2019073803A1
WO2019073803A1 PCT/JP2018/035842 JP2018035842W WO2019073803A1 WO 2019073803 A1 WO2019073803 A1 WO 2019073803A1 JP 2018035842 W JP2018035842 W JP 2018035842W WO 2019073803 A1 WO2019073803 A1 WO 2019073803A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
speech
microphone array
voice
input device
Prior art date
Application number
PCT/JP2018/035842
Other languages
English (en)
French (fr)
Inventor
和也 立石
高橋 秀介
高橋 晃
和樹 落合
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to CN201880065077.3A priority Critical patent/CN111194464A/zh
Priority to EP18866426.2A priority patent/EP3696811A4/en
Priority to US16/753,236 priority patent/US11310593B2/en
Priority to JP2019548109A priority patent/JPWO2019073803A1/ja
Publication of WO2019073803A1 publication Critical patent/WO2019073803A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/8006Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/028Casings; Cabinets ; Supports therefor; Mountings therein associated with devices performing functions other than acoustics, e.g. electric candles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/323Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/02Details casings, cabinets or mounting therein for transducers covered by H04R1/02 but not provided for in any of its subgroups
    • H04R2201/025Transducer mountings or cabinet supports enabling variable orientation of transducer of cabinet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/02Details casings, cabinets or mounting therein for transducers covered by H04R1/02 but not provided for in any of its subgroups
    • H04R2201/028Structural combinations of loudspeakers with built-in power amplifiers, e.g. in the same acoustic enclosure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Definitions

  • the present technology relates to a voice input device and method, and a program, and more particularly to a voice input device and method, and a program that make it easy to estimate a speech direction.
  • the position of the user's mouth and the position of the microphone are likely to be close to each other, and the voice is easily recognized.
  • the distance between the microphone and the driving sound source such as the motor is long, the noise is reduced, and the SNR (Signal-to-Noise ratio) of the target voice is improved.
  • the noise learning information that has been learned sequentially can not be used, and it becomes necessary to spatially learn the noise information after moving.
  • the next user's speech may be given immediately, in which case a sufficient learning time can not be secured, and as a result, the noise suppression performance is degraded, and the voice There is a risk of recognition failure.
  • the present technology has been made in view of such a situation, and makes it possible to easily estimate the speech direction.
  • a fixed unit disposed at a predetermined position, a movable unit movable with respect to the fixed unit, a microphone array attached to the fixed unit, and an utterance input from the microphone array
  • a speech input device comprising: a speech direction estimation unit that estimates a speech direction based on speech from a person; and a drive unit that drives the movable unit in accordance with the estimated speech direction.
  • the control apparatus may further include a control unit that recognizes the voice from the speaker input from the microphone array and controls a front drive unit based on the recognition result.
  • the control unit may include, internally or externally, a voice recognition engine that recognizes the voice from the speaker.
  • a plurality of microphones can be arranged in a plane.
  • the movable portion may be symmetrical with respect to a rotation center.
  • the speech direction estimation unit is a first estimation unit that estimates a first horizontal angle that is a horizontal angle of the speech direction from the signal of the voice from the speaker, and the first horizontal angle as a reference.
  • a second horizontal angle that is the horizontal angle in the utterance direction and a second estimation unit that estimates an elevation angle may be provided in a predetermined range near the first horizontal angle.
  • One aspect of the present technology is a voice input method of a voice input device including a fixed unit disposed at a predetermined position, a movable unit movable with respect to the fixed unit, and a microphone array attached to the fixed unit. Estimating a speech direction based on a voice from a speaker input from the microphone array attached to the fixed part, and driving the movable part according to the estimated speech direction. And a voice input method including
  • One aspect of the present technology relates to a voice of a voice input device including a fixed unit disposed at a predetermined position, a movable unit movable with respect to the fixed unit, and a microphone array attached to the fixed unit in a computer
  • a program for executing an input process a step of estimating a speech direction based on a voice from a speaker input from the microphone array attached to the fixed unit, and corresponding to the estimated speech direction Driving the movable portion.
  • the fixed unit is disposed at a predetermined position
  • the movable unit is movable relative to the fixed unit
  • the microphone array is attached to the fixed unit
  • the speech direction estimation unit is input from the microphone array Based on the voice from the utterer, the speech direction is estimated, and the drive unit drives the movable portion in accordance with the estimated speech direction.
  • the effect described here is not necessarily limited, and may be any effect described in the present specification.
  • FIG. 1 is a perspective view showing a physical configuration of an embodiment of a voice input device. It is a figure which shows the structure of a microphone array.
  • FIG. 1 is a perspective view showing a physical configuration of an embodiment of a voice input device. It is a block diagram which shows the electric constitution of a voice input device. It is a block diagram which shows the structure of a speech direction estimation part. It is a flowchart explaining a speech input process. It is a flowchart explaining a speech direction estimation process. It is a flowchart explaining a 1st MUSIC process. It is a flowchart explaining a horizontal angle estimation process. It is a flowchart explaining a 2nd MUSIC process. It is a figure explaining an presumed range. It is a figure which shows the characteristic of a space spectrum. It is a figure which shows the characteristic of a space spectrum. It is a figure which shows the characteristic of a space spectrum. It is a figure which shows the characteristic of a space spectrum. It is a block
  • FIG. 1 is a perspective view showing a physical configuration of an embodiment of the voice input device
  • FIG. 2 is a view showing a configuration of a microphone array.
  • the voice input device 1 of this embodiment includes a substantially cylindrical casing 11, and a microphone array 12 is provided below the outer peripheral side surface thereof.
  • the microphone array 12 is arranged such that a plurality of (eight in the example of FIG. 2) microphones 13 are annular in a substantially horizontal ring shape and directed outward from the center along the radius Is configured.
  • the plurality of microphones 13 of the microphone array 12 can also be arranged linearly or three-dimensionally.
  • a movable portion 14 movable with respect to the housing 11 is formed above the housing 11.
  • the movable portion 14 is driven by a built-in servomotor 53 (described later with reference to FIG. 4) as a drive portion, and is movable (rotate in this example) in a horizontal plane. That is, the housing 11 disposed at a predetermined position does not rotate so as to contact the table or the floor, and so to speak, forms a fixing portion. Since the microphone array 12 is provided in the housing 11, even if the movable part 14 rotates, it does not rotate.
  • casing 11 which has the microphone array 12 can also be made to maintain the original position using sensor information, such as a geomagnetic sensor and a gyro sensor.
  • the movable portion 14 is also formed in a substantially cylindrical shape, and the display portion 15 is provided in front of the movable portion 14.
  • a picture of a face is displayed on the display unit 15, and it is understood that the face is the front.
  • the movable unit 14 is rotated, for example, so that the display unit 15 faces in the speech direction.
  • the speaker 16 is accommodated on the back side of the display portion 15. The speaker 16 outputs a sound such as a message to the user.
  • the voice input device 1 is disposed, for example, in a space 21 such as a room.
  • FIG. 3 is a perspective view showing a physical configuration of an embodiment of the voice input device.
  • the voice input device 1 can also be configured as shown in FIG.
  • the diameters of the lower end 11B and the upper end 11T of the substantially cylindrical casing 11 are large and protrude outward, and the portion between them is small in diameter and is recessed inwardly.
  • the movable part 14 is rotatably arrange
  • the microphone array 12 is provided on the upper end 11T of the housing 11. Therefore, even if the movable portion 14 rotates, the microphone array 12 does not rotate.
  • a display unit 15 is formed on the movable unit 14, and a speaker 16 is disposed on the back surface side.
  • the voice input device 1 is incorporated in, for example, a smart speaker, a voice agent, a robot, etc., and has a function of estimating the direction of the voice in which the voice is emitted when the sound is emitted from a surrounding sound source (for example, a person). ing.
  • the estimated direction is used to point the front of the device towards the speech direction.
  • FIG. 4 is a block diagram showing an electrical configuration of the voice input device.
  • the voice input device 1 of FIG. 4 includes a microphone array 12, a signal processing unit 51, a main control unit 52, a servomotor 53, a movable unit 14, and a speaker 16.
  • the signal processing unit 51 that processes a signal from the microphone array 12 includes an utterance direction estimation unit 71, a signal enhancement unit 72, a noise suppression unit 73, and an echo cancellation unit 74.
  • the speech direction estimation unit 71 estimates the speech direction based on the signal from the microphone array 12.
  • the signal emphasizing unit 72 emphasizes the target sound signal.
  • the noise suppression unit 73 suppresses noise components included in the target sound signal.
  • the echo cancellation unit 74 cancels an echo component included in the signal input from the microphone array 12.
  • the main control unit 52 includes a speech recognition engine 81 and an operation determination unit 82.
  • the speech recognition engine 81 recognizes speech from the input signal.
  • the action determination unit 82 determines an action to be performed based on the content included in the recognized voice.
  • the voice recognition engine outside the voice recognition engine is used instead of the voice recognition engine 81 inside. Recognition processing can also be performed.
  • the servo motor 53 drives the movable unit 14 according to the instruction.
  • the movable part 14 is rotated to a predetermined position.
  • FIG. 5 is a block diagram showing the configuration of the speech direction estimation unit.
  • the speech direction estimation unit 71 in FIG. 5 is configured of a frequency conversion unit 101, a first MUSIC processing unit 102, a horizontal angle estimation unit 103, a second MUSIC processing unit 104, and a second peak detection unit 105.
  • the frequency converter 101 converts the frequency of the acoustic signal input from the microphone array 12.
  • the first MUSIC processing unit 102 as a first estimation unit obtains the eigenvalues and the eigenvectors of the correlation matrix of the signal of each frequency based on the frequency domain signal input from the frequency conversion unit 101. Furthermore, the first MUSIC processing unit 102 calculates the spatial spectrum with respect to all horizontal angles in a state where the elevation angle with respect to the speech direction viewed from the microphone array 12 is fixed to a predetermined constant value.
  • the horizontal angle estimation unit 103 calculates a threshold from the space spectrum calculated by the first MUSIC processing unit 102. Further, the horizontal angle estimation unit 103 detects a spatial spectrum having a peak value exceeding the threshold value, and estimates that the direction corresponding to the spatial spectrum is the speech direction (first horizontal angle ⁇ ⁇ ). Do.
  • the eigenvectors of the correlation matrix of the signal of each frequency determined by the first MUSIC processing unit 102 are supplied to the second MUSIC processing unit 104 as the second estimation unit.
  • the second MUSIC processing unit 104 uses the first horizontal angle ⁇ ⁇ estimated by the horizontal angle estimation unit 103 as a reference based on the eigenvectors, and limits the predetermined range of horizontal angles and all elevation angles in the vicinity of the first horizontal angle ⁇ ⁇ . Calculate the spatial spectrum.
  • the second peak detection unit 105 detects the peak value of the spatial spectrum regarding the horizontal angle and the elevation angle of the predetermined range calculated by the second MUSIC processing unit 104, and determines the direction corresponding to the peak value as the final utterance direction ( It estimates as (theta) out , (phi) out ).
  • the first MUSIC processing unit 102 includes a first correlation matrix calculation unit 411, an eigenvalue decomposition unit 412, a frequency weight calculation unit 413, a transfer function storage unit 414, and a first spatial spectrum calculation unit 415. Furthermore, the first MUSIC processing unit 102 is configured of a frequency information integration unit 416 and a second correlation matrix calculation unit 417. However, this configuration is for GEVD-MUSIC, and for SEVD-MUSIC, the second correlation matrix calculator 417 is omitted.
  • GEVD Generalized Eigenvalue Decomposition
  • SEVD Standard Eigenvalue Decomposition
  • the first correlation matrix calculation unit 411 calculates the correlation matrix of the target signal of each frequency for each time frame.
  • the second correlation matrix calculation unit 417 calculates the correlation matrix of the noise signal of each frequency for each time frame.
  • the eigenvalue decomposition unit 412 calculates the eigenvalues and eigenvectors of the correlation matrix.
  • the frequency weight calculator 413 calculates frequency weights that represent the degree of contribution of the space spectrum for each frequency. When sound comes from a certain direction, the distribution of the eigenvalues is biased, and only the eigenvalues corresponding to the number of sound sources increase.
  • the transfer function storage unit 414 stores transfer function vectors in advance.
  • the first space spectrum calculation unit 415 calculates a space spectrum indicating the degree to which sound is coming from the direction of the horizontal angle ⁇ , using the eigenvector and the transfer function vector regarding the horizontal angle ⁇ .
  • the frequency information integration unit 416 integrates the first spatial spectrum based on the frequency weight.
  • the horizontal angle estimation unit 103 is configured of a threshold update unit 451 and a first peak detection unit 452.
  • the threshold update unit 451 calculates a threshold for determining whether or not to use the peak of the spatial spectrum as a detection result.
  • the first peak detection unit 452 detects the direction of the spatial spectrum having a peak exceeding the threshold.
  • the second MUSIC processing unit 104 includes a transfer function storage unit 481, a second space spectrum calculation unit 482, and a frequency information integration unit 483.
  • the transfer function storage unit 481 stores transfer function vectors in advance.
  • the second space spectrum calculation unit 482 calculates a space spectrum that represents the degree to which sound is coming from the direction of the predetermined horizontal angle and elevation angle.
  • the frequency information integration unit 483 calculates a weighted average for each frequency of the spatial spectrum.
  • FIG. 6 is a flowchart illustrating the voice input process.
  • the microphone array 12 inputs voice. That is, the voice generated by the speaker is input.
  • the speech direction estimation unit 71 executes a speech direction estimation process. The details will be described later with reference to FIGS. 7 to 11, and this estimates the direction (horizontal angle and elevation angle) in which the speaker's voice is emitted.
  • step S3 the signal emphasizing unit 72 emphasizes the signal. That is, the speech component in the direction estimated as the speech direction is emphasized.
  • step S4 the noise suppression unit 73 suppresses the noise component to improve SN.
  • step S5 the speech recognition engine 81 (or an external speech recognition engine present in the cloud 61) performs a process of recognizing speech from the speech signal supplied from the signal processing unit 51.
  • the recognition results are textified as needed.
  • step S6 the operation determination unit 82 determines an operation. That is, an action corresponding to the content of the recognized voice is determined.
  • step S7 the operation determination unit 82 controls the servomotor 53 to drive the movable unit 14.
  • step S8 the operation determination unit 82 supplies a signal to the speaker 16 to output sound.
  • the movable portion 14 in the direction of the speaker is rotated, the speaker 16, "Hello. How are you” greeting such is directed to the speaker It is emitted.
  • step S9 the echo cancellation unit 74 cancels the echo. That is, the sound output from the speaker 16 may be collected as an echo by the microphone array 12 while being delayed by a predetermined time, mixed with other sounds.
  • the echo cancellation unit 74 processes the audio component output from the speaker 16 as a reference signal so as to cancel the echo component from the signal collected by the microphone array 12.
  • the microphone array 12 does not rotate, so the transfer function of the microphone array 12 is before and after the rotation of the movable portion 14. There is no change. Therefore, the speech direction can be estimated quickly and correctly without learning the transfer function again.
  • FIG. 7 is a flowchart illustrating the speech direction estimation process.
  • step S101 the frequency conversion unit 101 converts the frequency of the acoustic signal input from the microphone array 12. That is, an acoustic signal is converted from a signal in the time domain to a signal in the frequency domain.
  • processing for performing discrete Fourier transform (DFT) or short time Fourier transform (STFT) is performed for each frame.
  • the frame length may be 32 ms and the frame shift may be 10 ms.
  • step S102 the first MUSIC processing unit 102 executes a first MUSIC process.
  • the details of the first MUSIC process will be described with reference to FIG.
  • FIG. 8 is a flowchart for explaining the first MUSIC process.
  • the first correlation matrix calculator 411 calculates a first correlation matrix.
  • the first correlation matrix is a correlation matrix of the target sound signal of each frequency for each time frame, and each element thereof represents the correlation of each microphone 13.
  • the first correlation matrix is calculated based on the following equation (1).
  • T R represents the frame length for calculating the correlation matrix
  • the vectors z ⁇ and ⁇ represent signals of frequency ⁇ in the time frame ⁇ .
  • H represents Hermite displacement.
  • the second correlation matrix calculator 417 calculates a second correlation matrix.
  • the second correlation matrix is a correlation matrix of the noise signal of each frequency for each time frame, and is calculated based on the following equation (2).
  • T K represents the frame length for calculating the correlation matrix
  • ⁇ t is a signal of a common time frame used for R ⁇ , t in equation (1) and K ⁇ , t in equation (2) It is for making it not.
  • ⁇ ⁇ and ⁇ are weights, which may be generally 1. However, if you want to change the weights depending on the type of sound source, you can prevent all the weights from becoming 0, as shown in Equation (3). .
  • the second correlation matrix calculation unit 417 applies the past weight to the second spatial correlation matrix to which the weight is applied, which is the target of the generalized eigenvalue decomposition by the eigenvalue decomposition unit 412 in the latter stage.
  • Update sequentially based on the second spatial correlation matrix.
  • Such an update formula makes it possible to use stationary noise components for a long time.
  • the weight is a continuous value of 0 to 1
  • the weight of the stationary noise component at the latest time is increased. Become. Therefore, it becomes possible to calculate the second spatial correlation matrix with a large weight placed on the stationary noise component at the latest time which is considered to be close to the stationary noise component behind the target sound.
  • the eigenvalue decomposition unit 412 performs eigenvalue decomposition. That is, generalized eigenvalue decomposition based on the first spatial correlation matrix, supplied from the second correlation matrix calculation unit 417, to which the weight is applied, and the first spatial correlation matrix, supplied from the first correlation matrix calculation unit 411. Is done.
  • the eigenvalues and eigenvectors are calculated from the following equation (4).
  • ⁇ i represents the i-th largest eigenvalue vector determined by the generalized eigenvalue decomposition
  • e i the eigenvector corresponding to ⁇ i
  • M represents the number of microphones 13.
  • the equation (4) is modified as represented by the equation (7) and the equation (8), using the matrix ⁇ ⁇ ⁇ ⁇ , t satisfying the following equation (6).
  • Equation (7) is a whitening matrix, and the parenthesis in the left side of Equation (7) is a stationary noise component obtained by whitening R ⁇ , t , that is, the stationary noise component is removed It is done.
  • the first space spectrum calculation unit 415 calculates the first space spectrum P n ⁇ , ⁇ , t based on the following equations (9) and (10). That is, the first space spectrum calculation unit 415 uses the eigenvectors e i and steering vectors a ⁇ corresponding to the smaller number MN of eigenvalues to generate a space spectrum P n ⁇ that indicates the degree to which sound is coming from the direction ⁇ . , ⁇ , t are calculated.
  • the eigenvectors e i are supplied from the eigenvalue decomposition unit 412.
  • the steering vector a ⁇ which is a transfer function related to the direction ⁇ , is a transfer function obtained in advance assuming that the sound source is in the direction ⁇ , and is stored in the transfer function storage unit 414 in advance.
  • N represents the number of sound sources
  • represents the horizontal direction in which the spatial spectrum is calculated with the elevation angle fixed.
  • the frequency weight calculation unit 413 calculates a frequency weight that represents the degree of contribution of the spatial spectrum for each frequency.
  • the frequency weight w ⁇ , t is calculated according to the following equation (11).
  • ⁇ i is the i-th largest eigenvalue obtained by the generalized eigenvalue decomposition, and the eigen value of the numerator of equation (11) means the largest eigenvalue.
  • step S 136 the frequency information integration unit 416 calculates the weighted average P ⁇ n ⁇ , t of the first spatial spectrum for each frequency according to the following equations (12) and (13).
  • the first space spectrum P n ⁇ , ⁇ , t is supplied from the first space spectrum calculation unit 415, and the frequency weight w ⁇ , t is supplied from the frequency weight calculation unit 413.
  • the second term of the equation (13) is the log P ⁇ n ⁇ ′ of the equation (13) when ⁇ ′ is changed in the entire range of the horizontal direction ⁇ where the elevation angle is fixed and the spatial spectrum is calculated . to minimize t .
  • a harmonic mean is determined, but an arithmetic mean or a geometric mean may be determined.
  • the minimum value is normalized to 0 by the operation of equation (13), and the base of log in this operation is arbitrary, but for example, the number of Napiers can be used.
  • the calculation of equation (13) has the effect of suppressing the peak unrelated to the sound source to a threshold value or less by the first peak detection unit 452 in the latter stage.
  • the weighted average P ⁇ n ⁇ , t of the first spatial spectrum is calculated by the first MUSIC process in the first MUSIC processing unit 102.
  • FIG. 9 is a flowchart illustrating horizontal angle estimation processing.
  • the threshold update unit 451 calculates a threshold. That is, among the weighted averages P ⁇ n ⁇ , t of the first spatial spectrum output from the frequency information integration unit 416 of the first MUSIC processing unit 102, a threshold P th ⁇ , for determining whether or not to perform peak detection .
  • t is calculated, for example, according to the following equation (14) and equation (15).
  • ⁇ th , ⁇ th and ⁇ th are each a constant, and ⁇ represents the number of scanning directions.
  • the threshold value P th ⁇ , t has an effect of removing a peak whose value is small although there is no sound source in that direction, or removing a sound that continues to be emitted from a certain direction.
  • the target voice is often a short command or an utterance for operating a device, and it is assumed that it does not last for a long time.
  • the first peak detection unit 452 detects a first peak. That is, the first spatial weighted mean P ⁇ n theta of spectrum output from the frequency information integration unit 416, among the t, detecting those having the threshold P th theta output from the threshold update unit 451, a peak of more than t Be done. Then, the weighted average P ⁇ n theta first spatial spectrum having the detected peak, the horizontal angle theta ⁇ corresponding to t is output as speech direction when fixing the elevation angle (first horizontal angle) .
  • the first horizontal angle ⁇ ⁇ which is the speech direction when the elevation angle is fixed, is estimated by the horizontal angle estimation process (the process of FIG. 9) of the horizontal angle estimation unit 103 in step S103 of FIG. Ru.
  • step S104 the second MUSIC process is performed by the second MUSIC processing unit 104 in step S104.
  • the details of the second MUSIC process will be described with reference to FIG.
  • FIG. 10 is a flowchart for explaining the second MUSIC process.
  • the second space spectrum calculation unit 482 calculates a second space spectrum. That is, of the eigenvectors e i obtained by the eigen value decomposition unit 412, the eigenvector e i corresponding to the MN smallest eigenvalues ⁇ i among the smaller eigenvectors e i and the steering vector a ⁇ which is a transfer function regarding the direction
  • the second space spectrum is calculated using ⁇ , ⁇ .
  • the calculation of the second space spectrum P n ⁇ , ⁇ ⁇ , ⁇ , t is performed, for example, according to the following equation (16).
  • ⁇ ⁇ is a limited range ( ⁇ ⁇ ⁇ s) in the vicinity of the estimated direction ⁇ ⁇ of the sound source when the elevation angle is fixed. That is, ⁇ ⁇ -s ⁇ ⁇ ⁇ ⁇ + s. That is, the range for estimating the elevation angle is not the range of the full horizontal angle of 360 degrees, but the limited range near the first estimated first horizontal angle ⁇ ⁇ . ⁇ represents the elevation direction for calculating the spatial spectrum.
  • FIG. 11 is a diagram for explaining the estimation range.
  • the range for estimating the elevation angle is not the range of the full horizontal angle of 360 degrees, but a limited range ( ⁇ ⁇ ⁇ ) around the first estimated first horizontal angle ⁇ ⁇ Since it is s), the amount of operations can be reduced. As a result, it is possible to calculate in real time even a device which does not have high computing resources (does not have high computing power).
  • the present technology is applicable even under conditions where the direction in which the user is likely is completely unknown (when the angle of view of a camera or the like or the wearable device does not have information in advance “in this direction”) is there.
  • the second spatial spectrum is a spatial spectrum that represents the degree to which sound is coming from the direction ( ⁇ ⁇ , ⁇ ).
  • the steering vectors a ⁇ to ⁇ regarding the directions ( ⁇ to ⁇ ) are stored in advance in the transfer function storage unit 481, and the eigenvectors e i are supplied from the eigenvalue decomposition unit 412 of the first MUSIC processing unit 102.
  • the second space spectrum P n ⁇ , ⁇ ⁇ , ⁇ , t is supplied from the second space spectrum calculation unit 482, and the frequency weight w ⁇ , t is supplied from the frequency weight calculation unit 413 of the first MUSIC processing unit 102. .
  • the weighted average P ⁇ n ⁇ to, ⁇ , t of the second spatial spectrum for each frequency is calculated.
  • the second peak detection unit 105 detects a peak in step S105. That is, the spatial spectrum taking the maximum value is detected from the weighted averaged spatial spectrum output by the second MUSIC processing unit 104, and the horizontal angle (second horizontal angle ⁇ out ) and the elevation angle corresponding to the spatial spectrum are detected. ⁇ out is output as the speech direction ( ⁇ out , ⁇ out ).
  • the speech direction can be accurately determined.
  • the range for estimating the horizontal angle and the elevation angle is not the range of the full horizontal angle of 360 degrees, but the limited range ( ⁇ ⁇ ⁇ s) in the vicinity of the first estimated horizontal angle ⁇ ⁇ Therefore, the amount of computation can be reduced. As a result, it is possible to calculate in real time even a device which does not have high computing resources (does not have high computing power).
  • this spatial spectrum has a sharp peak at the horizontal angle ⁇ i in the speech direction.
  • two or more peaks may appear, such as not only the speech direction ⁇ s but also the noise direction ⁇ n, as shown in FIG. 13, for example.
  • the spectrum may be distorted and a peak may not be determined clearly.
  • the noise is whitened by the generalized eigenvalue decomposition as described with reference to the equation (7).
  • the peak in the noise direction ⁇ n can be suppressed.
  • the microphone array 12 is not limited to the housing 11 as a fixed unit. There is no need to However, if the microphone array 12 is provided in the housing 11 as the fixed unit, it is possible to use a device with lower computing ability to estimate the direction of the speaker.
  • the correlation matrix K ⁇ , t of the noise signal of the above-mentioned equation (2) is learned in advance or calculated from noise interval information having a certain time width while being sequentially updated and held.
  • the space information learned so far can be used as it is, so the performance is degraded by the operation It does not happen and does not cause unnecessary confusion.
  • applications such as call and voice recognition can be used stably.
  • the three-dimensional arrangement of the microphone array 12 increases the amount of calculation but is advantageous for accurate estimation of the speech direction.
  • the speech direction can be accurately estimated even if the method of planar arrangement and smaller calculation amount is adopted. Becomes possible. As a result, the cost can be reduced.
  • the sequential learning of the correlation matrix K ⁇ , t is to estimate the characteristics of noise in the usage environment, and for example, when sound such as television broadcasting or radio broadcasting is constantly streamed, the noise in that direction Information is accumulated in the correlation matrix K ⁇ , t .
  • the noise in that direction Information is accumulated in the correlation matrix K ⁇ , t .
  • the microphone array 12 If the microphone array 12 is rotated without being fixed, the positional relationship between the microphone array 12 and the space is reset immediately after the rotation. If you use the correlation matrix K ⁇ , t that you have learned so far during direction estimation to detect the speech of the user immediately after rotation (or a new user in another direction), television broadcasting or radio broadcasting Information on the direction and strength of noise due to is not yet learned in the correlation matrix K ⁇ , t . Therefore, immediately after the rotation of the microphone array 12, it becomes difficult to accurately estimate the speech direction.
  • the microphone array 12 when the microphone array 12 is fixed, such a problem does not occur because the positional relationship between the microphone array 12 and the space is not reset.
  • the movable portion 14 is formed to be symmetrical with respect to the rotation center like a cylindrical shape, the positional relationship between the microphone array 12 and the space before and after the rotation is There is no change.
  • a configuration is also conceivable in which the microphone array 12 is rotated, the rotation angle is calculated from the number of rotation steps of the rotation shaft of the servomotor that drives it, and the estimated direction is corrected by the rotation angle. However, if the microphone array 12 is fixed, such correction processing becomes unnecessary.
  • FIG. 15 is a block diagram showing a configuration example of a personal computer.
  • a central processing unit (CPU) 921 executes various processes according to a program stored in a read only memory (ROM) 922 or a program loaded from a storage unit 928 to a random access memory (RAM) 923. Do. In the RAM 923, data necessary for the CPU 921 to execute various processing is also stored as appropriate.
  • ROM read only memory
  • RAM random access memory
  • the CPU 921, the ROM 922, and the RAM 923 are mutually connected via a bus 924.
  • An input / output interface 925 is also connected to the bus 924.
  • the input / output interface 925 includes an input unit 926 including a keyboard and a mouse, a display including a CRT and an LCD, an output unit 927 including a speaker and the like, a storage unit 928 including a hard disk and the like, a modem and a terminal adapter A communication unit 929 configured is connected.
  • the communication unit 929 performs communication processing via a network such as the Internet, for example.
  • a drive 930 is connected to the input / output interface 925 as necessary, and removable media 931 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory are appropriately attached, and a computer program read from them is It is installed in the storage unit 48 as necessary.
  • processing performed in time series according to the described order is, of course, parallel or not necessarily processed in time series. It also includes processing to be executed individually.
  • the present technology can also be configured as follows. (1) A fixing portion disposed at a predetermined position; A movable portion movable relative to the fixed portion; A microphone array attached to the fixed part; A speech direction estimation unit that estimates a speech direction based on speech from a speaker input from the microphone array; A driver configured to drive the movable unit in accordance with the estimated utterance direction. (2) The voice input device according to (1), further comprising: a control unit that recognizes the voice from the speaker input from the microphone array and controls a front drive unit based on the recognition result. (3) The voice input device according to (1) or (2), wherein the control unit includes, inside or outside, a voice recognition engine that recognizes the voice from the speaker.
  • the voice input device according to any one of (1) to (3), wherein in the microphone array, a plurality of microphones are arranged in a plane.
  • the voice input device according to any one of (1) to (4), wherein the movable portion is symmetrical with respect to a rotation center.
  • the speech direction estimation unit A first estimation unit configured to estimate a first horizontal angle which is a horizontal angle in the utterance direction from a signal of the voice from the speaker; A second horizontal angle that is the horizontal angle of the speech direction and a second estimation unit that estimates an elevation angle in a predetermined range near the first horizontal angle with the first horizontal angle as a reference;
  • the voice input device according to any one of (1) to (5).
  • On the computer A fixing portion disposed at a predetermined position; A movable portion movable relative to the fixed portion; And a microphone array attached to the fixed part. Estimating a speech direction on the basis of voice from a speaker input from the microphone array attached to the fixed part; Driving the movable part in response to the estimated speech direction.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

本技術は、発話方向を推定し易くすることができるようにする音声入力装置および方法、並びにプログラムに関する。 音声入力装置は、所定の位置に配置される固定部と、固定部に対して可動する可動部と、固定部に取り付けられたマイクロフォンアレイと、マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定する発話方向推定部と、推定された発話方向に対応して可動部を駆動する駆動部とを備える。この音声入力装置は、例えば、スマートスピーカ、音声エージェント、ロボット等に組み込んで利用することができる。

Description

音声入力装置および方法、並びにプログラム
 本技術は、音声入力装置および方法、並びにプログラムに関し、特に発話方向を推定し易くすることができるようにした音声入力装置および方法、並びにプログラムに関する。
 近年、ロボット技術と人工知能(AI:Artificial Intelligence)の発展により、人と会話したり、自らその体を動かすことができるようにした機器が増えてきた。人の声を認識するためにはさまざまな使用環境を想定して、少しでも雑音を抑圧できるようにする必要がある。そこで、複数のマイクロフォンを並べたマイクロフォンアレイにより集音し、空間情報を利用した信号処理によって雑音を抑圧することが知られている。
 例えば人型のロボットの場合、頭部にマイクロフォンを複数配置することが考えられる。このようにすると、ユーザの口とマイクロフォンの位置が近くなる可能性が高く、音声が認識し易くなる。また、マイクロフォンとモータ等の駆動音源との距離が遠くなり、騒音が少なくなって、目的音声のSNR(Signal-to-Noise ratio)がよくなることが期待できる。
 マイクロフォンアレイによって集音した信号を演算して得られた相関行列を利用して話者の方向を推定し、推定した方向の音声を強調することで、正確な音声認識ができるようにすることが知られている(例えば特許文献1)。
特開2001-337694号公報
 しかし、発話方向を推定した後、発話方向に機器が向いてしまうと、これまで学習していた空間の雑音方向の情報と、機器の移動後のマイクロフォンアレイとの位置関係が崩れてしまう。そのため、これまで逐次的に学習してきた雑音学習情報が使用できなくなり、移動後に改めて雑音情報を空間的に学習する必要が出てくる。
 しかし、機器が発話方向を向いた後、すぐに次のユーザの発話が行われることもあり、その場合十分な学習時間を確保することができず、結果的に雑音抑圧性能が劣化し、音声認識に失敗するおそれがある。
 本技術はこのような状況に鑑みてなされたものであり、発話方向を推定し易くすることができるようにするものである。
 本技術の一側面は、所定の位置に配置される固定部と、前記固定部に対して可動する可動部と、前記固定部に取り付けられたマイクロフォンアレイと、前記マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定する発話方向推定部と、推定された前記発話方向に対応して前記可動部を駆動する駆動部とを備える音声入力装置である。
 前記マイクロフォンアレイから入力された、前記発話者からの前記音声を認識し、その認識結果に基づいて、前駆動部を制御する制御部をさらに備えることができる。
 前記制御部は、内部または外部に、前記発話者からの前記音声を認識する音声認識エンジンを備えることができる。
 前記マイクロフォンアレイにおいては、複数のマイクロフォンが平面的に配置されていることができる。
 前記可動部は、回転中心に対して対称であることができる。
 前記発話方向推定部は、前記発話者からの前記音声の信号から前記発話方向の水平角である第1の水平角を推定する第1の推定部と、前記第1の水平角を基準として、前記第1の水平角の近傍の所定の範囲において、前記発話方向の前記水平角である第2の水平角と仰角を推定する第2の推定部とを備えることができる。
 本技術の一側面は、所定の位置に配置される固定部と、前記固定部に対して可動する可動部と、前記固定部に取り付けられたマイクロフォンアレイとを備える音声入力装置の音声入力方法において、前記固定部に取り付けられた前記マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定するステップと、推定された前記発話方向に対応して前記可動部を駆動するステップとを含む音声入力方法である。
 本技術の一側面は、コンピュータに、所定の位置に配置される固定部と、前記固定部に対して可動する可動部と、前記固定部に取り付けられたマイクロフォンアレイとを備える音声入力装置の音声入力処理を実行させるプログラムにおいて、前記固定部に取り付けられた前記マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定するステップと、推定された前記発話方向に対応して前記可動部を駆動するステップとを含むプログラムである。
 本技術の一側面においては、固定部が、所定の位置に配置され、可動部が、固定部に対して可動し、マイクロフォンアレイが固定部に取り付けられ、発話方向推定部が、マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定し、駆動部が、推定された発話方向に対応して可動部を駆動する。
 以上のように、本技術の一側面によれば、発話方向を推定し易くすることができる。なお、ここに記載された効果は必ずしも限定されるものではなく、本明細書中に記載されたいずれかの効果であってもよい。
音声入力装置の一実施の形態の物理的な構成を示す斜視図である。 マイクロフォンアレイの構成を示す図である。 音声入力装置の一実施の形態の物理的な構成を示す斜視図である。 音声入力装置の電気的構成を示すブロック図である。 発話方向推定部の構成を示すブロック図である。 音声入力処理を説明するフローチャートである。 発話方向推定処理を説明するフローチャートである。 第1MUSIC処理を説明するフローチャートである。 水平角推定処理を説明するフローチャートである。 第2MUSIC処理を説明するフローチャートである。 推定範囲を説明する図である。 空間スペクトルの特性を示す図である。 空間スペクトルの特性を示す図である。 空間スペクトルの特性を示す図である。 パーソナルコンピュータの構成例を示すブロック図である。
 以下、本技術を実施するための実施の形態について説明する。なお、説明は以下の順序で行う。
 1.音声入力装置の物理的構成(図1乃至図3)
 2.音声入力装置の電気的構成(図4、図5)
 3.音声入力装置の動作(図6乃至図11)
 4.空間スペクトルの特性(図12乃至図14)
 5.コンピュータ(図15)
 6.その他
 <音声入力装置の物理的構成>
  (図1乃至図3)
 最初に、図1乃至図3を参照して、音声入力装置の物理的構成について説明する。図1は、音声入力装置の一実施の形態の物理的構成を示す斜視図であり、図2は、マイクロフォンアレイの構成を示す図である。
 図1に示されるように、この実施の形態の音声入力装置1は、ほぼ円柱状の筐体11を備え、その外周側面の下方には、マイクロフォンアレイ12が設けられている。図2に示されるように、マイクロフォンアレイ12は、複数(図2の例においては、8個)のマイクロフォン13が略水平の円環状に、中心から半径に沿って外周方向に向くように配置されて構成されている。なお、マイクロフォンアレイ12の複数のマイクロフォン13は、直線状、あるいは立体的に配置することもできる。
 筐体11の上方には、筐体11に対して可動する可動部14が形成されている。可動部14は、駆動部としての、内蔵されるサーボモータ53(図4を参照して後述する)により駆動され、水平面内において可動(この例においては回転)する。つまり、テーブルや床に接するように、所定の位置に配置される筐体11は回転せず、いわば固定部を形成している。マイクロフォンアレイ12は、筐体11に設けられているため、可動部14が回転しても、回転しない。
 なお、地磁気センサ、ジャイロセンサなどのセンサ情報を使用して、可動部14が動いても、マイクロフォンアレイ12を有する筐体11は元の位置を保ち続けるようにすることもできる。
 可動部14もほぼ円柱状に形成されており、その正面には、表示部15が設けられている。この例においては、表示部15に顔の絵が表示されており、それによりその面が、正面であることが判る。可動部14は、例えば表示部15が発話方向に向くように回転される。可動部14においては、表示部15の裏側にスピーカ16が収容されている。スピーカ16は、ユーザに対してメッセージ等の音を出力する。
 音声入力装置1は、例えば室内などの空間21に配置される。
 図3は、音声入力装置の一実施の形態の物理的構成を示す斜視図である。音声入力装置1は、図3に示されるように構成することもできる。図3の音声入力装置1においては、ほぼ円柱状の筐体11の下端11Bと上端11Tの径が大きく、外側に突出しており、その間の部分は、径が小さく、内側に凹んだ状態になっている。そして、凹んだ部分に、可動部14が回転自在に配置されている。この例においては、マイクロフォンアレイ12は、筐体11の上端11Tに設けられている。このため、可動部14が回転しても、マイクロフォンアレイ12は、回転しない。可動部14には表示部15が形成され、その裏面側には、スピーカ16が配置されている。
 音声入力装置1は、例えば、スマートスピーカ、音声エージェント、ロボット等に組み込まれ、周囲の音源(例えば人)から音声が発せられた場合、その音声が発せられた発話方向を推定する機能を有している。推定された方向は、装置の正面を発話方向に指向させるのに利用される。
 <音声入力装置の電気的構成>
  (図4、図5)
 次に図4を参照して、音声入力装置の電気的構成について説明する。図4は、音声入力装置の電気的構成を示すブロック図である。
 図4の音声入力装置1は、マイクロフォンアレイ12、信号処理部51、メイン制御部52、サーボモータ53、可動部14、およびスピーカ16により構成されている。
 マイクロフォンアレイ12からの信号を処理する信号処理部51は、発話方向推定部71、信号強調部72、雑音抑圧部73、およびエコーキャンセル部74を有している。発話方向推定部71は、マイクロフォンアレイ12からの信号に基づいて、発話方向を推定する。信号強調部72は、目的音信号を強調する。雑音抑圧部73は目的音信号に含まれる雑音成分を抑圧する。エコーキャンセル部74は、マイクロフォンアレイ12から入力された信号に含まれるエコー成分をキャンセルする処理を行う。
 メイン制御部52は、音声認識エンジン81と動作決定部82を有している。音声認識エンジン81は、入力された信号から音声を認識する。動作決定部82は、認識された音声に含まれる内容に基づいて、実行する動作を決定する。
 なお、メイン制御部52がインターネット等を介してクラウド61に接続され、そこに音声認識エンジンが存在する場合においては、内部の音声認識エンジン81に替えて、外部のその音声認識エンジンを用いて音声認識処理を行うこともできる。
 サーボモータ53は動作決定部82により可動部14の駆動が指示された場合には、その指示に応じて可動部14を駆動する。図1または図3に示される例の場合、例えば可動部14が所定の位置に回転される。
 次に、発話方向推定部71の構成について図5を参照して説明する。図5は、発話方向推定部の構成を示すブロック図である。
 図5の発話方向推定部71は、周波数変換部101、第1MUSIC処理部102、水平角推定部103、第2MUSIC処理部104、および第2ピーク検出部105により構成されている。
 周波数変換部101は、マイクロフォンアレイ12から入力された音響信号を周波数変換する。第1の推定部としての第1MUSIC処理部102は、周波数変換部101から入力された周波数領域信号に基づいて、各周波数の信号の相関行列の固有値と固有ベクトルを求める。さらに第1MUSIC処理部102は、マイクロフォンアレイ12から見た発話方向に対する仰角を、所定の一定値に固定した状態で、全水平角に関して空間スペクトルを演算する。
 水平角推定部103は、第1MUSIC処理部102で演算された空間スペクトルから閾値を計算する。また、水平角推定部103は、その閾値を超えるピーク値を有する空間スペクトルを検出し、その空間スペクトルが対応する方向を、発話方向(第1の水平角θ^)であると推定し、検出する。
 第2の推定部としての第2MUSIC処理部104には、第1MUSIC処理部102で求められた各周波数の信号の相関行列の固有ベクトルが供給される。第2MUSIC処理部104は、その固有ベクトルに基づいて、水平角推定部103で推定された第1の水平角θ^を基準とする、その近傍の限定した所定の範囲の水平角と全ての仰角の空間スペクトルを算出する。
 第2ピーク検出部105は、第2MUSIC処理部104により算出された、所定の範囲の水平角と仰角に関する空間スペクトルのピーク値を検出し、そのピーク値に対応する方向を最終的な発話方向(θoutout)として推定する。
 第1MUSIC処理部102は、第1相関行列計算部411、固有値分解部412、周波数重み算出部413、伝達関数記憶部414、および第1空間スペクトル算出部415により構成される。さらに第1MUSIC処理部102は、周波数情報統合部416、および第2相関行列計算部417により構成される。ただし、この構成は、GEVD-MUSICの場合であり、SEVD-MUSICの場合には、第2相関行列計算部417は省略される。GEVD(Generalized Eigenvalue Decomposition)は、一般化固有分解を意味し、SEVD(Standard Eigenvalue Decomposition)は、標準固有分解を意味する。
 第1相関行列計算部411は、時刻フレーム毎に各周波数の目的信号の相関行列を計算する。第2相関行列計算部417は、時刻フレーム毎に各周波数の雑音信号の相関行列を計算する。固有値分解部412は、相関行列の固有値と固有ベクトルを演算する。周波数重み算出部413は、周波数毎の空間スペクトルの寄与度合いを表す周波数重みを算出する。ある方向から音が到来している場合には固有値の分布に偏りが生じており、音源数分の固有値のみが大きくなる。
 伝達関数記憶部414は、予め伝達関数ベクトルを記憶する。第1空間スペクトル算出部415は、固有ベクトルと水平角θに関する伝達関数ベクトルを用いて、水平角θの方向から音が到来している度合いを表す空間スペクトルを算出する。周波数情報統合部416は、周波数重みに基づいて、第1の空間スペクトルを統合する。
 水平角推定部103は、閾値更新部451と第1ピーク検出部452により構成されている。閾値更新部451は、空間スペクトルのピークを検出結果として採用するか否かを決定するための閾値を計算する。第1ピーク検出部452は、閾値を超えるピークを有する空間スペクトルの方向を検出する。
 第2MUSIC処理部104は、伝達関数記憶部481、第2空間スペクトル算出部482、および周波数情報統合部483により構成されている。伝達関数記憶部481は、予め伝達関数ベクトルを記憶する。第2空間スペクトル算出部482は、所定の水平角と仰角の方向から音が到来している度合いを表す空間スペクトルを算出する。周波数情報統合部483は、空間スペクトルの周波数毎の重み付け平均を算出する。
 <音声入力装置の動作>
  (図6乃至図11)
 次に、図6を参照して、音声入力装置1の動作について説明する。図6は、音声入力処理を説明するフローチャートである。ステップS1においてマイクロフォンアレイ12は、音声を入力する。すなわち発話者が発生した音声が入力される。ステップS2において発話方向推定部71により発話方向推定処理が実行される。その詳細は、図7乃至図11を参照して後述するが、これにより、発話者の音声が発せられた方向(水平角と仰角)が推定される。
 ステップS3において信号強調部72は、信号を強調する。すなわち発話方向と推定された方向の音声成分が強調される。ステップS4において雑音抑圧部73は、雑音成分を抑圧し、SNを改善する。
 ステップS5において音声認識エンジン81(またはクラウド61に存在する外部の音声認識エンジン)は、信号処理部51から供給された音声信号から音声を認識する処理を行う。認識結果は必要に応じてテキスト化される。ステップS6において動作決定部82は、動作を決定する。すなわち、認識された音声の内容に対応する動作が決定される。そして、ステップS7において動作決定部82は、サーボモータ53を制御し、可動部14を駆動する。さらにステップS8において動作決定部82は、信号をスピーカ16に供給し、音声を出力させる。
 これにより、例えば発話者から「こんにちは」との挨拶が認識された場合、その発話者の方向に可動部14が回転され、スピーカ16から「こんにちは。お元気ですか」といった挨拶が発話者に向けて発せられる。
 ステップS9においてエコーキャンセル部74は、エコーをキャンセルする。すなわちスピーカ16から出力された音声が、所定の時間だけ遅延して、エコーとしてマイクロフォンアレイ12により他の音に混じって集音されることがある。エコーキャンセル部74は、スピーカ16から出力させた音声信号を参照信号として、マイクロフォンアレイ12により集音された信号から、そのエコー成分を相殺するように処理する。
 この音声入力装置1においては、正面が発話者を指向するように可動部14が回転しても、マイクロフォンアレイ12は回転しないので、可動部14の回転の前後で、マイクロフォンアレイ12の伝達関数が変化するようなことがない。従って、伝達関数を再度学習しなくても、発話方向を迅速に正しく推定することができる。
 次に、図7を参照して発話方向推定処理について説明する。図7は、発話方向推定処理を説明するフローチャートである。
 ステップS101において周波数変換部101は、マイクロフォンアレイ12から入力された音響信号を周波数変換する。すなわち、音響信号が時間軸領域の信号から周波数領域の信号に変換される。例えば、フレーム毎に離散フーリエ変換(DFT:Discrete Fourier Transform)または短時間フーリエ変換(STFT:Short Time Fourier Transform)する処理が行われる。例えば、フレーム長は32ms、フレームシフトは10msとすることができる。
 ステップS102において第1MUSIC処理部102は、第1MUSIC処理を実行する。第1MUSIC処理の詳細について、図8を参照して説明する。図8は、第1MUSIC処理を説明するフローチャートである。
 図8のステップS131において第1相関行列計算部411は、第1の相関行列を計算する。第1の相関行列は、時刻フレーム毎の各周波数の目的音の信号の相関行列であり、その各要素は、各マイクロフォン13の相関を表している。第1の相関行列は、次式(1)に基づいて演算される。式(1)において、Tは相関行列を計算するフレーム長を表し、ベクトルzω,τは時刻フレームτにおける周波数ωの信号を表す。Hはエルミート転置を表す。
Figure JPOXMLDOC01-appb-M000001
 ステップS132において第2相関行列計算部417は、第2の相関行列を計算する。第2の相関行列は、時刻フレーム毎の各周波数の雑音信号の相関行列であり、次の式(2)に基づいて計算される。
Figure JPOXMLDOC01-appb-M000002
 式(2)において、Tは相関行列を計算するフレーム長を表し、Δtは式(1)のRω,tと式(2)のKω,tに共通の時刻フレームの信号が使われないようにするためのものである。αω,τは重みであり、一般的には1で良いが、音源の種類によって重みを変えたい場合は、式(3)のようにして、重みが全て0になることを防ぐことができる。
Figure JPOXMLDOC01-appb-M000003
 式(3)によれば、第2相関行列計算部417は、後段の固有値分解部412による一般化固有値分解の対象となる、重みを適用した第2の空間相関行列を、過去の重みを適用した第2の空間相関行列に基づいて逐次的に更新する。このような更新式により、長時間の定常雑音成分の利用が可能になる。さらに重みが0~1の連続値である場合、過去の第2空間相関行列ほど重みの積算回数が増えて重みがより小さくなるので、直近の時刻の定常雑音成分ほど大きな重みが置かれることになる。従って、目的音の背景にある定常雑音成分に近いと考えられる、直近の時刻の定常雑音成分に大きな重みを置いた状態で第2の空間相関行列の計算が可能になる。
 ステップS133において固有値分解部412は、固有値分解する。すなわち、第2相関行列計算部417から供給される、重みを適用した第2の空間相関行列と、第1相関行列計算部411から供給される、第1の空間相関行列に基づく一般化固有値分解が行われる。例えば次式(4)から固有値と固有ベクトルが計算される。
Figure JPOXMLDOC01-appb-M000004
 式(4)においてλは、一般化固有値分解で求められるi番目に大きな固有値ベクトル、eは、λiに対応する固有ベクトル、Mは、マイクロフォン13の数を表す。
 SEVDの場合においては、Kω,tは、式(5)のようにしたものである。
Figure JPOXMLDOC01-appb-M000005
 GEVDの場合においては、次式(6)を満たす行列Φω,tを用いて、式(4)が式(7)と式(8)で表されるように変形される。これによりSEVDの問題となり、式(7)と式(8)から固有値と固有ベクトルが求められる。
Figure JPOXMLDOC01-appb-M000006
 式(7)のΦ-H ω,tは、白色化行列であり、式(7)の左辺の括弧内は、定常雑音成分でRω,tを白色化したもの、すなわち定常雑音成分が除去されたものである。
 ステップS134において第1空間スペクトル算出部415は、次の式(9)と式(10)に基づいて、第1の空間スペクトルP ω,θ,tを算出する。すなわち、第1空間スペクトル算出部415は、小さい方からM-N個の固有値に対応した固有ベクトルeとステアリングベクトルaθを用いて、方向θから音が到来している度合いを表す空間スペクトルP ω,θ,tを算出する。固有ベクトルeは、固有値分解部412から供給される。方向θに関する伝達関数であるステアリングベクトルaθは、方向θに音源があると仮定して予め求められた伝達関数であり、伝達関数記憶部414に予め記憶されている。
Figure JPOXMLDOC01-appb-M000007
 Nは音源の数を表し、θは仰角を固定して空間スペクトルを計算する水平方向を表す。
 ステップS135において周波数重み算出部413は、周波数毎の空間スペクトルの寄与度合いを表す周波数重みを算出する。ある方向から音が到来している場合には、固有値の分布に偏りが生じており、音源数分の固有値のみが大きくなる。例えば以下の式(11)に従って周波数重みwω,tが計算される。λは一般化固有値分解で求められるi番目に大きな固有値であり、式(11)の分子の固有値は、一番大きい固有値を意味する。
Figure JPOXMLDOC01-appb-M000008
 ステップS136において周波数情報統合部416は、次の式(12)と式(13)に従って、周波数毎の第1の空間スペクトルの重み付け平均P-n θ,tを算出する。第1の空間スペクトルP ω,θ,tは、第1空間スペクトル算出部415から供給され、周波数重みwω,tは周波数重み算出部413から供給される。
Figure JPOXMLDOC01-appb-M000009
 なお、式(13)の第2項は、仰角を固定して空間スペクトルを計算する水平方向θの全ての範囲でθ’を変化させたときに、式(13)のlogP-n θ’,tを最小にするものである。
 式(12)の演算では、調和平均が求められているが、算術平均や幾何平均を求めるようにすることもできる。式(13)の演算により、最小値が0に正規化されており、この演算におけるlogの底は任意だが、例えばネイピア数を用いることができる。式(13)の演算により、後段の第1ピーク検出部452で音源と無関係なピークを閾値以下に抑える効果がある。
 以上のようにして、第1MUSIC処理部102における第1MUSIC処理により、第1の空間スペクトルの重み付け平均P^ θ,tが計算される。
 図7に戻って、ステップS102の第1MUSIC処理(図8の処理)の後、ステップS103において水平角推定部103により、水平角推定処理が行われる。この水平角推定処理について、図9を参照して説明する。図9は、水平角推定処理を説明するフローチャートである。
 ステップS161において閾値更新部451は、閾値を計算する。すなわち、第1MUSIC処理部102の周波数情報統合部416から出力された第1の空間スペクトルの重み付け平均P^ θ,tのうち、ピーク検出を行うか否かを決めるための閾値Pth θ,tが、例えば次の式(14)と式(15)に従って計算される。αth,βth,γthは、それぞれ定数であり、Θはスキャンする方向の数を表す。
Figure JPOXMLDOC01-appb-M000010
 この閾値Pth θ,tは音源がその方向にないものの、値の小さいピークとなってしまったものを除去したり、ある方向から鳴り続けている音を除去したりする効果がある。目的音声は短いコマンドや機器を操作するための発話であることが多く、長時間続くものではないと想定される。
 次にステップS162において第1ピーク検出部452は、第1のピークを検出する。すなわち、周波数情報統合部416から出力された第1の空間スペクトルの重み付け平均P^ θ,tのうち、閾値更新部451から出力された閾値Pth θ,tを超えるピークを有するものが検出される。そして、検出されたピークを有する第1の空間スペクトルの重み付け平均P^ θ,tに対応する水平角θ^が、仰角を固定したときの発話方向(第1の水平角)として出力される。
 以上のようにして、図7のステップS103における水平角推定部103の水平角推定処理(図9の処理)により、仰角を固定したときの発話方向である第1の水平角θ^が推定される。
 図7のステップS103の水平角推定処理の次に、ステップS104において第2MUSIC処理部104により第2MUSIC処理が実行される。この第2MUSIC処理の詳細について、図10を参照して説明する。図10は、第2MUSIC処理を説明するフローチャートである。
 ステップS181において第2空間スペクトル算出部482は、第2の空間スペクトルを算出する。すなわち、固有値分解部412で得られた固有ベクトルeのうち、小さい方からM-N個の固有値λに対応した固有ベクトルeと、方向(θ~,φ)に関する伝達関数であるスステアリングベクトルaθ~,φを用いて、第2の空間スペクトルが算出される。第2の空間スペクトルP ω,θ~,φ,tの算出は、例えば次の式(16)に従って行われる。
Figure JPOXMLDOC01-appb-M000011
 θ~は、仰角を固定したときの音源の推定方向θ^を基準として、その近傍の制限された範囲(θ^±s)である。すなわち、θ^-s<θ~< θ^+sとされる。つまり、仰角を推定する範囲が、360度の全水平角の範囲ではなく、一次的に推定された第1の水平角θ^の近傍の制限された範囲とされる。φは空間スペクトルを計算する仰角方向を表す。
 図11は、推定範囲を説明する図である。図11に示されるように、仰角を推定する範囲は、360度の全水平角の範囲ではなく、一次的に推定された第1の水平角θ^の近傍の制限された範囲(θ^±s)であるので、演算量を少なくすることができる。その結果、演算リソースの高くない(演算能力が高くない)デバイスでも、リアルタイムに演算することが可能になる。本技術は、ユーザがいそうな方向が完全に未知な条件(カメラ等の画角に入っていることや、ウェアラブルデバイスのように予め「この方向にいる」という情報がない場合)でも適用可能である。
 第2の空間スペクトルは、方向(θ~,φ)から音が到来している度合いを表す空間スペクトルである。方向(θ~,φ)に関するステアリングベクトルaθ~,φは予め伝達関数記憶部481に記憶されており、固有ベクトルeは、第1MUSIC処理部102の固有値分解部412から供給される。
 ステップS182において周波数情報統合部483は、次の式(17)と式(18)に従って、周波数毎の第2の空間スペクトルの重み付け平均P^ θ~,φ,tを算出する。第2の空間スペクトルP ω,θ ~,φ,tは、第2空間スペクトル算出部482から供給され、周波数重みwω,tは第1MUSIC処理部102の周波数重み算出部413から供給される。
Figure JPOXMLDOC01-appb-M000012
 以上の第2MUSIC処理部104の第2MUSIC処理により、周波数毎の第2の空間スペクトルの重み付け平均P^ θ~,φ,tが算出される。
 図7に戻って、ステップS104の第2MUSIC処理(図10の処理)が終了すると、ステップS105において第2ピーク検出部105がピークを検出する。すなわち、第2MUSIC処理部104が出力した、重み付き平均された空間スペクトルのうち、最大値を取る空間スペクトルが検出され、その空間スペクトルに対応する水平角(第2の水平角θout)と仰角φoutが、発話方向(θoutout)として出力される。
 以上のようにして、可動部14を回転させ、表示部15を推定された発話方向に向かせることにより、その方向からの音声を受け付けていることを示すことができる。
 この例では、MUSIC法による演算が行われるので、発話方向を正確に求めることができる。また、水平角と仰角を推定する範囲が、360度の全水平角の範囲ではなく、一次的に推定された第1の水平角θ^の近傍の制限された範囲(θ^±s)とされるので、演算量を少なくすることができる。その結果、演算リソースの高くない(演算能力が高くない)デバイスでも、リアルタイムに演算することが可能になる。
 <空間スペクトルの特性>
  (図12乃至図14)
 次に、図12乃至図14を参照して、空間スペクトルの特性について説明する。図12乃至図14は、空間スペクトルの特性を示す図である。
 第2の空間スペクトルの重み付け平均P^ θ~,φ,tは、図12に示されるように、発話方向θsにおいてピークを持つ。音源が1つの環境においては、この空間スペクトルは発話方向の水平角θiの位置で鋭いピークを持つ。しかし、常時雑音が発生しているような環境においては、例えば図13に示されるように、発話方向θsだけでなく、雑音方向θnといったように、2つ以上のピークが出現することがある。また、スペクトルが歪んできれいにピークが求められないといったことが起こる。
 そこでこの音声入力装置1においては、式(7)を参照して説明したように、一般化固有値分解により、雑音が白色化される。これにより、空間的に有色な雑音を白色化することができるため、得られる新たな固有ベクトルを用いてMUSIC法による処理を行うと、図14に示されるように、空間スペクトルから、発話方向θsに比べて雑音方向θnのピークを抑圧することができる。
 発話方向推定部71を、図5に示したように構成した場合、演算リソースの高くないデバイスでも、リアルタイムに演算することが可能であるので、マイクロフォンアレイ12を、必ずしも固定部としての筐体11に設ける必要はない。しかしながら、マイクロフォンアレイ12を、固定部としての筐体11に設けておけば、発話者の方向を推定するのに、より演算能力が低いデバイスを用いることが可能になる。
 そして、上述した式(2)の雑音信号の相関行列Kω,tを、予め学習しておくか、または逐次的に更新しながらある程度の時間幅を持った雑音区間情報から計算し、保持しておくことができる。可動部14が回転しても、回転の前後でマイクロフォンアレイ12の配置、発話方向、空間の間の位置関係が変わらなければ、それまで学習した空間情報がそのまま使用できるため、動作による性能劣化が起こらず、不要な混乱を招かない。そして、通話、音声認識等のアプリケーションを、安定して使用することができる。
 マイクロフォンアレイ12を立体的に配置した方が、演算量が増える反面、発話方向の正確な推定には有利となる。しかし、マイクロフォンアレイ12を固定部に取り付けることにより、図1乃至図3に示されるように、平面的に配置し、より演算量が少ない方法を採用しても、正確に発話方向を推定することが可能になる。その結果、コストを低減することができる。
 相関行列Kω,tの逐次学習は、使用環境の雑音の特徴を推定しているものであり、例えばテレビジョン放送やラジオ放送などの音が定常的に流されていると、その方向の雑音情報が相関行列Kω,tの中に蓄積される。その結果、人の発話を検出するときに誤ってテレビやラジオの方向が検出され難くなる。この相関行列Kω,t に十分な情報を蓄積するためにはある程度の時間が必要である。
 マイクロフォンアレイ12を固定せずに、回転してしまうと、回転直後はマイクロフォンアレイ12と空間の位置関係がリセットされてしまう。回転直後のユーザ(または別の方向の新たなユーザ)の発話を検出するための方向推定時に、これまで学習していた相関行列Kω,tを使用してしまうと、テレビジョン放送やラジオ放送による雑音の方向や強さの情報が相関行列Kω,tにまだ学習されていない。そのため、マイクロフォンアレイ12の回転直後においては、発話方向を正確に推定することが困難になる。
 しかし、マイクロフォンアレイ12を固定しておけば、マイクロフォンアレイ12と空間の位置関係がリセットされることはないので、このような問題は発生しない。特に、可動部14を円柱状のように、回転中心に対して対称に形成しておけば、可動部14による反射を考慮しても、回転の前後において、マイクロフォンアレイ12と空間の位置関係が変化することはない。
 また、マイクロフォンアレイ12を回転させ、それを駆動するサーボモータの回転軸の回転ステップ数から回転角度を計算し、その回転角度の分だけ、推定された方向を補正する構成も考えられる。しかし、マイクロフォンアレイ12を固定しておけば、このような補正処理も不要となる。
 <コンピュータ>
  (図15)
 上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。この場合、例えば、各装置は、図15に示されるようなパーソナルコンピュータにより構成される。図15は、パーソナルコンピュータの構成例を示すブロック図である。
 図15において、CPU(Central Processing Unit)921は、ROM(Read Only Memory)922に記憶されているプログラム、または記憶部928からRAM(Random Access Memory)923にロードされたプログラムに従って各種の処理を実行する。RAM923にはまた、CPU921が各種の処理を実行する上において必要なデータなども適宜記憶される。
 CPU921、ROM922、およびRAM923は、バス924を介して相互に接続されている。このバス924にはまた、入出力インタフェース925も接続されている。
 入出力インタフェース925には、キーボード、マウスなどよりなる入力部926、CRT、LCDなどよりなるディスプレイ、並びにスピーカなどよりなる出力部927、ハードディスクなどより構成される記憶部928、モデム、ターミナルアダプタなどより構成される通信部929が接続されている。通信部929は、例えばインターネットなどのネットワークを介しての通信処理を行う。
 入出力インタフェース925にはまた、必要に応じてドライブ930が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア931が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部48にインストールされる。
 なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 <その他>
 本技術は、以下のような構成もとることができる。
(1)
 所定の位置に配置される固定部と、
 前記固定部に対して可動する可動部と、
 前記固定部に取り付けられたマイクロフォンアレイと、
 前記マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定する発話方向推定部と、
 推定された前記発話方向に対応して前記可動部を駆動する駆動部と
 を備える音声入力装置。
(2)
 前記マイクロフォンアレイから入力された、前記発話者からの前記音声を認識し、その認識結果に基づいて、前駆動部を制御する制御部をさらに備える
 前記(1)に記載の音声入力装置。
(3)
 前記制御部は、内部または外部に、前記発話者からの前記音声を認識する音声認識エンジンを備える
 前記(1)または(2)に記載の音声入力装置。
(4)
 前記マイクロフォンアレイにおいては、複数のマイクロフォンが平面的に配置されている
 前記(1)乃至(3)のいずれかに記載の音声入力装置。
(5)
 前記可動部は、回転中心に対して対称である
 前記(1)乃至(4)のいずれかに記載の音声入力装置。
(6)
 前記発話方向推定部は、
  前記発話者からの前記音声の信号から前記発話方向の水平角である第1の水平角を推定する第1の推定部と、
  前記第1の水平角を基準として、前記第1の水平角の近傍の所定の範囲において、前記発話方向の前記水平角である第2の水平角と仰角を推定する第2の推定部と
 を備える
 前記(1)乃至(5)のいずれかに記載の音声入力装置。
(7)
 所定の位置に配置される固定部と、
 前記固定部に対して可動する可動部と、
 前記固定部に取り付けられたマイクロフォンアレイと
 を備える音声入力装置の音声入力方法において、
 前記固定部に取り付けられた前記マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定するステップと、
 推定された前記発話方向に対応して前記可動部を駆動するステップと
 を含む音声入力方法。
(8)
 コンピュータに、
 所定の位置に配置される固定部と、
 前記固定部に対して可動する可動部と、
 前記固定部に取り付けられたマイクロフォンアレイと
 を備える音声入力装置の音声入力処理を実行させるプログラムにおいて、
 前記固定部に取り付けられた前記マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定するステップと、
 推定された前記発話方向に対応して前記可動部を駆動するステップと
 を含むプログラム。
 1 音声入力装置, 11 筐体, 12 マイクロフォンアレイ, 13 マイクロフォン, 14 可動部, 15 表示部, 16 スピーカ, 51 信号処理部, 52 メイン制御部, 71 発話方向推定部, 72 信号強調部, 73 雑音抑圧部, 74 エコーキャンセル部, 81 音声認識エンジン, 82 動作決定部

Claims (8)

  1.  所定の位置に配置される固定部と、
     前記固定部に対して可動する可動部と、
     前記固定部に取り付けられたマイクロフォンアレイと、
     前記マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定する発話方向推定部と、
     推定された前記発話方向に対応して前記可動部を駆動する駆動部と
     を備える音声入力装置。
  2.  前記マイクロフォンアレイから入力された、前記発話者からの前記音声を認識し、その認識結果に基づいて、前駆動部を制御する制御部をさらに備える
     請求項1に記載の音声入力装置。
  3.  前記制御部は、内部または外部に、前記発話者からの前記音声を認識する音声認識エンジンを備える
     請求項2に記載の音声入力装置。
  4.  前記マイクロフォンアレイにおいては、複数のマイクロフォンが平面的に配置されている
     請求項3に記載の音声入力装置。
  5.  前記可動部は、回転中心に対して対称である
     請求項4に記載の音声入力装置。
  6.  前記発話方向推定部は、
      前記発話者からの前記音声の信号から前記発話方向の水平角である第1の水平角を推定する第1の推定部と、
      前記第1の水平角を基準として、前記第1の水平角の近傍の所定の範囲において、前記発話方向の前記水平角である第2の水平角と仰角を推定する第2の推定部と
     を備える
     請求項1に記載の音声入力装置。
  7.  所定の位置に配置される固定部と、
     前記固定部に対して可動する可動部と、
     前記固定部に取り付けられたマイクロフォンアレイと
     を備える音声入力装置の音声入力方法において、
     前記固定部に取り付けられた前記マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定するステップと、
     推定された前記発話方向に対応して前記可動部を駆動するステップと
     を含む音声入力方法。
  8.  コンピュータに、
     所定の位置に配置される固定部と、
     前記固定部に対して可動する可動部と、
     前記固定部に取り付けられたマイクロフォンアレイと
     を備える音声入力装置の音声入力処理を実行させるプログラムにおいて、
     前記固定部に取り付けられた前記マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定するステップと、
     推定された前記発話方向に対応して前記可動部を駆動するステップと
     を含むプログラム。
PCT/JP2018/035842 2017-10-11 2018-09-27 音声入力装置および方法、並びにプログラム WO2019073803A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201880065077.3A CN111194464A (zh) 2017-10-11 2018-09-27 语音输入装置和方法以及程序
EP18866426.2A EP3696811A4 (en) 2017-10-11 2018-09-27 VOICE ENTRY DEVICE, ASSOCIATED PROCESS AND PROGRAM
US16/753,236 US11310593B2 (en) 2017-10-11 2018-09-27 Voice input device and method for estimation of utterance direction
JP2019548109A JPWO2019073803A1 (ja) 2017-10-11 2018-09-27 音声入力装置および方法、並びにプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017197869 2017-10-11
JP2017-197869 2017-10-11

Publications (1)

Publication Number Publication Date
WO2019073803A1 true WO2019073803A1 (ja) 2019-04-18

Family

ID=66100726

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/035842 WO2019073803A1 (ja) 2017-10-11 2018-09-27 音声入力装置および方法、並びにプログラム

Country Status (5)

Country Link
US (1) US11310593B2 (ja)
EP (1) EP3696811A4 (ja)
JP (1) JPWO2019073803A1 (ja)
CN (1) CN111194464A (ja)
WO (1) WO2019073803A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112075088B (zh) * 2018-05-18 2022-06-28 索尼公司 信号处理装置、信号处理方法和计算机可读介质
CN109068234A (zh) * 2018-10-29 2018-12-21 歌尔科技有限公司 一种音频设备定向发声方法、装置、音频设备
US11276399B2 (en) * 2019-04-11 2022-03-15 Lg Electronics Inc. Guide robot and method for operating the same

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6456428A (en) * 1987-08-27 1989-03-03 Oki Electric Ind Co Ltd Control system for camera by sound
JP2001337694A (ja) 2000-03-24 2001-12-07 Akira Kurematsu 音源位置推定方法、音声認識方法および音声強調方法
JP2009086055A (ja) * 2007-09-27 2009-04-23 Sony Corp 音源方向検出装置、音源方向検出方法及び音源方向検出カメラ
JP2011053828A (ja) * 2009-08-31 2011-03-17 Toshiba Tec Corp 画像処理装置及びプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2005076661A1 (ja) 2004-02-10 2008-01-10 三菱電機エンジニアリング株式会社 超指向性スピーカ搭載型移動体
WO2007041295A2 (en) * 2005-09-30 2007-04-12 Irobot Corporation Companion robot for personal interaction
JP2007221300A (ja) * 2006-02-15 2007-08-30 Fujitsu Ltd ロボット及びロボットの制御方法
WO2007129731A1 (ja) * 2006-05-10 2007-11-15 Honda Motor Co., Ltd. 音源追跡システム、方法、およびロボット
JP5253278B2 (ja) * 2009-04-08 2013-07-31 株式会社東芝 多次元データ識別装置、多次元データ識別方法、及び信号到来方向推定装置
US8885882B1 (en) * 2011-07-14 2014-11-11 The Research Foundation For The State University Of New York Real time eye tracking for human computer interaction
WO2013015461A1 (ko) * 2011-07-22 2013-01-31 엘지전자 주식회사 음원 방향 탐지 장치 및 이를 포함하는 감시 카메라
US9516412B2 (en) * 2014-03-28 2016-12-06 Panasonic Intellectual Property Management Co., Ltd. Directivity control apparatus, directivity control method, storage medium and directivity control system
EP2933067B1 (en) * 2014-04-17 2019-09-18 Softbank Robotics Europe Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
US9621984B1 (en) * 2015-10-14 2017-04-11 Amazon Technologies, Inc. Methods to process direction data of an audio input device using azimuth values
KR102392113B1 (ko) 2016-01-20 2022-04-29 삼성전자주식회사 전자 장치 및 전자 장치의 음성 명령 처리 방법
US11151992B2 (en) * 2017-04-06 2021-10-19 AIBrain Corporation Context aware interactive robot
CN107199572B (zh) * 2017-06-16 2020-02-14 山东大学 一种基于智能声源定位与语音控制的机器人系统及方法
JP6686977B2 (ja) * 2017-06-23 2020-04-22 カシオ計算機株式会社 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム
US10649060B2 (en) * 2017-07-24 2020-05-12 Microsoft Technology Licensing, Llc Sound source localization confidence estimation using machine learning
KR102174598B1 (ko) * 2019-01-14 2020-11-05 한국과학기술원 회절 인지를 통한 비가시선 음원 위치 추적 방법 및 시스템

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6456428A (en) * 1987-08-27 1989-03-03 Oki Electric Ind Co Ltd Control system for camera by sound
JP2001337694A (ja) 2000-03-24 2001-12-07 Akira Kurematsu 音源位置推定方法、音声認識方法および音声強調方法
JP2009086055A (ja) * 2007-09-27 2009-04-23 Sony Corp 音源方向検出装置、音源方向検出方法及び音源方向検出カメラ
JP2011053828A (ja) * 2009-08-31 2011-03-17 Toshiba Tec Corp 画像処理装置及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3696811A4

Also Published As

Publication number Publication date
CN111194464A (zh) 2020-05-22
JPWO2019073803A1 (ja) 2020-11-05
EP3696811A1 (en) 2020-08-19
US20200329308A1 (en) 2020-10-15
US11310593B2 (en) 2022-04-19
EP3696811A4 (en) 2020-11-25

Similar Documents

Publication Publication Date Title
US10665249B2 (en) Sound source separation for robot from target voice direction and noise voice direction
JP6620140B2 (ja) 2次元センサーアレイを用いて3次元波動場の3次元波動場表現を構築するための方法、コンピューター可読記憶媒体及び装置
Madmoni et al. Direction of arrival estimation for reverberant speech based on enhanced decomposition of the direct sound
Ishi et al. Evaluation of a MUSIC-based real-time sound localization of multiple sound sources in real noisy environments
US8693287B2 (en) Sound direction estimation apparatus and sound direction estimation method
WO2019073803A1 (ja) 音声入力装置および方法、並びにプログラム
WO2014032738A1 (en) Apparatus and method for providing an informed multichannel speech presence probability estimation
CN106898360B (zh) 音频信号处理方法、装置和电子设备
JP6888627B2 (ja) 情報処理装置、情報処理方法及びプログラム
Asano et al. Detection and separation of speech event using audio and video information fusion and its application to robust speech interface
JP5660362B2 (ja) 音源定位装置及びコンピュータプログラム
Wakabayashi et al. Sound field interpolation for rotation-invariant multichannel array signal processing
EP4295359A1 (en) System and method for data augmentation and speech processing in dynamic acoustic environments
WO2022178162A1 (en) System and method for data augmentation and speech processing in dynamic acoustic environments
Ince et al. Whole body motion noise cancellation of a robot for improved automatic speech recognition
US11386904B2 (en) Signal processing device, signal processing method, and program
Tengan et al. Speech enhancement using ego-noise references with a microphone array embedded in an unmanned aerial vehicle
CN111341347B (zh) 一种噪声检测方法及相关设备
TW201810252A (zh) 雜音去除裝置、迴音消除裝置、異音檢出裝置以及雜音去除方法
WO2019073804A1 (ja) 音源方向推定装置および方法、並びにプログラム
Ogawa et al. Speech enhancement using a square microphone array in the presence of directional and diffuse noise
US11425495B1 (en) Sound source localization using wave decomposition
Kim et al. Binaural active audition for humanoid robots to localise speech over entire azimuth range
WO2022178151A1 (en) System and method for data augmentation and speech processing in dynamic acoustic environments
Tengan Pires de Souza et al. Speech enhancement using ego-noise references with a microphone array embedded in an unmanned aerial vehicle

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18866426

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019548109

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018866426

Country of ref document: EP

Effective date: 20200511