WO2018207453A1 - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
WO2018207453A1
WO2018207453A1 PCT/JP2018/009662 JP2018009662W WO2018207453A1 WO 2018207453 A1 WO2018207453 A1 WO 2018207453A1 JP 2018009662 W JP2018009662 W JP 2018009662W WO 2018207453 A1 WO2018207453 A1 WO 2018207453A1
Authority
WO
WIPO (PCT)
Prior art keywords
reliability
voice
information processing
processing apparatus
sound
Prior art date
Application number
PCT/JP2018/009662
Other languages
English (en)
French (fr)
Inventor
充奨 澤田
裕一郎 小山
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to US16/610,145 priority Critical patent/US11468884B2/en
Priority to JP2019517473A priority patent/JP7103353B2/ja
Priority to CN201880029172.8A priority patent/CN110603587A/zh
Publication of WO2018207453A1 publication Critical patent/WO2018207453A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Definitions

  • This technology relates to an information processing apparatus. Specifically, the present invention relates to an information processing apparatus that performs processing according to acquired sound, a processing method in these, and a program that causes a computer to execute the method.
  • a voice section is detected by determining whether or not the voice is based on a periodic structure of human voice. For example, gain information is obtained based on periodicity information representing the periodicity of the input signal and power, and the periodicity information of the noise-added signal to which noise having a magnitude corresponding to the gain information is added is used as the feature amount of the input signal.
  • a technique for detecting a voice section has been proposed (see, for example, Patent Document 1). In this case, in order to identify the speaker from the voice, it is necessary to detect the direction of the sound source. For this reason, for example, a conference audio recording system has been proposed in which the speaker of each utterance is identified based on the speaker acoustic feature amount and direction information of the utterance speech (for example, see Patent Document 2).
  • This technology was created in view of such a situation, and aims to detect sound from a specific position with a small amount of calculation.
  • the present technology has been made to solve the above-described problems, and a first aspect of the present technology is a sound acquisition unit that acquires surrounding sound and the acquired sound from a specific position.
  • the information processing apparatus includes a reliability generation unit that generates a reliability indicating a degree based on a predetermined transfer characteristic, and a process execution unit that executes a process according to the reliability. Thereby, the reliability that the voice is from a specific position is generated based on the transfer characteristic, and the process is performed according to the reliability.
  • the sound acquisition unit includes a plurality of microphones
  • the reliability generation unit is based on the phase difference of the sound acquired by the plurality of microphones as the predetermined transfer characteristic.
  • the reliability may be generated.
  • the reliability is generated using the phase difference of the sound as the transfer characteristic.
  • the reliability generation unit may generate the reliability based on an acoustic characteristic of the voice acquired by the voice acquisition unit as the predetermined transfer characteristic. This brings about the effect
  • the processing execution unit may perform notification according to the reliability. This brings about the effect
  • the process execution unit may perform the notification indicating whether or not the sound is from a specific position. Further, the processing execution unit may perform the notification that it is impossible to determine whether the sound is from a specific position. In addition, the processing execution unit may perform the notification regarding the wearing state when the information processing apparatus is a wearable terminal.
  • the processing execution unit may execute a predetermined command when the voice is from a specific position.
  • FIG. 1 is a diagram illustrating a configuration example of an information processing system according to an embodiment of the present technology.
  • This information processing system includes a wearable device 100 and a mobile terminal 200.
  • Wearable device 100 is a device worn on a part of a user's body. A user who wears this wearable device 100 is called a wearer.
  • the mobile terminal 200 is a terminal device that is carried by a user. It is assumed that wearable device 100 and portable terminal 200 are connected and used by wireless communication. For example, the wearable device 100 and the mobile terminal 200 are connected by pairing using Bluetooth (registered trademark).
  • the wearable device 100 includes a microphone 110, a voice instruction detection unit 120, a command generation unit 130, a command processing unit 140, and a notification unit 150.
  • the microphone 110 is a device that converts sound into an electrical signal, and is used to acquire surrounding sound.
  • the voice converted into the electrical signal is supplied to the voice instruction detection unit 120 via the signal line 111.
  • Microphone 110 may include one or more microphones. When a plurality of microphones are used, the sound supplied via the signal line 111 becomes a multi-channel signal.
  • the microphone 110 is an example of a sound acquisition unit described in the claims.
  • the voice instruction detection unit 120 detects a voice instruction by the wearer from the voice acquired by the microphone 110. This voice instruction is used as a voice user interface. When the voice instruction by the wearer is detected, the voice instruction detection unit 120 supplies the content of the voice instruction to the command generation unit 130 via the signal line 128. Further, the voice instruction detection unit 120 generates a reliability indicating the degree to which the voice acquired by the microphone 110 is from a specific position, and supplies the reliability to the notification unit 150 via the signal line 129.
  • the command generator 130 generates a command corresponding to the content of the voice instruction supplied from the voice instruction detector 120 via the signal line 128. That is, the command is generated by the voice user interface based on the voice instruction.
  • the command processing unit 140 executes the command generated by the command generation unit 130.
  • the command processing unit 140 notifies the mobile terminal 200 of the execution result via the notification unit 150 as necessary.
  • the notification unit 150 performs notification according to the reliability generated by the voice instruction detection unit 120.
  • the notification by the notification unit 150 for example, a notification indicating whether or not the sound is from the wearer, a notification regarding the wearing state, a notification of the execution result of the command processing unit 140 described above, and the like are assumed.
  • the command processing unit 140 and the notification unit 150 are an example of a processing execution unit described in the claims.
  • FIG. 2 is a diagram illustrating a configuration example of the voice instruction detection unit 120 according to the embodiment of the present technology.
  • the voice instruction detection unit 120 includes a voice integration unit 121, a voice section detection unit 122, a recognition target determination unit 123, and a reliability generation unit 124.
  • the audio integration unit 121 integrates the audio supplied through the signal line 111 into a single channel signal when the audio is a multi-channel signal.
  • the 1-channel signal integrated by the audio integration unit 121 is supplied to the audio section detection unit 122 via the signal line 125.
  • the voice section detection unit 122 detects a voice section in the 1-channel signal supplied from the voice integration unit 121 via the signal line 125.
  • the voice section is a section in which voice is uttered, and detection of this voice section is called VAD (Voice Activity Detection).
  • VAD Voice Activity Detection
  • the speech segment detection unit 122 generates speech likelihood representing speech likeness in the one-channel signal supplied from the speech integration unit 121, and detects a temporal segment in which the speech likelihood exceeds a predetermined threshold as a speech segment. .
  • the voice section detection unit 122 supplies the voice of the voice section to the recognition target determination unit 123 via the signal line 126.
  • the recognition target determination unit 123 determines whether or not a recognition target is included in the voice section when the voice section is detected by the voice section detection unit 122 and the voice of the voice section is supplied.
  • the recognition target for example, activation words such as “OK” and “Hello” are assumed.
  • the recognition target determination unit 123 detects that the recognition target is included in the voice section, the recognition target determination unit 123 notifies the reliability generation unit 124 of the fact via the signal line 127.
  • the reliability generated by the reliability generation unit 124 is higher than a predetermined threshold, the voice of the voice section is supplied to the command generation unit 130 via the signal line 128.
  • the reliability generation unit 124 When the reliability generation unit 124 receives a notification from the recognition target determination unit 123 that the recognition target is included in the voice section, the reliability generation unit 124 indicates the degree of reliability that the voice supplied via the signal line 111 is from a specific position. It is what generates the degree.
  • the reliability generation unit 124 generates a reliability based on the sound transmission characteristics. As the transfer characteristics, as will be described later, a phase difference due to arrival times of a plurality of voices and a voice amplitude characteristic (acoustic characteristic) can be used. Based on this transfer characteristic, the reliability generation unit 124 generates the reliability and outputs the reliability to the recognition target determination unit 123 and the notification unit 150 via the signal line 129.
  • FIG. 3 is a diagram illustrating an example of a voice propagation model.
  • the MUSIC (MUltiple SIgnal Classification) method is a method of performing sound source localization by analyzing a phase difference between a plurality of microphones in an eigenspace.
  • sound source localization is a technique for identifying the position of a sound source by using a difference in sound waves observed by each microphone in a device equipped with a plurality of microphones.
  • M is an integer larger than 1
  • microphones 20 and N N is an integer smaller than M
  • the propagation wave delay in the m- th microphone (m is any integer from 1 to M) is represented by ⁇ m
  • the observation signal z m (t) by each microphone at time t is expressed.
  • s (t) represents a sound source signal at time t.
  • a fi is called an array manifold vector
  • a matrix A [a 1 , a 2 ,..., A N ] in which array manifold vectors related to each sound source are arranged is called an array manifold matrix.
  • the array manifold vector a fi is an M-dimensional complex number
  • the array manifold matrix A is an M ⁇ N-dimensional complex number.
  • observation vector a vector in which observation signals in the frequency domain are arranged
  • the frequency fi is obtained by taking the frame average as in the following equation.
  • the spatial correlation matrix R is an M ⁇ M-dimensional complex number.
  • Z n (f i ) is an observation vector obtained by Fourier-transforming a signal in frame #n obtained by dividing the observation signal into F frames, with respect to frequency f i .
  • the spatial correlation matrix R obtained in this way has the power spectrum observed by each microphone as a diagonal component and the spatial characteristics of the sound source having the spatial power correlation between the microphones as other elements.
  • the MUSIC method this spatial correlation matrix R, by calculating the eigenvectors e m and the eigenvalues lambda m satisfy the following equation is developed as discussed from the frequency domain to the eigenspace.
  • R ⁇ e m ⁇ m ⁇ e m
  • a space spanned by each column vector of the matrix A in which transmission paths to each sound source are arranged is called a signal subspace.
  • the space spanned by the eigenvectors of the number of sound sources calculated by the above equation in descending order of the eigenvalues is an orthonormal basis of the signal subspace.
  • a space spanned by eigenvectors after “number of sound sources + 1” in descending order of eigenvalues is called a noise subspace. Due to the nature of the orthonormal basis of the eigenvector, the signal subspace and the noise subspace are in an orthogonal complementary space relationship.
  • the direction ⁇ in which the sound source exists is estimated by using the spatial spectrum defined by the following equation.
  • the matrix E is an M ⁇ (MN) -dimensional complex number.
  • a ( ⁇ ) represents a virtual array manifold vector when it is assumed that there is a sound source in the direction ⁇ .
  • P MU ( ⁇ ) (A H ( ⁇ ) ⁇ a ( ⁇ )) / (a H ( ⁇ ) ⁇ E ⁇ E H ⁇ a ( ⁇ ))
  • the denominator of the above equation becomes zero for the direction in which the sound source truly exists due to the orthogonality of the noise subspace and the signal subspace. That is, the spatial spectrum P MU ( ⁇ ) has a very large value and has a peak.
  • sound source localization is realized by searching for the peak of the spatial spectrum P MU ( ⁇ ) as described above.
  • the reliability generation unit 124 increases the reliability by applying weighted normalization corresponding to the contribution ratio of the signal subspace to the spatial spectrum P MU ( ⁇ ) defined in the MUSIC method. It becomes possible to output.
  • a spatial spectrum value defined by the following equation at an arbitrary frequency f j (j is an integer from 1 to J) in a frequency domain subjected to discrete Fourier transform.
  • J is the total number of frequency bins.
  • e i represents the i-th eigenvector obtained by eigenvalue decomposition.
  • a wear is a value of the array manifold vector assuming that the transmission distance from the wearer's mouth to the microphone is known.
  • ⁇ i represents an angle between a wear and e i .
  • the evaluation function E defined in the above equation is integrated as an evaluation function E all as shown in the following equation while giving weights to all frequency bins to be used.
  • w j is a weight based on the contribution ratio of the signal subspace to the entire subspace, and is defined by the following equation.
  • ⁇ i j is the i-th eigenvalue sorted in descending order when eigenvalue decomposition is performed for an arbitrary frequency f j .
  • the evaluation function E all obtained as described above is an evaluation function indicating that the closer the value is to zero, the higher the probability that the voice is from a specific position. That is, if the position of the wearer's mouth is the specific position, the evaluation function indicates the probability that the sound is from the wearer.
  • the reliability generation unit 124 in the present embodiment generates the above-described reliability based on this evaluation function. According to this method, since only eigenvalue decomposition on the wearer's array manifold vector a wear is performed without performing peak identification, the amount of calculation is reduced compared to searching all directions. In addition, since the evaluation function E all finally used becomes an output value of the closed interval [0, 1], it is possible to easily determine the threshold value.
  • FIG. 4 is a diagram illustrating a specific example of the wearable device 100 according to the embodiment of the present technology.
  • the wearable device 100 a neckband type device that is assumed to be used by being worn on the neck portion of the wearer is shown.
  • the wearable device 100 has a ring shape that is partially open.
  • the wearable device 100 has the microphone 110 as described above, and acquires surrounding sounds.
  • the position where the microphone 110 is arranged in the wearable device 100 will be described later.
  • the wearable device 100 detects the above-described voice section of the voice collected by the microphone 110, determines the recognition target, and generates a reliability indicating the degree to which the acquired voice is from a specific position. To do. Then, by analyzing the speech based on speech recognition technology or natural language processing technology, the content spoken by the user is recognized and a command is generated. Thereby, for example, the wearable device 100 can recognize the instruction content from the user and execute various processes (applications) according to the recognition result. As another application example, a call function may be further provided, and the collected sound may be transferred to another information processing apparatus that is a call partner.
  • FIG. 5 is a diagram illustrating an arrangement example of the microphones 110 in the wearable device 100 according to the embodiment of the present technology.
  • a plurality of microphones 110 are arranged, and it is determined whether or not the sound is from the wearer based on the phase difference between the plurality of microphones.
  • the figure shows an example of an optimal arrangement according to the number of microphones 110.
  • a is an example of a two-channel microphone, and is an example in which one microphone 110 is provided near (in the vicinity of) the mouth of the wearer and another microphone 110 is provided on the back of the neck of the wearer. That is, both are disposed relative to each other with the wearer as the center.
  • B in the figure is an example of a three-channel microphone, and is an example in which one microphone 110 is further added to the wearer's mouth with respect to a.
  • C in the figure is an example of a four-channel microphone, and is an example in which one microphone 110 is further added to the wearer's mouth with respect to b.
  • This figure is a view taken from the head of the wearer, with the upper side showing the front of the wearer and the lower side showing the back of the wearer.
  • the microphone 110 As shown in the figure, as a requirement for the placement of the microphone 110 effective for wearer identification in the wearable device 100, many microphones that are close to the wearer's mouth and have a good SNR (Signal to Noise Ratio) are placed. It is desirable that
  • At least one microphone is located approximately 180 degrees behind the other microphone and the wearer, that is, at a point-symmetrical opposite position. More specifically, the signal observed by the microphone behind the 180 degrees with the neck as the origin has an effect on the frequency characteristics due to diffraction or the like, which also affects the spatial correlation matrix representing the spatial properties of the sound source. This is considered to contribute to the improvement of the discrimination performance for voices from non-wearers in a specific direction.
  • FIG. 6 is a diagram illustrating an example of acoustic characteristics assuming the wearable device 100 according to the embodiment of the present technology.
  • an example of frequency characteristics in the case where one microphone 110 is provided in a neckband type neck back portion is shown.
  • the graph shown by the solid line shows the frequency characteristics of the sound produced by the wearer.
  • the graph indicated by the dotted line shows the frequency characteristics of the sound produced by the non-wearer positioned in front of the wearer. Note that the values on the vertical axis are normalized so that the average value of the frequency characteristics for all frequency bands is zero for each of the wearer and the non-wearer for easy comparison.
  • the distribution of frequency characteristics is different between the two. Therefore, by examining the frequency characteristic distribution of the acquired sound, it is possible to determine whether the sound is derived from the wearer or the other.
  • a neckband type wearable device is assumed.
  • an earphone type wearable device it is conceivable to use the transmission characteristics of bone conduction sound such as a microphone in the ear.
  • FIG. 7 is a diagram illustrating an example of the reliability generated by the reliability generation unit 124 according to the embodiment of the present technology.
  • the reliability indicates a value from “0” to “1”, and the closer to “1”, the larger the wearer-likeness, and the closer to “0”, the smaller the wearer-likeness.
  • a determination threshold is provided for the reliability, and if the reliability is larger than the determination threshold, the wearer area is determined and the sound is determined by the wearer.
  • the voice instruction from the user can be used as a voice user interface without any problem.
  • the reliability is smaller than the determination threshold, it is not determined that the sound is by the wearer. If the reliability is sufficiently close to “0”, it becomes a non-wearer region, and it is determined that the sound is from a person other than the wearer. At this time, for example, as shown in FIG. 8, it is desirable that a message such as “Determined as a voice other than the wearer” is notified on the portable terminal 200.
  • an area that does not belong to either the wearer area or the non-wearer area is an ambiguous area, and it cannot be determined which person is the voice.
  • a message such as “There is a possibility that mismounting has occurred” is notified on the mobile terminal 200 as shown in FIG. It is desirable.
  • the wearable device 100 is misplaced initially as shown in FIG. 10A, the user himself / herself may not notice the misfit. Therefore, when receiving a notification suggesting a mounting deviation, the user is aware of the mounting deviation and can be expected to rearrange it at an appropriate position as shown in FIG.
  • Notification to the user is performed by the notification unit 150 described above.
  • a notification mode is not limited thereto.
  • the wearable device 100 has a speaker that outputs sound or a vibrator that generates vibration
  • a notification sound may be output from the speaker and vibration may be generated from the vibrator.
  • the wearable device 100 has a display screen
  • a text message may be displayed together with a notification sound or vibration.
  • a message is displayed on the mobile terminal 200, it may be displayed together with a notification sound or vibration.
  • the number of times the reliability of the non-wearer area has occurred may be counted, and a predetermined exception process may be executed when the reliability exceeds a certain number. However, if the reliability of the wearer area occurs in the middle, the count number is initialized to zero, and if the reliability of the ambiguous area occurs, the current state is maintained without initialization or counting. It is done. Note that the number of times until the transition to exception processing is desirably set appropriately in accordance with the system status.
  • the predetermined exception processing for example, it may be forcibly prohibited to use the voice user interface.
  • fingerprint authentication, password input via a button, speaker recognition, and the like are used.
  • the user may confirm whether or not to disable the voice user interface, and the user may make a voice response or a button response. Further, in a situation where the notification is given many times and the user feels uncomfortable, it may be considered that the subsequent notification is not performed.
  • notification, command processing, and the like in the voice user interface can be executed according to the reliability indicating the degree to which the acquired voice is from the specific position. .
  • the processing procedure described in the above embodiment may be regarded as a method having a series of these procedures, and a program for causing a computer to execute these series of procedures or a recording medium storing the program. You may catch it.
  • a recording medium for example, a CD (Compact Disc), an MD (MiniDisc), a DVD (Digital Versatile Disc), a memory card, a Blu-ray disc (Blu-ray (registered trademark) Disc), or the like can be used.
  • this technique can also take the following structures.
  • a voice acquisition unit that acquires surrounding voice
  • a reliability generation unit that generates a reliability indicating the degree to which the acquired voice is from a specific position based on a predetermined transfer characteristic
  • An information processing apparatus comprising: a process execution unit that executes a process according to the reliability.
  • the voice acquisition unit includes a plurality of microphones, The information processing apparatus according to (1), wherein the reliability generation unit generates the reliability based on a phase difference of the sound acquired by the plurality of microphones as the predetermined transfer characteristic.
  • the information processing apparatus according to (2) wherein at least some of the plurality of microphones are arranged in the vicinity of the specific position.
  • any one pair of the plurality of microphones is disposed relative to the specific position.
  • the reliability generation unit generates the reliability based on an acoustic characteristic of the voice acquired by the voice acquisition unit as the predetermined transfer characteristic.
  • the process execution unit performs notification according to the reliability.
  • the processing execution unit performs the notification indicating whether or not the voice is from a specific position.
  • the process execution unit performs the notification that it is impossible to determine whether the sound is from a specific position.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

特定位置からの音声を少ない演算量により検出する。 情報処理装置は、音声取得部と、信頼度生成部と、処理実行部とを備える。音声取得部は、周囲の音声を取得する。信頼度生成部は、取得された音声が特定位置からのものである度合いを示す信頼度を所定の伝達特性に基づいて生成する。所定の伝達特性としては、音声の位相差や音響特性が想定され得る。処理実行部は、生成された信頼度に応じた処理を実行する。信頼度に応じた処理としては、信頼度に応じた通知や、所定のコマンドを実行することが想定され得る。

Description

情報処理装置
 本技術は、情報処理装置に関する。詳しくは、取得した音声に応じた処理を行う情報処理装置、および、これらにおける処理方法ならびに当該方法をコンピュータに実行させるプログラムに関する。
 従来の音声検出技術においては、人間の音声の周期構造に基づいて、音声か否かを判定して、音声区間を検出していた。例えば、入力信号の周期性を表す周期性情報とパワーとに基づいてゲイン情報を求め、そのゲイン情報に応じた大きさのノイズを付加したノイズ付加信号の周期性情報を入力信号の特徴量として音声区間を検出する技術が提案されている(例えば、特許文献1参照。)。この場合、音声から話者を識別するためには、音源の方向を検出する必要があった。そのため、例えば、打合せの発話音声の話者音響特徴量や方向情報などからそれぞれの発話の話者を識別する会議音声録音システムが提案されている(例えば、特許文献2参照。)。
特開2007-328228号公報 特開2009-301125号公報
 上述の従来技術では、話者を識別するために全ての音源方向を検査した後に検出する必要があり、そのため、演算量が多くなってしまうという問題がある。近年では、ユーザが身体の一部に装着するウェアラブルデバイスが用いられており、そのユーザインタフェースとして音声入力を利用する場合、処理に要する演算量が少ないことが要求される。また、話者を事前登録しておいて、個別に照合することも考えられるが、登録作業が煩わしく、また、話者の体調による声の変化や音声揺らぎに起因する精度が問題となる。
 本技術はこのような状況に鑑みて生み出されたものであり、特定位置からの音声を少ない演算量により検出することを目的とする。
 本技術は、上述の問題点を解消するためになされたものであり、その第1の側面は、周囲の音声を取得する音声取得部と、上記取得された音声が特定位置からのものである度合いを示す信頼度を所定の伝達特性に基づいて生成する信頼度生成部と、上記信頼度に応じた処理を実行する処理実行部とを具備する情報処理装置である。これにより、音声が特定位置からのものである信頼度を伝達特性に基づいて生成し、その信頼度に応じて処理を実行するという作用をもたらす。
 また、この第1の側面において、上記音声取得部は、複数のマイクロフォンを備え、上記信頼度生成部は、上記所定の伝達特性として上記複数のマイクロフォンにより取得された上記音声の位相差に基づいて上記信頼度を生成するようにしてもよい。これにより、伝達特性として音声の位相差を用いて上記信頼度を生成するという作用をもたらす。この場合において、上記複数のマイクロフォンの少なくとも一部は、上記特定位置の近傍に配置されることが望ましい。また、上記複数のマイクロフォンのいずれか一対は、上記特定位置に相対して配置されることが望ましい。
 また、この第1の側面において、上記信頼度生成部は、上記所定の伝達特性として上記音声取得部により取得された上記音声の音響特性に基づいて上記信頼度を生成するようにしてもよい。これにより、伝達特性として音声の音響特性を用いて上記信頼度を生成するという作用をもたらす。
 また、この第1の側面において、上記処理実行部は、上記信頼度に応じた通知を行うようにしてもよい。これにより、信頼度に応じた通知を行うという作用をもたらす。この場合において、上記処理実行部は、上記音声が特定位置からのものであるか否かを示す上記通知を行ってもよい。また、上記処理実行部は、上記音声が特定位置からのものであるかを判別不能な状態である旨の上記通知を行ってもよい。また、上記処理実行部は、上記情報処理装置が装着型端末である場合において、装着状態に関する上記通知を行ってもよい。
 また、この第1の側面において、上記処理実行部は、上記音声が特定位置からのものである場合において、所定のコマンドを実行するようにしてもよい。
 本技術によれば、特定位置からの音声を少ない演算量により検出することができるという優れた効果を奏し得る。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術の実施の形態における情報処理システムの構成例を示す図である。 本技術の実施の形態における音声指示検出部120の構成例を示す図である。 音声の伝搬モデルの一例を示す図である。 本技術の実施の形態におけるウェアラブルデバイス100の具体例を示す図である。 本技術の実施の形態のウェアラブルデバイス100におけるマイクロフォン110の配置例を示す図である。 本技術の実施の形態におけるウェアラブルデバイス100を想定した音響特性の一例を示す図である。 本技術の実施の形態における信頼度生成部124により生成される信頼度の一例を示す図である。 本技術の実施の形態における携帯端末200上の通知の第1の例を示す図である。 本技術の実施の形態における携帯端末200上の通知の第2の例を示す図である。 本技術の実施の形態におけるウェアラブルデバイス100装着ずれの改善例を示す図である。
 以下、本技術を実施するための形態(以下、実施の形態と称する)について説明する。説明は以下の順序により行う。
 1.システム構成
 2.音源推定処理
 3.適用例
 <1.システム構成>
 [情報処理システム]
 図1は、本技術の実施の形態における情報処理システムの構成例を示す図である。この情報処理システムは、ウェアラブルデバイス100と、携帯端末200とを備える。ウェアラブルデバイス100は、ユーザの身体の一部に装着されるデバイスである。このウェアラブルデバイス100を装着するユーザを装着者と称する。携帯端末200は、ユーザによって携帯される端末装置である。ウェアラブルデバイス100と携帯端末200の間は、無線通信により接続されて使用されることが想定される。例えば、Bluetooth(登録商標)によるペアリングによって、ウェアラブルデバイス100と携帯端末200との間が接続される。
 ウェアラブルデバイス100は、マイクロフォン110と、音声指示検出部120と、コマンド生成部130と、コマンド処理部140と、通知部150とを備える。
 マイクロフォン110は、音声を電気信号に変換する装置であり、周囲の音声を取得するために用いられる。電気信号に変換された音声は、信号線111を介して音声指示検出部120に供給される。マイクロフォン110は、1つまたは複数のマイクロフォンを含み得る。複数のマイクロフォンが使用された場合には、信号線111を介して供給される音声は複数チャンネル信号となる。なお、マイクロフォン110は、特許請求の範囲に記載の音声取得部の一例である。
 音声指示検出部120は、マイクロフォン110によって取得された音声から、装着者による音声指示を検出するものである。この音声指示は、音声ユーザインタフェースとして利用される。装着者による音声指示を検出した場合には、音声指示検出部120は信号線128を介してコマンド生成部130にその音声指示の内容を供給する。また、この音声指示検出部120は、マイクロフォン110によって取得された音声が特定位置からのものである度合いを示す信頼度を生成して、信号線129を介して通知部150に供給する。
 コマンド生成部130は、信号線128を介して音声指示検出部120から供給された音声指示の内容に応じたコマンドを生成するものである。すなわち、音声指示に基づく音声ユーザインタフェースによりコマンドが生成される。コマンド処理部140は、コマンド生成部130によって生成されたコマンドを実行するものである。このコマンド処理部140は、通知部150を介して、必要に応じてその実行結果を携帯端末200に通知する。
 通知部150は、音声指示検出部120によって生成された信頼度に応じた通知を行うものである。この通知部150による通知としては、例えば、音声が装着者からのものであるか否かを示す通知や、装着状態に関する通知、上述のコマンド処理部140の実行結果の通知などが想定される。
 なお、コマンド処理部140および通知部150は、特許請求の範囲に記載の処理実行部の一例である。
 [音声指示検出部]
 図2は、本技術の実施の形態における音声指示検出部120の構成例を示す図である。この音声指示検出部120は、音声統合部121と、音声区間検出部122と、認識対象判別部123と、信頼度生成部124とを備える。
 音声統合部121は、信号線111を介して供給される音声が複数チャンネル信号である場合に、それらを1チャンネル信号に統合するものである。音声統合部121によって統合された1チャンネル信号は、信号線125を介して音声区間検出部122に供給される。
 音声区間検出部122は、信号線125を介して音声統合部121から供給された1チャンネル信号において音声区間を検出するものである。音声区間は音声が発話された区間であり、この音声区間の検出は、VAD(Voice Activity Detection)と呼ばれる。音声区間検出部122は、音声統合部121から供給された1チャンネル信号において音声らしさを表す音声尤度を生成し、この音声尤度が所定の閾値を超えた時間的区間を音声区間として検出する。音声区間検出部122は、音声区間を検出すると、信号線126を介してその音声区間の音声を認識対象判別部123に供給する。
 認識対象判別部123は、音声区間検出部122において音声区間が検出されてその音声区間の音声が供給されると、その音声区間において認識対象が含まれるか否かを判別する。認識対象としては、例えば、「OK」や「ハロー」等の起動ワードが想定される。認識対象判別部123は、音声区間に認識対象が含まれる旨を検出すると、信号線127を介してその旨を信頼度生成部124に通知する。その結果、信頼度生成部124において生成された信頼度が所定の閾値より高い場合には、信号線128を介してその音声区間の音声をコマンド生成部130に供給する。
 信頼度生成部124は、認識対象判別部123から音声区間に認識対象が含まれる旨の通知を受けると、信号線111を介して供給される音声が特定位置からのものである度合いを示す信頼度を生成するものである。この信頼度生成部124は、音声の伝達特性に基づいて信頼度を生成する。伝達特性としては、後述するように、複数の音声の到達時間による位相差や、音声の振幅の特性(音響特性)を利用することができる。この伝達特性に基づいて、信頼度生成部124は信頼度を生成して、信号線129を介してその信頼度を認識対象判別部123および通知部150に出力する。
 <2.音源推定処理>
 [MUSIC法]
 図3は、音声の伝搬モデルの一例を示す図である。ここでは、前提となる従来のMUSIC法について説明する。MUSIC(MUltiple SIgnal Classification)法は、複数のマイクロフォン間の位相差を固有空間において解析することによって、音源定位を行う手法である。一般に、音源定位とは、複数のマイクロフォンを搭載している機器において、各マイクロフォンで観測される音波の差等を利用することによって音源の位置を同定する技術である。ここでは、空間にM(Mは1より大きい整数)個のマイクロフォン20およびN(NはMより小さい整数)個の音源10があると仮定して、これらにより伝搬した音波を測定することを考える。
 このとき、m(mは1からMの何れかの整数)番目のマイクロフォンにおける伝搬波の遅延をτと表すものとすると、時刻tにおける各マイクロフォンによる観測信号z(t)は次式で表される。ただし、s(t)は時刻tにおける音源信号を表す。
Figure JPOXMLDOC01-appb-M000001
 そして、上式をフーリエ変換することにより、次式に示す任意の周波数fiに関するフーリエスペクトルが得られる。ただし, Z(f)は、s(t-τ)=z(t)をフーリエ変換した結果を表す。
Figure JPOXMLDOC01-appb-M000002
 このとき, 音源信号のフーリエスペクトルをS(fi)、音源が各マイクロフォンに到達するまでの経路の伝達関数をaとすると、 上式は次式のように書き直すことができる。一般に、afiはアレイ・マニフォールドベクトルと呼ばれ、各音源に関するアレイ・マニフォールドベクトルを並べた行列A=[a,a,・・・,a]はアレイ・マニフォールド行列と呼ばれる。ただし、アレイ・マニフォールドベクトルafiはM次元の複素数であり、アレイ・マニフォールド行列AはM×N次元の複素数である。
Figure JPOXMLDOC01-appb-M000003
 ここで、周波数領域での観測信号を並べたベクトル(以下、観測ベクトルと称する。)に関して、音声信号のフレーム毎に共分散行列を算出し、 次式のようにフレーム平均を取ることによって周波数fiに関する空間相関行列Rを得る。ただし、空間相関行列Rは、M×M次元の複素数である。また、z(f)は、観測信号をF個にフレーム分割したフレーム#nにおける信号を、周波数fについてフーリエ変換することによって得られる観測ベクトルである。
Figure JPOXMLDOC01-appb-M000004
 このようにして得られた空間相関行列Rは、各マイクロフォンによって観測されたパワースペクトルを対角成分に持ち、その他の要素にはマイクロフォン間の空間的なパワー相関を持つ、音源の空間的性質を表す統計量である。MUSIC法では、この空間相関行列Rについて、次式を満足する固有ベクトルeおよび固有値λを算出することにより、周波数領域から固有空間への議論として展開される。
  R・e=λ・e
 上式は、共分散行列の最大化を行う主成分分析(PCA:Principle Component Analysis)が最終的に解く一般化固有値問題と同じである。したがって、空間相関行列の固有ベクトルを算出することは、固有空間において、観測された音波を可能な限り少ない情報量で最もよく表す軸を探すことと同義である。そのため、理想的なクリーンな環境下では、より支配的な音源を表す固有ベクトルに対応する固有値が降順に音源の数だけ算出され、「音源数+1」以降の固有値はゼロとなる。
 一般に、部分空間法では各音源までの伝達経路を並べた行列Aの各列ベクトルによって張られる空間は、信号部分空間と呼ばれる。このとき、上式により算出される音源数の固有ベクトルが固有値の降順に張る空間は、信号部分空間の正規直交基底となる。また、固有値の降順に「音源数+1」以降の固有ベクトルによって張られる空間は雑音部分空間と呼ばれる。固有ベクトルの正規直交基底の性質から、信号部分空間および雑音部分空間は直交補空間の関係になる。
 MUSIC法では、上述の信号部分空間および雑音部分空間の直交性に着目して、雑音部分空間に対応する固有ベクトルを並べた行列E=[eN+1,eN+1,…,e]を用いて、次式で定義される空間スペクトルを用いることによって音源が存在する方向θを推定する。ただし、行列Eは、M×(M-N)次元の複素数である。また、a(θ)は、方向θに音源があると仮定した場合の仮想的なアレイ・マニフォールドベクトルを表す。
  PMU(θ)
   =(a(θ)・a(θ))/(a(θ)・E・E・a(θ))
 上式を方向θについて評価していくと、真に音源が存在する方向については、雑音部分空間と信号部分空間の直交性から、上式の分母はゼロとなる。すなわち、空間スペクトルPMU(θ)は極めて大きな値となり、ピークを持つ。MUSIC法では、以上のように空間スペクトルPMU(θ)のピークを探すことによって、音源定位を実現する。
 [特定位置からの音声のアレイ・マニフォールドベクトル測定]
 上述のMUSIC法は、一般に他の音源定位の手法と比較して空間分解能が高く、高性能であることが知られている。しかしながら、これをウェアラブルデバイスに適用しようとした場合、ウェアラブルデバイスは十分な計算のためのリソースを搭載できないことが多く、固有値分解によるピーク探索を全方向について行うことは計算量の点から望ましくない。また、ウェアラブルデバイスは様々な環境で用いられるため、そのときの背景ノイズの違いや用いる周波数帯域によって一概に「ピーク」といっても値に大きなばらつきが存在するため、ピーク同定が困難になるおそれがある。
 そこで、以下では、装着者とマイクロフォンの位置関係が概ね一定なことに着目し、装着者の方向のみを解析対象として全方位探索を行わない新たな手法について説明する。この手法によれば、全方位探索を行わないことにより、計算量を低減することができる。また、MUSIC法において定義される空間スペクトルPMU(θ)に対して、信号部分空間の寄与率に応じた重み付き正規化を周波数帯域毎に施すことにより、信頼度生成部124において信頼度を出力することが可能となる。
 まず、離散フーリエ変換を施した周波数領域において、任意の周波数f(jは1からJの整数)において、次式で定義される空間スペクトル値を算出することを考える。ただし、Jは周波数ビンの総数である。ここで、eは、固有値分解をして得られるi番目の固有ベクトルを表す。また、awearは、装着者の口からマイクロフォンまでの伝達距離を既知のものとして想定した、アレイ・マニフォールドベクトルの値である。また、φは、awearとeとの角度を表す。
Figure JPOXMLDOC01-appb-M000005
 このとき、上式は、次式のように展開することができる。
Figure JPOXMLDOC01-appb-M000006
 ここで、最終的なP(f)の分母は、[0、(M-N)]の閉区間内の値となる。したがって、この逆数P-1(f)を用いることにより、任意の周波数fにおける評価関数を次式の通りに定義する。
  E(f)=P-1(f)/(M-N) (0≦E(f)≦1)
 次に、上式において定義した評価関数Eを、使用する全周波数ビンについて重みを付与しながら、次式の通りに評価関数Eallとして統合する。
Figure JPOXMLDOC01-appb-M000007
ただし、wは信号部分空間が全体の部分空間に対して占める寄与率に基づく重みであり、次式によって定義される。ここで、λ は, 任意の周波数fについて固有値分解を施した際、降順にソートしたi番目の固有値である。
Figure JPOXMLDOC01-appb-M000008
 以上のようにして得られる評価関数Eallは、その値がゼロに近いほど特定位置からの音声である確率が高いことを示す評価関数となる。すなわち、装着者の口元の位置を特定位置とすれば、装着者由来の音声である確率を示す評価関数となる。本実施の形態における信頼度生成部124は、この評価関数に基づいて上述の信頼度を生成する。この手法によれば、ピーク同定を行わずに、装着者のアレイ・マニフォールドベクトルawearに関する固有値分解のみを行うため、全方位を探索するよりも計算量が削減される。また、最終的に用いられる評価関数Eallは、閉区間[0,1]の出力値となるため、閾値の決定を容易にすることができる。
 <3.適用例>
 [ウェアラブルデバイスの具体例]
 図4は、本技術の実施の形態におけるウェアラブルデバイス100の具体例を示す図である。ここでは、ウェアラブルデバイス100として、装着者の首の部分に掛けて使用することを想定したネックバンド型のものを示している。このウェアラブルデバイス100は、一部が開口したリング状の形状を有する。
 このウェアラブルデバイス100は、上述のようにマイクロフォン110を有しており、周囲の音声を取得する。このウェアラブルデバイス100においてマイクロフォン110が配置される位置については後述する。
 このウェアラブルデバイス100は、マイクロフォン110により集音された音声について、上述の音声区間を検出し、認識対象を判別するとともに、取得された音声が特定位置からのものである度合いを示す信頼度を生成する。そして、その音声について音声認識技術や自然言語処理技術に基づく解析を施すことにより、ユーザが発話した内容を認識してコマンドを生成する。これにより、ウェアラブルデバイス100は、例えば、ユーザからの指示内容を認識し、認識結果に応じて各種処理(アプリケーション)を実行することが可能となる。また、他の応用例として、さらに通話機能を備え、集音された音声を通話の相手である他の情報処理装置に転送してもよい。
 以下では、信頼度生成部124が信頼度を生成する際の伝達特性の例として、位相差を利用した場合と、音響特性を利用した場合について説明する。
 [位相差に基づく判別]
 図5は、本技術の実施の形態のウェアラブルデバイス100におけるマイクロフォン110の配置例を示す図である。ここでは、ネックバンド型のウェアラブルデバイス100において、複数のマイクロフォン110を配置して、複数のマイクロフォン間の位相差に基づいて装着者からの音声であるか否かを判別する。複数のマイクロフォン110が配置されている場合、装着者の音声固有の伝達経路がマイクロフォン110の数だけ存在することになる。したがって、それら複数のマイクロフォン間の位相差に基づいて、装着者からの音声であるか否かを判別することができる。
 同図は、マイクロフォン110の数に応じた最適な配置例を示している。同図におけるaは、2チャンネルマイクの例であり、1つのマイクロフォン110を装着者の口元付近(近傍)に設け、もう1つのマイクロフォン110を装着者の首裏部分に設けた例である。すなわち、両者は装着者を中心として、相対して配置されている。同図におけるbは、3チャンネルマイクの例であり、aに対してさらに装着者の口元にマイクロフォン110を1つ追加した例である。同図におけるcは、4チャンネルマイクの例であり、bに対してさらに装着者の口元にマイクロフォン110を1つ追加した例である。なお、同図は、装着者の頭部から捉えた図であり、上側が装着者の正面、下側が装着者の背後をそれぞれ示している。
 同図に示したように、ウェアラブルデバイス100における装着者の発話識別に有効なマイクロフォン110の配置の要件としては、装着者の口元に近く、SNR(Signal to Noise Ratio)が良好なマイクロフォンが多く配置されていることが望ましい。
 また、少なくとも1つのマイクロフォンが他のマイクロフォンと装着者を原点に概ね180度裏側、すなわち点対称の相対する位置にあることが望ましい。より具体的には、首を原点とした180度裏側のマイクロフォンによって観測される信号は、回折等によって周波数特性に影響が生じ、それが音源の空間的性質を表す空間相関行列にも影響を及ぼすことが、特定方向の非装着者からの音声に対する識別性能の向上に寄与するものと考えられる。
 [音響特性に基づく判別]
 図6は、本技術の実施の形態におけるウェアラブルデバイス100を想定した音響特性の一例を示す図である。ここでは、ネックバンド型の首裏部分に1つのマイクロフォン110を設けた場合の周波数特性の例を示している。実線で示したグラフは装着者による発音の周波数特性を示している。点線で示したグラフは一例として装着者の真正面に位置する非装着者による発音の周波数特性を示している。なお、縦軸の値は、比較し易いように、装着者および非装着者のそれぞれについて、全周波数帯域に関する周波数特性の平均値がゼロとなるよう正規化を施している。
 この図から明らかなように、両者には周波数特性の分布が異なっている。したがって、取得された音声の周波数特性の分布を調べることにより、その音声が装着者由来のものであるかまたは他者由来のものであるかを判別することができる。
 なお、この例ではネックバンド型のウェアラブルデバイスを想定したが、例えば、イヤホン型のウェアラブルデバイスであれば、耳中マイク等の骨伝導音の伝達特性等を利用することが考えられる。
 [信頼度と通知]
 図7は、本技術の実施の形態における信頼度生成部124により生成される信頼度の一例を示す図である。ここでは、信頼度は「0」から「1」の値を示し、「1」に近いほど装着者らしさが大きく、「0」に近いほど装着者らしさが小さいことを意味するものとする。
 信頼度には判別閾値が設けられ、この判別閾値より信頼度が大きければ装着者領域となり、装着者による音声であるものと判別される。この場合は、ユーザからの音声指示が音声ユーザインタフェースとして問題なく利用され得る状態となる。
 一方、この判別閾値よりも信頼度が小さい場合には、装着者による音声であるとは判別されない。信頼度が「0」に十分近ければ、非装着者領域となり、装着者以外の者による音声であるものと判別される。このとき、例えば図8に示すように、「装着者以外の音声と判断しました」等のメッセージが携帯端末200上に通知されることが望ましい。
 そして、装着者領域または非装着者領域の何れにも属さない領域は曖昧領域とされ、何れの者による音声であるかは判別できない。この場合、ウェアラブルデバイス100の装着がずれている可能性があるため、例えば図9に示すように、「装着ずれが生じている可能性があります」等のメッセージが携帯端末200上に通知されることが望ましい。これにより、例えば、当初は図10におけるaのようにウェアラブルデバイス100の装着ずれが生じていた場合、ユーザ自身では装着ずれに気がつかないことがある。そこで、装着ずれを示唆する通知を受けると、そのユーザは装着ずれに気がつき、図10におけるbのように適正な位置に配置し直すことが期待できる。
 ユーザに対する通知は、上述の通知部150によって行われる。ここでは、通知の態様として、携帯端末200上にメッセージを表示する例について説明したが、通知の態様はこれに限定されない。例えば、ウェアラブルデバイス100が音声を出力するスピーカや振動を発生するバイブレータを有する場合には、そのスピーカから通知音を出力し、バイブレータから振動を発生してもよい。また、ウェアラブルデバイス100が表示画面を有する場合には、通知音または振動とともにテキストによるメッセージを表示してもよい。また、携帯端末200においてメッセージを表示する際に、通知音または振動とともに表示してもよい。
 また、非装着者領域の信頼度が発生した回数をカウントしておき、それが一定回数を超えた時点で所定の例外処理を実行するようにしてもよい。ただし、その途中で装着者領域の信頼度が発生した場合にはカウント数をゼロに初期化し、曖昧領域の信頼度が発生した場合には初期化もカウントもせずに現状維持とすることが考えられる。なお、例外処理に移行するまでの回数は、システムの状況に応じて適切に設定することが望ましい。
 ここで、所定の例外処理としては、例えば、音声ユーザインタフェースの使用を強制的に禁止することが考えられる。この使用禁止を解除するためには、指紋認証やボタンを介したパスワード入力、話者認識などが用いられる。また、音声ユーザインタフェースを使用禁止にするか否かをユーザに確認して、ユーザが音声による応答またはボタンによる応答を行うようにしてもよい。また、何度も通知を行ってユーザに不快感を与えるような状況においては、以降の通知を行わないようにすることも考えられる。
 このように、本技術の実施の形態によれば、取得された音声が特定位置からのものである度合いを示す信頼度に応じて、音声ユーザインタフェースにおける通知やコマンド処理などを実行することができる。
 なお、上述の実施の形態は本技術を具現化するための一例を示したものであり、実施の形態における事項と、特許請求の範囲における発明特定事項とはそれぞれ対応関係を有する。同様に、特許請求の範囲における発明特定事項と、これと同一名称を付した本技術の実施の形態における事項とはそれぞれ対応関係を有する。ただし、本技術は実施の形態に限定されるものではなく、その要旨を逸脱しない範囲において実施の形態に種々の変形を施すことにより具現化することができる。
 また、上述の実施の形態において説明した処理手順は、これら一連の手順を有する方法として捉えてもよく、また、これら一連の手順をコンピュータに実行させるためのプログラム乃至そのプログラムを記憶する記録媒体として捉えてもよい。この記録媒体として、例えば、CD(Compact Disc)、MD(MiniDisc)、DVD(Digital Versatile Disc)、メモリカード、ブルーレイディスク(Blu-ray(登録商標)Disc)等を用いることができる。
 なお、本明細書に記載された効果はあくまで例示であって、限定されるものではなく、また、他の効果があってもよい。
 なお、本技術は以下のような構成もとることができる。
(1)周囲の音声を取得する音声取得部と、
 前記取得された音声が特定位置からのものである度合いを示す信頼度を所定の伝達特性に基づいて生成する信頼度生成部と、
 前記信頼度に応じた処理を実行する処理実行部と
を具備する情報処理装置。
(2)前記音声取得部は、複数のマイクロフォンを備え、
 前記信頼度生成部は、前記所定の伝達特性として前記複数のマイクロフォンにより取得された前記音声の位相差に基づいて前記信頼度を生成する
前記(1)に記載の情報処理装置。
(3)前記複数のマイクロフォンの少なくとも一部は、前記特定位置の近傍に配置される
前記(2)に記載の情報処理装置。
(4)前記複数のマイクロフォンのいずれか一対は、前記特定位置に相対して配置される
前記(2)または(3)に記載の情報処理装置。
(5)前記信頼度生成部は、前記所定の伝達特性として前記音声取得部により取得された前記音声の音響特性に基づいて前記信頼度を生成する
前記(1)に記載の情報処理装置。
(6)前記処理実行部は、前記信頼度に応じた通知を行う前記(1)から(5)のいずれかに記載の情報処理装置。
(7)前記処理実行部は、前記音声が特定位置からのものであるか否かを示す前記通知を行う前記(6)に記載の情報処理装置。
(8)前記処理実行部は、前記音声が特定位置からのものであるかを判別不能な状態である旨の前記通知を行う前記(6)に記載の情報処理装置。
(9)前記処理実行部は、前記情報処理装置が装着型端末である場合において、装着状態に関する前記通知を行う前記(6)に記載の情報処理装置。
(10)前記処理実行部は、前記音声が特定位置からのものである場合において、所定のコマンドを実行する前記(1)から(9)のいずれかに記載の情報処理装置。
 10 音源
 20 マイクロフォン
 100 ウェアラブルデバイス
 110 マイクロフォン
 120 音声指示検出部
 121 音声統合部
 122 音声区間検出部
 123 認識対象判別部
 124 信頼度生成部
 130 コマンド生成部
 140 コマンド処理部
 150 通知部
 200 携帯端末

Claims (10)

  1.  周囲の音声を取得する音声取得部と、
     前記取得された音声が特定位置からのものである度合いを示す信頼度を所定の伝達特性に基づいて生成する信頼度生成部と、
     前記信頼度に応じた処理を実行する処理実行部と
    を具備する情報処理装置。
  2.  前記音声取得部は、複数のマイクロフォンを備え、
     前記信頼度生成部は、前記所定の伝達特性として前記複数のマイクロフォンにより取得された前記音声の位相差に基づいて前記信頼度を生成する
    請求項1記載の情報処理装置。
  3.  前記複数のマイクロフォンの少なくとも一部は、前記特定位置の近傍に配置される
    請求項2記載の情報処理装置。
  4.  前記複数のマイクロフォンのいずれか一対は、前記特定位置に相対して配置される
    請求項2記載の情報処理装置。
  5.  前記信頼度生成部は、前記所定の伝達特性として前記音声取得部により取得された前記音声の音響特性に基づいて前記信頼度を生成する
    請求項1記載の情報処理装置。
  6.  前記処理実行部は、前記信頼度に応じた通知を行う請求項1記載の情報処理装置。
  7.  前記処理実行部は、前記音声が特定位置からのものであるか否かを示す前記通知を行う請求項6記載の情報処理装置。
  8.  前記処理実行部は、前記音声が特定位置からのものであるかを判別不能な状態である旨の前記通知を行う請求項6記載の情報処理装置。
  9.  前記処理実行部は、前記情報処理装置が装着型端末である場合において、装着状態に関する前記通知を行う請求項6記載の情報処理装置。
  10.  前記処理実行部は、前記音声が特定位置からのものである場合において、所定のコマンドを実行する請求項1記載の情報処理装置。
PCT/JP2018/009662 2017-05-08 2018-03-13 情報処理装置 WO2018207453A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US16/610,145 US11468884B2 (en) 2017-05-08 2018-03-13 Method, apparatus and computer program for detecting voice uttered from a particular position
JP2019517473A JP7103353B2 (ja) 2017-05-08 2018-03-13 情報処理装置
CN201880029172.8A CN110603587A (zh) 2017-05-08 2018-03-13 信息处理设备

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017092122 2017-05-08
JP2017-092122 2017-05-08

Publications (1)

Publication Number Publication Date
WO2018207453A1 true WO2018207453A1 (ja) 2018-11-15

Family

ID=64104611

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/009662 WO2018207453A1 (ja) 2017-05-08 2018-03-13 情報処理装置

Country Status (4)

Country Link
US (1) US11468884B2 (ja)
JP (1) JP7103353B2 (ja)
CN (1) CN110603587A (ja)
WO (1) WO2018207453A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020012976A (ja) * 2018-07-18 2020-01-23 株式会社デンソーアイティーラボラトリ 音源分離の評価装置および音源分離装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101774252B1 (ko) * 2016-11-15 2017-09-05 주식회사 태을이피씨 방수, 방식 및 방청을 위한 코팅용 조성물 및 이를 분사하는 분사장치를 이용하는 코팅방법
KR101816149B1 (ko) 2017-08-28 2018-01-09 주식회사 태을이앤씨 콘크리트 시설물의 방수, 방식 및 방청을 위한 코팅용 조성물 및 이의 제조방법
WO2019220532A1 (ja) * 2018-05-15 2019-11-21 日本電気株式会社 パターン認識装置、パターン認識方法及びパターン認識プログラム
CN113270108B (zh) * 2021-04-27 2024-04-02 维沃移动通信有限公司 语音活动检测方法、装置、电子设备及介质
EP4131256A1 (en) * 2021-08-06 2023-02-08 STMicroelectronics S.r.l. Voice recognition system and method using accelerometers for sensing bone conduction

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002312796A (ja) * 2001-04-09 2002-10-25 Canon Inc 主被写体推定装置、撮像装置、撮像システム、主被写体推定方法、撮像装置の制御方法、及び制御プログラムを提供する媒体
JP2007318528A (ja) * 2006-05-26 2007-12-06 Fujitsu Ltd 指向性集音装置、指向性集音方法、及びコンピュータプログラム
US20150358750A1 (en) * 2012-12-28 2015-12-10 Korea Institute Of Science And Technology Device and method for tracking sound source location by removing wind noise
WO2017065092A1 (ja) * 2015-10-13 2017-04-20 ソニー株式会社 情報処理装置

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6041301A (en) * 1997-10-29 2000-03-21 International Business Machines Corporation Configuring an audio interface with contingent microphone setup
JP3598932B2 (ja) * 2000-02-23 2004-12-08 日本電気株式会社 話者方向検出回路及びそれに用いる話者方向検出方法
JP3940662B2 (ja) * 2001-11-22 2007-07-04 株式会社東芝 音響信号処理方法及び音響信号処理装置及び音声認識装置
US6882971B2 (en) * 2002-07-18 2005-04-19 General Instrument Corporation Method and apparatus for improving listener differentiation of talkers during a conference call
DE602004021716D1 (de) * 2003-11-12 2009-08-06 Honda Motor Co Ltd Spracherkennungssystem
EP1818909B1 (en) * 2004-12-03 2011-11-02 Honda Motor Co., Ltd. Voice recognition system
EP1695873B1 (en) 2005-02-23 2008-07-09 Harman Becker Automotive Systems GmbH Vehicle speech recognition system
KR101456866B1 (ko) * 2007-10-12 2014-11-03 삼성전자주식회사 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치
KR101470528B1 (ko) * 2008-06-09 2014-12-15 삼성전자주식회사 적응 빔포밍을 위한 사용자 방향의 소리 검출 기반의 적응모드 제어 장치 및 방법
KR101178801B1 (ko) * 2008-12-09 2012-08-31 한국전자통신연구원 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법
US8654998B2 (en) * 2009-06-17 2014-02-18 Panasonic Corporation Hearing aid apparatus
US9007477B2 (en) * 2009-06-30 2015-04-14 Nokia Corporation Audio-controlled image capturing
JP6013918B2 (ja) * 2010-02-02 2016-10-25 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 空間音声再生
KR101761312B1 (ko) * 2010-12-23 2017-07-25 삼성전자주식회사 마이크 어레이를 이용한 방향성 음원 필터링 장치 및 그 제어방법
US8438023B1 (en) * 2011-09-30 2013-05-07 Google Inc. Warning a user when voice input to a device is likely to fail because of background or other noise
JP5862349B2 (ja) * 2012-02-16 2016-02-16 株式会社Jvcケンウッド ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
DK3190587T3 (en) * 2012-08-24 2019-01-21 Oticon As Noise estimation for noise reduction and echo suppression in personal communication
US9788119B2 (en) * 2013-03-20 2017-10-10 Nokia Technologies Oy Spatial audio apparatus
JP6311197B2 (ja) * 2014-02-13 2018-04-18 本田技研工業株式会社 音響処理装置、及び音響処理方法
US20150264483A1 (en) * 2014-03-14 2015-09-17 Qualcomm Incorporated Low frequency rendering of higher-order ambisonic audio data
EP3072129B1 (en) * 2014-04-30 2018-06-13 Huawei Technologies Co., Ltd. Signal processing apparatus, method and computer program for dereverberating a number of input audio signals
JP6195073B2 (ja) * 2014-07-14 2017-09-13 パナソニックIpマネジメント株式会社 収音制御装置及び収音システム
WO2016063587A1 (ja) 2014-10-20 2016-04-28 ソニー株式会社 音声処理システム
US9972315B2 (en) * 2015-01-14 2018-05-15 Honda Motor Co., Ltd. Speech processing device, speech processing method, and speech processing system
CN105989852A (zh) * 2015-02-16 2016-10-05 杜比实验室特许公司 分离音频源
JP6543843B2 (ja) * 2015-06-18 2019-07-17 本田技研工業株式会社 音源分離装置、および音源分離方法
KR101664733B1 (ko) * 2015-08-11 2016-10-24 고려대학교 산학협력단 전 방향 고해상도 추적 녹화 장치 및 방법
US9894434B2 (en) * 2015-12-04 2018-02-13 Sennheiser Electronic Gmbh & Co. Kg Conference system with a microphone array system and a method of speech acquisition in a conference system
WO2017106281A1 (en) * 2015-12-18 2017-06-22 Dolby Laboratories Licensing Corporation Nuisance notification
ITUA20164622A1 (it) * 2016-06-23 2017-12-23 St Microelectronics Srl Procedimento di beamforming basato su matrici di microfoni e relativo apparato
JP6947183B2 (ja) * 2016-09-13 2021-10-13 ソニーグループ株式会社 音源位置推定装置及びウェアラブルデバイス
US20180286431A1 (en) * 2017-03-28 2018-10-04 Microsoft Technology Licensing, Llc Human interface device communication protocol

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002312796A (ja) * 2001-04-09 2002-10-25 Canon Inc 主被写体推定装置、撮像装置、撮像システム、主被写体推定方法、撮像装置の制御方法、及び制御プログラムを提供する媒体
JP2007318528A (ja) * 2006-05-26 2007-12-06 Fujitsu Ltd 指向性集音装置、指向性集音方法、及びコンピュータプログラム
US20150358750A1 (en) * 2012-12-28 2015-12-10 Korea Institute Of Science And Technology Device and method for tracking sound source location by removing wind noise
WO2017065092A1 (ja) * 2015-10-13 2017-04-20 ソニー株式会社 情報処理装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020012976A (ja) * 2018-07-18 2020-01-23 株式会社デンソーアイティーラボラトリ 音源分離の評価装置および音源分離装置
JP7014682B2 (ja) 2018-07-18 2022-02-01 株式会社デンソーアイティーラボラトリ 音源分離の評価装置および音源分離装置

Also Published As

Publication number Publication date
US11468884B2 (en) 2022-10-11
JPWO2018207453A1 (ja) 2020-03-12
JP7103353B2 (ja) 2022-07-20
CN110603587A (zh) 2019-12-20
US20200074998A1 (en) 2020-03-05

Similar Documents

Publication Publication Date Title
JP7103353B2 (ja) 情報処理装置
US11700473B2 (en) Methods, apparatus and systems for authentication
US11601764B2 (en) Audio analysis and processing system
US9980042B1 (en) Beamformer direction of arrival and orientation analysis system
US10127922B2 (en) Sound source identification apparatus and sound source identification method
US10230346B2 (en) Acoustic voice activity detection
US8503686B2 (en) Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems
US8321213B2 (en) Acoustic voice activity detection (AVAD) for electronic systems
Ferlini et al. EarGate: gait-based user identification with in-ear microphones
EP2530484B1 (en) Sound source localization apparatus and method
JP4910568B2 (ja) 紙擦れ音除去装置
CN110770827A (zh) 基于相关性的近场检测器
US20180277140A1 (en) Signal processing system, signal processing method and storage medium
US20180146285A1 (en) Audio Gateway System
TW202147862A (zh) 強烈雜訊干擾存在下穩健的揚聲器定位系統與方法
JP2018169473A (ja) 音声処理装置、音声処理方法及びプログラム
US10063966B2 (en) Speech-processing apparatus and speech-processing method
WO2018037643A1 (ja) 情報処理装置、情報処理方法及びプログラム
CN116343808A (zh) 柔性麦克风阵列语音增强方法及装置、电子设备、介质
Bai et al. Acoustic source localization and deconvolution-based separation
Pasha et al. Distributed microphone arrays, emerging speech and audio signal processing platforms: A review
Fejgin et al. Assisted RTF-vector-based binaural direction of arrival estimation exploiting a calibrated external microphone array
Yu et al. Automatic beamforming for blind extraction of speech from music environment using variance of spectral flux-inspired criterion
JP2018142822A (ja) 音響信号処理装置、方法及びプログラム
Venkatesan et al. Analysis of monaural and binaural statistical properties for the estimation of distance of a target speaker

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18798967

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019517473

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18798967

Country of ref document: EP

Kind code of ref document: A1