WO2018051663A1 - 音源位置推定装置及びウェアラブルデバイス - Google Patents

音源位置推定装置及びウェアラブルデバイス Download PDF

Info

Publication number
WO2018051663A1
WO2018051663A1 PCT/JP2017/028102 JP2017028102W WO2018051663A1 WO 2018051663 A1 WO2018051663 A1 WO 2018051663A1 JP 2017028102 W JP2017028102 W JP 2017028102W WO 2018051663 A1 WO2018051663 A1 WO 2018051663A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound source
source position
microphones
cylindrical surface
calculation unit
Prior art date
Application number
PCT/JP2017/028102
Other languages
English (en)
French (fr)
Inventor
裕一郎 小山
俊之 関矢
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to JP2018539560A priority Critical patent/JP6947183B2/ja
Priority to EP17850569.9A priority patent/EP3515088A4/en
Priority to US16/330,960 priority patent/US11402461B2/en
Publication of WO2018051663A1 publication Critical patent/WO2018051663A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/28Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves by co-ordinating position lines of different shape, e.g. hyperbolic, circular, elliptical or radial
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/30Determining absolute distances from a plurality of spaced points of known location
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Definitions

  • the present disclosure relates to a sound source position estimation apparatus and a wearable device.
  • Patent Document 1 describes a technique that is supposed to prevent a displacement of a wearing position in an earphone type earphone device.
  • wearable devices such as watch-type devices and eyeglass-type devices have appeared. These wearable devices may cause misalignment (wear misalignment) with respect to the body during use.
  • Wearable devices may interfere with wearable device operations if they are worn out.
  • the wearable device includes a microphone
  • the position of the microphone relative to the sound source may change due to a mounting deviation, and audio information may not be acquired properly.
  • Patent Document 1 The technique described in the above-mentioned Patent Document 1 is supposed to prevent the wearing deviation in the ear-hook type earphone device, but does not consider any measures when the wearing deviation occurs.
  • a spectrum acquisition unit that acquires a frequency spectrum of a sound source based on sound obtained by a plurality of microphones provided in a ring-shaped wearable device, and a plurality of the microphones based on the frequency spectrum
  • a sound source position estimation device comprising: a sound source position calculation unit that calculates the position of the sound source by obtaining an intersection between a spherical surface having a radius of and a cylindrical surface.
  • a ring-shaped housing provided with a plurality of microphones, a spectrum acquisition unit that acquires a frequency spectrum of a sound source based on sound obtained by the plurality of microphones, and the frequency spectrum Based on a distance calculation unit that calculates each distance from the plurality of microphones to the sound source based on the above, the housing approximates a circle, and the sound source is positioned on a cylindrical surface including the housing,
  • a wearable device comprising: a sound source position estimating device including a sound source position calculating unit that calculates a position of the sound source by obtaining an intersection between a spherical surface having a radius of ⁇ and the cylindrical surface.
  • FIG. 3 is a schematic diagram showing a state in which the opening of the neckband device rotates to the near side with respect to FIG. Mouth coordinates (x 0, y 0, z 0) and a schematic diagram showing the positional relationship between the neckband type device.
  • mouth coordinates (x 0 , y 0 , z 0 ) and mouth coordinates are calculated from the microphone coordinates (x 1 , y 1 , z 1 ) and the microphone coordinates (x 2 , y 2 , z 2 ).
  • the neckband device 1000 has a circular ring shape and is provided with an opening 1002. The user can attach the neckband device 1000 to the neck by opening the opening 1002.
  • the neckband device 1000 includes a microphone 1010, a speaker 1020, a camera 1030, and a GPS 1040.
  • the neckband device 1000 obtains voice information of the user's voice by voice recognition, and provides information to the user by emitting sound from the speaker 1020 according to the voice information. Further, the neckband device 1000 can acquire image information by imaging with the camera 1030. In addition, the neckband device 1000 can also notify the user of information such as a recommended place and a store in accordance with the position information of the user acquired by the GPS 1040.
  • the functions of the neckband device 1000 as described above are basically realized by hands-free operation without the user operating the neckband device 1000 based on a voice command issued by the user. For this reason, the microphone 1010 is configured to accurately recognize the user's voice.
  • Displacement of neckband type device A device that is not fixed to the user's body, such as the neckband type device 1000, may be in a state of being deviated from the reference wearing state (this displacement is referred to as “wearing displacement”). ).
  • FIG. 2 shows a normal wearing state, and the position of the opening 1002 faces the front of the user, and shows a correct wearing state.
  • FIG. 3 shows a state in which the opening 1002 of the neckband device 1000 is rotated to the near side with respect to FIG.
  • the shape of the neckband device 1000 is a substantially circular shape following the circle C. For this reason, a plurality of microphones 1010 mounted on the casing of the neckband device 1000 are also present on the circumference.
  • 3 is a rotational motion in a two-dimensional plane P (hereinafter referred to as a rotation plane) stretched by the neckband device 1000, and the rotation axis S is generated by the neckband device 1000. It can be considered that it passes through the center of the circle C.
  • the angle ⁇ formed by the rotating surface and the horizontal plane and the diameter d of the neckband device 1000 are appropriately selected at the time of wearing.
  • the circle C is made to intersect with the neckband type device 1000.
  • FIG. 4 is a schematic diagram showing the positional relationship between the mouth coordinates (x 0 , y 0 , z 0 ) and the neckband device 1000.
  • the coordinate axes are defined fixed to the neckband device 1000.
  • FIG. 4 shows a configuration in which three microphones 1010 are provided.
  • mouth coordinates (x 0 , y 0 , z 0 ) can be obtained from the coordinates (microphone coordinates) of the known microphone 1010.
  • FIG. 5 shows that when two microphones 1010 are provided, the mouth coordinates (x 0 , y 0 , y 2 ) from the microphone coordinates (x 1 , y 1 , z 1 ) and the microphone coordinates (x 2 , y 2 , z 2 ) z 0) is a schematic view for explaining a method of obtaining the.
  • s (t) is the user's voice signal at time t.
  • the Fourier transform of s (t) is represented as s ( ⁇ ).
  • 2 ⁇ f is an angular frequency
  • f is a frequency.
  • s ( ⁇ ) is simply expressed as s, which is called a frequency spectrum.
  • the frequency spectra p 1 and p 2 observed by each microphone 1010 are expressed by the following equations: (2) It can be expressed by equation (3).
  • j represents an imaginary unit
  • exp (a) represents an exponential function of a.
  • the simultaneous equations can be solved by substituting the distances d 1 and d 2 obtained from the equations (4) and (5) into the equations (6) and (7) and adding the equation (1). Since equations (6) and (7) are equations representing a spherical surface and equation (1) is an equation representing a cylindrical surface, the mouth coordinates (x 0 , y 0 , z 0 ) are obtained as their intersections. Can do.
  • An analytical method may be used to calculate the solution, or a numerical method such as Newton's method may be used. Since there may be two points of intersection (solution), y 0 > 0 is determined as one point in that case. That is, the mounting deviation is assumed to be within ⁇ 90 degrees.
  • the mouth coordinates cannot be calculated only by the equations (6) and (7), but by using the relationship of the equation (1) peculiar to the neckband device 1000 of the present embodiment, The mouth coordinates that cannot be calculated can be calculated.
  • z 0 of the mouth coordinates becomes known, z 0 does not change according to the mounting displacement, and hence the following three equations (Equation (1), Equation (6), Equation (7))
  • x 0 and y 0 can be calculated by optimization. The optimization calculation method will be described in detail later.
  • the optimization calculation can be performed while reducing the number of estimated parameters. Then, by re-calculating the distance d 1, d 2 from x 0, y 0 calculated, it is possible to calculate the distance d 1, d 2 with higher accuracy. Thereby, for example, performance such as beam forming can be greatly improved. Further, since the presence or absence of the wearing deviation is known on the neckband device 1000 side based on the mouth coordinates, it is possible to warn the user that the wearing deviation has occurred by a technique such as emitting sound from the speaker 1020.
  • the mouth coordinates (x 0 , y 0 , and z 0 ) can be determined by nonlinear optimization. Moreover, it can be obtained by calculating the distance d i with the value of the resulting mouth coordinates (x0, y0, z0), the more accurate the distance d i.
  • the accuracy of the distance d i is improved by increasing the number of equations by one.
  • the transfer characteristic (steering vector) from the microphone 1010 to the mouth can be accurately obtained, and the performance of signal processing such as beam forming is improved.
  • the accuracy can be increased by performing the optimization calculation by the method according to the present embodiment. Improvement can be expected.
  • z 0 becomes known, the number of unknowns is reduced, so that improvement in accuracy can be expected.
  • mouth coordinates (x 0 , y 0 , z 0 ) can be obtained by using instead of Expression (1).
  • the first method is constrained optimization.
  • the shape of the neckband device 1000 is sufficiently ideal, and it is considered that Equation (1) holds without error, the square error of the following Equation (16) with Equation (1) as a constraint condition (X 0 , y 0 , z 0 ) that minimizes.
  • the second method is unconstrained optimization, and when the shape of the neckband device 1000 does not sufficiently satisfy the condition, it is considered that the equation (1) includes an error, and the following equation ( 17) and formula (18) are set.
  • FIG. 8 is a schematic diagram illustrating a configuration of a sound source position estimation device 100 that estimates a sound source position in the neckband device 1000 by the above-described calculation.
  • the sound source position estimation apparatus 100 includes a spectrum acquisition unit 102, a sound source distance calculation unit 104, and a sound source position calculation unit 106.
  • the distance di calculated by the sound source position calculation unit 106 is sent to the beamforming calculation unit 108.
  • the spectrum acquisition unit 102 acquires the frequency spectrum pi by performing AD conversion on the signal observed by the microphone 1010 and performing band division processing.
  • the sound source distance calculation unit 104 obtains the distance d i between the mouth coordinates and the microphone coordinates based on the above-described Expression (4), Expression (5) (or Expression (9), Expression (10)).
  • the sound source position calculation unit 106 is based on the above-described Expression (1), Expression (6), Expression (7) (or Expression (1), Expression (11)), and the mouth coordinates (x 0 , y 0 , z 0). ) Is calculated. Further, the sound source position calculation unit 106 recalculates the distance d i based on the obtained mouth coordinates (x 0 , y 0 , z 0 ) and the microphone coordinates, and calculates the distance d i with higher accuracy.
  • the beamforming calculation unit 108 performs beamforming processing based on the distance di recalculated with high accuracy.
  • the sound source position estimation apparatus 100 shown in FIG. 8 is provided inside the neckband type device 1000. However, the sound source position estimation apparatus 100 is provided in an external device (such as a cloud computer), and is necessary from the neckband type device 1000 to the external device. The neckband device 1000 may receive the sound source position calculated on the external device side by transmitting the parameter.
  • Each component of the sound source position estimation apparatus 100 shown in FIG. 8 can be composed of a circuit (hardware) or a central processing unit such as a CPU and a program (software) for causing it to function.
  • the program can be stored in a recording medium such as a memory.
  • FIG. 9 is a schematic diagram showing a configuration of the beam forming calculation unit 108.
  • the beamforming calculation unit 108 includes a spectrum acquisition unit 108a, a beamforming processing unit 108b, and a beamforming coefficient calculation unit 108c.
  • the spectrum acquisition unit 108a is a component having the same function as the spectrum acquisition unit 102.
  • the distance d i between the mouth coordinates (x 0 , y 0 , z 0 ) and the microphone coordinates (x i , y i , z i ) of each microphone 1010 can be obtained with high accuracy. As will be described, it is possible to improve the performance of the beamforming process in the beamforming operation unit 108.
  • a vector (steering vector) like the following formula (20) in which transfer functions from the mouth to each microphone 1010 are arranged is created.
  • c is the speed of sound and n is the number of microphones 1010.
  • Superscript T represents transposition.
  • the filter w can be obtained from the following equation (22).
  • the beam forming process is realized by obtaining q from the following equation (25).
  • the spectrum acquisition unit 108a acquires the frequency spectrum pi by performing A / D conversion on the signal observed by the microphone 1010 and performing band division processing. Since the spectrum acquisition unit 108a has a function similar to that of the spectrum acquisition unit 102 of FIG. 8, both may be configured integrally.
  • the beam forming processing unit 108b performs calculation processing of Expression (25).
  • the beamforming coefficient calculation unit performs a process of calculating the filter w using Expressions (23) and (24).
  • the sound source position (mouth coordinates (x 0 , y 0 , z 0 )) in the neckband device 1000, and various signals in a situation where there is a mounting deviation.
  • the performance of processing (particularly beam forming using a steering vector) can be improved.
  • the sound source position (mouth coordinates) can be calculated.
  • FIG. 11 are schematic views showing a configuration for setting the angle ⁇ and the diameter d to desired values.
  • an inclined surface (inclination adjusting unit) 1004 as shown in FIG. 11 is provided in the region A shown in FIG. The inclined surface 1004 contacts the neck when the neckband device 1000 is worn on the user's neck.
  • the angle ⁇ can be set to a desired value by setting the angle of the inclined surface 1004 to an optimum angle.
  • the inclined surface 1004 can be reliably brought into contact with the user's neck. You may enable it to attach the attachment provided with the inclined surface 1004 to the neckband type device 1000.
  • a member for setting the angle ⁇ may be provided in the region B shown in FIG.
  • a member is provided in the vicinity of the opening 1002 of the neckband type device 1000, and a weight is given to the front (opening 1002 side) of the neckband type device 1000, so that the wearer's body surface (around the collarbone) and the neckband It is also possible to fix the angle by filling a gap in the housing of the mold device 1000.
  • FIG. 12 is a schematic diagram illustrating an example in which a protrusion (tilt adjustment unit) 1006 is provided in the vicinity of the opening 1002 of the neckband device 1000.
  • FIG. 13 is a schematic diagram showing an example in which an inclined portion (inclination adjusting portion) 1008 that increases in thickness as it goes forward is provided instead of the protruding portion 1006 of FIG.
  • the angle ⁇ can be set to a desired value by setting the length of the inclined portion 1008 toward the clavicle side to an optimum length.
  • An attachment including the protrusion 1006 or the inclined portion 1008 may be attached to the neckband device 1000.
  • the neckband device 1000 is provided with a slider (diameter adjusting unit) 1100 so that the front housing 1120 can slide with respect to the rear housing 1110.
  • the diameter d of the neckband device 1000 can be set to a desired value by sliding the front housing 1120 relative to the rear housing 1110.
  • a slider 1100 is provided on the neckband device 1000. It is not necessary to provide it.
  • the setting of the angle ⁇ and the diameter d by the inclined surface 1004, the protruding portion 1006, the inclined portion 1008, and the slider 1100 described above may be set in advance according to the size of the average user's body (neck circumference). Then, the angle ⁇ and the diameter d may be adjusted according to individual users by adjusting the inclined surface 1004, the protruding portion 1006, the inclined portion 1008, and the slider 1100 afterwards.
  • the position of the sound source (the position of the user's mouth) in the neckband device 1000 can be estimated with high accuracy. Therefore, it is possible to optimally perform various processing such as beam forming processing based on the position of the sound source.
  • a spectrum acquisition unit that acquires a frequency spectrum of a sound source based on sound obtained by a plurality of microphones provided in a ring-shaped wearable device;
  • a distance calculation unit that calculates the distances from the plurality of microphones to the sound source based on the frequency spectrum;
  • the ring-shaped wearable device is approximated to a circle, and the sound source is located on a cylindrical surface including the ring-shaped wearable device, and the intersection of the spherical surface having the respective distance as a radius and the cylindrical surface is obtained.
  • a sound source position calculation unit for calculating the position of the sound source A sound source position estimation device comprising: (2) When the sound source position calculation unit calculates the position of the sound source and then recalculates the position of the sound source, the optimization calculation is performed with the distance from the circle to the sound source on the cylindrical surface as a fixed value.
  • the sound source position estimation apparatus according to (1) wherein the position of the sound source is recalculated by performing (3) Two microphones are provided, The sound source position calculation unit obtains an intersection of the spherical surface and the cylindrical surface by simultaneously solving two expressions representing the spherical surface having the respective distances as radii and an expression representing the cylindrical surface. Or the sound source position estimation apparatus according to (2).
  • the said spectrum acquisition part is a sound source position estimation apparatus as described in said (1) or (2) which acquires the said frequency spectrum by linear optimization.
  • the sound source position calculation unit calculates the position of the sound source by nonlinear optimization based on an expression representing a spherical surface with the respective distances as radii and an expression representing the cylindrical surface (1) or (2)
  • the sound source position estimation apparatus according to 1.
  • the sound source position calculation unit calculates the position of the sound source by non-linear optimization in consideration of an error included in the expression representing the cylindrical surface by approximating the ring-shaped wearable device to the circle.
  • the sound source position estimation apparatus according to (5).
  • the microphone is provided at a point-symmetrical position with respect to the center of the circle, The sound source position calculation unit obtains the intersection of the spherical surface and the cylindrical surface using an equation indicating the relationship between the distance and the diameter of the circle instead of the equation representing the cylindrical surface. ).
  • the sound source position calculation unit calculates each position from the plurality of microphones to the sound source based on the calculated position of the sound source and each position of the plurality of microphones.
  • the sound source position estimation apparatus according to any one of (1) to (8), wherein the distance is recalculated. (10) The sound source position estimation apparatus according to (9), wherein a beamforming process is performed based on each distance to the sound source recalculated by the sound source position calculation unit. (11) In any one of (1) to (10), the spectrum acquisition unit acquires the frequency spectrum by performing AD conversion on signals observed by the plurality of microphones and performing band division processing. The sound source position estimation apparatus described.
  • a ring-shaped housing provided with a plurality of microphones;
  • a spectrum acquisition unit that acquires a frequency spectrum of a sound source based on sound obtained by a plurality of the microphones, a distance calculation unit that calculates respective distances from the plurality of microphones to the sound source based on the frequency spectrum, Assuming that the sound source is located on a cylindrical surface including the housing, approximating the case to a circle, the position of the sound source is obtained by obtaining the intersection of the spherical surface having the radius of each distance and the cylindrical surface
  • a sound source position calculation device comprising: a sound source position calculation unit;
  • a wearable device comprising: (13) The wearable device according to (12), further including an inclination adjustment unit that adjusts an inclination of the housing with respect to a body wearing part so that the sound source is positioned on the cylindrical surface.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

【課題】ウェアラブルデバイスに装着ずれが発生した場合であっても、装着ずれに起因する音源の位置を推定できるようにする。 【解決手段】本開示に係る音源位置推定装置は、リング状のウェアラブルデバイスに設けられた複数のマイクロフォンで得られる音声に基づいて、音源の周波数スペクトルを取得するスペクトル取得部と、前記周波数スペクトルに基づいて複数の前記マイクロフォンから前記音源までのそれぞれの距離を演算する距離演算部と、前記リング状のウェアラブルデバイスを円に近似して、前記リング状のウェアラブルデバイスを含む円柱面に前記音源が位置するものとして、前記それぞれの距離を半径とする球面と前記円柱面との交点を求めることで前記音源の位置を演算する音源位置演算部と、を備える。

Description

音源位置推定装置及びウェアラブルデバイス
 本開示は、音源位置推定装置及びウェアラブルデバイスに関する。
 従来、例えば下記の特許文献1には、耳掛け式イヤホン装置において、装着位置のずれを防止することを想定した技術が記載されている。
特開2010-193344号公報
 近時においては、時計型デバイス、眼鏡型デバイスなど、各種のウェアラブルデバイスが出現している。これらのウェアラブルデバイスは、使用中に身体に対する位置ずれ(装着ずれ)を起こす場合がある。
 装着ずれが発生すると、ウェアラブルデバイスの動作に支障が生じる場合がある。特に、ウェアラブルデバイスがマイクロフォンを備えている場合、装着ずれによって音源に対するマイクロフォンの位置が変化してしまい、適正に音声情報を取得できなくなることがある。
 上記特許文献1に記載された技術は、耳掛け式イヤホン装置における装着ずれを防止することは想定しているが、装着ずれが発生した場合の対処については何ら考慮していなかった。
 このため、ウェアラブルデバイスに装着ずれが発生した場合であっても、装着ずれに起因する音源の位置を推定できるようにすることが望まれていた。
 本開示によれば、リング状のウェアラブルデバイスに設けられた複数のマイクロフォンで得られる音声に基づいて、音源の周波数スペクトルを取得するスペクトル取得部と、前記周波数スペクトルに基づいて複数の前記マイクロフォンから前記音源までのそれぞれの距離を演算する距離演算部と、前記リング状のウェアラブルデバイスを円に近似して、前記リング状のウェアラブルデバイスを含む円柱面に前記音源が位置するものとして、前記それぞれの距離を半径とする球面と前記円柱面との交点を求めることで前記音源の位置を演算する音源位置演算部と、を備える、音源位置推定装置が提供される。
 また、本開示によれば、複数のマイクロフォンが設けられたリング状の筐体と、複数の前記マイクロフォンで得られる音声に基づいて、音源の周波数スペクトルを取得するスペクトル取得部と、前記周波数スペクトルに基づいて複数の前記マイクロフォンから前記音源までのそれぞれの距離を演算する距離演算部と、前記筐体を円に近似して、前記筐体を含む円柱面に前記音源が位置するものとして、前記それぞれの距離を半径とする球面と前記円柱面との交点を求めることで前記音源の位置を演算する音源位置演算部と、を備える、音源位置推定装置と、を備えるウェアラブルデバイスが提供される。
 以上説明したように本開示によれば、ウェアラブルデバイスに装着ずれが発生した場合であっても、装着ずれに起因する音源の位置を推定することが可能となる。
 なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の一実施形態に係るネックバンド型デバイスの概略構成について説明する。 開口部の位置がユーザの正面を向いている正しい装着状態を示す模式図である。 図2に対してネックバンド型デバイスの開口部が手前側に回転し、装着ずれが発生した状態を示す模式図である。 口元座標(x,y,z)とネックバンド型デバイスとの位置関係を示す模式図である。 マイクロフォンが2つ設けられた場合に、マイク座標(x,y,z)とマイク座標(x,y,z)から口元座標(x,y,z)および口元座標と各マイク座標の距離d,dを求める手法を説明するための模式図である。 マイクロフォンが3つ以上(n個)設けられた場合に、マイク座標(x,y,z)から口元座標(x,y,z)および口元座標と各マイク座標の距離dを求める手法を説明するための模式図である。 マイクロフォンが点対称の位置にある場合を示す模式図である。 ネックバンド型デバイスにおける音源位置を推定する音源位置推定装置100の構成を示す模式図である。 ビームフォーミング演算部の構成を示す模式図である。 角度θと直径dを所望の値にするための構成を示す模式図である。 角度θと直径dを所望の値にするための構成を示す模式図である。 角度θと直径dを所望の値にするための構成を示す模式図である。 角度θと直径dを所望の値にするための構成を示す模式図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 なお、説明は以下の順序で行うものとする。
 1.本実施形態に係るネックバンドの外観
 2.ネックバンド型デバイスの装着ずれ
 3.音源位置を特定するための演算
 4.最適化計算について
 5.音源位置推定装置の構成例
 6.ビームフォーミング処理について
 7.ネックバンド型デバイスの傾きと直径の設定
 1.本実施形態に係るネックバンド型デバイスの外観
 まず、図1を参照して、本開示の一実施形態に係るネックバンド型デバイス(リング状デバイス)1000の概略構成について説明する。図1に示すように、本実施形態に係るネックバンド型デバイス1000は、円形のリング状とされ、開口部1002が設けられている。ユーザは、開口部1002を開くことで、ネックバンド型デバイス1000を首に装着することができる。
 ネックバンド型デバイス1000は、マイクロフォン1010、スピーカ1020、カメラ1030、GPS1040を備える。ネックバンド型デバイス1000は、ユーザの声の音声情報を音声認識により取得し、音声情報に応じて、スピーカ1020から音を発することでユーザに情報を提供する。また、ネックバンド型デバイス1000は、カメラ1030による撮像により画像情報を取得することができる。また、ネックバンド型デバイス1000は、GPS1040で取得したユーザの位置情報に応じて、推奨する場所、店舗等の情報をユーザに伝えることもできる。
 以上のようなネックバンド型デバイス1000の機能は、基本的にユーザが発した声による指令に基づいて、ユーザがネックバンド型デバイス1000の操作を行うことなく、ハンズフリーによって実現される。このため、マイクロフォン1010がユーザの声を正確に認識するように構成されている。
 2.ネックバンド型デバイスの装着ずれ
 ネックバンド型デバイス1000のようにユーザの体に固定されていないデバイスでは、基準とする装着状態からずれた状態となることがある(このようなずれを「装着ずれ」と称することとする)。図2及び図3は、装着ずれを説明するための模式図である。図2は、通常装着時を示しており、開口部1002の位置がユーザの正面を向いており、正しい装着状態を示している。一方、図3は、図2に対してネックバンド型デバイス1000の開口部1002が手前側に回転し、装着ずれが発生した状態を示している。
 ネックバンド型デバイス1000に複数のマイクロフォン1010を搭載することにより、ユーザの音声を強調する信号処理を行うことができるが、装着ずれがある場合には、ユーザの口元から各マイクロフォン1010までの伝達特性を逐次推定するような適応的な信号処理が必要となる。このため、本実施形態では、ネックバンド型デバイス1000に装着ずれがある場合においても、高性能な信号処理を可能とする。以下、詳細に説明する。
 3.音源位置を特定するための演算
 図1に示したように、ネックバンド型デバイス1000の形状は円Cに倣った略円形状である。このため、ネックバンド型デバイス1000の筐体に搭載された複数のマイクロフォン1010も円周上に存在する。これにより、図3に示した装着ずれは、ネックバンド型デバイス1000が張る2次元平面P(以降、回転面と呼ぶ)内における回転運動であり、その回転軸Sはネックバンド型デバイス1000が作る円Cの中心を通ると考えてよい。
 図2及び図3に示すように、本実施形態に係るネックバンド型デバイス1000では、装着時に回転面と水平面のなす角度θとネックバンド型デバイス1000(円C)の直径dを適切に選ぶことにより、ユーザの口元から回転面へ垂線Vを下ろした場合に、ネックバンド型デバイス1000が作る円Cに交わるようにする。このような幾何学的関係を作ることで、装着ずれの程度に関わらず、垂線Vと円Cは交わることになる。角度θと直径dの具体的な設定方法、調整方法については、後述する。
 このような幾何学的関係において、ユーザの口元座標(x,y,z)は、ネックバンド型デバイス1000の円Cを含む円柱の側面上の点であると数学的に表現することができる。図4は、口元座標(x,y,z)とネックバンド型デバイス1000との位置関係を示す模式図である。図4において、座標軸はネックバンド型デバイス1000に固定して定義している。また、図4では、マイクロフォン1010が3つ設けられた構成を示している。
 図4に示すように、ユーザの口元座標(x,y,z)は、円Cを含む円柱の側面上の点であると考えることができるため、以下の式(1)が成立する。
Figure JPOXMLDOC01-appb-M000001
・・・(1)
 式(1)を用いることで、既知のマイクロフォン1010の座標(マイク座標)から口元座標(x,y,z)を求めることができる。図5は、マイクロフォン1010が2つ設けられた場合に、マイク座標(x,y,z)とマイク座標(x,y,z)から口元座標(x,y,z)を求める手法を説明するための模式図である。
 ここで、時刻tにおけるユーザの音声信号をs(t)とする。s(t)のフーリエ変換をs(ω)と表す。ただし、ω=2πfは角周波数、fは周波数である。以降では、ある狭帯域信号に限定し、s(ω)を単にsと表すことにし、周波数スペクトルと呼ぶ。図5において、口元座標(x,y,z)と各マイク座標の距離をd,dとすると、各マイクロフォン1010で観測された周波数スペクトルp,pは、以下の式(2)、式(3)で表すことができる。ただし、jは虚数単位、exp(a)はaの指数関数を表す。
Figure JPOXMLDOC01-appb-M000002
・・・(2),(3)
 また、p≠pであれば、振幅比と位相差の関係から、以下の式(4)、式(5)により距離d,dが求まる。
Figure JPOXMLDOC01-appb-M000003
・・・(4),(5)
 一方、幾何学的な関係から以下の式(6)、式(7)が成立する。
 d =(x-x+(y-y+z    ・・・(6)
 d =(x-x+(y-y+z    ・・・(7)
 式(6)、式(7)に式(4)、式(5)から求まる距離d,dを代入し、式(1)を加えて連立方程式を解くことができる。式(6)、式(7)は球面を表す方程式であり、式(1)は円柱面を表す方程式であるため、口元座標(x,y,z)はそれらの交点として得ることができる。
 解の算出には解析的な方法を用いても良いし、ニュートン法などの数値的な方法を用いても良い。交点(解)は2点存在する場合があるため、その場合にはy>0として1点に決定する。すなわち、装着ずれは±90度以内と仮定する。
 以上のように、式(6)、式(7)のみでは口元座標を算出することはできないが、本実施形態のネックバンド型デバイス1000に特有な式(1)の関係を用いることにより、通常では算出不可能な口元座標を算出できる。また、口元座標のzが一度既知になると、zは装着ずれに応じて変化することはないため、以降は3つの方程式(式(1)、式(6)、式(7))に対して未知数が2つになり、最適化によりx,yを算出することが可能となる。なお、最適化計算の手法については、後で詳細に説明する。このように、ネックバンド型デバイス1000が存在する平面と垂直な軸に射影した口元座標を時間的に一定の値として扱うことで、推定パラメータ数を減らして最適化計算を行うことができる。そして、算出したx,yから距離d,dを再計算することにより、距離d,dをより高精度に算出することが可能である。これにより、例えばビームフォーミングなどの性能を大幅に向上することができる。また、口元座標に基づいてネックバンド型デバイス1000側で装着ずれの有無が分かるため、スピーカ1020から音声を発する等の手法によりユーザに装着ずれが発生していることを警告できる。
 図6は、マイクロフォン1010が3つ以上(n個)設けられた場合に、マイク座標(x,y,z)から口元座標(x,y,z)を求める手法を説明するための模式図である。なお、i=1,...,nとする。
 図6において、口元座標(x,y,z)と各マイク座標の距離をdとすると、各マイクロフォン1010で観測された周波数スペクトルpは、以下の式(8)で表すことができる。
Figure JPOXMLDOC01-appb-M000004
・・・(8)
 また、振幅比と位相差の関係から、以下の式(9)、式(10)が得られる。この際、求めたいdの数よりも式の数の方が多いため、線形最適化によりdを得ることができる。
Figure JPOXMLDOC01-appb-M000005
・・・(9),(10)
 また、マイクロフォン1010が2つの場合と同様に、幾何学的関係から以下の式(11)が成り立つ。
 d =(x-x+(y-y+z    ・・・(11)
 以上により、未知数はx,y,zの3つであり、n+1本の方程式が得られるため、非線形最適化により口元座標(x,y,z)を決定できる。また、得られた口元座標(x0,y0,z0)の値を用いて距離dを算出することにより、より高精度な距離dを得ることができる。
 最適化計算では、式(9)、式(10)において、以下のような誤差λi,μiが含まれるものとする(但し、i=1の場合を除く)。
Figure JPOXMLDOC01-appb-M000006
・・・(9)’,(10)’
 そして、最適化計算では、式(9)’、式(10)’において、以下の二乗誤差を最小にするd(i=1,・・・,n)を求める。
Figure JPOXMLDOC01-appb-M000007
 最適化計算において、方程式の数が1つ増えることにより、距離dの精度が向上する。これにより、マイクロフォン1010から口元への伝達特性(ステアリングベクトル)が正確に得られることになり、ビームフォーミング等の信号処理の性能が向上する。特にn≧3の場合には、n=3では未知数の数と方程式の数が一致するため、最適化計算を行うことができないが、本実施形態に係る方法により最適化計算を行うことで精度の向上が期待できる。また、上記と同様、zが既知になると、未知数の数が減ることにより、より精度の向上が期待できる。
 図7は、マイクロフォン1010が点対称の位置にある場合を示す模式図である。2つのマイクロフォン1010から口元座標(x,y,z)までの距離をl,lとすると、タレスの定理により以下の式(12)の関係が常に成立する。
 l +l =d   ・・・(12)
 口元座標(x,y,z)と各マイク座標の距離をd,dとすると、式(12)は以下の式(15)のように変形できる。
 d +d =d+2z   ・・・(13)
 式(13)が常に成り立つとして、式(1)の代わりに用いることで、口元座標(x,y,z)を求めることができる。
 4.最適化計算について
 本実施形態における最適化計算では、式(1)の扱い方により2つの方法が考えられる。ここでは一般化のため、任意の位置に3つ以上のマイクロフォン1010が配置されている場合を考える。
 第1の方法は、制約付き最適化である。この方法では、ネックバンド型デバイス1000の形状が充分に理想的であり、式(1)が誤差なく成立すると考えられる場合に、式(1)を制約条件として以下の式(16)の二乗誤差を最小にする(x,y,z)を求める。
Figure JPOXMLDOC01-appb-M000008
・・・(16)
 第2の方法は、制約無し最適化であって、ネックバンド型デバイス1000の形状が条件を充分には満たしていない場合に、式(1)にも誤差が含まれると考え、以下の式(17)、式(18)を設定する。
Figure JPOXMLDOC01-appb-M000009
・・・(19),(20)
 そして、以下の式(19)の二乗誤差を最小にする(x,y,z)を求める。
Figure JPOXMLDOC01-appb-M000010
・・・(19)
 5.音源位置推定装置の構成例
 図8は、上述した演算によりネックバンド型デバイス1000における音源位置を推定する音源位置推定装置100の構成を示す模式図である。図8に示すように、音源位置推定装置100は、スペクトル取得部102、音源距離演算部104、音源位置演算部106、を有して構成されている。音源位置演算部106によって算出された距離diは、ビームフォーミング演算部108へ送られる。スペクトル取得部102は、マイクロフォン1010で観測された信号をAD変換し、帯域分割処理を行うことにより、周波数スペクトルpiを取得する。音源距離演算部104は、上述した式(4)、式(5)(または式(9)、式(10))に基づいて、口元座標とマイク座標との距離dを求める。音源位置演算部106は、上述した式(1)、式(6)、式(7)(または式(1)、式(11))に基づいて、口元座標(x,y,z)を演算する。また、音源位置演算部106は、求めた口元座標(x,y,z)とマイク座標に基づいて、距離dを再計算し、より高精度に距離dを算出する。ビームフォーミング演算部108は、高精度に再計算された距離diに基づいて、ビームフォーミング処理を行う。図8に示す音源位置推定装置100は、ネックバンド型デバイス1000の内部に設けられるが、音源位置推定装置100を外部機器(クラウドコンピュータ等)に設け、ネックバンド型デバイス1000から外部機器へ必要なパラメータを送信し、外部機器側で演算された音源位置をネックバンド型デバイス1000が受信しても良い。図8に示す音源位置推定装置100の各構成要素は、回路(ハードウェア)、またはCPUなどの中央演算処理装置とこれを機能させるためのプログラム(ソフトウェア)から構成されることができる。また、そのプログラムは、メモリ等の記録媒体に格納されることができる。
 6.ビームフォーミング処理について
 図9は、ビームフォーミング演算部108の構成を示す模式図である。ビームフォーミング演算部108は、スペクトル取得部108a、ビームフォーミング処理部108b、ビームフォーミング係数算出部108cを有して構成される。なお、スペクトル取得部108aは、スペクトル取得部102と同一の機能を有する構成要素である。
 上述のように、口元座標(x,y,z)と各マイクロフォン1010のマイク座標(x,y,z)との距離dを精度良く求めることができるため、以下に説明するように、ビームフォーミング演算部108におけるビームフォーミング処理の性能向上を達成できる。先ず、得られた距離dを用いて、口元から各マイクロフォン1010までの伝達関数を並べた以下の式(20)のようなベクトル(ステアリングベクトル)を作成する。但し、式(20)において、cは音速、nはマイクロフォン1010の数である。また、上付きのTは転置を表す。
Figure JPOXMLDOC01-appb-M000011
・・・(20)
 各マイクロフォン1010での周波数スペクトルを並べたベクトルp(式(21)参照)に対してフィルタwを乗じて目的信号以外の信号を抑圧する場合、目的音源は変化しないという拘束の下で出力パワーを最小にする以下の最適化問題の解として、以下の式(22)からフィルタwを得ることができる。
Figure JPOXMLDOC01-appb-M000012
・・・(22)
 但し、E[α]はαの期待値である、また上付きのHは共役転置を表す。この最適化問題の解はpの共分散行列であるR(式(23)参照)を用いて以下の式(24)ように表すことができる。
Figure JPOXMLDOC01-appb-M000013
・・・(23),(24)
 このようにして得られたフィルタwを用いて、以下の式(25)からqを得ることでビームフォーミング処理を実現する。
Figure JPOXMLDOC01-appb-M000014
・・・(25)
 図9に示す構成において、スペクトル取得部108aは、マイクロフォン1010で観測された信号をAD変換し、帯域分割処理を行うことにより、周波数スペクトルpiを取得する。スペクトル取得部108aは、図8のスペクトル取得部102と同様の機能を有するため、両者は一体に構成されていて良い。ビームフォーミング処理部108bは、式(25)の演算処理を行う。また、ビームフォーミング係数算出部では、式(23)、式(24)によりフィルタwを算出する処理を行う。
 以上のように本実施形態によれば、ネックバンド型デバイス1000において音源位置(口元座標(x,y,z))を算出することが可能となり、装着ずれがある状況下における各種信号処理(特にステアリングベクトルを用いたビームフォーミング)の性能を向上させることができる。また、マイクロフォン1010が2つの場合であっても、音源位置(口元座標)を算出することができる。更に、装着ずれをより高精度に検出してユーザへ通知することも可能となる。
 7.ネックバンド型デバイスの傾きと直径の調整
 次に、ネックバンド型デバイス1000の角度θと直径dの設定について説明する。上述した演算によりユーザの口元座標(x,y,z)を算出する際には、角度θと直径dを所定値に定めておくことが望ましい。図10~図13は、角度θと直径dを所望の値にするための構成を示す模式図である。ネックバンド型デバイス1000の内周面には、図10に示す領域Aにおいて、図11に示すような傾斜面(傾き調整部)1004が設けられている。傾斜面1004は、ネックバンド型デバイス1000がユーザの首に装着された場合に、首と接触する。このため、傾斜面1004の角度を最適な角度に設定することで、角度θを所望の値に設定することができる。好適には、ネックバンド型デバイス1000の開口部1002側に重みを持たせておくことにより、傾斜面1004を確実にユーザの首に接触させることができる。傾斜面1004を備えるアタッチメントをネックバンド型デバイス1000に装着できるようにしても良い。
 また、図10に示す領域Bにおいて、角度θを設定する部材を設けても良い。ネックバンド型デバイス1000の開口部1002の近傍に部材を設け、ネックバンド型デバイス1000の前方(開口部1002側)に重みをもたせておくことにより、装着者の体表(鎖骨周辺)とネックバンド型デバイス1000の筐体のすき間を埋めて角度を固定することもできる。図12は、ネックバンド型デバイス1000の開口部1002の近傍に突起部(傾き調整部)1006を設けた例を示す模式図である。この構成では、ネックバンド型デバイス1000がユーザの首に装着された場合に、突起部1006の先端が鎖骨の近傍に当接する。このため、突起部1006の長さを最適な長さに設定することで、角度θを所望の値に設定することができる。また、図13は、図12の突起部1006の代わりに、前方に行くにつれて太さが増す傾斜部(傾き調整部)1008を設けた例を示す模式図である。図13の構成例において、傾斜部1008の鎖骨側への長さを最適な長さに設定することで、角度θを所望の値に設定することができる。突起部1006、または傾斜部1008を備えるアタッチメントをネックバンド型デバイス1000に装着できるようにしても良い。
 図10に示すように、ネックバンド型デバイス1000には、スライダー(直径調整部)1100が設けられており、後側筐体1110に対して前部筐体1120がスライド可能とされている。これにより、後側筐体1110に対して前部筐体1120がスライドさせることで、ネックバンド型デバイス1000の直径dを所望の値に設定することができる。なお、異なる直径dのネックバンド型デバイス1000を複数用意し、その中から所望の直径dを有するネックバンド型デバイス1000を選択するなどの手法を用いる場合は、ネックバンド型デバイス1000にスライダー1100を設けなくても良い。
 なお、上述した傾斜面1004、突起部1006、傾斜部1008、スライダー1100による角度θ、直径dの設定は、平均的なユーザの身体(首回り)の寸法に応じて予め設定されていても良いし、傾斜面1004、突起部1006、傾斜部1008、スライダー1100を事後的に調整することで、個々のユーザに応じて角度θ、直径dを調整するものであっても良い。
 以上説明したように本実施形態によれば、ネックバンド型デバイス1000における音源の位置(ユーザの口元の位置)を高精度に推定することができる。従って、音源の位置に基づいてビームフォーミング処理などの各種処理を最適に行うことが可能となる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、以下のような構成も本開示の技術的範囲に属する。
(1) リング状のウェアラブルデバイスに設けられた複数のマイクロフォンで得られる音声に基づいて、音源の周波数スペクトルを取得するスペクトル取得部と、
 前記周波数スペクトルに基づいて複数の前記マイクロフォンから前記音源までのそれぞれの距離を演算する距離演算部と、
 前記リング状のウェアラブルデバイスを円に近似して、前記リング状のウェアラブルデバイスを含む円柱面に前記音源が位置するものとして、前記それぞれの距離を半径とする球面と前記円柱面との交点を求めることで前記音源の位置を演算する音源位置演算部と、
 を備える、音源位置推定装置。
(2) 前記音源位置演算部は、前記音源の位置を演算した後、前記音源の位置を再演算する際には、前記円柱面における前記円から前記音源までの距離を固定値として最適化演算を行うことで前記音源の位置を再演算する、前記(1)に記載の音源位置推定装置。
(3) 前記マイクロフォンは2つ設けられ、
 音源位置演算部は、前記それぞれの距離を半径とする球面を表す2つの式と前記円柱面を表す式を連立して解くことで、前記球面と前記円柱面との交点を求める、前記(1)又は(2)に記載の音源位置推定装置。
(4) 前記マイクロフォンは3つ以上設けられ、
 前記スペクトル取得部は、線形最適化により前記周波数スペクトルを取得する、前記(1)又は(2)に記載の音源位置推定装置。
(5) 前記マイクロフォンは3つ以上設けられ、
 音源位置演算部は、前記それぞれの距離を半径とする球面を表す式と、前記円柱面を表す式とに基づいて、非線形最適化により前記音源の位置を演算する、(1)又は(2)に記載の音源位置推定装置。
(6) 前記音源位置演算部は、前記円柱面を表す式を制約条件として、非線形化最適化により前記音源の位置を演算する、前記(5)に記載の音源位置推定装置。
(7) 前記音源位置演算部は、前記リング状のウェアラブルデバイスを前記円に近似したことにより前記円柱面を表す式に含まれる誤差を考慮して、非線形化最適化により前記音源の位置を演算する、前記(5)に記載の音源位置推定装置。
(8) 前記マイクロフォンは前記円の中心に対して点対称の位置に設けられ、
 前記音源位置演算部は、前記円柱面を表す式の代わりに、前記それぞれの距離と前記円の直径との関係を示す式を用いて前記球面と前記円柱面との交点を求める、前記(3)に記載の音源位置推定装置。
(9) 前記音源位置演算部は、前記音源の位置を演算した後、演算した前記音源の位置と複数の前記マイクロフォンのそれぞれの位置とに基づいて、複数の前記マイクロフォンから前記音源までのそれぞれの距離を再計算する、前記(1)~(8)のいずれかに記載の音源位置推定装置。
(10) 前記音源位置演算部により再計算された前記音源までのそれぞれの距離に基づいて、ビームフォーミング処理が行われる、前記(9)に記載の音源位置推定装置。
(11) 前記スペクトル取得部は、複数の前記マイクロフォンで観測された信号をAD変換し、帯域分割処理を行うことにより、前記周波数スペクトルを取得する、前記(1)~(10)のいずれかに記載の音源位置推定装置。
(12) 複数のマイクロフォンが設けられたリング状の筐体と、
 複数の前記マイクロフォンで得られる音声に基づいて、音源の周波数スペクトルを取得するスペクトル取得部と、前記周波数スペクトルに基づいて複数の前記マイクロフォンから前記音源までのそれぞれの距離を演算する距離演算部と、前記筐体を円に近似して、前記筐体を含む円柱面に前記音源が位置するものとして、前記それぞれの距離を半径とする球面と前記円柱面との交点を求めることで前記音源の位置を演算する音源位置演算部と、を備える、音源位置推定装置と、
 を備える、ウェアラブルデバイス。
(13) 前記円柱面に前記音源が位置するように、身体の装着部位に対する前記筐体の傾きを調整する傾き調整部を備える、前記(12)に記載のウェアラブルデバイス。
(14) 前記円柱面に前記音源が位置するように、前記筐体におけるリングの直径を調整する直径調整部を備える、前記(12)又は(13)に記載のウェアラブルデバイス。
 100  音源位置推定装置
 102  スペクトル取得部
 104  音源距離演算部
 106  音源位置演算部
 1004,1008 傾斜部
 1006 突起部
 1008 スライダー

Claims (14)

  1.  リング状のウェアラブルデバイスに設けられた複数のマイクロフォンで得られる音声に基づいて、音源の周波数スペクトルを取得するスペクトル取得部と、
     前記周波数スペクトルに基づいて複数の前記マイクロフォンから前記音源までのそれぞれの距離を演算する距離演算部と、
     前記リング状のウェアラブルデバイスを円に近似して、前記リング状のウェアラブルデバイスを含む円柱面に前記音源が位置するものとして、前記それぞれの距離を半径とする球面と前記円柱面との交点を求めることで前記音源の位置を演算する音源位置演算部と、
     を備える、音源位置推定装置。
  2.  前記音源位置演算部は、前記音源の位置を演算した後、前記音源の位置を再演算する際には、前記円柱面における前記円から前記音源までの距離を固定値として最適化演算を行うことで前記音源の位置を再演算する、請求項1に記載の音源位置推定装置。
  3.  前記マイクロフォンは2つ設けられ、
     音源位置演算部は、前記それぞれの距離を半径とする球面を表す2つの式と前記円柱面を表す式を連立して解くことで、前記球面と前記円柱面との交点を求める、請求項1に記載の音源位置推定装置。
  4.  前記マイクロフォンは3つ以上設けられ、
     前記スペクトル取得部は、線形最適化により前記周波数スペクトルを取得する、請求項1に記載の音源位置推定装置。
  5.  前記マイクロフォンは3つ以上設けられ、
     音源位置演算部は、前記それぞれの距離を半径とする球面を表す式と、前記円柱面を表す式とに基づいて、非線形最適化により前記音源の位置を演算する、請求項1に記載の音源位置推定装置。
  6.  前記音源位置演算部は、前記円柱面を表す式を制約条件として、非線形化最適化により前記音源の位置を演算する、請求項5に記載の音源位置推定装置。
  7.  前記音源位置演算部は、前記リング状のウェアラブルデバイスを前記円に近似したことにより前記円柱面を表す式に含まれる誤差を考慮して、非線形化最適化により前記音源の位置を演算する、請求項5に記載の音源位置推定装置。
  8.  前記マイクロフォンは前記円の中心に対して点対称の位置に設けられ、
     前記音源位置演算部は、前記円柱面を表す式の代わりに、前記それぞれの距離と前記円の直径との関係を示す式を用いて前記球面と前記円柱面との交点を求める、請求項3に記載の音源位置推定装置。
  9.  前記音源位置演算部は、前記音源の位置を演算した後、演算した前記音源の位置と複数の前記マイクロフォンのそれぞれの位置とに基づいて、複数の前記マイクロフォンから前記音源までのそれぞれの距離を再計算する、請求項1に記載の音源位置推定装置。
  10.  前記音源位置演算部により再計算された前記音源までのそれぞれの距離に基づいて、ビームフォーミング処理が行われる、請求項9に記載の音源位置推定装置。
  11.  前記スペクトル取得部は、複数の前記マイクロフォンで観測された信号をAD変換し、帯域分割処理を行うことにより、前記周波数スペクトルを取得する、請求項1に記載の音源位置推定装置。
  12.  複数のマイクロフォンが設けられたリング状の筐体と、
     複数の前記マイクロフォンで得られる音声に基づいて、音源の周波数スペクトルを取得するスペクトル取得部と、前記周波数スペクトルに基づいて複数の前記マイクロフォンから前記音源までのそれぞれの距離を演算する距離演算部と、前記筐体を円に近似して、前記筐体を含む円柱面に前記音源が位置するものとして、前記それぞれの距離を半径とする球面と前記円柱面との交点を求めることで前記音源の位置を演算する音源位置演算部と、を備える、音源位置推定装置と、
     を備える、ウェアラブルデバイス。
  13.  前記円柱面に前記音源が位置するように、身体の装着部位に対する前記筐体の傾きを調整する傾き調整部を備える、請求項12に記載のウェアラブルデバイス。
  14.  前記円柱面に前記音源が位置するように、前記筐体におけるリングの直径を調整する直径調整部を備える、請求項12に記載のウェアラブルデバイス。
PCT/JP2017/028102 2016-09-13 2017-08-02 音源位置推定装置及びウェアラブルデバイス WO2018051663A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018539560A JP6947183B2 (ja) 2016-09-13 2017-08-02 音源位置推定装置及びウェアラブルデバイス
EP17850569.9A EP3515088A4 (en) 2016-09-13 2017-08-02 SOUND SOUND POSITION ESTIMATING DEVICE AND CLOTHING DEVICE
US16/330,960 US11402461B2 (en) 2016-09-13 2017-08-02 Sound source position estimation device and wearable device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016178745 2016-09-13
JP2016-178745 2016-09-13

Publications (1)

Publication Number Publication Date
WO2018051663A1 true WO2018051663A1 (ja) 2018-03-22

Family

ID=61619549

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/028102 WO2018051663A1 (ja) 2016-09-13 2017-08-02 音源位置推定装置及びウェアラブルデバイス

Country Status (4)

Country Link
US (1) US11402461B2 (ja)
EP (1) EP3515088A4 (ja)
JP (1) JP6947183B2 (ja)
WO (1) WO2018051663A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022009626A1 (ja) * 2020-07-06 2022-01-13 Fairy Devices株式会社 音声入力装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110603587A (zh) * 2017-05-08 2019-12-20 索尼公司 信息处理设备
CN111383649B (zh) * 2018-12-28 2024-05-03 深圳市优必选科技有限公司 一种机器人及其音频处理方法
US20220084525A1 (en) * 2020-09-17 2022-03-17 Zhejiang Tonghuashun Intelligent Technology Co., Ltd. Systems and methods for voice audio data processing

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003535529A (ja) * 2000-05-27 2003-11-25 ネックフォン カンパニー リミティド ネックホン
JP2010193344A (ja) 2009-02-20 2010-09-02 Victor Co Of Japan Ltd 耳掛け式イヤホン装置、イヤホン装置用耳掛けアーム
JP2013072977A (ja) * 2011-09-27 2013-04-22 Fuji Xerox Co Ltd 音声解析装置
WO2016063587A1 (ja) * 2014-10-20 2016-04-28 ソニー株式会社 音声処理システム
WO2017065092A1 (ja) * 2015-10-13 2017-04-20 ソニー株式会社 情報処理装置
US20170195767A1 (en) * 2016-01-04 2017-07-06 Lg Electronics Inc. Portable sound equipment

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6912178B2 (en) 2002-04-15 2005-06-28 Polycom, Inc. System and method for computing a location of an acoustic source
US9654868B2 (en) * 2014-12-05 2017-05-16 Stages Llc Multi-channel multi-domain source identification and tracking

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003535529A (ja) * 2000-05-27 2003-11-25 ネックフォン カンパニー リミティド ネックホン
JP2010193344A (ja) 2009-02-20 2010-09-02 Victor Co Of Japan Ltd 耳掛け式イヤホン装置、イヤホン装置用耳掛けアーム
JP2013072977A (ja) * 2011-09-27 2013-04-22 Fuji Xerox Co Ltd 音声解析装置
WO2016063587A1 (ja) * 2014-10-20 2016-04-28 ソニー株式会社 音声処理システム
WO2017065092A1 (ja) * 2015-10-13 2017-04-20 ソニー株式会社 情報処理装置
US20170195767A1 (en) * 2016-01-04 2017-07-06 Lg Electronics Inc. Portable sound equipment

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3515088A4

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022009626A1 (ja) * 2020-07-06 2022-01-13 Fairy Devices株式会社 音声入力装置
JP2022014137A (ja) * 2020-07-06 2022-01-19 Fairy Devices株式会社 音声入力装置

Also Published As

Publication number Publication date
US11402461B2 (en) 2022-08-02
US20190250245A1 (en) 2019-08-15
JPWO2018051663A1 (ja) 2019-06-24
EP3515088A1 (en) 2019-07-24
EP3515088A4 (en) 2019-07-31
JP6947183B2 (ja) 2021-10-13

Similar Documents

Publication Publication Date Title
WO2018051663A1 (ja) 音源位置推定装置及びウェアラブルデバイス
US9955279B2 (en) Systems and methods of calibrating earphones
JP5814476B2 (ja) 空間パワー密度に基づくマイクロフォン位置決め装置および方法
US20180199137A1 (en) Distributed Audio Microphone Array and Locator Configuration
EP2836852B1 (en) Systems and methods for mapping a source location
JP2022062282A (ja) 空間オーディオシステムにおける利得制御
CN108370471A (zh) 分布式音频捕获和混合
US20200107149A1 (en) Binaural Sound Source Localization
KR20160026652A (ko) 사운드 신호 처리 방법 및 장치
GB2542609A (en) Differential headtracking apparatus
TW201120469A (en) Method, computer readable storage medium and system for localizing acoustic source
JP2020500480A (ja) デバイス内の非対称配列の複数のマイクからの空間メタデータの分析
WO2018058845A1 (zh) 扬声器及提高指向性的方法、头戴式设备及方法
Pertilä et al. Closed-form self-localization of asynchronous microphone arrays
US20160192066A1 (en) Outerwear-mounted multi-directional sensor
JP2023508002A (ja) オーディオデバイス自動場所選定
KR20180090022A (ko) 다중 전방향 카메라 및 마이크 기반 가상현실 제공 방법 및 가상 현실 제공 방법을 수행하는 음향 신호 처리 장치 및 영상 신호 처리 장치
CN116601514A (zh) 用于使用声信标来确定设备的位置和取向的方法和系统
CN110741657B (zh) 用于确定声音生成物体的佩戴者的耳部之间的距离的方法以及耳戴式声音生成物体
EP3661233B1 (en) Wearable beamforming speaker array
WO2020077389A1 (en) "a method and system for determining an orientation of a user"
US20200304933A1 (en) Sound processing system of ambisonic format and sound processing method of ambisonic format
CN109963232A (zh) 音频信号播放装置及对应的音频信号处理方法
WO2022172648A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
US9794685B2 (en) Video audio recording system, video audio recording device, and video audio recording method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17850569

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018539560

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2017850569

Country of ref document: EP

Effective date: 20190415