JPWO2020137585A1 - 特定音検出器および方法、並びにプログラム - Google Patents

特定音検出器および方法、並びにプログラム Download PDF

Info

Publication number
JPWO2020137585A1
JPWO2020137585A1 JP2020563065A JP2020563065A JPWO2020137585A1 JP WO2020137585 A1 JPWO2020137585 A1 JP WO2020137585A1 JP 2020563065 A JP2020563065 A JP 2020563065A JP 2020563065 A JP2020563065 A JP 2020563065A JP WO2020137585 A1 JPWO2020137585 A1 JP WO2020137585A1
Authority
JP
Japan
Prior art keywords
microphone
specific sound
sound
microphones
headphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020563065A
Other languages
English (en)
Inventor
優樹 山本
佑司 床爪
徹 知念
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2020137585A1 publication Critical patent/JPWO2020137585A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • G10K11/17821Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
    • G10K11/17827Desired external signals, e.g. pass-through audio such as music or speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1783Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase handling or detecting of non-standard events or conditions, e.g. changing operating modes under specific operating conditions
    • G10K11/17833Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase handling or detecting of non-standard events or conditions, e.g. changing operating modes under specific operating conditions by using a self-diagnostic function or a malfunction prevention function, e.g. detecting abnormal output levels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1785Methods, e.g. algorithms; Devices
    • G10K11/17857Geometric disposition, e.g. placement of microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1787General system configurations
    • G10K11/17873General system configurations using a reference signal without an error signal, e.g. pure feedforward
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1787General system configurations
    • G10K11/17875General system configurations using an error signal without a reference signal, e.g. pure feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1787General system configurations
    • G10K11/17879General system configurations using both a reference signal and an error signal
    • G10K11/17881General system configurations using both a reference signal and an error signal the reference signal being an acoustic signal, e.g. recorded with a microphone
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/04Structural association of microphone with electric circuitry therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1041Mechanical or electronic switches, or control elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1058Manufacture or assembly
    • H04R1/1075Mountings of transducers in earphones or headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • H04R29/005Microphone arrays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/10Applications
    • G10K2210/108Communication systems, e.g. where useful sound is kept and noise is cancelled
    • G10K2210/1081Earphones, e.g. for telephones, ear protectors or headsets
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3026Feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3038Neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/10Details of earpieces, attachments therefor, earphones or monophonic headphones covered by H04R1/10 but not provided for in any of its subgroups
    • H04R2201/107Monophonic and stereophonic headphones with microphone for two-way hands free communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/05Noise reduction with a separate noise microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/01Hearing devices using active noise cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Manufacturing & Machinery (AREA)
  • Headphones And Earphones (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本技術は、特定音の検出性能を向上させることができるようにする特定音検出器および方法、並びにプログラムに関する。特定音検出器は、ウェアラブルデバイスに設けられた複数のマイクロフォンにより収音して得られた複数のオーディオ信号に基づいて、特定音を検出する特定音検出部を備える。また、複数のマイクロフォンは、少なくとも特定音の音源からの距離が等しい2個のマイクロフォンと、所定位置に配置された1個のマイクロフォンとからなる。本技術はヘッドフォンに適用することができる。

Description

本技術は、特定音検出器および方法、並びにプログラムに関し、特に、特定音の検出性能を向上させることができるようにした特定音検出器および方法、並びにプログラムに関する。
従来、マイクロフォンにより取得されるオーディオ信号に基づいて、そのオーディオ信号に基づく音に、人の声や車両の走行音などの特定の音(以下、特定音と称する)が含まれているかを検出する特定音検出の技術が知られている。
例えば、そのような技術として、ヘッドフォンに設けられたマイクロフォンを用いて、そのヘッドフォンの装着者の会話を検出し、会話が検出されると会話モードへと遷移する技術が提案されている(例えば、特許文献1参照)。
特開2011−97268号公報
ところが、特定音を検出しようとするときに、マイクロフォンの配置等によっては十分な検出性能を得ることができないことがあった。
本技術は、このような状況に鑑みてなされたものであり、特定音の検出性能を向上させることができるようにするものである。
本技術の一側面の特定音検出器は、ウェアラブルデバイスに設けられた複数のマイクロフォンにより収音して得られた複数のオーディオ信号に基づいて、特定音を検出する特定音検出部を備え、前記複数の前記マイクロフォンは、少なくとも前記特定音の音源からの距離が等しい2個の前記マイクロフォンと、所定位置に配置された1個の前記マイクロフォンとからなる。
本技術の一側面の特定音検出方法またはプログラムは、ウェアラブルデバイスに設けられた複数のマイクロフォンにより収音して得られた複数のオーディオ信号に基づいて、特定音を検出するステップを含み、前記複数の前記マイクロフォンは、少なくとも前記特定音の音源からの距離が等しい2個の前記マイクロフォンと、所定位置に配置された1個の前記マイクロフォンとからなる。
本技術の一側面においては、ウェアラブルデバイスに設けられた複数のマイクロフォンにより収音して得られた複数のオーディオ信号に基づいて、特定音が検出される。また、前記複数の前記マイクロフォンは、少なくとも前記特定音の音源からの距離が等しい2個の前記マイクロフォンと、所定位置に配置された1個の前記マイクロフォンとからなる。
マイクロフォンを用いた特定音の検出について説明する図である。 ヘッドフォンにおけるマイクロフォン配置例を示す図である。 マイクロフォンを用いた特定音の検出について説明する図である。 ヘッドフォンにおけるマイクロフォン配置例を示す図である。 マイクロフォンを用いた特定音の検出について説明する図である。 ヘッドフォンにおけるマイクロフォン配置例を示す図である。 ヘッドフォンにおけるマイクロフォン配置例を示す図である。 ヘッドフォンにおけるマイクロフォン配置例を示す図である。 ヘッドフォンにおけるマイクロフォン配置例を示す図である。 ヘッドフォンにおけるマイクロフォン配置例を示す図である。 ヘッドフォンの機能的な構成例を示す図である。 特定音検出処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈特定音検出時の誤検出について〉
本技術は、複数のマイクロフォンのそれぞれにより取得される複数のオーディオ信号のそれぞれに基づいて特定音を検出することで、特定音の検出性能を向上させることができるようにするものである。
なお、検出対象となる特定の音である特定音は、どのようなものであってもよい。また、特定音の検出に用いるマイクロフォンは、例えばユーザに装着されるウェアラブルデバイスに設けられているものを用いるようにすることができる。
ウェアラブルデバイスは、例えばオーバーヘッド型のヘッドフォンや、左右の耳に装着する部分が物理的に接続されていないトゥルーワイヤレス型のヘッドフォン、ヘッドマウントディスプレイ等、ユーザに装着可能なものであれば、どのようなものであってもよい。
以下では、ヘッドフォンに設けられた複数のマイクロフォンにより、ヘッドフォンの装着者の声、ヘッドフォンの装着者以外の人の声、アナウンス音、車両の走行音、および車両等により発せられた警笛音の少なくとも何れかを特定音として検出する例について説明する。
特定音の検出を行う場合、1つのマイクロフォンを用いると、十分な検出性能を得ることは困難である。
例えば図1に示すように、1つのマイクロフォンMK11が設けられたオーバーヘッド型のヘッドフォンHD11を装着する、ヘッドフォン装着者であるユーザU11がおり、そのユーザU11の近くに他のユーザU12がいるとする。
このような場合に、マイクロフォンMK11が収音することで得られるオーディオ信号に基づいて、ヘッドフォン装着者であるユーザU11の声を特定音として検出するときに、ヘッドフォン装着者ではないユーザU12の声が誤って特定音として検出されてしまうことがある。すなわち、誤検出が生じることがある。
ユーザU11の声を特定音として検出するにあたり、ユーザU11が任意の人である場合と、ユーザU11が予め定められた特定の人である場合とで、特定音を検出するための方法が異なるが、それらの何れの場合であっても誤検出が生じてしまう。
ここで、ユーザU11が任意の人である場合と、ユーザU11が予め定められた特定の人である場合とについてさらに説明する。
まず、ユーザU11が任意の人である場合、任意の人の声を検出するニューラルネットワーク等により構成される検出器を機械学習により生成し、得られた検出器を用いて、ヘッドフォン装着者であるユーザU11の声を特定音として検出する方法がある。
このような方法を採用する場合、図1に示す例では誤検出が発生する。
すなわち、図1に示す例では、任意のヘッドフォン装着者であるユーザU11の口からマイクロフォンMK11までの距離と、ヘッドフォン装着者ではないユーザU12の口からマイクロフォンMK11までの距離とが略同じ(等距離)となっている。
そのため、マイクロフォンMK11により取得されるオーディオ信号の音圧は、ユーザU11の声とユーザU12の声とで略等しく、かつ、ともに同じ「人の声」である。
したがって、この例では任意のヘッドフォン装着者であるユーザU11の声と、ヘッドフォン装着者ではないユーザU12の声とを検出器により判別することは困難である。その結果、ヘッドフォン装着者であるユーザU11以外のユーザ(人)の声、すなわちここではユーザU12の声が特定音として検出されるという誤検出が発生してしまうことになる。
また、予め定められた特定の人の声、すなわちここではヘッドフォン装着者である特定のユーザU11の声を検出する検出器を機械学習により生成し、その検出器を用いてヘッドフォン装着者であるユーザU11の声を特定音として検出する方法がある。
このような方法を採用して、図1の例で予め定められた特定のユーザU11の声を特定音として検出するものとする。
図1に示す例では、特定のヘッドフォン装着者であるユーザU11の口からマイクロフォンMK11までの距離と、ヘッドフォン装着者ではないユーザU12の口からマイクロフォンMK11までの距離とが略同じとなっている。
したがって、ユーザU11が任意の人である場合と同様に、マイクロフォンMK11により取得されるオーディオ信号の音圧は、ユーザU11の声とユーザU12の声とで略等しくなるが、ユーザU11の声とユーザU12の声とは異なるため、上述のユーザU11が任意の人である場合と比較すると特定音の誤検出は生じにくくなる。
しかしながら、このような場合でもユーザU11の声とユーザU12の声とが似ているときには、ユーザU11ではない他のユーザU12の声が特定音として検出されるという誤検出が発生してしまうことがある。
そこで、本技術では、複数のマイクロフォンのそれぞれにより取得されるオーディオ信号のそれぞれに基づいて特定音を検出することで、誤検出の発生を抑制できるようにした。
特に、本技術では複数のマイクロフォンを用いるだけでなく、それらのマイクロフォンの配置、特に特定音の音源からマイクロフォンまでの距離についても工夫することで、特定音の検出性能を向上させることができるようにした。
これは、複数のマイクロフォンを用いて特定音検出を行う場合、特定音検出に用いるマイクロフォンの数や、それらのマイクロフォンの配置によって、誤検出が解決される程度が異なるからである。以下では、いくつかの例について具体的に説明する。
〈2つのマイクロフォンをLとRに配置する例について〉
まず、特定音検出に2つのマイクロフォンを用い、それらの2つのマイクロフォンをL位置とR位置、つまりヘッドフォン装着者から見て左右の位置に配置することで、誤検出が生じにくくなる例について説明する。
この場合、例えば図2に示すようにオーバーヘッド型のヘッドフォンHD21にはマイクロフォンMK21-1と、マイクロフォンMK21-2とが設けられている。なお、図2において図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
この例では、ヘッドフォン装着者であるユーザU11がヘッドフォンHD21を装着しており、そのユーザU11の近くにヘッドフォン装着者ではないユーザU12がいる。
また、ユーザU11の左耳に装着される、ヘッドフォンHD21における左側のハウジング部HW21-1にはマイクロフォンMK21-1が設けられている。さらにユーザU11の右耳に装着される、ヘッドフォンHD21の右側のハウジング部HW21-2にはマイクロフォンMK21-2が設けられている。
換言すれば、ユーザU11から見て左側にマイクロフォンMK21-1が配置されており、ユーザU11から見て右側にマイクロフォンMK21-2が配置されている。
なお、以下、マイクロフォンMK21-1およびマイクロフォンMK21-2を特に区別する必要のない場合、単にマイクロフォンMK21とも称することとする。また、以下、ハウジング部HW21-1およびハウジング部HW21-2を特に区別する必要のない場合、単にハウジング部HW21とも称することとする。
ここでは、マイクロフォンMK21はヘッドフォンHD21におけるハウジング部HW21の外周の外側に設けられている。すなわち、マイクロフォンMK21は収音のためのセンサ部分が筐体により覆われておらず、外部に露出するように設けられている。
また、マイクロフォンMK21は、例えばノイズキャンセリング機能を実現するためのフィードフォワードマイクロフォンなどとされる。
フィードフォワードマイクロフォンは、ノイズキャンセリングのフィードフォワード制御のためのマイクロフォンであり、このフィードフォワードマイクロフォンがノイズキャンセリングだけでなく、特定音の検出にも利用される。
さらに、2個のマイクロフォンMK21は、ユーザU11がヘッドフォンHD21を装着した状態では、特定音の音源位置となるユーザU11の口からの距離が略等しくなるように配置されている。
図2に示す例では、ヘッドフォン装着者であるユーザU11の口からマイクロフォンMK21-2までの距離と、ヘッドフォン装着者ではないユーザU12の口からマイクロフォンMK21-2までの距離とは略同じ距離となっている。しかし、ユーザU11の口からマイクロフォンMK21-1までの距離と、ユーザU12の口からマイクロフォンMK21-1までの距離とは異なる距離となる。
換言すれば、マイクロフォンMK21-1とマイクロフォンMK21-2は、特定音の音源であるユーザU11の口からは略等距離の位置に配置されているが、それらのマイクロフォンMK21の位置は、ユーザU12の口から等距離の位置とはなっていない。
したがって、マイクロフォンMK21-1とマイクロフォンMK21-2とでヘッドフォン装着者であるユーザU11の声が取得(収音)された場合、それらのマイクロフォンMK21のそれぞれで得られたオーディオ信号のそれぞれの音圧は同程度となる。
これに対して、マイクロフォンMK21-1とマイクロフォンMK21-2とでヘッドフォン装着者ではないユーザU12の声が取得(収音)された場合、それらのマイクロフォンMK21のそれぞれで得られたオーディオ信号のそれぞれの音圧は異なる音圧となる。
このように、2つのマイクロフォンMK21を左右のL位置とR位置に配置する場合、それらの2つのマイクロフォンMK21で取得されるオーディオ信号を用いて検出器の機械学習を行えば、上述の誤検出の発生を抑制することができる。
すなわち、機械学習により得られる検出器を用いれば、互いに異なる位置であって、特定音の音源からの距離が略等しい位置に配置されるマイクロフォンMK21により取得されたオーディオ信号における音圧の差異を利用した特定音の検出を行うことができる。これにより検出性能を向上させることができる。
しかしながら、例えば図3に示すように、ヘッドフォン装着者ではないユーザU12が、ヘッドフォン装着者であるユーザU11の正中面上にいる場合には、誤検出が発生し得る。なお、図3において図2における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図3に示す例では、ユーザU12がユーザU11の正中面上にいるため、ユーザU12の口からマイクロフォンMK21-1までの距離と、ユーザU12の口からマイクロフォンMK21-2までの距離とが略等しい状態となっている。
例えば電車内や踏切の近く等においてユーザU11の後ろにユーザU12がいる場合などに、このようなケースが発生し得る。また、電車内等においては、ユーザU11の上方でアナウンス音等の人の音声が再生されることもあり、そのような場合においてもアナウンス音等の音源がユーザU11の正中面上に位置するケースが発生し得る。
このような場合には、マイクロフォンMK21-1とマイクロフォンMK21-2とでユーザU12の声が取得されたときには、それらのマイクロフォンMK21のそれぞれで得られたオーディオ信号のそれぞれの音圧は同程度となるため、上述の誤検出が生じてしまうおそれがある。
〈3個のマイクロフォンをLとRとBTMに配置する例について〉
そこで、例えば図4に示すように、オーバーヘッド型のヘッドフォンHD31に3個のマイクロフォンMK21-1、マイクロフォンMK21-2、およびマイクロフォンMK31を設けるようにしてもよい。なお、図4において図2における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図4に示す例では、ヘッドフォンHD31における左側のハウジング部HW21-1にマイクロフォンMK21-1が設けられており、右側のハウジング部HW21-2にマイクロフォンMK21-2が設けられている。
特に、この例ではユーザU11が頭部にヘッドフォンHD31を装着した状態では、ユーザU11から見て同じ高さの位置にマイクロフォンMK21-1およびマイクロフォンMK21-2が配置されている。
また、左側のハウジング部HW21-1における図中、マイクロフォンMK21-1よりも下側の位置、つまりBTM位置(ボトム位置)には、マイクロフォンMK31が設けられている。
このマイクロフォンMK31は、例えばハウジング部HW21-1の外周の外側に設けられた、電話等の通話のための通話用マイクロフォンなどとされる。
また、マイクロフォンMK31は、ユーザU11が頭部にヘッドフォンHD31を装着した状態において、マイクロフォンMK21よりもユーザU11の口により近い位置に配置されている。すなわちマイクロフォンMK31は、ユーザU11の口からの距離が、マイクロフォンMK21からユーザU11の口までの距離よりも短くなる位置に配置されている。
したがって、2つのマイクロフォンMK21と、1つのマイクロフォンMK31でヘッドフォン装着者であるユーザU11の声が取得された場合、2つのマイクロフォンMK21のそれぞれで得られたオーディオ信号のそれぞれの音圧は同程度となる。
しかし、この場合、マイクロフォンMK31で得られたオーディオ信号の音圧は、2つの各マイクロフォンMK21で得られたオーディオ信号の音圧よりも大きくなる。
すなわち、ヘッドフォン装着者であるユーザU11の声は、2つのマイクロフォンMK21には同程度の音圧で入力されるが、マイクロフォンMK31にはマイクロフォンMK21における場合よりも大きい音圧で入力されることになる。
これは、上述したようにユーザU11が頭部にヘッドフォンHD31を装着した状態では、マイクロフォンMK21よりもマイクロフォンMK31の方がユーザU11の口からより近い位置に配置されているからである。
そのため、ヘッドフォンHD31では、図3に示した例のように、ヘッドフォン装着者ではないユーザU12が、ヘッドフォン装着者であるユーザU11の正中面上にいる場合でも、上述の誤検出が発生しにくくなる。すなわち、3個のマイクロフォンが設けられたヘッドフォンHD31では、2個のマイクロフォンが設けられたヘッドフォンHD21と比較して、より高い検出性能を得ることができる。
ところが、例えば図5に示すようにヘッドフォン装着者ではないユーザU12が、ヘッドフォン装着者であるユーザU11の正中面上における下方にいる場合には、誤検出が発生し得る。なお、図5において図3または図4における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図5に示す例では、ユーザU12がユーザU11の正中面上における、ユーザU11から見て下側に位置している。このようなユーザU12とユーザU11の位置関係は、電車内等において座席に座っているユーザU12の正面にユーザU11が立っている場合などに発生し得る。
この例では、マイクロフォンMK31がマイクロフォンMK21よりもユーザU12の口により近い位置にあり、かつ2つのマイクロフォンMK21はユーザU12の口から略等距離の位置に配置されている。
したがって、このような場合には、マイクロフォンMK21とマイクロフォンMK31でユーザU12の声が取得された場合、2つのマイクロフォンMK21で得られたオーディオ信号のそれぞれの音圧は同程度となる。
また、マイクロフォンMK31で得られたオーディオ信号の音圧は、マイクロフォンMK21で得られたオーディオ信号の音圧よりも大きくなる。その結果、図3に示した例と同様に誤検出が生じてしまうおそれがある。
〈4個のマイクロフォンをLとRとBTMとTOPに配置する例について〉
そこで、例えば図6に示すように、オーバーヘッド型のヘッドフォンHD41に4個のマイクロフォンMK21-1、マイクロフォンMK21-2、マイクロフォンMK31、およびマイクロフォンMK41を設けるようにしてもよい。
なお、図6において図4における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図6に示す例では、ヘッドフォンHD41における左側のハウジング部HW21-1にマイクロフォンMK21-1およびマイクロフォンMK31が設けられており、右側のハウジング部HW21-2にマイクロフォンMK21-2が設けられている。これらのマイクロフォンMK21およびマイクロフォンMK31の配置は図4における場合と同様となっている。
また、ヘッドフォンHD41では、ユーザU11がヘッドフォンHD41を装着した状態において、ユーザU11から見てマイクロフォンMK21およびマイクロフォンMK31よりもマイクロフォンMK41が上側に位置するように配置される。
特に、この例ではマイクロフォンMK41は、ユーザU11がヘッドフォンHD41を装着した状態において、ユーザU11の頭頂部付近(頭頂部近傍)、つまりTOP位置(トップ位置)に配置されるようになされている。
具体的には、ヘッドフォンHD41では、2つのハウジング部HW21同士を連結(接続)するバンド部BD41における2つのマイクロフォンMK21から略等距離となる位置にマイクロフォンMK41が設けられている。このマイクロフォンMK41は、例えばバンド部BD41の外側に設けられた特定音検出用のマイクロフォンとされる。
また、ヘッドフォン装着者であるユーザU11が頭部にヘッドフォンHD41を装着した状態では、ユーザU11の口からマイクロフォンMK21までの距離と、ユーザU11の口からマイクロフォンMK41までの距離とが略等しくなるようになっている。換言すれば、2つの各マイクロフォンMK21とマイクロフォンMK41は、特定音の音源であるユーザU11の口から略等距離の位置に配置されている。
このようなマイクロフォン配置とすることで、各マイクロフォンでヘッドフォン装着者であるユーザU11の声が取得された場合、2つのマイクロフォンMK21およびマイクロフォンMK41の合計3個の各マイクロフォンで得られたオーディオ信号のそれぞれの音圧は同程度となる。
また、マイクロフォンMK31で得られたオーディオ信号の音圧は、マイクロフォンMK21やマイクロフォンMK41で得られたオーディオ信号の音圧よりも大きくなる。
一方で、ヘッドフォン装着者ではないユーザU12の声について、各マイクロフォンで得られるオーディオ信号の音圧の相対的な関係として、ユーザU11の声における場合と同様の関係が得られるようにするには、ユーザU12は、自身の口の位置がユーザU11の口に極めて近い位置にある状態で発声しなければならない。
しかし、そのような状態でヘッドフォン装着者ではないユーザU12が声を発する確率(発生確率)は一般的な実生活において低いので、ヘッドフォンHD41においては誤検出が発生することは殆どない。すなわち、4個のマイクロフォンが設けられたヘッドフォンHD41では、3個のマイクロフォンが設けられたヘッドフォンHD31と比較して、さらに高い検出性能を得ることができる。
〈4個のマイクロフォンをLとRとFBLとFBRに配置する例について〉
ところで、ヘッドフォンのなかにはノイズキャンセリング用に、ヘッドフォンの筐体の内側にフィードバックマイクロフォンが配置されているものがある。
そこで、例えば図7に示すようにオーバーヘッド型のヘッドフォンHD51に2個のマイクロフォンMK21と、ノイズキャンセリング用のフィードバックマイクロフォンであるマイクロフォンMK51-1およびマイクロフォンMK51-2とを設けるようにしてもよい。なお、図7において図4における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図7に示す例では、ヘッドフォンHD51における左側のハウジング部HW21-1にマイクロフォンMK21-1が設けられており、右側のハウジング部HW21-2にマイクロフォンMK21-2が設けられている。これらのマイクロフォンMK21の配置は図4における場合と同様となっている。
さらにヘッドフォンHD51では、左側のハウジング部HW21-1の内側、すなわちハウジング部HW21-1を形成する筐体の内側の位置(FBL位置)にフィードバックマイクロフォンであるマイクロフォンMK51-1が配置されている。換言すれば、マイクロフォンMK51-1はハウジング部HW21-1を形成する筐体に覆われている。
より詳細には、例えばマイクロフォンMK51-1は、ハウジング部HW21-1内部に設けられた図示せぬスピーカの振動板と、その振動板を覆うことで振動板を保護するメッシュ状の保護部材との間の位置などに配置される。ここでは保護部材が筐体としても機能する。
フィードバックマイクロフォンは、ノイズキャンセリングのフィードバック制御のためのマイクロフォンであり、この例ではフィードバックマイクロフォンがノイズキャンセリングだけでなく、特定音の検出にも利用される。
同様に右側のハウジング部HW21-2を形成する筐体の内側の位置(FBR位置)にフィードバックマイクロフォンであるマイクロフォンMK51-2が配置されている。
なお、以下、マイクロフォンMK51-1およびマイクロフォンMK51-2を特に区別する必要のない場合、単にマイクロフォンMK51とも称することとする。
マイクロフォンMK51は、ヘッドフォンHD51の筐体に覆われているため、これらのマイクロフォンMK51ではヘッドフォン装着者であるユーザU11以外の人の声を含む外音は殆ど入力(収音)されない。すなわち、マイクロフォンMK51では、ハウジング部HW21の外側から空気中を伝搬してきた音は殆ど収音されない。
一方で、ヘッドフォン装着者であるユーザU11が声を発すると、マイクロフォンMK51ではヘッドフォン装着者であるユーザU11の発声に起因する、ユーザU11の個体振動音が入力(収音)される。つまり、マイクロフォンMK51では、ユーザU11の発声によって発生した振動音が収音される。
したがって、マイクロフォンMK21およびマイクロフォンMK51で得られたオーディオ信号に基づいて、ユーザU11の声、より詳細にはユーザU11の発話により発生した振動音と、それ以外のユーザU12等の声とを区別することができるようになる。
これにより、例えばユーザU12の口の位置がユーザU11の口に極めて近い位置にある状態でユーザU12が発声した場合などにおいても、特定音の誤検出が発生することは殆どなく、高い検出性能を得ることができる。
なお、ここでは主にユーザU11の個体振動音を収音するためのマイクロフォンとして、フィードバックマイクロフォンを用いる例について説明したが、その他、骨伝導マイクロフォンなどを用いてユーザU11の個体振動音を収音するようにしてもよい。すなわち、例えばマイクロフォンMK51として骨伝導マイクロフォンなどを用いてもよい。
〈2個のマイクロフォンをLとFBLまたはRとFBRに配置する例について〉
また、図7を参照して説明したように2つのマイクロフォンMK21と、2つのマイクロフォンMK51との合計4個のマイクロフォンを用いれば、特定音の誤検出を発生しにくくし、高い特定音の検出性能を得ることができる。
しかし、ヘッドフォンに設けるマイクロフォンの数が多くなるほど、その分だけ消費電力や特定音の検出で必要となるメモリ量が多くなってしまう。
そこで、例えば1つのフィードフォワードマイクロフォンと、1つのフィードバックマイクロフォンとの合計2個のマイクロフォンを用いて特定音の検出を行うようにすることで、消費電力やメモリ量を少なく抑え、かつ誤検出の発生を抑制するようにしてもよい。
具体的には、左側のハウジング部HW21-1に設けられた、フィードフォワードマイクロフォンであるマイクロフォンMK21-1と、フィードバックマイクロフォンであるマイクロフォンMK51-1とを特定音検出に用いるようにしてもよい。
この場合、特にマイクロフォンMK21-2やマイクロフォンMK51-2などの他のマイクロフォンはヘッドフォンに設けられていなくてもよい。
逆に、右側のハウジング部HW21-2に設けられた、フィードフォワードマイクロフォンであるマイクロフォンMK21-2と、フィードバックマイクロフォンであるマイクロフォンMK51-2とを特定音検出に用いるようにしてもよい。この場合においても他のマイクロフォンはヘッドフォンに設けられていなくてもよい。
このように1つのフィードフォワードマイクロフォンと、1つのフィードバックマイクロフォンとを特定音の検出に用いるようにすれば、特定音の検出性能と、消費電力やメモリ量の抑制とのバランス(費用対効果)をよりよくすることができる。すなわち、消費電力やメモリ量を、図2を参照して説明した例と同程度とし、かつ十分に高い検出性能を得ることができる。
〈トゥルーワイヤレス型のヘッドフォンへの適用例〉
その他、例えば図8に示すようにウェアラブルデバイスとして、トゥルーワイヤレス型のヘッドフォンHD61を特定音の検出に用いる場合においても消費電力やメモリ量を少なく抑えつつ十分に高い検出性能を得ることができる。なお、図8において図7における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図8に示す例では、トゥルーワイヤレス型のヘッドフォンHD61はユーザ、すなわち上述したユーザU11の左耳に装着される左側のヘッドセットHS61-1と、ユーザの右耳に装着される右側のヘッドセットHS61-2とからなる。
なお、以下、ヘッドセットHS61-1およびヘッドセットHS61-2を特に区別する必要のない場合、単にヘッドセットHS61とも称することとする。
ここでは、左側のヘッドセットHS61-1にはノイズキャンセリング用のフィードフォワードマイクロフォンであるマイクロフォンMK21-1と、ノイズキャンセリング用のフィードバックマイクロフォンであるマイクロフォンMK51-1とが設けられている。
同様に、右側のヘッドセットHS61-2にはノイズキャンセリング用のフィードフォワードマイクロフォンであるマイクロフォンMK21-2と、ノイズキャンセリング用のフィードバックマイクロフォンであるマイクロフォンMK51-2とが設けられている。
これらのマイクロフォンMK21とマイクロフォンMK51の配置位置は、図7における場合と略同様である。すなわち、マイクロフォンMK21はヘッドセットHS61の外側に設けられており、マイクロフォンMK51はヘッドセットHS61の内側に設けられている。
例えば1つのマイクロフォンMK21、および1つのマイクロフォンMK51を特定音の検出に用いる例について考える。
そのような場合、例えば同じ左側のヘッドセットHS61-1に設けられたマイクロフォンMK21-1とマイクロフォンMK51-1とを特定音の検出に用いるようにすることができる。なお、このとき右側のヘッドセットHS61-2にマイクロフォンMK21-2やマイクロフォンMK51-2が設けられていないようにしてもよい。
同様に、例えば右側のヘッドセットHS61-2に設けられたマイクロフォンMK21-2とマイクロフォンMK51-2を特定音の検出に用いるようにしてもよい。
このように特定音検出のための2個のマイクロフォンを片側のヘッドセットHS61に配置することで、トゥルーワイヤレス型のヘッドフォンHD61のように、左右のマイクロフォン、すなわち左右のヘッドセットが独立したヘッドフォンにおいても特定音の誤検出を抑制し、高い検出性能を得ることができる。
特に、トゥルーワイヤレス型のヘッドフォンHD61では、左右のマイクロフォン、例えばマイクロフォンMK21-1とマイクロフォンMK21-2は独立している。換言すれば、左側のヘッドセットHS61-1と右側のヘッドセットHS61-2とは無線により接続されるが、有線によっては接続されていない。
そのため、例えばマイクロフォンMK21-1とマイクロフォンMK21-2を特定音の検出に用いる場合には、一方のマイクロフォンMK21で得られたオーディオ信号を、他方のマイクロフォンMK21が設けられたヘッドセットHS61へと無線通信により伝送しなければならないが、無線通信による伝送は消費電力が大きい。
これに対して、ヘッドフォンHD61の片側のヘッドセットHS61にマイクロフォンMK21とマイクロフォンMK51を配置し、それらのマイクロフォンを特定音の検出に用いるようにすれば、上述の無線通信による伝送は不要となるので、消費電力を抑えつつ高い検出性能を得ることができる。
なお、以上においては図2や図4、図6、図7、図8を参照して、マイクロフォンの数や配置の例として主に5つの例を挙げて説明を行ったが、本技術はこれらの例に限られるものではない。
すなわち、ヘッドフォン装着者の声と、ヘッドフォン装着者以外の人の声とで複数のマイクロフォンで得られるオーディオ信号の音圧等の特徴が異なるようにすることができれば、特定音の検出に用いるマイクロフォンの数は何個であってもよく、それらのマイクロフォンの配置もどのような配置であってもよい。
したがって、例えば図9や図10に示すようなマイクロフォン配置とされてもよい。
例えば図9に示す例では、オーバーヘッド型のヘッドフォンHD71には8個のマイクロフォンが設けられており、これらの8個のマイクロフォンのうちの任意の2以上のものを特定音の検出に用いるようにすることができる。なお、図9において図6または図7における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
この例では、ヘッドフォンHD71には、2つのマイクロフォンMK21、マイクロフォンMK31、およびマイクロフォンMK41が図6における場合と同じ配置で設けられており、また、2つのマイクロフォンMK51が図7における場合と同じ配置で設けられている。
さらに、この例では左側のハウジング部HW21-1におけるマイクロフォンMK21-1とマイクロフォンMK31の間の高さの位置に通話用のマイクロフォンMK71-1およびマイクロフォンMK71-2が設けられている。
具体的には、マイクロフォンMK71-1は、ハウジング部HW21-1の外周の外側におけるFRT位置、つまりヘッドフォン装着者であるユーザU11の顔(口)側の位置に設けられている。
これに対してマイクロフォンMK71-2は、ハウジング部HW21-1の外周の外側におけるREA位置、つまりヘッドフォン装着者であるユーザU11の後頭部側の位置に設けられている。
なお、以下、マイクロフォンMK71-1およびマイクロフォンMK71-2を特に区別する必要のない場合、単にマイクロフォンMK71とも称することとする。
また、図10に示す例では、トゥルーワイヤレス型のヘッドフォンHD81には6個のマイクロフォンが設けられており、これらの6個のマイクロフォンのうちの任意の2以上のものを特定音の検出に用いるようにすることができる。なお、図10において図8または図9における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
この例では、ヘッドフォンHD81の左側のヘッドセットHS61-1には、マイクロフォンMK21-1、マイクロフォンMK51-1、マイクロフォンMK31、およびマイクロフォンMK71-1が設けられている。また、ヘッドフォンHD81の右側のヘッドセットHS61-2には、マイクロフォンMK21-2およびマイクロフォンMK51-2が設けられている。
さらに、以上においてはヘッドフォンにおいて、ヘッドフォン装着者の声を特定音として検出する例について説明したが、検出対象となる特定音はヘッドフォン装着者の声に限らず、他のどのような音であってもよい。
例えばヘッドフォン装着者ではない人の声やアナウンス音声を特定音として検出してもよいし、ヘッドフォン装着者の周囲を走行する車両の走行音や、車両(自動車や自転車)等により発せられる警笛音などといった移動音を特定音として検出するようにしてもよい。
検出対象とする特定音をどのような音とするかによって、特定音以外の音を誤って検出しないようにするために適したマイクロフォン配置は異なる。以下、特定音ごとにマイクロフォン配置の具体的な例について説明する。
(ヘッドフォン装着者以外の人の声を検出する場合)
まず、ヘッドフォン装着者以外の人の声を特定音として検出する例について説明する。
そのような場合、特定音の検出には、例えば上述したL位置に配置されたフィードフォワードマイクロフォンであるマイクロフォンMK21-1、FBL位置に配置されたフィードバックマイクロフォンであるマイクロフォンMK51-1、BTM位置に配置された通話用のマイクロフォンMK31、およびTOP位置に配置された特定音検出用のマイクロフォンMK41を用いると効果的である。
ヘッドフォン装着者以外の人の声を特定音として検出する場合、例えば図2を参照して説明したマイクロフォン配置で誤って特定音であると検出されることが多いのは、主にヘッドフォン装着者の声と、電車内や駅のホーム、街頭などでのアナウンス音である。
これらのヘッドフォン装着者の声やアナウンス音の各マイクロフォンへの入力の音圧(以下、入力音圧とも称する)には、以下のような特徴がある。
すなわち、ヘッドフォン装着者の声については、BTM位置のマイクロフォンMK31とFBL位置のマイクロフォンMK51-1の入力音圧は大きく、L位置のマイクロフォンMK21-1の入力音圧とTOP位置のマイクロフォンMK41の入力音圧は同程度でともにBTM位置のマイクロフォンMK31の入力音圧よりも小さくなる。
一方、特定音であるヘッドフォン装着者以外の人の声については、BTM位置のマイクロフォンMK31とL位置のマイクロフォンMK21-1とTOP位置のマイクロフォンMK41との入力音圧が同程度となり、かつFBL位置のマイクロフォンMK51-1の入力音圧は極めて小さくなる。
また、アナウンス音については、TOP位置のマイクロフォンMK41の入力音圧は大きく、L位置のマイクロフォンMK21-1やBTM位置のマイクロフォンMK31の入力音圧はTOP位置のマイクロフォンMK41の入力音圧よりも小さくなり、かつFBL位置のマイクロフォンMK51-1の入力音圧は極めて小さくなる。
このように、特定音であるヘッドフォン装着者以外の人の声と、特定音ではないヘッドフォン装着者の声やアナウンス音とで、各マイクロフォンでの入力音圧の大小関係が異なる。したがって、以上のようなマイクロフォン配置でヘッドフォン装着者以外の人の声を特定音として検出すれば、誤りなく高い検出性能で特定音を検出することができる。
(アナウンス音を検出する場合)
次に、ヘッドフォン装着者の近くで再生されたアナウンス音を特定音として検出する例について説明する。
そのような場合においても、例えば上述したヘッドフォン装着者以外の人の声を検出する場合と同様に、L位置に配置されたフィードフォワードマイクロフォンであるマイクロフォンMK21-1、FBL位置に配置されたフィードバックマイクロフォンであるマイクロフォンMK51-1、BTM位置に配置された通話用のマイクロフォンMK31、およびTOP位置に配置された特定音検出用のマイクロフォンMK41を用いると効果的である。
これは、上述したようにアナウンス音と、ヘッドフォン装着者以外の人の声やヘッドフォン装着者の声とでは、各マイクロフォンでの入力音圧の大小関係が異なるからである。
(移動音を検出する場合)
さらに、移動音を特定音として検出する例について説明する。
そのような場合、例えばL位置に配置されたフィードフォワードマイクロフォンであるマイクロフォンMK21-1、R位置に配置されたフィードフォワードマイクロフォンであるマイクロフォンMK21-2、FRT位置に配置された通話用のマイクロフォンMK71-1、およびREA位置に配置された通話用のマイクロフォンMK71-2を用いると効果的である。
このようにヘッドフォンの前後左右に配置されたマイクロフォンを用いることで、特定音である移動音の音源が近傍または遠方にあるかや、音源が遠ざかっていくのか、または音源が近づいてくるのかといった移動音の音源の移動方向を判別することが可能である。
例えばヘッドフォンから見て遠方にある音源の移動音と近傍にある音源の移動音の各マイクロフォンの入力音圧には、以下のような特徴がある。
すなわち、ヘッドフォンから見て遠方にある音源の移動音については、音源がヘッドフォンから遠い位置にあるほど、L位置のマイクロフォンMK21-1、R位置のマイクロフォンMK21-2、FRT位置のマイクロフォンMK71-1、およびREA位置のマイクロフォンMK71-2での各入力音圧は同程度となり、それらの各マイクロフォンでの入力音圧の時間変化も同程度となる。
これに対してヘッドフォン近傍にある音源の移動音については、音源がヘッドフォンから近い位置にあるほど、L位置のマイクロフォンMK21-1、R位置のマイクロフォンMK21-2、FRT位置のマイクロフォンMK71-1、およびREA位置のマイクロフォンMK71-2のうちのいくつかのマイクロフォン間での入力音圧の差(音圧差)は大きくなり、全マイクロフォンでの入力音圧の時間変化は同程度となる。
また、移動音の音源がヘッドフォンから遠ざかる場合には、各マイクロフォンでの入力音圧の時間変化は、入力音圧が時間とともに小さくなっていく変化となる。逆に、移動音の音源がヘッドフォンへと近づいてくる場合には、各マイクロフォンでの入力音圧の時間変化は、入力音圧が時間とともに大きくなっていく変化となる。
以上のような入力音圧の違い、つまり入力音圧の特徴により、移動音の音源がヘッドフォンの遠方または近傍にあるかや、音源が遠ざかっていくのか、または音源が近づいてくるのかといった判別が可能となる。
なお、以上においてはヘッドフォン装着者の声や、ヘッドフォン装着者以外の人の声、アナウンス音、移動音を特定音として検出する例について説明した。しかし、これらの各音を検出するための検出器を並列に動作させるようにしてもよい。そのような場合、検出器ごと、つまり検出対象となる特定音ごとに、検出器に入力されるオーディオ信号を得るためのマイクロフォンの組み合わせが異なるようにすることができる。
さらに、以上においては機械学習により得られたニューラルネットワーク等の検出器を用いて特定音を検出する例について説明したが、特定音の検出方法は複数のマイクロフォンを用いるものであれば、どのような方法であってもよい。
〈ヘッドフォンの機能的な構成例〉
次に、以上において説明した本技術を、通話機能付きノイズキャンセリングヘッドフォンに適用した場合における具体的な実施の形態について説明する。
本技術を適用した通話機能付きノイズキャンセリングヘッドフォン(以下、単にヘッドフォンとも称する)は、例えば図11に示すように構成される。
図11に示すヘッドフォン11は、オーバーヘッド型の通話機能付きノイズキャンセリングヘッドフォンである。
ヘッドフォン11は、Lマイクロフォン21、Rマイクロフォン22、FBLマイクロフォン23、FBRマイクロフォン24、BTMマイクロフォン25、FRTマイクロフォン26、REAマイクロフォン27、TOPマイクロフォン28、特定音検出部29、外音部30、記録部31、ノイズキャンセル部32、通話部33、受信部34、モード切替部35、制御部36、およびスピーカ37を有している。
特にヘッドフォン11では、少なくとも特定音検出部29を含むブロック部分が、特定音を検出する特定音検出器として機能する。したがって、例えば特定音検出器には制御部36等が含まれていてもよい。なお、特定音検出器がヘッドフォン11の外部に設けられ、ヘッドフォン11から、収音により得られたオーディオ信号を取得して特定音の検出を行ってもよい。
Lマイクロフォン21、Rマイクロフォン22、FBLマイクロフォン23、およびFBRマイクロフォン24は、それぞれ図9に示したマイクロフォンMK21-1、マイクロフォンMK21-2、マイクロフォンMK51-1、およびマイクロフォンMK51-2に対応する。
すなわち、Lマイクロフォン21およびRマイクロフォン22は、それぞれL位置およびR位置に設けられたフィードフォワードマイクロフォンである。Lマイクロフォン21およびRマイクロフォン22は周囲の音を収音し、その結果得られたオーディオ信号を外音部30、ノイズキャンセル部32、および特定音検出部29に供給する。
また、FBLマイクロフォン23およびFBRマイクロフォン24は、それぞれFBL位置およびFBR位置に配置されたフィードバックマイクロフォンである。FBLマイクロフォン23およびFBRマイクロフォン24は周囲の音を収音し、その結果得られたオーディオ信号をノイズキャンセル部32および特定音検出部29に供給する。
BTMマイクロフォン25、FRTマイクロフォン26、およびREAマイクロフォン27は、それぞれBTM位置、FRT位置、およびREA位置に配置された通話用マイクロフォンであり、図9に示したマイクロフォンMK31、マイクロフォンMK71-1、およびマイクロフォンMK71-2に対応する。これらのBTMマイクロフォン25乃至REAマイクロフォン27は周囲の音を収音し、その結果得られたオーディオ信号を通話部33および特定音検出部29に供給する。
TOPマイクロフォン28は、TOP位置に配置された特定音検出用のマイクロフォンであり、図9に示したマイクロフォンMK41に対応する。TOPマイクロフォン28は周囲の音を収音し、その結果得られたオーディオ信号を特定音検出部29に供給する。
特定音検出部29は、Lマイクロフォン21乃至TOPマイクロフォン28から供給されたオーディオ信号に基づいて特定音を検出し、その検出結果を制御部36に供給する。
特定音検出部29は分配部51、装着者音声検出部52、他者音声検出部53、および移動音検出部54を有している。
分配部51は、Lマイクロフォン21乃至TOPマイクロフォン28から供給されたオーディオ信号を装着者音声検出部52、他者音声検出部53、および移動音検出部54へと分配する。すなわち、各マイクロフォンで得られたオーディオ信号が装着者音声検出部52、他者音声検出部53、および移動音検出部54へと振り分けられる。
例えば分配部51はLマイクロフォン21、Rマイクロフォン22、およびBTMマイクロフォン25から供給された各オーディオ信号を装着者音声検出部52に供給する。
また、例えば分配部51はLマイクロフォン21、FBLマイクロフォン23、BTMマイクロフォン25、およびTOPマイクロフォン28から供給された各オーディオ信号を他者音声検出部53に供給する。
さらに、例えば分配部51はLマイクロフォン21、Rマイクロフォン22、FRTマイクロフォン26、およびREAマイクロフォン27から供給された各オーディオ信号を移動音検出部54に供給する。
装着者音声検出部52は、例えば機械学習等により得られたニューラルネットワーク等により構成される検出器、すなわちニューラルネットワーク構造の検出器などにより構成される。
装着者音声検出部52は、分配部51から供給されたオーディオ信号に基づいて、ヘッドフォン11の装着者の声を特定音として検出し、その検出結果を制御部36に供給する。
例えば装着者音声検出部52を構成する検出器は、L位置、R位置、およびBTM位置に配置された各マイクロフォンで収音することにより得られたオーディオ信号を入力として、それらのオーディオ信号に基づく音に特定音であるヘッドフォン11の装着者の声が含まれている確率を算出し、その確率を特定音の検出結果として出力するように予め機械学習等により求められている。
他者音声検出部53は、例えば機械学習等により得られたニューラルネットワーク構造の検出器などからなり、分配部51から供給されたオーディオ信号に基づいて、ヘッドフォン11の装着者以外の人の声を特定音として検出し、その検出結果を制御部36に供給する。
例えば他者音声検出部53を構成する検出器は、L位置、FBL位置、BTM位置、およびTOP位置に配置された各マイクロフォンで収音することにより得られたオーディオ信号を入力として、それらのオーディオ信号に基づく音に特定音であるヘッドフォン11の装着者以外の人の声が含まれている確率を算出し、その確率を特定音の検出結果として出力するように予め機械学習等により求められている。
さらに移動音検出部54は、例えば機械学習等により得られたニューラルネットワーク構造の検出器などからなり、分配部51から供給されたオーディオ信号に基づいて、車両の走行音や警笛音などの特定の移動音を特定音として検出し、その検出結果を制御部36に供給する。
例えば移動音検出部54を構成する検出器は、L位置、R位置、FRT位置、およびREA位置に配置された各マイクロフォンで収音することにより得られたオーディオ信号を入力として、それらのオーディオ信号に基づく音に特定音である移動音が含まれている確率を算出し、その確率を特定音の検出結果として出力するように予め機械学習等により求められている。
なお、装着者音声検出部52乃至移動音検出部54から出力される各特定音の検出結果を示す情報は、例えば0%から100%までの間の確率の値を示す情報とされる。しかし、これに限らず、特定音の検出結果を示す情報は、収音された音から特定音が検出されたか否かを示すフラグ情報などであってもよい。
また、ここでは互いに異なる3つの特定音が検出される例について説明するが、特定音検出部29で検出対象とされる特定音は1つであってもよいし、複数であってもよい。
外音部30は、Lマイクロフォン21およびRマイクロフォン22から供給されたオーディオ信号を、ヘッドフォン11周囲の外音(外部音)である外音信号とし、それらの外音信号を制御部36に供給する。
記録部31は、音楽を再生するための音楽信号を保持(記録)しており、保持している音楽信号を必要に応じてノイズキャンセル部32および制御部36に供給する。
ノイズキャンセル部32は、Lマイクロフォン21、Rマイクロフォン22、FBLマイクロフォン23、およびFBRマイクロフォン24から供給されたオーディオ信号と、記録部31から供給された音楽信号とに基づいて、ヘッドフォン11周囲の音(外音)をキャンセルするためのノイズキャンセル信号を生成し、制御部36に供給する。
具体的には、例えばノイズキャンセル部32は、Lマイクロフォン21およびRマイクロフォン22から供給されたオーディオ信号の正負を反転させた信号を反転信号として生成する。また、ノイズキャンセル部32は、FBLマイクロフォン23およびFBRマイクロフォン24から供給されたオーディオ信号から音楽信号を減算し、その結果得られた信号の正負を反転させることで減算反転信号を生成する。そしてノイズキャンセル部32は、このようにして得られた反転信号と減算反転信号を加算し、ノイズキャンセル信号とする。
通話部33はBTMマイクロフォン25、FRTマイクロフォン26、およびREAマイクロフォン27からのオーディオ信号と、受信部34から供給されたヘッドフォン11の装着者の通話相手の音声信号とを加算して通話信号を生成し、制御部36に供給する。
受信部34は、ヘッドフォン11の装着者の通話相手が操作する携帯電話機等の機器から無線通信により送信されてきた通話相手の音声の音声信号を受信し、通話部33に供給する。
モード切替部35は、ヘッドフォン11の動作モードを、音楽再生モードまたは通話モードの何れかに切り替えて、切り替え後の動作モードを示す識別情報を制御部36に供給する。
例えば音楽再生モードは、ヘッドフォン11において記録部31に保持されている音楽信号に基づいて音楽を再生する動作モードである。これに対して、通話モードはヘッドフォン11の装着者と通話相手との間の音声通話を実現する動作モードである。
制御部36は、ヘッドフォン11全体の動作を制御する。
例えば制御部36は、装着者音声検出部52乃至移動音検出部54からの検出結果と、モード切替部35からの識別情報とに基づいて、外音部30からの外音信号、記録部31からの音楽信号、ノイズキャンセル部32からのノイズキャンセル信号、および通話部33からの通話信号を重み付き加算することで、重み付き加算信号を生成する。また、制御部36は、得られた重み付き加算信号をスピーカ37に供給する。
スピーカ37は、制御部36から供給された重み付き加算信号に基づいて音を出力する。これにより、例えば音楽や通話相手との間の通話音声などが再生される。
例えば制御部36において行われる外音信号、音楽信号、ノイズキャンセル信号、および通話信号の重み付き加算では、次式(1)の計算が行われて重み付き加算信号sig_w[i]が算出(生成)される。
Figure 2020137585
なお、式(1)においてiは各信号の時間サンプルインデックスを示している。また、式(1)においてsig_ambient[i]、sig_music[i]、sig_noise[i]、およびsig_tel[i]は、それぞれ外音信号、音楽信号、ノイズキャンセル信号、および通話信号を示している。
さらに、式(1)においてA、M、N、およびTは重み係数を示している。例えばこれらの重み係数A、M、N、およびTは、動作モードを示す識別情報と、装着者音声検出部52乃至移動音検出部54からの各特定音の検出結果とに基づいて決定される。
具体的には、例えば識別情報により示される動作モードが音楽再生モードであり、かつ装着者音声検出部52乃至移動音検出部54から供給された各特定音の検出結果を示す確率が全て90%未満であったとする。ここでは、制御部36においては特定音の検出結果を示す確率が所定の閾値である「90%」以上であったときに、特定音が検出されたとされる。
このような場合、制御部36は重み係数A=0.0、M=1.0、N=1.0、およびT=0.0として式(1)の計算を行う。
この例では、動作モードが音楽再生モードであり、かつヘッドフォン11の周囲からはヘッドフォン11の装着者の声も、それ以外の人の声も、移動音も検出されていない状態である。そこで、制御部36は音楽信号sig_music[i]とノイズキャンセル信号sig_noise[i]のみを同じ重みで加算して重み付き加算信号sig_w[i]とする。
このようにすることで、スピーカ37が重み付き加算信号sig_w[i]に基づいて音を再生すれば、ノイズキャンセリングが実現されて、ヘッドフォン11の装着者には音楽のみが聞こえるようになり、装着者(ユーザ)は再生中の音楽に集中することができる。すなわち、この場合、ノイズキャンセル信号sig_noise[i]に基づく音によりノイズである外音がキャンセルされ、音楽信号sig_music[i]により音楽が再生される。
また、例えば装着者音声検出部52からの検出結果、または他者音声検出部53からの検出結果により示される確率が90%以上であり、かつ識別情報により示される動作モードが音楽再生モードであるとする。
すなわち、音楽再生モードであるときに特定音としてヘッドフォン11の装着者の声、またはヘッドフォン11の装着者以外の人の声が検出されたとする。
そのような場合、制御部36は重み係数A=0.5、M=0.5、N=0.0、およびT=0.0として式(1)の計算を行う。したがって、この場合、外音信号sig_ambient[i]と音楽信号sig_music[i]のみが同じ重みで加算されて重み付き加算信号sig_w[i]とされる。
このようにすることで、スピーカ37が重み付き加算信号sig_w[i]に基づいて音を再生すれば、ノイズキャンセリング機能は一時的に停止されて音楽とともに外音、つまりヘッドフォン11の装着者や装着者以外の人の声も同時に再生されるようになる。これにより、ヘッドフォン11の装着者に音楽だけでなく外音もはっきりと聞こえるようにし、他者との会話をしやすくすることができる。
さらに、例えば識別情報により示される動作モードが音楽再生モードであり、かつ移動音検出部54から供給された特定音(移動音)の検出結果を示す確率が90%以上であるとする。つまり、ヘッドフォン11の周囲で移動音が検出されたとする。
そのような場合、制御部36は重み係数A=1.0、M=0.0、N=0.0、およびT=0.0として式(1)の計算を行う。したがって、この場合、外音信号sig_ambient[i]がそのまま重み付き加算信号sig_w[i]とされる。
このようにすることで、スピーカ37が重み付き加算信号sig_w[i]に基づいて音を再生すれば、ヘッドフォン11の装着者には外音、つまり移動音のみが聞こえるようになる。これにより、ヘッドフォン11の装着者は、はっきりと外音である車両の走行音や警笛音等の移動音を聞き取ることができ、容易に危険を察知することができるようになる。
また、例えば識別情報により示される動作モードが通話モードであり、かつ移動音検出部54から供給された特定音(移動音)の検出結果を示す確率が90%未満であるとする。つまり、ヘッドフォン11の周囲で移動音が検出されておらず、ヘッドフォン11の装着者の周囲は安全な状態であるとする。
そのような場合、制御部36は重み係数A=0.0、M=0.0、N=1.0、およびT=1.0として式(1)の計算を行う。したがって、この場合、ノイズキャンセル信号sig_noise[i]と通話信号sig_tel[i]のみが同じ重みで加算されて重み付き加算信号sig_w[i]とされる。
このようにすることで、スピーカ37が重み付き加算信号sig_w[i]に基づいて音を再生すれば、ノイズキャンセリングが実現されて、ヘッドフォン11の装着者には通話相手との通話音声のみが聞こえるようになる。これにより、ヘッドフォン11の装着者は、通話相手との音声通話に集中することができる。
その他、例えば識別情報により示される動作モードが通話モードであり、かつ移動音検出部54から供給された特定音(移動音)の検出結果を示す確率が90%以上であるとする。つまり、ヘッドフォン11の周囲で移動音が検出されたとする。
そのような場合、制御部36は重み係数A=1.0、M=0.0、N=0.0、およびT=0.0として式(1)の計算を行う。したがって、この場合、外音信号sig_ambient[i]がそのまま重み付き加算信号sig_w[i]とされる。
このようにすることで、スピーカ37が重み付き加算信号sig_w[i]に基づいて音を再生すれば、通話相手との音声通話は中断され、ヘッドフォン11の装着者には外音、つまり移動音のみが聞こえるようになる。これにより、ヘッドフォン11の装着者は、はっきりと外音である車両の走行音や警笛音等の移動音を聞き取ることができ、容易に危険を察知することができるようになる。
以上のように、制御部36は各動作モードで動作しているときに、1または複数の各特定音の検出結果に応じて、実行する処理を切り替える。このようにすることで、周囲の状況に応じて適切に安全を確保したり、会話をしやすくしたりすることができ、ヘッドフォン11の使い勝手を向上させることができる。
〈特定音検出処理の説明〉
続いて、ヘッドフォン11が特定音を検出する処理である特定音検出処理について説明する。すなわち、以下、図12のフローチャートを参照して、ヘッドフォン11による特定音検出処理について説明する。
ステップS11においてLマイクロフォン21乃至TOPマイクロフォン28は、周囲の音を収音し、その結果得られたオーディオ信号を出力する。
ここでは、Lマイクロフォン21乃至TOPマイクロフォン28で得られたオーディオ信号が分配部51等へと供給される。すると、分配部51はLマイクロフォン21乃至TOPマイクロフォン28から供給されたオーディオ信号を装着者音声検出部52、他者音声検出部53、および移動音検出部54へと分配する。
ステップS12において装着者音声検出部52乃至移動音検出部54は、分配部51から供給されたオーディオ信号に基づいて特定音を検出し、その検出結果を制御部36に供給する。
例えば装着者音声検出部52は、分配部51から供給されたオーディオ信号、すなわちLマイクロフォン21、Rマイクロフォン22、およびBTMマイクロフォン25で得られた各オーディオ信号を検出器に代入して演算を行うことで、特定音としてのヘッドフォン11の装着者の声の検出結果を示す確率を算出する。
同様に、他者音声検出部53や移動音検出部54も分配部51から供給されたオーディオ信号を検出器に代入して演算を行い、特定音としてのヘッドフォン11の装着者以外の人の声や移動音の検出結果を示す確率を得る。
ステップS13において制御部36は、モード切替部35から供給された識別情報と、装着者音声検出部52乃至移動音検出部54から供給された検出結果とに基づいて、特定音の検出結果に応じた処理を行い、特定音検出処理は終了する。換言すれば、制御部36は、特定音の検出結果に応じて、実行する処理を切り替える。
例えば制御部36は、上述したように識別情報と検出結果とに基づいて決定された重み係数に基づいて式(1)の計算を行い、その結果得られた重み付き加算信号をスピーカ37に供給して音を出力させる。
以上のようにしてヘッドフォン11は、適切に配置された複数のマイクロフォンにより周囲の音を収音し、その結果得られたオーディオ信号に基づいて特定音を検出する。このように、適切な配置位置の複数のマイクロフォンを用いることで誤検出の発生を抑制し、特定音の検出性能を向上させることができる。
〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図13は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、本技術は、以下の構成とすることも可能である。
(1)
ウェアラブルデバイスに設けられた複数のマイクロフォンにより収音して得られた複数のオーディオ信号に基づいて、特定音を検出する特定音検出部を備え、
前記複数の前記マイクロフォンは、少なくとも前記特定音の音源からの距離が等しい2個の前記マイクロフォンと、所定位置に配置された1個の前記マイクロフォンとからなる
特定音検出器。
(2)
前記特定音検出部は、ニューラルネットワーク構造の検出器により構成される
(1)に記載の特定音検出器。
(3)
前記特定音は、前記ウェアラブルデバイスの装着者の声である
(1)または(2)に記載の特定音検出器。
(4)
前記複数の前記マイクロフォンのうちの少なくとも1つの前記マイクロフォンは、ノイズキャンセリング用のフィードバックマイクロフォンである
(1)乃至(3)の何れか一項に記載の特定音検出器。
(5)
前記所定位置に配置された前記1個の前記マイクロフォンは前記フィードバックマイクロフォンである
(4)に記載の特定音検出器。
(6)
前記フィードバックマイクロフォンは、前記ウェアラブルデバイスの筐体の内側に配置されている
(4)または(5)に記載の特定音検出器。
(7)
前記複数の前記マイクロフォンのうちの少なくとも1つの前記マイクロフォンは、骨伝導マイクロフォンである
(1)乃至(3)の何れか一項に記載の特定音検出器。
(8)
前記所定位置に配置された前記1個の前記マイクロフォンは前記骨伝導マイクロフォンである
(7)に記載の特定音検出器。
(9)
前記複数の前記マイクロフォンのうちの少なくとも1つの前記マイクロフォンは、通話用マイクロフォンである
(1)乃至(3)の何れか一項に記載の特定音検出器。
(10)
前記所定位置に配置された前記1個の前記マイクロフォンは前記通話用マイクロフォンである
(9)に記載の特定音検出器。
(11)
前記所定位置は、前記ウェアラブルデバイスの装着者の口からの距離が、前記2個の前記マイクロフォンから前記装着者の口までの距離よりも短くなる位置である
(10)に記載の特定音検出器。
(12)
前記2個の前記マイクロフォンは、ノイズキャンセリング用のフィードフォワードマイクロフォンである
(1)乃至(11)の何れか一項に記載の特定音検出器。
(13)
前記複数の前記マイクロフォンには、前記2個の前記マイクロフォンおよび前記所定位置に配置された前記1個の前記マイクロフォンとは異なり、装着者が前記ウェアラブルデバイスを装着している状態で前記装着者の頭頂部近傍に配置される1個の前記マイクロフォンが含まれている
(1)乃至(12)の何れか一項に記載の特定音検出器。
(14)
前記特定音の検出結果に応じて、実行する処理を切り替える制御部をさらに備える
(1)乃至(13)の何れか一項に記載の特定音検出器。
(15)
特定音検出器が、
ウェアラブルデバイスに設けられた複数のマイクロフォンにより収音して得られた複数のオーディオ信号に基づいて、特定音を検出し、
前記複数の前記マイクロフォンは、少なくとも前記特定音の音源からの距離が等しい2個の前記マイクロフォンと、所定位置に配置された1個の前記マイクロフォンとからなる
特定音検出方法。
(16)
ウェアラブルデバイスに設けられた複数のマイクロフォンにより収音して得られた複数のオーディオ信号に基づいて、特定音を検出するステップを含む処理をコンピュータに実行させ、
前記複数の前記マイクロフォンは、少なくとも前記特定音の音源からの距離が等しい2個の前記マイクロフォンと、所定位置に配置された1個の前記マイクロフォンとからなる
プログラム。
11 ヘッドフォン, 21 Lマイクロフォン, 22 Rマイクロフォン, 23 FBLマイクロフォン, 24 FBRマイクロフォン, 25 BTMマイクロフォン, 26 FRTマイクロフォン, 27 REAマイクロフォン, 28 TOPマイクロフォン, 29 特定音検出部, 36 制御部, 52 装着者音声検出部, 53 他者音声検出部, 54 移動音検出部

Claims (16)

  1. ウェアラブルデバイスに設けられた複数のマイクロフォンにより収音して得られた複数のオーディオ信号に基づいて、特定音を検出する特定音検出部を備え、
    前記複数の前記マイクロフォンは、少なくとも前記特定音の音源からの距離が等しい2個の前記マイクロフォンと、所定位置に配置された1個の前記マイクロフォンとからなる
    特定音検出器。
  2. 前記特定音検出部は、ニューラルネットワーク構造の検出器により構成される
    請求項1に記載の特定音検出器。
  3. 前記特定音は、前記ウェアラブルデバイスの装着者の声である
    請求項1に記載の特定音検出器。
  4. 前記複数の前記マイクロフォンのうちの少なくとも1つの前記マイクロフォンは、ノイズキャンセリング用のフィードバックマイクロフォンである
    請求項1に記載の特定音検出器。
  5. 前記所定位置に配置された前記1個の前記マイクロフォンは前記フィードバックマイクロフォンである
    請求項4に記載の特定音検出器。
  6. 前記フィードバックマイクロフォンは、前記ウェアラブルデバイスの筐体の内側に配置されている
    請求項4に記載の特定音検出器。
  7. 前記複数の前記マイクロフォンのうちの少なくとも1つの前記マイクロフォンは、骨伝導マイクロフォンである
    請求項1に記載の特定音検出器。
  8. 前記所定位置に配置された前記1個の前記マイクロフォンは前記骨伝導マイクロフォンである
    請求項7に記載の特定音検出器。
  9. 前記複数の前記マイクロフォンのうちの少なくとも1つの前記マイクロフォンは、通話用マイクロフォンである
    請求項1に記載の特定音検出器。
  10. 前記所定位置に配置された前記1個の前記マイクロフォンは前記通話用マイクロフォンである
    請求項9に記載の特定音検出器。
  11. 前記所定位置は、前記ウェアラブルデバイスの装着者の口からの距離が、前記2個の前記マイクロフォンから前記装着者の口までの距離よりも短くなる位置である
    請求項10に記載の特定音検出器。
  12. 前記2個の前記マイクロフォンは、ノイズキャンセリング用のフィードフォワードマイクロフォンである
    請求項1に記載の特定音検出器。
  13. 前記複数の前記マイクロフォンには、前記2個の前記マイクロフォンおよび前記所定位置に配置された前記1個の前記マイクロフォンとは異なり、装着者が前記ウェアラブルデバイスを装着している状態で前記装着者の頭頂部近傍に配置される1個の前記マイクロフォンが含まれている
    請求項1に記載の特定音検出器。
  14. 前記特定音の検出結果に応じて、実行する処理を切り替える制御部をさらに備える
    請求項1に記載の特定音検出器。
  15. 特定音検出器が、
    ウェアラブルデバイスに設けられた複数のマイクロフォンにより収音して得られた複数のオーディオ信号に基づいて、特定音を検出し、
    前記複数の前記マイクロフォンは、少なくとも前記特定音の音源からの距離が等しい2個の前記マイクロフォンと、所定位置に配置された1個の前記マイクロフォンとからなる
    特定音検出方法。
  16. ウェアラブルデバイスに設けられた複数のマイクロフォンにより収音して得られた複数のオーディオ信号に基づいて、特定音を検出するステップを含む処理をコンピュータに実行させ、
    前記複数の前記マイクロフォンは、少なくとも前記特定音の音源からの距離が等しい2個の前記マイクロフォンと、所定位置に配置された1個の前記マイクロフォンとからなる
    プログラム。
JP2020563065A 2018-12-25 2019-12-12 特定音検出器および方法、並びにプログラム Pending JPWO2020137585A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018240642 2018-12-25
JP2018240642 2018-12-25
PCT/JP2019/048706 WO2020137585A1 (ja) 2018-12-25 2019-12-12 特定音検出器および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JPWO2020137585A1 true JPWO2020137585A1 (ja) 2021-11-04

Family

ID=71127205

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020563065A Pending JPWO2020137585A1 (ja) 2018-12-25 2019-12-12 特定音検出器および方法、並びにプログラム

Country Status (6)

Country Link
US (1) US11990151B2 (ja)
JP (1) JPWO2020137585A1 (ja)
KR (1) KR20210109526A (ja)
CN (1) CN113196792A (ja)
DE (1) DE112019006400T5 (ja)
WO (1) WO2020137585A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3102252B1 (fr) * 2019-10-17 2021-10-15 Sagemcom Broadband Sas Procédé de regroupement d’équipements par espaces sonores
CN112992178A (zh) * 2021-02-05 2021-06-18 安徽绿舟科技有限公司 一种通过混沌声纹分析管道泄露的方法
EP4376437A1 (en) * 2021-07-20 2024-05-29 Panasonic Intellectual Property Management Co., Ltd. Headset and method of directivity control for call microphone

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5960391A (en) * 1995-12-13 1999-09-28 Denso Corporation Signal extraction system, system and method for speech restoration, learning method for neural network model, constructing method of neural network model, and signal processing system
US8527280B2 (en) * 2001-12-13 2013-09-03 Peter V. Boesen Voice communication device with foreign language translation
US9099094B2 (en) * 2003-03-27 2015-08-04 Aliphcom Microphone array with rear venting
GB2434708B (en) * 2006-01-26 2008-02-27 Sonaptic Ltd Ambient noise reduction arrangements
JP5269618B2 (ja) * 2009-01-05 2013-08-21 株式会社オーディオテクニカ 骨伝導マイクロホン内蔵ヘッドセット
US8532310B2 (en) * 2010-03-30 2013-09-10 Bose Corporation Frequency-dependent ANR reference sound compression
JP5499633B2 (ja) 2009-10-28 2014-05-21 ソニー株式会社 再生装置、ヘッドホン及び再生方法
US9208773B2 (en) * 2011-12-23 2015-12-08 Bose Corporation Headset noise-based pulsed attenuation

Also Published As

Publication number Publication date
US20220059120A1 (en) 2022-02-24
WO2020137585A1 (ja) 2020-07-02
KR20210109526A (ko) 2021-09-06
DE112019006400T5 (de) 2021-09-09
CN113196792A (zh) 2021-07-30
US11990151B2 (en) 2024-05-21

Similar Documents

Publication Publication Date Title
US20230179160A1 (en) Compensation for ambient sound signals to facilitate adjustment of an audio volume
US8194865B2 (en) Method and device for sound detection and audio control
JP5581329B2 (ja) 会話検出装置、補聴器及び会話検出方法
JPWO2020137585A1 (ja) 特定音検出器および方法、並びにプログラム
US8781142B2 (en) Selective acoustic enhancement of ambient sound
US20170294179A1 (en) Multi-sensor signal optimization for speech communication
JP5740572B2 (ja) 補聴器、信号処理方法及びプログラム
JP5929786B2 (ja) 信号処理装置、信号処理方法及び記憶媒体
KR20210066934A (ko) 환경적 트리거들에 기초한 적응형 anc
EP2293589B1 (en) Electronic circuit for a headset and method thereof
US11467666B2 (en) Hearing augmentation and wearable system with localized feedback
KR20130124573A (ko) 공간 선택적 오디오 증강을 위한 시스템들, 방법들, 장치들, 및 컴퓨터 판독가능 매체들
CN101410900A (zh) 用于可佩戴装置的数据处理
US11184723B2 (en) Methods and apparatus for auditory attention tracking through source modification
JP2014174255A5 (ja)
CN113194383A (zh) 一种声音播放方法、装置、电子设备及可读存储介质
KR20150074642A (ko) 음향 출력 장치에 입력된 외부 소리 신호에 대한 정보를 출력하는 방법 및 장치.
US20230118803A1 (en) Information processing device, information processing method, information processing program, and information processing system
US20230229383A1 (en) Hearing augmentation and wearable system with localized feedback
US20220174448A1 (en) Headphones, out-of-head localization filter determination device, out-of-head localization filter determination system, out-of-head localization filter determination method, and program
WO2023053559A1 (ja) 音声処理装置、音声処理プログラム、音声処理方法及び装着体
US11812243B2 (en) Headset capable of compensating for wind noise
Amin et al. Impact of microphone orientation and distance on BSS quality within interaction devices
EP4140149A1 (en) Wearable audio system use position detection
CN117356107A (zh) 信号处理装置、信号处理方法及程序