KR20170134640A - 음성 인식 - Google Patents

음성 인식 Download PDF

Info

Publication number
KR20170134640A
KR20170134640A KR1020177031938A KR20177031938A KR20170134640A KR 20170134640 A KR20170134640 A KR 20170134640A KR 1020177031938 A KR1020177031938 A KR 1020177031938A KR 20177031938 A KR20177031938 A KR 20177031938A KR 20170134640 A KR20170134640 A KR 20170134640A
Authority
KR
South Korea
Prior art keywords
microphones
optical
processor
signals
optical microphone
Prior art date
Application number
KR1020177031938A
Other languages
English (en)
Inventor
토비아스 달
마태오 라콜
Original Assignee
신테프 또 에이에스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 신테프 또 에이에스 filed Critical 신테프 또 에이에스
Publication of KR20170134640A publication Critical patent/KR20170134640A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/805Systems for determining direction or deviation from predetermined direction using adjustment of real or effective orientation of directivity characteristics of a transducer or transducer system to give a desired condition of signal derived from that transducer or transducer system, e.g. to give a maximum or minimum signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R23/00Transducers other than those covered by groups H04R9/00 - H04R21/00
    • H04R23/008Transducers other than those covered by groups H04R9/00 - H04R21/00 using optical signals for detecting or generating sound
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/003Mems transducers or their use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Electrostatic, Electromagnetic, Magneto- Strictive, And Variable-Resistance Transducers (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

광 마이크로폰 장치로서, 기판(8) 상의 광 마이크로폰들(4)의 어레이로서, 상기 광 마이크로폰들(4)의 각각은 착신 가청음의 결과로서 각각의 멤브레인(24)의 변위를 나타내는 신호를 제공하는, 상기 광 마이크로폰들의 어레이; 상기 광 마이크로폰들(4)로부터 상기 신호들을 수신하도록 그리고 제1 출력을 내기 위해 상기 신호들에 관해 제1 처리 단계를 수행하도록 배치된 제1 프로세서(12); 및 상기 신호들 또는 상기 제1 출력 중 적어도 하나를 수신하도록 배치된 제2 프로세서(14)를 포함하되; 적어도 상기 제2 프로세서(14)는 상기 가청음으로부터 사람의 음성의 적어도 하나의 성분의 존재를 결정한다.

Description

음성 인식
본 발명은 음성 인식 장치들에 관한 것이다.
기계들이 사람의 자연 음성을 이해할 수 있는 능력이 오랫동안 목표였다. 최근 비약적인 발전이 이루어졌으나, 그것은 여전히 어렵고 계산이 복잡하다. 특히, 모바일 디바이스들 상에 음성 인식 보조 수단의 사용이 증가되었지만, 이들은 일반적으로 처리가 원격으로 수행될 것을 필요로 한다; 현재는 대부분의 모바일 디바이스 상에서 로컬로 이용가능한 처리 능력을 사용하는 음성 인식의 가장 기본적인 형태들 말고 다른 형태를 수행하는 것은 불가능하다.
음성 인식 문제의 복잡도를 증가시키는 요인들 중 하나는 배경 잡음의 복잡도이다. 일반적인 모바일 디바이스들에서 사용되는 마이크로폰들은 상대적으로 전방위이고 그에 따라 (균일하게는 아니더라도) 모든 방향으로부터의 소리들에 민감하다. 따라서 그것들은 그것이 이해하도록 요구되는 음성뿐만 아니라 배경 소리들(보통 다른 사람들로부터의 음성을 포함할)을 픽업하는 경향이 있다.
다수의 마이크로폰을 사용하여 보다 양호한 성능을 얻을 수 있더라도, 이는 디바이스에 추가 하드웨어를 수용하는 것에 현실적인 문제들을 일으킨다. 그러나 종래 소형 콘덴서 마이크로폰들은 그것들이 받는 고유의 '자기' 잡음량에 제약된다. 콘덴서 마이크로폰들은 커패시턴스의 변화의 측정에 기초한다. 물리적 제약(이를테면 높은 음압 하 멤브레인의 최대 변위)은 커패시턴스의 두 개의 플레이트(플레이트 중 하나는 마이크로폰 멤브레인이고, 다른 하나는 멤브레인 하에 위치되는 기준 전극이다) 사이에 일정한 거리를 두는 것을 필요하게 한다. 이는 커패시턴스가 매우 낮다는 것, 다시 말해 출력 임피던스가 높다는 것을 암시한다. 이러한 커패시턴스를 단락시키지 않기 위해, 관련 전치 증폭기의 입력 임피던스는 동등하게 높아야 한다. 높은 임피던스는 높은 자기-잡음을 낼 것이다. 보다 큰 멤브레인은 보다 높은 신호 수준 및 보다 높은 커패시턴스, 및 그에 따라 수준 외에 보다 양호한 신호 대 잡음비(SNR)를 제공할 것이고, 보다 작은 면적은 보다 낮은 SNR을 제공할 것이다.
본 발명은 이의 몇몇 측면에서 인위적인 음성 인식에 직면하는 과제들을 다루는 데 있어서 적어도 몇몇 상황에서 유익한 장치들을 제공하는 것을 목표로 한다.
제1 측면에서 볼 때 본 발명은 다음을 제공한다:
기판 상의 광 마이크로폰들의 어레이로서, 상기 광 마이크로폰들의 각각은 착신 가청음의 결과로서 각각의 멤브레인의 변위를 나타내는 신호를 제공하는, 상기 광 마이크로폰들의 어레이;
상기 광 마이크로폰들로부터 상기 신호들을 수신하도록 그리고 제1 출력을 내기 위해 상기 신호들에 관해 제1 처리 단계를 수행하도록 배치된 제1 프로세서; 및
상기 신호들 또는 상기 제1 출력 중 적어도 하나를 수신하도록 배치된 제2 프로세서를 포함하되;
적어도 상기 제2 프로세서는 상기 가청음으로부터 사람의 음성의 적어도 하나의 성분의 존재를 결정하는, 광 마이크로폰 장치.
그에 따라 해당 기술분야에서의 통상의 기술자들은 본 발명에 따라 음성 인식에 바람직한 장치를 제공하기 위해, 적어도 바람직한 실시예들에서, 발견된 것을 함께 제공하기 위해 다수의 특징이 사용된다는 것을 알 것이다. 먼저 광 마이크로폰들의 어레이가 제안된다는 것이 이해될 것이다. 광 마이크로폰들이 그 자체로는 알려져 있지만, 본 출원인은 그것들이 음성 인식 목적들을 위해 어레이로 사용될 때 그리고 두 개의 별개의 프로세서가 그로부터 수신된 신호들을 처리하기 위해 사용될 때 이점들이 실현될 수 있다는 것을 인식했다.
보다 구체적으로, 본 출원인은 광 마이크로폰들이 낮은 고유 또는 '자기' 잡음을 갖고 게다가 그것들은 작은 면적을 갖기 위해 제조될 수 있다는 것을 인식했다. 결정적으로, 크기 및 고유 잡음 사이에는 강한 부 상관관계가 존재하지 않는다. 그에 반해 마이크로폰들의 다른 유형들-이를테면 종래의 MEMS 콘덴서 마이크로폰들-에서 마이크로폰의 감도는 멤브레인의 크기에 따른다. 이는 종래의 MEMS 마이크로폰들이 작아짐에 따라, 신호 대 잡음비가 감소함을 의미한다.
본 출원인은 광 마이크로폰들을 밀접하게 이격된 어레이로 제공함으로써 음성 처리 어플리케이션들에서 낮은 자기-잡음 특성들 및 작은 크기의 광 마이크로폰들이 이용될 수 있다는 것을 통찰한다. 특히 자기-잡음 플로어가 충분히 낮은 경우(광 마이크로폰들을 이용하여 이루어질 수 있는 바와 같이), 마이크로폰들의 '오버샘플링된' 어레이에 의해 수신되는 착신 신호들로부터 추가 정보가 추출될 수 있다는 것을 인식했다. 요소들 간 간격이 관심 신호들의 파장의 절반 미만인 어레이를 표기하기 위해 이러한 구가 사용된다. 종래 샘플링 이론은 이러한 반-파장 임계보다 적은 간격이 그것이 어떤 추가 이점도 제공하지 않을 것이기 때문에 필수적이지 않음을 나타낼 것이다. 그러나 이하에서 실증될 바와 같이, 본 출원인은 이점이 실은 어느 것이 가장 유리한 결과를 내는지 확립하기 위해 음성 인식 알고리즘들이 수행될 수 있는 후보들을 생성하기 위해 어레이가 다수의 상이한 방향에서 '청취'하기 위해 사용될 수 있다는 점에서 얻어질 수 있다는 것을 발견했다. 추가적으로 또는 대안적으로 별개의 후보 계산들은 소리의 속도에 영향을 미치는 환경 조건들 이를테면 압력, 온도 및 습도에 관한 상이한 가정들에 기초하여 수행될 수 있다.
밀접하게 이격된 어레이를 갖는 것은 전체 물리적 크기 면에서 추가 이점들을 제공한다. 이는 예들 들어 어레이로부터 이루어질 수 있는 진보된 성능이 매우 다양한 디바이스에서 구현되어, 작은 폼 팩터 이를테면 스마트 폰들 또는 스마트 워치들을 갖는 디바이스들에서, 또는 보다 신중하게 예를 들어 맥북(등록 상표) 컴퓨터들의 최신 세대에서 채용된 바에 따라 디바이스 주위에 이격되는 많은 개입적인 구멍이 없는 보다 큰 디바이스들 이를테면 랩탑들에서 어레이를 구현하는 것을 가능하게 할 수 있다.
착수되는 다수의 프로세서 접근법은 이러한 계산이 복잡한 작업의 상당 부분이 항상 요구되지 않을 수 있는 별개의 프로세서에 의해 수행되게 한다. 그것은 예를 들어 실제 마이크로폰 어레이-예를 들어, 원격 서버 상의-에서 원격일 수 있다. 대안적으로 그것은 디바이스 그 자체의 부분으로서 보다 강력한 중앙 처리 장치(CPU; central processing unit)일 수 있다. 음성 인식 처리는 특히 그것이 후보들의 처리가 적어도 부분적으로 순차적으로 수행되게 하는 순간적인 실-시간 결과들을 필요로 하지 않음에 따라 이러한 접근법을 잘 받아들일 수 있다.
위에서 언급된 바와 같이, 바람직한 실시예들에서 광 마이크로폰들의 어레이는 밀접하게 이격된다. 이는 절대적 치수로서 표현될 수 있다. 그에 따라 실시예들의 세트에서 상기 광 마이크로폰들은 5 mm 미만의 상호 간격으로 배치된다. 이는 그 자체로 신규하고 창의적이며 그에 따라 제2 측면에서 볼 때 본 발명은 다음을 제공한다:
5mm 미만의 상호 최근접 간격을 갖는 기판 상의 광 마이크로폰들의 어레이로서, 상기 광 마이크로폰들의 각각은 착신 가청음의 결과로서 각각의 멤브레인의 변위를 나타내는 신호를 제공하는, 상기 광 마이크로폰들의 어레이;
상기 광 마이크로폰들로부터 상기 신호들을 수신하도록 그리고 상기 가청음으로부터 사람의 음성의 적어도 하나의 성분의 존재를 결정하도록 배치되는 하나 이상의 프로세서를 포함하는, 광 마이크로폰 장치.
이격은 5mm 미만, 예를 들어 2mm 미만, 예를 들어 1mm 미만, 예를 들어 0.5mm 미만일 수 있다. 이전에 설명된 바와 같이 그것은 소정의 수의 요소를 포함하는 어레이가 종래 마이크로폰들을 이용하는 것보다 작은 물리적 면적 상에 제공되게 하고 그에 따라 위에서 언급된 오버-샘플링이 가능해지게 하는 광 마이크로폰들의 저 잡음 특성들이다.
어레이의 간격의 의의는 그것이 수신하기 위해 사용되고 있는 신호들의 파장과 연관되고 그에 따라 본 발명을 착신 가청음으로부터 음성의 적어도 하나의 성분의 존재를 결정하는 방법으로 확장하며, 상기 가청음은 파장 대역 내 그것의 적어도 일부를 갖고, 상기 방법은 본 발명의 상기 제1 및 제2 측면들 중 어느 하나에 따른 광 마이크로폰들의 어레이를 사용하여 상기 가청음을 수신하는 단계; 및 음성의 상기 성분을 검출하기 위해 상기 마이크로폰들로부터 상기 신호들을 처리하는 단계를 포함하되, 상기 마이크로폰들은 상기 파장 대역의 가장 긴 파장의 절반 미만의 상호 간격을 갖는다.
이는 또한 그 자체로 신규하고 창의적이며 그에 따라 제3 측면에서 볼때 본 발명은 착신 가청음으로부터 음성의 적어도 하나의 성분의 존재를 결정하는 방법을 제공하며, 상기 가청음은 파장 대역 내 그것의 적어도 일부를 갖고, 상기 방법은 기판 상에 광 마이크로폰들의 어레이를 사용하여 상기 가청음을 수신하는 단계, 및 음성의 상기 성분을 검출하기 위해 상기 마이크로폰들로부터 상기 신호들을 처리하는 단계를 포함하되, 상기 마이크로폰들은 상기 파장 대역의 가장 긴 파장의 절반 미만의 상호 간격을 갖고, 상기 광 마이크로폰들의 각각은 상기 가청음의 결과로서 각각의 멤브레인의 변위를 나타내는 신호를 제공한다.
상기 마이크로폰들은 상기 파장 대역의 정중 파장의 절반 미만 예를 들어, 상기 파장 대역의 최단 파장의 절반 미만의 상호 간격을 가질 수 있다.
실시예들의 세트에서, 상기 방법들은 소정의 방향 또는 방향들의 범위로부터 수신되는 상기 가청음의 일부를 우선적으로 사용하기 위해 상기 마이크로폰들로부터의 상기 신호들을 처리하는 단계를 포함한다. 이는 소리의 공간적 분리를 가능하게 하여 스피커를 구분할 수 있는 기회를 제공한다. 이는 복수의 방향으로부터의 소리를 사용함으로써 그리고 어느 것이 최상의 결과를 내는지에 기초하여 상기 방향들 중 하나를 선택함으로써 본 발명의 실시예들의 세트에 따라 이루어질 수 있다. 따라서 실시예들의 세트에서 상기 제1 및/또는 제2 프로세서들은 상기 신호들에 관한 복수의 처리 동작을 수행하도록 배치되되, 상기 처리 동작들은 복수의 후보 결정을 부여하기 위해 상기 신호들이 각각의 복수의 방향에서 나온다는 복수의 전제에 대응하고, 선택 기준에 기초하여 후보 전제들 중 하나를 선택한다.
위에서 논의된 처리의 분리는 다수의 상이한 방식으로 구현될 수 있다. 실시예들의 세트에서, 상기 제1 프로세서가 상기 가청음으로부터 사람의 음성의 적어도 하나의 성분의 존재를 결정하도록, 그리고 상기 성분이 존재한다고 결정되는 경우, 상기 제2 프로세서가 비교적 수동 모드에서 보다 활성 모드로 변경되게 하기 위한 기상 신호를 발행하도록 배치된다. 단지 사용자가 말할 때에만 상기 제2 프로세서를 기상시키기 위해 상기 제1 프로세서를 사용함으로써 고도의 전력 효율이 달성될 수 있다. 상기 제1 프로세서는 그것이 단지 음성의 하나의 또는 몇몇 기본 성분을 인식하기 위해 요구될 수 있음에 따라 보다 저 전력일 수 있다. 이는 특정한 '기상' 단어 또는 소리 또는 심지어 보다 기본적인 기준 이를테면 특정 주파수 또는 주파수들의 대역에서의 특정 에너지일 수 있다. 그에 따라 상기 제1 프로세서가 물론 모바일 디바이스들에서 대단히 중요한 배터리 수명에 지나치게 영향을 미치지 않고, 보다 빈번하게, 또는 지속적으로 작동할 수 있다. 상기 제2 프로세서는 그것이 가장 중요한 음성 인식 처리를 수행할 것임에 따라 전력 소비량이 보다 많을 수 있으나 사용자가 실제로 말하고 디바이스와 상호작용하기 원하고 있을 때 단지 전력이 공급될 것이 요구될 것이다.
상기 제1 프로세서가 상기 제2 프로세서를 기상하도록 배치되는 위에서 설명된 실시예들에서, 개선된 SNR 그리고 밀접하게 이격된 어레이에서 동작할 수 있는 능력 양자의 면에서, 명시된 광 마이크로폰들의 개선된 감도가 상기 제1 프로세서에 의해 작동되는 '저 전력' 알고리즘들이 기상 신호를 발생하는 데 필요한 기준을 성공적으로 식별할 수 있는 보다 높은 가능성을 가진다는 점에서 추가 이점이 생기게 한다는 것이 이해될 것이다. 이는 그것이 상기 제2 프로세서가 잘못 기상되는 사건을 감소시키기 때문에 전체 평균 전력 소모를 감소시킨다.
실시예들의 세트에서 상기 제1 프로세서는 상기 광 마이크로폰 어레이와 동일한 디바이스에 예를 들어, 상기 마이크로폰 어레이가 장착되는 인쇄 회로 기판 상에 또는 심지어 마이크로폰 소자들의 일부와 동일한 기판 상에 예를 들어, 동일한 인쇄 회로 기판(PCB) 상에, 또는 마이크로폰을 갖는 집적 회로 이를테면 주문형 반도체(ASIC) 상에 제공된다. 이는 생산 비용을 감소시킨다. 실시예들의 세트에서 상기 제2 프로세서는 상기 광 마이크로폰 어레이가 제공되는 상기 디바이스에 원격으로 -예를 들어, 그것들 사이 로컬 또는 광역 네트워크 연결을 이용하여- 제공된다.
추가적으로 또는 대안적으로, 상기 제1 프로세서는 상기 제2 프로세서에서의 음성 인식을 돕기 위해 초기 신호 처리를 수행하기 위해 사용될 수 있다. 이는 예를 들어 상기 제1 프로세서가 상기 제2 프로세서를 기상시킨 후 사용되는 상기 장치일 수 있다. 상기 제1 프로세서는 예를 들어, 필터링, 잡음 감소 등을 수행하는 것일 수 있다. 실시예들의 세트에서, 상기 제1 프로세서는 상기 신호들에 관해 빔포밍을 수행하도록 배치되고 상기 제2 프로세서는 음성 인식을 수행하도록 배치된다.
따라서 상기 제2 프로세서가 바람직하게는 상기 제1 프로세서로부터 출력되는 신호들에 관한 처리를 수행할 수 있다는 것이 이해될 것이다. 그러나 이는 본질적인 것이 아니다: 상기 제1 및 제2 프로세서들은 병렬적으로 상기 신호들에 작용할 수 있다. 예를 들어, 상기 제1 프로세서는 주파수 스펙트럼의 제1 부분에 작용할 수 있고, 상기 제2 프로세서는 주파수 스펙트럼의 제2 부분에 작용할 수 있다.
일반적으로 음성 인식은 음성 성분들 이를테면 음절들 또는 글자 음들을 알기 위해 대응하는 특성 주파수들 또는 주파수 패턴들에 대해 수신된 소리를 분석하는 것을 수반한다. 그러나 본 출원인은 음성의 성분들을 식별하는 데 유용할 수 있는 정보가 특성 주파수 또는 주파수들의 배수들에 존재할 수 있다는 것을 인식했다.
그것들이 동일하게 말해지는 소리에 의해 발생됨에 따라, 이러한 주파수 배수들(이후 "오버톤들"로서 지칭되는)은 오버톤들이 동일한 잡음원에 의해 동일한 정도로 영향을 받지 않을 수 있음에 따라,특히 베이스 주파수가 환경 잡음에 속하는 상황에서 음성 성분의 인식을 개선할 수 있는 추가 정보를 제공한다. 확실히 본 출원인은 일반적으로 환경원들로부터의 잡음은 공기 중 소리에 대해 보다 높은 주파수들에 대한 보다 큰 감쇠 계수로 인해 보다 높은 주파수들에 일반적으로 덜 우세할 것 같다는 것을 인식했다.
본 출원인은 적어도 몇몇 실시예에서 이용가능할 수 있는, 음성 인식을 위해 "오버톤들"을 사용하는 것의 추가 이점이 앞에서 논의된 어레이들의 작은 물리적 크기와 관계되는; 즉, 그러한 작은 어레이들이 일반적으로 보다 높은 주파수들보다 높은 주파수들에 대해 보다 양호한 공간 분해능을 제공할 수 있을 것이라는 것을 인식했다.
따라서 본 발명의 앞에서의 측면들 중 임의의 측면의 실시예들의 세트에서, 상기 (제2) 프로세서는 적어도 베이스 주파수(fB) 및 오버톤 주파수(fO =n.fB, 여기서 n은 정수)를 사용하여 상기 가청음으로부터 사람의 음성의 적어도 하나의 성분의 존재를 결정하도록 배치된다.
그러한 접근법은 그 자체로 신규하고 창의적이며 그에 따라 제추가 측면에서 볼 때 본 발명은 다음을 제공한다:
기판 상의 광 마이크로폰들의 어레이로서, 상기 광 마이크로폰들의 각각은 착신 가청음의 결과로서 각각의 멤브레인의 변위를 나타내는 신호를 제공하는, 상기 광 마이크로폰들의 어레이;
상기 광 마이크로폰들로부터 상기 신호들을 수신하도록 그리고 적어도 베이스 주파수 및 상기 베이스 주파수의 정수배인 오버톤 주파수를 사용하여 상기 가청음으로부터 사람의 음성의 적어도 하나의 성분의 존재를 결정하도록 배치되는 하나 이상의 프로세서를 포함하는, 광 마이크로폰 장치.
어느 하나의 경우 단지 단일 오버톤이 사용될 수 있거나 복수가 사용될 수 있다. 오버톤들은 일반적으로 대응하는 베이스 주파수보다 낮은 에너지를 가질 것이지만, 다수의 오버톤을 사용함으로써 예를 들어 베이스 주파수에서의 에너지에 필적할 만한 또는 그보다 훨씬 더 큰, 상당한 에너지가 이용가능할 수 있다.
해당 기술분야에서의 통상의 기술자들에 의해, 앞선 논의가 특정 이산적 주파수들을 참조하지만, 실제로 원리는 주파수들의 대역들-예를 들어, 베이스 주파수가 중앙 또는 피크 에너지 주파수인-에 또는 소정의 음성 성분에 대한 다수의 베이스 주파수들에 적용될 수 있다는 것이 이해될 것이다.
오버톤들을 이용하는 본 발명의 모든 측면에서, 어레이는 알맞게 작다-예를 들어, 적어도 베이스 주파수에서 소리 신호를 오버-샘플링하기 위해. 이전과 같이, 실시예들의 세트에서 상기 광 마이크로폰들은 5mm 미만, 예를 들어 2mm 미만, 예를 들어 1mm 미만, 예를 들어 0.5mm 미만의 상호 최근접 간격을 갖는다. 이전에 설명된 바와 같이 그것은 소정의 수의 요소를 포함하는 어레이가 종래 마이크로폰들을 이용하는 것보다 작은 물리적 면적 상에 제공되게 하고 그에 따라 위에서 언급된 오버-샘플링이 가능해지게 하는 광 마이크로폰들의 저 잡음 특성들이다.
실시예들의 관련 세트에서, 상기 광 마이크로폰들은 상기 베이스 주파수의 상기 파장의 절반 미만의 상호 간격을 갖는다.
오버톤들을 이용하는 본 발명의 모든 측면의 실시예들의 세트에서 빔포밍은 오버톤(들)의 주파수에서 수행된다. 예를 들어, 상기 디바이스는 수신된 오디오 신호로부터 베이스 주파수를 결정하도록 그리고 그 다음 결정된 주파수의 오버톤 상에 포커싱(빔포밍을 사용하여)하도록 배치될 수 있다. 제1 및 제2 프로세서들이 본 발명의 상기 제1 측면에 따라 제공되는 경우 앞서 언급한 빔포밍은 상기 제1 프로세서에 의해 수행될 수 있다.
실시예들의 세트에서, 상기 광 마이크로폰들은: 멤브레인; 상기 광의 적어도 일부가 상기 멤브레인으로부터 반사되도록 광을 상기 멤브레인에 보내도록 배치되는 광원; 및 반사된 상기 광을 검출하도록 배치되는 광 검출기를 포함한다. 일반적으로 상기 어레이에서의 각 마이크로폰은 그 자체의 개별적인 멤브레인을 포함하나 이는 본질적이지 않다. 유사하게 각 마이크로폰은 그 자체의 광원 및 검출기를 가지나 이들 중 하나의 또는 다른 것이 개별적인 마이크로폰 소자들 사이에 공유될 수 있다.
상기 멤브레인의 이동은 그로부터 반사되는 광의 세기 또는 각도의 변화를 통해 간단히 결정될 수 있으나 실시예들의 바람직한 세트에서 회절 소자는 상기 광원 및 상기 멤브레인 사이에 제공된다. 이는 상기 멤브레인의 이동이 회절 소자의 회절 효율을 측정함으로써 검출되게 한다. 상기 회절 효율은 반사되는(영차 회절) 그리고 다른 회절 차수로 회절되는 입사 광의 부분의 측정이고 그것은 상기 회절 소자 및 상기 멤브레인 간 거리의 함수이다. 다시 말해 상기 회절 소자 및 상기 멤브레인의 반사면 간 거리가 입사 음압에 의해 유도되는 상기 멤브레인의 이동을 통해 변함에 따라, 그리고 상기 회절 소자의 상이한 회절 차수들로 유도되는 광의 부분이 변경되고 이는 소정의 위치에 위치되는 검출기에 의해 검출되는 세기의 변화에 따라 검출될 수 있다. 이는 멤브레인 이동들 그리고 그에 따른 소리의 훨씬 더 정확한 검출을 제공한다. 실시예들의 세트에서 상기 회절 소자는 반사 물질에 의해 형성되는 회절 패턴을 포함한다. 실시예들의 세트에서 복수의 검출기는 각 마이크로폰에 대해 제공된다. 이들은 성취할 수 있는 신호 대 잡음 비를 더 강화할 수 있다. 나아가, 실시예들의 세트에서 복수의 회절 소자는 성취할 수 있는 동적 범위를 증가시키기 위해 채용된다.
본 발명의 특정 실시예들은 이제 다음 첨부 도면들을 참조하여 단지 예로서, 설명될 것이다:
도 1은 본 발명에 따른 광 마이크로폰들의 어레이를 도시한다;
도 2는 본 발명을 구현하는 음성 인식 시스템의 블록 시스템 도해이다;
도 3은 도 1의 어레이에서의 광 마이크로폰들의 기본 작동 원리의 일련의 개략적인 도해이다;
도 4는 도 3의 마이크로폰에 대한 멤브레인 변위에 대한 두 개의 검출기의 각각에서의 광 세기를 도시하는 그래프이다;
도 5는 광 마이크로폰의 설계의 변형을 제외하고는 도 3과 유사하다;
도 6은 도 5의 검출기들에 대한 세기 대 변위의 그래프이다; 그리고
도 7은 가능한 광 마이크로폰 레이아웃의 보다 상세한 단면도이다;
도 8은 본 발명에 따라 채용될 수 있는 후보 선택 프로세스를 설명하는 흐름도이다;
도 9는 구두의 'a' 소리에 대해 수신된 주파수 스펙트럼을 도시하는 그래프이다; 그리고
도 10은 오버톤 검출을 채용하는 본 발명의 추가 실시예의 동작을 설명하는 흐름도이다.
도 1은 광 마이크로폰들들(2)의 어레이를 도시한다. 마이크로폰들(2)은 예를 들어, 인쇄 회로 기판(PCB)일 수 있는 공통 기판(4) 상에 제공된다. 마이크로폰들은 순전히 예로서, 대략 2mm의 중심 간 간격을 가질 수 있다. 어레이는 예를 들어 가로 2cm 또는 정사각형 어레이의 경우 2cm X 2cm 크기를 가질 수 있다. 그에 따라 어레이는 수백개의 개별적인 마이크로폰 요소로 구성될 수 있다.
도 2는 광 마이크로폰들(2)의 어레이를 포함하는 모바일 전자 디바이스(8)-이를테면 스마트폰, 스마트 워치 또는 태블릿 컴퓨터-에 대한 블록 시스템 도해이다. 마이크로폰들(2)로부터의 신호 출력들은 데이터 버스(10)에 연결된다. 마이크로폰들(2)은 원 데이터 신호들을 버스에 공급할 수 있거나 각 마이크로폰(2)에서 몇몇 기본 처리 예를 들어, 필터링 또는 증폭이 수행될 수 있다. 버스(10)는 마이크로폰들을 디지털 신호 프로세서(DSP)(12)에 연결한다. 이는 표준 DSP이거나 맞춤 설계될 수 있다. DSP(12)로부터의 출력은 또한 디바이스(8) 상에 제공되는, 애플리케이션 프로세서(14)에 공급된다. 애플리케이션 프로세서(14)는 적합한 데이터 네트워크를 써서 원격에 위치된 프로세서(16)와 통신한다. 이는 임의의 알려진 무선 데이터 네트워크 이를테면 와이파이, 지그비, 블루투스 ™ 등을 수반할 수 있다.
사용 시 디바이스(8)가 활성 상태일 때(즉 대기 상태가 아닐 때) 마이크로폰들(2)은 활성이고 그것들은 신호들을 버스(10)를 통해 DSP(12)에 전달한다. DSP(12)는 이제 설명될 바와 같이 수신된 신호들에 관한 처리를 수행한다. 첫째로, 어레이가 P개의 개별적인 마이크로폰 요소를 포함하다고 가정하면, 마이크로폰들에 의해 수신되는 신호들(y(t))(여기에서
Figure pct00001
로 표기되는)이 레코딩된다. 다음으로, 그러한 신호들 중 하나 이상의 주파수 스펙트럼이 시간-샘플로부터 추산된다. 어레이로부터의 제r 신호에 대해 이를 이행하는 대강의 그러나 빠르고 효과적인 방법은 다음을 계산하는 것이다
Figure pct00002
관심 주파수들의 집합(
Figure pct00003
)에 대해. 이러한 전력 스펙트럼 추산치는 괄호(|.|) 내부 항이 간단히 착신 신호(
Figure pct00004
)의 이산 푸리에 변환(DFT)이라는 점을 주의하여, 고속 푸리에 변환을 통해 효율적으로 계산될 수 있다.
셋째로, 전력 스펙트럼 추산치(
Figure pct00005
)들에 기초하여 - 그것들 중 하나 또는 그것들 중 복수가 계산될 수 있고 - 다른 것을 계산할지 여부가 결정될 수 있다. 그러한 결정은 예를 들어 빔포밍 또는 다른 선별 기술들을 사용하여, 보다 양호한 신호 추출을 수행하기 위해 제1 프로세서(12)에서의 추가 프로세스를 시작하는 것을 수반할 수 있다. 대안적으로 결정은 제2 프로세서(16)를 기상시키는 것일 수 있다.
제1 단순화한 예에서, 프로세서(12)는 키워드, "hello"이라 말하는 것을 검출하기 위해 대강의 검출 메커니즘을 사용한다. 이러한 메커니즘은 그것이 단어 "hello"의 전력 스펙트럼과의 매치를 갖는지 여부를 살피기 위해, 그것이 발음된 문장의 전력 스펙트럼을 고려하도록 하는 것일 수 있다. 그러한 매칭 동작은 위에서, 그리고 또한 보다 상세하게 예를 들어 M.H. Hayes에 의한 "Statistical Digital Signal Processing and modelling"에 설명된 바와 같이 전력 스펙트럼의 추산을 유도하기 위해 예를 들어, 하드웨어-이네이블 이산 푸리에 변환(DFT)을 통해 초 저전력 요건으로 이루어질 수 있다. 매치-임의의 종류의 분류자 이를테면 선형 또는 판별 분석을 사용하여 검출될 수 있는 바와 같은-가 존재하는 경우 제2 프로세서(14)는 버퍼링된 신호(이를테면 "hello" 후보) 뿐만 아니라 후속 발언, 이를테면 "open file" 또는 "turn off computer" 양자를 듣기 위해 기상될 수 있다.
제1 검출 단계는 보다 단순한 구현의 결과로서, 상당히 대강일 수 있다. 예를 들어, 단어 "hotel"은 "hello"와 유사한 DFT 전력 스펙트럼을 가질 수 있고, 또한 제2 프로세서(14)의 기상을 초래할 수 있다. 그러나, 이러한 스테이지에서, 제2 프로세서(14)의 보다 진보된 처리 능력은 그것이 단어 "hello"와 단어 "hotel"의 차이를 분명히 보여줄 수 있고, 그로 인해 보다 많은 처리를 덧붙이지 않고 대신에 그것의 절전 모드 상태로 되돌아 가기로 결정할 수 있음을 의미한다.
광 마이크로폰들(2)은 보다 종래의 MEMS 마이크로폰들보다 유익하다. 저 자기-잡음은 전력 스펙트럼 추산들이 보다 정확하고 종래의 MEMS 마이크로폰들을 이용하는 것보다 긴 거리들에서 "트리거 단어들"을 픽업할 수 있을 것임을 의미한다. 게다가 어레이로부터의 두 개 이상의 광 마이크로폰은 도착 방향(DOA; direction of arrival) 기술, 이를테면 간략화된 빔포밍, 시간-지연 신호 감산 또는 MUSIC 알고리즘(P. Stoica & Randolph Moses에 의한 "Spectral Analysis of Signals" 참조)을 사용하여 소리의 도착 방향을 정확하게 검출하기 위해 사용될 수 있다. 예를 들어, 이는 소리가 디바이스 앞에서 말하는 누군가로부터 온 것 같은지 또는 소스 즉 디바이스의 측으로부터 온 것 같은지를 추산하기 위해 사용될 수 있다. 광 MEMS 마이크로폰들의 저 잡음 특성들은 그러한 유용한 검출 각들이 매우 작은 베이스라인 어레이를 이용하여서도 계산되어, 그것이 특히 작은 폼 팩터 디바이스들 이를테면 스마트 워치들, 팔찌들 또는 안경들에 유용하게 될 수 있음을 의미한다.
제2 그리고 보다 진보된 예에서, 제1 프로세서(12)는 키워드 이를테면 "hello"를 검출하기 위해 사용되나, 이는 빔포밍이 사용된 후 일어날 수 있다. 프로세서(12)는 착신 신호들의 특정 특성들에 반응할 수 있다. 이는 Tee-Won Lee 및 Terrence J. Sejnowski에 의한, 즉 "Independent Component Analysis for Mixed sub-gaussian and super-Gaussian Sources"에 설명된 바와 같이, 음성일 것 같은 신호들의 분포, 이를테면 서브- 또는 수퍼-가우스 분포일 수 있다. 그 다음, 프로세서(12)는 소스의 위치를 찾으려고 시도하기 위해 빔포밍을 켜기로 결정한다. 그것은 새로운 착신 신호들 뿐만 아니라 저장된 신호들 양자에 관해 작용할 수 있다. 빔포머의 출력이 가능성 있는 트리거 단어로서 인식될 수 있는 단어를 낸 경우, 제2 프로세서(14)가 기상된다. 또한, 이러한 제2 프로세서는 그것의 보다 큰 처리 능력, 매칭 방법들 및 단어 사전 크기를 사용하여, 단어 "hello"가 실제로 언급되지 않았음(아마도 대신 "halo")을 검출하고 그것의 절전 모드 상태로 되돌아 간다.
이러한 제2 예에서, 어레이 광 마이크로폰들(2)의 유용성은 두 요소이다. 첫째로, 이전에 언급된 저 잡음 특성들에 기인하여 종래 마이크로폰들을 이용하는 것보다 마이크로폰들들에 의해 원래 신호 분포가 정확하게 복원된다. 둘째로, 마이크로폰 요소들(2)의 조합의 사용은 고-해상도 어레이 빔포밍에 의해, 제1(12) 및 제2(14) 프로세서 양자에서 단어 검출을 위해 보다 저 수준의 소리들(이를테면 속삭이는 소리들 또는 멀리 떨어진 소리), 뿐만 아니라 보다 양호한(즉 잡음이 덜한 경향이 있는) 후보들의 검출을 가능하게 한다. 광 마이크로폰 어레이 없이, 어레이는 동일한 수준의 "감도"를 보이기 위해 훨씬 더 크게- 즉 보다 큰 베이스 라인을 사용함으로써 - 구축되어야 할 수 있다.
상기한 경우들의 양자에서, 제2 프로세서(14)는 제1 프로세서보다 강력한 신호 감산 수단을 사용할 수 있다. 예를 들어, 제1 프로세서(12)는 대강의 빔-포밍 접근법, 이를테면 지연-및-총계(DAS; delay-and-sum) 빔포밍을 사용할 수 있다. 그것은 또한 보다 복잡한 접근법들 이를테면 적응적 (Capon) 빔포밍을 사용할 수 있다. 그러나 일반적으로, 제2 프로세서(14)는 제1 프로세서(12)보다 강력한 공간 신호 감산 수단을 사용할 것이다.
예를 들어, 제1 프로세서(12)가 DAS 빔포밍을 사용했다면, 제2 프로세서(14)는 제1 프로세서에 비해 유효 분해능/성능을 증가시키기 위해 적응적 빔포밍을 사용할 수 있다. 또는, 제2 프로세서(12)는 소스 선별을 위해 타임-도메인 디-컨볼루션 접근법을 사용할 수 있으며, 이는 일반적으로
Figure pct00006
Figure pct00007
에 의한, 즉 "Blind Speech Separation in Time-Domain Using Block-Toeplitz Structure of Reconstructed Signal Matrices"에 설명된 바와 같이, Block-Toeplitz 행렬 구조의 역변환을 필요로 한다. 이는 일반적으로 주파수 도메인 기반 방법들을 사용하는 것보다 훨씬 더 CPU 집약적이이나, 또한 그것의 신호 복원 결과들에서 훨씬 더 높은 정확도 및 분해능을 낼 수 있다.
제2 프로세서(14)는 또한 제1 프로세서보다 진보된 단어 인식 방법들을 사용할 수 있다. 예를 들어, 제1 프로세서(12)가 전력 스펙트럼의 매칭을 제1 어림셈으로서 사용할 수 있는 한편, 제2 프로세서는 기술들 이를테면 은닉 마르코프 모델들(HMM; Hidden Markov Models), 인공 신경망들(ANN; Artificial Neural Networks) 또는 그것의 성능을 신장시키기 위해 언어 모델들(LMs)을 통합하는 접근법들을 사용할 수 있다. 그것은 또한 그것의 증가된 메모리에 기인하여 그것이 인식을 위해 사용할 수 있는 단어들의 보다 큰 그리고/또는 보다 교묘하게 탐색가능한 집합을 가질 수 있다.
음성 인식을 수행하는 데 필요한 처리는 디바이스(8) 상에서 전체적으로 수행될 수 있다. 그러나 진보된 처리는 로컬 제2 프로세서(14) 대신 또는 그것에 더하여 원격 프로세서(16)에 의해 수행될 수 있다.
도 3은 표준 미세 전자 기계 시스템(MEMS) 기술을 사용하여 제조된 대표적인 광 마이크로폰의 주요 기능 부분들을 개략적으로 도시한다. 그것은 직립 하우징(20)이 장착된 기판(18)을 포함한다.하우징은 가요성 질화 규소 멤브레인(24)에 걸쳐 이어지는 그것의 상측면에 애퍼처(22)를 갖는다. 하우징 내부에서, 레이저 형태의 광원(예를 들어, 빅셀(VCSEL; vertical cavity surface-emitting laser))(26), 및 두 개의 광-검출기(28, 30)가 기판(18) 상에 장착된다. 레이저 다이오드(26) 및 멤브레인(24) 사이에 회절 소자(32)가 있다. 이는 예를 들어, 투명한 플레이트 이를테면 접착된 유리 칩(도 7 참조) 위에 회절 패턴으로 증착된 반사 금속 스트립들에 의해 구현되거나 하우징(20) 내부 적절한 위치들에 현수되는 요소들에 의해 제공될 수 있다.
도 3의 왼쪽 도해는 위쪽을 향해 굽었고, 중앙 도해는 그것이 중립 위치에 있는 것으로 도시하며, 오른쪽 도해는 그것이 아래쪽을 향해 굽은 것으로 도시한다. 이들은 멤브레인(24)의 상이한 순간적인 위치들을 그것이 착신 음파에 의해 유도됨에 따라 나타낸다. 도 3에서 이해될 바와 같이, 멤브레인(24)의 위치는 그것 및 회절 소자(32) 사이 거리를 결정한다.
사용 시 레이저(26)로부터의 광의 일부는 회절 소자(32)의 패턴을 통과하고 일부는 패턴을 이루는 라인들에 의해 반사된다. 통과한 광은 멤브레인(24)의 후면으로부터 그리고 다시 회절 소자(32)를 통해 반사된다. 이러한 두 경로를 이동한 광의 상대적 위상은 회절 소자의 상이한 회절 차수들로 유도되는 광의 부분을 결정한다(각 회절 차수는 고정된 방향으로 유도된다). 현재 바람직한 실시예들에서 회절 소자(32)는 회절 프레넬 렌즈의 형태이다. 그에 따라 회절 패턴(32)의 라인들은 영차에 대응하는 중심 초점 영역을 제공하는 표준 프레넬 식에 따라 사이징되고 이격된다. 제1 광-검출기(28)는 영차의 광을 수신하도록 위치되는 한편, 제2 광-검출기(30)는 회절 프레넬 렌즈의 포커싱된된 제1 회절 차수로부터 광을 수신하도록 위치된다. 회절 소자(32) 및 멤브레인(24) 간 간격이 다이오드(26)로부터의 레이저 광의 파장의 절반 또는 이의 정수배일 때, 회절 소자에 의해 반사되는 거의 모든 광은 영차 회절 차수로 유도된다. 이러한 위치에서 제2 검출기(30)는 그것이 회절 소자의 제1 차수의 위치에 위치됨에 따라 아주 적은 광을 수신한다(이는 회절 프레넬 렌즈에 대한 지점으로 포커싱된다).
이해될 바와 같이, 광 경로 길이는 물론 회절 소자(32) 및 멤브레인(24) 간 거리에 따른다. 영차 회절 차수를 측정하는 제1 광-검출기(28) 및 제2 광-검출기(30)(이들의 위치들은 고정된다)에 의해 레코딩되는 광의 세기는 위에서 언급된 간격에 따라 변하나 위상이 다른방식으로 변한다. 이는 도 4에서의 그래프에 의해 예시된다. 하나의 라인(34)은 제1 광-검출기(28)에서 레코딩되는 세기에 대응하고, 다른 라인(36)은 제2 광-검출기(30)에서 레코딩되는 세기에 대응한다. 위에서 언급된 바와 같이, 간격이 파장의 절반(또는 이의 정수배)과 같을 때, 제1 검출기(28)에서의 세기(34)는 최대이고 간격이 1/4 파장 또는 이의 홀수배들로 변함에 따라 제로로 줄어든다. 제2 검출기(30)에 레코딩되는 세기(36)는 이와 위상이 다른 1/4 파장이고 그에 따라 제2 라인(34)은 제1 라인이 최소에 있을 때 최대이고 그 역도 또한 같다.
마이크로폰의 감도는 멤브레인의 변위의 소정의 변화에 대한 출력 신호의 변화에 의해 결정된다. 따라서 도 4에서 라인들(34, 36)이 최대 기울기를 갖는 존들(38)에서 최대 감도가 발생한다는 것을 알 수 있다. 이는 또한 기울기가 거의 직선인 존이다.
단지 하나의 광-검출기로 필요한 측정을 수행하는 것이 가능할 수 있더라도, 각각 영차 및 1차 회절 차수를 측정하는 두 개의 검출기(28, 30)가 그것들의 두 개의 신호 간 차이가 레이저 세기의 파동들에 대해 교정되는 측정을 제공할 수 있음에 따라 바람직할 수 있다.
위에서 설명된 장치의 변형이 도 5 및 도 6에 도시된다. 이러한 장치에 마이크로폰 멤브레인(24')에 관해 상대적인 거리 오프셋을 갖는(이 경우 레이저의 파장의 1/8의 오프셋), 두 개의 별개의 회절 소자(40, 42)가 있다. 제1 회절 소자(40)의 특정 회절 차수와 정렬되어 위치되는 하나의 광-검출기(44) 및 제2 회절 소자(42)의 차수와 정렬되는 제2 광-검출기(46)를 이용하면, 도 6의 각각 라인들(48, 50)이 이루어진다. 이들에서 두 개의 검출기(44, 46)에 의해 검출되는 신호들은 서로 위상이 다른 파장의 1/8이고, 두 개의 각각의 회절 소자의 최대 감도 존(52, 54)이 연접하며 그에 따라 검출기들(44, 46)로부터의 신호들을 사용함으로써 마이크로폰의 동적 범위가 확장될 수 있다.
물론 미리 결정된 위상 오프셋들을 갖는 세 개 이상의 신호를 내기 위해, 멤브레인에 관해 미리 결정된 위상 오프셋들을 갖는 세 개 이상의 회절 소자를 사용하는 것이 가능하다. 그 다음 그러한 신호들은 큰 동적 범위 상에서, 멤브레인 변위의 측정에 고 선형성을 제공하기 위해 재조합되고 레이저 세기의 파동들에 대해 보상될 수 있다.
도 7은 조금 더 상세한 특정 대표적인 광 마이크로폰을 도시한다. 이는 다수의 반사 라인으로서 형성되는 회절 소자(60)가 제공되는 중앙 부분(58)을 포함하는 투명 유리 기판(56)을 포함한다. 유리 기판(56)의 위에는 실리콘 계층(62)이 제공되고 그것들 사이에는 질화 규소 멤브레인(64)이 제공된다. 유리 기판(56)은 공기가 후자가 입사 음파들의 작용으로 이동할 때 멤브레인(64) 하로부터 변위되게 하도록 구조화되었다.
본 출원에 설명된 광 마이크로폰들의 '오버샘플링된' 어레이는 다수의 상이한 추정 하에 수신된 소리를 분석하기 위해 사용될 수 있다. 아래에 설명될 바와 같이 이들은 상이한 방사 방향들 또는 환경 조건들에 대응할 수 있다. 그 다음 이러한 후보들은 각각 음성 인식을 시도하기 위해 사용될 수 있으며 가장 성공적인 것이 채택된다.
먼저 특정 방향으로부터의 소리 상에 포커싱하기 위한 마이크로폰들의 어레이의 사용이 설명될 것이다. 이는 빔포밍으로 알려져 있고 특정 방향(본 예에서 어레이에 수직하는 '포워드' 방향인 것으로 취해지는)으로부터 수신되는 에너지를 최대화하면서 다른 방향들로부터의 에너지를 최소화하는 것의 문제와 동등하게 고려될 수 있다.
전향 방향으로 에너지를 고정(그리고 왜곡들을 회피)하는 제약을 조건으로, 빔포머를 통해 안테나 어레이(반평면의)로 들어오는 협대역 에너지를 최소화하는 것은 다음에 이른다:
Figure pct00008
= 상수임을 조건으로
Figure pct00009
식 (1)
여기서
Figure pct00010
는 각도(θ)에서의 조향 벡터이고,
Figure pct00011
w는 안테나 가중 벡터이며, 이는 복소수이고 그에 따라 시간-지연 및 가중치 양자를 포함할 수 있다(본 분석은 주파수 도메인에서 수행된다). P는 어레이 소자들의 수이다. 가중치들의 목적은 집합 신호를 얻기 위해 착신 신호들에 작용하는 것이다. y를 어레이로부터 들어오는 푸리에 변환된 신호 벡터로 표기하자. 그 다음 집합 신호 또는 빔포머로부터의 출력은
Figure pct00012
이 된다
목적은 집합 신호(z)가 특정 특성들을 갖도록 가중 벡터(w)를 설계하는 것이다. 어레이 처리에서, 이들은 일반적으로 공간적 거동, 즉 집합 신호(z)가 일부 방향 대 다른 방향들로부터 들어오는 신호들에 의해 얼마나 영향을 받는지에 관한다. 이는 이제 보다 상세하게 설명될 것이다.
식 (1)은 다음과 같이 구분된다:
Figure pct00013
= 상수임을 조건으로
Figure pct00014
식 (2)
몇몇 불연속적인 각도(
Figure pct00015
)에 대해. 합은 다음과 같이 다시 쓸 수 있다:
Figure pct00016
여기서
Figure pct00017
식 (3)
따라서 구분된 최적화 기준은 다음이 된다:
Figure pct00018
= 상수임을 조건으로
Figure pct00019
식 (4)
이는 다수의 주지의 기술을 사용하여 풀릴 수 있는, 수정 또는 제약된 고유 벡터 문제이다. 하나의 그러한 변형이 설명될 것이다. 일반적으로, 벡터(1)는 조향 벡터들 중 하나와 동일하며, 여기서
Figure pct00020
이다. 그에 따라 문제는 모든 다른 방향에서 가능한 낮은 에너지를 그리고 앞을 향하는 풀 포커스가 있도록 빔 패턴에 맞도록 시도하는 것인, 최소 스퀘어 포커스를 갖는 것으로 달리 표현될 수 있다. 이는 다음과 같이 이루어질 수 있다:
Figure pct00021
식 (5)
여기서 k는 전방 조향 벡터의 인덱스이다, 즉
Figure pct00022
이다. 이 식은 가중치를 사용하는 것이 1로 만들어지도록 시도되고 있는, 전방을 제외하고는, 모든 각도의 응답을 제로로 만들기 위한 시도라는 것을 말한다. 일반적으로 어느 방향들(전방 방향 이외)이 줄여지는 데 보다 중요한지에 관해 어떠한 선호도 없다는 것이 가정되고, 그에 따라
Figure pct00023
에 대해
Figure pct00024
라고 가정될 수 있다. 이는 이제 다음과 같이 다시 쓰일 수 있다는 것을 주의하자:
Figure pct00025
식 (6)
여기서
Figure pct00026
Figure pct00027
와 동일한 방식으로 만들어진 행렬이나, 제k 조향 벡터는 들어가지 않는다, 즉:
Figure pct00028
식 (7)
식 (4)에서의 원래의 최적화 문제에 대해,
Figure pct00029
또는
Figure pct00030
를 최소화하려고 하든 차이가 없다-전방 벡터(1) 및 가중치들(w)(즉, 제약) 간 관계는 이를 확인한다-는 것이 주의되어야 한다.
식 (4)의 오른쪽 변은 수정된 고유값 문제를 풀기 위한 라그랑지 승수 식이라는 것(상수 = 1일때)이 또한 주의될 것이다. 따라서 식 (4) 및 식(6)은 동등하고, 그에 따라 또한 식 (4), 식 (5) 및 식(6)이 앞에서의 가정 하에서 동등하다. 따라서, 식 (5)에 작용하기 시작하면, 그것은 다음과 같이 다시 쓰여질 수 있다는 것을 알 수 있다:
Figure pct00031
식 (8)
여기서 모든 i에 대해
Figure pct00032
그러나 k에 대해서는,
Figure pct00033
이다.
Figure pct00034
임을 정의함으로써 이제 다음이 된다:
Figure pct00035
식 (9)
이는 간단히 문제에 대한 최소 제곱 해를 찾는 것을 암시한다:
Figure pct00036
식 (10)
여기서
Figure pct00037
이고
Figure pct00038
이다.
이는 실질적으로 그것들이 스케일링된, 단위 행 벡터(단지 제k 요소만 0과 상이한)가 되도록 이의 요소들이 행렬(
Figure pct00039
)의 행들을 조합하는 복소수 벡터(w)를 찾으려고 시도하는 것이 필요다는 것을 말하고 있다. 그러나 보다 일반적으로, 상이한 공간적 방향들을 분리하려고 시도 시, 각각이 상이한 공간적 방향 상에 포커싱하는 다수의 벡터(
Figure pct00040
)를 선택할 수 있다. 이러한 문제를 풀어, 상기 식(10)이 또한 풀릴 것이라는 것이 사실일 것이다. 이는 다음이 되는 행렬(W)을 찾으려고 시도하는 것일 것이다:
Figure pct00041
식 (11)
그러나 이는 간단히 행렬(
Figure pct00042
)이 (의사)-역행렬을 갖는다고 말하는 것에 이른다. 게다가,
Figure pct00043
가 의사-역행렬을 갖는다면,
Figure pct00044
또한 의사-역행렬을 갖는다는 것이 주의되어야 한다. 이는 행렬(
Figure pct00045
)의 열들이 간단히
Figure pct00046
의 열들의 재스케일링된 버전들이기 때문에 계속된다. 그에 따라 아주 일반적으로,
Figure pct00047
가 의사-역행렬을 갖는지 여부에, 그리고 그리고 이러한 상황들 하에 포커싱하는 것이 가능하다.
어레이 처리 시, 균일한, 선형 배치(ULA)의 조향 벡터들은 샘플링된, 복소 사인 곡선들이 된다. 이는
Figure pct00048
의 열 벡터들이 간단히 복소 사인 곡선들이라는 것을 의미한다. 점점 더 많은 요소가 어레이의 베이스-라인 내에 추가되는 경우(즉, 어레이가 오버샘플링되는 경우), 그것들의 사인 곡선들의 샘플링 품질(또는 정밀도)이 점진적으로 개선된다.
가설에 근거해서, 행들의 수가 무한한 경향이 있을 때, 행렬(A)의 열들은 연속적인 복소 사인 곡선들의 샘플링들일 것이다. 임의의 (비-연속적인) 정밀도가 연속적인 복소 사인 곡선들의 양자화로서 보여질 수 있다.
Figure pct00049
를 주파수들의 집합이라 하자, 모든
Figure pct00050
에 대해
Figure pct00051
이다.
R은 지지 길이라 하자.
Figure pct00052
이고, 그 외에는
Figure pct00053
라 하자. 그 다음 함수들(
Figure pct00054
)은 일차 독립이다.
이것이 암시하는 것은 무한하게 밀접하게 이격되는, 무한수의 어레이 안테나 소자가 존재하는 이론적으로 이상적인 경우에서, 공간적 방향들(조향 벡터들)에 대응하는 사인 곡선들은 모두 고유하고, 식별가능하며, 어떤 하나의 사인 곡선도 다른 사인 곡선들의 선형 조합으로서 구성될 수 없다는 것이다. 이는 (행-연속) 행렬(
Figure pct00055
)의 "가역성"을 내는 것이다. 그러나, 실제로는, 유한수의 요소가 존재하며, 이는 이러한 완벽한 상황의 이산화를 야기한다. 연속 사인 곡선들이 모두 고유하고 서로 선형 독립이더라도, 동일한 사인 곡선들의 이산화가 동일한 속성들을 따른다는 보장은 없다. 사실, 안테나 소자들의 수가 디바이스가 공간적으로 구분하려고 시도하는 각들의 수보다 적은 경우, 사인 곡선들은 서로 독립적이지 않다는 것이 확실시 된다. 그러나, 그것은 행렬(
Figure pct00056
)에서의 행들의 수가 증가함에 따라-즉, 어레이에서의 안테나 소자들의 수가 증가함에 따라- 행렬(
Figure pct00057
)은 그것이 완벽한 (연속) 상황에 점점 더 가까워지기 때문에 "점점 더 가역적"이 된다는 것을 따른다. 보다 많은 안테나 소자가 삽입됨에 따라, 행렬(A)의 차원들이 증가하는데, 이는 행렬(C)에서의 행들의 수도 그러하며, 이로부터 행렬(C)이 유도된다. 위에서 설명된 바와 같이, 행렬(
Figure pct00058
)이 보다 "가역적일수록", 그것이 상기 식 (2)에서의 조건들 즉
Figure pct00059
= 상수를 조건으로
Figure pct00060
을 충족하기 쉬워진다.
상기 고려사항들이 본 발명의 최적의 구현을 위해, 그리고 특히 실제 일어나는 과제들에 얼마나 중요하게 되는지 살피는 것은 용이하다. 본 발명에 따라 알고리즘들을 수행하는 프로세서는 행렬들의 고유 벡터들에 효과적으로 작용하고 있고 작은 고유 벡터들/고유값 쌍들 즉, 다음을 최소화하거나 거의 최소화할 것들에 관계가 있다
Figure pct00061
식 (12).
이는 취해져야 하는 구체적인 예방책들이 존재하는 것을 의미한다. 잠시 제약 "
Figure pct00062
= 상수"를 무시하고(이는 부분 공간 상에 프로젝션을 부여하는 약간의 수정인 것으로 제시될 수 있기 때문이다) 고유값들 및 고유 벡터들이 어떻게 거동하는지를 되찾으면, 행렬(C)의 고유값 분해는 다음으로 고려될 수 있다:
Figure pct00063
식 (13)
여기서
Figure pct00064
는 값들의 내림 차순으로 된, 영이 아닌 고유값들의 집합이다. 다음 항은 다음으로 고려된다:
Figure pct00065
식 (14)
w가 작은 고유값들에 대응하는 고유 벡터들에 보다 평행할 때 항은 더 작아지게 된다는 것을 알 수 있다. 작은 고유값들에 대응하는 고유 벡터들은 대체로 불안정하다는 것이 또한 알려진다. 이는 행렬(
Figure pct00066
)로의 작은 변화가 매우 상이한 스코어들을 부여할 수 있음을, 예를 들어 다음을 의미한다
Figure pct00067
행렬(
Figure pct00068
)의 일부 섭동(
Figure pct00069
)에 대해. 이는
Figure pct00070
에 관한 작은 오류가 존재하는 경우, 유효 어레이 해상도(s와 관계되는)가 극적으로 저하될 수 있음을 의미한다.
그러나 이는 바로 많은 실제 상황에서 일어날 것이다. 구체적으로 다음과 같이 구성되는 행렬(C)을 고려하자:
Figure pct00071
식 (15)
조향 벡터들(
Figure pct00072
)은 다른 것들 중에서도, 소리의 속도와 관련된다. 그러나 실제로 소리의 속도는 그것의 추산된 값에 관해 온도 또는 습도 변화들의 결과를 변경할 것이다. 예를 들어, 340 m/의 추산된 값에서 345 m/s의 실제 값으로의 변경은 스코어(s)에 대한 자릿수에 영향을 미미칠 수 있는
Figure pct00073
의 왜곡(
Figure pct00074
이 되도록)을 일으킬 것이다.
따라서 음성 인식의 목적들을 위해, 원하는 분해능을 갖기 위해 행렬(
Figure pct00075
)의 몇몇 버전 그리고 관련 (최적의) 가중치들(w)을 적용하는 것이 필요할 수 있다. 이는 상이한 온도들과 관련된 상이한 조합들(
Figure pct00076
)을 시도해보는 단계, 및 어느 어레이 출력이 최저 전체 에너지를 갖는지 찾는 단계; 상이한 온도들과 관련된 상이한 조합들(
Figure pct00077
)을 시도해보는 단계, 및 어느 어레이 출력이 음성의 가장 대표적인 신호 출력을 갖는지 찾는 단계(즉, 음성 신호의 통계적 분포를 반영하는 단계); 및 상이한 온도들과 관련된 상이한 조합들(
Figure pct00078
)을 시도해보는 관계, 및 어느 어레이가 음성 인식 엔진을 이용하여 가장 높은 분류 비율들을 제공하는지 찾는 단계을 포함하는 다수의 방법으로 일어날 수 있다.
다시 도 2를 참조하면, 제1 프로세서(14)가 이러한 단계들 중 일부를 수행하기에 충분히 강력할 수 있지만, 이러한 프로세서의 요구는 빠르게 높아지게 될 것이고 그로 인해 회로의 비용, 및/또는 전력 소비 중 어느 하나를 모바일 디바이스에 너무 높은 수준까지 오를 것이라는 것을 알 수 있다. 그러나 그것이 요구되는 언제든 이를 보다 확장되게 수행하기 위해 원격 프로세서(16)를 사용함으로써, 그러한 동작들이 필요하지 않을 때 원격 프로세서를 저 전력 모드로 유지할 수 있음으로써 전력이 절감될 수 있다. 물론 이러한 이점은 양 프로세서가 동일한 디바이스 상에 제공되는 경우라도 이루어질 수 있다는 것이 이해될 것이다. 그에 따라 프로세서들 중 하나가 원격으로 제공되는 것을 본질적인 것이 아니다.
다수의 후보로부터 선택하기 위해 보다 큰 처리 능력을 사용하는 것의 보다 구체적인 예가 이제 도 8을 참조하여 설명될 것이다. 제1 단계(101)에서, 음성 신호에 대한 후보가 이전에 설명된 바와 같이, 하나 이상의 마이크로폰(2)로부터 검출된다. 검출은 제1 프로세서(12)에 의해 수행될 수 있다.
다음으로, 단계(102)에서, 신호 분리 알고리즘이 "셋 업"되며, 이는 그것이 마이크로폰 어레이 주위 물리적 조건들 및 현실들에 대한 특정 가정들에 기초함을 의미한다. 예를 들어, 조향 벡터들(
Figure pct00079
)은 소리의 속도와 관계를 갖고, 그에 따라 소리의 속도-그것은 온도 또는 습도와 같은 것들에 따라 340, 330 또는 345 m/s일 수 있다-가 무엇인지에 관한 가정이 "셋팅"될 수 있는 파라미터일 수 있다. 다음으로, 단계(103)에서, 그러한 파라미터들이 신호 분리 알고리즘에 적용된다. 그것은 보통 빔포머일 수 있으나, 또한 시간-도메인 디-컨볼루션 접근법 또는 임의의 다른 접근법일 수 있다. 그 다음 이러한 프로세스로부터의 출력, 또는 가능성 있게 복수의 출력이 단계(104)에서 음성 인식 엔진으로 공급된다.
음성 인식 엔진이 사전 또는 용어집으로부터의 단어를 인식하는 경우, 해당 단어, 또는 해당 단어의 몇몇 다른 표시 이를테면 그것의 축약 형태, 해쉬 코드 또는 인덱스가 단계(105)에서 어플리케이션으로 공급될 수 있다. 용어 "단어"가 본 출원에 사용되지만, 이는 구, 소리, 또는 자연적인 음성 인식에 중요한 임의의 다른 개체로 대체될 수 있다는 것이 주의되어야 한다.
단계(104)에서 어떠한 단어도 인식되지 않는 경우, 또는 정확한 분류의 가능성이 너무 낮은 경우, 또는 임의의 다른 주요한 기준이 충족되는 경우 이를테면 이중 또는 다수의 단어 매치들의 결정된 위험이 너무 높게 간주되는 경우, 프로세스는 단계(106)로 이동하며, 여기서 키 파라미터들이 수정된다. 이전에 언급된 바와 같이, 그것들은 소리의 속도 및 조향 벡터들(그리고 결과적으로, 행렬(C))에 영향을 미치는 결과와 같은 주요한 물리적 변수들과 관련될 수 있다. 그러나, 그것들은 또한 상이한 빔 패턴들 또는 포커싱 전략과 관련될 수도 있다. 예를 들어, 파라미터 선택의 일례에서, 상대적으로 넓은 빔이 사용될 수 있고, 다른 예에서는, 보다 좁은 빔이 사용될 수 있다. 그것들은 또한 상이한 알고리즘 선택들과 관련될 수도 있다. 예를 들어, 처음에, 운 없이 빔포머들이 사용되었다면, 시간-도메인 디-컨볼루션 접근법들과 같은 보다 계산적으로 복잡한 탐색들이 시도될 수 있다.
이러한 탐색을 위한 "파라미터들"의 합법적 집합은 파라미터 데이터베이스(107)에 포함될 수 있다. 이는 탐색을 위해 사용하기 위한 합법적 그리고 관련 파라미터들의 리스트, 행렬 또는 다른 구조 중 어느 하나로서 구현될 수 있고, 다음으로 제한되지 않고 포함할 수 있다: 소리의 속도, 배경 잡음 특성들, 잠재적인 혼신원들의 위치들의 추산들, 센서 오버로드(포화)의 추산들, 또는 임의의 다른, 탐색가능한 양. 마찬가지로, 데이터베이스(107)는 파라미터들의 셋팅의 최종 집합으로 고정된 데이터베이스일 필요는 없고; 그것은 다양한 상기 셋팅들을 사용하여 단어들을 탐색하기 위한 룰들의 집합을 사용하는 새로운 파라미터들의 집합들을 구성하는 동일하게 알맞는 "생성기 알고리즘"일 수 있다.
여기에서의 구현이 "순차적인" 것으로 제시되더라도, 단어들의 검출 프로세스의 다양한 신뢰 수준이 서로 매칭되고 "승자"가 선택되는, 병렬 구현이 동등하게 알맞게 구상될 수 있다. CPU 아키텍처에 따라, 그러한 접근법이 때때로 훨씬 더 빠르고 효율적일 수 있다.
잡음 영향
이제 실사 구현들에서 잡음의 영향에 대한 고려사항이 주어진다. 이를 위해 알고리즘은 전방 방향으로 에너지/포커스를 "고정"하기 위해 가중 벡터(w)를 사용하는 것을 추구한다. 동시에 이상적으로 그것이 간섭(다른 방향들로부터의)이든 잡음이든, 다른 방향으로부터의 빔포머를 통해 들어오는 에너지는 가능한 거의 없어야 한다. 이는 도 8에 예시되며, 여기서 사이드 로브들을 억제하면서 메인 빔을 추적하고 수신하는 것이 바람직하다
적합한 이산화는 다음 식을 산출한다:
Figure pct00080
식 (16)
사실, 이는 근사치이나, 관련 오류가 잡음 항(n)으로 모델링될 수 있고, 그에 따라 우선은 용인될 수 있다. 여기서, 수들(
Figure pct00081
)은 상이한 방향들(
Figure pct00082
)로부터 도달되는 신호들이다. 그것이 주파수 도메인으로 고려되기 때문에 그것들은 위상 및 진폭을 나타내는 복소수들이다. 이는 벡터/행렬 형태로 수행하는 것은 다음은 제공한다:
Figure pct00083
여기서
Figure pct00084
Figure pct00085
Figure pct00086
식 (17)
여기서
Figure pct00087
는 각 센서에서의 (복소) 잡음이다. 포커스를 전방으로 "고정"하기 위해, 이는 다음과 같이 다시 쓰여질 수 있다:
Figure pct00088
식 (18)
여기서 k는 전방 벡터(
Figure pct00089
)의 인덱스이며, 이는
Figure pct00090
를 의미한다.
이제 빔포밍 가중 벡터(w)가 빔포밍된 신호를 획득하기 위해 적용된다.
Figure pct00091
식 (19)
Figure pct00092
라는 것은 이미 알려져 있고(w가 이러한 조건 하에서 유도되었기 때문에) 그에 따라 식은 이제 다음과 같다:
Figure pct00093
식 (20)
관심있는 것은 전방 방향으로부터 들어오는 신호인 신호(
Figure pct00094
)이다. 이러한 신호 뿐만 아니라 (빔포밍을 통해) 가능한 신호를 복원하려고 시도 시, 다른 두 개의 항(
Figure pct00095
Figure pct00096
)이 크기 면에서 가능한 작아야 한다. z가 이미 신호(
Figure pct00097
)를 '캡처'하기(그리고 w의 설계로 인해 그렇게 해야하기) 때문에, 효과적으로 |z|의 기댓값을 최소화하기를 원한다. 이는 다음을 최소화하기 원하는 것에 이른다
Figure pct00098
식 (21)
여기서 다른 에너지 레벨들이 다음 인수들과 차이가 없더라도, 소스들(s)은 비상관되고 동일한 (단위) 에너지를 가진다고 가정되었다. 이제, 제1 항은 이미 원래 최소화한 바와 같이 인식될 수 있고, 그에 따라 이는 특정 의미에서, 이미 선택된 w에 대해 "최소"이다. 제2 항은 고정되고 제3 항은 두 개의 성분, 잡음 변화량 및 벡터(w)의 노름을 갖는다. 신호 대 잡음 및 간섭 비는 다음과 같이 설명될 수 있다.
Figure pct00099
식 (22)
여기서 단지 마지막 항은 신호 에너지가 (상황 종속적인) 상수가 될 후로 관찰될 필요가 있다. 분명히, 잡음의 변화량은 중요하고 그에 따라 광 마이크로폰들의 저 잡음 수준이 특히 빔포밍 맥락에서 양호한 SINR을 획득하는 데 바람직하다.
도 9는 사람이 글자 음 'a'를 발화할 때 수신되는 일반적인 오디오 신호의 고속 푸리에 변환 플롯을 도시한다. 이로부터 스펙트럼이 226 kHz의 베이스 주파수에서 메인 피크(202)를 갖는다는 것을 알 수 있다. 그러나 주파수의 2배, 4배, 8배 및 16배의 추가적인 보다 클리어한 오버톤들(204, 206, 208, 210)이 있다. 이들은 도 10을 참조하여 아래에서 설명될 바와 같이 음성 인식의 성능을 더 신장시키기 위해 사용될 수 있다. 여기에 주어진 구체적인 예들이 베이스 주파수의 2의 거듭제곱이더라도, 이는 본질적인 것은 아니고; 본 발명은 베이스 주파수의 임의의 편리한 정수배들과 사용될 수 있다.
도 10은 도 9에 예시된 오버톤들(204 - 210)을 채용하는 본 발명의 추가 실시예의 동작을 설명하는 흐름도이다. 이는 도 8을 참조하여 위에서 설명된 동작의 수정 버전이다.
이전과 같이, 제1 단계(1010)에서, 음성 신호에 대한 후보가 하나 이상의 마이크로폰(2)으로부터 검출되고, 단계(1020)에서, 신호 분리 알고리즘이 "셋 업"되며, 이는 그것이 마이크로폰 어레이 주위 물리적 조건들 및 현실들 이를테면 소리의 속도 등에 대한 특정 가정들에 기초함을 의미한다.
다음으로, 단계들(1030)에서, 그러한 파라미터들은 베이스 주파수에서의 신호들에 신호 분리 알고리즘들이 적용되고 또한 병렬 단계들(1031, 1032)에서 제1 내지 제n 오버톤 주파수들에서의 신호들에 신호 분리 알고리즘들이 적용된다. 분리는 관심 주파수들의 각각에 대한 개별적인 파라미터들에 기초하여, 개별적으로 이루어질 수 있다. 그러나, 분리는 하나 이상의 파라미터, 이를테면 공간적 방향들의 일련의 추측과 관련된 파라미터들을 공유할 수 있으며, 이는 일반으로 다수의 주파수(즉, 오버톤)를 출력하는 임의의 소정의 오디오 소스에 대해 동시에 발생할 것이다. 다른 파라미터들, 이를테면 신호 성분들의 진폭에 관한 추측들(이는 예측 접근법들에 기초할 수 있다)이 또한 공유될 수 있다.
단계(1040)에서, 오버톤 신호 분리들의 출력들이 조합된다. 이는 임의의 다수의 방법으로 일어날 수 있다. 예를 들어, 분리된 오버톤 신호들은 단계(1050)로 전달되기 전 합산될 수 있다. 다른 실시예들에서, 신호들의 진폭들 및 포락선들이 추가될 수 있다. 또 다른 실시예들에서, 신호들 및 그것들의 포락선들/진폭들은 조인되기 전 별개 필터링될 수 있고-그에 따라, 예를 들어, 잡음 또는 간섭에 의해 너무 혼성된 임의의 성분은 합산의 부분으로 하지 않게 된다. 이는 예를 들어, 이상점 검출 메커니즘을 사용하여 일어날 수 있으며, 여기서 예를 들어 주파수 성분들의 포락선이 사용된다. 다른 포락선 패턴들로부터 유의미하게 분기하는 포락선 패턴을 갖는 주파수들은 계산들/조합들에 들어가지 않을 수 있다.
주파수들이 단계들(1030,1031,..1032)에서 구별하여 별개로 처리되고, 단계(1040)에서 재조합되더라도, 오버톤들의 처리가 명백하게 분배될 필요는 없을 수 있다. 예를 들어, 다른 실시예들은 푸리에 변환을 채용하지 않는 시간-도메인 기술들을 사용할 수 있고 그로 인해 개개의 주파수가 그 자체를 사용하나, 대신 순수한 시간-도메인 표면들을 사용하고 그 다음 오버톤들에 대한 정보를 적절한 공분산 행렬들을 사용함으로써 추정 접근법과 효과적으로 결부시키며, 이는 기본적으로 베이스-톤들 및 오버톤들을 단일 추정 접근법으로 같이 바꾸는 것의 예상된 효과를 만들어 낸다.
이전과 같이 음성 인식 엔진이 단계(1050)에서 그것이 사전 또는 용어집으로부터 단어를 인식하는지 여부를 살피기 위해 사용된다. 그렇다면, 해당 단어, 또는 해당 단어의 몇몇 다른 표시 이를테면 그것의 축약 형태, 해쉬 코드 또는 인덱스가 단계(1060)에서 어플리케이션으로 공급될 수 있다. 용어 "단어"가 본 출원에 사용되지만, 이는 구, 소리, 또는 자연적인 음성 인식에 중요한 임의의 다른 개체로 대체될 수 있다는 것이 주의되어야 한다.
단계(1050)에서 어떠한 단어도 인식되지 않는 경우, 또는 정확한 분류의 가능성이 너무 낮은 경우, 또는 임의의 다른 주요한 기준이 충족되는 경우 이를테면 이중 또는 다수의 단어 매치들의 결정된 위험이 너무 높게 간주되는 경우, 프로세스는 단계(1070)로 이동하며, 여기서 키 파라미터들이 수정된다.
또한, 이전과 같이, 이러한 탐색을 위한 "파라미터들"의 합법적 집합이 파라미터 데이터베이스(1080)에 포함될 수 있다.

Claims (29)

  1. 광 마이크로폰 장치로서:
    기판 상의 광 마이크로폰들의 어레이로서, 상기 광 마이크로폰들의 각각은 착신 가청음의 결과로서 각각의 멤브레인의 변위를 나타내는 신호를 제공하는, 상기 광 마이크로폰들의 어레이;
    상기 광 마이크로폰들로부터 상기 신호들을 수신하도록 그리고 제1 출력을 내기 위해 상기 신호들에 관해 제1 처리 단계를 수행하도록 배치된 제1 프로세서; 및
    상기 신호들 또는 상기 제1 출력 중 적어도 하나를 수신하도록 배치된 제2 프로세서를 포함하되;
    적어도 상기 제2 프로세서는 상기 가청음으로부터 사람의 음성의 적어도 하나의 성분의 존재를 결정하는, 광 마이크로폰 장치.
  2. 청구항 1에 있어서, 상기 광 마이크로폰들은 5 mm 미만의 상호 간격으로 배치되는, 광 마이크로폰 장치.
  3. 청구항 1 또는 2에 있어서, 상기 제1 및 제2 프로세서들 중 적어도 하나는 상기 신호들에 관한 복수의 처리 동작을 수행하도록 배치되되, 상기 처리 동작들은 복수의 후보 결정을 부여하기 위해 상기 신호들이 각각의 복수의 방향에서 나온다는 복수의 전제에 대응하고; 그 후 선택 기준에 기초하여 후보 전제들 중 하나를 선택하도록 배치되는, 광 마이크로폰 장치.
  4. 청구항 1 또는 2에 있어서, 상기 제1 프로세서는 상기 가청음으로부터 사람의 음성의 적어도 하나의 성분의 존재를 결정하도록, 그리고 상기 성분이 존재한다고 결정되는 경우, 상기 제2 프로세서가 비교적 수동 모드에서 보다 활성 모드로 변경되게 하기 위한 기상 신호를 발행하도록 배치되는, 광 마이크로폰 장치.
  5. 청구항 1 내지 4 중 어느 한 항에 있어서, 상기 제1 프로세서 및 상기 광 마이크로폰 어레이는 공통 디바이스에 제공되는, 광 마이크로폰 장치.
  6. 청구항 1 내지 5 중 어느 한 항에 있어서, 상기 제2 프로세서는 상기 광 마이크로폰 어레이가 제공되는 하나의 또는 상기 디바이스에 원격으로 제공되는, 광 마이크로폰 장치.
  7. 청구항 1 내지 6 중 어느 한 항에 있어서, 상기 제1 프로세서는 상기 제2 프로세서에서의 음성 인식을 돕기 위해 초기 신호 처리를 수행하도록 배치되는, 광 마이크로폰 장치.
  8. 청구항 1 내지 6 중 어느 한 항에 있어서, 상기 제1 프로세서는 상기 신호들에 관해 빔포밍을 수행하도록 배치되고 상기 제2 프로세서는 음성 인식을 수행하도록 배치되는, 광 마이크로폰 장치.
  9. 청구항 1 내지 8 중 어느 한 항에 있어서, 상기 제2 프로세서는 적어도 베이스 주파수 및 상기 베이스 주파수의 정수배인 오버톤 주파수를 사용하여 상기 가청음으로부터 사람의 음성의 적어도 하나의 성분의 존재를 결정하도록 배치되는, 광 마이크로폰 장치.
  10. 청구항 9에 있어서, 복수의 오버톤을 사용하도록 배치되는, 광 마이크로폰 장치.
  11. 청구항 9 또는 10에 있어서, 상기 광 마이크로폰들은 상기 베이스 주파수의 상기 파장의 절반 미만의 상호 간격을 갖는, 광 마이크로폰 장치.
  12. 청구항 9 내지 11 중 어느 한 항에 있어서, 상기 오버톤(들)의 상기 주파수에서 빔포밍을 수행하도록 배치되는, 광 마이크로폰 장치.
  13. 청구항 12에 있어서, 상기 빔포밍은 상기 제1 프로세서에 의해 수행되는, 광 마이크로폰 장치.
  14. 광 마이크로폰 장치로서,
    5mm 미만의 상호 최근접 간격을 갖는 기판 상의 광 마이크로폰들의 어레이로서, 상기 광 마이크로폰들의 각각은 착신 가청음의 결과로서 각각의 멤브레인의 변위를 나타내는 신호를 제공하는, 상기 광 마이크로폰들의 어레이;
    상기 광 마이크로폰들로부터 상기 신호들을 수신하도록 그리고 상기 가청음으로부터 사람의 음성의 적어도 하나의 성분의 존재를 결정하도록 배치되는 하나 이상의 프로세서를 포함하는, 광 마이크로폰 장치.
  15. 광 마이크로폰 장치로서,
    기판 상의 광 마이크로폰들의 어레이로서, 상기 광 마이크로폰들의 각각은 착신 가청음의 결과로서 각각의 멤브레인의 변위를 나타내는 신호를 제공하는, 상기 광 마이크로폰들의 어레이;
    상기 광 마이크로폰들로부터 상기 신호들을 수신하도록 그리고 적어도 베이스 주파수 및 상기 베이스 주파수의 정수배인 오버톤 주파수를 사용하여 상기 가청음으로부터 사람의 음성의 적어도 하나의 성분의 존재를 결정하도록 배치되는 하나 이상의 프로세서를 포함하는, 광 마이크로폰 장치.
  16. 청구항 15에 있어서, 상기 광 마이크로폰들은 5 mm 미만의 상호 최근접 간격을 갖는, 광 마이크로폰 장치.
  17. 청구항 15 또는 16에 있어서, 복수의 오버톤을 사용하도록 배치되는, 광 마이크로폰 장치.
  18. 청구항 15 내지 17 중 어느 한 항에 있어서, 상기 광 마이크로폰들은 상기 베이스 주파수의 상기 파장의 절반 미만의 상호 간격을 갖는, 광 마이크로폰 장치.
  19. 청구항 15 내지 18 중 어느 한 항에 있어서, 상기 오버톤(들)의 상기 주파수에서 빔포밍을 수행하도록 배치되는, 광 마이크로폰 장치.
  20. 청구항 1 내지 19 중 어느 한 항에 있어서, 상기 광 마이크로폰들은: 멤브레인; 광의 적어도 일부가 상기 멤브레인으로부터 반사되도록 상기 광을 상기 멤브레인에 보내도록 배치되는 광원; 및 반사된 상기 광을 검출하도록 배치되는 광 검출기를 포함하는, 광 마이크로폰 장치.
  21. 청구항 20에 있어서, 상기 광원 및 상기 멤브레인 사이에 제공되는 회절 소자를 포함하는, 광 마이크로폰 장치.
  22. 청구항 21에 있어서, 상기 회절 소자는 반사 물질에 의해 형성되는 회절 패턴을 포함하는, 광 마이크로폰 장치.
  23. 청구항 20 내지 22 중 어느 한 항에 있어서, 각 마이크로폰에 대한 복수의 검출기를 포함하는, 광 마이크로폰 장치.
  24. 청구항 20 내지 23 중 어느 한 항에 있어서, 각 마이크로폰에 대해 복수의 회절 소자를 포함하는, 광 마이크로폰 장치.
  25. 착신 가청음으로부터 음성의 적어도 하나의 성분의 존재를 결정하는 방법으로서, 상기 가청음은 파장 대역 내 그것의 적어도 일부를 갖고, 상기 방법은 청구항 1 내지 24에 따른 광 마이크로폰들의 어레이를 사용하여 상기 가청음을 수신하는 단계; 및 음성의 상기 성분을 검출하기 위해 상기 마이크로폰들로부터 상기 신호들을 처리하는 단계를 포함하되, 상기 마이크로폰들은 상기 파장 대역의 가장 긴 파장의 절반 미만의 상호 간격을 갖는, 방법.
  26. 착신 가청음으로부터 음성의 적어도 하나의 성분의 존재를 결정하는 방법으로서, 상기 가청음은 파장 대역 내 그것의 적어도 일부를 갖고, 상기 방법은 기판 상에 광 마이크로폰들의 어레이를 사용하여 상기 가청음을 수신하는 단계; 및 음성의 상기 성분을 검출하기 위해 상기 마이크로폰들로부터 상기 신호들을 처리하는 단계를 포함하되, 상기 마이크로폰들은 상기 파장 대역의 가장 긴 파장의 절반 미만의 상호 간격을 갖고, 상기 광 마이크로폰들의 각각은 상기 가청음의 결과로서 각각의 멤브레인의 변위를 나타내는 신호를 제공하는, 방법.
  27. 청구항 25 또는 26에 있어서, 상기 마이크로폰들은 상기 파장 대역의 정중 파장의 절반 미만의 상호 간격을 갖는, 방법.
  28. 청구항 25 내지 27 중 어느 한 항에 있어서, 소정의 방향 또는 방향들의 범위로부터 수신되는 상기 가청음의 일부를 우선적으로 사용하기 위해 상기 마이크로폰들로부터의 상기 신호들을 처리하는 단계를 포함하는, 방법.
  29. 청구항 28에 있어서, 복수의 방향으로부터의 소리를 사용하는 단계 및 어느 것이 최상의 결과를 내는지에 기초하여 상기 방향들 중 하나를 선택하는 단계를 포함하는, 방법.
KR1020177031938A 2015-04-09 2016-04-11 음성 인식 KR20170134640A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GBGB1506046.0A GB201506046D0 (en) 2015-04-09 2015-04-09 Speech recognition
GB1506046.0 2015-04-09
PCT/GB2016/051010 WO2016162701A1 (en) 2015-04-09 2016-04-11 Speech recognition

Publications (1)

Publication Number Publication Date
KR20170134640A true KR20170134640A (ko) 2017-12-06

Family

ID=53333540

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177031938A KR20170134640A (ko) 2015-04-09 2016-04-11 음성 인식

Country Status (8)

Country Link
US (1) US10356533B2 (ko)
EP (1) EP3281200B1 (ko)
JP (1) JP2018517325A (ko)
KR (1) KR20170134640A (ko)
CN (1) CN107533842A (ko)
CA (1) CA2981690A1 (ko)
GB (1) GB201506046D0 (ko)
WO (1) WO2016162701A1 (ko)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NO20130884A1 (no) * 2013-06-21 2014-12-22 Sinvent As Sensorelement med optisk forskyvning
KR20180036032A (ko) * 2016-09-30 2018-04-09 삼성전자주식회사 영상처리장치 및 기록매체
GB201708100D0 (en) * 2017-05-19 2017-07-05 Sintef Input device
US10460729B1 (en) * 2017-06-30 2019-10-29 Amazon Technologies, Inc. Binary target acoustic trigger detecton
US10460722B1 (en) * 2017-06-30 2019-10-29 Amazon Technologies, Inc. Acoustic trigger detection
GB201807889D0 (en) 2018-05-15 2018-06-27 Sintef Tto As Microphone housing
CN108957390B (zh) * 2018-07-09 2022-03-18 东南大学 一种存在互耦时基于稀疏贝叶斯理论的到达角估计方法
CN110164423B (zh) 2018-08-06 2023-01-20 腾讯科技(深圳)有限公司 一种方位角估计的方法、设备及存储介质
CN109599124B (zh) 2018-11-23 2023-01-10 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置及存储介质
CN109461456B (zh) * 2018-12-03 2022-03-22 云知声智能科技股份有限公司 一种提升语音唤醒成功率的方法
CN109448720A (zh) * 2018-12-18 2019-03-08 维拓智能科技(深圳)有限公司 便民服务自助终端及其语音唤醒方法
CN109841214B (zh) * 2018-12-25 2021-06-01 百度在线网络技术(北京)有限公司 语音唤醒处理方法、装置和存储介质
DE102019200954A1 (de) * 2019-01-25 2020-07-30 Sonova Ag Signalverarbeitungseinrichtung, System und Verfahren zur Verarbeitung von Audiosignalen
WO2020214108A1 (en) * 2019-04-18 2020-10-22 Orta Dogu Teknik Universitesi Fiber optic mems microphone
KR20200132613A (ko) * 2019-05-16 2020-11-25 삼성전자주식회사 웨이크 언 보이스(Wake on Voice, WoV) 기술을 이용한 음성 인식 수행 방법 및 장치
EP3755007A1 (en) * 2019-06-19 2020-12-23 Infineon Technologies AG Device for sensing a motion of a deflective surface
CN112449295A (zh) * 2019-08-30 2021-03-05 华为技术有限公司 麦克风芯片、麦克风及终端设备
CN113923580B (zh) * 2020-06-23 2022-07-26 中国科学院声学研究所 一种双模拾音装置
CN112447184B (zh) * 2020-11-10 2024-06-18 北京小米松果电子有限公司 语音信号处理方法及装置、电子设备、存储介质
US20240071391A1 (en) * 2021-03-12 2024-02-29 Qualcomm Incorporated Reduced-latency speech processing

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3173208B2 (ja) 1993-01-29 2001-06-04 キヤノン株式会社 変位測定装置
CN1035135C (zh) 1993-06-10 1997-06-11 清华大学 高温全息光栅及其制造方法
US5920418A (en) 1994-06-21 1999-07-06 Matsushita Electric Industrial Co., Ltd. Diffractive optical modulator and method for producing the same, infrared sensor including such a diffractive optical modulator and method for producing the same, and display device including such a diffractive optical modulator
CA2149933A1 (en) 1994-06-29 1995-12-30 Robert M. Boysel Micro-mechanical accelerometers with improved detection circuitry
US5969838A (en) * 1995-12-05 1999-10-19 Phone Or Ltd. System for attenuation of noise
JP2000078695A (ja) * 1998-09-01 2000-03-14 Fujitsu Ltd 指向性光マイクロフォン
US6567572B2 (en) 2000-06-28 2003-05-20 The Board Of Trustees Of The Leland Stanford Junior University Optical displacement sensor
TW501116B (en) 2000-07-05 2002-09-01 Matsushita Electric Ind Co Ltd Optical device, optical semiconductor device, and optical information processor comprising them
IL138459A0 (en) 2000-09-14 2001-10-31 Phone Or Ltd Membranes for optical microphone/sensors
JP2002152873A (ja) * 2000-11-09 2002-05-24 Nippon Hoso Kyokai <Nhk> マイク
CA2436753C (en) 2001-02-06 2009-03-17 Weatherford/Lamb, Inc. Highly sensitive cross axis accelerometer
CN1313846C (zh) 2001-10-05 2007-05-02 松下电器产业株式会社 衍射光学元件及使用了该衍射光学元件的光学头
NO315397B1 (no) 2001-11-13 2003-08-25 Sinvent As Optisk forskyvnings-sensor
NO315177B1 (no) 2001-11-29 2003-07-21 Sinvent As Optisk forskyvnings-sensor
US7116430B2 (en) 2002-03-29 2006-10-03 Georgia Technology Research Corporation Highly-sensitive displacement-measuring optical device
US7518737B2 (en) 2002-03-29 2009-04-14 Georgia Tech Research Corp. Displacement-measuring optical device with orifice
JP2004281026A (ja) 2002-08-23 2004-10-07 Matsushita Electric Ind Co Ltd 光ピックアップヘッド装置及び光情報装置及び光情報再生方法
JP4516527B2 (ja) * 2003-11-12 2010-08-04 本田技研工業株式会社 音声認識装置
US7355720B1 (en) * 2005-12-20 2008-04-08 Sandia Corporation Optical displacement sensor
US7826629B2 (en) 2006-01-19 2010-11-02 State University New York Optical sensing in a directional MEMS microphone
RU2365064C1 (ru) 2008-04-18 2009-08-20 Государственное образовательное учреждение высшего профессионального образования "Санкт-Петербургский государственный электротехнический университет "ЛЭТИ" им. В.И. Ульянова (Ленина)" (СПбГЭТУ "ЛЭТИ" им. В.И. Ульянова (Ленина) Оптический микрофон и способ изготовления его звукочувствительной мембраны
US8154734B2 (en) 2008-04-25 2012-04-10 Symphony Acoustics, Inc. Optical interferometric sensor
US8131494B2 (en) 2008-12-04 2012-03-06 Baker Hughes Incorporated Rotatable orientation independent gravity sensor and methods for correcting systematic errors
US8205497B1 (en) * 2009-03-05 2012-06-26 Sandia Corporation Microelectromechanical inertial sensor
US8818806B2 (en) * 2010-11-30 2014-08-26 JVC Kenwood Corporation Speech processing apparatus and speech processing method
RU2473181C1 (ru) 2011-05-17 2013-01-20 Федеральное государственное учреждение 24 Центральный научно-исследовательский институт Министерства обороны Российской Федерации Оптический микрофон
US8949118B2 (en) * 2012-03-19 2015-02-03 Vocalzoom Systems Ltd. System and method for robust estimation and tracking the fundamental frequency of pseudo periodic signals in the presence of noise
CN104884915A (zh) 2012-10-11 2015-09-02 硅音震有限公司 用于具有光学读出的位移传感器的闭合环路控制技术
EP2816554A3 (en) * 2013-05-28 2015-03-25 Samsung Electronics Co., Ltd Method of executing voice recognition of electronic device and electronic device using the same
NO20130884A1 (no) 2013-06-21 2014-12-22 Sinvent As Sensorelement med optisk forskyvning
US9747899B2 (en) * 2013-06-27 2017-08-29 Amazon Technologies, Inc. Detecting self-generated wake expressions
NO20140263A1 (no) 2014-02-28 2015-08-31 Pgs Geophysical As Optisk bevegelsessensor
US9404860B2 (en) * 2014-05-09 2016-08-02 Apple Inc. Micro-electro-mechanical system optical sensor with tilt plates
CN105182000B (zh) 2015-05-30 2018-05-22 浙江大学 光学mems加速度计中三光路信号补偿系统及其方法

Also Published As

Publication number Publication date
CA2981690A1 (en) 2016-10-13
CN107533842A (zh) 2018-01-02
US10356533B2 (en) 2019-07-16
EP3281200A1 (en) 2018-02-14
WO2016162701A1 (en) 2016-10-13
EP3281200B1 (en) 2020-12-16
GB201506046D0 (en) 2015-05-27
US20180075867A1 (en) 2018-03-15
JP2018517325A (ja) 2018-06-28

Similar Documents

Publication Publication Date Title
KR20170134640A (ko) 음성 인식
Takeda et al. Discriminative multiple sound source localization based on deep neural networks using independent location model
KR101688354B1 (ko) 신호 소스 분리
WO2019187589A1 (ja) 音源方向推定装置、音源方向推定方法、プログラム
US20220408180A1 (en) Sound source localization with co-located sensor elements
US9478230B2 (en) Speech processing apparatus, method, and program of reducing reverberation of speech signals
US10262678B2 (en) Signal processing system, signal processing method and storage medium
Asaei et al. Model-based sparse component analysis for reverberant speech localization
JP2020504329A (ja) 共振器を利用した話者認識方法及びその装置
Danes et al. Information-theoretic detection of broadband sources in a coherent beamspace MUSIC scheme
Adalbjörnsson et al. Sparse localization of harmonic audio sources
El Badawy et al. Direction of arrival with one microphone, a few legos, and non-negative matrix factorization
Salvati et al. End-to-End Speaker Identification in Noisy and Reverberant Environments Using Raw Waveform Convolutional Neural Networks.
Shi et al. Phase-based dual-microphone speech enhancement using a prior speech model
WO2013091677A1 (en) Speech recognition method and system
Li et al. Local relative transfer function for sound source localization
Kwizera et al. Direction of arrival estimation based on MUSIC algorithm using uniform and non-uniform linear arrays
Shujau et al. Designing acoustic vector sensors for localisation of sound sources in air
Chen et al. A DNN based normalized time-frequency weighted criterion for robust wideband DoA estimation
Suksiri et al. Multiple frequency and source angle estimation by gaussian mixture model with modified microphone array data model
Trawicki et al. Multichannel speech recognition using distributed microphone signal fusion strategies
Nguyen et al. Sound detection and localization in windy conditions for intelligent outdoor security cameras
Chien et al. Microphone array signal processing for far-talking speech recognition
Hu et al. Wake-up-word detection by estimating formants from spatial eigenspace information
WO2017183857A1 (ko) 음성 주파수 분석 시스템 및 음성 주파수 분석 방법과 이를 이용한 음성 인식 시스템 및 음성 인식 방법