KR20210122348A - 음성 인식을 위한 디지털 마이크로폰 인터페이스 회로 및 이를 포함하는 전자 장치 - Google Patents

음성 인식을 위한 디지털 마이크로폰 인터페이스 회로 및 이를 포함하는 전자 장치 Download PDF

Info

Publication number
KR20210122348A
KR20210122348A KR1020200038326A KR20200038326A KR20210122348A KR 20210122348 A KR20210122348 A KR 20210122348A KR 1020200038326 A KR1020200038326 A KR 1020200038326A KR 20200038326 A KR20200038326 A KR 20200038326A KR 20210122348 A KR20210122348 A KR 20210122348A
Authority
KR
South Korea
Prior art keywords
pcm
pcm signal
signal
block
scale gain
Prior art date
Application number
KR1020200038326A
Other languages
English (en)
Inventor
이성노
신효철
노형동
이용기
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020200038326A priority Critical patent/KR20210122348A/ko
Priority to US17/130,401 priority patent/US11538479B2/en
Priority to CN202110241792.1A priority patent/CN113470690A/zh
Publication of KR20210122348A publication Critical patent/KR20210122348A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/12Details of telephonic subscriber devices including a sensor for measuring a physical value, e.g. temperature or motion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

저전력 모드에서의 음성 인식을 위한 오디오 처리 블록을 포함하는 전자 장치가 개시된다. 전자 장치는 사용자로부터의 음성 신호를 수신하고, 수신된 음성 신호를 PDM 신호로 변환하는 디지털 마이크로폰, 그리고 DMIC 인터페이스 회로를 포함한다. DMIC 인터페이스 회로는 PDM 신호를 PCM 신호로 변환하는 PDM-PCM 컨버팅 블록, 미리 획득된 사용자와 전자 장치 사이의 거리에 기반하여 PDM-PCM 컨버팅 블록으로부터 수신된 PCM 신호의 맥스 스케일 게인을 조정하는 맥스 스케일 게인 튜닝 블록, 그리고 맥스 스케일 게인 튜닝 블록으로부터 출력된 PCM 신호에 대해 타깃 주파수 대역의 음성 데이터를 획득하기 위한 필터링을 수행하는 안티-에일리어싱 블록을 포함한다.

Description

음성 인식을 위한 디지털 마이크로폰 인터페이스 회로 및 이를 포함하는 전자 장치{DIGITAL MICROPHONE INTERFACE CIRCUIT FOR VOICE RECOGNITION AND INCLUDING THE SAME}
본 발명은 전자 장치에 관한 것으로, 좀 더 상세하게는 저전력 모드에서의 음성 인식을 위한 디지털 마이크로폰 인터페이스를 회로를 포함하는 전자 장치에 관한 것이다.
최근 인공 지능 관련 기술의 발달에 따라, 스마트폰과 같은 전자 장치에 인공 지능 기능이 탑재되는 추세이다. 예로서, 인공 지능을 이용한 음성 인식, 인공 지능을 이용한 이미지 처리 등이 대표적이다. 그 중에서도, 음성 인식은 전자 장치의 특정한 기능을 트리거시키는 명령, 슬립 상태에 있는 전자 장치를 웨이크-업 시키는 명령 등 다양한 형태로 활용될 수 있다.
전자 장치가 노멀 모드 또는 하이 퍼포먼스 모드에 있는 경우, 음성 신호의 대부분의 데이터를 사용하여 음성 인식이 수행됨에 반하여, 전자 장치가 저전력 모드 또는 슬립 모드에 있는 경우, 소비 전력 문제로 인하여 음성 인식에 사용되는 데이터가 제한된다. 따라서, 음성 인식률을 높이기 위해서는, 적절한 음압대의 음성 데이터를 선택하는 것이 중요하다.
그러나, 사용자로부터의 음성 신호가 마이크로폰을 통하여 수신된 후, 음성 신호의 게인을 확인하여 사후적으로 음성 신호의 게인을 변경하는 것은, 음성 신호를 왜곡시키며, 이는 저전력 모드에서의 음성 인식률이 낮아지는 문제를 초래한다.
본 발명은 상술된 과제를 해결하기 위한 것으로써, 본 발명의 기술 사상은 저전력 모드에 있는 전자 장치의 음성 인식률을 높일 수 있는 방안을 제공한다.
좀 더 구체적으로, 본 발명의 기술 사상은 전자 장치 내의 다양한 센서들을 이용하여 사용자와 전자 장치의 거리를 미리 획득하고, 획득된 거리에 기반하여 PCM 신호의 맥스 스케일 게인을 조정하는 방안을 제공한다.
본 개시의 저전력 모드에서의 음성 인식을 위한 오디오 처리 블록을 포함하는 전자 장치는, 사용자로부터의 음성 신호를 수신하고, 수신된 음성 신호를 PDM 신호로 변환하는 디지털 마이크로폰, 그리고 DMIC 인터페이스 회로를 포함하되, 상기 DMIC 인터페이스 회로는, 상기 PDM 신호를 PCM 신호로 변환하는 PDM-PCM 컨버팅 블록, 미리 획득된 사용자와 상기 전자 장치 사이의 거리에 기반하여 상기 PDM-PCM 컨버팅 블록으로부터 수신된 상기 PCM 신호의 맥스 스케일 게인을 조정하는 맥스 스케일 게인 튜닝 블록, 그리고 상기 맥스 스케일 게인 튜닝 블록으로부터 출력된 PCM 신호에 대해 타깃 주파수 대역의 음성 데이터를 획득하기 위한 필터링을 수행하는 안티-에일리어싱 블록을 포함한다.
본 개시의 저전력 모드에서의 음성 인식을 위한 오디오 처리 블록을 포함하는 전자 장치는, 사용자로부터의 음성 신호를 수신하고, 수신된 음성 신호를 제 1 PDM 신호 및 제 2 PCM 신호로 각각 변환하는 제 1 및 제 2 디지털 마이크로폰들, 상기 제 1 PDM 신호를 입력 받아 제 1 PCM 신호로 변환하고, 미리 획득된 사용자와 상기 전자 장치 사이의 거리에 기반하여 상기 제 1 PCM 신호의 맥스 스케일 게인을 조정하도록 구성되는 제 1 DMIC 인터페이스 회로, 그리고 상기 제 2 PCM 신호를 입력 받아 제 2 PCM 신호로 변환하고, 상기 미리 획득된 거리와 다른 값에 기반하여 상기 제 2 PCM 신호의 맥스 스케일 게인을 조정하도록 구성되는 제 2 DMIC 인터페이스 회로를 포함한다.
본 개시의 디지털 마이크로폰, DMIC 인터페이스, 및 센서를 포함하는 전자 장치에서의 음성 인식 방법은, 상기 센서에 의해, 사용자와 상기 전자 장치 사이의 거리를 획득하는 단계, 상기 디지털 마이크로폰에 의해, 상기 사용자로부터의 음성을 PDM 신호로 변환하는 단계, 상기 DMIC 인터페이스에 의해, 상기 PDM 신호를 PCM 신호로 변환하는 단계, 상기 DMIC 인터페이스에 의해, 상기 미리 획득된 거리에 기반하여 상기 변환된 PCM 신호의 맥스 스케일 게인을 조정하는 단계, 상기 DMIC 인터페이스에 의해, 상기 조정된 PCM 신호에 대해 타깃 주파수 대역의 음성 데이터를 획득하기 위한 필터링을 수행하는 단계, 그리고 음성 인식 모듈에 의해, 상기 필터링 된 PCM 신호에 기반하여 음성 인식을 실행하는 단계를 포함한다.
본 개시에 의하면, 저전력 모드에 있는 전자 장치의 음성 인식률을 높일 수 있다.
더 나아가, 본 개시에 의하면, 전자 장치 내의 다양한 센서들을 이용함으로써 사용자와 전자 장치의 거리를 미리 획득하고, 획득된 거리에 기반하여 PCM 신호의 맥스 스케일 게인을 조절한다. 음성 인식 전에 PCM 신호의 맥스 스케일 게인을 조절함으로써 PCM 신호의 해상도가 유지되기 때문에, 음성 인식률을 높일 수 있다.
도 1은 본 개시의 실시 예에 따른 전자 장치의 예시적인 구성을 도시한다.
도 2는 도 1의 전자 장치에 의해 처리되는 음성 데이터의 다양한 예들을 개념적으로 도시한다.
도 3는 도 1의 오디오 처리 블록의 예시적인 구성을 좀 더 상세하게 도시한다.
도 4 및 도 5는 도 3의 맥스 스케일 게인 튜닝 블록의 동작을 개념적으로 도시한다.
도 6은 본 개시의 실시 예에 따른 음성 인식 모듈을 포함하는 전자 장치의 동작 방법을 예시적으로 도시한다.
도 7은 도 3의 맥스 스케일 게인 튜닝 블록에 의해 이용되는 거리 관련 정보를 생성하는 예시적인 구성을 도시한다.
도 8은 도 3의 맥스 스케일 게인 튜닝 블록에 의해 이용되는 거리 관련 정보를 생성하는 예시적인 구성을 도시한다.
도 9는 도 7 및 도 8의 맥스 스케일 게인 튜닝 블록의 예시적인 구성을 도시한다.
도 10은 도 7 및 도 8의 맥스 스케일 게인 튜닝 블록의 예시적인 구성을 도시한다.
도 11은 본 개시의 실시 예에 따른 맥스 스케일 게인의 조정에 의해 동적 범위와 해상도가 변하는 것을 개념적으로 도시한다.
도 12는 본 개시의 실시 예에 따른 전자 장치의 예시적인 구성을 도시한다.
도 13은 도 12의 오디오 처리 블록들의 맥스 스케일 게인 튜닝 블록들의 동작을 개념적으로 도시한다.
도 14는 도 12에 도시된 전자 장치의 동작 방법을 예시적으로 도시한다.
이하에서, 본 발명의 기술 분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있을 정도로, 본 발명의 실시 예들이 명확하고 상세하게 기재될 것이다.
상세한 설명에서 사용되는 부 또는 유닛(unit), 모듈(module), 블록(block), ~기(~or, ~er) 등의 용어들을 참조하여 설명되는 구성 요소들 및 도면에 도시된 기능 블록들은 소프트웨어, 또는 하드웨어, 또는 그것들의 조합의 형태로 구현될 수 있다. 예시적으로, 소프트웨어는 기계 코드, 펌웨어, 임베디드 코드, 및 애플리케이션 소프트웨어일 수 있다. 예를 들어, 하드웨어는 전기 회로, 전자 회로, 프로세서, 컴퓨터, 집적 회로, 집적 회로 코어들, 압력 센서, 관성 센서, 멤즈 (microelectromechanical system; MEMS), 수동 소자, 또는 그것들의 조합을 포함할 수 있다.
도 1은 본 개시의 실시 예에 따른 전자 장치의 예시적인 구성을 도시한다.
전자 장치(1000)는 다양한 전자 회로를 포함할 수 있다. 예로서, 전자 장치(1000)의 전자 회로들은 오디오 처리 블록(1100), 이미지 처리 블록(1200), 통신 블록(1300), 버퍼 메모리(1400), 불휘발성 메모리 장치(1500), 유저 인터페이스(1600), 센서(1700), 전력 관리기(1800), 및 메인 프로세서(1900)를 포함할 수 있다. 예로서, 전자 장치(1000)는 스마트폰, 태블릿, 스마트 TV 등과 같은 전자 기기로 구현될 수 있다.
오디오 처리 블록(1100)은 디지털 마이크로폰(1110) 및 DMIC (digital microphone) 인터페이스 회로(1120)를 포함할 수 있다. 오디오 처리 블록(1100)은 음성 인식을 위한 처리를 수행할 수 있다. 예로서, 오디오 처리 블록(1100)은 디지털 마이크로폰(1110)을 통해 음성 신호를 수신할 수 있으며, DMIC 인터페이스 회로(1120)를 이용하여 디지털 마이크로폰(1110)의 출력 신호를 처리할 수 있다.
DMIC 인터페이스 회로(1120)는, 전자 장치(1000)의 저전력 모드 시, 제한된 비트의 해상도를 갖는 PCM (Pulse Coded Modulation) 신호의 맥스 스케일 게인(max scale gain)을 조정할 수 있다. 다만, DMIC 인터페이스 회로(1120)는 음성 인식률이 저하하는 것을 피하기 위해, 음성 인식 처리 도중에 맥스 스케일 게인을 조정하지 않는다. 대신에, DMIC 인터페이스 회로(1120)는 전자 장치(1000)에 의해 미리 획득된 사용자와 전자 장치(1000) 사이의 거리 관련 정보에 기반하여 PCM 신호의 맥스 스케일 게인을 미리 조정할 수 있다. 예로서, 맥스 스케일 게인은 메인 프로세서(1900) 또는 오디오 처리 블록(1100)에 구비된 별도의 오디오 전용 프로세서(미도시) 등에 의해 계산될 수 있다. 예로서, 전자 장치(1000)와 사용자 사이의 거리 값은 이미지 처리 블록(1200), 센서(1700) 등에 의해 획득될 수 있다.
예로서, 사용자와 전자 장치(1000) 사이의 거리가 상대적으로 가까운 경우, DMIC 인터페이스 회로(1120)는 근거리 인식률을 높이기 위해 PCM 신호의 게인을 낮출 수 있다. 반대로, 사용자와 전자 장치(1000) 사이의 거리가 상대적으로 먼 경우, DMIC 인터페이스 회로(1120)는 원거리 인식률을 높이기 위해 PCM 신호의 게인을 높일 수 있다. DMIC 인터페이스 회로(1120)의 구체적인 동작은 상세하게 후술될 것이다.
이미지 처리 블록(1200)은 렌즈(1210), 이미지 센서(1220), 및 이미지 신호 프로세서(1230)를 포함할 수 있다. 이미지 처리 블록(1200)은 사용자와 전자 장치(1000) 사이의 거리를 측정 (또는 획득)하는 장치를 포함할 수 있다. 예로서, 이미지 처리 블록(1200)은 ToF (time of flight) 카메라로서 구현될 수 있다. 이 경우, 이미지 센서(1220)는 깊이 센서, 또는 ToF 센서로 칭해질 수 있다. 이미지 처리 블록(1200)에 의해 획득된 사용자와 전자 장치(1000) 사이의 거리 값은 버퍼 메모리(1400)에 저장될 수 있으며, DMIC 인터페이스 회로(1120)는 PCM 신호의 맥스 스케일 게인을 조정하기 위해 버퍼 메모리(1400)에 저장된 거리 값을 참조할 수 있다. 그 외에도, 이미지 처리 블록(1200)은 CIS (CMOS image sensor), DVS (dynamic vision sensor) 등을 더 포함할 수 있다.
도 1에서 이미지 신호 프로세서(1230)가 이미지 처리 블록(1200)에 포함되는 것으로 도시되었다. 그러나, 다른 실시 예에서, 이미지 신호 프로세서(1230)는 이미지 센서(1220)의 일부분으로서 제공되거나, 이미지 처리 블록(1200)과 별개의 구성으로 제공되거나, 및/또는 메인 프로세서(1900)의 일부분으로서 제공될 수 있다. 예로서, 이미지 신호 프로세서(1230)가 수행하는 기능들 중 적어도 일부는 메인 프로세서(1900)에 의해 수행되거나, 이미지 신호 프로세서(1230)가 수행하는 기능들 중 적어도 일부는 메인 프로세서(1900)에 포함된 또 다른 이미지 신호 프로세서에 의해 처리될 수 있다.
통신 블록(1300)은 안테나(1310)를 통해 외부 장치/시스템과 신호를 교환할 수 있다. 통신 블록(1300)의 송수신기(1320) 및 MODEM(Modulator/Demodulator, 1330)은 다양한 통신 규약에 따라, 교환되는 신호를 처리할 수 있다. 예로서, 통신 블록(1300)의 송수신기(1320) 및 MODEM(1330)은 LTE(Long Term Evolution), WIMAX(Worldwide Interoperability for Microwave Access), GSM(Global System for Mobile communication), CDMA(Code Division Multiple Access), Bluetooth, NFC(Near Field Communication), Wi-Fi(Wireless Fidelity), RFID(Radio Frequency Identification) 등과 같은 무선 통신 규약에 따라, 외부 장치/시스템과 교환되는 신호를 처리할 수 있다. 그러나, 다른 실시 예에서, 통신 블록(1300)은 메인 프로세서(1900)의 일부분으로서 제공될 수 있다.
버퍼 메모리(1400)는 전자 장치(1000)의 동작에 이용되는 데이터(예컨대, 메인 프로세서(1900)에 의해 처리된 또는 처리될 데이터)를 일시적으로 저장할 수 있다. 예로서, 오디오 처리 블록(1100) 및/또는 메인 프로세서(1900)에 의한 음성 인식 처리 결과와, 이미지 처리 블록(1200) 및/또는 센서(1700)에 의해 획득된 사용자와 전자 장치(1000) 사이의 거리 값이 버퍼 메모리(1400)에 저장될 수 있다. 예로서, 버퍼 메모리(1400)는 SRAM(Static Random Access Memory), DRAM(Dynamic RAM), SDRAM(Synchronous DRAM), PRAM(Phase-change RAM), MRAM(Magneto-resistive RAM), ReRAM(Resistive RAM), FRAM(Ferro-electric RAM) 등과 같은 휘발성/불휘발성 메모리를 포함할 수 있다.
불휘발성 메모리 장치(1500)는 전력 공급에 관계없이 데이터를 저장할 수 있다. 예로서, 불휘발성 메모리 장치(1500)는 플래시 메모리, PRAM, MRAM, ReRAM, FRAM 등과 같은 불휘발성 메모리를 포함할 수 있다. 예로서, 불휘발성 메모리 장치(1500)는 HDD (Hard Disk Drive), SSD (Solid State Drive), SD (Secure Digital) 카드, 및 UFS (Universal Flash Storage) 카드 등과 같은 착탈식 메모리, 및/또는 eMMC (Embedded Multimedia Card) 등과 같은 내장(Embedded) 메모리를 포함할 수 있다. 예시적으로, 불휘발성 메모리 장치(1500)는 임베디드 UFS 스토리지(1510) 및 임베디드 UFS 스토리지(1510)를 통하여 메인 프로세서(1900)에 연결되는 착탈식 UFS 스토리지(1520)를 포함하는 것으로 도시되었다. 다만, 실시 예에 있어서, 착탈식 UFS 스토리지(1520)는 메인 프로세서(1900)에 직접 연결될 수도 있다.
유저 인터페이스(1600)는 사용자와 전자 장치(1000) 사이의 통신을 중재할 수 있다. 예로서, 유저 인터페이스(1600)는 키패드, 버튼, 터치 스크린, 터치 패드, 모션 센서, 자이로스코프 센서 등과 같은 입력 인터페이스를 포함할 수 있다. 예로서, 유저 인터페이스(1600)는 OLED(Organic LED) 표시 장치, AMOLED(Active Matrix OLED) 표시 장치, LCD(Liquid Crystal Display) 장치, LED(Light Emitting Diode) 표시 장치, LED 램프, 모터 등과 같은 출력 인터페이스를 포함할 수 있다.
센서(1700)는 전자 장치(1000) 또는 전자 장치 주변에서 발생하는 다양한 물리 현상을 감지할 수 있다. 예로서, 센서(1700)는 사용자와 전자 장치(1000) 사이의 거리를 측정할 수 있는 장치를 포함할 수 있다. 예로서, 센서(1700)는 전자기장이나 전자기파(예컨대, 적외선)를 이용하여 사용자와 전자 장치(1000) 사이의 거리를 판별하는 근접 센서, 초음파를 이용하여 사용자와 전자 장치(1000) 사이의 거리를 판별하는 초음파 센서 등을 포함할 수 있다. 한편, 이미지 처리 블록(1200)과 센서(1700)가 사용자와 전자 장치(1000) 사이의 거리를 측정하도록 구현되는 경우, 이미지 처리 블록(1200)과 센서(1700)는 편의상 센서로 칭해질 수 있다.
센서(1700)에 의해 획득된 사용자와 전자 장치(1000) 사이의 거리 값은 버퍼 메모리(1400)에 저장될 수 있으며, DMIC 인터페이스 회로(1120)는 PCM 신호의 맥스 스케일 게인을 조정하기 위해 버퍼 메모리(1400)에 저장된 거리 값을 참조할 수 있다. 그 외에도, 센서(1700)는 전자 장치(1000)의 가속도를 측정하기 위한 자이로 센서, 위치를 측정하기 위한 위치 센서 등을 더 포함할 수 있다.
전력 관리기(1800)는 배터리 및/또는 외부 전원으로부터 수신되는 전력을 적절하게 변환할 수 있다. 전력 관리기(1800)는 변환된 전력을 전자 장치(1000)의 구성 요소들로 공급할 수 있다.
메인 프로세서(1900)는 전자 장치(1000)의 전반적인 동작들을 제어하기 위해 다양한 연산을 처리할 수 있다. 메인 프로세서(1900)는 오디오 처리 블록(1100)으로부터 출력되는 신호에 기반하여 음성 인식을 수행할 수 있다. 예로서, 메인 프로세서(1900)는 음성 인식을 수행하기 위한 보이스 트리거 엔진(1910)을 구동할 수 있다. 예시적으로, 오디오 처리 블록(1100)과 보이스 트리거 엔진(1910)은 음성 인식 모듈로 칭해질 수 있다. 예로서, 메인 프로세서(1900)는 애플리케이션 프로세서(Application Processor), 범용 프로세서, 전용 프로세서 등으로 구현될 수 있고, 하나 이상의 프로세서 코어를 포함할 수 있다.
다만, 도 1에 나타낸 예시적인 구성 요소들은 더 나은 이해를 가능하게 하기 위해 제공되고, 본 개시를 한정하도록 의도되지는 않는다. 전자 장치(1000)는 도 1에 나타낸 구성 요소들 중 하나 이상을 포함하지 않을 수 있고, 또는 도 1에 나타내지 않은 적어도 하나의 구성 요소를 더 포함할 수 있다.
도 2는 도 1의 전자 장치(1000)에 의해 처리되는 음성 데이터의 다양한 예들을 개념적으로 도시한다.
전자 장치(1000)가 노멀 모드 또는 고성능 모드에 있는 경우(이하, 노멀 모드로 통칭하기로 함), 전자 장치(1000)는 146dB의 동적 범위(dynamic range)를 갖는 음성에 대한 음성 인식을 수행할 수 있다. 예로서, 146dB는 인간이 인식할 수 있는 가장 작은 소리부터 귀가 느끼는 고통의 한계의 범위에 대응할 수 있다. 예로서, 146dB의 동적 범위를 갖는 음성은 DMIC 인터페이스 회로(1120)에 의해 24비트의 데이터로 변환될 수 있으며, 도2에서 (a)가 나타내는 음성 영역에 대응할 수 있다.
전자 장치(1000)가 저전력 모드 또는 슬립 모드에 있는 경우(이하, 저전력 모드로 통칭하기로 함), 전자 장치(1000)는 98dB의 동적 범위를 갖는 음성에 대한 음성 인식을 수행할 수 있다. 예로서, 전자 장치(1000)가 스마트폰 또는 태블릿과 같은 전자 기기로 구현되는 경우, 저전력 모드는 사용자가 전자 장치(1000)는 사용하지 않는 상태(예컨대, 대기 상태)를 포함할 수 있다. 예로서, 98dB의 동적 범위를 갖는 음성은 저전력 모드에 있는 메인 프로세서(1900)가 수행하는 음성 인식의 영역에 대응할 수 있다.
구체적으로, (b)가 나타내는 음성 영역은 사용자가 전자 장치(1000)의 디지털 마이크로폰(1110)에 입을 대고 발화하는 경우를 예시적으로 도시하며, (c)가 나타내는 음성 영역은 사용자가 전자 장치(1000)의 디지털 마이크로폰(1110)으로부터 1m 떨어진 거리에서 발화하는 경우를 예시적으로 도시한다. 예로서, (b)가 나타내는 음성 영역의 상한과 (c)가 나타내는 음성 영역의 상한의 차이는 d로 표시된 영역(약 21dB)에 대응할 수 있으며, (b)가 나타내는 음성 영역의 하한과 (c)가 나타내는 음성 영역의 하한의 차이는 e로 표시된 영역(약 21dB)에 대응할 수 있다
전자 장치(1000)가 저전력 모드에 있는 경우, 메인 프로세서(1900)가 처리하는 음성 영역의 동적 범위는 제한되어 있기 때문에(예컨대, 16비트), 사용자의 발화 지점과 디지털 마이크로폰(1110) 사이의 거리에 따라 음성 인식의 성공률이 달라질 수 있다. 예컨대, 전자 장치(1000)로부터 상대적으로 가까운 거리에서 발화된 음성의 인식률을 높이기 위해서는 'd'로 표시된 영역의 음성이 소실되지 않도록 DMIC 인터페이스 회로(1120)를 설정할 필요가 있다. 반대로, 전자 장치(1000)로부터 상대적으로 먼 거리에서 발화된 음성의 인식률을 높이기 위해서는 'e'로 표시된 영역의 음성이 소실되지 않도록 DMIC 인터페이스 회로(1120)를 설정할 필요가 있다.
본 개시의 DMIC 인터페이스 회로(1120)는 메인 프로세서(1900)에 의한 음성 인식 도중 PCM 신호의 맥스 스케일 게인을 조정하지 않는다. 대신에, 본 개시의 DMIC 인터페이스 회로(1120)는 미리 획득된 사용자와 전자 장치(1000)의 거리에 따라 맥스 스케일 게인을 결정한 후, 메인 프로세서(1900)에 의한 음성 인식이 실행되기 전에, PCM 신호의 맥스 스케일 게인을 조정한다. 따라서, 음성 인식 도중에 게인이 변하지 않기 때문에, 음성 인식률을 높일 수 있다.
도 3는 도 1의 오디오 처리 블록(1100)의 예시적인 구성을 좀 더 상세하게 도시한다. 오디오 처리 블록(1100)은 디지털 마이크로폰(1110), 및 DMIC 인터페이스 회로(1120)를 포함할 수 있다.
디지털 마이크로폰(1110)은 사용자로부터의 음성 신호를 수신하고 수신된 음성 신호를 디지털 신호로 변환할 수 있다. 이를 위해, 디지털 마이크로폰(1110)은 아날로그-디지털 컨버팅 블록을 포함할 수 있다. 예로서, 디지털 마이크로폰(1110)에 포함된 아날로그-디지털 컨버팅 블록은 고 해상도(high-resolution)의 음성 데이터를 획득하기 위해 델타-시그마 모듈레이션 기반의 아날로그-디지털 변환을 수행할 수 있다.
디지털 마이크로폰(1110)에 포함된 아날로그-디지털 컨버팅 블록은 디지털 마이크로폰(1110)을 통하여 입력된 음성 신호에 대하여 오버 샘플링(over sampling)을 수행할 수 있다. 나아가, 디지털 마이크로폰(1110)은 음성 신호에 대하여 노이즈 셰이핑(noise shaping)을 수행할 수 있다. 예로서, 디지털 마이크로폰(1110)에 포함된 아날로그-디지털 컨버팅 블록은 아날로그 음성 신호를 디지털 신호로 변환하는 과정에서 발생하는 양자화 양자화 에러를 감소시키기 위한 루프 필터 포함할 수 있다.
디지털 마이크로폰(1110)은 전술된 오버 샘플링과 노이즈 셰이핑을 통하여 오버 샘플링 된 1비트의 PDM (Pulse Duration Modulation) 신호를 출력할 수 있다. 디지털 마이크로폰(1110)은 변환된 PDM 신호를 DMIC 인터페이스 회로(1120)로 전송할 수 있다.
DMIC 인터페이스 회로(1120)는, 디지털 마이크로폰(1110)으로부터 수신된 PCM 신호를, 저전력 모드에 있는 메인 프로세서(1900)가 처리하기에 적합한 형태로 가공할 수 있다. 이를 위해, DMIC 인터페이스 회로(1120)는 PDM-PCM 컨버팅 블록(1121), 맥스-스케일 게인 튜닝(max scaling tuning) 블록(1122), 및 안티-에일리어싱(anti-aliasing) 블록(1123)을 포함할 수 있다.
PDM-PCM 컨버팅 블록(1121)은 디지털 마이크로폰(1110)으로부터 수신된 PDM 신호를, 특정 비트(예컨대, 19비트)의 PCM (Pulse Coded Modulation) 신호로 변환할 수 있다. 안티-에일리어싱 블록(1123)은 원하는 주파수 대역(또는, 타깃 주파수 대역)의 음성 데이터를 획득하기 위한 필터링을 수행할 수 있다. 예로서, 안티-에일리어싱 블록(1123)은 저역 통과 대역 필터링을 수행할 수 있다.
다만, 저전력 모드 상태의 메인 프로세서(1900)가 음성 인식 동작을 수행하기에 적합한 PCM 신호의 비트 수(예컨대, 16비트)는 DMIC 인터페이스 회로(1120)로부터 출력되는 PCM 신호의 비트 수(예컨대, 19비트)보다 적을 수 있다. 따라서, 사용자와 전자 장치(1000) 사이의 거리에 따라, 메인 프로세서(1900)가 음성 인식을 수행하는데 요구되는 PCM 신호의 영역은 변할 수 있다. 예로서, 사용자와 전자 장치(1000) 사이의 거리가 가까우면, PCM 신호를 구성하는 비트들 중 큰 소리에 대응하는 MSB (most significant bit)가 소실될 우려가 있다. 반면, 사용자와 전자 장치(1000) 사이의 거리가 멀다면, PCM 신호를 구성하는 비트들 중 LSB (least significant bit)가 소실될 우려가 있다.
따라서, 본 개시의 맥스 스케일 게인 튜닝 블록(1122)은, 메인 프로세서(1900)에 의한 음성 인식이 수행되기 전에, 미리 획득된 사용자와 전자 장치(1000) 사이의 거리 값에 기반하여, 컨버팅 블록(1121)으로부터 출력된 PCM 신호의 게인을 조정할 수 있다. 예로서, 사용자와 전자 장치(1000) 사이의 거리가 가까우면, 맥스 스케일 게인 튜닝 블록(1122)은 PCM 신호의 맥스 스케일 게인을 감소시킬 수 있다. 반면, 사용자와 전자 장치(1000) 사이의 거리가 멀다면, 맥스 스케일 게인 튜닝 블록(1122)은 PCM 신호의 맥스 스케일 게인을 증가시킬 수 있다. 맥스 스케일 게인 튜닝 블록(1122)의 구체적인 동작은 상세하게 후술될 것이다.
한편, 도 3에 도시된 기능 블록들은 예시적인 것이며, 본 발명은 도시된 구성에 한정되지 않는다. 예로서, PDM-PCM 컨버팅 블록(1121)과 안티-에일리어싱 블록(1123)이 별개의 기능 블록으로 도시된 것과는 달리, DMIC 인터페이스 회로(1120)는 PDM 신호를 PCM 신호로 변환하는 동작과 안티-에일리어싱 동작을 수행하는 하나의 칩 또는 회로를 포함할 수 있다.
도 4 및 도 5는 도 3의 맥스 스케일 게인 튜닝 블록의 동작을 개념적으로 도시한다.
예시적으로, 도 4는 사용자가 전자 장치(1000) 사이의 거리가 상대적으로 가까운 경우의 처리와 관련될 수 있다. 예로서, PDM-PCM 컨버팅 블록(1121)으로부터 출력되는 PCM 신호는 19비트일 수 있다. PCM 신호의 LSB는 PDM-PCM 컨버팅 블록(1121)으로부터 출력되는 신호 중 상대적으로 작은 소리에 대응할 수 있으며, PCM 신호의 MSB는 PDM-PCM 컨버팅 블록(1121)으로부터 출력되는 신호 중 상대적으로 큰 소리에 대응할 수 있다.
그러나, PCM 신호의 비트 수는 이에 한정되지 않는다. 예로서, PCM 신호의 비트 수는 모드에 있는 전자 장치(1000)가 음성 인식을 수행하는데 사용되는 데이터의 비트 수(예컨대, 24비트)보다 작을 수 있다. 그리고, PCM 신호의 비트 수는 저전력 모드에 있는 전자 장치(1000)가 음성 인식을 수행하는데 사용되는 데이터의 비트 수(예컨대, 16비트)보다 클 수 있다.
다만, 저전력 모드에 있는 메인 프로세서(1900)에 의해 처리되는 음성 데이터의 비트는 16비트로 제한되기 때문에, PDM-PCM 컨버팅 블록(1121)으로부터 출력된 모든 데이터가 메인 프로세서(1900)에 의해 처리되지 않는다. 예로서, 사용자가 디지털 마이크로폰(도 1, 1110)에 입을 대고 발화하는 경우, 상대적으로 큰 음압 영역에 대응하는 데이터가 PDM-PCM 컨버팅 블록(1121)으로부터 출력될 수 있으며, 사용자의 음성 인식을 위해서는 MSB가 상대적으로 더 중요할 수 있다.
한편, 도 4에 도시된 것과 같이, 사용자와 전자 장치(1000) 사이의 거리가 상대적으로 가까운 경우, PDM-PCM 컨버팅 블록(1121)으로부터 출력되는 PCM 신호 중 MSB는 메인 프로세서(1900)에 의해 처리 가능한 영역 외에 속해 있을 수 있다. 그러므로, MSB에 대한 별도의 처리가 없다면, 메인 프로세서(1900)는 '2~17' 사이의 비트들로 구성된 데이터를 이용하여 음성 인식을 수행할 것이다. 이 경우, 큰 음압에 대응하는 MSB가 음성 인식에서 상대적으로 중요하기 때문에, 음성 인식률이 저하될 수 있다.
본 개시의 맥스 스케일 게인 튜닝 블록(1122)은 사용자의 발화 전에 미리 획득된 사용자와 전자 장치(1000) 사이의 거리 관련 정보에 기반하여, PDM-PCM 컨버팅 블록(1121)으로부터 출력되는 PCM 신호의 게인을 감소시킬 수 있다. 예로서, 맥스 스케일 게인 튜닝 블록(1122)은 비트 단위가 아닌 특정 데시벨 단위(예컨대, 0.25 dB)로 쉬프팅을 수행할 수 있다. 사용자에 의한 발화 전에 쉬프팅 되는 값이 미리 결정되고, PCM 신호의 맥스 스케일 게인이 조정되기 때문에, 메인 프로세서(1900)에 의한 음성 인식을 수행하는 도중에 음성 신호의 게인이 변하지 않는다. 그러므로, 음성 인식률이 감소하는 문제가 해결될 수 있다.
예시적으로, 도 5는 사용자가 전자 장치(1000) 사이의 거리가 상대적으로 먼 경우의 처리에 대응할 수 있다. 예로서, PDM-PCM 컨버팅 블록(1121)으로부터 출력되는 PCM 신호는 19비트일 수 있다. PCM 신호의 LSB는 PDM-PCM 컨버팅 블록(1121)으로부터 출력되는 신호 중 가장 작은 소리에 대응할 수 있으며, PCM 신호의 MSB는 PDM-PCM 컨버팅 블록(1121)으로부터 출력되는 신호 중 가장 큰 소리에 대응할 수 있다.
도 5에 도시된 것과 같이, 사용자와 전자 장치(1000) 사이의 거리가 상대적으로 먼 경우, PDM-PCM 컨버팅 블록(1121)으로부터 출력되는 PCM 신호 중 LSB는 메인 프로세서(1900)에 의해 처리 가능한 영역 외에 속해 있을 수 있다. 그러므로, LSB에 대한 별도의 처리가 없다면, 메인 프로세서(1900)는 '1~16' 사이의 비트들로 구성된 데이터를 이용하여 음성 인식을 수행할 것이다. 이 경우, 작은 음압에 대응하는 LSB가 음성 인식에서 상대적으로 중요하기 때문에, 음성 인식률이 저하될 수 있다.
그러나, 본 개시의 맥스 스케일 게인 튜닝 블록(1122)은 사용자의 발화 전에 미리 획득된 사용자와 전자 장치(1000) 사이의 거리 관련 정보에 기반하여, PDM-PCM 컨버팅 블록(1121)으로부터 출력되는 신호의 게인을 증가시킬 수 있다. 사용자의 발화 전에 쉬프팅 되는 값이 미리 결정되기 때문에, 메인 프로세서(1900)에 의한 음성 인식을 수행하는 도중에 음성 신호의 게인이 변하지 않는다. 그러므로, 음성 인식률이 감소하는 문제가 해결될 수 있다.
도 6은 본 개시의 실시 예에 따른 음성 인식 모듈을 포함하는 전자 장치의 동작 방법을 예시적으로 도시한다. 도 1 및 도 3을 함께 참조하여, 음성 인식 모듈을 포함하는 전자 장치의 동작 방법이 설명된다.
S110 단계에서, 사용자와 전자 장치(1000) 사이의 거리 값이 획득될 수 있다. 좀 더 구체적으로, 획득되는 거리 값은 사용자와 디지털 마이크로폰(1110) 사이의 거리 값일 수 있다. 예로서, 거리 값은 ToF 카메라 등으로 구현되는 이미지 처리 블록(1200), 및/또는 근접 센서, 초음파 센서 등으로 구현되는 센서(1700)에 의해 사전에 획득될 수 있다.
S120 단계에서, 획득된 거리 값에 기반하여, 튜닝될 맥스 스케일 게인이 계산될 수 있다. 예로서, 튜닝될 맥스 스케일 게인은 메인 프로세서(1900) 또는 오디오 처리 블록(1100)의 오디오 전용 프로세서(미도시)에 의해 계산될 수 있다. 사용자와 전자 장치 사이(1000)의 거리가 가까울수록, 상대적으로 큰 음압에 대응하는, PCM 신호의 MSB를 확보할 필요가 있다. 따라서, 맥스 스케일 게인 튜닝 블록(1122)에 의해 조정될 맥스 스케일 게인 값은, PDM-PCM 컨버팅 블록(1121)으로부터 출력된 PCM 신호의 맥스 스케일 게인보다 작아질 수 있다. 반면, 사용자와 전자 장치(1000) 사이의 거리가 멀수록, 상대적으로 작은 음압에 대응하는, PCM 신호의 LSB를 확보할 필요가 있다. 따라서, 맥스 스케일 게인 튜닝 블록(1122)에 의해 조정될 맥스 스케일 게인 값은, PDM-PCM 컨버팅 블록(1121)으로부터 출력되는 PCM 신호의 맥스 스케일 게인보다 커질 수 있다.
실시 예에 있어서, 사용자와 전자 장치(1000) 사이의 거리와, 맥스 스케일 게인 사이의 관계는 별도의 테이블로 관리될 수 있다. 예로서, 사용자와 전자 장치(1000) 사이의 거리가 제 1 범위의 값에 속하는 경우, 조정될 맥스 스케일 게인은 제 1 값일 수 있다. 예로서, 사용자와 전자 장치(1000) 사이의 거리가 제 2 범위의 값에 속하는 경우, 맥스 스케일 게인은 제 2 값일 수 있다. 유사하게, 사용자와 전자 장치(1000) 사이의 거리가 제 n 범위의 값에 속하는 경우, 맥스 스케일 게인은 제 n 값일 수 있다. 예로서, 제 1 거리 범위 내지 제 2 거리 범위는 중첩되지 않거나, 일부 중첩될 수 있다. 제 3 거리 범위 내지 제 n 거리 범위의 경우도 마찬가지이다.
실시 예에 있어서, 사용자와 전자 장치(1000) 사이의 거리와, 맥스 스케일 게인 사이의 관계를 정의하는 테이블은, 버퍼 메모리(1400)에 의해 관리되거나, 오디오 처리 블록(1100) 내에 구비되는 별도의 메모리(미도시)에 의해 관리되거나, 메인 프로세서(1900) 내의 별도의 메모리(미도시)에 의해 관리될 수 있다.
예로서, 전술된 S110 단계와 S120 단계는 전자 장치(1000)가 노멀 모드에 있는 동안 실행되거나, 저전력 모드에 있는 동안 실행될 수 있다.
이후, 사용자로부터의 음성 신호가 디지털 마이크로폰(1110)을 통하여 수신될 수 있다(S130). 수신된 음성 신호는 디지털 마이크로폰(1110)에 의해 오버 샘플링 및 노이즈 셰이핑이 수행되어, 1비트의 PDM 신호가 생성될 수 있다(S140). PDM 신호는 DMIC 인터페이스 회로(1120)로 전송될 수 있으며, DMIC 인터페이스 회로의 PDM-PCM 컨버팅 블록(1121)은 PDM 신호를 PCM 신호로 변환시킬 수 있다(S150).
S160 단계에서, 맥스 스케일 게인 튜닝이 실행될 수 있다. 예로서, DMIC 인터페이스 회로(1120)는 S120 단계에서 계산된 맥스 스케일 게인에 기반하여 PCM 신호의 게인을 조정할 수 있다. 예로서, 맥스 스케일 게인 튜닝 블록(1122)은 PCM 신호에 대한 쉬프팅 연산에 기반하여, 의도된 게인을 획득하도록 구성될 수 있다. 맥스 스케일 게인 튜닝 블록(1122)의 구체적인 구성 및 동작은 상세하게 후술될 것이다.
이후, DMIC 인터페이스 회로는 튜닝된 PCM 신호를 메인 프로세서(1900)로 전송할 수 있다(S170). 예로서, 전술된 S130 내지 S170 단계는 전자 장치(1000)가 저전력 모드에 있는 동안 수행될 수 있다. 나아가, 비록 도 5의 순서도에서 별도의 단계로 도시되지는 않았지만, 튜닝된 PCM 신호에 대하여 안티-에일리어싱과 같은 추가적인 처리가 더 수행될 수 있다.
도 7은 도 3의 맥스 스케일 게인 튜닝 블록(1122)에 의해 이용되는 거리 관련 정보를 생성하는 예시적인 구성을 도시한다.
DMIC 인터페이스 회로(1120)는 PDM-PCM 컨버팅 블록(1121), 맥스 스케일 게인 튜닝 블록(1122), 및 안티-에일리어싱 블록(1123)을 포함할 수 있다. 예로서, 맥스 스케일 게인 튜닝 블록(1122)에 의해 이용되는 거리 관련 정보를 생성하기 위한 구성으로써, DMIC 인터페이스 회로(1120)는 쉬프팅 값 계산기(1124), 사인 비트 계산기(1125), 및 제로 패더(1126)를 더 포함할 수 있다. PDM-PCM 컨버팅 블록(1121), 맥스 스케일 게인 튜닝 블록(1122), 및 안티-에일리어싱 블록(1123)은 도 3의 구성과 실질적으로 동일하므로, 상세한 설명은 생략한다.
쉬프팅 값 계산기(1124)는, 사용자와 전자 장치(1000) 사이의 거리와, 맥스 스케일 게인 사이의 관계를 정의하는 테이블을 참조하여 타깃 맥스 스케일 게인을 결정할 수 있다. 그리고, 쉬프팅 값 계산기(1124)는 타깃 맥스 스케일 게인과 PCM 신호의 맥스 스케일 게인을 비교하여 증가/감소되어야 할 게인 값(즉, 쉬프팅 되어야 할 비트 값)을 계산할 수 있다.
그러나, 맥스 스케일 게인 튜닝 블록(1122)의 해상도로 인하여, 맥스 스케일 게인 튜닝 블록(1122)에 의해 구현되는 쉬프팅 값과, 실제 쉬프팅 되어야 하는 값은 정확히 일치하지 않을 수 있다. 따라서, 맥스 스케일 게인 튜닝 블록(1122)은 다양한 값들로 각각 쉬프팅 된 PCM 신호들을 적절히 조합하여 실제 쉬프팅 되어야 할 값의 근사치만큼 PCM 신호를 쉬프팅할 수 있다.
이를 위해, 쉬프팅 값 계산기(1124)는 PCM 신호를 다양한 값들로 각각 쉬프팅 시키기 위한 쉬프팅 값들을 생성할 수 있다. 예로서, 쉬프팅 값은 0이거나 0보다 클 수 있으며, 신호의 길이보다 작을 수 있다. 예시적으로, 저전력 모드에서의 PCM 신호의 길이가 19 비트인 경우, 쉬프팅 값은 0~18 사이의 정수일 수 있다. 0~18 사이의 정수 중 다양한 값으로 쉬프팅 된 PCM 신호들이 조합됨으로써, PCM 신호의 원하는 튜닝 값이 획득될 수 있다.
사인 비트 계산기(1125)는 PCM 신호에 대해 수행될 사인 익스텐션(sign extension)에 따라 반복될 MSB 데이터의 개수(즉, 사인 익스텐션의 값)를 결정할 수 있다. 예로서, 사인 익스텐션은 서로 다른 값으로 쉬프팅 된 복수의 PCM 신호들의 조합 시, 쉬프팅 된 PCM 신호의 부호와 관련될 수 있다. 예로서, 사인 비트 계산기(1125)는 쉬프팅 값 계산기(1124)에 의한 계산 결과에 기반하여, 사인 익스텐션의 값을 계산할 수 있다. 예로서, 사인 익스텐션은 PCM 신호의 MSB 데이터에 대해 수행되거나, PCM 신호의 상위 2 비트의 데이터에 대해 수행될 수 있다. 다만, 설명 및 도시의 간략화를 위해, 본 명세서에서의 사인 비트란 PCM 신호의 MSB만을 일컫는 것으로 가정한다. 본 발명의 맥스 스케일 게인을 튜닝하는 것과 관련된 사인 익스텐션에 대해서는 도 9를 통하여 상세하게 설명하기로 한다.
제로 패더(1126)는 PCM 신호의 맥스 스케일 게인을 증가시키고자 하는 경우, 쉬프팅되는 비트 수만큼의 제로(zero) 값을 생성할 수 있다. 제로 패딩에 대해서는 도 9를 통하여 상세하게 설명하기로 한다. 한편, 전술된 사인 익스텐션 값, 및 제로 값은 거리 관련 정보로서 칭해질 수 있다.
이후, 맥스 스케일 게인 튜닝 블록(1122)은 쉬프팅 값들, 사인 비트들, 및 제로 값에 기반하여, PCM 신호의 맥스 스케일 게인을 조정할 수 있다. 맥스 스케일 게인 튜닝 블록(1122)의 구체적인 동작은 도 9를 통하여 상세하게 설명될 것이다. 한편, 본 실시 예에서, 쉬프팅 값 계산기(1124), 사인 비트 계산기(1125), 및 제로 패더(1126)는 별도의 기능 블록으로 도시되었다. 그러나, 다른 실시 예에서, 쉬프팅 값 계산기(1124), 사인 비트 계산기(1125), 및 제로 패더(1126)는 하나의 기능 블록(예컨대, 전용 회로 등)으로 구현될 수 있다. 또는, 쉬프팅 값 계산기(1124), 사인 비트 계산기(1125), 및 제로 패더(1126)는 DMIC 인터페이스 회로(1120)와 관련된 신호를 처리하기 위한 전용 오디오 프로세서로서 구현될 수 있다.
도 8은 도 3의 맥스 스케일 게인 튜닝 블록(1122)에 의해 이용되는 거리 관련 정보를 생성하는 예시적인 구성을 도시한다. 도 8에 도시된 기능 블록들의 동작은 도 7에 도시된 기능 블록들의 동작과 대체로 유사할 수 있다. 따라서, 도 8에 도시된 기능 블록들의 구체적인 동작은 생략하기로 한다.
다만, 도 7의 실시 예와는 달리, 쉬프팅 값을 계산하는 동작 사인 익스텐션 값을 계산하는 동작, 제로 값들을 계산하는 동작은 메인 프로세서(1900)에 의해 수행될 수 있다. 예로서, 메인 프로세서(1900)는 음성 인식을 위한 보이스 트리거 엔진(1910) 외에도, 쉬프팅 값 계산기(1920) 사인 비트 계산기(1930), 및 제로 패더(1940)를 포함할 수 있다. 예로서, 쉬프팅 값 계산기(1920), 사인 비트 계산기(1930), 및 제로 패더(1940)는 메인 프로세서(1900)에 의해 실행되는 기능 블록(예컨대, 소프트웨어, 펌웨어 등)일 수 있다.
도 9는 도 7 및 도 8의 맥스 스케일 게인 튜닝 블록(1122)의 예시적인 구성을 도시한다.
맥스 스케일 게인 튜닝 블록(1122)은 복수의 쉬프터들(1122_1~1122_5), 및 가산기(1122_6)를 포함할 수 있다. 그리고, 비록 도면에 도시되지 않았지만, 맥스 스케일 게인 튜닝 블록(1122)은 음의 사인 비트를 갖는 PCM 신호의 값을 반전시키기 위한 구성(예컨대, 인버터 등)을 더 포함할 수 있다. 다만, 도시 및 설명의 간략화를 위해, 음의 사인 비트를 갖는 PCM 신호의 값을 반전시키는 구성은 별도로 도시되지는 않았으며, 가산기(1122_6)는 가산 및 감산 연산을 모두 수행하는 구성을 갖는 것으로 가정한다.
도 7 및 도 9를 함께 참조하여, PCM 신호의 맥스 스케일 게인을 2.9비트만큼 증가시키는 경우를 예로 들어 맥스 스케일 게인 튜닝 블록(1122)의 동작을 설명한다. PCM 신호의 맥스 스케일 게인을 2.9비트 증가시키는 것은 PCM 신호의 게인을 22.9배(즉, 7.46배) 증가시키는 것을 초래한다. 그러나, 맥스 스케일 게인 튜닝 블록(1122)의 구성(예컨대, 쉬프터 들의 개수의 제한)으로 인하여, PCM 신호의 게인을 정확히 7.46배 증가시키는 것은 어려울 수 있다. 따라서, 쉬프팅 값 계산기(1124)는, 예컨대, 0.25dB 단위로 7.46과 가까운 수를 도출하는 연산을 수행할 수 있다. 예로서, 쉬프팅 값 계산기(1124)는 아래의 수학식 1과 같은 연산을 할 수 있으며, 7.46과 가까운 수로써 7.336을 도출할 수 있다.
Figure pat00001
여기서, 수학식 1은 PCM 신호의 맥스 스케일 게인을
Figure pat00002
배(즉, 8)로 증가시킨 후,
Figure pat00003
배(즉, 0.917)로 감소시키는 것을 나타낼 수 있다. 다시 말해, 맥스 스케일 게인 튜닝 블록(1122)은 PCM 신호의 맥스 스케일 게인을 8배로 증가시키고, 맥스 스케일 게인이 8배로 증가된 PCM 신호의 맥스 스케일 게인을 0.917배로 감소시킬 수 있다. 물론, 연산의 순서는 이에 한정되지 않는다. 그리고,
Figure pat00004
은 -0.75dB로써, 맥스 스케일 게인이 0.25dB의 단위로 수행되는 것과 관련된다.
수학식 1에서,
Figure pat00005
은 PCM 신호의 맥스 스케일 게인을 8배 증가시키는 것(즉, 3비트 왼쪽-쉬프팅)에 대응할 수 있다. 수학식 1에서
Figure pat00006
은 3비트 왼쪽-쉬프팅 된 PCM 신호에 대해 쉬프팅이 일어나지 않는 것을 나타낼 수 있으며,
Figure pat00007
는 3비트 왼쪽-쉬프팅 된 PCM 신호에 대해 4비트 만큼의 오른쪽-쉬프팅이 일어나는 나타낼 수 있다. 그리고,
Figure pat00008
은 3비트 왼쪽-쉬프팅 된 PCM 신호에 대해 6비트 만큼의 오른쪽-쉬프팅이 일어나는 것을 나타낼 수 있으며,
Figure pat00009
은 3비트 왼쪽-쉬프팅 된 PCM 신호에 대해 8비트 만큼의 오른쪽-쉬프팅이 일어나는 것을 나타낼 수 있다. 결론적으로, 쉬프팅 값 계산기(1124)는 쉬프팅 값들(즉, 3, 0, 4, 6, 및 8)과 관련된 정보를 맥스 스케일 게인 튜닝 블록(1122)에 제공할 수 있다. 그리고, 사인 비트 계산기(1125)는 쉬프팅 값 계산기(1124)의 계산 결과에 기반하여 사인 익스텐션의 값들(즉,
Figure pat00010
의 부호,
Figure pat00011
의 부호,
Figure pat00012
의 부호, 및
Figure pat00013
의 부호와 관련된 정보)을 맥스 스케일 게인 튜닝 블록(1122)에 제공할 수 있다.
실시 예에 있어서, 전술된 수학식 1의 개념을 구현하기 위해, 맥스 스케일 게인 튜닝 블록(1122)의 복수의 쉬프터들(1122_1~1122_5)은 도 9에 도시된 것과 같이 연결될 수 있다. 예로서, 맥스 스케일 게인 튜닝 블록(1122)은 PCM 신호의 맥스 스케일 게인을 8배로 증가시키는 구성과, 맥스 스케일 게인이 8배 증가된 PCM 신호의 맥스 스케일 게인을 0.917배로 감소시키는 구성을 포함할 수 있다. 예로서, 제 1 쉬프터(1122_1)는 PCM 신호의 맥스 스케일 게인을 8배로 증가시키는 구성에 대응할 수 있으며, 제 2쉬프터(1122_2) 내지 제 5 쉬프터(1122_5)는 맥스 스케일 게인이 8배 증가된 PCM 신호의 맥스 스케일 게인을 0.917배로 감소시키는 구성에 대응할 수 있다. 제 1 쉬프터(1122_1)는 PCM 신호를 3비트 왼쪽-쉬프팅 할 수 있으며, 제 2 쉬프터(1122_2) 내지 제 5 쉬프터(1122_5)는 3비트 왼쪽-쉬프팅 된 PCM 신호를 서로 다른 값들로 각각 오른쪽-쉬프팅 할 수 있다.
제 1 쉬프터(1122_1)는 제로 패더(1126)로부터 제로 값을 수신할 수 있으며, 제로 값에 기반하여 제로 패딩을 수행할 수 있다. 예로서, 제 1 쉬프터(1122_1)는 제로 값 '3'에 기반하여, PCM 신호의 LSB 데이터에 세 개의 '0'을 패딩할 수 있다. 제로 패딩 결과, PCM 신호에 대해 왼쪽-쉬프팅이 수행될 수 있으며, 상위 세개의 비트들(즉, 18~16번째 비트)이 삭제될 수 있다. 그리고, 15번째 비트의 데이터가 MSB 데이터가 될 수 있다. 그리고, 앞서, PCM 신호의 MSB가 사인 비트라고 가정하였으므로, 15번째 비트가 사인 비트가 될 수 있다.
제 2 쉬프터(1122_2) 내지 제 5 쉬프터(1122_5)는 제 1 쉬프터(1122_1)로부터 3비트 왼쪽-쉬프팅 된 신호들을 각각 수신할 수 있다. 제 2 쉬프터(1122_2) 내지 제 5 쉬프터(1122_5)는 사인 비트 계산기(1125) 또는 제로 패더(1126)로부터 사인 익스텐션 값 또는 제로 값을 수신할 수 있다. 예로서, 제 2 쉬프터(1122_2) 내지 제 5 쉬프터(1122_5)는 사인 비트 계산기(1126)로부터 사인 익스텐션 값들(예컨대, 0, 4, 6, 8)을 각각 수신할 수 있다. 다만, 제 2 쉬프터(1122_2) 내지 제 5 쉬프터(1122_5)가 사인 익스텐션을 수행하는 것은 제 2 쉬프터(1122_2) 내지 제 5 쉬프터(1122_5)에서 왼쪽-쉬프팅이 수행되지 않기 때문이다. 그러므로, 왼쪽-쉬프팅이 수행되는 경우, 쉬프터(1122_2~1122_5 중 적어도 하나)는 이에 대응하는 제로 값(들)을 수신할 것이다.
제 2 쉬프터(1122_2)에 대해서는, 수학식 1 및 도 9에서 보인 바와 같이, 사인 익스텐션 및 제로 패딩이 일어나지 않는다. 따라서, 제 2 쉬프터(1122_2)는 제 1 쉬프터(1122_1)로부터 수신한 3비트 왼쪽-쉬프팅 된 PCM 신호를 제 1 PMC 신호로써 그대로 출력할 수 있다.
제 3 쉬프터(1122_3)는 사인 비트의 값(즉, '4')에 기반하여, PCM 신호의 MSB 데이터를 확장할 수 있다. MSB 데이터를 반복시키는 사인 익스 텐션을 수행함으로써, 3비트 왼쪽-쉬프팅 된 PCM 신호에 대해 오른쪽-쉬프팅이 수행될 수 있다. 도 9에는 PCM 신호의 15번째 비트의 데이터가 4번 더 반복됨으로써, 사인 익스텐션이 수행되는 것이 개념적으로 도시되었다. 그 결과, 패딩된 세개의 제로들 및 원래의 LSB 였던 0번째 비트를 포함하는 하위 4비트들이 삭제될 수 있으며, 제 3 쉬프터(1122_3)는 쉬프팅 된 PCM 신호를 제 2 PCM 신호로써 출력할 수 있다.
한편, 전술된 제 3 쉬프터(1122_3)에서의 동작은 제 4 쉬프터(1122_4) 및 제5 쉬프터(1122_5)에서도 유사하게 실행될 수 있다. 그 결과, 3비트 왼쪽-쉬프팅 된 PCM 신호가 다시 제 3 PCM 신호를 출력할 수 있으며, 제 5 쉬프터(1122_5)는 제 4 PCM 신호를 출력할 수 있다.
가산기(1122_6)는 쉬프터들(1122_2~1122_5)로부터 제 1 내지 제 4 PCM 신호들을 수신하고 덧셈 및/또는 뺄셈 연산을 수행할 수 있다. 가산기(1122_6)는 쉬프팅 된 PCM 신호들에 대한 가산 결과로써, 튜닝 값을 출력할 수 있다. 튜닝 값은 수학식 1의 값에 상용 로그를 취한 값에 20을 곱한 값으로써, 맥스 스케일 게인 튜닝 블록으로 입력된 PCM 신호의 게인을 17.31dB만큼 증가시키는 값일 수 있다.
한편, 도 9에 도시된 쉬프터들은 맥스 스케일 게인을 0.25dB 단위로 튜닝을 하기 위한 것으로써, 쉬프터들의 개수는 예시적이다. 따라서, 좀 더 정밀한 해상도(예컨대, 0.25dB 미만)로 맥스 스케일 게인을 튜닝하고자 하는 경우, 맥스 스케일 게인 튜닝 블록(1122)은 더 많은 수의 쉬프터들을 포함할 수 있다.
한편, 도 9의 제 1 쉬프터(1122_1) 내지 제 5 쉬프터(1122_5)의 연결 관계 및 동작은 예시적이다. 즉, 쉬프팅을 수행하는 순서에 따라, 제 1 쉬프터(1122_1) 내지 제 5 쉬프터(1122_5)의 연결은 다양하게 설정될 수 있다. 예컨대, 수학식 1을 참조하여, PCM 신호의 맥스 스케일 게인을 0.917배로 감소시키는 동작을 먼저 수행하고, 8배로 증가시키는 동작을 나중에 수행한다고 가정하자. 이 경우, 제 1 쉬프터(1122_1) 내지 제 4 쉬프터(1122_4)는 PCM 신호를 0비트, 4비트, 6비트, 8비트만큼 각각 오른쪽-쉬프팅 시킬 수 있다. 그리고, 가산기(1122_6)는 제 1 쉬프터(1122_1) 내지 제 4 쉬프터(1122_4)로부터 출력된 PCM 신호들을 수신하고, 덧셈 및/또는 뺄셈 연산을 수행할 수 있다. 마지막으로, 제 5 쉬프터(1122_5)는 가산기(1122_6)로부터 출력된 PCM 신호를 수신하고, 수신된 PCM 신호에 대해 3비트 왼쪽-쉬프팅을 수행할 수 있다. 이 경우, 제 5 쉬프터(1122_5)로부터 출력된 PCM 신호가 튜닝 값이 될 것이다.
도 10 및 도 11은 본 개시의 실시 예에 따른 맥스 스케일 게인의 조정에 의해 동적 범위와 해상도가 변하는 것을 개념적으로 도시한다.
우선, 도 10을 참조하면, 디지털 마이크로폰(1110)은 상대적으로 큰 음압을 갖는 음성 신호를 입력 받고, 음성 신호를 PDM 신호로 변환한다. DMIC 인터페이스 회로(1120)는 PDM 신호를 PCM 신호로 변환할 수 있으며, 음성 인식률을 높이기 위해, 미리 획득된 사용자와 전자 장치 사이의 거리에 기반하여, MSB 데이터를 확보하기 위한 맥스 스케일 게인 튜닝을 실행할 수 있다.
예로서, 미리 획득된 사용자와 전자 장치(1000) 사이의 거리가 가까운 경우, 상대적으로 큰 음압의 음성 신호가 입력될 수 있으며, DMIC 인터페이스 회로(1120)는 도 4에 도시된 것과 같이 MSB 데이터를 확보하기 위해 PCM 신호의 맥스 스케일 게인을 감소시킬 수 있다. 그 결과, 음성 인식에 사용될 16 비트의 데이터가 적응적으로 선택될 수 있다.
반면, 도 11은 상대적으로 작은 음압을 갖는 음성 신호에 대한 음성 인식을 수행하는 경우에 대응한다. 디지털 마이크로폰(1110)은 상대적으로 작은 음압을 갖는 음성 신호를 입력 받고, 음성 신호를 PDM 신호로 변환한다. 예로서, 미리 측정된 사용자와 전자 장치(1000) 사이의 거리가 먼 경우, 상대적으로 작은 음압의 음성 신호가 입력될 수 있으며, DMIC 인터페이스 회로(1120)는 도 5에 도시된 것과 같이 LSB 데이터를 확보하기 위해 PCM 신호의 맥스 스케일 게인을 증가시킬 수 있다.
한편, 도 10에 도시된 DMIC 인터페이스 회로(1120)으로부터 출력되는 PCM 신호의 동적 범위는 도 11에 도시된 DMIC 인터페이스 회로(1120)으로부터 출력되는 PCM 신호의 동적 범위보다 클 수 있다. 그리고, 도 10에 도시된 DMIC 인터페이스 회로(1120)으로부터 출력되는 PCM 신호의 해상도는, 도 11에 도시된 DMIC 인터페이스 회로(1120)으로부터 출력되는 PCM 신호의 해상도보다 작을 것이다. 이는 같은 범위의 dB의 스케일 차이에 기인하는 것으로 이해될 것이다.
도 12는 본 개시의 실시 예에 따른 전자 장치의 예시적인 구성을 도시한다.
전자 장치(2000)는 오디오 처리 블록들(2100_1, 2100_2), 이미지 처리 블록(2200), 통신 블록(2300), 버퍼 메모리(2400), 불휘발성 메모리(2500), 유저 인터페이스(2600), 센서(2700), 전력 관리기(2800), 및 메인 프로세서(2900)를 포함할 수 있다. 예시적으로, 오디오 처리 블록들(2100_1, 2100_2)과 보이스 트리거 엔진(2910)은 음성 인식 모듈로 칭해질 수 있다. 도 12의 전자 장치(2000)의 기능 블록들은, 오디오 처리 블록들의 개수를 제외하고, 유사한 참조 번호에 의해 지시되는 도 1의 전자 장치(1000)의 기능 블록들과 대체로 동일할 수 있다. 그러므로, 전자 장치(2000)의 구성 요 소들의 동작에 대한 이상의 상세한 설명은 생략하기로 한다.
다만, 제 1 오디오 처리 블록(2100_1)은 전자 장치(2000)에 포함될 수 있으나, 제 2 오디오 처리 블록(2100_2)은 다양한 형태로 구현될 수 있다. 예로서, 제 2 오디오 처리 블록(2100_2)은 제 1 오디오 처리 블록(2100_1)과 같이 전자 장치(2000)에 포함될 수 있다. 또는, 오디오 처리 블록(2100_2)의 일부만 전자 장치(2000)에 포함될 수 있다. 이 경우, 오디오 처리 블록(2100_2)의 제 2 디지털 마이크로폰(2110_2)은 무선 마이크로폰(예컨대, 블루투스 마이크로폰 등)으로 구현될 수 있다.
제 1 오디오 처리 블록(2100_1)은 미리 획득된 사용자와 전자 장치(2000) 사이의 거리에 기반하여, 제 1 오디오 처리 블록(2100_1)의 맥스 스케일 게인 튜닝 블록에 의해 조정될 맥스 스케일 게인을 미리 계산할 수 있다. 전자 장치(2000)가 저전력 모드에 진입한 후, 사용자의 음성 신호가 입력되면, 제 1 오디오 처리 블록(2100_1)은 PCM 신호의 맥스 스케일 게인을 튜닝할 수 있다.
다만, 제 2 오디오 처리 블록(2100_2)은 사용자와 전자 장치(2000) 사이의 거리와는 다른 거리에 기반하여 제 2 오디오 처리 블록(2100_2)의 맥스 스케일 게인 튜닝 블록에 의해 조정될 맥스 스케일 게인을 미리 계산할 수 있다. 전자 장치(2000)가 저전력 모드에 진입한 후 사용자의 음성 신호가 입력되면, 제 2 오디오 처리 블록(2100_2)은 PCM 신호의 맥스 스케일 게인을 튜닝하거나 튜닝하지 않을 수 있다. 그 결과, 제 1 오디오 처리 블록(2100_1)에 의해 처리되는 PCM 신호의 맥스 스케일 게인과 제 2 오디오 처리 블록(2100_2)에 의해 처리되는 PCM 신호의 맥스 스케일 게인은 서로 다를 것이다.
PCM 신호들이 서로 다른 맥스 스케일 게인들을 갖도록, 오디오 처리 블록들(2100_1, 2100_2)이 설정된 후, 사용자로부터의 음성 신호가 입력되면, 오디오 처리 블록들(2100_1, 2100_2)은 음성 인식을 수행할 수 있다. 예로서, 오디오 처리 블록들(2100_1, 2100_2) 중 적어도 하나에 의해 처리된 신호에 대한 음성 인식, 또는 오디오 처리 블록들(2100_1, 2100_2) 모두에 의한 음성 인식이 성공하면, 메인 프로세서(1900)는 음성 인식이 성공한 것으로 간주할 수 있다. 결론적으로, 오디오 처리 블록들(2100_1, 2100_2)에 의해 처리되는 PCM 신호의 맥스 스케일 게인을 서로 다르게 설정함으로써, 음성 인식 성공률을 높일 수 있다.
저전력 모드에서의 음성 인식이 수행되기 때문에, 전력 소모가 문제될 수 있다. 따라서, 오디오 처리 블록들 모두를 이용한 저전력 모드에서의 음성 인식 시, 오디오 처리 블록들의 각각에 의해 처리되는 PCM 신호의 비트 수는 제 1 내지 도 10의 실시 예와는 다를 수 있다. 다시 말해, 오디오 처리 블록들 각각으로부터 메인 프로세서로 전송되는 PCM 신호의 비트 수는 16비트보다 작을 수 있다.
다만, 앞서 도 1 내지 도 10의 실시 예와는 달리, 도 12의 실시 예에서 두 개의 오디오 처리 블록들(2100_1, 2100_2)을 이용하여 저전력 모드에서의 음성 인식이 수행되기 때문에, 전력 소모가 문제될 수 있다. 따라서, 오디오 처리 블록들(2100_1, 2100_2) 모두를 이용한 저전력 모드에서의 음성 인식 시, 오디오 처리 블록들(2100_1, 2100_2)의 각각에 의해 처리되는 PCM 신호의 비트 수는 도 1 내지 도 10의 실시 예와는 다를 수 있다. 다시 말해, 오디오 처리 블록들(2100_1, 2100_2) 각각으로부터 메인 프로세서(2900)로 전송되는 PCM 신호의 비트 수는 16비트보다 작을 수 있다.
도 13은 도 12의 오디오 처리 블록들(2100_1, 2100_2)의 맥스 스케일 게인 튜닝 블록들의 동작을 개념적으로 도시한다. 예로서, 제 1 오디오 처리 블록(2100_1)은 제 1 PDM-PCM 컨버팅 블록(2121_1) 및 제 1 맥스 스케일 게인 튜닝 블록(2122_1)을 포함할 수 있으며, 제 2 오디오 처리 블록(2100_2)은 제 2 PDM-PCM 컨버팅 블록(2121_2) 및 제 2 맥스 스케일 게인 튜닝 블록(2122_2)을 포함할 수 있다. 다만, 도시의 간략화를 위해, 도 3에 도시된 것과 같은 안티-에일리어싱 블록(1123)은 생략되었다.
도 13을 참조하면, 서로 다른 맥스 스케일 게인을 갖도록 조정된 PCM 신호들이 예시적으로 도시되었다. 예로서, 제 1 오디오 처리 블록(2100_1)에 의해 처리되는 PCM 신호는 미리 획득된 사용자와 전자 장치(2000) 사이의 거리에 기반할 수 있으며, 제 2 오디오 처리 블록(2100_2)에 의해 처리되는 PCM 신호는 사용자와 전자 장치(2000) 사이의 거리와는 다른 값에 기반할 수 있다. 다시 말해, 오디오 처리 블록들(2100_1, 2100_2)에 의해 쉬프팅 되는 값들은 서로 다를 수 있다. 그리고, 두 개의 오디오 처리 블록들(2100_1, 2100_2)을 모두 이용함으로써 발생할 수 있는 소모 전력 문제와 관련하여, PCM 신호는 16비트 보다 작은 값을 가질 수 있다.
이후, 오디오 처리 블록들(2100_1, 2100_2)은 튜닝된 PCM 신호들에 대해 안티-에일리어싱을 수행할 수 있으며, PCM 신호들을 메인 프로세서(2900)로 각각 전송할 수 있다. 메인 프로세서(2900)의 보이스 트리거 엔진은 제 1 오디오 처리 블록(2100_1)으로부터 출력된 PCM 신호와 제 2 오디오 처리 블록(2100_2)으로부터 출력된 PCM 신호에 대해 음성 인식 동작을 각각 수행할 수 있으며, 어느 하나에 대한 음성 인식만 성공하면, 음성 인식이 성공한 것으로 간주할 수 있다.
비록 본 실시 예는 맥스 스케일 게인을 감소시키는 것과 관련되지만, 도 5에 도시된 맥스 스케일 게인을 증가시키는 것도, 유사한 방식으로 수행될 수 있다. 그러므로, 더 이상의 상세한 설명은 생략한다. 나아가, 오디오 처리 블록들의 개수는 도시된 것에 한정되지 않는다. 예로서, 전자 장치는 3개 이상의 오디오 처리 블록들을 포함할 수 있으며, 각 오디오 처리 블록에 의해 조정되는 맥스 스케일 게인은 서로 다를 수 있다. 예로서, 3개의 오디오 처리 블록들에 의한 음성 인식 시 각 오디오 처리 블록에 의해 처리되는 PCM 신호의 비트 수는 1개의 오디오 처리 블록에 의한 음성 인식 시 오디오 처리 블록에 의해 처리되는 PCM 신호의 비트 수(예컨대, 16비트)보다 적을 수 있다.
도 14는 도 12에 도시된 전자 장치의 동작 방법을 예시적으로 도시한다.
ToF 카메라 등으로 구현되는 이미지 이미지 처리 블록(2200) 및/또는 근접 센서, 초음파 센서 등으로 구현되는 센서(2700)에 의해, 사용자와 전자 장치(2000) 사이의 거리가 미리 획득될 수 있다(S210). 그리고, 오디오 처리 블록들(2100_1, 2100_2)의 각각은 튜닝될 맥스 스케일 게인들을 계산할 수 있다(S220). 예로서, 제 1 오디오 처리 블록(2100_1)은 사전에 측정된 사용자와 전자 장치(2000) 사이의 거리에 기반하여 튜닝될 맥스 스케일 게인을 계산할 수 있다. 다만, 제 2 오디오 처리 블록(2100_2)은 제 1 오디오 처리 블록(2100_1)과는 다른 값의 맥스 스케일 게인을 계산할 수 있다.
디지털 마이크로폰들(2110_1, 2110_2)은 사용자로부터의 음성 신호를 수신할 수 있으며(S230), DMIC 인터페이스 회로들(2120_1, 2120_2) 각각은 음성 신호를 PDM 신호로 변환할 수 있으며(S240), DMIC 인터페이스 회로들(2120_1, 2120-2) 각각은 PDM 신호를 PCM 신호로 변환할 수 있다(S250).
S260 단계에서, 오디오 처리 블록들(2100_1, 2100_2)은 각각 맥스 스케일 게인 튜닝을 실행할 수 있다. 다만, 제 1 오디오 처리 블록(2100_1)은 미리 획득된 사용자와 전자 장치(2000) 사이의 거리에 기반하여 PCM 신호의 맥스 스케일 게인을 조정함에 반하여, 제 2 오디오 처리 블록(2100_2)은 미리 획득된 거리와는 다른 값에 기반하여 PCM 신호의 맥스 스케일 게인을 조절한다.
S270 단계에서, 오디오 처리 블록들(2100_1, 2100_2)은 서로 다른 맥스 스케일 게인을 갖도록 조정된 PCM 신호들을 각각 메인 프로세서(2900)로 전송할 수 있다. 메인 프로세서(2900)의 음성 인식 모듈(2910)은 서로 다른 맥스 스케일 게인을 갖는 PCM 신호들에 기반하여 음성 인식을 수행할 수 있다. 예로서, 음성 인식 모듈(2910)은 어느 하나의 PCM 신호에 기반한 음성 인식이 성공하면, 비록 다른 하나의 PCM 신호에 기반한 음성 인식이 실패하더라도, 음성 인식이 성공한 것으로 간주할 수 있다.
상술된 내용은 본 발명을 실시하기 위한 구체적인 실시 예들이다. 본 발명은 상술된 실시 예들뿐만 아니라, 단순하게 설계 변경되거나 용이하게 변경할 수 있는 실시 예들 또한 포함할 것이다. 또한, 본 발명은 실시 예들을 이용하여 용이하게 변형하여 실시할 수 있는 기술들도 포함될 것이다. 따라서, 본 발명의 범위는 상술된 실시 예들에 국한되어 정해져서는 안되며 후술하는 특허청구범위뿐만 아니라 이 발명의 특허청구범위와 균등한 것들에 의해 정해져야 할 것이다.
1000: 전자 장치
1100: 오디오 처리 블록
1110: 디지털 마이크로폰
1120: DMIC 인터페이스 회로

Claims (20)

  1. 저전력 모드에서의 음성 인식을 위한 오디오 처리 블록을 포함하는 전자 장치에 있어서:
    사용자로부터의 음성 신호를 수신하고, 수신된 음성 신호를 PDM (Pulse Duration Modulation) 신호로 변환하는 디지털 마이크로폰; 그리고
    DMIC (digital microphone) 인터페이스 회로를 포함하되, 상기 DMIC 인터페이스 회로는:
    상기 PDM 신호를 PCM (Pulse Coded Modulation) 신호로 변환하는 PDM-PCM 컨버팅 블록;
    미리 획득된 사용자와 상기 전자 장치 사이의 거리에 기반하여 상기 PDM-PCM 컨버팅 블록으로부터 수신된 상기 PCM 신호의 맥스 스케일 게인을 조정하는 맥스 스케일 게인 튜닝 블록; 그리고
    상기 맥스 스케일 게인 튜닝 블록으로부터 출력된 PCM 신호에 대해 타깃 주파수 대역의 음성 데이터를 획득하기 위한 필터링을 수행하는 안티-에일리어싱 블록을 포함하는 전자 장치.
  2. 제 1 항에 있어서,
    상기 안티-에일리어싱 블록으로부터 출력된 PCM 신호에 기반하여 음성 인식을 수행하는 음성 인식 모듈을 포함하는 메인 프로세서를 더 포함하는 전자 장치.
  3. 제 2 항에 있어서,
    상기 맥스 스케일 게인 튜닝 블록은 상기 음성 인식 모듈에 의한 음성 인식이 수행되기 전에 상기 PDM-PCM 컨버팅 블록으로부터 수신된 상기 PCM 신호의 상기 맥스 스케일 게인을 조정하는 전자 장치.
  4. 제 1 항에 있어서,
    상기 맥스 스케일 게인 튜닝 블록은, 상기 미리 획득된 거리가 제 1 거리 범위인 경우, 상기 PCM 신호의 맥스 스케일 게인을 제 1 값으로 조정하고,
    상기 맥스 스케일 게인 튜닝 블록은, 상기 미리 획득된 거리가 상기 제 1 거리 범위보다 큰 제 2 거리 범위인 경우, 상기 PCM 신호의 맥스 스케일 게인을 제 2 값으로 조정하고,
    상기 제 1 값은 상기 제 2 값보다 큰 전자 장치.
  5. 제 4 항에 있어서,
    상기 제 1 값은 상기 제 1 거리에 대응하는 상기 PCM 신호의 맥스 스케일 게인보다 작은 전자 장치.
  6. 제 4 항에 있어서,
    상기 제 1 값으로 조정된 PCM 신호는 상기 PCM-PCM 컨버팅 블록으로부터 출력되는 상기 PCM 신호의 MSB (most significant bit) 데이터를 포함하고,
    상기 제 2 값으로 조정된 PCM 신호는 상기 PCM-PCM 컨버팅 블록으로부터 출력되는 상기 PCM 신호의 LSB (least significant bit) 데이터를 포함하는 전자 장치.
  7. 제 4 항에 있어서,
    상기 제 2 값은, 상기 제 2 거리에 대응하는 상기 PCM 신호의 상기 맥스 스케일 게인보다 큰 전자 장치.
  8. 제 1 항에 있어서,
    상기 맥스 스케일 게인 튜닝 블록은:
    상기 PDM-PCM 컨버팅 블록으로부터 수신된 상기 PCM 신호를 서로 다른 쉬프팅 값들로 각각 쉬프팅하는 복수의 쉬프터들; 그리고
    상기 복수의 쉬프터들로부터 출력된 PCM 신호들에 대한 가산 연산을 수행하는 가산기를 포함하는 전자 장치.
  9. 제 8 항에 있어서,
    상기 DMIC 인터페이스 회로는:
    상기 미리 획득된 거리에 기반하여, 상기 PDM-PCM 컨버팅 블록으로부터 수신된 상기 PCM 신호가 쉬프팅될 값들을 계산하는 쉬프팅 값 계산기;
    상기 쉬프팅 값 계산기의 계산 결과에 기반하여, 사인 익스텐션의 값들을 계산하는 사인 비트 계산기; 그리고
    상기 쉬프팅 값 계산기의 계산 결과에 기반하여, 상기 PDM-PCM 컨버팅 블록으로부터 수신된 상기 PCM 신호에 대해 제로 패딩을 수행하는 제로 패더를 더 포함하는 전자 장치.
  10. 제 1 항에 있어서,
    상기 미리 획득된 거리는 ToF (time of flight) 카메라, 적외선 센서, 근접 센서, 초음파 센서 중 적어도 하나에 의해 획득되는 전자 장치.
  11. 저전력 모드에서의 음성 인식을 위한 오디오 처리 블록을 포함하는 전자 장치에 있어서:
    사용자로부터의 음성 신호를 수신하고, 수신된 음성 신호를 제 1 PDM (Pulse Duration Modulation) 신호 및 제 2 PCM 신호로 각각 변환하는 제 1 및 제 2 디지털 마이크로폰들;
    상기 제 1 PDM 신호를 입력 받아 제 1 PCM (Pulse Coded Modulation) 신호로 변환하고, 미리 획득된 사용자와 상기 전자 장치 사이의 거리에 기반하여 상기 제 1 PCM 신호의 맥스 스케일 게인을 조정하도록 구성되는 제 1 DMIC (digital microphone) 인터페이스 회로; 그리고
    상기 제 2 PCM 신호를 입력 받아 제 2 PCM 신호로 변환하고, 상기 미리 획득된 거리와 다른 값에 기반하여 상기 제 2 PCM 신호의 맥스 스케일 게인을 조정하도록 구성되는 제 2 DMIC 인터페이스 회로를 포함하는 전자 장치.
  12. 제 11 항에 있어서,
    상기 제 1 DMIC 인터페이스 회로로부터 출력되는 제 1 PCM 신호 및 상기 제 2 DMIC 인터페이스 회로로부터 출력되는 제 2 PCM 신호에 기반하여 음성 인식을 수행하는 음성 인식 모듈을 포함하는 메인 프로세서를 더 포함하는 전자 장치.
  13. 제 11 항에 있어서,
    상기 제 1 DMIC 인터페이스 회로는:
    상기 제 1 PCM 신호를 상기 제 1 PCM 신호로 변환하는 제 1 PDM-PCM 컨버팅 블록;
    상기 미리 획득된 거리에 기반하여 상기 제 1 PDM-PCM 컨버팅 블록으로부터 수신된 상기 제 1 PCM 신호의 맥스 스케일 게인을 조정하는 제 1 맥스 스케일 게인 튜닝 블록; 그리고
    상기 제 1 맥스 스케일 게인 튜닝 블록으로부터 출력된 제 1 PCM 신호에 대해 타깃 주파수 대역의 음성 데이터를 획득하기 위한 필터링을 수행하는 제 1 안티-에일리어싱 블록을 포함하고,
    상기 제 2 DMIC 인터페이스 회로는:
    상기 제 2 PCM 신호를 상기 제 2 PCM 신호로 변환하는 제 2 PDM-PCM 컨버팅 블록;
    상기 미리 획득된 거리와 다른 상기 값에 기반하여 상기 제 2 PDM-PCM 컨버팅 블록으로부터 수신된 상기 제 2 PCM 신호의 맥스 스케일 게인을 조정하는 제 2 맥스 스케일 게인 튜닝 블록; 그리고
    상기 제 2 맥스 스케일 게인 튜닝 블록으로부터 출력된 제 2 PCM 신호에 대해 타깃 주파수 대역의 음성 데이터를 획득하기 위한 필터링을 수행하는 제 2 안티-에일리어싱 블록을 포함하는 전자 장치.
  14. 제 11 항에 있어서,
    상기 제 1 DMIC 인터페이스 회로로부터 출력되는 상기 제 1 PCM 신호에 기반하는 제 1 음성 인식 처리 결과와, 상기 제 2 DMIC 인터페이스 회로로부터 출력되는 상기 제 2 PCM 신호에 기반하는 제 2 음성 인식 처리 결과 중 적어도 하나가 성공하는 경우, 상기 메인 프로세서는 음성 인식을 성공으로 처리하는 전자 장치.
  15. 제 11 항에 있어서,
    상기 미리 획득된 거리를 획득하기 ToF (time of flight) 카메라, 적외선 센서, 근접 센서, 및 초음파 센서 중 적어도 하나를 더 포함하는 전자 장치.
  16. 디지털 마이크로폰, DMIC 인터페이스, 및 센서를 포함하는 전자 장치에서의 음성 인식 방법에 있어서:
    상기 센서에 의해, 사용자와 상기 전자 장치 사이의 거리를 획득하는 단계;
    상기 디지털 마이크로폰에 의해, 상기 사용자로부터의 음성을 PDM (Pulse Duration Modulation) 신호로 변환하는 단계;
    상기 DMIC 인터페이스에 의해, 상기 PDM 신호를 PCM (Pulse Coded Modulation) 신호로 변환하는 단계;
    상기 DMIC 인터페이스에 의해, 상기 미리 획득된 거리에 기반하여 상기 변환된 PCM 신호의 맥스 스케일 게인을 조정하는 단계;
    상기 DMIC 인터페이스에 의해, 상기 조정된 PCM 신호에 대해 타깃 주파수 대역의 음성 데이터를 획득하기 위한 필터링을 수행하는 단계; 그리고
    음성 인식 모듈에 의해, 상기 필터링 된 PCM 신호에 기반하여 음성 인식을 실행하는 단계를 포함하는 방법.
  17. 제 16 항에 있어서,
    상기 음성 인식을 실행하는 단계에서, 상기 맥스 스케일 게인은 변하지 않는 방법.
  18. 제 16 항에 있어서,
    상기 맥스 스케일 게인을 조정하는 단계는:
    상기 변환된 PCM 신호가 제 1 쉬프팅 값을 갖도록 제 1 쉬프팅을 수행하는 하는 단계;
    상기 변환된 PCM 신호가 상기 제 1 쉬프팅 값과는 다른 제 2 쉬프팅 값을 갖도록 제 2 쉬프팅을 수행하는 단계; 그리고
    상기 제 1 쉬프팅의 수행 결과와 상기 제 2 쉬프팅의 수행 결과에 기반하여 상기 조정된 PCM 신호를 생성하는 단계를 포함하는 방법.
  19. 제 18 항에 있어서,
    상기 맥스 스케일 게인을 조정하는 단계는:
    상기 제 1 쉬프팅 수행 결과 및 상기 제 2 쉬프팅 수행 결과 중 적어도 하나에 대하여, 사인 익스텐션(sign extension) 및 제로 패딩(zero padding) 중 적어도 하나를 실행하는 단계를 포함하는 방법.
  20. 제 16 항에 있어서,
    상기 사용자와 상기 전자 장치 사이의 상기 거리를 획득하는 단계는, ToF (time of flight) 카메라, 적외선 센서, 근접 센서, 및 초음파 센서 중 적어도 하나를 이용하여 수행되는 방법.
KR1020200038326A 2020-03-30 2020-03-30 음성 인식을 위한 디지털 마이크로폰 인터페이스 회로 및 이를 포함하는 전자 장치 KR20210122348A (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020200038326A KR20210122348A (ko) 2020-03-30 2020-03-30 음성 인식을 위한 디지털 마이크로폰 인터페이스 회로 및 이를 포함하는 전자 장치
US17/130,401 US11538479B2 (en) 2020-03-30 2020-12-22 Digital microphone interface circuit for voice recognition and including the same
CN202110241792.1A CN113470690A (zh) 2020-03-30 2021-03-04 电子设备及用于电子设备的语音识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200038326A KR20210122348A (ko) 2020-03-30 2020-03-30 음성 인식을 위한 디지털 마이크로폰 인터페이스 회로 및 이를 포함하는 전자 장치

Publications (1)

Publication Number Publication Date
KR20210122348A true KR20210122348A (ko) 2021-10-12

Family

ID=77854650

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200038326A KR20210122348A (ko) 2020-03-30 2020-03-30 음성 인식을 위한 디지털 마이크로폰 인터페이스 회로 및 이를 포함하는 전자 장치

Country Status (3)

Country Link
US (1) US11538479B2 (ko)
KR (1) KR20210122348A (ko)
CN (1) CN113470690A (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210122348A (ko) * 2020-03-30 2021-10-12 삼성전자주식회사 음성 인식을 위한 디지털 마이크로폰 인터페이스 회로 및 이를 포함하는 전자 장치

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5706352A (en) * 1993-04-07 1998-01-06 K/S Himpp Adaptive gain and filtering circuit for a sound reproduction system
US5483238A (en) * 1993-12-16 1996-01-09 At&T Ipm Corp. Data converter with gain scaling including dither
JP3594356B2 (ja) 1995-04-10 2004-11-24 富士通テン株式会社 音声処理装置
JP4531350B2 (ja) 2003-06-04 2010-08-25 アルパイン株式会社 音声入力装置および音声認識処理システム
JP4999267B2 (ja) 2004-12-14 2012-08-15 アルパイン株式会社 音声入力装置
EP1927265A2 (en) * 2005-09-13 2008-06-04 Koninklijke Philips Electronics N.V. A method of and a device for generating 3d sound
KR101539268B1 (ko) * 2008-12-22 2015-07-24 삼성전자주식회사 수신기의 잡음 제거 장치 및 방법
KR101148771B1 (ko) 2009-01-08 2012-05-25 주식회사 코아로직 음원 레벨 안정화 장치와 방법, 및 그 장치를 포함한 통신기기
KR101726738B1 (ko) 2010-12-01 2017-04-13 삼성전자주식회사 음성처리장치 및 그 방법
WO2013085499A1 (en) * 2011-12-06 2013-06-13 Intel Corporation Low power voice detection
US9502028B2 (en) * 2013-10-18 2016-11-22 Knowles Electronics, Llc Acoustic activity detection apparatus and method
KR102269848B1 (ko) 2014-10-27 2021-06-28 엘지전자 주식회사 영상표시기기 및 그의 원거리 음성 인식율 향상 방법
JP2017009663A (ja) * 2015-06-17 2017-01-12 ソニー株式会社 録音装置、録音システム、および、録音方法
US9478234B1 (en) * 2015-07-13 2016-10-25 Knowles Electronics, Llc Microphone apparatus and method with catch-up buffer
WO2017070535A1 (en) * 2015-10-22 2017-04-27 Knowles Electronics, Llc Microphone with programmable phone onset detection engine
US10157629B2 (en) * 2016-02-05 2018-12-18 Brainchip Inc. Low power neuromorphic voice activation system and method
KR101957170B1 (ko) 2017-05-29 2019-03-12 엘지전자 주식회사 홈 어플라이언스 및 그 동작 방법
TWI655624B (zh) * 2017-08-03 2019-04-01 晨星半導體股份有限公司 聲控裝置及相關的聲音訊號處理方法
KR20190108967A (ko) 2018-03-16 2019-09-25 (주)에이투유정보통신 음성 인식용 게인 제어 방법 및 게인 제어 장치
KR20210122348A (ko) * 2020-03-30 2021-10-12 삼성전자주식회사 음성 인식을 위한 디지털 마이크로폰 인터페이스 회로 및 이를 포함하는 전자 장치

Also Published As

Publication number Publication date
US20210304751A1 (en) 2021-09-30
US11538479B2 (en) 2022-12-27
CN113470690A (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
US9628909B2 (en) Systems and methods for using a speaker as a microphone
CN112470217A (zh) 用于确定要执行语音识别的电子装置的方法及电子装置
WO2017215653A1 (zh) 音量处理方法及用户终端
KR102650109B1 (ko) 디지털 도메인에서 노이즈 쉐이핑을 수행하도록 구성되는 모듈레이터를 구현하기 위한 전자 회로
WO2022166619A1 (zh) 二维码识别方法及相关装置
EP4131907A1 (en) Sound recording method and apparatus
CN111816178A (zh) 语音设备的控制方法、装置和设备
CN112020082A (zh) 调整uwb传输信号峰值电压的电子装置及其操作方法
KR20210122348A (ko) 음성 인식을 위한 디지털 마이크로폰 인터페이스 회로 및 이를 포함하는 전자 장치
US10827145B2 (en) Analog to digital converting circuit and an operation method thereof
CN114416723B (zh) 一种数据的处理方法、装置、设备及存储介质
CN111582432B (zh) 一种网络参数处理方法及装置
CN108781081B (zh) 用于传感器应用的自动型报告速率优化
US20210029662A1 (en) Electronic device for improving position measurement performance and operation method of electronic device
WO2017215658A1 (zh) 音效添加方法及用户终端
CN109150125B (zh) 执行增益控制和增益压缩的电子电路及电子装置
KR102351950B1 (ko) 이미지 신호 프로세서를 포함하는 전자 장치
KR20180127085A (ko) 데이터를 압축하는 전자 장치 및 그 동작 방법
CN111510531A (zh) 终端伸缩镜头的降噪方法、装置、终端及存储介质
KR20160026535A (ko) 통화 품질 향상을 위한 오디오 처리 방법 및 장치
CA2783657A1 (en) System and method for mobile context determination
CN117793361A (zh) 数据编码和数据解码的方法、装置、设备
CN115691630A (zh) 芯片校准方法、装置、计算机设备及存储介质
CN116506645A (zh) 视频压缩方法、装置、电子设备及存储介质
CN117157613A (zh) 用于执行捕获功能的电子设备和用于操作电子设备的方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal