KR20240007168A - 소음 환경에서 음성 최적화 - Google Patents

소음 환경에서 음성 최적화 Download PDF

Info

Publication number
KR20240007168A
KR20240007168A KR1020237039399A KR20237039399A KR20240007168A KR 20240007168 A KR20240007168 A KR 20240007168A KR 1020237039399 A KR1020237039399 A KR 1020237039399A KR 20237039399 A KR20237039399 A KR 20237039399A KR 20240007168 A KR20240007168 A KR 20240007168A
Authority
KR
South Korea
Prior art keywords
audio stream
audio
noise
filter
speech
Prior art date
Application number
KR1020237039399A
Other languages
English (en)
Inventor
존 필립슨
조나스 룬드백
Original Assignee
오디오도 아베 (피유비엘)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오디오도 아베 (피유비엘) filed Critical 오디오도 아베 (피유비엘)
Publication of KR20240007168A publication Critical patent/KR20240007168A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/1752Masking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/50Customised settings for obtaining desired overall acoustical characteristics
    • H04R25/505Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
    • H04R25/507Customised settings for obtaining desired overall acoustical characteristics using digital signal processing implemented by neural network or fuzzy logic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/55Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired
    • H04R25/554Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired using a wireless connection, e.g. between microphone and amplifier or using Tcoils
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/10Applications
    • G10K2210/108Communication systems, e.g. where useful sound is kept and noise is cancelled
    • G10K2210/1081Earphones, e.g. for telephones, ear protectors or headsets
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/43Signal processing in hearing aids to enhance the speech intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2420/00Details of connection covered by H04R, not provided for in its groups
    • H04R2420/07Applications of wireless loudspeakers or wireless microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/01Hearing devices using active noise cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Otolaryngology (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Neurosurgery (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Fuzzy Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Crystals, And After-Treatments Of Crystals (AREA)
  • Diaphragms For Electromechanical Transducers (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

본 발명은 음성 오디오를 포함하는 오디오 스트림(20)의 음성 명료도를 증가시키는 방법에 관한 것이다. 상기 방법은 오디오 장치에 의해서 실시간으로 수행되며, 주변 소음(40)을 검출하는 단계 및 주변 소음(40)에 기초하여 내부 소음을 추정하는 단계를 포함한다. 추정된 내부 소음과 오디오 스트림(20)에 기초하여 음성 필터(50)가 결정되고 음성 필터(50)는 오디오 스트림(20)에 적용되어 타겟 오디오 스트림(20')을 제공한다. 타겟 오디오 스트림(20')은 오디오 장치의 내부 사운드(37)를 발생시키기 위해서 하나 이상의 변환기(35)로 출력된다. 오디오 장치(30)의 내부 사운드(37)가 검출되고 음성 필터(50)의 결정은 검출된 내부 사운드(37)에 추가로 기초한다. 오디오 장치, 오디오 시스템 및 컴퓨터 프로그램 제품도 제시된다.

Description

소음 환경에서 음성 최적화
본 발명은 오디오의 음성 최적화, 더 정확하게는 소음 환경에서 음성 최적화를 제공하는 방법 및 장치에 관한 것이다.
휴대용 전자 장비는 어디서나 거의 모든 사람이 사용한다. 예를 들어, 휴대폰은 항상 휴대하고 전화를 걸거나 오디오를 듣는 데 사용할 수 있다. 듣는 오디오는 음악일 수 있지만, 팟캐스트와 오디오북이 점점 일반화되고 있다. 통신 및 엔터테인먼트를 위한 전자 장치의 사용 및 휴대성이 증가함에 따라서, 오디오가 소음 환경에서 소비될 위험이 증가한다. 음악의 경우에, 소음 환경은 그저 성가신 것일 수 있지만, 음성 오디오(speach audio)를 듣게 될 때 소음 환경은 소음 중에서 음성을 이해하기 어렵게 만들 수 있다.
음성 오디오의 음성 명료도(Speech intelligibility)는 신호 대 소음비, 이 경우에 음성 오디오와 소음 사이의 비율에 의존할 것이다. 역사적으로, 음성 명료도는 신호 대 소음 비를 수정함으로써 개선된다. 무차별 접근방식(brute force approach)은 소음 중에서 이해할 수 있도록 음성 신호를 증폭하는 것이다. 말할 필요도 없이, 이러한 접근방식은 음성 오디오를 듣는 사람의 청력에 손상을 줄 수 있다. 다른 접근방식은 헤드폰을 사용하는 경우에, 외부 소음을 감쇠하도록 헤드폰을 구성하거나 능동형 소음 소거를 활용함으로써 소음을 감소시키는 것이다. 소음 감쇠는 음향 설계와 사용자 헤드폰의 피팅(fitting)에 의존할 것이다. 능동형 소음 소거는 결과적으로 증가된 재료 비용과 에너지 소비에 따른 상당한 처리 능력을 요구한다.
위의 내용으로부터 개선의 여지가 있음을 이해할 것이다.
본 발명의 목적은 종래 기술에 비해서 개선되고 위에서 논의된 결점을 제거하거나 적어도 완화하는 신규 유형의 음성 최적화를 제공하는 것이다. 더 구체적으로, 본 발명의 목적은 소음 환경에서 음성 또는 유성음 오디오(voiced audio)의 명료도를 개선하는 방법 및 오디오 장치(audio device)를 제공하는 것이다. 이들 목적은 독립항과 관련된 종속항에 정의된 바람직한 실시예와 함께 첨부된 독립항에 기재된 기술에 의해 달성된다.
제 1 양태에서, 음성 오디오를 포함한 오디오 스트림(audio stream)의 음성 명료도를 증가시키는 방법이 제시된다. 상기 방법은 오디오 장치에 의해 실시간으로 수행되고 주변 소음(ambient noise)을 검출하는 단계, 주변 소음에 기초하여 내부 소음을 추정하는 단계 및 추정된 내부 소음 및 오디오 스트림에 기초하여 음성 필터(voice filter)를 결정하는 단계를 포함한다. 상기 방법은 타겟(target) 오디오 스트림을 제공하기 위해서 오디오 스트림에 음성 필터를 적용하는 단계, 및 오디오 장치의 내부 사운드를 발생하기 위해서 타겟 오디오 스트림을 하나 이상의 변환기로 출력하는 단계를 더 포함한다. 이에 더하여, 상기 방법은 오디오 장치의 내부 사운드를 검출하는 단계를 포함하고 음성 필터를 결정하는 단계는 검출된 내부 사운드에 추가로 기초하며, 실제 오디오 스트림을 제공하기 위해서 검출된 내부 사운드로부터 추정된 내부 소음을 빼는(subtracting) 단계를 포함한다. 상기 방법은 타겟 오디오 스트림과 실제 오디오 스트림 사이의 차이에 기초하여 음성 필터를 업데이트하는 단계를 더 포함한다.
일 변형예에서, 음성 필터를 결정하는 단계는 추정된 내부 소음을 하나 이상의 마스킹 임계값(masking threshold)과 비교하는 단계, 및 비교하는 단계에 기초하여 음성 필터를 업데이트하는 단계를 더 포함한다. 이는 오디오가 소음으로 마스킹되었는지 여부를 결정하는 에너지 및 계산 효율적인 방식을 제공하므로 유리하다.
일 변형예에서, 상기 하나 이상의 마스킹 임계값은 오디오 스트림의 임계 대역 분석(critical band analysis)을 수행함으로써 계산된다. 임계 대역 분석은 주파수 확산에 의한 청각 마스킹을 포함한다. 이는 마스킹 임계값의 정확도를 증가시키므로 유리하다.
일 변형예에서, 상기 방법은 오디오 장치의 사용자와 연관된 청각 프로파일(hearing profile)을 보상하기 위해서 오디오 스트림을 필터링하는 단계를 더 포함한다. 이는 음성 명료도가 더욱 증가되고 사용자에 최적화되므로 유리하다.
일 변형예에서, 음성 필터를 결정하는 단계는 필터링 후에 수행되어, 결정하는 단계가 오디오 장치의 사용자와 연관된 청각 프로파일에 대해 보상된 오디오 스트림에 기초한다. 이는 동일한 음성 파일러 알고리즘(voice filer algorithm)이 사용자와 관계없이 사용될 수 있고 몇몇 보상이 이미 청각 프로필을 통해 적용되므로 계산 노력이 감소될 수 있기 때문에 유리하다.
일 변형예에서, 음성 필터를 결정하는 단계는 재생 볼륨에 기초하여 재생 폰(phon)을 결정하는 단계를 더 포함하며, 음성 필터를 업데이트하는 단계는 결정된 폰과 연관된 등감곡선(equal loudness contour)에 추가로 기초한다. 이는 이는 음성 명료도가 볼륨에 따라 변경되지만 모든 주파수에 걸쳐서 균일하지 않고 재생 볼륨에 관계없이 이러한 증가된 음성 명료도를 보상하므로 유리하다.
일 변형예에서, 재생 폰을 결정하는 단계는 내부 사운드에 추가로 기초한다. 이는 사용자가 경험하는 실제 음압 수준에 대한 정확한 판독을 제공하기 때문에 유리하다.
일 변형예에서, 음성 필터를 결정하는 단계는 주파수 윈도우 함수(frequency window function)를 사용하는 컨볼루션에 의해 주파수에서 음성 필터의 이득(gain)을 평활화(smoothing)하는 단계를 더 포함한다. 이는 인접한 주파수 그룹들 사이의 원치 않는 차이를 제거하므로 유리하다.
일 변형예에서, 음성 필터를 결정하는 단계는 하나 이상의 가중 매개변수(weighting parameter)를 포함하는 지수 가중 이동 평균을 사용하여 음성 필터의 이득을 평균화하는 단계를 더 포함한다. 이는 인접한 주파수 그룹들 사이의 원치 않는 차이를 제거하므로 유리하다.
일 변형예에서, 음성 필터를 결정하는 단계는 음성 필터가 오디오 스트림에 적용되는 정도를 선택하기 위해서 구성 가능한 혼합 설정을 적용하는 단계를 더 포함한다. 이는 개선 양을 맞춤화할 수 있고 사용자가 원하는 보상 양을 선택할 수 있으므로 유리하다.
일 변형예에서, 내부 소음을 추정하는 단계는 하나 이상의 순환 신경망에 의해서 구현된다. RNN을 사용하면 내부 소음을 정확하고 효율적으로 추정할 수 있으므로 유리하다.
일 변형예에서, 주변 소음은 오디오 장치에 작동 가능하게 연결된 외부 마이크로폰에 의해서 검출된다. 이는 주변 소음의 정확한 측정을 제공하므로 유리하다.
일 변형예에서, 주변 소음은 최대 10 kHz, 바람직하게는 최대 8 kHz의 최대 오디오 대역폭으로 제한된다. 이는 본 발명 방법의 계산 복잡성을 더욱 감소시키기 때문에 유리하다.
일 변형예에서, 오디오 스트림에 음성 필터를 적용한 후에 오디오 스트림에 능동형 소음 소거(Active Noise Cancellation; ANC)를 적용하는 단계를 더 포함한다. 이는 내부 사운드의 소음이 더욱 감소되기 때문에 유리하다.
제 2 양태에서, 오디오 장치가 제시된다. 오디오 장치는 하나 이상의 변환기, 사용자의 귓강(ear cavity)에서 내부 사운드를 검출하도록 배열된 적어도 하나의 내부 마이크로폰, 및 내부 마이크로폰에, 상기 하나 이상의 변환기에 그리고 외부 마이크로폰에 작동 가능하게 연결된 처리 모듈(processing module)을 포함한다. 처리 모듈은 본 발명의 방법을 수행하도록 구성된다.
일 변형예에서, 외부 마이크로폰은 오디오 장치에 포함된다. 이는 마이크로폰의 데이터가 처리 모듈에서 쉽게 이용할 수 있으므로 유리하다.
제 3 양태에서, 실시간으로 음성 명료도를 증가시키기 위한 오디오 시스템이 제시된다. 상기 시스템은 오디오 장치에 작동 가능하게 연결되고 음성 오디오를 포함하는 오디오 스트림을 오디오 장치로 전송하도록 구성된 휴대용 전자 장치를 포함하며, 오디오 장치는 본 발명에 따른 오디오 장치이다.
일 변형예에서, 전자 장치에 포함된 외부 마이크로폰에 의해서 주변 소음이 감지되며, 전자 장치는 외부 마이크로폰에 의해서 감지된 주변 소음을 오디오 장치로 전달하도록 추가로 구성된다. 이는 추가 소음 데이터가 오디오 장치의 외부 마이크로폰에 의해 제공될 수 있으므로 유리하다. 대안적으로 또는 추가적으로, 오디오 장치는 외부 마이크로폰 없이 구성될 수 있으며, 이에 따라 오디오 장치의 비용을 감소시킬 수 있다.
제 4 양태에서, 컴퓨터 프로그램 제품이 제시된다. 컴퓨터 프로그램 제품은 처리 모듈에 의해 실행될 때, 처리 모듈이 본 발명의 방법을 수행하게 하도록 구성된다.
본 발명의 실시예는 다음에서 설명될 것이며; 본 발명의 개념이 실제로 어떻게 축소될 수 있는지에 대한 비-제한적인 예를 예시하는 첨부된 개략도가 참조된다.
도 1a 및 도 1b는 본 발명의 실시예에 따른 오디오 시스템의 개략도이다.
도 2는 본 발명의 실시예에 따른 음성 필터 및 그의 신호의 개략도이다.
도 3은 본 발명의 실시예에 따라 오디오 스트림의 음성 명료도를 증가시키는 방법의 블록도이다.
도 4는 본 발명의 실시예에 따른 음성 최적화의 예시적인 플롯(plot)이다.
도 5는 본 발명의 실시예에 따른 등청감 곡선(loudness contour)의 예시적인 플롯이다.
도 6은 본 발명의 실시예에 따른 음성 최적화의 예시적인 플롯이다.
도 7은 본 발명의 실시예에 따라 음성을 음성 필터로 결정하는 블록도이다.
도 8은 본 발명의 실시예에 따른 컴퓨터 프로그램 제품이다.
이후, 특정 실시예가 첨부된 도면을 참조하여 더욱 완전하게 설명될 것이다. 그러나 본 발명은 다수의 상이한 형태로 구현될 수 있으며 본 명세서에 기재된 실시예에 한정되는 것으로 해석되어서는 안 되며; 오히려, 이들 실시예는 본 개시가 철저하고 완전해지고, 첨부된 청구범위에 정의된 바와 같은 본 발명의 범주를 당업자에게 완전히 전달할 수 있도록 예로서 제공된다.
"커플링된(coupled)"이라는 용어는 반드시 직접적일 필요도 반드시 기계적일 필요도 없지만 연결된 것으로서 정의된다. "커플링되는" 2 개 이상의 물품은 서로 통합될 수 있다. 'a' 및 'an'이라는 용어는 본 개시가 달리 명시적으로 요구하지 않는 한 하나 이상으로 정의된다. "실질적으로", "대략적으로" 및 "약"이라는 용어는 당업자가 이해하는 바와 같이 대체로 정의되지만, 반드시 특정된 전부는 아닌 것으로서 정의된다. "포함하다(comprise)"(그리고 "포함하다(comprises)" 및 "포함하는"과 같은 "포함하다"의 임의의 형태), "가지다(have)"(그리고 "가지다(has)" 및 "가지는"과 같은 "가지다"의 임의의 형태), "포괄하다(include)"(그리고 "포괄하다(includes)" 및 "포괄하는"과 같은 "포괄하다"의 임의의 형태) 그리고 "함유하다(contain)"(그리고 "함유하다(contains)" 및 "함유하는"과 같은 "함유하다"의 임의의 형태)는 개방형 연결 동사이다. 결과적으로, 하나 이상의 단계를 "포함하는", "가지는", "포괄하는" 또는 "함유하는" 방법은 이들 하나 이상의 단계를 소유하지만 이들 하나 이상의 단계만을 소유하는 것으로 제한되지 않는다.
도 1a는 오디오 스트림(20) 형태인 오디오 소스 신호(20)의 음성 명료도를 개선하기 위한 실시간 오디오 시스템(1)의 단순화된 도면이다. 대응하는 오디오 시스템(1)은 또한, 구성요소 및 특징부 위치의 대안적인 예시를 제공하기 위해서 도 1b의 개략도에 도시된다. 오디오 스트림(20)은 음성 오디오를 포함하고 임의의 적합한 형태의 스트리밍 오디오일 수 있다. 음성 오디오는 팟캐스트(podcast), 오디오북(audio book), 음성 통신 등과 같은 디지털 형식의 임의의 음성 오디오일 수 있다. 오디오 스트림(20)은 전형적으로, 전자 장치(10)로부터 오디오 장치(30)로 전송된다. 전송은 바람직하게, BLE 등과 같은 적합한 무선 인터페이스를 경유하는 무선이지만, 유선일 수도 있다. 전자 장치(10)는 임의의 적합한 전자 장치(10)일 수 있지만, 바람직하게는 모바일 단말기(10)와 같은 휴대용 전자 장치(10)이다. 오디오 장치(30)는 바람직하게는 한 쌍의 헤드폰(30)이고 예를 들어, 귀 위, 귀 주위 또는 귀 안에 있는 임의의 적합한 디자인일 수 있지만, 당업자가 쉽게 이해할 수 있는 바와 같이, 본 발명과 함께 작동할 수 있는 임의의 오디오 장치(30)가 적합하다. 오디오 장치(30)는 이동 단말기(10)로부터 오디오 스트림(20)을 수신하도록 구성되는데, 이는 오디오 스트림(20)이 BLE를 통해 전송되는 경우에, 오디오 장치가 하나 이상의 BLE 칩셋을 포함한다는 것을 의미한다. 이에 더하여, 오디오 장치(30)는 하나 이상의 변환기(35), 바람직하게는 2 개의 변환기(35), 및 수신된 오디오 스트림(20)을 하나 이상의 변환기(35)에 의해 출력될 수 있는 아날로그 신호로 변환하는 데 필요한 하드웨어와 소프트웨어 모듈을 포함한다. 오디오 스트림(20)은 오디오 스트림(20)이 재생될 레벨을 나타내는 오디오 시스템(1)의 임의의 장치(10, 30)에 의해 설정된 재생 볼륨(15)과 연관된다. 오디오 장치(30)의 하드웨어는 적어도 하나의 처리 모듈(32)을 포함한다. 처리 모듈(32)은 적합한 MCU 또는 복수의 MCU, 하나 이상의 DSP, 또는 하나 이상의 메모리를 포함할 수 있고, 인터페이스를 통한 통신을 위해 필요한 하드웨어, 예를 들어 BLE 송수신기를 더 포함할 수 있다.
오디오 장치(30)의 변환기(들)(35)는 오디오 장치(30) 사용자의 귀강(ear cavity)으로 지향된 사운드를 발생하도록 구성된다. 오디오 장치(30)에는 변환기(35)에 의해 발생된 사운드를 측정하도록 배열된 하나 이상의 내부 마이크로폰(36)이 제공된다. 사운드는 바람직하게, 사용자가 오디오 장치(30)를 사용할 때 사용자의 귀강에서 측정된다. 바람직하게, 각각의 변환기(35)에서 발생된 사운드를 측정하기 위해서 하나의 내부 마이크로폰(36)이 제공된다.
오디오 시스템(1)에는 하나 이상의 외부 마이크로폰(5)이 추가로 제공된다. 외부 마이크로폰(5)은 오디오 장치(30) 외부에 있고 오디오 장치(30)의 처리 모듈(32)에 작동 가능하게 연결된 임의의 적합한 마이크로폰(5)일 수 있다. 외부 마이크로폰(5)은 오디오 장치(20)에 포함될 수 있으며, 예를 들어 오디오 장치(30)가 헤드셋일 때 외부 마이크로폰이 오디오 장치(30) 사용자의 음성을 검출하도록 배치될 수 있다. 대안적으로 또는 추가적으로, 외부 마이크로폰(5)은 예를 들어, 휴대용 전자 장치(10)는 이동 단말기(10)일 때 휴대용 전자 장치(10)에 포함될 수 있다.
이제 도 2를 참조하면, 본 발명의 개념적인 개요가 제공될 것이다. 본 발명은 바람직하게, 본 명세서에서 제시된 오디오 장치(30)에서 구현된다. 오디오 스트림(20)의 음성 명료도는 음성 필터(50)에 의해 증가된다. 이러한 음성 필터(50)는 하나 이상의 변환기(35)로 출력되는 타겟 오디오 스트림(20')을 생성하는 오디오 스트림(20)에 적용된다. 타겟 오디오 스트림(20')은 오디오 스트림(20)과 비교하여, 음성 명료도를 증가시키도록 필터링된다. 오디오 필터(50)의 내부 작동에 관한 추가 세부사항은 본 개시 전체에 걸쳐 제공될 것이다. 음성 필터(50)는 적어도 주변 소음(40) 및 내부 사운드(37)에 기초하여 결정된다. 주변 소음(40)은 오디오 장치(30)의 처리 모듈(32)에 작동 가능하게 연결된 하나 이상의 외부 마이크로폰(5)에 의해 검출될 수 있다. 내부 사운드(37)는 오디오 장치(30) 사용자의 귀강에서의 사운드이거나 이에 대한 추정치이다. 내부 사운드(37)는 하나 이상의 변환기(35)와 연관된 내부 마이크로폰(36)에 의해 측정된다. 바람직하게, 오디오 장치(30)는 오디오 장치(30)의 각각의 변환기(35)와 연관된 적어도 하나의 음성 필터(50)를 포함한다.
도 3을 참조하면, 음성 오디오를 포함한 오디오 스트림(20)의 음성 명료도를 증가시키는 방법(100)의 개요가 설명될 것이다. 방법(100)은 음성 오디오를 포함한 오디오 스트림(20)을 처리함으로써 음성 명료도를 증가시키는 것으로 설명될 수 있다는 것이 언급되어야 한다. 방법(100)은 본 명세서에서 제시된 바와 같이 오디오 장치(30)에 의해 수행될 수 있다. 방법(100)의 각각의 단계는 본 개시의 다른 곳에서 더 상세히 설명될 것이다. 방법(100)은 타겟 오디오 스트림(20')을 오디오 장치(30)의 사용자에게 출력하는 단계(150)를 포함한다. 즉, 오디오 필터(50)는 내부 사운드(37)를 발생하기 위해서 변환기(35)에 제공되는 타겟 오디오 스트림(20')을 제공하도록 오디오 스트림(20)에 적용된다(140). 내부 사운드(37)는 전형적으로, 주변 소음(40)을 검출하는(110) 내부 마이크로폰(36)에 의해 검출된다(160). 이는 전형적으로 주변 소음을 측정하고 이를 오디오 장치(30)의 처리 모듈(32)에 제공하는 하나 이상의 외부 마이크로폰(5)에 의해 수행된다. 주변 소음(40)은 내부 소음(40')을 추정하는 데 사용되며(120), 내부 소음(40')은 사용자의 고막에 의해 인지되는 소음이다. 오디오 스트림(20), 추정된 내부 소음(40') 및 검출된 내부 사운드(37)는 음성 필터(50)를 결정하는 데 사용된다.
방법(100)의 몇몇 실시예에서, 시스템(1) 사용자의 청각 프로파일[HL ( f k )]을 보상하기 위해서 오디오 스트림(20)을 필터링하는 단계(105)를 더 포함한다. 이는 방법의 음성 명료도 이외에 사용자의 청각 장애 및/또는 손상이 보상되기 때문에 유리하다. 바람직하게, 청각 프로파일[HL ( f k )] 보상은 음성 필터(50)를 적용하거나 결정(130)하기 이전에 오디오 소스 신호(20)에 적용되어, 음성 필터(50)는 사용자의 청각 장애 및/또는 손상에 대해 보상된 오디오 스트림(20)에 기초하여 결정된다. 이는 사용자 사이의 차이를 효과적으로 제거하고 음성 필터(50)를 결정(130)하기 위한 동일한 방법이 모든 사용자에 대해 사용될 수 있기 때문에 유리하다. 추가적으로, 청각 능력에 관한 보상이 오디오 스트림(20)에만 영향을 미치기 때문에, 대부분의 경우에 음성 명료도를 직접적으로 개선할 것이다. 이에 더하여, 청각 프로파일 보상은 음성 필터(50)의 결정에서 고려될 수 있고 음성 필터(50)가 적용(140)될 때까지 사전 처리가 필요하지 않다. 청각 프로파일[HL(f k )]과 주변 소음(40) 사이의 관계는 중요할 수 있는데, 이는 사용자 청각 프로파일[HL ( f k )]이 고려되지 않는 경우에 음성 명료도를 증가시키기 위한 처리 결과가 몇몇 사용자에 대해서, 사용자의 청각 능력과 관련하여 감소된 효과를 갖기 때문이다.
능동형 소음 소거(ANC)와 같은 소음 소거 기술을 활용하는 오디오 시스템(1) 또는 오디오 장치(30)에서 소음 소거는 바람직하게, 음성 필터(50) 이후에 오디오 스트림(20)에 적용된다는 것이 언급되어야 한다. 이는 소음 소거의 수행으로 소음 레벨을 감소시키지만, 동시에 오디오 신호가 왜곡되게 할 수 있으므로 유리하다. 왜곡 정도는 소음 소거 구성과 소음 소거 기술의 조정 및/또는 교정에 의존한다.
타겟 오디오 스트림(20')은 왜곡되거나 아니면, 예를 들어 디지털-아날로그 변환기, 변환기 작동 및 사용자의 오디오 장치(30) 위치에 의해 부정적인 영향을 받을 수 있다. 결과적으로, 소음 소거에 의한 소음 제거 후 사용자의 고막에 제시되는 내부 사운드(37)를 검출하고, 실제 오디오 스트림(37'), 즉 내부 소음(40') 제거 후의 내부 사운드(37)를 타겟 오디오 스트림(20')과 비교하고 차이를 최소화하도록 조치하는 것이 유리하다.
이미 지적한 바와 같이, 오디오 시스템(1)은 실시간 제약을 갖는 오디오 시스템(1)이다. 오디오 스트림(20)은 샘플 기반 또는 프레임 기반에 대한 디지털 샘플로서 수신된다. 프레임에서 샘플 수집은 전자 장치(10)에 의해 다른 곳에서 또는 시스템(1)의 일부로서 수행될 수 있다. 오디오 스트림(20)은 초당 샘플 레이트(F s ) 샘플을 갖는 N 샘플의 집합을 포함하며, 이들은 프레임(시간) 인덱스(l)를 갖는 오디오 신호 프레임으로 형성된다. 오디오 스트림(20)은 모노 또는 스테레오일 수 있다.
음성 필터(50)는 바람직하게, 심리음향 마스킹(psychoacoustic masking)에 기초하고 음성 명료도 지수(Speech Intelligibility Index) 또는 등가물, 예를 들어, 조음 지수(Articulation Index), 음성 전송 지수 또는 단기 객관적 명료도(Short Term Objective Intelligibility), 및 소음의 음조 마스킹 이론(theory of tonal masking of noise)으로부터 도출된 심리음향 모델을 포함한다. 내부 소음(40')이 타겟 오디오 스트림(20')에 의해 마스킹되도록 음성 필터(50)의 주파수 이득이 계산되며, 이는 본 개시의 다른 섹션에서 더 상세히 설명될 것이다.
추정된 내부 소음(40')은 다수의 상이한 방식으로 제공될 수 있으며 내부 소음(40')의 추정(120)에 대한 입력은 적어도 외부 마이크로폰(5) 중 하나에 의해 검출된(110) 주변 소음(40)이다. 주변 소음(40)은 외부 마이크로폰에 의해 마이크로폰 신호로서 제공되며 바람직하게는 오디오 스트림(20)의 것과 실질적으로 동일한 프레임-방식(frame-wise) 구성으로 표현된다. 마이크로폰 신호는 스테레오 신호일 수도 있으며, 그러한 신호는 전형적으로 듀얼 마이크로폰 신호로 명명된다. 듀얼 마이크로폰 신호는 단일 스테레오 신호로서 포맷된 2 개의 독립적인 마이크로폰 신호를 포함한다. 이전에 설명된 바와 같이, 시스템(1)에는 여러 개의 외부 마이크로폰(5)이 있을 수 있으며, 내부 소음(40')을 추정하는 단계(120)는 예를 들어, 외부 마이크로폰(5)에 의해 제공된 모든 마이크로폰 신호 중 단지 하나의 마이크로폰 신호를 사용하기로 결정하는 단계를 포함할 수 있다. 어느 외부 마이크를 사용할지에 관한 결정은 예를 들어, 가장 높은 신호 레벨, 변환기에 대한 근접성 등에 기초할 수 있다. 모든 외부 마이크로폰(5)은 처리된 외부 마이크로폰(5) 각각으로부터 주변 소음(40)을 얻기 위해서 별도로 처리될 수 있다. 외부 마이크로폰(5)은 스테레오 신호를 얻도록 처리될 수 있으며, 심지어 각각의 변환기(35)가 상이한 주변 소음(40)과 연관될 수 있도록 주변 소음(40)의 방향을 얻도록 처리될 수 있다.
당업자가 본 명세서의 교시를 이해한 후에 이해할 수 있듯이, 실시간 오디오 시스템(1)에서 이용 가능한 처리 능력의 리소스 관리 및 최적화에 기초하여, 주변 소음(40)을 검출하기 위해서 여러 외부 마이크로폰(5)을 활용할 지의 여부에 대한 절충이 필요할 수 있다. 이러한 절충은 애플리케이션에 의존할 수 있다. 오디오 장치(30)가 예를 들어, 한 쌍의 헤드폰(30)일 때, 그리고 충분한 처리 능력이 존재한다면, 내부 소음(40')의 두 가지 별도 추정(120)이 가능하며, 하나는 사용자의 좌측 귀에 대한 것이고 다른 하나는 사용자의 우측 귀에 대한 것이다. 그러나 예를 들어, 처리 능력이 불충분하거나 전류 소비에 대한 엄격한 요건이 존재하면, 주변 소음(40)이 좌측 귀와 우측 귀에서 실질적으로 동일하고 동일한 내부 소음(40')이 양쪽 귀에 활용될 수 있다는 합리적인 가정이 있을 수 있다.
외부 마이크로폰(5)은 오디오 신호와 비교하여 상이한 샘플 레이트로 샘플링(sampling)될 수 있다. 음성 통신을 위한 중요한 주파수 범위가 최대 8 kHz라는 점을 고려하면, 외부 마이크로폰(5)은 최대 10 kHz, 바람직하게는 8 kHz의 최대 대역으로 제한된다. 낮은 대역폭은 처리 부하, 메모리 부하 및 전류 소비를 감소시킨다. 처리 부하, 메모리 부하 및 전류 소비를 추가로 휠씬 더 감소시키기 위해서 최대 대역폭은 감소될 수 있지만, 최대 대역폭은 주변 소음(40)의 요건에 대해 절충되어야 한다.
당업자가 본 개시를 후에 이해할 수 있듯이, 외부 마이크로폰(5)은 주변 소음(40)과 추가적인 음원 모두를 포함하는 신호를 생성할 것이라는 점에 유의해야 한다. 주변 소음(40)만이 관련된다는 것은 예를 들어, 변환기로부터 비롯되는 에코 및 대화에 참여하는 청취자로부터의 근거리 대화는 외부 마이크로폰(5)에 의해 생성된 신호로부터 제외되는 것이 유리하다는 것을 의미한다. 이는 추가 음원이 주변 소음(40)으로서 잘못 분류될 위험을 감소시키기 때문에 유리하다.
추가 사운드를 주변 소음으로서 잘못 분류하는 것을 방지하는 한 가지 해결책은 하나 이상의 소음 추정 기술, 예를 들어 더 높은 수준의 통계, Cepstrum 분석, 자동 회귀 모델링 또는 Welch 스펙트럼과 같은 비-모수적 방법(non-parametric method) 및 최소 분산 방법을 사용하는 것이다. 전형적으로, 최소 노력 구현을 위해서, 방법(100)은 추가 음원이 외부 마이크로폰(들)(5)에 의해 검출되면 주변 소음(40)의 검출(110) 및/또는 내부 소음(40')의 추정(120)을 중지할 수 있다. 배경 소음과 음원 사이의 구별은 예를 들어, 음성 활동 검출기(VAD)를 사용하여 해결할 수 있다.
본 발명의 일 실시예에서, 내부 소음(40')은 순환 신경망(Recurring Neural Network: RNN)에 의해 추정(120)된다. 이는 본 개시의 다른 섹션에서 더 상세히 설명될 것이지만, 하나의 이점은 예를 들어, 내부 소음(120)의 추정(120), 추가 사운드의 검출, 음성 검출 등의 구현 및 구성의 복잡성이 기계 학습(Machine Learning) 이론에 잘 설명되어 있는 RNN 학습 및 운영으로 대체된다는 점이다.
내부 소음(40')이 어떻게 추정(120)되는 지에 관계없이, 내부 소음(40')의 표현은 각각의 청각 필터 대역 또는 임계 대역(b)에 대해서만 내부 소음(40')의 평균 에너지 값[E v (b), b = 1...N B ]을 포함한다. 임계 대역(b)의 개념은 다음 섹션에서 설명된다.
이전에 설명한 바와 같이, 음성 필터(50)의 주파수 이득은 내부 소음(40')이 타겟 오디오 스트림(20')에 의해 마스킹되도록 계산된다. 이를 달성하기 위해서, 오디오 스트림(20)은 주파수 또는 임계 대역(b) 표현으로 필터링되어 표현된다. 이는 오디오 스트림(20)을 서브-프레임으로 분할함으로써 달성될 수 있으며, 예를 들어 이전 서브-프레임과 최대 50% 중복을 허용한다. 서브-프레임은 적합한 윈도우 함수(window function), 예를 들어 Hamming, Hanning, 삼각 윈도우 등을 사용하여 윈도우화될 수 있다. 파워 스펙트럼[Px (k) = |X(k)|2]은 서브-프레임 시간 영역(sub-framed time domain) 데이터와 고속 푸리에 변환(Fourier transform) 구현(FFT)을 사용하여 계산되며, 여기서 k는 주파수-빈 지수(frequency-bin index)이다. 주파수 변환의 해상도는 바람직하게, 샘플 레이트(F s ) 및 서브-프레임 크기에 기초하여 선택된다. 전형적으로, 해상도와 리소스 수요 사이의 절충이 요구된다.
주파수 영역에서 설명된 양은 모두 음압 레벨(SPL)로 표시되어서, Px (k)/N은 주파수-빈 지수(k)당 SPL에서의 파워 스펙트럼 밀도이고 청취자의 귀강에 위치된 자유장 기준점(free-field reference point)으로 언급된다. 디지털 신호로부터 음압 레벨로의 변환은 적절한 주파수 종속 스케일링, 즉 마이크로폰(5, 36)당 하나의 스케일링 주파수 함수 및 변환기(35)당 하나의 스케일링 주파수 함수에 의해 수행된다. 스케일링 함수는 미리 결정되고/되거나 구성 가능하며 바람직하게는 처리 모듈(32)에 작동 가능하게 커플링된 메모리에 저장된다. 스케일링 함수는 오디오 장치(30)의 설계 또는 구성 중에 한 번 수행된 교정 단계로 간주될 수 있다. 전형적으로, 마이크로폰(5, 36)에 대한 스케일링 함수는 주파수-빈 지수(k)당 하나의 스케일 값으로 구성되지만 이에 제한되지는 않으며 마이크로폰 주파수 응답으로부터 추정될 수 있다. 변환기(35)에 대한 스케일링 주파수 함수는 예를 들어, 기준점, 전형적으로 청취자의 귀까지의 거리로 인한 스케일링을 포함하는 변환기 주파수 응답에 대응할 것이다. 예시로서, 한 쌍의 헤드폰(30)에 대해서, 오디오 스트림(20)에 대한 스케일링 주파수 함수는 귀 기준점(ERP)으로 언급된 변환기(35)의 주파수 응답에 기초할 것이다.
달팽이관 모델(cochlear model)은 오디오 스트림(20)을 N B 주파수 대역으로 분할하고, 각각의 주파수 대역은 하나의 임계 대역(b)를 나타낸다. 임계 대역 수(N B )는 주파수 영역에서 원하는 해상도에 따라 설정될 수 있으므로 오디오 스트림(20)이 음성 필터(50)에 의해 조정될 수 있는 입도(granularity)를 직접 제어할 수 있게 한다. 당업자가 이해할 수 있듯이, 주파수 해상도와 리소스 수요 사이에는 절충이 있으며, 해상도를 증가시키려면 더 큰 달팽이관 모델이 필요하므로 더 많은 계산 노력과 더 복잡한 구현이 필요하다. 본 개시의 발명자들은 20 개의 주파수 대역(N B = 20)이 주파수 해상도 및 계산 복잡성과 관련하여 합리적인 선택이라는 것을 발견했다. 일반성을 잃지 않으면서 임계 대역(b)으로의 분할은 등가 직사각형 대역폭(equivalent rectangular bandwidth: ERB), 스케일 및 감마-톤 필터 뱅크를 사용하여 이루어질 수 있다. 달팽이관 모델을 정확하게 제공하기 위해서 다른 스케일과 필터 유형이 활용될 수 있다. 일반 신호에 대해서, 각각의 임계 대역(b)에서 평균 에너지[]는 파워 스펙트럼을 사용하여 계산되며 여기서 F b (k)는 감마-톤 필터 뱅크의 임계 대역(b)과 연관된 필터의 주파수 응답이다. 각각의 대역에서의 에너지는 []에 의해 벡터로서 표현된다.
다음에서, 마스킹의 심리음향학적 특성이 좀 더 상세히 설명될 것이며, 특히 제 1 신호가 제 2 신호를 마스킹하여 제 2 신호가 인식되지 않게 되는 방법에 대해 설명될 것이다. 설명을 위해서, 오디오 스트림(20)이 음조 신호(tonal signal)로 근사화되는 반면에 주변 소음(40)이 광대역 소음이라고 가정하면, 톤 마스킹(tone masking) 소음의 이론이 적용된다.
임계 대역(b)과 연관된 마스킹 임계값[T(b)]은 주파수의 마스킹, 확산에 의한 동시 주파수 마스킹, 및 이득 평탄화에 의한 시간 마스킹을 포함할 수 있는 오디오 스트림(20)의 임계 대역 분석에 기초하여 계산된다.
로서 오디오 스트림(20)의 임계 대역 표현()을 얻기 위해서 임계 대역 분석이 적용된다. 이는 청각 프로파일[HL ( f k )]에 따른 보상(105)이 먼저 적용되는 실시예에서, 위에서 설명된 바와 같이 마스킹 임계값[T(b)]이 사용자의 청각 장애를 고려할 것임을 의미한다는 점에 유의한다.
위에서 언급한 확산에 의한 동시 주파수 마스킹은 주파수 확산을 모델링하는 확산 함수(SF)에 의해 설명될 수 있다. 확산 함수(SF)는 : 에 의해 주어질 수 있으며, 여기서 x는 Barks1( 1 : Bark 스케일은 심리 음향 스케일임) 단위를 가지며 는 dB로 설명된다. 주파수 확산은 임계 대역 영역에서의 컨벌루션(convolution)이며 컨벌루션 커널 행렬()로 표현될 수 있다는 점에 유의해야 한다. 톤-마스킹-소음에 대한 임계 대역(b)당 마스킹 임계값[T(b)]은 마스킹 임계값 벡터 로 제공되며, 여기서 , 및 x는 Bark 수와 같다. SF dB (x)γ(x)는 모두 본 명세서에 사용된 바와 같이 Bark로부터 임계 대역 영역으로 변환될 수 있다. X L 은 임계 대역 에 대하여, 마스킹 임계값()과 소음 에너지, 즉 내부 소음(40') 사이의 일정한 차이(dB 단위)를 나타내는 구성 매개변수이다. 이러한 구성 매개변수의 전형적인 값은 X L = 14.5이다. 더 높은 값은 소음 에너지에 대한 더 높은 민감도를 초래하여 주변 소음(40)을 마스킹하기 위해서 더 높은 오디오 스트림(20) 에너지를 요구한다.
오디오 시스템(1)은 바람직하게, 음성 최적화, 즉 음성 명료도 개선에 사용될 적어도 하나의 마스킹 임계값(T)을 계산하도록 구성된다. 애플리케이션, 예를 들어 헤드폰(30) 등에 따라서, 오디오 시스템(1)에 의해 계산된 2 개 이상의 마스킹 임계값()이 있을 수 있다. 각각의 마스킹 임계값()은 전형적으로, 하나 이상의 변환기(35)와 관련된다.
마스킹 임계값(), 청각 손상 보상을 포함할 수 있는 오디오 스트림(20)의 임계 대역 표현(), 및 소음 임계 대역 표현()에 기초하여, 음성 최적화는 청취자의 음성 명료도를 개선하기 위해서 음성 필터(50) 형태로 주파수 종속 이득을 계산할 것이다.
이러한 맥락에서 음성 최적화는 이후 목표 오디오 스트림(20')의 형태로 음성 최적화된 것으로 간주되는 오디오 스트림에 적용된, 벡터()로 표시되는 주파수 종속 이득을 계산하는 프로세스를 지칭한다. 각각의 임계 대역(b)에 대해서, 각각의 임계 대역(b)과 연관된 소음 에너지[e v (b)], 즉 내부 소음(40')은 각각의 임계 대역(b)과 연관된 마스킹 임계값[T(b)]과 비교된다. 소음 에너지가 마스킹 임계값[T(b)] 미만이면, 오디오 스트림(20)은 소음을 마스킹한 것으로 결정되며 오디오 스트림(20)의 증폭은 대응하는 임계 대역(b)에서 필요하지 않다. 즉, 이러한 임계 대역(b)에 대해서, 음성 필터(50)의 이득은 1 이하로 결정(130)되지만, 바람직하게는 적어도 마스킹 임계값[T(b)] 미만인 소음 에너지를 충족하는 데 필요한 만큼 크게 결정된다. 소음 에너지가 마스킹 임계값[T(b)]을 초과하면, 소음이 마스킹되지 않으며 오디오 소스 신호의 증폭이 필요하다. 즉, 이러한 임계 대역(b)에 대해서, 음성 필터(50)의 이득은 1보다 더 큰 것으로 결정(130)된다. 증폭은 많은 방식으로 표현될 수 있으며, 당업자는 본 개시를 이해한 후에 본 명세서의 임의의 교시를 산업화하는 데 아무런 문제가 없을 것이다.
각각의 임계 대역(b)에서 오디오 스트림(20)을 만큼 증폭하면 음성 최적화 신호, 즉 타겟 오디오 스트림(20')이 생성된다.
본 명세서에 설명된 개시는 모델(행렬 )에 포함되는 주파수에서 동시 마스킹을 수행한다는 점에 유의한다. 최적 이득[g opt (b)]을 계산할 때, 각각의 주파수 대역에 대해 개별적으로 이득을 계산하는 것보다 모든 주파수 대역을 포함한 일반적인 공식을 명시하는 것이 바람직할 수 있다. 본 발명에 따른 최적 이득()의 공식은 모든 주파수 대역 및 주파수의 동시 마스킹을 포함한다. 결과적으로, 본 발명은 각각의 이득이 개별적으로 계산되고 모델에 동시 마스킹을 포함하지 않을 때와 비교하여 이용 가능한 이득 매개변수의 최적화된 사용을 초래할 것이다.
이전에 언급한 바와 같이, 오디오 스트림(20)()은 추정된 내부 소음(40')이 비교되고 마스킹의 여부를 간주하는 마스킹 임계값[T(b)]을 계산하는 데 사용된다. 변환기(35)를 통해 사용자의 귀강에서, 음성 최적화 신호(20'), 타겟 오디오 스트림(20')의 제시는 여러 주파수 종속 구성요소에 의해 영향을 받을 수 있으며, 그 중에서 아마도 가장 중요한 것은 헤드폰(30)의 위치와 피팅이며, 결과적으로 타겟 오디오 스트림(20')의 제시된 버전이 예상된 주파수 콘텐츠를 갖지 않는다. 인지된 최적화된 음성 신호()는 추정된 내부 주변 소음(40')과 함께 마이크로폰 신호(37)의 일부이다.
외부 마이크로폰(5)과 내부 마이크로폰(36)의 조합으로 소음을 측정하는 ANC 또는 소음 감소 기술과 달리, 본 발명에서는 외부 소음(40)에 기초하여 내부 소음(40')()이 추정된다. 따라서 제시된 음성 최적화 신호()는 예를 들어, 내부 사운드(37)로부터 를 감산함으로써 추정될 수 있지만, 이에 제한되지 않는다. 이것의 하나의 추가 이점은 가 몇몇 사전 정의된 측정, 예를 들어 평균 제곱근에서 쪽으로 수렴하고 예를 들어, 헤드폰(30)의 위치 또는 피팅 정도의 변화를 설명하고 방법(100)을 더욱 견고하고 탄력 있게 만들 수 있도록 음성 최적화 처리를 실시간으로 조정할 수 있다는 점이다.
하나의 비-제한적인 예에서, 오디오 스트림(20)에 적용될 때, 결과적인 마스킹 임계값()에 대응하는 이득이 계산되도록 증폭이 이루어질 수 있다. 소음 에너지가 마스킹 임계값() 이하일 때, 증폭이 필요하지 않으며, 소음 에너지가 임계값을 초과하는 주파수 대역에 대해서는 증폭이 필요하다고 가정한다. 그 반대가 확실히 사실일 수 있으며 음의 이득, 즉 감쇠가 두 경우 모두 가능할 수 있다는 점에 유의한다. 결과적인 최적 음성 필터(50)는 단지 필요한 증폭만을 포함할 것이며, 몇몇 경우에는 마스킹되지 않은 주파수로부터 적용된 마스킹 주파수로 에너지를 재분배할 것이다. 주파수 대역(b)당 원하는 목표 함수[T d (b)]는 다음과 같이 정의될 수 있다:
원하는 목표 함수 를 사용하면, 라그랑주 승수법(Lagrange multipliers) 및 의 조건하에서 최소화 를 암시하는 Karush-Kuhn-Tucker conditions2[ 2 : Boyd, S., & Vandenberghe, L. (2009). Convex Optimization. Cambridge University Press. ETSI. (2012). Speech and multimedia Transmission Quality (STQ); Speech quality performance in the presence of background noise; Part 1: Background noise simulation technique and background noise database 202 396-1. ETSI]을 사용하여 에 대한 답을 구할 수 있는 가중 최소 제곱 표준 최적화(weighted least square norm optimization) 문제가 공식화될 수 있다.
W는 대각선 가중치 행렬이고, 이 예에서 주 대각선은 음성 명료도 지수3[ 3 : S3.5-1997, A. (1997). Methods for calculation of the Speech Intelligibility Index. ANSI.]에 의해 주어진 대로 주파수 대역 가중치로 채워진다. 최적화는 주파수에 대한 중요도 가중치(importance weighting)에 따라 주파수가 증폭되거나 감쇠되는 프로세스에서 명시적으로 주파수 확산을 활용한다.
다른 비-제한적인 예에서, 가중치 행렬(W)은 변환기(35)에 제공된 목표 오디오 스트림(20')과 내부 소음(40')이 제거된 후 내부 마이크로폰(36)에 의해 제공된 대응하는 검출된 내부 사운드(37) 사이의 오차에 기초하여 채워질 수 있다. 즉, 내부 소음(40') 추정 소음(120)이 내부 마이크로폰(36)에 의해 제공된 신호에서 감산된다. 적합한 가중 행렬(W)은 이 경우에, 주파수 영역, 바람직하게는 청각 대역 영역의 오류에 기초할 수 있으며, 훨씬 더 바람직하게는 적절한 가중값이 [0-1] 범위에 있고 가장 바람직하게는 예를 들어, 사이의 상관 계수를 사용하여 예를 들어, 단위의 평균 제곱근 값으로 정규화되며, 여기서 높은 상관관계, 즉 매우 유사한 신호는 낮은 가중치에 대응한다. 즉, 이러한 주파수 대역의 오류에 초점을 두지 않으며 그 반대도 마찬가지이다.
최적 이득 는 바람직하게, 임계 대역 표현으로부터 주파수-빈 표현[H g (k)]에 대한 진폭으로 변환된다. 그러한 변환은 바람직하게, 사용된 임계 대역 분할에 대한 보간(interpolation), 예를 들어 이 예에서는 인 감마톤 필터뱅크(gammatone filterbank)를 포함한다.
H g (k)는 오디오 스트림(20)과 내부 노이즈(40')의 모든 새로운 프레임(l)에 대해 한 번씩 업데이트 된다는 점을 관찰한다. 전형적으로, 오디오 프레임은 상대적으로 짧으며, 오디오 프레임의 샘플 수는 100 ms 기간의 등가물보다 작을 수 있다. 다른 한편으론, 인간의 귀는 최대 100 내지 300 ms의 통합 시간을 가진다. 이에 더하여, 적응형 주파수 조정을 적용할 때 청취자는 오디오 스트림(20)의 음조 균형의 안정성을 경험해야 하며, 이를 달성하지 못하면 사용자에게 불편함을 초래할 수 있다. 다른 측면은 음성 최적화 신호, 즉 타겟 오디오 스트림(20')의 주파수 변화이다. 인접한 주파수 대역은 조정 정도가 너무 많이 다르지 않거나 짜증나는 느낌이 발생할 수 있다. 이들 특성은 모두 주관적이며 본 개시를 읽은 후 당업자에게 공지된다.
본 개시의 발명자들은 음성 필터(50)의 이득이 위의 주관적인 영향을 완화하기 위해서 처리될 수 있다는 것을 깨달았다. 일 실시예에서, 음성 필터(50)의 이득은 격리된 주파수 빈이 인접한 주파수 빈에 비해 너무 높은 증폭이나 너무 높은 감쇠를 갖지 않는다고, 즉 주파수 빈들 사이의 이득 변화가 제한된다고 주장하는 주파수 윈도우 함수, 예를 들어 삼각형 윈도우 또는 이와 유사한 것에 따른 컨볼루션에 의해 주파수가 평활화된다. 일 실시예에서 윈도우는 [0.15, 0.7, 0.15]의 전형적인 값으로 설정될 수 있다. 즉, 컨볼루션 후에 각각의 주파수 대역의 결과적인 이득은 인접 대역의 15/15% 비율과 전류 대역의 70% 비율로 이루어진다. 전형적으로, 그러한 컨볼루션 작업에 3 내지 5 개 초과의 임계 대역을 포함하는 것은 현명하지 못할 수 있는데, 이는 각각의 임계 대역이 주파수에서 더 멀리 떨어져 있을수록 인접 대역과 더 독립적이기 때문이다. 다른 추가적인 또는 대안적인 실시예에서, 음성 필터(50)의 이득은 가중 매개변수(T i )를 갖는 지수 가중 이동 평균을 사용하여 평균화된다. 가중 매개변수(T i )는 예를 들어, 사용자가 선택할 수 있거나 예를 들어, 인간 귀의 통합 시간, 즉 Ti = 0.3에 해당하는 고정 값으로 설정될 수 있다. 이는 또한, 업데이트 속도를 효과적으로 늦추므로 사용자가 주파수 색상에 대한 청력을 조정할 수 있을 것이다.
본 개시에 따른 방법(100)을 학습한 후에 당업자에게 자명한 바와 같이, 방법(100)은 오디오 스트림(20)의 음성 명료도를 증가시키기 위해서 오디오 스트림(20)을 처리(필터링, 변경)하는 것과 관련된다. 방법(100)은 가장 일반적인 형태에서, 주변 소음(40) 또는 추정된 내부 소음(40')의 역수를 추가하는 단계를 포함하지 않는다. 방법(100)은 오히려, 음성 필터(50)에 의해 오디오 스트림(20)을 변경(필터링, 처리)한다. 음성 필터(50)는 음성 명료도를 증가시키도록 구성된 필터이며, 이는 주변 소음(40) 또는 추정된 내부 소음(40')을 제거하는 것과 관련이 없으며, 이는 오히려, 소음 환경에서 들을 때 오디오 스트림(20)에 포함된 음성의 명료도를 증가시키기 위해서 오디오 스트림(20)을 구성하는 것과 관련된다. 명료도가 증가되도록 오디오 스트림(20)의 음성 오디오를 필터링하면 음성 오디오의 주파수 콘텐츠를 변경할 것이다. 환언하면, 음성 오디오를 발성하는 사람의 음성이 음성 필터를 거친 후에 이질적이거나 왜곡되어 보일 수 있지만, 음성의 명료도는 증가된다.
음성 필터(50)의 이득 조정은 동시 마스킹 및 에너지 제약으로 인해 소스 신호 대역폭의 모든 주파수에 걸쳐서 분산된다는 점이 강조되어야 한다. 따라서 소음이 마스킹되는 몇몇 주파수에서, 오디오 소스 신호는 감쇠될 수 있으며 그 반대의 경우도 마찬가지이다. 이러한 현상은 오디오 스트림(20)을 실선으로, 내부 소음(40')을 조밀한 파선으로, 마스킹 임계값(T)을 판선으로, 그리고 타겟 오디오 스트림(20')을 점선으로 도시한 도 4에 예시된다. 도 4에 시각화된 최적화는 하나의 프레임에 유효하다. 타겟 오디오 스트림(20')은 모든 주파수 대역에서 내부 소음(40')을 마스킹하기 위해서 에너지 재분배되었다. 타겟 오디오 스트림(20')을 오디오 스트림(20)과 비교할 때 도 4에서 볼 수 있는 바와 같이, 타겟 오디오 스트림(20')은 음성 필터(50)에 의해서, 본 명세서의 교시에 따라서 몇몇 주파수에서 증폭되고 다른 주파수에서 감쇠되었다. 내부 소음(40')이 모든 주파수에 대해서 마스킹 임계값(T) 미만이면, 음성 향상은 배경 소음으로 인해서 필요하지 않다는 점에 유의해야 한다.
적용 가능하다면, 청각 장애 보상은 사용자의 청각 장애에 대응하거나 완화하는 시간 또는 주파수 영역에서 필터로 설명될 수 있지만, 이에 제한되지 않는다. 청각 손상은 청력 프로파일[HL ( f k )]로 설명할 수 있으며, 주파수 함수[HL ( f k ), f k ]는 주파수당 청력 레벨(dB) 단위[dB HL]로 이산 주파수 세트(전형적으로, 5 내지 7 주파수 세트가 사용됨)를 나타낸다. 청각 프로파일[HL ( f k )]은 톤 청력도(tone audiogram)가 수행되는 청력학 검사의 결과인 청력도와 동일하거나 동등하지만, 이에 제한되지 않는다. 손상이 없으면 0 dB HL에 대응하며 값이 증가하면, 즉 0보다 더 큰 값은 청력 손상 또는 결핍을 나타낸다. 청각 장애를 완화하기 위한 보상 생성은 나중에 설명된다. 일 실시예에서, 청각 손상 보상은 주파수 함수[H HI (k)], 즉 사용자 청각 프로파일[HL ( f k )]로 인한 보상인 필터에 의해 주파수 영역에서 정의되고, 음성 최적화 전에 오디오 스트림(20)에 적용(105)될 수 있다. 대안적으로, 이는 오디오 스트림(20)의 사전 처리 없이 음성 최적화(130)에 포함될 수 있다. 이전에 나타낸 바와 같이, H HI (k)는 임계 대역 표현으로 그룹화되고 에 대한 주파수-빈 스케일링으로 적용되어, 결과적인 최적 이득[H g (k)]에 포함될 것이다. 최종 주파수 진폭 조정은 음성 필터(50)의 H HI (k)H g (k) = H vo (k)에 의해 주어진다. 이는 저소음 조건에서 주변 소음(40)으로 인해 음성 필터(50)에 의해 제공된 음성 향상이 모든 주파수에 걸쳐서 단일 이득 음성 필터(50)일 수 있다는 것을 의미하는데, 이는 청각 장애 보상이 충분한 음성 명료도 개선을 제공하기 때문이다.
일 실시예에서, 사용자는 예를 들어, 혼합 설정(mixing setting)을 통해서, 주변 소음을 마스킹하기 위한 음성 보상(40)이 적용되어야 하는 정도(m)를 선택할 수 있다. 각각의 주파수 빈 및 m = [0,...,1]에 대해는 다음과 같다:
여기서, m = 0은 배경 소음으로 인해서 주파수 조정이 없음에 대응한다. 주목할만한 점은 위상 응답이 그대로 인식된다는 점이다. 즉, ∠H vo (k) = ∠H HI (k).
사용자의 청각 프로파일[HL ( f k )]을 보상하는 것 이외에도, 본 발명은 선택적으로, 볼륨 종속 보상(VDC)과 조합될 수 있다. 설명된 바와 같이, 오디오 스트림(20)은 주파수 스펙트럼을 포함하고, 오디오 신호의 이러한 주파수 스펙트럼은 상이한 재생 음압 레벨에서 상이하게 인식될 것이다. 이는 상이한 SPL에서 동일한 등감곡선(equal loudness contour)(300)(도 5 참조)을 비교할 때 알 수 있다. 상이한 등감곡선(300) 사이의 차이를 보상함으로써, 오디오 스트림(20)은 의도한 대로, 즉 팟캐스트나 오디오북과 같은 미리 녹음된 데이터로 인해서 마스터에서 마스터링될 때 인식되는 것처럼 인식될 가능성이 더 크다.
다수의 등감곡선(300)이 도 5에 도시된다. 등감곡선(300)은 SPL의 척도이며, 전형적으로 데시벨 단위로 dB 음압 레벨(SPL)로 표시된다. 음압 레벨은 전형적으로 사람이 들을 수 있는 스펙트럼인 주파수 스펙트럼에 걸쳐 제공된다. 등감곡선(300)의 각각의 지점은 특정 폰(phon)으로 1 kHz에서 제시되는 순음과 비교할 때 청취자가 일정한 음량을 인식하는 음압 레벨을 나타낸다. 폰은 DIN 45631 및 ISO 532에 정의되어 있으며, 여기서는 50 dB SPL의 1 kHz 톤이 50 폰의 음량을 가지며 이 신호와 동일한 음량으로 인식되는 다른 모든 주파수에도 50 폰의 음량을 갖는 것을 의미하는 것으로 정의될 것이다.
도 5에서, 6 개의 상이한 폰에 대해 300 개의 등감곡선이 그려져 있다. 즉, 도 5의 그래프에는 6 개의 플롯이 있다. 도 5에서, 0, 20, 40, 60, 80 및 100 폰에 대해서 등감곡선(300)이 제시된다. 도 5의 등감곡선(300)은 ISO 226:213에 따른 등감곡선(300)이다. 이들 곡선(300)은 1933년 Harvey Fletcher와 Wilden A. Munson이 제공한 Fletcher-Munson 곡선과 비교하여 수정되었다. Fletcher-Munson 곡선은 일반적으로 등감곡선의 개념에 대한 최초의 설명으로 지칭된다. 오디오 신호의 주파수 스펙트럼이 청취자에 의해 인식되는 방법에 음압 레벨이 영향을 미치지 않는다면, 도 5의 곡선(300) 사이의 오프셋은 모든 주파수에 걸쳐서 동일할 것이다.
추가로 또는 청각 프로파일 필터링(105)에 대안적으로, 방법(100)은 오디오 스트림의 재생 볼륨(15) 및/또는 검출된 내부 사운드(37)에 기초하여 재생 폰을 결정하는 단계(136)를 더 포함할 수 있다.
위에서 언급한 바와 같이, 내부 소음(40')이 모든 주파수에 대해 마스킹 임계값(T) 미만이면, 배경 소음으로 인해 음성 향상이 필요하지 않다. 이는 예를 들어, 낮은 주변 소음 환경의 결과일 수 있거나 예를 들어, 청각 장애 보상으로 대응하는 임계값(T)이 내부 주변 소음(40')을 초과하는 신호 레벨이 발생하는 경우의 결과일 수 있다.
다음 실시예에서, 청각 장애는 사용자 청각 프로파일[HL ( f k )]에 기초하여 계산된다. 음성 명료도 지수 Count-the-dots Audio 형식4[ 4 : https://www.audiologyonline.com/articles/20q-aided-speech-intelligibility-index-23707]으로서 공지된 것을 활용하면 추가 최적화 문제가 형성될 수 있다. 청력 프로파일[HL ( f k )]이 주어지면, count-the-dot 오디오그램(audiogram)으로 주어진 대로 표준화된 조음 지수(AI) 또는 음성 명료도 지수(SII)를 최대화하기 위해서 청력 임계값을 조정하는 필터 H HI (k)를 제공하는 것이 바람직하다. AI는 청력 프로필[HL ( f k )]이 정의된 다이어그램에 그려질 때, 청력 프로필[HL ( f k )] 아래의 점의 수로서 계산되며, 이는 도 6의 파선으로 예시된다.
일 실시예에서, 이는 명료도 지수가 최대화되도록 오디오 스트림의 에너지를 증폭/감쇠하고 재분배하도록 주파수-빈의 함수로서의 이득 세트[h HI (k)]가 최적화되는 최적화 공식으로 설명될 수 있다:
필터 H HI (k) = h HI (k)는 주파수(k)에서 필요한 이득으로부터 결과적으로 생성되어, 결과적인 필터에 의한 타겟 오디오 스트림(20')의 총 에너지 변화가 감마와 동일하다. 일 실시예에서 γ=1은 도 6에 예시된 바와 같이 에너지 재분배에 대응하고, 다른 예는 γ=2이며 모든 주파수에 걸쳐 2의 일정한 이득이 얻어졌다. 감마는 시스템의 증폭 가능성에 따라 설정될 수 있으며, 전형적으로 이는 증폭이 허용되지 않는 경우에 위에 예시된 것처럼 1(단위)로 설정되고 배가(doubling)가 가능한 경우에 2로 설정된다. 또한, 배경 소음으로 인한 에너지 분포에 대해 동일한 추론이 여기서 적용되며, 모든 주파수에 걸쳐 증폭하는 것은 불가능하다.
도 6은 점선이 단위 dB HL(청력 수준)로 청력 테스트 결과인 예시적인 count-the-dot 오디오그램을 묘사한다. 실선은 보상 필터를 적용한 결과이다. 알 수 있는 바와 같이, AI가 증가되었다. 즉, 점선보다 실선 아래에 더 많은 점이 있다. 필터 h HI (k)에 의해 제공된 전체 에너지 변화를 1로 유지하는 것이 바람직하므로, 몇몇 점들이 손실된다. 도 6에 도시된 결과는 60 dB의 음압, 즉 일반적인 대화 수준 또는 조용한 환경에서의 청취 수준에 유효하다. 변환기(35)에 의해 재생될 때 타겟 오디오 스트림(20')의 대략적인 음압 레벨이 예를 들어, 시스템(1)의 볼륨 단계와 대응 음압 레벨의 사전 교정에 의해, 내부 마이크로폰(36)을 사용한 음압의 측정에 의해 이용 가능하기 때문에, 예를 들어 이에 따라 청력 프로필을 조정하는 것이 가능하다.
VDC는 위에서 언급한 바와 같이, 선택적인 일 실시예에서 사전 교정된 테이블을 사용하여 구현되어 이를 오디오 스트림(20)의 역학에 기초하여 필터 h HI (k)를 변경하지 않는 고정 방법으로 만든다. 결과적으로, 필터 H HI (k)는 볼륨 설정, 즉 오디오 장치(30)의 재생 볼륨(15)이 변경되는 경우에만 업데이트 된다. 일 실시예에서 사전 교정된 테이블은 H HI (k), 예를 들어 a(k)H HI (k)에 적용되는 각각의 볼륨 단계 및 주파수-빈에 대한 스케일링 인자[a(k)]를 포함한다. 사전 교정된 테이블의 크기는 계산에 사용된 볼륨 단계 수와 주파수 빈 수에 의존한다.
일 실시예에서 VDC는 주파수 영역에서 각각의 귀에 대해 하나씩 두 개의 청각 보상을 계산한다. 추가의 일 실시예에서, 양쪽 귀에 적합한 단일 청각 보상을 제공하기 위해서 좌측 귀 보상과 우측 귀 보상을 조합하도록 구성될 수 있다. 이는 여러 변환기를 활용하여 재생하고 각각의 변환기의 사운드가 청취자의 각각의 귀에 물리적으로 도달할 수 있을 때 중요하다.
위의 실시예와 아주 잘 조합될 수 있는 VDC 구현의 다른 실시예에서, 피드백 마이크로폰 신호가 사용되어 변환기(35)에 의해 재생되는 것과 같이 타겟 오디오 스트림(20)의 레벨에 기초하여 필터 H HI (k)를 업데이트하는 동적 방법을 만든다. 이러한 접근방식은 보상을 더 자주 계산한다. 오디오 신호의 급격한 과도현상을 방지하기 위해서, 필터 H HI (k)의 업데이트 레이트는 약 0.25 내지 1 Hz 정도로 낮게 유지할 수 있다.
신호 또는 음성 레벨이 60 dB SPL이라는 가정으로 count-the-dot 오디오그램이 제공되지만, 여기서의 결과 및 방법(100)은 음압 레벨에 따라 정확한 결과를 매우 양호하게 조정할 수 있다. 비-제한적인 예로서, 10 dB SPL에 대응하는 볼륨의 10 dB 증가는 청력 레벨 척도(y-축)에서 0 dB HL 쪽으로 10 dB 오프셋되는 도 6의 점선에 대응할 것이다. 이는 볼륨 증가로 인해서 음성 명료도가 증가하고 이에 따라 대응 청각 장애 보상이 조정된다는 것을 의미한다. 더 낮은 볼륨은 아날로그 예를 가진다. 당업자라면 추론할 수 있듯이, 점선이 신호 레벨 증가로 인한 임의의 오프셋을 포함하는 점이 있는 영역 위에 있으면, 향상은 필요하지 않다.
count-the-dots 오디오그램 및 여기의 교시에 기초하여 결과를 스케일링하고 청력 손상을 조정하는 다른 방법은 이제 당업자에게 자명할 것이다.
이전에 언급한 바와 같이, 본 개시의 발명자들은 내부 소음(40')이 기계 학습에 의해서 주변 소음(40)에 기초하여 정확하게 모델링될 수 있다는 것을 깨달았다. 내부 소음(40')은 외부 소음(40)이 기본 (음향)경로에 의해 필터링되는 ANC 기술로부터 공지된다. 여기서 후자는 외부로부터 헤드폰(30)으로 귀강으로 전파될 때 외부 소음(40)에 미치는 영향을 설명한다. 기본 경로는 ANC가 정확하게 작동하기 위해서, 즉 ANC 기술이 내부 소음(40')을 소거하는(따라서 감쇠하는) 정확한 소음 방지를 형성하기 위해서 실시간으로 그리고 높은 정확도로 발견되어야 하는 중요한(공지되지 않은) 소음 전달 함수이다. ANC 기술에 대한 실시간 및 정확성 요건은 전형적으로 ANC 기술이 전용 하드웨어에서 실행될 것을 지시한다.
본 발명의 경우에, 내부 소음(40')을 추정할 때의 실시간 및 정확도 요건은 후술하는 바와 같이 ANC 기술에 비해 훨씬 더 낮다. 이에 더하여, 전용 하드웨어도 필요하지 않다. 당업자에게 공지된 많은 동일한 양태가 여전히 존재한다. 즉, 내부 소음(40')의 추정은 변환기(35)에 의해 렌더링될 때 근단 오디오 스트림(near-end audio stream)으로부터 에코를 제외해야 하며, 복잡한 실시간 적응 필터링 및 교정(ANC의 경우) 대신에 소음, 에코 및 근거리 화자(near-end talker) 사이의 분리를 포함한 기본 경로를 모델링하기 위해서 신경망이 사용된다.
바람직한 실시예의 신경망은 RNN이다. RNN은 전형적으로 장단기 메모리(Long Short Term Memory: LSTM) 또는 게이트 순환 유닛(Gated Recurring Unit: GRU)을 기반으로 한다. 일반적으로, RNN의 특징 벡터와 출력 벡터는 다양한 방식으로 선택될 수 있으며 두 가지의 선택, 즉 훈련 데이터 품질 및 RNN 훈련과 함께 RNN의 크기가 입력에 따른 원하는 출력 데이터, 즉 특징 데이터를 출력하는 RNN 능력의 성능을 결정할 것이다.
RNN의 크기는 훈련 결과 및 실시간 오디오 시스템 구현에 인한 리소스 제약에 의해 설정된다. 일반적으로, 크기, 즉 RNN의 단위 수와 숨겨진 레이어 수는 FFT 계산에서 포인트 수를 선택하는 것과 같은 설계 선택이다. RNN의 전형적인 크기는 3 내지 4 개의 히든 레이어가 있는 200 내지 300 개 단위이다. RNN의 계산 요구는 예를 들어, 낮은 차수의 RNN을 선택하고 출력 오류를 증가시킴으로써 및/또는 RNN 단위를 건너뛰고 구조화하여 정리함으로써 감소될 수 있다.
외부 마이크로폰(5)에 의해 제공된 신호의 절대 레벨은 애플리케이션에 중요하다는 점에 유의해야 한다. 따라서, 각각의 학습 예가 무작위로 생성된 2차 필터로 사전 필터링되는 데이터 증강을 위한 접근방식이 채택될 수 있다. 이로써 외부 마이크로폰 5 주파수 응답 허용오차 및 외부 마이크로폰 5 배치 변화로 인한 주파수 변화에 대해 견고하도록 RNN이 학습된다. 학습 예에서 개별 신호의 레벨은 바람직하게, 레벨 변화에 대한 견고성을 위해서 변경된다.
위의 RNN 설명은 RNN의 하나의 작업 예로서 제공된 하나의 비-제한적인 예일 뿐임이 자명하다. 당업자는 본 명세서의 교시를 이해한 후에, 특징 세트, 출력 세트 및/또는 학습을 변경하는 다른 예, 예를 들어 데이터 세트, 손실 함수, 최적화 프로세스 등을 확실하게 창안할 수 있다.
RNN의 특징 추출은 음성 인식 이론에 의해 제공될 수 있다. 그리고 다음 실시예는 상상할 수 있는 임의의 순서 또는 세트로 서로 조합하는 것이 가능한 특징 추출의 비-포괄적 예로서 간주되어야 한다.
일 실시예에서, 특징은 마이크로폰(5)에 의해 제공된 신호의 임계 대역당 에너지 로그의 이산 코사인 변환(discrete cosines transform)을 포함한다. 일 실시예에서, 특징은 본 개시에서 설명된 바와 같이 임계 대역으로 표현된, 마이크로폰(5)에 의해 제공되는 신호의 스펙트럼을 포함한다. 추가 실시예에서, 특징은 전체 서브-프레임에서의 평균 에너지를 더 포함한다. 일 실시예에서, 특징은 최대 적어도 600 Hz, 바람직하게는 최대 적어도 1000 Hz를 커버하는 현재 서브-프레임과 이전 서브-프레임 켑스트럴 로그 계수(cepstral logarithmic coefficient) 사이의 진폭의 델타 변화를 포함한다. 이를 통해 전형적인 음성의 보컬 기초(vocal fundamentals)를 매우 확실하게 포함한다. 일 실시예에서, 특징은 비-소음 소스 신호가 활성인지 아닌지를 나타내는 이진 신호, 예를 들어 사용자가 말하는지 또는 변환기로부터의 에코가 존재하는지를 알려주는 간단한 레벨 검출기를 포함한다.
RNN의 출력은 전형적으로, 각각의 청각 필터 대역에 대한 내부 소음(40')의 평균 에너지 값[E v (b), b = 1 ... N B ]으로 구성된다. 일 실시예에서, RNN의 출력은 또한, 위에 더하여 소음 또는 비-소음을 나타내는 이진 신호, 고저 레벨을 나타내는 제 2 이진 신호, 근단 신호가 활성임을 나타내는 제 3 이진 신호를 포함한다. 설명된 이진 신호와 같은 추가 신호는 최적의 음성 필터(50)를 계산하기 위한 알고리즘에 직접 사용되지 않을 수 있지만, 당업자라면 설명된 것과 같은 관련 출력이 RNN의 학습 시 양호한 결과를 얻는 데 도움이 될 수 있다는 것을 쉽게 인식할 수 있다.
RNN 학습에서, 중요한 하나의 측면은 RNN의 일반화 기능으로, 학습 중에 사용되지 않는 조건에서도 정확하게 작동할 것이다. 따라서, 비오는 예는 바람직하게, 배경 소음, 예를 들어 대형 자동차 100 km/h 및 카페테리아5[ 5 : ETSI. (2012). Speech and multimedia Transmission Quality (STQ); Speech quality performance in the presence of background noise; Part 1: Background noise simulation technique and background noise database 202 396-1. ETSI.], 에코 신호 및 위에 언급된 바와 같은 다양한 레벨의 근거리 대화의 조합으로 이루어진다. 에코 신호와 근거리 대화 신호는 바람직하게 독립적이다. 즉, 동일한 발언이 동시에 존재하지 않는다.
일 실시예에서, 학습의 지상 실측값은 (단지)소음 신호의 스펙트럼에 기초한 청각 필터당 (단지)소음 파워로 구성되고, 청각 필터로 나누어지고, 헤드폰 및 귀강에서 참조(측정)된다. 따라서 이는 기본 경로, 즉 헤드폰 외부에서 헤드폰 및 귀강 내부까지의 경로를 포함할 것이다. 이는 (헤드폰 유형, 인-이어(in-ear), 오버-이어(over-ear) 및 온-이어(on-ear)에 따른)착용 시 음향 밀봉으로 인해서 적어도 소음에 대한 고주파 감쇠를 갖기 때문에 중요하다. 헤드폰이 또한 능동형 소음 소거기능(전형적으로, 150 내지 900 Hz의 주파수 범위에서 작동)을 가지면, 헤드폰 외부의 소음은 귀강 내부 소음과 크게 상이하다.
소음, 근거리 음성 및 에코의 표시를 용이하게 하는 동시에 내부 소음(40')(지상 실측값)을 기록할 수 있는 시스템은 업계 표준이며 프로세스는 완전 자동화된다. 비-제한적인 예에서, 배경 소음이 측정 챔버의 다중 스피커 설정에서 렌더링되는 시나리오가 시작되며, 테스트 중인 헤드폰은 각각의 이어-시뮬레이터에 배치된 마이크로폰에 도달하는 신호로서 내부 소음을 기록하는 머리-몸통 시뮬레이터(head-and-torso simulator)에 위치된다. 동시에, 배경 소음은 헤드폰(30)의 외부 마이크로폰(5)에 의해 기록된다. 시나리오가 완료된 후에, 각각의 신호는 조절되고, 시간이 조정되며 특징 세트 또는 지상 실측값 세트로 변환된다.
요약하면 내부 소음(40') 모델링에 기계 학습 및 순환 신경망을 사용하면 청각 대역 모델에서 소음 추정을 초래하고, 복잡한 음성 활동 검출 또는 에코 소거를 사용하지 않고 근거리 대화 및 에코의 제거를 초래하며 헤드폰 외부로부터 헤드폰 및 귀강 내부까지의 기본 경로를 모델링할 것이다.
음성 필터(50)의 상이한 측면의 여러 상세한 구현이 본 개시 전반에 걸쳐 제시된다. 음성 필터(50)가 어떻게 결정되는지에 상관없이, 위에서 H vo (k)로서 설명된 음성 필터(50)는 디지털 소스 신호인 오디오 스트림(20)에 적용(140)된다. 다중 음성 필터(50)가 있을 수 있으며, 각각의 음성 필터(50)는 변환기(35)에서 렌더링될 타겟 오디오 스트림(20')을 제공한다. 오디오 스트림(20)을 처리하기 위한 여러 접근방식이 있으며, 당업자는 본 개시를 읽은 후 다음 두 가지 예 이외에 다른 여러 예를 알게 될 것이다. 음성 필터(50)는 일 실시예에서, 예를 들어 위상 응답이 덜 중요한 경우에 유한 임펄스 응답 필터로 주파수 함수의 변환에 의해 적용(140)될 수 있으며, 이는 선형 위상을 초래하는 대칭 임펄스 응답 필터일 수 있다. 음성 필터(50)는 일 실시예에서, 주파수 함수에 곱할 때 순환 컨볼루션을 피하기 위해서 중첩 및 가산 방법에 의한 주파수 영역에서의 곱셈에 의해 적용(140)될 수 있다.
바람직한 일 실시예에서, 오디오 장치(30)는 변환기(35)당 적어도 하나의 음성 필터(50)를 포함한다.
일 실시예에서, 타겟 오디오 스트림(20')을 제공하는 음성 필터(50)는 에너지 정규화된다. 이는 시간 영역 신호에서 높은 피크 진폭을 유도할 수 있다. 추가 실시예에서, 타겟 오디오 스트림(20')은 타겟 오디오 스트림(20')의 신호 진폭이 최종 신호 포맷에 대해 너무 높지 않도록 보장하기 위해서 감쇠된다. 그런 다음 신호 진폭은 예를 들어, 표준 리미터(standard Limiter) 또는 동적 범위 제어기(Dynamic Range Controller: DRC)를 사용하여 왜곡 없이 정확한 포멧으로 변환될 수 있다. 신호 진폭을 제어하는 것 이외의 추가 처리는 필요하지 않다는 것에 주목해야 한다. 리미터와 DRC는 디지털 오디오 시스템의 다른 구성요소일 수 있으며 바람직하게는 청력 안전을 위해서 포함하지 않는다.
도 7을 참조하여, 음성 필터(50)를 결정(130)하는 몇몇 추가적인 비-포괄적인 단계가 설명될 것이다. 다음 실시예는 본 명세서에서 제시된 다른 실시예 중 임의의 실시예와 조합하는 것이 가능하며 본 명세서에서 개시된 상세한 예 및 계산과 완전히 호환 가능하다.
방법(100)의 일 실시예에서, 음성 필터(50)를 결정하는 단계(130)는 검출된 내부 사운드(37)로부터 추정된 내부 소음(40')을 빼는 단계(132)를 포함한다. 이는 타겟 오디오 스트림(20')이 사용자의 귀에서처럼 실제로 들리는 것인 진정한 오디오 스트림(37')을 제공할 것이다. 타겟 오디오 스트림(20')과 실제 오디오 스트림(37') 사이의 차이에 기초하여, 음성 필터(50)를 이러한 차이에 기초하여 업데이트(138)하는 것이 결과적으로 가능하다. 이는 실제로 사용자가 듣는 것임을 타겟 오디오 스트림(37)이 보장할 수 있는 제어 루프를 효과적으로 생성한다. 이는 예를 들어, 사용자가 오디오 장치를 착용하는 방법 그리고 오디오 장치가 사용자의 귀에 얼마나 잘 맞는지에 기초하여 음성 필터가 업데이트될 수 있기 때문에 유리하다.
방법(100)의 일 실시예에서, 음성 필터(50)를 결정하는 단계(130)는 추정된 내부 소음(40')과 하나 이상의 마스킹 임계값(T)을 비교하는 단계(134)를 포함한다. 이는 도 4의 조밀한 파선인 추정된 내부 소음(40')을 파선인 마스킹 임계값(T)과 실질적으로 비교(134)한다. 음성 필터는 그 다음에, 타겟 오디오 스트림(20')을 제공하도록 비교(134)에 기초하여 업데이트된다. 추가의 선택적인 실시예에서, 방법(100)의 마스킹 임계값(T)은 오디오 스트림(20)의 임계 대역 분석(137)을 수행함으로써 계산된다. 임계 대역 분석(137)은 주파수 확산에 의한 청각 마스킹을 포함한다.
방법(100)의 일 실시예에서, 이는 도 5를 참조하여 설명된 바와 같이 오디오 장치(30)의 재생 볼륨(15)을 보상하도록 구성된다. 이는 음성 필터(50)를 결정하는 단계(130)에서, 재생 볼륨(15)에 기초하여 재생 폰을 결정하는 단계(136)를 포함한다. 재생 폰은 변환기(35)를 통한 사운드의 전달 함수를 설명하는 전달 함수에 의해 재생 폰으로부터 결정될 수 있다. 이에 더해서, 음성 필터(50)를 업데이트하는 단계(138)는 결정된 폰과 연관된 등감곡선에 추가로 기초한다. 추가 실시예에서, 재생 폰은 검출된(160) 내부 사운드(37)에 추가로 기초한다.
본 발명은 이전에 제시된 문제를 해결하는 것에 더하여, 오디오 장치(30)의 사용자가 오디오 장치(30)를 휴대하기로 선택하는 방법에 실질적으로 관계없이 증가된 음성 명료도를 제공할 것이다. 통상적으로, 오디오 장치의 변환기(35)는 특정 부하에서 작동하도록 구성된다. 이러한 하중은 사용자와 변환기(35) 사이의 공기 공동의 형태이다. 오디오 장치(30)가 예를 들어, 한 쌍의 폐쇄형 헤드폰이면, 헤드폰(30)이 사용자의 외이(outer ear) 주위에 단단하고 밀착되게 휴대 됨으로써 공기 공동이 형성된다. 그러나 모든 귀가 동일하지는 않고 모든 사용자가 동일한 방식으로 그들의 오디오 장치(30)를 휴대하는 것이 아니기 때문에, 변환기(35)의 부하는 사용자마다 다르며 이에 따라서 오디오 장치(30)의 사운드도 달라질 것이다. 본 발명은 또한, 오디오 장치(30)의 착용 방법에 따라서 달라지는 내부 사운드(37)를 검출(160)함으로써 이러한 문제를 해결한다.

Claims (19)

  1. 오디오 장치(audio device; 30)에 의해 실시간으로 수행되는 음성 오디오(speech audio)를 포함한 오디오 스트림(audio strea; 20)의 음성 명료도(speech intelligibility)를 증가시키는 방법(100)으로서,
    주변 소음(ambient noise; 40)을 검출하는 단계(110),
    주변 소음(40)에 기초하여 내부 소음(40')을 추정하는 단계(120),
    추정된 내부 소음(40') 및 오디오 스트림(20)에 기초하여 음성 필터(voice filter; 50)를 결정하는 단계(130),
    타겟(target) 오디오 스트림(20')을 제공하기 위해서 오디오 스트림(20)에 음성 필터(50)를 적용하는 단계(140),
    오디오 장치(30)의 내부 사운드(37)를 발생하기 위해서 타겟 오디오 스트림(20')을 하나 이상의 변환기(35)로 출력하는 단계(150), 및
    오디오 장치(30)의 내부 사운드(37)를 검출하는 단계(160)를 포함하며,
    음성 필터(50)를 결정하는 단계(130)는 검출된 내부 사운드(37)에 추가로 기초하며,
    실제 오디오 스트림(37')을 제공하기 위해서 검출된 내부 사운드(37)로부터 추정된 내부 소음(40')을 빼는(subtracting) 단계(132), 및
    타겟 오디오 스트림(20')과 실제 오디오 스트림(37') 사이의 차이에 기초하여 음성 필터(50)를 업데이트하는 단계(138)를 포함하는,
    오디오 스트림(20)의 음성 명료도를 증가시키는 방법(100).
  2. 제 1 항에 있어서,
    음성 필터(50)를 결정하는 단계(130)는:
    추정된 내부 소음(40')을 하나 이상의 마스킹 임계값(masking threshold; T)과 비교(134)하는 단계, 및
    비교하는 단계(134)에 기초하여 음성 필터(50)를 업데이트하는 단계(138)를 더 포함하는,
    오디오 스트림(20)의 음성 명료도를 증가시키는 방법(100).
  3. 제 2 항에 있어서,
    상기 하나 이상의 마스킹 임계값(T)은 오디오 스트림(20)의 임계 대역 분석(critical band analysis; 137)을 수행함으로써 계산되며, 임계 대역 분석(137)은 주파수 확산에 의한 청각 마스킹을 포함하는,
    오디오 스트림(20)의 음성 명료도를 증가시키는 방법(100).
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    오디오 장치(30)의 사용자와 연관된 청각 프로파일(hearing profile; HL ( f k ))을 보상하기 위해서 오디오 스트림(20)을 필터링하는 단계(105)를 더 포함하는,
    오디오 스트림(20)의 음성 명료도를 증가시키는 방법(100).
  5. 제 4 항에 있어서,
    음성 필터(50)를 결정하는 단계(130)는 필터링(105) 후에 수행되어, 결정하는 단계(130)가 오디오 장치(30)의 사용자와 연관된 청각 프로파일(HL ( f k ))에 대해 보상된 오디오 스트림(20)을 기초로 하는,
    오디오 스트림(20)의 음성 명료도를 증가시키는 방법(100).
  6. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
    음성 필터(50)를 결정하는 단계(130)는:
    재생 볼륨(15)에 기초하여 재생 폰(phon)을 결정하는 단계(136)를 더 포함하며,
    음성 필터(50)를 업데이트하는 단계(138)는 결정된 폰과 연관된 등감곡선(equal loudness contour)에 추가로 기초하는,
    오디오 스트림(20)의 음성 명료도를 증가시키는 방법(100).
  7. 제 6 항에 있어서,
    재생 폰을 결정하는 단계(136)는 내부 사운드(37)에 추가로 기초하는,
    오디오 스트림(20)의 음성 명료도를 증가시키는 방법(100).
  8. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
    음성 필터(50)를 결정하는 단계는 주파수 윈도우 함수(frequency window function)를 사용하는 컨볼루션에 의해 주파수에서 음성 필터(50)의 이득(gain)을 평활화(smoothing)하는 단계를 더 포함하는,
    오디오 스트림(20)의 음성 명료도를 증가시키는 방법(100).
  9. 제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
    음성 필터(50)를 결정하는 단계는 하나 이상의 가중 매개변수(wighting parameter; T i )를 포함하는 지수 가중 이동 평균을 사용하여 음성 필터(50)의 이득을 평균화하는 단계를 더 포함하는,
    오디오 스트림(20)의 음성 명료도를 증가시키는 방법(100).
  10. 제 1 항 내지 제 9 항 중 어느 한 항에 있어서,
    음성 필터(5)를 결정하는 단계(130)는 음성 필터(5)가 오디오 스트림(20)에 적용되는 정도(m)를 선택하기 위해서 구성 가능한 혼합 설정을 적용하는 단계를 더 포함하는,
    오디오 스트림(20)의 음성 명료도를 증가시키는 방법(100).
  11. 제 1 항 내지 제 10 항 중 어느 한 항에 있어서,
    내부 소음(37')을 추정하는 단계(120)는 하나 이상의 순환 신경망(RNN)에 의해서 구현되는,
    오디오 스트림(20)의 음성 명료도를 증가시키는 방법(100).
  12. 제 1 항 내지 제 11 항 중 어느 한 항에 있어서,
    주변 소음(40)은 오디오 장치(30)에 작동 가능하게 연결된 외부 마이크로폰(5)에 의해서 검출되는,
    오디오 스트림(20)의 음성 명료도를 증가시키는 방법(100).
  13. 제 1 항 내지 제 12 항 중 어느 한 항에 있어서,
    주변 소음(40)은 최대 10 kHz, 바람직하게는 최대 8 kHz의 최대 오디오 대역폭으로 제한되는,
    오디오 스트림(20)의 음성 명료도를 증가시키는 방법(100).
  14. 제 1 항 내지 제 13 항 중 어느 한 항에 있어서,
    오디오 스트림(20)에 음성 필터(50)를 적용(140)한 후에 오디오 스트림(20)에 능동형 소음 소거(Active Noise Cancellation; ANC)를 적용하는 단계를 더 포함하는,
    오디오 스트림(20)의 음성 명료도를 증가시키는 방법(100).
  15. 오디오 장치(30)로서,
    하나 이상의 변환기(35), 사용자의 귓강(ear cavity)에서 내부 사운드(37)를 검출하도록 배열된 적어도 하나의 내부 마이크로폰(36), 및 내부 마이크로폰(36)에, 상기 하나 이상의 변환기(35)에 그리고 외부 마이크로폰(5)에 작동 가능하게 연결된 처리 모듈(32)을 포함하며, 여기서 처리 모듈(32)은 제 1 항 내지 제 14 항 중 어느 한 항의 방법(100)을 수행하도록 구성되는,
    오디오 장치(30).
  16. 제 15 항에 있어서,
    외부 마이크로폰(5)은 오디오 장치(30)에 포함되는,
    오디오 장치(30).
  17. 실시간으로 음성 명료도를 증가시키기 위한 오디오 시스템(1)으로서,
    오디오 장치(30)에 작동 가능하게 연결되고 음성 오디오를 포함하는 오디오 스트림(20)을 오디오 장치(30)로 전송하도록 구성된 휴대용 전자 장치(10)를 포함하며, 여기서 오디오 장치는 제 15 항 또는 제 16 항의 오디오 장치인,
    실시간으로 음성 명료도를 증가시키기 위한 오디오 시스템(1).
  18. 제 17 항에 있어서,
    전자 장치(10)에 포함된 외부 마이크로폰(5)에 의해서 주변 소음(40)이 감지되며, 전자 장치(10)는 외부 마이크로폰(5)에 의해서 감지된 주변 소음(40)을 오디오 장치(30)로 전달하도록 추가로 구성되는,
    실시간으로 음성 명료도를 증가시키기 위한 오디오 시스템(1).
  19. 컴퓨터 프로그램 제품(200)으로서,
    처리 모듈(32)에 의해 실행될 때, 처리 모듈(32)이 제 1 항 내지 제 14 항 중 어느 한 항의 방법(100)을 수행하게 하도록 구성되는,
    컴퓨터 프로그램 제품(200).
KR1020237039399A 2021-05-12 2022-05-11 소음 환경에서 음성 최적화 KR20240007168A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SE2150611-8 2021-05-12
SE2150611A SE545513C2 (en) 2021-05-12 2021-05-12 Voice optimization in noisy environments
PCT/SE2022/050461 WO2022240346A1 (en) 2021-05-12 2022-05-11 Voice optimization in noisy environments

Publications (1)

Publication Number Publication Date
KR20240007168A true KR20240007168A (ko) 2024-01-16

Family

ID=81846461

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237039399A KR20240007168A (ko) 2021-05-12 2022-05-11 소음 환경에서 음성 최적화

Country Status (6)

Country Link
EP (1) EP4115413A1 (ko)
JP (1) JP2024517721A (ko)
KR (1) KR20240007168A (ko)
CN (1) CN117321681A (ko)
SE (1) SE545513C2 (ko)
WO (1) WO2022240346A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116546126B (zh) * 2023-07-07 2023-10-24 荣耀终端有限公司 一种杂音抑制方法及电子设备
CN117692843B (zh) * 2024-02-02 2024-04-16 江西斐耳科技有限公司 一种声音自动调节方法、系统、存储介质及电子设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2354755A1 (en) * 2001-08-07 2003-02-07 Dspfactory Ltd. Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank
US6944474B2 (en) * 2001-09-20 2005-09-13 Sound Id Sound enhancement for mobile phones and other products producing personalized audio for users
US20040078199A1 (en) * 2002-08-20 2004-04-22 Hanoh Kremer Method for auditory based noise reduction and an apparatus for auditory based noise reduction
JP5101292B2 (ja) * 2004-10-26 2012-12-19 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ信号の感知音量及び/又は感知スペクトルバランスの計算と調整
US8964997B2 (en) * 2005-05-18 2015-02-24 Bose Corporation Adapted audio masking
KR101068227B1 (ko) * 2009-06-23 2011-09-28 주식회사 더바인코퍼레이션 명료도 향상장치와 이를 이용한 음성출력장치
US8416959B2 (en) * 2009-08-17 2013-04-09 SPEAR Labs, LLC. Hearing enhancement system and components thereof
US8964998B1 (en) * 2011-06-07 2015-02-24 Sound Enhancement Technology, Llc System for dynamic spectral correction of audio signals to compensate for ambient noise in the listener's environment
US9503803B2 (en) * 2014-03-26 2016-11-22 Bose Corporation Collaboratively processing audio between headset and source to mask distracting noise
US9478212B1 (en) * 2014-09-03 2016-10-25 Cirrus Logic, Inc. Systems and methods for use of adaptive secondary path estimate to control equalization in an audio device
CN109273021B (zh) * 2018-08-09 2021-11-30 厦门亿联网络技术股份有限公司 一种基于rnn的实时会议降噪方法及装置

Also Published As

Publication number Publication date
EP4115413A1 (en) 2023-01-11
SE2150611A1 (en) 2022-11-13
SE545513C2 (en) 2023-10-03
JP2024517721A (ja) 2024-04-23
WO2022240346A1 (en) 2022-11-17
CN117321681A (zh) 2023-12-29

Similar Documents

Publication Publication Date Title
EP2283484B1 (en) System and method for dynamic sound delivery
KR100860805B1 (ko) 음성 강화 시스템
CN103874002B (zh) 包括非自然信号减少的音频处理装置
US9591410B2 (en) Hearing assistance apparatus
TWI463817B (zh) 可適性智慧雜訊抑制系統及方法
EP1417679B1 (en) Sound intelligibility enhancement using a psychoacoustic model and an oversampled filterbank
JP4649546B2 (ja) 補聴器
CN106507258B (zh) 一种听力装置及其运行方法
KR20240007168A (ko) 소음 환경에서 음성 최적화
US10204637B2 (en) Noise reduction methodology for wearable devices employing multitude of sensors
Premananda et al. Speech enhancement algorithm to reduce the effect of background noise in mobile phones
EP3830823B1 (en) Forced gap insertion for pervasive listening
US11323804B2 (en) Methods, systems and apparatus for improved feedback control
RU2589298C1 (ru) Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке
EP4258263A1 (en) Apparatus and method for noise suppression
US11527232B2 (en) Applying noise suppression to remote and local microphone signals
US11902747B1 (en) Hearing loss amplification that amplifies speech and noise subsignals differently
Vashkevich et al. Speech enhancement in a smartphone-based hearing aid