KR20220163982A - 신경망 기반 오디오 신호 처리를 개별화하기 위한 폐쇄 루프 방법 - Google Patents

신경망 기반 오디오 신호 처리를 개별화하기 위한 폐쇄 루프 방법 Download PDF

Info

Publication number
KR20220163982A
KR20220163982A KR1020227037196A KR20227037196A KR20220163982A KR 20220163982 A KR20220163982 A KR 20220163982A KR 1020227037196 A KR1020227037196 A KR 1020227037196A KR 20227037196 A KR20227037196 A KR 20227037196A KR 20220163982 A KR20220163982 A KR 20220163982A
Authority
KR
South Korea
Prior art keywords
auditory
model
hearing
response
neural network
Prior art date
Application number
KR1020227037196A
Other languages
English (en)
Inventor
사라 베르헐스트
포티오스 드라코폴로스
아써 반 덴 브로유케
사리네 케시스자데
Original Assignee
유니버시테이트 젠트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 유니버시테이트 젠트 filed Critical 유니버시테이트 젠트
Publication of KR20220163982A publication Critical patent/KR20220163982A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/50Customised settings for obtaining desired overall acoustical characteristics
    • H04R25/505Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
    • H04R25/507Customised settings for obtaining desired overall acoustical characteristics using digital signal processing implemented by neural network or fuzzy logic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/60Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles
    • H04R25/604Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles of acoustic or vibrational transducers
    • H04R25/606Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles of acoustic or vibrational transducers acting directly on the eardrum, the ossicles or the skull, e.g. mastoid, tooth, maxillary or mandibular bone, or mechanically stimulating the cochlea, e.g. at the oval window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/70Adaptation of deaf aid to hearing loss, e.g. initial electronic fitting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Otolaryngology (AREA)
  • Neurosurgery (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Fuzzy Systems (AREA)
  • Automation & Control Theory (AREA)
  • Quality & Reliability (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Image Analysis (AREA)
  • Prostheses (AREA)

Abstract

본 발명은 청각 장치 분야에 관한 것이다. 특히, 본 발명은 청각 자극을 처리된 청각 출력으로 변환하는 방법을 제공한다. 본 발명은 또한 방법의 용도, 방법을 수행하도록 구성된 청각 장치, 및 청각 자극을 처리된 청각 출력으로 변환하기 위한 방법을 수행하도록 구성된 컴퓨터 프로그램에 관한 것이다.

Description

신경망 기반 오디오 신호 처리를 개별화하기 위한 폐쇄 루프 방법
본 발명은 청각 장치(auditory device) 분야에 관한 것이다. 특히, 본 발명은 청각 자극(auditory stimulus)을 처리된 청각 출력(processed auditory output)으로 변환하는 방법을 제공한다. 본 발명은 또한 방법의 용도, 방법을 수행하도록 구성된 청각 장치, 및 청각 자극을 처리된 청각 출력으로 변환하기 위한 방법을 수행하도록 구성된 컴퓨터 프로그램(computer program)에 관한 것이다.
지난 10년 동안 난청으로 고통받는 사람들의 수는 꾸준히 증가해 왔으며, 사회는 점점 더 시끄러운 환경과 생활 방식에 끊임없이 노출되어 있다. 그러나, 지난 몇 년 동안 와우 이득 손실(cochlear gain loss)의 보상에 대한 광범위한 연구가 수행되었음에도 불구하고 청력 손상(hearing impairment)의 적절한 진단 및 치료는 여전히 명확하지 않다. 이 문제를 해결하기 위해, 예를 들어 외부 유모 세포 손실(outer hair cell loss)로 인한 음성의 저하된 청각 표현(auditory representation)을 복원하는 것을 목표로, 인간 청각 말초(human auditory periphery)의 계산 모델을 효율적인 청각 신호 처리 알고리즘(auditory signal-processing algorithm)을 개발하는 도구로 사용할 수 있다. 동시에 이러한 계산 모델은 청취자의 청력 경험(hearing experience)을 향상시키는 방식으로 소리 신호(sound signal)가 변환되는 "증강된 청력(augmented hearing)"의 새로운 분야에 도움이 될 수 있다. 모델에서 영감을 받은 오디오 신호 처리 조작(audio signal processing manipulation)은 소리 인식 또는 음질을 개선하거나 노이즈 감소 또는 기타 조작을 통합할 수 있다. 그러나 다양한 종류의 청력 손상을 정확하게 보상하거나 음성과 같은 복잡한 자극에 대해 효율적으로 작동하는 증강된 청력 알고리즘을 생성할 수 있는 처리 방법을 고안하는 방법은 여전히 간단하지 않다.
보청기의 오디오 신호 처리에 대한 예를 제공하기 위해: 보청기 알고리즘은 일반적으로 내이(inner-ear)(또는 와우(cochlea))의, 예를 들어 NAL-NL or DSL 개념의, 외부 유모 세포(outer-hair-cell)의 주파수별 손상을 보상하도록 최적화된다. 결과적으로, 신호 처리 알고리즘(signal processing algorithm)은 와우 내부 유모 세포(cochlear inner-hair-cell)와 청각 신경(auditory nerve)(시냅스 병증(synaptopathy)) 사이의 손상된 시냅스와 관련된 감각 신경성 난청(sensorineural hearing loss)의 중요한 측면을 통합하지 않는다. 동시에, 현재 보청기 알고리즘의 처리를 개별화하기 위해 이음향 방출(otoacoustic emission)(OAE), 중이 근육 반사(middle-ear-muscle reflex)(MEMR) 반응 또는 청각 유발 전위(auditory-evoked potential)(AEP)와 같은 생물물리학적 신호(biophysical signal)에서 유도된 메트릭을 포함하는 것은 드물다.
기본적인 소리 인식 작업(basic sound perception task)에 대한 인간의 청각 성능을 자동화하고 예측하기 위한 여러 시도가 있었다. 이러한 유형의 실험은 수행하는 데 시간이 많이 걸리므로, 대신 청취자의 모델을 사용하는 이점이 있다. 이러한 시스템은 일반적으로 (개별화된) 청각 모델(프론트엔드(front-end))을 작업 시뮬레이션 시스템(task simulation system)(백엔드(back-end))에 대한 입력으로 사용하며, 일반적으로 소리 인식 작업(sound perception task)(, 심리 음향학(psychoacoustic))에 대한 작업 수행을 훈련하고 예측하는 데 사용할 수 있는 자동 음성 인식(automatic speech recognition)(ASR) 시스템이다. 심리 음향학적 작업은 개인의 소리 인식 능력을 객관적으로 정량화하는 데 사용되며 일반적인 작업은 소음에서 음성 명료도(speech intelligibility)의 측정이며, , 청취자가 문장에서 단어의 50%를 정확하게 식별할 수 있는 SNR 임계값을 결정한다. 그러나, 청력 손상이나 언어와 같은 개별 측면을 고려하여 다양한 실험의 결과를 예측할 수 있고, 청취자 전체에 잘 일반화되는 시스템을 개발하는 것은 여전히 과제이다.
본 발명은 이러한 문제들 중 하나 이상을 극복한다. 본 발명의 바람직한 실시예는 이러한 문제 중 하나 이상을 극복한다.
본 발명의 실시예의 이점은 시냅스 병증(synaptopathy)이 임계값 초과 음성 인코딩에 어떻게 영향을 미치는지 설명하고, 이득 처방(gain prescription)만으로는 음성 명료도(speech intelligibility)가 적절하게 회복되지 않는 개인을 돕는 것이다.
본 발명의 실시예의 이점은 시냅스 병증에 대한 개별 기반 복원 알고리즘(individually-based restoration algorithm)이 현재 치료되지 않은 상태로 남아 있는 정상 청력도(normal audiogram)를 가진 자기-보고 청취자(self-reported listener)의 음성 명료도를 개선하는 데 도움이 되는 수단을 제공한다는 것이다.
모델 기반 처리 알고리즘(model-based processing algorithm)이 감각 신경성 난청의 다른 측면뿐만 아니라 개별적인 시냅스 병증의 정도를 고려한다는 것이 본 발명의 실시예의 이점이다.
본 발명의 실시예의 이점은 처리 알고리즘에 대한 기초로 작용할 개별화된 청력 손실 모델을 구축하기 위해 OAE 및 AEP 메트릭을 모두 포함할 수 있다는 것이다.
미분가능 청각 반응(differentiable auditory response)을 제공할 수 있는 NN 기반 청각 모델(NN-based auditory model)을 포함한다는 것이 본 발명의 실시예의 이점이다.
본 발명의 실시예의 이점은 생물물리학에서 영감을 받은 방식으로 청각 말초의 처리(청각 처리)를 정확하게 설명할 수 있는 NN 기반 청각 모델을 포함한다는 것이다.
본 발명의 실시예의 이점은 내부 유모 세포 및 청각 신경 처리 수준까지 청각 말초의 특성을 포착할 수 있는 NN 기반 청각 모델 및 그로부터 유도된 집단 반응(population response)을 포함한다는 점이다.
본 발명의 실시예의 이점은 외부 유모 세포 손상, 내부 유모 세포 손상, 와우 시냅스 병증, 또는 청각 말초의 모든 다른 스테이지의 청력 손실의 조합을 포함할 수 있는 NN 기반 청각 모델을 포함한다는 것이다.
본 발명의 실시예의 이점은 청각 뇌간 반응을 시뮬레이션할 수 있는 NN 기반 청각 모델을 포함하여 청각 유발 전위(auditory evoked potential)의 생성기(generator)를 복원하는 능력을 제공한다는 것이다.
본 발명의 실시예의 장점은, 음성 명료도 작업(speech intelligibility task)에서 청력 장애가 있는 청취자의 저하된 성능을 시뮬레이션하고 이를 보상하기 위해, NN 기반 자동 음성 인식(automatic speech recognition)(ASR) 시스템에 대한 입력으로서 정확한 NN 기반 청각 모델을 사용한다는 점이다.
본 발명의 실시예의 이점은, 저하된 청력 및 인간 청취자의 인식을 반영하는 적절하게 고안된 메트릭을 최소화할 수 있는 NN 기반 처리 모델을 생성하기 위해, 앞서 언급한 NN 기반 청각 모델에 기반한 폐쇄 루프 접근 방식(closed-loop approach)을 사용한다는 것이다.
본 발명은 청각 자극을 처리된 청각 출력으로 변환하기에 적합한 개별화된 청각 신호 처리 모델(individualized auditory signal processing model)을 획득하기 위한 인공 신경망 기반 방법에 관한 것이다. 방법은 바람직하게:
a. 신경망 기반 개인화된 청각 반응 모델(neural network-based personalized auditory response model)을 획득하는 단계, 바람직하게는 생성하는 단계 - 상기 개인화된 청각 반응 모델은 청각 자극에 대한 청각 프로파일을 갖는 주체의 예상 청각 반응을 나타냄 -;
b. 청각 반응 차이(auditory response difference)를 결정하기 위해 개인화된 청각 반응 모델의 출력과 신경망 기반 원하는 청각 반응 모델(desired auditory response model)의 출력을 비교하는 단계 - 이로써 청각 반응 차이는 미분가능하고, , 솔루션으로 역전파할 수 있는 신경망 모델을 훈련/개발하는 데 사용할 수 있음; 및
c. 주체의 신경망 기반 개별화된 청각 신호 처리 모델을 개발하기 위해 결정된 미분가능 청각 반응 차이(differentiable auditory response difference)를 사용하는 단계 - 개별화된 청각 신호 처리 모델은 결정된 청각 반응 차이를 최소화하도록 구성됨 - 를 포함한다.
방법은 개인화된 청각 반응 모델 또는 주체에 입력으로 제공될 때 원하는 청각 반응과 일치하는 처리된 청각 출력을 생산하기 위해 청각 자극을 처리할 수 있는 개별화된 청각 신호 처리 모델을 획득할 수 있다.
본 발명은 또한 청각 자극을 처리된 청각 출력으로 변환하기 위한 인공 신경망 기반 방법에 관한 것이다. 이 방법은 바람직하게는 본 명세서에 기술된 바와 같은 개별화된 청각 신호 처리 모델 또는 그 실시예를 획득하는 단계; 및,
d. 개인화된 청각 반응 모델 또는 주체에게 입력으로 제공될 때 바람직하게 원하는 청각 반응과 일치하는 처리된 청각 출력을 생산하기 위해 개별화된 신경망 기반 청각 신호 처리 모델을 청각 자극에 적용하는 단계를 포함한다.
본 발명은 또한 청각 자극을 처리된 청각 출력으로 변환하기에 적합한 개별화된 청각 신호 처리 모델(individualized auditory signal processing model)을 획득하기 위한 인공 신경망 기반 방법에 관한 것으로, 상기 방법은:
a. 적어도 주체의 청각 신경 섬유(auditory nerve fiber)(ANF) 및/또는 시냅스(ANS)의 무결성(integrity)에 기초하고 바람직하게는 또한 상기 주체의 내부 유모 세포(IHC) 손상 및/또는 외부 유모 세포(OHC) 손상의 무결성에 기초하는 신경망 기반의 개인화된 청각 반응 모델을 생성하는 단계 - 상기 개인화된 청각 반응 모델은 청각 자극에 대한 청각 프로파일과 함께 상기 주체의 예상 청각 반응을 나타냄 -;
b. 청각 반응 차이를 결정하기 위해 개인화된 청각 반응 모델의 출력과 신경망 기반 원하는 청각 반응 모델의 출력을 비교하는 단계 - 상기 신경망 기반 모델은 청각 반응 차이를 미분가능하게 하는 비선형 연산(non-linear operation)으로 구성됨 -;
c. 주체의 신경망 기반 개별화된 청각 신호 처리 모델을 개발하기 위해 결정된 미분가능 청각 반응 차이를 사용하는 단계 - 개별화된 청각 신호 처리 모델은 결정된 청각 반응 차이를 최소화하도록 구성됨 -; 및,
d. 개인화된 청각 반응 모델 또는 주체에게 입력으로 제공될 때 원하는 청각 반응과 일치하는 처리된 청각 출력을 생산하기 위해 개별화된 신경망 기반 청각 신호 처리 모델을 청각 자극에 적용하는 단계를 포함한다.
일부 바람직한 실시예에서, 단계 a의 개인화된 청각 반응 모델은 주체 특정 청각 프로파일(subject specific auditory profile)을 유도하고 포함하여 결정된다.
일부 바람직한 실시예에서, 주체 특정 청각 프로파일은 주체 특정 청각 손상 프로파일(subject specific auditory damage profile)이고; 바람직하게는 청각 신경 섬유(ANF) 및/또는 시냅스(ANS)의 무결성 및/또는 주체의 외부 유모 세포(OHC) 손상을 기반으로 한다.
일부 바람직한 실시예에서, 원하는 청각 반응은 정상 청력 주체(normal-hearing subject)로부터의 반응 또는 향상된 기능을 갖는 반응이다.
일부 바람직한 실시예에서, 원하는 청각 반응 모델 및 개인화된 청각 반응 모델은 청각 말초의 상이한 스테이지의 모델을 포함한다.
일부 바람직한 실시예에서, 정상 청력 청각 말초(normal-hearing auditory periphery)를 설명하는 레퍼런스 신경망(reference neural network)이 원하는 청각 반응 모델로 사용되고; 대응하는 청력 장애 신경망(hearing-impaired neural network)은 개인화된 청각 반응 모델로 사용되고, 및 개별화된 청각 신호 처리 모델은, 청력 장애 모델(hearing-impaired model) 또는 주체의 입력에 연결될 때, 청력 장애 모델의 저하된 출력을 보상하고 청각 입력을 처리하도록 훈련된 신호 처리 신경망 모델(signal processing neural network model)이다.
일부 바람직한 실시예에서, 정상 청력 청취자의 증강된 청력 인식(augmented hearing perception) 및/또는 능력을 시뮬레이트하는 레퍼런스 신경망이 원하는 청각 반응 모델로 사용되고; 대응하는 정상 청력 또는 청력 장애 신경망이 개인화된 청각 반응 모델로 사용되고; 및 개별화된 청각 신호 처리 모델은 청각 입력을 처리하고 증강된 청각 반응을 제공하도록 훈련된 신호 처리 신경망 모델이다.
일부 바람직한 실시예에서, 개별화된 청각 신호 처리 모델은 몇몇 또는 모든 토노토픽 주파수(tonotopic frequencies)에서 2개의 청각 반응 모델 간의 절대 또는 제곱 차이와 같은 특정 청각 반응 차이 메트릭(metric)을 최소화하도록 훈련된다.
일부 바람직한 실시예에서, 처리된 청각 출력은:
(i) 청력 장애를 보상하기 위해 고안된 또는 증강된 청력을 제공하는 수정된 청각 자극; 또는,
(ii) 청각 경로(auditory pathway)를 따라 특정 처리 스테이지에 대응하는 수정된 청각 반응 - 예를 들어 인공 와우(cochlear implant) 또는 심부 뇌 임플란트(deep brain implant)와 같은 청각 보철물을 자극하는 데 사용할 수 있음 - 으로부터 선택된다.
일부 바람직한 실시예에서, 정상 청력 및 청력 장애 말초의 청각 신경 출력의 차이가 최소화되고; 또는 시간 또는 주파수 영역에서 표현되는 시뮬레이션된 청각 뇌간 및/또는 피질 반응 간의 차이가 최소화된다.
일부 바람직한 실시예에서, 다른 작업에서 청취자의 수행을 시뮬레이트하는 작업 최적화된 음성 '백엔드'(task-optimized speech 'back-end')는 '프론트 엔드'라고도 하는 청각 반응 모델의 출력에 연결되고; 및, 백엔드의 출력은 청각 반응 차이를 결정하고 최소화하는 데 사용된다.
일부 바람직한 실시예에서, 방법은 청각 장치(auditory device)를 구성하기 위한 것이며, 여기서 청각 장치는 인공 와우(cochlear implant) 또는 착용형 보청기(wearable hearing aid)이다.
본 발명은 또한 보청기 적용에서 본 명세서에 기재된 방법 또는 이의 실시예의 용도에 관한 것이다.
본 발명은 또한 여기에 설명된 방법을 수행하도록 구성된 청각 장치의 처리 유닛과 같은 처리 장치 및/또는 이의 임의의 실시예에 관한 것이다. 바람직하게는, 처리 유닛(processing unit)은:
a. 적어도 주체의 청각 신경 섬유(ANF) 및/또는 시냅스(ANS)의 무결성에 기초하고 바람직하게는 또한 상기 주체의 내부 유모 세포(IHC) 손상 및/또는 외부 유모 세포(OHC) 손상의 무결성에 기초하는 신경망 기반의 개인화된 청각 반응 모델을 생성하는 단계 - 상기 개인화된 청각 반응 모델은 청각 자극에 대한 청각 프로파일과 함께 상기 주체의 예상 청각 반응을 나타냄 -;
b. 청각 반응 차이를 결정하기 위해 개인화된 청각 반응 모델의 출력과 신경망 기반 원하는 청각 반응 모델의 출력을 비교하는 단계 - 상기 신경망 기반 모델은 청각 반응 차이를 미분가능하게 하는 비선형 연산(non-linear operation)으로 구성됨 -;
c. 주체의 신경망 기반 개별화된 청각 신호 처리 모델을 개발하기 위해 결정된 미분가능 청각 반응 차이를 사용하는 단계 - 개별화된 청각 신호 처리 모델은 결정된 청각 반응 차이를 최소화하도록 구성됨 -; 및
d. 개인화된 청각 반응 모델 또는 주체에게 입력으로 제공될 때 원하는 청각 반응과 일치하는 처리된 청각 출력을 생산하기 위해 개별화된 신경망 기반 청각 신호 처리 모델을 청각 자극에 적용하는 단계를 포함한다.
본 발명은 또한 청각 장치, 바람직하게는 인공 와우 또는 착용형 보청기에 관한 것으로, 이 장치는 여기에 설명된 방법을 수행하도록 구성된 처리 장치 및/또는 이의 임의의 실시예를 포함한다.
일부 바람직한 실시예에서 청각 장치(auditory device)는:
- 환경으로부터 입력된 음파를 픽업하고 입력된 음파(sound wave)를 청각 자극으로 변환하도록 구성된 입력 장치;
- 본 명세서에 기재된 바와 같은 방법 및/또는 이의 임의의 실시예를 수행하도록 구성된 처리 유닛; 및,
- 프로세서로부터 처리된 청각 출력을 생산하도록 구성된 출력 장치를 포함한다.
일부 바람직한 실시예에서 청각 장치(auditory device)는:
- 청각 장치 상에 배치된 입력 장치 - 입력 장치는 환경으로부터 입력 음파를 픽업하고 입력 음파를 청각 자극으로 변환하도록 구성됨 -;
- 본 명세서에 기재된 바와 같은 방법 및/또는 이의 임의의 실시예를 수행하도록 구성된 처리 유닛; 및,
- 청각 장치에 배치된 출력 장치 - 출력 장치는 프로세서로부터 처리된 청각 출력을 생산하도록 구성됨 - 를 포함한다.
본 발명은 또한 컴퓨터 프로그램, 또는 컴퓨터의 내부 메모리에 직접 로드할 수 있는 컴퓨터 프로그램 제품, 또는 컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램 제품, 또는 본 명세서에 기술된 방법 또는 이들의 실시예를 수행하도록 구성된 그러한 컴퓨터 프로그램 또는 컴퓨터 프로그램 제품의 조합과 관련된 것이다.
본 발명의 도면에 대한 하기 설명은 단지 예로서 주어지고 본 설명, 그의 적용 또는 사용을 제한하도록 의도되지 않는다. 도면에서 동일한 참조 번호는 동일하거나 유사한 부분 및 특징을 지칭한다.
도 1은 청각 신경 섬유 및 시냅스 프로파일을 결정하고, 선택적으로 주체의 특정 청각 프로파일을 결정하기 위해 레퍼런스 데이터(reference data)를 사용하기 위한 바람직한 단계의 흐름도를 제공한다. 이러한 프로파일은 본 발명의 일부 실시예에 따른 방법에서 사용될 수 있다.
도 2는 ANS/ANF 및 OHC 프로파일을 결정하고, 선택적으로 주체 특정 청각 프로파일을 결정하기 위해 레퍼런스 데이터를 사용하기 위한 바람직한 단계의 흐름도를 제공한다. 이러한 프로파일은 본 발명의 일부 실시예에 따른 방법에서 사용될 수 있다.
도 3은 원하는 청각 반응을 결정하기 위한 바람직한 단계의 흐름도를 나타낸다. 결정된 청각 반응은 인공 와우 또는 보청기와 같은 청각 장치를 구성하는 데 사용될 수 있다. 이러한 청각적 반응은 본 발명의 일부 실시예에 따른 방법에서 사용될 수 있다.
도 4는 본 발명의 일부 실시예에 따른 방법에서 사용될 수 있는 청각 말초 모델의 상이한 스테이지의 출력을 추출, 근사화, 훈련 및 평가하기 위한 접근법을 도시한다.
도 5는 본 발명의 일부 실시예에 따른 청력 손상에 대한 보상 전략(compensation-strategy)의 설계를 위한 폐쇄 루프 접근방식(closed-loop approach)을 도시한다. 이 예에서는 정상 및 청력 장애 모델의 시뮬레이션 결과를 비교하여 청력 장애 반응을 정상 청력 반응에 더 가깝게 만드는 신호 처리 알고리즘에 영감을 준다.
도 6 은 본 발명의 일 실시예에 따른 청력 장애 시뮬레이터의 설계를 위한 폐쇄 루프 접근 방식을 도시한다. 이 예에서, 정상 및 청력 장애 모델의 시뮬레이션 결과는 이러한 말초가 있는 청취자의 청각 인식을 에뮬레이트할 수 있는 신호를 제공하는 신호 처리 알고리즘을 자극하기 위해 비교된다.
도 7은 출력의 차이에 기초하여 차분 신호(difference signal)를 생성하기 위해 개인화된 청각 반응 모델 및 레퍼런스 청각 반응 모델의 사용을 예시한다. 청각 반응 모델은 청각 말초 또는 ASR 시스템 또는 NN 기반 청각 모델의 모델일 수 있다. 개별화된 청각 모델(individualized auditory model)은 OAE, AEP의 실험 데이터 또는 SRT(음성 수용 역치)와 같은 심리 음향 작업(psychoacoustic task)의 성능을 포함하여 다양한 센서 및 측정된 데이터를 사용하여 개별 주체에 맞출 수 있다. NN 기반 청각 모델을 사용하여 차분 신호(difference signal)가 구별될 수 있으므로 이러한 모델을 통해 역전파(back-propagate)하는 데 사용할 수 있다.
도 8 은 개별화된 NN 기반 청각 신호 처리 모델의 훈련(training)을 위한 손실 함수(loss function)로서 전술한 차분 신호(difference signal)의 사용을 예시한다. 훈련하는 동안 처리 모델의 출력은 개인화된 청각 반응 모델에 대한 입력으로 제공되며 파라미터는 차분 신호를 최소화하도록 조정된다. 성공적인 훈련 후 NN 기반 청각 처리 모델을 직접 사용하여 청각 자극을 처리하고 개별화된 반응 모델 또는 사람의 청취자에게 맞는 처리된 출력을 생산할 수 있다.
도 9는 사전 훈련된 개별화된 청각 신호 처리 모델의 특정 주체에 대한 실시간 최적화를 도시한 도면이다. 이 회로도에서 처리된 자극에 대한 주체의 AEP 반응은 센서를 통해 수집되고 처리되지 않은 자극에 대한 레퍼런스 청각 모델 출력의 시뮬레이션된 AEP 반응과 비교된다. 처리 모델의 가중치는 즉석에서 조정되므로 측정된 AEP 반응이 레퍼런스 AEP 반응과 더 잘 일치하도록 최적화된다.
도 10 은 청각 반응 모델에 대한 NN 기반 ASR 모델의 사용을 예시한다. 개별화된 ASR 모델은 청력 장애가 있는 ASR 모델이거나 단순한 ASR 백엔드와 청력 장애가 있는 프론트엔드의 조합일 수 있다.
도 11 은 "ConNear"로 지칭되는 선호하는 신경망 기반 모델의 구현을 도시하고, 이는 오디오 입력을 시간 영역에서 서로 다른 와우 섹션(NCF)의 201개 기저막 진동 출력에 매핑하기 위한 스트라이드 컨볼루션(strided convolution) 및 스킵 연결(skip-connection)이 있는 완전한 컨볼루션 인코더-디코더 신경망(convolutional encoder-decoder neural network)이다. (a)는 있고 및 (b)는 없는 컨텍스트의 ConNear 아키텍처가 표시된다. 최종 ConNear 모델에는 4개의 인코더 및 디코더 레이어가 있으며 컨텍스트를 사용하며 CNN 레이어 사이에 tanh 활성화 함수를 포함한다. (c)는 모델 훈련 및 평가 절차에 대한 개요를 제공한다. 음성 코퍼스(speech corpus)에 대한 분석적 TL 모델 시뮬레이션이 CoNNear 파라미터를 훈련하는 데 사용된 반면, 모델 평가는 와우 역학 연구에서 일반적으로 채택된 간단한 음향 자극을 사용하여 수행되었다.
도 12는 ConNear 출력을 이용한 오디오 신호 처리 DNN 모델의 훈련을 예시한다. (a) 오디오 신호 처리 DNN 모델은 두 ConNear IHC-ANF 모델(주황색 경로)의 출력 차이를 최소화하도록 훈련된다. (b) 훈련된 DNN 모델에 의해 처리될 때 입력 자극은 첫 번째 모델의 발화 속도와 거의 일치하는 두 번째 모델에 대한 발화 속도 출력으로 이어진다.
이 본문에서 아래에 사용된 바와 같이 단수 형태 "하나(a)", "하나(an)", "그(the)"는 문맥이 명백하게 달리 나타내지 않는 한 단수 및 복수를 모두 포함한다.
아래에 사용된 용어 "포함하다(comprise)", "포함하다(comprises)"는 "포함하다(including)", "포함하다(including)" 또는 "포함하다(contain)", "포함하다(contains)"와 동의어이며 포괄적이거나 개방적이며 언급되지 않은 추가 부품, 요소 또는 방법 단계를 배제하지 않다. 이 설명이 특정 기능, 부품 또는 단계를 "포함"하는 제품 또는 프로세스를 언급하는 경우, 이는 다른 기능, 부품 또는 단계도 존재할 수 있는 가능성을 말하지만 나열된 기능, 부품 또는 단계만 포함하는 실시예를 나타낼 수도 있다.
숫자 범위를 통한 숫자 값의 열거는 인용된 끝점뿐만 아니라 이러한 범위의 모든 값과 분수로 구성된다.
파라미터, 양, 기간 등과 같은 측정 가능한 값을 언급할 때 사용되는 용어 "대략(approximately)"은, 본 명세서에 개시된 발명에 변형이 적용되는 한, +/-10% 이하, 바람직하게는 +/-5% 이하, 더욱 바람직하게는 +/-1% 이하, 더욱 더 바람직하게는 +/-0.1% 이하의 변동을 포함하도록 의도된다. "대략"이라는 용어 자체가 나타내는 값도 공개되었음을 이해해야 한다.
이 설명에 인용된 모든 참고 문헌은 참고로 그 전체가 통합된 것으로 간주된다.
본 명세서에 사용된 백분율은 무차원 분수로 표시되거나 그 반대의 경우도 마찬가지이다. 50%의 값은 예를 들어 0.5 또는 1/2로 기록될 수도 있다.
달리 정의되지 않는 한, 기술 및 과학 용어를 포함하여 본 발명에 개시된 모든 용어는 당업자가 일반적으로 부여하는 의미를 갖는다. 추가 지침을 위해, 본 발명의 설명에서 사용되는 용어를 추가로 설명하기 위한 정의가 포함된다.
본 발명은 청각 자극을 처리된 청각 출력으로 변환하기에 적합한 개별화된 청각 신호 처리 모델(individualized auditory signal processing model)을 획득하기 위한 인공 신경망 기반 방법에 관한 것이다. 방법은 바람직하게:
a. 신경망 기반 개인화된 청각 반응 모델(neural network-based personalized auditory response model)을 획득하는 단계, 바람직하게는 생성하는 단계 - 상기 개인화된 청각 반응 모델은 청각 자극에 대한 청각 프로파일을 갖는 주체의 예상 청각 반응을 나타냄 -;
b. 청각 반응 차이를 결정하기 위해 개인화된 청각 반응 모델의 출력과 신경망 기반 원하는 청각 반응 모델의 출력을 비교하는 단계 - 이로써 청각 반응 차이는 미분가능하고, , 솔루션으로 역전파할 수 있는 신경망 모델을 훈련/개발하는 데 사용할 수 있음; 및
c. 주체의 신경망 기반 개별화된 청각 신호 처리 모델을 개발하기 위해 결정된 미분가능 청각 반응 차이(differentiable auditory response difference)를 사용하는 단계 - 개별화된 청각 신호 처리 모델은 결정된 청각 반응 차이를 최소화하도록 구성됨 - 를 포함한다.
방법은 개인화된 청각 반응 모델 또는 주체에 입력으로 제공될 때 원하는 청각 반응과 일치하는 처리된 청각 출력을 생산하기 위해 청각 자극을 처리할 수 있는 개별화된 청각 신호 처리 모델을 획득할 수 있다.
본 발명은 또한 청각 자극을 처리된 청각 출력으로 변환하기 위한 인공 신경망 기반 방법에 관한 것이다. 이 방법은 바람직하게는 본 명세서에 기술된 바와 같은 개별화된 청각 신호 처리 모델 또는 그 실시예를 획득하는 단계; 및,
d. 개인화된 신경망 기반 청각 신호 처리 모델을 청각 자극에 적용하여 개인화된 청각 반응 모델 또는 주체에 입력으로 제공될 때 원하는 청각 반응과 바람직하게 일치하는 처리된 청각 출력을 생산한다.
일부 실시예에서, 방법은 컴퓨터 구현 방법이다.
일부 바람직한 실시예에서, 주체는 인간 또는 동물 주체, 바람직하게는 인간 주체(human subject)이다. 일부 실시예에서, 인간 주체는 청력 손상(hearing damage)을 겪는다. 일부 실시예에서, 인간 주체는 시냅스 병증(synaptopathy)을 앓고 있다. 일부 실시예에서, 인간 주체는 외부 유모 세포(outer hair cell)(OHC) 손실(loss)을 앓고 있다. 일부 실시예에서, 인간 주체는 내부 유모 세포(inner hair cell)(IHC) 손상(damage)을 앓고 있다. 일부 실시예에서, 인간 주체는 탈수초화(demyelination)를 겪는다. 일부 실시예에서, 인간 주체는 노안(presbycusis) 또는 뇌간/중뇌 억제 변화(brainstem/midbrain inhibition change)를 겪는다. 일부 실시예에서, 인간 주체는 청각 말초(auditory periphery)의 다양한 스테이지에서 전술한 유형의 청력 손상을 겪는다. 일부 실시예에서, 인간 주체는 특히 예를 들어 노화 또는 소음 노출을 통한 시냅스 병증 및 외부 유모 세포(OHC) 손실 둘 모두를 앓고 있다.
이 방법은 모든 연령대의 대부분의 사람들과 감각 신경성 난청(sensorineural hearing disorder)의 종류에 적용할 수 있으며 영화 감상, 수면, 잠재의식(subconscious), 비언어적(non-verbal)(예를 들어, 신생아(neonate)) 등 다양한 조건에 있을 수 있다. 또한, 암 치료를 받고 있는 사람도 고려할 수 있다.
본 발명에 따른 방법은 바람직하게는 다음 단계를 포함한다:
a. 신경망 기반 개인화된 청각 반응 모델(neural network-based personalized auditory response model)을 획득하는 단계, 바람직하게는 생성하는 단계 - 상기 개인화된 청각 반응 모델은 청각 자극에 대한 청각 프로파일을 갖는 주체의 예상 청각 반응을 나타냄 -.
개인화된 청각 반응 모델은 민감한 자극에 대한 주체의 측정된 반응(예를 들어, AEP, OAE)을 사용하거나 음성 명료도 또는 진폭 변조(AM) 검출 작업(amplitude-modulation (AM) detection task)과 같은 심리음향 작업(psychoacoustic task)의 수행 결과를 사용하여 미리 결정되거나 결정될 수 있다. 본 명세서에 사용된 바와 같이, "청각 유발 전위(auditory evoked potential)"(AEP)라는 용어는 음향 자극에 의해 뇌 두피로부터 발산되는 EEG 신호의 유형을 지칭한다. 본 명세서에서 사용되는 용어 "이음향 방출"(OAE)은 내이 내부에서 발생하는 소리를 말하며, 일반적으로 민감한 마이크를 사용하여 녹음되며 내이 건강의 척도로 자주 사용된다.
본 명세서에 사용된 인공 신경망(ANN 또는 NN)은 바람직하게는 심층 신경망(DNN)이며, 바람직하게는 입력 레이어와 출력 레이어 사이에 적어도 2개의 레이어를 갖는다. 신경망은 컨볼류셔날 신경망(Convolutional Neural Networks)(CNN)일 수 있다.
본 개시물의 신경망 기반 모델은 청각 반응 차이를 미분가능하게 하는 비선형 연산으로 구성될 수 있다. 신경망과 관련하여 당업계에서 이해되는 용어 "미분가능(differentiable)"은 계산 가능한 그라디언트를 갖고 수학적 최적화 알고리즘을 사용하여 그라디언트를 따라 최적화함으로써 적어도 하나의 구성요소를 반복할 수 있는 수학적 모델을 의미한다. 따라서, 미분가능 신경망 기반 모델을 제공하면 모델에서 기울기 하강과 같은 파라미터의 기울기 기반 최적화를 사용하여 문제를 정확하게 해결할 수 있다. 따라서 미분성(differentiability)은 상기 모델의 훈련이, 다른 경우에는 문제를 해결하기 위해 모델 정확도를 희생하는 수학적 단순화에 의존하지 않고, 예를들어 그래디언트 없는 최적화를 통해 도달하는 것이 불가능하게 되는, 솔루션으로 역전파되도록 할 수 있는 현재 신경망 기반 모델의 고유한 속성이다. 당업자는 어떤 수학적 표현이 미분가능한지 알고 있으며, 대부분의 신경망은 미분가능 구성요소만을 포함하기 때문에, 당업자는 미분가능 NN 기반 모델을 선택하는 데 어려움이 없다.
일부 실시예에서 NN 기반 모델은 일반적으로 고도로 비선형이지만 병렬 연산으로 구성된다. 이것은 복잡한 수학적 피드포워드 표현식의 계산과 비교하여 전용 칩에서 구현될 때 계산 속도를 훨씬 더 빠르게 하는 이점을 제공한다. 동시에, 이러한 연산은 미분가능하고, 이는 다른 경우 도달할 수 없는 솔루션으로 역전파하도록 신경망이 훈련될 수 있다는 것을 의미한다. 따라서, 이 방법은 바람직하게는 폐쇄 루프 보상 방식(closed-loop compensation approach)에서 사용된다.
NN 기반 청각 모델을 사용하여 앞서 언급한 차분 신호는 미분가능하며 특정 저하된 청력(degraded hearing-ability)을 반영한다.
개별화된 NN(신경망) 기반 청각 신호 처리 모델과 NN 기반 오디오 신호 처리 분야를 연결하는 또 다른 이점은 이 조합이 최첨단 음성 인식, 소음 억제, 음질 및 음성 신호 대 잡음비(SNR)와 같은 더 불리한 조건에서 작동하는 로봇 공학 시스템의 성능을 개선할 수 있는 것이다. NN 기반 청각 신호 처리 모델, 분류기(classifier) 또는 인식 시스템(recognition system)은 음의 신호 대 잡음비(SNR)에서 잡음 중 음성 인식을 촉진하는 인간 달팽이관(와우)(human cochlea)의 탁월한 주파수 선택성 및 잡음 감소 기능을 활용하는 데 도움이 될 수 있으며(< -6dB), 반면에 스펙트럼-시간적 기존 오디오 신호 처리 애플리케이션은 0dB 미만의 SNR에서 실패하기 시작한다.
본 발명의 맥락에서, 청각 자극은 다양할 수 있고 인간 또는 동물의 청각에 민감한 음향 신호(예를 들어, 압력파(pressure wave)), 예를들어 다음을 위해 대략 20Hz 내지 대략 20kHz 범위의, 인간의 청각 시스템은 연령과 건강에 따라 다를 수 있는, 음향 에너지를 포함하고 전달하는 신호를 의미한다. 분명히, 인간이 아닌 동물의 경우 다른 주파수 범위가 적용된다. 본 명세서에 사용된 바와 같이, 용어 "청각 처리(auditory processing)"는 청각 말초에 의한 소리의 처리를 지칭하고, 상행 청각 경로의 다양한 스테이지에 걸친 소리의 와우 및 신경 처리를 포함한다. 따라서, 본원에 사용된 용어 "청각 처리"는 와우 처리, 뿐만 아니라 뇌간 및 중뇌 신경 세포 처리 및 임의의 이전 단계의 신경 세포 집단의 처리를 포함하는 청각 말초 또는 경로의 처리를 지칭할 수 있다. 따라서 "와우 처리"라는 용어는 중이, 기저막(BM), 외부 및 내부 유모 세포(OHC 및 IHC), 청각 신경 섬유(ANF) 시냅스 및 뉴런에서 일어나는 처리를 나타낸다.
본 명세서에 사용된 바와 같이, "개별화된 청각 반응 모델(individualized auditory response model)"이라는 용어는 바람직하게 청각 경로를 따라 생물물리학적 음향 처리 스테이지의 NN 기반 모델로 정의된다. NN 기반 모델에는 외이도(ear-canal), 중이(middle-ear), 와우 기저막 필터링에 대응하는 스테이지와 내부 및 외부 유모 세포(IHC 및 OHC), 청각 신경 섬유(ANF), 뇌간/중뇌 뉴런 및 이들의 시냅스와 같은 와우 신경 요소의 반응에 대응하는 스테이지가 포함될 수 있다. 또한, 이러한 요소 중 몇 가지의 집단 반응은 개별화된 모델의 결과를 형성할 수 있는데: 예를 들어, 집단 기저막(population basilar-membrane) 및 OHC 반응인 이음향 방사(otoacoustic emission)(OAE); 및 및 ANF 및/또는 뇌간/중뇌 뉴런(brainstem/midbrain neuron)의 수준에서 생성된 뉴런 집단 반응(neuronal population response)인 청각 유발 전위(auditory-evoked potential)(AEP)이다. 개인화된 청각 반응 모델은 위에서 언급한 구조의 청력 장애와 관련된 하나 이상의 주파수 종속 파라미터를 개별화할 수 있다. 모델은 청력 장애 및 청각 처리의 모든 측면을 다루는 단일 NN 모델일 수 있으며, 또는 각각 청각 처리 및/또는 청력 손상의 특정 측면을 다루는 모듈로 구성될 수 있다.
본 명세서에 사용된 바와 같이, "개별화된 청각 신호 처리 모델(individualized auditory signal processing model)"이라는 용어는 바람직하게는 입력으로서 청각 자극을 갖고 처리된 청각 출력으로서, 예를 들어 (i) 청각 장애를 보상하기 위해 고안된 수정된 청각 자극, 또는 (ii) 청각 경로(auditory pathway)를 따라 특정 처리 스테이지에 대응하는 수정된 청각 반응 - 예를 들어 인공 와우(cochlear implant) 또는 심부 뇌 임플란트(deep brain implant)와 같은 청각 보철물을 자극하는 데 사용할 수 있음 - 이다.
따라서, 일부 바람직한 실시예에서, 처리된 청각 출력은:
(i) 청력 장애를 보상하기 위해 고안된 또는 증강된 청력을 제공하는 수정된 청각 자극; 또는,
(ii) 청각 경로(auditory pathway)를 따라 특정 처리 스테이지에 대응하는 수정된 청각 반응 - 예를 들어 인공 와우(cochlear implant) 또는 심부 뇌 임플란트(deep brain implant)와 같은 청각 보철물을 자극하는 데 사용할 수 있음 - 으로부터 선택된다.
본 명세서에 사용된 바와 같이, "증강된 청력(augmented hearing)" 및 "증강된 청각 반응(augmented auditory response)"이라는 용어는 바람직하게는 개별화된 청각 신호 처리 알고리즘의 목적과 관련된다. 개별 형태의 청력 손상을 보상하는 것 외에도, 알고리즘은 청력의 인식이나 질을 개선하거나 청각 반응(예를 들어, AEP, OAE)을 개선하는 것을 목표로 하여 청력(정상 청력 청취자라도)을 개선하도록 고안될 수 있다. 이것은 잡음 감소를 수행하는 것을 목표로 하거나, 오디오 신호 시작 또는 변조 향상과 같은 수단을 통해 특정 신경 반응 기능을 향상함으로써 달성할 수 있다.
일부 바람직한 실시예에서, 단계 a의 개인화된 청각 반응 모델은 주체 특정 청각 프로파일을 유도하고 포함하여 결정된다.
이 단계는 주체의 생체 반응(예를 들어, OAE, AEP)를 특정 소리 자극에 연결하거나 인간의 생체 신호를 검출하는 추가 센서를 사용한다. 이 데이터를 모델 시뮬레이션과 비교하여 가장 잘 어울리는 청각 프로파일을 결정한다.
일부 바람직한 실시예에서, 주체 특정 청각 프로파일은 주체 특정 청각 손상 프로파일이고; 바람직하게는 청각 신경 섬유(ANF) 및/또는 시냅스(ANS)의 무결성 및/또는 주체의 외부 유모 세포(OHC) 손상을 기반으로 한다.
청력 손실은 다음을 포함하지만 이에 제한되지 않는 당업자에게 알려진 바와 같이 청각 말초의 다양한 스테이지에서 여러 측정 가능한 요인에 기인할 수 있다:
- 외부 유모 세포(OHC) 손상/손실;
- 청각 신경(AN) 기능 장애 또는 손실;
- 내부 유모 세포(IHC) 손상/손실;
- 탈수초화(demyelination);
- 노안(presbycusis); 및,
- 신경 억제 강도 교번(neural inhibition strength alternation).
청력 손실의 정확한 청각 프로파일(청각 손상 프로파일)이 개인에 대해 추정되면, 예를 들어 특정 청력 손상을 정확하게 보상할 수 있는 개별화된 신호 처리 청각 반응 모델이 개발될 수 있다. 일부 실시예에서, 방법은 본 명세서에 기술된 바와 같이 개별화된 보청기 신호 처리 모델을 개발하는 단계를 포함한다. 청각 손상 프로파일에는 외부 유모 세포 손상, 내부 유모 세포 손상, 와우 시냅스 병증, 뇌간 억제 변화 또는 위에서 설명한 것과 같은 청각 말초의 모든 다른 스테이지에서 청력 손실의 조합이 포함될 수 있다. 이음향 방출(OAE) 및 청각 유발 전위(AEP)를 기반으로 하는 민감한 메트릭을 사용하여 개별 시냅스 병증 및 유모 세포 손상 측면을 설명할 수 있는 개별화된 모델(individualized model)을 구축할 수 있다.
일부 실시예에서, 이음향 방출(OAE) 및 청각 유발 전위(AEP)에 기초한 민감한 메트릭을 사용하여, 시냅스 병증 및 외부 유모 세포 손상 둘 다를 설명할 수 있는 개인화된 청각 반응 모델(personalized auditory response model)이 구축된다. 따라서, 바람직하게는, 개인화된 청각 반응 모델은 시냅스 병증 및 외부 유모 세포 손상을 모두 포함한다.
일부 실시예에서, 주체 특정 청각 손상 프로파일은 청각 신경 섬유 및/또는 시냅스 손상 프로파일을 포함하고; 즉, 청각 손상 프로파일은 청각 신경 섬유(ANF) 및/또는 시냅스(ANS)의 무결성을 기반으로 한다.
일부 실시예에서, 주체 특정 청각 손상 프로파일(subject specific auditory damage profile)은 외부 유모 세포 손상 프로파일을 포함하고; , 청각 손상 프로파일은 외부 유모 세포(OHC)의 무결성을 기반으로 한다.
일부 실시예에서, 주체 특정 청각 손상 프로파일은 내부 유모 세포 손상 프로파일을 포함하고; , 청각 손상 프로파일은 내부 유모 세포(IHC)의 무결성을 기반으로 한다.
일부 실시예에서, 주체 특정 청각 손상 프로파일은 탈수초 손상 프로파일(demyelination damage profile)을 포함한다.
일부 실시예에서, 주체 특정 청각 손상 프로파일은 노안 손상 프로파일(presbycusis damage profile)을 포함한다.
일부 실시예에서, 주체 특정 청각 손상 프로파일은 뇌간/중뇌 억제 변화 프로파일을 포함한다.
일부 실시예에서, 주체 특정 청각 손상 프로파일은 청각 신경 섬유 및/또는 시냅스 손상 및 외부 유모 세포 손상 프로파일을 포함하고; 즉, 청각 손상 프로파일은 청각 신경 섬유(ANF) 및/또는 시냅스(ANS)의 무결성 및 주체의 외부 유모 세포(OHC) 손상을 기반으로 한다.
일부 실시예에서, 주체 특정 청각 손상 프로파일은 뇌간/중뇌 손상, 청각 신경 섬유 및/또는 시냅스 손상 및 유모 세포 손상 프로파일을 포함하고; 즉, 청각 손상 프로파일은 뇌간/중뇌의 무결성, 청각 신경 섬유(ANF) 및/또는 시냅스(ANS)의 무결성, 및 주체의 유모 세포 손상을 기반으로 한다.
청각 말초의 개발된 신경망 모델은, 시뮬레이션된 출력에 실험 데이터를 클러스터링 하는 훨씬 빠른 방법을 제공하여 개별화된 청력 손실 프로파일을 더 정확하게 구축할 수 있도록 할 수 있게 되어, 이 단계에서 도움이 될 수 있다. 이를 위해, 다양한 정도의 청력 손실의 다양한 측면을 포함하는 미리 구성된 청력 장애 개인화된 청각 반응 모델을 사용할 수 있다.
따라서 "무결성(integrity)"이라는 용어는 내부 유모 세포 손실, 외부 유모 세포 손실, 또는 본 명세서에 기술된 다른 유형의 청력 손상과 같은 청각 말초 요소의 기능 또는 손실 중 하나 또는 둘 모두와 관련될 수 있다. 예를 들어, ANF 무결성은 나머지 ANF의 기능 중 하나 또는 둘 모두와 구심성 와우 시냅스(ANS)에 의한 신경 분포를 나타낼 수 있다. "무결성(integrity)"이라는 용어는 또한 내부 유모 세포 손실, 외부 유모 세포 손실 또는 손상된 ANF 및/또는 ANS와 같은 청각 말초의 손상된 요소의 수 및/또는 유형의 정량화와 관련될 수 있다. 본 명세서에 사용된 용어 "무결성 측정(measuring the integrity)" 또는 "무결성 결정(determining the integrity)"은 정성적 측정 또는 정량적 측정을 상호교환가능하게 지칭할 수 있다. 적어도 ANF 및/또는 ANS 무결성을 네트워크 기반 개인화된 청각 반응 모델에 통합함으로써 개인의 하위 그룹 및/또는 단일 개인에 적합하도록 개인화할 수 있는 생물물리학적으로 정확한 모델을 생성할 수 있다.
청각 손상은 당업자에게 알려진 기술 분야의 임의의 수단에 의해 평가될 수 있다. 예를 들어, ANF는 특정 청각 자극(오디오 자극 또는 자극)에 대해 강한 반응을 나타내며, 즉, 청각 자극은 와우를 따라 ANF 및 ANS의 집단에 걸쳐 고도로 동기화된 ANF 반응을 유발할 수 있음이 밝혀졌다. ANF 반응은 뇌의 전기적 활동을 측정하여 기록할 수 있다. 이 활동은 침습적 기록 전극(동물에서) 또는 뇌파검사(EEG, 인간 또는 동물에서), 바람직하게는 AEP를 통해 매핑된다. EEG의 경우, 모든 뇌 활동을 파동 패턴으로 기록하는 다수의 전극이 주체의 두피에 부착된다. EEG 데이터는 주체에서 ANF 및/또는 ANS의 무결성을 결정하기 위해 처리될 수 있다. 무결성은 ANF 모집단의 전체 또는 하위 집합에 대해 결정될 수 있다.
다른 기능적 신경 이미징 기술(specific neuroimaging technique)이 본 발명에 사용될 수 있다. 예를 들어, 주체의 뇌 활동은 또한 자기뇌촬영(MEG) 또는 전기와우도(EcochG)를 통해 매핑될 수 있다. 당업자는 EcochG/MEG 데이터가 EEG 데이터를 설명하는 실시예와 동등한 방식으로 처리될 수 있고 본 청각 자극의 적용이 특정 신경 이미징 기술에 제한되지 않는다는 것을 이해한다. 다른 신경 이미징 및/또는 청각 테스트의 데이터는 외부 유모 세포(OHC) 손상과 같은 다른 청각 구성 요소의 손상을 결정하는 것과 같이 더 정확하거나 대안적인 결과를 얻기 위해 결합될 수도 있다. 일부 실시예에서, 주체 특정 손상 프로파일은 또한 예를들어, 시뮬레이션 및/또는 실험 주파수 특정 OHC 손상 프로파일을 포함하도록 확장될 수 있다. OHC 손상 프로파일은 실험 데이터, 주파수별 OHC 손상 추정치를 기반으로 결정될 수 있다(예를 들어, 청력도 테스트, 이음향 방출에서 유도됨). 대안적으로, ANF 및 OHC 프로파일 모두에 대해 매칭 알고리즘(matching algorithm)이 동시에 최적화될 수 있도록 OHC 손상 프로파일을 가변적으로 유지할 수 있다.
일부 실시예에서, 청각 손상 프로파일은 예를 들어 AEP를 통해 뇌 활동 데이터를 통해 획득된다. 일부 실시예에서, 뇌 활동 데이터는 신호로부터 획득되며, 바람직하게는 신호는 EEG(뇌파검사(Electroencephalography)) 또는 MEG(뇌자도(Magnetoencephalography)) 신호, 바람직하게는 EEG 신호, 바람직하게는 AEP 신호이다. 현재의 EEG 및 MEG 방법은 높은 시간적 정밀도로 청력 검사를 위한 비침습적 접근 방식을 제공할 수 있다. 여기에 사용된 용어 "EEG"는 또한 EcochG(전기 와우도(electrocochleogram))를 포함하는데, 이는 이 설정이 기본적으로 외이도(tiptrodes) 또는 고막을 통한 경고막(임상 설정 필요)에서 EEG 기록이기 때문이다.
본 발명에 따른 방법은 바람직하게는:
b. 청각 반응 차이를 결정하기 위해 개인화된 청각 반응 모델의 출력과 신경망 기반 원하는 청각 반응 모델의 출력을 비교하는 단계 - 이로써 청각 반응 차이는 미분가능하고, , 솔루션으로 역전파할 수 있는 신경망 모델을 훈련/개발하는 데 사용할 수 있음- 를 포함한다.
일부 실시예에서, 원하는 청각 반응은 청력 손실이 없는 주체의 청각 반응 모델에 기초하여 자동으로 결정된다. 일부 실시예에서, 원하는 청각 반응은 센서 입력 또는 주체에 의해 유도된 데이터에 기초하여 결정된다. 일부 실시예에서, 원하는 청각 반응은 실험적이거나 시뮬레이션된다.
일부 실시예에서, 원하는 청각적 반응은 증강된 반응이다. 일부 바람직한 실시예에서, 원하는 청각 반응은 정상 청력 주체로부터의 반응 또는 향상된 기능을 갖는 반응이다.
정상 청력 청각 말초는 정상 청력 청취자의 청각 인식/능력을 시뮬레이션할 수 있다. 향상된 기능의 예에는 향상된 소리 인식 또는 음질, 통합된 소음 감소 또는 기타 조작이 포함되지만 이에 국한되지는 않다.
일부 실시예에서, 원하는 청각 반응은 청력 장애가 있는 주체로부터의 반응이다. 이는, 정상 청력 청취자에게 재생될 때, 청력 장애가 있는 청취자가 경험하는 청력 저하를 모방할 처리된 오디오 자극을 제공할 수 있다.
일부 실시예에서, 원하는 청각 반응 모델 및 개인화된 청각 반응 모델은, 자동 음성 인식(ASR)/단어 인식 시스템, 음성 향상 모델(소음 억제, 잔향 제거(de-reverberation)), 오디오/음성 품질 모델 같은, 작업 지향 신경망 청각 모델을 포함한다.
일부 실시예에서, 원하는 청각 반응 모델 및 개인화된 청각 반응 모델은 음량 모델(loudness model)과 같은 심리음향 신경망 모델(psychoacoustic neural network model)을 포함한다.
일부 실시예에서, 원하는 청각 반응 모델 및 개인화된 청각 반응 모델은 신경망 모델의 상이한 조합, 예를들어 청각 모델(프론트 엔드) 및 ASR 시스템(백 엔드); 또는 더 많은 모델의 조합, 예를들어 프론트 엔드와 백엔드 사이의 중간 단계로서 소음 억제 모델을 포함한다.
일부 바람직한 실시예에서, 원하는 청각 반응 모델 및 개인화된 청각 반응 모델은 본 명세서에 기술된 바와 같이 청각 말초의 상이한 스테이지의 모델을 포함한다.
본 발명에 따른 방법은 바람직하게는:
c. 주체의 신경망 기반 개별화된 청각 신호 처리 모델을 개발하기 위해 결정된 미분가능 청각 반응 차이(differentiable auditory response difference)를 사용하는 단계 - 개별화된 청각 신호 처리 모델은 결정된 청각 반응 차이를 최소화하도록 구성됨 - 를 포함한다.
신경망 기반 개별화된 청각 신호 처리 모델은 선택된 개인화된 청각 반응 모델과 원하는 청각 반응 모델에 따라 다양한 응용 분야에서 활용될 수 있다. 이러한 특정 응용 프로그램의 예는 아래에 설명되어 있다.
일부 바람직한 실시예에서, 정상 청력 청각 말초(normal-hearing auditory periphery)를 설명하는 레퍼런스 신경망(reference neural network)이 원하는 청각 반응 모델로 사용되고; 대응하는 청력 장애 신경망(hearing-impaired neural network)은 개인화된 청각 반응 모델로 사용되고, 및 개별화된 청각 신호 처리 모델은, 청력 장애 모델(hearing-impaired model) 또는 주체의 입력에 연결될 때, 청력 장애 모델의 저하된 출력을 보상하고 청각 입력을 처리하도록 훈련된 신호 처리 신경망 모델이다.
일부 바람직한 실시예에서, 레퍼런스 청각 장애 신경망이 원하는 청각 반응 모델로 사용되고; 정상 청력 청각 말초를 설명하는 대응하는 신경망은 개인화된 청각 반응 모델로 사용되고; 및 개별화된 청각 신호 처리 모델은, 정상 청력 모델의 입력에 연결될 때, 청력 장애 모델의 저하된 출력을 에뮬레이트하고 청각 입력을 처리하도록 훈련된 신호 처리 신경망 모델이다.
일부 바람직한 실시예에서, 정상 청력 청취자의 증강된 청력 인식 및/또는 능력을 시뮬레이트하는 레퍼런스 신경망이 원하는 청각 반응 모델로 사용되고; 대응하는 정상 청력 또는 청력 장애 신경망이 개인화된 청각 반응 모델로 사용되고; 및 개별화된 청각 신호 처리 모델은 청각 입력을 처리하고 증강된 청각 반응을 제공하도록 훈련된 신호 처리 신경망 모델이다.
일부 실시예에서, 방법은 OAE/AEP 실험에 의해 주체의 청력 손상의 개별 모델(individual model)을 캘리브레이트 하는 단계를 포함한다. 실험적으로 기록된 OAE 및 청력 측정 임계값은 개인화된 OHC 프로파일을 결정하는데 사용될 수 있다. AEP는, 즉 다양한 수준의 ANF 손상에 대해 다양한 시냅스 병증 프로파일에 대해 시뮬레이션될 수 있다. AEP의 유형(예를 들어, 청각 뇌간 반응(auditory brain stem response)(ABR) 또는 엔벨롭 추종 반응(envelope-following response)(EFR)에 따라, 시간 영역 피크 및 대기 시간, 스펙트럼 크기 및 상대 메트릭을 포함하는 기능 세트가 모든 시뮬레이션된 와우 시냅스 병증 프로파일에 대해 구성될 수 있다. 클러스터링 기술(clustering technique)을 채택하여 측정에서 추출한 기능 세트(feature-set)와 가장 일치하는 CS 프로파일을 결정할 수 있고 NN 기반 개별 청각 반응 모델의 파라미터를 설정하기 위해 대응하는 OHC 및 ANF 손상 파라미터가 사용될 수 있다.
위의 절차는 OHC 손실 및 시냅스 병증 파라미터를 모두 포함하여 최상의 매칭 프로파일(best matching profile)을 결정함으로써 더욱 최적화될 수 있다. 이 절차에는 더 많은 자유도가 포함되고 ANF 프로파일을 반복적으로 결정하기 전에 OHC 파라미터를 미리 결정하는 대신, 실험 및 시뮬레이션된 기능 세트 간의 차이를 최소화하기 위해 이제 모든 OHC 및 ANF 관련 모델 파라미터를 반복적으로 실행할 수 있다. 이러한 방식으로, NN 기반 청각 반응 모델의 OHC 및 ANF 손상 파라미터를 동시에 최적화할 수 있다.
일부 실시예에서 주체 청각 반응 모델은 개별 청취자의 청각 말초를 시뮬레이션하기 위해 상기 주체로부터 기록된 생물물리학적 데이터(를 들어, ANS, ANF, OHC 및/또는 IHC 손상의 개별 파라미터)에 기초하여 개별화될 수 있다. 당업자는 여기에서 사용된 개별화된 모델이 개인화된 모델과 구별된다는 것을 인식할 수 있다. 개인화된 모델은 개인의 하위 그룹에 적합하지만 개별화된 모델은 단일 개별인을 주체로 한다.
특히, 개인화된 청각 반응 모델은, 예를 들어 단일 측정(예를 들어, OHC 손상을 결정하기 위한 청력도)로부터 및/또는 단일 모델(예를 들어, OHC 및/또는 IHC 손상을 기반으로 한 청력 손상)로 데이터를 통합하여 획득된, NN 기반 모델을 나타내고; 개별화된 청각 반응 모델은 포함된 모든 NN 기반 모델(예를 들어, ANS, ANF, OHC 및/또는 IHC의 개별 기여)의 개별화를 나타낸다.
위에서 설명한 개별화된 주체 청각 반응 모델은, 최신 보청기 알고리즘에서 현재 사용되는 지각적 제약(예를 들어, 이득 처방에 대한 인지 음량)을 고려하지 않고, 폐쇄 루프 시스템을 사용하여 개별 청취자의 특정 감각신경성 난청 측면을 최적으로 보상하는 개별화된 보청기 모델을 설계하는 능력을 제공할 수 있다.
청취자의 개별 청각 프로파일을 결정한 후, 청각 신경 또는 뇌간/중뇌 처리의 수준까지 모든 스테이지에서 청취자의 말초의 청력 손상을 캡처하는 개인화된 NN 기반 청각 반응 모델을 훈련하기 위해 대응하는 파라미터가 사용될 수 있다. 그런 다음 개별 청각 모델을 폐쇄 루프 방식으로 사용하고 그 출력을 '레퍼런스' 정상 청력 청각 모델의 출력과 비교한다.
본 개시물의 신경망 기반 모델은 청각 반응 차이를 미분가능하게 하는 비선형 연산으로 구성될 수 있다. 일부 실시예에서 NN 기반 모델은 고도로 비선형이지만 병렬 연산을 구성한다. 이들 연산은 미분가능하기 때문에, 이는 문제를 정확하게 해결하기 위해 모델에서 그레디언트 하강과 같은 파라미터의 그레디언트 기반 최적화의 사용을 가능하게 할 수 있다. 따라서 미분성은, 다른 경우에는 도달할 수 없는 솔루션으로 역전파하도록 훈련될 수 있도록 하는, 현재 신경망 기반 모델의 본질적인 속성이다. 예를 들어, 미분할 수 없는 청각 모델은, 예를들어 그라디언트 없는 최적화를 통해 솔루션에 도달하기 위해 수학적 단순화에 의존해야 할 수 있으므로 솔루션 정확도가 감소한다.
따라서, 청각 반응 차이를 미분할 수 있도록 하는 비선형 연산으로 구성된 신경망 기반 모델의 제공을 통해, 폐쇄 루프 보상 접근 방식(closed-loop compensation approach)은 '보청기' 신경망 모델('hearing-aid' neural-network model)이 청각 입력을 처리하고 개별 난청 모델(individual hearing-impaired model)(도 5 참조)의 저하된 출력을 보상하도록 훈련되는 앞서 언급한 두 가지 청각 모델을 사용하여 설계될 수 있다.
폐쇄 루프 접근 방식은 사용된 청각 모델의 미분가능 특성으로 인해 가능하다. 이 두 모델의 출력은 보청기 모델을 훈련하기 위한 패널티/손실 항으로 사용할 수 있는 차이 메트릭(difference metric)을 제공할 수 있다. 이 메트릭은 NN 기반 청각 모델을 통해 역전파하고 그에 따라 보청기 모델의 가중치를 수정하는 데 사용되어 특정 메트릭을 가능한 최선의 방법으로 최소화하도록 훈련할 수 있다. 보청기 모델은, 청력 장애가 있는 모델에 입력으로 제공될 때, '레퍼런스' 정상 청력 모델의 출력과 일치(또는 부분적으로 일치)할 수 있는 출력을 생산할 수 있는 것과 같은, 청각 자극을 처리하도록 훈련한다.
본 발명은 또한 청각 자극을 처리된 청각 출력으로 변환하기 위한 인공 신경망 기반 방법에 관한 것이다. 이 방법은 바람직하게는 본 명세서에 기술된 바와 같은 개별화된 청각 신호 처리 모델 또는 그 실시예를 획득하는 단계; 및,
d. 개인화된 신경망 기반 청각 신호 처리 모델을 청각 자극에 적용하여 개인화된 청각 반응 모델 또는 주체에 입력으로 제공될 때 원하는 청각 반응과 바람직하게 일치하는 처리된 청각 출력을 생산한다.
일부 바람직한 실시예에서, 개별화된 청각 신호 처리 모델은 몇몇 또는 모든 토노토픽 주파수(tonotopic frequencies)에서 2개의 청각 반응 모델 간의 절대 또는 제곱 차이와 같은 특정 청각 반응 차이 메트릭(metric)을 최소화하도록 훈련된다.
일부 실시예에서, 원하는 청각적 반응과 청각 반응 간의 차이는 두 모델 간의 절대적 차이를 사용하여 최소화된다. 일부 실시예에서, 원하는 청각 반응과 청각 반응 간의 차이는 두 모델 간의 차이 제곱을 사용하여 최소화된다.
일부 실시예에서, 주파수 영역에서 표현되는 두 모델의 반응이 있는, 원하는 청각 반응과 청각 반응 간의 차이는 최소화된다. 일부 실시예에서, 원하는 청각 반응과 청각 반응 간의 차이는 전력 또는 크기 스펙트로그램과 같은 다른 주파수 표현으로 표현된 두 모델의 반응으로 최소화된다.
일부 바람직한 실시예에서, 시뮬레이션된 주파수의 범위에 걸쳐 합산된 청각 반응의 차이는 최소화된다. 뇌간 및 피질 처리 모델에 대한 입력으로 사용될 때, 청각 유발 전위 생성기를 최적으로 복원할 수 있다.
일부 바람직한 실시예에서, 정상 청력 및 청력 장애 말초의 청각 신경 출력의 차이가 최소화되고; 또는 시간 또는 주파수 영역에서 표현되는 시뮬레이션된 청각 뇌간 및/또는 피질 반응 간의 차이가 최소화된다.
최적화 메트릭의 선택은 폐쇄 루프 보상에 영향을 미친다. 일부 실시예에서 사용되는 정상 청력 모델과 청력 장애인 모델의 출력 간의 차이를 최소화하는 것이, 이러한 표현의 복잡성을 고려할 때, 항상 바람직하거나 가능한 것은 아닐 수 있다. 일부 실시예에서, 몇몇 또는 모든 토노토픽 주파수에서 청력 손상(예를 들어, 외부 유모 세포 손상 또는 시냅스 병증)의 단일 측면을 보상하기 위해 개인화된 청각 신호 처리 모델(이 예에서는 보청기 모델)을 훈련하도록 선택될 수 있다. 일부 다른 실시예에서, 시뮬레이션된 와우 반응은 뇌간 및 피질 처리의 모델에 대한 입력으로서 사용되어 추가적인 청각 유발 전위 특징이 시뮬레이션되고 보청기 모델의 파라미터를 결정하는 데 사용될 수 있다. 일부 다른 실시예에서, 보청기 모델은 청각 유발 전위의 생성기를 최적으로 복원하도록 훈련될 수 있으며, 이 경우 시뮬레이션된 주파수 범위에 걸쳐 합산된 와우 반응은 보청기 모델의 파라미터를 결정하기 위해 뇌간 및 피질 처리 모델에 대한 입력으로 사용된다.
일부 다른 실시예에서, 보청기 모델은 음성 명료도와 같은 지각 작업에 대해 정상 청력 주체의 '레퍼런스' 성능에 도달할 수 있도록 청각 신호를 처리하도록 훈련된다. 이 경우 작업 최적화된 음성 '백엔드'가 정상 청력 및 청력 장애가 있는 와우 모델(, '프론트 엔드')의 출력에 연결되어 다양한 작업에서 청취자의 수행을 시뮬레이션한다. 그런 다음 백엔드의 출력은, 청력 장애가 있는 사람과 정상적인 청력 성능 간의 차이를 최소화하는 보청기 모델을 훈련하기 위해 사용될 수 있다. 프런트 엔드는 청각 뇌간/피질 처리 모델에 연결된 와우 모델 또는 와우 모델일 수 있다. 작업 최적화된 백엔드(task-optimized back-end)는 NN 기반 자동 음성 인식(ASR) 시스템일 수 있다. 일부 실시예에서, 다음 단계로서, 보다 현실적인 시나리오에서 이러한 모델의 성능을 일반화하기 위해 소음 또는 잔향이 청각 신호에 도입된다. 이 경우, NN 기반 소음/잔향 억제 모델을 프런트 엔드와 백 엔드 사이의 중간 단계로 추가할 수도 있다.
일부 바람직한 실시예에서, 다른 작업에서 청취자의 수행을 시뮬레이트하는 작업 최적화된 음성 '백엔드'(task-optimized speech 'back-end')는 '프론트 엔드'라고도 하는 청각 반응 모델의 출력에 연결되고; 및, 백엔드의 출력은 청각 반응 차이를 결정하고 최소화하는 데 사용된다.
일부 실시예에서, 청각 반응 모델은 음성 명료도와 같은 지각 작업에 대해 정상 청력 주체의 '레퍼런스' 성능에 도달할 수 있도록 청각 신호를 처리하도록 훈련된다.
일부 실시예에서, 작업 최적화된 스피치 '백엔드(back-end)'는 원하는 청각 반응 및 상이한 태스크에서 청취자의 수행을 시뮬레이트하는 시뮬레이트된 청각 반응 '프론트 엔드(front-end)'의 출력에 연결된다.
일부 실시예에서, 백엔드의 출력은 원하는 청각 반응과 시뮬레이션된 청각 반응 간의 차이를 최소화하는 데 사용된다.
일부 실시예에서, 프론트 엔드는 와우 모델 또는 전체 청각 말초의 모델이다.
일부 실시예에서, 작업 최적화된 백엔드는 NN 기반 자동 음성 인식(automatic-speech-recognition)(ASR) 시스템이다.
일부 실시예에서, 다음 단계로서, 보다 현실적인 시나리오에서 이러한 모델의 성능을 일반화하기 위해 소음 또는 잔향이 청각 신호에 도입된다. 일부 실시예에서, NN 기반 잡음/잔향 억제 모델은 프론트 엔드와 백엔드 사이의 중간 단계로서 추가된다.
일부 실시예에서, 단계 d는:
- 입력 음파의 진폭이 생성된 최대 임계값을 초과할 때 청각 자극을 억제하는 단계를 포함한다.
일부 실시예에서, 단계 d는:
- 입력 음파의 진폭이 생성된 최소 임계값보다 앞서 있을 때 청각 자극을 강화하는 단계를 포함한다.
개별화된 신호 처리(예를 들어, 보청기) 신경망이 폐쇄 루프 접근 방식으로 훈련되면, 청각 신호를 처리하고 특정 청력 손실을 보상하기 위해 단독으로 사용될 수 있다. 신경망은 병렬 계산을 위한 전용 칩, 보청기에 통합되거나 휴대용 저자원 플랫폼(예를 들어, 라즈베리 파이(raspberry pi))에 구현될 수 있다. 신호 처리 모델은 바람직하게는 실시간으로 실행되어 센서(예를 들어, 마이크)를 통해 입력을 수신하고 처리된 출력을 특정 지연으로 출력 장치(예를 들어, 이어폰, 내이 삽입(in-ear inset))에 제공한다.
개별화된 신호 처리(예를 들어, 보청기) 신경망은 작업, 청각 프로파일 또는 애플리케이션에 따라 달라질 수 있는 최적의 방식으로 청각 신호를 조정하도록 훈련되는 것이 바람직한다. 바람직하게는 자동 인코더 아키텍처가 사용되며, 이는 컨볼루션 필터를 기반으로 하므로 시간 영역에서 청각 신호를 처리하여 동일한 표현으로 처리된 출력을 제공한다.
바람직하게는, 개별화된 신호 처리(예를 들어, 보청기) 신경망 아키텍처는 디코더로서 인코더의 미러 버전을 포함한다. 이러한 아키텍처는 위에서 언급한 바와 같이 입력 표현과 동일한 출력 표현을 제공한다. 그러나, 자동 인코더 대신 다른 아키텍처를 사용하여 청력 장애인 모델에 입력을 제공할 수 있다.
일부 실시예에서, 단계 d는:
- 오디오 자극을 조정하기 위한 추가 신호 처리 알고리즘을 포함하는 단계를 포함한다.
일부 실시예에서, 추가 신호 처리 알고리즘은 필터링, 시작 선명화(onset sharpening), 압축, 노이즈 감소 및/또는 오디오 자극 확장을 포함한다.
일부 실시예에서, 추가 신호 처리 모델은, 다른 음향 시나리오 및 작업에 대해 일반화하기 위해, 잡음/잔향 억제 스테이지, 단어 인식 스테이지, 주파수 분석 또는 합성 스테이지를 포함할 수 있다.
일부 실시예에서, 개별화된 신호 처리 모델은 청각 반응 모델의 원하는 입력에 따라 와우도(cochleogram), 뉴로그램(neurogram), 또는 다른 청각 특징 맵(auditory feature map)과 같은 입력 표현과 다른 출력 표현을 제공한다.
일부 실시예에서, 개별화된 신호 처리 모델은 청각 반응 모델의 원하는 입력에 따라 음성 명료도/인식 예측 또는 음성 품질 평가와 같은 다른 작업에서 청취자의 성능을 시뮬레이트하는 출력 표현을 제공한다.
일부 바람직한 실시예에서, 소리에 대한 (개별화된 및/또는 시뮬레이션된) 청각 반응(예를 들어, AEP, 소리 인식, 와우, ANF 및 뇌간 처리와 같은 청각 EEG 반응)은 시간 또는 주파수 영역에서 소리 자극의 특정 측면을 조정하는 데 사용되고, 바람직하게는 강도 및/또는 시간적 엔벨로프 형태(예를 들어, 시작 선명화/엔벨로프 깊이 향상)를 조정한다. 소리에 대한 원하는 청각 반응(예를 들어, 정상 청력 또는 청각 기능 향상 반응)은 시뮬레이션되거나 녹음될 수 있다. 주체의 AN 섬유 및 시냅스 무결성 및/또는 OHC 손상 프로파일에 대응하는 청각 반응과 원하는 청각 반응 간의 차이는 청각 장치의 처리 장치에 대한 피드백 루프를 형성할 수 있다. 예를 들어, 피드백 루프는 이러한 장치에서 소리 자극을 조정하기 위해 신호 처리 알고리즘을 최적화하는 데 사용될 수 있다.
특정 청취자를 위한 개별화된 보청기 신경망 모델을 개발한 후, 특정 자극에 대한 이 모델의 출력이 시뮬레이션될 수 있고 이 청취자의 청각 반응(예를 들어, AEP와 같은 EEG 반응)은 대신 이러한 처리된 자극을 사용하여 측정될 수 있다. 처리된 자극의 측정된 반응을 원래 자극에 대한 측정된 반응과 비교함으로써, 신호 처리 알고리즘의 개선이 평가될 수 있다. 측정된 반응 간의 차이는 필요한 경우 신호 처리 알고리즘을 추가로 최적화하는 데 사용될 수 있다.
일부 실시예에서, 훈련된 개별화된 신호 처리 모델의 효율성은, 예를 들어 AEP 측정, 심리음향 작업(예를 들어, 음성 명료도, AM 검출) 또는 듣기 테스트(예를 들어, 무슈라(MUSHRA))를 통하여, 개별적으로 평가될 수 있다. 이러한 작업의 결과는 처리되지 않은 자극에 대한 결과와 비교하여 처리된 자극의 개선을 입증할 수 있으며 신호 처리 모델을 추가로 최적화하는 데 사용할 수도 있다.
일부 바람직한 실시예에서, 방법은 청각 장치(auditory device)를 구성하기 위한 것이며, 여기서 청각 장치는 인공 와우(cochlear implant) 또는 착용형 보청기(wearable hearing aid)이다.
본 발명은 또한 보청기 적용에서 본 명세서에 기재된 방법 또는 이의 실시예의 용도에 관한 것이다. 이의 예가 여기에 설명되어 있다.
일부 실시예에서, 방법은 가역성 와우 필터 뱅크(invertible cochlear filter bank)에서 사용된다. 가역성 와우 필터 뱅크는 하나의 단일 입력 시퀀스를 N개의 출력 시퀀스로 분석한 다음 단일 입력 시퀀스를 다시 생성하기 위해 이러한 출력 시퀀스를 재합성(더 정교한 방식으로 합산하거나 결합하여)하여 단일 입력 시퀀스를 다시 합성할 수 있다. 이러한 필터 뱅크는, 처리된 입력 시퀀스를 수신하기 위해, N개의 출력 시퀀스를 보다 상세하고 주파수 종속적인 방식으로 처리하는 기능을 제공한다. 이것은 예를 들어 외부 유모 세포 및/또는 청각 신경 손상 보상과 같은 보청기 애플리케이션에 유용하다.
따라서, 일부 실시예에서 방법은:
- 하나의 단일 입력 시퀀스를 N개의 출력 시퀀스로 분석하는 단계 다음, 예를 들어 합산에 의해, 단일 입력 시퀀스를 다시 생성하기 위해 이러한 출력 시퀀스를 재합성하는 단계; 및/또는
- 단일 시간 영역 입력 시퀀스를 다시 생성하기 위해, 예를 들어 합산에 의해 청각 특징 맵과 같은 시간-주파수 표현의 N개의 출력 시퀀스를 합성하는 단계를 포함한다.
본 발명은 또한 본 명세서에 기술된 바와 같은 방법을 수행하도록 구성된 청각 장치(auditory device), 바람직하게는 인공 와우(cochlear implant) 또는 착용형 보청기(wearable hearing aid), 및 그 실시예에 관한 것이다.
본 발명은 또한 청각 장치, 바람직하게는 인공 와우 또는 착용형 보청기에 관한 것이다. 청각 장치는 바람직하게는:
- 청각 장치 상에 배치된 입력 장치 - 입력 장치는 환경으로부터 입력 음파를 픽업하고 입력 음파를 청각 자극으로 변환하도록 구성됨 -;
- 본 명세서에 기재된 바와 같은 방법 및 이의 실시예를 수행하도록 구성된 처리 유닛; 및,
- 청각 장치에 배치된 출력 장치 - 출력 장치는 프로세서로부터 처리된 청각 출력을 생산하도록 구성됨 - 를 포함한다.
일부 실시예에서, 처리된 청각 출력은 음파(sound wave)를 포함한다. 일부 실시예에서, 처리된 청각 출력은 전기 신호(electrical signal)를 포함한다. 일부 실시예에서, 처리된 청각 출력은 뇌심부 자극(deep-brain stimulation)을 포함한다.
일부 실시예에서, 입력 장치는 마이크로폰을 포함한다.
일부 실시예에서, 처리 유닛은, CPU에 비해 NN 기반 모델의 출력을 훨씬 빠르게 계산할 수 있기 때문에 최선의 선택인 병렬 계산(parallel computation)(예를 들어, GPU, VPU, AI 가속기)을 위한 전용 프로세서를 갖는 프로세서이다.
처리 장치는 ASIC과 같이 특별히 설계된 처리 장치이거나 전용의 에너지 효율적인 기계 학습 하드웨어 모듈, 를 들어 배터리 구동 응용 프로그램과 같은 휴대용 및 임베디드 응용 프로그램에 적합한 회선 가속기 칩일 수 있다.
일부 실시예에서, 출력 장치는 적어도 하나의 변환기(transducer)를 포함한다.
일부 실시예에서, 출력 장치는 가청 시변 압력 신호, 기저막 진동, 또는 적어도 하나의 청각 자극과 연관된 대응하는 청각 신경 자극을 제공하도록 구성되며, 예를 들어 변환기는 신경망에 의해 생성된 출력 시퀀스를 가청 시변 압력 신호, 기저막 진동, 또는 적어도 하나의 청각 자극과 연관된 대응하는 청각 신경 자극으로 변환하도록 구성될 수 있다.
본 발명은 또한 컴퓨터 프로그램, 또는 컴퓨터의 내부 메모리에 직접 로드할 수 있는 컴퓨터 프로그램 제품, 또는 컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램 제품, 또는 본 명세서에 기술된 방법 또는 이들의 실시예를 수행하도록 구성된 그러한 컴퓨터 프로그램 또는 컴퓨터 프로그램 제품의 조합과 관련된 것이다.
아래에 설명된 바와 같은 방법에서 하나 이상의 모델로 사용되는 바람직한 신경망 기반 모델(본원에서는 ConNear 모델이라고 함)이 설명된다. 신경망의 미분가능 특성으로 인해, 아래 그림과 같이 개발된 ConNear 모델을 포함하여, 이 폐쇄 루프 회로도에서 모든 NN 기반 청각 모델이 사용될 수 있다. 그러나, 다른 어떤 NN 기반 모델도 내부 유모 세포와 청각 신경 수준까지 청각 말초의 속성을 자세히 설명할 수 없다.
일부 실시예에서, 방법은:
- 다음을 포함하는 다층 컨볼루션 인코더-디코더 신경망을 제공하는 단계:
- 인코더 및 디코더 - 이들은 적어도 복수의 연속적인 컨볼루션 레이어(convolutional layer)를 함께 포함하고, 예를 들어 각각은 적어도 하나의 컨볼루션 레이어를 포함하고, 바람직하게는 각각은 적어도 복수의 연속적인 컨볼루션 레이어, 입력을 순차적으로 압축하기 위해 신경망에 대한 입력에 대해 보폭, 예를 들어 감소, 일정 및/또는 증가 보폭, 바람직하게는 일정 및/또는 증가 보폭을 갖는 인코더의 연속적인 컨볼루션 레이어 및 압축된 입력을 순차적으로 압축해제하기 위해 인코더로부터의 압축된 입력에 대해 스트라이드, 예를 들어 감소, 상수 및/또는 증가 스트라이드, 바람직하게는 일정한 및/또는 증가 스트라이드를 갖는 디코더의 연속적인 컨볼루션 레이어를 포함하고, 각각의 컨볼루션 레이어는 출력으로서 대응하는 복수의 활성화 맵(activation map)을 생성하기 위해 컨볼루션 레이어에 대한 입력과 함께 컨볼루션을 위한 복수의 컨볼루션 필터를 포함함 -,
- 신경망의 적어도 하나의 컨볼루션 레이어에 의해 생성된 활성화 맵에 비선형 변환을 적용하기 위한 적어도 하나의 비선형 유닛 - 비선형 변환은, 예를 들어, 와우 역학, 기저막 진동, 외부 유모 세포 처리, 내부 유모 세포 처리, 또는 청각 신경 처리, 및 이들의 조합과 같은, 예를 들어 와우 역학 및 외부 유모 세포와 같은, 와우 처리와 연관된 수준에 따른 와우 필터 튜닝을 모방함 -,
- 인코더의 컨볼루션 레이어에 대한 입력을 디코더의 적어도 하나의 컨볼루션 레이어에 직접 전달하기 위한 인코더와 디코더 사이의 하나 이상의 바로가기 연결(shortcut connection), 바람직하게는 복수의 바로가기 연결,
- 신경망에 대한 입력을 수신하기 위한 입력 레이어(input layer), 및
- 와우의 토노토픽 장소 주파수 맵을 걸치도록 신경망에 대한 각각의 입력에 대해, N개의 상이한 중심 주파수와 연관된 N개의 에뮬레이트된 인공와우 필터에 대응하는 N개의 와우 반응 파라미터의 출력 시퀀스를 생성하기 위한 출력 레이어 - 각 출력 시퀀스의 와우 반응 파라미터는 와우 처리를 나타냄, 예를 들어 와우 역학, 예를 들어 와우 기저막 진동 및/또는 내부 유모 세포 및/또는 외부 유모 세포 및/또는 청각 신경 반응, 예를 들어 장소 의존적 시변 와우 기저막 진동(place-dependent time-varying cochlear basilar membrane vibration) 및/또는 내부 유모 세포 수용체 전위 및/또는 외부 유모 세포 반응 및/또는 청각 신경 섬유 발화 패턴(auditory nerve fiber firing pattern), 예를 들어 와우 기저막의 장소 의존적 시변 진동 -,
- 시간 샘플링된 청각 자극을 나타내는 미리 결정된 길이의 적어도 하나의 입력 시퀀스를 제공하는 단계, 및 와우 반응 파라미터의 N개의 출력 시퀀스를 획득하기 위해 적어도 하나의 입력 시퀀스를 신경망의 입력 레이어에 적용하는 단계, 및
- 선택적으로, 와우 반응 파라미터의 단일 출력 시퀀스를 생성하기 위해 획득된 N개의 출력 시퀀스를 합산하거나 결합하는 단계, 바람직하게는 합산하는 단계를 포함한다.
일부 실시예에서, 비선형 유닛(nonlinear unit)은 요소별 비선형 변환(element-wise nonlinear transformation), 바람직하게는 쌍곡선 탄젠트(hyperbolic tangent)로서 비선형 변환(nonlinear transformation)을 적용한다.
일부 실시예에서, 인코더의 컨볼루션 레이어의 수는 디코더의 컨볼루션 레이어의 수와 동일하다.
일부 실시예에서 신경망은 인코더의 각각의 컨볼루션 레이어과 디코더의 대응하는 하나의 컨볼루션 레이어 사이의 바로가기 연결을 포함한다.
일부 실시예에서, 신경망은 인코더의 연속적인 컨벌루션 레이어 중 첫 번째와 디코더의 연속적인 컨볼루션 레이어 중 마지막 사이의 바로가기 연결을 포함한다.
일부 실시예에서, 신경망에 대한 입력에 대한 인코더의 연속적인 컨벌루션 레이어에 대한 스트라이드은 압축된 입력에 대한 디코더의 연속적인 컨볼루션 레이어에 대한 스트라이드와 동일하므로, 이에 의해 인코더의 컨볼루션 레이어의 컨볼루션 연산을 전치하기 위하여 인코더의 각 컨볼루션 레이어를 디코더의 대응하는 하나의 컨볼루션 레이어와 매칭한다.
일부 실시예에서, 적어도 하나의 입력 시퀀스에 대한 샘플의 수는 각 출력 시퀀스의 와우 반응 파라미터의 수와 동일하다.
일부 실시예에서, 신경망은 신경망의 각 컨볼루션 레이어에 의해 생성된 활성화 맵에 비선형 변환을 적용하기 위한 복수의 비선형 유닛을 포함한다.
일부 실시예에서, 적어도 하나의 입력 시퀀스는 청각 자극을 나타내는 복수의 입력 샘플 각각에 선행 및/또는 후속하는 전후 문맥 부분 및/또는 전후 문맥 부분을 포함하고, 방법은 청각 자극을 나타내는 복수의 입력 샘플의 입력 샘플의 수와 동일한 다수의 와우 반응 파라미터를 포함하도록 생성된 출력 시퀀스 각각을 크로핑하는 단계를 더 포함한다.
일부 실시예에서, 방법은:
- 각각 시간 샘플링된 청각 자극을 나타내는 복수의 입력 샘플을 포함하는 복수의 훈련 입력 시퀀스(training input sequence)를 포함하는 훈련 데이터세트(training dataset)를 제공하는 단계,
- 와우 처리(cochlear processing)를 위한 생물물리학적으로 정확한 검증 모델, 바람직하게는 와우 처리를 나타내는 실험적으로 측정된 와우 반응 파라미터(cochlear response parameter)와 관련하여 정확도가 평가되는 와우 전송선 모델(cochlear transmission line model)을 제공하는 단계 - 예를 들어 와우 역학, 예를 들어 와우 기저막 진동 및/또는 내부 유모 세포 및/또는 외부 유모 세포 및/또는 청각 신경 반응, 예를 들어 장소 의존적 시변 와우 기저막 진동 및/또는 또는 내부 유모 세포 수용체 전위 및/또는 외부 유모 세포 반응 및/또는 청각 신경 섬유 발화 패턴, 예를 들어 와우 토노토픽 장소-주파수 맵에 따른 장소 의존적 시변 기저막 진동 -,
- 각각의 훈련 입력 시퀀스에 대해 N개의 훈련 출력 시퀀스(training output sequence)를 생성하는 단계 - N개의 훈련 출력 시퀀스 각각은 와우 톤토피 맵의 상이한 중심 주파수와 연관됨 -,
- 훈련 입력 시퀀스를 사용하여 에뮬레이션 방법을 수행하여 동일한 와우 톤토피 맵에 대해 신경망에 대한 대응하는 에뮬레이트된 와우 반응 파라미터 시퀀스를 생성하는 단계, 및 에뮬레이트된 시퀀스와 훈련 쌍(training pair)으로 배열된 훈련 출력 시퀀스 간의 편차를 평가하는 단계 - 에뮬레이트된 시퀀스 및 각 훈련 쌍의 훈련 출력 시퀀스는 동일한 훈련 시퀀스와 연관됨 -,
- 각각의 컨볼루션 필터와 연관된 가중치 파라미터를 포함하는 신경망 가중치 파라미터를 업데이트하기 위해, 오류 역전파 방법(error backpropagation)을 사용하는 단계,
- 선택적으로, 편차를 추가로 줄이기 위해 신경망 하이퍼파라미터의 다른 세트에 대한 신경망 가중치 파라미터를 재훈련하는 단계 - 신경망 하이퍼파라미터의 다른 세트는 다음 중 하나 이상을 포함한다: 적어도 하나의 비선형 유닛에 의해 적용된 다른 비선형 변환, 다른 인코더 및/또는 디코더에 있는 컨볼루션 레이어의 수, 신경망의 임의의 한 컨볼루션 레이어에 있는 다른 수의 컨볼루션 필터, 입력 시퀀스에 대해 미리 결정된 길이와 다른 길이, 바로가기 연결의 다른 구성, 또는 선택적으로 신경망의 한 컨볼루션 레이어에서 다양한 크기의 컨볼루션 필터 - 를 포함한다.
일부 실시예에서, 방법은 청력 장애에 대한 와우 처리를 반영하는 수정된 검증 모델을 제공하는 단계, 및 수정된 검증 모델 또는 검증 모델과 수정된 검증 모델의 조합에 대한 신경망 가중치 파라미터를 재훈련하는 단계를 더 포함한다.
일부 실시예에서, 청각 장치는:
- 적어도 하나의 청각 자극을 나타내는 시변 압력 신호를 검출하기 위한 압력 검출 수단; 및/또는 예를 들어 EEG 센서, 또는 외이도 압력 센서와 같은 압력 센서와 같은, 인간 생체 신호를 검출하는 센서,
- 복수의 입력 샘플을 포함하는 입력 시퀀스를 획득하기 위해 검출된 청각 자극을 샘플링하기 위한 샘플링 수단, 및
- 신경망에 의해 생성된 출력 시퀀스를 가청 시변 압력 신호, 와우 반응으로 변환하기 위한 적어도 하나의 변환기 - 예를 들어 기저막 진동, 내부 유모 세포 반응, 외부 유모 세포 반응, 청각 신경 반응, 또는 대응하는 청각 신경 반응, 및 이들의 조합, 예를 들어 기저막 진동; 또는 적어도 하나의 청각 자극과 관련된 해당 청각 신경 자극 - 를 포함한다.
실시예
예 1: 주체의 AN 섬유 및 시냅스의 무결성을 결정하는 방법
본 발명의 바람직한 실시예에 따른 주체의 청각 신경 섬유 및 시냅스의 무결성을 결정하기 위한 가능한 모델은 도 1을 참조하여 논의되고, 이는 ANF 무결성 프로파일을 결정하고, 선택적으로 주체 특정 청각 프로파일을 결정하기 위해 레퍼런스 데이터를 사용하기 위한 바람직한 단계의 흐름도를 제공한다. 기록은 정상 ANF를 가진 "정상" 사람들의 규범 데이터세트(normative dataset)의 기록과 비교된다. 주체에 대한 레퍼런스를 비교하여 주체 특정 청각 프로파일이 획득될 수 있다.
(100)은 와우를 따라 AN 섬유 및 시냅스의 개체군에 걸쳐 청각 반응을 유발하는 청각 자극(예를 들어, 소리)이다. 자극은 ANF 손상을 진단하기 위해 AEP 기록에 사용될 수 있다. 자극 특성(stimulus characteristic)은 청각의 제한적이거나 넓은 주파수 범위를 목표로 하도록 설계될 수 있다. 바람직한 실시예에서, 청각 자극은 비정현파(직사각형) 파형m(t)를 갖는 주기적 변조기에 의해 진폭 변조된 반송 신호 c(t) (예를들어, 광대역 잡음 또는 순수 톤)일 수 있다.
(200)은 청각 말초의 신호 처리에 대한 생물물리학적 모델이며, (이는 바람직하게는 와우 역학, 외부 및 내부 유모 세포 기능에 대한 수치 설명을 포함할 뿐만 아니라 AN 시냅스 및 발화 속도를 나타낸다). 모델은 예를들어, 시뮬레이션 및/또는 실험 주파수 및/또는 유형별 ANF 손상 프로파일(210)로부터의 데이터를 포함할 수 있다. ANF(210) 손상 프로파일은 실험 데이터(예를 들어, AEP 기록)를 기반으로 결정될 수 있다. ANF 데이터는 ANF 모집단의 하위 집합을 기반으로 세분될 수 있으며; 이는 높은 자발적 속도 섬유(HSR), 중간 자발적 속도 섬유(HSR) 및 낮은 자발적 속도 섬유(LSR) 및/또는 선택된 청력 주파수 범위의 이러한 섬유 하위 유형이 포함될 수 있다.
(300)은 ANF 집단의 전체 또는 부분 집합에 대해 반응하고, 청각 자극에 대한 예측된 청각 반응을 얻기 위해 시뮬레이션될 수 있다. 이 청각 반응은 AEP, 시뮬레이션된 청각 음향 인식 및/또는 시뮬레이션된 와우, ANF 및 뇌간 처리와 같은 시뮬레이션된 청각 EEG 반응일 수 있다. 현재 또는 다른 자극에 대한 EEG 반응의 반응 크기(시뮬레이션에서)를 계산하면 다른 ANF 프로파일 또는 기타 입력 파라미터에 대응하는 다양한 청각 반응을 생성할 수 있다. 청각 반응은 예를들어 연령, 성별 등에 기초한 범주 기반 파라미터 또는 기타 파라미터를 사용하여 더 세분화될 수 있다. 계산된 청각 반응 및 대응하는 ANF 손상 프로파일은 데이터베이스에 저장되거나 데이터베이스를 통해 제공될 수 있다.
(400) 현재 청각 자극(100)에 대한 주체의 EEG 반응은 EEG 설정을 사용하여 실험적으로 측정될 수 있다. EEG 데이터의 처리는 상기 자극에 대한 주체별 EEG 반응 진폭을 계산할 수 있게 한다.
(500) 처리된 주체의 EEG 반응 데이터는 주체를 청각 프로파일에 할당하기 위해 예측 시뮬레이션 데이터(300)를 사용하여 해석될 수 있다. 할당(assigning)은 매칭 알고리즘(matching algorithm)(500)에 의해 자동으로 수행될 수 있다. 할당된 프로파일은 시뮬레이션된 EEG 반응 진폭과 기록된 EEG 반응 진폭 간의 가능한 최상의 일치를 기반으로 하는 것이 좋다. 할당된 청각 프로파일에 기초하여, 주체의 AN 섬유 및 시냅스의 무결성이 결정될 수 있다. 예를 들어, 현재 도면에서 주체는 54% HSR, 0% MSR 및 0% LSR 손상 프로파일을 특징으로 하는 ANF 프로파일이 할당된다. 최고 매칭 ANF 프로파일이 모든 ANF 범주에서 100% ANF 유형을 반환하지 않았기 때문에 이 주체는 어느 정도의 와우 시냅스 병증을 가지고 있다.
예 2: 주체의 외부 유모 세포(OHC) 손상을 측정하는 방법
상술한 예 1에 더하여, 주체의 AN 섬유 및 시냅스 무결성을 결정하기 위한 가능한 방법은 또한 상기 주체의 외부 유모 세포(OHC) 손상을 결정하도록 확장될 수 있다. 방법은 도 2를 참조하여 설명되며, 이는 개별 ANF 및 OHC 손상 프로파일을 결정하고 선택적으로 주체 데이터를 사용하여 주체-특정 청각 프로파일을 결정하기 위한 바람직한 단계의 흐름도를 제공한다.
특히, 청각 말초(auditory periphery)(200)의 생물물리학적 모델은 또한 예를들어, 시뮬레이션된 및/또는 실험적 주파수-특정 OHC 손상 프로파일(220)을 포함하도록 확장될 수 있다. OHC 손상 프로파일(220)은 주파수별 청력 손실의 실험 데이터(예를 들어, 청력도 테스트, 이음향 방출)를 기반으로 결정될 수 있다. 대안적으로, OHC 손상 프로파일(220)은 최적의 주체 매치(subject match)를 찾는 매칭 알고리즘(500)이 AN 및 OHC 프로파일 모두에 대해 동시에 최적화될 수 있도록 가변적으로 유지될 수 있다. 예를 들어, 현재 도면에서, 주체의 실험적 AEP 기록 및 여러 청각 프로파일(ANF 및 OHC 손상 포함)에 대한 시뮬레이션된 청각 반응 데이터베이스 내에서 동일한 자극에 대한 특정 시뮬레이션된 청각 반응과 가장 잘 일치함을 기반으로, 주체는 50% OHC 손상을 특징으로 하는 OHC 프로파일이 할당된다. 도면의 주체는 OHC 관련 청력 손실 정도가 있는 것으로 결정되었다.
예 3: 주체의 소리에 대한 원하는 청각 반응을 수정하는 방법
상술한 실시예에 더하여, 주체의 ANF/ANS 및/또는 OHC 손상의 무결성을 결정하기 위한 방법(들)은 본 발명의 실시예에 따라 상기 주체에 대한 소리에 대한 원하는 청각 반응을 수정하는 데 사용될 수 있다. 방법은 원하는 청각 반응을 생성하는 청각 자극을 수정하는 데 사용되는 신호 처리 알고리즘(signal-processing algorithm)(600)을 결정하기 위한 바람직한 단계의 흐름도를 나타내는 도 3을 참조하여 설명된다. 결정된 신호 처리 알고리즘은 인공 와우 또는 보청기와 같은 청각 장치를 구성하는 데 사용될 수 있다.
소리에 대한 캡처된(개인화된) 청각 반응(예를 들어, AEP, 소리 인식, 와우, ANF 및 뇌간 처리, 400과 같은 청각 EEG 반응)은 주체별 ANF 및 OHC 손상 청각 프로파일(500)을 결정하는 데 사용할 수 있다. 이 청각 프로파일은 모든 음향 자극(600)에 대한 청각 반응을 시뮬레이션하기 위해 청각 말초 모델(auditory periphery model)에 포함될 수 있다. 개별적으로 시뮬레이션된 청각 반응은 원하는 청각 반응과 비교될 수 있다(700). 원하는 반응은 실험적이거나 시뮬레이션될 수 있으며, 예를 들어 정상 청력 주체의 반응이거나 향상된 기능이 있는 반응일 수 있다. 신호 처리 알고리즘(signal-processing algorithm)(800)은 시뮬레이션된 청각 반응(600)이 원하는 청각 반응(700)과 일치하는 방식으로 소리 자극을 조정하기 위해 이후에 포함된다. 예를 들어, 이 매칭 알고리즘(matching algorithm)(800)은 결국 오디오 자극(audio stimulus)(100)을 필터링하고, 선명하게 하고, 압축하고/하거나 확장할 수 있다.
예 4: 보청기 신경망 훈련
도 5는 본 발명의 일 실시예를 도시한 것이다. 이 예에서 정상 청력 청각 말초(normal-hearing auditory periphery)를 설명할 수 있는 '레퍼런스' 신경망과 대응하는 청력 장애 신경망(hearing-impaired neural network)을 사용하여, '보청기' 신경망 모델은 청각 입력을 처리하고 청각 장애 모델의 저하된 출력을 보상하도록 훈련될 수 있다.
이 개별 '보청기' 모델은 특정 청력 장애 와우의 출력을 '레퍼런스' 정상 청력 와우의 출력과 일치(또는 부분적으로 일치)시킬 수 있는 신호를 생산한다. 이 예에서, 보청기 모델은 두 개의 다른 모델 간의 절대 또는 제곱 차이 또는 저하된 청력 능력을 나타내는 더 복잡한 메트릭과 같은 특정 메트릭을 최소화하도록 훈련된다. 개인의 청력 손실에 대한 정확한 청각 프로파일이 추정되면, 특정 청력 손상을 정확하게 보상할 수 있는 개별화된 보청기 모델을 개발할 수 있다.
다른 실시예에서, 청력 장애가 있는 신경망은 '레퍼런스' 모델로 사용될 수 있고 그 청각 입력은 대신 '청력 장애' 신경망에 의해 처리될 수 있으며, 이는 '레퍼런스' 청각 장애 모델과 일치하도록 정상 청력 모델의 출력을 '저하'하도록 훈련될 것이다. 이는, 정상 청력 청취자에게 재생될 때, 도 6에 예시된 바와 같이, 대응하는 말초와 함께 각각의 청력 장애가 있는 청취자가 경험하는 청력 저하를 에뮬레이트할 처리된 오디오 자극을 제공할 것이다.
예 5: 청각 말초 모델의 여러 스테이지에서 출력 조정
도 4는 본 발명의 실시예에 따른 청각 말초 모델의 상이한 스테이지의 출력을 추출, 근사화, 훈련 및 평가하기 위한 접근법을 도시한다. 상단 점선 상자는 중이, 와우 BM 진동, 내부 유모 세포, 청각 신경 및 와우 핵(cochlear nucleus), 아래 둔덕 처리(inferior colliculus processing)에 대한 분석적 설명을 포함하는 청각 말초 모델에 포함된 모든 요소를 보여준다. 위에서 명명된 처리 스테이지의 시뮬레이션된 출력(모든 시뮬레이션된 CF에 대해 또는 여러 CF에 대한 합계로)은 ConNear 모델의 다른 처리 스테이지를 훈련하기 위해 사용될 수 있다. 음성 코퍼스에 대한 TL 모델 BM 진동 출력이 BM 진동 ConNear 모델을 훈련하는 데 사용되는 예가 여기에 표시된다. 훈련 중에 시뮬레이션된 CoNNear 출력과 TL 모델 출력 간의 L1 손실이 ConNear 파라미터를 결정하기 위해 사용된다. 훈련 후, 결과로 나온 ConNear 모델의 성능은 훈련 중에 제시되지 않았으며 청각 신경 과학 및 청력 연구에 자주 사용되는 기본 음향 자극을 사용하여 평가된다.
예제 6: 차분 신호 생성 및 신호 처리 모델 훈련
도 7은 출력의 차이에 기초하여 차분 신호(difference signal)를 생성하기 위해 개인화된 청각 반응 모델 및 레퍼런스 청각 반응 모델의 사용을 예시한다. 청각 반응 모델은 청각 말초 또는 ASR 시스템 등의 모델이 될 수 있다. 개별화된 청각 모델(individualized auditory model)은 OAE, AEP의 실험 데이터 또는 SRT(음성 수용 역치)와 같은 심리 음향 작업(psychoacoustic task)의 성능을 포함하여 다양한 센서 및 측정된 데이터를 사용하여 개별 주체에 맞출 수 있다. NN 기반 청각 모델을 사용하여 차분 신호(difference signal)가 구별될 수 있으므로 이러한 모델을 통해 역전파(back-propagate)하는 데 사용할 수 있다.
도 8 은 개별화된 NN 기반 청각 신호 처리 모델의 훈련(training)을 위한 손실 함수(loss function)로서 전술한 차분 신호(difference signal)의 사용을 예시한다. 훈련 중에 처리 모델의 출력은 개별화된 반응 모델에 대한 입력으로 제공되고 해당 파라미터는 차분 신호를 최소화하도록 조정된다. 성공적인 훈련 후 NN 기반 청각 처리 모델을 직접 사용하여 청각 자극을 처리하고 개별화된 반응 모델 또는 사람의 청취자에게 맞는 처리된 출력을 생산할 수 있다.
예 7: 원하는 성능과 일치하도록 신호 처리 모델 훈련
도 9는 사전 훈련된 개별화된 청각 신호 처리 모델의 특정 주체에 대한 실시간 최적화를 도시한 도면이다. 이 회로도에서 처리된 자극에 대한 주체의 AEP 반응은 센서를 통해 수집되고 처리되지 않은 자극에 대한 레퍼런스 청각 모델 출력의 시뮬레이션된 AEP 반응과 비교된다. 처리 모델의 가중치는 즉석에서 조정되므로 측정된 AEP 반응이 레퍼런스 AEP 반응과 더 잘 일치하도록 최적화된다.
도 10 은 청각 반응 모델에 대한 NN 기반 ASR 모델의 사용을 예시한다. 개별화된 ASR 모델은 청력 장애가 있는 ASR 모델이거나 단순한 ASR 백엔드와 청력 장애가 있는 프론트엔드의 조합일 수 있다. 예측된 출력의 차이, 두 모델이 예측한 정답 비율의 차이를 계산하고, 이 차이는 개별화된 청각 신호 처리 NN 모델을 학습하기 위해 사용된다. 성공적으로 훈련된 처리 모델은 개별화된 ASR 모델의 예측 성능이 레퍼런스 모델의 성능에 도달할 수 있는 방식으로 청각 자극을 처리한다. 개별화된 ASR 시스템이 시뮬레이트된 청각 말초를 사용하여 청취자의 성능을 정확하게 예측할 수 있다면, 동일한 작업에서 청취자의 성능이 유사한 개선으로 이어질 것이다.
마찬가지로, 정상 청력 ASR을 개별화 모델로 사용되고 기능이 강화된 ASR을 레퍼런스 모델(예를 들어, 낮은 SNR에서 문장을 올바르게 인식할 수 있는 모델)로 사용되면, 그런 다음 처리 모델은 자극을 처리하도록 훈련되어 ASR 시스템에 대한 성능 향상/증가를 달성할 수 있다.
예 8: 선호하는 신경망 기반 모델의 예시적인 구현
도 11을 참조하여, 선호하는 신경망 기반 모델의 구현이 논의된다. 이 모델은 여기에서 ConNear 모델이라고 한다.
ConNear 모델에는 자동 인코더 CNN 아키텍처가 있으며 여러 CNN 레이어와 치수 변경을 사용하여 20kHz 샘플링된 음향 파형([Pa])을 NCF 와우 BM 변위 파형([μm])으로 변환한다. 처음 4개의 레이어는 인코더 레이어이며 모든 CNN 레이어 이후에 시간 차원을 절반으로 줄이기 위해 스트라이드 컨볼루션(strided convolution)을 사용한다. 다음 4개는 압축된 표현을 디콘볼루션 연산을 사용하여 L x NCF 출력에 매핑하는 디코더 레이어이다. L은 오디오 입력의 초기 크기와 NCF에서 0.1에서 12kHz 사이의 중심 주파수(CF)를 갖는 201개의 인공 와우 필터에 대응한다. 채택된 CF는 와우의 Greenwood 장소-주파수 맵에 따라 간격을 두고 있으며 인간 청력의 가장 민감한 주파수 범위에 걸쳐 있다. 이 정보는 음성 인식에 필수적이기 때문에 아키텍처 전반에 걸쳐 입력의 시간적 정렬(또는 위상)을 유지하는 것이 중요한다.
이를 위해 U자형 스킵 연결(skip connection)이 사용되었다. 스킵 연결(skip connection)은 이전에 이미지에서 이미지로의 번역 및 음성 향상 응용 프로그램에서 채택되었고; 인코더에서 디코더 레이어로 시간적 정보(temporal information)를 직접 전달한다(도 11a, 점선 화살표). 위상 정보(phase information)를 보존하는 것 외에도, 스킵 연결은 여러 CNN 레이어의 비선형성을 결합하여 인간 달팽이관(와우) 처리(human cochlear processing)의 수준 종속 속성(level-dependent properties)을 시뮬레이트 하기 위해 가장 잘 결합하는 방법을 학습하는 모델의 능력을 향상시킬 수 있다.
모든 CNN 레이어는 일련의 필터뱅크와 비선형 연산으로 구성되고 CNN 필터 가중치는 NCF 와우 채널에서 TL 시뮬레이션된 BM 변위를 사용하여 훈련되었다. 훈련이 70dB SPL로 제시되는 음성 코퍼스를 사용하여 수행되는 동안, 모델 평가는 훈련 동안 보이지 않는 기본 음향 자극(예를 들어, 클릭, 순음)을 사용하여 주요 와우의 기계적 특성을 재현하는 능력을 기반으로 했다(도 11c).
훈련 및 평가 중에, 오디오 입력은 2048개 샘플 창(100ms)으로 분할된 후 대응하는 BM 변위가 시간이 지남에 따라 시뮬레이션 및 연결되었다. ConNear는 각 입력을 독립적으로 처리하고 각 시뮬레이션이 시작될 때 적응 속성을 재설정하기 때문에 이 연결 절차는 창 경계 근처에서 불연속성을 초래할 수 있다. 이 문제를 해결하기 위해, 컨텍스트로 사용 가능한 이전 및 다음(256) 입력 샘플이 있는 아키텍처도 평가했다(도 11b). 컨텍스트가 없는 아키텍처(도 11a)와 달리, 시뮬레이션된 컨텍스트를 제거하고 최종 L-크기 BM 변위 파형을 생성하기 위해 최종 크로핑 레이어(final cropping layer)가 추가되었다.
마지막으로, 고정된 지속 시간의 오디오 입력을 사용하여 ConNear를 훈련하는 것은 컨볼루션 아키텍처 덕분에 훈련 후 다른 지속 시간의 입력을 처리하는 것을 방해하지 않는다. 이러한 유연성은 고정 기간의 입력에서만 작동할 수 있는 행렬 곱셈 기반 신경망 아키텍처에 비해 분명한 이점이다.
예 9: 정상 및 병리학 모델에 대한 바람직한 신경망 기반 신경망 모델의 훈련
도 12를 참조하면, 심층 신경망(DNN) 모델이 2개의 IHC-ANF 모델, 즉 정상 및 병리학적 모델의 출력 간의 차이를 최소화하도록 훈련된 예가 논의된다. 각 모델은 ConNearIHC 및 ConNearANfH 모듈로 구성되었으며, 4kHz에서 정상 청력 인간 IHC 및 와우 시냅스 병증으로 인해 20% 섬유 구심성 결핍이 있는 병리학적 IHC의 신경 분포(innervation)를 시뮬레이션하기 위해, 각 모델의 발화 속도에 각각 10 및 8을 곱했다.
DNN 모델은 병리학 모델의 출력을 정상 청력 모델 출력으로 복원하도록 자극을 수정하기 위해 이 두 ConNear 모델의 반응을 기반으로 훈련되었다. 도 12(a)는 IHC 입력의 진폭 범위로 정규화되고 다른 레벨과 변조 깊이를 갖는 4kHz 톤의 작은 입력 데이터 세트를 사용하여 훈련이 수행되었고, DNN 모델은 출력의 시간과 주파수 표현 사이의 L1 손실을 최소화하도록 훈련되었음을 보여준다.
훈련 후, DNN 모델은 8-섬유 모델에 처리된 입력을 제공하여 가능한 한 정상 청력 발화 속도(normal-hearing firing rate)와 일치하는 출력을 생성한다. 변조된 톤 자극에 대한 결과는 도 12(b)에 나타나 있으며, 여기서 8-섬유 모델 반응의 진폭은 정상 청력 IHC-ANF의 진폭으로 복원된다. 이 예는 CNN 모델의 역전파 기능을 보여주며, 그 적용 범위는 청력 장애가 있는 와우의 음성 처리 복원에 적합한 신호 처리 전략을 유도하기 위해 음성 코퍼스와 같은 더 복잡한 데이터세트로 확장될 수 있다

Claims (15)

  1. 청각 자극을 처리된 청각 출력으로 변환하는 인공 신경망 기반 방법에 있어서,
    상기 방법은:
    a. 적어도 주체의 청각 신경 섬유(ANF) 및/또는 시냅스(ANS)의 무결성에 기초하고 바람직하게는 또한 상기 주체의 내부 유모 세포(IHC) 손상 및/또는 외부 유모 세포(OHC) 손상의 무결성에 기초하는 신경망 기반의 개인화된 청각 반응 모델을 생성하는 단계 - 상기 개인화된 청각 반응 모델은 상기 청각 자극에 대한 청각 프로파일과 함께 상기 주체의 예상 청각 반응을 나타냄 -;
    b. 청각 반응 차이를 결정하기 위해 상기 개인화된 청각 반응 모델의 출력과 신경망 기반 원하는 청각 반응 모델의 출력을 비교하는 단계 - 상기 신경망 기반 모델은 상기 청각 반응 차이를 미분가능하게 하는 비선형 연산으로 구성됨 -;
    c. 주체의 신경망 기반 개별화된 청각 신호 처리 모델을 개발하기 위해 결정된 미분가능 청각 반응 차이를 사용하는 단계 - 상기 개별화된 청각 신호 처리 모델은 상기 결정된 청각 반응 차이를 최소화하도록 구성됨 -; 및,
    d. 상기 개인화된 청각 반응 모델 또는 상기 주체에게 입력으로 제공될 때 상기 원하는 청각 반응과 일치하는 처리된 청각 출력을 생산하기 위해 상기 개별화된 신경망 기반 청각 신호 처리 모델을 상기 청각 자극에 적용하는 단계를 포함하는
    방법.
  2. 제1항에 있어서,
    단계 a의 상기 개인화된 청각 반응 모델은 주체 특정 청각 프로파일을 유도하고 포함하여 결정되고; 바람직하게는 상기 주체 특정 청각 프로파일이 주체 특정 청각 손상 프로파일이고; 바람직하게는 상기 주체의 청각 신경 섬유(ANF) 및/또는 시냅스(ANS), 내부 유모 세포(IHC) 및 외부 유모 세포(OHC) 손상의 무결성을 기반으로 하는
    방법.
  3. 제1항 내지 제2항 중 어느 한 항에 있어서,
    상기 원하는 청각 반응은 정상 청력 주체로부터의 반응 또는 향상된 기능을 갖는 반응인
    방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 원하는 청각 반응 모델 및 상기 개인화된 청각 반응 모델은 청각 말초의 상이한 스테이지의 모델을 포함하는
    방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    정상 청력 청각 말초를 설명하는 레퍼런스 신경망이 상기 원하는 청각 반응 모델로 사용되고; 대응하는 청각 장애 신경망이 상기 개인화된 청각 반응 모델로 사용되고; 및 상기 개별화된 청각 신호 처리 모델은, 청력 장애 모델 또는 상기 주체의 입력에 연결될 때, 상기 청력 장애 모델의 저하된 출력을 보상하고 청각 입력을 처리하도록 훈련된 신호 처리 신경망 모델인
    방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    정상 청력 청취자의 증강된 청력 인식 및/또는 능력을 시뮬레이트하는 레퍼런스 신경망이 상기 원하는 청각 반응 모델로 사용되고; 대응하는 정상 청력 또는 청력 장애 신경망이 상기 개인화된 청각 반응 모델로 사용되고; 및 상기 개별화된 청각 신호 처리 모델은 상기 청각 입력을 처리하고 증강된 청각 반응을 제공하도록 훈련된 신호 처리 신경망 모델인
    방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 개별화된 청각 신호 처리 모델은 몇몇 또는 모든 토노토픽 주파수에서 2개의 청각 반응 모델 간의 절대 또는 제곱 차이와 같은 특정 청각 반응 차이 메트릭을 최소화하도록 훈련되는
    방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 처리된 청각 출력은 청력 장애를 보상하거나 증강된 청력을 생성하도록 고안된 수정된 청각 자극에서 선택되는
    방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 처리된 청각 출력은 청각 경로를 따라 특정 처리 스테이지에 대응하는 수정된 청각 반응 - 예를 들어 인공 와우 또는 심부 뇌 임플란트와 같은 청각 보철물을 자극하는 데 사용할 수 있음 - 으로부터 선택되는
    방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서,
    정상 청력 및 청력 장애 말초의 청각 신경 출력의 차이가 최소화되고; 또는 시간 또는 주파수 영역에서 표현되는 시뮬레이션된 청각 뇌간 및/또는 피질 반응 간의 차이가 최소화되는
    방법.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서,
    다른 작업에서 청취자의 수행을 시뮬레이트하는 작업 최적화된 음성 '백엔드'는 '프론트 엔드'라고도 하는 청각 반응 모델의 출력에 연결되고; 및 상기 백엔드의 출력은 상기 청각 반응 차이를 결정하고 최소화하는 데 사용되는
    방법.
  12. 청각 장치를 구성하기 위한 제1항 내지 제11항 중 어느 한 항에 있어서,
    상기 청각 장치는 인공 와우 또는 착용형 보청기인 방법.
  13. 보청기 적용에서 제1항 내지 제12항 중 어느 한 항에 따른 방법의 용도.
  14. 청각 장치, 바람직하게는 인공 와우 또는 착용형 보청기에 있어서,
    상기 청각 장치는:
    - 환경으로부터 입력된 음파를 픽업하고 입력된 음파를 청각 자극으로 변환하도록 구성된 입력 장치;
    - 처리된 청각 출력을 생산하기 위해 제1항 내지 제12항 중 어느 한 항에 따른 방법을 수행하도록 구성된 처리 유닛; 및,
    - 상기 처리 유닛으로부터 처리된 청각 출력을 생산하도록 구성된 출력 장치를 포함하는
    장치.
  15. 컴퓨터 프로그램, 또는 컴퓨터의 내부 메모리에 직접 로드할 수 있는 컴퓨터 프로그램 제품, 또는 컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램 제품, 또는 제1항 내지 제12항 중 어느 한 항에 따른 방법을 수행하도록 구성된 그러한 컴퓨터 프로그램 또는 컴퓨터 프로그램 제품의 조합.
KR1020227037196A 2020-04-01 2021-04-01 신경망 기반 오디오 신호 처리를 개별화하기 위한 폐쇄 루프 방법 KR20220163982A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20167538 2020-04-01
EP20167538.6 2020-04-01
PCT/EP2021/058655 WO2021198438A1 (en) 2020-04-01 2021-04-01 A closed-loop method to individualize neural-network-based audio signal processing

Publications (1)

Publication Number Publication Date
KR20220163982A true KR20220163982A (ko) 2022-12-12

Family

ID=70154286

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227037196A KR20220163982A (ko) 2020-04-01 2021-04-01 신경망 기반 오디오 신호 처리를 개별화하기 위한 폐쇄 루프 방법

Country Status (6)

Country Link
US (1) US20230156413A1 (ko)
EP (1) EP4128224A1 (ko)
KR (1) KR20220163982A (ko)
CN (1) CN115362689A (ko)
AU (1) AU2021250635A1 (ko)
WO (1) WO2021198438A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024095098A1 (en) * 2022-11-01 2024-05-10 Cochlear Limited Systems and methods for indicating neural responses

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4953112A (en) * 1988-05-10 1990-08-28 Minnesota Mining And Manufacturing Company Method and apparatus for determining acoustic parameters of an auditory prosthesis using software model
CA2452945C (en) * 2003-09-23 2016-05-10 Mcmaster University Binaural adaptive hearing system
EP2406787B1 (en) * 2009-03-11 2014-05-14 Google, Inc. Audio classification for information retrieval using sparse features
US9401153B2 (en) * 2012-10-15 2016-07-26 Digimarc Corporation Multi-mode audio recognition and auxiliary data encoding and decoding
CN107864440B (zh) * 2016-07-08 2022-02-08 奥迪康有限公司 包括eeg记录和分析系统的助听系统
US10812915B2 (en) * 2017-10-27 2020-10-20 Starkey Laboratories, Inc. Electronic device using a compound metric for sound enhancement
CN117275568A (zh) * 2023-09-15 2023-12-22 南方医科大学 一种初级听皮层神经元细胞发放率曲线仿真方法和装置

Also Published As

Publication number Publication date
EP4128224A1 (en) 2023-02-08
WO2021198438A1 (en) 2021-10-07
US20230156413A1 (en) 2023-05-18
CN115362689A (zh) 2022-11-18
AU2021250635A1 (en) 2022-09-22

Similar Documents

Publication Publication Date Title
JP4767316B2 (ja) 音声信号を分析する装置、方法、およびコンピュータ・プログラム
US11253193B2 (en) Utilization of vocal acoustic biomarkers for assistive listening device utilization
US20210030371A1 (en) Speech production and the management/prediction of hearing loss
Rønne et al. Modeling auditory evoked brainstem responses to transient stimuli
US11800301B2 (en) Neural network model for cochlear mechanics and processing
Smalt et al. Modeling the time-varying and level-dependent effects of the medial olivocochlear reflex in auditory nerve responses
Yasin et al. Optimizing speech recognition using a computational model of human hearing: effect of noise type and efferent time constants
Kates et al. An overview of the HASPI and HASQI metrics for predicting speech intelligibility and speech quality for normal hearing, hearing loss, and hearing aids
Van Canneyt et al. Enhanced neural tracking of the fundamental frequency of the voice
US20230156413A1 (en) Closed-loop method to individualize neural-network-based audio signal processing
JP2020014839A (ja) 発話信号を使っての幼児のための補聴器の有効確認のためのシステムおよび方法
Farhadi et al. Subcortical auditory model including efferent dynamic gain control with inputs from cochlear nucleus and inferior colliculus
Heinz Computational modeling of sensorineural hearing loss
Gómez et al. A Neuromotor to acoustical jaw-tongue projection model with application in Parkinson’s disease hypokinetic dysarthria
Perry Speech-in-noise performance in hearing-impaired listeners assessed using evoked responses and enhanced using tactile stimulation
Gallardo A Framework for the Development and Validation of Phenomenologically Derived Cochlear Implant Stimulation Strategies
Ibrahim The role of temporal fine structure cues in speech perception
Kou et al. Personalized prediction of speech intelligibility for hearing-impaired listeners using a physiological model of the human ear
El Boghdady et al. Multichannel EEG Analysis of Sound Coding Strategies for Cochlear Implants
Farhadi Modeling the Medial Olivocochlear Efferent in the Descending Auditory Pathway With a Dynamic Gain Control Feedback System
Liu Methods of Optimizing Speech Enhancement for Hearing Applications
Van Canneyt et al. From Modulated Noise to Natural Speech: the Effect of Stimulus Parameters on the Frequency Following Response
Islam An application of an auditory periphery model in speaker identification
Lamminsalo Noise detection thresholds after exposure to pulse-train sounds
Moshgelani Development and Assessment of Signal Processing Algorithms for Assistive Hearing Devices