KR20190027820A

KR20190027820A - 청력 테스트 및 오디오 신호들의 수정

Info

Publication number: KR20190027820A
Application number: KR1020197001121A
Authority: KR
Inventors: 매튜 터너; 브라이언 무어; 마이클 스톤
Original assignee: 고스호크 통신 리미티드
Priority date: 2016-07-07
Filing date: 2017-07-07
Publication date: 2019-03-15
Also published as: CN109640790A; JP2019530546A; WO2018007631A1; GB2554634A; AU2017294105A1; EP3481278A1; JP6849797B2; GB201611804D0; GB2554634B; US20190231233A1; AU2017294105B2; CA3029164A1

Abstract

통신 네트워크 내의 네트워크 엔티티와 사용자의 사용자 디바이스 사이에 확립된 통신 링크를 통해 사용자에 대한 청취 테스트를 수행하는 단계; 상기 청력 테스트는 상기 통신 링크를 통해 복수의 테스트 주파수들에서 오디오 디바이스에 오디오 자극을 제공하는 단계 및 상기 사용자 디바이스로부터 수신된 오디오 자극들에 대한 응답을 모니터링하는 단계를 포함 함 -; 상기 청력 테스트의 결과에 기초하여 청력 프로파일을 생성하는 단계; 및 상기 청력 프로파일 및 상기 사용자와 관련된 정보를 네트워크 엔티티의 메모리에 저장하여, 상기 청력 프로파일이 상기 사용자 디바이스로의 오디오 신호들의 수정에 이용 가능하게 하는 단계를 포함하는 방법.

Description

청력 테스트 및 오디오 신호들의 수정

본 개시는 청력 테스트에 관한 발명이다. 또한, 본 개시는 청력 테스트의 결과를 사용하여 예를 들어 음성 및 음악과 같은 오디오 신호들을 수정하는 것에 관한 발명이다. 특히, 본 발명은 이동 전화 네트워크와 같은 통신 네트워크를 통해, 다뤄볼만한 청각 손실 또는 필요성을 가진 사람들을 위한 오디오 신호의 향상에 특히 적합하지만, 이에 국한되지는 않는다.

이동 전화 또는 유선 전화와 같은 이동형 디바이스 또는 고정형 디바이스를 통한 향상된 오디오를 위한 현재의 솔루션은 소프트웨어 어플리케이션들을 제공하며, 이러한 소프트웨어 어플리케이션들은 전형적인 사용자 디바이스에 로딩되거나 구현되어, 이동 단말기 또는 고정 단말기 상에 보청기를 시뮬레이션하는바 예를 들어, 경미하거나 중증의 청력 손실을 갖는 사람들을 위해 보청기를 에뮬레이트하도록 사용자 디바이스에서 로컬 프로세싱을 이용하는 디지털 기술을 활용하지만, 의사의 치료 또는 의학적 솔루션을 필요로 하는 매우 중증의 또는 심각한 청력 손실의 경우에는 그러하지 아니하다. 다른 솔루션은 경증 또는 중증의 난청 환자를 위해 보청기 또는 임플란트를 대체하거나 또는 함께 작동시키는 방식으로 모바일 디바이스에 애드-온되는 복잡한 디바이스 액세서리를 제공한다.

이러한 솔루션은 사용자 디바이스 및/또는 추가 하드웨어 또는 펌웨어에서의 프로세싱 능력을 필요로 한다.

따라서, 중앙 시스템에 의해서 예를 들어 네트워크 레벨에서 수행되는 오디오 향상의 편리함을 제공할 필요가 존재하는바, 이러한 오디오 향상은 사용자 디바이스에 투명하며 따라서 임의의 사용자 디바이스(아마도 모바일 디바이스, 고정형 디바이스 또는 독립형 스피커 혹은 다른 통신 수단들) 상에 구현 혹은 제공될 수 있으며, 더 많은 프로세싱 파워와 로컬 리소스들을 갖는 고급형(higher end) 디바이스들 만으로 제한되지 않는다. 또한, 디바이스 액세서리들에 대한 필요성을 없앰으로써 더 많은 사용자들을 위한 오디오 향상 이용가능성이 증가될 수 있는바, 하드웨어 또는 펌웨어 요구 사항이 감소되고, 구현 비용 및 에너지 사용량이 낮아질 수 있으므로, 보다 넓은 범위의 사용자들에게 오디오 향상이 이용될 수 있다.

일 양태에 따르면, 방법이 제공되는바, 상기 방법은 통신 네트워크 내의 네트워크 엔티티와 사용자의 사용자 디바이스 사이에서 확립된 통신 링크를 통해 상기 사용자에 대한 청력 테스트를 수행하는 단계, 상기 청력 테스트는 상기 통신 링크를 통해 복수의 테스트 주파수들에서 상기 사용자 디바이스에 오디오 자극을 제공하는 단계 및 상기 사용자 디바이스로부터 수신된 오디오 자극들에 대한 응답을 모니터링하는 단계를 포함하고; 상기 청력 테스트의 결과에 기초하여 청력 프로파일을 생성하는 단계; 및 상기 청력 프로파일이 상기 사용자 디바이스로의 오디오 신호들을 수정하는데 이용가능하도록 상기 청력 프로파일 및 상기 사용자와 관련된 정보를 네트워크 엔티티의 메모리에 저장하는 단계를 포함한다.

사용자와 관련된 정보는 사용자의 식별자 및/또는 사용자 디바이스의 식별자를 포함할 수 있다.

일부 실시예에 따르면, 청력 프로파일이 저장되는 네트워크 엔티티는 사용자 디바이스와의 통신 링크를 갖는 동일한 네트워크 엔티티이다.

일부 실시예에 따르면, 청력 프로파일이 저장된 네트워크 엔티티는 제 2 네트워크 엔티티를 포함하고, 사용자 디바이스와의 통신 링크를 갖는 네트워크 엔티티는 제 1 네트워크 엔티티를 포함하고, 상기 제 1 및 제 2 네트워크 엔티티는 서로 통신한다.

일부 실시예에 따르면, 식별자는 고유한 식별자를 포함한다.

일부 실시예에 따르면, 식별자는 MSISDN을 포함한다.

오디오 자극은 백색 잡음을 포함할 수 있으며, 백색 잡음은 하나 이상의 인간 음성들에 기초한다.

오디오 자극은 1/3 옥타브 폭의 잡음 대역을 포함할 수 있다.

복수의 테스트 주파수에서 사용자에게 오디오 자극을 제공하는 단계는 500Hz; 1000Hz; 2000Hz; 3000Hz; 6000Hz 중 2 이상에서 오디오 자극을 제공하는 단계를 포함할 수 있다.

일부 실시예에 따르면, 복수의 테스트 주파수는 계단식(step-wise fashion)으로 사용자에게 제공된다.

일부 실시예에 따르면, 상기 방법은 오디오 자극을 재생하기 전에 사용자 디바이스와의 통신 링크를 갖는 네트워크 디바이스와 상기 사용자 디바이스 사이에서 클럭들을 동기화시키는 단계를 포함한다.

본 방법은 사용자의 청력 손실에 대한 표시를 획득하는 단계 및 청력 손실에 대한 표시를 사용하여 청력 테스트의 초기 볼륨을 결정하는 단계를 포함할 수 있다.

본 방법은 응답들을 모니터링하는 것에 응답하여 각 테스트 주파수에서 오디오 자극의 볼륨을 조절하는 단계를 포함할 수 있다.

사용자로부터의 긍정적인 응답에 대응하여, 상기 방법은 오디오 자극의 볼륨을 감소시키는 단계를 포함할 수 있다.

일부 실시예에 따르면, 볼륨을 감소시키는 것은 5dB 단계로 볼륨을 감소시키는 것을 포함한다.

사용자로부터의 널(null) 응답에 응답하여, 상기 방법은 오디오 자극의 볼륨을 증가시키는 단계를 포함할 수 있다.

일부 실시예에 따르면, 볼륨을 증가시키는 것은 10dB 단계로 볼륨을 증가시키는 것을 포함한다.

각 오디오 자극의 지속 시간은 대략 1000ms 또는 1000ms일 수 있다.

각각의 오디오 자극은 배경 잡음 레벨과 60dB(또는 대략 60dB) 사이에서 볼륨을 증가/감소시키는 하나 이상의 램프들을 포함할 수 있다.

본 방법은 청력 테스트의 결과를 사용자 및/또는 운영자에게 시각적으로 디스플레이하는 단계를 포함할 수 있다.

본 방법은 사용자의 저장된 청력 프로파일을 이용하여 실시간으로 사용자로의 오디오 신호를 수정하는 단계를 포함할 수 있으며, 상기 오디오 신호를 수정하는 것은 수정된 오디오 신호가 네트워크 요소로부터 사용자 디바이스로 전달되도록 네트워크 엔티티에서 수행된다.

오디오 신호들을 수정하는 것은, 오디오 신호를 필터링하는 것, 오디오 신호의 진폭을 조정하는 것; 오디오 신호의 주파수를 조정하는 것; 오디오 신호의 피치 및/또는 톤을 조정하는 것 중 하나 이상을 포함한다.

일부 실시예에 따르면, 오디오 신호 수정은 네트워크 인터페이스를 포함하는 사운드 프로세싱 엔진에 의해 실행된다.

오디오 신호를 수정하는 것은 사용자와 제 2 사용자 간의 호출에서 상기 제 2 사용자의 음성 신호를 수정하는 것을 포함할 수 있다.

본 방법은 오디오 신호 수정을 제공하는 세팅들을 선택적으로 활성화 또는 비활성화시키는 것을 포함할 수 있다.

본 방법은 사용자 디바이스의 하나 이상의 마이크로폰들을 사용하여 주위 잡음을 측정하는 단계, 사용자 디바이스와의 통신 링크를 갖는 네트워크 엔티티에서 사용자 디바이스로부터 주위 잡음 정보를 수신하는 단계, 및 사용자로의 오디오 신호를 변경하는데 사용하기 위한 청력 프로파일을 저장하는 네트워크 엔티티에 상기 수신된 주변 잡음 정보를 저장하는 단계를 포함할 수 있다.

본 방법은 오디오 신호를 사용자 디바이스에 전달하기 위한 채널 삽입 이득을 결정하는 단계를 포함할 수 있다.

일부 실시예에 따르면, 결정된 채널 삽입 이득은 사용자-특정이다.

일부 실시예에 따르면, 채널 삽입 이득을 결정하는 단계는 상기 이득을 동적으로 변동시키는 단계를 포함한다.

본 방법은 오디오 신호를 다수의 채널들로 분할하는 단계를 포함할 수 있다.

일부 실시예에 따르면, 다수의 채널들은 3개 또는 4개의 채널을 포함한다.

본 방법은 각 채널에 대한 전력 레벨을 결정하는 단계를 포함할 수 있다.

일부 실시예에 따르면, 채널 삽입 이득을 결정하는 단계는 사용자 파라미터를 사용하는 것을 포함한다.

일부 실시예에 따르면, 사용자 파라미터들은 사용자 청력 임계값의 초기 인지된 추정치; 초기 사용자 볼륨 선호도; 오디오그램 또는 사용자 청력 손실 및 이러한 청력 임계값을 생성하는데 이용되는 디바이스의 결합된 입력 파라미터들에 기초하는 사용자의 결합된 디지털 청력 임계값 정보; 사용자의 나이; 사용자의 보청기 정보; 사용자의 성별 중 하나 이상을 포함한다.

채널 삽입 이득은 사용자에 대해 오디오 신호를 동적으로 압축하기 전에 적용될 수 있다.

일부 실시예에 따르면, 동적 압축은 각 채널에 대한 어택 레벨 및 릴리스 레벨을 결정하는 것을 포함한다.

일부 실시예에 따르면, 어택 레벨은 이득 신호가 최종값에 대하여 안정화되는 시간을 포함하고, 릴리스 레벨은 이득 신호가 최종값에 대하여 안정화되는 시간을 포함한다.

일부 실시예에 따르면, 동적 압축을 위한 압축기에 35 dB 변화가 적용되는 경우, 어택 레벨은 이득 신호가 최종값의 3dB 내에서 안정화되는 시간을 포함하고, 릴리스 레벨은 이득 신호가 최종값의 4dB 내에서 안정화되는 시간을 포함한다.

일부 실시예에 따르면, 상기 방법은 오디오 신호 프레임을 사용자에게 전송하기 전에 오디오 신호 프레임을 프로세싱하는 단계를 포함하고, 상기 오디오 신호 프레임의 프로세싱은 유한 임펄스 응답 필터를 상기 오디오 신호 프레임에 적용하는 것을 포함한다.

일부 실시예는 전술한 방법 특징들 중 임의의 방법을 수행하도록 구성된 서버를 포함할 수 있다.

다른 양태에 따르면, 방법이 제공되는바, 상기 방법은 사용자에 대한 청력 프로파일을 제공하기 위해 통신 네트워크 내의 네트워크 엔티티와 사용자 디바이스 사이에서 확립된 통신 링크를 통해 사용자에 대한 청력 테스트에 참가하는 단계, 상기 청력 테스트는 상기 통신 링크를 통해 복수의 테스트 주파수들에서 오디오 자극을 상기 사용자 디바이스에서 수신하는 단계 및 상기 오디오 자극에 대한 하나 이상의 응답들을 상기 네트워크 엔티티에 제공하는 단계를 포함하며; 그리고 상기 청력 프로파일에 따라 수정된 오디오 신호를 상기 사용자 디바이스에서 후속적으로 수신하는 단계를 포함한다.

일부 실시예는 이 방법을 수행하도록 구성된 사용자 디바이스를 포함할 수 있다.

일부 양상에 따르면, 디스플레이 및 다수의 마이크로폰을 포함하는 사용자 디바이스가 제공된다. 일부 실시예에 따르면, 복수의 마이크로폰은 지향성으로 포커싱된다.

일부 실시예에 따르면, 마이크로폰은 사용자 디바이스의 운영 시스템과 통신하도록 구성된다.

일부 실시예에 따르면, 마이크로폰은 주변 잡음을 검출하도록 구성된다.

일부 실시예에 따르면, 사용자 디바이스는 주변 잡음의 정보를 네트워크 엔티티에 제공하도록 구성된다.

일부 실시예에 따르면, 사용자 디바이스는 코팅 또는 층을 포함한다.

일부 실시예에 따르면, 코팅 또는 층은 안테나 및/또는 유도 루프 및/또는 텔레 코일로서 동작하도록 구성된다.

일부 실시예에 따르면, 코팅 또는 층은 배터리 및/또는 프로세서 및/또는 메모리를 포함한다.

일부 실시예에 따르면, 코팅 또는 층은 태깅 및/또는 사물 인터넷 능력을 포함한다.

일부 실시예에 따르면, 코팅 또는 층은 사용자 디바이스에 부착 및 탈착 가능한 케이싱 형태이다.

일부 실시예에 따르면, 사용자 디바이스는 본 명세서에 설명된 방법과 관련하여 사용될 수 있다.

다른 양태에 따르면, 제 1 사용자에 대한 오디오 신호를 실시간으로 향상시키는 방법이 제공된다. 이것은 과도한 지연 없이 실시간 향상을 제공할 수 있다. 따라서, 네트워크 상에서 제 1 사용자에 대한 오디오 신호를 실시간으로 향상시키는 방법이 제공되는데, 이 방법은 제 1 사용자의 청력을 고유한 청력 프로파일로 특징화하는 단계를 포함하며, 상기 프로파일은 미리 결정된 파라미터들을 포함하고, 상기 파라미터들은 미리 결정된 입력 주파수들에서 제 1 사용자의 청각 능력들로부터 도출되며 그리고 청력 프로파일의 미리 결정된 파라미터들을 이용하여 제 1 사용자에 대한 오디오 신호를 실시간으로 향상시키는 단계를 포함한다.

선택적으로, 오디오 신호를 향상시키는 것은 발신 오디오 신호를 필터링하는 것 및/또는 제 1 사용자의 청력 프로파일의 미리 결정된 파라미터들에 따라 진폭 및/또는 주파수를 조정하는 것을 포함한다.

선택적으로, 상기 방법은 제 2 사용자의 음성을 고유한 음성 프로파일로 특징화하는 단계를 포함하고, 상기 프로파일은 미리 결정된 파라미터를 포함하고, 상기 파라미터들은 제 2 사용자의 음성 피치 및/또는 톤으로부터 유도되고 그리고 상기 음성 프로파일의 미리 결정된 파라미터를 사용하여 제 1 사용자에 대한 오디오 신호를 실시간으로 향상시키는 단계를 더 포함한다.

선택적으로, 오디오 신호를 향상시키는 단계는 제 2 사용자의 음성 프로파일에 따라 제 2 사용자의 음성의 피치 및/또는 톤을 제 1 사용자의 청력 프로파일에 의해 정의된 요건들 쪽으로 쉬프트시키는 단계를 포함한다.

선택적으로, 상기 방법은 네트워크의 주변 잡음을 주변 잡음 프로파일로 특징화하는 단계를 포함하며, 상기 프로파일은 미리 결정된 주변 잡음 파라미터들을 포함하고 그리고 미리 결정된 주변 잡음 파라미터들을 이용하여 제 1 사용자에 대한 오디오 신호를 실시간으로 향상시키는 단계를 포함한다.

선택적으로, 상기 미리 결정된 주변 잡음 파라미터들은 신호대 잡음비, 에코, 디바이스 트랜스듀서 효과 또는 데이터 패킷 손실 중 적어도 하나를 포함한다.

선택적으로, 오디오 신호 향상은 네트워크 독립 인터페이스를 포함하는 사운드 프로세싱 엔진에 의해 실행된다.

선택적으로, 상기 네트워크 독립 인터페이스는 파라미터 데이터베이스와의 제 1 인터페이스 및 실시간으로 오디오 신호를 인터셉트하고 향상하기 위한 오디오 신호 데이터 패킷 인터페이스와의 제 2 인터페이스를 포함한다.

선택적으로, 제 2 인터페이스는 RTP 인터페이스를 포함한다.

선택적으로, 사운드 프로세싱 엔진은 서버 상에 상주하고 향상된 오디오 신호는 선행-향상되어 제 1 사용자의 디바이스로 전달된다.

선택적으로, 사운드 프로세싱 엔진은 제 1 사용자의 디바이스 상에 상주하며, 사운드 프로세싱 엔진이 미리 결정된 파라미터들을 수신한 후에 제 1 사용자에게 향상된 오디오 신호가 제공된다.

선택적으로, 상기 오디오 신호는 IP 네트워크 상의 오디오 데이터 패킷들로 운반되고, 상기 오디오 데이터 패킷들은 미디어 게이트웨이를 통해 SIP를 통해 상기 사운드 프로세싱 엔진으로 라우팅된다.

선택적으로, 청력 프로파일 파라미터는 하나 이상의 인간 음성들에 기초한 백색 잡음으로 미리 결정된 주파수들에서 사용자의 청력을 테스트함으로써 도출된다.

선택적으로, 각 사용자는 고유 ID 참조로 식별된다.

선택적으로, 오디오 신호의 향상은 실시간으로 활성화 및 비활성화될 수 있다.

선택적으로, 청력 프로파일의 파라미터들은 사용자 디바이스와 서버 클록들을 동기화한 이후에 각각 결정된다.

선택적으로, 청력 프로파일의 파라미터들은 사용자의 연령, 사용자의 성별, 또는 마지막 청력 프로파일 파라미터가 도출된 이후의 시간 중 적어도 하나에 기초하여 변경된다.

선택적으로, 음성 프로파일은 MSISDN과 같은 사용자 고유 식별 참조와 연관되며, 따라서 사용자가 알려진 MSISDN을 사용하는 경우 음성 프로파일에서 사용자 음성의 재-특성화가 필요하지 않게된다.

다른 양태에 따르면, 상기 방법을 수행하도록 구성된 프로세서를 포함하는 사용자 디바이스가 제공된다.

다른 양태에 따르면, 상기 방법(들)을 수행하도록 구성된 서버가 제공된다.

다른 양태에 따르면, 프로그램이 컴퓨터 디바이스 상에서 실행될 때, 상기 방법 양태들 중 임의의 단계를 수행하기 위한 소프트웨어 코드 부분을 포함하는 컴퓨터 디바이스용 컴퓨터 프로그램 제품이 제공된다. 컴퓨터 디바이스는 서버, 컴퓨터, 사용자 디바이스, 이동 전화, 스마트 폰 또는 임의의 다른 적절한 디바이스 일 수 있다.

다른 양상에 따르면, 실행될 때 프로세서로 하여금 이전의 방법들 중 임의의 것을 수행하게 하는 명령들을 포함하는 컴퓨터 판독가능 매체가 제공된다.

적어도 하나의 프로세서상에서 실행될 때 이전의 방법들 중 임의의 것을 수행하도록 구성된 프로그램 코드를 포함하는 컴퓨터 프로그램이 제공된다.

상기에서, 많은 상이한 실시예가 설명되었다. 상기 실시예들 중 임의의 2 이상의 조합에 의해 다른 실시예들이 제공될 수 있음을 이해해야 한다.

이제 실시예가 단지 일례로서, 그리고 도면을 참조하여 설명될 것이다.
도 1은 실시예에서 제공되는 바와 같이 향상된 오디오를 통해 통신하는 2 명의 사용자에 대한 구조적 개요를 도시한다.
도 2는 실시예에 따른 음성 향상 서비스를 제공하는 호출의 스위칭 및 라우팅뿐만 아니라 PSTN을 통해 개시된 호의 하이 레벨 일례를 도시한다.
도 3은 실시예에 따라 오디오 향상이 발생하는 경우에 수반되는 데이터 프로토콜 흐름을 도시한다.
도 4는 실시예에 따른 제 1 및 제 2 네트워크와 관련하여 배치된 오디오 향상 컴포넌트를 도시한다.
도 5는 실시예에 따른 사운드 프로세싱 엔진에 의한 호 개시 및 오디오 향상와 관련된 데이터 흐름을 도시한다.
도 6은 실시예에 따라 입력 컨디셔닝(도 6a), 출력 컨디셔닝(도 6B) 및 주변 컨디셔닝(도 6c)에 의해 사용자의 청각 및 음성 프로파일을 획득하는 것과 관련된 프로세스를 도시한다.
도 7은 일 실시예에 따라 오디오를 향상시킬 때 사운드 프로세싱 엔진에 의해 수행되는 프로세싱 단계를 도시한다.
도 8은 오디오 향상의 주파수 응답을 도시한다.
도 9는 16kHz에서의 광대역 음성 프로세싱을 이용한 실시간 오디오 향상의 주파수 스펙트럼을 도시한다.
도 10은 8kHz에서의 협대역 음성 프로세싱을 이용한 실시간 오디오 향상의 주파수 스펙트럼을 도시한다.
도 11은 일 실시예에 따른 예시적인 사용자 디바이스를 도시한다.
도 12는 일례에 따른 본 방법의 흐름도를 도시한다.
도 13은 일례에 따른 본 방법의 흐름도이다.
도 14는 일례에 따른 사용자 디바이스를 도시한다.
도면들에서, 동일한 요소들은 전체적으로 동일한 참조 번호들로 표시된다.

개관(Overview)

본 개시는 특히 예를 들어 이동 통신 네트워크와 같은 통신 네트워크를 통한 청력 테스트 및 음성 신호들의 오디오 향상을 설명한다. 본 개시는 사용자와 관련된 파라미터가 미리 정해진 기초 위에서 가정되고 그리고 이에 후속하여 청력 테스트에서 미세조정된 다음 그 사용자가 통신 네트워크를 통해 통신할 때마다, 바람직하게는 중앙식으로(centrally), 그 사용자와 관련된 오디오를 향상시키는데 이용되는 접근법을 사용한다. 임의 사용자의 청력 특성과 관련된 파라미터들은 청력 바이오메트릭(hearing biometrics)이라 지칭되며, 이러한 정보에 대한 부당한 액세스가 방지되도록 네트워크에서 암호화를 통해 보호될 수 있다.

즉, 중앙 통신 네트워크는 예를 들어 클라우드 서비스 또는 다른 중앙 리소스를 통해 오디오 향상에 대한 고정형 또는 모바일 액세스를 제공한다. 따라서, 향상된 오디오 신호는 양 사용자가 액세스할 수 있는 임의의 중앙 리소스를 통해 제공될 수 있고, 적어도 하나의 사용자는 음성 및/또는 청력 파라미터를 프로파일의 형태로 등록하며, 그리고 이들 파라미터들이 오디오 신호에 적용되어 그 사용자에 맞춤화된, 고유한 향상된 신호(사용자로부터 발신된 및/또는 사용자에게 전달된)를 바람직하게는 중앙에서 또는 선택적으로는 그 사용자의 디바이스에서 제공할 수 있다.

구조(Architecture)

도 1을 참조하면, 실시예에서 제공되는 바와 같이 향상된 오디오를 통해 통신하는 2명의 사용자들에 대한 구조적 개요가 도시되어 있다. 제 1 네트워크(11)에 연결된 통신 디바이스를 구비한 제 1 사용자와 제 2 네트워크(13)에 연결된 통신 디바이스를 구비한 제 2 사용자(14)는 통신 수단(12)을 통해 통신할 수 있다. 제 1 및 제 2 네트워크는 이동 통신 네트워크, 고정 회선 네트워크 또는 VoIP 네트워크를 포함할 수 있다. 통신 수단(12)은 PSTN, 인터넷, WAN LAN, 위성 또는 통신 서비스를 제공할 수 있는 임의의 형태의 전송 및 스위칭 네트워크, 예를 들어, 고정 회선, WiFi, IP 네트워크, PBX(사설 교환기), 앱(apps), 에지 컴퓨팅, 펨토셀(femotocells), VoIP, VoLTE 및/또는 사물 인터넷 등을 포함할 수 있지만, 이에 한정되는 것은 아니다. 기본적으로는, 국가 또는 지방의 전력 분배 네트워크(영국 국가 전력망)와 같이 디지털 신호 또는 아날로그 신호를 전송/분배할 수 있는 수단 및 오디오 향상을 포함하여 사용자 엔드 디바이스로 오디오 신호를 전달하여 신호를 처리할 수 있는 수단을 포함한다. 다른 실시예에서, 오디오 향상은 사용자 디바이스 상에서 앱 또는 내장형 펌웨어로서 프로세싱될 수 있다.

도 1에서, 제 1 사용자(10)는 개시된 바와 같은 향상된 오디오 서비스에 대한 가입자(15A) 또는 비-가입자(15B)가 될 수 있다. 가입자(15A)는 여기에 더 설명된 바와 같은 오디오 향상 컴포넌트(20)를 통해 향상된 오디오 프로세싱에 대한 액세스를 획득할 수 있다.

도 1에 도시된 아키텍처 구조에 기초하여 그리고 도 2를 참조하면, PSTN(12)을 통해 제 1 사용자(10)에 의해 개시된 호출의 하이 레벨 일례가 아래에 설명된 바와 같이 동작한다. 일단 호출이 개시되면, 제 1 네트워크(11)는 제 1 사용자(10)가 가입자(15A)인지의 여부를 검출한다. 가입자라면, 오디오 향상 컴포넌트(20)에 의해서 오디오 향상이 제공되고, 그렇지 않으면, 표준 호출이 PSTN(12)을 통해 제 1 네트워크(11)에 의해 제 2 사용자(14)에게로 포워딩된다.

오디오 향상 컴포넌트(20)(점선 안의 영역으로 도시됨)는 미디어 게이트웨이 컨트롤러(21A), 미디어 게이트웨이(21B), 사운드 프로세싱 엔진(22) 및 구성 관리 모듈(23)을 포함하고, 통신 네트워크의 코어 네트워크(본 실시예에서는 제 1 네트워크(11)) 내에 위치될 수 있다. 도 2의 실시예에서, 세션 개시 프로토콜(SIP)(16)은, 오디오 향상 컴포넌트(20)의 미디어 게이트웨이(21B)를 통한 오디오 향상을 포함하며, 이해되는 바와 같이, 호출을 개시(추가적인 오디오 향상 서비스의 생성을 허용)하는데 사용된다. 다른 적절한 비-IP 프로토콜이 대안적으로 사용될 수 있다. 본 명세서에 서술된 실시예들은 표준적인 네트워크 인터페이싱 컴포넌트들과 IP, SIP 및 VoIP 프로토콜과 같은 프로토콜들, 그리고 세션 경계 콘트롤러(SBC) 또는 미디어 게이트웨이 및 그 제어기 또는 등가물 등과 같은 다양한 컴포넌트들을 이용하여, 통신 네트워크 또는 다른 기저 네트워크에 연결할 수 있다. 이해되는 바와 같이, 이러한 네트워크는 고정형 또는 모바일 네트워크와 통신할 때 레거시 CAMEL/IN, ISDN 또는 IMS 네트워크 사양에 대한 오늘날의 테크놀로지에 기반하여, 시그널링 및 인터페이스에 있어서 변동될 수 있다.

이해되는 바와 같이, 네트워크들(11, 13)은 그들의 사용자들과 접속하는데 사용되는 '라스트 마일(last mile)' 액세스 및 코어 네트워크 기술에 기초하여 변동될 수 있다. 미디어 게이트웨이(21B)는 예를 들어, 트래픽 뿐만 아니라 시그널링을 다양한 가능한 표준들로부터 예를 들어 레거시 운영자 네트워크(legacy operator network)로부터 보다 최신의 IP 기반 솔루션으로 변환하기 위한 수단을 제공한다(시그널링을 위한 SIP와 음성 서비스의 트래픽 흐름을 위한 RTP).

오디오 향상 컴포넌트(20)가 보다 상세하게 설명되기 전에, 도 3은 도 1의 기본 아키텍처에서 오디오 향상이 발생하는 경우 오디오 향상 컴포넌트(20)를 포함하는 데이터 프로토콜 흐름을 도시한다. 미디어 게이트웨이 컨트롤러(21A)는 향상된 오디오 호출(본 일례에서는 SIP 패킷에 의해)의 개시를 처리한다. 미디어 게이트웨이(21B)는 사운드 프로세싱 엔진(22)과의 인터페이스를 포함하여(본원에 개시된 인터페이스 'D' 및 'X'를 참조) 멀티미디어 실시간 프로토콜(RTP) 패킷(17)을 처리하고 그리고 이해되는 바와 같이 진행 중인 호출의 제 2 사용자(14)로/로부터의 제 2 네트워크(13)와 제 1 사용자(10)로/로부터의 제 1 네트워크(13) 사이에서 통신한다. 사운드 프로세싱 엔진(22)은 SIP(16) 개시에 후속하여 제 1 사용자(10)로부터 발신되는 및/또는 제 1 사용자(10)로 제공되는 RTP 패킷(17)에 포함된 오디오 스트림을 수정하는바, 따라서, 제 1 사용자(10)(도 1의 실시예에 도시되고 아울러 오디오 향상 프로세싱의 가입자(15A)이다)는 구성 관리 모듈(23) 내에 포함된 청력 및 음성 프로파일에 기초하여 오디오 향상을 제공받는다. 또한, 사운드 프로세싱 엔진은 어느 일 방향에서 서로 다른 청력 및 음성 프로파일을 사용할 수 있으며, 따라서 청력 장애를 갖는 2명의 사용자들은 그들의 오디오가 동시에 향상될 수 있다(도 5 및 관련 설명 부분 참조).

후술하는 바와 같이, 대안적인 실시예에서, 인터페이스 'D' 및 'X'는 사운드 프로세싱 엔진(22)이 네트워크의 분산된 노드들에, 예를 들어 임의 국가의 모바일 네트워크와 관련된 네트워크의 분산된 노드들에 상주할 수 있게 하거나, 또는 예를 들어, 사용자 디바이스가 충분한 프로세싱 능력 및 로컬 리소스를 갖는다면 미리-설치된 코덱에 의해서 사용자 디바이스에 상주할 수 있게 한다. 이러한 실시예에서, 구성 관리 모듈(23)은 오디오 향상을 제공할 때 코덱에 의해 이용될 파라미터들을 제공한다. 따라서, 청력 바이오메트릭 데이터는 네트워크 내에서 중앙식으로(centrally)으로 유지될 수 있으며 그리고 구성 관리 시스템(23)이 실행되거나 또는 미디어 게이트웨이(21B)가 동작하는 곳과는 다른 장소에서 물리적으로 동작하는 서버 내의 분산된 기능 노드로서 사운드 향상 기능을 수행하는 것이 가능해진다. 사운드 향상의 이러한 분산된 기능은 사용자의(10, 14) 디바이스에 보다 가까운 네트워크의 에지에서 실행되는 것으로 간주될 수 있으며, 또는 호환성 및 상호운용 가능성이 허용되는 소정 경우들에서는 지원되는 사운드 코덱들 중 하나로서 사용자 디바이스 자체 내에 구현될 수 있다.

오디오 향상 모듈 인터페이스들 및 성능들

오디오 향상 컴포넌트(20)와 제 1 네트워크(11) 및 제 2 네트워크(13)와의 상호작용이 보다 상세히 설명될 것이다. 도 4는 IP PBX, IMS, CAMEL/IN 또는 다른 SIP 환경과 같은 SIP/VoIP 환경을 제공하는 제 1/제 2 네트워크(11, 13)와 관련하여 배치된 오디오 향상 컴포넌트(20)를 도시한다.

오디오 향상 컴포넌트(20)는 미디어 게이트웨이 콘트롤러(21A)에서 인터페이스 'A'에 의해서, 미디어 게이트웨이(21B)에서 인터페이스 'M'에 의해서, 구성 관리 모듈(23)에서 인터페이스 'B'에 의해서 네트워크들(11, 13)와 인터페이스한다.

인터페이스 'A'는 코어 네트워크(11, 13)로/로부터의 시그널링을 포함한다. 호출의 제 1 사용자(10) 및 제 2 사용자(14) 뿐만 아니라 호출의 RTP 패킷(17)에 대한 라우팅 정보에 고유 식별자가 제공된다. 인터페이스 'M'의 RTP 패킷(17)은 미디어 게이트웨이(21B)를 통해 사운드 프로세싱 엔진(22)에 의해 프로세싱될 사운드 운반 패킷을 포함한다. 인터페이스 'B'는 구성 관리 모듈(23)과 네트워크 운영자의 운영 지원 시스템(OSS)(26) 간의 동작 및 유지 보수 연결을 포함한다.

전술한 바와 같이, 오디오 향상 컴포넌트(20)는 미디어 게이트웨이 컨트롤러(21A), 미디어 게이트웨이(21B), 사운드 프로세싱 엔진(22) 및 구성 관리 모듈(23)을 포함한다.

미디어 게이트웨이 컨트롤러(21A)는 인터페이스 'A', 인터페이스 'C' 및 인터페이스 'E'를 포함한다. 인터페이스 'C'는 미디어 게이트웨이 컨트롤러(21A)와 미디어 게이트웨이(21B) 사이의 오디오 향상 컴포넌트(20)의 내부 인터페이스이고, 미디어 부분 및 제어 부분을 포함한다. 일 실시예에서, 인터페이스 'C'는 미디어 부분에 대한 사용자 데이터그램 프로토콜(User Datagram Protocol: UDP) 위에 RTP의 어플리케이션 계층 및 제어 부분에 대한 UDP 위에 미디어 게이트웨이 제어 프로토콜(MGCP)을 구비한 1Gb 이더넷의 물리 계층을 포함할 수 있다. 인터페이스 'E'는 구성 관리 모듈(23)을 통해 미디어 게이트웨이 컨트롤러(21A)를 모니터링 및 제어하는데 사용될 수 있다.

미디어 게이트웨이(21B)는 실시간 음성 데이터가 프로세싱을 위해 추출되고 라우팅을 위해 동일한 게이트웨이로 리턴되는 RTP 프록시를 생성하는 사운드 프로세싱의 성능을 허용한다. 요약하면, 미디어 게이트웨이는 관심있는 네트워크로부터 SIP(16)로의 시그널링 변환 및 RTP(17)로서 트래픽을 사운드 프로세싱 엔진(22)으로 라우팅하는 SIP 라우터이다.

구성 관리 모듈(23)은 데이터베이스(25), 인터페이스 'B', 인터페이스 'D' 및 사용자 인터페이스(24)를 포함하며, 이는 음성으로 활성화되거나 및/또는 헤드셋 또는 다른 청각 및 마이크로폰 셋업과 같은 액세서리와 결합되어 사용될 수 있는 예컨대, 랩탑 또는 휴대용 디바이스 상의 웹 포털을 포함할 수 있으며, 사용자 인터페이스는 인터페이스 'F' 및/또는 'G'를 포함한다. 사용자 인터페이스(24)는 오디오 향상 컴포넌트(20)에 대한 사용자 액세스를 제공한다. 사용자 인터페이스(24)의 인터페이스 'F'는, 사운드 프로세싱 알고리즘들을 위한 파라미터들(도 6 참조) 뿐만 아니라 초기 및 계속되는 계측을 통해 사용자 청각 및 음성 프로파일(바이오메트릭 등록)을 캡춰하기 위한 사용자 셋업을 제공한다. 인터페이스 'G'는 관리 및 지원 기능을 포함한다. 인터페이스 'F'와 'G'는 같은 인터페이스의 일부분일 수 있다. 데이터베이스(25)는 바이오메트릭 데이터에 관한 사용자 정보 및 후술하는 바와 같이 사운드 프로세싱 엔진(22)과 함께 사용하기 위한 청각 및 음성 프로파일 정보를 포함한다. 인터페이스 'D'는 사운드 프로세싱 엔진(22)의 요청에 따라 사용자 청력 및 음성 프로파일에 정의된 사운드 프로세싱 파라미터를 전달하기 위한 것이다.

도 5를 참조하고, 그리고 제 1 사용자(10)(오디오 향상 서비스의 가입자 15A)로부터의 호출에 관하여, 예를 들어, 모바일 발신 지점(MO)을 통해 제 2 사용자(14), 예를 들어 모바일 종료 지점(MT)로의, 사운드 프로세싱 엔진(22)에 의한 호출 개시 및 오디오 향상과 관련된 데이터 흐름(50)이 도시된다. 코어 네트워크(11, 13)는 오디오 향상 컴포넌트(20)의 내부 기능을 볼 수 없으며, 네트워크는 어떤 사용자에 대하여 어떤 사용자 식별자를 사용할지, 예를 들어, 각 사용자마다 고유한 MSISDN을 알기만 하면 된다.

도 1의 일례에서, 2개의 종료 지점들(10 및 14)과 관련된 MSISDN 번호들은 어플리케이션 서버(미디어 게이트웨이 콘트롤러 21A)에 의해 호출에 대한 세션 ID와 관련되고, 그리고 관련 파라미터들은 인터페이스 'X'를 통해 오디오 사운드 프로세싱 엔진(22)으로 전달된다. 예를 들어, 제 1 사용자(10)에 대한 고유 식별자는 인터페이스 'A'를 통해 미디어 게이트웨이 컨트롤러(21A)에 제공되고, 인터페이스(C)를 통해 미디어 게이트웨이(21B)로 전달되며, 계속해서 인터페이스 'X'를 통해 사운드 프로세싱 엔진(20)으로 제공된다.

사운드 프로세싱 엔진은 특정 전화 호출의 시작시에 그 사용자에 대한 구성 관리 모듈(23)의 데이터베이스(25)로부터 청력 및 음성 프로파일의 형태로 인터페이스 'D'를 통해 대응 바이오메트릭을 요청한다. 일단 프로파일이 사운드 프로세싱 엔진(20)으로 반환되면, RTP 패킷들(17)의 오디오 향상이 실시간으로 진행될 수 있다.

따라서, 도 5의 일례에서, 제 1 사용자(10)는 향상된 오디오로부터 이익을 얻는다.

오디오 향상과 함께 호출을 진행시키기 위해, MO 및 MT MSISDN 번호들 둘다와 관련된 바이오메트릭에 대해서 데이터베이스(25)가 조회된다.

MO 및 MT 모두가 오디오 향상을 위해 등록되는 실시예에서, 사운드 프로세싱 엔진은 데이터베이스(25) 내에 포함된 각 사용자의 바이오메트릭 프로파일들로부터의 파라미터들을 대화의 양측 당사자들에 적용할 것이다. 이것은 청력 프로파일, 음성 프로파일 또는 둘 모두와 관련하여 오디오 향상를 각 사용자에 대해 독립적으로 사용하는 것을 포함할 수 있다.

특정 사용자가 음성 향상을 위해 등록되지 않은 경우에도, 이들의 음성 바이오메트릭이 그들의 고유한 MSISDN 번호에 대해서 캡처되고 데이터베이스(25)에 저장될 수 있으며, 따라서 이들이 등록된 사용자와 통신할 때마다, 등록된 사용자는 등록된 사용자에 대해 최적화된 미등록 사용자에 대한 초기 입력 신호 조건 설정에 의하여 보다 높은 수준의 향상을 획득할 수 있다.

앞서 설명된 바와 같이, 사운드 프로세싱 엔진(20)은 사운드 프로세싱 알고리즘에 공급할 파라미터를 제공받기 위해 청력 및 음성 프로파일을 필요로 한다. 데이터베이스(25)는 예를 들어 룩업 테이블(look-up table)을 통해 각각의 개별 사용자 각각의 청력 및 음성 프로파일과 관련된 값을 유지한다.

각 사용자의 청력 및 음성 프로파일은, 사용자로부터 발신되는 음성 및 사용자에게 전달되는 음성을 둘다를 향상시킴으로써 그들의 특정한 청력 손상에 대해서 설정될 수 있다. 폰 피드백(phone feedback)(트랜스듀서 효과) 및/또는 주변 잡음이 옵션으로서 고려될 수 있다.

도 6은 음성에 대한 입력 조절(도 6a), 청력을 위한 출력 조절(도 6b) 및 선택적으로는 주변 조절(도 6c)에 의해서 사용자의 청력 및 음성 프로파일을 획득하는 프로세스를 도시한다. 입력, 출력 및 주변 조절 중 일부 또는 전부는 사용자의 요구에 따라 활성화 또는 비활성화될 수 있다. 예를 들어, 향상된 오디오의 사용자가 전화 대화를 진행하고 있으며 그리고고 대화를 계속하기 위해 친구에게 전화기를 건네주는 경우, 상기 친구는 청력이 손상되지 않았을 수도 있기 때문에 오디오 향상을 필요로 하지 않을 수 있다.

도 6a를 참조하면(사운드 프로세싱 엔진(22)을 통해 청력 손실을 가진 사용자(10)(등록된 가입자 15A임)에게로 향하는 입력 음성을 조절함), 세션 내의 호출의 시작 및 도중에, 단계 61에서 입력 음성이 사용자의 통신 디바이스(도 1의 14)로부터 샘플링되거나 또는 예를 들어, MSISDN 번호와 같은 사용자(14)의 고유 식별자와 연관된 다른 입력 디바이스로부터 샘플링된다. 상기 신호는 단계 62에서 시간 도메인으로부터 주파수 도메인으로 변환되어, 단계 63에서 주파수 도메인 신호 Fi 를 제공한다. 단계(64)에서, 음성 유형(예를 들어, 소프라노, 메조-소프라노, 콘트랄토, 카운터 테너, 테너, 바리톤 또는 베이스) 및 볼륨이 분석되어, 단계 65에서 음성 프로파일을 생성하며, 여기서 스피커의 음성의 음성 프로파일(액츄에이터의 특징)이 도출된다. 이는 입력 음성을 수신 또는 청취하는 사용자(본 일례에서는 사용자 10)의 청취 특성의 청력 프로파일에 대한 에러 함수로서, 하나 이상의 주파수(톤) 단계들 만큼 음성의 발신자(사용자 14)의 사운드를 자동으로 이동할 수 있게 한다. 이러한 음성 프로파일은 단계(66)에서 해당 사용자에게 고유한 관련된 음성 발신자 사용자 ID와 함께 데이터베이스(25)에 저장된다. 따라서, 동일한 사용자(14)가 이후의 통화에서 동일한 회선(MSISDN)을 사용하는 경우, 음성 프로파일이 다시 한번 도출될 필요가 없다. 음성의 통계적 변동도 또한 포착될 수 있다. 이러한 것은 특정 회선(MSISDN)이 여러 사람들에 의해서 사용되고 있음을 나타낼 수 있으며, 따라서 그러한 회선의 경우 새로운 호출이 걸릴 때마다 음성 특징화가 수행될 필요가 있는데, 왜냐하면 어떤 사용자(음성)가 전화를 걸지를 충분히 예측할 수 없기 때문이다.

도 6B를 참조하면(사용자가 사운드 프로세싱 엔진(22)으로부터 듣게될 신호를 조절하는 것), 오디오 청력 테스트 신호가 단계 67에서 사용자의 통신 디바이스에 제공되거나 또는 구성 관리 모듈(23)의 사용자 인터페이스(24)와 연관된 다른 출력 디바이스에 제공된다. 단계 68에서, 청취 톤(hearing tone) 및 볼륨이 분석되어, 단계 69에서 청력 프로파일이 생성된다(센서 즉, 사용자의 귀의 특징화). 청력 프로파일은 가입 사용자에게 제시되는 사운드 웨이브 상의 서로 다른 주파수들을 밸런싱하기 위한 파라미터들을 포함한다. 이것은 사용자의 청력에 대한 유사 처방(pseudo prescription)이다. 입력 음성이 그들의 청력 프로파일과 매칭된다면, 임의의 특정 사용자는 가장 효율적으로 그리고 가장 선명하게 입력 음성을 청취할 것이다.

이러한 청력 프로파일은 단계(70)에서 해당 사용자에게 고유한 연관된 사용자 ID와 함께 데이터베이스(25)에 저장된다. 상기 프로파일은 테스트에 수반되는 측정된 트랜스듀서 및 시스템 노이즈 영향과 관련되고 이를 고려한 사용자의 청각 손실의 조합으로 간주될 수 있는바, 그 시점에서 텔레콤 네트워크에 맞게 조정된 해당 사용자에 대해 특정한 조합된 청력 임계값을 제공한다. 조합된 청력 임계값은 해당 사용자에게 고유할 수 있다. 이것은 사용자에게 맞춤화된 식으로 제공되는 디지털 '성문(voiceprint' 임계값일 수 있다. "임계값"이라는 용어는 사용자가 오디오 신호를 만족스럽게 들을 수 있는 레벨(예: 볼륨 및/또는 주파수)에서의 청력 임계값으로 간주될 수 있다. 이러한 임계값은 청력 손실 임계값보다 낮을 수 있다. 청력 임계값에 대한 이러한 표현은 청각 손실이 통신 네트워크를 통해 작동, 수정 및 전송되는 방식의 차이를 고려하여 오디오그램(audiogram)과 같은 통상적인 측정과 대조된다.

단계(67)에서 수행되는 청력 테스트에 관한 더 상세한 설명은 다음과 같다.

사용자의 인지된 청력 상실에 기초하여(다양한 기관 측정값들에 따라, 청력 손실 없음(none), 경미(mild), 중등(moderate), 중증(severe), 극히 중증(severe-to-profound), 청력 테스트의 초기 볼륨이 결정된다. 일부 실시예에서, 초기 값은 사용자에 의해 결정될 수도 있다. 일부 실시예에서는, 초기 볼륨을 설정할 때, 사용자의 성별 및/또는 나이를 대안적으로 또는 부가적으로 고려할 수 있다.

청력 테스트가 시작된다:

1. 청력 테스트 시작

a) 청력 테스트를 위한 사용자에 대한 지시가 사용자 인터페이스(24)를 통해 제공될 수 있다.

b) 미디어 게이트웨이 컨트롤러(21B)는 사용자의 전화기에 전화를 건다.

이해되는 바와 같이, 사용자 인터페이스(24)(예를 들어, 사용자 또는 음성 활성화 인터페이스로의 웹 포털)를 제공하는 것은 예를 들어, 광대역 네트워크와 같은 기저 네트워크(underlying network)이며, 사용자 핸드셋 혹은 디바이스에 음성을 제공하는 것은 텔레포니 혹은 VoIP와 같은 음성 통신 네트워크이다. 이들 네트워크들은 브라우저 또는 랩탑 클럭 대 통신 네트워크 클럭과 같이서로 다른 클럭들 상에서 구동된다. 따라서, 사용자가 자신의 디바이스에서 음(tone)을 청취하고 그리고 웹 포털 상에서 들려지는 음을 인식하는 것 사이의 지연에 대한 지식은 청력 테스트에서 오류 또는 부정확성을 유발할 수 있는바, 여기서 네트워크들 간에 서로 다른 클록 값들에 의해 변경될 수 있는 자동화된 테스트에 반응하기 위한 시간은, 특정 청력 테스트 주파수에서 오류있는 참 혹은 거짓 결과를 판별할 수 있으며 이는 사용자의 청취 능력의 측정된 임계 레벨들에 영향을 미칠 수 있으며 따라서 사용자의 바이오메트릭 프로파일에 부정적인 영향알 미칠 수 있다(다음을 참조). 따라서, 클라이언트들 및 서버(미디어 게이트웨이 콘트롤러) 플랫폼들에 대한 마스터 클록 및 타이머들이 동기화된다.

서버와 사용자 디바이스에서 클럭을 동기화시키는 방법 중 하나는 다음과 같다. 청력 테스트의 시작을 요청할 때 사용자(클라이언트) 디바이스는 서버로부터 복수의 핑(ping)(예를 들어, 5개)을 요청한다. 복수의 핑들 중 하나 이상은 음성 또는 백색 잡음을 나타내는 주파수들의 확산을 포함할 수 있다. 이것은 특정한 단일 주파수 톤을 사용하는 표준적인 청력 테스트와는 다르다. 서버는 현재 서버 시간의 데이터 페이로드와 함께 핑 패킷을 전송한다. 핑 패킷은 클라이언트 디바이스에 의해 수신되고 그리고 설정된 시간 간격(예를 들어, 1 초) 후에 송신된다. 추가적인 설정 시간 간격(예 : 2 초) 이후에 핑 패킷의 복제본이 다시 전송된다. 이는 클라이언트 디바이스로부터 반송된 대응하는 발신 패킷에 대한 각각의 복수개의 핑 패킷들을 서버가 수신하도록 여러 번 반복될 수 있다. 이들 패킷들로부터 서버는 클라이언트와 서버에서의 클럭들의 드리프트 뿐만 아니라, 사용자로부터 서버로의 전송 이동 시간을 계산할 수 있다. 이렇게하면 앞서 언급된 오류있는 참 혹은 거짓 테스트 결과를 회피할 수 있다.

또한, 검사량이 감소함에 따라(아래 참조), 누락된(missed) 청력 테스트를 위한 키누름(keypress)의 시간 지연이 검사 결과에 있어 중요하다. 테스트 결과는 절반 단계들(5dB 대 10dB)로 미세 조정된다. 테스트에 소요되는 시간은 정확한 클록 동기화 정보를 가짐으로써 감소될 수 있다(절반 단계들의 수가 감소될 수 있으므로).

c) 사용자의 전화기에 대한 사운드 향상 기능을 비활성화시킨다.

d) 참조 스피치(reference speech)를 사용자의 전화기로 스트리밍하고 그리고 참조 스피치를 편안하게 청취하도록 핸드셋의 음량을 조정할 것을 사용자에게 요청한다.

e) 타이머들을 동기화하고 그리고 500Hz에서 청력 임계값을 테스트한다.

f) 타이머들을 동기화하고 그리고 1000Hz에서 청력 임계값을 테스트한다.

g) 타이머들을 동기화하고 그리고 2000Hz에서 청력 임계값을 테스트한다.

h) 타이머들을 동기화하고 그리고 3000Hz에서 청력 임계값을 테스트한다.

i) 타이머들을 동기화하고 그리고 6000Hz에서 청력 임계값을 테스트한다.

j) 사용자의 전화기에 대한 사운드 향상 기능을 활성화시킨다.

k) 타이머들을 동기화하고 그리고 참조 스피치를 사용자의 전화기로 스트리밍하고, 볼륨 인덱스를 조정하도록 사용자 인터페이스를 통해 사용자에게 요청한다.

2. 청력 테스트가 완료된다.

이러한 청력 테스트가 완료되면, 파라미터들이 구성 및 관리 모듈(23)의 데이터베이스(25) 내에 청력 프로파일(바이오메트릭 데이터)로서 캡처된다. 파라미터들은 사용자의 청력 손실, 시스템 잡음 및 트랜스듀서 효과 중 하나 이상에 의해 좌우될 수 있다.

전형적으로는, 청력 테스트의 경우, 자극은 500Hz, 1000Hz, 2000Hz, 3000Hz 및 6000Hz 또는 그 이상의 주파수를 중심으로 하는 1/3 옥타브 폭의 잡음 대역이 될 것이다. 바람직하게는, 각각의 테스트의 지속 시간은, 배경 잡음과 -60dB 사이에서 자극의 볼륨을 증가시키거나 감소시키기 위한 예컨대, 20ms의 램프들을 포함하여, 대략 약 1000ms 이다. 자극의 스펙트럼 기울기는 바람직하게는 가파르며, 바람직하게는 90dB/oct 혹은 그 이상이다.

1/3 옥타브 폭의 잡음은 사실상 하나 이상의 인간 음성들의 혼합물을 포함하는 백색 잡음이며 그리고 사용되는 통신 시스템의 성능까지의 주파수 대역들에서 테스트된다. 인간의 음성들을 포함하는 백색 잡음은 대화가 사용자에게 전달되는 방법을 반영하는 실제 세계에 보다 가까운 테스트를 제공하는 장점이 있으며, 그리고 액츄에이터 파라미터(성대: vocal chord)와 센서 파라미터(사용자의 귀) 둘다에 대한 보다 정확한 특징화를 가능케한다. 각 테스트에 사용된 백색 잡음은 청력 프로파일 파라미터들의 미세 조정을 위해 사용자에게 전송된 대안적인 사운딩 발음(alternative sounding pronunciation)(다른 알파벳들)을 특징화할 수 있다.

제안된 테스트 순서는 광대역 또는 초-광대역 음성 코덱의 경우 500, 1000, 2000, 3000, 6000 Hz 이상이고 또는 협대역 코덱의 경우 3000 - 3400Hz 까지이다. 협대역 및 광대역 코드들은 레거시 텔레콤 시스템에 사용되는 일반적인 코덱들이다. 테스트는 협대역 또는 광대역을 통해 오디오를 전송하는 네트워크 능력과 같은 기저 통신 수단에 맞게 조정될 수 있다. 하나의 중심 주파수에서의 측정은 바람직하게는 다음 중심 주파수가 선택되기 전에 완료된다.

각 테스트 주파수에 대한 보다 자세한 절차는 예시적인 구현예로서 다음과 같이 제공된다:

a) 위와 같이 추정된 초기 레벨로 사운드가 제시된다.

b) 사운드 종료후 예를 들어 2초 이내에 "예" 라는 응답이 주어지면, 이것은 "히트(hit)"로 간주되고, 다음 사운드의 레벨은 10dB 감소한다. 사운드 종료후 2초 이내에 응답이 없다면, 이는 "미스(miss)"로 점수가 매겨지며, 다음 사운드의 레벨은 10dB 증가한다.

c) 예상된 시간에 사용자가 "예"라고 응답하는 것을 피하기 위해, 가변 시간 간격 후에 다음 테스트 사운드가 제공될 수 있다. 이전 사운드에 대한 응답이 히트(hit) 인 경우, "예" 라는 응답 후 0.5 내지 2 초 범위에서 무작위로 선택되는 지연 후에 다음 사운드가 제공된다. 이전 사운드에 대한 응답이 "미스"인 경우, 다음 사운드는 바람직하게는 소정 범위로부터 무작위로 선택된 지연 이후에, 예를 들어, 이전 사운드의 종료 후 2.5 내지 4 초 이후에 제시되어야 한다.

d) '미스'가 후속되는 적어도 하나의 히트가 발생할 때까지 단계(b)가 반복된다. '미스' 이후에 상기 신호는 레벨이 10dB 증가한 상태로 제공된다.

a. 응답이 '히트'인 경우, 신호 레벨은 미스가 발생할 때까지 5dB 단계로 감소한다. 히트가 발생하는 최저 레벨이 해당 주파수에 대한 임계 레벨로 간주된다.

b. 응답이 '미스(miss)'인 경우, 레벨은 히트가 발생할 때까지 5dB 단계로 증가하며, 그 이후 미스가 발생할 때까지 5dB 단계로 감소한다. 히트가 발생하는 최저 레벨은 해당 주파수에 대한 임계 레벨로 간주된다.

이러한 절차는 각각의 테스트 주파수에서 차례로 반복된다. 하지만, 이전 테스트 사운드에 대한 초기 응답이 '미스'인 경우(시작 레벨이 너무 낮음을 의미), 현재 중심 주파수에 대한 시작 레벨은, 미리 결정된 분량(예컨대, 25 dB)을 이전 주파수에 더한 임계 레벨로 설정된다.

청력 테스트는 나중에 반복될 수 있는바, 이는 사용자가 그들의 바이오메트릭 파라미터들의 장기 변화를 볼 수있게 하며 그리고 캡처된 임계 파라미터들의 표준 편차를 감소시킨다.

조합된 청력 임계값 또는 "디지털 성문(digital voiceprint)"의 최종 결과는 시각적으로 및/또는 다른 방식으로 그 사용자에게 대해 구체적으로 제시될 수 있다. 상기 결과는 예를 들어 테스트 결과 청취, 테스트 결과 저장, 테스트 결과 취소 또는 테스트 재실행과 같은 해석이 가능하다. 청력 테스트 결과들은 프로세싱된 음성 대 비프로세싱된 음성을 비교하도록 청취될 수 있다. 이는 청력 상실이나 필요가 변화함에 따라 시간이 지남에 따라 적응될 수 있는 사용자 선호도 및 음조를 디지털 성문 혹은 오리지널 결합된 청력 임계값이 보다 정확하게 반영하도록 예를 들어, 압축 비율들 및/또는 주파수 레벨들의 조절을 이용하여, 녹음된 청력 임계값이 또한 추가로 미세 조정되게 할 수도 있고 그렇지 않을 수도 있다. 이러한 디지털 미세 조정은, 시스템 잡음 및 트랜스듀서 효과와 함께 개인적인 청각 손실 또는 필요성들을 반영하는 조합된 청력 임계값이 전술한 바와 같이 측정되면, 가능해진다. 달리 말하면, 사용자는 스크린과 인터페이스하여, 자신의 청력 상실을 기록하고 매핑할 수 있다. 시스템 "잡음"에 트랜스듀서 효과를 더한 조합이, 디지털 임계값을 생성하는데 사용된다. 시각적 출력은, 청력 손실 및 디바이스 트랜스듀서 효과가 결합된 청력 임계값의 "그래픽적" 표현으로 간주될 수 있다.

도 6c를 참조하면(주변 잡음, 신호 대 잡음 비율, 에코, 패킷 손실 등의 악영향을 고려하는 경우), 단계 71에서의 주파수 도메인 신호 Fi(이 신호는 단계 63에서의 그것과 동일한 신호일 수도 있으며, 또는 라이브 조건들을 충족시키기 위해 새로 획득된 신호일 수 있음)는, 표준적인 인간 음성 검출 알고리즘에 의해서 단계 72에서 프로세싱되며, 그리고 단계 73에서 분석되어 단계 74에서 주변 잡음 프로파일을 생성한다(오디오 전송을 위해 이용되는 채널을 특징화함). 단계 75에서, 이러한 주변 잡음 프로파일은 해당 사용자에게 고유한 관련 사용자 ID와 함께 데이터베이스(25)에 저장된다. 주변 잡음 컨디셔닝의 확장으로서, 선택적 알람 또는 인지 신호 교환을 어렵게하는 오디오 신호 대 잡음비를 나타내는 다른 신호가 트리거링되어, 소정의 녹음된 메시지들이 통화중인 사용자들에게 전송될 수 있게 하는바, 따라서 이들은 주변 잡음 문제를 알 수 있게되며 그리고 잡음이 덜 감지되는 환경으로 이동할 수 있다. 사용자는 상기 알람을 수락하거나 거절할 수 있고 따라서 개별 사용자가 인지 정보 교환이 어려울 때 적절한 시간에 미래의 경보가 발생하도록 피드백을 제공할 수 있다. 청각 장애가 있는 사용자가 이벤트 후에 대화를 검토하고 확인하는 것을 도와줄 수 있도록, 대화를 녹음하는 기능과 같은 다른 기능이 제공될 수 있다. 예를 들어, 호출들은 기록되고 저장될 수 있고, 사용자로부터의 피드백과 결합하여, 특정 음성 경험이 발생하고 따라서 극복될 수 있는 미래의 상황을 사전에 정의하고 예측하도록 유도된 지식이 얻어질 수 있다. 실제로 사운드 프로세싱 엔진(22)은 인공 지능을 통해 이러한 잠재적으로 어려운 음성 시나리오를 인식, 회피 또는 보완하는 방법을 학습할 수 있다. 시간이 지남에 따라 이러한 지식 데이터뱅크가 데이터베이스(25)에 구축 및 저장되고, 예를 들어, 고정형, 모바일 또는 무선 네트워크를 통해, 환경 및/또는 그 시점에서의 네트워크 신호 세기에 부응하는 다양한 범위의 음성 주변 상황들에 대해서 청력 임계값을 미세 조정하는 것과 같은 다른 상황들에서의 보다 일반적인 사용을 위해 오디오 향상 및 프로세싱 알고리즘을 개발 및 향상시키기 위해 공유 및 이용될 수 있다. 일반적으로, 사용자 경험을 향상시키는 AI의 사용은 통신/IP 네트워크에서 실시간으로 사용되지 않으므로, 본 개시는 해결가능한 청각 손실 요구가 있는 사람들의 음성 경험을 개선할 수 있다.

도 7은 오디오를 향상시기 위해 사운드 프로세싱 엔진(22)에 의해 착수되는 프로세싱 단계들을 도시한다. 도시된 바와 같이, 도 6a, 도 6b 및 선택적으로는 도 6c의 프로파일링 프로세스에서 도출된 파라미터들이, 수신 사용자(도 1의 예에서는 사용자 10)의 요구에 따라 오디오를 향상시키는데 사용된다.

먼저, 단계 80에서, 가입 사용자(10)에게 전송될 사용자(14)로부터의 입력 오디오 신호가 획득되고, 단계 81에서 디코딩된다. 단계 82에서 오디오 신호가 주파수 도메인으로 변환되어 단계 83에서 주파수 도메인 신호를 생성한다. 단계(84)에서 주변 잡음이 도 6c에서와 동일한 방식으로 평가되고, 단계(85)에서 잡음이 제거된다. 그 다음, 단계 66의 음성 컨디셔닝 동안 데이터베이스(25)에 저장된 프로파일 파라미터들이 적용되어(단계 86), 단계 87에서(여전히 주파수 영역에서) 향상된 음성 출력을 생성한다.

단계(88)에서, 단계(70) 동안 수신자(가입 사용자 10)에 대하여 데이터베이스(25)에 저장된 청력 프로파일 파라미터들이 향상된 음성 출력에 적용되고, 단계(89)에서 향상된 음성 출력이 제공된다(주파수 도메인에서). 단계(90)에서, 향상된 음성 출력은 시간 도메인으로 변환되며, 따라서 향상된 시간 도메인 신호가 단계(91)에서 획득된다. 단계(92)에서, 향상된 음성 출력은 클립핑을 방지하기 위해 정규화되며, 정규화된 음성 출력이 단계(93)에서 제공된다. 마지막으로, 상기 출력은 단계 94에서 기저 통신 프로토콜에 대해 인코딩되며 그리고 가입된 수신측 사용자(10)의 청력에 맞춰 조정된 향상된 오디오(성문이라 지칭됨)가 단계 95에서 제공된다.

일례로서, 도 9 및 도 10은 향상된 오디오를 제공할 때 사운드 프로세싱 엔진에 의해 생성된 파형들(주파수 도메인)을 도시한다.

먼저, 도 8을 참조하면, 오디오 향상의 주파수 응답은 도시된 응답 커브들 중 전부 또는 일부에 의해서 맞춤화될 수 있다. 주파수 대역들은 수평축으로 표시되고, 수직축은 전술한 바와 같은 청력 테스트 중에 결정된 임계값들(그 주파수에 대한 사용자의 청각의 한계치)를 나타낸다. 임계축의 스케일은 사운드 볼륨을 나타내는 사운드 압력 레벨로 표시된다.

"플랫(flat)" 응답(주파수의 변화 없음)은 도면부호 100으로 표시된다. "로우(low)"는 낮은 주파수들에서 사운드들을 향상시키는 것이며(101), "미드(mid)"는 중간 대역들을 향상시키고(102) 그리고 "하이(high)"는 높은 주파수 대역들을 향상시킨다(103).

도 9는 16kHz에서 광대역 음성 프로세싱을 사용하는 사운드 시뮬레이터 프로세싱을 통해 전달되는 샘플 실시간 사운드의 주파수 스펙트럼을 보여준다. 도 10은 8kHz에서 협대역 음성을 사용하는 동일한 것을 예시한다. 도시된 협대역 및 광대역 주파수들은 오직 예시를 위한 것일 뿐이다. 다른 많은 대역폭들의 입력 신호가 처리될 수 있다.

스피치 또는 음악과 같은 오디오 신호의 실시간 향상을 수행하는 경우, 상기 플랫, 로우, 미드 및 하이 필터들의 전부 또는 일부는, 특정 사용자에 대해서 데이터베이스(25)에 저장된 청력 및 음성 프로파일 파라미터들에 따라 언제든지 적용될 수 있다.

전술한 바와 같이 특정 사용자에 대한 음성 프로파일 및 청력 프로파일의 유도뿐만 아니라, 가입 사용자에게 전송될 입력 음성은 선택적으로 실시간으로 그 입력 톤을 단계 64 및 65와 관련하여 이전에 설명된 바와 같이 오디오 수신자의 음성 유형쪽으로 이동되게 할 수 있다. 이러한 것은 오디오 신호에 작용하는 에러 함수에 의한 것이며, 예를 들어 필터 뱅크를 통해 사운드 프로세싱 엔진(22)에 적용된다. 원하는 톤(tone)의 변동(variation)은 나중에 사용하기 위해 사용자의 다른 프로파일 데이터와 함께 저장될 수 있다. 톤 변동은 가입 또는 비가입 사용자가 알려진 MSISDN으로부터 가입 사용자를 호출할 때 자동으로 수행될 수 있다. 특정 MSISDN으로부터의 음성 유형은 데이터베이스(25)에 저장될 수 있으며, 따라서 상이한 사용자가 동일한 MSISDN으로부터 호출하는 경우, 자동적인 톤 변동은 사운드 프로세싱 엔진(22)에 내장된 인공 지능에 의해 턴 오프될 수 있다. 예시적인 구현예는 음성 프로파일을 나타내는 파라미터들의 표준 편차를 관찰하고 이를 학습된 임계값과 비교한다. 표준 편차 값이 학습된 임계값을 초과하는 경우, 사운드 프로세싱 엔진(22)은 상이한 사람이 상기 착신 라인을 사용하는 것으로 추정할 것이므로 톤 변동을 자동으로 턴 오프할 수 있다.

가입 사용자에게 전송될 입력과 관련된 청력 프로파일 및 주변 프로파일 뿐만 아니라, 수신될 음성의 볼륨도 다음과 같은 여러 가지 방법으로 조정될 수 있다.

● 마지막 프로세싱 단계에서 출력 볼륨을 단순히 증폭한다(단계 92).

● 주변 잡음을 제거한 이후에 입력 신호의 디지털 범위를 증폭한다(단계 85). 증폭은, 예를 들어, 현재 대화에서 20 프로세싱 시간 간격들과 같은 시간 주기에 걸쳐 평가된 피드백 파라미터를 사용하는 에러 함수에 기초할 수 있다.

● 상기 피드백 파라미터는 장기 변수(long term variable)로서 데이터베이스(25)의 사용자 프로파일 정보에 저장될 수 있다.

● 보다 긴 시간 동안, 예를 들어 많은 대화들에 대해서, 사운드 프로세싱 엔진(20)에 의해 사용되는 초기 파라미터는 특정 사용자 간의 대화의 실제 경험에 기초하여 맞춤화될 수 있어, 사용자에게 최적의 성문(voiceprint)을 제공한다.

● 또한 청력 프로파일의 파라미터는 사용자가 청력 프로파일을 업데이트하기 위해 후속 청력 테스트를 수행하는지 여부에 관계없이 사용자의 청각 저하를 설명하기 위해 시간이 지남에 따라 변경될 수 있다. 예를 들어, 사용자의 청각 임계값은 나이와 함께 악화된다. 개시된 방법 및 시스템은 시간 경과에 따른 임계값 손실을 측정할 수 있고, 사용자 피드백, 조회(interrogation) 및 인공 지능의 조합을 통해, 그 사용자의 전화기 사용, 그들의 연령, 성별 및 주파수 손실(frequency loss)과 관련된 청각 손실 데이터를 이용하여 예측가능한 동적인 청력 임계값을 생성할 수 있는바, 이는 그것의 예측 능력뿐 아니라 이러한 데이터를 관련 피어 그룹과 비교함으로써 그 사용자의 연령 및 성별에 자동으로 적응될 수 있다. 본질적으로, 알고리즘들은 사용자의 청각 특성뿐 아니라 특정 대화에 대한 네트워크 신호 강도(예컨대, 고정형 네트워크에서의 패킷 손실 또는 무선 네트워크의 RF 신호 강도)의 해석을 허용함으로써 AI와 링크된다. 따라서, 신호가 열악한 경우 보다 선명한(더 높은 볼륨의) 음성 신호를 전달하도록 오디오 프로세싱을 향상시키기 위하여 청력 임계값을 낮은 레벨로 쉬프트할 것이 예측될 수 있다. 청력 임계값의 이러한 측정, 시간에 대하여(사용자의 연령) 그리고 신호 강도에 대하여 이러한 임계값을 적응시키는 것은 고유한 특징인바, 왜냐하면 시간 경과에 따라 사용자 청각 저하에 부응하고 그리고 즉각적인 대화를 위해 사용자 청력 프로파일을 조정할 수 있기 때문이다.

청력 테스트 및 사용자로의 오디오 신호를 변경하기 위해 청력 테스트의 결과를 사용하는 것은 도 12와 관련하여 보다 상세하게 기술될 것이다. 이제 설명되는 방법이 예를 들어, 도 6A 내지 도 6C 및 도 7(및 실제로 본 설명의 임의의 다른 실시예들)과 관련하여 설명된 방법을 포함한다. 도 12와 관련하여 설명된 방법은 네트워크 엔티티, 예를 들어 통신 네트워크에 있는 서버와 사용자 디바이스를 통해 서버와 통신하는 사용자 사이에서 수행되는 청력 테스트에 관한 것이다. 통신 네트워크는 텔레커뮤니케이션 네트워크일 수 있다. 사용자 디바이스는 이동 전화와 같은 전화일 수 있다. 대안적으로, 사용자 디바이스는 랩탑, 태블릿 등일 수 있다. 다음이 이해될 것인바, 네트워크 및 사용자 디바이스를 통해 청력 테스트를 수행함으로써, 사용자의 청력이 실제 생활에서 어떻게 영향을 받는지 더 정확하게 묘사될 것이다. 또한, 본 발명은 특정 사용자에 대한 특정한 양상들을 고려한다. 예를 들어, 청력 테스트는 간섭 또는 잡음과 같은 네트워크 효과를 고려할 수 있으며 또는 이들이 사용하는 특정 압축 알고리즘들과 같은 사용자의 특정 네트워크 공급자에 대해서 특정한 양상들을 고려할 수 있다. 이것은 또한, 사용자의 특정 디바이스와 관련된 양상들, 예를 들어 디바이스 스피커의 트랜스듀서 효과를 고려할 수도 있다. 또한, 보청기 및/또는 임플란트와 같은 사용자의 다른 청력 디바이스들의 양상들이 고려될 수 있다.

S1에서 도시된 바와 같이, 청력 테스트는 통신 네트워크 내의 네트워크 엔티티(예를 들어, 오디오 향상 컴포넌트(20)에 포함된 엔티티 또는 서버)와 사용자(예를 들어, 사용자 14)의 사용자 디바이스 사이에 확립된 통신 링크를 통해 사용자에 대해 수행된다. 통신 링크는, 서버와의 콘택을 사용자가 개시함으로써, 예를 들어 청력 테스트의 서비스 제공자의 전화번호로 사용자가 전화를 걸음으로써, 네트워크 엔티티와 사용자 디바이스 사이에서 확립될 수도 있다. 대안적으로는, 서비스 제공자는 예를 들어 사전에 정해진 시간에 사용자 디바이스를 통해 사용자를 호출할 수 있다. 하지만, 링크가 확립되면, 청력 테스트는 통신 네트워크 내의 네트워크 엔티티와 사용자의 사용자 디바이스와의 사이에 확립된 링크를 통해 수행되는 것으로 이해될 것이다.

일부 실시예에서, 청력 테스트는 플랫폼을 사용할 수 있다. 이것은 호출 중에 또는 이와 유사한 플랫폼과 동일한 미디어 향상 플랫폼일 수 있다. 청력 테스트는 대안적으로 또는 추가적으로 웹 기반 테스트 포털을 사용할 수 있다. 이것은 사용자의 전화로 및/또는 사용자의 전화로부터 자동 전화를 시작 및/또는 수신할 수 있다. 이 포털은 하나 이상의 화면 상의 프롬프트 혹은 지침을 통해 사용자에게 테스트 프로세스를 안내할 수 있다. 이 포털은 미디어 향상 플랫폼과 상호 작용하여청력 테스트를 수행할 수 있다.

청력 테스트는 자동 또는 반자동 방식으로 수행할 수 있다. 예를 들어 사용자는 서버/서비스 제공자 자동 프롬프트를 따를 수 있다. 또는 사용자는 청력 테스트를 수행하는 서비스 제공자의 운영자와 직접 대화할 수 있다. 프롬프트는 시각적 프롬프트 및/또는 음성 프롬프트일 수 있다. 프롬프트는 사용자의 사용자 디바이스에 디스플레이될 수 있다. 프롬프트는 청력 테스트를 수행하기 위해 서버와 통신하는 동일한 사용자 디바이스에 제공될 수 있다. 대안으로, 프롬프트는 별도의 사용자 디바이스 상에 제공될 수 있다. 예를 들어, 사용자는 서비스 제공자의 서버와의 통신 링크를 갖는 사용자 디바이스를 통해 청력 테스트를 수행함과 동시에 랩탑 또는 태블릿에 표시된 프롬프트를 따를 수 있다.

S2에서 도시된 바와 같이, 청력 테스트는 사용자에게 오디오 자극을 제공하는 단계를 포함한다. 오디오 자극은 복수의 테스트 주파수들에서 사용자 디바이스에 제공된다.

일부 실시예에 따르면, 오디오 자극은 백색 잡음을 포함한다. 백색 잡음은 하나 이상의 인간 음성에 기초할 수 있는데, 이는 전화 통화 동안과 같이 사용자 디바이스에서 통상적으로 사용자가 들을 수 있는 소리의 유형을 보다 정확하게 모방한다. 일부 실시예에 따르면, 오디오 자극은 1/3 옥타브 폭의 노이즈 대역을 포함한다.

일부 실시예에 따르면, 복수의 테스트 주파수들에서 사용자에게 오디오 자극을 제공하는 단계는 500Hz, 1000Hz, 2000Hz, 3000Hz, 6000Hz 중 2개 이상에서 오디오 자극을 제공하는 단계를 포함한다. 이러한 값은 단지 일례일 뿐이고 500Hz 이하 또는 6000Hz 보다 높은 주파수를 포함하여 다른 값들이 사용될 수 있다. 예를 들어, 광대역 또는 초광대역 음성 코덱에는 6000Hz 이상의 값이 사용될 수 있고, 협대역 코덱에는 최대 3000-3400Hz를 사용할 수 있다. 백색 잡음은 테스트 주파수들에서 사전 정의된 순서(예컨대, 500Hz, 1000Hz, 2000Hz, 3000Hz, 6000Hz)로 재생될 수 있다. 주파수 변화는 단계적으로 수행될 수 있다.

S3에서, 사용자 디바이스로부터 수신된 오디오 자극에 대한 응답이 모니터링된다. 이것은 또한 측정 응답을 포함할 수 있다. 응답을 모니터링하는 것은 사용자가 재생된 오디오 자극을 들었는지 여부를 효과적으로 확인할 수 있다. 모니터링은 예를 들어 사용자 디바이스(사용자의 전화 또는 관련된 랩톱, 태블릿 등일 수 있음) 상의 키 누름 또는 사용자로부터의 음성 응답과 같은 사용자로부터의 피드백에 대한 모니터링을 포함할 수 있다.

사용자에게 오디오 자극을 재생하기 전에, 사용자의 청각 능력에 관한 정보가 사용자로부터 얻어질 수 있다. 일부 실시예에서, 이것은 성별 및/또는 연령에 의해서도 적어도 부분적으로 추정되거나 및/또는 미리-정의될 수 있다. 이것은 사용자의 청력 상실에 대한 표시를 획득하는 것을 포함할 수 있다. 여기에는 다양한 기관 측정값들에 따라 사용자의 청력 손실이 없거나(none), 경미하거나(mild), 중간이거나(moderate), 중증(severe), 극히 중증(severe-to-profound))인지의 정보를 획득하는 것을 포함한다. 사용자는 이 정보를 제공하도록 요청받을 수 있다. 사용자의 청력 손실에 대한 표시는 청력 테스트의 초기 볼륨을 결정하는데 사용될 수 있다. 응답을 모니터링하는 것에 응답하여 청력 테스트 중에 오디오 자극의 볼륨을 조절할 수 있다. 예를 들어, 사용자로부터의 긍정적인 응답에 대응하여, 볼륨이 다음 자극에 대해 감소될 수 있다. 이것은 5dB 간격으로 발생할 수 있다. 물론, 단계적 변화는 상이한 실시예에서는 다른 양에 의한 것일 수 있다. 사용자로부터의 널(null) 응답에 대응하여, 상기 방법은 오디오 자극의 볼륨을 증가시키는 단계를 포함할 수 있다. 볼륨 증가는 볼륨을 10dB 단위로 증가시킬 수 있다. 물론, 단계적 변화는 상이한 실시예에서 다른 양에 의한 것일 수 있다. 일부 실시예에서, 오디오 자극의 볼륨의 조정은 각각의 테스트 주파수에서 발생할 수 있다.

일부 실시예에 따르면, 각 오디오 자극의 지속 시간은 1000ms 또는 대략 1000ms이다. 물론, 이것은 비제한적인 일례로서, 다른 실시예에서는 오디오 자극의 지속 시간이 다른 값을 가질 수 있다. 각 오디오 자극 내에서 볼륨의 변화 또는 변동이 있을 수 있다. 예를 들어, 각 오디오 자극은 배경 잡음 레벨과 60dB(또는 대략 60dB) 사이에서 볼륨을 증가/감소시키는 하나 이상의 램프들을 포함할 수 있다. 이러한 60dB 라는 값은 단지 일례일 뿐이고 다른 실시예에서는 상이한 값이 사용될 수 있다.

청력 테스트에 기초하여 그리고 S4에 도시된 바와 같이, 청력 프로파일이 사용자에 대해 생성될 수 있다. 이것은 청력 프로파일 임계값으로 간주될 수 있다. 청력 프로파일은 신호 품질, 네트워크 잡음 등과 같은 네트워크 효과뿐만 아니라 사용자의 디바이스와 관련된 효과들(예컨대, 트랜스듀서 효과)을 고려하여 사용자의 청력 손실에 대한 정확한 측정을 포함한다.

청력 프로파일이 생성되면, 청력 프로파일은 네트워크 엔티티의 메모리에 저장할 수 있다. 이러한 네트워크 엔티티는 사용자의 사용자 디바이스와 통신 링크를 갖고 청력 테스트를 수행한 네트워크 엔티티와 동일한 네트워크 엔티티일 수 있다. 대안적으로는, 이것은 다른 네트워크 엔터티이거나 또는 디바이스 상에 존재할 수 있다. 이것은 S5에 도시된다. 청력 프로파일은 또한 다른 네트워크 엔티티 또는 사용자 디바이스를 포함하는 다른 엔티티에 저장될 수 있다. 청력 프로파일을 저장함에 있어서, 사용자 및/또는 사용자 디바이스간에 연관이 이루어질 수 있다. 예를 들어, 연관은 룩업 테이블에 저장될 수 있다. 이를 통해 해당 사용자의 사용자 디바이스로 오디오 신호를 전송 및 수정할 때 해당 사용자의 청력 프로파일이 획득 및 이용될 수 있다. 다시 말해서, 저장된 청력 프로파일은 사용자 디바이스로의 오디오 신호를 수정하는데 이용가능하다. 당연하게도, 네트워크 엔티티는 사용자들 및/또는 사용자 디바이스들과 관련된 청력 프로파일들 사이에서 복수개(수백, 수천, 수백만 등일 수 있음)의 이러한 연관들을 저장할 수 있다. 일부 실시예에 따르면, 사용자와 관련된 정보는 사용자의 식별자를 포함한다. 식별자는 고유 식별자일 수 있다. 식별자는 예를 들면 사용자의 이름일 수 있다. 식별자는 추가적으로 또는 대안적으로 사용자의 사용자 디바이스에 대한 식별자를 포함할 수 있다. 예를 들어, 식별자는 사용자 디바이스의 MSISDN을 포함할 수 있다.

일부 실시예들에서, 청력 테스트는 청력 테스트의 출력을 프로세싱 및 미세 조정하는 것을 포함할 수 있다. 이러한 것은 네트워크 엔티티가 사용자와 통신하는 동안에 발생하거나 또는 사용자가 오디오 자극의 청취를 완료한 후에 발생할 수 있다. 이러한 것은 청력 프로파일을 사용자의 귀(natural ear)에 맞게 미세 조정할 수 있게 하거나 또는 사용자의 또 다른 청각 디바이스(예컨대, 보청기 또는 달팽이관 임플란트)에 맞게 청력 프로파일을 미세 조정할 수 있게 한다. 이와 관련하여, 상기 방법은 청력 테스트의 결과를 사용자 및/또는 네트워크 엔티티와 통신하는 운영자에게 시각적으로 디스플레이하는 단계를 포함할 수 있다. 미세 조정은 예를 들어 사용자 디바이스 또는 별도의 랩톱, 태블릿 등을 통해 사용자에 의해 수행될 수 있다. 추가적으로 또는 대안적으로, 미세 조정은 네트워크와 통신하는 운영자에 의해서 수행될 수 있다. 예를 들어, 상기 운영자는 오디오 수정 서비스를 제공하는 서비스 제공자의 직원일 수 있다.

도 13은 사용자 디바이스의 관점에서 바라본, 소정 실시예에 따른 방법을 도시하는 흐름도이다.

S1에서, 사용자는 그들의 사용자 디바이스를 통해 네트워크 엔티티와 확립된 통신 링크 상에서 청력 테스트에 참여한다.

S2에서, 디바이스는 통신 링크를 통해 복수의 테스트 주파수들에서 오디오 자극을 수신한다. 즉, 청력 테스트는 앞서 상세히 설명한 방식으로 수행된다.

S3에서, 사용자는 오디오 자극에 대한 하나 이상의 응답들을 네트워크 엔티티에 제공한다. 응답은 사용자가 오디오 자극을 듣고있는 사용자 디바이스를 통해 제공될 수 있으며 또는 상기 응답은 사용자의 별도 디바이스, 예를 들어 사용자의 랩톱 또는 타블렛을 통해 제공될 수도 있다.

이어서, 사용자는 단계(S4)에 도시된 바와 같이 수정된 오디오 신호를 그들의 사용자 디바이스에서 수신할 수 있다. 이러한 수정된 오디오 신호는 위에서 상세히 설명된 것처럼 청력 테스트 이후 사용자를 위해 생성된 청력 프로파일을 기반으로 수정된다.

수정된 오디오 신호는 실시간으로 사용자의 사용자 디바이스로 전달될 수 있다(그리고 궁극적으로는 사용자의 자연 귀, 보청기 또는 임플란트 등에 전달됨). 예를 들어, 청력 테스트를 수행하고 저장된 청력 프로파일을 가진 사용자를 사용자 A라 하자. 사용자 A의 식별자(예: MSISDN)는 사용자 A의 청력 프로파일과 관련되어 네트워크에 저장된다. 이어서, 제 2 사용자(즉, 사용자 B)가 사용자 A에게 전화를 걸면, 사용자 A의 청력 프로파일이 메모리에서 검색되고 그리고 사용자 A의 청력 프로파일(또는 "성문")에 따라 수정된 사용자 B의 음성(및 실제로 다른 오디오 신호로)으로 상기 호출이 계속 진행될 수 있다. 오디오 신호를 수정하는 것은, 오디오 신호를 필터링하는 것; 상기 오디오 신호의 진폭을 조정하는 것; 상기 오디오 신호의 주파수를 조정하는 것; 오디오 신호의 피치 및/또는 톤을 조정하는 것 중 하나 이상을 포함할 수 있다. 일부 실시예에 따르면, 오디오 신호 수정은 네트워크 엔티티 내의 사운드 프로세싱 엔진 또는 네트워크 엔티티에 의해 수행될 수 있다.

일부 실시예에 따르면, 사용자 디바이스의 위치에서의 주변 잡음이 기록될 수 있다. 주변 잡음은 사용자 디바이스의 하나 이상의 마이크로폰을 사용하여 기록될 수 있다. 주변 잡음 정보는 네트워크로 전송되어 저장될 수 있다. 주변 소음 정보는 예를 들어, 전화 통화 중에 실시간으로 수집되고 저장될 수 있다. 주변 잡음 정보는 또한 수정된 오디오 신호를 실시간으로 사용자 디바이스에 전달하는데 사용될 수 있다.

오디오 신호 수정에 대한 추가적인 세부 사항들이 예로서 설명될 것이다.

FFT-기반의 신호 처리 함수의 개요(Overview of an FFT-based signal processing function)

디지털 오디오는 일반적으로 오디오 샘플들의 타임 시리즈로 구성되는 것으로 간주된다. 연속 사운드의 일루젼(illusion)을 유지하기 위해서, 새로운 샘플은을 매 시간 기간마다 아날로그로 변환되어야 하며, 이러한 기간은 샘플링 주파수의 역수(reciprocal)이다. 그러나, 이러한 알고리즘에서 오디오의 실제 프로세싱은 반드시 연속적인 샘플 기반(continuous sample-by-sample basis)으로 수행되어야 하는 것은 아니며, 길이가 128 샘플들인 오디오 샘플의 "프레임들"에 의해 수행된다. 각 프레임, 판독 및 기입 모두는 이전 프레임과 50% 중첩될 수 있다. 따라서 오디오 스트림의 각 샘플은 실제로 프로세싱을 위해 2번 전송될 수 있다.

프레임들의 프로세싱 레이트는 오디오 샘플링 레이트보다 훨씬 느릴 수 있다:

FsFFT = Fs/(프레임 길이/2)

여기서, FsFFT는 프레임의 샘플링 레이트이고, Fs는 (오디오 샘플들의) Hz 단위의 샘플링 레이트이며, 프레임 길이는 프레임 내의 샘플들의 개수이다.

상기 프로세싱의 샘플링 레이트는 항상 하나의 값, 예를 들어 16 kHz일 수 있지만, 만일 오디오 스트림이 임의의 다른 레이트로 도달한다면, 2개의 레이트들 사이에서 샘플 레이트 변환이 요구될 수도 있다.

일 실시예에서, 16 kHz에서 128 샘플들의 FFT(Fast Fourier Transform) 길이가 사용될 수 있다. 그러나, 이러한 알고리즘이 요구되는 문맥 때문에, 각 FFT 프레임에 삽입되는 오디오 샘플의 개수를 적응시키는 것이 필요할 수 있다.

2 개의 서로 다른 샘플 레이트들이 동시에 실행되면, 프로세싱을 연속적으로 유지하기 위해 병렬로 실행되는 2개의 프로세스들이 필요할 수 있다.

(1) 출력 스트림에 배치하기 위해 출력 버퍼로부터 샘플을 취함과 아울러, 입력 스트림으로부터 샘플을 취하고 그리고 이것을 입력 버퍼에 배치하는 인터럽트-구동 프로세스(interrupt-driven process).

(2) 현재의 입력/출력 샘플 버퍼가 채워지기 혹은 비워지기 전에 완료될 수 있는 프레임 기반 프로세싱(frame based processing).

이 형태의 "오버랩-애드(overlap-add)" 프로세싱의 입력과 출력 사이의 최소 오디오 시간 지연은, 예를 들어, 프레임 길이의 1.5 배이다. 인터럽트-구동 프로세스를 위한 버퍼 포인터는 full/empty 플래그가 발생하면 하나의 샘플주기(1/Fs) 내에 업데이트될 수 있으며, 그렇지 않으면 오디오의 스터터링(stuttering)이 발생할 수 있다. 프레임 프로세싱이 충분히 강력하다면, 입력/출력 버퍼가 모두 소모되거나 또는 채워지기 전에 프레임이 프로세싱될 수 있다.

프로세싱에 대한 다음의 의사코드 예제(pseudocode example)에서, 단계의 주요 함수는 굵은 글씨체의 로마 숫자(0, I, II, III, IV, V, VI)로 표시되며 그리고 프로세싱된 각각의 하위-단계는 보통 유형의 숫자(예컨대, 1)로 표시된다. 만일, 단계 내에 조건부 프로세싱이 존재한다면, 이러한 조건들은 예컨대, (1.1, 1.2, ...)와 같이 소수점 다음의 숫자들로 표시된다.

(0) 시작: 다음 중 하나가 누적되었다고 가정한다.

(0.0) 8 kHz의 샘플링 레이트에서 오디오의 32개 샘플들 또는

(0.1) 16 kHz의 샘플링 레이트에서 오디오의 64개 샘플들이

input(i)라 지칭되는 버퍼에서, 샘플 레이트에 따라 i = 0 .... 31 또는 0 ... 63 이 누적됨.

이후, 프로세스는 다음과 같이 계속된다.

(I) 모든 오디오 샘플들이 단일 정밀도(single precision)(4 바이트) 부동 소수점 포맷 샘플들에서 선형 표현으로 변환되어야 하므로, 임의의 순시 압축(instantaneous compression)이 취소(undo)될 필요가 있다.

(1.1) 샘플들이 "mu-law"에 도달하거나

(1.2) "A-law"코딩,

(1.3) 임의의 다른 비선형 코딩 포맷에 도달한다면

이들은 역함수()(룩업 테이블 사용)를 사용하여 취소될 수 있다.

의사코드: xt_lin = inv_law(input);

여기서, xt_lin은 선형 포맷의 샘플 값이고, input은 인입 최신 버퍼이다. inv_law()는 압축된 샘플 값(8 비트 정수, 따라서 충분한 256-엔트리 테이블)과 선형 샘플 값의 부동 소수점 표현 간의 매핑 함수이다.

실시예에서, 이것은 모든 샘플에 대해 반복되는 함수 호출들을 방지하기 위해 한 번에 하나의 버퍼로 수행된다.

(II) 데이터는 8 kHz(표준 전화 레이트) 또는 16 kHz(광대역폭)의 두 가지 샘플링 속도 중 하나에서 도달할 것으로 예상된다. 따라서, 실시예들에서, 모든 프로세싱은 고정된 길이의 "프레임들"에서 16kHz 샘플링 레이트로 수행된다.

(1) FFT 구조 내에서 샘플-레이트 변환이 수행될 수 있다.

각각의 FFT 프레임은 가장 최근의 입력 버퍼로 절반이 채워지고 나머지 절반은 이전 입력 버퍼에서 채워진다. 따라서, 인접한 프레임 사이에서 샘플들의 50% 중첩이 있을 수 있다(각각의 입력 버퍼가 2개의 연속적인 프레임들에 나타난다). 삽입된 오디오 샘플 외부에 "제로 패딩(zero-padding)"이 있을 수도 있다.

(2) 선형 코딩된(linear-coded) 오디오 샘플을 유지하기 위해서, 길이 128 샘플의 빈 프레임을 한번 구성한다.

(인덱스 0 ~ 127)

의사 코드: x = xeros(128,1);

(3.1) 오디오가 8 kHz 샘플링 속도인 경우, 최신의 32개의 오디오 샘플들이 도착한 이후, 이들 샘플들은 x의 인덱스 위치들 65, 67, 69 .... 127에서 input(0, ... 31) 내에 삽입될 수 있다. 새로운 프로세싱 시퀀스의 제일 첫 번째 프레임의 경우, 어레이의 나머지는 채워지지 않은채로 남아있을 수 있다(0으로 채워짐). 다른 모든 프레임들의 경우 인덱스 위치들 1, 3, 5 ....... 63은 이전 입력 버퍼(0 ..... 31)로부터의 32개 샘플들로 채워질 수 있다.

(3.2) 오디오가 16 kHz 샘플링 레이트라면, 최신의 64 개의 오디오 샘플들이 input(0 ..... 63)에 삽입될 수 있으며 그리고 이들을 프레임 내의 인덱스 위치들 64, 65, 66, ..... 127에 배치할 수 있다. 새로운 프로세싱 시퀀스의 제일 첫 번째 프레임의 경우, 프레임의 나머지는 채워지지 않은채로 남아있을 수 있다(0 .... 63). 다른 모든 프레임들의 경우, 인덱스 위치들 0, 1, 2, 3, ... 63은 이전 입력 버퍼의 64개의 샘플들로 채워질 수 있다.

(4) "윈도우" 함수를 생성한다. 이것은 대칭적인 램프 모양일 수 있으며 그리고 사인 파형의 0-pi 표현일 수 있다. 이것은 작은 어레이로 사전-계산될 수 있으며, 프로세싱에서 다시 이용될 수 있다. 인덱스 i에서 이러한 윈도우의 샘플 값들은 W(i)로 지칭된다.

의사코드: i = 0, 1, 2 ......... 127에 대하여

W(i) = sin((i + 0.5) *(pi/N))

여기서 pi = 3.14159265이고 N은 오디오 어레이 사이즈(N = 128)이다.

(5) 프레임 어레이가 "윈도우화(windowed)" 된다. 이것은 오디오 스트림과 윈도우 W(i) 간의 샘플 곱셈(sample multiplication)에 의한 샘플이다.

의사코드: xw(i) = W(i) * x(i); i = 0 ....... 127

(III) 이러한 데이터 프레임에 대해 포워드 FFT를 수행한다.

(6) 의사코드: xf = fwd_fft(xw);

FFT 함수는 길이가 같은 어레이를 생성할 것이지만, 데이터 타입은 복소수들을 포함하게 변경될 것이다.

(a) 출력 어레이는 양의 주파수와 음의 주파수의 2개의 반쪽들(two halves)로 간주된다. 출력 어레이의 각각의 포인트에 대해서, 등가 주파수는 다음과 같이 계산될 수 있다:

f(i) = i * Fs/N for i = 0,1, ....... 63(2)

f(i) = (128-i) * Fs/N for i = 64, 65, ...... 127(3)

여기서 Fs는 샘플링 레이트(16 kHz)이고, i는 128-포인트 어레이에 대한 인덱스이다(함수가 전체 어레이를 반환한다고 가정하면). N은 어레이 사이즈(N = 128)이다. 등식(2)는 FFT 어레이의 "양의 주파수" 측을 정의하는 반면에 등식(3)은 FFT 어레이의 "음의 주파수" 측을 정의한다. f(i = 0)은 0 Hz이고, 따라서 실수이며, 평균 레벨(DC 레벨)을 나타낸다.

Fs = 16,000 및 N = 128을 사용하면 "빈 간격(bin spacing)" 또는 (f(i + 1) -f(i)) = 125Hz 이다.

(b) 일부 라이브러리들은 오디오용으로, 구체적으로는 실제 데이터 전용으로명시적으로 설계된 FFT 함수를 포함할 수 있다. 이들은 양의 주파수에 대한 값들만을 단지 포함하는 절반 크기의 어레이를 생성할 것이다. 내부적으로는, 이러한 라이브러리 함수들은 올바른 포워드 및 인버스 변환을 생성하기 위해 음의 주파수 성분들에 대해 필수 조작들을 수행할 것이며, 따라서 프로세싱 파워를 절약할 수 있다.

(c) FFT로부터 반환된 배열이 양의 주파수 성분과 음의 주파수 성분을 모두 가지고 있는 경우, 양의 주파수 도메인의 주파수 포인트에서 수행된 임의의 계산은 음의 주파수 도메인에서 반복될 필요가 없으며 단지, 동일한 양의 주파수 포인트의 복소 공액(complex conjugate)만이 복사될 필요가 있다.

(6.1) 입력 오디오 스트림이 원래 8 kHz에서 샘플링되었다면, FFT 어레이에서 f(i)> 4000(Fs/2) 인 성분들은 0으로 설정될 필요가 있을 것이다(잠재적으로 어레의 2개의 반쪽들). 이것은 "앨리어싱"을 제거하는 것이며, 8 kHz로부터 16 kHz로 샘플링 레이트 변환을 수행한다.

의사코드: i_stop_pos = round(4000 * Fs/N);

i_stop_neg = round(128 -(4000 * Fs/N));

xf(i> i_stop_pos & i <63) = 0;

xf(i <i_stop_neg & i> 63) = 0;

라운딩 함수가 이용되어 그 어떤 분수 인덱스들이 생성되지 않도록 하고 샘플 레이트 또는 N의 향후 변경을 방지하는데 사용된다.

(6.2) 입력 오디오 스트림이 원래 16kHz에서 샘플링 되었다면 아무런 프로세싱도 필요하지 않다.

(IV). 코드의 핵심: FFT 동안 이득 삽입과 압축을 구현하는 소프트웨어(여기에 프로세싱이 삽입되지 않은다면, 사실상 루프 백 함수)

본원의 압축 시스템은 주파수 도메인에서 작동하도록 설계되었지만, 오디오 신호를 4개의 채널로 분할하여, 단기 채널 전력을 계산하고 그리고 이를 바탕으로 예를 들어, 청각 장애가 있는 사용자의 경우 오디오 신호를 가청도(audibility) 및 편안함으로 다시 매핑하는 동적으로 변하는 이득을 적용한다.

각 사용자에게 필요한 일회성 사전 계산 소프트웨어(Software for one-off pre-calculations necessary for each user)

모든 사용자들은 서로 다른 청각 특성들을 가질 것이므로, 모든 사용자에게 대하여 고유한 보청기 설정(a unique hearing aid setting)이 계산될 수 있다:

(A) FFT 주파수의 함수로서, "65"dB SPL 스피치에 대한 삽입 이득(insertion gain:IG), IG65

오디오그램(audiogram) 측정을 통해, 주파수의 함수로서 이득의 정확한 값이 계산된다.

의사코드: [freq_ig, gain_dB] = IG65(오디오그램도, 연령, 보청기 경험);

여기서, freq_ig는 로그 스케일 수 있고, 그리고 gain_dB는 선형 이득의 로그 함수인 데시벨로 이득을 표현할 것이다.

의사코드: gain_dB = 20 log10(gain_linear);

gain_linear = 10^(0.05 * 이득 _dB);

이러한 이득은 주파수 도메인에서 오디오 프레임의 FFT에 적용될 수 있다. 따라서, 이득 값들은 [freq_ig, gain_dB] 그리드로부터 FFT의 선형 주파수 그리드로 보간된다.

이것은 2가지 다른 방법으로 수행된다: 제 1 방법은 선형 주파수 스케일에서 선형 이득을 보간하는 것이고, 제 2 방법은 로그 주파수 스케일(logarithmic frequency scale)에서 로그 이득(dB)을 보간하는 것이다.

다음을 가정하자(given):

f(i) = i * Fs/N for i = 0,1, ....... 63(2)

및 f(i) =(128-i) * Fs/N for i = 64, 65, 127 ......(3)

(2-sided FFT 계산이라 가정하자)

그러면(then)

의사코드:

IF((f(i) < min(freq_ig))

Glinf(i) = gain_lin(min(freq_ig));

Glogf(i) = gain_dB(min(freq_ig));

elseif((f(i)> max(freq_ig))

Glinf(i) = gain_lin(max(freq_ig));

Glogf(i) = gain_dB(max(freq_ig));

else

scale

Glinf = lin_interp(freq_ig, gain_lin, f);

Glogf=lin_interp(log10(freq_ig), gain_dB, log10(f));

end

첫 번째 'if' 루프에서, 주파수들에 대해서 핸들 이득들(handle gains)이 IG65 어레이의 최하값보다 낮은지의 여부가 결정될 수 있다. 조건이 충족되면 로그 이득은 최소 주파수 값들을 사용하여 로그 주파수에 대해 보간될 수 있다.

두 번째 'elseif' 루프는 주파수들에 대해서 핸들 이득이 IG65 어레이의 그것들 보다 높은지의 여부를 결정할 것이다. 조건이 충족되면 로그 이득은 최대 주파수 값들을 사용하여 로그 주파수에 대해 보간될 수 있다.

만일, 그 어떤 조건도 충족되지 않으면, 상기 값들은 선형적으로 보간될 수 있다.

원래의 삽입 이득 어레이 외부의 주파수들에서 이득 값들이 요구되는 경우, 외삽법(extrapolation)은 없지만, 동일한 이득 값이 삽입 이득 어레이의 관련 단부로부터 연장된다.

오류를 유발할 수 있으므로, f = 0 또는 f < 0 인 경우, log10(f) 또는 log10(freq_ig)이 위반되지 않도록 주의해야 한다.

선형 보간을 위한 의사코드:

NewY(i) = OldY(f(j)) + (OldY(f(j+1) - OldY(f(j))) * (NewX(i) - OldX(j)) / (OldX(j+1) - OldX(j));

여기서 OldX(j)와 OldXf(j + 1)는 NewY(i) 값을 제한하는(bound) 알려진(x, y) 함수 내의 X 포인트들이며, NewY(i)는 계산되기를 원하는 것이다.

(B) IG65를 적용한 후 스피치-형태의 잡음에 대한 채널 레벨들을 계산한다

이것은 교정 절차(calibration procedure)의 일부를 형성한다. FFT 어레이에 적용되는 이득의 2개의 주요 스테이지들이 존재한다.(i) 규정된 삽입 이득(65 dB SPL 스피치에 대해) 및(ii) 동적 압축 이득이 그것이다. 동적 범위 압축 소프트웨어(dynamic range compression software) 이전에 사용자-특정 삽입 이득(user-specific insertion gain)이 적용될 수 있다. 65 dB SPL의 스피치 입력의 경우, 이득들의 조합은 규정된 삽입 이득과 동일할 필요가 있다. 압축기에 대한 채널 전력이 65-dB SPL 스피치 잡음이 적용될 때 생성된 것인 경우, 동적 압축 이득이 0 dB가 되도록 보정 팩터(correction factor)가 계산될 수 있다. 따라서, 이러한 상황 하에서 채널 레벨들이 계산된다. 비록 이것은 FFT 도메인에서 행해질 수도 있지만, 바람직한 실시예에서 이것은 삽입 이득이 지정된 레벨과 동일한 디지털 RMS를 갖는 신호 파일로 완료된다. MAS는 원하는 스펙트럼을 갖는 2 초(2-sec) 노이즈 파일을 제공할 수 있지만, 이것은 정의된 참조 레벨들에 따라 사용 전에 스케일링될 수 있다. 압축 시스템에 대해서 채널 에지 주파수들이 계산될 수 있다. 이를 통해 오디오 신호를 FFT 프로세싱에서 3개 또는 4개의 개별 채널들로 분할하여 반-독립적으로 조작할 수 있다. FFT 도메인에서 계산들이 완료되었으므로 대역 통과 필터링이 이미 수행되었지만, 고정된 선형 주파수 그리드에서 수행된다. 채널 전력들을 계산하기 위해, 원하는 채널들의 대역-통과 섹션 내에 있는 개별 FFT 빈들(bins)로부터의 전력이 합산될 수 있다. 비록, FFT 빈들(bins)에서 전력이 합산되지만, 채널들의 "에지 주파수들"은 n*125 + 125/2 Hz에서 FFT의 "bins" 사이의 중간에 있으며, 여기서 n은 정수이다.

(a) POTS, 여기서 스피치는 300-3400 Hz를 점유하며, 그리고 신호의 에지에서 전이 대역들(transition bands)이 허용된다.

주파수 스팬 FFT bin 번호(ChanjFFTbin {Start/End}라 함)

채널(1) 250 ~ 750Hz 2-6

채널(2) 750 ~ 1500Hz 7-12 (NB는 750Hz에서 bin을 이중 계산하지 않음)

채널(3) 1500 ~ 3500Hz 13-28(NB는 1500Hz에서 bin을 이중 계산하지 않음)

채널(4) 3500 ~ 3875Hz 29-126(더미 채널, 신호를 전송해서는 안됨)

(b) 광대역 스피치:

주파수 스팬 FFT bin 번호(ChanjFFTbin {Start/End}라 함)

채널(1) 0(DC) ~ 750Hz 0-6

채널(2) 750 ~ 1500Hz 7-12

채널(3) 1500 ~ 3500Hz 13-28

채널(4) 3500 ~ 7875Hz 29-126

이와 같이 FFT 도메인에서 잡음 교정 신호를 프로세싱하고 채널 전력들의 평균 레벨을 형성한다.

의사코드:

(i) 어레이가 초기화된다(맨 처음에만 필요함).

for j = 1, 2, 3; ChannelPower65(j) = 0; end

(ii) xf에 삽입 게인을 적용한다.

xf_ig(i) = xf(i) * Glin(i);

(iii) 각 FFT "bin"에서 전력을 계산한다.

BinPower(i) = xf_ig(i). * conj(xf_ig(i);

(iv) 각 빈으로부터의 전력들을 그것의 관련 압축 채널로 합산한다. 변수들 ChanjFFTbinStart to ChanjFFTbinEnd 에서 시작 및 종료 bins은 전술한 바와 같이 주어진다.

for j = 1, 2, 3, 4

ChannelPower65(j) = sum(BinPower(i));

'i' 값은 여러 개의 빈들(bins)에 걸쳐 있을 것이다.

'ChannelPower65' 벡터는 교정 프로세싱시 생성된 각 프레임에 대해 계산된다(k로 인덱스화됨).

그러면: CalibPower65(j) = mean(ChannelPower65(j, k));

마지막으로 이러한 전력을 dB로 변환한다:

CalibLevel65dB(j) = 10*log10(CalibPower65(j)); for j = 0 ... 3;

이러한 10*log10()에는 CalibPower로부터 CalibMagnitude로 변환하기 위한 implicit sqrt()가 포함되어 있음을 유의해야 한다.

비록, 삽입 이득 및 CR이 각각의 사용자에 대해 선택되지만, 다른 파라미터들은 그렇지 않을 수도 있으며, 그리고 양호한 오디오 품질을 제공하도록 정의될 수 있다.

이것들은:

(a) 채널 압축 임계값, Chan_dBthr, 이것은 65dB 스피치-형상 잡음, Chan0dBGn_lvl 을 운반할 때 채널 레벨에 대한 데시벨 숫자로 표현된다. Chan_dBthr의 범위는 0 에서 -15 이다.

(b) 채널 압축기에 대한 어택(attack) 및 릴리스 시간들: att 및 rel 이고, 밀리세컨드로 표현되며, 입력 레벨의 변화에 대해 압축기가 응답하는 속도이다. 어택 시간(신호 레벨이 상승하는 경우)은 일반적으로 릴리스 시간(신호 레벨이 하강하는 경우)보다 훨씬 짧으며, 적어도 2 : 1 비율이다.

(c) 채널 압축기 리미터가 채널 압축기 출력보다 위에서 커팅하는 상대적인 레벨인 deltaFSdB, 데시벨로 표시되며, 전형적인 값은 10 - 20 이다.

(d) 채널 리미터들에 대한 어택 및 릴리스 시간: t_att_lim 및 t_rel_lim 이다. 이들은 전형적으로 각각 3 msec 및 80 msec로 설정된다.

(C) 프로세싱의 처음에서, 각 채널에 대해 다음 계산들이 완료될 수 있다(각 변수는 채널별로 계산할 수 있다고 가정)

(C.1) Expon = (1-CR)/CR

[CR]은 1 이하일 수 없다.

(C.2) dB로 표현된 압축 임계값이 선형 값으로 변환된다

cthresh = 10 ^(. 05 * Chan_dBthr)

(C.3) 채널 교정 팩터(channel calibration factor)가 계산된다. 이것은 65dB의 스피치를 전송할 때의 채널 레벨을 기준으로 한다. 따라서 위의 섹션 B에서 이것이 계산된 이유이다.

G0dB_norm =(10^(-.05 * CalibLevel65dB))^Expon

(C.4) 상수는 단기 평균 레벨 I를 계산하는데 사용된 시스템의 어택 및 릴리스 시간들을 구현하기 위해 계산된다. 이들 시간들은, 레벨에서 35dB 스텝 변경이 압축기의 입력에 적용되었을 때 최종 값의 3dB 이내(어택킹) 또는 최종 값의 4dB 이내(릴리징)에서 이득 신호가 안정화되는 시간으로 정의된다(35, 3 및 4 라는 숫자는 아래에 등장할 것이다). 매우 낮은 CR 값들의 경우(일반적으로 약 1.2 미만), 전체 이득 변화는 3dB 또는 4dB를 약간 넘으며, 이는 계산시 오류가 발생할 수 있음을 의미한다. 따라서, 오류 검사가 구현되어 압축기가 적어도 이러한 이득 변경을 구현해야한다. 단기 평균 레벨 I에 대한 계산들은, FFT 사이즈, 오버랩 정도 및 샘플-기반 샘플링 레이트에 따라 달라지는 계산된 샘플링 레이트를 이용하여 매 프레임마다 업데이트된다.

FsFFT = Fs/(FFT size/overlap) = 16000/(128/2) = 250;

초당 프레임이 계산된다. FFT 프레임들 간의 오버랩은 50 %이므로 "/2" 수치이다.

Calculate:

(i) min_dstpdB = 35/8;

낮은 CR에서 아무런 문제가 없음을 보장한다. 여기에서 사용된 값은 CR <= 1.14 인 경우 4 dB 변경보다 큰 값을 얻기 위해 8로 나눈 것이다.

(ii) dstp_att = max(min_dstpdB, 35-3 * CR/(CR-1));

최대 이득 변경 값을 선택한다.

(iii) dstp_rel = max(min_dstpdB, 35-4 * CR/(CR-1));

최대 이득 변경 값을 선택한다.

(iv) k_att = 10^(0.05 *(- dstp_att/(t_att * FsFFT/1000)));

t_att 가 밀리세컨드로 변환된다.

(v) k_rel = 10^(0.05 *(- dstp_rel/(t_rel * FsFFT/1000))));

(C.5) 과부하로부터 각 채널을 보호하도록 압축 리미터의 어택 및 릴리스 시간들을 구현하기 위해 상수들이 계산될 수 있다.

(i) CRlim = 100;

진정한 리미터를 획득하기 위한 매우 높은 CR

(ii) dstp_att = max(min_dstpdB, 35-3 * CRlim/(CRlim-1));

dstp_rel = max(min_dstpdB, 35-4 * CRlim/(CRlim-1));

(iii) k_att = 10^(0.05 *(- dstp_att/(t_att_lim * FsFFT/1000))));

k_rel = 10 ^(0.05 *(- dstp_rel/(t_rel_lim * FsFFT/1000))));

(iv) ExponLim =(1-CRlim)/CRlim;

(v) deltaFSlin = 10 ^(- 0.05 * deltaFSdB);

채널 컴프레서 동작과 리미터 동작의 차이 비율(difference ratio).

(C.6) 채널 평균 레벨의 최신 버전들을 전달할 "상태" 벡터들을 초기화한다.

for j = 1, 2, 3, 4

ChanMeans(j) = Cthresh(j);

ChanLimMeans = Cthresh(j);

End

(D) 프레임 기반 처리(Frame-based processing)

모든 FFT 프레임에 대해 주파수-도메인 샘플들의 어레이가 예상된다(xf). 프로세싱할 FFT 어레이 및 미리-계산된 상수들(삽입 이득들, 압축기 세팅들, 교정 상수들)과는 별도로, 채널 압축기의 러닝 수단(running means) "상태" 벡터가 채널 리미터에 전달될 수 있다.

의사코드:

function [xfproc, ChanMeans, ChanLimMeans] = implement_hearing_aid(xf, ChanMeans, ChanLimMeans);

이것은 다음 단계들로 구성된다.

(D.1) 선형 삽입 이득들의 구현

xf_ig(i) = xf(i) * Glin(i)

(D.2) 교정에서 채널 레벨들을 계산하는데 사용되었던 것과 유사한 방법으로 압축기 채널 전력을 계산한다.

(i) for j = 1, 2, 3; ChannelPower65(j) = 0;

어레이를 초기화한다. 이것은 처음 시작할 때만 필요하다.

(ii) xf에 삽입 이득을 적용한다:

xf_ig(i) = xf(i) * Glin(i);

(iii) 각각의 FFT "bin"에서 전력을 계산한다.

BinPower(i) = xf_ig(i). * conj(xf_ig(i);

(iv) 각각의 빈으로부터의 전력을 그것의 관련 압축 채널로 합산한다. 변수들 ChanjFFTbinStart to ChanjFFTbinEnd 에서 시작 및 종료 bins은 전술한 바와 같이 주어진다.

for j = 1, 2, 3, 4

ChannelPower(j) = sum(BinPower(i)); (NB 'i' spans several bins)

ChannelLevel(j) = sqrt(ChannelPower(j));

end

계산식에서 보여지듯이 sqrt() 함수는 계산적으로 헤비하다.

(D.3) 각각의 압축 채널에 대해 하나씩 4 개의 이득들이 계산될 수 있다. 따라서 러닝 평균(running average)이 생성된다. 만일, 새로운 신호 레벨이 이전에 측정된 평균 레벨보다 높다면, 상기 신호는 "어택"으로 간주된다. 신호가 '어택'으로 간주되면 더 빠른 어택 시간 상수가 사용된다. 만일, 새로운 신호 레벨이 이전에 측정된 평균 레벨 이하이면, 신호는 "릴리즈"로 간주된다. 신호가 '릴리즈'로 간주되면 더 느린 릴리즈 시간 상수가 사용된다. max() 함수는 NewChanMeans가 압축 임계값 아래로 떨어지는 것을 중지하는데 사용된다. 이것이 구현되지 않는다면, 오랜 기간 동안의 침묵 이후에, 높은 레벨을 경험하면 압축기가 매우 낮은 평균 레벨에서 벗어나는 데 오랜 시간이 걸릴 수 있다.

(i) 채널 압축기 및 그것의 리미터 둘다에 대해 새로운 평균 값들을 생성한다

for j = 1, 2, 3, 4

압축기에 대한 새로운 ChannelMean을 계산한다

if ChannelLevel(j)> ChanMeans(j)

k = k_att;

else

k = k_rel;

end

NewChanMeans(j) = max(cthresh(j),(1-k). * ChannelLevel(j) + k.*ChanMeans);

평균 계산과 유사한 방법으로 리미터 값이 계산되며, 평균값은 압축기 레벨을 기준으로 추적된다

LimiterLevel(j) = ChanLevel(j) * deltaFSlin(j);

if LimiterLevel(j)> ChanLimMeans(j),

k = k_attlim; %% in FFT implementation this may be unity.

else

k = k_rellim;

end

NewLimMeans(j) = max(cthresh(j),(1-k). * LimiterLevel(j) + k. * ChanLimMeans(j));

end

(ii) 새로운 평균 레벨로부터 압축기 이득을 계산하지만, 일부 실시예들에서, 압축기 평균에 대한 리미터 평균의 비율에 기초하여 여분의 이득 감소를 부가한다.(a) 나누기 및 (b) 두 개의 지수(exponentiations)에 대한 계산 복잡도는 룩업 테이블을 사용하여 지수들을 일소하여 없앨수 있다.

Gain(j) =(NewChanMeans(j) ^ Expon(j)) * G0dB_norm(j);

if newChanMeans(j) <NewLimMeans(j) // Limiter will cut in.

Gain(j)=Gain(j)*(NewLimMeans(j)/NewChanMeans(j))^ ExponLim(j));

end

(iii) 4 채널 이득들을 FFT 어레이즈 사이즈로 확장한다. 각 이득은 bin 인덱스에 할당되며, 이로부터 해당 채널 전력이 계산된다. 인덱스들은 변수들 ChanjFFTbinStart to ChanjFFTbinEnd 에 저장된다.

프로세싱의 시작시에 어레이를 한번 초기화한다.

GainFFT = zeros(1, NFFT);

이후 모든 프레임에서(및 필요하다면, FFT 어레이를 채우는데 있어서 음의 주파수들을 고려한다);

for j = 1, 2, 3, 4

GainFFT(ChanjFFTbinStart(j).......ChanjFFTbinEndChannelPower(j) = Gain(j);

End

(iv) 이것은 GainFFT를 채널 에지들에서 사각형 스텝들을 가진 어레이로 남겨둔다. 이것은, 값들이 다시 시간 도메인으로 변환되는 때에 오류를 유발할 수 있다. 그러므로, 에지 값들은 3-탭 FIR 필터로 평활화되며, 그 계수는 Tap3 = [0.28 0.44 0.28]이며, 이는 k에 의해 인덱스화된다. 필터는, 시작 포인트들에 대하여 이득 함수를 필터링이 "쉬프트"하지 않도록 주의하면서, (주파수 도메인) 어레이의 전체 절반에 대해 포워드 및 백워드로(forwards & backwards) "런(run)" 된다. 대칭 FIR 필터이기 때문에 포워드 및 백워드는 동일하며 이는 동일한 코드가 상이한 시작 어레이로 제 2 패스(pass)에 적용될 수 있음을 의미한다.

(iv.1) Pass 1: 어레이들의 끝 부분에서 잠재적 오버랩/인덱싱 문제들을 제거한다.

for i = {0, 63}

SmootheGain1(i) = Gain(i);

end

에지 값들에 대한 FIR 필터 수행

for i = 2 ..... 62

SmootheGain1(i) = Gain(i-1)*Tap3(1) + Gain(i)*Tap3(2) + Gain(i+1)*Tap3(3);

end

(iv.2) Pass 2: 어레이들의 끝 부분에서 잠재적 오버랩/인덱싱 문제들을 제거한다.

for i = {0, 63}

SmootheGain2(i) = SmootheGain1(i);

end

에지 값들에 대한 FIR 필터 수행

for i = 2 ..... 62

SmootheGain2(i) = SmootheGain1(i-1) * Tap3(1) + SmootheGain1(i) * Tap3(2) + SmootheGain1(i + 1) * Tap3(3);

end

(iv.3) 필요한 경우 SmootheGain2 어레이를 음의 주파수들로 다시 확장한다.

(iv.5) 이미 삽입 이득이 적용된 어레이에 압축기 이득을 적용한다.

for i = 0 ..... 63

xf_proc(i) = xf_ig * SmootheGain2(i);

end

(iv.5) 이들 평균 레벨들을 유지하는 변수들을 업데이트 및 저장

ChanMeans = NewChanMeans; //4 channels

ChanLimMeans = NewLimMeans; //4 channels

(iv.6) 업데이트된 평균들(means)과 함께 함수들로부터 xf_proc을 반환(또는 다음 프레임까지 이들을 안전하게 유지)

(V) 이러한 데이터 프레임에서 인버스 FFT를 수행한다.

(i) 의사코드: xproc = inv_fft(xf);

오디오별로 특정한 인버스 FFT 함수를 사용하지 않는 한, 이러한 함수의 출력은 실수(real)이어야 한다. 복소수들의 어레이로서 출력이 반환된다면, 허수부들(imaginary parts)이 0(zero)임을 보장하도록 전개(development) 동안에 체크가 수행될 수 있다.

체크들이 수행되면, 허수부를 폐기하고 그리고 실수부를 유지한다. 또한, 포워드 및 백워드 fft() 함수들이 역(reciprocal)인 경우, 오디오의 스케일링에서 변화가 없어야 한다.

(ii) 위의 섹션 (5)에서 설명한 윈도윙 함수에서와 같이, 동일한 포인트-바이-포인트(point-by-point) 곱셈을 수행한다.

의사코드: for i = 0 ....... 127

xwproc(i) = W(i) * xproc(i);

(VI) 출력 오디오 스트림에 새로운 데이터 프레임의 삽입을 수행

xwproc(0 ..... 63)의 가장 초기의(earliest) 64개 샘플들은 xwproc의 이전 프레임의 마지막 64개 샘플들과 오버랩되고 함께 부가되며 그리고 출력 스트림으로 전송될 다음 이용가능한 시간 버퍼로서 인덱싱된다(출력 스트림이 마지막 출력 버퍼에서 재생을 완료하면 준비됨). 이것은 "overlap-add" 절차라 지칭된다. 후자의 xwproc 로부터의 64개의 샘플들은 xwproc의 다음 버전의 도착을 위해 저장된다.

(i) 의사코드: output16(i)=xwproc(i)+xwproc'(i+64); for i = 0......63

xwproc' = xwproc; //알고리즘의 다음 이터레이션을 위해 저장됨

여기서 xwproc'는 이전에 계산된 프레임이다.

따라서 "output16"은 16 kHz 샘플링 속도에서 오디오 샘플들의 64-길이(long) 어레이이다.

(ⅱ) 실시예에서, 원래의 오디오 샘플링 레이트가 8 kHz 였다면, 출력 버퍼가 생성되며, output16의 홀수번째 요소들로 구성된다. 저역 통과 필터는 필요치 않은데, 왜냐하면 스테이지 III(6.1)에서 수행된 저역 통과 필터로 인하여 에일리어스 성분(alias components)이 없을 것이기 때문이다.

의사코드: output8 = output16(1, 3, 5, ......... 63);

실시예들에서, 원래의 오디오 샘플링 레이트가 16kHz 였다면, 출력 버퍼는 output16과 동일하다.

따라서, 전체적으로 프레임-기반 프로세싱은 입력 버퍼(8 kHz에서 32 샘플의 사이즈 또는 16 kHz에서 64 샘플의 사이즈)를 취하고 그리고 하나의 출력 버퍼(8 kHz에서 32 샘플 사이즈 또는 16 kHz에서 64 샘플 사이즈)를 생성하는바, 따라서 입력과 출력 사이에서 오디오의 일정한 흐름을 유지할 수 있다.

overlap-add 와 함께, 더블-윈도우잉 함수(double-windowing function)는 인버스-fft 출력 어레이들이 오버랩되는 단일 재조합(unity recombination)을 생성한다. 만일, 프레임레이트에서 "버즈(buzz)"가 출력 오디오에 나타난다면, 가능한 오류가 발생한 것이다.

일부 실시예에 따르면, 사용자 디바이스의 사용자 또는 네트워크 운영자는 오디오 신호 수정을 제공하는 세팅들을 선택적으로 활성화 또는 비활성화할 수 있다. 예를 들어, 사용자가 어떤 이유로 오디오 수정을 요구하지 않는다면, 이것은 매우 유용할 수 있다. 또한, 이것은, 사용자의 사용자 디바이스가 오디오 수정을 요구하지 않는 다른 사람들에 의해서 이용되는 경우에도 매우 유용할 수 있다.

추가적인 양상이 도 14에 도시되며, 도 14는 사용자 디바이스(1400)를 예시한다. 사용자 디바이스(1400)는 예를 들어 이동 전화, 또는 사실상 임의의 다른 종류의 디지털 디바이스일 수 있다. 사용자 디바이스(1400)는 디스플레이(1402)를 포함한다. 사용자 디바이스(1400)는 또한 검은 원들(1404)로 나타낸 바와 같은 복수의 마이크로폰들을 포함한다. 이 예에서, 디바이스는 12 개의 마이크로폰들을 포함한다. 다른 예들에서, 더 많거나 더 적은 마이크로폰이 제공될 수 있다는 것을 이해할 것이다. 이러한 사용자 디바이스는 이전에 기술된 실시예와 함께 동작할 수 있다. 마이크로폰들의 어레이(1404)는 잡음을 수신할 수 있으며 그리고 앞서 서술된 바와 같이 프로세싱되도록 그 잡음의 정보를 네트워크로 전송할 수 있다. 마이크로폰(1404)은 지향성으로 포커싱될 수 있다. 마이크로폰은 사용자 디바이스(1400)의 운영 시스템에 링크될 수 있다. 또한, 운영 시스템은 사용자의 청력 프로파일에 통신가능하게 링크될 수 있으며, 이는 사용자에게 고유한 오디오 신호 조정을 가능하게 한다. 예로서, 사용자 디바이스(1400)는 책상의 전면 또는 지지대에 배치될 수 있으며, 오디오 신호(예를 들어, 음성 또는 음악)를 픽업(pick up)할 수 있다. 그런 다음, 이들 오디오 신호는 사용자 디바이스(1400)에 의해 네트워크로 전송될 수 있으며, 사용자 디바이스의 사용자에게 맞게 오디오 신호를 조정하도록 이들 오디오 신호들이 네트워크에서 프로세싱될 수 있다.

사용자 디바이스(1400)는 코팅 또는 층(1406)을 더 포함한다. 코팅(1406)은 금속 밴드 또는 코일의 형태일 수 있다. 코팅(1406)은 사용자 디바이스(1400)로부터 사용자의 보청기로 통신하기 위한 안테나 및/또는 유도 루프 및/또는 T- 코일(텔레 코일), 또는 사실상 임의의 다른 보조 디바이스 또는 액세서리로서 작용할 수 있다. 코팅(1406)은 사용자 디바이스(1400)의 배터리 수명 및/또는 프로세싱 파워 및/또는 저장 능력을 증가시키기 위해 배터리 및/또는 프로세서 및/또는 메모리를 더 포함할 수 있다. 이는 또한 보청기에 연결할 필요가 있는 T-코일 또는 다른 어플리케이션을 도울 수 있다. 코팅(1406)은 또한 태깅(tagging) 및/또는 사물 인터넷(IoT) 능력을 포함할 수 있다. 이러한 기능은 사용자의 고유한 청각 식별 코드(Hearing Identification Code)를 지정할 수 있다. 일부 실시예에서, 코팅(1406)은 사용자 디바이스(1400)에 부착 및 탈착가능한 케이싱의 형태이다.

따라서, 사전-측정 및 설정된 청력 손실 및 개인의 요구에 특정하고 이에 기초하여 실시간으로 특정 사용자의 청력 요구사항에 맞게 개선된 오디오 향상 기능이 제공된다.

기술된 방법들은 컴퓨터 프로그램에 의해 구현될 수 있다. 웹 어플리케이션 또는 '앱(app)'의 형태일 수 있는 컴퓨터 프로그램은, 컴퓨터 또는 프로세서로 하여금 앞서 설명된 방법의 하나 이상의 기능들을 수행하도록 지시하거나 행하게 하는 컴퓨터 실행가능 명령들 또는 코드를 포함한다. 컴퓨터 프로그램은 컴퓨터와 같은 디바이스, 컴퓨터 판독가능 매체 또는 컴퓨터 프로그램 제품 상에 제공될 수 있다. 컴퓨터 판독가능 매체 또는 컴퓨터 프로그램 제품은 반도체 또는 고체 상태 메모리, 자기 테이프, 제거가능한 컴퓨터 메모리 스틱 또는 디스켓, RAM(random access memory), ROM(read-only memory), 강성 자기 디스크 및 CD-ROM, CD-R/W, DVD 또는 Blu-ray와 같은 광학 디스크를 포함할 수 있다. 컴퓨터 판독 가능 매체 또는 컴퓨터 프로그램 제품은 예를 들어 인터넷을 통해 컴퓨터 프로그램을 다운로드하기 위한, 데이터 전송을 위한 전송 신호 또는 매체를 포함할 수 있다.

컴퓨터와 같은 장치 또는 디바이스는 설명된 방법의 하나 이상의 기능을 수행하도록 구성될 수 있다. 장치 또는 디바이스는 이동 전화, 태블릿, 랩탑 또는 다른 프로세싱 디바이스를 포함할 수 있다. 장치 또는 디바이스는 데이터 프로세싱 시스템의 형태를 취할 수 있다. 데이터 프로세싱 시스템은 분산 시스템일 수 있다. 예를 들어, 데이터 프로세싱 시스템은 네트워크를 통해 또는 전용 로컬 연결을 통해 분산될 수 있다.

장치 또는 디바이스는 전형적으로 컴퓨터 실행가능 명령을 저장하기 위한 적어도 하나의 메모리 및 컴퓨터 실행가능 명령을 수행하기 위한 적어도 하나의 프로세서를 포함한다.

도 11는 예시적인 장치 또는 디바이스(104)의 아키텍처를 도시한다. 장치 또는 디바이스(104)는 프로세서(110), 메모리(115), 및 디스플레이(135)를 포함한다. 이들은 중앙 버스 구조에 접속되며, 디스플레이(135)는 디스플레이 어댑터(130)를 통해 연결된다. 예시적인 장치 또는 디바이스(100)는 입력 디바이스(125)(예컨대, 마우스, 음성 입력 디바이스 및/또는 키보드 등), 출력 디바이스(145)(예컨대, 스피커나 헤드폰 소켓과 같은 오디오 출력 디바이스 등) 및 장치 또는 디바이스를 다른 장치, 디바이스 또는 네트워크에 연결하기 위한 통신 어댑터(105)를 포함한다. 입력 디바이스(125), 출력 디바이스(145) 및 통신 어댑터(105)는 또한 중앙 버스 구조에 접속되며, 입력 디바이스(125)는 입력 디바이스 어댑터(120)를 통해 접속되고, 출력 디바이스(145)는 출력 디바이스 어댑터(140)를 통해 접속된다.

동작시, 프로세서(110)는 메모리(115)에 저장된 컴퓨터 실행가능 명령을 실행할 수 있고, 처리 결과는 디스플레이(135) 상에서 사용자에게 디스플레이될 수 있다. 컴퓨터의 동작을 제어하기 위한 사용자 입력은 입력 디바이스(들)(125)을 통해 수신될 수 있다.

Claims

방법으로서,
통신 네트워크 내의 네트워크 엔티티와 사용자의 사용자 디바이스 사이에서 확립된 통신 링크를 통해 상기 사용자에 대한 청력 테스트를 수행하는 단계, 상기 청력 테스트는 상기 통신 링크를 통해 복수의 테스트 주파수들에서 상기 사용자 디바이스에 오디오 자극을 제공하는 단계 및 상기 사용자 디바이스로부터 수신된 오디오 자극들에 대한 응답을 모니터링하는 단계를 포함하고;
상기 청력 테스트의 결과에 기초하여 청력 프로파일을 생성하는 단계; 및
상기 청력 프로파일이 상기 사용자 디바이스로의 오디오 신호들을 수정하는데 이용가능하도록 상기 청력 프로파일 및 상기 사용자와 관련된 정보를 네트워크 엔티티의 메모리에 저장하는 단계
를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 사용자에 관한 정보는 사용자의 식별자 및/또는 사용자 디바이스의 식별자를 포함하는 것을 특징으로 하는 방법.
제1항 또는 제2항에 있어서,
상기 오디오 자극은 백색 잡음을 포함하고, 상기 백색 잡음은 하나 이상의 인간의 음성들에 기초하는 것을 특징으로 하는 방법.
선행하는 임의의 청구항에 있어서,
상기 오디오 자극은 1/3 옥타브 폭(1/3 octave wide)의 잡음 대역들을 포함하는 것을 특징으로 하는 방법.
선행하는 임의의 청구항에 있어서,
상기 복수의 테스트 주파수들에서 사용자 디바이스에 오디오 자극을 제공하는 단계는, 500Hz, 1000Hz, 2000Hz, 3000Hz, 6000Hz 중 2개 이상에서 오디오 자극을 제공하는 것을 특징으로 하는 방법.
선행하는 임의의 청구항에 있어서,
상기 방법은 사용자의 청력 손실에 대한 표시를 획득하는 단계, 및 상기 청력 손실에 대한 표시를 사용하여 상기 청력 테스트의 초기 볼륨을 결정하는 단계를 포함하는 것을 특징으로 하는 방법.
선행하는 임의의 청구항에 있어서,
응답을 모니터링하는 것에 대응하여, 각 테스트 주파수에서 오디오 자극의 볼륨을 조절하는 단계를 포함하는 것을 특징으로 하는 방법.
제7항에 있어서,
상기 방법은, 상기 사용자로부터의 긍정(positive) 응답에 대응하여 상기 오디오 자극의 볼륨을 감소시키는 단계를 포함하는 것을 특징으로 하는 방법.
제7항에 있어서,
상기 방법은, 상기 사용자로부터 널 응답(null response)에 대응하여 상기 오디오 자극의 볼륨을 증가시키는 단계를 포함하는 것을 특징으로 하는 방법.
선행하는 임의의 청구항에 있어서,
각각의 오디오 자극의 지속기간은 1000ms 또는 대략 1000ms 인 것을 특징으로 하는 방법.
선행하는 임의의 청구항에 있어서,
각각의 오디오 자극은 배경 잡음 레벨과 60dB 또는 대략 60dB 사이에서 증가/감소하는 볼륨의 하나 이상의 램프들(ramps)을 포함하는 것을 특징으로 하는 방법.
선행하는 임의의 청구항에 있어서,
상기 방법은 상기 청력 테스트의 결과를 사용자 및/또는 운영자에게 시각적으로 디스플레이하는 단계를 포함하는 것을 특징으로 하는 방법.
선행하는 임의의 청구항에 있어서,
상기 사용자의 저장된 청력 프로파일을 이용하여 상기 사용자에 대한 오디오 신호들을 실시간으로 수정하는 단계를 포함하며, 상기 오디오 신호들을 수정하는 단계는, 상기 수정된 오디오 신호들이 상기 사용자의 사용자 디바이스로 전달되도록 상기 네트워크 엔티티에서 수행되는 것을 특징으로 하는 방법.
제13항에 있어서,
상기 오디오 신호들을 수정하는 단계는,
상기 오디오 신호를 필터링하는 것; 상기 오디오 신호의 진폭을 조정하는 것; 상기 오디오 신호의 주파수를 조정하는 것; 오디오 신호의 피치 및/또는 톤을 조정하는 것 중 하나 이상을 포함하는 것을 특징으로 하는 방법.
제13항에 있어서,
상기 오디오 신호들을 수정하는 단계는,
상기 사용자와 제 2 사용자 사이의 통화에서 상기 제 2 사용자의 음성 신호들을 수정하는 단계를 포함하는 것을 특징으로 하는 방법.
선행하는 임의의 청구항에 있어서,
상기 오디오 신호의 수정을 제공하는 세팅을 선택적으로 활성화 또는 비활성화시키는 단계를 포함하는 것을 특징으로 하는 방법.
선행하는 임의의 청구항에 있어서,
상기 사용자 디바이스의 하나 이상의 마이크로폰들을 사용하여 주변 잡음을 측정하는 단계, 상기 사용자 디바이스와의 통신 링크를 갖는 네트워크 엔티티에서 상기 사용자 디바이스로부터 주변 잡음 정보를 수신하는 단계, 상기 사용자로의 오디오 신호들을 수정하는데 사용되는 청력 프로파일을 저장하는 네트워크 엔티티에 상기 수신된 주변 잡음 정보를 저장하는 단계를 포함하는 것을 특징으로 하는 방법.
선행하는 임의의 청구항에 있어서,
상기 오디오 신호를 상기 사용자 디바이스로 전달하기 위한 채널 삽입 이득을 결정하는 단계를 포함하는 것을 특징으로 하는 방법.
선행하는 임의의 청구항에 있어서,
상기 오디오 신호들을 다수의 채널들로 분할하는 단계를 포함하는 것을 특징으로 하는 방법.
선행하는 임의의 청구항에 있어서,
각각의 채널에 대한 전력(power) 레벨을 결정하는 단계를 포함하는 것을 특징으로 하는 방법.
제18항 또는 이에 첨부된 임의의 청구항에 있어서,
상기 채널 삽입 이득은, 상기 사용자로의 오디오 신호들을 동적으로 압축(dynamic compression)하기 전에, 적용되는 것을 특징으로 하는 방법.
방법으로서,
사용자에 대한 청력 프로파일을 제공하기 위해 통신 네트워크 내의 네트워크 엔티티와 사용자의 사용자 디바이스 사이에서 확립된 통신 링크를 통해 사용자에 대한 청력 테스트에 참가하는 단계, 상기 청력 테스트는 상기 통신 링크를 통해 복수의 테스트 주파수들에서 오디오 자극을 상기 사용자 디바이스에서 수신하는 단계 및 상기 오디오 자극에 대한 하나 이상의 응답들을 상기 네트워크 엔티티에 제공하는 단계를 포함하며; 그리고
상기 청력 프로파일에 따라 수정된 오디오 신호를 상기 사용자 디바이스에서 후속적으로 수신하는 단계
를 포함하는 것을 특징으로 하는 방법.
제1항 내지 제21항 중 어느 한 항의 방법을 수행하도록 구성된 서버.
제22항의 방법을 수행하도록 구성된 사용자 디바이스.
명령들을 포함하는 컴퓨터 판독가능한 매체로서,
상기 명령들은 실행될 때, 프로세서로 하여금 제1항 내지 제21항 또는 제22항 중 어느 한 항의 방법을 수행하게 하는 것을 특징으로 하는 컴퓨터 판독가능한 매체.