KR102317686B1

KR102317686B1 - 잡음 환경에 적응적인 음성 신호 처리방법 및 장치

Info

Publication number: KR102317686B1
Application number: KR1020197027830A
Authority: KR
Inventors: 성호상; 정종훈; 주기현; 오은미
Original assignee: 삼성전자주식회사
Priority date: 2017-03-22
Filing date: 2017-03-22
Publication date: 2021-10-26
Also published as: US11152015B2; KR20190117725A; WO2018174310A1; AU2017405291A1; AU2017405291B2; US20200090675A1; EP3605529B1; EP3605529A1; EP3605529A4; CN110447069B; CN110447069A

Abstract

상기 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 음성 신호 처리 방법은, 적어도 하나의 마이크로폰을 이용해 수신단(near-end) 잡음 신호 및 수신단 음성 신호를 획득하는 단계; 착신 호(incoming call)에 따른 송신단(far-end) 음성 신호를 획득하는 단계; 수신단 음성 신호에 대한 정보, 수신단 잡음 신호에 대한 정보 및 송신단 음성 신호에 대한 정보 중 적어도 하나에 기초하여, 잡음 제어 파라미터 및 음성 신호 변경 파라미터를 결정하는 단계; 잡음 제어 파라미터에 기초하여, 수신단 잡음 신호의 역위상 신호를 생성하는 단계; 음성 신호 변경 파라미터, 수신단 잡음 신호, 역위상 신호 및 에러 신호에 기초하여, 송신단 음성 신호의 명료도가 개선되도록 송신단 음성 신호를 변경하는 단계; 및 역위상 신호 및 변경된 송신단 음성 신호를 출력하는 단계;를 포함한다.

Description

잡음 환경에 적응적인 음성 신호 처리방법 및 장치

본 발명은 오디오 및/또는 스피치 신호 처리에 관한 것으로서, 보다 구체적으로는 수신단 혹은 수신단의 잡음 환경에 적응적으로 오디오 및/또는 스피치 신호를 변경하기 위한 신호 처리 방법 및 장치에 관한 것이다.

다양한 배경 잡음이 존재하는 환경에서 모바일 기기를 이용하여 상대방과 음성 통화를 하게 되면 배경 잡음으로 인하여 상대방의 음성이 잘 들리지 않게 된다. 예를 들어, 지하철과 같이 소음이 큰 곳에서 통화하거나, 자동차가 다니는 길거리에서 통화하는 경우, 소음이 없는 조용한 곳에서 통화하는 것보다 상대방의 음성이 매우 작게 들리게 된다. 이와 같이 배경 잡음이 음성의 명료도 혹은 음질을 저하시키는 가장 큰 이유는 마스킹 효과(masking effect)에 의해 설명될 수 있다.

한편, 배경 잡음을 고려한 음성 처리 기법은 다양하며, 특히 송신단과 수신단 환경에 따라서 분류될 수 있다. 이 중, 송신단 환경을 고려한 음성 처리 기법은 수신단의 다양한 배경 잡음 환경을 고려하지 못하는 한계를 가지게 된다. 이에, 주변의 다양한 배경 잡음 환경을 고려하여, 송신단 장치로부터 전송되거나 송신 모듈로부터 제공되는 음성신호를 수신단 장치 혹은 수신 모듈의 사용자를 둘러싼 주변의 배경 잡음에 따라서 효율적으로 처리할 수 있는 기술을 필요로 한다.

해결하고자 하는 과제는 통화 품질을 개선하기 위하여, 복호화된 신호의 명료도 및/또는 음질을 수신 측 혹은 수신단의 잡음 환경에 적응적으로 향상시키기 위한 신호 처리방법 및 장치와 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 있다.

상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.

상기 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 음성 신호 처리 방법은, 적어도 하나의 마이크로폰을 이용해 수신단(near-end) 잡음 신호 및 수신단 음성 신호를 획득하는 단계; 착신 호(incoming call)에 따른 송신단(far-end) 음성 신호를 획득하는 단계; 수신단 음성 신호에 대한 정보, 수신단 잡음 신호에 대한 정보 및 송신단 음성 신호에 대한 정보 중 적어도 하나에 기초하여, 잡음 제어 파라미터 및 음성 신호 변경 파라미터를 결정하는 단계; 잡음 제어 파라미터에 기초하여, 수신단 잡음 신호의 역위상 신호를 생성하는 단계; 음성 신호 변경 파라미터, 수신단 잡음 신호, 역위상 신호 중 적어도 하나와 관련된 정보에 기초하여, 송신단 음성 신호의 명료도가 개선되도록 송신단 음성 신호를 변경하는 단계; 및 역위상 신호 및 변경된 송신단 음성 신호를 출력하는 단계;를 포함한다.

본 발명의 또 다른 실시예에 따르면, 역위상 신호는 수신단 잡음 신호가 획득된 위치와 송신단 음성 신호가 청취되는 위치의 차이 및 수신단 잡음 신호가 획득된 시간과 송신단 음성 신호가 청취되는 시간의 차이 중 적어도 하나에 기초하여, 수신단 잡음 신호로부터 추정된 가상 잡음 신호에 대한 역위상 신호이다.

본 발명의 또 다른 실시예에 따르면, 송신단 음성 신호에 대한 정보는, 송신단 음성 신호의 부호화 정보, 송신단 음성 신호의 주파수 대역 정보, 송신단 음성 신호가 출력 중인지 여부, 착신 호가 수신되는 채널에 대한 정보 및 착신 호의 모드에 대한 정보 중 적어도 하나를 포함한다.

본 발명의 또 다른 실시예에 따르면, 수신단 음성 신호에 대한 정보는 수신단 음성 신호가 활성화 상태인지 여부에 대한 정보를 포함한다.

본 발명의 또 다른 실시예에 따르면, 수신단 잡음 신호에 대한 정보는, 수신단 잡음 신호의 주파수 대역 정보 및 수신단 잡음 신호의 잡음 종류에 대한 정보 중 적어도 하나를 포함한다.

본 발명의 또 다른 실시예에 따르면, 잡음 제어 파라미터는 역위상 신호의 생성 여부, 역위상 신호의 출력 파워 및 역위상 신호를 생성할 주파수 범위 중 적어도 하나를 나타낸다.

본 발명의 또 다른 실시예에 따르면, 음성 신호 변경 파라미터는 송신단 음성 변경 적용 여부, 변경된 송신단 음성 신호의 출력 파워, 송신단 음성 신호를 변경할 주파수 범위 및 음성 신호 변경 방법에 대한 정보 중 적어도 하나를 나타낸다.

본 발명의 또 다른 실시예에 따르면, 송신단 음성 신호를 변경하는 단계는 송신단 음성 신호 스펙트럼의 주파수 빈(frequency bin)별로, 획득된 송신단 음성 신호와 수신단 잡음 신호 및 역위상 신호가 존재하는 환경에서의 송신단 음성 신호의 차이가 최소가 되도록 한다.

본 발명의 또 다른 실시예에 따르면, 송신단 음성 신호를 변경하는 단계는 청지각 모델(auditory perceptual model)에 기초하여 주파수 빈들을 에너지 증가 클래스, 에너지 감소 클래스 및 에너지 유지 클래스로 구분하는 단계; 및 송신단 음성 신호의 에너지 감소 클래스의 에너지를 에너지 증가 클래스로 전달하는 단계;를 포함한다.

본 발명의 또 다른 실시예에 따르면, 송신단 음성 신호를 변경하는 단계는 발화 패턴 기반 모델에 기초하여 송신단 음성 신호를 변경한다.

본 발명의 또 다른 실시예에 따르면, 역위상 신호는, 이전 프레임의 변경된 송신단 음성 신호에 기초하여 생성된다.

상기 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른 음성 신호 처리 장치는, 수신단(near-end) 잡음 신호 및 수신단 음성 신호를 획득하는 적어도 하나의 마이크로폰; 착신 호(incoming call)에 따른 송신단(far-end) 음성 신호를 획득하는 수신부; 수신단 음성 신호에 대한 정보, 수신단 잡음 신호에 대한 정보 및 송신단 음성 신호에 대한 정보 중 적어도 하나에 기초하여 잡음 제어 파라미터 및 음성 신호 변경 파라미터를 결정하는 제어부; 잡음 제어 파라미터에 기초하여, 수신단 잡음 신호의 역위상 신호를 생성하는 잡음 감소부; 음성 신호 변경 파라미터, 수신단 잡음 신호, 역위상 신호 중 적어도 하나와 관련된 정보 기초하여, 송신단 음성 신호의 명료도가 개선되도록 송신단 음성 신호를 변경하는 음성 신호 변경부; 및 역위상 신호 및 변경된 송신단 음성 신호를 출력하는 출력부;를 포함한다.

한편, 본 발명의 일 실시예에 따르면, 전술한 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 시스템 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체가 더 제공된다.

본 발명에 의하면, 수신측 혹은 수신단의 잡음 환경에 적응적으로 통화 품질을 개선할 수 있다. 예측 잡음 신호를 이용하여 수신단 잡음 신호를 보다 효과적으로 제거할 수 있으며, 심리음향 모델 또는 음성 신호 패턴에 기초하여 명료도를 개선할 수 있다.

또한, 잡음이 물리적으로 감소된 수신단 신호를 이용하여 송신단 신호의 명료도를 개선하고, 명료도가 개선된 송신단 신호를 이용하여 수신단 신호의 잡음을 감소할 수 있다.

도 1 은 일 실시예에 따른 음성통화를 위한 이동통신장치의 구성을 나타내는 블록도이다.
도 2 는 일 실시예에 따른 신호 처리 장치의 구성을 나타낸 블록도이다.
도 3 은 다른 실시예에 따른 신호 처리 장치의 구성을 나타낸 블록도이다.
도 4 는 일 실시예에 따른 송신단 장치와 수신단 장치에서 송신단 입출력 및 수신단 입출력 생성을 위한 신호를 설명하는 도면이다.
도 5 는 일 실시예에 따른 신호 처리 장치의 동작을 설명하는 도면이다.
도 6 은 일 실시예에 따른 잡음 감소부와 관련된 각 신호들을 나타내는 도면이다.
도 7 은 일 실시예에 따른 명료도가 개선된 음성 신호를 생성하는 방법을 설명하는 도면이다.
도 8 은 다른 실시예에 따른 잡음 감소부와 관련된 각 신호들을 나타내는 도면이다.
도 9 는 일 실시예에 따른 명료도가 개선된 음성 신호를 생성하는 방법의 순서도이다.
도 10 은 일 실시예에 따른 수신단 장치에서 잡음 감소부와 명료도 개선부의 동작을 설명하는 도면이다.
도 11 은 일 실시예에 따른 청지각 중요도에 기초하여 음성 명료도를 개선하기 위한 방법을 설명하는 도면이다.
도 12 는 일 실시예에 따른 명료도 개선 방법에서 음성 신호의 주파수 대역간의 에너지 수수 관계를 설명하는 도면이다.
도 13 은 일 실시예에 따른 청지각 중요도에 기반하여 음성 신호를 변경하는 경우 주파수 밴드별 에너지 변화를 나타낸 것이다.
도 14 는 일 실시예에 따른 음성 신호의 발화 패턴에 기초하여 음성 신호를 변경함으로써 음성 신호의 명료도를 개선하기 위한 방법을 설명하는 도면이다.
도 15 는 다른 실시예에 따른 신호 처리 장치의 동작을 설명하는 도면이다.

발명의 실시를 위한 최선의 형태

발명의 실시를 위한 형태

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다.

예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다.

도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.

도 1 은 일 실시예에 따른 음성통화를 위한 이동통신장치의 구성을 나타내는 블록도이다.

도 1 에 도시된 장치는 송신단(far-end) 장치(110)와 수신단(near-end) 장치(130)로 이루어지며, 송신단 장치(110)는 제 1 변환부(111), 송신처리부(113)와 부호화부(115)를 포함하고, 수신단 장치(130)는 복호화부(131), 신호 변경부(133), 수신처리부(135)와 제2 변환부(137)를 포함할 수 있다. 본 명세서에서 송신단 장치는 파-엔드 장치 또는 송신단 장치와 같은 의미로 사용되며, 수신단 장치는 니어-엔드 장치 또는 수신단 장치와 같은 의미로 사용된다.

송신단 장치(110)는 제 1 변환부(111), 송신처리부(113)와 부호화부(115)를 포함하고, 수신단 장치(130)는 복호화부(131), 신호 변경부(133), 수신처리부(135)와 제2 변환부(137)를 포함할 수 있다. 송신단 장치(110) 및/또는 수신단 장치(130)에서 각 구성요소는 별도의 하드웨어로 구현되어야 하는 경우를 제외하고는 적어도 하나의 프로세서로 일체화되어 구현될 수 있다. 송신단 장치(110)와 수신단 장치(130)는 각 사용자 장비(User Equipment)의 송신측과 수신측에 각각 설치될 수 있다.

도 1 에 있어서, 제 1 변환부(111)는 마이크로폰과 같은 입력장치를 통하여 제공되는 아날로그 신호를 디지털 신호로 변환할 수 있다.

송신처리부(113)는 제 1 변환부(111)로부터 제공되는 디지털 신호에 대하여 다양한 신호처리를 수행할 수 있다. 신호처리의 예로는 잡음 제거, 에코 저감 등이 있으나 이에 한정되는 것은 아니다.

부호화부(115)는 송신처리부(113)로부터 제공되는 신호에 대하여 미리 정해진 코덱을 이용하여 부호화를 수행할 수 있다. 부호화 결과 생성되는 비트스트림은 전송채널을 통하여 수신측으로 전송되거나 저장매체에 저장되어 복호화를 위하여 사용될 수 있다.

한편, 복호화부(131)는 수신된 비트스트림에 대하여 미리 정해진 코덱을 이용하여 복호화를 수행할 수 있다.

신호 변경부(133)는 수신단 단말의 환경 잡음 신호에 따라서, 수신 환경에 대응하여 복호화된 신호를 변경할 수 있다. 신호 변경부(133)는 볼륨 레벨과 같은 단말 상태 정보와 볼륨 조정과 관련된 사용자 입력에 대응하여, 수신 환경에 대응하여 복호화된 신호를 변경할 수 있다. 일 실시예에 따르면, 신호 변경부(133)는 잡음 신호와 음성 신호의 각 밴드에 대하여 명료도 개선과 관련된 밴드 클래스를 결정하고, 결정된 상기 잡음 신호의 밴드 클래스와 음성 신호의 밴드 클래스에 기초하여 명료도 개선을 위한 가이드 정보를 생성하고, 가이드 정보를 음성 신호에 적용하여 변경된 음성 신호를 생성할 수 있다. 다른 실시예에 따르면, 신호 변경부(133)는 잡음신호와 음성 신호에 대하여 각각 음성 신호의 명료도 개선과 관련된 클래스를 결정하고, 클린 환경의 음성신호와 잡음 환경에서 변경된 음성신호로부터 모델링된 음성 명료도 모델과 결정된 클래스에 기초하여, 명료도 개선을 위한 가이드 정보를 생성하고, 가이드 정보를 음성 신호에 적용하여 변경된 음성신호를 생성할 수 있다.

수신처리부(135)는 신호 변경부(133)로부터 제공되는 신호에 대하여 다양한 신호처리를 수행할 수 있다. 신호처리의 예로는 잡음 제거, 에코 저감 등이 있으나 이에 한정되는 것은 아니다.

제 2 변환부(137)는 수신처리부(135)로부터 제공되는 신호를 아날로그 신호로 변환할 수 있다. 제 2 변환부(137)로부터 제공되는 아날로그 신호는 스피커 또는 리시버를 통하여 재생될 수 있다.

도 1 에서 사용되는 코덱의 예로는 EVS를 들 수 있다.

도 2 는 일 실시예에 따른 신호처리장치의 구성을 나타낸 블록도로서, 도 1 의 신호 변경부(133)에 대응될 수 있다.

도 2 에 도시된 장치는 모드 결정부(210), 제 1 명료도 개선부(230)와 제 2 명료도 개선부(250)를 포함할 수 있다. 여기서, 모드 결정부(210)와 제 2 명료도 개선부(250)는 옵션으로 구비될 수 있으며, 이에 따르면 신호처리장치는 제 1 명료도 개선부(230)로 구현될 수 있다.

명료도(articulation)는 음성의 품질을 나타내는 척도로 실제 음성 신호의 음절을 청취자가 얼마나 잘 이해하는지를 비율로 나타낸다. 이해도(intelligibility)는 의미가 있는 단어나 문장에 대한 이해도를 나타내는 척도로 명료도가 높아지면 이해도도 높아지는 관계에 있다.

명료도는 음성 전송 지수(STI, Speech Transmission Index)나 직접음 대 반사음비(D_50)등의 수치로 측정되기도 하지만 신호대잡음비와 같은 객관적 음질과 비례하는 관계에 있지 않으며 청자에 따라 주관적이고 지각적인 특징을 가진다. 따라서, 명료도 향상은 주관적 음질을 향상시키기 위한 방법에 해당한다.

일 실시예에 따르면, 모드 결정부(210)는 수신 볼륨이 설정된 최대치에 도달되었을 때, 사용자로부터 볼륨 업 입력이 추가적으로 수신되는지를 판단하여 제 1 모드와 제 2 모드 중 하나를 결정할 수 있다. 다른 실시예에 따르면, 모드 결정부(210)는 재난방송이 수신되거나 119 통화와 같은 긴급 상황이 감지되면 제 2 모드로 결정할 수 있다. 여기서, 제 1 모드는 기본 모드(basic mode)로, 제 2 모드는 어그레시브 모드(aggressive mode)로 칭할 수 있다.

또 다른 실시예에 따르면, 모드 결정부(210)는 수신단 잡음의 특징에 기초하여 최적의 성능을 나타내는 명료도 개선 방법에 따라 제 1 모드와 제 2 모드 중 하나를 결정할 수 있다. 예를 들어 잡음이 많은 환경에서는 각 음절이 하나씩 명확하게 출력될 수 있도록 음성 신호를 변경함으로써 명료도를 개선하는 방법을 제 2 모드로 설정할 수 있다. 여기서, 제 1 모드는 기본 모드로, 제 2 모드는 클리어 모드(clear mode)로 칭할 수 있다.

일 실시예에 따르면, 제1 모드는 디폴트로 설정될 수 있다.

제 1 명료도 개선부(230)는 모드 결정부(210)에서 제 1 모드로 결정된 경우 동작하며, 제 2 명료도 개선부(250)는 모드 결정부9210)에서 제 2 모드로 결정된 경우 동작한다. 잡음 신호와 음성 신호의 각 밴드에 대하여 명료도 개선과 관련된 밴드 클래스를 결정하고, 결정된 상기 잡음 신호의 밴드 클래스와 음성 신호의 밴드 클래스에 기초하여 명료도 개선을 위한 가이드 정보를 생성하고, 가이드 정보를 음성 신호에 적용하여 변경된 음성 신호를 생성할 수 있다. 이때, 프레임의 전체 에너지가 보존되도록 신호 처리가 수행될 수 있다.

도 3 은 다른 실시예에 따른 신호처리장치의 구성을 나타낸 블록도로서, 도 1 의 신호 변경부(133)에 대응될 수 있다.

도 3 에 도시된 장치는 잡음 감소부(310)와 명료도 개선부(330)를 포함할 수 있다. 여기서 명료도 개선부(330)는 도 2 에서와 같이 구현될 수 있으며, 잡음 감소부(310)는 마이크로폰을 통해 수신된 잡음 신호를 이용하여, 전체 수신 신호로부터 잡음을 감소시킨다.

대표적인 잡음 감소 기술은 동적 잡음 제어 방법(ANC, Active Noise Control)이 있으며 보다 세부적으로 피드포워드 방식, 피드백 방식 및 가상 센싱 방식이 있다.

피드포워드 동적 잡음 제어 방법은 넓은 대역폭에서 동작하며 대략 3kHz 대역까지 잡음 제거가 가능하므로 음성통화시 음성 대역에 해당하는 고주파 범위에서 안정적으로 동작할 수 있다. 고주파 성분은 음성 신호를 보다 명료하게 인식할 수 있게 하는 역할을 한다.

피드백 동적 잡음 제어 방법은 피드포워드 동적 잡음 제어 방법에 비해 저주파대역, 일반적으로 100Hz 이하에서 높은 성능을 나타내며 대략 1kHz까지 작동 가능하다. 피드백 동적 잡음 제어 기술은 오디오 신호보다는 음성 신호에 적합하며 피드포워드 동적 잡음 제어 기술에 비해 바람잡음(wind noise)에 보다 효과적인 성능을 나타낸다.

가상 센싱 방식은, 마이크로폰의 실제 위치가 아닌 가상의 위치에 존재하는 가상의 잡음을 이용한 잡음 제어 기술로, 실제 마이크 위치에 대한 전달함수와 가상의 위치에 대한 전달함수로부터 획득한 소리 전달 함수(acoustic transfer function)를 이용한다. 가상 센싱 방식의 경우, 가상의 위치에 대한 지연 시간을 고려한 예측 잡음에 기초하여 동적 잡음 제어를 수행한다.

동적 잡음 제어 방법은, 마이크로폰을 이용해 획득한 잡음 신호의 역위상 신호(anti-phase signal)을 스피커로 출력함으로써 잡음 신호와 역위상 신호가 상쇄간섭 되도록 하여 잡음을 제거하는 기술이다. 잡음 신호와 역위상 신호의 합성 결과 생성되는 신호를 에러 신호(error signal)라고 부르며, 이상적으로는 잡음 신호와 역위상 신호의 상쇄 간섭 결과 잡음 신호가 완벽하게 제거되어 에러 신호가 0이 되어야 한다.

그러나, 현실적으로 잡음을 완벽하게 제거하는 것은 불가능하며 역위상 신호와 잡음 신호의 동기 또는 위상이 정확하게 맞지 않는 경우 보강간섭에 의해 오히려 잡음이 증폭될 수 있다. 따라서, 잡음 환경 또는 실시예에 따라, 역위상 신호의 크기 또는 동적 잡음 제어 모듈의 출력을 조절함으로써 보다 안정적으로 잡음을 제어할 수 있다. 동적 잡음 제어 기술에서는, 에러마이크 등을 통하여 에러 신호를 획득하고, 이를 반영한 역위상 신호를 생성함으로써 적응적(adaptive) 혹은 동적(active)으로 잡음을 제어한다. 역위상 신호, 에러 신호, 예측 잡음 신호가 동적 잡음 제어 모듈의 출력 신호가 될 수 있으며, 본 명세서에서 잡음 감소 신호, 동적 잡음 제어 신호 또는 ANC 신호는 잡음 감소부의 출력 신호를 의미할 수 있다.

동적 잡음 제어 기술은 일반적으로 저주파 대역의 주요(dominant) 잡음을 제거하는데 효과적이다. 반면, 음성 신호의 명료도는 주로 고주파 대역의 신호에 의해 결정된다.

따라서, 저주파 대역에 대하여는 동적 잡음 제거 기술을 이용하여 잡음을 물리적으로 제거함으로써 객관적인 신호 품질을 향상시키고, 고주파 대역에 대하여는 지각적으로 명료도가 개선되도록 음성 신호를 변경함으로써 주관적인 신호 품질을 향상시킬 수 있다.

도 4 는 일 실시예에 따른 송신단 장치(410)와 수신단 장치(430)에서 송신단 입출력 및 수신단 입출력 생성을 위한 신호를 설명하는 도면으로서, 단말에 마이크가 두 개 설치된 예를 나타낸다. 이에 따르면, 잡음 제어 및 명료도 개선을 위하여 하단 혹은 하단의 전면 혹은 후면에 위치하는 제1 마이크로폰으로부터의 잡음(NI1)과 상단 혹은 상의 전면 혹은 후면에 위치하는 제3 마이크로폰으로부터의 잡음(NI3)이 사용될 수 있다.

수신단 출력 NO 는 송신단 입력 음성 신호 FI가 네트워크를 통해 수신단 장치(430)로 전달된 신호로, 수신단 장치의 마이크로폰을 통해 수신된 수신단 잡음 NI1 및 NI3를 이용하여 최종 출력 신호인 NO1이 생성된다.

도 4 에는 단말에 두 개의 마이크로폰이 설치된 경우를 예로 들었으나, 실시예에 따른 신호처리장치는 마이크로폰의 개수 및/혹은 위치에 제한되지 않는다.

도 5 는 일 실시예에 따른 신호처리 장치(500)의 동작을 설명하는 도면이다.

도 5 의 실시예에 개시된 수신단 장치(500)는, 마이크부(510), 제어부(530), 잡음 감소부(550) 및 명료도 개선부(570)를 포함할 수 있다. 실선은 잡음 감소부(550) 및 명료도 개선부(570)에서 처리되는 음성 신호 및 잡음 신호들의 흐름을 나타내며, 점선으로 표시된 신호는 각 처리부의 제어를 위한 제어 신호의 흐름을 나타낸다.

마이크부(510)는 기준 마이크(reference microphone)에 해당하는 제 1 마이크(511) 및 에러 마이크(error microphone)에 해당하는 제 2 마이크(512)를 포함할 수 있으며 수신단 잡음 신호에 대한 동적 잡음 제어(ANC, Active Noise Control)를 위하여 기준 마이크는 기준 잡음 신호(reference noise signal)를, 에러 마이크는 에러 신호(error signal)를 각각 획득할 수 있다. 이 때 기준 마이크 및 에러 마이크는 복수 개의 마이크로 구성될 수 있다.

제어부(530)는, 제 1 마이크 및 제 2 마이크를 통해 획득된 수신단 음성 신호 및 수신단 잡음 신호, 송신단 단말로부터 전달된 송신단 음성 신호 및 송신단 단말로부터 수신되는 착신 호(incoming call)에 대한 정보에 기초하여 잡음 감소부(550) 및 명료도 개선부(570)의 동작을 제어한다. 일 실시예에 따르면, 제어부(530)는 수신단 음성 신호에 대한 정보, 수신단 잡음 신호에 대한 정보 및 송신단 음성 신호에 대한 정보 중 적어도 하나에 기초하여, 잡음 감소부(550)에 적용될 잡음 제어 파라미터를 결정할 수 있다.

잡음 제어 파라미터는 동적 잡음 제어를 위해 사용될 파라미터들을 의미하며, 잡음 감소부의 이용 여부, 잡음 감소부의 출력 파워, 잡음 제어 신호에 적용할 게인, 가중치 및 잡음 감소부의 주파수 동작 범위와 관련된 정보 중 적어도 하나를 의미할 수 있다.

제어부(530)는, 수신단 잡음 신호의 크기, 주파수 대역 및 종류에 기초하여 잡음 감소부(550)에 적용될 잡음 제어 파라미터를 결정할 수 있다.

예를 들어, 수신단 잡음 신호의 주파수별 성분 분석 결과 잡음 신호가 저주파 대역에 주로 존재하거나 주요 잡음이 저주파 대역에 존재한다면 제어부(530)는 잡음 감소부(550)의 출력을 높게 결정할 수 있다. 반대로, 수신단 잡음 신호의 주파수별 성분 분석 결과 잡음 신호가 고주파 대역에 주로 존재하거나 주요 잡음이 고주파 대역에 존재한다면 제어부(530)는 잡음 감소부(550)의 출력을 낮게 결정하거나 잡음 감소부(550)가 동작하지 않도록 결정할 수 있다. 또는, 제어부(530)는 수신단 잡음 신호의 주파수 대역에 기초하여 잡음 감소부(550)의 주파수 동작 범위를 결정할 수 있다.

제어부(530)는, 잡음 감소부(550) 출력에 적용할 가중치를 결정할 수 있다.

예를 들어, 가상 센싱 방식에서 예측 잡음 신호가 실제 잡음 신호와 상이한 경우 또는 역위상 신호의 위상이 실제 잡음 신호와 동기되지 않는 경우, 잡음 감소부(550)는 결정된 가중치를 적용함으로써 안정적인 잡음 감소 성능을 나타내도록 할 수 있다.

제어부(530)는, 송신단 음성 신호의 비트스트림에 포함된 코덱정보, 코덱의 코어모드 정보 또는 불연속 전송(DTX, Discontinuous Transmission) 정보에 기초하여 송신단 신호의 종류 및 특징을 판단할 수 있으며, 이에 기초하여 잡음 제어 파라미터를 결정할 수 있다.

예를 들어, 제어부(530)는 EVS(Enhanced Voice Service) 코덱의 코어 부호화 모드에 기초하여 송신단 신호가 음성 신호인지 음악 신호인지 여부를 판단할 수 있다. 동적 잡음 제어 기술, 특히 피드백 방식의 동적 잡음 제어 기술은 음성 신호의 대역에 해당하는 저주파 대역에서는 높은 잡음 제거 성능을 나타낸다. 그러나, 고주파 대역 신호에 대하여는 잡음 제거 성능은 낮으면서 오히려 음질을 악화시킬 가능성이 높아진다. 따라서, 송신단 신호가 음성 신호로 판단될 경우 제어부(530)는 잡음 감소부(550) 에 적용될 출력을 높게 결정하고, 송신단 신호가 음성 신호가 아니라고 판단될 경우 잡음 감소부(550) 출력을 낮게 결정하거나 잡음 감소부(550)가 동작하지 않도록 결정할 수 있다.

DTX는 전송할 데이터가 없는 경우 전송을 중단하는 기능으로 간섭을 줄이고 자원을 효율적으로 이용하기 위해 사용되며, 음성 통신에서는 인코더의 음성 활동 감지(VAD, Voice Activity Detection) 기능과 함께 사용될 수 있다.

예를 들어, 수신된 송신단 음성 신호의 비트스트림 확인 결과 DTX 가 1로 설정되어 있다면 송신단 입력 신호가 없는 상태이므로 제어부(530)는 잡음 감소부(550)의 출력을 낮추거나 동작하지 않도록 결정할 수 있다.

또 다른 실시예에 따르면, 제어부(530)는 수신단 음성 신호에 대한 정보, 수신단 잡음 신호에 대한 정보 및 송신단 음성 신호에 대한 정보 중 적어도 하나에 기초하여, 명료도 개선부(570)에 적용될 음성 신호 변경 파라미터를 결정할 수 있다.

음성 신호 변경 파라미터는, 송신단 음성 신호의 명료도를 개선하기 위하여 음성 신호를 변경하는데 사용될 파라미터들을 의미하며, 명료도 개선부 이용 여부, 명료도 개선부의 출력 파워, 명료도 개선부의 주파수 동작 범위 및 명료도 개선 방법에 대한 정보 중 적어도 하나를 의미할 수 있다.

제어부(530)는, 수신단 잡음 신호의 크기, 주파수 대역 및 종류에 기초하여 명료도 개선부(570)에 적용될 음성 신호 변경 파라미터를 결정할 수 있다.

앞서 설명한 바와 같이, 제어부(530)는 수신단 잡음 신호의 크기 및 주파수 대역에 기초하여 잡음 감소부(550)의 출력을 결정할 수 있다. 시스템 전체의 자원은 제한적이므로 잡음 감소부(550)와 명료도 개선부(570)의 출력은 서로 상대적인 관계에 있으며, 한정된 자원 및 시스템 개선 성능을 고려하여 각 모듈에 대한 최적의 출력을 결정하는 것이 필요하다. 또한, 제어부(530)는 수신단 잡음 신호의 주파수 대역에 기초하여 명료도 개선부(570)의 주파수 동작 범위를 결정할 수 있다.

또는, 제어부(530)는 수신단 잡음 신호의 종류, 예를 들어 잡음 신호가 수신단 음성이나 송신단 음성과 상관없는 다른 화자의 말(interfering talk)인지 또는 앰비언트 잡음(ambient noise)인지 여부 등에 기초하여 음성 신호 변경 파라미터를 결정할 수 있다.

제어부(530)는, 송신단 음성 신호의 비트스트림에 포함된 코덱정보, 코덱의 코어모드 정보 또는 불연속 전송(DTX, Discontinuous Transmission) 정보에 기초하여 송신단 신호의 종류 및 특징을 판단할 수 있으며, 이에 기초하여 음성 신호 변경 파라미터를 결정할 수 있다.

예를 들어, 제어부(530)는 EVS(Enhanced Voice Service) 코덱의 코어 부호화 모드에 기초하여 송신단 신호가 음성 신호인지 음악 신호인지 여부를 판단할 수 있다. 명료도 개선은 주로 음성 통화에 적용되는 것이 일반적이므로 송신단 신호가 음성 신호로 판단될 경우 제어부(530)는 명료도 개선부(570) 에 적용될 출력을 높게 결정하고, 송신단 신호가 음성 신호가 아니라고 판단될 경우 명료도 개선부(570) 출력을 낮게 결정하거나 명료도 개선부(570)가 동작하지 않도록 결정할 수 있다.

예를 들어, 수신된 송신단 음성 신호의 비트스트림 확인 결과 DTX 가 1로 설정되어 있다면 송신단 입력 신호가 없는 상태이므로 제어부(530)는 명료도 개선부(570)의 출력을 낮추거나 동작하지 않도록 결정할 수 있다. 또는, 수신된 수신단 음성 신호의 VAD에서 음성 활동이 감지된다면 이를 이용하여 잡음 신호를 분석할 수 있으며, 제어부(530)는 VAD에 기초하여 명료도 개선부(570)의 출력을 결정할 수 있다.

잡음 감소부(550)는, 제어부(530)에서 결정된 잡음 제어 파라미터에 기초하여 역위상 신호를 생성한다. 잡음 감소부(550)는 역위상 신호 및 에러 신호를 명료도 개선부(570)로 전달함으로써 물리적으로 잡음이 감소된 환경에서 송신단 음성 신호를 변경하여 명료도를 개선하도록 한다.

잡음 감소부에서 가상 센싱 방식을 이용하였다면, 추가적으로 예측 잡음 신호를 명료도 개선부(570)로 전달할 수 있다. 가상 센싱 방식 및 잡음 감소 부의 각 신호들에 대해서는 후술한다. 이와 같은 경우 잡음 감소 신호는 기준 잡음 신호, 역위상 신호, 에러 신호 및 예측 잡음 신호 중 적어도 하나의 신호가 포함 된다.

명료도 개선부(570)는, 제어부(530)에서 결정된 음성 신호 변경 파라미터에 기초하여 송신단 음성 신호를 변경한다. 명료도 개선부(570)는 잡음 감소부(550)에서 전달된 잡음 감소 정보를 이용함으로써 감소 될 잡음에 기초하여 송신단 음성 신호를 변경하여 명료도를 개선할 수 있다. 잡음 감소 정보는 잡음 감소부에서 얻어진 기준 잡음 신호, 역위상 신호 또는 에러 신호 자체이거나 관련된 정보이다.

본 발명의 일 실시예에 따르면, 제어부(530)는 잡음 감소부(550)와 명료도 개선부(570)가 선택적으로 동작하도록 제어할 수 있다.

또한, 잡음 감소부(550)는 명료도 개선부(570)로부터 전달된 변경된 송신단 음성 신호에 대한 정보를 이용하여, 추가적으로 잡음을 더 감소시킬 수 있다. 예를 들어, 송신단 음성 신호에 잡음이 포함된 경우 잡음 감소의 성능이 저하될 수 있으므로, 송신단 음성 신호를 확인하여 일정 수준 이상의 잡음을 포함하고 있다면 잡음 감소 방법이 변경되거나 잡음 감소 정도가 조절될 수 있다.

본 발명의 일 실시예에 따른 명료도 개선 방법에 따르면, 잡음 제어 기술이 적용된 수신단 잡음 신호와 명료도 개선 기술을 위해 변경된 송신단 음성 신호를 단순히 병합하는 것이 아니라, 잡음 제어 기술에 의해 잡음이 물리적으로 감소된 환경에서 명료도 향상 기술을 적용하므로 주관적 음질뿐 아니라 객관적 음질 역시 향상될 수 있다.

잡음 신호는 시간에 대한 변화 속도가 매우 빠르므로 잡음 감소부(550)는 시간에 대한 응답 속도가 빨라야 성능을 보장할 수 있으며, 명료도 개선부(570)는 상대적으로 긴 시간에 대한 잡음 신호의 변화 특징에 따라 적응적으로 적용해야 한다.

명료도 개선부(570)는 명료도 개선 처리를 거친 변경된 음성 신호를 출력하며, 변경된 음성 신호는 잡음 감소부(550)의 역위상 신호와 합쳐져 출력된다. 잡음 신호와 잡음 신호의 역위상 신호가 합쳐지면 상쇄 간섭이 발생하여 잡음 신호가 감소될 수 있다.

도 6 은 일 실시예에 따른 잡음 감소부와 관련된 각 신호들을 나타내는 도면이다.

상술한 바와 같이, 동적 잡음 제어(active noise control), 또는 동적 잡음 제거(active noise cancellation) 기술은 마이크를 통해 입력된 잡음 x(n)과 위상이 반대인 잡음 신호 y(n), 즉 역위상 신호를 생성하고 이를 원 신호와 합성함으로써 소음을 감소시키는 기술이다.

잡음 신호와 역위상 신호의 합성 결과 생성되는 신호가 에러 신호 e(n)이 되며, 이상적으로는 잡음 신호 x(n)과 역위상 신호 y(n)의 상쇄 간섭 결과 잡음 신호가 완벽하게 제거되어 에러 신호 e(n)이 0이 되어야 한다.

그러나, 현실적으로 잡음을 완벽하게 제거하는 것은 불가능하며 역위상 신호와 잡음 신호의 동기 또는 위상이 정확하게 맞지 않는 경우 보강간섭에 의해 오히려 잡음이 증폭될 수 있다. 따라서, 잡음 환경 또는 실시예에 따라, 역위상 신호의 크기 또는 동적 잡음 제어 모듈의 출력을 조절함으로써 에러 신호 e(n)이 최소화되도록 동적으로 제어한다.

잡음 감소부(550)는, n-2번째 프레임에 대한 기준 잡음 신호(610)에 기초하여 n-2번째 프레임에 대한 역위상 신호(630)를 생성하며, 생성된 역위상 신호를 스피커를 통해 출력하고, 제 2 마이크를 통해 n-2번째 프레임에 대한 에러 신호(620)를 획득한다.

잡음 감소부(550)는 n-1 프레임에 대하여 기준 잡음 신호(610) 기초하여 역위상 신호(630)를 생성하며, 이 때 n-2 프레임에서 획득된 에러신호를 이용한다. 에러 신호가 거의 없거나 작은 경우라면 잡음 감소부(550)가 정상적으로 동작하고 있는 것으로 판단할 수 있으나, 에러 신호가 비정상적으로 큰 경우라면 역위상 신호가 잘못 생성된 것이므로 잡음 제어 파라미터를 새로 설정하고 n-1번째 프레임에 대한 역위상 신호(630)를 생성해야 한다.

잡음 감소부(550)는, 생성된 n-1번째 프레임에 대한 역위상 신호를 스피커를 통해 출력하고, 제 2 마이크를 통해 n-1번째 프레임에 대한 에러 신호(620)를 획득한다.

이와 같은 과정을 통해 동적이며 적응적인 잡음 제어가 가능하다.

도 7 은 일 실시예에 따른 수신단 장치(700)에서 가상 센싱에 기초한 예측 기준 잡음 신호를 이용하여 명료도가 개선된 음성 신호를 생성하는 동작을 설명하는 도면이다.

도 7 의 실시예에 개시된 수신단 장치(700)는, 마이크부(710), 제어부(730, 미도시), 잡음 감소부(750), 명료도 개선부(770) 및 가상 센싱부(790)를 포함할 수 있다.

기준 잡음 신호, 에러 신호, 역위상 신호 및 송신단 음성 신호의 흐름 및 음향 신호 경로(acoustic signal path)는 각 화살표로 표시되어있다.

제 1 마이크(기준 마이크)는 일반적으로 단말 사용자의 입과 가까이에 위치하며, 제 1 마이크에는 수신단 잡음 신호 x(n), 피드백 경로 F(z)를 거쳐 수신된 역위상 신호 y(n) 및 송신단 음성 신호 s_f(n)중 적어도 하나가 수신될 수 있다. 제 2 마이크(에러 마이크)는 단말 사용자의 귀 및 단말의 스피커와 가까이에 위치하며, 제 2 마이크에는 프라이머리(primary) 경로 P(z)를 거쳐 수신된 배경 잡음 신호 x(n) 및 세컨더리 경로 S(z)를 거쳐 수신된 역위상 신호 y(n)중 적어도 하나가 수신될 수 있다

실제 단말 구현시, 스피커와 상대적으로 멀리 위치하는 제 1 마이크에는 스피커에서 출력되는 역위상 신호 y(n)의 영향이 크지 않으나 스피커와 가까이에 위치하는 제 2 마이크에는 역위상 신호 y(n)이 입력되어 전체 신호 처리에 영향을 미칠 수 있다.

도 7 에서는 스피커에서 출력된 역위상 신호 y(n)이 그대로 제 2 마이크에 입력되어 제 2 마이크의 입력이 x(n) + y(n), 즉 e(n)이 되는 경우를 가정하였으나 실제 구현에 따라 제 2 마이크에 입력되는 역위상 신호의 영향은 상이할 수 있음을 유의하여야 한다. 본 발명의 또 다른 실시예에 따르면, 배경 잡음 신호 x(n)과 역위상 신호 y(n)을 별개의 방법으로 획득하고 두 신호를 합하여 에러 신호 e(n)을 산출할 수 있다.

도 7 에 개시된 실시예는 가상 센싱부(790)를 포함하며, 가상 센싱부(790)는 제 1 마이크에서 수신된 잡음 신호 x(n)을 이용하여, 가상의 위치에 존재하는 적어도 하나의 가상 마이크(713)에서 수신되는, 가상 잡음 신호에 대한 역위상 신호를 생성하여 출력한다.

실제로 배경 잡음이 감소되어야 하는 위치는 청자의 귀 기준점(ERP, Error Reference Point) 즉, 고막이 된다. 따라서 이상적인 스피커의 위치 및 에러마이크의 위치는 소리가 인식되는 귀 기준점이나, 구조적인 한계에 의해 청자의 귓바퀴가 존재할 것으로 예측되는 소정의 지점에 스피커 및 에러마이크가 존재하며 에러 신호 e(n)은 제 2 마이크의 위치에서 획득된다.

청자의 귀 기준점과 단말의 상대적 위치 차이는 개인마다 단말을 파지하는 방법이 서로 상이하고, 화자의 청각기관의 형태나 크기가 서로 상이하다. 복수개의 마이크를 사용하는 경우 잡음 감소를 위해 보다 효과적인 신호 모델링이 가능하지만, 단말의 크기가 작아지고 두께가 얇아지는 추세에서 추가적인 하드웨어 모듈을 설치하는 것은 용이하지 않다.

따라서, 제 2 마이크로부터 청자의 귀 기준점까지 전달되는 소리의 전달경로를 함수화함으로써 적어도 하나의 가상의 마이크 위치에서 발생되는 소리를 예측하여 가상 에러 신호 e_v(n)을 추정할 수 있다.

이 때, 제 2 마이크의 위치가 화자의 귀의 위치와 가까울수록 잡음 제거 성능이 좋아지므로, 가상 마이크의 위치는 별도의 센싱을 통해 측정된 화자의 귀의 위치로 설정할 수 있다.

다른 실시예에 따르면, 화자의 귀가 위치할 가능성이 높은 자리에 제 2 마이크가 위치하기 어려운 경우에도 가상 센싱을 이용함으로써 보다 향상된 잡음 제거 성능을 획득할 수 있다.

다른 실시예에 따르면, 가상 센싱 기반의 잡음 감소 기술은 복수 개의 기준 마이크에 의해 수신된 복수 개의 기준 잡음 신호가 존재하는 경우, 복수 개의 예측 에러 신호를 생성함으로써 보다 효과적인 잡음 제거가 가능하다.

가상 센싱에 의한 예측 에러 신호를 이용하는 경우 가상 센싱의 위치가 매칭되지 않거나 예측 에러 신호가 실제 신호와 매칭되지 않는 경우 성능 열화가 일어날 수 있으며, 이러한 경우 잡음 감소부 출력 신호에 가중치를 적용하여 성능 열화를 방지할 수 있다.

잡음 감소부(750)는 기준 잡음 신호와 가상 에러 신호로부터 예측 기준 잡음 신호를 생성하여 역위상 신호를 획득하고, 획득된 역위상 신호, 기준 잡음 신호, 예측 기준 잡음 신호 및 에러 신호를 명료도 개선부(770)로 전달한다. 본 명세서에서 잡음 감소 신호는 잡음 감소부의 입출력 신호인 기준 잡음 신호, 예측 기준 잡음 신호, 역위상 신호 및 에러 신호를 의미할 수 있다.

명료도 개선부(770)는, 송신단 음성 신호 s_f(n)를 처리하여 명료도를 개선하고, 명료도가 개선된 송신단 음성 신호를 잡음 감소부 출력 신호와 함께 스피커로 출력한다. 명료도가 개선된 신호를 잡음 감소부에서 이용하는 경우, 명료도가 개선된 신호를 잡음 감소부로 전달한다.

이와 같이, 가상 에러 신호를 이용하여 원하는 위치에서 잡음 감소가 수행되도록 함으로써 사용자의 단말 파지 방법이나 및 청각기관의 구조 차이 등으로 인한 잡음제거 성능 열화를 방지할 수 있다.

도 8 은 본 발명의 실시예에 따른 잡음 감소부와 관련된 각 신호들을 나타내는 도면이다.

출력 스피커 또는 헤드셋의 위치와 청자가 소리를 인식하는 귀 기준점은 서로 상이하다. 따라서 출력 스피커(헤드셋)를 기준으로 출력 신호를 생성하는 경우, 출력 스피커(헤드셋)의 출력 신호와 청자의 귀 기준점에서의 신호 사이에는 전달 지연(propagation delay)이 존재한다.

또한, 프로세싱에 의한 추가적인 시간 지연(d)이 존재할 수 있으며 가상 센싱 방식에서는 시간 예측에 기초하여 추가적인 시간 지연을 보상할 수 있다.

이 때, 기준 마이크가 복수 개, 예를 들어 L개 존재하는 경우라고 가정하면 기준 잡음 신호(810)는 L 채널 신호가 된다.

공간 예측(spatial prediction)은, 실제 마이크의 위치와 귀 기준점에 대응하는 가상 기준 잡음 신호의 위치를 기초로, 실제 마이크에서 측정된 기준 잡음 신호를 가상 기준 잡음 신호로 변환하는 것으로 전달 지연을 반영하는 과정에 해당한다. 그 결과, 기준 잡음 신호 811은 예측 기준 잡음 신호 821로, 기준 잡음 신호 812는 예측 기준 잡음 신호 822로, 기준 잡음 신호 813은 예측 기준 잡음 신호 823로 각각 변환된다.

시간 예측(temporal prediction)은, 프로세싱에 의한 추가적인 지연을 반영함으로써 현재의 신호를 기준으로 미래의 신호를 예측하는 과정이다. 그 결과, 기준 시간 t의 예측 기준 잡음 신호 823은 추가적인 지연을 반영하여 t+d 의 예측 기준 잡음 신호 824로 변환된다.

본 발명의 실시예에 따른 신호 처리 장치의 잡음 감소부는 공간 예측 및 시간 예측 과정을 통해 도출된 예측 기준 잡음 신호로부터 역위상 신호(840)를 생성할 수 있다. 이에 따라, 예측 기준 잡음 신호 820에 대응하는 역위상 신호는 840이 되고, 에러 신호는 예측 기준 잡음 신호 820과 그 역위상 신호 840을 합친 830이 된다.

도 9 는 일 실시예에 따른 명료도가 개선된 음성 신호를 생성하는 방법의 순서도이다.

잡음 감소부에서 역위상 신호가 결정되고 에러 신호가 획득되면, 잡음 감소부는 역위상 신호 및 에러 신호에 대해 버퍼링(910)을 수행하고, 각 신호를 시간 정렬하고 프레이밍(920)하여 명료도 개선부와 시간 G 프레임 싱크를 맞춘다.

명료도 개선부는 잡음 신호 변경부를 추가로 포함할 수 있다. 잡음 신호 변경부는 잡음 신호와 잡음 감소부 출력 신호 즉, 역위상 신호 및 에러신호에 대해 시간-주파수 변환(930)을 수행하고, 잡음 감소부 출력 신호에 기초하여 주파수 도메인에서 잡음 신호의 스펙트럼을 수정(940)하여 잡음 신호를 변경한다.

명료도 향상부는 변경된 잡음 신호에 기초하여 변환된 음성 신호의 스펙트럼별 클래스를 결정(950)하고, 음성 신호의 스펙트럼별 클래스 정보에 기초하여 음성 신호 변경 정보를 생성(960)하고, 각 스펙트럼별 게인을 출력한다.

본 발명의 일 실시예에 따르면, 음성 신호 변경 방법은 음성 명료도 모델에 기초하여 결정될 수 있으며, 보다 구체적으로 청지각 중요도 또는 음성 발화 패턴에 기초하여 결정될 수 있다.

도 10 은 일 실시예에 따른 수신단 장치에서 잡음 감소부와 명료도 개선부의 동작을 설명하는 도면이다.

본 발명의 일 실시예에 따른 잡음 감소부(1010)는 수신단 음성 신호와 잡음 신호(기준 잡음 신호)를 수신하고, 이에 기초하여 역위상 신호, 에러 신호 및 예측 기준 잡음 신호 중 적어도 하나 이상을 출력한다.

본 발명의 일 실시예에 따른 명료도 개선부(1030)는 수신단 음성 신호와 잡음 신호(기준 잡음 신호)에 추가하여 송신단 음성 신호를 수신하고, 청지각 중요도에 기반하여 음성 신호를 변경(1031)하고, 발화 패턴에 기반하여 음성 신호를 변경(1032)함으로써 명료도가 향상된 송신단 음성 신호를 출력할 수 있다.

본 발명의 일 실시예에 따르면, 청지각 중요도에 기반하여 음성 신호를 변경(1031)하는 과정은 도 2 에 도시된 제 1 명료도 개선부(230)에서 수행되고, 발화 패턴에 기반하여 음성 신호를 변경(1032)하는 과정은 제 2 명료도 개선부(250)에서 수행될 수 있으며, 제 1 명료도 개선부와 제 2 명료도 개선부는 모드 결정부(210)의 결정에 따라 선택적으로 동작할 수 있다.

이 때, 명료도 개선부는 실시간 잡음 제어 신호 신호를 버퍼링한 후, 실제 귀에 들리는 잡음 정보를 기준으로 명료도 향상 방법을 적용한다.

본 발명의 또 다른 실시예에 따르면, 잡음 감소부는 명료도 개선부에서 출력되는 변경된 음성 신호에 대한 정보를 이용할 수 있으며, 이와 같은 경우 잡음 감소부는 응답속도가 매우 빠를 것이 요구되고 명료도 향상부는 잡음 신호의 변화 양상에 따라 서서히 적응하는 것이 필요하다.

도 11 은 일 실시예에 따른 청지각 중요도에 기초하여 음성 명료도를 개선하기 위한 방법을 설명하는 도면이다.

본 발명의 실시예에 따른 음성 명료도 개선 방법의 목적은 주변 잡음 신호(N)가 큰 환경에서 듣는 신호 (S+N)를 주변 잡음 신호가 없는 환경에서 듣는 신호(S)와 유사하게 만드는 것이다. 다시 말해, 구체적으로 음성 신호 S와 잡음 신호 N의 SNR(Signal to Noise Ratio)을 최대화하기 위해 잡음을 포함하는 음성 신호(S+N)과 음성 신호(S) 사이의 에러 신호를 최소화하는 것이다.

음성 신호(S)는 청지각 중요도에 기초하여 주파수 대역에서 S1 신호와 S2 신호로 구별될 수 있다. S1 신호는 지각적 모델에 기초할 때 명료도 개선에 큰 영향을 미치지 못하는 주파수 대역의 신호에 해당한다. S2 신호는 지각적 모델에 기초할 때 명료도 개선에 큰 영향을 미치는 주파수 대역의 신호에 해당한다.

잡음을 포함하는 음성 신호(S+N)는 (수식 1)과 같이 나타낼 수 있으며,

αS1 + βS2 + γN (수식 1)

이 때 잡음을 포함하는 음성 신호(S+N)과 음성 신호(S) 사이의 에러 신호는 (수식 2)가 되며,

S-(αS1 + βS2 + γN) (수식 2)

에러 신호의 LSE(Least Square Error)는 (수식 3)과 같이 나타낼 수 있다.

min {[S-(αS1 + βS2 + γN)]^2} (수식 3)

이상적인 명료도 개선을 위해서 잡음을 포함하는 음성 신호(S+N) 중 S1과 N은 감소되어야 할 성분이고 S2는 증가되어야 할 부분에 해당한다.

즉, (수식 3)을 만족하는 각 신호의 계수 α, β, γ를 선택함으로써 음성 신호 S와 잡음 신호 N가 증가되고 명료도가 개선되는 것이다. (수식 3)을 만족하기 위해서 α는 감소시키고, β는 증가시키고, γ는 잡음의 특징에 따라 결정되어야 한다. 이와 같은 과정은 소리가 들리지 않는 대역과 S1 신호에 해당하는 대역의 에너지를 S2 신호에 해당하는 대역으로 전달하는 과정에 해당한다.

S1 신호와 S2 신호는 연속된 주파수 대역에 의하여 구별되는 것은 아니다. 음성 신호를 주파수 스펙트럼 단위로 복수 개의 클래스로 구별하여 각 클래스별로 해당 클래스의 에너지가 증가되어야 하는지, 감소되어야 하는지, 유지되어야 하는지 여부가 결정되며, 감소되어야 하는 클래스에 해당하는 신호를 S1 신호로 증가되어야 하는 클래스에 해당하는 신호를 S2로 지칭하는 것이다.

또한, (수식 1) 내지 (수식 3)에서는 에너지가 유지되어야 하는 클래스에 해당하는 신호에 대한 설명은 생략되어 있음을 유의해야 한다.

도 16 에 도시된 바와 같이 지각 모델링에 따른 절대적인 임계값에 의해 S1 대역 신호와 소리가 들리지 않는 대역이 결정된다.

(수식 1) 내지 (수식 3)의 과정을 살펴보면, (αS1 + βS2 + γN)신호에서 (βS2 + γN)를 잡음처럼 취급하는 것으로, S1 신호와 S2 신호의 경계에 해당하는 부분이 새로운 임계값으로 설정되는 것으로 해석할 수 있다.

본 발명의 또 다른 실시예에 따르면 지각적 모델에 기초한 가중치 W를 이용하여 (수식 3)을 (수식 4)와 같이 변경할 수 있다.

min {W[S-(αS1 + βS2 + γN)]^2} (수식 4)

이와 같은 경우 명료도 개선을 위한 W, α, β, γ 등을 결정론적 방법에 의해 획득할 수 있다.

도 12 는 일 실시예에 따른 명료도 개선 방법에서 음성 신호의 주파수 대역간의 에너지 수수 관계를 설명하는 도면이다.

본 발명의 일 실시예에 따른 지각 모델링에 기초하여 S1 신호의 감소 에너지 양, S2 신호의 증가 에너지 양 및 들리지 않는 성분 신호의 감소 에너지 양을 결정하는 방법은, 폐회로(closed-loop) 형태로 에너지 수수 관계를 결정함으로써 음성 신호를 변경하여 명료도를 개선한다.

본 발명의 또 다른 실시예에 따른 음성 신호(S) 와 잡음이 포함된 음성 신호(S+N) 의 MSE(Mean Square Error)를 최소화하는 S1 신호의 감소 에너지 양 및 S2 신호의 증가 에너지 양을 결정하는 방법은, 에너지 수수 관계를 고려하는 결정론적 방법에 따라 음성 신호를 변경하여 명료도를 개선한다. 이와 같은 방법에 따르면, 분류된 주파수 밴드 클래스에 따라 신호를 처리하므로 주파수 성분 별 처리가 가능하고 객관적인 측정 성능이 향상된다.

도 13 은 일 실시예에 따른 청지각 중요도에 기반하여 음성 신호를 변경하는 경우 주파수 밴드별 에너지 변화를 나타낸 것이다.

1310은 주파수 밴드에 따른 음성 신호의 에너지를 나타내며, 1320은 신호의 에너지 레벨을 증가 또는 감소 여부를 결정하는 마스킹 임계값을 나타낸다. 1330은 심리 음향 모델에 기초한 청지각 중요도를 고려하여, 음성의 명료도를 결정하는데 중요한 밴드들을 나타낸 것으로 그래프의 음성 신호의 에너지 1310 위에 원으로 표시되어 있다.

주파수 밴드에 따른 음성 신호의 에너지(1310)를 살펴보면, 주파수 밴드 1의 신호는 저주파 신호에 해당하며, 심리음향적으로 음성 명료도를 결정하는데 큰 영향을 미치지 못한다. 그러나 주파수 밴드 1의 신호는 다른 주파수 밴드의 신호에 비하여 높은 에너지 레벨을 갖는다.

또한, 주파수 밴드 12, 13, 16, 17, 19 및 20의 신호 역시 음성 명료도를 결정하는 중요 밴드에서 제외된다. 이는 도 13 에서 각 밴드 신호의 에너지 레벨(1310)과 마스킹 임계값(1320)의 크기를 비교함으로써 확인할 수 있는데, 주파수 밴드 12, 13, 16, 17, 19 및 20 의 마스킹 임계값은 해당 구간의 음성 신호 에너지 레벨보다 큰 값을 갖는다.

따라서, 주파수 밴드 1, 12, 13, 16, 17, 19 및 20 신호의 에너지는 중요 밴드로 적절히 분배되어 중요 밴드 신호의 에너지 레벨을 증가시키는데 사용된다. 특히 주파수 밴드 1의 신호는 다른 주파수 밴드의 신호에 비하여 높은 에너지 레벨을 가지므로 여러 중요 밴드 신호의 구간(S2_1, S2_1, S2_3)으로 분배될 수 있다.

도 14 는 일 실시예에 따른 음성 신호의 발화 패턴에 기초하여 음성 신호를 변경함으로써 음성 신호의 명료도를 개선하기 위한 방법을 설명하는 도면이다.

1410은 화자의 발성에 따른 음성 신호의 발화 패턴을 나타낸 것으로, 1412는 사람이 일반적으로 발성하는 경우(casual) 음성 신호의 발화 패턴을 나타내며, 1411은 사람이 보다 또렷이 말하려는 의도를 가지고 발성하는 경우(clear) 음성 신호의 발화 패턴을 나타낸다.

따라서, 잡음 레벨이 높은 환경이라면, 잡음 환경에 따른 발화 패턴 모델에 기초하여 1412과 같은 특징을 갖는 화자의 음성 신호를 1411과 같은 특징을 갖는 신호로 변경하는 것이다. 변경된 신호는 변경 전의 신호에 비해 큰 크기를 가지므로 더 높은 에너지 레벨을 가진다고 할 수 있다.

1420은 1411와 같은 특징을 갖는 음성 신호와 1412와 같은 특징을 갖는 음성 신호의 변조 주파수(modulation frequency)에 대한 변조 지수(modulation index)를 나타낸 것으로, 발화 패턴 모델에 기초하여 변경된 음성 신호는 변경 전 음성 신호에 비해 더 높은 에너지 레벨을 가지므로 더 높은 변조 지수로 변조할 수 있다.

도 15 는 다른 실시예에 따른 수신단 장치(2000)에서 명료도가 개선된 변경 신호를 생성하는 방법을 설명하는 도면이다.

도 15 의 실시예에 따른 수신단 장치(1500)는 도 5 의 실시예에 따른 수신단 장치(500)에 비하여 가상마이크(1513) 전처리부(1520)와 코덱부(1560)를 더 포함한다.

수신단 음성 신호, 수신단 잡음 신호, 송신단 음성 신호 및 송신단 단말로부터의 착신 호에 대한 정보가 전처리부(1520)로 전달된다.

이 때 수신단 음성 신호는 제 1 마이크(1511)를 통해 수신된 잡음-음성 신호, 제 2 마이크를 통해 수신된 잡음 신호, 가상 마이크(1513)의 위치에서 예측된 가상 잡음을 모두 포함할 수 있으며, 송신단 음성 신호는 송신단 단말로부터 전달된 음성 신호를 포함한다. 착신 호에 대한 정보는 송신단 음성신호에 대한 코덱 종류, 코덱의 코어 모드 및 DTX 정보 등을 포함할 수 있다.

전처리부(1520)는 전달된 신호를 전처리하여 음성 신호, 잡음 신호 및 에러 신호를 획득하여 제어부 및 코덱부로 전달하고, 전달된 착신 호에 대한 정보를 제어부 및 코덱부로 전달한다. 이 때, 전처리부는 에코캔슬러 등을 포함할 수 있다.

코덱부(1560)의 인코더(1561)는 수신단 음성 신호를 인코딩하고 디코더(1562)는 송신단 음성 신호를 디코딩한다. 코덱부는 디코더에서 디코딩된 송신단 음성 신호 s_f(n)을 제어부로 전달한다.

제어부(1530)는, 수신단 음성 신호 및 잡음 신호, 송신단 음성 신호 및 호 정보에 기초하여 잡음 감소부(1550) 및 명료도 개선부(1570)의 동작을 제어한다. 제어부(1530)는 잡음 감소부(1550)의 출력 및 명료도 개선부(1570)의 전력 출력을 제어하거나, 잡음의 종류에 따라 잡음 감소부(2050)와 명료도 개선부(1570)의 동작을 선택적으로 동작하도록 제어할 수 있다.

또는 제어부(1530)는 수신단 음성 신호 및 잡음 신호, 송신단 음성 신호 및 호 정보에 기초하여 잡음 감소부(1550)의 잡음 감소 정보 또는 명료도 개선부(1570)의 명료도 개선 정도를 결정할 수 있다.

잡음 감소부(1550)는, 수신단 잡음 신호와 에러 신호를 이용하여 역위상 신호를 생성한다. 스피커를 통해 잡음 신호의 역위상 신호를 출력함으로써 상쇄 간섭 현상에 의해 잡음 신호가 상쇄되어 잡음을 물리적으로 감소시킬 수 있다.

명료도 개선부(1570)는, 송신단 음성 신호를 처리하여 명료도를 개선한다. 명료도 개선부(1570)는, 송신단 음성 신호의 명료도를 개선하기 위하여, 제어부(1530)로부터 전달된 제어신호 및 잡음 감소부(1550)로부터 전달된 잡음 감소 신호를 이용한다.

본 발명의 일 실시예에 따른 명료도 개선 방법에 따르면, 단순히 잡음 감소 기술이 적용된 수신단 음성 신호와 명료도 개선 기술이 적용된 송신단 음성 신호를 단순히 병합하는 것이 아니라, 잡음 제어 기술에 의해 물리적으로 감소된 잡음에 기초하여 명료도 향상 기술을 적용하므로 주관적 음질뿐 아니라 객관적 음질 역시 향상될 수 있다.

이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.

이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항과 한정된 실시예 및 도면에 의하여 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위하여 제공된 것일 뿐, 본 발명이 상기 실시예에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정과 변경을 꾀할 수 있다.

따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims

적어도 하나의 마이크로폰을 이용해 수신단(near-end) 잡음 신호 및 수신단 음성 신호를 획득하는 단계;
송신단(far-end) 음성 신호를 획득하는 단계;
수신단 잡음 신호에 대한 정보에 기초하여 역위상 신호의 출력 파워를 결정하는 단계;
송신단 음성 신호의 주파수 대역에 대한 정보 및 청지각 모델에 기초하여, 송신단 음성 신호를 변경할 주파수 범위를 결정하는 단계;
상기 결정된 역위상 신호의 출력 파워에 기초하여, 상기 수신단 잡음 신호의 역위상 신호를 생성하는 단계;
상기 송신단 음성 신호를 변경할 주파수 범위에 기초하여, 상기 송신단 음성 신호의 명료도가 개선되도록 상기 송신단 음성 신호를 변경하는 단계; 및
상기 역위상 신호 및 상기 변경된 송신단 음성 신호를 출력하는 단계;를 포함하는,
음성 신호 처리 방법.
제 1 항에 있어서, 상기 역위상 신호는,
상기 수신단 잡음 신호가 획득된 위치와 상기 송신단 음성 신호가 청취되는 위치의 차이 및 상기 수신단 잡음 신호가 획득된 시간과 상기 송신단 음성 신호가 청취되는 시간의 차이 중 적어도 하나에 기초하여, 상기 수신단 잡음 신호로부터 추정된 가상 잡음 신호에 대한 역위상 신호인,
음성 신호 처리 방법.
삭제
삭제
제 1 항에 있어서, 상기 수신단 잡음 신호에 대한 정보는,
상기 수신단 잡음 신호의 주파수 대역 정보 및 상기 수신단 잡음 신호의 잡음 종류에 대한 정보 중 적어도 하나를 포함하는,
음성 신호 처리 방법.
삭제
삭제
제 1 항에 있어서, 상기 송신단 음성 신호를 변경하는 단계는,
상기 송신단 음성 신호 스펙트럼의 주파수 빈(frequency bin)별로, 상기 획득된 송신단 음성 신호와 상기 수신단 잡음 신호 및 상기 역위상 신호가 존재하는 환경에서의 송신단 음성 신호의 차이가 최소가 되도록 하는,
음성 신호 처리 방법.
제 8 항에 있어서, 상기 송신단 음성 신호를 변경하는 단계는,
청지각 모델(auditory perceptual model)에 기초하여 상기 주파수 빈들을 에너지 증가 클래스, 에너지 감소 클래스 및 에너지 유지 클래스로 구분하는 단계; 및
상기 송신단 음성 신호의 에너지 감소 클래스의 에너지를 에너지 증가 클래스로 전달하는 단계;를 포함하는,
음성 신호 처리 방법.
제 1 항에 있어서, 상기 송신단 음성 신호를 변경하는 단계는,
발화 패턴 기반 모델에 기초하여 송신단 음성 신호를 변경하는,
음성 신호 처리 방법.
제 1 항에 있어서, 상기 역위상 신호는,
이전 프레임의 변경된 송신단 음성 신호에 기초하여 생성되는,
음성 신호 처리 방법.
수신단(near-end) 잡음 신호 및 수신단 음성 신호를 획득하는 적어도 하나의 마이크로폰;
송신단(far-end) 음성 신호를 획득하는 수신부;
수신단 잡음 신호에 대한 정보에 기초하여 역위상 신호의 출력 파워를 결정하고, 송신단 음성 신호의 주파수 대역에 대한 정보 및 청지각 모델에 기초하여 송신단 음성 신호를 변경할 주파수 범위를 결정하는 제어부;
상기 결정된 역위상 신호의 출력 파워에 기초하여, 상기 수신단 잡음 신호의 역위상 신호를 생성하는 잡음 감소부;
상기 송신단 음성 신호를 변경할 주파수 범위에 기초하여, 상기 송신단 음성 신호의 명료도가 개선되도록 상기 송신단 음성 신호를 변경하는 음성 신호 변경부; 및
상기 역위상 신호 및 상기 변경된 송신단 음성 신호를 출력하는 출력부;를 포함하는,
음성 신호 처리 장치.
제 12 항에 있어서, 상기 역위상 신호는,
상기 수신단 잡음 신호가 획득된 위치와 상기 송신단 음성 신호가 청취되는 위치의 차이 및 상기 수신단 잡음 신호가 획득된 시간과 상기 송신단 음성 신호가 청취되는 시간의 차이 중 적어도 하나에 기초하여, 상기 수신단 잡음 신호로부터 추정된 가상 잡음 신호에 대한 역위상 신호인,
음성 신호 처리 장치.
삭제
삭제
제 12 항에 있어서, 상기 수신단 잡음 신호에 대한 정보는,
상기 수신단 잡음 신호의 주파수 대역 정보 및 상기 수신단 잡음 신호의 잡음 종류에 대한 정보 중 적어도 하나를 포함하는,
음성 신호 처리 장치.
삭제
삭제
제 12 항에 있어서, 상기 음성 신호 변경부는,
상기 송신단 음성 신호 스펙트럼의 주파수 빈(frequency bin)별로, 상기 획득된 송신단 음성 신호와 상기 수신단 잡음 신호 및 상기 역위상 신호가 존재하는 환경에서의 송신단 음성 신호의 차이가 최소가 되도록 하는,
음성 신호 처리 장치.
제 19 항에 있어서, 상기 음성 신호 변경부는,
청지각 모델(auditory perceptual model)에 기초하여 상기 주파수 빈들을 에너지 증가 클래스, 에너지 감소 클래스 및 에너지 유지 클래스로 구분하고, 상기 송신단 음성 신호의 에너지 감소 클래스의 에너지를 에너지 증가 클래스로 전달하는,
음성 신호 처리 장치.
제 12 항에 있어서, 상기 음성 신호 변경부는,
발화 패턴 기반 모델에 기초하여 송신단 음성 신호를 변경하는,
음성 신호 처리 장치.
제 12 항에 있어서, 상기 역위상 신호는,
이전 프레임의 변경된 송신단 음성 신호에 기초하여 생성되는,
음성 신호 처리 장치.
제 1 항에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 컴퓨터 판독 가능한 기록 매체.