KR20160149961A

KR20160149961A - 음성 신호 처리 방법 및 장치

Info

Publication number: KR20160149961A
Application number: KR1020150106774A
Authority: KR
Inventors: 이강은; 장준혁; 전병용; 김현성; 박태준; 송광섭; 윤태현; 최성현; 최현철
Original assignee: 삼성전자주식회사; 한양대학교 산학협력단
Priority date: 2015-06-19
Filing date: 2015-07-28
Publication date: 2016-12-28
Anticipated expiration: 2035-07-28
Also published as: KR101824648B1

Abstract

데이터를 송수신하는 통신부; 진동을 발생시켜 신호를 출력하는 액추에이터(actuator); 음성 신호의 포먼트를 증가시키는 포먼트 증강 필터; 및 상기 통신부를 통해 상기 음성 신호를 수신하도록 제어하고, 선형 예측 부호화를 기반으로 상기 음성 신호로부터 적어도 하나 이상의 포먼트 주파수를 추정하며, 상기 적어도 하나 이상의 포먼트 주파수의 대역폭을 추정하고, 상기 음성 신호가 유성음인지 무성음인지 판별하며, 상기 포먼트 주파수, 상기 포먼트 주파수의 대역폭, 상기 판별한 유성음 또는 무성음의 특성 및 인체의 신호 전달 특성을 기반으로 상기 포먼트 증강 필터를 구성하고, 상기 포먼트 증강 필터를 상기 음성 신호에 적용하며, 상기 액추에이터를 통해 상기 포먼트 증강 필터가 적용된 음성 신호를 상기 인체를 통해 출력하도록 제어하는 제어부를 포함하는 음성 신호 처리 장치가 개시된다.

Description

음성 신호 처리 방법 및 장치{METHOD AND APPARATUS FOR SPEECH SIGNAL PROCESSING}

본 발명은 음성 신호 처리 방법 및 장치에 관한 것으로, 보다 구체적으로 인체를 매질로 하는 음성 신호 처리 방법 및 장치에 관한 것이다.

최근 스마트폰 및 태블릿 PC와 같은 모바일 디바이스 관련 기술이 발전함에 따라, 모바일 디바이스를 이용하여 인체를 매질로 오디오 신호를 전달하는 기술이 연구되고 있다. 특히, 신체에 착용할 수 있는 웨어러블 기기(wearable device)를 스마트폰 및 태블릿 PC와 같은 모바일 디바이스와 연동하고, 웨어러블 기기를 이용하여 인체를 매질로 음성 신호를 전달하는 기술에 대한 관심이 높아지고 있다.

웨어러블 기기를 이용하여 통화를 수행하는 경우, 웨어러블 기기는 상대편으로부터 수신한 음성을 사용자 인체를 통해 전달하고, 사용자의 음성을 상대편으로 전송할 수 있다. 이 경우, 웨어러블 기기가 수신한 음성 신호를 진동(vibration)으로 출력하면, 인체를 통해 진동이 전달되고, 사용자가 웨어러블 기기를 착용한 신체 부위를 귀에 접촉하면, 진동으로 전달되는 음성 신호를 들을 수 있다. 하지만, 인체를 통해 진동을 전달하는 경우, 인체의 매질 특성에 따라, 전달되는 음성 신호에 손실이 발생할 수도 있고, 잡음에 오염되어 소리가 불명확하게 들릴 수 있다.

또한, 사용자는 웨어러블 기기에 장착된 마이크를 통해 음성 신호를 상대편으로 전송할 수도 있다. 웨어러블 기기는 오디오 신호를 신체에 인가하기 위하여 강한 진동을 사용하는데, 사용자가 마이크를 통해 음성 신호를 입력하는 경우, 발생된 진동이 음성 신호와 함께 마이크로 재입력되어 에코를 발생시켜 음성 품질을 저하시킬 수 있다.

따라서, 인체를 매질로 음성 신호를 전달하고 입력하는 경우, 적절한 음성 신호의 처리가 필요하다.

개시된 실시예는 인체를 매질로 음성 신호를 전달하면서도 음성 품질을 향상시킬 수 있는 음성 신호 처리 방법 및 장치를 제공한다.

구체적으로, 개시된 실시예에서는 인체를 매질로 음성 신호를 전달 시, 인체의 매질 특성에 의해 저하되는 음질을 개선하여 음성 신호의 명료도를 향상시킬 수 있는 음성 신호 처리 방법 및 장치를 제공한다.

또한, 개시된 실시예에서는 진동에 의해 발생한 에코를 제거할 수 있는 음성 신호 처리 방법 및 장치를 제공한다.

개시된 실시예에 따른 음성 신호 장치는, 데이터를 송수신하는 통신부; 진동을 발생시켜 신호를 출력하는 액추에이터(actuator); 음성 신호의 포먼트를 증가시키는 포먼트 증강 필터; 및 상기 통신부를 통해 상기 음성 신호를 수신하도록 제어하고, 선형 예측 부호화(Linear Predictive Coding)를 기반으로 상기 음성 신호로부터 적어도 하나 이상의 포먼트 주파수를 추정하며, 상기 적어도 하나 이상의 포먼트 주파수의 대역폭을 추정하고, 상기 음성 신호가 유성음인지 무성음인지 판별하며, 상기 포먼트 주파수, 상기 포먼트 주파수의 대역폭, 상기 판별한 유성음 또는 무성음의 특성 및 인체의 신호 전달 특성을 기반으로 상기 포먼트 증강 필터를 구성하고, 상기 포먼트 증강 필터를 상기 음성 신호에 적용하며, 상기 액추에이터를 통해 상기 포먼트 증강 필터가 적용된 음성 신호를 상기 인체를 통해 출력하도록 제어하는 제어부를 포함한다.

또한, 상기 제어부는, 상기 포먼트 주파수를 추정 시, 선형 예측 부호화 분석을 통해 선형 예측 부호화 계수(Linear Predictive Coding Coefficients)를 획득하고, 상기 선형 예측 부호화 계수를 기반으로 선형 예측 부호화 엔벨로프(envelope)를 획득하며, 상기 선형 예측 부호화 엔벨로프의 기울기가 양수에서 음수가 되는 주파수를 상기 포먼트 주파수로 추정할 수 있다.

또한, 상기 제어부는, 상기 적어도 하나 이상의 포먼트 주파수의 대역폭을 추정 시, 상기 선형 예측 부호화 계수를 기반으로 상기 적어도 하나 이상의 포먼트 주파수의 대역폭을 추정할 수 있다.

또한, 상기 제어부는, 상기 음성 신호가 유성음인지 무성음인지 판별 시, 상기 선형 예측 부호화 엔벨로프를 기반으로 상기 음성 신호가 유성음인지 무성음인지 판별할 수 있다.

또한, 상기 포먼트 증강 필터는, 상기 포먼트 주파수 대역의 이득을 강화하는 윈도우 함수로 구현될 수 있다.

또한, 오디오 신호를 입력 받는 마이크부; 및 잡음 성분과 에코(echo) 성분을 제거하는 잡음 및 에코 제거 필터를 더 포함하고, 상기 제어부는, 상기 마이크부를 통해 재입력 되는 상기 포먼트 증강 필터가 적용된 음성 신호를 기반으로 상기 에코 성분에 대하여 전력을 추정하여 에코 전력을 획득하고, 상기 마이크부를 통해 입력 되는 배경 잡음의 전력을 추정하여 잡음 신호 전력을 획득하며, 상기 에코 전력과 상기 잡음 신호 전력을 결합하여 결합 전력을 획득하고, 상기 결합 전력을 기반으로 에코 및 잡음 제거 필터를 구성하며, 상기 마이크부를 통해 사용자 음성 신호를 포함하는 상기 오디오 신호를 입력 받고, 상기 입력 받은 오디오 신호에 상기 잡음 및 에코 제거 필터를 적용하여 상기 오디오 신호에 포함된 상기 사용자 음성 신호를 추정할 수 있다.

또한, 상기 제어부는, 상기 에코 전력을 획득 시, 상기 포먼트 증강 필터가 적용된 음성 신호를 기반으로 이득값 필터를 추정하며, 상기 추정한 이득값 필터를 이용하여 상기 에코 성분에 대한 진폭 스펙트럼(magnitude spectrum)을 획득하고, 상기 획득한 진폭 스펙트럼 및 과거에 추정한 에코 전력을 이용한 스무딩(smoothing)을 수행하여 현재의 에코 전력을 획득할 수 있다.

또한, 상기 제어부는, 상기 에코 전력과 상기 잡음 신호 전력을 결합하여 결합 전력을 획득 시, 상기 에코 전력, 상기 잡음 신호 전력 및 과거 결합 전력을 이용한 스무딩을 수행하여 현재의 결합 전력을 획득할 수 있다.

또한, 상기 제어부는, 상기 결합 전력을 기반으로 에코 및 잡음 제거 필터를 구성 시, 상기 결합 전력을 기반으로 제1 사전 신호 대 결합 전력비(priori SCR) 및 사후 신호 대 결합 전력비(posteriori SCR)를 추정하고, 상기 결합 전력, 상기 사후 신호 대 결합 전력 비 및 과거 음성 신호의 전력을 기반으로 결정 지향 방식으로 제2 사전 신호 대 결합 전력 비를 추정하며, 상기 제2 사전 신호 대 결합 전력 비를 기반으로 상기 에코 및 잡음 제거 필터를 구성할 수 있다.

또한, 상기 제어부는, 상기 오디오 신호에 포함된 상기 사용자 음성 신호를 추정 시, 상기 사후 신호 대 결합 전력비와 상기 사후 신호 대 결합 전력비의 문턱값을 비교하여 표시 함수(indicator function) 값을 결정하고, 상기 표시 함수 값과 과거 음성 신호가 존재하지 않을 때의 사전 확률을 기반으로 현재 음성 신호가 존재하지 않을 사전 확률을 추정하며, 상기 제1 사전 신호 대 결합 전력 비, 상기 사후 신호 대 결합 전력 비 및 제2 사전 신호 대 결합 전력 비를 기반으로 우도비(likelihood ratio)를 계산하고, 상기 현재 음성 신호가 존재하지 않을 사전 확률과 상기 우도비를 기반으로 음성 신호의 존재 확률을 계산하며, 상기 에코 및 잡음 제거 필터 및 상기 음성 신호의 존재 확률을 기반으로 상기 사용자 음성 신호를 추정할 수 있다.

개시된 실시예에 따른 음성 신호 처리 방법은, 음성 신호를 수신하는 단계; 선형 예측 부호화를 기반으로 상기 음성 신호로부터 적어도 하나 이상의 포먼트 주파수를 추정하는 단계; 상기 적어도 하나 이상의 포먼트 주파수의 대역폭을 추정하는 단계; 상기 음성 신호가 유성음인지 무성음인지 판별하는 단계; 상기 포먼트 주파수, 상기 포먼트 주파수의 대역폭, 상기 판별한 유성음 또는 무성음의 특성 및 인체의 신호 전달 특성을 기반으로 포먼트 증강 필터를 구성하는 단계; 상기 포먼트 증강 필터를 상기 음성 신호에 적용하는 단계; 및 상기 포먼트 증강 필터가 적용된 음성 신호를 상기 인체를 통해 출력하는 단계를 포함한다.

또한, 상기 포먼트 주파수를 추정하는 단계는, 선형 예측 부호화 분석을 통해 선형 예측 부호화 계수를 획득하는 단계; 상기 선형 예측 부호화 계수를 기반으로 선형 예측 부호화 엔벨로프를 획득하는 단계; 및 상기 선형 예측 부호화 엔벨로프의 기울기가 양수에서 음수가 되는 주파수를 상기 포먼트 주파수로 추정하는 단계를 포함할 수 있다.

또한, 상기 적어도 하나 이상의 포먼트 주파수의 대역폭을 추정하는 단계는, 상기 선형 예측 부호화 계수를 기반으로 상기 적어도 하나 이상의 포먼트 주파수의 대역폭을 추정하는 단계를 포함할 수 있다.

또한, 상기 음성 신호가 유성음인지 무성음인지 판별하는 단계는, 상기 선형 예측 부호화 엔벨로프를 기반으로 상기 음성 신호가 유성음인지 무성음인지 판별하는 단계를 포함할 수 있다.

또한, 마이크부를 통해 재입력 되는 상기 포먼트 증강 필터가 적용된 음성 신호를 기반으로 에코 성분에 대하여 전력을 추정하여 에코 전력을 획득하는 단계; 상기 마이크부를 통해 입력 되는 배경 잡음의 전력을 추정하여 잡음 신호 전력을 획득하는 단계; 상기 에코 전력과 상기 잡음 신호 전력을 결합하여 결합 전력을 획득하는 단계; 상기 결합 전력을 기반으로 에코 및 잡음 제거 필터를 구성하는 단계; 상기 마이크부를 통해 사용자 음성 신호를 포함하는 오디오 신호를 입력 받는 단계; 상기 입력 받은 오디오 신호에 상기 잡음 및 에코 제거 필터를 적용하여 상기 오디오 신호에 포함된 상기 사용자 음성 신호를 추정하는 단계를 더 포함할 수 있다.

또한, 상기 에코 전력을 획득하는 단계는, 상기 포먼트 증강 필터가 적용된 음성 신호를 기반으로 이득값 필터를 추정하는 단계; 상기 추정한 이득값 필터를 이용하여 상기 에코 성분에 대한 진폭 스펙트럼을 획득하는 단계; 및 상기 획득한 진폭 스펙트럼 및 과거에 추정한 에코 전력을 이용한 스무딩을 수행하여 현재의 에코 전력을 획득하는 단계를 포함할 수 있다.

또한, 상기 에코 전력과 상기 잡음 신호 전력을 결합하여 결합 전력을 획득하는 단계는, 상기 에코 전력, 상기 잡음 신호 전력 및 과거 결합 전력을 이용한 스무딩을 수행하여 현재의 결합 전력을 획득하는 단계를 포함할 수 있다.

또한, 상기 결합 전력을 기반으로 에코 및 잡음 제거 필터를 구성하는 단계는, 상기 결합 전력을 기반으로 제1 사전 신호 대 결합 전력비 및 사후 신호 대 결합 전력비를 추정하는 단계; 상기 결합 전력, 상기 사후 신호 대 결합 전력 비 및 과거 음성 신호의 전력을 기반으로 결정 지향 방식으로 제2 사전 신호 대 결합 전력 비를 추정하는 단계; 상기 제2 사전 신호 대 결합 전력 비를 기반으로 상기 에코 및 잡음 제거 필터를 구성하는 단계를 포함할 수 있다.

또한, 상기 오디오 신호에 포함된 상기 사용자 음성 신호를 추정하는 단계는, 상기 사후 신호 대 결합 전력비와 상기 사후 신호 대 결합 전력비의 문턱값을 비교하여 표시 함수 값을 결정하는 단계; 상기 표시 함수 값과 과거 음성 신호가 존재하지 않을 때의 사전 확률을 기반으로 현재 음성 신호가 존재하지 않을 사전 확률을 추정하는 단계; 상기 제1 사전 신호 대 결합 전력 비, 상기 사후 신호 대 결합 전력 비 및 제2 사전 신호 대 결합 전력 비를 기반으로 우도비를 계산하는 단계; 상기 현재 음성 신호가 존재하지 않을 사전 확률과 상기 우도비를 기반으로 음성 신호의 존재 확률을 계산하는 단계; 및 상기 에코 및 잡음 제거 필터 및 상기 음성 신호의 존재 확률을 기반으로 상기 사용자 음성 신호를 추정하는 단계를 포함할 수 있다.

도 1은 개시된 실시예에 따른 음성 신호 처리 과정을 개략적으로 나타내는 도면이다.
도 2는 개시된 실시예에 따른 음성 신호 처리 장치의 내부 구성을 나타내는 블록도이다.
도 3은 개시된 실시예에 따라 웨어러블 기기를 이용하여 포먼트 증강 필터가 적용된 음성 신호를 인체를 매질로 하여 전달하는 예시를 나타내는 도면이다.
도 4는 개시된 실시예에 따른 음성 처리 신호 장치가 음성 신호에 포먼트 증강 필터를 적용하여 출력하는 과정을 나타내는 도면이다.
도 5는 개시된 실시예에 따라 웨어러블 기기를 통해 사용자 음성을 입력하는 과정을 나타내는 도면이다.
도 6은 개시된 실시예에 따른 음성 신호 처리 장치가 에코를 제거하는 과정을 나타내는 도면이다.
도 7은 개시된 실시예에 따라 음성 신호에 포먼트 증강 필터를 적용하여 출력하는 방법을 나타내는 순서도이다.
도 8은 개시된 실시예에 따라 에코를 제거하는 방법을 나타내는 순서도이다.

개시된 실시예의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 개시된 실시예는 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 개시된 실시예의 개시가 완전하도록 하고, 개시된 실시예가 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 개시된 실시예는 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 개시된 실시예에 대해 구체적으로 설명하기로 한다.

개시된 실시예에서 사용되는 용어는 개시된 실시예에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 개시된 실시예에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 개시된 실시예의 전반에 걸친 내용을 토대로 정의되어야 한다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 '부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '부'는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.

아래에서는 첨부한 도면을 참고하여 개시된 실시예의 실시예에 대하여 개시된 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 개시된 실시예는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 개시된 실시예를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략한다.

도 1은 개시된 실시예에 따른 음성 신호 처리 과정을 개략적으로 나타내는 도면이다.

도 1을 참조하면, 먼저, 통신부(110)는 외부 장치, 예를 들어, 스마트폰 및 태블릿 PC와 같은 모바일 디바이스로부터 음성 신호를 수신한다. 이렇게 수신한 음성 신호는 음질 개선 과정을 거쳐 액추에이터(120)로 전달된다. 개시된 실시예에서, 음질 개선 과정은 인체의 매질 특성에 의해 저하되는 음질을 개선하기 위하여 액추에이터(120)에서 음성 신호를 진동으로 출력하기 전에 음성 신호를 사전 처리하는 과정이다. 이와 같이, 음성 신호를 진동으로 출력하기 전에 사전 음성 신호 처리를 수행하여 전달 과정에서 음성 신호의 품질이 떨어질 부분을 미리 강화함으로써, 전달 과정에서 다소 간의 음질 저하가 있더라도 음성 신호의 명료도를 향상시킬 수 있다.

액추에이터(120)는 음질 개선 과정을 거친 음성 신호를 수신하여, 진동을 발생시켜 해당 신호를 인체(130)로 출력한다. 진동이 인체(130)를 통과하면, 인체 매질 특성에 의해 음질 저하가 발생된다. 위에서 설명한 바와 같이, 액추에이터(120)가 진동으로 출력하는 신호는 음질 저하를 예상하고 이를 보완하기 위하여 이미 강화된 음성 신호이다. 따라서, 개시된 실시예에 따르면, 진동으로 인체(130)를 통과한 음성 신호라 할지라도 명료한 음성 신호로 출력될 수 있다.

한편, 에코 경로(echo path, 140)는 오디오 신호 중 에코를 발생시키는 에코 성분이 마이크(150)로 전달되는 경로를 의미한다. 액추에이터(120)에서 발생된 진동은 공기, 음성 처리 장치의 구조물 등을 통과하거나 또는 인체를 통해 반사되어 마이크(150)로 전달될 수 있다. 이와 같이, 액추에이터(120)에서 발생되는 진동이 마이크(150)로 재입력될 수 있는 모든 경로가 에코 경로(140)에 해당한다. 에코 경로(140)를 통과하여 마이크(150)로 입력 되는 신호는, 에코를 발생시켜 마이크(150)로 입력되는 음성 신호의 음성 품질을 저하시킬 수 있다. 따라서, 마이크(150)로 입력된 신호는 에코 제거 과정을 거쳐 통신부(160)로 전달된다. 개시된 실시예에서 에코 제거 과정은 에코 경로(140)를 통해 입력 되는 에코 성분을 제거하기 위한 과정이다. 마이크(150)로 입력 받은 신호에 대하여 사후 음성 신호 처리를 수행하여 에코 성분을 제거함으로써, 음성 품질을 향상시킬 수 있다. 또한, 에코 성분을 제거하면서 마이크(150)로 입력 되는 배경 잡음을 함께 제거하여 음성 품질을 더욱 향상시킬 수 있다. 통신부(160)는 에코가 제거된 음성 신호를 전송하여 외부 장치, 예를 들어, 스마트폰 및 태블릿 PC와 같은 모바일 디바이스로 전송한다.

도 2는 개시된 실시예에 따른 음성 신호 처리 장치의 내부 구성을 나타내는 블록도이다.

도 2를 참조하면, 음성 신호 처리 장치(200)는 통신부(210), 액추에이터(220), 포먼트 증강 필터(230), 마이크부(240), 잡음 및 에코 제거 필터(250), 저장부(260) 및 제어부(270)를 포함할 수 있다. 개시된 실시예에서, 음성 신호 처리 장치(200)는, 웨어러블 기기일 수 있고, 특히, 스마트 와치(smart watch)일 수 있다. 다만, 이에 한정되지 않고 인체를 매질로 하여 신호를 전달할 수 있는 다양한 기기일 수 있다.

통신부(210)는 제어부(270)의 제어에 따라 데이터를 송수신한다. 구체적으로, 통신부(210)는 외부 장치, 예를 들어, 스마트폰 및 태블릿 PC와 같은 모바일 디바이스 등과의 통신을 수행할 수 있다. 개시된 실시예에 따르면, 통신부(210)는 외부 장치로부터 음성 신호를 수신하거나 외부 장치로 음성 신호를 전송할 수 있다.

액추에이터(220)는 제어부(270)의 제어에 따라 진동을 발생시켜 신호를 출력한다. 구체적으로, 액추에이터(220)는 음질 개선 과정을 거친 음성 신호를 수신하고, 해당 음성 신호를 진동으로 출력한다. 개시된 실시예에 따르면, 액추에이터(220)는 제어부(270)의 제어에 따라 포먼트 증강 필터가 적용된 음성 신호를 인체를 통해 출력한다.

포먼트 증강 필터(230)는 제어부(270)의 제어에 따라 액추에이터(220)를 통해 출력될 음성 신호의 포먼트를 증가시킨다. 구체적으로 포먼트 증강 필터(230)는 액추에이터(220)가 진동을 통해 출력하는 신호가 인체를 통과하며 인체의 매질 특성에 의해 손실이 일어날 것에 대비하여 손실이 일어날 부분을 미리 강화할 수 있다. 개시된 실시예에 따르면, 포먼트 증강 필터(230)는 제어부(270)에 의해 구성되며, 주파수 대역의 이득을 강화하는 윈도우 함수로 구현될 수 있다. 이때, 윈도우 함수는 해밍 윈도우(Hamming window), 해닝 윈도우(Hanning window) 등 다양한 윈도우 함수가 이용될 수 있다.

마이크부(240)는 오디오 신호를 입력 받는다. 개시된 실시예에 따르면, 마이크부(240)는 사용자의 음성 신호를 포함하는 오디오 신호 및 포먼트 증강 필터가 적용된 음성 신호를 입력 받는다. 사용자의 음성 신호는 사용자가 상대방에게 전달하고자 하는 신호이다. 오디오 신호에서 사용자의 음성 신호를 제외한 나머지 신호는 배경 잡음으로, 주위 환경 등에 의해 발생되는 불필요한 신호이다. 또한, 포먼트 증강 필터가 적용된 음성 신호는 에코를 발생시킬 수 있는 에코 성분을 포함하는 신호이다.

잡음 및 에코 제거 필터(250)는 제어부(270)의 제어에 따라 잡음 성분과 에코(echo) 성분을 제거한다. 구체적으로, 잡음 및 에코 제거 필터(250)는 액추에이터(120)에서 발생되는 진동이 공기, 음성 처리 장치(200)의 구조물 등을 통과하거나 또는 인체를 통해 반사되어 마이크부(240)로 재입력되는 경우, 이를 제거한다. 마이크부(240)로 입력 받은 신호에 대하여 사후 음성 신호 처리를 수행하여 에코 성분을 제거함으로써, 음성 품질을 향상시킬 수 있다. 또한, 잡음 및 에코 제거 필터(250)는 주변 환경에 따라 발생되는 배경 잡음을 함께 제거하여 음성 품질을 더욱 향상시킬 수 있다. 개시된 실시예에 따르면, 잡음 및 에코 제거 필터(250)는, 제어부(270)에 의해 구성된다.

저장부(260)는 음성 처리 장치(200)의 동작에 필요한 프로그램 및 데이터를 저장하는 역할을 수행한다. 저장부(260)는 휘발성(volatile) 저장 매체 또는 비휘발성(nonvolatile) 저장 매체로 구성될 수 있으며, 양 저장 매체의 조합(combination)으로 구성될 수도 있다. 휘발성 저장 매체로는 RAM, DRAM, SRAM과 같은 반도체 메모리(semiconductor memory)가 포함될 수 있으며, 비휘발성 저장 매체로는 하드 디스크(hard disk), 플래시 낸드 메모리(Flash NAND Memory), 롬(ROM; Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory) 자기 메모리, 자기 디스크, 광디스크가 포함될 수 있다. 개시된 실시예에서 저장부(260)는 통신부(210)를 통해 수신한 음성 신호, 마이크부(240)를 통해 입력 받은 오디오 신호, 포먼트 증강 필터가 적용된 음성 신호 및/또는 잡음 및 에코 제거 필터(250)가 적용된 오디오 신호 등의 데이터를 저장할 수 있다.

제어부(270)는 음성 처리 장치(200)의 전반적인 동작을 제어하는 구성요소이다. 보다 구체적으로, 제어부(270)는 음성 처리 과정의 전반적인 동작을 제어할 수 있다.

먼저, 인체를 매질로 음성 신호를 전달 시, 인체의 매질 특성에 의해 저하되는 음질을 개선하여 음성 신호의 명료도를 향상시키는 기능을 수행하는 제어부(270)의 동작에 대해 설명하도록 한다. 도 3을 참조하여 개략적인 과정을 설명한다.

도 3은 개시된 실시예에 따라 웨어러블 기기를 이용하여 포먼트 증강 필터가 적용된 음성 신호를 인체를 매질로 하여 전달하는 예시를 나타내는 도면이다.

도 3에서는 사용자가 스마트 와치(200)를 이용하여 통화를 수행하는 경우를 예로 들어 설명한다. 먼저, 스마트 와치(200)가 상대방의 음성 신호를 수신한다. 음성 신호를 수신한 스마트 와치(200)는 진동을 발생시켜 수신한 음성 신호를 인체를 통해 전달하고, 사용자는 인체, 즉 손가락 끝을 귀에 접촉하여 음성 신호를 듣게 된다. 이때, 인체의 매질 특성으로 인하여 진동으로 전달되는 음성 신호가 감쇄 또는 왜곡되어 음성의 품질이 떨어지거나 명료도가 감소될 수 있다. 따라서, 개시된 실시예에서는 음성 신호의 감쇄 또는 왜곡에 대비하여, 음성의 명료도와 밀접한 관계가 있는 포먼트를 사전에 강화시킬 수 있다. 이에 따라, 인체를 거쳐 손가락 끝에 도달한 음성 신호의 명료도를 향상시켜 음성의 품질을 높일 수 있다.

다시 도 2의 설명으로 돌아가면, 개시된 실시예에 따르면, 제어부(270)는 통신부(210)를 통해 음성 신호를 수신하도록 제어하고, 선형 예측 부호화를 기반으로 음성 신호로부터 적어도 하나 이상의 포먼트 주파수를 추정하며, 적어도 하나 이상의 포먼트 주파수의 대역폭을 추정하고, 음성 신호가 유성음인지 무성음인지 판별하며, 포먼트 주파수, 포먼트 주파수의 대역폭, 판별한 유성음 또는 무성음의 특성 및 인체의 신호 전달 특성을 기반으로 포먼트 증강 필터(230)를 구성하고, 포먼트 증강 필터(230)를 음성 신호에 적용하며, 액추에이터(220)를 통해 포먼트 증강 필터(230)가 적용된 음성 신호를 상기 인체를 통해 출력하도록 제어한다.

개시된 실시예에 따르면, 제어부(270)는 포먼트 주파수를 추정 시, 선형 예측 부호화 분석을 통해 선형 예측 부호화 계수를 획득하고, 선형 예측 부호화 계수를 기반으로 선형 예측 부호화 엔벨로프를 획득하며, 선형 예측 부호화 엔벨로프의 기울기가 양수에서 음수가 되는 주파수를 포먼트 주파수로 추정할 수 있다.

제어부(270)는 통신부(210)를 통해 음성 신호를 수신하여, 이산 푸리에 변환 (Discrete Fourier Transform, DFT)을 하는 동시에 10차 선형 예측 부호화(Linear Predictive Coding, LPC) 분석을 통해 선형 예측 부호화 계수(Linear Predictive Coding Coefficients, LPCC)를 획득할 수 있다.

제어부(270)는 이와 같이 획득한 선형 예측 부호화 계수를 기반으로 선형 예측 부호화 엔벨로프(envelope)를 획득할 수 있다. 제어부(270)는 선형 예측 부호화 계수를 이산 푸리에 변환을 하고 역수를 취하여 Z-변환 디지털 주파수 응답(Z-transform Digital Frequency Response)을 계산한다. 그 후, 제어부(270)는 Z-변환 디지털 주파수 응답 각각의 주파수 인덱스에 대한 복소수 절대값을 계산하고, 로그를 취하여 선형 예측 부호화 엔벨로프를 획득할 수 있다. 보다 구체적으로, 통신부(210)를 통해 수신한 깨끗한 음성 신호를 y(t), 선형 예측 부호화 계수들을 α(p+1)이라 정의하고, p 는 선형 예측 부호화 계수의 차수를 의미할 때, 이러한 신호 및 계수들의 Short-Time Fourier Transform(STFT)를 각각 Y(i, k), A(i, k) 라고 할 수 있다. 여기서, i는 프레임 인덱스, k는 주파수 인덱스를 나타낸다. 제어부(270)는 이를 기반으로 선형 예측 부호화 계수들을 이용하여 수학식 (1)과 같이 Z-변환 디지털 주파수 응답 H(z) 을 계산할 수 있다.

수학식 (1)

그 후, 제어부(270)는 수학식 (1)을 통해 계산한 주파수 응답 H(z) 을 이용해 선형 예측 부호화 엔벨로프를 구하기 위하여, 각 주파수 인덱스 F_k 를 다음과 같이 정의할 수 있다.

수학식 (2)

제어부(270)는 수학식 (2)를 통해 정의된 주파수 인덱스 F_k를 이용하여 선형 예측 부호화 엔벨로프를 획득할 수 있다.

나아가, 제어부(270)는 선형 예측 부호화 엔벨로프의 기울기 변화를 이용하여 포먼트 주파수를 추정할 수 있다. 개시된 실시예에 따르면, 제어부(270)는 수학식 (3)을 통해 선형 예측 부호화 엔벨로프의 기울기가 양수에서 음수가 되는 주파수를 계산하여 포먼트 주파수(FF)로 추정할 수 있다.

수학식 (3)

개시된 실시예에 따르면, 제어부(270)는 적어도 하나 이상의 포먼트 주파수의 대역폭을 추정 시, 선형 예측 부호화 계수를 기반으로 적어도 하나 이상의 포먼트 주파수의 대역폭을 추정할 수 있다. 제어부(270)는 선형 예측 부호화 계수를 10차 다항식의 형태로 표현하여 Bairstow 방법을 사용하여 복소수 근과 실근을 계산하고, 계산한 복소수 근과 실근을 이용하여 각각의 포먼트 주파수의 대역폭을 추정할 수 있다. 보다 구체적으로, 수학식 (4)와 같이 선형 예측 부호화 계수 P(z) 을 10차 다항식으로 표현한다.

수학식 (4)

그 후, Z-변환 디지털 주파수 응답 H(z) 과 선형 예측 부호화 계수 P(z) 에 대한 10차 다항식의 실근 혹은 복소수 근을 계산한다. 해당 근을 구하기 위해 Bairstow 방법을 사용할 수 있다.

수학식 (5)

제어부(270)는 수학식 (5)의 근을 이용하여, 수학식 (6)과 같이 각각의 포먼트 주파수(F_s)에 해당하는 대역폭 B_k을 구할 수 있다.

수학식 (6)

개시된 실시예에 따르면, 제어부(270)는 음성 신호가 유성음인지 무성음인지 판별 시, 선형 예측 부호화 엔벨로프를 기반으로 음성 신호가 유성음인지 무성음인지 판별할 수 있다. 보다 구체적으로, 제어부(270)는 수학식 (7)의 조건을 통해 음성 신호가 유성음인지 무성음인지 여부를 결정한다. 즉, 제어부(270)는 수학식 (7)의 조건을 만족하면 음성 신호를 유성음으로 판단한다. 여기서 N_AV는 해당 프레임의 포먼트 값의 평균을 의미하며, N_pt는 이산 푸리에 변환을 할 때의 크기를 나타낸다.

수학식 (7)

개시된 실시예에 따르면, 제어부(270)는 포먼트 주파수, 포먼트 주파수의 대역폭, 판별한 유성음 또는 무성음의 특성 및 인체의 신호 전달 특성을 기반으로 포먼트 증강 필터(230)를 구성한다. 제어부는(270)는 액추에이터(220)가 진동을 통해 출력하는 신호가 인체를 통과하며 인체의 매질 특성에 의해 손실이 일어날 것에 대비하여 손실이 일어날 부분을 미리 강화하기 위하여 포먼트 증강 필터(230)를 구성하는 것이다.

보다 구체적으로, 제어부(270)는 수학식 (8)을 통해 유성음 혹은 무성음 특성을 고려하여 각 포먼트 주파수의 대역폭에 대한 변형된 해밍 윈도우를 계산하고, 인체의 특성을 고려하여 변형된 해밍 윈도우의 피크 값을 계산한다. 인체의 특성은 인체에 대한 임펄스 응답(impulse response)의 스펙트럼을 주파수 응답의 스펙트럼으로 나누어 계산할 수 있다.

수학식 (8)

여기서, a는 유성음 또는 무성음의 특성과 인체의 특성을 고려하여 변형된 해밍 윈도우의 피크 값을 의미한다. 또한, h(n)는 해밍 윈도우를 의미하며, FR(i, k)는 인체의 주파수 응답을 의미한다.

개시된 실시예에 따르면, 제어부(270)는 포먼트 증강 필터(230)를 음성 신호에 적용하며, 액추에이터(220)를 통해 포먼트 증강 필터(230)가 적용된 음성 신호를 인체를 통해 출력하도록 제어할 수 있다. 보다 구체적으로, 제어부(270)는 수학식 (9)를 이용하여, 처음에 이산 푸리에 변환을 하였던 음성 신호의 주파수 영역에서 포먼트 주파수에 해당하는 주파수 인덱스에 변형된 해밍 윈도우를 적용한다

수학식 (9)

개시된 실시예에 따르면, 음성 신호 처리 장치(200)를 통해 출력 되는 신호가 인체를 통과하면서 인체의 매질 특성에 의해 발생하는 잡음으로 인해 감쇄 혹은 왜곡되어 음성의 품질이 떨어지거나 명료도가 감소되는 문제를 해결할 수 있다. 즉, 음성 신호를 출력하기 전에 사전 음성 신호 처리를 수행하여 전달 과정에서 음성 신호의 품질이 떨어질 부분을 미리 강화함으로써, 전달 과정에서 다소 간의 음질 저하가 있더라도 음성 신호의 명료도를 향상시킬 수 있다. 보다 구체적으로, 원래 음성 신호의 포먼트와 전달되는 음성 신호의 포먼트의 차이를 최소화하기 위하여, 인체 매질 특성을 고려하여 변형된 윈도우 형태의 이득값을 적용하여 음성 신호의 명료도를 향상시키는 것이다.

또한, 개시된 실시예에 따르면, 화자 별로 달라질 수 있는 포먼트 주파수와 포먼트 대역폭을 고려하여 적절한 포먼트 강화 필터를 적용할 수 있어 보다 정밀하게 음성 신호의 품질을 향상시키는 것이 가능하다.

도 4는 개시된 실시예에 따른 음성 처리 신호 장치(200)가 음성 신호에 포먼트 증강 필터를 적용하여 출력하는 과정을 나타내는 도면이다.

도 4에서는 개시된 실시예에 따른 음성 처리 신호 장치(200)의 동작을 포먼트 강화 과정(410)과, 필터 적용 과정(420)으로 구분하여 도시하였다.

먼저, 포먼트 강화 과정(410)에 대해서 설명하면, 음성 처리 신호 장치(200)는 411 단계에서 음성 신호를 수신하여 특정 구간에 대한 windowing(411)을 수행한다. 그 후, 음성 처리 신호 장치(200)는 412 단계에서 windowing 된 음성 신호에 대하여 선형 예측 부호화 분석을 수행한다. 이렇게 분석된 음성 신호는 413 단계에서 포먼트 주파수 대역을 추정하고, 414 단계에서 포먼트 주파수를 추정하며, 415 단계에서 유성음인지 무선음인지를 결정하게 된다. 한편, 음성 처리 신호 장치(200)는 매질인 인체(417)에 임펄스 신호를 인가하고, 418 단계에서 그 응답으로부터 해밍 윈도우의 피크 값을 결정한다. 음성 처리 신호 장치(200)는 이와 같이 회득한, 주파수 대역, 포먼트 주파수, 유성음 또는 무성음 특성 및 해밍 윈도우의 피크 값을 기반으로 416 단계에서 이득 필터, 즉, 변형된 해밍 윈도우를 생성한다.

다음으로, 필터 적용 과정(420)에 대해서 설명하면, 음성 처리 신호 장치(200)는 421 단계에서 windowing 된 음성 신호에 대하여 이산 푸리에 변환을 수행한다. 음성 처리 신호 장치(200)는 422 단계에서, 416 단계에서 생성한 이득 필터를 이산 푸리에 변환된 음성 신호에 적용한다. 그 후, 423 단계에서 이득 필터가 적용된 신호에 대하여 역 이산 푸리에 변환을 수행하고 강화된 음성 신호를 출력한다.

이와 같이 수신하는 음성 신호에 대해 포먼트를 강화하는 필터를 생성하고 적용함으로써 음성 신호의 명료도를 향상시킬 수 있다.

지금까지는 인체를 매질로 음성 신호를 전달 시, 인체의 매질 특성에 의해 저하되는 음질을 개선하여 음성 신호의 명료도를 향상시키는 기능을 수행하는 제어부(270)의 동작에 대해 설명하였다. 지금부터는 진동에 의해 발생한 에코를 제거할 수 있는 기능을 수행하는 제어부(270) 의 동작에 대해서 설명하도록 한다. 먼저, 도 5를 참조하여 개략적인 과정을 설명한다.

도 5는 개시된 실시예에 따라 웨어러블 기기를 통해 사용자 음성을 입력하는 과정을 나타내는 도면이다.

도 5에서는 도 3과 같이 스마트 와치(500)를 이용하여 통화를 수행하는 경우를 예로 들어 설명한다. 위에서 설명한 것과 같이 스마트 와치(500)는 상대방의 음성 신호를 수신하는 경우, 스마트 와치(500)에 포함된 액추에이터(530)가 진동을 발생시켜 수신한 음성 신호를 인체를 통해 전달한다. 스마트 와치(500) 사용자 역시, 스마트 와치(500)에 포함된 스피커(510)를 이용하여 음성 신호를 상대방에게 전달할 수 있다. 이때, 사용자 주변의 음향학적 환경, 즉, 주행하는 자동차 내부 혹은 많은 사람들이 대화를 하는 장소, 차도가 있는 길거리나 많은 사람들이 지나다니는 거리 등에 의해 배경 잡음이 발생하여 음성 신호를 왜곡시킬 수 있다. 또한, 액추에이터(530)에 의해 발생한 진동이 스마트 와치(500) 구조물, 즉, 밴드나 본체 등을 통해 마이크(510)로 재입력되어 에코가 발생할 수도 있다. 따라서, 개시된 실시예에서는 마이크(510)로 입력되는 배경 잡음과 에코 성분을 통합 형태로 제거할 수 있다. 개시된 실시예에 따르면, 에코 제거 전 또는 후에 잡음을 제거하는 것이 아니라 배경 잡음과 에코 성분을 통합 형태로 제거하여 왜곡이 발생하지 않으면서 음성 품질을 향상시킬 수 있다.

다시 도 2의 설명으로 돌아가면, 제어부(270)는 마이크부(240)를 통해 재입력 되는 포먼트 증강 필터(230)가 적용된 음성 신호를 기반으로 에코 성분에 대하여 전력을 추정하여 에코 전력을 획득하고, 마이크부(240)를 통해 입력 되는 배경 잡음의 전력을 추정하여 잡음 신호 전력을 획득하며, 에코 전력과 상기 잡음 신호 전력을 결합하여 결합 전력을 획득하고, 결합 전력을 기반으로 에코 및 잡음 제거 필터(250)를 구성하며, 마이크부(240)를 통해 사용자 음성 신호를 포함하는 오디오 신호를 입력 받고, 입력 받은 오디오 신호에 잡음 및 에코 제거 필터(250)를 적용하여 오디오 신호에 포함된 사용자 음성 신호를 추정한다.

개시된 실시예에 따르면, 제어부(270)는 에코 전력을 획득 시, 포먼트 증강 필터(230)가 적용된 음성 신호를 기반으로 이득값 필터를 추정하며, 추정한 이득값 필터를 이용하여 에코 성분에 대한 진폭 스펙트럼을 획득하고, 획득한 진폭 스펙트럼 및 과거에 추정한 에코 전력을 이용한 스무딩을 수행하여 현재의 에코 전력을 획득할 수 있다.

보다 구체적으로 설명하면, 제어부(270)는 마이크부(240)를 통해 오디오 신호를 입력 받아 이산 푸리에 변환을 수행한다. 그 후, 제어부(270)는 액추에이터(220)를 통해 출력되는 포먼트 증강 필터(230)가 적용된 음성 신호와 이산 푸리에 변환으로 얻은 값을 통해 이득값 필터를 추정할 수 있다. 근단, 즉, 마이크부(240)를 통해 입력 되는 사용자 음성 신호를 s(t), 공기를 통하거나 액추에이터(220)의 진동이 인체를 통해 반사되어 마이크부(240)에 재입력 포먼트 증강 필터(230)가 적용된 음성 신호를 e(t), 배경 잡음을 d(t)라고 할 때, 마이크부(240)를 통해 입력 되는 사용자 음성 신호가 존재하지 않을 때를 H₀: y(t)=d(t)+e(t), 근단의 음성 신호가 존재할 때를 H₁: y(t)=d(t)+e(t)+s(t)라고 정의할 수 있다. 이러한 신호들을 각각 Short-Time Fourier Transform(STFT)를 한 후에 H0과 H1은 수학식 (10)과 같다.

수학식 (10)

여기서, i는 프레임 인덱스, k는 주파수 인덱스를 나타낸다.

이때, 이득값 필터 H(i,k) 는 다음 수학식 (11)과 같이 정의될 수 있다.

수학식 (11)

여기서, X_d(i, k)는 원단의 음성 신호를 나타내며, X^* _d(i, k)는 X_d(i, k)의 Conjugate이다. 제어부(270)는 이와 같이 정의된 이득값 필터를 기반으로 수학식 (12)를 이용하여 에코 성분의 진폭 스펙트럼(magnitude spectrum)을 획득할 수 있다.

수학식 (12)

그리고 제어부(270)는 수학식 (13)과 같이 현재의 에코 전력

을 추정할 수 있다.

수학식 (13)

여기서, α_λe은 스무딩 파라미터이다.

개시된 실시예에 따르면, 제어부(270)는 상기 마이크부(240)를 통해 입력되는 배경 잡음의 전력을 추정하여 잡음 신호 전력을 획득하고, 에코 전력과 잡음 신호 전력을 결합하여 결합 전력을 획득 시, 에코 전력, 잡음 신호 전력 및 과거 결합 전력을 이용한 스무딩을 수행하여 현재의 결합 전력을 획득할 수 있다. 보다 구체적으로, 제어부(270)는 배경 잡음의 전력과 에코 성분의 진폭 스펙트럼(magnitude spectrum)을 기반으로 잡음 신호 전력을 획득할 수 있다. 나아가, 제어부(270)는 수학식 (14)를 이용하여 에코 전력, 잡음 신호 전력 및 과거 결합 전력을 이용한 롱-텀 스무딩(long-term smoothing)을 통해 현재의 결합 전력

를 추정할 수 있다.

수학식 (14)

여기서, α_λ _cd는 Long-term Smoothing 파라미터이다.

개시된 실시예에 따르면, 제어부(270)는, 결합 전력을 기반으로 에코 및 잡음 제거 필터를 구성 시, 결합 전력을 기반으로 제1 사전 신호 대 결합 전력비(priori SCR) 및 사후 신호 대 결합 전력비(posteriori SCR)를 추정하고, 결합 전력, 사후 신호 대 결합 전력 비 및 과거 음성 신호의 전력을 기반으로 결정 지향 방식으로 제2 사전 신호 대 결합 전력 비를 추정하며, 제2 사전 신호 대 결합 전력 비를 기반으로 에코 및 잡음 제거 필터를 구성할 수 있다. 이때, 에코 및 잡음 제거 필터는 Wiener 필터일 수 있다. 제어부(27))는 액추에이터(220)의 진동에 의해 발생되는 에코 및 마이크부(240)를 통해 입력되는 배경 잡음을 함께 제거하기 위하여 에코 및 잡음 제거 필터(250)를 구성하는 것이다.

보다 구체적으로, 제어부(270)는 수학식 (15)을 이용하여 사전 신호 대 결합 전력비 및 사후 신호 대 결합 전력비를 추정할 수 있다. 즉, 현재의 결합 전력을 이용하여 사전 신호 대 전력비

와 사후 신호 대 전력비

를 추정할 수 있다.

수학식 (15)

여기서,

는 마이크부(240)로 입력 되는 음성 신호의 분산이다.

그 후, 제어부(270)는 수학식 (16)과 같이 결정 지향 방식 파라미터인 αDD(decision-direction Parameter)를 이용하여 결정 지향 방식으로 새로운 사전 신호 대 전력비

를 추정할 수 있다.

수학식 (16)

제어부(270)는 수학식 (17)과 같이 새로이 추정한 사전 신호 대 전력비를 기반으로 에코 및 잡음 제거 필터(250) G(i,k) 를 구성할 수 있다.

수학식 (17)

개시된 실시예에 따르면, 제어부(270)는 오디오 신호에 포함된 사용자 음성 신호를 추정 시, 사후 신호 대 결합 전력비와 사후 신호 대 결합 전력비의 문턱값을 비교하여 표시 함수(indicator function) 값을 결정하고, 표시 함수 값과 과거 음성 신호가 존재하지 않을 때의 사전 확률을 기반으로 현재 음성 신호가 존재하지 않을 사전 확률을 추정하며, 제1 사전 신호 대 결합 전력 비, 사후 신호 대 결합 전력 비 및 제2 사전 신호 대 결합 전력 비를 기반으로 우도비(likelihood ratio)를 계산하고, 현재 음성 신호가 존재하지 않을 사전 확률과 우도비를 기반으로 음성 신호의 존재 확률을 계산하며, 에코 및 잡음 제거 필터 및 음성 신호의 존재 확률을 기반으로 상기 사용자 음성 신호를 추정할 수 있다. 보다 구체적으로, 제어부(270)는 사후 신호 대 결합 전력비와 해당 결합 전력비의 문턱값을 비교하여 표시 함수 값 I(i,k) 을 0 또는 1로 결정한다. 그 후, 제어부(270)는 표시 함수 값과 과거 음성 신호가 존재하지 않을 때의 사전 확률을 기반으로, 수학식 (18)과 같이 스무딩을 통해 현재 음성 신호가 존재하지 않을 사전 확률 q(i,k) 을 추정한다.

수학식 (18)

그리고, 제어부(270)는 수학식 (15)를 이용하여 현재의 결합 전력을 이용하여 추정한 사전 신호 대 전력비

와 사후 신호 대 전력비

를 기반으로 수학식 (19)를 이용하여 우도비(likelihood ratio)

를 계산한다.

수학식 (19)

제어부(270)는 이와 같이 계산한 우도비

와 현재 음성 신호가 존재하지 않을 사전 확률 q(i,k) 를 기반으로 수학식 (20)을 이용하여 현재 음성 신호가 존재하지 않을 확률 p(H₀|Y(i,k))를 계산한다. 현재 음성 신호가 존재하지 않을 확률을 알면, 현재 음성 신호가 존재할 확률 (1-p(H₀|Y(i,k))) 을 계산할 수 있다.

수학식 (20)

나아가, 제어부(270)는 수학식 (21)와 같이, 현재 음성 신호가 존재할 확률 (1-p(H₀|Y(i,k))), 에코 및 잡음 제거 필터 G(i,k) 및 마이크부(240)로 입력되는 오디오 신호를 곱하여 현재 음성 신호

를 추정할 수 있다.

수학식 (21)

개시된 실시예에 따르면, 인체 환경의 음향학적 에코 및 배경 잡음 통합 제거 기술을 통해 잡음, 특히, 인체 환경의 잡음이 존재하더라도 강력하게 사용자의 깨끗한 음성만을 추정하여 음성의 품질을 향상시킬 수 있다. 개시된 실시예에 따르면, 에코 제거 전 또는 후에 잡음을 제거하는 것이 아니라, 잡음과 에코 성분을 통합 형태로 제거하기 때문에 왜곡이 발생하지 않으며, 인체 환경의 음향학적 에코가 제거된 깨끗한 음성 신호만을 추정하여 음성의 품질을 향상시킬 수 있다.

도 6은 개시된 실시예에 따른 음성 신호 처리 장치가 에코를 제거하는 과정을 나타내는 도면이다.

도 4에서는 개시된 실시예에 따른 음성 처리 신호 장치(200)의 동작을 근단(near-end, 610)에서 동작과 원단(far-end, 620)에서의 동작으로 구분하여 도시하였다. 근단(610)에서의 동작은 음성 처리 신호 장치(200)의 마이크(611)와 스피커(612)의 동작을 포함하고, 원단(620)에서의 동작은 음성 신호를 처리하고 외부 장치로 음성 신호를 전달하는 동작 및 외부 장치로부터 음성 신호를 수신하는 동작을 포함한다.

음성 처리 신호 장치(200)는 마이크(611)를 통해 오디오 신호를 수신하여 621 단계에서 이산 푸리에 변환을 수행한다. 이때, 마이크(611)를 통해 입력되는 신호는 사용자의 음성 신호, 에코 성분을 포함하는 신호 및/또는 배경 잡음을 포함할 수 있다. 사용자의 음성 신호는 사용자가 상대방에게 전달하고자 하는 신호이고, 배경 잡음은 주위 환경 등에 의해 발생되는 불필요한 신호이며, 에코 성분을 포함하는 신호는 에코를 발생시킬 수 있는 신호로 포먼트 증강 필터가 적용된 음성 신호일 수 있다. 622 단계에서는 배경 잡음에 대해 잡음 전력을 추정하고, 623 단계에서는 에코 경로로 인가되는 에코 성분을 포함하는 신호에 대한 응답을 구하여 624 단계에서 에코 신호를 추정한다. 음성 처리 신호 장치(200)는 625 단계에서 잡음 전력과 에코 신호를 바탕으로 통합 신호를 추정하고, 이를 바탕으로 626 단계에서 잡음 및 에코 제거 필터를 생성한다. 그 후, 627 단계에서 이산 푸리에 변환된 음성 신호에 잡음 및 에코 제거 필터를 적용하고, 628 단계에서 이득 필터가 적용된 신호에 대하여 역 이산 푸리에 변환을 수행하고 강화된 음성 신호를 외부 장치로 전송한다.

이와 같이 에코와 잡음의 통합 형태로 에코를 제거함으로써 사용자의 깨끗한 음성만을 추정하여 음성의 품질을 향상시킬 수 있다.

음성 처리 신호 장치(200)는 외부 장치로부터 수신되는 음성 신호를 629 단계에서 이산 푸리에 변환하고, 630 단계에서 역 이산 푸리에 변환하여 스피커(612)로 출력한다. 이러한 과정에서 도 4에서 설명한 것과 같이 음성 신호에 포먼트 증강 필터를 적용하여 음성 신호를 출력할 수 있다.

도 2 및 위 설명에서는 제어부(270)가 하나의 블록으로 표현되어 음성 처리 과정의 전반적인 동작을 제어하는 것으로 기술하였으나, 반드시 모든 과정이 제어부(270)에 의해 수행되어야 하는 것은 아니다. 제어부(270)가 수행하는 기능 중 일부를 별도의 블록으로 표현되는 기능부가 수행될 수도 있다. 예를 들어, 선형 예측 부호화(Linear Predictive Coding)를 기반으로 음성 신호로부터 적어도 하나 이상의 포먼트 주파수를 추정하는 기능을 포먼트 주파수 추정부(미도시)가 수행할 수도 있고, 적어도 하나 이상의 포먼트 주파수의 대역폭을 추정하는 기능을 주파수 대역폭 추정부(미도시)가 수행할 수도 있으며, 음성 신호가 유성음인지 무성음인지 판별하는 기능을 유/무성음 판별부(미도시)가 수행할 수도 있고, 포먼트 주파수, 포먼트 주파수의 대역폭, 판별한 유성음 또는 무성음의 특성 및 인체의 신호 전달 특성을 기반으로 포먼트 증강 필터(230)를 구성하는 기능을 포먼트 증강 필터 구성부(미도시)가 수행하는 것도 가능하다.

또한, 마이크부(240)를 통해 재입력 되는 포먼트 증강 필터가 적용된 음성 신호를 기반으로 에코(echo) 성분에 대하여 전력을 추정하여 에코 전력을 획득하는 기능을 에코 전력 획득부(미도시)가 수행할 수도 있고, 마이크부(240)를 통해 입력 되는 배경 잡음의 전력을 추정하여 잡음 신호 전력을 획득하는 기능을 잡음 심호 전력 획득부(미도시)가 수행할 수도 있으며, 에코 전력과 잡음 신호 전력을 결합하여 결합 전력을 획득하는 기능을 결합 전력 획득부(미도시)가 수행할 수도 있고, 결합 전력을 기반으로 에코 및 잡음 제거 필터(250)를 구성하는 기능을 에코 및 잡음 제거 필터(250) 구성부(미도시)가 수행할 수도 있으며, 입력 받은 오디오 신호에 잡음 및 에코 제거 필터(250)를 적용하여 오디오 신호에 포함된 사용자 음성 신호를 추정하는 기능을 음성 신호 추정부(미도시)가 수행하는 것도 가능하다.

도 7은 개시된 실시예에 따라 음성 신호에 포먼트 증강 필터를 적용하여 출력하는 방법을 나타내는 순서도이다.

도 7을 참조하면, 먼저, 710 단계에서 음성 신호 처리 장치(200)는 음성 신호를 수신하고, 720 단계로 진행하여 선형 예측 부호화를 기반으로 음성 신호로부터 적어도 하나 이상의 포먼트 주파수를 추정한다. 개시된 실시예에 따르면, 음성 신호 처리 장치(200)는 선형 예측 부호화 분석을 통해 선형 예측 부호화 계수를 획득하고, 선형 예측 부호화 계수를 기반으로 선형 예측 부호화 엔벨로프를 획득하며 선형 예측 부호화 엔벨로프의 기울기가 양수에서 음수가 되는 주파수를 포먼트 주파수로 추정할 수 있다.

그 후, 730 단계에서, 음성 신호 처리 장치(200)는 적어도 하나 이상의 포먼트 주파수의 대역폭을 추정한다. 개시된 실시예에 따르면, 음성 신호 처리 장치(200)는 선형 예측 부호화 계수를 기반으로 적어도 하나 이상의 포먼트 주파수의 대역폭을 추정할 수 있다.

다음으로, 740 단계에서, 음성 신호 처리 장치(200)는 음성 신호가 유성음인지 무성음인지 판별한다. 개시된 실시예에 따르면, 음성 신호 처리 장치(200)는 선형 예측 부호화 엔벨로프를 기반으로 음성 신호가 유성음인지 무성음인지 판별할 수 있다.

그 후, 750 단계에서, 음성 신호 처리 장치(200)는, 포먼트 주파수, 포먼트 주파수의 대역폭, 판별한 유성음 또는 무성음의 특성 및 인체의 신호 전달 특성을 기반으로 포먼트 증강 필터를 구성한다. 포먼트 증강 필터는 포먼트 주파수 대역의 이득을 강화하는 윈도우 함수로 구현될 수 있다.

다음으로, 760 단계에서, 음성 신호 처리 장치(200)는, 포먼트 증강 필터를 음성 신호에 적용하고, 770 단계로 진행하여 포먼트 증강 필터가 적용된 음성 신호를 인체를 통해 출력한다.

도 8은 개시된 실시예에 따라 에코를 제거하는 방법을 나타내는 나타내는 순서도이다.

도 8은 도 7의 과정 이후에 추가적으로 수행될 수 있다. 즉, 음성 신호에 포먼트 증강 필터를 적용하여 출력 후 수행될 수 있다.

810 단계에서 음성 신호 처리 장치(200)는 마이크부를 통해 재입력 되는 포먼트 증강 필터가 적용된 음성 신호를 기반으로 에코 성분에 대하여 전력을 추정하여 에코 전력을 획득한다. 개시된 실시예에 따르면, 음성 신호 처리 장치(200)는 포먼트 증강 필터가 적용된 음성 신호를 기반으로 이득값 필터를 추정하고, 추정한 이득값 필터를 이용하여 에코 성분에 대한 진폭 스펙트럼을 획득하며, 획득한 진폭 스펙트럼 및 과거에 추정한 에코 전력을 이용한 스무딩을 수행하여 현재의 에코 전력을 획득할 수 있다.

그 후, 820 단계에서, 음성 신호 처리 장치(200)는 마이크부를 통해 입력 되는 배경 잡음의 전력을 추정하여 잡음 신호 전력을 획득한다.

다음으로, 830 단계에서, 음성 신호 처리 장치(200)는 에코 전력과 잡음 신호 전력을 결합하여 결합 전력을 획득한다. 개시된 실시예에 따르면, 음성 신호 처리 장치(200)는 에코 전력, 잡음 신호 전력 및 과거 결합 전력을 이용한 스무딩을 수행하여 현재의 결합 전력을 획득할 수 있다.

그 후, 840 단계에서, 음성 신호 처리 장치(200)는 결합 전력을 기반으로 에코 및 잡음 제거 필터를 구성한다. 개시된 실시예에 따르면, 음성 신호 처리 장치(200)는 결합 전력을 기반으로 제1 사전 신호 대 결합 전력비 및 사후 신호 대 결합 전력비를 추정하고, 결합 전력, 사후 신호 대 결합 전력 비 및 과거 음성 신호의 전력을 기반으로 결정 지향 방식으로 제2 사전 신호 대 결합 전력 비를 추정하며, 제2 사전 신호 대 결합 전력 비를 기반으로 에코 및 잡음 제거 필터를 구성할 수 있다.

다음으로, 850 단계에서, 음성 신호 처리 장치(200)는 마이크부를 통해 사용자 음성 신호를 포함하는 오디오 신호를 입력 받는다.

그 후, 860 단계에서, 음성 신호 처리 장치(200)는 입력 받은 오디오 신호에 잡음 및 에코 제거 필터를 적용하여 오디오 신호에 포함된 사용자 음성 신호를 추정한다. 개시된 실시예에 따르면, 음성 신호 처리 장치(200)는 사후 신호 대 결합 전력비와 사후 신호 대 결합 전력비의 문턱값을 비교하여 표시 함수 값을 결정하고, 표시 함수 값과 과거 음성 신호가 존재하지 않을 때의 사전 확률을 기반으로 현재 음성 신호가 존재하지 않을 사전 확률을 추정하며, 제1 사전 신호 대 결합 전력 비, 사후 신호 대 결합 전력 비 및 제2 사전 신호 대 결합 전력 비를 기반으로 우도비를 계산하고, 현재 음성 신호가 존재하지 않을 사전 확률과 우도비를 기반으로 음성 신호의 존재 확률을 계산하며, 에코 및 잡음 제거 필터 및 음성 신호의 존재 확률을 기반으로 사용자 음성 신호를 추정할 수 있다.

한편, 상술한 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.

상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.

이상과 첨부된 도면을 참조하여 실시예를 설명하였지만, 개시된 실시예가 속하는 기술분야에서 통상의 지식을 가진 자는 개시된 실시예가 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

210: 통신부
220: 액추에이터
230: 포먼트 증강 필터
240: 마이크부
250: 잡음 및 에코 제거 필터
260: 저장부
270: 제어부

Claims

데이터를 송수신하는 통신부;
진동을 발생시켜 신호를 출력하는 액추에이터(actuator);
음성 신호의 포먼트를 증가시키는 포먼트 증강 필터; 및
상기 통신부를 통해 상기 음성 신호를 수신하도록 제어하고, 선형 예측 부호화(Linear Predictive Coding)를 기반으로 상기 음성 신호로부터 적어도 하나 이상의 포먼트 주파수를 추정하며, 상기 적어도 하나 이상의 포먼트 주파수의 대역폭을 추정하고, 상기 음성 신호가 유성음인지 무성음인지 판별하며, 상기 포먼트 주파수, 상기 포먼트 주파수의 대역폭, 상기 판별한 유성음 또는 무성음의 특성 및 인체의 신호 전달 특성을 기반으로 상기 포먼트 증강 필터를 구성하고, 상기 포먼트 증강 필터를 상기 음성 신호에 적용하며, 상기 액추에이터를 통해 상기 포먼트 증강 필터가 적용된 음성 신호를 상기 인체를 통해 출력하도록 제어하는 제어부를 포함하는 음성 신호 처리 장치.
제1항에 있어서,
상기 제어부는,
상기 포먼트 주파수를 추정 시, 선형 예측 부호화 분석을 통해 선형 예측 부호화 계수(Linear Predictive Coding Coefficients)를 획득하고, 상기 선형 예측 부호화 계수를 기반으로 선형 예측 부호화 엔벨로프(envelope)를 획득하며, 상기 선형 예측 부호화 엔벨로프의 기울기가 양수에서 음수가 되는 주파수를 상기 포먼트 주파수로 추정하는 것을 특징으로 하는 음성 신호 처리 장치.
제2항에 있어서,
상기 제어부는,
상기 적어도 하나 이상의 포먼트 주파수의 대역폭을 추정 시, 상기 선형 예측 부호화 계수를 기반으로 상기 적어도 하나 이상의 포먼트 주파수의 대역폭을 추정하는 것을 특징으로 하는 음성 신호 처리 장치.
제2항에 있어서,
상기 제어부는,
상기 음성 신호가 유성음인지 무성음인지 판별 시, 상기 선형 예측 부호화 엔벨로프를 기반으로 상기 음성 신호가 유성음인지 무성음인지 판별하는 것을 특징으로 하는 음성 신호 처리 장치.
제1항에 있어서,
상기 포먼트 증강 필터는,
상기 포먼트 주파수 대역의 이득을 강화하는 윈도우 함수로 구현되는 것을 특징으로 하는 음성 신호 처리 장치.
제1항에 있어서,
오디오 신호를 입력 받는 마이크부; 및
잡음 성분과 에코(echo) 성분을 제거하는 잡음 및 에코 제거 필터를 더 포함하고,
상기 제어부는,
상기 마이크부를 통해 재입력 되는 상기 포먼트 증강 필터가 적용된 음성 신호를 기반으로 상기 에코 성분에 대하여 전력을 추정하여 에코 전력을 획득하고, 상기 마이크부를 통해 입력 되는 배경 잡음의 전력을 추정하여 잡음 신호 전력을 획득하며, 상기 에코 전력과 상기 잡음 신호 전력을 결합하여 결합 전력을 획득하고, 상기 결합 전력을 기반으로 에코 및 잡음 제거 필터를 구성하며, 상기 마이크부를 통해 사용자 음성 신호를 포함하는 상기 오디오 신호를 입력 받고, 상기 입력 받은 오디오 신호에 상기 잡음 및 에코 제거 필터를 적용하여 상기 오디오 신호에 포함된 상기 사용자 음성 신호를 추정하는 것을 특징으로 하는 음성 신호 처리 장치.
제6항에 있어서,
상기 제어부는,
상기 에코 전력을 획득 시, 상기 포먼트 증강 필터가 적용된 음성 신호를 기반으로 이득값 필터를 추정하며, 상기 추정한 이득값 필터를 이용하여 상기 에코 성분에 대한 진폭 스펙트럼(magnitude spectrum)을 획득하고, 상기 획득한 진폭 스펙트럼 및 과거에 추정한 에코 전력을 이용한 스무딩(smoothing)을 수행하여 현재의 에코 전력을 획득하는 것을 특징으로 하는 음성 신호 처리 장치.
제6항에 있어서,
상기 제어부는,
상기 에코 전력과 상기 잡음 신호 전력을 결합하여 결합 전력을 획득 시, 상기 에코 전력, 상기 잡음 신호 전력 및 과거 결합 전력을 이용한 스무딩을 수행하여 현재의 결합 전력을 획득하는 것을 특징으로 하는 음성 신호 처리 장치.
제6항에 있어서,
상기 제어부는,
상기 결합 전력을 기반으로 에코 및 잡음 제거 필터를 구성 시, 상기 결합 전력을 기반으로 제1 사전 신호 대 결합 전력비(priori SCR) 및 사후 신호 대 결합 전력비(posteriori SCR)를 추정하고, 상기 결합 전력, 상기 사후 신호 대 결합 전력 비 및 과거 음성 신호의 전력을 기반으로 결정 지향 방식으로 제2 사전 신호 대 결합 전력 비를 추정하며, 상기 제2 사전 신호 대 결합 전력 비를 기반으로 상기 에코 및 잡음 제거 필터를 구성하는 것을 특징으로 하는 음성 신호 처리 장치.
제9항에 있어서,
상기 제어부는,
상기 오디오 신호에 포함된 상기 사용자 음성 신호를 추정 시, 상기 사후 신호 대 결합 전력비와 상기 사후 신호 대 결합 전력비의 문턱값을 비교하여 표시 함수(indicator function) 값을 결정하고, 상기 표시 함수 값과 과거 음성 신호가 존재하지 않을 때의 사전 확률을 기반으로 현재 음성 신호가 존재하지 않을 사전 확률을 추정하며, 상기 제1 사전 신호 대 결합 전력 비, 상기 사후 신호 대 결합 전력 비 및 제2 사전 신호 대 결합 전력 비를 기반으로 우도비(likelihood ratio)를 계산하고, 상기 현재 음성 신호가 존재하지 않을 사전 확률과 상기 우도비를 기반으로 음성 신호의 존재 확률을 계산하며, 상기 에코 및 잡음 제거 필터 및 상기 음성 신호의 존재 확률을 기반으로 상기 사용자 음성 신호를 추정하는 것을 특징으로 하는 음성 신호 처리 장치.
음성 신호를 수신하는 단계;
선형 예측 부호화를 기반으로 상기 음성 신호로부터 적어도 하나 이상의 포먼트 주파수를 추정하는 단계;
상기 적어도 하나 이상의 포먼트 주파수의 대역폭을 추정하는 단계;
상기 음성 신호가 유성음인지 무성음인지 판별하는 단계;
상기 포먼트 주파수, 상기 포먼트 주파수의 대역폭, 상기 판별한 유성음 또는 무성음의 특성 및 인체의 신호 전달 특성을 기반으로 포먼트 증강 필터를 구성하는 단계;
상기 포먼트 증강 필터를 상기 음성 신호에 적용하는 단계; 및
상기 포먼트 증강 필터가 적용된 음성 신호를 상기 인체를 통해 출력하는 단계를 포함하는 것을 특징으로 하는 음성 신호 처리 방법.
제11항에 있어서,
상기 포먼트 주파수를 추정하는 단계는,
선형 예측 부호화 분석을 통해 선형 예측 부호화 계수를 획득하는 단계;
상기 선형 예측 부호화 계수를 기반으로 선형 예측 부호화 엔벨로프를 획득하는 단계; 및
상기 선형 예측 부호화 엔벨로프의 기울기가 양수에서 음수가 되는 주파수를 상기 포먼트 주파수로 추정하는 단계를 포함하는 것을 특징으로 하는 음성 신호 처리 방법.
제12항에 있어서,
상기 적어도 하나 이상의 포먼트 주파수의 대역폭을 추정하는 단계는,
상기 선형 예측 부호화 계수를 기반으로 상기 적어도 하나 이상의 포먼트 주파수의 대역폭을 추정하는 단계를 포함하는 것을 특징으로 하는 음성 신호 처리 방법.
제12항에 있어서,
상기 음성 신호가 유성음인지 무성음인지 판별하는 단계는,
상기 선형 예측 부호화 엔벨로프를 기반으로 상기 음성 신호가 유성음인지 무성음인지 판별하는 단계를 포함하는 것을 특징으로 하는 음성 신호 처리 방법.
제11항에 있어서,
상기 포먼트 증강 필터는,
상기 포먼트 주파수 대역의 이득을 강화하는 윈도우 함수로 구현되는 것을 특징으로 하는 음성 신호 처리 방법.
제11항에 있어서,
마이크부를 통해 재입력 되는 상기 포먼트 증강 필터가 적용된 음성 신호를 기반으로 에코 성분에 대하여 전력을 추정하여 에코 전력을 획득하는 단계;
상기 마이크부를 통해 입력 되는 배경 잡음의 전력을 추정하여 잡음 신호 전력을 획득하는 단계;
상기 에코 전력과 상기 잡음 신호 전력을 결합하여 결합 전력을 획득하는 단계;
상기 결합 전력을 기반으로 에코 및 잡음 제거 필터를 구성하는 단계;
상기 마이크부를 통해 사용자 음성 신호를 포함하는 오디오 신호를 입력 받는 단계;
상기 입력 받은 오디오 신호에 상기 잡음 및 에코 제거 필터를 적용하여 상기 오디오 신호에 포함된 상기 사용자 음성 신호를 추정하는 단계를 더 포함하는 것을 특징으로 하는 음성 신호 처리 방법.
제16항에 있어서,
상기 에코 전력을 획득하는 단계는,
상기 포먼트 증강 필터가 적용된 음성 신호를 기반으로 이득값 필터를 추정하는 단계;
상기 추정한 이득값 필터를 이용하여 상기 에코 성분에 대한 진폭 스펙트럼을 획득하는 단계; 및
상기 획득한 진폭 스펙트럼 및 과거에 추정한 에코 전력을 이용한 스무딩을 수행하여 현재의 에코 전력을 획득하는 단계를 포함하는 것을 특징으로 하는 음성 신호 처리 방법.
제16항에 있어서,
상기 에코 전력과 상기 잡음 신호 전력을 결합하여 결합 전력을 획득하는 단계는,
상기 에코 전력, 상기 잡음 신호 전력 및 과거 결합 전력을 이용한 스무딩을 수행하여 현재의 결합 전력을 획득하는 단계를 포함하는 것을 특징으로 하는 음성 신호 처리 방법.
제16항에 있어서,
상기 결합 전력을 기반으로 에코 및 잡음 제거 필터를 구성하는 단계는,
상기 결합 전력을 기반으로 제1 사전 신호 대 결합 전력비 및 사후 신호 대 결합 전력비를 추정하는 단계;
상기 결합 전력, 상기 사후 신호 대 결합 전력 비 및 과거 음성 신호의 전력을 기반으로 결정 지향 방식으로 제2 사전 신호 대 결합 전력 비를 추정하는 단계;
상기 제2 사전 신호 대 결합 전력 비를 기반으로 상기 에코 및 잡음 제거 필터를 구성하는 단계를 포함하는 것을 특징으로 하는 음성 신호 처리 방법.
제19항에 있어서,
상기 오디오 신호에 포함된 상기 사용자 음성 신호를 추정하는 단계는,
상기 사후 신호 대 결합 전력비와 상기 사후 신호 대 결합 전력비의 문턱값을 비교하여 표시 함수 값을 결정하는 단계;
상기 표시 함수 값과 과거 음성 신호가 존재하지 않을 때의 사전 확률을 기반으로 현재 음성 신호가 존재하지 않을 사전 확률을 추정하는 단계;
상기 제1 사전 신호 대 결합 전력 비, 상기 사후 신호 대 결합 전력 비 및 제2 사전 신호 대 결합 전력 비를 기반으로 우도비를 계산하는 단계;
상기 현재 음성 신호가 존재하지 않을 사전 확률과 상기 우도비를 기반으로 음성 신호의 존재 확률을 계산하는 단계; 및
상기 에코 및 잡음 제거 필터 및 상기 음성 신호의 존재 확률을 기반으로 상기 사용자 음성 신호를 추정하는 단계를 포함하는 것을 특징으로 하는 음성 신호 처리 방법.