KR20200054754A

KR20200054754A - 잡음환경에서 음성인식 향상을 위한 위한 오디오 신호처리 방법 및 장치

Info

Publication number: KR20200054754A
Application number: KR1020180138447A
Authority: KR
Inventors: 박성진; 변용훈
Original assignee: 주식회사 더바인코퍼레이션
Priority date: 2018-11-12
Filing date: 2018-11-12
Publication date: 2020-05-20

Abstract

잡음환경에서 음성인식 향상을 위한 위한 오디오 신호처리 방법 및 장치가 개시된다.
휴대폰, AI 스피커 등의 입력신호에서 동적 파라미터를 미리 측정하여 표를 설정하고, 설정된 동적 파라미터에 대응하는 각각의 전달함수를 산출하여 음성의 왜곡은 최소화 하면서 노이즈 감소는 최대화하는 방법 및 장치에 관한 것이다.
본 발명을 적용 시 다양한 노이즈환경에서 음성의 유무 및 노이즈의 강도에 따라 노이즈 감소기의 전달함수가 자동으로 바뀌면서 최적의 노이즈 감소 성능을 가지며 이에 따른 음성인식 성능이 확연히 향상된다.

Description

잡음환경에서 음성인식 향상을 위한 위한 오디오 신호처리 방법 및 장치 {AUDIO SIGNAL PROCESSING METHOD AND APPARATUS FOR ENHANCING SPEECH RECOGNITION IN NOISE ENVIRONMENTS}

본 발명은 휴대폰, AI 스피커 등의 단말기에서 사용되고 있는 음성인식 시스템의 잡음환경 음성인식 성능 향상을 위한 오디오 신호처리 방법 및 장치에 관한 것으로, 보다 상세하게는 잡음환경에서 마이크로 입력된 오디오(audio) 신호를 이중채널(dual-channel) 적응형 잡음제거(adaptive noise reduction) 및 음성 명료도 향상(voice intelligibility enhancement) 기술을 활용하여 음성인식 성능을 향상하는 방법에 관한 것이다.

본 발명은 과학기술정보통신부/경기도의 재원으로 'SW 융합클러스터사업'의 지원에 의해 수행된 연구로부터 도출된 것이다[과제관리번호: R-18-01, 과제명: 음성인식 오디오 전처리 기술개발].

본 발명의 주요 배경기술은 1) 이중 채널(dual-channel) 기술과 2) 적응형 노이즈제거(adaptive noise reduction)기술과 3) 음성 명료도 향상 기술이다.

1) 이중 채널 기술은 두 개의 마이크(Dual-mic array) 로 입력된 오디오 신호를 어레이 빔포밍(array beamforming) 기술을 사용하여 주(main) 마이크와 서브(sub) 마이크로 구분 후 노이즈를 제거하면 하나의 마이크를 사용할 때보다 더 향상된 노이즈제거 성능을 얻을 수 있다. Dual-mic array는 통화, 음성인식, 영상녹음 등의 기능에서 잡음제거, 에코제거 등의 오디오 향상 분야에서 최근에 널리 사용되고 있다[참고문헌: Dual-Microphone Spectral Subtraction, Harald Gustafsson's Research Report, ISSN 1103-1581].

2) ANR(Adaptive Noise Reduction) 기술은 입력신호에서 음성 신호는 유지한 상태에서 노이즈를 감소하는 기술로 대부분의 음성통신 시스템에 탑재되어 있다. ANR에서 사용하는 기술은 주파수영역에서 추정된 노이즈신호를 이용하여 입력신호에 섞여있는 노이즈신호를 차감하는 주파수 차감법(Spectral Subtraction)이 있다[참고문헌: Adaptive Noise Cancelling: Principles and Applications, Proceedings of the IEEE (Volume 63, Issue 12, 1975)]. 그러나, 주파수 차감법으로 강하게 노이즈를 제거하면 음성신호의 왜곡이 발생하고, 약하게 노이즈를 제거하면 잔류노이즈가 많이 남아 있는 결과를 초래하고 있는 상황이다.

3) 음성 명료도 향상 기술은 기 특허 등록된 된 몇 가지 기술이 있는데 본 발명에서는 그 중 선택적 필터 기술을 활용한다[참고문헌: 명료도 향상장치와 이를 이용한 음성출력 장치, 한국특허 10-1068227]. 선택적 필터 기술은 고주파 통과 필터의 컷-오프 주파수가 변화하면서 자음으로 여겨지는 신호를 선택적으로 강조하는 것으로, 자음신호의 복원을 주된 목적으로 한다. 이렇게 처리된 신호는 음성명료도가 확연히 증가됨을 실험적으로 확인 되었고, 특히 소음 환경에서는 보편적으로 쓰이는 심리음향 기술과 함께 적용하여, 상대방이 말하는 내용을 최대한 잘 알아 들을 수 있도록 할 수 있다.

본 발명이 이루고자 하는 과제는 노이즈제거를 하는 알고리즘을 오디오 신호에 적용 시 노이즈 감쇄량은 최대화 하면서 음성왜율을 최소화 하는데 그 목적이 있다. 현재 통신기기등에 사용되는 주파수 차감법 등의 기술은 강하게 노이즈를 제거하면 음성신호의 왜곡이 발생하고, 약하게 노이즈를 제거하면 잔류노이즈가 많이 남아 있는 결과를 초래하고 있는 상황이다.

이에 본 발명에서는 음성신호가 포함된 오디오 신호와 노이즈만 있는 오디오 신호를 실시간으로 구분하여 ANR의 전달함수를 동적(Dynamic)으로 적용하는 방법을 사용하였고, 본 기술을 적용 시 Cafeteria나 Babble 노이즈와 같은 비정형 노이즈 환경에서도 잔류 노이즈의 발생이나 음성 신호의 손상을 방지하여 결과적으로 음성인식 성능을 확연하게 향상시킨다.

본 발명의 하나의 특징에 따른 오디오 신호처리 장치는,

입력신호에 따른 동적 파라미터 예측부; 입력 신호에 대한 음성 파라미터 값 검출부; 및 입력 신호에 대한 노이즈 파라미터 값 검출부를 포함하며, 상기 입력 신호를 분석하여 음성 신호인지 비음성 신호를 파악하며, 미리 설정된 동적 파라미터 구성에서 최적의 파라미터를 자동으로 선정하여 노이즈감소 장치의 전달함수를 바꾸어 준다.

여기서, 음성 신호의 노이즈감소 전달함수부; 및 노이즈 신호의 노이즈감소 전달함수부를 더 포함하고, 상기 입력신호의 음성신호의 존재 유무 및 노이즈의 정도에 따라 전달함수를 자동으로 동적으로 적용하여 노이즈를 감소시킨다.

본 발명의 실시 예에 따르면, 음성출력장치가 자동으로 사용자의 환경을 파악하여 음성인식에 적합한 최적의 신호를 음성인식기의 입력 신호로 전송하여 음성인식 성능을 향상하는 효과가 있다.

또한, Cafeteria나 Babble 노이즈와 같은 비정형 노이즈 환경에서도 잔류 노이즈의 발생이나 음성 신호의 손상을 방지하여 결과적으로 음성인식 성능을 확연하게 향상시킨다.

도 1은 본 발명의 실시예에 따른 음성인식률 향상을 위한 오디오 전처리 기술의 블럭도이다.
도 2는 본 발명의 실시예에 따른 D-ANR(Dynamic Adaptive Noise Reduction)의 구조도이다.
도 3은 본 발명의 실시예에 따른 오디오 신호처리 방법에서 D-ANR의 적용 예를 도시한 도면이다.
도 4는 본 발명의 실시예에 따른 오디오 신호처리 방법에 따라 다양한 노이즈 상황에서 음성인식 성능을 테스트한 결과이다.

본 발명에서 새롭게 개발된 기술 명칭은 "동적 적응형 노이즈 제거"(D-ANR: Dynamic Adaptive Noise Reduction)기술로 명하기로 하며, 도 1의 103, 104, 105 부분에 해당된다.

도 1은 본 발명의 실시예에 따른 음성인식률 향상을 위한 오디오 전처리 기술의 블럭도이고, 도 2는 본 발명의 실시예에 따른 D-ANR(Dynamic Adaptive Noise Reduction)의 구조도이다.

본 발명의 내용은 도 1과 도 2를 중심으로 설명한다.

도 1에서 두 개의 마이크(101)로 입력된 신호는 빔포밍(102) 과정에서 음성신호가 강한 마이크를 주신호로 정하고 다른 마이크의 거리차 만큼의 신호를 딜레이하여 역위상을 더하여 주 신호를 얻어 낸다. 빔포밍 후 입력 신호에 음성 신호가 포함되어 있는지를 음성검출기(VAD: Voice Activity Detector)(103)를 통해서 판단한다. 이때 기존의 ANR 기술은 하나의 주어진 전달함수에 의해서 노이즈 제거 절차를 수행한다.

그러나, 본 발명의 실시예에 따른 D-ANR 기술은 104와 같이 적합한 동적 파라미터(Dynamic Parameter) w를 전달함수에 적용하는 점이 기존의 방법과 다른 점이다. 이때 w값은 측정에 의해 미리 구한다. 동적 파라미터 w를 구하는 방법은 입력 신호에 음성 신호의 존재 유무와 이전 프레임의 파라미터 값(n-1)에 따라 현재 파라미터 계수가 결정되며, [표 1]은 동적 파라미터 w를 10개로 나누어 구한 예제이다, 그러나 그 숫자는 이것으로만 국한되지 않는다.

동적 파라미터는 휴대폰, AI 스피커등의 하드웨어의 acoustic 구조및 회로구성에 따라 다르다. 그래서 장치별로 실측에 의한 방법으로 파라미터를 구해야 한다. 일단 파라미터가 구해지면 다음과 같이 ANR의 전달함수 H(x)를 다르게 적용 한다. 실시간으로 정해진 파라미터는 Dynamic Adaptive Noise Reduction의 전달함수(105)에 다음의 [수학식 1]과 같이 적용된다.

위와 같이 동적으로 전달함수를 구성하면 음성이 없는 신호 구간에서는 약 40dB 이상의 노이즈 제거가 가능하다. 또한 음성 구간에서는 노이즈의 강도에 따라 음성의 왜곡을 최소화 가능하다.

노이즈 제거를 마친 신호는 마지막으로 음성 명료도 향상 필터(106)를 통과한다. 음성 명료도 향상에 관한 기술은 배경기술 부분에 설명되어 있으며 기존의 기술이 활용된다.

도 2는 도 1에 도시된 D-ANR(Dynamic Adaptive Noise Reduction)(105)의 구조도로서, 도 1의 103, 104, 105 부분을 상세하게 설명한 그림이다. 특히, 203 ~ 210은 주파수 영역에서의 신호처리 과정을 설명하였다.

음성검출기(VAD: Voice Activity Detector)에 의한 음성 검출 여부(204)는 노이즈 스펙트럼 추정(203)을 활용하여 "0"(비음성) 또는 "1"(음성)으로 출력한다.

입력된 신호의 동적 파라미터(205 또는 206)은 이전 신호를 기준으로 미리 준비된 동적 파라미터 추정기(202)에서 주파수 변환된 현재 신호에 상응하는 최적의 전달함수(207 또는 208)를 만들어 현재 신호에 적용한다.

Spectral Subtraction(209)에서는 스펙트럼 차이를 이용한 노이즈제거 방법이 사용되며, Analysis Window(201)에서는 이득이 조정된다.

끝으로, Spectral Subtraction(209) 후의 스펙트럼 이득의 계산 결과에 대한 역 주파수변환, Synthesis Window(211), Gain Adjustment(212), Overlap & Add(213) 과정을 거쳐 다시 시간 영역의 신호로 출력된다.

도 3의 결과 예제를 통해 음성 신호가 포함된 신호는 약 12dB의 노이즈를 자동으로 감소시키고, 음성이 미 포함되어 노이즈만 있는 신호는 약 40dB의 노이즈가 자동으로 감소된다.

도 4는 다양한 노이즈 상황에서 음성인식 성능을 테스트한 결과이다. 음성인식시스템 전처리부에 본 발명에서 개발된 D-ANR을 적용하여 실험한 결과 노이즈환경에서의 평균 음성인식률이 약 18% 향상되었다.

Claims

입력신호에 따른 동적 파라미터 예측부;
입력 신호에 대한 음성 파라미터 값 검출부; 및
입력 신호에 대한 노이즈 파라미터 값 검출부
를 포함하며,
상기 입력 신호를 분석하여 음성 신호인지 비음성 신호를 파악하며, 미리 설정된 동적 파라미터 구성에서 최적의 파라미터를 자동으로 선정하여 노이즈감소 장치의 전달함수를 바꾸어 주는,
오디오 신호처리 장치.
제1항에 있어서,
음성 신호의 노이즈감소 전달함수부; 및
노이즈 신호의 노이즈감소 전달함수부
를 더 포함하고,
상기 입력신호의 음성신호의 존재 유무 및 노이즈의 정도에 따라 전달함수를 자동으로 동적으로 적용하여 노이즈를 감소시키는,
오디오 신호처리 장치.