KR102238979B1

KR102238979B1 - 음성 인식을 위한 전처리 장치 및 그 방법

Info

Publication number: KR102238979B1
Application number: KR1020130139068A
Authority: KR
Inventors: 권민호
Original assignee: 현대모비스 주식회사
Priority date: 2013-11-15
Filing date: 2013-11-15
Publication date: 2021-04-12
Also published as: CN104658549B; KR20150056276A; CN104658549A; US20150142430A1; EP2874148B1; US9437217B2; EP2874148A1

Abstract

본 발명은 음성 인식을 위한 전처리 장치 및 그 방법에 관한 것으로, 상기 장치는 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 검출하는 트래일링 사일런스 구간 검출부와, 기준 트래일링 사일런스 구간의 길이를 저장하는 기준 트래일링 사일런스 구간 저장부 및 상기 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 상기 기준 트래일링 사일런스 구간의 길이에 맞춰 조정하는 트래일링 사일런스 구간 조정부를 포함한다.

Description

음성 인식을 위한 전처리 장치 및 그 방법{PRE-PROCESSING APPARATUS FOR SPEECH RECOGNITION AND METHOD THEREOF}

본 발명은 음성 인식을 위한 전처리 장치 및 그 방법에 관한 것으로, 보다 상세하게는 음성 인식 시 사용자의 성향을 고려하여 트래일링 사일런스(Trailing Silence) 구간이 일정하게 되도록 음성 신호를 전처리하여 음성 인식 성능을 향상시키는 음성 인식을 위한 전처리 장치 및 그 방법에 관한 것이다.

최근 전자 장치의 인텔리전트화가 진보됨에 따라 장치의 제어를 음성으로 수행하게 하려는 시도가 많아졌다.

상기 음성을 이용한 장치의 제어를 위해서는 음성을 식별하고 말을 이해할 필요가 있어서 음성 인식 센서나 음성 인식 장치의 연구가 증가하게 되었다.

예컨대 최근에는 차량 운전 중 디지털 방송(DMB) 시청이나 내비게이션 조작을 금지하는 도로교통법 개정안이 발의됨에 따라 내비게이션의 음성 인식 기능에 대한 관심이 더욱 증가되고 있다.

그런데 음성 인식을 위해서는 장치의 리소스(즉, CPU나 메모리의 자원)가 많이 소모된다. 따라서 내비게이션과 같이 리소스 자체가 충분하지 않은 휴대 장치에서는 장치의 리소스를 최소로 소모시키고, 또한 올바른 신호처리를 위하여 가능한 음성이 입력된 구간을 정확히 검출할 수 있도록 처리할 필요가 있다.

종래의 음성 인식 장치(또는 음성 인식 엔진)에서 상기 음성 입력 구간을 정확히 검출할 수 있도록 처리하는 방법의 하나로서 트래일링 사일런스(Trailing Silence) 구간을 포함시키는 방법을 사용하고 있다.

여기서, 상기 트래일링 사일런스 구간이란, 음성 인식을 위한 음성 입력을 시작하도록 사용자에게 알려주는 시작음(예 : BEEP 음)을 출력한 후 실제로 음성 신호가 인가될 때까지의 시간 혹은 음절과 음절 사이의 무음 구간을 의미한다.

예컨대 음성 인식 동작 시 정상적인 신호처리를 위해 사용자가 음성 인식 장치(예 : 내비게이션)에 구비된 음성 인식 동작 버튼을 누르면 상기 음성 인식 장치에서 음성 인식 시작음(예 : BEEP 음)을 출력한다. 이에 따라 상기 시작음을 들은 사용자가 음성(또는 음성 명령)을 입력하고, 상기 음성 인식 장치는 상기 시작음 출력 후 입력되는 음성 신호를 처리하여 음성(또는 음성 명령)을 분석하게 된다.

따라서 상기와 같은 방식(즉, 시작음 출력 후 음성을 입력하는 방식)으로 음성 인식을 수행하는 경우, 도 1의 (b)에 도시된 바와 같이 상기 시작음이 출력되기 전에 먼저 음성을 입력하거나, 도 1의 (c)에 도시된 바와 같이, 상기 시작음이 출력된 후 특정 시간이 경과된 다음에 음성을 입력하면, 상기 음성 인식 장치는 올바른 신호처리를 수행하지 못하여 음성을 정확하게 인식하지 못하게 된다. 즉, 음성 인식률이 저하되는 문제점이 있다.

다시 말해 상기와 같은 방식(즉, 시작음 출력 후 음성을 입력하는 방식)으로 음성 인식을 수행하는 경우, 도 1의 (a)에 도시된 바와 같이, 상기 음성 인식 장치에 따라 적정한 길이의 트래일링 사일런스 구간이 포함된 음성 신호를 입력할 필요가 있다. 그러나 사용자의 말하는 성향에 따라 상기 트래일링 사일런스 구간이 길거나 짧아지는 경우에는 적정한 길이의 트래일링 사일런스 구간이 포함된 경우에 비하여 음성 인식률이 떨어지는 문제점이 있다.

본 발명의 배경기술은 대한민국 등록특허 10-0714721호(2007.04.27.등록, 음성 구간 검출 방법 및 장치)에 개시되어 있다.

본 발명은 상기와 같은 문제점을 해결하기 위해 창작된 것으로서, 음성 인식 시 사용자의 성향을 고려하여 트래일링 사일런스 구간이 일정하게 되도록 음성 신호를 전처리하여 음성 인식 성능을 향상시키는 음성 인식을 위한 전처리 장치 및 그 방법을 제공하는데 목적이 있다.

본 발명의 일 측면에 따른 음성 인식을 위한 전처리 장치는, 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 검출하는 트래일링 사일런스 구간 검출부; 기준 트래일링 사일런스 구간의 길이를 저장하는 기준 트래일링 사일런스 구간 저장부; 및 상기 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 상기 기준 트래일링 사일런스 구간의 길이에 맞춰 조정하는 트래일링 사일런스 구간 조정부;를 포함하는 것을 특징으로 한다.

본 발명에 있어서, 상기 트래일링 사일런스 구간은, 음성 인식 시작음 출력 후, 음성 입력 수단을 통해 입력되는 음성 신호에서 실제 사용자의 음성이 입력된 시간까지의 무음 구간인 것을 특징으로 한다.

본 발명에 있어서, 상기 트래일링 사일런스 구간 조정부는, 상기 음성 신호에서 검출된 트래일링 사일런스 구간의 길이가 기준 트래일링 사일런스 구간의 길이보다 짧은 경우에는 상기 음성 신호의 트래일링 사일런스 구간의 길이를 늘려서 기준 트래일링 사일런스 구간의 길이가 되게 조정하고, 상기 음성 신호에서 검출된 트래일링 사일런스 구간의 길이가 기준 트래일링 사일런스 구간의 길이보다 긴 경우에는 상기 음성 신호의 트래일링 사일런스 구간의 길이를 줄여서 기준 트래일링 사일런스 구간의 길이가 되게 조정하는 것을 특징으로 한다.

본 발명에 있어서, 상기 트래일링 사일런스 구간 조정부는, 상기 트래일링 사일런스 구간의 조정 시, 상기 음성 신호가 시작되는 초기 부분의 구간을 추가하거나 제거하여 조정하는 것을 특징으로 한다.

본 발명의 다른 측면에 따른 음성 인식을 위한 전처리 방법은, 음성 신호를 입력받는 단계; 상기 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 검출하는 단계; 및 상기 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 기 설정된 기준 트래일링 사일런스 구간의 길이에 맞춰 조정하는 단계;를 포함하는 것을 특징으로 한다.

본 발명에 있어서, 상기 트래일링 사일런스 구간의 길이를 조정하는 단계는, 상기 음성 신호에서 검출된 트래일링 사일런스 구간의 길이가 기준 트래일링 사일런스 구간의 길이보다 짧은 경우 상기 음성 신호의 트래일링 사일런스 구간의 길이를 늘려서 기준 트래일링 사일런스 구간의 길이가 되게 조정하고, 상기 음성 신호에서 검출된 트래일링 사일런스 구간의 길이가 기준 트래일링 사일런스 구간의 길이보다 긴 경우 상기 음성 신호의 트래일링 사일런스 구간의 길이를 줄여서 기준 트래일링 사일런스 구간의 길이가 되게 조정하는 것을 특징으로 한다.

본 발명에 있어서, 상기 트래일링 사일런스 구간의 길이를 조정하는 단계는, 상기 트래일링 사일런스 구간의 조정 시, 상기 음성 신호가 시작되는 초기 부분의 구간을 추가하거나 제거하여 조정하는 것을 특징으로 한다.

본 발명은 음성 인식 시 사용자의 성향을 고려하여 트래일링 사일런스 구간이 일정하게 되도록 음성 신호를 전처리하여 음성 인식 성능을 향상시킨다.

도 1은 종래의 음성 인식 장치에서 입력받은 음성 신호에 포함된 트래일링 사일런스 구간의 길이에 따른 음성 인식률을 설명하기 위한 예시도.
도 2는 본 발명의 일 실시예에 따른 음성 인식 장치의 개략적인 구성을 보인 예시도.
도 3은 본 발명의 일 실시예에 따른 음성 인식을 위한 전처리 방법을 설명하기 위한 흐름도.
도 4는 상기 도 3에 있어서, 트래일링 사일런스 구간의 조정방법을 설명하기 위한 음성 신호를 보인 예시도.
도 5는 본 발명의 일 실시예에 따라 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 조정한 경우와 조정하지 않았을 경우의 음성 인식률을 비교하여 보인 테이블.

이하, 첨부된 도면을 참조하여 본 발명에 따른 음성 인식을 위한 전처리 장치 및 그 방법의 일 실시예를 설명한다.

이 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 2는 본 발명의 일 실시예에 따른 음성 인식 장치의 개략적인 구성을 보인 예시도이다.

도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 음성 인식 장치는, 음성 입력부(MIC), 에이디 변환부(110), 트래일링 사일런스 구간 전처리부(120), 신호 전처리부(130) 및 음성 인식부(140)를 포함한다.

상기 음성 입력부(MIC)는 사용자의 음성을 입력받기 위한 수단으로서, 예컨대 마이크에 해당한다.

상기 에이디 변환부(110)는 상기 음성 입력부(MIC)로부터 출력되는 사용자의 음성 신호를 처리에 용이한 디지털 신호로 변환한다.

상기 트래일링 사일런스 구간 전처리부(120)는 상기 음성 신호에 포함된 트래일링 사일런스 구간(시간)의 길이를 검출하는 트래일링 사일런스 구간 검출부(121), 기준 트래일링 사일런스 구간(시간)의 길이를 저장하는 기준 트래일링 사일런스 구간 저장부(123), 상기 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 상기 기준 트래일링 사일런스 구간의 길이에 맞춰 조정하는 트래일링 사일런스 구간 조정부(122)를 포함한다.

따라서 상기 트래일링 사일런스 구간 전처리부(120)는 상기 디지털로 변환된 사용자의 음성 신호에서 트래일링 사일런스 구간(시간)을 검출하고, 상기 음성 신호에 포함된 상기 트래일링 사일런스 구간이 기 설정된 기준 트래일링 사일런스 구간의 길이가 되도록 조절한다.

예컨대 상기 음성 신호에서 검출된 트래일링 사일런스 구간의 길이가 기준 트래일링 사일런스 구간의 길이보다 짧은 경우에는 상기 음성 신호의 트래일링 사일런스 구간의 길이를 늘려서 기준 트래일링 사일런스 구간의 길이가 되게 조정하고, 반대로 상기 음성 신호에서 검출된 트래일링 사일런스 구간의 길이가 기준 트래일링 사일런스 구간의 길이보다 긴 경우에는 상기 음성 신호의 트래일링 사일런스 구간의 길이를 줄여서 기준 트래일링 사일런스 구간의 길이가 되게 조정한다.

이때 상기 트래일링 사일런스 구간 전처리부(120)는 마이크로 프로세서 또는 디지털 신호처리 프로세서와 같은 하나의 제어 수단을 이용해 구현함으로써 상기 트래일링 사일런스 구간의 조정을 소프트웨어적으로 처리할 수도 있다.

여기서 상기 트래일링 사일런스 구간은, 음성 인식 시작음(BEEP 음) 출력 후, 상기 음성 입력부(MIC)를 통해 검출된 음성 신호에서 실제 사용자의 음성이 입력된 시간까지의 구간으로서, 편의상 본 실시예에서 상기 트래일링 사일런스 구간은 100ms인 것으로 가정하여 설명한다. 이때 상기 실제 사용자의 음성이 입력되는 지점은 음성 신호에서 기 설정된 임계 레벨(Threshold Level) 이상인 지점이다.

상기 신호 전처리부(130)는 상기 트래일링 사일런스 구간이 전처리된 음성 신호를 입력받아 신호 전처리를 수행한다.

즉, 상기 음성 신호에서 노이즈를 제거 및 자동 이득 조절과 같이 음성 인식에 필요한 신호 전처리 작업을 수행한다.

상기 음성 인식부(140)는 상기 신호 전처리된 음성 신호를 인식한다.

즉, 상기 음성 신호에 해당하는 명령의 의미가 무엇인지 인식한다. 다시 말해 상기 음성에 해당하는 명령을 판단한다.

다만 본 실시예에서 본 발명의 기술적 요지와 직접적인 관련이 없는 상기 신호 전처리부(130) 및 상기 음성 인식부(140)에 대한 구체적인 설명은 생략한다.

도 3은 본 발명의 일 실시예에 따른 음성 인식을 위한 전처리 방법을 설명하기 위한 흐름도이고, 도 4는 상기 도 3에 있어서, 트래일링 사일런스 구간의 조정방법을 설명하기 위한 음성 신호를 보인 예시도이다.

이하 도 3과 도 4를 참조하여 상기 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 조정하는 방법에 대해서 설명한다.

상기 트래일링 사일런스 구간 전처리부(120)는 상기 디지털 신호 변환된 음성 신호를 입력받는다(S101).

그리고 상기 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 검출한다(S102).

이때 상기 음성 신호에 포함된 트래일링 사일런스 구간의 길이는, 도 4의 (a)에 도시된 바와 같이, 기준 트래일링 사일런스 구간의 길이(예 : 100ms)보다 짧거나, 도 4의 (b)에 도시된 바와 같이, 기준 트래일링 사일런스 구간의 길이보다 길 수 있다.

따라서 상기 트래일링 사일런스 구간 전처리부(120)는, 도 4의 (a)에 도시된 바와 같이, 음성 신호에서 검출된 트래일링 사일런스 구간의 길이가 짧은 경우(예 : 20ms), 기준 트래일링 사일런스 구간의 길이(예 : 100ms)에 맞춰 트래일링 사일런스 구간의 길이를 추가(예 : 80ms)하여 조정한다(S103).

마찬가지로, 상기 트래일링 사일런스 구간 전처리부(120)는, 도 4의 (b)에 도시된 바와 같이, 음성 신호에서 검출된 트래일링 사일런스 구간의 길이가 긴 경우(예 : 200ms), 기준 트래일링 사일런스 구간의 길이(예 : 100ms)에 맞춰 트래일링 사일런스 구간의 길이를 일부 제거(예 : 100ms)하여 조정한다(S103).

이때 상기 트래일링 사일런스 구간이 조정되는 부분은 음성 신호가 시작되는 초기 부분이다.

상기와 같이 트래일링 사일런스 구간 전처리부(120)를 통해 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 기준 트래일링 사일런스 구간의 길이로 맞춰 조정함으로써 음성 인식률을 향상시킬 수 있다.

도 5는 본 발명의 일 실시예에 따라 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 조정한 경우와 조정하지 않았을 경우의 음성 인식률을 비교하여 보인 테이블이다.

도 5에 도시된 바와 같이, 음성 신호에 포함된 트래일링 사일런스 구간의 길이가 기준 트래일링 사일런스 구간의 길이(예 : 100ms)보다 짧거나(예 : 20ms) 긴 경우(예 : 200ms) 음성 인식률은 90% 로 낮았으나, 본 발명에 따른 방법을 이용하여 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 기준 트래일링 사일런스 구간의 길이(예 : 100ms)에 맞춰 조정한 경우 음성 인식률은 95%로 향상됨을 알 수 있다.

이상으로 본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나, 이는 예시적인 것에 불과하며, 당해 기술이 속하는 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 기술적 보호범위는 아래의 특허청구범위에 의해서 정하여져야 할 것이다.

MIC : 음성 입력부
110 : 에이디 변환부
120 : 트래일링 사일런스 구간 전처리부
121 : 트래일링 사일런스 구간 검출부
122 : 트래일링 사일런스 구간 조정부
123 : 기준 트래일링 사일런스 구간 저장부
130 : 신호 전처리부
140 : 음성 인식부

Claims

음성 신호에 포함된 트래일링 사일런스 구간의 길이를 검출하는 트래일링 사일런스 구간 검출부;
기준 트래일링 사일런스 구간의 길이를 저장하는 기준 트래일링 사일런스 구간 저장부; 및
상기 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 상기 기준 트래일링 사일런스 구간의 길이에 맞춰 조정하는 트래일링 사일런스 구간 조정부;를 포함하되,
상기 트래일링 사일런스 구간은,
음성 인식 시작음 출력 후, 음성 입력 수단을 통해 입력되는 음성 신호에서 실제 사용자의 음성이 입력된 시간까지의 무음 구간이며,
상기 트래일링 사일런스 구간 조정부는,
상기 음성 신호에서 검출된 트래일링 사일런스 구간의 길이가 기준 트래일링 사일런스 구간의 길이보다 짧은 경우에는 상기 음성 신호의 트래일링 사일런스 구간의 길이를 늘려서 기준 트래일링 사일런스 구간의 길이가 되게 조정하는 것을 특징으로 하는 음성 인식을 위한 전처리 장치.
삭제
제 1항에 있어서, 상기 트래일링 사일런스 구간 조정부는,
상기 음성 신호에서 검출된 트래일링 사일런스 구간의 길이가 기준 트래일링 사일런스 구간의 길이보다 긴 경우에는 상기 음성 신호의 트래일링 사일런스 구간의 길이를 줄여서 기준 트래일링 사일런스 구간의 길이가 되게 조정하는 것을 특징으로 하는 음성 인식을 위한 전처리 장치.
제 1항에 있어서, 상기 트래일링 사일런스 구간 조정부는,
상기 트래일링 사일런스 구간의 조정 시, 상기 음성 신호가 시작되는 초기 부분의 구간을 추가하거나 제거하여 조정하는 것을 특징으로 하는 음성 인식을 위한 전처리 장치.
음성 신호를 입력받는 단계;
상기 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 검출하는 단계; 및
상기 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 기 설정된 기준 트래일링 사일런스 구간의 길이에 맞춰 조정하는 단계;를 포함하되,
상기 트래일링 사일런스 구간은,
음성 인식 시작음 출력 후, 음성 입력 수단을 통해 입력되는 음성 신호에서 실제 사용자의 음성이 입력된 시간까지의 무음 구간이며,
상기 트래일링 사일런스 구간의 길이를 조정하는 단계는,
상기 음성 신호에서 검출된 트래일링 사일런스 구간의 길이가 기준 트래일링 사일런스 구간의 길이보다 짧은 경우 상기 음성 신호의 트래일링 사일런스 구간의 길이를 늘려서 기준 트래일링 사일런스 구간의 길이가 되게 조정하는 것을 특징으로 하는 음성 인식을 위한 전처리 방법.
제 5항에 있어서, 상기 트래일링 사일런스 구간의 길이를 조정하는 단계는,
상기 음성 신호에서 검출된 트래일링 사일런스 구간의 길이가 기준 트래일링 사일런스 구간의 길이보다 긴 경우 상기 음성 신호의 트래일링 사일런스 구간의 길이를 줄여서 기준 트래일링 사일런스 구간의 길이가 되게 조정하는 것을 특징으로 하는 음성 인식을 위한 전처리 방법.
제 5항에 있어서, 상기 트래일링 사일런스 구간의 길이를 조정하는 단계는,
상기 트래일링 사일런스 구간의 조정 시, 상기 음성 신호가 시작되는 초기 부분의 구간을 추가하거나 제거하여 조정하는 것을 특징으로 하는 음성 인식을 위한 전처리 방법.