KR101852892B1

KR101852892B1 - 음성 인식 방법, 음성 인식 장치 및 전자 장치

Info

Publication number: KR101852892B1
Application number: KR1020167014844A
Authority: KR
Inventors: 쥔양 저우
Original assignee: 후아웨이 테크놀러지 컴퍼니 리미티드
Priority date: 2013-11-14
Filing date: 2014-08-01
Publication date: 2018-06-04
Also published as: EP2894449A1; EP2894449A4; JP2016537679A; US9870771B2; KR20160079105A; JP6265450B2; CN103632666A; BR112016010947A2; WO2015070645A1; CN103632666B; US20160253995A1

Abstract

본 발명은 음성 인식 방법, 음성 인식 장치, 그리고 전자 장치를 개시한다. 본 방법에서는, 먼저 검출 음성에 대응하는 샘플 환경과 이전 환경 유형을 이용하여 결정을 수행하여 음성 엔진에게 대응하는 음성 정정 지시를 출력하고, 인식할 음성이 음성 엔진과 잡음 유형 검출 엔진에 동시에 입력되며, 음성 엔진은 음성 정정 지시에 따라 인식할 음성을 정정함으로써 원 음성의 품질이 잡음 처리에 의해 손상되지 않으면서 대응하는 초기 인식 결과가 출력되고, 잡음 유형 검출 엔진은 인식할 음성과 상이한 환경에서의 음성 훈련 샘플을 이용하여 현재 환경 유형을 결정하고, 최종적으로 초기 인식 결과의 신뢰성이 현재 환경 유형을 이용하여 조정되며, 이로써 최종적인 출력 음성 인식 결과의 인식 효과가 현재 환경에서의 사용자에게 우수한 사용자 경험을 제공할 수 있게 된다.

Description

음성 인식 방법, 음성 인식 장치 및 전자 장치{VOICE RECOGNITION METHOD, VOICE RECOGNITION DEVICE, AND ELECTRONIC DEVICE}

본 출원은 음성 인식 기술 분야에 관한 것으로, 보다 상세하게는 음성 인식 방법, 음성 인식 장치 및 전자 장치에 관한 것이다.

삭제

현재, 시장에서의 다양한 전자 제품의 대부분은 음성 인식 방식으로 제어되고 조작될 수 있다. 그러나 음성 인식 과정에서, 상이한 환경 유형, 특히 잡음이 심한 환경 유형에서, 보통의 음성 인식 엔진은 주변 잡음에 의해 쉽게 간섭을 받고, 조용한 환경에서의 음성 인식에 비해 현저하게 음성 인식률이 감소한다.

종래에는, 입력 음성의 SNR(Signal to Noise Ratio) 값을 잡음 감소 처리 방식 또는 음성 레벨 향상 방식에서 주로 향상하여 음성 인식률을 향상시켰다.

잡음 감소 처리 과정에서, 잡음 감소 모듈을 이용하여 주변 잡음을 감소시키고 음성 파형을 감소시키기 위한 잡음 감소 알고리즘을 이용하여 입력 음성의 SNR 값을 향상시킴으로써, 음성 엔진의 음성 인식률 및 인식 효과를 향상시켰다. 추가로, 잡음 감소 알고리즘을 이용하여 음성 품질을 향상시킬 때, 음성 인식에 앞서 세트 파라미터를 이용하여 음성 인식 엔진이 잡음 감소 모듈을 활성화할 것인지를 결정하는 방식 또한 종래에 있었다. 음성 레벨 향상 과정에서는, SNR 값이 음성 레벨 향상 방식에 따라 향상된다.

종래에 이용되었던 상술한 2개의 방법에서는, 음성 인식률이 잡음이 강한 환경에서 약간 향상될 수 있지만, 상대적으로 잡음이 낮은 환경이나 조용한 조건에서는, 주변 잡음을 감소시키기 위해, 음성 파형을 감소시키기 위한 방법을 이용하여 잡음 감소 처리가 수행된다. 이 방법에서는, 원 음성이 손상되고, 이로써 음성 인식률이 떨어진다. 그리고 음성 레벨 향상 방식에서는, 원 음성의 질이 또한 손상되고 음성 레벨 향상 방식을 이용한 음성 인식률 향상 효과가 원 음성의 질의 파괴보다 더 낮다.

여기에서, 다양한 환경에서 음성 인식 효과를 향상시킬 수 있고 다양한 환경에서 안정적인 음성 인식 및 우수한 사용자 경험을 보장할 수 있는 음성 인식 방식이 절박하게 필요하다는 것을 알게 된다.

이러한 관점에서, 본 발명의 실시예의 목적은, 음성 인식 방식이 다양한 환경에서 안정적인 음성 인식과 우수한 사용자 경험을 제공할 수 없다는 종래의 문제점을 해결하는 음성 인식 방법, 음성 인식 장치 및 전자 장치를 제공하는 것이다.

상기한 목적을 달성하기 위해, 본 발명의 실시예는 다음과 같은 기술적 해결수단을 제공한다.

본 발명의 실시예의 제1 측면은 음성 인식 방법을 제공하며, 이 방법은,

입력 음성을 분할함으로써 검출 음성 및 인식할 음성을 획득하는 단계 - 상기 검출 음성에 포함된 음성 데이터는 길이는 상기 인식할 음성에 포함된 음성 데이터의 길이보다 작음 -;

잡음 유형 검출 엔진에 의해, 상기 획득된 검출 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 비교한 후, 상기 검출 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 검출 환경 유형으로서 선택하는 단계 - 상기 샘플 환경 유형은 조용한 환경 및 시끄러운 환경을 포함함 -;

저장 영역을 검출하고, 상기 저장 영역에 인식 가능한 이전 환경 유형이 있는 경우, 상기 검출 환경 유형 및 상기 이전 환경 유형 간의 비교의 결과에 따라 음성 정정 지시를 출력하는 단계 - 상기 이전 환경 유형은 조용한 환경 또는 시끄러운 환경임 -;

음성 엔진에 의해, 상기 음성 정정 지시에 따라 상기 인식할 음성에 대한 정정을 제어하고, 초기 인식 결과를 출력하는 단계;

상기 잡음 유형 검출 엔진에 의해, 상기 수신된 인식할 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 개별로 비교하고, 상기 인식할 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 현재 환경 유형으로서 선택하는 단계;

상기 현재 환경 유형을 상기 저장 영역에 저장하고, 미리 설정된 기간이 경과한 후 상기 현재 환경 유형을 폐기하는 단계; 및

상기 현재 환경 유형에 따라 상기 초기 인식 결과의 신뢰값을 조정한 후 최종 인식 결과를 출력하는 단계

를 포함한다.

본 발명의 실시예의 제2 측면은 음성 인식 장치를 제공하며, 이 장치는, 프로세서, 잡음 유형 검출 엔진, 및 음성 엔진을 포함하고;

상기 프로세서는,

입력 음성을 샘플링하는 것에 의해 검출 음성과 인식할 음성을 획득하고, 상기 검출 음성과 상기 인식할 음성을 상기 잡음 유형 검출 엔진 및 상기 음성 엔진에 동시에 입력하며, 저장 영역을 검출하고, 상기 저장 영역에 인식 가능한 이전 환경 유형이 있는 경우, 상기 잡음 유형 검출 엔진에 의해 출력된 검출 환경 유형과 상기 이전 환경 유형 간의 비교의 결과에 따라 음성 정정 지시를 출력하고, 상기 음성 엔진에 의해 출력된 초기 인식 결과의 신뢰값이 상기 잡음 유형 검출 엔진에 의해 출력된 현재 환경 유형에 따라 조정된 후의 최종 인식 결과를 출력하도록 구성되고;

상기 검출 음성에 포함된 음성 데이터의 길이는 상기 인식할 음성에 포함된 음성 데이터의 길이보다 작고, 상기 이전 환경 유형은 조용한 환경 또는 시끄러운 환경이고;

상기 잡음 유형 검출 엔진은,

상기 프로세서에 의해 출력된 상기 검출 음성 및 상기 인식할 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 개별로 비교하고, 상기 검출 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 검출 환경 유형으로서 선택하고, 상기 인식할 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 현재 환경 유형으로서 선택하며, 상기 현재 환경 유형을 저장 영역에 저장하고, 미리 설정된 기간이 경과한 후에 상기 현재 환경 유형을 폐기하도록 구성되고;

상기 음성 엔진은, 상기 프로세서에 의해 출력된 상기 음성 정정 지시에 따라 상기 수신된 인식할 음성에 대한 정정을 제어하고, 초기 인식 결과를 출력하도록 구성된다.

본 발명의 실시예의 제3 측면은 전자 장치를 제공하며, 이 전자 장치는, 본 발명의 실시예의 제2 측면에 따른 음성 인식 장치, 음성 인식 장치에 연결된 음성 녹음 장치, 그리고 음성 녹음 장치에 연결된 마이크로폰을 포함한다.

상술한 기술적 해결 수단으로부터, 종래 기술에 대비되어, 본 발명의 실시예가 음성 인식 방법, 음성 인식 장치 및 전자 장치를 제공하는 것을 알 수 있다. 이 방법에서, 먼저 입력 음성이 분할되고, 그런 다음 분할에 의해 획득된 검출 음성을 이용하여 현재 검출 환경에 대해 결정을 수행하며, 이전에 기록된 환경 유형이 존재하면 현재 검출 환경 유형을 이전 환경 유형과 비교하고, 비교 결과에 따라 획득된 음성 정정 지시를 음성 엔진에 보내고, 음성 엔진은 음성 정정 지시를 이용하여 인식할 음성을 정정하여, 원 음성의 질이 잡음 처리 동안 손상되지 않으며 대응하는 초기 인식 결과가 출력되도록 하고, 분할에 의해 획득된 인식할 음성이 음성 엔진과 잡음 유형 검출 엔진에 동시에 입력되고, 잡음 유형 검출 엔진은 인식할 음성과 상이한 환경 하에서의 음성 훈련 샘플(voice training sample)을 이용하여 현재 환경 유형을 결정하며, 마지막으로, 초기 인식 결과의 신뢰도를 현재 환경 유형을 이용하여 조정함으로써 최종적으로 출력되는 음성 인식 결과의 인식 효과가 현재 환경에서 사용자에 대해 우수한 사용자 경험을 제공하는 것을 보장한다.

본 발명의 실시예 또는 종래 기술에서의 기술적 해결 수단을 보다 명확하게 기술하기 위해, 이하에서 간단하게 본 실시예 또는 종래 기술을 설명하기 위해 필요한 첨부 도면을 소개한다. 분명한 것은, 이하의 설명에서의 첨부 도면은 단지 본 발명의 실시예를 보여주는 것이고, 통상의 기술자라면 창작 노력 없이도 첨부 도면으로부터 다른 도면을 유추해 낼 수 있다.
도 1은, 본 발명의 실시예 1에 개시된 음성 인식 방법의 흐름도이다.
도 2는, 본 발명의 실시예 2에 개시된 음성 인식 방법의 흐름도이다.
도 3은, 본 발명의 실시예 2에 개시된 초기 환경 유형에 기초한 음성 정정 지시를 결정하는 흐름도이다.
도 4는, 본 발명의 실시예 3에 개시된 샘플 환경 유형을 결정하는 흐름도이다.
도 5는, 본 발명의 실시예 3에 개시된 음성 정정 지시를 획득하는 흐름도이다.
도 6은, 본 발명의 실시예 3에 개시된, 시간차 t, 유효 영향 지속시간 T, 및 가중치 간의 관계를 나타낸 곡선 그래프이다.
도 7은, 본 발명의 실시예 3에 개시된 현재 환경 유형을 결정하는 흐름도이다.
도 8은, 본 발명의 실시예 4에 개시된 음성 인식 장치의 개략적인 구조도이다.
도 9는, 본 발명의 실시예 4에 개시된 전자 장치의 개략적인 구조도이다.

참고 및 명확성을 위해, 이하에서 사용되는 기술적 용어의 표기, 약자 또는 축약은 다음과 같다.

SNR: Signal to Noise Ration (신호대잡음비)

SSE: Speech Signal Enhancement (스피치 신호 향상)

NTD: Noise Type Detect (잡음 유형 검출)

dB: Decibel (데시벨)

이하에서는 첨부 도면을 참조하여 본 발명의 실시예에서의 기술적 해결 수단을 명확하고 전반적으로 설명한다. 분명한 것은, 여기 설명하는 실시예는 단지 본 발명의 모든 실시예가 아니라 일부에 불과한 것이다. 통상의 기술자가 본 발명의 실시예에 기초하여 창작 노력 없이 얻는 다른 모든 실시예는 본 발명의 보호 범위 내에 포함되어야 한다.

배경 기술로부터, 상대적으로 조용한 환경에서, 종래 기술에서는 원 음성이 잡음 감소 방식 및 음성 레벨 향상 방식 모두에서 손상된다는 것을 알았다. 즉, 종래에는, 음성 인식률을 향상시키기 위하거나 음성 인식 효과를 향상시키기 위해 사용되는 방법이 다양한 환경에서 동일한 효과를 나타내지 못한다. 상대적으로 잡음이 높은 경우에만, 사용자에게 우수한 음성 인식 경험을 제공할 수 있고, 조용한 환경에서는 사용자는 더 열악한 음성 인식 경험을 경험하게 된다.

따라서, 본 발명의 실시예는, 현재 입력 음성의 환경과 이전 입력 음성의 환경을 결정함으로써 현재 입력 음성에 대해 관련 처리를 수행할지 여부에 대한 지시가 획득되는, 음성 인식 방법을 제공한다. 따라서, 현재 입력 음성은 그 결정의 결과에 따라 처리되고, 이로써 다양한 환경에서 그것이 수행될 수 있으며, 현재 입력 음성의 원 음성은 손상되지 않고 현재 입력 음성의 높은 인식률 및 인식 효과가 보장된다. 이러한 방식으로, 다양한 환경에서 음성 인식에 대해 적응적인 조정이 수행되는 것이 보장되고, 이로써 사용자는 우수한 음성 애플리케이션 경험을 얻을 수 있다.

실시예 1

도 1에 도시된 바와 같이, 도 1은 본 발명의 실시예 1에 개시된 음성 인식 방법의 흐름도이고, 이 방법은 다음 단계들을 포함한다.

단계 S101: 입력 음성을 분할하는 것에 의해 검출 음성과 인식할 음성을 획득한다.

단계 S101에서, 프로세서는 현재 입력 음성을 분할하고, 현재 입력 음성은 2개 부분으로 분할된다. 하나의 부분은 검출 음성으로서 사용되고, 다른 부분은 인식할 음성으로서 사용된다. 검출 음성으로서, 검출 음성은 단지 현재 입력 음성에서 오디오 데이터의 작은 부분일 뿐이다. 검출 음성의 길이는 인식할 음성의 길이보다 작다. 즉, 검출 음성에 포함된 음성 데이터의 길이는 인식할 음성에 포함된 음성 데이터의 길이보다 작다.

예컨대, 만일 현재 입력 음성이 100개 프레임이라면, 처음 5개 프레임의 길이를 가진 음성 데이터가 검출 음성으로서 선택될 수 있고, 남은 95개 프레임의 길이를 가진 음성 데이터는 인식할 음성으로 사용된다. 명백히, 음성으로부터 선택된 10-15개 프레임의 데이터가 요건에 따라 검출 음성으로서 사용될 수도 있고, 검출 음성의 비율은 요건에 따라 설정될 수 있다. 설정 전제는, 검출 음성의 길이가 후속하는 전체 입력 음성 인식에 영향을 주지 않는다는 것이다.

추가로, 검출 음성을 선택하는 과정에서, 가장 편리한 방식은 다음과 같다. 미리 설정된 길이의 음성이 전체 음성의 시점으로부터 직접 검출 음성으로서 선택된다. 그러나 본 발명의 본 실시예가 이러한 방식에 한정되는 것은 아니다. 현재 입력 음성에 속하는 오디오 데이터의 작은 부분이 전체 음성의 종점으로부터 선택하는 방식으로 검출 음성으로서 획득될 수도 있다.

단계 S102: 상이한 샘플 환경에서의 음성 훈련 샘플과 획득된 검출 음성을 비교한 후, NTD 엔진은 검출 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 샘플 환경 유형으로서 선택한다.

단계 S102에서, 검출 음성을 획득한 후, NTD 엔진은 검출 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 비교한다. 상이한 샘플 환경에서의 음성 훈련 샘플이란 다양한 환경에서 음성 파일을 실제로 녹음하는 훈련에 의해 얻어진 결과를 말한다. 다양한 환경에서 음성 파일을 실제로 녹음하는 훈령의 과정은 다음과 같다. 조용한 환경에서, NTD 엔진이 조용한 환경에서 녹음된 음성 샘플 파일의 잡음 유형 검출 결과(noise type detection result) 및 음성 샘플 파일의 인식에 대한 조용한 환경의 유효 영향 지속시간(effective impact duration)을 계산한다. 시끄러운 환경에서, NTD 엔진이 시끄러운 환경에서 녹음 음성 샘플 파일의 잡음 유형 검출 결과 및 음성 샘플 파일의 인식에 대한 시끄러운 환경의 유효 영향 지속시간을 계산한다.

즉, 상이한 샘플 환경에서의 음성 훈련 샘플의 결과는, 현재 샘플링 환경을 결정하기 위한 기초로서 사용된다. 비교에 의해, NTD 엔진이 획득된 검출 음성을 계산한 후에 얻어진 결과가 샘플 환경에서의 음성 훈련 샘플의 결과에 가까운 경우, 검출 음성이 입력된 환경이 그 샘플 환경과 같다고 간주할 수 있다. 이것에 기초하여, 본 발명의 본 실시예에서는, 검출 음성에 대응하는 결과와 음성 훈련 샘플의 결과 간의 차이를 비교하고, 최소차를 가진 음성 샘플에 대응하는 환경 유형을 검출 음성이 입력된 환경으로서, 즉 후속하여 사용하기 위한 검출 환경 유형으로서 선택한다.

그러나 본 발명의 본 실시예는, 가장 근접한 결과를 가진 환경 유형을 선택하기 위해 차이 비교 방식을 이용하는 것에 한정되는 것은 아니다. 검출 음성의 계산 결과에 무한으로 근접한 음성 훈련 샘플 결과에 대응하는 샘플 환경이 검출 음성이 입력된 환경이라는 것을 보장할 수 있다면, 다른 방법으로 환경 유형을 선택할 수도 있다.

샘플 환경은, 조용한 환경과 시끄러운 환경을 포함한다. 시끄러운 환경은, 차량 탑승 저잡음 환경, 차량 탑승 고잡음 환경, 보통 길가 환경, 번잡한 길가 환경 및 소란스러운 환경을 포함한다.

단계 S103: 저장 영역을 검출하고, 저장 영역에 인식 가능한 이전 환경 유형이 존재하면, 검출 환경 유형과 이전 환경 유형 간의 비교 결과에 따른 음성 정정 지시를 출력한다.

단계 S103에서, 환경 유형은, 조용한 환경 또는 시끄러운 환경을 포함하고, 구체적인 환경 유형은 이전에 수행된 음성 인식과 관련된다. 프로세서는 NTD 엔진을 검출함으로써 인식 가능한 이전 환경 유형을 획득한다. 즉, 이전에 수행된 음성 인식 시에 저장된 환경 유형이 존재한다. 프로세서는 NTD 엔진으로부터 획득된 검출 환경 유형을 이전 환경 유형과 비교하고, 이전 환경 유형이 현재 검출 환경에 미치는 영향에 따라 상이한 음성 정정 지시를 개별로 생성하여, 후속하여 음성 엔진이 음성 정정 지시를 이용하여 인식할 음성에 대해 대응하는 정정을 수행하도록 한다.

음성 정정 지시는 주로 음성 엔진으로 하여금 음성 품질 향상을 활성화하도록 하는 명령 및 음성 엔진으로 하여금 잡음 감소 처리를 비활성화하도록 하는 명령을 포함한다.

단계 S104: 음성 엔진은 음성 정정 지시에 따라 인식할 음성에 대한 정정을 제어하고, 초기 인식 결과를 출력한다.

단계 S104에서는, 음성 엔진이 프로세서에 의해 전송된 인식할 음성과 음성 정정 지시를 수신하고, 음성 정정 지시를 이용하여 인식할 음성에 대한 정정을 제어하여, 주처리를 위한 초기 인식 결과를 출력한다.

인식할 음성의 길이는 원 입력 음성을 인식하기 위한 요건을 충족하고, 음성 엔진에 의해 음성 정정 지시 및 인식할 음성을 수신하는 시간은 프로세서가 음성 정정 지시 및 인식할 음성을 전송하는 시간에 의존한다.

단계 S104를 수행하는 것에 의해, 검출 환경 유형 및 이전 환경 유형에 대한 결정이 수행된 후 단계 S103에 따라 출력된 음성 정정 지시가 인식할 음성을 처리하기 위해 사용된다. 이전 환경 유형 및 검출 환경 유형 양측의 인식할 음성에 대한 영향을 고려하여, 환경을 고려하지 않고 입력 음성이 직접 처리되는 종래 기술에서 원 음성의 손상이 발생하는 것이 인식할 음성을 처리하는 과정에서 감소된다.

즉, 본 발명의 본 실시예에 개시된 단계 S104 및 S103가 수행된 후에, 음성 인식률은 원 음성의 품질을 손상하지 않고 상이한 환경에서 향상될 수 있다. 인식률은 인식 결과의 효과를 평가하기 위한 측정값이다. 원 음성의 품질을 손상하지 않는 방식을 사용하여 인식률을 높이고, 이것은, 초기 인식 결과가 후속적으로 처리될 때 최종 음성 인식의 유효성이 보장될 수 있다는 것을 보장한다.

단계 S105: NTD 엔진은 수신된 인식할 음성과 상이한 샘플 환경에서의 음성 훈련 샘플을 개별로 비교하고, 인식할 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 현재 환경 유형으로 선택하고, 현재 환경 유형을 저장 영역에 저장하며 미리 설정된 기간이 경과한 후에 현재 환경 유형을 폐기한다. 단계 S105에서, NTD 엔진이 수신된 인식할 음성과 상이한 샘플 환경에서의 음성 훈련 샘플을 개별로 비교하는 원리와 과정은, NTD 엔진이, 단계 S103에서, 검출 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 비교를 수행하는 원리 및 과정과 동일하다. 단계 S103을 참조할 수 있으므로 상세한 것을 다시 설명하는 것은 하지 않는다.

비교 과정에서, 음성 훈련 샘플에 대응하는 환경 유형은 현재 환경 유형이다. 이 경우, 현재 환경 유형 및 인식할 음성에 대한 현재 환경 유형의 유효 영향 지속시간과 같은 다양한 유형의 정보가 저장된다. 저장 과정에서는, 현재 저장 영역이 이전 환경 유형 및 이전 환경 유형에 관한 정보와 같은 구 정보를 저장한 경우, 이 구 정보는 현재 결정된 현재 환경 유형 및 현재 결정된 현재 환경 유형에 관한 정보로 교체되고, 저장 과정에서, 현재 저장 영역이 어떤 정보도 가지고 있지 않고 비어 있는 경우, 현재 결정된 환경 유형 및 현재 결정된 환경 유형에 관한 정보가 바로 저장되고, 현재 저장된 정보는 미리 설정된 저장 기간 후에 폐기된다.

미리 설정된 저장 기간은 상이한 요건에 따라 설정될 수 있다. 일반적으로, 미리 설정된 저장 기간이 다음번 음성 입력의 인식에 영향을 줄 것인지 여부가 미리 설정된 저장 기간을 설정하기 위해 고려되어야 한다. 예컨대, 현재 저장된 환경 유형은 다음번 음성 입력의 인식을 위해 이전 환경 유형으로서 사용되고, 단계 S103을 참조할 수 있다. 더 바람직한 방식으로서, 미리 설정된 저장 기간은 인식할 음성에 대한 상이한 환경 유형의 유효 영향 지속시간에 따라 설정될 수 있다. 미리 설정된 저장 기간의 구체적인 길이는 인식할 음성에 대한 현재 저장된 환경 유형의 유효 영향 지속시간의 길이와 같을 수 있고, 또한 그 유효 영향 지속시간보다 더 길 수도 있고, 또 일반적으로 유효 영향 지속시간보다 더 짧지는 않다. 현재 환경 유형이 조용한 환경인 경우의 미리 설정된 저장 기간은 현재 환경 유형이 시끄러운 환경인 경우의 미리 설정된 저장 기간보다 더 길다.

상술한 단계 S104 및 단계 S105에서 수신된 인식할 음성이 동시에 프로세서에 의해 NTD 엔진과 음성 엔진에 입력된다. 단계 S104 및 S105는 단지 본 발명의 실시예에서 기술적 해결 수단을 후술하는 과정에서 명백하게 인용하기 위해 사용될 뿐이고, 단계 S104 및 S105를 수행하기 위한 순서에 대해 한정이 주어지는 것은 아니다. 단계 S104 및 S105의 과정을 수행하는 것은 순서가 없다. 단계 S104 및 S105가 동시에 수행될 수도 있고, 단계 S104 및 S105가 동시에 수행되지 않을 수도 있다.

단계 S106: 초기 인식 결과의 신뢰값이 현재 환경 유형에 따라 조정된 후에 최종 인식 결과를 출력한다.

단계 S106에서는, 프로세스가 NTD 엔진에 저장된 현재 환경 유형에 따라 음성 엔진이 출력한 초기 인식 결과의 신뢰값을 조정한다. 신뢰값은 인식 결과의 신뢰도를 평가하는 측정값이다. 유효성을 가진 초기 인식 결과가, 음성 인식률이 단계 S104를 수행함으로써 향상된 후에 출력되고, 또한, 최종 음성 인식 결과는, 초기 인식 별과의 신뢰값이 단계 S106을 수행함으로써 증가된 후에 출력된다.

본 발명의 실시예 1에 개시된 음성 인식 방법에 따르면, 현재 입력 음성의 검출 환경 유형 및 인식 가능한 이전 환경 유형의 협력하에서, 인식할 음성을 정정할지 여부를 음성 엔진에 지시하기 위해 사용되는 음성 정정 지시가 제공되고, 이로써 높은 인식률로 초기 인식 결과가 출력되는 것에 대한 유효성을 보장할 수 있다. 그런 다음, 초기 인식 결과의 신뢰도가 NTD 엔진의 계산 결과에 따라 획득되는 현재 환경 유형에 따라 조정됨으로써 현재 입력 음성에 대한 높은 인식률 및 인식 효과를 가진 최종 인식 결과를 획득할 수 있다. 그러므로 다양한 환경에서, 적응적인 조정이 음성 인식에 대해 수행될 수 있고, 이로써 사용자는 우수한 음성 애플리케이션 경험을 획득할 수 있다.

실시예 2

도 2에 도시된 바와 같이, 도 2는 본 발명의 실시예 2에 개시된 음성 인식 방법의 흐름도이다. 이 방법은 다음 단계를 포함한다.

단계 S101: 입력 음성을 샘플링하는 것에 의해 검출 음성과 인식할 음성을 획득한다.

단계 S102: 획득된 검출 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 비교한 후, NTD 엔진이 검출 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 검출 환경 유형으로서 선택한다.

단계 S107: NTD 엔진에 인식 가능한 이전 환경 유형이 있는지 여부를 검출하고, NTD 엔진에 인식 가능한 이전 환경 유형이 있은 경우, 단계 S103을 수행하고, NTD 엔진에 인식 가능한 이전 환경 유형이 없는 경우 단계 S108을 수행한다.

단계 S107에서, 프로세서는 인식 가능한 이전 환경 유형이 NTD 엔진에 존재하는지 검출하고, 이전 환경 유형의 존재가 긴 시간 동안 인식되지 않으면, 이전 환경 유형이 현재 음성 인식에 영향을 주지 않는다는 것을 나타내고, 새로운 음성이 입력된 때, 초기 환경 유형이 단계 S108이 수행되는 때의 조건을 결정하는 백업으로서 사용된다.

단계 S103: 인식 가능한 이전 환경 유형이 존재하면, 검출 환경 유형 및 이전 환경 유형에 따라 결정을 수행하고 음성 정정 지시를 출력한다.

단계 S108: 이전 환경 유형이 인식되지 않으면, 초기 환경 유형을 획득하고, 초기 환경 유형 및 검출 환경 유형에 따라 결정을 수행하고, 음성 정정 지시를 출력한다.

단계 S104: 음성 엔진이 음성 정정 지시에 따라 인식할 음성에 대해 정정을 제어하고 초기 인식 결과를 출력한다.

단계 S105: 수신된 인식할 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 개별로 비교하고, 인식할 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 현재 환경 유형으로서 선택하고, 현재 환경 유형을 저장 영역에 저장하고 미리 설정된 기간이 경과한 후에 현재 환경 유형을 폐기한다.

단계 S106: 현재 환경 유형에 따라 초기 인식 결과의 신뢰값을 조정한 후 최종 인식 결과를 출력한다.

상술한 도 2에 도시된 단계 S101 내지 S106을 수행하는 원리 및 과정은 도 1에 도시된 단계 S101 내지 S106을 수행하는 원리 및 과정과 동일하므로, 상세한 것은 반복하여 기술하지 않는다. 단계 S104에서의 음성 정정 지시는 또한 단계 S108을 수행함으로써 출력되는 음성 정정 지시일 수도 있지만, 음성 정정 지시의 의미는 단계 S103을 수행함으로써 출력되는 음성 정정 지시의 의미와 동일하다. 음성 정정 지시는 주로 음성 엔진으로 하여금 음성 품질 향상을 활성화하도록 하는 지시 및 음성 엔진으로 하여금 잡음 감소 처리를 비활성화하도록 하는 지시를 포함한다. 음성 정정 지시는 검출 환경 유형 및 초기 환경 유형의 협력하에서 생성된다.

단계 S108에서 언급된 초기 환경 유형은 미리 설정되고, 초기 환경 유형은 백업으로서 사용된다. 이전 환경 유형이 존재하지 않는 경우, 초기 환경 유형이 호출된다. 일반적으로 초기 환경 유형은 잡음 환경이고, 보다 구체적으로는, 시끄러운 환경이다. 분명한 것은, 본 발명의 본 실시예에서 초기 환경 유형은 여기에 한정되지 않으므로, 초기 환경 유형은 조용한 환경으로 설정될 수도 있다.

초기 환경 유형 및 검출 환경 유형에 따라 결정을 수행하고 음성 정정 지시를 출력하는 과정은 도 3에 도시되어 있고, 주로 다음 단계를 포함한다.

단계 S301: 초기 환경 유형이 검출 환경 유형과 동일한지 여부를 결정하고, 만일 초기 환경 유형이 검출 환경 유형과 동일하면, 단계 S302를 수행하고, 초기 환경 유형이 검출 환경 유형과 동일하지 않으면, 단계 S303을 수행한다.

단계 S302: 초기 환경 유형 및 검출 환경 유형 모두가 시끄러운 환경인 경우, 음성 품질 향상을 위해 사용되는 음성 정정 지시를 출력하고, 초기 환경 유형 및 검출 환경 유형이 모두 조용한 환경인 경우, 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시를 출력한다.

단계 S302에서, 상이한 환경에 따라 상이한 제어 기능을 가진 음성 정정 지시가 출력된다.

단계 S303: 초기 환경 유형이 시끄러운 환경인 경우, 음성 품질 향상을 위해 사용되는 음성 정정 지시를 출력하고, 초기 환경 유형이 조용한 환경인 경우, 잡음 감소 처리를 비활성화하기 위해 사용되는 음성 정정 지시를 출력한다.

단계 S303에서, 초기 환경 유형이 검출 환경 유형과 상이한 경우, 출력 음성 정정 지시의 유형은 디폴트 초기 환경 유형에 따라 결정된다.

도 2에 관한 설명을 참조하면, 음성 품질 향상을 위해 사용되거나 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시가 단계 S302 또는 S303이 수행된 후에 출력된다. 음성 품질 향상을 위해 사용되는 음성 정정 지시가 음성 엔진에 전송된 후에, 단계 S104가 수행된다. 음성 정정 지시에 기초하여, 음성 엔진은 먼저 음성 품질 향상을 인식할 음성에 대해 수행하고, 그런 다음 잡음 감소 처리를 수행한다. 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시가 음성 엔진에 전송된 후, 단계 S104가 수행된다. 음성 정정 지시에 기초하여, 음성 엔진은 인식할 음성에 대해 음성 엔진에 의해 수행되는 잡음 감소 처리를 수행하는 과정을 비활성화시킨다.

본 발명의 본 실시예에서, 초기 인식의 시기에 또는 이전 잡음 유형이 이전 잡음 유형의 저장 시간이 미리 설정된 저장 기간보다 더 길어서 폐기된 때, 초기 환경 유형과 검출 환경 유형의 협력에 기초하여, 음성 품질 향상을 위해 사용되는 음성 정정 지시 또는 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시가 출력됨으로써, 음성 엔진은 음성 정정 지시에 따라 인식할 음성에 대해 대응하는 처리를 수행할 수 있다. 그러므로 원 음성에 대한 손상이 없는 경우에도 높은 인식률이 얻어지는 것을 보장할 수 있고, NTD 엔진이 현재 환경 유형에 따라 음성 엔진에 의해 출력되는 초기 인식 결과의 신뢰값에 대해 적응적인 조정을 수행하기 때문에, 최종적으로 출력되는 음성 인식 결과가 높은 신뢰성을 가지는 것을 보장할 수 있다. 따라서 다양한 환경에서 음성 인식을 적응적으로 조정하는 목적이 달성되고, 사용자가 다양한 환경에서 우수한 사용자 경험을 얻을 수 있는 것이 담보된다.

실시예 3

전술한 실시예 1 및/또는 실시예 2에 기초하여, 도 1 및 도 2에 도시된 단계 S102에 대해, NTD 엔진이, 획득된 검출 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 비교한 후, 검출 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 검출 환경 유형으로서 선택하는데, 그 구체적인 수행 과정이 도 4에 도시되며, 주로 다음 단계를 포함한다.

단계 S1021: NTD 엔진이 수신된 검출 음성을 에너지 레벨에 따라 검출 음성 프레임 파트와 검출 잡음 프레임 파트로 분할한다.

단계 S1022: 검출 음성 프레임 파트의 에너지 레벨과 검출 잡음 프레임 파트의 에너지 레벨을 각각 계산하고 대응하는 검출 음성 레벨 및 검출 잡음 레벨을 획득한다.

단계 S1023: 검출 음성 레벨 및 검출 잡음 레벨에 따라 검출 음성에 대응하는 검출 SNR을 획득한다. 검출 SNR=검출 음성 레벨=검출 잡음 레벨.

단계 S1024: 검출 음성 레벨, 검출 잡음 레벨, 및 검출 SNR을 상이한 샘플 환경에서의 음성 훈련 샘플의 음성 훈련 레벨, 잡음 훈련 레벨, 및 훈련 SNR과 각각 비교한다.

단계 S1025: 검출 음성 레벨과 최소차를 가진 음성 훈련 레벨, 검출 잡음 레벨과 최소차를 가진 잡음 훈련 레벨, 및 검출 SNR과 최소차를 가진 훈련 SNR에 대응하는 샘플 환경이 검출 환경 유형인 것으로 결정한다.

단계 S1024에서, 다양한 환경에서 실제로 녹음된 음성 파일을 훈련한 후, NTD 엔진 계산에 기초하여 획득되는, 다양한 환경에서 훈련되는 각 음성 훈련 샘플의 음성 훈련 레벨, 잡음 훈련 레벨, 및 훈련 SNR이 획득된다. 그런 다음, 검출 음성 레벨, 검출 잡음 레벨 및 검출 SNR이, 상이한 샘플 환경에서의 음성 훈련 샘플의 음성 훈련 레벨, 잡음 훈련 레벨 및 훈련 SNR과 각각 비교된다.

음성 훈련 샘플이 상이한 샘플 환경에서 훈련되는 경우, 획득되는 훈련 값에 더하여, 음성 훈련 샘플에 대한 상이한 샘플 환경의 유효 영향 지속시간(T)이 획득된다.

단계 S1024에서의 비교에 기초하여, 단계 S1025가, 검출 음성 레벨과 최소차를 가진 음성 훈련 레벨, 검출 잡음 레벨과 최소차를 가진 잡음 훈련 레벨, 및 검출 SNR과 최소차를 가진 훈련 SNR에 대응하는 샘플 환경이 검출 환경 유형인 것으로 결정하기 위해 수행된다. 즉, 훈련 중에 상이한 샘플 환경에서 어느 샘플 환경이 현재 환경에 가장 가까운지가 결정되고, 현재 환경에 가장 가까운 샘플 환경이 검출 환경 유형으로서 선택된다. 설명을 위해 예시를 이용한다.

2개의 샘플 환경이 있다. 즉, 조용한 환경과 시끄러운 환경이다. 조용한 환경인 경우, 샘플 SNR은 15dB이고, 잡음 샘플 레벨은 -25dB이고, 음성 샘플 레벨은 10dB이다. 시끄러운 환경의 경우, 샘플 SNR은 10dB이고, 잡음 샘플 레벨은 -16dB이고, 음성 샘플 레벨은 10dB이다. 검출 음성이 NTD 엔진에 의해 계산된 후, 검출 음성의 검출 SNR, 검출 잡음 레벨, 및 검출 음성 레벨이 획득되고, 이것은 각각 14dB, -23dB 및 9dB이다. 조용한 환경 및 시끄러운 환경에서의 동일한 유형의 훈련 값과 비교하는 것에 의해, 15dB의 샘플 SNR, -25dB의 잡음 샘플 레벨, 그리고 10dB의 음성 샘플 레벨이 가장 가깝다는 것을 알게 된다. 따라서 15dB의 샘플 SNR, -25dB의 잡음 샘플 레벨, 그리고 10dB의 음성 샘플 레벨에 대응하는 조용한 환경이 검출 환경 유형인 것으로 결정된다.

계산 결과를 검출 음성의 훈련 결과와 비교하는 과정에 따라, 현재 음성을 입력하는 시점에서의 환경 유형이 정확하게 획득될 수 있다.

유사하게, 실시예 1 및/또는 실시예 2에 기초하여, 도 1 및 도 2에서 도시된 단계 S103의 경우, 인식 가능한 이전 환경 유형이 존재하는 경우, 검출 환경 유형 및 이전 환경 유형에 따라 결정을 수행하고, 음성 정정 지시를 출력한다. 단계 S103의 구체적인 수행 과정이 도 5에 도시되고, 주로 다음 단계를 포함한다.

단계 S1031: 이전 환경 유형, 그리고 입력 음성에 대한 이전 환경 유형의 유효 영향 지속시간(T)를 획득한다.

단계 S1031에서, 유효 영향 지속시간(T)의 의미는 도 4에 도시된 단계 S1024에서의 유효 영향 지속시간(T)의 의미와 동일하다. 둘 다 입력 음성에 대한 그들의 대응하는 환경 유형의 영향의 지속시간을 의미한다.

이론적으로, 유효 영향 지속시간(T)은 각 환경 유형의 시간 감쇠 범위(time decaying range)이다. 예컨대, 조용한 환경의 범위는 20초이고, 시끄러운 환경의 범위는 10초이고, 길가 환경(보통 길가 환경)의 범위는 15초이다. 이 범위는 본 발명의 본 실시예에서 한정되는 것은 아니고, 그 값은 실제 사용에서 녹음된 음성 파일에 따른 분석에 의해 획득된 통계치일 수 있다.

단계 S1032: 검출 음성을 입력하는 시간과 이전에 음성을 입력한 시간의 시간차(t), 그리고 검출 환경 유형에 대한 이전 환경 유형의 영향값(w(t))을 계산한다.

단계 S1032에서, 현재 검출 음성을 입력하는 시간은 현재 음성을 입력하는 시간으로 간주되고, 현재 음성을 입력하는 시간과 이전에 음성을 입력한 시간 간의 시간 간격, 즉 시간차(t)가 계산된다. 검출 환경 유형에 대한 이전 환경 유형의 영향값(w(t))은, 시간(t)에 따라 감쇠하는 절단(truncation) 함수이고, w(t)의 값은 상이한 샘플 환경에서 음성 훈련 샘플의 샘플 데이터를 훈련하는 것에 의해 획득되고, t와 T의 값은 양의 정수이다.

w(t)를 이용함으로써, 두 번 음성을 입력하는 시간 간의 시간 간격이 짧으면, 두 번의 음성 입력이 동일한 환경에서 이루어졌을 가능성이 높고, 이전 환경 유형의 결정이 현재 환경 유형의 결정에 큰 영향을 가지는 것으로 생각될 수 있고, 시간 간격이 길면, 이전 환경 유형의 결정이 현재 환경 유형의 결정에 주는 영향은 작거나 없는 것으로 생각될 수 있다.

단계 S1033: 이전 환경 유형 및 검출 환경 유형 간의 균형 관계를 결정한다.

단계 S1034: 이전 환경 유형 및 검출 환경 유형 모두가 시끄러운 환경인 경우, 음성 품질 향상을 위해 사용되는 음성 정정 지시를 출력한다.

단계 S1035: 이전 환경 유형 및 검출 환경 유형 모두가 조용한 환경인 경우, 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시를 출력한다.

단계 S1036: 이전 환경 유형은 시끄러운 환경이고 검출 환경 유형은 조용한 환경이며, w(t)>=0.5인 경우, 음성 품질 향상을 위해 사용되는 음성 정정 지시를 출력한다.

단계 S1037: 이전 환경 유형이 시끄러운 환경이고 검출 환경 유형은 조용한 환경이며, w(t)<0.5인 경우, 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시를 출력한다.

단계 S1038: w(t)>T인 경우, 검출 환경 유형이 조용한 환경인 경우에는 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시를 출력하고, 검출 환경 유형이 시끄러운 환경인 경우에는 음성 품질 향상을 위해 사용되는 음성 정정 지시를 출력한다.

단계 S1032에 기초하여, 이전 환경 유형과 검출 환경 유형 간의 균형 관계가 단계 S1033에서 결정된다. 상술한 단계 S1034 내지 S1038에서의 결정 결과에 따라 알 수 있는 것은, 이전 환경 유형이 검출 환경 유형과 동일한 경우, 그것은 음성 입력이 이루어지는 현재 환경이 변하지 않았고 현재 환경이 여전히 이전 환경 유형이라는 것을 나타낸다. 이전 환경 유형이 시끄러운 환경인 경우, 잡음 감소 처리가 여전히 수행될 필요가 있고 음성 품질 향상을 위해 사용되는 음성 정정 지시가 출력된다. 이전 환경 유형이 조용한 환경인 경우, 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시가 음성 인식에서 잡음 감소 처리의 영향을 피하기 위해 출력된다.

이전 환경 유형이 검출 환경 유형과 동일하지 않은 경우, 검출 환경 유형에 대한 이전 환경 유형의 영향값(w(t))을 참조하면서 이전 환경 유형 및 검출 환경 유형 간의 균형에 대해 결정이 수행되어야 한다.

w(t)는 시간(t)에 따라 감쇠하는 절단(truncation) 함수이고, 그 w(t)의 값은 상이한 샘플 환경에서의 음성 훈련 샘플의 샘플 데이터를 훈련시키는 것에 의해 획득되고, 구체적으로 다음과 같다.

w(t) = exp(-t*lamda), 여기서, t>T, w(t)=0이고, exp(*)는 밑이 e인 지수 함수이고, lamda는 무명 함수(anonymous function)이고, w(t)는 시간(t)에 따라 감쇠하며 이전 환경 유형이 오직 시간 범위 내에서만 기능한다는 것을 나타낸다.

도 6으로부터 알 수 있듯이, 두 번의 음성 입력을 수행하는 시간차(t) 및 w(t) 간의 관계는 하강추세의 곡선이다. 시간차(t)가 작아질수록, w(t)가 커지고, 현재 입력 음성에 대한 이전 환경 유형의 영향이 커진다. 시간차(t)가 커질수록 현재 입력 음성에 대한 이전 환경 유형의 영향이 더 작아진다. 도 6에 도시된 바와 같이, 무명 함수 lamda=0.1로 가정하면, t=0일 때, w(0)=1이고, 아날로그로 하면, w(1)=exp(0.1)~0.905; w(2)=0.819; w(3)=0.741; w(4)=0.670; w(5)=0.607; w(6)=0.549; 그리고 T=20이면 w(t)=0이고 여기서 t>20이다.

시간차 t>T인 경우, 즉, 시간차(t)가 유효 효과 지속시간을 초과한 경우, 이 경우, 현재 입력 음성은 이전 환경 유형이 존재하더라도 그 영향을 받지 않는다. 일반적으로, 이전 환경 유형의 저장 기간에 따라, 이전에 저장된 환경 유형이 폐기되어 있을 수도 있다.

앞서 설명한 감쇠 함수 w(t)=exp(-t*lamda)는 W(t) = exp(-(t/det)^2로 확장될 수 있다. 여기서, 감쇠 함수는 더 빠르게 감쇠한다. 실제 응용에서, 상이한 감쇠 함수가 상이한 상황에서 선택적으로 사용될 수 있다.

본 발명의 본 실시예에서 개시된, 단계 S1034 내지 S1038의 5개의 결과는 단지 이전 환경 유형이 시끄러운 환경으로서 사용된 경우 바람직한 내용으로 사용되었을 뿐, 본 발명의 본 실시예가 그것에 한정되는 것은 아니다. 이전 환경 유형이 조용한 환경인 경우, 상술한 설명으로부터, 출력될 음성 정정 지시의 유형은 이전 환경 유형과 검출 환경 유형 모두를 함께 이용하여 결정된다.

본 발명의 본 실시예에 제시된 음성 정정 지시를 출력하는 과정에 따르면, 설명을 위해 양자화된 공식이 사용되는데, 구체적으로는 다음과 같다. 조용한 환경의 양자화 값은 0이고, 시끄러운 환경의 양자화 값은 1이다. 이전 환경 유형과 검출 환경 유형 간의 균형 관계는 다음과 같다.

balance = noise environment*w(t)+quiet environment

만일 balance>0.5이면, 균형 관계가 1에 더 가깝다는 것으로 생각될 수 있는데, 이것은 다시 말해, 시끄러운 환경이라는 것이고, 따라서 음성 입력이 되고 있는 현재 환경은 시끄러운 환경이고, 음성 품질 향상을 위해 사용되는 음성 정정 지시가 출력된다.

balance<0.5이면, 균형 관계는 0에 더 가깝다는 것으로 생각될 수 있는데, 이것은 다시 말해, 조용한 환경이라는 것이고, 따라서 음성 입력이 되고 있는 현재 환경은 조용한 환경이고, 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시가 출력된다.

balance=0.5인 경우, 관성적인 논리 처리에 따라, 현재 환경은 이전 환경과 동일, 즉 이전 환경이 시끄러운 환경이면 현재 환경도 시끄러운 환경이고 음성 품질 향상을 위해 사용되는 음성 정정 지시가 출력되고; 이전 환경이 조용한 환경이면 현재 환경도 조용한 환경이고 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시가 출력된다.

도 6에 도시된 감쇠 함수와 상술한 양자화 공식의 설명을 참조하면, 단계 S1034에서의 결정 과정이 예시를 이용하여 설명된다.

조용한 환경의 유효 효과 지속시간이 20초이고 시끄러운 환경의 유효 효과 지속시간이 10초인 것으로 가정한다.

시간차(t)가 5초인 경우, 이전 환경 유형이 시끄러운 환경이면, T는 10초이고, w(t)는 0.8이므로, w(t)는 0.5보다 크다. 이것은 이전의 시끄러운 환경이 현재 입력 음성에 큰 영향을 준다는 것을 나타낸다. 현재 환경 유형이 시끄러운 환경에 속하는 것으로 결정되고, 이 경우, 음성 품질 향상을 위해 사용되는 음성 정정 지시가 출력된다.

시간차가 10초인 경우, 이전 환경 유형이 시끄러운 환경이면, 관성적 설정에 따라, T는 10초이고, w(t)는 0.5이므로, w(t)가 0.5와 같다. 현재 환경은 시끄러운 환경인 것으로 결정되고, 이 경우, 음성 품질 향상을 위해 사용되는 음성 정정 지시가 출력된다.

시간차가 20초인 경우, 이전 환경 유형이 시끄러운 환경이면, T는 10초이고, 이 경우 t>T이므로 w(t)는 0이다. 따라서 이전 환경 유형은 현재 음성 인식에 영향을 주지 않는다. 따라서 결정은, 본 발명의 실시예 2에 도시된 초기 환경 유형 및 검출 환경을 이용하여 수행된다. 상세하게는, 본 발명의 실시예 2에 기술된 내용을 참조할 수 있다.

이전 환경 유형이 조용한 환경이면, 관성적 설정에 따라, T는 20초이고, w(t)는 0.5이다. 현재 환경 유형은 조용한 환경에 속하는 것으로 결정되고, 이 경우, 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시가 출력된다.

실시예 1 및/또는 실시예 2에 기초하여, 도 1 및 도 2에 개시된 단계 S105에 대해, NTD 엔진은 수신된 인식할 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 비교하고, 인식할 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 현재 환경 유형으로서 선택하며, 미리 설정된 기간 후에 현재 환경 유형을 폐기한다. 단계 S105의 구체적인 수행 과정이 도 7에 도시되어 있으며, 주로 다음 단계를 포함한다.

단계 S1051; NTD 엔진이 수신된 인식할 음성의 음성 프레임 파트와 잡음 프레임 파트를 분석하여 인식할 음성의 잡음 레벨, 음성 레벨, 및 SNR을 획득한다.

단계 S1051에서, NTD 엔진은 획득된 인식할 음성을 에너지 레벨에 따라 분할하여 음성 프레임 파트와 잡음 프레임 파트를 획득한다. 분석 과정은 다음과 같다. 음성 프레임의 에너지 레벨과 잡음 프레임 파트의 에너지 레벨을 각각 계산하여 대응하는 음성 레벨 및 잡음 레벨을 획득하고, SNR은 음성 레벨과 잡음 레벨 간의 차와 같다는 것에 기초하여 결정된다.

단계 S1052: 인식할 음성의 잡음 레벨, 음성 레벨, 및 SNR을, 상이한 샘플 환경에서의 음성 훈련 샘플의 잡음 훈련 레벨, 음성 훈련 레벨 및 훈련 SNR과 각각 비교한다.

단계 S1053: 잡음 레벨과 최소차를 가진 잡음 훈련 레벨, 음성 레벨과 최소차를 가진 음성 훈련 레벨, 그리고 SNR과 최소차를 가진 훈련 SNR에 대응하는 샘플 환경 유형이 현재 환경 유형인 것으로 결정한다.

상술한 단계 S1051 내지 S1053의 과정을 수행하는 원리는 상술한 단계 S1021 내지 S1025의 과정을 수행하는 원리와 동일하고, 차이는 단지, 전자는 검출 음성에 기초한 처리이고 후자는 인식할 음성에 기초한 처리라는 점이다. 따라서, 구체적인 수행 과정에 대해서는, 상술한 단계 S1021 내지 S1025를 참조할 수 있다.

단계 S1054에서, 저장 과정에서, 이전 환경 유형 및 이전 환경 유형에 관한 정보와 같은 구 정보가 현재 저장 영역에 저장되어 있으면, 구 정보를 현재 결정된 환경 유형 및 현재 결정된 환경 유형에 관한 정보로 대체하고, 저장 과정에서, 현재 저장 영역이 아무런 정보도 없이 비어 있으면, 현재 결정된 환경 유형 및 현재 결정된 환경 유형에 관한 정보가 바로 저장되며, 현재 저장된 정보는 미리 설정된 저장 기간 후에 폐기된다.

미리 설정된 저장 기간은 상이한 요건에 따라 설정될 수 있다. 일반적으로, 미리 설정된 저장 기간이 다음번 음성 입력의 인식에 영향을 줄 것인지 여부가 미리 설정된 저장 기간을 설정하기 위해 고려되어야 한다. 예컨대, 현재 저장된 환경 유형은 다음번 음성 입력의 인식을 위해 이전 환경 유형으로서 사용된다. 더 바람직한 방식으로서, 미리 설정된 저장 기간은 인식할 음성에 대한 상이한 환경 유형의 유효 영향 지속시간에 따라 설정될 수 있다. 미리 설정된 저장 기간의 구체적인 길이는 인식할 음성에 대한 현재 저장된 환경 유형의 유효 영향 지속시간의 길이와 같을 수 있고, 또한 그 유효 영향 지속시간보다 더 길 수도 있고, 또 일반적으로 유효 영향 지속시간보다 더 짧지는 않다.

본 발명의 실시예 3에 개시된 음성 인식 방법에 따르면, 샘플 검출 유형과 이전 환경 유형의 협력하에서, 음성 품질 향상을 위한 음성 정정 지시 또는 잡음 감소 처리를 비활성화시키기 위한 음성 정정 지시가 입력되어, 음성 엔진이 인식할 음성에 대해 음성 정정 지시에 따라 대응하는 처리를 수행하도록 한다. 따라서, 원 음성에 손상을 주지 않으면서 높은 인식률을 얻을 수 있고, NTD 엔진 엔진은, 인식할 음성을 이용하여 계산되고 결정된 현재 환경 유형을 이용하여, 음성 엔진에 의해 출력된 초기 인식 결과의 신뢰값에 대해 적응적인 조정을 수행하며, 이로써 최종적으로 출력되는 음성 인식 결과가 높은 신뢰성을 가지는 것을 보장할 수 있다. 따라서, 다양한 환경에서 음성 인식을 적응적으로 조정하는 목적이 달성되고, 사용자가 다양한 환경에서 우수한 사용자 경험을 획득할 수 있는 것을 담보하다.

본 발명의 본 실시예에서 상세하게 개시되고 기술된 음성 인식 방법에 대해, 본 발명의 실시예는 또한 상술한 방법을 대응하여 수행하는 음성 인식 장치를 개시하며, 또한 그러한 음성 인식 장치를 가진 전자 장치를 개시하고, 이하에서 상세하게 그 구체적인 실시예를 설명한다.

실시예 4

도 8에 도시된 바와 같이, 도 8은 본 발명의 실시예 4에 개시된 음성 인식 장치의 개략 구조도이다. 이 장치는 주로, 프로세서(101), NTD 엔진(102), 및 음성 엔진(103)을 포함한다.

프로세서(101)는 입력 음성을 샘플링하여 검출 음성과 인식할 음성을 획득하고 검출 음성과 인식할 음성을 NTD 엔진(102)과 음성 엔진(103)에 동시에 입력하도록 구성되고, 또 저장 여역을 검출하여, 인식 가능한 이전 환경 유형이 저장 영역에 존재할 때 NTD 엔진(102)에 의해 출력된 검출 환경 유형과 이전 환경 유형 간의 비교 결과에 따라 음성 정정 지시를 출력하도록 구성되며, 또한 음성 엔진(103)에 의해 출력된 초기 인식 결과의 신뢰값이 NTD 엔진(102)에 의해 출력된 현재 환경 유형에 따라 조정된 후에 최종 인식 결과를 출력하도록 구성된다.

검출 음성에 포함된 음성 데이터의 길이는 인식할 음성에 포함된 음성 데이터의 길이보다 적고, 환경 유형은 조용한 환경 또는 시끄러운 환경 중 하나이다. NTD 엔진(102)은 프로세서(101)에 의해 출력된 검출 음성과 인식할 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 각각 비교하고, 검출 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 환경 유형을 검출 환경 유형으로서 선택하고, 인식할 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 환경 유형은 현재 환경 유형으로서 선택하고, 현재 환경 유형을 저장 영약에 저장하고 미리 설정된 기간 경과 후에 현재 환경 유형을 폐기하도록 구성된다.

음성 엔진(103)은 프로세서(101)에 의해 출력된 음성 정정 지시에 따라 수신된 인식할 음성에 대한 정정을 제어하고 초기 인식 결과를 출력하도록 구성된다.

프로세서(101)가, NTD 엔진(102)에 의해 출력된 검출 환경 유형 및 이전 환경 유형에 따라, 인식 가능한 이전 환경 유형이 저장 영역에 존재하는지의 결정을 수행하고, 음성 정정 지시를 출력하도록 구성된다. 프로세서(101)의 구체적인 실행 과정은 다음과 같다.

- 이전 환경 유형과, 음성 훈련 샘플에 대한 이전 환경 유형의 유효 효과 지속시간(T)을 획득한다.

- 검출 음성을 입력한 시간과 이전에 음성을 입력한 시간 간의 시간차(t) 및 검출 환경 유형에 대한 이전 환경 유형의 효과값(w(t))을 계산한다.

- 이전 환경 유형과 검출 환경 유형 간의 균형 관계를 결정한다.

- 이전 환경 유형과 검출 환경 유형 모두가 시끄러운 환경인 때, 음성 품질 향상을 위해 사용되는 음성 정정 지시를 출력한다.

- 이전 환경 유형과 검출 환경 유형 모두가 조용한 환경인 때, 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시를 출력한다.

- 이전 환경 유형이 시끄러운 환경이고, 검출 환경 유형은 조용한 환경이며, w(t)>0.5인 때, 음성 품질 향상을 위해 사용되는 음성 정정 지시를 출력한다.

- 이전 환경 유형이 시끄러운 환경이고, 검출 환경 유형은 조용한 환경이며, w(t)<0.5인 때, 잡음 감소 처리를 비활성화시키기 위한 음성 정정 지시를 출력한다.

- w(t)>T인 때, 검출 환경 유형이 조용한 환경이면 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시를 출력하고, 검출 환경 유형이 시끄러운 환경이면 음성 품질 향상을 위해 사용되는 음성 정정지시를 출력한다.

w(t)는 시간(t)에 따라 감쇠하는 절단 함수이고, w(t)의 값은 상이한 샘플 환경에서의 음성 훈련 샘플의 샘플 데이터를 훈련시키는 것에 의해 획득되며, t 및 T의 값은 양의 정수이다.

NTD 엔진(102)이 프로세서(101)에 의해 출력된 인식할 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 비교하는 것을 수행하고, 인식할 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 환경 유형을 현재 환경 유형으로서 선택한다. NTD 엔진(102)의 구체적인 수행 과정은 다음과 같다:

획득된 인식할 음성의 음성 프레임 파트와 잡음 프레임 파트를 분석하여 인식할 음성의 잡음 레벨, 음성 레벨, 그리고 SNR을 획득하고; 인식할 음성의 잡음 레벨, 음성 레벨 그리고 SNR을, 상이한 샘플 환경에서의 음성 훈련 샘플의 잡음 훈련 레벨, 음성 훈련 레벨 그리고 훈련 SNR과 각각 비교하고; 잡음 레벨과 최소차를 가진 잡음 훈련 레벨, 음성 레벨과 최소차를 가진 음성 훈련 레벨, 및 SNR과 최소차를 가진 훈련 SNR에 대응하는 환경 유형을 현재 환경 유형으로서 결정한다.

저장 영역에 현재 환경 유형을 저장하고 미리 설정된 기간 후에 현재 환경 유형을 폐기하는 과정에서는, 이전 환경 유형 및 이전 환경 유형에 관한 정보와 같은 구 정보가 현재 저장 영역에 저장되어 있으면, 구 정보는 현재 결정된 현재 환경 유형 및 현재 결정된 현재 환경 유형에 관한 정보로 교체되고, 저장 과정에서, 현재 저장 영역이 아무런 정보 없이 비어 있으면, 현재 결정된 현재 환경 유형과 현재 결정된 현재 환경 유형에 관한 정보가 바로 저장되며, 현재 저장된 정보는 미리 설정된 저장 기간 후에 폐기된다.

본 발명의 실시예 4에 개시된 음성 인식 장치에 의해 수행되는 방법은 본 발명의 실시예 1 내지 본 발명의 실시예 3에 개시된 방법이다. 따라서, 프로세서(101), NTD 엔진(102) 그리고 음성 엔진(103)을 실행하는 구체적인 과정에 대해서는, 앞서 설명한 대응하는 방법을 참조할 수 있으므로 여기서 반복 설명은 하지 않는다.

또한, 본 발명의 실시예 4는 상술한 음성 인식 장치를 가진 전자 장치를 개시한다. 도 9에 도시된 바와 같이, 이 전자 장치는 적어도 음성 인식 장치(1)에 연결된 음성 녹음 장치(2) 및 음성 녹음 장치(2)에 연결된 마이크로폰(3)을 포함한다.

구체적으로, 음성 녹음 장치(2)는 마이크로폰(3)을 이용하여 현재 입력 음성을 수집하고 기록하며, 녹음된 음성을 관련 처리를 위해 음성 인식 장치(1) 내의 프로세서에 입력한다.

음성 인식 장치를 가지고 있고 본 발명의 실시예 4에서 개시된 전자 장치는 이동 전화와 PAD와 같은 이동 단말일 수 있고 또한 음성 녹음 장치 및 마이크로폰을 가진 고정되 단말일 수도 있다.

결론:

본 발명의 실시예에서 개시된 음성 인식 방법, 음성 인식 장치 그리고 전자 장치에 따르면, 먼저 현재 입력 음성의 검출 환경 유형과 인식 가능한 이전 환경 유형의 협력하에서, 인식할 음성을 정정할지 음성 엔진에 지시하기 위해 사용되는 음성 정정 지시가 제공되고, 이로써 높은 인식률로 초기 인식 결과의 출력의 유효성을 보장할 수 있고, 이로써 초기 인식 결과의 신뢰성이 NTD 엔진의 계산 결과에 따라 획득된 현재 환경 유형에 따라 조정되며, 최종적으로, 현재 입력 음성에 대한 높은 인식률 및 인식 효과를 가진 최종 인식 결과가 획득된다. 이러한 방식으로, 다양한 환경에서, 음성 인식에 대해 적응적인 조정이 수행될 수 있고, 이로써 사용자는 우수한 음성 애플리케이션 경형을 얻게 된다.

본 명세서에서의 실시예들은 모두 그 실시예에서의 동일 또는 유사한 부분에 대해, 누진적으로 설명하였으므로 이들 실시예를 참조할 수 있고, 각 실시예는 다른 실시예와 다른 점에 중점을 두고 있다. 실시예에 개시된 장치는 여기 개시된 방법에 대응하며, 따라서 간략히 설명되었고, 관련 부분에 대해서는 방법 실시예에서의 부분적인 설명을 참조할 수 있다.

본 명세서에 개시된 실시예의 조합에 있어서, 방법 또는 알고리즘의 단계들은 하드웨어, 프로세서에 의해 실행되는 소프트웨어 모듈, 또는 그 조합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM, ROM, 전기적 프로그래머블 ROM, 전기적으로 소거할 수 있는 프래그래머블 ROM, 레지스터, 하드디스크, 탈거 가능한 디스크, CD-ROM, 또는 관련 분야에 잘 알려진 모든 형태의 저장 매체일 수 있다.

개시된 실시예의 상술한 설명은 통상의 기술자가 본 발명을 구현하거나 사용하는 것을 돕는다. 이들 실시예에 대한 다양한 변형은 통상의 기술자에게 자명하며, 본 명세서에 정의된 전체적인 원리는 본 발명의 기술적 사상이나 보호 범위를 벗어나지 않으면서 다른 실시예로서 구현될 수 있다. 그러므로 본 발명은 여기 명세서에 기재된 실시예에 한정되지 않으며, 본 명세서에 개시된 원리 및 신규성에 따라는 최대한 넓음 범위에 일치한다.

Claims

음성 인식 방법으로서,
입력 음성을 분할함으로써 검출 음성 및 인식할 음성을 획득하는 단계 - 상기 검출 음성에 포함된 음성 데이터는 길이는 상기 인식할 음성에 포함된 음성 데이터의 길이보다 작음 -;
잡음 유형 검출 엔진에 의해, 상기 획득된 검출 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 비교한 후, 상기 검출 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 검출 환경 유형으로서 선택하는 단계 - 상기 샘플 환경은 조용한 환경 및 시끄러운 환경을 포함함 -;
저장 영역을 검출하고, 상기 저장 영역에 인식 가능한 이전 환경 유형이 있는 경우, 상기 검출 환경 유형 및 상기 이전 환경 유형 간의 비교의 결과에 따라 음성 정정 지시를 출력하는 단계 - 상기 이전 환경 유형은 조용한 환경 또는 시끄러운 환경임 -;
음성 엔진에 의해, 상기 음성 정정 지시에 따라 상기 인식할 음성에 대한 정정을 제어하고, 초기 인식 결과를 출력하는 단계;
상기 잡음 유형 검출 엔진에 의해, 수신된 인식할 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 개별로 비교하고, 상기 인식할 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 현재 환경 유형으로서 선택하는 단계;
상기 현재 환경 유형을 상기 저장 영역에 저장하고, 미리 설정된 기간이 경과한 후 상기 현재 환경 유형을 폐기하는 단계; 및
상기 현재 환경 유형에 따라 상기 초기 인식 결과의 신뢰값을 조정한 후 최종 인식 결과를 출력하는 단계
를 포함하는 음성 인식 방법.
제1항에 있어서,
상기 이전 환경 유형이 상기 저장 영역에서 인식되지 않는 경우, 상기 음성 인식 방법은,
미리 저장된 초기 환경 유형을 획득하는 단계 - 상기 초기 환경 유형은 조용한 환경 또는 시끄러운 환경으로 이루어짐 -; 및
상기 초기 환경 유형 및 상기 검출 환경 유형에 따라 결정하여 음성 정정 지시를 출력하는 단계
를 더 포함하는, 음성 인식 방법.
제2항에 있어서,
상기 초기 환경 유형 및 상기 검출 환경 유형에 따라 결정하여 음성 정정 지시를 출력하는 단계는,
상기 초기 환경 유형이 상기 검출 환경 유형과 동일한지 여부를 결정하는 단계;
상기 초기 환경 유형이 상기 검출 환경 유형과 동일하면, 상기 초기 환경 유형 및 상기 검출 환경 유형 모두가 시끄러운 환경인 경우에는 음성 품질 향상을 위해 사용되는 음성 정정 지시를 출력하고, 상기 초기 환경 유형 및 상기 검출 환경 유형 모두가 조용한 환경인 경우에는 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시를 출력하는 단계; 및
상기 초기 환경 유형이 상기 검출 환경 유형과 동일하지 않으면, 상기 초기 환경 유형이 시끄러운 환경인 경우에는 음성 품질 향상을 위해 사용되는 음성 정정 지시를 출력하고, 상기 초기 환경 유형이 조용한 환경인 경우에는 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시를 출력하는 단계
를 포함하는, 음성 인식 방법.
제1항에 있어서,
상기 저장 영역에 인식 가능한 이전 환경 유형이 있는 경우, 상기 검출 환경 유형 및 상기 이전 환경 유형 간의 비교의 결과에 따라 음성 정정 지시를 출력하는 것은,
상기 이전 환경 유형 및 상기 입력 음성에 대한 상기 이전 환경 유형의 유효 효과 지속시간(T)을 획득하는 단계;
상기 검출 음성을 입력한 시간과 이전에 음성을 입력한 시간 간의 시간차(t), 및 상기 검출 환경 유형에 대한 이전 환경 유형의 효과값(w(t))을 계산하는 단계 - w(t)는 시간(t)에 따라 감쇠하는 절단(truncation) 함수이고, w(t)의 값은 상이한 샘플 환경에서의 음성 훈련 샘플의 샘플 데이터를 훈련하는 것에 의해 획득되고, t 및 T의 값은 양의 정수임 -;
상기 이전 환경 유형 및 상기 검출 환경 유형 간의 균형 관계를 결정하는 단계;
상기 이전 환경 유형 및 상기 검출 환경 유형 모두가 시끄러운 환경인 때, 음성 품질 향상을 위해 사용되는 음성 정정 지시를 출력하는 단계;
상기 이전 환경 유형 및 상기 검출 환경 유형 모두가 조용한 환경인 때, 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시를 출력하는 단계;
상기 이전 환경 유형이 시끄러운 환경이고, 상기 검출 환경 유형이 조용한 환경이며, w(t)>=0.5인 때, 음성 품질 향상을 위해 사용되는 음성 정정 지시를 출력하는 단계;
상기 이전 환경 유형이 시끄러운 환경이고, 상기 검출 환경 유형이 조용한 환경이며, w(t)<0.5인 때, 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시를 출력하는 단계; 및
w(t)>T인 때, 상기 검출 환경 유형이 조용한 환경인 경우에는 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시를 출력하고, 상기 검출 환경 유형이 시끄러운 환경인 경우에는 음성 품질 향상을 위해 사용되는 음성 정정 지시를 출력하는 단계
를 포함하는 음성 인식 방법.
제1항에 있어서,
상기 잡음 유형 검출 엔진에 의해, 상기 수신된 인식할 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 개별로 비교하고, 상기 인식할 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 현재 환경 유형으로서 선택하는 단계가,
상기 잡음 유형 검출 엔진에 의해, 상기 수신된 인식할 음성의 음성 프레임 파트와 잡음 프레임 파트를 분석하여 상기 인식할 음성의 잡음 레벨, 음성 레벨, 및 SNR을 획득하는 단계;
상기 인식할 음성의 잡음 레벨, 음성 레벨, 및 SNR을, 상이한 샘플 환경에서의 음성 훈련 샘플의 잡음 훈련 레벨, 음성 훈련 레벨, 및 훈련 SNR과 각각 비교하는 단계; 및
상기 잡음 레벨과 최소차를 가진 잡음 훈련 레벨, 상기 음성 레벨과 최소차를 가진 음성 훈련 레벨, 및 상기 SNR과 최소차를 가진 훈련 SNR에 대응하는 샘플 환경이 상기 현재 환경 유형인 것으로 결정하는 단계
를 포함하는, 음성 인식 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 현재 환경 유형이 조용한 환경인 경우의 상기 미리 설정된 기간은 상기 현재 환경 유형이 시끄러운 환경인 경우의 미리 설정된 기간보다 더 긴, 음성 인식 방법.
제6항에 있어서,
상기 시끄러운 환경은, 차량 탑승 저잡음 환경, 차량 탑승 고잡음 환경, 보통의 길가 환경, 번잡한 길가 환경, 및 소란스런 환경을 포함하는, 음성 인식 방법.
음성 인식 장치로서,
프로세서, 잡음 유형 검출 엔진, 및 음성 엔진을 포함하고;
상기 프로세서는,
입력 음성을 샘플링하는 것에 의해 검출 음성과 인식할 음성을 획득하고, 상기 검출 음성과 상기 인식할 음성을 상기 잡음 유형 검출 엔진 및 상기 음성 엔진에 동시에 입력하며, 저장 영역을 검출하고, 상기 저장 영역에 인식 가능한 이전 환경 유형이 있는 경우, 상기 잡음 유형 검출 엔진에 의해 출력된 검출 환경 유형과 상기 이전 환경 유형 간의 비교의 결과에 따라 음성 정정 지시를 출력하고, 상기 음성 엔진에 의해 출력된 초기 인식 결과의 신뢰값이 상기 잡음 유형 검출 엔진에 의해 출력된 현재 환경 유형에 따라 조정된 후의 최종 인식 결과를 출력하도록 구성되고;
상기 검출 음성에 포함된 음성 데이터의 길이는 상기 인식할 음성에 포함된 음성 데이터의 길이보다 작고, 상기 이전 환경 유형은 조용한 환경 또는 시끄러운 환경이고;
상기 잡음 유형 검출 엔진은,
상기 프로세서에 의해 출력된 상기 검출 음성 및 상기 인식할 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 개별로 비교하고, 상기 검출 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 검출 환경 유형으로서 선택하고, 상기 인식할 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 현재 환경 유형으로서 선택하며, 상기 현재 환경 유형을 저장 영역에 저장하고, 미리 설정된 기간이 경과한 후에 상기 현재 환경 유형을 폐기하도록 구성되고;
상기 음성 엔진은, 상기 프로세서에 의해 출력된 상기 음성 정정 지시에 따라 수신된 인식할 음성에 대한 정정을 제어하고, 초기 인식 결과를 출력하도록 구성된,
음성 인식 장치.
제8항에 있어서,
상기 프로세서가, 저장 영역을 검출하고, 상기 저장 영역에 인식 가능한 이전 환경 유형이 있는 경우, 상기 잡음 유형 검출 엔진에 의해 출력된 검출 환경 유형과 상기 이전 환경 유형 간의 비교의 결과에 따라 음성 정정 지시를 출력하도록 구성된 것은,
상기 프로세서가, 상기 이전 환경 유형 및 상기 입력 음성에 대한 상기 이전 환경 유형의 유효 효과 지속시간(T)을 획득하고; 상기 검출 음성을 입력한 시간과 이전에 음성을 입력한 시간 간의 시간차(t), 및 상기 검출 환경 유형에 대한 이전 환경 유형의 효과값(w(t))을 계산하며; 상기 이전 환경 유형 및 상기 검출 환경 유형 간의 균형 관계를 결정하고; 상기 이전 환경 유형 및 상기 검출 환경 유형 모두가 시끄러운 환경인 때, 음성 품질 향상을 위해 사용되는 음성 정정 지시를 출력하고; 상기 이전 환경 유형 및 상기 검출 환경 유형 모두가 조용한 환경인 때, 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시를 출력하며; 상기 이전 환경 유형이 시끄러운 환경이고, 상기 검출 환경 유형이 조용한 환경이며, w(t)>=0.5인 때, 음성 품질 향상을 위해 사용되는 음성 정정 지시를 출력하고; 상기 이전 환경 유형이 시끄러운 환경이고, 상기 검출 환경 유형이 조용한 환경이며, w(t)<0.5인 때, 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시를 출력하고; w(t)>T인 때, 상기 검출 환경 유형이 조용한 환경인 경우에는 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시를 출력하고, 상기 검출 환경 유형이 시끄러운 환경인 경우에는 음성 품질 향상을 위해 사용되는 음성 정정 지시를 출력하도록 구성된 것을 포함하고,
w(t)는 시간(t)에 따라 감쇠하는 절단(truncation) 함수이고, w(t)의 값은 상이한 샘플 환경에서의 음성 훈련 샘플의 샘플 데이터를 훈련하는 것에 의해 획득되고, t 및 T의 값은 양의 정수인,
음성 인식 장치.
제8항에 있어서,
상기 잡음 유형 검출 엔진이, 상기 프로세서에 의해 출력된 상기 인식할 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 비교하고, 상기 인식할 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 현재 환경 유형으로서 선택도록 구성된 것은,
상기 잡음 유형 검출 엔진이, 상기 수신된 인식할 음성의 음성 프레임 파트와 잡음 프레임 파트를 분석하여 상기 인식할 음성의 잡음 레벨, 음성 레벨, 및 SNR을 획득하고; 상기 인식할 음성의 잡음 레벨, 음성 레벨, 및 SNR을, 상이한 샘플 환경에서의 음성 훈련 샘플의 잡음 훈련 레벨, 음성 훈련 레벨, 및 훈련 SNR과 각각 비교하며; 상기 잡음 레벨과 최소차를 가진 잡음 훈련 레벨, 상기 음성 레벨과 최소차를 가진 음성 훈련 레벨, 및 상기 SNR과 최소차를 가진 훈련 SNR에 대응하는 샘플 환경이 상기 현재 환경 유형인 것으로 결정하도록 구성된 것을 포함하는,
음성 인식 장치.
전자 장치로서,
청구항 8 내지 10 중 어느 한 항에 따른 음성 인식 장치;
상기 음성 인식 장치에 연결된 음성 녹음 장치; 및
상기 음성 녹음 장치에 연결된 마이크로폰
을 포함하는 전자 장치.