KR101852892B1 - 음성 인식 방법, 음성 인식 장치 및 전자 장치 - Google Patents

음성 인식 방법, 음성 인식 장치 및 전자 장치 Download PDF

Info

Publication number
KR101852892B1
KR101852892B1 KR1020167014844A KR20167014844A KR101852892B1 KR 101852892 B1 KR101852892 B1 KR 101852892B1 KR 1020167014844 A KR1020167014844 A KR 1020167014844A KR 20167014844 A KR20167014844 A KR 20167014844A KR 101852892 B1 KR101852892 B1 KR 101852892B1
Authority
KR
South Korea
Prior art keywords
voice
environment
speech
type
environment type
Prior art date
Application number
KR1020167014844A
Other languages
English (en)
Other versions
KR20160079105A (ko
Inventor
쥔양 저우
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20160079105A publication Critical patent/KR20160079105A/ko
Application granted granted Critical
Publication of KR101852892B1 publication Critical patent/KR101852892B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Abstract

본 발명은 음성 인식 방법, 음성 인식 장치, 그리고 전자 장치를 개시한다. 본 방법에서는, 먼저 검출 음성에 대응하는 샘플 환경과 이전 환경 유형을 이용하여 결정을 수행하여 음성 엔진에게 대응하는 음성 정정 지시를 출력하고, 인식할 음성이 음성 엔진과 잡음 유형 검출 엔진에 동시에 입력되며, 음성 엔진은 음성 정정 지시에 따라 인식할 음성을 정정함으로써 원 음성의 품질이 잡음 처리에 의해 손상되지 않으면서 대응하는 초기 인식 결과가 출력되고, 잡음 유형 검출 엔진은 인식할 음성과 상이한 환경에서의 음성 훈련 샘플을 이용하여 현재 환경 유형을 결정하고, 최종적으로 초기 인식 결과의 신뢰성이 현재 환경 유형을 이용하여 조정되며, 이로써 최종적인 출력 음성 인식 결과의 인식 효과가 현재 환경에서의 사용자에게 우수한 사용자 경험을 제공할 수 있게 된다.

Description

음성 인식 방법, 음성 인식 장치 및 전자 장치{VOICE RECOGNITION METHOD, VOICE RECOGNITION DEVICE, AND ELECTRONIC DEVICE}
본 출원은 음성 인식 기술 분야에 관한 것으로, 보다 상세하게는 음성 인식 방법, 음성 인식 장치 및 전자 장치에 관한 것이다.
삭제
현재, 시장에서의 다양한 전자 제품의 대부분은 음성 인식 방식으로 제어되고 조작될 수 있다. 그러나 음성 인식 과정에서, 상이한 환경 유형, 특히 잡음이 심한 환경 유형에서, 보통의 음성 인식 엔진은 주변 잡음에 의해 쉽게 간섭을 받고, 조용한 환경에서의 음성 인식에 비해 현저하게 음성 인식률이 감소한다.
종래에는, 입력 음성의 SNR(Signal to Noise Ratio) 값을 잡음 감소 처리 방식 또는 음성 레벨 향상 방식에서 주로 향상하여 음성 인식률을 향상시켰다.
잡음 감소 처리 과정에서, 잡음 감소 모듈을 이용하여 주변 잡음을 감소시키고 음성 파형을 감소시키기 위한 잡음 감소 알고리즘을 이용하여 입력 음성의 SNR 값을 향상시킴으로써, 음성 엔진의 음성 인식률 및 인식 효과를 향상시켰다. 추가로, 잡음 감소 알고리즘을 이용하여 음성 품질을 향상시킬 때, 음성 인식에 앞서 세트 파라미터를 이용하여 음성 인식 엔진이 잡음 감소 모듈을 활성화할 것인지를 결정하는 방식 또한 종래에 있었다. 음성 레벨 향상 과정에서는, SNR 값이 음성 레벨 향상 방식에 따라 향상된다.
종래에 이용되었던 상술한 2개의 방법에서는, 음성 인식률이 잡음이 강한 환경에서 약간 향상될 수 있지만, 상대적으로 잡음이 낮은 환경이나 조용한 조건에서는, 주변 잡음을 감소시키기 위해, 음성 파형을 감소시키기 위한 방법을 이용하여 잡음 감소 처리가 수행된다. 이 방법에서는, 원 음성이 손상되고, 이로써 음성 인식률이 떨어진다. 그리고 음성 레벨 향상 방식에서는, 원 음성의 질이 또한 손상되고 음성 레벨 향상 방식을 이용한 음성 인식률 향상 효과가 원 음성의 질의 파괴보다 더 낮다.
여기에서, 다양한 환경에서 음성 인식 효과를 향상시킬 수 있고 다양한 환경에서 안정적인 음성 인식 및 우수한 사용자 경험을 보장할 수 있는 음성 인식 방식이 절박하게 필요하다는 것을 알게 된다.
이러한 관점에서, 본 발명의 실시예의 목적은, 음성 인식 방식이 다양한 환경에서 안정적인 음성 인식과 우수한 사용자 경험을 제공할 수 없다는 종래의 문제점을 해결하는 음성 인식 방법, 음성 인식 장치 및 전자 장치를 제공하는 것이다.
상기한 목적을 달성하기 위해, 본 발명의 실시예는 다음과 같은 기술적 해결수단을 제공한다.
본 발명의 실시예의 제1 측면은 음성 인식 방법을 제공하며, 이 방법은,
입력 음성을 분할함으로써 검출 음성 및 인식할 음성을 획득하는 단계 - 상기 검출 음성에 포함된 음성 데이터는 길이는 상기 인식할 음성에 포함된 음성 데이터의 길이보다 작음 -;
잡음 유형 검출 엔진에 의해, 상기 획득된 검출 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 비교한 후, 상기 검출 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 검출 환경 유형으로서 선택하는 단계 - 상기 샘플 환경 유형은 조용한 환경 및 시끄러운 환경을 포함함 -;
저장 영역을 검출하고, 상기 저장 영역에 인식 가능한 이전 환경 유형이 있는 경우, 상기 검출 환경 유형 및 상기 이전 환경 유형 간의 비교의 결과에 따라 음성 정정 지시를 출력하는 단계 - 상기 이전 환경 유형은 조용한 환경 또는 시끄러운 환경임 -;
음성 엔진에 의해, 상기 음성 정정 지시에 따라 상기 인식할 음성에 대한 정정을 제어하고, 초기 인식 결과를 출력하는 단계;
상기 잡음 유형 검출 엔진에 의해, 상기 수신된 인식할 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 개별로 비교하고, 상기 인식할 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 현재 환경 유형으로서 선택하는 단계;
상기 현재 환경 유형을 상기 저장 영역에 저장하고, 미리 설정된 기간이 경과한 후 상기 현재 환경 유형을 폐기하는 단계; 및
상기 현재 환경 유형에 따라 상기 초기 인식 결과의 신뢰값을 조정한 후 최종 인식 결과를 출력하는 단계
를 포함한다.
본 발명의 실시예의 제2 측면은 음성 인식 장치를 제공하며, 이 장치는, 프로세서, 잡음 유형 검출 엔진, 및 음성 엔진을 포함하고;
상기 프로세서는,
입력 음성을 샘플링하는 것에 의해 검출 음성과 인식할 음성을 획득하고, 상기 검출 음성과 상기 인식할 음성을 상기 잡음 유형 검출 엔진 및 상기 음성 엔진에 동시에 입력하며, 저장 영역을 검출하고, 상기 저장 영역에 인식 가능한 이전 환경 유형이 있는 경우, 상기 잡음 유형 검출 엔진에 의해 출력된 검출 환경 유형과 상기 이전 환경 유형 간의 비교의 결과에 따라 음성 정정 지시를 출력하고, 상기 음성 엔진에 의해 출력된 초기 인식 결과의 신뢰값이 상기 잡음 유형 검출 엔진에 의해 출력된 현재 환경 유형에 따라 조정된 후의 최종 인식 결과를 출력하도록 구성되고;
상기 검출 음성에 포함된 음성 데이터의 길이는 상기 인식할 음성에 포함된 음성 데이터의 길이보다 작고, 상기 이전 환경 유형은 조용한 환경 또는 시끄러운 환경이고;
상기 잡음 유형 검출 엔진은,
상기 프로세서에 의해 출력된 상기 검출 음성 및 상기 인식할 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 개별로 비교하고, 상기 검출 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 검출 환경 유형으로서 선택하고, 상기 인식할 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 현재 환경 유형으로서 선택하며, 상기 현재 환경 유형을 저장 영역에 저장하고, 미리 설정된 기간이 경과한 후에 상기 현재 환경 유형을 폐기하도록 구성되고;
상기 음성 엔진은, 상기 프로세서에 의해 출력된 상기 음성 정정 지시에 따라 상기 수신된 인식할 음성에 대한 정정을 제어하고, 초기 인식 결과를 출력하도록 구성된다.
본 발명의 실시예의 제3 측면은 전자 장치를 제공하며, 이 전자 장치는, 본 발명의 실시예의 제2 측면에 따른 음성 인식 장치, 음성 인식 장치에 연결된 음성 녹음 장치, 그리고 음성 녹음 장치에 연결된 마이크로폰을 포함한다.
상술한 기술적 해결 수단으로부터, 종래 기술에 대비되어, 본 발명의 실시예가 음성 인식 방법, 음성 인식 장치 및 전자 장치를 제공하는 것을 알 수 있다. 이 방법에서, 먼저 입력 음성이 분할되고, 그런 다음 분할에 의해 획득된 검출 음성을 이용하여 현재 검출 환경에 대해 결정을 수행하며, 이전에 기록된 환경 유형이 존재하면 현재 검출 환경 유형을 이전 환경 유형과 비교하고, 비교 결과에 따라 획득된 음성 정정 지시를 음성 엔진에 보내고, 음성 엔진은 음성 정정 지시를 이용하여 인식할 음성을 정정하여, 원 음성의 질이 잡음 처리 동안 손상되지 않으며 대응하는 초기 인식 결과가 출력되도록 하고, 분할에 의해 획득된 인식할 음성이 음성 엔진과 잡음 유형 검출 엔진에 동시에 입력되고, 잡음 유형 검출 엔진은 인식할 음성과 상이한 환경 하에서의 음성 훈련 샘플(voice training sample)을 이용하여 현재 환경 유형을 결정하며, 마지막으로, 초기 인식 결과의 신뢰도를 현재 환경 유형을 이용하여 조정함으로써 최종적으로 출력되는 음성 인식 결과의 인식 효과가 현재 환경에서 사용자에 대해 우수한 사용자 경험을 제공하는 것을 보장한다.
본 발명의 실시예 또는 종래 기술에서의 기술적 해결 수단을 보다 명확하게 기술하기 위해, 이하에서 간단하게 본 실시예 또는 종래 기술을 설명하기 위해 필요한 첨부 도면을 소개한다. 분명한 것은, 이하의 설명에서의 첨부 도면은 단지 본 발명의 실시예를 보여주는 것이고, 통상의 기술자라면 창작 노력 없이도 첨부 도면으로부터 다른 도면을 유추해 낼 수 있다.
도 1은, 본 발명의 실시예 1에 개시된 음성 인식 방법의 흐름도이다.
도 2는, 본 발명의 실시예 2에 개시된 음성 인식 방법의 흐름도이다.
도 3은, 본 발명의 실시예 2에 개시된 초기 환경 유형에 기초한 음성 정정 지시를 결정하는 흐름도이다.
도 4는, 본 발명의 실시예 3에 개시된 샘플 환경 유형을 결정하는 흐름도이다.
도 5는, 본 발명의 실시예 3에 개시된 음성 정정 지시를 획득하는 흐름도이다.
도 6은, 본 발명의 실시예 3에 개시된, 시간차 t, 유효 영향 지속시간 T, 및 가중치 간의 관계를 나타낸 곡선 그래프이다.
도 7은, 본 발명의 실시예 3에 개시된 현재 환경 유형을 결정하는 흐름도이다.
도 8은, 본 발명의 실시예 4에 개시된 음성 인식 장치의 개략적인 구조도이다.
도 9는, 본 발명의 실시예 4에 개시된 전자 장치의 개략적인 구조도이다.
참고 및 명확성을 위해, 이하에서 사용되는 기술적 용어의 표기, 약자 또는 축약은 다음과 같다.
SNR: Signal to Noise Ration (신호대잡음비)
SSE: Speech Signal Enhancement (스피치 신호 향상)
NTD: Noise Type Detect (잡음 유형 검출)
dB: Decibel (데시벨)
이하에서는 첨부 도면을 참조하여 본 발명의 실시예에서의 기술적 해결 수단을 명확하고 전반적으로 설명한다. 분명한 것은, 여기 설명하는 실시예는 단지 본 발명의 모든 실시예가 아니라 일부에 불과한 것이다. 통상의 기술자가 본 발명의 실시예에 기초하여 창작 노력 없이 얻는 다른 모든 실시예는 본 발명의 보호 범위 내에 포함되어야 한다.
배경 기술로부터, 상대적으로 조용한 환경에서, 종래 기술에서는 원 음성이 잡음 감소 방식 및 음성 레벨 향상 방식 모두에서 손상된다는 것을 알았다. 즉, 종래에는, 음성 인식률을 향상시키기 위하거나 음성 인식 효과를 향상시키기 위해 사용되는 방법이 다양한 환경에서 동일한 효과를 나타내지 못한다. 상대적으로 잡음이 높은 경우에만, 사용자에게 우수한 음성 인식 경험을 제공할 수 있고, 조용한 환경에서는 사용자는 더 열악한 음성 인식 경험을 경험하게 된다.
따라서, 본 발명의 실시예는, 현재 입력 음성의 환경과 이전 입력 음성의 환경을 결정함으로써 현재 입력 음성에 대해 관련 처리를 수행할지 여부에 대한 지시가 획득되는, 음성 인식 방법을 제공한다. 따라서, 현재 입력 음성은 그 결정의 결과에 따라 처리되고, 이로써 다양한 환경에서 그것이 수행될 수 있으며, 현재 입력 음성의 원 음성은 손상되지 않고 현재 입력 음성의 높은 인식률 및 인식 효과가 보장된다. 이러한 방식으로, 다양한 환경에서 음성 인식에 대해 적응적인 조정이 수행되는 것이 보장되고, 이로써 사용자는 우수한 음성 애플리케이션 경험을 얻을 수 있다.
실시예 1
도 1에 도시된 바와 같이, 도 1은 본 발명의 실시예 1에 개시된 음성 인식 방법의 흐름도이고, 이 방법은 다음 단계들을 포함한다.
단계 S101: 입력 음성을 분할하는 것에 의해 검출 음성과 인식할 음성을 획득한다.
단계 S101에서, 프로세서는 현재 입력 음성을 분할하고, 현재 입력 음성은 2개 부분으로 분할된다. 하나의 부분은 검출 음성으로서 사용되고, 다른 부분은 인식할 음성으로서 사용된다. 검출 음성으로서, 검출 음성은 단지 현재 입력 음성에서 오디오 데이터의 작은 부분일 뿐이다. 검출 음성의 길이는 인식할 음성의 길이보다 작다. 즉, 검출 음성에 포함된 음성 데이터의 길이는 인식할 음성에 포함된 음성 데이터의 길이보다 작다.
예컨대, 만일 현재 입력 음성이 100개 프레임이라면, 처음 5개 프레임의 길이를 가진 음성 데이터가 검출 음성으로서 선택될 수 있고, 남은 95개 프레임의 길이를 가진 음성 데이터는 인식할 음성으로 사용된다. 명백히, 음성으로부터 선택된 10-15개 프레임의 데이터가 요건에 따라 검출 음성으로서 사용될 수도 있고, 검출 음성의 비율은 요건에 따라 설정될 수 있다. 설정 전제는, 검출 음성의 길이가 후속하는 전체 입력 음성 인식에 영향을 주지 않는다는 것이다.
추가로, 검출 음성을 선택하는 과정에서, 가장 편리한 방식은 다음과 같다. 미리 설정된 길이의 음성이 전체 음성의 시점으로부터 직접 검출 음성으로서 선택된다. 그러나 본 발명의 본 실시예가 이러한 방식에 한정되는 것은 아니다. 현재 입력 음성에 속하는 오디오 데이터의 작은 부분이 전체 음성의 종점으로부터 선택하는 방식으로 검출 음성으로서 획득될 수도 있다.
단계 S102: 상이한 샘플 환경에서의 음성 훈련 샘플과 획득된 검출 음성을 비교한 후, NTD 엔진은 검출 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 샘플 환경 유형으로서 선택한다.
단계 S102에서, 검출 음성을 획득한 후, NTD 엔진은 검출 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 비교한다. 상이한 샘플 환경에서의 음성 훈련 샘플이란 다양한 환경에서 음성 파일을 실제로 녹음하는 훈련에 의해 얻어진 결과를 말한다. 다양한 환경에서 음성 파일을 실제로 녹음하는 훈령의 과정은 다음과 같다. 조용한 환경에서, NTD 엔진이 조용한 환경에서 녹음된 음성 샘플 파일의 잡음 유형 검출 결과(noise type detection result) 및 음성 샘플 파일의 인식에 대한 조용한 환경의 유효 영향 지속시간(effective impact duration)을 계산한다. 시끄러운 환경에서, NTD 엔진이 시끄러운 환경에서 녹음 음성 샘플 파일의 잡음 유형 검출 결과 및 음성 샘플 파일의 인식에 대한 시끄러운 환경의 유효 영향 지속시간을 계산한다.
즉, 상이한 샘플 환경에서의 음성 훈련 샘플의 결과는, 현재 샘플링 환경을 결정하기 위한 기초로서 사용된다. 비교에 의해, NTD 엔진이 획득된 검출 음성을 계산한 후에 얻어진 결과가 샘플 환경에서의 음성 훈련 샘플의 결과에 가까운 경우, 검출 음성이 입력된 환경이 그 샘플 환경과 같다고 간주할 수 있다. 이것에 기초하여, 본 발명의 본 실시예에서는, 검출 음성에 대응하는 결과와 음성 훈련 샘플의 결과 간의 차이를 비교하고, 최소차를 가진 음성 샘플에 대응하는 환경 유형을 검출 음성이 입력된 환경으로서, 즉 후속하여 사용하기 위한 검출 환경 유형으로서 선택한다.
그러나 본 발명의 본 실시예는, 가장 근접한 결과를 가진 환경 유형을 선택하기 위해 차이 비교 방식을 이용하는 것에 한정되는 것은 아니다. 검출 음성의 계산 결과에 무한으로 근접한 음성 훈련 샘플 결과에 대응하는 샘플 환경이 검출 음성이 입력된 환경이라는 것을 보장할 수 있다면, 다른 방법으로 환경 유형을 선택할 수도 있다.
샘플 환경은, 조용한 환경과 시끄러운 환경을 포함한다. 시끄러운 환경은, 차량 탑승 저잡음 환경, 차량 탑승 고잡음 환경, 보통 길가 환경, 번잡한 길가 환경 및 소란스러운 환경을 포함한다.
단계 S103: 저장 영역을 검출하고, 저장 영역에 인식 가능한 이전 환경 유형이 존재하면, 검출 환경 유형과 이전 환경 유형 간의 비교 결과에 따른 음성 정정 지시를 출력한다.
단계 S103에서, 환경 유형은, 조용한 환경 또는 시끄러운 환경을 포함하고, 구체적인 환경 유형은 이전에 수행된 음성 인식과 관련된다. 프로세서는 NTD 엔진을 검출함으로써 인식 가능한 이전 환경 유형을 획득한다. 즉, 이전에 수행된 음성 인식 시에 저장된 환경 유형이 존재한다. 프로세서는 NTD 엔진으로부터 획득된 검출 환경 유형을 이전 환경 유형과 비교하고, 이전 환경 유형이 현재 검출 환경에 미치는 영향에 따라 상이한 음성 정정 지시를 개별로 생성하여, 후속하여 음성 엔진이 음성 정정 지시를 이용하여 인식할 음성에 대해 대응하는 정정을 수행하도록 한다.
음성 정정 지시는 주로 음성 엔진으로 하여금 음성 품질 향상을 활성화하도록 하는 명령 및 음성 엔진으로 하여금 잡음 감소 처리를 비활성화하도록 하는 명령을 포함한다.
단계 S104: 음성 엔진은 음성 정정 지시에 따라 인식할 음성에 대한 정정을 제어하고, 초기 인식 결과를 출력한다.
단계 S104에서는, 음성 엔진이 프로세서에 의해 전송된 인식할 음성과 음성 정정 지시를 수신하고, 음성 정정 지시를 이용하여 인식할 음성에 대한 정정을 제어하여, 주처리를 위한 초기 인식 결과를 출력한다.
인식할 음성의 길이는 원 입력 음성을 인식하기 위한 요건을 충족하고, 음성 엔진에 의해 음성 정정 지시 및 인식할 음성을 수신하는 시간은 프로세서가 음성 정정 지시 및 인식할 음성을 전송하는 시간에 의존한다.
단계 S104를 수행하는 것에 의해, 검출 환경 유형 및 이전 환경 유형에 대한 결정이 수행된 후 단계 S103에 따라 출력된 음성 정정 지시가 인식할 음성을 처리하기 위해 사용된다. 이전 환경 유형 및 검출 환경 유형 양측의 인식할 음성에 대한 영향을 고려하여, 환경을 고려하지 않고 입력 음성이 직접 처리되는 종래 기술에서 원 음성의 손상이 발생하는 것이 인식할 음성을 처리하는 과정에서 감소된다.
즉, 본 발명의 본 실시예에 개시된 단계 S104 및 S103가 수행된 후에, 음성 인식률은 원 음성의 품질을 손상하지 않고 상이한 환경에서 향상될 수 있다. 인식률은 인식 결과의 효과를 평가하기 위한 측정값이다. 원 음성의 품질을 손상하지 않는 방식을 사용하여 인식률을 높이고, 이것은, 초기 인식 결과가 후속적으로 처리될 때 최종 음성 인식의 유효성이 보장될 수 있다는 것을 보장한다.
단계 S105: NTD 엔진은 수신된 인식할 음성과 상이한 샘플 환경에서의 음성 훈련 샘플을 개별로 비교하고, 인식할 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 현재 환경 유형으로 선택하고, 현재 환경 유형을 저장 영역에 저장하며 미리 설정된 기간이 경과한 후에 현재 환경 유형을 폐기한다. 단계 S105에서, NTD 엔진이 수신된 인식할 음성과 상이한 샘플 환경에서의 음성 훈련 샘플을 개별로 비교하는 원리와 과정은, NTD 엔진이, 단계 S103에서, 검출 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 비교를 수행하는 원리 및 과정과 동일하다. 단계 S103을 참조할 수 있으므로 상세한 것을 다시 설명하는 것은 하지 않는다.
비교 과정에서, 음성 훈련 샘플에 대응하는 환경 유형은 현재 환경 유형이다. 이 경우, 현재 환경 유형 및 인식할 음성에 대한 현재 환경 유형의 유효 영향 지속시간과 같은 다양한 유형의 정보가 저장된다. 저장 과정에서는, 현재 저장 영역이 이전 환경 유형 및 이전 환경 유형에 관한 정보와 같은 구 정보를 저장한 경우, 이 구 정보는 현재 결정된 현재 환경 유형 및 현재 결정된 현재 환경 유형에 관한 정보로 교체되고, 저장 과정에서, 현재 저장 영역이 어떤 정보도 가지고 있지 않고 비어 있는 경우, 현재 결정된 환경 유형 및 현재 결정된 환경 유형에 관한 정보가 바로 저장되고, 현재 저장된 정보는 미리 설정된 저장 기간 후에 폐기된다.
미리 설정된 저장 기간은 상이한 요건에 따라 설정될 수 있다. 일반적으로, 미리 설정된 저장 기간이 다음번 음성 입력의 인식에 영향을 줄 것인지 여부가 미리 설정된 저장 기간을 설정하기 위해 고려되어야 한다. 예컨대, 현재 저장된 환경 유형은 다음번 음성 입력의 인식을 위해 이전 환경 유형으로서 사용되고, 단계 S103을 참조할 수 있다. 더 바람직한 방식으로서, 미리 설정된 저장 기간은 인식할 음성에 대한 상이한 환경 유형의 유효 영향 지속시간에 따라 설정될 수 있다. 미리 설정된 저장 기간의 구체적인 길이는 인식할 음성에 대한 현재 저장된 환경 유형의 유효 영향 지속시간의 길이와 같을 수 있고, 또한 그 유효 영향 지속시간보다 더 길 수도 있고, 또 일반적으로 유효 영향 지속시간보다 더 짧지는 않다. 현재 환경 유형이 조용한 환경인 경우의 미리 설정된 저장 기간은 현재 환경 유형이 시끄러운 환경인 경우의 미리 설정된 저장 기간보다 더 길다.
상술한 단계 S104 및 단계 S105에서 수신된 인식할 음성이 동시에 프로세서에 의해 NTD 엔진과 음성 엔진에 입력된다. 단계 S104 및 S105는 단지 본 발명의 실시예에서 기술적 해결 수단을 후술하는 과정에서 명백하게 인용하기 위해 사용될 뿐이고, 단계 S104 및 S105를 수행하기 위한 순서에 대해 한정이 주어지는 것은 아니다. 단계 S104 및 S105의 과정을 수행하는 것은 순서가 없다. 단계 S104 및 S105가 동시에 수행될 수도 있고, 단계 S104 및 S105가 동시에 수행되지 않을 수도 있다.
단계 S106: 초기 인식 결과의 신뢰값이 현재 환경 유형에 따라 조정된 후에 최종 인식 결과를 출력한다.
단계 S106에서는, 프로세스가 NTD 엔진에 저장된 현재 환경 유형에 따라 음성 엔진이 출력한 초기 인식 결과의 신뢰값을 조정한다. 신뢰값은 인식 결과의 신뢰도를 평가하는 측정값이다. 유효성을 가진 초기 인식 결과가, 음성 인식률이 단계 S104를 수행함으로써 향상된 후에 출력되고, 또한, 최종 음성 인식 결과는, 초기 인식 별과의 신뢰값이 단계 S106을 수행함으로써 증가된 후에 출력된다.
본 발명의 실시예 1에 개시된 음성 인식 방법에 따르면, 현재 입력 음성의 검출 환경 유형 및 인식 가능한 이전 환경 유형의 협력하에서, 인식할 음성을 정정할지 여부를 음성 엔진에 지시하기 위해 사용되는 음성 정정 지시가 제공되고, 이로써 높은 인식률로 초기 인식 결과가 출력되는 것에 대한 유효성을 보장할 수 있다. 그런 다음, 초기 인식 결과의 신뢰도가 NTD 엔진의 계산 결과에 따라 획득되는 현재 환경 유형에 따라 조정됨으로써 현재 입력 음성에 대한 높은 인식률 및 인식 효과를 가진 최종 인식 결과를 획득할 수 있다. 그러므로 다양한 환경에서, 적응적인 조정이 음성 인식에 대해 수행될 수 있고, 이로써 사용자는 우수한 음성 애플리케이션 경험을 획득할 수 있다.
실시예 2
도 2에 도시된 바와 같이, 도 2는 본 발명의 실시예 2에 개시된 음성 인식 방법의 흐름도이다. 이 방법은 다음 단계를 포함한다.
단계 S101: 입력 음성을 샘플링하는 것에 의해 검출 음성과 인식할 음성을 획득한다.
단계 S102: 획득된 검출 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 비교한 후, NTD 엔진이 검출 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 검출 환경 유형으로서 선택한다.
단계 S107: NTD 엔진에 인식 가능한 이전 환경 유형이 있는지 여부를 검출하고, NTD 엔진에 인식 가능한 이전 환경 유형이 있은 경우, 단계 S103을 수행하고, NTD 엔진에 인식 가능한 이전 환경 유형이 없는 경우 단계 S108을 수행한다.
단계 S107에서, 프로세서는 인식 가능한 이전 환경 유형이 NTD 엔진에 존재하는지 검출하고, 이전 환경 유형의 존재가 긴 시간 동안 인식되지 않으면, 이전 환경 유형이 현재 음성 인식에 영향을 주지 않는다는 것을 나타내고, 새로운 음성이 입력된 때, 초기 환경 유형이 단계 S108이 수행되는 때의 조건을 결정하는 백업으로서 사용된다.
단계 S103: 인식 가능한 이전 환경 유형이 존재하면, 검출 환경 유형 및 이전 환경 유형에 따라 결정을 수행하고 음성 정정 지시를 출력한다.
단계 S108: 이전 환경 유형이 인식되지 않으면, 초기 환경 유형을 획득하고, 초기 환경 유형 및 검출 환경 유형에 따라 결정을 수행하고, 음성 정정 지시를 출력한다.
단계 S104: 음성 엔진이 음성 정정 지시에 따라 인식할 음성에 대해 정정을 제어하고 초기 인식 결과를 출력한다.
단계 S105: 수신된 인식할 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 개별로 비교하고, 인식할 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 현재 환경 유형으로서 선택하고, 현재 환경 유형을 저장 영역에 저장하고 미리 설정된 기간이 경과한 후에 현재 환경 유형을 폐기한다.
단계 S106: 현재 환경 유형에 따라 초기 인식 결과의 신뢰값을 조정한 후 최종 인식 결과를 출력한다.
상술한 도 2에 도시된 단계 S101 내지 S106을 수행하는 원리 및 과정은 도 1에 도시된 단계 S101 내지 S106을 수행하는 원리 및 과정과 동일하므로, 상세한 것은 반복하여 기술하지 않는다. 단계 S104에서의 음성 정정 지시는 또한 단계 S108을 수행함으로써 출력되는 음성 정정 지시일 수도 있지만, 음성 정정 지시의 의미는 단계 S103을 수행함으로써 출력되는 음성 정정 지시의 의미와 동일하다. 음성 정정 지시는 주로 음성 엔진으로 하여금 음성 품질 향상을 활성화하도록 하는 지시 및 음성 엔진으로 하여금 잡음 감소 처리를 비활성화하도록 하는 지시를 포함한다. 음성 정정 지시는 검출 환경 유형 및 초기 환경 유형의 협력하에서 생성된다.
단계 S108에서 언급된 초기 환경 유형은 미리 설정되고, 초기 환경 유형은 백업으로서 사용된다. 이전 환경 유형이 존재하지 않는 경우, 초기 환경 유형이 호출된다. 일반적으로 초기 환경 유형은 잡음 환경이고, 보다 구체적으로는, 시끄러운 환경이다. 분명한 것은, 본 발명의 본 실시예에서 초기 환경 유형은 여기에 한정되지 않으므로, 초기 환경 유형은 조용한 환경으로 설정될 수도 있다.
초기 환경 유형 및 검출 환경 유형에 따라 결정을 수행하고 음성 정정 지시를 출력하는 과정은 도 3에 도시되어 있고, 주로 다음 단계를 포함한다.
단계 S301: 초기 환경 유형이 검출 환경 유형과 동일한지 여부를 결정하고, 만일 초기 환경 유형이 검출 환경 유형과 동일하면, 단계 S302를 수행하고, 초기 환경 유형이 검출 환경 유형과 동일하지 않으면, 단계 S303을 수행한다.
단계 S302: 초기 환경 유형 및 검출 환경 유형 모두가 시끄러운 환경인 경우, 음성 품질 향상을 위해 사용되는 음성 정정 지시를 출력하고, 초기 환경 유형 및 검출 환경 유형이 모두 조용한 환경인 경우, 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시를 출력한다.
단계 S302에서, 상이한 환경에 따라 상이한 제어 기능을 가진 음성 정정 지시가 출력된다.
단계 S303: 초기 환경 유형이 시끄러운 환경인 경우, 음성 품질 향상을 위해 사용되는 음성 정정 지시를 출력하고, 초기 환경 유형이 조용한 환경인 경우, 잡음 감소 처리를 비활성화하기 위해 사용되는 음성 정정 지시를 출력한다.
단계 S303에서, 초기 환경 유형이 검출 환경 유형과 상이한 경우, 출력 음성 정정 지시의 유형은 디폴트 초기 환경 유형에 따라 결정된다.
도 2에 관한 설명을 참조하면, 음성 품질 향상을 위해 사용되거나 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시가 단계 S302 또는 S303이 수행된 후에 출력된다. 음성 품질 향상을 위해 사용되는 음성 정정 지시가 음성 엔진에 전송된 후에, 단계 S104가 수행된다. 음성 정정 지시에 기초하여, 음성 엔진은 먼저 음성 품질 향상을 인식할 음성에 대해 수행하고, 그런 다음 잡음 감소 처리를 수행한다. 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시가 음성 엔진에 전송된 후, 단계 S104가 수행된다. 음성 정정 지시에 기초하여, 음성 엔진은 인식할 음성에 대해 음성 엔진에 의해 수행되는 잡음 감소 처리를 수행하는 과정을 비활성화시킨다.
본 발명의 본 실시예에서, 초기 인식의 시기에 또는 이전 잡음 유형이 이전 잡음 유형의 저장 시간이 미리 설정된 저장 기간보다 더 길어서 폐기된 때, 초기 환경 유형과 검출 환경 유형의 협력에 기초하여, 음성 품질 향상을 위해 사용되는 음성 정정 지시 또는 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시가 출력됨으로써, 음성 엔진은 음성 정정 지시에 따라 인식할 음성에 대해 대응하는 처리를 수행할 수 있다. 그러므로 원 음성에 대한 손상이 없는 경우에도 높은 인식률이 얻어지는 것을 보장할 수 있고, NTD 엔진이 현재 환경 유형에 따라 음성 엔진에 의해 출력되는 초기 인식 결과의 신뢰값에 대해 적응적인 조정을 수행하기 때문에, 최종적으로 출력되는 음성 인식 결과가 높은 신뢰성을 가지는 것을 보장할 수 있다. 따라서 다양한 환경에서 음성 인식을 적응적으로 조정하는 목적이 달성되고, 사용자가 다양한 환경에서 우수한 사용자 경험을 얻을 수 있는 것이 담보된다.
실시예 3
전술한 실시예 1 및/또는 실시예 2에 기초하여, 도 1 및 도 2에 도시된 단계 S102에 대해, NTD 엔진이, 획득된 검출 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 비교한 후, 검출 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 검출 환경 유형으로서 선택하는데, 그 구체적인 수행 과정이 도 4에 도시되며, 주로 다음 단계를 포함한다.
단계 S1021: NTD 엔진이 수신된 검출 음성을 에너지 레벨에 따라 검출 음성 프레임 파트와 검출 잡음 프레임 파트로 분할한다.
단계 S1022: 검출 음성 프레임 파트의 에너지 레벨과 검출 잡음 프레임 파트의 에너지 레벨을 각각 계산하고 대응하는 검출 음성 레벨 및 검출 잡음 레벨을 획득한다.
단계 S1023: 검출 음성 레벨 및 검출 잡음 레벨에 따라 검출 음성에 대응하는 검출 SNR을 획득한다. 검출 SNR=검출 음성 레벨=검출 잡음 레벨.
단계 S1024: 검출 음성 레벨, 검출 잡음 레벨, 및 검출 SNR을 상이한 샘플 환경에서의 음성 훈련 샘플의 음성 훈련 레벨, 잡음 훈련 레벨, 및 훈련 SNR과 각각 비교한다.
단계 S1025: 검출 음성 레벨과 최소차를 가진 음성 훈련 레벨, 검출 잡음 레벨과 최소차를 가진 잡음 훈련 레벨, 및 검출 SNR과 최소차를 가진 훈련 SNR에 대응하는 샘플 환경이 검출 환경 유형인 것으로 결정한다.
단계 S1024에서, 다양한 환경에서 실제로 녹음된 음성 파일을 훈련한 후, NTD 엔진 계산에 기초하여 획득되는, 다양한 환경에서 훈련되는 각 음성 훈련 샘플의 음성 훈련 레벨, 잡음 훈련 레벨, 및 훈련 SNR이 획득된다. 그런 다음, 검출 음성 레벨, 검출 잡음 레벨 및 검출 SNR이, 상이한 샘플 환경에서의 음성 훈련 샘플의 음성 훈련 레벨, 잡음 훈련 레벨 및 훈련 SNR과 각각 비교된다.
음성 훈련 샘플이 상이한 샘플 환경에서 훈련되는 경우, 획득되는 훈련 값에 더하여, 음성 훈련 샘플에 대한 상이한 샘플 환경의 유효 영향 지속시간(T)이 획득된다.
단계 S1024에서의 비교에 기초하여, 단계 S1025가, 검출 음성 레벨과 최소차를 가진 음성 훈련 레벨, 검출 잡음 레벨과 최소차를 가진 잡음 훈련 레벨, 및 검출 SNR과 최소차를 가진 훈련 SNR에 대응하는 샘플 환경이 검출 환경 유형인 것으로 결정하기 위해 수행된다. 즉, 훈련 중에 상이한 샘플 환경에서 어느 샘플 환경이 현재 환경에 가장 가까운지가 결정되고, 현재 환경에 가장 가까운 샘플 환경이 검출 환경 유형으로서 선택된다. 설명을 위해 예시를 이용한다.
2개의 샘플 환경이 있다. 즉, 조용한 환경과 시끄러운 환경이다. 조용한 환경인 경우, 샘플 SNR은 15dB이고, 잡음 샘플 레벨은 -25dB이고, 음성 샘플 레벨은 10dB이다. 시끄러운 환경의 경우, 샘플 SNR은 10dB이고, 잡음 샘플 레벨은 -16dB이고, 음성 샘플 레벨은 10dB이다. 검출 음성이 NTD 엔진에 의해 계산된 후, 검출 음성의 검출 SNR, 검출 잡음 레벨, 및 검출 음성 레벨이 획득되고, 이것은 각각 14dB, -23dB 및 9dB이다. 조용한 환경 및 시끄러운 환경에서의 동일한 유형의 훈련 값과 비교하는 것에 의해, 15dB의 샘플 SNR, -25dB의 잡음 샘플 레벨, 그리고 10dB의 음성 샘플 레벨이 가장 가깝다는 것을 알게 된다. 따라서 15dB의 샘플 SNR, -25dB의 잡음 샘플 레벨, 그리고 10dB의 음성 샘플 레벨에 대응하는 조용한 환경이 검출 환경 유형인 것으로 결정된다.
계산 결과를 검출 음성의 훈련 결과와 비교하는 과정에 따라, 현재 음성을 입력하는 시점에서의 환경 유형이 정확하게 획득될 수 있다.
유사하게, 실시예 1 및/또는 실시예 2에 기초하여, 도 1 및 도 2에서 도시된 단계 S103의 경우, 인식 가능한 이전 환경 유형이 존재하는 경우, 검출 환경 유형 및 이전 환경 유형에 따라 결정을 수행하고, 음성 정정 지시를 출력한다. 단계 S103의 구체적인 수행 과정이 도 5에 도시되고, 주로 다음 단계를 포함한다.
단계 S1031: 이전 환경 유형, 그리고 입력 음성에 대한 이전 환경 유형의 유효 영향 지속시간(T)를 획득한다.
단계 S1031에서, 유효 영향 지속시간(T)의 의미는 도 4에 도시된 단계 S1024에서의 유효 영향 지속시간(T)의 의미와 동일하다. 둘 다 입력 음성에 대한 그들의 대응하는 환경 유형의 영향의 지속시간을 의미한다.
이론적으로, 유효 영향 지속시간(T)은 각 환경 유형의 시간 감쇠 범위(time decaying range)이다. 예컨대, 조용한 환경의 범위는 20초이고, 시끄러운 환경의 범위는 10초이고, 길가 환경(보통 길가 환경)의 범위는 15초이다. 이 범위는 본 발명의 본 실시예에서 한정되는 것은 아니고, 그 값은 실제 사용에서 녹음된 음성 파일에 따른 분석에 의해 획득된 통계치일 수 있다.
단계 S1032: 검출 음성을 입력하는 시간과 이전에 음성을 입력한 시간의 시간차(t), 그리고 검출 환경 유형에 대한 이전 환경 유형의 영향값(w(t))을 계산한다.
단계 S1032에서, 현재 검출 음성을 입력하는 시간은 현재 음성을 입력하는 시간으로 간주되고, 현재 음성을 입력하는 시간과 이전에 음성을 입력한 시간 간의 시간 간격, 즉 시간차(t)가 계산된다. 검출 환경 유형에 대한 이전 환경 유형의 영향값(w(t))은, 시간(t)에 따라 감쇠하는 절단(truncation) 함수이고, w(t)의 값은 상이한 샘플 환경에서 음성 훈련 샘플의 샘플 데이터를 훈련하는 것에 의해 획득되고, t와 T의 값은 양의 정수이다.
w(t)를 이용함으로써, 두 번 음성을 입력하는 시간 간의 시간 간격이 짧으면, 두 번의 음성 입력이 동일한 환경에서 이루어졌을 가능성이 높고, 이전 환경 유형의 결정이 현재 환경 유형의 결정에 큰 영향을 가지는 것으로 생각될 수 있고, 시간 간격이 길면, 이전 환경 유형의 결정이 현재 환경 유형의 결정에 주는 영향은 작거나 없는 것으로 생각될 수 있다.
단계 S1033: 이전 환경 유형 및 검출 환경 유형 간의 균형 관계를 결정한다.
단계 S1034: 이전 환경 유형 및 검출 환경 유형 모두가 시끄러운 환경인 경우, 음성 품질 향상을 위해 사용되는 음성 정정 지시를 출력한다.
단계 S1035: 이전 환경 유형 및 검출 환경 유형 모두가 조용한 환경인 경우, 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시를 출력한다.
단계 S1036: 이전 환경 유형은 시끄러운 환경이고 검출 환경 유형은 조용한 환경이며, w(t)>=0.5인 경우, 음성 품질 향상을 위해 사용되는 음성 정정 지시를 출력한다.
단계 S1037: 이전 환경 유형이 시끄러운 환경이고 검출 환경 유형은 조용한 환경이며, w(t)<0.5인 경우, 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시를 출력한다.
단계 S1038: w(t)>T인 경우, 검출 환경 유형이 조용한 환경인 경우에는 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시를 출력하고, 검출 환경 유형이 시끄러운 환경인 경우에는 음성 품질 향상을 위해 사용되는 음성 정정 지시를 출력한다.
단계 S1032에 기초하여, 이전 환경 유형과 검출 환경 유형 간의 균형 관계가 단계 S1033에서 결정된다. 상술한 단계 S1034 내지 S1038에서의 결정 결과에 따라 알 수 있는 것은, 이전 환경 유형이 검출 환경 유형과 동일한 경우, 그것은 음성 입력이 이루어지는 현재 환경이 변하지 않았고 현재 환경이 여전히 이전 환경 유형이라는 것을 나타낸다. 이전 환경 유형이 시끄러운 환경인 경우, 잡음 감소 처리가 여전히 수행될 필요가 있고 음성 품질 향상을 위해 사용되는 음성 정정 지시가 출력된다. 이전 환경 유형이 조용한 환경인 경우, 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시가 음성 인식에서 잡음 감소 처리의 영향을 피하기 위해 출력된다.
이전 환경 유형이 검출 환경 유형과 동일하지 않은 경우, 검출 환경 유형에 대한 이전 환경 유형의 영향값(w(t))을 참조하면서 이전 환경 유형 및 검출 환경 유형 간의 균형에 대해 결정이 수행되어야 한다.
w(t)는 시간(t)에 따라 감쇠하는 절단(truncation) 함수이고, 그 w(t)의 값은 상이한 샘플 환경에서의 음성 훈련 샘플의 샘플 데이터를 훈련시키는 것에 의해 획득되고, 구체적으로 다음과 같다.
w(t) = exp(-t*lamda), 여기서, t>T, w(t)=0이고, exp(*)는 밑이 e인 지수 함수이고, lamda는 무명 함수(anonymous function)이고, w(t)는 시간(t)에 따라 감쇠하며 이전 환경 유형이 오직 시간 범위 내에서만 기능한다는 것을 나타낸다.
도 6으로부터 알 수 있듯이, 두 번의 음성 입력을 수행하는 시간차(t) 및 w(t) 간의 관계는 하강추세의 곡선이다. 시간차(t)가 작아질수록, w(t)가 커지고, 현재 입력 음성에 대한 이전 환경 유형의 영향이 커진다. 시간차(t)가 커질수록 현재 입력 음성에 대한 이전 환경 유형의 영향이 더 작아진다. 도 6에 도시된 바와 같이, 무명 함수 lamda=0.1로 가정하면, t=0일 때, w(0)=1이고, 아날로그로 하면, w(1)=exp(0.1)~0.905; w(2)=0.819; w(3)=0.741; w(4)=0.670; w(5)=0.607; w(6)=0.549; 그리고 T=20이면 w(t)=0이고 여기서 t>20이다.
시간차 t>T인 경우, 즉, 시간차(t)가 유효 효과 지속시간을 초과한 경우, 이 경우, 현재 입력 음성은 이전 환경 유형이 존재하더라도 그 영향을 받지 않는다. 일반적으로, 이전 환경 유형의 저장 기간에 따라, 이전에 저장된 환경 유형이 폐기되어 있을 수도 있다.
앞서 설명한 감쇠 함수 w(t)=exp(-t*lamda)는 W(t) = exp(-(t/det)^2로 확장될 수 있다. 여기서, 감쇠 함수는 더 빠르게 감쇠한다. 실제 응용에서, 상이한 감쇠 함수가 상이한 상황에서 선택적으로 사용될 수 있다.
본 발명의 본 실시예에서 개시된, 단계 S1034 내지 S1038의 5개의 결과는 단지 이전 환경 유형이 시끄러운 환경으로서 사용된 경우 바람직한 내용으로 사용되었을 뿐, 본 발명의 본 실시예가 그것에 한정되는 것은 아니다. 이전 환경 유형이 조용한 환경인 경우, 상술한 설명으로부터, 출력될 음성 정정 지시의 유형은 이전 환경 유형과 검출 환경 유형 모두를 함께 이용하여 결정된다.
본 발명의 본 실시예에 제시된 음성 정정 지시를 출력하는 과정에 따르면, 설명을 위해 양자화된 공식이 사용되는데, 구체적으로는 다음과 같다. 조용한 환경의 양자화 값은 0이고, 시끄러운 환경의 양자화 값은 1이다. 이전 환경 유형과 검출 환경 유형 간의 균형 관계는 다음과 같다.
balance = noise environment*w(t)+quiet environment
만일 balance>0.5이면, 균형 관계가 1에 더 가깝다는 것으로 생각될 수 있는데, 이것은 다시 말해, 시끄러운 환경이라는 것이고, 따라서 음성 입력이 되고 있는 현재 환경은 시끄러운 환경이고, 음성 품질 향상을 위해 사용되는 음성 정정 지시가 출력된다.
balance<0.5이면, 균형 관계는 0에 더 가깝다는 것으로 생각될 수 있는데, 이것은 다시 말해, 조용한 환경이라는 것이고, 따라서 음성 입력이 되고 있는 현재 환경은 조용한 환경이고, 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시가 출력된다.
balance=0.5인 경우, 관성적인 논리 처리에 따라, 현재 환경은 이전 환경과 동일, 즉 이전 환경이 시끄러운 환경이면 현재 환경도 시끄러운 환경이고 음성 품질 향상을 위해 사용되는 음성 정정 지시가 출력되고; 이전 환경이 조용한 환경이면 현재 환경도 조용한 환경이고 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시가 출력된다.
도 6에 도시된 감쇠 함수와 상술한 양자화 공식의 설명을 참조하면, 단계 S1034에서의 결정 과정이 예시를 이용하여 설명된다.
조용한 환경의 유효 효과 지속시간이 20초이고 시끄러운 환경의 유효 효과 지속시간이 10초인 것으로 가정한다.
시간차(t)가 5초인 경우, 이전 환경 유형이 시끄러운 환경이면, T는 10초이고, w(t)는 0.8이므로, w(t)는 0.5보다 크다. 이것은 이전의 시끄러운 환경이 현재 입력 음성에 큰 영향을 준다는 것을 나타낸다. 현재 환경 유형이 시끄러운 환경에 속하는 것으로 결정되고, 이 경우, 음성 품질 향상을 위해 사용되는 음성 정정 지시가 출력된다.
시간차가 10초인 경우, 이전 환경 유형이 시끄러운 환경이면, 관성적 설정에 따라, T는 10초이고, w(t)는 0.5이므로, w(t)가 0.5와 같다. 현재 환경은 시끄러운 환경인 것으로 결정되고, 이 경우, 음성 품질 향상을 위해 사용되는 음성 정정 지시가 출력된다.
시간차가 20초인 경우, 이전 환경 유형이 시끄러운 환경이면, T는 10초이고, 이 경우 t>T이므로 w(t)는 0이다. 따라서 이전 환경 유형은 현재 음성 인식에 영향을 주지 않는다. 따라서 결정은, 본 발명의 실시예 2에 도시된 초기 환경 유형 및 검출 환경을 이용하여 수행된다. 상세하게는, 본 발명의 실시예 2에 기술된 내용을 참조할 수 있다.
이전 환경 유형이 조용한 환경이면, 관성적 설정에 따라, T는 20초이고, w(t)는 0.5이다. 현재 환경 유형은 조용한 환경에 속하는 것으로 결정되고, 이 경우, 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시가 출력된다.
실시예 1 및/또는 실시예 2에 기초하여, 도 1 및 도 2에 개시된 단계 S105에 대해, NTD 엔진은 수신된 인식할 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 비교하고, 인식할 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 현재 환경 유형으로서 선택하며, 미리 설정된 기간 후에 현재 환경 유형을 폐기한다. 단계 S105의 구체적인 수행 과정이 도 7에 도시되어 있으며, 주로 다음 단계를 포함한다.
단계 S1051; NTD 엔진이 수신된 인식할 음성의 음성 프레임 파트와 잡음 프레임 파트를 분석하여 인식할 음성의 잡음 레벨, 음성 레벨, 및 SNR을 획득한다.
단계 S1051에서, NTD 엔진은 획득된 인식할 음성을 에너지 레벨에 따라 분할하여 음성 프레임 파트와 잡음 프레임 파트를 획득한다. 분석 과정은 다음과 같다. 음성 프레임의 에너지 레벨과 잡음 프레임 파트의 에너지 레벨을 각각 계산하여 대응하는 음성 레벨 및 잡음 레벨을 획득하고, SNR은 음성 레벨과 잡음 레벨 간의 차와 같다는 것에 기초하여 결정된다.
단계 S1052: 인식할 음성의 잡음 레벨, 음성 레벨, 및 SNR을, 상이한 샘플 환경에서의 음성 훈련 샘플의 잡음 훈련 레벨, 음성 훈련 레벨 및 훈련 SNR과 각각 비교한다.
단계 S1053: 잡음 레벨과 최소차를 가진 잡음 훈련 레벨, 음성 레벨과 최소차를 가진 음성 훈련 레벨, 그리고 SNR과 최소차를 가진 훈련 SNR에 대응하는 샘플 환경 유형이 현재 환경 유형인 것으로 결정한다.
상술한 단계 S1051 내지 S1053의 과정을 수행하는 원리는 상술한 단계 S1021 내지 S1025의 과정을 수행하는 원리와 동일하고, 차이는 단지, 전자는 검출 음성에 기초한 처리이고 후자는 인식할 음성에 기초한 처리라는 점이다. 따라서, 구체적인 수행 과정에 대해서는, 상술한 단계 S1021 내지 S1025를 참조할 수 있다.
단계 S1054에서, 저장 과정에서, 이전 환경 유형 및 이전 환경 유형에 관한 정보와 같은 구 정보가 현재 저장 영역에 저장되어 있으면, 구 정보를 현재 결정된 환경 유형 및 현재 결정된 환경 유형에 관한 정보로 대체하고, 저장 과정에서, 현재 저장 영역이 아무런 정보도 없이 비어 있으면, 현재 결정된 환경 유형 및 현재 결정된 환경 유형에 관한 정보가 바로 저장되며, 현재 저장된 정보는 미리 설정된 저장 기간 후에 폐기된다.
미리 설정된 저장 기간은 상이한 요건에 따라 설정될 수 있다. 일반적으로, 미리 설정된 저장 기간이 다음번 음성 입력의 인식에 영향을 줄 것인지 여부가 미리 설정된 저장 기간을 설정하기 위해 고려되어야 한다. 예컨대, 현재 저장된 환경 유형은 다음번 음성 입력의 인식을 위해 이전 환경 유형으로서 사용된다. 더 바람직한 방식으로서, 미리 설정된 저장 기간은 인식할 음성에 대한 상이한 환경 유형의 유효 영향 지속시간에 따라 설정될 수 있다. 미리 설정된 저장 기간의 구체적인 길이는 인식할 음성에 대한 현재 저장된 환경 유형의 유효 영향 지속시간의 길이와 같을 수 있고, 또한 그 유효 영향 지속시간보다 더 길 수도 있고, 또 일반적으로 유효 영향 지속시간보다 더 짧지는 않다.
본 발명의 실시예 3에 개시된 음성 인식 방법에 따르면, 샘플 검출 유형과 이전 환경 유형의 협력하에서, 음성 품질 향상을 위한 음성 정정 지시 또는 잡음 감소 처리를 비활성화시키기 위한 음성 정정 지시가 입력되어, 음성 엔진이 인식할 음성에 대해 음성 정정 지시에 따라 대응하는 처리를 수행하도록 한다. 따라서, 원 음성에 손상을 주지 않으면서 높은 인식률을 얻을 수 있고, NTD 엔진 엔진은, 인식할 음성을 이용하여 계산되고 결정된 현재 환경 유형을 이용하여, 음성 엔진에 의해 출력된 초기 인식 결과의 신뢰값에 대해 적응적인 조정을 수행하며, 이로써 최종적으로 출력되는 음성 인식 결과가 높은 신뢰성을 가지는 것을 보장할 수 있다. 따라서, 다양한 환경에서 음성 인식을 적응적으로 조정하는 목적이 달성되고, 사용자가 다양한 환경에서 우수한 사용자 경험을 획득할 수 있는 것을 담보하다.
본 발명의 본 실시예에서 상세하게 개시되고 기술된 음성 인식 방법에 대해, 본 발명의 실시예는 또한 상술한 방법을 대응하여 수행하는 음성 인식 장치를 개시하며, 또한 그러한 음성 인식 장치를 가진 전자 장치를 개시하고, 이하에서 상세하게 그 구체적인 실시예를 설명한다.
실시예 4
도 8에 도시된 바와 같이, 도 8은 본 발명의 실시예 4에 개시된 음성 인식 장치의 개략 구조도이다. 이 장치는 주로, 프로세서(101), NTD 엔진(102), 및 음성 엔진(103)을 포함한다.
프로세서(101)는 입력 음성을 샘플링하여 검출 음성과 인식할 음성을 획득하고 검출 음성과 인식할 음성을 NTD 엔진(102)과 음성 엔진(103)에 동시에 입력하도록 구성되고, 또 저장 여역을 검출하여, 인식 가능한 이전 환경 유형이 저장 영역에 존재할 때 NTD 엔진(102)에 의해 출력된 검출 환경 유형과 이전 환경 유형 간의 비교 결과에 따라 음성 정정 지시를 출력하도록 구성되며, 또한 음성 엔진(103)에 의해 출력된 초기 인식 결과의 신뢰값이 NTD 엔진(102)에 의해 출력된 현재 환경 유형에 따라 조정된 후에 최종 인식 결과를 출력하도록 구성된다.
검출 음성에 포함된 음성 데이터의 길이는 인식할 음성에 포함된 음성 데이터의 길이보다 적고, 환경 유형은 조용한 환경 또는 시끄러운 환경 중 하나이다. NTD 엔진(102)은 프로세서(101)에 의해 출력된 검출 음성과 인식할 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 각각 비교하고, 검출 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 환경 유형을 검출 환경 유형으로서 선택하고, 인식할 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 환경 유형은 현재 환경 유형으로서 선택하고, 현재 환경 유형을 저장 영약에 저장하고 미리 설정된 기간 경과 후에 현재 환경 유형을 폐기하도록 구성된다.
음성 엔진(103)은 프로세서(101)에 의해 출력된 음성 정정 지시에 따라 수신된 인식할 음성에 대한 정정을 제어하고 초기 인식 결과를 출력하도록 구성된다.
프로세서(101)가, NTD 엔진(102)에 의해 출력된 검출 환경 유형 및 이전 환경 유형에 따라, 인식 가능한 이전 환경 유형이 저장 영역에 존재하는지의 결정을 수행하고, 음성 정정 지시를 출력하도록 구성된다. 프로세서(101)의 구체적인 실행 과정은 다음과 같다.
- 이전 환경 유형과, 음성 훈련 샘플에 대한 이전 환경 유형의 유효 효과 지속시간(T)을 획득한다.
- 검출 음성을 입력한 시간과 이전에 음성을 입력한 시간 간의 시간차(t) 및 검출 환경 유형에 대한 이전 환경 유형의 효과값(w(t))을 계산한다.
- 이전 환경 유형과 검출 환경 유형 간의 균형 관계를 결정한다.
- 이전 환경 유형과 검출 환경 유형 모두가 시끄러운 환경인 때, 음성 품질 향상을 위해 사용되는 음성 정정 지시를 출력한다.
- 이전 환경 유형과 검출 환경 유형 모두가 조용한 환경인 때, 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시를 출력한다.
- 이전 환경 유형이 시끄러운 환경이고, 검출 환경 유형은 조용한 환경이며, w(t)>0.5인 때, 음성 품질 향상을 위해 사용되는 음성 정정 지시를 출력한다.
- 이전 환경 유형이 시끄러운 환경이고, 검출 환경 유형은 조용한 환경이며, w(t)<0.5인 때, 잡음 감소 처리를 비활성화시키기 위한 음성 정정 지시를 출력한다.
- w(t)>T인 때, 검출 환경 유형이 조용한 환경이면 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시를 출력하고, 검출 환경 유형이 시끄러운 환경이면 음성 품질 향상을 위해 사용되는 음성 정정지시를 출력한다.
w(t)는 시간(t)에 따라 감쇠하는 절단 함수이고, w(t)의 값은 상이한 샘플 환경에서의 음성 훈련 샘플의 샘플 데이터를 훈련시키는 것에 의해 획득되며, t 및 T의 값은 양의 정수이다.
NTD 엔진(102)이 프로세서(101)에 의해 출력된 인식할 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 비교하는 것을 수행하고, 인식할 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 환경 유형을 현재 환경 유형으로서 선택한다. NTD 엔진(102)의 구체적인 수행 과정은 다음과 같다:
획득된 인식할 음성의 음성 프레임 파트와 잡음 프레임 파트를 분석하여 인식할 음성의 잡음 레벨, 음성 레벨, 그리고 SNR을 획득하고; 인식할 음성의 잡음 레벨, 음성 레벨 그리고 SNR을, 상이한 샘플 환경에서의 음성 훈련 샘플의 잡음 훈련 레벨, 음성 훈련 레벨 그리고 훈련 SNR과 각각 비교하고; 잡음 레벨과 최소차를 가진 잡음 훈련 레벨, 음성 레벨과 최소차를 가진 음성 훈련 레벨, 및 SNR과 최소차를 가진 훈련 SNR에 대응하는 환경 유형을 현재 환경 유형으로서 결정한다.
저장 영역에 현재 환경 유형을 저장하고 미리 설정된 기간 후에 현재 환경 유형을 폐기하는 과정에서는, 이전 환경 유형 및 이전 환경 유형에 관한 정보와 같은 구 정보가 현재 저장 영역에 저장되어 있으면, 구 정보는 현재 결정된 현재 환경 유형 및 현재 결정된 현재 환경 유형에 관한 정보로 교체되고, 저장 과정에서, 현재 저장 영역이 아무런 정보 없이 비어 있으면, 현재 결정된 현재 환경 유형과 현재 결정된 현재 환경 유형에 관한 정보가 바로 저장되며, 현재 저장된 정보는 미리 설정된 저장 기간 후에 폐기된다.
본 발명의 실시예 4에 개시된 음성 인식 장치에 의해 수행되는 방법은 본 발명의 실시예 1 내지 본 발명의 실시예 3에 개시된 방법이다. 따라서, 프로세서(101), NTD 엔진(102) 그리고 음성 엔진(103)을 실행하는 구체적인 과정에 대해서는, 앞서 설명한 대응하는 방법을 참조할 수 있으므로 여기서 반복 설명은 하지 않는다.
또한, 본 발명의 실시예 4는 상술한 음성 인식 장치를 가진 전자 장치를 개시한다. 도 9에 도시된 바와 같이, 이 전자 장치는 적어도 음성 인식 장치(1)에 연결된 음성 녹음 장치(2) 및 음성 녹음 장치(2)에 연결된 마이크로폰(3)을 포함한다.
구체적으로, 음성 녹음 장치(2)는 마이크로폰(3)을 이용하여 현재 입력 음성을 수집하고 기록하며, 녹음된 음성을 관련 처리를 위해 음성 인식 장치(1) 내의 프로세서에 입력한다.
음성 인식 장치를 가지고 있고 본 발명의 실시예 4에서 개시된 전자 장치는 이동 전화와 PAD와 같은 이동 단말일 수 있고 또한 음성 녹음 장치 및 마이크로폰을 가진 고정되 단말일 수도 있다.
결론:
본 발명의 실시예에서 개시된 음성 인식 방법, 음성 인식 장치 그리고 전자 장치에 따르면, 먼저 현재 입력 음성의 검출 환경 유형과 인식 가능한 이전 환경 유형의 협력하에서, 인식할 음성을 정정할지 음성 엔진에 지시하기 위해 사용되는 음성 정정 지시가 제공되고, 이로써 높은 인식률로 초기 인식 결과의 출력의 유효성을 보장할 수 있고, 이로써 초기 인식 결과의 신뢰성이 NTD 엔진의 계산 결과에 따라 획득된 현재 환경 유형에 따라 조정되며, 최종적으로, 현재 입력 음성에 대한 높은 인식률 및 인식 효과를 가진 최종 인식 결과가 획득된다. 이러한 방식으로, 다양한 환경에서, 음성 인식에 대해 적응적인 조정이 수행될 수 있고, 이로써 사용자는 우수한 음성 애플리케이션 경형을 얻게 된다.
본 명세서에서의 실시예들은 모두 그 실시예에서의 동일 또는 유사한 부분에 대해, 누진적으로 설명하였으므로 이들 실시예를 참조할 수 있고, 각 실시예는 다른 실시예와 다른 점에 중점을 두고 있다. 실시예에 개시된 장치는 여기 개시된 방법에 대응하며, 따라서 간략히 설명되었고, 관련 부분에 대해서는 방법 실시예에서의 부분적인 설명을 참조할 수 있다.
본 명세서에 개시된 실시예의 조합에 있어서, 방법 또는 알고리즘의 단계들은 하드웨어, 프로세서에 의해 실행되는 소프트웨어 모듈, 또는 그 조합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM, ROM, 전기적 프로그래머블 ROM, 전기적으로 소거할 수 있는 프래그래머블 ROM, 레지스터, 하드디스크, 탈거 가능한 디스크, CD-ROM, 또는 관련 분야에 잘 알려진 모든 형태의 저장 매체일 수 있다.
개시된 실시예의 상술한 설명은 통상의 기술자가 본 발명을 구현하거나 사용하는 것을 돕는다. 이들 실시예에 대한 다양한 변형은 통상의 기술자에게 자명하며, 본 명세서에 정의된 전체적인 원리는 본 발명의 기술적 사상이나 보호 범위를 벗어나지 않으면서 다른 실시예로서 구현될 수 있다. 그러므로 본 발명은 여기 명세서에 기재된 실시예에 한정되지 않으며, 본 명세서에 개시된 원리 및 신규성에 따라는 최대한 넓음 범위에 일치한다.

Claims (11)

  1. 음성 인식 방법으로서,
    입력 음성을 분할함으로써 검출 음성 및 인식할 음성을 획득하는 단계 - 상기 검출 음성에 포함된 음성 데이터는 길이는 상기 인식할 음성에 포함된 음성 데이터의 길이보다 작음 -;
    잡음 유형 검출 엔진에 의해, 상기 획득된 검출 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 비교한 후, 상기 검출 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 검출 환경 유형으로서 선택하는 단계 - 상기 샘플 환경은 조용한 환경 및 시끄러운 환경을 포함함 -;
    저장 영역을 검출하고, 상기 저장 영역에 인식 가능한 이전 환경 유형이 있는 경우, 상기 검출 환경 유형 및 상기 이전 환경 유형 간의 비교의 결과에 따라 음성 정정 지시를 출력하는 단계 - 상기 이전 환경 유형은 조용한 환경 또는 시끄러운 환경임 -;
    음성 엔진에 의해, 상기 음성 정정 지시에 따라 상기 인식할 음성에 대한 정정을 제어하고, 초기 인식 결과를 출력하는 단계;
    상기 잡음 유형 검출 엔진에 의해, 수신된 인식할 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 개별로 비교하고, 상기 인식할 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 현재 환경 유형으로서 선택하는 단계;
    상기 현재 환경 유형을 상기 저장 영역에 저장하고, 미리 설정된 기간이 경과한 후 상기 현재 환경 유형을 폐기하는 단계; 및
    상기 현재 환경 유형에 따라 상기 초기 인식 결과의 신뢰값을 조정한 후 최종 인식 결과를 출력하는 단계
    를 포함하는 음성 인식 방법.
  2. 제1항에 있어서,
    상기 이전 환경 유형이 상기 저장 영역에서 인식되지 않는 경우, 상기 음성 인식 방법은,
    미리 저장된 초기 환경 유형을 획득하는 단계 - 상기 초기 환경 유형은 조용한 환경 또는 시끄러운 환경으로 이루어짐 -; 및
    상기 초기 환경 유형 및 상기 검출 환경 유형에 따라 결정하여 음성 정정 지시를 출력하는 단계
    를 더 포함하는, 음성 인식 방법.
  3. 제2항에 있어서,
    상기 초기 환경 유형 및 상기 검출 환경 유형에 따라 결정하여 음성 정정 지시를 출력하는 단계는,
    상기 초기 환경 유형이 상기 검출 환경 유형과 동일한지 여부를 결정하는 단계;
    상기 초기 환경 유형이 상기 검출 환경 유형과 동일하면, 상기 초기 환경 유형 및 상기 검출 환경 유형 모두가 시끄러운 환경인 경우에는 음성 품질 향상을 위해 사용되는 음성 정정 지시를 출력하고, 상기 초기 환경 유형 및 상기 검출 환경 유형 모두가 조용한 환경인 경우에는 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시를 출력하는 단계; 및
    상기 초기 환경 유형이 상기 검출 환경 유형과 동일하지 않으면, 상기 초기 환경 유형이 시끄러운 환경인 경우에는 음성 품질 향상을 위해 사용되는 음성 정정 지시를 출력하고, 상기 초기 환경 유형이 조용한 환경인 경우에는 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시를 출력하는 단계
    를 포함하는, 음성 인식 방법.
  4. 제1항에 있어서,
    상기 저장 영역에 인식 가능한 이전 환경 유형이 있는 경우, 상기 검출 환경 유형 및 상기 이전 환경 유형 간의 비교의 결과에 따라 음성 정정 지시를 출력하는 것은,
    상기 이전 환경 유형 및 상기 입력 음성에 대한 상기 이전 환경 유형의 유효 효과 지속시간(T)을 획득하는 단계;
    상기 검출 음성을 입력한 시간과 이전에 음성을 입력한 시간 간의 시간차(t), 및 상기 검출 환경 유형에 대한 이전 환경 유형의 효과값(w(t))을 계산하는 단계 - w(t)는 시간(t)에 따라 감쇠하는 절단(truncation) 함수이고, w(t)의 값은 상이한 샘플 환경에서의 음성 훈련 샘플의 샘플 데이터를 훈련하는 것에 의해 획득되고, t 및 T의 값은 양의 정수임 -;
    상기 이전 환경 유형 및 상기 검출 환경 유형 간의 균형 관계를 결정하는 단계;
    상기 이전 환경 유형 및 상기 검출 환경 유형 모두가 시끄러운 환경인 때, 음성 품질 향상을 위해 사용되는 음성 정정 지시를 출력하는 단계;
    상기 이전 환경 유형 및 상기 검출 환경 유형 모두가 조용한 환경인 때, 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시를 출력하는 단계;
    상기 이전 환경 유형이 시끄러운 환경이고, 상기 검출 환경 유형이 조용한 환경이며, w(t)>=0.5인 때, 음성 품질 향상을 위해 사용되는 음성 정정 지시를 출력하는 단계;
    상기 이전 환경 유형이 시끄러운 환경이고, 상기 검출 환경 유형이 조용한 환경이며, w(t)<0.5인 때, 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시를 출력하는 단계; 및
    w(t)>T인 때, 상기 검출 환경 유형이 조용한 환경인 경우에는 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시를 출력하고, 상기 검출 환경 유형이 시끄러운 환경인 경우에는 음성 품질 향상을 위해 사용되는 음성 정정 지시를 출력하는 단계
    를 포함하는 음성 인식 방법.
  5. 제1항에 있어서,
    상기 잡음 유형 검출 엔진에 의해, 상기 수신된 인식할 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 개별로 비교하고, 상기 인식할 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 현재 환경 유형으로서 선택하는 단계가,
    상기 잡음 유형 검출 엔진에 의해, 상기 수신된 인식할 음성의 음성 프레임 파트와 잡음 프레임 파트를 분석하여 상기 인식할 음성의 잡음 레벨, 음성 레벨, 및 SNR을 획득하는 단계;
    상기 인식할 음성의 잡음 레벨, 음성 레벨, 및 SNR을, 상이한 샘플 환경에서의 음성 훈련 샘플의 잡음 훈련 레벨, 음성 훈련 레벨, 및 훈련 SNR과 각각 비교하는 단계; 및
    상기 잡음 레벨과 최소차를 가진 잡음 훈련 레벨, 상기 음성 레벨과 최소차를 가진 음성 훈련 레벨, 및 상기 SNR과 최소차를 가진 훈련 SNR에 대응하는 샘플 환경이 상기 현재 환경 유형인 것으로 결정하는 단계
    를 포함하는, 음성 인식 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 현재 환경 유형이 조용한 환경인 경우의 상기 미리 설정된 기간은 상기 현재 환경 유형이 시끄러운 환경인 경우의 미리 설정된 기간보다 더 긴, 음성 인식 방법.
  7. 제6항에 있어서,
    상기 시끄러운 환경은, 차량 탑승 저잡음 환경, 차량 탑승 고잡음 환경, 보통의 길가 환경, 번잡한 길가 환경, 및 소란스런 환경을 포함하는, 음성 인식 방법.
  8. 음성 인식 장치로서,
    프로세서, 잡음 유형 검출 엔진, 및 음성 엔진을 포함하고;
    상기 프로세서는,
    입력 음성을 샘플링하는 것에 의해 검출 음성과 인식할 음성을 획득하고, 상기 검출 음성과 상기 인식할 음성을 상기 잡음 유형 검출 엔진 및 상기 음성 엔진에 동시에 입력하며, 저장 영역을 검출하고, 상기 저장 영역에 인식 가능한 이전 환경 유형이 있는 경우, 상기 잡음 유형 검출 엔진에 의해 출력된 검출 환경 유형과 상기 이전 환경 유형 간의 비교의 결과에 따라 음성 정정 지시를 출력하고, 상기 음성 엔진에 의해 출력된 초기 인식 결과의 신뢰값이 상기 잡음 유형 검출 엔진에 의해 출력된 현재 환경 유형에 따라 조정된 후의 최종 인식 결과를 출력하도록 구성되고;
    상기 검출 음성에 포함된 음성 데이터의 길이는 상기 인식할 음성에 포함된 음성 데이터의 길이보다 작고, 상기 이전 환경 유형은 조용한 환경 또는 시끄러운 환경이고;
    상기 잡음 유형 검출 엔진은,
    상기 프로세서에 의해 출력된 상기 검출 음성 및 상기 인식할 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 개별로 비교하고, 상기 검출 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 검출 환경 유형으로서 선택하고, 상기 인식할 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 현재 환경 유형으로서 선택하며, 상기 현재 환경 유형을 저장 영역에 저장하고, 미리 설정된 기간이 경과한 후에 상기 현재 환경 유형을 폐기하도록 구성되고;
    상기 음성 엔진은, 상기 프로세서에 의해 출력된 상기 음성 정정 지시에 따라 수신된 인식할 음성에 대한 정정을 제어하고, 초기 인식 결과를 출력하도록 구성된,
    음성 인식 장치.
  9. 제8항에 있어서,
    상기 프로세서가, 저장 영역을 검출하고, 상기 저장 영역에 인식 가능한 이전 환경 유형이 있는 경우, 상기 잡음 유형 검출 엔진에 의해 출력된 검출 환경 유형과 상기 이전 환경 유형 간의 비교의 결과에 따라 음성 정정 지시를 출력하도록 구성된 것은,
    상기 프로세서가, 상기 이전 환경 유형 및 상기 입력 음성에 대한 상기 이전 환경 유형의 유효 효과 지속시간(T)을 획득하고; 상기 검출 음성을 입력한 시간과 이전에 음성을 입력한 시간 간의 시간차(t), 및 상기 검출 환경 유형에 대한 이전 환경 유형의 효과값(w(t))을 계산하며; 상기 이전 환경 유형 및 상기 검출 환경 유형 간의 균형 관계를 결정하고; 상기 이전 환경 유형 및 상기 검출 환경 유형 모두가 시끄러운 환경인 때, 음성 품질 향상을 위해 사용되는 음성 정정 지시를 출력하고; 상기 이전 환경 유형 및 상기 검출 환경 유형 모두가 조용한 환경인 때, 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시를 출력하며; 상기 이전 환경 유형이 시끄러운 환경이고, 상기 검출 환경 유형이 조용한 환경이며, w(t)>=0.5인 때, 음성 품질 향상을 위해 사용되는 음성 정정 지시를 출력하고; 상기 이전 환경 유형이 시끄러운 환경이고, 상기 검출 환경 유형이 조용한 환경이며, w(t)<0.5인 때, 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시를 출력하고; w(t)>T인 때, 상기 검출 환경 유형이 조용한 환경인 경우에는 잡음 감소 처리를 비활성화시키기 위해 사용되는 음성 정정 지시를 출력하고, 상기 검출 환경 유형이 시끄러운 환경인 경우에는 음성 품질 향상을 위해 사용되는 음성 정정 지시를 출력하도록 구성된 것을 포함하고,
    w(t)는 시간(t)에 따라 감쇠하는 절단(truncation) 함수이고, w(t)의 값은 상이한 샘플 환경에서의 음성 훈련 샘플의 샘플 데이터를 훈련하는 것에 의해 획득되고, t 및 T의 값은 양의 정수인,
    음성 인식 장치.
  10. 제8항에 있어서,
    상기 잡음 유형 검출 엔진이, 상기 프로세서에 의해 출력된 상기 인식할 음성을 상이한 샘플 환경에서의 음성 훈련 샘플과 비교하고, 상기 인식할 음성과 최소차를 가진 음성 훈련 샘플에 대응하는 샘플 환경을 현재 환경 유형으로서 선택도록 구성된 것은,
    상기 잡음 유형 검출 엔진이, 상기 수신된 인식할 음성의 음성 프레임 파트와 잡음 프레임 파트를 분석하여 상기 인식할 음성의 잡음 레벨, 음성 레벨, 및 SNR을 획득하고; 상기 인식할 음성의 잡음 레벨, 음성 레벨, 및 SNR을, 상이한 샘플 환경에서의 음성 훈련 샘플의 잡음 훈련 레벨, 음성 훈련 레벨, 및 훈련 SNR과 각각 비교하며; 상기 잡음 레벨과 최소차를 가진 잡음 훈련 레벨, 상기 음성 레벨과 최소차를 가진 음성 훈련 레벨, 및 상기 SNR과 최소차를 가진 훈련 SNR에 대응하는 샘플 환경이 상기 현재 환경 유형인 것으로 결정하도록 구성된 것을 포함하는,
    음성 인식 장치.
  11. 전자 장치로서,
    청구항 8 내지 10 중 어느 한 항에 따른 음성 인식 장치;
    상기 음성 인식 장치에 연결된 음성 녹음 장치; 및
    상기 음성 녹음 장치에 연결된 마이크로폰
    을 포함하는 전자 장치.
KR1020167014844A 2013-11-14 2014-08-01 음성 인식 방법, 음성 인식 장치 및 전자 장치 KR101852892B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201310573521.1 2013-11-14
CN201310573521.1A CN103632666B (zh) 2013-11-14 2013-11-14 语音识别方法、语音识别设备和电子设备
PCT/CN2014/083509 WO2015070645A1 (zh) 2013-11-14 2014-08-01 语音识别方法、语音识别设备和电子设备

Publications (2)

Publication Number Publication Date
KR20160079105A KR20160079105A (ko) 2016-07-05
KR101852892B1 true KR101852892B1 (ko) 2018-06-04

Family

ID=50213643

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167014844A KR101852892B1 (ko) 2013-11-14 2014-08-01 음성 인식 방법, 음성 인식 장치 및 전자 장치

Country Status (7)

Country Link
US (1) US9870771B2 (ko)
EP (1) EP2894449A4 (ko)
JP (1) JP6265450B2 (ko)
KR (1) KR101852892B1 (ko)
CN (1) CN103632666B (ko)
BR (1) BR112016010947A2 (ko)
WO (1) WO2015070645A1 (ko)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103632666B (zh) * 2013-11-14 2016-09-28 华为技术有限公司 语音识别方法、语音识别设备和电子设备
US9837102B2 (en) * 2014-07-02 2017-12-05 Microsoft Technology Licensing, Llc User environment aware acoustic noise reduction
CN105609102B (zh) * 2014-11-21 2021-03-16 中兴通讯股份有限公司 一种语音引擎参数配置方法和装置
MX363414B (es) * 2014-12-12 2019-03-22 Huawei Tech Co Ltd Aparato de procesamiento de señal para mejorar un componente de voz dentro de una señal de audio multi-canal.
US10114935B2 (en) * 2014-12-23 2018-10-30 Intel Corporation Technologies for login pattern based multi-factor authentication
CN104575510B (zh) * 2015-02-04 2018-08-24 深圳酷派技术有限公司 降噪方法、降噪装置和终端
KR101696595B1 (ko) * 2015-07-22 2017-01-16 현대자동차주식회사 차량, 및 그 제어방법
KR101736109B1 (ko) * 2015-08-20 2017-05-16 현대자동차주식회사 음성인식 장치, 이를 포함하는 차량, 및 그 제어방법
CN105825854B (zh) * 2015-10-19 2019-12-03 维沃移动通信有限公司 一种语音信号处理方法、装置及移动终端
JP5939480B1 (ja) * 2015-12-25 2016-06-22 富士ゼロックス株式会社 端末装置、診断システムおよびプログラム
CN107015914B (zh) * 2016-01-28 2020-12-22 长城汽车股份有限公司 数据标定方法及系统
CN109313900A (zh) * 2016-06-15 2019-02-05 索尼公司 信息处理设备和信息处理方法
CN105979442B (zh) * 2016-07-22 2019-12-03 北京地平线机器人技术研发有限公司 噪声抑制方法、装置和可移动设备
CN106448663B (zh) * 2016-10-17 2020-10-23 海信集团有限公司 语音唤醒方法及语音交互装置
JP6852478B2 (ja) * 2017-03-14 2021-03-31 株式会社リコー 通信端末、通信プログラム及び通信方法
CN107291676B (zh) * 2017-06-20 2021-11-19 广东小天才科技有限公司 截断语音文件的方法、终端设备及计算机存储介质
CN107633854A (zh) * 2017-09-29 2018-01-26 联想(北京)有限公司 一种语音数据的处理方法和电子设备
CN108242234B (zh) * 2018-01-10 2020-08-25 腾讯科技(深圳)有限公司 语音识别模型生成方法及其设备、存储介质、电子设备
CN109087659A (zh) * 2018-08-03 2018-12-25 三星电子(中国)研发中心 音频优化方法及设备
EP3618061B1 (en) * 2018-08-30 2022-04-27 Tata Consultancy Services Limited Method and system for improving recognition of disordered speech
CN109065036A (zh) * 2018-08-30 2018-12-21 出门问问信息科技有限公司 语音识别的方法、装置、电子设备及计算机可读存储介质
CN109345515B (zh) * 2018-09-17 2021-08-17 代黎明 样本标签置信度计算方法、装置、设备及模型训练方法
KR20200033707A (ko) * 2018-09-20 2020-03-30 삼성전자주식회사 전자 장치, 및 이의 학습 데이터 제공 또는 획득 방법
WO2020060311A1 (en) * 2018-09-20 2020-03-26 Samsung Electronics Co., Ltd. Electronic device and method for providing or obtaining data for training thereof
CN109469969A (zh) * 2018-10-25 2019-03-15 珠海格力电器股份有限公司 一种基于语音空调的环境修正方法及装置
CN111415653B (zh) * 2018-12-18 2023-08-01 百度在线网络技术(北京)有限公司 用于识别语音的方法和装置
KR102570384B1 (ko) * 2018-12-27 2023-08-25 삼성전자주식회사 가전기기 및 이의 음성 인식 방법
CN110010118B (zh) * 2019-04-16 2021-03-09 中国船舶科学研究中心(中国船舶重工集团公司第七0二研究所) 一种集成于道路照明系统的噪声主动控制系统
KR102321792B1 (ko) * 2019-08-30 2021-11-05 엘지전자 주식회사 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스
US11741945B1 (en) * 2019-09-30 2023-08-29 Amazon Technologies, Inc. Adaptive virtual assistant attributes
KR102423005B1 (ko) 2019-11-22 2022-07-27 금오공과대학교 산학협력단 딥러닝을 위한 인식 시험 학습 데이터 제공 시스템 및 방법
CN114446279A (zh) * 2022-02-18 2022-05-06 青岛海尔科技有限公司 语音识别方法、装置、存储介质及电子设备
CN115394300B (zh) * 2022-10-28 2023-03-31 广州小鹏汽车科技有限公司 语音交互方法、语音交互装置、车辆和可读存储介质
CN116661643B (zh) * 2023-08-02 2023-10-03 南京禹步信息科技有限公司 一种基于vr技术的多用户虚实协同方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100088093A1 (en) * 2008-10-03 2010-04-08 Volkswagen Aktiengesellschaft Voice Command Acquisition System and Method

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6060080B2 (ja) * 1977-12-28 1985-12-27 日本電気株式会社 音声認識装置
JPH02176796A (ja) * 1988-12-28 1990-07-09 Nec Corp 音声認識装置
JPH03138698A (ja) * 1989-10-25 1991-06-13 Yuhshin Co Ltd 車載用音声認識装置の入力方式
JPH04156600A (ja) * 1990-10-19 1992-05-29 Ricoh Co Ltd 音声認識装置
JP3644086B2 (ja) * 1995-08-11 2005-04-27 株式会社デンソー 音声認識装置
DE10041456A1 (de) 2000-08-23 2002-03-07 Philips Corp Intellectual Pty Verfahren zum Steuern von Geräten mittels Sprachsignalen, insbesondere bei Kraftfahrzeugen
US7224981B2 (en) * 2002-06-20 2007-05-29 Intel Corporation Speech recognition of mobile devices
CN1162838C (zh) * 2002-07-12 2004-08-18 清华大学 抗噪声语音识别用语音增强-特征加权-对数谱相加方法
JP4352790B2 (ja) 2002-10-31 2009-10-28 セイコーエプソン株式会社 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物
US7729911B2 (en) 2005-09-27 2010-06-01 General Motors Llc Speech recognition method and system
US7881929B2 (en) * 2007-07-25 2011-02-01 General Motors Llc Ambient noise injection for use in speech recognition
US7797305B2 (en) * 2007-09-25 2010-09-14 International Business Machines Corporation Method for intelligent consumer earcons
JP5225952B2 (ja) * 2009-08-25 2013-07-03 Kddi株式会社 音声認識装置およびその特徴量正規化方法
CN101710490B (zh) * 2009-11-20 2012-01-04 安徽科大讯飞信息科技股份有限公司 语音评测的噪声补偿方法及装置
US8660842B2 (en) * 2010-03-09 2014-02-25 Honda Motor Co., Ltd. Enhancing speech recognition using visual information
CN101951422B (zh) * 2010-09-28 2013-11-13 宇龙计算机通信科技(深圳)有限公司 一种移动终端噪音处理方法及移动终端
CN203219384U (zh) * 2012-12-26 2013-09-25 深圳市金立通信设备有限公司 一种处理通话环境噪声的装置及移动终端
CN103632666B (zh) 2013-11-14 2016-09-28 华为技术有限公司 语音识别方法、语音识别设备和电子设备
US9516413B1 (en) * 2014-09-30 2016-12-06 Apple Inc. Location based storage and upload of acoustic environment related information

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100088093A1 (en) * 2008-10-03 2010-04-08 Volkswagen Aktiengesellschaft Voice Command Acquisition System and Method

Also Published As

Publication number Publication date
EP2894449A1 (en) 2015-07-15
EP2894449A4 (en) 2015-09-23
JP2016537679A (ja) 2016-12-01
US9870771B2 (en) 2018-01-16
KR20160079105A (ko) 2016-07-05
JP6265450B2 (ja) 2018-01-24
CN103632666A (zh) 2014-03-12
BR112016010947A2 (pt) 2017-09-26
WO2015070645A1 (zh) 2015-05-21
CN103632666B (zh) 2016-09-28
US20160253995A1 (en) 2016-09-01

Similar Documents

Publication Publication Date Title
KR101852892B1 (ko) 음성 인식 방법, 음성 인식 장치 및 전자 장치
US9524735B2 (en) Threshold adaptation in two-channel noise estimation and voice activity detection
KR101461141B1 (ko) 잡음 억제기를 적응적으로 제어하는 시스템 및 방법
US9467779B2 (en) Microphone partial occlusion detector
US7968786B2 (en) Volume adjusting apparatus and volume adjusting method
US9171552B1 (en) Multiple range dynamic level control
CA2527461C (en) Reverberation estimation and suppression system
EP3058710B1 (en) Detecting nonlinear amplitude processing
JP5071346B2 (ja) 雑音抑圧装置及び雑音抑圧方法
US9344051B2 (en) Apparatus, method and storage medium for performing adaptive audio equalization
JP3273599B2 (ja) 音声符号化レート選択器と音声符号化装置
JPH03500347A (ja) 改良されたノイズ抑圧システム
KR20120090075A (ko) 오디오 신호에서의 잡음 억제
US11164592B1 (en) Responsive automatic gain control
CN108133712B (zh) 一种处理音频数据的方法和装置
US20140211966A1 (en) Noise Estimation Control System
JP2009147701A (ja) 振幅制御装置、携帯電話装置、および振幅制限方法
US10070219B2 (en) Sound feedback detection method and device
JP4888262B2 (ja) 通話状態判定装置および該通話状態判定装置を備えたエコーキャンセラ
KR102466293B1 (ko) 보조 신호를 사용하는 오디오 디바이스에 대한 송신 제어
EP2760024B1 (en) Noise estimation control
KR101993003B1 (ko) 잡음 제거 장치 및 방법
JP2009147702A (ja) 騒音レベル推定装置、受話音量制御装置、携帯電話装置、および騒音レベル推定方法
KR20140117885A (ko) 음성활동감지방법 및 그 방법을 채택한 통신장치
WO2017106281A1 (en) Nuisance notification

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant