KR102238979B1 - 음성 인식을 위한 전처리 장치 및 그 방법 - Google Patents

음성 인식을 위한 전처리 장치 및 그 방법 Download PDF

Info

Publication number
KR102238979B1
KR102238979B1 KR1020130139068A KR20130139068A KR102238979B1 KR 102238979 B1 KR102238979 B1 KR 102238979B1 KR 1020130139068 A KR1020130139068 A KR 1020130139068A KR 20130139068 A KR20130139068 A KR 20130139068A KR 102238979 B1 KR102238979 B1 KR 102238979B1
Authority
KR
South Korea
Prior art keywords
length
silence section
trailing silence
section
trailing
Prior art date
Application number
KR1020130139068A
Other languages
English (en)
Other versions
KR20150056276A (ko
Inventor
권민호
Original Assignee
현대모비스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 현대모비스 주식회사 filed Critical 현대모비스 주식회사
Priority to KR1020130139068A priority Critical patent/KR102238979B1/ko
Priority to CN201410392228.XA priority patent/CN104658549B/zh
Priority to EP14183149.5A priority patent/EP2874148B1/en
Priority to US14/484,084 priority patent/US9437217B2/en
Publication of KR20150056276A publication Critical patent/KR20150056276A/ko
Application granted granted Critical
Publication of KR102238979B1 publication Critical patent/KR102238979B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • G10L21/045Time compression or expansion by changing speed using thinning out or insertion of a waveform

Abstract

본 발명은 음성 인식을 위한 전처리 장치 및 그 방법에 관한 것으로, 상기 장치는 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 검출하는 트래일링 사일런스 구간 검출부와, 기준 트래일링 사일런스 구간의 길이를 저장하는 기준 트래일링 사일런스 구간 저장부 및 상기 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 상기 기준 트래일링 사일런스 구간의 길이에 맞춰 조정하는 트래일링 사일런스 구간 조정부를 포함한다.

Description

음성 인식을 위한 전처리 장치 및 그 방법{PRE-PROCESSING APPARATUS FOR SPEECH RECOGNITION AND METHOD THEREOF}
본 발명은 음성 인식을 위한 전처리 장치 및 그 방법에 관한 것으로, 보다 상세하게는 음성 인식 시 사용자의 성향을 고려하여 트래일링 사일런스(Trailing Silence) 구간이 일정하게 되도록 음성 신호를 전처리하여 음성 인식 성능을 향상시키는 음성 인식을 위한 전처리 장치 및 그 방법에 관한 것이다.
최근 전자 장치의 인텔리전트화가 진보됨에 따라 장치의 제어를 음성으로 수행하게 하려는 시도가 많아졌다.
상기 음성을 이용한 장치의 제어를 위해서는 음성을 식별하고 말을 이해할 필요가 있어서 음성 인식 센서나 음성 인식 장치의 연구가 증가하게 되었다.
예컨대 최근에는 차량 운전 중 디지털 방송(DMB) 시청이나 내비게이션 조작을 금지하는 도로교통법 개정안이 발의됨에 따라 내비게이션의 음성 인식 기능에 대한 관심이 더욱 증가되고 있다.
그런데 음성 인식을 위해서는 장치의 리소스(즉, CPU나 메모리의 자원)가 많이 소모된다. 따라서 내비게이션과 같이 리소스 자체가 충분하지 않은 휴대 장치에서는 장치의 리소스를 최소로 소모시키고, 또한 올바른 신호처리를 위하여 가능한 음성이 입력된 구간을 정확히 검출할 수 있도록 처리할 필요가 있다.
종래의 음성 인식 장치(또는 음성 인식 엔진)에서 상기 음성 입력 구간을 정확히 검출할 수 있도록 처리하는 방법의 하나로서 트래일링 사일런스(Trailing Silence) 구간을 포함시키는 방법을 사용하고 있다.
여기서, 상기 트래일링 사일런스 구간이란, 음성 인식을 위한 음성 입력을 시작하도록 사용자에게 알려주는 시작음(예 : BEEP 음)을 출력한 후 실제로 음성 신호가 인가될 때까지의 시간 혹은 음절과 음절 사이의 무음 구간을 의미한다.
예컨대 음성 인식 동작 시 정상적인 신호처리를 위해 사용자가 음성 인식 장치(예 : 내비게이션)에 구비된 음성 인식 동작 버튼을 누르면 상기 음성 인식 장치에서 음성 인식 시작음(예 : BEEP 음)을 출력한다. 이에 따라 상기 시작음을 들은 사용자가 음성(또는 음성 명령)을 입력하고, 상기 음성 인식 장치는 상기 시작음 출력 후 입력되는 음성 신호를 처리하여 음성(또는 음성 명령)을 분석하게 된다.
따라서 상기와 같은 방식(즉, 시작음 출력 후 음성을 입력하는 방식)으로 음성 인식을 수행하는 경우, 도 1의 (b)에 도시된 바와 같이 상기 시작음이 출력되기 전에 먼저 음성을 입력하거나, 도 1의 (c)에 도시된 바와 같이, 상기 시작음이 출력된 후 특정 시간이 경과된 다음에 음성을 입력하면, 상기 음성 인식 장치는 올바른 신호처리를 수행하지 못하여 음성을 정확하게 인식하지 못하게 된다. 즉, 음성 인식률이 저하되는 문제점이 있다.
다시 말해 상기와 같은 방식(즉, 시작음 출력 후 음성을 입력하는 방식)으로 음성 인식을 수행하는 경우, 도 1의 (a)에 도시된 바와 같이, 상기 음성 인식 장치에 따라 적정한 길이의 트래일링 사일런스 구간이 포함된 음성 신호를 입력할 필요가 있다. 그러나 사용자의 말하는 성향에 따라 상기 트래일링 사일런스 구간이 길거나 짧아지는 경우에는 적정한 길이의 트래일링 사일런스 구간이 포함된 경우에 비하여 음성 인식률이 떨어지는 문제점이 있다.
본 발명의 배경기술은 대한민국 등록특허 10-0714721호(2007.04.27.등록, 음성 구간 검출 방법 및 장치)에 개시되어 있다.
본 발명은 상기와 같은 문제점을 해결하기 위해 창작된 것으로서, 음성 인식 시 사용자의 성향을 고려하여 트래일링 사일런스 구간이 일정하게 되도록 음성 신호를 전처리하여 음성 인식 성능을 향상시키는 음성 인식을 위한 전처리 장치 및 그 방법을 제공하는데 목적이 있다.
본 발명의 일 측면에 따른 음성 인식을 위한 전처리 장치는, 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 검출하는 트래일링 사일런스 구간 검출부; 기준 트래일링 사일런스 구간의 길이를 저장하는 기준 트래일링 사일런스 구간 저장부; 및 상기 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 상기 기준 트래일링 사일런스 구간의 길이에 맞춰 조정하는 트래일링 사일런스 구간 조정부;를 포함하는 것을 특징으로 한다.
본 발명에 있어서, 상기 트래일링 사일런스 구간은, 음성 인식 시작음 출력 후, 음성 입력 수단을 통해 입력되는 음성 신호에서 실제 사용자의 음성이 입력된 시간까지의 무음 구간인 것을 특징으로 한다.
본 발명에 있어서, 상기 트래일링 사일런스 구간 조정부는, 상기 음성 신호에서 검출된 트래일링 사일런스 구간의 길이가 기준 트래일링 사일런스 구간의 길이보다 짧은 경우에는 상기 음성 신호의 트래일링 사일런스 구간의 길이를 늘려서 기준 트래일링 사일런스 구간의 길이가 되게 조정하고, 상기 음성 신호에서 검출된 트래일링 사일런스 구간의 길이가 기준 트래일링 사일런스 구간의 길이보다 긴 경우에는 상기 음성 신호의 트래일링 사일런스 구간의 길이를 줄여서 기준 트래일링 사일런스 구간의 길이가 되게 조정하는 것을 특징으로 한다.
본 발명에 있어서, 상기 트래일링 사일런스 구간 조정부는, 상기 트래일링 사일런스 구간의 조정 시, 상기 음성 신호가 시작되는 초기 부분의 구간을 추가하거나 제거하여 조정하는 것을 특징으로 한다.
본 발명의 다른 측면에 따른 음성 인식을 위한 전처리 방법은, 음성 신호를 입력받는 단계; 상기 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 검출하는 단계; 및 상기 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 기 설정된 기준 트래일링 사일런스 구간의 길이에 맞춰 조정하는 단계;를 포함하는 것을 특징으로 한다.
본 발명에 있어서, 상기 트래일링 사일런스 구간의 길이를 조정하는 단계는, 상기 음성 신호에서 검출된 트래일링 사일런스 구간의 길이가 기준 트래일링 사일런스 구간의 길이보다 짧은 경우 상기 음성 신호의 트래일링 사일런스 구간의 길이를 늘려서 기준 트래일링 사일런스 구간의 길이가 되게 조정하고, 상기 음성 신호에서 검출된 트래일링 사일런스 구간의 길이가 기준 트래일링 사일런스 구간의 길이보다 긴 경우 상기 음성 신호의 트래일링 사일런스 구간의 길이를 줄여서 기준 트래일링 사일런스 구간의 길이가 되게 조정하는 것을 특징으로 한다.
본 발명에 있어서, 상기 트래일링 사일런스 구간의 길이를 조정하는 단계는, 상기 트래일링 사일런스 구간의 조정 시, 상기 음성 신호가 시작되는 초기 부분의 구간을 추가하거나 제거하여 조정하는 것을 특징으로 한다.
본 발명은 음성 인식 시 사용자의 성향을 고려하여 트래일링 사일런스 구간이 일정하게 되도록 음성 신호를 전처리하여 음성 인식 성능을 향상시킨다.
도 1은 종래의 음성 인식 장치에서 입력받은 음성 신호에 포함된 트래일링 사일런스 구간의 길이에 따른 음성 인식률을 설명하기 위한 예시도.
도 2는 본 발명의 일 실시예에 따른 음성 인식 장치의 개략적인 구성을 보인 예시도.
도 3은 본 발명의 일 실시예에 따른 음성 인식을 위한 전처리 방법을 설명하기 위한 흐름도.
도 4는 상기 도 3에 있어서, 트래일링 사일런스 구간의 조정방법을 설명하기 위한 음성 신호를 보인 예시도.
도 5는 본 발명의 일 실시예에 따라 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 조정한 경우와 조정하지 않았을 경우의 음성 인식률을 비교하여 보인 테이블.
이하, 첨부된 도면을 참조하여 본 발명에 따른 음성 인식을 위한 전처리 장치 및 그 방법의 일 실시예를 설명한다.
이 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 2는 본 발명의 일 실시예에 따른 음성 인식 장치의 개략적인 구성을 보인 예시도이다.
도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 음성 인식 장치는, 음성 입력부(MIC), 에이디 변환부(110), 트래일링 사일런스 구간 전처리부(120), 신호 전처리부(130) 및 음성 인식부(140)를 포함한다.
상기 음성 입력부(MIC)는 사용자의 음성을 입력받기 위한 수단으로서, 예컨대 마이크에 해당한다.
상기 에이디 변환부(110)는 상기 음성 입력부(MIC)로부터 출력되는 사용자의 음성 신호를 처리에 용이한 디지털 신호로 변환한다.
상기 트래일링 사일런스 구간 전처리부(120)는 상기 음성 신호에 포함된 트래일링 사일런스 구간(시간)의 길이를 검출하는 트래일링 사일런스 구간 검출부(121), 기준 트래일링 사일런스 구간(시간)의 길이를 저장하는 기준 트래일링 사일런스 구간 저장부(123), 상기 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 상기 기준 트래일링 사일런스 구간의 길이에 맞춰 조정하는 트래일링 사일런스 구간 조정부(122)를 포함한다.
따라서 상기 트래일링 사일런스 구간 전처리부(120)는 상기 디지털로 변환된 사용자의 음성 신호에서 트래일링 사일런스 구간(시간)을 검출하고, 상기 음성 신호에 포함된 상기 트래일링 사일런스 구간이 기 설정된 기준 트래일링 사일런스 구간의 길이가 되도록 조절한다.
예컨대 상기 음성 신호에서 검출된 트래일링 사일런스 구간의 길이가 기준 트래일링 사일런스 구간의 길이보다 짧은 경우에는 상기 음성 신호의 트래일링 사일런스 구간의 길이를 늘려서 기준 트래일링 사일런스 구간의 길이가 되게 조정하고, 반대로 상기 음성 신호에서 검출된 트래일링 사일런스 구간의 길이가 기준 트래일링 사일런스 구간의 길이보다 긴 경우에는 상기 음성 신호의 트래일링 사일런스 구간의 길이를 줄여서 기준 트래일링 사일런스 구간의 길이가 되게 조정한다.
이때 상기 트래일링 사일런스 구간 전처리부(120)는 마이크로 프로세서 또는 디지털 신호처리 프로세서와 같은 하나의 제어 수단을 이용해 구현함으로써 상기 트래일링 사일런스 구간의 조정을 소프트웨어적으로 처리할 수도 있다.
여기서 상기 트래일링 사일런스 구간은, 음성 인식 시작음(BEEP 음) 출력 후, 상기 음성 입력부(MIC)를 통해 검출된 음성 신호에서 실제 사용자의 음성이 입력된 시간까지의 구간으로서, 편의상 본 실시예에서 상기 트래일링 사일런스 구간은 100ms인 것으로 가정하여 설명한다. 이때 상기 실제 사용자의 음성이 입력되는 지점은 음성 신호에서 기 설정된 임계 레벨(Threshold Level) 이상인 지점이다.
상기 신호 전처리부(130)는 상기 트래일링 사일런스 구간이 전처리된 음성 신호를 입력받아 신호 전처리를 수행한다.
즉, 상기 음성 신호에서 노이즈를 제거 및 자동 이득 조절과 같이 음성 인식에 필요한 신호 전처리 작업을 수행한다.
상기 음성 인식부(140)는 상기 신호 전처리된 음성 신호를 인식한다.
즉, 상기 음성 신호에 해당하는 명령의 의미가 무엇인지 인식한다. 다시 말해 상기 음성에 해당하는 명령을 판단한다.
다만 본 실시예에서 본 발명의 기술적 요지와 직접적인 관련이 없는 상기 신호 전처리부(130) 및 상기 음성 인식부(140)에 대한 구체적인 설명은 생략한다.
도 3은 본 발명의 일 실시예에 따른 음성 인식을 위한 전처리 방법을 설명하기 위한 흐름도이고, 도 4는 상기 도 3에 있어서, 트래일링 사일런스 구간의 조정방법을 설명하기 위한 음성 신호를 보인 예시도이다.
이하 도 3과 도 4를 참조하여 상기 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 조정하는 방법에 대해서 설명한다.
상기 트래일링 사일런스 구간 전처리부(120)는 상기 디지털 신호 변환된 음성 신호를 입력받는다(S101).
그리고 상기 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 검출한다(S102).
이때 상기 음성 신호에 포함된 트래일링 사일런스 구간의 길이는, 도 4의 (a)에 도시된 바와 같이, 기준 트래일링 사일런스 구간의 길이(예 : 100ms)보다 짧거나, 도 4의 (b)에 도시된 바와 같이, 기준 트래일링 사일런스 구간의 길이보다 길 수 있다.
따라서 상기 트래일링 사일런스 구간 전처리부(120)는, 도 4의 (a)에 도시된 바와 같이, 음성 신호에서 검출된 트래일링 사일런스 구간의 길이가 짧은 경우(예 : 20ms), 기준 트래일링 사일런스 구간의 길이(예 : 100ms)에 맞춰 트래일링 사일런스 구간의 길이를 추가(예 : 80ms)하여 조정한다(S103).
마찬가지로, 상기 트래일링 사일런스 구간 전처리부(120)는, 도 4의 (b)에 도시된 바와 같이, 음성 신호에서 검출된 트래일링 사일런스 구간의 길이가 긴 경우(예 : 200ms), 기준 트래일링 사일런스 구간의 길이(예 : 100ms)에 맞춰 트래일링 사일런스 구간의 길이를 일부 제거(예 : 100ms)하여 조정한다(S103).
이때 상기 트래일링 사일런스 구간이 조정되는 부분은 음성 신호가 시작되는 초기 부분이다.
상기와 같이 트래일링 사일런스 구간 전처리부(120)를 통해 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 기준 트래일링 사일런스 구간의 길이로 맞춰 조정함으로써 음성 인식률을 향상시킬 수 있다.
도 5는 본 발명의 일 실시예에 따라 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 조정한 경우와 조정하지 않았을 경우의 음성 인식률을 비교하여 보인 테이블이다.
도 5에 도시된 바와 같이, 음성 신호에 포함된 트래일링 사일런스 구간의 길이가 기준 트래일링 사일런스 구간의 길이(예 : 100ms)보다 짧거나(예 : 20ms) 긴 경우(예 : 200ms) 음성 인식률은 90% 로 낮았으나, 본 발명에 따른 방법을 이용하여 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 기준 트래일링 사일런스 구간의 길이(예 : 100ms)에 맞춰 조정한 경우 음성 인식률은 95%로 향상됨을 알 수 있다.
이상으로 본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나, 이는 예시적인 것에 불과하며, 당해 기술이 속하는 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 기술적 보호범위는 아래의 특허청구범위에 의해서 정하여져야 할 것이다.
MIC : 음성 입력부
110 : 에이디 변환부
120 : 트래일링 사일런스 구간 전처리부
121 : 트래일링 사일런스 구간 검출부
122 : 트래일링 사일런스 구간 조정부
123 : 기준 트래일링 사일런스 구간 저장부
130 : 신호 전처리부
140 : 음성 인식부

Claims (7)

  1. 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 검출하는 트래일링 사일런스 구간 검출부;
    기준 트래일링 사일런스 구간의 길이를 저장하는 기준 트래일링 사일런스 구간 저장부; 및
    상기 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 상기 기준 트래일링 사일런스 구간의 길이에 맞춰 조정하는 트래일링 사일런스 구간 조정부;를 포함하되,
    상기 트래일링 사일런스 구간은,
    음성 인식 시작음 출력 후, 음성 입력 수단을 통해 입력되는 음성 신호에서 실제 사용자의 음성이 입력된 시간까지의 무음 구간이며,
    상기 트래일링 사일런스 구간 조정부는,
    상기 음성 신호에서 검출된 트래일링 사일런스 구간의 길이가 기준 트래일링 사일런스 구간의 길이보다 짧은 경우에는 상기 음성 신호의 트래일링 사일런스 구간의 길이를 늘려서 기준 트래일링 사일런스 구간의 길이가 되게 조정하는 것을 특징으로 하는 음성 인식을 위한 전처리 장치.
  2. 삭제
  3. 제 1항에 있어서, 상기 트래일링 사일런스 구간 조정부는,
    상기 음성 신호에서 검출된 트래일링 사일런스 구간의 길이가 기준 트래일링 사일런스 구간의 길이보다 긴 경우에는 상기 음성 신호의 트래일링 사일런스 구간의 길이를 줄여서 기준 트래일링 사일런스 구간의 길이가 되게 조정하는 것을 특징으로 하는 음성 인식을 위한 전처리 장치.
  4. 제 1항에 있어서, 상기 트래일링 사일런스 구간 조정부는,
    상기 트래일링 사일런스 구간의 조정 시, 상기 음성 신호가 시작되는 초기 부분의 구간을 추가하거나 제거하여 조정하는 것을 특징으로 하는 음성 인식을 위한 전처리 장치.
  5. 음성 신호를 입력받는 단계;
    상기 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 검출하는 단계; 및
    상기 음성 신호에 포함된 트래일링 사일런스 구간의 길이를 기 설정된 기준 트래일링 사일런스 구간의 길이에 맞춰 조정하는 단계;를 포함하되,
    상기 트래일링 사일런스 구간은,
    음성 인식 시작음 출력 후, 음성 입력 수단을 통해 입력되는 음성 신호에서 실제 사용자의 음성이 입력된 시간까지의 무음 구간이며,
    상기 트래일링 사일런스 구간의 길이를 조정하는 단계는,
    상기 음성 신호에서 검출된 트래일링 사일런스 구간의 길이가 기준 트래일링 사일런스 구간의 길이보다 짧은 경우 상기 음성 신호의 트래일링 사일런스 구간의 길이를 늘려서 기준 트래일링 사일런스 구간의 길이가 되게 조정하는 것을 특징으로 하는 음성 인식을 위한 전처리 방법.
  6. 제 5항에 있어서, 상기 트래일링 사일런스 구간의 길이를 조정하는 단계는,
    상기 음성 신호에서 검출된 트래일링 사일런스 구간의 길이가 기준 트래일링 사일런스 구간의 길이보다 긴 경우 상기 음성 신호의 트래일링 사일런스 구간의 길이를 줄여서 기준 트래일링 사일런스 구간의 길이가 되게 조정하는 것을 특징으로 하는 음성 인식을 위한 전처리 방법.
  7. 제 5항에 있어서, 상기 트래일링 사일런스 구간의 길이를 조정하는 단계는,
    상기 트래일링 사일런스 구간의 조정 시, 상기 음성 신호가 시작되는 초기 부분의 구간을 추가하거나 제거하여 조정하는 것을 특징으로 하는 음성 인식을 위한 전처리 방법.
KR1020130139068A 2013-11-15 2013-11-15 음성 인식을 위한 전처리 장치 및 그 방법 KR102238979B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020130139068A KR102238979B1 (ko) 2013-11-15 2013-11-15 음성 인식을 위한 전처리 장치 및 그 방법
CN201410392228.XA CN104658549B (zh) 2013-11-15 2014-08-11 用于识别语音的预处理装置及其方法
EP14183149.5A EP2874148B1 (en) 2013-11-15 2014-09-02 Pre-processing apparatus and method for speech recognition
US14/484,084 US9437217B2 (en) 2013-11-15 2014-09-11 Pre-processing apparatus and method for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130139068A KR102238979B1 (ko) 2013-11-15 2013-11-15 음성 인식을 위한 전처리 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20150056276A KR20150056276A (ko) 2015-05-26
KR102238979B1 true KR102238979B1 (ko) 2021-04-12

Family

ID=51429168

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130139068A KR102238979B1 (ko) 2013-11-15 2013-11-15 음성 인식을 위한 전처리 장치 및 그 방법

Country Status (4)

Country Link
US (1) US9437217B2 (ko)
EP (1) EP2874148B1 (ko)
KR (1) KR102238979B1 (ko)
CN (1) CN104658549B (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105427870B (zh) * 2015-12-23 2019-08-30 北京奇虎科技有限公司 一种针对停顿的语音识别方法和装置
KR102495517B1 (ko) * 2016-01-26 2023-02-03 삼성전자 주식회사 전자 장치, 전자 장치의 음성 인식 방법
EP3430617B1 (en) * 2016-11-07 2019-10-23 Google LLC Recorded media hotword trigger suppression
US10979331B2 (en) 2017-05-16 2021-04-13 Apple Inc. Reducing startup delays for presenting remote media items
CN112542159B (zh) * 2020-12-01 2024-04-09 腾讯音乐娱乐科技(深圳)有限公司 一种数据处理方法以及设备
FI20206336A1 (en) 2020-12-18 2022-06-19 Elisa Oyj A computer-implemented method and device for detecting silence in speech recognition

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070019931A1 (en) 2005-07-19 2007-01-25 Texas Instruments Incorporated Systems and methods for re-synchronizing video and audio data
JP2008191221A (ja) 2007-02-01 2008-08-21 Oki Electric Ind Co Ltd 音声合成方法、音声合成プログラム、音声合成装置
US20110106283A1 (en) 2008-07-14 2011-05-05 Everhear Partners, Inc. Child's media player with automatic wireless synchronization from content servers with adult management and content creation
JP2012137742A (ja) 2010-12-07 2012-07-19 Yamaha Corp マスカ音出力装置、マスカ音出力システム、およびプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05130252A (ja) * 1991-11-05 1993-05-25 Hitachi Ltd デイジタル信号受け渡しシステムとデイジタル音声信号処理回路及び信号変換回路
JPH0698398A (ja) * 1992-06-25 1994-04-08 Hitachi Ltd 音声の無音区間検出伸長装置及び音声の無音区間検出伸長方法
JPH0764584A (ja) * 1993-08-27 1995-03-10 Olympus Optical Co Ltd 音声情報の再生速度自動調整装置
KR100373329B1 (ko) * 1999-08-17 2003-02-25 한국전자통신연구원 음운환경과 묵음구간 길이를 이용한 텍스트/음성변환 장치 및그 방법
US6785653B1 (en) * 2000-05-01 2004-08-31 Nuance Communications Distributed voice web architecture and associated components and methods
JP4201470B2 (ja) * 2000-09-12 2008-12-24 パイオニア株式会社 音声認識システム
KR100714721B1 (ko) * 2005-02-04 2007-05-04 삼성전자주식회사 음성 구간 검출 방법 및 장치
KR100677950B1 (ko) * 2005-06-09 2007-02-05 주식회사 아이웨어 음성신호를 보존하는 재생속도 가변 장치 및 방법
US20100312469A1 (en) * 2009-06-05 2010-12-09 Telenav, Inc. Navigation system with speech processing mechanism and method of operation thereof
EP2595146A1 (en) * 2011-11-17 2013-05-22 Nederlandse Organisatie voor toegepast -natuurwetenschappelijk onderzoek TNO Method of and apparatus for evaluating intelligibility of a degraded speech signal

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070019931A1 (en) 2005-07-19 2007-01-25 Texas Instruments Incorporated Systems and methods for re-synchronizing video and audio data
JP2008191221A (ja) 2007-02-01 2008-08-21 Oki Electric Ind Co Ltd 音声合成方法、音声合成プログラム、音声合成装置
US20110106283A1 (en) 2008-07-14 2011-05-05 Everhear Partners, Inc. Child's media player with automatic wireless synchronization from content servers with adult management and content creation
JP2012137742A (ja) 2010-12-07 2012-07-19 Yamaha Corp マスカ音出力装置、マスカ音出力システム、およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Design and Implementation of Speech Recognition Systems", School of Computer Science, Carnegie Mellon, 2013.02.06. 1부.*

Also Published As

Publication number Publication date
CN104658549B (zh) 2018-04-10
KR20150056276A (ko) 2015-05-26
CN104658549A (zh) 2015-05-27
US20150142430A1 (en) 2015-05-21
EP2874148B1 (en) 2017-03-29
US9437217B2 (en) 2016-09-06
EP2874148A1 (en) 2015-05-20

Similar Documents

Publication Publication Date Title
KR102238979B1 (ko) 음성 인식을 위한 전처리 장치 및 그 방법
US9548053B1 (en) Audible command filtering
US8903721B1 (en) Smart auto mute
US20160055847A1 (en) System and method for speech validation
US20150310863A1 (en) Method and apparatus for speaker diarization
US20130218560A1 (en) Method and apparatus for audio intelligibility enhancement and computing apparatus
EP1647972A3 (de) Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen
US10566012B1 (en) Direction based end-pointing for speech recognition
KR102033309B1 (ko) 운전석 위치를 고려하는 빔 포밍 마이크 제어 장치 및 방법
US9648419B2 (en) Apparatus and method for coordinating use of different microphones in a communication device
WO2014182460A2 (en) Method and apparatus for detecting a target keyword
US10461712B1 (en) Automatic volume leveling
TW200729706A (en) Method and audio system for controlling a gain of a voice signal
EP2066025A3 (en) Audio signal processing apparatus, audio signal processing method, and communication terminal
TWI504282B (zh) 增加聽障者聽到聲音正確性之方法及助聽器
CN107274895B (zh) 一种语音识别设备及方法
CN105405441A (zh) 一种语音信息的反馈方法及装置
WO2010064877A3 (en) A method and an apparatus for processing an audio signal
US11064281B1 (en) Sending and receiving wireless data
US20140010377A1 (en) Electronic device and method of adjusting volume in teleconference
JP2016061888A (ja) 音声認識装置、音声認識対象区間設定方法、及び音声認識区間設定プログラム
WO2016017229A1 (ja) 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム
CN116615779A (zh) 冻结词
CN106571148B (zh) 一种音频信号自动增益控制方法及装置
KR102316653B1 (ko) 차량용 오디오 볼륨 제어 방법 및 제어 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant