KR20180021531A - 심층 신경망을 이용한 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치 - Google Patents

심층 신경망을 이용한 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치 Download PDF

Info

Publication number
KR20180021531A
KR20180021531A KR1020160106225A KR20160106225A KR20180021531A KR 20180021531 A KR20180021531 A KR 20180021531A KR 1020160106225 A KR1020160106225 A KR 1020160106225A KR 20160106225 A KR20160106225 A KR 20160106225A KR 20180021531 A KR20180021531 A KR 20180021531A
Authority
KR
South Korea
Prior art keywords
speech
end point
voice
detection result
neural network
Prior art date
Application number
KR1020160106225A
Other languages
English (en)
Other versions
KR101943381B1 (ko
Inventor
반성민
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020160106225A priority Critical patent/KR101943381B1/ko
Publication of KR20180021531A publication Critical patent/KR20180021531A/ko
Application granted granted Critical
Publication of KR101943381B1 publication Critical patent/KR101943381B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

본 발명은 음성 끝점 검출 방법에 관한 것으로, 더욱 상세하게는 심층 신경망(Deep Neural Network) 모델에 대한 입력과 출력을 설정하여 신경망 모델을 학습한 후, 학습된 신경망 모델을 이용하여 음성 신호에서 음성 끝점을 검출하고 음성 구간을 판단함으로써, 잡음 환경에서의 끝점 검출 성능을 보다 더 향상시킬 수 있는 심층 신경망을 이용한 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치에 관한 것이다.

Description

심층 신경망을 이용한 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치{ENDPOINT DETECTION METHOD OF SPEECH USING DEEP NEURAL NETWORK AND APPARATUS THEREOF}
본 발명은 음성 끝점 검출 방법에 관한 것으로, 더욱 상세하게는 심층 신경망(Deep Neural Network)을 이용한 음성 끝점 검출을 통해 음성 구간을 판단함으로써, 잡음 환경에서의 끝점 검출 성능을 보다 더 향상시킬 수 있는 심층 신경망을 이용한 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치에 관한 것이다.
이 부분에 기술된 내용은 단순히 본 실시 예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.
음성 인식 성능을 향상시키기 위해서는 잡음과 함께 인가되는 음성의 구간을 정확하게 획득할 수 있어야 한다. 이에 음성 신호에 대해 음성이 시작되는 시작점부터 음성이 종료되는 종료점까지의 음성 구간을 정확히 검출할 수 있는 음성 끝점 검출(endpoint detection) 기술의 중요성이 확대되고 있다.
종래의 음성 끝점 검출 기술은 입력되는 음성 신호에서 프레임 단위로 음성의 에너지, 피치와 같은 다양한 음성 특징 파라미터를 이용하여 해당 프레임이 음성 또는 비음성 여부를 판단하고, 판단된 연속된 음성 검출 결과를 이용하여 음성의 끝점을 검출하게 된다. 이러한 음성 끝점 검출 기술을 행오버(hangover) 알고리즘이라 한다.
종래의 행오버 알고리즘에서는 행오버 카운트 변수를 사전에 설정한 후 설정된 행오버 카운트 변수만큼 동일한 음성 검출 결과가 연속되는 지 여부를 확인하여 끝점을 검출하게 된다. 아울러, 행오버 알고리즘 수행에 있어 상술한 행오버 카운트 변수 이외에도 다양한 파라미터들을 사전에 설정하게 되는데, 일반적인 행오버 알고리즘에서는 이를 단순히 경험에 의존하여 설정함으로써, 최적의 파라미터 설정이 어렵다는 문제점이 있다.
더하여, 다양한 환경에서 안정적인 끝점 검출 성능을 내는 최적의 파라미터를 정하는 것은 쉽지가 않으며, 이를 보완하기 위해서는 알고리즘 자체가 복잡해지고 수정이 어렵다는 문제점이 있다.
한국공개특허 제10-2008-0059881호, 2008년 7월 1일 공개 (명칭: 음성 신호의 전처리 장치 및 방법)
본 발명은 상기한 종래의 문제점을 해결하기 위해 제안된 것으로서, 심층 신경망(Deep Neural Network)을 이용한 음성 끝점 검출을 통해 음성 구간을 판단함으로써, 잡음 환경에서의 끝점 검출 성능을 보다 더 향상시킬 수 있는 심층 신경망을 이용한 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치를 제공하는 데 목적이 있다.
또한, 본 발명은 기존의 음성 끝점 검출을 위해 필요한 각종 파라미터를 경험에 의존하지 않고 심층 신경망 모델을 이용한 학습을 통해 결정함으로써, 보다 더 정확한 파라미터의 설정이 가능하고 이를 통해 보다 정확한 음성 끝점을 검출할 수 있는 심층 신경망을 이용한 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치를 제공하는 데 그 목적이 있다.
또한, 본 발명은 다양한 음성 신호의 특성을 심층 신경망 모델을 이용하여 학습함으로써 음성 끝점 검출을 위한 알고리즘의 유지 보수가 용이한 심층 신경망을 이용한 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치를 제공하는 데 그 목적이 있다.
그러나, 이러한 본 발명의 목적은 상기의 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.
상술한 바와 같은 목적을 달성하기 위한 본 발명의 실시 예에 따른 음성 신호를 소정 길이를 갖는 복수의 프레임으로 구분하고, 구분된 프레임을 대상으로 음성 구간을 판단할 수 있는 끝점 검출 장치에 있어서, 상기 끝점 검출 장치는 현재 프레임을 기준으로 일정 범위의 프레임에 대응하여 추출된 음성 특징 파라미터와, 상기 현재 프레임의 이전 프레임들 중 일정 범위의 프레임에 대응하여 검출된 음성 검출 결과 파라미터와, 상기 현재 프레임의 이전 프레임들 중 어느 하나의 프레임에서의 끝점 검출 결과 파라미터를 입력으로 설정하고, 현재 프레임에서의 음성 검출 결과 파라미터 및 상기 현재 프레임의 이전 프레임에서의 끝점 검출 결과 파라미터를 출력으로 설정하여 신경망 모델을 학습하는 학습부와, 상기 생성된 신경망 모델을 이용하여 입력되는 음성 신호에서의 음성 끝점을 검출하여 음성 구간을 판단하는 음성 구간 판단부를 포함하여 구성될 수 있다.
상술한 바와 같은 목적을 달성하기 위한 본 발명의 실시 예에 따른 음성 신호를 소정 길이를 갖는 복수의 프레임으로 구분하고, 구분된 프레임을 대상으로 음성 구간을 판단할 수 있는 끝점 검출 장치에 있어서, 상기 끝점 검출 장치는 현재 프레임을 기준으로 일정 범위의 프레임에 대응하여 추출된 음성 특징 파라미터와, 상기 현재 프레임의 이전 프레임들 중 일정 범위의 프레임에 대응하여 검출된 음성 검출 결과 파라미터와, 상기 현재 프레임의 이전 프레임들 중 어느 하나의 프레임에서의 끝점 검출 결과 파라미터를 입력 받는 입력 레이어와, 현재 프레임에서의 음성 검출 결과 파라미터 및 상기 현재 프레임의 이전 프레임에서의 끝점 검출 결과 파라미터를 출력하는 출력 레이어와, 상기 입력 레이어와 출력 레이어 사이에 위치하며 상기 출력 레이어를 통해 해당하는 파라미터가 출력되도록 상기 입력 레이어와 출력 레이어의 노드들에 대한 링크 가중치를 설정하는 적어도 하나 이상의 은닉 레이어로 구성되는 신경망 모델을 포함하며, 상기 신경망 모델을 통해 음성 구간을 판단할 수 있다.
상술한 바와 같은 목적을 달성하기 위한 본 발명의 실시 예에 따른 심층 신경망을 이용한 음성 끝점 검출 방법은 음성 신호를 소정 길이를 갖는 복수의 프레임으로 구분하고, 구분된 프레임을 대상으로 음성 구간을 판단할 수 있는 끝점 검출 장치에 있어서, 현재 프레임을 기준으로 일정 범위의 프레임에 대응하여 추출된 음성 특징 파라미터와, 상기 현재 프레임의 이전 프레임들 중 일정 범위의 프레임에 대응하여 검출된 음성 검출 결과 파라미터와, 상기 현재 프레임의 이전 프레임들 중 어느 하나의 프레임에서의 끝점 검출 결과 파라미터를 입력으로 설정하고, 현재 프레임에서의 음성 검출 결과 파라미터 및 상기 현재 프레임의 이전 프레임에서의 끝점 검출 결과 파라미터를 출력으로 설정하여 신경망 모델을 학습하는 학습하는 단계와, 상기 학습된 신경망 모델을 이용하여 입력되는 음성 신호에서 음성 끝점을 검출하여 음성 구간을 판단하는 단계를 포함하여 이뤄질 수 있다.
이때, 상기 학습하는 단계는 현재 프레임을 기준으로 상기 현재 프레임을 포함하는 일정 범위의 프레임에 대응하여 추출된 각각의 음성 특징 파라미터와, 상기 현재 프레임의 이전의 어느 한 프레임부터 상기 현재 프레임의 이전 프레임까지의 연속된 음성 검출 결과 파라미터와, 상기 연속된 음성 검출 결과 파라미터를 이용하여 판단된 상기 현재 프레임 이전의 어느 한 프레임에서의 끝점 검출 결과 파라미터를 입력으로 설정하고, 상기 현재 프레임에서의 음성 검출 결과 파라미터 및 상기 현재 프레임의 이전 프레임에서의 끝점 검출 결과 파라미터를 출력으로 설정하여 신경망 모델을 학습할 수 있다.
또한, 상기 학습하는 단계는 상기 입력에 따라 상기 출력으로 설정된 파라미터들이 출력되도록 심층 신경망의 가중치들을 설정하여 심층 신경망 모델을 학습할 수 있다.
상술한 바와 같은 목적을 달성하기 위한 본 발명의 실시 예에 따른 심층 신경망을 이용한 음성 끝점 검출 방법은 음성 신호를 소정 길이를 갖는 복수의 프레임으로 구분하고, 구분된 프레임을 대상으로 음성 구간을 판단할 수 있는 끝점 검출 장치에 있어서, 현재 프레임을 기준으로 일정 범위의 프레임에 대응하여 추출된 음성 특징 파라미터를 입력으로 설정하고, 상기 현재 프레임에서의 음성 검출 결과 파라미터를 출력으로 설정하여 제1 신경망 모델을 학습하여 생성하는 단계와, 상기 제1 신경망 모델을 통해 출력되는 음성 검출 결과 파라미터를 프레임 단위로 누적하고, 상기 현재 프레임의 이전 프레임들 중 일정 범위의 프레임에 대응하여 누적된 음성 검출 결과 파라미터와 상기 음성 검출 결과 파라미터를 이용하여 판단된 상기 현재 프레임의 이전 프레임에 대한 끝점 검출 결과 파라미터를 입력으로 설정하고, 상기 현재 프레임에서의 끝점 검출 결과 파라미터를 출력으로 설정하여 제2 신경망 모델을 학습하여 생성하는 단계와, 상기 생성된 제1 신경망 모델 및 제2 신경망 모델을 이용하여 입력되는 음성 신호에서의 음성 끝점을 검출하여 음성 구간을 판단하는 단계를 포함하여 이뤄질 수 있다.
추가로 본 발명은 상술한 바와 같은 방법을 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체를 제공할 수 있다.
본 발명의 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치에 의하면, 심층 신경망(Deep Neural Network)을 이용한 음성 끝점 검출을 통해 음성 구간을 판단함으로써, 잡음 환경에서의 끝점 검출 성능을 보다 더 향상시킬 수 있으며, 경험에 의존하여 음성 끝점 검출을 위한 파라미터를 설정할 필요가 없어 보다 더 효율적인 음성 끝점 검출이 가능하게 된다.
또한 본 발명에 의하면, 심층 신경망 모델을 이용하여 음성 끝점 검출을 위한 학습 데이터를 구축함으로써, 보다 더 정확한 파라미터의 설정이 가능하고 이를 통해 보다 더 정확한 음성 끝점을 검출할 수 있게 된다.
이를 통해 본 발명은 음성 인식, 화자 인식, 음질 개선 등과 같이 음성 신호 처리 분야의 효율을 향상시킬 수 있게 된다.
아울러, 상술한 효과 이외의 다양한 효과들이 후술될 본 발명의 실시 예에 따른 상세한 설명에서 직접적 또는 암시적으로 개시될 수 있다.
도 1은 본 발명의 실시 예에 따른 음성 끝점 검출 방법이 적용된 음성 인식 시스템을 설명하기 위한 구성도이다.
도 2는 본 발명의 실시 예에 따른 음성 구간을 설명하기 위한 예시도이다.
도 3 및 도 4는 본 발명의 실시 예에 따른 끝점 검출 장치를 설명하기 위한 구성도이다.
도 5 및 도 6은 본 발명의 일 실시 예에 따른 음성 끝점 검출 방법을 설명하기 위한 예시도이다.
도 7은 본 발명의 일 실시 예에 따른 음성 끝점 검출 방법을 설명하기 위한 흐름도이다.
도 8는 본 발명의 다른 실시 예에 따른 음성 끝점 검출 방법을 설명하기 위한 예시도이다.
도 9은 본 발명의 다른 실시 예에 따른 음성 끝점 검출 방법을 설명하기 위한 흐름도이다.
본 발명의 과제 해결 수단의 특징 및 이점을 보다 명확히 하기 위하여, 첨부된 도면에 도시된 본 발명의 특정 실시 예를 참조하여 본 발명을 더 상세하게 설명한다.
다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지 기능 또는 구성에 대한 상세한 설명은 생략한다. 또한, 도면 전체에 걸쳐 동일한 구성 요소들은 가능한 한 동일한 도면 부호로 나타내고 있음에 유의하여야 한다.
이하의 설명 및 도면에서 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위한 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.
또한, 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하기 위해 사용하는 것으로, 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용될 뿐, 상기 구성요소들을 한정하기 위해 사용되지 않는다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제2 구성요소는 제1 구성요소로 명명될 수 있고, 유사하게 제1 구성요소도 제2 구성요소로 명명될 수 있다.
더하여, 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급할 경우, 이는 논리적 또는 물리적으로 연결되거나, 접속될 수 있음을 의미한다. 다시 말해, 구성요소가 다른 구성요소에 직접적으로 연결되거나 접속되어 있을 수 있지만, 중간에 다른 구성요소가 존재할 수도 있으며, 간접적으로 연결되거나 접속될 수도 있다고 이해되어야 할 것이다.
또한, 본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 본 명세서에서 기술되는 "포함 한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하, 본 발명의 실시 예에 따른 음성 끝점 검출 방법 및 이를 위한 장치에 대해 설명하도록 한다.
도 1은 본 발명의 실시 예에 따른 음성 끝점 검출 방법이 적용된 음성 인식 시스템을 설명하기 위한 구성도이며, 도 2는 본 발명의 실시 예에 따른 음성 구간을 설명하기 위한 예시도이다.
먼저, 도 1을 참조하면, 본 발명의 실시 예가 적용된 음성 인식 시스템(500)은 끝점 검출 장치(100), 특징 추출 장치(200) 및 음성 인식 장치(300)를 포함하여 구성될 수 있다. 상기 끝점 검출 장치(100), 특징 추출 장치(200) 및 음성 인식 장치(300)는 독립된 하나의 음성 인식 시스템(500)을 구성하는 일 모듈 형태로 존재할 수 있으며, 별도의 통신 채널을 통해 물리적 또는 논리적으로 연결되며 각각 독립된 개별 장치 형태로 존재할 수도 있다.
이러한 음성 인식 시스템(500)을 구성하는 각 구성에 대해 설명하면, 먼저 본 발명의 끝점 검출 장치(100)는 입력되는 음성 신호에 대한 끝점을 검출하고 음성 구간을 판단하는 역할을 수행한다.
이때, 본 발명의 끝점 검출 장치(100)는 음성 신호에 대한 전처리 과정을 수행할 수 있으며, 소정 길이를 갖는 일련의 복수의 프레임으로 분리하고, 분리된 프레임 단위로 분석하여 끝점을 검출할 수 있다. 그리고 본 발명의 끝점 검출 장치(100)는 검출된 끝점에 따라 음성 구간을 판단하는 역할을 수행할 수 있다.
이러한 본 발명의 끝점 검출 장치(100)에 대해 보다 구체적으로 설명하면, 본 발명의 끝점 검출 장치(100)는 음성 신호의 각 프레임 단위로 음성 신호에 대한 음성 특징 파라미터를 산출한다. 여기서 산출될 수 있는 음성 특징 파라미터는 예컨대 음성 신호의 에너지 정보, 피치 정보 등이 될 수 있으며, 에너지 정보를 이용하는 경우 프레임의 음성 신호에 대해 푸리에 변환을 수행하여 스펙트럼 정보를 출력하고, 스펙트럼에 대한 필터 뱅크 에너지를 생성하고, 생성된 필터뱅크 에너지에 로그 함수를 적용하여 로그 필터뱅크 에너지를 출력하는 과정 등을 거쳐 음성 특징 파라미터를 추출할 수 있다.
그리고 본 발명의 끝점 검출 장치(100)는 산출된 음성 특징 파라미터를 이용하여 현재의 프레임이 음성인지 비음성 프레임인지 여부를 판단하여 이에 따른 음성 검출 결과 파라미터
Figure pat00001
를 산출한다. 예컨대, 음성 검출 결과 파라미터
Figure pat00002
의 값이 1인 경우는 현재 프레임이 음성임을 의미하고, 음성 검출 결과 파라미터
Figure pat00003
의 값이 0인 경우 현재 프레임이 비음성인 것을 의미한다.
그리고, 본 발명의 끝점 검출 장치(100)는 상술한 음성 특징 파라미터와 일련의 음성 검출 결과 파라미터를 이용하여 신경망 모델에 따른 학습을 수행할 수 있다. 이때, 본 발명의 끝점 검출 장치(100)는 음성 특징 파라미터, 과거의 일련의 음성 검출 결과 파라미터 및 이전의 끝점 검출 결과 파라미터
Figure pat00004
를 이용하여 현재 프레임에서의 최적의 음성 검출 결과 파라미터 및 이전 끝점 검출 결과 파라미터가 출력되도록 신경망 모델을 구축하는 과정을 수행할 수 있다. 다시 말해, 기존의 행오버 알고리즘에서는
Figure pat00005
=1로 검출되는 횟수가 기 설정된 행오버 카운트 변수를 만족하는 경우, 끝점 검출 결과 파라미터
Figure pat00006
는 1이 되어 음성 구간의 끝점임을 나타내게 되는 데, 이에 필요한 행오버 카운트 변수를 경험에 의존하여 설정해야 한다는 문제점이 있었다. 그러나, 본 발명은 끝점 검출에 필요한 다양한 조건들을 경험에 의존하여 설정하는 것이 아니라 전술한 바와 같이 입력 및 출력을 설정하여 신경망 모델을 구축하고 구축된 신경망 모델의 학습 과정을 통해 다양한 조건들을 설정하거나 변경할 수 있게 된다.
이러한 과정을 거쳐 본 발명의 끝점 검출 장치(100)는 신경망 모델을 구축할 수 있으며, 이후의 인가되는 음성 신호에서 구축된 신경망 모델을 이용하여 도 2에 도시된 바와 같이 음성의 시작점(A) 및 종료점(B)에 대한 끝점을 검출하고, 103이 지시하는 바와 같이 음성 구간(A-B 구간)을 판단할 수 있게 된다.
상술한 본 발명의 끝점 검출 장치(100)에서의 보다 구체적인 구성 및 동작에 대해서는 후술하여 설명하도록 한다.
한편, 본 발명의 특징 추출 장치(200)는 끝점 검출 장치(100)를 통해 검출된 음성 구간에 대응하여 음성 특징 파라미터를 추출하는 역할을 수행한다. 여기서, 음성 특징 파라미터는 전술한 바와 같이 음성 신호에 대한 에너지 정보뿐 아니라 다양한 음성 특징들을 이용할 수 있으며, 이러한 음성 특징 추출 시 다양한 특징 추출 알고리즘을 적용하여 구현될 수 있다. 예컨대, 본 발명의 특징 추출 장치(200)는 LMFE(Log Mel-Filterbank Energy)를 비롯하여, MFCC(Mel-Frequency Cepstrum Codfficient), LPCC(Linear Prediction Coefficient Cepstrum) 또는 PLPCC(Preceptual Linear Prediction Ceptrum Coeffcient), EIH(Ensemble Interval Histogram), SMC(Short-time Modified Coherence) 등의 다양한 특징 추출 알고리즘을 이용하여 음성 특징 파라미터를 추출할 수 있다.
이후, 특징 추출 장치(200)는 추출된 음성 특징 파라미터를 음성 인식 장치(300)로 전달한다.
음성 인식 장치(300)는 특징 추출 장치(200)를 통해 추출된 음성 특징 파라미터를 기 구축된 음향 모델(400)을 이용하여 인식하고 이에 따른 음성 인식 결과를 출력하는 역할을 수행하게 된다. 아울러, 본 발명의 음성 인식 장치(300)는 HMM(Hiddn Markov Model), DTW(Dynamic Time Warping) 및 신경회로망(neural network) 등과 같은 다양한 음성인식 알고리즘을 적용하여 음성 인식 과정을 수행할 수 있다.
또한, 본 발명의 음향 모델(400)은 음소들을 통계적으로 모델링하여 구축한 것으로, 도면에서는 음향 모델(400)만을 예시하여 도시하였으나 음향 모델(400)뿐 아니라, 문법에 적합한 음성 인식 결과가 도출되도록 지원하는 언어 모델, 표준 발음법에 의거한 결과가 산출되도록 지원하는 발음 사전 등과 같은 다양한 모델들을 종합적으로 고려하여 유사도를 산출하고, 이에 따라 최종 음성 인식 결과를 도출할 수도 있다.
또한, 특징 추출 장치(200)를 통해 출력된 결과 및 음성 인식 장치(300)를 통해 출력된 결과는 음향 모델(400)에 지속적으로 반영하여 음향 모델(400)을 구축하는 과정을 수행할 수도 있다.
이하에서는 전술한 바와 같은 본 발명의 끝점 검출 장치(100)에 대해 보다 더 구체적으로 설명하도록 한다.
도 3 및 도 4는 본 발명의 실시 예에 따른 끝점 검출 장치를 설명하기 위한 구성도이다.
먼저, 도 3를 참조하면, 본 발명의 끝점 검출 장치(100)는 학습부(10) 및 음성 구간 판단부(20)를 포함하여 구성될 수 있다. 먼저, 학습부(10)는 입력되는 음성 신호에 대응하여 프레임 단위로 파라미터를 추출하고 추출된 파라미터를 이용하여 신경망 모델을 학습하여 생성하는 역할을 수행한다. 특히, 본 발명의 학습부(10)는 심층 신경망(DNN; Deep Neural Network) 모델에 따라 학습의 과정을 수행할 수 있다.
여기서, 본 발명의 심층 신경망 모델은 입력 레이어와 출력 레이어를 포함하며, 상기 입력 레이어(input layer)와 출력 레이어(output layer) 사이에 숨은 복수 개의 은닉 레이어(hidden layer)를 포함하는 다층 퍼셉트론(multi layer perceptron)의 구조로 이루어진 네트워크를 의미한다. 각각의 레이어들은 인공 뉴런에 대응되는 복수의 노드로 구성될 수 있으며, 학습에 의해 서로 다른 레이어의 노드들 간의 연결 관계가 결정될 수 있다. 특히, 한 노드에서의 출력 값은 그 노드의 활성화 함수 출력 값으로 결정되는 데, 활성화 함수의 입력은 그 노드로 연결된 모든 노드들의 가중된 합을 의미할 수 있다.
아울러, 본 발명의 학습부(10)는 심층 신경망 모델을 이용하되, 하나의 심층 신경망 모델을 이용하는 경우와 두 개의 심층 신경망 모델을 이용하는 과정을 모두 포함할 수 있다.
예컨대, 도 4a에 도시된 바와 같이, 본 발명의 학습부(10)는 프레임별로 현재 프레임이 음성인지 비음성인지의 음성 검출 결과를 나타내는 음성 검출 결과 파라미터
Figure pat00007
와 상기 파라미터
Figure pat00008
의 연속된 결과를 고려하여 결정되는 끝점 검출 결과 파라미터
Figure pat00009
를 동시에 추정할 수 있는 제1 신경망 모델(10a)을 학습하여 구축하게 된다.
즉, 본 발명의 학습부(10)는 일정 범위의 음성 신호 프레임에 대응하여 추출된 음성 특징 파라미터와, 일련의 이전 프레임 단위로 검출된 음성 검출 결과 파라미터와, 어느 하나의 이전 프레임에서의 끝점 검출 결과 파라미터를 입력으로 설정하고, 현재 프레임에서의 음성 검출 결과 파라미터 및 이전 프레임에서의 끝점 검출 결과 파라미터를 출력으로 설정하여 제1 신경망 모델(10a)을 학습하여 생성하는 과정을 수행한다.
한편, 도 4b에 도시된 바와 같이, 본 발명의 학습부(10)는 프레임별 음성 검출 여부를 나타내는 음성 검출 결과 파라미터
Figure pat00010
를 먼저 검출하고, 파라미터
Figure pat00011
의 연속된 결과를 고려하여 결정되는 끝점 검출 결과 파라미터
Figure pat00012
를 검출하는 순차적 형태로 제1 신경망 모델(10a) 및 제2 신경망 모델(10b)을 학습하여 구축할 수도 있다.
이때, 본 발명의 학습부(10)는 제1 신경망 모델(10a)을 통해 도출된 출력 값을 제2 신경망 모델(10b)에 입력 값으로 입력되도록 설정하여 학습의 과정을 수행할 수 있다. 즉, 본 발명의 학습부(10)는 일정 범위의 음성 신호 프레임에 대응하여 추출된 음성 특징 파라미터를 입력으로 설정하고, 현재 프레임에서의 음성 검출 결과 파라미터를 출력으로 설정하여 도 4b에 도시된 바와 같이 제1 신경망 모델(10a)을 학습하여 생성하고, 상기 제1 신경망 모델(10a)을 통해 출력되는 음성 검출 결과 파라미터를 누적하고, 상기 누적된 일련의 음성 검출 결과 파라미터의 일정 범위를 입력으로 설정하고, 현재 프레임에서의 음성 검출 결과 파라미터를 출력으로 설정하여 제2 신경망 모델(10b)을 학습하여 생성하는 과정을 수행하게 된다.
이러한 과정을 통해 신경망 모델이 구축되면, 본 발명의 음성 구간 판단부(20)는 학습된 신경망 모델을 이용하여 음성 신호에서 끝점을 검출하여 음성 구간을 판단할 수 있다. 즉, 학습부(10)를 통해 생성된 신경망 모델에서 출력되는 끝점 검출 결과 파라미터를 이용하여 음성 시작점과 종료점을 검출할 수 있으며, 이를 통해 음성 신호에서 잡음 구간과 음성 구간을 구분하여 판단할 수 있게 된다. 또한, 본 발명의 음성 구간 판단부(20)는 판단된 결과를 다시 학습부(10)에 반영하여 신경망 모델을 수정하거나 변경하는 과정을 수행할 수도 있다.
이와 같이, 기존에는 음성 시작점과 종료점을 검출하기 위한 끝점 검출 결과 파라미터를 단순히 경험에 의한 조건식들로 결정하였다면, 본 발명은 다양한 음성 신호를 대상으로 입력과 출력을 결정한 상태에서 최적의 파라미터를 산출하기 위한 프레임의 범위를 신경망 모델을 이용하여 자동적으로 결정할 수 있으며, 아울러, 상황을 고려한 음성 신호를 대상으로 지속적으로 학습하거나 수정하는 과정을 거칠 수 있어 끝점 검출을 위한 알고리즘 유지 보수가 보다 용이할 수 있게 된다.
이러한 본 발명의 실시 예에 따른 음성 끝점 검출 방법에 대해 보다 더 구체적으로 설명하도록 한다.
본 발명의 실시 예에 따른 음성 끝점 검출 방법은 프레임별 산출되는 음성 검출 결과 파라미터와 끝점 검출 결과 파리미터를 동시에 출력되도록 신경망 모델을 학습하는 과정과, 음성 검출 결과 파라미터를 출력한 이후에 출력값을 누적하여 입력하고 이에 따라 끝점 검출 결과 파라미터가 출력되도록 신경망 모델을 학습하는 순차적 과정으로 구분할 수 있다.
이에 대해 보다 더 구체적으로 설명하면, 먼저, 도 5 및 도 6은 본 발명의 일 실시 예에 따른 음성 끝점 검출 방법을 설명하기 위한 예시도이며, 도 7은 본 발명의 일 실시 예에 따른 음성 끝점 검출 방법을 설명하기 위한 흐름도이다.
도 5에 도시된 바와 같이, 본 발명의 일 실시 예에 따른 음성 끝점 검출 방법은 프레임별 음성 검출 여부를 나타내는 음성 검출 결과 파라미터
Figure pat00013
와 상기 파라미터
Figure pat00014
의 연속된 결과를 고려하여 결정되는 끝점 검출 결과 파라미터
Figure pat00015
를 동시에 추정할 수 있는 신경망 모델을 이용하게 된다.
보다 구체적으로 설명하면, 음성 끝점 검출을 위한 신경망 모델의 입력 레이어에 입력되는 입력 값은 3가지이다. 즉, 음성 신호에서의 음성 특징을 나타내는 음성 특징 파라미터
Figure pat00016
, 프레임별 음성 검출 여부를 나타내는 음성 검출 결과 파라미터
Figure pat00017
, 음성 검출 결과 파라미터
Figure pat00018
를 이용하여 산출되는 끝점 검출 결과 파라미터
Figure pat00019
를 입력 값으로 설정한다.
본 발명의 음성 특징 파라미터는 예컨대 음성 신호에 대한 에너지 음성 특징 파라미터를 이용하게 되며, 도 6의 ①이 지시하는 바와 같이 임의의 현재 프레임(t)을 기준으로
Figure pat00020
번째 프레임에서
Figure pat00021
프레임까지의 로그 멜 필터뱅크 에너지(LMFE; Log Mel-Filterbank Energy) 벡터 시퀀스
Figure pat00022
를 음성 특징 파라미터로 이용할 수 있다. 그러나 상기 에너지 음성 특징 파라미터는 하나의 일 실시 예이며, 음성 신호에 대한 음향학적인 특징인 피치(pitch), 포만트 등을 적용할 수도 있다.
그리고, 프레임별로 음성 특징 파라미터를 이용하여 현재 프레임이 음성인지 비음성인지 여부에 따른 음성 검출 결과 파라미터
Figure pat00023
는 과거의 연속된
Figure pat00024
파라미터의 시퀀스를 이용하게 된다. 즉, 도 6의 ②가 지시하는 바와 같이, 현재 프레임(t)을 기준으로 현재 프레임에 대한 과거의 연속된 프레임의 음성 검출 결과 파라미터, 예컨대 과거 임의의
Figure pat00025
프레임부터
Figure pat00026
프레임까지의
Figure pat00027
파라미터의 연속을 이용하게 된다.
또한, 도 6의 ③이 지시하는 바와 같이 본 발명의 끝점 검출 장치(100)는 t 프레임에 대한 과거의 어느 한 프레임, 예컨대
Figure pat00028
에서의 끝점 검출 결과 파라미터
Figure pat00029
를 입력으로 설정하고, ⑤가 지시하는 t 프레임에서의
Figure pat00030
파라미터와, ④가 지시하는
Figure pat00031
프레임에서의
Figure pat00032
파라미터를 출력으로 설정하여 심층 신경망 모델에 대한 학습을 진행하게 된다.
심층 신경망 모델에서의 학습 과정에 대해 설명하면, 일반적으로 심층 신경망 모델의
Figure pat00033
번째 노드 출력
Figure pat00034
는 하기의 <수학식 1>과 같다.
Figure pat00035
여기서
Figure pat00036
은 입력 레이어(input layer)의
Figure pat00037
번째 노드에서의 입력 값을 나타내며, 입력 레이어의 각 노드들은 1,
Figure pat00038
,
Figure pat00039
,
Figure pat00040
들로 구성된다.
Figure pat00041
Figure pat00042
번째 레이어의
Figure pat00043
번째 노드와
Figure pat00044
번째 레이어의
Figure pat00045
번째 노드에 대한 가중치(weight)를 나타낸다. 각 레이어의 노드에서의 출력 함수
Figure pat00046
는 하기의 <수학식 2>와 같은 sigmoid 함수이다.
Figure pat00047
그리고, 심층 신경망 모델 학습 시 비용 함수(cost function)
Figure pat00048
를 최소화시키는
Figure pat00049
를 하기의 <수학식 3>을 이용하여 추정한다. 행렬
Figure pat00050
Figure pat00051
들로 이루어진다.
Figure pat00052
여기서 벡터
Figure pat00053
Figure pat00054
은 각각
Figure pat00055
번째 프레임의 심층 신경망 출력과 이에 해당하는 라벨(label) 정보이고,
Figure pat00056
Figure pat00057
로 이루어진다. 모든 훈련 데이터에 대해서 비용 함수
Figure pat00058
를 최소화 시키는
Figure pat00059
는 역전파(back propagation) 알고리즘을 이용하여 추정하는데,
Figure pat00060
를 이용하여 임의의 음성 신호 데이터에 대해 음성 검출을 할 수 있다.
이러한 본 발명의 일 실시 예에 따른 음성 끝점 검출 방법에 대해 도 7을 참조하여 다시 설명하면, 본 발명의 끝점 검출 장치(100)는 신경망 모델을 생성하기 위한 입력 및 출력 파라미터를 설정하는 과정을 수행한다(S101). 여기서, 입력 파라미터는 일정 범위의 음성 신호 프레임에 대응하여 추출된 음성 특징 파라미터와, 일련의 이전 프레임 단위로 검출된 음성 검출 결과 파라미터와, 어느 하나의 이전 프레임에서의 끝점 검출 결과 파라미터를 의미한다. 그리고 출력 파라미터는 현재 프레임에서의 음성 검출 결과 파라미터 및 이전 프레임에서의 끝점 검출 결과 파라미터를 의미한다.
그리고, 본 발명의 끝점 검출 장치(100)는 상술한 입력 파라미터에 따라 출력 파라미터가 출력되도록 신경망 모델의 가중치들을 설정하여 심층 신경망 모델을 학습하는 과정을 수행하게 된다(S103).
이후, 본 발명의 끝점 검출 장치(100)는 학습된 신경망 모델을 이용하여 인가되는 음성 신호에서의 음성 끝점을 검출하고 음성 구간을 판단할 수 있다(S105).
한편, 본 발명의 실시 예에 따른 음성 끝점 검출 방법은 두 개의 신경망 모델을 이용하여 음성 끝점을 검출할 수도 있다.
이에 대해 도 9 및 도 10을 참조하여 설명하도록 한다.
도 8은 본 발명의 다른 실시 예에 따른 음성 끝점 검출 방법을 설명하기 위한 예시도이며, 도 9는 본 발명의 다른 실시 예에 따른 음성 끝점 검출 방법을 설명하기 위한 흐름도이다.
먼저, 도 8a를 참조하면, 본 발명의 끝점 검출 장치(100)는 일정 범위의 음성 신호 프레임에 대응하여 추출된 음성 특징 파라미터를 입력으로 설정한다. 예컨대, 본 발명의 끝점 검출 장치(100)는 임의의 현재 프레임(t)을 기준으로
Figure pat00061
번째 프레임에서
Figure pat00062
프레임까지의 로그 멜 필터뱅크 에너지(LMFE; Log Mel-Filterbank Energy) 벡터 시퀀스
Figure pat00063
를 음성 특징 파라미터로 이용할 수 있다. 그러나 상기 에너지 음성 특징 파라미터는 하나의 일 실시 예이며, 음성 신호에 대한 음향학적인 특징인 피치(pitch), 포만트 등을 적용할 수도 있다.
그리고, 본 발명의 끝점 검출 장치(100)는 현재 프레임(t)에서의 음성 검출 결과 파라미터
Figure pat00064
를 출력으로 설정하여 제1 신경망 모델을 학습하여 생성하게 된다.
그리고 본 발명의 끝점 검출 장치(100)는 제1 신경망 모델을 통해 출력되는 음성 검출 결과 파라미터
Figure pat00065
를 누적하여 저장하고, 일정 범위 이상 누적이 되면 과거의 연속된 음성 검출 결과 파라미터
Figure pat00066
의 시퀀스와 상기 음성 검출 결과 파라미터
Figure pat00067
시퀀스를 통해 t 프레임에 대한 끝점 검출 결과 파라미터
Figure pat00068
를 확인할 수 있으므로, 상기 정보를 다시 제2 신경망 모델의 입력으로 설정한다. 예컨대,
Figure pat00069
부터
Figure pat00070
까지의 음성 검출 결과 파라미터
Figure pat00071
를 이용하여 t-1 시점에서의 끝점 검출 결과 파라미터
Figure pat00072
를 확인하고, 이를 도 8b의 신경망 모델의 입력으로 설정한다. 그리고 출력 레이어를 통해 출력되는 값은 t 프레임에서의 끝점 검출 결과 파라미터로 설정하여 이에 대한 학습 과정을 거쳐 제2 신경망 모델을 생성하고 각 레이어의 노드들에 대한 경로 가중치가 설정되게 된다. 이러한 학습의 결과에 따라 연속된
Figure pat00073
파라미터의 범위는 최적의 범위가 설정되도록 유지 보수 하는 절차를 거칠 수도 있다.
이러한 과정을 다시 도 9의 흐름도를 참조하여 설명하면, 본 발명의 끝점 검출 장치(100)는 현재 프레임을 기준으로 일정 범위의 프레임에 대응하여 추출된 음성 특징 파라미터
Figure pat00074
를 입력으로 설정하고, 상기 현재 프레임에서의 음성 검출 결과 파라미터
Figure pat00075
를 출력으로 설정하여 제1 신경망 모델을 학습하게 된다(S201). 그리고, 본 발명의 끝점 검출 장치(100)는 제1 신경망 모델의 출력 파라미터인 음성 검출 결과 파라미터를 프레임 단위로 누적하여 저장한다(S203).
이후에, 본 발명의 끝점 검출 장치(100)는 상기 현재 프레임의 이전 프레임들 중 일정 범위의 프레임에 대응하여 누적된 음성 검출 결과 파라미터
Figure pat00076
와, 상기 음성 검출 결과 파라미터
Figure pat00077
를 이용하여 판단된 상기 현재 프레임의 이전 프레임에서의 끝점 검출 결과 파라미터
Figure pat00078
를 입력으로 설정하고(S205), 상기 음성 검출 결과 파라미터를 이용하여 판단된 현재 프레임에서의 끝점 검출 결과 파라미터
Figure pat00079
를 출력으로 설정하여 제2 신경망 모델을 학습하게 된다(S207).
이후, 본 발명의 끝점 검출 장치(100)는 제1 신경망 모델 및 제2 신경망 모델을 이용하여 음성 신호의 음성 끝점을 검출하고 음성 구간을 판단할 수 있게 된다(S209).
이와 같이 본 발명의 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치에 의하면, 심층 신경망(Deep Neural Network)을 이용한 음성 끝점 검출을 통해 음성 구간을 판단함으로써, 잡음 환경에서의 끝점 검출 성능을 보다 더 향상시킬 수 있으며, 경험에 의존하여 음성 끝점 검출을 위한 파라미터를 설정할 필요가 없어 보다 더 효율적인 음성 끝점 검출이 가능하게 된다.
또한 본 발명에 의하면, 심층 신경망 모델을 이용하여 음성 끝점 검출을 위한 학습 데이터를 구축함으로써, 기존에는 음성 시작점과 종료점을 검출하기 위한 끝점 검출 결과 파라미터를 단순히 경험에 의한 카운팅 횟수에 따라 결정하였다면, 본 발명은 다양한 음성 신호를 대상으로 입력과 출력을 결정한 상태에서 최적의 파라미터를 산출하기 위한 프레임의 범위를 신경망 모델을 이용하여 자동적으로 결정할 수 있으며, 아울러, 상황을 고려한 음성 신호를 대상으로 지속적으로 학습하거나 수정하는 과정을 거칠 수 있어 끝점 검출을 위한 알고리즘 유지 보수가 보다 용이할 수 있게 된다.
이를 통해 본 발명은 음성 인식, 화자 인식, 음질 개선 등과 같이 음성 신호 처리 분야의 효율을 향상시킬 수 있게 된다.
이상으로 본 발명의 실시 예에 따른 음성 끝점 검출 방법에 대해 설명하였다.
상술한 바와 같은 본 발명의 음성 끝점 검출 방법은 컴퓨터 프로그램 명령어와 데이터를 저장하기에 적합한 컴퓨터로 판독 가능한 매체의 형태로 제공될 수도 있다.
특히, 본 발명의 컴퓨터 프로그램은 현재 프레임을 기준으로 일정 범위의 프레임에 대응하여 추출된 음성 특징 파라미터와, 상기 현재 프레임의 이전 프레임들 중 일정 범위의 프레임에 대응하여 검출된 음성 검출 결과 파라미터와, 상기 현재 프레임의 이전 프레임들 중 어느 하나의 프레임에서의 끝점 검출 결과 파라미터를 입력으로 설정하고, 현재 프레임에서의 음성 검출 결과 파라미터 및 상기 현재 프레임의 이전 프레임에서의 끝점 검출 결과 파라미터를 출력으로 설정하여 신경망 모델을 학습하는 학습하는 단계와, 상기 학습된 신경망 모델을 이용하여 입력되는 음성 신호에서 음성 끝점을 검출하여 음성 구간을 판단하는 단계 등을 실행할 수 있다.
이러한, 컴퓨터 프로그램 명령어와 데이터를 저장하기에 적합한 컴퓨터로 판독 가능한 매체는, 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM)과 같은 반도체 메모리를 포함한다. 프로세서와 메모리는 특수 목적의 논리 회로에 의해 보충되거나, 그것에 통합될 수 있다.
또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 본 발명을 구현하기 위한 기능적인(Functional) 프로그램과 이와 관련된 코드 및 코드 세그먼트 등은, 기록매체를 읽어서 프로그램을 실행시키는 컴퓨터의 시스템 환경 등을 고려하여, 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론되거나 변경될 수도 있다.
아울러, 상술한 바와 같은 컴퓨터가 읽을 수 있는 기록매체에 기록된 컴퓨터 프로그램은 상술한 바와 같은 기능을 수행하는 명령어를 포함하며 기록매체를 통해 배포되고 유통되어 특정 장치, 특정 컴퓨터에 읽히어 설치되고 실행됨으로써 전술한 기능들을 실행할 수 있다.
본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.
마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 시스템 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 시스템들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.
본 발명은 음성 끝점 검출 방법에 관한 것으로, 더욱 상세하게는 심층 신경망(Deep Neural Network)을 이용한 음성 끝점 검출을 통해 음성 구간을 판단함으로써, 잡음 환경에서의 끝점 검출 성능을 보다 더 향상시킬 수 있는 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치에 관한 것이다.
이러한 본 발명에 의하면, 심층 신경망 모델을 이용하여 음성 끝점 검출을 위한 학습 데이터를 구축함으로써, 보다 더 정확한 파라미터의 설정이 가능하고 이를 통해 보다 더 정확한 음성 끝점을 검출할 수 있으며, 이를 통해 본 발명은 음성 인식, 화자 인식, 음질 개선 등과 같이 음성 신호 처리 분야의 효율을 향상시킬 수 있어, 산업상 이용 가능성이 충분하다.
10: 학습부
20: 음성 구간 판단부
100: 끝점 검출 장치
200: 특징 추출 장치
300: 음성 인식 장치
400: 음향 모델
500: 음성 인식 시스템

Claims (7)

  1. 음성 신호를 소정 길이를 갖는 복수의 프레임으로 구분하고, 구분된 프레임을 대상으로 음성 구간을 판단할 수 있는 끝점 검출 장치에 있어서,
    상기 끝점 검출 장치는
    현재 프레임을 기준으로 일정 범위의 프레임에 대응하여 추출된 음성 특징 파라미터와, 상기 현재 프레임의 이전 프레임들 중 일정 범위의 프레임에 대응하여 검출된 음성 검출 결과 파라미터와, 상기 현재 프레임의 이전 프레임들 중 어느 하나의 프레임에서의 끝점 검출 결과 파라미터를 입력으로 설정하고, 현재 프레임에서의 음성 검출 결과 파라미터 및 상기 현재 프레임의 이전 프레임에서의 끝점 검출 결과 파라미터를 출력으로 설정하여 신경망 모델을 학습하는 학습부와,
    상기 생성된 신경망 모델을 이용하여 입력되는 음성 신호에서의 음성 끝점을 검출하여 음성 구간을 판단하는 음성 구간 판단부를
    포함하는 것을 특징으로 하는 끝점 검출 장치.
  2. 음성 신호를 소정 길이를 갖는 복수의 프레임으로 구분하고, 구분된 프레임을 대상으로 음성 구간을 판단할 수 있는 끝점 검출 장치에 있어서,
    상기 끝점 검출 장치는
    현재 프레임을 기준으로 일정 범위의 프레임에 대응하여 추출된 음성 특징 파라미터와, 상기 현재 프레임의 이전 프레임들 중 일정 범위의 프레임에 대응하여 검출된 음성 검출 결과 파라미터와, 상기 현재 프레임의 이전 프레임들 중 어느 하나의 프레임에서의 끝점 검출 결과 파라미터를 입력 받는 입력 레이어와,
    현재 프레임에서의 음성 검출 결과 파라미터 및 상기 현재 프레임의 이전 프레임에서의 끝점 검출 결과 파라미터를 출력하는 출력 레이어와,
    상기 입력 레이어와 출력 레이어 사이에 위치하며 상기 출력 레이어를 통해 해당하는 파라미터가 출력되도록 상기 입력 레이어와 출력 레이어의 노드들에 대한 링크 가중치를 설정하는 적어도 하나 이상의 은닉 레이어로 구성되는 신경망 모델을 포함하며,
    상기 신경망 모델을 통해 음성 구간을 판단하는 것을 특징으로 하는 끝점 검출 장치.
  3. 음성 신호를 소정 길이를 갖는 복수의 프레임으로 구분하고, 구분된 프레임을 대상으로 음성 구간을 판단할 수 있는 끝점 검출 장치에 있어서,
    현재 프레임을 기준으로 일정 범위의 프레임에 대응하여 추출된 음성 특징 파라미터와, 상기 현재 프레임의 이전 프레임들 중 일정 범위의 프레임에 대응하여 검출된 음성 검출 결과 파라미터와, 상기 현재 프레임의 이전 프레임들 중 어느 하나의 프레임에서의 끝점 검출 결과 파라미터를 입력으로 설정하고, 현재 프레임에서의 음성 검출 결과 파라미터 및 상기 현재 프레임의 이전 프레임에서의 끝점 검출 결과 파라미터를 출력으로 설정하여 신경망 모델을 학습하는 학습하는 단계와,
    상기 학습된 신경망 모델을 이용하여 입력되는 음성 신호에서 음성 끝점을 검출하여 음성 구간을 판단하는 단계를,
    포함하는 것을 특징으로 하는 심층 신경망을 이용한 음성 끝점 검출 방법.
  4. 제3항에 있어서,
    상기 학습하는 단계는
    현재 프레임을 기준으로 상기 현재 프레임을 포함하는 일정 범위의 프레임에 대응하여 추출된 각각의 음성 특징 파라미터와, 상기 현재 프레임의 이전의 어느 한 프레임부터 상기 현재 프레임의 이전 프레임까지의 연속된 음성 검출 결과 파라미터와, 상기 연속된 음성 검출 결과 파라미터를 이용하여 판단된 상기 현재 프레임 이전의 어느 한 프레임에서의 끝점 검출 결과 파라미터를 입력으로 설정하고,
    상기 현재 프레임에서의 음성 검출 결과 파라미터 및 상기 현재 프레임의 이전 프레임에서의 끝점 검출 결과 파라미터를 출력으로 설정하여 신경망 모델을 학습하는 것을 특징으로 하는 심층 신경망을 이용한 음성 끝점 검출 방법.
  5. 제3항에 있어서,
    상기 학습하는 단계는
    상기 입력에 따라 상기 출력으로 설정된 파라미터들이 출력되도록 심층 신경망의 가중치들을 설정하여 심층 신경망 모델을 학습하는 것을 특징으로 하는 심층 신경망을 이용한 음성 끝점 검출 방법.
  6. 음성 신호를 소정 길이를 갖는 복수의 프레임으로 구분하고, 구분된 프레임을 대상으로 음성 구간을 판단할 수 있는 끝점 검출 장치에 있어서,
    현재 프레임을 기준으로 일정 범위의 프레임에 대응하여 추출된 음성 특징 파라미터를 입력으로 설정하고, 상기 현재 프레임에서의 음성 검출 결과 파라미터를 출력으로 설정하여 제1 신경망 모델을 학습하여 생성하는 단계와,
    상기 제1 신경망 모델을 통해 출력되는 음성 검출 결과 파라미터를 프레임 단위로 누적하고, 상기 현재 프레임의 이전 프레임들 중 일정 범위의 프레임에 대응하여 누적된 음성 검출 결과 파라미터와 상기 음성 검출 결과 파라미터를 이용하여 판단된 상기 현재 프레임의 이전 프레임에 대한 끝점 검출 결과 파라미터를 입력으로 설정하고, 상기 현재 프레임에서의 끝점 검출 결과 파라미터를 출력으로 설정하여 제2 신경망 모델을 학습하여 생성하는 단계와,
    상기 생성된 제1 신경망 모델 및 제2 신경망 모델을 이용하여 입력되는 음성 신호에서의 음성 끝점을 검출하여 음성 구간을 판단하는 단계를,
    포함하는 것을 특징으로 하는 심층 신경망을 이용한 음성 끝점 검출 방법.
  7. 제3항 내지 제6항 중 어느 하나의 항에 기재된 심층 신경망을 이용한 음성 끝점 검출 방법을 실행하는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
KR1020160106225A 2016-08-22 2016-08-22 심층 신경망을 이용한 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치 KR101943381B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160106225A KR101943381B1 (ko) 2016-08-22 2016-08-22 심층 신경망을 이용한 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160106225A KR101943381B1 (ko) 2016-08-22 2016-08-22 심층 신경망을 이용한 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치

Publications (2)

Publication Number Publication Date
KR20180021531A true KR20180021531A (ko) 2018-03-05
KR101943381B1 KR101943381B1 (ko) 2019-01-29

Family

ID=61726875

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160106225A KR101943381B1 (ko) 2016-08-22 2016-08-22 심층 신경망을 이용한 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치

Country Status (1)

Country Link
KR (1) KR101943381B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109243498A (zh) * 2018-11-20 2019-01-18 南京莱斯信息技术股份有限公司 一种基于fft语音信号的端点检测系统及检测方法
KR101950374B1 (ko) * 2018-05-25 2019-02-20 뉴브로드테크놀러지(주) 비표준 프로토콜 역공학 분석 장치
WO2020013666A1 (ko) * 2018-07-13 2020-01-16 삼성전자 주식회사 사용자 음성 입력 처리 방법 및 이를 지원하는 전자 장치
CN111968680A (zh) * 2020-08-14 2020-11-20 北京小米松果电子有限公司 一种语音处理方法、装置及存储介质
CN112420079A (zh) * 2020-11-18 2021-02-26 青岛海尔科技有限公司 语音端点检测方法和装置、存储介质及电子设备
KR20230006055A (ko) * 2018-07-13 2023-01-10 구글 엘엘씨 종단 간 스트리밍 키워드 탐지

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0442299A (ja) * 1990-06-08 1992-02-12 Sharp Corp 音声区間検出装置
KR20080059881A (ko) 2006-12-26 2008-07-01 삼성전자주식회사 음성 신호의 전처리 장치 및 방법
JP2016502140A (ja) * 2012-11-29 2016-01-21 株式会社ソニー・コンピュータエンタテインメント 音/母音/音節境界検出のための聴覚的注意合図と音素事後確率スコアの組み合わせ
KR20160073874A (ko) * 2014-12-17 2016-06-27 서울대학교산학협력단 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법 및 이를 수행하는 음성 검출 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0442299A (ja) * 1990-06-08 1992-02-12 Sharp Corp 音声区間検出装置
KR20080059881A (ko) 2006-12-26 2008-07-01 삼성전자주식회사 음성 신호의 전처리 장치 및 방법
JP2016502140A (ja) * 2012-11-29 2016-01-21 株式会社ソニー・コンピュータエンタテインメント 音/母音/音節境界検出のための聴覚的注意合図と音素事後確率スコアの組み合わせ
KR20160073874A (ko) * 2014-12-17 2016-06-27 서울대학교산학협력단 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법 및 이를 수행하는 음성 검출 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Thad Hughes et al., ‘Recurrent neural networks for voice activity detection’, ICASSP 2013, pp.7378~7382, 2013. *
Xiao Lei Zhang et al., ‘Deep belief networks based voice activity detection’, IEEE Trans. on Audio, Speech, and Language processing, Vol.21, No.4, pp. 697~710, April 2013.* *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101950374B1 (ko) * 2018-05-25 2019-02-20 뉴브로드테크놀러지(주) 비표준 프로토콜 역공학 분석 장치
WO2020013666A1 (ko) * 2018-07-13 2020-01-16 삼성전자 주식회사 사용자 음성 입력 처리 방법 및 이를 지원하는 전자 장치
US11514890B2 (en) 2018-07-13 2022-11-29 Samsung Electronics Co., Ltd. Method for user voice input processing and electronic device supporting same
KR20230006055A (ko) * 2018-07-13 2023-01-10 구글 엘엘씨 종단 간 스트리밍 키워드 탐지
CN109243498A (zh) * 2018-11-20 2019-01-18 南京莱斯信息技术股份有限公司 一种基于fft语音信号的端点检测系统及检测方法
CN109243498B (zh) * 2018-11-20 2023-03-14 南京莱斯信息技术股份有限公司 一种基于fft语音信号的端点检测系统及检测方法
CN111968680A (zh) * 2020-08-14 2020-11-20 北京小米松果电子有限公司 一种语音处理方法、装置及存储介质
CN112420079A (zh) * 2020-11-18 2021-02-26 青岛海尔科技有限公司 语音端点检测方法和装置、存储介质及电子设备

Also Published As

Publication number Publication date
KR101943381B1 (ko) 2019-01-29

Similar Documents

Publication Publication Date Title
KR101943381B1 (ko) 심층 신경망을 이용한 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치
EP3955246B1 (en) Voiceprint recognition method and device based on memory bottleneck feature
CN105679317B (zh) 用于训练语言模型并识别语音的方法和设备
Ahmad et al. A unique approach in text independent speaker recognition using MFCC feature sets and probabilistic neural network
KR101893789B1 (ko) 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치
KR101988222B1 (ko) 대어휘 연속 음성 인식 장치 및 방법
WO2017114201A1 (zh) 一种设定操作的执行方法及装置
EP3156978A1 (en) A system and a method for secure speaker verification
US10529319B2 (en) User adaptive speech recognition method and apparatus
JP2019211749A (ja) 音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラム
US11670299B2 (en) Wakeword and acoustic event detection
JP7342915B2 (ja) 音声処理装置、音声処理方法、およびプログラム
US11132990B1 (en) Wakeword and acoustic event detection
Devi et al. Automatic speaker recognition from speech signals using self organizing feature map and hybrid neural network
Wijethunga et al. Deepfake audio detection: a deep learning based solution for group conversations
KR20200119377A (ko) 화자 식별 뉴럴 네트워크를 구현하는 방법 및 장치
Mahmood et al. Speech recognition based on convolutional neural networks and MFCC algorithm
CN113284513B (zh) 基于音素时长特征的虚假语音检测方法及装置
KR101992955B1 (ko) 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치
KR20200023893A (ko) 화자 인증 방법, 화자 인증을 위한 학습 방법 및 그 장치들
Hanchate et al. Vocal digit recognition using artificial neural network
Nigro et al. Multimodal system for audio scene source counting and analysis
JPH06110488A (ja) 音声検出方法および音声検出装置
KR20210081166A (ko) 다국어 음성 환경에서의 언어 식별 장치 및 방법
Hussain et al. Endpoint detection of speech signal using neural network

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant