KR101992955B1 - 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치 - Google Patents

정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치 Download PDF

Info

Publication number
KR101992955B1
KR101992955B1 KR1020180099345A KR20180099345A KR101992955B1 KR 101992955 B1 KR101992955 B1 KR 101992955B1 KR 1020180099345 A KR1020180099345 A KR 1020180099345A KR 20180099345 A KR20180099345 A KR 20180099345A KR 101992955 B1 KR101992955 B1 KR 101992955B1
Authority
KR
South Korea
Prior art keywords
speech
interval
signal
normalization
present
Prior art date
Application number
KR1020180099345A
Other languages
English (en)
Other versions
KR20180097496A (ko
Inventor
반성민
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020180099345A priority Critical patent/KR101992955B1/ko
Publication of KR20180097496A publication Critical patent/KR20180097496A/ko
Application granted granted Critical
Publication of KR101992955B1 publication Critical patent/KR101992955B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 입력되는 음성 신호에서의 음성 구간을 판단할 수 있는 방법에 관한 것으로, 더욱 상세하게는 심층 신경망(Deep Neural Network)을 이용하여 음성 끝점을 검출하고 이를 이용하여 음성 구간 판단하기 이전에, 정규화 과정에서 상기 심층 신경망의 입력 레이어를 고려한 윈도우 단위로 정규화를 진행함으로써, 보다 더 신속한 처리가 가능하며, 또한 마스킹 과정을 수행한 이후에 정규화를 진행함으로써 다양한 잡음 환경에서도 보다 더 정확하게 음성 구간을 검출할 수 있는 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치에 관한 것이다.

Description

정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치{METHOD FOR SPEECH ENDPOINT DETECTION USING NORMALIZAION AND APPARATUS THEREOF}
본 발명은 입력되는 음성 신호에서의 음성 구간을 판단할 수 있는 방법에 관한 것으로, 더욱 상세하게는 음성 신호에서의 음성 구간 판단 시 실시간 처리가 가능함과 동시에 다양한 잡음 환경에서 보다 더 강인한 성능을 나타낼 수 있는 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치에 관한 것이다.
이 부분에 기술된 내용은 단순히 본 실시 예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.
음성 인식 성능을 향상시키기 위해서는 잡음과 함께 인가되는 음성의 구간을 정확하게 획득할 수 있어야 한다. 이에 음성 신호에 대해 음성이 시작되는 시작점부터 음성이 종료되는 종료점까지의 음성 끝점(endpoint)을 검출하고, 이를 통해 음성 구간과 비음성 구간을 정확하게 판단할 수 있는 기술의 중요성이 점차 확대되고 있다.
특히, 다양한 잡음 환경을 고려하여 음성 구간을 보다 더 정확하게 검출하기 위해서는 특징 정규화 과정을 수행하기도 한다.
이러한 특징 정규화 과정은 크게 입력되는 음성 신호에 대응하여 훈련 데이터를 이용하여 미리 산출된 평균과 분산을 적용하여 정규화를 진행하는 GMVN(Global Mean and Variance Normalization) 방식과 입력되는 음성 신호에 대응하여 평균과 분산을 산출하여 정규화를 수행하는 UMVN(Utterance Mean and Variance Normalization)을 들 수 있다.
GMVN 방식은 음성 신호에 대응하여 미리 산출된 평균과 분산을 적용하여 정규화를 진행함으로써, 실시간 처리가 가능하다는 장점이 있으나, 음성 신호에서의 잡음 환경과 훈련 데이터에서의 잡음 환경이 상이할 경우 검출 성능이 떨어진다는 문제점이 있다.
또한, UMVN 방식의 경우 입력되는 음성 신호별로 평균과 분산을 산출하여 정규화를 수행함으로써, GMVN 방식에 비해 다양한 잡음 환경에서 보다 더 우수한 성능을 나타낼 수 있으나, 전체 음성 신호의 입력이 완료되어야지만 평균과 분산 산출이 가능하다는 점에서 실시간 처리가 불가능하다는 문제점이 있다.
이에, 실시간 처리가 가능함과 동시에 다양한 잡음 환경에 보다 더 강인한 성능을 보일 수 있는 특징 정규화 기술의 개발이 필요하다.
한국공개특허 제10-1999-001828호, 1999년 1월 15일 공개 (명칭: 스펙트럼의 동적 영역 정규화에 의한 음성 특징 추출 장치 및 방법)
본 발명은 상기한 종래의 문제점을 해결하기 위해 제안된 것으로서, 음성 신호에서의 음성 구간 판단 시 실시간 처리가 가능함과 동시에 다양한 잡음 환경에서 보다 더 강인한 성능을 나타낼 수 있는 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치를 제공하는 데 목적이 있다.
특히, 본 발명은 심층 신경망(Deep Neural Network)을 이용하여 음성 끝점을 검출하고 이를 이용하여 음성 구간 판단하기 이전에, 정규화 과정에서 상기 심층 신경망의 입력 레이어를 고려한 윈도우 단위로 정규화를 진행함으로써, 보다 더 신속한 처리가 가능하며 아울러 다양한 잡음 환경에서도 보다 더 정확하게 음성 구간을 검출할 수 있는 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치를 제공하는 데 그 목적이 있다.
그러나, 이러한 본 발명의 목적은 상기의 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 명확하게 이해될 수 있을 것이다.
상술한 바와 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 정규화를 이용한 음성 구간 판단 방법은 음성 구간 판단 장치가 음성 신호로부터 음성 구간을 검출하는 음성 구간 판단 방법으로서, 상기 음성 신호를 프레임 단위로 구분하고, 상기 프레임 단위로 음성 특징 벡터를 추출하는 단계; 상기 음성 신호에서 특정 프레임을 기준으로 일정 범위에 해당하는 복수 개의 프레임을 대상으로 스플라이스 윈도우를 설정하는 단계; 해당 스플라이스 윈도우에 포함되는 상기 음성 특징 벡터를 대상으로 정규화를 수행하는 단계; 및 상기 정규화된 음성 특징 벡터를 심층 신경망 모델의 입력으로 설정하여 상기 음성 신호에서의 음성 구간을 판단하는 단계를 포함하고, 상기 스플라이스 윈도우는 상기 심층 신경망 모델의 입력 레이어의 크기에 대응하여 설정되는 것을 특징으로 한다.
본 발명에 따른 정규화를 이용한 음성 구간 판단 방법은 상기 음성 특징 벡터를 추출하는 단계 이전에, 상기 음성 신호의 잡음 신호를 마스킹 처리하는 단계를 더 포함한다.
또한 상기 잡음 신호는 상기 음성 구간 판단을 위한 학습 데이터 구축 시 적용된 학습 잡음 신호인 것을 특징으로 한다.
또한 상기 마스킹 처리하는 단계는 상기 학습 잡음 신호의 에너지 레벨이 상기 잡음 신호의 에너지 레벨에 맞추도록 조정한 후 마스킹 처리하는 것을 특징으로 한다.
또한 상기 정규화를 수행하는 단계는 해당 스플라이스 윈도우의 주파수 대역별로 추출된 음성 특징 벡터를 이용하여 해당 스플라이스 윈도우에 대응하는 평균과 표준편차를 산출하는 단계;를 포함하고, 상기 산출된 평균과 표준편차를 이용하여 정규화를 수행하는 것을 특징으로 한다.
본 발명의 실시예에 따른 음성 신호로부터 음성 구간을 검출할 수 있는 음성 구간 판단 장치는, 상기 음성 신호를 프레임 단위로 구분하고, 상기 프레임 단위로 음성 특징 벡터를 추출하는 특징 벡터 추출부; 상기 음성 신호에서 특정 프레임을 기준으로 일정 범위에 해당하는 복수 개의 프레임을 대상으로 스플라이스 윈도우를 설정하고, 해당 스플라이스 윈도우에 포함되는 상기 음성 특징 벡터를 대상으로 정규화를 수행하는 정규화부; 및 상기 정규화된 음성 특징 벡터를 심층 신경망 모델의 입력으로 설정하여 상기 음성 신호에서의 음성 구간을 판단하는 음성 구간 판단부; 를 포함하고, 상기 스플라이스 윈도우는 상기 심층 신경망 모델의 입력 레이어의 크기에 대응하여 설정되는 것을 특징으로 한다.
본 발명의 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치에 의하면, 종래의 정규화 방식에 비해 다양한 잡음 환경에서 보다 더 강인한 성능을 보일 수 있으며, 실시간 처리가 가능하다는 효과가 있다.
이에, 본 발명은 음성 신호에서 음성 구간과 비음성 구간을 보다 더 정확하게 검출할 수 있으며, 다양한 잡음 환경에서 보다 더 신속하고 정확하게 음성 구간을 검출하고 음성 인식을 수행할 수 있게 된다.
이를 통해 본 발명은 음성 인식, 화자 인식, 음질 개선 등과 같이 음성 신호 처리 분야의 효율을 향상시킬 수 있게 된다.
아울러, 상술한 효과 이외의 다양한 효과들이 후술될 본 발명의 실시 예에 따른 상세한 설명에서 직접적 또는 암시적으로 개시될 수 있다.
도 1은 본 발명의 실시 예에 따른 음성 인식 시스템을 설명하기 위한 구성도이다.
도 2는 본 발명의 실시 예에 따른 음성 구간을 설명하기 위한 예시도이다.
도 3은 본 발명의 실시 예에 따른 음성 구간 판단 장치를 설명하기 위한 구성도이다.
도 4 내지 도 6은 본 발명의 실시 예에 따른 정규화를 이용한 음성 구간 판단 방법을 설명하기 위한 예시도이다.
도 7은 본 발명의 실시 예에 따른 정규화를 이용한 음성 구간 판단 방법을 설명하기 위한 흐름도이다.
본 발명의 과제 해결 수단의 특징 및 이점을 보다 명확히 하기 위하여, 첨부된 도면에 도시된 본 발명의 특정 실시 예를 참조하여 본 발명을 더 상세하게 설명한다.
다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지 기능 또는 구성에 대한 상세한 설명은 생략한다. 또한, 도면 전체에 걸쳐 동일한 구성 요소들은 가능한 한 동일한 도면 부호로 나타내고 있음에 유의하여야 한다.
이하의 설명 및 도면에서 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위한 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.
또한, 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하기 위해 사용하는 것으로, 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용될 뿐, 상기 구성요소들을 한정하기 위해 사용되지 않는다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제2 구성요소는 제1 구성요소로 명명될 수 있고, 유사하게 제1 구성요소도 제2 구성요소로 명명될 수 있다.
더하여, 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급할 경우, 이는 논리적 또는 물리적으로 연결되거나, 접속될 수 있음을 의미한다. 다시 말해, 구성요소가 다른 구성요소에 직접적으로 연결되거나 접속되어 있을 수 있지만, 중간에 다른 구성요소가 존재할 수도 있으며, 간접적으로 연결되거나 접속될 수도 있다고 이해되어야 할 것이다.
또한, 본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 본 명세서에서 기술되는 "포함 한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
이하, 본 발명의 실시 예에 따른 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치에 대해 설명하도록 한다.
도 1은 본 발명의 실시 예에 따른 음성 인식 시스템을 설명하기 위한 구성도이며, 도 2는 본 발명의 실시 예에 따른 음성 구간을 설명하기 위한 예시도이다.
도 1을 참조하면, 본 발명의 실시 예가 적용된 음성 인식 시스템(500)은 음성 구간 판단 장치(100), 특징 추출 장치(200) 및 음성 인식 장치(300)를 포함하여 구성될 수 있다. 상기 음성 구간 판단 장치(100), 특징 추출 장치(200) 및 음성 인식 장치(300)는 독립된 하나의 음성 인식 시스템(500)을 구성하는 일 모듈 형태로 존재할 수 있으며, 별도의 통신 채널을 통해 물리적 또는 논리적으로 연결될 수 있는 각각 독립된 개별 장치 형태로 존재할 수도 있다. 또한, 본 발명의 음성 인식 시스템(500)에 입력되는 음성 신호는 아날로그 형태의 음성 신호가 될 수 있으며, 이 경우 디지털 형태의 음성 신호로 변환하는 A/D(Analog to Digital) 변환장치를 더 포함하여 구성될 수 있다. 또한 구현 방식에 따라 본 발명의 음성 구간 판단 장치(100)가 상기 과정을 처리할 수도 있다.
이러한 음성 인식 시스템(500)을 구성하는 각 구성에 대해 설명하면, 먼저 본 발명의 음성 구간 판단 장치(100)는 입력되는 음성 신호에 대한 끝점을 검출하고 음성 구간을 판단하는 역할을 수행한다. 예컨대, 본 발명의 음성 구간 판단 장치(100)는 도 2에 도시된 바와 같이, 음성의 시작에 대한 끝점 및 음성의 종료에 대한 끝점을 검출하고 이를 음성 구간(B)으로 판단할 수 있으며, 음성 구간(B)이 아닌 구간은 잡음 구간(A, C)으로 판단하게 된다.
특히, 본 발명의 실시 예에 따른 음성 구간 판단 장치(100)는 다양한 잡음 환경에 강인함과 동시에 신속하게 음성 구간을 판단하기 위해, 본 발명의 실시 예에 따른 마스킹 과정 및 정규화 과정을 수행하게 된다.
다시 말해, 본 발명의 음성 구간 판단 장치(100)는 잡음과 음성 구간을 보다 더 명료하게 파악하기 위하여, 입력되는 음성 신호의 초기 일부 구간을 잡음으로 추정하고, 추정된 잡음에 해당하는 음성 특징을 음성 신호의 전 프레임에 추가하는 마스킹 과정을 수행한다.
이후에, 본 발명의 음성 구간 판단 장치(100)는 마스킹된 음성 신호에서 프레임 단위로 음성 특징 벡터를 추출한다. 여기서 산출될 수 있는 음성 특징 벡터는 예컨대 음성 신호의 에너지 정보, 피치 정보 등이 될 수 있으며, 에너지 정보를 이용하는 경우 프레임의 음성 신호에 대해 푸리에 변환을 수행하여 스펙트럼 정보를 출력하고, 스펙트럼에 대한 필터 뱅크 에너지를 생성하고, 생성된 필터뱅크 에너지에 로그 함수를 적용하여 로그 필터뱅크 에너지를 출력하는 과정 등을 거쳐 음성 특징 벡터를 추출할 수 있다.
이후에, 본 발명의 음성 구간 판단 장치(100)는 어느 하나의 음성 특징 벡터만을 이용하여 음성 구간을 판단하는 것이 아니라, 일정 구간의 음성 특징 벡터의 시퀀스를 신경망 모델 입력 레이어의 입력 값으로 적용하고, 이를 통해서 음성 구간을 검출할 수 있게 된다.
상술한 본 발명의 음성 구간 판단 장치(100)에서의 보다 구체적인 구성 및 동작에 대해서는 후술하여 설명하도록 한다.
한편, 본 발명의 특징 추출 장치(200)는 음성 구간 판단 장치(100)를 통해 검출된 음성 구간에 대응하여 음성 인식을 위한 특징 벡터들을 추출하는 역할을 수행한다. 여기서, 음성 인식을 위한 특징 벡터들은 전술한 바와 같이 음성 신호에 대한 에너지 정보뿐 아니라 다양한 음성 특징들을 이용할 수 있으며, 이러한 음성 특징 추출 시 다양한 특징 추출 알고리즘을 적용하여 구현될 수 있다. 예컨대, 본 발명의 특징 추출 장치(200)는 LMFE(Log Mel-Filterbank Energy)를 비롯하여, MFCC(Mel-Frequency Cepstrum Codfficient), LPCC(Linear Prediction Coefficient Cepstrum) 또는 PLPCC(Preceptual Linear Prediction Ceptrum Coeffcient), EIH(Ensemble Interval Histogram), SMC(Short-time Modified Coherence) 등의 다양한 특징 추출 알고리즘을 이용하여 음성 특징 파라미터를 추출할 수 있다.
이후, 특징 추출 장치(200)는 추출된 특징 벡터를 음성 인식 장치(300)로 전달한다.
음성 인식 장치(300)는 특징 추출 장치(200)를 통해 추출된 특징 벡터를 기 구축된 음향 모델(400)을 이용하여 인식하고 이에 따른 음성 인식 결과를 출력하는 역할을 수행하게 된다. 아울러, 본 발명의 음성 인식 장치(300)는 HMM(Hiddn Markov Model), DTW(Dynamic Time Warping) 및 신경회로망(neural network) 등과 같은 다양한 음성인식 알고리즘을 적용하여 음성 인식 과정을 수행할 수 있다.
또한, 본 발명의 음향 모델(400)은 음소들을 통계적으로 모델링하여 구축한 것으로, 도면에서는 음향 모델(400)만을 예시하여 도시하였으나 음향 모델(400)뿐 아니라, 문법에 적합한 음성 인식 결과가 도출되도록 지원하는 언어 모델, 표준 발음법에 의거한 결과가 산출되도록 지원하는 발음 사전 등과 같은 다양한 모델들을 종합적으로 고려하여 유사도를 산출하고, 이에 따라 최종 음성 인식 결과를 도출할 수도 있다.
또한, 특징 추출 장치(200)를 통해 출력된 결과 및 음성 인식 장치(300)를 통해 출력된 결과는 음향 모델(400)에 지속적으로 반영하여 음향 모델(400)을 구축하는 과정을 수행할 수도 있다.
이하에서는 전술한 바와 같은 본 발명의 음성 구간 판단 장치(100)에 대해 보다 더 구체적으로 설명하도록 한다.
도 3은 본 발명의 실시 예에 따른 음성 구간 판단 장치를 설명하기 위한 구성도이며, 도 4 내지 도 6은 본 발명의 실시 예에 따른 정규화를 이용한 음성 구간 판단 방법을 설명하기 위한 예시도이다.
먼저, 도 3을 참조하면, 본 발명의 음성 구간 판단 장치(100)는 마스킹 처리부(10), 특징 벡터 추출부(20), 정규화부(30) 및 음성구간 판단부(40)를 포함하여 구성될 수 있다. 이때, 본 발명의 음성 구간 판단 장치(100)는 입력되는 음성 신호를 일정 길이의 프레임으로 분리하는 프레임 형성부(미도시)를 더 포함하여 구성될 수도 있다. 이때, 본 발명의 프레임 형성부(미도시)는 10msec마다 20~30msec 길이의 프레임으로 분리할 수 있다.
한편, 본 발명의 음성 구간 판단 장치(100)를 구성하는 마스킹 처리부(10)는 입력되는 음성 신호에서 보다 더 명료한 잡음을 검출하기 위한 전처리 과정을 수행하는 것으로, 도 4에 도시된 바와 같이 입력되는 음성 신호에서 초기 일부 구간을 잡음 구간(A)로 추정하게 된다. 그리고 마스킹 처리부(10)는 추정된 잡음 구간(A)에 해당하는 잡음 신호를 전체 음성 신호에 더하게 된다. 여기서, 본 발명의 마스킹 처리부(10)가 음성 신호의 초기 일부 구간을 잡음 구간으로 추정하는 것은 음성 구간의 음성 특징, 예컨대 음성 에너지에 비하여 작은 레벨의 음성 에너지를 음성 신호에 부가하여 음성 신호를 왜곡시키지 않기 위한 것으로, 음성 신호의 초기 일부 구간은 잡음 구간이라는 가정하여 잡음 구간을 추정하게 된다.
그리고, 본 발명의 마스킹 처리부(10)는 도 4에 도시된 바와 같이, 잡음 구간(A)에 해당하는 잡음 신호를 전체 음성 신호의 프레임에 부가하게 되고, 이를 통해 잡음 구간(A)에 해당하는 음성 신호의 크기가 더 명료해질 수 있어 음성 구간과 그렇지 않은 구간을 보다 더 명확하게 판단할 수 있게 된다.
아울러, 본 발명의 마스킹 처리부(10)는 추정된 잡음 구간에 해당하는 평균 에너지 레벨에 해당하는 신호를 잡음 신호로 부가할 수 있으며, 음성 구간 판단을 위한 학습 데이터를 포함하는 학습 DB(50) 구축 시 적용된 잡음 신호를 상기 잡음 신호로 부가할 수도 있다. 이러한 마스킹 과정을 거침으로써, 학습 데이터 구축 시 고려되지 않은 잡음 구간일지라도 음성 구간을 보다 더 명확하게 판단할 수 있게 된다.
이러한 마스킹 처리부(10)에서의 마스킹 과정은 하기의 수학식을 통해 산출될 수 있다.
Figure 112018084204113-pat00001
여기서
Figure 112018084204113-pat00002
는 입력 음성 신호이고,
Figure 112018084204113-pat00003
Figure 112018084204113-pat00004
를 마스킹하기 위한 잡음 신호이다.
Figure 112018084204113-pat00005
Figure 112018084204113-pat00006
의 초기 구간
Figure 112018084204113-pat00007
샘플에서의 에너지 값의 제곱근(root mean square)
Figure 112018084204113-pat00008
Figure 112018084204113-pat00009
을 이용하여 입력 음성 신호의 초기 잡음 레벨의 수준으로
Figure 112018084204113-pat00010
를 맞추어 마스킹을 수행하게 된다.
특징 벡터 추출부(20)는 마스킹 처리부(10)를 거쳐 마스킹된 신호
Figure 112018084204113-pat00011
에 대응하여 음성 특징 벡터를 추출하는 과정을 수행할 수 있다.
특히, 본 발명의 특징 벡터 추출부(20)는 로그 멜 필터뱅크 에너지(LMFE; Log Mel-Filterbank Energy)의 벡터 값을 음성 특징 벡터로 추출할 수 있다. 이를 위해 본 발명의 특징 벡터 추출부(20)는 프레임 단위로 음성 신호에 대해 푸리에 변환을 수행하여 스펙트럼 정보를 추출하고, 스펙트럼에 대한 필터 뱅크 에너지를 산출하게 된다. 즉, 주파수 대역을 여러 개의 필터 뱅크로 나누고 각 뱅크에서의 에너지에 로그 함수를 적용하여 로그 필터뱅크 에너지를 산출할 수 있다. 이를 통해 본 발명의 특징 벡터 추출부(20)는 프레임별로 약 40차원의 음성 특징 벡터를 산출할 수 있다.
특징 벡터 추출부(20)를 통해 추출된 음성 특징 벡터를 이용하여 음성 구간 판단부(40)는 음성 구간을 판단할 수 있으나, 실시간 처리 및 다양한 잡음 환경을 고려하여 보다 더 정확하게 음성 구간을 판단하기 위해, 본 발명은 정규화부(30)를 통해 음성 특징 벡터를 0에서 1사이로 변환하는 정규화 과정을 수행하게 된다.
즉, 본 발명의 정규화부(40)는 특징 벡터 추출부(20)를 통해 추출된 음성 특징 벡터를 0에서 1사이로 변환하는 정규화 과정을 수행하게 되는데, 이때 본 발명의 정규화부(40)는 신경망 학습 모델의 입력 레이어를 고려하여 정규화 과정을 수행하게 된다.
보다 구체적으로 설명하면, 후술하는 본 발명의 음성 구간 판단부(40)는 신경망 학습 모델, 특히 심층 신경망 모델을 이용하여 음성 구간을 판단하게 된다. 이때, 심층 신경망 모델은 도 5에 도시된 바와 같이, 입력 레이어, 은닉 레이어 및 출력 레이어로 구성될 수 있으며, 입력 레이어에 입력되는 입력 값을 토대로 출력 레이어의 출력 값을 도출하게 된다. 이때, 본 발명의 음성 구간 판단부(40)는 입력 레이어의 입력 값으로 단일 프레임에서 추출된 하나의 음성 특징 벡터만을 고려하는 것이 아니라, 인접된 여러 음성 특징 벡터들을 이어 붙인 일련의 정규화된 음성 특징 벡터(
Figure 112018084204113-pat00012
)를 입력 값으로 이용하게 된다.
여기서, 일련의 음성 특징 벡터는 입력되는 심층 신경망 모델의 입력 레이어의 크기를 고려하여 결정되게 되며, 본 발명의 정규화부(30)는 심층 신경망 모델의 입력 레이어의 크기를 스플라이스 윈도우(splice window, 600) 방식으로 처리하게 된다. 즉, 도 6에 도시된 바와 같이 본 발명의 정규화부(30)는 스플라이스 윈도우 단위로 음성 특징 벡터들을 정규화하게 되는데, 예컨대, 현재 프레임(m)을 기준으로 일정 범위(m-5 ~ m+5) 내의 프레임을 대상으로 평균과 분산을 산출하고 이를 이용하여 해당 범위 내에서의 정규화 과정을 수행할 수 있게 된다.
본 발명의 실시 예에 따른 정규화 과정은 하기의 수학식에 따라 정의될 수 있다.
Figure 112018084204113-pat00013
여기서
Figure 112018084204113-pat00014
Figure 112018084204113-pat00015
Figure 112018084204113-pat00016
번째 입력되는 음성 신호에서
Figure 112018084204113-pat00017
번째 프레임의
Figure 112018084204113-pat00018
번째 주파수 대역에 대한 음성 특징 벡터를 스플라이스 윈도우 단위로 추정한 평균과 표준편차를 의미하며,
Figure 112018084204113-pat00019
은 스플라이스 윈도우 내의 전체 프레임수를 의미하는 것으로,
Figure 112018084204113-pat00020
으로 나타낼 수 있다. 이때,
Figure 112018084204113-pat00021
이고,
Figure 112018084204113-pat00022
이며,
Figure 112018084204113-pat00023
은 스플라이스 윈도우의 크기를 의미한다.
이와 같이, 본 발명의 정규화부(30)는
Figure 112018084204113-pat00024
번째 입력되는 음성 신호의
Figure 112018084204113-pat00025
번째 프레임에 대한 스플라이스 윈도우에 속하는
Figure 112018084204113-pat00026
번째 프레임 음성 특징 벡터의
Figure 112018084204113-pat00027
번째 주파수 대역은 스플라이스 윈도우 내의 음성 특징 벡터를 대상으로 정규화 되는데,
Figure 112018084204113-pat00028
가 정규화된 결과이다.
Figure 112018084204113-pat00029
번째 프레임의 스플라이스 윈도우 내에서 정규화된 음성 특징 벡터의 시퀀스
Figure 112018084204113-pat00030
과 같이 구성되며,
Figure 112018084204113-pat00031
로 발화에 대한 인덱스
Figure 112018084204113-pat00032
은 생략했다.
Figure 112018084204113-pat00033
Figure 112018084204113-pat00034
번째 프레임에서 정규화된
Figure 112018084204113-pat00035
차원의 음성 특징 벡터를 의미한다. 정규화된 음성 특징 벡터 시퀀스
Figure 112018084204113-pat00036
은 심층 신경망의 입력 레이어의 입력 값으로 이용되게 된다.
이와 같이 본 발명은 음성 구간 판단을 위해 사용되는 신경망 모델의 입력 값을 고려한 스플라이스 윈도우 단위로 정규화를 수행함으로써, 보다 실시간 처리가 가능하며, 전체에 대한 평균과 분산을 고려함으로써 환경 왜곡에 보다 더 우수한 성능을 발휘할 수 있게 된다.
음성 구간 판단부(40)는 정규화부(30)를 통해 전달되는 음성 특징 벡터를 신경망 모델, 특히 심층 신경망(DNN; Deep Neural Network) 모델에 적용하여 음성 여부를 판단하게 된다. 여기서, 본 발명의 심층 신경망 모델은 입력 레이어와 출력 레이어를 포함하며, 상기 입력 레이어(input layer)와 출력 레이어(output layer) 사이에 숨은 복수 개의 은닉 레이어(hidden layer)를 포함하는 다층 퍼셉트론(multi layer perceptron)의 구조로 이루어진 네트워크를 의미한다. 각각의 레이어들은 인공 뉴런에 대응되는 복수의 노드로 구성될 수 있으며, 학습에 의해 서로 다른 레이어의 노드들 간의 연결 관계가 결정될 수 있다. 특히, 한 노드에서의 출력 값은 그 노드의 활성화 함수 출력 값으로 결정되는 데, 활성화 함수의 입력은 그 노드로 연결된 모든 노드들의 가중된 합을 의미할 수 있다.
본 발명의 음성 구간 판단부(40)는 이러한 심층 신경망 모델을 이용하여 음성 여부를 판단하게 되며, 특히, 본 발명의 음성 구간 판단부(40)는 도 5에 도시된 바와 같이 정규화부(30)를 통해 정규화된 음성 특징 벡터의 시퀀스
Figure 112018084204113-pat00037
를 입력 레이어의 입력 값으로 적용하고, 출력 레이어에서는 m 번째 프레임에서의 음성 검출 결과(0 또는 1)이 출력되도록 적용한 후 신경망 알고리즘을 적용하여 음성 여부를 검출하게 된다.
이와 같이, 본 발명은 신경망 모델의 입력 레이어의 크기를 고려하여 스플라이스 윈도우를 결정하고, 스플라이스 윈도우 단위로 주파수 대역별 산출된 음성 특징 벡터에 대한 평균과 분산을 산출한 후 이를 이용하여 스플라이스 윈도우 단위로 정규화를 수행함으로써, 보다 신속하게 음성 여부를 검출할 수 있게 된다. 또한 음성 특징 벡터 추출 이전에, 마스킹 과정을 수행함으로써 다양한 잡음 환경을 고려하여 보다 더 명료하게 잡음 구간을 추출할 수 있게 된다.
이러한 본 발명의 실시 예에 따른 정규화를 이용한 음성 구간 판단 방법에 대해 보다 더 구체적으로 설명하도록 한다.
도 7은 본 발명의 실시 예에 따른 정규화를 이용한 음성 구간 판단 방법을 설명하기 위한 흐름도이다.
도 7을 참조하면, 본 발명의 음성 구간 판단 장치(100)는 음성 신호가 입력되면(S101), 입력되는 음성 신호의 초기 일부 구간을 잡음 구간으로 추정하고(S103), 추정된 잡음 구간에서의 잡음 신호를 전체 음성 신호에 더하게 된다. 여기서, 본 발명의 음성 구간 판단 장치(100)가 음성 신호의 초기 일부 구간을 잡음 구간으로 추정하는 것은 음성 구간의 음성 특징, 예컨대 음성 에너지에 비하여 작은 레벨의 음성 에너지를 음성 신호에 부가하여 음성 신호를 왜곡시키지 않기 위한 것으로, 음성 신호의 초기 일부 구간은 잡음 구간이라는 가정하여 잡음 구간을 추정하게 된다.
그리고, 본 발명의 음성 구간 판단 장치(100)는 잡음 구간에 해당하는 잡음 신호를 전체 음성 신호의 프레임에 부가하는 마스킹 과정을 수행하게 되고(S105), 이를 통해 잡음 구간에 해당하는 음성 신호의 크기가 더 명료해질 수 있어 음성 구간과 그렇지 않은 구간을 보다 더 명확하게 판단할 수 있게 된다.
이때, 본 발명의 음성 구간 판단 장치(100)는 추정된 잡음 구간에 해당하는 평균 에너지 레벨에 해당하는 신호를 잡음 신호로 부가할 수 있으며, 학습 DB(50) 구축 시 적용된 잡음 신호를 상기 잡음 신호로 부가할 수도 있다. 이러한 마스킹 과정을 거침으로써, 학습 DB 구축 시 고려되지 않은 잡음 구간일지라도 음성 구간을 보다 더 명확하게 판단할 수 있게 된다.
이후, 본 발명의 음성 구간 판단 장치(100)는 마스킹 처리된 음성 신호를 이용하여 음성 특징 벡터를 추출한다(S107). 예컨대, 본 발명의 음성 구간 판단 장치(100)는 프레임에 대한 로그 멜 필터뱅크 에너지(LMFE; Log Mel-Filterbank Energy)의 벡터 값을 음성 특징 벡터를 추출할 수 있다. 이를 위해 본 발명의 음성 구간 판단 장치(100)는 프레임 단위로 음성 신호에 대해 푸리에 변환을 수행하여 스펙트럼 정보를 추출하고, 스펙트럼에 대한 필터 뱅크 에너지를 산출하게 된다. 즉, 주파수 대역을 여러 개의 필터 뱅크로 나누고 각 뱅크에서의 에너지에 로그 함수를 적용하여 주파수 대역별로 로그 필터뱅크 에너지를 산출할 수 있다. 이를 통해 본 발명의 특징 벡터 추출부(20)는 프레임별로 약 40차원의 음성 특징 벡터를 산출할 수 있다.
이후의, 본 발명의 음성 구간 판단 장치(100)는 스플라이스 윈도우 단위로 특징 벡터를 정규화하게 된다(S109).
예컨대, 본 발명의 음성 구간 판단 장치(100)는 현재 프레임(m)을 기준으로 일정 범위(m-5 ~ m+5) 내의 프레임을 대상으로 평균과 분산을 산출하고 이를 이용하여 해당 스플라이스 윈도우 내에서 정규화 과정을 수행하게 된다. 이때 상기 평균과 분산을 산출 시 해당 프레임 내의 각각의 주파수 대역별로 산출된 음성 특징 벡터인 로그 필터뱅크 에너지의 벡터 값을 이용하여 프레임에 대한 평균과 분산을 산출할 수 있으며, 이를 이용하여 스플라이스 윈도우 단위로 0과 1로 맞추는 정규화 과정을 수행할 수 있게 된다. 아울러, 상기 정규화 단위인 스플라이스 윈도우는 음성 구간 판단을 위해 사용되는 신경망 모델 입력 레이어의 크기를 고려한 것으로, 고려한 스플라이스 윈도우 단위로 정규화를 수행함으로써, 보다 실시간 처리가 가능하며, 전체에 대한 평균과 분산을 고려함으로써 환경 왜곡에 보다 더 우수한 성능을 발휘할 수 있게 된다.
그리고 본 발명의 음성 구간 판단 장치(100)는 정규화된 음성 특징 벡터 시퀀스
Figure 112018084204113-pat00038
은 심층 신경망의 입력 레이어의 입력 값으로 설정하고, 출력 레이어의 출력 값으로 m 번째 프레임에서의 음성 검출 결과(0 또는 1)를 설정한 후 신경망 알고리즘을 적용하여 프레임 단위로 음성 여부를 검출할 수 있게 된다.
이상으로 본 발명의 실시 예에 따른 정규화를 이용한 음성 구간 판단 방법에 대해 설명하였다.
상술한 바와 같은 본 발명의 정규화를 이용한 음성 구간 판단 방법은 컴퓨터 프로그램 명령어와 데이터를 저장하기에 적합한 컴퓨터로 판독 가능한 매체의 형태로 제공될 수도 있다.
특히, 본 발명의 컴퓨터 프로그램은 음성 신호를 소정 길이를 갖는 프레임으로 구분하고, 구분된 프레임을 대상으로 음성 여부를 판단하여 음성 구간을 검출할 수 있는 음성 구간 판단 장치에 있어서, 입력되는 음성 신호에서 음성 특징 벡터를 추출하는 단계, 심층 신경망 모델(DNN; Deep Neural Network)의 입력 레이어에 따라 일련의 상기 음성 특징 벡터를 대상으로 정규화를 수행하는 단계 및 상기 정규화된 음성 특징 벡터를 상기 심층 신경망 모델의 입력으로 설정하여 상기 음성 신호에서의 음성 구간을 판단하는 단계 등을 실행할 수 있다.
이러한, 컴퓨터 프로그램 명령어와 데이터를 저장하기에 적합한 컴퓨터로 판독 가능한 매체는, 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM)과 같은 반도체 메모리를 포함한다. 프로세서와 메모리는 특수 목적의 논리 회로에 의해 보충되거나, 그것에 통합될 수 있다.
또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고, 본 발명을 구현하기 위한 기능적인(Functional) 프로그램과 이와 관련된 코드 및 코드 세그먼트 등은, 기록매체를 읽어서 프로그램을 실행시키는 컴퓨터의 시스템 환경 등을 고려하여, 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론되거나 변경될 수도 있다.
아울러, 상술한 바와 같은 컴퓨터가 읽을 수 있는 기록매체에 기록된 컴퓨터 프로그램은 상술한 바와 같은 기능을 수행하는 명령어를 포함하며 기록매체를 통해 배포되고 유통되어 특정 장치, 특정 컴퓨터에 읽히어 설치되고 실행됨으로써 전술한 기능들을 실행할 수 있다.
본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.
마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 시스템 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 시스템들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.
본 발명은 입력되는 음성 신호에서의 음성 구간을 판단할 수 있는 방법에 관한 것으로, 더욱 상세하게는 음성 신호에서의 음성 구간 판단 시 실시간 처리가 가능함과 동시에 다양한 잡음 환경에서 보다 더 강인한 성능을 나타낼 수 있는 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치에 관한 것이다.
이러한 본 발명에 의하면, 심층 신경망 모델을 이용하여 음성 구간 판단 시 상기 심층 신경망 모델의 입력 레이어의 크기를 고려하여 정규화를 수행함으로써 보다 더 신속하고 정확하게 음성 구간을 판단할 수 있으며, 마스킹 처리를 먼저 수행한 이후에 정규화 과정을 진행함으로써, 다양한 잡음 환경에 보다 더 강인한 음성 구간 판단이 가능하게 된다. 이를 통해 본 발명은 음성 인식, 화자 인식, 음질 개선 등과 같이 음성 신호 처리 분야의 효율을 향상시킬 수 있어, 산업상 이용 가능성이 충분하다.
10: 마스킹 처리부
20: 특징 벡터 추출부
30: 정규화 부
40: 음성 구간 판단부
50: 학습 DB
100: 음성 구간 판단 장치
200: 특징 추출 장치
300: 음성 인식 장치
400: 음향 모델
500: 음성 인식 시스템

Claims (7)

  1. 음성 구간 판단 장치가 음성 신호로부터 음성 구간을 검출하는 음성 구간 판단 방법으로서,
    상기 음성 신호를 프레임 단위로 구분하고, 상기 프레임 단위로 음성 특징 벡터를 추출하는 단계;
    상기 음성 신호에서 특정 프레임을 기준으로 일정 범위에 해당하는 복수 개의 프레임을 대상으로 스플라이스 윈도우를 설정하는 단계;
    해당 스플라이스 윈도우에 포함되는 상기 음성 특징 벡터를 대상으로 정규화를 수행하는 단계; 및
    상기 정규화된 음성 특징 벡터를 심층 신경망 모델의 입력으로 설정하여 상기 음성 신호에서의 음성 구간을 판단하는 단계;
    를 포함하고,
    상기 스플라이스 윈도우는 상기 심층 신경망 모델의 입력 레이어의 크기에 대응하여 설정되는
    것을 특징으로 하는 정규화를 이용한 음성 구간 판단 방법.
  2. 제1항에 있어서,
    상기 음성 특징 벡터를 추출하는 단계 이전에,
    상기 음성 신호의 잡음 신호를 마스킹 처리하는 단계;
    를 더 포함하는 것을 특징으로 하는 정규화를 이용한 음성 구간 판단 방법.
  3. 제2항에 있어서,
    상기 잡음 신호는
    상기 음성 구간 판단을 위한 학습 데이터 구축 시 적용된 학습 잡음 신호인 것을 특징으로 하는 정규화를 이용한 음성 구간 판단 방법.
  4. 제3항에 있어서,
    상기 마스킹 처리하는 단계는
    상기 학습 잡음 신호의 에너지 레벨이 상기 잡음 신호의 에너지 레벨에 맞추도록 조정한 후 마스킹 처리하는 것을 특징으로 하는 정규화를 이용한 음성 구간 판단 방법.
  5. 제1항에 있어서,
    상기 정규화를 수행하는 단계는
    해당 스플라이스 윈도우의 주파수 대역별로 추출된 음성 특징 벡터를 이용하여 해당 스플라이스 윈도우에 대응하는 평균과 표준편차를 산출하는 단계;
    를 포함하고, 상기 산출된 평균과 표준편차를 이용하여 정규화를 수행하는 것을 특징으로 하는 정규화를 이용한 음성 구간 판단 방법.
  6. 제1항 내지 제5항 중 어느 하나의 항에 기재된 정규화를 이용한 음성 구간 판단 방법을 실행시키는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
  7. 음성 신호로부터 음성 구간을 검출할 수 있는 음성 구간 판단 장치에 있어서,
    상기 음성 신호를 프레임 단위로 구분하고, 상기 프레임 단위로 음성 특징 벡터를 추출하는 특징 벡터 추출부;
    상기 음성 신호에서 특정 프레임을 기준으로 일정 범위에 해당하는 복수 개의 프레임을 대상으로 스플라이스 윈도우를 설정하고, 해당 스플라이스 윈도우에 포함되는 상기 음성 특징 벡터를 대상으로 정규화를 수행하는 정규화부; 및
    상기 정규화된 음성 특징 벡터를 심층 신경망 모델의 입력으로 설정하여 상기 음성 신호에서의 음성 구간을 판단하는 음성 구간 판단부; 를 포함하고,
    상기 스플라이스 윈도우는 상기 심층 신경망 모델의 입력 레이어의 크기에 대응하여 설정되는 것을 특징으로 하는 음성 구간 판단 장치.
KR1020180099345A 2018-08-24 2018-08-24 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치 KR101992955B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180099345A KR101992955B1 (ko) 2018-08-24 2018-08-24 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180099345A KR101992955B1 (ko) 2018-08-24 2018-08-24 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020160140843A Division KR101893789B1 (ko) 2016-10-27 2016-10-27 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치

Publications (2)

Publication Number Publication Date
KR20180097496A KR20180097496A (ko) 2018-08-31
KR101992955B1 true KR101992955B1 (ko) 2019-06-25

Family

ID=63407793

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180099345A KR101992955B1 (ko) 2018-08-24 2018-08-24 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치

Country Status (1)

Country Link
KR (1) KR101992955B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220026233A (ko) 2020-08-25 2022-03-04 서울과학기술대학교 산학협력단 음성 구간 검출 방법

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102305672B1 (ko) 2019-07-17 2021-09-28 한양대학교 산학협력단 강인한 음성인식을 위한 음향 및 언어모델링 정보를 이용한 음성 끝점 검출 방법 및 장치
KR102288994B1 (ko) * 2019-12-02 2021-08-12 아이브스 주식회사 인공지능 기반의 이상음원 인식 장치, 그 방법 및 이를 이용한 관제시스템

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016049611A1 (en) 2014-09-26 2016-03-31 Cypher, Llc Neural network voice activity detection employing running range normalization
KR101893789B1 (ko) * 2016-10-27 2018-10-04 에스케이텔레콤 주식회사 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100450787B1 (ko) 1997-06-18 2005-05-03 삼성전자주식회사 스펙트럼의동적영역정규화에의한음성특징추출장치및방법
KR101697651B1 (ko) * 2012-12-13 2017-01-18 한국전자통신연구원 음성 신호의 검출 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016049611A1 (en) 2014-09-26 2016-03-31 Cypher, Llc Neural network voice activity detection employing running range normalization
KR101893789B1 (ko) * 2016-10-27 2018-10-04 에스케이텔레콤 주식회사 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220026233A (ko) 2020-08-25 2022-03-04 서울과학기술대학교 산학협력단 음성 구간 검출 방법

Also Published As

Publication number Publication date
KR20180097496A (ko) 2018-08-31

Similar Documents

Publication Publication Date Title
KR101893789B1 (ko) 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치
EP3955246B1 (en) Voiceprint recognition method and device based on memory bottleneck feature
Ahmad et al. A unique approach in text independent speaker recognition using MFCC feature sets and probabilistic neural network
Saksamudre et al. A review on different approaches for speech recognition system
KR101988222B1 (ko) 대어휘 연속 음성 인식 장치 및 방법
Desai et al. Feature extraction and classification techniques for speech recognition: A review
EP3156978A1 (en) A system and a method for secure speaker verification
WO2020029404A1 (zh) 语音处理方法及装置、计算机装置及可读存储介质
KR101943381B1 (ko) 심층 신경망을 이용한 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치
JP7342915B2 (ja) 音声処理装置、音声処理方法、およびプログラム
KR101992955B1 (ko) 정규화를 이용한 음성 구간 판단 방법 및 이를 위한 음성 구간 판단 장치
Mistry et al. Overview: Speech recognition technology, mel-frequency cepstral coefficients (mfcc), artificial neural network (ann)
KR20200023893A (ko) 화자 인증 방법, 화자 인증을 위한 학습 방법 및 그 장치들
Šalna et al. Evaluation of effectiveness of different methods in speaker recognition
Kumar et al. Exploring different acoustic modeling techniques for the detection of vowels in speech signal
Ponraj Speech recognition with gender identification and speaker diarization
KR101023211B1 (ko) 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법
CN114303186A (zh) 用于在语音合成中适配人类说话者嵌入的系统和方法
Moumin et al. Automatic Speaker Recognition using Deep Neural Network Classifiers
JP6480124B2 (ja) 生体検知装置、生体検知方法及びプログラム
KR102418256B1 (ko) 언어 모델 개량을 통한 짧은 단어 인식 장치 및 방법
Maka et al. An analysis of the influence of acoustical adverse conditions on speaker gender identification
Suzuki et al. Bottleneck feature-mediated DNN-based feature mapping for throat microphone speech recognition
Ouzounov Cepstral features and text-dependent speaker identification–A comparative study
Sas et al. Gender recognition using neural networks and ASR techniques

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant