KR20180101057A - Method and apparatus for voice activity detection robust to noise - Google Patents

Method and apparatus for voice activity detection robust to noise Download PDF

Info

Publication number
KR20180101057A
KR20180101057A KR1020170027785A KR20170027785A KR20180101057A KR 20180101057 A KR20180101057 A KR 20180101057A KR 1020170027785 A KR1020170027785 A KR 1020170027785A KR 20170027785 A KR20170027785 A KR 20170027785A KR 20180101057 A KR20180101057 A KR 20180101057A
Authority
KR
South Korea
Prior art keywords
matrix
speech
noise
voice
hpr
Prior art date
Application number
KR1020170027785A
Other languages
Korean (ko)
Inventor
장인선
서정일
안충현
양승준
최지훈
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020170027785A priority Critical patent/KR20180101057A/en
Publication of KR20180101057A publication Critical patent/KR20180101057A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

The present invention relates to a method for voice activity detection robust to noise and an apparatus thereof. According to an embodiment of the present invention, the method for voice activity detection includes: a step of generating a first matrix representing the waveform and spectral characteristics of an input audio signal; a step of generating a second matrix including one or more feature vectors based on the first matrix; and a step of determining whether a speech candidate activity corresponds to a speech activity based on a harmonic-to-percussive ratio (HPR) value determined based on the second matrix, with regard to the speech candidate activity determined based on the first matrix.

Description

잡음에 강인한 음성 구간 검출 방법 및 장치{METHOD AND APPARATUS FOR VOICE ACTIVITY DETECTION ROBUST TO NOISE}TECHNICAL FIELD [0001] The present invention relates to a method and an apparatus for robust voice-

본 개시는 음성 검출에 대한 것이며, 구체적으로는 잡음에 강인한 음성 구간 검출 방법 및 장치에 대한 것이다.The present disclosure is directed to voice detection, and more particularly, to a noise-robust voice interval detection method and apparatus.

최근 통신 기술의 발전에 따라서 멀티미디어 콘텐츠를 처리하는 다양한 기술이 개발되고 있다. 특히 오디오 신호에서 음성의 존재 여부를 검출하는 음성 구간 검출(Voice Activity Detection, VAD) 기술은, 음성 처리 장치가 비음성 구간에 대한 불필요한 데이터를 생성 또는 전송하지 않도록 하여 전력 소모를 감소시킬 수도 있고, 그 외에도 음향 편집, 음성 데이터 검색 방법의 전처리 등의 다양한 목적을 위해 사용될 수 있다. Recently, various technologies for processing multimedia contents have been developed in accordance with the development of communication technology. In particular, a voice activity detection (VAD) technique for detecting the presence or absence of voice in an audio signal may reduce power consumption by preventing a voice processing apparatus from generating or transmitting unnecessary data for a non-voice section, It can also be used for various purposes such as sound editing and preprocessing of voice data retrieval methods.

음성 구간 검출 기술에 있어서 가장 문제가 되는 것은, 오디오 신호에 포함된 다양한 잡음이다. 특히 멀티미디어 콘텐츠의 경우에는 음성, 음악, 음향효과, 잡음 등의 다양한 오디오 신호가 포함되므로, 음성 구간 검출의 성능을 제고하는 것이 요구된다. The most problematic in the speech segment detection technique is various noise included in the audio signal. Particularly, multimedia contents include various audio signals such as voice, music, sound effect, and noise, so it is required to improve the performance of voice section detection.

최근에는 음성 구간 검출을 위해 딥 러닝(deep learning) 등을 포함하는 머신 러닝(machine learning) 기술을 적용하는 것이 연구되고 있다. 딥 러닝 기술은 기존의 음성 구간 검출 기술에 비하여 대체로 높은 성능을 보여주지만, 음성을 포함하는 멀티미디어 콘텐츠의 샘플의 양과 질에 따라서 그 성능이 좌우되는 문제가 있다. 특히, 음성, 음악, 음향효과, 잡음 등의 다양한 오디오 신호를 포함하는 멀티미디어 콘텐츠의 경우에는 임의의 시점에 일시적으로 발생하는 산발적 잡음을 포함할 수 있다. 이러한 산발적 잡음은 음성, 음악 등의 오디오 신호에 비하여 상대적으로 낮은 경우의 수를 가진다. 따라서, 산발적 잡음의 경우에는 학습 샘플의 부족으로 인해 확률 모델을 구성하기 어려우므로, 딥 러닝 기반 음성 구간 검출 기술은 산발적 잡음을 포함하는 오디오 신호에 대해서는 높은 성능을 기대하기 어렵다.Recently, it has been studied to apply a machine learning technique including deep learning for voice section detection. Although the deep learning technique generally shows higher performance than the existing speech section detection technology, there is a problem that the performance depends on the amount and quality of samples of multimedia contents including voice. Especially, in case of multimedia contents including various audio signals such as voice, music, sound effect, noise, etc., it may include sporadic noise that occurs temporarily at a certain time. This sporadic noise has a relatively low number of audio signals compared with audio signals such as music and music. Therefore, in the case of sporadic noise, it is difficult to construct a probability model because of lack of learning samples. Therefore, it is difficult to expect a high performance for an audio signal including sporadic noise.

이와 같이, 산발적 잡음을 포함하는 오디오 신호에 대해서도 높은 성능의 음성 구간 검출이 가능한 기술이 요구되고 있지만, 이에 대한 구체적인 방안은 마련되지 않은 실정이다.As described above, there is a demand for a technology capable of high-performance speech segment detection for audio signals including sporadic noises, but no specific measures have been made.

본 개시의 기술적 과제는 산발적 잡음을 포함하는 오디오 신호에서 잡음에 강인한 음성 구간을 검출하는 방법 및 장치를 제공하는 것이다.SUMMARY OF THE INVENTION The present invention is directed to a method and apparatus for detecting noise-robust speech intervals in an audio signal including sporadic noise.

본 개시에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The technical objects to be achieved by the present disclosure are not limited to the above-mentioned technical subjects, and other technical subjects which are not mentioned are to be clearly understood from the following description to those skilled in the art It will be possible.

본 개시의 일 양상에 따른 음성 구간을 검출하는 방법은, 입력된 오디오 신호의 파형 및 스펙트럼의 특징을 표현하는 제 1 행렬을 생성하는 단계; 상기 제 1 행렬에 기초하여 하나 이상의 특징 벡터를 포함하는 제 2 행렬을 생성하는 단계; 및 상기 제 1 행렬에 기초하여 결정되는 음성 후보 구간에 대해서, 상기 제 2 행렬에 기초하여 결정되는 HPR(Harmonics-to-Percussive Ratio) 값에 기초하여, 상기 음성 후보 구간이 음성 구간에 해당하는지 여부를 결정하는 단계를 포함할 수 있다.According to an aspect of the present disclosure, there is provided a method of detecting a speech interval, the method comprising: generating a first matrix representing a waveform and spectral characteristics of an input audio signal; Generating a second matrix including one or more feature vectors based on the first matrix; And determining whether or not the speech candidate section corresponds to a speech section based on a Harmonic-to-Percussive Ratio (HPR) value determined based on the second matrix, for a speech candidate section determined based on the first matrix Based on the result of the determination.

본 개시에 대하여 위에서 간략하게 요약된 특징들은 후술하는 본 개시의 상세한 설명의 예시적인 양상일 뿐이며, 본 개시의 범위를 제한하는 것은 아니다.The features briefly summarized above for this disclosure are only exemplary aspects of the detailed description of the disclosure which follow, and are not intended to limit the scope of the disclosure.

본 개시에 따르면, 산발적 잡음을 포함하는 오디오 신호에서 잡음에 강인한 음성 구간을 검출하는 방법 및 장치가 제공될 수 있다.According to the present disclosure, a method and apparatus for detecting noise-robust speech intervals in an audio signal including sporadic noise can be provided.

본 개시에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The effects obtainable from the present disclosure are not limited to the effects mentioned above, and other effects not mentioned can be clearly understood by those skilled in the art from the description below will be.

도 1은 본 개시에 따른 음성 구간 검출 장치의 예시적인 구성을 나타내는 블록도이다.
도 2는 하모닉스 성분을 가지는 오디오 신호의 스펙트로그램의 예시를 나타내는 도면이다.
도 3은 퍼커시브 성분을 가지는 오디오 신호의 스펙트로그램의 예시를 나타내는 도면이다.
도 4는 산발적 잡음 및 음성 신호에 대한 스펙트로그램의 예시를 나타내는 도면이다.
1 is a block diagram showing an exemplary configuration of a speech interval detection apparatus according to the present disclosure;
2 is a diagram showing an example of a spectrogram of an audio signal having a harmonic component.
3 is a diagram showing an example of a spectrogram of an audio signal having a perch only component.
4 is a diagram showing an example of a spectrogram for sporadic noise and speech signals.

이하에서는 첨부한 도면을 참고로 하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나, 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. Hereinafter, embodiments of the present disclosure will be described in detail with reference to the accompanying drawings, which will be easily understood by those skilled in the art. However, the present disclosure may be embodied in many different forms and is not limited to the embodiments described herein.

본 개시의 실시 예를 설명함에 있어서 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그에 대한 상세한 설명은 생략한다. 그리고, 도면에서 본 개시에 대한 설명과 관계없는 부분은 생략하였으며, 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.In the following description of the embodiments of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may make the subject matter of the present disclosure rather unclear. Parts not related to the description of the present disclosure in the drawings are omitted, and like parts are denoted by similar reference numerals.

본 개시에 있어서, 어떤 구성요소가 다른 구성요소와 "연결", "결합" 또는 "접속"되어 있다고 할 때, 이는 직접적인 연결관계뿐만 아니라, 그 중간에 또 다른 구성요소가 존재하는 간접적인 연결관계도 포함할 수 있다. 또한 어떤 구성요소가 다른 구성요소를 "포함한다" 또는 "가진다"고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 배제하는 것이 아니라 또 다른 구성요소를 더 포함할 수 있는 것을 의미한다.In the present disclosure, when an element is referred to as being "connected", "coupled", or "connected" to another element, it is understood that not only a direct connection relationship but also an indirect connection relationship May also be included. Also, when an element is referred to as " comprising "or" having "another element, it is meant to include not only excluding another element but also another element .

본 개시에 있어서, 제1, 제2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 특별히 언급되지 않는 한 구성요소들간의 순서 또는 중요도 등을 한정하지 않는다. 따라서, 본 개시의 범위 내에서 일 실시 예에서의 제1 구성요소는 다른 실시 예에서 제2 구성요소라고 칭할 수도 있고, 마찬가지로 일 실시 예에서의 제2 구성요소를 다른 실시 예에서 제1 구성요소라고 칭할 수도 있다. In the present disclosure, the terms first, second, etc. are used only for the purpose of distinguishing one element from another, and do not limit the order or importance of elements, etc. unless specifically stated otherwise. Thus, within the scope of this disclosure, a first component in one embodiment may be referred to as a second component in another embodiment, and similarly a second component in one embodiment may be referred to as a first component .

본 개시에 있어서, 서로 구별되는 구성요소들은 각각의 특징을 명확하게 설명하기 위함이며, 구성요소들이 반드시 분리되는 것을 의미하지는 않는다. 즉, 복수의 구성요소가 통합되어 하나의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있고, 하나의 구성요소가 분산되어 복수의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있다. 따라서, 별도로 언급하지 않더라도 이와 같이 통합된 또는 분산된 실시 예도 본 개시의 범위에 포함된다. In the present disclosure, the components that are distinguished from each other are intended to clearly illustrate each feature and do not necessarily mean that components are separate. That is, a plurality of components may be integrated into one hardware or software unit, or a single component may be distributed into a plurality of hardware or software units. Thus, unless otherwise noted, such integrated or distributed embodiments are also included within the scope of this disclosure.

본 개시에 있어서, 다양한 실시 예에서 설명하는 구성요소들이 반드시 필수적인 구성요소들은 의미하는 것은 아니며, 일부는 선택적인 구성요소일 수 있다. 따라서, 일 실시 예에서 설명하는 구성요소들의 부분집합으로 구성되는 실시 예도 본 개시의 범위에 포함된다. 또한, 다양한 실시 예에서 설명하는 구성요소들에 추가적으로 다른 구성요소를 포함하는 실시 예도 본 개시의 범위에 포함된다. In the present disclosure, the components described in the various embodiments are not necessarily essential components, and some may be optional components. Thus, embodiments consisting of a subset of the components described in one embodiment are also included within the scope of the present disclosure. Also, embodiments that include other elements in addition to the elements described in the various embodiments are also included in the scope of the present disclosure.

본 개시에서 사용하는 용어에 대한 정의는 다음과 같다.The definitions of the terms used in the present disclosure are as follows.

- 산발적 잡음: 일시적으로 발생하는 잡음. 산발적 잡음은 임펄스성 잡음 및 돌발성 잡음을 포함함.- sporadic noise: transient noise. Sporadic noise includes impulsive noise and sudden noise.

- 임펄스성 잡음: 짧은 시간 동안 존재하는 잡음. 임펄스성 잡음은 매우 큰 진폭 및 단순한 파형의 특성을 가짐.Impulse noise: Noise present for a short time. Impulsive noise has very large amplitude and simple waveform characteristics.

- 돌발성 잡음: 임펄스성 잡음에 비하여 상대적으로 긴 시간 동안 존재하는 잡음. 돌발성 잡음은 음성과 비슷한 진폭을 가지고 신호 성분이 복잡한 특성을 가짐.- Sudden Noise: Noise that exists for a relatively long time compared to impulsive noise. Sudden noises have a complexity in signal components with similar amplitude to speech.

- 하모닉스-대-퍼커시브 비율(Harmonics-to-Percussive Ratio, HPR): 오디오 신호의 하모닉스 성분과 퍼커시브 성분의 비율.- Harmonics-to-Percussive Ratio (HPR): The ratio of the harmonic to percussive components of the audio signal.

- 하모닉스 성분: 오디오 신호 중에서 음의 높낮이(또는 피치(pitch))를 가지는 성분. 하모닉스 성분은 소정의 시간 구간 동안 유지되는 것과 주기성에 의해서 시간 도메인에서 연속적인 특성을 가지는 성분임. 예를 들어, 현악기의 소리.- Harmonic component: A component that has a pitch (or pitch) in the audio signal. The harmonics component is a component that is maintained for a predetermined time period and has a property that is continuous in the time domain by periodicity. For example, the sound of stringed instruments.

- 퍼커시브 성분: 오디오 신호 중에서 음의 높낮이(또는 피치)가 없는 성분. 퍼커시브 성분은 순간성 및 비주기성에 의해 주파수 도메인에서 연속적인 특성을 가지는 성분임. 예를 들어, 타악기의 소리.- Percussive component: A component in the audio signal that has no pitch (or pitch). The percussive component is a component having continuous properties in the frequency domain due to the instantaneous and non-periodic properties. For example, the sound of a percussion instrument.

전술한 용어들의 정의는 단지 예시적인 것일 뿐, 본 발명의 범위가 이러한 정의에 의해서 제한되는 것은 아니다. 예를 들어, 위와 같은 용어의 정의는, 해당 용어에 대해서 당업자에 의해서 용이하게 이해되는 기본적인 의미를 배제하는 것은 아니다. The definitions of the above terms are merely illustrative, and the scope of the present invention is not limited by these definitions. For example, the definition of such terms does not exclude the basic meaning that is easily understood by those skilled in the art.

이하에서는, 잡음에 강인한 음성 구간 검출 방법 및 장치에 대한 본 개시의 다양한 예시들에 대해서 설명한다.Various examples of the present disclosure for a noise-robust voice interval detection method and apparatus are described below.

본 개시의 예시들은 음성 신호의 특성을 이용하여 음성 구간을 검출하는 방안에 대한 것이다. 예를 들어, 본 개시에 따르면 멀티미디어 콘텐츠 내의 오디오 신호에서 잡음을 감지하여, 잡음에 강인한 음성 구간 검출 방안이 제공될 수 있다. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The examples of this disclosure relate to a method for detecting a speech interval using the characteristics of a speech signal. For example, according to the present disclosure, noise can be detected in an audio signal in a multimedia content, and a noise-detection method robust against noise can be provided.

음성 구간 검출에서 가장 문제가 되는 것은 오디오 신호에 포함된 다양한 잡음이다. 특히 멀티미디어 콘텐츠의 경우에는, 음성은 물론, 음악, 음향 효과 및 잡음 등 다양한 신호가 포함되어 있다. 최근에는 딥 러닝 기법을 이용한 음성 구간 검출 기술이 전세계적으로 활발히 연구되고 있다. The most problematic in the detection of the speech interval is the various noise included in the audio signal. Especially, in case of multimedia contents, various signals such as music, sound effect and noise are included. Recently, voice segment detection technology using deep learning technique has been actively studied all over the world.

딥 러닝은 머신 러닝의 하나의 기법으로서, 여러 비선형 변환 기법의 조합을 통해 높은 수준의 추상화(abstractions)를 수행하는 방식이다. 예를 들어, 딥 러닝은 다량의 데이터나 복잡한 자료들 속에서 핵심적인 내용 또는 기능을 추출하는 작업을 수행하는 알고리즘의 집합으로 정의될 수 있다. 이와 같이, 딥 러닝은 사람의 사고 방식을 컴퓨터에게 가르치는 머신 러닝의 한 분야이다. Deep learning is a technique of machine learning, which performs a high level of abstractions through a combination of several nonlinear transformation techniques. Deep learning, for example, can be defined as a set of algorithms that perform the task of extracting core content or functionality in a large amount of data or complex data. As such, deep learning is a field of machine learning that teaches computers how people think.

대표적인 딥 러닝 알고리즘으로는 Deep Neural Networks(DNN), Convolutional Neural Networks(CNN), Deep Belief Networks(DBN) 등이 있으며, 이들은 컴퓨터 비전, 음성 인식, 자연어 처리, 음성 처리, 신호 처리 등의 분야에 적용될 수 있다. 딥 러닝을 이용하여 고차원적이고 유사성이 있는 특징들을 효과적으로 표현할 수 있으며, 특히 DNN 알고리즘은 여러 개의 층(layer)으로 구성되어 음성 특징들 간 비선형적 관계를 모델링하는 성능이 우수하므로, 음성구간 검출에 DNN 알고리즘을 적용하려는 시도가 많이 이루어지고 있다. 예를 들어, 기존의 음성/음악 데이터베이스(DB) 등을 활용하여 음성구간 검출을 위한 확률 모델을 학습하여, 유투브(YouTube) 콘텐츠, 영화 콘텐츠, 미국의 방위고등연구계획국(Defense Advanced Research Projects Agency; DARPA) 프로젝트 내 무전기 통신 음성 등에 대해서 음성 구간 검출 실험을 시도하고 있다. Deep Neural Networks (DNN), Convolutional Neural Networks (CNN), and Deep Belief Networks (DBN) are examples of deep-learning algorithms that can be applied to computer vision, speech recognition, natural language processing, speech processing, . The DNN algorithm is composed of several layers and has excellent performance for modeling nonlinear relations among speech features. Therefore, it is possible to use DNN Many attempts have been made to apply algorithms. For example, by learning a probability model for voice segment detection using a conventional voice / music database (DB), YouTube contents, movie contents, Defense Advanced Research Projects Agency (US) DARPA) project in Korea.

딥 러닝 기반 음성 구간 검출 실험의 결과 보고에서 나타난 바와 같이, 멀티미디어 콘텐츠와 같은 음악, 음향 효과, 다양한 잡음 등이 존재하는 경우 딥 러닝 기반 음성구간 검출의 성능도 저하될 수 있다. 이러한 성능 저하는 산발적 잡음의 경우에 두드러진다. As shown in the result report of the deep learning based speech segment detection test, the performance of the deep learning based speech segment detection may be degraded when there are music, sound effects, various noises, and the like as multimedia contents. This degradation is noticeable in the case of sporadic noise.

여기서, 잡음은 신호의 전체 구간에 골고루 분포하는 잡음과 특정 구간에 일시적으로 존재하는 산발적 잡음으로 나눌 수 있다. 그 중 산발적 잡음은 임펄스성 잡음과 돌발성 잡음으로 나눌 수 있다. 임펄스성 잡음은 짧은 시간 동안 존재하며 그 진폭이 매우 크고 단순한 파형을 갖는 반면, 돌발성 잡음은 임펄스 성 잡음에 비해 비교적 긴 시간 동안 존재하며 음성과 비슷한 진폭과 신호 성분이 복잡한 특성을 가지고 있다. Here, the noise can be divided into a noise distributed uniformly over the entire section of the signal and a sporadic noise temporally present in a specific section. Among these, sporadic noise can be divided into impulsive noise and sudden noise. Impulsive noise exists for a short period of time, and its amplitude is very large and has a simple waveform. However, sudden noise exists for a relatively long time compared with impulsive noise, and the amplitude and the signal components are similar in complexity to the voice.

이러한 산발적 잡음은 멀티미디어 콘텐츠 내의 음성 신호, 음악 신호 등에 비해 상대적으로 그 경우의 수가 많지 않아, DNN, CNN 등의 딥 러닝 확률 모델을 위한 학습(training)이 제대로 이루어지지 않는 문제가 있다. 즉, 딥 러닝 기법에서는 유사한 특성을 가지는 오디오 샘플을 많이 확보 및 수집하여 확률 모델을 학습하여야만 높은 성능을 가질 수 있는데, 돌발성 잡음은 음성 신호와 비슷한 진폭 및 신호 성분을 가지고 있으면서도 그 샘플의 수가 많지 않기 때문에, 딥 러닝 기법에서 요구되는 학습이 제대로 이루어지기 어려운 문제가 있다. Such sporadic noise is relatively ineffective compared to voice signals and music signals in multimedia contents, and training for a deep running probability model such as DNN and CNN is not properly performed. In other words, in the deep learning technique, a large number of audio samples having similar characteristics are acquired and collected to learn a probability model. However, sudden noise has amplitude and signal components similar to those of a voice signal, Therefore, there is a problem that the learning required in the deep learning technique is difficult to be properly performed.

이러한 문제를 해결하기 위해서, 본 개시의 예시들에서는 오디오 신호로부터 음성 또는 비음성 여부를 판단할 때에, 입력되는 오디오 신호의 특성을 이용하여 음성 신호와 주파수 스펙트럼의 분포 형태가 유사한 돌발 잡음을 포함하는 산발적 잡음 여부를 판단하는 방안에 대해서 설명한다. 이에 따라, 잡음에 강인하게 음성 구간 여부를 구분하고 음성 구간 또는 비음성 구간을 검출할 수 있다.In order to solve such a problem, in the examples of the present disclosure, when judging whether or not the audio signal is speech or non-speech, the speech signal includes a sudden noise similar in distribution type of frequency spectrum to the audio signal A method for determining whether sporadic noise is present will be described. Accordingly, it is possible to distinguish whether speech is strong or not and to detect a speech section or a non-speech section.

도 1은 본 개시에 따른 음성 구간 검출 장치의 예시적인 구성을 나타내는 블록도이다. 1 is a block diagram showing an exemplary configuration of a speech interval detection apparatus according to the present disclosure;

오디오 분석부(audio analysis)(110)는 입력되는 오디오 신호를 분석(analysis)한 결과에 기초하여 제 1 행렬을 출력할 수 있다. The audio analysis unit 110 may output the first matrix based on an analysis result of the input audio signal.

예를 들어, 입력되는 오디오 신호는 PCM(Pulse Code Modulation) 데이터일 수 있고, 제 1 행렬은 입력 오디오 신호의 파형(waveform) 및 스펙트럼(spectrum)의 특징을 표현하는 행렬일 수 있다.For example, the input audio signal may be PCM (Pulse Code Modulation) data, and the first matrix may be a matrix representing characteristics of a waveform and a spectrum of the input audio signal.

구체적인 예시로서, 오디오 분석부(110)는 PCM 데이터에 대한 STFT(Short Time Fourier Transform)를 수행하여 복소수 스펙트로그램(spectrogram) 행렬을 출력할 수 있다.As a concrete example, the audio analysis unit 110 may perform a STFT (Short Time Fourier Transform) on the PCM data to output a complex spectrogram matrix.

본 개시의 범위는 전술한 예시로 제한되는 것은 아니며, 제 1 행렬은 오디오 신호의 시간-주파수 특성을 나타내는 데이터를 포함할 수 있다.The scope of the present disclosure is not limited to the example described above, and the first matrix may include data representing time-frequency characteristics of the audio signal.

특징 추출부(feature extraction)(120)에서는 오디오 분석부(110)로부터 입력되는 제 1 행렬에 기초하여 오디오 신호에 대한 제 2 행렬을 출력할 수 있다. The feature extraction unit 120 may output a second matrix for an audio signal based on a first matrix input from the audio analysis unit 110. [

예를 들어, 제 2 행렬은 오디오 특징(feature) 벡터(들)로 구성된 행렬일 수 있다. 구체적으로, 제 2 행렬은 스펙트로그램 행렬에 기초하여 구성되는 하나 이상의 특징 벡터를 포함할 수 있다. 보다 구체적인 예시로서, 특징 벡터는, 스펙트로그램 값을 이용하여 구성될 수도 있고, 또는 TF(Time-Frequency) 도메인의 다양한 서브밴드 프로세싱 기반의 오디오 특징들을 이용하여 구성될 수 있다.For example, the second matrix may be a matrix of audio feature vector (s). In particular, the second matrix may comprise one or more feature vectors constructed based on the spectrogram matrix. As a more specific example, the feature vector may be constructed using spectrogram values, or may be configured using various subband processing based audio features of the TF (Time-Frequency) domain.

스펙트로그램 값을 이용하여 특징 벡터 행렬을 구성하는 경우, 특징 벡터 행렬의 행의 개수는 FFT(Fast Fourier Transform)의 차수에 해당하고, 특징 벡터 행렬의 열의 개수는 오디오 프레임의 개수에 해당할 수 있다.In the case of constructing the feature vector matrix using the spectrogram value, the number of rows of the feature vector matrix corresponds to the order of FFT (Fast Fourier Transform), and the number of columns of the feature vector matrix may correspond to the number of audio frames .

TF 도메인의 서브밴드 프로세싱의 일례로서 MFCC(Mel-Frequency Cepstral Coefficients)를 이용할 수 있다. MFCC를 이용하는 경우, 오디오 분석부(110)에서 출력되는 제 1 행렬의 TF 성분을 멜-스케일(Mel-scale)의 주파수 도메인에서 로그 파워 스펙트럼에 코사인 변환을 취하여 계수를 계산함으로써 MFCC 값을 얻을 수 있다. 이 경우, 특징 벡터 행렬의 행의 개수는 Mel 필터 뱅크의 개수에 해당하고, 특징 벡터 행렬의 열의 개수는 오디오 프레임의 개수에 해당할 수 있다.Mel-Frequency Cepstral Coefficients (MFCC) can be used as an example of subband processing of the TF domain. MFCC value is obtained by calculating the coefficient by taking the TF component of the first matrix output from the audio analyzer 110 by performing a cosine transform on the log power spectrum in the frequency domain of Mel-scale have. In this case, the number of rows of the feature vector matrix corresponds to the number of Mel filter banks, and the number of columns of the feature vector matrix may correspond to the number of audio frames.

본 개시의 범위는 전술한 예시로 제한되는 것은 아니며, 제 2 행렬은 오디오 신호의 시간-주파수 특성에 기초하여 구성된 하나 이상의 특징 벡터를 포함할 수 있다. The scope of the present disclosure is not limited to the example described above, and the second matrix may include one or more feature vectors configured based on the time-frequency characteristics of the audio signal.

HPR 계산부(calculation)(130)는 입력되는 제 1 행렬에 기초하여 오디오 신호의 소정의 시간 구간 및 소정의 주파수 구간에서의 하모닉스 성분과 퍼커시브 성분의 비율을 계산할 수 있다. The HPR calculation unit 130 may calculate the ratio of the harmonic component to the percussive component in a predetermined time interval and a predetermined frequency interval of the audio signal based on the input first matrix.

하모닉스 성분과 퍼커시브 성분의 특징에 대해서 도 2 내지 4를 참조하여 설명한다. The characteristics of the harmonic component and the percussive component will be described with reference to Figs. 2 to 4. Fig.

도 2는 하모닉스 성분을 가지는 오디오 신호의 스펙트로그램의 예시를 나타내는 도면이다.2 is a diagram showing an example of a spectrogram of an audio signal having a harmonic component.

도 3은 퍼커시브 성분을 가지는 오디오 신호의 스펙트로그램의 예시를 나타내는 도면이다. 3 is a diagram showing an example of a spectrogram of an audio signal having a perch only component.

도 4는 산발적 잡음 및 음성 신호에 대한 스펙트로그램의 예시를 나타내는 도면이다. 4 is a diagram showing an example of a spectrogram for sporadic noise and speech signals.

산발적 잡음은 임펄스성 잡음 및 돌발성 잡음(예를 들어, 박수 소리, 웃음 소리, 환호 소리, 휘파람 소리, 폭발하는 소리 등 임펄스성 잡음에 비하여 상대적으로 긴 시간 동안 존재하며, 음성과 비슷한 진폭을 가지고 신호 성분이 복잡한 잡음)을 포함하며, 이러한 산발적 잡음은 퍼커시브 신호와 유사한 특성을 가진다.The sporadic noise is present for a relatively long time compared to the impulsive noise such as impulsive noise and sudden noise (for example, applause, laughter, cheering, whistling, explosion, etc.) Complex noise), and this sporadic noise has characteristics similar to the percussive signal.

예를 들어, 도 2의 예시는 바이올린 소리에 대한 스펙트로그램에 해당하고, 도 3의 예시는 캐스터네츠 소리에 대한 스펙트로그램에 해당한다. 도 2의 예시에서와 같이 현악기 소리는 시간 축으로 여러 종류의 주파수 배음에 각각 해당하는 에너지가 수평하게 연속적으로 나타나는 하모닉스 성분으로 주로 이루어졌음을 알 수 있다. 도 3의 예시에서와 같이 타악기 소리는 특정 시간에 시간 축으로 수직으로 에너지가 몰려 있고 주파수 축에서는 전체적으로 연속적으로 고르게 에너지가 분포하는 퍼커시브 성분으로 주로 이루어졌음을 알 수 있다. For example, the example of FIG. 2 corresponds to the spectrogram for the violin sound, and the example of FIG. 3 corresponds to the spectrogram for the castanet sound. As shown in the example of FIG. 2, it can be seen that the string sound is mainly composed of a harmonic component in which energy corresponding to various kinds of frequency harmonics appears horizontally and continuously along the time axis. As in the example of FIG. 3, it can be seen that the percussion sound is mainly composed of a percussive component in which energy is vertically concentrated along the time axis at a specific time and energy is continuously distributed evenly over the entire frequency axis.

도 4의 예시에서 산발적 잡음(예를 들어, 웃음 소리)에 해당하는 시간 구간에서는 음성에 해당하는 시간 구간에 비하여 상대적으로 퍼커시브 성분을 더 많이 포함하는 것을 알 수 있다. 또한, 음성에 해당하는 시간 구간에서는 산발적 잡음에 해당하는 시간 구간에 비하여 상대적으로 하모닉스 성분을 더 많이 포함하는 것을 알 수 있다. In the example of FIG. 4, it can be seen that, in a time period corresponding to sporadic noise (for example, laughter), the punsive component is relatively more included than a time period corresponding to voice. In addition, it can be seen that, in the time interval corresponding to the speech, the harmonic components are relatively more included than the time interval corresponding to the sporadic noise.

따라서, 하모닉스 성분과 퍼커시브 성분의 비율(즉, HPR)을 이용하여, 특정 시간 구간(예를 들어, 프레임)이 음성 구간에 해당할 확률이 높은지 또는 산발적 잡음에 해당할 확률이 높은지를 결정할 수 있다. Therefore, it is possible to determine, using the ratio of the harmonic component and the percussive component (i.e., HPR), whether a particular time interval (e.g., frame) is likely to correspond to a speech interval or is likely to correspond to sporadic noise have.

예를 들어, HPR을 계산하기 위해서, 중간값(median) 필터를 이용하여 하모닉스 성분과 퍼커시브 성분을 분리할 수 있다. 구체적으로, 오디오 신호의 소정의 시간 구간 및 소정의 주파수 구간에서의 HPR을 계산할 수 있다. For example, to compute the HPR, a harmonic component and a percussive component can be separated using a median filter. Specifically, the HPR at a predetermined time interval and a predetermined frequency interval of the audio signal can be calculated.

여기서 소정의 시간 구간은 오디오 신호가 존재하는 전체 시간 영역을 복수의 동일한 크기의 시간 단위로 나눈 것 중의 어느 하나일 수 있다. 예를 들어, 상기 시간 단위는 프레임일 수 있다. 본 개시의 범위는 이에 제한되는 것은 아니고 임의의 크기의 시간 단위에 대해서도 HPR을 계산할 수 있다.Here, the predetermined time period may be any one of a time period in which the audio signal exists and a time period in which the audio signal exists, divided by a plurality of time units of the same size. For example, the time unit may be a frame. The scope of the present disclosure is not limited thereto, and the HPR can be calculated for a time unit of arbitrary size.

소정의 주파수 구간은 오디오 신호가 존재하는 전체 주파수 영역을 복수의 동일한 크기의 주파수 단위로 나눈 것 중의 어느 하나일 수 있다. 예를 들어, 상기 주파수 단위는 주파수 빈(bin)이라고 표현할 수도 있다. 본 개시의 범위는 이에 제한되는 것은 아니고 임의의 크기의 주파수 단위에 대해서도 HPR을 계산할 수 있다.The predetermined frequency interval may be any one of a whole frequency range in which the audio signal exists, divided by a plurality of frequency units of the same size. For example, the frequency unit may be expressed as a frequency bin. The scope of the present disclosure is not limited thereto, and the HPR can be calculated for a frequency unit of any size.

중간값 필터는 비선형 디지털 필터 기술로 이미지 처리 분야에서 신호 잡음을 제거하는 데 자주 이용되며, 통상적으로 이미지 내 윤곽선 감지 같은 높은 수준의 처리를 수행하기 전 단계인 이미지에 고성능 잡음 제거를 수행하는 데 사용된다. 본 개시에서는 중간값 필터를 HPR을 계산하기 위해서 사용할 수 있다.The median filter is a nonlinear digital filter technique that is often used to remove signal noise in image processing and is typically used to perform high-performance noise cancellation on images prior to high-level processing such as in-image contour detection do. In this disclosure, an intermediate value filter can be used to compute HPR.

예를 들어, 제 1 행렬에 대해 제 1 중간값 필터(median filter)에 의한 필터링이 적용된 결과를 제 1 필터링된 제 1 행렬로서 출력할 수 있다. 구체적으로, 제 1 중간값 필터는 수평 중간값 필터(horizontal median filter)일 수 있고, 제 1 필터링된 제 1 행렬은 스펙트로그램에 대한 수평 중간값 필터링이 적용된 Spect_h로 표현할 수 있다. For example, it is possible to output a result of applying the filtering by the first median filter to the first matrix as a first filtered first matrix. Specifically, the first intermediate value filter may be a horizontal median filter, and the first filtered first matrix may be expressed as Spect_h to which horizontal median filtering of the spectrogram is applied.

또한, 제 1 행렬에 대해서 제 2 중간값 필터에 의한 필터링이 적용된 결과를 제 2 필터링된 제 1 행렬로서 출력할 수 있다. 구체적으로, 제 1 중간값 필터는 수평 중간값 필터(horizontal median filter)일 수 있고, 제 2 필터링된 제 1 행렬은 스펙트로그램에 대한 수직 중간값 필터링이 적용된 Spect_v로 표현할 수 있다.Also, it is possible to output a result of applying the filtering by the second intermediate value filter to the first matrix as a second filtered first matrix. Specifically, the first intermediate value filter may be a horizontal median filter, and the second filtered first matrix may be expressed as Spect_v to which vertical median filtering for the spectrogram is applied.

필터링된 스펙트로그램(즉, 제 1 필터링된 스펙트로그램 및 제 2 필터링된 스펙트로그램)의 파워 값을 이용하여 각각의 주파수 단위에 대한 HPR을 계산할 수 있다. 예를 들어, 각각의 주파수 단위(예를 들어, 주파수 빈)에 대한 HPR은 아래의 수학식 1에 따라서 계산될 수 있다.The HPR for each frequency unit can be calculated using the power values of the filtered spectrograms (i.e., the first filtered spectrogram and the second filtered spectrogram). For example, the HPR for each frequency unit (e.g., frequency bin) may be calculated according to Equation 1 below.

Figure pat00001
Figure pat00001

수학식 1에서 i는 프레임 인덱스이고, j는 주파수 빈 인덱스이다. 즉, HPR[i,j]는 i-번째 프레임 및 j-번째 주파수 빈에서의 HPR을 나타낸다. Spect_h[i,j]는 제 1 필터링(예를 들어, 수평 중간값 필터링)이 적용된 스펙트로그램의 i-번째 프레임 및 j-번째 주파수 빈에서의 파워 값을 나타낸다. Spect_v[i,j]는 제 2 필터링(예를 들어, 수직 중간값 필터링)이 적용된 스펙트로그램의 i-번째 프레임 및 j-번째 주파수 빈에서의 파워 값을 나타낸다.In Equation (1), i is a frame index and j is a frequency bin index. That is, HPR [i, j] represents the HPR in the i-th frame and the j-th frequency bin. Spect_h [i, j] represents the power value in the i-th frame and the j-th frequency bin of the spectrogram to which the first filtering (for example, horizontal median filtering) is applied. Spect_v [i, j] represents the power value in the i-th frame and the j-th frequency bin of the spectrogram to which the second filtering (e.g., vertical median filtering) is applied.

예를 들어, i-번째 프레임 및 j-번째 주파수에서의 Spect_h이 Specht_v에 비하여 상대적으로 클수록, 도 4와 같은 TF 2차원 영역에서 수평 필터링된 성분의 에너지가 크다는 것을 의미한다. 수평 필터링된 성분의 에너지가 크다는 것은 하모닉스 성분이 더 많이 포함되어 있다는 것으로 해석할 수 있다. 따라서, HPR[i,j]의 값이 클수록, i-번째 프레임 및 j-번째 주파수에 해당하는 영역은 음성 구간에 해당할 확률이 높다. For example, the larger the Spect_h at the i-th frame and the j-th frequency than the Specht_v, the greater the energy of the horizontally filtered component in the TF two-dimensional region as shown in FIG. The fact that the energy of the horizontally filtered component is large can be interpreted that the harmonic component is included more. Therefore, the larger the value of HPR [i, j], the higher the probability that the region corresponding to the i-th frame and the j-th frequency corresponds to the voice section.

또는, i-번째 프레임 및 j-번째 주파수에서의 Spect_h이 Specht_v에 비하여 상대적으로 작을수록, 도 4와 같은 TF 2차원 영역에서 수직 필터링된 성분의 에너지가 크다는 것을 의미한다. 수직 필터링된 성분의 에너지가 크다는 것은 퍼커시브 성분이 더 많이 포함되어 있다는 것으로 해석할 수 있다. 따라서, HPR[i,j]의 값이 작을수록, i-번째 프레임 및 j-번째 주파수에 해당하는 영역이 비음성 구간(또는 산발적 잡음)에 해당할 확률이 높다. Or, as the Spect_h at the i-th frame and the j-th frequency is relatively smaller than Specht_v, the energy of the vertically filtered component in the TF two-dimensional region as shown in FIG. 4 is large. The fact that the energy of the vertically filtered component is large can be interpreted to include more percussive components. Therefore, the smaller the value of HPR [i, j], the higher the probability that the region corresponding to the i-th frame and the j-th frequency corresponds to the non-speech interval (or sporadic noise).

음성/비음성 판별부(speech/non-speech discrimination)(140)에는, 특징 추출부(120)에서 출력되는 제 2 행렬과, HPR 계산부(130)에서 출력되는 HPR 값이 입력될 수 있다. In the speech / non-speech discrimination unit 140, the second matrix output from the feature extraction unit 120 and the HPR value output from the HPR calculation unit 130 may be input.

음성/비음성 판별부(140)에서는 제 2 행렬에 기초하여 음성 후보(candidate) 구간을 결정하고, 음성 후보 구간에 대해서 HPR에 기초하여 음성 구간을 최종적으로 결정할 수 있다.The speech / non-speech discrimination unit 140 may determine a speech candidate section based on the second matrix and finally determine the speech interval based on the HPR for the speech candidate section.

먼저 음성 후보 구간을 결정하기 위해서, 제 2 행렬에 포함된 정보(예를 들어, 특징 벡터)에 기초한 통계적 모델링을 이용할 수 있다. First, statistical modeling based on information contained in the second matrix (e.g., feature vector) may be used to determine the speech candidate interval.

예를 들어, DNN을 이용하여 프레임 별 음성 구간 또는 비음성 구간 여부를 결정하고, 음성 구간으로 결정된 프레임에 대해서는 음성 후보 구간으로 지정할 수 있다. 구체적으로, 음성 또는 비음성 구간 여부를 결정하기 위한 DNN 모델은 음성 구간 또는 비음성 구간이 마킹되어 있는 오디오 데이터베이스를 이용하여 미리 학습(또는 트레이닝)한 확률 모델을 이용할 수 있다.For example, it is possible to determine whether a speech interval or a non-speech interval for each frame is determined using DNN, and a speech candidate interval for a frame determined as a speech interval. Specifically, the DNN model for determining whether a speech or a non-speech segment is a probabilistic model that has been previously learned (or trained) using an audio database in which a speech segment or a non-speech segment is marked can be used.

음성 후보 구간이 결정되면, HPR 계산부(130)로부터 입력된 프레임-주파수 단위 별 HPR 값 중에서, 음성 후보 구간에 해당하는 프레임에서의 HPR 값을 확인할 수 있다. 확인한 HPR 값이 소정의 임계치 이상인 경우에는 해당 음성 후보 구간을 최종적으로 음성 구간으로 결정할 수 있다. 만약 확인한 HPR 값이 소정의 임계치 미만인 경우에는 해당 음성 후보 구간은 최종적으로 비음성 구간(또는 산발적 잡음 구간)으로 결정할 수 있다.When the speech candidate section is determined, the HPR value in the frame corresponding to the speech candidate section can be confirmed from the HPR values of the frame-frequency unit input from the HPR calculation section 130. [ If the determined HPR value is equal to or greater than a predetermined threshold value, the voice candidate section can be finally determined as the voice section. If the determined HPR value is less than the predetermined threshold value, the speech candidate section may be finally determined as a non-speech section (or a sporadic noise section).

여기서, 상기 소정의 임계치는 음성 구간으로 결정된 프레임이 실제로 음성을 포함하는지 여부를 확인한 히스토리에 기초하여 최적의 값으로 조절될 수도 있다. 또는 상기 소정의 임계치는 음성 구간 검출의 민감도에 대응하여, 사용자가 원하는 값으로 조절될 수도 있다. Here, the predetermined threshold value may be adjusted to an optimal value based on a history of checking whether a frame determined as a voice interval actually includes voice. Alternatively, the predetermined threshold value may be adjusted to a value desired by the user, corresponding to the sensitivity of the voice interval detection.

최종적으로 음성 구간으로 결정된 시간 구간(또는 프레임)에 대해서는 음성 구간임을 나타내는 인덱스(예를 들어, Speech_index) 값이 부여되고, 이러한 인덱스에 기초하여 음성 구간을 용이하게 식별 및 검색할 수 있다. An index (e.g., Speech_index) indicating a voice interval is given to the time interval (or frame) finally determined as the voice interval, and the voice interval can be easily identified and retrieved based on the index.

도 5는 본 개시에 따른 음성 구간 검출의 방법을 설명하기 위한 흐름도이다.5 is a flowchart for explaining a method of voice interval detection according to the present disclosure.

단계 S510에서 음성 구간 검출 장치는 입력된 오디오 신호를 분석하여, 입력 오디오 신호의 파형 및 스펙트럼의 특징을 표현하는 제 1 행렬(예를 들어, 스펙트로그램 행렬)을 생성할 수 있다.In step S510, the speech segment detection apparatus may analyze the input audio signal to generate a first matrix (e.g., a spectrogram matrix) expressing characteristics of the waveform and spectrum of the input audio signal.

단계 S520에서 제 1 행렬에 기초하여 제 2 행렬(예를 들어, 특징 벡터 행렬)이 생성될 수 있다. In step S520, a second matrix (e.g., a feature vector matrix) may be generated based on the first matrix.

단계 S530에서 제 1 행렬에 기초하여 HPR이 계산될 수 있다. HPR은 시간 구간(예를 들어, 프레임) 및 주파수 구간(예를 들어, 주파수 빈) 단위로 각각 생성될 수 있다.In step S530, the HPR may be calculated based on the first matrix. The HPR can be generated in units of time intervals (e.g., frames) and frequency intervals (e.g., frequency bins), respectively.

단계 S540에서 제 2 행렬에 기초하여 음성 후보 구간이 결정될 수 있다. 예를 들어, 통계적 모델에 기초하여 특징 벡터 행렬이 나타내는 특징이 음성 구간에 해당하는지 비음성 구간에 해당하는지를 결정하고, 이에 따라 음성 후보 구간을 결정할 수 있다.In step S540, the speech candidate section may be determined based on the second matrix. For example, based on the statistical model, it may be determined whether the feature represented by the feature vector matrix corresponds to a speech interval or a non-speech interval, and thus a speech candidate interval may be determined.

단계 S550에서 음성 후보 구간(예를 들어, 특정 프레임 및 특정 주파수 빈에 해당하는 단위)에 대한 HPR 값이 소정의 임계치 미만인지 여부가 결정될 수 있다. In step S550, it may be determined whether the HPR value for the speech candidate section (for example, a unit corresponding to a specific frame and a specific frequency bin) is less than a predetermined threshold value.

만약 HPR 값이 소정의 임계치 이상인 경우에는 단계 S560으로 진행하여, 해당 음성 후보 구간을 최종적으로 음성 구간으로 결정할 수 있다.If the HPR value is equal to or greater than the predetermined threshold value, the process proceeds to step S560, where the voice candidate section can be finally determined as the voice section.

만약 HPR 값이 소정의 임계치 미만인 경우에는 단계 S570으로 진행하여, 해당 음성 후보 구간을 최종적으로 비음성 구간으로 결정할 수 있다.If the HPR value is less than the predetermined threshold value, the process proceeds to step S570, where the voice candidate section can be finally determined as the non-voice section.

본 개시에 따른 음성 구간 검출 방법 및 장치에 따르면, 입력된 오디오 신호의 하모닉스 성분과 퍼커시브 성분의 비교를 통해 잡음에 강인한 음성 구간 및 비음성 구간 검출이 가능하며, 음성 인식, 오디오 데이터 편집, 오디오 데이터 검색을 위한 전처리 등에서 서비스 품질 향상 및 효율성을 높일 수 있다. According to the method and apparatus for detecting a voice section according to the present disclosure, it is possible to detect a voice section and a non-voice section which are robust against noise through comparison of a harmonic component and a pucker's component of an input audio signal, It is possible to improve service quality and efficiency in preprocessing for data retrieval.

본 개시의 예시적인 방법들은 설명의 명확성을 위해서 동작의 시리즈로 표현되어 있지만, 이는 단계가 수행되는 순서를 제한하기 위한 것은 아니며, 필요한 경우에는 각각의 단계가 동시에 또는 상이한 순서로 수행될 수도 있다. 본 개시에 따른 방법을 구현하기 위해서, 예시하는 단계에 추가적으로 다른 단계를 포함하거나, 일부의 단계를 제외하고 나머지 단계를 포함하거나, 또는 일부의 단계를 제외하고 추가적인 다른 단계를 포함할 수도 있다.Although the exemplary methods of this disclosure are represented by a series of acts for clarity of explanation, they are not intended to limit the order in which the steps are performed, and if necessary, each step may be performed simultaneously or in a different order. In order to implement the method according to the present disclosure, the illustrative steps may additionally include other steps, include the remaining steps except for some steps, or may include additional steps other than some steps.

본 개시의 다양한 실시 예는 모든 가능한 조합을 나열한 것이 아니고 본 개시의 대표적인 양상을 설명하기 위한 것이며, 다양한 실시 예에서 설명하는 사항들은 독립적으로 적용되거나 또는 둘 이상의 조합으로 적용될 수도 있다.The various embodiments of the disclosure are not intended to be all-inclusive and are intended to illustrate representative aspects of the disclosure, and the features described in the various embodiments may be applied independently or in a combination of two or more.

또한, 본 개시의 다양한 실시 예는 하드웨어, 펌웨어(firmware), 소프트웨어, 또는 그들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 범용 프로세서(general processor), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다. In addition, various embodiments of the present disclosure may be implemented by hardware, firmware, software, or a combination thereof. In the case of hardware implementation, one or more application specific integrated circuits (ASICs), digital signal processors (DSPs), digital signal processing devices (DSPDs), programmable logic devices (PLDs), field programmable gate arrays A general processor, a controller, a microcontroller, a microprocessor, and the like.

본 개시의 범위는 다양한 실시 예의 방법에 따른 동작이 장치 또는 컴퓨터 상에서 실행되도록 하는 소프트웨어 또는 머신-실행가능한 명령들(예를 들어, 운영체제, 애플리케이션, 펌웨어(firmware), 프로그램 등), 및 이러한 소프트웨어 또는 명령 등이 저장되어 장치 또는 컴퓨터 상에서 실행 가능한 비-일시적 컴퓨터-판독가능 매체(non-transitory computer-readable medium)를 포함한다. The scope of the present disclosure is to be accorded the broadest interpretation as understanding of the principles of the invention, as well as software or machine-executable instructions (e.g., operating system, applications, firmware, Instructions, and the like are stored and are non-transitory computer-readable medium executable on the device or computer.

100...음성 구간 검출 장치
110...오디오 분석부
120...특징 추출부
130...HPR 계산부
140...음성/비음성 판별부
100 ... Voice section detection device
110 ... audio analysis unit
120 ... feature extraction unit
130 ... HPR calculation section
140 ... voice / non-voice discrimination unit

Claims (1)

음성 구간을 검출하는 방법에 있어서,
입력된 오디오 신호의 파형 및 스펙트럼의 특징을 표현하는 제 1 행렬을 생성하는 단계;
상기 제 1 행렬에 기초하여 하나 이상의 특징 벡터를 포함하는 제 2 행렬을 생성하는 단계; 및
상기 제 1 행렬에 기초하여 결정되는 음성 후보 구간에 대해서, 상기 제 2 행렬에 기초하여 결정되는 HPR(Harmonics-to-Percussive Ratio) 값에 기초하여, 상기 음성 후보 구간이 음성 구간에 해당하는지 여부를 결정하는 단계를 포함하는, 음성 구간 검출 방법.
A method for detecting a speech interval,
Generating a first matrix representing a waveform and spectral characteristics of an input audio signal;
Generating a second matrix including one or more feature vectors based on the first matrix; And
For a speech candidate section determined based on the first matrix, whether or not the speech candidate section corresponds to a speech section, based on a Harmonic-to-Percussive Ratio (HPR) value determined based on the second matrix And determining the voice interval.
KR1020170027785A 2017-03-03 2017-03-03 Method and apparatus for voice activity detection robust to noise KR20180101057A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170027785A KR20180101057A (en) 2017-03-03 2017-03-03 Method and apparatus for voice activity detection robust to noise

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170027785A KR20180101057A (en) 2017-03-03 2017-03-03 Method and apparatus for voice activity detection robust to noise

Publications (1)

Publication Number Publication Date
KR20180101057A true KR20180101057A (en) 2018-09-12

Family

ID=63593366

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170027785A KR20180101057A (en) 2017-03-03 2017-03-03 Method and apparatus for voice activity detection robust to noise

Country Status (1)

Country Link
KR (1) KR20180101057A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200045976A (en) * 2018-10-23 2020-05-06 한국전자통신연구원 Apparatus and method for detecting music section
KR102136700B1 (en) 2020-03-31 2020-07-23 한국건설기술연구원 VAD apparatus and method based on tone counting

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200045976A (en) * 2018-10-23 2020-05-06 한국전자통신연구원 Apparatus and method for detecting music section
KR102136700B1 (en) 2020-03-31 2020-07-23 한국건설기술연구원 VAD apparatus and method based on tone counting

Similar Documents

Publication Publication Date Title
Alim et al. Some commonly used speech feature extraction algorithms
Li et al. Adversarial music: Real world audio adversary against wake-word detection system
Su Vocal melody extraction using patch-based CNN
US9251783B2 (en) Speech syllable/vowel/phone boundary detection using auditory attention cues
Hu et al. Pitch‐based gender identification with two‐stage classification
Eskimez et al. Front-end speech enhancement for commercial speaker verification systems
Venter et al. Automatic detection of African elephant (Loxodonta africana) infrasonic vocalisations from recordings
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
Labied et al. An overview of automatic speech recognition preprocessing techniques
Daniel Meliza et al. Pitch-and spectral-based dynamic time warping methods for comparing field recordings of harmonic avian vocalizations
Fan et al. Real-time single-channel speech enhancement based on causal attention mechanism
Zhang et al. A hierarchical framework approach for voice activity detection and speech enhancement
KR20180101057A (en) Method and apparatus for voice activity detection robust to noise
CN111462737B (en) Method for training grouping model for voice grouping and voice noise reduction method
Han et al. Speech enhancement based on improved deep neural networks with MMSE pretreatment features
KR100766170B1 (en) Music summarization apparatus and method using multi-level vector quantization
Salhi et al. Robustness of auditory teager energy cepstrum coefficients for classification of pathological and normal voices in noisy environments
Ketabi et al. Text-dependent speaker verification using discrete wavelet transform based on linear prediction coding
Prabhakera et al. Glottal source estimation from coded telephone speech using a deep neural network
Fahmeeda et al. Voice Based Gender Recognition Using Deep Learning
Allosh et al. Speech recognition of Arabic spoken digits
Pan Research and simulation on speech recognition by Matlab
Li et al. Ecological environmental sounds classification based on genetic algorithm and matching pursuit sparse decomposition
Vasudev et al. Speaker identification using FBCC in Malayalam language
Xu et al. An improved singer's formant extraction method based on LPC algorithm