KR20100115093A - 음성 검출 장치 및 방법 - Google Patents
음성 검출 장치 및 방법 Download PDFInfo
- Publication number
- KR20100115093A KR20100115093A KR1020090033634A KR20090033634A KR20100115093A KR 20100115093 A KR20100115093 A KR 20100115093A KR 1020090033634 A KR1020090033634 A KR 1020090033634A KR 20090033634 A KR20090033634 A KR 20090033634A KR 20100115093 A KR20100115093 A KR 20100115093A
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- information
- internal state
- frame
- feature information
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000001514 detection method Methods 0.000 claims abstract description 74
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 230000008859 change Effects 0.000 claims description 34
- 230000003542 behavioural effect Effects 0.000 claims description 23
- 239000000284 extract Substances 0.000 claims description 14
- 230000007613 environmental effect Effects 0.000 claims description 12
- 238000013499 data model Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 3
- 230000006399 behavior Effects 0.000 description 108
- 230000009471 action Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 6
- 230000000737 periodic effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000029058 respiratory gaseous exchange Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000009172 bursting Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/09—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Telephonic Communication Services (AREA)
Abstract
프레임별로 상황에 가장 적합한 특징 정보를 사용하여 해당 프레임이 음성인지 여부를 판별할 수 있는 음성 검출 장치 및 방법이 개시된다. 일 양상에 따른 음성 검출 장치는 입력 프레임과 관련된 상황을 추정하고, 추정된 상황에서 프레임에서 음성 검출에 필요한 특징이 무엇인지를 판별할 수 있다. 이를 통해, 음성 검출 장치는 모든 프레임에서 동일한 특징 정보 추출을 이용하여 음성 신호를 검출하는 것이 아니라 각 프레임별 상황에 맞는 추가적인 특징 정보를 이용하여 음성 신호를 검출한다.
음성 검출, 특징 추출, 내부 상태, 잡음 모델, 음성 모델
Description
하나 이상의 양상은 음성 검출 시스템에 관한 것으로, 더욱 상세하게는 입력 신호가 음성인지 여부를 결정하는데 이용되는 음성 검출 장치 및 방법에 관한 것이다.
VAD(voice activity detection)는 음성과 비음성구간이 섞여있는 신호로부터 음성 구간을 분리해내는 알고리즘이다. VAD는 주로 일정한 시간 간격 예를 들어 10㎳으로 입력된 신호의 에너지나 변화 정도 등의 특징 정보를 추출하고, 추출된 특징 정보를 바탕으로 음성과 비음성을 구분한다. 예를 들어, 음성 코덱 표준의 하나인 G.729에서는 매 20㎳마다 추출한 에너지와 저주파 에너지 그리고 ZCR(Zero Crossing Rate)를 이용하여 음성 구간을 분리한다.
이렇게 음성을 검출하는 시스템은 매 프레임마다 특징 정보를 추출하여 추출된 특징 정보를 기초로 각 프레임이 음성인지 여부를 판단한다. 그러나, 음성 신호라고 하더라도, 유성음은 주기성(periodicity) 정보가 음성을 추출하는데 도움이 되지만, 무성음의 경우에는 주기성을 가지고 있지 않기 때문에 전체 에너지의 크기 나 ZCR과 같은 특징 정보를 이용하여 음성을 추출하는 것이 더 효과적이다. 잡음 신호의 종류에 따라서 음악이 잡음으로 들어오는 경우에는 주기성 정보를 이용하여 음성을 구분짓는 것이 힘들어지는 등 상황에 따라서 더 중요하게 쓰일 수 있는 특징 정보가 달라지게 된다. 따라서, 일반적으로 잡음에 영향을 덜 받는 특징 정보 예를 들어, 스펙트럴 엔트로피(Spectral Entropy), 주기적 요소 대 비주기적 요소 비율(Periodic Component to Aperiodic Component Ratio) 등을 추출하거나, 잡음의 정도나 특징을 추정하여 그에 맞게 모델이나 파라미터를 변화시키는 방법(예를 들어, 노이즈 추정 모듈(Noise Estimation Module))을 이용한다.
입력되는 신호의 특성을 파악하여 파악된 특성에 가장 적합한 특징 정보를 사용하여 음성 구간을 검출할 수 있는 장치 및 방법을 제공한다.
일 양상에 따른 음성 검출 장치는 입력되는 정보를 바탕으로 현재 상황을 추정하고, 추정된 상황에서의 음성 검출에 필요한 동작을 전반적으로 제어하여 음성 검출을 정확하게 할 수 있다.
일 양상에 따른 음성 검출 장치는 오디오 정보를 포함하는 프레임으로부터 적어도 하나의 특징 정보를 추출하고, 프레임에 대하여 적어도 하나의 특징 정보를 이용하여 음성과 관련된 상태를 나타내는 복수 개의 상태 정보를 포함하는 내부 상태를 결정하고, 결정된 내부 상태에 따라서 프레임의 음성 검출과 관련된 적어도 하나의 행동을 나타내는 행동 변수를 결정하고, 행동 변수에 따라서 음성 검출 동작을 제어하도록 구성된다.
여기에서, 내부 상태는 프레임이 음성인지 여부를 나타내는 확률 정보를 포함할 수 있으며, 행동 변수는 확률 정보에 따라 음성 검출 결과를 출력할 것인지 아니면 프레임의 음성 검출을 위하여 다른 적어도 하나의 특징 정보를 이용할 것인지를 나타내는 정보를 포함할 수 있다. 이 경우, 내부 상태 결정부는 행동 변수에 따라서 다른 적어도 하나의 특징 정보를 이용하여 프레임으로부터 새로운 특징 정보를 추출하고, 추출된 새로운 특징 정보를 이전에 추출된 특징 정보에 누적하고, 누적 결과를 이용하여 프레임이 음성인지 여부를 나타내는 내부 상태 정보를 결정할 수 있다.
음성 검출 장치는 내부 상태가 프레임이 음성 또는 비음성으로 판별된 결과가 확실한 경우에만, 특징 정보를 추출할 때 참조되는 개개인의 음성 특징 및 잡음 특징 중 적어도 하나를 나타내는 데이터 모델을 갱신하도록 행동 변수를 결정할 수 있다.
복수 개의 상태 정보는 프레임의 음성 신호의 상태를 나타내는 음성 상태 정보, 프레임의 환경적인 요인을 나타내는 환경 정보, 및 음성 검출과 관련된 복수 개의 데이터에 대한 이력 정보를 포함하는 그룹 중 적어도 하나 또는 적어도 하나의 결합을 포함할 수 있다. 여기에서, 음성 상태 정보는 음성 신호의 존재 여부를 나타내는 정보, 음성 신호의 종류를 나타내는 정보 및 잡음의 종류를 나타내는 정보를 포함하는 그룹으로 선택된 적어도 하나 또는 적어도 하나의 결합을 포함할 수 있다. 또한, 잡음 환경의 종류는 특정한 종류의 잡음이 지속적으로 나타나는 잡음환경의 종류를 나타내는 정보 및 잡음 신호의 크기를 나타내는 정보를 포함하는 그룹으로부터 선택된 적어도 하나 또는 적어도 하나의 결합을 포함할 수 있다. 또한, 이력 정보는 최근 N개의 프레임 동안 음성 검출 결과를 나타내는 정보 및 최근 N개의 프레임 동안 이용된 특징 정보의 종류 정보를 포함하는 그룹으로부터 선택된 적어도 하나 또는 적어도 하나의 결합을 포함할 수 있다.
음성 검출 장치는 특징 정보 추출 결과 값, 이전 단계의 내부 상태, 이전 단계의 행동 변수 중 적어도 하나를 이용하여 내부 상태를 갱신할 수 있다. 내부 상태를 결정할 때, 음성 검출 장치는 내부 상태를 갱신하기 위하여 각 행동 변수에 따른 내부 상태의 변화를 나타내는 내부 상태 변화 모델 및 각 내부 상태의 값에 따라 이용된 특징 정보의 결과 값을 나타내는 관측 분포 모델을 이용할 수 있다.
일 양상에 따른 행동 변수는 프레임에 이전에 이용된 특징 정보와 다른 새로운 특징 정보를 이용할 것인지를 나타내는 정보, 새로운 특징 정보의 종류를 나타내는 정보, 특징 정보 추출에 이용될 수 있는 잡음 모델 및 사람의 음성 특징을 나타내는 음성 모델을 업데이트할 것인지를 나타내는 정보 및 프레임에 이용된 특징 정보 이용 결과를 이용하여 음성 구간인지 여부를 출력할 것인지를 나타내는 정보를 포함하는 그룹으로부터 선택된 적어도 하나 또는 적어도 하나의 그룹의 결합을 포함할 수 있다.
다른 양상에 따른 음성 검출 방법은 프레임으로부터 적어도 하나의 특징 정보를 추출하는 동작, 프레임에 대하여 적어도 하나의 특징 정보를 이용하여 음성과 관련된 상태를 나타내는 복수 개의 상태 정보를 포함하는 내부 상태를 결정하는 동작, 결정된 내부 상태에 따라서 프레임의 음성 검출과 관련된 적어도 하나의 행동을 나타내는 행동 변수를 결정하는 동작 및 행동 변수에 따라서 음성 검출 동작을 제어하는 동작을 포함할 수 있다.
일 실시예에 따른 음성 검출 장치는 음성과 관련된 상태를 나타내는 내부 상태 및 음성 검출 장치에서 음성 검출 동작을 제어하기 위한 행동 변수를 정의하여 이용함으로써 입력되는 프레임으로부터 상황에 적합한 특징 정보를 추출할 수 있으며 음성 검출을 위해 이용되는 데이터를 갱신하는 등 음성 검출을 위한 동작을 제어할 수 있으므로 음성 검출의 정확도를 높일 수 있다. 또한, 음성 검출의 정확도를 높임으로써 음성 인식을 이용하는 음성 인식 애플리케이션의 성능을 높일 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시예를 상세하게 설명한다. 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 일 실시예에 따른 음성 검출 장치의 구성을 나타내는 도면이다.
일 실시예에 따른 음성 검출 장치(100)는 입력되는 음향 신호를 일정 시간 간격으로 적절한 길이의 프레임(10)으로 입력받고, 입력된 프레임(10)이 음성 신호인지 여부를 결정할 수 있다. 음성 검출 장치(100)는 개인용 컴퓨터, 휴대용 단말 등 다양한 컴퓨팅 장치로 구현될 수 있으며, 그 종류나 타입에 제한되지 않는다.
일 실시예에 따른 음성 검출 장치(100)는 특징 정보 추출부(110), 내부 상태 결정부(120) 및 행동 결정부(130)를 포함한다. 음성 검출 장치(100)는 음향 신호를 복수 개의 프레임으로 출력하는 마이크로폰(도시되지 않음)을 더 포함할 수 있으며, 특징 정보 추출부(110)에서 음향 신호를 프레임화하는 동작을 수행할 수 있는 등 구성은 다양하게 변형될 수 있다.
특징 정보 추출부(110)는 복수 개의 특징 정보를 추출할 수 있도록 구성될 수 있다. 따라서, 특징 정보 추출부(110)는 오디오 정보를 포함하는 입력되는 프레임(10)으로부터 적어도 하나의 특징 정보를 추출할 수 있다. 추출된 특징 정보는 내부 상태 결정부(120)의 입력(20)으로 이용된다.
내부 상태 결정부(120)는 프레임에 대하여 적어도 하나의 특징 정보를 이용하여 음성과 관련된 상태를 나타내는 복수 개의 상태 정보를 포함하는 내부 상태를 결정하고, 결정된 내부 상태를 행동 결정부(130)의 입력 정보(30)로서 이용될 수 있다. 여기에서, 복수 개의 상태 정보는 프레임의 음성 신호의 상태를 나타내는 음성 상태 정보, 프레임의 환경적인 요인을 나타내는 환경 정보, 및 음성 검출과 관련된 복수 개의 데이터에 대한 이력 정보를 포함하는 그룹 중 적어도 하나 또는 적어도 하나의 결합을 포함할 수 있다. 이러한 내부 상태를 나타내는 값은 음성 인식 모듈의 입력으로 이용하여 음성 인식 성능을 향상시키는데 이용될 수 있다. 예를 들어, 잡음의 종류나 크기에 따라서 음성 인식기의 모델을 바꾸거나 음성의 크기가 작거나 잡음 신호가 큰 경우 등에 적절히 응답하여 음성 인식이 이루어지도록 할 수 있다.
행동 결정부(130)는 결정된 내부 상태 입력 정보(30)에 따라서 프레임의 음성 검출과 관련된 적어도 하나의 행동을 나타내는 행동 변수를 결정하고, 행동 변수에 따라서 음성 검출 동작을 제어한다. 또한, 결정된 행동 변수는 내부 상태 결정부(120)의 입력 정보(40)로 이용되어, 내부 상태를 구성하는 정보로 이용될 수 있다.
행동 변수는 현재 프레임에 이용된 특징 정보 이용 결과를 이용하여 음성 구간인지 여부를 출력할 것인지를 나타내는 정보를 포함할 수 있다. 현재 프레임이 음성인지 여부가 확실하게 판별되는 경우, 행동 변수는 현재 프레임이 음성인지 비음성인지에 대한 결과 정보를 출력 행동(60)을 나타낼 수 있다.
현재 프레임이 음성인지 여부가 불확실한 경우에는 행동 변수는 현재 프레임에 이전에 이용된 특징 정보와 다른 새로운 특징 정보를 이용할 것인지를 나타내는 정보, 새로운 특징 정보의 종류를 나타내는 정보를 포함할 수 있다. 이 경우, 특징 정보 추출부(110)는 행동 결정부(130)로부터 입력된 행동 변수 입력 정보(50)에 따라 현재 프레임에서 다른 특징 정보를 추출할 수 있다. 또한, 행동 변수는 특징 정보 추출부(110)에서 이용되는 음성 검출에 이용되는 데이터 모델을 갱신하는 요청 정보를 포함할 수 있다. 상세하게는, 행동 변수는 특징 정보 추출에 참조될 수 있는 데이터 모델 예를 들어, 잡음 모델(Noise Model) 및 사람의 음성 특징을 나타내는 음성 모델(Speech Model)을 업데이트할 것인지를 나타내는 정보를 포함할 수 있다.
도 2는 도 1의 특징 정보 추출부의 동작을 나타내는 도면이다.
특징 정보 추출부(110)는 현재의 프레임으로부터 행동 변수에서 지정한 특징 정보를 추출한다. 추출된 특징 정보는 내부 상태 결정부(120)의 입력 정보(20)로 이용된다. 특징 정보 추출부(110)에서 추출할 수 있는 특징 정보의 종류로는 현재 프레임 신호의 에너지, 특정 주파수 대역의 에너지(예를 들어, 100~400㎐, 1000~2500㎐), 멜-주파수 셉스트럴 계수(Mel-Frequency Cepstral Coefficients), ZCR(Zero Crossing Rate), 주기성 정보(예를 들어, 피치, 주기적 요소 대 비주기적 요소의 비율 등) 등을 포함할 수 있으나, 이에 한정되지 않는다.
이러한 특징 정보는 잡음에 따라서 영향을 받을 수 있기 때문에, 시스템 내부에 있는 음성 모델(112) 및 잡음 모델(114)이나, 독립적인 잡음 추정 모듈(도시되지 않음)을 이용하여 잡음에 따른 영향을 제거할 수 있다. 음성 모델(112)은 사람 개개인의 음성 특징을 나타내는 데이터로 이루어지는 모델일 수 있으며, 잡음 모델(114)은 잡음 종류에 따른 잡음 특징을 나타내는 데이터로 이루어지는 모델일 수 있다. 음성 모델(112) 및 잡음 모델(114)는 음성 검출을 정확도를 높이기 위해 특징 정보 추출부(110)에서 특징 정보 추출시 이용될 수 있으며, 특징 정보 추출부(110) 내부의 소정의 저장 공간 또는 외부의 저장 공간에 저장되어 이용될 수 있다.
즉, 특징 정보 추출부(110)는 프레임에 특징 정보 추출 방법을 이용하여 일차적으로 적용하여 추출된 정보가 아니라 음성 모델(112)이나 잡음 모델(114)을 이용하여 현재 프레임에 음성에 가까운지 잡음에 가까운지를 결정하는 확률 정보(likelihood ratio) 값을 특징 정보로 사용할 수도 있다. 이를 위해, 특징 정보 추출부(110)는 현재 신호의 에너지에서 잡음 신호의 에너지를 빼거나, 특정 주파수 대역의 에너지에서 잡음 신호와 동일한 주파수 대역의 에너지를 뺀 정보를 이용하여 프레임으로부터 추출된 특징 정보를 가공할 수 있다.
이에 부가하여, 특징 정보 추출부(110)는 음성 신호로부터 추출할 수 있는 특징 정보 뿐만 아니라 영상 신호나 모션 센서를 통해 들어오는 입력으로부터 추출되는 특징 정보를 추가적으로 이용하여 프레임이 음성 신호일 확률에 대한 정보를 결정할 수도 있다.
도 3은 도 1은 내부 상태 결정부의 동작을 나타내는 도면이다.
내부 상태 결정부(120)는 프레임에 대하여 적어도 하나의 특징 정보를 이용하여 음성과 관련된 상태를 나타내는 복수 개의 상태 정보를 포함하는 내부 상태를 결정한다. 내부 상태는 행동 변수를 결정하기 위해 내부적으로 기록되는 정보이다. 다시 말하면, 내부 상태는 입력 프레임과 다른 입력되는 정보를 바탕으로 추정된 현재 상황을 나타낼 수 있다.
예를 들어 내부 상태 결정부(120)가 지금까지의 정보를 바탕으로 계산한 [음성 신호가 존재할 확률]이나 [배경잡음의 종류] 등을 내부 상태로 기록하는 경우를 가정한다. 그러면, 지금까지 받은 정보를 바탕으로 음성 신호가 존재할 확률은 60% 정도이고, 현재 환경에서는 음악이 배경잡음으로 들어올 확률이 높다고 추정할 수 있고, 이 추정 결과를 행동 결정부(130)에 출력 정보(20)로 제공할 수 있다. 그러면, 행동 결정부(130)는 출력 정보(20)를 이용하여 "ZCR을 추가로 측정한다"는 행동을 하기 위한 행동 변수를 설정하고, 설정 결과를 특징 정보 추출부(110)에 입력 정보(40)로 제공하여 ZCR이 추출되도록 제어할 수 있다.
일예로 내부 상태 결정부(120)는 내부 상태를 3가지 종류 즉, 음성 상태(Speech State), 환경 정보(Environment) 및 이력 정보(History)으로 나누어 기록할 수 있다.
(1) 음성 상태
현재 프레임에서의 음성 신호의 상태를 나타낸다. 이 상태값의 확률이 높아지게 되면 행동 결정부(130)는 음성/비음성 결정을 내리는 행동을 할 수 있다.
음성 상태 정보는 음성 신호의 존재 여부, 음성 신호의 종류, 잡음의 종류를 포함하는 요소를 포함할 수 있다.
- 음성 신호의 존재 여부
음성 신호의 존재 여부는 현재 프레임에 음성이 존재하는지 아니면 비음성 신호로만 구성되어 있는지를 결정하는 상태를 나타낸다.
-음성 신호의 종류
음성 신호의 종류는 "유성음/무성음", "자음/모음", "파열음" 등으로 더 세부적인 특징으로 나누어질 수 있다. 신호로부터 추출한 특징 정보는 이러한 음성 신호의 종류에 따라서도 다른 분포를 보일 수 있기 때문에, 음성 신호의 종류를 내 부 상태로 설정함으로써 더 정확한 음성 검출 결과를 이끌어낼 수 있다.
-잡음의 종류
음성 검출 시스템이 적용되는 상황에 따라서 특정한 종류의 잡음이 자주 나타내는 경우가 생길 수 있다. 이러한 경우, 예상되는 잡음의 종류 예를 들어, 숨소리, 버튼 소리 등을 내부 상태값으로 설정함으로써 더 정확한 결과를 얻을 수 있다. 일예로, 음성신호는 유성음과 무성음으로, 비음성 신호는 무음, 숨소리, 버튼 소리로 구분하여 5가지 상태값을 가질 수 있다.
(2)환경 정보
환경 정보는 입력 신호의 환경적인 요인을 나타내는 상태를 말한다. 주로 시간에 따라 크게 변하지 않는 요인을 내부 상태로 설정할 수 있으며, 이 상태에 따라서 특징 정보의 종류를 결정할 수 있다.
- 잡음 환경의 종류
특정한 종류의 잡음이 자주 예상되는 환경이 있는 경우, 그런 환경의 내부 상태값으로 설정할 수 있다. 여기에서의 잡음 환경의 종류는 전반적인 환경적인 요인을 나타내는 것으로, 짧은 시간 동안의 특징적인 분포를 나타내는 음성 상태 정보에서의 잡음의 종류의 구분된다. 예를 들어, 지하철 내부, 집안 환경, 길거리 등을 상태값으로 가질 수 있다.
- 잡음 신호의 크기
SNR과 같이 잡음 신호의 크기에 해당하는 파라미터를 내부 상태로 설정하면, 서로 다른 크기의 잡음 신호에 대해 다른 방식의 행동을 할 수 있게 된다. 예를 들어, SNR이 높은 경우에는 적은 정보를 가지고도 음성/비음성 결정을 하고, SNR이 낮은 경우에는 더 많은 정보를 획득한 다음에야 음성/비음성 결정을 할 수가 있다.
(3)이력 정보
이력 정보는 음성 검출 장치(100)의 최근 반응을 기록하는 상태를 나타내는 정보이다. 음성 검출 장치(100)는 이력 정보를 내부 상태에 포함시켜서 행동 결정부(130)가 음성 검출과 관련된 행동을 제어하는 것에 더 직접적인 영향을 줄 수 있다. 이력 정보는 최근 N 프레임 동안의 VAD 결과 및 최근 N 프레임 동안의 관측된 특징 정보를 포함할 수 있다.
- 최근 N 프레임 동안의 VAD 결과
내부 상태 결정부(120)는 소정의 N개의 이전 프레임에서의 출력을 내부적으로 기록함으로 해서 행동 결정부(130)가 행동 변수에서 결정한 VAD의 출력이 급격하게 변하지 않게 할 수 있다.
- 최근 N 프레임 동안 관측된 특징 정보
내부 상태 결정부(120)는 행동 결정부(130)가 소정의 N개의 지난 프레임에서 얻은 특징 정보를 이후의 프레임에서도 직접적으로 적용할 수 있도록 행동 변수 결정 결과를 생성하도록 최근 N 프레임 동안 관측된 특징 정보를 내부 상태로 기록하여 둘 수 있다.
또한, 내부 상태 결정부(120)는 행동 변수에 따라서 다른 하나의 특징 정보를 이용하여 프레임으로부터 새로운 특징 정보를 추출하고, 추출된 새로운 특징 정보를 이전에 추출된 특징 정보에 누적하고, 누적 결과를 이용하여 프레임이 음성인 지 여부를 나타내는 내부 상태 정보를 결정할 수 있다.
내부 상태 결정부(120)는 특징 정보 추출부(110)로부터의 새로 입력된 특징 정보(10) 뿐만 아니라 지난 단계에서의 내부 상태에 대한 정보(Previous State Probabilities; 70)와 이전 행동 변수(Previous Action Variable; 40)에 의해 내부 상태를 결정할 수 있다. 이때, 내부 상태를 나타내는 각 상태값은 하나의 값으로 결정되는 것이 아니라, 각 값에 대한 확률 정보일 수 있다.
다시 말해, 내부 상태 결정부(120)는 내부 상태 중의 한 변수가 "음성/비음성"의 2가지 값을 가질 수 있다면, 그 변수의 값은 "음성 80%, 비음성 20%"와 같이 결정되어 불확실한 경우를 처리할 수 있다. n번째 단계에서의 내부 상태 변수를 Sn이라고 하면 변수의 값이 "음성 80%, 비음성 20%"으로 결정되는 경우 수학식 1과 같이 표현될 수 있다.
내부 상태 결정부(120)는 다음의 2가지 모델 즉, 각 행동 변수에 따른 내부 상태 변화 모델(122) 및 각 상태값에 따른 관측값 분포 모델(124)을 바탕으로 내부 상태의 상태값을 갱신할 수 있다.
각 행동변수에 따른 내부 상태 변화 모델(122)은 행동변수에 따라서 상태값의 변화를 나타낸다. 예를 들어서, 지난 5 프레임 동안의 VAD 결과 값을 기록하는 VAD 이력 정보의 경우, 도 4에 도시된 바와 같이 각 행동 변수에 따라 다른 상태 변화 모델을 가질 수 있다.
도 4는 행동 변수에 따른 VAD 이력 상태 변화 모델을 나타내는 도면이다.
도 4에서 S는 음성(Speech), N은 비음성(Non-speech)의 상태값을 나타낸다. 행동 변수가 음성 결정(410)을 내리거나 비음성 결정을 내린 경우(420)에는 VAD 이력 상태의 마지막에 그 결정이 포함되도록 상태변화가 생기지만, 행동 변수가 음성이나 비음성 결정을 내리지 않은 경우(430), 예를 들어 행동 변수가 잡음 모델 갱신이나 추가 특징 정보 추출 등의 결정을 포함하는 경우에는 VAD 이력 상태는 변하지 않는다.
또한, 음성/비음성을 나타내는 상태의 경우는, 도 5에 도시된 바와 같은 확률적인 상태 변화 모델을 가질 수 있다.
도 5는 행동 변수에 따른 음성 확률 정보를 나타내는 상태 변화 모델을 나타낸다.
현재 프레임에 대하여 VAD 결정을 내린 경우에는 다음 프레임에 대한 음성 확률 정보는 테이블(510)에 도시된 바와 같다. 즉, VAD 결정을 내린 경우에는 현재 단계의 프레임에 대한 VAD 결정을 완료한 경우로서, 이전 프레임의 상태가 음성이었을 경우에는 다음 프레임의 음성일 확률이 98%, 비음성일 확률이 2%가 되고, 이전 프레임의 상태가 비음성이었을 경우에는 다음 프레임의 상태가 음성일 확률이 5%, 비음성일 확률이 95%로 상태가 변화가 일어나게 된다.
이전 단계에서 행동 변수를 통해 VAD 결정을 내리지 않은 경우에는, 즉, 행동 변수가 현재 처리중인 프레임에 대하여 잡음 모델 갱신이나 부가 특징 정보 추 출을 나타내는 경우, 다음 단계에서도 현재 프레임에 대하여 처리가 이루어지므로 테이블(520)에 나타난 바와 같이 상태변화가 일어나지 않는다.
Sn은 n번째 단계에서의 상태값을 나타내고, An은 n번째 상태에서 출력한 행동 변수값을 나타낸다고 했을 때, n단계의 n-1 단계에서의 상태값 및 n-1 단계에서의 행동 변수 값을 고려하는 상태 변화 모델은 수학식 2로 나타낼 수 있다.
다시 말하면, 음성 검출 장치(100)는 내부 상태의 변화 모델을 사용하기 때문에, 현재 프레임에서의 정보가 불확실하거나 노이즈로 인해 잘못된 정보가 들어온 경우에도, 이전 프레임에서 받아들였던 정보를 바탕으로 현재 프레임의 불확실성을 보정할 수 있다.
예를 들어, 현재 프레임의 정보만을 가지고 결론을 내렸을 때, 현재 프레임이 음성일 확률이 50%인 경우, 추가적인 정보 없이는 음성이 존재하는 지의 여부를 결정할 수 없다. 그렇지만 실제로 음성 신호의 경우에는 한두 프레임 길이의 음성이나 비음성이 존재하는 것이 아니기 때문에 일반적으로 내부 상태 변화모델이 다음과 같은 상태를 유지하려는 경향을 보인다.
표 1의 상태 변화 모델을 이용하는 경우, 이전 프레임이 음성일 확률이 90%로 결정이 났다고 하면 현재 프레임이 음성일 a priori 확률은 다음과 같이 83%로 계산될 수 있다.
따라서, 이 priori 확률에 현재 프레임의 정보(50% 확률)를 추가하여 계산하면 posteriori 확률은 83%가 된다. 이렇게 내부 상태 변화 모델(122)을 이용하면, 이전 프레임까지의 정보를 이용하여 현재 프레임에서 부족한 정보를 보정할 수 있다.
마찬가지로, 불확실한 정보가 연속해서 들어오는 경우에도, 상태 변화모델은 그 정보들을 누적함으로써 더 정확한 판단을 내릴 수 있다.
예를 들어, 매 프레임의 정보를 독립적으로 이용하는 경우에 약 60%의 확률 로 음성이라고 결론을 내릴 수 있다면, 위의 상태 변화 모델을 이용하는 경우에는 첫번째 프레임에서는 추가적인 정보가 없으므로 음성일 확률을 60%로 결정하게 되지만, 그 다음 프레임에서는 이전 프레임의 정보를 이용하여 a priori 확률이 62%가 된다. 이를 나타내면 수학식 4와 같다.
이를 바탕으로 현재 프레임의 정보를 추가하여 음성이 있을 확률을 계산하게 되면 66%가 된다. 마찬가지 방식으로 계속 계산하면, 그 다음 프레임은 75%, 그 다음 프레임은 80%로 작은 정보가 점점 누적되어 더 높은 정확도로 판단을 내릴 수 있게 된다.
내부 상태 변화 모델(122)은 특징 정보의 값 즉, 관측값의 입력(20)와 관계없이 내부 상태가 변화하는 확률을 나타내고 있다. 그러므로 입력 신호에 따른 내부 상태를 갱신하기 위해 각 상태값에 따라 어떤 정보가 관측되는지에 대한 분포 모델 즉, 각 상태값에 따른 관측값 분포 모델(124)을 이용하게 된다.
n번째 단계에서의 특징 정보 추출 결과 값인 관측값을 On이라고 했을 때, 각 상태값에 따른 관측값 분포 모델(124)은 다음과 같은 식으로 표현할 수 있다.
여기에서, An-1이 들어가는 것은, 관측되는 특징 정보의 종류가 이전 행동 변수에 의해서 결정되기 때문이다.
예를 들어서, 이전 행동 변수가 에너지를 관측하기를 요청했을 때, 내부 상태에 따른 도 6에 도시된 바와 같은 관측값의 분포 모델이 이용될 수 있다.
도 6은 내부 상태에 따른 에너지 특징정보 추출 결과 값인 관측값의 분포 모델을 나타내는 도면이다.
도 6에서는 스피치 상태가 4가지의 값 즉,"음성(Voice)", "무음(Silence)", "숨소리(Breath)", "버튼 소리(Button)"를 가질 수 있다고 가정하였다. 이전 행동 변수가 요청한 관측값 각각에 대해 관측값의 분포 모델은 수작업으로 또는 학습을 통하여 얻을 수 있다.
앞의 2가지 모델 즉, 각 행동변수에 따른 상태 변화 모델과 각 상태값에 따른 관측값 분포 모델(124)을 가지고 있을 때, 내부 상태가 가질 수 있는 상태 값을 S={s1, s2, s3,...sn}이라고 하면, 각 내부 상태값이 될 확률값은 다음과 같은 식을 통해 갱신할 수 있다.
수학식 6을 이용하면, 이전 단계에서의 행동(An-1)과 이전 단계의 내부 상태값의 확률(Sn-1), 그리고 현재 단계에서 새롭게 얻은 관측값(On)을 알면 현재 단계에서 새로 갱신된 내부 상태값의 확률(Sn)을 계산할 수 있다.
도 7은 도 1의 행동 결정부의 동작을 나타내는 도면이다.
행동 결정부(130)는 결정된 내부 상태 값에 따라서 프레임의 음성 검출과 관련된 적어도 하나의 행동을 나타내는 행동 변수를 결정한다. 내부 상태와 행동 변수 간의 함수는 일일이 손으로 디자인할 수 있으나, 이러한 방법은 내부 상태를 나타내는 모델의 크기가 큰 경우에는 적합하지 않다. 일예로, 행동 결정부(130)는 학습 모듈(132)을 포함하여 POMDP(Partially Observable Markov Decision Process)와 같은 강화학습모델을 이용하여 설계된 학습 모델을 이용할 수 있다.
이때, 행동 변수는 일반적으로 내부 상태의 확률값에 대한 함수로 수학식 7과 같이 나타낼 수 있다.
POMDP를 학습하기 위해서는 다음과 같은 데이터가 필요하다.
- 내부 상태 변화 모델
- 각 내부 상태에 대한 관측값 분포 모델
- 각 행동에 대한 보상 모델
이 중에서 앞의 2 모델은 이미 설명하였고, 마지막 보상 모델(134)은 수학식 8로 나타낼 수 있다.
보상 모델 함수(134)는 각 행동이 현재 상태에 얼마나 적합한가를 나타내는 함수이다. 일예로 내부 상태가 앞에서와 같이 "음성/무음/숨소리/버튼소리" 중의 하나로 나타나고, 행동 결정부(130)는 행동 변수가 가질 수 있는 값이 "음성 결정/비음성 결정/저주파 에너지 정보 요청/주기성 정보 요청"이라고 했을 때, 표 2와 같이 설정된 보상 모델을 이용할 수 있다.
표 2에 따르면 내부 상태값이 "음성"일 때, 음성으로 결정을 하는 경우에는 10점의 보상을 얻고, 비음성으로 결정을 하는 경우에는 50점이 감점된다. 마찬가지로, 상태가 비음성인 경우 예를 들어, 숨소리 및 버튼 소리의 경우에 음성으로 결정하는 경우에는 10점이 감점되고 비음성으로 결정하는 경우에는 10점의 보상을 얻는다.
표 2의 보상 모델은 음성을 비음성으로 결정하는 것이 비음성을 음성으로 결정하는 것에 비해서 더 손실이 크므로 더 많은 감점을 하는 것을 나타낸다. 그리고 보상 모델은 음성/비음성 결정이 아닌 모든 행동 즉, 저주파 및 주기성에 대해서는 1점을 감점이 되도록 설정될 수 있으며, 이는 결정을 뒤로 미룰수록 보상의 크기가 줄어들게 하여, 행동 결정부(130)가 신속하게 적합한 행동 변수를 찾는 동작을 하도록 만들게 할 수 있다. 이러한 보상 모델(134)은 음성 검출 장치(100)를 디자인할 때 원하는 음성 검출 시스템의 특성에 맞추어 수작업으로 구성될 수 있다.
행동 결정부(130)는 위에서 열거한 3가지 모델이 모두 주어지면 POMDP 학습을 통해서 예상되는 보상값을 최대로 하는 최적의 행동 변수값을 결정할 수 있다. 행동 결정부(130)는 새롭게 갱신된 내부 상태의 확률값을 위의 과정으로 학습한 행동 결정 함수에 입력하여 출력되는 행동을 새로운 행동 변수 값으로 결정할 수 있다.
일반적으로 POMDP 학습을 통해서 구한 행동 결정 함수는 다음과 같은 보상값을 나타내는 표 3과 같이 주어질 수 있다. 표 3에서는 내부 상태가 "음성/무음/숨소리/버튼 소리"의 4가지 값을 가진다고 가정하였다.
이때, 행동 변수의 값은 각 상태값의 확률과 표의 각 행에 적혀있는 보상값을 내적한 값을 최대로 만드는 행의 행동값으로 결정될 수 있다. Tij를 i번째 행의 j번째 열에 해당하는 보상값이라고 하고, Ti를 i번째 행에 해당하는 행동값이라고 하면 다음과 같은 수학식 9로 나타낼 수 있다.
여기에서,
예를 들어, 현재 상태의 확률값이 표 4에 나타난 바와 같이 계산되었다면,
첫 번째 행과의 내적은 0.3*(-66)+0.5*141+0.1*138+0.1*157 = 80.2이고, 2번째 행과의 내적은 88, 그 다음부터는 차례로 26.5, -74.6, 87.5, 110이므로, 마지막 행과의 내적이 가장 큰 값을 가지며, 따라서 이때의 행동은 "추가 정보 요청"으로 결정될 수 있다.
앞의 방식과 같이 내부 상태로부터 행동 결정부(130)는 행동을 나타내는 행동 변수를 결정하는데, 행동 변수에 포함될 수 있는 행동의 종류는 음성/비음성 결정, 음성 모델 및 잡음 모델 업데이트, 및 추가적인 정보 요청을 포함할 수 있다.
(1) 음성/비음성 결정
행동 결정부(130)는 현재 프레임의 신호에 음성이 포함되어 있는지를 결정하고, 결정을 나타내는 행동 변수를 생성할 수 있다. 이 결정을 내리게 되면 그 결과가 VAD의 출력(60)으로 나타나게 된다.
이 경우 행동 결정부(130)가 결정하는 행동변수는 "음성/비음성"의 2가지 값을 가지도록 설정할 수도 있으나, "음성/비음성/보류"와 같이 3가지의 값으로 나눌 수 있다. 따라서, 행동 결정부(130)는 현재 프레임의 정보만을 가지고 분명한 결정을 내릴 수 없는 경우에는 일단 "보류"로 결정하고, 나중에 후처리를 통하여 다시 결정할 수도 있다.
(2)음성 및 잡음 모델 업데이트
행동 결정부(130)는 현재 프레임의 신호를 이용하여 음성 모델이나 잡음 모델을 갱신할 것인지를 결정하고, 그 결정을 나타내는 행동 변수를 생성할 수 있다. 행동 결정부(130)에서 음성이나 잡음 모델을 갱신하는 행동을 나타내는 행동 변수가 특징 정보 추출부(110)로 출력되는 경우, 특징 정보 추출부(110)는 행동 변수에 따라 음성 모델을 업데이트하는 과정이나 잡음 모델을 업데이트하는 과정을 실행할 수 있다.
특징 정보 추출부(110)에서 음성이나 잡음 모델을 업데이트하는 방법으로는 VAD의 결과를 이용하여 음성으로 결정이 된 경우 음성 모델을 갱신하고, 비음성으로 결정이 된 경우 잡음 모델을 갱신하는 방법이 이용될 수 있다. 그러나, 이러한 경우, 초기에 음성이나 비음성 결정이 잘못 내려진다면 잘못된 결정에 따라 모델이 갱신되고, 잘못된 모델 갱신에 맞춰서 다시 잘못된 판단을 하여 점점 오차가 누적이 될 위험이 있다.
따라서, 일 실시예에 따르면, 행동 결정부(130)는 프레임이 음성인지 여부가 불확실한 경우에는 음성 모델이나 잡음 모델을 갱신하지 않고, 일정 기준 이상의 확신을 가지고 음성이거나 비음성으로 판별할 수 있는 경우에만 음성 모델이나 잡음 모델을 갱신하도록 행동 변수를 설정할 수 있다. 즉, 행동 변수를 이용하여 잡음이나 음성 모델을 갱신할 시점을 결정할 수 있다.
또한, 행동 결정부(130)는 POMDP를 사용하여 행동 결정 방식을 학습하는 경우에는 표 5에 나타난 바와 같이, 음성 모델이나 잡음 모델을 갱신하는 행동이 잘못되었을 경우 보상값을 더 많이 낮춰줌으로 해서 더욱 확실한 결정인 경우에만 음성 모델 또는 잡음 모델을 갱신할 수 있게 만들 수 있다.
(3) 추가적인 정보 요청
행동 결정부(130)는 현재까지 가지고 있는 정보만을 가지고 "음성"이나 "비음성"으로 결정을 내릴 수 없는 경우에는 추가적으로 필요한 정보를 요청하는 행동 변수를 생성하여 출력할 수 있다. 이 행동 변수가 생성되면, 특징 정보 추출부(110)는 행동 변수가 지시하는 행동에 따른 다른 특징 정보를 이용하여 현재 프레임에 대하여 특징을 추출하여 생성된 관측값을 생성할 수 있다.
또한, 행동 변수에 추가적인 파라미터를 요구하는 행동을 추가할 수 있다. 이를 통하여 각 시점에서 현재까지 알고 있는 정보로 확실한 결정을 내릴 수 없는 경우에 그 프레임이나 인접한 다른 프레임의 추가적인 정보를 요구하게 할 수도 있다. 따라서, 음성 검출 장치(100)는 내부 상태를 바탕으로 어떠한 특징 정보가 가장 효율적일지도 결정할 수 있다.
도 8은 일 실시예에 따른 음성 검출 방법을 나타내는 도면이다.
특징 정보 추출부(110)는 음향 신호로부터 생성된 프레임으로부터 적어도 하나의 특징 정보를 추출한다(810). 내부 상태 결정부(120)는 프레임에 대하여 적어도 하나의 특징 정보를 이용하여 음성과 관련된 상태를 나타내는 복수 개의 상태 정보를 포함하는 내부 상태를 결정한다(820).
행동 결정부(130)는 결정된 내부 상태에 따라서 프레임의 음성 검출과 관련된 적어도 하나의 행동을 나타내는 행동 변수를 결정한다(830). 또한, 행동 결정부(130)는 행동 변수를 출력하여 행동 변수에 따라서 음성 검출 동작을 제어한다(840).
도 9는 다른 실시예에 따른 음성 검출 방법을 나타내는 도면이다.
먼저 VAD가 시작이 되면 내부 상태와 행동 변수가 일정한 값으로 초기화된다(910). 예를 들어서 행동 변수는 "에너지 정보 추출", 내부 상태는 "P(S0=비음성)=0.5, P(S0=음성)=0.5"와 같이 결정될 수 있다. 만약 첫 프레임은 언제나 음성이 아니라는 것을 이미 알고 있다면 그 선험적 확률을 초기값으로 하여 "P(S0=비음성)=1, P(S0=음성)=0"과 같이 결정할 수 있다.
특징 정보 추출부(110)는 행동 변수에서 지정한 특징 정보를 추출하여 관측값을 출력한다(920).
내부 상태 결정부(120)는 새롭게 추출한 특징정보와 이전 행동 변수의 값을 내부 상태 변화 모델과 관측값 분포 모델에 적용하여 내부 상태를 갱신한다(930).
행동 결정부(130)는 갱신된 내부 상태의 값을 바탕으로 하여 새로운 행동 변수를 결정한다(940).
그런 다음, 행동 결정부(130)는 행동 변수 값에 따라서(950) 특징 정보 추출부(110)에 음성 모델이나 잡음 모델을 갱신을 요청하여 음성 모델이나 잡음 모델이 갱신되도록 제어한다(960). 행동 결정부(130)가 결정한 행동 변수가 추가적인 특징 요청을 나타내는 경우, 행동 변수에 포함되는 추가적인 특징이 선택되고(970), 특징 정보 추출부(110)가 추가적인 특징 정보를 이용하여 특징 정보를 추출하는 동작을 수행하도록 동작 920으로 되돌아갈 수 있다. 행동 결정부(130)가 결정한 행동 변수가 음성/비음성 결정인 경우에는 그 결과를 출력한 후(980), 다음 프레임에 대해서 동작 920부터 다시 수행할 수 있다.
일 실시예에 따른 음성 검출 장치(100)는 행동 변수를 가지고 있기 때문에, 입력되는 상황에 적합하도록 시스템의 전반적인 흐름을 제어할 수 있다. 또한, 음성 검출 장치(100)는 통계적 확률 분포 모델에 기초하여 갱신되는 내부 상태 모델을 바탕으로 시스템을 제어하는 행동 변수를 결정할 수 있다. 따라서, 특징 정보의 추출 방식, 잡음 레벨의 업데이트, 내부 상태 값의 변화에 따른 결과 값의 결정 방식 등이 미리 결정된 순서에 따라서 순차적으로 이루어지는 것이 아니라, 현재까지 입력된 정보를 바탕으로 판단했을 때 가장 적합한 행동 변수를 선택할 수 있다. 따라서, 언제나 정해진 순서에 따라 실행되는 음성 검출 방식에 비하여 보다 상황에 맞는 행동을 선택할 수 있다.
본 발명의 일 양상은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있다. 상기의 프로그램을 구현하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 디스크 등을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드로 저장되고 실행될 수 있다.
이상의 설명은 본 발명의 일 실시예에 불과할 뿐, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 본질적 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시예에 한정되지 않고 특허 청구범위에 기재된 내용과 동등한 범위 내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.
도 1은 일 실시예에 따른 음성 검출 장치의 구성을 나타내는 도면이다.
도 2는 도 1의 특징 정보 추출부의 동작을 나타내는 도면이다.
도 3은 도 1은 내부 상태 결정부의 동작을 나타내는 도면이다.
도 4는 행동 변수에 따른 VAD 이력 상태 변화 모델을 나타내는 도면이다.
도 5는 행동 변수에 따른 음성 확률 정보를 나타내는 상태 변화 모델을 나타낸다.
도 6은 각각의 내부 상태에 따른 에너지 특징 정보의 분포 모델을 나타내는 도면이다.
도 7은 도 1의 행동 결정부의 동작을 나타내는 도면이다.
도 8은 일 실시예에 따른 음성 검출 방법을 나타내는 도면이다.
도 9는 다른 실시예에 따른 음성 검출 방법을 나타내는 도면이다.
Claims (20)
- 오디오 정보를 포함하는 프레임으로부터 적어도 하나의 특징 정보를 추출하는 특징 정보 추출부;상기 프레임에 대하여 상기 적어도 하나의 특징 정보를 이용하여 음성과 관련된 상태를 나타내는 복수 개의 상태 정보를 포함하는 내부 상태를 결정하는 내부 상태 결정부; 및상기 결정된 내부 상태에 따라서 상기 프레임의 음성 검출과 관련된 적어도 하나의 행동을 나타내는 행동 변수를 결정하고, 상기 행동 변수에 따라서 음성 검출 동작을 제어하는 행동 결정부를 포함하는 음성 검출 장치.
- 제1항에 있어서,상기 내부 상태는 상기 프레임이 음성인지 여부를 나타내는 확률 정보를 포함하고,상기 행동 변수는 상기 확률 정보에 따라 음성 검출 결과를 출력할 것인지 아니면 상기 프레임의 음성 검출을 위하여 다른 적어도 하나의 특징 정보를 이용할 것인지를 나타내는 정보를 포함하는 음성 검출 장치.
- 제2항에 있어서,상기 내부 상태 결정부는 상기 행동 변수에 따라서 다른 적어도 하나의 특징 정보를 이용하여 상기 프레임으로부터 새로운 특징 정보를 추출하고, 추출된 새로운 특징 정보를 이전에 추출된 특징 정보에 누적하고, 누적 결과를 이용하여 상기 프레임이 음성인지 여부를 나타내는 내부 상태 정보를 결정하는 음성 검출 장치.
- 제1항에 있어서,상기 내부 상태가 상기 프레임이 음성 또는 비음성으로 판별된 결과가 확실하다고 나타나는 경우에만, 상기 행동 결정부는 상기 특징 정보 추출부에서 특징을 추출할 때 참조되는 개개인의 음성 특징 및 잡음 특징 중 적어도 하나를 나타내는 데이터 모델을 갱신하도록 상기 행동 변수를 결정하는 음성 검출 장치.
- 제1항에 있어서,상기 복수 개의 상태 정보는 상기 프레임의 음성 신호의 상태를 나타내는 음성 상태 정보, 상기 프레임의 환경적인 요인을 나타내는 환경 정보, 및 음성 검출과 관련된 복수 개의 데이터에 대한 이력 정보를 포함하는 그룹 중 적어도 하나 또는 적어도 하나의 결합을 포함하는 음성 검출 장치.
- 제5항에 있어서,상기 음성 상태 정보는 음성 신호의 존재 여부를 나타내는 정보, 음성 신호의 종류를 나타내는 정보 및 잡음의 종류를 나타내는 정보를 포함하는 그룹으로 선택된 적어도 하나 또는 상기 적어도 하나의 결합을 포함하는 음성 검출 장치.
- 제5항에 있어서,상기 잡음 환경의 종류는 특정한 종류의 잡음이 지속적으로 나타나는 잡음환경의 종류를 나타내는 정보 및 잡음 신호의 크기를 나타내는 정보를 포함하는 그룹으로부터 선택된 적어도 하나 또는 상기 적어도 하나의 결합을 포함하는 음성 검출 장치.
- 제5항에 있어서,상기 이력 정보는 최근 N개의 프레임 동안 음성 검출 결과를 나타내는 정보 및 최근 N개의 프레임 동안 이용된 특징 정보의 종류 정보를 포함하는 그룹으로부터 선택된 적어도 하나 또는 상기 적어도 하나의 결합을 포함하는 음성 검출 장치.
- 제1항에 있어서,상기 내부 상태 결정부는 상기 특징 정보 추출 결과 값, 이전 단계의 내부 상태, 이전 단계의 행동 변수 중 적어도 하나를 이용하여 상기 내부 상태를 갱신하는 음성 검출 장치.
- 제9항에 있어서,상기 내부 상태 결정부는 상기 내부 상태를 갱신하기 위하여 각 행동 변수에 따른 내부 상태의 변화를 나타내는 내부 상태 변화 모델 및 각 내부 상태의 값에 따라 이용된 특징 정보의 관측값을 나타내는 관측값 분포 모델을 이용하는 음성 검출 장치.
- 제1항에 있어서,상기 행동 변수는 상기 프레임에 이전에 이용된 특징 정보와 다른 새로운 특징 정보를 이용할 것인지를 나타내는 정보, 상기 새로운 특징 정보의 종류를 나타내는 정보, 특징 정보 추출에 이용될 수 있는 잡음 모델 및 사람의 음성 특징을 나타내는 음성 모델을 업데이트할 것인지를 나타내는 정보 및 상기 프레임에 이용된 특징 정보 이용 결과를 이용하여 음성 구간인지 여부를 출력할 것인지를 나타내는 정보를 포함하는 그룹으로부터 선택된 적어도 하나 또는 상기 적어도 하나의 그룹의 결합을 포함하는 음성 검출 장치.
- 프레임으로부터 적어도 하나의 특징 정보를 추출하는 단계;상기 프레임에 대하여 상기 적어도 하나의 특징 정보를 이용하여 음성과 관련된 상태를 나타내는 복수 개의 상태 정보를 포함하는 내부 상태를 결정하는 단계;상기 결정된 내부 상태에 따라서 상기 프레임의 음성 검출과 관련된 적어도 하나의 행동을 나타내는 행동 변수를 결정하는 단계; 및상기 행동 변수에 따라서 음성 검출 동작을 제어하는 단계를 포함하는 음성 검출 방법.
- 제12항에 있어서,상기 내부 상태는 상기 프레임이 음성 구간인지 여부를 나타내는 확률 정보를 포함하고,상기 행동 변수는 상기 확률 정보에 따라 음성 검출 결과를 출력할 것인지 아니면 상기 프레임의 음성 검출을 위하여 다른 적어도 하나의 특징 정보를 이용할 것인지를 나타내는 정보를 포함하는 음성 검출 방법.
- 제12항에 있어서,상기 복수 개의 상태 정보는 상기 프레임의 음성 신호의 상태를 나타내는 음성 상태 정보, 상기 프레임의 환경적인 요인을 나타내는 환경 정보, 및 음성 검출과 관련된 복수 개의 데이터에 대한 이력 정보를 포함하는 그룹 중 적어도 하나 또는 적어도 하나의 결합을 포함하는 음성 검출 방법.
- 제14항에 있어서,상기 음성 상태 정보는 음성 신호의 존재 여부를 나타내는 정보, 음성 신호의 종류를 나타내는 정보 및 잡음의 종류를 나타내는 정보를 포함하는 그룹으로 선택된 적어도 하나 또는 상기 적어도 하나의 결합을 포함하는 음성 검출 방법.
- 제14항에 있어서,상기 잡음 환경의 종류는 특정한 종류의 잡음이 지속적으로 나타나는 잡음환경의 종류를 나타내는 정보 및 잡음 신호의 크기를 나타내는 정보를 포함하는 그룹으로부터 선택된 적어도 하나 또는 상기 적어도 하나의 결합을 포함하는 음성 검출 방법.
- 제14항에 있어서,상기 이력 정보는 최근 N개의 프레임 동안 음성 검출 결과를 나타내는 정보 및 최근 N개의 프레임 동안 이용된 특징 정보의 종류 정보를 포함하는 그룹으로부터 선택된 적어도 하나 또는 상기 적어도 하나의 결합을 포함하는 음성 검출 방법.
- 제12항에 있어서,상기 내부 상태를 결정하는 단계는,상기 특징 정보 추출 결과 값, 이전 단계의 내부 상태, 이전 단계의 행동 변수 중 적어도 하나를 이용하여 상기 내부 상태를 갱신하는 단계를 포함하는 음성 검출 방법.
- 제18항에 있어서,상기 내부 상태를 갱신하는 단계에서, 각 행동 변수에 따른 내부 상태의 변화를 나타내는 내부 상태 변화 모델 및 각 내부 상태의 값에 따라 이용된 특징 정보의 관측값을 나타내는 관측값 분포 모델이 이용되는 음성 검출 방법.
- 제12항에 있어서,상기 행동 변수는 상기 프레임에 이전에 이용된 특징 정보와 다른 새로운 특징 정보를 이용할 것인지를 나타내는 정보, 상기 새로운 특징 정보의 종류를 나타내는 정보, 특징 정보 추출에 이용될 수 있는 잡음 모델 및 사람의 음성 특징을 나타내는 음성 모델을 업데이트할 것인지를 나타내는 정보 및 상기 프레임에 이용된 특징 정보 이용 결과를 이용하여 음성 구간인지 여부를 출력할 것인지를 나타내는 정보를 포함하는 그룹으로부터 선택된 적어도 하나 또는 상기 적어도 하나의 그룹의 결합을 포함하는 음성 검출 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090033634A KR101616054B1 (ko) | 2009-04-17 | 2009-04-17 | 음성 검출 장치 및 방법 |
US12/761,489 US8874440B2 (en) | 2009-04-17 | 2010-04-16 | Apparatus and method for detecting speech |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090033634A KR101616054B1 (ko) | 2009-04-17 | 2009-04-17 | 음성 검출 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20100115093A true KR20100115093A (ko) | 2010-10-27 |
KR101616054B1 KR101616054B1 (ko) | 2016-04-28 |
Family
ID=42981669
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090033634A KR101616054B1 (ko) | 2009-04-17 | 2009-04-17 | 음성 검출 장치 및 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8874440B2 (ko) |
KR (1) | KR101616054B1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101704926B1 (ko) * | 2015-10-23 | 2017-02-23 | 한양대학교 산학협력단 | 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법 |
WO2022173104A1 (ko) * | 2021-02-10 | 2022-08-18 | 삼성전자 주식회사 | 음성 구간 인식의 향상을 지원하는 전자 장치 |
US12125498B2 (en) | 2021-02-10 | 2024-10-22 | Samsung Electronics Co., Ltd. | Electronic device supporting improved voice activity detection |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2911228A1 (fr) * | 2007-01-05 | 2008-07-11 | France Telecom | Codage par transformee, utilisant des fenetres de ponderation et a faible retard. |
US8650029B2 (en) * | 2011-02-25 | 2014-02-11 | Microsoft Corporation | Leveraging speech recognizer feedback for voice activity detection |
CN102655006A (zh) * | 2011-03-03 | 2012-09-05 | 富泰华工业(深圳)有限公司 | 语音传输装置及其语音传输方法 |
US20130090926A1 (en) * | 2011-09-16 | 2013-04-11 | Qualcomm Incorporated | Mobile device context information using speech detection |
US20130297301A1 (en) * | 2012-05-03 | 2013-11-07 | Motorola Mobility, Inc. | Coupling an electronic skin tattoo to a mobile communication device |
US20130294617A1 (en) * | 2012-05-03 | 2013-11-07 | Motorola Mobility Llc | Coupling an Electronic Skin Tattoo to a Mobile Communication Device |
KR102091236B1 (ko) * | 2012-09-28 | 2020-03-18 | 삼성전자 주식회사 | 전자기기 및 그 제어방법 |
US9886968B2 (en) * | 2013-03-04 | 2018-02-06 | Synaptics Incorporated | Robust speech boundary detection system and method |
CN107093991B (zh) | 2013-03-26 | 2020-10-09 | 杜比实验室特许公司 | 基于目标响度的响度归一化方法和设备 |
EP3719801B1 (en) | 2013-12-19 | 2023-02-01 | Telefonaktiebolaget LM Ericsson (publ) | Estimation of background noise in audio signals |
JP2016109725A (ja) * | 2014-12-02 | 2016-06-20 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
CN106340310B (zh) * | 2015-07-09 | 2019-06-07 | 展讯通信(上海)有限公司 | 语音检测方法及装置 |
US9754607B2 (en) * | 2015-08-26 | 2017-09-05 | Apple Inc. | Acoustic scene interpretation systems and related methods |
US10839302B2 (en) | 2015-11-24 | 2020-11-17 | The Research Foundation For The State University Of New York | Approximate value iteration with complex returns by bounding |
KR102505719B1 (ko) | 2016-08-12 | 2023-03-03 | 삼성전자주식회사 | 음성 인식이 가능한 디스플레이 장치 및 방법 |
AU2018208522B2 (en) * | 2017-01-10 | 2020-07-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, audio encoder, method for providing a decoded audio signal, method for providing an encoded audio signal, audio stream, audio stream provider and computer program using a stream identifier |
US20200034747A1 (en) * | 2018-07-25 | 2020-01-30 | Kabushiki Kaisha Toshiba | System and method for distributed learning |
CN109036471B (zh) * | 2018-08-20 | 2020-06-30 | 百度在线网络技术(北京)有限公司 | 语音端点检测方法及设备 |
CN110634474B (zh) * | 2019-09-24 | 2022-03-25 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的语音识别方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040044525A1 (en) * | 2002-08-30 | 2004-03-04 | Vinton Mark Stuart | Controlling loudness of speech in signals that contain speech and other types of audio material |
KR20040079773A (ko) * | 2003-03-10 | 2004-09-16 | 한국전자통신연구원 | 통계적 모델에 기초한 유성음/무성음 판별 장치 및 그 방법 |
KR20060082465A (ko) * | 2005-01-12 | 2006-07-18 | 삼성전자주식회사 | 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5924066A (en) * | 1997-09-26 | 1999-07-13 | U S West, Inc. | System and method for classifying a speech signal |
JP2002073072A (ja) * | 2000-08-31 | 2002-03-12 | Sony Corp | モデル適応装置およびモデル適応方法、記録媒体、並びにパターン認識装置 |
US20040064314A1 (en) | 2002-09-27 | 2004-04-01 | Aubert Nicolas De Saint | Methods and apparatus for speech end-point detection |
JP2005181459A (ja) | 2003-12-16 | 2005-07-07 | Canon Inc | 音声認識装置および方法 |
WO2006116132A2 (en) | 2005-04-21 | 2006-11-02 | Srs Labs, Inc. | Systems and methods for reducing audio noise |
US7693713B2 (en) * | 2005-06-17 | 2010-04-06 | Microsoft Corporation | Speech models generated using competitive training, asymmetric training, and data boosting |
KR100770895B1 (ko) * | 2006-03-18 | 2007-10-26 | 삼성전자주식회사 | 음성 신호 분리 시스템 및 그 방법 |
US7725316B2 (en) * | 2006-07-05 | 2010-05-25 | General Motors Llc | Applying speech recognition adaptation in an automated speech recognition system of a telematics-equipped vehicle |
JP4427530B2 (ja) | 2006-09-21 | 2010-03-10 | 株式会社東芝 | 音声認識装置、プログラムおよび音声認識方法 |
JP4787979B2 (ja) | 2006-12-13 | 2011-10-05 | 富士通テン株式会社 | 雑音検出装置および雑音検出方法 |
JP2008197463A (ja) | 2007-02-14 | 2008-08-28 | Mitsubishi Electric Corp | 音声認識装置及び音声認識方法 |
US8131543B1 (en) * | 2008-04-14 | 2012-03-06 | Google Inc. | Speech detection |
-
2009
- 2009-04-17 KR KR1020090033634A patent/KR101616054B1/ko active IP Right Grant
-
2010
- 2010-04-16 US US12/761,489 patent/US8874440B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040044525A1 (en) * | 2002-08-30 | 2004-03-04 | Vinton Mark Stuart | Controlling loudness of speech in signals that contain speech and other types of audio material |
KR20040079773A (ko) * | 2003-03-10 | 2004-09-16 | 한국전자통신연구원 | 통계적 모델에 기초한 유성음/무성음 판별 장치 및 그 방법 |
KR20060082465A (ko) * | 2005-01-12 | 2006-07-18 | 삼성전자주식회사 | 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101704926B1 (ko) * | 2015-10-23 | 2017-02-23 | 한양대학교 산학협력단 | 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법 |
WO2022173104A1 (ko) * | 2021-02-10 | 2022-08-18 | 삼성전자 주식회사 | 음성 구간 인식의 향상을 지원하는 전자 장치 |
US12125498B2 (en) | 2021-02-10 | 2024-10-22 | Samsung Electronics Co., Ltd. | Electronic device supporting improved voice activity detection |
Also Published As
Publication number | Publication date |
---|---|
US8874440B2 (en) | 2014-10-28 |
KR101616054B1 (ko) | 2016-04-28 |
US20100268533A1 (en) | 2010-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101616054B1 (ko) | 음성 검출 장치 및 방법 | |
JP6024180B2 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
JP2023041843A (ja) | 音声区間検出装置、音声区間検出方法及びプログラム | |
JP5229219B2 (ja) | 話者選択装置、話者適応モデル作成装置、話者選択方法、話者選択用プログラムおよび話者適応モデル作成プログラム | |
US8275616B2 (en) | System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands | |
EP1557822B1 (en) | Automatic speech recognition adaptation using user corrections | |
JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
JP5229234B2 (ja) | 非音声区間検出方法及び非音声区間検出装置 | |
KR100826875B1 (ko) | 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 | |
JP4911034B2 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
CN106875936B (zh) | 语音识别方法及装置 | |
JP2006227628A (ja) | フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置 | |
JP3847879B2 (ja) | 標準モデル決定方法 | |
JP6230606B2 (ja) | 精度スコアを使用した音声認識性能を予測するための方法およびシステム | |
JPH09230888A (ja) | パターンマッチング方法及び装置 | |
KR102113879B1 (ko) | 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치 | |
JP5473116B2 (ja) | 音声認識装置およびその特徴量正規化方法 | |
JP3633254B2 (ja) | 音声認識システムおよびそのプログラムを記録した記録媒体 | |
US20050246172A1 (en) | Acoustic model training method and system | |
JP4610451B2 (ja) | 音声認識装置及びプログラム | |
CN114582373A (zh) | 用于在人机对话中识别用户情绪的方法及装置 | |
JP2008026721A (ja) | 音声認識装置、音声認識方法、および音声認識用プログラム | |
JP7159655B2 (ja) | 感情推定システムおよびプログラム | |
KR20090068856A (ko) | 음소레벨 로그우도 비율 분포와 음소 지속시간 분포에 의한단어음색 모델 기반 발화검증 시스템 및 방법 | |
Prasangini et al. | Sinhala speech to sinhala unicode text conversion for disaster relief facilitation in sri lanka |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20191014 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20200120 Year of fee payment: 5 |