KR20040047428A - 음성구간 검출 장치 및 방법 - Google Patents

음성구간 검출 장치 및 방법 Download PDF

Info

Publication number
KR20040047428A
KR20040047428A KR1020020075650A KR20020075650A KR20040047428A KR 20040047428 A KR20040047428 A KR 20040047428A KR 1020020075650 A KR1020020075650 A KR 1020020075650A KR 20020075650 A KR20020075650 A KR 20020075650A KR 20040047428 A KR20040047428 A KR 20040047428A
Authority
KR
South Korea
Prior art keywords
frame
noise
random parameter
voice
threshold value
Prior art date
Application number
KR1020020075650A
Other languages
English (en)
Other versions
KR100463657B1 (ko
Inventor
오광철
이영범
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR10-2002-0075650A priority Critical patent/KR100463657B1/ko
Priority to EP03257432A priority patent/EP1424684B1/en
Priority to DE60323319T priority patent/DE60323319D1/de
Priority to US10/721,271 priority patent/US7630891B2/en
Priority to JP2003401418A priority patent/JP4102745B2/ja
Publication of KR20040047428A publication Critical patent/KR20040047428A/ko
Application granted granted Critical
Publication of KR100463657B1 publication Critical patent/KR100463657B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 유색잡음이 있는 음성신호에서도 음성구간을 정확하게 검출할 수 있는 음성구간 검출 장치 및 방법에 관한 것으로, 음성신호가 입력되면 입력된 음성신호를 프레임 단위로 나누어 프레임에 백색잡음을 합성하여 주변잡음을 백색화시킨 다음, 백색화된 프레임에서 프레임의 랜덤성을 나타내는 랜덤 파라미터를 추출하여 추출된 랜덤 파라미터값에 따라 프레임을 음성프레임과 잡음프레임으로 구분한 후, 이를 기초로 음성의 시작위치와 끝위치를 계산하여 음성구간을 검출함으로써, 다량의 유색잡음이 섞여 있는 음성신호에서도 정확하게 음성구간을 검출할 수 있도록 구성된 것을 특징으로 한다.

Description

음성구간 검출 장치 및 방법{APPARATUS AND METHOD OF VOICE REGION DETECTION}
본 발명은 입력된 음성신호에서 음성구간을 검출하는 음성구간 검출 장치 및 방법에 관한 것으로, 특히 유색잡음이 있는 음성신호에서도 음성구간을 정확하게 검출할 수 있는 음성구간 검출 장치 및 방법에 관한 것이다.
음성구간 검출은 외부로부터 입력된 음성신호에서 묵음 또는 잡음구간을 제외하고 순수한 음성구간만을 검출하기 위한 것으로, 그 대표적인 음성구간 검출 방법으로 음성신호의 에너지와 영교차율을 이용하여 음성구간을 검출하는 방법을 들 수 있다.
그러나, 상기 음성구간 검출 방법은 주변잡음의 에너지가 큰 경우 무성음 구간과 같이 작은 에너지의 음성신호는 주변잡음에 묻혀버려 음성구간과 잡음구간을 구분하는 것이 매우 어렵다는 문제점이 있다.
또한, 상기 음성구간 검출 방법은 마이크를 가까이 대고 음성을 입력하거나 임의로 마이크의 음량 레벨을 조절하면 음성신호의 입력 레벨이 달라지므로, 정확하게 음성구간을 검출하기 위해서는 입력장치 및 사용환경에 따라서 일일이 임계값을 수동으로 설정해야 하기 때문에 매우 번거롭다는 문제점이 있다.
이러한 문제점을 해결하기 위한 것으로, 국내 공개특허 제2002-0030693호(발명의 명칭: 음성인식 시스템의 음성구간 결정 방법)에는 도 1(a)에 도시된 바와 같이 음성구간 검출시 음성의 입력 레벨에 따라 임계값을 변화시켜줌으로써 주변잡음 및 입력장치에 관계없이 음성구간을 검출할 수 있는 방법이 개시되어 있다.
그러나, 상기 음성구간 결정 방법은 도 1(b)에 도시된 바와 같이 주변잡음이 백색잡음(white noise)인 경우에는 음성구간과 잡음구간을 명확하게 구별해낼 수 있지만, 도 1(c)에 도시된 바와 같이 주변잡음의 에너지가 크고 그 형태가 시간에 따라 변하는 유색잡음(color noise)인 경우 잡음구간과 음성구간이 잘 구별되지 않아 주변잡음을 음성구간으로 잘못 검출할 우려가 있다.
또한, 상기 음성구간 결정 방법은 반복적인 계산과정과 비교과정을 필요로 하기 때문에 이로 인하여 계산량이 많아져 실시간 사용이 어려울 뿐만 아니라, 마찰음의 스펙트럼 형태가 잡음과 유사하기 때문에 마찰음 구간을 정확하게 검출해낼 수 없어, 음성 인식의 경우와 같이 더욱 정확한 음성구간 검출이 요구되는 경우에는 부적합하다는 한계점이 있다.
본 발명은 상기한 문제점들을 해결하기 위해 안출된 것으로, 본 발명의 목적은 다량의 유색잡음이 섞여 있는 음성신호에서도 음성구간을 정확하게 검출할 수 있도록 하는 것이다.
본 발명의 다른 목적은 적은 계산량으로도 음성구간을 정확하게 검출하는 동시에 음성신호에서 주변잡음과 구별이 어려워 검출이 상대적으로 어려웠던 마찰음 구간도 검출할 수 있도록 하는 것이다.
도 1은 종래 음성구간 검출 장치의 동작을 설명하기 위한 도면이다.
도 2는 본 발명에 따른 음성구간 검출 장치의 개략적인 블럭도이다.
도 3 내지 도 4는 프레임에서 주변잡음을 백색화하는 것을 설명하기 위한 도면이다.
도 5는 프레임에서 런의 갯수가 R일 확률 P(R)을 그래프로 나타낸 도면이다.
도 6은 프레임에서 랜덤 파라미터를 추출하는 것을 설명하기 위한 도면이다.
도 7은 본 발명에 따른 음성구간 검출 방법의 전체적인 흐름도이다.
도 8은 도 7에 있어서 프레임 상태 판단 단계의 상세 흐름도이다.
도 9는 프레임의 상태를 판단하는 방법을 설명하기 위한 도면이다.
도 10은 검출된 음성구간에서 유색잡음을 제거하는 방법을 설명하기 위한 도면이다.
도 11은 본 발명의 랜덤 파라미터에 따라 음성구간 검출 성능이 향상된 일예를 나타낸 도면이다.
* 도면의 주요부분에 대한 부호의 설명 *
10...전처리부 20...백색화부
21...백색잡음 발생부 22...신호 합성부
30...랜덤 파라미터 추출부 40...프레임 상태 판단부
50...음성구간 검출부 60...유색잡음 제거부
100...음성구간 검출 장치
상기 목적을 달성하기 위하여 본 발명에 따른 음성구간 검출 장치는, 입력된 음성신호를 프레임 단위로 나누는 전처리부, 전처리부로부터 입력된 프레임에 백색잡음을 합성하는 백색화부, 백색화부로부터 입력된 프레임에서 프레임의 랜덤성을 나타내는 랜덤 파라미터를 추출하는 랜덤 파라미터 추출부, 랜덤 파라미터 추출부를 통해 추출된 랜덤 파라미터값에 따라 프레임을 음성프레임과 잡음프레임으로 구분하는 프레임 상태 판단부, 및 프레임 상태 판단부로부터 입력된 음성프레임과 잡음프레임을 기초로 음성의 시작위치와 끝위치를 계산하여 음성구간을 검출하는 음성구간 검출부를 포함하는 것을 특징으로 한다.
본 발명의 다른 바람직한 실시예에 있어서, 상기 음성구간 검출부를 통해 검출된 음성구간에서 유색잡음을 제거하는 유색잡음 제거부를 더 포함하는 것을 특징으로 한다.
이하, 본 발명에 따른 음성구간 검출 장치의 구성과 동작에 대하여 첨부된 도면을 참조하여 상세히 설명한다.
도 2는 본 발명에 따른 음성구간 검출 장치(100)의 개략적인 블럭도로서, 도 2에 도시된 바와 같이 본 발명에 따른 음성구간 검출 장치(100)는 전처리부(10), 백색화부(20), 랜덤 파라미터 추출부(30), 프레임 상태 판단부(40), 음성구간 검출부(50), 및 유색잡음 제거부(60)를 포함한다.
전처리부(10)는 입력된 음성신호를 소정 주파수로 샘플링한 후 샘플링된 음성신호를 음성 처리의 기본 단위인 프레임으로 나누는데, 본 발명에서는 8kHz로 샘플링된 음성에 대하여 160샘플(20ms) 단위로 하나의 프레임을 구성하였으며, 샘플링 비율 및 프레임당 샘플수는 적용분야에 따라 변경이 가능하다.
이렇게 해서 프레임 단위로 나뉘어진 음성신호는 백색화부(20)로 입력되는데, 백색화부(20)는 백색잡음 발생부(21)와 신호 합성부(22)를 통해 입력된 프레임에 백색잡음을 합성하여 주변잡음을 백색화(白色化, Whitening)시킴으로써 프레임내에서 주변잡음의 랜덤성을 증가시킨다.
백색잡음 발생부(21)는 주변잡음, 즉 비음성구간의 랜덤성을 강화하기 위하여 백색잡음을 발생시키는데, 백색잡음은 300Hz 내지 3500Hz와 같은 음성영역 내에서 그 기울기가 평탄한 주파수 스펙트럼을 가지는 균일 또는 가우시안 분포 신호로부터 생성되는 잡음이다. 여기에서, 백색잡음 발생부(21)에서 발생되는 백색잡음의 양은 주변잡음의 크기와 양에 따라 달라질 수 있는데, 본 발명에서는 음성신호의 초기 프레임들을 분석하여 백색잡음의 양을 설정하며, 이러한 설정과정은 음성구간 검출 장치(100)의 초기 구동시에 이루어질 수 있다.
신호 합성부(22)는 백색잡음 발생부(21)에서 발생된 백색잡음과 입력된 프레임 신호를 합성하기 위한 것으로, 일반적인 음성처리 분야에서 일반적으로 사용되는 신호 합성부와 그 구성 및 동작이 동일하므로 이에 대한 자세한 설명은 생략한다.
백색화부(20)를 통과한 프레임 신호의 일예가 도 3과 도 4에 도시되어 있는데, 도 3(a)는 입력된 음성신호, 도 3(b)는 도 3(a)의 음성신호에서 유성음 구간에 해당되는 프레임, 도 3(c)는 도 3(b)의 프레임에 백색잡음을 합성한 결과를 나타낸 도면이며, 도 4(a)는 입력된 음성신호, 도 4(b)는 도 4(a)의 음성신호에서 유색잡음구간에 해당되는 프레임, 도 4(c)는 도 4(b)의 프레임에 백색잡음을 합성한 결과를 나타낸 도면이다.
도 3에 도시된 바와 같이 유성음 구간에 해당되는 프레임 신호에 백색잡음을 합성하면 유성음 신호가 크기 때문에 영향을 거의 받지 않는 반면, 도 4에 도시된 바와 같이 잡음구간에 해당되는 프레임 신호에 백색잡음을 합성하면 잡음이 백색화되어 잡음 구간의 랜덤성이 증가되는 것을 알 수 있다.
한편, 비교적 유색잡음이 없는 음성신호에서는 종래의 음성구간 검출 방법을 이용하여 만족할 만한 음성구간 검출 결과를 얻을 수 있지만, 주파수 스펙트럼의 분포가 일정하지 않은 유색잡음이 섞인 음성신호에서는 에너지나 영교차율 등의 파라미터로는 정확하게 잡음구간과 음성구간을 구분하기가 어렵다.
따라서, 본 발명에서는 유색잡음이 섞인 음성신호에서도 음성구간을 정확하게 검출할 수 있도록 음성구간 판별을 위한 파라미터로 음성신호가 얼마나 랜덤한지를 나타내는 랜덤 파라미터를 이용하는데, 이하 랜덤 파라미터에 대하여 자세히 설명한다.
본 발명에 있어서, 랜덤 파라미터란, 프레임의 랜덤성을 통계적 방식으로 테스트한 결과값을 파라미터로 구성한 것을 의미하는데, 더 자세하게 설명하면, 비음성구간에서는 음성신호가 랜덤한 특성을 보이고 음성구간에서는 음성신호가 랜덤하지 않은 것을 이용하여, 확률 및 통계에서 사용되는 런 검증(run test)을 기반으로 프레임의 랜덤성을 수치로 나타낸 것이다.
상기에서 런(run)은 연속된 시퀀스(sequence)에서 동일한 요소(elements)가 연속적으로 이어진 부시퀀스(sub-sequence), 즉, 같은 특성을 가지는 신호의 길이를 의미하는데, 예를 들면 시퀀스 「T H H H T H H T T T」에서 런의 수는 5개, 시퀀스 「S S S S S S S S S S R R R R R R R R R R」에서 런의 수는 2개, 시퀀스 「S R S R S R S R S R S R S R S R S R S R」에서 런의 수는 20개이며, 이러한 런의 갯수를 검증 통계량(test statistic)으로 하여 시퀀스의 랜덤성을 판단하는 것을 런 검증(run test)이라 한다.
한편, 시퀀스내에서 런의 수가 너무 많아도 또는 너무 적어도 시퀀스는 랜덤하지 않은 것으로 판단되는데, 그 이유는 시퀀스 「S S S S S S S S S S R R R R R R R R R R」에서와 같이 시퀀스내에서 런의 갯수가 너무 작으면 "S" 또는 "R"이 연속적으로 위치하고 있을 확률이 높기 때문에 랜덤하지 않은 시퀀스로 판단되며, 시퀀스 「S R S R S R S R S R S R S R S R S R S R」에서와 같이 시퀀스내에서 런의 갯수가 너무 많아도 "S" 또는 "R"이 소정 주기에 따라 반복적으로 바뀔 확률이높기 때문에 랜덤하지 않은 시퀀스로 판단된다.
따라서, 이러한 런 검증 개념을 프레임에 적용하여 프레임에서 런의 갯수를 검출하고 검출된 런의 갯수를 검증 통계량으로 하여 파라미터를 구성하면, 이 파라미터의 값에 따라 랜덤한 특성을 갖는 잡음구간과 주기적인 특성을 갖는 음성구간을 구별할 수 있는데, 본 발명에서 프레임의 랜덤성을 나타내는 랜덤 파라미터는다음의 수학식 1과 같이 정의된다.
상기 수학식 1에 있어서, NR은 랜덤 파라미터(Number of Run), n은 프레임 길이의 1/2, R은 프레임내에서의 런의 갯수이다.
이하, 통계적 가설 검증 방식을 이용하여 상기 랜덤 파라미터가 프레임의 랜덤성을 나타내는 파라미터인지를 검증한다.
통계적 가설 검증(statistical hypothesis test)이란, 귀무가설(null hypothesis)/대립가설(alternative hypothesis)이 옳다는 전제하에서 검증 통계량(test statistic)의 값을 구한 후에 이 값이 나타날 가능성의 크기에 의하여 귀무가설/대립가설의 합리성 여부를 판단하는 가설 검증 방식으로, 이러한 통계적 가설 검증 방식에 따라 다음과 같이 "랜덤 파라미터는 프레임의 랜덤성을 나타내는 파라미터이다"라는 귀무가설을 검증한다.
우선, 프레임이 양자화와 부호화를 통해 "0"과 "1"만으로 이루어진 비트 스트림(bit stream)으로 구성되어 있고, 프레임에는 "0"과 "1"이 각각 n1개, n2개 존재하며 "0"과 "1"에 대하여 각각 y1개, y2개의 런이 있다고 가정한다. 그러면 y1개의 S 런과 y2 개의 "1"런을 배열하는 가지수는이 되고, n1개의 "0"중에서y1개의 런을 발생시키는 가지수는이 된다. 마찬가지로 n2개의 "1" 중에서 y2개의 런을 발생시키는 가지수는이 된다. 따라서 하나의 프레임에서 y1개의 "0"런과 y2개의 "1"런이 발생할 확률은 다음의 식(1)과 같다.
..................식(1)
한편, 프레임이 랜덤하다고 가정하면 프레임내에서 "0"과 "1"의 갯수는 거의 같다고 볼 수 있으며 "0"과 "1"에 대한 런의 갯수도 거의 같다고 볼 수 있다.
즉, 계산상의 편의를 위해,,라 하면, 상기 식(1)은 다음의 식(2)와 같이 표현될 수 있다.
..................식(2)
한편, n개에서 임의로 r개를 뽑을 조합확률식에 따라 상기 식(2)를 정리하면, 상기 식(2)는 다음과 같은 과정을 통해 다음의 식(3)과 같이 표현될 수 있다.
..................식(3)
따라서, 프레임내에 "0"에 대한 런의 갯수(y1)와 "1"에 대한 런의 갯수(y2)를 합쳐 총 R(R=y1+y2)개의 런이 있을 확률 P(R)은 다음 식(4)와 같이 표현될 수 있다.
...............식(4)
상기 식(4)에서 알 수 있는 바와 같이, 프레임내에 총 R개의 런이 있을 확률 P(R)은 "0"과 1"에 대한 런의 갯수(y)를 변수로 하는 함수이므로, 따라서 런의 갯수(y)를 검증 통계량으로 설정할 수 있다.
도 5에 도시된 바와 같이, 프레임에서 런의 갯수가 R일 확률 P(R)을 그래프로 나타내면, 상기 확률 P(R)은 y=1 또는 y=n 일때 최소값, y=n/2일때 최대값을 가지며, 평균(E(R))과 분산(V(R))이 각각,인 정규분포를 따르는 것을 알 수 있다.
한편, 정규분포를 따르는 확률 P(R)로 부터 에러율을 계산할 수 있으며, 이것은 도 5와 같은 정규분포에서의 확률은 곡선 아래 부분의 면적을 구하는 것과 같다. 즉, R의 평균(E(R))과 분산(V(R))으로부터 다음과 같은 식을 생각할 수 있다.
....... 식(5)
즉, 오차율은로 나타나는데, 식(5)에서와 같이에 따라 조절할 수 있다. 즉, n이 40일 때,가 1이면는 0.6826이 되고,가 2이면는 0.9544가 되고,가 3이면는 0.9973이 된다. 즉 표준편차의 2배가 넘어가는 부분에 대해서 랜덤하지 않다고 결정하게 되면 4.56%의 에러를 포함하게 된다.
따라서, "랜덤 파라미터는 프레임의 랜덤성을 나타내는 파라미터이다" 라는 귀무가설을 기각할 수 없으므로, 랜덤 파라미터가 프레임의 랜덤성을 나타내는 파라미터인 것이 입증되었다.
다시 도 2를 참조하면, 랜덤 파라미터 추출부(30)는 입력된 프레임에서 런의 갯수를 계산하여 계산에 의하여 얻어진 런의 갯수를 기초로 랜덤 파라미터를 추출하는데, 이하 도 6을 참조하여 프레임에서 랜덤 파라미터를 추출하는 방법에 대하여 설명한다.
도 6은 프레임에서 랜덤 파라미터를 추출하는 방법을 설명하기 위한 도면으로, 도 6에 도시된 바와 같이 우선 입력된 프레임내의 샘플 데이터를 상위 비트쪽으로 1비트씩 쉬프트 시키고 최하위 비트에는 0을 삽입한 후, 상기 1비트씩 쉬프트시켜 얻어진 프레임의 샘플 데이터와 원래 프레임의 샘플 데이터를 배타적 논리합 연산(exclusive OR operation)시킨다. 그 다음, 배타적 논리합 연산에 따른 결과값에서 "1"의 갯수, 즉, 프레임내에서의 런의 갯수를 계산한 후 이를 프레임 길이의 1/2로 나누어 이를 랜덤 파라미터로 추출한다.
상기와 같은 과정을 거쳐 랜덤 파라미터 추출부(30)를 통해 랜덤 파라미터가 추출되면, 프레임 상태 판단부(40)는 추출된 랜덤 파라미터값에 따라 프레임의 상태를 판단하여 프레임을 음성성분을 가진 음성프레임과 잡음성분을 가진 잡음프레임으로 구분하는데, 추출된 랜덤 파라미터값에 따라 프레임의 상태를 판단하는 방법에 대하여는 도 8에 관한 설명에서 자세히 서술하기로 한다.
음성구간 검출부(50)는 프레임 상태 판단부(40)로부터 입력된 음성프레임과 잡음프레임을 기초로 음성의 시작위치와 끝위치를 계산하여 음성구간을 검출한다.
한편, 입력된 음성신호에 다량의 유색잡음이 섞여 있는 경우, 음성구간 검출부(50)를 통해 검출된 음성구간에는 일부 유색잡음이 포함될 수도 있는데, 이를 위하여, 본 발명에서는 음성구간 검출부(50)에서 검출된 음성구간에 유색잡음이 섞여 있다고 판단되면, 유색잡음 제거부(60)를 통해 유색잡음의 특성을 찾아내서 이를 제거한 후 유색잡음이 제거된 음성구간을 다시 랜덤 파라미터 추출부(30)로 출력한다.
여기에서, 잡음 제거 방법으로는 간단하게 주변잡음으로 추정되는 구간에서 LPC계수를 구하고 음성구간에 대해 전체적으로 LPC 역필터링하는 방법을 사용할 수 있다.
유색잡음이 제거된 음성구간의 프레임들이 랜덤 파라미터 추출부(30)로 입력되면, 다시 상기와 같은 랜덤 파라미터 추출, 프레임 상태 판단, 음성구간 검출 과정을 거치게 되며, 이로 인하여 음성구간에 유색잡음이 포함될 가능성을 최소화시킬 수 있다.
따라서, 유색잡음 제거부(60)를 통해 음성구간에 섞여 있는 유색잡음을 제거함으로써, 다량의 유색잡음이 섞여 있는 음성신호가 입력되어도 정확하게 음성구간만을 검출할 수 있다.
한편, 본 발명에 따른 음성구간 검출 방법은, 음성신호가 입력되면 입력된 음성신호를 프레임으로 나누는 단계, 프레임에 백색잡음을 합성하여 주변잡음을 백색화시키는 단계, 백색화된 프레임에서 프레임의 랜덤성을 나타내는 랜덤 파라미터를 추출하는 단계, 추출된 랜덤 파라미터값에 따라 프레임을 음성프레임과 잡음프레임으로 구분하는 단계, 및 복수개의 음성프레임과 잡음프레임을 기초로 음성의 시작위치와 끝위치를 계산하여 음성구간을 검출하는 단계를 포함하는 것을 특징으로 한다.
이하, 본 발명에 따른 음성 검출 방법에 대하여 첨부된 도면들을 참조하여 상세히 설명한다.
도 7은 본 발명에 따른 음성 검출 방법의 흐름도이다.
우선, 음성신호가 입력되면 전처리부(10)를 통해 입력된 음성신호를 소정 주파수로 샘플링한 후 샘플링된 음성신호를 음성 처리의 기본 단위인 프레임으로 나눈다(S10).
여기에서, 프레임 사이의 간격은 가급적 작게 하여 음소성분을 정확히 파악할 수 있도록 하고, 프레임은 서로 중복시켜 프레임 사이에서 데이터 손실을 방지할 수 있도록 하는 것이 바람직하다.
그 다음, 백색화부(20)는 입력된 프레임에 백색잡음을 합성하여 주변잡음을 백색화시키는데(S20), 프레임에 백색잡음을 합성하면 프레임에 섞여 있는 잡음성분의 랜덤성이 증가되어 음성구간 검출시 랜덤한 특성을 갖는 잡음구간과 주기적인 특성을 갖는 음성구간이 확실하게 구별되기 때문이다.
그 다음, 랜덤 파라미터 추출부(30)는 프레임에서 런의 갯수를 계산하여 계산에 의하여 얻어진 런의 갯수를 기초로 랜덤 파라미터를 추출하는데(S30), 랜덤 파라미터를 추출하는 방법에 대하여는 도 6과 관련된 설명에서 상세히 설명하였으므로 이에 대한 자세한 설명은 생략한다.
그 다음, 프레임 상태 판단부(40)는 랜덤 파라미터 추출부(30)에서 추출된 랜덤 파라미터값에 따라 프레임의 상태를 판단하여 프레임을 음성프레임과 잡음프레임으로 구분하는데(S40), 이하 도 8 및 도 9를 참조하여 프레임 상태 판단 단계(S40)에 대하여 더 자세히 설명한다.
도 8은 도 7에 있어서 프레임 상태 판단 단계(S40)의 상세 흐름도이며, 도 9는 프레임 상태 판단을 위한 임계값 설정을 설명하기 위한 도면이다.
여러 프레임들에서 랜덤 파라미터를 추출해본 결과, 랜덤 파라미터는 0에서 2사이의 값을 가지는데, 특히 랜덤한 특성을 가지는 잡음 구간에서는 1에 가까운 값을, 유성음을 포함한 일반적인 음성구간에서는 0.8 이하의 값을, 마찰음 구간에서는 1.2 이상의 값을 갖는 특성이 있다.
따라서, 본 발명에서는 이러한 랜덤 파라미터의 특성을 이용하여 도 9에 도시된 바와 같이 추출된 랜덤 파라미터값에 따라 프레임의 상태를 판단하여 프레임을 음성성분을 가진 음성프레임과 잡음성분을 가진 잡음프레임으로 구분하는데, 특히, 유성음인지 마찰음인지를 판단할 수 있는 기준값을 각각 제1 임계값, 제2 임계값으로 미리 설정해 놓고, 프레임의 랜덤 파라미터값을 상기 제1,2 임계값과 비교함으로써, 음성프레임에서도 유성음 프레임과 마찰음 프레임을 각각 구분할 수 있도록 하였다. 상기에서, 제1 임계값은 0.8, 제2 임계값은 1.2인 것이 바람직하다.
즉, 프레임 상태 판단부(40)는 랜덤 파라미터값이 제1 임계값 이하이면 해당 프레임을 유성음 프레임으로 판단하고(S41~S42), 랜덤 파라미터값이 제2 임계값 이상이면 해당 프레임을 마찰음 프레임으로 판단하며(S43~S44), 랜덤 파라미터값이 제1 임계값 이상 제2 임계값 이하이면 해당 프레임을 잡음프레임으로 판단한다(S45).
그 다음, 입력된 음성신호의 모든 프레임에 대해 프레임 상태 판단이 완료되었는지를 체크하여(S50), 모든 프레임에 대해 프레임 상태 판단이 완료되었으면 프레임 상태 판단을 통해 검출된 복수개의 유성음 프레임, 마찰음 프레임, 잡음 프레임을 기초로 음성의 시작위치와 끝위치를 계산하여 음성구간을 검출하며(S60), 그렇지 않은 경우에는 다음 프레임에 대해 상기와 같은 백색화, 랜덤 파라미터 추출, 프레임 상태 판단 과정을 수행한다.
한편, 입력된 음성신호에 다량의 유색잡음이 섞여 있는 경우, 상기 음성구간 검출 단계(S60)를 통해 검출된 음성구간에 일부 유색잡음이 포함될 가능성이 있다.
따라서, 본 발명에서는 음성구간 검출의 신뢰성을 향상시키기 위하여 검출된음성구간에 유색잡음이 섞여 있다고 판단되면 음성구간에 포함된 유색잡음의 특성을 찾아내서 제거하는데(S70~S80), 이하 도 10을 참조하여 유색잡음 제거 단계(S70~S80)에 대하여 더 자세히 설명한다.
도 10은 검출된 음성구간에서 유색잡음을 제거하는 방법을 설명하기 위한 도면으로, 도 10(a)는 유색잡음이 섞여 있는 음성신호, 도 10(b)는 도 10(a)의 음성신호에 대한 랜덤 파라미터, 도 10(c)는 도 10(a)의 음성신호에서 유색잡음을 제거한 후 랜덤 파라미터를 추출한 결과를 나타낸 도면이다.
도 10(b)에 도시된 바와 같이 유색잡음이 섞여 있는 음성신호에서 랜덤 파라미터를 추출해 보면, 유색잡음으로 인하여 랜덤 파라미터값이 도 10(c)와 비교하여 전체적으로 0.1 내지 0.2 정도 낮은 것을 알 수 있으며, 따라서 이러한 랜덤 파라미터의 특성을 이용하면 음성구간 검출부(50)를 통해 검출된 음성구간에 유색잡음이 섞여 있는지의 여부를 판단할 수 있다.
도 9에 도시된 바와 같이, 유색잡음으로 인한 랜덤 파라미터의 감소량을 Δd 라 하면, 검출된 음성구간의 랜덤 파라미터 평균값이 제1 임계값을 기준으로 Δd 이하이거나, 검출된 음성구간의 랜덤 파라미터 평균값이 제2 임계값을 기준으로 Δd 이하인 경우 음성구간에 유색잡음이 섞여 있는 것으로 판단할 수 있다.
즉, 유색잡음 제거부(60)는 음성구간 검출부(50)를 통해 검출된 음성구간에서 랜덤 파라미터들의 평균값을 계산하여 계산된 랜덤 파라미터 평균값이 제1 임계값-Δd 이하이거나, 계산된 랜덤 파라미터 평균값이 제2 임계값-Δd 이하이면, 검출된 음성구간에 유색잡음이 섞여 있다고 판단한다.
상기에서, 제1 임계값은 0.8, 제2 임계값은 1.2인 것이 바람직하며, 유색잡음으로 인한 랜덤 파라미터의 감소량 Δd는 0.1 내지 0.2인 것이 바람직하다.
그 다음, 이러한 과정을 거쳐 음성구간에 유색잡음이 섞여 있다고 판단되면 유색잡음 제거부(60)는 음성구간에 포함된 유색잡음의 특성을 찾아내서 제거하는데(S80), 잡음 제거 방법으로는 간단하게 주변잡음으로 추정되는 구간에서 LPC계수를 구하고 음성구간에 대해 전체적으로 LPC 역필터링하는 방법을 사용할 수 있으며, 이 외에 다른 잡음 제거 방법을 사용하는 것도 가능하다.
그 다음, 유색잡음이 제거된 음성구간의 프레임들은 다시 랜덤 파라미터 추출부(30)로 입력되어 다시 상기와 같은 랜덤 파라미터 추출, 프레임 상태 판단, 음성구간 검출 과정을 거치게 되며, 이로 인하여 음성구간에 유색잡음이 포함될 가능성을 최소화시킬 수 있으므로 유색잡음이 섞여 있는 음성신호에서 음성구간만을 정확하게 검출할 수 있다.
도 11은 본 발명의 랜덤 파라미터에 따라 음성구간 검출 성능이 향상된 일예를 나타낸 도면으로, 도 11(a)는 핸드폰 단말기에서 녹음된 음성신호 "스프레트쉬트"를 나타낸 도면이고, 도 11(b)는 도 11(a)의 음성신호에 대한 평균 에너지를 나타낸 도면이며, 도 11(c)는 도 11(a)의 음성신호에 대한 랜덤 파라미터를 나타낸 도면이다.
도 11(b)에 도시된 바와 같이 종래의 에너지 파라미터를 이용하면 유색잡음에 의하여 음성신호에서 "스프"에 대한 구간이 마스킹되어 음성구간 검출이 제대로 이루어질 수 없는 반면, 도 11(c)에 도시된 바와 같이 본 발명의 랜덤 파라미터를이용하면 유색잡음이 섞여 있는 음성신호에서도 음성구간과 잡음구간을 확실하게 구별해낼 수 있다.
본 발명은 도면에 도시된 일 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 청구범위의 기술적 사상에 의해 정해져야 할 것이다.
상기한 바와 같이, 본 발명의 음성구간 검출 장치 및 방법에 따르면, 다량의 유색잡음이 섞여 있는 음성신호에서도 정확하게 음성구간을 검출할 수 있을 뿐만 아니라, 잡음과 구별이 어려워 검출이 상대적으로 어려웠던 마찰음도 정확하게 검출할 수 있으므로, 정확한 음성구간 검출을 필요로 하는 음성 인식, 화자 인식 시스템의 성능을 향상시킬 수 있는 효과가 있다.
또한, 본 발명에 따르면 음성구간 검출을 위한 임계값을 환경에 따라 변화시키지 않고도 정확하게 음성구간을 검출할 수 있어 불필요한 계산량을 줄일 수 있는 효과도 있다.
또한, 본 발명에 따르면 무음 구간 및 잡음 구간을 음성신호로 간주하여 처리하는데 따른 메모리 용량의 증대방지가 가능하며, 음성구간만을 추출하여 처리함으로써 처리시간의 단축이 가능하게 된다.

Claims (33)

  1. 입력된 음성신호를 프레임 단위로 나누는 전처리부;
    상기 전처리부로부터 입력된 프레임에 백색잡음을 합성하는 백색화부;
    상기 백색화부로부터 입력된 프레임에서 프레임의 랜덤성을 나타내는 랜덤 파라미터를 추출하는 랜덤 파라미터 추출부;
    상기 랜덤 파라미터 추출부를 통해 추출된 랜덤 파라미터값에 따라 프레임을 음성프레임과 잡음프레임으로 구분하는 프레임 상태 판단부; 및
    상기 프레임 상태 판단부로부터 입력된 음성프레임과 잡음프레임을 기초로 음성의 시작위치와 끝위치를 계산하여 음성구간을 검출하는 음성구간 검출부를 포함하는 것을 특징으로 하는 음성구간 검출 장치.
  2. 제 1항에 있어서, 상기 전처리부는,
    상기 입력된 음성신호를 소정 주파수로 샘플링한 후 샘플링된 음성신호를 다수의 프레임으로 나누는 것을 특징으로 하는 음성구간 검출 장치.
  3. 제 2항에 있어서, 상기 다수의 프레임은 서로 중복되는 것을 특징으로 하는 음성구간 검출 장치.
  4. 제 1항에 있어서, 상기 백색화부는,
    백색잡음을 발생시키는 백색잡음 발생부; 및
    상기 백색잡음 발생부에서 발생된 백색잡음과 상기 전처리부로부터 입력된 프레임 신호를 합성하는 신호 합성부를 포함하는 것을 특징으로 하는 음성구간 검출 장치.
  5. 제 1항, 제 2항, 제 3항 또는 제 4항에 있어서, 상기 랜덤 파라미터 추출부는, 상기 백색화부를 통해 백색화된 프레임에서 동일한 요소가 연속적으로 이어진 런의 갯수를 계산한 후 상기 계산된 런의 갯수를 기초로 랜덤 파라미터를 추출하는 것을 특징으로 하는 음성구간 검출 장치.
  6. 제 5항에 있어서, 상기 랜덤 파라미터는,
    (단, NR은 랜덤 파라미터, n은 프레임 길이의 1/2, R은 프레임내에서의 런의 갯수)
    인 것을 특징으로 하는 음성구간 검출 장치.
  7. 제 1항 또는 제 6항에 있어서, 상기 음성프레임은 유성음 프레임과 마찰음 프레임을 포함하는 것을 특징으로 하는 음성구간 검출 장치.
  8. 제 7항에 있어서, 상기 프레임 상태 판단부는,
    상기 랜덤 파라미터 추출부에서 추출된 랜덤 파라미터값이 제1 임계값 이하이면 해당 프레임을 유성음 프레임으로 판단하는 것을 특징으로 하는 음성구간 검출 장치.
  9. 제 8항에 있어서, 상기 제1 임계값은 0.8인 것을 특징으로 하는 음성구간 검출 장치.
  10. 제 8항에 있어서, 상기 프레임 상태 판단부는,
    상기 랜덤 파라미터 추출부에서 추출된 랜덤 파라미터값이 제2 임계값 이상이면 해당 프레임을 마찰음 프레임으로 판단하는 것을 특징으로 하는 음성구간 검출 장치.
  11. 제 10항에 있어서, 상기 제2 임계값은 1.2인 것을 특징으로 하는 음성구간 검출 장치.
  12. 제 10항에 있어서, 상기 프레임 상태 판단부는,
    상기 랜덤 파라미터 추출부에서 추출된 랜덤 파라미터값이 상기 제1 임계값 이상이고 상기 제2 임계값 이하이면, 해당 프레임을 잡음프레임으로 판단하는 것을 특징으로 하는 음성구간 검출 장치.
  13. 제 12항에 있어서, 상기 제1 임계값은 0.8이고, 상기 제2 임계값은 1.2인 것을 특징으로 하는 음성구간 검출 장치
  14. 제 1항에 있어서, 상기 음성구간 검출부를 통해 검출된 음성구간에서 유색잡음을 제거하는 유색잡음 제거부를 더 포함하는 것을 특징으로 하는 음성구간 검출 장치.
  15. 제 10항에 있어서, 상기 음성구간 검출부를 통해 검출된 음성구간에서 유색잡음을 제거하는 유색잡음 제거부를 더 포함하되,
    상기 유색잡음 제거부는 상기 음성구간 검출부를 통해 검출된 음성구간의 랜덤 파라미터 평균값이 소정 임계값 이하일 경우 상기 검출된 음성구간에서 유색잡음을 제거하는 것을 특징으로 하는 음성구간 검출 장치.
  16. 제 15항에 있어서, 상기 소정 임계값은 상기 제1 임계값에서 유색잡음에 의한 랜덤 파라미터의 감소량을 뺀 값인 것을 특징으로 하는 음성구간 검출 장치.
  17. 제 15항에 있어서, 상기 소정 임계값은 상기 제2 임계값에서 유색잡음에 의한 랜덤 파라미터의 감소량을 뺀 값인 것을 특징으로 하는 음성구간 검출 장치.
  18. 음성신호가 입력되면 입력된 음성신호를 프레임으로 나누는 단계;
    상기 프레임에 백색잡음을 합성하여 주변잡음을 백색화시키는 단계;
    상기 백색화된 프레임에서 프레임의 랜덤성을 나타내는 랜덤 파라미터를 추출하는 단계;
    상기 추출된 랜덤 파라미터값에 따라 프레임을 음성프레임과 잡음프레임으로 구분하는 단계; 및
    상기 음성프레임과 잡음프레임을 기초로 음성의 시작위치와 끝위치를 계산하여 음성구간을 검출하는 단계를 포함하는 것을 특징으로 하는 음성구간 검출 방법.
  19. 제 18항에 있어서, 상기 입력된 음성신호를 프레임으로 나누는 단계는,
    상기 입력된 음성신호를 소정 주파수로 샘플링한 후 샘플링된 음성신호를 다수의 프레임으로 나누는 단계를 포함하는 것을 특징으로 하는 음성구간 검출 방법.
  20. 제 19항에 있어서, 상기 다수의 프레임은 서로 중복되는 것을 특징으로 하는 음성구간 검출 방법.
  21. 제 18항에 있어서, 상기 주변잡음을 백색화시키는 단계는,
    백색잡음을 발생시키는 단계; 및
    상기 발생된 백색잡음과 상기 프레임 신호를 합성하는 단계를 포함하는 것을 특징으로 하는 음성구간 검출 방법.
  22. 제 18항, 제 19항, 제 20항 또는 제 21항에 있어서, 상기 랜덤 파라미터를추출하는 단계는,
    상기 백색화된 프레임에서 동일한 요소가 연속적으로 이어진 런의 갯수를 계산하는 단계; 및
    상기 계산된 런의 갯수를 프레임 길이로 나누어 이를 랜덤 파라미터로 추출하는 단계를 포함하는 것을 특징으로 하는 음성구간 검출 방법.
  23. 제 22항에 있어서, 상기 랜덤 파라미터는,
    (단, NR은 랜덤 파라미터, n은 프레임 길이의 1/2, R은 프레임내에서의 런의 갯수)
    인 것을 특징으로 하는 음성구간 검출 장치.
  24. 제 18항 또는 제 23항에 있어서, 상기 음성프레임은 유성음 프레임과 마찰음 프레임을 포함하는 것을 특징으로 하는 음성구간 검출 방법.
  25. 제 24항에 있어서, 상기 추출된 랜덤 파라미터값이 제1 임계값 이하이면 해당 프레임을 유성음 프레임으로 판단하는 단계를 포함하는 것을 특징으로 하는 음성구간 검출 방법.
  26. 제 25항에 있어서, 상기 제1 임계값은 0.8인 것을 특징으로 하는 음성구간검출 방법.
  27. 제 25항에 있어서, 상기 추출된 랜덤 파라미터값이 제2 임계값 이상이면 해당 프레임을 마찰음 프레임으로 판단하는 단계를 포함하는 것을 특징으로 하는 음성구간 검출 방법.
  28. 제 27항에 있어서, 상기 제2 임계값은 1.2인 것을 특징으로 하는 음성구간 검출 방법.
  29. 제 27항에 있어서, 상기 추출된 랜덤 파라미터값이 상기 제1 임계값 이상이고 상기 제2 임계값 이하이면, 해당 프레임을 잡음프레임으로 판단하는 단계를 포함하는 것을 특징으로 하는 음성구간 검출 방법.
  30. 제 29항에 있어서, 상기 제1 임계값은 0.8이고, 상기 제2 임계값은 1.2인 것을 특징으로 하는 음성구간 검출 장치.
  31. 제 27항에 있어서, 상기 검출된 음성구간의 랜덤 파라미터 평균값이 소정 임계값 이하일 경우 상기 검출된 음성구간에서 유색잡음을 제거하는 단계를 더 포함하는 것을 특징으로 하는 음성구간 검출 방법.
  32. 제 31항에 있어서, 상기 소정 임계값은 상기 제1 임계값에서 유색잡음에 의한 랜덤 파라미터의 감소량을 뺀 값인 것을 특징으로 하는 음성구간 검출 방법.
  33. 제 31항에 있어서, 상기 소정 임계값은 상기 제2 임계값에서 유색잡음에 의한 랜덤 파라미터의 감소량을 뺀 값인 것을 특징으로 하는 음성구간 검출 방법.
KR10-2002-0075650A 2002-11-30 2002-11-30 음성구간 검출 장치 및 방법 KR100463657B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR10-2002-0075650A KR100463657B1 (ko) 2002-11-30 2002-11-30 음성구간 검출 장치 및 방법
EP03257432A EP1424684B1 (en) 2002-11-30 2003-11-25 Voice activity detection apparatus and method
DE60323319T DE60323319D1 (de) 2002-11-30 2003-11-25 Vorrichtung und Verfahren zur Sprachaktivitätsdetektion
US10/721,271 US7630891B2 (en) 2002-11-30 2003-11-26 Voice region detection apparatus and method with color noise removal using run statistics
JP2003401418A JP4102745B2 (ja) 2002-11-30 2003-12-01 音声区間検出装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2002-0075650A KR100463657B1 (ko) 2002-11-30 2002-11-30 음성구간 검출 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20040047428A true KR20040047428A (ko) 2004-06-05
KR100463657B1 KR100463657B1 (ko) 2004-12-29

Family

ID=32291829

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2002-0075650A KR100463657B1 (ko) 2002-11-30 2002-11-30 음성구간 검출 장치 및 방법

Country Status (5)

Country Link
US (1) US7630891B2 (ko)
EP (1) EP1424684B1 (ko)
JP (1) JP4102745B2 (ko)
KR (1) KR100463657B1 (ko)
DE (1) DE60323319D1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100812770B1 (ko) * 2006-03-27 2008-03-12 이영득 화이트 노이즈를 이용한 배속 나레이션 음성신호 제공 방법및 장치
US8046215B2 (en) 2007-11-13 2011-10-25 Samsung Electronics Co., Ltd. Method and apparatus to detect voice activity by adding a random signal

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7860718B2 (en) * 2005-12-08 2010-12-28 Electronics And Telecommunications Research Institute Apparatus and method for speech segment detection and system for speech recognition
US20080147394A1 (en) * 2006-12-18 2008-06-19 International Business Machines Corporation System and method for improving an interactive experience with a speech-enabled system through the use of artificially generated white noise
US8417518B2 (en) * 2007-02-27 2013-04-09 Nec Corporation Voice recognition system, method, and program
US8374854B2 (en) * 2008-03-28 2013-02-12 Southern Methodist University Spatio-temporal speech enhancement technique based on generalized eigenvalue decomposition
CN106887241A (zh) * 2016-10-12 2017-06-23 阿里巴巴集团控股有限公司 一种语音信号检测方法与装置
BR112021020151A2 (pt) 2019-04-18 2021-12-14 Dolby Laboratories Licensing Corp Detector de diálogo
KR20210100823A (ko) 2020-02-07 2021-08-18 김민서 디지털 음성 마크 생성 장치
CN111951834A (zh) * 2020-08-18 2020-11-17 珠海声原智能科技有限公司 基于过零率计算的超低算力检测语音存在的方法和装置

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02244096A (ja) * 1989-03-16 1990-09-28 Mitsubishi Electric Corp 音声認識装置
US5152007A (en) * 1991-04-23 1992-09-29 Motorola, Inc. Method and apparatus for detecting speech
FR2697101B1 (fr) * 1992-10-21 1994-11-25 Sextant Avionique Procédé de détection de la parole.
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
US5657422A (en) * 1994-01-28 1997-08-12 Lucent Technologies Inc. Voice activity detection driven noise remediator
US5828997A (en) * 1995-06-07 1998-10-27 Sensimetrics Corporation Content analyzer mixing inverse-direction-probability-weighted noise to input signal
JPH09152894A (ja) * 1995-11-30 1997-06-10 Denso Corp 有音無音判別器
US5768474A (en) * 1995-12-29 1998-06-16 International Business Machines Corporation Method and system for noise-robust speech processing with cochlea filters in an auditory model
KR970060044A (ko) * 1996-01-15 1997-08-12 김광호 유색 잡음 환경에서 주파수 영역의 정보를 이용한 끝점 검출 방법
US6202046B1 (en) * 1997-01-23 2001-03-13 Kabushiki Kaisha Toshiba Background noise/speech classification method
US5867574A (en) * 1997-05-19 1999-02-02 Lucent Technologies Inc. Voice activity detection system and method
US6182035B1 (en) * 1998-03-26 2001-01-30 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for detecting voice activity
JP3279254B2 (ja) * 1998-06-19 2002-04-30 日本電気株式会社 スペクトル雑音除去装置
JP2000172283A (ja) * 1998-12-01 2000-06-23 Nec Corp 有音検出方式及び方法
US6321197B1 (en) * 1999-01-22 2001-11-20 Motorola, Inc. Communication device and method for endpointing speech utterances
KR100284772B1 (ko) * 1999-02-20 2001-03-15 윤종용 음성 검출 장치 및 그 방법
US6349278B1 (en) * 1999-08-04 2002-02-19 Ericsson Inc. Soft decision signal estimation
US6910011B1 (en) * 1999-08-16 2005-06-21 Haman Becker Automotive Systems - Wavemakers, Inc. Noisy acoustic signal enhancement
CA2390200A1 (en) * 1999-11-03 2001-05-10 Charles W. K. Gritton Integrated voice processing system for packet networks
DE10026904A1 (de) 2000-04-28 2002-01-03 Deutsche Telekom Ag Verfahren zur Berechnung des die Lautstärke mitbestimmenden Verstärkungsfaktors für ein codiert übertragenes Sprachsignal
EP1279164A1 (de) * 2000-04-28 2003-01-29 Deutsche Telekom AG Verfahren zur berechnung einer sprachaktivitätsentscheidung (voice activity detector)
US6741873B1 (en) * 2000-07-05 2004-05-25 Motorola, Inc. Background noise adaptable speaker phone for use in a mobile communication device
JP4135307B2 (ja) 2000-10-17 2008-08-20 株式会社日立製作所 音声通訳サービス方法および音声通訳サーバ
JP3806344B2 (ja) * 2000-11-30 2006-08-09 松下電器産業株式会社 定常雑音区間検出装置及び定常雑音区間検出方法
DE10120168A1 (de) * 2001-04-18 2002-10-24 Deutsche Telekom Ag Verfahren zur Bestimmung von Intensitätskennwerten von Hintergrundgeräuschen in Sprachpausen von Sprachsignalen
US7065485B1 (en) * 2002-01-09 2006-06-20 At&T Corp Enhancing speech intelligibility using variable-rate time-scale modification
US20030216909A1 (en) * 2002-05-14 2003-11-20 Davis Wallace K. Voice activity detection

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100812770B1 (ko) * 2006-03-27 2008-03-12 이영득 화이트 노이즈를 이용한 배속 나레이션 음성신호 제공 방법및 장치
US8046215B2 (en) 2007-11-13 2011-10-25 Samsung Electronics Co., Ltd. Method and apparatus to detect voice activity by adding a random signal
KR101444099B1 (ko) * 2007-11-13 2014-09-26 삼성전자주식회사 음성 구간 검출 방법 및 장치

Also Published As

Publication number Publication date
US20040172244A1 (en) 2004-09-02
EP1424684B1 (en) 2008-09-03
US7630891B2 (en) 2009-12-08
KR100463657B1 (ko) 2004-12-29
EP1424684A1 (en) 2004-06-02
JP2004310047A (ja) 2004-11-04
DE60323319D1 (de) 2008-10-16
JP4102745B2 (ja) 2008-06-18

Similar Documents

Publication Publication Date Title
EP3016314B1 (en) A system and a method for detecting recorded biometric information
EP1901285B1 (en) Voice authentification apparatus
EP0838805B1 (en) Speech recognition apparatus using pitch intensity information
KR100463657B1 (ko) 음성구간 검출 장치 및 방법
US20060100866A1 (en) Influencing automatic speech recognition signal-to-noise levels
KR20100036893A (ko) 음성 신호를 분석하여 화자를 인식하는 장치 및 그 방법
EP0634041B1 (en) Method and apparatus for encoding/decoding of background sounds
KR100714721B1 (ko) 음성 구간 검출 방법 및 장치
GB2388947A (en) Method of voice authentication
US6954726B2 (en) Method and device for estimating the pitch of a speech signal using a binary signal
WO2003107326A1 (ja) 音声認識方法及びその装置
JPH04100099A (ja) 音声検出装置
JP2006010739A (ja) 音声認識装置
JP3322491B2 (ja) 音声認識装置
Pop et al. On forensic speaker recognition case pre-assessment
Wu et al. Speech endpoint detection in noisy environment using Spectrogram Boundary Factor
Aye Speech recognition using Zero-crossing features
Cooper Speech detection using gammatone features and one-class support vector machine
Alzqhoul et al. Impact of background noise in mobile phone networks on forensic voice comparison
JP2011158515A (ja) 音声認識装置および音声認識方法
JP2666296B2 (ja) 音声認識装置
Leow Image processing techniques for speech signal processing
JPH0619491A (ja) 音声認識装置
KR100396748B1 (ko) 유음구간추출처리장치및방법
CN116229988A (zh) 一种电力调度系统人员声纹识别鉴权方法、系统及装置

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121129

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20131128

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20141127

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20151127

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20161129

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20171208

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20181203

Year of fee payment: 15

FPAY Annual fee payment

Payment date: 20191216

Year of fee payment: 16