KR100571831B1 - 음성 식별 장치 및 방법 - Google Patents

음성 식별 장치 및 방법 Download PDF

Info

Publication number
KR100571831B1
KR100571831B1 KR1020040008739A KR20040008739A KR100571831B1 KR 100571831 B1 KR100571831 B1 KR 100571831B1 KR 1020040008739 A KR1020040008739 A KR 1020040008739A KR 20040008739 A KR20040008739 A KR 20040008739A KR 100571831 B1 KR100571831 B1 KR 100571831B1
Authority
KR
South Korea
Prior art keywords
frame
voiced
unvoiced
pitch
pitch contour
Prior art date
Application number
KR1020040008739A
Other languages
English (en)
Other versions
KR20050080648A (ko
Inventor
쉬얀얀
이영범
이재원
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020040008739A priority Critical patent/KR100571831B1/ko
Priority to CN2005100082248A priority patent/CN1655234B/zh
Priority to US11/051,475 priority patent/US8078455B2/en
Publication of KR20050080648A publication Critical patent/KR20050080648A/ko
Application granted granted Critical
Publication of KR100571831B1 publication Critical patent/KR100571831B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Abstract

음성 식별 장치 및 방법이 개시된다. 본 발명의 음성 식별 장치는 입력 신호를 소정 길이의 프레임 단위로 분리하는 프레이밍부; 각 프레임별로 유성음 프레임인지 무성음 프레임인지의 여부를 결정하고, 프레임에 대해 피치 컨투어를 추출하는 피치 추출부; 각 프레임별로 프레임내에서의 영교차율을 계산하는 영교차율 계산부; 피치 추출부에서 결정된 유성음 프레임과 무성음 프레임의 시간 길이의 비, 상기 피치 컨투어에 대한 통계적인 정보 및 스펙트럴 특징들을 계산하는 파라미터 계산부; 및 영교차율과 파라미터 계산부에서 출력되는 파라미터들을 입력으로하여 상기 입력 신호가 음성인지의 여부를 판별하는 분류기를 포함함을 특징으로한다.

Description

음성 식별 장치 및 방법{Apparatus and method for distinguishing between vocal sound and other sound}
도 1은 본 발명에 따른 음성 식별 장치에 대한 블록도를 도시한 것이다.
도 2는 LPC10 장치에 대한 상세 블록도를 도시한 것이다.
도 3a 및 도 3b는 12회의 테스트에 사용된 각 학습 세트 및 테스트 세트를 표로 나타낸 것이다.
도 4는 도 3a 및 도 3b에 도시된 바에 따라 실험한 결과를 표로 나타낸 것이다.
도 5는 신경망에 입력되는 9개의 입력 특징들중 각각에 대한 식별 성능을 도시한 것이다.
도 6은 유성음 프레임과 무성음 프레임이 혼합되어있는 경우 국부 V/U 시간 길이 비를 갱신하는 시간을 도시한 것이다.
본 발명은 음성 식별 장치 및 방법에 관한 것으로, 특히 주변 환경의 여러 소리들로부터 음성을 식별하는 장치 및 방법에 관한 것이다.
음성 식별은 소리 인식(sound recognition) 분야에서 해결되어야하는 분야로서, 현재 연구가 활발히 진행되고있는 분야이다. 소리 인식은 주변 환경에서 발생 하는 소리, 예를 들어 인간으로부터 발생하는 소리, 주변 또는 자연에서 발생하는 소리 등을 포함한 소리의 의미를 자동으로 "이해하고자" 하는 것이다. 즉, 소리 인식은 음원이 무엇인지, 예를 들어 사람의 음성인지 또는 유리가 바닥에 부딪혀서 깨지는 것와 같은 충격음인지 등을 식별하는 것이다. 음원 식별을 기반으로하여 사람이 소리를 이해하는 것과 같은 시맨틱(semantic) 의미를 이해할 수 있게 된다. 따라서 소리 인식을 위해 음원을 식별하는 것이 중요하다.
소리 인식은 음성 인식보다 더 넓은 범위의 소리 분야를 다룬다. 왜냐하면 누구도 세상에 얼마만큼의 소리의 종류가 존재하는지를 알 수 없기 때문이다. 따라서 소리 인식은 응용분야 또는 개발될 소리 인식 시스템의 기능들과 밀접하게 관련되는 음원으로만 제한하여 다루게된다.
인식 대상의 소리에는 여러가지가 있다. 집에서 발생할 수 있는 소리를 예로 들면, 막대로 유리를 두드리는 소리에서부터 폭발음, 바닥에 동전 떨어지는 소리, 사람이 말하는 것과 같은 구두음(verbal sound), 사람의 웃음, 울음 또는 비명과 같은 비구두음(non-verbal sound), 사람의 움직임에 의해 발생되는 소리, 부엌, 화장실, 침실, 또는 각종 전기기기로부터 발생되는 소리까지 다양하게 존재한다.
이렇게 다양한 소리중에서 사람의 성대를 통해 발생되는 음성을 식별하는 장치 및 방법이 필요하다.
본 발명이 이루고자하는 기술적 과제는 입력 오디오 신호로부터 피치 컨투어(pitch contour) 정보 및 피치 컨투어 정보의 진폭 스펙트럼으로부터 여러 파라미터들을 추출하고, 추출된 파라미터들을 이용하여 음성과 비음성을 식별하는 장치 및 방법을 제공하는데 있다.
상기 기술적 과제를 이루기위한, 본 발명의 음성 식별 장치는 입력 신호를 소정 길이의 프레임 단위로 분리하는 프레이밍부; 각 프레임별로 유성음 프레임인지 무성음 프레임인지의 여부를 결정하고, 상기 프레임에 대해 피치 컨투어를 추출하는 피치 추출부; 각 프레임별로 프레임내에서의 영교차율을 계산하는 영교차율 계산부; 상기 피치 추출부에서 결정된 유성음 프레임과 무성음 프레임의 시간 길이의 비, 상기 피치 컨투어에 대한 통계적인 정보 및 스펙트럴 특징들을 계산하는 파라미터 계산부; 및 상기 영교차율과 상기 파라미터 계산부에서 출력되는 파라미터들을 입력으로하여 상기 입력 신호가 음성인지의 여부를 판별하는 분류기를 포함함을 특징으로한다.
상기 기술적 과제를 이루기위한, 본 발명의 음성 식별 방법은 입력 신호를 소정 길이의 프레임 단위로 분리하는 단계; 각 프레임별로 유성음 프레임인지 무음성 프레임인지의 여부를 결정하고, 상기 프레임에 대해 피치 컨투어를 추출하는 단계; 각 프레임별로 프레임내에서의 영교차율을 계산하는 단계; 상기 단계에서 결정된 유성음 프레임 및 무성음 프레임에 대한 시간 길이의 비, 상기 피치 컨투어에 대한 통계적인 정보 및 스펙트럴 특징들을 계산하는 단계; 및 상기 단계들에서 출력되는 각종 파라미터들로부터 상기 입력 신호가 음성인지의 여부를 판별하는 단계를 포함함을 특징으로한다.
이하에서 첨부된 도면을 참조하여 본 발명을 보다 상세하게 설명하기로한다.
도 1은 본 발명에 따른 음성 식별 장치에 대한 블록도를 도시한 것이다. 도시된 바에 따른 음성 식별 장치는 프레이밍(framing)부(11), 피치(pitch) 추출부(11), 영교차율(zero-cross rate) 계산부(12), 파라미터 계산부(13) 및 분류기(14)를 포함한다.
파라미터 계산부(13)는 스펙트럴 파라미터 계산부(131), 피치 컨투어(pitch contour) 정보 계산부(132) 및 유성음 프레임/무성음 프레임의 시간 길이 비(Voiced frame/Unvoiced frame time length ratio)계산부(133)를 구비한다.
프레이밍부(11)는 입력되는 오디오 신호를 프레임 단위로 분할한다. 여기서, 프레임은 짧은 구간 프레임(short-term frame)으로, 윈도우 처리되는 데이터 세그먼트를 말한다. 프레임의 윈도우 길이는 10ms~30ms이고, 적절하게는 20ms 정도이며 둘 이상의 피치 구간(pitch period)을 포함하는 정도의 길이이다. 프레이밍 과정은 프레임 길이의 50%~100% 범위의 프레임 스텝(frame step)으로 윈도우를 쉬프트(shift)하면서 이루어진다. 본 실시예에서의 프레임 스텝은 프레임 길이의 50%, 즉 10ms를 사용한다.
피치 추출부(11)는 프레임별로 피치를 추출한다. 피치 추출은 기존의 어떠한 종류의 피치 추출 방법도 사용할 수 있으며, 본 발명에서는 기존의 10차 선형 예측 부호화(Linear Predictive Coding, LPC10) 방법의 피치 트래커(pitch tracker)를 단순화하여 적용하였다. 이를 간단히 설명하면 다음과 같다. 도 2는 LPC10 장치에 대한 상세 블록도를 도시한 것이다. 먼저, 신호의 프레임에 해밍 윈도우(Hamming window, 21)가 적용된다. 대역통과 필터(22)는 해밍 윈도우(21)의 출력신호중 60~900Hz 대역의 신호를 통과시킨다. LPC 역변환 필터(LPC inverse filter, 23)는 대역통과된 신호에 대한 LPC 나머지 신호(residual sigal)를 출력한다. 자기상관부(auto-correlator, 24)는 나머지 신호를 자기상관하고, 자기상관 결과중 5개의 피크값들을 선택한다. V/U 결정부(25)는 대역통과 신호, 자기 상관 결과들 및 프레임별 나머지 신호의 피크값들을 이용하여 현재 프레임이 유성음 프레임인지 무성음 프레임인지를 결정한다. 피치 트래킹부(26)는 프레임에 대한 V/U결정 결과와 5개의 피크값들을 기반으로하여 동적 프로그래밍(dynamic programming) 방법으로 이전 3프레임에서부터 기본 주파수(fundamental frequency), 즉 피치를 트래킹한다. 최종적으로 유성음 프레임에서의 피치 트래킹 결과와 무성음 구간에 대해서는 피치를 0으로하여 연접(concatenation)함으로써 피치 컨투어를 추출한다.
영교차율 계산부(12)는 각 프레임별로 프레임에서의 영교차율을 계산한다.
파라미터 계산부(13)는 추출된 피치 컨투어를 기반으로하여 특징값들을 출력한다. 스펙트럴 파라미터 계산부(131)는 피치 추출부(11)에서 출력되는 피치 컨투어의 진폭 스펙트럼으로부터 스펙트럴 특징들을 계산한다. 스펙트럴 파라미터 계산부(131)는 피치 컨투어에 대해 매 0.3초마다 32-포인트 FFT를 수행하여 피치 컨투어의 진폭 스펙트럼으로부터 중심벡터(centroid), 대역폭 및 롤오프(roll-off) 주파수를 계산한다. 여기서, 롤오프 주파수는 피치 컨투어의 진폭 스펙트럼이 최대 파워에서 85%이하로 떨어지는 주파수를 나타낸다.
f(u)가 피치 컨투어의 진폭 스펙트럼에 대한 32-포인트 FFT 스펙트럼을 나타 낼 때, 중심벡터 C, 대역폭 B 및 롤오프 주파수 SRF는 각각 다음 식과 같이 계산될 수 있다.
Figure 112004005532531-pat00001
피치 컨투어 정보 계산부(132)는 피치 컨투어의 평균(mean)과 분산(variance)을 계산한다. 피치 컨투어 정보는 새로운 신호가 입력될 때마다 또는 이전 신호가 종료되었을 때마다 초기화된다. 평균의 초기값은 첫번 째 프레임의 피치값으로 설정되고, 분산의 초기값은 첫번째 프레임의 피치값의 제곱으로 설정된다.
피치 컨투어 정보 계산부(132)는 초기화가 이루어지면, 피치 컨투어의 평균과 분산을 프레임 단위로 매 프레임 스텝, 본 실시예에서는 매 10ms 마다 다음 식과 같이 갱신한다.
Figure 112004005532531-pat00002
여기서, u(Pt, t)는 t시간의 피치 컨투어에 대한 평균, N은 카운트되는 프레임 수, u2(Pt,t)는 평균의 제곱값, var(Pt,t)는 t시간의 피치 컨투어에 대한 분산을 나타낸다. Pt는 피치 컨투어로 유성음 프레임이면 피치값을 갖고, 무성음 프레임이면 0이다.
V/U 시간 길이 비 계산부(133)는 국부 V/U 시간 길이 비와 전체 V/U 시간 길이 비를 계산한다. 국부 V/U 시간 길이 비는 하나의 유성음 프레임에 대한 하나의 무성음 프레임의 시간 길이 비를 구하는 것이고, 전체 V/U 시간 길이 비는 전체 유성음 프레임들에 대한 전체 무성음 프레임들의 시간 길이 비를 구하는 것이다.
V/U 시간 길이 비 계산부(133)는 전체 V/U 시간 길이 비의 계산을 위해 유성음 프레임 및 무성음 프레임을 각각 누적하여 카운팅하는 전체 프레임 카운터(미도시)와 국부 V/U 시간 길이 비의 계산을 위해 각 프레임에 대해 유성음 프레임 및 무성음 프레임을 각각 카운팅하는 국부 프레임 카운터(미도시)를 구비한다.
전체 V/U 시간 길이 비는 새로운 신호가 입력될 때마다 또는 이전 신호 세그먼트가 종료될 때마다 전체 프레임 카운터를 리셋하여 초기화되고, 프레임 단위로 갱신된다. 여기서, 신호 세그먼트는 지속기간의 제한이 없이 배경음보다 큰 에너지를 갖는 신호를 말한다.
국부 V/U 시간 길이 비는 유성음 프레임이 종료되고 다음 무성음 프레임이 시작될 때, 국부 프레임 카운터를 리셋하여 초기화된다. 초기화가 이루어지면, 국부 V/U 시간 길이 비는 유성음 프레임과 유성음+무성음 프레임의 비에 의해 계산된다. 또한 국부 V/U 시간 길이 비는 유성음 프레임으로부터 무성음 프레임으로 전이(transfer)될 때마다 갱신된다.
도 6은 유성음 프레임과 무성음 프레임이 혼합되어있는 경우 국부 V/U 시간 길이 비를 갱신하는 시간을 도시한 것이다. 도시된 바에 따르면, V는 유성음 프레임이고, U는 무성음 프레임을 나타낸다. 참조번호 60은 국부 V/U 시간 길이 비가 갱신되는 시점, 즉, 유성음 프레임에서 무성음 프레임으로 전이되는 시점을 나타낸다. 참조번호 61은 무성음 시간 길이가 갱신되는 시점을 나타내고, 62는 유성음 시간 길이를 카운트하기를 기다리는 시점을 나타낸다.
V/U의 전체 V/U 시간 길이 비인 V/U_GTLR는 다음 식과 같이 구해진다.
Figure 112004005532531-pat00003
여기서, NV는 유성음 프레임 수, NU는 무성음 프레임 수이다.
분류기(14)는 스펙트럴 파라미터 계산부(131), 피치 컨투어 정보 계산부(132), V/U 시간 길이 비 계산부(133) 및 영교차율 계산부(12)에서 출력되는 각종 파라미터들을 입력으로하여 입력 오디오 신호가 최종적으로 음성인지 아닌지를 판정한다.
이 때, 분류기(14)는 입력측에 동기화부(미도시)를 더 구비할 수도 있다. 동기화부는 분류기에 입력되는 파라미터들을 동기화시킨다. 동기화는 각 파라미터들이 갱신되는 시간이 서로 다르기 때문에 필요할 수 있다. 예를 들어, 영교차율, 피치 컨투어의 평균 및 분산값, 그리고 전체 V/U 시간 길이 비는 매 10ms마다 갱신되고, 피치 컨투어의 진폭 스펙트럼에 대한 스펙트럴 파라미터들은은 매 0.3초마다 갱신된다. 국부 V/U 시간 길이 비는 유성음 프레임에서 무성음 프레임으로 전이될 때마다 랜덤하게 갱신된다. 따라서 현재 분류기의 입력측에 새로운 값이 갱신되지않았다면, 대기모드 상태에서 이전 값들이 입력값으로 제공되고 새로운 값이 들어오면 각 파라미터의 동기를 맞추어서 새로운 입력값으로 제공한다.
분류기(14)로는 신경망(neural network)이 적절하다. 본 실시예에서는 입력 뉴론이 9개이고 출력 뉴론이 1개인 피드 포워드 다층 퍼셉트론(feed-forward multi-layer perceptron)이 사용된다. 중간층들은, 예를 들어 첫번째 층은 5개의 뉴론, 두번째 층은 2개의 뉴론들을 구비하는 것으로 선택될 수 있다. 신경회로망은 이미 알고있는 유성음 신호로부터 추출된 9개의 파라미터들을 입력으로하여 유성음 신호로 분류하도록 미리 학습한다. 학습이 완료되면, 식별하고자하는 오디오 신호로부터 추출된 9개의 파라미터들을 입력으로하여, 오디오 신호가 유성음인지의 여부를 판별한다. 신경망의 출력값은 현재 신호가 유성음인지 아닌지에 대한 사후 확률(posterior probability)을 나타낸다. 예를 들어서 사후 확률에 대한 평균 결정 값을 0.5라고 한다면, 0.5보다 크거나 같은 사후확률에 대해서는 유성음으로 작은 사후확률에 대해서는 유성음이 아닌 다른 소리로 판단한다.
표 1 21개의 21개의 소리 효과(sound effect) CD들과 RWCP(Real World Computing Partnership) 데이터베이스로부터 수집한 주변 환경 소리 인식 데이터베이스를 기초로 실험한 결과를 나타낸 것이다. 데이터 세트의 조건은 모노 톤이고, 샘플링 비는 16이며 데이터 크기는 16비트이다. 영어, 불어, 스페인어, 러시아어 등을 포함한 다양한 언어로 대화, 읽기, 방송 등을 포함한 남자의 말소리에 대해 단어 하나에서부터 수 분에 달하는 긴 독백까지 200개 이상의 토큰(token)을 얻은 것이다.
내용 토큰
방송 50
불어 방송 10
대화 영어 50
불어 20
스페인어 10
이탈리아어 5
일본어 2
독일어 2
러시아어 2
헝가리어 2
유대어 2
광동어 2
말소리 60
여기서, 방송은 뉴스, 날씨, 교통, 상업광고, 스포츠 등을 포함하고, 불어 방송은 뉴스와 날씨를 포함한 것이다. 말소리는 법정, 교회, 경찰서, 병원, 카지노, 영화, 간호, 교통 등과 관련한 상황에서 발생하는 것들을 포함한다.
표 2는 여자의 말소리에 대해 얻은 200개 이상의 토큰을 도시한 것이다.
내용 토큰
방송 30
다른 언어로 뉴스 방송 16
대화 영어 70
이탈리아어 10
스페인어 20
러시아어 7
불어 8
스웨덴어 2
독일어 2
중국어(Mandarin) 3
일본어 2
아랍어 1
말소리 50
여기서,뉴스 방송언어로는 이탈리아어, 중국어, 스페인어, 러시아어 등을 포함한 것이고, 말소리는 경찰서, 영화, 교통, 콜 센터(call center) 등과 관련한 상황에서 발생하는 것들을 포함한다.
사람의 소리가 아닌 다른 소리들은 가정에서의 가구, 전자기기, 실용품(utilities) 등을 포함한 음원으로부터 발생하거나 각종 충격음 또는 발소리나 사지 운동(limb movement) 등에 의해 발생되는 소리들을 포함한다.
다음 표는 실험 사용된 데이터의 전체 크기를 나타낸 것이다.
남자 말소리 여자 말소리 다른 소리
토큰 217 221 4000
프레임 9e4 9e4 8e5
시간 1h 1h 8h
실험은 학습 세트(training set)와 테스트 세트(test set)를 서로 다르게 하여 진행되었다. 도 3a 및 도 3b는 12회의 테스트에 사용된 각 학습 세트 및 테스트 세트를 표로 나타낸 것이다. 도면에서 신경망 크기는 중간층을 두 층으로 하였을 때의 입력 뉴론 수, 첫번째 중간층 뉴론 수, 두번째 중간 층 뉴론 수 및 출력 뉴론 수를 나타낸다.
도 4는 도 3a 및 도 3b에 도시된 바에 따라 실험한 결과를 표로 나타낸 것이다. 도면에서 오경보율은 테스트 신호가 음성이 아닌데 음성으로 판별한 경우를 말한다.
도시된 바에 따르면, 7번의 테스트가 가장 좋은 성능을 보임을 알 수 있다. 1번 테스트에서는 1000개의 사람의 음성 샘플과 2000개의 다른 소리 샘플로 신경망을 학습시킨 결과 충분치 못한 음성 식별 성능을 보임을 알 수 있다. 학습 샘플이 10000 내지 80000개 정도인 다른 테스트 결과들은 비슷한 유성 식별 성능을 보임을 알 수 있다.
도 5는 신경망에 입력되는 9개의 입력 특징들중 각각에 대한 식별 성능을 도시한 것이다. 도면에서 ZCR은 영교차율, PIT는 프레임의 피치, PIT_MEA는 피치 컨투어의 평균, PIT_VAR은 피치 컨투어의 분산, PIT_VTR은 전체 V/U 시간 길이 비, PIT_ZKB는 국부 V/U 시간 길이 비, PIT_SPE_CEN은 피치 컨투어의 진폭 스펙트럼의 중심 벡터, PIT_SPEC_BAN은 피치 컨투어의 진폭 스펙트럼의 대역폭, PIT_SPEC_ROF는 피치 컨투어의 진폭 스펙트럼의 롤오프 주파수를 나타낸다. 도시된 바에 따르면, PIT와 PIT_VTR에 대해 가장 좋은 성능을 보임을 알 수 있다.
본 발명에 따르면, 피치 컨투어 정보외에 피치 컨투어 정보의 진폭 스펙트럼으로부터 중심벡터, 대역폭 및 롤오프 주파수를 추출하여 분류기의 입력으로 사용함으로써 스피치 뿐 만 아니라 웃음, 울음과 같이 성대를 통해 생성되는 음성에 대해 보다 향성된 식별 성능을 얻을 수 있다. 따라서 사무실, 가정 등의 보안 시스템에 사용할 수 있고, 음성 인식의 경우 피치 정보를 사용하여 스피치의 시작을 감지하는 전처리에 사용할 수도 있다. 또한 통신에서 음성과 다른 소리를 식별하는 음성 교환기로 사용할 수도 있다.

Claims (21)

  1. 입력 신호를 소정 길이의 프레임 단위로 분리하는 프레이밍부;
    각 프레임별로 유성음 프레임인지 무성음 프레임인지의 여부를 결정하고, 상기 프레임에 대해 피치 컨투어를 추출하는 피치 추출부;
    각 프레임별로 프레임내에서의 영교차율을 계산하는 영교차율 계산부;
    상기 피치 추출부에서 결정된 유성음 프레임과 무성음 프레임의 시간 길이의 비, 상기 피치 컨투어에 대한 통계적인 정보 및 스펙트럴 특징들을 계산하는 파라미터 계산부; 및
    상기 영교차율과 상기 파라미터 계산부에서 출력되는 파라미터들을 입력으로하여 상기 입력 신호가 음성인지의 여부를 판별하는 분류기를 포함함을 특징으로하는 음성 식별 장치.
  2. 제1항에 있어서, 상기 파라미터 계산부는
    상기 유성음 프레임의 시간 길이 및 무성음 프레임의 시간 길이를 각각 구하고, 그 비를 계산하는 유성음 프레임/무성음 프레임의 시간 길이 비 계산부;
    상기 피치 컨투어에 대한 평균 및 분산을 포함하는 통계적인 정보를 계산하는 피치 컨투어 정보 계산부; 및
    상기 피치 컨투어의 진폭 스펙트럼에 대한 스펙트럴 특징들을 계산하는 스펙트럴 파라미터 계산부를 포함함을 특징으로하는 음성 식별 장치.
  3. 제2항에 있어서, 상기 유성음 프레임/무성음 프레임의 시간 길이 비 계산부는
    하나의 유성음 프레임에 대한 하나의 무성음 프레임의 시간 길이 비인 국부 유성음 프레임/무성음 프레임 시간 길이 비와 전체 유성음 프레임들에 대한 전체 무성음 프레임들의 시간 길이 비인 전체 유성음 프레임/무성음 프레임 시간 길이 비를 구하는 기능을 구비함을 특징으로하는 음성 식별 장치.
  4. 제3항에 있어서, 상기 유성음 프레임/무음성 프레임의 시간 길이 비 계산부는
    전체 프레임 카운터 및 국부 프레임 카운터를 구비하고, 새로운 신호가 입력될 때마다 또는 이전 신호 세그먼트가 종료될 때마다 상기 전체 프레임 카운터를 리셋하고, 유성음 프레임에서 무성음 프레임으로 전이될 때마다 상기 국부 프레임 카운터를 리셋하는 기능을 구비함을 특징으로하는 음성 식별 장치
  5. 제3항에 있어서, 상기 음성 프레임/무음성 프레임의 시간 길이 비 계산부는
    매 프레임마다 전체 유성음/무성음 시간 길이 비를 갱신하고, 유성음 프레임에서 무성음 프레임으로 전이될 때마다 국부 유성음/무성음 시간 길이 비를 갱신하는 것을 특징으로하는 음성 식별 장치.
  6. 제2항에 있어서, 상기 피치 컨투어 정보 계산부는
    새로운 신호가 입력될 때마다 또는 이전 신호 세그먼트가 종료되었을 때마다 상기 피치 컨투어의 평균과 분산을 초기화하는 기능을 구비함을 특징으로하는 음성 식별 장치.
  7. 제6항에 있어서, 상기 피치 컨투어 정보 계산부는
    상기 피치 컨투어의 평균 및 분산의 초기화를 각각 첫번 째 프레임의 피치값과 첫번째 프레임의 피치값을 제곱하여 수행하는 기능을 구비함을 특징으로하는 음성 식별 장치.
  8. 제6항에 있어서, 상기 피치 컨투어 정보 계산부는
    상기 피치 컨투어의 평균과 분산을 초기화한 후, 다음 식
    Figure 112004005532531-pat00004
    여기서, u(Pt, t)는 t시간의 피치 컨투어에 대한 평균, N은 카운트되는 프레 임 수, u2(Pt,t)는 평균의 제곱값, var(Pt,t)는 t시간의 피치 컨투어에 대한 분산을 각각 나타내고, Pt는 피치 컨투어로 유성음 프레임이면 피치값을 갖고, 무음성 프레임이면 0임
    과 같이 갱신하는 기능을 구비함을 특징으로하는 음성 식별 장치.
  9. 제2항에 있어서, 상기 스펙트럴 파라미터 계산부는
    상기 피치 컨투어의 진폭 스펙트럼을 고속 푸리에 변환하고, 그 결과인 f(u)에 대해 중심 벡터 C, 대역폭 B, 또는 롤오프 주파수 SRF를 각각 다음 식
    Figure 112004005532531-pat00005
    과 같이 구하는 기능을 구비함을 특징으로하는 음성 식별 장치.
  10. 제1항에 있어서, 상기 분류기는
    복수의 층과 각 층에 복수의 뉴론을 구비하여 음성신호를 판별하도록 미리 학습한 결과를 기반으로하여, 상기 영교차율 계산부 및 상기 파라미터 계산부로부터 출력되는 파라미터들로부터 상기 입력신호가 음성인지의 여부를 판별하는 신경 망임을 특징으로하는 음성 식별 장치.
  11. 제11항에 있어서, 상기 분류기는
    상기 파라미터들의 동기를 맞추기위한 동기화부를 입력측에 더 구비함을 특징으로하는 음성 식별 장치.
  12. 입력 신호를 소정 길이의 프레임 단위로 분리하는 단계;
    각 프레임별로 유성음 프레임인지 무음성 프레임인지의 여부를 결정하고, 상기 프레임에 대해 피치 컨투어를 추출하는 단계;
    각 프레임별로 프레임내에서의 영교차율을 계산하는 단계;
    상기 단계에서 결정된 유성음 프레임 및 무성음 프레임에 대한 시간 길이의 비, 상기 피치 컨투어에 대한 통계적인 정보 및 스펙트럴 특징들을 계산하는 단계; 및
    상기 단계들에서 출력되는 각종 파라미터들로부터 상기 입력 신호가 음성인지의 여부를 판별하는 단계를 포함함을 특징으로하는 음성 식별 방법.
  13. 제12항에 있어서, 상기 유성음 프레임 및 무성음 프레임에 대한 시간 길이의 비의 계산은
    하나의 유성음 프레임에 대한 하나의 무성음 프레임의 시간 길이 비인 국부 유성음 프레임/무성음 프레임 시간 길이 비와 전체 유성음 프레임들에 대한 전체 무성음 프레임들의 시간 길이 비인 전체 유성음 프레임/무성음 프레임 시간 길이 비를 계산하는 것을 특징으로하는 음성 식별 방법.
  14. 제13항에 있어서,
    새로운 신호가 입력될 때마다 또는 이전 신호 세그먼트가 종료될 때마다 상기 전체 유성음/무성음 프레임 시간 길이 비의 계산을 위해 누적되어 카운팅되는 유성음 프레임 및 무성음 프레임 수를 리셋하고,
    유성음 프레임에서 무성음 프레임으로 전이될 때마다 상기 국부 유성음/무성음 프레임 시간 길이 비의 계산을 위해 누적되어 카운팅되는 유성음 프레임 및 무성음 프레임 수를 리셋함을 특징으로하는 음성 식별 방법.
  15. 제14항에 있어서,
    상기 전체 유성음/무성음 시간 길이 비를 매 프레임마다 갱신하고, 상기 국부 유성음/무성음 시간 길이 비를 유성음 프레임에서 무성음 프레임으로 전이될 때마다 갱신함을 특징으로하는 음성 식별 방법.
  16. 제12항에 있어서, 상기 피치 컨투어 정보는
    새로운 신호가 입력될 때마다 또는 이전 신호 세그먼트가 종료되었을 때마다 상기 피치 컨투어의 평균과 분산이 초기화됨을 특징으로하는 음성 식별 방법.
  17. 제16항에 있어서,
    상기 피치 컨투어의 평균 및 분산의 초기화는 각각 첫번 째 프레임의 피치값과 첫번째 프레임의 피치값을 제곱하여 이루어짐을 특징으로하는 음성 식별 방법.
  18. 제17항에 있어서, 상기 피치 컨투어의 평균 및 분산은 다음 식
    Figure 112004005532531-pat00006
    여기서, u(Pt, t)는 t시간의 피치 컨투어에 대한 평균, N은 카운트되는 프레임 수, u2(Pt,t)는 평균의 제곱값, var(Pt,t)는 t시간의 피치 컨투어에 대한 분산을 각각 나타내고, Pt는 피치 컨투어로 유성음 프레임이면 피치값을 갖고, 무음성 프레임이면 0임
    과 같이 갱신됨을 특징으로하는 음성 식별 방법.
  19. 제12항에 있어서, 상기 스펙트럴 특징들은
    상기 피치 컨투어의 진폭 스펙트럼에 대한 중심 벡터, 대역폭 또는 롤오프 주파수를 포함하고,
    상기 피치 컨투어의 진폭 스펙트럼을 고속 푸리에 변환하는 단계; 및
    상기 고속 푸리에 변환 결과인 f(u)에 대해 상기 중심 벡터 C, 대역폭 B, 또 는 롤오프 주파수 SRF를 각각 다음 식
    Figure 112004005532531-pat00007
    과 같이 계산하는 단계를 수행하여 구하는 것을 특징으로하는 음성 식별 방법.
  20. 제12항에 있어서, 상기 음성으로 판별하는 단계는
    소정 음성신호들로부터 상기 영교차율, 유성음 프레임 및 무성음 프레임에 대한 시간 길이의 비, 피치 컨투어에 대한 통계적인 정보 및 스펙트럴 특징들을 포함하는 파라미터들을 추출하는 단계;
    추출된 파라미터들을 소정 크기의 신경망의 입력으로하여 음성신호로 분류하도록 상기 신경망을 학습시키는 단계;
    상기 입력 신호에 대한 영교차율, 유성음 프레임 및 무성음 프레임에 대한 시간 길이의 비, 피치 컨투어에 대한 통계적인 정보 및 스펙트럴 특징들을 포함하는 파라미터들을 추출하는 단계;
    추출된 파라미터들을 학습이 완료된 신경망에 입력하는 단계; 및
    상기 신경망의 출력을 소정 기준값과 비교하여 상기 입력신호가 음성인지를 판별하는 단계를 구비함을 특징으로하는 음성 식별 방법.
  21. 제12항에 있어서, 상기 음성으로 판별하는 단계는
    상기 각종 파라미터들의 동기를 맞추는 단계를 더 구비함을 특징으로하는 음성 식별 방법.
KR1020040008739A 2004-02-10 2004-02-10 음성 식별 장치 및 방법 KR100571831B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020040008739A KR100571831B1 (ko) 2004-02-10 2004-02-10 음성 식별 장치 및 방법
CN2005100082248A CN1655234B (zh) 2004-02-10 2005-02-06 用于区别口声和其它声音的装置和方法
US11/051,475 US8078455B2 (en) 2004-02-10 2005-02-07 Apparatus, method, and medium for distinguishing vocal sound from other sounds

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040008739A KR100571831B1 (ko) 2004-02-10 2004-02-10 음성 식별 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20050080648A KR20050080648A (ko) 2005-08-17
KR100571831B1 true KR100571831B1 (ko) 2006-04-17

Family

ID=34858690

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040008739A KR100571831B1 (ko) 2004-02-10 2004-02-10 음성 식별 장치 및 방법

Country Status (3)

Country Link
US (1) US8078455B2 (ko)
KR (1) KR100571831B1 (ko)
CN (1) CN1655234B (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013141638A1 (ko) * 2012-03-21 2013-09-26 삼성전자 주식회사 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치
CN104916288A (zh) * 2014-03-14 2015-09-16 深圳Tcl新技术有限公司 一种音频中人声突出处理的方法及装置

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727904B (zh) * 2008-10-31 2013-04-24 国际商业机器公司 语音翻译方法和装置
US9324330B2 (en) 2012-03-29 2016-04-26 Smule, Inc. Automatic conversion of speech into song, rap or other audible expression having target meter or rhythm
TWI485697B (zh) * 2012-05-30 2015-05-21 Univ Nat Central Environmental sound recognition method
US9263059B2 (en) 2012-09-28 2016-02-16 International Business Machines Corporation Deep tagging background noises
US9459768B2 (en) 2012-12-12 2016-10-04 Smule, Inc. Audiovisual capture and sharing framework with coordinated user-selectable audio and video effects filters
CN104464746A (zh) * 2013-09-12 2015-03-25 索尼公司 语音滤波方法、装置以及电子设备
US9805739B2 (en) 2015-05-15 2017-10-31 Google Inc. Sound event detection
US9965685B2 (en) * 2015-06-12 2018-05-08 Google Llc Method and system for detecting an audio event for smart home devices
CN111145763A (zh) * 2019-12-17 2020-05-12 厦门快商通科技股份有限公司 一种基于gru的音频中的人声识别方法及系统

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4802221A (en) * 1986-07-21 1989-01-31 Ncr Corporation Digital system and method for compressing speech signals for storage and transmission
IT1229725B (it) * 1989-05-15 1991-09-07 Face Standard Ind Metodo e disposizione strutturale per la differenziazione tra elementi sonori e sordi del parlato
US5487153A (en) * 1991-08-30 1996-01-23 Adaptive Solutions, Inc. Neural network sequencer and interface apparatus
JP3277398B2 (ja) * 1992-04-15 2002-04-22 ソニー株式会社 有声音判別方法
WO1994010635A2 (en) * 1992-11-02 1994-05-11 Boston University Neural networks with subdivision
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
US6463406B1 (en) * 1994-03-25 2002-10-08 Texas Instruments Incorporated Fractional pitch method
US5596679A (en) * 1994-10-26 1997-01-21 Motorola, Inc. Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs
US5751905A (en) * 1995-03-15 1998-05-12 International Business Machines Corporation Statistical acoustic processing method and apparatus for speech recognition using a toned phoneme system
JPH08254993A (ja) * 1995-03-16 1996-10-01 Toshiba Corp 音声合成装置
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
US6026357A (en) * 1996-05-15 2000-02-15 Advanced Micro Devices, Inc. First formant location determination and removal from speech correlation information for pitch detection
JP3006677B2 (ja) * 1996-10-28 2000-02-07 日本電気株式会社 音声認識装置
US5913194A (en) * 1997-07-14 1999-06-15 Motorola, Inc. Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system
CN1182694C (zh) * 1998-01-16 2004-12-29 皇家菲利浦电子有限公司 用于电话机的自动拨号的话音命令系统
US6188981B1 (en) * 1998-09-18 2001-02-13 Conexant Systems, Inc. Method and apparatus for detecting voice activity in a speech signal
GB9902115D0 (en) * 1999-02-01 1999-03-24 Axeon Limited Neural networks
US6556967B1 (en) * 1999-03-12 2003-04-29 The United States Of America As Represented By The National Security Agency Voice activity detector
US6917912B2 (en) * 2001-04-24 2005-07-12 Microsoft Corporation Method and apparatus for tracking pitch in audio analysis
US20030216909A1 (en) * 2002-05-14 2003-11-20 Davis Wallace K. Voice activity detection
US20040030555A1 (en) * 2002-08-12 2004-02-12 Oregon Health & Science University System and method for concatenating acoustic contours for speech synthesis
US7933226B2 (en) * 2003-10-22 2011-04-26 Palo Alto Research Center Incorporated System and method for providing communication channels that each comprise at least one property dynamically changeable during social interactions
US20050091044A1 (en) * 2003-10-23 2005-04-28 Nokia Corporation Method and system for pitch contour quantization in audio coding
EP1531478A1 (en) * 2003-11-12 2005-05-18 Sony International (Europe) GmbH Apparatus and method for classifying an audio signal

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013141638A1 (ko) * 2012-03-21 2013-09-26 삼성전자 주식회사 대역폭 확장을 위한 고주파수 부호화/복호화 방법 및 장치
US9378746B2 (en) 2012-03-21 2016-06-28 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding high frequency for bandwidth extension
US9761238B2 (en) 2012-03-21 2017-09-12 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding high frequency for bandwidth extension
US10339948B2 (en) 2012-03-21 2019-07-02 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding high frequency for bandwidth extension
CN104916288A (zh) * 2014-03-14 2015-09-16 深圳Tcl新技术有限公司 一种音频中人声突出处理的方法及装置
CN104916288B (zh) * 2014-03-14 2019-01-18 深圳Tcl新技术有限公司 一种音频中人声突出处理的方法及装置

Also Published As

Publication number Publication date
US20050187761A1 (en) 2005-08-25
US8078455B2 (en) 2011-12-13
KR20050080648A (ko) 2005-08-17
CN1655234B (zh) 2012-01-25
CN1655234A (zh) 2005-08-17

Similar Documents

Publication Publication Date Title
Nagrani et al. Voxceleb: a large-scale speaker identification dataset
US8078455B2 (en) Apparatus, method, and medium for distinguishing vocal sound from other sounds
CN106251874B (zh) 一种语音门禁和安静环境监控方法及系统
CN105938716B (zh) 一种基于多精度拟合的样本复制语音自动检测方法
Dhanalakshmi et al. Classification of audio signals using AANN and GMM
CA2085842C (en) Neural network-based speech token recognition system and method
Wang et al. Multi-format contrastive learning of audio representations
CN102723078A (zh) 基于自然言语理解的语音情感识别方法
Yücesoy et al. A new approach with score-level fusion for the classification of a speaker age and gender
Kim et al. Hierarchical approach for abnormal acoustic event classification in an elevator
Jiao et al. Convex weighting criteria for speaking rate estimation
Barker et al. Speech fragment decoding techniques for simultaneous speaker identification and speech recognition
Gazeau et al. Automatic spoken language recognition with neural networks
Shao et al. Stream weight estimation for multistream audio–visual speech recognition in a multispeaker environment
Dhanalakshmi et al. Pattern classification models for classifying and indexing audio signals
CN113239903B (zh) 一种跨模态唇读的对抗性双重对比自监督学习方法
Ismail et al. Dialect identification of assamese language using spectral features
Roy et al. Learning words from natural audio-visual input.
Al-Banna et al. Stuttering detection using atrous convolutional neural networks
Rentzeperis et al. The 2006 athens information technology speech activity detection and speaker diarization systems
Barker et al. Energetic and informational masking effects in an audiovisual speech recognition system
CN112185357A (zh) 一种同时识别人声和非人声的装置及方法
Chao et al. Vocal effort detection based on spectral information entropy feature and model fusion
Luettin Speaker verification experiments on the XM2VTS database
Zheng et al. A robust keyword detection system for criminal scene analysis

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130318

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140325

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee