KR101658452B1 - 음성 데이터에 대한 성별 인식 장치 및 성별 인식 방법 - Google Patents

음성 데이터에 대한 성별 인식 장치 및 성별 인식 방법 Download PDF

Info

Publication number
KR101658452B1
KR101658452B1 KR1020160003709A KR20160003709A KR101658452B1 KR 101658452 B1 KR101658452 B1 KR 101658452B1 KR 1020160003709 A KR1020160003709 A KR 1020160003709A KR 20160003709 A KR20160003709 A KR 20160003709A KR 101658452 B1 KR101658452 B1 KR 101658452B1
Authority
KR
South Korea
Prior art keywords
user
gender
probability
voice data
classifier
Prior art date
Application number
KR1020160003709A
Other languages
English (en)
Inventor
백성욱
자밀 아마드
이미영
권순일
전석봉
Original Assignee
세종대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 세종대학교산학협력단 filed Critical 세종대학교산학협력단
Priority to KR1020160003709A priority Critical patent/KR101658452B1/ko
Application granted granted Critical
Publication of KR101658452B1 publication Critical patent/KR101658452B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

본 발명은 음성 데이터 입력 유닛, 성별 인식 프로그램이 저장된 메모리 및 메모리에 저장된 프로그램을 실행하는 프로세서를 포함한다. 이때, 프로세서는 프로그램의 실행에 따라, 프로그램에 포함된 분류기에 기초하여, 음성 데이터 입력 유닛을 통하여 입력된 음성 데이터를 발화하는 사용자의 성별을 인식하고, 프로그램에 포함된 추론기를 통해, 인식된 사용자의 성별과 신뢰값에 기초하여 사용자의 성별을 결정하되, 분류기는 기수집된 음성 데이터에 기초하여 생성된다.

Description

음성 데이터에 대한 성별 인식 장치 및 성별 인식 방법{APPARATUS AND METHOD FOR GENDER RECOGNITION OF SPEECH DATA}
본 발명은 음성 데이터에 대한 성별 인식 장치 및 성별 인식 방법에 관한 것이다.
성별 인식 기법은 발화자의 음성 데이터로부터 발화자의 성별을 인식할 수 있다. 성별 인식 기법은 자동 음성 인식(automatic speech recognition; ASR) 및 대화형 음성 응답(interactive voice response; IVR) 등에 활용되어, 사용자의 만족도를 향상시킬 수 있다.
성별 인식 기법은 성별에 따른 음성 신호로부터 주파수 또는 주파수에서 파생된 음향 정보 등과 같은 특징(feature)을 추출하고, 추출된 특징의 차이에 기초하여 발화자의 성별을 판별한다.
종래의 성별 판별 기법은 특징을 추출하기 위하여, 선형 예측 계수(linear predictive coefficient) 방법, 켑스트럽(cepstrum) 방법, 멜프리퀀스 켑스트럼(Mel frequency cepstral coefficient; MFCC) 방법 및 주파수 대역 별 에너지(filter bank energy) 방법 등을 사용한다.
또한, 추출된 특징을 이용하여 성별을 판별하기 위하여, 종래의 성별 판별 기법은 가우시안 혼합 모델(Gaussian mixture mode), 신경망 모델(neural network model), 지지 벡터 머신(support vector machine) 및 은닉 마코브 모델(hidden MarKov model) 등과 같은 단일 기계학습 알고리즘(machine learning algorithm)에 기초하여 생성된 분류기를 활용할 수 있다.
이와 같은 종래의 성별 판별 기법은 일반적으로 하나의 분류기를 통하여, 성별을 판별한다. 그러므로 종래의 성별 판별 기법은 한번 학습 된 분류기를 생성한 이후, 갱신(update)이 어려운 기계학습 알고리즘의 단점을 지닐 수 있다.
이와 관련하여, 한국 공개특허공보 제10-2012-0148678호(발명의 명칭: "음향 그룹의 전이확률을 활용한 문맥독립 성별인식 방법 및 장치")는 음향그룹의 전이확률을 활용한 문맥독립 성별 인식 방법을 개시하고 있다. 구체적으로 이 발명은 음성 신호의 음성 구간 내에서 특징 벡터를 생성하고, 은닉 마코브 모델에 기초하여, 생성된 특징 벡터에 대응하는 성별을 결정한다.
본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 분류기 및 추론기에 기초하여, 점진적으로 음성 데이터에 대한 성별 인식을 수행하는 장치 및 방법을 제공한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 음성 데이터에 대한 성별 인식 장치는 음성 데이터 입력 유닛, 성별 인식 프로그램이 저장된 메모리 및 메모리에 저장된 프로그램을 실행하는 프로세서를 포함한다. 이때, 프로세서는 프로그램의 실행에 따라, 프로그램에 포함된 분류기에 기초하여, 음성 데이터 입력 유닛을 통하여 입력된 음성 데이터를 발화하는 사용자의 성별을 인식하고, 프로그램에 포함된 추론기를 통해, 인식된 사용자의 성별과 신뢰값에 기초하여 사용자의 성별을 결정하되, 분류기는 기수집된 음성 데이터에 기초하여 생성된다.
또한, 본 발명의 제 2 측면에 따른 음성 데이터에 대한 성별 인식 장치에서의 성별 인식 방법은 음성 데이터에 대한 성별 인식 장치에서의 성별 인식 방법은 성별 인식 장치에 포함된 분류기에 기초하여, 음성 데이터를 발화하는 사용자의 성별을 인식하는 단계; 및 성별 인식 장치에 포함된 추론기를 통해, 인식된 사용자의 성별과 신뢰값에 기초하여, 사용자의 성별을 결정하는 단계를 포함한다. 이때, 분류기는 기수집된 음성 데이터에 기초하여 생성된다.
본 발명은 실시간으로 입력되는 음성 데이터로부터 분류기를 통하여, 성별을 인식하고, 인식된 성별에 대한 유효성 검증을 수행하여, 오인식을 방지할 수 있다. 또한, 본 발명은 순차적으로 인식된 성별에 대한 점진적인 병합을 수행하여, 성별 인식 정확도를 향상할 수 있다.
도 1은 본 발명의 일 실시예에 따른 성별 인식 장치의 블록도이다.
도 2는 본 발명의 일 실시예에 따른 분류기에 기초한 성별 인식 결과에 대한 유효성 검증의 예시도이다.
도 3은 본 발명의 일 실시예에 따른 신뢰값 갱신의 순서도이다.
도 4는 본 발명의 일 실시예에 따른 신뢰값 갱신에 대한 예시도이다.
도 5는 본 발명의 일 실시예에 따른 성별 인식 프로그램의 블록도이다.
도 6은 본 발명의 일 실시예에 따른 성별 인식 장치의 성별 인식 방법에 대한 순서도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
다음은 도 1 내지 도 4에 기초하여, 본 발명의 일 실시예에 따른 음성 데이터에 대한 성별 인식 장치(100)를 설명한다.
도 1은 본 발명의 일 실시예에 따른 성별 인식 장치(100)의 블록도이다.
성별 인식 장치(100)는 음성 데이터를 발화하는 사용자(140)의 성별을 인식한다. 이때, 성별 인식 장치(100)는 화자 독립(speaker-independent)으로 성별을 인식할 수 있다.
성별 인식 장치(100)는 음성 데이터 입력 유닛(110), 메모리(120) 및 프로세서(130)를 포함한다.
음성 데이터 입력 유닛(110)은 사용자(140)가 발화하는 음성 데이터를 수신한다. 예를 들어, 음성 데이터 입력 유닛(110)은 마이크, 전화기 또는 스마트 폰 등과 연결되어 사용자(140)가 실시간으로 발화하는 음성 데이터를 수집할 수 있다. 또는 음성 데이터 입력 유닛(110)은 녹음기 등이 수집한 사용자(140)가 발화하는 음성 데이터를 수신하는 유닛일 수 있다. 또한, 음성 데이터 입력 유닛(110)은 아날로그(analog)로 입력되는 음성 신호를 디지털(digital) 음성 데이터로 변환하는 하드웨어 또는 소프트웨어 디코더(decoder)를 포함할 수 있다.
음성 데이터 입력 유닛(110)이 수신하는 음성 데이터는 단일 사용자가 발화한 음성 데이터 일 수 있다.
메모리(120)는 성별 인식 프로그램을 저장한다. 이때, 메모리(120)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 저장된 정보를 유지하기 위하여 전력이 필요한 휘발성 저장장치를 통칭할 수 있다.
프로세서(130)는 음성 입력 유닛을 통하여 입력되는 음성 데이터의 전처리를 수행할 수 있다.
프로세서(130)는 전처리를 수행하기 위하여, 먼저 음성 입력 유닛을 통하여 입력되는 음성 데이터를 일정한 길이의 프레임(frame)으로 나눌 수 있다.
예를 들어, 실시간으로 음성이 입력되는 경우, 프로세서(130)는 음성 입력 유닛을 통하여 입력되는 실시간 음성 스트림(stream)을 일정한 길이 동안 저장하여, 프레임을 생성할 수 있다. 또는 음성 입력 유닛을 통하여, 수집된 음성 데이터를 수신하는 경우, 프로세서(130)는 일정한 길이의 프레임으로 수집된 음성 데이터를 분할할 수 있다. 이때, 일정한 길이는 20 내지 30밀리 초(millisecond)가 될 수 있다.
프로세서(130)는 일정 길이의 프레임으로 분할된 음성 프레임에 대하여, 전처리를 수행할 수 있다. 이때, 전처리는 잡음(noise) 제거 및 특징 추출(feature extraction) 등이 될 수 있으나, 이에 한정된 것은 아니다.
예를 들어, 프로세서(130)는 음성 프레임에 대하여 음성 및 비음성 프레임 여부를 판단할 수 있다. 그리고 프로세서(130)는 비음성 프레임을 잡음으로 제거할 수 있다. 이때, 비음성 프레임은 묵음 또는 화이트 노이즈(white noise)를 포함하는 구간일 수도 있다.
프로세서(130)는 노이즈가 제거된 음성 프레임에 대하여 특징 벡터를 추출할 수 있다. 예를 들어, 프로세서(130)는 멜-주파수 켑스트럼 계수에 기초하여 특징 벡터를 추출할 수 있다.
프로세서(130)는 추출된 특징 벡터에 대하여, 분류기 및 추론기에 기초하여, 음성 데이터를 발화하는 사용자(140)의 성별을 인식할 수 있다. 이때, 분류기는 학습을 위한 음성 데이터에 기초하여 기생성된 후 메모리(120)에 저장된 것일 수 있다. 그리고 추론기는 뎀스터-샤퍼(Dempster-Shafer) 이론에 기초하여 생성된 것일 수 있다.
구체적으로 프로세서(130)는 분류기를 학습하기 위한 학습 데이터(train data)를 수집할 수 있다. 이때, 프로세서(130)는 화자 독립으로 성별을 인식하기 위하여, 다양한 사용자(140)에 대한 학습 데이터를 수집할 수 있다.
그리고 프로세서(130)는 수집된 학습 데이터를 전처리할 수 있다. 이때, 전처리 방법은 앞에서 설명한 성별 인식을 위하여 음성 데이터에 수행한 잡음 제거 및 특징 추출 방법 등과 동일한 방법이 될 수 있다.
프로세서(130)는 학습 데이터로부터 추출된 특징 벡터에 기초하여, 분류기를 학습할 수 있다. 이때, 프로세서(130)는 통계적 학습 기법에 기초하여, 분류기를 학습할 수 있다. 예를 들어, 통계적 학습 기법은 가우시안 혼합 모델(Gaussian mixture model), 지지 벡터 머신(support vector machine), 신경망 모델(probabilistic neural network) 및 k-근접 이웃(k-nearest neighbor) 등이 될 수 있으나, 이에 한정된 것이 아니다.
한편, 프로세서(130)는 학습 된 분류기를 통하여, 음성 데이터로부터 추출된 특징 벡터에 대한 성별 인식 결과를 도출할 수 있다. 이때, 분류기의 성별 인식 결과는 추출된 특징 벡터에 대한 남성으로 분류될 확률 및 여성으로 분류될 확률을 포함할 수 있다.
또한, 프로세서(130)는 기생성된 분류기를 통하여 인식된 결과에 대하여, 추론기에 기초하여 사용자(140) 성별을 결정할 수 있다. 이때, 추론기는 뎀스터-샤퍼 이론에 기초하여, 생성될 수 있다. 추론기에 기초한 성별 인식 과정은 이하에서 도 2 내지 도 4를 참조하여 설명하기로 한다.
프로세서(130)는 앞에서 설명한 바와 같이, 음성 데이터를 일정 길이의 프레임으로 분할한 음성 프레임에 대하여, 분류기에 기반한 분류 결과를 생성할 수 있다. 이때, 프레임은 지속 시간이 매우 짧을 수 있다. 그러므로 프로세서(130)는 미리 정해진 개수의 프레임을 병합하여, 세그먼트(segment)를 생성할 수 있다.
즉, 프로세서(130)는 음성 데이터로부터 추출된 복수의 프레임을 이용하여, 순차적으로 복수의 세그먼트를 생성할 수 있다. 그리고 프로세서(130)는 순차적으로 생성된 복수의 세그먼트를 이용하여 음성 데이터에 대한 성별을 인식할 수 있다.
이를 위하여, 프로세서(130)는 세그먼트에 포함된 복수의 프레임에 대하여 분류기 기반 성별 인식을 수행할 수 있다. 그리고 프로세서(130) 복수의 프레임에 대하여, 생성된 분류기 기반 성별 인식 결과를 병합하여 해당 세그먼트의 분류기 기반 성별 인식 결과를 생성할 수 있다.
예를 들어, 프로세서(130)는 세그먼트에 포함된 각 프레임의 분류기 기반 성별 인식 결과의 평균을 세그먼트에 대한 분류기 기반 성별 인식 결과로 생성할 수 있다. 또는, 프로세서(130)는 복수의 프레임이 포함된 세그먼트를 생성한 후, 생성된 세그먼트에 대하여 분류기 기반 성별 인식을 수행하여, 해당 세그먼트의 분류기 기반 성별 인식 결과를 생성할 수 있다.
세그먼트에 대한 분류기 기반 성별 인식이 수행된 이후, 프로세서(130)는 추론기를 통해 음성 데이터를 발화한 사용자(140)의 성별을 결정할 수 있다.
이때, 분리기 기반 성별 인식 결과가 모호한 경우, 프로세서(130)는 사용자(140)의 성별을 오인식할 가능성이 커질 수 있다. 그러므로 프로세서(130)는 해당 세그먼트에 대한 분류기 기반 성별 인식 결과에 대한 유효성을 검증할 수 있다. 그리고 프로세서(130)는 분류기 기반 성별 인식 결과가 모호한 경우, 해당 세그먼트에 대한 결과를 무효화 할 수 있다.
예를 들어, 분류기의 성별 인식 결과에 대응하는 확률이 미리 정해진 상한값을 초과하는 경우, 프로세서(130)는 분류기의 성별 인식 결과를 유효하다고 검증할 수 있다. 이와 반대로, 분류기의 성별 인식 결과에 대응하는 확률이 미리 정해진 상한값 이하인 경우, 프로세서(130)는 분류기의 성별 인식 결과를 무효하다고 검증할 수 있다.
도 2는 본 발명의 일 실시예에 따른 분류기에 기초한 성별 인식 결과에 대한 유효성 검증의 예시도이다.
도 2를 참조하면, 프로세서(130)는 결과에 포함된 확률 값 중 미리 설정된 상한값을 초과하는 확률 값은 포지티브 증거(positive evidence)로 활용하며, 미리 설정된 하한값 미만의 확률 값을 네가티브 증거(negative evidence)로 활용할 수 있다. 그리고 프로세서(130)는 확률 값이 미리 설정된 하한값과 미리 설정된 상한값의 사이에 위치하는 경우, 해당 확률 값을 불명확한 결과(ambiguous result)로 활용할 수 있다. 이때, 미리 설정된 상한값은 0.55, 미리 설정된 하한값은 0.45일 수 있으나, 이에 한정된 것은 아니다.
그러므로 프로세서(130)는 분류기의 성별 인식 결과에 포함된 남성 또는 여성에 대한 확률 중 큰 값이 포지티브 증거인 경우, 해당 결과를 유효하다고 판단할 수 있다. 또한, 프로세서(130)는 큰 값이 불확실한 결과인 경우, 해당 결과를 무효하다고 판단할 수 있다.
도 3은 본 발명의 일 실시예에 따른 신뢰값 갱신의 순서도이다.
이와 같이, 프로세서(130)는 세그먼트에 대한 분류기의 성별 인식 결과가 생성되면(S300), 생성된 분류기의 성별 인식 결과에 대한 유효성을 판단할 수 있다(S310).
그리고 분류 인식 결과가 유효한 경우(S320), 프로세서(130)는 세그먼트에 대한 분류 결과와 신뢰값(belief value)을 병합하여(S330), 성별 인식 결과를 결정할 수 있다(S330). 이때, 신뢰값은 이전에 입력된 세그먼트로부터 인식된 사용자(140)의 성별에 기초하여 생성될 수 있다.
구체적으로 프로세서(130)는 이전 입력된 세그먼트들로 생성된 신뢰값과 현재 생성된 세그먼트에 대한 분류기의 분류 결과를 병합하여, 인식 결과를 생성할 수 있다(S330). 그리고 프로세서는 생성된 인식 결과를 이용하여 신뢰 값을 갱신할 수 있다(S340).
이때, 이전 입력된 세그먼트는 음성 데이터가 연속적으로 입력될 때, 이전에 입력되어 분류기 및 추론기에 기초하여 성별을 인식한 세그먼트를 의미할 수 있다. 또한, 이전 신뢰값은 복수의 세그먼트에 대한 성별 인식 결과에 기초하여 점진적(incremental)으로 병합하여 생성된 것이다. 만약 이전에 입력된 세그먼트가 없는 경우, 프로세서(130)는 현재 세그먼트에 대한 분류기 인식 결과에 기초하여 신뢰값을 산출하고, 이를 향후 성별 인식에 활용할 수 있다.
도 4는 본 발명의 일 실시예에 따른 신뢰값 갱신에 대한 예시도이다.
프로세서(130)는 음성 데이터(400)로부터 순차적으로 복수의 세그먼트(410, 420, 430, 440)를 추출할 수 있다. 그리고 프로세서(130)는 분류기에 기반하여 처음 입력되는 제 1 세그먼트에 대한 분류 결과(410)를 생성할 수 있다. 프로세서(130)는 생성된 제 1 세그먼트 분류 결과(410)에 대하여 유효성을 검증할 수 있다. 제 1 세그먼트 분류 결과(410)는 남성에 대한 확률이 0.8로 미리 정해진 상한값 0.55를 초과하므로, 프로세서(130)는 제 1 세그먼트 분류 결과를 유효하다고 검증할 수 있다.
그리고 프로세서(130)는 이전에 분류기에 기반하여 분류된 인식 결과값이 없으므로, 제 1 세그먼트 분류 결과(410)를 제 1 인식 결과(450)로 생성할 수 있다. 그리고 프로세서는 제 1 인식 결과(450)에서 남성으로 분류될 확률 및 여성으로 분류될 확률을 비교하여, 음성 데이터(400)를 발화하는 사용자(140)의 성별을 남성으로 결정할 수 있다. 그리고 제 1 인식 결과(450)는 향후 입력되는 세그먼트에 사용될 수 있는 신뢰값이 될 수 있다.
다음으로, 제 2 세그먼트에 대한 분류 결과(420)가 생성되면, 프로세서(130)는 제 2 세그먼트 분류 결과(420)에 대한 유효성 검증을 수행할 수 있다. 이때, 제 2 세그먼트 분류 결과(420)에 포함된 남성의 확률이 0.70으로 미리 정해진 상한값을 초과하므로 프로세서(130)는 제 2 세그먼트 분류 결과(420)를 유효하다고 검증할 수 있다.
그리고 프로세서(130)는 신뢰값인 제 1 인식 결과(450)에 제 2 세그먼트 분류 결과(420)를 병합할 수 있다. 예를 들어, 프로세서(130)는 [수학식 1]에 기초하여 두 세그먼트에 대한 분류 결과를 병합한 분류 결과를 생성할 수 있다.
Figure 112016003297529-pat00001
수학식 1에서 PF m 는 병합된 분류 결과에서 남성으로 인식될 확률이며, PF F 는 병합된 분류 결과에서 여성으로 인식될 확률이다. 그러므로 i번째 세그먼트에 대한 병합된 분류 결과
Figure 112016003297529-pat00002
는 분류기에 의해 산출된 성별에 대한 확률 값
Figure 112016003297529-pat00003
Figure 112016003297529-pat00004
및 이전 세그먼트에 대한 병합된 분류 결과인
Figure 112016003297529-pat00005
Figure 112016003297529-pat00006
에 기초하여 산출될 수 있다.
그리고 프로세서(130)는 제 1 세그먼트 분류 결과(410) 및 제 2 세그먼트 분류 결과(420)를 병합하여 제 2 인식 결과(460)를 생성할 수 있다. 그리고 프로세서(130)는 신뢰값을 생성된 제 2 인식 결과(460)로 갱신할 수 있다. 프로세서(130)는 제 2 인식 결과(460)에 남성일 확률이 여성일 확률에 비하여 크므로, 음성 데이터를 발화하는 사용자(140)를 남성으로 결정할 수 있다.
다음으로 프로세서(130)는 음성 데이터(400)로부터 추출된 제 3 세그먼트에 대하여, 분류기 기반 성별 인식 결과(430)를 산출할 수 있다. 그리고 프로세서(130)는 산출된 제 3 세그먼트 분류 결과(430)에 대한 유효성 검증을 수행할 수 있다. 이때, 제 3 세그먼트 분류 결과에 포함된 남성일 확률이 0.53으로 미리 정해진 상한값 이하이므로, 프로세서(130)는 제 3 세그먼트의 분류 결과(430)를 무효로 검증할 수 있다. 그리고 프로세서(130)는 무효화된 제 3 세그먼트의 분류 결과(430)와 신뢰값의 병합을 수행하지 않을 수 있다.
프로세서(130)는 제 4 세그먼트에 대하여, 분류기에 기초하여 제 4 세그먼트 분류 결과(440)를 산출할 수 있다. 그리고 프로세서(130)는 산출된 제 4 세그먼트 분류 결과(440)에 대한 유효성 검증을 수행할 수 있다. 이때, 제 4 세그먼트 분류 결과(440)에 포함된 남성일 확률이 0.60으로 미리 정해진 상한값을 초과하므로, 프로세서(130)는 제 4 세그먼트의 분류 결과(440)를 유효로 검증할 수 있다.
그리고 프로세서(130)는 신뢰값인 제 2 인식 결과(460)와 제 4 세그먼트의 분류 결과(440)를 병합하여, 제 3 인식 결과(470)를 생성할 수 있다. 그리고 제 3 인식 결과(470)에 따라, 프로세서(130)는 음성 데이터(400)를 발화한 사용자(140)를 남성으로 결정할 수 있다.
그리고 프로세서(130)는 제 3 인식 결과(470)를 새로운 신뢰값으로 설정할 수 있다. 이후 다른 세그먼트에 대한 분류 결과가 생성되면, 프로세서(130)는 이렇게 설정된 신뢰값에 기초하여, 새로운 인식 결과를 생성할 수 있다.
이와 같이, 프로세서(130)는 음성 데이터에 포함된 복수의 세그먼트에 대한 분류 결과를 점진적으로 병합하여, 음성 데이터를 발화한 사용자(140)의 성별 인식 결과를 생성할 수 있다. 그리고 프로세서(130)는 확률이 큰 성별을 선택하여 최종적으로 음성 데이터를 발화하는 사용자(140)의 성별을 인식할 수 있다.
다음은 도 5를 참조하여 본 발명의 일 실시예에 따른 성별 인식 프로그램을 설명한다.
도 5는 본 발명의 일 실시예에 따른 성별 인식 프로그램의 블록도이다.
본 발명의 일 실시예에 따른 성별 인식 장치(100)에 포함된 메모리(120)에 저장되는 성별 인식 프로그램은 분류기 학습 모듈(510) 및 성별 인식 모듈(540)을 포함한다.
이때, 분류기 학습 모듈(510)은 학습 데이터(500)에 기초하여 학습 된 분류기를 생성할 수 있다. 분류기 학습 모듈(510)은 전처리 모듈 및 분류기 모듈을 포함할 수 있다.
전처리 모듈(511)은 학습 데이터(500)에 포함된 음성 데이터로부터 잡음을 제거하고 특징 벡터를 추출할 수 있다. 그리고 전처리 모듈(511)은 전처리된 학습 데이터를 분류기 모듈(512)로 전송할 수 있다.
분류기 모듈(512)은 전처리 모듈(511)로부터 처리된 음성 데이터를 이용하여, 분류기를 학습할 수 있다. 그리고 분류기 모듈(512)은 학습된 분류기(520)를 생성하여, 성별 인식 모듈(540)이 활용할 수 있도록 메모리(120)에 저장할 수 있다.
성별 인식 모듈(540)은 실시간으로 입력되는 음성 데이터로부터 음성 데이터를 발화하는 사용자(140)의 성별을 인식할 수 있다. 이때, 성별 인식 모듈(540)은 전처리 모듈(541), 분류기 기반 성별 인식 모듈(542), 추론기 기반 성별 인식 모듈(543) 및 성별 인식 결과 판단 모듈(544)을 포함할 수 있다.
전처리 모듈(541)은 음성 데이터(530)를 전처리할 수 있다. 이때, 전처리 모듈(541)은 분류기 학습 모듈의 전처리 모듈과 동일한 방법을 이용하여 음성 데이터를 전처리할 수 있다. 또한, 전처리 모듈(541)은 음성 데이터(530)에 기초하여, 복수의 세그먼트를 추출할 수 있다. 전처리 모듈(541)은 추출된 복수의 세그먼트를 분류기 기반 성별 인식 모듈(542)로 전달할 수 있다.
분류기 기반 성별 인식 모듈(542)은 전처리 모듈(541)에 의하여 추출된 세그먼트를 학습된 분류기(520)를 통과하여 성별 인식 결과를 생성할 수 있다. 이때, 학습된 분류기(520)는 분류기 학습 모듈(510)에 의해 학습된 후 저장된 것을 수 있다.
추론기 기반 성별 인식 모듈(543)은 분류기 기반 성별 인식 모듈(542)에 의해서 인식된 세그먼트에 대한 성별 인식 결과에 대한 유효성을 검증하고, 기저장된 신뢰값에 기초하여, 병합된 성별 인식 결과를 생성할 수 있다. 그리고 추론기 기반 성별 인식 모듈(543)은 병합된 성별 인식 결과를 신뢰값으로 갱신할 수 있다.
이때, 복수의 세그먼트에 대하여 성별 인식이 완료되지 않았을 경우, 성별 인식 모듈(540)은 복수의 세그먼트에 대한 성별 인식이 완료할 때까지 분류기 기반 성별 인식 모듈(542) 및 추론기 기반 성별 인식 모듈(543)을 반복하여 수행할 수 있다.
성별 인식 결과 판단 모듈(544)은 분류기 기반 성별 인식 모듈(542) 및 추론기 기반 성별 인식 결과 모듈(543)의 성별 인식 결과(550)에 따라, 음성 데이터(530)를 발화한 사용자(140)의 성별을 인식할 수 있다.
다음은 도 6을 참조하여, 본 발명의 일 실시예에 따른 성별 인식 장치(100)의 성별 인식 방법을 설명한다.
도 6은 본 발명의 일 실시예에 따른 성별 인식 장치(100)의 성별 인식 방법에 대한 순서도이다.
본 발명의 일 실시예에 따른 성별 인식 장치(100)는 분류기에 기초하여, 음성 데이터를 발화하는 사용자(140)의 성별을 인식한다(S600). 이때, 분류기는 기수집된 음성 데이터에 기초하여 생성된 것이다. 추론기는 신뢰값에 기초하여 사용자(140)의 성별을 인식하는 것이다.
그리고 음성 데이터는 전화기 및 스마트폰 등을 통하여 수집된 전화 음성 데이터일 수 있다. 이때, 음성 데이터는 복수의 세그먼트를 포함할 수 있다. 그러므로 성별 인식 장치(100)는 복수의 세그먼트 중 어느 하나의 세그먼트에 대하여 사용자(140) 성별을 인식할 수 있다.
즉, 추론기가 사용하는 신뢰값은 현재 성별을 인식하는 세그먼트 이전의 세그먼트로부터 인식된 사용자(140) 성별에 기초하여 생성될 수 있다. 이때, 이전 세그먼트는 음성 데이터에 포함된 복수의 세그먼트 중 현재 성별을 인식하는 세그먼트보다 시간의 순서 상 이전에 입력된 세그먼트를 의미할 수 있다.
성별 인식 장치(100)는 생성된 분류기에 대응하는 성별 인식 결과와 신뢰값에 기초하여, 추론기를 통하여, 사용자(140)의 성별을 인식한다(S610).
이때, 성별 인식 장치(100)는 추론기를 통하여, 사용자(140)의 성별을 인식하기 위하여(S610) 먼저 분류기에 기초하여 인식된 사용자(140)의 성별에 대한 유효성을 검증할 수 있다. 그리고 성별 인식 장치(100)는 분류기에 기초하여 인식된 사용자(140)의 성별이 유효한 경우, 신뢰값과 병합할 수 있다. 이를 통하여, 성별 인식 장치(100)는 기생성된 분류기에 대응하는 성별 인식 결과 및 이전 세그먼트로부터 인식된 성별 인식 결과에 기초하여, 사용자(140)의 성별을 결정할 수 있다.
그리고 성별 인식 장치(100)는 결정된 사용자(140)의 성별을 신뢰값으로 재설정할 수 있다. 성별 인식 장치(100)는 재설정된 신뢰값을 다음 세그먼트에 대한 사용자(140) 성별을 인식할 때 활용할 수 있다.
음성 데이터에 대한 성별 인식 장치(100) 및 성별 인식 방법은 실시간으로 입력되는 음성 데이터로부터 분류기를 통하여, 성별을 인식하고, 인식된 성별에 대한 유효성 검증을 수행하여, 오인식을 방지할 수 있다. 또한, 음성 데이터에 대한 성별 인식 장치(100) 및 성별 인식 방법은 순차적으로 인식된 성별에 대한 점진적인 병합을 수행하여, 성별 인식 정확도를 향상할 수 있다.
본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 성별 인식 장치
110: 음성 데이터 입력 유닛
120: 메모리
130: 프로세서
140: 사용자

Claims (14)

  1. 음성 데이터에 대한 성별 인식 장치에 있어서,
    음성 데이터 입력 유닛,
    성별 인식 프로그램이 저장된 메모리 및
    상기 메모리에 저장된 프로그램을 실행하는 프로세서를 포함하되,
    상기 프로세서는 상기 프로그램의 실행에 따라, 상기 프로그램에 포함된 분류기에 기초하여, 음성 데이터에 포함된 복수의 세그먼트 중 어느 하나의 세그먼트에 대하여, 발화하는 사용자의 성별에 대한 확률을 산출하고, 상기 산출된 사용자의 성별에 대한 확률에 기초하여, 발화하는 사용자의 성별을 인식하고,
    상기 프로그램에 포함된 추론기를 통해, 상기 인식된 사용자의 성별에 대응하는 확률이 미리 정해진 상한값을 초과하는 경우, 상기 인식된 사용자의 성별을 유효한 것으로 검증하고, 상기 인식된 사용자의 성별에 대응하는 확률이 미리 정해진 상한값 미만인 경우, 상기 인식된 사용자의 성별을 무효한 것으로 검증하고,
    상기 인식된 사용자의 성별이 유효한 경우, 하기 수학식을 통하여 상기 분류기에 의해 산출된 사용자의 성별에 대한 확률 및 신뢰값을 병합하여 상기 사용자의 성별을 결정하되,
    상기 분류기는 기수집된 음성 데이터에 기초하여 생성된 것이고,
    상기 음성 데이터는 상기 음성 데이터 입력 유닛을 통하여 입력된 것이고,
    상기 사용자의 성별에 대한 확률은 상기 사용자가 남성일 확률 및 상기 사용자가 여성일 확률을 포함하는 것인, 성별 인식 장치.
    [수학식]
    Figure 112016051697548-pat00013

    Figure 112016051697548-pat00014
    : 상기 사용자가 남성일 확률,
    Figure 112016051697548-pat00015
    : 상기 사용자가 여성일 확률,
    Figure 112016051697548-pat00016
    : 상기 분류기에 의해 산출된 상기 사용자가 남성일 확률,
    Figure 112016051697548-pat00017
    : 상기 분류기에 의해 산출된 상기 사용자가 여성일 확률,
    Figure 112016051697548-pat00018
    : 상기 사용자가 남성일 경우에 대한 신뢰값,
    Figure 112016051697548-pat00019
    : 상기 사용자가 여성일 경우에 대한 신뢰값.
  2. 삭제
  3. 제 1 항에 있어서,
    상기 신뢰값은 상기 어느 하나의 세그먼트 이전의 세그먼트에 대하여 인식된 사용자의 성별에 대한 확률에 기초하여 생성되는 것이며,
    상기 이전 세그먼트는 시간의 순서 상 상기 복수의 세그먼트 중 상기 어느 하나의 세그먼트 이전에 입력된 세그먼트인, 성별 인식 장치.
  4. 삭제
  5. 제 1 항에 있어서,
    상기 프로세서는 상기 사용자의 성별이 결정된 이후, 상기 결정된 사용자의 성별에 대응하는 확률을 상기 신뢰값으로 재설정하는, 성별 인식 장치.
  6. 삭제
  7. 제 1 항에 있어서,
    상기 음성 데이터는 전화 음성 데이터인, 성별 인식 장치.
  8. 제 1 항에 있어서,
    상기 추론기는 뎀프스터-샤퍼(Dempster-Shafer) 이론에 기초하여 생성되는 것인, 성별 인식 장치.
  9. 음성 데이터에 대한 성별 인식 장치에서의 성별 인식 방법에 있어서,
    상기 성별 인식 장치에 포함된 분류기에 기초하여, 음성 데이터에 포함된 복수의 세그먼트 중 어느 하나의 세그먼트에 대하여, 발화하는 사용자의 성별에 대한 확률을 산출하는 단계;
    상기 산출된 사용자의 성별에 대한 확률에 기초하여, 발화하는 사용자의 성별을 인식하는 단계;
    상기 성별 인식 장치에 포함된 추론기를 통해, 상기 인식된 사용자의 성별에 대응하는 확률이 미리 정해진 상한값을 초과하는 경우, 상기 인식된 사용자의 성별을 유효한 것으로 검증하고, 상기 인식된 사용자의 성별에 대응하는 확률이 미리 정해진 상한값 미만인 경우, 상기 인식된 사용자의 성별을 무효한 것으로 검증하는 단계; 및
    상기 인식된 사용자의 성별이 유효한 경우, 하기 수학식을 통하여 상기 분류기에 의해 산출된 사용자의 성별에 대한 확률 및 신뢰값을 병합하여 상기 사용자의 성별을 결정하는 단계를 포함하되,
    상기 분류기는 기수집된 음성 데이터에 기초하여 생성된 것이고,
    상기 음성 데이터는 상기 음성 데이터 입력 유닛을 통하여 입력된 것이고,
    상기 사용자의 성별에 대한 확률은 상기 사용자가 남성일 확률 및 상기 사용자가 여성일 확률을 포함하는 것인, 성별 인식 방법.
    [수학식]
    Figure 112016051697548-pat00020

    Figure 112016051697548-pat00021
    : 상기 사용자가 남성일 확률,
    Figure 112016051697548-pat00022
    : 상기 사용자가 여성일 확률,
    Figure 112016051697548-pat00023
    : 상기 분류기에 의해 산출된 상기 사용자가 남성일 확률,
    Figure 112016051697548-pat00024
    : 상기 분류기에 의해 산출된 상기 사용자가 여성일 확률,
    Figure 112016051697548-pat00025
    : 상기 사용자가 남성일 경우에 대한 신뢰값,
    Figure 112016051697548-pat00026
    : 상기 사용자가 여성일 경우에 대한 신뢰값.
  10. 삭제
  11. 제 9 항에 있어서,
    상기 신뢰값은 상기 어느 하나의 세그먼트 이전의 세그먼트에 대하여 인식된 사용자의 성별에 대한 확률에 기초하여 생성되는 것이며,
    상기 이전 세그먼트는 시간의 순서 상 상기 복수의 세그먼트 중 상기 어느 하나의 세그먼트 이전에 입력된 세그먼트인, 성별 인식 방법.
  12. 삭제
  13. 삭제
  14. 제 9 항 및 제 11 항 중 어느 한 항에 기재된 방법을 컴퓨터 상에서 수행하기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
KR1020160003709A 2016-01-12 2016-01-12 음성 데이터에 대한 성별 인식 장치 및 성별 인식 방법 KR101658452B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160003709A KR101658452B1 (ko) 2016-01-12 2016-01-12 음성 데이터에 대한 성별 인식 장치 및 성별 인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160003709A KR101658452B1 (ko) 2016-01-12 2016-01-12 음성 데이터에 대한 성별 인식 장치 및 성별 인식 방법

Publications (1)

Publication Number Publication Date
KR101658452B1 true KR101658452B1 (ko) 2016-09-21

Family

ID=57080639

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160003709A KR101658452B1 (ko) 2016-01-12 2016-01-12 음성 데이터에 대한 성별 인식 장치 및 성별 인식 방법

Country Status (1)

Country Link
KR (1) KR101658452B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428843A (zh) * 2019-03-11 2019-11-08 杭州雄迈信息技术有限公司 一种语音性别识别深度学习方法
KR102498268B1 (ko) * 2022-07-15 2023-02-09 국방과학연구소 화자 인식을 위한 전자 장치 및 그의 동작 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050036301A (ko) * 2003-10-15 2005-04-20 한국전자통신연구원 피치와 엠.에프.씨.씨를 이용한 성별식별 장치 및 방법
KR20140079092A (ko) * 2012-12-18 2014-06-26 한국전자통신연구원 음향그룹의 전이확률을 활용한 문맥독립 성별인식 방법 및 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050036301A (ko) * 2003-10-15 2005-04-20 한국전자통신연구원 피치와 엠.에프.씨.씨를 이용한 성별식별 장치 및 방법
KR20140079092A (ko) * 2012-12-18 2014-06-26 한국전자통신연구원 음향그룹의 전이확률을 활용한 문맥독립 성별인식 방법 및 장치

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428843A (zh) * 2019-03-11 2019-11-08 杭州雄迈信息技术有限公司 一种语音性别识别深度学习方法
CN110428843B (zh) * 2019-03-11 2021-09-07 杭州巨峰科技有限公司 一种语音性别识别深度学习方法
KR102498268B1 (ko) * 2022-07-15 2023-02-09 국방과학연구소 화자 인식을 위한 전자 장치 및 그의 동작 방법

Similar Documents

Publication Publication Date Title
US11636860B2 (en) Word-level blind diarization of recorded calls with arbitrary number of speakers
US11361763B1 (en) Detecting system-directed speech
US11295748B2 (en) Speaker identification with ultra-short speech segments for far and near field voice assistance applications
US10109280B2 (en) Blind diarization of recorded calls with arbitrary number of speakers
WO2021139425A1 (zh) 语音端点检测方法、装置、设备及存储介质
KR101702829B1 (ko) 인공 신경망 기반 서브-음성 유닛 구별을 이용한 화자 검증 및 식별
US11854573B2 (en) Alternate response generation
EP3156978A1 (en) A system and a method for secure speaker verification
CN101118745B (zh) 语音识别系统中的置信度快速求取方法
US10872599B1 (en) Wakeword training
CN111341325A (zh) 声纹识别方法、装置、存储介质、电子装置
KR20010102549A (ko) 화자 인식 방법 및 장치
KR101658452B1 (ko) 음성 데이터에 대한 성별 인식 장치 및 성별 인식 방법
KR101809511B1 (ko) 발화자의 연령대 인식 장치 및 방법
CN114303186A (zh) 用于在语音合成中适配人类说话者嵌入的系统和方法
CN114155882B (zh) 一种基于语音识别的“路怒”情绪判断方法和装置
CN114512133A (zh) 发声对象识别方法、装置、服务器及存储介质
US20210398521A1 (en) Method and device for providing voice recognition service
KR20210052563A (ko) 문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치
US11531736B1 (en) User authentication as a service
KR101648396B1 (ko) 발화자의 성별 인식 장치 및 그를 이용한 성별 인식 방법
Herbig et al. Adaptive systems for unsupervised speaker tracking and speech recognition
Tashan et al. Vowel based speaker verification using self organising map
JP2021162685A (ja) 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム
BenZeghiba Joint speech and speaker recognition

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190722

Year of fee payment: 4