KR101658452B1 - 음성 데이터에 대한 성별 인식 장치 및 성별 인식 방법 - Google Patents
음성 데이터에 대한 성별 인식 장치 및 성별 인식 방법 Download PDFInfo
- Publication number
- KR101658452B1 KR101658452B1 KR1020160003709A KR20160003709A KR101658452B1 KR 101658452 B1 KR101658452 B1 KR 101658452B1 KR 1020160003709 A KR1020160003709 A KR 1020160003709A KR 20160003709 A KR20160003709 A KR 20160003709A KR 101658452 B1 KR101658452 B1 KR 101658452B1
- Authority
- KR
- South Korea
- Prior art keywords
- user
- gender
- probability
- voice data
- classifier
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 37
- 238000007781 pre-processing Methods 0.000 description 16
- 230000011218 segmentation Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 6
- 238000012795 verification Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
본 발명은 음성 데이터 입력 유닛, 성별 인식 프로그램이 저장된 메모리 및 메모리에 저장된 프로그램을 실행하는 프로세서를 포함한다. 이때, 프로세서는 프로그램의 실행에 따라, 프로그램에 포함된 분류기에 기초하여, 음성 데이터 입력 유닛을 통하여 입력된 음성 데이터를 발화하는 사용자의 성별을 인식하고, 프로그램에 포함된 추론기를 통해, 인식된 사용자의 성별과 신뢰값에 기초하여 사용자의 성별을 결정하되, 분류기는 기수집된 음성 데이터에 기초하여 생성된다.
Description
본 발명은 음성 데이터에 대한 성별 인식 장치 및 성별 인식 방법에 관한 것이다.
성별 인식 기법은 발화자의 음성 데이터로부터 발화자의 성별을 인식할 수 있다. 성별 인식 기법은 자동 음성 인식(automatic speech recognition; ASR) 및 대화형 음성 응답(interactive voice response; IVR) 등에 활용되어, 사용자의 만족도를 향상시킬 수 있다.
성별 인식 기법은 성별에 따른 음성 신호로부터 주파수 또는 주파수에서 파생된 음향 정보 등과 같은 특징(feature)을 추출하고, 추출된 특징의 차이에 기초하여 발화자의 성별을 판별한다.
종래의 성별 판별 기법은 특징을 추출하기 위하여, 선형 예측 계수(linear predictive coefficient) 방법, 켑스트럽(cepstrum) 방법, 멜프리퀀스 켑스트럼(Mel frequency cepstral coefficient; MFCC) 방법 및 주파수 대역 별 에너지(filter bank energy) 방법 등을 사용한다.
또한, 추출된 특징을 이용하여 성별을 판별하기 위하여, 종래의 성별 판별 기법은 가우시안 혼합 모델(Gaussian mixture mode), 신경망 모델(neural network model), 지지 벡터 머신(support vector machine) 및 은닉 마코브 모델(hidden MarKov model) 등과 같은 단일 기계학습 알고리즘(machine learning algorithm)에 기초하여 생성된 분류기를 활용할 수 있다.
이와 같은 종래의 성별 판별 기법은 일반적으로 하나의 분류기를 통하여, 성별을 판별한다. 그러므로 종래의 성별 판별 기법은 한번 학습 된 분류기를 생성한 이후, 갱신(update)이 어려운 기계학습 알고리즘의 단점을 지닐 수 있다.
이와 관련하여, 한국 공개특허공보 제10-2012-0148678호(발명의 명칭: "음향 그룹의 전이확률을 활용한 문맥독립 성별인식 방법 및 장치")는 음향그룹의 전이확률을 활용한 문맥독립 성별 인식 방법을 개시하고 있다. 구체적으로 이 발명은 음성 신호의 음성 구간 내에서 특징 벡터를 생성하고, 은닉 마코브 모델에 기초하여, 생성된 특징 벡터에 대응하는 성별을 결정한다.
본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 분류기 및 추론기에 기초하여, 점진적으로 음성 데이터에 대한 성별 인식을 수행하는 장치 및 방법을 제공한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 음성 데이터에 대한 성별 인식 장치는 음성 데이터 입력 유닛, 성별 인식 프로그램이 저장된 메모리 및 메모리에 저장된 프로그램을 실행하는 프로세서를 포함한다. 이때, 프로세서는 프로그램의 실행에 따라, 프로그램에 포함된 분류기에 기초하여, 음성 데이터 입력 유닛을 통하여 입력된 음성 데이터를 발화하는 사용자의 성별을 인식하고, 프로그램에 포함된 추론기를 통해, 인식된 사용자의 성별과 신뢰값에 기초하여 사용자의 성별을 결정하되, 분류기는 기수집된 음성 데이터에 기초하여 생성된다.
또한, 본 발명의 제 2 측면에 따른 음성 데이터에 대한 성별 인식 장치에서의 성별 인식 방법은 음성 데이터에 대한 성별 인식 장치에서의 성별 인식 방법은 성별 인식 장치에 포함된 분류기에 기초하여, 음성 데이터를 발화하는 사용자의 성별을 인식하는 단계; 및 성별 인식 장치에 포함된 추론기를 통해, 인식된 사용자의 성별과 신뢰값에 기초하여, 사용자의 성별을 결정하는 단계를 포함한다. 이때, 분류기는 기수집된 음성 데이터에 기초하여 생성된다.
본 발명은 실시간으로 입력되는 음성 데이터로부터 분류기를 통하여, 성별을 인식하고, 인식된 성별에 대한 유효성 검증을 수행하여, 오인식을 방지할 수 있다. 또한, 본 발명은 순차적으로 인식된 성별에 대한 점진적인 병합을 수행하여, 성별 인식 정확도를 향상할 수 있다.
도 1은 본 발명의 일 실시예에 따른 성별 인식 장치의 블록도이다.
도 2는 본 발명의 일 실시예에 따른 분류기에 기초한 성별 인식 결과에 대한 유효성 검증의 예시도이다.
도 3은 본 발명의 일 실시예에 따른 신뢰값 갱신의 순서도이다.
도 4는 본 발명의 일 실시예에 따른 신뢰값 갱신에 대한 예시도이다.
도 5는 본 발명의 일 실시예에 따른 성별 인식 프로그램의 블록도이다.
도 6은 본 발명의 일 실시예에 따른 성별 인식 장치의 성별 인식 방법에 대한 순서도이다.
도 2는 본 발명의 일 실시예에 따른 분류기에 기초한 성별 인식 결과에 대한 유효성 검증의 예시도이다.
도 3은 본 발명의 일 실시예에 따른 신뢰값 갱신의 순서도이다.
도 4는 본 발명의 일 실시예에 따른 신뢰값 갱신에 대한 예시도이다.
도 5는 본 발명의 일 실시예에 따른 성별 인식 프로그램의 블록도이다.
도 6은 본 발명의 일 실시예에 따른 성별 인식 장치의 성별 인식 방법에 대한 순서도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
다음은 도 1 내지 도 4에 기초하여, 본 발명의 일 실시예에 따른 음성 데이터에 대한 성별 인식 장치(100)를 설명한다.
도 1은 본 발명의 일 실시예에 따른 성별 인식 장치(100)의 블록도이다.
성별 인식 장치(100)는 음성 데이터를 발화하는 사용자(140)의 성별을 인식한다. 이때, 성별 인식 장치(100)는 화자 독립(speaker-independent)으로 성별을 인식할 수 있다.
성별 인식 장치(100)는 음성 데이터 입력 유닛(110), 메모리(120) 및 프로세서(130)를 포함한다.
음성 데이터 입력 유닛(110)은 사용자(140)가 발화하는 음성 데이터를 수신한다. 예를 들어, 음성 데이터 입력 유닛(110)은 마이크, 전화기 또는 스마트 폰 등과 연결되어 사용자(140)가 실시간으로 발화하는 음성 데이터를 수집할 수 있다. 또는 음성 데이터 입력 유닛(110)은 녹음기 등이 수집한 사용자(140)가 발화하는 음성 데이터를 수신하는 유닛일 수 있다. 또한, 음성 데이터 입력 유닛(110)은 아날로그(analog)로 입력되는 음성 신호를 디지털(digital) 음성 데이터로 변환하는 하드웨어 또는 소프트웨어 디코더(decoder)를 포함할 수 있다.
음성 데이터 입력 유닛(110)이 수신하는 음성 데이터는 단일 사용자가 발화한 음성 데이터 일 수 있다.
메모리(120)는 성별 인식 프로그램을 저장한다. 이때, 메모리(120)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 저장된 정보를 유지하기 위하여 전력이 필요한 휘발성 저장장치를 통칭할 수 있다.
프로세서(130)는 음성 입력 유닛을 통하여 입력되는 음성 데이터의 전처리를 수행할 수 있다.
프로세서(130)는 전처리를 수행하기 위하여, 먼저 음성 입력 유닛을 통하여 입력되는 음성 데이터를 일정한 길이의 프레임(frame)으로 나눌 수 있다.
예를 들어, 실시간으로 음성이 입력되는 경우, 프로세서(130)는 음성 입력 유닛을 통하여 입력되는 실시간 음성 스트림(stream)을 일정한 길이 동안 저장하여, 프레임을 생성할 수 있다. 또는 음성 입력 유닛을 통하여, 수집된 음성 데이터를 수신하는 경우, 프로세서(130)는 일정한 길이의 프레임으로 수집된 음성 데이터를 분할할 수 있다. 이때, 일정한 길이는 20 내지 30밀리 초(millisecond)가 될 수 있다.
프로세서(130)는 일정 길이의 프레임으로 분할된 음성 프레임에 대하여, 전처리를 수행할 수 있다. 이때, 전처리는 잡음(noise) 제거 및 특징 추출(feature extraction) 등이 될 수 있으나, 이에 한정된 것은 아니다.
예를 들어, 프로세서(130)는 음성 프레임에 대하여 음성 및 비음성 프레임 여부를 판단할 수 있다. 그리고 프로세서(130)는 비음성 프레임을 잡음으로 제거할 수 있다. 이때, 비음성 프레임은 묵음 또는 화이트 노이즈(white noise)를 포함하는 구간일 수도 있다.
프로세서(130)는 노이즈가 제거된 음성 프레임에 대하여 특징 벡터를 추출할 수 있다. 예를 들어, 프로세서(130)는 멜-주파수 켑스트럼 계수에 기초하여 특징 벡터를 추출할 수 있다.
프로세서(130)는 추출된 특징 벡터에 대하여, 분류기 및 추론기에 기초하여, 음성 데이터를 발화하는 사용자(140)의 성별을 인식할 수 있다. 이때, 분류기는 학습을 위한 음성 데이터에 기초하여 기생성된 후 메모리(120)에 저장된 것일 수 있다. 그리고 추론기는 뎀스터-샤퍼(Dempster-Shafer) 이론에 기초하여 생성된 것일 수 있다.
구체적으로 프로세서(130)는 분류기를 학습하기 위한 학습 데이터(train data)를 수집할 수 있다. 이때, 프로세서(130)는 화자 독립으로 성별을 인식하기 위하여, 다양한 사용자(140)에 대한 학습 데이터를 수집할 수 있다.
그리고 프로세서(130)는 수집된 학습 데이터를 전처리할 수 있다. 이때, 전처리 방법은 앞에서 설명한 성별 인식을 위하여 음성 데이터에 수행한 잡음 제거 및 특징 추출 방법 등과 동일한 방법이 될 수 있다.
프로세서(130)는 학습 데이터로부터 추출된 특징 벡터에 기초하여, 분류기를 학습할 수 있다. 이때, 프로세서(130)는 통계적 학습 기법에 기초하여, 분류기를 학습할 수 있다. 예를 들어, 통계적 학습 기법은 가우시안 혼합 모델(Gaussian mixture model), 지지 벡터 머신(support vector machine), 신경망 모델(probabilistic neural network) 및 k-근접 이웃(k-nearest neighbor) 등이 될 수 있으나, 이에 한정된 것이 아니다.
한편, 프로세서(130)는 학습 된 분류기를 통하여, 음성 데이터로부터 추출된 특징 벡터에 대한 성별 인식 결과를 도출할 수 있다. 이때, 분류기의 성별 인식 결과는 추출된 특징 벡터에 대한 남성으로 분류될 확률 및 여성으로 분류될 확률을 포함할 수 있다.
또한, 프로세서(130)는 기생성된 분류기를 통하여 인식된 결과에 대하여, 추론기에 기초하여 사용자(140) 성별을 결정할 수 있다. 이때, 추론기는 뎀스터-샤퍼 이론에 기초하여, 생성될 수 있다. 추론기에 기초한 성별 인식 과정은 이하에서 도 2 내지 도 4를 참조하여 설명하기로 한다.
프로세서(130)는 앞에서 설명한 바와 같이, 음성 데이터를 일정 길이의 프레임으로 분할한 음성 프레임에 대하여, 분류기에 기반한 분류 결과를 생성할 수 있다. 이때, 프레임은 지속 시간이 매우 짧을 수 있다. 그러므로 프로세서(130)는 미리 정해진 개수의 프레임을 병합하여, 세그먼트(segment)를 생성할 수 있다.
즉, 프로세서(130)는 음성 데이터로부터 추출된 복수의 프레임을 이용하여, 순차적으로 복수의 세그먼트를 생성할 수 있다. 그리고 프로세서(130)는 순차적으로 생성된 복수의 세그먼트를 이용하여 음성 데이터에 대한 성별을 인식할 수 있다.
이를 위하여, 프로세서(130)는 세그먼트에 포함된 복수의 프레임에 대하여 분류기 기반 성별 인식을 수행할 수 있다. 그리고 프로세서(130) 복수의 프레임에 대하여, 생성된 분류기 기반 성별 인식 결과를 병합하여 해당 세그먼트의 분류기 기반 성별 인식 결과를 생성할 수 있다.
예를 들어, 프로세서(130)는 세그먼트에 포함된 각 프레임의 분류기 기반 성별 인식 결과의 평균을 세그먼트에 대한 분류기 기반 성별 인식 결과로 생성할 수 있다. 또는, 프로세서(130)는 복수의 프레임이 포함된 세그먼트를 생성한 후, 생성된 세그먼트에 대하여 분류기 기반 성별 인식을 수행하여, 해당 세그먼트의 분류기 기반 성별 인식 결과를 생성할 수 있다.
세그먼트에 대한 분류기 기반 성별 인식이 수행된 이후, 프로세서(130)는 추론기를 통해 음성 데이터를 발화한 사용자(140)의 성별을 결정할 수 있다.
이때, 분리기 기반 성별 인식 결과가 모호한 경우, 프로세서(130)는 사용자(140)의 성별을 오인식할 가능성이 커질 수 있다. 그러므로 프로세서(130)는 해당 세그먼트에 대한 분류기 기반 성별 인식 결과에 대한 유효성을 검증할 수 있다. 그리고 프로세서(130)는 분류기 기반 성별 인식 결과가 모호한 경우, 해당 세그먼트에 대한 결과를 무효화 할 수 있다.
예를 들어, 분류기의 성별 인식 결과에 대응하는 확률이 미리 정해진 상한값을 초과하는 경우, 프로세서(130)는 분류기의 성별 인식 결과를 유효하다고 검증할 수 있다. 이와 반대로, 분류기의 성별 인식 결과에 대응하는 확률이 미리 정해진 상한값 이하인 경우, 프로세서(130)는 분류기의 성별 인식 결과를 무효하다고 검증할 수 있다.
도 2는 본 발명의 일 실시예에 따른 분류기에 기초한 성별 인식 결과에 대한 유효성 검증의 예시도이다.
도 2를 참조하면, 프로세서(130)는 결과에 포함된 확률 값 중 미리 설정된 상한값을 초과하는 확률 값은 포지티브 증거(positive evidence)로 활용하며, 미리 설정된 하한값 미만의 확률 값을 네가티브 증거(negative evidence)로 활용할 수 있다. 그리고 프로세서(130)는 확률 값이 미리 설정된 하한값과 미리 설정된 상한값의 사이에 위치하는 경우, 해당 확률 값을 불명확한 결과(ambiguous result)로 활용할 수 있다. 이때, 미리 설정된 상한값은 0.55, 미리 설정된 하한값은 0.45일 수 있으나, 이에 한정된 것은 아니다.
그러므로 프로세서(130)는 분류기의 성별 인식 결과에 포함된 남성 또는 여성에 대한 확률 중 큰 값이 포지티브 증거인 경우, 해당 결과를 유효하다고 판단할 수 있다. 또한, 프로세서(130)는 큰 값이 불확실한 결과인 경우, 해당 결과를 무효하다고 판단할 수 있다.
도 3은 본 발명의 일 실시예에 따른 신뢰값 갱신의 순서도이다.
이와 같이, 프로세서(130)는 세그먼트에 대한 분류기의 성별 인식 결과가 생성되면(S300), 생성된 분류기의 성별 인식 결과에 대한 유효성을 판단할 수 있다(S310).
그리고 분류 인식 결과가 유효한 경우(S320), 프로세서(130)는 세그먼트에 대한 분류 결과와 신뢰값(belief value)을 병합하여(S330), 성별 인식 결과를 결정할 수 있다(S330). 이때, 신뢰값은 이전에 입력된 세그먼트로부터 인식된 사용자(140)의 성별에 기초하여 생성될 수 있다.
구체적으로 프로세서(130)는 이전 입력된 세그먼트들로 생성된 신뢰값과 현재 생성된 세그먼트에 대한 분류기의 분류 결과를 병합하여, 인식 결과를 생성할 수 있다(S330). 그리고 프로세서는 생성된 인식 결과를 이용하여 신뢰 값을 갱신할 수 있다(S340).
이때, 이전 입력된 세그먼트는 음성 데이터가 연속적으로 입력될 때, 이전에 입력되어 분류기 및 추론기에 기초하여 성별을 인식한 세그먼트를 의미할 수 있다. 또한, 이전 신뢰값은 복수의 세그먼트에 대한 성별 인식 결과에 기초하여 점진적(incremental)으로 병합하여 생성된 것이다. 만약 이전에 입력된 세그먼트가 없는 경우, 프로세서(130)는 현재 세그먼트에 대한 분류기 인식 결과에 기초하여 신뢰값을 산출하고, 이를 향후 성별 인식에 활용할 수 있다.
도 4는 본 발명의 일 실시예에 따른 신뢰값 갱신에 대한 예시도이다.
프로세서(130)는 음성 데이터(400)로부터 순차적으로 복수의 세그먼트(410, 420, 430, 440)를 추출할 수 있다. 그리고 프로세서(130)는 분류기에 기반하여 처음 입력되는 제 1 세그먼트에 대한 분류 결과(410)를 생성할 수 있다. 프로세서(130)는 생성된 제 1 세그먼트 분류 결과(410)에 대하여 유효성을 검증할 수 있다. 제 1 세그먼트 분류 결과(410)는 남성에 대한 확률이 0.8로 미리 정해진 상한값 0.55를 초과하므로, 프로세서(130)는 제 1 세그먼트 분류 결과를 유효하다고 검증할 수 있다.
그리고 프로세서(130)는 이전에 분류기에 기반하여 분류된 인식 결과값이 없으므로, 제 1 세그먼트 분류 결과(410)를 제 1 인식 결과(450)로 생성할 수 있다. 그리고 프로세서는 제 1 인식 결과(450)에서 남성으로 분류될 확률 및 여성으로 분류될 확률을 비교하여, 음성 데이터(400)를 발화하는 사용자(140)의 성별을 남성으로 결정할 수 있다. 그리고 제 1 인식 결과(450)는 향후 입력되는 세그먼트에 사용될 수 있는 신뢰값이 될 수 있다.
다음으로, 제 2 세그먼트에 대한 분류 결과(420)가 생성되면, 프로세서(130)는 제 2 세그먼트 분류 결과(420)에 대한 유효성 검증을 수행할 수 있다. 이때, 제 2 세그먼트 분류 결과(420)에 포함된 남성의 확률이 0.70으로 미리 정해진 상한값을 초과하므로 프로세서(130)는 제 2 세그먼트 분류 결과(420)를 유효하다고 검증할 수 있다.
그리고 프로세서(130)는 신뢰값인 제 1 인식 결과(450)에 제 2 세그먼트 분류 결과(420)를 병합할 수 있다. 예를 들어, 프로세서(130)는 [수학식 1]에 기초하여 두 세그먼트에 대한 분류 결과를 병합한 분류 결과를 생성할 수 있다.
수학식 1에서 PF m 는 병합된 분류 결과에서 남성으로 인식될 확률이며, PF F 는 병합된 분류 결과에서 여성으로 인식될 확률이다. 그러므로 i번째 세그먼트에 대한 병합된 분류 결과 는 분류기에 의해 산출된 성별에 대한 확률 값 과 및 이전 세그먼트에 대한 병합된 분류 결과인 과 에 기초하여 산출될 수 있다.
그리고 프로세서(130)는 제 1 세그먼트 분류 결과(410) 및 제 2 세그먼트 분류 결과(420)를 병합하여 제 2 인식 결과(460)를 생성할 수 있다. 그리고 프로세서(130)는 신뢰값을 생성된 제 2 인식 결과(460)로 갱신할 수 있다. 프로세서(130)는 제 2 인식 결과(460)에 남성일 확률이 여성일 확률에 비하여 크므로, 음성 데이터를 발화하는 사용자(140)를 남성으로 결정할 수 있다.
다음으로 프로세서(130)는 음성 데이터(400)로부터 추출된 제 3 세그먼트에 대하여, 분류기 기반 성별 인식 결과(430)를 산출할 수 있다. 그리고 프로세서(130)는 산출된 제 3 세그먼트 분류 결과(430)에 대한 유효성 검증을 수행할 수 있다. 이때, 제 3 세그먼트 분류 결과에 포함된 남성일 확률이 0.53으로 미리 정해진 상한값 이하이므로, 프로세서(130)는 제 3 세그먼트의 분류 결과(430)를 무효로 검증할 수 있다. 그리고 프로세서(130)는 무효화된 제 3 세그먼트의 분류 결과(430)와 신뢰값의 병합을 수행하지 않을 수 있다.
프로세서(130)는 제 4 세그먼트에 대하여, 분류기에 기초하여 제 4 세그먼트 분류 결과(440)를 산출할 수 있다. 그리고 프로세서(130)는 산출된 제 4 세그먼트 분류 결과(440)에 대한 유효성 검증을 수행할 수 있다. 이때, 제 4 세그먼트 분류 결과(440)에 포함된 남성일 확률이 0.60으로 미리 정해진 상한값을 초과하므로, 프로세서(130)는 제 4 세그먼트의 분류 결과(440)를 유효로 검증할 수 있다.
그리고 프로세서(130)는 신뢰값인 제 2 인식 결과(460)와 제 4 세그먼트의 분류 결과(440)를 병합하여, 제 3 인식 결과(470)를 생성할 수 있다. 그리고 제 3 인식 결과(470)에 따라, 프로세서(130)는 음성 데이터(400)를 발화한 사용자(140)를 남성으로 결정할 수 있다.
그리고 프로세서(130)는 제 3 인식 결과(470)를 새로운 신뢰값으로 설정할 수 있다. 이후 다른 세그먼트에 대한 분류 결과가 생성되면, 프로세서(130)는 이렇게 설정된 신뢰값에 기초하여, 새로운 인식 결과를 생성할 수 있다.
이와 같이, 프로세서(130)는 음성 데이터에 포함된 복수의 세그먼트에 대한 분류 결과를 점진적으로 병합하여, 음성 데이터를 발화한 사용자(140)의 성별 인식 결과를 생성할 수 있다. 그리고 프로세서(130)는 확률이 큰 성별을 선택하여 최종적으로 음성 데이터를 발화하는 사용자(140)의 성별을 인식할 수 있다.
다음은 도 5를 참조하여 본 발명의 일 실시예에 따른 성별 인식 프로그램을 설명한다.
도 5는 본 발명의 일 실시예에 따른 성별 인식 프로그램의 블록도이다.
본 발명의 일 실시예에 따른 성별 인식 장치(100)에 포함된 메모리(120)에 저장되는 성별 인식 프로그램은 분류기 학습 모듈(510) 및 성별 인식 모듈(540)을 포함한다.
이때, 분류기 학습 모듈(510)은 학습 데이터(500)에 기초하여 학습 된 분류기를 생성할 수 있다. 분류기 학습 모듈(510)은 전처리 모듈 및 분류기 모듈을 포함할 수 있다.
전처리 모듈(511)은 학습 데이터(500)에 포함된 음성 데이터로부터 잡음을 제거하고 특징 벡터를 추출할 수 있다. 그리고 전처리 모듈(511)은 전처리된 학습 데이터를 분류기 모듈(512)로 전송할 수 있다.
분류기 모듈(512)은 전처리 모듈(511)로부터 처리된 음성 데이터를 이용하여, 분류기를 학습할 수 있다. 그리고 분류기 모듈(512)은 학습된 분류기(520)를 생성하여, 성별 인식 모듈(540)이 활용할 수 있도록 메모리(120)에 저장할 수 있다.
성별 인식 모듈(540)은 실시간으로 입력되는 음성 데이터로부터 음성 데이터를 발화하는 사용자(140)의 성별을 인식할 수 있다. 이때, 성별 인식 모듈(540)은 전처리 모듈(541), 분류기 기반 성별 인식 모듈(542), 추론기 기반 성별 인식 모듈(543) 및 성별 인식 결과 판단 모듈(544)을 포함할 수 있다.
전처리 모듈(541)은 음성 데이터(530)를 전처리할 수 있다. 이때, 전처리 모듈(541)은 분류기 학습 모듈의 전처리 모듈과 동일한 방법을 이용하여 음성 데이터를 전처리할 수 있다. 또한, 전처리 모듈(541)은 음성 데이터(530)에 기초하여, 복수의 세그먼트를 추출할 수 있다. 전처리 모듈(541)은 추출된 복수의 세그먼트를 분류기 기반 성별 인식 모듈(542)로 전달할 수 있다.
분류기 기반 성별 인식 모듈(542)은 전처리 모듈(541)에 의하여 추출된 세그먼트를 학습된 분류기(520)를 통과하여 성별 인식 결과를 생성할 수 있다. 이때, 학습된 분류기(520)는 분류기 학습 모듈(510)에 의해 학습된 후 저장된 것을 수 있다.
추론기 기반 성별 인식 모듈(543)은 분류기 기반 성별 인식 모듈(542)에 의해서 인식된 세그먼트에 대한 성별 인식 결과에 대한 유효성을 검증하고, 기저장된 신뢰값에 기초하여, 병합된 성별 인식 결과를 생성할 수 있다. 그리고 추론기 기반 성별 인식 모듈(543)은 병합된 성별 인식 결과를 신뢰값으로 갱신할 수 있다.
이때, 복수의 세그먼트에 대하여 성별 인식이 완료되지 않았을 경우, 성별 인식 모듈(540)은 복수의 세그먼트에 대한 성별 인식이 완료할 때까지 분류기 기반 성별 인식 모듈(542) 및 추론기 기반 성별 인식 모듈(543)을 반복하여 수행할 수 있다.
성별 인식 결과 판단 모듈(544)은 분류기 기반 성별 인식 모듈(542) 및 추론기 기반 성별 인식 결과 모듈(543)의 성별 인식 결과(550)에 따라, 음성 데이터(530)를 발화한 사용자(140)의 성별을 인식할 수 있다.
다음은 도 6을 참조하여, 본 발명의 일 실시예에 따른 성별 인식 장치(100)의 성별 인식 방법을 설명한다.
도 6은 본 발명의 일 실시예에 따른 성별 인식 장치(100)의 성별 인식 방법에 대한 순서도이다.
본 발명의 일 실시예에 따른 성별 인식 장치(100)는 분류기에 기초하여, 음성 데이터를 발화하는 사용자(140)의 성별을 인식한다(S600). 이때, 분류기는 기수집된 음성 데이터에 기초하여 생성된 것이다. 추론기는 신뢰값에 기초하여 사용자(140)의 성별을 인식하는 것이다.
그리고 음성 데이터는 전화기 및 스마트폰 등을 통하여 수집된 전화 음성 데이터일 수 있다. 이때, 음성 데이터는 복수의 세그먼트를 포함할 수 있다. 그러므로 성별 인식 장치(100)는 복수의 세그먼트 중 어느 하나의 세그먼트에 대하여 사용자(140) 성별을 인식할 수 있다.
즉, 추론기가 사용하는 신뢰값은 현재 성별을 인식하는 세그먼트 이전의 세그먼트로부터 인식된 사용자(140) 성별에 기초하여 생성될 수 있다. 이때, 이전 세그먼트는 음성 데이터에 포함된 복수의 세그먼트 중 현재 성별을 인식하는 세그먼트보다 시간의 순서 상 이전에 입력된 세그먼트를 의미할 수 있다.
성별 인식 장치(100)는 생성된 분류기에 대응하는 성별 인식 결과와 신뢰값에 기초하여, 추론기를 통하여, 사용자(140)의 성별을 인식한다(S610).
이때, 성별 인식 장치(100)는 추론기를 통하여, 사용자(140)의 성별을 인식하기 위하여(S610) 먼저 분류기에 기초하여 인식된 사용자(140)의 성별에 대한 유효성을 검증할 수 있다. 그리고 성별 인식 장치(100)는 분류기에 기초하여 인식된 사용자(140)의 성별이 유효한 경우, 신뢰값과 병합할 수 있다. 이를 통하여, 성별 인식 장치(100)는 기생성된 분류기에 대응하는 성별 인식 결과 및 이전 세그먼트로부터 인식된 성별 인식 결과에 기초하여, 사용자(140)의 성별을 결정할 수 있다.
그리고 성별 인식 장치(100)는 결정된 사용자(140)의 성별을 신뢰값으로 재설정할 수 있다. 성별 인식 장치(100)는 재설정된 신뢰값을 다음 세그먼트에 대한 사용자(140) 성별을 인식할 때 활용할 수 있다.
음성 데이터에 대한 성별 인식 장치(100) 및 성별 인식 방법은 실시간으로 입력되는 음성 데이터로부터 분류기를 통하여, 성별을 인식하고, 인식된 성별에 대한 유효성 검증을 수행하여, 오인식을 방지할 수 있다. 또한, 음성 데이터에 대한 성별 인식 장치(100) 및 성별 인식 방법은 순차적으로 인식된 성별에 대한 점진적인 병합을 수행하여, 성별 인식 정확도를 향상할 수 있다.
본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 성별 인식 장치
110: 음성 데이터 입력 유닛
120: 메모리
130: 프로세서
140: 사용자
110: 음성 데이터 입력 유닛
120: 메모리
130: 프로세서
140: 사용자
Claims (14)
- 음성 데이터에 대한 성별 인식 장치에 있어서,
음성 데이터 입력 유닛,
성별 인식 프로그램이 저장된 메모리 및
상기 메모리에 저장된 프로그램을 실행하는 프로세서를 포함하되,
상기 프로세서는 상기 프로그램의 실행에 따라, 상기 프로그램에 포함된 분류기에 기초하여, 음성 데이터에 포함된 복수의 세그먼트 중 어느 하나의 세그먼트에 대하여, 발화하는 사용자의 성별에 대한 확률을 산출하고, 상기 산출된 사용자의 성별에 대한 확률에 기초하여, 발화하는 사용자의 성별을 인식하고,
상기 프로그램에 포함된 추론기를 통해, 상기 인식된 사용자의 성별에 대응하는 확률이 미리 정해진 상한값을 초과하는 경우, 상기 인식된 사용자의 성별을 유효한 것으로 검증하고, 상기 인식된 사용자의 성별에 대응하는 확률이 미리 정해진 상한값 미만인 경우, 상기 인식된 사용자의 성별을 무효한 것으로 검증하고,
상기 인식된 사용자의 성별이 유효한 경우, 하기 수학식을 통하여 상기 분류기에 의해 산출된 사용자의 성별에 대한 확률 및 신뢰값을 병합하여 상기 사용자의 성별을 결정하되,
상기 분류기는 기수집된 음성 데이터에 기초하여 생성된 것이고,
상기 음성 데이터는 상기 음성 데이터 입력 유닛을 통하여 입력된 것이고,
상기 사용자의 성별에 대한 확률은 상기 사용자가 남성일 확률 및 상기 사용자가 여성일 확률을 포함하는 것인, 성별 인식 장치.
[수학식]
: 상기 사용자가 남성일 확률,
: 상기 사용자가 여성일 확률,
: 상기 분류기에 의해 산출된 상기 사용자가 남성일 확률,
: 상기 분류기에 의해 산출된 상기 사용자가 여성일 확률,
: 상기 사용자가 남성일 경우에 대한 신뢰값,
: 상기 사용자가 여성일 경우에 대한 신뢰값. - 삭제
- 제 1 항에 있어서,
상기 신뢰값은 상기 어느 하나의 세그먼트 이전의 세그먼트에 대하여 인식된 사용자의 성별에 대한 확률에 기초하여 생성되는 것이며,
상기 이전 세그먼트는 시간의 순서 상 상기 복수의 세그먼트 중 상기 어느 하나의 세그먼트 이전에 입력된 세그먼트인, 성별 인식 장치. - 삭제
- 제 1 항에 있어서,
상기 프로세서는 상기 사용자의 성별이 결정된 이후, 상기 결정된 사용자의 성별에 대응하는 확률을 상기 신뢰값으로 재설정하는, 성별 인식 장치. - 삭제
- 제 1 항에 있어서,
상기 음성 데이터는 전화 음성 데이터인, 성별 인식 장치. - 제 1 항에 있어서,
상기 추론기는 뎀프스터-샤퍼(Dempster-Shafer) 이론에 기초하여 생성되는 것인, 성별 인식 장치. - 음성 데이터에 대한 성별 인식 장치에서의 성별 인식 방법에 있어서,
상기 성별 인식 장치에 포함된 분류기에 기초하여, 음성 데이터에 포함된 복수의 세그먼트 중 어느 하나의 세그먼트에 대하여, 발화하는 사용자의 성별에 대한 확률을 산출하는 단계;
상기 산출된 사용자의 성별에 대한 확률에 기초하여, 발화하는 사용자의 성별을 인식하는 단계;
상기 성별 인식 장치에 포함된 추론기를 통해, 상기 인식된 사용자의 성별에 대응하는 확률이 미리 정해진 상한값을 초과하는 경우, 상기 인식된 사용자의 성별을 유효한 것으로 검증하고, 상기 인식된 사용자의 성별에 대응하는 확률이 미리 정해진 상한값 미만인 경우, 상기 인식된 사용자의 성별을 무효한 것으로 검증하는 단계; 및
상기 인식된 사용자의 성별이 유효한 경우, 하기 수학식을 통하여 상기 분류기에 의해 산출된 사용자의 성별에 대한 확률 및 신뢰값을 병합하여 상기 사용자의 성별을 결정하는 단계를 포함하되,
상기 분류기는 기수집된 음성 데이터에 기초하여 생성된 것이고,
상기 음성 데이터는 상기 음성 데이터 입력 유닛을 통하여 입력된 것이고,
상기 사용자의 성별에 대한 확률은 상기 사용자가 남성일 확률 및 상기 사용자가 여성일 확률을 포함하는 것인, 성별 인식 방법.
[수학식]
: 상기 사용자가 남성일 확률,
: 상기 사용자가 여성일 확률,
: 상기 분류기에 의해 산출된 상기 사용자가 남성일 확률,
: 상기 분류기에 의해 산출된 상기 사용자가 여성일 확률,
: 상기 사용자가 남성일 경우에 대한 신뢰값,
: 상기 사용자가 여성일 경우에 대한 신뢰값. - 삭제
- 제 9 항에 있어서,
상기 신뢰값은 상기 어느 하나의 세그먼트 이전의 세그먼트에 대하여 인식된 사용자의 성별에 대한 확률에 기초하여 생성되는 것이며,
상기 이전 세그먼트는 시간의 순서 상 상기 복수의 세그먼트 중 상기 어느 하나의 세그먼트 이전에 입력된 세그먼트인, 성별 인식 방법. - 삭제
- 삭제
- 제 9 항 및 제 11 항 중 어느 한 항에 기재된 방법을 컴퓨터 상에서 수행하기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160003709A KR101658452B1 (ko) | 2016-01-12 | 2016-01-12 | 음성 데이터에 대한 성별 인식 장치 및 성별 인식 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160003709A KR101658452B1 (ko) | 2016-01-12 | 2016-01-12 | 음성 데이터에 대한 성별 인식 장치 및 성별 인식 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101658452B1 true KR101658452B1 (ko) | 2016-09-21 |
Family
ID=57080639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020160003709A KR101658452B1 (ko) | 2016-01-12 | 2016-01-12 | 음성 데이터에 대한 성별 인식 장치 및 성별 인식 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101658452B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110428843A (zh) * | 2019-03-11 | 2019-11-08 | 杭州雄迈信息技术有限公司 | 一种语音性别识别深度学习方法 |
KR102498268B1 (ko) * | 2022-07-15 | 2023-02-09 | 국방과학연구소 | 화자 인식을 위한 전자 장치 및 그의 동작 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050036301A (ko) * | 2003-10-15 | 2005-04-20 | 한국전자통신연구원 | 피치와 엠.에프.씨.씨를 이용한 성별식별 장치 및 방법 |
KR20140079092A (ko) * | 2012-12-18 | 2014-06-26 | 한국전자통신연구원 | 음향그룹의 전이확률을 활용한 문맥독립 성별인식 방법 및 장치 |
-
2016
- 2016-01-12 KR KR1020160003709A patent/KR101658452B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050036301A (ko) * | 2003-10-15 | 2005-04-20 | 한국전자통신연구원 | 피치와 엠.에프.씨.씨를 이용한 성별식별 장치 및 방법 |
KR20140079092A (ko) * | 2012-12-18 | 2014-06-26 | 한국전자통신연구원 | 음향그룹의 전이확률을 활용한 문맥독립 성별인식 방법 및 장치 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110428843A (zh) * | 2019-03-11 | 2019-11-08 | 杭州雄迈信息技术有限公司 | 一种语音性别识别深度学习方法 |
CN110428843B (zh) * | 2019-03-11 | 2021-09-07 | 杭州巨峰科技有限公司 | 一种语音性别识别深度学习方法 |
KR102498268B1 (ko) * | 2022-07-15 | 2023-02-09 | 국방과학연구소 | 화자 인식을 위한 전자 장치 및 그의 동작 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11636860B2 (en) | Word-level blind diarization of recorded calls with arbitrary number of speakers | |
US11361763B1 (en) | Detecting system-directed speech | |
US11295748B2 (en) | Speaker identification with ultra-short speech segments for far and near field voice assistance applications | |
US10109280B2 (en) | Blind diarization of recorded calls with arbitrary number of speakers | |
WO2021139425A1 (zh) | 语音端点检测方法、装置、设备及存储介质 | |
KR101702829B1 (ko) | 인공 신경망 기반 서브-음성 유닛 구별을 이용한 화자 검증 및 식별 | |
US11854573B2 (en) | Alternate response generation | |
EP3156978A1 (en) | A system and a method for secure speaker verification | |
CN101118745B (zh) | 语音识别系统中的置信度快速求取方法 | |
US10872599B1 (en) | Wakeword training | |
CN111341325A (zh) | 声纹识别方法、装置、存储介质、电子装置 | |
KR20010102549A (ko) | 화자 인식 방법 및 장치 | |
KR101658452B1 (ko) | 음성 데이터에 대한 성별 인식 장치 및 성별 인식 방법 | |
KR101809511B1 (ko) | 발화자의 연령대 인식 장치 및 방법 | |
CN114303186A (zh) | 用于在语音合成中适配人类说话者嵌入的系统和方法 | |
CN114155882B (zh) | 一种基于语音识别的“路怒”情绪判断方法和装置 | |
CN114512133A (zh) | 发声对象识别方法、装置、服务器及存储介质 | |
US20210398521A1 (en) | Method and device for providing voice recognition service | |
KR20210052563A (ko) | 문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치 | |
US11531736B1 (en) | User authentication as a service | |
KR101648396B1 (ko) | 발화자의 성별 인식 장치 및 그를 이용한 성별 인식 방법 | |
Herbig et al. | Adaptive systems for unsupervised speaker tracking and speech recognition | |
Tashan et al. | Vowel based speaker verification using self organising map | |
JP2021162685A (ja) | 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム | |
BenZeghiba | Joint speech and speaker recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20190722 Year of fee payment: 4 |