KR101648396B1 - 발화자의 성별 인식 장치 및 그를 이용한 성별 인식 방법 - Google Patents

발화자의 성별 인식 장치 및 그를 이용한 성별 인식 방법 Download PDF

Info

Publication number
KR101648396B1
KR101648396B1 KR1020150159162A KR20150159162A KR101648396B1 KR 101648396 B1 KR101648396 B1 KR 101648396B1 KR 1020150159162 A KR1020150159162 A KR 1020150159162A KR 20150159162 A KR20150159162 A KR 20150159162A KR 101648396 B1 KR101648396 B1 KR 101648396B1
Authority
KR
South Korea
Prior art keywords
speaker
gender
speech
linguistic
speech signal
Prior art date
Application number
KR1020150159162A
Other languages
English (en)
Inventor
권순일
손귀영
전석봉
백성욱
Original Assignee
세종대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 세종대학교산학협력단 filed Critical 세종대학교산학협력단
Priority to KR1020150159162A priority Critical patent/KR101648396B1/ko
Application granted granted Critical
Publication of KR101648396B1 publication Critical patent/KR101648396B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 음성 신호를 입력 받는 음성 신호 입력 모듈, 발화자의 성별을 판별하는 프로그램이 저장된 메모리 및 메모리에 저장된 프로그램을 실행하는 프로세서를 포함한다. 이때, 프로세서는 프로그램의 실행에 따라, 음성 신호 입력 모듈을 통하여 발화자의 음성 신호가 입력되면, 음성 신호로부터 비언어학적 요소를 추출하고, 추출된 비언어학적 요소에 기초하여 발화자의 성별을 판별한다. 그리고 비언어학적 요소는 간투어, 간섭 현상 및 장음화 현상 중 하나 이상을 포함한다.

Description

발화자의 성별 인식 장치 및 그를 이용한 성별 인식 방법{APPARATUS AND METHOD FOR GENDER RECOGNITION OF SPEAKER}
본 발명은 발화자의 성별 인식 장치 및 그를 이용한 성별 인식 방법에 관한 것이다.
종래의 음성 신호에 기초하여 발화자의 성별을 판별하는 기법은 성별에 따른 음성 신호로부터 주파수 또는 주파수에서 파생된 음향 정보 등과 같은 특징(feature)을 추출하고, 추출된 특징의 차이에 기초하여 발화자의 성별을 판별한다.
종래의 성별 판별 기법은 특징을 추출하기 위하여, 선형 예측 계수(linear predictive coefficient) 방법, 켑스트럽(cepstrum) 방법, 멜프리퀀스 켑스트럼(Mel frequency cepstral coefficient; MFCC) 방법 및 주파수 대역 별 에너지(filter bank energy) 방법 등을 사용한다. 또한, 추출된 특징을 이용하여 성별을 판별하기 위하여, 종래의 성별 판별 기법은 가우시안 혼합 모델(Gaussian mixture mode), 신경망 모델(neural network model), 지지 벡터 머신(support vector machine) 및 은닉 마코브 모델(hidden MarKov mode) 등과 같은 기계학습 알고리즘(machine learning algorithm)을 활용할 수 있다.
이와 같이, 종래의 성별 판별 기법은 음성 신호에 포함된, 성별에 따른 음향적인 특징의 차이에 따라, 성별을 판별하므로 주파수 차이가 뚜렷하지 않은 중성적인 목소리를 가진 발화자의 성별을 판별하기 어렵다는 단점이 있다. 그러므로 단순히 음향적 정보에 따라 성별을 판별하는 종래의 성별 판별 기법에 대한 보완이 필요하다.
이와 관련되어, 한국 공개특허공보 제10-2012-0148678호(발명의 명칭: "음향 그룹의 전이확률을 활용한 문맥독립 성별인식 방법 및 장치")는 음향그룹의 전이확률을 활용한 문맥독립 성별 인식 방법을 개시하고 있다. 구체적으로 이 발명은 음성 신호의 음성 구간 내에서 특징 벡터를 생성하고, 은닉 마코브 모델에 기초하여, 생성된 특징 벡터에 대응하는 성별을 결정한다.
본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 발화자의 음성신호로부터 추출한 비언어학적 특징에 기초하여, 성별을 판별하는 성별 인식 장치 및 그를 이용한 성별 인식 방법을 제공한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 음성 신호 분석을 통한 발화자의 성별 인식 장치는 음성 신호를 입력받는 음성 신호 입력 모듈, 발화자의 성별을 판별하는 프로그램이 저장된 메모리 및 메모리에 저장된 프로그램을 실행하는 프로세서를 포함한다. 이때, 프로세서는 프로그램의 실행에 따라, 음성 신호 입력 모듈을 통하여 발화자의 음성 신호가 입력되면, 음성 신호로부터 비언어학적 요소를 추출하고, 추출된 비언어학적 요소에 기초하여 발화자의 성별을 판별한다. 그리고 비언어학적 요소는 간투어, 간섭 현상 및 장음화 현상 중 하나 이상을 포함한다.
또한, 본 발명의 제 2 측면에 따른 성별 인식 장치의 음성 신호 분석을 통한 성별 인식 방법은 발화자의 음성 신호가 입력되면, 음성 신호로부터 비언어학적 요소를 추출하는 단계; 및 비언어학적 요소를 추출하는 단계로부터 추출된 비언어학적 요소에 기초하여 발화자의 성별을 판별하는 단계를 포함한다. 이때, 비언어학적 요소는 간투어, 간섭 현상 및 장음화 중 하나 이상을 포함한다.
본 발명은 비언어적 요소에 기초하여 발화자의 성별을 판별하므로, 발화자의 음성 신호의 주파수 관점에서 성별을 판별하던 종래의 성별 인식 방법에 비하여, 성별 인식의 정확도가 향상될 수 있다. 또한, 본 발명은 종래의 성별 인식 방법이 판별할 수 없었던 중성적인 목소리에 대해서 판별이 가능하다.
도 1은 본 발명의 일 실시예에 따른 발화자의 성별 인식 장치의 블록도이다.
도 2는 본 발명의 일 실시예에 따른 발화자의 성별 분류기의 블록도이다.
도 3은 본 발명의 일 실시예에 따른 간섭 현상 판별 모듈의 블록도이다.
도 4는 본 발명의 일 실시예에 따른 간투어 판별 모듈의 블록도이다.
도 5는 본 발명의 일 실시예에 따른 장음화 현상 판별 모듈의 블록도이다.
도 6은 본 발명의 일 실시예에 따른 발화자의 성별 인식 방법의 순서도이다.
도 7은 본 발명의 일 실시예에 따른 성별 분류기 생성 방법의 순서도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
다음은 도 1 내지 도 5에 기초하여, 본 발명의 일 실시예에 따른 발화자의 성별 인식 장치(100)를 설명한다.
도 1은 본 발명의 일 실시예에 따른 발화자의 성별 인식 장치(100)의 블록도이다.
발화자의 성별 인식 장치(100)는 발화자의 비언어학적 특징에 기초하여 발화자의 성별을 인식한다. 이때, 발화자의 성별 인식 장치(100)는 음성 신호 입력 모듈(110), 메모리(120) 및 프로세서(130)를 포함한다. 또한, 발화자의 성별 인식 장치(100)는 데이터베이스(미도시)를 더 포함할 수 있다.
음성 신호 입력 모듈(110)은 발화자의 음성 신호를 수신한다. 이때, 음성 신호 입력 모듈(110)은 마이크 등과 같은 오디오 장치를 통하여 입력되는 발화자의 아날로그 입력 신호를 프로세서(130)로 전달하거나, 발화자의 아날로그 입력 신호를 디지털로 변환하여 프로세서(130)로 전달할 수 있다. 음성 신호 입력 모듈(110)은 성별 인식 장치(100)에 탑재된 사운드 카드(sound card), 사운드 칩 셋(sound chipset)일 수 있으나 이에 한정된 것은 아니다.
메모리(120)는 발화자의 성별을 판별하는 프로그램이 저장된다. 이때, 메모리(120)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 저장된 정보를 유지하기 위하여 전력이 필요한 휘발성 저장장치를 통칭하는 것이다.
프로세서(130)는 메모리(120)에 저장된 발화자의 성별을 판별하는 프로그램의 실행에 따라, 음성 신호 입력 모듈(110)을 통하여, 발화자의 음성 신호가 입력되면, 음성 신호로부터 비언어학적 요소를 추출한다. 그리고 프로세서(130)는 추출된 비언어학적 요소에 기초하여 발화자의 성별을 판별한다.
이때, 비언어학적 요소는 간투어, 간섭 현상 및 장음화 현상 중 하나 이상을 포함한다.
간투어는 발화자가 발화 중에 자연스럽게 발화가 이어지지 못하는 경우 나타나는 의미가 없는 추임새를 의미한다. 예를 들어, 간투어는 "그", "저", "음" 및 "어" 등과 같은 의미없는 음절 또는 단어가 될 수 있다.
비언어학적 요소로 간투어를 추출하기 위하여, 프로세서(130)는 먼저 발화자의 음성 신호로부터 단어를 인식할 수 있다. 프로세서(130)는 인식된 단어가 데이터베이스(미도시)에 기저장된 간투어 사전에 포함되는 경우, 단어를 간투어로 추출할 수 있다. 이때, 간투어 사전은 복수의 간투어들을 저장한 것일 수 있다. 그리고 프로세서(130)는 해당 발화자의 음성 신호 상에서 간투어 발생 횟수에 기초하여 간투어를 비언어학적 요소로 추출할 수 있다.
예를 들어, 프로세서(130)는 성별 판별 대상이 되는 제 1 발화자의 제 1 발화 음성 신호(210)로부터 하나 이상의 단어를 추출할 수 있다. 그리고 프로세서(130)는 추출된 하나 이상의 단어 중 간투어 사전에 포함된 단어에 기초하여, 비언어학적 요소로 간투어를 추출할 수 있다.
간섭 현상은 복수의 발화자가 서로 대화를 할 때, 음성이 겹치는 구간이 포함되는 경우를 의미한다. 예를 들어, 간섭 현상은 복수의 발화자가 서로 대화를 할 때, 한 발화자의 발화가 끝나기 전에 다른 발화자가 끼어드는 것을 말한다. 즉, 간섭 현상은 제 1 발화자와 상이한 제 2 발화자의 발화가 진행되는 과정에서 제 1 발화자가 발화하여, 제 1 발화자에 의해 제 2 발화자의 발화가 끊기거나, 제 1 발화자와 제 2 발화자의 음성이 겹치는 경우가 될 수 있다.
비언어학적 요소로 간섭 현상을 추출하기 위하여, 프로세서(130)는 성별 판별 대상이 되는 제 1 발화자의 제 1 발화 음성 신호(210) 및 제 1 발화자와 상이한 제 2 발화자의 제 2 발화 음성 신호(220)로부터 음성 구간을 추출할 수 있다. 그리고 프로세서(130)는 추출된 제 1 발화자의 음성 구간 및 제 2 발화자의 음성 구간에 대한 중첩 음성 구간이 존재하는지 여부를 분석할 수 있다. 이때, 중첩 음성 구간이 포함되는 경우, 프로세서(130)는 중첩 음성 구간에 기초하여, 간섭 현상의 발생 여부를 판별할 수 있다. 그리고 프로세서(130)는 제 1 발화 음성 신호(210) 상에서 간섭 현상의 발생 횟수에 기초하여 간섭 현상을 제 1 발화자의 비언어학적 요소로 추출할 수 있다.
장음화 현상은 발화자가 발화 중 특정 음절 또는 음소를 길게 내어 끄는 발화하는 현상을 의미한다. 예를 들어, 장음화 현상은 발화자가 "~어", "~데" 및 "~다"와 같은 어말에 위치한 음소 또는 음절인 "ㅓ", "ㅔ" 및 "ㅏ"을 긴소리를 내어 끄는 현상을 의미한다. 이때, 장음화 현상은 의문문이나 평서문과 같이 문장의 끝 부분에서 말을 끌어올리거나 내리는 어조와는 달리, 문장의 끝 부분은 물론 문장의 중간에도 발생할 수 있다. 그러므로 장음화 현상은 발화자의 발화 중 묵음 구간이 있거나, 다른 발화자의 발화로 전환되는 경우에 대하여 분석하여 판별될 수 있다.
프로세서(130)는 비언어학적 요소로 장음화 현상을 추출하기 위하여, 제 1 발화자의 제 1 발화 음성 신호(210)로부터 묵음 구간을 추출할 수 있다. 이때, 프로세서(130)는 일정 시간 이상 음성 신호가 입력되지 않거나, 일정 시간 이상 허용 수치 미만의 데시벨의 잡음만이 입력되는 경우, 해당 구간을 묵음 구간으로 추출할 수 있다. 또한, 프로세서(130)는 제 1 발화자의 발화가 종료하고 제 1 발화자와 상이한 제 2 발화자의 발화가 시작되는 전환 시점을 전환 구간으로 추출할 수 있다. 프로세서(130)는 묵음 구간이 추출되거나, 전환 구간이 추출되면, 추출된 묵음 구간 또는 전환 구간 직전의 단어에 대한 제 1 발화자의 발성 길이에 기초하여, 장음화 현상을 판단할 수 있다.
예를 들어, 프로세서(130)는 제 1 발화자의 묵음 구간 또는 제 1 발화자에서 제 2 발화자로 전환되는 전환 구간을 추출할 수 있다. 그리고 프로세서(130)는 추출된 묵음 구간 및 전환 구간 직전의 단어에 대한 마지막 음절을 미리 정해진 길이 이상 발성한 경우, 장음화 현상이 발생했다고 판단할 수 있다. 그리고 프로세서(130)는 제 1 발화자의 음성 신호 상에서 장음화 현상 발생 횟수에 기초하여 장음화 현상을 비언어학적 요소로 추출할 수 있다.
한편, 프로세서(130)는 음성 신호로부터 이러한 비언어학적 요소를 추출하여, 발화자의 성별을 판별한다. 이를 위하여 프로세서(130)는 기수집된 복수의 발화자에 대한 음성 신호로부터 발화자의 성별을 분류하는 성별 분류기를 생성하여, 발화자의 성별을 판별하기 위하여 사용할 수 있다.
프로세서(130)는 성별 분류기를 생성하기 위하여 먼저 기수집된 복수의 발화자에 대한 음성 신호로부터 비언어학적 요소를 추출할 수 있다. 또한, 프로세서(130)는 추출된 복수의 발화자에 대한 비언어학적 요소에 기초하여 복수의 발화자의 성별에 따른 비언어학적 특징을 분석할 수 있다. 프로세서(130)는 복수의 발화자의 성별에 따른 비언어학적 특징에 기초하여 음성 신호 입력 모듈(110)을 통하여 입력되는 음성 신호로부터 발화자의 성별을 분류하는 발화자의 성별 분류기를 생성할 수 있다.
이때, 프로세서(130)는 복수의 발화자의 성별에 따른 비언어학적 특징에 대한 통계 정보에 따라 발화자의 성별 분류기를 생성할 수 있다. 즉, 프로세서(130)는 복수의 발화자의 음성 신호에 포함된 비언어학적 요소의 발생 빈도 또는 분당 평균 발생 횟수와 같은 통계 정보에 기초하여, 성별에 따른 비언어학적 특징을 분석하고, 성별 분류기를 생성할 수 있다.
예를 들어, 통계적인 특징에 따라 생성된 발화자의 성별 분류기는 음성 신호에 간섭 현상이 있고, 장음화가 없으면 발화자를 남성으로 분류하며, 음성 신호에 간섭 현상이 없고, 장음화가 있으면 발화자를 여성으로 분류할 수 있다. 또한, 발화자의 성별 분류기는 음성 신호에 간섭 현상이 분당 평균 n개보다 많으면, 발화자를 남성으로 분류하고, 적으면 발화자를 여성으로 분류할 수 있다. 그리고 발화자의 성별 분류기는 음성 신호에 장음화 현상이 분당 평균 m개보다 많으면 발화자를 여성으로 분류하고, 적으면 발화자를 남성으로 분류할 수 있다.
이때, nm은 실수이며, 발화자의 성별 인식기의 생성 환경에 따라, 상이하게 설정될 수 있다. 예를 들어, n은 0.41이 될 수 있으며, m은 2.22개가 될 수 있다.
또한, 프로세서(130)는 복수의 발화자의 성별에 따른 비언어학적 특징을 추출한 후, 기계학습 기법을 이용하여 발화자의 성별 분류기(200)를 생성할 수 있다. 예를 들어, 기계학습 기법은 신경망, 은닉 마코브 모델 및 지지 벡터 머신 등이 될 수 있으나 이에 한정된 것은 아니다.
구체적인 발화자의 성별 분류기는 도 2 내지 도 5를 참조하여 설명한다.
도 2는 본 발명의 일 실시예에 따른 발화자의 성별 분류기(200)의 블록도이다.
발화자의 성별 분류기(200)는 간섭 현상 판별 모듈(240), 간투어 판별 모듈(230), 장음화 현상 판별 모듈(250) 및 성별 판별 모듈(260)을 포함할 수 있다.
간섭 현상 판별 모듈(240)은 성별 판별 대상이 되는 제 1 발화자의 제 1 발화 음성 신호(210) 및 제 1 발화자와 상이한 제 2 발화자의 제 2 발화 음성 신호(220)에서 음성이 중첩되는 중첩구간을 추출할 수 있다. 그리고 간섭 현상 판별 모듈(240)은 추출된 음성 중첩 구간에 기초하여, 간섭 현상을 판별할 수 있다. 이때, 간섭 현상 판별 모듈(240)은 음성 구간 추출 모듈(300), 음성 중첩 구간 추출 모듈(310) 및 간섭 현상 판단 모듈(320)을 세부 모듈로 포함할 수 있다.
도 3은 본 발명의 일 실시예에 따른 간섭 현상 판별 모듈(240)의 블록도이다.
음성 구간 추출 모듈(300)은 제 1 발화 음성 신호(210) 및 제 2 발화 음성 신호(220)로부터 음성 구간을 추출할 수 있다. 이때, 음성 구간은 허용 수치 이상의 데시벨의 음성을 포함하는 음성 신호 구간일 수 있다. 그러므로 음성 구간 추출 모듈(300)은 제 1 발화 음성 신호(210) 및 제 2 발화 음성 신호(220)에서 허용 수치 이상의 데시벨에 대응하는 구간을 음성 구간으로 추출할 수 있다.
음성 중첩 구간 추출 모듈(310)은 음성 구간 추출 모듈(300)에 의해서 추출된 음성 구간 중 복수의 발화자로부터 수집된 음성이 중첩되는 구간을 중첩 구간으로 추출할 수 있다. 즉, 음성 중첩 구간 추출 모듈(310)은 음성 구간 중 제 1 발화 음성 신호(210) 및 제 2 발화 음성 신호(220)가 중첩된 구간을 중첩 구간으로 추출할 수 있다. 만약, 제 1 발화 음성 신호(210) 및 제 2 발화 음성 신호(220)가 독립적으로 수집되는 경우, 음성 중첩 구간 추출 모듈(310)은 각각의 발화자로부터 추출된 음성 구간 중 시간상으로 중첩되는 음성 구간이 존재하는 경우, 시간상으로 중첩되는 구간을 중첩 구간으로 추출할 수 있다.
간섭 현상 판단 모듈(320)은 음성 중첩 구간 추출 모듈(310)을 통하여 추출된 중첩 구간이 하나 이상이 존재하는지 여부에 따라 간섭 현상의 발생 유무를 판단할 수 있다. 예를 들어, 간섭 현상 판단 모듈(320)은 추출된 중첩 구간이 제 2 발화자의 발화 중 제 1 발화자가 간섭한 경우를 나타내면, 해당 구간을 제 1 발화자의 간섭 구간으로 추출할 수 있다. 그리고 간섭 현상 판단 모듈(320)은 이와 같이, 중첩 구간에 대한 분석을 수행하여 제 1 발화자의 간섭 구간의 개수를 추출할 수 있다.
간투어 판별 모듈(230)은 성별 판별 대상이 되는 제 1 발화자의 제 1 발화 음성 신호(210)를 입력받아 간투어의 포함 여부를 판별할 수 있다. 이때, 간투어 판별 모듈(230)은 음성 인식 모듈(400), 간투어 추출 모듈(410) 및 간투어 사전(420)을 세부 모듈로 포함할 수 있다.
도 4는 본 발명의 일 실시예에 따른 간투어 판별 모듈(230)의 블록도이다.
음성 인식 모듈(400)은 제 1 발화 음성 신호(210)를 입력받아, 제 1 발화 음성 신호(210)에 대응하는 단어로 변환할 수 있다. 이때, 음성 인식 모듈(400)은 발화자의 성별 인식을 위하여 개발된 음성 인식 모듈일 수 있다. 또한, 음성 인식 모듈(400)은 간투어 판별 모듈(230)과 연결된 상용 음성 인식기가 될 수 있으나, 이에 한정된 것은 아니다.
간투어 추출 모듈(410)은 음성 인식 모듈(400)을 통하여 텍스트로 변환된 제 1 발화 음성 신호(210)에 대응하는 간투어를 추출할 수 있다. 이때, 간투어 추출 모듈(410)은 간투어 사전(420)을 이용할 수 있다.
간투어 사전(420)은 복수의 발화자가 자주 사용하는 간투어를 저장할 수 있다. 또는 성별 인식 장치(100)의 관리자가 수집한 간투어를 저장할 수도 있으나, 이에 한정된 것은 아니다.
장음화 현상 판별 모듈(250)은 제 1 발화 음성 신호(210) 및 제 2 발화 음성 신호(220)로부터 묵음 구간 및 발화자가 제 1 발화자에서 제 2 발화자로 전환되는 전환 구간을 추출하고, 추출한 묵음 구간 및 전환 구간에 기초하여 장음화 현상 발생 구간을 검색한다. 그리고 장음화 현상 판별 모듈(250)은 검색된 장음화 현상 발생 구간에 기초하여 장음화 현상을 판단할 수 있다. 이때, 장음화 현상 판별 모듈(250)은 묵음 구간 추출 모듈(500), 전환 구간 추출 모듈(510), 장음화 현상 발생 구간 검색 모듈(520) 및 장음화 현상 판단 모듈(530)을 세부 모듈로 포함할 수 있다.
도 5는 본 발명의 일 실시예에 따른 장음화 현상 판별 모듈(250)의 블록도이다.
묵음 구간 추출 모듈(500)은 제 1 발화 음성 신호(210) 상에 묵음 구간을 추출할 수 있다. 예를 들어, 제 1 발화 음성 신호(210) 상에 허용 수치 미만의 데시벨의 음성이 포함되는 경우, 묵음 구간 추출 모듈(500)은 해당 구간을 묵음 구간으로 추출할 수 있다.
전환 구간 추출 모듈(510)은 제 1 발화 음성 신호(210)에서 제 2 발화 음성 신호(220)로 전환되는 구간을 추출할 수 있다.
장음화 현상 발생 구간 검색 모듈(520)은 묵음 구간 추출 모듈(500)을 통하여 추출된 묵음 구간 및 전환 구간 추출 모듈(510)을 통하여 추출된 전환 구간의 바로 앞에 제 1 발화자가 발화한 음성 신호를 장음화 현상 발생 구간으로 검색할 수 있다.
장음화 현상 판단 모듈(530)은 장음화 현상 발생 구간 검색 모듈(520)에 의하여 장음화 현상 발생 구간으로 검색된 음성 신호를 분석하고 판단할 수 있다.
이와 같이, 간투어 판별 모듈(230), 간섭 현상 판별 모듈(240) 및 장음화 현상 판별 모듈(250)에 의해서 제 1 발화 음성 신호(210) 및 제 2 발화 음성 신호(220)로부터 간투어, 간섭 현상 및 장음화 현상이 추출되면, 성별 판별 모듈(260)은 제 1 발화자의 성별을 판별할 수 있다. 이때, 성별 판별 모듈(260)은 앞에서 설명한 바와 같이, 통계적 분석을 통하여 생성되었거나, 기계학습 알고리즘을 통하여 학습된 미리 정해진 규칙에 따라, 성별을 판별할 수 있다.
다음은 도 6 및 도 7에 기초하여, 본 발명의 일 실시예에 따른 발화자의 성별 인식 장치(100)의 성별 인식 방법을 설명한다.
도 6은 본 발명의 일 실시예에 따른 발화자의 성별 인식 방법의 순서도이다.
성별 인식 장치(100)는 발화자의 음성 신호가 입력되면(S600), 음성 신호로부터 비언어학적 요소를 추출한다(S610). 이때, 비언어학적 요소는 간투어, 간섭 현상 및 장음화 현상 중 하나 이상을 포함한다.
예를 들어, 비언어학적 요소로 간투어를 추출하는 경우, 성별 인식 장치(100)는 발화자의 음성 신호로부터 단어를 인식할 수 있다. 그리고 성별 인식 장치(100)는 인식된 단어가 데이터베이스(미도시)에 기 저장된 간투어 사전에 포함되는 경우, 인식된 단어를 간투어로 추출할 수 있다.
또한, 비언어학적 요소로 간섭 현상을 추출하는 경우, 성별 인식 장치(100)는 발화자의 음성 신호 및 발화자와 상이한 발화자의 음성 신호로부터 발화자의 음성 구간 및 상이한 발화자의 음성 구간을 추출할 수 있다. 그리고 성별 인식 장치(100)는 추출된 발화자의 음성 구간 및 상이한 발화자의 음성 구간에 대한 중첩 음성 구간을 추출할 수 있다. 그리고 성별 인식 장치(100)는 추출된 중첩 음성 구간에 기초하여 상기 간섭 현상의 발생 여부를 판별할 수 있다.
비언어학적 요소로 장음화 현상을 추출하는 경우, 성별 인식 장치(100)는 발화자의 음성 신호로부터 묵음 구간 및 전환 구간을 추출할 수 있다. 그리고 성별 인식 장치(100)는 추출된 묵음 구간 및 전환 구간의 직전에 상기 발화자가 발화한 단어의 길이에 기초하여, 장음화 현상의 발생 여부를 판별할 수 있다.
성별 인식 장치(100)는 비언어학적 요소가 추출되면, 추출된 비언어학적 요소에 기초하여 발화자의 성별을 판별한다(S620).
이때, 성별 인식 장치(100)는 성별 분류기에 기초하여 발화자의 성별을 판별할 수 있다.
도 7은 본 발명의 일 실시예에 따른 성별 분류기 생성 방법의 순서도이다.
성별 인식 장치(100)는 복수의 발화자의 음성 신호에 기초하여, 비언어학적 요소를 추출할 수 있다(S700).
성별 인식 장치(100)는 복수의 발화자에 대한 비언어학적 요소에 기초하여 발화자의 성별에 따른 비언어학적 특징을 분석할 수 있다(S710).
그리고 복수의 발화자에 대한 비언어학적 특징에 기초하여, 성별 분류기를 생성할 수 있다(S720).
성별 인식 장치(100)는 이렇게 생성된 성별 분류기에 기초하여, 발화자의 음성 신호로부터 발화자의 성별을 판별할 수 있다.
본 발명의 일 실시예에 따른 발화자의 성별 인식 장치(100) 및 그를 이용한 성별 인식 방법은 비언어적 요소에 기초하여 발화자의 성별을 판별하므로, 발화자의 음성 신호의 주파수 관점에서 성별을 판별하던 종래의 성별 인식 방법에 비하여, 성별 인식의 정확도가 향상될 수 있다. 또한, 성별 인식 장치(100) 및 그를 이용한 성별 인식 방법은 종래의 성별 인식 방법이 판별할 수 없었던 중성적인 목소리에 대해서 판별이 가능하다.
본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 발화자의 성별 인식 장치
110: 음성 신호 입력 모듈
120: 메모리
130: 프로세서

Claims (12)

  1. 음성 신호 분석을 통한 발화자의 성별 인식 장치에 있어서,
    음성 신호를 입력 받는 음성 신호 입력 모듈,
    발화자의 성별을 판별하는 프로그램이 저장된 메모리 및
    상기 메모리에 저장된 프로그램을 실행하는 프로세서를 포함하되,
    상기 프로세서는 상기 프로그램의 실행에 따라, 상기 음성 신호 입력 모듈을 통하여 발화자의 음성 신호가 입력되면, 상기 음성 신호로부터 비언어학적 요소를 추출하고, 상기 추출된 비언어학적 요소에 기초하여 상기 발화자의 성별을 판별하되,
    상기 비언어학적 요소는 간투어, 간섭 현상 및 장음화 현상 중 하나 이상을 포함하고,
    상기 프로세서는 상기 발화자의 음성 신호 및 상기 음성 신호 입력 모듈을 통하여 입력된 상기 발화자와 상이한 발화자의 음성 신호로부터, 상기 발화자의 음성 구간 및 상기 발화자와 상이한 발화자의 음성 구간을 추출하고,
    상기 추출된 발화자의 음성 구간 및 상기 추출된 상이한 발화자의 음성 구간에 대한 중첩 음성 구간을 분석하며,
    상기 분석된 중첩 음성 구간에 기초하여 상기 간섭 현상에 대한 발생 여부를 판별하고, 상기 간섭 현상을 상기 비언어학적 요소로 추출하는 것인, 발화자의 성별 인식 장치.
  2. 음성 신호 분석을 통한 발화자의 성별 인식 장치에 있어서,
    음성 신호를 입력 받는 음성 신호 입력 모듈,
    발화자의 성별을 판별하는 프로그램이 저장된 메모리 및
    상기 메모리에 저장된 프로그램을 실행하는 프로세서를 포함하되,
    상기 프로세서는 상기 프로그램의 실행에 따라, 상기 음성 신호 입력 모듈을 통하여 발화자의 음성 신호가 입력되면, 상기 음성 신호로부터 비언어학적 요소를 추출하고, 상기 추출된 비언어학적 요소에 기초하여 상기 발화자의 성별을 판별하되,
    상기 비언어학적 요소는 간투어, 간섭 현상 및 장음화 현상 중 하나 이상을 포함하고,
    상기 프로세서는 상기 발화자의 음성 신호 및 상기 음성 신호 입력 모듈을 통하여 입력된 상기 발화자와 상이한 발화자의 음성 신호로부터, 묵음 구간 및 전환 구간을 추출하고,
    상기 추출된 묵음 구간 및 전환 구간의 직전에 상기 발화자가 발화한 단어에 대한 발성 길이에 기초하여, 상기 장음화 현상의 발생 여부를 판별하고, 상기 장음화 현상을 상기 비언어학적 요소로 추출하는 것이고,
    상기 전환 구간은 상기 발화자 및 상기 상이한 발화자의 발화가 전환되는 음성 신호를 포함하는 구간인, 발화자의 성별 인식 장치.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 프로세서는 기수집된 복수의 발화자에 대한 음성 신호로부터 비언어학적 요소를 추출하고, 상기 추출된 복수의 발화자에 대한 비언어학적 요소에 기초하여 상기 복수의 발화자의 성별에 따른 비언어학적 특징을 분석하며, 상기 분석된 발화자의 성별에 따른 비언어학적 특징에 기초하여, 성별 분류기를 생성하되,
    상기 프로세서는 상기 성별 분류기에 기초하여 상기 발화자의 음성 신호로부터 상기 발화자의 성별을 판별하는 것인, 발화자의 성별 인식 장치.
  4. 제 3 항에 있어서,
    상기 프로세서는 상기 기수집된 복수의 발화자에 대한 음성 신호에 포함된 상기 비언어학적 요소의 발생 빈도에 기초하여, 상기 성별에 따른 비언어학적 특징을 분석하는, 발화자의 성별 인식 장치.
  5. 제 1 항 또는 제 2 항에 있어서,
    간투어 사전을 저장하는 데이터베이스를 더 포함하고,
    상기 프로세서는 상기 발화자의 음성 신호로부터 단어를 인식하고, 상기 인식된 단어가 상기 간투어 사전에 포함되면, 상기 단어를 간투어로 추출하는, 발화자의 성별 인식 장치.
  6. 삭제
  7. 성별 인식 장치의 음성 신호 분석을 통한 성별 인식 방법에 있어서,
    발화자의 음성 신호가 입력되면, 상기 음성 신호로부터 비언어학적 요소를 추출하는 단계; 및
    상기 비언어학적 요소를 추출하는 단계로부터 추출된 상기 비언어학적 요소에 기초하여 상기 발화자의 성별을 판별하는 단계를 포함하되,
    상기 비언어학적 요소는 간투어, 간섭 현상 및 장음화 현상 중 하나 이상을 포함하고,
    상기 간섭 현상은,
    상기 발화자의 음성 신호 및 상기 음성 신호 입력 모듈을 통하여 입력된 상기 발화자와 상이한 발화자의 음성 신호로부터, 상기 발화자의 음성 구간 및 상기 발화자와 상이한 발화자의 음성 구간을 추출하고,
    상기 추출된 발화자의 음성 구간 및 상기 추출된 상이한 발화자의 음성 구간에 대한 중첩 음성 구간을 분석하며,
    상기 분석된 중첩 음성 구간에 기초하여 상기 간섭 현상에 대한 발생 여부를 판별하여 추출되는 것인, 발화자의 성별 인식 방법.
  8. 성별 인식 장치의 음성 신호 분석을 통한 성별 인식 방법에 있어서,
    발화자의 음성 신호가 입력되면, 상기 음성 신호로부터 비언어학적 요소를 추출하는 단계; 및
    상기 비언어학적 요소를 추출하는 단계로부터 추출된 상기 비언어학적 요소에 기초하여 상기 발화자의 성별을 판별하는 단계를 포함하되,
    상기 비언어학적 요소는 간투어, 간섭 현상 및 장음화 현상 중 하나 이상을 포함하고,
    상기 장음화 현상은 상기 발화자의 음성 신호 및 상기 음성 신호 입력 모듈을 통하여 입력된 상기 발화자와 상이한 발화자의 음성 신호로부터, 묵음 구간 및 전환 구간을 추출하고,
    상기 추출된 묵음 구간 및 전환 구간의 직전에 상기 발화자가 발화한 단어에 대한 발성 길이에 기초하여, 상기 장음화 현상의 발생 여부를 판별하여 추출되는 것이고,
    상기 전환 구간은 상기 발화자 및 상기 상이한 발화자의 발화가 전환되는 음성 신호를 포함하는 구간인, 발화자의 성별 인식 방법.
  9. 제 7 항 또는 제 8 항에 있어서,
    상기 발화자의 성별을 판별하는 단계 이전에,
    기수집된 복수의 발화자에 대한 음성 신호에 기초하여, 비언어학적 요소를 추출하는 단계;
    상기 복수의 발화자로부터 비언어학적 요소를 추출하는 단계 이후에, 상기 추출된 복수의 발화자에 대한 비언어학적 요소에 기초하여 상기 복수의 발화자에 대한 성별에 따른 비언어학적 특징을 분석하는 단계; 및
    상기 복수의 발화자에 대한 성별에 따른 비언어학적 특징을 분석하는 단계를 통하여 분석된 상기 복수의 발화자에 대한 성별에 따른 비언어학적 특징에 기초하여, 성별 분류기를 생성하는 단계를 더 포함하고,
    상기 발화자의 성별을 판별하는 단계는 상기 성별 분류기를 생성하는 단계로부터 생성된 성별 분류기에 기초하여 상기 발화자의 성별을 판별하는 것인, 발화자의 성별 인식 방법.
  10. 제 7 항 또는 제 8 항에 있어서,
    상기 비언어학적 요소를 추출하는 단계는,
    상기 발화자의 음성 신호로부터 단어를 인식하는 단계; 및
    상기 단어를 인식하는 단계로부터 인식된 상기 단어가 데이터베이스에 기저장된 간투어 사전에 포함되면, 상기 인식된 단어를 간투어로 추출하는 단계를 포함하는, 발화자의 성별 인식 방법.
  11. 삭제
  12. 제 7 항 및 제 8 항 중 어느 한 항에 기재된 방법을 컴퓨터 상에서 수행하기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
KR1020150159162A 2015-11-12 2015-11-12 발화자의 성별 인식 장치 및 그를 이용한 성별 인식 방법 KR101648396B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150159162A KR101648396B1 (ko) 2015-11-12 2015-11-12 발화자의 성별 인식 장치 및 그를 이용한 성별 인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150159162A KR101648396B1 (ko) 2015-11-12 2015-11-12 발화자의 성별 인식 장치 및 그를 이용한 성별 인식 방법

Publications (1)

Publication Number Publication Date
KR101648396B1 true KR101648396B1 (ko) 2016-08-16

Family

ID=56854602

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150159162A KR101648396B1 (ko) 2015-11-12 2015-11-12 발화자의 성별 인식 장치 및 그를 이용한 성별 인식 방법

Country Status (1)

Country Link
KR (1) KR101648396B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120083104A (ko) * 2011-01-17 2012-07-25 엘지전자 주식회사 멀티미디어 장치의 음성인식을 통한 텍스트 입력 방법 및 그에 따른 멀티미디어 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120083104A (ko) * 2011-01-17 2012-07-25 엘지전자 주식회사 멀티미디어 장치의 음성인식을 통한 텍스트 입력 방법 및 그에 따른 멀티미디어 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
김기호 외 3명, ‘자연발화상에 나타난 단음절 단일간투사의 길이특성 분석’, 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집, 11권 1호, pp.95~98, June 1994.* *

Similar Documents

Publication Publication Date Title
US11361763B1 (en) Detecting system-directed speech
US11710478B2 (en) Pre-wakeword speech processing
US11514901B2 (en) Anchored speech detection and speech recognition
US11580991B2 (en) Speaker based anaphora resolution
US11657832B2 (en) User presence detection
US10074363B2 (en) Method and apparatus for keyword speech recognition
US10074369B2 (en) Voice-based communications
US10580404B2 (en) Indicator for voice-based communications
US10522134B1 (en) Speech based user recognition
US10923111B1 (en) Speech detection and speech recognition
Zissman et al. Automatic language identification
US6470315B1 (en) Enrollment and modeling method and apparatus for robust speaker dependent speech models
RU2466468C1 (ru) Система и способ распознавания речи
Mouaz et al. Speech recognition of moroccan dialect using hidden Markov models
US20060129392A1 (en) Method for extracting feature vectors for speech recognition
Das Speech recognition technique: A review
Këpuska Wake-up-word speech recognition
KR101809511B1 (ko) 발화자의 연령대 인식 장치 및 방법
CN114303186A (zh) 用于在语音合成中适配人类说话者嵌入的系统和方法
Manjunath et al. Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali
Sharma et al. Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art
KR101648396B1 (ko) 발화자의 성별 인식 장치 및 그를 이용한 성별 인식 방법
KR101658452B1 (ko) 음성 데이터에 대한 성별 인식 장치 및 성별 인식 방법
Khalifa et al. Statistical modeling for speech recognition
KR20180057315A (ko) 자연어 발화 음성 판별 시스템 및 방법

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190722

Year of fee payment: 4