KR102520858B1 - 공진기를 이용한 화자 인식 방법 및 장치 - Google Patents

공진기를 이용한 화자 인식 방법 및 장치 Download PDF

Info

Publication number
KR102520858B1
KR102520858B1 KR1020197013600A KR20197013600A KR102520858B1 KR 102520858 B1 KR102520858 B1 KR 102520858B1 KR 1020197013600 A KR1020197013600 A KR 1020197013600A KR 20197013600 A KR20197013600 A KR 20197013600A KR 102520858 B1 KR102520858 B1 KR 102520858B1
Authority
KR
South Korea
Prior art keywords
speaker
band
vowel
resonance
resonators
Prior art date
Application number
KR1020197013600A
Other languages
English (en)
Other versions
KR20190092379A (ko
Inventor
김재흥
강성찬
박상하
윤용섭
이충호
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Publication of KR20190092379A publication Critical patent/KR20190092379A/ko
Application granted granted Critical
Publication of KR102520858B1 publication Critical patent/KR102520858B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H13/00Measuring resonant frequency
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/20Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Telephone Function (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

공진기를 이용한 화자 인식 방법 및 장치가 개시된다. 본 화자 인식 방법은, 서로 다른 공진 대역을 갖는 복수 개의 공진기 중 적어도 일부의 공진기로부터 화자(speaker)의 음성에 대응하는 전기적 신호들을 수신하고, 전기적 신호들을 이용하여 공진 대역의 크기 차를 산출하며, 공진 대역의 크기 차를 이용하여 상기 화자를 인식한다.

Description

공진기를 이용한 화자 인식 방법 및 장치
본 개시는 공진기를 이용한 화자 인식 방법 및 장치에 관한 것이다.
음향 또는 진동의 스펙트럼을 분석하는 스펙트럼 분석기는 다양한 기기에서 사용될 수 있다. 예를 들어, 음향 또는 진동과 관련된 음성 인식, 화자 인식, 상황 인식을 위하여 컴퓨터, 자동차, 휴대폰 또는 가전 기기 등에 채용되어 사용될 수 있다. 또한, 진동 정보를 분석하기 위하여 건축물, 각종 가전 기기 등에 탑재되어 사용될 수 있다.
스펙트럼 분석기로는 특정 영역의 주파수 대역의 신호를 필터링(filtering) 하기 위해서 기계적 공진기(mechanical resonator), 전기 아날로그(electrical analog) 또는 디지털 필터(digital filter)와 같은 센서들이 사용될 수 있다. 이러한 센서들로부터 얻어진 신호를 이용하여 푸리에 변환(Fourier transform) 등을 수행하여 분석할 수 있다.
본 개시에서는 공진기를 이용한 화자 인식 방법을 제공한다.
또한, 본 개시에서는 공진기를 포함하여 화자 인식을 할 수 있는 장치를 제공한다.
일 측면(aspect)에 따르는 화자 인식 방법은, 서로 다른 공진 대역을 갖는 복수 개의 공진기 중 적어도 일부의 공진기로부터 화자(speaker)의 음성에 대응하는 전기적 신호들을 수신하는 단계; 상기 전기적 신호들을 이용하여 공진 대역의 크기 차를 산출하는 단계; 및 상기 공진 대역의 크기 차를 이용하여 상기 화자를 인식하는 단계;를 포함한다.
그리고, 상기 공진 대역의 크기 차는, 주파수를 기준으로 이웃하는 공진 주파수를 갖는 두 개의 공진기에서 출력된 전기적 신호의 크기 차일 수 있다.
또한, 상기 화자를 인식하는 단계는, 상기 공진 대역의 크기 차를 부호화하여 대역 기울기의 비트 맵을 생성하는 단계; 및 상기 대역 기울기의 비트 맵을 이용하여 상기 화자를 인식하는 단계;를 포함할 수 있다.
그리고, 상기 부호화는, 상기 공진 대역의 크기 차를 3 이상의 홀수 개의 값 중 어느 하나로 변환할 수 있다.
또한, 상기 3개 이상의 홀수 개의 값은, 하나의 값을 기준으로 나머지의 값들 중 대응하는 값들은 절대값이 같으면서 부호가 반대일 수 있다.
그리고, 상기 3개 이상의 홀수 개의 값은,a, 0, -a(여기서, a는 상수)을 포함할 수 있다.
또한, 상기 화자 음성이 등록과정 음성인 경우, 상기 화자를 인식하는 단계는, 상기 대역 기울기의 비트 맵을 이용하여 화자 모델을 생성하는 단계; 및 상기 화자 모델을 인증 템플릿으로 등록하는 단계;를 포함할 수 있다.
그리고, 상기 화자 음성이 등록과정 음성이 아닌 경우, 상기 화자를 인식하는 단계는, 상기 대역 기울기의 비트 맵을 이용하여 화자 특징값을 생성하는 단계; 및 상기 화자 특징값을 상기 등록된 인증 템플릿과 비교하여, 상기 화자가 등록된 화자인지 결정하는 단계;를 포함할 수 있다.
또한, 상기 화자를 인식하는 단계는, 상기 공진 대역의 크기 차를 이용하여 상기 화자의 음성 중 모음을 결정하는 단계;를 포함할 수 있다.
그리고, 상기 모음을 결정하는 단계는, 상기 공진 대역의 크기 차를 이용하여 포먼트들의 상대적 위치를 추정하는 단계; 및 상기 포먼트들의 상대적 위치로부터 상기 모음을 결정하는 단계;를 포함할 수 있다.
또한, 상기 포먼트들의 개수는 3개일 수 있다.
그리고, 상기 공진 대역의 크기 차는, 상기 공진기 센서 중 4개의 공진기로부터 수신된 전기적 신호들의 크기에 의해 결정될 수 있다.
또한, 상기 화자를 인식하는 단계는, 상기 결정된 모음에 가중치를 할당하는 단계; 상기 모음을 결정하기 위해 이용된 공진 대역의 크기 차와 다른, 공진 대역의 크기 차를 이용하여 대역 기울기의 비트 맵을 생성하는 단계; 상기 대역 기울기의 비트 맵을 이용하여 화자 특징값을 생성하는 단계; 및 상기 가중치를 이용하여 상기 화자 특징값과 인증 템플릿을 비교함으로써, 상기 화자가 등록된 화자인지를 인식하는 단계;를 포함할 수 있다.
그리고, 상기 가중치를 할당하는 단계는, 상기 결정된 모음의 가중치를 다른 모음의 가중치보다 높게 할당할 수 있다.
또한, 상기 가중치는, 상기 결정된 모음에는 1이 할당되고, 상기 다른 모음에는 0이 할당될 수 있다.
그리고, 상기 대역 기울기의 비트 맵을 생성하기 위해 이용된 공진 대역의 크기 차의 개수는 상기 모음을 결정하기 위해 이용된 공진 대역의 크기 차의 개수보다 클 수 있다.
한편, 일 실시예에 따른 화자 인식 장치는, 서로 다른 공진 대역을 갖는 복수 개의 공진기를 포함하고, 상기 복수 개의 공진기 중 적어도 일부의 공진기로부터 화자(speaker)의 음성에 대응하는 전기적 신호들을 출력하는 공진기 센서; 및 상기 전기적 신호들을 이용하여 공진 대역의 크기 차를 산출하고, 상기 공진 대역의 크기 차를 이용하여 상기 화자를 인식하는 프로세서;를 포함한다.
그리고, 상기 공진 대역의 크기 차는, 주파수를 기준으로 이웃하는 공진 주파수를 갖는 두 개의 공진기에서 출력된 전기적 신호의 크기 차일 수 있다.
또한, 상기 프로세서는, 상기 공진 대역의 크기 차를 부호화하여 대역 기울기의 비트 맵을 생성하고, 상기 대역 기울기의 비트 맵을 이용하여 상기 화자를 인식할 수 있다.
그리고, 상기 프로세서는, 상기 공진 대역의 크기 차를 3 이상의 홀수 개의 값 중 어느 하나로 변환함으로써 상기 공진 대역의 크기 차를 부호화할 수 있다.
또한, 상기 프로세서는, 상기 대역 기울기의 비트 맵을 이용하여 결정된 화자 특징값을 등록된 인증 템플릿과 비교하여, 상기 화자가 등록된 화자인지 결정할 수 있다.
그리고, 상기 프로세서는, 상기 공진 대역의 크기 차를 이용하여 상기 화자의 음성 중 모음을 결정할 수 있다.
또한, 상기 프로세서는, 상기 공진 대역의 크기 차를 이용하여 포먼트들의 상대적 위치를 추정하고, 상기 포먼트들의 상대적 위치로부터 상기 모음을 결정할 수 있다.
그리고, 상기 공진기 센서 중 4개의 공진기로부터 수신된 전기적 신호들의 크기에 의해 결정될 수 있다.
또한, 상기 프로세서는, 상기 결정된 모음에 가중치를 할당하고, 상기 모음을 결정하기 위해 이용된 공진 대역의 크기 차와 다른, 공진 대역의 크기 차를 이용하여 화자 특징값을 생성하며, 상기 가중치를 이용하여 상기 화자 특징값과 인증 템플릿과 비교함으로써 화자를 인식할 수 있다.
그리고, 상기 대역 기울기의 비트 맵을 생성하기 위해 이용된 공진 대역의 크기 차의 개수는 상기 모음을 결정하기 위해 이용된 공진 대역의 크기 차의 개수보다 클 수 있다.
한편, 다른 실시예에 따른 화자 인식 방법은, 화자(speaker)의 음성에 대응하는 주파수 대역의 신호들을 수신하는 단계; 상기 신호들의 크기 차를 산출하는 단계; 상기 크기 차를 이용하여 상기 화자의 음성 중 모음을 결정하는 단계; 및 상기 결정된 모음을 이용하여 상기 화자가 등록된 화자인지를 판단하는 단계;를 포함한다.
그리고, 상기 모음을 결정하는 단계는, 상기 크기 차를 이용하여 포먼트들의 상대적 위치를 추정하는 단계; 및 상기 포먼트들의 상대적 위치로부터 상기 모음을 결정하는 단계;를 포함할 수 있다.
또한, 상기 주파수 대역의 신호들은, 서로 다른 공진 대역을 갖는 복수 개의 공진기로부터 수신할 수 있다.
그리고, 상기 화자가 등록된 화자인지를 판단하는 단계는, 상기 결정된 모음에 가중치를 할당하는 단계; 상기 화자의 음성에 대응하는 상기 화자의 특징값을 생성하는 단계; 및 상기 가중치를 이용하여 상기 화자의 특징값과 인증 템플릿을 비교함으로써, 상기 화자가 등록된 화자인지 판단하는 단계;를 포함할 수 있다.
또한, 상기 가중치를 할당하는 단계는, 상기 결정된 모음의 가중치를 다른 모음의 가중치보다 높게 할당할 수 있다.
그리고, 상기 가중치는, 상기 결정된 모음에는 1이 할당되고 상기 다른 모음에는 0이 할당될 수 있다.
본 개시에 따르면, 화자 인식을 위하여 긴 발화가 요구되지 않으며, 비교적 짧은 입력 신호에 의해서도 정확한 화자 인식이 가능하다. 입력 신호에서 모음을 결정하여 화자 인식을 위한 비교 군을 한정하여 사용함으로써, 화자 인식의 효율성을 향상시킬 수 있다.
본 개시에 따르면, 공진기 센서는 푸리에 변환이 요구되지 않으며, 주파수 대역의 정보를 유지하며, 시간 분해능을 향상시킬 수 있다. 인접한 공진기의 전기적 신호의 차이만을 이용하므로 공통 잡음(common noise)에 대한 영향을 제거할 수 있다.
도 1은 예시적인 실시예에 따른 다수의 공진기들을 포함하는 공진기 센서의 개략적인 구조를 나타낸 평면도이다.
도 2는 도 1에 나타낸 예시적인 실시예에 따른 공진기를 L1-L2를 기준으로 하여 자른 단면을 나타낸 도면이다.
도 3는 예시적인 실시예에 따른 공진기를 포함하는 화자 인식 장치를 개략적으로 나타낸 블럭도이다.
도 4는 예시적인 실시예에 따른 공진기를 이용한 화자 인식 방법을 나타낸 도면이다.
도 5는 공진 대역이 다른 음성을 나타내는 그래프의 예이다.
도 6는 예시적인 실시예에 따른 공진 대역의 크기 차를 이용하여 대역 기울기의 비트 맵을 생성하는 예를 나타낸 도면이다.
도 7은 일 실시예에 따른 공진 대역의 크기 차를 부호화하는 식을 보여주는 그래프이다.
도 8은 예시적인 실시예에 따른 시간에 따른 2차원 대역 기울기의 비트 맵을 나타내는 도면이다.
도 9는 모음 [AH] 발음의 공진 대역을 나타내는 스펙트럼이다.
도 10는 모음 [EE] 발음의 공진 대역을 나타내는 스펙트럼이다.
도 11 및 도 12는 예시적인 실시예에 따른 모음 결정과 관련하여 서로 이격된 공진기를 이용한 포먼트의 위치를 추정하는 것을 나타낸 그래프이다.
도 13은 예시적인 실시예에 따른 모음의 포먼트들의 위치를 나타내는 참조도면이다.
도 14은 모음과 대역 기울기의 비트 맵을 이용하여 화자를 인식하는 방법을 설명하는 흐름도이다.
도 15는 짧은 발화시 화자 특징값과 인증 템플릿의 비교를 설명하는 참조도면이다.
도 16 및 도 17는 예시적인 실시예에 따른 공진기 센서의 다수의 공진기들의 중심 주파수가 등비 간격으로 설정된 예를 나타낸 도면이다.
도 18 및 도 19는 예시적인 실시예에 따른 공진기 센서의 다수의 공진기들의 중심 주파수가 등차 간격으로 설정된 예를 나타낸 도면이다.
도 20 및 도 21는 예시적인 실시예에 따른 공진기 센서의 다수의 공진기들의 중심 주파수가 임의의 간격으로 설정된 예를 나타낸 도면이다.
도 22은 예시적인 실시예에 따른 다수의 공진기들을 포함하는 공진기 센서의 개략적인 구조를 나타낸 평면도이다.
도 23 내지 도 25는 예시적인 실시예에 따른 공진기 센서의 다수의 공진기들의 대역폭을 다양하게 변경시킨 예를 나타낸 그래프들이다.
도 26은 예시적인 실시예에 따른 공진기 센서의 다수의 공진기들 중 특정 공진기의 대역폭이 넓게 설정된 것을 나타낸 그래프이다.
이하, 첨부된 도면을 참조하여 실시예들에 대해 상세히 설명하기로 한다. 이하의 도면들에서 동일한 참조부호는 동일한 구성요소를 지칭하며, 도면상에서 각 구성요소의 크기는 설명의 명료성과 편의상 과장되어 있을 수 있다. 한편, 이하에 설명되는 실시예는 단지 예시적인 것에 불과하며, 다양한 변형이 가능하다. 이하에서, "상부" 나 "상"이라고 기재된 것은 접촉하여 바로 위에 있는 것뿐만 아니라 비접촉으로 위에 있는 것도 포함할 수 있다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
도 1은 예시적인 실시예에 따른 다수의 공진기들을 포함하는 공진기 센서의 개략적인 구조를 나타낸 평면도이다.
도 1의 공진기 센서(100)(resonator sensor)는 음향 또는 진동의 스펙트럼을 분석하는 스펙트럼 분석기로서 이용할 수 있다. 공진기 센서(100)는 서로 다른 공진 대역을 갖는 복수 개의 공진기, 예를 들어, 제1 공진기(R1), 제 2 공진기(R2)... 제n 공진기(Rn)를 포함할 수 있다. 공진기 센서(100)에 포함되는 단위 공진기의 개수는 2개 이상의 다수 개일 수 있으며 사용자의 선택에 따라 정해질 수 있으며 제한은 없다. 공진기(R1, R2... Rn)들은 대략 수 mm 이하의 길이를 지니도록 형성될 수 있으며, 예를 들어 멤스(Micro Electro Mechanical System:MEMS) 공정에 의해 제조될 수 있다. 각 공진기는 특정 대역의 주파수에 대해서만 공진하며, 공진하는 주파수 대역을 공진 대역이라고 한다.
도 2는 도 1에 나타낸 예시적인 실시예에 따른 공진기를 L1-L2를 기준으로 하여 자른 단면을 나타낸 도면이다.
도 2를 참조하면, 제1 공진기(R1)는 고정부(11), 고정부(11)로부터 일 방향, 예를 들어 y 방향으로 돌출되어 연장된 지지부(14)를 포함할 수 있다. 지지부(14) 상에는 센서부(12) 및 질량부(16)가 형성될 수 있다. 센서부(12)는 지지부(14)의 일측 단부, 예를 들어 고정부(11)와 인접한 영역에 형성될 수 있다. 그리고, 질량부(16)는 지지부(14)의 일측 단부 반대쪽인 타측 단부, 예를 들어 고정부(11)로부터 상대적으로 먼 영역에 형성될 수 있다.
고정부(11)는 공진기(R1, R2... Rn)들의 지지부(14)가 돌출되도록 형성된 영역이며, 통상적으로 전자 소자의 기판으로 사용되는 물질로 형성될 수 있다. 지지부(14)는 Si 등으로 형성될 수 있고, 빔(beam) 또는 얇고 일 방향으로 긴 플레이트 형상을 지닐 수 있으며, 캔틸레버(cantilever)나 외팔보 등의 명칭으로 지칭될 수 있다. 지지부(14)의 일단부는 고정부(11)에 의해 고정될 수 있으며, 타단부는 다른 물체에 의해 고정되지 않고 도 2에 나타낸 바와 같이 상하 방향, 예를 들어 z방향으로 자유롭게 진동할 수 있다. 도 2와 달리, 공진기의 지지부는 양측이 고정부에 고정되어 지지부의 중심 부위가 진동하는 형태를 지닐 수 있다.
센서부(12)는 외부 음성이나 진동에 의해 공진기(R1, R2.. Rn)의 지지부의 유동에 의한 신호를 센싱하는 영역으로서, 예를 들어 피에조 센서일 수 있다. 센서부(12)는 지지부(14)의 일측 표면 상에 순차적으로 형성된 하부 전극(12a), 압전 물질층(12b) 및 상부 전극(12c)을 포함할 수 있다. 센서부(12)의 하부 전극(12a) 및 상부 전극(12c)은 전도성 물질로 형성될 수 있으며, 예를 들어 몰리브덴(Mo) 등으로 형성될 수 있다. 하부 전극(12a)과 지지부(14) 사이에는 선택적으로 절연층이 더 형성될 수 있다. 압전 물질층(12b)은 피에조 센서에 사용될 수 있는 압전 물질 재료이면 제한 없이 이용될 수 있다. 압전 물질층(12b)은 예를 들어 AlN, ZnO, SnO, PZT, ZnSnO 3, Polyvinylidene fluoride(PVDF), poly(vinylidene fluoride-trifluoroethylene)(P(VDF-TrFE)) 또는 PMN-PT를 포함하여 형성될 수 있다. 다만, 공진기(R1, R2.. Rn)는 이와 같이 피에조 센서를 포함하는 압전 방식에 제한되는 것은 아니며, 정전 방식의 센서가 사용되는 것도 가능하다.
질량부(16)의 형성 물질은 제한이 없으며, 예를 들어 Au 등의 금속으로 형성될 수 있다.
도 2에서 예로 들은 제1 공진기(R1)가 고정부(11), 지지부(14), 센서부(12) 및 질량부(16)를 포함하는 구성은 도 1의 제2 공진기(R2) 내지 제n 공진기(Rn)에도 동일하게 적용될 수 있다.
도 1 및 도 2에 나타낸 공진기(R1, R2,.. Rn)에 외부로부터 음성, 진동 또는 힘이 작용할 때, 질량부(16)의 거동에 따라 관성력이 발생할 수 있다. 지지부(14)의 공진 주파수와 외부의 진동, 음향 또는 힘의 주파수가 일치하게 되면 공진 현상이 발생할 수 있으며, 관성력이 증가할 수 있다. 이러한 관성력은 센서부(12)에 굽힘 모멘트를 발생시키고, 굽힘 모멘트는 센서부(12)의 각 층에 스트레스를 유발할 수 있다. 이 경우, 작용하는 스트레스에 비례하는 크기의 전하(charge)가 압전 물질층(12b)에서 발생할 수 있으며, 전극(12a, 12c) 사이의 정전용량에 반비례하여 전압이 발생하게 된다. 정리하면, 공진기(R1, R2,.. Rn) 외부로부터 음성, 진동 또는 힘 등의 입력 신호에 의하여 센서부(12)에서 발생된 전압을 검출하고 해석하면 음성, 진동 또는 힘 등의 입력 신호에 관한 정보를 얻을 수 있다.
공진기(R1, R2... Rn)에 의해 센싱되는 입력 신호의 주파수 대역은 대략 20Hz ~ 20kHz 범위의 가청 주파수 대역일 수 있으나, 이에 한정되는 것은 아니며, 20kHz 이상의 초음파 대역이나 또는 20Hz 이하의 초저음파 대역의 음성을 수신할 수 있다.
본 개시에서는 공진기 센서(100)가 검출한 출력 값, 즉 전기적 신호를 이용하여 화자를 인식하는 장치 및 방법을 제공한다.
도 3는 예시적인 실시예에 따른 공진기를 포함하는 화자 인식 장치를 개략적으로 나타낸 블럭도이다.
도 3를 참조하면, 화자 인식 장치(200)는 도 1 및 도 2에 도시된 바와 같이, 입력되는 외부의 입력 신호에 대해 반응하여 특정한 값의 전기적 신호를 출력하는 공진기 센서(100)와 공진기 센서(100)로부터 수신된 전기적 신호로부터 공진 대역의 크기 차를 산출하고, 공진 대역의 크기 차를 이용하여 화자를 인식하는 프로세서(210)를 포함한다.
공진기 센서(100)는 도 1 및 도 2에 도시된 바와 같이, 서로 다른 공진 주파수, 즉 공진 대역을 갖는 복수 개의 공진기를 포함할 수 있다. 공진기 센서(100)의 각 공진기는 입력 신호에 대응하는 전기적 신호를 출력할 수 있다. 공진기 센서(100) 중 입력 신호의 주파수에 포함된 공진 대역을 갖는 공진기는 크기가 큰 전기적 신호(예를 들어, 전압)를 출력하고, 입력 신호의 주파수에 포함되지 않는 공진 대역을 갖는 공진기는 크기가 작은 전기적 신호를 출력할 수 있다. 따라서, 공진기 센서(100)의 각 공진기는 입력 신호에 대응하는 전기적 신호를 출력함으로써 공진기 센서(100)는 주파수별로 세분화된 전기적 신호를 출력할 수 있다.
공진기 센서(100)는 후술하는 프로세서(210)의 적어도 일부를 포함하여 구성될 수도 있다. 예를 들어, 공진기 센서(100)는 화자의 음성을 검출하는 동작 외에 음성에 대한 전기적 신호를 보정하거나, 전기적 신호의 특징을 산출하는 등의 동작을 포함할 수도 있다. 이 경우, 공진기 센서(100)는 하드웨어 모듈 및 소프트웨어 모듈을 가지는 기능적 모듈이 될 수 있다.
프로세서(210)는 운영체제 및 응용 프로그램을 구동하여, 프로세서(210)에 연결된 다수의 구성요소들을 제어할 수 있다. 프로세서(210)는 공진기 센서(100)로부터 획득된 전기적 신호를 이용하여 화자 인식을 수행할 수 있다.
예를 들어, 프로세서(210)는 공진기 센서(100)로부터 수신된 전기적 신호를 이용하여 공진 대역의 크기 차를 산출하고, 산출된 공진 대역의 크기 차를 부호화하여 대역 기울기의 비트 맵을 생성할 수 있다. 공진 대역의 크기 차는 공진 대역이 서로 다른 공진기들에서 출력된 전기적 신호의 크기 차를 의미할 수 있다. 대역 기울기의 비트 맵은 공진 대역의 크기 차를 간소화한 맵으로서 후술하기로 한다.
프로세서(210)는 특정 화자의 등록과정 음성으로부터 대역 기울기의 비트 맵을 생성할 수 있으며, 대역 기울기의 비트 맵을 이용하여 개인화된 화자 모델을 생성할 수 있다. 예를 들어, 프로세서(210)는 대역 기울기의 비트 맵을 고속 푸리에 변환(Fast Fourier Transform ;FFT), 2D Discrete Cosine Transform(DCT), DTW(Dynamic Time Warping), 인공 신경망, VQ(vector quantization), GMM(Gaussian mixture model) 등을 이용하여 화자 등록과정 음성의 특징값들을 생성할 수 있으며 등록과정 음성의 특징값들로부터 개인화된 화자 모델을 생성할 수 있다. 프로세서(210)는 일반화된 배경 모델(UBM: universal background model)에 등록과정 음성의 특징 값들을 적용하여 개인화된 화자 모델을 생성할 수 있다. 이렇게 생성된 개인화된 화자 모델은 이후 입력되는 특정 화자의 음성과의 비교에 사용하기 위해 인증 템플릿으로 메모리(220)의 보안 영역에 저장될 수 있다.
음성 인증시, 프로세서(210)는 입력된 불특정 화자의 음성으로부터 대역 기울기의 비트 맵을 생성하고, 대역 기울기의 비트 맵을 이용하여 특징값들을 생성한 후 등록된 인증 템플릿과의 비교를 통해 화자를 인증할 수 있다. 이때, 프로세서(210)는 등록된 인증 템플릿과의 비교를 위해 불특정 화자의 특징값의 형태를 변환할 수도 있고 변환된 특징값과 등록된 인증 템플릿을 비교하여 유사도를 판단할 수 있다. 유사도는 최대 유사도 추정방법(maximum likelihood estimation) 등을 적용할 수 있다. 프로세서(210)는, 유사도가 제1 기준값보다 크면 인증에 성공한 것으로 판단할 수 있고, 유사도가 제1 기준값 이하이면 인증에 실패한 것으로 판단할 수 있다. 제1 기준값은 불특정 화자의 특징값이 인증 템플릿이 동일하다고 판단할 수 있는 기준이 되는 값으로, 미리 정의될 수 있다.
추가적으로, 프로세서(210)는 공진기 센서(100)로부터 수신된 전기적 신호를 이용하여 공진 대역의 크기 차를 산출하고, 산출된 공진 대역의 크기 차를 이용하여 모음을 결정할 수 있다. 모음은 음향 에너지가 집중되는 주파수 대역인 포먼트를 복수 개 포함할 수 있다. 화자마다 특정 포먼트는 다를 수 있지만 다른 모음과 구분을 불가능하게 할 정도의 변화는 아니다. 따라서, 화자에 상관 없이 발음되는 모음은 일반적으로 구분될 수 있고, 인증 템플릿 중 이렇게 결정된 모음에 해당하는 모델이 화자 인식에 사용될 수 있다.모음 결정 방법은 후술하기로 한다.
화자 인식 장치(200)는 인증 템플릿이 저장된 메모리(220)를 포함할 수 있다. 메모리(220)에는 불특정 화자의 음성에 대한 정보가 임시로 저장될 수도 있다.
또한, 화자 인식 장치(200)는 정보 등을 표시하는 디스플레이(230)를 더 포함할 수 있다. 디스플레이(230)는 인식에 대한 각종 정보, 예를 들어, 인식을 위한 사용자 인터페이스, 인식 결과 등을 나타내는 인디케이터 등을 표시할 수 있다.
도 4는 예시적인 실시예에 따른 공진기를 이용한 화자 인식 방법을 나타낸 도면이다.
도 4를 참조하면, 본 개시에 따른 화자 인식 방법에서 프로세서(210)는 공진기 센서(100)로부터 화자의 음성에 대응하는 전기적 신호를 수신할 수 있다(S310). 공진기 센서(100)의 각 공진기는 음성에 대응하는 전기적 신호를 출력하고 프로세서(210)는 전기적 신호를 수신할 수 있다.
프로세서(210)는 공진기 센서(100)로부터 수신된 전기적 신호를 이용하여 공진 대역의 크기 차를 산출할 수 있다(S320). 공진 대역의 크기 차는 서로 다른 공진기들에서 수신된 전기적 신호의 크기 차, 예를 들어, 주파수를 기준으로 이웃하는 공진 주파수를 갖는 두 개의 공진기에서 출력되는 전기적 신호의 크기 차일 수 있다.
프로세서(210)는 공진기 센서(100)에 포함된 전체 공진기를 이용하여 공진 대역의 크기 차를 산출할 수 있다. 도 1에서 제1 내지 제n 공진기가 순차적으로 변하는 공진 대역을 갖는 경우, 프로세서(210)는 제1 공진기와 제2 공진기에서 수신된 전기적 신호의 크기 차를 제1 공진 대역의 크기 차로 산출하고, 제2 공진기와 제3 공진기에서 수신된 전기적 신호의 크기 차를 제2 공진 대역의 크기 차로 산출하며, 제n-1 공진기와 제n 공진기에서 수신된 전기적 신호의 차를 제n-1 공진 대역의 크기 차로 산출할 수 있다.
프로세서(210)는 공진기 센서(100)에 포함된 일부 공진기만을 이용하여 공진 대역의 크기 차를 산출할 수도 있다. 예를 들어, 프로세서(210)는 제1 공진기, 제4 공진기, 제k 공진기 및 제n 공진기로부터 수신된 전기적 신호를 이용하여 공진 대역의 크기 차를 산출할 수도 있다. 제1 공진기와 제4 공진기의 공진 대역이 이웃하고, 제4 공진기와 제k 공진기의 공진 대역이 이웃하며, 제k 공진기와 제n 공진기의 공진 대역이 이웃하면 프로세서(210)는 제1 공진기와 제4 공진기에서 수신된 전기적 신호의 차를 제1 공진 대역의 크기 차로 산출할 수 있고, 제4 공진기와 제k 공진기에서 수신된 전기적 신호의 차를 제2 공진 대역의 크기 차로 산출할 수 있으며, 제k 공진기와 제n 공진기에서 수신된 전기적 신호의 차를 제3 공진 대역의 크기 차로 산출할 수 있다.
프로세서(210)는 산출된 공진 대역의 크기 차를 이용하여 화자를 인식할 수 있다(S330). 예를 들어, 프로세서(210)는 공진 대역의 크기 차를 부호화하여 대역 기울기의 비트 맵을 생성하고, 대역 기울기의 비트 맵을 이용하여 화자 음성의 특징값을 생성하며, 생성된 특징값을 저장된 인증 템플릿과 비교하여 화자를 인식할 수 있다. 대역 기울기의 비트 맵은 공진 대역의 크기 차를 간소화한 맵으로서 후술하기로 한다.
추가적으로, 프로세서(210)는 공진 대역의 크기 차를 이용하여 모음을 결정할 수 있고, 이렇게 결정된 모음은 발음한 화자가 등록된 화자가 맞는지 판단하는데 이용될 수 있다. 예를 들어, 인증 템플릿에 포함된 개인화된 화자모델들 중 결정된 모음에 해당하는 모델들에 가중치를 부여하거나 해당 모델들만 화자 인식에 사용될 수 있다.이처럼 화자 인식 장치(200)는 공진 대역의 크기 차를 이용하여 화자를 인식할 수 있다. 공진 대역의 크기 차를 이용하는 방식은 공진 주파수들 사이에 존재하는 공통 잡음을 효율적으로 제거할 수 있다.
도 5는 공진 대역이 다른 음성을 나타내는 그래프의 예이다. 공진 대역의 중심 주파수를 식별하는데, 공진 대역의 크기 차를 이용하면, 도 5에 해칭된 영역이 제거될 수 있다. 해칭된 영역은 공진 대역의 중심 주파수와 관련이 약한 주파수 영역으로 잡음에 해당할 수 있다. 그리하여 공진 대역의 크기 차를 이용하여 중심 주파수와 관련도가 약한 공통 잡음을 효율적으로 제거할 수 있다. 이와 같은 공통 잡음의 제거는 잡음 제거를 위한 각종 알고리즘을 이용할 필요가 없거나 간소화시킬 수 있어, 보다 효율적으로 음성 인식을 수행할 수 있다. 다시 말하면, 공진 대역이 크기 차를 이용하면 잡음 제거를 위한 전처리 과정을 생략할 수 있거나 간소화할 수 있다.
도 6는 공진 대역의 크기 차를 이용하여 대역 기울기의 비트 맵을 생성하는 예를 나타낸 도면이다. 도 1 및 도 6를 참조하면, 공진기 센서(100)의 각 공진기(R1, R2... Rn)는 화자의 음성에 반응하여 전기적 신호를 출력할 수 있다. 각 공진기(R1, R2... Rn)는 도 6의 (a)에 도시된 바와 같은 공진 주파수를 가질 수 있다. 화자의 음성에는 복수 개의 공진 주파수가 혼재되어 있고 각 공진기는 화자의 음성에 포함된 주파수에 따라 그에 대응하는 전기적 신호를 출력할 수 있다. 예를 들어, 화자의 음성에 제1 주파수(H1)가 포함되어 있으면, 제1 공진기(R1)는 공진하여 크기가 큰 전기적 신호를 출력할 수 있다.
프로세서(210)는 공진기 센서(100)로부터 수신된 전기적 신호를 이용하여, 도 6의 (b)에 도시된 바와 같은 공진 대역의 크기 차를 산출할 수 있다. 프로세서(210)는 공진 주파수를 기준으로 이웃하는 공진기들에서 출력된 전기적 신호를 이용하여 공진 대역의 크기 차를 산출할 수 있다. 도 6의 (b)는 공진기 센서(100)에 포함된 전체 공진기를 이용하여 공진 대역의 크기 차를 산출한 결과를 나타낸다. 도 6의 (a)에서 제1 내지 제n 공진기가 순차적으로 변하는 공진 대역을 갖는다고 하였는 바, 프로세서(210)는 제1 내지 제n 공진기 중 이웃하는 공진기들의 전기적 신호의 크기 차를 공진 대역의 크기 차로 산출할 수 있다. 예를 들어, 제1 공진 대역의 크기 차(G 1)는 제1 공진기와 제2 공진기에서 수신된 전기적 신호의 크기 차이고, 제2 공진 대역의 크기 차(G 2)는 제2 공진기와 제3 공진기에서 수신된 전기적 신호의 크기 차이며, 제3 공진 대역의 크기 차(G 3)는 제3 공진기와 제4 공진기에서 수신된 전기적 신호의 크기 차이다. 그리고, 제n-1 공진 대역의 크기 차(G n-1)은 제n-1 공진기와 제n 공진기에서 수신된 전기적 신호의 크기 차이다.
프로세서(210)는 공진 대역의 크기 차를 도 6의 (c)에 도시된 바와 같이 부호화할 수 있다. 예를 들어, 프로세서(210)는 하기의 식을 이용하여 음성의 차를 부호화할 수 있다.
[수학식 1]
Figure 112019048057851-pct00001
여기서 H k는 k번째 공진기의 대역 특성(즉, 전기적 신호), H k+1는 k+1번째 공진기의 대역 특성을 나타내며, T k는 k번째 대역의 공진기와 k+1번째 대역 공진기 간의 특성의 차를 부호화한 값이다. 부호화된 값을 공진 대역의 비트값이라고 한다. α는 임의의 상수로서 실시예에 따라 정해질 수 있다.
도 7은 일 실시예에 따른 공진 대역의 크기 차를 부호화하는 식을 보여주는 그래프를 나타낸다. α 및 -α 는 문턱(threshold) 값으로서, 문턱 값의 크기에 따라 화자의 음성에 대한 부호화값은 달라질 수 있다. 수학식 1 및 도 7을 참조하면, 화자로부터의 음성에 대하여, 프로세서(210)는 인접한 공진 대역을 갖는 공진기(R1, R2... Rn)들 사이의 출력 값의 차이가 특정 값 α이상이면 1로 표현하고, -α미만이면 -1로 표현하고, α미만이면서 -α 이상이면 0으로 표현함으로써, 공진 대역의 크기 차를 3가지의 결과 값 (-1, 0, +1)으로 부호화할 수 있다..
도 6의 (c)에서 T1, T2, T3... Tn-1으로 나타낸 각 영역의 양쪽 경계선에서의 값들을 수학식 1을 이용하여 공진 대역의 비트값을 산출하면, T1은 0, T2는 -1, T3는 0, Tn은 -1로 표현되는 결과를 얻을 수 있다. 도 6의 (d)는 도 6의 (c)에 도시된 비트 값을 그래프화하였다. 공진기 센서(100)에서 출력된 전기적 신호 중 최대 크기와 최소 크기는 도 6의 (b)에 도시된 바와 같이, 약 100배 정도 차이가 난다. 그러나, 공진기 센서(100)에서 출력된 신호를 대역 기울기의 비트값으로 변환하면, 도 6의 (d)에 도시된 바와 같이, 8레벨로 단순화할 수 있다.
도 6에서 프로세서(210)는 공진 대역의 크기 차를 -1, 0, 1로 부호화한다고 하였으나, 이는 예시적인 것에 불과하다. 프로세서(210)는 다양한 형태로 공진 대역의 크기 차를 부호화할 수 있다. 예를 들어, 프로세서(210)는 공진 대역의 크기 차를 3개 이상의 홀수 개의 값 중 어느 하나로 부호화할 수 있으며, 3개 이상의 홀수 개의 값 중 하나를 기준으로 나머지 값들 중 대응하는 값은 절대값이 서로 같으면서 부호가 반대일 수 있다. 예를 들어, 프로세서(210)는 공진 대역의 크기 차를 -2, -1, 0, 1, 2로 부호화할 수 있다. 또는 프로세서(210)는 공진 대역의 크기 차를 짝수 개의 값 중 어느 하나로 부호화할 수 있다. 짝수 개의 값들 중 대응하는 값은 절대값이 서로 같으면서 부호가 반대일 수 있다. 예를 들어, 프로세서(210)는 공진 대역의 크기 차를 -3, -1, 1, 3로 부호화할 수 있다.
이러한 작업을 공진기 센서(100)로부터 출력된 전기적 신호 전체에 대해 적용하게 되면, 시간에 따른 2차원 대역 기울기의 비트 맵을 생성할 수 있다. 2차원 대역 기울기의 비트 맵은 화자에 따라 달라서 화자 인식을 위한 특징이 될 수 있다. 도 8은 예시적인 실시예에 따른 시간에 따른 2차원 대역 기울기의 비트 맵을 나타내는 도면이다. 도 8에 도시된 바와 같이, 대역 기울기의 비트 맵은 시간 프레임별로 생성될 수 있다. 프로세서(210)는 일정 시간 단위의 프레임에 따라 대역 기울기의 비트 맵을 생성할 수 있으나, 이에 한정되지는 않는다. 일정 시간 단위로 대역 기울기의 비트 맵을 생성하였는데, 연속하여 생성된 비트 맵이 동일한 경우, 하나의 비트 맵만을 화자 인식이 이용하고 이후 동일한 비트 맵은 화자 인식에 이용하지 않을 수도 있다. 예를 들어, 화자가 '우'라는 음절을 1초 동안 발성할 수도 있고, 2초 동안 발성할 수도 있다. 이와 같은 경우, 프로세서는 2초 동안 발성되는 동안 생성된 대역 기울기의 비트 맵을 화자 인식에 이용할 수도 있지만, 2초 동안 발성되는 동안 생성된 대역 기울기의 비트 맵 중 동일한 비트 맵을 제거하고 동일하지 않은 비트 맵만을 화자 인식에 이용할 수도 있다. 2차원 대역 기울기의 비트 맵 생성 방법은 인식의 활용도에 따라 달라질 수 있다.
프로세서(210)는 대역 기울기의 비트 맵을 이용하여 특정 화자의 개인화된 화자 모델을 생성하고, 개인화된 화자 모델을 인증 템플릿으로 저장함으로써 화자의 음성을 등록할 수 있다. 추후, 불특정 화자의 음성이 수신되면 미리 저장된 인증 템플릿과의 유사도를 비교하여 불특정 화자가 등록된 화자와 동일한지 여부를 판단할 수 있다.
예를 들어, 인식을 위한 음성으로 '시작'을 등록하고자 하는 경우, 특정 화자는 '시작'을 발성할 수 있다. 공진기 센서(100)의 각 공진기 또는 일부의 공진기는 '시작'에 대응하는 전기적 신호를 출력할 수 있다. 프로세서(210)는 공진기 센서(100)로부터 수신된 전기적 신호로부터 공진 대역의 크기 차를 산출하고 부호화하여 대역 기울기의 비트 맵을 생성한 후, 대역 기울기의 비트 맵을 이용하여 '시작'에 대응되는 개인화된 특징 값을 계산하고, 개인화된 특징 값으로 개인화된 화자 모델을 생성하여 인증 템플릿으로 등록할 수 있다. 추후, 불특정 화자가 '시작'을 발성하면 프로세서(210)는 이에 대응하는 대역 기울기의 비트맵을 생성하고, 비트맵을 이용하여 불특정 화자의 '시작'에 해당하는 특징 값들을 계산한다. 프로세서(210)는 이 특징 값들을 인증 템플릿과 비교할 수 있는 형태로 변환하고, 변환된 형태의 특징 값들과 인증 템플릿을 비교하여 불특정 화자가 등록된 화자가 맞는지 여부를 판단하여 화자 인식을 수행할 수 있다.
이와 같이, 대역 기울기 즉, 공진 대역의 크기 차를 이용하여 화자 인식을 수행하면 STFT(Short Time Fourier Transform) 및 MFCC(Mel Frequency Cepstrum Coefficients) 등을 이용한 음성의 처리보다 처리 과정이 단순화될 수 있다.
본 개시에 따른 화자 인식 방법은 추가적으로 모음을 이용할 수 있다. 모음은 구성 음소인 포먼트(formant)을 포함할 수 있다. 여기서 포먼트는 사람의 발음 기관의 통로의 형상, 크기 등에 의한 공동 공진(cavity resonance) 현상으로 인하여 발생하는 음향 에너지의 주파수 세기의 분포, 즉 음향 에너지가 집중되는 주파수 대역을 의미한다. 도 9 및 도 10는 음성 모델에서 특정 모음의 에너지 분포를 나타낸 그래프이다. 도 9는 모음 [AH] 발음의 공진 대역을 나타내는 스펙트럼이며, 도 10는 모음 [EE] 발음의 공진 대역을 나타내는 스펙트럼이다. 도 9 및 도 10를 참조하여 모음의 스펙트럼을 살펴보면, 공진 대역이 하나가 아닌 여러 개가 존재하는 것을 확인할 수 있다. 화자에 따라 모음 [AH] 발음 및 모음 [EE] 발음의 스펙트럼은 다를 수 있다. 하지만 이런 화자에 따른 스펙트럼의 변화는 모음 [AH]와 [EE]를 구별하지 못할 정도는 아니다. 이러한 현상은 다른 모음들에도 동일하게 적용된다. 다시 말해, 화자 개인의 음성 특징에도 불구하고 모음들은 일반적으로 구분될 수 있다.
모음에서 공진 대역을 낮은 주파수 쪽에서부터 제1 포먼트(F1), 제2 포먼트(F2) 및 제3 포먼트(F3)라고 칭할 수 있으며, 제1 포먼트(F1)의 중심 주파수가 가장 작으며, 제3 포먼트(F3)의 중심 주파수가 가장 크다. 제2 포먼트(F2)의 중심 주파수는 제1 포먼트(F1) 및 제3 포먼트(F3) 사이의 크기를 지닐 수 있다. 화자로부터의 음성에 대해, 도 1에 나타낸 공진기 센서(100)의 각 공진기(R1, R2... Rn)에 의한 출력을 비교하면, 음성의 중심 주파수를 결정할 수 있으며, 제1 포먼트(F1), 제2 포먼트(F2) 및 제3 포먼트(F3)의 위치를 얻을 수 있다. 제1 포먼트(F1), 제2 포먼트(F2) 및 제3 포먼트(F3)의 위치를 얻게 되면, 화자로부터의 음성에서의 모음을 얻을 수 있다.
도 11 및 도 12는 예시적인 실시예에 따른 모음 결정과 관련하여 서로 이격된 공진기를 이용한 포먼트의 위치를 추정하는 것을 나타낸 그래프이다.
도 1에 나타낸 공진기 센서(100)의 각 공진기(R1, R2... Rn) 중 서로 다른 2개의 공진기는 화자로부터의 입력 신호에 대응하는 전기적 신호를 출력할 수 있다. 이격된 2개의 공진기는 인접하거나 인접하지 않는 공진기일 수 있다. 도 11를 참조하면, 공진 주파수가 ωa인 제1 공진기 및 공진 주파수가 ωe인 제2 공진기는 화자의 입력 신호에 대응하는 서로 다른 크기의 전기적 신호를 출력할 수 있다. 예를 들어, 음성의 중심 주파수가 ωa인 경우, 제1 공진기에서의 출력 값(H1(ω))은 매우 클 수 있으며, 제2 공진기에서의 출력 값(H2(ω))은 없거나 매우 작을 수 있다. 그리고, 음성의 중심 주파수가 ωc인 경우, 제1 공진기에서의 출력 값(H1(ω)) 및 제2 공진기에서의 출력 값(H2(ω))은 모두 매우 작을 수 있다. 또한, 음성의 중심 주파수가 ωe인 경우, 제1 공진기에서의 출력 값(H1(ω))은 없거나 매우 작을 수 있으며, 제2 공진기에서의 출력 값(H2(ω))은 매우 클 수 있다.
다시 말해, 음성의 중심 주파수가 ωa, ωb, ωc, ωd 또는 ωe 등의 값을 갖는 경우, 제1 공진기 및 제2 공진기에서의 출력 값이 서로 다르다. 따라서, 제1 공진기 및 제2 공진기의 출력 값의 차(H2(ω)-H1(ω))도, 도 12에 나타난 바와 같이, 음성의 중심 주파수에 따라 달라짐을 확인할 수 있다. 그리하여, 두 공진기간의 출력 값의 차로부터 음성의 중심 주파수를 역으로 결정할 수 있다. 즉 공진기 간의 공진 대역의 크기 차를 이용하여 음성의 중심 주파수인 포먼트를 결정할 수 있고, 중심 주파수의 위치로부터 모음을 결정할 수 있다.
모음은 일반적으로 3개의 포먼트를 포함하고 있는 바, 프로세서(210)는 공진기 센서(100) 중 4개의 공진기를 선택하고, 선택된 공진기에서 출력된 전기적 신호를 이용하여 포먼트를 결정할 수 있다.
도 13은 예시적인 실시예에 따른 모음의 포먼트들의 위치를 나타내는 참조도면이다.
도 13을 참조하면, 가로축은 모음의 종류를 나타내었으며, 세로축은 각 모음에 따른 제1 포먼트(F1), 제2 포먼트(F2) 및 제3 포먼트(F3)의 중심 주파수를 나타낸다. 도 13에 나타낸 각 모음에 따른 제1 포먼트(F1), 제2 포먼트(F2) 및 제3 포먼트(F3)의 위치는 통상적으로 알려져 있는 각 모음들의 포먼트들의 위치 데이터를 사용할 수 있다. 예를 들어, 모음의 포먼트들의 위치는 UBM(universal background model)이라 지칭할 수 있는 다양한 화자들에 의한 모음 정보 데이터 베이스를 이용하여 획득될 수 있다.
도 13에 도시된 바와 같이, 각 모음들은 일반적으로 3개의 포먼트를 포함하는 것을 확인할 수 있다. 그리고, 각 모음마다 포먼트의 위치가 상이함을 확인할 수 있다. 3개의 포먼트 중 가장 낮은 중심 주파수의 포먼트를 제1 포먼트, 가장 높은 중심 주파수의 포먼트를 제3 포먼트 및 가운데 중심 주파수의 포먼트를 제2 포먼트라고 칭할 수 있다.
3개의 포먼트를 결정하기 위해, 프로세서(210)는 도 1에 도시된 공진기 센서(100) 중 공진 주파수가 서로 다른 4개의 공진기를 선택할 수 있다. 4개의 공진기를 선택함에 있어서, 제1 포먼트의 중심 주파수보다 낮은 공진 주파수를 갖는 공진기들 중 어느 하나를 제1 공진기로, 제1 포먼트의 중심 주파수와 제2 포먼트의 중심 주파수 사이의 공진 주파수를 갖는 공진기들 중 어느 하나를 제2 공진기로, 제2 포먼트의 중심 주파수와 제3 포먼트의 중심 주파수 사이의 공진 주파수를 갖는 공진기들 중 어느 하나를 제3 공진기로, 제3 포먼트의 중심 주파수보다 큰 공진 주파수를 갖는 공진기들 중 어느 하나를 제4 공진기로 선택할 수 있다. 예를 들어, 프로세서(210)는 각각 약 300Hz, 약 810Hz, 약 2290Hz, 약 3000Hz인 공진 주파수를 갖는 4개의 공진기가 선택될 수 있다.
프로세서(210)는 4개의 공진기 중 공진 대역이 이웃하는 두 개의 공진기들의 출력 값의 차를 이용하여 제1 내지 제3 포먼트를 결정할 수 있다. 예를 들어, 제1 및 제2 공진기의 출력 값의 차(H2(ω)-H1(ω))에 의해 제1 포먼트를 결정하고, 제2 및 제3 공진기의 출력 값의 차(H3(ω)-H2(ω))에 의해 제2 포먼트를 결정할 수 있다. 그리고, 제3 포먼트(F3)는 제3 및 제4 공진기의 출력 값의 차(H4(ω)-H3(ω))에 의해 결정할 수 있다. 프로세서(210)는 제1 및 제2 공진기의 출력값의 차(H2(ω)-H1(ω)), 제2 및 제3 공진기의 출력값의 차(H3(ω)-H2(ω)), 제3 및 제4 공진기의 출력값의 차(H4(ω)-H3(ω))로부터 각각 제1 내지 제3 포먼트를 결정할 수 있고, 제1 내지 제3 포먼트를 이용하여 화자가 누군지에 상관 없이 발음된 모음을 결정할 수 있다. 이렇게 결정된 모음은 발음한 화자가 등록된 화자가 맞는지 판단하는데 이용될 수 있다. 구체적으로, 인증 템플릿에 포함된 개인화된 화자 모델 중 결정된 모음에 해당하는 모델만 화자 인식에 사용될 수 있다.
도 14은 모음과 대역 기울기의 비트 맵을 이용하여 화자를 인식하는 방법을 설명하는 흐름도이다. 도 14을 참조하면, 프로세서(210)는 공진기 센서(100)로부터 화자의 음성에 대응하는 전기적 신호를 수신할 수 있다(S1110). 예를 들어, 화자는 '우리'를 발성할 수 있으며, 공진기 센서(100)는 '우리'에 대응하는 전기적 신호를 출력함으로써, 프로세서(210)는 '우리'에 대응하는 전기적 신호를 수신할 수 있다.
프로세서(210)는 일부 공진기에서 수신된 전기적 신호를 이용하여 공진 대역의 크기 차를 산출할 수 있다(S1120). 일부 공진기는 모음의 포먼트를 결정하기 위한 것으로 미리 정의될 수 있다. 예를 들어, 프로세서(210)는 앞서 설명한 3개의 포먼트를 결정하기 위해 미리 결정된 4개의 공진기에서 수신된 전기적 신호를 이용하여 공진 대역의 크기 차를 산출할 수 있다.
프로세서(210)는 일부 공진기의 공진 대역의 크기 차를 이용하여 모음을 결정할 수 있다(S1130). 예를 들어, 프로세서(210)는 4개의 공진기 대역의 크기차를 이용하여 제1 내지 제3 포먼트를 결정하고 제1 내지 제3 포먼트의 상대적 위치 관계를 이용하여 모음을 결정할 수 있다. 모음 결정시 도 13에 도시된 그래프를 이용할 수 있다. 예를 들어, 프로세서(210)는 제1 내지 제3 포먼트의 상대적 위치 관계를 이용하여 시간 순서대로'ㅜ' 및 'ㅣ'라는 모음을 결정할 수 있다.
프로세서(210)는 결정된 모음에 가중치를 할당할 수 있다(S1140). 예를 들어, 프로세서(210)는 결정된 모음의 가중치를 다른 모음의 가중치와 달리 높게 할당할 수 있다.
한편, 프로세서(210)는 공진기 센서(100)에 포함된 전체 공진기로부터 수신된 전기적 신호를 이용하여 대역 기울기의 비트 맵을 생성할 수 있다(S1150). 구체적으로, 공진기 센서(100)의 전체 공진기로부터 수신된 전기적 신호를 이용하여 공진 대역의 크기 차를 산출하고 부호화하여 대역 기울기의 비트 맵을 생성할 수 있다. S1150 단계에서, 프로세서(210)는 전체 공진기로부터 수신된 전기적 신호를 이용하여 대역 기울기의 비트 맵을 생성한다고 하였으나, 일부 공진기로부터 수신된 전기적 신호를 이용하여 대역 기울기의 비트 맵을 생성할 수도 있다. 대역 기울기의 비트 맵은 모음 결정보다 상세한 화자의 음성에 대한 정보를 포함하여야 하기 때문에 모음 결정을 위해 이용되는 공진기의 개수보다 많을 수 있다.
프로세서(210)는 생성된 대역 기울기의 비트맵을 이용하여 화자 특징값을 생성할 수 있다(S1160). 프로세서(210)는 대역 기울기의 비트 맵을 고속 푸리에 변환(Fast Fourier Transform ;FFT), 2D Discrete Cosine Transform(DCT), DTW(Dynamic Time Warping), 인공 신경망, VQ(vector quantization), GMM(Gaussian mixture model) 등을 이용하여 대역 기울기의 비트 맵으로부터 화자 특징값을 생성할 수 있다.화자 특징값은 인증 템플릿과 비교할 수 있는 형태로 변환될 수 있으며, 이 변환 과정에서 프로세서(210)는 일반화된 배경 모델(UBM: universal background model)을 사용할 수도 있다.
프로세서(210)는 가중치를 이용하여 변환된 화자 특징값과 인증 템플릿을 비교함으로써 화자를 인식할 수 있다(S1170). 인증 템플릿 중 결정된 모음 성분에 해당하는 모델에 높은 가중치를 적용하고, 다른 모음 성분에는 낮은 가중치를 적용할 수 있다. 예를 들어, 결정된 모음이 'ㅜ'및 'ㅣ'인 경우, 프로세서는 인증 템플릿 중 'ㅜ'및 'ㅣ'의 성분에 해당하는 모델에 높은 가중치를 적용하고 나머지 성분에는 낮은 가중치를 적용하여 변환된 화자 특징값과 인증 템플릿을 비교할 수 있다. 비교 결과가 기준값 이상인 경우, 프로세서(210)는 발음한 화자를 등록된 화자로 판단할 수 있고, 비교 결과가 기준값 미만인 경우, 발음한 화자가 등록된 화자가 아니라고 판단할 수 있다.
할당된 가중치는 1 또는 0일 수 있다. 다시 말해, 프로세서(210)는 인증 템플릿 중 결정된 모음에 해당하는 모델만을 비교에 이용할 수도 있다.
도 15는 짧은 발화시 화자 특징값과 인증 템플릿의 비교를 설명하는 참조도면이다. 도 15에서 빗금친 영역은 UBM 모델을 나타내고, +패턴 영역은 개인화된 화자 모델, 즉 등록된 인증 템플릿을 나타내며, ▲은 화자 특징값을 나타낸다. 예를 들어, 화자가 '우리'라고 짧게 발화하면 프로세서(210)는 발화한 모음 성분으로 'ㅜ'와 'ㅣ'를 획득할 수 있다. 프로세서(210)가 화자 특징값을 생성할 때, 'ㅜ'와 'ㅣ'의 모음 성분이 화자를 나타내는 특징이 될 수 있다. 따라서, 인증 템플릿 중 'ㅜ'와 'ㅣ'의 모음 성분에 해당하는 모델(1210)의 가중치가 높고, 나머지 모음 성분에 해당하는 모델(1220)의 가중치가 낮게 할당되면, 화자 특징값(1230)과의 유사도 판단시 발화된 모음 성분(1210)의 영향력이 크기 때문에 화자 인식의 정확도를 높일 수 있다.
화자 특징값을 생성하는 단계(S1150 및 S1160)와 가중치를 할당하기 위한 일련의 단계(S1120 내지 S1140)는 반드시 순차적으로 실행되는 것은 아니며, 두 가지 과정을 동시에 진행하거나, 가중치를 할당하기 위한 과정 중 일부 단계를 먼저 진행하고, 그 뒤 화자 특징값을 생성하는 단계(S1150 및 S1160)를 진행할 수 있다. 예를 들어, 도 1에 나타낸 공진기 센서(100)에서 서로 다른 대역을 가진 4개의 공진기들을 이용하여 화자의 음성으로부터 모음을 결정하는 단계(S1130)를 진행함과 동시에, 전체 공진기(R1, R2... Rn)에 의하여 출력된 신호를 이용하여 대역 기울기의 비트 맵을 생성하는 단계(S1150)를 진행할 수 있다.
지금까지 대역 기울기의 비트 맵과 모음 결정을 둘 다 이용하여 화자를 인식하는 방법을 설명하였으나, 대역 기울기의 비트 맵을 이용하여 화자를 인식하는 것도 가능하다. 예를 들어, 미리 결정된 특정 단어(예: '시작')을 사용하여 화자를 인식하기로 약속된 경우, 인증 템플릿은 특정 화자의 '시작'에 해당하는 개인화된 모델만으로 인식이 가능하다. 이 경우 대역 기울기의 비트 맵만을 이용하여 화자 인식이 가능할 수 있으며 모음 결정은 불필요할 수 있다. 이와 달리, 특정 화자가 무작위로 단어, 구 또는 문장을 발화하는 경우에도 인식이 가능하려면, 인증 템플릿에 많은 개인화된 모델들이 필요할 수 있다. 이 경우, 개인화된 모델들은 모음별로 구분될 수 있고 결정된 모음에 해당하는 모델이 인식을 위한 비교에 사용될 수 있다.또한, 대역 기울기의 비트 맵이 아닌 다른 방법으로 생성된 화자의 특징값에 모음에 의해 할당된 가중치를 적용함으로써 화자를 인식할 수도 있다. 상술한 바와 같이, 본 개시에 따른 공진기를 이용한 화자 인식 방법 및 장치에서 공진기 센서(100)는 다양한 형태의 다수의 기계적 공진기(mechanical resonator)들을 포함할 수 있다. 공진기 센서(100)의 경우, 다양한 형태를 지닐 수 있으며 포함되는 공진기들의 형상 또는 배열은 필요에 따라 선택될 수 있다. 공진기 센서(100)에 포함되는 공진기들의 중심 주파수는 도 2에 나타낸 지지부(14)의 길이(L)을 조절하여 변경시킬 수 있다. 사용자의 필요에 따라 공진기 센서(100)의 공진기들은 다양한 중심 주파수 간격을 지니도록 형성될 수 있다.
도 16 및 도 17는 예시적인 실시예에 따른 공진기 센서(100a)의 다수의 공진기들의 중심 주파수가 등비 간격으로 설정된 예를 나타낸 도면이다.
도 16를 참조하면, 공진기(Rm)의 중심 주파수는 공진기 길이, 즉, 도 2에 나타낸 지지부(14)의 길이(L)의 제곱에 역비례할 수 있다. 이에 따라, 도 17에 나타낸 바와 같이, 공진기 센서(100a)에 포함되는 공진기들(Rm)들은 서로 인접하는 공진기들(Rm) 사이의 길이의 차이가 일정한 경우, 비교적 낮은 주파수의 중심 주파수를 지닌 공진기들의 비율 고주파 영역의 중심 주파수를 지닌 공진기들의 비율에 비해 크게 할 수 있다.
도 18 및 도 19는 예시적인 실시예에 따른 공진기 센서(100b)의 다수의 공진기들의 중심 주파수가 등차 간격으로 설정된 예를 나타낸 도면이다.
도 18 및 도 19를 참조하면, 공진기 센서(100b)에 포함되는 공진기들(Rn) 은 서로 인접하는 공진기들(Rm) 사이의 길이의 차이를 길이가 긴 공진기로부터 짧은 공진기로 갈수록 작게 형성할 수 있다. 이 경우, 공진기들(Rm)의 중심 주파수의 차이는 일정한 등차 간격을 지니도록 설정될 수 있다.
도 20 및 도 21는 예시적인 실시예에 따른 공진기 센서(100c)의 다수의 공진기들의 중심 주파수가 임의의 간격으로 설정된 예를 나타낸 도면이다.
도 20 및 도 21를 참조하면, 공진기 센서(100c)에 포함되는 공진기(Ro)들의 길이의 간격을 특정한 규칙성을 지니지 않는 형태로 공진기 센서(100c)가 형성될 수 있다. 예를 들어 도 21에서는 2000 내지 3000Hz 구간의 중심 주파수를 지닌 공진기들의 비율을 높이기 위하여, 일부 구간의 공진기들의 길이가 조절될 수 있다.
이처럼 본 개시에 따른 공진기를 이용한 화자 인식 방법 및 장치에서 공진기 센서(100, 100a, 100b, 100c)는 등차, 등비의 공진 주파수를 지닌 공진기들을 포함하거나 또는 임의의 대역의 공진 주파수를 지니도록 형성된 공진기들을 포함할 수 있다.
도 22은 예시적인 실시예에 따른 다수의 공진기들을 포함하는 공진기 센서(100d)의 개략적인 구조를 나타낸 평면도이다.
도 22을 참조하면, 공진기 센서(100d)는 중앙 부위에 캐버티 또는 관통홀(40)이 형성된 지지부(30) 및 지지부(30)로부터 연장되어 캐버티 또는 관통홀(40)을 둘러싸며 형성된 다수의 공진기(R)들을 포함할 수 있다. 상기 도 1에서는 공진기 센서(100)의 공진기(R1, R2... Rn)들이 일 방향으로 나란히 연장되어 형성된 구조를 나타내었으나, 도 13에 나타낸 바와 같이, 본 개시에 따른 공진기 센서(100d)는 다양한 구조를 지니도록 형성될 수 있다.
도 23 내지 도 25는 예시적인 실시예에 따른 공진기 센서의 다수의 공진기들의 대역폭을 다양하게 변경시킨 예를 나타낸 그래프들이다.
본 개시에 따른 공진기 센서의 경우, 필요에 따라 공진기들의 대역의 주파수 간격을 변경시키거나, 특정 대역의 분해능을 향상시키기 위하여 공진기들의 대역을 좁게 형성할 수 있다. 예를 들어, 도 23의 공진기 주파수 대역폭을 기준 대역폭(S11)이라고 하면, 도 24의 경우, 기준 대역폭(S11)보다 좁은 대역폭(S12)을 지니도록 공진기들을 형성할 수 있다. 또한, 도 25에 나타낸 바와 같이, 도 23의 기준 대역폭(S11)보다 넓은 대역폭(S13)을 지니도록 공진기들을 형성할 수 있다.
도 26은 예시적인 실시예에 따른 공진기 센서의 다수의 공진기들 중 특정 공진기의 대역폭이 넓게 설정된 것을 나타낸 그래프이다.
도 26를 참조하면, 도 3의 입력 신호의 모음을 결정하기 위해 사용되는 공진기 센서(100)의 특정 공진기들의 대역폭(S22)를 공진기 센서(100)의 나머지 공진기들의 대역폭(S21)에 비해 상대적으로 넓게 형성하여 입력 신호의 모음을 결정하는 과정을 보다 효율적으로 진행할 수 있다.
상술한 바와 같은 화자 인식 방법 및 장치는 다양한 분야에 응용될 수 있다. 예를 들어, 음성 신호를 통하여 화자가 등록된 화자인지를 정확히 인식함으로써, 모바일 기기, 가정 또는 차량에 채용되거나 장착된 특정 기기를 동작시키거나 잠금을 해제할 수 있다.
지금까지, 기술적 원리의 이해를 돕기 위하여 예시적인 실시예가 설명되고 첨부된 도면에 도시되었다. 그러나, 이러한 실시예는 단지 예시적인 것으로 권리 범위를 제한하지 않는다는 점이 이해되어야 할 것이다.

Claims (32)

  1. 서로 다른 공진 대역을 갖는 복수 개의 공진기 중 적어도 일부의 공진기로부터 화자(speaker)의 음성에 대응하는 전기적 신호들을 수신하는 단계;
    상기 전기적 신호들을 이용하여 공진 대역의 크기 차를 산출하는 단계;
    상기 공진 대역의 크기 차를 부호화하여 대역 기울기의 비트 맵을 생성하는 단계; 및
    상기 대역 기울기의 비트 맵을 이용하여 화자를 인식하는 단계;를 포함하는 화자 인식 방법.
  2. 제 1항에 있어서,
    상기 공진 대역의 크기 차는,
    주파수를 기준으로 이웃하는 공진 주파수를 갖는 두 개의 공진기에서 출력된 전기적 신호의 크기 차인 화자 인식 방법.
  3. 삭제
  4. 제 1항에 있어서,
    상기 부호화는,
    상기 공진 대역의 크기 차를 3 이상의 홀수 개의 값 중 어느 하나로 변환하는 화자 인식 방법.
  5. 제 4항에 있어서,
    상기 3개 이상의 홀수 개의 값은,
    하나의 값을 기준으로 나머지의 값들 중 대응하는 값들은 절대값이 같으면서 부호가 반대인 화자 인식 방법.
  6. 제 4항에 있어서,
    상기 3개 이상의 홀수 개의 값은,
    a, 0, -a(여기서, a는 상수)을 포함하는 화자 인식 방법.
  7. 제 1항에 있어서,
    상기 화자 음성이 등록과정 음성인 경우, 상기 화자를 인식하는 단계는,
    상기 대역 기울기의 비트 맵을 이용하여 화자 모델을 생성하는 단계; 및
    상기 화자 모델을 인증 템플릿으로 등록하는 단계;를 포함하는 화자 인식 방법.
  8. 제 7항에 있어서,
    상기 화자 음성이 등록과정 음성이 아닌 경우, 상기 화자를 인식하는 단계는,
    상기 대역 기울기의 비트 맵을 이용하여 화자 특징값을 생성하는 단계; 및
    상기 화자 특징값을 상기 등록된 인증 템플릿과 비교하여, 상기 화자가 등록된 화자인지 결정하는 단계;를 포함하는 화자 인식 방법.
  9. 제 1항에 있어서,
    상기 화자를 인식하는 단계는,
    상기 공진 대역의 크기 차를 이용하여 상기 화자의 음성 중 모음을 결정하는 단계;를 포함하는 화자 인식 방법.
  10. 제 9항에 있어서,
    상기 모음을 결정하는 단계는,
    상기 공진 대역의 크기 차를 이용하여 포먼트들의 상대적 위치를 추정하는 단계; 및
    상기 포먼트들의 상대적 위치로부터 상기 모음을 결정하는 단계;를 포함하는 화자 인식 방법.
  11. 제 10항에 있어서,
    상기 포먼트들의 개수는 3개인 화자 인식 방법.
  12. 제 10항에 있어서,
    상기 공진 대역의 크기 차는,
    상기 공진기 중 4개의 공진기로부터 수신된 전기적 신호들의 크기에 의해 결정되는 화자 인식 방법.
  13. 제 9항에 있어서,
    상기 화자를 인식하는 단계는,
    상기 결정된 모음에 가중치를 할당하는 단계;
    상기 모음을 결정하기 위해 이용된 공진 대역의 크기 차와 다른, 공진 대역의 크기 차를 이용하여 대역 기울기의 비트 맵을 생성하는 단계;
    상기 대역 기울기의 비트 맵을 이용하여 화자 특징값을 생성하는 단계; 및
    상기 가중치를 이용하여 상기 화자 특징값과 인증 템플릿을 비교함으로써, 상기 화자가 등록된 화자인지를 인식하는 단계;를 포함하는 화자 인식 방법.
  14. 제 13항에 있어서,
    상기 가중치를 할당하는 단계는,
    상기 결정된 모음의 가중치를 다른 모음의 가중치보다 높게 할당하는 화자 인식 방법.
  15. 제 14항에 있어서,
    상기 가중치는,
    상기 결정된 모음에는 1이 할당되고, 상기 다른 모음에는 0이 할당된 화자 인식 방법.
  16. 제 14항에 있어서,
    상기 대역 기울기의 비트 맵을 생성하기 위해 이용된 공진 대역의 크기 차의 개수는 상기 모음을 결정하기 위해 이용된 공진 대역의 크기 차의 개수보다 큰 화자 인식 방법.
  17. 서로 다른 공진 대역을 갖는 복수 개의 공진기를 포함하고, 상기 복수 개의 공진기 중 적어도 일부의 공진기로부터 화자(speaker)의 음성에 대응하는 전기적 신호들을 출력하는 공진기 센서; 및
    상기 전기적 신호들을 이용하여 공진 대역의 크기 차를 산출하고, 상기 공진 대역의 크기 차를 부호화하여 대역 기울기의 비트 맵을 생성하고, 상기 대역 기울기의 비트 맵을 이용하여 화자를 인식하는 프로세서;를 포함하는 화자 인식 장치.
  18. 제 17항에 있어서,
    상기 공진 대역의 크기 차는,
    주파수를 기준으로 이웃하는 공진 주파수를 갖는 두 개의 공진기에서 출력된 전기적 신호의 크기 차인 화자 인식 장치.
  19. 삭제
  20. 제 17항에 있어서,
    상기 프로세서는,
    상기 공진 대역의 크기 차를 3 이상의 홀수 개의 값 중 어느 하나로 변환함으로써 상기 공진 대역의 크기 차를 부호화하는 화자 인식 장치.
  21. 제 17항에 있어서,
    상기 프로세서는,
    상기 대역 기울기의 비트 맵을 이용하여 결정된 화자 특징값을 등록된 인증 템플릿과 비교하여, 상기 화자가 등록된 화자인지 결정하는 화자 인식 장치.
  22. 제 17항에 있어서,
    상기 프로세서는,
    상기 공진 대역의 크기 차를 이용하여 상기 화자의 음성 중 모음을 결정하는 화자 인식 장치.
  23. 제 22항에 있어서,
    상기 프로세서는,
    상기 공진 대역의 크기 차를 이용하여 포먼트들의 상대적 위치를 추정하고, 상기 포먼트들의 상대적 위치로부터 상기 모음을 결정하는 화자 인식 장치.
  24. 제 23항에 있어서,
    상기 공진 대역의 크기 차는,
    상기 공진기 센서 중 4개의 공진기로부터 수신된 전기적 신호들의 크기에 의해 결정되는 화자 인식 장치.
  25. 제 23항에 있어서,
    상기 프로세서는,
    상기 결정된 모음에 가중치를 할당하고,
    상기 모음을 결정하기 위해 이용된 공진 대역의 크기 차와 다른, 공진 대역의 크기 차를 이용하여 화자 특징값을 생성하며,
    상기 가중치를 이용하여 상기 화자 특징값과 인증 템플릿과 비교함으로써 화자를 인식하는 화자 인식 장치.
  26. 제 25항에 있어서,
    상기 대역 기울기의 비트 맵을 생성하기 위해 이용된 공진 대역의 크기 차의 개수는 상기 모음을 결정하기 위해 이용된 공진 대역의 크기 차의 개수보다 큰 화자 인식 장치.
  27. 화자(speaker)의 음성에 대응하는 주파수 대역의 신호들을 수신하는 단계;
    상기 신호들의 크기 차를 산출하는 단계;
    상기 크기 차를 이용하여 상기 화자의 음성 중 모음을 결정하는 단계; 및
    상기 결정된 모음을 이용하여 상기 화자가 등록된 화자인지를 판단하는 단계;를 포함하고,
    상기 모음을 결정하는 단계는,
    상기 크기 차를 이용하여 포먼트들의 상대적 위치를 추정하는 단계; 및
    상기 포먼트들의 상대적 위치로부터 상기 모음을 결정하는 단계;를 포함하는화자 인식 방법.
  28. 삭제
  29. 제 27항에 있어서,
    상기 주파수 대역의 신호들은,
    서로 다른 공진 대역을 갖는 복수 개의 공진기로부터 수신하는 화자 인식 방법.
  30. 제 27항에 있어서,
    상기 화자가 등록된 화자인지를 판단하는 단계는,
    상기 결정된 모음에 가중치를 할당하는 단계;
    상기 화자의 음성에 대응하는 상기 화자의 특징값을 생성하는 단계;
    상기 가중치를 이용하여 상기 화자의 특징값과 인증 템플릿을 비교함으로써, 상기 화자가 등록된 화자인지 판단하는 단계;를 포함하는 화자 인식 방법.
  31. 제 30항에 있어서,
    상기 가중치를 할당하는 단계는,
    상기 결정된 모음의 가중치를 다른 모음의 가중치보다 높게 할당하는 화자 인식 방법.
  32. 제 31항에 있어서,
    상기 가중치는
    상기 결정된 모음에는 1이 할당되고 상기 다른 모음에는 0이 할당되는 화자 인식 방법.
KR1020197013600A 2016-12-29 2017-12-19 공진기를 이용한 화자 인식 방법 및 장치 KR102520858B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020160182792 2016-12-29
KR20160182792 2016-12-29
PCT/KR2017/015020 WO2018124590A1 (ko) 2016-12-29 2017-12-19 공진기를 이용한 화자 인식 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20190092379A KR20190092379A (ko) 2019-08-07
KR102520858B1 true KR102520858B1 (ko) 2023-04-13

Family

ID=62709541

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197013600A KR102520858B1 (ko) 2016-12-29 2017-12-19 공진기를 이용한 화자 인식 방법 및 장치

Country Status (6)

Country Link
US (2) US11341973B2 (ko)
EP (1) EP3598086B1 (ko)
JP (1) JP7048619B2 (ko)
KR (1) KR102520858B1 (ko)
CN (1) CN110121633B (ko)
WO (1) WO2018124590A1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102335774B1 (ko) 2017-09-01 2021-12-06 삼성전자주식회사 다중 공진기 어레이를 포함하는 소리 방향 탐지 센서
KR102477099B1 (ko) 2018-08-21 2022-12-13 삼성전자주식회사 소리 방향 탐지 센서 및 이를 포함하는 전자 장치
KR20200024602A (ko) * 2018-08-28 2020-03-09 삼성전자주식회사 사용자 단말의 학습 방법 및 장치
KR102626924B1 (ko) 2019-06-20 2024-01-19 삼성전자주식회사 지향성 음향 센서와, 이를 이용한 지향 특성의 조절 방법 및 특정 방향의 음향 신호 감쇄 방법
US20220188432A1 (en) * 2020-12-14 2022-06-16 Netflix, Inc. Secure video capture platform
KR20220121631A (ko) * 2021-02-25 2022-09-01 삼성전자주식회사 음성 인증 방법 및 이를 이용한 장치
US20230169981A1 (en) * 2021-11-30 2023-06-01 Samsung Electronics Co., Ltd. Method and apparatus for performing speaker diarization on mixed-bandwidth speech signals
KR20230086877A (ko) 2021-12-08 2023-06-16 삼성전자주식회사 지향성 음향 센서
KR20230095689A (ko) 2021-12-22 2023-06-29 삼성전자주식회사 마이크로폰 패키지 및 이를 포함하는 전자 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7906969B2 (en) 2008-01-28 2011-03-15 Kabushiki Kaisha Toshiba Magnetic resonance diagnosis apparatus, noise spatial distribution generating method, and signal acquisition method
US20160026253A1 (en) 2014-03-11 2016-01-28 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4343969A (en) * 1978-10-02 1982-08-10 Trans-Data Associates Apparatus and method for articulatory speech recognition
US4379949A (en) * 1981-08-10 1983-04-12 Motorola, Inc. Method of and means for variable-rate coding of LPC parameters
US5054085A (en) * 1983-05-18 1991-10-01 Speech Systems, Inc. Preprocessing system for speech recognition
GB8716194D0 (en) * 1987-07-09 1987-08-12 British Telecomm Speech recognition
US5856722A (en) 1996-01-02 1999-01-05 Cornell Research Foundation, Inc. Microelectromechanics-based frequency signature sensor
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
SE515447C2 (sv) * 1996-07-25 2001-08-06 Telia Ab Metod och anordning för talverifiering
JPH1097274A (ja) * 1996-09-24 1998-04-14 Kokusai Denshin Denwa Co Ltd <Kdd> 話者認識方法及び装置
JP3248452B2 (ja) 1997-05-26 2002-01-21 住友金属工業株式会社 音響センサ
US6502066B2 (en) * 1998-11-24 2002-12-31 Microsoft Corporation System for generating formant tracks by modifying formants synthesized from speech units
US6751354B2 (en) * 1999-03-11 2004-06-15 Fuji Xerox Co., Ltd Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models
US6791433B1 (en) * 1999-07-14 2004-09-14 International Business Machines Corporation Signal processing by means of resonators
JP2001117579A (ja) 1999-10-21 2001-04-27 Casio Comput Co Ltd 音声照合装置、音声照合方法、及び音声照合処理プログラムを記憶した記憶媒体
JP2002196784A (ja) * 2000-12-27 2002-07-12 Sumitomo Metal Ind Ltd 時系列信号の識別方法及び装置
EP1246164A1 (en) * 2001-03-30 2002-10-02 Sony France S.A. Sound characterisation and/or identification based on prosodic listening
KR100406307B1 (ko) * 2001-08-09 2003-11-19 삼성전자주식회사 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템
AU2003283892A1 (en) 2002-11-27 2004-06-18 Visual Pronunciation Software Limited A method, system and software for teaching pronunciation
JP2005202309A (ja) * 2004-01-19 2005-07-28 Sony Corp 認証方法、認証装置及びmemsフィルタバンク
US20050171774A1 (en) * 2004-01-30 2005-08-04 Applebaum Ted H. Features and techniques for speaker authentication
DE102004013952A1 (de) 2004-03-22 2005-10-20 Infineon Technologies Ag Schaltkreis-Anordnung und Signalverarbeitungs-Vorrichtung
US7454337B1 (en) * 2004-05-13 2008-11-18 The United States Of America As Represented By The Director, National Security Agency, The Method of modeling single data class from multi-class data
US7991167B2 (en) * 2005-04-29 2011-08-02 Lifesize Communications, Inc. Forming beams with nulls directed at noise sources
CN101051464A (zh) * 2006-04-06 2007-10-10 株式会社东芝 说话人认证的注册和验证方法及装置
US10154819B2 (en) * 2006-04-20 2018-12-18 Jack S. Emery Systems and methods for impedance analysis of conductive medium
US7863714B2 (en) 2006-06-05 2011-01-04 Akustica, Inc. Monolithic MEMS and integrated circuit device having a barrier and method of fabricating the same
US7953600B2 (en) * 2007-04-24 2011-05-31 Novaspeech Llc System and method for hybrid speech synthesis
US8103027B2 (en) 2007-06-06 2012-01-24 Analog Devices, Inc. Microphone with reduced parasitic capacitance
US20090326939A1 (en) * 2008-06-25 2009-12-31 Embarq Holdings Company, Llc System and method for transcribing and displaying speech during a telephone call
DE112009002542A5 (de) 2008-10-14 2011-09-08 Knowles Electronics, Llc Mikrofon mit einer Mehrzahl von Wandlerelementen
CN101436405A (zh) * 2008-12-25 2009-05-20 北京中星微电子有限公司 说话人识别方法和系统
KR101022519B1 (ko) 2009-04-17 2011-03-16 고려대학교 산학협력단 모음 특징을 이용한 음성구간 검출 시스템 및 방법과 이에 사용되는 음향 스펙트럼 유사도 측정 방법
US9031834B2 (en) * 2009-09-04 2015-05-12 Nuance Communications, Inc. Speech enhancement techniques on the power spectrum
US8831942B1 (en) * 2010-03-19 2014-09-09 Narus, Inc. System and method for pitch based gender identification with suspicious speaker detection
US8756062B2 (en) * 2010-12-10 2014-06-17 General Motors Llc Male acoustic model adaptation based on language-independent female speech data
CN102655003B (zh) 2012-03-21 2013-12-04 北京航空航天大学 基于声道调制信号mfcc的汉语语音情感点识别方法
US9805738B2 (en) * 2012-09-04 2017-10-31 Nuance Communications, Inc. Formant dependent speech signal enhancement
US20140100839A1 (en) * 2012-09-13 2014-04-10 David Joseph Arendash Method for controlling properties of simulated environments
US9305559B2 (en) * 2012-10-15 2016-04-05 Digimarc Corporation Audio watermark encoding with reversing polarity and pairwise embedding
KR20140050951A (ko) 2012-10-22 2014-04-30 한국전자통신연구원 음성 인식 시스템
CN102968990B (zh) * 2012-11-15 2015-04-15 朱东来 说话人识别方法和系统
US9621713B1 (en) * 2014-04-01 2017-04-11 Securus Technologies, Inc. Identical conversation detection method and apparatus
US10008216B2 (en) * 2014-04-15 2018-06-26 Speech Morphing Systems, Inc. Method and apparatus for exemplary morphing computer system background
KR102207928B1 (ko) 2014-08-13 2021-01-26 삼성전자주식회사 음향 센싱 소자 및 주파수 정보 획득 방법
KR101718214B1 (ko) * 2015-06-09 2017-03-20 한국과학기술원 사물인터넷용 초저전력 유연압전 음성인식 센서
US9558734B2 (en) * 2015-06-29 2017-01-31 Vocalid, Inc. Aging a text-to-speech voice
KR20180015482A (ko) 2016-08-03 2018-02-13 삼성전자주식회사 음향 스펙트럼 분석기 및 이에 구비된 공진기들의 배열방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7906969B2 (en) 2008-01-28 2011-03-15 Kabushiki Kaisha Toshiba Magnetic resonance diagnosis apparatus, noise spatial distribution generating method, and signal acquisition method
US20160026253A1 (en) 2014-03-11 2016-01-28 Magic Leap, Inc. Methods and systems for creating virtual and augmented reality

Also Published As

Publication number Publication date
EP3598086A1 (en) 2020-01-22
US11887606B2 (en) 2024-01-30
US20220270615A1 (en) 2022-08-25
JP7048619B2 (ja) 2022-04-05
US11341973B2 (en) 2022-05-24
CN110121633A (zh) 2019-08-13
US20190348050A1 (en) 2019-11-14
KR20190092379A (ko) 2019-08-07
JP2020504329A (ja) 2020-02-06
EP3598086B1 (en) 2024-04-17
EP3598086A4 (en) 2020-08-26
CN110121633B (zh) 2023-04-04
WO2018124590A1 (ko) 2018-07-05

Similar Documents

Publication Publication Date Title
KR102520858B1 (ko) 공진기를 이용한 화자 인식 방법 및 장치
US10225662B2 (en) Audio sensing device and method of acquiring frequency information
US10566011B2 (en) Auto voice trigger method and audio analyzer employing the same
Muda et al. Voice recognition algorithms using mel frequency cepstral coefficient (MFCC) and dynamic time warping (DTW) techniques
JP4249778B2 (ja) 板バネ構造を有する超小型マイクロホン、スピーカ及びそれを利用した音声認識装置、音声合成装置
KR20150093801A (ko) 신호 소스 분리
Pawar et al. Review of various stages in speaker recognition system, performance measures and recognition toolkits
Jung et al. Deep learning-based noise robust flexible piezoelectric acoustic sensors for speech processing
Jolad et al. An art of speech recognition: a review
US11081115B2 (en) Speaker recognition
KR100785803B1 (ko) 판 스프링 구조를 갖는 초소형 마이크로 폰, 스피커 및이를 이용한 음성 인식/합성장치
CN111261184A (zh) 声源分离装置和声源分离方法
Soni et al. Novel Subband Autoencoder Features for Detection of Spoofed Speech.
KR102277952B1 (ko) 디제이 변환에 의한 주파수 추출 방법
Jung et al. Selecting feature frames for automatic speaker recognition using mutual information
JP2008085613A (ja) 音声認識装置、音声認識方法、移動体、及びロボット
Song et al. Influence of mechanical coupling by SiO 2 membrane on the frequency selectivity of microfabricated beam arrays for artificial basilar membranes
Lee et al. Fast frequency discrimination and phoneme recognition using a biomimetic membrane coupled to a neural network
Thakur et al. Design of Hindi key word recognition system for home automation system using MFCC and DTW
Ichikawa et al. Harmonic feature fusion for robust neural network-based acoustic modeling
Bouziane et al. Towards an objective comparison of feature extraction techniques for automatic speaker recognition systems
Park et al. Zero-crossing-based feature extraction for voice command systems using neck-microphones
US10930279B2 (en) Voice frequency analysis system, voice frequency analysis method, and voice recognition system and voice recognition method using the same
DiPassio et al. Estimating the Direction of Arrival of a Spoken Wake Word Using a Single Sensor on an Elastic Panel
Jung et al. Normalized minimum-redundancy and maximum-relevancy based feature selection for speaker verification systems

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right