KR102184932B1 - Voice Recognition Method using Multiple Channels - Google Patents

Voice Recognition Method using Multiple Channels Download PDF

Info

Publication number
KR102184932B1
KR102184932B1 KR1020180144290A KR20180144290A KR102184932B1 KR 102184932 B1 KR102184932 B1 KR 102184932B1 KR 1020180144290 A KR1020180144290 A KR 1020180144290A KR 20180144290 A KR20180144290 A KR 20180144290A KR 102184932 B1 KR102184932 B1 KR 102184932B1
Authority
KR
South Korea
Prior art keywords
frequency
voice recognition
channels
speaker
voice
Prior art date
Application number
KR1020180144290A
Other languages
Korean (ko)
Other versions
KR20200009992A (en
Inventor
이건재
홍성광
한재현
왕희승
정영훈
유창동
배강민
박현신
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Publication of KR20200009992A publication Critical patent/KR20200009992A/en
Application granted granted Critical
Publication of KR102184932B1 publication Critical patent/KR102184932B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H11/00Measuring mechanical vibrations or ultrasonic, sonic or infrasonic waves by detecting changes in electric or magnetic properties
    • G01H11/06Measuring mechanical vibrations or ultrasonic, sonic or infrasonic waves by detecting changes in electric or magnetic properties by electric means
    • G01H11/08Measuring mechanical vibrations or ultrasonic, sonic or infrasonic waves by detecting changes in electric or magnetic properties by electric means using piezoelectric devices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/16Hidden Markov models [HMM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Abstract

본 발명에 따른 다채널을 이용한 음성인식 방법은 복수 개의 주파수 채널을 구비하는 음성인식 센서를 이용한 음성인식 방법에 있어서, 주파수에 따라서 상기 복수 개의 주파수 채널 중에서 민감도가 높은 2개 또는 3개의 주파수 채널을 선택하여 선택된 주파수 채널에서 조합한 신호를 이용하여 화자 인식을 수행하는 것을 특징으로 한다.In the speech recognition method using a multi-channel according to the present invention, in the speech recognition method using a speech recognition sensor having a plurality of frequency channels, two or three frequency channels with high sensitivity among the plurality of frequency channels are selected according to frequencies. It is characterized in that speaker recognition is performed using a signal combined from a selected and selected frequency channel.

Description

다채널을 이용한 음성인식 방법 {Voice Recognition Method using Multiple Channels}Voice Recognition Method using Multiple Channels

본 출원은 다채널을 이용한 음성인식 방법에 관한 것이다.The present application relates to a voice recognition method using multiple channels.

음성인식 센서란 인간의 음성에 포함된 음향학적 정보로부터 언어적 정보를 추출하여 이를 인지하고 반응하게 만드는 센서를 의미한다. 쉽고 편리하게 사용할 수 있는 Natural UI(user interface)가 필요해진 오늘날에 음성으로 대화하는 것은 미래 IoT 시대의 수많은 인간과 기계의 정보 교환 매체 중 가장 자연스럽고 간편한 방법으로 여겨지고 있다. 하지만 기계와 음성으로 소통하기 위해서는 인간의 음성을 기계가 처리할 수 있는 형식으로 변환을 해줘야 하는데 이 과정이 바로 음성인식이다.The speech recognition sensor refers to a sensor that extracts linguistic information from acoustic information contained in a human voice, recognizes it, and makes it react. In today's need for a natural user interface (UI) that can be used easily and conveniently, voice conversation is considered the most natural and convenient method among numerous human and machine information exchange media in the future IoT era. However, in order to communicate with the machine by voice, human voice must be converted into a format that can be processed by the machine, and this process is voice recognition.

애플의 시리(Siri)로 대표되는 음성인식은 마이크로폰, ADC(Analog to Digital Converter), DSP (Digital Signal Processing)의 조합으로 구성되어 있으며, 모바일용 상시 대기로 활용하기에는 소모 전력이 높아 사용자가 시작과 종료 버튼을 누르며 조작하고 있다. 이는 진정한 의미의 음성인식 기반 IoT(internet of Things,사물 인터넷) 구현에 가장 큰 난관 중에 하나이며, 저전력 상시구동 음성인식 시스템을 개발하는 경우에는 무궁무진한 IoT 응용처를 열 수 있을 것으로 예상된다.Voice recognition, represented by Apple's Siri, consists of a combination of a microphone, ADC (Analog to Digital Converter), and DSP (Digital Signal Processing), and it consumes high power to be used as a mobile standby. It is operating by pressing the end button. This is one of the biggest challenges for realizing voice recognition based IoT (Internet of Things, Internet of Things), and it is expected to open endless IoT applications when developing a low-power, always-on voice recognition system.

별도의 학습이나 훈련 없이도 쉽게 사용할 수 있는 음성인식 시스템은 혁신적인 차세대 IT 제품을 위한 UI 개발 및 구축에 대한 요구가 높아진 IoT 시대에 미래 산업을 선도할 유망 기술로서 손이 자유롭지 않은 상황이나 이동시에도 정보를 입력할 수 있으며 입력 속도가 타이핑보다 빠르기 때문에 고속 또는 실시간으로 정보처리가 가능하다는 장점이 있다.The voice recognition system, which can be easily used without additional learning or training, is a promising technology that will lead the future industry in the IoT era when the demand for UI development and construction for innovative next-generation IT products is increasing. Since it can be input and the input speed is faster than typing, it has the advantage of being able to process information at high speed or in real time.

근래 스마트폰 단말기 성능의 진화, 인공지능 및 지식 검색 기술의 발전, 클라우드 기반의 음성인식 시스템을 통한 대용량 데이터 처리는 지능형 에이전트로서 사용자가 원하는 답을 정확하고 신속하게 찾을 수 있게 해주지만, 이런 장점과 가능성에도 불구하고 아직 음성인식 기술은 다음과 같은 한계점을 가지고 있다.In recent years, the evolution of smartphone terminal performance, advancement of artificial intelligence and knowledge search technology, and large-capacity data processing through cloud-based voice recognition system enable users to find the answers they want accurately and quickly as an intelligent agent. Despite the possibility, voice recognition technology still has the following limitations.

먼저, 하드웨어적인 관점에서 볼 때 마이크로폰, ADC, DSP의 조합을 이용한 기존 음성인식 기술은 전력소비가 매우 높아 별도의 전원 없이는 상시 대기 상태에서 음성인식이 현실적으로 불가능하며, 더더구나 모바일용 음성인식 센서에 응용은 에너지 문제로 인하여 매우 제한적이다. 또한 음성인식 시작 버튼을 누르는 등의 예비동작이 필요하고 그 정확성, 신뢰도, 속도 등이 떨어진다. 즉, IoT를 기반으로 하는 스마트폰, TV, 자동차, 기타 웨어러블 디바이스에 적용하기 위해서는 고감도는 필수이며, Sleep 상태에서도 큰 전력 소모 없이 상시 대기 상태를 유지하여 초전력으로 사용자의 음성을 인식할 수 있어야 한다. First, from a hardware point of view, the existing voice recognition technology using a combination of microphone, ADC, and DSP consumes very high power, so it is practically impossible to recognize voice in the normal standby state without a separate power source. Moreover, it is applied to a voice recognition sensor for mobile. Is very limited due to energy problems. In addition, preliminary actions such as pressing the voice recognition start button are required, and its accuracy, reliability, and speed are poor. In other words, high sensitivity is essential for application to IoT-based smartphones, TVs, automobiles, and other wearable devices, and it must be able to recognize the user's voice with super power by maintaining the standby state at all times without consuming large power even in the sleep state do.

다음으로, 음향학과 언어학적 관점에서 바라볼 때 현재의 마이크로폰, ADC, DSP 조합의 음성인식은 복잡한 알고리즘을 기반으로 하고 있기에 자연스런 대화체를 인식하는 데에 한계가 있다.Next, from the perspective of acoustics and linguistics, there is a limit in recognizing natural conversational objects because the voice recognition of the current combination of microphone, ADC, and DSP is based on a complex algorithm.

이에 반해 인간의 달팽이관은 복잡한 언어를 주파수 분리 후 단순한 알고리즘을 통하여 효율적으로 신호처리하고 있다. 이런 달팽이관의 원리를 이용한 여러 장치에도 불구하고, 이를 모사하여 인공와우에 응용한 선례는 있지만 아직까지 IoT용 저전력용 음성인식 센서로 활용된 케이스는 전무한 상태이다.On the other hand, the human cochlear effectively processes a complex language through a simple algorithm after frequency separation. Despite the various devices using the principle of the cochlear, there is a precedent for applying it to a cochlear implant by simulating it, but there are still no cases used as low-power voice recognition sensors for IoT.

추가적으로, 기존 음성 센서는 센서부 및 ROIC(Readout integrated circuits)로 이루어지는 것이 일반적일 수 있는데, Cap type의 음성 센서는 센서부 상에 bias를 항상 제공하여야 한다.Additionally, a conventional voice sensor may generally consist of a sensor unit and readout integrated circuits (ROIC), and a cap type voice sensor must always provide a bias to the sensor unit.

유연한 압전박막 인공와우 응용사례는 H. Lee et. al의 Advanced Functional Materials 저널의 논문 Vol. 24, No. 44, pg 6914, 2014에서 참조할 수 있다. 사다리꼴 모양의 얇은 실리콘 멤브레인 위에 3개의 압전소자를 붙여 주파수에 따라서 가청주파수대의 음성 신호를 분리하였다. 상기 문헌에서는, 실리콘 멤브레인 위에 3개의 개별 압전소자를 붙여 주파수를 분리하여 인공와우에 적용하였지만, 이를 IoT용 저전력 음성센서로서 알고리듬, 회로 설계가 고려되지 않았다.Application examples of flexible piezoelectric thin-film cochlear implants are described in H. Lee et. al's Journal of Advanced Functional Materials, Vol. 24, No. 44, pg 6914, 2014. Three piezoelectric elements were attached on a trapezoid-shaped thin silicon membrane to separate the audio signal in the audible frequency band according to the frequency. In the above document, three separate piezoelectric elements were attached on a silicon membrane to separate the frequencies and applied to the cochlear implant, but the algorithm and circuit design were not considered as a low-power voice sensor for IoT.

한편, 본 출원인에 의한 선등록 특허 제10-1718214호의 경우에도 사다리꼴 형태로 이루어진 복수의 주파수 분리 채널을 이용하여 감지되는 음성을 주파수에 따라 복수의 채널을 통해 분리하는 것과 동시에 분리된 음성 신호를 압전 소자를 통해 기계적 진동 신호에서 전기적 신호로 변환하게 하여 인식하는 기술적 내용을 개시하지만, 복수의 주파수 채널을 통해 감지되는 응답 성능이 일정 영역에서는 원활하게 구현이 안된다는 한계점이 있다.On the other hand, even in the case of pre-registered patent No. 10-1718214 by the present applicant, the voice detected using a plurality of frequency separation channels in a trapezoidal shape is separated through a plurality of channels according to frequencies, and the separated voice signal is piezoelectric. Although the technical content of recognizing by converting a mechanical vibration signal into an electrical signal through an element is disclosed, there is a limitation that the response performance sensed through a plurality of frequency channels cannot be smoothly implemented in a certain area.

또한 복수의 공진 주파수를 이용하여 햅틱 피드백 효과를 출력하게 하는 압전 장치를 제시하는 종래의 문헌으로는 공개특허 제10-2012-0099036호(2012.09.06)를 참조할 수 있다. 한편 상기 문헌에서는 촉각, 힘, 운동감 등에 기반한 햅틱 피드백 기술을 제공하지만, 인식된 음성을 복수의 주파수로 분리한 상태에서 인식하는 방안에 대해서는 별도로 개시하고 있지 않다는 한계가 있다.In addition, as a conventional document that proposes a piezoelectric device that outputs a haptic feedback effect using a plurality of resonance frequencies, reference may be made to Patent Publication No. 10-2012-0099036 (2012.09.06). Meanwhile, although the document provides a haptic feedback technology based on tactile sensation, force, and motion, there is a limitation in that a method for recognizing a recognized voice in a state in which it is divided into a plurality of frequencies is not disclosed separately.

(논문) H. Lee et. al, Advanced Functional Materials, 24(44), 6914, 2014(Thesis) H. Lee et. al, Advanced Functional Materials, 24(44), 6914, 2014

(특허문헌 1) KR10-1718214 B(Patent Document 1) KR10-1718214 B

(특허문헌 2) KR10-2012-0099036 A(Patent Document 2) KR10-2012-0099036 A

본 발명은 상기 종래의 문제점을 해소하고자 하는 것으로서, 단일 소자로 구현된 유연한 압전 박막을 이용하여 커브 형태로 이루어진 복수의 주파수 분리 채널을 통하여 감지되는 음성을 주파수에 따라 상기 복수의 채널을 통해 분리하고 이를 머신러닝 알고리즘을 이용하여 화자를 인식하는 방법을 제공하는 것이 목적이다. The present invention is to solve the above conventional problems, by using a flexible piezoelectric thin film embodied as a single element, separating voices sensed through a plurality of frequency separation channels in a curved shape through the plurality of channels according to frequencies, and The purpose of this is to provide a method of recognizing a speaker using a machine learning algorithm.

즉, 복수의 주파수 분리 채널을 사다리꼴 형태로 배치한 기존의 구조 상에서는 특정한 영역의 주파수 대역에서 응답하는 민감도가 현저히 저하된다는 문제점을 커브 형태로 개선하여 사람의 가청 주파수 대역 상에서 전체적으로 높은 민감도를 유지한 상태의 음성인식 센서를 제공하고 이에 맞는 머신러닝 알고리즘을 통해 높은 화자인식율을 구현하는 것이 목적이다.In other words, in the existing structure in which a plurality of frequency separation channels are arranged in a trapezoidal shape, the problem that the sensitivity to respond in a specific region's frequency band is significantly reduced in a curve shape, and the overall high sensitivity is maintained in the human audible frequency band. The purpose of this is to provide a voice recognition sensor and realize a high speaker recognition rate through a machine learning algorithm suitable for it.

또한, 본 발명은 인간 음성의 스펙트럼에 대해 디지털 샘플링 및 음향 신호 처리 수행을 하기 이전에 주파수 별로 분리된 형태로 음향 신호를 감지 및 검출하여 기존 마이크로폰, ADC, DSP 회로 기반의 고전력 음성인식 센서보다 음성인식 회로의 간편화를 통하여 소비하는 전력을 크게 줄이는 압전 음성인식 센서를 제공하고 이를 기반으로 화자를 인식하는 방법을 제공하는 것이 목적이다.In addition, the present invention detects and detects an acoustic signal in a form separated by frequency before performing digital sampling and processing of an acoustic signal on the spectrum of a human voice, so that it is more sound than a high-power voice recognition sensor based on a conventional microphone, ADC, and DSP circuit. It is an object to provide a piezoelectric voice recognition sensor that greatly reduces power consumption through simplification of the recognition circuit, and to provide a method of recognizing a speaker based on this.

또한, 본 발명은 민감도가 높은 특성을 가진 유연한 무기 압전 소재를 이용해 마이크로폰, ADC, DSP의 조합으로 구성된 종래의 음성센서의 마이크로폰 센서부를 대체할 수 있는 차세대 저전력 음성인식 센서를 제공하고 이를 기반으로 화자를 인식하는 방법을 제공하는 것이 목적이다.In addition, the present invention provides a next-generation low-power voice recognition sensor that can replace the microphone sensor unit of a conventional voice sensor composed of a combination of a microphone, ADC, and DSP using a flexible inorganic piezoelectric material with high sensitivity. Its purpose is to provide a way to recognize.

또한, 본 발명은 음성인식 센서에 포함된 복수의 채널 중에서 음성 주파수에 응답성이 높은 2개 또는 3개의 채널을 선택하여 선택된 채널에서 센싱된 신호만을 이용하여 음성인식을 수행함으로써 공진 등에 의한 오류를 감소시켜 인식률을 높이는 음성인식 방법을 제공하는 것이 목적이다.In addition, the present invention selects two or three channels with high responsiveness to a voice frequency among a plurality of channels included in the voice recognition sensor, and performs voice recognition using only the signals sensed in the selected channel, thereby preventing errors due to resonance. It is an object to provide a speech recognition method that increases the recognition rate by reducing it.

상기 과제를 해결하기 위해서, 본 발명의 일 실시예는 음성인식 방법을 제공한다.In order to solve the above problems, an embodiment of the present invention provides a voice recognition method.

상기 음성인식 방법은 복수 개의 주파수 채널을 구비하는 음성인식 센서를 이용한 음성인식 방법에 있어서, 주파수에 따라서 상기 복수 개의 주파수 채널 중에서 민감도가 높은 2개 또는 3개의 주파수 채널을 선택하여 선택된 주파수 채널에서 조합한 신호를 이용하여 화자 인식을 수행하는 것을 특징으로 한다.The voice recognition method is a voice recognition method using a voice recognition sensor having a plurality of frequency channels, in which two or three frequency channels with high sensitivity are selected from among the plurality of frequency channels according to frequencies and combined in the selected frequency channel. It is characterized in that speaker recognition is performed using one signal.

덧붙여 상기한 과제의 해결수단은, 본 발명의 특징을 모두 열거한 것이 아니다. 본 발명의 다양한 특징과 그에 따른 장점과 효과는 아래의 구체적인 실시형태를 참조하여 보다 상세하게 이해될 수 있을 것이다.In addition, the solution to the above-described problem does not enumerate all the features of the present invention. Various features of the present invention and advantages and effects thereof may be understood in more detail with reference to the following specific embodiments.

본 발명에 따른 음성인식 센서는 커브 형태로 이루어진 복수의 주파수 분리 채널을 통하여 감지되는 음성을 주파수에 따라 상기 복수의 채널을 통해 분리하여 사람의 가청 주파수 대역 상에서 전체적으로 높은 민감도를 유지하게 한다.The voice recognition sensor according to the present invention separates voices sensed through a plurality of frequency-separating channels in a curved shape through the plurality of channels according to frequencies, thereby maintaining a high overall sensitivity in a human audible frequency band.

본 발명은 복수의 주파수 분리 채널을 통한 주파수 응답값이 저주파 영역에서 고주파 영역으로 이동함에 따라서 선형으로 일정하게 감소하는 특성을 보이는바, 이를 통해 가청 주파수 영역에 걸쳐 일반적인 음향 진단 마이크로폰의 기준값을 상회하는 응답 특성을 보이게 한다.In the present invention, the frequency response value through a plurality of frequency separation channels decreases linearly as the frequency response value moves from the low frequency region to the high frequency region. Show response characteristics.

본 발명은 커브 형태로 이루어진 복수의 주파수 분리 채널을 이용하여 분리된 음성 신호를 압전 소자를 통해 기계적 진동 신호에서 전기적 신호로 변환하게 하여 인식하게 하고, 인간의 신체 중에서 달팽이관의 소리전달 메커니즘을 채용하여, 주파수 분리가 가능한 유연 압전 음성인식 센서 및 이에 호환하는 센서모듈을 제작하여 상시 구동 가능한 사물인터넷 구현을 위한 저전력 음성 UI를 실현한다.The present invention uses a plurality of frequency separation channels in a curved shape to convert a separated voice signal from a mechanical vibration signal to an electrical signal through a piezoelectric element to be recognized, and employs a sound transmission mechanism of the cochlea in the human body. , A flexible piezoelectric voice recognition sensor capable of frequency separation and a sensor module compatible with it are manufactured to realize a low-power voice UI for realizing the Internet of Things that can always be driven.

또한, 유연한 압전 소재를 다채널구조를 이용하여 제작하여 채널에 의해 주파수를 분리해내어 음성인식을 함으로써, 이를 이용하면 전력의 소모량을 최대로 줄인 대기 상태에서 언어 및 화자를 기계가 식별해낼 수 있으며, 양방향의 소통과 대응이 가능한 내장형(Embedded) 음성인식 센서 및 모듈을 구현할 수 있다.In addition, by making a flexible piezoelectric material using a multi-channel structure and separating frequencies by channels for voice recognition, the machine can identify the language and speaker in the standby state, which reduces the consumption of power to the maximum. , It is possible to implement an embedded voice recognition sensor and module capable of two-way communication and correspondence.

본 발명은 주파수 별로 음성 스펙트럼의 분리 및 디지털 샘플링에 의해 보다 빠르고 정확한 음향 신호처리 및 고감도 인식을 가능하게 하며, 음향 분석 모듈이 단순화되어 비용을 절감할 수 있다. 이를 통해 주변 잡음 등의 변이(variability)에도 불구하고 화자 식별을 가능하게 한다.The present invention enables faster and more accurate acoustic signal processing and high-sensitivity recognition by separating the speech spectrum for each frequency and digital sampling, and simplifies the acoustic analysis module to reduce cost. This enables speaker identification in spite of variability such as ambient noise.

또한, 본 발명은 Sleep 상태에서도 전력 소모가 거의 없어 상시 대기하며 음성인식을 가능하게 한다.In addition, in the present invention, even in the sleep state, there is little power consumption, so that it is always on standby and enables voice recognition.

본 발명은 음성 인식 시작 및 종료 버튼을 조작하는 등의 예비동작 없이 쉽고 편리하게 화자 및 기본 명령을 인식할 수 있게 한다.The present invention makes it possible to easily and conveniently recognize a speaker and basic commands without preliminary operations such as operating a voice recognition start and end button.

또한, 본 발명은 음성인식 센서에 포함된 복수의 채널 중에서 음성 주파수에 응답성이 높은 2개 또는 3개의 채널을 선택하여 선택된 채널에서 센싱된 신호들의 평균값을 이용하여 음성인식을 수행함으로써 공진 등에 의한 오류를 감소시켜 인식률을 높일 수 있다.In addition, the present invention selects two or three channels with high responsiveness to a voice frequency among a plurality of channels included in the voice recognition sensor, and performs voice recognition using the average value of signals sensed in the selected channel. Recognition rate can be increased by reducing errors.

도 1은 종래의 음성인식 시스템과 본 발명과의 차이점을 보이는 비교도이다.
도 2 내지 도 10은 본 발명의 일 실시예에 따른 압전 음성인식 센서의 제조방법을 설명하는 단계별 단면도이다.
도 11은 본 발명의 일 실시예에 따른 압전 음성인식 센서의 도식도이다.
도 12상에서는 가로축으로 복수의 주파수 분리 채널을 통해 설정된 주파수 영역을 표시하고 세로축으로는 상대 응답(dB)인 민감도를 보인다.
도 13은 본 발명에 따른 복수의 주파수 채널을 갖는 음성인식 센서를 구체적으로 설명하는 도면이다.
도 14는 본 발명의 일 실시예에 따른 음성인식 센서의 제작 형태를 보이는 이미지이다.
도 15는 화자 인식의 컨셉을 개략적으로 도시하는 도면이다.
도 16은 본 발명의 일 실시예에 따른 음성인식 센서와 이의 아웃풋 신호 특성을 도시하는 도면이다.
도 17은 본 발명의 일 실시예에 따른 음성인식 센서에서 각 채널별 민감도를 도시하는 그래프이다.
도 18은 본 발명의 일 실시예에 따라 화자인식에 사용되는 채널을 도시하는 그래프이다.
도 19는 화자인식에 사용되는 채널의 수에 따른 민감도를 도시하는 비교 그래프이다.
도 20은 원본 음성과 f-PAS를 거친 음성을 비교하는 도면이다.
도 21은 데이터 처리 알고리즘을 도시하는 도면이다.
도 22는 트레이닝된 데이터의 확률 분포를 도시하는 도면이다.
도 23은 화자 인식 결과를 나타내는 그래프이다.
도 24 내지 도 26은 종래기술과 본 발명에 따른 화자 인식률에 에러율을 비교하는 그래프이다.
1 is a comparison diagram showing differences between a conventional speech recognition system and the present invention.
2 to 10 are step-by-step cross-sectional views illustrating a method of manufacturing a piezoelectric voice recognition sensor according to an embodiment of the present invention.
11 is a schematic diagram of a piezoelectric voice recognition sensor according to an embodiment of the present invention.
In FIG. 12, a horizontal axis indicates a frequency range set through a plurality of frequency separation channels, and a vertical axis indicates sensitivity, which is a relative response (dB).
13 is a diagram specifically illustrating a voice recognition sensor having a plurality of frequency channels according to the present invention.
14 is an image showing a fabrication form of a voice recognition sensor according to an embodiment of the present invention.
15 is a diagram schematically showing the concept of speaker recognition.
16 is a diagram showing a voice recognition sensor and an output signal characteristic thereof according to an embodiment of the present invention.
17 is a graph showing the sensitivity of each channel in the voice recognition sensor according to an embodiment of the present invention.
18 is a graph showing a channel used for speaker recognition according to an embodiment of the present invention.
19 is a comparison graph showing sensitivity according to the number of channels used for speaker recognition.
20 is a diagram for comparing an original voice and a voice that has passed through f-PAS.
21 is a diagram showing a data processing algorithm.
22 is a diagram showing a probability distribution of trained data.
23 is a graph showing speaker recognition results.
24 to 26 are graphs comparing an error rate with a speaker recognition rate according to the prior art and the present invention.

이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.Hereinafter, preferred embodiments will be described in detail with reference to the accompanying drawings so that those of ordinary skill in the art may easily implement the present invention. However, in describing a preferred embodiment of the present invention in detail, if it is determined that a detailed description of a related known function or configuration may unnecessarily obscure the subject matter of the present invention, the detailed description thereof will be omitted. In addition, the same reference numerals are used throughout the drawings for portions having similar functions and functions.

덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 '연결'되어 있다고 할 때, 이는 '직접적으로 연결'되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 '간접적으로 연결'되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 '포함'한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.In addition, throughout the specification, when a part is said to be'connected' to another part, it is not only'directly connected', but also'indirectly connected' with another element in the middle. Include. In addition, "including" a certain component means that other components may be further included rather than excluding other components unless specifically stated to the contrary.

도 1은 기존의 음성인식 시스템과 본 발명과의 차이점을 보이는 비교도이다. 1 is a comparison diagram showing differences between the existing speech recognition system and the present invention.

도 1의 좌측에 도시된 기존의 음성인식 시스템은 마이크로 음성 신호를 아날로그 형태로 받아서 이를 ADC(Analog to digital converter)를 통해 디지털 신호로 변환한 후, DSP(digital signal processing)를 통해 디지털 신호를 처리하여 주파수를 분리해내는데 이 때 높은 전력이 소모된다는 단점이 있다.The existing voice recognition system shown on the left of FIG. 1 receives a micro voice signal in an analog form, converts it into a digital signal through an analog to digital converter (ADC), and processes the digital signal through digital signal processing (DSP). In this case, the frequency is separated, but there is a disadvantage in that high power is consumed.

구체적으로, 종래의 음성인식 기술은 비공진형 방식에 기초한 상태에서 주파수 영역에 따라서 민감도가 낮은 상태로 일정하게 유지되는 특성을 갖는다. 종래에는 외부 DC 전원을 필요로 하는 정전 용량 방식을 통해 한 개의 출력 신호만을 구비하고, 유전막을 활용한다는 점에서 그 한계가 있다.Specifically, the conventional speech recognition technology has a characteristic of maintaining a constant low sensitivity state according to a frequency domain in a state based on a non-resonant method. Conventionally, there is a limitation in that only one output signal is provided through a capacitance method requiring an external DC power supply and a dielectric film is used.

반면, 본 발명에서의 복수의 주파수 채널을 갖는 저전력 음성인식 센서는 공진형 방식을 갖는 압전 센서로서 바로 음성인식이 가능하여 저전력 구동이 가능하다는 장점을 가진다. 먼저 음성 신호를 주파수에 따라 복수의 전극채널에서 분리가 되는데, 이와 동시에 압전소자로 이루어진 박막에서 기계적 움직임이 전기적 신호로 변환되어 각각의 주파수 대역에서 전기적 신호가 검출되게 된다. On the other hand, the low-power voice recognition sensor having a plurality of frequency channels in the present invention is a piezoelectric sensor having a resonance type, and has the advantage of being able to directly recognize voice and thus low-power driving. First, a voice signal is separated from a plurality of electrode channels according to frequencies. At the same time, mechanical motion is converted into an electrical signal in a thin film made of a piezoelectric element, so that an electrical signal is detected in each frequency band.

즉, 종래의 마이크로폰의 경우에는 주파수 밴드필터, ADC, DSP가 사용되므로 고전력이 소모되나, 본 발명은 주파수 별로 분리되어 전류를 생산하는 압전소자를 사용하므로, 밴드필터나 ADC, DSP에 소요되는 전력을 감소시킬 수 있다. 또한, 마이크로폰의 민감도가 높아 회로부에서 사용하여야 하는 전압이득을 낮출 수 있어 이로 인한 전력소모를 줄일 수 있으며, 회로적 안정성을 향상시킬 수 있다. That is, in the case of a conventional microphone, a frequency band filter, ADC, and DSP are used, which consumes high power, but the present invention uses a piezoelectric element that generates current separated by frequency, so the power required for the band filter, ADC, and DSP. Can be reduced. In addition, since the sensitivity of the microphone is high, the voltage gain to be used in the circuit unit can be lowered, thereby reducing power consumption and improving circuit stability.

또한, 본 발명은 복수의 주파수 분리 채널을 일렬로 배치하되 전체적으로는 커브 형태로 이루어지게 하여 가청 주파수 영역에 걸쳐서 저주파 영역에서 고주파 영역으로 이동함에 따라서 응답 특성이 선형으로 일정하게 감소하게 한다. 상기의 과정에서 저주파인 200Hz 대역에서 고주파인 4kHz 대역에 이르기까지 전체적으로 높은 민감도를 유지하는 것을 특징으로 한다.In addition, according to the present invention, a plurality of frequency separation channels are arranged in a row, but are generally formed in a curve shape, so that the response characteristic linearly decreases linearly as they move from the low frequency region to the high frequency region over the audible frequency region. In the above process, it is characterized in that the overall high sensitivity is maintained from the low frequency 200 Hz band to the high frequency 4 kHz band.

본 발명은 센서부 자가 구동이 가능한 압전 방식을 이용하고, 하나의 칩에서 영역이 상이한 복수의 출력 신호를 발생하게 한다. 또한, 유연한 무기물 압전 소재를 활용한 독보적인 기술을 사용한다.The present invention uses a piezoelectric method capable of self-driving the sensor unit, and generates a plurality of output signals having different regions in one chip. In addition, it uses a unique technology that utilizes a flexible inorganic piezoelectric material.

도 2 내지 도 10은 본 발명의 일 실시예에 따른 압전 음성인식 센서의 제조방법을 설명하는 단계별 단면도이다.2 to 10 are step-by-step cross-sectional views illustrating a method of manufacturing a piezoelectric voice recognition sensor according to an embodiment of the present invention.

도 2를 참조하면, 희생기판인 실리콘 기판(100)이 개시된다. 본 발명에서 상기 희생기판(100)은 추후 적층되는 금속층과의 응력 편차를 제공하나, 나노제너레이터 소자와 직접 접합되지는 않는다. 본 발명의 일 실시예에서 상기 실리콘 기판(100)의 압축응력은 소자 상부에 접합되는 금속층의 인장응력과 부조화를 이루며, 이후 인가되는 외부 에너지에 의하여 실리콘 기판(100)상에 접합된 별도의 버퍼층(본 발명의 일 실시예에서 실리콘 산화물층)이 크랙되는데, 버퍼층의 수평 방향 크랙은 다음에 보다 상세히 설명된다. 본 발명은 특히 상기 금속층과 희생기판 사이의 응력차이에 따라 상기 크랙되는 부위를 조절, 제어할 수 있다. 2, a silicon substrate 100 that is a sacrificial substrate is disclosed. In the present invention, the sacrificial substrate 100 provides a stress deviation from the metal layer to be deposited later, but is not directly bonded to the nanogenerator device. In one embodiment of the present invention, the compressive stress of the silicon substrate 100 is inconsistent with the tensile stress of the metal layer bonded to the top of the device, and a separate buffer layer bonded to the silicon substrate 100 by external energy applied thereafter. (Silicon oxide layer in an embodiment of the present invention) is cracked, the horizontal crack of the buffer layer will be described in more detail below. In particular, the present invention can control and control the cracked portion according to a difference in stress between the metal layer and the sacrificial substrate.

상기 실리콘 기판(100) 상에 실리콘 산화물과 같은 버퍼층(200)이 적층된다. 본 발명에서 상기 버퍼층(200)은 응력차이에 따라 발생하는 물리적 힘에 따라 떨어질 수 있는 수준으로, 나노제너레이터 소자와 접합된다. 본 발명의 일 실시예에서, 상기 버퍼층(200)으로 실리콘 산화물층을 사용하였으며, 실리콘 산화물층과 나노제너레이터간 접합력은 상기 하부 기판과 금속층 사이의 응력 차이에 의하여 나노제너레이터 소자가 효과적으로 분리될 수 있는 수준이다.A buffer layer 200 such as silicon oxide is deposited on the silicon substrate 100. In the present invention, the buffer layer 200 is bonded to the nanogenerator device at a level that can be dropped according to the physical force generated according to the stress difference. In an embodiment of the present invention, a silicon oxide layer is used as the buffer layer 200, and the bonding force between the silicon oxide layer and the nanogenerator is that the nanogenerator element can be effectively separated by a difference in stress between the lower substrate and the metal layer. Level.

도 3을 참조하면, 버퍼층(200) 상에서 공지된 기술인 sol-gel 공정을 통해 압전 물질층인 PZT 박막(300)이 증착된다. sol-gel 용액 박막으로부터 유기성분을 제거하기 위해, 0.4M의 PZT sol-gel 용액(10 mol% 초과 PbO 의 52:48 몰비의 Zr:Ti)이 10분 동안 450 ℃의 공기 분위기에서의 열분해 과정과 함께 2500rpm에서 웨이퍼 상에 스핀 캐스트된다. Referring to FIG. 3, a PZT thin film 300 as a piezoelectric material layer is deposited on the buffer layer 200 through a sol-gel process, which is a known technique. In order to remove organic components from the thin film of the sol-gel solution, a 0.4M PZT sol-gel solution (Zr:Ti in a 52:48 molar ratio of PbO exceeding 10 mol%) was thermally decomposed in an air atmosphere at 450 °C for 10 minutes. With spin-cast on the wafer at 2500rpm.

상기 증착 및 열분해 단계는 2㎛ 두께의 PZT 박막을 형성하기 위해 수회 반복된다. PZT 박막의 결정화는 공기 중에서 650℃, 45분 동안 수행된다. 열분해 및 결정화 공정을 위해 급속 열처리(RTA)가 이용된다.The deposition and pyrolysis steps are repeated several times to form a 2 μm-thick PZT thin film. Crystallization of the PZT thin film was performed in air at 650° C. for 45 minutes. Rapid heat treatment (RTA) is used for pyrolysis and crystallization processes.

도 4를 참조하면, PZT 박막(300)의 상부면에 금속층인 니켈층(400)을 적층한다. 본 발명의 일 실시예에 따르면, 상기 니켈층(400) 적층은 스퍼터링이나 PVD 공정 등과 같은 통상의 반도체 공정을 통하여 수행될 수 있으며, 이 외에도 통상적인 금속 도포 방식에 따라서도 적층될 수 있다. 상기 적층에 따라 PZT 박막(300) 상에 접합된 니켈층(400)이 형성된다. Referring to FIG. 4, a nickel layer 400 as a metal layer is deposited on the upper surface of the PZT thin film 300. According to an embodiment of the present invention, the nickel layer 400 may be laminated through a conventional semiconductor process such as sputtering or PVD process, and may also be laminated according to a conventional metal coating method. A nickel layer 400 bonded on the PZT thin film 300 is formed according to the stacking.

도 5를 참조하면, 상기 잔류 인장응력을 가지는 금속층인 니켈층(400)에 기계적 에너지(예를 들어 물리적 충격) 또는 열 에너지를 인가한다. 그 결과, 니켈(400)의 잔류 인장응력이 발생하며, 상기 버퍼층(200)을 통하여 나노제너레이터 소자와 간접적으로 접합된 실리콘 기판(100)의 잔류 압축응력과 상기 잔류 인장 응력 간의 부조화(mismatch) 또는 비대칭 효과가 발생하며, 이에 따라 실리콘 산화물인 버퍼층(200)과 PZT 박막(300) 사이의 경계면에서 두 층간의 접합이 떨어지는 현상이 발생한다. 본 발명은 이와 같이 실리콘 기판의 잔류 압축응력과 상이한 인장응력을 갖는 금속층으로, 원하는 소자와 기판을 적층한 후, 외부로부터 에너지를 인가하여 약한 접합면에서 소자를 분리한다. 특히 이러한 소자의 분리를 발생시키는 분리면을, PZT 박막(300)과 가장 약한 힘으로 접합된 버퍼층의 경계면으로 설정하므로, 실리콘 기판 상에서 제조된 소자를 원형 그대로 분리, 전사시킬 수 있는 장점이 있다. 또한 상기 소자 분리 위치는 금속층과 희생기판 사이의 응력차이에 따라 제어될 수 있다. Referring to FIG. 5, mechanical energy (eg, physical impact) or thermal energy is applied to the nickel layer 400, which is a metal layer having residual tensile stress. As a result, residual tensile stress of nickel 400 occurs, and a mismatch between the residual compressive stress and the residual tensile stress of the silicon substrate 100 indirectly bonded to the nanogenerator element through the buffer layer 200 or An asymmetry effect occurs, and as a result, a phenomenon in which the bonding between the two layers falls at the interface between the buffer layer 200 of silicon oxide and the PZT thin film 300 occurs. The present invention is a metal layer having a tensile stress different from the residual compressive stress of a silicon substrate. After laminating a desired device and a substrate, energy is applied from the outside to separate the device from the weak bonding surface. In particular, since the separation surface that causes the separation of the device is set as the interface between the PZT thin film 300 and the buffer layer bonded with the weakest force, there is an advantage that the device manufactured on the silicon substrate can be separated and transferred as it is. In addition, the device isolation position may be controlled according to a difference in stress between the metal layer and the sacrificial substrate.

도 6을 참조하면, 상기 실리콘 기판과 접촉하는 금속층의 잔류 인장응력 부조화에 따라 접합이 떨어진 PZT 박막(300)을 실리콘산화물 버퍼층(200)으로부터 분리한다(도 7 참조).Referring to FIG. 6, the PZT thin film 300, which is not bonded due to the residual tensile stress mismatch of the metal layer in contact with the silicon substrate, is separated from the silicon oxide buffer layer 200 (see FIG. 7 ).

한편, PZT 박막(300)을 실리콘산화물 버퍼층(200)으로부터 분리하는 과정은 LLO(laser lift off) 공정에 의해서도 가능할 수 있다. 즉, PZT 박막(300)을 버퍼층(200)로부터 분리하기 위해 XeCl-펄스 엑시머 레이저를 통한 실리콘산화물 버퍼층(200) 후면에 대한 조사는, 예를 들어 XeCl 레이저의 광자에너지(4.03eV)가 버퍼층(200)의 밴드-갭 에너지보다 작고, PZT 박막(300)의 그것보다 크기 때문에, PZT박막이 플렉시블 플라스틱 기재로 이동되는 것을 가능하게 한다. 결과적으로, 레이저 빔은 실리콘산화물 버퍼층을 관통하고, 다음으로 국소 용융 및 버퍼층과의 경계에서 PZT의 해리가 일어난다.On the other hand, the process of separating the PZT thin film 300 from the silicon oxide buffer layer 200 may also be possible by a laser lift off (LLO) process. That is, in order to separate the PZT thin film 300 from the buffer layer 200, irradiation to the rear surface of the silicon oxide buffer layer 200 through an XeCl-pulse excimer laser, for example, the photon energy (4.03 eV) of the XeCl laser is the buffer layer ( Since it is smaller than the band-gap energy of 200) and larger than that of the PZT thin film 300, it enables the PZT thin film to be transferred to the flexible plastic substrate. As a result, the laser beam penetrates the silicon oxide buffer layer, followed by local melting and dissociation of the PZT at the boundary with the buffer layer.

상기와 같이 PZT 박막을 플라스틱 기판으로 전환하기 위한 LLO(laser lift off) 공정이 일어난다.As described above, a laser lift off (LLO) process for converting the PZT thin film into a plastic substrate occurs.

도 8을 참조하면, 상기 분리된 PZT 박막(300)-니켈(400)층을, 플렉서블한 플라스틱 기판(600)으로 물리적으로 이동시켜 접합시킨다. 이로써 플렉서블한 플라스틱 기판(600) 상에 전사된 플렉서블 나노제너레이터가 완성된다. Referring to FIG. 8, the separated PZT thin film 300-nickel 400 layer is physically moved and bonded to a flexible plastic substrate 600. This completes the flexible nanogenerator transferred onto the flexible plastic substrate 600.

도 9를 참조하면, 상기 니켈층(400)은 통상의 화학적 식각 공정인 에칭(etching)을 통하여 제거된다. 예를 들어 상기 니켈층(400)을 식각하기 위한 특정 식각액에 상기 플라스틱 기판(600)에 접합된 소자의 상부를 침지시켜 니켈층(400)을 제거할 수 있다. 하지만, 이 외에도 통상적인 다양한 금속층 제거 방식에 따라 상기 니켈층(400)을 선택적으로 제거할 수 있으며, 이 또한 본 발명의 범위에 속한다. Referring to FIG. 9, the nickel layer 400 is removed through etching, which is a typical chemical etching process. For example, the nickel layer 400 may be removed by immersing the upper portion of the device bonded to the plastic substrate 600 in a specific etchant for etching the nickel layer 400. However, in addition to this, the nickel layer 400 may be selectively removed according to various conventional metal layer removal methods, and this also falls within the scope of the present invention.

다음으로, 도 10을 참조하면, PZT 박막(300) 상에 전극(500)이 적층되며, 이로써 하부에서부터 플렉서블 박막인 플라스틱 기판(600), PZT 박막(300), 및 전극(500)의 형태로 적층된다. 여기에서, 상기 전극(500)은 복수의 주파수 분리 채널을 이루게 된다.Next, referring to FIG. 10, an electrode 500 is stacked on the PZT thin film 300, whereby in the form of a plastic substrate 600, a PZT thin film 300, and an electrode 500 as a flexible thin film from the bottom. Are stacked. Here, the electrode 500 forms a plurality of frequency separation channels.

전극(500)은 Ti/Au, Ti/Pt, Cr/Au 및 Cr/Pt 을 포함하는 전극 물질들 중 어느 하나일 수 있다. The electrode 500 may be any one of electrode materials including Ti/Au, Ti/Pt, Cr/Au, and Cr/Pt.

플라스틱 기판(600)은 PET, PEN, Parylene, Kapton 을 포함하는 기판 물질들 중 어느 하나일 수 있다.The plastic substrate 600 may be any one of substrate materials including PET, PEN, Parylene, and Kapton.

한편, 도 11을 참조하면 본 발명인 압전 음성인식 센서는 전극(500)을 전체적으로 덮는 형태로 보호층(Passivation layer)를 선택적으로 부가할 수 있다. 상기 보호층은 Parylene 또는 SU-8 일 수 있다.Meanwhile, referring to FIG. 11, the piezoelectric speech recognition sensor according to the present invention may selectively add a passivation layer to cover the electrode 500 as a whole. The protective layer may be Parylene or SU-8.

플라스틱 기판(600) 및 PZT 박막(300) 사이엔 접착층이 배치되는데, 상기 접착층은 Norland, PU 등일 수 있다.An adhesive layer is disposed between the plastic substrate 600 and the PZT thin film 300, and the adhesive layer may be Norland or PU.

도 12 을 참조하여 본 발명의 기본 개념을 설명한다.The basic concept of the present invention will be described with reference to FIG. 12.

도 12 상에서는 가로축으로 복수의 주파수 분리 채널을 통해 설정된 주파수 영역을 표시하고 세로축으로는 상대 응답(dB)인 민감도를 보인다.In FIG. 12, a horizontal axis indicates a frequency range set through a plurality of frequency separation channels, and a vertical axis indicates sensitivity, which is a relative response (dB).

일예로서, 도 12에 도시된 4개의 채널에 해당하는 주파수 채널들은 서로 겹치는 영역의 주파수 영역을 센싱한다. 즉, 그래프 상에서 가장 좌측에 보이는 채널1은 높은 응답 특성을 보이고, 가장 우측에 보이는 채널4는 상대적으로 낮은 응답 특성을 보인다. As an example, frequency channels corresponding to four channels shown in FIG. 12 sense a frequency domain of an overlapping area. That is, on the graph, the leftmost channel 1 shows high response characteristics, and the rightmost channel 4 shows relatively low response characteristics.

본 발명은 공진형 소자를 이용함으로써 특정 주파수 영역에서 더 높은 민감도를 보유할 수 있다. 즉, 약 -100dB의 민감도를 일정하게 유지하는 기존의 마이크로폰(Ref. Mic)에 대비할 때 주파수 채널의 서로 겹치는 영역들은 전부 마이크로폰(Ref. Mic)의 민감도를 훌쩍 넘는 상태를 보이는 것을 알 수 있다.The present invention can retain higher sensitivity in a specific frequency domain by using a resonant element. In other words, when compared to the conventional microphone (Ref. Mic) that maintains a constant sensitivity of about -100dB, it can be seen that all the overlapping regions of the frequency channel far exceed the sensitivity of the microphone (Ref. Mic).

기존의 마이크로폰은 센서와 ROIC(read-out IC)로 이루어져 있으며, 음압에 의해 멤브레인이 떨리게 되면 전위차에 의한 전기적 신호가 ROIC로 들어간다. ROIC는 증폭기와 임피던스 변환기로 이루어져 있으며, 증폭기의 Gain에 따라 민감도가 결정된다. Conventional microphones consist of a sensor and a read-out IC (ROIC), and when the membrane vibrates due to sound pressure, an electrical signal due to a potential difference enters the ROIC. ROIC consists of an amplifier and an impedance converter, and the sensitivity is determined by the gain of the amplifier.

도 12는 ref.mic에서 ROIC를 제외한 센서부분의 민감도를 보이는 것으로서, 20-20kHz의 화이트 노이즈를 94SPL(sound-level pressure)로 입력하였을 때 각 주파수에 대응하는 응답특성을 보인다. 12 shows the sensitivity of the sensor part excluding ROIC in ref.mic, and shows response characteristics corresponding to each frequency when white noise of 20-20 kHz is input as 94SPL (sound-level pressure).

예를 들어, 공진형 주파수 채널1(Ch1)에서는 상기 채널1의 3dB 대역폭을 50Hz을 넘는 정도로 넓혀서 Q값을 35 미만으로 낮추는 방향으로 설정함으로써 200Hz~4kHz를 고르게 센싱하게 한다. For example, in the resonant frequency channel 1 (Ch1), the 3dB bandwidth of the channel 1 is widened to more than 50 Hz and the Q value is set in a direction of lowering the Q value to less than 35, thereby uniformly sensing 200 Hz to 4 kHz.

이하, 도 13을 참조하여 본 발명에 따른 복수의 주파수 채널을 갖는 음성인식 센서를 구체적으로 설명한다.Hereinafter, a voice recognition sensor having a plurality of frequency channels according to the present invention will be described in detail with reference to FIG. 13.

음성인식 센서는 상이한 길이를 갖는 복수 개의 주파수 채널을 구비한다. 상기 복수 개의 주파수 채널은 하나의 칩 상에서 소정 간격을 갖도록 배치된 6개의 전극 채널 형태일 수 있다. 상기 복수 개의 주파수 채널은 서 좌측에서 우측 방향으로 ch1 내서 ch6의 순서로 나란히 배열된다.The voice recognition sensor has a plurality of frequency channels having different lengths. The plurality of frequency channels may be in the form of six electrode channels arranged to have predetermined intervals on one chip. The plurality of frequency channels are arranged side by side in the order of ch1 to ch6 from left to right.

상기 복수 개의 주파수 채널은 그 양측 가장자리 측단을 연속적으로 연결하는 경우에 전체적인 형태는 커브드(curved) 곡면을 이룬다. In the case where the plurality of frequency channels are connected to both edge sides in succession, the overall shape forms a curved surface.

구체적으로, ch1에서 ch2와 ch3으로 가는 경우에는 기울기가 상당히 완만한 상태로 증가하게 되는데, ch3에서 ch4, ch5, ch6으로 가는 경우에는 확연히 큰 기울기 값을 갖는 상태로 증가하는 것을 알 수 있다.Specifically, when going from ch1 to ch2 and ch3, the slope increases to a fairly gentle state, but when going from ch3 to ch4, ch5, and ch6, the slope increases to a state with a significantly larger slope.

즉, 최단길이 채널인 ch1에서 최장길이 채널인 ch6로 갈수록 상기 커브드 곡면의 기울기 값이 점점 증가하는 경향을 갖는다.That is, the slope value of the curved surface tends to increase gradually from ch1 as the shortest channel to ch6 as the longest channel.

도 13은 각 주파수 채널에서 가장 높은 피크점을 기준으로 했을 때 경향성을 파악한 것이다. 여기에서, 진동 신호와 전기 신호는 거의 모든 주파수 채널에서 일치한다.13 shows the tendency of the frequency channel based on the highest peak point. Here, the vibration signal and the electric signal coincide in almost all frequency channels.

상기 6개의 전극 채널 중에서 저주파를 센싱하는 일측의 주파수 채널을 제1 센싱부로 설정하고, 제1 센싱부에 비해 상대적으로 고주파를 센싱하는 타측의 주파수 채널을 제2 센싱부로 설정한다.Among the six electrode channels, a frequency channel on one side for sensing a low frequency is set as a first sensing unit, and a frequency channel on the other side for sensing a high frequency relative to a first sensing unit is set as a second sensing unit.

가장 높은 주파수 영역을 센싱하는 최단길이 채널에 해당하는 제2 센싱부와 가장 낮은 주파수 영역을 센싱하는 최장길이 채널에 해당하는 제1 센싱부 간의 길이비는 길이비는 1:1.5~6.5 의 범위이다. The length ratio between the second sensing unit corresponding to the shortest-length channel sensing the highest frequency region and the first sensing unit corresponding to the longest-length channel sensing the lowest frequency region is in the range of 1:1.5 to 6.5. .

바람직하게는 최단길이 채널과 최장길이 채널 간의 비는 1:4 의 범위일 수 있다. 이는 1:3인 경우는 주파수 커버범위가 고주파수 쪽에 치우쳐질 수 있으며, 1:5 인 경우는 저주파수 쪽에 치우쳐질 수 있다는 점에 기인한다.Preferably, the ratio between the shortest length channel and the longest length channel may be in the range of 1:4. This is due to the fact that in the case of 1:3, the frequency coverage may be biased toward the high frequency side, and in the case of 1:5, the frequency coverage may be biased toward the lower frequency side.

제1 센싱부 상에서 전극 채널의 길이가 감소하는 비율을 a라 설정하고, 제2 센싱부 상에서 전극 채널의 길이가 감소하는 비율을 b라 설정하는 경우에, 상기 a,b 간의 비인 b/a 는 1보다 작은 범위로 결정되는 것이 바람직하다.When the ratio at which the length of the electrode channel decreases on the first sensing unit is set to a and the ratio at which the length of the electrode channel decreases on the second sensing unit is set to b, b/a, which is the ratio between a and b, is It is preferably determined in a range less than 1.

이를 통해서, 전극 채널의 길이가 감소하는 비율이 a로 설정된 제1 센싱부에서 저주파를 센싱하는 성능이 더 개선될 수 있다.Through this, the performance of sensing a low frequency in the first sensing unit in which the ratio at which the length of the electrode channel decreases is set to a may be further improved.

본 발명에 따른 음성 센서는 압전 타입의 공진형 소자인바 품질계수(Quality factor)는 중요한 특징에 해당한다.Since the voice sensor according to the present invention is a piezoelectric type resonance element, a quality factor corresponds to an important feature.

공진에서의 Q(Quality factor)는 주파수 선택 특성품질을 의미한다. 공진주파수점에서 양쪽으로 3dB, 즉 반으로 감쇄되는 지점의 주파수간의 차이를 소위 3dB 대역폭이라고 하는데, 공진주파수를 3dB 대역폭으로 나눈 것이 바로 Q값이다. 즉, 공진 특성이 샤프할수록 3dB 대역폭은 좁아질 것이고, 결국 Q값은 커진다. 한편으로는, Q가 낮으면 대역이 넓다는 의미일 수 있다.Q (Quality factor) in resonance means the frequency selection characteristic quality. The difference between the frequencies at the point at which the resonance frequency is attenuated by 3 dB, ie, half, is called the so-called 3 dB bandwidth, and the Q value is the resonance frequency divided by the 3 dB bandwidth. That is, the sharper the resonance characteristic, the narrower the 3dB bandwidth will be, and eventually the Q value will increase. On the one hand, if Q is low, it may mean that the band is wide.

본 발명에서는 각 채널의 3dB 대역폭을 50Hz 이상으로 넓혀서 Q값을 낮추는 방향으로 설정함으로써 200Hz~4kHz 범위 내에서 기존 MEMS 기반 마이크로폰보다 높은 민감도로 고르게 센싱하게 한다. 기존 MEMS 기반 마이크로폰은 ROIC 부분의 영향을 제외한 순수 마이크로폰 센서의 성능으로, 약 94SPL의 20~20000Hz의 화이트노이즈 조건에서 -100dB의 성능을 의미하며, 본 발명에 따른 유연 압전 기반 음성인식 센서는 200~4kHz의 90% 이상 범위에서 기존의 MEMS 기반 마이크로폰의 성능치를 나타내는 -100dB보다 높은 성능을 갖는 것을 의미한다.In the present invention, the 3dB bandwidth of each channel is set in the direction of lowering the Q value by increasing the bandwidth to 50Hz or more, so that sensing is performed evenly with higher sensitivity than the conventional MEMS-based microphone within the range of 200Hz to 4kHz. The existing MEMS-based microphone is the performance of a pure microphone sensor excluding the effect of the ROIC part, and means a performance of -100dB under a white noise condition of 20~20000Hz of about 94SPL, and the flexible piezoelectric voice recognition sensor according to the present invention is 200~ It means that it has a performance higher than -100dB, which represents the performance value of the existing MEMS-based microphone in the range of 90% or more of 4kHz.

압전계수보다 더 효과적인 성능을 나타내는 것이 전기기계결합계수(electromechanical coupling factor) K와 전기기계품질계수(electromechanical quality factor) Q 가 있다.There are electromechanical coupling factor K and electromechanical quality factor Q that show more effective performance than piezoelectric coefficient.

품질계수는 전기적 품질계수(Qe)와 기계적 품질계수(Qm)가 있다.There are two types of quality factors: electrical quality factor (Qe) and mechanical quality factor (Qm).

Qe는 전기적 손실(tanδ)의 역수를 뜻하는 반면에, Qm은 진동체의 기계적 진동 흡수(damping) 때문에 나타난 응력에 대한 변위의 집중도를 나타낸다. 레조네이터용 압전 재료는 Qm값이 1500 이상인 특성을 요구하는 반면, 필터용은 Qm값이 400~600 정도인 값을, 압전스피커는 Qm값이 80 이하인 특성과 고유전율에 재료개발의 초점이 맞추어져 있다.Qe is the reciprocal of the electrical loss (tanδ), while Qm is the concentration of the displacement due to the mechanical vibration damping of the vibrating body. Piezoelectric materials for resonators require a Qm value of 1500 or more, whereas for filters, a Qm value of 400 to 600, and piezoelectric speakers have a Qm value of 80 or less, and the material development focuses on high dielectric constant. have.

본 발명에 따른 음성 센서의 경우엔 멀티 채널로서 총 7개의 채널을 가질 수 있는데, Q값은 18 내지 28 사이의 값을 가지고 있다. 상기의 결과를 토대로 하여 Q값은 35 이하의 값을 유지하는 것이 바람직할 수 있다.In the case of the voice sensor according to the present invention, it is possible to have a total of 7 channels as a multi-channel, and the Q value has a value between 18 and 28. Based on the above results, it may be desirable to maintain the Q value of 35 or less.

상기의 기계적 품질계수는 전기적 에너지와 기계적 에너지 간의 교환시 축적되는 에너지의 비율을 나타내는 것으로서, Permanent dipole들의 이동시 발생하는 인가 전압과의 위상 차이에 기인하게 되는데, 손실은 대부분 열에너지의 형태로 발산되고, 압전체가 공진주파수에서 일으키는 공진의 Sharpness를 결정한다.The mechanical quality factor above represents the ratio of the energy accumulated during the exchange between electrical energy and mechanical energy, and is due to the phase difference between the applied voltage generated when the permanent dipoles move, and the losses are mostly dissipated in the form of thermal energy, The piezoelectric material determines the sharpness of the resonance at the resonance frequency.

기계적 품질계수 값이 낮으면 일반적으로 열화(Degradation)가 빨리 발생되고, 전기적 품질계수와는 다른 값을 갖는다.If the value of the mechanical quality factor is low, degradation generally occurs quickly and has a different value from the electrical quality factor.

도 14는 본 발명의 일 실시예에 따른 음성인식 센서의 제작 형태를 보이는 이미지이다.14 is an image showing a fabrication form of a voice recognition sensor according to an embodiment of the present invention.

도 14를 참조하면, 빈 공간이 형성된 PCB 상에 PET을 이용하여 압전 물질인 PZT를 적층한다. 상기 압전물질은 커브드 형태로 이루어진 복수 개의 주파수 채널을 이루는 것으로서 상기 빈 공간 상에 대응하도록 형성된다. 한편, Au 전극은 상기 압전 물질의 양단에 전기적으로 접속되는 과정을 통해 PCB 상면 상에 형성된다.Referring to FIG. 14, a piezoelectric material PZT is laminated using PET on a PCB in which an empty space is formed. The piezoelectric material forms a plurality of frequency channels in a curved shape and is formed to correspond to the empty space. Meanwhile, the Au electrode is formed on the upper surface of the PCB through a process of being electrically connected to both ends of the piezoelectric material.

사각형 모양의 투명한 플라스틱 기판인 PET 상에 PZT 및 PU 접착제가 위치해 있고, PZT 로부터 발생하는 전기적 에너지를 Au 전극을 통해서 수집하게 된다. 그리고, 이를 보호하는 보호층(Passivation layer)을 추가적으로 증착해서 소자를 보호하는 역할을 하게 된다.PZT and PU adhesives are located on PET, which is a square-shaped transparent plastic substrate, and electrical energy generated from PZT is collected through Au electrodes. In addition, a passivation layer that protects it is additionally deposited to protect the device.

한편, PET, UV 감수성 PU 접착제, PZT, 보호층은 투명한 재질로 이루어질 수 있다. Au 전극은 육안으로는 전극의 색상이 금색으로 보일 수 있다.Meanwhile, PET, UV-sensitive PU adhesive, PZT, and protective layer may be made of a transparent material. In the Au electrode, the color of the electrode may be seen as gold to the naked eye.

도 15는 화자 인식의 컨셉을 개략적으로 도시하는 도면이다.15 is a diagram schematically showing the concept of speaker recognition.

도 15를 참조하면, 화자(speaker)의 음성에 의해 유연 압전 음성인식 센서(f-PAS)가 진동하게 되고, 그 진동으로 인해 출력 전압이 발생하게 된다.Referring to FIG. 15, the flexible piezoelectric voice recognition sensor f-PAS vibrates by the voice of a speaker, and an output voltage is generated due to the vibration.

출력 전압 신호를 기계 학습 과정(machine learning process)을 통해서 트레이닝 발화에 대한 데이터베이스를 생성할 수 있다.The output voltage signal can be used to generate a database of training utterances through a machine learning process.

이후, 테스트 발화를 입력하면 트레이닝된 데이터베이스에서 유사한 사람을 선택하여 화자를 인식(Speaker Recognition)할 수 있게 된다.Thereafter, when a test speech is input, a speaker recognition can be performed by selecting a similar person from the trained database.

일 예로, 후술하는 본 발명의 음성 인식 방법을 적용하여, 트레이닝 데이터로서 40명의 화자가 각각 70번씩 발화하여 총 2800번의 학습을 진행하고(전체 데이터의 90%), 테스트 데이터로서 40명의 화자가 각각 7번씩 발화하여 총 280번의 테스트를 진행한 결과(전체 데이터의 10%), 97.5%의 인식률을 달성함이 확인되었다.As an example, by applying the speech recognition method of the present invention to be described later, as training data, 40 speakers uttered 70 times each to perform a total of 2800 learning (90% of the total data), and 40 speakers as test data As a result of conducting a total of 280 tests by firing 7 times (10% of the total data), it was confirmed that a recognition rate of 97.5% was achieved.

도 16은 본 발명의 일 실시예에 따른 음성인식 센서와 이의 아웃풋 신호 특성을 도시하는 도면이다.16 is a diagram showing a voice recognition sensor and an output signal characteristic thereof according to an embodiment of the present invention.

도 16을 참조하면, 우측은 본 발명에 따라 제작된 음성인식 센서로서 7개의 채널을 포함하는 음성인식 센서를 도시하고, 우측은 음성인식 센서에 포함된 각 채널별로 아웃풋 신호를 도시한다.Referring to FIG. 16, the right side shows a voice recognition sensor including 7 channels as a voice recognition sensor manufactured according to the present invention, and the right side shows an output signal for each channel included in the voice recognition sensor.

도 17은 본 발명의 일 실시예에 따른 음성인식 센서에서 각 채널별 민감도를 도시하는 그래프이다.17 is a graph showing the sensitivity of each channel in the voice recognition sensor according to an embodiment of the present invention.

도 17을 참조하면, 음성인식 센서에 포함된 복수의 채널은 주파수 영역에 걸쳐서 서로 상이한 민감도, 즉 상대 응답(Relative Response)를 가짐을 알 수 있다.Referring to FIG. 17, it can be seen that a plurality of channels included in the voice recognition sensor have different sensitivities, that is, relative responses, over a frequency domain.

따라서, 본 발명에서는 주파수 영역에 따라서 복수의 채널 중에서 민감도가 높은 2개 또는 3개의 채널을 선택하여 선택된 채널에서 센싱된 신호만을 이용하여 음성인식을 수행하도록 구성할 수 있다.Accordingly, in the present invention, two or three channels with high sensitivity are selected from among a plurality of channels according to a frequency domain, and voice recognition may be performed using only a signal sensed in the selected channel.

도 18은 본 발명의 일 실시예에 따라 화자인식에 사용되는 채널을 도시하는 그래프이다.18 is a graph showing a channel used for speaker recognition according to an embodiment of the present invention.

도 18을 참조하면, 가로축으로 100Hz 에서 4000Hz에 이르는 가청 주파수 영역에서 주파수가 변함에 따라 가장 높은 상대 응답(dB)인 민감도를 갖는 2개의 채널을 선택한 것을 도시한다. 예를 들어, 약 120Hz 성분은 Ch3 및 Ch6을 이용하고, 약 510Hz 성분은 Ch1 및 Ch2를 이용하고, 약 1kHz 성분은 Ch4 및 Ch5를 이용하고, 약 2kHz 성분은 Ch2 및 Ch7을 이용하고, 약 4kHz 성분은 Ch1 및 Ch7을 이용할 수 있다. 이와 같이, 본 발명의 실시예에 따르면, 주파수가 변함에 따라 해당 주파수에서 높은 민감도를 가진 2개의 채널을 이용할 수 있다. Referring to FIG. 18, it is shown that two channels having the highest relative response (dB) sensitivity are selected as the frequency changes in an audible frequency region ranging from 100 Hz to 4000 Hz on the horizontal axis. For example, about 120 Hz components use Ch3 and Ch6, about 510 Hz components use Ch1 and Ch2, about 1 kHz components use Ch4 and Ch5, about 2 kHz components use Ch2 and Ch7, and about 4 kHz. Components Ch1 and Ch7 can be used. As described above, according to an embodiment of the present invention, as the frequency changes, it is possible to use two channels with high sensitivity at the corresponding frequency.

도 19는 화자인식에 사용되는 채널의 수에 따른 민감도를 도시하는 비교 그래프이다.19 is a comparison graph showing sensitivity according to the number of channels used for speaker recognition.

도 19를 참조하면, 비교 그래프는 복수의 채널 중에서 민감도가 가장 높은 채널(The highest)의 민감도와, 민감도가 두 번째로 높은 채널(The second highest)의 민감도와, 주파수가 변함에 따라 민감도가 가장 높은 2개 채널의 평균(Two-averaging)과, 음성인식 센서에 포함된 모든 채널(예를 들어 7개의 채널)의 평균(Seven-averaging)을 도시한다.Referring to FIG. 19, the comparison graph shows the sensitivity of the channel with the highest sensitivity among a plurality of channels (The highest), the sensitivity of the channel with the second highest sensitivity, and the sensitivity as the frequency changes. It shows the average of the two high channels (Two-averaging) and the average of all channels (eg, 7 channels) included in the voice recognition sensor (Seven-averaging).

도 20은 원본 음성과 f-PAS를 거친 음성을 비교하는 도면이다.20 is a diagram for comparing an original voice and a voice that has passed through f-PAS.

도 20을 참조하면, 상단의 그래프는 좌측에서부터 각각 원본 음성 신호(Original Sound Signal), 원본 음성 신호의 FFT(fast Fourier transform) 결과(Original Sound FFT), 그리고 원본 음성 신호의 STFT(short-time Fourier transform) 결과(Original Sound STFT)를 도시한다.Referring to FIG. 20, from the left, the upper graph shows an original sound signal, a fast Fourier transform (FFT) result of the original sound signal (Original Sound FFT), and a short-time Fourier transform (STFT) of the original sound signal, respectively, from the left. transform) shows the result (Original Sound STFT).

또한, 하단의 그래프는 좌측에서부터 각각 본 발명에 따른 유연 압전 음성인식 센서(f-PAS) 신호(f-PAS Signal), f-PAS 신호의 FFT 결과(f-PAS FFT), 그리고 f-PAS 신호의 STFT 결과(f-PAS STFT)를 도시한다.In addition, the graph at the bottom is the flexible piezoelectric voice recognition sensor (f-PAS) signal (f-PAS Signal) according to the present invention from the left, the FFT result of the f-PAS signal (f-PAS FFT), and the f-PAS signal. The STFT result (f-PAS STFT) is shown.

도 20에서 상단의 원본 음성 신호와, 하단의 f-PAS 신호를 비교하면 주파수 응답이 flat하지 않아 약간의 차이는 있지만 큰 흐름은 유사함을 알 수 있다.In FIG. 20, when comparing the original voice signal at the top and the f-PAS signal at the bottom, it can be seen that the frequency response is not flat, so there is a slight difference, but the large flow is similar.

도 21은 데이터 처리 알고리즘을 도시하는 도면이다.21 is a diagram showing a data processing algorithm.

도 21을 참조하면, 본 발명에 따른 음성인식을 위한 데이터 처리는 크게 화자 트레이닝 과정(speaker training process)(2110)과 화자 테스트 과정(speaker testing process)(2120)을 포함할 수 있다. Referring to FIG. 21, data processing for speech recognition according to the present invention may largely include a speaker training process 2110 and a speaker testing process 2120.

화자 트레이닝 과정(2110)에서는 음성인식 센서(Acoustic sensor)(2111)를 통해 트레이닝 신호(training signal)를 입력받으면 음성인식 센서(2111)에 포함된 각 채널별로 STFT를 수행한 후(2112), STFT 특징을 추출하고(2113), 트레이닝 GMM(Gaussian Mixture Modeling)(2114)을 거쳐 GMM 스코어를 계산한다(2115). 그러나 화자 인식을 위한 알고리즘이 반드시 GMM으로 제한되는 것은 아니며, 예를 들어 HMM(Hidden Markov Model) 또는 SVM(Support Vector Machine) 기법 등과 같은 다양한 머신러닝 기반의 화자 인식 알고리즘이 적용될 수 있다.In the speaker training process 2110, when a training signal is input through the acoustic sensor 2111, STFT is performed for each channel included in the voice recognition sensor 2111 (2112), and then STFT Features are extracted (2113), and a GMM score is calculated through training Gaussian Mixture Modeling (GMM) 2114 (2115). However, the algorithm for speaker recognition is not necessarily limited to GMM, and various machine learning-based speaker recognition algorithms such as HMM (Hidden Markov Model) or SVM (Support Vector Machine) techniques can be applied.

여기서, 화자 트레이닝 과정(2110)은 n 개의 주파수 분리 채널 중 해당 주파수에서 최대 민감도를 나타내는 m개의 주파수 분리 채널을 이용하여 화자 트레이닝을 수행할 수 있다(n, m은 자연수, m

Figure 112018116038473-pat00001
n). 여기서, 복수의 주파수 분리 채널은 100Hz 내지 8Khz 대역의 주파수를 가지며, 복수의 주파수 분리 채널은 채널의 길이가 증가할수록 낮은 주파수를 감지하는 것일 수 있다.Here, the speaker training process 2110 may perform speaker training using m frequency separation channels representing the maximum sensitivity at a corresponding frequency among n frequency separation channels (n, m are natural numbers, m
Figure 112018116038473-pat00001
n). Here, the plurality of frequency separation channels may have a frequency in the 100Hz to 8Khz band, and the plurality of frequency separation channels may sense a lower frequency as the length of the channel increases.

화자 테스트 과정(2120)에서는 음성인식 센서(Acoustic sensor)(2121)를 통해 테스트 신호(Test signal)를 입력받으면 음성인식 센서(2121)에 포함된 각 채널별로 STFT를 수행한 후(2122), STFT 특징을 추출하고(2123), GMM 스코어를 계산(2115)하여 화자를 인식할 수 있다.In the speaker test process 2120, when a test signal is input through the acoustic sensor 2121, STFT is performed for each channel included in the voice recognition sensor 2121 (2122), and then STFT A speaker can be recognized by extracting features (2123) and calculating a GMM score (2115).

또한, 화자 테스트 과정(2120)에서는 트레이닝되지 않은 테스트 신호가 입력되면 우도(likelihood)가 가장 높은 사람을 화자로 인식할 수 있다.In addition, in the speaker test process 2120, when an untrained test signal is input, a person having the highest likelihood may be recognized as a speaker.

일 예로, 트레이닝 데이터로서 40명의 화자가 각각 70번씩 발화하여 총 2800번의 화자 트레이닝 과정을 진행하여 데이터베이스를 구축한다(전체 데이터의 90%). 도 22를 참조하면, 2800번의 발화에 대해 화자 트레이닝 과정을 거쳐 발화의 특성을 분포로 하여 도표로 나타낸 것이다(t-SNE plot).For example, as training data, 40 speakers speak 70 times each, and a total of 2800 speaker training processes are performed to build a database (90% of the total data). Referring to FIG. 22, a diagram showing the characteristics of the utterances as a distribution through a speaker training process for 2800 utterances (t-SNE plot).

또한, 테스트 데이터로서 트레이닝되지 않은 40명의 화자가 각각 7번씩 발화하여 총 280번의 화자 테스트 과정을 진행하여 화자를 인식할 수 있다(전체 데이터의 10%). 도 23을 참조하면, 그래프의 가로축은 발화를 특정 시간 구간으로 나눈 프레임(Frame)을 나타내고, 세로축은 화자 인식 과정에서 프레임에 따른 화자 인식 결과(Estimated Label)를 나타낸다. 여기서, 프레임이 증가할수록 화자를 정확하게 인식할 수 있음을 알 수 있다.In addition, as test data, 40 untrained speakers speak 7 times each, and a total of 280 speaker test processes are performed to recognize the speaker (10% of the total data). Referring to FIG. 23, a horizontal axis of the graph represents a frame obtained by dividing a speech into a specific time section, and a vertical axis represents a speaker recognition result (Estimated Label) according to a frame in a speaker recognition process. Here, it can be seen that as the number of frames increases, the speaker can be accurately recognized.

상술한 음성인식 방법에 따라 화자 인식을 수행하는 기술은 음성인식 기반의 사물 인터넷(IoT)이 적용된 음성 센서 시스템, 스마트홈 가전 장치 및 휴대 단말 장치 등에 널리 적용될 수 있다.The technology for performing speaker recognition according to the above-described voice recognition method can be widely applied to a voice sensor system to which the Internet of Things (IoT) based on voice recognition is applied, a smart home home appliance, and a portable terminal device.

도 24 내지 도 26은 종래기술과 본 발명에 따른 화자 인식률에 에러율을 비교하는 그래프이다.24 to 26 are graphs comparing an error rate with a speaker recognition rate according to the prior art and the present invention.

도 24 내지 도 26을 참조하면, 기존의 마이크로폰(Commercial MEMS Mic.)의 경우 화자 인식률이 90% 정도에 그치는데 반해(즉, 에러률이 10%), 본 발명에 따른 복수의 채널을 포함하는 유연 압전 음성인식 센서의 경우 기존의 마이크로폰에 비해 높은 화자 인식률을 달성할 수 있다. 24 to 26, in the case of a conventional microphone (Commercial MEMS Mic.), whereas the speaker recognition rate is only about 90% (that is, the error rate is 10%), including a plurality of channels according to the present invention In the case of a flexible piezoelectric voice recognition sensor, a higher speaker recognition rate can be achieved compared to conventional microphones.

또한, 유연 압전 음성인식 센서에 포함된 모든 채널의 신호를 이용하는 경우(Seven-averaging)에는 화자 인식률이 92.7% 정도인데(즉, 에러률이 7.3%), 민감도가 높은 2개의 채널의 신호를 이용하는 경우(Two-averaging)에는 화자 인식률이 97.5%로서(즉, 에러률이 2.5%), 2개의 채널의 신호를 이용하는 경우에 화자 인식률을 크게 개선할 수 있다.In addition, in the case of using signals from all channels included in the flexible piezoelectric speech recognition sensor (seven-averaging), the speaker recognition rate is about 92.7% (that is, the error rate is 7.3%), and signals of two channels with high sensitivity are used. In the case (two-averaging), the speaker recognition rate is 97.5% (that is, the error rate is 2.5%), and the speaker recognition rate can be greatly improved when signals of two channels are used.

또한, 도 26을 참조하면, 유연 압전 음성인식 센서에 포함된 복수의 채널 중 민감도가 가장 높은 채널의 신호, 또는 민감도가 두 번째로 높은 채널의 신호만을 이용하여 화자를 인식하는 경우에 비해, 이 두 신호를 이용하는 경우에 보다 높은 화자 인식률을 달성할 수 있음을 알 수 있다.In addition, referring to FIG. 26, compared to a case where a speaker is recognized using only a signal of a channel with the highest sensitivity or a signal of a channel with the second highest sensitivity among a plurality of channels included in the flexible piezoelectric speech recognition sensor, It can be seen that a higher speaker recognition rate can be achieved when using both signals.

본 발명은 인간의 청각기관인 달팽이관을 모사하여 음성인식을 구현하는 것에 착안한 것으로서, 주파수 분리를 위한 기존 마이크로폰, ADC, DSP 조합 방식이 아닌 유연 압전 음성 센서 기반의 간편한 회로로 전력 소비를 크게 줄일 수 있다. 또한, 이에 호환되는 효율적인 인식 알고리즘을 구현하게 된다면 인간의 자연스런 언어를 높은 선택성과, 민감도, 감지속도 및 안정성을 가지고 인식해낼 수 있다.The present invention focuses on implementing speech recognition by simulating the cochlear, which is a human auditory organ, and a simple circuit based on a flexible piezoelectric voice sensor, rather than a conventional microphone, ADC, and DSP combination method for frequency separation, can significantly reduce power consumption. have. In addition, if an efficient recognition algorithm compatible with this is implemented, human natural language can be recognized with high selectivity, sensitivity, detection speed and stability.

본 기술을 실생활에 적용할 수 있는데, 예를 들어 운전 중에 음성으로 안전하게 차량 정보 시스템 사용을 상시 대기 상태에서 음성으로만 가능하게 하며, 이를 통해 TV, 청소기, 세탁기, 에어컨 등을 원거리에서 사람의 목소리로만 저전력 제어를 할 수 있게 된다. 특히, 손발이 불편한 장애인 및 환자들의 케어링(Caring)이나 음성을 등록함으로써 엘리베이터 등의 시설을 보다 편리하게 사용할 수 있다. This technology can be applied in real life. For example, it is possible to safely use the vehicle information system by voice while driving, only by voice while in a standby state. Through this, TV, vacuum cleaner, washing machine, air conditioner, etc. Low-power control can only be performed. In particular, it is possible to use facilities such as elevators more conveniently by registering caring or voices of disabled and patients with discomfort in hands and feet.

본 기술은 IT-NT-BT-소재 전반을 아우르는 주제로서 자연으로부터 영감을 얻어 인간의 삶을 풍요롭게 하는 융합적 기술이다. 화자의 음성을 통해 적은 전력으로 상시 대기 상태에서 신원, 심리, 건강상태, 언어능력 등을 파악할 수 있어 개인 맞춤형 서비스 제공이 가능해지고, 보안, 금융, 의료 교육 등의 분야에 이르기까지 센서의 전 분야에 활용될 수 있게 한다. This technology is a fusion technology that enriches human life by taking inspiration from nature as a theme that encompasses the entire IT-NT-BT-material. Through the speaker's voice, it is possible to grasp the identity, psychology, health status, language ability, etc. in the normal standby state with little power, enabling personalized service provision, and all fields of sensors ranging from fields such as security, finance, and medical education. It can be used for

특히, 빅데이터에 음성 패턴을 검출후 분석 및 저장하여 정서 상태를 분석하고 피드백 시스템을 통해 심리적인 안정을 이끌어내는 등 모바일 헬스케어로의 응용이 가능하고, 음성인증 및 화자식별을 통한 보안 시스템이 강화되어져 개인정보 및 사생활 보호에 도움이 될 것으로 기대된다. In particular, it can be applied to mobile healthcare, such as analyzing and storing voice patterns in big data, analyzing and storing emotional states, and bringing out psychological stability through a feedback system, and a security system through voice authentication and speaker identification. It is expected to be strengthened to help protect personal information and privacy.

본 발명은 상기의 특징들을 통해 음성인식 기반의 사물 인터넷(IoT,internet of Things) 및 모바일용 초소형 음성 센서 시스템을 구현할 수 있다.The present invention can implement a voice recognition-based Internet of Things (IoT) and a ultra-small voice sensor system for mobiles through the above features.

본 발명에 따른 음성 센서는 TV와 냉장고를 포함하는 스마트홈 가전, 음성 비서, 음성보안 어플리케이션 쪽에서 활용이 가능하다.The voice sensor according to the present invention can be used in smart home appliances including TVs and refrigerators, voice assistants, and voice security applications.

본 발명은 유연한 기판 상에 고효율 무기 압전 소재로 만들어진 음성인식 센서가 인간 음성의 스펙트럼을 디지털 샘플링 및 음향신호 처리 이전에 압전 소재를 이용하여 음성으로 인한 기계적 진동에너지를 주파수 별로 각각 다른 위치에 분리한 뒤 전기적인 신호로 변환하여 각각 주파수 별로 평행하게 음성신호를 처리한다.In the present invention, a voice recognition sensor made of a high-efficiency inorganic piezoelectric material on a flexible substrate separates the mechanical vibration energy from the voice at different positions for each frequency by using the piezoelectric material before digital sampling and processing the sound signal. After converting it into an electrical signal, the voice signals are processed in parallel for each frequency.

본 발명에서는 복수의 주파수 분리 채널을 실로폰 모양을 닮은 인공 달팽이 관의 형상을 이루게 하고, 상기 복수의 주파수 분리 채널의 크기가 달라짐에 따라 고주파음과 저주파음이 공명하는 위치가 달라져서 물리적으로 인간의 음성을 분리하게 한다. 여기에서, 분리되는 각각의 음향은 주파수 별로 아날로그 회로를 통해 증폭되고 필터링을 거친후 디지털 신호로 전환되어 처리된다. 이 과정은 기존의 마이크로폰, ADC, DSP 조합을 이용한 방식보다 전력 소모가 크게 줄어들게 된다.In the present invention, a plurality of frequency separation channels form a shape of an artificial cochlear resembling a xylophone shape, and as the sizes of the plurality of frequency separation channels are changed, the positions at which high-frequency sounds and low-frequency sounds resonate are changed. To separate. Here, each separated sound is amplified through an analog circuit for each frequency, filtered, and converted into a digital signal for processing. This process significantly reduces power consumption compared to the method using a conventional microphone, ADC, and DSP combination.

본 발명은 플렉서블한 박막 상에 결합된 압전 음성인식 센서를 제공하는 것으로서, 의복 등에 부착한 상태에서도 사용할 수 있다. 즉, 의복 상에 부착된 상태에서 주위에서 쉽게 발생되는 음파, 초음파 영역의 물리적인 에너지를 수확하여 전기에너지로 변환하는 기술로의 응용이 가능하다. The present invention provides a piezoelectric voice recognition sensor coupled to a flexible thin film, and can be used even in a state attached to clothing or the like. In other words, it can be applied to a technology that harvests physical energy in the area of sound waves and ultrasonic waves that are easily generated around while attached to clothing and converts them into electrical energy.

일반적으로 '어디에나 존재하는' 유비쿼터스 네트워크의 실현을 위해서는 '어디에나 존재하며 작동하는' 유비쿼터스 전원의 존재가 필수 불가결하다. 한편, 도처에 존재하는 유비쿼터스 네트워크 구성요소의 전원은 충전을 필요로 하지 않는 자급자족 형태이어야 한다. 즉, 발전능력 및 축전능력이 공히 구비되어야 한다.In general, the existence of a ubiquitous power source that exists and works everywhere is indispensable for the realization of a ubiquitous network that exists anywhere. On the other hand, the power of ubiquitous network components that exist everywhere should be in a self-sufficient form that does not require charging. That is, both power generation capability and power storage capability must be provided.

상술한 바와 같이, 본 발명에 따른 압전 음성인식 센서는 사다리꼴 형태로 이루어진 복수의 주파수 분리 채널을 이용하여 감지되는 음성을 주파수에 따라 상기 복수의 채널을 통해 분리하는 것과 동시에 상기 분리된 음성 신호를 압전 소자를 통해 기계적 진동 신호에서 전기적 신호로 변환하게 하여 인식하게 한다.As described above, the piezoelectric speech recognition sensor according to the present invention separates voices detected using a plurality of frequency separation channels in a trapezoidal shape through the plurality of channels according to frequencies and simultaneously piezoelectrically separates the separated speech signals. Through the device, the mechanical vibration signal is converted into an electrical signal to be recognized.

이상에서 본 발명의 바람직한 실시 예에 대하여 설명하였으나, 본 발명은 상술한 특정의 실시 예에 한정되지 아니한다. 즉, 본 발명이 속하는 기술분야에서 통상의 지식을 가지는 자라면 첨부된 특허청구범위의 사상 및 범주를 일탈함이 없이 본 발명에 대한 다수의 변경 및 수정이 가능하며, 그러한 모든 적절한 변경 및 수정의 균등물들도 본 발명의 범위에 속하는 것으로 간주되어야 할 것이다.Although the preferred embodiment of the present invention has been described above, the present invention is not limited to the specific embodiment described above. That is, a person of ordinary skill in the technical field to which the present invention pertains can make a number of changes and modifications to the present invention without departing from the spirit and scope of the appended claims, and all such appropriate changes and modifications It should be considered that equivalents are also within the scope of the present invention.

Claims (11)

복수 개의 주파수 채널을 구비하는 음성인식 센서를 이용한 음성인식 방법에 있어서,
주파수에 따라서 상기 복수 개의 주파수 채널 중에서 민감도가 높은 2개 또는 3개의 주파수 채널을 선택하여 선택된 주파수 채널에서 조합한 신호를 이용하여 화자 인식을 수행하며,
상기 복수 개의 주파수 채널은 양측 가장자리 측단을 연속적으로 연결하는 경우에 커브드(curved) 곡면을 이루고, 최단 길이 주파수 채널에서 최장 길이 주파수 채널로 갈수록 상기 커브드 곡면의 기울기 값이 증가하며,
상기 복수 개의 주파수 채널은 서로 겹치는 주파수 영역을 센싱하며,
상기 복수 개의 주파수 채널 중 적어도 하나의 3dB 대역폭을 50Hz 이상으로 넓혀서 채널의 품질계수를 35 미만으로 낮추어 200Hz~4kHz 주파수 영역을 높은 민감도로 센싱하는 것을 특징으로 하는 음성인식 방법.
In the voice recognition method using a voice recognition sensor having a plurality of frequency channels,
Depending on the frequency, two or three frequency channels with high sensitivity are selected among the plurality of frequency channels, and speaker recognition is performed using a signal combined from the selected frequency channel,
The plurality of frequency channels form a curved surface when both edge sides are connected continuously, and the slope value of the curved surface increases from the shortest length frequency channel to the longest frequency channel,
The plurality of frequency channels sense a frequency region overlapping each other,
A voice recognition method, characterized in that the 3dB bandwidth of at least one of the plurality of frequency channels is increased to 50Hz or more to lower the quality factor of the channel to less than 35 to sense a frequency range of 200Hz to 4kHz with high sensitivity.
제 1 항에 있어서,
상기 음성인식 센서는 유연 압전 기반 음성인식 센서인 것을 특징으로 하는 음성인식 방법.
The method of claim 1,
The voice recognition method, characterized in that the voice recognition sensor is a flexible piezoelectric-based voice recognition sensor.
제 2 항에 있어서,
상기 음성인식 센서는 압전 물질 및 상기 압전 물질 상에 형성된 전극을 포함하며,
상기 전극은 길이가 서로 상이한 복수의 주파수 분리 채널을 포함하고, 상기 복수의 주파수 분리 채널은 100Hz 내지 8Khz 대역의 주파수를 가지며, 상기 복수의 주파수 분리 채널은 채널의 길이가 증가할수록 낮은 주파수를 감지하는 것을 특징으로 하는 음성인식 방법.
The method of claim 2,
The voice recognition sensor includes a piezoelectric material and an electrode formed on the piezoelectric material,
The electrode includes a plurality of frequency separation channels having different lengths, the plurality of frequency separation channels have a frequency in the 100Hz to 8Khz band, and the plurality of frequency separation channels detect a lower frequency as the length of the channel increases. Voice recognition method, characterized in that.
제 2 항에 있어서,
민감도가 높은 2개 또는 3개 채널의 평균을 이용하여 화자 인식을 수행하는 음성인식 방법.
The method of claim 2,
A speech recognition method that performs speaker recognition using the average of two or three channels with high sensitivity.
제 2 항에 있어서, 상기 음성인식 방법은,
상기 음성인식 센서를 통해 입력받은 트레이닝 신호를 이용하여 화자 트레이닝을 수행하는 화자 트레이닝 과정; 및
상기 음성인식 센서를 통해 입력된 테스트 신호를 이용하여 화자 인식을 수행하는 화자 테스트 과정을 포함하는 음성인식 방법.
The method of claim 2, wherein the voice recognition method,
A speaker training process for performing speaker training using a training signal input through the speech recognition sensor; And
A speech recognition method comprising a speaker test process of performing speaker recognition using a test signal input through the speech recognition sensor.
제 5 항에 있어서,
상기 화자 트레이닝 과정은 n 개의 주파수 분리 채널 중 해당 주파수에서 최대 민감도를 나타내는 m개의 주파수 분리 채널을 이용하여 화자 트레이닝을 수행하며, n 및 m은 자연수이고, m
Figure 112018116038473-pat00002
n인 것을 특징으로 하는 음성인식 방법.
The method of claim 5,
In the speaker training process, speaker training is performed using m frequency separation channels representing maximum sensitivity at a corresponding frequency among n frequency separation channels, n and m are natural numbers, and m
Figure 112018116038473-pat00002
Voice recognition method, characterized in that n.
제 6 항에 있어서,
상기 화자 테스트 과정은 트레이닝되지 않은 테스트 신호가 입력되면 우도(likelihood)가 가장 높은 사람을 화자로 인식하는 것을 특징으로 하는 음성인식 방법.
The method of claim 6,
In the speaker test process, when an untrained test signal is input, a person having the highest likelihood is recognized as a speaker.
제 5 항에 있어서,
상기 화자 트레이닝 과정은 GMM(Gaussian Mixture Modeling) 또는 HMM(Hidden Markov Model) 또는 SVM(Support Vector Machine) 기법을 적용하여 화자 트레이닝을 수행하는 음성인식 방법.
The method of claim 5,
The speaker training process is a speech recognition method for performing speaker training by applying a Gaussian Mixture Modeling (GMM), Hidden Markov Model (HMM), or Support Vector Machine (SVM) technique.
삭제delete 삭제delete 삭제delete
KR1020180144290A 2018-07-19 2018-11-21 Voice Recognition Method using Multiple Channels KR102184932B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20180084185 2018-07-19
KR1020180084185 2018-07-19

Publications (2)

Publication Number Publication Date
KR20200009992A KR20200009992A (en) 2020-01-30
KR102184932B1 true KR102184932B1 (en) 2020-12-01

Family

ID=69322078

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180144290A KR102184932B1 (en) 2018-07-19 2018-11-21 Voice Recognition Method using Multiple Channels

Country Status (1)

Country Link
KR (1) KR102184932B1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006010857A (en) * 2004-06-23 2006-01-12 Nippon Telegr & Teleph Corp <Ntt> Method, device, and program for signal processing, and storage medium with signal processing program stored therein

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100331689B1 (en) * 2000-06-24 2002-04-09 송문섭 Method for speaker adaptive training in speech recognition system
KR102207928B1 (en) * 2014-08-13 2021-01-26 삼성전자주식회사 Audio sensing device and method of acquiring frequency information
KR101718214B1 (en) * 2015-06-09 2017-03-20 한국과학기술원 Low power piezoelectric voice recognition sensor used for IoT

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006010857A (en) * 2004-06-23 2006-01-12 Nippon Telegr & Teleph Corp <Ntt> Method, device, and program for signal processing, and storage medium with signal processing program stored therein

Also Published As

Publication number Publication date
KR20200009992A (en) 2020-01-30

Similar Documents

Publication Publication Date Title
KR101718214B1 (en) Low power piezoelectric voice recognition sensor used for IoT
Jung et al. Flexible piezoelectric acoustic sensors and machine learning for speech processing
Han et al. Machine learning-based self-powered acoustic sensor for speaker recognition
US10225662B2 (en) Audio sensing device and method of acquiring frequency information
US10313799B2 (en) Microphone and method for manufacturing the same
US10284963B2 (en) High performance sealed-gap capacitive microphone
KR20180051189A (en) Auto voice trigger method and audio analyzer employed the same
Ozdogan et al. Modeling and characterization of a pull-in free MEMS microphone
KR102110203B1 (en) Attachable vibration sensor and method for preparing the same
Jung et al. Deep learning-based noise robust flexible piezoelectric acoustic sensors for speech processing
CN108111958A (en) Microphone and its manufacturing method
US11647338B2 (en) Flexible piezoelectric acoustic sensor fabricated integrally with Si as the supporting substrate, voice sensor using thin film polymer and voice sensor with different thickness and voice sensing method using same
KR102126204B1 (en) Voice Recognition Sensor having Multi Frequency Channels with Curved type
KR102184932B1 (en) Voice Recognition Method using Multiple Channels
US10757510B2 (en) High performance sealed-gap capacitive microphone with various gap geometries
KR102400357B1 (en) Voice sensor with different thickness and voice sensing method using same
Sanz-Robinson et al. Large-area electronics: A platform for next-generation human-computer interfaces
KR102505540B1 (en) Voice sensor using thin film polymer
TW202244898A (en) Methods and systems for audio signal generation
Knight Smart speaker, tell me about your acoustic sensor
AU2012354524B2 (en) Method for fabricating frequency assembly-type separating apparatus for cochlear implant
KR102431075B1 (en) Flexible piezoelectric acoustic sensor fabricated integrally with Si as the supporting substrate
CN110738991A (en) Speech recognition equipment based on flexible wearable sensor
İlik MEMS thin film piezoelectric acoustic transducer for cochlear implant applications
US20230239641A1 (en) Method of making mems microphone with an anchor

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant