KR20180087038A - Hearing aid with voice synthesis function considering speaker characteristics and method thereof - Google Patents

Hearing aid with voice synthesis function considering speaker characteristics and method thereof Download PDF

Info

Publication number
KR20180087038A
KR20180087038A KR1020170011226A KR20170011226A KR20180087038A KR 20180087038 A KR20180087038 A KR 20180087038A KR 1020170011226 A KR1020170011226 A KR 1020170011226A KR 20170011226 A KR20170011226 A KR 20170011226A KR 20180087038 A KR20180087038 A KR 20180087038A
Authority
KR
South Korea
Prior art keywords
voice
speech
speaker
phoneme
hearing aid
Prior art date
Application number
KR1020170011226A
Other languages
Korean (ko)
Inventor
홍충식
Original Assignee
주식회사 이엠텍
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 이엠텍 filed Critical 주식회사 이엠텍
Priority to KR1020170011226A priority Critical patent/KR20180087038A/en
Publication of KR20180087038A publication Critical patent/KR20180087038A/en

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/50Customised settings for obtaining desired overall acoustical characteristics
    • H04R25/505Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/16Hidden Markov models [HMM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Abstract

The present invention relates to a hearing aid with a voice synthesis function considering speaker characteristics. Especially, the present invention relates to a voice synthesizing hearing aid which is a hearing aid for a person who has a serious difficulty in hearing for extracting and recognizing a phoneme of a conversation sound, and synthesizing the phoneme again as a voice. Furthermore, the present invention relates to a hearing aid and a hearing method thereof which can easily recognize a speaker by mean of extracting voice characteristics of a speaker, and reflecting the voice characteristics to voice synthesis. The voice synthesis hearing aid comprises: a microphone for collecting at least a voice; a phoneme recognition module for consecutively recognizing a phoneme included in the collected voice; a voice synthesis module for consecutively synthesizing the voice according to a recognized phoneme band; and a speaker characteristics extractor for extracting speaker characteristics of the collected voice. The voice synthesis module reflects the speaker characteristics extracted by the speaker characteristics extractor while synthesizing the voice.

Description

화자 특성을 고려하는 음성합성 기능의 보청기 및 그 보청 방법{HEARING AID WITH VOICE SYNTHESIS FUNCTION CONSIDERING SPEAKER CHARACTERISTICS AND METHOD THEREOF}TECHNICAL FIELD [0001] The present invention relates to a hearing aid having a speech synthesizing function that takes speaker characteristics into account, and a method of hearing a speech synthesizing function.

본 발명은 화자 특성을 고려하는 음성합성 기능의 보청기에 관한 것으로, 특히 중증 난청자를 위한 보청기로서 대화 소리의 음소를 추출, 인식하고 이를 다시 음성으로 합성하여주는 음성합성 보청기에 있어서 화자의 음성 특성을 추출하여 음성합성에 이를 반영하는 방법으로 화자를 더욱 쉽게 인지하게 하여주는 보청기 및 그 보청 방법에 관한 것이다.The present invention relates to a hearing aid having a speech synthesizing function that takes speaker characteristics into consideration, and particularly relates to a speech synthesizing hearing aid which extracts and recognizes phonemes of conversation sounds as hearing aids for severely hearing impaired people and synthesizes them again with speech. The present invention relates to a hearing aid and a method of hearing the same.

보청기는 청력이 약한 자, 즉 난청자를 돕기 위한 기구로서, 간단하게는 마이크로 수집되는 소리를 증폭하는 원리를 이용한다. 즉 청각이 퇴행된 노인들이나 선천적으로 청력을 손실한 대상, 혹은 질병이나 사고 등의 외적인 요인으로 인해 난청을 겪는 대상이 듣는 소리의 크기를 증폭시켜주는 도구이다. 일반적인 보청기는 외부 소리를 단순히 증폭하거나 특정 주파수 대역만을 증폭하는 등의 방식을 사용하는데 이 경우 대화 청취에 불필요한 잡음까지 증폭될 수 있다.A hearing aid is a device for helping a hearing impaired person, that is, a hearing impaired person, and simply uses the principle of amplifying the micro-collected sound. That is, it is a tool that amplifies the volume of the hearing of elderly people who are deaf or hearing loss, hearing loss due to external factors such as illness or accident. A typical hearing aid uses a method such as simply amplifying an external sound or amplifying only a specific frequency band. In this case, unnecessary noise can be amplified to a conversation listening.

즉 보청기 사용자가 대화를 진행할 시, 청취를 원하는 것은 대화 소리이지만 보청기는 사실상 대화 소리와 함께 수집되는 주변 잡음까지 분간 없이 증폭할 수 밖에 없다. 특히 일반인은 작은 소리까지 인식이 가능하여 자연 그대로 선형적인 입출력 상태로 소리가 전달되어도 문제가 없으나, 난청자는 작은 소리를 들을 수가 없어 작은 부분은 크게 만들고 큰 소리는 그대로 전달하는 형태의 신호처리가 필요하다.In other words, when a user of a hearing aid wishes to listen to a conversation, it is a conversation sound, but the hearing aid can not amplify the surrounding noise that is actually collected with the conversation sound. Especially, the public can perceive even small sounds, so there is no problem if the sound is transmitted in a linear input / output state as it is natural. However, the hearing impaired person needs signal processing to transmit small sound Do.

최근의 보청기는 이러한 압축 증폭 기능까지 수행하고 있다. 이러한 보청기는 난청자에게 들을 수 없는 소리를 듣게 해주는 장점이 있으나 상대적으로 신호대 잡음비를 나쁘게 만들어 듣고자 하는 신호의 품질을 저하시키는 역작용도 하게 된다. 이러한 역작용은 장애 정도가 심한 경우에 더 심해지게 되는데 이로 인해 보청기를 착용하더라도 실제로는 신호 품질이 나빠서 대화를 인식하는데 매우 큰 어려움을 겪게되고 또한 큰 잡음속에 살게 되어 이러한 잡음으로 인한 스트레스로 고통을 호소하게 된다. 따라서 현재까지의 보청기는 소리를 잘 알아듣게 한다기보다는 소리를 크게 보정하여 들려주는 것에 그쳤다고 볼 수 있다. 대한민국 등록특허 제10-1551665호에서는 보청기가 주변 환경을 자동으로 인식하여 그 환경에 맞는 디지털 신호처리를 수행하는 것으로 증폭되는 소리의 품질을 높이고 있다. 또한 대한민국 등록특허 제10-1369272호에서는 빔 포밍을 이용하여 주변 잡음을 인식하고 그것만을 감쇄시키는 방향으로 소리의 품질을 높이고 있다. 그러나 여전히 신호(음성) 대 잡음비를 획기적으로 높이기에는 한계가 있다.Modern hearing aids are also performing these compression amplification functions. These hearing aids have the advantage of hearing unheard sound, but they also cause the signal-to-noise ratio to deteriorate, which in turn counteracts the quality of the signal to be heard. This adverse effect is exacerbated when the severity of the disorder is severe. Therefore, even if a hearing aid is worn, the signal quality is actually bad, and it is very difficult to recognize the conversation and also live in a large noise. . Therefore, it can be said that the hearing aids so far have been largely compensated for the sound rather than making it sound familiar. In Korean Patent No. 10-1551665, the hearing aid automatically recognizes the surrounding environment and performs digital signal processing corresponding to the environment, thereby enhancing the quality of amplified sound. In Korean Patent Registration No. 10-1369272, the quality of the sound is improved in the direction of recognizing the ambient noise using beamforming and attenuating it only. However, there is still a limit to dramatically increase the signal (speech) to noise ratio.

본 발명은 상기 종래 기술들이 가지고 있던 문제점에 착안하여 이루어진 것으로, 신호 대 잡음비가 우수한 보청기 및 보청 방법을 제공하는 것을 목적으로 한다.An object of the present invention is to provide a hearing aid having excellent signal-to-noise ratio and a method for hearing aid, which has been made in view of the problems of the prior art.

또한 본 발명은 음성합성 방식을 이용하면서도 화자의 목소리 특성을 반영하여 합성하여, 화자 인식이 용이한 보청기 및 보청 방법을 제공하는 것을 목적으로 한다.Another object of the present invention is to provide a hearing aid and a hearing aid which are easy to recognize a speaker by synthesizing the characteristics of the speaker while using the voice synthesis method.

상기와 같은 목적을 달성하기 위한 본 발명은 실시예에 따라, 음성합성 보청기에 있어서, 적어도 음성을 수집하는 마이크; 수집되는 음성에 포함된 음소를 연속적으로 인식하는 음소인식 모듈; 인식된 음소대로 연속적으로 음성을 합성하여 주는 음성합성 모듈; 및 수집되는 음성의 화자 특성을 추출하는 화자특성 추출기;를 포함하고 음성합성 모듈은 음성의 합성시 화자특성 추출기가 추출한 화자특성을 반영하는 것을 특징으로 한다.According to an aspect of the present invention, there is provided a speech synthesizing hearing aid comprising: a microphone for collecting at least speech; A phoneme recognition module for continuously recognizing phonemes included in a voice to be collected; A speech synthesis module for continuously synthesizing speech according to recognized phonemes; And a speaker characteristic extractor for extracting a speaker characteristic of a voice to be collected, and the voice synthesis module reflects the speaker characteristic extracted by the speaker characteristic extractor during voice synthesis.

또한 본 발명은 실시예에 따라, 상기 음성합성 보청기에 있어서, 음소인식 모듈은 음소인식 판별기와 음소인식 DB를 포함하는 것을 특징으로 한다.According to another embodiment of the present invention, in the speech synthesizing hearing aid, the phoneme recognition module includes a phoneme recognition discriminator and a phoneme recognition DB.

또한 본 발명은 실시예에 따라, 상기 음성합성 보청기에 있어서, 음성합성 모듈은 음성합성기와 음성합성 DB를 포함하는 것을 특징으로 한다.According to another embodiment of the present invention, in the speech synthesizing hearing aid, the speech synthesis module includes a speech synthesizer and a speech synthesis DB.

또한 본 발명은 실시예에 따라, 상기 음성합성 보청기에 있어서, 화자특성 추출기가 추출하는 화자특성은 음성의 피치, 기본 주파수, 고조파 비율 중 적어도 하나를 포함하는 것을 특징으로 한다.Further, the present invention is characterized in that, in the speech synthesizing hearing aid, the speaker characteristic extracted by the speaker characteristic extractor includes at least one of pitch, fundamental frequency, and harmonic ratio of speech.

또한 본 발명은 실시예에 따라, 상기 음성합성 보청기에 있어서, 음소인식 판별기는 HMM 알고리즘으로 음소를 인식하는 것을 특징으로 한다.Further, according to an embodiment of the present invention, in the speech synthesizing hearing aid, the phoneme recognition discriminator recognizes phonemes using an HMM algorithm.

또한 본 발명은 실시예에 따라, 상기 음성합성 보청기에 있어서, 음소인식 판별기는 DNN 알고리즘으로 음소를 인식하는 것을 특징으로 한다.Further, according to the embodiment of the present invention, in the speech synthesizing hearing aid, the phoneme recognition discriminator recognizes phonemes using the DNN algorithm.

또한 본 발명은 실시예에 따라, 음성합성 보청 방법에 있어서, 마이크로 수집되는 음성의 화자특성을 추출하는 단계; 마이크로 수집되는 음성에 포함된 음소를 연속적으로 인식하는 단계; 인식된 음소대로 연속적으로 음성을 합성하되, 추출된 화자특성 대로 음성을 변경하는 단계;를 포함하는 것을 특징으로 한다.According to another aspect of the present invention, there is provided a speech synthesis / hearing aid method comprising the steps of: extracting speaker characteristics of a voice to be micro-collected; Consecutively recognizing phonemes included in the micro-collected speech; And synthesizing the speech consecutively according to the recognized phoneme, and changing the speech according to the extracted speaker characteristic.

본 발명에 따르면, 단순히 음성을 증폭하던 종래의 보청기 방식에서 완전히 벗어나 음소를 인식한 뒤 이를 재합성하는 방식으로 음성을 전달하므로 신호 대 잡음비가 크게 개선된 보청기를 제공할 수 있다.According to the present invention, it is possible to provide a hearing aid having a significantly improved signal-to-noise ratio because voice is transmitted in such a manner that a phoneme is recognized and recombined after completely deviating from a conventional hearing aid system which amplifies speech.

또한 음성을 재합성할 때 화자의 음성 특성을 반영하므로 사용자가 화자가 누구인지를 인식하기에 용이해지는 보청기를 제공할 수 있다.Also, since the voice characteristic of the speaker is reflected when the voice is re-synthesized, it is possible to provide a hearing aid which is easy for the user to recognize who the speaker is.

도 1은 본 발명의 일 실시예에 따른 음성합성 보청기를 개괄적으로 도식화한 구조도,
도 2는 음소인식 과정을 개괄적으로 도식화한 순서도,
도 3은 본 발명의 일 실시예에 따른 음성합성 보청 방법을 도식화한 순서도이다.
FIG. 1 is a schematic diagram of a speech synthesizing hearing aid according to an embodiment of the present invention,
2 is a flowchart schematically illustrating a phoneme recognition process,
3 is a flowchart illustrating a method of synthesizing a voice synthesized speech according to an embodiment of the present invention.

이하, 본 발명에 따른 실시예를 첨부한 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 도면의 가독성을 위하여 도면상 대칭되는 구조이거나 동일한 구성임이 용이하게 확인될 수 있는 경우에는 일부 도면상의 부호를 생략하였다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings. Here, for ease of readability of the drawings, symbols in some drawings are omitted if they are symmetrical in the drawings or can be easily identified as being the same.

도 1은 본 발명의 일 실시예에 따른 음성합성 보청기를 개괄적으로 도식화한 구조도이다. 음성합성 보청기는 실시예에 따라, 마이크(100), 마이크 앰프(200), 음소인식 모듈(300), 음성합성 모듈(400), 스피커 앰프(500), 스피커(600), 화자특성 추출기(700)를 포함할 수 있다. 도 1에 구성요소 간에 지시된 화살표의 순서대로 본 발명의 음성합성 보청기의 기능이 실현된다고 볼 수 있으나 그것이 필요사항인 것은 아니다.1 is a schematic diagram of a speech synthesis hearing aid according to an embodiment of the present invention. The speech synthesis hearing aid includes a microphone 100, a microphone amplifier 200, a phoneme recognition module 300, a speech synthesis module 400, a speaker amplifier 500, a speaker 600, a speaker characteristic extractor 700 ). The function of the speech synthesizing hearing aid of the present invention may be realized in the order of the arrows indicated between the constituent elements in Fig. 1, but this is not a necessity.

먼저 마이크(100)는 주변 소리, 예를 들어 대화음성이나 안내음성 등을 수집한다. 다만 마이크(100)만으로 음성만을 선택적으로 수집하는 것은 매우 어려우며 사실상 주변 잡음이나 반사되어 들어오는 반향까지 수집될 가능성이 크다. 따라서 마이크(100)로 수집된 소리 신호들을 전처리 작업을 통하여 주변 잡음이 저감된, 음성인식에 적합한 신호로 가공할 필요가 있다. 예를 들어 마이크(100)에서 수집된 소리 신호는 마이크 앰프(200)에서 증폭될 수 있다. 또한 그 외에도 음성처리를 더욱 수월하게 할 수 있는 다양한 전처리 작업까지 마이크 앰프(200)에서 담당할 수 있다. 예를 들어 잡음 제거나 대역필터 처리, 음성검출 등의 전처리 작업도 수행될 수 있다. 이러한 전처리 작업은 마이크 앰프(200)가 아닌 후술할 음소인식 모듈(300)에서 수행될 수도 있다.First, the microphone 100 collects surrounding sounds, for example, a conversation voice or a guidance voice. However, it is very difficult to collect only voice selectively using only the microphone 100, and it is highly likely that the noise is collected to the surrounding echoes or reflected echoes. Therefore, it is necessary to process the sound signals collected by the microphone 100 into a signal suitable for speech recognition in which ambient noise is reduced through a preprocessing operation. For example, the sound signal collected by the microphone 100 may be amplified by the microphone amplifier 200. In addition, the microphone amplifier 200 can handle a variety of preprocessing operations that can further facilitate speech processing. For example, preprocessing operations such as noise suppression, band filter processing, and voice detection can be performed. This preprocessing operation may be performed in the phoneme recognition module 300, which will be described later, rather than in the microphone amp 200.

마이크 앰프(200)를 거친 소리 신호는 음소인식 모듈(300)로 입력된다. 음소인식 모듈(300)은 입력받은 소리 신호에 담긴 음성의 음소를 실시간으로, 연속적으로 인식하는 역할을 한다. 즉 연속적인 발성에 의해 완성되는 단어나 문장을 소리 신호로서 받아들이며 그 안에 구성된 음소들을 연속적으로 인식한다. 음소란, 단어 의미의 구별을 가져오는 소리의 최소 단위로서 언어에 종속적인 면을 보인다. 다시 말하면, 언어적으로 인식될 수 있는 소리의 최소 단위를 말하며, 따라서 이를 조합하는 것으로 의미가 담긴 단어나 문장을 해당 언어로서 완성할 수 있다.The sound signal passed through the microphone amplifier 200 is input to the phoneme recognition module 300. The phoneme recognition module 300 recognizes the phonemes in the input sound signal continuously in real time. That is, a word or a sentence completed by consecutive utterance is received as a sound signal, and the phonemes constructed therein are consecutively recognized. Phonemes are language-dependent aspects as the smallest unit of sound that brings about the distinction of word meaning. In other words, it refers to the smallest unit of sound that can be perceived as linguistic, and therefore it is possible to complete a word or a sentence containing meaning by combining it.

음소의 인식을 위하여 음소인식 모듈(300)은 음소인식 판별기(310)과 음소인식 DB(320)를 포함할 수 있다. 음소인식 판별기(310)는 전술한 마이크 앰프(200)의 소리 신호 전처리 작업을 대신하여 수행할 수도 있다. 예를 들어 잡음제거 등의 전처리를 실시할 수 있으며 이로서 음소인식의 정확도를 조금 더 높일 수 있다. 음소인식 판별기(310)가 음소 인식을 수행하는 방법으로서 다양한 음소인식 알고리즘이 사용될 수 있다. 다만 그 중 실시간으로의 연속적인 음소인식의 목적을 달성하기 위해서는 은닉 마르코프 모델(Hidden Markov Model, HMM) 또는 심층 신경망(Deep Neural Network, DNN)이라는 패턴 인식 알고리즘을 이용하는 것이 가장 바람직하다. 음소인식 DB(320)는 많은 수의 음소모델을 모아 놓은 데이터베이스이다. 음소모델은 음소별로 라벨링된 작은 단위로의 소리 신호라고 볼 수 있으며 음소인식 DB(320)는 이를 패턴화하여 상당수를 보유한다.The phoneme recognition module 300 may include a phoneme recognition discriminator 310 and a phoneme recognition DB 320 for recognizing phonemes. The phoneme recognition discriminator 310 may be performed in place of the sound signal preprocessing operation of the microphone amplifier 200 described above. For example, it is possible to perform preprocessing such as noise cancellation, which can further enhance the accuracy of phoneme recognition. Various phoneme recognition algorithms may be used as the method for the phoneme recognition discriminator 310 to perform phoneme recognition. However, it is most preferable to use a pattern recognition algorithm called a hidden markov model (HMM) or a deep neural network (DNN) in order to achieve the purpose of continuous phoneme recognition in real time. The phoneme recognition DB 320 is a database in which a large number of phoneme models are collected. The phoneme model may be regarded as a sound signal in a small unit labeled by the phoneme, and the phoneme recognition DB 320 patterns it and holds a significant number.

음소인식의 예시적인 과정은 도 2와 함께 설명할 수 있다. 먼저 특징추출 단계(s10)에서는 소리 신호를 입력으로 받아 그에 포함된 음성 신호의 특징적인 정보만을 추출한다. 이러한 특징의 추출에는 다양한 알고리즘이 사용될 수 있는데, 사용되는 알고리즘에 따라 "특징추출"이라는 작업의 정의는 달라질 수 있다. 그러나 일반적으로 특징의 추출이란 입력된 신호를 분석하여 다른 신호와 구분할 수 있는 특징적인 패턴만을 추출해 내는 작업이라고 정의할 수 있다. 이렇게 완성된 특징추출 단계(s10)의 출력을 특징벡터라고 명명할 수 있다. 특징벡터가 추출되면 패턴분류 단계(s20)에서는 입력 받은 특징벡터를 음향모델 DB와 비교하는 유사도 산출 작업을 실시한다. 이 때 패턴매칭 알고리즘, 특히 전술한 은닉 마르코프 모델이나 심층 신경망 알고리즘이 사용될 수 있다. 여기에서 음향모델 DB는 음소의 인식에 대한 일종의 표준 딕셔너리(Dictionary)의 역할을 하는 것인데, 패턴매칭 알고리즘이 입력된 특징벡터와 가장 유사한 음향모델을 찾아낸다. 패턴분류 단계(s20)에서 패턴매칭을 완료하는 것으로 최종적으로 소리 신호에 포함된 음소들이 연속적으로 또한 실시간으로 인식될 수 있다.An exemplary process of phoneme recognition can be described in conjunction with FIG. First, in the feature extraction step (s10), a sound signal is input and only characteristic information of the sound signal contained in the sound signal is extracted. Various algorithms can be used to extract these features. Depending on the algorithm used, the definition of the task "feature extraction" may vary. However, in general, the feature extraction can be defined as extracting characteristic patterns that can be distinguished from other signals by analyzing the inputted signals. The output of the completed feature extraction step s10 may be called a feature vector. When the feature vector is extracted, the pattern classification step s20 performs a similarity calculation operation for comparing the input feature vector with the acoustic model DB. At this time, a pattern matching algorithm, in particular the hidden Markov model or the neural network algorithm described above, can be used. Here, the acoustic model DB serves as a kind of standard dictionary for recognizing phonemes, and the pattern matching algorithm finds an acoustic model most similar to the inputted feature vector. The pattern matching is completed in the pattern classification step s20, so that the phonemes finally included in the sound signal can be recognized continuously and in real time.

여기에서 특징추출 단계(s10)와 패턴분류 단계(s20)가 본 발명의 음성합성 보청기의 음소인식 판별기(310)에 의하여 실시될 수 있다. 또한 음향모델 DB는 본 발명의 음성합성 보청기의 음소인식 DB(320)와 대응된다.Here, the feature extraction step (s10) and the pattern classification step (s20) may be performed by the phoneme recognition discriminator 310 of the speech synthesis hearing aid of the present invention. The acoustic model DB corresponds to the phoneme recognition DB 320 of the speech synthesis hearing aid of the present invention.

음성합성 모듈(400)은 음소인식 모듈(300)에서 인식된 음소를 이용하여 이를 다시 음성, 즉 소리 신호로 합성한다. 이러한 기능을 수행하기 위하여 음성합성 모듈(400)은 음성합성기(410)와 음성합성 DB(420)를 포함할 수 있다. 음성합성 DB(420)는 음소단위의 데이터베이스로서, 각 음소별 발음 데이터를 음향 데이터로서 보유한다. 음성합성기(410)는 음소인식 모듈(300)에서 인식된 음소 정보를 받아 음성합성 DB(420)의 음소별 음향 데이터를 이용하여 연속적으로 인식된 음소대로의 음향 합성을 실시하여 인식된 음성을 복원한다. 이러한 음성합성 모듈(400)의 음성합성 과정에서는 종래의 음성합성, 즉 TTS(Text-To-Speech) 알고리즘을 사용할 수 있다. 음성합성 모듈(400)에서 합성된 음성은 스피커 앰프(500)에서 적절한 음량으로 증폭될 수 있다. 또한 이렇게 증폭된 음성은 스피커(600)를 통하여 최종적으로 음성합성 보청기의 사용자에게 전달된다.The speech synthesizing module 400 synthesizes the speech using the phonemes recognized by the phoneme recognition module 300 as speech, that is, a sound signal. In order to perform this function, the speech synthesis module 400 may include a speech synthesizer 410 and a speech synthesis DB 420. The speech synthesis DB 420 is a phoneme-unit database, and holds pronunciation data for each phoneme as acoustic data. The speech synthesizer 410 receives the phonemic information recognized by the phoneme recognition module 300 and performs sound synthesis of the phonemes successively recognized using the phonemic sound data of the speech synthesis DB 420 to restore the recognized speech do. In the speech synthesis process of the speech synthesis module 400, conventional speech synthesis, that is, a text-to-speech (TTS) algorithm can be used. The voice synthesized by the voice synthesizing module 400 can be amplified by the speaker amplifier 500 at an appropriate volume. The amplified voice is finally transmitted through the speaker 600 to the user of the speech synthesizing hearing aid.

실시예에 따라 본 발명의 음성합성 보청기는 화자특성 추출기(700)를 포함할 수 있다. 화자특성 추출기(700)는 마이크(100)로 수집된 소리 신호 중 포함된 음성을 분석하여 화자의 음성 특성(화자특성)을 추출한다. 화자의 음성 특성은 예를 들어 음성의 피치(pitch), 기본 주파수, 고조파 비율 등을 포함할 수 있다. 이렇게 추출된 화자특성은 음성합성 모듈(400)의 음성합성시 반영될 수 있다. 즉 음성합성기(410)가 음성합성 DB(420)를 이용하여 인식된 음소대로의 음성을 합성할 시, 추출된 화자특성의 피치, 기본 주파수, 고조파 비율을 참고하여 이와 유사한 음성으로 변형 합성할 수 있다. 따라서 스피커(600)를 통하여 출력되어 사용자에게 들려질 합성 음성은 화자의 음성 특성이 반영된, 즉 화자의 목소리와 유사한 목소리의 음성이 될 수 있다.The speech synthesis hearing aid of the present invention may include a speaker characteristic extractor 700 according to an embodiment. The speaker characteristic extractor 700 extracts a speech characteristic (speaker characteristic) of a speaker by analyzing the sound included in the sound signal collected by the microphone 100. The speech characteristics of the speaker may include, for example, the pitch of the speech, the fundamental frequency, the harmonic ratio, and the like. The extracted speaker characteristics can be reflected in the speech synthesis of the speech synthesis module 400. In other words, when the speech synthesizer 410 synthesizes the speech of the recognized phoneme using the speech synthesis DB 420, the speech synthesizer 410 can synthesize and synthesize the similar speech by referring to the pitch, fundamental frequency, and harmonic ratio of the extracted speaker characteristics have. Therefore, the synthesized voice to be output to the user through the speaker 600 can be a voice in which the voice characteristics of the speaker are reflected, that is, a voice similar to the voice of the speaker.

본 발명의 음성합성 보청 방법은 도 3을 참조하여 설명한다. 본 발명의 음성합성 보청 방법은 전처리 단계(s100)와 화자특성 추출 단계(s200), 음소인식 단계(s300), 음성합성 단계(s400)를 포함할 수 있다. 전처리 단계(s100)에서는 마이크 등을 이용하여 주변 소리 신호를 수집하며 수집된 신호에 대하여 음소의 인식의 정확도를 높일 수 있는 음향처리, 예를 들어 잡음제거나 대역필터링, 음성검출 등의 작업을 수행한다. 화자특성 추출 단계(s200)에서는 마이크 등으로 수집된 소리 신호 중에 포함된 음성을 분석하여 화자의 음성 특성(화자특성)을 추출한다. 화자특성에 대한 상세한 설명은 도 1에서 화자특성 추출기(700)와 관련하여 설명한 내용을 참조할 수 있다. 음소인식 단계(s300)에서는 전처리 단계(s100)에서 전처리된 소리 신호에 담긴 음소를 인식한다. 상세한 음소인식 과정은 도 2와 함께 앞서 설명한 내용으로 설명될 수 있다. 음성합성 단계(s400)에서는 음소인식 단계(s300)에서 인식된 음소 정보를 이용하여 다시 음성을 합성한다. 이러한 목적을 달성하기 위하여 종래의 다양한 TTS 알고리즘이 적용될 수 있다. 음성합성 단계(s400)에서는 특히 음성의 합성시 앞서 추출한 화자특성을 반영한다. 즉 음소인식 단계(s300)에서 인식된 음소대로의 음성을 합성할 시, 추출된 화자특성의 피치, 기본 주파수, 고조파 비율을 참고하여 이와 유사한 음성으로 변형 합성한다. 음성합성 단계(s400)에서 합성된 음성은 예를 들어 증폭 등의 후처리를 또한 거칠 수 있으며, 이렇게 최종적인 음성이 완성되어 사용자에게 전달될 수 있다. 음성합성 상기의 단계들은 연속적으로, 동시적으로 실시될 수 있다.The speech synthesis hearing aid method of the present invention will be described with reference to Fig. The speech synthesis hearing aid method of the present invention may include a preprocessing step (s100), a speaker characteristic extraction step (s200), a phoneme recognition step (s300), and a speech synthesis step (s400). In the preprocessing step (s100), a surround sound signal is collected using a microphone or the like, and a sound processing for enhancing the recognition accuracy of a phoneme with respect to the collected signal, for example, noise removal, band filtering, do. In the speaker characteristic extraction step (s200), the voice included in a sound signal collected by a microphone or the like is analyzed to extract a speaker's voice characteristic (speaker characteristic). For the detailed description of the speaker characteristic, the contents described with reference to the speaker characteristic extractor 700 in FIG. 1 may be referred to. In the phoneme recognition step (s300), a phoneme contained in the preprocessed sound signal in the preprocessing step (s100) is recognized. The detailed phoneme recognition process can be explained in conjunction with FIG. 2 as described above. In the speech synthesis step (S400), speech is synthesized again using the phoneme information recognized in the phoneme recognition step (S300). Various conventional TTS algorithms can be applied to achieve this object. In the speech synthesis step (S400), the extracted speaker characteristics are particularly reflected in the synthesis of speech. That is, when voice synthesized with the phoneme recognized in the phoneme recognition step (s300) is synthesized, the synthesized voice is synthesized by referring to the pitch, fundamental frequency, and harmonic ratio of the extracted speaker characteristics. The voice synthesized in the voice synthesizing step (S400) may also be subjected to post-processing such as amplification, for example, so that the final voice can be completed and transmitted to the user. Speech Synthesis The above steps may be performed sequentially, concurrently.

본 발명에 특유한 구성 및 효과들은 전술한 실시예들로부터 명백히 도출될 수 있다. 본 발명의 음성합성 보청기 내지 음성합성 보청 방법에 따르면 수집된 음성의 음소를 인식하고 이를 바탕으로 다시 음소를 음성으로 합성하여 그 사용자에게 들려줄 수 있으므로 종래의 주어진 음향 신호만을 처리하는 방법으로 실시되던 방식과는 차별되는 현저한 소음 대 잡음비의 향상을 기대할 수 있다. 또한 음소 인식 알고리즘으로 은닉 마르코프 모델 또는 심층 신경망 알고리즘을 사용하므로 실시간으로 연속적인 음소의 인식이 가능해져 실시간 대화음성의 처리에도 무리가 없다. 또한 음성의 합성시 인식된 음성의 화자특성을 반영하여 변형 합성하므로, 보청기 사용자가 합성된 음성을 청취하면서도 발화자가 누구인지를 손쉽게 인식할 수 있다.The configuration and effects unique to the present invention can be clearly derived from the above-described embodiments. According to the speech synthesis hearing aid or the speech synthesis hearing aid method of the present invention, the phonemes of the collected speech are recognized, and the phoneme is synthesized again based on the synthesized speech, It is possible to expect a remarkable increase in noise-to-noise ratio that is different from the method. In addition, since the phoneme recognition algorithm uses the hidden Markov model or the depth neural network algorithm, continuous phoneme recognition can be realized in real time, so that it is not infeasible to process real time conversation speech. Also, since the synthesized voice is synthesized by reflecting the speaker characteristics of the recognized voice in the voice synthesis, the user of the hearing aid can easily recognize who the speaker is while listening to the synthesized voice.

100: 마이크 200: 마이크 앰프
300: 음소인식 모듈 310: 음소인식 판별기
320: 음소인식 DB 400: 음성합성 모듈
410: 음성합성기 420: 음성합성 DB
500: 스피커 앰프 600: 스피커
700: 화자특성 추출기
100: Microphone 200: Microphone amplifier
300: phoneme recognition module 310: phoneme recognition discriminator
320: phoneme recognition DB 400: speech synthesis module
410: speech synthesizer 420: speech synthesis DB
500: Speaker Amplifier 600: Speaker
700: speaker characteristic extractor

Claims (7)

적어도 음성을 수집하는 마이크;
수집되는 음성에 포함된 음소를 연속적으로 인식하는 음소인식 모듈;
인식된 음소대로 연속적으로 음성을 합성하여 주는 음성합성 모듈; 및
수집되는 음성의 화자 특성을 추출하는 화자특성 추출기;를 포함하고 음성합성 모듈은 음성의 합성시 화자특성 추출기가 추출한 화자특성을 반영하는 것을 특징으로 하는 음성합성 보청기.
At least a microphone for collecting voice;
A phoneme recognition module for continuously recognizing phonemes included in a voice to be collected;
A speech synthesis module for continuously synthesizing speech according to recognized phonemes; And
And a speaker characteristic extractor for extracting a speaker characteristic of a voice to be collected, wherein the voice synthesis module reflects the speaker characteristics extracted by the speaker characteristic extractor during voice synthesis.
제1항에 있어서,
음소인식 모듈은 음소인식 판별기와 음소인식 DB를 포함하는 것을 특징으로 하는 음성합성 보청기.
The method according to claim 1,
Wherein the phoneme recognition module includes a phoneme recognition discriminator and a phoneme recognition DB.
제1항에 있어서,
음성합성 모듈은 음성합성기와 음성합성 DB를 포함하는 것을 특징으로 하는 음성합성 보청기.
The method according to claim 1,
Wherein the speech synthesis module includes a speech synthesizer and a speech synthesis DB.
제1항에 있어서,
화자특성 추출기가 추출하는 화자특성은 음성의 피치, 기본 주파수, 고조파 비율 중 적어도 하나를 포함하는 것을 특징으로 하는 음성합성 보청기.
The method according to claim 1,
Wherein the speaker characteristic extracted by the speaker characteristic extractor includes at least one of pitch, fundamental frequency, and harmonic ratio of speech.
제2항에 있어서,
음소인식 판별기는 HMM 알고리즘으로 음소를 인식하는 것을 특징으로 하는 음성합성 보청기.
3. The method of claim 2,
Wherein the phoneme recognition discriminator recognizes phonemes by an HMM algorithm.
제2항에 있어서,
음소인식 판별기는 DNN 알고리즘으로 음소를 인식하는 것을 특징으로 하는 음성합성 보청기.
3. The method of claim 2,
Wherein the phoneme recognition discriminator recognizes the phoneme with the DNN algorithm.
마이크로 수집되는 음성의 화자특성을 추출하는 단계;
마이크로 수집되는 음성에 포함된 음소를 연속적으로 인식하는 단계;
인식된 음소대로 연속적으로 음성을 합성하되, 추출된 화자특성 대로 음성을 변경하는 단계;를 포함하는 것을 특징으로 하는 음성합성 보청 방법.
Extracting a speaker characteristic of a voice to be micro-collected;
Consecutively recognizing phonemes included in the micro-collected speech;
And synthesizing the speech consecutively according to the recognized phoneme, and changing the speech according to the extracted speaker characteristic.
KR1020170011226A 2017-01-24 2017-01-24 Hearing aid with voice synthesis function considering speaker characteristics and method thereof KR20180087038A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170011226A KR20180087038A (en) 2017-01-24 2017-01-24 Hearing aid with voice synthesis function considering speaker characteristics and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170011226A KR20180087038A (en) 2017-01-24 2017-01-24 Hearing aid with voice synthesis function considering speaker characteristics and method thereof

Publications (1)

Publication Number Publication Date
KR20180087038A true KR20180087038A (en) 2018-08-01

Family

ID=63227811

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170011226A KR20180087038A (en) 2017-01-24 2017-01-24 Hearing aid with voice synthesis function considering speaker characteristics and method thereof

Country Status (1)

Country Link
KR (1) KR20180087038A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020176836A1 (en) * 2019-02-28 2020-09-03 Starkey Laboratories, Inc. Voice cloning for hearing device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020176836A1 (en) * 2019-02-28 2020-09-03 Starkey Laboratories, Inc. Voice cloning for hearing device

Similar Documents

Publication Publication Date Title
US10923137B2 (en) Speech enhancement and audio event detection for an environment with non-stationary noise
EP2306457B1 (en) Automatic sound recognition based on binary time frequency units
Kingsbury et al. Robust speech recognition using the modulation spectrogram
KR101414233B1 (en) Apparatus and method for improving speech intelligibility
CN112397083A (en) Voice processing method and related device
Dua et al. Performance evaluation of Hindi speech recognition system using optimized filterbanks
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
JP2004523788A (en) System and method for efficient storage of speech recognition models
Delfarah et al. Deep learning for talker-dependent reverberant speaker separation: An empirical study
Garg et al. A comparative study of noise reduction techniques for automatic speech recognition systems
Gupta et al. Speech feature extraction and recognition using genetic algorithm
JP6599828B2 (en) Sound processing method, sound processing apparatus, and program
Biswas et al. Hindi vowel classification using GFCC and formant analysis in sensor mismatch condition
CN109272996B (en) Noise reduction method and system
KR20180087038A (en) Hearing aid with voice synthesis function considering speaker characteristics and method thereof
Sahoo et al. MFCC feature with optimized frequency range: An essential step for emotion recognition
KR101361034B1 (en) Robust speech recognition method based on independent vector analysis using harmonic frequency dependency and system using the method
KR101610708B1 (en) Voice recognition apparatus and method
KR20090116055A (en) Method for estimating noise mask using hidden markov model and apparatus for performing the same
Sangeetha et al. Automatic continuous speech recogniser for Dravidian languages using the auto associative neural network
Wang et al. Speech enhancement based on noise classification and deep neural network
JP7079189B2 (en) Sound source direction estimation device, sound source direction estimation method and its program
CN112530452A (en) Post-filtering compensation method, device and system
Zaw et al. Speaker identification using power spectral subtraction method
JPH04324499A (en) Speech recognition device

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E601 Decision to refuse application