KR102394510B1 - Apparatus and method for recognizing voice in vehicle - Google Patents

Apparatus and method for recognizing voice in vehicle Download PDF

Info

Publication number
KR102394510B1
KR102394510B1 KR1020140170600A KR20140170600A KR102394510B1 KR 102394510 B1 KR102394510 B1 KR 102394510B1 KR 1020140170600 A KR1020140170600 A KR 1020140170600A KR 20140170600 A KR20140170600 A KR 20140170600A KR 102394510 B1 KR102394510 B1 KR 102394510B1
Authority
KR
South Korea
Prior art keywords
user
voice
sound
beep
information
Prior art date
Application number
KR1020140170600A
Other languages
Korean (ko)
Other versions
KR102394510B9 (en
KR20160066347A (en
Inventor
김성중
Original Assignee
현대모비스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 현대모비스 주식회사 filed Critical 현대모비스 주식회사
Priority to KR1020140170600A priority Critical patent/KR102394510B1/en
Publication of KR20160066347A publication Critical patent/KR20160066347A/en
Application granted granted Critical
Publication of KR102394510B1 publication Critical patent/KR102394510B1/en
Publication of KR102394510B9 publication Critical patent/KR102394510B9/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Abstract

본 발명은 마이크로폰으로 입력된 사운드 정보로부터 비프음을 제거하고 사용자에 특화된 데이터베이스를 이용하여 사용자의 음성을 인식하는 차량용 음성 인식 장치 및 방법을 제안한다. 본 발명에 따른 장치는 차량에서 사용자에 의해 사운드 정보가 입력되면 사운드 정보로부터 비프음을 제거하여 사용자의 음성을 획득하는 비프음 제거부; 사용자에 대한 정보를 획득하는 사용자 정보 획득부; 사용자에 대한 정보를 기초로 데이터베이스로부터 어휘 리스트를 검출하는 어휘 리스트 검출부; 및 어휘 리스트를 기초로 사용자의 음성을 인식하는 음성 인식부를 포함한다.The present invention proposes a vehicle voice recognition apparatus and method for removing a beep sound from sound information input through a microphone and recognizing a user's voice using a user-specified database. An apparatus according to the present invention includes: a beep removal unit configured to obtain a user's voice by removing a beep sound from the sound information when sound information is input by a user in a vehicle; a user information acquisition unit for acquiring information about the user; a vocabulary list detection unit that detects a vocabulary list from a database based on user information; and a voice recognition unit for recognizing the user's voice based on the vocabulary list.

Figure R1020140170600
Figure R1020140170600

Description

차량용 음성 인식 장치 및 방법 {Apparatus and method for recognizing voice in vehicle}Apparatus and method for recognizing voice in vehicle}

본 발명은 음성 인식 장치 및 방법에 관한 것이다. 보다 상세하게는, 차량용 음성 인식 장치 및 방법에 관한 것이다.The present invention relates to a voice recognition apparatus and method. More particularly, it relates to a voice recognition apparatus and method for a vehicle.

일반적으로 차량에는 많은 장치들이 설치되어 있으며 최근에는 운전자나 탑승객들의 편의를 위한 장치들이 꾸준히 개발되어 설치되고 있다. 대표적인 것으로 오디오 장치나 공조 장치 등이 있으며, 더 나아가 인공위성 등을 통해 자동차의 위치를 파악하여 목적지까지의 경로를 안내해주는 내비게이션이 설치되는 차량 또한 증가하는 추세이다.In general, many devices are installed in a vehicle, and recently, devices for the convenience of drivers or passengers have been continuously developed and installed. A typical example is an audio device or an air conditioning device, and furthermore, the number of vehicles installed with a navigation system that guides a route to a destination by locating the vehicle through a satellite is also increasing.

그러나 이와 같은 편의 장치들은 운전자와 탑승객에게 여러가지 편리함을 제공해주는 것이 사실이지만, 운전자가 운전 중에 편의 장치들을 조작하는 과정에서 운전에 대한 집중도가 저하되고 주의가 산만해져 사고가 발생할 위험이 높아지는 문제점이 있다.However, while it is true that such convenience devices provide various conveniences to the driver and passengers, there is a problem in that the concentration of driving decreases and the risk of accidents increases due to distraction while the driver operates the convenience devices while driving. .

이러한 문제점을 해결하기 위해서 최근에는 운전자가 편의 장치들을 직접 조작할 필요없이 음성으로 명령하면 운전자의 음성을 인식하여 운전자의 음성 명령에 따라 각종 편의 장치들을 제어하는 차량용 음성 인식 장치가 개발되고 있다.In order to solve this problem, recently, a voice recognition device for a vehicle has been developed that recognizes the driver's voice and controls various convenience devices according to the driver's voice command when the driver commands by voice without the need to directly manipulate the convenience devices.

그러나 종래의 차량용 음성 인식 장치에는 운전자의 음성을 인식하기 위한 마이크로폰만이 존재하였기 때문에 차량의 내부 또는 외부에서 발생하는 소음이 음성과 함께 마이크로폰으로 입력되어 음성 제어가 제대로 되지 않는다는 문제점이 있다.However, since there is only a microphone for recognizing the driver's voice in the conventional voice recognition apparatus for a vehicle, noise generated inside or outside the vehicle is input into the microphone together with the voice, so that voice control is not properly performed.

한국공개특허 제2013-0063091호는 차량용 음성 인식 장치에 대하여 제안하고 있다. 그러나 이 장치는 필요에 따라 선택적으로 활성화되어 사용자의 음성 명령을 인식하는 것이기 때문에 상기한 문제점을 해결할 수 없다.Korean Patent Application Laid-Open No. 2013-0063091 proposes a voice recognition device for a vehicle. However, since this device is selectively activated as needed to recognize a user's voice command, the above problem cannot be solved.

본 발명은 상기한 문제점을 해결하기 위해 안출된 것으로서, 마이크로폰으로 입력된 사운드 정보로부터 비프음을 제거하고 사용자에 특화된 데이터베이스를 이용하여 사용자의 음성을 인식하는 차량용 음성 인식 장치 및 방법을 제안하는 것을 목적으로 한다.The present invention has been devised to solve the above problems, and it is an object of the present invention to propose a vehicle voice recognition apparatus and method for removing a beep sound from sound information input through a microphone and recognizing a user's voice using a user-specified database do it with

그러나 본 발명의 목적은 상기에 언급된 사항으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.However, the object of the present invention is not limited to the above, and other objects not mentioned will be clearly understood by those skilled in the art from the following description.

본 발명은 상기한 목적을 달성하기 위해 안출된 것으로서, 차량에서 사용자에 의해 사운드 정보가 입력되면 상기 사운드 정보로부터 비프음(Beep Sound)을 제거하여 상기 사용자의 음성을 획득하는 비프음 제거부; 상기 사용자에 대한 정보를 획득하는 사용자 정보 획득부; 상기 사용자에 대한 정보를 기초로 데이터베이스로부터 어휘 리스트를 검출하는 어휘 리스트 검출부; 및 상기 어휘 리스트를 기초로 상기 사용자의 음성을 인식하는 음성 인식부를 포함하는 것을 특징으로 하는 차량용 음성 인식 장치를 제안한다.The present invention has been devised to achieve the above object, and when sound information is input by a user in a vehicle, a beep sound removing unit for obtaining the user's voice by removing a beep sound from the sound information; a user information obtaining unit obtaining information about the user; a vocabulary list detector configured to detect a vocabulary list from a database based on the information on the user; and a voice recognition unit for recognizing the user's voice based on the vocabulary list.

바람직하게는, 상기 비프음 제거부는 상기 사운드 정보로부터 상기 비프음과 더불어 노이즈도 제거한다.Preferably, the beep sound removing unit removes noise along with the beep sound from the sound information.

바람직하게는, 상기 비프음 제거부는 에코 캔슬러(Echo Canceller)를 이용하여 상기 비프음을 제거하며, 노이즈 리덕션(Noise Reduction)을 이용하여 상기 노이즈를 제거한다.Preferably, the beep canceling unit removes the beep sound using an echo canceller, and removes the noise using a noise reduction.

바람직하게는, 상기 비프음 제거부는 상기 에코 캔슬러로 적응 필터(Adaptive Filter), 잔류 에코 억제기(Residual Echo Suppressor) 및 통신 소음 발생기(comfort Noise Generator)를 포함하는 에코 캔슬러를 이용한다.Preferably, the beep removal unit uses an echo canceller including an adaptive filter, a residual echo suppressor, and a comfort noise generator as the echo canceller.

바람직하게는, 상기 비프음 제거부는 상기 사운드 정보로부터 상기 비프음을 먼저 제거하고 상기 노이즈를 나중 제거한다.Preferably, the beep removal unit removes the beep sound from the sound information first and then removes the noise.

바람직하게는, 상기 비프음 제거부는 상기 사운드 정보에 포함된 오디오 데이터에 대하여 스테레오 성분을 모노 성분으로 변환하며, 다운 샘플링(Down Sampling)을 이용하여 상기 사운드 정보에 포함된 각 성분의 주파수를 동일하게 변환하여, 상기 사운드 정보로부터 상기 비프음을 제거한다.Preferably, the beep removal unit converts a stereo component into a mono component with respect to the audio data included in the sound information, and uses down sampling to make the frequency of each component included in the sound information the same. conversion to remove the beep sound from the sound information.

바람직하게는, 상기 어휘 리스트 검출부는 상기 데이터베이스로부터 상기 사용자가 기준 횟수 이상 발화한 것으로 기록된 단어, 문장 및 명령어 중 적어도 하나를 수집 및 취합하여 상기 어휘 리스트로 검출한다.Preferably, the vocabulary list detector collects and collects at least one of words, sentences, and commands recorded as uttered by the user more than a reference number of times from the database, and detects it as the vocabulary list.

바람직하게는, 상기 차량용 음성 인식 장치는 상기 비프음이 재생된 뒤 상기 사용자로부터 발화 음성이 입력되면 구동한다.Preferably, the vehicle voice recognition apparatus is driven when the spoken voice is input from the user after the beep sound is reproduced.

또한 본 발명은 차량에서 사용자에 의해 사운드 정보가 입력되면 상기 사운드 정보로부터 비프음(Beep Sound)을 제거하여 상기 사용자의 음성을 획득하는 단계; 상기 사용자에 대한 정보를 획득하는 단계; 상기 사용자에 대한 정보를 기초로 데이터베이스로부터 어휘 리스트를 검출하는 단계; 및 상기 어휘 리스트를 기초로 상기 사용자의 음성을 인식하는 단계를 포함하는 것을 특징으로 하는 차량용 음성 인식 방법을 제안한다.In addition, the present invention includes the steps of: when sound information is input by a user in a vehicle, removing a beep sound from the sound information to obtain the user's voice; obtaining information about the user; detecting a vocabulary list from a database based on the information about the user; and recognizing the user's voice based on the vocabulary list.

바람직하게는, 상기 사용자의 음성을 획득하는 단계는 상기 사운드 정보로부터 상기 비프음과 더불어 노이즈도 제거한다.Preferably, the step of obtaining the user's voice removes noise as well as the beep sound from the sound information.

바람직하게는, 상기 사용자의 음성을 획득하는 단계는 에코 캔슬러(Echo Canceller)를 이용하여 상기 비프음을 제거하며, 노이즈 리덕션(Noise Reduction)을 이용하여 상기 노이즈를 제거한다.Preferably, in the obtaining of the user's voice, the beep sound is removed using an echo canceller, and the noise is removed using a noise reduction.

바람직하게는, 상기 사용자의 음성을 획득하는 단계는 상기 에코 캔슬러로 적응 필터(Adaptive Filter), 잔류 에코 억제기(Residual Echo Suppressor) 및 통신 소음 발생기(comfort Noise Generator)를 포함하는 에코 캔슬러를 이용한다.Preferably, in the step of obtaining the user's voice, an echo canceller including an adaptive filter, a residual echo suppressor, and a comfort noise generator as the echo canceller is used. use it

바람직하게는, 상기 사용자의 음성을 획득하는 단계는 상기 사운드 정보로부터 상기 비프음을 먼저 제거하고 상기 노이즈를 나중 제거한다.Preferably, in the obtaining of the user's voice, the beep sound is first removed from the sound information and the noise is removed later.

바람직하게는, 상기 사용자의 음성을 획득하는 단계는 상기 사운드 정보에 포함된 오디오 데이터에 대하여 스테레오 성분을 모노 성분으로 변환하며, 다운 샘플링(Down Sampling)을 이용하여 상기 사운드 정보에 포함된 각 성분의 주파수를 동일하게 변환하여, 상기 사운드 정보로부터 상기 비프음을 제거한다.Preferably, the step of obtaining the user's voice converts a stereo component into a mono component with respect to the audio data included in the sound information, and uses down sampling of each component included in the sound information. The beep sound is removed from the sound information by converting the same frequency.

바람직하게는, 상기 검출하는 단계는 상기 데이터베이스로부터 상기 사용자가 기준 횟수 이상 발화한 것으로 기록된 단어, 문장 및 명령어 중 적어도 하나를 수집 및 취합하여 상기 어휘 리스트로 검출한다.Preferably, in the detecting, at least one of words, sentences, and commands recorded as uttered by the user more than a reference number of times from the database is collected and collected and detected as the vocabulary list.

바람직하게는, 상기 차량용 음성 인식 방법은 상기 비프음이 재생된 뒤 상기 사용자로부터 발화 음성이 입력되면 수행된다.Preferably, the vehicle voice recognition method is performed when a spoken voice is input from the user after the beep sound is reproduced.

본 발명은 마이크로폰으로 입력된 사운드 정보로부터 비프음을 제거하고 사용자에 특화된 데이터베이스를 이용하여 사용자의 음성을 인식함으로써 다음 효과를 얻을 수 있다.The present invention can obtain the following effects by removing a beep sound from sound information input through a microphone and recognizing the user's voice using a user-specified database.

첫째, 명령어를 조기 발화하는 경우에 비프음과 섞이더라도 인식 동작이 가능하여 사용자의 체감 성능이 향상된다. 또한 사용자별로 인식 명령어를 최적화함으로써 사용자에 맞는 최적화된 인식 성능 향상을 볼 수 있다.First, when a command is uttered early, a recognition operation is possible even if it is mixed with a beep sound, so that the user's sensible performance is improved. In addition, by optimizing the recognition command for each user, it is possible to see the improvement of the recognition performance optimized for the user.

둘째, 음성 인식 초보 사용자나 성미가 급한 사용자의 경우 발화 타이밍을 잘못 맞추더라도 인식하게끔 음성 인식 사용성이 향상된다. 또한 사용자가 주로 사용하는 명령어 위주로 인식 성능을 개선함으로써 사용자 최적화된 사용성을 제시할 수 있다.Second, the usability of voice recognition is improved so that a novice user of voice recognition or a user who is in a hurry can recognize even if the timing of utterance is wrong. In addition, it is possible to present user-optimized usability by improving recognition performance based on commands mainly used by the user.

세째, 기존 발화 시점이 제한이 있었던 반면, 발화 시점에 변동을 줄 수 있어서 사용자에게 맞는 타이밍의 시스템을 설계할 수 있다. 또한 사용자별 명령어 리스트 구비시 사용자가 자주 사용하는 기능이 무엇인지 유추할 수 있다.Third, while the existing ignition timing is limited, it is possible to give a change in the ignition timing, so that a system with a timing suitable for a user can be designed. In addition, when a user-specific command list is provided, it is possible to infer which functions are frequently used by the user.

네째, 단순히 비프만 제거하는 것이 아닌 주변 노이즈 상쇄도 진행하여 음성 인식 엔진에게 복잡한 음성이 아닌 클린한 음성을 전달한다.Fourth, it not only removes beeps, but also cancels ambient noise to deliver a clean voice rather than a complex voice to the voice recognition engine.

다섯째, 명령어 인식시 사용자에 해당하는 리스트를 제공함으로써 인식 속도를 향상시킬 수 있다.Fifth, the recognition speed can be improved by providing a list corresponding to the user when recognizing commands.

여섯째, 클린한 음성이 엔진에 전달되면, 인식 동작에 신뢰성이 향상된다.Sixth, when a clean voice is transmitted to the engine, the reliability of the recognition operation is improved.

일곱째, 에코 캔슬러를 SW적으로 사용하는 시스템상 개발이므로 경제적이고 환경에 전혀 유해하지 않다.Seventh, it is economical and not harmful to the environment at all because it is developed on a system that uses the eco-canceller as SW.

도 1은 본 발명의 일실시예에 따른 음성 전처리 시스템을 도시한 개념도이다.
도 2는 도 1에 도시된 음성 전처리 시스템의 SW 계층도를 도시한 개념도이다.
도 3은 마이크로폰으로 입력된 신호와 에코가 제거된 신호의 분석 결과를 비교한 도면이다.
도 4는 음성 전처리 시스템을 구성하는 에코 캔슬러의 동작 구성도이다.
1 is a conceptual diagram illustrating a voice pre-processing system according to an embodiment of the present invention.
FIG. 2 is a conceptual diagram illustrating a SW hierarchy of the voice preprocessing system shown in FIG. 1 .
3 is a diagram comparing analysis results of a signal input through a microphone and a signal from which an echo is removed.
4 is an operation block diagram of an echo canceller constituting a voice pre-processing system.

이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조 부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. First of all, it should be noted that in adding reference numerals to the components of each drawing, the same components are given the same reference numerals as much as possible even though they are indicated on different drawings. In addition, in describing the present invention, if it is determined that a detailed description of a related known configuration or function may obscure the gist of the present invention, the detailed description thereof will be omitted. In addition, preferred embodiments of the present invention will be described below, but the technical spirit of the present invention is not limited thereto and may be variously implemented by those skilled in the art without being limited thereto.

음성 인식은 논리적이기보다는 감성적인 접근이 필요한 아이템으로 사용자가 한번 사용후 인식이 힘들거나 사용법이 어렵다고 느끼면 감성적 불만을 제기하는 경우가 많다. 즉 고객이 느끼는 체감 지수 상으로는 문제점이 많다고 판단해서 불만을 제기한다.Speech recognition is an item that requires an emotional approach rather than a logical one, and users often complain emotionally if they feel that recognition is difficult or difficult to use after using it. In other words, it is judged that there are many problems in terms of the sensibility index that customers feel, and they complain.

이러한 IQS 사용자 불만 중 음성 인식 사용성에 대해 불만을 제기하는 경우 상당수가 마이크로폰으로 입력된 음성 정보에 사용자의 음성 뿐만 아니라 각종 노이즈와 비프음(Beep Sound)이 혼합되어 있기 때문이다.Among these IQS user complaints, many complaints about the usability of voice recognition are because not only the user's voice but also various noises and beep sounds are mixed in the voice information input through the microphone.

또한 종래 음성 인식 시스템에서 음성 인식 전체 명령어 중 사용자가 사용하는 명령어는 제한적인데 반해서 매번 동일한 조건으로 전체 명령어가 인식 경쟁을 함으로써 인식률이 제한적일 수밖에 없다.In addition, in the conventional voice recognition system, commands used by the user among all commands for voice recognition are limited, whereas the recognition rate is inevitably limited because all commands compete for recognition under the same conditions every time.

본 발명은 이러한 문제점들을 해결하기 위해 안출된 것으로서, 음성 인식 동작시 에코 캔슬러를 이용하여 사용자의 음성에서 비프음을 제거하고 사용자에 특화된 데이터베이스를 이용하여 사용자의 음성을 인식하는 시스템을 제안한다.The present invention has been devised to solve these problems, and proposes a system for removing a beep sound from a user's voice by using an echo canceller during a voice recognition operation and recognizing the user's voice using a user-specified database.

이하 도면을 참조하여 보다 자세하게 설명한다.It will be described in more detail below with reference to the drawings.

도 1은 본 발명의 일실시예에 따른 음성 전처리 시스템을 도시한 개념도이다.1 is a conceptual diagram illustrating a voice pre-processing system according to an embodiment of the present invention.

본 발명에 따른 음성 전처리 시스템(100)은 에코 캔슬러(Echo Canceller; 125)를 이용하여 발화자의 음성에서 비프음을 제거하는 전처리 시스템이다. 즉 음성 전처리 시스템(100)은 에코 캔슬러(125)를 이용하여 초보 발화자가 음성 인식 비프음과 함께 발화시 발화자 음성에서 비프음을 제거한 후 인식 엔진(150)에 전달한다. 이러한 음성 전처리 시스템(100)은 각 화자의 음성 특성을 이용하여 화자 구분을 하여 사용자별로 잘 사용하는 명령어 위주로 인식 DB를 구성하여 음성 인식 사용성을 높인다.The voice pre-processing system 100 according to the present invention is a pre-processing system that removes beeps from the speaker's voice using an echo canceller 125 . That is, the voice preprocessing system 100 removes the beep sound from the speaker's voice when the novice speaker speaks together with the voice recognition beep by using the echo canceller 125 , and then transmits the beep sound to the recognition engine 150 . The voice pre-processing system 100 uses the voice characteristics of each speaker to classify the speakers, and configures a recognition DB mainly for commands used by each user to increase the usability of voice recognition.

도 1에 따르면, 음성 전처리 시스템(100)은 마이크로폰(105), 오디오 데이터 버퍼(110), 타입 변환부(115), 샘플링부(120), 에코 캔슬러(125), 노이즈 리덕션(Noise Reduction; 130), 화자 판별부(135), 화자별 인식 명령어 리스트 구성부(140), 화자별 인식 명령어 리스트 호출부(145) 및 인식 엔진(150)을 포함한다.1 , the voice preprocessing system 100 includes a microphone 105 , an audio data buffer 110 , a type conversion unit 115 , a sampling unit 120 , an echo canceller 125 , and noise reduction; 130), a speaker determination unit 135, a recognition command list construction unit 140 for each speaker, a recognition command list calling unit 145 for each speaker, and a recognition engine 150.

마이크로폰(105)은 운전자로부터 음성을 입력받는 기능을 수행한다. 이때 운전자의 음성과 더불어 비프음, 주변 노이즈 등이 마이크로폰(105)으로 입력되어 오디오 데이터 버퍼(110)로 전송된다.The microphone 105 performs a function of receiving a voice input from the driver. At this time, the driver's voice, beeps, ambient noise, etc. are inputted to the microphone 105 and transmitted to the audio data buffer 110 .

오디오 데이터 버퍼(110)는 운전자의 음성, 비프음, 주변 노이즈 등이 혼합된 사운드 정보를 디지털 데이터의 형태로 임시 저장하는 기능을 수행한다. 이후 오디오 데이터 버퍼(110)는 사운드 정보를 타입 변환부(115)로 전송한다.The audio data buffer 110 temporarily stores sound information in which the driver's voice, beeps, ambient noise, etc. are mixed in the form of digital data. Thereafter, the audio data buffer 110 transmits sound information to the type conversion unit 115 .

타입 변환부(115)는 사운드 정보를 구성하는 오디오 데이터(ex. 운전자의 음성)에 대하여 스테레오(Stereo) 특성을 모노(Mono) 특성으로 변환하는 기능을 수행한다.The type conversion unit 115 performs a function of converting a stereo characteristic into a mono characteristic with respect to audio data (eg, a driver's voice) constituting the sound information.

샘플링부(120)는 사운드 정보를 구성하는 각 성분의 주파수를 동일하게 변환하는 기능을 수행한다. 샘플링부(120)는 다운 샘플링 기법(Down Sampling)을 이용하여 운전자의 음성, 비프음 등의 주파수를 동일하게 16KHz로 변환한다.The sampling unit 120 performs a function of equally converting the frequencies of each component constituting the sound information. The sampling unit 120 converts the same frequencies of the driver's voice and beeps to 16 KHz using a down sampling technique.

에코 캔슬러(125)는 타입 변환부(115)와 샘플링부(120)를 거친 사운드 정보로부터 비프음을 제거하는 기능을 수행한다.The echo canceller 125 performs a function of removing a beep sound from the sound information passed through the type conversion unit 115 and the sampling unit 120 .

노이즈 리덕션(130)은 비프음이 제거된 사운드 정보에서 노이즈를 제거하는 기능을 수행한다. 본 실시예에서는 에코 캔슬러(125)가 사운드 정보로부터 먼저 비프음을 제거하고, 이후 노이즈 리덕션(130)이 노이즈를 제거하나, 반드시 이에 한정될 필요는 없으며, 노이즈 리덕션(130)이 에코 캔슬러(125)보다 먼저 기능 수행하는 것도 가능하다.The noise reduction 130 performs a function of removing noise from the sound information from which the beep sound has been removed. In the present embodiment, the echo canceller 125 first removes the beep sound from the sound information, and then the noise reduction 130 removes the noise, but it is not necessarily limited thereto. It is also possible to perform a function before (125).

인식 엔진(150)은 사운드 정보로부터 비프음과 노이즈가 제거된 뒤 남은 클린(Clean) 음성 즉 운전자의 순수 음성을 노이즈 리덕션(130)으로부터 수신하는 기능을 수행한다. 인식 엔진(150)에 운전자의 음성이 수신되면, 화자 판별부(135), 화자별 인식 명령어 리스트 구성부(140), 화자별 인식 명령어 리스트 호출부(145) 등이 순차적으로 구동된다.The recognition engine 150 performs a function of receiving, from the noise reduction 130 , a clean voice remaining after the beep and noise are removed from the sound information, that is, the driver's pure voice. When the driver's voice is received by the recognition engine 150 , the speaker determination unit 135 , the speaker recognition command list construction unit 140 , the speaker recognition command list call unit 145 , and the like are sequentially driven.

인식 엔진(150)은 화자 판별부(135), 화자별 인식 명령어 리스트 구성부(140), 화자별 인식 명령어 리스트 호출부(145) 등의 순차적 구동으로부터 얻은 화자별 인식 명령어 리스트를 기초로 운전자의 음성을 인식하는 기능을 수행한다.The recognition engine 150 determines the driver's recognition command based on the list of recognized commands for each speaker obtained from sequential driving of the speaker determining unit 135, the speaker-specific recognition command list construction unit 140, and the speaker-specific recognition command list calling unit 145. It performs the function of recognizing voice.

화자 판별부(135)는 인식 엔진(150)으로 운전자의 순수 음성이 입력되면 운전자로부터 ID 등 개인 정보를 입력받아 화자를 판별하는 기능을 수행한다.When the driver's pure voice is input to the recognition engine 150 , the speaker determining unit 135 receives personal information such as an ID from the driver to determine the speaker.

화자별 인식 명령어 리스트 구성부(140)는 화자 판별부(135)에 의해 화자가 판별되면 데이터베이스에서 해당 화자가 발화한 적이 있는 것으로 기록된 명령어들을 검출하여 리스트로 구성하는 기능을 수행한다.When a speaker is identified by the speaker identification unit 135, the speaker-specific recognition command list construction unit 140 detects commands recorded as having been uttered by the speaker in the database and configures the list into a list.

화자별 인식 명령어 리스트 호출부(145)는 화자별 인식 명령어 리스트 구성부(140)에 의해 생성된 리스트를 인식 엔진(150)으로 전달하는 기능을 수행한다.The per-speaker recognition command list calling unit 145 performs a function of transferring the list generated by the per-speaker recognition command list construction unit 140 to the recognition engine 150 .

도 2는 도 1에 도시된 음성 전처리 시스템의 SW 계층도를 도시한 개념도이다. 도 2에서는 비프음, 노이즈 등이 제거된 화자(운전자)의 순수 음성과 화자별 음성 인식 명령어 리스트를 기초로 화자별로 음성 인식을 최적화하는 방법을 설명한다. 이하 설명은 도 1과 도 2를 참조한다.FIG. 2 is a conceptual diagram illustrating a SW hierarchy of the voice preprocessing system shown in FIG. 1 . In FIG. 2 , a method of optimizing speech recognition for each speaker based on the speaker's (driver's) pure voice from which beeps and noises have been removed and the speaker-specific voice recognition command list will be described. The following description refers to FIGS. 1 and 2 .

오디오 데이터 버퍼(110)는 오디오 데이터 버퍼 관리 계층(Audio Data Buffer Management; 235)을 통하여 마이크로폰(MIC; 105)으로 입력된 발화자 음성 외에 음성 인식 비프음, 주변 노이즈 등의 사운드 정보를 입력받는다. 오디오 데이터 버퍼(110)는 오디오 드라이버 : 코덱(Audio Driver : Codec)(240)을 통하여 사운드 정보를 오디오 데이터 형태로 입력받는다.The audio data buffer 110 receives sound information such as a voice recognition beep sound and ambient noise in addition to the speaker's voice input through the microphone (MIC) 105 through the Audio Data Buffer Management 235 . The audio data buffer 110 receives sound information in the form of audio data through an audio driver: codec 240 .

이후 타입 변환부(115)는 제1 계층(220)과 제2 계층(230)을 통하여 사운드 정보를 구성하는 발화자 음성, 비프음 등을 스테레오 타입에서 모노 타입으로 변환한다.Thereafter, the type conversion unit 115 converts the speaker's voice and the beep sound constituting the sound information from the stereo type to the mono type through the first layer 220 and the second layer 230 .

이후 샘플링부(120)는 제3 계층(225)을 통하여 비프음의 샘플링 주파수를 44.1KHz에서 16KHz로 다운 샘플링한다.Thereafter, the sampling unit 120 down-samples the sampling frequency of the beep sound from 44.1 KHz to 16 KHz through the third layer 225 .

이후 에코 캔슬러(125)는 에코 캔슬링(Echo Cancelling) 계층(215)을 통하여 주변 노이즈까지 포함한 오디오 데이터에서 기존 비프음 주파수 특성에 따라 발화자 음성에서 비프음을 제거한다.Thereafter, the echo canceller 125 removes beeps from the speaker's voice according to the existing beep frequency characteristics from the audio data including ambient noise through the echo canceling layer 215 .

한편 노이즈 리덕션(130)은 에코 캔슬링 계층(215)을 통하여 비프음 제거후 존재하는 주변 노이즈를 제거한다.Meanwhile, the noise reduction 130 removes ambient noise that exists after the beep is removed through the echo canceling layer 215 .

이후 인식 엔진(150)은 OS 프레임워크(OS Framework) 계층(210)를 통하여 비프음과 노이즈가 제거된 음성 데이터를 수신한다.Thereafter, the recognition engine 150 receives the voice data from which the beep sound and the noise are removed through the OS framework layer 210 .

이후 화자 판별부(135)가 애플리케이션(Application) 계층(205)을 통하여 인식 엔진(150)에서 나온 화자 특성을 근거로 기존 화자인지 신규 화자인지 구분한다.Thereafter, the speaker determining unit 135 determines whether the speaker is an existing speaker or a new speaker based on the speaker characteristics output from the recognition engine 150 through the application layer 205 .

이후 화자별 인식 명령어 리스트 구성부(140)가 애플리케이션 계층(205)을 통하여 신규 화자인 경우 신규 화자 음성 인식 리스트를 신규 생성하며, 기존 화자인 경우 화자에 해당하는 음성 인식 리스트를 불러온다.Thereafter, the recognition command list construction unit 140 for each speaker creates a new speaker voice recognition list if it is a new speaker through the application layer 205 , and calls a voice recognition list corresponding to the speaker if it is an existing speaker.

이후 인식 엔진(150)은 화자별 인식 명령어 리스트 호출부(145)로부터 음성 인식 리스트를 수신하면 애플리케이션 계층(205)을 통하여 음성 인식 리스트를 우선순위로 명령어를 인식한다.Thereafter, when the recognition engine 150 receives the voice recognition list from the speaker-specific recognition command list calling unit 145 , the recognition engine 150 recognizes the commands with priority in the voice recognition list through the application layer 205 .

도 3은 마이크로폰으로 입력된 신호와 에코가 제거된 신호의 분석 결과를 비교한 도면이다.FIG. 3 is a diagram comparing analysis results of a signal input through a microphone and a signal from which an echo is removed.

도 3의 (a)는 마이크로폰으로 입력된 신호의 분석 결과이다. 도 3의 (a)에서 도면부호 310은 TTS 안내 프롬프트 구간(약 1.8초)을 나타내며, 도면부호 320은 발화 음성(Dial Number; 321)과 비프음(322)이 섞여있는 구간(320)을 나타낸다.3A is an analysis result of a signal input through a microphone. In FIG. 3A , reference numeral 310 denotes a TTS guidance prompt section (about 1.8 seconds), and reference numeral 320 denotes a section 320 in which a spoken voice (Dial Number; 321) and a beep sound 322 are mixed. .

도 3의 (a)에 도시된 바와 같이 마이크로폰으로 입력된 신호를 분석해 보면 발화자 음성(321)의 중간에 비프음(322)이 존재하여 음성 인식에 실패하는 경우가 발생한다.As shown in (a) of FIG. 3 , when a signal input through a microphone is analyzed, a beep sound 322 is present in the middle of the speaker's voice 321, so that voice recognition may fail.

도 3의 (b)는 에코가 제거된 신호의 분석 결과이다. 도 3의 (b)에서 도면부호 330은 필터 수렴 구간(약 0.5초)를 나타내며, 도면부호 350은 인식 엔진에 전달되는 인식 가능 구간을 나타낸다. 도면부호 340은 인식 가능 구간의 확장 가능 구간을 나타낸다.3B is an analysis result of a signal from which an echo has been removed. In FIG. 3B , reference numeral 330 denotes a filter convergence section (about 0.5 seconds), and reference numeral 350 denotes a recognizable section transmitted to the recognition engine. Reference numeral 340 denotes an extendable section of the recognizable section.

도 3의 (b)에 도시된 바와 같이 본 발명을 적용하면 에코 제거에 따라 비프음이 효과적으로 제거되어 화자의 순수 음성만이 검출됨을 확인할 수 있다.As shown in (b) of FIG. 3 , when the present invention is applied, it can be confirmed that only the speaker's pure voice is detected because the beep sound is effectively removed according to the echo cancellation.

도 4는 음성 전처리 시스템을 구성하는 에코 캔슬러의 동작 구성도이다.4 is an operation block diagram of an echo canceller constituting a voice pre-processing system.

MIC(405)는 사용자의 발화(s(n) : utterance)를 입력받는 기능을 수행한다. 이때 SPEAKER(410)로부터 비프음을 포함한 에코 신호(d(n) : echo)도 MIC(405)로 입력된다.The MIC 405 performs a function of receiving a user's utterance (s(n): utterance). At this time, an echo signal (d(n): echo) including a beep from the SPEAKER 410 is also input to the MIC 405 .

적응 필터(Adaptive Filter h(n); 425)는 SPEAKER(410)를 통해 나간 소리가 echo의 형태로 다시 MIC(405)로 유입되는데, 이 echo 신호를 adaptation을 통해 예측해서 제거하는 기능을 수행한다.The adaptive filter (Adaptive Filter h(n); 425), the sound emitted through the SPEAKER 410, is introduced back into the MIC 405 in the form of echo, and performs a function of predicting and removing this echo signal through adaptation. .

검출 및 제어부(420)는 MIC(405)로 입력된 신호에서 동시 통화 검출(Double Talk Detection) 기능을 수행한다. 또한 검출 및 제어부(420)는 적응 필터(425)가 adaptation을 통해 echo 신호를 예측해서 제거할 수 있게 어댑테이션 레이트(Adaptation Rate)를 조절하여 적응 필터(425)에 제공하는 기능도 수행한다.The detection and control unit 420 performs a double talk detection function on a signal input to the MIC 405 . Also, the detection and control unit 420 adjusts the adaptation rate so that the adaptive filter 425 can predict and remove the echo signal through adaptation, and provides it to the adaptive filter 425 .

잔류 에코 억제기(Residual Echo Suppressor; 415)는 적응 필터(425)에 의해 충분히 제거되지 않은 echo를 제거하는 기능을 수행한다.The residual echo suppressor (Residual Echo Suppressor) 415 performs a function of canceling an echo that is not sufficiently removed by the adaptive filter 425 .

Echo 제거로 인하여 silence 구간이 존재하게 되고, 이로 인하여 잡음 특성이 일정하지 않게 된다. 통신 잡음 발생기(Comfort Noise Generator; 430)는 이를 방지하기 위해 배경 잡음과 유사한 comfort noise를 생성하여 더해주는 기능을 수행한다.A silence section exists due to the echo cancellation, and therefore the noise characteristic is not constant. In order to prevent this, the communication noise generator 430 generates and adds comfort noise similar to background noise.

음성 인식을 처음 사용하는 초보 사용자나 중급 이상의 사용자도 성미가 급하거나 익숙치 않은 경우 음성 인식 명령어를 발화시 대개는 비프음을 듣고 발화해야 정상적으로 인식한다.Even beginners or intermediate users who are using voice recognition for the first time, if they have a quick temper or are unfamiliar with voice recognition, usually have to hear a beep when uttering a voice recognition command in order to recognize it normally.

하지만, 비프음을 기다리지 않고 안내 멘트만 듣고 발화하는 경우에 음성 인식이 실패하게 된다. 즉 음성 인식 사용자는 사용의 미숙한 점을 탓하지 않고 시스템이 인식을 안한다는 내용의 불만 제기를 하게 된다.However, in the case where only a guide message is heard and uttered without waiting for a beep sound, voice recognition fails. In other words, voice recognition users do not blame their inexperience in use, but complain that the system does not recognize them.

이상의 내용을 정리해보면 다음과 같다.A summary of the above is as follows.

Use Case 1 : 비프음 재생후 발화하는 경우 → 인식 성공Use Case 1 : In case of firing after beep sound → Recognition success

Use Case 2 : 비프음 재생전 발화하는 경우 → 단, 마이크 오픈 시점과 비프음 재생 간의 간격 시간이 30ms로 짧아서 발생하기 어려움 → 인식 실패Use Case 2 : In case of firing before beep sound → However, it is difficult to occur because the interval between microphone open time and beep sound is short as 30ms → Recognition failure

Use Case 3 : 비프음 재생중 발화하는 경우 → 인식 실패Use Case 3 : In case of firing while beep sound is playing → Recognition failure

본 발명의 경우 마이크 오픈 시점을 안내 멘트 재생과 비프음 재생 사이의 시간으로 본 발명을 적용함으로써 Use Case 2 및 3에 대해서도 인식 성공을 구현할 수 있다.In the case of the present invention, by applying the present invention as the time between the guidance message reproduction and the beep sound reproduction, the microphone opening time can be implemented to achieve recognition success in Use Cases 2 and 3.

이상 도 1 내지 도 4를 참조하여 본 발명의 일실시 형태에 대하여 설명하였다. 이하에서는 이러한 일실시 형태로부터 추론 가능한 본 발명의 바람직한 형태에 대하여 설명한다.An embodiment of the present invention has been described above with reference to FIGS. 1 to 4 . Hereinafter, a preferred embodiment of the present invention that can be inferred from such an embodiment will be described.

본 발명의 바람직한 실시예에 따른 차량용 음성 인식 장치는 비프음 제거부, 사용자 정보 획득부, 어휘 리스트 검출부, 음성 인식부, 전원부 및 주제어부를 포함한다.A voice recognition apparatus for a vehicle according to a preferred embodiment of the present invention includes a beep removal unit, a user information acquisition unit, a vocabulary list detection unit, a voice recognition unit, a power supply unit, and a main control unit.

전원부는 차량용 음성 인식 장치를 구성하는 각 구성에 전원을 공급하는 기능을 수행한다. 주제어부는 차량용 음성 인식 장치를 구성하는 각 구성의 전체 작동을 제어하는 기능을 수행한다. 차량용 음성 인식 장치가 차량에 구비되는 것임을 고려할 때 전원부와 주제어부는 차량용 배터리와 MCU(또는 ECU)에 의해 대체 가능하므로, 본 실시예에서 전원부와 주제어부는 구비되지 않아도 무방하다.The power supply unit performs a function of supplying power to each component constituting the vehicle voice recognition device. The main controller performs a function of controlling the overall operation of each component constituting the vehicle voice recognition device. Considering that the vehicle voice recognition device is provided in the vehicle, the power supply unit and the main control unit can be replaced by the vehicle battery and the MCU (or ECU), so the power supply unit and the main control unit do not need to be provided in this embodiment.

비프음 제거부는 차량에서 사용자에 의해 사운드 정보가 입력되면 사운드 정보로부터 비프음(Beep Sound)을 제거하여 사용자의 음성을 획득하는 기능을 수행한다.When sound information is input by the user in the vehicle, the beep sound removal unit performs a function of acquiring the user's voice by removing a beep sound from the sound information.

비프음 제거부는 사운드 정보로부터 비프음과 더불어 노이즈도 제거할 수 있다.The beep removal unit may remove noise along with the beep sound from the sound information.

비프음 제거부는 에코 캔슬러(Echo Canceller)를 이용하여 비프음을 제거하며, 노이즈 리덕션(Noise Reduction)을 이용하여 노이즈를 제거할 수 있다.The beep removal unit may remove the beep sound using an echo canceller, and may remove the noise using noise reduction.

비프음 제거부는 에코 캔슬러로 적응 필터(Adaptive Filter), 잔류 에코 억제기(Residual Echo Suppressor) 및 통신 소음 발생기(comfort Noise Generator)를 포함하는 에코 캔슬러를 이용할 수 있다.The beep canceller may use an echo canceller including an adaptive filter, a residual echo suppressor, and a comfort noise generator as an echo canceller.

비프음 제거부는 사운드 정보로부터 비프음을 먼저 제거하고 노이즈를 나중 제거할 수 있다.The beep removal unit may first remove the beep sound from the sound information and then remove the noise.

비프음 제거부는 사운드 정보에 포함된 오디오 데이터에 대하여 스테레오 성분을 모노 성분으로 변환하며, 다운 샘플링(Down Sampling)을 이용하여 사운드 정보에 포함된 각 성분의 주파수를 동일하게 변환하여, 사운드 정보로부터 비프음을 제거할 수 있다.The beep removal unit converts a stereo component into a mono component with respect to the audio data included in the sound information, and converts the frequency of each component included in the sound information to the same frequency by using down sampling, and converts the beep from the sound information. sound can be removed.

사용자 정보 획득부는 사용자에 대한 정보를 획득하는 기능을 수행한다.The user information obtaining unit performs a function of obtaining information about the user.

어휘 리스트 검출부는 사용자에 대한 정보를 기초로 데이터베이스로부터 어휘 리스트를 검출하는 기능을 수행한다.The vocabulary list detector detects the vocabulary list from the database based on information about the user.

어휘 리스트 검출부는 데이터베이스로부터 사용자가 기준 횟수 이상 발화한 것으로 기록된 단어, 문장 및 명령어 중 적어도 하나를 수집 및 취합하여 어휘 리스트로 검출할 수 있다. 이를 위해 어휘 리스트 검출부는 사용자의 발화 음성이 인식될 때마다 해당 어휘에 대하여 발화 횟수를 1씩 증가시킬 수 있다.The vocabulary list detection unit may collect and collect at least one of words, sentences, and commands recorded as utterances by the user more than a reference number of times from the database, and detect it as a vocabulary list. To this end, the vocabulary list detector may increase the number of utterances for the corresponding vocabulary by one whenever the user's uttered voice is recognized.

음성 인식부는 어휘 리스트를 기초로 사용자의 음성을 인식하는 기능을 수행한다.The voice recognition unit performs a function of recognizing the user's voice based on the vocabulary list.

이상 설명한 차량용 음성 인식 장치는 비프음이 재생된 뒤 사용자로부터 발화 음성이 입력되면 구동할 수 있다.The above-described vehicle voice recognition apparatus may be driven when a spoken voice is input from the user after the beep sound is reproduced.

다음으로 차량용 음성 인식 장치의 작동 방법에 대하여 설명한다.Next, a method of operating the voice recognition device for a vehicle will be described.

먼저 비프음 제거부가 차량에서 사용자에 의해 사운드 정보가 입력되면 사운드 정보로부터 비프음(Beep Sound)을 제거하여 사용자의 음성을 획득한다.First, when sound information is input by the user in the vehicle, the beep removal unit removes a beep sound from the sound information to obtain the user's voice.

이후 사용자 정보 획득부가 사용자에 대한 정보를 획득한다.Thereafter, the user information acquisition unit acquires information about the user.

이후 어휘 리스트 검출부가 사용자에 대한 정보를 기초로 데이터베이스로부터 어휘 리스트를 검출한다.Thereafter, the vocabulary list detection unit detects the vocabulary list from the database based on the information about the user.

이후 음성 인식부가 어휘 리스트를 기초로 사용자의 음성을 인식한다.Thereafter, the voice recognition unit recognizes the user's voice based on the vocabulary list.

이상에서 설명한 본 발명의 실시예를 구성하는 모든 구성요소들이 하나로 결합하거나 결합하여 동작하는 것으로 기재되어 있다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한, 이와 같은 컴퓨터 프로그램은 USB 메모리, CD 디스크, 플래쉬 메모리 등과 같은 컴퓨터가 읽을 수 있는 기록매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 기록매체로서는 자기 기록매체, 광 기록매체, 캐리어 웨이브 매체 등이 포함될 수 있다.Even though all the components constituting the embodiment of the present invention described above are described as being combined or operated in combination, the present invention is not necessarily limited to this embodiment. That is, within the scope of the object of the present invention, all the components may operate by selectively combining one or more. In addition, all of the components may be implemented as one independent hardware, but a part or all of each component is selectively combined to perform some or all of the functions of the combined hardware in one or a plurality of hardware program modules It may be implemented as a computer program having In addition, such a computer program is stored in a computer readable media such as a USB memory, a CD disk, a flash memory, etc., read and executed by a computer, thereby implementing an embodiment of the present invention. The computer program recording medium may include a magnetic recording medium, an optical recording medium, a carrier wave medium, and the like.

또한, 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 상세한 설명에서 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.In addition, all terms including technical or scientific terms have the same meaning as commonly understood by one of ordinary skill in the art to which the present invention belongs, unless otherwise defined in the detailed description. Terms commonly used, such as those defined in the dictionary, should be interpreted as being consistent with the contextual meaning of the related art, and are not interpreted in an ideal or excessively formal meaning unless explicitly defined in the present invention.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.The above description is merely illustrative of the technical idea of the present invention, and various modifications, changes, and substitutions are possible within the range that does not depart from the essential characteristics of the present invention by those of ordinary skill in the art to which the present invention pertains. will be. Accordingly, the embodiments disclosed in the present invention and the accompanying drawings are for explaining, not limiting, the technical spirit of the present invention, and the scope of the technical spirit of the present invention is not limited by these embodiments and the accompanying drawings . The protection scope of the present invention should be construed by the following claims, and all technical ideas within the scope equivalent thereto should be construed as being included in the scope of the present invention.

Claims (13)

차량에서 사용자에 의해 사운드 정보가 입력되면 상기 사운드 정보로부터 비프음(Beep Sound)을 제거하여 상기 사용자의 음성을 획득하는 비프음 제거부;
상기 사용자에 대한 정보를 획득하는 사용자 정보 획득부;
상기 사용자에 대한 정보를 기초로 데이터베이스로부터 어휘 리스트를 검출하는 어휘 리스트 검출부; 및
상기 어휘 리스트를 기초로 상기 사용자의 음성을 인식하는 음성 인식부를 포함하되,
상기 비프음 제거부는, 에코 캔슬러(Echo Canceller)를 이용하여 상기 비프음을 제거하고,
상기 에코 캔슬러는, 상기 사운드 정보로부터 에코 신호를 어댑테이션(adaptation)을 통해 예측해서 제거하는 적응 필터(Adaptive Filter);
상기 적응 필터가 상기 에코 신호를 예측해서 제거할 수 있도록 어댑테이션 레이트(Adaptation Rate)를 조절하여 상기 적응 필터에 제공하는 검출 및 제어부;
상기 적응 필터에 의해 제거되지 않은 잔류 에코를 제거하는 잔류 에코 억제기(Residual Echo Suppressor); 및
배경 잡음과 유사한 통신 잡음(comfort noise)을 생성하여 상기 잔류 에코 억제기의 출력에 더하는 통신 잡음 발생기(comfort Noise Generator)를 포함하며,
상기 비프음 제거부는 상기 사운드 정보에 포함된 오디오 데이터에 대하여 스테레오 성분을 모노 성분으로 변환하며, 다운 샘플링(Down Sampling)을 이용하여 상기 사운드 정보에 포함된 각 성분의 주파수를 동일하게 변환하여, 상기 사운드 정보로부터 상기 비프음을 제거하고,
상기 사용자에 의해 사운드 정보가 입력되는 마이크 오픈 시점을 안내 멘트 재생과 비프음 재생 사이의 시간으로 적용함으로써, 발화 타이밍을 잘못 맞추더라도 상기 사용자의 음성을 인식할 수 있도록 하는 것을 특징으로 하는 차량용 음성 인식 장치.
a beep sound removing unit for obtaining the user's voice by removing a beep sound from the sound information when sound information is input by the user in the vehicle;
a user information obtaining unit obtaining information about the user;
a vocabulary list detector configured to detect a vocabulary list from a database based on the information on the user; and
A voice recognition unit for recognizing the user's voice based on the vocabulary list,
The beep sound canceling unit removes the beep sound using an echo canceller,
The echo canceller may include: an adaptive filter for predicting and removing an echo signal from the sound information through adaptation;
a detection and control unit that adjusts an adaptation rate and provides it to the adaptive filter so that the adaptive filter can predict and remove the echo signal;
a residual echo suppressor that removes a residual echo that has not been removed by the adaptive filter; and
a communication noise generator that generates a comfort noise similar to background noise and adds it to the output of the residual echo suppressor;
The beep removal unit converts a stereo component into a mono component with respect to the audio data included in the sound information, and equally converts the frequency of each component included in the sound information by using down sampling, the remove the beep sound from sound information,
Voice recognition for a vehicle, characterized in that by applying the microphone opening time, at which sound information is input by the user, as a time between the reproduction of the guidance message and the reproduction of the beep sound, the user's voice can be recognized even if the timing of the speech is mismatched. Device.
제 1 항에 있어서,
상기 비프음 제거부는 상기 사운드 정보로부터 상기 비프음과 더불어 노이즈도 제거하는 것을 특징으로 하는 차량용 음성 인식 장치.
The method of claim 1,
The voice recognition apparatus for a vehicle, characterized in that the beep removal unit removes noise along with the beep sound from the sound information.
제 2 항에 있어서,
상기 비프음 제거부는 노이즈 리덕션(Noise Reduction)을 이용하여 상기 노이즈를 제거하는 것을 특징으로 하는 차량용 음성 인식 장치.
3. The method of claim 2,
The voice recognition apparatus for a vehicle, wherein the beep removal unit removes the noise by using noise reduction.
삭제delete 제 2 항에 있어서,
상기 비프음 제거부는 상기 사운드 정보로부터 상기 비프음을 먼저 제거하고 상기 노이즈를 나중 제거하는 것을 특징으로 하는 차량용 음성 인식 장치.
3. The method of claim 2,
The beep sound removing unit first removes the beep sound from the sound information and then removes the noise later.
삭제delete 제 1 항에 있어서,
상기 어휘 리스트 검출부는 상기 데이터베이스로부터 상기 사용자가 기준 횟수 이상 발화한 것으로 기록된 단어, 문장 및 명령어 중 적어도 하나를 수집 및 취합하여 상기 어휘 리스트로 검출하는 것을 특징으로 하는 차량용 음성 인식 장치.
The method of claim 1,
The vocabulary list detector collects and collects at least one of words, sentences, and commands recorded as uttered by the user more than a reference number of times from the database, and detects the vocabulary list as the vocabulary list.
제 1 항에 있어서,
상기 차량용 음성 인식 장치는 상기 비프음이 재생된 뒤 상기 사용자로부터 발화 음성이 입력되면 구동하는 것을 특징으로 하는 차량용 음성 인식 장치.
The method of claim 1,
The in-vehicle voice recognition device is driven when the spoken voice is input from the user after the beep sound is reproduced.
차량에서 사용자에 의해 사운드 정보가 입력되면, 비프음 제어부가 상기 사운드 정보로부터 비프음(Beep Sound)을 제거하여 상기 사용자의 음성을 획득하는 단계;
사용자 정보 획득부가 상기 사용자에 대한 정보를 획득하는 단계;
어휘 리스트 검출부가 상기 사용자에 대한 정보를 기초로 데이터베이스로부터 어휘 리스트를 검출하는 단계; 및
음성 인식부가 상기 어휘 리스트를 기초로 상기 사용자의 음성을 인식하는 단계를 포함하되,
상기 사용자의 음성을 획득하는 단계는, 에코 캔슬러(Echo Canceller)를 이용하여 상기 비프음을 제거하고,
상기 에코 캔슬러는, 상기 사운드 정보로부터 에코 신호를 어댑테이션(adaptation)을 통해 예측해서 제거하는 적응 필터(Adaptive Filter), 상기 적응 필터가 상기 에코 신호를 예측해서 제거할 수 있도록 어댑테이션 레이트(Adaptation Rate)를 조절하여 상기 적응 필터에 제공하는 검출 및 제어부, 상기 적응 필터에 의해 제거되지 않은 잔류 에코를 제거하는 잔류 에코 억제기(Residual Echo Suppressor), 및 배경 잡음과 유사한 통신 잡음(comfort noise)을 생성하여 상기 잔류 에코 억제기의 출력에 더하는 통신 잡음 발생기(comfort Noise Generator)를 포함하며,
상기 비프음을 제거하여 상기 사용자의 음성을 획득하는 단계에서,
상기 비프음 제거부는 상기 사운드 정보에 포함된 오디오 데이터에 대하여 스테레오 성분을 모노 성분으로 변환하며, 다운 샘플링(Down Sampling)을 이용하여 상기 사운드 정보에 포함된 각 성분의 주파수를 동일하게 변환하여, 상기 사운드 정보로부터 상기 비프음을 제거하고,
상기 사용자에 의해 사운드 정보가 입력되는 마이크 오픈 시점을 안내 멘트 재생과 비프음 재생 사이의 시간으로 적용함으로써, 발화 타이밍을 잘못 맞추더라도 상기 사용자의 음성을 인식할 수 있도록 하는 것을 특징으로 하는 차량용 음성 인식 방법.
obtaining, by a beep sound controller, a beep sound from the sound information when sound information is input by the user in the vehicle, to obtain the user's voice;
obtaining, by a user information obtaining unit, information about the user;
detecting, by a vocabulary list detection unit, a vocabulary list from a database based on the information about the user; and
A voice recognition unit comprising the step of recognizing the user's voice based on the vocabulary list,
The step of obtaining the user's voice includes removing the beep sound using an echo canceller,
The echo canceller includes an adaptive filter that predicts and removes an echo signal from the sound information through adaptation, and an adaptation rate so that the adaptive filter predicts and removes the echo signal. A detection and control unit provided to the adaptive filter by adjusting and a comfort noise generator that adds to the output of the residual echo suppressor;
In the step of obtaining the user's voice by removing the beep sound,
The beep removal unit converts a stereo component into a mono component with respect to the audio data included in the sound information, and equally converts the frequency of each component included in the sound information by using down sampling, the remove the beep sound from sound information,
Voice recognition for a vehicle, characterized in that by applying a microphone open time point at which sound information is input by the user as a time between a guidance message reproduction and a beep sound reproduction, the user's voice can be recognized even if the speech timing is wrong Way.
제 9 항에 있어서,
상기 사용자의 음성을 획득하는 단계는 상기 사운드 정보로부터 상기 비프음과 더불어 노이즈도 제거하는 것을 특징으로 하는 차량용 음성 인식 방법.
10. The method of claim 9,
The obtaining of the user's voice comprises removing noise as well as the beep sound from the sound information.
제 10 항에 있어서,
상기 사용자의 음성을 획득하는 단계는 노이즈 리덕션(Noise Reduction)을 이용하여 상기 노이즈를 제거하는 것을 특징으로 하는 차량용 음성 인식 방법.
11. The method of claim 10,
The obtaining of the user's voice comprises removing the noise using noise reduction.
삭제delete 제 10 항에 있어서,
상기 사용자의 음성을 획득하는 단계는 상기 사운드 정보로부터 상기 비프음을 먼저 제거하고 상기 노이즈를 나중 제거하는 것을 특징으로 하는 차량용 음성 인식 방법.
11. The method of claim 10,
The acquiring of the user's voice comprises first removing the beep sound from the sound information and then removing the noise later.
KR1020140170600A 2014-12-02 2014-12-02 Apparatus and method for recognizing voice in vehicle KR102394510B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140170600A KR102394510B1 (en) 2014-12-02 2014-12-02 Apparatus and method for recognizing voice in vehicle

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140170600A KR102394510B1 (en) 2014-12-02 2014-12-02 Apparatus and method for recognizing voice in vehicle

Publications (3)

Publication Number Publication Date
KR20160066347A KR20160066347A (en) 2016-06-10
KR102394510B1 true KR102394510B1 (en) 2022-05-06
KR102394510B9 KR102394510B9 (en) 2023-05-11

Family

ID=56190676

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140170600A KR102394510B1 (en) 2014-12-02 2014-12-02 Apparatus and method for recognizing voice in vehicle

Country Status (1)

Country Link
KR (1) KR102394510B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102369416B1 (en) 2017-09-18 2022-03-03 삼성전자주식회사 Speech signal recognition system recognizing speech signal of a plurality of users by using personalization layer corresponding to each of the plurality of users

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005025100A (en) * 2003-07-02 2005-01-27 Nissan Motor Co Ltd Vehicle-mounted equipment control device
JP2005084253A (en) * 2003-09-05 2005-03-31 Matsushita Electric Ind Co Ltd Sound processing apparatus, method, program and storage medium
JP2007522754A (en) * 2004-02-11 2007-08-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Acoustic feedback suppression
JP2007286136A (en) * 2006-04-13 2007-11-01 Alpine Electronics Inc In-vehicle voice recognition device and voice recognition method

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR950006814A (en) * 1993-08-28 1995-03-21 정장호 Beep generation elimination circuit of audio signal

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005025100A (en) * 2003-07-02 2005-01-27 Nissan Motor Co Ltd Vehicle-mounted equipment control device
JP2005084253A (en) * 2003-09-05 2005-03-31 Matsushita Electric Ind Co Ltd Sound processing apparatus, method, program and storage medium
JP2007522754A (en) * 2004-02-11 2007-08-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Acoustic feedback suppression
JP2007286136A (en) * 2006-04-13 2007-11-01 Alpine Electronics Inc In-vehicle voice recognition device and voice recognition method

Also Published As

Publication number Publication date
KR102394510B9 (en) 2023-05-11
KR20160066347A (en) 2016-06-10

Similar Documents

Publication Publication Date Title
US20230178077A1 (en) Techniques for wake-up work recognition and related systems and methods
EP3678135B1 (en) Voice control in a multi-talker and multimedia environment
JP5916054B2 (en) Voice data relay device, terminal device, voice data relay method, and voice recognition system
US20190355352A1 (en) Voice and conversation recognition system
US20050216271A1 (en) Speech dialogue system for controlling an electronic device
JP5649488B2 (en) Voice discrimination device, voice discrimination method, and voice discrimination program
US20080249779A1 (en) Speech dialog system
JP2008299221A (en) Speech detection device
US20240005919A1 (en) Voice processing device, voice processing method and voice processing system
JP2007219207A (en) Speech recognition device
EP1494208A1 (en) Method for controlling a speech dialog system and speech dialog system
CN111199735A (en) Vehicle-mounted device and voice recognition method
JP6459330B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
JPH1152976A (en) Voice recognition device
US11056113B2 (en) Conversation guidance method of speech recognition system
KR102394510B1 (en) Apparatus and method for recognizing voice in vehicle
JP2008250236A (en) Speech recognition device and speech recognition method
US11276404B2 (en) Speech recognition device, speech recognition method, non-transitory computer-readable medium storing speech recognition program
JP4507996B2 (en) Driver load estimation device
US20230252987A1 (en) Vehicle and control method thereof
JP6948275B2 (en) Calling device and control method of calling device
JP2006343642A (en) Speech recognition method, speech recognition device, program, and recording medium
JPH11298382A (en) Handsfree device
CN110738995A (en) sound signal acquisition method and device
CN116798415A (en) Dialogue management method, user terminal, and computer-readable recording medium

Legal Events

Date Code Title Description
A201 Request for examination
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Re-publication after modification of scope of protection [patent]