KR20160066347A - Apparatus and method for recognizing voice in vehicle - Google Patents

Apparatus and method for recognizing voice in vehicle Download PDF

Info

Publication number
KR20160066347A
KR20160066347A KR1020140170600A KR20140170600A KR20160066347A KR 20160066347 A KR20160066347 A KR 20160066347A KR 1020140170600 A KR1020140170600 A KR 1020140170600A KR 20140170600 A KR20140170600 A KR 20140170600A KR 20160066347 A KR20160066347 A KR 20160066347A
Authority
KR
South Korea
Prior art keywords
user
beep
voice
sound
information
Prior art date
Application number
KR1020140170600A
Other languages
Korean (ko)
Other versions
KR102394510B9 (en
KR102394510B1 (en
Inventor
김성중
Original Assignee
현대모비스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 현대모비스 주식회사 filed Critical 현대모비스 주식회사
Priority to KR1020140170600A priority Critical patent/KR102394510B1/en
Publication of KR20160066347A publication Critical patent/KR20160066347A/en
Application granted granted Critical
Publication of KR102394510B1 publication Critical patent/KR102394510B1/en
Publication of KR102394510B9 publication Critical patent/KR102394510B9/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Abstract

The present invention suggests an apparatus and a method for recognizing voice in a vehicle to recognize the voice of a user by removing a beep sound from sound information inputted to a micro phone and by using customized database for the user. The device according to the present invention includes a beep sound removing part which removes the beep sound from the sound information and obtains the voice of the user when the sound information is inputted by the user in the vehicle; a user information obtaining part which obtains information about the user; and a vocabulary list detecting part which detects a vocabulary list from the database based on the information about the user; and a voice recognition part which recognizes the voice of the user based on the vocabulary list.

Description

차량용 음성 인식 장치 및 방법 {Apparatus and method for recognizing voice in vehicle}[0001] Apparatus and method for recognizing voice in vehicle [

본 발명은 음성 인식 장치 및 방법에 관한 것이다. 보다 상세하게는, 차량용 음성 인식 장치 및 방법에 관한 것이다.The present invention relates to a speech recognition apparatus and method. More particularly, the present invention relates to a vehicle speech recognition apparatus and method.

일반적으로 차량에는 많은 장치들이 설치되어 있으며 최근에는 운전자나 탑승객들의 편의를 위한 장치들이 꾸준히 개발되어 설치되고 있다. 대표적인 것으로 오디오 장치나 공조 장치 등이 있으며, 더 나아가 인공위성 등을 통해 자동차의 위치를 파악하여 목적지까지의 경로를 안내해주는 내비게이션이 설치되는 차량 또한 증가하는 추세이다.Generally, many devices are installed in the vehicle, and devices for the convenience of the driver and the passengers are constantly being developed and installed. Typical examples are audio devices and air conditioners, and moreover, there is an increasing trend of vehicles equipped with navigation systems that guide the route to the destination by locating the vehicle through a satellite or the like.

그러나 이와 같은 편의 장치들은 운전자와 탑승객에게 여러가지 편리함을 제공해주는 것이 사실이지만, 운전자가 운전 중에 편의 장치들을 조작하는 과정에서 운전에 대한 집중도가 저하되고 주의가 산만해져 사고가 발생할 위험이 높아지는 문제점이 있다.However, it is true that such convenience devices provide various convenience to the driver and the passengers. However, there is a problem that the driver has a low concentration of driving in the process of operating the convenience devices while driving, .

이러한 문제점을 해결하기 위해서 최근에는 운전자가 편의 장치들을 직접 조작할 필요없이 음성으로 명령하면 운전자의 음성을 인식하여 운전자의 음성 명령에 따라 각종 편의 장치들을 제어하는 차량용 음성 인식 장치가 개발되고 있다.In order to solve such a problem, in recent years, a vehicle voice recognition device has been developed in which a driver recognizes a voice of a driver and controls various convenience devices according to a voice command of the driver when the driver commands the voice without directly manipulating the convenience devices.

그러나 종래의 차량용 음성 인식 장치에는 운전자의 음성을 인식하기 위한 마이크로폰만이 존재하였기 때문에 차량의 내부 또는 외부에서 발생하는 소음이 음성과 함께 마이크로폰으로 입력되어 음성 제어가 제대로 되지 않는다는 문제점이 있다.However, since only a microphone for recognizing the driver's voice exists in the conventional vehicle voice recognition device, the noise generated from the inside or the outside of the vehicle is inputted to the microphone together with the voice, so that the voice control is not properly performed.

한국공개특허 제2013-0063091호는 차량용 음성 인식 장치에 대하여 제안하고 있다. 그러나 이 장치는 필요에 따라 선택적으로 활성화되어 사용자의 음성 명령을 인식하는 것이기 때문에 상기한 문제점을 해결할 수 없다.Korean Patent Laid-Open Publication No. 2013-0063091 proposes a speech recognition device for a vehicle. However, this apparatus can not solve the above-described problem because it is selectively activated as needed to recognize the voice command of the user.

본 발명은 상기한 문제점을 해결하기 위해 안출된 것으로서, 마이크로폰으로 입력된 사운드 정보로부터 비프음을 제거하고 사용자에 특화된 데이터베이스를 이용하여 사용자의 음성을 인식하는 차량용 음성 인식 장치 및 방법을 제안하는 것을 목적으로 한다.SUMMARY OF THE INVENTION It is an object of the present invention to provide a vehicle voice recognition apparatus and method for recognizing voice of a user by removing a beep from sound information input by a microphone and using a database specialized for the user .

그러나 본 발명의 목적은 상기에 언급된 사항으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.However, the objects of the present invention are not limited to those mentioned above, and other objects not mentioned can be clearly understood by those skilled in the art from the following description.

본 발명은 상기한 목적을 달성하기 위해 안출된 것으로서, 차량에서 사용자에 의해 사운드 정보가 입력되면 상기 사운드 정보로부터 비프음(Beep Sound)을 제거하여 상기 사용자의 음성을 획득하는 비프음 제거부; 상기 사용자에 대한 정보를 획득하는 사용자 정보 획득부; 상기 사용자에 대한 정보를 기초로 데이터베이스로부터 어휘 리스트를 검출하는 어휘 리스트 검출부; 및 상기 어휘 리스트를 기초로 상기 사용자의 음성을 인식하는 음성 인식부를 포함하는 것을 특징으로 하는 차량용 음성 인식 장치를 제안한다.SUMMARY OF THE INVENTION The present invention is conceived to achieve the above-mentioned object, and it is an object of the present invention to provide a beep tone remover which removes a beep sound from the sound information when a sound information is input by a user in a vehicle, A user information acquisition unit for acquiring information about the user; A vocabulary list detection unit for detecting a vocabulary list from a database based on information about the user; And a voice recognition unit for recognizing the voice of the user based on the lexical list.

바람직하게는, 상기 비프음 제거부는 상기 사운드 정보로부터 상기 비프음과 더불어 노이즈도 제거한다.Preferably, the beep canceller removes noise from the sound information in addition to the beep sound.

바람직하게는, 상기 비프음 제거부는 에코 캔슬러(Echo Canceller)를 이용하여 상기 비프음을 제거하며, 노이즈 리덕션(Noise Reduction)을 이용하여 상기 노이즈를 제거한다.Preferably, the beep canceling unit removes the beep using an echo canceller, and removes the noise using noise reduction.

바람직하게는, 상기 비프음 제거부는 상기 에코 캔슬러로 적응 필터(Adaptive Filter), 잔류 에코 억제기(Residual Echo Suppressor) 및 통신 소음 발생기(comfort Noise Generator)를 포함하는 에코 캔슬러를 이용한다.Preferably, the beep canceler uses an echo canceller including an adaptive filter, a residual echo suppressor, and a comfort noise generator as the echo canceller.

바람직하게는, 상기 비프음 제거부는 상기 사운드 정보로부터 상기 비프음을 먼저 제거하고 상기 노이즈를 나중 제거한다.Preferably, the beep canceller removes the beep first from the sound information and removes the noise later.

바람직하게는, 상기 비프음 제거부는 상기 사운드 정보에 포함된 오디오 데이터에 대하여 스테레오 성분을 모노 성분으로 변환하며, 다운 샘플링(Down Sampling)을 이용하여 상기 사운드 정보에 포함된 각 성분의 주파수를 동일하게 변환하여, 상기 사운드 정보로부터 상기 비프음을 제거한다.Preferably, the beep canceller converts a stereo component to a mono component with respect to the audio data included in the sound information, and uses the down sampling to equalize the frequency of each component included in the sound information And removes the beep sound from the sound information.

바람직하게는, 상기 어휘 리스트 검출부는 상기 데이터베이스로부터 상기 사용자가 기준 횟수 이상 발화한 것으로 기록된 단어, 문장 및 명령어 중 적어도 하나를 수집 및 취합하여 상기 어휘 리스트로 검출한다.Preferably, the lexical item list detector collects and collects at least one of words, sentences, and commands written by the user as a speech uttered over the reference number of times from the database, and detects the lexical list.

바람직하게는, 상기 차량용 음성 인식 장치는 상기 비프음이 재생된 뒤 상기 사용자로부터 발화 음성이 입력되면 구동한다.Preferably, the vehicle voice recognition apparatus is driven when a speech sound is input from the user after the beep sound is reproduced.

또한 본 발명은 차량에서 사용자에 의해 사운드 정보가 입력되면 상기 사운드 정보로부터 비프음(Beep Sound)을 제거하여 상기 사용자의 음성을 획득하는 단계; 상기 사용자에 대한 정보를 획득하는 단계; 상기 사용자에 대한 정보를 기초로 데이터베이스로부터 어휘 리스트를 검출하는 단계; 및 상기 어휘 리스트를 기초로 상기 사용자의 음성을 인식하는 단계를 포함하는 것을 특징으로 하는 차량용 음성 인식 방법을 제안한다.In addition, the present invention provides a method of controlling a mobile terminal, comprising the steps of: receiving sound information from a user in a vehicle, removing a beep sound from the sound information; Obtaining information about the user; Detecting a vocabulary list from a database based on information about the user; And recognizing the voice of the user based on the lexical list.

바람직하게는, 상기 사용자의 음성을 획득하는 단계는 상기 사운드 정보로부터 상기 비프음과 더불어 노이즈도 제거한다.Advantageously, the step of acquiring the user's voice also removes noise from the sound information, in addition to the beep sound.

바람직하게는, 상기 사용자의 음성을 획득하는 단계는 에코 캔슬러(Echo Canceller)를 이용하여 상기 비프음을 제거하며, 노이즈 리덕션(Noise Reduction)을 이용하여 상기 노이즈를 제거한다.Preferably, the step of acquiring the user's voice removes the beep using an echo canceller, and removes the noise using noise reduction.

바람직하게는, 상기 사용자의 음성을 획득하는 단계는 상기 에코 캔슬러로 적응 필터(Adaptive Filter), 잔류 에코 억제기(Residual Echo Suppressor) 및 통신 소음 발생기(comfort Noise Generator)를 포함하는 에코 캔슬러를 이용한다.Preferably, the step of acquiring the voice of the user further comprises an echo canceller including an adaptive filter, a residual echo suppressor, and a comfort noise generator as the echo canceller .

바람직하게는, 상기 사용자의 음성을 획득하는 단계는 상기 사운드 정보로부터 상기 비프음을 먼저 제거하고 상기 노이즈를 나중 제거한다.Advantageously, the step of acquiring the user's voice first removes the beep from the sound information and removes the noise later.

바람직하게는, 상기 사용자의 음성을 획득하는 단계는 상기 사운드 정보에 포함된 오디오 데이터에 대하여 스테레오 성분을 모노 성분으로 변환하며, 다운 샘플링(Down Sampling)을 이용하여 상기 사운드 정보에 포함된 각 성분의 주파수를 동일하게 변환하여, 상기 사운드 정보로부터 상기 비프음을 제거한다.Preferably, the step of acquiring the voice of the user may include converting the stereo component to mono component with respect to the audio data included in the sound information, and converting the stereo component into mono component using down sampling, The same frequency is converted, and the beep sound is removed from the sound information.

바람직하게는, 상기 검출하는 단계는 상기 데이터베이스로부터 상기 사용자가 기준 횟수 이상 발화한 것으로 기록된 단어, 문장 및 명령어 중 적어도 하나를 수집 및 취합하여 상기 어휘 리스트로 검출한다.Preferably, the detecting includes collecting and collecting at least one of a word, a sentence, and a command written by the user as an utterance exceeding a reference number of times from the database, and detects the word list as the vocabulary list.

바람직하게는, 상기 차량용 음성 인식 방법은 상기 비프음이 재생된 뒤 상기 사용자로부터 발화 음성이 입력되면 수행된다.Preferably, the vehicle speech recognition method is performed when a speech sound is input from the user after the beep sound is reproduced.

본 발명은 마이크로폰으로 입력된 사운드 정보로부터 비프음을 제거하고 사용자에 특화된 데이터베이스를 이용하여 사용자의 음성을 인식함으로써 다음 효과를 얻을 수 있다.The present invention can obtain the following effects by removing the beep sound from the sound information input by the microphone and recognizing the user's voice by using a database specialized for the user.

첫째, 명령어를 조기 발화하는 경우에 비프음과 섞이더라도 인식 동작이 가능하여 사용자의 체감 성능이 향상된다. 또한 사용자별로 인식 명령어를 최적화함으로써 사용자에 맞는 최적화된 인식 성능 향상을 볼 수 있다.First, in case of an utterance of an instruction, even if it is mixed with a beep sound, the recognition operation can be performed, thereby improving the user's perceived performance. In addition, by optimizing recognition commands for each user, optimized recognition performance can be improved for users.

둘째, 음성 인식 초보 사용자나 성미가 급한 사용자의 경우 발화 타이밍을 잘못 맞추더라도 인식하게끔 음성 인식 사용성이 향상된다. 또한 사용자가 주로 사용하는 명령어 위주로 인식 성능을 개선함으로써 사용자 최적화된 사용성을 제시할 수 있다.Second, speech recognition users are more likely to recognize speech even if they are misaligned in the case of a user who is a beginner of speech recognition or a user who is in a hurry. In addition, user-optimized usability can be presented by improving the recognition performance mainly on the commands used mainly by the user.

세째, 기존 발화 시점이 제한이 있었던 반면, 발화 시점에 변동을 줄 수 있어서 사용자에게 맞는 타이밍의 시스템을 설계할 수 있다. 또한 사용자별 명령어 리스트 구비시 사용자가 자주 사용하는 기능이 무엇인지 유추할 수 있다.Third, while the timing of the existing ignition is limited, the timing of the ignition can be changed, so that the timing system suitable for the user can be designed. Also, it is possible to deduce what functions frequently used by the user when the list of commands for each user is provided.

네째, 단순히 비프만 제거하는 것이 아닌 주변 노이즈 상쇄도 진행하여 음성 인식 엔진에게 복잡한 음성이 아닌 클린한 음성을 전달한다.Fourthly, not only the beep but also the surrounding noise canceling is carried out to transmit a clean voice rather than a complex voice to the voice recognition engine.

다섯째, 명령어 인식시 사용자에 해당하는 리스트를 제공함으로써 인식 속도를 향상시킬 수 있다.Fifth, recognition speed can be improved by providing a list corresponding to a user when recognizing an instruction.

여섯째, 클린한 음성이 엔진에 전달되면, 인식 동작에 신뢰성이 향상된다.Sixth, when a clean voice is transmitted to the engine, the reliability of recognition operation is improved.

일곱째, 에코 캔슬러를 SW적으로 사용하는 시스템상 개발이므로 경제적이고 환경에 전혀 유해하지 않다.Seventh, it is economical and not harmful to the environment because it is developed on a system using eco-canler as a SW.

도 1은 본 발명의 일실시예에 따른 음성 전처리 시스템을 도시한 개념도이다.
도 2는 도 1에 도시된 음성 전처리 시스템의 SW 계층도를 도시한 개념도이다.
도 3은 마이크로폰으로 입력된 신호와 에코가 제거된 신호의 분석 결과를 비교한 도면이다.
도 4는 음성 전처리 시스템을 구성하는 에코 캔슬러의 동작 구성도이다.
1 is a conceptual diagram illustrating a speech preprocessing system according to an embodiment of the present invention.
FIG. 2 is a conceptual diagram showing a SW layer diagram of the speech preprocessing system shown in FIG. 1. FIG.
FIG. 3 is a diagram comparing the analysis result of a signal inputted with a microphone and a signal obtained by removing echo.
4 is an operational block diagram of the echo canceller constituting the speech preprocessing system.

이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조 부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the drawings, the same reference numerals are used to designate the same or similar components throughout the drawings. In the following description of the present invention, a detailed description of known functions and configurations incorporated herein will be omitted when it may make the subject matter of the present invention rather unclear. In addition, the preferred embodiments of the present invention will be described below, but it is needless to say that the technical idea of the present invention is not limited thereto and can be variously modified by those skilled in the art.

음성 인식은 논리적이기보다는 감성적인 접근이 필요한 아이템으로 사용자가 한번 사용후 인식이 힘들거나 사용법이 어렵다고 느끼면 감성적 불만을 제기하는 경우가 많다. 즉 고객이 느끼는 체감 지수 상으로는 문제점이 많다고 판단해서 불만을 제기한다.Speech recognition is an item that requires an emotional approach rather than a logical one. It is often the case that a user feels emotional complaints when he or she feels it is hard to recognize after use or difficult to use. In other words, the customer feels that there are many problems with the feeling index.

이러한 IQS 사용자 불만 중 음성 인식 사용성에 대해 불만을 제기하는 경우 상당수가 마이크로폰으로 입력된 음성 정보에 사용자의 음성 뿐만 아니라 각종 노이즈와 비프음(Beep Sound)이 혼합되어 있기 때문이다.In the case of complaining about usability of speech recognition among such IQS user complaints, a large number of users complain about the mixed voice of various noise and beep sound as well as the user's voice in the voice information input by the microphone.

또한 종래 음성 인식 시스템에서 음성 인식 전체 명령어 중 사용자가 사용하는 명령어는 제한적인데 반해서 매번 동일한 조건으로 전체 명령어가 인식 경쟁을 함으로써 인식률이 제한적일 수밖에 없다.In addition, in the conventional speech recognition system, the commands used by the user in the entire speech recognition commands are limited, but the recognition rate is limited due to the competition of recognition of the entire commands in the same condition every time.

본 발명은 이러한 문제점들을 해결하기 위해 안출된 것으로서, 음성 인식 동작시 에코 캔슬러를 이용하여 사용자의 음성에서 비프음을 제거하고 사용자에 특화된 데이터베이스를 이용하여 사용자의 음성을 인식하는 시스템을 제안한다.Disclosure of Invention Technical Problem [8] Accordingly, the present invention has been made to solve the above problems, and it is an object of the present invention to provide a system for eliminating a beep sound from a user's voice by using an echo canceller and recognizing a user's voice using a database specialized for the user.

이하 도면을 참조하여 보다 자세하게 설명한다.Hereinafter, a more detailed description will be given with reference to the drawings.

도 1은 본 발명의 일실시예에 따른 음성 전처리 시스템을 도시한 개념도이다.1 is a conceptual diagram illustrating a speech preprocessing system according to an embodiment of the present invention.

본 발명에 따른 음성 전처리 시스템(100)은 에코 캔슬러(Echo Canceller; 125)를 이용하여 발화자의 음성에서 비프음을 제거하는 전처리 시스템이다. 즉 음성 전처리 시스템(100)은 에코 캔슬러(125)를 이용하여 초보 발화자가 음성 인식 비프음과 함께 발화시 발화자 음성에서 비프음을 제거한 후 인식 엔진(150)에 전달한다. 이러한 음성 전처리 시스템(100)은 각 화자의 음성 특성을 이용하여 화자 구분을 하여 사용자별로 잘 사용하는 명령어 위주로 인식 DB를 구성하여 음성 인식 사용성을 높인다.The speech preprocessing system 100 according to the present invention is a preprocessing system for removing a beep sound from a speech of a speaking person using an echo canceller 125. In other words, the speech preprocessing system 100 uses the echo canceller 125 to remove the beep sound from the speaker's voice at the time of the speech together with the speech recognition beep by the novice speaker, and then transmits the beep sound to the recognition engine 150. The speech preprocessing system 100 improves the speech recognition usability by constructing a recognition DB based on instructions that are well used for each user by classifying the speakers using the speech characteristics of each speaker.

도 1에 따르면, 음성 전처리 시스템(100)은 마이크로폰(105), 오디오 데이터 버퍼(110), 타입 변환부(115), 샘플링부(120), 에코 캔슬러(125), 노이즈 리덕션(Noise Reduction; 130), 화자 판별부(135), 화자별 인식 명령어 리스트 구성부(140), 화자별 인식 명령어 리스트 호출부(145) 및 인식 엔진(150)을 포함한다.1, the speech preprocessing system 100 includes a microphone 105, an audio data buffer 110, a type conversion unit 115, a sampling unit 120, an echo canceller 125, a noise reduction unit (not shown) A speaker identification instruction word list construction unit 140, a speaker recognition instruction word list calling unit 145 and a recognition engine 150. The speaker recognition instruction list construction unit 140,

마이크로폰(105)은 운전자로부터 음성을 입력받는 기능을 수행한다. 이때 운전자의 음성과 더불어 비프음, 주변 노이즈 등이 마이크로폰(105)으로 입력되어 오디오 데이터 버퍼(110)로 전송된다.The microphone 105 performs a function of receiving voice from a driver. At this time, beep sound, ambient noise, etc., along with the driver's voice, are input to the microphone 105 and transmitted to the audio data buffer 110.

오디오 데이터 버퍼(110)는 운전자의 음성, 비프음, 주변 노이즈 등이 혼합된 사운드 정보를 디지털 데이터의 형태로 임시 저장하는 기능을 수행한다. 이후 오디오 데이터 버퍼(110)는 사운드 정보를 타입 변환부(115)로 전송한다.The audio data buffer 110 temporarily stores the sound information mixed with the driver's voice, beep sound, ambient noise, etc. in the form of digital data. Then, the audio data buffer 110 transmits the sound information to the type conversion unit 115.

타입 변환부(115)는 사운드 정보를 구성하는 오디오 데이터(ex. 운전자의 음성)에 대하여 스테레오(Stereo) 특성을 모노(Mono) 특성으로 변환하는 기능을 수행한다.The type conversion unit 115 performs a function of converting a stereo characteristic into a mono characteristic with respect to audio data (e.g., driver's voice) constituting the sound information.

샘플링부(120)는 사운드 정보를 구성하는 각 성분의 주파수를 동일하게 변환하는 기능을 수행한다. 샘플링부(120)는 다운 샘플링 기법(Down Sampling)을 이용하여 운전자의 음성, 비프음 등의 주파수를 동일하게 16KHz로 변환한다.The sampling unit 120 performs a function of converting the frequency of each component constituting the sound information equally. The sampling unit 120 converts the frequencies of the driver's voice and beep sound to 16 KHz by using a down sampling technique.

에코 캔슬러(125)는 타입 변환부(115)와 샘플링부(120)를 거친 사운드 정보로부터 비프음을 제거하는 기능을 수행한다.The echo canceller 125 performs a function of removing the beep sound from the sound information that has passed through the type conversion unit 115 and the sampling unit 120. [

노이즈 리덕션(130)은 비프음이 제거된 사운드 정보에서 노이즈를 제거하는 기능을 수행한다. 본 실시예에서는 에코 캔슬러(125)가 사운드 정보로부터 먼저 비프음을 제거하고, 이후 노이즈 리덕션(130)이 노이즈를 제거하나, 반드시 이에 한정될 필요는 없으며, 노이즈 리덕션(130)이 에코 캔슬러(125)보다 먼저 기능 수행하는 것도 가능하다.The noise reduction 130 performs a function of removing noise from the sound information from which the beep sound is removed. In this embodiment, the echo canceller 125 first removes the beep sound from the sound information, and then the noise reduction 130 eliminates the noise, but is not necessarily limited to this, and the noise reduction 130 may be an echo canceller It is also possible to perform the function before the step 125.

인식 엔진(150)은 사운드 정보로부터 비프음과 노이즈가 제거된 뒤 남은 클린(Clean) 음성 즉 운전자의 순수 음성을 노이즈 리덕션(130)으로부터 수신하는 기능을 수행한다. 인식 엔진(150)에 운전자의 음성이 수신되면, 화자 판별부(135), 화자별 인식 명령어 리스트 구성부(140), 화자별 인식 명령어 리스트 호출부(145) 등이 순차적으로 구동된다.The recognition engine 150 performs a function of receiving the clean speech remaining after the beep and noise are removed from the sound information, that is, the pure voice of the driver, from the noise reduction 130. When the driver's voice is received by the recognition engine 150, the speaker determination unit 135, the speaker recognition instruction word list construction unit 140, the speaker recognition instruction list calling unit 145, and the like are sequentially driven.

인식 엔진(150)은 화자 판별부(135), 화자별 인식 명령어 리스트 구성부(140), 화자별 인식 명령어 리스트 호출부(145) 등의 순차적 구동으로부터 얻은 화자별 인식 명령어 리스트를 기초로 운전자의 음성을 인식하는 기능을 수행한다.The recognition engine 150 generates a list of recognizing commands based on the list of per-speaker recognition commands obtained from the sequential driving of the speaker determining unit 135, the per-speaker recognition command list construction unit 140, and the per-speaker recognition command list calling unit 145, And performs a voice recognition function.

화자 판별부(135)는 인식 엔진(150)으로 운전자의 순수 음성이 입력되면 운전자로부터 ID 등 개인 정보를 입력받아 화자를 판별하는 기능을 수행한다.The speaker discrimination unit 135 receives personal information such as an ID from the driver when the driver's pure voice is input to the recognition engine 150, and performs a function of discriminating a speaker.

화자별 인식 명령어 리스트 구성부(140)는 화자 판별부(135)에 의해 화자가 판별되면 데이터베이스에서 해당 화자가 발화한 적이 있는 것으로 기록된 명령어들을 검출하여 리스트로 구성하는 기능을 수행한다.The per-speaker recognition command list constructing unit 140 detects a command from the database when the speaker is discriminated by the speaker discriminating unit 135, and constructs a list of the detected commands.

화자별 인식 명령어 리스트 호출부(145)는 화자별 인식 명령어 리스트 구성부(140)에 의해 생성된 리스트를 인식 엔진(150)으로 전달하는 기능을 수행한다.The per-speaker recognition instruction list calling unit 145 performs a function of transmitting the list generated by the per-speaker recognition instruction list construction unit 140 to the recognition engine 150.

도 2는 도 1에 도시된 음성 전처리 시스템의 SW 계층도를 도시한 개념도이다. 도 2에서는 비프음, 노이즈 등이 제거된 화자(운전자)의 순수 음성과 화자별 음성 인식 명령어 리스트를 기초로 화자별로 음성 인식을 최적화하는 방법을 설명한다. 이하 설명은 도 1과 도 2를 참조한다.FIG. 2 is a conceptual diagram showing a SW layer diagram of the speech preprocessing system shown in FIG. 1. FIG. In FIG. 2, a method for optimizing speech recognition for each speaker based on a pure voice of a speaker (driver) whose beep sound, noise, etc. have been removed and a list of speech recognition instruction words by speaker will be described. The following description refers to Fig. 1 and Fig.

오디오 데이터 버퍼(110)는 오디오 데이터 버퍼 관리 계층(Audio Data Buffer Management; 235)을 통하여 마이크로폰(MIC; 105)으로 입력된 발화자 음성 외에 음성 인식 비프음, 주변 노이즈 등의 사운드 정보를 입력받는다. 오디오 데이터 버퍼(110)는 오디오 드라이버 : 코덱(Audio Driver : Codec)(240)을 통하여 사운드 정보를 오디오 데이터 형태로 입력받는다.The audio data buffer 110 receives sound information such as a speech recognition beep sound and surrounding noise in addition to the speaker voice inputted to the microphone (MIC) 105 through an audio data buffer management layer (an audio data buffer management) The audio data buffer 110 receives sound information in the form of audio data through an audio driver (Codec) (Audio Driver) 240.

이후 타입 변환부(115)는 제1 계층(220)과 제2 계층(230)을 통하여 사운드 정보를 구성하는 발화자 음성, 비프음 등을 스테레오 타입에서 모노 타입으로 변환한다.Then, the type conversion unit 115 converts the sound of the speaker, the beep sound, etc. constituting the sound information from the stereo type to the mono type through the first layer 220 and the second layer 230.

이후 샘플링부(120)는 제3 계층(225)을 통하여 비프음의 샘플링 주파수를 44.1KHz에서 16KHz로 다운 샘플링한다.Then, the sampling unit 120 down-samples the sampling frequency of the beep sound from 44.1 KHz to 16 KHz through the third layer 225.

이후 에코 캔슬러(125)는 에코 캔슬링(Echo Cancelling) 계층(215)을 통하여 주변 노이즈까지 포함한 오디오 데이터에서 기존 비프음 주파수 특성에 따라 발화자 음성에서 비프음을 제거한다.Thereafter, the echo canceller 125 removes the beep sound from the speech sound according to the existing beep frequency characteristics in the audio data including the surrounding noise through the echo canceling layer 215.

한편 노이즈 리덕션(130)은 에코 캔슬링 계층(215)을 통하여 비프음 제거후 존재하는 주변 노이즈를 제거한다.On the other hand, the noise reduction 130 removes surrounding noise existing after the beep sound is removed through the echo cancellation layer 215.

이후 인식 엔진(150)은 OS 프레임워크(OS Framework) 계층(210)를 통하여 비프음과 노이즈가 제거된 음성 데이터를 수신한다.Then, the recognition engine 150 receives the beep and the noise-removed speech data through the OS framework layer 210.

이후 화자 판별부(135)가 애플리케이션(Application) 계층(205)을 통하여 인식 엔진(150)에서 나온 화자 특성을 근거로 기존 화자인지 신규 화자인지 구분한다.Then, the speaker determination unit 135 determines whether the speaker is an existing speaker or a new speaker based on the speaker characteristics from the recognition engine 150 through the application layer 205.

이후 화자별 인식 명령어 리스트 구성부(140)가 애플리케이션 계층(205)을 통하여 신규 화자인 경우 신규 화자 음성 인식 리스트를 신규 생성하며, 기존 화자인 경우 화자에 해당하는 음성 인식 리스트를 불러온다.Then, when the per-speaker recognition command list construction unit 140 is a new speaker through the application layer 205, a new speaker's voice recognition list is newly created, and in the case of an existing speaker, a voice recognition list corresponding to the speaker is retrieved.

이후 인식 엔진(150)은 화자별 인식 명령어 리스트 호출부(145)로부터 음성 인식 리스트를 수신하면 애플리케이션 계층(205)을 통하여 음성 인식 리스트를 우선순위로 명령어를 인식한다.When the recognition engine 150 receives the voice recognition list from the per-speaker recognition command list calling unit 145, the recognition engine 150 recognizes the voice recognition list in order of priority through the application layer 205.

도 3은 마이크로폰으로 입력된 신호와 에코가 제거된 신호의 분석 결과를 비교한 도면이다.FIG. 3 is a diagram comparing the analysis result of a signal inputted with a microphone and a signal obtained by removing echo.

도 3의 (a)는 마이크로폰으로 입력된 신호의 분석 결과이다. 도 3의 (a)에서 도면부호 310은 TTS 안내 프롬프트 구간(약 1.8초)을 나타내며, 도면부호 320은 발화 음성(Dial Number; 321)과 비프음(322)이 섞여있는 구간(320)을 나타낸다.3 (a) shows the analysis result of the signal input to the microphone. In FIG. 3A, reference numeral 310 denotes a TTS prompt prompt interval (about 1.8 seconds), and reference numeral 320 denotes a section 320 in which a dial number 321 and a beep sound 322 are mixed .

도 3의 (a)에 도시된 바와 같이 마이크로폰으로 입력된 신호를 분석해 보면 발화자 음성(321)의 중간에 비프음(322)이 존재하여 음성 인식에 실패하는 경우가 발생한다.As shown in FIG. 3 (a), when a signal input to the microphone is analyzed, a beep sound 322 exists in the middle of the speaker's voice 321, resulting in a failure in speech recognition.

도 3의 (b)는 에코가 제거된 신호의 분석 결과이다. 도 3의 (b)에서 도면부호 330은 필터 수렴 구간(약 0.5초)를 나타내며, 도면부호 350은 인식 엔진에 전달되는 인식 가능 구간을 나타낸다. 도면부호 340은 인식 가능 구간의 확장 가능 구간을 나타낸다.FIG. 3 (b) shows the result of analysis of the echo canceled signal. In FIG. 3 (b), reference numeral 330 denotes a filter convergence period (about 0.5 second), and reference numeral 350 denotes a recognizable period to be transmitted to the recognition engine. Reference numeral 340 denotes an extendable section of the recognizable section.

도 3의 (b)에 도시된 바와 같이 본 발명을 적용하면 에코 제거에 따라 비프음이 효과적으로 제거되어 화자의 순수 음성만이 검출됨을 확인할 수 있다.As shown in FIG. 3 (b), when the present invention is applied, it is confirmed that only the pure speech of the speaker is detected by removing the beep sound by echo cancellation.

도 4는 음성 전처리 시스템을 구성하는 에코 캔슬러의 동작 구성도이다.4 is an operational block diagram of the echo canceller constituting the speech preprocessing system.

MIC(405)는 사용자의 발화(s(n) : utterance)를 입력받는 기능을 수행한다. 이때 SPEAKER(410)로부터 비프음을 포함한 에코 신호(d(n) : echo)도 MIC(405)로 입력된다.The MIC 405 receives a user's utterance (s (n): utterance). At this time, an echo signal d (n): echo including a beep sound is also input from the SPEAKER 410 to the MIC 405.

적응 필터(Adaptive Filter h(n); 425)는 SPEAKER(410)를 통해 나간 소리가 echo의 형태로 다시 MIC(405)로 유입되는데, 이 echo 신호를 adaptation을 통해 예측해서 제거하는 기능을 수행한다.The adaptive filter h (n) 425 performs a function of predicting and removing the echo signal through adaptation, in which the sound exiting through the SPEAKER 410 is introduced into the MIC 405 again in the form of an echo .

검출 및 제어부(420)는 MIC(405)로 입력된 신호에서 동시 통화 검출(Double Talk Detection) 기능을 수행한다. 또한 검출 및 제어부(420)는 적응 필터(425)가 adaptation을 통해 echo 신호를 예측해서 제거할 수 있게 어댑테이션 레이트(Adaptation Rate)를 조절하여 적응 필터(425)에 제공하는 기능도 수행한다.The detection and control unit 420 performs a double talk detection function in a signal input to the MIC 405. [ The detection and control unit 420 also performs an adaptation filter 425 for adjusting the adaptation rate so that the adaptation filter 425 can predict and remove the echo signal through adaptation.

잔류 에코 억제기(Residual Echo Suppressor; 415)는 적응 필터(425)에 의해 충분히 제거되지 않은 echo를 제거하는 기능을 수행한다.The Residual Echo Suppressor 415 performs the function of eliminating the echo that has not been sufficiently removed by the adaptive filter 425.

Echo 제거로 인하여 silence 구간이 존재하게 되고, 이로 인하여 잡음 특성이 일정하지 않게 된다. 통신 잡음 발생기(Comfort Noise Generator; 430)는 이를 방지하기 위해 배경 잡음과 유사한 comfort noise를 생성하여 더해주는 기능을 수행한다.Due to the echo cancellation, there is a silence interval, which causes the noise characteristics to be inconsistent. The comfort noise generator 430 performs a function of generating and adding comfort noise similar to background noise to prevent this.

음성 인식을 처음 사용하는 초보 사용자나 중급 이상의 사용자도 성미가 급하거나 익숙치 않은 경우 음성 인식 명령어를 발화시 대개는 비프음을 듣고 발화해야 정상적으로 인식한다.If a novice user or an intermediate user who is using voice recognition for the first time is unsteady or unfamiliar, when the voice recognition command is uttered, the user should normally listen to the beep sound and recognize it normally.

하지만, 비프음을 기다리지 않고 안내 멘트만 듣고 발화하는 경우에 음성 인식이 실패하게 된다. 즉 음성 인식 사용자는 사용의 미숙한 점을 탓하지 않고 시스템이 인식을 안한다는 내용의 불만 제기를 하게 된다.However, speech recognition fails when speech is heard only by the announcement without waiting for the beep sound. In other words, the voice recognition user does not blame the immaturity of use and complains that the system does not recognize it.

이상의 내용을 정리해보면 다음과 같다.The following are summarized as follows.

Use Case 1 : 비프음 재생후 발화하는 경우 → 인식 성공Use Case 1: When the beep sound is reproduced → Recognition succeeded

Use Case 2 : 비프음 재생전 발화하는 경우 → 단, 마이크 오픈 시점과 비프음 재생 간의 간격 시간이 30ms로 짧아서 발생하기 어려움 → 인식 실패Use Case 2: In case of ignition before beep sound reproduction → However, it is difficult to occur because interval time between microphone open time and beep sound reproduction is as short as 30 ms → recognition failure

Use Case 3 : 비프음 재생중 발화하는 경우 → 인식 실패Use Case 3: In case of ignition during beep sound → recognition failure

본 발명의 경우 마이크 오픈 시점을 안내 멘트 재생과 비프음 재생 사이의 시간으로 본 발명을 적용함으로써 Use Case 2 및 3에 대해서도 인식 성공을 구현할 수 있다.In the case of the present invention, the use of the present invention can be realized even in Use Cases 2 and 3 by applying the present invention to the time between the announcement moment playback and the beep playback.

이상 도 1 내지 도 4를 참조하여 본 발명의 일실시 형태에 대하여 설명하였다. 이하에서는 이러한 일실시 형태로부터 추론 가능한 본 발명의 바람직한 형태에 대하여 설명한다.DESCRIPTION OF THE PREFERRED EMBODIMENTS One embodiment of the present invention has been described with reference to Figs. Best Mode for Carrying Out the Invention Hereinafter, preferred forms of the present invention that can be inferred from the above embodiment will be described.

본 발명의 바람직한 실시예에 따른 차량용 음성 인식 장치는 비프음 제거부, 사용자 정보 획득부, 어휘 리스트 검출부, 음성 인식부, 전원부 및 주제어부를 포함한다.The speech recognition apparatus for a vehicle according to a preferred embodiment of the present invention includes a beep sound removing unit, a user information obtaining unit, a lexical word list detecting unit, a speech recognizing unit, a power source unit, and a main control unit.

전원부는 차량용 음성 인식 장치를 구성하는 각 구성에 전원을 공급하는 기능을 수행한다. 주제어부는 차량용 음성 인식 장치를 구성하는 각 구성의 전체 작동을 제어하는 기능을 수행한다. 차량용 음성 인식 장치가 차량에 구비되는 것임을 고려할 때 전원부와 주제어부는 차량용 배터리와 MCU(또는 ECU)에 의해 대체 가능하므로, 본 실시예에서 전원부와 주제어부는 구비되지 않아도 무방하다.The power supply unit performs a function of supplying power to each configuration of the voice recognition device for a vehicle. The main control unit performs a function of controlling the overall operation of each component constituting the vehicle voice recognition apparatus. Considering that the vehicle voice recognition device is provided in the vehicle, the power supply unit and the main control unit can be replaced by the vehicle battery and the MCU (or ECU), so that the power supply unit and the main control unit may not be provided in the present embodiment.

비프음 제거부는 차량에서 사용자에 의해 사운드 정보가 입력되면 사운드 정보로부터 비프음(Beep Sound)을 제거하여 사용자의 음성을 획득하는 기능을 수행한다.The beep canceller performs a function of removing a beep sound from sound information and acquiring a user's voice when the sound information is input by the user in the vehicle.

비프음 제거부는 사운드 정보로부터 비프음과 더불어 노이즈도 제거할 수 있다.The beep canceller can remove noise from the sound information in addition to the beep sound.

비프음 제거부는 에코 캔슬러(Echo Canceller)를 이용하여 비프음을 제거하며, 노이즈 리덕션(Noise Reduction)을 이용하여 노이즈를 제거할 수 있다.The beep canceller removes the beep using an echo canceller, and noise can be removed using noise reduction.

비프음 제거부는 에코 캔슬러로 적응 필터(Adaptive Filter), 잔류 에코 억제기(Residual Echo Suppressor) 및 통신 소음 발생기(comfort Noise Generator)를 포함하는 에코 캔슬러를 이용할 수 있다.The beep canceller may use an echo canceller including an adaptive filter, a residual echo suppressor, and a comfort noise generator as the echo canceller.

비프음 제거부는 사운드 정보로부터 비프음을 먼저 제거하고 노이즈를 나중 제거할 수 있다.The beep canceller may first remove the beep from the sound information and remove the noise later.

비프음 제거부는 사운드 정보에 포함된 오디오 데이터에 대하여 스테레오 성분을 모노 성분으로 변환하며, 다운 샘플링(Down Sampling)을 이용하여 사운드 정보에 포함된 각 성분의 주파수를 동일하게 변환하여, 사운드 정보로부터 비프음을 제거할 수 있다.The beep canceller converts a stereo component into a mono component with respect to the audio data included in the sound information, converts the frequency of each component included in the sound information equally by using down sampling, The sound can be removed.

사용자 정보 획득부는 사용자에 대한 정보를 획득하는 기능을 수행한다.The user information obtaining unit performs a function of obtaining information about the user.

어휘 리스트 검출부는 사용자에 대한 정보를 기초로 데이터베이스로부터 어휘 리스트를 검출하는 기능을 수행한다.The vocabulary list detection unit performs a function of detecting a vocabulary list from the database based on information about the user.

어휘 리스트 검출부는 데이터베이스로부터 사용자가 기준 횟수 이상 발화한 것으로 기록된 단어, 문장 및 명령어 중 적어도 하나를 수집 및 취합하여 어휘 리스트로 검출할 수 있다. 이를 위해 어휘 리스트 검출부는 사용자의 발화 음성이 인식될 때마다 해당 어휘에 대하여 발화 횟수를 1씩 증가시킬 수 있다.The vocabulary list detection unit may collect and collect at least one of words, sentences, and commands recorded by the user as a speech that has been uttered more than the reference number of times, and may detect the vocabulary list. For this purpose, the vocabulary list detecting unit may increase the number of utterances for the corresponding vocabulary by one every time the utterance voice of the user is recognized.

음성 인식부는 어휘 리스트를 기초로 사용자의 음성을 인식하는 기능을 수행한다.The speech recognition unit performs a function of recognizing the user's speech based on the vocabulary list.

이상 설명한 차량용 음성 인식 장치는 비프음이 재생된 뒤 사용자로부터 발화 음성이 입력되면 구동할 수 있다.The vehicle voice recognition apparatus described above can be driven when a voice is input from the user after the beep sound is reproduced.

다음으로 차량용 음성 인식 장치의 작동 방법에 대하여 설명한다.Next, an operation method of the vehicle voice recognition apparatus will be described.

먼저 비프음 제거부가 차량에서 사용자에 의해 사운드 정보가 입력되면 사운드 정보로부터 비프음(Beep Sound)을 제거하여 사용자의 음성을 획득한다.First, when the beep sound removing unit inputs sound information by a user on the vehicle, the beep sound is removed from the sound information to acquire the user's voice.

이후 사용자 정보 획득부가 사용자에 대한 정보를 획득한다.Then, the user information acquisition unit acquires information about the user.

이후 어휘 리스트 검출부가 사용자에 대한 정보를 기초로 데이터베이스로부터 어휘 리스트를 검출한다.Then, the lexical-list detecting unit detects the lexical-list from the database based on the information about the user.

이후 음성 인식부가 어휘 리스트를 기초로 사용자의 음성을 인식한다.Then, the speech recognition unit recognizes the user's speech based on the lexical list.

이상에서 설명한 본 발명의 실시예를 구성하는 모든 구성요소들이 하나로 결합하거나 결합하여 동작하는 것으로 기재되어 있다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한, 이와 같은 컴퓨터 프로그램은 USB 메모리, CD 디스크, 플래쉬 메모리 등과 같은 컴퓨터가 읽을 수 있는 기록매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 기록매체로서는 자기 기록매체, 광 기록매체, 캐리어 웨이브 매체 등이 포함될 수 있다.It is to be understood that the present invention is not limited to these embodiments, and all elements constituting the embodiment of the present invention described above are described as being combined or operated in one operation. That is, within the scope of the present invention, all of the components may be selectively coupled to one or more of them. In addition, although all of the components may be implemented as one independent hardware, some or all of the components may be selectively combined to perform a part or all of the functions in one or a plurality of hardware. As shown in FIG. In addition, such a computer program may be stored in a computer readable medium such as a USB memory, a CD disk, a flash memory, etc., and read and executed by a computer to implement an embodiment of the present invention. As the recording medium of the computer program, a magnetic recording medium, an optical recording medium, a carrier wave medium, and the like can be included.

또한, 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 상세한 설명에서 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Furthermore, all terms including technical or scientific terms have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs, unless otherwise defined in the Detailed Description. Commonly used terms, such as predefined terms, should be interpreted to be consistent with the contextual meanings of the related art, and are not to be construed as ideal or overly formal, unless expressly defined to the contrary.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.It will be apparent to those skilled in the art that various modifications, substitutions and substitutions are possible, without departing from the scope and spirit of the invention as disclosed in the accompanying claims. will be. Therefore, the embodiments disclosed in the present invention and the accompanying drawings are intended to illustrate and not to limit the technical spirit of the present invention, and the scope of the technical idea of the present invention is not limited by these embodiments and the accompanying drawings . The scope of protection of the present invention should be construed according to the following claims, and all technical ideas within the scope of equivalents should be construed as falling within the scope of the present invention.

Claims (13)

차량에서 사용자에 의해 사운드 정보가 입력되면 상기 사운드 정보로부터 비프음(Beep Sound)을 제거하여 상기 사용자의 음성을 획득하는 비프음 제거부;
상기 사용자에 대한 정보를 획득하는 사용자 정보 획득부;
상기 사용자에 대한 정보를 기초로 데이터베이스로부터 어휘 리스트를 검출하는 어휘 리스트 검출부; 및
상기 어휘 리스트를 기초로 상기 사용자의 음성을 인식하는 음성 인식부
를 포함하는 것을 특징으로 하는 차량용 음성 인식 장치.
A beep sound removing unit for removing a beep sound from the sound information when the sound information is input by the user in the vehicle to acquire the voice of the user;
A user information acquisition unit for acquiring information about the user;
A vocabulary list detection unit for detecting a vocabulary list from a database based on information about the user; And
A voice recognition unit for recognizing the voice of the user based on the vocabulary list,
And a voice recognition device for recognizing the voice of the vehicle.
제 1 항에 있어서,
상기 비프음 제거부는 상기 사운드 정보로부터 상기 비프음과 더불어 노이즈도 제거하는 것을 특징으로 하는 차량용 음성 인식 장치.
The method according to claim 1,
And the beep canceller removes noise from the sound information in addition to the beep sound.
제 2 항에 있어서,
상기 비프음 제거부는 에코 캔슬러(Echo Canceller)를 이용하여 상기 비프음을 제거하며, 노이즈 리덕션(Noise Reduction)을 이용하여 상기 노이즈를 제거하는 것을 특징으로 하는 차량용 음성 인식 장치.
3. The method of claim 2,
Wherein the beep canceller removes the beep by using an echo canceller and removes the noise by using noise reduction.
제 3 항에 있어서,
상기 비프음 제거부는 상기 에코 캔슬러로 적응 필터(Adaptive Filter), 잔류 에코 억제기(Residual Echo Suppressor) 및 통신 소음 발생기(comfort Noise Generator)를 포함하는 에코 캔슬러를 이용하는 것을 특징으로 하는 차량용 음성 인식 장치.
The method of claim 3,
Wherein the beep canceller uses an echo canceller including an adaptive filter, a residual echo suppressor, and a comfort noise generator as the echo canceller, Device.
제 2 항에 있어서,
상기 비프음 제거부는 상기 사운드 정보로부터 상기 비프음을 먼저 제거하고 상기 노이즈를 나중 제거하는 것을 특징으로 하는 차량용 음성 인식 장치.
3. The method of claim 2,
Wherein the beep canceller removes the beep first from the sound information and removes the noise later.
제 1 항에 있어서,
상기 비프음 제거부는 상기 사운드 정보에 포함된 오디오 데이터에 대하여 스테레오 성분을 모노 성분으로 변환하며, 다운 샘플링(Down Sampling)을 이용하여 상기 사운드 정보에 포함된 각 성분의 주파수를 동일하게 변환하여, 상기 사운드 정보로부터 상기 비프음을 제거하는 것을 특징으로 하는 차량용 음성 인식 장치.
The method according to claim 1,
The beep canceller may convert a stereo component to a mono component with respect to the audio data included in the sound information, convert the frequency of each component included in the sound information by using down sampling, And the beep sound is removed from the sound information.
제 1 항에 있어서,
상기 어휘 리스트 검출부는 상기 데이터베이스로부터 상기 사용자가 기준 횟수 이상 발화한 것으로 기록된 단어, 문장 및 명령어 중 적어도 하나를 수집 및 취합하여 상기 어휘 리스트로 검출하는 것을 특징으로 하는 차량용 음성 인식 장치.
The method according to claim 1,
Wherein the lexical-list detecting unit collects and collects at least one of words, sentences, and commands recorded by the user as being uttered over a reference number of times from the database, and detects the lexical list.
제 1 항에 있어서,
상기 차량용 음성 인식 장치는 상기 비프음이 재생된 뒤 상기 사용자로부터 발화 음성이 입력되면 구동하는 것을 특징으로 하는 차량용 음성 인식 장치.
The method according to claim 1,
Wherein the vehicle speech recognition apparatus is driven when a speech sound is input from the user after the beep sound is reproduced.
차량에서 사용자에 의해 사운드 정보가 입력되면 상기 사운드 정보로부터 비프음(Beep Sound)을 제거하여 상기 사용자의 음성을 획득하는 단계;
상기 사용자에 대한 정보를 획득하는 단계;
상기 사용자에 대한 정보를 기초로 데이터베이스로부터 어휘 리스트를 검출하는 단계; 및
상기 어휘 리스트를 기초로 상기 사용자의 음성을 인식하는 단계
를 포함하는 것을 특징으로 하는 차량용 음성 인식 방법.
Removing a beep sound from the sound information when the sound information is input by the user in the vehicle, thereby obtaining the user's voice;
Obtaining information about the user;
Detecting a vocabulary list from a database based on information about the user; And
Recognizing the voice of the user based on the vocabulary list
And a voice recognition unit for recognizing the voice of the vehicle.
제 9 항에 있어서,
상기 사용자의 음성을 획득하는 단계는 상기 사운드 정보로부터 상기 비프음과 더불어 노이즈도 제거하는 것을 특징으로 하는 차량용 음성 인식 방법.
10. The method of claim 9,
Wherein the step of acquiring the voice of the user removes noise from the sound information in addition to the beep sound.
제 10 항에 있어서,
상기 사용자의 음성을 획득하는 단계는 에코 캔슬러(Echo Canceller)를 이용하여 상기 비프음을 제거하며, 노이즈 리덕션(Noise Reduction)을 이용하여 상기 노이즈를 제거하는 것을 특징으로 하는 차량용 음성 인식 방법.
11. The method of claim 10,
Wherein the step of acquiring the voice of the user removes the beep using an echo canceller and removes the noise using noise reduction.
제 11 항에 있어서,
상기 사용자의 음성을 획득하는 단계는 상기 에코 캔슬러로 적응 필터(Adaptive Filter), 잔류 에코 억제기(Residual Echo Suppressor) 및 통신 소음 발생기(comfort Noise Generator)를 포함하는 에코 캔슬러를 이용하는 것을 특징으로 하는 차량용 음성 인식 방법.
12. The method of claim 11,
Wherein the step of acquiring the voice of the user uses an echo canceller including an adaptive filter, a residual echo suppressor, and a comfort noise generator as the echo canceller, A voice recognition method for a vehicle.
제 10 항에 있어서,
상기 사용자의 음성을 획득하는 단계는 상기 사운드 정보로부터 상기 비프음을 먼저 제거하고 상기 노이즈를 나중 제거하는 것을 특징으로 하는 차량용 음성 인식 방법.
11. The method of claim 10,
Wherein the step of acquiring the voice of the user removes the beep first from the sound information and removes the noise later.
KR1020140170600A 2014-12-02 2014-12-02 Apparatus and method for recognizing voice in vehicle KR102394510B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140170600A KR102394510B1 (en) 2014-12-02 2014-12-02 Apparatus and method for recognizing voice in vehicle

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140170600A KR102394510B1 (en) 2014-12-02 2014-12-02 Apparatus and method for recognizing voice in vehicle

Publications (3)

Publication Number Publication Date
KR20160066347A true KR20160066347A (en) 2016-06-10
KR102394510B1 KR102394510B1 (en) 2022-05-06
KR102394510B9 KR102394510B9 (en) 2023-05-11

Family

ID=56190676

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140170600A KR102394510B1 (en) 2014-12-02 2014-12-02 Apparatus and method for recognizing voice in vehicle

Country Status (1)

Country Link
KR (1) KR102394510B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10607597B2 (en) 2017-09-18 2020-03-31 Samsung Electronics Co., Ltd. Speech signal recognition system and method

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR950006814A (en) * 1993-08-28 1995-03-21 정장호 Beep generation elimination circuit of audio signal
JP2005025100A (en) * 2003-07-02 2005-01-27 Nissan Motor Co Ltd Vehicle-mounted equipment control device
JP2005084253A (en) * 2003-09-05 2005-03-31 Matsushita Electric Ind Co Ltd Sound processing apparatus, method, program and storage medium
JP2007522754A (en) * 2004-02-11 2007-08-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Acoustic feedback suppression
JP2007286136A (en) * 2006-04-13 2007-11-01 Alpine Electronics Inc In-vehicle voice recognition device and voice recognition method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR950006814A (en) * 1993-08-28 1995-03-21 정장호 Beep generation elimination circuit of audio signal
JP2005025100A (en) * 2003-07-02 2005-01-27 Nissan Motor Co Ltd Vehicle-mounted equipment control device
JP2005084253A (en) * 2003-09-05 2005-03-31 Matsushita Electric Ind Co Ltd Sound processing apparatus, method, program and storage medium
JP2007522754A (en) * 2004-02-11 2007-08-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Acoustic feedback suppression
JP2007286136A (en) * 2006-04-13 2007-11-01 Alpine Electronics Inc In-vehicle voice recognition device and voice recognition method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10607597B2 (en) 2017-09-18 2020-03-31 Samsung Electronics Co., Ltd. Speech signal recognition system and method

Also Published As

Publication number Publication date
KR102394510B9 (en) 2023-05-11
KR102394510B1 (en) 2022-05-06

Similar Documents

Publication Publication Date Title
EP3678135B1 (en) Voice control in a multi-talker and multimedia environment
US20230178077A1 (en) Techniques for wake-up work recognition and related systems and methods
US10586534B1 (en) Voice-controlled device control using acoustic echo cancellation statistics
US9672821B2 (en) Robust speech recognition in the presence of echo and noise using multiple signals for discrimination
CN1159948C (en) Device and method for processing speech
JP5649488B2 (en) Voice discrimination device, voice discrimination method, and voice discrimination program
JP2005084253A (en) Sound processing apparatus, method, program and storage medium
EP1901282A3 (en) Speech communications system for a vehicle and method of operating a speech communications system for a vehicle
JPH11506845A (en) Automatic control method of one or more devices by voice dialogue or voice command in real-time operation and device for implementing the method
JP2007500367A (en) Voice recognition method and communication device
US20240005919A1 (en) Voice processing device, voice processing method and voice processing system
US20110246193A1 (en) Signal separation method, and communication system speech recognition system using the signal separation method
WO2015086895A1 (en) Spatial audio processing apparatus
EP1494208A1 (en) Method for controlling a speech dialog system and speech dialog system
CN111883135A (en) Voice transcription method and device and electronic equipment
US20190237092A1 (en) In-vehicle media vocal suppression
KR20100032140A (en) Method of interactive voice recognition and apparatus for interactive voice recognition
KR20160066347A (en) Apparatus and method for recognizing voice in vehicle
US8244538B2 (en) Measuring double talk performance
GB2516208A (en) Noise reduction in voice communications
JP6948275B2 (en) Calling device and control method of calling device
CN110738995B (en) Sound signal acquisition method and device
JP2006343642A (en) Speech recognition method, speech recognition device, program, and recording medium
JPH11298382A (en) Handsfree device
Hataoka et al. Speech Interface Evaluation on Car Navigation System–Many Undesirable Utterances and Severe Noisy Speech–

Legal Events

Date Code Title Description
A201 Request for examination
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Re-publication after modification of scope of protection [patent]