KR20100032140A - Method of interactive voice recognition and apparatus for interactive voice recognition - Google Patents

Method of interactive voice recognition and apparatus for interactive voice recognition Download PDF

Info

Publication number
KR20100032140A
KR20100032140A KR1020080091131A KR20080091131A KR20100032140A KR 20100032140 A KR20100032140 A KR 20100032140A KR 1020080091131 A KR1020080091131 A KR 1020080091131A KR 20080091131 A KR20080091131 A KR 20080091131A KR 20100032140 A KR20100032140 A KR 20100032140A
Authority
KR
South Korea
Prior art keywords
voice recognition
module
command
voice
recognition start
Prior art date
Application number
KR1020080091131A
Other languages
Korean (ko)
Inventor
안영욱
Original Assignee
주식회사 현대오토넷
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 현대오토넷 filed Critical 주식회사 현대오토넷
Priority to KR1020080091131A priority Critical patent/KR20100032140A/en
Publication of KR20100032140A publication Critical patent/KR20100032140A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

PURPOSE: An apparatus for recognizing conversation voice is provided to drive a voice recognition module when input voice command is start command. CONSTITUTION: An echo canceller(101) extracts user's voice command from sound source through a microphone module. A speed recognition start command storing module stores a certain voice recognition start command. A speech recognition start command analyzing module(103) analyzes the user's voice command to voice recognition start command. A voice recognition control module(104) drives voice recognition module when the user's voice commence is start command.

Description

대화형 음성인식방법 및 음성인식장치{METHOD OF INTERACTIVE VOICE RECOGNITION AND APPARATUS FOR INTERACTIVE VOICE RECOGNITION}Interactive voice recognition method and voice recognition device {METHOD OF INTERACTIVE VOICE RECOGNITION AND APPARATUS FOR INTERACTIVE VOICE RECOGNITION}

본 발명은 음성인식에 관한 것으로, 더욱 상세하게는 스피커 모듈로 출력되기 전의 오디오 신호에 기초하여, 마이크 모듈로 입력된 음원으로부터 사용자 음성명령만을 추출한 후, 추출된 사용자 음성 명령이 음성인식개시를 위한 음성인식개시명령인 경우에 음성인식모듈을 구동함으로써, PTT 버튼을 누르지 않고도 사용자의 음성명령만으로 음성인식모듈을 구동할 수 있도록 한 대화형 음성인식방법 및 음성인식장치에 관한 것이다.The present invention relates to voice recognition, and more particularly, based on an audio signal before being output to a speaker module, after extracting only a user voice command from a sound source input to the microphone module, the extracted user voice command is used to initiate voice recognition. In the case of a voice recognition start command, the present invention relates to an interactive voice recognition method and a voice recognition device capable of driving a voice recognition module by only a voice command of a user without pressing a PTT button by driving the voice recognition module.

일반적으로 음성 인식(Speech Recognition)이란 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 전환하는 처리로, 키보드 대신 문자를 입력하는 방식으로 주목을 받고 있다. 종래의 음성 인식 과정에 대해 살펴보면, 우선 사용자는 음성인식을 위한 시작버튼인 푸시 투 토크(Push To Talk: PTT) 버튼을 누른다. 이에 따라 음성인식모듈은 PTT 버튼이 눌려졌음을 감지하고, 음성인식명령인식을 위한 대기모드로 전환한다. 아울러 음성인식모듈은 스피커 모듈을 제어하여 오디오 신호의 출력을 정지시킴과 동시에 사용자에게는 음성인식명령인식을 위한 대기모드로 전환하였음을 알린다. 이후, 마이크 모듈을 통해 사용자로부터 음성명령이 입력되면, 음성인식모듈은 입력된 음성명령을 분석한 후, 입력된 음성명령에 따라 동작하도록, 오디오, 비디오, 네비게이션, TV, 전화기 시스템 등 해당 시스템으로 적절한 신호를 전송하고, 해당 시스템은 그에 따라 적절한 동작을 수행한다. 하지만, 이러한 종래의 방법에 따른 음성인식의 시작을 위해서는 사용자가 반드시 수동으로 PTT 버튼을 눌러줘야 한다는 문제점이 있었다.In general, speech recognition is a process in which a computer interprets a speech language spoken by a person and converts its contents into text data, and is drawing attention by inputting text instead of a keyboard. Referring to the conventional speech recognition process, first, a user presses a push-to-talk (PTT) button, which is a start button for speech recognition. Accordingly, the voice recognition module detects that the PTT button is pressed and switches to the standby mode for voice recognition command recognition. In addition, the voice recognition module controls the speaker module to stop the output of the audio signal and informs the user that the user has switched to the standby mode for voice recognition command recognition. Then, when a voice command is input from the user through the microphone module, the voice recognition module analyzes the input voice command and then operates the corresponding voice command to the corresponding system such as audio, video, navigation, TV, and telephone system. Send the appropriate signal, and the system will perform the appropriate action accordingly. However, in order to start the voice recognition according to the conventional method, there is a problem that the user must manually press the PTT button.

본 발명은 상기 문제점을 해결하기 위해 안출된 것으로, 본 발명의 목적은 음성인식 개시버튼(PTT)을 누르지 않아도 사용자의 음성명령만으로 음성인식모듈을 구동할 수 있는 대화형 음성인식방법 및 대화형 음성인식장치를 제공하는 것을 목적으로 한다.The present invention has been made to solve the above problems, an object of the present invention is the interactive voice recognition method and interactive voice that can drive the voice recognition module only by the user's voice command without pressing the voice recognition start button (PTT) It is an object to provide a recognition device.

본 발명의 다른 목적은, 기존의 음성인식 개시버튼에 의한 음성인식개시를 동시에 사용 가능하도록 함으로써, 사용자의 편의에 이바지할 수 있는 대화형 음성인식방법 및 대화형 음성인식장치를 제공하는 것을 목적으로 한다.Another object of the present invention is to provide an interactive voice recognition method and an interactive voice recognition device which can contribute to user's convenience by enabling simultaneous voice recognition start by the existing voice recognition start button. do.

본 발명의 다른 목적은, 보다 유동적으로 다양한 형태의 명령를 입력 및 변경할 수 있는 대화형 음성인식방법 및 대화형 음성인식장치를 제공하는 것을 목적으로 한다.Another object of the present invention is to provide an interactive speech recognition method and an interactive speech recognition apparatus that can input and change various types of commands more flexibly.

상기의 목적을 달성하기 위하여 본 발명에 따른 대화형 음성인식방법은 (a) 마이크 모듈을 통해 입력된 음원으로부터 사용자 음성명령을 추출하는 단계와, (c) 소정의 음성인식개시명령들을 저장한 음성인식개시명령저장모듈에 기초하여, 추출된 사용자 음성명령이 음성인식개시를 위한 음성인식개시명령인지 분석하는 단계와, (c) 분석결과, 추출된 사용자 음성명령이 음성인식개시명령인 경우 음성인식을 위한 음성인식모듈을 구동하는 단계를 포함하는 것을 특징으로 한다.In order to achieve the above object, the interactive voice recognition method according to the present invention comprises the steps of: (a) extracting a user voice command from a sound source input through a microphone module; and (c) a voice storing predetermined voice recognition start commands. Analyzing whether the extracted user voice command is a voice recognition start command for voice recognition start based on the recognition start command storage module; and (c) analyzing the voice recognition command when the extracted user voice command is a voice recognition start command. It characterized in that it comprises the step of driving the voice recognition module for.

바람직하게는, 상기 (a) 단계는 (a1) 마이크 모듈을 통해 에코 성분이 포함 된 오디오 신호와 사용자 음성명령이 포함된 음원을 수집하는 단계와, (a2) 스피커 모듈을 통해 외부로 출력되기 전의 오디오 신호를 입력받는 단계와, (a3) 스피커 모듈을 통해 외부로 출력되기 전의 오디오 신호에 기초하여, 수집된 음원으로부터 에코 성분이 포함된 오디오 신호를 제거함으로써, 사용자 음성명령을 추출하는 단계를 포함하는 것을 특징으로 한다.Preferably, the step (a) comprises (a1) collecting an audio signal including an echo component and a sound source including a user voice command through the microphone module, and (a2) before being output to the outside through the speaker module. Receiving an audio signal, and (a3) extracting a user voice command by removing an audio signal including an echo component from the collected sound source based on the audio signal before being output to the outside through the speaker module. Characterized in that.

또한, 상기 방법은 음성인식 개시를 위한 음성인식 개시버튼이 눌려졌는지를 판단하는 단계와, 판단 결과, 음성인식 개시버튼이 눌려진 경우 음성인식모듈을 구동하는 단계를 더 포함하는 것을 특징으로 한다.The method may further include determining whether the voice recognition start button for voice recognition start has been pressed, and driving the voice recognition module when the voice recognition start button is pressed as a result of the determination.

바람직하게는, 상기 음성인식개시명령저장모듈에 저장된 음성인식개시명령들은 추가 또는 삭제 가능한 것을 특징으로 한다.Preferably, the voice recognition start command stored in the voice recognition start command storage module may be added or deleted.

본 발명의 제2 실시예에 따르면, 상기 방법을 실행하기 위한 프로그램이 기록된 컴퓨터로 독출 가능한 기록매체가 개시된다.According to a second embodiment of the present invention, a computer-readable recording medium having a program recorded thereon for executing the method is disclosed.

본 발명의 제3 실시예에 따르면, 대화형 음성인식장치가 개시되는데, 상기 장치는 음원 수집을 위한 마이크 모듈과, 마이크 모듈을 통해 입력된 음원으로부터 사용자 음성명령을 추출하는 에코 캔슬러와, 소정의 음성인식개시명령들을 저장한 음성인식개시명령저장모듈에 기초하여, 추출된 사용자 음성명령이 음성인식개시를 위한 음성인식개시명령인지 분석하는 음성인식명령 분석모듈과, 분석결과, 추출된 사용자 음성명령이 음성인식개시명령인 경우 음성인식을 위한 음성인식모듈을 구동하는 음성인식 제어모듈을 포함하는 것을 특징으로 한다.According to a third embodiment of the present invention, an interactive speech recognition apparatus is disclosed, wherein the apparatus includes a microphone module for collecting a sound source, an echo canceller for extracting a user voice command from a sound source input through the microphone module, and A voice recognition command analysis module for analyzing whether the extracted user voice command is a voice recognition start command for voice recognition start based on the voice recognition start command storage module storing the voice recognition start commands of the user; If the command is a voice recognition start command, it characterized in that it comprises a voice recognition control module for driving the voice recognition module for voice recognition.

바람직하게는, 상기 에코 캔슬러는 마이크 모듈을 통해 수집된 에코 성분이 포함된 오디오 신호와 사용자 음성명령이 포함된 음원과, 스피커 모듈을 통해 외부로 출력되기 전의 오디오 신호를 입력받고, 스피커 모듈을 통해 외부로 출력되기 전의 오디오 신호에 기초하여, 수집된 음원으로부터 에코 성분이 포함된 오디오 신호를 제거함으로써, 사용자 음성명령을 추출하는 것을 특징으로 한다.Preferably, the echo canceller receives an audio signal including an echo component collected through a microphone module and a sound source including a user voice command, and an audio signal before being output to the outside through the speaker module. The user's voice command may be extracted by removing an audio signal including an echo component from the collected sound source based on the audio signal before being output to the outside.

또한, 상기 음성인식 제어모듈은 음성인식 개시를 위한 음성인식 개시버튼이 눌려졌는지를 판단하고, 판단 결과, 음성인식 개시버튼이 눌려진 경우 음성인식모듈을 구동하는 것을 특징으로 한다.The voice recognition control module may determine whether the voice recognition start button for voice recognition start has been pressed, and when the voice recognition start button is pressed, drive the voice recognition module.

바람직하게는, 상기 음성인식개시명령저장모듈에 저장된 음성인식개시명령들은 추가 또는 삭제 가능한 것을 특징으로 한다.Preferably, the voice recognition start command stored in the voice recognition start command storage module may be added or deleted.

상술한 바와 같이, 본 발명에 따르면, 스피커 모듈로 출력되기 이전의 오디오 신호에 기초하여, 입력된 사용자 음성 명령에 포함된 에코 성분을 제거한 후, 입력된 사용자 음성 명령이 음성인식개시를 위한 음성인식개시명령인 경우에 음성인식을 위한 음성인식모듈을 구동함으로써, 음성인식 개시버튼(PTT)을 누르지 않고도 사용자의 음성명령만으로 음성인식모듈을 구동할 수 있다.As described above, according to the present invention, after removing the echo component included in the input user voice command based on the audio signal before being output to the speaker module, the input user voice command is voice recognition for starting voice recognition. In the case of the start command, by driving the voice recognition module for voice recognition, the voice recognition module can be driven only by the voice command of the user without pressing the voice recognition start button PTT.

또한, 본 발명에 따르면, 음성인식개시를 위한 음성인식개시명령제어모듈에 기존의 음성인식 개시버튼(PTT 버튼)에 의한 음성인식개시를 동시에 사용 가능하도록 함으로써, 사용자의 편의에 이바지할 수 있다.In addition, according to the present invention, it is possible to contribute to the user's convenience by enabling simultaneous use of the voice recognition start by the existing voice recognition start button (PTT button) to the voice recognition start command control module for voice recognition start.

또한, 본 발명에 따르면, 음성인식개시명령들을 저장한 저장모듈은 사용자에 의해 추가 또는 삭제 가능하도록 구성함으로써, 사용자는 보다 유동적으로 다양한 형태의 명령들을 입력 및 변경할 수 있다.Further, according to the present invention, the storage module storing the voice recognition start command is configured to be added or deleted by the user, so that the user can more flexibly input and change various types of commands.

이하에서는 첨부 도면을 참조하여 본 발명에 따른 대화형 음성인식방법 및 음성인식장치에 대하여 가장 바람직한 실시 예를 상세히 설명하기로 한다. 그러나, 본 발명은 이하에서 개시되는 실시예에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예는 본 발명의 개시가 완전하도록 하며 통상의 지식을 가진자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이다.Hereinafter, with reference to the accompanying drawings will be described in detail the most preferred embodiment of the interactive speech recognition method and speech recognition device according to the present invention. However, the present invention is not limited to the embodiments disclosed below, but can be implemented in various forms, and only the present embodiments are intended to complete the disclosure of the present invention and to those skilled in the art. It is provided for complete information.

도 1은 본 발명의 일 실시예에 따른 대화형 음성인식장치의 구성도로, 음성인식개시명령제어모듈(100)과 음성인식모듈(110) 및 음성인식개시버튼(120)을 포함하며, 음성인식시작명령제어모듈(100)은 에코 캔슬러(101), 음성인식개시명령저장모듈(102), 음성인식개시명령분석모듈(103) 및 음성인식제어모듈(104)을 포함하여 이루어진다.1 is a block diagram of an interactive voice recognition device according to an embodiment of the present invention, which includes a voice recognition start command control module 100, a voice recognition module 110, and a voice recognition start button 120. The start command control module 100 includes an echo canceler 101, a voice recognition start command storage module 102, a voice recognition start command analysis module 103, and a voice recognition control module 104.

도 1을 참조하면, 마이크 모듈(10)은 음원의 수집장치로, 차량 내에서 사용자 음성이나 스피커를 통해 출력된 에코 성분이 포함된 오디오 신호와 같은 차량 내의 음원을 수집하여 에코 캔슬러(101)로 전달한다. 스피커 모듈(20)을 통해 출력된 오디오 신호는 차량 내부에 반사되기 때문에, 마이크 모듈(10)에서 수집되는 실제 오디오 신호에는 에코 성분이 포함되어 있다.Referring to FIG. 1, the microphone module 10 is an apparatus for collecting a sound source, and collects a sound source in a vehicle such as an audio signal including an echo component output through a user voice or a speaker in the vehicle and cancels the echo canceller 101. To pass. Since the audio signal output through the speaker module 20 is reflected inside the vehicle, the actual audio signal collected by the microphone module 10 includes an echo component.

스피커 모듈(20)은 음원의 출력장치로, 차량 내의 오디오 시스템, 네비게이션 시스템 등으로부터 전달받은 오디오 신호를 출력한다. 한편, 오디오 시스템 등에 의해 출력되는 신호는 그 출력 직전의 오디오 신호를 에코 캔슬러(101)로 전달 한다. 에코 캔슬러(101)는 스피커를 통해 출력되기 전의 오디오 신호를 사용함으로써, 추후 마이크 모듈(10)에서 수집된 음원 중 에코 신호가 포함된 오디오 신호를 제거하는데 사용된다.The speaker module 20 is an output device of a sound source and outputs an audio signal received from an audio system, a navigation system, and the like in a vehicle. On the other hand, the signal output by the audio system or the like transfers the audio signal immediately before the output to the echo canceller 101. The echo canceler 101 is used to remove an audio signal including an echo signal among sound sources collected by the microphone module 10 by using the audio signal before being output through the speaker.

에코 캔슬러(101)는 마이크 모듈(10)로부터는 수집된 에코 성분이 포함된 오디오 신호와 사용자 음성명령을, 그리고 스피커 모듈(20)로부터는 외부로 출력되기 직전의 오디오 신호를 입력받는다. 이후, 에코 캔슬러(101)는 스피커 모듈로부터 스피커 모듈을 통해 출력되기 전의 오디오 신호와 마이크 모듈(10)로부터는 수집된 에코 성분이 포함된 오디오 신호를 소거함으로써, 사용자 음성명령만을 추출한다. 추출된 사용자 음성명령은 음성인식개시명령분석모듈(103)로 전달된다. 마이크 모듈(10)에서 수집된 음원에는 사용자 음성명령만이 포함되어 있을 수 있기 때문에, 실시예에 따라서는 에코 캔슬러(101)는 마이크 모듈(10)로부터 수집된 음원, 즉 사용자 음성명령만을 음성인식개시명령 분석모듈(103)로 전달할 수 있다.The echo canceller 101 receives an audio signal including a collected echo component and a user voice command from the microphone module 10, and an audio signal immediately before being output to the outside from the speaker module 20. Thereafter, the echo canceller 101 extracts only a user voice command by canceling an audio signal before being output from the speaker module through the speaker module and the audio signal including the collected echo component from the microphone module 10. The extracted user voice command is transmitted to the voice recognition start command analysis module 103. Since the sound source collected by the microphone module 10 may include only a user voice command, according to an embodiment, the echo canceller 101 voices only a sound source collected from the microphone module 10, that is, a user voice command. The recognition start command may be transmitted to the analysis module 103.

음성인식개시명령저장모듈(102)에는 사용자가 미리 저장한 음성인식개시명령, 예를 들면 "음성인식" 또는 "음성인식시작"과 같은 다양한 음성인식개시명령들이 저장되어 있으며, 이러한 음성인식개시명령들은 추후 사용자에 의해 추가 또는 삭제 가능하다.The voice recognition start command storage module 102 stores a voice recognition start command pre-stored by a user, for example, various voice recognition start commands such as "voice recognition" or "voice recognition start". They can be added or deleted later by the user.

한편, 음성인식개시명령분석모듈(103)은 소정의 음성인식개시명령들을 저장한 음성인식개시명령저장모듈(102)에 기초하여, 에코 캔슬러(101)에서 추출한 사용자 음성명령이 음성인식개시를 위한 음성인식개시명령인지 분석한다. 분석 결과는 음성인식제어모듈(104)로 전달된다.On the other hand, the voice recognition start command analysis module 103 is based on the voice recognition start command storage module 102 that stores the predetermined voice recognition start command, the user voice command extracted from the echo canceller 101 is to start the voice recognition start It analyzes whether the voice recognition start command is The analysis result is transmitted to the voice recognition control module 104.

이후, 음성인식제어모듈(104)은 음성인식개시명령분석모듈(103)로부터 전달받은 분석결과에 기초하여, 추출된 사용자 음성명령이 음성인식개시명령인 경우 음성인식을 위한 음성인식모듈을 구동하기 위한 구동신호를 음성인식모듈(110)로 전달한다. 이후, 음성인식제어모듈(110)은 음성인식이 가능함을 스피커 모듈(20)을 통해 사용자에게 알리고, 그 후 소정의 시간 내에 사용자로부터 음성명령이 입력되면, 입력된 음성명령을 분석하고, 그에 따라 해당 시스템, 예를 들면 오디오 시스템이나 네비게이션 시스템 등이 해당 명령을 수행하도록 한다.Thereafter, the voice recognition control module 104 drives the voice recognition module for voice recognition when the extracted user voice command is a voice recognition start command based on the analysis result received from the voice recognition start command analysis module 103. The driving signal for transmitting to the voice recognition module 110. Thereafter, the voice recognition control module 110 notifies the user that the voice recognition is possible through the speaker module 20, and if a voice command is input from the user within a predetermined time thereafter, the voice command is analyzed, and accordingly The system, for example, an audio system or a navigation system, performs the command.

실시예에 따라서는 기존의 음성인식 개시버튼(Push To Talk: PTT)을 본 발명과 함께 사용하는 것도 가능하다. 즉, 도 1에 도시된 바와 같이, 사용자가 PTT 버튼(120)을 누르면, 이를 감지한 음성인식제어모듈(104)이 음성인식모듈(110)을 구동하기 위한 구동신호를 음성인식모듈(110)로 전달함으로써, 음성인식이 가능하도록 구성될 수도 있다.According to an embodiment, it is also possible to use an existing voice recognition start button (Push To Talk: PTT) together with the present invention. That is, as shown in FIG. 1, when the user presses the PTT button 120, the voice recognition control module 104 that detects this outputs a driving signal for driving the voice recognition module 110. By transmitting to the voice recognition may be configured to enable.

도 2는 본 발명의 일 실시예에 따른 대화형 음성인식방법을 도시한 흐름도로, 도 1에서 설명된 부분과 중복적인 설명은 생략하기로 한다.FIG. 2 is a flowchart illustrating an interactive voice recognition method according to an embodiment of the present invention, and descriptions overlapping with those described in FIG. 1 will be omitted.

도 2를 참조하면, 단계 200에서 에코 캔슬러(101)는 마이크 모듈(10)로부터는 수집된 에코 성분이 포함된 오디오 신호와 사용자 음성명령을, 그리고 스피커 모듈(20)로부터는 외부로 출력되기 직전의 오디오 신호를 입력받는다. 이후, 에코 캔슬러(101)는 스피커 모듈로부터 스피커 모듈을 통해 출력되기 전의 오디오 신호와 마이크 모듈(10)로부터는 수집된 에코 성분이 포함된 오디오 신호를 소거함으로써, 사용자 음성명령만을 추출한다.Referring to FIG. 2, in operation 200, the echo canceller 101 outputs an audio signal and a user voice command including an echo component collected from the microphone module 10 and an external signal from the speaker module 20. The previous audio signal is input. Thereafter, the echo canceller 101 extracts only a user voice command by canceling an audio signal before being output from the speaker module through the speaker module and the audio signal including the collected echo component from the microphone module 10.

단계 201에서, 음성인식개시명령분석모듈(103)은 소정의 음성인식개시명령들을 저장한 음성인식개시명령저장모듈(102)에 기초하여, 에코 캔슬러(101)에서 추출한 사용자 음성명령이 음성인식개시를 위한 음성인식개시명령인지 분석한다. In step 201, the voice recognition start command analyzing module 103 performs voice recognition based on the voice recognition start command storage module 102 storing the predetermined voice recognition start commands, and the user voice command extracted from the echo canceller 101 is voice recognition. It analyzes whether it is a voice recognition start command for initiation.

이후, 단계 202에서, 음성인식제어모듈(104)은 음성인식개시명령분석모듈(103)로부터 전달받은 분석결과에 기초하여, 추출된 사용자 음성명령이 음성인식개시명령인 경우 음성인식을 위한 음성인식모듈을 구동하기 위한 구동신호를 음성인식모듈(110)로 전달함으로써, 음성인식모듈(110)을 구동한다.Then, in step 202, the voice recognition control module 104 based on the analysis result received from the voice recognition start command analysis module 103, if the extracted user voice command is a voice recognition start command voice recognition for voice recognition The voice recognition module 110 is driven by transmitting a driving signal for driving the module to the voice recognition module 110.

단계 203에서, 음성인식모듈(110)은 음성인식이 가능함을 음향 시각적인 방법을 통해 사용자에게 알린다.In step 203, the voice recognition module 110 notifies the user through an acoustic visual method that voice recognition is possible.

이후 단계 204에서, 음성인식모듈(110)은 소정의 시간 내에 사용자로부터 음성명령이 입력되는지를 판단하고, 판단결과 소정의 시간 내에 음성명령이 입력되면 단계 205로 진행한다.Thereafter, in step 204, the voice recognition module 110 determines whether a voice command is input from the user within a predetermined time, and if the voice command is input within a predetermined time, the process proceeds to step 205.

마지막으로, 단계 205에서, 음성인식모듈(110)은 입력된 음성명령을 분석한 후, 분석에 따라 해당 시스템, 예를 들면 오디오 시스템, 네비게이션 시스템 등이 음성명령에 따라 해당 절차를 수행하도록 한다.Finally, in step 205, the voice recognition module 110 analyzes the input voice command, and causes the corresponding system, for example, the audio system, the navigation system, etc. to perform the corresponding procedure according to the voice command.

본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브 (예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.The invention can also be embodied as computer readable code on a computer readable recording medium. The computer-readable recording medium includes all kinds of recording devices in which data that can be read by a computer system is stored. Examples of computer-readable recording media include ROM, RAM, CD-ROM, magnetic tape, floppy disks, optical data storage devices, and the like, and may also be implemented in the form of a carrier wave (for example, transmission over the Internet). Include. The computer readable recording medium can also be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion.

이상 도면과 명세서에서 최적 실시예들이 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.The best embodiments have been disclosed in the drawings and specification above. Although specific terms have been used herein, they are used only for the purpose of describing the present invention and are not used to limit the scope of the present invention as defined in the meaning or claims. Therefore, those skilled in the art will understand that various modifications and equivalent other embodiments are possible from this. Therefore, the true technical protection scope of the present invention will be defined by the technical spirit of the appended claims.

도 1은 본 발명의 일 실시예에 따른 대화형 음성인식장치의 구성도이다.1 is a block diagram of an interactive voice recognition device according to an embodiment of the present invention.

도 2는 본 발명의 일 실시예에 따른 대화형 음성인식방법을 도시한 흐름도이다.2 is a flowchart illustrating an interactive voice recognition method according to an embodiment of the present invention.

Claims (9)

(a) 마이크 모듈을 통해 입력된 음원으로부터 사용자 음성명령을 추출하는 단계;(a) extracting a user voice command from a sound source input through the microphone module; (c) 소정의 음성인식개시명령들을 저장한 음성인식개시명령저장모듈에 기초하여, 상기 추출된 사용자 음성명령이 음성인식개시를 위한 음성인식개시명령인지 분석하는 단계; 및(c) analyzing whether the extracted user voice command is a voice recognition start command for voice recognition start based on a voice recognition start command storage module storing predetermined voice recognition start commands; And (c) 상기 분석결과, 상기 추출된 사용자 음성명령이 음성인식개시명령인 경우 음성인식을 위한 음성인식모듈을 구동하는 단계를 포함하는 것을 특징으로 하는 대화형 음성인식방법.and (c) driving a voice recognition module for voice recognition when the extracted user voice command is a voice recognition start command. 제1항에 있어서,The method of claim 1, 상기 (a) 단계는Step (a) is (a1) 마이크 모듈을 통해 에코 성분이 포함된 오디오 신호와 사용자 음성명령이 포함된 음원을 수집하는 단계;(a1) collecting an audio signal including an echo component and a sound source including a user voice command through a microphone module; (a2) 스피커 모듈을 통해 외부로 출력되기 전의 오디오 신호를 입력받는 단계; 및(a2) receiving an audio signal before being output to the outside through the speaker module; And (a3) 상기 스피커 모듈을 통해 외부로 출력되기 전의 오디오 신호에 기초하여, 상기 수집된 음원으로부터 에코 성분이 포함된 오디오 신호를 제거함으로써, 사용자 음성명령을 추출하는 단계를 포함하는 것을 특징으로 하는 대화형 음성인식 방법.and (a3) extracting a user voice command by removing an audio signal including an echo component from the collected sound source based on the audio signal before being output to the outside through the speaker module. Type voice recognition method. 제1항에 있어서,The method of claim 1, 상기 방법은The method 음성인식 개시를 위한 음성인식 개시버튼이 눌려졌는지를 판단하는 단계; 및Determining whether a voice recognition start button for voice recognition start has been pressed; And 상기 판단 결과, 상기 음성인식 개시버튼이 눌려진 경우 상기 음성인식모듈을 구동하는 단계를 더 포함하는 것을 특징으로 하는 대화형 음성인식방법.And when the voice recognition start button is pressed as a result of the determination, driving the voice recognition module. 제1항에 있어서,The method of claim 1, 상기 음성인식개시명령저장모듈에 저장된 음성인식개시명령들은 추가 또는 삭제 가능한 것을 특징으로 하는 대화형 음성인식방법.The voice recognition start command stored in the voice recognition start command storage module can be added or deleted. 제1항 내지 제4항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록된 컴퓨터로 독출 가능한 기록매체.A computer-readable recording medium having recorded thereon a program for executing the method of any one of claims 1 to 4. 음원 수집을 위한 마이크 모듈;A microphone module for sound collection; 상기 마이크 모듈을 통해 입력된 음원으로부터 사용자 음성명령을 추출하는 에코 캔슬러;An echo canceller for extracting a user voice command from a sound source input through the microphone module; 소정의 음성인식개시명령들을 저장한 음성인식개시명령저장모듈에 기초하여, 상기 추출된 사용자 음성명령이 음성인식개시를 위한 음성인식개시명령인지 분석하 는 음성인식명령 분석모듈; 및A voice recognition command analysis module that analyzes whether the extracted user voice command is a voice recognition start command for voice recognition start based on a voice recognition start command storage module storing predetermined voice recognition start commands; And 상기 분석결과, 상기 추출된 사용자 음성명령이 음성인식개시명령인 경우 음성인식을 위한 음성인식모듈을 구동하는 음성인식 제어모듈을 포함하는 것을 특징으로 하는 대화형 음성인식장치.And a voice recognition control module for driving a voice recognition module for voice recognition when the extracted user voice command is a voice recognition start command. 제1항에 있어서,The method of claim 1, 상기 에코 캔슬러는 상기 마이크 모듈을 통해 수집된 에코 성분이 포함된 오디오 신호와 사용자 음성명령이 포함된 음원과, 상기 스피커 모듈을 통해 외부로 출력되기 전의 오디오 신호를 입력받고, 상기 스피커 모듈을 통해 외부로 출력되기 전의 오디오 신호에 기초하여, 수집된 음원으로부터 상기 에코 성분이 포함된 오디오 신호를 제거함으로써, 사용자 음성명령을 추출하는 것을 특징으로 하는 대화형 음성인식장치.The echo canceller receives an audio signal including an echo component collected through the microphone module, a sound source including a user voice command, and an audio signal before being output to the outside through the speaker module, and through the speaker module. And a user voice command is extracted by removing the audio signal including the echo component from the collected sound source based on the audio signal before being output to the outside. 제1항에 있어서,The method of claim 1, 상기 음성인식 제어모듈은 음성인식 개시를 위한 음성인식 개시버튼이 눌려졌는지를 판단하고, 판단 결과, 상기 음성인식 개시버튼이 눌려진 경우 상기 음성인식모듈을 구동하는 것을 특징으로 하는 대화형 음성인식장치.And the voice recognition control module determines whether a voice recognition start button for voice recognition start has been pressed, and drives the voice recognition module when the voice recognition start button is pressed as a result of the determination. 제1항에 있어서,The method of claim 1, 상기 음성인식개시명령저장모듈에 저장된 음성인식개시명령들은 추가 또는 삭제 가능한 것을 특징으로 하는 대화형 음성인식장치.The voice recognition start command stored in the voice recognition start command storage module can be added or deleted.
KR1020080091131A 2008-09-17 2008-09-17 Method of interactive voice recognition and apparatus for interactive voice recognition KR20100032140A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080091131A KR20100032140A (en) 2008-09-17 2008-09-17 Method of interactive voice recognition and apparatus for interactive voice recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080091131A KR20100032140A (en) 2008-09-17 2008-09-17 Method of interactive voice recognition and apparatus for interactive voice recognition

Publications (1)

Publication Number Publication Date
KR20100032140A true KR20100032140A (en) 2010-03-25

Family

ID=42181474

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080091131A KR20100032140A (en) 2008-09-17 2008-09-17 Method of interactive voice recognition and apparatus for interactive voice recognition

Country Status (1)

Country Link
KR (1) KR20100032140A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101522486B1 (en) * 2011-03-25 2015-05-21 미쓰비시덴키 가부시키가이샤 Elevator call registration device
US10192557B2 (en) 2013-08-26 2019-01-29 Samsung Electronics Co., Ltd Electronic device and method for voice recognition using a plurality of voice recognition engines
KR20190021012A (en) * 2017-08-22 2019-03-05 네이버 주식회사 Continuous coversation function in artificial intelligence device
KR20200038904A (en) * 2020-04-02 2020-04-14 네이버 주식회사 Continuous coversation function in artificial intelligence device
US10679628B2 (en) 2015-02-16 2020-06-09 Samsung Electronics Co., Ltd Electronic device and method of operating voice recognition function
CN112312181A (en) * 2019-07-26 2021-02-02 深圳Tcl新技术有限公司 Smart television voice recognition method, system and readable storage medium
US10978048B2 (en) 2017-05-29 2021-04-13 Samsung Electronics Co., Ltd. Electronic apparatus for recognizing keyword included in your utterance to change to operating state and controlling method thereof

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101522486B1 (en) * 2011-03-25 2015-05-21 미쓰비시덴키 가부시키가이샤 Elevator call registration device
US10192557B2 (en) 2013-08-26 2019-01-29 Samsung Electronics Co., Ltd Electronic device and method for voice recognition using a plurality of voice recognition engines
US11158326B2 (en) 2013-08-26 2021-10-26 Samsung Electronics Co., Ltd Electronic device and method for voice recognition using a plurality of voice recognition devices
US10679628B2 (en) 2015-02-16 2020-06-09 Samsung Electronics Co., Ltd Electronic device and method of operating voice recognition function
US10978048B2 (en) 2017-05-29 2021-04-13 Samsung Electronics Co., Ltd. Electronic apparatus for recognizing keyword included in your utterance to change to operating state and controlling method thereof
KR20190021012A (en) * 2017-08-22 2019-03-05 네이버 주식회사 Continuous coversation function in artificial intelligence device
CN112312181A (en) * 2019-07-26 2021-02-02 深圳Tcl新技术有限公司 Smart television voice recognition method, system and readable storage medium
KR20200038904A (en) * 2020-04-02 2020-04-14 네이버 주식회사 Continuous coversation function in artificial intelligence device

Similar Documents

Publication Publication Date Title
CN110049270B (en) Multi-person conference voice transcription method, device, system, equipment and storage medium
KR20100032140A (en) Method of interactive voice recognition and apparatus for interactive voice recognition
US9280539B2 (en) System and method for translating speech, and non-transitory computer readable medium thereof
KR100819928B1 (en) Apparatus for speech recognition of wireless terminal and method of thereof
JP4557919B2 (en) Audio processing apparatus, audio processing method, and audio processing program
KR101422020B1 (en) Method for recognizing voice, and apparatus for implementing the same
KR20080109322A (en) Method and apparatus for providing services by comprehended user's intuited intension
EP0847003A2 (en) An audio memo system and method of operation thereof
US20210343270A1 (en) Speech translation method and translation apparatus
CN113327609A (en) Method and apparatus for speech recognition
CN113362828B (en) Method and apparatus for recognizing speech
EP3422344B1 (en) Electronic device for performing operation corresponding to voice input
US9799332B2 (en) Apparatus and method for providing a reliable voice interface between a system and multiple users
CN109147820A (en) Vehicle audio control method, device, electronic equipment and storage medium
JP2009122598A (en) Electronic device, control method of electronic device, speech recognition device, speech recognition method and speech recognition program
KR100526216B1 (en) Interactive apparatus
KR20140067687A (en) Car system for interactive voice recognition
EP1316944B1 (en) Sound signal recognition system and method, and dialog control system and method using it
CN112700767B (en) Man-machine conversation interruption method and device
JP2018045675A (en) Information presentation method, information presentation program and information presentation system
CN110839169B (en) Intelligent equipment remote control device and control method based on same
CN110534084B (en) Intelligent voice control method and system based on FreeWITCH
JP2008051950A (en) Information processing apparatus
JP4060237B2 (en) Voice dialogue system, voice dialogue method and voice dialogue program
KR20160066347A (en) Apparatus and method for recognizing voice in vehicle

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination