KR20220090790A - Apparatus and method for speech recognition - Google Patents

Apparatus and method for speech recognition Download PDF

Info

Publication number
KR20220090790A
KR20220090790A KR1020200181666A KR20200181666A KR20220090790A KR 20220090790 A KR20220090790 A KR 20220090790A KR 1020200181666 A KR1020200181666 A KR 1020200181666A KR 20200181666 A KR20200181666 A KR 20200181666A KR 20220090790 A KR20220090790 A KR 20220090790A
Authority
KR
South Korea
Prior art keywords
audio signal
volume level
reliability score
target value
currently
Prior art date
Application number
KR1020200181666A
Other languages
Korean (ko)
Inventor
임규형
Original Assignee
현대자동차주식회사
기아 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 현대자동차주식회사, 기아 주식회사 filed Critical 현대자동차주식회사
Priority to KR1020200181666A priority Critical patent/KR20220090790A/en
Publication of KR20220090790A publication Critical patent/KR20220090790A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R11/00Arrangements for holding or mounting articles, not otherwise provided for
    • B60R11/02Arrangements for holding or mounting articles, not otherwise provided for for radio sets, television sets, telephones, or the like; Arrangement of controls thereof
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/12Score normalisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Mechanical Engineering (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 개시는 음성 인식 장치 및 그 방법에 관한 것이다.
음성 인식 장치는, 차량 내 오디오 입력 장치로부터 오디오 신호를 수신하며, 상기 오디오 신호로부터 웨이크업 명령어를 인식하는 제1 모드와, 상기 오디오 신호로부터 음성 명령어를 인식하는 제2 모드로 동작하는 음성 인식 모듈, 상기 차량 내 오디오 출력 장치를 통해 출력되는 오디오 신호의 볼륨 레벨을 조정하는 오디오 출력 제어 모듈, 그리고 상기 제1 모드에서 상기 웨이크업 명령어의 인식에 실패하면, 상기 차량 내에서 현재 재생 중인 오디오 신호의 종류를 식별하고, 상기 현재 재생 중인 오디오 신호의 종류에 따라 상기 음성 출력 장치를 통해 출력되는 오디오 신호의 볼륨 레벨을 선택적으로 조정하는 웨이크업 인식 성능 향상 모듈을 포함할 수 있다.
The present disclosure relates to a voice recognition apparatus and a method therefor.
The voice recognition device includes a voice recognition module that receives an audio signal from an in-vehicle audio input device and operates in a first mode for recognizing a wake-up command from the audio signal and a second mode for recognizing a voice command from the audio signal , an audio output control module that adjusts a volume level of an audio signal output through the in-vehicle audio output device, and if the wake-up command fails to be recognized in the first mode, the audio signal currently being reproduced in the vehicle and a wakeup recognition performance improvement module that identifies a type and selectively adjusts a volume level of an audio signal output through the audio output device according to the type of the currently reproduced audio signal.

Figure P1020200181666
Figure P1020200181666

Description

음성 인식 장치 및 그 방법{APPARATUS AND METHOD FOR SPEECH RECOGNITION}Speech recognition device and method thereof

본 개시는 음성 인식 장치 및 그 방법에 관한 것으로서, 더욱 상세하게는 차량 내에서의 웨이크업(wake up) 명령어 인식 성능을 향상시키기 위한 음성 인식 장치 및 그 방법에 관한 것이다. The present disclosure relates to a voice recognition apparatus and method, and more particularly, to a voice recognition apparatus and method for improving wake-up command recognition performance in a vehicle.

인간-장치간 인터페이스(Man Machine Interface, MMI)는 컴퓨터 등의 기계장치와 그것을 이용하는 사용자 간의 인터페이스로, 사용자의 시각, 청각, 촉각을 사용하는 모든 인터페이스를 포함한다. 최근 주행 중 운전자의 주의 분산을 최소화하고 편의성을 증대시키기 위해, 차량 내 MMI 수단으로 음성을 사용하기 위한 연구가 활발하다. A man-machine interface (MMI) is an interface between a machine device such as a computer and a user using the same, and includes all interfaces using the user's visual, auditory, and tactile senses. Recently, in order to minimize the distraction of the driver while driving and to increase convenience, research on using voice as an in-vehicle MMI method is active.

차량 내 승객실은 라디오 방송, 음악 등 다양한 사운드가 공존할 수 있다. 따라서, 음성 명령어를 사용하기 위해서는, 차량 내 소음 환경에서 음성 인식률을 높이기 위한 방안이 필요하다. In the passenger compartment of the vehicle, various sounds such as radio broadcasting and music can coexist. Therefore, in order to use a voice command, a method for increasing the voice recognition rate in a noise environment in a vehicle is required.

본 발명의 실시 예를 통해 해결하려는 과제는 웨이크업 명령어의 인식률을 향상시키기 위한 음성 인식 장치 및 그 방법을 제공하는 것이다 SUMMARY OF THE INVENTION An object to be solved through an embodiment of the present invention is to provide a voice recognition apparatus and method for improving the recognition rate of a wakeup command

상기 과제를 해결하기 위한 본 발명의 일 실시 예에 따른 음성 인식 장치는, 차량 내 오디오 입력 장치로부터 오디오 신호를 수신하며, 상기 오디오 신호로부터 웨이크업(wake up) 명령어를 인식하는 제1 모드와, 상기 오디오 신호로부터 음성 명령어를 인식하는 제2 모드로 동작하는 음성 인식 모듈, 상기 차량 내 오디오 출력 장치를 통해 출력되는 오디오 신호의 볼륨 레벨을 조정하는 오디오 출력 제어 모듈, 그리고 상기 제1 모드에서 상기 웨이크업 명령어의 인식에 실패하면, 상기 차량 내에서 현재 재생 중인 오디오 신호의 종류를 식별하고, 상기 현재 재생 중인 오디오 신호의 종류에 따라 상기 음성 출력 장치를 통해 출력되는 오디오 신호의 볼륨 레벨을 선택적으로 조정하는 웨이크업 인식 성능 향상 모듈을 포함할 수 있다. A voice recognition apparatus according to an embodiment of the present invention for solving the above problems includes: a first mode for receiving an audio signal from an in-vehicle audio input device, and recognizing a wake up command from the audio signal; A voice recognition module operating in a second mode for recognizing a voice command from the audio signal, an audio output control module for adjusting a volume level of an audio signal output through the in-vehicle audio output device, and the wake in the first mode If the recognition of the up command fails, the type of the audio signal currently being reproduced in the vehicle is identified, and the volume level of the audio signal output through the audio output device is selectively adjusted according to the type of the audio signal currently being reproduced. It may include a wake-up recognition performance improvement module to

상기 웨이크업 인식 성능 향상 모듈은, 상기 현재 재생 중인 오디오 신호가 음악 신호가 아닌 경우, 상기 볼륨 레벨을 조정할 수 있다.The wakeup recognition performance improvement module may adjust the volume level when the currently playing audio signal is not a music signal.

상기 웨이크업 인식 성능 향상 모듈은, 상기 현재 재생 중인 오디오 신호가 음악 신호이면, 상기 볼륨 레벨의 조정을 스킵(skip)할 수도 있다.The wakeup recognition performance improvement module may skip adjusting the volume level when the currently playing audio signal is a music signal.

상기 웨이크업 인식 성능 향상 모듈은, 상기 차량 내에서 미디어 데이터를 재생하기 위한 미디어 재생 장치로부터 수신되는 정보에 기초하여 상기 현재 재생 중인 오디오 신호의 종류를 식별할 수 있다. The wakeup recognition performance improvement module may identify the type of the currently playing audio signal based on information received from a media playback device for playing media data in the vehicle.

상기 웨이크업 인식 성능 향상 모듈은, 상기 오디오 입력 장치를 통해 상기 현재 재생 중인 오디오 신호를 녹음하고, 상기 오디오 입력 장치에 의해 녹음된 오디오 신호를 커넥티드 카 모듈을 통해 커넥티드 카 서버로 전달하며, 상기 커넥티드 카 서버로부터 상기 녹음된 오디오 신호에 대응하여 수신한 정보에 기초하여 상기 현재 재생 중인 오디오 신호의 종류를 식별할 수도 있다. The wake-up recognition performance improvement module records the currently playing audio signal through the audio input device, and transmits the audio signal recorded by the audio input device to the connected car server through the connected car module, The type of the currently reproduced audio signal may be identified based on information received from the connected car server in response to the recorded audio signal.

상기 웨이크업 인식 성능 향상 모듈은, 최근에 수행된 웨이크업 명령어 인식 결과에 대응하는 제1 신뢰성 스코어에 기초하여, 상기 볼륨 레벨을 조정하기 위한 목표값을 설정할 수 있다. The wakeup recognition performance improvement module may set a target value for adjusting the volume level based on a first reliability score corresponding to a result of the recently performed wakeup command recognition.

상기 웨이크업 인식 성능 향상 모듈은, 복수의 신뢰성 스코어 별로 대응하는 볼륨 레벨을 매핑시킨 테이블에 기초하여 상기 목표값을 설정할 수 있다. The wakeup recognition performance improvement module may set the target value based on a table in which volume levels corresponding to a plurality of reliability scores are mapped.

상기 웨이크업 인식 성능 향상 모듈은, 상기 제1 신뢰성 스코어와 동일한 신뢰성 스코어가 상기 테이블에 존재하면, 상기 동일한 신뢰성 스코어에 매핑된 볼륨 레벨을 상기 목표값으로 설정할 수도 있다. The wake-up recognition performance improvement module may set a volume level mapped to the same reliability score as the target value when a reliability score identical to the first reliability score exists in the table.

상기 웨이크업 인식 성능 향상 모듈은, 상기 제1 신뢰성 스코어가 상기 복수의 신뢰성 스코어 중 최소값인 제2 신뢰성 스코어 이상이고, 상기 복수의 신뢰성 스코어 중 최대값인 제3 신뢰성 스코어 이하이면, 상기 테이블에서 상기 제1 신뢰성 스코어 바로 아래의 값을 가지는 제4 신뢰성 스코어에 매핑된 볼륨 레벨을 상기 목표값으로 설정할 수도 있다. The wakeup recognition performance improvement module is configured to remove the first reliability score from the table when the first reliability score is equal to or greater than a second reliability score that is a minimum value among the plurality of reliability scores and is less than or equal to a third reliability score that is a maximum value among the plurality of reliability scores. A volume level mapped to a fourth reliability score having a value just below the first reliability score may be set as the target value.

상기 웨이크업 인식 성능 향상 모듈은, 상기 제1 신뢰성 스코어가 상기 제2 신뢰성 스코어 미만이거나, 상기 제3 신뢰성 스코어를 초과하면, 상기 현재 재생 중인 오디오 신호의 볼륨 레벨보다 1단계 낮은 볼륨 레벨을 상기 목표값으로 설정할 수도 있다. The wake-up recognition performance improvement module is configured to, when the first reliability score is less than the second reliability score or exceeds the third reliability score, set a volume level lower than the volume level of the currently playing audio signal by one step to the target It can also be set to a value.

상기 웨이크업 인식 성능 향상 모듈은, 상기 목표값이 상기 현재 재생 중인 오디오 신호의 볼륨 레벨 이상이면, 상기 목표값을 상기 현재 재생 중인 오디오 신호의 볼륨 레벨보다 1단계 낮은 볼륨 레벨로 재설정할 수도 있다. When the target value is equal to or greater than the volume level of the currently playing audio signal, the wakeup recognition performance improvement module may reset the target value to a volume level that is one step lower than the volume level of the currently playing audio signal.

또한, 본 발명의 실시 예에 따른 차량 내 음성 인식 장치의 음성 인식 방법은, 차량 내 오디오 입력 장치로부터 오디오 신호를 수신하는 단계, 상기 오디오 신호로부터 웨이크업(wake up) 명령어 인식을 시도하는 단계, 상기 웨이크업 명령어의 인식에 실패하면, 상기 차량 내에서 현재 재생 중인 오디오 신호의 종류를 식별하는 단계, 그리고 상기 현재 재생 중인 오디오 신호의 종류에 따라, 상기 현재 재생 중인 오디오 신호의 볼륨 레벨을 선택적으로 조정하는 단계를 포함할 수 있다. In addition, the voice recognition method of the in-vehicle voice recognition apparatus according to an embodiment of the present invention includes the steps of: receiving an audio signal from an in-vehicle audio input device; attempting to recognize a wake up command from the audio signal; If recognition of the wakeup command fails, identifying a type of an audio signal currently being played in the vehicle, and selectively selecting a volume level of the currently playing audio signal according to the type of the currently playing audio signal It may include the step of adjusting.

상기 선택적으로 조정하는 단계는, 상기 현재 재생 중인 오디오 신호가 음악 신호가 아닌 경우, 상기 볼륨 레벨을 조정하는 단계를 포함할 수 있다. The selectively adjusting may include adjusting the volume level when the currently playing audio signal is not a music signal.

상기 선택적으로 조정하는 단계는, 상기 현재 재생 중인 오디오 신호가 음악 신호이면, 상기 볼륨 레벨의 조정을 스킵(skip)하는 단계를 더 포함할 수도 있다. The selectively adjusting may further include skipping the adjustment of the volume level when the currently reproduced audio signal is a music signal.

상기 식별하는 단계는, 상기 차량 내에서 미디어 데이터를 재생하는 미디어 재생 장치로부터 상기 현재 재생 중인 오디오 신호에 대한 정보를 수신하는 단계, 그리고 상기 미디어 재생 장치로부터 수신한 정보에 기초하여 상기 현재 재생 중인 오디오 신호의 종류를 식별하는 단계를 포함할 수 있다. The identifying may include receiving information on the currently playing audio signal from a media playback device that plays media data in the vehicle, and the currently playing audio based on the information received from the media playback device It may include identifying the type of signal.

상기 식별하는 단계는, 상기 오디오 입력 장치를 통해 상기 현재 재생 중인 오디오 신호를 녹음하는 단계, 상기 오디오 입력 장치에 의해 녹음된 오디오 신호를 커넥티드 카 모듈을 통해 커넥티드 카 서버로 전달하는 단계, 상기 커넥티드 카 서버로부터 상기 녹음된 오디오 신호에 대한 정보를 수신하는 단계, 그리고 상기 커넥티드 카 서버로부터 수신한 정보에 기초하여 상기 현재 재생 중인 오디오 신호의 종류를 식별하는 단계를 포함할 수도 있다. The identifying may include: recording the currently playing audio signal through the audio input device; transmitting the audio signal recorded by the audio input device to a connected car server through a connected car module; The method may include receiving information on the recorded audio signal from a connected car server, and identifying a type of the currently playing audio signal based on the information received from the connected car server.

상기 선택적으로 조정하는 단계는, 최근에 수행된 웨이크업 명령어 인식 결과에 대응하는 제1 신뢰성 스코어에 기초하여, 상기 볼륨 레벨을 조정하기 위한 목표값을 설정하는 단계, 그리고 상기 목표값을 토대로 상기 볼륨 레벨을 조정하는 단계를 포함할 수 있다. The selectively adjusting may include setting a target value for adjusting the volume level based on a first reliability score corresponding to a wakeup command recognition result performed recently, and the volume level based on the target value. It may include adjusting the level.

상기 목표값을 설정하는 단계는, 복수의 신뢰성 스코어 별로 대응하는 볼륨 레벨을 매핑시킨 테이블에 기초하여 상기 목표값을 설정하는 단계를 포함할 수도 있다. The setting of the target value may include setting the target value based on a table in which volume levels corresponding to a plurality of reliability scores are mapped.

상기 테이블에 기초하여 상기 목표값을 설정하는 단계는, 상기 제1 신뢰성 스코어와 동일한 신뢰성 스코어가 상기 테이블에 존재하면, 상기 동일한 신뢰성 스코어에 매핑된 볼륨 레벨을 상기 목표값으로 설정하는 단계를 포함할 수 있다.The setting of the target value based on the table may include setting a volume level mapped to the same reliability score as the target value if a reliability score identical to the first reliability score exists in the table. can

상기 테이블에 기초하여 상기 목표값을 설정하는 단계는, 상기 제1 신뢰성 스코어가 상기 복수의 신뢰성 스코어 중 최소값인 제2 신뢰성 스코어 이상이고, 상기 복수의 신뢰성 스코어 중 최대값인 제3 신뢰성 스코어 이하이면, 상기 테이블에서 상기 제1 신뢰성 스코어 바로 아래의 값을 가지는 제4 신뢰성 스코어에 매핑된 볼륨 레벨을 상기 목표값으로 설정하는 단계를 포함할 수도 있다. In the step of setting the target value based on the table, if the first reliability score is greater than or equal to a second reliability score that is a minimum value among the plurality of reliability scores, and is less than or equal to a third reliability score that is a maximum value among the plurality of reliability scores, , setting, as the target value, a volume level mapped to a fourth reliability score having a value immediately below the first reliability score in the table.

상기 테이블에 기초하여 상기 목표값을 설정하는 단계는, 상기 제1 신뢰성 스코어가 상기 제2 신뢰성 스코어 미만이거나, 상기 제3 신뢰성 스코어를 초과하면, 상기 현재 재생 중인 오디오 신호의 볼륨 레벨보다 1단계 낮은 볼륨 레벨을 상기 목표값으로 설정하는 단계를 더 포함할 수도 있다.The setting of the target value based on the table may include, when the first reliability score is less than the second reliability score or exceeds the third reliability score, a volume level of the currently reproduced audio signal is lower than the volume level by one step. The method may further include setting the volume level to the target value.

상기 목표값을 설정하는 단계는, 상기 목표값이 상기 현재 재생 중인 오디오 신호의 볼륨 레벨 이상이면, 상기 목표값을 상기 현재 재생 중인 오디오 신호의 볼륨 레벨보다 1단계 낮은 볼륨 레벨로 재설정하는 단계를 포함할 수도 있다. The setting of the target value includes resetting the target value to a volume level that is one level lower than the volume level of the currently reproduced audio signal when the target value is equal to or higher than the volume level of the currently reproduced audio signal You may.

본 발명의 실시 예들에 따르면, 웨이크업 명령어 인식에 노이즈로 작용할 수 있는 오디오 신호가 재생 중인 환경에서, 웨이크업 명령어의 인식 성능을 향상시킬 수 있다. According to embodiments of the present invention, it is possible to improve the recognition performance of a wakeup command in an environment in which an audio signal that may act as noise in recognizing a wakeup command is being reproduced.

도 1은 본 발명의 실시 예에 따른 음성 인식 장치가 적용되는 차량 시스템을 개략적으로 도시한다.
도 2는 본 발명의 실시 예에 따른 음성 인식 장치의 웨이크업 성능 향상 모듈을 도시하는 구조도이다.
도 3은 본 발명의 실시 예에 따른 음성 인식 방법을 개략적으로 도시한다.
도 4는 도 3의 음성 인식 방법에서 웨이크업 인식 성능 향상 모드로 동작하는 단계에 대해 좀 더 구체적으로 도시한다.
도 5는 도 4의 웨이크업 인식 성능 향상 모드로 동작하는 방법에서 재생 중인 오디오 신호의 종류를 식별하는 단계에 대해 좀 더 구체적으로 도시한다.
도 6은 도 4의 웨이크업 인식 성능 향상 방법에서 오디오 신호의 볼륨 레벨을 조정하는 단계에 대해 좀 더 구체적으로 도시한다.
1 schematically illustrates a vehicle system to which a voice recognition apparatus according to an embodiment of the present invention is applied.
2 is a structural diagram illustrating a wakeup performance improvement module of a voice recognition apparatus according to an embodiment of the present invention.
3 schematically illustrates a voice recognition method according to an embodiment of the present invention.
FIG. 4 shows in more detail the operation of the wakeup recognition performance enhancement mode in the voice recognition method of FIG. 3 .
FIG. 5 illustrates in more detail the step of identifying the type of the audio signal being reproduced in the method of operating in the wakeup recognition performance enhancement mode of FIG. 4 .
FIG. 6 illustrates in more detail the step of adjusting the volume level of an audio signal in the wakeup recognition performance improvement method of FIG. 4 .

이하, 첨부한 도면을 참고로 하여 본 발명의 실시 예들에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예들에 한정되지 않는다.Hereinafter, with reference to the accompanying drawings, embodiments of the present invention will be described in detail so that those of ordinary skill in the art to which the present invention pertains can easily implement them. The present invention may be embodied in several different forms and is not limited to the embodiments described herein.

본 발명의 실시 예를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조 부호를 붙이도록 한다.In order to clearly describe the embodiment of the present invention, parts irrelevant to the description are omitted, and the same reference numerals are assigned to the same or similar elements throughout the specification.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.Throughout the specification, when a part is "connected" with another part, this includes not only the case of being "directly connected" but also the case of being "electrically connected" with another element interposed therebetween. . Also, when a part "includes" a certain component, it means that other components may be further included, rather than excluding other components, unless otherwise stated.

이하, 필요한 도면들을 참조하여 본 발명의 실시 예들에 따른 음성 인식 장치 및 그 방법에 대해 설명하기로 한다.Hereinafter, a voice recognition apparatus and method according to embodiments of the present invention will be described with reference to the necessary drawings.

도 1은 본 발명의 실시 예에 따른 음성 인식 장치가 적용되는 차량 시스템을 개략적으로 도시한다. 또한, 도 2는 본 발명의 실시 예에 따른 음성 인식 장치의 웨이크업 성능 향상 모듈을 도시하는 구조도이다. 1 schematically illustrates a vehicle system to which a voice recognition apparatus according to an embodiment of the present invention is applied. Also, FIG. 2 is a structural diagram illustrating a wakeup performance improvement module of a voice recognition apparatus according to an embodiment of the present invention.

도 1을 참조하면, 본 발명의 실시 예에 따른 차량 시스템(1)은, 미디어 재생 장치(10), 음성 인식 장치(20), 오디오 출력 장치(30), 오디오 입력 장치(40), 및 커넥티드 카 모듈(50)을 포함할 수 있다. Referring to FIG. 1 , a vehicle system 1 according to an embodiment of the present invention includes a media playback device 10 , a voice recognition device 20 , an audio output device 30 , an audio input device 40 , and a connector. It may include a ted car module 50 .

미디어 재생 장치(10)는 차량 내에서 오디오 신호가 포함된 미디어 데이터(media data)를 재생하기 위한 장치로, 다양한 종류의 미디어 재생 수단을 포함할 수 있다. 예를 들어, 미디어 재생 장치(10)는 사용자 단말(미도시)과 블루투스(Bluetooth) 통신을 통해 연결되어 미디어 데이터를 스트리밍하는 스트리밍 장치(11), USB(Universal Serial Bus), CD(Compact Disc), DVD(Digital Versatile Disc) 등 저장매체에 기록된 미디어 데이터를 재생하는 저장매체 재생 장치(12), 라디오, DMB(Digital Multimedia Broadcasting) 등 방송 데이터를 수신하여 재생하는 방송 출력 장치(13) 등을 포함할 수 있다. The media reproducing apparatus 10 is an apparatus for reproducing media data including an audio signal in a vehicle, and may include various types of media reproducing means. For example, the media playback device 10 is connected to a user terminal (not shown) and a streaming device 11 for streaming media data through Bluetooth communication, a Universal Serial Bus (USB), and a Compact Disc (CD). , a storage medium playback device 12 that reproduces media data recorded on a storage medium such as a DVD (Digital Versatile Disc), a radio, a broadcast output device 13 that receives and reproduces broadcast data such as DMB (Digital Multimedia Broadcasting), etc. may include

오디오 출력 장치(30)는 오디오 신호를 출력하기 위한 장치로서, 스피커, 앰프 등을 포함할 수 있다. 오디오 출력 장치(30)는 미디어 재생 장치(10)에 의해 오디오 파일이 포함된 미디어 데이터가 재생되면, 미디어 재생 장치(10)로부터 오디오 신호를 전달 받아 차량 내 승객실로 출력할 수 있다. The audio output device 30 is a device for outputting an audio signal, and may include a speaker, an amplifier, and the like. When media data including an audio file is reproduced by the media playback device 10 , the audio output device 30 may receive an audio signal from the media playback device 10 and output it to the passenger compartment of the vehicle.

오디오 입력 장치(40)는 음성 신호 등을 포함하는 오디오 신호를 입력 받기 위한 장치로서, 마이크 등을 포함할 수 있다. The audio input device 40 is a device for receiving an audio signal including a voice signal and the like, and may include a microphone or the like.

음성 인식 장치(20)는 오디오 입력 장치(40)를 통해 입력되는 오디오 신호에 대한 음성 인식을 수행하고, 음성 인식 결과 예를 들어, 음성 명령어 등을 출력할 수 있다. 이러한 음성 인식 장치(20)는 음성 인식 모듈(21), 및 웨이크업 인식 성능 향상 모듈(22)을 포함할 수 있다. The voice recognition device 20 may perform voice recognition on an audio signal input through the audio input device 40 , and output a voice recognition result, for example, a voice command. The voice recognition apparatus 20 may include a voice recognition module 21 and a wakeup recognition performance improvement module 22 .

음성 인식 모듈(21)은 오디오 입력 장치(40)를 통해 오디오 신호가 수신되면 잡음 제거 등의 전처리를 수행하고, 전처리된 오디오 신호로부터 음성구간을 검출할 수 있다. 음성 인식 모듈(21)은 전처리된 오디오 신호로부터 음성구간이 검출되면, 음성구간의 신호를 분석하여 음성 신호의 특징패턴을 검출하고, 검출된 특징패턴을 기 설정된 기준 음성 신호와 비교함으로써 음성을 인식할 수 있다. When an audio signal is received through the audio input device 40 , the voice recognition module 21 may perform pre-processing such as noise removal and detect a voice section from the pre-processed audio signal. When a voice section is detected from the pre-processed audio signal, the voice recognition module 21 detects a characteristic pattern of the voice signal by analyzing the signal of the voice section, and recognizes the voice by comparing the detected characteristic pattern with a preset reference voice signal can do.

음성 인식 모듈(21)은 소정 시간 이상 수신되는 오디오 신호로부터 음성 신호가 검출되지 않으면 음성 인식을 위한 대기 모드로 진입할 수 있다. 음성 인식 모듈(21)은 대기 모드로 동작하는 중에 오디오 신호로부터 웨이크업(wake up) 명령어에 대응하는 음성 신호가 검출되면, 이후 음성 명령어 인식 모드로 진입하여 음성 명령어 입력을 기다린다. 음성 인식 모듈(21)은 음성 명령어 인식 모드에서 오디오 신호로부터 음성 명령어가 식별되면, 식별된 음성 명령어를 포함하는 음성인식결과를 차량 제어기(미도시)로 출력할 수 있다. The voice recognition module 21 may enter a standby mode for voice recognition when a voice signal is not detected from an audio signal received for a predetermined time or more. When a voice signal corresponding to a wake up command is detected from an audio signal while operating in the standby mode, the voice recognition module 21 enters a voice command recognition mode and waits for a voice command input. When a voice command is identified from an audio signal in the voice command recognition mode, the voice recognition module 21 may output a voice recognition result including the identified voice command to a vehicle controller (not shown).

이를 수신한 차량 제어기는, 음성 인식 모듈(21)에 의해 식별된 음성 명령어에 응답하여 대응하는 기능을 실행할 수 있다. 음성 인식 모듈(21)은 음성 명령어 인식 모드에서 음성 명령어 인식이 성공적으로 종료되거나, 음성 명령이 인식 모드에 진입 후 소정 시간 동안 오디오 신호로부터 음성 명령어가 식별되지 않으면, 다시 대기 모드로 진입하여 웨이크업 명령어의 수신을 대기할 수 있다. Upon receiving this, the vehicle controller may execute a corresponding function in response to the voice command identified by the voice recognition module 21 . The voice recognition module 21 enters the standby mode again and wakes up if the voice command recognition is successfully terminated in the voice command recognition mode or the voice command is not identified from the audio signal for a predetermined time after the voice command enters the recognition mode You can wait for the command to be received.

웨이크업 명령어는, 음성 명령어 인식을 개시하기 위한 시동 명령어로서, 차량 제어기는 웨이크업 명령어가 인식되고 난 후 소정 시간 안에 음성 명령어가 인식되면, 인식된 음성 명령어에 응답하여 특정 기능을 실행할 수 있다. 즉, 웨이크업 명령어는, 음성 인식 모듈(21) 및 차량 제어기에서 소정 시간 안에 음성 명령어가 입력될 것임을 인지하고 음성 명령어 인식 모드로 전환할 수 있도록 하는 기능을 수행할 수 있다. 이러한 웨이크업 명령어는, 어떠한 환경에서도 특히, 운전자나 동승자의 발화로 인한 음성 신호 외에 미디어 재생에 따른 오디오 신호들이 혼재한 소음 상황에서도 인식 성공률이 높아야 한다. The wake-up command is a starting command for starting recognition of a voice command. When a voice command is recognized within a predetermined time after the wake-up command is recognized, the vehicle controller may execute a specific function in response to the recognized voice command. That is, the wakeup command may perform a function of allowing the voice recognition module 21 and the vehicle controller to recognize that a voice command will be input within a predetermined time and to switch to the voice command recognition mode. The wake-up command should have a high recognition success rate in any environment, especially in a noise situation in which audio signals according to media playback in addition to voice signals caused by the driver's or passenger's utterance are mixed.

음성 인식 모듈(21)이 대기 모드에서 음성 구간을 검출하였으나 웨이크업 명령어 인식에 실패한 경우, 음성 인식 장치(20)는 웨이크업 인식 성능 향상 모드로 진입할 수 있다. When the voice recognition module 21 detects a voice section in the standby mode but fails to recognize a wakeup command, the voice recognition apparatus 20 may enter a wakeup recognition performance improvement mode.

웨이크업 인식 성능 향상 모듈(22)은 웨이크업 인식 성능 향상 모드에 진입하면, 차량 내에서 현재 재생 중인 오디오 신호의 종류에 기초하여, 웨이크업 명령어의 인식 성능 향상을 위해 현재 재생 중인 오디오 신호의 출력 레벨 즉 볼륨을 선택적으로 조절할 수 있다. 이를 위해, 웨이크업 인식 성능 향상 모듈(22)은 도 2에 도시된 바와 같이, 오디오 정보 획득 모듈(221), 오디오 출력 제어 모듈(222), 및 메인 제어 모듈(223)을 포함할 수 있다. When the wakeup recognition performance improvement module 22 enters the wakeup recognition performance improvement mode, based on the type of the audio signal currently being played in the vehicle, the output of the currently playing audio signal to improve the recognition performance of the wakeup command You can selectively adjust the level, that is, the volume. To this end, the wakeup recognition performance improvement module 22 may include an audio information acquisition module 221 , an audio output control module 222 , and a main control module 223 as shown in FIG. 2 .

오디오 정보 획득 모듈(221)은, 차량 내에서 현재 재생 중인 오디오 신호가 존재하는지 식별하며, 현재 재생 중인 오디오 신호가 존재하면 재생 중인 오디오 신호의 종류를 식별할 수 있다. 오디오 정보 획득 모듈(221)은 오디오 출력 장치(30) 또는 미디어 재생 장치(10)와 통신하여 현재 재생 중인 오디오 신호가 존재하는지 식별할 수 있다. 오디오 정보 획득 모듈(221)은 차량 내에서 현재 재생 중인 오디오 신호가 존재하면, 미디어 재생 장치(10) 또는 커넥티드 카 모듈(50)과 연동하여 오디오 신호의 종류가 음악인지를 식별할 수 있다. The audio information obtaining module 221 may identify whether an audio signal currently being reproduced in the vehicle exists, and if there is an audio signal currently being reproduced, the type of the audio signal being reproduced may be identified. The audio information acquisition module 221 may communicate with the audio output device 30 or the media playback device 10 to identify whether an audio signal currently being reproduced exists. When there is an audio signal currently being played in the vehicle, the audio information acquisition module 221 may identify whether the type of the audio signal is music by interworking with the media playback device 10 or the connected car module 50 .

오디오 정보 획득 모듈(221)은 현재 재생 중인 오디오 신호에 대한 정보(예를 들어, ID3 태그 등)를 미디어 재생 장치(10)로부터 수신하고, 이를 토대로 현재 재생 중인 오디오 신호가 음악인지를 식별할 수 있다. The audio information obtaining module 221 may receive information (eg, ID3 tag, etc.) about the currently playing audio signal from the media playback device 10, and based on this, identify whether the currently playing audio signal is music. have.

미디어 재생 장치(10)가 현재 라디오, DMB 등 방송 신호를 수신하여 재생 중이면, 오디오 정보 획득 모듈(221)은 현재 재생 중인 오디오 신호의 종류를 식별하지 못할 수도 있다. If the media playback device 10 currently receives and plays a broadcast signal such as radio or DMB, the audio information acquisition module 221 may not be able to identify the type of the currently playing audio signal.

오디오 정보 획득 모듈(221)은 현재 오디오 신호가 재생 중인 상태에서 오디오 신호가 음악으로 식별되지 않은 경우, 오디오 입력 장치(40)를 통해 차량 내부의 오디오 신호를 녹음할 수 있다. 또한, 오디오 정보 획득 모듈(221)은 이렇게 녹음된 오디오 신호를 커넥티드 카 모듈(50)로 전달하고, 커넥티드 카 모듈(50)은 무선 네트워크를 통해 이를 커넥티드 카 서버(3)로 전달할 수 있다. When the audio signal is not identified as music while the audio signal is currently being reproduced, the audio information obtaining module 221 may record an audio signal inside the vehicle through the audio input device 40 . In addition, the audio information acquisition module 221 may transmit the audio signal recorded in this way to the connected car module 50 , and the connected car module 50 may transmit it to the connected car server 3 through a wireless network. have.

이를 수신한 커넥티드 카 서버(3)는 녹음된 오디오 신호를 음원 데이터베이스(5)에 저장된 오디오 신호들과 비교하고, 비교를 통해 해당 오디오 신호에 대한 정보(음악 신호 포함 여부, 곡명, 앨범명, 가수, 재생 시간 등)를 획득할 수 있다. 커넥티드 카 서버(3)는 수신된 오디오 신호에 대한 정보 획득이 완료되면, 획득한 정보를 커넥티드 카 모듈(50)로 전송하고, 이를 수신한 커넥티드 카 모듈(50)은 수신한 정보를 오디오 정보 획득 모듈(221)로 전달할 수 있다. 따라서, 커넥티드 카 모듈(50)로부터 오디오 신호에 대해 커넥티드 카 서버(3)에 의해 획득된 정보를 수신한 오디오 정보 획득 모듈(221)은 이를 토대로 현재 재생 중인 오디오 신호가 음악 신호인지 식별할 수 있다.The connected car server 3 receiving this compares the recorded audio signal with the audio signals stored in the sound source database 5, and through the comparison, information on the corresponding audio signal (whether or not a music signal is included, song name, album name, singer, playing time, etc.) can be obtained. When the acquisition of information on the received audio signal is completed, the connected car server 3 transmits the acquired information to the connected car module 50, and the connected car module 50 that receives the information transmits the received information. It may be transmitted to the audio information acquisition module 221 . Accordingly, the audio information acquisition module 221, which has received the information acquired by the connected car server 3 for the audio signal from the connected car module 50, can identify whether the currently playing audio signal is a music signal based on this. can

오디오 출력 제어 모듈(222)은 오디오 출력 장치(30)의 출력 레벨을 조절하거나, 미디어 재생 장치(10)의 신호 레벨 조정을 통해 오디오 출력 장치(30)를 통해 출력되는 오디오 신호의 크기 즉, 볼륨을 조절할 수 있다. The audio output control module 222 adjusts the output level of the audio output device 30 or adjusts the signal level of the media playback device 10 to adjust the size of the audio signal output through the audio output device 30 , that is, the volume. can be adjusted.

메인 제어 모듈(223)은 음성 인식 장치(20)가 웨이크업 인식 성능 향상 모드에 진입하면, 오디오 정보 획득 모듈(221)을 통해 현재 재생 중인 오디오 신호의 존재 여부와, 현재 재생 중인 오디오 신호가 음악 데이터를 포함하는지에 대한 정보를 획득할 수 있다. 이를 통해, 현재 재생 중인 오디오 신호가 음악 신호 외의 오디오 신호인 것으로 식별되면, 메인 제어 모듈(223)은 현재 재생 중인 오디오 신호가 웨이크업 명령어에 노이즈 신호로 작용한다고 판단하고, 오디오 출력 제어 모듈(222)을 통해 오디오 신호의 볼륨을 낮출 수 있다. When the voice recognition device 20 enters the wake-up recognition performance improvement mode, the main control module 223 determines whether or not the currently playing audio signal exists and the currently playing audio signal through the audio information acquiring module 221 Information on whether data is included can be obtained. Through this, when it is identified that the currently playing audio signal is an audio signal other than the music signal, the main control module 223 determines that the currently playing audio signal acts as a noise signal for the wake-up command, and the audio output control module 222 ) to lower the volume of the audio signal.

메인 제어 모듈(223)은 오디오 출력 제어 모듈(222)을 통해 오디오 신호의 볼륨 조절 시, 음성 인식 모듈(21)로부터 웨이크업 인식 성능 향상 모드에 진입하기 직전에 실패한 웨이크업 명령어에 대한 신뢰성 점수(confidence score), 즉, 가장 최근에 실시한 웨이크업 명령어 인식 과정에서 획득한 신뢰성 점수에 기초하여 볼륨 조절 정도를 결정할 수도 있다. When the volume of the audio signal is adjusted through the audio output control module 222, the main control module 223 provides a reliability score ( Confidence score), that is, the degree of volume control may be determined based on a confidence score obtained in the process of recognizing the most recently performed wakeup command.

신뢰성 점수는, 음성 인식 기술에서 사용되는 것으로서, 입력된 음성 명령어에 대해 확률 점수 정도로 표현될 수 있다. 음성 인식 시, 이 신뢰성 점수가 기 설정된 기준 이상이면 인식에 성공한 것으로 판단되고, 신뢰성 점수가 기준 보다 낮으면 음성 인식에 실패한 것으로 판단된다.The reliability score, as used in speech recognition technology, may be expressed as a probability score for an inputted voice command. In the case of voice recognition, if the reliability score is higher than or equal to a preset criterion, recognition is successful, and if the reliability score is lower than the criterion, it is determined that voice recognition has failed.

메인 제어 모듈(223)은 신뢰성 점수 별로 오디오 신호의 볼륨 레벨을 테이블화하여 관리할 수 있다. 메인 제어 모듈(223)은 음성 인식 모듈(21)로부터 가장 최근에 수행된 웨이크업 명령어 인식에 대한 신뢰성 점수가 획득되면, 신뢰성 점수와 테이블화된 신뢰성 점수 별 볼륨 레벨에 기초하여 볼륨 조절 정도를 제어할 수 있다. 아래 표 1은, 신뢰성 점수 별로 볼륨 레벨을 테이블화한 일 예를 나타낸다. 이하, 설명 설명의 편의를 위해 신뢰성 점수 별로 볼륨 레벨을 정의하는 테이블을 CSV(Confidence Score-Volume table)라 명명하여 사용한다. The main control module 223 may manage the volume level of the audio signal in a table for each reliability score. When the reliability score for the most recently performed wakeup command recognition is obtained from the voice recognition module 21, the main control module 223 controls the degree of volume control based on the reliability score and the volume level for each reliability score tabulated. can do. Table 1 below shows an example in which volume levels are tabled for each reliability score. Hereinafter, for convenience of explanation, a table defining a volume level for each reliability score is named and used as a CSV (Confidence Score-Volume table).

신뢰성 점수reliability score 볼륨 레벨volume level 203.7203.7 1010 201.8201.8 99 199.5199.5 99 188.7188.7 88

메인 제어 모듈(223)은 음성 인식 모듈(21)로부터 수신한 신뢰성 점수(CSrcv)가 아래의 수학식 1을 만족하고, 수신한 신뢰성 점수(CSrcv)가 CSV 내에 존재하는 값인 경우에 대해, 수신한 신뢰성 점수(CSrcv)에 대응하는 볼륨 레벨을 CSV 로부터 획득하고, 이를 볼륨 조절의 목표값으로 설정할 수 있다. [수학식 1]The main control module 223 determines that the reliability score CSrcv received from the voice recognition module 21 satisfies Equation 1 below, and the received reliability score CSrcv is a value existing in the CSV. A volume level corresponding to the reliability score (CSrcv) may be obtained from the CSV, and this may be set as a target value for volume control. [Equation 1]

CSmin ≤ CSrcv ≤CSmaxCSmin ≤ CSrcv ≤CSmax

위 수학식 1에서, CSmin 및 CSmax는 각각, CSV를 구성하는 신뢰성 점수의 최소값과 최대값을 나타낸다. 위 표 1을 예로 들면, 메인 제어 모듈(223)은 음성 인식 모듈(21)로부터 수신한 신뢰성 점수(CSrcv)가 201.8이면, 위 수학식 1을 만족하고, CSV 내에 동일한 신뢰성 점수가 존재하는 바, 해당 신뢰성 점수에 매핑된 볼륨 레벨 즉, 9를 볼륨 조정 목표값으로 설정할 수 있다. In Equation 1 above, CSmin and CSmax represent the minimum and maximum values of reliability scores constituting CSV, respectively. Taking Table 1 above as an example, if the reliability score (CSrcv) received from the voice recognition module 21 is 201.8, the main control module 223 satisfies Equation 1 above, and the same reliability score exists in the CSV, The volume level mapped to the corresponding reliability score, that is, 9 may be set as the volume adjustment target value.

메인 제어 모듈(223)은 음성 인식 모듈(21)로부터 수신한 신뢰성 점수(CSrcv)가 아래의 위 수학식 1을 만족하나, 수신한 신뢰성 점수(CSrcv)와 동일한 신뢰성 점수가 CSV 내에 포함되지 않은 경우에 대해서는, CSV를 구성하는 신뢰성 점수들 중 수신한 신뢰성 점수(CSrcv)보다 낮으면서 수신한 신뢰성 점수(CSrcv)에 가장 근접한 신뢰성 점수를 식별할 수 있다. 즉, 메인 제어 모듈(223)은 CSV를 구성하는 신뢰성 점수들 중 수신한 신뢰성 점수(CSrcv)의 바로 아래 값에 해당하는 신뢰성 점수를 식별하고, 이에 대응하는 볼륨 레벨을 목표값으로 설정할 수 있다. 위 표 1을 예로 들면, 음성 인식 모듈(21)로부터 수신된 신뢰성 점수(CSrcv)가 202.7이면, 위 수학식 1을 만족하나 CSV 내에 동일한 신뢰성 점수가 존재하지 않는다. 이러한 경우, 메인 제어 모듈(223)은 CSV에서 202.7 바로 아래에 해당하는 신뢰성 점수 201.8에 매핑된 볼륨 레벨(볼륨 레벨 9)을 확인하고, 이를 볼륨 조정 목표값으로 설정할 수 있다. When the reliability score CSrcv received from the voice recognition module 21 satisfies Equation 1 below, but the reliability score equal to the received reliability score CSrcv is not included in the CSV. For , it is possible to identify a reliability score that is lower than the received reliability score (CSrcv) and closest to the received reliability score (CSrcv) from among the reliability scores constituting the CSV. That is, the main control module 223 may identify a reliability score corresponding to a value immediately below the received reliability score CSrcv from among the reliability scores constituting the CSV, and set the corresponding volume level as a target value. Taking Table 1 as an example, if the reliability score CSrcv received from the voice recognition module 21 is 202.7, Equation 1 above is satisfied, but the same reliability score does not exist in the CSV. In this case, the main control module 223 may check the volume level (volume level 9) mapped to the reliability score 201.8 that is just below 202.7 in the CSV and set it as the volume adjustment target value.

메인 제어 모듈(223)은 음성 인식 모듈(21)로부터 수신한 신뢰성 점수(CSrcv)가 아래의 위 수학식 2를 만족하는 경우에 대해서는, 현재 출력 중인 오디오 신호의 볼륨 레벨보다 1단계 낮은 볼륨 레벨을 볼륨 조정 목표값으로 설정할 수도 있다. 위 표 1을 예로 들면, 음성 인식 모듈(21)로부터 수신된 신뢰성 점수(CSrcv)가 204.7로 CSmax보다 크거나, 수신된 신뢰성 점수(CSrcv)가 187.7로 CSmin보다 낮으면, 메인 제어 모듈(223)은 현재 출력 중인 오디오 신호의 볼륨 레벨인 9보다 한 단계 낮은 볼륨 레벨 9를 볼륨 조정 목표값으로 설정할 수 있다. When the reliability score CSrcv received from the voice recognition module 21 satisfies Equation 2 above, the main control module 223 controls a volume level that is one step lower than the volume level of the audio signal currently being output. It can also be set as a volume adjustment target value. Taking Table 1 above as an example, if the reliability score (CSrcv) received from the voice recognition module 21 is 204.7, which is greater than CSmax, or the received reliability score (CSrcv) is 187.7, which is lower than CSmin, the main control module 223 may set the volume level 9, which is one level lower than the volume level 9 of the currently output audio signal, as the volume adjustment target value.

[수학식 2][Equation 2]

(CSmin > CSrcv) || (CSrcv > CSmax) (CSmin > CSrcv) || (CSrcv > CSmax)

메인 제어 모듈(223)은 볼륨 조정 목표값을 설정하는 과정에서, CSV에 존재하지 않는 신뢰성 점수에 대응하여 볼륨 조정 목표값이 획득되면, 해당 신뢰성 점수 및 이에 대응하여 설정된 볼륨 조정 목표값을 CSV에 추가하여 CSV를 업데이트할 수도 있다.In the process of setting the volume adjustment target value, when the volume adjustment target value is obtained corresponding to the reliability score that does not exist in the CSV, the main control module 223 stores the reliability score and the volume adjustment target value set in response thereto to the CSV. You can also update the CSV by adding

메인 제어 모듈(223)은 또한 전술한 과정을 통해 획득된 볼륨 조정 목표값이 현재 출력 중인 오디오 신호의 볼륨 레벨 이상이면, 현재 볼륨 레벨보다 1단계 낮은 볼륨 레벨을 볼륨 조정 목표값으로 재설정할 수도 있다. The main control module 223 may also reset a volume level one step lower than the current volume level to the volume adjustment target value when the volume adjustment target value obtained through the above-described process is equal to or greater than the volume level of the currently output audio signal. .

메인 제어 모듈(223)은 전술한 바와 같이 볼륨 조정 목표값이 결정되면, 오디오 출력 제어 모듈(222)을 통해 현재 출력 중인 오디오 신호의 볼륨 레벨을 결정된 볼륨 조정 목표값으로 조정할 수 있다. 메인 제어 모듈(223)은 이와 같이 현재 출력 중인 오디오 신호의 볼륨 레벨을 볼륨 조정 목표값으로 조정하는 것이 완료되면, 음성 인식 장치(20)를 다시 대기 모드로 전환시킴으로써, 웨이크업 명령어 수신을 대기하도록 한다. When the volume adjustment target value is determined as described above, the main control module 223 may adjust the volume level of the audio signal currently being output through the audio output control module 222 to the determined volume adjustment target value. When the adjustment of the volume level of the currently output audio signal to the volume adjustment target value is completed, the main control module 223 switches the voice recognition device 20 back to the standby mode to wait for the wakeup command reception. do.

한편, 메인 제어 모듈(223)은 현재 출력 중인 오디오 신호가 음악 신호가 아닌 것으로 최종 식별되면, 전술한 볼륨 조정 과정을 스킵(skip)하고 음성 인식 장치(20)를 다시 대기 모드로 전환시킴으로써, 웨이크업 명령어 수신을 대기하도록 한다. 또한, 메인 제어 모듈(223)은 현재 출력 중인 오디오 신호에 대해 볼륨 레벨이 0 즉, 뮤트(mute) 상태로 설정된 경우에도, 전술한 볼륨 조정 과정을 스킵할 수 있다. On the other hand, when it is finally identified that the audio signal currently being output is not a music signal, the main control module 223 skips the above-described volume adjustment process and switches the voice recognition apparatus 20 back to the standby mode to wake up Wait for the UP command to be received. Also, even when the volume level of the currently output audio signal is set to 0, that is, the mute state, the main control module 223 may skip the above-described volume adjustment process.

이하, 도 3 내지 도 6을 참조하여 본 발명의 실시 예에 따른 음성 인식 방법에 대해 상세히 설명하기로 한다. 후술하는 도 3 내지 도 6의 방법들은 위에서 도 1 및 도 2를 참조하여 설명한 음성 인식 장치(20)에 의해 수행될 수 있다.Hereinafter, a voice recognition method according to an embodiment of the present invention will be described in detail with reference to FIGS. 3 to 6 . The methods of FIGS. 3 to 6 to be described later may be performed by the voice recognition apparatus 20 described above with reference to FIGS. 1 and 2 .

도 3은 본 발명의 실시 예에 따른 음성 인식 방법을 개략적으로 도시한다. 3 schematically illustrates a voice recognition method according to an embodiment of the present invention.

도 3을 참조하면, 음성 인식 장치(20)는 음성 인식 프로세스가 시작되면 수신되는 오디오 신호로부터 음성 구간이 검출되기 전까지 대기 모드로 동작할 수 있다(S1). Referring to FIG. 3 , when the voice recognition process starts, the voice recognition apparatus 20 may operate in the standby mode until a voice section is detected from the received audio signal ( S1 ).

음성 인식 장치(20)는 대기 모드로 동작하는 중에 오디오 입력 장치(40)를 통해 수신되는 오디오 신호로부터 웨이크업 명령어 인식에 성공하면(S2), 음성 명령어 인식 모드로 동작하여 수신되는 오디오 신호로부터 음성 명령어를 검출할 수 있다(S3). 상기 S3 단계에서, 음성 명령어 인식 모드에 진입한 음성 인식 장치(20)는, 인식 성공률을 향상시키기 위해 오디오 출력 장치(30) 또는 미디어 재생 장치(10)를 제어하여 현재 출력 중인 오디오 신호의 볼륨을 감소시킨 상태로 음성 명령어 수신을 대기할 수 있다. When the voice recognition device 20 succeeds in recognizing a wake-up command from an audio signal received through the audio input device 40 while operating in the standby mode (S2), it operates in a voice command recognition mode and receives a voice from the received audio signal. A command can be detected (S3). In step S3, the voice recognition device 20 entering the voice command recognition mode controls the audio output device 30 or the media playback device 10 to increase the recognition success rate to increase the volume of the audio signal currently being output. In a reduced state, it is possible to wait for a voice command reception.

음성 인식 장치(20)는 상기 S3 단계를 통해 음성 명령어 인식에 성공하면(S4), 인식된 음성 명령어를 포함하는 음성 인식 결과를 차량 제어기로 출력할 수 있다(S5). 이에 따라, 음성 인식 결과를 수신한 차량 제어기는 인식된 음성 명령어에 응답하여 대응하는 기능을 수행할 수 있다. If the voice recognition apparatus 20 succeeds in recognizing the voice command through the step S3 (S4), it may output the voice recognition result including the recognized voice command to the vehicle controller (S5). Accordingly, the vehicle controller receiving the voice recognition result may perform a corresponding function in response to the recognized voice command.

또한, 음성 명령어 인식을 완료한 음성 인식 장치(20)는 다시 대기 모드로 전환하여 웨이크업 명령어 수신을 대기할 수 있다. 이 때, 음성 명령어 인식 모드로 전환되며 감소된 볼륨 레벨은, 감소되기 이전의 볼륨 레벨로 복원될 수 있다. In addition, the voice recognition apparatus 20 that has completed the voice command recognition may switch back to the standby mode to wait for the wakeup command reception. At this time, the reduced volume level may be restored to the volume level before the reduction in the voice command recognition mode.

한편, 상기 S2 단계에서 웨이크업 명령어 인식에 실패한 음성 인식 장치(20)는, 웨이크업 인식 성능 향상 모드로 동작함으로써(S6) 웨이크업 인식 성공률을 향상시키기 위한 동작들을 수행할 수 있다. Meanwhile, the voice recognition apparatus 20 that has failed to recognize the wakeup command in step S2 may perform operations for improving the wakeup recognition success rate by operating in the wakeup recognition performance improvement mode (S6).

도 4는 도 3의 음성 인식 방법에서 웨이크업 인식 성능 향상 모드로 동작하는 단계에 대해 좀 더 구체적으로 도시한다. FIG. 4 shows in more detail the operation of the wakeup recognition performance enhancement mode in the voice recognition method of FIG. 3 .

도 4를 참조하면, 전술한 도 3의 S2 단계를 통해 웨이크업 명령어 인식에 실패한 음성 인식 장치(20)는, 오디오 출력 장치(30) 또는 미디어 재생 장치(10)와의 통신을 통해 현재 차량 내에서 오디오 신호를 재생 중인지 확인할 수 있다(S60). 또한, 음성 인식 장치(20)는 차량 내에서 현재 재생 중인 오디오 신호가 존재하는 것으로 식별되면, 오디오 출력 장치(30)와 통신하여 현재 오디오 신호의 출력 상태가 뮤트(mute) 상태에 해당하는지 확인하고(S61), 뮤트 상태가 아닌 경우 재생 중인 오디오 신호의 종류를 식별할 수 있다(S62). Referring to FIG. 4 , the voice recognition device 20 that has failed to recognize the wakeup command through step S2 of FIG. 3 is currently in the vehicle through communication with the audio output device 30 or the media playback device 10 . It can be checked whether an audio signal is being reproduced (S60). In addition, when it is identified that the audio signal currently being reproduced in the vehicle exists, the voice recognition device 20 communicates with the audio output device 30 to check whether the output state of the current audio signal corresponds to a mute state, (S61), when not in the mute state, the type of the audio signal being reproduced may be identified (S62).

도 5는 도 4의 웨이크업 인식 성능 향상 모드로 동작하는 방법에서 재생 중인 오디오 신호의 종류를 식별하는 단계에 대해 좀 더 구체적으로 도시한다.FIG. 5 illustrates in more detail the step of identifying the type of the audio signal being reproduced in the method of operating in the wakeup recognition performance enhancement mode of FIG. 4 .

도 5를 참조하면, 도 4의 S60 단계 및 S61 단계를 통해 현재 재생 중인 오디오 신호가 존재하고, 오디오 신호의 볼륨 레벨이 뮤트 상태가 아님을 확인한 음성 인식 장치(20)는, 미디어 재생 장치(10)로부터 현재 재생 중인 오디오 신호의 종류 확인이 가능한지 확인할 수 있다(S620). 그리고, 미디어 재생 장치(10)를 통해 현재 재생 중인 오디오 신호의 종류에 대한 정보를 획득 가능하면, 음성 인식 장치(20)는 미디어 재생 장치(10)로부터 수신한 정보에 기초하여 현재 재생 중인 오디오 신호의 종류를 식별할 수 있다(S621).Referring to FIG. 5 , the voice recognition apparatus 20 confirms that the audio signal currently being reproduced exists and the volume level of the audio signal is not in the mute state through steps S60 and S61 of FIG. 4 , the media playback apparatus 10 ), it can be checked whether it is possible to check the type of the audio signal currently being reproduced (S620). In addition, if information on the type of the audio signal currently being reproduced can be obtained through the media playback device 10 , the voice recognition device 20 performs the currently playing audio signal based on the information received from the media playback device 10 . can be identified (S621).

반면에, 미디어 재생 장치(10)를 통해 현재 재생 중인 오디오 신호의 종류에 대한 정보 획득에 실패하면, 음성 인식 장치(20)는 오디오 입력 장치(40)를 통해 현재 재생 중인 오디오 신호를 녹음하고(S622), 커넥티드 카 모듈(50)을 통해 커넥티드 카 서버(3)로 녹음된 오디오 신호를 전달할 수 있다(S623). On the other hand, if it fails to obtain information on the type of the audio signal currently being played through the media playback device 10, the voice recognition device 20 records the audio signal currently being played through the audio input device 40 ( S622), the recorded audio signal may be transmitted to the connected car server 3 through the connected car module 50 (S623).

이를 수신한 커넥티드 카 서버(3)는 녹음된 오디오 신호를 음원 데이터베이스(5)에 저장된 오디오 신호들과 비교하고, 비교를 통해 해당 오디오 신호의 종류 즉, 음악 신호인지에 대해 확인할 수 있다. 커넥티드 카 서버(3)는 수신된 오디오 신호의 종류 식별이 완료되면, 식별 결과를 가리키는 정보를 커넥티드 카 모듈(50)로 전달할 수 있다. The connected car server 3 receiving this compares the recorded audio signal with the audio signals stored in the sound source database 5, and through the comparison, it is possible to check whether the audio signal is a type of the corresponding audio signal, that is, a music signal. When identification of the type of the received audio signal is completed, the connected car server 3 may transmit information indicating the identification result to the connected car module 50 .

이후, 커넥티드 카 서버(3)에서 녹음된 오디오 신호의 종류를 식별한 결과를 커넥티드 카 모듈(50)을 통해 전달 받은 음성 인식 장치(20)는, 커넥티드 카 서버(3)로부터 수신한 정보에 기초하여 오디오 신호의 종류를 식별할 수 있다(S624). Thereafter, the voice recognition device 20 that receives the result of identifying the type of audio signal recorded by the connected car server 3 through the connected car module 50 receives the The type of the audio signal may be identified based on the information (S624).

다시, 도 4를 보면, 현재 재생 중인 오디오 신호의 종류를 식별한 음성 인식 장치(20)는, 식별 결과에 기초하여 현재 재생 중인 오디오 신호가 음악 신호인지를 확인할 수 있다(S63). 그리고, 현재 재생 중인 오디오 신호가 음악 신호가 아닌 다른 종류의 오디오 신호에 해당하는 경우, 웨이크업 명령어 인식 성능에 영향을 미칠 수 있다고 판단하여 오디오 신호의 볼륨 레벨을 조정할 수 있다(S64). Referring again to FIG. 4 , the voice recognition apparatus 20 that has identified the type of the currently reproduced audio signal may determine whether the currently reproduced audio signal is a music signal based on the identification result ( S63 ). Also, when the currently playing audio signal corresponds to an audio signal other than the music signal, it is determined that the wakeup command recognition performance may be affected and the volume level of the audio signal may be adjusted ( S64 ).

도 6은 도 4의 웨이크업 인식 성능 향상 방법에서 오디오 신호의 볼륨 레벨을 조정하는 단계에 대해 좀 더 구체적으로 도시한다. FIG. 6 illustrates in more detail the step of adjusting the volume level of an audio signal in the wakeup recognition performance improvement method of FIG. 4 .

도 6을 참조하면, 음성 인식 장치(20)는 볼륨 조정의 목표값 설정을 위해, 가장 최근에 수행된 웨이크업 명령어 인식결과 즉, 직전에 인식에 실패한 웨이크업 명령어 인식에서 산출된 신뢰성 점수(CSrcv)를 확인하고 (S640), 이와 동일한 신뢰성 점수를 CSV 에서 검색할 수 있다(S641). Referring to FIG. 6 , in order to set a target value for volume adjustment, the voice recognition apparatus 20 performs the most recently performed wakeup command recognition result, that is, the reliability score (CSrcv) calculated from the wakeup command recognition that failed to be recognized immediately. ) is checked (S640), and the same reliability score can be retrieved from the CSV (S641).

그리고, 상기 S641 단계를 통해 CSV에서 신뢰성 점수(CSrcv)와 동일한 신뢰성 점수가 검색되면(S642), 음성 인식 장치(20)는 CSV에서 신뢰성 점수(CSrcv)와 동일한 신뢰성 점수에 매핑된 볼륨 레벨을 볼륨 조정 목표값으로 설정할 수 있다(S643). And, when the reliability score equal to the reliability score (CSrcv) is found in the CSV through the step S641 (S642), the voice recognition device 20 returns the volume level mapped to the reliability score equal to the reliability score (CSrcv) in the CSV. It can be set as an adjustment target value (S643).

한편, 음성 인식 장치(20)는 CSV로부터 신뢰성 점수(CSrcv)와 동일한 신뢰성 점수 검색에 실패하면, 신뢰성 점수(CSrcv)가 전술한 수학식 1을 만족하는지 확인할 수 있다(S644). 그리고, 신뢰성 점수(CSrcv)가 전술한 수학식 1을 만족하는 경우, CSV에 포함된 신뢰성 점수들 중 신뢰성 점수(CSrcv) 바로 아래의 값을 가지는 신뢰성 점수를 식별하고, 이에 매핑된 볼륨 레벨을 볼륨 조정 목표값으로 설정할 수 있다(S645). 이 경우, 음성 인식 장치(20)는 S645 단계를 통해 결정된 볼륨 조정 목표값에 해당하는 볼륨 레벨을, 신뢰성 점수(CSrcv)에 매핑시켜 CSV에 추가함으로써, CSV를 업데이트할 수 있다(S646).On the other hand, if the voice recognition apparatus 20 fails to search for the same reliability score as the reliability score CSrcv from the CSV, it may check whether the reliability score CSrcv satisfies Equation 1 described above ( S644 ). And, when the reliability score (CSrcv) satisfies Equation 1 above, a reliability score having a value just below the reliability score (CSrcv) is identified among the reliability scores included in the CSV, and the mapped volume level is calculated It can be set as an adjustment target value (S645). In this case, the voice recognition apparatus 20 may update the CSV by mapping the volume level corresponding to the volume adjustment target value determined in step S645 to the reliability score CSrcv and adding it to the CSV ( S646 ).

음성 인식 장치(20)는 상기 S644 단계에서, 신뢰성 점수(CSrcv)가 전술한 수학식 1을 만족하지 못하는 경우, 즉, 전술한 수학식 2를 만족하는 경우, 현재 출력 중인 오디오 신호의 볼륨 레벨보다 1단계 낮은 볼륨 레벨을 볼륨 조정 목표값으로 설정할 수 있다(S648). In step S644, when the reliability score CSrcv does not satisfy Equation 1, that is, when Equation 2 is satisfied, the volume level of the currently output audio signal is higher than the volume level of the audio signal. A one-step lower volume level may be set as a volume adjustment target value (S648).

한편, 상기 S643 단계 또는 S6465단계를 통해 볼륨 조정 목표값이 결정되면, 음성 인식 장치(20)는 이를 현재 출력 중인 오디오 신호의 볼륨 레벨과 비교할 수 있다(S647). 그리고, 비교 결과, 설정된 볼륨 조정 목표값이 현재 출력 중인 오디오 신호의 볼륨 레벨 이상이면, 현재 출력 중인 오디오 신호의 볼륨 레벨보다 1단계 낮은 볼륨 레벨을 볼륨 조정 목표값으로 재설정할 수 있다(S648).Meanwhile, when the volume adjustment target value is determined through the step S643 or S6465, the voice recognition apparatus 20 may compare it with the volume level of the audio signal currently being output (S647). And, as a result of the comparison, if the set volume adjustment target value is equal to or greater than the volume level of the currently output audio signal, a volume level that is one step lower than the volume level of the currently output audio signal may be reset to the volume adjustment target value (S648).

음성 인식 장치(20)는 전술한 바와 같이 볼륨 조정 목표값이 결정되면, 오디오 출력 장치(30) 또는 미디어 재생 장치(10)를 제어하여 현재 출력 중인 오디오 신호의 볼륨 레벨을 결정된 볼륨 조정 목표값으로 조정할 수 있다(S649). 그리고, 볼륨 레벨 조정이 완료되면, 음성 인식 장치(20)는 다시 대기 모드로 진입하여 웨이크업 명령어 수신을 대기할 수 있다. When the volume adjustment target value is determined as described above, the voice recognition device 20 controls the audio output device 30 or the media playback device 10 to set the volume level of the currently output audio signal as the determined volume adjustment target value. It can be adjusted (S649). Then, when the volume level adjustment is completed, the voice recognition apparatus 20 may enter the standby mode again to wait for the reception of the wakeup command.

이후, 대기 모드에서 웨이크업 명령어 인식에 성공하면, 음성 인식 장치(20)는 오디오 신호의 볼륨 레벨을 조정하기 이전의 볼륨 레벨로 복귀시키도록 오디오 출력 장치(30) 또는 미디어 재생 장치(10)를 제어할 수 있다. Thereafter, if the wake-up command is successfully recognized in the standby mode, the voice recognition device 20 controls the audio output device 30 or the media playback device 10 to return to the volume level before adjusting the volume level of the audio signal. can be controlled

전술한 실시 예에 따르면, 차량 시스템(1) 내 음성 인식 장치(20)는 웨이크업 명령어 인식에 노이즈로 작용할 수 있는 오디오 신호가 재생 중인 환경에서, 오디오 신호의 볼륨 조정을 통해 웨이크업 명령어의 인식 성능을 향상시킬 수 있다. 또한, 웨이크업 명령어에 노이즈로 작용할 가능성이 매우 낮은 음악 신호가 출력 중인 환경에서는 볼륨 조정을 스킵하고, 뉴스 등과 같이 웨이크업 명령어에 노이즈로 작용할 가능성이 높은 오디오 신호의 출력 중에만 볼륨 레벨을 선택적으로 조정함으로써, 불필요한 볼륨 조정을 최소화하여 사용자의 만족도를 향상시킬 수 있다. According to the above-described embodiment, the voice recognition apparatus 20 in the vehicle system 1 recognizes the wakeup command by adjusting the volume of the audio signal in an environment in which an audio signal that may act as a noise in recognizing the wakeup command is being reproduced. performance can be improved. In addition, the volume adjustment is skipped in an environment where a music signal that is very unlikely to act as noise to the wake-up command is being output, and the volume level is selectively selected only during output of an audio signal that is likely to act as noise to the wake-up command, such as news. By adjusting, unnecessary volume adjustment can be minimized and user satisfaction can be improved.

본 발명의 실시 예에 의한 음성 인식 방법은 소프트웨어를 통해 실행될 수 있다. 소프트웨어로 실행될 때, 본 발명의 구성 수단들은 필요한 작업을 실행하는 코드 세그먼트들이다. 프로그램 또는 코드 세그먼트들은 프로세서 판독 기능 매체에 저장되거나 전송 매체 또는 통신망에서 반송파와 결합된 컴퓨터 데이터 신호에 의하여 전송될 수 있다. The voice recognition method according to an embodiment of the present invention may be executed through software. When executed as software, the constituent means of the present invention are code segments that perform the necessary tasks. The program or code segments may be stored in a processor readable medium or transmitted by a computer data signal coupled with a carrier wave in a transmission medium or a communication network.

컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 장치의 예로는, ROM, RAM, CD-ROM, DVD_ROM, DVD_RAM, 자기 테이프, 플로피 디스크, 하드 디스크, 광 데이터 저장장치 등이 있다. 또한, 컴퓨터로 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 장치에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. The computer-readable recording medium includes all types of recording devices in which data readable by a computer system is stored. Examples of the computer-readable recording device include ROM, RAM, CD-ROM, DVD_ROM, DVD_RAM, magnetic tape, floppy disk, hard disk, optical data storage, and the like. In addition, the computer-readable recording medium may be distributed to network-connected computer devices to store and execute computer-readable codes in a distributed manner.

지금까지 참조한 도면과 기재된 발명의 상세한 설명은 단지 본 발명의 예시적인 것으로서, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 용이하게 선택하여 대체할 수 있다. 또한 당업자는 본 명세서에서 설명된 구성요소 중 일부를 성능의 열화 없이 생략하거나 성능을 개선하기 위해 구성요소를 추가할 수 있다. 뿐만 아니라, 당업자는 공정 환경이나 장비에 따라 본 명세서에서 설명한 방법 단계의 순서를 변경할 수도 있다. 따라서 본 발명의 범위는 설명된 실시형태가 아니라 특허청구범위 및 그 균등물에 의해 결정되어야 한다.The drawings and the detailed description of the described invention referenced so far are merely exemplary of the present invention, which are only used for the purpose of explaining the present invention, and are used to limit the meaning or the scope of the present invention described in the claims. it is not Therefore, those of ordinary skill in the art can easily select from it and replace it. In addition, those skilled in the art may omit some of the components described herein without degrading performance or add components to improve performance. In addition, a person skilled in the art may change the order of the method steps described herein according to the process environment or equipment. Accordingly, the scope of the present invention should be determined by the claims and their equivalents rather than the described embodiments.

1: 차량 시스템
3: 커넥티드 카 서버
5: 음원 데이터베이스
10: 미디어 재생 장치
11: 블루투스 스트리밍 장치
12: 저장매체 재생 장치
13: 방송 출력 장치
20: 음성 인식 장치
21: 음성 인식 모듈
22: 웨이크업 인식 성능 향상 모듈
30: 오디오 출력 장치
40: 오디오 입력 장치
50: 커넥티드 카 모듈
221: 오디오 정보 획득 모듈
222: 오디오 출력 제어 모듈
223: 메인 제어 모듈
1: vehicle system
3: Connected Car Server
5: Music Database
10: Media playback device
11: Bluetooth streaming device
12: storage medium playback device
13: broadcast output device
20: speech recognition device
21: speech recognition module
22: Wake-up recognition performance enhancement module
30: audio output device
40: audio input device
50: connected car module
221: audio information acquisition module
222: audio output control module
223: main control module

Claims (22)

차량 내 오디오 입력 장치로부터 오디오 신호를 수신하며, 상기 오디오 신호로부터 웨이크업(wake up) 명령어를 인식하는 제1 모드와, 상기 오디오 신호로부터 음성 명령어를 인식하는 제2 모드로 동작하는 음성 인식 모듈,
상기 차량 내 오디오 출력 장치를 통해 출력되는 오디오 신호의 볼륨 레벨을 조정하는 오디오 출력 제어 모듈, 그리고
상기 제1 모드에서 상기 웨이크업 명령어의 인식에 실패하면, 상기 차량 내에서 현재 재생 중인 오디오 신호의 종류를 식별하고, 상기 현재 재생 중인 오디오 신호의 종류에 따라 상기 음성 출력 장치를 통해 출력되는 오디오 신호의 볼륨 레벨을 선택적으로 조정하는 웨이크업 인식 성능 향상 모듈을 포함하는 음성 인식 장치.
A voice recognition module that receives an audio signal from an in-vehicle audio input device and operates in a first mode for recognizing a wake up command from the audio signal and a second mode for recognizing a voice command from the audio signal;
an audio output control module for adjusting a volume level of an audio signal output through the in-vehicle audio output device, and
If the wakeup command fails to be recognized in the first mode, the type of the audio signal currently being reproduced in the vehicle is identified, and the audio signal output through the audio output device according to the type of the audio signal currently being reproduced A voice recognition device comprising a wake-up recognition performance enhancing module for selectively adjusting a volume level of a voice recognition device.
제1항에 있어서,
상기 웨이크업 인식 성능 향상 모듈은, 상기 현재 재생 중인 오디오 신호가 음악 신호가 아닌 경우, 상기 볼륨 레벨을 조정하는, 음성 인식 장치.
According to claim 1,
The wakeup recognition performance improvement module is configured to adjust the volume level when the currently playing audio signal is not a music signal.
제2항에 있어서,
상기 웨이크업 인식 성능 향상 모듈은, 상기 현재 재생 중인 오디오 신호가 음악 신호이면, 상기 볼륨 레벨의 조정을 스킵(skip)하는, 음성 인식 장치.
3. The method of claim 2,
The wake-up recognition performance improvement module is configured to skip adjusting the volume level when the currently playing audio signal is a music signal.
제2항에 있어서,
상기 웨이크업 인식 성능 향상 모듈은, 상기 차량 내에서 미디어 데이터를 재생하기 위한 미디어 재생 장치로부터 수신되는 정보에 기초하여 상기 현재 재생 중인 오디오 신호의 종류를 식별하는, 음성 인식 장치.
3. The method of claim 2,
The wake-up recognition performance improvement module is configured to identify a type of the currently playing audio signal based on information received from a media playback device for playing media data in the vehicle.
제2항에 있어서,
상기 웨이크업 인식 성능 향상 모듈은, 상기 오디오 입력 장치를 통해 상기 현재 재생 중인 오디오 신호를 녹음하고, 상기 오디오 입력 장치에 의해 녹음된 오디오 신호를 커넥티드 카 모듈을 통해 커넥티드 카 서버로 전달하며, 상기 커넥티드 카 서버로부터 상기 녹음된 오디오 신호에 대응하여 수신한 정보에 기초하여 상기 현재 재생 중인 오디오 신호의 종류를 식별하는, 음성 인식 장치.
3. The method of claim 2,
The wake-up recognition performance improvement module records the currently playing audio signal through the audio input device, and transmits the audio signal recorded by the audio input device to the connected car server through the connected car module, A voice recognition apparatus for identifying a type of the currently reproduced audio signal based on information received from the connected car server in response to the recorded audio signal.
제1항에 있어서,
상기 웨이크업 인식 성능 향상 모듈은, 최근에 수행된 웨이크업 명령어 인식 결과에 대응하는 제1 신뢰성 스코어에 기초하여, 상기 볼륨 레벨을 조정하기 위한 목표값을 설정하는, 음성 인식 장치.
According to claim 1,
The wakeup recognition performance improvement module is configured to set a target value for adjusting the volume level based on a first reliability score corresponding to a wakeup command recognition result performed recently.
제6항에 있어서,
상기 웨이크업 인식 성능 향상 모듈은, 복수의 신뢰성 스코어 별로 대응하는 볼륨 레벨을 매핑시킨 테이블에 기초하여 상기 목표값을 설정하는, 음성 인식 장치.
7. The method of claim 6,
The wakeup recognition performance improvement module is configured to set the target value based on a table in which volume levels corresponding to each of a plurality of reliability scores are mapped.
제7항에 있어서,
상기 웨이크업 인식 성능 향상 모듈은, 상기 제1 신뢰성 스코어와 동일한 신뢰성 스코어가 상기 테이블에 존재하면, 상기 동일한 신뢰성 스코어에 매핑된 볼륨 레벨을 상기 목표값으로 설정하는, 음성 인식 장치.
8. The method of claim 7,
The wakeup recognition performance improvement module is configured to set, as the target value, a volume level mapped to the same reliability score as the target value when a reliability score identical to the first reliability score exists in the table.
제7항에 있어서,
상기 웨이크업 인식 성능 향상 모듈은, 상기 제1 신뢰성 스코어가 상기 복수의 신뢰성 스코어 중 최소값인 제2 신뢰성 스코어 이상이고, 상기 복수의 신뢰성 스코어 중 최대값인 제3 신뢰성 스코어 이하이면, 상기 테이블에서 상기 제1 신뢰성 스코어 바로 아래의 값을 가지는 제4 신뢰성 스코어에 매핑된 볼륨 레벨을 상기 목표값으로 설정하는, 음성 인식 장치.
8. The method of claim 7,
The wakeup recognition performance improvement module is configured to remove the first reliability score from the table when the first reliability score is equal to or greater than a second reliability score that is a minimum value among the plurality of reliability scores and is less than or equal to a third reliability score that is a maximum value among the plurality of reliability scores. and setting a volume level mapped to a fourth reliability score having a value immediately below the first reliability score as the target value.
제9항에 있어서,
상기 웨이크업 인식 성능 향상 모듈은, 상기 제1 신뢰성 스코어가 상기 제2 신뢰성 스코어 미만이거나, 상기 제3 신뢰성 스코어를 초과하면, 상기 현재 재생 중인 오디오 신호의 볼륨 레벨보다 1단계 낮은 볼륨 레벨을 상기 목표값으로 설정하는, 음성 인식 장치.
10. The method of claim 9,
The wake-up recognition performance improvement module is configured to, when the first reliability score is less than the second reliability score or exceeds the third reliability score, set a volume level lower than the volume level of the currently playing audio signal by one step to the target A voice recognition device that is set to a value.
제6항에 있어서,
상기 웨이크업 인식 성능 향상 모듈은, 상기 목표값이 상기 현재 재생 중인 오디오 신호의 볼륨 레벨 이상이면, 상기 목표값을 상기 현재 재생 중인 오디오 신호의 볼륨 레벨보다 1단계 낮은 볼륨 레벨로 재설정하는, 음성 인식 장치.
7. The method of claim 6,
The wake-up recognition performance improvement module is configured to reset the target value to a volume level that is one step lower than the volume level of the currently reproduced audio signal when the target value is equal to or greater than the volume level of the currently reproduced audio signal. Device.
차량 내 음성 인식 장치의 음성 인식 방법으로서,
차량 내 오디오 입력 장치로부터 오디오 신호를 수신하는 단계,
상기 오디오 신호로부터 웨이크업(wake up) 명령어 인식을 시도하는 단계,
상기 웨이크업 명령어의 인식에 실패하면, 상기 차량 내에서 현재 재생 중인 오디오 신호의 종류를 식별하는 단계, 그리고
상기 현재 재생 중인 오디오 신호의 종류에 따라, 상기 현재 재생 중인 오디오 신호의 볼륨 레벨을 선택적으로 조정하는 단계를 포함하는 음성 인식 방법.
A voice recognition method for an in-vehicle voice recognition device, comprising:
receiving an audio signal from an in-vehicle audio input device;
Attempting to recognize a wake up command from the audio signal;
If the recognition of the wake-up command fails, identifying a type of an audio signal currently being played in the vehicle; and
and selectively adjusting a volume level of the currently playing audio signal according to a type of the currently playing audio signal.
제12항에 있어서,
상기 선택적으로 조정하는 단계는,
상기 현재 재생 중인 오디오 신호가 음악 신호가 아닌 경우, 상기 볼륨 레벨을 조정하는 단계를 포함하는, 음성 인식 방법.
13. The method of claim 12,
The selectively adjusting step comprises:
and adjusting the volume level when the currently playing audio signal is not a music signal.
제13항에 있어서,
상기 선택적으로 조정하는 단계는,
상기 현재 재생 중인 오디오 신호가 음악 신호이면, 상기 볼륨 레벨의 조정을 스킵(skip)하는 단계를 더 포함하는, 음성 인식 방법.
14. The method of claim 13,
The selectively adjusting step comprises:
If the currently playing audio signal is a music signal, skipping adjustment of the volume level, the voice recognition method.
제12항에 있어서,
상기 식별하는 단계는,
상기 차량 내에서 미디어 데이터를 재생하는 미디어 재생 장치로부터 상기 현재 재생 중인 오디오 신호에 대한 정보를 수신하는 단계, 그리고
상기 미디어 재생 장치로부터 수신한 정보에 기초하여 상기 현재 재생 중인 오디오 신호의 종류를 식별하는 단계를 포함하는, 음성 인식 방법.
13. The method of claim 12,
The identifying step is
Receiving information about the currently playing audio signal from a media playback device that plays media data in the vehicle; and
and identifying a type of the currently playing audio signal based on the information received from the media playback device.
제12항에 있어서,
상기 식별하는 단계는,
상기 오디오 입력 장치를 통해 상기 현재 재생 중인 오디오 신호를 녹음하는 단계,
상기 오디오 입력 장치에 의해 녹음된 오디오 신호를 커넥티드 카 모듈을 통해 커넥티드 카 서버로 전달하는 단계,
상기 커넥티드 카 서버로부터 상기 녹음된 오디오 신호에 대한 정보를 수신하는 단계, 그리고
상기 커넥티드 카 서버로부터 수신한 정보에 기초하여 상기 현재 재생 중인 오디오 신호의 종류를 식별하는 단계를 포함하는, 음성 인식 방법.
13. The method of claim 12,
The identifying step is
recording the currently playing audio signal through the audio input device;
transmitting the audio signal recorded by the audio input device to the connected car server through the connected car module;
Receiving information about the recorded audio signal from the connected car server, and
and identifying a type of the currently playing audio signal based on the information received from the connected car server.
제12항에 있어서,
상기 선택적으로 조정하는 단계는,
최근에 수행된 웨이크업 명령어 인식 결과에 대응하는 제1 신뢰성 스코어에 기초하여, 상기 볼륨 레벨을 조정하기 위한 목표값을 설정하는 단계, 그리고
상기 목표값을 토대로 상기 볼륨 레벨을 조정하는 단계를 포함하는, 음성 인식 방법.
13. The method of claim 12,
The selectively adjusting step comprises:
setting a target value for adjusting the volume level based on a first reliability score corresponding to a wakeup command recognition result performed recently; and
and adjusting the volume level based on the target value.
제17항에 있어서,
상기 목표값을 설정하는 단계는,
복수의 신뢰성 스코어 별로 대응하는 볼륨 레벨을 매핑시킨 테이블에 기초하여 상기 목표값을 설정하는 단계를 포함하는, 음성 인식 방법.
18. The method of claim 17,
The step of setting the target value is
and setting the target value based on a table in which volume levels corresponding to a plurality of reliability scores are mapped.
제18항에 있어서,
상기 테이블에 기초하여 상기 목표값을 설정하는 단계는,
상기 제1 신뢰성 스코어와 동일한 신뢰성 스코어가 상기 테이블에 존재하면, 상기 동일한 신뢰성 스코어에 매핑된 볼륨 레벨을 상기 목표값으로 설정하는 단계를 포함하는, 음성 인식 방법.
19. The method of claim 18,
Setting the target value based on the table comprises:
and if a reliability score identical to the first reliability score exists in the table, setting a volume level mapped to the same reliability score as the target value.
제18항에 있어서,
상기 테이블에 기초하여 상기 목표값을 설정하는 단계는,
상기 제1 신뢰성 스코어가 상기 복수의 신뢰성 스코어 중 최소값인 제2 신뢰성 스코어 이상이고, 상기 복수의 신뢰성 스코어 중 최대값인 제3 신뢰성 스코어 이하이면, 상기 테이블에서 상기 제1 신뢰성 스코어 바로 아래의 값을 가지는 제4 신뢰성 스코어에 매핑된 볼륨 레벨을 상기 목표값으로 설정하는 단계를 포함하는, 음성 인식 방법.
19. The method of claim 18,
Setting the target value based on the table comprises:
If the first reliability score is greater than or equal to a second reliability score that is a minimum value among the plurality of reliability scores and is less than or equal to a third reliability score that is a maximum value among the plurality of reliability scores, a value immediately below the first reliability score in the table and setting, as the target value, a volume level mapped to a fourth reliability score.
제20항에 있어서,
상기 테이블에 기초하여 상기 목표값을 설정하는 단계는,
상기 제1 신뢰성 스코어가 상기 제2 신뢰성 스코어 미만이거나, 상기 제3 신뢰성 스코어를 초과하면, 상기 현재 재생 중인 오디오 신호의 볼륨 레벨보다 1단계 낮은 볼륨 레벨을 상기 목표값으로 설정하는 단계를 더 포함하는, 음성 인식 방법.
21. The method of claim 20,
Setting the target value based on the table comprises:
When the first reliability score is less than the second reliability score or exceeds the third reliability score, setting a volume level one step lower than the volume level of the currently playing audio signal as the target value , speech recognition method.
제17항에 있어서,
상기 목표값을 설정하는 단계는,
상기 목표값이 상기 현재 재생 중인 오디오 신호의 볼륨 레벨 이상이면, 상기 목표값을 상기 현재 재생 중인 오디오 신호의 볼륨 레벨보다 1단계 낮은 볼륨 레벨로 재설정하는 단계를 포함하는, 음성 인식 방법.
18. The method of claim 17,
The step of setting the target value is
and resetting the target value to a volume level that is one step lower than the volume level of the currently reproduced audio signal when the target value is equal to or greater than the volume level of the currently reproduced audio signal.
KR1020200181666A 2020-12-23 2020-12-23 Apparatus and method for speech recognition KR20220090790A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200181666A KR20220090790A (en) 2020-12-23 2020-12-23 Apparatus and method for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200181666A KR20220090790A (en) 2020-12-23 2020-12-23 Apparatus and method for speech recognition

Publications (1)

Publication Number Publication Date
KR20220090790A true KR20220090790A (en) 2022-06-30

Family

ID=82215559

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200181666A KR20220090790A (en) 2020-12-23 2020-12-23 Apparatus and method for speech recognition

Country Status (1)

Country Link
KR (1) KR20220090790A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117437913A (en) * 2023-12-18 2024-01-23 深圳昱拓智能有限公司 Self-adaptive near-far field offline voice command word recognition method, system and medium

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117437913A (en) * 2023-12-18 2024-01-23 深圳昱拓智能有限公司 Self-adaptive near-far field offline voice command word recognition method, system and medium
CN117437913B (en) * 2023-12-18 2024-03-19 深圳昱拓智能有限公司 Self-adaptive near-far field offline voice command word recognition method, system and medium

Similar Documents

Publication Publication Date Title
EP1145909B1 (en) Audio system and its contents reproduction method, audio apparatus for a vehicle and its contents reproduction method, computer program product and computer-readable storage medium
US6868264B2 (en) Method and apparatus for managing audio broadcasts in an automobile
US6760635B1 (en) Automatic sound reproduction setting adjustment
CN109273006B (en) Voice control method of vehicle-mounted system, vehicle and storage medium
US7689424B2 (en) Distributed speech recognition method
US8086613B2 (en) Reproducing apparatus, reproducing method, and reproducing program
EP2680597A2 (en) Display apparatus, electronic device, interactive system, and controlling methods thereof
JP2016151608A (en) Electronic device, information terminal system, and program and method for activating voice recognition function
EP3444718A1 (en) Method and apparatus for adjusting volume, terminal device and storage medium
US9384752B2 (en) Audio device and storage medium
JP2002258892A (en) Operation unit for voice-recognizing device
CN112397084A (en) Method for adaptively adjusting multimedia volume, vehicle-mounted terminal and computer storage medium
KR20220090790A (en) Apparatus and method for speech recognition
CN100546267C (en) The system, device, method, recording medium and the computer program that are used for process information
CN111601154A (en) Video processing method and related equipment
JP3715469B2 (en) Voice control device
JP4829184B2 (en) In-vehicle device and voice recognition method
WO2007037040A1 (en) Broadcast receiver
CN112003666B (en) Vehicle-mounted radio control method, device, equipment and storage medium
US20040147241A1 (en) Entertainment device
CN113271491B (en) Electronic device and play control method
JP6501223B2 (en) Electronic device, electronic system, voice output program and voice output method
JP6910721B2 (en) Electronic devices and information terminal systems
JP3684771B2 (en) Music data income system for vehicles, wireless base station
KR102663506B1 (en) Apparatus and method for providing service responding to voice

Legal Events

Date Code Title Description
A201 Request for examination