KR102444834B1 - 운전자 음성 인식을 이용한 운전자 의도를 추정하는 방법 및 장치 - Google Patents

운전자 음성 인식을 이용한 운전자 의도를 추정하는 방법 및 장치 Download PDF

Info

Publication number
KR102444834B1
KR102444834B1 KR1020200151078A KR20200151078A KR102444834B1 KR 102444834 B1 KR102444834 B1 KR 102444834B1 KR 1020200151078 A KR1020200151078 A KR 1020200151078A KR 20200151078 A KR20200151078 A KR 20200151078A KR 102444834 B1 KR102444834 B1 KR 102444834B1
Authority
KR
South Korea
Prior art keywords
keyword
voice
user
audio signal
electronic device
Prior art date
Application number
KR1020200151078A
Other languages
English (en)
Other versions
KR20220064695A (ko
Inventor
서석현
Original Assignee
한국공학대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국공학대학교산학협력단 filed Critical 한국공학대학교산학협력단
Priority to KR1020200151078A priority Critical patent/KR102444834B1/ko
Publication of KR20220064695A publication Critical patent/KR20220064695A/ko
Application granted granted Critical
Publication of KR102444834B1 publication Critical patent/KR102444834B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/08Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
    • B60W2040/089Driver voice

Abstract

본 개시는 전자 장치가 사용자의 음성에 기초하여 명령어를 제공하는 방법에 관한 것이다. 일 실시 예에 의하면, 전자 장치가 사용자의 음성에 기초하여 명령어를 제공하는 방법은 상기 사용자의 음성을 포함하는 오디오 신호를 획득하는 단계; 상기 획득된 오디오 신호가 입력되면 상기 획득된 오디오 신호 내 상기 사용자의 음성에 대응되는 문자열을 출력하는 음성 인식 모델로부터 상기 문자열을 획득하는 단계; 상기 획득된 문자열로부터 식별되는 키워드의 빈도수에 기초하여 상기 사용자의 의도와 관련된 적어도 하나의 주요 키워드를 식별하는 단계; 및 상기 식별된 주요 키워드 및 상기 식별된 주요 키워드의 빈도수에 기초하여 명령어를 결정하는 단계; 를 포함할 수 있다.

Description

운전자 음성 인식을 이용한 운전자 의도를 추정하는 방법 및 장치 {METHOD AND APPRATUS FOR ESTIMATING DRIVER INTENTION USING DRIVER'S VOICE}
본 개시는 사용자의 음성 인식에 기초하여 사용자의 의도를 추정하는 방법 및 장치에 관한 것이다. 보다 상세하게는 사용자의 음성 인식에 기초하여 명령어를 제공하는 장치 및 방법에 관한 것이다.
음성 인식(Automatic Speech Recognition)은 사람의 음성을 입력 받아 이를 인식하여 텍스트로 변환하는 기술이다. 음성 인식은 스마트폰, 에어컨, 냉장고 및 AI 스피커 등의 다양한 전자 장치에서 활용되고 있다. 먼저 기기가 사람의 음성을 입력으로 받고, 기기 내부에서 이미 훈련되어 있는 음성 인식 모델을 사용하여 입력 음성을 인식하고 텍스트로 변환한다. 이렇게 변환된 텍스트를 최종 출력으로 가지게 된다.
최근 심층 신경망(deep neural network, DNN) 알고리즘이 다양한 머신 러닝 분야에 사용되며 성능 향상이 이루어졌다. 음성 인식 분야에서도 신경망을 사용하여 성능 향상이 크게 이루어졌으며, 최근에는 음성 인식을 위한 음성 인식 모델(Automatic Speech Recognition Model)이 연구되고 있다.
종래 기술은 차량에서 제공하는 몇 가지 음성 명령어를 이용하기 위해서는 사용자가 음성 인식 버튼을 누른 후 안내음을 듣고 해당 안내음에 따른 필요한 명령어를 발화한 후 음성 인식을 수행하였으나, 이는 정해진 명령어를 운전자가 미리 인지 하여야 하는 한계 및 운전자가 명령어를 발화함으로써 해당 기능을 수행하는 과정에서 오인식에 따른 오류 및 별도의 명령 스위치 조작에 대한 불편함이 존재하는 한계가 있었다.
따라서, 사용자 또는 운전자가 별도 학습 과정 없이 상황에 따른 적합한 명령어 제공 및 해당 명령어를 통한 전자 장치 제어 기술 개발이 요구되고 있다.
한국공개특허 제10-2019-0101328호
일 실시 예에 따르면, 전자 장치가 사용자의 음성에 기초하여 명령어를 제공하는 방법 및 이를 수행하는 전자 장치가 제공될 수 있다.
또한, 일 실시 예에 의하면, 상시 사용자의 음성을 인식함으로써 적합한 명령어를 제공하는 방법 및 장치가 제공될 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 일 실시 예에 따라 전자 장치가 사용자의 음성에 기초하여 명령어를 제공하는 방법에 있어서, 상기 사용자의 음성을 포함하는 오디오 신호를 획득하는 단계; 상기 획득된 오디오 신호가 입력되면 상기 획득된 오디오 신호 내 상기 사용자의 음성에 대응되는 문자열을 출력하는 음성 인식 모델로부터 상기 문자열을 획득하는 단계; 상기 획득된 문자열로부터 식별되는 키워드의 빈도수에 기초하여 상기 사용자의 의도와 관련된 적어도 하나의 주요 키워드를 식별하는 단계; 및 상기 식별된 주요 키워드 및 상기 식별된 주요 키워드의 빈도수에 기초하여 명령어를 결정하는 단계; 를 포함하는, 방법이 제공될 수 있다.
일 실시 예에 의하면, 상기 방법은 상기 결정된 명령어를 상기 전자 장치와 연결된 다른 전자 장치로 전송하는 단계; 및 상기 다른 전자 장치로 전송된 명령어를 통하여 상기 다른 전자 장치의 기능 중 적어도 하나의 기능을 제어하는 단계; 를 더 포함할 수 있다.
상술한 과제를 달성하기 위한 기술적 수단으로서 또 다른 실시 예에 의하면, 사용자의 음성에 기초하여 명령어를 제공하는 전자 장치에 있어서, 네트워크 인터페이스; 하나 이상의 인스트럭션을 저장하는 메모리; 및 상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서; 를 포함하고, 상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 사용자의 음성을 포함하는 오디오 신호를 획득하고, 상기 획득된 오디오 신호가 입력되면 상기 획득된 오디오 신호 내 상기 사용자의 음성에 대응되는 문자열을 출력하는 음성 인식 모델로부터 상기 문자열을 획득하고, 상기 획득된 문자열로부터 식별되는 키워드의 빈도수에 기초하여 상기 사용자의 의도와 관련된 적어도 하나의 주요 키워드를 식별하고, 상기 식별된 주요 키워드 및 상기 식별된 주요 키워드의 빈도수에 기초하여 명령어를 결정하는, 전자 장치가 제공될 수 있다.
일 실시 예에 의하면, 전자 장치가 사용자의 음성에 기초하여 명령어를 제공하는 방법에 있어서, 상기 사용자의 음성을 포함하는 오디오 신호를 획득하는 단계; 상기 획득된 오디오 신호가 입력되면 상기 획득된 오디오 신호 내 상기 사용자의 음성에 대응되는 문자열을 출력하는 음성 인식 모델로부터 상기 문자열을 획득하는 단계; 상기 획득된 문자열로부터 식별되는 키워드의 빈도수에 기초하여 상기 사용자의 의도와 관련된 적어도 하나의 주요 키워드를 식별하는 단계; 및 상기 식별된 주요 키워드 및 상기 식별된 주요 키워드의 빈도수에 기초하여 명령어를 결정하는 단계; 를 포함하는, 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체가 제공될 수 있다.
도 1은 일 실시 예에 따른, 전자 장치가 사용자 음성 인식에 기초하여 사용자의 의도에 적합한 명령어를 제공하는 과정을 개략적으로 설명하기 위한 도면이다.
도 2는 일 실시 예에 따라 사용자의 음성에 기초하여 명령어를 제공하는 방법의 흐름도이다.
도 3은 일 실시 예에 따라 전자 장치가 음성 인식 모델을 이용하여 오디오 신호 내 사용자의 음성에 대응되는 키워드를 식별하는 과정을 나타내는 도면이다.
도 4는 일 실시 예에 따라 전자 장치가 사용자 음성으로부터 식별되는 키워드 중 주요 키워드를 식별하는 과정을 나타내는 도면이다.
도 5는 일 실시 예에 따라 전자 장치가 명령어를 결정하는 방법을 설명하기 위한 도면이다.
도 6은 일 실시 예에 따라 전자 장치가 이용하는 주요 키워드 추천 저장소를 설명하기 위한 도면이다.
도 7은 일 실시 예에 따라 전자 장치가 가중치 점수에 기초하여 명령어를 결정하는 과정을 나타내는 도면이다.
도 8은 또 다른 실시 예에 따라 사용자의 음성에 기초하여 명령어를 제공하는 시스템의 동작 과정을 설명하기 위한 도면이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 개시에 대해 구체적으로 설명하기로 한다.
본 개시에서 사용되는 용어는 본 개시에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.
아래에서는 첨부한 도면을 참고하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
도 1은 일 실시 예에 따른, 전자 장치가 사용자 음성 인식에 기초하여 사용자의 의도에 적합한 명령어를 제공하는 과정을 개략적으로 설명하기 위한 도면이다.
일 실시 예에 의하면, 전자 장치(1000)는 사용자 음성을 포함하는 오디오 신호(102)를 획득하고, 획득된 오디오 신호를 음성 인식 모델에 입력함으로써 오디오 신호로부터 사용자 음성에 대응되는 키워드를 식별할 수 있다. 전자 장치(1000)는 사용자 음성을 포함하는 오디오 신호를 분석함으로써 소정의 추천 명령어(152)를 제공할 수 있다.
본 개시에 따른 전자 장치(1000)는 상시적으로 운전자의 음성을 인식하고, 특정 단어의 언급 횟수에 따라 차량에서 제공할 수 있는 음성 명령어들을 자동적으로 추천하고 수행할 수 있다. 예를 들어, 본 개시에 따른 전자 장치(1000)를 이용하는 운전자는 직접 명령어를 학습 할 필요 없이, 전자 장치(1000) 또는 상기 전자 장치(1000)가 탑재된 자동차 시스템이 스스로 운전자의 상황에 맞춰 최적화된 명령어를, 운전자의 조작 없이 추천할 수 있다.
일 실시 예에 의하면, 전자 장치(1000)는 음성 인식(Automatic Speech Recognition, ASR) 모델을 포함할 수 있다. 예를 들어, 전자 장치(1000)는 사용자의 음성을 포함하는 오디오 신호를 획득하고, 획득된 오디오 신호를 음성 인식(ASR) 모델에 입력함으로써 오디오 신호 내 사용자의 음성을 인식할 수 있다. 예를 들어, 음성 인식 모델은 음성으로부터 통합 신경망을 거쳐 문자열을 인식하는 음성 인식 모델로서, 음향 모델, 발음 사전 및 언어 모델을 별도로 이용하지 않고 통합된 신경망을 포함하는 구조의 음성 인식 모델일 수 있다.
음성 인식 모델은 통합된 신경망을 이용함으로써, 음성으로부터 음소를 인식한 이후에 음소를 텍스트로 변환하는 과정이 없이, 음성을 텍스트로 변환할 수 있다. 일 실시 예에 의하면 음성 인식 모델은 재귀 신경망(recurrent network)을 포함하는 구조를 포함할 수 있으며, 음성 입력을 인코딩하는 인코더와 인코더 출력 값으로부터 문자열을 추정하는 디코더를 포함할 수 있다.
일 실시 예에 의하면, 전자 장치(1000)는 네트워크 인터페이스(120), 프로세서(130) 및 메모리(140)를 포함할 수 있다. 그러나 상술한 구성에 한정되는 것은 아니며 더 많은 구성 요소(예컨대 센싱 모듈 등)를 포함할 수도 있다. 일 실시 예에 의하면, 네트워크 인터페이스(120)는 전자 장치(1000)와 서버(2000) 또는 전자 장치(1000)와 다른 전자 장치(1002)가 서로 통신하게 하는 기타 구성들을 포함할 수 있다. 일 실시 예에 의하면 네트워크 인터페이스(120)는 전자 장치(1000)가 결정한 명령어 또는 사용자 음성 입력에 기초하여 최종 결정된 명령어에 기초하여 결정되는 제어 신호를 다른 전자 장치(1002)로 전송할 수 있다.
일 실시 예에 의하면, 메모리(140)는 하나 이상의 인스트럭션을 저장할 수 있다. 프로세서(130)는 메모리(140)에 저장된 하나 이상의 인스트럭션을 실행함으로써 사용자 음성에 기초하여 명령어를 제공하기 위한 일련의 동작들을 수행할 수 있다. 일 실시 예에 의하면, 메모리(140)는 음성 인식 모델에 대한 정보, 명령어 추천 알고리즘에 대한 정보, 주요 단어 계수기에 대한 정보 등을 저장할 수 있다.
일 실시 예에 의하면, 메모리(140)는 예를 들어, 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있으나, 이에 제한되지 않는다.
예를 들어, 전자 장치(1000)가 이용하는 음성 인식 모델은 메모리(140)에 인스트럭션의 형태로 저장될 수 있다. 예를 들어, 음성 인식 모델은 복수의 적층된(stacked) 레이어들 및 상기 레이어들의 연결 강도에 관한 가중치에 대한 정보를 포함할 수 있다. 음성 인식 모델은 사용자 음성 입력을 포함하는 오디오 신호를 인코딩함으로써 사용자 음성이 나타내는 음성학적 특징에 관한 정보를 결정하고, 결정된 음성학적 특징에 기초하여 소정의 키워드를 포함하는 문자열을 출력할 수 있다. 또한, 일 실시 예에 의하면, 음성 인식 모델은 미리 지정된 키워드에 대응되는 적어도 하나의 키워드를 직접 출력할 수도 있다.
일 실시 예에 의하면, 프로세서(130)는 메모리(140)에 저장된 하나 이상의 인스트럭션을 실행함으로써, 상기 사용자의 음성을 포함하는 오디오 신호를 획득하고, 상기 획득된 오디오 신호가 입력되면 상기 획득된 오디오 신호 내 상기 사용자의 음성에 대응되는 문자열을 출력하는 음성 인식 모델로부터 상기 문자열을 획득하고, 상기 획득된 문자열로부터 식별되는 키워드의 빈도수에 기초하여 상기 사용자의 의도와 관련된 적어도 하나의 주요 키워드를 식별하고, 상기 식별된 주요 키워드 및 상기 식별된 주요 키워드의 빈도수에 기초하여 명령어를 결정할 수 있다.
또한, 일 실시 예에 의하면, 프로세서(130)는 네트워크 인터페이스(120)를 제어함으로써 결정된 명령어를 상기 전자 장치와 연결된 다른 전자 장치로 전송하고, 상기 다른 전자 장치로 전송된 명령어를 통하여 상기 다른 전자 장치의 기능 중 적어도 하나의 기능을 제어할 수 있다.
또한, 일 실시 예에 의하면, 전자 장치(1000)와 통신하는 다른 전자 장치(1002)는 차량 내 오디오 시스템, 네비게이션 시스템, 공조 제어 시스템, 윈도우 제어 시스템, 시트 제어 시스템, 기타 전자 제어 시스템 중 적어도 하나를 포함할 수도 있다.
도 2는 일 실시 예에 따라 사용자의 음성에 기초하여 명령어를 제공하는 방법의 흐름도이다.
S210에서, 전자 장치(1000)는 사용자의 음성을 포함하는 오디오 신호를 획득할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 사용자의 음성을 획득하는 마이크를 포함할 수 있고, 마이크를 통하여 사용자의 음성을 포함하는 오디오 신호를 획득할 수 있다. 또 다른 실시 예에 의하면, 전자 장치(1000)는 S210단계에서 획득된 오디오 신호 내 사용자의 음성에 관한 오디오 신호를 필터링하고, 필터링된 오디오 신호 내 노이즈 성분을 제거함으로써 오디오 신호를 전처리할 수도 있다.
또한, 일 실시 예에 의하면, 전자 장치(1000)는 미리 설정된 주기에 따라 사용자의 음성을 포함하는 오디오 신호를 획득할 수 있다. 또 다른 실시 예에 의하면, 전자 장치(1000)는 상시 사용자의 음성을 포함하는 오디오 신호를 획득하고, 획득된 오디오 신호 내 포함된 소정의 키워드들을 식별할 수도 있다.
S220에서, 전자 장치(1000)는 획득된 오디오 신호가 입력되면 획득된 오디오 신호 내 사용자의 음성에 대응되는 문자열을 출력하는 음성 인식 모델로부터 문자열을 획득할 수 있다. 예를 들어, 전자 장치(1000)는 오디오 신호 내 사용자의 음성과 관련된 음성 신호의 패턴을 식별하고, 소정의 키워드에 대하여 사용자 음성 신호 패턴을 저장하는 키워드 패턴 데이터 베이스내의 음성 신호 패턴을 비교함으로써, 소정의 키워드를 식별할 수 있다.
전자 장치(1000)는 식별된 소정의 키워드를 포함하는 문자열을 출력할 수도 있고, 문자열 내 포함된 키워드들만을 출력할 수도 있다. 또 다른 실시 예에 의하면, 전자 장치(1000)는 전처리된 오디오 신호를 음성 인식 모델에 입력함으로써, 전처리된 오디오 신호 내 사용자의 음성으로부터 키워드들을 식별할 수도 있다.
S230에서, 전자 장치(1000)는 문자열로부터 식별된 키워드의 빈도수에 기초하여 사용자의 의도와 관련된 적어도 하나의 주요 키워드를 식별할 수 있다. 예를 들어, 전자 장치(1000)는 음성 인식 모델로부터 출력된 복수의 키워드 중 반복 언급되는 키워드의 빈도수에 기초하여 키워드들의 우선 순위를 결정하고, 결정된 우선 순위 중 기 설정된 순위 안에 포함되는 키워드들을 주요 키워드로 식별할 수 있다.
S240에서, 전자 장치(1000)는 주요 키워드 및 주요 키워드의 빈도수에 기초하여 명령어를 결정할 수 있다. 예를 들어, 전자 장치(1000)는 키워드 또는 키워드와 관련된 키워드에 대한 명령어들이 저장되는 저장소를 포함할 수 있고 해당 저장소로부터 특정 명령어를 획득할 수 있다.
도 2에는 도시되지 않았으나, 또 다른 실시 예에 의하면, 전자 장치(1000)는 결정된 명령어를 전자 장치와 연결된 다른 전자 장치로 전송하고, 다른 전자 장치로 전송된 명령어를 통하여 다른 전자 장치의 기능 중 적어도 하나의 기능을 제어할 수도 있다.
또한, 전자 장치(1000)는 S240단계에서 결정된 명령어를 출력하고, 상기 명령어가 출력된 시점으로부터 기 설정된 임계 시간 내에 상기 사용자의 다른 음성 신호를 포함하는 오디오 신호가 획득되는지 여부를 식별할 수도 있다. 또한, 전자 장치(1000)는 기 설정된 임계 시간 내에 상기 사용자의 다른 음성 신호를 포함하는 오디오 신호가 획득되는 경우, 상기 다른 음성 신호를 포함하는 오디오 신호의 인식 결과에 기초하여, 상기 결정된 명령어를 상기 다른 전자 장치로 전송할 수도 있다.
또한, 일 실시 예에 의하면, 전자 장치(1000)는 상기 기 설정된 임계 시간 내에 상기 사용자의 다른 음성 신호를 포함하는 오디오 신호가 획득되지 않는 경우, 상기 결정된 명령어를 재 출력할 수도 있다.
도 3은 일 실시 예에 따라 전자 장치가 음성 인식 모델을 이용하여 오디오 신호 내 사용자의 음성에 대응되는 키워드를 식별하는 과정을 나타내는 도면이다.
S310에서, 전자 장치(1000)는 오디오 신호 내 상기 사용자의 음성과 관련된 오디오 신호의 패턴을 식별할 수 있다. 예를 들어, 전자 장치(1000)는 사용자의 음성을 포함하는 오디오 신호로부터 소정의 키워드 단위에 대한 오디오 신호 패턴을 식별할 수 있다. 키워드 단위에 대한 오디오 신호 패턴은 사용자의 음성학적 특징이 반영된 오디오 신호일 수 있다.
S320에서, 전자 장치(1000)는 소정의 키워드에 대한 사용자 음성 신호 패턴을 저장하는 키워드 패턴 데이터 베이스를 획득할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)가 이용하는 키워드 패턴 데이터 베이스는 전자 장치 내 미리 저장될 수 있다. 그러나 또 다른 실시 예에 의하면, 전자 장치(1000)는 키워드 패턴 데이터 베이스를 서버로부터 실시간으로 획득할 수도 있다.
S330에서, 전자 장치(1000)는 키워드 패턴 데이터 베이스 내 사용자 음성 신호 패턴 및 사용자의 음성과 관련된 오디오 신호의 패턴을 비교한 결과에 기초하여 키워드 패턴 데이터 베이스 내 소정의 키워드를 식별할 수 있다. 예를 들어, 키워드 패턴 데이터 베이스는 키워드 음성 패턴 정보 및 관련 키워드 음성 패턴 정보를 저장할 수 있다.
일 실시 예에 의하면, 키워드 패턴 데이터 베이스 내 키워드 음성 패턴 정보는 키워드 및 소정의 키워드를 발화하는 사용자의 음성 신호 패턴을 매칭함으로써 생성될 수 있다. 또한, 일 실시 예에 의하면 관련 키워드 음성 패턴 정보는 상기 키워드와 관련되는 적어도 하나의 관련 키워드 및 상기 적어도 하나의 관련 키워드에 대한 사용자의 음성 신호 패턴을 매칭함으로써 생성될 수 있다.
전자 장치(1000)는 현재 마이크를 통하여 획득되는 사용자 음성과 관련된 오디오 신호의 패턴과 키워드 패턴 데이터 베이스 내 오디오 신호 패턴을 비교함으로써 유사한 오디오 신호 패턴을 식별하고, 식별된 오디오 신호 패턴에 매칭되어 있는 키워드를 사용자의 음성과 관련된 키워드로 식별할 수 있다.
S340에서, 전자 장치(1000)는 상기 식별된 키워드를 포함하는 문자열을 획득할 수도 있다. 예를 들어, 전자 장치(1000)는 사용자의 음성으로부터 식별되는 키워드들이 복수인 경우, 복수의 키워드들을 포함하는 문자열을 획득할 수도 있다.
도 4는 일 실시 예에 따라 전자 장치가 사용자 음성으로부터 식별되는 키워드 중 주요 키워드를 식별하는 과정을 나타내는 도면이다.
S410에서, 전자 장치(1000)는 획득된 문자열로부터 소정의 키워드를 식별한다. S420에서, 전자 장치(1000)는 소정의 키워드들을 빈도수를 식별할 수 있다. 예를 들어, 전자 장치(1000)는 사용자 음성으로부터 키워드들을 식별하고, 식별된 키워드들이 언급된 횟수를 카운팅하며, 카운팅 결과에 따라 키워드들이 언급된 빈도수를 식별할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 주요 단어 계수기(Key word Counter)를 포함할 수 있고, 주요 단어 계수기를 이용하여 키워드들의 빈도수를 카운팅할 수도 있다. 또한, 전자 장치(1000)는 키워드들 별 언급되는 빈도수에 관한 정보를 미리 저장할 수 있다.
S430에서, 전자 장치(1000)는 결정된 빈도수에 기초하여 소정의 키워드 중, 적어도 하나의 주요 키워드를 식별할 수 있다. 일 실시 예에 의하면, 전자 장치(1000)는 사용자 음성에 포함된 키워드들 중 키워드가 언급된 빈도수에 기초하여, 키워드들 중 주요 키워드 3가지를 식별할 수 있다.
도 5는 일 실시 예에 따라 전자 장치가 명령어를 결정하는 방법을 설명하기 위한 도면이다.
S510에서, 전자 장치(1000)는 기 저장된 주요 키워드 추천 저장소로부터 식별된 주요 키워드를 포함하는 명령어 집합(set)을 추출할 수 있다. 예를 들어, 전자 장치(1000)는 주요 키워드 또는 상기 주요 키워드와 관련된 관련 키워드들을 명령어와 매칭함으로써 주요 키워드 추천 저장소를 생성할 수 있다. 전자 장치(1000)는 미리 생성해 둔 주요 키워드 추천 저장소로부터, 주요 키워드를 포함하는 명령어 집합(set)을 추출한다.
S520에서, 전자 장치(1000)는 주요 키워드에 미리 설정된 가중치를 식별된 주요 키워드의 빈도수에 적용함으로써 명령어 집합 별 가중치 점수를 결정할 수 있다. 예를 들어, 전자 장치(1000)는 주요 키워드에 미리 지정된 가중치를 상기 주요 키워드가 언급된 빈도수에 적용함으로써, 명령어 집합(예컨대 "전화", "연락", "번호")별 가중치 점수를 언급 횟수로 결정할 수 있다.
S530에서, 전자 장치(1000)는 가중치 점수에 기초하여 명령어 집합 중 하나의 명령어를 결정할 수 있다. 예를 들어, 전자 장치(1000)는 명령어 집합에 대한 가중치 점수에 기초하여, 복수의 명령어 집합들 중 하나의 명령어 집합을 식별하고, 식별된 명령어 집합에 매칭된 명령어 중 적어도 하나를 제공할 수 있다.
일 실시 예에 의하면, 전자 장치(1000)는 사용자의 음성을 포함하는 오디오 신호로부터 추출된 주요 키워드 이력에 대한 정보를 획득하고, 주요 키워드 이력에 대한 정보에 기초하여 상기 식별된 주요 키워드들의 누적 사용 빈도수 및 상기 주요 키워드와 함께 사용되는 조합 키워드 정보를 식별할 수도 있다. 예를 들어, 전자 장치(1000)는 '전화'라는 키워드가 식별되는 경우 조합 키워드 정보에 기초하여, '전화'라는 키워드와 관련된 관련 키워드로써, '연락' 또는 '번호'와 같은 관련 키워드를 식별할 수도 있다.
전자 장치(1000)는 누적 사용 빈도수 및 상기 조합 키워드 정보에 기초하여, 상기 결정된 명령어 집합 별 가중치 점수를 조정하고, 조정된 가중치 점수에 기초하여, 상기 명령어 집합 중 하나의 명령어 집합을 식별하며, 식별된 명령어 집합에 매칭된 적어도 하나의 명령어를 결정할 수도 있다.
또 다른 실시 예에 의하면, 전자 장치(1000)는 전자 장치(1000) 및 전자 장치와 연결된 다른 전자 장치 주변의 환경 정보를 획득하고, 획득된 환경 정보를 더 이용함으로써 명령어를 결정할 수도 있다. 예를 들어, 전자 장치(1000)는 주요 키워드, 상기 식별된 주요 키워드의 빈도수 및 상기 환경 정보에 기초하여 상기 명령어를 결정할 수도 있다. 일 실시 예에 의하면, 전자 장치(1000)가 이용하는 환경 정보는 전자 장치에 포함된 센서 장치들을 통해서 획득되는 온도 정보, 차량 주변의 물체까지의 거리 정보, 차량의 속도 정보 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
도 6은 일 실시 예에 따라 전자 장치가 이용하는 주요 키워드 추천 저장소를 설명하기 위한 도면이다.
일 실시 예에 의하면, 전자 장치(1000)가 이용하는 주요 키워드 추천 저장소는 소정의 키워드 또는 상기 소정의 키워드와 관련되는 관련 키워드를 포함하는 키워드(630) 목록, 상기 키워드에 대한 음성 신호 패턴(640) 항목, 상기 키워드 또는 관련 키워드와 연관된 차량 명령어(620) 항목 및 상기 차량 명령어들의 집합을 구분하는 명령어 구분(610)항목을 포함할 수 있다.
예를 들어, 전자 장치(1000)는 키워드 언급 횟수에 기초하여, 사용자의 음성을 포함하는 오디오 신호에서 식별되는 키워드들 중 주요 키워드를 식별하고, 상기 식별된 주요 키워드를 포함하는 명령어 집합을 주요 키워드 추천 저장소로부터 획득할 수 있다. 예를 들어, 전자 장치(1000)가 결정한 주요 키워드가 '전화', '연락' 및 '번호' 인 경우, 전자 장치(1000)는 주요 키워드 추천 저장소로부터 명령어 구분 항목 '전화'에 매칭되는 명령어 집합을 식별할 수 있다.
전자 장치(1000)는 명령어 구분 항목 '전화(612)'에 매칭되는 명령어 집합 (<이름>에게 전화 걸기, <이름>에게 문자 보내기, 전화받기, 문자 읽기)을 식별하고, 식별된 명령어 집합에 매칭된 적어도 하나의 명령어를 결정할 수 있다.
도 7은 일 실시 예에 따라 전자 장치가 가중치 점수에 기초하여 명령어를 결정하는 과정을 나타내는 도면이다.
또 다른 실시 예에 따라 전자 장치(1000)가 가중치 점수에 기초하여 명령어를 결정하는 과정을 설명한다. 전자 장치(1000)는 주요 단어 계수기(702)를 이용하여 사용자 음성을 포함하는 오디오 신호로부터 식별된 키워드들의 빈도수를 결정한다. S710에서, 전자 장치(1000)는 언급 횟수가 많은 소정의 키워드 3가지를 추출할 수 있다. S720에서, 전자 장치(1000)는 관련 단어가 포함된 명령어 집합(set)을 탐색한다. 예를 들어, 전자 장치(1000)는 추출된 3가지 키워드 또는 상기 3가지 키워드와 관련된 관련 키워드를 포함하는 명령어 집합(set)을 식별할 수도 있다.
S730에서, 전자 장치(1000)는 추출된 명령어 집합(set)중 관련 단어 언급이 가장 많은 명령어를 선정할 수 있다. 예를 들어, 전자 장치(1000)는 키워드 별 가중치를 키워드 빈도수에 적용함으로써, 명령어 집합 별 언급횟수에 대한 가중치 점수를 결정할 수 있다. 또 다른 실시 예에 의하면, 전자 장치(1000)는 키워드 별 가중치를 키워드 빈도수에 적용함으로써 키워드 별 가중치 점수를 결정할 수도 있다. 전자 장치(1000)는 키워드 별 가중치 점수들을 합산함으로써 가장 높은 가중치 점수를 가지는 키워드 항목에 대응되는 차량 명령어를, 최종 명령어로 결정할 수 있다.
예를 들어, 전자 장치(1000)는 키워드 "전화", "연락", "번호"에 대한 가중치(742)들을 각각 0.5, 0.4, 0.1로 미리 지정해둘 수 있다. 전자 장치(1000)는 각 키워드들이 언급된 언급 횟수(744)를 각각 3, 2, 1로 식별하고, 식별된 언급 횟수에 가중치(742)를 적용함으로써, "전화", "연락" 및 "번호"각각에 대한 가중치 점수를 1.5, 0.8 및 0.1로 결정할 수 있다. 전자 장치(1000)는 각 키워드에 대하여 결정된 가중치 점수를 합산함으로써 "전화", "연락" 및 "번호"를 포함하는 명령어 집합(set)에 대한 가중치 점수를 결정한다. 전자 장치(1000)는 명령어 집합 별 가중치 점수를 비교함으로써, 가장 높은 가중치 점수(752)를 가지는 명령어 집합을 추천 명령어로 제공할 수 있다.
일 실시 예에 의하면, 전자 장치(1000)는 키워드 언급 횟수를 총합하여 가장 높은 가중치 점수를 받은 하나의 명령어를 제공할 수 있다. 또한, 일 실시 예에 의하면, 전자 장치는 자주 추천하는 것을 방지하기 위해 일정 점수 이상 키워드가 언급되어야만 추천을 제공할 수도 있다. 일 실시 예에 의하면, 전자 장치(1000)는 가중치 점수가 5이상인 경우 추천 알림을 제공할 수도 있다.
도 8은 또 다른 실시 예에 따라 사용자의 음성에 기초하여 명령어를 제공하는 시스템의 동작 과정을 설명하기 위한 도면이다.
일 실시 예에 의하면, 전자 장치(1000)는 도 8에 도시된 사용자의 음성에 기초하여 명령어를 제공하는 다양한 구성들을 포함할 수 있다. 또 다른 실시 예에 의하면, 도 1 내지 7에서 상술한 전자 장치(1000)의 기능들은 도 8에 도시된 시스템에 의해 수행될 수도 있다.
일 실시 예에 의하면, 사용자의 음성에 기초하여 명령어를 제공하는 시스템은 음성 신호 전처리기(802), 자동 음성 인식기(804), 주요 단어 계수기(808), 명령어 추천 알고리즘(810)이 저장된 메모리, 추천 명령어 알림 시스템(812) 및 명령어 전달 시스템(814)를 포함할 수 있다. 또 다른 실시 예에 의하면, 사용자의 음성에 기초하여 명령어를 제공하는 시스템은 Audio 시스템(822), Navigation 시스템(824), 공조 제어 시스템(826), 윈도우 제어 시스템(828), 시트 제어 시스템(830) 및 기타 전자 제어 시스템(832)를 더 포함할 수도 있다.
일 실시 예에 의하면, 음성 신호 전처리기(802)는 마이크를 통해 입력된 오디오 신호에서 사용자의 음성 신호를 필터링하고, 외부 노이즈 성분을 제거하며 아날로그 신호를 디지털화된 패턴 정보로 변환할 수 있다.
자동 음성 인식기(804)는 주요 키워드와의 음성 신호와의 패턴 매칭을 통해 어떤 키워드를 말하는 것인지 음성을 텍스트로 변환할 수 있다. 자동 음성 인식기(804)는 상술한 음성 인식 모델에 대응될 수 있으므로 구체적인 설명은 생략하기로 한다. 주요 단어 패턴 신호 저장소(806)는 주요 키워드의 음성 패턴을 명령어 집합(command set)과 연관지어 매핑함으로써 생성되는 저장소로써, 직접 명령어 패턴 외에 관련 단어 패턴까지 저장할 수 있다. 주요 단어 패턴 신호 저장소(806)는 키워드 패턴 데이터 베이스에 대응될 수 있다.
주요 단어 계수기(808)는 운전자의 일상적인 대화 시스템에서 지정한 주요 단어의 언급 횟수를 카운트하여 저장할 수 있다. 이를 통해 운전자의 현재 상황과 차량 제어 의도 등을 분석할 수 있다.
명령어 추천 알고리즘(810)은 운전자의 일상 대화에서 언급되는 단어의 계수와 조합을 찾아 추천 명령어를 필터링한다. 예를 들어, 명령어 추천 알고리즘(810)은 전자 장치(1000)가 메모리 내 인스트럭션을 수행함으로써 실행되는 알고리즘으로써, 전자 장치가 식별한 명령어 집합 중, 소정의 추천 명령어를 필터링하는데 사용될 수 있다. 명령어 전달 시스템(814)은 추천된 명령어의 실행이 확정될 경우 차량 내 각 제어기에 명령어에 해당된 동작이 이뤄지도록 통신 메시지를 통해 전달할 수 있다.
Audio 시스템(822)은 차량 내 오디오 환경, 오디오 재생 기능을 제어한다. Navigation 시스템(824)은 자동차 운행 시 네비게이션 서비스를 제공할 수 있다. 공조 제어 시스템(826) 차량 내 공조 장치들을 제어한다. 윈도우 제어 시스템(828)은 차량 내 윈도우 장치를 제어한다. 시트 제어 시스템(830)은 차량 내 시트 포지션을 제어한다. 기타 전자 제어 시스템(832)은 차량 내 기타 전자 장치들의 동작을 제어할 수 있다. 상술한 바와 같이, 전자 장치(1000) 또는 전자 장치의 기능이 수행되는 시스템은 운전자의 의도를 추정하고, 추정된 의도에 적합한 명령어를 제공함으로써, 운전자의 편의를 극대화할 수 있다.
일 실시예에 따른 전자 장치(1000)가 사용자의 음성에 기초하여 명령어를 제공하는 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 또한, 상기 전자 장치가 사용자의 음성에 기초하여 명령어를 제공하는 방법을 수행하도록 하는 프로그램이 저장된 기록 매체를 포함하는 컴퓨터 프로그램 제품이 제공될 수 있다.
컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
일부 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다. 또한, 일부 실시예는 컴퓨터에 의해 실행되는 컴퓨터 프로그램과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 컴퓨터 프로그램 또는 컴퓨터 프로그램 제품 (computer program product)으로도 구현될 수 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속한다.

Claims (20)

  1. 전자 장치가 사용자의 음성에 기초하여 명령어를 제공하는 방법에 있어서,
    상기 사용자의 음성을 포함하는 오디오 신호를 획득하는 단계;
    상기 획득된 오디오 신호가 입력되면 상기 획득된 오디오 신호 내 상기 사용자의 음성에 대응되는 문자열을 출력하는 음성 인식 모델로부터 상기 문자열을 획득하는 단계;
    상기 획득된 문자열로부터 식별되는 키워드의 빈도수에 기초하여 상기 사용자의 의도와 관련된 적어도 하나의 주요 키워드를 식별하는 단계; 및
    상기 식별된 주요 키워드 및 상기 식별된 주요 키워드의 빈도수에 기초하여 명령어를 결정하는 단계; 를 포함하고,
    상기 음성 인식 모델로부터 문자열을 획득하는 단계는
    상기 오디오 신호 내 상기 사용자의 음성과 관련된 오디오 신호의 패턴을 식별하는 단계;
    소정의 키워드에 대한 사용자 음성 신호 패턴을 저장하는 키워드 패턴 데이터 베이스를 획득하는 단계;
    상기 키워드 패턴 데이터베이스 내 사용자 음성 신호 패턴 및 상기 사용자의 음성과 관련된 오디오 신호의 패턴을 비교한 결과에 기초하여, 상기 키워드 패턴 데이터 베이스 내 소정의 키워드를 식별하는 단계; 및
    상기 식별된 소정의 키워드를 포함하는 문자열을 획득하는 단계; 를 포함하는, 방법.
  2. 제1항에 있어서, 상기 방법은
    상기 결정된 명령어를 상기 전자 장치와 연결된 다른 전자 장치로 전송하는 단계; 및
    상기 다른 전자 장치로 전송된 명령어를 통하여 상기 다른 전자 장치의 기능 중 적어도 하나의 기능을 제어하는 단계; 를 더 포함하는, 방법.
  3. 제1항에 있어서, 상기 방법은
    상기 획득된 오디오 신호 내 사용자의 음성에 관한 오디오 신호를 필터링하는 단계; 및
    상기 필터링된 오디오 신호 내 노이즈 성분을 제거함으로써 상기 오디오 신호를 전처리하는 단계; 를 더 포함하는, 방법.
  4. 삭제
  5. 제1항에 있어서, 상기 키워드 패턴 데이터 베이스는
    상기 키워드 및 상기 키워드를 발화하는 사용자의 음성 신호 패턴을 매칭함으로써 생성되는 키워드 음성 패턴 정보와, 상기 키워드와 관련되는 적어도 하나의 관련 키워드 및 상기 적어도 하나의 관련 키워드에 대한 사용자의 음성 신호 패턴을 매칭함으로써 생성되는 관련 키워드 음성 패턴 정보를 저장하는 것을 특징으로 하는, 방법.
  6. 제1항에 있어서, 상기 적어도 하나의 주요 키워드를 식별하는 단계는
    상기 획득된 문자열로부터 상기 소정의 키워드를 식별하는 단계;
    상기 식별된 소정의 키워드의 빈도수를 결정하는 단계;
    상기 결정된 빈도수에 기초하여 상기 식별된 소정의 키워드 중 상기 적어도 하나의 주요 키워드를 식별하는 단계; 를 포함하는, 방법.
  7. 제1항에 있어서, 상기 명령어를 결정하는 단계는
    기 저장된 주요 키워드 추천 저장소로부터 상기 식별된 주요 키워드를 포함하는 명령어 집합(SET)을 추출하는 단계;
    상기 식별된 주요 키워드에 미리 설정된 가중치를 상기 식별된 주요 키워드의 빈도수에 적용함으로써, 상기 명령어 집합 별 가중치 점수를 결정하는 단계; 및
    상기 결정된 가중치 점수에 기초하여 상기 명령어 집합 중 하나의 명령어를 결정하는 단계; 를 포함하는, 방법.
  8. 제7항에 있어서, 상기 명령어를 결정하는 단계는
    상기 사용자의 음성을 포함하는 오디오 신호로부터 추출된 주요 키워드 이력에 대한 정보를 획득하는 단계;
    상기 주요 키워드 이력에 대한 정보에 기초하여 상기 식별된 주요 키워드들의 누적 사용 빈도수 및 상기 주요 키워드와 함께 사용되는 조합 키워드 정보를 식별하는 단계;
    상기 누적 사용 빈도수 및 상기 조합 키워드 정보에 기초하여, 상기 결정된 명령어 집합 별 가중치 점수를 조정하는 단계; 및
    상기 조정된 가중치 점수에 기초하여, 상기 명령어 집합 중 하나의 명령어를 결정하는 단계; 를 포함하는, 방법.
  9. 제1항에 있어서, 상기 오디오 신호를 획득하는 단계는
    미리 설정된 주기에 따라 상기 사용자의 음성을 포함하는 오디오 신호를 획득하는 단계; 를 포함하는, 방법.
  10. 제2항에 있어서, 상기 방법은
    상기 전자 장치 및 상기 전자 장치와 연결된 다른 전자 장치 주변의 환경 정보를 획득하는 단계; 를 더 포함하고,
    상기 명령어를 결정하는 단계는 상기 식별된 주요 키워드, 상기 식별된 주요 키워드의 빈도수 및 상기 환경 정보에 기초하여 상기 명령어를 결정하는 단계; 를 포함하는, 방법.
  11. 제2항에 있어서, 상기 방법은
    상기 결정된 명령어를 출력하는 단계;
    상기 명령어가 출력된 시점으로부터 기 설정된 임계 시간 내에 상기 사용자의 다른 음성 신호를 포함하는 오디오 신호가 획득되는지 여부를 식별하는 단계;
    상기 기 설정된 임계 시간 내에 상기 사용자의 다른 음성 신호를 포함하는 오디오 신호가 획득되는 경우, 상기 다른 음성 신호를 포함하는 오디오 신호의 인식 결과에 기초하여, 상기 결정된 명령어를 상기 다른 전자 장치로 전송하는 단계; 및
    상기 기 설정된 임계 시간 내에 상기 사용자의 다른 음성 신호를 포함하는 오디오 신호가 획득되지 않는 경우, 상기 결정된 명령어를 재 출력하는 단계; 를 포함하는, 방법.
  12. 제2항에 있어서, 상기 다른 전자 장치는 차량 내 오디오 시스템, 네비게이션 시스템, 공조 제어 시스템, 윈도우 제어 시스템, 시트 제어 시스템, 기타 전자 제어 시스템 중 적어도 하나를 포함하는 것을 특징으로 하는, 방법.
  13. 사용자의 음성에 기초하여 명령어를 제공하는 전자 장치에 있어서,
    네트워크 인터페이스;
    하나 이상의 인스트럭션을 저장하는 메모리; 및
    상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서; 를 포함하고,
    상기 적어도 하나의 프로세서는 상기 하나 이상의 인스트럭션을 실행함으로써,
    상기 사용자의 음성을 포함하는 오디오 신호를 획득하고,
    상기 획득된 오디오 신호가 입력되면 상기 획득된 오디오 신호 내 상기 사용자의 음성에 대응되는 문자열을 출력하는 음성 인식 모델로부터 상기 문자열을 획득하고,
    상기 획득된 문자열로부터 식별되는 키워드의 빈도수에 기초하여 상기 사용자의 의도와 관련된 적어도 하나의 주요 키워드를 식별하고,
    상기 식별된 주요 키워드 및 상기 식별된 주요 키워드의 빈도수에 기초하여 명령어를 결정하고,
    상기 적어도 하나의 프로세서는,
    상기 오디오 신호 내 상기 사용자의 음성과 관련된 오디오 신호의 패턴을 식별하고,
    소정의 키워드에 대한 사용자 음성 신호 패턴을 저장하는 키워드 패턴 데이터 베이스를 획득하고,
    상기 키워드 패턴 데이터베이스 내 사용자 음성 신호 패턴 및 상기 사용자의 음성과 관련된 오디오 신호의 패턴을 비교한 결과에 기초하여, 상기 키워드 패턴 데이터 베이스 내 소정의 키워드를 식별하고,
    상기 식별된 소정의 키워드를 포함하는 문자열을 획득하는, 전자 장치.
  14. 제13항에 있어서, 상기 적어도 하나의 프로세서는
    상기 결정된 명령어를 상기 전자 장치와 연결된 다른 전자 장치로 전송하고,
    상기 다른 전자 장치로 전송된 명령어를 통하여 상기 다른 전자 장치의 기능 중 적어도 하나의 기능을 제어하는, 전자 장치.
  15. 제13항에 있어서, 상기 적어도 하나의 프로세서는
    상기 획득된 오디오 신호 내 사용자의 음성에 관한 오디오 신호를 필터링하고,
    상기 필터링된 오디오 신호 내 노이즈 성분을 제거함으로써 상기 오디오 신호를 전처리하는, 전자 장치.
  16. 삭제
  17. 제13항에 있어서, 상기 키워드 패턴 데이터 베이스는
    상기 키워드 및 상기 키워드를 발화하는 사용자의 음성 신호 패턴을 매칭함으로써 생성되는 키워드 음성 패턴 정보와, 상기 키워드와 관련되는 적어도 하나의 관련 키워드 및 상기 적어도 하나의 관련 키워드에 대한 사용자의 음성 신호 패턴을 매칭함으로써 생성되는 관련 키워드 음성 패턴 정보를 저장하는 것을 특징으로 하는, 전자 장치.
  18. 제13항에 있어서, 상기 적어도 하나의 프로세서는
    상기 획득된 문자열로부터 상기 소정의 키워드를 식별하고,
    상기 식별된 소정의 키워드의 빈도수를 결정하고,
    상기 결정된 빈도수에 기초하여 상기 식별된 소정의 키워드 중 상기 적어도 하나의 주요 키워드를 식별하는, 전자 장치.
  19. 제13항에 있어서, 상기 적어도 하나의 프로세서는
    기 저장된 주요 키워드 추천 저장소로부터 상기 식별된 주요 키워드를 포함하는 명령어 집합(SET)을 추출하고,
    상기 식별된 주요 키워드에 미리 설정된 가중치를 상기 식별된 주요 키워드의 빈도수에 적용함으로써, 상기 명령어 집합 별 가중치 점수를 결정하고,
    상기 결정된 가중치 점수에 기초하여 상기 명령어 집합 중 하나의 명령어를 결정하는, 전자 장치.
  20. 사용자의 음성을 포함하는 오디오 신호를 획득하는 단계;
    상기 획득된 오디오 신호가 입력되면 상기 획득된 오디오 신호 내 상기 사용자의 음성에 대응되는 문자열을 출력하는 음성 인식 모델로부터 상기 문자열을 획득하는 단계;
    상기 획득된 문자열로부터 식별되는 키워드의 빈도수에 기초하여 상기 사용자의 의도와 관련된 적어도 하나의 주요 키워드를 식별하는 단계; 및
    상기 식별된 주요 키워드 및 상기 식별된 주요 키워드의 빈도수에 기초하여 명령어를 결정하는 단계; 를 포함하고,
    상기 음성 인식 모델로부터 문자열을 획득하는 단계는
    상기 오디오 신호 내 상기 사용자의 음성과 관련된 오디오 신호의 패턴을 식별하는 단계;
    소정의 키워드에 대한 사용자 음성 신호 패턴을 저장하는 키워드 패턴 데이터 베이스를 획득하는 단계;
    상기 키워드 패턴 데이터베이스 내 사용자 음성 신호 패턴 및 상기 사용자의 음성과 관련된 오디오 신호의 패턴을 비교한 결과에 기초하여, 상기 키워드 패턴 데이터 베이스 내 소정의 키워드를 식별하는 단계; 및
    상기 식별된 소정의 키워드를 포함하는 문자열을 획득하는 단계; 를 포함하는, 전자 장치가 사용자의 음성에 기초하여 명령어를 제공하는 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
KR1020200151078A 2020-11-12 2020-11-12 운전자 음성 인식을 이용한 운전자 의도를 추정하는 방법 및 장치 KR102444834B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200151078A KR102444834B1 (ko) 2020-11-12 2020-11-12 운전자 음성 인식을 이용한 운전자 의도를 추정하는 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200151078A KR102444834B1 (ko) 2020-11-12 2020-11-12 운전자 음성 인식을 이용한 운전자 의도를 추정하는 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20220064695A KR20220064695A (ko) 2022-05-19
KR102444834B1 true KR102444834B1 (ko) 2022-09-16

Family

ID=81804778

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200151078A KR102444834B1 (ko) 2020-11-12 2020-11-12 운전자 음성 인식을 이용한 운전자 의도를 추정하는 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102444834B1 (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102417898B1 (ko) * 2017-10-12 2022-07-07 현대자동차주식회사 사용자 의도를 추론하는 차량의 음성인식 시스템 및 그 제어방법
KR20190114321A (ko) * 2018-03-29 2019-10-10 삼성전자주식회사 전자 장치 및 그 제어 방법
KR20200051462A (ko) * 2018-11-05 2020-05-13 삼성전자주식회사 전자 장치 및 그 동작방법
KR20200091797A (ko) * 2019-01-23 2020-07-31 삼성전자주식회사 음성 인식 장치 및 방법
KR102280692B1 (ko) 2019-08-12 2021-07-22 엘지전자 주식회사 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스

Also Published As

Publication number Publication date
KR20220064695A (ko) 2022-05-19

Similar Documents

Publication Publication Date Title
US11580960B2 (en) Generating input alternatives
US11875820B1 (en) Context driven device arbitration
US11657832B2 (en) User presence detection
US20200372901A1 (en) Wakeword detection
US10453117B1 (en) Determining domains for natural language understanding
CN110136727B (zh) 基于说话内容的说话者身份识别方法、装置及存储介质
US11443750B2 (en) User authentication method and apparatus
US20230089285A1 (en) Natural language understanding
US11887596B2 (en) Multiple skills processing
WO2019152162A1 (en) User input processing restriction in a speech processing system
US11276403B2 (en) Natural language speech processing application selection
US20210183362A1 (en) Information processing device, information processing method, and computer-readable storage medium
US11862170B2 (en) Sensitive data control
KR20210138181A (ko) 안내 로봇 및 안내 로봇의 동작 방법
CN110516083B (zh) 相册管理方法、存储介质及电子设备
US10930283B2 (en) Sound recognition device and sound recognition method applied therein
KR102444834B1 (ko) 운전자 음성 인식을 이용한 운전자 의도를 추정하는 방법 및 장치
KR101933822B1 (ko) 얼굴인식 기반 지능형 스피커, 이를 이용한 능동적인 대화 제공 방법 및 이를 수행하기 위한 기록매체
CN115512687B (zh) 一种语音断句方法、装置、存储介质及电子设备
JP2018005122A (ja) 検出装置、検出方法及び検出プログラム
US11430435B1 (en) Prompts for user feedback
KR102392992B1 (ko) 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법
US11869531B1 (en) Acoustic event detection model selection
US20230188892A1 (en) Contextual awareness in dynamic device groups
US11978440B2 (en) Wakeword detection

Legal Events

Date Code Title Description
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant