KR102249392B1

KR102249392B1 - 사용자 맞춤형 서비스를 위한 차량 기기 제어 장치 및 방법

Info

Publication number: KR102249392B1
Application number: KR1020140116184A
Authority: KR
Inventors: 안은정
Original assignee: 현대모비스 주식회사
Priority date: 2014-09-02
Filing date: 2014-09-02
Publication date: 2021-05-07
Also published as: CN105390136B; KR20160027728A; CN105390136A

Abstract

본 발명은 음성인식을 이용하여 운전자를 식별하고 다양한 정보를 통해 그 운전자의 패턴을 분석하여 운전자에게 최적의 기능들을 먼저 차량에서 유도하는 사용자 맞춤형 서비스를 위한 차량 기기 제어 장치 및 방법을 제안한다. 본 발명에 따른 사용자 맞춤형 서비스를 위한 차량 기기 제어 장치는 사용자의 음성 정보를 기초로 사용자의 특성 정보를 생성하는 특성 정보 생성부; 음성 정보를 해석하여 의미 정보를 획득하는 음성 정보 해석부; 특성 정보와 의미 정보를 기초로 사용자에 대한 맞춤형 서비스를 결정하는 맞춤형 서비스 결정부; 및 맞춤형 서비스가 실행되도록 차량 기기를 포함한 제어 대상 기기를 제어하는 차량 기기 제어부를 포함한다.

Description

사용자 맞춤형 서비스를 위한 차량 기기 제어 장치 및 방법 {Apparatus and method for controlling device of vehicle for user customized service}

본 발명은 차량 기기를 제어하는 장치 및 방법에 관한 것이다. 보다 상세하게는, 사용자 맞춤형 서비스가 실행되도록 차량 기기를 제어하는 장치 및 방법에 관한 것이다.

음성인식이란 음성에 포함된 음향학적 정보로부터 음운 즉, 언어적 정보를 추출하여 이를 기계가 인지하고 반응하게 만드는 일련의 과정이다.

음성으로 대화하는 것은 수많은 인간과 기계의 정보 교환 매체 중 가장 자연스럽고 간편한 방법으로 인식되어지고 있지만 기계와 음성으로 대화하기 위해서는 인간의 음성을 기계가 처리할 수 있는 코드로 변환을 해줘야 하는 제약이 따르게 된다. 이런 코드로 변환해주는 과정이 바로 음성 인식이다.

최근에는 발전한 음성인식 기술을 자동차에 적용하여 간단한 편의 장치, 예를 들면 윈도우의 승강, 와이퍼의 작동 및 정지, 에어컨의 작동, 전조등의 점등 및 소등 등을 운전자의 음성 명령만으로 구동할 수 있도록 하고 있다.

종래 차량의 음성인식 방법을 설명하면 다음과 같다.

운전자가 음성으로 기구의 작동을 명령하면 마이크로폰을 통해 운전자의 음성을 입력하는 단계와, 필터링 및 A/D 변환을 통해 아날로그 신호를 디지털 신호로 전처리하는 단계와, 특징 벡터 추출 및 음성 패턴 분류를 통해 음성 명령을 인식하는 단계, 및 인식된 음성 명령에 따라 제어 대상이 되는 장치를 구동하는 단계로 이루어진다.

현재의 음성인식은 한개의 음성 엔진을 사용하여 소용량 어휘부터 대용량 어휘까지 인식할 수 있도록 되어 있고, PTT(Push-to-Talk) 버튼을 누를 때에만 음성인식을 활성화할 수 있도록 되어 있다.

그런데 종래에는 단순히 화자가 음성인식 시스템에 명령을 해야만 음성인식 시스템이 그 명령어에 맞게 시나리오를 구성하는 일방향적인 방식이라 양방향 소통이 불가능한 문제점이 있다.

한국공개특허 제2014-0051630호는 음성인식을 이용하여 차량용 AVN 시스템을 제어하는 방법에 대하여 제안하고 있다. 그러나 이 방법도 리모트 컨트롤용 음성인식 버튼을 이용하여 음성인식 기능을 제공하기 때문에 상기한 문제점을 해결할 수 없다.

본 발명은 상기한 문제점을 해결하기 위해 안출된 것으로서, 음성인식을 이용하여 운전자를 식별하고 다양한 정보를 통해 그 운전자의 음성 패턴을 분석하여 운전자에게 최적의 기능들을 먼저 차량에서 유도하는 사용자 맞춤형 서비스를 위한 차량 기기 제어 장치 및 방법을 제안하는 것을 목적으로 한다.

그러나 본 발명의 목적은 상기에 언급된 사항으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

본 발명은 상기한 목적을 달성하기 위해 안출된 것으로서, 사용자의 음성 정보를 기초로 상기 사용자의 특성 정보를 생성하는 특성 정보 생성부; 상기 음성 정보를 해석하여 의미 정보를 획득하는 음성 정보 해석부; 상기 특성 정보와 상기 의미 정보를 기초로 상기 사용자에 대한 맞춤형 서비스를 결정하는 맞춤형 서비스 결정부; 및 상기 맞춤형 서비스가 실행되도록 차량 기기를 포함한 제어 대상 기기를 제어하는 차량 기기 제어부를 포함하는 것을 특징으로 하는 사용자 맞춤형 서비스를 위한 차량 기기 제어 장치를 제안한다.

바람직하게는, 상기 특성 정보 생성부는 상기 음성 정보로부터 포만트(formant) 값, 주파수 값, 음성 에너지 값 및 LPC 값 중 적어도 하나의 값을 추출하며, 상기 적어도 하나의 값을 기초로 상기 특성 정보를 실시간으로 생성한다.

바람직하게는, 상기 특성 정보 생성부는 상기 특성 정보로 상기 사용자의 성별 정보, 상기 사용자의 연령 정보, 및 상기 사용자의 감정 정보 중 적어도 하나의 정보를 실시간으로 생성한다.

바람직하게는, 상기 차량 기기 제어 장치는 적어도 두개의 음성 정보들이 입력되면 상기 음성 정보들 중에서 하나의 음성 정보를 선택하는 음성 정보 선택부를 더 포함한다.

바람직하게는, 상기 음성 정보 선택부는 음성 정보의 크기, 입력된 음성 정보와 미리 저장된 음성 정보 간 비교 결과, 상기 사용자의 위치, 및 다층 퍼셉트론(multilayer perceptron) 중 적어도 하나를 기초로 상기 하나의 음성 정보를 선택한다.

바람직하게는, 상기 차량 기기 제어 장치는 차량의 각 좌석에서 상기 음성 정보를 입력받는 음성 정보 입력부를 더 포함하며, 상기 차량 기기 제어부는 상기 각 좌석마다 상기 맞춤형 서비스가 실행되도록 차량 기기를 제어한다.

바람직하게는, 상기 음성 정보 입력부는 상기 각 좌석에 지향성 마이크 형태로 형성된다.

바람직하게는, 상기 차량 기기 제어 장치는 상기 사용자에 의해 입력된 정보를 기초로 상기 맞춤형 서비스를 실행할 것인지 여부를 판단하는 맞춤형 서비스 실행 판단부; 및 상기 맞춤형 서비스를 실행하지 않는 것으로 판단되면 상기 사용자에 의해 입력된 정보를 기초로 상기 맞춤형 서비스를 대신할 대체 서비스를 결정하는 대체 서비스 결정부를 더 포함한다.

바람직하게는, 상기 차량 기기 제어부는 상기 차량 기기로 AVN(Audio Video Navigation) 시스템을 제어한다.

또한 본 발명은 사용자의 음성 정보를 기초로 상기 사용자의 특성 정보를 생성하는 단계; 상기 음성 정보를 해석하여 의미 정보를 획득하는 단계; 상기 특성 정보와 상기 의미 정보를 기초로 상기 사용자에 대한 맞춤형 서비스를 결정하는 단계; 및 상기 맞춤형 서비스가 실행되도록 차량 기기를 포함한 제어 대상 기기를 제어하는 단계를 포함하는 것을 특징으로 하는 사용자 맞춤형 서비스를 위한 차량 기기 제어 방법을 제안한다.

바람직하게는, 상기 생성하는 단계는 상기 음성 정보로부터 포만트(formant) 값, 주파수 값, 음성 에너지 값 및 LPC 값 중 적어도 하나의 값을 추출하며, 상기 적어도 하나의 값을 기초로 상기 특성 정보를 실시간으로 생성한다.

바람직하게는, 상기 생성하는 단계는 상기 특성 정보로 상기 사용자의 성별 정보, 상기 사용자의 연령 정보, 및 상기 사용자의 감정 정보 중 적어도 하나의 정보를 실시간으로 생성한다.

바람직하게는, 상기 생성하는 단계 이전에, 적어도 두개의 음성 정보들이 입력되면 상기 음성 정보들 중에서 하나의 음성 정보를 선택하는 단계를 더 포함한다.

바람직하게는, 상기 선택하는 단계는 음성 정보의 크기, 입력된 음성 정보와 미리 저장된 음성 정보 간 비교 결과, 상기 사용자의 위치, 및 다층 퍼셉트론(multilayer perceptron) 중 적어도 하나를 기초로 상기 하나의 음성 정보를 선택한다.

바람직하게는, 상기 선택하는 단계 이전에, 차량의 각 좌석에서 상기 음성 정보를 입력받는 단계를 더 포함하며, 상기 제어하는 단계는 상기 각 좌석마다 상기 맞춤형 서비스가 실행되도록 차량 기기를 제어한다.

바람직하게는, 상기 입력받는 단계는 상기 각 좌석에 구비된 지향성 마이크 형태의 것을 이용한다.

바람직하게는, 상기 사용자에 대한 맞춤형 서비스를 결정하는 단계와 상기 제어하는 단계 사이에, 상기 사용자에 의해 입력된 정보를 기초로 상기 맞춤형 서비스를 실행할 것인지 여부를 판단하는 단계; 및 상기 맞춤형 서비스를 실행하지 않는 것으로 판단되면 상기 사용자에 의해 입력된 정보를 기초로 상기 맞춤형 서비스를 대신할 대체 서비스를 결정하는 단계를 더 포함한다.

바람직하게는, 상기 제어하는 단계는 상기 차량 기기로 AVN 시스템을 제어한다.

본 발명은 음성인식을 이용하여 운전자를 식별하고 다양한 정보를 통해 그 운전자의 패턴을 분석하여 운전자에게 최적의 기능들을 먼저 차량에서 유도함으로써 다음 효과를 얻을 수 있다.

첫째, 점차 양방향의 커뮤니케이션 방식으로 변화하는 추세에 따라 일방적인 방식에서 벗어나 양방향으로 소통하여 자연스러운 음성인식 시스템을 구현할 수 있다.

둘째, 시스템에서 운전자에 맞춰서 기능을 제안하므로 운전자가 자주 사용하는 기능을 간편하게 사용할 수 있다.

도 1은 본 발명의 일실시예에 따른 차량용 화자 인식 시스템을 도시한 개념도이다.
도 2는 차량용 화자 인식 시스템의 작동 방법을 도시한 제1 실시예 흐름도이다.
도 3은 차량용 화자 인식 시스템의 작동 방법을 도시한 제2 실시예 흐름도이다.
도 4는 본 발명의 바람직한 실시예에 따른 사용자 맞춤형 서비스를 위한 차량 기기 제어 장치를 개략적으로 도시한 블록도이다.
도 5는 본 발명의 바람직한 실시예에 따른 사용자 맞춤형 서비스를 위한 차량 기기 제어 방법을 개략적으로 도시한 흐름도이다.

이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조 부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.

본 발명은 양방향 소통 방식으로 기술이 변화함에 따라 음성인식이라는 화자 식별 기능을 이용하여 운전자를 구별하고 그 운전자의 패턴을 분석하여 운전자에게 적합한 기능을 먼저 제안해 인공지능 추세에 맞춰갈 수 있도록 하는 것을 특징으로 한다.

도 1은 본 발명의 일실시예에 따른 차량용 화자 인식 시스템을 도시한 개념도이다.

본 발명은 도 1에 도시된 바와 같이 음성을 이용한 화자 인식으로 운전자 개개인의 패턴을 분석해서 운전자 친화적인 차량 내부 시스템으로 구성할 수 있다.

보통 개인 자동차를 여러 명이 함께 쓰는데, 본 발명에서는 개개인 운전자의 음성 특성을 저장해 놓고, 각각 운전자의 패턴을 분석한다. 운전자의 패턴은 최근 검색지, 최근 통화 목록, 오디오 기능 등이 될 수 있다. 운전자가 차량 탑승 후 마이크를 통해 발화하면, 어떤 운전자인지 화자 식별을 하고, 그 운전자의 패턴에 맞는 기능을 차량에서 체크하고, 운전자가 자주 이용하는 기능을 더 빠르고 쉽게 접근할 수 있도록 한다.

입력부(110)는 운전자의 음성 명령을 입력받는 기능을 수행한다. 입력부(110)는 마이크 형태로 구현될 수 있다.

인식부(120)는 입력부(110)를 통해 들어온 음성 신호를 인식한다. 인식부(120)는 STT(Speech To Text) 작업을 거쳐 어떤 음성이 들어왔는지를 판단한다.

분석부(130)는 화자를 식별하며, 학습된 DB를 통해 성별과 연령대를 분석하고, 포만트(formant) 값을 구해서 개개인의 특성을 식별한다.

분석부(130)는 발화자 음성의 포만트(formant) 값, 기본 주파수 값, 음성 에너지 값, LPC 값 등을 통해 통계적인 사용자의 성별/연령/기분/컨디션 등을 실시간으로 판별한다.

저장부(160)는 분석부(130)를 통해 취합된 운전자별 특성을 저장한다. 이때 저장부(160)는 인식부(120)에서 운전자가 발화하는 음성 명령어를 STT시킨 결과들을 저장한다.

처리부(140)는 운전자에 따라 저장된 DB를 이용하여 다음 시나리오 천이를 계획하고, 운전자가 자주 사용한 기능을 차량에서 먼저 유도하도록 운전자에게 차량에서 권유하는 해당 시나리오로 천이할 것인지를 묻는다.

예를 들어, 처리부(140)는 특정 시간 대에 운전자 A가 자주 가는 목적지, 자주 듣는 라디오, DMB 채널 등을 차량에서 먼저 운전자에게 제안하는 시나리오를 구성하거나, 차량 내에 저장된 음악 중 운전자가 자주 듣는 음악을 우선순위로 하여 재생하거나, 운전자의 연령을 파악하여 서버로 음악을 듣는 경우 해당 연령대가 선호하는 음악을 재생한다.

처리부(140)는 사용자가 원하는 기능을 처리할 때 특히 사용자가 정확한 정보를 지정하지 않는다면 분석부(130)에서 실시간으로 분석한 사용자의 특징에 가장 알맞은 맞춤형 편의 기능 정보를 공급할 수 있도록 자료를 서칭(searching)한다.

처리부(140)는 음악 선곡, 라디오 방송 추천, DMB 방송 추천, 시설 검색 등의 맞춤형 편의 기능 정보를 제공한다.

출력부(150)는 차량 내의 시스템이 운전자에 특화된 정보를 가지고 만들어낸 시나리오대로 동작하게 할 것인지를 스피커를 통해 운전자에게 묻는다.

출력부(150)는 처리부(140)에서 처리 후 나온 결과를 사용자에게 전달한다.

도 2는 차량용 화자 인식 시스템의 작동 방법을 도시한 제1 실시예 흐름도이다.

사용자가 MIC를 통해 "라디오"를 발화하면, 입력부(110)는 이 음성 신호를 획득한다(S210).

이후 인식부(120)가 음성인식 기능을 수행하며, STT를 통해 라디오 명령어를 라디오 텍스트로 변환한다(S220).

이후 분석부(130)가 학습된 DB와 더불어 포만트 값, 기본 주파수 값, 음성 에너지 값, LPC 값 등을 이용하여 운전자의 음성 명령어를 분석하고 저장한다(S230).

이후 처리부(140)가 현재 시간을 체크하고, 인식부(120)의 인식 결과, 분석부(130)의 분석 결과, 저장부(160)에 저장된 정보 등을 기초로 그 시간에 운전자가 청취하는 주파수인 FM 95.1 TBS 방송을 유도하도록 wave 파일을 생성한다(S240).

이후 출력부(150)가 "FM 95.1 TBS 교통방송을 수신하겠습니까?"를 스피커로 출력한다(S250).

사용자로부터 스피커로 출력된 내용에 동의한다는 메시지가 입력되면, 차량의 AVN(Audio Video Navigation) 시스템은 FM 95.1 TBS 교통방송을 출력한다(S260).

반면 사용자로부터 스피커로 출력된 내용에 동의하지 않는다는 메시지가 입력되면, 처리부(140)는 출력부(150)를 통해 "주파수 채널을 말씀해 주세요"를 스피커로 출력한다. 이후 입력부(110)를 통해 운전자가 원하는 주파수를 명령하면, 처리부(140)는 해당 주파수 방송을 출력한다(S270).

음성인식 시스템에서 운전자 판별 후 운전자 특성에 맞춰 제안했는데 운전자가 거절하는 경우에는 상기와 같이 운전자에게 원하는 기능을 물어보고 그 기능대로 동작하도록 한다.

음성인식 시스템에서 운전자를 잘못 판단하는 경우가 있으므로 AVN 기능 중 운전자 식별 기능 ON/OFF를 넣어 정확하지 않을 경우 운전자가 OFF로 설정해 음성인식 시스템이 화자 식별을 하지 않도록 한다.

본 발명에 따르면 음성인식 시스템은 음성인식 독립적으로 운영되지 않고 다른 모듈과 정보를 공유하면서 더욱 운전자 친화적인 자동차 시스템으로 만들 수 있다.

도 3은 차량용 화자 인식 시스템의 작동 방법을 도시한 제2 실시예 흐름도이다.

음성으로 라디오 또는 DMB 발화시, 분석부(130)는 음성 분석(S320)을 통해 사용자의 특성을 추출한다. 이후 처리부(140)가 사용자의 특성에 가장 알맞은 방송을 선곡한다.

음성으로 음악 검색시 서버와 연결되어 있다면, 분석부(130)는 음성으로 사용자의 특징을 추출해서 서버에서 제공하는 성별/연령/컨디션별 선호 음악 리스트를 선곡한다.

서버와 연결되어 있지 않더라도, 분석부(130)는 음악 파일들에 일반적인 특성(선호 성별, 연령대, 기분 상태)을 저장부(160)에 저장해 놓고, 사용자의 음성 상태에 따라 가장 알맞다고 생각하는 음악을 재생시킨다.

내비게이션으로 시설을 검색시 처리부(140)는 사용자의 음성 특징을 통해 예를 들어 주변 레스토랑을 검색한다면, 각 성별/연령대가 선호하는 레스토랑을 가장 먼저 보여준다. 시리의 경우 주변 레스토랑을 음성으로 검색시 YELP를 통해 검색한 결과를 사용자에게 제공하는데, 주변 레스토랑 검색시 성별/연령대 등의 다른 정보를 더하여 사용자와 더 비슷한 사람들이 선호하는 레스토랑을 검색해준다.

인터넷과 연결이 되어 있다면 처리부(140)는 음성 명령어에 사용자 특징을 더한 정보로 인터넷 검색을 통해 사용자에게 정보를 제공한다. 음성 분석을 통해 사용자의 건강 상태가 좋지 않다면 주변 레스토랑 검색시 죽집을 먼저 검색하거나, 주변 병원 검색시 사용자의 음성 분석을 통해 감기에 걸린 것 같다면 내과를 먼저 찾아주도록 한다.

또한 음성으로 음악회나 콘서트 검색시, 처리부(140)는 사용자와 비슷한 환경의 사람들이 선호하는 음악회나 콘서트를 인터넷을 통해 검색한다.

이상 설명한 내용을 정리하면 다음과 같다.

사용자가 발화하면, 입력부(110)는 해당 음성 정보를 획득한다(S310). 예컨대 사용자가 "라디오" 또는 "DMB"를 발화하면 입력부(110)는 이 음성 정보를 획득한다.

이후 분석부(130)가 음성 정보를 실시간으로 분석하여(S320) 성별/연령/컨디션 등을 판단한다(S330 ~ S350).

분석부(130)는 음성 정보 분석을 통해 발화자가 남성인지 아니면 여성인지를 판단한다(S330). 이후 분석부(130)는 발화자가 연령대가 어떻게 되는지(ex. 20대, 30대, 40대 등)를 판단한다(S340). 이후 분석부(130)는 발화자의 기분/컨디션이 좋은지 아니면 나쁜지를 판단한다(S350).

이후 처리부(140)가 분석부(130)의 분석 결과를 기초로 사용자에 최적화된 방송국을 검출한다(S360). 예컨대 처리부(140)는 기분/컨디션이 좋은 20대 남성이 즐겨듣는 방송국을 검출하거나, 기분/컨디션이 나쁜 30대 남성이 즐겨듣는 방송국을 검출하거나, 기분/컨디션이 좋은 10대 여성이 즐겨듣는 방송국을 검출하거나, 또는 기분/컨디션이 나쁜 20대 여성이 즐겨듣는 방송국을 검출한다.

이후 출력부(150)가 처리부(140)의 처리 결과를 스피커로 출력한다(S370).

본 발명은 차량 내 운전자에 국한되지 않고, 모든 음성인식의 경우에 발화한 내용 뿐만 아니라 발화자의 특성을 고려하여 정보를 검색한다.

본 발명은 종래와 다르게 실시간 음성 분석을 통해 변화 가능한 사용자의 상태를 파악하여 사용자 맞춤형 정보를 제공한다.

다음으로 본 발명에서 역전파 알고리즘(Back Propagation Algorithm)을 음성인식에 적용하는 방법에 대하여 설명한다.

일반적인 노이즈 필터링 방법에 따르면, 음성인식 마이크 오픈 후 일정 시간 후에 음성인식 발화를 함으로써 음성인식 전에 마이크로 들어오는 신호를 차량 내 노이즈라고 판단하고 신호에서 그 노이즈만 필터링시킨다.

그런데 차량 내에 운전자 방향으로 지향성 마이크가 달려 있지만 음성 발화 전의 잠깐의 시간동안 입력된 신호를 노이즈로 판단하기 때문에, 만일 음성인식 발화 시점에 운전자 외에 다른 좌석에서 발화시 음성이 섞이게 되어 음성인식률이 떨어지는 문제점이 있다.

그래서 본 발명에서는 차량 내 4개의 좌석 영역에 지향성 마이크를 각각 설치하고, 운전자 영역의 마이크의 입력 신호를 기준으로 다른 영역들의 마이크 신호를 노이즈로 판별하고 필터링한다. 신호를 처리하는 과정에서 실시간으로 운전자 영역의 운전자의 특징을 판별하여 멀티미디어 기기에서 운전자에게 적합한 정보를 제공하도록 한다.

이하에서 보다 자세하게 설명하며, 이하 설명에서는 운전석을 A 영역으로 정의하고, 조수석을 B 영역으로 정의하며, 운전석의 뒤쪽과 조수석의 뒤쪽을 각각 C 영역과 D 영역으로 정의한다.

운전자가 음성인식 기능을 시작시, A, B, C, D 영역의 마이크들이 동시에 오픈되면서 마이크로 4 영역의 음성 신호를 받는다. 사람의 음성이 아닌 차량 노이즈는 4 영역의 마이크에 입력되는 값이 거의 동일하므로 차량 노이즈 값을 A에서 필터링한다. 그리고 4 영역의 음성 목소리를 분석한다. 우선 4 영역의 성별을 나타내는 음성 벡터값을 분석하고, A 영역을 기준으로 B, C, D 영역에서 A 영역과 다른 성별을 나타내는 벡터값이 추출되면 A 영역에서 그 벡터값에 해당하는 신호를 필터링한다. 성별 분석이 완료되면 동일한 방법으로 연령, 기분/컨디션 등에 대해 분석한다.

A 영역에서 운전자의 음성 신호가 가장 크겠지만, B, C, D 영역의 음성 신호가 있을 경우 A 영역에서 완벽하게 운전자의 목소리만 추출하기 어렵기 때문에 이 방법을 사용한다.

이때에는 상관관계(CORRELATION), ICA 기술, BEAM FORMING 기술 외의 다른 알고리즘을 사용하여 신호가 독립적인지 유사성을 띄고 있는지를 판별할 수 있다.

4개의 마이크를 통해 필터링을 하면서 화자의 개별 특성을 파악할 수 있고, 개별 특성을 파악한 정보를 이용한 노이즈 필터링으로 인식률을 높일 수 있다.

다음으로 다층 퍼셉트론(multilayer perceptron)에 대하여 설명한다.

종래 음성과 관련된 퍼셉트론 이론은 음성을 인식하거나(음성을 입력받으면 어떤 내용의 음성인지를 판단), 사람의 감정을 판별하는 용도로 쓰여 왔다.

다층 퍼셉트론(multilayer perceptron)은 입력층과 출력층 사이에 하나 이상의 중간층이 존재하는 신경망이다. 네트워크는 입력층, 은닉층, 출력층 방향으로 연결되어 있으며, 각 층 내의 연결과 출력층에서 입력층으로의 직접적인 연결은 존재하지 않는 전방향(Feedforward) 네트워크이다.

차량의 경우는 일반적으로 4개의 좌석이 지정되어 있고, 차량 내 음성인식 시스템은 보통 운전자가 사용하는데, 운전자의 음성인식 시스템 사용 중 나머지 좌석의 탑승자가 발화시 여러 명의 음성이 더해지므로 인식 시스템에서 운전자의 명령을 인식하기가 어렵다. 현재 일반적으로 쓰이는 음성인식 시스템에서는 음성인식 구간 앞에 음성이 없는 구간을 설정해 그 구간을 노이즈로 인식하고, 음성이 들어오는 구간에서 노이즈를 필터링하는 구조이다.

본 발명은 퍼셉트론 이론을 이용해 음성의 특징을 추출해 발화자의 특성을 식별하고, 그 데이터로 발화자에게 적합한 정보를 실시간으로 제공하는 기술이다. 퍼셉트론을 이용하면 ①화자의 특성에 따라 맞춤형 정보를 제공하거나, ②발화자 위치를 인식하고 그 위치에 발화자가 원하는 기능을 제공할 수 있다. 이하 ①과 ②에 대해 보다 자세하게 설명한다.

1. 화자 특성에 따른 맞춤형 정보 제공

다층 퍼셉트론을 이용해 시스템을 구성하면, 여러 명의 음성이 더해지더라도 운전자의 음성을 추출하는 것이 가능해진다. 이 방법은 운전자에 국한되지 않고 나머지 사람의 인식도 가능하다. 예시로 A 영역의 음성 특성만 추출하고, 나머지 B, C, D 영역의 음성 신호는 무시하는 경우이다.

퍼셉트론의 경우 미리 많은 DB를 바탕으로 BACK PROPAGATION 기법을 이용해 트레이닝된 알고리즘이 형성된 상태가 대전제이다.

퍼셉트론 모델링은 예로 20대 컨디션이 좋은 서울 여성의 수많은 음성을 분석해 특성(포만트, 기본 주파수, 에너지값, LPC 값 등)을 추출해 인풋에 넣고, OUTPUT 타켓을 20대 컨디션이 좋은 서울 여성으로 하면 퍼셉트론 구조 내부적으로 BACK PROPAGATION 과정을 거쳐 적절한 WEIGHT 값이 결정된다. 이렇게 다양한 특성의 사람들을 트레이닝시키면 어떤 음성이 들어가더라도 트레이닝된 구조 안에서 특징을 찾아갈 수 있다. LPC 값은 선형 예측 부호화 값으로 인간 발성 모델에 근거한 음성 부호화 방식 중 하나로 26차원의 벡터를 갖는다.

특정 타켓의 수만은 음성의 formant, 기본 주파수, LPC 모델의 26차원 벡터값을 입력했을 때 역전개 과정을 거쳐 적절한 가중치 값들이 정하는 작업을 여러 타켓으로 반복한다(20대 컨디션 좋은 서울 여성, 30대 컨디션 안좋은 경상도 지역의 남성…).

이 트레이닝 과정을 거치면 어떤 음성이 입력되더라도 그 음성의 특징 벡터들을 모델링한 퍼셉트론 구조에 입력하면 발화자의 특성을 알 수 있다.

좌석 선택의 기준은 PTT로 한다. PTT 버튼이 4개가 있다면 위치에 따라 해당 PTT 입력된 자리에 위치한 마이크에 입력된 음성이 분석해야 될 음성으로 판단하고 나머지는 노이즈로 판단해 필터링한다. 필터링된 음성으로 인식을 하여 발화자에게 최적의 정보를 제공하는데, 예를 들어 멀티 제품에 발화자가 명령할 경우, 주변 음식점을 찾는다면 발화자의 특성에 적합한 주변 음식점을 먼저 찾아주게 된다.

이상 설명한 내용을 정리하면 다음과 같은 특징 도출이 가능하다.

먼저, PTT 위치를 판별하며 음성 신호별 특성에 따른 벡터를 추출한다.

이후, 다층 퍼셉트론 구조에 4가지 신호의 특성 벡터를 입력한다.

이후, 각각 음성 신호마다의 특성을 추출한다.

이후, 기준 음성(A)과 다른 특성을 가질 경우 A 마이크 신호에서 다른 특성값을 노이즈로 판단하고 필터링한다.

이후, A 영역의 음성만 추출된 데이터로 음성 인식을 수행하며, 음성이 어떤 의미인지 판별한다.

이후, A 영역의 발화자의 명령어에 대해 최적화된 정보를 제공한다.

2. 발화자 위치를 인식하고 그 위치에 발화자가 원하는 기능을 제공

좌석 선택의 기준은 PTT로 한다. PTT 버튼이 4개가 있다면 위치에 따라 해당 PTT 입력된 자리에 위치한 마이크에 입력된 음성이 분석해야 될 음성으로 판단하고 나머지는 노이즈로 판단해 필터링한다. 예를 들어 공조의 경우 D 영역에 앉은 사람이 에어컨 온도 관련 명령을 할 경우 D 영역의 공조 장치에만 명령에 따라 공조 레벨이 변하게도 할 수 있다.

이상 음성인식을 통한 화자 식별로 음성인식 시스템에서 운전자에 최적의 정보를 제공하는 본 발명의 일실시 형태에 대하여 설명하였다. 이하에서는 이러한 일실시 형태로부터 추론 가능한 본 발명의 바람직한 형태에 대하여 설명한다.

도 4는 본 발명의 바람직한 실시예에 따른 사용자 맞춤형 서비스를 위한 차량 기기 제어 장치를 개략적으로 도시한 블록도이다.

도 4에 따르면, 사용자 맞춤형 서비스를 위한 차량 기기 제어 장치(400)는 특성 정보 생성부(410), 음성 정보 해석부(420), 맞춤형 서비스 결정부(430), 차량 기기 제어부(440), 전원부(450) 및 주제어부(460)를 포함한다.

전원부(450)는 차량 기기 제어 장치(400)를 구성하는 각 구성에 전원을 공급하는 기능을 수행한다. 주제어부(460)는 차량 기기 제어 장치(400)를 구성하는 각 구성의 전체 작동을 제어하는 기능을 수행한다. 차량 기기 제어 장치(400)가 AVN 시스템에 구비될 수 있음을 고려할 때 전원부(450)와 주제어부(460)는 본 실시예에서 구비되지 않아도 무방하다.

특성 정보 생성부(410)는 사용자의 음성 정보를 기초로 사용자의 특성 정보를 생성하는 기능을 수행한다.

특성 정보 생성부(410)는 음성 정보로부터 포만트(formant) 값, 주파수 값, 음성 에너지 값 및 LPC 값 중 적어도 하나의 값을 추출하며, 이 적어도 하나의 값을 기초로 특성 정보를 실시간으로 생성할 수 있다.

특성 정보 생성부(410)는 사용자의 특성 정보로 사용자의 성별 정보, 사용자의 연령 정보, 및 사용자의 감정 정보 중 적어도 하나의 정보를 실시간으로 생성할 수 있다.

특성 정보 생성부(410)는 도 1의 분석부(130)에 대응하는 개념이다.

음성 정보 해석부(420)는 사용자의 음성 정보를 해석하여 의미 정보를 획득하는 기능을 수행한다.

맞춤형 서비스 결정부(430)는 특성 정보 생성부(410)에 의해 생성된 특성 정보와 음성 정보 해석부(420)에 의해 획득된 의미 정보를 기초로 사용자에 대한 맞춤형 서비스를 결정하는 기능을 수행한다.

차량 기기 제어부(440)는 맞춤형 서비스 결정부(430)에 의해 결정된 맞춤형 서비스가 실행되도록 차량 기기를 포함한 제어 대상 기기를 제어하는 기능을 수행한다.

차량 기기 제어부(440)는 차량 기기로 AVN(Audio Video Navigation) 시스템을 제어할 수 있다.

차량 기기 제어 장치(400)는 음성 정보 선택부(미도시)를 더 포함할 수 있다.

음성 정보 선택부는 적어도 두개의 음성 정보들이 입력되면 이 음성 정보들 중에서 하나의 음성 정보를 선택하는 기능을 수행한다.

음성 정보 선택부는 음성 정보의 크기, 입력된 음성 정보와 미리 저장된 음성 정보 간 비교 결과, 사용자의 위치, 및 다층 퍼셉트론(multilayer perceptron) 중 적어도 하나를 기초로 하나의 음성 정보를 선택할 수 있다.

다층 퍼셉트론을 기초로 하는 경우 음성 정보 선택부는 다음 순서에 따라 음성 정보를 선택할 수 있다.

먼저 차량 내부 구역마다 마이크로 입력되는 음성을 이미 트레이닝된 퍼셉트론 모델에 입력하고, 운전자 정보를 추출한다.

이후 나머지 구역에 운전자 기준의 구역의 특징과 다른 특징의 음성이 있다면, 운전자 구역의 마이크에 입력된 음성 신호 중 그 신호는 노이즈로 판별하고 필터링한다.

이후 모든 위치에 입력되는 음성을 각각 퍼셉트론 모델에 입력하고 나온 결과를 토대로 필터링하여 음성 정보를 획득한다.

차량 기기 제어 장치(400)는 음성 정보 입력부(미도시)를 더 포함할 수 있다.

음성 정보 입력부는 적어도 하나의 음성 정보를 입력받는 기능을 수행한다. 특히 음성 정보 입력부는 차량의 각 좌석에서 음성 정보를 입력받는 기능을 수행한다. 음성 정보 입력부는 각 좌석에 지향성 마이크 형태로 형성될 수 있다.

이 경우 차량 기기 제어부(440)는 각 좌석마다 맞춤형 서비스가 실행되도록 차량 기기를 제어할 수 있다.

차량 기기 제어 장치(400)는 맞춤형 서비스 실행 판단부(미도시)와 대체 서비스 결정부(미도시)를 더 포함할 수 있다.

맞춤형 서비스 실행 판단부는 사용자에 의해 입력된 정보를 기초로 맞춤형 서비스를 실행할 것인지 여부를 판단하는 기능을 수행한다.

대체 서비스 결정부는 맞춤형 서비스를 실행하지 않는 것으로 판단되면 사용자에 의해 입력된 정보를 기초로 맞춤형 서비스를 대신할 대체 서비스를 결정하는 기능을 수행한다.

이 경우 차량 기기 제어부(440)는 대체 서비스가 실행되도록 차량 기기를 제어한다.

다음으로 사용자 맞춤형 서비스를 위한 차량 기기 제어 장치(400)의 작동 방법에 대하여 설명한다.

도 5는 본 발명의 바람직한 실시예에 따른 사용자 맞춤형 서비스를 위한 차량 기기 제어 방법을 개략적으로 도시한 흐름도이다. 이하 설명은 도 5를 참조한다.

먼저 음성 정보 입력부가 차량의 각 좌석에서 사용자의 음성 정보를 입력받는다(S510).

이후 특성 정보 생성부(410)가 사용자의 음성 정보를 기초로 사용자의 특성 정보를 생성한다(S530). 또한 음성 정보 해석부(420)가 사용자의 음성 정보를 해석하여 의미 정보를 획득한다(S520). S530 단계는 S520 단계와 동시에 수행될 수 있으나, S520 단계보다 먼저 수행되거나 S520 단계보다 나중에 수행되는 것도 가능하다.

이후 맞춤형 서비스 결정부(430)가 특성 정보 생성부(410)에 의해 생성된 특성 정보와 음성 정보 해석부(420)에 의해 획득된 의미 정보를 기초로 사용자에 대한 맞춤형 서비스를 결정한다(S540).

이후 차량 기기 제어부(440)가 맞춤형 서비스 결정부(430)에 의해 결정된 맞춤형 서비스가 실행되도록 차량 기기를 포함한 제어 대상 기기를 제어한다(S550).

한편 S510 단계 이후에, 음성 정보 선택부가 적어도 두개의 음성 정보들이 입력되면 이 음성 정보들 중에서 하나의 음성 정보를 선택할 수 있다. 음성 정보 선택부의 상기한 단계는 S510 단계와 S520 단계 사이에 수행되거나 S510 단계와 S530 단계 사이에 수행되는 것도 가능하다.

한편 S540 단계와 S550 단계 사이에, 맞춤형 서비스 실행 판단부가 사용자에 의해 입력된 정보를 기초로 맞춤형 서비스를 실행할 것인지 여부를 판단한다. 이후 대체 서비스 결정부가 맞춤형 서비스를 실행하지 않는 것으로 판단되면 사용자에 의해 입력된 정보를 기초로 맞춤형 서비스를 대신할 대체 서비스를 결정한다.

이상에서 설명한 본 발명의 실시예를 구성하는 모든 구성요소들이 하나로 결합하거나 결합하여 동작하는 것으로 기재되어 있다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한, 이와 같은 컴퓨터 프로그램은 USB 메모리, CD 디스크, 플래쉬 메모리 등과 같은 컴퓨터가 읽을 수 있는 기록매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 기록매체로서는 자기 기록매체, 광 기록매체, 캐리어 웨이브 매체 등이 포함될 수 있다.

또한, 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 상세한 설명에서 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

사용자의 음성 정보를 기초로 상기 사용자의 특성 정보를 생성하는 특성 정보 생성부;
상기 음성 정보를 해석하여 의미 정보를 획득하는 음성 정보 해석부;
상기 특성 정보와 상기 의미 정보를 기초로 상기 사용자에 대한 맞춤형 서비스를 결정하는 맞춤형 서비스 결정부; 및
상기 맞춤형 서비스가 실행되도록 차량 기기를 포함한 제어 대상 기기를 제어하는 차량 기기 제어부를 포함하되,
상기 사용자에 의해 입력된 정보를 기초로 상기 맞춤형 서비스를 실행할 것인지 여부를 판단하는 맞춤형 서비스 실행 판단부; 및
상기 맞춤형 서비스를 실행하지 않는 것으로 판단되면 상기 사용자에 의해 입력된 정보를 기초로 상기 맞춤형 서비스를 대신할 대체 서비스를 결정하는 대체 서비스 결정부를 더 포함하고,
상기 특성 정보 생성부는 상기 음성 정보로부터 음성 에너지 값 및 LPC 값을 추출하고, 상기 음성 에너지 값 및 LPC 값을 기초로 상기 특성 정보를 실시간으로 생성하는 것을 특징으로 하는 사용자 맞춤형 서비스를 위한 차량 기기 제어 장치.
제 1 항에 있어서,
상기 특성 정보 생성부는 상기 음성 정보로부터 포만트(formant) 값, 및 주파수 값 중 적어도 하나의 값을 더 추출하며, 상기 적어도 하나의 값을 기초로 상기 특성 정보를 실시간으로 생성하는 것을 특징으로 하는 사용자 맞춤형 서비스를 위한 차량 기기 제어 장치.
제 1 항에 있어서,
상기 특성 정보 생성부는 상기 특성 정보로 상기 사용자의 성별 정보, 상기 사용자의 연령 정보, 및 상기 사용자의 감정 정보 중 적어도 하나의 정보를 실시간으로 생성하는 것을 특징으로 하는 사용자 맞춤형 서비스를 위한 차량 기기 제어 장치.
제 1 항에 있어서,
적어도 두개의 음성 정보들이 입력되면 상기 음성 정보들 중에서 하나의 음성 정보를 선택하는 음성 정보 선택부
를 더 포함하는 것을 특징으로 하는 사용자 맞춤형 서비스를 위한 차량 기기 제어 장치.
제 4 항에 있어서,
상기 음성 정보 선택부는 음성 정보의 크기, 입력된 음성 정보와 미리 저장된 음성 정보 간 비교 결과, 상기 사용자의 위치, 및 다층 퍼셉트론(multilayer perceptron) 중 적어도 하나를 기초로 상기 하나의 음성 정보를 선택하는 것을 특징으로 하는 사용자 맞춤형 서비스를 위한 차량 기기 제어 장치.
제 1 항에 있어서,
차량의 각 좌석에서 상기 음성 정보를 입력받는 음성 정보 입력부
를 더 포함하며,
상기 차량 기기 제어부는 상기 각 좌석마다 상기 맞춤형 서비스가 실행되도록 차량 기기를 제어하는 것을 특징으로 하는 사용자 맞춤형 서비스를 위한 차량 기기 제어 장치.
제 6 항에 있어서,
상기 음성 정보 입력부는 상기 각 좌석에 지향성 마이크 형태로 형성되는 것을 특징으로 하는 사용자 맞춤형 서비스를 위한 차량 기기 제어 장치.
삭제
제 1 항에 있어서,
상기 차량 기기 제어부는 상기 차량 기기로 AVN(Audio Video Navigation) 시스템을 제어하는 것을 특징으로 하는 사용자 맞춤형 서비스를 위한 차량 기기 제어 장치.
특성 정보 생성부가 사용자의 음성 정보를 기초로 상기 사용자의 특성 정보를 생성하는 단계;
음성 정보 해석부가 상기 음성 정보를 해석하여 의미 정보를 획득하는 단계;
맞춤형 서비스 결정부가 상기 특성 정보와 상기 의미 정보를 기초로 상기 사용자에 대한 맞춤형 서비스를 결정하는 단계; 및
차량 기기 제어부가 상기 맞춤형 서비스가 실행되도록 차량 기기를 포함한 제어 대상 기기를 제어하는 단계를 포함하고,
맞춤형 서비스 실행 판단부가 상기 사용자에 의해 입력된 정보를 기초로 상기 맞춤형 서비스를 실행할 것인지 여부를 판단하는 단계; 및
대체 서비스 결정부가 상기 맞춤형 서비스를 실행하지 않는 것으로 판단되면 상기 사용자에 의해 입력된 정보를 기초로 상기 맞춤형 서비스를 대신할 대체 서비스를 결정하는 단계를 더 포함하며,
상기 특성 정보를 생성하는 단계에서,
상기 특성 정보 생성부는 상기 음성 정보로부터 음성 에너지 값 및 LPC 값을 추출하고, 상기 음성 에너지 값 및 LPC 값을 기초로 상기 특성 정보를 실시간으로 생성하는 것을 특징으로 하는 사용자 맞춤형 서비스를 위한 차량 기기 제어 방법.
제 10 항에 있어서,
상기 생성하는 단계는 상기 특성 정보로 상기 사용자의 성별 정보, 상기 사용자의 연령 정보, 및 상기 사용자의 감정 정보 중 적어도 하나의 정보를 실시간으로 생성하는 것을 특징으로 하는 사용자 맞춤형 서비스를 위한 차량 기기 제어 방법.
제 10 항에 있어서,
차량의 각 좌석에서 상기 음성 정보를 입력받는 단계
를 더 포함하며,
상기 제어하는 단계는 상기 각 좌석마다 상기 맞춤형 서비스가 실행되도록 차량 기기를 제어하는 것을 특징으로 하는 사용자 맞춤형 서비스를 위한 차량 기기 제어 방법.
삭제