KR20200041642A - 차량용 음성인식 시스템 및 그 제어 방법 - Google Patents

차량용 음성인식 시스템 및 그 제어 방법 Download PDF

Info

Publication number
KR20200041642A
KR20200041642A KR1020180121990A KR20180121990A KR20200041642A KR 20200041642 A KR20200041642 A KR 20200041642A KR 1020180121990 A KR1020180121990 A KR 1020180121990A KR 20180121990 A KR20180121990 A KR 20180121990A KR 20200041642 A KR20200041642 A KR 20200041642A
Authority
KR
South Korea
Prior art keywords
speech recognition
voice recognition
voice
service providing
vehicle
Prior art date
Application number
KR1020180121990A
Other languages
English (en)
Inventor
유혜원
박영우
이상석
안대봉
김세원
이현우
Original Assignee
현대자동차주식회사
기아자동차주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 현대자동차주식회사, 기아자동차주식회사 filed Critical 현대자동차주식회사
Priority to KR1020180121990A priority Critical patent/KR20200041642A/ko
Publication of KR20200041642A publication Critical patent/KR20200041642A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Mechanical Engineering (AREA)
  • Navigation (AREA)

Abstract

본 발명은 복수의 음성 인식 서비스 제공자를 선택적으로 이용할 수 있는 차량용 음성인식 시스템 및 그 제어 방법에 관한 것이다. 본 발명의 일 실시예에 따른 음성 인식 방법은, 발화자의 음성 데이터를 획득하는 단계; 복수의 음성 인식 서비스 제공 서버 중 현재 음성 인식 학습도 및 우선 순위에 대응되는 N 개의 음성 인식 서비스 제공 서버에 전송하는 단계; 및 상기 N 개의 음성 인식 서비스 제공 서버 각각으로부터 수신된 음성 인식 결과 각각을 소정 형태로 출력하는 단계를 포함할 수 있다.

Description

차량용 음성인식 시스템 및 그 제어 방법{VOICE RECOGNITION SYSTEM FOR VEHICLE AND METHOD OF CONTROLLING THE SAME}
본 발명은 복수의 음성 인식 서비스 제공자를 선택적으로 이용할 수 있는 차량용 음성인식 시스템 및 그 제어 방법에 관한 것이다.
최근 음성 인식 기술의 발달로 인해 인식률이 높아짐에 따라, 음성 인식 기술의 적용 대상이 확대되고 있다. 이러한 적용 대상의 대표적인 예로 차량을 들 수 있다. 특히, 차량은 보다 다양한 편의 기능이 제공됨에 따라 운전자가 조작계를 통한 기능 제어에 익숙하지 않은 상황이라도 편리하게 희망하는 기능을 음성 인식을 통해 선택할 수 있으며, 손을 사용할 필요가 없어 보다 운전에 집중할 수 있도록 한다.
한편, 최근에는 음성 데이터를 지정된 서버에 전송하면, 서버에서 음성 인식 결과를 리턴하는 방식의 서버 기반 음성 인식 서비스가 대중화됨에 따라, 서버 기반 음성 인식 서비스 제공자(SP: Service Provider)도 증가하고 있다.
그런데, 차량 환경에서는 발화자에 따라 서비스 제공자별 음성 인식성공률에 차이가 있다. 따라서, 복수의 서버 기반 음성 인식 서비스 제공자 중 발화자에 가장 적합한 서비스 제공자를 선택하여 음성 인식률을 높일 방안이 요구되고 있다.
본 발명은 차량 환경에서 발화자를 고려하여 음성 인식 서비스 제공자를 선택할 수 있는 차량용 음성 인식 시스템 및 그 제어 방법을 제공하기 위한 것이다.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기와 같은 기술적 과제를 해결하기 위하여, 본 발명의 일 실시예에 따른 음성 인식 방법은, 발화자의 음성 데이터를 획득하는 단계; 복수의 음성 인식 서비스 제공 서버 중 현재 음성 인식 학습도 및 우선 순위에 대응되는 N 개의 음성 인식 서비스 제공 서버에 전송하는 단계; 및 상기 N 개의 음성 인식 서비스 제공 서버 각각으로부터 수신된 음성 인식 결과 각각을 소정 형태로 출력하는 단계를 포함할 수 있다.
또한, 본 발명의 일 실시예에 따른 차량용 음성 인식 시스템은, 발화자의 음성을 입력받는 마이크; 상기 입력된 음성에 대응되는 음성 데이터를 획득하고, 복수의 음성 인식 서비스 제공 서버 중 현재 음성 인식 학습도 및 우선 순위에 대응되는 N 개의 음성 인식 서비스 제공 서버를 판단하는 AVN(Audio/Video/Navigation) 시스템; 및 상기 N 개의 음성 인식 서비스 제공 서버 각각에 상기 음성 데이터를 전송하고, 상기 N 개의 음성 인식 서비스 제공 서버로부터 수신된 음성 인식 결과를 상기 AVN 시스템에 전달하는 음성 인식 에이전트를 포함하되, 상기 AVN 시스템은, 상기 음성 인식 결과 각각을 소정 형태로 출력할 수 있다.
상기와 같이 구성되는 본 발명의 적어도 하나의 실시예에 의하면, 차량 환경에서 보다 인식률이 높은 음성 인식 서비스가 제공될 수 있다.
특히, 본 발명은 복수의 음성 인식 서비스 제공자를 이용 가능할 경우, 적어도 발화자의 성별 정보가 함께 서비스 제공자에 전달되며, 인식 성공률을 누적 집계하여 발화자별 최적의 음성 인식 서비스 제공자를 선정할 수 있다.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 차량용 음성 인식 시스템 구조의 일례를 나타내는 블럭도이다.
도 2는 본 발명의 일 실시예에 따른 음성 인식 시스템을 통한 음성 인식 결과를 출력하는 과정의 일례를 나타낸다.
도 3은 본 발명의 일 실시예에 따른 초기 테스트시 AVN 시스템의 디스플레이 상태도의 일례를 나타낸다.
도 4는 본 발명의 일 실시예에 따른 음성 인식 결과 출력시 AVN 시스템의 디스플레이 상태도의 일례를 나타낸다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서 전체에 걸쳐서 동일한 참조번호로 표시된 부분들은 동일한 구성요소들을 의미한다.
본 발명의 일 실시예에 의하면, 복수의 음성 인식 서비스 제공자를 이용 가능할 경우, 적어도 발화자의 성별 정보가 음성 데이터와 함께 서비스 제공자에 전달되며, 인식 성공률을 누적 집계하여 발화자별 최적의 음성 인식 서비스 제공자를 선정하여 음성 인식 기능이 수행되도록 할 것을 제안한다. 여기서, 음성 인식 서비스 제공자는 서버 기반 음성 인식 서비스 제공자일 수 있다.
도 1은 본 발명의 일 실시예에 따른 차량용 음성 인식 시스템 구조의 일례를 나타내는 블럭도이다.
도 1을 참조하면, 실시예에 따른 차량용 음성 인식 시스템은 카메라(110), 마이크(120), AVN(Audio/Video/Navigation) 시스템(130), 음성 인식 에이전트(140) 및 서버 기반 음성 인식 서비스 제공자(VRSP: Voice Recognition Service Provider) 서버(150)를 포함할 수 있다. 도 1에 도시된 구성 요소 중 서버 기반 음성 인식 서비스 제공자(VRSP: Voice Recognition Service Provider) 서버(150)는 항상 차량의 외부에 존재할 수 있다. 또한, 카메라(110), 마이크(120) 및 AVN 시스템(130)은 항상 차량 내부에 존재할 수 있다. 이와 달리, 음성 인식 에이전트(140)는 차량 내부, 예컨대, AVN 시스템(130) 내에서 구현되는 일 기능일 수도 있고, 별도의 제어기로 구성될 수도 있으며, 차량 내에서 AVN 시스템(130)과 데이터 통신이 가능하도록 유/무선으로 연결된 단말기(예컨대, 스마트폰)에서 실행되는 어플리케이션으로 구성될 수도 있고, 차량 외부의 텔레매틱스 서버에서 구현되는 기능일 수도 있다. 이하, 각 구성 요소를 상세히 설명한다.
카메라(110)는 적어도 운전자의 안면을 촬영할 수 있는 인 캐빈(In-Cabin) 카메라인 것이 바람직하다. 물론, 운전자 외에 동승자의 안면까지 촬영할 수 있어도 무방하다.
마이크(120)는 차량 내부의 음향, 예컨대, 차량 내 탑승자 중 발화자의 음성을 입력받아 전기 신호로 전환할 수 있다.
AVN 시스템(130)은 일반적인 인포테인먼트 시스템의 기능은 물론, 특히 본 발명의 실시예에서는 카메라(110)로부터 입력받은 영상 데이터를 이용하여 발화자를 특정하고, 특정된 발화자의 성별을 판단할 수 있다. 실시예에 따라, AVN 시스템(130)은 성별 구별에 더 나아가 안면 인식을 통해 발화자를 서로 구분할 수도 있다. 또한, AVN 시스템(130)은 마이크(120)로부터 입력된 전기 신호를 음성 데이터로 변환할 수 있다. 아울러, AVN 시스템(130)은 발화자의 성별 판단 결과(이하, "성별 정보"라 칭함)와 변환된 음성 데이터를 음성 인식 에이전트(140)로 전달할 수 있으며, 음성 인식 에이전트(140)로부터 전달된 적어도 하나의 음성 인식 결과를 소정의 기준에 따라 정렬하고, 소정 형태로 출력할 수 있다. 정렬의 기준 관리 및 출력 형태는 보다 상세히 후술하기로 한다.
음성 인식 에이전트(140)는 하나 이상의 서버 기반 음성 인식 서비스 제공자 서버(150)와 AVN 시스템(130) 사이의 음성 인식 문의 및 결과 교환을 위한 중개 기능을 수행할 수 있다.
서버 기반 음성 인식 서비스 제공자 서버(150, 이하, 편의상 "VRSP"라 칭함)는 성별 정보와 음성 데이터를 음성 인식 에이전트(140)로부터 전달받아 음성 데이터의 음성 인식 결과를 음성 인식 에이전트(140)에 소정 포맷(예컨대, JSON: JavaScript Object Notation)으로 리턴할 수 있다. 여기서, 음성 인식 결과는 음성 데이터를 텍스트 형태로 변환한 것일 수도 있고, 그에 추가로 발화자의 의도에 대한 응답을 포함할 수도 있다. 예컨대, 음성 데이터가 주변의 관심지점(POI) 검색 결과를 의도한 것이라면, POI 검색 결과가 음성 인식 결과에 포함될 수도 있다.
상술한 구성에 따른 음성 인식 시스템의 동작을 도 2를 참조하여 설명한다.
도 2는 본 발명의 일 실시예에 따른 음성 인식 시스템을 통한 음성 인식 결과를 출력하는 과정의 일례를 나타낸다.
도 2를 참조하면, 먼저 차량 내 탑승자가 발화하는 경우, AVN 시스템(130)은 카메라(110)를 통해 입력된 영상에서 입의 움직임을 검출하여 화자(또는 화자의 성별) 인식을 수행하고(210A), 마이크(120)를 통해 입력된 신호를 음성 데이터로 변환할 수 있다(S210B).
AVN 시스템(130)은 후술할 학습 과정을 통해 복수의 VRSP 중 최우선 순위를 갖는 VRSP가 확정되었는지 여부를 판단할 수 있다(S220). 이때, 확정 여부는 성별별로 판단될 수도 있고, 안면 인식이 수행되는 경우 탑승자별로 판단될 수도 있다.
이미 최우선 순위를 갖는 VRSP가 확정된 경우, AVN 시스템(130)은 확정된 VRSP에만 화자의 성별 정보 및 음성 데이터를 전달할 것을 음성 인식 에이전트(140)에 요청할 수 있다(S230A).
확정된 VRSP가 음성 인식 결과를 음성 인식 에이전트(140)에 전달하면, AVN 시스템(130)은 음성 인식 결과를 소정 형태로 출력할 수 있다(S240A). 예컨대, AVN 시스템(130)은 디스플레이를 통해 음성 인식 결과를 적어도 텍스트 등 시각정보 형태로 출력할 수도 있고, TTS(Text To Speach) 처리를 통해 음성으로 음성 인식 결과를 출력할 수도 있으나, 이는 예시적인 것으로 반드시 이에 한정되는 것은 아니다.
한편, 최우선 순위를 갖는 VRSP가 확정되지 않은 경우, AVN 시스템(130)은 학습도와 우선 순위에 대응되는 N(여기서, N은 1보다 큰 자연수) 개의 VRSP를 결정할 수 있다(S230B). 예컨대, 최우선 순위를 결정하기 위한 음성 인식 수행 횟수가 100회라 가정하면, 현재 음성 인식 수행이 100회를 초과한 경우에는 음성 인식 기능을 100회 수행할 때까지의 사용자 반응에 따라 가장 높은 우선 순위를 갖는 VRSP가 최우선 순위를 갖는 VRSP가 된다. 또한, 음성 인식 수행 횟수가 100이하 50 초과인 경우에는, 최초 50회의 음성 인식 수행에 대한 사용자 반응에 따라 2개(즉, N=2)의 VRSP가 우선 순위가 높은 순서대로 선택될 수 있다. 이와 달리, 음성 인식 수행 횟수가 50회 이하인 경우에는 초기 테스트 결과에 따른 우선 순위가 높은 순서대로 4개(즉, N=4)의 VRSP가 선택될 수 있다.
물론, 상술한 N값 및 N 값을 결정하기 위한 음성 인식 수행 횟수(즉, 학습 횟수)는 예시적인 것으로, 이와 달리 설정될 수도 있음은 당업자에 자명하다.
AVN 시스템(130)은 학습도 및 우선 순위에 따라 선택된 N개의 VRSP에 화자의 성별 정보 및 음성 데이터를 전달할 것을 음성 인식 에이전트(140)에 요청할 수 있다(S240B).
N개의 VRSP가 음성 인식 결과를 음성 인식 에이전트(140)에 전달하면, AVN 시스템(130)은 N개의 음성 인식 결과를 우선 순위에 따라 정렬하여 출력할 수 있다(S250B). 예를 들어, 현재 가장 우선 순위가 높은 VRSP의 음성 인식 결과를 1번결과로 출력할 수 있다.
여기서, 사용자가 N개의 음성 인식 결과 중 어느 하나를 소정의 명령 입력(예컨대, AVN 시스템의 터치 스크린 상으로 터치 입력 또는 임의의 조작계 이용)을 통해 선택한 경우(S260B의 Yes), AVN 시스템(130)은 선택된 음성 인식 결과에 대응되는 VRSP의 우선 순위 점수를 상승(즉, 가중치를 부여)시킬 수 있다(S270B).
만일, 운전자가 N개의 음성 인식 결과가 출력된 후 소정 시간 동안 어떠한 결과도 선택하지 않는 경우(S260B의 No), AVN 시스템(130)은 현재 우선 순위가 가장 높은(즉, 1번) 음성 인식 결과에 대응하는 VRSP의 우선 순위 점수를 상승시킬 수 있다(S270C). 본 단계에서는 카메라(110)를 통해 입력된 영상에서 검출된 운전자의 표정이 추가로 고려될 수 있다. 예컨대, 운전자가 결과 선택을 하지 않되, 밝은 표정을 짓는 경우 1번 인식 결과에 대응되는 우선 순위가 상승할 수 있으며, 밝지 못한 표정을 짓는 경우나 동일한 음성 인식을 다시 시도할 경우 우선 순위는 변동되지 않을 수 있다.
아울러, 상술한 실시예에서 S220 단계는 S230B 단계로 통합될 수도 있다. 예컨대, VRSP가 확정됨은 학습도 및 우선 순위에 대응되는 N 개의 VRSP를 선정함에 있어서 학습도는 학습 완료 단계에 해당하고, N=1 이므로 최우선 순위의 VRSP가 확정된 것과 실질적으로 동일한 것으로 볼 수도 있다.
이하에서는 도 3을 참조하여 초기 우선 순위 데이터 생성을 위한 초기 테스트 과정을 설명한다. 도 3은 본 발명의 일 실시예에 따른 초기 테스트시 AVN 시스템의 디스플레이 상태도의 일례를 나타낸다.
도 2의 S230B 단계에서 전술한 바와 같이, 일정 횟수의 학습 데이터 누적이 이루어지지 않은 경우 최초로 N개의 VRSP를 선택하기 위해 초기 테스트가 수행될 수 있다. 이를 위해, AVN 시스템(130)은 디스플레이(131) 상의 일 영역(310)에 발화 대상 텍스트를 출력할 수 있다. 발화 대상 텍스트는 숫자, 단어 또는 이들의 조합을 포함할 수 있으나, 반드시 이에 한정되지 않고 하나 이상의 문장을 포함할 수도 있다. AVN 시스템(130)은 음성 데이터와 성별 정보를 현재 이용 가능한 모든 VRSP에 전달할 것을 음성 에이전트(140)에 요청할 수 있다. 이때, AVN 시스템(130)은 정확한 음성 인식 결과가 무엇인지 이미 알고 있으므로, 음성 에이전트(140)로부터 각 VRSP로부터의 음성 인식 결과를 획득하면, 이를 발화 대상 텍스트와 비교하는 방법으로 VRSP의 인식 정확도를 판단하고 우선 순위를 설정할 수 있다. 이러한 과정은 숫자별, 단어별, 문장 별로 수행될 수도 있고, 동일한 발화 대상 텍스트에 대하여 기 설정된 횟수(예컨대, 30회)만큼 수행될 수도 있다.
다음으로, 도 4를 참조하여 음성 인식 결과의 표시 형태를 설명한다. 도 4는 본 발명의 일 실시예에 따른 음성 인식 결과 출력시 AVN 시스템의 디스플레이 상태도의 일례를 나타낸다. 도 4에서는 발화자의 음성이 "곰돌"이며, 학습 횟수 및 N 값은 도 2를 설명할 때 예시한 값으로 가정한다.
먼저, 제1 범위의 학습만이 이루어진 경우, 예컨대, 음성 인식 기능의 실행 횟수가 50회 미만인 경우에는 N=4가 되므로, 도 4의 (a)와 같이 초기 테스트에 따른 상위 4개의 VRSP로부터 수신된 음성 인식 결과(410)가 표시될 수 있다.
이후, 제2 범위의 학습이 진행된 경우, 예컨대, 음성 인식 기능의 실행 횟수가 51회 내지 100회 사이인 경우에는 N=2가 되므로, 도 4의 (b)와 같이 학습에 따른 누적 우선 순위에 따른 상위 2개의 VRSP로부터 수신된 음성인식 결과(420)가 표시될 수 있다.
만일, 학습이 완료된 경우, 예컨대, 음성 인식 기능의 실행 횟수가 100회를 초과한 경우에는 도 4의 (c)와 같이 최우선 순위를 갖는 VRSP로부터 수신된 음성인식 결과(430)만이 출력될 수 있다.
전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다.
따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

Claims (19)

  1. 발화자의 음성 데이터를 획득하는 단계;
    복수의 음성 인식 서비스 제공 서버 중 현재 음성 인식 학습도 및 우선 순위에 대응되는 N 개의 음성 인식 서비스 제공 서버에 전송하는 단계; 및
    상기 N 개의 음성 인식 서비스 제공 서버 각각으로부터 수신된 음성 인식 결과 각각을 소정 형태로 출력하는 단계를 포함하는, 음성 인식 방법.
  2. 제1 항에 있어서,
    카메라를 통해 촬영된 영상을 통해 적어도 상기 발화자 및 상기 발화자의 성별을 식별하는 단계를 더 포함하되,
    상기 전송하는 단계는,
    상기 식별된 성별에 대한 정보를 상기 N 개의 음성 인식 서비스 제공 서버로 전송하는 단계를 포함하는, 음성 인식 방법.
  3. 제1 항에 있어서,
    상기 현재 음성 인식 학습도가 제1 범위의 음성 인식 수행 횟수를 초과할 경우, 상기 N은 1인, 음성 인식 방법.
  4. 제3 항에 있어서,
    상기 현재 음성 인식 학습도가 상기 제1 범위의 음성 인식 수행 횟수에 해당하는 경우, 상기 N은 1보다 큰 자연수인, 음성 인식 방법.
  5. 제4 항에 있어서,
    상기 N이 1보다 큰 경우,
    상기 출력하는 단계 이후 상기 N 개의 음성 인식 결과 중 어느 하나가 선택되는 경우, 상기 선택된 음성 인식 결과에 대응되는 음성 인식 서비스 제공 서버에 우선 순위 가중치를 부여하는 단계를 더 포함하는, 음성 인식 방법.
  6. 제4 항에 있어서,
    상기 N이 1보다 큰 경우,
    상기 출력하는 단계 이후 상기 N 개의 음성 인식 결과 중 어느 하나가 일정 시간동안 선택되지 않는 경우, 상기 N 개의 음성 인식 결과 중 1순위에 해당하는 음성 인식 서비스 제공 서버에 우선 순위 가중치를 부여하는 단계를 더 포함하는, 음성 인식 방법.
  7. 제6 항에 있어서,
    상기 가중치를 부여하는 단계는,
    카메라를 통해 촬영된 영상에서 상기 발화자의 표정이 소정 조건을 충족할 경우 수행되는, 음성 인식 방법.
  8. 제6 항에 있어서,
    상기 가중치를 부여하는 단계는,
    상기 발화자가 동일한 음성 인식을 수행하지 않는 경우 수행되는, 음성 인식 방법.
  9. 제3 항에 있어서,
    상기 현재 음성 인식 학습도가 상기 제1 범위의 음성 인식 수행 횟수 미만인 경우, 상기 우선 순위는 소정의 초기 테스트에 따른 우선 순위가 적용되는, 음성 인식 방법.
  10. 제1 항 내지 제9 항 중 어느 한 항에 따른 음성 인식 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 해독 가능 기록 매체.
  11. 발화자의 음성을 입력받는 마이크;
    상기 입력된 음성에 대응되는 음성 데이터를 획득하고, 복수의 음성 인식 서비스 제공 서버 중 현재 음성 인식 학습도 및 우선 순위에 대응되는 N 개의 음성 인식 서비스 제공 서버를 판단하는 AVN(Audio/Video/Navigation) 시스템; 및
    상기 N 개의 음성 인식 서비스 제공 서버 각각에 상기 음성 데이터를 전송하고, 상기 N 개의 음성 인식 서비스 제공 서버로부터 수신된 음성 인식 결과를 상기 AVN 시스템에 전달하는 음성 인식 에이전트를 포함하되,
    상기 AVN 시스템은, 상기 음성 인식 결과 각각을 소정 형태로 출력하는, 차량용 음성 인식 시스템.
  12. 제11 항에 있어서,
    적어도 상기 발화자를 포함하는 영상을 촬영하는 카메라를 더 포함하되,
    상기 AVN 시스템은,
    상기 카메라를 통해 촬영된 영상을 통해 적어도 상기 발화자 및 상기 발화자의 성별을 식별하고,
    상기 음성 인식 에이전트는,
    상기 식별된 성별에 대한 정보를 상기 N 개의 음성 인식 서비스 제공 서버로 전송하는, 차량용 음성 인식 시스템.
  13. 제11 항에 있어서,
    상기 현재 음성 인식 학습도가 제1 범위의 음성 인식 수행 횟수를 초과할 경우, 상기 N은 1인, 차량용 음성 인식 시스템.
  14. 제13 항에 있어서,
    상기 현재 음성 인식 학습도가 상기 제1 범위의 음성 인식 수행 횟수에 해당하는 경우, 상기 N은 1보다 큰 자연수인, 차량용 음성 인식 시스템.
  15. 제14 항에 있어서,
    상기 N이 1보다 큰 경우 상기 음성 인식 결과가 각각 출력된 이후 상기 N 개의 음성 인식 결과 중 어느 하나가 선택되면,
    상기 AVN 시스템은,
    상기 선택된 음성 인식 결과에 대응되는 음성 인식 서비스 제공 서버에 우선 순위 가중치를 부여하는, 차량용 음성 인식 시스템.
  16. 제14 항에 있어서,
    상기 N이 1보다 큰 경우 상기 출력하는 단계 이후 상기 N 개의 음성 인식 결과 중 어느 하나가 일정 시간동안 선택되지 않으면,
    상기 AVN 시스템은,
    상기 N 개의 음성 인식 결과 중 1순위에 해당하는 음성 인식 서비스 제공 서버에 우선 순위 가중치를 부여하는, 차량용 음성 인식 시스템.
  17. 제16 항에 있어서,
    상기 AVN 시스템은,
    상기 카메라를 통해 촬영된 영상에서 상기 발화자의 표정이 소정 조건을 충족할 경우 상기 가중치를 부여하는, 차량용 음성 인식 시스템.
  18. 제16 항에 있어서,
    상기 AVN 시스템은,
    상기 발화자가 동일한 음성 인식을 수행하지 않는 경우 상기 가중치를 부여하는, 차량용 음성 인식 시스템.
  19. 제13 항에 있어서,
    상기 현재 음성 인식 학습도가 상기 제1 범위의 음성 인식 수행 횟수 미만인 경우, 상기 우선 순위는 소정의 초기 테스트에 따른 우선 순위가 적용되는, 차량용 음성 인식 시스템.
KR1020180121990A 2018-10-12 2018-10-12 차량용 음성인식 시스템 및 그 제어 방법 KR20200041642A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180121990A KR20200041642A (ko) 2018-10-12 2018-10-12 차량용 음성인식 시스템 및 그 제어 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180121990A KR20200041642A (ko) 2018-10-12 2018-10-12 차량용 음성인식 시스템 및 그 제어 방법

Publications (1)

Publication Number Publication Date
KR20200041642A true KR20200041642A (ko) 2020-04-22

Family

ID=70472834

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180121990A KR20200041642A (ko) 2018-10-12 2018-10-12 차량용 음성인식 시스템 및 그 제어 방법

Country Status (1)

Country Link
KR (1) KR20200041642A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220343014A1 (en) * 2021-04-22 2022-10-27 Soundhound, Inc. Api for service provider fulfillment of data privacy requests
KR20230171728A (ko) 2022-06-14 2023-12-21 이코아코리아일렉트로닉스 유한회사 클라우드 플랫폼 연동 음성 인식 기술 기반 차량 제어 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220343014A1 (en) * 2021-04-22 2022-10-27 Soundhound, Inc. Api for service provider fulfillment of data privacy requests
KR20230171728A (ko) 2022-06-14 2023-12-21 이코아코리아일렉트로닉스 유한회사 클라우드 플랫폼 연동 음성 인식 기술 기반 차량 제어 방법

Similar Documents

Publication Publication Date Title
US11462213B2 (en) Information processing apparatus, information processing method, and program
JP6113008B2 (ja) ハイブリッド型音声認識
EP2538404B1 (en) Voice data transferring device, terminal device, voice data transferring method, and voice recognition system
JP5706384B2 (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
US10176806B2 (en) Motor vehicle operating device with a correction strategy for voice recognition
JP7347217B2 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP6675078B2 (ja) 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム
US20210183362A1 (en) Information processing device, information processing method, and computer-readable storage medium
WO2021085242A1 (ja) 情報処理装置、及びコマンド処理方法
KR20220130739A (ko) 스피치 인식
KR20200041642A (ko) 차량용 음성인식 시스템 및 그 제어 방법
JP7117972B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
WO2019239659A1 (ja) 情報処理装置および情報処理方法
CN110996163A (zh) 用于自动字幕显示的系统和方法
US10504523B2 (en) Voice processing device, voice processing method, and computer program product
US20210065708A1 (en) Information processing apparatus, information processing system, information processing method, and program
JP2016061888A (ja) 音声認識装置、音声認識対象区間設定方法、及び音声認識区間設定プログラム
WO2019181218A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US20200388268A1 (en) Information processing apparatus, information processing system, and information processing method, and program
KR20190074344A (ko) 대화 시스템 및 대화 처리 방법
US11641592B1 (en) Device management using stored network metrics
WO2020003820A1 (ja) 複数の処理を並列実行する情報処理装置
JPWO2011121978A1 (ja) 音声認識システム、装置、方法、およびプログラム
US20210134272A1 (en) Information processing device, information processing system, information processing method, and program
US10607596B2 (en) Class based learning for transcription errors in speech recognition tasks