KR20100030265A - 네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 장치 및 그 방법 - Google Patents

네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 장치 및 그 방법 Download PDF

Info

Publication number
KR20100030265A
KR20100030265A KR1020080089140A KR20080089140A KR20100030265A KR 20100030265 A KR20100030265 A KR 20100030265A KR 1020080089140 A KR1020080089140 A KR 1020080089140A KR 20080089140 A KR20080089140 A KR 20080089140A KR 20100030265 A KR20100030265 A KR 20100030265A
Authority
KR
South Korea
Prior art keywords
similarity
recognition
response
voice
unit
Prior art date
Application number
KR1020080089140A
Other languages
English (en)
Inventor
최인정
권철중
Original Assignee
(주)에이치씨아이랩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)에이치씨아이랩 filed Critical (주)에이치씨아이랩
Priority to KR1020080089140A priority Critical patent/KR20100030265A/ko
Publication of KR20100030265A publication Critical patent/KR20100030265A/ko

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • G08G1/0968Systems involving transmission of navigation instructions to the vehicle
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Automation & Control Theory (AREA)
  • Navigation (AREA)

Abstract

본 발명은 네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 장치 및 그 방법을 제공하기 위한 것으로, 네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 동작을 제어하는 제어부와; 상기 제어부의 제어를 받고, 지도 DB를 읽거나 저장하는 지도 DB 저장부와; 상기 제어부의 제어를 받아 데이터를 저장하는 저장부와; 음성을 인식하여 상기 제어부로 전달하는 음성인식부와; 음성인식 후보들 사이의 유사도를 계산하여 그 결과를 상기 제어부로 전달하는 인식후보간 유사도 측정부와; 상기 인식후보간 유사도 측정부의 결과를 전달받고, 음성출력 내용 및 응답 방식을 결정하는 응답방식 결정부와; 상기 제어부의 제어에 따라 음성인식에 대한 응답을 발생시키는 응답발생부와; 상기 제어부의 제어를 받고, 음성인식 결과를 디스플레이하는 디스플레이부;를 포함하여 구성함으로서, 인식된 후보들의 유사 정도에 따라 사용자에게 피드백되는 음성 합성을 차별화하여 사용자가 후보 결과들을 더욱 정확하게 인지하여 음성 인식 결과를 선택하도록 할 수 있게 되는 것이다.
네비게이션, 목적지 검색, 대화형 인터페이스, 음성 인식, 인식 후보

Description

네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 장치 및 그 방법{Apparatus and method for interactive voice interface of destination search in navigation terminal}
본 발명은 네비게이션 단말에 관한 것으로, 특히 인식된 후보들의 유사 정도에 따라 사용자에게 피드백되는 음성 합성을 차별화하여 사용자가 후보 결과들을 더욱 정확하게 인지하여 음성 인식 결과를 선택하도록 하기에 적당하도록 한 네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 장치 및 그 방법에 관한 것이다.
일반적으로 네비게이션은 자동차에 사용하도록 고안된 범지구위성항법시스템을 말한다.
종래에는 차량 주행 중 네비게이션 단말에 목적지를 설정할 경우, 음성 인터페이스에 의해 입력하는 것이 가능했다.
그래서 음성 입력에 의한 목적지 설정 과정에서 N개의 음성인식 후보를 음성 합성을 통해 사용자에게 알려줄 경우, 인식 후보들 사이의 발음 유사도 여부와 주행 중 주변 잡음에 의한 합성음의 명료도 부족으로 사용자가 후보 결과들을 구분하기 어려운 상황이 발생했다.
또한 종래 기술의 경우 N개의 음성인식 후보들 중에서 최종 선택하는 검색 시나리오에서 발음상 구별하기 어려운 지명이 존재할 경우 음성인식 및 음성합성 엔진의 제한된 성능으로 인해 검색이 불가능한 무한 루프에 빠질 위험이 존재하였다.
이에 본 발명은 상기와 같은 종래의 제반 문제점을 해결하기 위해 제안된 것으로, 본 발명의 목적은 인식된 후보들의 유사 정도에 따라 사용자에게 피드백되는 음성 합성을 차별화하여 사용자가 후보 결과들을 더욱 정확하게 인지하여 음성 인식 결과를 선택하도록 할 수 있는 네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 장치 및 그 방법을 제공하는데 있다.
도 1은 본 발명의 일 실시예에 의한 네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 장치의 블록구성도이다.
이에 도시된 바와 같이, 네비게이션 단말에서 목적지 검색을 위한 대화형 음 성 인터페이스 동작을 제어하는 제어부(10)와; 상기 제어부(10)의 제어를 받고, 지도 DB를 읽거나 저장하는 지도 DB 저장부(20)와; 상기 제어부(10)의 제어를 받아 데이터를 저장하는 저장부(30)와; 음성을 인식하여 상기 제어부(10)로 전달하는 음성인식부(40)와; 음성인식 후보들 사이의 유사도를 계산하여 그 결과를 상기 제어부(10)로 전달하는 인식후보간 유사도 측정부(50)와; 상기 인식후보간 유사도 측정부(50)의 결과를 전달받고, 음성출력 내용 및 응답 방식을 결정하는 응답방식 결정부(60)와; 상기 제어부(10)의 제어에 따라 음성인식에 대한 응답을 발생시키는 응답발생부(70)와; 상기 제어부(10)의 제어를 받고, 음성인식 결과를 디스플레이하는 디스플레이부(80);를 포함하여 구성된 것을 특징으로 한다.
상기 인식후보간 유사도 측정부(50)는, 음성인식 점수, 음성인식 신뢰도, 표제어 철자열의 유사도, 음소혼동행렬에 의한 음소열 사이의 유사도 중에서 하나 이상을 사용하여 유사도를 측정하는 것을 특징으로 한다.
상기 응답방식 결정부(60)는, 합성 텍스트 또는 결과 선정 방식을 포함하여 음성 출력 내용을 결정하고, 끊어읽기 여부 또는 합성 속도 또는 추가정보를 포함한 음성 합성 방식을 결정하는 것을 특징으로 한다.
도 2는 본 발명의 일 실시예에 의한 네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 방법을 보인 흐름도이다.
이에 도시된 바와 같이, 사용자의 발화 음성이 수신되면 음성인식부(40)에서 음성인식하는 제 1 단계(ST1, ST2)와; 상기 제 1 단계 후 인식후보간 유사도 측정부(50)는 음성인식 후보간 유사도를 측정하는 제 2 단계(ST3)와; 상기 제 2 단계 후 응답 방식 결정부(60)는 음성출력 내용 및 응답 방식을 결정하고, 응답이 생성되도록 하여 출력시키는 제 3 단계(ST4 ~ ST11);를 포함하여 수행하는 것을 특징으로 한다.
상기 제 2 단계는, 음성인식 점수, 음성인식 신뢰도, 표제어 철자열의 유사도, 음소혼동행렬에 의한 음소열 사이의 유사도 중에서 하나 이상을 사용하여 유사도를 측정하는 것을 특징으로 한다.
상기 제 3 단계는, 합성 텍스트 또는 결과 선정 방식을 포함하여 음성 출력 내용을 결정하고, 끊어읽기 여부 또는 합성 속도 또는 추가정보를 포함한 음성 합성 방식을 결정하는 것을 특징으로 한다.
상기 제 3 단계는, 상기 제 2 단계 후 같은 문자열의 후보가 있으면 지도 DB 저장부(20)에 저장된 추가 데이터를 이용하여 응답을 생성하는 단계(ST4, ST5)와; 상기 제 2 단계 후 음성인식 후보간 유사도가 높다고 판단되면 응답 생성 및 합성 파라미터를 결정하는 단계(ST6, ST7)와; 상기 제 2 단계 후 음성인식의 첫 번째 후보가 확실한지 여부를 판별하여 응답을 생성하는 단계(ST8, ST9);를 포함하여 수행하는 것을 특징으로 한다.
본 발명에 의한 네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 장치 및 그 방법은 인식된 후보들의 유사 정도에 따라 사용자에게 피드백되는 음성 합성을 차별화하여 사용자가 후보 결과들을 더욱 정확하게 인지하여 음성 인식 결과를 선택하도록 할 수 있는 효과가 있게 된다.
또한 본 발명은 차량 주행 중 음성 입력에 의한 목적지 입력 성능을 향상시킬 수 있게 된다.
더불어 본 발명은 N개의 음성인식 후보들의 특성이나 유사도에 따라 차별화된 음성 출력을 발생시켜 사용자가 음성인식 후보들 사이를 더욱 명확하게 구별하는 것이 가능하게 된다.
나아가 종래 기술의 경우 N개의 음성인식 후보들 중에서 최종 선택하는 검색 시나리오에서 발음상 구별하기 어려운 지명이 존재할 경우 음성인식 및 음성합성 엔진의 제한된 성능으로 인해 검색이 불가능한 무한 루프에 빠질 위험이 존재하는데, 본 발명은 지능적인 음성 인터페이스에 의해 선택가능한 방식을 제공할 수 있게 된다.
이와 같이 구성된 본 발명에 의한 네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 장치 및 그 방법의 바람직한 실시예를 첨부한 도면에 의거하여 상세히 설명하면 다음과 같다. 하기에서 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서, 이는 사용자, 운용자의 의도 또는 판례 등에 따라 달라질 수 있으며, 이에 따라 각 용어의 의미는 본 명세 서 전반에 걸친 내용을 토대로 해석되어야 할 것이다.
먼저 본 발명은 인식된 후보들의 유사 정도에 따라 사용자에게 피드백되는 음성 합성을 차별화하여 사용자가 후보 결과들을 더욱 정확하게 인지하여 음성 인식 결과를 선택하도록 하고자 한 것이다.
그래서 본 발명은 차량 주행 중에 음성 입력으로 목적지를 설정할 경우(디스플레이 정보를 사용할 수 없고, 음성 인터페이스만 사용 가능한 경우), 첫 단계에서 N개(복수개)의 음성인식 후보를 인식하고, N개 후보 리스트를 음성 합성을 통해 사용자에게 들려준 후에 다시 선택하는 시나리오를 갖는다.
이때 해결할 문제로는 지명 또는 POI(Point Of Interest)의 특성상 인식 후보들이 발음상으로 같거나 유사한 상황이 많고, 주행 중의 배경 잡음이나 음성합성기의 품질로 인해 합성음의 명료성이 떨어져 사용자가 음성으로 출력되는 후보들을 구분하기 어려운 상황이 발생하게 된다. 또한 매우 혼동되는 POI들은 사용자가 다시 발성해도 인식 실패할 가능성이 높다.
이를 해결하기 위해 본 발명은 인식 후보들의 발음 유사도를 측정하여 유사도에 따라 음성 합성(출력) 파라미터를 조절하거나 추가적인 정보를 합성 내용에 추가하여 사용자가 합성음을 더욱 잘 인지하도록 한다. 이때 합성 파라미터는 합성 속도, 끊어읽기 여부 등을 말하고, 추가 정보란 목적지의 주소 등과 같은 정보를 말한다.
또한 다음 단계에서 사용자가 후보들이 확실하게 구분될 수 있는 어휘들을 발성하도록 유도할 수 있는 음성 응답 내용을 생성한다. 즉, POI 명 대신에 첫 번 째 음성인식 후보 또는 두 번째 음성인식 후보 등으로 대체한다.
이러한 본 발명의 동작에 대해 첨부한 도면을 참조하여 좀 더 상세히 설명하면 다음과 같다.
도 1은 본 발명의 일 실시예에 의한 네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 장치의 블록구성도이다.
그래서 제어부(10)는 네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 동작을 제어한다. 그래서 지도 DB 저장부(20)와 저장부(30)와 연결되어 지도 정보 및 네비게이션 단말에서의 음성인식에 필요한 정보를 저장하거나 불러온다. 또한 음성인식부(40), 인식후보간 유사도 측정부(50), 응답방식 결정부(60)의 동작하여 인식된 사용자의 발화 음성에 대한 처리를 수행하도록 제어한다. 또한 응답발생부(70)와 디스플레이부(80)를 제어하여 음성의 출력과 디스플레이가 수행되도록 한다.
DB 저장부(20)는 제어부(10)의 제어를 받고, 지도 DB를 읽거나 저장한다. 그래서 응답방식 결정부(60)에서 같은 문자열의 후보가 있는 것으로 판단할 경우, 응답방식 결정부(60)로 추가 데이터를 제공하여 응답을 생성하도록 한다.
저장부(30)는 제어부(10)의 제어를 받아 데이터를 저장한다.
음성인식부(40)는 사용자의 발화 음성을 인식하여 제어부(10)와 인식후보간 유사도 측정부(50)로 전달한다.
인식후보간 유사도 측정부(50)는 음성인식 후보들 사이의 유사도를 계산하여 그 결과를 제어부(10)와 응답방식 결정부(60)로 전달한다. 또한 인식후보간 유사도 측정부(50)는 음성인식 점수, 음성인식 신뢰도, 표제어 철자열의 유사도, 음소혼동행렬에 의한 음소열 사이의 유사도 등을 사용하여 유사도를 측정한다.
응답방식 결정부(60)는 인식후보간 유사도 측정부(50)의 결과를 전달받고, 음성출력 내용 및 응답 방식을 결정하여 제어부(10)로 전달한다. 이때 응답방식 결정부(60)는 합성 텍스트 또는 결과 선정 방식 등을 이용하여 음성 출력 내용을 결정한다. 또한 끊어읽기 여부 또는 합성 속도 또는 추가정보의 포함여부 등의 음성 합성 방식을 결정한다.
응답발생부(70)는 제어부(10)의 제어에 따라 음성인식에 대한 응답을 발생시킨다.
디스플레이부(80)는 제어부(10)의 제어를 받고, 음성인식 결과를 디스플레이한다.
도 2는 본 발명의 일 실시예에 의한 네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 방법을 보인 흐름도이다.
먼저 사용자의 발화 음성이 수신되면(ST1) 음성인식부(40)에서 복수개의 인식후보를 탐색한다(ST2).
그러면 인식후보간 유사도 측정부(50)는 인식 후보들의 음성인식 점수, 음성인식 신뢰도, 표제어 철자열의 유사도, 음소혼동행렬에 의한 음소열 사이의 유사도 등을 이용하여 음성인식 후보간 유사도를 측정한다(ST3).
이에 따라 응답방식 결정부(60)는 음성출력 내용 및 응답 방식을 결정하여 응답을 생성하고 출력하게 된다(ST4 ~ ST11). 이를 위해 먼저 같은 문자열의 후보 가 있는 판별하여(ST4), 같은 문자열의 후보가 있으면 지도 DB 저장부(20)에 저장된 추가 데이터를 이용하여 응답을 생성하고(ST5) 생성된 음성이 출력되도록 한다(ST11). 또한 음성인식 후보간 유사도가 높은지를 판별하여(ST6), 음성인식 후보간 유사도가 높다고 판단되면 응답 생성 및 합성 파라미터를 결정하고(ST7), 음성을 출력시킨다(ST11). 또한 음성인식의 첫 번째 후보가 확실한지 여부를 판별하여(ST8), 그 결과에 따른 응답을 생성하고(ST9, ST10), 생성된 응답을 출력시킨다(ST11).
도 3은 본 발명에서 인식 후보들의 음성 합성 방법의 예를 보인 표이다.
그래서 Case 1.의 경우는 음성인식 후보들 간의 발음 구분이 쉬운 경우이다. 이는 "능동사무소", "임동사무소", "명동사무소" 등과 같은 예이다. 이에 대해 종래기술과 유사하게 "첫 번째 능동사무소, 두 번째 임동사무소, 세 번째 명동사무소입니다" + "후보 중에서 다시 선택하세요"와 같은 음성출력을 수행할 수 있다.
또한 Case 2.의 경우는 후보들간의 발음 구분이 어려운 경우이다. 이는 "복내리", "봉래리", "봉대리"와 같은 예이다. 이에 대해 "첫 번째 복내리, 두 번째 봉래리, 세 번째 봉대리입니다" + "후보 중에서 다시 선택하세요"와 같은 음성출력을 수행할 수 있다. 또한 이 경우 "첫 번째 복/내/리, 두 번째 봉/래/리, 세 번째 복/대/리입니다"(여기서 '/'는 끊어읽기 지시어임) + "후보의 번호나 순서를 말씀하세요"와 같은 음성출력을 수행할 수 있다.
도 4는 본 발명에 의해 음성인식을 수행한 결과의 예제를 보인 표이다.
그래서 음성인식 점수 및/또는 신뢰도를 이용하는 것은 다음과 같이 수행한 다.
즉, 후보들간의 음성인식 점수가 유사하면 후보들이 서로 유사하다는 의미이다. 이는 다음의 수학식 1을 이용할 수 있다.
D = Average(|S1-Sj|)
여기서 S1은 첫 번째 후보의 인식 점수이고, Sj는 j 번째 후보의 인식 점수이며, D는 음성인식 점수 차이의 평균값으로서 신뢰도가 된다.
이러한 신뢰도는 유사도 계산에 적용될 후보들을 선정하는데 이용될 수 있다. 도 4의 예에서는 4번째 후보부터는 제외되도록 하였다.
또한 표제어 철자열의 유사도 측정 방법을 이용할 수 있다. 이는 각 후보를 구성하는 철자열 사이의 유사도를 계산하는 것이다. 그래서 전체 철자(스펠링) 개수에서 몇 개 철자가 일치하는 가에 대한 척도를 이용할 수 있다. 이것의 예는 다음의 수학식 2와 같다.
Dist(top-1, top-2) = 9 / 0.5 * (10 + 11) = 9 / 10.5
여기서 스트링 유사도를 측정하는 알고리즘은 종래 기술을 이용하며, 그러한 스트링 유사도를 측정하는 알고리즘을 이용하여 표제어 철자열의 유사도를 측정한다.
도 5는 본 발명에서 이용하는 음소혼동행렬과 동적 프로그래밍에 의한 유사 도 계산의 예를 보인 그래프이고, 도 6은 본 발명에서 이용하는 음소혼동행렬의 예를 보인 그래프이다.
여기서 음소혼동행렬(Phone Confusion Matrix)은 음소들 사이의 대치, 삽입, 삭제 오류 확률 값으로 구성된다. 그래서 동적 프로그래밍 알고리즘에 의해 후보들의 음소열 사이의 유사도를 계산한다. 음소혼동행렬은 음소인식 실험 데이터나 합성에 의한 음소인지 실험 데이터로부터 추정될 수 있다.
도 7은 본 발명을 이용하여 같은 명칭의 후보가 포함된 경우의 처리예를 보인 흐름도이다.
그래서 같은 명칭의 후보가 포함된 경우, 인식 후보 예제는 "동성빌딩(강남)", "동성빌딩(강동구)", "동서빌딩"이 된다고 가정하자(ST21). 그러면 후보 목록 합성 방법은 지도 DB 저장부(20)로부터 추가 정보를 가져온 후에 사용자에게 추가 정보를 함께 알려주는 방식을 사용한다(ST22). 그리고 결과 선택 방식의 합성 방법은 후보의 번호(1번, 2번, 3번 등)나 순서명(첫 번째, 두 번째, 세 번째 등)을 선택하도록 합성한다(ST23). 그러면 출력된 음성의 예시는 다음과 같이 될 수 있다. "첫 번째 동성빌딩 서울 강남구 역삼동, 두 번째 동성빌딩 서울 강동구 길동, 세 번째 동성빌딩입니다. 몇 번째 후보인지 말씀해 주세요"(ST24).
도 8은 본 발명을 이용하여 후보들의 발음이 유사한 경우의 처리예를 보인 흐름도이다.
그래서 같은 후보들의 발음이 유사한 경우, 인식 후보 예제는 "복내리", "봉래리", "봉대리"가 된다고 가정하자(ST31). 그러면 후보 목록 합성 방법은 사용자 가 후보들을 구분할 수 있도록 끊어 읽거나 철자열을 합성한다(ST32). 그리고 결과 선택 방식의 합성 방법은 후보의 번호(1번, 2번, 3번 등)나 순서명(첫 번째, 두 번째, 세 번째 등)을 선택하도록 합성한다(ST33). 그러면 출력된 음성의 예시는 다음과 같이 될 수 있다. "첫 번째 복 / 내 / 리, 두 번째 봉 / 래 / 리, 세 번째 봉 / 대 / 리 입니다. 몇 번째 후보인지 말씀해 주세요". 이때 같은 명칭 후보의 경우와 같이 주소 정보를 함께 합성하는 방식을 사용할 수도 있다(ST34). 또는 "첫 번째 ㅂ오ㄱ / ㄴ애 / ㄹ이, 두 번째 ㅂ오ㅇ / ㄹ애 / ㄹ이, 세 번째 ㅂ오ㅇ / ㄷ애 / ㄹ이 입니다. 몇 번째 후보인지 말씀해 주세요". 이때 같은 명칭 후보의 경우와 같이 주소 정보를 함께 합성하는 방식을 사용할 수도 있다. 이때 철자열 합성은 인식 후보의 문자열이 긴 경우에는 적합하지 않다(ST35).
도 9는 본 발명을 이용하여 후보들의 구분이 쉬운 경우의 처리예를 보인 흐름도이다.
그래서 후보들의 구분이 쉬운 경우, 인식 후보 예제는 "영선아래삼거리", "강선마을사거리", "현리아랫거리"가 된다고 가정하자(ST41). 그러면 후보 목록 합성 방법은 기존 방식과 같은 내용과 방식으로 음성을 출력하거나 또는 확인 없이 목적지 설정이 가능하도록 한다(ST42). 또한 결과 선택 방식의 합성 방법도 기존 방식과 동일하게 다시 동일 지명을 발성하도록 한다(ST43). 그러면 출력된 음성의 예시는 다음과 같이 될 수 있다. "첫 번째 영선아래삼거리, 두 번째 강선마을사거리, 세 번째 현리아랫거리 입니다. 후보 중에서 선택해 주세요". 이때 후보들 사이의 유사도에 따라 합성 속도를 다르게 설정하는 것도 가능하다(ST44).
이처럼 본 발명은 인식된 후보들의 유사 정도에 따라 사용자에게 피드백되는 음성 합성을 차별화하여 사용자가 후보 결과들을 더욱 정확하게 인지하여 음성 인식 결과를 선택하도록 하게 되는 것이다.
이상에서 본 발명의 바람직한 실시예에 한정하여 설명하였으나, 본 발명은 이에 한정되지 않고 다양한 변화와 변경 및 균등물을 사용할 수 있다. 따라서 본 발명은 상기 실시예를 적절히 변형하여 응용할 수 있고, 이러한 응용도 하기 특허청구범위에 기재된 기술적 사상을 바탕으로 하는 한 본 발명의 권리범위에 속하게 됨은 당연하다 할 것이다.
도 1은 본 발명의 일 실시예에 의한 네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 장치의 블록구성도이다.
도 2는 본 발명의 일 실시예에 의한 네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 방법을 보인 흐름도이다.
도 3은 본 발명에서 인식 후보들의 음성 합성 방법의 예를 보인 표이다.
도 4는 본 발명에 의해 음성인식을 수행한 결과의 예제를 보인 표이다.
도 5는 본 발명에서 이용하는 음소혼동행렬과 동적 프로그래밍에 의한 유사도 계산의 예를 보인 그래프이다.
도 6은 본 발명에서 이용하는 음소혼동행렬의 예를 보인 그래프이다.
도 7은 본 발명을 이용하여 같은 명칭의 후보가 포함된 경우의 처리예를 보인 흐름도이다.
도 8은 본 발명을 이용하여 후보들의 발음이 유사한 경우의 처리예를 보인 흐름도이다.
도 9는 본 발명을 이용하여 후보들의 구분이 쉬운 경우의 처리예를 보인 흐름도이다.
* 도면의 주요 부분에 대한 부호의 설명 *
10 : 제어부
20 : 지도 DB 저장부
30 : 저장부
40 : 음성인식부
50 : 인식후보간 유사도 측정부
60 : 응답방식 결정부
70 : 응답발생부
80 : 디스플레이부

Claims (7)

  1. 네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 동작을 제어하는 제어부와;
    상기 제어부의 제어를 받고, 지도 DB를 읽거나 저장하는 지도 DB 저장부와;
    상기 제어부의 제어를 받아 데이터를 읽거나 저장하는 저장부와;
    음성을 인식하여 상기 제어부로 전달하는 음성인식부와;
    음성인식 후보들 사이의 유사도를 계산하여 그 결과를 상기 제어부로 전달하는 인식후보간 유사도 측정부와;
    상기 인식후보간 유사도 측정부의 결과를 전달받고, 음성출력 내용 및 응답 방식을 결정하는 응답방식 결정부와;
    상기 제어부의 제어에 따라 음성인식에 대한 응답을 발생시키는 응답발생부와;
    상기 제어부의 제어를 받고, 음성인식 결과를 디스플레이하는 디스플레이부;
    를 포함하여 구성된 것을 특징으로 하는 네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 장치.
  2. 청구항 1에 있어서,
    상기 인식후보간 유사도 측정부는,
    음성인식 점수, 음성인식 신뢰도, 표제어 철자열의 유사도, 음소혼동행렬에 의한 음소열 사이의 유사도 중에서 하나 이상을 사용하여 유사도를 측정하는 것을 특징으로 하는 네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 장치.
  3. 청구항 1 또는 청구항 2에 있어서,
    상기 응답방식 결정부는,
    합성 텍스트 또는 결과 선정 방식을 포함하여 음성 출력 내용을 결정하고, 끊어읽기 여부 또는 합성 속도 또는 추가정보를 포함한 음성 합성 방식을 결정하는 것을 특징으로 하는 네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 장치.
  4. 사용자의 발화 음성이 수신되면 음성인식부에서 음성인식하는 제 1 단계와;
    상기 제 1 단계 후 인식후보간 유사도 측정부는 음성인식 후보간 유사도를 측정하는 제 2 단계와;
    상기 제 2 단계 후 응답 방식 결정부는 음성출력 내용 및 응답 방식을 결정하고, 응답이 생성되도록 하여 출력시키는 제 3 단계;
    를 포함하여 수행하는 것을 특징으로 하는 네비게이션 단말에서 목적지 검색 을 위한 대화형 음성 인터페이스 방법.
  5. 청구항 4에 있어서,
    상기 제 2 단계는,
    음성인식 점수, 음성인식 신뢰도, 표제어 철자열의 유사도, 음소혼동행렬에 의한 음소열 사이의 유사도 중에서 하나 이상을 사용하여 유사도를 측정하는 것을 특징으로 하는 네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 방법.
  6. 청구항 4에 있어서,
    상기 제 3 단계는,
    합성 텍스트 또는 결과 선정 방식을 포함하여 음성 출력 내용을 결정하고, 끊어읽기 여부 또는 합성 속도 또는 추가정보를 포함한 음성 합성 방식을 결정하는 것을 특징으로 하는 네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 방법.
  7. 청구항 4 내지 청구항 6 중 어느 하나의 항에 있어서,
    상기 제 3 단계는,
    상기 제 2 단계 후 같은 문자열의 후보가 있으면 지도 DB 저장부에 저장된 추가 데이터를 이용하여 응답을 생성하는 단계와;
    상기 제 2 단계 후 음성인식 후보간 유사도가 높다고 판단되면 응답 생성 및 합성 파라미터를 결정하는 단계와;
    상기 제 2 단계 후 음성인식의 첫 번째 후보가 확실한지 여부를 판별하여 응답을 생성하는 단계;
    를 포함하여 수행하는 것을 특징으로 하는 네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 방법.
KR1020080089140A 2008-09-10 2008-09-10 네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 장치 및 그 방법 KR20100030265A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080089140A KR20100030265A (ko) 2008-09-10 2008-09-10 네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080089140A KR20100030265A (ko) 2008-09-10 2008-09-10 네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR20100030265A true KR20100030265A (ko) 2010-03-18

Family

ID=42180245

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080089140A KR20100030265A (ko) 2008-09-10 2008-09-10 네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR20100030265A (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106976434A (zh) * 2016-01-15 2017-07-25 现代自动车株式会社 用于车辆中的语音识别设备的装置及方法
CN109844407A (zh) * 2016-10-19 2019-06-04 艾沃索卢森股份有限公司 利用层叠结构的波分复用阵列光接收模块的封装结构
KR20200143659A (ko) * 2018-01-11 2020-12-24 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 방법
CN113762040A (zh) * 2021-04-29 2021-12-07 腾讯科技(深圳)有限公司 视频识别方法、装置、存储介质及计算机设备
CN113762040B (zh) * 2021-04-29 2024-05-10 腾讯科技(深圳)有限公司 视频识别方法、装置、存储介质及计算机设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106976434A (zh) * 2016-01-15 2017-07-25 现代自动车株式会社 用于车辆中的语音识别设备的装置及方法
CN106976434B (zh) * 2016-01-15 2021-07-09 现代自动车株式会社 用于车辆中的语音识别设备的装置及方法
CN109844407A (zh) * 2016-10-19 2019-06-04 艾沃索卢森股份有限公司 利用层叠结构的波分复用阵列光接收模块的封装结构
KR20200143659A (ko) * 2018-01-11 2020-12-24 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 방법
CN113762040A (zh) * 2021-04-29 2021-12-07 腾讯科技(深圳)有限公司 视频识别方法、装置、存储介质及计算机设备
CN113762040B (zh) * 2021-04-29 2024-05-10 腾讯科技(深圳)有限公司 视频识别方法、装置、存储介质及计算机设备

Similar Documents

Publication Publication Date Title
US8521539B1 (en) Method for chinese point-of-interest search
US8666743B2 (en) Speech recognition method for selecting a combination of list elements via a speech input
EP3021318A1 (en) Speech synthesis apparatus and control method thereof
US20090112593A1 (en) System for recognizing speech for searching a database
JP2010191400A (ja) 音声認識装置およびデータ更新方法
CN114026636A (zh) 用于语音识别的场境偏置
WO2007088877A1 (ja) 会話システムおよび会話ソフトウェア
GB2557714A (en) Determining phonetic relationships
US20130166290A1 (en) Voice recognition apparatus
JP2002123284A (ja) 音声認識装置ならびに方法
EP1687811A2 (en) Apparatus and method for voice-tagging lexicon
JP2013109061A (ja) 音声データ検索システムおよびそのためのプログラム
JP5606951B2 (ja) 音声認識システムおよびこれを用いた検索システム
JP5335165B2 (ja) 発音情報生成装置、車載情報装置およびデータベース生成方法
JP2013125144A (ja) 音声認識装置およびそのプログラム
US8275614B2 (en) Support device, program and support method
CN113593522B (zh) 一种语音数据标注方法和装置
KR20100030265A (ko) 네비게이션 단말에서 목적지 검색을 위한 대화형 음성 인터페이스 장치 및 그 방법
JP5009037B2 (ja) 音声認識装置、その音声認識方法
WO2014199428A1 (ja) 候補告知装置、候補告知方法及び候補告知用プログラム
JP2003162293A (ja) 音声認識装置及び方法
JP5696638B2 (ja) 対話制御装置、対話制御方法及び対話制御用コンピュータプログラム
KR20060098673A (ko) 음성 인식 방법 및 장치
KR20100073178A (ko) 음성 인식을 위한 화자 적응 장치 및 그 방법
JP6852029B2 (ja) ワード検出システム、ワード検出方法及びワード検出プログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application