KR101005786B1 - 차량용 네비게이션 단말기의 음성인식 방법 - Google Patents

차량용 네비게이션 단말기의 음성인식 방법 Download PDF

Info

Publication number
KR101005786B1
KR101005786B1 KR1020080125434A KR20080125434A KR101005786B1 KR 101005786 B1 KR101005786 B1 KR 101005786B1 KR 1020080125434 A KR1020080125434 A KR 1020080125434A KR 20080125434 A KR20080125434 A KR 20080125434A KR 101005786 B1 KR101005786 B1 KR 101005786B1
Authority
KR
South Korea
Prior art keywords
poi
chart
analysis
tagging
vocabulary
Prior art date
Application number
KR1020080125434A
Other languages
English (en)
Other versions
KR20100066917A (ko
Inventor
정의석
왕지현
강병옥
박전규
강점자
김종진
박기영
이성주
전형배
정호영
정훈
이윤근
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020080125434A priority Critical patent/KR101005786B1/ko
Publication of KR20100066917A publication Critical patent/KR20100066917A/ko
Application granted granted Critical
Publication of KR101005786B1 publication Critical patent/KR101005786B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3611Destination input or retrieval using character input or menus, e.g. menus of POIs
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3626Details of the output of route guidance instructions
    • G01C21/3629Guidance using speech or audio output, e.g. text-to-speech
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Navigation (AREA)

Abstract

본 발명은 차량용 네비게이션 단말기의 음성인식용 발화 이형태 생성을 위한 POI(points of interest) 대상, 복합명사 분해 및 태깅(tagging) 방법을 제시한다. 소형 차량 네비게이션 단말기 탑재 음성 인식 엔진은 일반적으로 고립어를 인식 대상으로 한다. 고립어는 지도상의 특정 지점에 대한 명칭이며, 이러한 명칭에 대해 사용자는 다양한 발화 이형태를 가진다. 본 발명은 사용자의 다양한 발화 이형태 생성을 위해, 지역 명칭으로 기술된 복합명사 형태의 어휘를 대상으로 복합 명사 분해 및 태깅 방법론을 제시한다. 분해는 차트 기반 동적 프로그래밍 방법론을 기반으로 하고, 태깅은 최대 엔트로피를 기반으로 하여 POI명칭을 구성하는 단일어 각각에 대한 의미 표지를 부착한다.
복합명사, 복합명사분해, 태깅, POI, 이형태

Description

차량용 네비게이션 단말기의 음성인식 방법{METHOD FOR PROVIDING SPEECH RECOGNITION IN VEHICLE NAVIGATION SYSTEM}
본 발명은 차량용 네비게이션 단말기의 음성인식 기술에 관한 것으로, 특히 차량용 네비게이션 단말기의 음성인식용 발화 이형태 생성을 위한 POI(points of interest) 대상, 복합명사 분해 및 태깅(tagging) 방법에 관한 것이다.
본 발명은 지식경제부 및 정보통신연구진흥원의 IT 신성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-03, 과제명: 신성장동력산업용 대용량 대화형 분산 처리 음성인터페이스 기술개발].
POI(points of interest) 명칭의 분해 및 태깅(tagging)은 기존 언어처리 분야에서 지속적으로 연구되어 왔던 분야이다.
분해의 경우 한국어 복합 명사의 특성상 공백 없이 사용되고, 분할 모호성으로 인한 어려움을 해결하는데 중점을 두어 왔다{[1] 강승식, 한국어 복합명사 분해 알고리즘, 정보과학회논문지(B) 제 25 권 제 1 호(98.1)), [2] 윤보현, 조민정, 임해창, 통계 정보와 선호 규칙을 이용한 한국어 복합명사의 분해}.
태깅의 경우는 기존 언어처리 연구에서 형태소 태깅이나 고유명사 태깅 분야가 발명이 속하는 종래 기술분야이다{[3] Chung, E. S., Lim, S. J., Hwang, Y. G., & Jang, M. G. (2004). Hybrid named entity recognition for questionanswering system. In INTERSPEECH2004 ICSLP (pp. 15971600)}.
참조번호 [1]은 복합명사를 단일명사로 분해하는 방법으로 분해 가능한 후보군을 생성하는 방법으로, 네 개의 분해규칙과 두 가지 예외 규칙을 사용하고, 분해 후보에 대해 가중치를 부여하는 알고리즘을 제시하였다. 참조번호 [2]는 통계 정보와 선호 규칙을 이용하여 한국어 복합 명사를 단위 명사로 분해하는 방법을 제안하였다. 참조번호 [3]은 고유명사 인식을 위해 하기 참조번호 [4]의 규칙 및 최대 엔트로피 기법을 사용하여 일반 텍스트로부터 고유명사 추출 및 태깅 방법론을 제시하였다.
[4] Adam Berger, Stephen Della Pietra, and Vincent Della Pietra, A maximum entropy approach to natural language processing, Computational Linguistics, (221), March 1996
단말기의 소용량/저성능 문제로 인해, 소형 차량 네비게이션 단말기에 탑재되는 음성 인식 엔진의 경우에는 일반적으로 고립어를 인식 대상으로 한다. 고립어는 지도상의 특정 지점에 대한 명칭이며, 이러한 명칭에 대해 사용자는 다양한 발화 이형태를 가진다.
그런데 POI(points of interest) 명칭인 경우, 대부분 공백이 없는 하나의 어절로 구성되어 있기 때문에, 발화 이형태 생성의 자동화에 큰 어려움이 따른다는 문제가 있다.
만일, 하나의 어절로 구성된 POI 명칭을 분석하여 단일어휘로 구성하고, 각 단일어휘의 클래스가 부착된 결과를 도출한다면, 다양한 규칙을 동원하여 이형태 생성의 자동화에 기여할 수 있을 것으로 기대된다.
이에 본 발명은, 사용자의 다양한 발화 이형태 생성을 위해, 지역 명칭으로 기술된 복합명사 형태의 어휘를 대상으로 한 복합 명사 분해 및 태깅(tagging) 방법을 제시하고자 한다.
본 발명의 과제를 해결하기 위한 본 발명의 바람직한 실시예에 따르면, 차량용 네비게이션 단말기로 입력되는 발화 이형태의 음성정보에서 POI(points of interest) 리스트와 POI 학습 데이터를 인식하는 과정과, 상기 인식되는 POI 리스트와 POI 학습 데이터에 대해 리소스를 구축하는 과정과, 상기 POI 리스트를 입력으로 하여 상기 구축되는 리소스에 대해 분해 및 태깅을 수행하는 과정과, 상기 분해 및 태깅된 결과를 POI 데이터베이스로서 생성하는 과정을 포함하는 차량용 네비게이션 단말기의 음성인식 방법을 제공한다.
본 발명에 의하면, 차량용 네비게이션 단말기의 음성인식용 발화 이형태 생성을 위한 POI(points of interest) 대상, 복합명사 분해 및 태깅(tagging) 방법을 제시함으로써, POI 명칭을 구성하고 있는 내부 미등록 어휘에 대한 해결책으로 분해용 동적 프로그래밍 알고리즘을 제안하였고, 이는 특정 휴리스틱(heuristic)에 의존적이지 않는 계산적 알고리즘 접근 방법으로 휴리스틱 구축의 비효율성을 극복하였다. 또한, 대상 POI리스트의 유동성에 대비하여, 리소스 구축 방법론을 체계적으로 제시하여 실제 도메인 적용 타당성을 도모했다. 분해 다음 단계인 태깅 단계를 위한 리소스 구축 및 검증된 최대 엔트로피 방법론 적용을 위한 특징 추출 방안 및 자질 포맷을 제시하였고, POI 명칭 도메인을 위한 의미 분류 체계를 제시하여, 분해/태깅된 결과를 이용하여 단순 패턴 구축을 통한 발화 이형태 생성을 가능하게 하였다.
기존의 한국어 복합명사 분해 방법론이 대부분 한국어 일반 텍스트 상의 어휘들을 대상으로 접근한 반면, 본 발명에서 대상 도메인으로 하는 POI(points of interest) 명칭은 기존 복합명사 형태와 다음과 같은 차이점이 있다.
첫째, POI 명칭 내부 구성어휘의 대부분은 고유명사로 구성되어 있다. 따라서, 모든 고유명사를 사전으로 등록할 수 없으므로 미등록어가 상당수 존재한다는 문제점을 갖고 있다.
둘째, POI 명칭의 특성상 머리어, 꼬리어 등의 위치적 특징을 내포한 어휘들은 많지 않다. 따라서, 이를 기반으로 한 휴리스틱(heuristic)은 적용하기 쉽지 않다.
셋째, 리소스가 유동적이다. POI 명칭 정보의 경우 일괄적으로 생성되고 삭제되는 정보이다. 따라서, 해당 리소스 구축에 대한 접근이 필요하다.
일반적인 태깅은 형태소 태깅과 어휘의미 태깅으로 구분된다. 형태소 태깅의 경우 명사, 동사, 형용사 등과 같은 문법 요소들의 표지를 할당하는 방식이고, 어휘의미 태깅의 경우는 하나의 어휘가 갖는 의미를 기 구축된 의미체계의 특정 의미표지로 표현하는 방식이다.
본 발명에서 처리하는 POI 명칭 분해 태깅의 경우 후자에 가깝다고 볼 수 있으나, POI 영역의 어휘의미는 일반적 어휘 전체를 대상으로 하는 기존 의미 분류 체계와는 상당히 다른 양상을 보인다.
따라서, POI 영역에 적합한 의미 체계가 수립되어야 하며, 발화 이형태 생성을 위해 그 의미표지의 수가 적절하게 유지될 필요가 있다.
본 발명에 따른 태깅 방법은, 검증된 최대 엔트로피 방식을 기반으로 POI 영역에 적합하게 자질을 설정하는 방식을 제시한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세하게 설명한다.
도 1은 본 발명에 따른 차량용 네비게이션 단말기의 음성인식 방법을 구현하기 위한 시스템 구성도로서, POI(points of interest) 입력 블럭(100), 리소스 구축 블럭(102), 단일어/기분석 DB(DataBase)(104), 공기정보 DB(106), 의미태깅(tagging) 통계정보 DB(108), 분해/태깅 블럭(110), 분해/태깅 POI DB(112)를 포함한다.
도시한 바와 같이, POI 입력 블럭(100)은 POI 리스트 및 POI 학습 데이터가 입력되는 블럭이다.
리소스 구축 블럭(102)은 POI 입력 블럭(100)을 통해 입력되는 POI 리스트 및 POI 학습 데이터에 대해 단일어/기분석 사전, 공기정보 사전, 의미태깅 통계정보 사전을 단일어/기분석 DB(104), 공기정보 DB(106), 의미태깅 통계정보 DB(108)에 각각 구축하는 역할을 한다.
분해/태깅 블럭(110)은 POI 입력 블럭(100)으로부터의 POI 리스트를 입력으로 하여 하나의 POI 명칭 분석을 위한 2차원 배열 형태의 분석 차트를 생성하고, 동적 프로그래밍{[5] Tomas H. Cormen, Charles E. Leiserson, Ronald L. Rivest and Clifford Stein, Introduction to Algorithm(2nd edition), (pp 331~339)}을 이용하여 버텀업(bottom-up) 방식으로 통계정보를 차트에 기록하며, 깊이 우선 탐색(Depth First Search) 방법을 이용하여 최적의 분해 결과를 탐색 후 분석 결과를 생성하고, 생성된 분석 결과로부터 문맥을 활용한 자질 정보를 추출하며, 추출된 어휘의 특징정보를 기반으로 의미 표지를 부착하여 분해/태깅된 POI 정보를 분해/태깅된 POI DB(112)내에 생성하는 역할을 한다.
이하, 상술한 구성과 함께, 본 발명의 바람직한 실시예에 따른 차량용 네비게이션 단말기의 음성인식 방법을 첨부한 도 2 내지 도 4의 흐름도, 그리고 도 5 내지 도 11의 예시도를 참조하여 구체적으로 설명하기로 한다.
먼저, 도 2는 본 실시예에 따른 차량용 네비게이션 단말기의 음성인식 방법의 전체 흐름도로서, POI 리스트 및 POI 학습 데이터 입력 과정(S200), 리소스 구축 과정(S202), 분해 및 태깅 과정(S204), 분해 및 태깅된 POI DB 생성 과정(S206)을 포함한다.
여기서, 리소스 구축 과정(S202)은, 도 3에 도시한 바와 같이, POI 리스트 및 POI 학습 데이터를 입력으로 하여 단일어/기분석 사전 구축 과정(S300), 공기정보 사전 구축 과정(S302), 의미태깅 통계정보 구축 과정(S304)을 포함한다.
또한, 분해 및 태깅 과정(S204)은, 도 4에 도시한 바와 같이, POI 리스트를 입력으로 하여 하나의 POI 명칭 분석을 위한 2차원 배열 형태의 분석 차트를 생성하는 과정(S400), 동적 프로그래밍(참조번호 [5])을 이용하여 버텀업 방식으로 통계정보를 차트에 기록하는 분석 차트 연산 과정(S402), 깊이 우선 탐색(Depth First Search) 방법을 이용하여 최적의 분해 결과를 탐색 후 도출하는 분석결과 생성 과정(S404), 생성된 분석 결과로부터 문맥을 활용한 자질 정보를 추출하는 특징 추출 과정(S406), 추출된 어휘의 특징정보를 기반으로 의미 표지를 부착하여 분해/태깅된 POI DB를 생성하는 의미 태깅 과정(S408)을 포함한다.
각 단계별 처리 과정을 구체적으로 살펴보면 다음과 같다.
먼저, 도 3에서 기술된 리소스 구축 과정(S202)은, 단일어/기분석 사전 구축 과정(S300)과, 공기정보 구축 과정(S302)과, 의미태깅 통계정보 구축 과정(S304)을 포함한다.
여기서, 단일어/기분석 사전 구축 과정(S300)은, POI 입력 블럭(100)의 POI 리스트로부터 고빈도 헤드(Head) 어휘를 추출하는 과정과, 고빈도 테일(Tail) 어휘를 추출하는 과정과, 추출되는 고빈도 헤드 어휘 및 테일 어휘들에 대한 수작업 정제 과정을 포함한다.
공기정보 구축 과정(S302)은, POI 입력 블럭(100)의 POI 학습 데이터로부터 N-gram 어휘를 추출하는 과정을 포함한다.
의미 태깅 통계정보 구축 과정(S304)은, POI 입력 블럭(100)의 POI 학습 데이터를 입력으로 하여 특징을 추출하는 과정과, 최대 엔트로피 학습 과정을 포함한다.
도 5 내지 도 8은 이러한 리소스 구축 과정(S202)을 예시적으로 설명하기 위한 도면이다.
먼저, 도 5에서 도면부호 501은 POI 명칭이며, 도면부호 502 및 503은 POI 명칭으로부터의 헤드 어휘 추출 리스트 및 테일 어휘 추출 리스트를 각각 나타낸다.
헤드 어휘 추출 리스트(502)와 테일 어휘 추출 리스트(503) 중 전체 POI 리스트를 대상으로 고빈도 어휘만 사전 후보로 추출된다. 여기서, 일반적으로 헤드 어휘의 경우“제주도”,“제주도개인”,“제주도개인텍시”의 경우가 고빈도를 보일 경우에 사전 대상 엔트리가 되고, 테일 어휘는“충전소에스케이”,“에스케이” 등이 해당될 수 있다. 이들은 단일어의 경우 단일어 사전 항목으로, 복합명사의 경우 기분석 사전 항목으로 구성된다.
도 6은 본 발명에서 제시하는 POI 명칭 구성 단일어에 대한 의미 체계를 예시한 것이다. 도 6에 도시한 바와 같이, 의미 체계(601)는 16개의 의미 분류 표지로 구성되며, 단일어와 기분석 사전에 추가적인 자질로 포함된다. “에스케이”의경우“에스케이 ET”로,“충전소에스케이”의 경우 “충전소/에스케이 TV/ET”형태로 기분석 사전 엔트리가 된다.
도 7은 POI 명칭 학습 데이터의 하나의 예제(701)로부터 1gram정보(702)와 2gram(703) 정보를 추출한 결과이다. 전체 학습 데이터로부터 이들 N-gram 추출 엔트리들은 각각 해당 빈도 정보를 추가해서 공기정보DB(106)에 공기정보로서 구축된다.
도 8은 POI 명칭 학습 데이터의 하나의 엔트리(801)를 인식한 결과(802)를 바탕으로 특정 i번째 어휘에 대해, 좌우 하나의 어휘들(Wi -1, Wi +1)을 문맥정보로 하여 추출한 자질 리스트에 대해 최대 엔트로피 학습을 통한 가중치를 각 자질에 할당한 결과가 기술되어 있다(803).
다시 도 4를 참조하면, 분석 차트 생성 과정(S400)은 단일어/기분석 DB(104)를 로드하는 과정과, POI 리스트 중 하나의 엔트리를 입력으로 하여 입력 엔트리의 구성 문자들을 기반으로 이차원 배열 형태의 차트를 생성하는 과정과, 차트의 각 요소에 해당되는 범위의 문자열들에 대해 단일어/기분석 DB(104)을 검색하여 차트 에 표시하는 과정을 포함한다.
도 9는 입력 어휘“대전주산학원”에 대한 분석 차트 생성 결과(901)를 보여 준다. 도 9에서, 차트를 구성하는 각 요소(x, y)에 해당 어휘가 단일어 사전에 해당할 경우“D”, 기분석 사전에 해당할 경우 “P”로 각각 할당되었음을 알 수 있다. Chart(0,1)은“대전/DT”; Chart(1,2)는“전주D/T”; Chart(2,3)은“주산/CN”, Chart(4,5)는“학원/TB”; Chart(2,5)는“주산/학원 CN/TB”각 차트에 초기화된다.
분석 차트 연산 과정(S402)은 다음 [수학식 1]에 예시한 분석 차트 연산식에서와 같이, 동적 프로그래밍 방식(참조번호 [5])에 따라, 일부의 하위 정보가 상위로 전이 및 통합되어 최종 노드에 최적의 결과를 도출하는 방식이다.
Figure 112008085114900-pat00001
차트의 각 구성 요소 연산시, 항상 두 대상만을 고려하며, 둘 중 하나가 미 등록어일 경우도 연산이 가능하므로, 미등록어 추정이 자연스럽게 가능하다. 또한, 알고리즘 복잡도는 O(n3)으로 적절한 연산 복잡도를 보장한다.
[수학식 1]에서 W[i,j]는 Chart[i,j]의 가중치, k는 차트의 바이너리 자식 노드들을 구분하는 기준, P는 1gram과 2gram의 확률값, l[i,j]는 차트의 (i,j) 요소가 담당하는 어휘를 각각 나타낸다. 여기서, 각 차트의 구성요소에는 최대 W[i,j]값을 보이는 k값으로, 좌측 노드 L[i,k]와 우측 노드 R[k+1, j]의 차트 인덱스가 저장된다.
도 10은 이러한 차트 인덱스가 완성된 결과(1001)를 예시한 것이다.
다음으로, 본 발명에 적용되는 참조번호 [5]의 복합명사 분해용 동적 프로그래밍 알고리즘에 대해 상세히 설명하기로 한다.
<동적 프로그래밍 알고리즘>
// 차트 초기화
initialize_chart ct[max_length_POI][max_length_POI]
max_k = baseline
max_i = 0
// 차트 구성요소(cell) 각각에 대한 연산 진행
for i = 2 to length(POI) {
for j = i to length(POI) {
x = j i
y = j
// 특정 차트 구성요소에 사전 어휘가 할당되어 있으면 리프(leaf)
// 노드로 간주한다.
if exist(l(ct[x][y])) = true then
continue
endif
pr1 = pr2 = pr3 = 0.0
// 각 차트 구성요소에서 최적의 분해결과를 도출한다
for k = 0 to k < y-x {
pr1 = count(l(ct[x][x+k])) / max_num_unigram
pr2 = count(l(ct[x+k+1][y])) / max_num_unigram
pr3 = count(l(ct[x][x+k]), l(ct[x+k+1][y])) / max_num_bigram
// a + b + c = α + β + γ = 1
p = α *pr1 + β *pr2 + γ *pr3
w(k) = a*w(ct[x][x+k]) + b*w(ct[x+k+1][y]) + c*log(p)
if weight(k) > max_k then
max_k = w(k)
max_i = k
endif
}
// 최대 확률값(max_k)을 갖는 인덱스정보(max_i)를 이용하여
// 좌/우 자식 노드를 결정한다.
if max_k > baseline then
left_child(ct[x][y]).x = x
left_child(ct[x][y]).y = x+max_i
right_child(ct[x][y]).x = x+max_i+1
right_child(ct[x][y]).y = y
w(ct[x][y]) += max_k
endif
}
}
한편, 도 4의 분석 결과 생성 과정(S404)은, 분석 차트 연산 과정(S402)에서 추출된 차트 인덱스를 기반으로 깊이 우선 탐색(Depth First Search)으로 복합명사 분해 결과를 생성하는 단계로서, 이는 도 11에 예시한 바와 같다.
도 11에 예시한 바와 같이, 탐색시 기분석 사전의 결과 P(주산/학원 CN/TB)는 바로 기분석 사전 엔트리를 분석결과로 제시한다. 탐색결과는“대전/DT 주산/CN 학원/TB”이다.
도 4의 특징 추출 과정(S406)은, 리소스 구축 과정(S202)에서 적용되는 도 8에 기술된 방식과 동일하다. 다만, 자질 정보를 추출할 때 분석 결과 생성 과정(S404)에서의 출력은 태그 모호성이 유지되고 있다는 점에서 학습 데이터와 차이가 있다.
여기서, 태그 모호성이 있는 대상 어휘와 해당 태그 집합은 자질에서 제외된다. 예를 들면, 도 8에서 “가야/DT;ET 역/SX;DT …”일때, 의미 태깅 대상 어휘가“가야/DT;ET”의 경우 컨텍스트“역/SX;DT”이 모호성 태그를 갖고 있으므로, 표 (803)에서 자질번호 4, 9, 11번이 특징 추출 대상에서 제외된다.
도 4의 의미 태깅 과정(S408)에서 의미 태깅 대상 어휘는 모호성 태그를 갖고 있는 어휘만을 대상으로 한다.
다음 [수학식 2]는 최대 엔트로피를 이용한 태깅 확률식이다.
Figure 112008085114900-pat00002
도 8의 표 (803)의 type4를 예로 든다면, f(x,y)는 x가 “NX”이고, y는 “SX”일 경우 1을 리턴하고, λ값은 0.00306이 된다. 태깅 결과는 argmaxyP(y|x)의 y값으로 결정된다.
이상 설명한 바와 같이 본 발명은, 차량용 네비게이션 단말기의 음성인식용 발화 이형태 생성을 위한 POI 대상, 복합명사 분해 및 태깅 방법을 제시함으로써, POI 명칭을 구성하고 있는 내부 미등록 어휘에 대한 해결책을 제안하였으며, 특정 휴리스틱(heuristic)에 의존적이지 않는 계산적 알고리즘 접근 방법으로 휴리스틱 구축의 비효율성을 극복하도록 구현한 것이다.
한편, 본 발명의 실시예에 대해 상세히 기술하였으나 본 발명은 이러한 실시예에 국한되는 것은 아니며, 후술하는 청구범위에 기재된 본 발명의 기술적 사상과 범주 내에서 본 발명의 특징이 이해되어져야 할 것이며, 또한 이로부터 당업자라면 여러 가지 변형으로도 운용 가능함을 주지해야 할 것이다.
도 1은 본 발명에 따른 차량용 네비게이션 단말기의 음성인식 방법을 구현하기 위한 시스템 구성도,
도 2는 본 발명의 바람직한 실시예에 따른 차량용 네비게이션 단말기의 음성인식 방법의 전체 흐름도,
도 3은 도 2의 리소스 구축 과정의 상세 흐름도,
도 4는 도 2의 분해 및 태깅 과정의 상세 흐름도,
도 5는 POI 명칭으로부터 헤드(Head) 어휘 추출 리스트와 테일(Tail) 어휘 추출 리스트를 예시한 도면,
도 6은 본 발명에서 제시하는 POI 명칭 구성 단일어에 대한 의미 체계를 예시한 도면,
도 7은 POI 명칭 학습 데이터의 한 예제로부터 1gram 정보와 2gram 정보를 추출한 결과를 예시한 도면,
도 8은 POI 명칭 학습 데이터의 하나의 엔트리를 인식한 결과를 바탕으로 특정 i번째 어휘에 대해 좌우 문맥 정보로부터 추출한 자질 리스트와 이에 대한 통계적 가중치를 각 자질에 할당한 결과를 예시한 도면,
도 9는 특정 입력 어휘에 대한 분석 차트 생성 결과를 예시한 도면,
도 10은 차트 인덱스가 완성된 결과를 예시한 도면,
도 11은 분석 차트 연산 과정에서 추출된 차트 인덱스를 기반으로 깊이 우선 탐색(Depth First Search)으로 복합명사를 분해한 결과를 예시한 도면.
<도면의 주요 부분에 대한 부호의 설명>
100 : POI 입력 블럭 102 : 리소스 구축 블럭
104 : 단일어/기분석 DB 106 : 공기정보 DB
108 : 의미태깅 통계정보 DB 110 : 분해/태깅 블럭
112 : 분해/태깅 POI DB

Claims (10)

  1. 차량용 네비게이션 단말기로 입력되는 발화 이형태의 음성정보에서 POI(points of interest) 리스트와 POI 학습 데이터를 인식하는 과정과,
    상기 인식되는 POI 리스트와 POI 학습 데이터에 대해 리소스를 구축하는 과정과,
    상기 POI 리스트를 입력으로 하여 상기 구축되는 리소스에 대해 분해 및 태깅을 수행하는 과정과,
    상기 분해 및 태깅된 결과를 POI 데이터베이스로서 생성하는 과정
    을 포함하는 차량용 네비게이션 단말기의 음성인식 방법.
  2. 제 1 항에 있어서,
    상기 리소스 구축 과정은,
    상기 POI 리스트 및 POI 학습 데이터를 입력으로 하여 단일어/기분석 데이터베이스를 구축하는 과정과,
    상기 POI 학습 데이터로부터 N-gram 어휘를 추출하는 공기정보 데이터베이스 구축 과정과,
    상기 POI 학습 데이터를 입력으로 하여 특징을 추출하고 최대 엔트로피 학습을 통해 의미태깅 통계정보 데이터베이스를 구축하는 과정
    을 포함하는 차량용 네비게이션 단말기의 음성인식 방법.
  3. 제 2 항에 있어서,
    상기 단일어/기분석 데이터베이스를 구축하는 과정은,
    상기 POI 리스트로부터 고빈도 헤드(Head) 어휘를 추출하는 과정과,
    상기 POI 리스트로부터 고빈도 테일(Tail) 어휘를 추출하는 과정과,
    상기 추출되는 고빈도 헤드 어휘 및 테일 어휘들에 대해 수작업 정제하는 과정
    을 포함하는 차량용 네비게이션 단말기의 음성인식 방법.
  4. 제 1 항에 있어서,
    상기 분해 및 태깅을 수행하는 과정은,
    상기 POI 리스트를 입력으로 하여 하나의 POI 명칭 분석을 위한 2차원 배열 형태의 분석 차트를 생성하는 과정과,
    동적 프로그래밍을 이용하여 버텀업(bottom-up) 방식으로 통계정보를 상기 분석 차트에 기록하는 분석 차트 연산 과정과,
    깊이 우선 탐색(Depth First Search)을 이용하여 분해 결과를 탐색 후 도출하는 분석결과 생성 과정과,
    상기 분석결과 생성 과정에 의해 생성된 분석 결과로부터 문맥을 활용한 자질 정보를 추출하는 특징 추출 과정과,
    상기 특징 추출 과정으로부터 추출된 어휘의 특징정보를 기반으로 의미 표지를 부착하여 분해/태깅된 POI 데이터베이스를 생성하는 의미 태깅 과정
    을 포함하는 차량용 네비게이션 단말기의 음성인식 방법.
  5. 제 4 항에 있어서,
    상기 분석 차트를 생성하는 과정은,
    상기 리소스를 구축하는 과정에서 상기 POI 리스트 및 POI 학습 데이터를 입력으로 하여 구축된 단일어/기분석 데이터베이스를 로드하는 과정과,
    상기 POI 리스트 중 하나의 엔트리를 입력으로 하여 입력 엔트리의 구성 문자들을 기반으로 이차원 배열 형태의 차트를 생성하는 과정과,
    상기 생성되는 차트의 각 요소에 해당되는 범위의 문자열들에 대해 상기 단일어/기분석 데이터베이스를 검색하여 차트에 표시하는 과정
    을 포함하는 차량용 네비게이션 단말기의 음성인식 방법.
  6. 제 4 항에 있어서,
    상기 분석 차트 연산 과정은,
    상기 동적 프로그래밍에 따라 일부의 하위 정보가 상위로 전이 및 통합되어 최종 노드에 결과를 도출하는 것을 특징으로 하는 차량용 네비게이션 단말기의 음성인식 방법.
  7. 제 4 항에 있어서,
    상기 분석결과 생성 과정은,
    상기 분석 차트 연산 과정에서 추출된 차트 인덱스를 기반으로 상기 깊이 우선 탐색으로 복합명사 분해 결과를 생성하는 것을 특징으로 하는 차량용 네비게이션 단말기의 음성인식 방법.
  8. 제 4 항에 있어서,
    상기 특징 추출 과정은,
    상기 POI 학습 데이터의 하나의 엔트리를 인식한 결과를 바탕으로 특정 번째 어휘에 대해 좌우 하나의 어휘들을 문맥정보로 하여 추출한 자질 리스트에 대해 최대 엔트로피 학습을 통한 가중치를 각 자질에 할당하는 것을 특징으로 하는 차량용 네비게이션 단말기의 음성인식 방법.
  9. 제 8 항에 있어서,
    상기 자질 리스트를 추출할 때 상기 분석결과 생성 과정에서의 출력은 태그 모호성이 유지되는 것을 특징으로 하는 차량용 네비게이션 단말기의 음성인식 방법.
  10. 제 4 항에 있어서,
    상기 의미 태깅 과정은, 모호성 태그를 갖고 있는 어휘만을 대상으로 하는 것을 특징으로 하는 차량용 네비게이션 단말기의 음성인식 방법.
KR1020080125434A 2008-12-10 2008-12-10 차량용 네비게이션 단말기의 음성인식 방법 KR101005786B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080125434A KR101005786B1 (ko) 2008-12-10 2008-12-10 차량용 네비게이션 단말기의 음성인식 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080125434A KR101005786B1 (ko) 2008-12-10 2008-12-10 차량용 네비게이션 단말기의 음성인식 방법

Publications (2)

Publication Number Publication Date
KR20100066917A KR20100066917A (ko) 2010-06-18
KR101005786B1 true KR101005786B1 (ko) 2011-01-06

Family

ID=42365747

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080125434A KR101005786B1 (ko) 2008-12-10 2008-12-10 차량용 네비게이션 단말기의 음성인식 방법

Country Status (1)

Country Link
KR (1) KR101005786B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180045530A1 (en) * 2016-08-12 2018-02-15 Blackberry Limited System and method for generating an acoustic signal for localization of a point of interest
CN117672200B (zh) * 2024-02-02 2024-04-16 天津市爱德科技发展有限公司 一种物联网设备的控制方法、设备及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060007407A (ko) * 2003-04-30 2006-01-24 로베르트 보쉬 게엠베하 음성 인식에 있어서의 통계적 언어 모델링을 위한 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060007407A (ko) * 2003-04-30 2006-01-24 로베르트 보쉬 게엠베하 음성 인식에 있어서의 통계적 언어 모델링을 위한 방법

Also Published As

Publication number Publication date
KR20100066917A (ko) 2010-06-18

Similar Documents

Publication Publication Date Title
Demir et al. Improving named entity recognition for morphologically rich languages using word embeddings
CN110377916B (zh) 词预测方法、装置、计算机设备及存储介质
CN111475623A (zh) 基于知识图谱的案件信息语义检索方法及装置
CN106156365A (zh) 一种知识图谱的生成方法及装置
CN108763510A (zh) 意图识别方法、装置、设备及存储介质
CN107203526B (zh) 一种查询串语义需求分析方法及装置
US11113470B2 (en) Preserving and processing ambiguity in natural language
CN109614620B (zh) 一种基于HowNet的图模型词义消歧方法和系统
CN111414763A (zh) 一种针对手语计算的语义消歧方法、装置、设备及存储装置
Pieraccini et al. Stochastic representation of conceptual structure in the ATIS task
WO2019227581A1 (zh) 兴趣点识别方法、装置、终端设备及存储介质
Hamzei et al. Place questions and human-generated answers: A data analysis approach
Etaiwi et al. Statistical Arabic name entity recognition approaches: A survey
CN112185361B (zh) 一种语音识别模型训练方法、装置、电子设备及存储介质
Jayaweera et al. Hidden markov model based part of speech tagger for sinhala language
Ma et al. Landmark-based location belief tracking in a spoken dialog system
CN117290489A (zh) 一种行业问答知识库快速构建方法与系统
CN114091454A (zh) 一种互联网文本中地名信息提取及空间定位方法
KR101005786B1 (ko) 차량용 네비게이션 단말기의 음성인식 방법
Yang et al. Vocabulary expansion through automatic abbreviation generation for Chinese voice search
CN115982322A (zh) 一种水利行业设计领域知识图谱的检索方法及检索系统
CN115935998A (zh) 多特征金融领域命名实体识别方法
KR101079653B1 (ko) 네비게이션 기기에서 음성인식 대상 키워드의 생성장치 및 방법
Hu et al. A supervised machine learning approach to toponym disambiguation
CN113569560A (zh) 一种汉语二语作文自动评分方法

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20131128

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee