KR20100073178A - Speaker adaptation apparatus and its method for a speech recognition - Google Patents

Speaker adaptation apparatus and its method for a speech recognition Download PDF

Info

Publication number
KR20100073178A
KR20100073178A KR1020080131772A KR20080131772A KR20100073178A KR 20100073178 A KR20100073178 A KR 20100073178A KR 1020080131772 A KR1020080131772 A KR 1020080131772A KR 20080131772 A KR20080131772 A KR 20080131772A KR 20100073178 A KR20100073178 A KR 20100073178A
Authority
KR
South Korea
Prior art keywords
data
phoneme
speaker
voice
speech
Prior art date
Application number
KR1020080131772A
Other languages
Korean (ko)
Inventor
전형배
정호영
박전규
정훈
이윤근
강점자
정의석
강병옥
김종진
왕지현
이성주
박기영
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020080131772A priority Critical patent/KR20100073178A/en
Publication of KR20100073178A publication Critical patent/KR20100073178A/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • G08G1/0968Systems involving transmission of navigation instructions to the vehicle
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Remote Sensing (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Navigation (AREA)

Abstract

PURPOSE: A speaker adaptation apparatus and a method for speech recognition are provided to remarkably improve the performance of a speaker by estimating the answer of actual speech data in high possibility through an N-best recognition result screen output function. CONSTITUTION: A voice data verification unit(202) obtains measurement data for each phoneme with regard to accumulation data through reliability evaluation. The accumulation data includes voice data and N-best recognition result data. A sound model speaker adapting unit(204) performs speaker adaptation by measurement data for each acquired per-phoneme. A sound model updating unit(206) updates a sound model by a new speaker-subordinate sound model through performed speaker adaptation.

Description

음성 인식을 위한 화자 적응 장치 및 그 방법{SPEAKER ADAPTATION APPARATUS AND ITS METHOD FOR A SPEECH RECOGNITION}SPEAKER ADAPTATION APPARATUS AND ITS METHOD FOR A SPEECH RECOGNITION}

본 발명은 음성 인식을 위한 화자 적응 기법에 관한 것으로, 더욱 상세하게는 음성 인식 기능을 갖는 네비게이션 장치에서 입력된 음성 데이터를 이용하여 화자 적응을 수행하는데 적합한 음성 인식을 위한 화자 적응 장치 및 그 방법에 관한 것이다.The present invention relates to a speaker adaptation technique for speech recognition. More particularly, the present invention relates to a speaker adaptation apparatus and method for speech recognition suitable for performing speaker adaptation using speech data input from a navigation device having a speech recognition function. It is about.

본 발명은 지식경제부 및 정보통신연구진흥원의 IT 성장동력 핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-03, 과제명: 신성장동력산업용 대용량 대화형 분산 처리 음성인터페이스 기술개발].The present invention is derived from research conducted as a part of the core technology development project of IT growth engines of the Ministry of Knowledge Economy and ICT. [Task management number: 2006-S-036-03, Task name: Large-capacity interactive for new growth engine industry] Development of distributed processing voice interface technology].

잘 알려진 바와 같이, 음성 인식 시스템은 불특정 화자를 대상으로 음성 인식을 수행하기 때문에, 많은 훈련 화자로부터 음성 데이터를 수집하여 화자 독립의 음향 모델을 훈련하게 되는데, 이를 화자독립 음성인식 시스템이라고 한다.As is well known, since a speech recognition system performs speech recognition for an unspecified speaker, it collects voice data from many training speakers and trains a speaker-independent acoustic model, which is called a speaker-independent speech recognition system.

그러나, 일반적으로 특정 화자가 음성 인식 시스템을 계속 사용하게 되는데, 특정 화자의 음성 데이터로 훈련한 화자 종속 음향 모델을 사용하는 화자 종속 음 성 인식 시스템이 화자 독립 음성 인식 시스템의 성능보다 상대적으로 뛰어나다.In general, however, a specific speaker continues to use the speech recognition system. A speaker-dependent speech recognition system using a speaker-dependent acoustic model trained with speech data of a specific speaker is relatively superior to that of a speaker-independent speech recognition system.

그래서, 특정 화자의 음성을 이용하여 화자 독립 음향 모델로부터 화자 종속 음향 모델로 변환시키는 화자 적응 방법이 필요하게 된다.Thus, there is a need for a speaker adaptation method that converts a speaker independent acoustic model from a speaker independent acoustic model to a speaker dependent acoustic model using a specific speaker's voice.

특히, 어떤 화자가 사용할 지를 알 수 없는 음성 인식 서비스의 경우에는 서비스 상황에서 화자의 음성 신호를 이용하여 화자 적응을 수행하게 되는데, 이때에는 사용자가 발성한 음성이 무엇인지 모르기 때문에 비교사 학습 방법에 의한 화자 적응을 수행하게 되고, 이로 인해 화자 적응 성능이 조금 떨어지게 된다.In particular, in case of a voice recognition service that does not know which speaker to use, the speaker adapts using the speaker's voice signal in the service situation. In this case, the user does not know what the voice is spoken. Speaker adaptation is performed, which results in a slight decrease in speaker adaptation performance.

반면에, 음성 인식 기능을 갖는 네비게이션 장치와 같이 정해진 화자가 음성인식 시스템을 사용한다면 화자 적응을 수행하여 음성 인식 시스템의 성능 향상을 얻을 수 있다.On the other hand, if a predetermined speaker, such as a navigation device having a speech recognition function, uses the speech recognition system, the speaker adaptation can be performed to obtain an improved performance of the speech recognition system.

종래에, 음성 인식을 위한 화자 적응을 수행하는 방법으로는 MAP (maximum a posteriori), MLLR (maximum likelihood linear regression), Eigenvoice 등이 있는데, 최적의 화자 적응 성능을 얻기 위해서는 화자 적응 단계에서 사용되는 관측 데이터의 양에 따라 적절한 화자 적응 방법을 선택해야 한다.Conventionally, methods for performing speaker adaptation for speech recognition include MAP (maximum a posteriori), MLLR (maximum likelihood linear regression), Eigenvoice, and the like. Depending on the amount of data, the appropriate speaker adaptation method should be selected.

여기에서, Eigenvoice 화자 적응 방법은 사용자가 불편하지 않을 정도로 적은 화자 적응 음성 데이터를 사용하더라도 화자 종속 음향 모델에 가깝게 적응하는 고속 화자 적응 방법으로, 성능 역시 우수한 것으로 알려져 있고, 반면에 관측 데이터 양이 충분히 많이 존재할 경우는 MAP 방식의 화자 적응 방법이 화자 종속 음향 모델과 근사한 성능을 보이는 것으로 알려져 있으며, MLLR 방식의 화자 적응 방법은 위의 두 가지 방법의 중간 정도 관측데이터를 사용할 때 최적의 성능을 기대 할 수 있는 방법이다.Here, the Eigenvoice speaker adaptation method is a fast speaker adaptation method that adapts closely to the speaker-dependent acoustic model even if the user uses less speaker-adapted speech data that is not inconvenient for the user. In many cases, the MAP speaker adaptation method is known to be close to the speaker-dependent acoustic model, and the MLLR speaker adaptation method is expected to achieve optimal performance when using intermediate observation data between the two methods. That's how it can be.

상술한 바와 같이 종래에 음성 인식 성능을 향상시키기 위한 관측 데이터량에 따른 화자 적응 방법들이 제안되고 있으며, 이러한 음성 인식 성능을 더욱 향상시키기 위해 지속적으로 다양한 방식의 화자 적응 기법들이 개발되고 있는 실정이다.As described above, speaker adaptation methods have been proposed according to the amount of observation data for improving speech recognition performance, and various speaker adaptation techniques have been continuously developed to further improve the speech recognition performance.

이에 따라, 본 발명은 음성 데이터와 그에 대응하는 인식 결과 데이터를 누적 데이터로 저장하고, 이에 대한 신뢰성을 검증하여 음소별 관측 데이터를 누적 저장하고, 이러한 음소별 관측 데이터를 이용하여 화자 적응을 수행할 수 있는 음성 인식을 위한 화자 적응 장치 및 그 방법을 제공하고자 한다.Accordingly, the present invention stores the speech data and the corresponding recognition result data as cumulative data, verifies the reliability thereof, accumulates and stores the observation data for each phoneme, and performs speaker adaptation using the observation data for each phoneme. The present invention provides a speaker adaptation apparatus and method for speech recognition.

일 관점에서 본 발명은, 음성 데이터와 그에 대응하는 N 베스트 인식 결과 데이터를 포함하는 누적 데이터에 대한 신뢰도 평가를 통해 검증하여 상기 누적 데이터에 대한 음소별 관측 데이터를 획득하는 음성 데이터 검증부와, 상기 획득된 음소별 관측 데이터를 이용하여 화자 적응을 수행하는 음향 모델 화자 적응부와, 상기 수행된 화자 적응을 통해 생성된 신규 화자 종속 음향 모델로 음향 모델을 갱신하는 음향 모델 갱신부를 포함하는 음성 인식을 위한 화자 적응 장치를 제공한 다.According to an aspect of the present invention, there is provided a voice data verification unit which obtains observation data for each phoneme of the cumulative data by verifying the reliability of the cumulative data including the voice data and the N best recognition result data corresponding thereto. Speech recognition includes a sound model speaker adaptor for performing speaker adaptation using the acquired phoneme-specific observation data, and an acoustic model updater for updating the acoustic model with a new speaker-dependent acoustic model generated through the speaker adaptation. It provides a speaker adaptation device.

다른 관점에서 본 발명은, 음성 데이터와 그에 대응하는 N 베스트 인식 결과 데이터를 포함하는 누적 데이터를 추출하는 단계와, 상기 추출된 누적 데이터에 대한 신뢰도 평가를 통해 검증하여 상기 누적 데이터에 대한 음소별 관측 데이터를 획득하는 단계와, 상기 누적 데이터를 추출하는 단계 및 음소별 관측 데이터를 획득하는 단계를 모든 누적 데이터에 대해 반복 수행하여 상기 음소별 관측 데이터를 누적하는 단계와, 상기 누적된 음소별 관측 데이터를 이용하여 화자 적응을 수행하는 단계와, 상기 화자 적응을 통해 생성된 신규 화자 종속 음향 모델로 음향 모델을 갱신하는 단계를 포함하는 음성 인식을 위한 화자 적응 방법을 제공한다.In another aspect, the present invention, the step of extracting the cumulative data including the voice data and the N-best recognition result data corresponding to the verification, by verifying the reliability of the extracted cumulative data by the phoneme observation of the cumulative data Acquiring data, extracting the cumulative data, and acquiring observation data for each phoneme by repeating all the cumulative data, accumulating the observation data for each phoneme, and accumulating the observation data for each phoneme. It provides a speaker adaptation method for speech recognition comprising the step of performing a speaker adaptation using the; and updating the acoustic model with a new speaker-dependent acoustic model generated by the speaker adaptation.

본 발명은, 음성 인식에 따른 N개(N-best)의 베스트 인식 결과 화면 출력 기능을 통해, 실제 음성 데이터의 정답을 높은 가능성으로 추정할 수 있게 되고, 이를 통해 비교사 화자 적응의 성능을 크게 높일 수 있다.According to the present invention, it is possible to estimate the correct answer of actual speech data with high possibility through N-best best recognition result display function according to speech recognition, thereby greatly improving the performance of non-speaker adaptation. It can increase.

또한 음성 데이터에 대한 신뢰도 검증 과정을 통해 N-Best 인식 결과의 사용자 선택 과정으로 결정된 인식 결과와 실제 음성데이터의 차이가 존재할 경우에 대해서 검증할 수 있다. In addition, it is possible to verify the case where there is a difference between the recognition result and the actual voice data determined by the user selection process of the N-Best recognition result through the reliability verification process for the voice data.

이와 같이, N-Best 인식결과 화면 출력 및 사용자의 선택과 음성 데이터의 검증 과정을 통해 일반적인 비교사 방식(unsupervised mode) 화자 적응 방법에 비해, 교사 방식(supervised mode) 화자 적응 방법의 성능에 가까운 화자 적응 성능 향상을 얻을 수 있게 된다.In this way, the speaker who is closer to the performance of the supervised mode speaker adaptation method than the unsupervised mode speaker adaptation method through N-Best recognition result screen output and user selection and verification of the voice data. Adaptive performance improvements can be obtained.

본 발명은, 음성 데이터와 그에 대응하는 N 베스트 인식 결과 데이터를 포함하는 누적 데이터가 저장된 상태에서, 각 누적 데이터에 대한 신뢰도 검증을 수행한 후 이에 따라 음소별 관측 데이터를 누적 저장하고, 누적된 음소별 관측 데이터를 이용하여 화자 적응을 수행하여 신규 화자 종속 음향 모델을 생성하며, 현재의 음향 모델을 생성된 신규 화자 종속 음향 모델로 교체 갱신한다는 것이며, 이러한 기술적 수단을 통해 종래 기술에서의 문제점을 해결할 수 있다.According to the present invention, in a state where cumulative data including voice data and N-best recognition result data corresponding thereto are stored, reliability verification for each cumulative data is performed, and accordingly, the observation data for each phoneme is accumulated and stored accordingly. Speaker adaptation is performed using star observation data to generate a new speaker-dependent acoustic model, and replace and update the current acoustic model with the generated new speaker-dependent acoustic model. Can be.

이하 첨부된 도면을 참조하여 본 발명의 실시 예에 대하여 상세하게 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 실시 예에 따라 음성 인식 기능을 이용하여 입력된 음성 데이터에 대응하는 네비게이션 서비스를 제공하는데 적합한 네비게이션 장치의 블록 구성도로서, 입력부(102), 제어부(104), GPS 수신부(106), 센서부(108), 저장부(110), 영상 처리부(112), 표시부(114), 음성 처리부(116), 스피커(118), 음성 입력부(120), 음성 인식부(122) 등을 포함할 수 있다.1 is a block diagram of a navigation device suitable for providing a navigation service corresponding to input voice data using a voice recognition function according to an embodiment of the present invention, which includes an input unit 102, a control unit 104, and a GPS receiver ( 106, a sensor 108, a storage 110, an image processor 112, a display 114, a voice processor 116, a speaker 118, a voice input unit 120, a voice recognition unit 122, and the like. It may include.

도 1을 참조하면, 입력부(102)는 키패드, 터치 스크린 등을 이용하여 네비게이션 장치의 동작 제어를 위한 각종 조작신호를 발생하는 것으로, 네비게이션 활성 화를 요청하는 키를 입력할 경우 이에 따라 네비게이션 서비스의 요청 조작신호를 제어부(104)로 제공하고, 음성 입력 모드 활성화, 목적지 입력, 경로 탐색 등의 입력 조작신호를 발생하여 제어부(104)로 제공하는 등의 기능을 수행한다.Referring to FIG. 1, the input unit 102 generates various operation signals for controlling the operation of the navigation apparatus by using a keypad, a touch screen, and the like. A request operation signal is provided to the control unit 104, and an input operation signal such as voice input mode activation, destination input, and route search is generated and provided to the control unit 104.

그리고, 제어부(104)는 마이크로 프로세서 등을 포함하여 네비게이션 장치의 전반적인 동작 제어를 수행하며, 음성 인식을 위한 화자 적응 장치가 탑재되어 있는 것으로, 입력부(102)로부터 제공되는 각종 조작신호에 따라 GPS 수신부(106)로부터 제공되는 네비게이션 장치(즉, 네비게이션 장치가 장착된 이동체)의 위치값을 저장부(110)에 저장된 지도 데이터와 매핑하고, 센서부(108)로부터 제공되는 네비게이션 장치(또는 네비게이션 장치가 장착된 이동체)의 회전각 및 속도를 포함하는 센싱값을 지도 정보 데이터와 매핑시켜 그 매핑된 네비게이션 데이터(네비게이션 정보)를 영상 처리부(112)로 제공하고, 이를 화면에 표시하도록 제어하며, 각종 알람 신호, 음성 안내 신호를 스피커(118)를 통해 출력하기 위한 제어신호를 음성 처리부(116)에 제공하는 등의 기능을 수행한다.In addition, the control unit 104 performs overall operation control of the navigation device including a microprocessor and the like, and is equipped with a speaker adaptation device for speech recognition, and according to various operation signals provided from the input unit 102, the GPS receiver Map the position value of the navigation device (i.e., the mobile device on which the navigation device is mounted) provided from the 106 with the map data stored in the storage unit 110, and the navigation device (or the navigation device provided from the sensor unit 108) The sensing value including the rotation angle and the speed of the mounted moving object) is mapped to the map information data to provide the mapped navigation data (navigation information) to the image processing unit 112, and to display the mapped navigation data on the screen. Providing a control signal for outputting a signal, a voice guide signal through the speaker 118, to the voice processing unit 116, and the like. Performance.

또한, 제어부(104)는 일반 모드의 경우 입력부(102)로부터 네비게이션 서비스 요청 조작신호가 제공되면, 각 구성부를 활성화시켜 네비게이션 서비스를 동작시키고, 이에 따라 목적지 입력을 위한 메뉴 화면을 생성하여 디스플레이하기 위한 제어신호를 영상 처리부(112)로 제공하며, 입력부(102)로부터 목적지 입력 조작신호가 제공되면, 현재 이동체의 위치와 목적지간 최적 경로(즉, 목적지 경로)를 탐색하기 위한 제어신호를 GPS 수신부(106)에 제공하며, GPS 수신부(106)로부터 제공되는 이동체의 위치값을 저장부(110)에 저장된 지도 정보 데이터와 매핑시켜 현재 위치에서 목적지까지의 최적 경로를 탐색하여 이를 디스플레이하기 위한 제어신호를 영상 처리부(112)로 제공하고, 센서부(108)로부터의 센싱값에 따라 탐색된 최적 경로 상에 주행 경로를 표시하는 네비게이션 데이터를 영상 처리부(112)로 제공한다.In addition, when the navigation service request operation signal is provided from the input unit 102 in the normal mode, the controller 104 activates each component to operate the navigation service, thereby generating and displaying a menu screen for inputting a destination. When the control signal is provided to the image processor 112, and a destination input manipulation signal is provided from the input unit 102, the GPS receiver may provide a control signal for searching for an optimum path (that is, a destination path) between the current position of the moving object and the destination. 106, and maps the position value of the moving object provided from the GPS receiver 106 with the map information data stored in the storage unit 110 to search for and display an optimum path from the current position to the destination. Provided to the image processing unit 112 and displaying a driving route on an optimal route searched according to a sensing value from the sensor unit 108. The navigation data is provided to the image processor 112.

한편, 제어부(104)는 음성 입력 모드의 경우 입력부(102)로부터 음성 입력 모드 활성화 조작신호가 제공되면, 음성 입력 모드를 활성화시킨 후에, 음성 입력에 따른 네비게이션 기능을 동작시키고, 이에 따라 목적지 입력을 위한 메뉴 화면을 생성하여 디스플레이하기 위한 제어신호를 영상 처리부(112)로 제공하며, 음성 입력부(120)로부터 입력된 음성이 음성 인식부(122)를 통해 인식되어 N 개의 인식 결과가 전달되면, 해당 음성에 대응하는 N(N은 정수)개의 인식 결과 후보를 저장부(110)에서 검출한 후에, 이를 디스플레이하기 위한 제어신호를 영상 처리부(112)로 제공하며, 입력부(102)로부터 이러한 인식 결과 후보 중에 특정 후보 선택 조작신호가 제공되면, 해당 음성 데이터와 선택된 인식 결과 데이터를 누적 데이터로 저장부(110)에 저장한 후에, 선택된 인식 결과의 목적지에 따라 현재 이동체의 위치와 목적지간 최적 경로(즉, 목적지 경로)를 탐색하기 위한 제어신호를 GPS 수신부(106)에 제공하며, GPS 수신부(106)로부터 제공되는 이동체의 위치값을 저장부(110)에 저장된 지도 정보 데이터와 매핑시켜 현재 위치에서 목적지까지의 최적 경로를 탐색하여 이를 디스플레이하기 위한 제어신호를 영상 처리부(112)로 제공하고, 센서부(108)로부터의 센싱값에 따라 탐색된 최적 경로 상에 주행 경로를 표시하는 네비게이션 데이터를 영상 처리부(112)로 제공한다. 여기에서, 누적 데이터의 저장은 기 설정된 횟수(예를 들면, 20회, 30회 등)만큼 수행될 수 있다.On the other hand, in the case of the voice input mode, when the voice input mode activation operation signal is provided from the input unit 102, the controller 104 activates the voice input mode and then operates the navigation function according to the voice input. The control signal for generating and displaying a menu screen for the display is provided to the image processing unit 112. When the voices input from the voice input unit 120 are recognized through the voice recognition unit 122 and N recognition results are transmitted, After detecting N (N is an integer) recognition result candidates corresponding to the voice in the storage unit 110, a control signal for displaying the result is provided to the image processing unit 112, and the recognition result candidates are input from the input unit 102. If a specific candidate selection operation signal is provided during the operation, the selected speech result and the selected recognition result data are stored in the storage unit 110 as cumulative data, and then the selected in According to the result destination, the GPS receiver 106 provides a control signal for searching for the position of the current moving object and the optimum path (i.e., the destination path) between the destinations, and stores the position value of the moving object provided from the GPS receiver 106. Mapping with the map information data stored in the unit 110 to provide a control signal to the image processing unit 112 to search for and display the optimal path from the current location to the destination, according to the sensing value from the sensor unit 108 The navigation data indicating the driving route is provided to the image processor 112 on the found optimal route. Here, the storing of the accumulated data may be performed for a predetermined number of times (for example, 20 times, 30 times, etc.).

그리고, 제어부(104)는 기 설정된 횟수만큼 누적 데이터가 저장되면, 탑재된 음성 인식을 위한 화자 적응 장치를 이용하여 각각의 누적 데이터를 추출하고, 추출된 각 누적 데이터에 대해 신뢰도 평가를 바탕으로 검증하여 음소별 관측 데이터를 누적시킨 후에, 누적된 음소별 관측 데이터를 이용하여 화자 적응을 수행하고, 이에 따른 신규 화자 적응 음향 모델을 생성하며, 이러한 신규 화자 적응 음향 모델을 음성 인식을 위한 음향 모델로 적용하여 음향 모델을 갱신시킴으로써, 이 후 갱신된 신규 화자 적응 음향 모델을 통해 음성 인식을 이용한 음성 입력 모드를 수행하도록 제어한다.When the cumulative data is stored a predetermined number of times, the controller 104 extracts each cumulative data using the on-board speaker adaptation apparatus, and verifies the accumulated cumulative data based on the reliability evaluation. After accumulating the observation data for each phoneme, the speaker adaptation is performed using the accumulated phoneme observation data, and a new speaker adaptation acoustic model is generated accordingly. The new speaker adaptation acoustic model is used as an acoustic model for speech recognition. By updating the acoustic model by applying, it is then controlled to perform the voice input mode using speech recognition through the updated new speaker adaptive acoustic model.

다음에, GPS 수신부(106)는 다수의 인공 위성으로부터 안테나를 통해 수신되는 위성 신호를 이용하여 네비게이션 장치의 위치값을 계산하여 그 위치값을 제어부(104)로 전달한다.Next, the GPS receiver 106 calculates a position value of the navigation device by using satellite signals received through an antenna from a plurality of satellites, and transmits the position value to the controller 104.

그리고, 센서부(108)는 자이로 센서, 속도 센서 등을 포함하는 것으로, 네비게이션 장치(또는 네비게이션 장치가 장착된 이동체)의 회전각, 속도 등을 센싱 및 산출하여 그 회전각, 속도 등의 센싱값을 제어부(104)로 전달한다.The sensor unit 108 includes a gyro sensor, a speed sensor, and the like, and senses and calculates a rotation angle, a speed, and the like of the navigation device (or a moving body equipped with the navigation device), and senses the rotation angle, the speed, and the like. It passes to the control unit 104.

또한, 저장부(110)는 하드디스크 드라이브(HDD) 등을 포함하는 저장 매체인 것으로, 경로 탐색 및 네비게이션 서비스를 제공하기 위한 각종 지도 정보와, 음성 안내를 제공하기 위한 각종 음성 안내 정보와, 음성 인식 모듈, 음향 모델 등을 포함하는 음성 인식을 위한 화자 적응 장치의 동작을 위한 각종 응용 프로그램 등이 저장 관리되며, 이들은 필요에 따라 추출되어 제어부(104)로 제공된다.In addition, the storage unit 110 is a storage medium including a hard disk drive (HDD), and the like, various map information for providing a route search and navigation service, various voice guide information for providing a voice guidance, and voice. Various application programs for operation of the speaker adaptation apparatus for speech recognition including a recognition module, an acoustic model, and the like are stored and managed, and these are extracted and provided to the controller 104 as necessary.

한편, 영상 처리부(112)는 MPEG 코덱 등을 포함하여 영상 신호에 대한 디지털 신호 처리를 수행하는 것으로, 제어부(104)로부터 최적 경로 또는 주행 경로를 표시하는 네비게이션 데이터가 제공되면 이를 영상 신호 처리하여 LCD 등을 포함하는 표시부(114)를 통해 디스플레이하며, 제어부(104)로부터 제공되는 N개의 인식 결과 후보에 대한 선택 메뉴 화면을 생성하고, 이를 표시부(114)를 통해 디스플레이한다.Meanwhile, the image processing unit 112 performs digital signal processing on an image signal including an MPEG codec and the like. When the navigation data indicating an optimum path or a driving path is provided from the control unit 104, the image processing unit processes the image signal to display the LCD. The display unit 114 displays a selection menu screen for the N recognition result candidates provided from the control unit 104 and displays the selection menu screen through the display unit 114.

그리고, 음성 처리부(116)는 MPEG 코덱 등을 포함하여 음성 신호에 대한 디지털 신호 처리를 수행하는 것으로, 제어부(104)로부터 네비게이션 서비스 중에 음성 안내가 필요한 시점에 음성 안내 데이터가 제공되면 이를 음성 신호 처리하여 스피커(118)를 통해 출력한다.In addition, the voice processing unit 116 performs digital signal processing on a voice signal including an MPEG codec, and the like, and when the voice guidance data is provided from the control unit 104 at a point of time during the navigation service, the voice signal processing is performed. To output through the speaker 118.

다음에, 음성 입력부(120)는 마이크 등을 포함하여 음성을 입력하는 것으로, 음성 입력 모드에서 사용자 음성을 입력시켜 이러한 음성 데이터를 음성 인식부(122)로 전달한다.Next, the voice input unit 120 inputs a voice including a microphone and the like, and inputs a user voice in the voice input mode to transfer the voice data to the voice recognition unit 122.

그리고, 음성 인식부(122)는 음성 인식 모듈을 이용하여 음성 입력부(120)로부터 전달되는 음성 데이터를 인식하여 그 인식 결과를 제어부(104)에 전달한다.The voice recognition unit 122 recognizes the voice data transmitted from the voice input unit 120 using the voice recognition module and transmits the recognition result to the control unit 104.

다음에, 상술한 바와 같은 구성을 갖는 네비게이션 장치에서, 입력된 음성 데이터와 이에 대응하는 인식 결과 데이터를 기 설정된 횟수만큼 누적시킨 상태에서, 각각의 누적 데이터를 추출하고, 추출된 각 누적 데이터에 대해 신뢰도 평가를 바탕으로 검증하여 음소별 관측 데이터를 누적시킨 후에, 누적된 음소별 관측 데이터를 이용하여 화자 적응을 수행하고, 이에 따른 신규 화자 적응 음향 모델을 생성 하며, 이러한 신규 화자 적응 음향 모델을 음성 인식을 위한 음향 모델로 적용하여 음향 모델을 갱신하는 음성 인식을 위한 화자 적응 장치에 대해 설명한다.Next, in the navigation device having the above-described configuration, in the state in which the input voice data and the corresponding recognition result data are accumulated for a predetermined number of times, each accumulated data is extracted, and for each of the extracted accumulated data, After accumulating the observation data for each phoneme by verifying it based on the reliability evaluation, the speaker adaptation is performed using the accumulated phoneme observation data, and a new speaker adaptation acoustic model is generated accordingly. A speaker adaptation apparatus for speech recognition, which is applied as an acoustic model for recognition and updates the acoustic model, will now be described.

도 2는 본 발명의 실시 예에 따라 음성 데이터와 인식 결과 데이터를 포함하는 누적 데이터를 검증하여 신규 화자 종속 음향 모델로 생성 및 갱신하는데 적합한 음성 인식을 위한 화자 적응 장치의 블록 구성도로서, 음성 데이터 검증부(202), 음향 모델 화자 적응부(204), 음향 모델 갱신부(206) 등을 포함할 수 있다.FIG. 2 is a block diagram of a speaker adaptation apparatus for speech recognition suitable for generating and updating a cumulative data including speech data and recognition result data into a new speaker-dependent acoustic model according to an embodiment of the present invention. The verification unit 202, the acoustic model speaker adaptor 204, and the acoustic model updater 206 may be included.

도 2를 참조하면, 음성 데이터 검증부(202)는 누적된 음성 데이터에 대해서 함께 누적된 (음성)인식 결과 데이터가 맞는 것인지를 신뢰도 평가를 수행하여 검증하는 것으로, 기 설정된 횟수만큼 누적된 누적 데이터(즉, 음성 데이터와 이에 대응하는 인식 결과 데이터)를 저장부(110)에서 추출한 후에 누적 음성 데이터와 인식 결과 데이터를 사용하여 신뢰도 측정을 수행한다. 여기에서, 신뢰도 측정은 일반적으로 주어진 음성 데이터와 인식 결과 단어를 음소열로 변환한 인식 결과 음소 열 데이터로 평가되는데, 음성 데이터가 해당 음소와 얼마나 유사한지를 신뢰도로서 정의하고 이를 계산할 수 있다.Referring to FIG. 2, the speech data verification unit 202 verifies whether the accumulated speech data is correct by accumulating the (voice) recognition result data. After extracting the voice data and the corresponding recognition result data from the storage 110, reliability measurement is performed using the accumulated voice data and the recognition result data. Here, the reliability measurement is generally evaluated as the recognition result phoneme string data obtained by converting the given speech data and the recognition result word into a phoneme string. The reliability of the voice data and the phoneme may be defined as reliability and calculated.

그리고, 음성 데이터 검증부(202)는 신뢰도 측정을 통해 측정된 신뢰도와 기 설정된 임계값과 비교한다. 이러한 비교 과정을 수행하는 이유는 사용자가 N개의 인식 결과(즉, N-best 인식 결과) 중 정답을 선택한다고 하더라도, 선택된 목적지 명칭이 실제 음성과 동일하지 않을 수 있기 때문이다. 예를 들면, 사용자가 "서울 대학교"라고 발성하였는데, N개의 인식 결과 중 "서울대"를 선택할 수 있기 때문이 며, 이러한 경우 "서울 대학교" 발성에 대해 "서울대"를 정답 레퍼런스로 화자 적응을 수행할 경우 잘못된 데이터로 적응을 하는 것이기 때문에 오히려 성능이 저하 될 수 있으므로, 누적된 음성 데이터와 인식 결과 데이터에 대해서 위와 같은 검증 작업을 수행함으로써, 음성 인식 성능을 향상시킬 수 있다.The voice data verification unit 202 compares the reliability measured through the reliability measurement with a preset threshold. The reason for performing this comparison process is that even if the user selects a correct answer among N recognition results (ie, N-best recognition results), the selected destination name may not be the same as the actual voice. For example, the user spoke with "Seoul National University" because the user could select "Seoul National University" among N recognition results. In this case, the speaker adaptation using "Seoul National University" as the correct reference for the "Seoul National University" speech was performed. In this case, the performance may be deteriorated because it is adapted to the wrong data. Therefore, by performing the above verification operation on the accumulated speech data and the recognition result data, the speech recognition performance may be improved.

여기에서, 음성 데이터 검증부(202)는 측정된 신뢰도가 기 설정된 임계값보다 작은 경우(즉, 음성 데이터와 인식 결과 데이터가 완전히 일치하지 않는 경우) 해당 데이터에 대해서는 화자 적응을 수행하지 않고, 누적된 음성 데이터 중 다음 음성 데이터에 대한 신뢰도 측정을 수행한다(즉, 다음 누적 데이터에 대한 신뢰도 측정 과정을 수행한다).Here, the voice data verification unit 202 does not perform speaker adaptation on the corresponding data when the measured reliability is smaller than the preset threshold (that is, when the voice data and the recognition result data do not completely match), and accumulate the speaker. The reliability measurement is performed on the next voice data among the received voice data (ie, the reliability measurement process is performed on the next cumulative data).

또한, 음성 데이터 검증부(202)는 측정된 신뢰도가 기 설정된 임계값보다 큰 경우 해당 음성 데이터와 인식 결과 데이터에 대응하는 음소열을 이용하여 음소별 관측 데이터를 획득하여 누적시킨다. 즉, 음성 데이터에 대해 주어진 음소열(즉, 신뢰도 비교를 통해 획득된 음소열)로 강제 정렬(forced alignment)을 수행하여 음성 구간별 관측 데이터를 검출하고, 해당 데이터를 음소별로 누적할 수 있다.In addition, when the measured reliability is greater than a preset threshold, the voice data verification unit 202 acquires and accumulates the observation data for each phoneme using phoneme strings corresponding to the corresponding voice data and the recognition result data. That is, observation data for each voice section may be detected by performing forced alignment on a given phoneme string (ie, a phoneme string obtained through a comparison of reliability), and the corresponding data may be accumulated for each phoneme.

다음에, 음성 데이터 검증부(202)는 음소별 관측 데이터의 누적 과정이 완료되면, 신뢰도 측정과 음소별 관측 데이터 누적 과정이 현재 누적된 모든 누적 데이터에 대해 완료되었는지를 판단한 후에, 모든 누적 데이터 검증이 완료되지 않은 경우 다음 누적 데이터에 대해 신뢰도 측정을 수행하고, 모든 누적 데이터 검증이 완료된 경우 누적된 음소별 관측 데이터를 음향 모델 화자 적응부(204)로 전달한다.Next, when the accumulation process of the phoneme-based observation data is completed, the voice data verification unit 202 determines whether the reliability measurement and the phoneme-based observation data accumulation process have been completed for all the accumulated data. If this is not completed, the reliability measurement is performed on the next cumulative data. When all the cumulative data verification is completed, the accumulated phoneme-specific observation data is transmitted to the acoustic model speaker adaptor 204.

그리고, 음향 모델 화자 적응부(204)는 정답 레퍼런스 데이터로서 음성 인식 결과 데이터에 따른 신뢰도가 높은 음성 데이터를 이용하여 화자 적응을 수행하는 것으로, 전달되는 음소별 관측 데이터를 사용하여 화자 적응 수행함으로써, 신규 화자 종속 음향 모델을 생성한다.In addition, the acoustic model speaker adaptor 204 performs speaker adaptation using speech data having high reliability according to the speech recognition result data as correct reference data, and performs speaker adaptation using the observed phonemic data. Create a new speaker-dependent acoustic model.

다음에, 음향 모델 갱신부(206)는 신규 화자 종속 음향 모델로 현재의 음향 모델을 교체 갱신하는 것으로, 현재의 음향 모델을 생성된 신규 화자 종속 음향 모델로 교체함으로써, 음향 모델을 갱신한다.Next, the acoustic model updating unit 206 replaces and updates the current acoustic model with the new speaker dependent acoustic model, and updates the acoustic model by replacing the current acoustic model with the generated new speaker dependent acoustic model.

다음에, 상술한 바와 같은 구성을 갖는 네비게이션 장치의 음성 입력 모드에서 입력된 음성을 인식한 후 다수의 음성 인식 결과 후보를 검출하여 디스플레이하고, 이중에서 선택된 인식 결과 데이터를 음성 인식된 음성 데이터와 함께 저장하며, 기 설정된 횟수만큼 상술한 바와 같은 과정을 반복 수행하여 누적 데이터를 저장하는 과정에 대해 설명한다.Next, after recognizing the voice input in the voice input mode of the navigation device having the above-described configuration, a plurality of voice recognition result candidates are detected and displayed, and among the voice recognition data selected among the voice recognition result data. A process of storing cumulative data by repeating the above-described process a predetermined number of times will be described.

도 3은 본 발명의 일 실시 예에 따라 화자 적응을 위한 누적 데이터를 저장하는 과정을 도시한 플로우차트이다.3 is a flowchart illustrating a process of storing cumulative data for speaker adaptation according to an embodiment of the present invention.

도 3을 참조하면, 네비게이션 장치의 음성 입력 모드에서(단계302), 네비게이션 장치에서는 음성 입력에 따른 네비게이션 기능을 동작시키고, 이에 따라 예를 들면, 목적지 입력을 위한 메뉴 화면 등이 디스플레이하는 중에, 음성 입력부(120)에서는 예를 들면, 목적지 입력 등을 위한 음성이 입력되는지를 체크한다(단계304).Referring to FIG. 3, in the voice input mode of the navigation device (step 302), the navigation device operates a navigation function according to a voice input, and thus, for example, a menu screen for inputting a destination is displayed. The input unit 120 checks whether a voice for inputting a destination is input, for example (step 304).

상기 단계(304)에서의 체크 결과, 음성이 입력될 경우 음성 입력부(120)에서 는 입력된 음성을 음성 인식부(122)로 전달하고, 음성 인식부(122)에서는 입력된 음성을 인식하여 N개의 인식 결과(예를 들면, 음성 데이터에 대응하는 문자 데이터 등)를 제어부(104)에 전달한다(단계306).As a result of the check in the step 304, if a voice is input, the voice input unit 120 transmits the input voice to the voice recognition unit 122, and the voice recognition unit 122 recognizes the input voice and N Two recognition results (for example, text data corresponding to voice data, etc.) are transmitted to the control unit 104 (step 306).

그리고, 제어부(104)에서는 해당 N개의 인식 결과에 대응하는 N(N은 정수)개의 인식 결과 후보를 저장부(110)에서 검출한 후에, 이를 디스플레이하기 위한 제어신호를 영상 처리부(112)로 제공하며, 영상 처리부(112)에서는 이러한 인식 결과 후보를 포함하는 인식 결과 메뉴 화면을 구성하여 표시부(114)를 통해 디스플레이한다(단계308). 일 예로서, 도 5는 본 발명의 실시 예에 따라 입력된 음성 데이터에 대응하는 인식 결과 후보를 포함하는 인식 결과 메뉴 화면을 예시한 도면으로, 입력된 음성에 대응하여 다양한 인식 결과 후보가 디스플레이될 수 있음을 알 수 있다.In addition, the controller 104 detects N (N is an integer) recognition result candidates corresponding to the N recognition results from the storage 110, and then provides a control signal for displaying them to the image processor 112. In addition, the image processor 112 constructs a recognition result menu screen including the recognition result candidate and displays the same through the display unit 114 (step 308). As an example, FIG. 5 is a diagram illustrating a recognition result menu screen including a recognition result candidate corresponding to input voice data according to an embodiment of the present invention, in which various recognition result candidates are displayed in response to the input voice. It can be seen that.

다음에, 제어부(104)에서는 입력부(102)로부터 이러한 인식 결과 후보 중에 특정 후보 선택 조작신호가 제공되는지를 체크한다(단계310).Next, the control unit 104 checks from the input unit 102 whether a specific candidate selection operation signal is provided among these recognition result candidates (step 310).

상기 단계(310)에서의 체크 결과, 특정 후보 선택 조작신호가 제공되면, 제어부(104)에서는 해당 음성 데이터와 선택된 인식 결과 데이터를 누적 데이터로 저장부(110)에 저장한다(단계312).As a result of the check in step 310, if a specific candidate selection operation signal is provided, the controller 104 stores the corresponding voice data and the selected recognition result data in the storage 110 as cumulative data (step 312).

이와 함께, 제어부(104)에서는 GPS 수신부(106)를 제어하여 선택된 인식 결과의 목적지에 따라 현재 이동체의 위치와 목적지간 최적 경로(즉, 목적지 경로)를 탐색하고, GPS 수신부(106)로부터의 이동체의 위치값을 저장부(110)에 저장된 지도 정보 데이터와 매핑시켜 현재 위치에서 목적지까지의 최적 경로를 탐색하여 이를 영상 처리부(112) 및 표시부(114)를 통해 디스플레이하는 등의 네비게이션 서비스를 제공한다(단계314).In addition, the controller 104 controls the GPS receiver 106 to search for the optimum path (i.e., the destination path) between the current moving object and the destination according to the destination of the selected recognition result, and the moving object from the GPS receiver 106. Maps the location value with the map information data stored in the storage unit 110 to search for an optimal path from the current location to the destination and provide the navigation service such as displaying through the image processing unit 112 and the display unit 114 (Step 314).

다음에, 제어부(104)에서는 누적 데이터의 저장이 기 설정된 횟수(예를 들면, 20회, 30회 등)만큼 수행되었는지를 체크한다(단계316).Next, the controller 104 checks whether the storage of the accumulated data has been performed a predetermined number of times (for example, 20 times, 30 times, etc.) (step 316).

상기 단계(316)에서의 체크 결과, 누적 데이터의 저장이 기 설정된 횟수만큼 수행되지 않은 경우 제어부(104)에서는 누적 데이터의 저장이 기 설정된 횟수만큼 수행될 때까지 단계302 내지 단계314의 과정을 반복 수행한다.As a result of the check in step 316, if the accumulation of the accumulated data has not been performed a predetermined number of times, the controller 104 repeats the processes of steps 302 to 314 until the accumulation of the accumulated data is performed a predetermined number of times. To perform.

따라서, 네비게이션 장치의 음성 입력 모드에서 음성 입력에 따른 인식 결과 후보를 검출하고, 선택된 인식 결과 데이터를 음성 데이터와 함께 누적 저장하여 화자 적응을 수행하기 위한 누적 데이터를 효과적으로 저장할 수 있다.Therefore, in the voice input mode of the navigation device, the recognition result candidate according to the voice input may be detected, and the selected recognition result data may be accumulated and stored together with the voice data to effectively store accumulated data for speaker adaptation.

다음에, 상술한 바와 같이 음성 데이터와 그에 대응하는 인식 결과 데이터를 포함하는 누적 데이터가 저장된 상태에서, 각 누적 데이터에 대한 신뢰도 검증을 수행한 후 이에 따라 음소별 관측 데이터를 누적 저장하고, 누적된 음소별 관측 데이터를 이용하여 화자 적응을 수행하여 신규 화자 종속 음향 모델을 생성하며, 현재의 음향 모델을 생성된 신규 화자 종속 음향 모델로 교체 갱신하는 과정에 대해 설명한다.Next, while accumulating data including voice data and recognition result data corresponding thereto is stored as described above, reliability verification of each cumulative data is performed, and accordingly, the observation data for each phoneme is accumulated and stored accordingly. A process of performing speaker adaptation by using phoneme-specific observation data to generate a new speaker-dependent acoustic model and replacing and updating the current acoustic model with the generated new speaker-dependent acoustic model will be described.

도 4는 본 발명의 다른 실시 예에 따라 누적 데이터를 통해 신규 화자 종속 음향 모델을 생성하여 음향 모델을 갱신하는 과정을 도시한 플로우차트이다.4 is a flowchart illustrating a process of updating a sound model by generating a new speaker dependent acoustic model through cumulative data according to another embodiment of the present invention.

도 4를 참조하면, 네비게이션 장치의 저장부(110)에 음성 데이터와 그에 대응하는 인식 결과 데이터를 포함하는 누적 데이터가 저장된 상태에서, 제어부(104) 에서는 예를 들면, 네비게이션 장치가 동작되지 않는 경우, 네비게이션 장치를 업그레이드할 경우에 탑재된 음성 인식을 위한 화자 적응 장치를 활성화시키고, 이러한 화자 적응 장치의 음성 데이터 검증부(202)에서는 저장부(110)에 저장된 누적 데이터를 추출한다(단계402).Referring to FIG. 4, for example, when the navigation device is not operated in the controller 104 in a state where cumulative data including voice data and recognition result data corresponding thereto are stored in the storage unit 110 of the navigation device. When the navigation device is upgraded, the speaker adaptation device for speech recognition is activated, and the speech data verification unit 202 of the speaker adaptation device extracts the accumulated data stored in the storage unit 110 (step 402). .

그리고, 화자 적응 장치의 음성 데이터 검증부(202)에서는 추출된 누적 데이터에 포함된 음성 데이터와 인식 결과 데이터를 사용하여 신뢰도 측정을 수행한다(단계404). 여기에서, 신뢰도 측정은 음성 데이터와 인식 결과 단어를 음소열로 변환한 인식 결과 음소열 데이터를 이용하여 신뢰도를 계산하는 방식으로 수행될 수 있다.The speech data verification unit 202 of the speaker adaptation apparatus measures reliability using the speech data included in the extracted accumulated data and the recognition result data (step 404). In this case, the reliability measurement may be performed by calculating reliability using the recognition result phoneme string data obtained by converting the voice data and the recognition result word into a phoneme string.

다음에, 음성 데이터 검증부(202)에서는 신뢰도 측정을 통해 측정된 신뢰도와 기 설정된 임계값과 비교한다(단계406).Next, the voice data verification unit 202 compares the reliability measured through the reliability measurement with a preset threshold (step 406).

한편, 음성 데이터 검증부(202)에서는 측정된 신뢰도가 기 설정된 임계값보다 큰 값을 갖는지를 체크한다(단계408).On the other hand, the voice data verification unit 202 checks whether the measured reliability has a value greater than the preset threshold (step 408).

상기 단계(408)에서의 체크 결과, 측정된 신뢰도가 기 설정된 임계값보다 작은 값을 갖는 경우, 음성 데이터 검증부(202)에서는 다음 누적 데이터를 추출한 후에(단계410), 단계404 내지 단계408의 과정을 재수행한다.As a result of the check in the step 408, if the measured reliability has a value smaller than the preset threshold value, the voice data verification unit 202 extracts the next cumulative data (step 410) and then the steps 404 to 408. Rerun the process.

한편, 상기 단계(408)에서의 체크 결과, 측정된 신뢰도가 기 설정된 임계값보다 큰 값을 갖는 경우 음성 데이터 검증부(202)에서는 해당 음성 데이터와 인식 결과 데이터에 대응하는 음소열을 사용하여 음소별 관측 데이터를 누적시킨다(단계412). 즉, 음성 데이터에 대해 주어진 음소열로 강제 정렬하여 음성 구간별 관측 데이터를 찾고, 해당 데이터를 음소별로 누적할 수 있다.On the other hand, when the result of the check in the step 408, the measured reliability has a value larger than the predetermined threshold value, the voice data verification unit 202 uses the phoneme string corresponding to the corresponding speech data and the recognition result data phoneme Star observation data is accumulated (step 412). That is, observation data for each voice section may be found by forcibly sorting the voice data into a given phoneme string, and the corresponding data may be accumulated for each phoneme.

다음에, 음성 데이터 검증부(202)에서는 모든 누적 데이터에 대한 음소별 관측 데이터의 누적 저장이 완료되었는지를 체크한다(단계414).Next, the voice data verification unit 202 checks whether the cumulative storage of observation data for each phoneme for all cumulative data is completed (step 414).

상기 단계(414)에서의 체크 결과, 모든 누적 데이터에 대한 음소별 관측 데이터의 누적 저장이 완료되지 않은 경우, 음성 데이터 검증부(202)에서는 다음 누적 데이터를 추출한 후(단계410), 단계404에서부터의 과정을 재수행한다.As a result of the check in the step 414, if the cumulative storage of observation data for each phoneme for all cumulative data is not completed, the voice data verification unit 202 extracts the next cumulative data (step 410), and then starts from step 404. Rerun the process.

한편, 상기 단계(414)에서의 체크 결과, 모든 누적 데이터에 대한 음소별 관측 데이터의 누적 저장이 완료된 경우, 음향 모델 화자 적응부(204)는 누적 저장된 음소별 관측 데이터를 이용하여 화자 적응 수행함으로써, 신규 화자 종속 음향 모델을 생성한다(단계416, 418).On the other hand, when the cumulative storage of the phoneme observation data for all the cumulative data is completed as a result of the check in step 414, the acoustic model speaker adaptor 204 performs speaker adaptation by using the stored and stored phoneme-specific observation data. A new speaker dependent acoustic model is created (steps 416 and 418).

다음에, 음향 모델 갱신부(206)에서는 현재의 음향 모델을 생성된 신규 화자 종속 음향 모델로 교체함으로써, 음향 모델을 갱신한다(단계420).Next, the acoustic model updating unit 206 updates the acoustic model by replacing the current acoustic model with the generated new speaker dependent acoustic model (step 420).

따라서, 각 누적 데이터에 대한 신뢰도 검증을 수행한 후 이에 따라 음소별 관측 데이터를 누적 저장하고, 누적된 음소별 관측 데이터를 이용하여 화자 적응을 수행하여 신규 화자 종속 음향 모델을 생성하며, 현재의 음향 모델을 생성된 신규 화자 종속 음향 모델로 교체 갱신함으로써, 네비게이션 장치에서 음성 인식을 위한 화자 적응을 효과적으로 수행할 수 있다.Accordingly, after verifying reliability of each cumulative data, accumulate and store observation data for each phoneme according to the accumulator, and perform speaker adaptation using the accumulated phoneme observation data to generate a new speaker-dependent acoustic model. By replacing and updating the model with the generated new speaker-dependent acoustic model, it is possible to effectively perform speaker adaptation for speech recognition in the navigation device.

이상의 설명에서는 본 발명의 다양한 실시 예들을 제시하여 설명하였으나 본 발명이 반드시 이에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가 지 치환, 변형 및 변경이 가능함을 쉽게 알 수 있을 것이다.In the foregoing description, various embodiments of the present invention have been described and described, but the present invention is not necessarily limited thereto. It will be readily appreciated that the substitutions, modifications and variations are possible.

도 1은 본 발명의 실시 예에 따라 음성 인식 기능을 이용하여 입력된 음성 데이터에 대응하는 네비게이션 서비스를 제공하는데 적합한 네비게이션 장치의 블록 구성도,1 is a block diagram of a navigation device suitable for providing a navigation service corresponding to input voice data using a voice recognition function according to an embodiment of the present invention;

도 2는 본 발명의 실시 예에 따라 음성 데이터와 인식 결과 데이터를 포함하는 누적 데이터를 검증하여 신규 화자 종속 음향 모델로 생성 및 갱신하는데 적합한 음성 인식을 위한 화자 적응 장치의 블록 구성도,2 is a block diagram of a speaker adaptation apparatus for speech recognition suitable for generating and updating a new speaker-dependent acoustic model by verifying cumulative data including speech data and recognition result data according to an embodiment of the present invention;

도 3은 본 발명의 일 실시 예에 따라 화자 적응을 위한 누적 데이터를 저장하는 과정을 도시한 플로우차트,3 is a flowchart illustrating a process of storing cumulative data for speaker adaptation according to an embodiment of the present invention;

도 4는 본 발명의 다른 실시 예에 따라 누적 데이터를 통해 신규 화자 종속 음향 모델을 생성하여 음향 모델을 갱신하는 과정을 도시한 플로우차트,4 is a flowchart illustrating a process of updating a sound model by generating a new speaker dependent acoustic model through cumulative data according to another embodiment of the present invention;

도 5는 본 발명의 실시 예에 따라 입력된 음성 데이터에 대응하는 인식 결과 후보를 포함하는 인식 결과 메뉴 화면을 예시한 도면.5 is a diagram illustrating a recognition result menu screen including a recognition result candidate corresponding to input voice data according to an exemplary embodiment of the present invention.

<도면의 주요부분에 대한 부호의 설명><Description of the symbols for the main parts of the drawings>

102 : 입력부 104 : 제어부102 input unit 104 control unit

106 : GPS 수신부 108 : 센서부106: GPS receiver 108: sensor

110 : 저장부 112 : 영상 처리부110: storage unit 112: image processing unit

114 : 표시부 116 : 음성 처리부114: display unit 116: voice processing unit

118 : 스피커 120 : 음성 입력부118: speaker 120: voice input unit

122 : 음성 인식부 202 : 음성 데이터 검증부122: speech recognition unit 202: speech data verification unit

204 : 음향 모델 화자 적응부 206 : 음향 모델 갱신부204: Acoustic model speaker adaptor 206: Acoustic model update unit

Claims (10)

음성 데이터와 그에 대응하는 N 베스트 인식 결과 데이터를 포함하는 누적 데이터에 대한 신뢰도 평가를 통해 검증하여 상기 누적 데이터에 대한 음소별 관측 데이터를 획득하는 음성 데이터 검증부와,A voice data verification unit verifying the accumulated data including the voice data and the N-best recognition result data corresponding thereto and acquiring observation data for each phoneme of the accumulated data by verifying the reliability data; 상기 획득된 음소별 관측 데이터를 이용하여 화자 적응을 수행하는 음향 모델 화자 적응부와,An acoustic model speaker adaptor for performing speaker adaptation using the acquired phoneme-specific observation data; 상기 수행된 화자 적응을 통해 생성된 신규 화자 종속 음향 모델로 음향 모델을 갱신하는 음향 모델 갱신부Acoustic model updating unit for updating an acoustic model with a new speaker dependent acoustic model generated by the speaker adaptation performed above 를 포함하는 음성 인식을 위한 화자 적응 장치.Speaker adaptation device for speech recognition comprising a. 제 1 항에 있어서,The method of claim 1, 상기 음성 데이터 검증부는, 상기 인식 결과 데이터의 단어를 음소열로 변환한 인식 결과 음소열 데이터와 상기 음성 데이터를 이용하여 상기 신뢰도 평가를 수행하는 음성 인식을 위한 화자 적응 장치.And the voice data verification unit is configured to perform the reliability evaluation using the recognition result phoneme string data and the voice data obtained by converting a word of the recognition result data into a phoneme string. 제 2 항에 있어서,The method of claim 2, 상기 음성 데이터 검증부는, 상기 인식 결과 음소열 데이터와 상기 음성 데이터의 유사 여부를 계산하여 측정된 신뢰도와 기 설정된 임계값을 비교하여 상기 신뢰도 평가를 수행하는 음성 인식을 위한 화자 적응 장치.And the speech data verification unit calculates the similarity between the phoneme string data and the speech data as a result of the recognition, and compares the measured reliability with a preset threshold to perform the reliability evaluation. 제 3 항에 있어서,The method of claim 3, wherein 상기 음성 데이터 검증부는, 상기 측정된 신뢰도가 상기 기 설정된 임계값보다 큰 값을 갖는 경우 획득된 음소열을 이용하여 상기 음소별 관측 데이터를 획득하는 음성 인식을 위한 화자 적응 장치.And the speech data verification unit obtains the observation data for each phoneme by using a phoneme string obtained when the measured reliability has a value greater than the preset threshold. 제 4 항에 있어서,The method of claim 4, wherein 상기 음성 데이터 검증부는, 상기 획득된 음소열에 따라 상기 음성 데이터를 강제 정렬하여 음성 구간별 관측 데이터를 검출하고, 이를 음소별로 누적하여 상기 음소별 관측 데이터를 획득하는 음성 인식을 위한 화자 적응 장치.And the speech data verification unit detects observation data for each speech section by forcibly sorting the speech data according to the obtained phoneme sequence, and accumulates the speech data for each phoneme to obtain observation data for each phoneme. 음성 데이터와 그에 대응하는 N 베스트 인식 결과 데이터를 포함하는 누적 데이터를 추출하는 단계와,Extracting cumulative data including voice data and N best recognition result data corresponding thereto; 상기 추출된 누적 데이터에 대한 신뢰도 평가를 통해 검증하여 상기 누적 데이터에 대한 음소별 관측 데이터를 획득하는 단계와,Obtaining observation data for each phoneme of the cumulative data by verifying the reliability of the extracted cumulative data; 상기 누적 데이터를 추출하는 단계 및 음소별 관측 데이터를 획득하는 단계를 모든 누적 데이터에 대해 반복 수행하여 상기 음소별 관측 데이터를 누적하는 단계와,Accumulating the observation data for each phoneme by repeatedly extracting the cumulative data and acquiring observation data for each phoneme for all the cumulative data; 상기 누적된 음소별 관측 데이터를 이용하여 화자 적응을 수행하는 단계와,Performing speaker adaptation using the accumulated phoneme-specific observation data; 상기 화자 적응을 통해 생성된 신규 화자 종속 음향 모델로 음향 모델을 갱신하는 단계Updating an acoustic model with a new speaker dependent acoustic model generated through the speaker adaptation; 를 포함하는 음성 인식을 위한 화자 적응 방법.Speaker adaptation method for speech recognition comprising a. 제 6 항에 있어서,The method of claim 6, 상기 음소별 관측 데이터를 추출하는 단계는,Extracting the observation data for each phoneme, 상기 추출된 누적 데이터에 대한 신뢰도를 측정하는 단계와,Measuring a reliability of the extracted cumulative data; 상기 측정된 신뢰도와 기 설정된 임계값을 비교하는 단계와,Comparing the measured reliability with a preset threshold value; 상기 비교 결과에 따라 상기 음소별 관측 데이터를 선택 획득하는 단계Selectively acquiring observation data for each phoneme according to the comparison result 를 포함하는 음성 인식을 위한 화자 적응 방법.Speaker adaptation method for speech recognition comprising a. 제 7 항에 있어서,The method of claim 7, wherein 상기 음소별 관측 데이터를 선택 획득하는 단계는,Selecting and obtaining the observation data for each phoneme, 상기 측정된 신뢰도가 상기 기 설정된 임계값보다 작은 값을 갖는 경우 다음 누적 데이터에 대해 상기 측정하는 단계 및 비교하는 단계를 재수행하는 단계와,If the measured reliability has a value smaller than the preset threshold, performing the measuring and comparing with respect to the next cumulative data; 상기 측정된 신뢰도가 상기 기 설정된 임계값보다 큰 값을 갖는 경우 상기 음소별 관측 데이터를 획득하는 단계Acquiring observation data for each phoneme when the measured reliability has a value greater than the preset threshold; 를 포함하는 음성 인식을 위한 화자 적응 방법.Speaker adaptation method for speech recognition comprising a. 제 7 항 또는 제 8 항에 있어서,9. The method according to claim 7 or 8, 상기 신뢰도를 측정하는 단계는, 상기 인식 결과 데이터의 단어를 음소열로 변환한 인식 결과 음소열 데이터와 상기 음성 데이터를 이용하여 수행되는 음성 인식을 위한 화자 적응 방법.The measuring of the reliability may be performed by using a recognition result phoneme string data and the voice data of converting a word of the recognition result data into a phoneme string. 제 8 항에 있어서,The method of claim 8, 상기 음소별 관측 데이터를 획득하는 단계는, 상기 측정된 신뢰도가 상기 기 설정된 임계값보다 큰 값을 갖는 경우 획득된 음소열에 따라 상기 음성 데이터를 강제 정렬하여 음성 구간별 관측 데이터를 검출하고, 이를 음소별로 누적하여 상기 음소별 관측 데이터를 획득하는 음성 인식을 위한 화자 적응 방법.The acquiring observation data for each phoneme may detect the observation data for each voice section by forcibly sorting the voice data according to a phoneme string obtained when the measured reliability has a value greater than the preset threshold. Speaker adaptation method for speech recognition to accumulate by the phone to obtain the observation data for each phoneme.
KR1020080131772A 2008-12-22 2008-12-22 Speaker adaptation apparatus and its method for a speech recognition KR20100073178A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080131772A KR20100073178A (en) 2008-12-22 2008-12-22 Speaker adaptation apparatus and its method for a speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080131772A KR20100073178A (en) 2008-12-22 2008-12-22 Speaker adaptation apparatus and its method for a speech recognition

Publications (1)

Publication Number Publication Date
KR20100073178A true KR20100073178A (en) 2010-07-01

Family

ID=42636174

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080131772A KR20100073178A (en) 2008-12-22 2008-12-22 Speaker adaptation apparatus and its method for a speech recognition

Country Status (1)

Country Link
KR (1) KR20100073178A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015167077A1 (en) * 2014-04-30 2015-11-05 현대엠엔소프트 주식회사 Navigation apparatus and control method therefor
WO2019054680A1 (en) * 2017-09-13 2019-03-21 (주)파워보이스 Speaker identification method in artificial intelligence secretarial service in which context-dependent speaker identification and context-independent speaker identification are converged, and voice recognition device used therefor
WO2019216461A1 (en) * 2018-05-10 2019-11-14 주식회사 시스트란인터내셔널 Artificial intelligence service method and device therefor

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015167077A1 (en) * 2014-04-30 2015-11-05 현대엠엔소프트 주식회사 Navigation apparatus and control method therefor
WO2019054680A1 (en) * 2017-09-13 2019-03-21 (주)파워보이스 Speaker identification method in artificial intelligence secretarial service in which context-dependent speaker identification and context-independent speaker identification are converged, and voice recognition device used therefor
WO2019216461A1 (en) * 2018-05-10 2019-11-14 주식회사 시스트란인터내셔널 Artificial intelligence service method and device therefor
EP3779966A4 (en) * 2018-05-10 2021-11-17 Llsollu Co., Ltd. Artificial intelligence service method and device therefor

Similar Documents

Publication Publication Date Title
US9934777B1 (en) Customized speech processing language models
JP5334178B2 (en) Speech recognition apparatus and data update method
CN105741836B (en) Voice recognition device and voice recognition method
US7818171B2 (en) Speech recognition apparatus and speech recognition program
US8521539B1 (en) Method for chinese point-of-interest search
JP4412504B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
US20090119103A1 (en) Speaker recognition system
US20070050190A1 (en) Voice recognition system and voice processing system
US11158307B1 (en) Alternate utterance generation
JP6475426B2 (en) Intent estimation device and model learning method
CN103810995A (en) Adaptation methods and systems for speech systems
JP4867622B2 (en) Speech recognition apparatus and speech recognition method
KR100766061B1 (en) apparatus and method for speaker adaptive
US20070038453A1 (en) Speech recognition system
CN103810005A (en) Adaptation methods and systems for speech systems
US11705116B2 (en) Language and grammar model adaptation using model weight data
KR101317339B1 (en) Apparatus and method using Two phase utterance verification architecture for computation speed improvement of N-best recognition word
JP6690484B2 (en) Computer program for voice recognition, voice recognition device and voice recognition method
KR101063607B1 (en) Navigation system having a name search function using voice recognition and its method
CN111312236A (en) Domain management method for speech recognition system
JP5009037B2 (en) Speech recognition apparatus and speech recognition method thereof
KR20100073178A (en) Speaker adaptation apparatus and its method for a speech recognition
CN111301312A (en) Conversation guiding method of voice recognition system
KR102409873B1 (en) Method and system for training speech recognition models using augmented consistency regularization
KR101840363B1 (en) Voice recognition apparatus and terminal device for detecting misprononced phoneme, and method for training acoustic model

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application