KR101250897B1

KR101250897B1 - 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법

Info

Publication number: KR101250897B1
Application number: KR1020090075145A
Authority: KR
Inventors: 김상훈; 박준; 박상규
Original assignee: 한국전자통신연구원
Priority date: 2009-08-14
Filing date: 2009-08-14
Publication date: 2013-04-04
Also published as: JP2011039468A; KR20110017600A

Abstract

본 발명은 전자 사전에서 음성인식을 이용한 단어 탐색 기술에 관한 것으로, 음성인식 오류가 일어나더라도 다수의 음성인식 후보(N-best)에 대한 인식결과를 출력하여 사용자가 그 중 하나를 택할 수 있게 함으로서 음성인식오류의 불편함을 줄이고, 특히 영한사전 검색에 있어서, 원래 사전적 단어의 발음은 물론, 발음을 모를 경우 알파벳의 연속발음 조합을 그 단어의 발음으로 선택할 수 있도록 발음의 변이를 다중으로 제공하여 사용자가 발음을 모르는 영문단어라도 음성으로 용이하게 검색하는 것을 특징으로 한다. 본 발명에 의하면, 종래방법인 키보드 단위 검색방법이나 기존 영문 알파벳 단위 음성인식 방법에 비해 높은 정확률로 영한 사전의 검색을 매우 빠르게 할 수 있으며, 음성인식 오류가 발생하더라도 N-best 후보로부터 정답을 선택할 수 있어 전자사전의 사용자 편의성을 대폭 개선할 수 있다.

전자사전, 영한 사전, 다중발음, N-best 음성인식

Description

전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법{Apparatus for word entry searching in a portable electronic dictionary and method thereof}

본 발명은 전자사전을 통한 단어 검색 기술에 관한 것으로서, 특히 영한사전 및 영문 알파벳으로 구성된 외국 언어에 대한 사전 검색을 음성인식 기술로 수행하는 경우, 음성인식 오류가 일어나더라도 N-best 인식결과를 출력하여 사용자가 그 중 하나를 택할 수 있게 함으로서 음성인식오류의 불편함을 줄이고, 원래 사전적 단어의 발음은 물론, 발음을 모를 경우 알파벳의 연속발음 조합을 그 단어의 발음으로 선택할 수 있도록 발음의 변이를 다중으로 제공하는데 적합한 전자 사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법에 관한 것이다.

본 발명은 지식경제부의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2008-S-019-02, 과제명: 휴대형 한/영 자동통역 기술개발].

일반적으로 전자사전은 한국어, 영어, 일어, 중국어 등의 각국 언어의 사전을 기억매체에 담아 전자화한 것으로서, 방대한 양의 데이터를 검색 어플리케이션 이 내장된 컴퓨팅 장치 혹은 휴대용 기기를 통해 손쉽게 검색할 수 있으며, 검색된 정보에 대한 텍스트 정보 외에 사진, 동영상, 음향 등을 함께 넣어 쉽게 이해할 수 있도록 구현되는 기기이다.

이러한 전자사전 기기에는 찾고자 하는 해당 언어의 입력을 위한 키보드가 구비되어 있으므로 사용자가 입력패널인 키보드 또는 터치 스크린을 사용하여 단어의 철자를 입력하면, 입력된 철자에 부분적으로 패턴 매칭되는 단어가 순차적으로 디스플레이 되고, 찾고자 하는 단어가 나오면 사용자는 키보드 또는 터치 스크린으로 선택함으로써, 전자사전 기기에서는 선택된 단어에 대한 사전 정보를 제공하는 구조로 되어 있다.

다만, 키패드 버튼의 갯수가 한정되어 키보드 검색이 어려운 이동통신 단말기와 같은 경우에는 내장된 전자사전 어플리케이션을 편리하게 검색하거나 또는 키보드가 구비된 컴퓨팅 장치 및 휴대용 전자사전에서도 단어검색을 빠르게 수행하기 위해 음성인식 기술을 사용한다.

음성인식 기술은 입력 음성신호를 음성신호처리 기술에 의해 문자열로 변환하는 기술로서, 음성합성과 더불어 음성신호처리의 가장 핵심적인 기술 분야 가운데 하나이다. 음성인식 기술은 수십 단어 규모의 독립적으로 발성된 단어를 인식하는 고립 단어 인식에서부터 연속 단어 인식, 연속적인 문장에서 핵심어만 검출하고 인식하는 핵심어 검출(keyword spotting), 그리고 문장단위의 발화를 인식하는 연속 음성인식 등으로 발전되어 왔으며, 최근에는 사람과 사람 사이의 자연스럽게 발성하는 대화체 음성을 인식할 수 있도록 하는 대화체 인식 기술이 활발히 연구되고 있다.

그러나 이러한 음성인식 기술을 이용한 전자사전 검색의 경우에는 음성인식 오류로 인한 불편함이 더 클 수가 있고, 특히 영한사전을 음성인식을 통해 검색하는 경우에는, 영문단어의 발음이 이를 발성하는 사용자마다 편차가 크므로 현실적으로 인식하기 힘들기 때문에 알파벳 단위 음성인식으로 검색을 수행할 수밖에 없으나, 알파벳 단위 음성인식은 오류가 일어날 가능성이 높아 실질적으로 전자사전 검색에 적용하기 어렵다.

상기한 바와 같이 동작하는 종래 기술에 의한 전자사전에서 음성인식 기술을 이용한 단어 검색 방식에 있어서는, 전자사전에 구비된 키보드를 이용하여 특정 언어의 철자를 입력하는 방식보다 손쉽게 이용할 수는 있으나, 사용자의 발음이나, 주변 잡음 등에 의해 음성인식률이 크게 저하되며, 이로 인한 음성인식 오류로 더 큰 불편함을 초래한다는 문제점이 있었다.

이에 본 발명은, 전자사전의 음성인식 기능에 N-best 인식결과를 출력하여 빠른 단어 검색을 수행할 수 있는 전자 사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법을 제공한다.

또한 본 발명은, 음성인식 오류가 일어나더라도 N-best 인식결과를 출력하여 사용자가 그 중 하나를 택할 수 있게 함으로서 음성인식오류의 불편함을 줄이고, 특히 영한사전 검색에 있어 원래 사전적(lexical) 단어의 발음은 물론, 발음을 모를 경우 알파벳의 연속발음 조합을 그 단어의 발음으로 선택할 수 있도록 발음의 변이를 다중으로 제공하여 사용자가 발음을 모르는 영문단어라도 음성으로 용이하게 검색할 수 있는 전자 사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법을 제공한다.

본 발명의 일 실시예에 따른 전자 사전에서 음성인식을 이용한 단어 탐색 장치는, 단어의 사전적 발음 또는 단어를 구성하는 글자별 연속 발음 조합의 음성신호를 입력 받아 음소열을 추출하는 전처리부와, 기 저장된 다중발음 사전 정보로부터 발음열을 전달받아 상기 추출된 음소열과의 매칭을 통해 네트워크를 구성하는 단어 네트워크 구성부와, 상기 구성된 네트워크와, 훈련부를 통해 전달된 트라이폰 단위 음향 모델을 참조하여 상기 음성신호에 해당하는 단어를 탐색하는 탐색부를 포함하고, 상기 훈련부는, 스피치 코퍼스에서 각 음성의 패턴 및 음소열의 특징을 추출하는 특징 추출부와, 상기 추출된 특징과, 상기 다중 발음 사전 정보에 의한 부 단어 모델의 결합을 통해 HMM을 구성하고, 이를 트라이폰 단위로 학습시켜 트라이폰 단위 음향 모델을 모델링하는 HMM 훈련부와, 상기 모델링된 트라이폰 단위 음향 모델이 저장되는 음향 모델 저장부를 포함하는 것을 특징으로 한다.

또한, 상기 단어 탐색 장치는, 상기 탐색부의 탐색결과 다수의 음성인식 후보를 최상위 인식결과 순으로 기 설정된 개수만큼 출력하는 인식결과 출력부를 더 포함한다.

이때, 상기 전처리부는, 입력된 음성신호의 표본화 및 끝점 검출을 수행하는 음성구간 검출기와, 상기 검출된 정보를 토대로 상기 음성신호의 특징 추출 및 음성 별 구간을 검출하여 음소열을 형성하는 특징 추출기를 포함하는 것을 특징으 로 한다.

삭제

이때, 상기 다중발음 사전은, 각 언어별 단어에 대한 사전적 발음 및 해당 단어의 글자별 연속 발음을 포함하는 것을 특징으로 한다.

한편, 상기 전처리부로 입력되는 음성신호는, 영한사전의 검색을 위한 영단어의 사전적 발음 또는 알파벳의 연속 발음 조합인 것을 특징으로 한다.

본 발명의 다른 실시예에 따른 전자 사전에서 음성인식을 이용한 단어 탐색 장치는, 단어의 사전적 발음 또는 단어를 구성하는 글자별 연속 발음 조합의 음성신호를 입력 받는 음성 입력부와, 상기 입력된 음성신호에서 음소열을 추출하고, 이를 다중발음 사전 정보의 발음열과 매칭한 후, 훈련부를 통해 전달된 트라이폰 단위 음향 모델을 참조하여 상기 음성신호에 해당하는 단어를 탐색하는 음성 인식부와, 상기 탐색된 단어 데이터를 출력하는 터치스크린 방식의 디스플레이부를 포함하고, 상기 훈련부는, 스피치 코퍼스에서 각 음성의 패턴 및 음소열의 특징을 추출하는 특징 추출부와, 상기 추출된 특징과, 상기 다중 발음 사전 정보에 의한 부 단어 모델의 결합을 통해 HMM을 구성하고, 이를 트라이폰 단위로 학습시켜 상기 트라이폰 단위 음향 모델을 모델링하는 HMM 훈련부와, 상기 모델링된 트라이폰 단위 음향 모델이 저장되는 음향 모델 저장부를 포함한다.

그리고 상기 음성 인식부는, 상기 음성신호에서 음소열을 추출하고, 상기 다중발음 사전과의 매칭을 통해 단어 네트워크를 구성하고, 상기 훈련부를 통해 전달된 트라이폰 단위 음향 모델을 참조하여 탐색된 다수의 음성인식 후보를 최상위 인식결과 순으로 기 설정된 개수만큼 출력하는 디코딩부를 포함하는 것을 특징으로 한다.

한편, 상기 음성신호는, 영한사전의 검색을 위한 영단어의 사전적 발음 또는 알파벳의 연속 발음에 대한 조합인 것을 특징으로 한다.

그리고 상기 단어 탐색 장치는, 상기 디스플레이부의 터치 스크린을 통하여 상기 탐색된 단어 중 어느 한 단어가 선택된 경우, 상기 전자사전을 통하여 해당 단어에 대한 사전 정보를 제공하는 것을 특징으로 한다.

본 발명의 일 실시예에 따른 전자 사전에서 음성인식을 이용한 단어 탐색 방법은, 단어의 사전적 발음 또는 단어를 구성하는 글자별 연속 발음 조합의 음성신호를 입력받아 음소열을 추출하는 전처리 과정과, 기 저장된 다중발음 사전 정보로부터 발음열을 전달받아 상기 추출된 음소열과의 매칭을 통해 단어 네트워크를 구성하는 과정과, 상기 구성된 단어 네트워크와, 기 모델링된 트라이폰 단위 음향 모델을 참조하여 상기 음성신호에 해당하는 단어를 탐색하는 과정을 포함하고, 상기 트라이폰 단위 음향 모델의 모델링 과정은, 입력된 스피치 코퍼스에서 각 음성의 패턴 및 음소열의 특징을 추출하는 과정과, 상기 추출한 특징과, 상기 다중 발음 사전 정보에 의한 부 단어 모델의 결합을 통해 HMM을 구성하고, 이를 트라이폰 단위로 학습시켜 모델링하는 과정과, 상기 모델링된 트라이폰 단위의 음향 모델을 저장하는 과정을 포함한다.

그리고 상기 단어 탐색 방법은, 상기 탐색된 다수의 음성인식 후보를 최상위 인식결과 순으로 기 설정된 개수만큼 출력하는 과정을 더 포함한다.

또한, 상기 전처리 과정은, 입력된 음성신호의 표본화 및 끝점 검출을 수행하는 과정과, 상기 검출된 정보를 토대로 상기 음성신호의 특징 추출 및 음성 별 구간을 검출하여 음소열을 형성하는 과정을 포함한다.

삭제

그리고 상기 음성신호는, 영한사전의 검색을 위한 영단어의 사전적 발음 또는 알파벳의 연속 발음 조합으로 입력되는 것을 특징으로 한다.

본 발명의 다른 실시예에 따른 전자 사전에서 음성인식을 이용한 단어 탐색 방법은, 단어의 사전적 발음 또는 단어를 구성하는 글자별 연속 발음 조합의 음성신호를 입력 받는 과정과, 상기 입력된 음성신호에서 음소열을 추출하고, 이를 다중발음 사전 정보의 발음열과 매칭한 후, 트라이폰 단위 음향 모델을 참조하여 상기 음성신호에 해당하는 단어를 탐색하는 과정과, 터치스크린 방식의 디스플레이부를 통해 상기 탐색된 단어 데이터를 출력하는 과정을 포함하고, 상기 트라이폰 단위 음향 모델의 모델링 과정은, 입력된 스피치 코퍼스에서 각 음성의 패턴 및 음소열의 특징을 추출하는 과정과, 상기 추출한 특징과, 상기 다중 발음 사전 정보에 의한 부 단어 모델의 결합을 통해 HMM을 구성하고, 이를 트라이폰 단위로 학습시켜 모델링하는 과정과, 상기 모델링된 트라이폰 단위의 음향 모델을 저장하는 과정을 포함한다.

그리고 상기 단어를 탐색하는 과정은, 상기 음성신호에서 음소열을 추출하고, 상기 다중발음 사전과의 매칭을 통해 단어 네트워크를 구성하고, 상기 훈련부를 통해 전달된 트라이폰 단위 음향 모델을 참조하여 탐색된 다수의 음성인식 후보를 최상위 인식결과 순으로 기 설정된 개수만큼 출력하는 과정을 포함하는 것을 특징으로 한다.

또한, 상기 단어 탐색 방법은, 상기 터치 스크린을 통하여 상기 탐색된 단어 중 어느 한 단어가 선택된 경우, 상기 전자사전을 통하여 해당 단어에 대한 사전 정보를 제공하는 것을 특징으로 한다.

상기와 같은 본 발명의 실시예에 따른 전자 사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법에 따르면 다음과 같은 효과가 하나 혹은 그 이상이 있다.

본 발명의 실시예에 따른 전자 사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법에 의하면, 종래방법인 키보드 단위 검색방법이나 기존 영문 알파벳 단위 음성인식 방법에 비해 높은 정확률로 영한 사전의 검색을 매우 빠르게 수행할 수 있으며, 음성인식 오류가 발생하더라도 N-best 후보로부터 정답을 선택할 수 있어 전자사전의 사용자 편의성을 대폭 개선할 수 있다.

또한, 발음이 어려운 영어 외 타 언어에 대해서도 알파벳을 사용하는 언어에 대해 음성으로 사전검색을 가능하게 할 수 있는 효과가 있다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명하기로 한다.

도 1은 본 발명의 실시예에 따른 음성 인식용 전자사전 기기의 구조를 도시한 블록도이다.

도 1을 참조하면, 음성 인식용 전자사전 기기(100)는 음성입력을 통해 인식 된 단어에 대한 사전 기능을 제공하는 것으로서, 음성 입력부(102), 음성 인식부(104), 메모리(106)와 디스플레이부(108) 등을 포함한다.

음성 입력부(102)는 마이크를 통해 기 설정된 시간 동안 사용자의 음성을 입력 받게 되며, 입력된 사용자의 음성은 음성 인식부(Speech recognizer)(104)로 전달된다. 이때, 입력되는 사용자의 음성은 사전적 발음 또는 글자 연속 발음의 조합이 될 수 있다. 음성 인식부(104)에서는 음성 입력부(102)로부터 전달된 사용자의 음성을 메모리(106)에 저장된 음향모델을 참조하여, N-best 인식결과를 출력하는 것이다.

한편, 음성 입력부(102)를 통해 입력되는 음성은, 사용자가 검색하고자 하는 단어에 대한 사전적 발음을 아는 경우에는 음성입력 시 사전적 발음을 입력하게 되며, 사전적 발음을 모르는 경우에는 글자 연속 발음의 조합을 입력할 수 있다. 혹은 음성 입력 시 음성인식부(104)에서 디스플레이부(108)를 통해 사전적 발음 입력 또는 글자 연속 발음 조합의 입력 메뉴를 사용자가 선택할 수 있도록 하여 사용자가 선택한 메뉴에 해당하는 음성을 입력 받을 수도 있다.

메모리(106)는 음향모델을 저장하고 있으며, 해당 언어에 대한 사전적 발음 모델과 글자 연속 발음 조합 모델이 따로 구분되어 있을 수 있다. 이에 음성 인식부(104)에서 메뉴 선택을 통해 사용자의 음성을 입력 받은 경우에는 해당 음향모델만을 음성인식부(104)로 제공하게 된다.

디스플레이부(108)는 음성 인식부(104)로부터 도출된 N-best 인식결과를 화면상에 출력하는 것으로서, 터치 패널이 내장된 터치 스크린 방식이 사용될 수 있 다.

이와 같이 디스플레이부(108)를 통해 출력된 N-best 인식결과에서 터치스크린 또는 사용자 명령의 입력이 가능한 입력 패널을 통해 특정 단어가 선택된 경우, 전자사전 기기(100)에서 선택된 단어에 대한 사전 정보를 제공하게 된다.

도 2는 본 발명의 실시예에 따른 음성 인식용 전자사전 기기의 동작절차를 도시한 흐름도이다.

도 2를 참조하면, 202단계에서 전자사전 기기(100)를 동작시켜 204단계에서 음성인식 기능이 구동되도록 한다. 이에 206단계에서는 전자사전 기기(100) 내의 음성입력부(102)를 통해 특정 언어 예컨대, 영어 단어에 대한 사전적 발음 및 단어의 알파벳 연속 발음 조합을 사용자로부터 입력 받게 된다.

이때, 전자사전 기기(100)에서는 사전적 발음 및 단어의 연속 발음 조합 중 어느 하나를 사용자가 선택한 후, 음성을 입력할 수 있도록 음성입력 메뉴를 제공할 수도 있다.

이에 208단계에서는 음성인식부(104)에서 사용자의 발성에 대해 메모리(106)에 저장된 음향모델을 참조하여 N-best 음성인식 결과를 출력하게 되며, 210단계에서 출력된 N-best 음성인식 결과 중 사용자가 원하는 단어가 도출된 경우에는 이를 선택함으로써, 212단계에서는 선택된 단어에 대한 사전 정보를 디스플레이부(108)를 통해 디스플레이 하게 된다.

다만, 210단계에서 사용자가 원하는 단어가 도출되지 않아 기 설정된 시간 동안 사용자로부터 선택된 단어가 없거나, 선택할 단어가 없다는 정보를 입력 받은 경우는, 214단계로 진행하여 사용자에게 재 발성을 요청한 후, 206단계로 복귀하여 다시 사용자의 발성을 입력 받게 된다.

한편, 전자사전 기기(100)의 음성인식부(104)는 오프라인에서 음향모델링을 수행하는 훈련부(training module)와 온라인에서 가장 가까운 단어를 찾는 디코딩부(decoding module)로 나눌 수 있다. 이에 도 3 내지 도 6을 통하여 훈련부 및 디코딩부에 대한 구현 방식 및 동작절차를 구체적으로 설명하도록 한다.

도 3은 본 발명의 실시예에 따른 음성인식부 내의 훈련부의 구조를 도시한 블록도이다.

도 3을 참조하면, 음향모델링을 수행하는 훈련부(300)는 스피치 코퍼스(speech corpus) 정보부(302)와, 특징 추출부(304)와, 은닉 마르코프 모델 (Hidden Marcov Model, 이하 HMM이라 한다) 훈련부와, 메모리(308)와 음향 모델 저장부(310) 등을 포함하는 것으로서, 단어의 사전적 발음과 그 단어의 글자 별 연속발음 조합을 다중발음(multiple pronunciation)으로 하는 HMM 훈련을 통하여, 트라이폰(triphone) 단위 음향모델링(acoustic modeling)을 수행함으로써, 최종 훈련 결과인 트라이폰 단위 음향모델을 디코딩부로 전달하게 된다.

구체적으로 스피치 코퍼스 정보부(302)는 스피치 코퍼스에 대한 정보를 저장하고 있는 것으로서, 여기서 스피치 코퍼스란 언제든지 재사용이 가능하도록 부가적인 정보화 다큐먼트가 갖추어져 있으며, 컴퓨터로 읽을 수 있는 형태로 구성된 다수의 화자에 대한 스피치 자료의 모음, 즉, 발성뭉치가 될 수 있다.

특징 추출부(304)는 이러한 스피치 코퍼스 정보부(302)로부터 전달되는 스 피치 코퍼스 정보 별로 음성의 패턴이나, 음소열 등의 특징을 추출한 후, 추출된 특징 정보를 HMM 훈련부(306)로 전달한다.

HMM 훈련부(306)는 추출된 특징 정보를 메모리(308) 상에 기 저장된 다중 발음 사전과의 패턴 매칭 및 음소열 비교 등을 통해 훈련을 수행하는 것으로서, 이는 다중 발음 사전에 의한 부단어(subword) 모델의 결합으로서 HMM을 구성하게 된다. 즉, HMM 훈련부(306)는 불특정 다수 화자의 음성에 대한 인식과 단어의 사전적 발음과 그 단어의 글자별 연속발음 조합을 포함하는 다중 발음 사전을 통해 통계적인 모델을 형성하는 것이다.

이를 음향 모델링이라 하며, 음향모델링은 음성인식에 사용되는 통계적 모델의 기본단위를 정하고 이들을 학습시키는 것을 의미하며, 이때, 음향 모델링은 각 음소의 앞 음소와 뒤 음소까지 고려하는 트라이폰 단위의 음향 모델을 형성하게 된다.

이러한 트라이폰 단위의 음향 모델은 음소의 앞뒤 음소까지 고려함으로써, 학습시켜야 하는 트라이폰들이 기하급수적으로 많이 질 수 있으며, 이런 경우에는 비슷한 특성을 나타내는 트라이폰들을 서로 그룹핑하여 학습시키도록 한다.

이와 같이 HMM 훈련부(306)에서는 단어의 사전적 발음과 그 단어의 글자 별 연속 발음 조합, 특히 영문단어의 사전적 발음과 그 단어의 알파벳 연속발음 조합을 다중 발음으로 하는 HMM 훈련을 통하여 트라이폰 단위 음향 모델링을 형성하고, 형성된 음향 모델은 음향 모델 저장부(310)에 저장되도록 하여, 추후 디코딩부로 전달된다.

도 4는 본 발명의 실시예에 따른 훈련부의 동작 절차를 도시한 흐름도이다.

도 4를 참조하면, 400단계에서 특징 추출부(304)는 스피치 코퍼스 정보부(302)로부터 스피치 정보를 입력 받아 402단계에서 입력된 스피치 정보에 대한 음성의 패턴이나 음소, 각 음소의 앞뒤 음소 등에 대한 특징을 추출하여 이를 HMM 훈련부(306)로 전달한다.

이에 404단계에서 HMM 훈련부(306)에서는 추출된 특징 정보에 단어의 사전적 발음과 그 단어의 글자별 연속발음 조합에 대한 매칭을 통해 트라이폰 단위 음향모델링을 수행하게 되며, 트라이폰 단위 음향모델링을 통해 출력된 음향 모델은 406단계에서 음향 모델 저장부(310)에 저장된다.

도 5는 본 발명의 실시예에 따른 음성인식부 내의 디코딩부의 구조를 도시한 블록도이다.

도 5를 참조하면, 디코딩부(500)는 음성인식부(104)에 입력된 사용자의 음성을 인식한 후, 인식된 음성에 해당하는 최적의 단어를 찾는 것으로서, 전처리부(preprocessing sub-module)(510), 단어 네트워크 구성부(512), 단어 추측 탐색부(514), N개의 인식 결과 출력부(516) 등을 포함하며, 이때 전처리부(510)는 음성구간 검출기(end point detection)(502)와, 특징 파라미터 추출기(feature extraction)(504) 등을 포함한다.

전처리부(510)는 입력된 사용자의 음성, 즉 단어에 대한 발음 또는 글자별 연속발음으로부터 단어를 인식하는 것으로서, 전처리부(510) 내의 음성 구간 검출기(502)에서는 입력된 음성신호의 표본화 및 끝점 검출을 수행하고, 특징 파라미터 검출기(504)에서는 프리엠퍼시스(preemphasis)와 같이 음성 신호 영역의 주파수 진폭을 높여 잡음을 줄인 후, 시변적인 특성을 대표할 수 있는 특징 벡터의 열로 변환한 후, 음성 별 구간을 검출하여 N개로 구성된 음소열을 출력하게 된다.

이후 단어 네트워크 구성부(512)에서는 메모리(308)에 저장된 다중발음 사전으로부터 발음열(phoneme string)을 가져와 각 단어의 발음, 즉 전처리부(510)로부터 출력된 각 음소열에 해당하는 HMM 모델을 연결하여 네트워크를 구성한다.

이에 단어 추측 탐색부(514)에서는 구성된 네트워크 정보와 훈련부(300)로부터 전달된 트라이폰 단위의 음향모델을 이용하여 화자발성에 가장 가까운 단어에 대한 탐색을 수행하여 사용자가 입력한 음성으로 인식된 단어에 가까운 순서대로 M개의 인식결과를 N개의 인식결과 출력부(516)로 전달함으로써, N개의 인식결과 출력부(516)에서 기 설정된 N개의 순위(N-best)대로 인식결과를 출력하게 된다.

예를 들어, 영어단어에 대한 다중발음은 모든 영어사전 표제어(entry)에 대해 (표 1)과 같이 구성될 수 있다.

(표 1)은 일부 표제어에 대한 다중발음 구성을 보여주는 것으로서, 영어사전의 표제어 및 다중발음 사전 리스트를 나타낸다.

English word	Lexical pronunciation	Combination of alphabetical pronunciation
a	아	에이
alpha	알파	에이엘피에이치에이
and	앤드	에이엔디
computer	컴퓨터	씨오엠피유티이알
desk	데스크	디이에스케이
propel	프로펠	피알오피이엘
…	…	…

또한, N-best 인식결과는 예를 들어, 사용자로부터 입력된 음성, 즉, 화자 발성이 "computer"인 경우에 대해서 (표 2) 및 (표 3)과 같이 출력된다.

(표 2)는 "computer"를 /컴퓨터/로 발음한 경우로서 N=5인 N-best 출력 결과를 나타낸다.

Top 1: Combo
Top 2: Computer
Top 3: Compete
Top 4: Confuse
Top 5: Corpus

또한, (표 3)는 "computer"를 /씨오엠피유티이알/로 발음한 경우로서, N=5인 N-best 출력 결과를 나타낸다.

Top 1: Computer
Top 2: Confuse
Top 3: Commuter
Top 4: Empire
Top 5: Corpus

이후, 전자사전 기기(100)의 터치 스크린 및 키보드와 같은 입력 패널을 통해 사용자로부터 특정 단어가 선택된 경우, 전자사전 기기(100)에서는 해당 단어에 대한 사전 정보를 사용자에게 디스플레이하게 된다.

도 6은 본 발명의 실시예에 따른 디코딩부의 동작절차를 도시한 흐름도이다.

도 6을 참조하면, 600단계에서 전자사전 기기(100)로 사용자의 음성을 통해 영한 사전을 검색하는 경우로서, 사용자가 단어의 발음을 아는 경우와 발음을 모르는 경우로 나누어 적용할 수 있다.

즉, 사용자가 "computer"라는 단어를 검색할 때 그 단어의 발음을 아는 경우에는 /컴퓨터/라고 발성한 음성을 입력하게 되나, "computer"라는 단어의 발음을 모르는 경우에는, 그 단어에 해당하는 영문 알파벳 연속발음 조합인 /씨오엠피유티이알/을 음성으로 입력한다.

이에 602단계에서는 전처리부(510) 내의 음성 구간 검출기(502)에서 입력된 발음, 즉 영어의 사전적 발음 또는 알파벳 연속 발음 조합에 대한 음성 구간을 검출하고, 604단계에서 특징 파라미터를 검출하여 전처리된 단어 정보를 단어 네트워크 구성부(512)로 전달하게 되며, 606단계에서는 해당 단어의 발음에 해당하는 HMM 모델인 다중발음 사전의 발음열을 참조하여 네트워크를 구성한다.

다시 말해 이는 메모리(308)에 저장된 다중발음 사전으로부터 발음열을 전달받은 단어 네트워크 구성부(512)에서 추출된 음소열과의 매칭을 통해 네트워크를 구성하는 것이다.

여기서, 메모리(308)에 포함된 다중 발음사전에는 "computer"에 대한 다중발음인 /컴퓨터/와 /씨오엠피유티이알/을 모두 가지고 있기 때문에 알파벳의 연속발음에 대해서도 인식이 가능한 것이다.

그리고 608단계에서 단어 추측 탐색부(514)는 인식된 단어에 대한 네트워크 정보와 트라이폰 단위의 음향모델을 이용하여 화자발성에 가장 가까운 단어에 대한 탐색을 수행하여 610단계에서는 N개의 인식결과 출력부(516)를 통해 탐색된 단어 중에서 최상위 순서대로 기설정된 N개의 인식 단어를 출력하게 된다.

이후, 전자사전 기기(100)의 디스플레이부(108)를 통해 N개의 음성인식 결과를 출력하게 되면, 사용자는 출력된 N-best 인식결과를 확인한 후, 사용자가 발음한 단어가 존재하는 경우, 디스플레이부(108)의 터치스크린을 사용하여 해당 단어를 선택함으로써, 종래의 키보드 입력방법이나 기존 음성인식 방법에 비해 높은 인식 성능으로 빠른 시간 내에 단어를 검색할 수 있다.

또한, 기존 음성인식 방법이 알파벳을 개별 단위로 인식하고, 또한 1개의 단어에 대한 인식결과를 출력하게 함으로써, 인식오류가 발생할 가능성이 매우 높은데 반해, 본 발명의 실시예는 알파벳의 연속발음 조합을 인식하고 N개 인식후보 중 최종 1개를 선택하게 함으로써, 음성인식의 오류로 인한 불편함을 대폭 개선할 수 있다.

이와 같이 음성인식의 음향모델 단위는 음운환경이 고려된 트라이폰이 되고, 트라이폰 단위 음향모델이 연결된 단어 인식을 통해 기존 알파벳 단위 음성인식보다 음성인식률도 상당히 개선할 수 효과가 있다. 물론 기존 사전이 대부분 대규모 단어(예컨대, 10만 단어 급)로 구성되어 단어 단위 음성인식을 수행하는데 계산량이 많이 요구되나, 알파벳 간 음운환경은 많지 않아 계산해야 할 음향모델수가 적고, 최근 전자사전 단말기의 사양이 대 어휘 음성인식을 가능하게 하는 수준까지 발전하고 있으므로, 본 발명의 실시예를 구현하거나 적용하는 데에는 별다른 문제가 없다.

이러한 본 발명의 실시예를 통해 중국어 사전, 프랑스 사전 등 발음을 모르더라도 영문 알파벳의 연속발음 조합을 단어의 다중발음으로 처리함으로써 영문 알파벳을 사용하거나, 영문 알파벳으로 단어 검색이 가능한 다양한 외국어에 대해 전자사전을 통해 용이하게 검색할 수 있는 기능을 제공한다.

이상 설명한 바와 같이, 본 발명의 실시예에 따른 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법은, 전자사전의 음성인식 기능에 N-best 인식결과를 출력하여 빠른 단어 검색을 수행할 수 있으며, 특히 영한사전 검색에 있어 원래 사전적 단어의 발음은 물론, 발음을 모를 경우 알파벳의 연속발음 조합을 그 단어의 발음으로 선택할 수 있도록 발음의 변이를 다중으로 제공하여 사용자가 발음을 모르는 영문단어라도 음성으로 용이하게 검색을 수행한다.

한편 본 발명의 상세한 설명에서는 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법에 대한 구체적인 실시예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 즉, 본 발명의 실시예에서는 영문단어 및 알파벳을 예로 들어 설명하고 있으나, 특정언어의 사전적 발음 및 해당 언어의 단어에 대해 한 글자씩 발음하는 연속 발음 조합을 토대로 음성인식을 수행하고 음성인식된 데이터를 토대로 N-best 인식결과 및 선택된 단어에 대한 사전 기능을 제공하는 방식으로 모든 언어에 대해 적용 가능함은 물론이다.

그러므로 본 발명의 범위는 설명된 실시예에 국한되지 않으며, 후술되는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.

도 1은 본 발명의 실시예에 따른 음성 인식용 전자사전 기기의 구조를 도시한 블록도,

도 2는 본 발명의 실시예에 따른 음성 인식용 전자사전 기기의 동작절차를 도시한 흐름도,

도 3은 본 발명의 실시예에 따른 음성인식부 내의 훈련부의 구조를 도시한 블록도,

도 4는 본 발명의 실시예에 따른 훈련부의 동작 절차를 도시한 흐름도,

도 5는 본 발명의 실시예에 따른 음성인식부 내의 디코딩부의 구조를 도시한 블록도,

도 6은 본 발명의 실시예에 따른 디코딩부의 동작절차를 도시한 흐름도.

<　도면의 주요 부분에 대한 부호 설명 >

100 : 전자사전 기기 300 : 훈련부

302 : 스피치 코퍼스 정보부 304 : 특징 추출부

306 : HMM 훈련부 308 : 메모리(다중 발음 사전)

310 : 음향 모델 저장부 500 : 디코딩부

502 : 음성구간 검출기 504: 특징 파라미터 추출기

510 : 전처리부 512 : 단어 네트워크 구성부

514 : 단어 추측 탐색부 516 : N개의 인식 결과 출력부

Claims

단어의 사전적 발음 또는 단어를 구성하는 글자별 연속 발음 조합의 음성신호를 입력받아 음소열을 추출하는 전처리부와,

기 저장된 다중발음 사전 정보로부터 발음열을 전달받아 상기 추출된 음소열과의 매칭을 통해 네트워크를 구성하는 단어 네트워크 구성부와,

상기 구성된 네트워크와, 훈련부를 통해 전달된 트라이폰 단위 음향 모델을 참조하여 상기 음성신호에 해당하는 단어를 탐색하는 탐색부를 포함하고,

상기 훈련부는,

스피치 코퍼스에서 각 음성의 패턴 및 음소열의 특징을 추출하는 특징 추출부와,

상기 추출된 특징과, 상기 다중 발음 사전 정보에 의한 부 단어 모델의 결합을 통해 HMM을 구성하고, 이를 트라이폰 단위로 학습시켜 상기 트라이폰 단위 음향 모델을 모델링하는 HMM 훈련부와,

상기 모델링된 트라이폰 단위 음향 모델이 저장되는 음향 모델 저장부

를 포함하는 것을 특징으로 하는 전자사전에서 음성인식을 이용한 단어 탐색 장치.
제 1항에 있어서,

상기 단어 탐색 장치는,

상기 탐색부의 탐색결과 다수의 음성인식 후보를 최상위 인식결과 순으로 기 설정된 개수만큼 출력하는 인식결과 출력부

를 더 포함하는 전자사전에서 음성인식을 이용한 단어 탐색 장치.
제 1항에 있어서,

상기 전처리부는,

입력된 음성신호의 표본화 및 끝점 검출을 수행하는 음성구간 검출기와,

상기 검출된 정보를 토대로 상기 음성신호의 특징 추출 및 음성 별 구간을 검출하여 음소열을 형성하는 특징 추출기

를 포함하는 것을 특징으로 하는 전자사전에서 음성인식을 이용한 단어 탐색 장치.
삭제
제 1항에 있어서,

상기 다중발음 사전은,

각 언어별 단어에 대한 사전적 발음 및 해당 단어의 글자별 연속 발음을 포함하는 것을 특징으로 하는 전자사전에서 음성인식을 이용한 단어 탐색 장치.
제 1항에 있어서,

상기 전처리부로 입력되는 음성신호는,

영한사전의 검색을 위한 영단어의 사전적 발음 또는 알파벳의 연속 발음 조합인 것을 특징으로 하는 전자사전에서 음성인식을 이용한 단어 탐색 장치.
단어의 사전적 발음 또는 단어를 구성하는 글자별 연속 발음 조합의 음성신호를 입력 받는 음성 입력부와,

상기 입력된 음성신호에서 음소열을 추출하고, 이를 다중발음 사전 정보의 발음열과 매칭한 후, 훈련부를 통해 전달된 트라이폰 단위 음향 모델을 참조하여 상기 음성신호에 해당하는 단어를 탐색하는 음성 인식부와,

상기 탐색된 단어 데이터를 출력하는 터치스크린 방식의 디스플레이부를 포함하고,

상기 훈련부는,

스피치 코퍼스에서 각 음성의 패턴 및 음소열의 특징을 추출하는 특징 추출부와,

상기 추출된 특징과, 상기 다중 발음 사전 정보에 의한 부 단어 모델의 결합을 통해 HMM을 구성하고, 이를 트라이폰 단위로 학습시켜 상기 트라이폰 단위 음향 모델을 모델링하는 HMM 훈련부와,

상기 모델링된 트라이폰 단위 음향 모델이 저장되는 음향 모델 저장부

를 포함하는 것을 특징으로 하는 전자사전에서 음성인식을 이용한 단어 탐색 장치.
제 7항에 있어서,

상기 음성 인식부는,

상기 음성신호에서 음소열을 추출하고, 상기 다중발음 사전과의 매칭을 통해 단어 네트워크를 구성하고, 상기 트라이폰 단위 음향 모델을 참조하여 탐색된 다수의 음성인식 후보를 최상위 인식결과 순으로 기 설정된 개수만큼 출력하는 디코딩부

를 포함하는 것을 특징으로 하는 전자사전에서 음성인식을 이용한 단어 탐색 장치.
제 7항에 있어서,

상기 음성신호는,

영한사전의 검색을 위한 영단어의 사전적 발음 또는 알파벳의 연속 발음에 대한 조합인 것을 특징으로 하는 전자사전에서 음성인식을 이용한 단어 탐색 장치.
제 7항에 있어서,

상기 단어 탐색 장치는,

상기 디스플레이부의 터치 스크린을 통하여 상기 탐색된 단어 중 어느 한 단어가 선택된 경우, 상기 전자사전을 통하여 해당 단어에 대한 사전 정보를 제공하는 것을 특징으로 하는 전자사전에서 음성인식을 이용한 단어 탐색 장치.
단어의 사전적 발음 또는 단어를 구성하는 글자별 연속 발음 조합의 음성신호를 입력받아 음소열을 추출하는 전처리 과정과,

기 저장된 다중발음 사전 정보로부터 발음열을 전달받아 상기 추출된 음소열과의 매칭을 통해 단어 네트워크를 구성하는 과정과,

상기 구성된 단어 네트워크와, 기 모델링된 트라이폰 단위 음향 모델을 참조하여 상기 음성신호에 해당하는 단어를 탐색하는 과정을 포함하고,

상기 트라이폰 단위 음향 모델의 모델링 과정은,

입력된 스피치 코퍼스에서 각 음성의 패턴 및 음소열의 특징을 추출하는 과정과,

상기 추출한 특징과, 상기 다중 발음 사전 정보에 의한 부 단어 모델의 결합을 통해 HMM을 구성하고, 이를 트라이폰 단위로 학습시켜 모델링하는 과정과,

상기 모델링된 트라이폰 단위의 음향 모델을 저장하는 과정

을 포함하는 것을 특징으로 하는 전자사전에서 음성인식을 이용한 단어 탐색 방법.
제 11항에 있어서,

상기 단어 탐색 방법은,

상기 탐색된 다수의 음성인식 후보를 최상위 인식결과 순으로 기 설정된 개수만큼 출력하는 과정

을 더 포함하는 전자사전에서 음성인식을 이용한 단어 탐색 방법.
제 11항에 있어서,

상기 전처리 과정은,

입력된 음성신호의 표본화 및 끝점 검출을 수행하는 과정과,

상기 검출된 정보를 토대로 상기 음성신호의 특징 추출 및 음성별 구간을 검출하여 음소열을 형성하는 과정

을 포함하는 것을 특징으로 하는 전자사전에서 음성인식을 이용한 단어 탐색 방법.
삭제
제 11항에 있어서,

상기 다중발음 사전은,

각 언어별 단어에 대한 사전적 발음 및 해당 단어의 글자별 연속 발음을 포함하는 것을 특징으로 하는 전자사전에서 음성인식을 이용한 단어 탐색 방법.
제 11항에 있어서,

상기 음성신호는,

영한사전의 검색을 위한 영단어의 사전적 발음 또는 알파벳의 연속 발음 조합으로 입력되는 것을 특징으로 하는 전자사전에서 음성인식을 이용한 단어 탐색 방법.
단어의 사전적 발음 또는 단어를 구성하는 글자별 연속 발음 조합의 음성신호를 입력 받는 과정과,

상기 입력된 음성신호에서 음소열을 추출하고, 이를 다중발음 사전 정보의 발음열과 매칭한 후, 트라이폰 단위 음향 모델을 참조하여 상기 음성신호에 해당하는 단어를 탐색하는 과정과,

터치스크린 방식의 디스플레이부를 통해 상기 탐색된 단어 데이터를 출력하는 과정을 포함하고,

상기 트라이폰 단위 음향 모델의 모델링 과정은,

입력된 스피치 코퍼스에서 각 음성의 패턴 및 음소열의 특징을 추출하는 과정과,

상기 추출한 특징과, 상기 다중 발음 사전 정보에 의한 부 단어 모델의 결합을 통해 HMM을 구성하고, 이를 트라이폰 단위로 학습시켜 모델링하는 과정과,

상기 모델링된 트라이폰 단위의 음향 모델을 저장하는 과정

을 포함하는 전자사전에서 음성인식을 이용한 단어 탐색 방법.
제 17항에 있어서,

상기 단어를 탐색하는 과정은,

상기 음성신호에서 음소열을 추출하고, 상기 다중발음 사전과의 매칭을 통해 단어 네트워크를 구성하고, 상기 트라이폰 단위 음향 모델을 참조하여 탐색된 다수의 음성인식 후보를 최상위 인식결과 순으로 기 설정된 개수만큼 출력하는 과정

을 포함하는 것을 특징으로 하는 전자사전에서 음성인식을 이용한 단어 탐색 방법.
제 17항에 있어서,

상기 음성신호는,

영한사전의 검색을 위한 영단어의 사전적 발음 또는 알파벳의 연속 발음에 대한 조합인 것을 특징으로 하는 전자사전에서 음성인식을 이용한 단어 탐색 방법.
제 17항에 있어서,

상기 단어 탐색 방법은,

상기 터치 스크린을 통하여 상기 탐색된 단어 중 어느 한 단어가 선택된 경우, 상기 전자사전을 통하여 해당 단어에 대한 사전 정보를 제공하는 것을 특징으로 하는 전자사전에서 음성인식을 이용한 단어 탐색 방법.