KR102084646B1

KR102084646B1 - 음성 인식 장치 및 음성 인식 방법

Info

Publication number: KR102084646B1
Application number: KR1020130078207A
Authority: KR
Inventors: 착레이더 서브호지트
Original assignee: 삼성전자주식회사
Priority date: 2013-07-04
Filing date: 2013-07-04
Publication date: 2020-04-14
Also published as: CN104282302A; EP2821991B1; KR20150005027A; CN104282302B; US9613618B2; CN110827810A; US20150012260A1; EP2821991A1

Abstract

음성 인식 방법이 개시된다. 본 발명에 의한 음성 인식 방법은, 복수 개의 언어를 포함하는 음성을 입력받는 과정, 상기 음성을 기설정된 기본 언어에 대응하는 음성 인식 알고리즘에 기초하여 제 1 차 음성 인식하는 과정;상기 복수 개의 언어에 포함된, 기설정된 기본 언어 및 상기 기본 언어와 상이한 이종 언어를 확인하는 과정, 상기 이종 언어의 종류를 컨텍스트 정보(context information)에 기초하여 판단하는 과정, 상기 종류가 판단된 이종 언어에 대응하는 음성 인식 알고리즘을 상기 이종 언어에 적용하여 제 2 차 음성 인식하는 과정 및 상기 제 1차 음성 인식 및 상기 제 2 차 음성 인식에 기초한 음성 인식 결과를 출력하는 과정을 포함한다.

Description

음성 인식 장치 및 음성 인식 방법 { DEVICE FOR RECOGNIZING VOICE AND METHOD FOR RECOGNIZING VOICE }

본 발명은 음성 인식 장치 및 음성 인식 방법에 관한 것으로, 더욱 상세하게는 복수 개의 언어가 포함되는 음성을 인식하는 음성 인식 장치 및 음성 인식 방법에 관한 것이다.

교통 및 통신의 발전과 더불어 외국어 음성에 노출되는 경우가 급증하고 있다. 다만, 외국어에 능통하지 못한 사람들은 외국어를 처리하는 경우에 있어서 어려움을 느낄 수 있다. 이에 따라, 외국어 음성을 인식하여, 인식 결과를 텍스트로 변환하는 방법이 개발되어 발전해왔다.

종래의 음성 인식 방법은, 입력된 음성을 음소(phoneme) 단위로 분할한 이후에, 분할된 음소를 데이터 베이스와 비교하여 음성이 어떠한 텍스트 또는 단어에 대응되는지를 판단하였다.

한편, 특정 국적을 가진 사람이 타국가에 거주하는 경우가 빈번해 지면서, 복수 개의 언어가 동시에 포함되는 음성을 처리하는 경우가 발생한다. 예를 들어, 특정 국적을 가진 사람은, 특정 국적에 대응하는 언어를 주로 이용하다가도 타국가에서 이용되는 언어를 섞어서 말하는 경우가 발생할 수 있다. 이에 따라, 복수 개의 언어가 포함되는 음성을 인식하는 음성 인식 장치 및 음성 인식 방법의 개발이 요청되고 있다.

종래의 복수 언어를 포함하는 음성 인식 방법은, 예를 들어 각국 언어들에 공통되는 의사 전달을 위한 단어나 관용 문장을 코드로 정의한 후, 각국의 언어를 코드로 매핑하는 방법을 이용하였다. 다만, 기본 언어로 설정된 언어 이외의 이종 언어의 종류가 특정되지 않는 이상 모든 언어에 대하여 매핑을 수행하여야 하여 연상량이 급증하는 문제가 발생한다.

특히, 실시간으로 수행되지 않는 음성 인식 방법은 그 활용도가 저하된다는 점에서, 음성 인식 방법에서의 연산량의 감축은 중요한 기술 개발 요청 중 하나이다.

본 발명은 상술한 기술 개발 요청에 응답하여 안출된 것으로, 본 발명은 기본 언어 및 이종 언어가 포함된 음성을 인식하는 경우에 있어서, 이종 언어의 종류를 신속하게 확인하여 실시간으로 복수 언어 음성을 인식할 수 있는 음성 인식 장치 및 음성 인식 방법을 제공한다.

상술한 바를 달성하기 위하여 본 발명의 일 실시 예에 의한 음성 인식 방법은, 복수 개의 언어를 포함하는 음성을 입력받는 과정; 상기 음성을 기설정된 기본 언어에 대응하는 음성 인식 알고리즘에 기초하여 제 1 차 음성 인식하는 과정;상기 복수 개의 언어에 포함된, 기설정된 기본 언어 및 상기 기본 언어와 상이한 이종 언어를 확인하는 과정; 상기 이종 언어의 종류를 컨텍스트 정보(context information)에 기초하여 판단하는 과정; 상기 종류가 판단된 이종 언어에 대응하는 음성 인식 알고리즘을 상기 이종 언어에 적용하여 제 2 차 음성 인식하는 과정; 및 상기 제 1차 음성 인식 및 상기 제 2 차 음성 인식에 기초한 음성 인식 결과를 출력하는 과정을 포함할 수 있다.

본 발명의 다른 실시 예에 의한 음성 인식 장치는, 기설정된 기본 언어 및 상기 기본 언어와 상이한 이종 언어를 포함하는 음성을 입력받는 마이크; 상기 기본 언어에 대응하는 음성 인식 알고리즘 및 상기 이종 언어에 대응하는 음성 인식 알고리즘을 저장하는 저장부; 상기 음성을 기설정된 기본 언어에 대응하는 음성 인식 알고리즘에 기초하여 제 1 차 음성 인식하며, 상기 복수 개의 언어에 포함된 기설정된 기본 언어 및 상기 기본 언어와 상이한 이종 언어를 확인하고, 상기 이종 언어의 종류를 컨텍스트 정보(context information)에 기초하여 판단하고, 상기 종류가 판단된 이종 언어에 대응하는 음성 인식 알고리즘을 상기 이종 언어에 적용하여 제 2 차 음성 인식하는 제어부; 및 상기 제 1차 음성 인식 및 상기 제 2 차 음성 인식에 기초한 음성 인식 결과를 출력하는 표시부를 포함할 수 있다.

본 발명의 또 다른 실시 예에 의한 문자 인식 방법은, 복수 개의 언어를 포함하는 문자를 입력받는 과정; 상기 문자를 기설정된 기본 언어에 대응하는 문자 인식 알고리즘에 기초하여 제 1 차 문자 인식하는 과정; 상기 복수 개의 언어에 포함된, 기설정된 기본 언어 및 상기 기본 언어와 상이한 이종 언어를 확인하는 과정; 상기 이종 언어의 종류를 컨텍스트 정보(context information)에 기초하여 판단하는 과정; 상기 종류가 판단된 이종 언어에 대응하는 문자 인식 알고리즘을 상기 이종 언어에 적용하여 제 2 차 문자 인식하는 과정; 상기 제 1차 문자 인식 및 상기 제 2 차 문자 인식에 기초한 문자 인식 결과를 음성으로 변환하는 과정; 및 상기 변환된 음성을 출력하는 과정을 포함할 수 있다.

아울러, 본 발명의 또 다른 실시 예에 의한 문자 인식 장치는, 복수 개의 언어를 포함하는 문자를 입력받는 입력부; 상기 문자를 기설정된 기본 언어에 대응하는 문자 인식 알고리즘에 기초하여 제 1 차 문자 인식하며, 상기 복수 개의 언어에 포함된, 기설정된 기본 언어 및 상기 기본 언어와 상이한 이종 언어를 확인하고, 상기 이종 언어의 종류를 컨텍스트 정보(context information)에 기초하여 판단하며, 상기 종류가 판단된 이종 언어에 대응하는 문자 인식 알고리즘을 상기 이종 언어에 적용하여 제 2 차 문자 인식하고, 상기 제 1차 문자 인식 및 상기 제 2 차 문자 인식에 기초한 문자 인식 결과를 음성으로 변환하는 제어부; 및 상기 변환된 음성을 출력하는 출력부 포함할 수 있다.

본 발명의 다양한 실시 예들에 의하여, 기본 언어 및 이종 언어가 포함된 음성을 인식하는 경우에 있어서, 이종 언어의 종류를 신속하게 확인하여 실시간으로 복수 언어 음성을 인식할 수 있는 음성 인식 장치 및 음성 인식 방법이 제공될 수 있다. 이에 따라, 이종 언어 인식을 위하여 모든 언어를 확인하지 않아도 되어 연산량이 감축할 수 있다. 또한, 연산량 감축에 기초하여 복수 개의 언어가 포함된 음성을 실시간으로 처리할 수 있다. 아울러, CPU 자원이 제한적인 모바일 장치에 있어서도, 복수 개의 언어가 포함된 음성을 양호하게 처리할 수 있다.

도 1은 본 발명의 일 실시 예에 의한 음성 인식 방법의 흐름도이다.
도 2a 내지 2d는 기본 언어 및 이종 언어를 포함하는 음성을 식별하는 과정을 설명하기 위한 개념도이다.
도 3a 및 3b는 본 발명의 다양한 실시 예에 의한 음성 인식 장치의 블록도이다.
도 4는 본 발명의 일 실시 예에 의한 음성 인식 방법의 흐름도이다.
도 5는 본 발명의 일 실시 예에 의한 음성 인식 방법을 설명하는 흐름도이다.
도 6a 내지 6f는 도 5의 음성 인식 방법을 설명하기 위한 음성 인식 장치의 개념도들이다.
도 7은 본 발명의 일 실시 예에 의한 음성 인식 방법을 설명하는 흐름도이다.
도 8은 본 발명의 일 실시 예에 의한 음성 인식 방법을 설명하기 위한 흐름도이다.
도 9는 본 발명의 일 실시 예에 의한 음성 인식 방법을 설명하기 위한 흐름도이다.
도 10은 본 발명의 실시 예에 의한 TTS(text to speech) 방법을 설명하기 위한 흐름도이다.

도 1은 본 발명의 일 실시 예에 의한 음성 인식 방법의 흐름도이다. 아울러, 도 2a 내지 2d는 본 발명에 의한 음성 인식 방법을 설명하기 위한 개념도로서, 도 1의 음성 인식 방법은 도 2a 내지 2d를 참조하여 더욱 상세하게 설명하도록 한다.

음성 인식 장치는 복수 개의 언어를 포함하는 음성을 입력받을 수 있다(S101). 복수 개의 언어는 기본 언어 및 이종 언어를 포함할 수 있다. 여기에서, 기본 언어는 입력되는 음성에서 상대적으로 많은 부분을 차지하는 언어일 수 있다. 아울러, 이종 언어는 기본 언어와는 상이한 종류를 가지며, 입력되는 음성에서 상대적으로 적은 부분을 차지하는 언어일 수 있다. 기본 언어가 입력되는 음성에서 상대적으로 많은 부분을 차지함에 따라서, 음성 인식 장치에서는 인식 대상 언어 종류로 설정될 수 있다. 즉, 음성 인식 장치에서 음성 인식으로 기설정된 언어를 기본 언어라고 지칭할 수 있으며, 음성 인식 장치에서 인식 대상 언어로 기설정되지 않은 언어를 이종 언어라고 지칭할 수 있다.

예를 들어, 제 1 언어를 주로 사용하는 사용자가 제 2 언어를 간헐적으로 사용하는 상황을 상정하도록 한다. 사용자는 제 1 언어를 주로 사용하기 때문에, 음성 인식 장치에서 제 1 언어를 인식 대상 언어로 설정할 수 있다. 다만, 제 2 언어는 상대적으로 간헐적으로 사용되기 때문에, 인식 대상 언어로 설정되지 않을 수 있다. 이러한 경우에서, 제 1 언어는 기본 언어일 수 있으며, 제 2 언어는 이종 언어일 수 있다.

도 2a는 기본 언어 및 이종 언어를 포함하는 음성을 설명하기 위한 개념도이다.

도 2a에서는 "How are your 추석 holidays?"라는 음성(200)이 입력되는 상황이 설명된다. 도 2a의 실시 예에서는, "How", "are", "your", "holidays"에 대응하는 영어가 기본 언어일 수 있으며, "추석"에 대응하는 한국어가 이종 언어일 수 있다. 즉, 음성 인식 장치는 영어를 기본 언어로 기설정할 수 있으며, 한국어에 대하여서는 별다른 설정을 수행하지 않을 수 있다.

다시, 도 1을 참조하면, 음성 인식 장치는 입력된 음성(200)으로부터 이종 언어를 확인할 수 있다(S103). 예를 들어, 음성 인식 장치는, 어쿠스틱 모델(acoustic model) 인식 방법에 기초하여, 도 2a에서와 같이 입력된 음성(200)을 음소 단위로 분할할 수 있다. 음성 인식 장치는 음성(200)을 "h", "au", "w", "a", "q", "yo", "rr", "ch", "u", "s", "aw", "k", "h", "aw", "l", "i" "d", "ae", "z"의 음소로 분할할 수 있다.

또는, 음성 인식 장치는, 언어 모델(language model) 인식 방법에 기초하여, 입력된 음성(200)을 단어 단위로 분할할 수 있다. 음성 인식 장치는 음성(200)을 제 1 단어(201) 내지 제 5 단어(205)로 분할할 수도 있다.

본원 발명의 사상이 어쿠스틱 모델 또는 언어 모델 인식 방법의 종류에 의하여 제한되지 않음을 당업자는 용이하게 이해할 수 있을 것이다.

음성 인식 장치는 분할된 음소를 음소 데이터베이스에 매칭하여 유사도를 판단할 수 있다. 예를 들어, 음성 인식 장치는 도 2b에서와 같이, 음성 인식 장치는, 개별 음소 또는 음소 집합(211)과 음소 데이터 베이스(212)와의 매칭 관계를 확인할 수 있다.

도 2b에서, 음성 인식 장치는 제 1 음소(P1)와 음소 데이터 베이스(212) 중의 제 1 단어(Word 1) 내지 제 N 단어(Word N)와의 매칭 관계를 확인하고, 각각의 유사도를 판단할 수 있다. 아울러, 음성 인식 장치는 제 1 음소(P1)에 제 2 음소(P2)를 덧붙여서 제 1 단어(Word 1) 내지 제 N 단어와의 매칭 관계를 확인하고, 각각의 유사도를 판단할 수 있다. 이와 유사한 방식으로 음성 인식 장치는 적어도 하나의 음소(211)를 음소 데이터 베이스(212)와 매칭하고, 유사도를 판단할 수 있다. 음성 인식 장치는 유사도가 기설정된 임계치 이상인 단어를 인식된 단어로 결정할 수 있다. 다만, 기설정된 임계치 이상인 단어가 복수 개인 경우에는, 유사도가 가장 높은 단어가 인식된 단어로 결정될 수 있다.

도 2c는 "w", "a", "z"의 음소들이 "was"의 단어로 인식되는 과정을 설명하는 개념도이다. 도 2c에서, 음성 인식 장치는 분할된 "w" 음소의 매칭 결과 및 유사도를 파악할 수 있으며, "w" 및 "a"의 음소의 매칭 결과 및 유사도를 파악할 수 있으며, "w", "a", "z"의 세 음소의 매칭 결과 및 유사도를 파악할 수 있다. 도 2c에 도시된 바와 같이, "w", "a", "z"의 세 음소와, 음소 데이터 베이스(212)의 "was"의 단어의 유사도가 가장 높으며, 임계치 이상인 것을 확인할 수 있다. 이에 따라, 음성 인식 장치는 "w", "a", "z"의 세 음소는 "was" 단어인 것으로 인식할 수 있다.

한편, 도 2d는 "추석"이 인식되는 과정을 설명하는 개념도이다. 도 2d에서, 음성 인식 장치는 분할된 "ch" 음소의 매칭 결과 및 유사도를 파악할 수 있으며, "ch" 및 "u"음소의 매칭 결과 및 유사도를 파악할 수 있으며, "ch", "u" 및 "s"음소의 매칭 결과 및 유사도를 파악할 수 있으며, "ch", "u", "s" 및 "aw" 음소의 매칭 결과 및 유사도를 파악할 수 있으며, "ch", "u", "s", "aw" 및 "k" 음소의 매칭 결과 및 유사도를 파악할 수 있다. 다만, 각각에 대하여서 매칭되는 단어가 존재하지 않는 것을 확인할 수 있다. 또는 유사도가 기설정된 임계치 미만인 것을 확인할 수 있다. 이에 따라, 음성 인식 장치는 "추석"에 대응하는 단어가 없는 것으로 판단할 수 있다. 상기의 과정은 신뢰도 측정(confidence measure)으로 명명될 수 있다.

상술한 바에 따라서, 음성 인식 장치는 분리를 수행할 수 있다. 도 2c 및 2d의 실시 예에서는, 음성 인식 장치가 "w", "a", "z"의 세 음소는 "was" 단어에 해당하고, "ch", "u", "s", "aw" 및 "k" 음소에 대응하는 단어가 존재하지 않음을 확인하였다. 이에 따라, 음성 인식 장치는 w", "a", "z"의 세 음소는 영어임을 확인하고, "ch", "u", "s", "aw" 및 "k" 음소는 영어 이외의 언어임을 확인할 수 있다. 음성 인식 장치는 "ch", "u", "s", "aw" 및 "k" 음소를 이종 언어로 결정할 수 있으며, "ch", "u", "s", "aw" 및 "k" 음소를 제외한 나머지 언어를 기본 언어로 결정하여 분리를 수행할 수 있으며, 이종 언어를 확인할 수 있다.

한편, 상술한 과정은 3개 이상의 상이한 언어가 포함된 음성이 입력된 경우에 대하여서도 동일하게 적용될 수 있다. 예를 들어, 제 1 언어, 제 2 언어 및 제 3 언어가 포함된 음성이 음성 인식 장치에 입력된 경우를 상정하도록 한다. 음성 인식 장치는, 제 1 언어를 기본 언어로 설정할 수 있다. 음성 인식 장치는 제 1 언어에 대응하는 음성 인식 알고리즘에 기초하여 음소들에 대한 유사도를 판단할 수 있다. 음성 인식 장치는 유사도가 제 1 임계치 미만인 음소들을 제 1 언어와 상이한 언어로 판단할 수 있다. 아울러, 음성 인식 장치는 제 2 언어에 대응하는 음성 인식 알고리즘에 기초하여 음소들에 대한 유사도를 판단할 수 있다. 음성 인식 장치는 유사도가 제 2 임계치 미만인 음소들을 제 2 언어와 상이한 언어로 판단할 수 있다. 아울러, 음성 인식 장치는 제 3 언어에 대응하는 음성 인식 알고리즘에 기초하여 나머지 음성에 대하여 음성 인식을 수행할 수 있다. 상술한 바에 따라서, 복수 개의 언어가 포함된 음성에 대하여서도 음성 인식이 수행될 수 있다.

다시 도 1을 참조하면, 음성 인식 장치는 이종 언어의 종류를 컨텍스트 정보(context information)에 기초하여 판단할 수 있다(S105). 여기에서 컨텍스트 정보는, 음성 내 국가 명칭 존재 여부, 음성 인식 장치가 위치하는 장소 정보, 다이얼로그 히스토리 정보 및 갱신된 이종 언어 데이터베이스 중 적어도 하나를 포함할 수 있다. 예를 들어, 음성 인식 장치가 위치하는 장소가 한국으로 판단되면, 음성 인식 장치는 이종 언어의 종류를 한국어로 판단할 수 있다. 개별 컨텍스트 정보에 대응하는 이종 언어 종류 판단의 시나리오에 대하여서는 더욱 상세하게 후술하도록 한다.

한편, 음성 인식 장치는 판단된 이종 언어의 종류를 표시할 수도 있다. 사용자는, 이종 언어의 종류를 확인하고, 이에 대한 긍정 또는 부정의 피드팩을 입력할 수 있다. 음성 인식 장치는 입력된 피드팩에 대응하여 이종 언어의 종류를 결정할 수 있다. 예를 들어, 사용자로부터 긍정 피드백이 입력되면, 음성 인식 장치는 판단한 이종 언어의 종류를 확정하며, 부정 피드백이 입력되면 다른 언어를 이종 언어의 종류로 결정할 수 있다. 또는 음성 인식 장치는 다른 언어 리스트를 제공하여 사용자로 하여금 이종 언어의 종류를 선택하는 UI를 제공할 수도 있다.

음성 인식 장치는, 기본 언어를 기설정된 종류의 음성 인식 알고리즘을 적용하여 인식하고, 이종 언어를 판단된 언어 종류의 음성 인식 알고리즘을 적용하여 인식할 수 있다(S107). 예를 들어, "ch", "u", "s", "aw" 및 "k" 음소를 한국어 음성 인식 알고리즘에 적용하여 "추석"의 단어에 해당하는 것을 인식할 수 있다.

음성 인식 장치는 컨텍스트 정보에 기초하여 이종 언어의 종류를 판단할 수 있어, 이종 언어를 인식하기 위하여 모든 언어와 매칭하는 연산량이 현격하게 감소할 수 있다.

도 3a는 본 발명의 일 실시 예에 의한 음성 인식 장치의 블록도이다.

도 3a에 도시된 바와 같이, 음성 인식 장치(300)는 마이크(362), 제어부(310), 저장부(375) 및 표시부(390)를 포함할 수 있다.

마이크(362)는 복수 개의 언어를 포함하는 음성을 입력받을 수 있으며, 입력받은 음성을 전기적인 신호로 변환하여 출력할 수 있다. 예를 들어, 마이크(362)는 아날로그-디지털 변환(analog-digital conversion)을 수행하며, 입력된 아날로그 음성을 디지털의 전기적 신호로 변환하여 출력할 수 있다.

제어부(310)는 입력된 음성을 기본 언어 및 이종 언어로 분리하며, 이종 언어를 확인할 수 있다. 예를 들어, 제어부(310)는 입력된 음성을 음소 단위로 분할할 수 있다. 제어부(310)는 기본 언어로 설정된 종류의 언어의 인식 알고리즘 및 기본 언어의 음소 데이터 베이스를 저장부(375)로부터 독출할 수 있다. 제어부(310)는 적어도 하나의 음소를 기본 언어의 하나의 단어에 매칭하여 인식을 수행할 수 있다. 한편, 제어부(310)는 매칭되지 않은, 즉 기본 언어의 음소 데이터 베이스에 존재하지 않는 음소들을 이종 언어로 결정할 수 있다. 상술한 바에 따라서, 제어부(310)는 마이크(362)로부터 입력된 음성에서 기본 언어 및 이종 언어 각각을 확인할 수 있다.

아울러, 제어부(310)는 컨텍스트 정보에 기초하여 이종 언어의 종류를 판단할 수 있으며, 판단된 종류에 대응하는 음성 인식 알고리즘을 이용하여 이종 언어를 인식할 수 있다.

제어부(310)는 기본 언어 인식 결과 및 이종 언어 인식 결과를 합쳐서 표시부(390)에 표시되도록 제어할 수 있다. 또는, TTS(text-to-speech)의 경우에는, 제어부(310)는 인식 결과를 음성으로 출력하도록 스피커(363)를 제어할 수도 있다.

도 3b는 본 발명의 실시 예에 의한 음성 인식 장치의 더욱 상세한 블록도이다.

도 3b를 참조하면, 음성 인식 장치(300)는 이동통신 모듈(320), 서브통신 모듈(330) 및 커넥터(365)를 이용하여 외부장치(도시되지 아니함)와 연결될 수 있다. “외부장치”는 다른 장치(도시되지 아니함), 휴대폰(도시되지 아니함), 스마트폰(도시되지 아니함), 태블릿PC(도시되지 아니함) 및 서버(도시되지 아니함)를 포함한다.

도 3b를 참조하면, 음성 인식 장치(300)는 표시부(390) 및 표시부 컨트롤러(395)를 포함한다. 여기에서는, 특히 표시부(390)가 터치스크린으로 구현된 경우를 상정하도록 한다. 또한, 음성 인식 장치(300)는 제어부(310), 이동통신 모듈(320), 서브통신 모듈(330), 멀티미디어 모듈(340), 카메라 모듈(350), GPS모듈(355), 입/출력 모듈(360), 센서 모듈(370), 저장부(375) 및 전원공급부(380)를 포함한다. 서브통신 모듈(330)은 무선랜 모듈(331) 및 근거리통신 모듈(332) 중 적어도 하나를 포함하고, 멀티미디어 모듈(340)은 방송통신 모듈(341), 오디오재생 모듈(342) 및 동영상재생 모듈(343) 중 적어도 하나를 포함한다. 카메라 모듈(350)은 제1 카메라(351) 및 제2 카메라(352) 중 적어도 하나를 포함하고, 입/출력 모듈(360)은 버튼(361), 마이크(362), 스피커(363), 진동모터(364), 커넥터(365), 및 키패드(366) 중 적어도 하나를 포함한다.

제어부(310)는 CPU(311), 음성 인식 장치(300)의 제어를 위한 제어프로그램이 저장된 롬(ROM, 112) 및 음성 인식 장치(300)의 외부로부터 입력되는 신호 또는 데이터를 기억하거나, 음성 인식 장치(300)에서 수행되는 작업을 위한 기억영역으로 사용되는 램(RAM, 113)을 포함할 수 있다. CPU(311)는 싱글 코어, 듀얼 코어, 트리플 코어, 또는 쿼드 코어를 포함할 수 있다. CPU(311), 롬(312) 및 램(313)은 내부버스(bus)를 통해 상호 연결될 수 있다.

제어부(310)는 이동통신 모듈(320), 서브통신 모듈(330), 멀티미디어 모듈(340), 카메라 모듈(350), GPS 모듈(355), 입/출력 모듈(360), 센서 모듈(370), 저장부(375), 전원공급부(380), 표시부(390) 및 표시부 컨트롤러(395)를 제어할 수 있다.

이동통신 모듈(320)은 제어부(310)의 제어에 따라 적어도 하나-하나 또는 복수-의 안테나(도시되지 아니함)를 이용하여 이동 통신을 통해 음성 인식 장치(300)가 외부 장치와 연결되도록 한다. 이동통신 모듈(320)은 음성 인식 장치(300)에 입력되는 전화번호를 가지는 휴대폰(도시되지 아니함), 스마트폰(도시되지 아니함), 태블릿PC 또는 다른 장치(도시되지 아니함)와 음성 통화, 화상 통화, 문자메시지(SMS) 또는 멀티미디어 메시지(MMS)를 위한 무선 신호를 송/수신한다.

서브통신 모듈(330)은 무선랜 모듈(331)과 근거리통신 모듈(332) 중 적어도 하나를 포함할 수 있다. 예를 들어, 무선랜 모듈(331)만 포함하거나, 근거리통신 모듈(332)만 포함하거나 또는 무선랜 모듈(331)과 근거리통신 모듈(332)을 모두 포함할 수 있다.

무선랜 모듈(331)은 제어부(310)의 제어에 따라 무선 AP(access point)(도시되지 아니함)가 설치된 장소에서 인터넷에 연결될 수 있다. 무선랜 모듈(331)은 미국전기전자학회(IEEE)의 무선랜 규격(IEEE802.11x)을 지원한다. 근거리통신 모듈(332)은 제어부(310)의 제어에 따라 음성 인식 장치(300)와 화상형성장치(도시되지 아니함) 사이에 무선으로 근거리 통신을 할 수 있다. 근거리 통신방식은 블루투스(bluetooth), 적외선 통신(IrDA, infrared data association) 등이 포함될 수 있다.

음성 인식 장치(300)는 성능에 따라 이동통신 모듈(320), 무선랜 모듈(331), 및 근거리통신 모듈(332) 중 적어도 하나를 포함할 수 있다. 예를 들어, 음성 인식 장치(300)는 성능에 따라 이동통신 모듈(320), 무선랜 모듈(331), 및 근거리통신 모듈(332)들의 조합을 포함할 수 있다. 아울러 이동통신 모듈(320), 무선랜 모듈(331), 및 근거리통신 모듈(332)들의 조합을 통신 모듈로 명명할 수 있다.

멀티미디어 모듈(340)은 방송통신 모듈(341), 오디오재생 모듈(342) 또는 동영상재생 모듈(343)을 포함할 수 있다. 방송통신 모듈(341)은 제어부(310)의 제어에 따라 방송통신 안테나(도시되지 아니함)를 통해 방송국에서부터 송출되는 방송 신호(예, TV방송 신호, 라디오방송 신호 또는 데이터방송 신호) 및 방송부가 정보(예, EPS(Electric Program Guide) 또는 ESG(Electric Service Guide))를 수신할 수 있다. 오디오재생 모듈(342)는 제어부(310)의 제어에 따라 저장되거나 또는 수신되는 디지털 오디오 파일(예, 파일 확장자가 mp3, wma, ogg 또는 wav인 파일)을 재생할 수 있다. 동영상재생 모듈(343)은 제어부(310)의 제어에 따라 저장되거나 또는 수신되는 디지털 동영상 파일(예, 파일 확장자가 mpeg, mpg, mp4, avi, mov, 또는 mkv인 파일)을 재생할 수 있다. 동영상재생 모듈(343)은 디지털 오디오 파일을 재생할 수 있다.

멀티미디어 모듈(340)은 방송통신 모듈(341)을 제외하고 오디오재생 모듈(342)과 동영상재생 모듈(343)을 포함할 수 있다. 또한, 멀티미디어 모듈(340)의 오디오재생 모듈(342) 또는 동영상재생 모듈(343)은 제어부(300)에 포함될 수 있다.

카메라 모듈(350)은 제어부(310)의 제어에 따라 정지이미지 또는 동영상을 촬영하는 제1 카메라(351) 및 제2 카메라(352) 중 적어도 하나를 포함할 수 있다. 또한, 제1 카메라(351) 또는 제2 카메라(352)는 촬영에 필요한 광량을 제공하는 보조 광원(예, 플래시(도시되지 아니함))를 포함할 수 있다. 제1 카메라(351)는 상기 음성 인식 장치(300) 전면에 배치되고, 제2 카메라(352)는 상기 음성 인식 장치(300)의 후면에 배치될 수 있다. 달리 취한 방식으로, 제1 카메라(351)와 제2 카메라(352)는 인접(예, 제1 카메라(351)와 제2 카메라(352)의 간격이 1 cm 보다 크고, 8 cm 보다는 작은)하게 배치되어 3차원 정지이미지 또는 3차원 동영상을 촬영할 수 있다.

GPS 모듈(355)은 지구 궤도상에 있는 복수의 GPS위성(도시되지 아니함)에서부터 전파를 수신하고, GPS위성(도시되지 아니함)에서부터 음성 인식 장치(300)까지 전파도달시간(Time of Arrival)을 이용하여 음성 인식 장치(300)의 위치를 산출할 수 있다. 더욱 상세하게 후술할 것으로, 제어부(310)는 음성 인식 장치(300)의 위치를 이용하여 이종 언어의 종류를 판단할 수 있다.

입/출력 모듈(360)은 복수의 버튼(361), 마이크(362), 스피커(363), 진동모터(364), 커넥터(365), 및 키패드(366) 중 적어도 하나를 포함할 수 있다.

버튼(361)은 상기 음성 인식 장치(300)의 하우징의 전면, 측면 또는 후면에 형성될 수 있으며, 전원/잠금 버튼(도시되지 아니함), 볼륨버튼(도시되지 아니함), 메뉴 버튼, 홈 버튼, 돌아가기 버튼(back button) 및 검색 버튼(361) 중 적어도 하나를 포함할 수 있다.

마이크(362)는 제어부(310)의 제어에 따라 음성(voice) 또는 사운드(sound)를 입력 받아 전기적인 신호를 생성한다.

스피커(363)는 제어부(310)의 제어에 따라 이동통신 모듈(320), 서브통신 모듈(330), 멀티미디어 모듈(340) 또는 카메라 모듈(350)의 다양한 신호(예, 무선신호, 방송신호, 디지털 오디오 파일, 디지털 동영상 파일 또는 사진 촬영 등)에 대응되는 사운드를 음성 인식 장치(300) 외부로 출력할 수 있다. 스피커(363)는 음성 인식 장치(300)가 수행하는 기능에 대응되는 사운드(예, 전화 통화에 대응되는 버튼 조작음, 또는 통화 연결음)를 출력할 수 있다. 스피커(363)는 상기 음성 인식 장치(300)의 하우징의 적절한 위치 또는 위치들에 하나 또는 복수로 형성될 수 있다.

진동모터(364)는 제어부(310)의 제어에 따라 전기적 신호를 기계적 진동으로 변환할 수 있다. 예를 들어, 진동 모드에 있는 음성 인식 장치(300)는 다른 장치(도시되지 아니함)로부터 음성통화가 수신되는 경우, 진동모터(364)가 동작한다. 상기 음성 인식 장치(300)의 하우징 내에 하나 또는 복수로 형성될 수 있다. 진동모터(364)는 표시부(390) 상을 터치하는 사용자의 터치 동작 및 표시부(390) 상에서의 터치의 연속적인 움직임에 응답하여 동작할 수 있다.

커넥터(365)는 음성 인식 장치(300)와 외부장치(도시되지 아니함) 또는 전원소스(도시되지 아니함)를 연결하기 위한 인터페이스로 이용될 수 있다. 제어부(310)의 제어에 따라 커넥터(365)에 연결된 유선 케이블을 통해 음성 인식 장치(300)의 저장부(375)에 저장된 데이터를 외부 장치(도시되지 아니함)로 전송하거나 또는 외부 장치(도시되지 아니함)에서부터 데이터를 수신할 수 있다. 커넥터(365)에 연결된 유선 케이블을 통해 전원소스(도시되지 아니함)에서부터 전원이 입력되거나 배터리(도시되지 아니함)를 충전할 수 있다.

키패드(366)는 음성 인식 장치(300)의 제어를 위해 사용자로부터 키 입력을 수신할 수 있다. 키패드(366)는 음성 인식 장치(300)에 형성되는 물리적인 키패드(도시되지 아니함) 또는 표시부(390)에 표시되는 가상의 키패드(도시되지 아니함)를 포함한다. 음성 인식 장치(300)에 형성되는 물리적인 키패드(도시되지 아니함)는 음성 인식 장치(300)의 성능 또는 구조에 따라 제외될 수 있다.

센서 모듈(370)은 음성 인식 장치(300)의 상태를 검출하는 적어도 하나의 센서를 포함한다. 예를 들어, 센서모듈(370)은 사용자의 음성 인식 장치(300)에 대한 접근여부를 검출하는 근접센서, 음성 인식 장치(300) 주변의 빛의 양을 검출하는 조도센서(도시되지 아니함), 또는 음성 인식 장치(300)의 동작(예, 음성 인식 장치(300)의 회전, 음성 인식 장치(300)에 가해지는 가속도 또는 진동)을 검출하는 모션센서(도시되지 아니함)를 포함할 수 있다. 적어도 하나의 센서는 상태를 검출하고, 검출에 대응되는 신호를 생성하여 제어부(310)로 전송할 수 있다. 센서모듈(370)의 센서는 음성 인식 장치(300)의 성능에 따라 추가되거나 삭제될 수 있다.

저장부(375)는 제어부(310)의 제어에 따라 이동통신 모듈(320), 서브통신 모듈(330), 멀티미디어 모듈(340), 카메라 모듈(350), GPS모듈(355), 입/출력 모듈(360), 센서 모듈(370), 표시부(390)의 동작에 대응되게 입/출력되는 신호 또는 데이터를 저장할 수 있다. 저장부(375)는 음성 인식 장치(300) 또는 제어부(310)의 제어를 위한 제어 프로그램 및 어플리케이션들을 저장할 수 있다.

“저장부”라는 용어는 저장부(375), 제어부(310)내 롬(312), 램(313) 또는 음성 인식 장치(300)에 장착되는 메모리 카드(도시되지 아니함)(예, SD 카드, 메모리 스틱)를 포함한다. 저장부는 비휘발성메모리, 휘발성메모리, 하드 디스크 드라이브(HDD) 또는 솔리드 스테이트 드라이브(SSD)를 포함할 수 있다.

전원공급부(380)는 제어부(310)의 제어에 따라 음성 인식 장치(300)의 하우징에 배치되는 하나 또는 복수의 배터리(도시되지 아니함)에 전원을 공급할 수 있다. 하나 또는 복수의 배터리(도시되지 아니함)는 음성 인식 장치(300)에 전원을 공급한다. 또한, 전원공급부(380)는 커넥터(365)와 연결된 유선 케이블을 통해 외부의 전원소스(도시되지 아니함)에서부터 입력되는 전원을 음성 인식 장치(300)로 공급할 수 있다.

표시부(390)는 사용자에게 다양한 서비스(예, 통화, 데이터 전송, 방송, 사진촬영)에 대응되는 유저 인터페이스를 제공할 수 있다. 표시부(390)는 유저 인터페이스에 입력되는 적어도 하나의 터치에 대응되는 아날로그 신호를 표시부 컨트롤러(395)로 전송할 수 있다. 표시부(390)는 사용자의 신체(예, 엄지를 포함하는 손가락) 또는 터치가능한 입력 수단(예, 스타일러스 펜)을 통해 적어도 하나의 터치를 입력받을 수 있다. 또한, 표시부(390)는 적어도 하나의 터치 중에서, 하나의 터치의 연속적인 움직임을 입력받을 수 있다. 표시부(390)는 입력되는 터치의 연속적인 움직임에 대응되는 아날로그 신호를 표시부 컨트롤러(395)로 전송할 수 있다.

본 발명에서 터치는 표시부(390)와 사용자의 신체 또는 터치 가능한 입력 수단과의 접촉에 한정되지 않고, 비접촉(예, 표시부(390)와 사용자의 신체 또는 터치 가능한 입력 수단과 검출가능한 간격이 1 mm 이하)을 포함할 수 있다. 표시부(390)에서 검출가능한 간격은 음성 인식 장치(300)의 성능 또는 구조에 따라 변경될 수 있다.

표시부(390)는 예를 들어, 제 1 터치 패널(390a) 및 제 2 터치 패널(390b)을 포함할 수 있다. 여기에서 제 1 터치 패널(390a)은 사용자의 신체 일부의 터치 또는 근접을 측정할 수 있다. 예를 들어, 제 1 터치 패널(390a)은 저항막(resistive) 방식, 정전용량(capacitive) 방식, 적외선(infrared) 방식 또는 초음파(acoustic wave) 방식으로 구현될 수 있다.

한편, 제 2 터치 패널(390b)은 스타일러스 펜과 같은 장치의 터치 또는 근접을 측정할 수 있다. 예를 들어, 제 2 터치 패널(390b)은 EMR(electromagnetic) 측정 방식으로 구현될 수 있다.

표시부 컨트롤러(395)는 표시부(390)에서부터 수신된 아날로그 신호를 디지털 신호(예, X와 Y좌표)로 변환하여 제어부(310)로 전송한다. 제어부(310)는 표시부 컨트롤러(395)로부터 수신된 디지털 신호를 이용하여 표시부(390)를 제어할 수 있다. 예를 들어, 제어부(310)는 터치에 응답하여 표시부(390)에 표시된 단축 아이콘(도시되지 아니함)이 선택되게 하거나 또는 단축 아이콘(도시되지 아니함)을 실행할 수 있다. 또한, 표시부 컨트롤러(395)는 제어부(310)에 포함될 수도 있다. 표시부 컨트롤러(395)는 예를 들어 제 1 터치 패널(390a)을 제어하는 제 1 터치 패널 컨트롤러(395a) 및 제 2 터치 패널(390b)을 제어하는 제 2 터치 패널 컨트롤러(395b)를 포함할 수 있다.

한편, 제어부(310)는 상기 터치 스크린(390) 뿐만 아니라 카메라 모듈(350), 입/출력 모듈(360), 및 센서모듈(370) 등을 통해 수신되는 다양한 사용자 입력을 검출할 수 있다. 상기 사용자 입력은 터치뿐만 아니라, 사용자의 제스쳐, 음성, 눈동자 움직임, 생체신호 등 상기 장치(300) 내로 입력되는 다양한 형태의 정보를 포함할 수 있다. 제어부(310)는 검출된 사용자 입력에 대응하는 미리 정해진 동작 또는 기능을 수행하도록 디스플레이 장치(300) 전반을 제어할 수 있다.

도 4는 본 발명의 일 실시 예에 의한 음성 인식 방법의 흐름도이다.

도 4에 도시된 바와 같이, 음성 인식 장치는 이종 언어의 종류를 커텍스트 정보에 기초하여 판단할 수 있다(S401). 음성 인식 장치는 판단된 이종 언어에 대응하는 인식 알고리즘으로, 이종 언어에 대한 음성 인식을 수행할 수 있다(S403). 한편, 음성 인식 장치는 인식 결과를 컨텍스트 정보 및 인식 알고리즘 중 적어도 하나를 갱신할 수 있다(S405).

예를 들어, 도 1 및 도 2a 내지 2d의 실시 예에서, "ch", "u", "s", "aw" 및 "k" 음소를 한국어 "추석"으로 인식하였으며, 이종 언어 데이터베이스를 갱신하였음을 설명하였다. 음성 인식 장치는, "ch", "u", "s", "aw" 및 "k" 음소가 입력되면, 한국어 인식 알고리즘을 곧바로 적용할 수 있다. 또는, 음성 인식 장치는, "ch", "u", "s", "aw" 및 "k" 음소가 입력되면, 곧바로 한국어 "추석"으로 인식할 수도 있다. 상술한 바에 따라서, 본 발명은 개인별 특성화된 음성 인식 방법을 제공할 수 있다. 예를 들어, 한국어에 친숙하지 않은 미국인이 "추석"을 "ch", "u", "s", "aw" 및 "k"으로 발음하지 않고, "ch", "u", "s", "o" 및 "k"의 음소로 발음하는 경우를 상정하도록 한다. 이러한 경우, 음성 인식 장치가 "ch", "u", "s", "o" 및 "k"의 음소를 도 1의 방법에 기초하여 "추석"으로 인식하고, "ch", "u", "s", "o" 및 "k"의 음소는 "추석"에 대응한다는 내용을 이종 언어 데이터 베이스에 갱신할 수 있다. 이후, 동일한 사용자가 "ch", "u", "s", "o" 및 "k"의 음소를 다시 입력한 경우에도, 음성 인식 장치는 "ch", "u", "s", "o" 및 "k"의 음소를 곧바로 한국어 인식 알고리즘에 적용하거나 또는 곧바로 한국어 "추석"으로 인식할 수 있다. 이에 따라, 본 발명에 의한 음성 인식 방법에 의하여 개인별로 차별화된 발음을 신속하게 이종 언어로 판단하고, 인식할 수 있다.

도 5는 본 발명의 일 실시 예에 의한 음성 인식 방법을 설명하는 흐름도이다. 도 5의 실시 예는 도 6a 내지 6f를 참조하여 더욱 상세하게 설명하도록 한다. 도 6a 내지 6f는 도 5의 음성 인식 방법을 설명하기 위한 음성 인식 장치의 개념도들이다.

음성 인식 장치는 이종 언어의 종류를 커텍스트 정보에 기초하여 판단할 수 있다(S501). 음성 인식 장치는 판단된 이종 언어에 대응하는 인식 알고리즘으로, 이종 언어에 대한 음성 인식을 수행할 수 있다(S503).

음성 인식 장치는, 복수 개의 언어를 포함하는 음성을 입력받으며, 인식 결과를 출력할 수 있다(S511).

예를 들어, 도 6a에서와 같이, 음성 인식 장치(300)는 복수 개의 언어를 포함하는 음성(601)을 마이크(362)를 통하여 입력받을 수 있다. 여기에서, 음성(601)은 "h", "au", "w", "a", "q", "yo", "rr", "ch", "u", "s", "aw", "k", "h", "aw", "l", "i" "d", "ae", "z"의 음소를 포함하고 있음을 상정하도록 한다.

아울러, 음성 인식 장치는, 도 6b에서와 같이, 입력된 음성에 대응하는 텍스트를 표시부에 표시할 수 있다. 도 6b에서는, 인식 결과가 "How was your two sun holidays?"인 것을 표시할 수 있다. 즉, 음성 인식 장치(300)는 "ch", "u", "s", "aw" 및 "k"의 음소를 영어 단어의 "two sun"으로 오인식하여 출력할 수 있다.

음성 인식 장치는 인식 결과에 대한 사용자 피드백을 입력받을 수 있다(S513). 여기에서, 사용자 피드백은 인식 결과가 적합한지 또는 부적합한지 여부에 대한 것일 수 있다. 도 6b에서의 오인식 결과에 대하여 사용자는 인식 결과가 부적합함을 지시하는 사용자 피드백을 입력할 수 있다. 예를 들어, 도 6c에서와 같이 사용자는 표시부를 2회 터치하는 제스처(610)를 입력함으로써, 인식 결과가 부적합함을 지시하는 사용자 피드백을 입력할 수 있다. 한편, 표시부를 2회 터치하는 제스처(610)는 단순히 예시적인 것이며, 당업자는 사용자 피드백 입력 방법에 제한이 없음을 용이하게 이해할 수 있을 것이다.

또는, 사용자는 오인식된 부분만을 지시할 수도 있다. 예를 들어, 사용자는 "two sun"에 해당하는 부분에 드래그 제스처를 입력할 수 있다. 음성 인식 장치는 사용자 피드백이 입력된 "two sun"에 대응하는 "ch", "u", "s", "aw" 및 "k"의 음소에 대한 인식에 오류가 있음을 확인할 수 있다.

음성 인식 장치는 사용자 피드백에 기초하여 컨텍스트 정보 및 인식 알고리즘 중 적어도 하나를 갱신할 수 있다(S515). 예를 들어, 도 6c에서, 음성 인식 장치는 "ch", "u", "s", "aw" 및 "k"의 음소를 영어 단어의 "two sun"으로 인식한 것이 잘못된 것이라는 정보를 갱신할 수 있다.

한편, 음성 인식 장치는 입력된 음성에 대한 재인식을 수행할 수 있으며, 예를 들어 도 6d와 같이 재인식 결과를 표시할 수 있다. 도 6d에서, 음성 인식 장치는 인식 결과가 "How was your 추석 holidays?"임을 표시할 수 있다. 도 6e에서 사용자는 인식 결과가 적합하다는 사용자 피드백을, 표시부를 1회 터치(620)하여 입력할 수 있으며, 음성 인식 장치는 이를 도 6f와 같이 확정하여 표시할 수 있다.

음성 인식 장치는 "ch", "u", "s", "aw" 및 "k"의 음소를 한국어 단어의 "추석"으로 인식한 것이 적합하다는 내용을 갱신할 수 있다. 이에 따라, 추후에 "ch", "u", "s", "aw" 및 "k"이 입력되는 경우, 음성 인식 장치는 영어 단어 "two sun"을 인식 결과에서 배제하면서, 곧바로 한국어 단어인 "추석"으로 인식하여 제공할 수 있다.

상술한 바와 같이, 음성 인식 장치는 음성 인식 결과에 기초하여 이종 언어 데이터 베이스를 갱신할 수 있다. 음성 인식 장치는 사용자의 피드백에 기초하여 이종 언어 데이터 베이스를 갱신할 수도 있으며, 또는 사용자의 피드백에 기초하지 않으면서도 이종 언어 데이터 베이스를 갱신할 수도 있다.

도 7은 본 발명의 일 실시 예에 의한 음성 인식 방법을 설명하는 흐름도이다.

음성 인식 장치는 이종 언어의 종류를 커텍스트 정보에 기초하여 판단할 수 있으며, 입력된 음성을 인식할 수 있다(S701). 음성 인식 장치는 인식 결과를 출력할 수 있다(S703). 음성 인식 장치는 인식 결과의 적합 또는 부적합을 지시하는 사용자 피드백을 입력받을 수 있다(S705). 사용자 피드백이 인식 결과 적합함을 지시하는 경우에는(S707-Y), 음성 인식 장치는 해당 인식 결과를 이종 언어 데이터베이스로 갱신할 수 있다(S711). 사용자 피드백이 인식 결과 부적합함을 지시하는 경우에는(S707-N), 음성 인식 장치는 해당 인식 결과를 이종 언어 데이터베이스로부터 배제하고 음성 인식을 재수행할 수 있다(S709).

상술한 과정에 의하여 개별 사용자에 특화된 음성 인식 방법이 형성될 수 있다. 음성 인식 장치는 개별 사용자마다 음성 인식 방법을 상이하게 설정할 수 있다. 또는 음성 인식 장치는 특정 사용자에게 특화된 음성 인식 방법을 다른 음성 인식 장치로 송신할 수도 있다. 이에 따라, 특정 사용자가 다른 음성 인식 장치를 이용하는 경우에도, 해당 특정 사용자에게 특화된 음성 인식 방법을 그대로 이용할 수 있다. 또는, 음성 인식 장치는 외부로부터 특정 사용자에게 특화된 음성 인식 방법을 수신하여 이용할 수도 있다. 즉, 음성 인식 방법은 이종 언어 데이터 베이스를 외부로 송신하거나 외부로부터 수신할 수 있다.

도 8은 본 발명의 일 실시 예에 의한 음성 인식 방법을 설명하기 위한 흐름도이다. 도 8은 다양한 컨텍스트 정보에 기초하여 이종 언어 종류를 판단하는 것을 설명한다.

음성 인식 장치는 입력된 음성으로부터 기본 언어 및 이종 언어를 확인할 수 있다(S801).

음성 인식 장치는 한 문장 안에 국가 명칭이 언급되는지를 판단할 수 있다(S803). 국가 명칭이 언급된 것으로 판단되면(S803-Y), 음성 인식 장치는 해당 국가 언어를 이종 언어 종류를 판단할 수 있다(S811).

예를 들어, 사용자가 "Are there any direct flights from Incheon, South Korea to Reykjavik, Iceland?"라는 음성을 음성 인식 장치로 입력한 상황을 상정하도록 한다. 아울러, 음성 인식 장치는 영어를 기본 언어로 설정한 것을 상정하도록 한다. 음성 인식 장치는 "Incheon" 및 "Reykjavik"를 이종 언어로 확인할 수 있다. 한편, 음성 인식 장치는 입력 음성 중 "South Korea"라는 국가 명칭 및 "Iceland"라는 국가 명칭이 존재하는 것을 판단할 수 있다. 이에 따라, 음성 인식 장치는 "South Korea"에 인접하는 "Incheon"의 이종 언어 종류를 한국어로 결정하고, "Iceland"에 인접하는 "Reykjavik"의 이종 언어 종류를 아이슬란드어로 결정할 수 있다. 음성 인식 장치는 GPS 좌표 또는 위치 정보가 존재하는지를 판단할 수 있다(S805). GPS 좌표 또는 위치 정보가 존재하는 경우(S805-Y), 음성 인식 장치는 GPS 좌표 또는 위치 정보에 기초하여 이종 언어 종류를 판단할 수 있다(S811). 한편, 단말 장치가 입력된 음성을 서버로 송신하며, 서버가 음성 인식을 수행할 수도 있다. 이 경우, 서버는 단말 장치의 GPS 좌표를 수신할 수 있다. 아울러, 서버는 단말 장치의 GPS 좌표에 기초하여 이종 언어 종류를 판단할 수 있다.

예를 들어, 음성 인식 장치는 GPS 좌표를 이용하여 음성 인식 장치가 위치한 국가를 확인할 수 있다. 음석 인식 장치는 확인된 국가의 언어가 기본 언어로 설정되지 않은 경우에는, 확인된 국가의 언어를 이종 언어로 판단할 수 있다. 아울러, 음석 인식 장치는 장소 특징을 이용하여 음성 인식 장치가 위치한 장소를 판단할 수 있다. 예를 들어, 음성 인식 장치가 위치한 장소가 프랑스 전문 음식점인 것으로 판단되면, 음성 인식 장치는 이종 언어를 프랑스어로 판단할 수 있다. 음성 인식 장치는, 상기 위치 정보를 GPS 좌표를 이용해서 확인하거나 또는 서브 통신 모듈(330)에서 인식되는 wi-fi 채널 특성 또는 식별자 등에 기초하여 확인할 수도 있다.

음성 인식 장치는 다이얼로그 히스토리(dialog history)에 언어 지시자가 존재하는지를 판단할 수 있다(S807). 다이얼로그 히스토리에 언어 지시자가 존재하는 경우(S807-Y), 음성 인식 장치는 다이얼로그 히스토리에 기초하여 이종 언어 종류를 판단할 수 있다(S811). 더욱 상세하게는, 음성 인식 장치는 다이얼로그 히스토리에 특정 국가 명칭이 존재하는지를 판단할 수 있으며, 특정 국가 명칭에 대응하는 언어가 기본 언어가 아닌 경우 이종 언어 종류로 판단할 수 있다.

예를 들어, 사용자는 음성 인식 장치와 대화를 수행할 수 있다. 음성 인식 장치는 사용자가 입력한 음성에 대응하는 출력을 제공할 수 있다. 예를 들어, 사용자가 "2018년 동계 올림픽 개최 도시는 어디인가?"라는 음성을 입력할 수 있다. 음성 인식 장치는 입력된 음성을 인식하고, 음성이 어떠한 의미인지를 분석할 수 있다. 음성 인식 장치는 사용자로부터 입력된 음성에 대응하는 출력을 제공할 수 있으며, 예를 들어 "대한민국 평창"이라는 출력을 제공할 수 있다. 음성 인식 장치는 "대한민국 평창"을 텍스트 형태로 표시하여 제공할 수 있거나 또는 TTS(text-to-speech)에 기반하여 음성으로 제공할 수도 있다. 음성 인식 장치는 상기 음성 인식 장치 및 사용자 사이의 다이얼로그 히스토리를 저장할 수 있다. 특히, 음성 인식 장치는 "대한민국" 및 "평창"의 단어가 하나의 문장에 존재하는 것을 저장할 수 있으며, "대한민국"에 해당하는 음소 및 "평창"에 해당하는 음소를 저장할 수 있다.

이후, 음성 인식 장치에 "평창"에 해당하는 음소를 이종 언어의 음소로 포함하는 음성이 입력된 경우에, 음성 인식 장치는 "평창"의 이종 언어 종류를 한국어로 결정하여, 한국어 인식 알고리즘을 "평창"에 적용할 수 있다.

음성 인식 장치는 갱신된 이종 언어 데이터베이스가 존재하는지를 판단할 수 있다(S809). 갱신된 이종 언어 데이터베이스가 존재하는 경우(S809-Y), 음성 인식 장치는 갱신된 이종 언어 데이터베이스에 기초하여 이종 언어 종류를 판단할 수 있다(S811). 더욱 상세하게, 음성 인식 장치는, 이종 언어 데이터베이스에서, 상기 이종 언어가 인식된 이력이 있는지를 판단할 수 있다. 이종 언어가 인식된 이력이 있다면, 음성 인식 장치는 상기 이종 언어를 이력에서 인식한 결과로 곧바로 인식하여 출력할 수 있다.

갱신된 이종 언어 데이터베이스에 기초하여 이종 언어 종류를 판단하는 방법은 도 5와 관련하여 상술하였으며, 상술한 바와 같이 본 발명에 의한 음성 인식 방법은 개별 사용자에 특화된 인식 방법을 제공할 수 있다. 특히, 개별 사용자의 음향, 문법/언어 패턴 및 행동 패턴 중 적어도 하나에 기초한, 개별 사용자에 특화된 인식 방법을 제공할 수 있다.

예를 들어, 사용자의 음향은 음성의 특성에 대한 것으로, 개별 사용자가 발음하는 독립적인 음소 모델 또는 음소 발생 확률을 모델화하여 측정될 수 있다. 아울러, 문법/언어 패턴은 디코딩된 최종 텍스트의 문법을 확인하여 측정될 수 있다. 또한, 행동 패턴은 개별 사용자가 복수 개의 언어를 사용하는 방식에 관한 것일 수 있다.

상술한 바와 같이, 본원 발명의 음성 인식 방법은 다양한 컨텍스트 정보에 기초하여 이종 언어의 종류를 파악할 수 있다.

도 9는 본 발명의 일 실시 예에 의한 음성 인식 방법을 설명하기 위한 흐름도이다.

도 9에 도시된 바와 같이, 음성 인식 장치는 복수 언어를 포함하는 음성을 입력받을 수 있다(S901). 여기에서, 음성은 예를 들어 제 1 언어 및 제 2 언어를 포함한다고 상정한다. 음성 인식 장치는, 제 1 언어를 기본 언어로 설정할 수 있다. 음성 인식 장치는 기본 언어로 설정된 제 1 언어에 대응하는 음성 인식 알고리즘인 제 1 음성 인식 알고리즘에 기초하여 제 1 음성 인식을 수행할 수 있다(S903).

음성 인식 장치는 제 1 음성 인식 결과에 기초하여 기본 언어 및 이종 언어를 확인할 수 있다(S905). 예를 들어, 상술한 바와 같이, 음성 인식 장치는, 제 1 음성 인식 알고리즘에 기초한 음소 별 유사도에 기초하여, 기설정된 임계치 미만의 유사도를 가지는 음소를 이종 언어로 판단할 수 있다.

음성 인식 장치는 이종 언어의 종류를 판단할 수 있으며(S907), 예를 들어 이종 언어의 종류가 제 2 언어인 것을 판단할 수 있다. 음성 인식 장치는, 제 2 언어에 대응하는 제 2 음성 인식 알고리즘에 기초하여 제 2 음성 인식을 수행할 수 있다(S909). 음성 인식 장치는, 제 1 음성 인식 및 제 2 음성 인식 결과에 기초한 음성 인식 결과를 출력할 수 있다(S911).

도 10은 본 발명의 실시 예에 의한 TTS(text to speech) 방법을 설명하기 위한 흐름도이다.

문자 인식 장치는 복수 언어를 포함하는 문자를 입력받을 수 있다(S1001). 여기에서, 문자는 예를 들어 제 1 언어 및 제 2 언어를 포함한다고 상정한다. 문자 인식 장치는, 제 1 언어를 기본 언어로 설정할 수 있다. 문자 인식 장치는 기본 언어로 설정된 제 1 언어에 대응하는 문자 인식 알고리즘인 제 1 문자 인식 알고리즘에 기초하여 제 1 문자 인식을 수행할 수 있다(S1003).

문자 인식 장치는 제 1 문자 인식 결과에 기초하여 기본 언어 및 이종 언어를 확인할 수 있다(S1005). 예를 들어, 문자 인식 장치는, 제 1 문자 인식 알고리즘에 기초한 문자 별 유사도에 기초하여, 기설정된 임계치 미만의 유사도를 가지는 문자를 이종 언어로 판단할 수 있다.

문자 인식 장치는 이종 언어의 종류를 판단할 수 있으며(S1007), 예를 들어 이종 언어의 종류가 제 2 언어인 것을 판단할 수 있다. 문자 인식 장치는, 상술한 음성 인식 방법과 동일한 방식으로 이종 언어의 종류를 판단할 수 있다. 예를 들어, 문자 인식 장치는, 입력된 문자에 특정 국가 명칭, 문자로그 히스토리에 언어 지시자가 존재하는지 여부, 컨텍스트 정보에 기초하거나 또는 GPS/위치 정보에 기초하여 이종 언어의 종류를 판단할 수 있다.

문자 인식 장치는, 제 2 언어에 대응하는 제 2 문자 인식 알고리즘에 기초하여 제 2 문자 인식을 수행할 수 있다(S1009). 문자 인식 장치는, 제 1 문자 인식 및 제 2 문자 인식 결과에 기초한 문자 인식 결과를 출력할 수 있다(S1011). 특히, 문자 인식 장치는, 제 1 문자 인식 및 제 2 문자 인식 결과를 음성으로 출력할 수 있다.

본 발명의 실시 예들은 하드웨어, 소프트웨어 또는 하드웨어 및 소프트웨어의 조합의 형태로 실현 가능하다는 것을 알 수 있을 것이다. 이러한 임의의 소프트웨어는 예를 들어, 삭제 가능 또는 재기록 가능 여부와 상관없이, ROM 등의 저장 장치와 같은 휘발성 또는 비휘발성 저장 장치, 또는 예를 들어, RAM, 메모리 칩, 장치 또는 집적 회로와 같은 메모리, 또는 예를 들어 CD, DVD, 자기 디스크 또는 자기 테이프 등과 같은 광학 또는 자기적으로 기록 가능함과 동시에 기계(예를 들어, 컴퓨터)로 읽을 수 있는 저장 매체에 저장될 수 있다. 본 발명의 그래픽 화면 갱신 방법은 제어부 및 메모리를 포함하는 컴퓨터 또는 휴대 단말에 의해 구현될 수 있고, 상기 메모리는 본 발명의 실시 예들을 구현하는 지시들을 포함하는 프로그램 또는 프로그램들을 저장하기에 적합한 기계로 읽을 수 있는 저장 매체의 한 예임을 알 수 있을 것이다. 따라서, 본 발명은 본 명세서의 임의의 청구항에 기재된 장치 또는 방법을 구현하기 위한 코드를 포함하는 프로그램 및 이러한 프로그램을 저장하는 기계(컴퓨터 등)로 읽을 수 있는 저장 매체를 포함한다. 또한, 이러한 프로그램은 유선 또는 무선 연결을 통해 전달되는 통신 신호와 같은 임의의 매체를 통해 전자적으로 이송될 수 있고, 본 발명은 이와 균등한 것을 적절하게 포함한다.

또한, 상기 장치는 유선 또는 무선으로 연결되는 프로그램 제공 장치로부터 상기 프로그램을 수신하여 저장할 수 있다. 상기 프로그램 제공 장치는 상기 그래픽 처리 장치가 기설정된 컨텐츠 보호 방법을 수행하도록 하는 지시들을 포함하는 프로그램, 컨텐츠 보호 방법에 필요한 정보 등을 저장하기 위한 메모리와, 상기 그래픽 처리 장치와의 유선 또는 무선 통신을 수행하기 위한 통신부와, 상기 그래픽 처리 장치의 요청 또는 자동으로 해당 프로그램을 상기 송수신 장치로 전송하는 제어부를 포함할 수 있다.

Claims

복수 개의 언어를 포함하는 음성을 입력받는 과정;
상기 음성을 기설정된 기본 언어에 대응하는 음성 인식 알고리즘에 기초하여 제 1 차 음성 인식하는 과정;
상기 복수 개의 언어에 포함된, 기설정된 기본 언어 및 상기 기본 언어와 상이한 이종 언어를 확인하는 과정;
상기 이종 언어의 종류를 컨텍스트 정보(context information)에 기초하여 판단하는 과정;
상기 종류가 판단된 이종 언어에 대응하는 음성 인식 알고리즘을 상기 이종 언어에 적용하여 제 2 차 음성 인식하는 과정; 및
상기 제 1차 음성 인식 및 상기 제 2 차 음성 인식에 기초한 음성 인식 결과를 출력하는 과정을 포함하는 음성 인식 방법.
제 1 항에 있어서,
상기 컨텍스트 정보는, 음성 내 국가 명칭 존재 여부, 음성 인식 장치가 위치하는 장소 정보, 다이얼로그 히스토리 정보 및 갱신된 이종 언어 데이터베이스 중 적어도 하나를 포함하는 것을 특징으로 하는 음성 인식 방법.
제 2 항에 있어서,
상기 이종 언어의 종류를 컨텍스트 정보에 기초하여 판단하는 과정은,
상기 음성 내 국가 명칭이 존재하는 경우, 상기 국가 명칭에 대응하는 언어가 기본 언어가 아니면 상기 국가 명칭에 대응하는 언어를 상기 이종 언어로 판단하는 것을 특징으로 하는 음성 인식 방법.
제 2 항에 있어서,
상기 이종 언어의 종류를 컨텍스트 정보에 기초하여 판단하는 과정은,
측정한 GPS 좌표에 기초하여, 위치하는 국가 및 위치하는 장소 특징 중 적어도 하나에 대응하는 언어를 상기 이종 언어로 판단하는 것을 특징으로 하는 음성 인식 방법.
제 2 항에 있어서,
상기 이종 언어의 종류를 컨텍스트 정보에 기초하여 판단하는 과정은,
상기 이종 언어 및 국가 명칭이 함께 존재하는 다이얼로그 히스토리가 기저장된지를 판단하는 과정; 및
상기 이종 언어 및 상기 국가 명칭이 함께 존재하는 다이얼로그 히스토리가 존재하면, 상기 국가 명칭에 대응하는 언어를 상기 이종 언어로 판단하는 과정을 포함하는 것을 특징으로 하는 음성 인식 방법.
제 2 항에 있어서,
상기 이종 언어의 종류를 컨텍스트 정보에 기초하여 판단하는 과정은,
이종 언어 데이터베이스에서, 상기 이종 언어가 인식된 이력이 있는지를 판단하는 과정;
상기 이종 언어가 인식된 이력이 있다면, 음성 인식 장치는 상기 이종 언어를 이력에서 인식한 결과로 곧바로 인식하는 과정을 포함하는 것을 특징으로 하는 음성 인식 방법.
제 6 항에 있어서,
상기 이종 언어 데이터 베이스를 외부로부터 수신하는 과정을 더 포함하는 것을 특징으로 하는 음성 인식 방법.
제 6 항에 있어서,
상기 이종 언어 데이터 베이스를 외부로 송신하는 과정을 더 포함하는 것을 특징으로 하는 음성 인식 방법.
제 1 항에 있어서,
상기 이종 언어를 확인하는 과정은,
상기 음성을 음소 단위로 분할하는 과정;
적어도 하나의 분할된 음소를, 기본 언어에 대한 음소 데이터 베이스에 매칭하여, 적어도 하나의 분할된 음소와 기본 언어의 단어 사이의 유사도를 판단하는 과정; 및
상기 판단된 유사도가 기설정된 임계치 미만인 적어도 하나의 분할된 음소를 이종 언어로 확인하는 과정을 포함하는 것을 특징으로 하는 음성 인식 방법.
제 1 항에 있어서,
상기 이종 언어의 인식 결과를 상기 컨텍스트 정보 및 상기 이종 언어에 대응하는 음성 인식 알고리즘 중 적어도 하나에 반영하여 갱신하는 과정을 더 포함하는 것을 특징으로 하는 음성 인식 방법.
제 10 항에 있어서,
상기 이종 언어의 인식 결과를 표시하는 과정; 및
상기 이종 언어의 인식 결과의 적합 또는 부적합 여부를 지시하는 사용자 피드백(feed back)을 입력받는 과정을 더 포함하는 것을 특징으로 하는 음성 인식 방법.
제 11 항에 있어서,
상기 사용자 피드백이 상기 인식 결과가 적합함을 지시하는 경우에는, 상기 이종 언어의 인식 결과를 이종 언어 데이터 베이스에 반영하여 갱신하는 과정을 더 포함하는 것을 특징으로 하는 음성 인식 방법.
제 11 항에 있어서,
상기 사용자 피드백이 상기 인식 결과가 부적합함을 지시하는 경우에는,
상기 이종 언어의 인식 결과를 배제하는 과정; 및
상기 이종 언어를 재인식하여 출력하는 과정을 더 포함하는 것을 특징으로 하는 음성 인식 방법.
기설정된 기본 언어 및 상기 기본 언어와 상이한 이종 언어를 포함하는 음성을 입력받는 마이크;
상기 기본 언어에 대응하는 음성 인식 알고리즘 및 상기 이종 언어에 대응하는 음성 인식 알고리즘을 저장하는 저장부;
상기 음성을 기설정된 기본 언어에 대응하는 음성 인식 알고리즘에 기초하여 제 1 차 음성 인식하며, 복수 개의 언어에 포함된 기설정된 기본 언어 및 상기 기본 언어와 상이한 이종 언어를 확인하고, 상기 이종 언어의 종류를 컨텍스트 정보(context information)에 기초하여 판단하고, 상기 종류가 판단된 이종 언어에 대응하는 음성 인식 알고리즘을 상기 이종 언어에 적용하여 제 2 차 음성 인식하는 제어부; 및
상기 제 1차 음성 인식 및 상기 제 2 차 음성 인식에 기초한 음성 인식 결과를 출력하는 표시부를 포함하는 음성 인식 장치.
제 14 항에 있어서,
상기 컨텍스트 정보는, 음성 내 국가 명칭 존재 여부, 음성 인식 장치가 위치하는 장소 정보, 다이얼로그 히스토리 정보 및 갱신된 이종 언어 데이터베이스 중 적어도 하나를 포함하는 것을 특징으로 하는 음성 인식 장치.
제 15 항에 있어서,
상기 제어부는, 상기 음성 내 국가 명칭이 존재하는 경우, 상기 국가 명칭에 대응하는 언어가 기본 언어가 아니면 상기 국가 명칭에 대응하는 언어를 상기 이종 언어로 판단하는 것을 특징으로 하는 음성 인식 장치.
제 15 항에 있어서,
상기 음성 인식 장치가 위치하는 GPS 좌표를 측정하여 출력하는 GPS 모듈을 더 포함하고,
상기 제어부는, 측정한 GPS 좌표에 기초하여, 위치하는 국가 및 위치하는 장소 특징 중 적어도 하나에 대응하는 언어를 상기 이종 언어로 판단하는 것을 특징으로 하는 음성 인식 장치.
제 15 항에 있어서,
상기 저장부는, 상기 이종 언어 및 국가 명칭이 함께 존재하는 다이얼로그 히스토리를 기저장하고,
상기 제어부는, 상기 이종 언어 및 상기 국가 명칭이 함께 존재하는 다이얼로그 히스토리가 존재하면, 상기 국가 명칭에 대응하는 언어를 상기 이종 언어로 판단하는 것을 특징으로 하는 음성 인식 장치.
제 15 항에 있어서,
상기 저장부는 이종 언어의 데이터 베이스를 저장하고,
상기 제어부는, 상기 이종 언어 데이터베이스에서, 상기 이종 언어가 인식된 이력이 있다면, 음성 인식 장치는 상기 이종 언어를 이력에서 인식한 결과로 곧바로 인식하는 과정을 포함하는 것을 특징으로 하는 음성 인식 장치.
제 19 항에 있어서,
상기 이종 언어 데이터 베이스를 외부로부터 송수신하는 통신 모듈을 더 포함하는 것을 특징으로 하는 음성 인식 장치.
제 14 항에 있어서,
상기 저장부는 기본 언어에 대한 음소 데이터 베이스를 저장하며,
상기 제어부는, 상기 음성을 음소 단위로 분할하고, 적어도 하나의 분할된 음소를, 기본 언어에 대한 음소 데이터 베이스에 매칭하여, 적어도 하나의 분할된 음소와 기본 언어의 단어 사이의 유사도를 판단하고, 상기 판단된 유사도가 기설정된 임계치 미만인 적어도 하나의 분할된 음소를 이종 언어로 확인하는 것을 특징으로 하는 음성 인식 장치.
제 14 항에 있어서,
상기 제어부는, 상기 이종 언어의 인식 결과를 상기 컨텍스트 정보 및 상기 이종 언어에 대응하는 음성 인식 알고리즘 중 적어도 하나에 반영하여 갱신하도록 상기 저장부를 제어하는 것을 특징으로 하는 음성 인식 장치.
제 22 항에 있어서,
상기 표시부는, 상기 이종 언어의 인식 결과를 표시하고, 상기 이종 언어의 인식 결과의 적합 또는 부적합 여부를 지시하는 사용자 피드백(feed back)을 입력받는 것을 특징으로 하는 음성 인식 장치.
제 23 항에 있어서,
상기 사용자 피드백이 상기 인식 결과가 적합함을 지시하는 경우에는, 상기 제어부는 상기 이종 언어의 인식 결과를 이종 언어 데이터 베이스에 반영하여 갱신하도록 상기 저장부를 제어하는 것을 특징으로 하는 음성 인식 장치.
제 23 항에 있어서,
상기 사용자 피드백이 상기 인식 결과가 부적합함을 지시하는 경우에는, 상기 제어부는, 상기 이종 언어의 인식 결과를 배제하고, 상기 이종 언어를 재인식하여 출력하도록 상기 표시부를 제어하는 것을 특징으로 하는 음성 인식 장치.
복수 개의 언어를 포함하는 문자를 입력받는 과정;
상기 문자를 기설정된 기본 언어에 대응하는 문자 인식 알고리즘에 기초하여 제 1 차 문자 인식하는 과정;
상기 복수 개의 언어에 포함된, 기설정된 기본 언어 및 상기 기본 언어와 상이한 이종 언어를 확인하는 과정;
상기 이종 언어의 종류를 컨텍스트 정보(context information)에 기초하여 판단하는 과정;
상기 종류가 판단된 이종 언어에 대응하는 문자 인식 알고리즘을 상기 이종 언어에 적용하여 제 2 차 문자 인식하는 과정;
상기 제 1 차 문자 인식 및 상기 제 2 차 문자 인식에 기초한 문자 인식 결과를 음성으로 변환하는 과정; 및
상기 변환된 음성을 출력하는 과정을 포함하는 문자 인식 방법.
복수 개의 언어를 포함하는 문자를 입력받는 입력부;
상기 문자를 기설정된 기본 언어에 대응하는 문자 인식 알고리즘에 기초하여 제 1 차 문자 인식하며, 상기 복수 개의 언어에 포함된, 기설정된 기본 언어 및 상기 기본 언어와 상이한 이종 언어를 확인하고, 상기 이종 언어의 종류를 컨텍스트 정보(context information)에 기초하여 판단하며, 상기 종류가 판단된 이종 언어에 대응하는 문자 인식 알고리즘을 상기 이종 언어에 적용하여 제 2 차 문자 인식하고, 상기 제 1차 문자 인식 및 상기 제 2 차 문자 인식에 기초한 문자 인식 결과를 음성으로 변환하는 제어부; 및
상기 변환된 음성을 출력하는 출력부 포함하는 문자 인식 장치.