WO2015005679A1

WO2015005679A1 - 음성 인식 방법, 장치 및 시스템

Info

Publication number: WO2015005679A1
Application number: PCT/KR2014/006168
Authority: WO
Inventors: 김사무엘; 오현오; 송명석
Original assignee: 주식회사 윌러스표준기술연구소
Priority date: 2013-07-09
Filing date: 2014-07-09
Publication date: 2015-01-15
Also published as: KR20160030168A

Abstract

본 발명은 사용자의 개인 정보를 이용하여 음성 인식 성능을 높이기 위한 음성 인식 장치, 시스템 및 방법에 관한 것이다. 본 발명의 실시예에 따른 음성 인식 시스템은 음성 신호를 입력 받고 사용자의 개인 정보를 수집하는 단말기, 단말기로부터 음성 신호와 개인 정보를 수신하고, 개인 정보를 기 설정된 카테고리로 분류하여 저장하며, 음성 신호 및 저장된 적어도 일부의 개인 정보를 음성 인식 서버로 전송하는 프라이빗 서버, 프라이빗 서버로부터 전송된 음성 신호와 개인 정보에 기초하여 음성 인식을 수행하고, 음성 인식 결과물을 생성하는 음성 인식 서버를 포함할 수 있다.

Description

음성 인식 방법, 장치 및 시스템

본 발명은 음성 인식 장치, 시스템 및 방법에 관한 것으로, 더욱 상세하게는 사용자의 개인 정보를 이용하여 음성 인식 성능을 높이기 위한 음성 인식 장치, 시스템 및 방법에 관한 것이다.

음성 인식 기술은 사용자와 단말기 간의 상호작용을 쉽게 해줄 수 있는 핵심기술 중 하나이다. 음성 인식 기술을 통해 단말기는 사용자의 음성을 듣고, 이를 이해할 수 있으며, 이해한 내용을 바탕으로 사용자에게 적절한 서비스를 제공할 수도 있다.

일반적으로 음성 인식 기술은 다량의 발화 데이터와 언어 데이터로부터 통계적 특징을 추출하여 제작한 음성 인식 모델을 사용한다. 음성 인식 장치는 사용자의 음성을 분석하여 이미 만들어져 있는 음성 인식 모델과의 유사도를 측정하여 사용자의 음성에 포함된 정보를 유추한다.

하지만, 최근의 괄목할만한 발달에도 불구하고, 음성 인식 기술은 그 넓은 가능성에 비하여 현재 매우 제한된 분야에서만 사용 되고 있다. 이러한 현상은 음성 인식 기술이 갖고 있는 몇 가지 한계점들 때문이다. 그 한계점은 음성 인식 과정에서 사용자 개인의 특성에 맞추어진 것이 아닌, 일반화된 음성 인식 모델을 사용하는 데서 기인한다. 또한, 현재의 음성 인식 단말기가 갖는 연산 능력의 한계성도 큰 장애요소가 되고 있다.

본 발명은 상기와 같은 문제점을 해결하기 위해 안출된 것으로서, 사용자의 정보들을 수집하고, 이를 이용하여 음성 인식 과정에서 사용되는 음향 모델(Acoustic Model)과 언어 모델(Language Model)을 사용자에 맞게 개인화하여 성능을 향상시킬 수 있는 음성 인식 시스템을 제공하는데 있다.

이에 더하여, 본 발명은 수집된 사용자의 개인 정보를 사용자의 동의 없이 유출하지 않는 보안에 강인한 음성 인식 시스템을 제공하고자 하는 목적도 가지고 있다.

상기와 같은 과제를 해결하기 위한 본 발명의 실시예에 따르면, 사용자로부터 음성 신호를 입력 받고 상기 사용자의 개인 정보를 수집하는 단말기; 상기 단말기로부터 상기 음성 신호와 상기 개인 정보를 수신하고, 상기 개인 정보를 기 설정된 카테고리로 분류하여 저장하며, 상기 음성 신호 및 저장된 적어도 일부의 개인 정보를 음성 인식 서버로 전송하는 프라이빗 서버; 상기 프라이빗 서버로부터 전송된 상기 음성 신호와 상기 개인 정보에 기초하여 음성 인식을 수행하고, 음성 인식 결과물을 생성하는 음성 인식 서버; 를 포함하되, 상기 프라이빗 서버에서 상기 음성 인식 서버로 전송되는 개인 정보는 사용자가 공개로 설정한 개인 정보이며, 상기 음성 인식 서버는, 상기 음성 신호에 대응되는 음소, 음절 및 단어 중 적어도 하나를 선별하는 음향 모델부와, 언어의 문장 구조를 참조하여 문자열을 형성하는 언어 모델부와, 상기 음향 모델부와 상기 언어 모델부가 음성 인식 과정에서 사용할 음향 모델과 언어 모델을 선택하는 환경 콘트롤러를 포함하는 것을 특징으로 하는 음성 인식 시스템을 제공할 수 있다.

이때, 상기 환경 콘트롤러는 상기 음성 인식 서버에 전송된 개인 정보를 참조하여 적어도 하나의 음향 모델과 적어도 하나의 언어 모델을 선택한다.

또한, 상기 개인 정보는, 사용자 행위의 기록 및 사용자 행위를 측정한 결과로부터 수집된 사용자 행동 정보와, 사용자 고유의 신상 정보 및 사용자의 상황을 나타내는 사용자 상태 정보를 포함하며, 상기 사용자 행동 정보는, 사용자의 온라인 상의 활동 및 인터넷 활용 기록을 수집한 사용자 온라인 기록, 사용자의 실제 위치를 나타내는 사용자 위치 정보, 사용자의 통신 식별 정보인 사용자 연결 정보 및 사용자와 단말기 사이의 상호 작용 과정에서 수집되는 사용자 기기 활용 정보를 포함하고, 상기 사용자 상태 정보는, 사용자 신상 정보 및 성격, 신체, 감정 상태를 나타내는 사용자 속성 정보 및 사용자가 위치하고 있는 주변 환경의 특징을 나타내는 환경 속성 정보를 포함한다.

또한, 상기 단말기는, 상기 사용자 상태 정보를 상기 사용자로부터 직접 입력 받거나, 상기 음성 신호 및 상기 사용자 행동 정보 중 적어도 하나로부터 유추한다.

또는, 상기 프라이빗 서버는, 상기 사용자 상태 정보를 상기 사용자로부터 직접 입력 받거나, 상기 음성 신호 및 상기 사용자 행동 정보 중 적어도 하나로부터 상기 사용자 상태 정보를 유추한다.

그리고, 상기 음성 인식 서버는, 복수의 음성 인식 결과물들을 도출하여 상기 프라이빗 서버로 전송하되, 음성 인식 과정에서 사용된 음향 모델과 언어 모델의 종류 정보도 함께 전송한다.

이때, 상기 프라이빗 서버는, 상기 음성 인식 서버로부터 전송된 복수의 음성 인식 결과물들 중 적어도 하나를 선택하되, 상기 공개된 개인 정보 및 비공개 개인 정보를 이용하여 선택한다.

또한, 상기 프라이빗 서버는, 상기 음성 인식 서버로부터 전송된 복수의 음성 인식 결과물들 중 적어도 하나를 선택하되, 상기 복수의 음성 인식 결과물들의 각 확률값에 상기 공개된 개인 정보 및 비공개 개인 정보에 기초한 가중치를 부가하고, 그 결과로 가장 높은 확률값을 가지는 음성 인식 결과물을 선택한다.

본 발명의 다른 실시예에 따르면, 제 1 사용자로부터 음성 신호를 입력 받고 상기 제 1 사용자의 개인 정보를 수집하는 제 1 단말기; 상기 제 1 단말기로부터 상기 음성 신호와 상기 개인 정보를 수신하고, 상기 개인 정보를 기 설정된 카테고리로 분류하여 저장하며, 상기 음성 신호 및 저장된 적어도 일부의 개인 정보를 음성 인식 서버로 전송하는 프라이빗 서버; 상기 프라이빗 서버로부터 전송된 상기 음성 신호와 상기 개인 정보에 기초하여 음성 인식을 수행하여 음성 인식 결과물을 생성하고, 상기 음성 인식 결과물을 제 2 단말기에 전송하는 음성 인식 서버; 및 상기 음성 인식 결과물을 수신하여 제 2 사용자에게 출력하는 제 2 단말기; 를 포함하되, 상기 프라이빗 서버에서 상기 음성 인식 서버로 전송되는 개인 정보는 제 1 사용자가 공개로 설정한 개인 정보이며, 상기 음성 인식 서버는, 상기 음성 신호에 대응되는 음소, 음절 및 단어 중 적어도 하나를 선별하는 음향 모델부와, 언어의 문장 구조를 참조하여 문자열을 형성하는 언어 모델부와, 상기 음향 모델부와 상기 언어 모델부가 음성 인식 과정에서 사용할 음향 모델과 언어 모델을 선택하는 환경 콘트롤러를 포함하는 것을 특징으로 하는 음성 인식 시스템이 제공될 수 있다.

이때, 상기 환경 콘트롤러는 상기 음성 인식 서버에 전송된 제 1 사용자의 개인 정보를 참조하여 적어도 하나의 음향 모델과 적어도 하나의 언어 모델을 선택한다.

그리고, 상기 제 1 단말기는, 상기 사용자 상태 정보를 상기 사용자로부터 직접 입력 받거나, 상기 음성 신호 및 상기 사용자 행동 정보 중 적어도 하나로부터 유추한다.

또는, 상기 프라이빗 서버는, 상기 음성 인식 서버로부터 전송된 복수의 음성 인식 결과물들 중 적어도 하나를 선택하되, 상기 복수의 음성 인식 결과물들의 각 확률값에 상기 공개된 개인 정보 및 비공개 개인 정보에 기초한 가중치를 부가하고, 그 결과로 가장 높은 확률값을 가지는 음성 인식 결과물을 선택한다.

그리고, 상기 제 2 단말기는, 상기 음성 인식 결과물을 음성으로 출력한다.

이때, 상기 제 2 단말기는, 상기 프라이빗 서버로부터 제 1 사용자의 개인 정보를 전송 받고, 상기 제 2 단말기가 상기 음성 인식 결과물을 음성으로 변환할 때 상기 제 1 사용자의 개인 정보를 참조하여 음성을 형성한다.

또는, 상기 제 2 단말기는, 상기 음성 인식 결과물을 음성으로 변환할 때 별도로 저장된 음성의 특징 및 환경 특징 중 적어도 하나를 참조하여 음성을 형성한다.

또한, 상기 제 2 단말기는, 언어를 번역하는 번역부를 더 포함하고, 상기 번역부는 상기 음성 인식 결과물을 상기 제 2 사용자가 선택한 언어로 번역한다.

본 발명의 또 다른 실시예에 따르면, 사용자로부터 음성 신호를 입력 받고 상기 사용자의 개인 정보를 수집하며, 상기 음성 신호 및 적어도 일부의 개인 정보를 음성 인식 서버로 전송하는 단말기; 및 상기 단말기로부터 전송된 상기 음성 신호와 상기 개인 정보에 기초하여 음성 인식을 수행하여 음성 인식 결과물을 생성하는 음성 인식 서버; 를 포함하되, 상기 단말기에서 상기 음성 인식 서버로 전송되는 개인 정보는 사용자가 공개로 설정한 개인 정보이며, 상기 음성 인식 서버는, 상기 음성 신호에 대응되는 음소, 음절 및 단어 중 적어도 하나를 선별하는 음향 모델부와, 언어의 문장 구조를 참조하여 문자열을 형성하는 언어 모델부와, 상기 음향 모델부와 상기 언어 모델부가 음성 인식 과정에서 사용할 음향 모델과 언어 모델을 선택하는 환경 콘트롤러를 포함하는 것을 특징으로 하는 음성 인식 시스템이 제공될 수 있다.

이때, 상기 환경 콘트롤러는, 상기 음성 인식 서버에 전송된 개인 정보를 참조하여 음향 모델과 언어 모델 중 적어도 하나를 선택한다.

그리고, 상기 단말기는, 상기 사용자 상태 정보를 상기 사용자로부터 직접 입력 받거나, 상기 음성 신호 및 상기 사용자 행동 정보 중 적어도 하나로부터 유추한다.

또는, 상기 음성 인식 서버는, 상기 사용자 상태 정보를 상기 사용자로부터 직접 입력 받거나, 상기 음성 신호 및 상기 사용자 행동 정보 중 적어도 하나로부터 상기 사용자 상태 정보를 유추한다.

또한, 상기 음성 인식 서버는, 복수의 음성 인식 결과물들을 도출하여 상기 단말기로 전송하되, 음성 인식 과정에서 사용된 음향 모델과 언어 모델의 종류 정보도 함께 전송한다.

그리고, 상기 단말기는, 상기 음성 인식 서버로부터 전송된 복수의 음성 인식 결과물들 중 적어도 하나를 선택하되, 상기 공개된 개인 정보 및 비공개 개인 정보를 이용하여 선택한다.

또는, 상기 단말기는, 상기 음성 인식 서버로부터 전달된 복수의 음성 인식 결과물들 중 적어도 하나를 선택하되, 상기 복수의 음성 인식 결과물들의 각 확률값에 상기 공개된 개인 정보 및 비공개 개인 정보에 기초한 가중치를 부가하고, 그 결과로 가장 높은 확률값을 가지는 음성 인식 결과물을 선택한다.

그리고, 상기 음성 인식 서버는, 복수의 음성 인식 결과물들을 도출하고, 상기 복수의 음성 인식 결과물들 중 적어도 하나를 선택하되, 상기 공개된 개인 정보를 이용하여 선택한다.

또는, 상기 음성 인식 서버는, 복수의 음성 인식 결과물들을 도출하고, 상기 복수의 음성 인식 결과물들의 확률값에 상기 공개된 개인 정보에 기초한 가중치를 부가하여, 상기 가중치가 부가된 확률값 중 가장 높은 확률값을 가지는 음성 인식 결과물을 선택한다.

본 발명의 또 다른 실시예에 따르면, 사용자로부터 음성 신호를 입력 받는 단계; 상기 사용자의 개인 정보를 수집하는 단계; 상기 음성 신호와 상기 개인 정보에 기초하여 상기 음성 신호로부터 음성 인식 결과물을 생성하는 단계; 상기 음성 인식 결과물로부터 최종 음성 인식 결과물을 선택하는 단계; 를 포함하고, 상기 음성 신호와 상기 개인 정보에 기초하여 상기 음성 신호로부터 음성 인식 결과물을 생성하는 단계는, 상기 사용자가 공개로 설정한 개인 정보를 참조하여 음향 모델과 언어 모델을 선택하는 단계; 를 추가적으로 포함하는 것을 특징으로 하는 음성 인식 방법이 제공될 수 있다.

여기서, 상기 사용자의 개인 정보를 수집하는 단계는, 상기 사용자가 직접 입력한 개인 정보를 취득하는 단계; 와 음성 신호 및 사용자 행동 정보 중 적어도 하나로부터 사용자 상태 정보를 유추하는 단계; 를 더 포함한다.

그리고, 상기 음성 신호와 상기 개인 정보에 기초하여 상기 음성 신호로부터 음성 인식 결과물을 생성하는 단계는, 복수의 음성 인식 결과물을 생성하고, 상기 복수의 음성 인식 결과물 각각에 대하여 음성 인식을 수행할 때 사용된 음향 모델 및 언어 모델의 종류 정보를 함께 생성한다.

또한, 상기 최종 음성 인식 결과물을 선택하는 단계는, 공개된 개인 정보 및 비공개 개인 정보를 이용하여 최종 음성 인식 결과물을 선택한다.

그리고, 상기 최종 음성 인식 결과물을 선택하는 단계는, 상기 복수의 음성 인식 결과물들의 각 확률에 상기 공개된 개인 정보 및 비공개 개인 정보에 기초한 가중치를 부가하고, 그 결과로 가장 높은 확률값을 가지는 음성 인식 결과물을 선택한다.

본 발명에 따르면, 사용자의 개인 정보를 수집할 수 있으며, 상기 수집된 개인 정보를 이용하여 사용자에게 개인화된 음향 모델 및 언어 모델을 선택할 수 있다. 그리고, 개인화된 음향 모델 및 언어 모델을 선택하여 음성 인식을 수행함으로써, 음성 인식의 성공률을 높일 수 있다.

또한, 본 발명의 실시예에 따르면, 사용자의 개인 정보는 사용자의 단말기 또는 프라이빗 서버 등의 사적 공간에만 저장되며, 음성 인식이 수행되는 음성 인식 서버에는 공개된 개인 정보만 전송되기 때문에 사용자의 개인 정보를 강력하게 보호할 수 있다.

또한, 본 발명의 실시예에 따르면, 사용자는 타인에게 음성 인식 결과물을 전송할 수 있으며, 이를 통해 상기 타인과 실시간으로 음성 인식 결과물을 주고받을 수 있다.

또한, 본 발명의 실시예에 따르면, 단말기, 프라이빗 서버 및 음성 인식 서버의 성능에 따라 각 구성 요소를 자유롭게 배치할 수 있는 음성 인식 시스템을 제공할 수 있다.

도 1은 본 발명의 일 실시예에 따른 음성 인식 장치를 나타낸 도면이다.

도 2는 본 발명의 실시예에 따른 음성 인식 시스템을 나타낸 도면이다.

도 3은 본 발명의 다른 실시예에 따른 음성 인식 시스템을 나타낸 도면이다.

도 4는 본 발명의 또 다른 실시예에 따른 음성 인식 시스템을 나타낸 도면이다.

도 5는 프라이빗 서버를 포함하는 음성 인식 시스템의 실시예를 나타낸 도면이다.

도 6은 프라이빗 서버를 포함하는 음성 인식 시스템의 또 다른 실시예를 나타낸 도면이다.

도 7은 단말기와 음성 인식 서버를 포함하는 음성 인식 시스템의 또 다른 실시예를 나타낸 도면이다.

도 8은 제 1 사용자의 음성 인식 결과를 제 2 사용자에게 전송하는 음성 인식 시스템의 실시예를 나타낸 도면이다.

도 9는 본 발명의 실시예에 따른 음성 인식 방법을 나타낸 도면이다.

본 발명은 사용자의 개인 정보를 이용하여 음성 인식 성능을 높이고 사용자의 개인 정보를 보호하기 위한 음성 인식 장치 시스템 및 방법에 관한 것으로, 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 음성 인식 장치(100)를 나타낸 도면이다.

도 1에 따르면 본 발명에 따른 음성 인식 장치(100)는 입력부(112), 특징 추출부(130), 음향 모델부(152), 언어 모델부 (140) 및 출력부(114)를 포함할 수 있다. 도 1에서 실선은 음성 신호 및 음성 인식 결과물의 흐름을 표시한 것이고 점선은 음성 인식에 필요한 부가 정보의 흐름을 표시한 것이다. 도 1에 따르면, 음향 모델부(152)는 복수의 음향 모델을 포함할 수 있으며, 언어 모델부(154)도 복수의 언어 모델을 포함할 수 있다. 이와 관련된 상세한 내용은 음향 모델부(152) 및 언어 모델부(154)를 설명할 때 다루도록 한다.

음성 인식 장치(100)는 설명의 편의를 위해서 ‘장치’라고 표현되고 있지만, 소프트웨어(software)의 형태로 존재할 수 있으며, 하드웨어(hardware)의 형태 및 소프트웨어와 하드웨어가 융합된 형태 중 적어도 하나로 존재할 수도 있다. 음성 인식 장치(100)는 특정 장소에 설치된 PC 형태로 존재할 수 있고, 스마트폰, 노트북, 웨어러블 디바이스(wearable device)와 같이 용이하게 휴대할 수 있는 단말기 형태로 존재할 수도 있다.

입력부(112)는 사용자(800)의 음성을 수집하고 이를 전기적 신호로 변환하는 구성요소로 대표적으로 마이크 등의 장치가 사용될 수 있으나 이에 한정되지 않는다. 입력부(112)는 음성 신호뿐만 아니라 영상 신호도 함께 수집할 수 있으며, 카메라 등의 영상 신호 입력 장치를 이용하여 사용자(800)의 얼굴 형태 등을 촬영할 수 있다. 본 발명에 따른 음성 인식 장치(100)의 입력부(112)에 영상 신호 입력 장치가 사용됨으로써, 사용자(800)의 얼굴이나 입의 모양으로부터 현재 발음하고 있는 소리를 유추하는 구성으로 마련될 수 있다.

특징 추출부(130)는 수집된 음성 신호로부터 음성 인식에 필요한 기본적인 정보들을 생성할 수 있다. 입력부(112)를 통해 수집된 음성 신호를 특정 간격(Frame)으로 분할하여 음성의 각 주파수 대역 별 에너지 분포 등의 정보를 추출한다. 상기 상기 주파수 대역 별 정보들은 벡터 수치화될 수 있으며, 상기 벡터 수치화된 정보는 음성 특징(Feature)으로 사용될 수 있다. 음성 신호의 특징을 추출하는 방법으로 LPC(Linear Predictive Coding) Cepstrum, PLP(Perceptual Linear Prediction) Cepstrum, Mel Frequency Cepstral Coefficient (MFCC), 필터뱅크 에너지 분석(Filter Bank Energy Analysis) 등이 사용될 수 있으나 이에 한정되지는 않는다.

음향 모델부(152)는 상기 특징 추출부(130)에서 추출한 음성 특징에 대응되는 언어의 기본 단위를 판별할 수 있다. 여기서 상기 언어의 기본 단위는 음소, 음절, 단어 등이 될 수 있다. 예를 들어, 음향 모델부(152)는 어떤 사용자가 영어로 ‘dog’라고 발음한 소리가 실제로 단어 ‘dog’의 음소인 /d/, /o/, /g/에 대응되는지 분석하고, 상기 사용자의 음성 신호를 각각의 음소로 인식한다.

음성 신호의 경우, 동일한 단어라도 발음하는 사람에 따라, 그리고 그 단어가 문장 내에서 위치하는 순서 등에 따라서 다른 소리로 표현될 수 있다. 따라서 어떤 음성 특징이 어떠한 언어의 기본 단위에 대응되는지를 판별하기 위해서는 수많은 발화 데이터가 요구된다. 본 발명에 따른 음성 인식 장치(100)의 바람직한 실시예에 따르면, 음향 모델부(152)는 상기 대량의 발화 데이터를 저장하고 있는 음성 데이터베이스(372)와 통신을 수행할 수 있다. 음향 모델부(152)는 훈련 단계(Training Phase)에서, 음성 데이터베이스(372)에 저장된 대량의 발화 데이터를 참조하여 각 음성 특징에 대응하는 언어의 기본 단위를 결정하는 통계적 음향 모델을 생성할 수 있다. 음향 모델부(152)는 생성된 음향 모델 내의 각 음소에 대응하는 음성 특징과 특징 추출부(130)로부터 전송된 음성 특징의 유사도를 측정하여 가장 유사도가 높은 음소를 선택할 수 있다. 그리고 음향 모델부(152)는 선택된 음소들을 조합하여 단어를 생성할 수 있다. 음향 모델부(152)는 음향 모델에 대응되는 음소, 음절, 단어 등의 언어의 기본 단위를 판별할 때, 그 결과물로서 적어도 하나 이상을 선택할 수 있다. 한편, 음향 모델부(152)에서 음향 모델을 생성하는 과정에서 HMM(Hidden Markov Model) 또는 신경망분석(Neural Network)이 사용될 수 있으나 이에 한정되지 않는다.

언어 모델부 (154)는 언어의 문장 구조를 참조하여 문자열을 형성할 수 있다. 모든 언어에서 문장 내의 단어들은 일정한 규칙에 따라 나열된다. 언어 모델부(154)는 이러한 언어의 문장 구조를 참조하여 문자들의 선후 관계를 파악하고, 특정 문자가 인지된 경우, 그 문자 다음에 배치될 수 있는 문자를 예측한다. 사용자(800)가 언어의 문법 또는 규칙에 따라 발화 하였다는 가정하에서, 언어 모델부(154)는 이런 문자열의 구조에 부합되지 않는 문자들은 잘못 인지된 것으로 파악하고 후보 문자에서 탈락시킬 수 있으며, 이 과정을 통해 문자열 인식 성공률을 높일 수 있다.

하지만, 사람들은 일상 속에서 정확한 문법에 따른 발화를 하지 않는 경우가 많기 때문에 이에 대한 고려가 필요하다. 또한, 비슷한 의미의 문장이라도 발화하는 사람의 나이, 성별, 거주지에 따라서 판이하게 다른 문장 구조로 표현할 수 있다. 언어 모델부(154)는 이런 다양한 문장 구조를 올바르게 인지하기 위해서 별도의 훈련 단계를 거칠 수 있으며, 이 훈련 단계를 통해 통계적 언어 모델을 형성할 수 있다. 언어 모델부(154)가 언어 모델을 형성하기 위해서는, 앞서 설명한 음향 모델부(152)의 경우와 마찬가지로, 방대한 양의 문장 구조를 저장하고 있는 언어 데이터베이스(374)와 통신할 필요가 있다. 언어 모델부(154)는 문자열 인식의 결과물로서 적어도 하나의 문자열을 생성할 수 있다. 언어 모델부(154)는 문자열 인식의 결과물로서, 적어도 하나의 문자열에 포함된 단어들을 마디(node)로 표시하고, 문자들을 연결하며 각각의 연결에 대한 확률을 표시하는 줄기(branch)로 표시하는 격자(Lattice) 구조의 문자열 집합을 생성할 수 있다. 문장 내에서 한 문자 다음에 위치할 수 있는 문자의 종류는 복수 개로 선택될 수 있다. 첫 문자와 그 다음 문자간의 연결 조합이 가지는 확률은 언어 모델의 종류에 따라서 다르게 정해질 수 있다. 음성 인식 과정에서 하나의 언어 모델을 사용하더라도 각 문자들의 순서에 따라서 복수의 문자열이 형성될 수 있고, 이에 따라 각 문자열이 형성될 수 있는 확률이 각각 다르게 계산될 수 있다.

음성 인식 장치(100)는 음성 인식 과정에서 복수의 음향 모델을 참조할 수 있고, 복수의 언어 모델을 참조할 수도 있으며, 이로 인해 복수의 음성 인식 결과물을 생성할 수 있다. 음성 인식 장치(100)는 각 문자열에 포함된 확률을 참조하여, 가장 높은 확률을 지니는 문자열을 최종 음성 인식 결과물로 선택하여 출력부(114)로 전송할 수 있다. 단일의 음향 모델 및 언어 모델이 사용된 경우에도 복수의 문자열이 생성될 수 있는데, 이 때에도 음성 인식 서버(300)는 가장 높은 확률을 지니는 문자열을 최종 음성 인식 결과물로 선택할 수 있다.

출력부(114)는 음성 인식 장치(100)의 음성 인식 결과물을 출력한다. 여기서, 상기 음성 인식 결과물은 음향 모델부(152)에서 인식한 언어의 기본 단위와 언어 모델부(154)에서 인식한 문자열 중 적어도 하나를 포함할 수 있다. 음성 인식 결과물은 복수의 문자열의 형태로 구성될 수 있고, 전술한 격자 형태의 문자열 집합으로 구성될 수도 있다.

도 1에서는 입력부(112)와 출력부(114)가 음성 인식 장치(100)에 포함되는 것으로 도시되었으나 이에 한정되지 않으며, 상기 입력부(112)와 출력부(114)는 음성 인식 장치(100)와는 별도의 구성요소로 구비될 수도 있다. 예를 들어, 음성 인식 장치(100)가 스마트폰으로 구비되는 경우, 사용자는 정확한 음성 인식을 위해서 고성능의 마이크를 상기 스마트폰에 부착하여 음성을 수집할 수 있다. 또한, 사용자는 상기 스마트폰에 대형 모니터나 빔 프로젝터, 다채널 스피커 등을 연결하여 다양한 방식으로 음성 인식 결과물을 출력할 수 있다.

앞서 설명된 음향 데이터베이스(372)와 언어 데이터베이스(374)는 도 1에 도시된 바와 같이, 음성 인식 장치(100)와 별도의 구성으로 마련될 수 있으나 이에 한정되지는 않는다. 특히, 만약 음성 인식 장치(100)의 연산 능력과 정보 저장소의 크기가 충분하다면 두 데이터베이스(372, 374)는 음성 인식 장치(100)에 포함될 수 있다.

도 2는 본 발명의 실시예에 따른 음성 인식 시스템(1000A)을 나타낸 도면이다.

도 2에 따르면, 본 발명의 실시예에 따른 음성 인식 시스템(1000A)은 단말기(200)와 음성 인식 서버(300)를 포함할 수 있다. 단말기(200)는 입력부(212), 특징 추출부(230) 및 출력부(214)를 포함할 수 있다. 음성 인식 서버(300)는 음향 모델부(352), 언어 모델부(354), 음향 데이터베이스(372) 및 언어 데이터베이스(374)를 포함할 수 있다.

단말기(200)의 연산 능력에 따라서 특징 추출부(230)가 음성 인식 서버(300)에 포함될 수 있으며, 음성 인식 서버(300)의 음향 데이터베이스(372)와 언어 데이터베이스(374)가 음성 인식 서버(300) 외부에 존재하는 구성도 가능하다.

도 2의 입력부(212), 특징 추출부(230), 출력부(214), 음향 모델부(352), 언어 모델부(354), 음향 데이터베이스(372), 언어 데이터베이스(374)는 도 1의 입력부(112), 특징 추출부(130), 출력부(114), 음향 모델부(152), 언어 모델부(154), 음향 데이터베이스(372), 언어 데이터베이스(374)와 공통된 구성요소이므로 이에 대한 상세한 설명은 생략하도록 한다.

도 2의 단말기(200), 음성 인식 서버(300)로 구성되는 음성 인식 시스템(1000A)이 가지는 장점은 다음과 같다. 우선, 단말기(200)는 음성 인식을 위한 최소한의 입출력 및 기본적인 음성 신호 처리만 수행하기 때문에 비교적 연산 능력이 떨어지는 단말기(200)측의 부담이 적다. 대신, 상대적으로 처리 능력과 저장 능력이 우수한 음성 인식 서버(300)에서 대부분의 연산이 고속으로 수행되며, 단말기(200)는 단지 그 결과를 수신하기만 하면 된다. 현대에 이르러 인터넷 등 유무선 통신 환경이 과거와 비할 바 없이 많은 발전을 이룩하였기 때문에 단말기(200)와 음성 인식 서버(300) 간의 통신은 자유롭게 이루어질 수 있다. 또한, 각기 다른 연산 능력을 지니는 단말기(200)가 매우 다양하게 개발되고 시장에서 유통되고 있다. 각각의 단말기(200) 마다 서로 다른 음성 인식 처리 과정을 마련하는 것은 비효율적일 수 있다. 도 2에 도시된 것처럼, 음성 인식 서버(300)가 대부분의 연산을 수행하도록 함으로써 단말기(200)의 종류와는 상관없는, 단말기(200)에 독립적인 시스템 구현이 가능하다. 물론, 특정 단말기(200)의 처리 능력을 참조하여 단말기(200)와 음성 인식 서버(300) 의 음성 인식 처리 단계를 자유롭게 분배하는 방식으로도 전체 음성 인식 시스템(1000A)이 구현될 수도 있다.

한편, 음성 인식 서버(300)는 복수로 마련될 수 있고, 복수로 마련된 음성 인식 서버(300)는 클라우드(Cloud) 기반의 분산 음성 인식(Distributed Speech Recognition, DSR)을 수행할 수 있다. 분산 음성 인식은 무선 통신 환경에서 음성 인식 성능 향상을 위해 음성 신호의 특징을 디지털 데이터로 변환 및 전송하고 음성 인식 서버가 이를 분산 처리하는 기술을 의미한다. 분산 음성 인식에 의하면 음성 인식 연산의 처리 속도와 메모리의 사용 효율을 극대화할 수 있다.

도 2에서 단말기(200)는 음성 인식 서버(300)로부터 음성 인식 결과물을 전송 받고 이를 출력부를 통해 출력하는 것으로 도시되어있으나 이에 한정되지 않으며, 도 2의 단말기(200)가 아닌 다른 기기 또는 출력 장치로 상기 음성 인식 결과물이 전송될 수 있다.

도 3은 본 발명의 다른 실시예에 따른 음성 인식 시스템(1000B)을 나타낸 도면이다.

도 3에 따르면, 본 발명의 실시예에 따른 음성 인식 시스템(1000B)은 단말기(200)와 음성 인식 서버(300)를 포함할 수 있다. 단말기(200)는 입력부(212), 특징 추출부(230) 및 출력부(214)를 포함할 수 있다. 음성 인식 서버(300)는 음향 모델부(352), 언어 모델부(354), 음향 데이터베이스(372), 언어 데이터베이스(374) 및 환경설정 콘트롤러(Configure Controller, 380)를 포함할 수 있다.

단말기(200)의 연산 능력에 따라서 특징 추출부(130)가 음성 인식 서버(300)에 포함될 수 있으며, 음향 데이터베이스(372)와 언어 데이터베이스(374)가 음성 인식 서버(300) 외부에 존재하는 구성도 가능하다.

도 3과 도 2에 공통된 구성요소들에 대한 상세한 설명은 중복되므로 생략하도록 한다.

환경설정 콘트롤러(380)는 음향 모델부(352)와 언어 모델부(354)가 음성 인식 과정에서 사용할 음향 모델과 언어 모델을 선택한다. 음향 모델부(352)와 언어 모델부(354)는 음성 인식 과정에서 복수의 음향 모델 및 언어 모델을 참조할 수 있다. 화자의 연령대, 성별, 방언의 사용 유무에 따라서 음향 모델의 음성 특징은 서로 다르게 나타날 수 있으며, 음성 발화가 이루어진 장소의 주변 잡음(Background Noise), 잔향(Reverberation) 등에 따라서 음성 특징이 변경되기도 한다. 화자의 연령대, 성별, 방언의 사용 유무에 따라서 사용 단어 및 문장 내의 단어들의 순서 관계가 달라질 수 있기 때문에, 훈련 단계에서 사용된 화자의 특성에 따라서 언어 모델이 다양하게 형성될 수 있다. 음성 인식 서버(300)는 음성 인식 과정에서 전술한 다양한 형태의 음향 모델 및 언어 모델을 복수 개 사용함으로써 음성 인식의 성공률을 높일 수 있다.

도 3의 형태로 분산 음성 인식을 수행하는 경우, 각 음성 인식 서버(300)마다 서로 다른 음향 모델 및 음성 모델을 이용한 음성 인식 과정을 수행하고, 다양한 모델을 통해 생성된 음성 인식 결과물을 하나로 취합하여 다시 단말기(200)로 전송할 수 있다. 또는, 각 음성 인식 서버(300)가 동일한 음향 모델 및 언어 모델을 사용하되 각 음성 인식 처리 과정을 병렬연산 함으로써 음성 인식의 처리 속도를 높일 수 있다.

도 4는 본 발명의 또 다른 실시예에 따른 음성 인식 시스템(1000C)을 나타낸 도면이다.

도 4에 따르면, 본 발명의 실시예에 따른 음성 인식 시스템(1000C)은 단말기(200)와 음성 인식 서버(300)를 포함할 수 있다. 단말기(200)는 입력부(212), 개인 정보 수집부(220), 특징 추출부(230), 개인 정보 분석부(240) 및 출력부(214)를 포함할 수 있다. 음성 인식 서버(300)는 음향 모델부(352), 언어 모델부(354), 음향 데이터베이스(372), 언어 데이터베이스(374) 및 환경설정 콘트롤러(380)를 포함할 수 있다.

단말기(200)의 연산 능력에 따라서 특징 추출부(230), 개인 정보 분석부(240) 중 적어도 하나가 음성 인식 서버(300)에 포함될 수 있으며, 음성 인식 서버(300)의 음향 데이터베이스(372)와 언어 데이터베이스(374)가 음성 인식 서버(300) 외부에 존재하는 구성도 가능하다.

도 4와 도 3에 공통된 구성요소들에 대한 상세한 설명은 중복되므로 생략하도록 한다.

한편, 본 발명에서 개인 정보는 사용자 행위의 기록 및 사용자 행위를 측정한 결과로부터 수집된 사용자 행동 정보를 포함할 수 있다. 또한, 개인 정보는 사용자 고유의 신상 정보 및 사용자의 상황을 나타내는 사용자 상태 정보를 포함할 수 있다.

사용자 행동 정보는 사용자 온라인 기록, 사용자 위치 정보, 사용자 연결 정보 및 사용자 기기 활용 정보를 포함할 수 있다.

사용자 온라인 기록은 사용자(800)의 온라인 상의 활동 및 인터넷 활용 기록을 수집한 정보이다. 사용자 온라인 기록은 사용자(800)가 SNS(Social Network Service) 상에서 작성한 글(text), 사진, 음악, 영상 등의 게시물, 사용자가 SNS 상에서 표시한 감정 아이콘이나 좋다 - 나쁘다, 동의 - 비동의 등의 간이 의사 표시 행위, 온라인 상의 이웃 목록과 인터넷 브라우저 검색 기록 및 방문 기록, 즐겨 찾는 사이트 목록 등을 포함할 수 있다.

사용자 위치 정보는 사용자(800)의 실제 위치를 나타내는 정보이다. 사용자 위치 정보는 사용자(800)가 GPS 등의 측위 시스템을 이용하여 파악한 자신의 위치 정보, 위치 기반 서비스를 제공하는 스마트폰 어플리케이션 등을 통해 표시되는 위치 정보, 유무선 통신망을 통해 온라인에 접속했을 때 참조되는 접속 위치 정보 등을 포함할 수 있다.

사용자 연결 정보는 사용자(800)의 통신 식별 정보로써, 사용자(800)의 전화 번호, e-mail 주소, 실제 주소 정보 등을 포함할 수 있다.

사용자 기기 활용 정보는 사용자(800) 및 단말기(200) 사이의 상호 작용 과정에서 수집되는 정보를 의미한다. 사용자 기기 활용 정보는 사용자(800)가 사용하는 기기의 종류, 각 기기 별 사용 시간 및 빈도수, 사용자(800)가 PC나 스마트폰 등을 통해서 실행시키는 어플리케이션의 종류, 각 어플리케이션의 사용 시간 및 빈도 수, 설치된 어플리케이션 목록, 온라인에서 내려 받은 어플리케이션 목록 등을 포함할 수 있다.

한편, 사용자 상태 정보는 사용자 속성 정보 및 환경 속성 정보를 포함할 수 있다.

사용자 속성 정보는 사용자 신상 정보 및 성격, 신체, 감정 상태를 나타내는 정보로써, 사용자(800)의 연령, 성별, 출신 민족, 사용하는 방언, 직업, 수입, 교육 정도, 건강 상태, 감정 상태, 성격 등을 포함할 수 있다.

환경 속성 정보는 사용자가 위치하고 있는 주변 환경의 특징을 나타내는 정보로써, 사용자가 위치하고 있는 공간의 음향학적 특징인 배경 잡음, 잔향의 정도, 그리고 계절, 시간, 날씨, 기후 정보 등을 포함할 수 있다.

상기 열거된 사용자(800)의 개인 정보는 개인 정보 수집부(220)에 의해 수집될 수 있다. 개인 정보 수집부(220)는 사용자(800)가 단말기(200)를 조작할 때 사용자(800)의 개인 정보를 자동적으로 수집할 수 있으며, 상기 사용자 행동 정보 및 상기 사용자 상태 정보 중 적어도 하나를 사용자(800)로부터 직접 입력 받을 수도 있다. 개인 정보 수집부(220)는 음성인식을 수행하기 위한 도 4의 단말기(200) 또는 해당 사용자(800)의 인증 또는 개인 정보 수집에 대한 동의가 수행된 외부 단말기 및 서버 등에 포함되어 사용자(800)의 개인 정보를 수집할 수 있다.

개인 정보 분석부(240)는 수집된 개인 정보를 분석한다. 특히, 개인 정보 분석부(240)는 상기 개인 행동 정보와 입력부(212)를 통해 수집된 음성 신호 중 적어도 하나로부터 사용자 상태 정보를 유추할 수 있다. 예를 들어, 개인 정보 분석부(240)는 음성 신호에서 에너지가 주로 분포하고 있는 주파수 대역을 파악함으로써 사용자(800)가 남성인지 여성인지 구분할 수 있다. 또한, 개인 정보 분석부(240)는 음성 신호의 모음 부분의 파형을 분석하여 사용자(800)의 성대 상태를 파악할 수도 있으며 이를 통해 사용자(800)의 나이와 건강 상태 등을 유추할 수도 있다. 한편, 사용자(800)가 단말기(200)를 통해 화장품 할인 정보, 의류 사이트, 명품 잡화 사진, 연예계 이슈, 인터넷 육아 카페 등의 정보를 빈번하게 검색한 경우, 개인 정보 분석부(240)는 상기 사용자(800)가 여성일 확률이 높은 것으로 파악할 수 있다. 한편, 개인 정보 분석부(240)는 GPS 등을 통해 파악된 사용자(800)의 현재 위치가 콘서트 홀 내부인 경우, 콘서트 홀이 가지는 배경 잡음 수준 및 잔향의 정도를 유추할 수 있다.

즉, 개인 상태 정보는 개인 정보 분석부(240)에서 유추될 수 있다. 하지만, 전술한 바와 같이 상기 개인 정보 수집부(220)를 통해서 상기 개인 상태 정보를 직접 입력 받을 수도 있다.

개인 정보 분석부(240)는 사용자 속성 정보 및 환경 속성 정보의 각 항목별 확률값을 계산할 수 있다. 예를 들어, 개인 정보 분석부(240)는 사용자(800)의 음성 신호의 주파수별 에너지 분포를 분석하여 사용자(800)가 남성일 확률을 80%로 파악할 수 있다. 또 다른 예로서, 사용자(800)가 개인 정보 수집부(220)를 통해 자신의 나이를 75세인 것으로 직접 입력한 경우, 개인 정보 분석부(240)는 상기 사용자(800)가 노인일 확률을 100%인 것으로 설정할 수 있다. 또 다른 예로서, 개인 정보 분석부(240)는 사용자(800)의 인터넷 검색 기록을 참조하여 상기 사용자(800)가 여성일 확률이 70%이고 학생일 확률이 90%이며 서울에 거주할 확률이 60%인 것으로 파악할 수 있다.

한편, 개인 정보 분석부(240)는 개인 정보 분석 작업을 지속적으로 수행할 수 있다. 사용자의 개인 정보는 상기 개인 정보 수집부(220)에 의해서 지속적으로 수집되기 때문에 시간에 비례하여 개인 정보의 양이 증가될 수 있다. 개인 정보 분석부(240)는 개인 정보의 양이 변동될 때마다 개인 정보 분석 작업을 다시 수행할 수 있다. 또는, 개인 정보 분석부(240)는 기 설정된 방식에 따라 일정 주기마다 개인 정보를 다시 분석할 수 있다. 개인 정보 분석부(240)는 개인 정보의 양이 많아지고 그 종류가 다양해질수록 개인 상태 정보를 보다 정확하게 유추할 수 있다. 이를 통해, 개인 정보 분석부(240)는 상기 개인 정보의 각 항목별 확률값의 정확도를 높일 수 있다.

또한, 개인 정보 분석부(240)는 수집된 개인 정보로부터 사용자(800)의 행동 패턴을 유추할 수 있다. 예를 들어, 사용자(800)가 가정과 학교를 정해진 시간에 왕복하는 학생인 경우를 가정할 수 있다. 개인 정보 분석부(240)는 시간 정보와 GPS 등의 개인 정보 수집부(220)에서 전송된 장소 정보를 참조하여 시간대별 사용자(800)가 위치할 수 있는 공간을 유추할 수 있다. 위의 경우, 개인 정보 분석부(240)는 특정 시간 동안 상기 사용자(800)가 ‘학교’에서 시간을 보내며 그 시간 동안 ‘학교’라는 환경 속성 정보를 수집하거나 유추할 수 있다.

개인 정보 분석부(240)는 바람직하게는, 빅데이터(Big Data) 기법을 통해 이미 수집되어있거나 수집 중인 사용자(800)의 개인 정보를 분석할 수 있지만 이에 한정되지 않는다.

도 4를 참조하면 개인 정보 수집부(220)와 개인 정보 분석부(240)가 단말기(200)에 포함되는 것으로 도시되어있다. 도 4에 따르면, 단말기(200)는 상기 개인 정보 수집부(220)와 개인 정보 분석부(240)를 통해 사용자(800)의 개인 정보를 직접 입력 받을 수도 있고, 수집된 개인 행동 정보로부터 개인 상태 정보를 유추할 수 있다. 하지만, 본 발명에 따른 음성 인식 시스템(1000C)은 도 4의 구성에 한정되지 않으며, 음성 인식 서버(300)에 개인 정부 분석부(240)가 포함될 수도 있다. 음성 인식 서버(300)는 연산 처리 능력 및 저장 능력이 단말기(200)에 비해 월등하게 우수하기 때문에, 음성 인식 서버(300)에 개인 정보 분석부(240)가 포함된 경우 단말기(200)보다 원활하게 개인 정보를 유추할 수 있다.

한편, 사용자(800)는 수집된 개인 정보를 기 설정된 카테고리(category)에 따라 분류할 수 있다. 상기 개인 정보의 분류는 사용자(800)의 개인 정보가 저장된 모든 기기에 수행될 수 있다. 바람직하게는, 사용자(800)는 개인 정보를 공개 여부에 따라 공개용 개인 정보와 비공개용 개인 정보로 분류할 수 있다.

도 4에 따르면, 개인 정보 분석부(240)를 통해 유추되거나 개인 정부 수집부(220)를 통해 입력된 개인 정보가 음성 인식 서버(300)의 환경설정 콘트롤러(380)으로 전송될 수 있다. 이 때 전송되는 개인 정보는 사용자가 공개를 허락한 것만으로 구성될 수 있다. 그리고, 개인 정보 분석부(240)를 통해 파악된 개인 정보의 각 항목별 확률도 음성 인식 서버(300)로 전송될 수 있다.

환경설정 콘트롤러(380)은 전송된 개인 정보를 참조하여 음향 모델 및 언어 모델 중 적어도 하나를 선택할 수 있다. 또한, 환경설정 콘트롤러(380)는 전송된 개인 정보를 참조하여 적어도 하나의 음향 모델 과 적어도 하나의 언어 모델을 선택할 수 있다. 예를 들어, 환경설정 콘트롤러(380)가 ‘어린이’ 이라는 공개된 개인 정보를 수신한 경우, 상기 ‘어린이’와 연관된 음향 모델을 선택할 수 있다. 또한, 환경설정 콘트롤러(380)는 ‘어린이’와 연관된 언어 모델을 선택할 수도 있는데, 음향 모델부(354)와 언어 모델부(354)에 ‘어린이’와 연관된 음향 모델 및 언어 모델이 모두 존재하는 경우 상기 두 모델을 모두 선택할 수도 있다.

환경설정 콘트롤러(380)는 개인 정보 분석부(240)에서 유추된 사용자의 패턴 정보를 이용할 수도 있다. 전술한 예처럼, 사용자(800)가 학생인 경우, 개인 정보 분석부(240)는 상기 사용자(800)가 특정 시간대에 ‘학교’에 등교하여 그곳에서 일과를 보낸다고 유추할 수 있다. 환경설정 콘트롤러(380)는 이 패턴 정보와 시간 정보를 참조하여 상기 특정 시간 영역 동안 사용자(800)의 음성을 인식할 때 ‘학교’에 해당하는 음향 모델 및 언어 모델을 선택할 수 있다.

한편, 사용자(800)가 개인 정보를 전혀 입력하지 않았거나, 분석되거나 유추된 개인 정보가 적거나 없을 경우, 환경설정 콘트롤러(380)는 활용할 수 있는 모든 음향 모델 및 언어 모델을 선택할 수 있다. 수신된 사용자의 개인 정보에 연관되는 음향 모델 및 언어 모델이 없을 때도, 환경설정 콘트롤러(380)는 활용할 수 있는 모든 음향 모델 및 언어 모델을 선택할 수 있다. 수신된 사용자의 개인 정보에 직접 연관되는 음향 모델 및 언어 모델이 없을 때, 환경설정 콘트롤러(380)는 상기 수신된 개인 정보에 근사한 음향 모델 및 언어 모델을 선택할 수 있다. 예를 들어, 음성 인식 서버(300)에 수신된 개인 정보가 ‘학생’ 만 포함하지만 언어 모델부(354)에 ‘학생’에 해당하는 언어 모델이 없는 경우, 환경설정 콘트롤러(380)는 음성 인식 서버(300)가 보유중인 ‘청소년’ 언어 모델을 선택할 수도 있다.

환경설정 콘트롤러(380)가 이처럼 개인 정보에 부합하는 음향 모델 및 언어 모델을 선택함으로써, 음향 모델과 언어 모델을 사용자(800)의 음성에 적합하게 개인화 할 수 있다. 그리고, 음성 인식 과정에서 개인화된 음향 모델과 언어 모델을 사용함으로써 음성 인식 시스템(1000C)이 음성 인식을 수행할 때 보다 정확도를 높일 수 있다.

음성 인식 서버(300)는 음성 인식을 수행하는 과정에서 복수의 음향 모델 및 언어 모델을 참조할 수 있다. 음성 인식 서버(300)는 음성 인식 결과물로 복수의 문자열을 생성할 수 있는데, 이 경우 음성 인식 서버(300)는 개인 정보 분석부(240)로부터 전송된 각 항목별 확률값을 참조하여 이에 기초한 가중치를 각 문자열에 적용할 수 있다. 음성 인식 서버(300)는 상기 가중치를 적용한 확률들 중 가장 높은 확률값을 가지는 문자열을 최종 음성 인식 결과물로 선택할 수 있다.

한편, 도 4에 도시된 구조로 음성 인식 시스템(1000C)이 구성되는 경우, 음향 모델과 언어 모델을 형성하기 위한 훈련 단계에서 유용하게 활용될 수 있다. 무작위로 녹음된 대량의 음성 신호들을 입력부(212)를 통해 단말기(200)에 입력하면, 각 음성 신호들의 특징이 추출되어 음성 인식 서버(300)로 전송 되고, 분석된 개인 정보들도 함께 전송 된다. 음성 인식 서버(300)는 전송된 음성 특징들과 개인 정보들을 참조하여 훈련 단계를 수행함으로써 다양한 음향 모델과 언어 모델을 형성할 수 있다. 특히, 특정의 개인 정보 항목에 해당하는 음성 신호만 선별하여 훈련 단계에 사용함으로써 특정 항목에 특화된 음향 모델 및 언어 모델을 형성할 수 있다. 예를 들어, 음성 인식 시스템(1000C)이 개인 정보 분석부(240)를 통해 노인 남성의 음성을 별도로 선별할 수 있는 경우, 상기 노인 남성의 음성들만 선별하여 이용함으로써 노인 남성에 특화된 음향 모델과 언어 모델을 형성할 수 있으며, 차후 음성 인식 단계에서 ‘노인’ 또는 ‘남성’으로 분류된 음성 신호를 분석할 때 사용될 수 있다.

도 4에 도시된 음성 인식 시스템(1000C)에서 음성 인식 서버(300)가 복수 개로 마련될 수 있고, 분산 음성 인식 처리 과정을 수행할 수 있다.

도 5는 프라이빗 서버(400)를 포함하는 음성 인식 시스템(1000D)의 실시예를 나타낸 도면이다.

도 5에 따르면, 본 발명의 실시예에 따른 음성 인식 시스템(1000D)은 단말기(200), 음성 인식 서버(300) 및 프라이빗 서버(400)를 포함할 수 있다. 단말기(200)는 입력부(212), 개인 정보 수집부(220), 개인 정보 분석부(240) 및 출력부(214)를 포함할 수 있다. 음성 인식 서버(300)는 음향 모델부(352), 언어 모델부(354), 음향 데이터베이스(372), 언어 데이터베이스(374) 및 환경설정 콘트롤러(380)를 포함할 수 있다. 프라이빗 서버(400)는 특징 추출부(430)와 개인 정보 저장부(460)을 포함할 수 있다.

프라이빗 서버(400)에 포함되는 특징 추출부(430)는 도 4의 단말기(200)에 포함되는 특징 추출부(230)와 동일한 것으로 구비될 수 있다.

단말기(200)의 연산 능력에 따라서 단말기에 특징 추출부(430)가 포함할 수 있고, 개인 정보 수집부(220) 및 개인 정보 분석부(240) 중 적어도 하나가 프라이빗 서버(400)에 포함될 수 있다. 상기 특징 추출부(430)는 음성 인식 서버(300)에 포함될 수도 있다. 음성 인식 서버(300)의 음향 데이터베이스(372)와 언어 데이터베이스(374)가 음성 인식 서버(300) 외부에 존재하는 구성도 가능하다.

도 5와 도 4에 공통된 구성요소들에 대한 상세한 설명은 중복되므로 생략하도록 한다.

프라이빗 서버(400)는 단말기(200)로부터 음성 신호와 개인 정보를 수신하고, 상기 개인 정보를 기 설정된 카테고리로 분류하여 저장할 수 있다. 또한, 프라이빗 서버(400)는 음성 신호 및 저장된 적어도 일부의 개인 정보를 음성 인식 서버(300)로 전송할 수 있다.

프라이빗 서버(400)의 특징 추출부(430)는 단말기(200)로부터 전송된 음성 신호로부터 특징을 추출하여 음성 인식 서버(300)로 전송할 수 있다. 프라이빗 서버(400)는 상기 음성 특징을 음성 인식 서버(300)로 전송할 때, 음성 특징을 암호화 하여 전송할 수 있다. 특징 추출부(430)가 음성 인식 서버(300)에 포함되는 경우, 프라이빗 서버(400)는 암호화된 음성 신호를 음성 인식 서버로(200)로 전송할 수 있다. 이처럼 프라이빗 서버(400)는 음성 특징 또는 음성 신호를 암호화할 수 있고, 이를 통해 암호화 되지 않은 음성으로부터 유추될 수 있는 개인 정보의 유출을 방지할 수 있다.

프라이빗 서버(400)의 개인 정보 저장부(460)는 단말기(200)로부터 전송된 개인 정보를 저장한다. 개인 정보 저장부(460)는 사용자(800)가 직접 입력한 개인 정보, 사용자(800)의 음성 신호로부터 유추된 개인 정보, 사용자(800)의 개인 정보로부터 유추된 타 개인 정보를 저장할 수 있다. 바람직하게는, 상기 개인 정보는 개인 정보 분석부(240)로부터 전송된 것일 수 있다. 도 4에서 설명한 바와 같이, 개인 정보 분석부(240)는 개인 정보의 각 항목별 확률값을 계산할 수 있으며, 이 확률값도 개인 정보 저장부(460)에 저장될 수 있다.

도 4에서 설명한 바와 같이, 사용자(800)는 개인 정보를 기 설정된 카테고리로 분류할 수 있는데, 상기 분류 과정이 프라이빗 서버(400)에서 수행될 수 있다. 사용자(800)는 단말기(200) 조작을 통해 단말기(200) 및 프라이빗 서버(400)에 저장된 개인 정보를 사용자(800) 임의 카테고리 또는 기 설정된 카테고리에 따라 분류할 수 있으며, 상기 분류된 개인 정보를 프라이빗 서버(400)의 개인 정보 저장부(460)에 저장할 수 있다. 프라이빗 서버(400)는 사용자(800)의 개인 정보를 공개 가능한 개인 정보와 비공개 개인 정보로 분류하여 저장할 수 있으나 이에 한정되지 않는다.

전술한 바와 같이 프라이빗 서버(400)는 사용자(800)의 개인 정보를 저장하고 개인 정보 보안을 위한 각종 암호화 기법들을 수행할 수 있다. 프라이빗 서버(400)는 사용자(800)와 계약을 하거나, 사용자 인증과 개인 정보 수집 동의하에 사용자의 개인 정보를 저장한다. 프라이빗 서버(400)는 음성 인식 서버(300)와 별도로 구비되어, 공개된 영역에서 대량의 음성 인식을 처리하는 음성 인식 서버(300)에서의 사용자 정보 유출을 방지할 수 있다. 사용자(800)의 개인 정보는 단말기(200)와 프라이빗 서버(400) 사이에서 자유로이 송수신된다. 하지만, 프라이빗 서버(400)의 보안에 의해서 상기 개인 정보가 프라이빗 서버(400)를 벗어나 그 이후의 네트워크 연결로 유출되지 않는다. 특히, 프라이빗 서버(400)는 사용자(800)가 공개로 설정한 개인 정보만 음성 인식 서버(300)로 전송함으로써 사용자가 공개하길 원치 않는 개인 정보가 유출되는 것을 방지할 수 있다.

도 5와 같이 단말기(200)와 음성 인식 서버(300) 사이에 프라이빗 서버(400)가 존재하는 경우 얻을 수 있는 이점은 아래와 같다. 예를 들어, 사용자(800)가 음성 인식 서비스를 받길 원하지만, 음성 신호 유출 등 음성 인식에 따른 개인 정보의 유출을 걱정하는 경우를 가정해볼 수 있다. 사용자(800)는 신뢰도가 높은 프라이빗 서버(400) 사업자에게 개인 정보와 음성 신호를 전송할 수 있고, 프라이빗 서버(400) 사업자는 암호화된 음성 신호 및 암호화된 음성 특징 중 적어도 하나와 사용자가 공개를 허락한 개인 정보만 음성 인식 서비스를 제공하는 서버(200)로 전송할 수 있다. 음성 인식 서비스 제공자(200)는 음성 신호와 공개가 허용된 개인 정보를 이용하여 문자열만 추출할 수 있을 뿐, 음성 신호의 발화자가 실제로 누구인지, 어떤 특징을 지닌 사용자인지 확인할 수 없으므로 사용자의 개인 정보가 보호될 수 있다. 또한, 단말기(200)와 음성 인식 서버(300) 사이에 프라이빗 서버(400)라는 중간 단계가 더 생겨남으로써, 음성 인식의 각 과정을 각 구성요소에 분배하여 배치함으로써 단말기(200)와 음성 인식 서버(300)측에 걸리는 부하를 경감할 수 있다.

도 5에 도시된 음성 인식 시스템(1000D)에서 음성 인식 서버(300)는 복수 개로 마련되어 분산 음성 인식 처리 과정을 수행할 수 있다.

한편, 음성 인식 서버(300)는 프라이빗 서버(400)로부터 전송된 개인 정보를 참조하여 상기 개인 정보에 부합하는 음향 모델 및 언어 모델을 선택할 수 있으며, 이를 통해 음성 인식 성공률을 높일 수 있다. 또한, 도 4의 경우와 마찬가지로, 음성 인식 과정에서 복수의 음향 모델 및 언어 모델이 사용되고, 음성 인식 결과물로 복수의 문자열이 생성된 경우, 음성 인식 서버(300)는 개인 정보 분석부(240)로부터 전송된 각 속성별 확률을 참조하여 이에 기초한 가중치를 각 문자열에 적용할 수 있다. 음성 인식 서버(300)는 상기 가중치를 적용한 확률들 중 가장 높은 확률값을 가지는 문자열을 최종 음성 인식 결과물로 선택할 수 있다.

그리고, 도 5에 따르면 음성 인식 서버(300)에서 생성된 음성 인식 결과물은 프라이빗 서버(400)를 거친 후 단말기(200)로 전송되는 것으로 표시되었으나 이에 한정되지 않으며, 상기 음성 인식 결과물이 음성 인식 서버(300)에서 단말기(200)로 직접 전송될 수도 있다. 또한, 음성 인식 서버(300)는 상기 음성 인식 결과물을 전술한 단말기(200) 및 프라이빗 서버(400) 외 기기로도 전송할 수 있다.

도 6은 프라이빗 서버를 포함하는 음성 인식 시스템의 또 다른 실시예(1000E)를 나타낸 도면이다.

도 6에 따르면, 본 발명의 실시예에 따른 음성 인식 시스템(1000E)은 단말기(200), 음성 인식 서버(300) 및 프라이빗 서버(400)를 포함할 수 있다. 단말기(200)는 입력부(212), 개인 정보 수집부(220), 개인 정보 분석부(240) 및 출력부(214)를 포함할 수 있다. 음성 인식 서버(300)는 음향 모델부(352), 언어 모델부(354), 음향 데이터베이스(372), 언어 데이터베이스(374) 및 환경설정 콘트롤러(380)를 포함할 수 있다. 프라이빗 서버(400)는 특징 추출부(430), 개인 정보 저장부(460) 및 결과물 재연산부(490)를 포함할 수 있다.

단말기(200)의 연산 능력에 따라서 단말기에 특징 추출부(430)가 포함할 수 있고, 개인 정보 수집부(220) 및 개인 정보 분석부(240) 중 적어도 하나가 프라이빗 서버(400)에 포함될 수 있다. 상기 특징 추출부(430)는 음성 인식 서버(300)에 포함될 수도 있다. 음성 인식 시스템(1000E)을 구성하는 단말기(200), 음성 인식 서버(300), 및 프라이빗 서버(400)에 부가되는 연산량 부담을 고르게 분포시키기 위해 결과물 재연산부(490)는 단말기(200) 및 음성 인식 서버(300) 중 적어도 하나에 포함될 수도 있다. 음성 인식 서버(300)의 음향 데이터베이스(372)와 언어 데이터베이스(374)가 음성 인식 서버(300) 외부에 존재하는 구성도 가능하다.

도 6와 도 5에 공통된 구성요소들에 대한 상세한 설명은 중복되므로 생략하도록 한다.

음성 인식 서버(300)는 복수의 음성 인식 결과물을 생성할 수 있다. 여기서 복수의 음성 인식 결과물은 언어 모델부(354)에서 생성된 격자 구조의 문자열 집합을 포함할 수 있다. 음성 인식 서버(300)는 상기 복수의 음성 인식 결과물을 프라이빗 서버(400)로 전송할 수 있다.

이 때, 음성 인식 서버(300)는 음성 인식 과정에서 사용된 음향 모델 및 언어 모델의 종류 정보도 함께 전송할 수 있으며, 각각의 음성 인식 결과물에 음향 모델 및 언어 모델의 종류 정보가 포함될 수 있다. 상기 종류 정보들은 각 음성 인식 결과물이 어떤 음향 모델 및 언어 모델로부터 비롯되었는지 구분하기 위해서 사용될 수 있다. 바람직하게는, 상기 종류 정보들은 환경설정 콘트롤러(380)에서 프라이빗 서버(400)로 전송될 수 있으나 이에 한정되지 않으며, 음향 모델부(352), 언어 모델부(354) 및 기타 음성 인식 서버(300)의 구성요소에서 전송될 수도 있다.

결과물 재연산부(490)는 음성 인식 서버(300)로부터 전송된 음성 인식 결과물로부터 최적의 음성 인식 결과물을 선택할 수 있다. 음성 인식 서버(300)가 복수의 음성 인식 결과물과 각 음성 인식 결과물에 사용된 음향 모델 및 언어 모델의 종류 정보를 함께 전송한 경우, 결과물 재연산부(490)는 상기 음향 모델 및 언어 모델의 종류 정보를 이용하여 최적의 음성 인식 결과물을 선별할 수 있다. 이 때, 결과물 재연산부(490)는 개인 정보 저장부(460)에 저장된 사용자(800)의 개인 정보를 참조할 수 있다. 참조되는 개인 정보는 사용자(800)가 공개로 설정한 개인 정보와 공개로 설정하지 않은 개인 정보 모두를 포함할 수 있다. 결과물 재연산부(490)가 최적의 음성 인식 결과물을 선별하는 구체적인 예시는 다음과 같다.

우선, 사용자(800)가 영어를 사용하며, 프라이빗 서버(400)가 공개된 개인 정보인 ‘남성’을 보유하고 있고, 비공개 개인 정보인 ‘노인’, ‘미국 텍사스(Texas) 방언’도 함께 저장하고 있는 경우를 가정할 수 있다. 프라이빗 서버(400)는 상기 공개된 개인 정보인 ‘남성’을 음성 인식 서버(300)로 전송할 수 있다. 음성 인식 서버(300)의 환경설정 콘트롤러(380)는 일반화된 음향 모델 및 언어 모델을 사용하여 음성 인식을 수행할 수 있다. 하지만, 환경설정 콘트롤러(380)는 보다 정확한 음성 인식을 위해 개인 정보 ‘남성’에 해당하는 음향 모델 및 언어 모델을 선택할 수 있다. 환경설정 콘트롤러(380)는 이 외에도, 지역별 방언 발화데이터로부터 형성된 음향 모델 및 언어 모델인 ‘뉴저지 방언’, ‘보스턴 방언’ 등을 선택할 수 있으며, 다양한 연령층 별 음향 모델 및 언어 모델도 함께 선택할 수 있다. 음성 인식 서버(300)에 ‘텍사스 방언’에 해당하는 언어 모델을 보유하고 있지만 이와 연관된 음향 모델을 가지고 있지 않은 경우, 환경설정 콘트롤러(380)는 ‘텍사스 방언’ 언어 모델만 선택할 수 있다. 음성 인식 서버(300)가 ‘텍사스 방언’에 해당하는 음향 모델은 보유하고 있지 않지만, ‘텍사스’와 지리적으로 가까운 ‘뉴 멕시코(New Mexico)’, ‘오클라호마(Oklahoma)’, ‘알칸사스(Arkansas)’, ‘루이지아나(Louisiana)’ 지역의 음향 모델은 보유하고 있는 경우, 환경설정 콘트롤러(380)는 상기 지역 방언의 음향 모델을 선택할 수 있다. 환경설정 콘트롤러(380)는 음성 인식 서버(300)가 보유하고 있는 모든 종류의 음향 모델 및 언어 모델을 선택할 수 있다. 음성 인식 서버(300)가 공개된 개인 정보에 부합하는 음향 모델 및 언어 모델을 보유하지 않는 경우에도, 환경설정 콘트롤러(380)는 음성 인식 서버(300)가 보유하고 있는 모든 종류의 음향 모델 및 언어 모델을 선택할 수 있다. 음성 인식 과정에서 ‘남성’, ‘노인’, ‘어린이’, ‘청년’, ‘텍사스 방언’, ‘뉴저지 방언’, ‘보스턴 방언’의 음향 모델 및 언어 모델이 사용되었고, 각각에 해당하는 음성 인식 결과물이 생성된 경우, 음성 인식 서버(300)는 상기 음성 인식 결과물들과 각각의 종류 정보를 프라이빗 서버(400)로 전송한다. 프라이빗 서버(400)의 결과물 재연산부(490)는 공개된 개인 정보인 ‘남성’에 해당하는 음성 인식 결과물과 비공개 개인 정보인 ‘노인’, ‘텍사스 방언’에 해당하는 음성 인식 결과물 중 적어도 하나를 최종 음성 인식 결과물로 선택할 수 있고, 상기 3가지 음성 인식 결과물을 모두 선택할 수 있다. 결과물 재연산부(490)는 모든 음성 인식 결과물들 중에서 가장 높은 확률을 지니는 문자열을 최종 음성 인식 결과물로 선택할 수도 있다.

도 5에 따르면 개인 정보 분석부(240)를 통해 파악된 개인 정보의 각 항목별 확률값이 개인 정보 저장부(460)에 저장될 수 있다. 도 6에서도 이와 마찬가지로, 개인 정보의 각 항목별 확률값이 개인 정보 저장부(460)에 저장될 수 있다. 물론, 개인 정보 분석부(240)에서 생성되는 각종 정보들은 개인 정보 저장부(460)를 거치지 않고 곧바로 결과물 재연산부(490)에 전송될 수도 있다.

음성 인식 과정에서 복수의 음향 모델 및 언어 모델이 사용되고, 음성 인식 결과물로 복수의 문자열이 생성된 경우, 결과물 재연산부(490)는 각 항목별 확률값을 참조하여 이에 기초한 가중치를 각 문자열에 적용할 수 있다. 결과물 재연산부(490)는 상기 가중치를 적용한 확률값들 중 가장 높은 확률값을 가지는 문자열을 최종 음성 인식 결과물로 선택할 수 있다.

직전의 예시에서, 결과물 재연산부(490)는 ‘남성’, ‘노인’, ‘텍사스 방언’ 각각의 확률들에 기초하여 가중치 1, 가중치 2, 가중치 3 값을 형성할 수 있고, 상기 가중치를 각각의 결과물에 적용할 수 있다. 결과물 재연산부(490)는 ‘남성’에 해당하는 음향 모델 및 언어 모델을 통해서 형성된 단어열들의 각 확률값에 가중치 1 값을 곱하는 방식으로 최종 확률을 구할 수 있는데, 이는 다른 결과물들에 대해서도 동등하게 처리된다. 하지만 최종 확률을 구하는 방식은 다양하게 마련될 수 있으며, 상기의 곱하는 방식에 한정되지는 않는다. 결과물 재연산부(490)는 모든 계산 결과값들 중 가장 높은 최종 확률을 가지는 단어열을 선택할 수 있다.

사용자(800)가 복수의 최종 음성 인식 결과물을 전송 받은 경우, 각 음성 인식 결과물의 내용을 확인하고 그 중 가장 사용자(800)의 의도에 부합하는 결과물을 선택하고 이를 음성 인식 시스템(1000E)에 전송할 수 있다. 또는, 사용자(800)는 모든 최종 음성 인식 결과물에 대해서 정확도를 평가하고 각 결과물의 정확도 평가 정보를 음성 인식 시스템(1000E)에 전송할 수 있다. 여기서, 음성 인식 시스템(1000E)은 상기 사용자(800)의 최종 음성 인식 결과물 선택 정보와 정확도 평가 정보를 포함하는 사용자 피드백 정보를 생성할 수 있다. 그리고 음성 인식 시스템(1000E)은 사용자 피드백 정보에 기초하여 음향 모델 및 언어 모델에 정확도 가중치를 부여할 수 있으며, 상기 정확도 가중치 정보는 차후의 음성 인식 과정에 사용되어 음성 인식의 정확도를 높일 수 있다. 일 예로, 음성 인식 시스템(1000E)은 상기 정확도 가중치를 음성 인식 결과물로 형성된 각 단어열의 확률에 부가하고 가장 높은 확률을 가지는 단어열을 최종 음성 인식 결과물로 선택할 수 있다.

도 7은 단말기와 음성 인식 서버를 포함하는 음성 인식 시스템의 또 다른 실시예(1000F)를 나타낸 도면이다.

도 7에 따르면, 본 발명의 실시예에 따른 음성 인식 시스템(1000F)은 단말기(200)와 음성 인식 서버(300)를 포함할 수 있다. 단말기(200)는 입력부(212), 개인 정보 수집부(220), 특징 추출부(230), 개인 정보 분석부(240), 개인 정보 저장부(260), 결과물 재연산부(290) 및 출력부(214)를 포함할 수 있다. 음성 인식 서버(300)는 음향 모델부(352), 언어 모델부(354), 음향 데이터베이스(372), 언어 데이터베이스(374) 및 환경설정 콘트롤러(380)를 포함할 수 있다. 음성 인식 서버(300)는 음향 모델부(352)와 언어 모델부(354)를 포함하는 적어도 하나의 음성 신호 분석부(250)를 포함할 수 있다.

도 7의 단말기(200)에 포함되는 특징 추출부(230), 개인 정보 저장부(260) 및 결과물 재연산부(290)는 도 6의 프라이빗 서버(400)에 포함되는 특징 추출부(430), 개인 정보 저장부(460) 및 결과물 재연산부(490)와 동일한 것으로 구비될 수 있다.

단말기(200)의 연산 능력에 따라서 개인 정보 수집부(220), 개인 정보 분석부(240), 결과물 재연산부(290), 개인 정보 저장부(260) 및 특징 추출부(230) 중 적어도 하나가 음성 인식 서버(300)에 포함될 수 있다. 음성 인식 서버(300)의 음향 데이터베이스(372)와 언어 데이터베이스(374)가 음성 인식 서버(300) 외부에 존재하는 구성도 가능하다.

도 7과 도 6에 공통된 구성요소들에 대한 상세한 설명은 중복되므로 생략하도록 한다.

도 7의 단말기(200)는 도 6의 프라이빗 서버(400)에 포함되어 있던 특징 추출부(430), 개인 정보 저장부(460), 결과물 재연산부(490)를 포함하고 있으며, 단말기(200)가 통해 개인 정보 분석 및 최종 음성 인식 결과물 선택에 대한 처리도 수행하는 구성이다. 특히, 도 7의 단말기(200)는 최근에 시장에서 유통되고 있는 고성능 스마트폰에 적합한 구성이며, 가정에서 사용하는 개인용 컴퓨터에도 적용될 수 있는 시스템 구조이다.

도 7의 음성 인식 시스템(1000F)에서, 단말기(200)는 음성 인식 서버(300)와는 음성 신호 및 공개된 개인 정보, 그리고 음성 인식 결과물만 주고 받는다. 또한, 도 7의 음성 인식 시스템(1000F)은 단말기(200)와 음성 인식 서버(300)를 제외한 별도의 음성 인식 단계를 거치지 않는 단순한 구조로 구비되는데, 이 단순함이 해당 시스템 구조의 구성의 장점이다. 보안 측면에 있어서도, 사용자는 각자의 단말기(200)에 저장되는 개인 정보만 유의하여 관리하면 될 뿐 별도의 보안을 강구할 필요가 없다. 도 7의 음성 인식 시스템(1000)은 도 6의 단말기(200)와 프라이빗 서버(400)가 하나로 합쳐진 형태로, 특히 개인 정보를 처리하는 과정에서 큰 강점을 지니고 있다. 도 6의 경우는 개인 정보가 프라이빗 서버(400)에 별도로 저장되어있기 때문에 사용자(800)의 요청에 의해서 개인 정보를 삭제하거나 수정할 필요가 있을 때 프라이빗 서버(400)에 접속하는 추가적인 단계가 필요할 수 있다. 하지만 도 7의 경우, 사용자(800)는 직접 단말기(200)를 통해 손쉽게 개인 정보를 관리할 수 있다. 또한, 사용자(800)는 결과물 재연산 과정 중, 자신의 기호에 따른 결과물 선택을 용이하게 할 수 있다.

도 8은 제 1 사용자(800a)의 음성 인식 결과를 제 2 사용자(800b)에게 전송하는 음성 인식 시스템(1000G)의 실시예를 나타낸 도면이다.

도 8에 따르면, 본 발명의 실시예에 따른 음성 인식 시스템(1000G)은 제 1 단말기(500), 음성 인식 서버(300), 프라이빗 서버(400) 및 제 2 단말기(600)를 포함할 수 있다. 제 1 단말기(500)는 입력부(512), 개인 정보 수집부(520) 및 개인 정보 분석부(540)를 포함할 수 있고, 제 2 단말기(600)는 신호 수신부(610), 번역부(620), 결과물 선택부(630), 출력 신호 선택부(640), 음성 신호 변환부(650), 속성 저장부(652) 및 출력부(614)를 포함할 수 있다.

도 8의 음성 인식 서버(300) 및 프라이빗 서버(400)는 도 6의 음성 인식 서버(300) 및 프라이빗 서버(400)와 동일하고, 제 2 단말기(600)에 포함되는 출력부(614)는 도 6의 단말기(200)에 포함되는 출력부(214)와 동일하게 구비될 수 있다. 제 1 단말기(500)도 도 6의 단말기(200)와 마찬가지로 별도의 출력부를 포함함으로써 제 1 사용자(800a)는 자신의 음성 인식 결과를 확인할 수도 있다.

도 8과 도 6에 공통된 구성요소들에 대한 상세한 설명은 중복되므로 생략하도록 한다.

신호 수신부(610)는 제 1 사용자(800a)의 음성 인식 결과물을 수신한다. 신호 수신부(610)는 복수의 음성인식 결과물을 수신할 수 있다. 신호 수신부(610)는 이에 더하여 상기 제 1 사용자(800a)의 개인 정보 및 제 1 사용자(800a)의 음성 특징을 수신할 수 있다. 이 때, 신호 수신부(610)는 프라이빗 서버(400)로부터 공개된 제 1 사용자(800a)의 공개된 개인 정보만 수신할 수 있다. 여기서, 제 1 사용자(800a)의 음성 특징은 특징 추출부(430)에서 제 1 사용자(800a)의 음성 신호로부터 추출되어 프라이빗 서버(400)에 저장된 것일 수 있다. 제 1 사용자(800a)의 개인 정보는 제 2 단말기(600)에서 음성 출력시 사용될 수 있다.

번역부(620)는 제 1 사용자(800a)의 언어와 제 2 사용자(800b)의 사용하는 언어가 다를 경우, 제 1 사용자(800a)의 음성 인식 결과물을 제 2 사용자(800b)의 언어에 맞게 번역한다. 이 때, 번역부(620)는 복수의 음성 인식 결과물에 대해서 복수의 번역 결과물을 생성할 수 있다. 이에 더하여, 번역부(620)는 음성 인식 결과물에 대한 정규화 과정을 수행할 수 있다. 여기서 정규화 과정은 음성 인식 결과물을 표준어법에 맞는 문자열로 변형하는 처리 과정을 말한다. 하지만 이에 한정되지 않으며, 상기 정규화 과정은 음성 인식 시스템(1000G)의 다른 구성요소에 의해서 처리될 수 있다.

결과물 선택부(630)는 복수의 음성 인식 결과물 및 복수의 번역 결과물 중 적어도 하나를 선별한다. 이때 결과물 선택부(630)는 제 2 사용자(800b)의 선택 입력에 따라 결과물을 선별할 수 있다. 또한, 결과물 선택부(630)는 제 2 사용자(800b)의 개인 정보를 참조하여 이에 부합하는 결과물을 선별할 수 있다. 결과물 선택부(630)는 상기 번역부(620)와 합쳐져서 하나의 구성요소로 존재할 수도 있다.

출력 신호 선택부(640)는 상기 선별된 결과물을 출력할 때의 출력 형식을 결정한다. 출력 신호 선택부(640)는 제 2 사용자(800b)로부터 ‘영상 출력’, ‘음성 출력’ 등의 출력 형식 지정 입력을 받을 수 있다. 출력 신호 선택부(640)는 제 2 단말기(400)의 구성에 따라 출력 형식을 결정할 수 있다. 예를 들어, 제 2 단말기(400)에 별도의 영상 출력 수단이 없고, 스피커와 같은 음성 출력 수단만 구비된 경우, 출력 신호 선택부(640)는 음성 출력 형식을 선택한다.

출력 신호 선택부(640)는 상기 선별된 결과물을 음성으로 출력하는 것으로 결정할 수 있고, 이 경우, 출력 신호 선택부(640)는 상기 선별된 결과물을 음성 신호 변환부(650)로 전송할 수 있다. 음성 신호 변환부(650)는 상기 선별된 결과물을 음성 신호로 변환한다. 이 때, 음성 신호 변환부(650)는 신호 수신부(610)가 수신한 제 1 사용자(800a)의 개인 정보 및 음성 특징 정보를 참조하여 출력 음성을 생성할 수 있다. 즉, 만약 제 1 사용자(800a)가 한국 여성이고 제 2 사용자(800b)가 미국 사람인 경우, 제 2 사용자(800b)는 제 1 사용자(800a)가 한국어로 말한 내용을 영어 음성으로 들을 수 있으며, 이 때, 그 음성이 제 1 사용자(800a) 특유의 한국 여성 음성 특징을 그대로 가질 수 있다는 것을 의미한다.

한편, 속성 저장부(652)는 음성의 특징 및 환경 특징을 저장할 수 있다. 여기서 음성 특징은 유명인의 음성 특징을 포함할 수 있고, 환경 특징은 다양한 공간의 잔향 특성 및 공간 정보를 포함할 수 있다.

음성 신호 변환부(650)는 속성 저장부(652)에 저장된 음성 특징과 환경 특징을 참조하여 음성을 생성할 수 있다. 예를 들어, 음성 신호 변환부(650)는 속성 저장부(652)의 정보를 참조하여 상기 선별된 결과물을 유명 연예인의 목소리로 출력할 수 있고, 울림이 심한 콘서트 홀의 특성을 가미한 목소리를 생성할 수도 있다.

도 8과 같은 구성의 음성 인식 시스템(1000G)은 실시간 통역 시스템으로 활용할 수 있다. 즉, 제 1 사용자(800a)와 제 2 사용자(800b)는 서로 각자의 언어로 자유롭게 발화할 수 있고, 서로 상대방이 말한 내용을 자국의 언어로 청취할 수 있다. 도 8에서는 제 1 사용자(800a)에서 제 2 사용자(800b)로 음성 인식 결과물이 전달되는 구조만 도시하였지만 이에 한정되지 않으며, 두 사용자가 동시에 발화 및 청취가 가능한 양방향 시스템으로의 구성도 가능하다. 즉, 제 1 사용자(800a)와 제 2 사용자(800b) 두 사람이 각자가 사용할 프라이빗 서버(400)를 보유하고, 음성 인식 시스템의 입력 수단에 해당하는 제 1 단말기(500)와 출력 수단에 해당하는 제 2 단말기(600)가 하나로 합쳐진 형태의 단말기를 각자 가지고 있으면 양방향 통역 시스템이 구현될 수 있다.

도 8과 유사하게, 도 7의 구성에 제 2 단말기를 포함시켜 프라이빗 서버(400)가 없는 실시간 통역 시스템을 구성할 수도 있다.

도 9에 따르면, 본 발명에 따른 음성 인식 방법은 사용자로부터 음성 신호를 입력 받는 단계(S100), 사용자의 개인 정보를 수집하는 단계(S200), 음성 신호와 개인 정보에 기초하여 음성 신호로부터 음성 인식 결과물을 생성하는 단계(S300), 음성 인식 결과물로부터 최종 음성 인식 결과물을 선택하는 단계(S400) 및 최종 음성 인식 결과물을 출력하는 단계(S500)를 포함할 수 있다.

사용자로부터 음성 신호를 입력 받는 단계(S100)는 음성 인식을 위한 기본적인 정보인 음성 신호를 마이크 등의 수단을 통해 입력 받는 단계이다.

사용자의 개인 정보를 수집하는 단계(S200)는 음성 인식 성공률을 높이기 위한 개인 정보를 얻는 단계이다. 개인 정보는 사용자 행위의 기록 및 사용자 행위를 측정한 결과로부터 수집된 사용자 행동 정보와, 사용자 고유의 신상 정보 및 사용자의 상황을 나타내는 사용자 상태 정보를 포함할 수 있다. 이 때, 사용자의 개인 정보를 수집하는 단계(S200)는 사용자가 직접 입력한 개인 정보를 취득하는 단계(S220)와 음성 신호 및 상기 수집된 개인 행동 정보 중 적어도 하나를 분석하여 개인 상태 정보를 유추하는 단계(S240)를 더 포함할 수 있다. 한편, 개인 정보를 수집하는 단계(S200)는 사용자로부터 음성 신호를 입력 받는 단계(S100) 이전부터 수행될 수 있고, 사용자로부터 음성 신호를 입력 받는 단계(S100)가 완료된 이후에 수행될 수도 있다.

음성 신호와 개인 정보에 기초하여 음성 신호로부터 음성 인식 결과물을 생성하는 단계(S300)는 사용자가 공개로 설정한 개인 정보를 참조하여 음향 모델과 언어 모델을 선택하는 단계(S320)를 추가적으로 포함할 수 있다. 음성 신호와 개인 정보에 기초하여 음성 신호로부터 음성 인식 결과물을 생성하는 단계(S300)는 개인화된 음향 모델과 언어 모델을 참조함으로써 정확도가 높은 음성 인식 결과물을 생성할 수 있다.

한편, 음성 신호와 개인 정보에 기초하여 음성 신호로부터 음성 인식 결과물을 생성하는 단계(S300)는 복수의 음성 인식 결과물을 생성할 수 있고, 각 음성 인식 결과물 마다 확률값을 가질 수 있다.

음성 신호와 개인 정보에 기초하여 음성 신호로부터 음성 인식 결과물을 생성하는 단계(S300)는 음성 인식 결과물을 생성할 때 사용된 음향 모델 및 언어 모델의 종류를 함께 표시할 수 있다.

음성 인식 결과물로부터 최종 음성 인식 결과물을 선택하는 단계(S400)는 복수의 음성 인식 결과물로부터 최적의 문자열을 선별하는 단계이다. 최종 음성 인식 결과물을 선택하는 단계(S400)는 사용자의 공개된 개인 정보 및 비공개 개인 정보를 이용하여 음성 인식 결과물을 선택할 수 있다. 또한, 최종 음성 인식 결과물을 선택하는 단계(S400)는 복수의 음성 인식 결과물들의 각 확률에 상기 개인 정보에 기초한 가중치를 부가하고, 그 결과로 가장 높은 확률값을 가지는 음성 인식 결과물을 선택할 수 있다.

최종 음성 인식 결과물을 출력하는 단계(S500)는 문자, 영상, 소리 등을 이용하여 음성 인식 결과물을 출력한다. 이 때, 최종 음성 인식 결과물을 출력하는 단계(S500)는 상기 음성 인식 결과물을 타 사용자에게 표시할 수 있다.

도 9에 도시되지는 않았지만, 최종 음성 인식 결과물을 타 사용자에게 전송하고, 타 사용자가 사용하는 언어로 상기 최종 음성 인식 결과물을 번역한 뒤, 영상 또는 소리를 통해 타 사용자에게 출력하는 방법을 추가적으로 포함할 수도 있다.

도 9에서 도시한 것과 같은 음성 인식 방법을 이용함으로써 개인화된 음향 모델 및 언어 모델을 참조할 수 있고, 이를 통해 음성 인식 성공률을 높일 수 있다.

이상에서 본 발명을 구체적인 실시예를 통하여 설명하였으나, 당업자라면 본 발명의 취지를 벗어나지 않는 범위 내에서 수정, 변경을 할 수 있을 것이다. 따라서 본 발명이 속하는 기술분야에 속한 사람이 본 발명의 상세한 설명 및 실시예로부터 용이하게 유추할 수 있는 것은 본 발명의 권리범위에 속하는 것으로 해석되어야 할 것이다.

발명의 실시를 위한 최선의 형태에서 관련 내용을 서술하였다.

본 발명은 스마트폰 및 PC의 음성 인식 어플리케이션과 텔레마케팅, 음성 인식 기능이 포함된 가정용 가전제품, 음성 인식 운송수단, 실시간으로 작동하는 음성 기반 통역기등의 단말기 및 음성 인식 시스템에 활용될 수 있다.

Claims

사용자로부터 음성 신호를 입력 받고 상기 사용자의 개인 정보를 수집하는 단말기;

상기 단말기로부터 상기 음성 신호와 상기 개인 정보를 수신하고, 상기 개인 정보를 기 설정된 카테고리로 분류하여 저장하며, 상기 음성 신호 및 저장된 적어도 일부의 개인 정보를 음성 인식 서버로 전송하는 프라이빗 서버;

상기 프라이빗 서버로부터 전송된 상기 음성 신호와 상기 개인 정보에 기초하여 음성 인식을 수행하고, 음성 인식 결과물을 생성하는 음성 인식 서버; 를 포함하되,

상기 프라이빗 서버에서 상기 음성 인식 서버로 전송되는 개인 정보는 사용자가 공개로 설정한 개인 정보이며,

상기 음성 인식 서버는,

상기 음성 신호에 대응되는 음소, 음절 및 단어 중 적어도 하나를 선별하는 음향 모델부와,

언어의 문장 구조를 참조하여 문자열을 형성하는 언어 모델부와,

상기 음향 모델부와 상기 언어 모델부가 음성 인식 과정에서 사용할 음향 모델과 언어 모델을 선택하는 환경 콘트롤러를 포함하는 것을 특징으로 하는 음성 인식 시스템.
제 1 항에 있어서,

상기 환경 콘트롤러는 상기 음성 인식 서버에 전송된 개인 정보를 참조하여 적어도 하나의 음향 모델과 적어도 하나의 언어 모델을 선택하는 것을 특징으로 하는 음성 인식 시스템.
제 1 항에 있어서,

상기 개인 정보는,

사용자 행위의 기록 및 사용자 행위를 측정한 결과로부터 수집된 사용자 행동 정보와, 사용자 고유의 신상 정보 및 사용자의 상황을 나타내는 사용자 상태 정보를 포함하며,

상기 사용자 행동 정보는,

사용자의 온라인 상의 활동 및 인터넷 활용 기록을 수집한 사용자 온라인 기록,

사용자의 실제 위치를 나타내는 사용자 위치 정보,

사용자의 통신 식별 정보인 사용자 연결 정보 및

사용자와 단말기 사이의 상호 작용 과정에서 수집되는 사용자 기기 활용 정보를 포함하고,

상기 사용자 상태 정보는,

사용자 신상 정보 및 성격, 신체, 감정 상태를 나타내는 사용자 속성 정보 및

사용자가 위치하고 있는 주변 환경의 특징을 나타내는 환경 속성 정보를 포함하는 것을 특징으로 하는 음성 인식 시스템.
제 3 항에 있어서,

상기 단말기는,

상기 사용자 상태 정보를 상기 사용자로부터 직접 입력 받거나, 상기 음성 신호 및 상기 사용자 행동 정보 중 적어도 하나로부터 유추하는 것을 특징으로 하는 음성 인식 시스템.
제 3 항에 있어서,

상기 프라이빗 서버는,

상기 사용자 상태 정보를 상기 사용자로부터 직접 입력 받거나, 상기 음성 신호 및 상기 사용자 행동 정보 중 적어도 하나로부터 상기 사용자 상태 정보를 유추하는 것을 특징으로 하는 음성 인식 시스템.
제 1 항에 있어서,

상기 음성 인식 서버는,

복수의 음성 인식 결과물들을 도출하여 상기 프라이빗 서버로 전송하되, 음성 인식 과정에서 사용된 음향 모델과 언어 모델의 종류 정보도 함께 전송하는 것을 특징으로 하는 음성 인식 시스템.
제 6 항에 있어서,

상기 프라이빗 서버는,

상기 음성 인식 서버로부터 전송된 복수의 음성 인식 결과물들 중 적어도 하나를 선택하되,

상기 공개된 개인 정보 및 비공개 개인 정보를 이용하여 선택하는 것을 특징으로 하는 음성 인식 시스템.
제 6 항에 있어서,

상기 프라이빗 서버는,

상기 음성 인식 서버로부터 전송된 복수의 음성 인식 결과물들 중 적어도 하나를 선택하되,

상기 복수의 음성 인식 결과물들의 각 확률값에 상기 공개된 개인 정보 및 비공개 개인 정보에 기초한 가중치를 부가하고, 그 결과로 가장 높은 확률값을 가지는 음성 인식 결과물을 선택하는 것을 특징으로 하는 음성 인식 시스템.
사용자로부터 음성 신호를 입력 받는 단계;

상기 사용자의 개인 정보를 수집하는 단계;

상기 음성 신호와 상기 개인 정보에 기초하여 상기 음성 신호로부터 음성 인식 결과물을 생성하는 단계;

상기 음성 인식 결과물로부터 최종 음성 인식 결과물을 선택하는 단계; 를 포함하고,

상기 음성 신호와 상기 개인 정보에 기초하여 상기 음성 신호로부터 음성 인식 결과물을 생성하는 단계는, 상기 사용자가 공개로 설정한 개인 정보를 참조하여 음향 모델과 언어 모델을 선택하는 단계; 를 추가적으로 포함하는 것을 특징으로 하는 음성 인식 방법.
제 9 항에 있어서,

상기 사용자의 개인 정보를 수집하는 단계는,

상기 사용자가 직접 입력한 개인 정보를 취득하는 단계; 와

음성 신호 및 사용자 행동 정보 중 적어도 하나로부터 사용자 상태 정보를 유추하는 단계; 를 더 포함하는 것을 특징으로 하는 음성 인식 방법.
제 9 항에 있어서,

상기 음성 신호와 상기 개인 정보에 기초하여 상기 음성 신호로부터 음성 인식 결과물을 생성하는 단계는,

복수의 음성 인식 결과물을 생성하고, 상기 복수의 음성 인식 결과물 각각에 대하여 음성 인식을 수행할 때 사용된 음향 모델 및 언어 모델의 종류 정보를 함께 생성하는 것을 특징으로 하는 음성 인식 방법.
제 11 항에 있어서,

상기 최종 음성 인식 결과물을 선택하는 단계는,

공개된 개인 정보 및 비공개 개인 정보를 이용하여 최종 음성 인식 결과물을 선택하는 것을 특징으로 하는 음성 인식 방법.
제 11 항에 있어서,

상기 최종 음성 인식 결과물을 선택하는 단계는,

상기 복수의 음성 인식 결과물들의 각 확률에 상기 공개된 개인 정보 및 비공개 개인 정보에 기초한 가중치를 부가하고, 그 결과로 가장 높은 확률값을 가지는 음성 인식 결과물을 선택하는 것을 특징으로 하는 음성 인식 시스템.