KR20150134993A

KR20150134993A - 디바이스 정보를 이용하는 음성인식 방법 및 장치

Info

Publication number: KR20150134993A
Application number: KR1020140062586A
Authority: KR
Inventors: 김태윤; 한창우; 이재원
Original assignee: 삼성전자주식회사
Priority date: 2014-05-23
Filing date: 2014-05-23
Publication date: 2015-12-02
Also published as: KR102225404B1; US10643620B2; US20170206903A1; WO2015178600A1

Abstract

적어도 하나 이상의 음향 모델을 저장하고, 외부의 디바이스로부터 상기 디바이스를 식별할 수 있는 디바이스 ID를 획득하고, 상기 디바이스로부터 음성 데이터를 획득하고, 상기 디바이스 ID에 기초하여 음향 모델을 선택하고, 상기 선택된 음향 모델, 문법적 모델인 언어 모델, 및 발음에 관한 사전을 이용하여 상기 음성 데이터에 대하여 음성인식을 수행하고, 상기 음성인식의 결과를 출력하는, 디바이스 정보를 이용하는 음성인식 방법이 개시된다.

Description

디바이스 정보를 이용하는 음성인식 방법 및 장치{Method and Apparatus of Speech Recognition Using Device Information}

본 발명의 실시예들은 음성인식 방법 및 장치에 관한 것으로, 디바이스 정보를 이용하여 해당 디바이스에 적합한 음향 모델을 적응 기법을 이용하여 생성하고, 생성된 음향 모델을 사용하여 음성인식을 행하는 음성인식 방법 및 장치에 관한 것이다.

음성인식은 사용자의 음성을 입력받아 자동으로 문자로 변환하여 인식하는 기술이다. 근래에 들어 스마트폰이나 TV 등에서 키보드 입력을 대체하기 위한 인터페이스 기술로써 음성인식이 사용되고 있다.

음성인식 시스템은 음성 신호를 입력받는 부분인 클라이언트(Client)와 음성 신호로부터 음성인식을 수행하는 부분인 ASR 엔진(Automatic Speech Recognition engine)으로 나눌 수 있는데, 이 두 개의 구성은 서로 떨어져서 디자인될 수 있다. 이 경우, 스마트폰이나 TV 등은 클라이언트, ASR 엔진은 서버 형태로 구성이 가능하다.

음성인식 시스템은 일반적으로 음향 모델(Acoustic Model, AM)과 언어 모델(Language Model, LM)로 구성된다. 음향 모델은 음성신호의 모델로 구성되며 많은 양의 음성 데이터를 수집하여 통계적인 방법을 통하여 모델을 생성하게 된다. 언어 모델은 사용자 발화에 대한 문법적 모델로서 이 또한 많은 양의 텍스트 데이터를 수집하여 통계적 학습을 통하여 얻어진다.

음향 모델과 언어 모델의 성능을 보장하기 위해서는 많은 양의 데이터 수집이 필요하며, 이렇게 불특정 다수의 발화로부터 모델을 구성하는 경우에 화자 독립(Speaker independent) 모델을 구성하였다고 말한다. 반대로 특정한 화자로부터 데이터를 수집하여 모델을 구성하는 경우에 화자 종속(Speaker dependent) 모델을 구성할 수 있고, 충분한 데이터를 수집할 수 있다면 화자 종속 모델은 화자 독립 모델에 비해 더 높은 성능을 가지게 된다.

특정 화자에 대한 성능을 보장할 수 있을 만큼의 충분한 데이터를 수집하는 것은 현실적으로 어려운 점이 많이 있기에 적절한 양의 데이터를 이용하여 기존에 생성된 화자 독립 음향 모델을 효율적으로 변경하는 방법이 고안되었다. 이러한 방법을 음향 모델의 화자 적응(Speaker adaptation)이라고 한다.

음향 모델의 화자 적응을 적용하기 위해서는 특정 화자의 데이터를 수집하는 과정이 필요하다. 종래의 기술은 이를 위하여 특정 화자의 등록 과정을 통한 데이터 수집 과정을 채용해 왔다.

일 예를 들면 최초 사용자는 음성인식 서비스를 이용하기 위하여 자신의 계정을 생성하고 사용자 등록 프로세스를 진행하는 방식이다. 사용자 등록 프로세스는 사용자로 하여금 알려진 문장을 읽도록 하는 방식이 있을 수 있으며, 이 경우 정확한 데이터를 얻을 수 있으나 사용자 편의와는 무관한 요구를 사용자에게 함으로써 불편함을 초래할 수 있다.

다른 방법으로는 최초 사용자 계정이 생성된 후에 바로 음성인식을 할 수 있게 하고, 이때 얻은 데이터를 이용하여 화자 적응을 수행하는 방법이다. 이 경우 최초 사용자의 두 번째 발화부터 화자 적응이 시작되거나, 이후 두 번째 서비스 접속부터 화자 적응 모델이 적용된다.

본 발명의 실시예들은, 서버-클라이언트 음성인식 환경에서 사용할 수 있는 새로운 음향 모델 적응 기법을 제시하기 위한 것이다.

본 발명의 일 실시예의 일 측면에 따르면, 음성인식 서버는, 적어도 하나 이상의 음향 모델을 저장하는 음향 모델 데이터베이스, 문법적 모델인 언어 모델과 발음에 관한 사전을 저장하는 언어 모델 및 사전, 외부의 디바이스로부터 상기 디바이스를 식별할 수 있는 디바이스 ID 및 음성 데이터를 수신하는 수신부, 및 상기 디바이스 ID에 기초하여 음향 모델을 선택하고, 상기 선택된 음향 모델, 상기 언어 모델 및 사전을 이용하여 상기 음성 데이터에 대하여 음성인식을 수행하고, 상기 음성인식의 결과를 출력하는 음성인식부를 포함할 수 있다.

상기 음성인식 서버의 상기 음향 모델 데이터베이스는, 일반 음향 모델(general acoustic model)과 적어도 하나 이상의 디바이스 적응 음향 모델(device adapted acoustic model)을 저장하고, 상기 음성인식부는, 상기 디바이스 ID에 대응되는 디바이스 적응 음향 모델이 상기 음향 모델 데이터베이스에 저장되어 있는 경우, 상기 디바이스 적응 음향 모델을 이용하여 상기 음성 데이터에 대하여 음성인식을 수행하고, 상기 디바이스 ID에 대응되는 상기 디바이스 적응 음향 모델이 상기 음향 모델 데이터베이스에 저장되어 있지 않은 경우, 상기 일반 음향 모델을 이용하여 상기 음성 데이터에 대하여 음성인식을 수행할 수 있다.

상기 음성인식 서버는, 상기 음성인식의 결과 및 해당 음성 데이터를 포함하는 사용 로그를 저장하는 사용 로그 데이터베이스, 상기 사용 로그 데이터베이스를 감시하여 적응이 필요한 디바이스 ID를 선택하는 로그 모니터, 상기 선택된 디바이스 ID에 대응되는 상기 사용 로그의 음성 데이터를 이용하여 상기 선택된 디바이스 ID에 대응되는 디바이스 적응 음향 모델을 생성하는 음향 모델 적응부를 더 포함할 수 있다.

본 발명의 일 실시예의 다른 측면에 따르면, 음성인식 방법은, 적어도 하나 이상의 음향 모델을 저장하는 단계; 외부의 디바이스로부터 상기 디바이스를 식별할 수 있는 디바이스 ID를 획득하는 단계; 상기 디바이스로부터 음성 데이터를 획득하는 단계; 상기 디바이스 ID에 기초하여 음향 모델을 선택하는 단계; 상기 선택된 음향 모델, 문법적 모델인 언어 모델, 및 발음에 관한 사전을 이용하여 상기 음성 데이터에 대하여 음성인식을 수행하는 단계; 및, 상기 음성인식의 결과를 출력하는 단계를 포함할 수 있다.

상기 음성인식 방법은, 상기 음향 모델을 저장하는 단계는, 일반 음향 모델과 적어도 하나 이상의 디바이스 적응 음향 모델을 저장하는 단계를 포함하고, 상기 음향 모델을 선택하는 단계는, 상기 디바이스 ID에 대응되는 디바이스 적응 음향 모델이 존재하는지 여부를 판단하는 단계; 및 상기 디바이스 ID에 대응되는 상기 디바이스 적응 음향 모델이 존재하는 경우, 상기 디바이스 적응 음향 모델을 선택하고, 상기 디바이스 ID에 대응되는 상기 디바이스 적응 음향 모델이 존재하지 않는 경우, 상기 일반 음향 모델을 선택하는 단계를 포함할 수 있다.

상기 음성인식 방법은, 상기 음성인식의 결과 및 해당 음성 데이터를 포함하는 사용 로그를 사용 로그 데이터베이스에 저장하는 단계; 상기 사용 로그 데이터베이스를 감시하여 적응이 필요한 디바이스 ID를 선택하는 단계; 및 상기 선택된 디바이스 ID에 대응되는 상기 사용 로그의 음성 데이터를 이용하여 상기 선택된 디바이스 ID에 대응되는 디바이스 적응 음향 모델을 생성하는 단계를 더 포함할 수 있다.

본 발명의 일 실시예의 다른 측면에 따르면, 디바이스는, 디바이스를 식별하기 위한 디바이스 ID를 저장하는 메모리, 음성인식을 위한 음성을 입력받는 입력부, 상기 음성을 처리하여 음성 데이터를 생성하는 프로세서, 상기 디바이스 ID 및 상기 음성 데이터를 음성인식 서버에 송신하는 송신부, 및 상기 음성인식 서버로부터 상기 음성 데이터에 대한 음성인식의 결과를 수신하는 수신부를 포함할 수 있다.

상기 디바이스의 상기 프로세서는, 상기 음성인식을 위해 필요한 데이터를 음성 데이터로서 추출할 수 있다.

상기 디바이스는, 복수의 디바이스 ID를 가질 수 있다.

상기 디바이스는, 각각의 상기 디바이스 ID 별로 상기 디바이스의 설정을 다르게 설정할 수 있다.

상기 디바이스의 상기 송신부는, 상기 디바이스의 위치 정보를 송신하는 것을 특징으로 하는 디바이스.

본 발명의 일 실시예의 다른 측면에 따르면, 음성인식 방법은, 디바이스를 식별하기 위한 디바이스 ID를 저장하는 단계; 음성인식을 위한 음성을 입력받는 단계; 상기 음성을 처리하여 음성 데이터를 생성하는 단계; 상기 디바이스 ID 및 상기 음성 데이터를 음성인식 서버에 송신하는 단계; 및 상기 음성인식 서버로부터 상기 음성 데이터에 대한 음성인식의 결과를 수신하는 단계를 포함할 수 있다.

상기 음성인식 방법은, 상기 음성 데이터를 생성하는 단계는, 상기 음성인식을 위해 필요한 데이터를 음성 데이터로서 추출하는 단계를 포함할 수 있다.

상기 음성인식 방법은, 상기 디바이스는 복수의 디바이스 ID를 가질 수 있다.

상기 음성인식 방법은, 각각의 상기 디바이스 ID 별로 상기 디바이스의 설정을 다르게 설정하는 단계를 더 포함할 수 있다.

상기 음성인식 방법은, 상기 송신하는 단계는, 상기 디바이스의 위치 정보를 더 송신할 수 있다.

본 발명의 일 실시예의 다른 측면에 따르면, 적응 서버는, 디바이스 ID, 상기 디바이스 ID에 의해 식별되는 디바이스의 음성 데이터, 및 상기 음성 데이터에 대한 음성인식의 결과를 포함하는 사용 로그를 수신하는 수신부, 상기 사용 로그를 저장하는 사용 로그 데이터베이스, 상기 사용 로그 데이터베이스를 감시하여 적응이 필요한 디바이스 ID를 선택하는 로그 모니터, 상기 선택된 디바이스 ID에 대응되는 상기 사용 로그의 음성 데이터를 이용하여 상기 선택된 디바이스 ID에 대응되는 디바이스 적응 음향 모델을 생성하는 음향 모델 적응부를 포함할 수 있다.

상기 적응 서버는, 상기 선택된 디바이스 ID에 대응되는 상기 사용 로그로부터 적응에 불필요한 음성 데이터를 제거하는 로그 데이터 필터를 더 포함하고, 상기 음향 모델 적응부는, 상기 불필요한 음성 데이터가 제거된 상기 사용 로그의 음성 데이터를 이용하여 상기 선택된 디바이스 ID에 대응되는 디바이스 적응 음향 모델을 생성할 수 있다.

상기 적응 서버는, 상기 로그 모니터는 적응 모델 생성 기록, 사용 기록, 및 신규 데이터 수집 기록 중 적어도 하나 이상을 상기 사용 로그 데이터베이스의 분석에 사용할 수 있다.

상기 적응 서버는, 상기 로그 데이터 필터는 상기 불필요한 음성 데이터를 제거하기 위하여 음성 데이터의 적정성, 인식 결과의 적정성, 및 인식 결과의 수정 기록 중 적어도 하나 이상을 분석에 사용할 수 있다.

본 발명의 일 실시예의 다른 측면에 따르면, 음향 모델 적응 방법은, 디바이스 ID, 상기 디바이스 ID에 의해 식별되는 디바이스의 음성 데이터, 및 상기 음성 데이터에 대한 음성인식의 결과를 포함하는 사용 로그를 수신하는 단계; 상기 사용 로그를 사용 로그 데이터베이스에 저장하는 단계; 상기 사용 로그 데이터베이스를 감시하여 적응이 필요한 디바이스 ID를 선택하는 단계; 및 상기 선택된 디바이스 ID에 대응되는 상기 사용 로그의 음성 데이터를 이용하여 상기 선택된 디바이스 ID에 대응되는 디바이스 적응 음향 모델을 생성하는 단계를 포함할 수 있다.

상기 음향 모델 적응 방법은, 상기 선택된 디바이스 ID에 대응되는 상기 사용 로그로부터 적응에 불필요한 음성 데이터를 제거하는 단계를 더 포함하고, 상기 디바이스 적응 음향 모델을 생성하는 단계는, 상기 불필요한 음성 데이터가 제거된 상기 사용 로그의 음성 데이터를 이용하여 상기 선택된 디바이스 ID에 대응되는 디바이스 적응 음향 모델을 생성하는 단계를 포함할 수 있다.

상기 음향 모델 적응 방법은, 상기 디바이스 ID를 선택하는 단계는, 적응 모델 생성 기록, 사용 기록, 및 신규 데이터 수집 기록 중 적어도 하나 이상을 사용하여 상기 사용 로그 데이터베이스를 분석하는 단계를 포함할 수 있다.

상기 음향 모델 적응 방법은, 상기 적응에 불필요한 음성 데이터를 제거하는 단계는, 상기 불필요한 음성 데이터를 제거하기 위하여 음성 데이터의 적정성, 인식 결과의 적정성, 및 인식 결과의 수정 기록 중 적어도 하나 이상을 사용하여 분석하는 단계를 포함할 수 있다.

본 발명의 일 실시예의 다른 측면에 따르면, 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체는 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체일 수 있다.

본 발명의 일 실시예의 다른 측면에 따르면, 디바이스, 음성인식 서버, 및 적응 서버를 포함하는 음성인식 시스템에 있어서, 상기 디바이스는, 디바이스를 식별하기 위한 디바이스 ID 및 음성 데이터를 상기 음성인식 서버에 송신하고, 상기 음성인식 서버는, 상기 디바이스로부터 상기 디바이스를 식별할 수 있는 디바이스 ID 및 음성 데이터를 수신하여, 상기 디바이스 ID에 기초하여 음향 모델을 선택하고, 상기 선택된 음향 모델, 문법적 모델인 언어 모델, 및 발음에 관한 사전을 이용하여 상기 음성 데이터에 대하여 음성인식을 수행하고, 상기 음성인식의 결과를 출력하고, 상기 적응 서버는, 상기 음성인식 서버로부터 디바이스 ID, 상기 디바이스 ID에 의해 식별되는 디바이스의 음성 데이터, 및 상기 음성 데이터에 대한 음성인식의 결과를 포함하는 사용 로그를 수신하여, 상기 디바이스 ID에 대응되는 상기 사용 로그의 음성 데이터를 이용하여 상기 디바이스 ID에 대응되는 디바이스 적응 음향 모델을 생성할 수 있다.

도 1은 본 발명의 일 실시예에 따른 디바이스 적응을 이용하는 음성인식 시스템의 개략적인 블록도이다.
도 2는 본 발명의 일 실시예에 따른 디바이스(100)를 나타낸 도면이다.
도 3a는 본 발명의 일 실시예에 따른 음성인식 서버(150)를 나타낸 도면이다.
도 3b는 본 발명의 다른 실시예에 따른 음성인식 서버(150)를 나타낸 도면이다.
도 3c는 본 발명의 또다른 실시예에 따른 음성인식 서버(150)를 나타낸 도면이다.
도 4a는 본 발명의 일 실시예에 따른 적응 서버(180)를 나타낸 도면이다.
도 4b는 본 발명의 다른 실시예에 따른 적응 서버(180)를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 음성 인식 및 음향 모델 적응 시스템을 설명하기 위한 블록도이다.
도 6a는 본 발명의 일 실시예에 따른 음성인식 방법의 흐름도이다.
도 6b는 본 발명의 다른 실시예에 따른 음성인식 방법의 흐름도이다.
도 7a는 본 발명의 일 실시예에 따른 음성인식 방법의 흐름도이다.
도 7b는 본 발명의 다른 실시예에 따른 음성인식 방법의 흐름도이다.
도 8a는 본 발명의 일 실시예에 따른 음향 모델 적응 방법의 흐름도이다.
도 8b는 본 발명의 다른 실시예에 따른 음향 모델 적응 방법의 흐름도이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.

아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략한다.

도 1은 본 발명의 일 실시예에 따른 디바이스 적응을 이용하는 음성인식 시스템의 개략적인 블록도이다.

도 1을 참조하면, 디바이스 적응을 이용하는 음성인식 시스템은 클라이언트 장치인 디바이스(100), 음성인식 서버 (ASR:Automatic Speech Recognition Server, 150), 및 적응 서버 (Adaptation Server, 180)를 포함한다. 도 1에서는 음성인식 서버(150)와 적응 서버(180)가 별개의 장치인 것으로 도시하고 있으나, 이는 하나의 실시예로서 설명하는 것이며, 음성인식 서버(150) 내에 적응 서버(180)가 포함되는 것과 같이 하나의 장치로 구성될 수 있다. 또한, 도면들과 후술되어 있는 실시예에서, 음성인식 서버(150)와 적응 서버(180)에 포함되어 있는 개개의 구성 요소는 물리적 형태 또는 논리적 형태로 분산되어 배치될 수도 있고, 통합될 수도 있다.

디바이스(100)는, 디바이스(100)를 식별하기 위한 디바이스 ID 및 음성 데이터를 상기 음성인식 서버(150)에 송신한다.

음성인식 서버(150)는, 상기 디바이스(100)로부터 상기 디바이스(100)를 식별할 수 있는 디바이스 ID 및 음성 데이터를 수신하여, 상기 디바이스 ID에 기초하여 음향 모델을 선택한다. 음성인식 서버(150)는, 상기 선택된 음향 모델, 문법적 모델인 언어 모델, 및 발음에 관한 사전을 이용하여 상기 음성 데이터에 대하여 음성인식을 수행하고, 상기 음성인식의 결과를 출력한다.

적응 서버(180)는, 상기 음성인식 서버(150)로부터 디바이스 ID, 상기 디바이스 ID에 의해 식별되는 디바이스(100)의 음성 데이터, 및 상기 음성 데이터에 대한 음성인식의 결과를 포함하는 사용 로그를 수신한다. 적응 서버(180는, 상기 디바이스 ID에 대응되는 상기 사용 로그의 음성 데이터를 이용하여 상기 디바이스 ID에 대응되는 디바이스 적응 음향 모델을 생성한다.

디바이스(100), 음성인식 서버(150), 적응 서버(180)를 포함하는 각 구성 요소는 통신망을 통해 혹은 로컬(Local) 접속의 형태로 연결된다. 예컨대, 인터넷, LAN, WAN, 전화 연결망, LTE 등의 무선 데이터 통신망, 적외선 통신 등의 유무선 통신을 사용할 수 있다. 따라서, 본 발명의 실시예들은 무선 단말망, 인터넷 망 혹은 기타 통신의 형태로 연결될 수 있는 다양한 기기에 적용될 수 있다. 예컨대, 무선 단말이나 인터넷에 접속이 가능한 TV가 있다. 구체적으로는 전화, PDA, 스마트폰, 태블릿, 전자책, 손목시계(스마트 워치), 안경(스마트 글래스), 차량용 내비게이션, 차량용 오디오, 차량용 비디오, 차량용 통합 미디어 시스템, 텔레매틱스, 노트북 등의 휴대용 단말이나 텔레비젼(TV), 개인용 컴퓨터(Personal Computer), 지능형 로봇 등에 적용될 수 있다.

도 2는 도 1의 디바이스(100)를 나타낸 도면이다.

디바이스(100)는 메모리(102), 입력부(104), 프로세서(106), 송신부(108), 수신부(110)를 포함한다. 디바이스(100)는 디스플레이, 스피커 등의 출력부와 터치스크린, 터치패널, 키패드, 터치펜, 마우스, 키보드 등의 입력부 등을 더 포함할 수 있다.

메모리(102)는 디바이스 ID를 저장한다. 메모리(102)는 프로그램, 애플리케이션, 데이터 등을 더 저장할 수 있다.

입력부(104)는 사용자로부터 음성인식을 위한 음성을 입력받는다. 입력부(104)는 예컨대, 마이크를 통한 사용자의 음성을 사용할 수도 있고, 다른 디바이스, 서버 등으로부터 네트워크를 통하여 전송된 음성이나, 저장 매체 등을 통하여 전달받은 음성 파일, 전화 통화를 통하여 전송된 상대방의 음성 등을 입력으로 사용할 수도 있다.

프로세서(106)는 음성을 처리하여 음성 데이터를 생성한다. 프로세서(106)는 음성에 아날로그/디지털 변환, 필터링, 압축, 암호화 등의 신호 처리를 행하여 음성 데이터를 생성한다. 프로세서(106)는 프로그램, 애플리케이션 등의 실행과 디바이스(100)의 제어를 포함하는 처리를 더 행할 수 있다.

송신부(108)는 디바이스 ID 및 음성을 처리한 음성 데이터를 음성인식 서버(150)에 송신한다. 송신부(108)는 네트워크로의 데이터 송신, 유무선 통화의 송신 등을 더 행할 수 있다.

수신부(110)는 음성인식 서버(150)로부터 음성 데이터에 대한 음성인식의 결과를 수신한다. 수신부(110)는 네트워크로부터의 데이터 수신, 유무선 통화의 수신 등을 더 행할 수 있다.

디바이스(100)는 음성인식에 있어서 사용자의 음성 데이터를 입력받아서 처리하는 역할, 및, 음성인식 서버(150)로부터 음성인식 결과 혹은 음성인식 결과에 기초하여 추가로 처리 가공된 결과를 받아 사용자에게 전달하는 역할을 수행한다. 여기서 추가로 처리 가공된 결과로는, 예컨대, 음성인식된 단어에 기초한 인터넷 검색 결과 제공, 음성인식된 단어에 기초한 명령 수행, 예컨대, 음성인식된 내용으로 메시지 전송, 음성인식된 약속의 입력 등 일정 관리, 음성인식된 타이틀의 오디오/비디오 재생 등이 될 수 있다. 디바이스(100)를 통해 입력된 음성 데이터는 특별한 처리 없이 음성인식 서버(150)로 보내지거나, 혹은 음성인식을 위해 필요한 데이터, 즉, 음성인식에 유용한 신호만을 추출하여 음성인식 서버(150)로 보내어 질 수 있다. 음성인식에 유용한 신호로는 예를 들어, 잡음이 제거된 신호 등이 될 수 있다. 또한, 음성인식에 유용한 신호로는 예를 들어, 아날로그/디지털 변환 처리된 신호, 필터 처리된 신호, 보안을 위하여 암호화된 신호 등이 될 수 있다.

디바이스(100)는 자신의 고유 디바이스 ID 를 가지고 있다. 디바이스가 음성인식 서버(150)에 접속하는 경우에 음성인식 서버(150)가 각각의 디바이스(100)를 식별할 수 있도록 디바이스 ID는 음성인식 서버(150)로 제공된다. 디바이스 ID는 1 개 이상을 가질 수 있으며, 이 경우에 디바이스(100)의 다양한 세팅을 각각의 고유 디바이스 ID로 할당할 수 있다. 예를 들면, 스마트폰에 설치되어 있는 애플리케이션 중 어린이용 애플리케이션에 대해서는 별도의 디바이스 ID를 할당할 수 있다. 일반적인 애플리케이션에 대해서는 스마트폰의 주사용자가 음성인식을 사용할 것이므로 기본 디바이스 ID를 할당하지만, 어린이용 애플리케이션의 경우, 주사용자가 사용을 허락한 보조 사용자인 어린이가 음성인식을 사용할 가능성이 높으므로, 별도의 디바이스 ID를 할당하는 것에 의해 음성인식 결과의 정확도를 높일 수 있다.

디바이스 ID가 아닌 사용자 ID를 사용할 경우 등의, 화자(speaker) 적응 기법은 다음과 같은 몇 가지 문제점을 가지고 있다. 우선 화자의 등록 과정이 사용자에게 많은 불편함을 초래하는 점이다. 정확한 ID를 얻기 위하여 특정 계정을 생성하는 절차는 까다롭고 많은 시간이 소모된다. 다른 방법으로는 음성 신호를 처리하여 특정 화자의 유무를 판단하는 화자 인식(Speaker recognition) 방법이 있지만 화자 인식 오류에 의하여 화자 적응의 성능 저하가 일어날 수 있다. 또한, 화자 등록을 통해 계정을 생성하는 경우에 사용자 ID 정보를 서버에서 직접 관리해야 하며, 이 경우 개인 정보 보호가 문제가 될 가능성이 있다.

디바이스 ID를 사용함에 의해, 사용자 ID 획득을 위한 별도의 등록 과정을 사용하지 않음으로써, 사용자 ID의 등록과정에서 오는 불편함을 해소하고, 등록된 사용자 ID를 저장 및 관리하는 대신에 클라이언트 디바이스의 디바이스 ID를 저장하고, 클라이언트 디바이스에 적합한 음향 모델을 적응을 통해 생성할 수 있다.

도 3a는 도 1의 음성인식 서버(150)의 일 실시예를 나타낸 도면이고, 도 3b는 음성인식 서버(150)의 다른 실시예를 나타낸 도면이고, 도 3c는 음성인식 서버(150)의 또다른 실시예를 나타낸 도면이다.

도 3a를 참조하면, 음성인식 서버(150)는 음향 모델 데이터베이스(152), 수신부(158), 음성인식부(160), 언어 모델 및 사전(170)을 포함한다. 음성인식 서버(150)는 디스플레이, 스피커 등의 출력부, 마우스, 키보드 등의 입력부, 네트워크 통신 등이 가능한 송신부 등을 더 포함할 수 있다.

음향 모델 데이터베이스(152)는 적어도 하나 이상의 음향 모델을 저장할 수 있다.

수신부(158)는 외부의 디바이스(100)로부터 상기 디바이스(100)를 식별할 수 있는 디바이스 ID 및 음성 데이터를 수신한다. 수신부(158)는 네트워크로부터의 데이터 수신, 유무선 통화의 수신 등을 더 행할 수 있다.

음성인식 서버(ASR Server, 150)는 실제 음성인식을 수행하는 음성인식부(160), 예를 들어 ASR 엔진(ASR engine)과 여기에 사용되는 모델로 구성된다. 모델은 음향모델(Acoustic Model, AM), 언어모델(Language Model, LM), 발음사전(Dictionary) 등을 포함한다.

음성인식부(160)는 디바이스(100)로부터 수신된 디바이스 ID에 기초하여 음향 모델 데이터베이스(152)로부터 음향 모델을 선택하고, 상기 선택된 음향 모델과 언어 모델 및 사전(170)을 이용하여 디바이스(100)로부터 수신된 음성 데이터를 처리하여 음성인식 결과를 출력한다.

언어 모델 및 사전(170)은 음성인식부(160)에서 음성 인식 처리 시에 이용하는 사용자 발화에 대한 문법적 모델인 언어 모델과 발음에 관한 사전을 저장할 수 있다. 사용자의 국적이나 거주 지역, 연령대, 언어 습관 등에 따라 사용 언어, 사용 방언, 문법 구조, 단어 등이 달라질 수 있다. 따라서, 다양한 언어 사용 형태의 변화에 대응할 수 있도록, 언어 모델 및 사전(170)은 하나 이상의 언어 모델 및 하나 이상의 사전을 포함할 수 있다.

도 3b는 음성인식 서버(150)의 다른 실시예에 의한 블록도를 도시한다. 도 3b의 음성인식 서버(150)는 도 3a의 음성인식 서버(150)의 기능 및 역할을 포함한다.

도 3b를 참조하면, 음향 모델 데이터베이스(152)는 일반 음향 모델(general acoustic model, 154)과 적어도 하나 이상의 디바이스 적응 음향 모델(device adapted acoustic model, 156)을 포함할 수 있다.

적응된 음향 모델이 제공되는 음성인식부(160)는 두 가지의 음향 모델이 로딩될 수 있다. 일반 음향 모델(154)은 디바이스 적응 음향 모델(156)이 생성되지 않은 디바이스(100)에 적용되는 음향 모델이다. 디바이스 적응 음향 모델(156)은 특정 디바이스 ID 와 연결된 고유의 음향 모델로서, 특정 디바이스에 적응된 음향 모델이다. 디바이스 적응 음향 모델(156)을 모아 놓은 음향 모델 데이터베이스(152)가 존재한다. 음향 모델 데이터베이스(152)는 일반 음향 모델(154)을 포함할 수 있다. 또한, 도 3b와 같이 음향 모델 데이터베이스(152)에 복수 개의 디바이스 적응 음향 모델(156)이 포함될 수 있다.

도 3c는 음성인식 서버(150)의 또다른 실시예에 의한 블록도를 도시한다. 도 3c의 음성인식 서버(150)는 도 3a의 음성인식 서버(150)의 기능 및 역할을 포함한다.

도 3c를 참조하면, 음성인식 서버(150)는 사용 로그 데이터베이스(184), 로그 모니터(186), 음향 모델 적용부(190)를 포함할 수 있다. 또한, 도면에는 도시하지 않았으나, 이후 적응 서버(180)와 관련하여 설명하는 로그 데이터 필터(188)도 음성인식 서버(150)에 포함될 수 있다.

음성인식부(160)는 음성인식의 결과를 출력함과 함께 음성인식 작업에 관련된 정보를 담은 사용 로그(Usage Data)를 생성한다. 생성된 음성인식의 결과를 포함하는 사용 로그는 사용 로그 데이터베이스(184)에 저장된다. 사용 로그에는 음향 모델 적응에 필요한 다양한 정보, 예를 들어 인식 작업의 날짜 및 시간, 인식 결과, 결과에 대한 스코어, 디바이스 ID, 사용자의 수정 여부 및 수정된 결과 등이 저장된다. 디바이스 ID를 사용하므로, 사용자 ID를 서버에서 보관하지 않아 개인 정보 보호의 문제가 발생하지 않는다.

로그 모니터(186)는 사용 로그 데이터베이스(184)의 사용 로그를 지속적으로 감시하여 적응이 필요한 디바이스 ID를 선택한다.

음향 모델 적응부(190)는 로그 모니터(186)에 의해 선택된 디바이스 ID에 대응되는 사용 로그의 음성 데이터를 이용하여 선택된 디바이스 ID에 해당하는 디바이스 적응 음향 모델을 생성하며, 생성된 디바이스 적응 음향 모델은 음향 모델 데이터베이스(152)에 저장된다.

로그 모니터(186)와 음향 모델 적응부(190)에 대해서는 이후 적응 서버(180)와 관련하여 보다 상세히 설명한다.

도 4a는 도 1의 적응 서버(180)의 일 실시예를 나타낸 도면이고, 도 4b는 적응 서버(180)의 다른 실시예를 나타낸 도면이다.

적응 서버(180)는 사용 로그로부터 특정 디바이스 ID 에 해당하는 음향 모델의 적응을 수행한다. 도 4a를 참조하면, 적응 서버(180)는 수신부(182), 사용 로그 데이터베이스(184), 사용 로그를 지속적으로 감시하는 로그 모니터(186), 및 디바이스 적응 음향 모델의 적응을 수행하는 음향 모델 적응부(190)를 포함한다. 적응 서버(150)는 디스플레이, 스피커 등의 출력부, 마우스, 키보드 등의 입력부, 네트워크 통신 등이 가능한 송신부 등을 더 포함할 수 있다.

수신부(182)는 디바이스 ID, 상기 디바이스 ID에 의해 식별되는 디바이스의 음성 데이터, 및 상기 음성 데이터에 대한 음성인식의 결과를 포함하는 사용 로그를 수신한다. 수신부(182)는 네트워크로부터의 데이터 수신, 유무선 통화의 수신 등을 더 행할 수 있다.

수신된 음성인식의 결과를 포함하는 사용 로그는 사용 로그 데이터베이스(184)에 저장된다. 사용 로그에는 음향 모델 적응에 필요한 다양한 정보, 예를 들어 인식 작업의 날짜 및 시간, 인식 결과, 결과에 대한 스코어, 디바이스 ID, 사용자의 수정 여부 및 수정된 결과 등이 저장된다.

음향 모델 적응부(190)는 로그 모니터(186)에 의해 선택된 디바이스 ID에 대응되는 사용 로그의 음성 데이터를 이용하여 선택된 디바이스 ID에 해당하는 디바이스 적응 음향 모델을 생성하며, 생성된 디바이스 적응 음향 모델은 음향 모델 데이터베이스(152)에 저장된다. 본 실시예에서는 음향 모델 데이터베이스(152)가 음성인식 서버(150)에 설치되어 있으나, 음향 모델 데이터베이스(152)는 적응 서버(180)에 설치될 수도 있고, 별도의 장치에 설치될 수도 있다.

도 4b는 적응 서버(180)의 다른 실시예에 의한 블록도를 도시한다. 도 4b의 적응 서버(180)는 도 4a의 적응 서버(180)의 기능 및 역할을 포함한다.

도 4b를 참조하면, 적응 서버(180)는 로그 모니터(186)를 통해서 선택된 사용 로그에서 불필요한 데이터를 걸러주는 로그 데이터 필터(Log Data Filter, 188)를 더 포함할 수 있다.

로그 데이터 필터(188)는 로그 모니터(186)에 의해 선택된 디바이스 ID에 대응되는 사용 로그로부터 적응에 불필요한 음성 데이터를 제거한다. 음향 모델 적응부(190)는, 상기 불필요한 음성 데이터가 제거된 사용 로그의 음성 데이터를 이용하여 선택된 디바이스 ID에 대응되는 디바이스 적응 음향 모델을 생성한다.

도 5는 본 발명의 실시예에 따른 음성 인식 및 음향 모델 적응 시스템을 설명하기 위한 블록도이다.

도 5의 음성 인식 및 음향 모델 적응 시스템을 참조하여, 본 발명의 실시예에 따른 음향 모델 적응 방법을 설명한다. 음향 모델 적응 방법은 음성인식 및 적응 모델 적용 과정과 디바이스 적응 모델 생성 과정의 두 개의 과정을 포함한다.

도 5를 참조하여 음성인식 및 적응 모델 적용 과정을 설명한다.

음성인식 서비스를 이용하기 위해 디바이스(100)가 음성인식 서버(150)에 접속한다. 이 때, 디바이스(100)의 고유 디바이스 ID가 음성인식 서버(150)로 전달되고, 음성인식 서버(150)는 디바이스 ID를 얻는다. 이 과정은 디바이스 ID가 저장된 데이터베이스의 검색 및 보안을 위하여 디바이스 ID가 암호화된 경우 디바이스 ID의 복호화 과정을 포함한다.

디바이스 ID는 사용자의 개입을 필요로 하지 않고 전달될 수 있으므로, 사용자 ID를 명시적으로 등록하는 과정이 제거되어 편의성이 향상된다.

음성인식 과정은 크게 디바이스 ID 확인, 음향 모델 로딩, 음성인식 수행 및 인식 결과 저장 순으로 일어난다.

얻어진 디바이스 ID를 이용하여 해당 디바이스(100)의 디바이스 적응 음향 모델(156)이 존재하는지 여부를 확인한다.

음성인식 서버(150)는 디바이스 적응 음향 모델(156)이 존재하는 경우에는 디바이스 적응 음향 모델(156)을 로딩한다.

음성인식 서버(150)는 디바이스 적응 음향 모델(156)이 없는 경우에는 일반 음향 모델(154)을 로딩한다. 디바이스(100)의 최초 접속에서는 디바이스 적응 음향 모델(156)이 존재하지 않으므로 일반 음향 모델(154)이 음성인식을 위하여 로딩이 된다.

음향 모델을 로딩할 때에 필요한 기타 모델(170), 예컨대, 언어모델, 발음사전 등도 같이 로딩하여 음성인식을 준비한다.

모델 로딩 후에 음성인식부(160)는 인식 준비를 알리고, 디바이스(100)는 사용자의 입력 음성 데이터를 전송한다.

음성인식 서버(150)는 입력 음성 데이터를 받아서 음성인식을 수행하고 음성인식 결과를 디바이스(100)를 통해서 사용자에게 알려 준다. 이 때, 인식 작업에 관련된 정보를 모은 사용 로그는 사용 로그 데이터베이스(184)로 전송되어 디바이스 ID와 함께 저장된다.

도 5를 참조하여 디바이스 적응 모델 생성 과정을 설명한다.

디바이스 적응 음향 모델 생성은 적응 서버(180)를 통하여 사용 로그 모니터링, 적응 데이터 선정, 모델 생성 및 업데이트 순으로 이루어진다.

로그 모니터(186)는 음성인식 사용 로그를 실시간으로 모니터링 및 분석하여 디바이스 적응 음향 모델 생성이 필요한 디바이스 ID의 목록을 지속적으로 생성한다. 이를 위하여 로그 모니터(186)는 각 디바이스(100)에 대해서 일정 기간 동안의 사용 기록 정보 (Usage history), 적응 모델 생성 기록 (Update record) 및 이전 적응 모델 생성 이후에 얻어진 신규 데이터 (Fresh log data) 수집 기록 등을 모니터링할 수 있다. 로그 모니터(186)에서 기록들은 아래와 같이 활용될 수 있다.

- 신규 데이터 수집 기록: 신규 적응 모델 생성에 필요한 데이터가 충분히 수집되었는지 검사한다.

- 적응 모델 생성 기록: 기존에 생성되었던 적응 모델이 너무 오래되지 않았는지 검사한다.

- 사용 기록 정보: 적응 모델 생성 이후에 스코어의 향상이 있는지, 사용 빈도에 변화가 있는지 여부를 검사한다.

로그 모니터(186)에 의해 모델 생성이 필요한 것으로 판단된 디바이스 ID는 사용 로그 데이터로부터 신규 적응에 사용될 디바이스 음성 데이터를 선정하는 필터링 과정을 거친다. 데이터 필터링 과정에서는 아래와 같은 정보들을 활용하여 디바이스 적응 과정에 불필요하다고 판단되는 데이터는 버리는 과정을 거친다.

- 음성 데이터의 적정성: 음성 데이터가 정상적인 음성의 특성을 갖고 있는지 여부를 검사한다. 잡음 신호이거나 데이터 집합 내의 다수의 음성 데이터와 다른 특성을 가지는 음성 데이터를 이후의 음향 모델 적응 과정에서 제외한다. 이 과정을 통하여 디바이스의 주 사용자가 바뀌는 경우 혹은 주요 사용 환경이 바뀌는 경우에 새로운 사용자나 새로운 사용 환경에 적합한 데이터를 사용하여 음향 모델이 자동적으로 적응될 수 있도록 한다. 구체적으로, 사용자 혹은 사용 환경이 바뀌는 경우, 초기에는 새로운 사용자나 새로운 사용 환경에 적합한 데이터는 소수의 데이터일 것이므로 음향 모델 적응 과정에서 제외되고, 다수의 데이터, 즉, 기존의 사용자 혹은 기존 사용 환경에 적합한 데이터가 사용된다. 이후, 디바이스가 새로운 사용자 혹은 새로운 사용 환경에서 사용되는 횟수가 누적됨에 따라, 점차로 새로운 유형의 데이터가 많아지게 되고, 새로운 사용자가 주요 사용자로, 혹은 새로운 사용 환경이 주요 사용 환경으로 될 수 있다. 그러면, 새로운 사용자 혹은 새로운 사용 환경에 적합한 데이터를 사용하여 디바이스 적응 음향 모델이 생성되고, 디바이스 적응 음향 모델은 자동적, 연속적으로 변경될 수 있다. 사용자 ID를 명시적으로 등록하는 대신에 디바이스 ID 및 로그 데이터 필터링 과정을 통하여 디바이스의 사용자의 변경 혹은 사용 환경의 변경이 자동으로 반영될 수 있다.

- 인식 결과의 적정성: 음성 데이터의 인식 결과가 적응 과정에 사용될 수 있을 만큼 신뢰할 수 있는지 여부를 검사한다.

- 인식 결과의 수정: 기존의 음성인식 결과와 비교하여 사용자의 수정된 결과 입력 등 더욱 신뢰할 만한 결과가 존재하는 경우 인식 결과를 수정한다. 또는 신뢰할 만한 인식 결과를 얻기 위해 추가적인 음성인식을 수행할 수 있다. 이때 필요한 경우에 기존의 디바이스 적응 음향 모델이 입력으로 사용될 수 있다.

데이터 필터링을 통해 선정된 음성데이터 및 인식 결과 정보는 음향 모델 적응 알고리즘의 입력으로 적용한다. 여기에는 다양한 음향 모델 적응 알고리즘 중에 적절한 것, 예컨대, MAP(Maximum A Posteriori), MLLR(Maximum Likelihood Linear Regression)이 일 예가 될 수 있고, 그 외의 음향 모델 적응 알고리즘을 선택하거나 이것들의 조합의 형태가 적용 가능하다. 적응 알고리즘의 출력으로 새로운 적응 음향 모델 혹은 기존의 음향 모델을 적응 음향 모델로 변환하는데 필요한 통계 정보 등의 변환 모델을 얻게 된다.

생성된 새로운 적응 음향 모델(혹은 변환 모델)은 기존의 적응 음향 모델을 대체하거나, 최초로 생성되는 경우에는 해당 디바이스 ID에 연관되어 디바이스 적응 음향 모델 데이터베이스(158)에 저장된다.

디바이스 ID에 대응되는 디바이스 적응 음향 모델을 사용함으로써, 적응 기법은 단순히 특정 화자에만 적용되는 것뿐만 아니라, 특정한 디바이스가 사용되는 환경이나, 디바이스의 환경 세팅, 디바이스를 사용하는 사용자 그룹(Group)에도 적용될 수 있다.

음향 모델의 적응기법을 적용하게 되는 경우에 특정 디바이스를 사용하는 화자나 그룹의 발음 습관이나 억양을 반영하거나, 디바이스 사용환경에 대한 고유의 음향적 특징을 음향 모델에 반영하는 것이 가능하게 되며 이는 성능 향상을 가져오는 요인이 된다. 예컨대, 디바이스의 ID를 기초로 하여 해당 디바이스의 위치 정보(GPS 정보, 네트워크 접속 위치 정보 등)를 추출하여 음향 모델의 지역적 특성(방언, 억양, 외국어 등)을 반영할 수도 있다.

디바이스 ID가 아닌 사용자 ID를 사용할 경우 등에는, 사용자 등록을 음성인식과 연동하여 음성인식 결과를 바로 이용하는 경우에도 최초 사용자 음성을 이용하여 화자 적응 모델을 생성하므로 많은 경우에 부정확한 모델을 생성하게 된다. 좋은 화자 적응 모델을 생성하기 위해서는 충분한 사용 발화를 수집하는 것이 중요하지만 최초 등록 과정에서 충분한 양의 데이터를 얻는 것은 힘들기 때문이다.

디바이스 ID와 디바이스 ID에 대응되는 사용 로그를 사용하는 적응 서버(180)에 의하여 디바이스 적응 음향 모델을 생성하므로, 사용자 등록을 하지 않는 대신에 음성인식의 결과물을 활용하여 각 디바이스에 적합한 음향모델을 적응기법을 이용하여 생성하도록 하고, 음향 모델의 생성은 최초 디바이스 ID가 획득되었을 때 적용하지 않고 음성인식 서비스의 이용 로그 정보를 활용하여 효율적이고 지속적인 적응 음향 모델을 얻을 수 있다. 음성인식 서버 또는 적응 서버는 사용 로그를 저장하고 지속적으로 음향 모델을 업데이트하기 때문에 최신의 적응 음향 모델을 적용하여 성능을 지속적으로 개선해 나갈 수 있다.

이하 도 6a 및 도 6b를 통해 본 발명에 의한 음성인식 방법의 실시예들을 설명한다.

도 6a는 본 발명의 일 실시예에 따른 음성인식 방법의 흐름도를 도시한다.

단계 602에서, 디바이스를 식별하기 위한 디바이스 ID를 저장한다.

단계 606에서, 사용자로부터 음성인식을 위한 음성을 입력받는다.

단계 608에서, 단계 606에서 입력받은 음성을 처리하여 음성 데이터를 생성한다.

단계 610에서, 디바이스 ID 및 단계 608에서 생성한 음성 데이터를 음성인식 서버에 송신한다.

단계 614에서, 음성인식 서버로부터 상기 음성 데이터에 대한 음성인식의 결과를 수신한다.

도 6b는 본 발명의 다른 실시예에 따른 음성인식 방법의 흐름도를 도시한다.

단계 602에서, 디바이스에는 디바이스를 식별하기 위한 디바이스 ID로서, 복수의 디바이스 ID를 저장할 수 있다.

단계 604에서, 단계 602에서 저장한 디바이스 ID 별로 디바이스의 다양한 세팅을 다르게 설정할 수 있고, 디바이스 ID를 선택한다.

단계 610에서, 단계 604에서 선택한 디바이스 ID 및 단계 608에서 생성한 음성 데이터를 음성인식 서버에 송신한다.

단계 612에서, 디바이스의 위치 정보를 음성인식 서버에 더 송신할 수 있다. 디바이스의 ID를 기초로 하여 해당 디바이스의 위치 정보(GPS 정보, 네트워크 접속 위치 정보 등)를 추출하여 음향 모델의 지역적 특성(방언, 억양, 외국어 등)을 반영할 수도 있다.

이하 도 7a 및 도 7b를 통해 본 발명에 의한 음성인식 방법의 실시예들을 설명한다.

도 7a는 본 발명의 일 실시예에 따른 음성인식 방법의 흐름도를 도시한다.

단계 302에서, 적어도 하나 이상의 음향 모델을 저장한다.

단계 704에서, 외부의 디바이스로부터 상기 디바이스를 식별할 수 있는 디바이스 ID를 획득한다.

단계 706에서, 상기 디바이스로부터 음성 데이터를 획득한다.

단계 708에서, 단계 704에서 획득한 상기 디바이스 ID에 기초하여 음향 모델을 선택한다.

단계 716에서, 단계 708에서 선택된 음향 모델, 문법적 모델인 언어 모델, 및 발음에 관한 사전을 이용하여 단계 706에서 획득한 상기 음성 데이터에 대하여 음성인식을 수행한다.

단계 718에서, 단계 716에서 수행한 음성인식의 결과를 출력한다.

도 7b는 본 발명의 다른 실시예에 따른 음성인식 방법의 흐름도를 도시한다.

단계 702에서, 일반 음향 모델과 적어도 하나 이상의 디바이스 적응 음향 모델을 저장한다.

단계 710에서, 단계 704에서 획득한 상기 디바이스 ID에 대응되는 디바이스 적응 음향 모델이 존재하는지 여부를 판단한다.

단계 710의 판단 결과, 상기 디바이스 ID에 대응되는 상기 디바이스 적응 음향 모델이 존재하는 경우(단계 710의 '예'), 단계 712에서 해당 디바이스 적응 음향 모델을 선택한다.

단계 710의 판단 결과, 상기 디바이스 ID에 대응되는 상기 디바이스 적응 음향 모델이 존재하지 않는 경우(단계 710의 '아니오'), 단계 714에서 일반 음향 모델을 선택한다.

단계 716에서, 단계 712 또는 단계 714에서 선택된 음향 모델, 문법적 모델인 언어 모델, 및 발음에 관한 사전을 이용하여 단계 706에서 획득한 상기 음성 데이터에 대하여 음성인식을 수행한다.

단계 720에서, 단계 716에서 수행한 음성인식의 결과 및 해당 음성 데이터를 포함하는 사용 로그를 사용 로그 데이터베이스에 저장한다.

단계 722에서, 상기 사용 로그 데이터베이스를 감시하여 적응이 필요한 디바이스 ID를 선택한다.

단계 724에서, 단계 722에서 선택된 디바이스 ID에 대응되는 상기 사용 로그의 음성 데이터를 이용하여 상기 선택된 디바이스 ID에 대응되는 디바이스 적응 음향 모델을 생성한다.

이하 도 8a 및 도 8b를 통해 본 발명에 의한 음향 모델 적응 방법의 실시예들을 설명한다.

도 8a는 본 발명의 일 실시예에 따른 음향 모델 적응 방법의 흐름도를 도시한다.

단계 802에서, 디바이스 ID, 상기 디바이스 ID에 의해 식별되는 디바이스의 음성 데이터, 및 상기 음성 데이터에 대한 음성인식의 결과를 포함하는 사용 로그를 수신한다.

단계 804에서, 단계 802에서 수신한 상기 사용 로그를 사용 로그 데이터베이스에 저장한다.

단계 808에서, 상기 사용 로그 데이터베이스를 감시하여 적응이 필요한 디바이스 ID를 선택한다.

단계 814에서, 단계 808에서 선택된 디바이스 ID에 대응되는 상기 사용 로그의 음성 데이터를 이용하여 상기 선택된 디바이스 ID에 대응되는 디바이스 적응 음향 모델을 생성한다.

도 8b는 본 발명의 다른 실시예에 따른 음향 모델 적응 방법의 흐름도를 도시한다.

단계 806에서, 적응 모델 생성 기록, 사용 기록, 또는 신규 데이터 수집 기록 중 적어도 하나 이상을 사용하여 상기 사용 로그 데이터베이스를 분석한다.

단계 808에서, 단계 806의 분석의 결과에 기초하여 상기 사용 로그 데이터베이스를 감시하여 적응이 필요한 디바이스 ID를 선택한다.

단계 810에서, 불필요한 음성 데이터를 제거하기 위하여 음성 데이터의 적정성, 인식 결과의 적정성, 또는 인식 결과의 수정 기록 중 적어도 하나 이상을 사용하여 음성 데이터를 분석한다.

단계 812에서, 단계 808에서 선택된 디바이스 ID에 대응되는 상기 사용 로그로부터, 단계 810의 분석 결과에 기초하여 적응에 불필요한 음성 데이터를 제거한다.

단계 814에서, 단계 812에서 불필요한 음성 데이터가 제거된 사용 로그의 음성 데이터를 이용하여 단계 808에서 선택된 디바이스 ID에 대응되는 디바이스 적응 음향 모델을 생성한다.

한편, 본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.

컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현하는 것을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.

이제까지 본 발명에 대하여 바람직한 실시 예를 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명을 구현할 수 있음을 이해할 것이다. 그러므로 상기 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 한다.

100 : 디바이스
102 : 메모리
104 : 입력부
106 : 프로세서
108 : 송신부
110 : 수신부
150 : 음성인식 서버
152 : 음향 모델 데이터베이스
154 : 일반 음향 모델
156 : 디바이스 적응 음향 모델
158 : 수신부
160 : 음성인식부
180 : 적응 서버
182 : 수신부
184 : 사용 로그 데이터베이스
186 : 로그 모니터
188 : 로그 데이터 필터
190 : 음향 모델 적응부

Claims

적어도 하나 이상의 음향 모델을 저장하는 음향 모델 데이터베이스,
문법적 모델인 언어 모델과 발음에 관한 사전을 저장하는 언어 모델 및 사전,
외부의 디바이스로부터 상기 디바이스를 식별할 수 있는 디바이스 ID 및 음성 데이터를 수신하는 수신부, 및
상기 디바이스 ID에 기초하여 음향 모델을 선택하고, 상기 선택된 음향 모델, 상기 언어 모델 및 사전을 이용하여 상기 음성 데이터에 대하여 음성인식을 수행하고, 상기 음성인식의 결과를 출력하는 음성인식부를 포함하는 음성인식 서버.
제 1 항에 있어서,
상기 음향 모델 데이터베이스는, 일반 음향 모델(general acoustic model)과 적어도 하나 이상의 디바이스 적응 음향 모델(device adapted acoustic model)을 저장하고,
상기 음성인식부는, 상기 디바이스 ID에 대응되는 디바이스 적응 음향 모델이 상기 음향 모델 데이터베이스에 저장되어 있는 경우, 상기 디바이스 적응 음향 모델을 이용하여 상기 음성 데이터에 대하여 음성인식을 수행하고, 상기 디바이스 ID에 대응되는 상기 디바이스 적응 음향 모델이 상기 음향 모델 데이터베이스에 저장되어 있지 않은 경우, 상기 일반 음향 모델을 이용하여 상기 음성 데이터에 대하여 음성인식을 수행하는 것을 특징으로 하는 음성인식 서버.
제 1 항에 있어서,
상기 음성인식의 결과 및 해당 음성 데이터를 포함하는 사용 로그를 저장하는 사용 로그 데이터베이스,
상기 사용 로그 데이터베이스를 감시하여 적응이 필요한 디바이스 ID를 선택하는 로그 모니터,
상기 선택된 디바이스 ID에 대응되는 상기 사용 로그의 음성 데이터를 이용하여 상기 선택된 디바이스 ID에 대응되는 디바이스 적응 음향 모델을 생성하는 음향 모델 적응부를 더 포함하는 음성인식 서버.
적어도 하나 이상의 음향 모델을 저장하는 단계;
외부의 디바이스로부터 상기 디바이스를 식별할 수 있는 디바이스 ID를 획득하는 단계;
상기 디바이스로부터 음성 데이터를 획득하는 단계;
상기 디바이스 ID에 기초하여 음향 모델을 선택하는 단계;
상기 선택된 음향 모델, 문법적 모델인 언어 모델, 및 발음에 관한 사전을 이용하여 상기 음성 데이터에 대하여 음성인식을 수행하는 단계; 및,
상기 음성인식의 결과를 출력하는 단계를 포함하는 음성인식 방법.
제 4 항에 있어서,
상기 음향 모델을 저장하는 단계는, 일반 음향 모델과 적어도 하나 이상의 디바이스 적응 음향 모델을 저장하는 단계를 포함하고,
상기 음향 모델을 선택하는 단계는, 상기 디바이스 ID에 대응되는 디바이스 적응 음향 모델이 존재하는지 여부를 판단하는 단계; 및
상기 디바이스 ID에 대응되는 상기 디바이스 적응 음향 모델이 존재하는 경우, 상기 디바이스 적응 음향 모델을 선택하고, 상기 디바이스 ID에 대응되는 상기 디바이스 적응 음향 모델이 존재하지 않는 경우, 상기 일반 음향 모델을 선택하는 단계를 포함하는 것을 특징으로 하는 음성인식 방법.
제 4 항에 있어서,
상기 음성인식의 결과 및 해당 음성 데이터를 포함하는 사용 로그를 사용 로그 데이터베이스에 저장하는 단계;
상기 사용 로그 데이터베이스를 감시하여 적응이 필요한 디바이스 ID를 선택하는 단계; 및
상기 선택된 디바이스 ID에 대응되는 상기 사용 로그의 음성 데이터를 이용하여 상기 선택된 디바이스 ID에 대응되는 디바이스 적응 음향 모델을 생성하는 단계를 더 포함하는 것을 특징으로 하는 음성인식 방법.
디바이스를 식별하기 위한 디바이스 ID를 저장하는 메모리,
음성인식을 위한 음성을 입력받는 입력부,
상기 음성을 처리하여 음성 데이터를 생성하는 프로세서,
상기 디바이스 ID 및 상기 음성 데이터를 음성인식 서버에 송신하는 송신부, 및
상기 음성인식 서버로부터 상기 음성 데이터에 대한 음성인식의 결과를 수신하는 수신부를 포함하는 디바이스.
제 7 항에 있어서,
상기 프로세서는, 상기 음성인식을 위해 필요한 데이터를 음성 데이터로서 추출하는 것을 특징으로 하는 디바이스.
제 7 항에 있어서,
상기 디바이스는 복수의 디바이스 ID를 갖는 것을 특징으로 하는 디바이스.
제 9 항에 있어서,
각각의 상기 디바이스 ID 별로 상기 디바이스의 설정을 다르게 설정하는 것을 특징으로 하는 디바이스.
제 7 항에 있어서,
상기 송신부는 상기 디바이스의 위치 정보를 송신하는 것을 특징으로 하는 디바이스.
디바이스를 식별하기 위한 디바이스 ID를 저장하는 단계;
음성인식을 위한 음성을 입력받는 단계;
상기 음성을 처리하여 음성 데이터를 생성하는 단계;
상기 디바이스 ID 및 상기 음성 데이터를 음성인식 서버에 송신하는 단계; 및
상기 음성인식 서버로부터 상기 음성 데이터에 대한 음성인식의 결과를 수신하는 단계를 포함하는 음성인식 방법.
제 12 항에 있어서,
상기 음성 데이터를 생성하는 단계는, 상기 음성인식을 위해 필요한 데이터를 음성 데이터로서 추출하는 단계를 포함하는 것을 특징으로 하는 음성인식 방법.
제 12 항에 있어서,
상기 디바이스는 복수의 디바이스 ID를 갖는 것을 특징으로 하는 음성인식 방법.
제 14 항에 있어서,
각각의 상기 디바이스 ID 별로 상기 디바이스의 설정을 다르게 설정하는 단계를 더 포함하는 것을 특징으로 하는 음성인식 방법.
제 12 항에 있어서,
상기 송신하는 단계는, 상기 디바이스의 위치 정보를 더 송신하는 것을 특징으로 하는 음성인식 방법.
디바이스 ID, 상기 디바이스 ID에 의해 식별되는 디바이스의 음성 데이터, 및 상기 음성 데이터에 대한 음성인식의 결과를 포함하는 사용 로그를 수신하는 수신부,
상기 사용 로그를 저장하는 사용 로그 데이터베이스,
상기 사용 로그 데이터베이스를 감시하여 적응이 필요한 디바이스 ID를 선택하는 로그 모니터,
상기 선택된 디바이스 ID에 대응되는 상기 사용 로그의 음성 데이터를 이용하여 상기 선택된 디바이스 ID에 대응되는 디바이스 적응 음향 모델을 생성하는 음향 모델 적응부를 포함하는 적응 서버.
제 17 항에 있어서,
상기 선택된 디바이스 ID에 대응되는 상기 사용 로그로부터 적응에 불필요한 음성 데이터를 제거하는 로그 데이터 필터를 더 포함하고,
상기 음향 모델 적응부는, 상기 불필요한 음성 데이터가 제거된 상기 사용 로그의 음성 데이터를 이용하여 상기 선택된 디바이스 ID에 대응되는 디바이스 적응 음향 모델을 생성하는 것을 특징으로 하는 적응 서버.
제 17 항에 있어서,
상기 로그 모니터는 적응 모델 생성 기록, 사용 기록, 및 신규 데이터 수집 기록 중 적어도 하나 이상을 상기 사용 로그 데이터베이스의 분석에 사용하는 것을 특징으로 하는 적응 서버.
제 18 항에 있어서,
상기 로그 데이터 필터는 상기 불필요한 음성 데이터를 제거하기 위하여 음성 데이터의 적정성, 인식 결과의 적정성, 및 인식 결과의 수정 기록 중 적어도 하나 이상을 분석에 사용하는 것을 특징으로 하는 적응 서버.
디바이스 ID, 상기 디바이스 ID에 의해 식별되는 디바이스의 음성 데이터, 및 상기 음성 데이터에 대한 음성인식의 결과를 포함하는 사용 로그를 수신하는 단계;
상기 사용 로그를 사용 로그 데이터베이스에 저장하는 단계;
상기 사용 로그 데이터베이스를 감시하여 적응이 필요한 디바이스 ID를 선택하는 단계; 및
상기 선택된 디바이스 ID에 대응되는 상기 사용 로그의 음성 데이터를 이용하여 상기 선택된 디바이스 ID에 대응되는 디바이스 적응 음향 모델을 생성하는 단계를 포함하는 음향 모델 적응 방법.
제 21 항에 있어서,
상기 선택된 디바이스 ID에 대응되는 상기 사용 로그로부터 적응에 불필요한 음성 데이터를 제거하는 단계를 더 포함하고,
상기 디바이스 적응 음향 모델을 생성하는 단계는, 상기 불필요한 음성 데이터가 제거된 상기 사용 로그의 음성 데이터를 이용하여 상기 선택된 디바이스 ID에 대응되는 디바이스 적응 음향 모델을 생성하는 단계를 포함하는 것을 특징으로 하는 음향 모델 적응 방법.
제 21 항에 있어서,
상기 디바이스 ID를 선택하는 단계는, 적응 모델 생성 기록, 사용 기록, 및 신규 데이터 수집 기록 중 적어도 하나 이상을 사용하여 상기 사용 로그 데이터베이스를 분석하는 단계를 포함하는 것을 특징으로 하는 음향 모델 적응 방법.
제 22 항에 있어서,
상기 적응에 불필요한 음성 데이터를 제거하는 단계는, 상기 불필요한 음성 데이터를 제거하기 위하여 음성 데이터의 적정성, 인식 결과의 적정성, 및 인식 결과의 수정 기록 중 적어도 하나 이상을 사용하여 분석하는 단계를 포함하는 것을 특징으로 하는 음향 모델 적응 방법.
제 4 항 내지 제 6 항, 제 12 항 내지 제 16 항, 및 제 21 항 내지 제 24 항 중 어느 한 항에 따른 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
디바이스, 음성인식 서버, 및 적응 서버를 포함하는 음성인식 시스템에 있어서,
상기 디바이스는,
디바이스를 식별하기 위한 디바이스 ID 및 음성 데이터를 상기 음성인식 서버에 송신하고,
상기 음성인식 서버는,
상기 디바이스로부터 상기 디바이스를 식별할 수 있는 디바이스 ID 및 음성 데이터를 수신하여,
상기 디바이스 ID에 기초하여 음향 모델을 선택하고, 상기 선택된 음향 모델, 문법적 모델인 언어 모델, 및 발음에 관한 사전을 이용하여 상기 음성 데이터에 대하여 음성인식을 수행하고, 상기 음성인식의 결과를 출력하고,
상기 적응 서버는,
상기 음성인식 서버로부터 디바이스 ID, 상기 디바이스 ID에 의해 식별되는 디바이스의 음성 데이터, 및 상기 음성 데이터에 대한 음성인식의 결과를 포함하는 사용 로그를 수신하여,
상기 디바이스 ID에 대응되는 상기 사용 로그의 음성 데이터를 이용하여 상기 디바이스 ID에 대응되는 디바이스 적응 음향 모델을 생성하는 음성인식 시스템.