KR102373247B1

KR102373247B1 - 네트워크를 이용한 사용자 적응 음성 명령 인식 방법 및 그 장치

Info

Publication number: KR102373247B1
Application number: KR1020140165543A
Authority: KR
Inventors: 나형원
Original assignee: 현대모비스 주식회사
Priority date: 2014-11-25
Filing date: 2014-11-25
Publication date: 2022-03-11
Also published as: KR102373247B9; KR20160062588A

Abstract

본 발명은 사용자가 발화하는 음성 명령을 인식하는 방법과 그 장치에 관한 것이다.
본 발명은, 단말기에서 사용자가 발화한 음성 명령을 입력받아 음성 명령의 음소를 분석하여 발음열을 획득하고, 현재의 데이터베이스를 이용하여 상기 발음열의 의미를 인식하고, 만일 상기 발음열의 의미 인식이 실패하는 경우 상기 발음열을 서버로 전송하고, 상기 발음열을 전송받은 서버는 상기 발음열의 패턴을 분석하고 상기 발음열이 해당하는 국가 또는 언어 또는 방언 정보와 표준 발음열 정보를 포함하는 발음열 정보를 획득하고, 상기 발음열 정보에 따른 발음열 메타정보를 생성하여 상기 단말기에 전송하고, 상기 단말기는 상기 발음열 메타정보를 이용하여 상기 단말기의 음성 인식 모드를 조정하고 상기 발음열을 상기 표준 발음열로 수정하여 의미를 인식하고 그에 따른 동작을 수행함으로써, 사용자가 발화하는 언어와 방언, 억양에 적응하여 높은 인식률을 가지고 음성 명령을 인식하는 네트워크를 이용한 사용자 적응 음성 명령 인식 방법 및 그 장치를 제공한다.

Description

네트워크를 이용한 사용자 적응 음성 명령 인식 방법 및 그 장치{Method and Apparatus for user adaptive recognition of voice command using network}

본 발명은 사용자가 발화하는 음성 명령을 인식하는 방법과 그 장치에 관한 것이다.

단말기 장치에 명령을 입력하는 수단으로는 기존에 키보드 및 하드 키 등의 버튼이나 터치 스크린을 이용하는 방식이 가장 많이 사용되어 왔다. 그러나 위와 같은 명령 입력 장치들은 사용자가 손으로 직접 조작하여야 하는 불편함이 있다. 이에 사용자가 자유롭게 손을 사용하면서 보다 편리하게 명령을 입력할 수 있도록 하는 수단으로써 음성 인식 기술이 사용되고 있다.

기존의 음성 인식 기술은 음성 인식 시스템을 부팅 후 사용자의 설정에 따른 언어에 대한 음성 명령 인식을 수행한다. 음성 인식 시스템은 사용자가 발화하는 음성의 음소를 분석하여 발음열을 생성하고 그 발음열의 의미를 인식하여 특정 동작을 수행한다. 그러나 이와 같은 음성 인식 방법은 기 설정된 언어와 다른 언어를 사용자가 발화하는 경우 음성 명령을 올바르게 인식하지 못하게 되는 한계점이 있다. 또한 언어는 특성상 동일한 언어에 있어서도 다양한 억양과 방언 및 비표준어 표현들이 존재하므로, 표준어나 한정된 표현 중심으로 구성된 기존의 음성 인식 방식은 위와 같은 다양한 방식으로 표현되는 언어를 올바르게 인식하지 못하는 문제점이 있다.

예를 들면 기존의 음성 인식 기술로 하기 선행기술문헌에 따른 음성 인식 안내 시스템 및 방법이 있다. 이와 같은 음성 인식 기술은 음성 명령을 인식함에 있어서 다양한 방식으로 표현되는 언어에 유연하게 대응하지 못하는 한계점이 있다.

(특허문헌 0001) 대한민국 공개특허공보 제10-2012-0019003호

본 발명이 해결하고자 하는 과제는, 단말기에서 사용자가 발화한 음성 명령을 입력받아 음성 명령의 음소를 분석하여 발음열을 획득하고, 현재의 데이터베이스를 이용하여 상기 발음열의 의미를 인식하고, 만일 상기 발음열의 의미 인식이 실패하는 경우 상기 발음열을 서버로 전송하고, 상기 발음열을 전송받은 서버는 상기 발음열의 패턴을 분석하고 상기 발음열이 해당하는 국가 또는 언어 또는 방언 정보와 표준 발음열 정보를 포함하는 발음열 정보를 획득하고, 상기 발음열 정보에 따른 발음열 메타정보를 생성하여 상기 단말기에 전송하고, 상기 단말기는 상기 발음열 메타정보를 이용하여 상기 단말기의 음성 인식 모드를 조정하고 상기 발음열을 상기 표준 발음열로 수정하여 의미를 인식하고 그에 따른 동작을 수행함으로써, 사용자가 발화하는 언어와 방언, 억양에 적응하여 높은 인식률을 가지고 음성 명령을 인식하는 네트워크를 이용한 사용자 적응 음성 명령 인식 방법 및 그 장치를 제공하는 것이다.

상기 과제를 해결하기 위해, 본 발명의 일 유형에 따른 네트워크를 이용한 사용자 적응 음성 명령 인식 방법은, 음성 인식 클라이언트 모듈을 부팅하는 단계; 및 상기 음성 인식 클라이언트 모듈이 네트워크에 연결되어 있고 발음열 서버에 접속하여 있는 경우, 상기 음성 인식 클라이언트 모듈은, 음성 명령을 입력받아 상기 음성 명령에 따른 발음열의 의미 인식을 시도하여 상기 발음열의 의미 인식이 성공하지 못하는 경우 상기 발음열을 상기 발음열 서버로 전송하고, 상기 발음열 서버로부터 상기 발음열에 따른 발음열 메타정보를 전송받고, 상기 발음열 메타정보를 이용하여 음성 인식 모드를 조정하고 상기 발음열을 수정하여 의미를 인식하는 사용자 적응 모드로 동작하는 단계를 포함할 수 있다.

여기서, 네트워크를 이용한 사용자 적응 음성 명령 인식 방법은, 상기 음성 인식 클라이언트 모듈을 부팅한 이후 상기 음성 인식 클라이언트 모듈이 네트워크에 연결되어 있는지 여부 또는 상기 발음열 서버에 접속하여 있는지 여부를 확인하는 단계; 및 상기 음성 인식 클라이언트 모듈이 네트워크에 연결되어 있지 않거나 또는 상기 발음열 서버에 접속하여 있지 않은 경우, 상기 음성 인식 클라이언트 모듈은 오프라인 모드로 동작하는 단계를 더 포함할 수 있다.

여기서, 상기 사용자 적응 모드로 동작하는 단계는, 상기 음성 인식 클라이언트 모듈이 상기 음성 명령을 입력받아 상기 음성 명령에 따른 상기 발음열의 의미 인식을 시도하여, 상기 발음열의 의미 인식이 성공하지 못하는 경우 상기 발음열을 상기 발음열 서버로 전송하는, 제1 음성 인식 클라이언트 모듈 처리 단계; 상기 발음열 서버가 상기 음성 인식 클라이언트 모듈로부터 상기 발음열을 전송받아 상기 발음열에 따른 상기 발음열 메타정보를 생성하고, 상기 생성된 발음열 메타정보를 상기 음성 인식 클라이언트 모듈로 전송하는, 서버 처리 단계; 및 상기 음성 인식 클라이언트 모듈이 상기 발음열 서버로부터 상기 발음열 메타정보를 입력받고, 상기 발음열 메타정보를 이용하여 상기 음성 인식 모드를 조정하고, 상기 조정된 음성 인식 모드에 따라 상기 발음열을 수정하여 의미를 인식하는 제2 음성 인식 클라이언트 모듈 처리 단계를 포함할 수 있다.

여기서, 상기 제1 음성 인식 클라이언트 모듈 처리 단계는 상기 음성 명령의 음소를 분석하여 상기 발음열을 획득하고, 상기 발음열의 의미 인식을 시도하여 성공률이 일정 정도 이하인 경우를 상기 발음열의 의미 인식이 성공하지 못한 경우로 판단하고, 상기 발음열의 의미 인식을 시도하여 성공률이 일정 정도 이상이 되어 상기 발음열의 의미 인식이 성공한 경우는 상기 발음열의 의미에 따른 명령 동작을 수행하는 것을 특징으로 할 수 있다.

여기서, 상기 서버 처리 단계는 상기 발음열의 패턴을 분석하고, 상기 발음열 서버의 서버 데이터베이스를 이용하거나 또는 외부 네트워크를 통한 검색을 이용하여 상기 발음열의 패턴에 따른 상기 발음열의 언어정보를 획득하고, 상기 획득된 발음열의 언어정보를 이용하여 상기 발음열 메타정보를 생성하고, 상기 발음열 메타정보는 상기 발음열이 해당하는 국가 또는 언어 또는 방언의 종류 또는 표준 발음열 정보 중 어느 하나를 포함하는 것을 특징으로 할 수 있다.

여기서, 상기 제2 음성 인식 클라이언트 모듈 처리 단계는, 상기 음성 인식 클라이언트 모듈이 음성 명령 인식을 위하여 채택한 언어 또는 방언의 종류를 나타내는 상기 음성 인식 모드를 상기 발음열 메타정보에 따라 조정하고, 상기 조정된 음성 인식 모드에 따라 상기 발음열을 표준 발음열로 수정하여 상기 수정된 표준 발음열의 의미를 인식하는 것을 특징으로 할 수 있다.

여기서, 상기 제2 음성 인식 클라이언트 모듈 처리 단계는, 상기 발음열을 로컬 발음열 데이터베이스에 추가하거나, 상기 발음열 서버로부터 상기 음성 인식 모드에 따른 발음열 데이터들을 전송받아 상기 로컬 발음열 데이터베이스에 추가받거나, 일정 빈도수 이하로 사용되는 상기 음성 인식 모드에 따른 발음열 데이터들을 상기 로컬 발음열 데이터베이스에서 삭제하여, 상기 로컬 발음열 데이터베이스를 갱신하는 것을 특징으로 할 수 있다.

상기 과제를 해결하기 위해, 본 발명의 또 다른 유형에 따른 네트워크를 이용한 사용자 적응 음성 명령 인식 장치는, 외부 네트워크를 통한 검색을 이용하여 발음열에 대한 정보를 획득하는 발음열 서버; 및 음성 명령을 입력받아 상기 음성 명령에 따른 상기 발음열의 의미 인식을 시도하여 상기 발음열의 의미 인식이 성공하지 못하는 경우 상기 발음열을 상기 발음열 서버로 전송하고, 상기 발음열 서버로부터 상기 발음열에 따른 발음열 메타정보를 전송받고, 상기 발음열 메타정보를 이용하여 음성 인식 모드를 조정하고 상기 발음열을 수정하여 의미를 인식하는 음성 인식 클라이언트 모듈을 포함할 수 있다.

여기서, 상기 음성 인식 클라이언트 모듈은, 외부로부터 상기 음성 명령을 입력받는 음성입력부; 상기 음성 인식 클라이언트 모듈이 네트워크에 연결되어 있는지 여부 또는 상기 발음열 서버에 접속하여 있는지 여부를 확인하는 네트워크 접속 확인부; 상기 음성 명령의 음소를 분석하여 상기 발음열을 획득하고, 상기 발음열의 의미 인식을 시도하여, 상기 발음열의 의미 인식이 성공하지 못하는 경우 상기 발음열을 상기 발음열 서버로 전송하고, 상기 발음열 서버로부터 상기 발음열 메타정보를 전송받아 상기 발음열 메타정보를 이용하여 상기 음성 인식 모드를 조정하고, 상기 조정된 음성 인식 모드에 따라 상기 발음열을 수정하여 의미를 인식하는 음성처리부; 및 상기 발음열의 언어 또는 방언 종류에 관한 정보와 상기 발음열의 의미 정보를 포함하는 정보를 저장하는 로컬 발음열 데이터베이스를 포함할 수 있다.

여기서, 상기 로컬 발음열 데이터베이스는, 상기 발음열을 상기 로컬 발음열 데이터베이스에 추가하거나, 상기 발음열 서버로부터 상기 음성 인식 모드에 따른 발음열 데이터들을 전송받아 상기 로컬 발음열 데이터베이스에 추가하거나, 일정 빈도수 이하로 사용되는 상기 음성 인식 모드에 따른 발음열 데이터들을 상기 로컬 발음열 데이터베이스에서 삭제하여, 상기 로컬 발음열 데이터베이스를 갱신하는 것을 특징으로 할 수 있다.

여기서, 상기 발음열 서버는, 상기 발음열의 패턴을 분석하는 발음열 패턴 분석부; 외부 네트워크를 통한 검색을 이용하여 상기 발음열의 패턴에 따른 상기 발음열의 언어정보를 획득하는 발음열 정보 획득부; 및 상기 발음열의 패턴에 따른 상기 발음열 메타 정보를 생성하는 발음열 메타정보 생성부를 포함할 수 있다.

여기서, 상기 발음열 서버는, 서버 데이터베이스를 더 포함할 수 있고, 상기 발음열 정보 획득부는 상기 서버 데이터베이스를 이용하거나 또는 외부 네트워크를 통한 검색을 이용하여 상기 발음열의 패턴에 따른 상기 발음열의 언어정보를 획득하는 것을 특징으로 할 수 있다.

본 발명에 따른 네트워크를 이용한 사용자 적응 음성 명령 인식 방법 및 그 장치에 의하면, 사용자가 발화하는 언어와 방언, 억양에 적응하여 높은 인식률을 가지고 음성 명령을 인식하는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 네트워크를 이용한 사용자 적응 음성 명령 인식 방법의 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 네트워크를 이용한 사용자 적응 음성 명령 인식 방법에서 사용자 적응 모드로 동작하는 단계(S200)에 관한 구체적인 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 네트워크를 이용한 사용자 적응 음성 명령 인식 장치의 블록도이다.

이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조 부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.

예를 들어 동일한 언어인 한국어인 경우에도 지역에 따라 방언이 있고, 표준어인 '어머니'가 지역에 따라 '엄니' 또는 '어무니'와 같이 발음되기도 한다. 또한 동일한 단어에 대하여 이를 발음하는 다양한 억양이 존재하고, 단어에 따라서 은어 및 비속어가 다수 존재하기도 한다.

위와 같은 언어의 다양성에 따른 음성 명령 인식의 문제를 해결하기 위하여, 본 발명은 클라이언트 모듈이 입력받은 음성 명령에 따른 발음열을 네트워크를 이용하여 서버에 전송하고, 서버 측에서 서버 데이터베이스를 이용하거나 또는 외부 네트워크를 활용한 검색 수단을 이용하여 사용자가 발화한 발음열에 해당하는 정보를 획득하고 그에 따라 발음열에 대한 메타정보를 생성하여 이를 클라이언트 모듈에 전송하고, 클라이언트 모듈은 상기 발음열에 대한 메타정보를 이용하여 상기 발음열을 수정하여 그 의미를 인식하는 수단을 개시한다.

도 1은 본 발명의 일 실시예에 따른 네트워크를 이용한 사용자 적응 음성 명령 인식 방법의 흐름도이다.

본 발명의 일 실시예에 따른 네트워크를 이용한 사용자 적응 음성 명령 인식 방법은 음성 인식 클라이언트 모듈을 부팅하는 단계(S101), 사용자 적응 모드로 동작하는 단계(S200)를 포함할 수 있다.

여기서 음성 인식 클라이언트 모듈을 부팅하는 단계(S101)는 사용자가 발화하는 음성 명령을 인식하는 기능을 수행하는 음성 인식 클라이언트 모듈을 부팅한다. 상기 단계에서 음성 명령을 인식하기 위한 제반 환경이 설정될 수 있고, 인식할 언어가 선택될 수 있다.

다음으로 사용자 적응 모드로 동작하는 단계(S200)에서는 상기 음성 인식 클라이언트 모듈이 네트워크에 연결되어 있고 발음열 서버에 접속하여 있는 경우, 상기 음성 인식 클라이언트 모듈은, 음성 명령을 입력받아 상기 음성 명령에 따른 발음열의 의미 인식을 시도하여 상기 발음열의 의미 인식이 성공하지 못하는 경우 상기 발음열을 상기 발음열 서버로 전송하고, 상기 발음열 서버로부터 상기 발음열에 따른 발음열 메타정보를 전송받고, 상기 발음열 메타정보를 이용하여 음성 인식 모드를 조정하고 상기 발음열을 수정하여 의미를 인식한다.

여기서 본 발명에 따른 네트워크를 이용한 사용자 적응 음성 명령 인식 방법은 네트워크 연결과 서버 접속을 확인하는 단계(S102)와 오프라인 모드로 동작하는 단계(S103)를 더 포함할 수 있다.

네트워크 연결과 서버 접속을 확인하는 단계(S102)는 상기 음성 인식 클라이언트 모듈을 부팅한 이후 상기 음성 인식 클라이언트 모듈이 네트워크에 연결되어 있는지 여부 또는 상기 발음열 서버에 접속하여 있는지 여부를 확인한다.

오프라인 모드로 동작하는 단계(S103)는 상기 음성 인식 클라이언트 모듈이 네트워크에 연결되어 있지 않거나 또는 상기 발음열 서버에 접속하여 있지 않은 것으로 확인된 경우 동작할 수 있다.

여기서 오프라인 모드로 동작하는 단계(S103)에서는, 상기 음성 인식 클라이언트 모듈이 발음열 서버와 연동하지 않은 상태에서, 음성 인식 클라이언트 모듈에 포함되어 있거나 또는 음성 인식 클라이언트 모듈이 설치된 단말기에 포함되어 있는 로컬 발음열 데이터베이스를 이용하여, 상기 발음열의 의미를 인식하는 것이 바람직하다.

이하에서는 사용자 적응 모드로 동작하는 단계(S200)에 대하여 보다 상세히 설명한다.

도 2는 본 발명에 따른 네트워크를 이용한 사용자 적응 음성 명령 인식 방법에서 사용자 적응 모드로 동작하는 단계(S200)에 관한 구체적인 흐름도이다.

사용자 적응 모드로 동작하는 단계(S200)는 제1 음성 인식 클라이언트 모듈 처리 단계(S210), 서버 처리 단계(S220), 제2 음성 인식 클라이언트 모듈 처리 단계(S230)를 포함할 수 있다.

제1 음성 인식 클라이언트 모듈 처리 단계(S210)는 상기 음성 인식 클라이언트 모듈이 상기 음성 명령을 입력받아, 상기 음성 명령에 따른 상기 발음열의 의미 인식을 시도하여, 상기 발음열의 의미 인식이 성공하지 못하는 경우 상기 발음열을 상기 발음열 서버로 전송한다.

여기서 제1 음성 인식 클라이언트 모듈 처리 단계(S210)는 상기 음성 명령의 음소를 분석하여 상기 발음열을 획득하고, 상기 발음열의 의미 인식을 시도하여 성공률이 일정 정도 이하인 경우를 상기 발음열의 의미 인식이 성공하지 못한 경우로 판단하는 것이 바람직하다.

또한 상기 발음열의 의미 인식을 시도하여 성공률이 일정 정도 이상이 되어 상기 발음열의 의미 인식이 성공한 경우는 상기 발음열의 의미에 따른 명령 동작을 수행하는 것이 바람직하다.

보다 세부적으로 표현하면 제1 음성 인식 클라이언트 모듈 처리 단계(S210)는 음성 명령을 입력받는 단계(S211), 상기 입력받은 음성 명령의 음소를 분석하여 상기 발음열을 획득하는 단계(S212), 상기 발음열의 의미 인식을 하는 단계(S213), 상기 발음열의 의미 인식이 성공한 경우는 그에 따른 명령 동작을 수행하는 단계(S214), 상기 발음열의 의미 인식이 실패한 경우는 상기 발음열을 발음열 서버로 전송하는 단계(S215)를 포함할 수 있다.

다음으로 서버 처리 단계(S220)에서는 상기 발음열 서버가 상기 음성 인식 클라이언트 모듈로부터 상기 발음열을 전송받아 상기 발음열에 따른 상기 발음열 메타정보를 생성하고, 상기 생성된 발음열 메타정보를 상기 음성 인식 클라이언트 모듈로 전송한다.

여기서, 서버 처리 단계(S220)는 상기 발음열의 패턴을 분석하고, 상기 발음열 서버의 서버 데이터베이스를 이용하거나 또는 외부 네트워크를 통한 검색을 이용하여 상기 발음열의 패턴에 따른 상기 발음열의 언어정보를 획득할 수 있다.

여기서 상기 발음열의 언어정보는 상기 발음열에 관한 정보로서, 상기 발음열이 해당하는 언어나 국가 또는 지역이나 방언의 종류 중 어느 하나의 정보를 포함할 수 있다. 또한 상기 발음열의 언어정보는 상기 발음열이 비속어 또는 은어에 해당하는 경우 표준 발음열에 관한 정보를 포함할 수 있다. 예를 들어 상기 발음열이 '엄니'인 경우 상기 발음열의 언어정보는 상기 발음열이 해당하는 국가인 '한국'또는 언어인 '한국어' 또는 지역인 '전라도' 또는 방언의 종류인 '전라도 사투리' 등의 정보를 포함할 수 있다.

다음으로 서버 처리 단계(S220)는 상기 서버 데이터베이스를 이용하거나 또는 외부 네트워크를 통한 검색을 이용하여 상기 발음열의 패턴에 따른 상기 발음열의 언어정보를 획득할 수 있다.

여기서 상기 발음열 메타정보는 상기 발음열이 해당하는 국가 또는 언어 또는 방언의 종류 또는 표준 발음열 정보 중 어느 하나를 포함할 수 있다. 여기서 상기 발음열 메타정보는 상기 발음열이 해당하는 국가 또는 언어 또는 방언의 종류 또는 표준 발음열 정보 중 어느 하나를 포함하는 집합이 될 수 있다. 예를 들어 '엄니'라는 발음열에 대하여 상기 발음열 메타정보는 {'한국어', '전라도 사투리', '어머니'}가 될 수 있다.

보다 세부적으로 표현하면, 상기 서버 처리 단계(S220)는 상기 발음열의 패턴을 분석하는 발음열 패턴 분석 단계(S221), 상기 서버 데이터베이스를 이용하거나 또는 외부 네트워크를 통한 검색을 이용하여 상기 발음열의 패턴에 따른 상기 발음열의 언어정보를 획득하는 발음열 언어정보 획득 단계(S222), 상기 서버 데이터베이스를 이용하거나 또는 외부 네트워크를 통한 검색을 이용하여 상기 발음열의 패턴에 따른 상기 발음열의 언어정보를 획득하는 발음열 메타정보 전송 단계(S223)를 포함할 수 있다.

제2 음성 인식 클라이언트 모듈 처리 단계(S230)는 상기 음성 인식 클라이언트 모듈이 상기 발음열 서버로부터 상기 발음열 메타정보를 입력받고, 상기 발음열 메타정보를 이용하여 상기 음성 인식 모드를 조정하고, 상기 조정된 음성 인식 모드에 따라 상기 발음열을 수정하여 의미를 인식한다.

여기서 상기 음성 인식 모드는 상기 음성 인식 클라이언트 모듈이 음성 명령 인식을 위하여 채택한 언어 또는 방언의 종류가 될 수 있다. 예를 들어 상기 음성 인식 모드는 '한국어', '영어', '일본어' 등의 언어가 될 수 있고 또는 한국어 중 '전라도 사투리', '경상도 사투리', '충청도 사투리', '표준어' 등의 방언의 종류가 될 수 있다. 여기서 상기 음성 인식 클라이언트 모듈은 현재 설정된 음성 인식 모드가 '표준어'인데, 상기 전송받은 발음열 메타정보에 포함된 방언의 종류 정보가 '전라도 사투리'인 경우, 음성 인식 모드를 '전라도 사투리'로 조정할 수 있다.

다음으로 여기서 상기 조정된 음성 인식 모드에 따라 상기 발음열은 표준 발음열로 수정하는 것이 바람직하다. 예를 들어 위의 예와 같이 음성 인식 모드가 '전라도 사투리'로 조정된 경우 음성 인식 클라이언트는 전라도 사투리인 상기 발음열을 그에 대응하는 표준 발음열로 수정하는 것이 바람직하다. 여기서 상기 발음열은 상기 발음열 메타정보를 이용하여 상기 발음열에 대응하는 표준 발음열 정보를 획득할 수 있고, 또는 로컬 발음열 데이터베이스를 이용하여 상기 발음열에 대응하는 표준 발음열 정보를 획득할 수도 있다.

다음으로 상기 수정된 표준 발음열의 의미를 인식할 수 있다.

여기서 상기 인식된 의미에 따른 명령 동작을 수행하는 것이 바람직하다.

보다 상세하게 표현하면, 제2 음성 인식 클라이언트 모듈 처리 단계(S230)는 상기 발음열 서버로부터 상기 발음열 메타정보를 입력받고, 상기 발음열 메타정보를 이용하여 상기 음성 인식 모드를 조정하는 음성 인식 모드 조정 단계(S231), 상기 조정된 음성 인식 모드에 따라 상기 발음열을 수정하는 발음열 수정 단계(S232), 상기 수정된 발음열의 의미를 인식하는 발음열 의미 인식 단계(S233)를 포함할 수 있다. 또한 여기서 상기 인식된 의미에 따른 명령 동작을 수행하는 명령 동작 수행 단계(S234)를 더 포함할 수 있다.

또한 제2 음성 인식 클라이언트 모듈 처리 단계(S230)는 로컬 발음열 데이터 베이스를 갱신하는 단계(S235)를 더 포함할 수 있다.

여기서 로컬 발음열 데이터 베이스를 갱신하는 단계(S235)는 상기 발음열을 로컬 발음열 데이터베이스에 추가하거나, 상기 발음열 서버로부터 상기 음성 인식 모드에 따른 발음열 데이터들을 전송받아 상기 로컬 발음열 데이터베이스에 추가받거나, 일정 빈도수 이하로 사용되는 상기 음성 인식 모드에 따른 발음열 데이터들을 상기 로컬 발음열 데이터베이스에서 삭제하여, 상기 로컬 발음열 데이터베이스를 갱신할 수 있다.

도 3은 본 발명의 또 다른 실시예에 따른 네트워크를 이용한 사용자 적응 음성 명령 인식 장치의 블록도이다.

상기 본 발명에 따른 네트워크를 이용한 사용자 적응 음성 명령 인식 장치는 도 1, 2를 참조하면서 상술한 본 발명에 따른 네트워크를 이용한 사용자 적응 음성 명령 인식 방법과 동일한 방식으로 동작할 수 있다. 이하에서는 중복되는 설명은 생략한다.

본 발명에 따른 네트워크를 이용한 사용자 적응 음성 명령 인식 장치는 음성 인식 클라이언트 모듈(100), 발음열 서버(200)를 포함할 수 있다.

음성 인식 클라이언트 모듈(100)은 음성 명령을 입력받아 상기 음성 명령에 따른 상기 발음열의 의미 인식을 시도하여 상기 발음열의 의미 인식이 성공하지 못하는 경우 상기 발음열을 상기 발음열 서버로 전송하고, 상기 발음열 서버로부터 상기 발음열에 따른 발음열 메타정보를 전송받고, 상기 발음열 메타정보를 이용하여 음성 인식 모드를 조정하고 상기 발음열을 수정하여 의미를 인식한다.

발음열 서버(200)는 외부 네트워크를 통한 검색을 이용하여 발음열에 대한 정보를 획득한다.

여기서 음성 인식 클라이언트 모듈(100)은 네트워크 접속 확인부(110), 음성입력부(120), 음성처리부(130), 로컬 발음열 데이터베이스(140)를 포함할 수 있다.

네트워크 접속 확인부(110)는 상기 음성 인식 클라이언트 모듈이 네트워크에 연결되어 있는지 여부 또는 상기 발음열 서버에 접속하여 있는지 여부를 확인한다.

음성입력부(120)는 외부로부터 상기 음성 명령을 입력받는다.

음성처리부(130)는 상기 음성 명령의 음소를 분석하여 상기 발음열을 획득하고, 상기 발음열의 의미 인식을 시도하여, 상기 발음열의 의미 인식이 성공하지 못하는 경우 상기 발음열을 상기 발음열 서버로 전송하고, 상기 발음열 서버로부터 상기 발음열 메타정보를 전송받아 상기 발음열 메타정보를 이용하여 상기 음성 인식 모드를 조정하고, 상기 조정된 음성 인식 모드에 따라 상기 발음열을 수정하여 의미를 인식한다.

로컬 발음열 데이터베이스(140)는 상기 발음열의 언어 또는 방언 종류에 관한 정보와 상기 발음열의 의미 정보를 포함하는 정보를 저장한다.

여기서, 로컬 발음열 데이터베이스(140)는, 상기 발음열을 상기 로컬 발음열 데이터베이스에 추가하거나, 상기 발음열 서버로부터 상기 음성 인식 모드에 따른 발음열 데이터들을 전송받아 상기 로컬 발음열 데이터베이스에 추가하거나, 일정 빈도수 이하로 사용되는 상기 음성 인식 모드에 따른 발음열 데이터들을 상기 로컬 발음열 데이터베이스에서 삭제하여, 상기 로컬 발음열 데이터베이스를 갱신할 수 있다.

여기서 음성 인식 클라이언트 모듈(100)은 상기 발음열 정보를 발음열 서버(200)로 전송하고, 상기 발음열 메타정보를 전송받기 위한 송수신부(150)를 더 포함할 수 있다.

발음열 서버(200)는 발음열 패턴 분석부(220), 발음열 정보 획득부(230), 발음열 메타정보 생성부(240)를 포함할 수 있다.

발음열 패턴 분석부(220)는 상기 발음열의 패턴을 분석한다.

발음열 정보 획득부(230)는 외부 네트워크를 통한 검색을 이용하여 상기 발음열의 패턴에 따른 상기 발음열의 언어정보를 획득한다.

발음열 메타정보 생성부(240)는 상기 발음열의 패턴에 따른 상기 발음열 메타 정보를 생성한다.

여기서 발음열 서버(200)는 서버 데이터베이스(250)를 더 포함할 수 있고, 이 경우 발음열 정보 획득부(230)는 서버 데이터베이스(250)를 이용하여 상기 발음열의 패턴에 따른 상기 발음열의 언어정보를 획득할 수도 있다.

여기서 발음열 서버(200)는 음성 인식 클라이언트 모듈(100)로부터 상기 발음열을 전송받고, 상기 발음열 메타정보를 전송하기 위한 송수신부(210)를 더 포함할 수 있다.

이상에서 설명한 본 발명의 실시예를 구성하는 모든 구성요소들이 하나로 결합하거나 결합하여 동작하는 것으로 기재되어 있다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.

또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한, 이와 같은 컴퓨터 프로그램은 USB 메모리, CD 디스크, 플래쉬 메모리 등과 같은 컴퓨터가 읽을 수 있는 기록매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 기록매체로서는 자기 기록매체, 광 기록매체, 캐리어 웨이브 매체 등이 포함될 수 있다.

또한, 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 상세한 설명에서 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims

음성 명령 인식 방법에 있어서,
음성 인식 클라이언트 모듈을 부팅하는 단계;
상기 음성 인식 클라이언트 모듈이 네트워크에 연결되어 있고 발음열 서버에 접속하여 있는 경우, 상기 음성 인식 클라이언트 모듈이, 음성 명령을 입력받아 상기 음성 명령에 따른 발음열의 의미 인식을 시도하여 상기 발음열의 의미 인식이 성공하지 못하는 경우 상기 발음열을 상기 발음열 서버로 전송하는 제1 음성 인식 클라이언트 모듈 처리 단계;
상기 발음열 서버로부터 상기 발음열에 따른 발음열 메타정보를 전송받는 단계; 및
상기 음성 인식 클라이언트 모듈이 상기 발음열 메타정보를 이용하여 음성 인식 모드를 조정하고 상기 조정된 음성 인식 모드에 따라 상기 발음열을 수정하여 의미를 인식하는 사용자 적응 모드로 동작하는 제2 음성 인식 클라이언트 모듈 처리 단계; 를 포함하고,
상기 발음열 메타정보는 상기 발음열이 해당하는 국가 또는 언어 또는 방언의 종류 또는 표준 발음열 정보 중 어느 하나를 포함하고,
상기 제2 음성 인식 클라이언트 모듈 처리 단계에서, 상기 음성 인식 클라이언트 모듈은 음성 명령 인식을 위하여 채택한 언어 또는 방언의 종류를 나타내는 상기 음성 인식 모드를 상기 발음열 메타정보에 따라 조정하고, 상기 조정된 음성 인식모드에서 상기 발음열을 표준 발음열로 수정하여 상기 수정된 표준 발음열의 의미를 인식하는 것을 특징으로 하는 것을 특징으로 하는, 네트워크를 이용한 사용자 적응 음성 명령 인식 방법.
제1항에 있어서,
상기 음성 인식 클라이언트 모듈을 부팅한 이후 상기 음성 인식 클라이언트 모듈이 네트워크에 연결되어 있는지 여부 또는 상기 발음열 서버에 접속하여 있는지 여부를 확인하는 단계; 및
상기 음성 인식 클라이언트 모듈이 네트워크에 연결되어 있지 않거나 또는 상기 발음열 서버에 접속하여 있지 않은 경우, 상기 음성 인식 클라이언트 모듈은 오프라인 모드로 동작하는 단계를 더 포함하는 것을 특징으로 하는, 네트워크를 이용한 사용자 적응 음성 명령 인식 방법.
제1항에 있어서,
상기 제1 음성 인식 클라이언트 모듈 처리 단계 후,
상기 발음열 서버가 상기 음성 인식 클라이언트 모듈로부터 상기 발음열을 전송받아 상기 발음열에 따른 상기 발음열 메타정보를 생성하고, 상기 생성된 발음열 메타정보를 상기 음성 인식 클라이언트 모듈로 전송하는, 서버 처리 단계; 를 더 포함하는 것을 특징으로 하는, 네트워크를 이용한 사용자 적응 음성 명령 인식 방법.
제1항에 있어서,
상기 제1 음성 인식 클라이언트 모듈 처리 단계는 상기 음성 명령의 음소를 분석하여 상기 발음열을 획득하고, 상기 발음열의 의미 인식을 시도하여 성공률이 일정 정도 이하인 경우를 상기 발음열의 의미 인식이 성공하지 못한 경우로 판단하고,
상기 발음열의 의미 인식을 시도하여 성공률이 일정 정도 이상이 되어 상기 발음열의 의미 인식이 성공한 경우는 상기 발음열의 의미에 따른 명령 동작을 수행하는 것을 특징으로 하는, 네트워크를 이용한 사용자 적응 음성 명령 인식 방법.
제3항에 있어서,
상기 서버 처리 단계는 상기 발음열의 패턴을 분석하고, 상기 발음열 서버의 서버 데이터베이스를 이용하거나 또는 외부 네트워크를 통한 검색을 이용하여 상기 발음열의 패턴에 따른 상기 발음열의 언어정보를 획득하고,
상기 획득된 발음열의 언어정보를 이용하여 상기 발음열 메타정보를 생성하는 것을 특징으로 하는, 네트워크를 이용한 사용자 적응 음성 명령 인식 방법.
삭제
제1항에 있어서,
상기 제2 음성 인식 클라이언트 모듈 처리 단계는, 상기 발음열을 로컬 발음열 데이터베이스에 추가하거나, 상기 발음열 서버로부터 상기 음성 인식 모드에 따른 발음열 데이터들을 전송받아 상기 로컬 발음열 데이터베이스에 추가하거나, 일정 빈도수 이하로 사용되는 상기 음성 인식 모드에 따른 발음열 데이터들을 상기 로컬 발음열 데이터베이스에서 삭제하여, 상기 로컬 발음열 데이터베이스를 갱신하는 것을 특징으로 하는, 네트워크를 이용한 사용자 적응 음성 명령 인식 방법.
음성 명령 인식 장치에 있어서,
외부 네트워크를 통한 검색을 이용하여 발음열에 대한 정보를 획득하는 발음열 서버; 및
음성 명령을 입력받아 상기 음성 명령에 따른 상기 발음열의 의미 인식을 시도하여 상기 발음열의 의미 인식이 성공하지 못하는 경우 상기 발음열을 상기 발음열 서버로 전송하고, 상기 발음열 서버로부터 상기 발음열에 따른 발음열 메타정보를 전송받고, 상기 발음열 메타정보를 이용하여 음성 인식 모드를 조정하고 상기 발음열을 수정하여 의미를 인식하는 음성 인식 클라이언트 모듈을 포함하고,
상기 발음열 메타정보는 상기 발음열이 해당하는 국가 또는 언어 또는 방언의 종류 또는 표준 발음열 정보 중 어느 하나를 포함하고,
상기 음성 인식 클라이언트 모듈은 상기 발음열 메타정보에 따라 조정된 음성 인식모드에서 상기 발음열을 표준 발음열로 수정하여 상기 수정된 표준 발음열의 의미를 인식하는 것을 특징으로 하는, 네트워크를 이용한 사용자 적응 음성 명령 인식 장치.
제8항에 있어서, 상기 음성 인식 클라이언트 모듈은,
외부로부터 상기 음성 명령을 입력받는 음성입력부;
상기 음성 인식 클라이언트 모듈이 네트워크에 연결되어 있는지 여부 또는 상기 발음열 서버에 접속하여 있는지 여부를 확인하는 네트워크 접속 확인부;
상기 음성 명령의 음소를 분석하여 상기 발음열을 획득하고, 상기 발음열의 의미 인식을 시도하여, 상기 발음열의 의미 인식이 성공하지 못하는 경우 상기 발음열을 상기 발음열 서버로 전송하고, 상기 발음열 서버로부터 상기 발음열 메타정보를 전송받아 상기 발음열 메타정보를 이용하여 상기 음성 인식 모드를 조정하고, 상기 조정된 음성 인식 모드에 따라 상기 발음열을 수정하여 의미를 인식하는 음성처리부; 및
상기 발음열의 언어 또는 방언 종류에 관한 정보와 상기 발음열의 의미 정보를 포함하는 정보를 저장하는 로컬 발음열 데이터베이스를 포함하는 것을 특징으로 하는, 네트워크를 이용한 사용자 적응 음성 명령 인식 장치.
제9항에 있어서, 상기 로컬 발음열 데이터베이스는,
상기 발음열을 상기 로컬 발음열 데이터베이스에 추가하거나, 상기 발음열 서버로부터 상기 음성 인식 모드에 따른 발음열 데이터들을 전송받아 상기 로컬 발음열 데이터베이스에 추가하거나, 일정 빈도수 이하로 사용되는 상기 음성 인식 모드에 따른 발음열 데이터들을 상기 로컬 발음열 데이터베이스에서 삭제하여, 상기 로컬 발음열 데이터베이스를 갱신하는 것을 특징으로 하는, 네트워크를 이용한 사용자 적응 음성 명령 인식 장치.
제8항에 있어서, 상기 발음열 서버는,
상기 발음열의 패턴을 분석하는 발음열 패턴 분석부;
외부 네트워크를 통한 검색을 이용하여 상기 발음열의 패턴에 따른 상기 발음열의 언어정보를 획득하는 발음열 정보 획득부; 및
상기 발음열의 패턴에 따른 상기 발음열 메타정보를 생성하는 발음열 메타정보 생성부를 포함하는 것을 특징으로 하는, 네트워크를 이용한 사용자 적응 음성 명령 인식 장치.
제11항에 있어서, 상기 발음열 서버는,
서버 데이터베이스를 더 포함할 수 있고,
상기 발음열 정보 획득부는 상기 서버 데이터베이스를 이용하거나 또는 외부 네트워크를 통한 검색을 이용하여 상기 발음열의 패턴에 따른 상기 발음열의 언어정보를 획득하는 것을 특징으로 하는, 네트워크를 이용한 사용자 적응 음성 명령 인식 장치.