KR102395760B1

KR102395760B1 - 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템 및 그 제어 방법

Info

Publication number: KR102395760B1
Application number: KR1020200048789A
Authority: KR
Inventors: 박정식
Original assignee: 한국외국어대학교 연구산학협력단
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2022-05-10
Also published as: KR20210130494A

Abstract

본 발명은 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템 및 그 제어 방법에 관한 것으로서, 입력된 음성신호로부터 비음성 및 잡음구간을 제외한 음성구간을 검출하는 음구간성 검출부; 검출된 음성구간 길이가 기 설정된 트리거 음성 길이 범위 내에 포함되지 않는 경우, 일반 음성인 것으로 판단하여 해당 음성을 걸러내는 음성 필터부; 음성구간 길이가 트리거 음성 길이 범위 내에 포함된 구간의 음성 신호를 대상으로 기 학습된 N개의 트리거 모델과의 유사도를 측정하여 그중 최고값과 필터링 모델과의 유사도 결과를 비교하여, 최고값이 필터링 모델의 결과보다 높은 경우 해당 트리거 모델을 인식 결과로 선택하는 트리거 인식부; 인식된 결과의 신뢰도를 평가하여 N개의 트리거와 대응되는 어느 하나의 디바이스와 매칭되는지 여부에 따라 타겟 디바이스를 선별하는 후처리부; 및 선별된 타겟 디바이스를 활성화시키고, 인식된 사용자 음성(제어 명령어)을 음성인식 서버로 전송하여 수신한 음성인식 결과(제어명령)와 대응하는 작업을 수행하도록 타겟 디바이스를 제어하는 제어부를 포함한다.

Description

다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템 및 그 제어 방법{Multi-channel voice trigger system and control method for voice recognition control of multiple devices}

본 발명은 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템 및 그 제어 방법에 관한 것으로, 더욱 상세하게는 사용자와 장치들 간에 직접 통신을 제공하기 위해 적어도 둘 이상의 트리거 단어를 인식하여 모든 IoT (Internet of Things) 장비를 독립적으로 제어하는 음성 트리거 기술에 관한 것이다.

사물 인터넷 (IoT) 환경에서 다양한 유형의 장치 또는 시스템이 연결되어 데이터 수집 및 교환이 가능하다. 스마트 홈 환경의 IoT는 TV, 냉장고, 에어컨 등 다양한 가전제품 사이의 상호 연결 및 모든 속성을 디지털화하게 된다. 따라서, IoT의 요소는 제어 명령의 신속한 전달과 자동 응답을 위해 효율적인 통신 방법이 요구된다. 특히, 스마트 홈 환경에서의 지능형 인터페이스는 사람과 장치 사이의 효율적인 상호 작용에서 중요한 역할을 하게 된다.

사물 인터넷 (IoT) 환경에서 인터페이스의 필요성은 이미 상당한 기술적 발전과 성공적인 상용 응용으로 이어졌으며, 스마트 홈과 사무실의 IoT 인터페이스를 통해 사람들은 IoT 장치를 효율적이고 편리한 운영이 가능한데, 가장 대표적인 인터페이스는 모바일 애플리케이션과 임베디드 터치스크린을 포함하며 사람들이 전통적인 그래픽 인터페이스를 통해 인간과 기계간의 상호 작용을 경험할 수 있다.

그러나, IoT 장치의 그래픽 인터페이스는 편의상 몇 가지 단점이 있다. IoT 장치를 제어하기 위해 모바일 응용 프로그램을 사용하는 사람들은 각 장치와 관련된 응용 프로그램을 검색 한 다음 모바일 장치의 소형 디스플레이 패널을 보면서 메뉴를 선택해야 한다. 이 유형의 제어는 시간이 많이 걸리는 작업이므로 빠른 작동이 필요한 작업에는 적합하지 않고, 특히 핸드 헬드 장치의 인터페이스에 익숙하지 않은 노인과 어린이는 응용 프로그램을 작동하는 데 어려움이 있을 수 있다.

또한, 전자 제품과 같은 일부 장치는 장치에 부착 된 터치스크린의 그래픽 인터페이스를 통해 직접 제어 할 수 있어 기능을 조작하기 위한 노력과 어려움을 감소시키지만 사용자는 장치로 이동하여 터치 입력을 해야만 하는 번거로움이 있다.

최근 몇 년간 가정과 사무실에서 IoT 장치의 수가 증가함에 따라 기존 그래픽 인터페이스가 음성 기반 인터페이스로 대체되었다. 대표적인 장치는 음성 명령을 사용하여 가상 도우미 기능과 음악 재생 및 홈 오토메이션 장치 제어와 같은 대화 형 작업을 제공하는 스마트 스피커 (음성 보조라고도 함)이다. 이러한 음성 인터페이스는 자연어를 사용하여 핸즈프리 활성화를 제공하므로 사람들이 메뉴를 검색하거나 터치 입력하지 않고도 장치에 원격으로 액세스하고 직관적으로 장치를 작동 할 수 있다.

그러나, 스마트 홈과 같은 IoT 환경에서는 다양한 기능을 가진 더 많은 다수의 전자 장치에 대한 제어를 수행해야 하는데, 종래의 그래픽 인터페이스는 IoT 장치를 빠르고 편리하게 작동시키기 어려운 문제점이 있다. 따라서 IoT 환경에서 사람과 기계의 상호 작용을 위한 대안으로 음성 인터페이스를 이용한 IoT 장치들의 제어 기술이 요구되고 있다.

도 1은 스마트 장치에 사용되는 음성 인터페이스의 표준 작동 방식을 도시한 도면이다. 스마트 장치에는 마이크가 장착되어 있으며 음성 인식을 작동하는 클라우드 서버와 연결되고, 각 장치에서 트리거 모듈은 지속적으로 작동한다.

또한, 트리거 모듈은 사용자가 말한 단어를 듣고 나면 음성 인식 엔진을 활성화하기 위해 원격 클라우드 서버에 메시지를 전송하고, 사용자가 말한 데이터 다음에 나오는 단어는 서버로 전송 된 다음 엔진에서 인식한다. 트리거링 단어는 '트리거 단어' 또는 '깨우기 단어' 라고 하는 사전 정의 된 단어이며, 사용자의 음성을 인식 한 후 서버는 적절한 응답을 작성하고 응답 메시지를 장치로 전송한다.

그런 다음 스마트 장치는 합성 된 음성을 통해 사용자에게 응답을 수행하며, 이러한 프로세스를 통해 사용자는 장치와 직접 통신하는 것처럼 느낄 수 있다.

표준 음성 인터페이스 프레임 워크는 IIoT 환경에서 몇 가지 단점을 유발할 수 있는데, 각 IIoT 장치가 자체 음성 인터페이스를 독립적으로 운영한다고 가정하면 이 구조는 더 많은 장치가 음성 인식을 수행하기 때문에 데이터 전송에 상대적으로 높은 비용이 요구된다. 또한, 장치의 트리거 모듈은 각 장치와 관련된 트리거 단어를 포착하기 위해 입력 사운드를 계속 듣고 있어야만 하는 단점이 있다.

또 다른 단점은 트리거 오류에 관한 것인데, 사용자가 특정 장치에 대해 말하는 트리거 단어를 잘못 인식하여 하나 이상의 다른 장치를 깨울 수 있다. 이 문제를 방지하려면 사용자는 트리거 단어를 전송할 때마다 각 장치에 접근해야만 하는 문제점이 있다.

한편, 도 2는 종래의 표준 음성 트리거 방식의 절차를 도시한 도면이다. 도 2에 도시된 바와 같이 종래에는 음성 기반 제어를 위한 음성 트리거 기술이 적용되었는데 이때 음성 트리거는 키워드 검색 기술과 유사하다. 일반적인 키워드 검색은 문장 단위의 음성 발언에서 키워드를 식별하는 반면 음성 트리거는 고립 단어 혹은 호출어와 같이 분리된 발화에서 트리거 단어를 감지하게 된다. 이처럼, 음성 트리거는 키워드 검색의 특수한 작업이며 일반적으로 음성 인식 장치를 깨우는 데 사용된다.

이처럼, 종래의 표준 음성 트리거 방식의 절차를 따르면 한 개의 트리거 단어에 대해 단일 트리거 인식을 제공하게 되며, 스마트 장치에 내장된 트리거 모듈은 전적으로 장치에 의존함에 따라 단일 트리거 단어를 사용하여 음성 인식을 활성화하게 된다.

또한, 단일 트리거 모델의 사용을 고려하여 이 방법을 단일 채널 음성 트리거로 지정하게 되는데, 이때, 장치에 입력된 모든 입력 음성에 대해 단일 트리거 모델과 입력 음성의 유사성을 의미하는 인식 결과를 생성하게 되고, 입력 음성이 트리거 단어에 해당하는지 여부를 결정하기 위해 결과를 사전 추정 된 임계값과 비교를 수행해야 한다. 그리고, 트리거 단어가 최종 결정된 후, 다음의 음성 신호는 인식 될 음성 명령으로 간주된다. 이처럼 고정된 임계값과의 비교를 통해 트리거 단어를 결정하는 종래의 방식은 임계값의 정확도에 의존하여 트리거 인식률이 결정되며, 음성에 배경 잡음이 유입될 경우 오류율이 커지는 문제점이 있다.

대한민국 공개특허 제10-2018-0109633호(2018.10.08.공개)

본 발명의 목적은, 제어부에 구비된 트리거 모듈을 통해 모든 디바이스를 독립적으로 제어함으로써, 다채널 보이스 트리거를 통해 다중 디바이스의 음성인식 제어를 가능하게 하는데 있다.

구체적으로 본 발명의 목적은, 입력된 음성에 대해 트리거별로 미리 학습된 트리거 모델들과의 유사도 중 최고값과 필터링 모델과의 유사도 결과를 비교하되, 트리거 모델 중에 최고값이 필터링 모델의 결과보다 높은 경우, 입력 신호를 해당 트리거 단어로 결정하여 해당 트리거 단어와 대응하는 타겟 디바이스를 주 시스템과 연결시키고, 반대로 필터링 모델의 결과가 높은 경우 트리거가 아닌 일반 음성으로 간주하여 무시함으로써, 트리거 되지 않은 음성 신호에 대해서는 필터링하고, 그렇지 않은 음성 신호는 다채널 보이스 트리거를 통해 다중 디바이스의 음성인식 제어를 가능하게 하는데 있다.

본 발명의 목적은, 음성인식 허브가 인식한 트리거 명령과 대응하는 타겟 디바이스와 연결하되, 사용자 음성으로 인식한 제어명령을 서버로 전송하여 수신한 음성인식 결과에 따라 타겟 디바이스의 구동을 제어함으로써, 단일 음성인식 허브를 통해 다수의 디바이스들 간의 음성인식과 제어명령 수행이 가능하게 하는데 있다.

이러한 기술적 과제를 해결하기 위한 본 발명의 일 실시예는 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템으로서, 입력된 음성신호로부터 비음성 및 잡음구간을 제외한 음성구간을 검출하는 음구간성 검출부; 검출된 음성구간 길이가 기 설정된 트리거 음성 길이 범위 내에 포함되지 않는 경우, 일반 음성인 것으로 판단하여 해당 음성을 걸러내는 음성 필터부; 음성구간 길이가 트리거 음성 길이 범위 내에 포함된 구간의 음성 신호를 대상으로 기 학습된 N개의 트리거 모델과의 유사도를 측정하여 그중 최고값과 필터링 모델과의 유사도 결과를 비교하여, 최고값이 필터링 모델의 결과보다 높은 경우 해당 트리거 모델을 인식 결과로 선택하는 트리거 인식부; 인식된 결과의 신뢰도를 평가하여 N개의 트리거와 대응되는 어느 하나의 디바이스와 매칭되는지 여부에 따라 타겟 디바이스를 선별하는 후처리부; 및 선별된 타겟 디바이스를 활성화시키고, 인식된 사용자 음성(제어 명령어)을 음성인식 서버로 전송하여 수신한 음성인식 결과(제어명령)와 대응하는 작업을 수행하도록 타겟 디바이스를 제어하는 제어부를 포함하는 것을 특징으로 한다.

바람직하게는, 트리거 인식부는 검출된 음성구간 내의 음성 신호를 대상으로 주파수 변환 및 음향 특징 파리미터를 추출하는 음향특징 추출모듈; 음향 특징과 기 학습된 N개의 트리거 모델과의 유사도를 측정하여 그중 최고값을 나타내는 트리거 모델을 선별하는 최고값 트리거 선별모듈; 및 최고값과 필터링 모델과의 유사도 결과를 비교하여, 최고값이 필터링 모델의 결과보다 높은 경우 해당 트리거 모델을 인식 결과로 선택하는 트리거 명령어 인식모듈을 포함하는 것을 특징으로 한다.

인식 결과의 신뢰도를 평가하는 후처리부는, 트리거 모델의 음성 구간이 N개의 트리거 모델과 매칭되는 정도를 수치화해 유사도 순으로 정렬하는 유사도 정렬모듈; N개의 정렬된 유사도 중 1순위와 나머지 순위간의 차이를 계산하여 그 값이 기 정해 놓은 임계치보다 클 경우 신뢰도가 있다고 판정하는 인식결과 검증모듈; 및 신뢰도가 있다고 판정된 트리거와 대응하는 디바이스를 선별하여 타겟 디바이스로 설정하는 디바이스 선별모듈을 포함하는 것을 특징으로 한다.

그리고, 전술한 시스템을 기반으로 하는 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 제어 방법은, 음성구간 검출부가 인식된 음성신호로부터 비음성 및 잡음구간을 제외한 음성구간을 검출하는 (a) 단계; 음성 필터부가 검출된 음성구간 길이가 기 설정된 트리거 음성 길이 내에 포함되는지 여부를 판단하는 (b) 단계; (b) 단계의 판단결과, 음성구간 길이가 기 설정된 트리거 음성 길이 내에 포함되는 경우, 트리거 인식부가 N개의 트리거 명령어 모델과의 유사도 중 최고값과 대응하는 모델을 색인하여 트리거 명령어로 인식하는 (c) 단계; 후처리부가 신뢰도 평가에 따라 트리거 명령어가 N개의 트리거와 대응되는 어느 하나의 디바이스와 매칭되는지 여부를 최종 판단하는 (d) 단계; (d) 단계의 판단결과, 후처리부가 인식된 트리거 명령어와 매칭되는 디바이스를 타겟 디바이스로 선별하는 (e) 단계; 및 제어부가 인식된 사용자 음성을 음성인식 서버로 전송하여 수신한 음성인식 결과를 수신하고, 제어명령과 대응하는 작업을 수행하도록 타겟 디바이스를 제어하는 (f) 단계를 포함하는 것을 특징으로 한다.

(b) 단계 이후, 트리거 인식부가 검출된 음성구간 길이가 기 설정된 트리거 음성 길이 내에 포함되는 음성구간을 인가받는 (c-1) 단계; 트리거 인식부가 트리거 음성 길이 내에 포함되는 음성구간의 음성 신호에 대해 N개의 트리거 모델과의 유사도를 계산하고 필터링 모델과의 유사도를 계산하는 (c-2) 단계; 트리거 인식부가 N개의 트리거 모델 중 최고값과 필터링 모델과의 유사도를 비교하여, 최고값이 필터링 모델과의 유사도보다 작을 경우 입력 음성이 비 트리거 단어라 판정하는 (c-3) 단계; 및 (c-3) 단계의 판정결과, 트리거 모델 중 최고값이 필터링 모델과의 유사도보다 높을 경우, 트리거 인식부가 최고값을 나타내는 모델을 트리거 명령어로 인식하는 (c-4) 단계를 포함하는 것을 특징으로 한다.

상기와 같은 본 발명의 일 실시예에 따르면, 입력된 음성에 대해 트리거별로 미리 학습된 트리거 모델들과의 유사도 중 최고값과 필터링 모델과의 유사도 결과를 비교하되, 트리거 모델 중에 최고값이 필터링 모델의 결과보다 높은 경우, 입력 신호를 해당 트리거 단어로 결정하여 해당 트리거 단어와 대응하는 타겟 디바이스를 주 시스템과 연결시키고, 반대로 필터링 모델의 결과가 높은 경우 트리거가 아닌 일반 음성으로 간주하여 무시함으로써, 트리거 되지 않은 음성 신호에 대해서는 필터링하고, 그렇지 않은 음성 신호는 다채널 보이스 트리거를 통해 다중 디바이스의 음성인식 제어가 가능한 효과가 있다.

도 1은 스마트 장치에 사용되는 음성 인터페이스의 표준 작동 방식을 도시한 도면.
도 2는 표준 음성 트리거 방식의 절차를 설명한 도면.
도 3은 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템을 도시한 블록도.
도 4는 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템의 세부구성을 도시한 블록도.
도 5는 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템의 다중 채널 음성 트리거 구조를 도시한 예시도.
도 6은 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템의 트리거 검증을 위한 후처리 절차를 도시한 예시도.
도 7은 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 방법을 도시한 순서도.
도 8은 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 제어 방법의 제S706단계를 도시한 순서도.
도 9은 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 제어 방법의 제S708단계를 도시한 순서도.
도 10은 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 제어 방법의 제S712단계를 도시한 순서도.

본 발명의 구체적인 특징 및 이점들은 첨부 도면에 의거한 다음의 상세한 설명으로 더욱 명백해질 것이다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 발명자가 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 그 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다. 또한, 본 발명에 관련된 공지 기능 및 그 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는, 그 구체적인 설명을 생략하였음에 유의해야 할 것이다.

도 3을 참조하면 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템(300)은, 입력된 음성신호로부터 비음성 및 잡음구간을 제외한 음성구간을 검출하는 음성구간 검출부(310)와, 검출된 음성구간 길이가 기 설정된 트리거 음성 길이 범위 내에 포함되지 않는 경우, 일반 음성인 것으로 판단하여 해당 음성을 걸러내는 음성 필터부(320)와, 음성구간 길이가 트리거 음성 길이 범위 내에 포함된 구간의 음성 신호를 대상으로 기 학습된 N개의 트리거 모델과의 유사도를 측정하여 그중 최고값과 필터링 모델과의 유사도 결과를 비교하여, 최고값이 필터링 모델의 결과보다 높은 경우 해당 트리거 모델을 인식 결과로 선택하는 트리거 인식부(330)와, 인식된 결과의 신뢰도를 평가하여 N개의 트리거와 대응되는 어느 하나의 디바이스와 매칭되는지 여부에 따라 타겟 디바이스를 선별하는 후처리부(340), 및 선별된 타겟 디바이스를 활성화(wake-up)시키고, 인식된 사용자 음성(제어 명령어)을 음성인식 서버(10)로 전송하여 수신한 음성인식 결과(제어명령)와 대응하는 작업을 수행하도록 타겟 디바이스를 제어하는 제어부(350)를 포함하여 구성된다.

즉, 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템은, 입력된 음성에 대해 트리거별로 미리 학습된 트리거 모델들과의 유사도 중 최고값과 필터링 모델과의 유사도 결과를 비교하되, 트리거 모델 중에 최고값이 필터링 모델의 결과보다 높은 경우, 입력 신호를 해당 트리거 단어로 결정하여 해당 트리거 단어와 대응하는 타겟 디바이스를 주 시스템과 연결시키고, 반대로 필터링 모델의 결과가 높은 경우 트리거가 아닌 일반 음성으로 간주하여 무시하도록 구성된다.

이하, 도 4를 참조하여 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템(300)의 세부구성에 대해 살피면 아래와 같다.

먼저, 음성구간 검출부(310)는 기 설정된 크기의 세그먼트로 분할하는 음성 분할모듈(312), 세그먼트에 속한 음성 신호에서 에너지 등 특징을 추출하는 특징 추출모듈(314), 및 추출된 특징을 이용하여 각 세그먼트가 음성 구간인지 비음성 구간인지 구분하고 음성구간만을 선별하는 음성구간 검출모듈(316)을 포함하여 구성된다.

또한, 음성 필터부(320)는 검출된 음성구간 길이가 기 설정된 트리거 음성 길이 범위 내에 포함되는지 여부를 판단하는 음성구간 비교모듈(322), 및 검출된 음성구간 길이가 기 설정된 트리거 음성 길이 내에 포함되지 않는 경우, 해당 음성구간이 일반 음성(긴 대화)인 것으로 인식하여 필터링하는 음성구간 필터모듈(324)을 포함하여 구성된다.

또한, 트리거 인식부(330)는 음성 필터부(320)에 의해 검출된 음성구간 내의 음성 신호를 대상으로 주파수 변환 및 음향 특징 파리미터를 추출하는 음향특징 추출모듈(332), 음향 특징을 이용하여 기 학습된 N개의 트리거 모델과의 유사도를 측정하여 그중 최고값을 나타내는 트리거 모델을 선별하는 최고값 트리거 선별모듈(334), 및 최고값과 필터링 모델과의 유사도 결과를 비교하여, 최고값이 필터링 모델의 결과보다 높은 경우 해당 트리거 모델을 인식 결과로 선택하는 트리거 명령어 인식모듈(336)을 포함하여 구성된다.

또한, 후처리부(340)는 해당 트리거 모델의 음성 구간이 N개의 트리거 모델과 매칭되는 정도를 수치화해 유사도 순으로 정렬하는 유사도 정렬모듈(342)과, N개의 정렬된 유사도 중 1순위와 나머지 순위 간의 차이가 1순위 결과의 신뢰도와 관련이 있다는 개념을 기반으로, 1순위와 나머지 순위간의 차이를 계산하여 그 값이 기 정해 놓은 임계치보다 클 경우 신뢰도가 있다고 판정하는 인식결과 검증모듈(344), 및 1순위 결과의 신뢰도가 충족될 경우 트리거와 대응하는 디바이스를 선별하여 타겟 디바이스로 설정하는 디바이스 선별모듈(346)을 포함하여 구성된다.

이때, 후처리부(340)가 인식 결과 검증을 위해 유사도로 사용하는 값은 모델 학습 방법에 따라 결정된다(가령, 확률 기반 모델 학습의 경우 우도값(likelihood)을 사용).

그리고, 제어부(350)는 시스템과 링크를 연결하여 타겟 디바이스를 활성화시키는 디바이스 활성화모듈(352), 타겟 디바이스가 활성화된 이후, 사용자가 발성한 음성(디바이스 제어 명령어가 포함된 사용자 음성)을 음성인식 서버(10)로 전송하고, 음성인식 서버(10)로부터 제어명령을 수신하는 중개모듈(354), 및 제어명령과 대응하는 작업을 수행하도록 타겟 디바이스의 구동을 제어하는 제어모듈(356)을 포함하여 구성된다.

이때, 중개모듈(354)과 각각의 디바이스는 무선통신망을 통해 서버와 통신이 가능한 IoT 장비로 구성되며, 음성인식 서버(10)는 클라우드 환경에 구축될 수 있다.

이하, 도 5 및 도 6을 참조하여 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템의 다중 채널 음성 트리거 인식 및 후처리 구조에 대해 살피면 아래와 같다.

본 발명의 일 실시예에 의해 트리거 단어로 인식된 음성 영역은 후보 트리거로 상정하는데 이 영역은 인식 오류를 포함하는 비 트리거 단어일 수 있다. 따라서, 후처리(Post-Processing) 절차를 통해 인식 결과가 트리거 단어로 받아들여질 것인지 또는 비 트리거 단어로 거부되는지를 결정하게 된다.

이때, 결정 기준에 사용되는 유사도에 대해서는 모델 학습 방법에 따라 다를수 있는데, 종래의 HMM (Hidden Markov Model) 기반 음성 인식 방식의 경우 인식 결과로 계산되는 우도(likelihood)를 사용할 수 있다.

N개의 트리거 모델이 HMM 방식으로 학습될 경우 트리거 인식부(330)에서 입력 음성과 N개의 트리거 모델간의 유사도로 N개의 우도가 계산되며, 유사도 정렬 모듈(342)에서 우도값에 따라 순위가 결정하게 되며, 이에 따라 입력 음성은 첫 번째 순위를 의미하는 최고값을 나타내는 트리거 모델로 인식된다.

인식결과 검증모듈(344)에서는 N개의 정렬된 유사도 중 1순위와 나머지 순위 간의 차이가 1순위 결과의 신뢰도와 관련이 있다는 개념을 기반으로, 1순위와 나머지 순위의 차이를 계산하여 그 값이 기 정해 놓은 임계치보다 클 경우 신뢰도가 있다고 판정하는데 판정 기준 함수(DC(x))에 대해 살피면 [수학식 1]과 같다.

[수학식 1]

여기서, Rr(x)는 입력 음성 x에 대한 r번째 순위의 모델이고, P(x|Rr(x))는 Rr(x)에 대해 계산된 우도 확률이다.

[수학식 1]에서 첫 번째 순위 모델(R1(x))의 우도와 다른 모델의 우도 간의 차이를 계산하는데, 이때 인식 절차에서 얻은 우도의 일반적인 속성을 고려하되, DC1(x)는 두 확률 사이의 비율을 도출하고, DC2(x)는 두 확률 사이의 직접적인 차이를 도출한다.

이하, 도 7을 참조하여 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 제어 방법에 대해 살피면 아래와 같다.

먼저, 음성구간 검출부가 음성신호로부터 비음성 및 잡음구간을 제외한 음성구간을 검출한다(S702).

이어서, 음성 필터부가 검출된 음성구간 길이가 기 설정된 트리거 음성 길이 내에 포함되는지 여부를 판단한다(S704).

제S704단계의 판단결과, 음성구간 길이가 기 설정된 트리거 음성 길이 내에 포함되는 경우, 트리거 인식부가 N개의 트리거 명령어 모델과의 유사도 중 최고값과 대응하는 모델을 색인하여 트리거 명령어로 인식한다(S706).

뒤이어, 후처리부가 신뢰도 평가에 따라 트리거 명령어가 N개의 트리거와 대응되는 어느 하나의 디바이스와 매칭되는지 여부를 최종 판단한다(S708).

제S708단계의 판단결과, 후처리부가 인식된 트리거 명령어와 매칭되는 디바이스를 타겟 디바이스로 선별한다(S710).

그리고, 제어부가 인식된 사용자 음성을 음성인식 서버로 전송하여 수신한 음성인식 결과를 수신하고, 제어명령과 대응하는 작업을 수행하도록 타겟 디바이스를 제어한다(S712).

이하, 도 8을 참조하여 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 제어 방법의 제S706단계에 대해 살피면 아래와 같다.

제S704단계 이후, 트리거 인식부가 검출된 음성구간 길이가 기 설정된 트리거 음성 길이 내에 포함되는 음성구간을 인가받는다(S802).

이어서, 트리거 인식부가 트리거 음성 길이 내에 포함되는 음성구간의 음성 신호에 대해 N개의 트리거 모델과의 유사도를 계산하고 필터링 모델과의 유사도를 계산한다(S804).

뒤이어, 트리거 인식부가 N개의 트리거 모델 중 최고값과 필터링 모델과의 유사도를 비교하여, 최고값이 필터링 모델과의 유사도보다 작을 경우 입력 음성이 비 트리거 단어라 판정한다(S806).

제S806단계의 판정결과, 트리거 모델 중 최고값이 필터링 모델과의 유사도보다 높을 경우, 트리거 인식부가 최고값을 나타내는 모델을 트리거 명령어로 인식한다(S808).

이하, 도 9를 참조하여 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 제어 방법의 제S708단계에 대해 살피면 아래와 같다.

제S706단계 이후, 후처리부가 트리거 명령어로 판정된 해당 음성 구간이 N개의 트리거 모델과 매칭되는 정도를 수치화해 유사도 순으로 정렬한다(S902).

그리고, 후처리부가 N개의 정렬된 유사도를 이용하여 인식 결과의 신뢰도를 검증하고 검증을 통과한 트리거와 대응하는 디바이스를 선별하여 타겟 디바이스로 설정한다(S904).

이하, 도 10을 참조하여 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 제어 방법의 제S712단계에 대해 살피면 아래와 같다.

제S710단계 이후, 제어부가 선별된 타겟 디바이스를 활성화(wake-up)시킨다(S1002).

이어서, 제어부가 인식된 사용자 음성(제어 명령어)을 음성인식 서버로 전송하여 음성인식 결과(제어명령)를 수신한다(S1004).

그리고, 제어부가 제어명령과 대응하는 작업을 수행하도록 타겟 디바이스를 제어한다(S1006).

이처럼, 전술한 바와 같은 본 발명의 일 실시예에 의하면, 음성인식 허브가 인식한 트리거 명령과 대응하는 타겟 디바이스와 연결하되, 사용자 음성으로 인식한 제어명령을 서버로 전송하여 수신한 음성인식 결과에 따라 타겟 디바이스의 구동을 제어함으로써, 단일 음성인식 허브를 통해 다수의 디바이스들 간의 음성인식과 제어명령 수행이 가능하다.

이상으로 본 발명의 기술적 사상을 예시하기 위한 바람직한 실시 예와 관련하여 설명하고 도시하였지만, 본 발명은 이와 같이 도시되고 설명된 그대로의 구성 및 작용에만 국한되는 것이 아니며, 기술적 사상의 범주를 일탈함이 없이 본 발명에 대해 다수의 변경 및 수정이 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서 그러한 모든 적절한 변경 및 수정과 균등물들도 본 발명의 범위에 속하는 것으로 간주되어야 할 것이다.

300: 본 발명의 일 실시예에 따른 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템
310: 음성구간 검출부
312: 음성 분할모듈
314: 특징 추출모듈
316: 음성구간 검출모듈
320: 음성 필터부
322: 음성구간 비교모듈
324: 음성구간 필터모듈
330: 트리거 인식부
332: 음향특징 추출모듈
334: 최고값 트리거 선별모듈
336: 트리거 명령어 인식모듈
340: 후처리부
342: 유사도 정렬모듈
344: 인식결과 검증모듈
336: 디바이스 선별모듈
350: 제어부
352: 디바이스 활성화모듈
354: 중개모듈
10: 음성인식 서버

Claims

입력된 음성신호로부터 비음성 및 잡음구간을 제외한 음성구간을 검출하는 음성구간 검출부;
검출된 음성구간 길이가 기 설정된 트리거 음성 길이 범위 내에 포함되는지 여부를 판단하는 음성구간 비교모듈 및 검출된 음성구간 길이가 기 설정된 트리거 음성 길이 내에 포함되지 않는 경우, 해당 음성구간이 일반 음성(긴 대화)인 것으로 인식하여 필터링하는 음성구간 필터모듈을 포함하여, 검출된 음성구간 길이가 기 설정된 트리거 음성 길이 범위 내에 포함되지 않는 경우, 일반 음성인 것으로 판단하여 해당 음성을 걸러내는 음성 필터부;
상기 음성구간 길이가 트리거 음성 길이 범위 내에 포함된 구간의 음성 신호를 대상으로 기 학습된 N개의 트리거 모델과의 유사도를 측정하여 그중 최고값을 나타내는 트리거 모델을 선별하고, 최고값과 필터링 모델과의 유사도 결과를 비교하여, 최고값이 필터링 모델의 결과보다 높은 경우 해당 트리거 모델을 인식 결과로 선택하는 트리거 인식부;
인식된 결과의 신뢰도를 평가하여 N개의 트리거와 대응되는 어느 하나의 디바이스와 매칭되는지 여부에 따라 타겟 디바이스를 선별하는 후처리부 및
선별된 타겟 디바이스를 활성화시키고, 인식된 사용자 음성(제어 명령어)을 음성인식 서버로 전송하여 수신한 음성인식 결과(제어명령)와 대응하는 작업을 수행하도록 타겟 디바이스를 제어하는 제어부를 포함하되,
상기 제어부는 입력된 음성에 대해 트리거별로 미리 학습된 트리거 모델들과의 유사도 중 최고값과 필터링 모델과의 유사도 결과를 상기 트리거 인식부를 통해 비교하되, 트리거 모델 중에 최고값이 필터링 모델의 결과보다 높은 경우, 입력 신호를 해당트리거 단어로 결정하여 해당 트리거 단어와 대응하는 타겟 디바이스를 주 시스템과 연결시키고, 반대로 필터링 모델의 결과가 높은 경우 트리거가 아닌 일반음성으로 간주하여 무시하도록 제어하는 것을 특징으로 하는 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템.
제1항에 있어서,
상기 트리거 인식부는,
상기 검출된 음성구간 내의 음성 신호를 대상으로 주파수 변환 및 음향 특징 파리미터를 추출하는 음향특징 추출모듈;
음향 특징과 기 학습된 N개의 트리거 모델과의 유사도를 측정하여 그중 최고값을 나타내는 트리거 모델을 선별하는 최고값 트리거 선별모듈; 및
최고값과 필터링 모델과의 유사도 결과를 비교하여, 최고값이 필터링 모델의 결과보다 높은 경우 해당 트리거 모델을 인식 결과로 선택하는 트리거 명령어 인식모듈을
포함하는 것을 특징으로 하는 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템.
제1항에 있어서,
상기 후처리부는,
트리거 모델의 음성 구간이 N개의 트리거 모델과 매칭되는 정도를 수치화해 유사도 순으로 정렬하는 유사도 정렬모듈;
N개의 정렬된 유사도 중 1순위와 나머지 순위간의 차이를 계산하여 그 값이 기 정해 놓은 임계치보다 클 경우 신뢰도가 있다고 판정하는 인식결과 검증모듈; 및
신뢰도가 있다고 판정된 트리거와 대응하는 디바이스를 선별하여 타겟 디바이스로 설정하는 디바이스 선별모듈을
포함하는 것을 특징으로 하는 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템.
(a) 음성구간 검출부가 인식된 음성신호로부터 비음성 및 잡음구간을 제외한 음성구간을 검출하는 단계
(b) 음성 필터부가 검출된 음성구간 길이가 기 설정된 트리거 음성 길이 범위 내에 포함되는지 여부를 판단하고, 검출된 음성구간 길이가 기 설정된 트리거 음성 길이 내에 포함되지 않는 경우, 해당 음성구간이 일반 음성(긴 대화)인 것으로 인식하여 필터링하는 단계
(c) 상기 (b) 단계의 판단결과, 음성구간 길이가 기 설정된 트리거 음성 길이 내에 포함되는 경우, 트리거 인식부가 N개의 트리거 명령어 모델과의 유사도 중 최고값과 대응하는 모델을 색인하여 트리거 명령어로 인식하는 단계
(d) 후처리부가 색인된 트리거 명령어가 N개의 트리거와 대응되는 어느 하나의 디바이스와 매칭되는지 여부를 판단하는 단계
(e) 상기 (d) 단계의 판단결과, 후처리부가 인식된 트리거 명령어와 매칭되는 디바이스를 타겟 디바이스로 선별하는 단계 및
(f) 제어부가 인식된 사용자 음성을 음성인식 서버로 전송하여 수신한 음성인식 결과를 수신하고, 제어명령과 대응하는 작업을 수행하도록 타겟 디바이스를 제어하는 단계를 포함하며,
상기 (c)단계는 트리거 인식부가 음성 필터부에 의해 검출된 음성구간 내의 음성 신호를 대상으로 주파수 변환 및 음향 특징을 추출하며, 상기 음향 특징을 이용하여 기 학습된 N개의 트리거 모델과의 유사도를 측정하여 그중 최고값을 나타내는 트리거 모델을 선별하고, 최고값과 필터링 모델과의 유사도 결과를 비교하여, 최고값이 필터링 모델의 결과보다 높은 경우 해당 트리거 모델을 인식 결과로 선택하며,
상기 (f)단계는 상기 제어부가 입력된 음성에 대해 트리거별로 미리 학습된 트리거 모델들과의 유사도 중 최고값과 필터링 모델과의 유사도 결과를 상기 트리거 인식부를 통해 비교하되, 트리거 모델 중에 최고값이 필터링 모델의 결과보다 높은 경우, 입력 신호를 해당 트리거 단어로 결정하여 해당 트리거 단어와 대응하는 타겟 디바이스를 주 시스템과 연결시키고, 반대로 필터링 모델의 결과가 높은 경우 트리거가 아닌 일반 음성으로 간주하여 무시하도록 제어하는 것을 특징으로 하는 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 제어 방법.
제4항에 있어서,
상기 (b) 단계 이후,
(c-1) 트리거 인식부가 검출된 음성구간 길이가 기 설정된 트리거 음성 길이 내에 포함되는 음성구간을 인가받는 단계;
(c-2) 트리거 인식부가 트리거 음성 길이 내에 포함되는 음성구간의 음성 신호에 대해 N개의 트리거 모델과의 유사도를 계산하고 필터링 모델과의 유사도를 계산하는 단계;
(c-3) 트리거 인식부가 N개의 트리거 모델 중 최고값과 필터링 모델과의 유사도를 비교하여, 최고값이 필터링 모델과의 유사도보다 작을 경우 입력 음성이 비 트리거 단어라 판정하는 단계; 및
(c-4) 상기 (c-3) 단계의 판정결과, 트리거 모델 중 최고값이 필터링 모델과의 유사도보다 높을 경우, 트리거 인식부가 최고값을 나타내는 모델을 트리거 명령어로 인식하는 단계를
포함하는 것을 특징으로 하는 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 제어 방법.