KR20190065199A

KR20190065199A - 음성 인식을 위한 음성 입출력 장치 및 그 방법

Info

Publication number: KR20190065199A
Application number: KR1020190059384A
Authority: KR
Inventors: 김예진; 김예경; 김경훈
Original assignee: 엘지전자 주식회사
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2019-06-11
Also published as: US20200043492A1

Abstract

음성 인식을 위한 음성 입출력 장치 및 그 방법이 개시된다. 음성 인식을 위한 음성 입출력 방법은, 1차 발화 중 또는 1차 발화 후에 발생하는, 사용자가 지정한 이벤트(even)를 감지하는 단계, 이벤트가 감지된 시점에서 1차 발화에 대한 신호 처리가 완료되지 않은 경우, 1차 발화에 대한 신호 처리의 중지 요청 신호를 전송하는 단계 및 1차 발화에 대한 신호 처리가 중지된 상태에서 2차 발화를 인식하기 위해 대기하는 단계를 포함한다. 본 발명에 따르면, 발화된 음성을 취소함으로써 음성 인식 처리가 신속하게 진행될 수 있도록 할 수 있다.

Description

음성 인식을 위한 음성 입출력 장치 및 그 방법{APPARATUS AND METHOD OF INPUT/OUTPUT FOR SPEECH RECOGNITION}

본 발명은 음성 인식을 위한 입출력 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 인공지능 스피커 및 각종 스마트 전자 기기에서 음성 인식 서비스를 위해 음성 입력/출력을 처리하는 장치 및 그 방법에 관한 것이다.

음성 인식 기술은 인간의 말을 기계가 알아듣는 기술로서, 스마트폰의 대중화에 따라 미래 인간중심의 핵심 인터페이스 수단으로 주목 받고 있다. 음성 인식 기술을 기반으로 자연어처리, 지식처리를 부가하여 인간의 말을 이해하고 대화할 수 있는 방향으로 음성 인식 서비스가 발전하고 있다. 그리고 향후 의료, 교육, 문화, 자동차, 조선, 국방, IoT, 및 로봇 등 다양한 분야에서 새로운 융합 서비스가 창출될 것으로 예상된다.

가장 친근한 음성 인식 장치로서 스마트 스피커가 있다. 스마트 스피커는 무선 스피커의 일종으로서, 기동어(wakeup-word)의 도움을 받아 상호작용 동작과 핸즈프리 활성화를 제공하는 가상 비서가 내장된 보이스 커맨드 디바이스이다.

일부 스마트 스피커들은 음성 인식 및 자연어 처리 기능을 통해 개인 비서 역할을 할 수 있으며 블루투스와 기타 무선 프로토콜 표준을 사용하여 스마트홈 장치를 통제하기 하기 위한 수단으로 이용될 수 있다.

사람 사이의 대화에서 발언 취소와 마찬가지로, 스마트 스피커를 상대로 대화하는 경우에도 사용자의 발화 이후 해당 발화를 취소해야 할 경우가 발생한다. 이러한 경우 종래의 기술에서는 사용자는 "그게 아니고" 등의 순간적으로 스마트 스피커의 인식 범위를 벗어나는 발화를 하게 됨으로써 스마트 스피커의 동작이 지연되는 경우가 있다.

잘못 인식된 음성에 따라 실행된 제어를 취소할 수 있는 음성 인식 시스템이 선행기술 1에 의해 개시되어 있다.

그러나, 발화된 음성이 잘못 인식되고, 잘못 인식된 음성 명령에 의해 제어명령이 실행된 경우, 이를 취소하기 위해 새로운 발화 처리를 실행해야 하므로 선행기술 1은 음성 인식이 지연된다는 문제점을 가지고 있다.

기계의 동작이 잘못 인식된 음성에 의해 정지된 경우, 정지를 취소할 수 있는 음성 인식 시스템이 선행기술 2에 의해 개시되어 있다.

그러나, 정지를 취소하는 것은 새로운 발화를 하는 것이라는 점에서 선행기술 2는 음성 인식이 지연된다는 종래의 문제점을 여전히 해결하지 못한다.

도 1은 종래 기술에서 발화된 음성을 취소하는 재발화에 관한 예시도이다.

도 1을 참조하면, 사용자와 스마트 스피커, 즉 인공지능 스피커 사이의 대화가 묘사되어 있다. 사용자는 [하이 엘지]라는 기동어를 시작으로 스마트 스피커와 대화를 시작한다. 기동어 인식을 통해 스마트 스피커는 활성화된다.

다음으로 사용자가 [나 TV 전원 켜줘~ 아니다~ 아니야]와 같이 1차 발화에 덧붙여 1차 발화를 취소하려는 발언을 한다. 이에 대해 스마트 스피커는 그 내용을 인식하지 못하고, [죄송합니다 말씀을 이해하지 못했습니다], [다시 말씀해 주시기 바랍니다]라고 대답한다. 그리고 사용자는 [외출 모드로 해줘]라는 2차 발화를 하고, 스마트 스피커는 그제서야 오디오 프로세싱을 통해 사용자의 2차 발화를 인식하고 이에 대해 대답할 것이다.

이와 같이 종래의 기술에서 사용자가 스마트 스피커와의 대화에서 발화를 취소할 수 있는 효과적인 방법이 없어서 2차 발화가 인식되기까지 많은 시간적 지연이 있었다.

일본 공개특허공보 제2018-116206호(2018.07.26. 공개) 일본 공개특허공보 제2019-20589호(2019.02.07. 공개)

본 발명의 일 과제는, 발화된 음성을 취소하기 위해 또 다른 발화된 음성 처리 절차가 진행됨으로써 음성 인식이 지연되어 버리는 종래 기술의 문제점을 해결하는 것이다.

본 발명의 일 과제는, 잘못 발화된 음성이 처리되기 전에 이를 취소할 수 있는 음성 입출력 방법을 제공하고자 한다.

본 발명의 과제들은 이상에서 언급한 과제에 한정되지 않으며, 언급되지 않은 본 발명의 또 다른 과제들은 하기의 실시 예에 의해 보다 분명하게 이해될 것이다. 또한, 본 발명의 목적 및 장점들은 특허 청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 알 수 있을 것이다.

상술한 과제를 해결하기 위한 본 발명의 일 실시 예에 따른 음성 입출력 방법은, 1차 발화(first spoken utterance)를 취소하는 이벤트를 감지하는 단계, 이벤트가 감지된 시점에서 1차 발화에 대한 신호 처리가 완료되지 않은 경우, 1차 발화에 대한 신호 처리의 중지 요청 신호를 전송하는 단계 및 1차 발화에 대한 신호 처리가 중지된 상태에서 2차 발화를 인식하기 위해 대기하는 단계를 포함하도록 구성될 수 있다.

여기서, 1차 발화를 취소하는 이벤트(event)는 기동어와 구별되는 사용자의 음성일 수 있다.

또한, 1차 발화를 취소하는 이벤트는 사용자가 발생시키는 마찰음에 해당하는 환경음, 예를 들어 박수 소리 또는 핑거 스냅 소리일 수 있다.

또한, 1차 발화를 취소하는 이벤트는 1차 발화를 마친 후에 또는 1차 발화를 마치기 전에 감지될 수 있다.

본 발명에서, 중지 요청 신호는, 음성 인식, 음성의 내용 파악, 답변 생성 및 답변의 음성 변환 중에서 적어도 하나를 중지시킬 것을 요청하는 신호에 해당할 수 있다.

본 발명의 일 실시 예에 따른 음성 입출력 방법은, 이벤트가 감지된 시점에서 상기 1차 발화에 대한 신호 처리가 완료되었는지 여부를 판단하는 단계를 더 포함할 수 있다.

여기서, 음성 입출력 장치는 1차 발화에 대한 신호 처리가 완료되지 않은 경우, 1차 발화에 대한 음성 신호 처리의 중지를 요청하는 신호를 음성처리 시스템에 전송할 수 있다.

또한, 음성 입출력 장치는 감지된 이벤트에 해당하는 오디오 신호를 음성 처리 시스템에 전송하지 않을 수 있다.

본 발명의 일 실시 예에 따른 음성 입출력 방법은, 1차 발화에 대한 신호 처리 중지의 확인 메시지를 음성처리 시스템으로부터 수신하는 단계를 더 포함할 수 있다.

또한, 본 발명의 일 실시 예에 따른 음성 입출력 방법은, 1차 발화에 대한 신호 처리가 중지됐었음을 알리고, 새로운 음성을 입력할 것을 사용자에게 요청하는 단계를 더 포함할 수 있다.

또한, 본 발명의 일 실시 예에 따른 음성 입출력 방법은 1차 발화에 대한 신호 처리와 관련된 채널의 버퍼를 초기화할 것을 음성처리 시스템에 요청하는 단계를 더 포함할 수 있다.

본 발명의 일 실시 예에 따른 음성 입출력 방법은, 1차 발화(first spoken utterance)를 취소하는 이벤트(event)가 감지된 시점에서, 상기 1차 발화에 대한 신호 처리를 완료하지 않은 경우, 1차 발화에 대한 신호 처리의 중지 요청 신호를 수신하는 단계, 1차 발화에 대한 신호 처리를 중지하는 단계 및 1차 발화에 대한 채널의 버퍼를 초기화하는 단계를 포함하도록 구성될 수 있다.

본 발명의 일 실시 예에 따른 음성 입출력 장치는, 음성을 입력 및 출력하는 입력 및 출력 인터페이스 및 음성 인식 처리를 위해 상기 입력 및 출력 인터페이스를 제어하는 제어부를 포함한다. 여기서, 제어부는, 1차 발화(first spoken utterance)를 취소하는 이벤트(even)를 감지하고, 이벤트가 감지된 시점에서 상기 1차 발화에 대한 신호 처리가 완료되지 않은 경우, 상기 1차 발화에 대한 신호 처리의 중지 요청 신호를 전송하도록 설정될 수 있다.

본 발명에 의하면, 발화된 음성을 즉각적으로 취소함으로써 음성 인식 처리가 신속하게 진행될 수 있도록 할 수 있다.

또한, 발화된 음성이 처리되기 전에 이를 취소할 수 있어 불필요하게 기계가 정지하거나 동작을 대기하는 등의 자원 낭비를 방지할 수 있다.

도 1은 종래 기술에서 발화된 음성을 취소하는 재발화에 관한 예시도이다.
도 2는 본 발명의 일 실시 예에 따른 발화 취소에 관한 예시도이다.
도 3은 본 발명의 일 실시 예에 따른 음성 입출력 장치의 응용이 가능한 다양한 스마트 디바이스가 포함된 네트워크 환경의 예시도이다.
도 4는 본 발명의 일 실시 예에 따른 음성 입출력 장치의 블록도이다.
도 5는 본 발명의 일 실시 예에 따른 음성 입출력 방법의 데이터 흐름도이다.
도 6은 본 발명의 일 실시 예에 따른 감지모듈을 설명하기 위한 예시도이다.
도 7은 본 발명의 일 실시 에에 따른 음성처리 시스템의 블록도이다.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

도 2는 본 발명의 일 실시 예에 따른 발화 취소에 관한 예시도이다.

도 2를 참조하면, 본 발명의 일 실시 예에 따른 음성 인식을 위한 음성 입출력 장치(100), 즉 스마트 스피커를 이용한 발화 취소 과정이 묘사되어 있다. 사용자는 [하이 엘지]라는 기동어를 시작으로 스마트 스피커와 대화를 시작한다. 기동어 인식을 통해 스마트 스피커는 활성화된다.

다음으로 사용자가 [나 TV 전원 켜주~]와 같이 1차 발화를 완성하지 못하고 중간에 말을 맺는다. 이 경우 사용자가 1차 발화를 취소하려는 발언을 하는 경우도 있을 수 있다.

다음으로 사용자는 박수(clap) 소리를 낸다. 이 박수 소리에 스마트 스피커는 박수 소리 이전의 1차 발화의 처리를 중지 시키고, 초기 활성화 당시의 LED 빛과 구별되는 LED 빛을 발한다.

다음으로 사용자는 [외출 모드로 해줘]라는 2차 발화를 하고, 스마트 스피커는 사용자의 2차 발화를 인식하고, [외출 모드로 전환합니다]라는 대답을 사용자에게 한다.

이와 같이 본 발명의 일 실시 예에 따른 음성 인식을 위한 음성 입출력 장치(100)는 박소 소리와 같이 일반적인 발화와는 구별되는 취소어를 감지함으로써, 취소어 이전의 발화에 대한 음성 신호 처리를 취소하고, 새로운 발화를 감지할 수 있는 준비 상태로 전환할 수 있다. 이 경우 음성 입출력 장치(100)는 취소어에 의한 발화 취소 상태를 LED로 표시할 수 있다. 음성 입출력 장치(100)는 백그라운드에서 발생된 환경음을 감지하고, 현재 시점부터 발화를 재인식하게 된다.

도 3은 본 발명의 일 실시 예에 따른 음성 입출력 장치의 응용이 가능한 다양한 스마트 디바이스가 포함된 네트워크 환경의 예시도이다.

도 3을 참조하면, 다양한 종류의 본 발명의 일 실시 예에 따른 음성 인식을 위한 음성 입출력 장치(100), 음성처리 시스템(200) 및 이들 연결하는 네트워크(400)가 묘사되어 있다.

음성 입출력 장치(100)는 스마트 스피커(101), 스마트 폰(102), 스마트 세탁기(103), 스마트 청소기(104), 스마트 공조기(105) 및 스마트 냉장고(106) 중에서 적어도 하나를 포함할 수 있으며, 다만 이에만 한정되는 것은 아니다.

음성처리 시스템(200)은 음성 입출력 장치(100)로부터 음성 신호를 수신하고, 음성 인식 및 자연어 처리를 통해서 생성된 합성된 음성 신호를 음성 입출력 장치(100)로 전송한다.

음성처리 시스템(200)은 음성 입출력 장치(100)를 통해 취소어가 감지되면, 취소어 이전의 발화에 대한 처리를 중지한다. 또한, 음성처리 시스템(200)은 음성 입출력 장치(100)의 요청에 따르거나 또는 단독으로 해당 음성 인식 처리 중지와 관련된 채널의 버퍼를 초기화할 수 있다.

도 4는 본 발명의 일 실시 에에 따른 음성처리 시스템의 블록도이다.

도 4를 참조하면, 전처리(pre-processing) 단계를 수행하는 스마트 스피커(101)와 음성처리 시스템(200)이 묘사되어 있다. 음성처리 시스템(200)은 음성 인식부(automatic speech recognition)(210), 자연어 이해부(natural language understanding)(220), 자연어 생성부(natural language generation)(230) 및 음성 합성부(text to speech)(240)를 포함하도록 구성될 수 있다.

음성 인식부(210)는 음향모델(acoustic model), 언어모델(language model) 및 각종 사전(dictionary), 예를 들어 음향 사전(acoustic dictionary)을 이용하여 전처리 과정을 통해서 생성된 음성 데이터, 또는 음성 특징 벡터의 의미를 인식한다. 음성 인식에는 디코더, 즉 음성 인식 엔진이 사용될 수 있다. 여기서, 음성 인식 엔진은 확률이론, 인공지능 등의 다양한 방법을 이용하여 음성을 인식할 수 있다.

자연어 이해부(220)는 문법(grammar), 의미 정보(meaning information) 및 문맥 정보(context information)을 이용하여 인식된 음성의 의미를 파악하고 의미를 분석한다.

자연어 생성부(230)는 분석된 의미에 기초하여 지식 베이스(knowledge- base)를 이용하여 텍스트를 작성하고, 문장을 만들고 이를 실현한다.

음성 합성부(240) 음성 합성 엔진을 이용하여 실현된 문장을 음성으로 합성한다.

마지막으로 스마트 스피커(101)는 합성된 음성 신호를 소리로 출력한다.

음성처리 시스템(200)은 기능별로 복수의 서버를 포함할 수 있으며, 하나의 기능을 위해서 복수의 서버가 병렬처리도 가능하다. 또한, 음성처리 시스템(200)은 각 기능을 제어하는 중앙제어 서버를 별도로 포함할 수 있다.

음성 인식 기술은 모델을 학습하는 단계, 학습된 모델을 이용하여 인식하는 단계로 구분되고, 이 중 음향 모델 및 언어 모델을 학습시키는 기술이 음성 인식의 핵심 기술에 해당한다.

음향 모델 및 언어 모델의 학습 과정 및 음성 합성 과정에서 인공지능 알고리즘이 활용될 수 있다.

음성 데이터 분석은 영상 처리와 다르게 원 데이터의 형식이 일반적으로 1차원 데이터라는 점과, 시계열성이라는 특징을 갖는다. 따라서 시계열 처리를 위한 딥러닝 기법이 음성 데이터 분석에 많이 활용된다.

Recurrent Neural Network(RNN) 구조를 이용한 시계열 처리 방식에 따라 수행되는 음성 데이터 분석 방법에 딥러닝이 적용될 수 있다. RNN 구조는 기존의 히든 레이어에서 루프가 추가된 형태를 의미한다. RNN은 음성 인식뿐만 아니라 자연어 처리에도 활용될 수 있다.

음성 합성은 음성 인식의 반대되는 개념으로 문자를 음성 신호로 변환하는 기술을 의미한다. 음성 합성에서도 딥러닝을 이용하여 샘플 단위로 음성이 합성될 수 있다.

그 밖에 딥러닝을 활용한 오디오 분석 기술로서 드럼 전사 기술과 자동 태깅 기술이 있다.

네트워크(400)는 유선 및 무선 네트워크, 예를 들어 LAN(local area network), WAN(wide area network), 인터넷(internet), 인트라넷(intranet) 및 엑스트라넷(extranet), 그리고 모바일 네트워크, 예를 들어 셀룰러, 3G, LTE, WiFi 네트워크, 애드혹 네트워크 및 이들의 조합을 비롯한 임의의 적절한 통신 네트워크 일 수 있다.

네트워크(400)는 허브, 브리지, 라우터, 스위치 및 게이트웨이와 같은 네트워크 요소들의 연결을 포함할 수 있다. 네트워크(400)는 인터넷과 같은 공용 네트워크 및 안전한 기업 사설 네트워크와 같은 사설 네트워크를 비롯한 하나 이상의 연결된 네트워크들, 예컨대 다중 네트워크 환경을 포함할 수 있다. 네트워크(400)에의 액세스는 하나 이상의 유선 또는 무선 액세스 네트워크들을 통해 제공될 수 있다.

도 5는 본 발명의 일 실시 예에 따른 음성 입출력 장치의 블록도이다.

도 5를 참조하면, 본 발명의 일 실시 예에 따른 음성 인식을 위한 음성 입출력 장치(100)는 입력 인터페이스(110), 출력 인터페이스(120), 통신부(130) 및 전원모듈(140), 제어부(150) 및 메모리(160)를 포함하도록 구성될 수 있다.

인터페이스부(110)와 출력 인터페이스(120)는 음성 입출력 장치(100)에 연결되는 다양한 종류의 외부 기기와의 통로 역할을 수행한다.

입력 인터페이스(110)는, 음성을 음성 신호로 변환하는 마이크로폰(111)과 볼륨 조절용 및 기동 기능의 버튼(112)을 포함한다. 그 밖에 입력 인터페이스(110)는 유/무선 데이터 포트, 메모리 카드 포트, 오디오 입력 포트, 비디오 입력 포트 중 적어도 하나를 포함할 수 있다.

출력 인터페이스(120)는 광 출력부(121) 및 음향 출력부(122)를 포함한다.

광 출력부(121)는 음성 입출력 장치(100)의 상태를 서로 다른 색의 LED로 표시할 수 있다. 예를 들어, 광 출력부(121)는 기동어에 의해 활성화된 상태, 취소어에 의해 발화가 취소된 상태 및 음성처리 결과가 출력된 상태를 구별하여 표시할 수 있다.

음향 출력부(122)는 스피커와 같은 음향 디바이스를 이용하여 합성된 음성을 출력할 수 있다. 그 밖에 출력 인터페이스(120)는 유/무선 헤드셋 포트(port), 유/무선 데이터 포트, 식별 모듈이 구비된 장치를 연결하는 포트(port), 오디오 출력 포트, 비디오 출력 포트, 이어폰 포트 중 적어도 하나를 포함할 수 있다.

통신부(130)는 데이터의 송신 및 수신을 위해 음성 입출력 장치(100)를 무선 통신, 예를 들어 3G, 4G, 5G 및 인터넷 네트워크를 포함하는 네트워크(400)에 연결시키는 디바이스이다. 음성 입출력 장치(100)는 통신부(130)를 이용하여 텍스트 데이터 및 음성 데이터를 송시 및 수신할 수 있다. 통신부(130)는 예를 들어, 각종 무선 인터넷 모듈, 근거리 통신 모듈, GPS 모듈, 이동 통신을 위한 모뎀 등에서 적어도 하나 이상을 포함하도록 구성될 수 있다.

무선 인터넷 모듈은 무선 인터넷 접속을 위한 모듈을 말한다. 무선 인터넷 모듈은 무선 인터넷 기술들에 따른 통신망에서 무선 신호를 송수신하도록 이루어진다.

무선 인터넷 기술로는, 예를 들어 WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), Wi-Fi(Wireless Fidelity) Direct, DLNA(Digital Living Network Alliance), WiBro(Wireless Broadband), WiMAX(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced) 등이 있다.

근거리 통신 모듈은 근거리 통신(Short range communication)을 위한 것으로서, 블루투스(Bluetooth™), RFID(Radio Frequency Identification), 적외선 통신(Infrared Data Association; IrDA), UWB(Ultra Wideband), ZigBee, NFC(Near Field Communication), Wi-Fi(Wireless-Fidelity), Wi-Fi Direct, Wireless USB(Wireless Universal Serial Bus) 기술 중 적어도 하나를 이용하여, 근거리 통신을 지원할 수 있다.

전원모듈(140)은 2차 배터리, 충전과 방전을 위한 회로 및 외부 충전기 포트(port)를 포함할 수 있다.

제어부(150)는 프로세서(151)를 포함할 수 있다. 프로세서(151)는 입력 인터페이스(110), 출력 인터페이스(120), 통신부(130) 및 전원모듈(140)을 제어하고, 그 밖에 메모리(160)에 저장된 감지모듈을 통해 사용자의 발화 및 취소어 감지를 제어할 수 있다.

프로세서(151)는 입력 음성에 대한 전처리(pre-processing)을 수행한다. 예를 들어, 사용자의 발화 및 이와 구별되는 취소어에 해당하는 박수소리, 핑거 스냅 소리와 같은 환경음 또는 미리 등록된 취소어 음성을 마이크로폰(111)을 통해 음성 신호로 변환된다. 프로세서(151)는 샘플링 과정을 통해 음성 신호를 디지털 신호로 변환한다. 프로세서는(151) 디지털 신호에 대해 사용자의 음성 및 인식된 취소어를 제외한 노이즈를 제거하는 전처리를 수행할 수 있다.

메모리(160)는 감지모듈 #1(161) 및 감지모듈 #2(162)를 포함하도록 구성될 수 있다. 감지모듈 #1(161)은 기동어를 포함하여 사용자의 일반적인 발화를 감지한다. 감지모듈 #2(162)는 취소어에 해당하는 박수 소리, 핑거 스냅 소리 또는 미리 등록된 취소어 음성을 감지할 수 있다.

취소어가 감지된 경우, 해당 취소어는 음성 처리 대상에서 제외된다. 즉, 음성 입출력 장치(100)는 취소어에 해당하는 신호를 음성처리 시스템(200)에 전송하지 않는다. 이로써 취소어는 신호 처리 대상에서 제외되므로, 음성 입출력 장치(100)는 발화에 대한 신속한 취소 요청이 가능하다. 여기서, 취소 요청은 음성처리 시스템(200)의 프로세서가 수행하는 작업을 중지시키는 명령에 해당할 수 있다.

도 6은 본 발명의 일 실시 예에 따른 감지모듈을 설명하기 위한 예시도이다.

도 5 및 도 6을 참조하면, 사용자에 의한 1차 발화 과정과 박수 소리에 의해 1차 발화가 취소되는 과정이 묘사되어 있다. 감지모듈에는 기동어를 포함하는 발화 내용을 감지하는 감지모듈 #1(161)과 취소어를 감지하는 감지모듈 #2(162)에 의해 1차 발화와 박수 소리가 감지될 수 있다. 취소어로는 박수 소리 외에 핑거 스냅 소리 또는 기동어 외의, 예를 들어 "취소할께"와 같은 등록된 음성이 사용될 수 있다.

도 7은 본 발명의 일 실시 예에 따른 음성 입출력 방법의 데이터 흐름도이다.

도 7을 참조하면, 본 발명의 일 실시 예에 따른 음성 인식을 위한 음성 입출력 방법(S100)은 S102 내지 S140 단계를 포함하도록 구성될 수 있다.

먼저, 사용자는 기동어를 발화할 수 있다. 음성 입출력 장치(100)는 기동어 감지를 통해 활성화된다. 그리고 발화된 기동어는 음성 신호로 변환되어 음성처리 시스템(200)에 전송된다(S102).

다음으로 음성 입출력 장치(100)는 1차 발화(first spoken utterance) 중에 또는 후에 발생하는, 기동어(wakeup word) 외의 등록된 음성 및 특정 주파수 대의 마찰음 중에서 적어도 하나에 해당하는 이벤트(even)를 감지한다(S110). 여기서, 이벤트는 "취소어"에 해당한다. 사용자는 "취소어"를 통해 이미 발화되었으나, 처리되지 않은 발언을 취소할 수 있다.

여기서, 감지된 이벤트, 즉 취소어에 해당하는 오디오 신호는, 음성 처리 시스템에 전송되지 않는다.

취소어의 감지는 감지모듈 #2(162)에 의해 수행될 수 있다. 감지모듈 #1(161)은 기동어를 포함하여 사용자의 일반적인 발화를 감지하는 역할을 한다.

감지모듈#2(162)은 취소어를 감지하는 역할을 한다. 취소어가 등록된 사용자의 음성인 경우, 감지모듈 #2(162)은 미리 저장된 취소어에 해당하는 음소의 특징을 나타내는 특징 벡터를 이용하여 해당 취소어를 감지할 수 있다.

취소어가 환경음, 즉 박수소리 또는 핑거 스냅에 의한 마찰음인 경우, 감지모듈 #2(162)은 사람의 음성과 구별되는 주파수를 갖는 마찰음을 감지할 수 있다.

다음으로 음성 입출력 장치(100)는 이벤트, 즉 취소어가 감지된 시점에서 1차 발화에 대한 신호 처리가 완료되었는지 여부를 판단한다(S112). 구체적으로 음성 입출력 장치(100)는 수신된 음성 합성 신호가 있는지 여부를 가지고 신호 처리 완료 여부를 판단할 수 있다. 따라서, 만약에 수신된 음성 합성 신호가 없다면, 1차 발화에 대한 음성 신호가 처리되지 않은 것이다.

이벤트가 감지된 시점에서 1차 발화에 대한 신호 처리가 완료되지 않은 경우, 음성 입출력 장치(100)는 음성처리 시스템(200)에 1차 발화에 대한 신호 처리의 중지 요청 신호를 전송한다(S120).

여기서, 중지 요청 신호는, 음성 인식, 인식된 음성의 내용 파악, 파악된 내용에 대한 답변 생성 및 생성된 답변을 음성으로 변환 중에서 적어도 하나를 중지시킬 것을 요청하는 신호에 해당한다.

도 4를 참조하면, 취소 대상이 되는 사용자에 의한 1차 발화는, 취소되지 않을 경우 음성 인식, 자연어 이해, 자연어 생성 및 음성 합성 단계를 거치게 된다. 음성 입출력 장치(100)는 각 단계에 대해서 음성 처리를 중지할 것을 요청할 수 있다.

음성 처리 중지 요청에 대응하여 음성처리 시스템(200)은 취소 대상이 되는 1차 발화에 대한 음성 신호 처리를 중지한다(S122)

음성 입출력 장치(100)는 1차 발화에 대한 신호 처리 중지에 관한 확인 메시지를 수신할 수 있다(S124). 음성 입출력 장치(100)는 확인 메시지에 기초하여 다음 단계를 수행할 수 있다.

음성 입출력 장치(100)는1차 발화에 대한 음성 신호 처리가 중지됐음을 알리고, 새로운 음성을 입력할 것을 요청할 수 있다(S126). 예를 들어 음성 입출력 장치(100)는 [이전의 말씀이 취소되었습니다], [새로 말씀해 주세요]라고 사용자에게 2차 발화를 요청할 수 있다. 이 경우 사용자가 기동어 없이도 2차 발화를 바로 시작할 수 있는 이점이 있다.

또한, 음성 입출력 장치(100)는 1차 발화에 대한 음성 신호 처리와 관련된 채널의 버퍼를 초기화할 것을 음성처리 시스템(200)에 요청할 수 있다(S128). 버퍼 초기화 요청에 대응하여 음성처리 시스템(200)은 버퍼 초기화를 수행할 수 있다(S140). 초기화에 따라 1차 발화 관련된 데이터가 버퍼에서 삭제되기 때문에 음성처리 시스템(200)은 충분한 버퍼 공간을 확보한 상태에서 2차 발화에 대한 처리를 위해 대기할 수 있다.

1차 발화에 대한 음성 신호 처리가 중지된 상태에서 음성 입출력 장치(100)는 2차 발화를 인식하기 위해 사용자의 2차 발화를 감지하기 위해 대기할 수 있다(S130).

전술한 본 발명의 일 실시 예에 따른 음성 입출력 방법은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 상기 컴퓨터는 음성 입출력 장치(100)의 프로세서(151)를 포함할 수도 있다.

이와 같이, 본 발명의 일 실시 예에 의하면, 발화된 음성을 취소함으로써 음성 인식 처리가 신속하게 진행될 수 있도록 할 수 있다.

또한, 발화된 음성이 처리되기 전에 이를 취소함으로써 불필요한 자원의 낭비를 방지할 수 있다.

Claims

1차 발화(first spoken utterance) 중 또는 1차 발화 후에 발생하는, 사용자가 지정한 이벤트(event)를 감지하는 단계;
상기 이벤트가 감지된 시점에서 상기 1차 발화에 대한 신호 처리가 완료되지 않은 경우, 상기 1차 발화에 대한 신호 처리의 중지 요청 신호를 전송하는 단계; 및
상기 1차 발화에 대한 신호 처리가 중지된 상태에서 2차 발화(second spoken utterance)를 인식하기 위해 대기하는 단계를 포함하는,
음성 입출력 방법.

제1 항에 있어서,
상기 이벤트는,
기동어와 구별되는 음성을 포함하는,
음성 입출력 방법.

제1 항에 있어서,
상기 이벤트는,
특정 주파수 대의 마찰음을 포함하는,
음성 입출력 방법.

제1 항에 있어서,
상기 중지 요청 신호는,
음성 인식, 음성의 내용 파악, 답변 생성 및 답변의 음성 변환 중에서 적어도 하나를 중지시킬 것을 요청하는 신호에 해당하는,
음성 입출력 방법.

제1 항에 있어서,
상기 이벤트가 감지된 시점에서 상기 1차 발화에 대한 신호 처리가 완료되었는지 여부를 판단하는 단계를 더 포함하고,
상기 1차 발화에 대한 신호 처리가 완료되지 않은 경우, 상기 중지 요청 신호를 전송하는,
음성 입출력 방법.

제1 항에 있어서,
감지된 상기 이벤트에 해당하는 오디오 신호는,
음성 처리 시스템에 전송되지 않는,
음성 입출력 방법.

제1 항에 있어서,
상기 1차 발화에 대한 신호 처리 중지의 확인 메시지를 수신하는 단계를 더 포함하는,
음성 입출력 방법.

제1 항에 있어서,
상기 1차 발화에 대한 신호 처리가 중지됐었음을 알리고, 새로운 음성을 입력할 것을 요청하는 단계를 더 포함하는,
음성 입출력 방법.

제1 항에 있어서,
상기 1차 발화에 대한 채널의 버퍼를 초기화할 것을 요청하는 단계를 포함하는,
음성 입출력 방법.

1차 발화(first spoken utterance) 중 또는 1차 발화 후에 발생하는, 사용자가 지정한 이벤트(event)가 감지된 시점에서, 상기 1차 발화에 대한 신호 처리를 완료하지 않은 경우, 상기 1차 발화에 대한 신호 처리의 중지 요청 신호를 수신하는 단계;
상기 1차 발화에 대한 신호 처리를 중지하는 단계; 및
상기 1차 발화에 대한 채널의 버퍼를 초기화하는 단계를 포함하는,
음성 입출력 방법.

제 10 항에 있어서,
상기 1차 발화에 대한 신호 처리 중지의 확인 메시지를 송신하는 단계를 더 포함하는,
음성 입출력 방법.

제 10 항에 있어서,
상기 1차 발화에 대한 채널의 버퍼를 초기화하는 단계를 더 포함하는,
음성 입출력 방법.

음성을 입력 및 출력하는 입력 및 출력 인터페이스; 및
음성 인식 처리를 위해 상기 입력 및 출력 인터페이스를 제어하는 제어부를 포함하되,
상기 제어부는,
1차 발화(first spoken utterance) 중 또는 1차 발화 후에 발생하는, 사용자가 지정한 이벤트(event)를 감지하고,
상기 이벤트가 감지된 시점에서 상기 1차 발화에 대한 신호 처리가 완료되지 않은 경우, 상기 1차 발화에 대한 신호 처리의 중지 요청 신호를 전송하도록 설정되는,
음성 입출력 장치.

제13 항에 있어서,
상기 제어부는,
상기 1차 발화에 대한 신호 처리가 중지됐었음을 알리고, 새로운 음성을 입력할 것을 요청하도록 상기 출력 인터페이스를 제어하는,
음성 입출력 장치.

제13 항에 있어서,
상기 제어부는,
상기 1차 발화에 대한 채널의 버퍼를 초기화할 것을 요청하는 통신부를 제어하는,
음성 입출력 장치.