KR20240060405A

KR20240060405A - 언어장애인의 음성 인식을 보조하는 전자장치 및 방법

Info

Publication number: KR20240060405A
Application number: KR1020230022955A
Authority: KR
Inventors: 최우진; 전광일; 이승권
Original assignee: 한국공학대학교산학협력단
Priority date: 2022-10-28
Filing date: 2023-02-21
Publication date: 2024-05-08

Abstract

본 발명의 일 실시예에 따른 언어장애인의 음성 인식을 보조하는 전자장치에 있어서, 언어장애인에 의해 발화된 학습 입력 음성을 이용하여 명령어 별로 인스턴스 음성을 학습하고, 기 학습된 복수의 인스턴스 음성들 중 상기 언어장애인에 의해 발화된 제1입력 음성에 대응하는 제1인스턴스 음성을 식별하고, 음성 인식 대상 장치가 상기 제1인스턴스 음성에 대응하는 제1명령어에 따른 동작을 수행하도록 제어하는 프로세서를 포함한다.

Description

언어장애인의 음성 인식을 보조하는 전자장치 및 방법{Electronic device for assisting voice recognition for people with speech impairments and method thereof}

본 발명은 언어장애인의 음성 인식을 보조하는 전자장치 및 방법에 관한 것이다.

음성인식 기술과 인공지능 기술을 기반으로 한 서비스, 전자장치들의 보급이 폭발적으로 증가하는 추세에 있으며，음성인식 기술을 이용한 서비스들이 활성화됨에 따라 비장애인뿐만 아니라，시각장애인이나 지체장애인들도 일상생활을 영위하는 데 있어 삶의 질이 대폭 향상되었다.

예를 들어, 스마트 스피커에 홈 네트워크 서비스를 연동하여 주택의 전등이나 TV와 같은 가전제품을 음성을 통해 제어할 수 있게 되었다. 스마트 스피커는 음성을 통하여 명령어를 입력 받아 텍스트로 변환하고, 인공지능 기술을 이용하여 해당 명령을 해석하여 그에 적합한 응답이나 행동을 취하는 장치이다.

그러나， 발음이 부정확하거나 명료성이 떨어지는 조음장애， 질환으로 인한 말의 속도， 강도， 정확성에 문제가 있는 구음장애 등을 가지는 언어장애인의 경우, 그 부정확한 발음에 의해 스마트 스피커를 이용한 유용한 서비스를 사용하는 것이 쉽지 않다. 스마트 스피커의 음성인식 기술도 발전을 거듭하여 사투리나 일부 부정확한 음성도 인식할 수 있는 단계의 학습모델이 나오고 있으나, 개개인 별로 다양한 발음패턴을 가지는 언어장애인에 적합한 음성인식 학습모델에 대한 연구는 매우 부족한 실정이다.

또한, 언어장애인의 음성을 자연어 처리를 통하여 스마트 스피커에서 제공하는 모든 서비스를 이용할 수 있는 것을 목표로 하면 언어장애인 마다 다른 발음데이터를 취합해야 하며 그 결과 데이터의 크기가 매우 커지게 되고，학습시간도 길어지며 음성 학습이 매우 복잡하게 된다.

본 발명의 목적은 보다 효율적으로 언어장애인의 음성 인식을 보조하는 전자장치 및 방법을 제공하는 것이다.

본 발명의 목적은 언어장애인의 음성 인식 기술에 대한 접근성을 향상시키는 전자장치 및 방법을 제공하는 것이다.

상기 프로세서는, 상기 제1입력 음성과 상기 복수의 인스턴스 음성들 간의 코사인 유사도 분석을 통해 식별한 유사도 값이 높은 순으로 기 정의된 수의 인스턴스 음성들을 포함하는 제1그룹을 식별하고, 상기 제1입력 음성과 상기 복수의 인스턴스 음성들 간의 시각화 스펙트럼 분석을 통해 식별한 유사도 값이 높은 순으로 기 정의된 수의 인스턴스 음성들을 포함하는 제2그룹을 식별하고, 상기 제1그룹 및 상기 제2그룹에 포함되는 인스턴스 음성들에 기초하여 상기 제1입력 음성에 대응하는 상기 제1인스턴스 음성을 식별할 수 있다.

상기 프로세서는, 상기 제1그룹 및 상기 제2그룹에 포함되는 인스턴스 음성들 중 유사도가 제일 높은 인스턴스 음성이 일치하는 경우, 해당 인스턴스 음성을 상기 제1인스턴스 음성으로 식별하고, 일치하지 않는 경우, 선택 빈도에 기초하여 상기 제1그룹 및 상기 제2그룹에 포함되는 인스턴스 음성들 중 상기 제1인스턴스 음성을 식별할 수 있다.

상기 프로세서는, 상기 제1명령어, 상기 제1명령어를 TTS(Text-to-Speech) 변환한 음성 명령 또는 상기 제1명령어에 대응하는 제어 명령 중 어느 하나를 상기 음성 인식 대상 장치로 전송하여 상기 제1명령어에 따른 동작을 수행하도록 제어할 수 있다.

상기 프로세서는, 상기 복수의 인스턴스 음성들에 대응하는 명령어들을 입력하는 사용자 입력을 수신하는 것에 기초하여 상기 복수의 인스턴스 음성들을 저장할 수 있다.

상기 프로세서는, 상기 학습 입력 음성을 복수로 수신하여 상기 학습 입력 음성들 간의 유사도에 기초하여 상기 복수의 인스턴스 음성들을 학습할 수 있다.

본 발명의 일 실시예에 따른 전자장치에 의해 수행되는 언어장애인의 음성 인식을 보조하는 방법에 있어서, 언어장애인에 의해 발화된 학습 입력 음성을 이용하여 명령어 별로 인스턴스 음성을 학습하는 단계; 기 학습된 복수의 인스턴스 음성들 중 상기 언어장애인에 의해 발화된 제1입력 음성에 대응하는 제1인스턴스 음성을 식별하는 단계; 음성 인식 대상 장치가 상기 제1인스턴스 음성에 대응하는 제1명령어에 따른 동작을 수행하도록 제어하는 단계를 포함한다.

상기 제1인스턴스 음성을 식별하는 단계는, 상기 제1입력 음성과 상기 복수의 인스턴스 음성들 간의 코사인 유사도 분석을 통해 식별한 유사도 값이 높은 순으로 기 정의된 수의 인스턴스 음성들을 포함하는 제1그룹을 식별하는 단계; 상기 제1입력 음성과 상기 복수의 인스턴스 음성들 간의 시각화 스펙트럼 분석을 통해 식별한 유사도 값이 높은 순으로 기 정의된 수의 인스턴스 음성들을 포함하는 제2그룹을 식별하는 단계; 상기 제1그룹 및 상기 제2그룹에 포함되는 인스턴스 음성들에 기초하여 상기 제1입력 음성에 대응하는 상기 제1인스턴스 음성을 식별하는 단계를 포함할 수 있다.

상기 제1인스턴스 음성을 식별하는 단계는, 상기 제1그룹 및 상기 제2그룹에 포함되는 인스턴스 음성들 중 유사도가 제일 높은 인스턴스 음성이 일치하는 경우, 해당 인스턴스 음성을 상기 제1인스턴스 음성으로 식별하는 단계; 일치하지 않는 경우, 선택 빈도에 기초하여 상기 제1그룹 및 상기 제2그룹에 포함되는 인스턴스 음성들 중 상기 제1인스턴스 음성을 식별하는 단계를 포함할 수 있다.

상기 제1명령어에 따른 동작을 수행하도록 제어하는 단계는, 상기 제1명령어, 상기 제1명령어를 TTS(Text-to-Speech) 변환한 음성 명령 또는 상기 제1명령어에 대응하는 제어 명령 중 어느 하나를 상기 음성 인식 대상 장치로 전송하여 상기 제1명령어에 따른 동작을 수행하도록 제어하는 단계를 포함할 수 있다.

상기 인스턴스 음성을 학습하는 단계는, 상기 복수의 인스턴스 음성들에 대응하는 명령어들을 입력하는 사용자 입력을 수신하는 것에 기초하여 상기 복수의 인스턴스 음성들을 저장하는 단계를 포함할 수 있다.

상기 인스턴스 음성을 학습하는 단계는, 상기 학습 입력 음성을 복수로 수신하여 상기 학습 입력 음성들 간의 유사도에 기초하여 상기 복수의 인스턴스 음성들을 학습하는 단계를 포함할 수 있다.

본 발명의 일 실시예에 따르면, 언어장애인의 부정확한 발음을 원래 발음하고자 했던 정확한 명령어로 변환시켜 음성 인식 기술에 대한 언어장애인의 접근성을 향상시켜 디지털 정보격차(Digital Divide)를 해소할 수 있다.

본 발명의 일 실시예에 따르면, 소량의 데이터와 짧은 학습 시간으로도 언어장애인이 구사하는 문장의 인식률과 정확도를 높여 스마트 스피커 등이 제공하는 서비스를 실제로 이용할 수 있게 한다.

본 발명의 일 실시예에 따르면, 서로 다른 유사도 분석에 기초하여 최종적으로 입력 음성에 대응하는 인스턴스 음성을 식별하는 바, 음성 인식의 정확도 및 성능이 높아질 수 있다.

도 1은 본 발명의 일 실시예에 따른 언어장애인의 음성 인식을 보조하는 시스템을 도시한 개략도이다.
도 2는 본 발명의 일 실시예에 따른 전자장치의 구성을 도시한 블럭도이다.
도 3은 본 발명의 일 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 전자장치의 입력 음성에 대응하는 인스턴스 음성을 식별하는 동작 흐름도를 도시한 도면이다.
도 5는 본 발명의 일 실시예에 따른 인스턴스 음성의 식별 이후의 동작 흐름을 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 시각화 스펙트럼의 일 예를 도시한 도면이다.

이하, 본 발명에 따른 바람직한 실시 형태를 첨부된 도면을 참조하여 상세하게 설명한다. 첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다. 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략할 수 있고, 명세서 전체를 통하여 동일 또는 유사한 구성 요소에 대해서는 동일한 참조 부호를 사용할 수 있다.

도 1은 본 발명의 일 실시예에 따른 언어장애인의 음성 인식을 보조하는 시스템을 도시한 개략도이다.

도 1을 참조하면, 언어장애인의 음성 인식을 보조하는 시스템은 전자장치(100)와 음성 인식 대상 장치(200)를 포함한다.

본 발명의 일 실시예에 따르면, 전자장치(100)는 언어장애인(10)에 의해 발화된 입력 음성을 수신하여 이에 대응하는 명령어를 식별하는 장치로, 전자장치(100)는, 예를 들어, 스마트 폰, 컴퓨터, 서버 등으로 구현될 수 있다. 이하, 발화 주체는 언어장애인뿐 아니라, 발음이 부정확한 비장애인을 포함할 수 있고, 다만 설명의 편의를 위해 언어장애인으로 대표하여 설명한다. 또한, 본 기술은 언어장애인이나 발음이 부정확한 비장애인을 대상으로 하는 바, 발화되는 입력 음성은 모두 부정확한 것으로 가정하여 설명한다.

본 발명의 일 실시예에 따르면, 음성 인식 대상 장치(200)는 명령어에 따른 동작을 수행하는 장치로, 대표적으로 AI 스피커로 구현될 수 있으며, 이 외에도 이러한 기능이 탑재된 스마트 폰, TV, 에어컨, 냉장고 등 가전제품을 포함할 수 있다.

앞서 서술한 바와 같이, 언어장애인(10)의 부정확한 음성이나 발음 특성은 개개인 마다 모두 다르기 때문에，비장애인처럼 일반화하여 음성 인식을 수행하는 모델을 구축하기 쉽지 않다.

따라서, 본 발명에서는 딥러닝 기술을 이용하여 언어장애인(10)에 의해 발화된 입력 음성을 원래 발음하고자 했던 정확한 단어로 변환시켜, 언어장애인(10)의 음성 인식 서비스에 대한 접근성을 향상시키는 전자장치(100) 및 방법을 제안한다.

이하, 도면들을 참조하여 본 발명의 일 실시예에 따른 전자장치의 구성 및 동작에 대해 구체적으로 설명한다.

도 2는 본 발명의 일 실시예에 따른 전자장치의 구성을 도시한 블럭도이다.

본 발명의 일 실시예에 따른 전자장치(100)는 입력부(110), 통신부(120), 표시부(130), 저장부(140), 스피커(150) 및 프로세서(160)를 포함한다.

입력부(110)는 전자장치(100)의 사용자 입력에 대응하여 입력데이터를 발생시킨다. 예를 들어, 사용자 입력은 전자장치(100)의 동작을 시작하게 하는 사용자 입력, 언어장애인이 학습 입력 음성을 입력하기 위한 사용자 입력, 입력 음성을 입력하기 위한 사용자 입력 등일 수 있으며, 이 외에도 음성 인식을 보조하기 위해 필요한 사용자 입력인 경우 제한하지 않고 적용 가능하다.

입력부(110)는 적어도 하나의 입력수단을 포함한다. 입력부(110)는 키보드(key board), 키패드(key pad), 돔 스위치(dome switch), 터치패널(touch panel), 터치 키(touch key), 마우스(mouse), 메뉴 버튼(menu button) 등을 포함할 수 있다.

입력부(110)는 언어장애인의 학습 입력 음성, 입력 음성을 수신할 수 있으며, 마이크 등 입력 수단을 추가로 포함할 수 있다.

통신부(120)는 인스턴스 음성 학습 모델, 입력 음성에 대응하는 인스턴스 음성, 인스턴스 음성에 대응하는 명령어 등의 정보를 수신하고, 음성 인식 대상 장치로 명령어에 따른 동작을 수행하도록 제어하기 위해 서버, 음성 인식 대상 장치 등 외부장치와의 통신을 수행한다.

이를 위해, 통신부(120)는 5G(5th generation communication), LTE-A(long term evolution-advanced), LTE(long term evolution), Wi-Fi(wireless fidelity), Bluetooth 등의 무선 통신 혹은 LAN(local area network), WAN(Wide Area Network), 전력선 통신 등의 유선 통신을 수행할 수 있다.

표시부(130)는 전자장치(100)의 동작에 따른 표시 데이터를 표시한다. 표시부(130)는 학습 입력 음성을 입력하는 그래픽 사용자 인터페이스(GUI, Graphic User Interface)를 표시하는 화면, 입력 음성을 입력하는 GUI를 표시하는 화면, 입력 음성에 대응하여 식별된 인스턴스 음성을 표시하는 화면, 사용자 입력을 수신하는 화면 등을 표시할 수 있다.

표시부(130)는 액정 디스플레이(LCD; liquid crystal display), 발광 다이오드(LED; light emitting diode) 디스플레이, 유기 발광 다이오드(OLED; organic LED) 디스플레이, 마이크로 전자기계 시스템(MEMS; micro electro mechanical systems) 디스플레이 및 전자 종이(electronic paper) 디스플레이를 포함한다. 표시부(130)는 입력부(110)와 결합되어 터치 스크린(touch screen)으로 구현될 수 있다.

저장부(140)는 전자장치(100)의 동작 프로그램들을 저장한다. 저장부(140)는 전원의 제공 유무와 무관하게 데이터(정보)를 보존할 수 있는 비휘발성 속성의 스토리지(storage)와, 프로세서(160)에 의해 처리되기 위한 데이터가 로딩되며 전원이 제공되지 않으면 데이터를 보존할 수 없는 휘발성 속성의 메모리(memory)를 포함한다. 스토리지에는 플래시메모리(flash-memory), HDD(hard-disc drive), SSD(solid-state drive) ROM(Read Only Memory) 등이 있으며, 메모리에는 버퍼(buffer), RAM(Random Access Memory) 등이 있다.

저장부(140)는 음성 학습 모델, 인스턴스 음성들, 명령어들 등을 저장할 수 있다. 저장부(140)는 인스턴스 음성을 학습, 입력 음성에 대응하는 인스턴스 음성을 식별, 음성 인식 대상 장치가 동작을 수행하도록 제어 등을 수행하는 과정에서 필요한 연산 프로그램 등을 저장할 수 있다.

스피커(150)는 음성 데이터를 출력하는 구성으로, 전자장치(100)가 입력 음성을 인식하여 대응하는 명령어를 식별하고, 그 식별된 명령어를 TTS(Text-to-Speech) 변환하여 음성 명령으로 출력할 수 있다.

프로세서(160)는 프로그램 등 소프트웨어를 실행하여 전자장치(100)의 적어도 하나의 다른 구성요소(예: 하드웨어 또는 소프트웨어 구성요소)를 제어할 수 있고, 다양한 데이터 처리 또는 연산을 수행할 수 있다.

프로세서(160)는 개인화된 음성 번역기(PSI: Personalized Speech Interpreter) 프로그램을 구동할 수 있으며, 인스턴트 음성 학습기(instant speech trainer)와 인스턴트 음성 분류기(instant speech classifier)로 구성되며, 안드로이드 기반 스마트 폰의 CPU뿐만 아니라 GPU 상에서도 구동될 수 있다. 이때, 인스턴트 음성 학습기는 음성 학습 모델을 포함할 수 있고, 인스턴트 음성 학습기와 인스턴트 음성 분류기는 별도의 하드웨어로 분리되어 구현될 수 있으나, 이에 한정되지 않으며 하나의 프로세서로 구현되지만 서로 다른 기능을 위해 동작하는 것으로 분리하여 기재한 것일 수 있다. 이하, 설명의 편의를 위해 인스턴스 음성을 학습 및 분류하는 동작은 프로세서(160)에 의해 처리되는 것으로 설명한다.

본 발명의 일 실시예에 따른 프로세서(160)는 언어장애인에 의해 발화된 학습 입력 음성을 이용하여 명령어 별로 인스턴스 음성을 학습하고, 기 학습된 복수의 인스턴스 음성들 중 상기 언어장애인에 의해 발화된 제1입력 음성에 대응하는 제1인스턴스 음성을 식별하고, 음성 인식 대상 장치가 상기 제1인스턴스 음성에 대응하는 제1명령어에 따른 동작을 수행하도록 제어한다.

이때, 프로세서(160)가 인스턴스 음성을 학습하는데 이용되는 딥러닝 모델을 학습하거나, 기 학습된 딥러닝 모델을 외부로부터 수신 및 저장하여 인스턴스 음성을 학습하는데 이용할 수 있으며 어느 하나에 한정되는 것은 아니다.

한편, 프로세서(160)는 상기 동작들을 수행하기 위한 데이터 분석, 처리, 및 결과 정보 생성 중 적어도 일부를 규칙 기반 또는 인공지능(Artificial Intelligence) 알고리즘으로서 기계학습, 신경망 네트워크(neural network), 또는 딥러닝 알고리즘 중 적어도 하나를 이용하여 수행할 수 있다. 신경망 네트워크의 예로는, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network)과 같은 모델을 포함할 수 있다.

도 3은 본 발명의 일 실시예에 따른 전자장치의 동작 흐름도를 도시한 도면이다.

본 발명의 일 실시예에 따르면, 프로세서(160)는 언어장애인에 의해 발화된 학습 입력 음성을 이용하여 명령어 별로 인스턴스 음성을 학습한다(S10).

학습 입력 음성이란, 언어장애인이 음성 인식 대상 장치(200)를 통해 이용하고자 하는 명령어를 미리 학습시키고자 입력하는 음성이고, 인스턴스 음성이란, 추후 입력되는 입력 음성에 대응하는 명령어를 식별하기 위한 기준 음성을 의미한다.

언어장애인의 발음 패턴, 발화 특성 등을 학습하여 보다 세밀하게 음성 인식을 수행하기 위해, 프로세서(160)는 동일 명령어에 대해 학습 입력 음성을 복수로 수신할 수 있다.

이때, 학습 입력 음성은 입력부(110)에 포함된 마이크를 통해 수신할 수 있으며, 이에 한정되지 않고 별도로 연결된 마이크를 통해 수신한 학습 입력 음성을 이용할 수 있다. 그리고, 프로세서(160)는 표시부(130)에 학습 입력 음성을 수신하기 위한 화면을 표시하고, 기 설정된 횟수(예: 10회)만큼 동일 명령어에 대한 음성을 발화하도록 요청하는 화면을 표시할 수 있다.

프로세서(160)는 복수로 수신한 학습 입력 음성들을 딥러닝 모델을 이용하여 명령어 별로 인스턴스 음성을 학습할 수 있다. 구체적으로, 프로세서(160)는 딥러닝 모델을 이용하여 복수로 수신한 학습 입력 음성들 간의 유사도에 기초하여 명령어 별로 인스턴스 음성을 학습할 수 있다. 이때, 동일 명령어에 대한 학습 입력 음성들이 유사도가 낮은 경우, 프로세서(160)는 추가로 학습 입력 음성을 입력할 것을 요청할 수 있다.

또한, 프로세서(160)는 인스턴스 음성에 대응하는 명령어를 입력하는 사용자 입력을 수신하는 것에 기초하여 학습된 복수의 인스턴스 음성들을 저장할 수 있다. 인스턴스 음성은 결국 언어장애인이 발화한 부정확한 음성들의 교집합일 것이므로, 추후 해당 인스턴스 음성과 동일/유사한 음성을 수신하는 경우 어떤 명령어인지 식별하기 위해서는 이를 지정할 필요가 있다.

본 발명의 일 실시예에 따르면, 프로세서(160)는 기 학습된 복수의 인스턴스 음성들 중 언어장애인에 의해 발화된 제1입력 음성에 대응하는 제1인스턴스 음성을 식별한다(S20).

입력 음성이란, 학습을 모두 마친 후 실제 음성 인식 기능을 이용하기 위해 입력하는 음성을 의미한다. 그리고, 입력 음성에 대응하는 인스턴스 음성이란, 기 학습된 복수의 인스턴스 음성들 중 해당 입력 음성과 동일하거나 유사도가 가장 높아 이에 대응하는 것으로 식별되는 음성을 의미한다. 인스턴스 음성은 음성들 간의 유사도 분석을 통해 식별될 수 있으며, 제1인스턴스 음성을 식별하는 구체적인 과정은 도 4를 참조하여 설명한다.

본 발명의 일 실시예에 따르면, 프로세서(160)는 음성 인식 대상 장치(200)가 제1인스턴스 음성에 대응하는 제1명령어에 따른 동작을 수행하도록 제어한다(S30).

프로세서(160)는 제1인스턴스 음성에 대응하여 저장된 제1명령어, 제1명령어를 TTS(Text-to-Speech) 변환한 음성 명령 또는 제1명령어에 대응하는 제어 명령 중 어느 하나를 음성 인식 대상 장치(200)로 전송하여 제1명령어에 따른 동작을 수행하도록 제어할 수 있다. 관련하여 구체적인 동작은 도 5를 참조하여 설명한다.

본 발명의 일 실시예에 따르면, 언어장애인의 부정확한 발음을 원래 발음하고자 했던 정확한 명령어로 변환시켜 음성 인식 기술에 대한 언어장애인의 접근성을 향상시켜 정보 격차를 해소할 수 있다.

본 발명의 일 실시예에 따르면, 소량의 데이터와 짧은 학습 시간으로도 언어장애인이 구사하는 문장의 인식률과 정확도를 높여 스마트 스피커 등이 제공하는 서비스를 실제로 이용할 수 있게 한다. 또한, 스마트 스피커 이외에도 시리(Siri), 빅스비(Bixby) 등의 가상 개인비서에 접목하여 언어장애인들에게 다양한 서비스를 제공할 수 있다. 또한, 기타 유사한 응용 분야에 확대 적용될 수 있을 것이다.

도 4는 본 발명의 일 실시예에 따른 전자장치의 입력 음성에 대응하는 인스턴스 음성을 식별하는 동작 흐름도를 도시한 도면이다.

도 4는 도 3의 S20과 관련하여 설명한 바와 같이, 유사도 분석을 통해 입력 음성에 대응하는 인스턴스 음성을 식별하는 구체적인 과정에 대해 설명한다. 따라서, 중복되는 부분은 도 3을 참조하여 서술한 내용을 차용하고, 구체적인 설명은 생략한다.

이때, 입력 음성의 시작하고 끝나는 부분은 잡음영역으로 분류될 수 있으며 이를 제거하는 경우 음성 인식의 성능이나 속도가 높아질 수 있다. 따라서, 프로세서(150)는 입력된 시작과 끝부분을 구분하는 방법으로 일정 데시벨 이하를 제거하는 전처리 과정을 수행할 수 있다. 이 외에도, 잡음 제거를 위한 다양한 전처리를 수행할 수 있으며, 이하 입력 음성은 전처리 된 음성인 것으로 가정하여 설명한다.

본 발명의 일 실시예에 따르면, 프로세서(160)는 제1입력 음성과 복수의 인스턴스 음성들 간의 코사인 유사도 분석을 통해 식별한 유사도 값이 높은 순으로 기 정의된 수의 인스턴스 음성들을 포함하는 제1그룹을 식별한다(S21).

프로세서(160)는 실시간으로 수신한 제1입력 음성을 모든 학습되어 저장된 인스턴트 음성들과 코사인 유사도 분석을 수행할 수 있다. 이때, 활용되는 코사인 유사도 공식은 다음 수학식 1과 같다.

비교할 음성을 A, B라고 가정할 때, S_m(A, B)는 음성 간 유사도 값을 의미하며, 유사도가 높을 경우 1, 낮을 경우 -1에 가까운 값으로 출력된다.

프로세서(160)는 수학식 1을 기반으로 복수의 인스턴트 음성들 중에서 유사도 값이 높은 순으로 기 정의된 수(예: 10개)의 인스턴스 음성들을 식별할 수 있다.

본 발명의 일 실시예에 따르면, 프로세서(160)는 제1입력 음성과 복수의 인스턴스 음성들 간의 시각화 스펙트럼 분석을 통해 식별한 유사도 값이 높은 순으로 기 정의된 수의 인스턴스 음성들을 포함하는 제2그룹을 식별한다(S22).

시각화 스펙트럼은 음성에 대한 파형을 이미지 데이터 형태로 만들어지며, 프로세서(160)는 복수의 인스턴스 음성들에 대한 시각화 스펙트럼 변환된 이미지들로 유사도 분석을 수행할 수 있다. 유사도 평가는 Bhattacharyya distance 알고리즘을 기반으로 이미지 간의 유사도를 평가할 수 있다. 시각화 스펙트럼 분석 또한 코사인 유사도 분석과 동일하게 복수의 인스턴트 음성들 중에서 유사도가 높은 순으로 기 정의된 수(예: 10개)의 인스턴스 음성들을 식별할 수 있다. 시각화 스펙트럼에 대한 일 예는 도 6에 도시되어 있다.

본 발명의 일 실시예에 따르면, 프로세서(160)는 제1그룹 및 제2그룹에 포함되는 인스턴스 음성들에 기초하여 제1입력 음성에 대응하는 제1인스턴스 음성을 식별한다(S23).

프로세서(160)는 제1그룹 및 제2그룹에 포함되는 인스턴스 음성들 중 유사도가 제일 높은 인스턴스 음성이 일치하는 경우, 해당 인스턴스 음성을 제1인스턴스 음성으로 식별할 수 있다. 즉, 각 그룹의 가장 유사도가 높은 인스턴스 음성이 일치하는 경우, 해당 인스턴스 음성이 제1입력 음성에 대응하는 제1인스턴스 음성일 확률이 높기 때문이다.

프로세서(160)는 제1그룹 및 제2그룹에 포함되는 인스턴스 음성들 중 유사도가 제일 높은 인스턴스 음성이 일치하지 않는 경우, 선택 빈도에 기초하여 제1그룹 및 제2그룹에 포함되는 인스턴스 음성들 중 제1인스턴스 음성을 식별할 수 있다. 이는, 해당 언어장애인의 사용 이력에 기초하여, 유사 상황에서 기 선택된 이력이 있는 인스턴스 음성을 제1인스턴스 음성으로 식별할 수 있다.

이 외에도, 프로세서(160)는 상호 유사도가 제일 높은 인스턴스 음성이 일치하지 않는 경우, 시각화 스펙트럼 분석에 따라 식별된 제2그룹의 인스턴스 음성에 보다 높은 가중치를 두거나, 두 그룹 간의 순위를 평균하여 높은 순위에 있는 인스턴스 음성을 제1인스턴스 음성으로 식별하는 등 다양하게 접근할 수 있다.

도 5는 본 발명의 일 실시예에 따른 인스턴스 음성의 식별 이후의 동작 흐름을 도시한 도면이다.

도 5는 도 3의 S30과 관련하여 설명한 바와 같이, 제1인스턴스 음성을 식별한 이후 음성인식 대상 장치의 동작 과정에 대해 설명한다. 따라서, 중복되는 부분은 도 3을 참조하여 서술한 내용을 차용하고, 구체적인 설명은 생략한다.

본 발명의 일 실시예에 따르면, 언어장애인(10)이 제1입력 음성을 발화하고(S501), 전자장치(100)는 제1입력 음성에 대응하는 제1인스턴스 음성을 식별한다(S502).

본 발명의 일 실시예에 따르면, 전자장치(100)는 제1명령어, 제1명령어를 TTS(Text-to-Speech) 변환한 음성 명령 또는 제1명령어에 대응하는 제어 명령 중 어느 하나를 음성 인식 대상 장치(200)로 전송하여 제1명령어에 따른 동작을 수행하도록 제어할 수 있다.

이를 위해, 전자장치(100)는 제1명령어에 대해 TTS 변환을 수행하여 마이크(150)를 통해 음성 명령을 출력할 수 있다. 또한, 전자장치(100)는 명령어와 각 명령어에 대응하는 제어 명령을 매핑한 리스트를 구비할 수 있다.

음성 인식 대상 장치(200)는 제1명령어(혹은 음성 명령, 제어 명령)에 대응하는 동작을 수행할 수 있다(S504).

예를 들어, 음성 인식 대상 장치(200)가 스마트 스피커이고, 제1명령어가 "거실 불 켜"인 경우, 스마트 스피커는 거실에 위치한 전등을 제어하여 불을 키는 동작을 수행할 수 있다.

또 다른 예로, 음성 인식 대상 장치(200)가 TV이고, 제1명령어가 "볼륨 올려"인 경우, TV는 음량을 조절하는 동작을 수행할 수 있다.

이와 같이, 음성 인식 대상 장치(200)가 최종 제어 대상 자체일 수 있고, 혹은 스마트 스피커와 같이 다른 가전 제품을 제어하는 중개 장치일 수 있다.

도 6은 본 발명의 일 실시예에 따른 시각화 스펙트럼의 일 예를 도시한 도면이다.

도 6은 도 4의 S22를 참조하여 설명한 바와 같이 시각화 스펙트럼 분석을 수행하기 위해 이미지 변환된 시각화 스펙트럼의 일 예를 도시한다.

본 발명의 일 실시예에 따르면, 프로세서(160)는 각 인스턴스 음성과 입력 음성의 시각화 스펙트럼을 비교하여 그 스펙트럼의 유사성에 기초하여 유사도를 측정할 수 있다.

100: 전자장치
110: 입력부
120: 통신부
130: 표시부
140: 저장부
150: 스피커
160: 프로세서
200: 음성 인식 대상 장치

Claims

언어장애인의 음성 인식을 보조하는 전자장치에 있어서,
언어장애인에 의해 발화된 학습 입력 음성을 이용하여 명령어 별로 인스턴스 음성을 학습하고,
기 학습된 복수의 인스턴스 음성들 중 상기 언어장애인에 의해 발화된 제1입력 음성에 대응하는 제1인스턴스 음성을 식별하고,
음성 인식 대상 장치가 상기 제1인스턴스 음성에 대응하는 제1명령어에 따른 동작을 수행하도록 제어하는 프로세서를 포함하는 전자장치.
제1항에 있어서,
상기 프로세서는,
상기 제1입력 음성과 상기 복수의 인스턴스 음성들 간의 코사인 유사도 분석을 통해 식별한 유사도 값이 높은 순으로 기 정의된 수의 인스턴스 음성들을 포함하는 제1그룹을 식별하고,
상기 제1입력 음성과 상기 복수의 인스턴스 음성들 간의 시각화 스펙트럼 분석을 통해 식별한 유사도 값이 높은 순으로 기 정의된 수의 인스턴스 음성들을 포함하는 제2그룹을 식별하고,
상기 제1그룹 및 상기 제2그룹에 포함되는 인스턴스 음성들에 기초하여 상기 제1입력 음성에 대응하는 상기 제1인스턴스 음성을 식별하는 전자장치.
제2항에 있어서,
상기 프로세서는,
상기 제1그룹 및 상기 제2그룹에 포함되는 인스턴스 음성들 중 유사도가 제일 높은 인스턴스 음성이 일치하는 경우, 해당 인스턴스 음성을 상기 제1인스턴스 음성으로 식별하고,
일치하지 않는 경우, 선택 빈도에 기초하여 상기 제1그룹 및 상기 제2그룹에 포함되는 인스턴스 음성들 중 상기 제1인스턴스 음성을 식별하는 전자장치.
제1항에 있어서,
상기 프로세서는,
상기 제1명령어, 상기 제1명령어를 TTS(Text-to-Speech) 변환한 음성 명령 또는 상기 제1명령어에 대응하는 제어 명령 중 어느 하나를 상기 음성 인식 대상 장치로 전송하여 상기 제1명령어에 따른 동작을 수행하도록 제어하는 전자장치.
제1항에 있어서,
상기 프로세서는,
상기 복수의 인스턴스 음성들에 대응하는 명령어들을 입력하는 사용자 입력을 수신하는 것에 기초하여 상기 복수의 인스턴스 음성들을 저장하는 전자장치.
제1항에 있어서,
상기 프로세서는,
상기 학습 입력 음성을 복수로 수신하여 상기 학습 입력 음성들 간의 유사도에 기초하여 상기 복수의 인스턴스 음성들을 학습하는 전자장치.
전자장치에 의해 수행되는 언어장애인의 음성 인식을 보조하는 방법에 있어서,
언어장애인에 의해 발화된 학습 입력 음성을 이용하여 명령어 별로 인스턴스 음성을 학습하는 단계;
기 학습된 복수의 인스턴스 음성들 중 상기 언어장애인에 의해 발화된 제1입력 음성에 대응하는 제1인스턴스 음성을 식별하는 단계;
음성 인식 대상 장치가 상기 제1인스턴스 음성에 대응하는 제1명령어에 따른 동작을 수행하도록 제어하는 단계를 포함하는 방법.
제7항에 있어서,
상기 제1인스턴스 음성을 식별하는 단계는,
상기 제1입력 음성과 상기 복수의 인스턴스 음성들 간의 코사인 유사도 분석을 통해 식별한 유사도 값이 높은 순으로 기 정의된 수의 인스턴스 음성들을 포함하는 제1그룹을 식별하는 단계;
상기 제1입력 음성과 상기 복수의 인스턴스 음성들 간의 시각화 스펙트럼 분석을 통해 식별한 유사도 값이 높은 순으로 기 정의된 수의 인스턴스 음성들을 포함하는 제2그룹을 식별하는 단계;
상기 제1그룹 및 상기 제2그룹에 포함되는 인스턴스 음성들에 기초하여 상기 제1입력 음성에 대응하는 상기 제1인스턴스 음성을 식별하는 단계를 포함하는 방법.
제8항에 있어서,
상기 제1인스턴스 음성을 식별하는 단계는,
상기 제1그룹 및 상기 제2그룹에 포함되는 인스턴스 음성들 중 유사도가 제일 높은 인스턴스 음성이 일치하는 경우, 해당 인스턴스 음성을 상기 제1인스턴스 음성으로 식별하는 단계;
일치하지 않는 경우, 선택 빈도에 기초하여 상기 제1그룹 및 상기 제2그룹에 포함되는 인스턴스 음성들 중 상기 제1인스턴스 음성을 식별하는 단계를 포함하는 방법.
제7항에 있어서,
상기 제1명령어에 따른 동작을 수행하도록 제어하는 단계는,
상기 제1명령어, 상기 제1명령어를 TTS(Text-to-Speech) 변환한 음성 명령 또는 상기 제1명령어에 대응하는 제어 명령 중 어느 하나를 상기 음성 인식 대상 장치로 전송하여 상기 제1명령어에 따른 동작을 수행하도록 제어하는 단계를 포함하는 방법.
제7항에 있어서,
상기 인스턴스 음성을 학습하는 단계는,
상기 복수의 인스턴스 음성들에 대응하는 명령어들을 입력하는 사용자 입력을 수신하는 것에 기초하여 상기 복수의 인스턴스 음성들을 저장하는 단계를 포함하는 방법.
제7항에 있어서,
상기 인스턴스 음성을 학습하는 단계는,
상기 학습 입력 음성을 복수로 수신하여 상기 학습 입력 음성들 간의 유사도에 기초하여 상기 복수의 인스턴스 음성들을 학습하는 단계를 포함하는 방법.