KR20190024148A

KR20190024148A - 음성 인식 장치 및 음성 인식 방법

Info

Publication number: KR20190024148A
Application number: KR1020170110850A
Authority: KR
Inventors: 장길진; 김민수
Original assignee: 경북대학교 산학협력단
Priority date: 2017-08-31
Filing date: 2017-08-31
Publication date: 2019-03-08

Abstract

음성 인식 장치가 개시된다. 음성 인식 장치는, 사용자로부터 음성을 입력받는 음성 입력부, 입력된 음성에서 특징 정보를 추출하고, 추출된 특징 정보를 기저장된 복수의 음성 인식 모델의 특징 정보와 비교하여 각각의 유사도를 산출하는 유사도 산출부, 복수의 음성 인식 모델 중 유사도가 가장 큰 음성 인식 모델을 선택하는 음성 인식 모델 선택부 및 선택된 음성 인식 모델을 이용하여 입력된 음성의 음성 인식을 수행하는 음성 인식 수행부를 포함한다.

Description

음성 인식 장치 및 음성 인식 방법{APPARATUS AND METHOD FOR SPEECH RECOGNITION}

본 발명은 음성 인식 장치 및 음성 인식 방법에 관한 것으로, 보다 상세하게는 음성의 특징 정보를 이용하는 음성 인식 장치 및 음성 인식 방법에 관한 것이다.

최근 딥러닝 기반 인공지능 기술을 이용한 음성 인식 기술은 차세대 핵심 기술로 떠오르고 있다. 그러나 종래 딥러닝 기반 음성 인식 기술은 하나의 음성 인식 모델을 이용하여 음성 인식을 수행하였으므로, 사용자의 발성 특징을 고려할 수 없었다.

따라서, 종래의 딥러닝 기반 음성 인식 장치는 특이한 발성을 가진 사용자의 음성을 인식하는 경우 오류가 빈번히 발생하였고, 사용자의 발성 특징에 따라 음성 인식 성공률이 높지 않은 문제가 있었다.

본 발명의 목적은 사용자 음성의 특징 정보를 추출하고, 특징 정보에 따라 복수의 음성 인식 모델 중 하나의 음성 인식 모델을 선택하여 음성 인식을 수행하는 음성 인식 장치 및 음성 인식 방법을 제공함에 있다.

상술한 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 음성 인식 장치는, 사용자로부터 음성을 입력받는 음성 입력부, 상기 입력된 음성에서 특징 정보를 추출하고, 추출된 특징 정보를 기저장된 복수의 음성 인식 모델의 특징 정보와 비교하여 각각의 유사도를 산출하는 유사도 산출부, 상기 복수의 음성 인식 모델 중 상기 유사도가 가장 큰 음성 인식 모델을 선택하는 음성 인식 모델 선택부 및 상기 선택된 음성 인식 모델을 이용하여 상기 입력된 음성의 음성 인식을 수행하는 음성 인식 수행부를 포함한다.

여기서, 상기 특징 정보는, 상기 음성의 세기 정보, 높낮이 정보 및 음색 정보 중 적어도 하나를 포함할 수 있다.

여기서, 상기 복수의 음성 인식 모델은, 상기 음성의 특징 정보에 따라 사용자의 성별, 나이 및 신체정보 중 적어도 하나를 기준으로 분류될 수 있다.

또한, 상기 음성 인식 장치는, 상기 음성 인식 수행부에서 수행되는 음성 인식 결과에 기초하여, 상기 선택된 음성 인식 모델을 업데이트하는 음성 인식 모델 업데이트부를 더 포함할 수 있다.

한편, 본 발명의 일 실시 예에 따른 음성 인식 방법은, 사용자로부터 음성을 입력받는 단계, 상기 입력된 음성에서 특징 정보를 추출하고, 추출된 특징 정보를 기저장된 복수의 음성 인식 모델의 특징 정보와 비교하여 각각의 유사도를 산출하는 단계, 상기 복수의 음성 인식 모델 중 상기 유사도가 가장 큰 음성 인식 모델을 선택하는 단계 및 상기 선택된 음성 인식 모델을 이용하여 상기 입력된 음성의 음성 인식을 수행하는 단계를 포함한다.

또한, 상기 음성 인식 방법은, 상기 음성 인식이 수행된 후, 상기 음성 인식 결과에 기초하여 상기 선택된 음성 인식 모델을 업데이트하는 단계를 더 포함할 수 있다.

이상과 같이 본 발명의 다양한 실시 예에 따르면 복수의 음성 인식 모델 중 사용자 음성의 특징 정보에 대응되는 음성 인식 모델을 선택하여 음성 인식을 수행하므로, 음성 인식 오류를 방지하고 음성 인식 성공률을 높일 수 있다.

도 1은 본 발명의 일 실시 예에 따른 음성 인식 장치의 구성을 나타내는 블럭도이다.
도 2는 본 발명의 다른 실시 예에 따른 음성 인식 장치의 구성을 나타내는 블럭도이다.
도 3은 본 발명의 일 실시 예에 따른 음성 인식 모델을 생성하는 방법을 나타내는 도면이다.
도 4는 본 발명의 일 실시 예에 따른 음성 인식 장치의 음성 인식 수행 방법을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시 예에 따른 음성 인식 방법을 나타내는 흐름도이다.

본 발명의 다른 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술 되는 실시 예를 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예는 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

만일 정의되지 않더라도, 여기서 사용되는 모든 용어들(기술 혹은 과학 용어들을 포함)은 이 발명이 속한 종래 기술에서 보편적 기술에 의해 일반적으로 수용되는 것과 동일한 의미를 가진다. 일반적인 사전들에 의해 정의된 용어들은 관련된 기술 그리고/혹은 본 출원의 본문에 의미하는 것과 동일한 의미를 갖는 것으로 해석될 수 있고, 그리고 여기서 명확하게 정의된 표현이 아니더라도 개념화되거나 혹은 과도하게 형식적으로 해석되지 않을 것이다.

본 명세서에서 사용된 용어는 실시 예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 '포함한다' 및/또는 이 동사의 다양한 활용형들 예를 들어, '포함', '포함하는', '포함하고', '포함하며' 등은 언급된 조성, 성분, 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 조성, 성분, 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다. 본 명세서에서 '및/또는'이라는 용어는 나열된 구성들 각각 또는 이들의 다양한 조합을 가리킨다.

한편, 본 명세서 전체에서 사용되는 '~부', '~기', '~블록', '~모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미할 수 있다. 예를 들어 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미할 수 있다. 그렇지만 '~부', '~기', '~블록', '~모듈' 등이 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. '~부', '~기', '~블록', '~모듈'은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.

따라서, 일 예로서 '~부', '~기', '~블록', '~모듈'은 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 '~부', '~기', '~블록', '~모듈'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부', '~기', '~블록', '~모듈'들로 결합되거나 추가적인 구성요소들과 '~부', '~기', '~블록', '~모듈'들로 더 분리될 수 있다.

이하, 본 명세서에 첨부된 도면을 참조하여 본 발명의 실시 예를 상세하게 설명한다.

도 1은 본 발명의 일 실시 예에 따른 음성 인식 장치의 구성을 나타내는 블럭도이다.

도 1을 참조하면, 음성 인식 장치(100)는 음성 입력부(110), 유사도 산출부(120), 음성 인식 모델 선택부(130) 및 음성 인식 수행부(140)를 포함한다.

음성 입력부(110)는 사용자로부터 음성을 입력받는다. 여기서, 음성 입력부(110)는 마이크로 제공될 수 있으며, 이에 한정되지 않고 사용자로부터 음성을 입력받을 수 있는 다양한 전자 기기로 제공될 수 있다.

유사도 산출부(120)는 음성 입력부(110)를 통해 입력된 사용자의 음성에서 특징 정보를 추출한다. 여기서, 특징 정보는 사용자로부터 입력되는 음성의 세기 정보, 높낮이 정보 및 음색 정보 중 적어도 하나를 포함한다. 유사도 산출부(120)는 입력된 음성에서 추출된 특징 정보를 기저장된 복수의 음성 인식 모델의 특징 정보와 비교하여 각각의 유사도를 산출할 수 있다. 일 예로, 기저장된 복수의 음성 인식 모델은 사용자의 성별에 따라 분류되는 2개의 음성 인식 모델일 수 있으며, 사용자로부터 입력된 음성이 남성의 음성이면, 여성의 음성 인식 모델의 유사도보다 남성의 음성 인식 모델의 유사도가 더 높게 나올 수 있다. 즉, 사용자의 음성에서 추출되는 음성의 세기 정보, 높낮이 정보 및 음색 정보 중 적어도 하나를 기저장된 복수의 음성 인식 모델에서 추출되는 음성의 세기 정보, 높낮이 정보 및 음색 정보 중 적어도 하나와 비교하여 유사도를 산출할 수 있다. 다만, 상기 실시 예에서 기저장된 복수의 음성 인식 모델이 사용자의 성별에 따라 분류되는 것으로 설명하였으나, 이에 한정되는 것은 아니며, 복수의 음성 인식 모델은 음성의 특징 정보에 따라 사용자의 성별, 나이 및 신체정보 등 다양한 기준으로 분류될 수 있다.

음성 인식 모델 선택부(130)는 유사도 산출부(120)에서 산출되는 유사도에 기초하여, 복수의 음성 인식 모델 중 유사도가 가장 큰 음성 인식 모델을 선택할 수 있다. 예를 들어, 기저장된 복수의 음성 인식 모델이 사용자의 성별 및 나이에 따라 늙은 남자, 늙은 여자, 어린 남자 및 어린 여자의 음성 인식 모델로 분류되는 경우, 음성 입력부(110)에 어린 남자의 음성이 입력되면 음성 인식 모델 선택부(130)는 유사도가 가장 큰 어린 남자의 음성 인식 모델을 선택할 수 있다.

음성 인식 수행부(140)는 음성 인식 모델 선택부(130)에서 선택된 음성 인식 모델을 이용하여 사용자로부터 입력된 음성의 음성 인식을 수행한다. 즉, 본 발명의 일 실시 예에 따른 음성 인식 장치(100)는 사용자의 음성에서 추출되는 특징 정보를 이용하여 적합한 음성 인식 모델을 선택하고, 복수의 음성 인식 모델 중 사용자 음성의 특징 정보에 대응되는 음성 인식 모델을 이용하여 음성 인식을 수행하므로, 음성 인식의 오류를 줄이고 음성 인식 성공률을 향상시킬 수 있다.

도 2는 본 발명의 다른 실시 예에 따른 음성 인식 장치의 구성을 나타내는 블럭도이다.

도 2를 참조하면, 음성 인식 장치(100')는 음성 입력부(110), 유사도 산출부(120), 음성 인식 모델 선택부(130), 음성 인식 수행부(140) 및 음성 인식 모델 업데이트부(150)를 포함한다.

음성 인식 모델 선택부(130)에서 선택된 음성 인식 모델을 이용하여 음성 인식 수행부(140)에서 음성 인식이 수행된 후, 음성 인식 모델 업데이트부(150)는 음성 인식 수행부(140)에서 수행된 음성 인식 결과에 기초하여, 음성 인식 모델 선택부(130)에서 선택된 음성 인식 모델을 업데이트할 수 있다. 구체적으로, 입력된 음성에서 추출된 특징 정보를 기저장된 음성 인식 모델의 특징 정보에 적용하여 음성 인식 모델의 특징 정보를 변경할 수 있다. 예를 들어, 입력된 음성에서 추출되는 음성의 세기 정보, 높낮이 정보 및 음색 정보에 기초하여, 기저장된 복수의 음성 인식 모델 중 음성 인식 모델 선택부(130)에서 선택된 음성 인식 모델의 음성의 세기 정보, 높낮이 정보 및 음색 정보를 변경할 수 있다. 일 예로, 입력된 음성의 높낮이 정보가 선택된 음성 인식 모델의 높낮이 정보보다 높은 경우, 선택된 음성 인식 모델의 음성의 높낮이를 좀더 높게 변경할 수 있다.

도 3은 본 발명의 일 실시 예에 따른 음성 인식 모델을 생성하는 방법을 나타내는 도면이다.

도 3을 참조하면, 음성 인식 장치(100)는 복수의 음성 인식 모델을 생성하기 위하여, 다수의 사용자로부터 획득되는 음성에서 특징 정보(iVector)를 추출하고, 추출된 특징 정보에 기초하여 기설정된 기준에 따라 음성을 그룹화할 수 있다. 이후, 그룹화된 음성들에 기초하여 음성 인식 모델을 각각 학습할 수 있으며, 각 그룹화된 음성들에 따라 학습된 복수의 음성 인식 모델이 생성될 수 있다.

이후, 도 4와 같이, 사용자로부터 음성이 입력되면, 복수의 음성 인식 모델 중 입력된 사용자 음성의 특징 정보에 대응되는 음성 인식 모델을 이용하여 음성 인식을 수행함으로써, 음성 인식 장치의 음성 인식 성능을 향상시킬 수 있다.

도 5는 본 발명의 일 실시 예에 따른 음성 인식 방법을 나타내는 흐름도이다.

우선, 사용자로부터 음성을 입력받는다(S510).

이어서, 사용자로부터 입력된 음성에서 특징 정보를 추출하고, 추출된 특징 정보를 기저장된 복수의 음성 인식 모델의 특징 정보와 비교하여 각각의 유사도를 산출한다(S520). 여기서, 특징 정보는, 음성의 세기 정보, 높낮이 정보 및 음색 정보 중 적어도 하나를 포함할 수 있다. 또한, 복수의 음성 인식 모델은 음성의 특징 정보에 따라 사용자의 성별, 나이 및 신체정보 중 적어도 하나를 기준으로 분류된 음성 인식 모델일 수 있다.

이어서, 복수의 음성 인식 모델 중 유사도가 가장 큰 음성 인식 모델을 선택한다(S530).

이어서, 선택된 음성 인식 모델을 이용하여 입력된 음성의 음성 인식을 수행한다(S540). 또한, S540 단계 이후, 음성 인식 결과에 기초하여 선택된 음성 인식 모델을 업데이트할 수 있다.

본 발명의 일 실시 예에 따른 음성 인식 방법은 컴퓨터에서 실행되기 위한 프로그램으로 제작되어 컴퓨터가 읽을 수 있는 기록매체에 저장될 수 있다. 상기 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 저장장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있다.

이상에서 실시 예를 통해 본 발명을 설명하였으나, 위 실시 예는 단지 본 발명의 사상을 설명하기 위한 것으로 이에 한정되지 않는다. 통상의 기술자는 전술한 실시 예에 다양한 변형이 가해질 수 있음을 이해할 것이다. 본 발명의 범위는 첨부된 특허청구범위의 해석을 통해서만 정해진다.

100: 음성 인식 장치 110: 음성 입력부
120: 유사도 산출부 130: 음성 인식 모델 선택부
140: 음성 인식 수행부

Claims

사용자로부터 음성을 입력받는 음성 입력부;
상기 입력된 음성에서 특징 정보를 추출하고, 추출된 특징 정보를 기저장된 복수의 음성 인식 모델의 특징 정보와 비교하여 각각의 유사도를 산출하는 유사도 산출부;
상기 복수의 음성 인식 모델 중 상기 유사도가 가장 큰 음성 인식 모델을 선택하는 음성 인식 모델 선택부; 및
상기 선택된 음성 인식 모델을 이용하여 상기 입력된 음성의 음성 인식을 수행하는 음성 인식 수행부;를 포함하는 음성 인식 장치.
제1항에 있어서,
상기 특징 정보는,
상기 음성의 세기 정보, 높낮이 정보 및 음색 정보 중 적어도 하나를 포함하는 음성 인식 장치.
제2항에 있어서,
상기 복수의 음성 인식 모델은,
상기 음성의 특징 정보에 따라 사용자의 성별, 나이 및 신체정보 중 적어도 하나를 기준으로 분류되는 음성 인식 장치.
제1항에 있어서,
상기 음성 인식 수행부에서 수행되는 음성 인식 결과에 기초하여, 상기 선택된 음성 인식 모델을 업데이트하는 음성 인식 모델 업데이트부;를 더 포함하는 음성 인식 장치.
사용자로부터 음성을 입력받는 단계;
상기 입력된 음성에서 특징 정보를 추출하고, 추출된 특징 정보를 기저장된 복수의 음성 인식 모델의 특징 정보와 비교하여 각각의 유사도를 산출하는 단계;
상기 복수의 음성 인식 모델 중 상기 유사도가 가장 큰 음성 인식 모델을 선택하는 단계; 및
상기 선택된 음성 인식 모델을 이용하여 상기 입력된 음성의 음성 인식을 수행하는 단계;를 포함하는 음성 인식 방법.
제5항에 있어서,
상기 특징 정보는,
상기 음성의 세기 정보, 높낮이 정보 및 음색 정보 중 적어도 하나를 포함하는 음성 인식 방법.
제6항에 있어서,
상기 복수의 음성 인식 모델은,
상기 음성의 특징 정보에 따라 사용자의 성별, 나이 및 신체정보 중 적어도 하나를 기준으로 분류되는 음성 인식 방법.
제5항에 있어서,
상기 음성 인식이 수행된 후, 상기 음성 인식 결과에 기초하여 상기 선택된 음성 인식 모델을 업데이트하는 단계;를 더 포함하는 음성 인식 방법.