KR101970346B1

KR101970346B1 - 화자 위치를 이용하여 빔포밍 수음 각도를 조절하는 음성인식장치

Info

Publication number: KR101970346B1
Application number: KR1020190019461A
Authority: KR
Inventors: 안문학
Original assignee: 주식회사 소리자바
Priority date: 2019-02-19
Filing date: 2019-02-19
Publication date: 2019-04-17

Abstract

본 발명은 화자 위치를 이용하여 빔포밍 수음 각도를 조절하는 음성인식장치가 개시된다. 본 발명의 음성인식장치는 화자가 위치한 방향 및 거리를 측정하는 센서부, 센서부와 인접한 위치에 구비되고, 화자로부터 발화되는 음성을 입력받는 마이크 및 측정된 정보를 이용하여 음성에 대한 빔포밍 수음 각도를 조절하는 제어부를 포함한다.

Description

화자 위치를 이용하여 빔포밍 수음 각도를 조절하는 음성인식장치{Speech recognition device for adjusting beam forming sound-receiving angle using speaker position}

본 발명은 음성인식기술에 관한 것으로, 더욱 상세하게는 화자의 위치에 따라 빔포밍되는 수음 각도를 조절하여 음성 인식률을 높이는 화자 위치를 이용하여 빔포밍 수음 각도를 조절하는 음성인식장치에 관한 것이다.

음성인식, 화자인식, 화상통화 등 다양한 음성기술이 적용되는 분야에서 몇 명의 화자 혹은 소음원이 존재하는지, 그리고 그 위치는 어디인지를 알아내는 것은 그 상황에 맞추어 음성 증폭, 감소 혹은 음원 분리 등을 적용하기 때문에 음성 전처리에서도 중요한 분야이다.

이러한 음원 위치 추적에 대한 방법은 일반적으로 여러 개의 마이크를 공간상에 배치하고 각 마이크로 도달하는 신호의 차이를 이용하게 된다.

하지만 기존의 방법들은 음원 개수보다 많은 수의 마이크 개수를 요구하고, 마이크를 설치해야 하는 위치에 대한 제약도 존재하게 된다.

따라서 이러한 제약은 결과적으로 제품 단가 또는 디자인적인 측면에서 손해를 발생시키는 문제점이 있다.

한국등록특허공보 제10-1750338호(2017.06.23.)

본 발명이 이루고자 하는 기술적 과제는 화자의 위치에 따라 빔포밍되는 수음 각도를 조절하여 최적의 음성인식 환경을 만들어주는 화자 위치를 이용하여 빔포밍 수음 각도를 조절하는 음성인식장치를 제공하는데 목적이 있다.

상기 목적을 달성하기 위해 본 발명의 일 실시예에 따른 화자 위치를 이용하여 빔포밍 수음 각도를 조절하는 음성인식장치는 화자가 위치한 방향 및 거리를 측정하는 센서부, 상기 센서부와 인접한 위치에 구비되고, 상기 화자로부터 발화되는 음성을 입력받는 마이크 및 상기 측정된 정보를 이용하여 상기 음성에 대한 빔포밍 수음 각도를 제어하는 제어부를 포함한다.

또한 상기 제어부는, 상기 거리에 따라 입력 게인(gain)을 조정하여 상기 음성을 입력받도록 제어하는 것을 특징으로 한다.

또한 상기 제어부는, 상기 거리가 기 설정된 기준보다 가까우면 상기 게인의 크기를 거리에 비례하게 낮추고, 상기 거리가 기 설정된 기준보다 멀면 상기 게인의 크기를 거리에 비례하게 높여서 상기 음성이 일정한 크기로 입력되도록 제어하는 것을 특징으로 한다.

또한 상기 제어부는, 상기 마이크로부터 출력되는 에코(echo) 성분의 크기에 따라 전달함수를 변경하여 상기 음성을 입력받도록 제어하는 것을 특징으로 한다.

또한 상기 제어부는, 상기 에코 성분의 크기를 기 설정된 기준과 비교하고, 상기 비교된 결과에 상기 거리를 적용하여 상기 전달함수를 변경하는 것을 특징으로 한다.

또한 상기 제어부는, 상기 거리가 멀어질수록 상기 화자를 기준으로 상기 빔포밍 수음 각도를 좁히는 것을 특징으로 한다.

본 발명의 다른 실시예에 따른 화자 위치를 이용하여 빔포밍 수음 각도를 조절하는 음성인식장치는 서로 마주보는 두 명의 화자 사이에 구비되고, 상기 두 명의 화자가 위치한 방향 및 거리를 각각 측정하는 센서부, 상기 센서부와 인접한 위치에 구비되고, 상기 두 명의 화자로부터 발화되는 음성을 각각 입력받는 마이크 및 상기 측정된 정보를 이용하여 화자별로 상기 음성에 대한 빔포밍 수음 각도를 제어하는 제어부를 포함한다.

또한 상기 센서부는, 상기 두 명의 화자 중 제1 화자가 위치한 방향 및 거리를 측정하는 제1 센서 및 상기 두 명의 화자 중 제2 화자가 위치한 방향 및 거리를 측정하는 제2 센서를 포함하고, 상기 마이크는, 상기 제1 센서와 인접한 위치에 구비되고, 상기 제1 화자로부터 발화되는 제1 음성을 입력받는 제1 마이크 및 상기 제2 센서와 인접한 위치에 구비되고, 상기 제2 화자로부터 발화되는 제2 음성을 입력받는 제2 마이크를 포함하며, 상기 제어부는, 상기 제1 센서로부터 측정된 정보를 이용하여 상기 제1 음성에 대한 상기 제1 마이크의 빔포밍 수음 각도를 조절하고, 상기 제2 센서로부터 측정된 정보를 이용하여 상기 제2 음성에 대한 상기 제2 마이크의 빔포밍 수음 각도를 조절하여 상기 제1 화자 및 상기 제2 화자가 발화하는 음성이 개별적으로 인식되도록 제어하는 것을 특징으로 한다.

본 발명의 화자 위치를 이용하여 빔포밍 수음 각도를 조절하는 음성인식장치는 화자의 방향 및 거리를 측정하고, 측정된 정보를 이용하여 빔포밍되는 수음 각도를 산출하며, 산출된 수음 각도에 맞게 화자의 음성을 인식할 수 있다.

이를 통해 화자의 음성이 발화되는 위치가 마이크와 대향하는 방향이 아니더라도 해당 위치에 맞게 수음 각도로 조절하여 화자의 음성을 정확하게 인식할 수 있다.

도 1은 본 발명의 실시예에 따른 회의록 작성 시스템을 설명하기 위한 구성도이다.
도 2는 본 발명의 실시예에 따른 음성 인식 장치를 설명하기 위한 블록도이다.
도 3은 본 발명의 실시예에 따른 음성 인식 장치의 구조를 설명하기 위한 도면이다.
도 4는 본 발명의 실시예에 따른 음성 인식 장치의 빔포밍 수음 각도 조절과 관련된 동작 원리를 설명하기 위한 도면이다.
도 5는 본 발명의 실시예에 따른 스테이션 장치를 설명하기 위한 블록도이다.
도 6은 본 발명의 실시예에 따른 회의록 작성을 위한 시간별 정렬을 설명하기 위한 도면이다.
도 7은 본 발명의 실시예에 따른 음성 인식 장치의 빔포밍 수음 각도 조절을 설명하기 위한 도면이다.
도 8은 본 발명의 실시예에 따른 음성 인식 장치의 노이즈 제거를 설명하기 위한 도면이다.

이하 본 발명의 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의한다. 또한 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 당업자에게 자명하거나 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

도 1은 본 발명의 실시예에 따른 회의록 작성 시스템을 설명하기 위한 구성도이다.

도 1을 참조하면, 회의록 작성 시스템(300)은 복수의 화자가 참여하는 회의에서 각 화자의 음성을 인식하여 자동으로 회의록을 작성한다. 이를 위해 회의록 작성 시스템(300)은 회의에 참여하는 복수의 화자가 발화한 음성을 화자별로 인식한 화자별 음성정보 및 복수의 화자가 발화한 음성을 전체로 인식한 전체 음성정보를 비교 분석하여 회의록을 작성할 수 있다. 이때 회의록 작성 시스템(300)은 화자별 음성정보 및 전체 음성정보를 시간 기준으로 정렬한 후, 각 화자의 발화시간을 산출함으로써, 시간대별로 정확한 회의록을 작성할 수 있다. 회의록 작성 시스템(300)은 복수의 음성인식장치(100a, 100b, 100c, 100d) 및 스테이션장치(200)를 포함한다.

복수의 음성인식장치(100a, 100b, 100c, 100d)는 복수의 화자와 마주보는 위치에 각각 설치된다. 이를 통해 복수의 음성인식장치(100a, 100b, 100c, 100d)는 화자와 대응됨에 따라 각 화자로부터 발화되는 음성을 개별로 인식한다. 복수의 음성인식 장치(100a, 100b, 100c, 100d)는 인식된 음성에 대한 화자별 음성정보를 생성하고, 생성된 화자별 음성정보를 저장할 수 있다.

스테이션장치(200)는 복수의 음성인식장치(100a, 100b, 100c, 100d)로부터 생성된 화자별 음성정보가 수신 가능한 일부분에 설치된다. 예를 들어 스테이션장치(200)는 가상 공간 및 회의 공간 중 적어도 하나에 설치될 수 있다. 즉 스테이션장치(200)는 온라인상에서 원격 회의를 진행하는 경우, 원격 회의가 이루어지는 가상 공간에 설치될 수 있다. 또한 스테이션장치(200)는 오프라인상에서 대면 회의를 진행하는 경우, 회의 공간에 설치될 수 있다. 이때 스테이션 장치(200)는 복수의 음성인식장치(100a, 100b, 100c, 100d)로부터 둘러싸이는 형태로 설치될 수 있고, 바람직하게는 스테이션장치(200)는 복수의 음성인식장치(100a, 100b, 100c, 100d)가 설치된 위치의 중앙에 설치될 수 있다. 스테이션장치(200)는 복수의 음성인식장치(100a, 100b, 100c, 100d)로부터 생성된 화자별 음성정보를 수신받는다. 이때 스테이션장치(200)는 엠프와 같이 신호를 증폭시키는 주변기기(미도시)를 이용할 수 있다. 즉 스테이션장치(200)는 복수의 음성인식장치(100a, 100b, 100c, 100d)과의 사이에 주변기기를 설치하여 주변기기를 통해 화자별 음성정보를 수신받을 수 있다. 스테이션장치(200)는 수신된 화자별 음성정보를 저장할 수 있다. 또한 스테이션장치(200)는 복수의 화자로부터 발화되는 음성을 인식하여 전체 음성정보를 생성한다. 여기서 전체 음성정보는 회의 중에 발생되는 모든 소리(음성+주변소리)를 인식한 정보를 의미하고, 바람직하게는 복수의 화자로부터 발화된 음성을 인식한 정보일 수 있다. 스테이션장치(200)는 화자별 음성정보 및 전체 음성정보를 비교 분석하여 복수의 화자에 대한 회의록을 작성한다. 상세하게는 스테이션장치(200)는 화자별 음성정보 및 전체 음성정보에 포함된 입력시간 정보를 이용하여 시간대별로 정렬을 수행하고, 각 화자의 발화시간을 산출한다. 스테이션장치(200)는 산출된 발화시간 및 발화시간에 대응되는 음성을 텍스트로 변환하여 회의록을 작성할 수 있다.

여기서 스테이션장치(200)는 상술된 바와 같이 실시간으로 회의록 작성을 하지 않고, 회의가 끝난 다음 회의록을 작성할 수 있다. 이를 위해 스테이션장치(200)는 회의 테이블(미도시) 또는 회의 박스(미도시)에 구비되는 형태로 형성될 수 있다. 스테이션장치(200)는 복수의 음성인식장치(100a, 100b, 100c, 100d)와 결합(도킹)되어 복수의 음성인식장치(100a, 100b, 100c, 100d)로부터 화자별 음성정보를 직접 입력받고, 입력된 화자별 음성정보를 스테이션장치(200)로 전송할 수 있다. 이때 결합은 인터페이스를 통한 결합될 수 있다.

한편 상술된 설명 및 도면에서 회의록 작성 시스템(300)이 복수의 음성인식장치가 4개로 구성된 실시예만을 나타내고 있으나, 이에 한정하지 않고 설치 환경에 따라 음성인식장치의 개수를 감소 또는 증가시킬 수 있다.

도 2는 본 발명의 실시예에 따른 음성 인식 장치를 설명하기 위한 블록도이고, 도 3은 본 발명의 실시예에 따른 음성 인식 장치의 구조를 설명하기 위한 도면이며, 도 4는 본 발명의 실시예에 따른 음성 인식 장치의 빔포밍 수음 각도 조절과 관련된 동작 원리를 설명하기 위한 도면이다.

도 1 내지 도 4를 참조하면, 음성 인식 장치(100)는 센서부(10), 마이크(20) 및 제어부(40)를 포함하고, 통신부(30), 저장부(50) 및 전원부(60)를 더 포함한다.

센서부(10)는 화자가 위치한 방향 및 거리를 측정한다. 이를 위해 센서부(10)는 광 센서, 적외선 센서, 초음파 센서 등 방향과 거리를 측정할 수 있는 다양한 센서를 포함할 수 있다. 센서부(10)는 한 명의 화자에 대한 방향 및 거리를 측정하거나, 서로 마주보는 두 명의 화자에 대한 방향 및 거리를 각각 측정할 수 있다. 여기서 서로 마주보는 두 명의 화자에 대한 방향 및 거리를 각각 측정하는 경우, 센서부(10)는 두 명의 화자 사이에 구비되고, 두 명의 화자 중 제1 화자가 위치한 방향 및 거리를 측정하는 제1 센서(11) 및 두 명의 화자 중 제2 화자가 위치한 방향 및 거리를 측정하는 제2 센서(13)를 포함할 수 있다.

마이크(20)는 센서부(10)와 인접한 위치에 구비되고, 화자로부터 발화되는 음성을 입력받는다. 마이크(20)는 복수의 소형 마이크(21a, 21b, 23a, 23b)가 어레이 형태로 이루어진 모듈일 수 있다. 마이크(20)는 적어도 한 명의 화자에 대한 음성을 입력받을 수 있다. 여기서 복수의 화자에 대한 음성을 입력받는 경우, 마이크(20)는 화자별 음성을 각각 입력받을 수 있다. 마이크(20)는 제1 센서(11)와 인접한 위치에 구비된 제1 마이크(21) 및 제2 센서(13)와 인접한 위치에 구비된 제2 마이크(23)를 포함할 수 있다. 마이크(20)는 적어도 한 명의 화자에서 발화하는 음성을 빔포밍 방식으로 입력받을 수 있다. 즉 마이크(20)는 화자의 음성을 시간차별로 입력받을 수 있다. 여기서 마이크(20)가 화자의 음성을 입력받으면서 발생된 시간차는 추후 화자의 위치를 추정하는데 이용될 수 있다.

통신부(30)는 스테이션장치(200)와의 통신을 수행한다. 통신부(30)는 유무선 통신을 수행할 수 있으며, 바람직하게는 근거리 무선통신을 수행할 수 있다. 통신부(30)는 마이크(20)로부터 입력된 음성에 대한 음성정보를 스테이션장치(200)로 전송한다. 마이크(20)는 적어도 한 명의 화자에 대한 음성을 입력받을 수 있다. 여기서 복수의 화자에 대한 음성을 입력받는 경우, 마이크(20)는 화자별 음성을 각각 입력받을 수 있다. 마이크(20)는 제1 센서(11)와 인접한 위치에 구비된 제1 마이크(21) 및 제2 센서(13)와 인접한 위치에 구비된 제2 마이크(23)를 포함할 수 있다. 마이크(20)는 적어도 한 명의 화자에서 발화하는 음성을 빔포밍 방식으로 입력받을 수 있다. 즉 마이크(20)는 화자의 음성을 시간차별로 입력받을 수 있다. 여기서 마이크(20)가 화자의 음성을 입력받으면서 발생된 시간차는 추후 화자의 위치를 추정하는데 이용될 수 있다.

제어부(40)는 마이크(20)로 입력되는 적어도 한 명의 화자에 대한 음성이 정확하게 인식되도록 제어한다. 이를 위해 제어부(40)는 빔포밍 수음 각도 조절부(41) 및 에코 캔슬부(43) 중 적어도 하나를 포함한다.

빔포밍 수음 각도 조절부(41)는 화자가 발화한 음성에 대한 빔포밍 수음 각도를 조절하여 음성 인식률을 높인다. 빔포밍 수음 각도 조절부(41)는 센서부(10)로부터 측정된 화자의 방향 및 거리와 관련된 정보를 이용하여 음성에 대한 빔포밍 수음 각도를 조절한다. 빔포밍 수음 각도 조절부(41)는 측정된 거리가 멀어질수록 화자를 기준으로 빔포밍 수음 각도를 좁힌다. 상세하게는 빔포밍 수음 각도 조절부(40)는 화자가 위치하는 방향을 기준축으로 하여 빔포밍 수음 각도를 조절한다. 이때 빔포밍 수음 각도 조절부(40)는 화자의 거리가 가까운 경우, 빔포밍 수음 각도를 넓혀 부채꼴 형상으로 빔포밍을 수음하지만 화자의 거리가 먼 경우, 빔포밍 수음 각도를 좁혀 기둥 형상 또는 타원 형상으로 빔포밍을 수음할 수 있다.

예를 들어 서로 마주보는 두 명의 화자인 제1 화자 및 제2 화자가 회의를 진행하는 경우, 빔포밍 수음 각도 조절부(41)는 각 화자의 위치에 맞는 빔포밍 수음 각도를 산출하고, 산출된 빔포밍 수음 각도로 음성이 입력되도록 제어할 수 있다.

상세하게는 제1 화자가 도 4의 A2 구역 방향에 위치하고, 제1 마이크(21)와 40㎝ 떨어진 경우, 빔포밍 수음 각도 조절부(41)는 제1 센서(11a, 11b, 11c)로부터 측정된 제1 화자의 방향 및 거리에 대한 정보와 기 설정된 기준을 비교 분석하여 빔포밍 수음 각도를 조절한다. 여기서 기 설정된 기준은 제1 마이크(21)에서 기본적으로 제공하는 빔포밍 수음 각도로써, 일반적으로 방향이 정면 방향(도 4의 A1)이고, 거리가 30㎝ 내지 70㎝일 수 있다. 즉 빔포밍 수음 각도 조절부(41)는 측정된 방향과 기 설정된 기준의 방향이 포함되지 않으므로 빔포밍 수음 방향을 기 설정된 기준인 A1 구역에서 제1 화자가 위치한 A2 구역으로 변경되도록 제어한다. 또한 빔포밍 수음 각도 조절부(41)는 측정된 거리와 기 설정된 기준의 거리 범위가 포함되므로 빔포밍 수음 각도를 빔포밍 수음 방향으로 유지 또는 넓혀지도록 제어한다.

제2 화자가 도 4의 B1 구역 방향에 위치하고, 제2 마이크(23)와 100㎝ 떨어진 경우, 빔포밍 수음 각도 조절부(41)는 제2 센서(13a, 13b, 13c)로부터 측정된 제2 화자의 방향 및 거리에 대한 정보와 기 설정된 기준을 비교 분석하여 빔포밍 수음 각도를 조절한다. 즉 빔포밍 수음 각도 조절부(41)는 측정된 방향과 기 설정된 기준의 방향이 포함되므로 빔포밍 수음 방향을 기 설정된 기준인 B1 구역이 유지되도록 제어한다. 또한 빔포밍 수음 각도 조절부(41)는 측정된 거리와 기 설정된 기준의 거리 범위가 포함되지 않으므로 빔포밍 수음 각도를 빔포밍 수음 방향으로 좁혀지도록 제어한다.

에코 캔슬부(43)는 제1 마이크(21)에 제2 화자의 제2 음성이 입력되거나, 제2 마이크(23)에 제1 화자의 제1 음성이 입력되는 현상을 방지한다. 에코 캔슬부(43)는 제1 마이크(21) 및 제2 마이크(23)로 입력되는 음성을 정면(front) 방향에서 입력되는 음성(입력 음성)과 후면(back) 방향에서 입력되는 음성(노이즈)으로 구분하여 인식하여 에코 캔슬(echo cancel)을 수행할 수 있다. 즉 에코 캔슬부(43)는 제1 마이크(21)에 입력된 제2 음성 및 제2 마이크에 입력된 제1 음성을 노이즈로 판단하고, 판단된 노이즈를 제거하여 제1 마이크(21)에서는 제1 음성만 입력되고, 제2 마이크(23)에서는 제2 음성만 입력되도록 제어한다. 이를 수행하기 위해 에코 캔슬부(43)는 제1 마이크(21) 및 제2 마이크(23)의 출력을 에코 캔슬의 기준값으로 하여 상대편 마이크의 출력을 에코(echo)로 판단하고, 판단된 에코를 필터링하여 노이즈를 제거한다. 여기서 에코 캔슬부(43)는 제1 마이크(21) 및 제2 마이크(23)와 관련된 클록(clock) 소스를 동일하게 되도록 제어함으로써, 에코 캔슬의 효율을 극대화시킬 수 있다.

한편 제어부(40)는 센서부(10)로부터 측정된 거리에 대한 정보에 따라 입력 게인(gain)을 조정하여 화자의 음성을 입력받을 수 있도록 제어하여 음성 인식률을 높일 수 있다. 즉 제어부(40)는 측정된 거리가 기 설정된 기준보다 짧으면 게인의 크기를 거리에 비례하게 낮추고, 측정된 거리가 기 설정된 기준보다 멀면 거리에 비례하게 높여서 음성이 일정한 크기로 입력되도록 제어한다.

또한 제어부(40)는 마이크(20)로부터 출력되는 에코(echo) 성분의 크기에 따라 전달함수를 변경하여 음성을 입력받아 음성 인식률을 높일 수 있다. 여기서 제어부(40)는 상관(correlation) 값이 크게 나오면 에코 성분의 크기가 큰 상태라고 판단할 수 있다. 이때 제어부(40)는 센서부(10)로부터 측정된 거리를 더 이용하여 전달함수를 변경할 수 있다. 제어부(40)는 에코 성분의 크기를 기 설정된 기준과 비교하고, 비교된 결과에 해당 거리를 적용하여 전달함수가 변경되도록 제어한다. 즉 제어부(40)는 에코 성분의 크기가 작은 상태와 큰 상태를 구분하고, 해당 상태에 거리(근거리, 중거리, 원거리 등)와 관련된 정보를 적용하여 상황에 맞는 음성인식 모델로 변경함으로써, 최적화된 음성인식을 지원할 수 있다. 예를 들어 제1 화자 및 제2 화자의 음성 입력을 수행할 경우, 제어부(40)는 제1 마이크(21)로부터 출력되는 제1 에코 성분의 크기를 기 설정된 기준과 비교하고, 비교된 결과에 제1 화자와 제1 마이크(21)의 거리인 제1 거리를 더 적용하여 전달함수를 변경하고, 제2 마이크(23)로부터 출력되는 제2 에코 성분의 크기를 기 설정된 기준과 비교하고, 비교된 결과에 제2 화자와 제2 마이크(23)의 거리인 제2 거리를 더 적용하여 전달함수를 변경할 수 있다.

저장부(50)는 음성인식장치(100)가 구동되기 위한 프로그램, 알고리즘 또는 어플리케이션이 저장된다. 저장부(50)는 제1 마이크(21) 및 제2 마이크(23)로부터 입력된 제1 음성 및 제2 음성이 각각 저장된다. 저장부(50)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(Random Access Memory, RAM), SRAM(Static Random Access Memory), 롬(Read-Only Memory, ROM), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기메모리, 자기 디스크 및 광디스크 중 적어도 하나의 저장매체를 포함할 수 있다.

인터페이스부(60)는 스테이션 장치(200)와의 직접 결합을 지원한다.여기서 결합은 도킹 결합일 수 있다. 이를 위해 인터페이스부(250)는 다양한 종류의 인터페이스를 포함할 수 있다.

전원부(70)는 각 구성에 전원을 공급한다. 전원부(70)는 배터리 형태로 전원을 공급하거나, 외부 전원으로부터 전원을 공급받고, 공급된 전원을 전달하는 형태로 전원을 공급할 수 있다. 여기서 배터리 형태로 전원을 공급하는 경우, 전원부(70)는 배터리의 전원 저장량을 실시간 확인하고, 전원 저장량이 기 설정된 기준보다 낮으면 알람 또는 경고등을 출력할 수 있다.

도 5는 본 발명의 실시예에 따른 스테이션 장치를 설명하기 위한 블록도이고, 도 6은 본 발명의 실시예에 따른 회의록 작성을 위한 시간별 정렬을 설명하기 위한 도면이다.

도 1, 도 5 및 도 6을 참조하면, 스테이션 장치(200)는 스테이션 마이크(210), 스테이션 통신부(220) 및 스테이션 제어부(230)를 포함하고, 스테이션 저장부(240) 및 스테이션 전원부(250)를 더 포함한다.

스테이션 마이크(210)는 복수의 화자로부터 발화되는 음성을 입력받는다. 스테이션 마이크(210)는 무지향성 음성인식용 마이크일 수 있다. 이를 통해 스테이션 마이크(210)는 회의실에서 복수의 화자가 발화하는 음성 및 주변 소리가 포함된 모든 소리를 입력받을 수 있으며, 바람직하게는 주변 소리를 필터링하고, 복수의 화자가 발화하는 음성만을 입력받을 수 있다.

스테이션 통신부(220)는 복수의 음성인식장치(100a, 100b, 100c, 100d)와의 통신을 수행한다. 스테이션 통신부(220)는 유무선 통신을 수행할 수 있으며, 바람직하게는 근거리 무선통신을 수행할 수 있다. 스테이션 통신부(220)는 복수의 음성인식장치(100a, 100b, 100c, 100d)로부터 화자별 음성정보를 수신한다.

스테이션 제어부(230)는 스테이션 마이크(210)로부터 입력된 음성을 인식하여 전체 음성정보를 생성하고, 화자별 음성정보와 전체 음성정보를 시간을 기준으로 정렬한다. 스테이션 제어부(230)는 정렬된 화자별 음성정보와 전체 음성정보를 시간대별로 매칭하여 비교 분석한 후, 분석된 결과를 이용하여 복수의 화자에 대한 회의록을 작성한다. 즉 스테이션 제어부(230)는 화자별 음성정보와 전체 음성정보에 포함된 입력시간 정보를 이용하여 시간을 기준으로 정렬하고, 정렬된 시간 정보를 이용하여 각 화자의 발화시간을 산출한다. 스테이션 제어부(230)는 산출된 발화시간 및 발화시간에 대응되는 음성을 텍스트로 변환하여 회의록을 작성할 수 있다. 예를 들어 스테이션 제어부(230)는 회의가 시작하는 0초부터 회의가 끝나는 t초까지의 전체 음성정보와, 제1 음성인식장치(100a)로 입력된 제1 화자 음성정보, 제2 음성인식장치(100b)로 입력된 제2 화자 음성정보, 제3 음식인식장치(100c)로 입력된 제3 화자 음성정보, 제4 음성인식정보(100d)로 입력된 제4 화자 음성정보인 화자별 음성정보를 시간대별로 정렬 후, 매칭하여 비교 분석할 수 있다. 즉 스테이션 제어부(230)는 A초부터 D초까지의 구간에서 전체 음성정보와 제1 화자 음성정보를 비교 분석하고, D초부터 E초까지의 구간에서 전체 음성정보와 제2 화자 음성정보를 비교 분석하며, B초부터 G초까지의 구간에서 전체 음성정보와 제3 화자 음성정보를 비교 분석하고, F초부터 H초까지의 구간에서 전체 음성정보와 제4 화자 음성정보를 서로 매칭 비교하여 회의록을 작성할 수 있다. 이를 통해 스테이션 제어부(230)는 화자의 발화 시간을 정확하게 산출하여 높은 정확도의 회의록을 작성할 수 있다.

또한 스테이션 제어부(230)는 인식된 음성정보에 인명 또는 고유명사 등과 같은 미등록어가 포함된 경우, 언어모델 슬롯(slot) 기반의 방법을 이용하여 해당 언어를 텍스트화할 수 있다. 스테이션 제어부(230)는 기존 음성 인식 디코더 격자(lattice)에 슬롯 문법을 적용한 고정 크기 음성 인식 디코더 격자에 슬롯 문법을 위해 동적 크기를 생성하는 확장형 격자 구조를 추가하여 미등록어를 인식할 수 있다. 여기서 슬롯 문법은 N-gram 이미지 생성 시 {슬롯}이라는 태그(tag)를 추가하여 이미지를 생성하는 문법을 의미한다. 즉 스테이션 제어부(230)는 고정 크기의 로딩된 네트워크 중 i(i는 자연수) 번째 슬롯 노드(slot node)에 대하여 가변 크기 네트워크에 새로운 노드 및 아크(arc)를 생성하여 미등록어를 실시간으로 인식할 수 있다.

스테이션 저장부(240)는 스테이션장치(200)가 구동되기 위한 프로그램, 알고리즘 또는 어플리케이션이 저장된다. 스테이션 저장부(240)는 복수의 음성입력장치(100a, 100b, 100c, 100d)로부터 수신된 화자별 음성정보 및 스테이션 마이크(210)로부터 입력된 전체 음성정보가 각각 저장된다. 스테이션 저장부(240)는 플래시 메모리 타입, 하드디스크 타입, 미디어 카드 마이크로 타입, 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램, SRAM, 롬, EEPROM, PROM, 자기메모리, 자기 디스크 및 광디스크 중 적어도 하나의 저장매체를 포함할 수 있다.

스테이션 인터페이스부(250)는 복수의 핀 마이크 장치(100a, 100b, 100c, 100d)와의 직접 결합을 지원한다. 이를 위해 스테이션 인터페이스부(250)는 다양한 종류의 인터페이스를 포함할 수 있다.

스테이션 전원부(260)는 각 구성에 전원을 공급한다. 스테이션 전원부(260)는 배터리 형태로 전원을 공급하거나, 외부 전원으로부터 전원을 공급받고, 공급된 전원을 전달하는 형태로 전원을 공급할 수 있다. 여기서 배터리 형태로 전원을 공급하는 경우, 전원부(260)는 배터리의 전원 저장량을 실시간 확인하고, 전원 저장량이 기 설정된 기준보다 낮으면 알람 또는 경고등을 출력할 수 있다.

도 7은 본 발명의 실시예에 따른 음성 인식 장치의 빔포밍 수음 각도 조절을 설명하기 위한 도면이다.

도 3 및 도 7을 참조하면, 음성 인식 장치(100)는 제1 화자(410) 및 제2 화자(420)의 위치에 따라 빔포밍 수음 각도를 제어할 수 있다. 이를 통해 음성 인식 장치(100)는 각 화자의 음성에 대한 음성 인식률을 높일 수 있다.

예를 들어 제1 화자(410)가 음성 인식 장치(100)와 대각선 방향에서 먼 위치에 있는 경우, 음성 인식 장치(100)는 제1 화자(410)가 위치하고 있는 방향으로 빔포밍 방향을 조정하고, 제1 화자(410)와의 거리에 맞춰 빔포밍 수음 각도(110)를 좁힘으로써, 먼 거리에서 발화하는 음성을 포커싱하여 음성인식할 수 있도록 한다. 이때 음성 인식 장치(100)는 기둥 형상 또는 타원 형상의 제1 빔포밍 수음 각도(110)로 제1 화자(410)의 음성을 입력받을 수 있다.

또한 제2 화자(420)가 음성 인식 장치(100)와 정면 방향이면서 가까운 위치에 있는 경우, 음성 인식 장치(100)는 제2 화자(420)가 위치하고 있는 방향으로 빔포밍 방향을 조정하고, 제2 화자(420)와의 거리에 맞춰 제2 빔포밍 수음 각도(120)를 넓혀 가까운 거리에서 발화하는 음성을 폭넓게 음성인식할 수 있도록 한다. 이때 음성 인식 장치(100)는 부채꼴 형상의 제2 빔포밍 수음 각도(120)로 제2 화자(420)의 음성을 입력받을 수 있다.

도 8은 본 발명의 실시예에 따른 음성 인식 장치의 노이즈 제거를 설명하기 위한 도면이다.

도 3 및 도 8을 참조하면, 음성 인식 장치(100)는 제1 화자(410)의 제1 음성이 제1 마이크(21)에만 입력되고, 제2 마이크(23)에 입력되지 않도록 한다. 이를 통해 음성 인식 장치(100)는 각 마이크별로 할당된 화자의 음성만을 입력받음으로써, 각 화자의 음성에 대한 음성 인식률을 높일 수 있다.

예를 들어 음성 인식 장치(100)는 제1 화자(410)의 제1 음성 중 제1 마이크(21)의 정면 방향으로 입력되는 입력 음성(410a)과 제1 화자(410)의 제1 음성 중 제1 마이크(21)의 후면 방향으로 전달되어 제2 마이크(23)로 입력되는 노이즈(410b)를 구분한다. 즉 음성 인식 장치(100)는 음성이 마이크(20)의 정면 방향으로 입력되는 음성 및 후면 방향으로 입력되는 음성을 구분하여 에코 캔슬을 수행함으로써, 노이즈를 제거할 수 있다.

이상에서 본 발명의 바람직한 실시예에 대해 도시하고 설명하였으나, 본 발명은 상술한 특정의 바람직한 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.

10: 센서부
11: 제1 센서
13: 제2 센서
20: 마이크
21: 제1 마이크
23: 제2 마이크
30: 통신부
40: 제어부
41: 빔포밍 수음 각도 조절부
43: 에코 캔슬부
50: 저장부
60: 인터페이스부
70: 전원부
100: 음성 인식 장치
110: 제1 빔포밍 수음 각도
120: 제2 빔포밍 수음 각도
200: 스테이션 장치
210: 스테이션 마이크
220: 스테이션 통신부
230: 스테이션 제어부
240: 스테이션 저장부
250: 스테이션 인터페이스부
260: 스테이션 전원부
300: 회의록 작성 시스템
410: 제1 화자
420: 제2 화자

Claims

화자가 위치한 방향 및 거리를 측정하는 센서부;
상기 센서부와 인접한 위치에 구비되고, 상기 화자로부터 발화되는 음성을 입력받는 마이크; 및
상기 측정된 정보를 이용하여 상기 음성에 대한 빔포밍 수음 각도를 제어하는 제어부;를 포함하되,
상기 제어부는,
상기 마이크로부터 출력되는 에코(echo) 성분의 크기를 기 설정된 기준과 비교하고, 상기 비교된 결과에 상기 거리를 적용하여 전달함수를 변경한 후, 상기 음성을 입력받도록 제어하는 것을 특징으로 하는 화자 위치를 이용하여 빔포밍 수음 각도를 조절하는 음성인식장치.
제 1항에 있어서,
상기 제어부는,
상기 거리에 따라 입력 게인(gain)을 조정하여 상기 음성을 입력받도록 제어하는 것을 특징으로 하는 화자 위치를 이용하여 빔포밍 수음 각도를 조절하는 음성인식장치.
제 2항에 있어서,
상기 제어부는,
상기 거리가 기 설정된 기준보다 가까우면 상기 게인의 크기를 거리에 비례하게 낮추고, 상기 거리가 기 설정된 기준보다 멀면 상기 게인의 크기를 거리에 비례하게 높여서 상기 음성이 일정한 크기로 입력되도록 제어하는 것을 특징으로 하는 화자 위치를 이용하여 빔포밍 수음 각도를 조절하는 음성인식장치.
삭제
삭제
제 1항에 있어서,
상기 제어부는,
상기 거리가 멀어질수록 상기 화자를 기준으로 상기 빔포밍 수음 각도를 좁히는 것을 특징으로 하는 화자 위치를 이용하여 빔포밍 수음 각도를 조절하는 음성인식장치.
서로 마주보는 두 명의 화자 사이에 구비되고, 상기 두 명의 화자가 위치한 방향 및 거리를 각각 측정하는 센서부;
상기 센서부와 인접한 위치에 구비되고, 상기 두 명의 화자로부터 발화되는 음성을 각각 입력받는 마이크; 및
상기 측정된 정보를 이용하여 화자별로 상기 음성에 대한 빔포밍 수음 각도를 제어하는 제어부;를 포함하되,
상기 제어부는,
상기 마이크로부터 출력되는 에코 성분의 크기를 기 설정된 기준과 비교하고, 상기 비교된 결과에 상기 거리를 적용하여 전달함수를 변경한 후, 상기 음성을 입력받도록 제어하는 것을 특징으로 하는 화자 위치를 이용하여 빔포밍 수음 각도를 조절하는 음성인식장치.
제 7항에 있어서,
상기 센서부는,
상기 두 명의 화자 중 제1 화자가 위치한 방향 및 거리를 측정하는 제1 센서; 및
상기 두 명의 화자 중 제2 화자가 위치한 방향 및 거리를 측정하는 제2 센서;를 포함하고,
상기 마이크는,
상기 제1 센서와 인접한 위치에 구비되고, 상기 제1 화자로부터 발화되는 제1 음성을 입력받는 제1 마이크; 및
상기 제2 센서와 인접한 위치에 구비되고, 상기 제2 화자로부터 발화되는 제2 음성을 입력받는 제2 마이크;를 포함하며,
상기 제어부는,
상기 제1 센서로부터 측정된 정보를 이용하여 상기 제1 음성에 대한 상기 제1 마이크의 빔포밍 수음 각도를 조절하고, 상기 제2 센서로부터 측정된 정보를 이용하여 상기 제2 음성에 대한 상기 제2 마이크의 빔포밍 수음 각도를 조절하여 상기 제1 화자 및 상기 제2 화자가 발화하는 음성이 개별적으로 인식되도록 제어하는 것을 특징으로 하는 화자 위치를 이용하여 빔포밍 수음 각도를 조절하는 음성인식장치.