WO2016036163A2

WO2016036163A2 - 오디오 신호를 학습하고 인식하는 방법 및 장치

Info

Publication number: WO2016036163A2
Application number: PCT/KR2015/009300
Authority: WO
Inventors: 정재훈; 이승열; 황인우; 고병섭
Original assignee: 삼성전자 주식회사
Priority date: 2014-09-03
Filing date: 2015-09-03
Publication date: 2016-03-10
Also published as: US20170287505A1; KR20170033869A; WO2016036163A3; KR101904423B1

Abstract

복수의 프레임들로 구성된 주파수 도메인의 오디오 신호를 적어도 하나 획득하고, 프레임 간 유사도를 이용하여, 주파수 도메인의 오디오 신호를 적어도 하나의 블록으로 분할하고, 각 블록에 대응하는 템플릿 벡터를 획득하고, 각 블록에 포함된 적어도 하나의 프레임에 대응하여, 획득된 템플릿 벡터들의 순서를 획득하고, 획득된 템플릿 벡터들 및 템플릿 벡터들의 순서를 포함하는 학습 데이터를 생성하는, 오디오 신호를 학습하는 방법이 개시된다.

Description

오디오 신호를 학습하고 인식하는 방법 및 장치

본 발명은 오디오 신호를 학습하여 오디오 신호의 인식을 위한 정보를 획득하고, 오디오 신호의 인식을 위한 정보를 이용하여 오디오 신호를 인식하는 방법 및 장치에 대한 것이다.

소리 인식 기술은 인식하고자 하는 소리를 미리 학습하여 학습 데이터를 생성하고, 학습 데이터에 기초하여 소리를 인식하는 방법에 관한 것이다. 예를 들면, 사용자에 의해 단말 장치에서 초인종 소리가 학습된 후, 학습된 초인종 소리와 동일한 소리가 단말 장치에 입력되면, 단말 장치는 초인종 소리가 인식됨을 나타내는 동작을 수행할 수 있다.

단말 장치가 특정 소리를 인식하기 위하여는 학습 데이터 생성을 위한 학습 과정을 수행하는 것이 필요하다. 학습 과정이 복잡하고 오래 걸리는 경우, 사용자가 불편함을 느낌에 따라 학습 과정이 제대로 수행되지 않을 수 있다. 따라서, 학습 과정에서 오류가 생길 가능성이 높으므로 소리 인식 기능의 성능이 낮아질 수 있다.

본 발명은 보다 간단하게 오디오 신호의 인식을 위한 학습 데이터를 생성하고, 학습 데이터를 이용하여 오디오 신호를 인식하는 방법 및 장치에 대한 것이다.

일 실시 예에 의하면, 동일한 소리를 포함하는 오디오 신호의 입력 횟수가 최소화될 수 있어 보다 간단하게 소리를 학습하는 과정이 수행될 수 있다.

도 1은 일 실시 예에 의한 오디오 신호를 학습하는 단말 장치의 내부 구조를 나타낸 블록도이다.

도 2는 일 실시 예에 의한 오디오 신호를 학습하는 방법을 나타낸 순서도이다.

도 3은 일 실시 예에 의한 오디오 신호 및 오디오 신호 간의 유사도에 대한 일 예를 나타낸 예시 도면이다.

도 4는 일 실시 예에 의한 주파수 도메인의 오디오 신호를 나타낸 예시 도면이다.

도 5는 일 실시 에에 의한 인접한 프레임에 속하는 주파수 도메인의 오디오 신호 간 유사도를 획득하는 일 예를 나타낸 도면이다.

도 6은 일 실시 예에 의한 오디오 신호를 인식하는 단말 장치의 내부 구조를 나타낸 블록도이다.

도 7은 일 실시 예에 의한 오디오 신호를 인식하는 방법을 나타낸 순서도이다.

도 8은 일 실시 예에 의한 템플릿 벡터 및 템플릿 벡터의 순서를 획득하는 일 예를 나타낸 블록도이다.

도 9는 일 실시 예에 의한 템플릿 벡터를 획득하는 일 예를 나타낸 예시 도면이다.

도 10은 일 실시 예에 의한 오디오 신호를 학습하는 단말 장치의 내부 구조를 나타낸 블록도이다.

도 11은 일 실시 예에 의한 오디오 신호를 인식하는 단말 장치의 내부 구조를 나타낸 블록도이다.

일 실시 예에 의한 오디오 신호를 학습하는 방법에 있어서, 복수의 프레임들로 구성된 주파수 도메인의 오디오 신호를 적어도 하나 획득하는 단계; 프레임 간 유사도를 이용하여, 상기 주파수 도메인의 오디오 신호를 적어도 하나의 블록으로 분할하는 단계; 상기 각 블록에 대응하는 템플릿 벡터를 획득하는 단계; 상기 각 블록에 포함된 적어도 하나의 프레임에 대응하여, 상기 획득된 템플릿 벡터들의 순서(sequence)를 획득하는 단계; 및 상기 획득된 템플릿 벡터들 및 상기 템플릿 벡터들의 순서를 포함하는 학습 데이터를 생성하는 단계를 포함한다.

상기 분할하는 단계는 상기 유사도가 기준값 이상인 적어도 하나의 프레임을 상기 적어도 하나의 블록으로 분할하는 단계를 포함한다.

상기 템플릿 벡터를 획득하는 단계는 상기 블록에 포함된 적어도 하나의 프레임을 획득하는 단계; 및 상기 획득된 프레임에 대한 대표값을 구함으로써, 상기 템플릿 벡터를 획득하는 단계를 포함한다.

상기 템플릿 벡터들의 순서는 각 블록에 포함되는 상기 적어도 하나의 프레임에 대하여 상기 템플릿 벡터의 식별 정보를 할당하여 표시한다.

상기 분할하는 단계는 주파수 대역을 복수 개의 구간으로 분할하는 단계; 상기 각 구간에서, 프레임 간 유사도를 구하는 단계; 상기 각 구간에서의 유사도에 기초하여, 상기 복수 개의 구간 중 노이즈가 포함되어 있는 구간을 결정하는 단계; 상기 결정된 구간을 제외한, 나머지 구간에서의 유사도에 기초하여 상기 인접한 프레임에 속한 상기 주파수 도메인의 오디오 신호들 간 유사도를 구하는 단계를 포함한다.

일 실시 예에 의한 오디오 신호를 인식하는 방법에 있어서, 복수의 프레임들로 구성된 주파수 도메인의 오디오 신호를 적어도 하나 획득하는 단계; 템플릿 벡터들 및 상기 템플릿 벡터들의 순서를 포함하는 학습 데이터를 획득하는 단계; 상기 주파수 도메인의 오디오 신호와 상기 템플릿 벡터간의 유사도에 기초하여, 상기 각 프레임과 대응되는 템플릿 벡터를 결정하는 단계; 및 상기 결정된 템플릿 벡터들의 순서와 상기 학습 데이터의 순서간의 유사도에 기초하여, 상기 오디오 신호를 인식하는 단계를 포함한다.

상기 각 프레임과 대응되는 템플릿 벡터를 결정하는 단계는 상기 각 프레임의 주파수 도메인의 오디오 신호와 상기 템플릿 벡터간의 유사도를 각각 구하는 단계; 및 상기 유사도가 기준값 이상인 경우, 상기 템플릿 벡터를 상기 각 프레임과 대응되는 템플릿 벡터로 결정하는 단계를 포함한다.

일 실시 예에 의한 오디오 신호를 학습하는 단말 장치에 있어서, 복수의 프레임들로 구성된 주파수 도메인의 오디오 신호를 적어도 하나 수신하는 수신부; 프레임 간 유사도를 이용하여, 상기 주파수 도메인의 오디오 신호를 적어도 하나의 블록으로 분할하고, 상기 각 블록에 대응하는 템플릿 벡터를 획득하고, 상기 각 블록에 포함된 적어도 하나의 프레임에 대응하여, 상기 획득된 템플릿 벡터들의 순서를 획득하고, 상기 획득된 템플릿 벡터들 및 상기 템플릿 벡터들의 순서를 포함하는 학습 데이터를 생성하는 제어부; 및 상기 학습 데이터를 저장하는 저장부를 포함한다.

일 실시 예에 의한 오디오 신호를 인식하는 단말 장치에 있어서, 복수의 프레임들로 구성된 주파수 도메인의 오디오 신호를 적어도 하나 수신하는 수신부; 템플릿 벡터들 및 상기 템플릿 벡터들의 순서를 포함하는 학습 데이터를 획득하고, 상기 주파수 도메인의 오디오 신호와 상기 템플릿 벡터간의 유사도에 기초하여, 상기 각 프레임과 대응되는 템플릿 벡터를 결정하고, 상기 결정된 템플릿 벡터들의 순서와 상기 학습 데이터의 순서간의 유사도에 기초하여, 상기 오디오 신호를 인식하는 제어부; 및 상기 오디오 신호가 인식된 결과를 출력하는 출력부를 포함한다.

이하 본 발명의 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 다만, 하기의 설명 및 첨부된 도면에서 본 발명의 요지를 흐릴 수 있는 공지 기능 또는 구성에 대한 상세한 설명은 생략한다. 또한, 도면 전체에 걸쳐 동일한 구성 요소들은 가능한 한 동일한 도면 부호로 나타내고 있음에 유의하여야 한다.

이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위한 용어로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시 예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시 예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.

첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 또는 개략적으로 도시되었으며, 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니다. 본 발명은 첨부한 도면에 그려진 상대적인 크기나 간격에 의해 제한되어지지 않는다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.

아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 설명한다.

도 1 내지 도 5를 참조하여, 오디오 신호를 학습하는 장치 및 방법에 대해 자세히 설명하기로 한다.

오디오 신호를 학습하는 단말 장치(100)는, 입력된 오디오 신호를 학습하여 학습 데이터를 생성할 수 있다. 단말 장치(100)에 의해 학습될 수 있는 오디오 신호는 사용자가 등록하고자 하는 소리를 포함하는 신호일 수 있다. 단말 장치에 의해 생성된 학습 데이터는 미리 등록된 소리를 인식하는데 이용될 수 있다. 예를 들면, 단말 장치는 학습 데이터를 이용하여 마이크를 통해 입력된 오디오 신호가 미리 등록된 소리를 포함하는지 여부를 판단할 수 있다.

단말 장치가 소리 인식을 위한 학습 과정을 수행하기 위해서는 등록하고자 하는 소리를 포함하는 오디오 신호로부터 통계적인 특징을 뽑음으로써 학습 데이터를 생성할 수 있다. 학습 데이터 생성을 위한 충분한 데이터가 수집될 수 있도록, 단말 장치에 동일한 소리를 포함하는 오디오 신호가 여러 번 입력되는 것이 필요할 수 있다. 예를 들면, 오디오 신호로부터 어떤 통계적 특징이 필요한가에 따라 오디오 신호가 단말 장치에 여러 번 입력되는 것이 필요할 수 있다. 그러나, 오디오 신호가 단말 장치에 입력되어야 하는 횟수가 늘어날수록 사용자는 소리를 학습하는 과정에서 번거로움과 불편함을 느낄 수 있어 단말 장치의 소리 인식 성능이 저하될 수 있다.

한편, 일 실시 예에 의하면, 미리 등록된 오디오 신호에 대한 학습 데이터는 적어도 하나의 템플릿 벡터와 템플릿 벡터의 순서를 포함할 수 있다. 템플릿 벡터는 인접한 프레임의 오디오 신호간 유사도에 따라 결정된 블록 별로 결정될 수 있다. 따라서, 오디오 신호에 노이즈가 포함되거나 소리의 변이가 약간 발생되더라도 템플릿 벡터가 블록별로 결정됨에 따라 오디오 신호로부터 획득될 수 있는 템플릿 벡터 및 순서는 거의 변하지 않을 수 있다. 학습 과정에서 오디오 신호가 여러 번 입력되지 않아도 학습 데이터가 생성될 수 있으므로, 단말 장치는 오디오 신호를 학습하는 과정을 보다 간단하게 수행할 수 있다. 예를 들면, 단말 장치는 등록하고자 하는 소리를 포함하는 오디오 신호를 한번만 입력 받아도 오디오 신호의 변이 가능성을 고려하여 추가로 동일한 소리를 포함하는 오디오 신호를 입력받을 필요 없이 학습 데이터를 생성할 수 있다.

도 1을 참조하면, 오디오 신호를 학습하는 단말 장치는 변환부(110), 블록 분할부(120) 및 학습부(130)를 포함할 수 있다.

일 실시 예에 의한 오디오 신호를 학습하는 단말 장치(100)는, 사용자에 의해 이용될 수 있는 단말 장치일 수 있다. 예를 들면, 단말 장치(100)는 스마트 TV(television), UHD(ultra high definition) TV, 모니터, PC(Personal Computer), 노트북 컴퓨터, 휴대폰(mobile phone), 태블릿 PC, 내비게이션(navigation) 단말기, 스마트폰(smart phone), PDA(Personal Digital Assistants), PMP(Portable Multimedia Player) 및 디지털방송 수신기를 포함할 수 있다. 상술된 예에 한하지 않고, 단말 장치(100)는 다양한 종류의 장치를 포함할 수 있다.

변환부(110)는 단말 장치(100)에 입력된 시간 도메인의 오디오 신호를 주파수 도메인의 오디오 신호로 변환할 수 있다. 변환부(110)는 프레임 단위로 오디오 신호를 주파수 변환할 수 있다. 변환부(110)에 의해, 각 프레임에 대응되는 주파수 도메인의 오디오 신호가 생성될 수 있다. 이에 한하지 않고, 변환부(110)는 다양한 시간 단위로 시간 도메인의 오디오 신호를 주파수 변환할 수 있다. 이하 설명에서는 프레임 단위로 오디오 신호를 처리하는 것을 기준으로 설명하기로 한다. 또한, 주파수 도메인의 오디오 신호는 주파수 스펙트럼 또는 벡터로 지칭될 수도 있다.

블록 분할부(120)는 복수의 프레임들로 구성된 주파수 도메인의 오디오 신호를 적어도 하나의 블록으로 분할할 수 있다. 사용자는 소리의 주파수에 따라 서로 다른 소리인지를 구별할 수 있다. 따라서, 블록 분할부(120)는 주파수 도메인의 오디오 신호를 이용하여 블록을 분할할 수 있다. 블록 분할부(120)는 인접한 프레임 간 유사도(correlation)에 따라 템플릿 벡터를 구하기 위한 블록을 분할할 수 있다. 블록 분할부(120)는 사용자에 의해 하나의 소리로 인식될 수 있는지에 따라 블록을 분할하고, 각 블록에 포함된 오디오 신호를 대표하는 템플릿 벡터를 구할 수 있다.

블록 분할부(120)는 인접한 프레임에 속하는 주파수 도메인의 오디오 신호들의 유사도를 구하고, 유사도 값이 미리 정해진 기준값 이상인 프레임 구간을 결정할 수 있다. 그리고, 블록 분할부(120)는 유사도가 미리 정해진 기준값 이상인 프레임 구간에서 유사도 값이 일정하게 유지되는지에 따라, 시간 도메인의 오디오 신호를 하나 이상의 블록으로 분할할 수 있다. 예를 들면, 블록 분할부(120)는 기준값 이상의 유사도 값이 일정하게 유지되는 구간을 하나의 블록으로 정할 수 있다.

학습부(130)는 블록 분할부(120)에 의해 하나 이상의 블록으로 분할된 오디오 신호로부터 학습 데이터를 생성할 수 있다. 학습부(120)는 각 블록에 대한 템플릿 벡터를 구하고, 템플릿 벡터의 순서를 획득할 수 있다.

템플릿 벡터는 블록에 포함된 주파수 도메인의 오디오 신호로부터 결정될 수 있다. 예를 들면, 템플릿 벡터는 블록에 포함된 오디오 신호에 대한 평균값, 중간값, 최빈값 등의 대표값으로 결정될 수 있다. 템플릿 벡터는 주파수 대역별로 결정된 오디오 신호의 대표값을 포함할 수 있다. 템플릿 벡터는 주파수 대역별로 크기 값이 존재하는 주파수 스펙트럼과 같은 값일 수 있다.

학습부(120)는 블록 분할부(120)에 의해 결정된 적어도 하나의 템플릿 벡터에 대하여 각각 식별 정보를 할당할 수 있다. 학습부(120)는 템플릿 벡터 값들이 서로 동일하거나 템플릿 벡터간 유사도가 소정 기준 값 이상인지에 따라서, 각 템플릿 벡터에 식별 정보를 부여할 수 있다. 서로 동일한 템플릿 벡터인 것으로 판단된 템플릿 벡터들에는 서로 동일한 식별 정보가 할당될 수 있다.

학습부(120)는 각 템플릿 벡터에 대하여 할당된 식별 정보를 이용하여 템플릿 벡터의 순서를 구할 수 있다. 템플릿 벡터의 순서는 프레임 단위 또는 다양한 시간 단위로 획득될 수 있다. 예를 들면, 템플릿 벡터의 순서는 오디오 신호의 각 프레임에 대한 템플릿 벡터의 식별 정보를 포함할 수 있다.

학습부(120)에 의해 획득된 템플릿 벡터 및 템플릿 벡터의 순서는 오디오 신호의 학습 데이터로 출력될 수 있다. 예를 들면, 학습 데이터는 블록 개수만큼의 템플릿 벡터와, 템플릿 벡터의 순서에 관한 정보를 포함할 수 있다. 학습 데이터는 단말 장치(100)의 저장 공간에 저장되어, 이후 오디오 신호를 인식하는데 이용될 수 있다.

도 2는 일 실시 예에 의한 오디오 신호를 학습하는 방법을 나타낸 순서도이다. 도 2에 도시된 방법은, 상술된 도 1에 도시된 단말 장치(100)에 의해 수행될 수 있다.

도 2를 참조하면, 단계 S210에서, 단말 장치(100)는 오디오 신호를 주파수 도메인의 신호로 변환하여, 복수의 프레임들로 구성된 주파수 도메인의 오디오 신호를 적어도 하나 획득할 수 있다. 단말 장치(100)는 주파수 도메인의 오디오 신호로부터, 오디오 신호에 대한 학습 데이터를 생성할 수 있다. 단계 S210의 오디오 신호는 사용자가 미리 등록하고자 하는 소리를 포함할 수 있다.

단계 S220에서, 단말 장치(100)는 프레임 간 오디오 신호의 유사도에 기초하여, 주파수 도메인의 오디오 신호를 적어도 하나의 블록으로 분할할 수 있다. 각 프레임에 대해 결정된 유사도는 각 프레임 및 인접한 프레임에 속한 주파수 도메인의 오디오 신호 간 유사도로부터 결정될 수 있다. 예를 들면, 유사도는 각 프레임의 오디오 신호와 다음 또는 이전 프레임에 속한 오디오 신호 간 유사도로부터 결정될 수 있다. 단말 장치(100)는 각 프레임에서의 유사도가 소정 기준값 이상인 구간에서, 유사도 값이 일정하게 유지되는지에 따라, 오디오 신호를 하나 이상의 블록으로 분할할 수 있다. 예를 들면, 유사도가 소정 기준값 이상인 구간에서, 단말 장치(100)는 유사도 값의 변화 정도에 따라 오디오 신호를 블록으로 분할할 수 있다.

주파수 도메인의 오디오 신호 간 유사도는 두 개의 신호 간 유사도를 측정하는 방법에 따라 구해질 수 있다. 예를 들면, 유사도 r은 이하 수학식 1과 같은 방법으로 획득될 수 있다. 수학식 1에서, A, B는 각각 주파수 도메인의 오디오 신호를 나타내는 벡터 값이다. 유사도 값은 0에서 1까지의 값을 가질 수 있으며, 두 신호가 유사할 수록 유사도는 1에 가까운 값을 가질 수 있다.

수학식 1

단계 S230에서, 단말 장치(100)는 블록에 포함된 주파수 도메인의 오디오 신호에 기초하여 템플릿 벡터 및 템플릿 벡터의 순서를 획득할 수 있다. 단말 장치(100)는 블록에 포함된 하나 이상의 주파수 도메인의 오디오 신호로부터 템플릿 벡터를 구할 수 있다. 예를 들면, 템플릿 벡터는 블록에 포함된 벡터들의 대표 값으로 결정될 수 있다. 상술된 벡터는 주파수 도메인의 오디오 신호를 의미한다.

또한, 단말 장치(100)는 템플릿 벡터 간 동일성 또는 유사 정도에 따라 템플릿 벡터를 구별하기 위한 서로 다른 식별 정보를 부여할 수 있다. 단말 장치(100)는 각 템플릿 벡터에 대하여 부여된 식별 정보를 이용하여 템플릿 벡터의 순서를 결정할 수 있다. 템플릿 벡터의 순서는, 각 블록에 대해 결정된 템플릿 벡터의 시간 순서에 따라 차례대로 결정될 수 있다. 템플릿 벡터의 순서는 프레임 단위로 결정될 수 있다.

단계 S240에서, 단말 장치(100)는 단계 S230에서 획득된 템플릿 벡터 및 템플릿 벡터의 순서를 포함하는 학습 데이터를 생성할 수 있다. 학습 데이터는 오디오 신호를 인식하기 위한 데이터로 이용될 수 있다.

이하 도 3 내지 도 4를 참조하여, 오디오 신호를 학습하는 방법을 예시 도면을 참조하여 더 자세히 설명하기로 한다.

310은, 단말 장치(100)에 입력될 수 있는 시간 도메인의 오디오 신호의 일 예를 나타낸 그래프이다. 입력된 오디오 신호가 초인종 소리, 예를 들면 '딩동'과 같이 두 개의 서로 다른 음을 포함하는 경우, 310의 그래프와 같이 나타날 수 있다. '딩'이 울리는 시점(311)부터 '동'이 울리는 시점(312)까지 '딩' 소리가 나타나고, '동'이 울리는 시점(312)부터 '동' 소리가 나타날 수 있다. '딩' 소리와 '동' 소리는 주파수 스펙트럼이 서로 다름에 따라 사용자에 의해 각각 다른 음으로 인식될 수 있다. 단말 장치(100)는 310에 도시된 오디오 신호를 프레임으로 분할하고, 각 프레임에 대한 주파수 도메인의 오디오 신호를 획득할 수 있다.

320은, 인접한 프레임에 속하는 310의 오디오 신호가 주파수 변환된 주파수 도메인의 오디오 신호간의 유사도를 나타낸 그래프이다. '딩' 소리가 나타나기 전 구간(324)에는 불규칙적인 노이즈가 포함되어 있어, 이 구간(324)에서의 유사도는 0에 가까운 값을 가질 수 있다.

'딩' 소리가 나타나는 구간(322)에서는 동일한 높이의 음이 지속됨에 따라 주파수 스펙트럼 간 유사도가 높게 나타날 수 있다. 유사도 값이 일정하게 유지되는 구간(322)은 하나의 블록으로 할당될 수 있다.

유사도 값이 일시적으로 변화하는 구간(323)은 '동' 소리가 나타남에 따라 이전에 나타난 '딩' 소리와 겹쳐 유사도 값이 하락할 수 있다. '딩'소리가 소멸됨에 따라 유사도 값은 다시 상승할 수 있다. '동' 소리가 나타나는 구간(323)에서는 동일한 높이의 음이 지속됨에 따라 주파수 스펙트럼 간 유사도가 높게 나타날 수 있다. 유사도 값이 일정하게 유지되는 구간(323)은 하나의 블록으로 할당될 수 있다.

블록으로 할당된 구간(322,323)에 대하여, 단말 장치(100)는 각 블록에 속한 오디오 신호에 기초하여, 각 블록과 대응되는 템플릿 벡터를 구하고, 템플릿 벡터의 순서를 획득하여, 학습 데이터를 생성할 수 있다.

템플릿 벡터의 순서는, 프레임 단위로 결정될 수 있다. 예를 들면, 오디오 신호가 2개의 템플릿 벡터를 포함하고, 322 구간과 대응되는 템플릿 벡터가 T1, 323 구간과 대응되는 템플릿 벡터가 T2로 지칭된다고 가정한다. 322 구간 및 323 구간의 길이가 각각 5 프레임, 7 프레임이고, 유사도 값이 낮은 323 구간의 길이가 2 프레임인 경우, 템플릿 벡터의 순서는 프레임 단위로, 'T1 T1 T1 T1 T1 -1 -1 T2 T2 T2 T2 T2 T2 T2'로 결정될 수 있다. -1은 유사도 값이 기준값보다 낮아 블록에 포함되지 않은 구간을 나타낸다. 블록에 포함되지 않은 구간은 템플릿 벡터가 존재하지 않아 템플릿 벡터의 순서에서 -1로 표시될 수 있다.

도 4와 같이, 단말 장치(100)는 입력된 오디오 신호를 주파수 변환하여 프레임 단위로 서로 다른 주파수 도메인의 오디오 신호를 획득할 수 있다. 주파수 도메인의 오디오 신호는 주파수 대역에 따라 서로 다른 크기 값을 가질 수 있으며, 주파수 대역에 따른 크기는 도 4에서 z축 방향으로 표시될 수 있다.

도 5를 참조하면, 단말 장치(100)는 주파수 영역을 k개의 구간으로 나누어서 주파수 구간별로 프레임 간 유사도를 구한 후, 유사도 값들의 평균값, 중간 값 등의 대표값을 프레임 n과 프레임 n+1 에 속한 오디오 신호의 유사도 값으로 획득할 수 있다.

또한, 단말 장치(100)는 주파수 구간별로 획득된 유사도 값 중 다른 유사도 값에 비해 상대적으로 낮은 유사도 값을 제외하고, 오디오 신호의 유사도 값을 획득할 수 있다. 특정 주파수 영역의 오디오 신호에 노이즈가 포함되어 있는 경우, 노이즈가 포함된 주파수 영역의 유사도 값은 다른 주파수 영역의 유사도 값에 비해 상대적으로 낮은 값을 가질 수 있다. 따라서, 단말 장치(100)는 다른 주파수 영역의 유사도 값에 비해 상대적으로 낮은 유사도 값이 포함된 구간은 노이즈가 포함되어 있는 것으로 판단할 수 있다. 단말 장치(100)는 노이즈가 포함되어 있는 구간을 제외하고, 나머지 구간에서의 유사도에 기초하여 오디오 신호의 유사도 값을 획득함으로써, 잡음에 강인하게 오디오 신호의 유사도 값을 획득할 수 있다. 예를 들면, 단말 장치(100)는 주파수 영역 f2에서, 프레임 n과 프레임 n+1에 속한 오디오 신호의 유사도 값이 나머지 주파수 영역의 유사도 값에 비해 상대적으로 낮은 값을 가지는 경우, 주파수 영역 f2의 유사도 값은 제외하고 프레임 n과 프레임 n+1 에 속한 오디오 신호의 유사도 값을 구할 수 있다.

단말 장치(100)는 노이즈가 포함되어 있는 것으로 판단된 구간은 제외하고 나머지 구간에 대한 오디오 신호의 유사도 값에 기초하여, 프레임 간 유사도를 구할 수 있다.

한편, 단말 장치(100)는 상대적으로 낮은 유사도 값을 포함하는 것으로 판단된 구간에서, 연속적으로 소정 프레임 구간 이상 상대적으로 낮은 유사도 값을 가지는 것으로 판단하는 경우, 단말 장치(100)는 다음 프레임에서의 오디오 신호의 유사도 값을 구할 때, 해당 구간의 유사도 값이 상대적으로 낮은 유사도 값을 가져도 제외하지 않고 프레임 간 유사도를 구할 수 있다. 상대적으로 낮은 유사도 값이 특정 주파수 영역에서 연속적으로 획득되는 경우, 단말 장치(100)는 해당 주파수 영역의 오디오 신호에 노이즈가 포함되어 있지 않은 것으로 판단할 수 있다. 따라서, 단말 장치(100)는 해당 구간의 유사도 값을 제외하지 않고 다음 프레임에 대한 유사도 값을 구할 수 있다.

이하 도 6 내지 도 9를 참조하여, 오디오 신호를 인식하는 장치 및 방법에 대해 자세히 설명하기로 한다.

오디오 신호를 인식하는 단말 장치(600)는, 학습 데이터를 이용하여 오디오 신호를 인식하고, 인식 결과를 출력할 수 있다. 학습 데이터는 오디오 신호를 학습하는 단말 장치(100)에 의해 획득된 템플릿 벡터 및 순서에 관한 정보를 포함할 수 있다. 단말 장치(600)는 사용자에 의해 미리 등록된 소리에 관한 정보인 학습 데이터에 기초하여, 입력된 오디오 신호가 사용자에 의해 미리 등록된 소리 중 하나인지 여부를 결정할 수 있다.

일 실시 예에 의한 오디오 신호를 인식하는 단말 장치(600)는 사용자에 의해 이용될 수 있는 단말 장치일 수 있다. 예를 들면, 단말 장치(600)는 스마트 TV(television), UHD(ultra high definition) TV, 모니터, PC(Personal Computer), 노트북 컴퓨터, 휴대폰(mobile phone), 태블릿 PC, 내비게이션(navigation) 단말기, 스마트폰(smart phone), PDA(Personal Digital Assistants), PMP(Portable Multimedia Player) 및 디지털방송 수신기를 포함할 수 있다. 상술된 예에 한하지 않고, 단말 장치(600)는 다양한 종류의 장치를 포함할 수 있다. 단말 장치(600)는 상술된 오디오 신호를 학습하는 단말 장치(100)와 함께 동일한 장치 내에 포함될 수 있다.

변환부(610)는 단말 장치(600)에 입력된 시간 도메인의 오디오 신호를 주파수 도메인의 오디오 신호로 변환할 수 있다. 변환부(610)는 프레임 단위로 오디오 신호를 주파수 변환하여, 복수의 프레임들로 구성된 주파수 도메인의 오디오 신호를 적어도 하나 획득할 수 있다. 이에 한하지 않고, 변환부(610)는 다양한 시간 단위로 시간 도메인의 오디오 신호를 주파수 변환할 수 있다.

템플릿 벡터 획득부(620)는 각 프레임의 벡터와 가장 유사한 템플릿 벡터를 획득할 수 있다. 벡터는 주파수 도메인의 오디오 신호를 의미한다. 템플릿 벡터 획득부(620)는 비교하고자 하는 적어도 하나의 템플릿 벡터와 벡터 간 유사도를 구하여, 각 프레임의 벡터와 가장 유사한 템플릿 벡터를 획득할 수 있다.

다만, 템플릿 벡터 획득부(620)는 유사도 값의 최대 값이 기준값 이하인 경우, 해당 벡터에 대한 템플릿 벡터는 존재하지 않는 것으로 결정할 수 있다.

또한, 템플릿 벡터 획득부(620)는 획득된 템플릿 벡터의 식별 정보에 기초하여, 프레임 단위로 템플릿 벡터의 순서를 획득할 수 있다.

인식부(630)는 템플릿 벡터 획득부(620)에 의해 획득된 템플릿 벡터의 순서에 기초하여 입력된 오디오 신호가 미리 등록된 소리를 포함하고 있는지 여부를 결정할 수 있다. 인식부(630)는 템플릿 벡터 획득부(620)에 의해 획득된 템플릿 벡터의 순서와 미리 저장된 학습 데이터에 포함된 템플릿 벡터의 순서 간 유사도를 획득할 수 있다. 인식부(630)는 유사도에 기초하여, 입력된 오디오 신호가 미리 등록된 소리를 포함하고 있는지 여부를 결정함으로써, 오디오 신호를 인식할 수 있다. 유사도 값이 기준값 이상인 경우, 인식부(630)는 입력된 오디오 신호가 해당 학습 데이터의 소리를 포함하는 것으로 인식할 수 있다.

일 실시 예에 의한 단말 장치(600)는 템플릿 벡터뿐만 아니라 템플릿 벡터의 순서를 고려하여 오디오 신호를 인식할 수 있다. 따라서, 단말 장치(600)는 상대적으로 적은 학습 데이터를 이용하여 오디오 신호를 인식할 수 있다.

도 7을 참조하면, 오디오 신호를 인식하는 단말 장치(600)는 단계 S710에서, 복수의 프레임들로 구성된 주파수 도메인의 오디오 신호를 적어도 하나 획득할 수 있다. 단말 장치(600)는 시간 도메인의 오디오 신호를 주파수 도메인의 신호로 변환할 수 있다. 상술된 오디오 신호는 마이크를 통해 녹음된 소리를 포함할 수 있다. 단말 장치(600)는 미리 저장된 학습 데이터를 이용하여 오디오 신호가 미리 등록된 소리를 포함하는지 여부를 판단할 수 있다.

단계 S720에서, 단말 장치(600)는 템플릿 벡터 및 템플릿 벡터의 순서를 포함하는 학습 데이터를 획득할 수 있다. 템플릿 벡터 및 템플릿 벡터의 순서를 포함하는 학습 데이터는 단말 장치(600)의 메모리에 저장되어 있을 수 있다.

단계 S730에서, 단말 장치(600)는 주파수 도메인의 오디오 신호와 템플릿 벡터간 유사도에 기초하여, 각 프레임과 대응되는 템플릿 벡터를 획득할 수 있다. 단말 장치(600)는 단계 S720에서 획득한 적어도 하나의 템플릿 벡터와 각 프레임의 벡터 간 유사도를 구하여, 각 벡터와 가장 유사한 템플릿 벡터를 결정할 수 있다. 다만, 유사도 값이 기준 값 이하인 경우, 단말 장치(600)는 해당 벡터와 유사한 템플릿 벡터는 존재하지 않는 것으로 처리할 수 있다.

단계 S740에서, 단말 장치(600)는 단계 S730에서 획득된 템플릿 벡터의 순서와 단계 S720에서 획득된 템플릿 벡터의 순서 간 유사도에 기초하여, 입력된 오디오 신호가 미리 학습된 오디오 신호를 포함하는지 결정함으로써, 오디오 신호를 인식할 수 있다. 단말 장치(600)는 적어도 하나의 템플릿 벡터의 순서 중 유사도가 가장 높은 템플릿 벡터의 순서를 결정할 수 있다. 단말 장치(600)는 최대 유사도 값이 기준값 이상인 경우, 입력된 오디오 신호가 해당 템플릿 벡터의 순서의 오디오 신호를 포함하는 것으로 결정할 수 있다. 다만, 최대 유사도 값이 기준 값 이하인 경우, 단말 장치(600)는 입력된 오디오 신호에 미리 학습된 오디오 신호는 포함되어 있지 않은 것으로 판단할 수 있다.

템플릿 벡터의 순서 간 유사도를 구하는 방법으로 예를 들면, 편집 거리(edit distance) 알고리즘이 이용될 수 있다. 편집 거리 알고리즘은 두 개의 시퀀스가 얼마나 유사한지를 알아내는 알고리즘으로, 마지막 칸의 값이 작을수록, 유사도가 높은 것으로 결정될 수 있다.

학습 데이터로 저장된 템플릿 벡터의 순서가 [T1 T1 -1 -1 T2 T2] 이고, 인식하고자 하는 오디오 신호의 템플릿 벡터의 순서가 [T1 T1 T1 -1 -1 T2]이면 이하 표 1과 같이 편집 거리 알고리즘을 통해 최종 거리가 구해질 수 있다. 템플릿 벡터의 순서에서, 해당 프레임의 벡터와 유사한 템플릿 벡터가 존재하지 않는 경우, -1로 표시될 수 있다.

편집 거리 알고리즘에 의하면, 표 1에서, 굵게 표시된 문자들은 다음과 같은 규칙으로 결정될 수 있다. 비교하는 문자가 같은 경우, 대각선 왼쪽 위의 값이 그대로 기입되고, 다른 경우, 대각선 왼쪽 위, 좌측, 위의 문자 중 가장 작은 값에 1을 더한 값이 기입될 수 있다. 위의 방식으로 각 칸이 채워지면, 표 1에서의 최종 거리는 맨 마지막 칸에 위치한 2 이다.

표 1

		T1	T1	-1	-1	T2	T2
	0	1	2	3	4	5	6
T1	1	0	1	2	3	4	5
T1	2	1	0	1	2	3	4
T1	3	2	1	1	2	3	4
-1	4	3	2	1	1	2	3
-1	5	4	3	2	1	2	3
T2	6	5	4	3	2	1	2

도 8을 참조하면, 단말 장치(600)는 오디오 신호의 각 프레임에 대한 주파수 도메인의 신호 v[1], ..., v[i], ..., v[n]에 대하여 템플릿 벡터와의 유사도를 구할 수 있다. 각 프레임에 대한 주파수 도메인의 신호를 벡터라 지칭하면, 810 내지 830에서, 벡터 1, 벡터 i, 벡터 n과 적어도 하나의 템플릿 벡터와의 유사도가 획득될 수 있다.

그리고, 840에서, 단말 장치(600)는 각 벡터와 유사도가 가장 높은 템플릿 벡터와, 템플릿 벡터의 순서를 획득할 수 있다. 벡터 1, 벡터 i, 벡터 n과 유사도가 가장 높은 템플릿 벡터가 각각 T1, T1, T2인 경우, 템플릿 벡터의 순서는, 도시된 것과 같이 T1[1], ..., T1[i], ..., T2[n]로 획득될 수 있다.

910은 단말 장치(600)에 입력될 수 있는 시간 도메인의 오디오 신호의 일 예를 나타낸 그래프이다. 단말 장치(600)는 910에 도시된 오디오 신호를 프레임으로 분할하고, 각 프레임에 대한 주파수 도메인의 오디오 신호를 획득할 수 있다. 920은 910의 오디오 신호가 주파수 변환된 주파수 도메인의 오디오 신호와 적어도 하나의 템플릿 벡터와의 유사도를 나타낸 그래프이다. 920에는 각 프레임의 주파수 도메인의 오디오 신호와 템플릿 벡터 간 유사도 값 중 최대값이 도시될 수 있다.

유사도 값이 기준 값(921) 이하인 경우, 해당 프레임에 대한 템플릿 벡터는 존재하지 않는 것으로 결정될 수 있다. 따라서, 920에서, 유사도 값이 기준값(921) 이상인 구간에서 각 프레임에 대한 템플릿 벡터가 결정될 수 있다.

이하 도 10 및 도 11을 참조하여, 상술된 오디오 신호를 학습하는 단말 장치(100) 및 오디오 신호를 인식하는 단말 장치(600)의 내부 구조에 대하여 더 자세히 설명하기로 한다.

도 10은 일 실시 예에 의한 오디오 신호를 학습하는 단말 장치(1000)의 내부 구조를 나타낸 블록도이다. 단말 장치(1000)는 상술된 오디오 신호를 학습하는 단말 장치(100)와 대응될 수 있다.

도 10을 참조하면, 단말 장치(1000)는 수신부(1010), 제어부(1020) 및 출력부(1030)를 포함할 수 있다.

수신부(1010)는 학습하고자 하는 시간 도메인의 오디오 신호를 획득할 수 있다. 예를 들면, 수신부(1010)는 사용자의 입력에 따라 마이크를 통해 오디오 신호를 수신할 수 있다.

제어부(1020)는 수신부(1010)에 의해 획득된 시간 도메인의 오디오 신호를 주파수 도메인의 오디오 신호로 변환하고, 프레임 간 유사도에 기초하여 오디오 신호를 하나 이상의 블록으로 분할할 수 있다. 또한, 제어부(1020)는 블록별로 템플릿 벡터를 구하고, 각 프레임과 대응되는 템플릿 벡터들의 순서를 획득할 수 있다.

저장부(1030)는 제어부(1020)에 의해 획득된 오디오 신호의 템플릿 벡터 및 템플릿 벡터의 순서를 오디오 신호에 대한 학습 데이터로 저장할 수 있다. 저장된 학습 데이터는 오디오 신호를 인식하는데 이용될 수 있다.

도 11은 일 실시 예에 의한 오디오 신호를 인식하는 단말 장치의 내부 구조를 나타낸 블록도이다. 단말 장치(1000)는 상술된 오디오 신호를 인식하는 단말 장치(600)와 대응될 수 있다.

도 11을 참조하면 단말 장치(1100)는 수신부(1110), 제어부(1120) 및 출력부(1030)를 포함할 수 있다.

수신부(1110)는 인식하고자 하는 오디오 신호를 획득할 수 있다. 예를 들면, 수신부(1110)는 마이크를 통해 입력된 오디오 신호를 획득할 수 있다.

제어부(1120)는 수신부(1110)에 의해 입력된 오디오 신호를 주파수 도메인의 오디오 신호로 변환하고, 주파수 도메인의 오디오 신호와 학습 데이터의 템플릿 벡터 간 유사도를 프레임 단위로 획득할 수 있다. 최대 유사도를 가지는 템플릿 벡터가 해당 프레임의 벡터와 대응되는 템플릿 벡터로 결정될 수 있다. 또한, 제어부(1120)는 유사도에 기초하여 결정된 템플릿 벡터의 순서를 획득하여, 학습 데이터에 저장된 템플릿 벡터의 순서와의 유사도를 획득할 수 있다. 템플릿 벡터의 순서 간 유사도가 기준값 이상인 경우, 제어부(1120)는 수신부(1110)에 의해 입력된 오디오 신호는 해당 학습 데이터의 오디오 신호를 포함하는 것으로 판단할 수 있다.

출력부(1130)는 제어부(1120)에 의해 입력된 오디오 신호가 인식된 결과를 출력할 수 있다. 예를 들면, 출력부(1130)는 인식된 오디오 신호의 식별 정보를 디스플레이 화면 또는 스피커로 출력할 수 있다. 입력된 오디오 신호가 초인종 소리인 것으로 인식된 경우, 출력부(1130)는 초인종 소리가 인식됨을 알리는 디스플레이 화면을 출력하거나 알림 소리를 출력할 수 있다.

일부 실시 예에 의한 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

비록 상기 설명이 다양한 실시예들에 적용되는 본 발명의 신규한 특징들에 초점을 맞추어 설명되었지만, 본 기술 분야에 숙달된 기술을 가진 사람은 본 발명의 범위를 벗어나지 않으면서도 상기 설명된 장치 및 방법의 형태 및 세부 사항에서 다양한 삭제, 대체, 및 변경이 가능함을 이해할 것이다. 따라서, 본 발명의 범위는 상기 설명에서보다는 첨부된 특허청구범위에 의해 정의된다. 특허청구범위의 균등 범위 안의 모든 변형은 본 발명의 범위에 포섭된다.

Claims

오디오 신호를 학습하는 방법에 있어서,

복수의 프레임들로 구성된 주파수 도메인의 오디오 신호를 적어도 하나 획득하는 단계;

프레임 간 유사도를 이용하여, 상기 주파수 도메인의 오디오 신호를 적어도 하나의 블록으로 분할하는 단계;

상기 각 블록에 대응하는 템플릿 벡터를 획득하는 단계;

상기 각 블록에 포함된 적어도 하나의 프레임에 대응하여, 상기 획득된 템플릿 벡터들의 순서(sequence)를 획득하는 단계; 및

상기 획득된 템플릿 벡터들 및 상기 템플릿 벡터들의 순서를 포함하는 학습 데이터를 생성하는 단계를 포함하는, 방법.
제1항에 있어서, 상기 분할하는 단계는

상기 유사도가 기준값 이상인 적어도 하나의 프레임을 상기 적어도 하나의 블록으로 분할하는 단계를 포함하는, 방법.
제1항에 있어서, 상기 템플릿 벡터를 획득하는 단계는

상기 블록에 포함된 적어도 하나의 프레임을 획득하는 단계; 및

상기 획득된 프레임에 대한 대표값을 구함으로써, 상기 템플릿 벡터를 획득하는 단계를 포함하는, 방법.
제1항에 있어서, 상기 템플릿 벡터들의 순서는 각 블록에 포함되는 상기 적어도 하나의 프레임에 대하여 상기 템플릿 벡터의 식별 정보를 할당하여 표시하는, 방법.
제1항에 있어서, 상기 분할하는 단계는

주파수 대역을 복수 개의 구간으로 분할하는 단계;

상기 각 구간에서, 프레임 간 유사도를 구하는 단계;

상기 각 구간에서의 유사도에 기초하여, 상기 복수 개의 구간 중 노이즈가 포함되어 있는 구간을 결정하는 단계;

상기 결정된 구간을 제외한, 나머지 구간에서의 유사도에 기초하여 상기 프레임 간 유사도를 구하는 단계를 포함하는, 방법.
오디오 신호를 인식하는 방법에 있어서,

복수의 프레임들로 구성된 주파수 도메인의 오디오 신호를 적어도 하나 획득하는 단계;

템플릿 벡터들 및 상기 템플릿 벡터들의 순서를 포함하는 학습 데이터를 획득하는 단계;

상기 주파수 도메인의 오디오 신호와 상기 템플릿 벡터간의 유사도에 기초하여, 상기 각 프레임과 대응되는 템플릿 벡터를 결정하는 단계; 및

상기 결정된 템플릿 벡터들의 순서와 상기 학습 데이터의 순서간의 유사도에 기초하여, 상기 오디오 신호를 인식하는 단계를 포함하는, 방법.
제6항에 있어서, 상기 각 프레임과 대응되는 템플릿 벡터를 결정하는 단계는

상기 각 프레임의 주파수 도메인의 오디오 신호와 상기 템플릿 벡터간의 유사도를 각각 구하는 단계; 및

상기 유사도가 기준값 이상인 경우, 상기 템플릿 벡터를 상기 각 프레임과 대응되는 템플릿 벡터로 결정하는 단계를 포함하는, 방법.
오디오 신호를 학습하는 단말 장치에 있어서,

복수의 프레임들로 구성된 주파수 도메인의 오디오 신호를 적어도 하나 수신하는 수신부;

프레임 간 유사도를 이용하여, 상기 주파수 도메인의 오디오 신호를 적어도 하나의 블록으로 분할하고, 상기 각 블록에 대응하는 템플릿 벡터를 획득하고, 상기 각 블록에 포함된 적어도 하나의 프레임에 대응하여, 상기 획득된 템플릿 벡터들의 순서를 획득하고, 상기 획득된 템플릿 벡터들 및 상기 템플릿 벡터들의 순서를 포함하는 학습 데이터를 생성하는 제어부; 및

상기 학습 데이터를 저장하는 저장부를 포함하는, 단말 장치.
제8항에 있어서, 상기 제어부는

상기 유사도가 기준값 이상인 적어도 하나의 프레임을 상기 적어도 하나의 블록으로 분할하는, 단말 장치.
제8항에 있어서, 상기 제어부는

상기 블록에 포함된 적어도 하나의 프레임을 획득하고, 상기 획득된 프레임에 대한 대표값을 구함으로써, 상기 템플릿 벡터를 획득하는, 단말 장치.
제8항에 있어서, 상기 제어부는

주파수 대역을 복수 개의 구간으로 분할하고, 상기 각 구간에서, 프레임 간 유사도를 구하고, 상기 각 구간에서의 유사도에 기초하여, 상기 복수 개의 구간 중 노이즈가 포함되어 있는 구간을 결정하고, 상기 결정된 구간을 제외한, 나머지 구간에서의 유사도에 기초하여 상기 인접한 프레임에 속한 상기 주파수 도메인의 오디오 신호들 간 유사도를 구하는, 단말 장치.
오디오 신호를 인식하는 단말 장치에 있어서,

복수의 프레임들로 구성된 주파수 도메인의 오디오 신호를 적어도 하나 수신하는 수신부;

템플릿 벡터들 및 상기 템플릿 벡터들의 순서를 포함하는 학습 데이터를 획득하고, 상기 주파수 도메인의 오디오 신호와 상기 템플릿 벡터간의 유사도에 기초하여, 상기 각 프레임과 대응되는 템플릿 벡터를 결정하고, 상기 결정된 템플릿 벡터들의 순서와 상기 학습 데이터의 순서간의 유사도에 기초하여, 상기 오디오 신호를 인식하는 제어부; 및

상기 오디오 신호가 인식된 결과를 출력하는 출력부를 포함하는, 단말 장치.
제12항에 있어서, 상기 제어부는

상기 각 프레임의 주파수 도메인의 오디오 신호와 상기 템플릿 벡터간의 유사도를 각각 구하고, 상기 유사도가 기준값 이상인 경우, 상기 템플릿 벡터를 상기 각 프레임과 대응되는 템플릿 벡터로 결정하는, 단말 장치.
제1항 내지 제7항 중 어느 한 항에 있어서, 상기 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.