KR20170095644A

KR20170095644A - 구간 가중치 검출을 이용한 오디오 인식 장치 및 방법

Info

Publication number: KR20170095644A
Application number: KR1020160017348A
Authority: KR
Inventors: 임우택
Original assignee: 한국전자통신연구원
Priority date: 2016-02-15
Filing date: 2016-02-15
Publication date: 2017-08-23

Abstract

본 발명에 따른 구간 가중치 검출을 이용한 오디오 인식 장치는 신경망(뉴럴 네트워크)를 이용한 오디오 인식 장치로서, 오디오 입력에 구간별 가중치 검출 알고리즘을 적용하여 가중치를 다르게 적용하여 오디오 신호를 인식한다. 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 장치는 수신된 오디오 신호를 분석하여 2차원 데이터로 변환하는 2차원 신호 변환부, 변환된 2차원 신호에 대해서 컨벌루션 신경망을 통해 인식 네트워크를 구성하는 신경망 구성부, 주요도 검출 알고리즘을 통해 가중치를 추출하는 구간 가중치 검출부 및 인식 네트워크 및 가중치에 기초하여 인식 결과를 판단하는 분류 처리부를 포함한다.

Description

구간 가중치 검출을 이용한 오디오 인식 장치 및 방법{APPARATUS AND METHOD FOR AUDIO RECOGNITION USING SECTION WEIGHT DETECTION}

본 발명은 오디오 인식에 관한 것으로, 보다 상세하게는 뉴럴 네트워크 분석을 통해 오디오를 인식하는 기술에 관한 것이다.

딥 러닝(Deep Learning)이란 인공 신경망의 종류 중 하나로 선형 근사(linear fitting)과 비선형 변환(nonlinear transformation or activation) 등을 반복하여 수행함으로써 기계를 학습하고 이 결과를 통해 분류, 인식등에 사용되는 방법이다. 기존에 존재하던 인공 신경망은 최적화의 어려움 등을 이유로 오랜기간 연구가 발전되어 오지 못했으나 최근 전처리 과정, 최적화 방법, 오버피팅 등의 문제를 해결할 수 있는 다양한 알고리즘들이 등장하였고, 빅데이터, GPU연산, 다양한 뉴럴 네트워크(Neural Network)의 등장 등으로 인해 많이 연구되고 있다. 무엇보다도 성능 면에서 기존의 연구결과들을 혁신적으로 뛰어넘는 결과를 보여줌으로써 현재 많은 태스크(task)에서 각광받고 있는 기계학습 방법이다.

어떠한 데이터가 있을 때 이를 컴퓨터가 알아 들을 수 있는 형태(예를 들어 이미지의 경우는 픽셀정보를 열벡터로 표현하는 등)로 표현하고 이를 학습에 적용하기 위해 많은 연구가 진행되고 있으며, 이러한 노력의 결과로 심층 신경망(Deep Neural Network, DNN), 컨벌루션 신경망(Convolutional Neural Network, CNN), Deep Belief Network(DBN), 순환형 신경망(Recurrent Neural Network, RNN)와 같은 다양한 딥 러닝 기법들이 컴퓨터 비전, 음성인식, 자연어처리, 음성/신호처리 등의 분야에 적용되어 최첨단의 결과들을 보여주고 있다.

종래의 컨벌루션 신경망은 이미지 인식분야에서 주로 활용되어 왔지만 최근에는 그 높은 인식 성능으로 인해 다른 태스크에서도 이 방법을 적용하는 연구들이 수행되고 있다. 그러나 이러한 방법은 주요한 구간만이 아닌 주기적인 구간에서 또는 랜덤하게 입력 값을 가져온다. 때문에 불 필요한 구간에서도 입력 값을 가져오는 작용을 하고 최종적으로 하나의 오디오 클립에 대해 메이저 보팅(major voting)등과 같은 방법을 이용하여 최종 판단을 내릴 때, 불 필요한 정보들이 입력으로 들어와 그 성능이 떨어지게 된다.

미국 공개특허 US2015/0032449A1

본 발명이 해결하고자 하는 과제는 오디오 입력에 구간별 가중치 검출 알고리즘을 적용하여 해당 입력에 대한 가중치를 다르게 적용하고 오디오 신호를 인식함으로써, 오디오 데이터 인식 성능을 향상시키는 구간 가중치 검출을 이용한 오디오 인식 장치 및 방법을 제공하는 것이다.

본 발명에 따른 구간 가중치 검출을 이용한 오디오 인식 장치는 신경망(뉴럴 네트워크)를 이용한 오디오 인식 장치로서, 오디오 입력에 구간별 가중치 검출 알고리즘을 적용하여 가중치를 다르게 적용하여 오디오 신호를 인식한다.

본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 장치는 수신된 오디오 신호를 분석하여 2차원 데이터로 변환하는 2차원 신호 변환부, 변환된 2차원 신호에 대해서 컨벌루션 신경망을 통해 인식 네트워크를 구성하는 신경망 구성부, 주요도 검출 알고리즘을 통해 가중치를 추출하는 구간 가중치 검출부 및 인식 네트워크 및 가중치에 기초하여 인식 결과를 판단하는 분류 처리부를 포함한다.

2차원 신호 변환부는 고속 퓨리에 변환(Fast Fourier Transformer, FFT), 콘스턴트 Q 변환(Constant Q Transform, CQT) 및 파형요소변환(Wavelet Transform)을 활용하여 1차원 오디오 신호를 2차원 신호(데이터)로 변환할 수 있다.

신경망 구성부는 변환된 2차원 신호에 기초하여 하나 이상의 레이어로 구성된 컨벌루션 신경망을 통해 인식 네트워크 구조를 형성한다. 입력 2차원 이미지는 프레임 길이, 주파수 해상도, 사용자 입력 등에 따라 자유로운 크기로 구성된다. 그리고 일례로서, 네트워크는 컨벌루션, 서브 샘플링, 액티베이션(Activation), 드롭 아웃(Drop Out), 소프트맥스(softmax) 및 정규화 등 다양한 방법을 포함할 수 있다.

구간 가중치 검출부는 주요도 검출 알고리즘을 통해 수신된 오디오 신호로부터 가중치를 추출한다. 구간 가중치 검출부는 수신된 오디오 신호의 프레임 또는 주변구간, 음성 구간, 주요도 검출 알고리즘 등 다양한 방법을 기반으로 하여 해당 입력의 가중치를 추출한다.

분류 처리부는 컨벌루션 신경망의 인식 네트워크 구조 및 추출된 가중치에 기초하여 오디오 신호 인식을 판단한다. 분류 처리부는 컨벌루션 신경망을 구성하는 다수의 레이어 중에서 가중치에 기초하여 분류 및 선택하여 수신된 오디오 신호에 대한 오디오 인식 결과를 출력한다.

본 발명에 따른 구간 가중치 검출을 이용한 오디오 인식 장치 및 방법은 2차원 데이터 인식에 있어서 가장 우수한 성능을 보이는 컨벌루션 신경망에 입력 구간 별로 추출된 가중치 알고리즘을 적용하여 오디오를 인식함으로써, 불필요한 정보(가중치가 낮은 정보)를 인식 과정에서 배제하거나 상대적으로 적게 반영하여 신경망의 오디오 인식 성능을 향상시킨다.

도 1은 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 장치(100)의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 장치(100)의 오디오 인식 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 장치(100)의 실험 결과의 일례를 나타내는 도면이다.
도 4는 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 방법의 순서도이다.

이하, 본 발명의 실시예를 첨부된 도면들을 참조하여 상세하게 설명한다. 본 명세서에서 사용되는 용어 및 단어들은 실시예에서의 기능을 고려하여 선택된 용어들로서, 그 용어의 의미는 발명의 의도 또는 관례 등에 따라 달라질 수 있다. 따라서 후술하는 실시예에서 사용된 용어는, 본 명세서에 구체적으로 정의된 경우에는 그 정의에 따르며, 구체적인 정의가 없는 경우는 당업자들이 일반적으로 인식하는 의미로 해석되어야 할 것이다.

도 1은 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 장치(100)의 구성도이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 장치(100)는 신경망(뉴럴 네트워크)를 이용한 오디오 인식 장치로서, 오디오 입력에 구간별 가중치 검출 알고리즘을 적용하여 가중치를 다르게 적용하여 오디오 신호를 인식한다. 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 장치(100)는 2차원 신호 변환부(110), 신경망 구성부(120), 구간 가중치 검출부(130) 및 분류 처리부(140)를 포함한다.

2차원 신호 변환부(110)는 수신된 오디오 신호를 분석하여 2차원 데이터로 변환한다. 2차원 신호 변환부(110)는 1차원인 오디오 신호가 수신되면, 오디오 신호를 프레임 단위로 분석하여 2차원 데이터로 변환한다. 일례로서, 2차원 신호 변환부(110)는 고속 퓨리에 변환(Fast Fourier Transformer, FFT), 콘스턴트 Q 변환(Constant Q Transform, CQT) 및 파형요소변환(Wavelet Transform)을 활용하여 1차원 오디오 신호를 2차원 신호(데이터)로 변환할 수 있으며, 2차원 신호로 표현하는 방법은 어느 방법이든 사용될 수 있다.

신경망 구성부(120)는 2차원 신호 변환부(110)에서 변환된 2차원 신호에 기초하여 컨벌루션 신경망(Convolution Neural Network)을 형성하여 인식 네트워크를 구성한다. 컨벌루션 신경망이란 이미지 인식 분야에 주로 사용되고 있는 네트워크로 고정 된 마스크로 컨벌루션을 수행함으로써 특징을 추출한다. 이 방법은 필기체 인식을 위해 처음 제안 되었고, 이미지 인식 분야에서 뛰어난 성능을 보이며 그 활용 분야가 점차 확대되고 있다.

신경망의 가장 큰 강점 중 한 가지는 기존의 수동 특징(Hand crafted feature) 추출 기반의 인식 방법들과 다르게 사람이 임의적으로 추출한 특징값들(MFCC, ZCR등)을 이용하는 것이 아닌 특징(feature) 추출부터 인식까지의 모든 과정을 하나의 네트워크 내에서 수행한다는 것이다. 이를 통해 낮은 인식 성능을 갖는 수동 특징(Hand crafted feature) 대신 네트워크가 추출한 특징(feature)들을 학습하게 된다.

컨벌루션 신경망은 컨벌루션(Convolution)과 서브 샘플링(Sub-Sampling)등의 동작을 번갈아 수행함으로써 각각의 레이어들이 구성되고 최종적으로 완전 연결층(Fully Connected Layer)를 생성함으로서 분류를 수행하는 방법이 일반적이다.

신경망 구성부(120)는 상술한 바와 같이, 변환된 2차원 신호에 기초하여 하나 이상의 레이어로 구성된 컨벌루션 신경망을 통해 인식 네트워크 구조를 형성한다. 입력 2차원 이미지는 프레임 길이, 주파수 해상도, 사용자 입력 등에 따라 자유로운 크기로 구성된다. 그리고 일례로서, 네트워크는 컨벌루션, 서브 샘플링, 액티베이션(Activation), 드롭 아웃(Drop Out), 소프트맥스(softmax) 및 정규화 등 다양한 방법을 포함할 수 있다.

구간 가중치 검출부(130)는 주요도 검출 알고리즘을 통해 수신된 오디오 신호로부터 가중치를 추출한다. 구간 가중치 검출부(130)는 2차원 신호 변환부(110)로부터 수신된 오디오 신호(입력값)의 프레임 또는 주변구간, 음성 구간, 주요도 검출 알고리즘 등 다양한 방법을 기반으로 하여 해당 입력의 가중치를 추출한다.

분류 처리부(140)는 신경망 구성부(120)에서 생성된 신경망의 인식 네트워크 구조 및 구간 가중치 검출부(130)에서 추출된 가중치에 기초하여 오디오 신호 인식을 판단한다. 분류 처리부(140)는 컨벌루션 신경망을 구성하는 다수의 레이어 중에서 가중치에 기초하여 분류 및 선택하여 수신된 오디오 신호에 대한 오디오 인식 결과를 출력한다.

이와 같은 과정을 통해, 본 발명은 컨벌루션 신경망의 인식 네트워크 구조에 추출된 가중치를 반영하여 오디오를 인식함으로써, 불필요한 정보(가중치가 낮은 정보)를 인식 과정에서 배제하거나 상대적으로 적게 반영하여 오디오 인식 성능을 향상시킨다.

도 2는 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 장치(100)의 오디오 인식 과정을 설명하기 위한 도면이다.

도 1 및 도 2를 참조하면, 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 장치(100)에서 2차원 신호 변환부(110)는 수신된 오디오 신호(201)를 프레임 단위로 분석하여 2차원 신호로 변환한다. 그리고 신경망 구성부(120)는 변환된 2차원 신호에 기초하여 다수의 레이어로 구성된 컨벌루션 신경망(202)을 형성한다.

구간 가중치 검출부(130)는 2차원 신호 변환부(110)로부터 수신된 오디오 신호(201)의 프레임 또는 주변구간, 음성 구간, 주요도 검출 알고리즘 등 다양한 방법을 기반으로 하여 해당 입력의 가중치(203)를 추출한다. 그리고 분류 처리부(140)는 컨벌루션 신경망(202)의 네트워크 구조 및 추출된 가중치(203)에 기초하여, 컨벌루션 신경망을 구성하는 다수의 레이어 중에서 가중치에 기초하여 분류(204)하여 수신된 오디오 신호에 대한 오디오 인식 결과를 출력한다.

도 3은 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 장치(100)의 실험 결과의 일례를 나타내는 도면이다.

도 1 및 도 3을 참조하면, 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 장치(100)로 수신된 오디오 신호(301)는 1차원 신호이다. 가중치 검출을 이용한 오디오 인식 장치(100)는 수신된 오디오 신호(301)로부터 가중치(302)를 추출한다. 추출된 가중치(302)는 생성된 컨벌루션 신경망의 인식 네트워크 구조에 반영되어, 다수의 레이어 중에서 가중치에 기초하여 분류 및 선택하여 수신된 오디오 신호에 대한 오디오 인식 결과를 출력한다.

도 4는 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 방법의 순서도이다.

도 4를 참조하면, 본 발명의 일 실시예에 따른 가중치 검출을 이용한 오디오 인식 방법은 먼저, 수신된 오디오 신호를 프레임 단위로 분석하여 2차원 데이터로 변환한다(S401). 일례로서, 2차원 신호 변환부(110)는 고속 퓨리에 변환(FFT), 콘스턴트 Q 변환(CQT) 및 파형요소변환(Wavelet Transform)을 활용하여 1차원 오디오 신호를 2차원 신호(데이터)로 변환할 수 있다.

수신된 오디오 신호가 2차원 신호로 변환되면, 변환된 2차원 신호에 기초하여 컨벌루션 신경망을 형성한다(S402). 보다 구체적으로, 변환된 2차원 신호에 기초하여 하나 이상의 레이어로 구성된 컨벌루션 신경망을 통해 인식 네트워크 구조를 형성한다. 이 때, 입력 2차원 이미지는 프레임 길이, 주파수 해상도, 사용자 입력 등에 따라 자유로운 크기로 구성될 수 있으며, 네트워크는 컨벌루션, 서브 샘플링, 액티베이션(Activation), 드롭 아웃(Drop Out), 소프트맥스(softmax) 및 정규화 등 다양한 방법을 포함할 수 있다.

컨벌루션 신경망이란 이미지 인식 분야에 주로 사용되고 있는 네트워크로 고정 된 마스크로 컨벌루션을 수행함으로써 특징을 추출한다. 컨벌루션 신경망의 가장 큰 강점 중 한 가지는 기존의 수동 특징(Hand crafted feature) 추출 기반의 인식 방법들과 다르게 사람이 임의적으로 추출한 특징값들(MFCC, ZCR등)을 이용하는 것이 아닌 특징(feature) 추출부터 인식까지의 모든 과정을 하나의 네트워크 내에서 수행한다는 것이다. 이를 통해 낮은 인식 성능을 갖는 수동 특징(Hand crafted feature) 대신 네트워크가 추출한 특징(feature)들을 학습하게 된다.

다음으로, 수신된 오디오 신호(원본)의 프레임 또는 주변구간, 음성 구간, 주요도 검출 알고리즘 등 다양한 방법을 기반으로 하여 해당 입력의 가중치를 추출한다(S403). S403 단계는 S401 및 S402 단계의 전 또는 후에 수행될 수 있다.

그리고 생성된 컨벌루션 신경망의 인식 네트워크 구조 및 추출된 가중치에 기초하여 2차원 신호를 구성하는 다수의 레이어를 분류한다(S404). 이와 같은 과정을 통해, 본 발명은 컨벌루션 신경망의 인식 네트워크 구조에 추출된 가중치를 반영하여 오디오를 인식함으로써, 불필요한 정보(가중치가 낮은 정보)를 인식 과정에서 배제하거나 상대적으로 적게 반영하여 오디오 인식 성능을 향상시킨다.

상술한 내용을 포함하는 본 발명은 컴퓨터 프로그램으로 작성이 가능하다. 그리고 상기 프로그램을 구성하는 코드 및 코드 세그먼트는 당분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 상기 작성된 프로그램은 컴퓨터가 읽을 수 있는 기록매체 또는 정보저장매체에 저장되고, 컴퓨터에 의하여 판독되고 실행함으로써 본 발명의 방법을 구현할 수 있다. 그리고 상기 기록매체는 컴퓨터가 판독할 수 있는 모든 형태의 기록매체를 포함한다.

이상 바람직한 실시예를 들어 본 발명을 상세하게 설명하였으나, 본 발명은 전술한 실시예에 한정되지 않고, 본 발명의 기술적 사상의 범위 내에서 당분야에서 통상의 지식을 가진자에 의하여 여러 가지 변형이 가능하다.

100: 가중치 검출을 이용한 오디오 인식 장치
110: 2차원 신호 변환부
120: 신경망 구성부
130: 구간 가중치 검출부
140: 분류 처리부

Claims

신경망(Neural Network)를 이용한 오디오 인식 방법 및 장치에 있어서,
수신된 오디오 신호를 분석하여 2차원 데이터로 변환하는 2차원 신호 변환부;
변환된 2차원 신호에 대해서 컨벌루션 신경망을 통해 인식 네트워크를 구성하는 신경망 구성부;
주요도 검출 알고리즘을 통해 가중치를 추출하는 구간 가중치 검출부; 및
상기 인식 네트워크 및 상기 가중치에 기초하여 인식 결과를 판단하는 분류 처리부;
를 포함하는 가중치 검출을 이용한 오디오 인식 장치.