KR20230096525A

KR20230096525A - 1d 컨볼루션을 이용한 오디오 신호 분석 방법 및 오디오 신호 분석 장치

Info

Publication number: KR20230096525A
Application number: KR1020210186096A
Authority: KR
Inventors: 백승권; 성종모; 이태진; 임우택; 장인선; 최진수
Original assignee: 한국전자통신연구원
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2023-06-30

Abstract

1D 컨볼루션을 이용한 오디오 신호 분석 방법 및 오디오 신호 분석 장치가 개시된다. 오디오 신호 분석 방법은 오디오 신호를 프레임 단위에 따라 주파수 영역으로 변환하는 단계; 상기 주파수 영역으로 변환된 오디오 신호를 시간 축으로 적층하여 2D 차원 정보를 생성하는 단계; 상기 2D 차원 정보를 주파수 축에 따라 슬라이싱하여 복수의 오디오 슬라이스들을 추출하는 단계; 상기 복수의 오디오 슬라이스들 각각에 대해 1D 필터링을 적용하여 1D 컨볼루션을 수행하는 단계; 및 상기 1D 컨볼루션을 수행한 결과에 따라 복수의 오디오 슬라이스들 각각에 대해 주파수 단위의 분석 정보를 결정하는 단계를 포함할 수 있다.

Description

1D 컨볼루션을 이용한 오디오 신호 분석 방법 및 오디오 신호 분석 장치 {METHOD AND APPARATUS FOR ANALYSIS OF AUDIO SIGNAL USING 1D CONVOLUTION}

본 발명은 1D 컨볼루션을 이용한 오디오 신호 분석 방법 및 오디오 신호 분석 장치에 관한 것이다.

오디오 신호를 분석하기 위해 정보량을 줄이는 것이 요구된다. 정보량을 줄이는 방법은 여러가지가 존재할 수 있다. 오디오 신호를 분석하기 위해 오디오 신호의 특성을 정확하게 반영하면서도 효과적으로 정보량을 줄이는 방법이 요구된다.

본 발명은 1D 컨볼루션을 이용하는 오디오 신호 분석 방법 및 오디오 신호 분석 장치를 제공한다.

본 발명의 일실시예에 따른 오디오 신호 분석 방법은 오디오 신호를 프레임 단위에 따라 주파수 영역으로 변환하는 단계; 상기 주파수 영역으로 변환된 오디오 신호를 시간 축으로 적층하여 2D 차원 정보를 생성하는 단계; 상기 2D 차원 정보를 주파수 축에 따라 슬라이싱하여 복수의 오디오 슬라이스들을 추출하는 단계; 상기 복수의 오디오 슬라이스들 각각에 대해 1D 필터링을 적용하여 1D 컨볼루션을 수행하는 단계; 상기 1D 컨볼루션을 수행한 결과에 따라 복수의 오디오 슬라이스들 각각에 대해 주파수 단위의 분석 정보를 결정하는 단계를 포함할 수 있다.

상기 오디오 슬라이스들은, 주파수의 크기에 따라 코어 대역의 오디오 슬라이스, 중간 대역의 오디오 슬라이스 및 고대역의 오디오 슬라이스로 구성될 수 있다.

상기 1D 컨볼루션을 수행하는 단계는, 상기 필터를 구성하는 가중치를 상기 오디오 슬라이스를 구성하는 오디오 신호에 적용함으로써 컨벌루션 레이어에서의 특징맵을 생성할 수 있다.

오디오 신호 분석 방법은 상기 복수의 오디오 슬라이스들 각각에 대해 주파수 단위의 분석 정보를 합성하는 단계; 상기 합성된 분석 정보에 대해 1x1 컨볼루션을 적용하는 단계를 더 포함할 수 있다.

상기 1D 컨볼루션을 수행하는 단계는, 상기 주파수 축에 따라 생성된 오디오 슬라이스의 개수의 1D 필터를 특정 방향으로 적용하고, 특정 방향으로 적용된 결과를 적층할 수 있다.

본 발명의 일실시예에 따른 오디오 신호 분석 방법은 오디오 신호를 프레임 단위에 따라 주파수 영역으로 변환하는 단계; 상기 주파수 영역으로 변환된 오디오 신호를 시간 축으로 적층하여 2D 차원 정보를 생성하는 단계; 상기 2D 차원 정보를 시간 축에 따라 슬라이싱하여 복수의 오디오 슬라이스들을 추출하는 단계; 상기 복수의 오디오 슬라이스들 각각에 대해 1D 필터링을 적용하여 1D 컨볼루션을 수행하는 단계; 상기 1D 컨볼루션을 수행한 결과에 따라 복수의 오디오 슬라이스들 각각에 대해 시간 단위의 분석 정보를 결정하는 단계를 포함할 수 있다.

상기 오디오 슬라이스들은, 시간의 순서에 따라 시작 시점의 오디오 슬라이스, 중간 시점의 오디오 슬라이스 및 종료 시점의 오디오 슬라이스로 구성될 수 있다.

오디오 신호 분석 방법은 상기 복수의 오디오 슬라이스들 각각에 대해 시간 단위의 분석 정보를 합성하는 단계; 상기 합성된 분석 정보에 대해 1x1 컨볼루션을 적용하는 단계를 더 포함할 수 있다.

상기 1D 컨볼루션을 수행하는 단계는, 상기 시간 축에 따라 생성된 오디오 슬라이스의 개수의 1D 필터를 특정 방향으로 적용하고, 특정 방향으로 적용된 결과를 적층할 수 있다.

본 발명의 일실시예에 따른 오디오 신호 분석 방법을 수행하는 오디오 신호 분석 장치는 프로세서를 포함하고, 상기 프로세서는, 오디오 신호를 프레임 단위에 따라 주파수 영역으로 변환하고, 상기 주파수 영역으로 변환된 오디오 신호를 시간 축으로 적층하여 2D 차원 정보를 생성하고, 상기 2D 차원 정보를 주파수 축에 따라 슬라이싱하여 주파수 단위의 복수의 오디오 슬라이스들을 추출하고, 상기 2D 차원의 정보를 시간 축에 따라 슬라이싱하여 시간 단위의 복수의 오디오 슬라이스들을 추출하고, 상기 시간 단위의 오디오 슬라이스들 및 상기 주파수 단위의 오디오 슬라이스들 각각에 대해 1D 필터링을 적용하여 1D 컨볼루션을 수행하고, 상기 1D 컨볼루션을 수행한 결과에 따라 복수의 오디오 슬라이스들 각각에 대해 시간 단위의 분석 정보와 주파수 단위의 분석 정보를 결정할 수 있다.

상기 주파수 단위의 오디오 슬라이스들은, 주파수의 크기에 따라 코어 대역의 오디오 슬라이스, 중간 대역의 오디오 슬라이스 및 고대역의 오디오 슬라이스로 구성될 수 있다.

상기 시간 단위의 오디오 슬라이스들은, 시간의 순서에 따라 시작 시점의 오디오 슬라이스, 중간 시점의 오디오 슬라이스 및 종료 시점의 오디오 슬라이스로 구성될 수 있다.

상기 프로세서는, 상기 필터를 구성하는 가중치를 상기 오디오 슬라이스를 구성하는 오디오 신호에 적용하는 1D 컨벌루션을 수행함으로써 컨벌루션 레이어에서의 특징맵을 생성할 수 있다.

상기 프로세서는, 상기 복수의 오디오 슬라이스들 각각에 대해 시간 단위의 분석 정보를 합성하고, 상기 합성된 분석 정보에 대해 1x1 컨볼루션을 적용할 수 있다.

상기 프로세서는, 상기 시간 축에 따라 생성된 오디오 슬라이스의 개수의 1D 필터를 특정 방향으로 적용하고, 특정 방향으로 적용된 결과를 적층하여 시간 단위의 1D 컨볼루션을 수행할 수 있다.

상기 프로세서는, 상기 주파수 축에 따라 생성된 오디오 슬라이스의 개수의 1D 필터를 특정 방향으로 적용하고, 특정 방향으로 적용된 결과를 적층하여 주파수 단위의 1D 컨볼루션을 수행할 수 있다.

본 발명의 일실시예에 따르면, 오디오 신호를 분석하기 위해 1D 컨볼루션을 적용함으로써 효과적으로 오디오 신호의 정보량을 줄이면서도 오디오 신호의 특성에 부합하는 분석 방법을 제공할 수 있다.

도 1은 본 발명의 일실시예에 따른 오디오 신호 분석 장치의 동작을 설명하기 위한 도면이다.
도 2는 본 발명의 일실시예에 따른 1D 컨벌루션의 동작을 설명하기 위한 도면이다.
도 3은 본 발명의 일실시예에 따른 주파수에 대한 1D 컨벌루션의 동작을 설명하기 위한 도면이다.
도 4는 본 발명의 일실시예에 따른 주파수에 대한 1D 컨벌루션의 처리 과정을 도시한 도면이다.
도 5는 본 발명의 일실시예에 따른 시간에 대한 1D 컨벌루션의 동작을 설명하기 위한 도면이다.
도 6은 본 발명의 일실시예에 따른 시간에 대한 1D 컨벌루션의 처리 과정을 도시한 도면이다.
도 7은 본 발명의 일실시예에 따른 오디오 신호 분석 장치의 동작을 설명하기 위한 도면이다.

이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

아래 설명하는 실시예들에는 다양한 변경이 가해질 수 있다. 아래 설명하는 실시예들은 실시 형태에 대해 한정하려는 것이 아니며, 이들에 대한 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1 또는 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 이해되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

실시예에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 실시예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수 개의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

본 발명의 일실시예에 따르면, 오디오 신호의 부호화 과정에서 정보량을 줄이기 위해 신경망을 이용하여 오디오 신호의 정보량을 예측하기 위한 방법을 제공한다. 특히, 본 발명은 오디오 신호의 특성에 적합한 컨볼루션 방식의 분석 방법을 제안한다.

구체적으로, 본 발명은 1차원(1D) 컨볼루션에 기초한 오디오 신호의 분석 방법을 제시한다.

도 1은 본 발명의 일실시예에 따른 오디오 신호 분석 장치의 동작을 설명하기 위한 도면이다.

도 1을 참고하면, 오디오 신호 분석 장치(100)는 1D 필터(filter)를 이용하여 입력된 오디오 신호(101)를 주파수 단위와 시간 단위로 분석할 수 있다. 오디오 신호 분석 장치(100)는 오디오 신호를 프레임 단위로 주파수 영역으로 변환할 수 있다. 그런 후, 오디오 신호 분석 장치(100)는 주파수 영역으로 변환된 오디오 신호를 시간 축으로 슬라이싱하거나 또는 주파수 축으로 슬라이싱할 수 있다.

오디오 신호 분석 장치(100)는 시간에 따라 분할된 오디오 슬라이스(103) 또는 주파수에 따라 분할된 오디오 슬라이스(104)에 필터(105)를 이용하여 1D 컨볼루션을 수행할 수 있다. 도 1에 도시된 바와 같이, 오디오 신호 분석 장치(100)는 오디오 슬라이스(104)에 한쪽 방향으로 필터(105)를 적용함으로써 1D 컨볼루션을 수행할 수 있다. 1D 컨볼루션을 통해 오디오 신호의 특징(feature)을 나타내는 특징맵이 생성된다.

도 2는 본 발명의 일실시예에 따른 1D 컨벌루션의 동작을 설명하기 위한 도면이다.

도 2를 참고하면, 오디오 신호 분석 장치는 주파수 영역으로 변환된 오디오 신호(200)를 주파수 또는 시간에 따라 분할한 오디오 슬라이스(201)를 필터(202)에 적용함으로써 1D 컨볼루션을 수행할 수 있다. 1D 컨볼루션을 통해 컨볼루션 레이어에서 특징맵(203)이 생성된다.

주파수 영역으로 변환된 오디오 신호(200)는 스펙토그램을 통해 표현될 수 있으며, 시간 축으로 K 사이즈와 주파수 축으로 L사이즈의 2D 형태로 표현될 수 있다. 도 2에 도시된 오디오 슬라이스(201)는 주파수에 따라 분할된 결과이며, L개로 적층되면 오디오 신호(200)가 된다.

필터(202)는 오디오 슬라이스(201)에 대해 특정 방향으로 적용됨으로써 1D 컨볼루션이 수행될 수 있다. 예를 들어, 필터(202)가 1*3 사이즈의 가중치(W₁, W₂, W₃)으로 구성되고, 오디오 슬라이스(201)가 X₁ 내지 X_p로 구성될 경우, 컨볼루션 레이어에 있는 특징맵(203)은 다음과 같이 결정될 수 있다.

C1=x₁*w₁+x₁*w₂+x₁*w₃

C2=x₂*w₂+x₂*w₂+x₂*w₃

C3= x₃*w₃+x₃*w₃+x₃*w₃

??

오디오 슬라이스(201)에 필터(202)가 적용됨으로서 오디오 슬라이스(201)의 차원이 축소될 수 있다. CNN(Convolution Neural Network)에서 컨볼루션 레이어는 복수로 설정될 수 있다. 컨볼루션 레이어가 복수인 경우, 오디오 슬라이스(201)에 필터(202)를 적용함으로써 1D 컨벌루션을 수행하는 과정이 컨벌루션 레이어에 따라 처리될 수 있다.

도 3은 본 발명의 일실시예에 따른 주파수에 대한 1D 컨벌루션의 동작을 설명하기 위한 도면이다.

오디오 신호의 스펙토그램(301)은 오디오 신호를 시간에 따른 주파수의 음향 에너지를 시각화한 것이다. 오디오 신호 분석 장치는 오디오 신호의 스펙토그램에서 세로축을 나타내는 주파수가 낮은 순서에 따라 오디오 신호를 코어 대역의 오디오 슬라이스(302), 중간 대역의 오디오 슬라이스(303, 304), 고대역의 오디오 슬라이스(305)로 분리할 수 있다.

그런 후에, 오디오 신호 분석 장치는 코어 대역의 오디오 슬라이스(302)에 1D 컨벌루션 필터(306)를 적용함으로써 코어 대역의 분석 정보(310)를 생성할 수 있다. 마찬가지로, 오디오 신호 분석 장치는 중간 대역의 오디오 슬라이스(303, 304)에 1D 컨볼루션 필터(307, 308)를 적용함으로써 중간 대역의 분석 정보(311, 312)를 생성할 수 있다. 오디오 신호 분석 장치는 고대역의 오디오 슬라이스(305)에 1D 컨벌루션 필터(309)를 적용함으로써 고대역의 분석 정보(311, 312)를 생성할 수 있다.

오디오 신호 분석 장치에서 생성되는 분석 정보는 도 2에서 언급한 바와 같이 컨벌루션 레이어에 생성되는 특징맵을 의미할 수 있다. 오디오 신호 분석 장치는 코어 대역의 분석 정보(310), 중간 대역의 분석 정보(311, 312) 및 고대역의 분석 정보(313)를 합성한 합성 정보(314)를 생성할 수 있다. 그리고, 오디오 신호 분석 장치는 합성 정보(314)에 1*1 컨벌루션(315)를 적용하여 합성 정보(314)에 대한 차원을 축소할 수 있다.

도 4는 본 발명의 일실시예에 따른 주파수에 대한 1D 컨벌루션의 처리 과정을 도시한 도면이다.

오디오 신호 분석 장치는 0에서 K-1까지의 시간과 0에서 L-1까지의 주파수로 구성된 오디오 신호(401)의 스펙토그램에서 고대역의 오디오 슬라이스(402)와 중간 대역의 오디오 슬라이스(403) 및 코어 대역의 오디오 슬라이스(404)를 추출할 수 있다.

오디오 신호 분석 장치는 고대역의 오디오 슬라이스(405)에 필터(406)를 특정 방향으로 오버랩하여 연속적으로 적용할 수 있다. 이 때, 필터(406)는 필터(0)부터 필터(L-1)까지 L개의 필터로 설정되어 고대역의 오디오 슬라이스(405)에 적용될 수 있다. 이 경우, L개의 필터(406)가 고대역의 오디오 슬라이스(405)에 적용된 후 프레임 단위로 적층(stacking)되면, 고대역의 주파수 특성이 시각화될 수 있다.

동일한 방식으로, 오디오 신호 분석 장치는 중간 대역의 오디오 슬라이스(407)에 필터(408)를 특정 방향으로 오버랩하여 연속적으로 적용할 수 있다. 이 때, 필터(408)는 필터(0)부터 필터(L-1)까지 L개의 필터로 설정되어 중간 대역의 오디오 슬라이스(407)에 적용될 수 있다. 이 경우, L개의 필터(406)가 중간 대역의 오디오 슬라이스(407)에 적용된 후 프레임 단위로 적층(stacking)되면, 중간 대역의 주파수 특성이 시각화될 수 있다.

또한, 오디오 신호 분석 장치는 코어 대역의 오디오 슬라이스(409)에 필터(410)를 특정 방향으로 오버랩하여 연속적으로 적용할 수 있다. 이 때, 필터(410)는 필터(0)부터 필터(L-1)까지 L개의 필터로 설정되어 코어 대역의 오디오 슬라이스(409)에 적용될 수 있다. 이 경우, L개의 필터(410)가 코어 대역의 오디오 슬라이스(409)에 적용된 후 프레임 단위로 적층(stacking)되면, 코어 대역의 주파수 특성이 시각화될 수 있다.

도 5는 본 발명의 일실시예에 따른 시간에 대한 1D 컨벌루션의 동작을 설명하기 위한 도면이다.

오디오 신호의 스펙토그램(501)은 오디오 신호를 시간에 따른 주파수의 음향 에너지를 시각화한 것이다. 오디오 신호 분석 장치는 오디오 신호의 스펙토그램에서 가로 축을 나타내는 시간이 낮은 순서에 따라 오디오 신호를 시작 시점의 오디오 슬라이스(502), 중간 시점의 오디오 슬라이스(503, 504), 종료 시점의 오디오 슬라이스(505)로 분리할 수 있다.

그런 후에, 오디오 신호 분석 장치는 시작 시점의 오디오 슬라이스(502)에 1D 컨벌루션 필터(506)를 적용함으로써 시작 시점의 분석 정보(510)를 생성할 수 있다. 마찬가지로, 오디오 신호 분석 장치는 중간 시점의 오디오 슬라이스(503, 504)에 1D 컨볼루션 필터(507, 508)를 적용함으로써 중간 시점의 분석 정보(511, 512)를 생성할 수 있다. 오디오 신호 분석 장치는 종료 시점의 오디오 슬라이스(505)에 1D 컨벌루션 필터(509)를 적용함으로써 종료 시점의 분석 정보(311, 312)를 생성할 수 있다.

오디오 신호 분석 장치에서 생성되는 분석 정보는 도 2에서 언급한 바와 같이 컨벌루션 레이어에 생성되는 특징맵을 의미할 수 있다. 오디오 신호 분석 장치는 시작 시점의 분석 정보(510), 중간 시점의 분석 정보(511, 512) 및 종료 시점의 분석 정보(513)를 합성한 합성 정보(514)를 생성할 수 있다. 그리고, 오디오 신호 분석 장치는 합성 정보(514)에 1*1 컨벌루션(515)를 적용하여 합성 정보(514)에 대한 차원을 축소할 수 있다.

도 6은 본 발명의 일실시예에 따른 시간에 대한 1D 컨벌루션의 처리 과정을 도시한 도면이다.

오디오 신호 분석 장치는 0에서 K-1까지의 시간과 0에서 L-1까지의 주파수로 구성된 오디오 신호(601)의 스펙토그램에서 종료 시점의 오디오 슬라이스(602)와 중간 시점의 오디오 슬라이스(603) 및 시작 시점의 오디오 슬라이스(604)를 추출할 수 있다.

오디오 신호 분석 장치는 종료 시점의 오디오 슬라이스(605)에 필터(606)를 특정 방향으로 오버랩하여 연속적으로 적용할 수 있다. 이 때, 필터(606)는 필터(0)부터 필터(K-1)까지 K개의 필터로 설정되어 종료 시점의 오디오 슬라이스(605)에 적용될 수 있다. 이 경우, K개의 필터(606)가 종료 시점의 오디오 슬라이스(605)에 적용된 후 프레임 단위로 적층(stacking)되면, 종료 시점의 주파수 특성이 시각화될 수 있다.

동일한 방식으로, 오디오 신호 분석 장치는 중간 시점의 오디오 슬라이스(607)에 필터(608)를 특정 방향으로 오버랩하여 연속적으로 적용할 수 있다. 이 때, 필터(608)는 필터(0)부터 필터(K-1)까지 K개의 필터로 설정되어 중간 시점의 오디오 슬라이스(607)에 적용될 수 있다. 이 경우, K개의 필터(606)가 중간 시점의 오디오 슬라이스(607)에 적용된 후 프레임 단위로 적층(stacking)되면, 중간 시점의 주파수 특성이 시각화될 수 있다.

또한, 오디오 신호 분석 장치는 시작 시점의 오디오 슬라이스(609)에 필터(610)를 특정 방향으로 오버랩하여 연속적으로 적용할 수 있다. 이 때, 필터(610)는 필터(0)부터 필터(K-1)까지 K개의 필터로 설정되어 시작 시점의 오디오 슬라이스(609)에 적용될 수 있다. 이 경우, K개의 필터(610)가 시작 시점의 오디오 슬라이스(609)에 적용된 후 프레임 단위로 적층(stacking)되면, 시작 시점의 주파수 특성이 시각화될 수 있다.

도 7은 본 발명의 일실시예에 따른 오디오 신호 분석 장치의 동작을 설명하기 위한 도면이다.

도 7을 참고하면, 오디오 신호 분석 장치(702)는 오디오 신호를 주파수 영역으로 변환하고 프레임 단위로 적층하여 주파수 특성을 시각화한 오디오 신호의 스펙토그램(701)을 수신할 수 있다.

오디오 신호 분석 장치(702)는 도 3에서 설명한 주파수 단위의 1D 필터링(703)과 도 5에서 설명한 시간 단위의 1D 필터링(704)을 수행할 수 있다.

주파수 단위의 1D 필터링(703)은 FD(Frequency-Division)-1D-CNN으로 정의될 수 있다. FD-1D-CNN은 오디오 신호가 시간에 따라 급격히 변화가 발생하거나 상이할 때 적합할 수 있다.

만일에 주파수 영역으로 변환된 오디오 신호를 시간축 방향으로 1D 필터링(703)을 수행하면, 각 주파수 영역별로 1차원 컨볼루션 연산을 통해 오디오 신호의 분석이 수행된다. 이때 필터의 계수가 1개 이상이면 오디오 신호의 분석 결과인 특징맵도 2차원 형태가 될 수 있다.

주파수 단위의 1D 필터링(703)은 다음과 같은 과정을 통해 수행될 수 있다.

(1) 오디오 신호를 프레임 단위의 주파수 영역 변환하는 과정

(2) 오디오 신호를 시간 축으로 적층하여 2D 차원 정보(오디오 신호의 스펙토그램)로 변환하는 과정

(3) 2D 차원 정보를 주파수 축으로 슬라이싱하는 과정

(4) 주파수 축에 따라 슬라이싱된 오디오 슬라이스 각각에 대해 1D 컨볼루션을 적용하여 오디오 신호에 대한 특징맵을 생성하는 과정

(5) 오디오 신호에 대한 특징맵을 분석하는 과정

그리고, 시간 단위의 1D 필터링(704)는 TD(Time-Division)-1D-CNN으로 정의될 수 있으며, 다음과 같이 수행될 수 있다. TD-1D-CNN은 입력 오디오 신호의 시간축 상의 상관관계를 고려한 분석 방식으로 tonal한 오디오 성분 분석에 적합하다.

만일에 주파수 영역으로 변환된 오디오 신호를 주파수축 방향으로 1D 필터링(703)을 수행하면, 각 시간 영역별로 1차원 컨볼루션 연산을 통해 오디오 신호의 분석이 수행된다. 이때 필터의 계수가 1개 이상이면 오디오 신호의 분석 결과인 특징맵도 2차원 형태가 될 수 있다.

시간 단위의 1D 필터링(704)은 다음과 같은 과정을 통해 수행될 수 있다.

(3) 2D 차원 정보를 시간 축으로 슬라이싱하는 과정

(4) 시간축에 따라 슬라이싱된 오디오 슬라이스 각각에 대해 1D 컨볼루션을 적용하여 오디오 신호에 대한 특징맵을 생성하는 과정

(5) 오디오 신호에 대한 특징맵을 분석하는 과정

오디오 신호 분석 장치(702)는 주파수 단위의 1D 필터링(703)과 시간 단위의 1D 필터링(704)을 수행한 결과인 분석 정보(705)를 합성할 수 있다. 여기서, 분석 정보(705)는 주파수 단위의 1D 필터링(703)과 시간 단위의 1D 필터링(704)을 통해 도출된 2D 형태의 특징맵이다. 합성된 분석 정보(705)는 1D 컨벌루션(706)이 적용되며, 출력 신호(708)에서 가장 효과적인 요소에 대해 가중치를 적용하여 출력 신호(708)를 튜닝하는 과정을 위해 1D 컨벌루션(706)이 수행된다. 그리고, 출력 노드(707)는 출력 신호(708)와 타겟 신호(709) 간의 차원(dimension)이 일치하지 않는 경우에 출력 신호(708)와 타겟 신호(709) 간에 차원을 일치시키기 위한 과정이 수행된다.

복수의 컨벌루션 레이어들 중 최종적인 컨벌루션 레이어의 출력 노드(707)에서 도출된 출력 신호(708)는 타겟 신호(709)와 비교된다. 출력 신호(708)와 타겟 신호(709)의 차이가 미리 설정된 값보다 작도록 최적화하는 과정을 통해 컨벌루션 레이어들로 구성된 신경망이 학습될 수 있다.

본 발명은 1D 형태의 오디오 신호에 적합한 신경망 구조를 제안한다. 신경망 구조는 본오디오 신호의 분석 및 부호화를 위해 정보량을 감축하기 위한 예측을 위해 사용될 수 있다. 단계에서 정보량 감축을 위한 예측 수단으로 활용될 수 있을 것으로 보이며, 종전의 2D conv가 수행하지 못한 기능을 수행할 수 있을 것으로 기대된다.

한편, 본 발명에 따른 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성되어 마그네틱 저장매체, 광학적 판독매체, 디지털 저장매체 등 다양한 기록 매체로도 구현될 수 있다.

본 명세서에 설명된 각종 기술들의 구현들은 디지털 전자 회로조직으로, 또는 컴퓨터 하드웨어, 펌웨어, 소프트웨어로, 또는 그들의 조합들로 구현될 수 있다. 구현들은 데이터 처리 장치, 예를 들어 프로그램가능 프로세서, 컴퓨터, 또는 다수의 컴퓨터들의 동작에 의한 처리를 위해, 또는 이 동작을 제어하기 위해, 컴퓨터 프로그램 제품, 즉 정보 캐리어, 예를 들어 기계 판독가능 저장 장치(컴퓨터 판독가능 매체) 또는 전파 신호에서 유형적으로 구체화된 컴퓨터 프로그램으로서 구현될 수 있다. 상술한 컴퓨터 프로그램(들)과 같은 컴퓨터 프로그램은 컴파일된 또는 인터프리트된 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 기록될 수 있고, 독립형 프로그램으로서 또는 모듈, 구성요소, 서브루틴, 또는 컴퓨팅 환경에서의 사용에 적절한 다른 유닛으로서 포함하는 임의의 형태로 전개될 수 있다. 컴퓨터 프로그램은 하나의 사이트에서 하나의 컴퓨터 또는 다수의 컴퓨터들 상에서 처리되도록 또는 다수의 사이트들에 걸쳐 분배되고 통신 네트워크에 의해 상호 연결되도록 전개될 수 있다.

컴퓨터 프로그램의 처리에 적절한 프로세서들은 예로서, 범용 및 특수 목적 마이크로프로세서들 둘 다, 및 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 다로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 요소들은 명령어들을 실행하는 적어도 하나의 프로세서 및 명령어들 및 데이터를 저장하는 하나 이상의 메모리 장치들을 포함할 수 있다. 일반적으로, 컴퓨터는 데이터를 저장하는 하나 이상의 대량 저장 장치들, 예를 들어 자기, 자기-광 디스크들, 또는 광 디스크들을 포함할 수 있거나, 이것들로부터 데이터를 수신하거나 이것들에 데이터를 송신하거나 또는 양쪽으로 되도록 결합될 수도 있다. 컴퓨터 프로그램 명령어들 및 데이터를 구체화하는데 적절한 정보 캐리어들은 예로서 반도체 메모리 장치들, 예를 들어, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM) 등을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로조직에 의해 보충되거나, 이에 포함될 수 있다.

또한, 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용매체일 수 있고, 컴퓨터 저장매체 및 전송매체를 모두 포함할 수 있다.

본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.

마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 장치 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 장치들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.

한편, 본 명세서와 도면에 개시된 본 발명의 실시 예들은 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 자명한 것이다.

Claims

오디오 신호를 프레임 단위에 따라 주파수 영역으로 변환하는 단계;
상기 주파수 영역으로 변환된 오디오 신호를 시간 축으로 적층하여 2D 차원 정보를 생성하는 단계;
상기 2D 차원 정보를 주파수 축에 따라 슬라이싱하여 복수의 오디오 슬라이스들을 추출하는 단계;
상기 복수의 오디오 슬라이스들 각각에 대해 1D 필터링을 적용하여 1D 컨볼루션을 수행하는 단계;
상기 1D 컨볼루션을 수행한 결과에 따라 복수의 오디오 슬라이스들 각각에 대해 주파수 단위의 분석 정보를 결정하는 단계
를 포함하는 오디오 신호 분석 방법.
제1항에 있어서,
상기 오디오 슬라이스들은,
주파수의 크기에 따라 코어 대역의 오디오 슬라이스, 중간 대역의 오디오 슬라이스 및 고대역의 오디오 슬라이스로 구성되는 오디오 신호 분석 방법.
제1항에 있어서,
상기 1D 컨볼루션을 수행하는 단계는,
상기 필터를 구성하는 가중치를 상기 오디오 슬라이스를 구성하는 오디오 신호에 적용함으로써 컨벌루션 레이어에서의 특징맵을 생성하는 오디오 신호 분석 방법.
제1항에 있어서,
상기 복수의 오디오 슬라이스들 각각에 대해 주파수 단위의 분석 정보를 합성하는 단계;
상기 합성된 분석 정보에 대해 1x1 컨볼루션을 적용하는 단계
를 더 포함하는 오디오 신호 분석 방법.
제1항에 있어서,
상기 1D 컨볼루션을 수행하는 단계는,
상기 주파수 축에 따라 생성된 오디오 슬라이스의 개수의 1D 필터를 특정 방향으로 적용하고, 특정 방향으로 적용된 결과를 적층하는 오디오 신호 분석 방법.
오디오 신호를 프레임 단위에 따라 주파수 영역으로 변환하는 단계;
상기 주파수 영역으로 변환된 오디오 신호를 시간 축으로 적층하여 2D 차원 정보를 생성하는 단계;
상기 2D 차원 정보를 시간 축에 따라 슬라이싱하여 복수의 오디오 슬라이스들을 추출하는 단계;
상기 복수의 오디오 슬라이스들 각각에 대해 1D 필터링을 적용하여 1D 컨볼루션을 수행하는 단계;
상기 1D 컨볼루션을 수행한 결과에 따라 복수의 오디오 슬라이스들 각각에 대해 시간 단위의 분석 정보를 결정하는 단계
를 포함하는 오디오 신호 분석 방법.
제6항에 있어서,
상기 오디오 슬라이스들은,
시간의 순서에 따라 시작 시점의 오디오 슬라이스, 중간 시점의 오디오 슬라이스 및 종료 시점의 오디오 슬라이스로 구성되는 오디오 신호 분석 방법.
제6항에 있어서,
상기 1D 컨볼루션을 수행하는 단계는,
상기 필터를 구성하는 가중치를 상기 오디오 슬라이스를 구성하는 오디오 신호에 적용함으로써 컨벌루션 레이어에서의 특징맵을 생성하는 오디오 신호 분석 방법.
제6항에 있어서,
상기 복수의 오디오 슬라이스들 각각에 대해 시간 단위의 분석 정보를 합성하는 단계;
상기 합성된 분석 정보에 대해 1x1 컨볼루션을 적용하는 단계
를 더 포함하는 오디오 신호 분석 방법.
제6항에 있어서,
상기 1D 컨볼루션을 수행하는 단계는,
상기 시간 축에 따라 생성된 오디오 슬라이스의 개수의 1D 필터를 특정 방향으로 적용하고, 특정 방향으로 적용된 결과를 적층하는 오디오 신호 분석 방법.
오디오 신호 분석 방법을 수행하는 오디오 신호 분석 장치에 있어서,
상기 오디오 신호 분석 장치는 프로세서를 포함하고,
상기 프로세서는,
오디오 신호를 프레임 단위에 따라 주파수 영역으로 변환하고,
상기 주파수 영역으로 변환된 오디오 신호를 시간 축으로 적층하여 2D 차원 정보를 생성하고,
상기 2D 차원 정보를 주파수 축에 따라 슬라이싱하여 주파수 단위의 복수의 오디오 슬라이스들을 추출하고,
상기 2D 차원의 정보를 시간 축에 따라 슬라이싱하여 시간 단위의 복수의 오디오 슬라이스들을 추출하고,
상기 시간 단위의 오디오 슬라이스들 및 상기 주파수 단위의 오디오 슬라이스들 각각에 대해 1D 필터링을 적용하여 1D 컨볼루션을 수행하고,
상기 1D 컨볼루션을 수행한 결과에 따라 복수의 오디오 슬라이스들 각각에 대해 시간 단위의 분석 정보와 주파수 단위의 분석 정보를 결정하는 오디오 신호 분석 장치.
제11항에 있어서,
상기 주파수 단위의 오디오 슬라이스들은,
주파수의 크기에 따라 코어 대역의 오디오 슬라이스, 중간 대역의 오디오 슬라이스 및 고대역의 오디오 슬라이스로 구성되는 오디오 신호 분석 장치.
제11항에 있어서,
상기 시간 단위의 오디오 슬라이스들은,
시간의 순서에 따라 시작 시점의 오디오 슬라이스, 중간 시점의 오디오 슬라이스 및 종료 시점의 오디오 슬라이스로 구성되는 오디오 신호 분석 장치.
제11항에 있어서,
상기 프로세서는,
상기 필터를 구성하는 가중치를 상기 오디오 슬라이스를 구성하는 오디오 신호에 적용하는 1D 컨벌루션을 수행함으로써 컨벌루션 레이어에서의 특징맵을 생성하는 오디오 신호 분석 장치.
제11항에 있어서,
상기 프로세서는,
상기 복수의 오디오 슬라이스들 각각에 대해 시간 단위의 분석 정보를 합성하고, 상기 합성된 분석 정보에 대해 1x1 컨볼루션을 적용하는 오디오 신호 분석 장치.
제11항에 있어서,
상기 프로세서는,
상기 시간 축에 따라 생성된 오디오 슬라이스의 개수의 1D 필터를 특정 방향으로 적용하고, 특정 방향으로 적용된 결과를 적층하여 시간 단위의 1D 컨볼루션을 수행하는 오디오 신호 분석 장치.
제11항에 있어서,
상기 프로세서는,
상기 주파수 축에 따라 생성된 오디오 슬라이스의 개수의 1D 필터를 특정 방향으로 적용하고, 특정 방향으로 적용된 결과를 적층하여 주파수 단위의 1D 컨볼루션을 수행하는 오디오 신호 분석 장치.