KR101825949B1 - 음원 분리를 포함하는 음원 위치 추정 장치 및 방법 - Google Patents

음원 분리를 포함하는 음원 위치 추정 장치 및 방법 Download PDF

Info

Publication number
KR101825949B1
KR101825949B1 KR1020150140500A KR20150140500A KR101825949B1 KR 101825949 B1 KR101825949 B1 KR 101825949B1 KR 1020150140500 A KR1020150140500 A KR 1020150140500A KR 20150140500 A KR20150140500 A KR 20150140500A KR 101825949 B1 KR101825949 B1 KR 101825949B1
Authority
KR
South Korea
Prior art keywords
sound source
audio signal
matrix
sound
estimating
Prior art date
Application number
KR1020150140500A
Other languages
English (en)
Other versions
KR20170041328A (ko
Inventor
송재종
양창모
박성주
김동칠
김기준
박호종
한택진
Original Assignee
전자부품연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전자부품연구원 filed Critical 전자부품연구원
Priority to KR1020150140500A priority Critical patent/KR101825949B1/ko
Publication of KR20170041328A publication Critical patent/KR20170041328A/ko
Application granted granted Critical
Publication of KR101825949B1 publication Critical patent/KR101825949B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/808Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems
    • G01S3/8083Systems for determining direction or deviation from predetermined direction using transducers spaced apart and measuring phase or time difference between signals therefrom, i.e. path-difference systems determining direction of source
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/22Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Stereophonic System (AREA)

Abstract

본 발명은 오디오 신호에 포함된 특정 음원의 위치를 추정하는 방법과 그장치에 관한 발명으로, 본 발명의 일면에 따른 음원 위치 추정 방법은 둘 이상의 음원을 포함하는 오디오 신호에서 한 음원의 제1위치를 추정하는 단계; 상기 추정된 제1위치를 이용하여 상기 오디오 신호에서 상기 한 음원만 포함하는 오디오 신호를 분리하는 단계; 상기 분리된 한 음원만 포함하는 오디오 신호에서 상기 한 음원의 제2위치를 추정하는 단계를 포함하는 것을 특징으로 한다.

Description

음원 분리를 포함하는 음원 위치 추정 장치 및 방법{Apparatus for location estimation of sound source with source separation and method thereof}
본 발명은 다수의 음원으로 구성된 오디오 신호에서 특정 음원의 위치를 추정하는 방법에 관한 것으로써, 오디오 신호를 구성하는 음원을 각각 분리한 후에 분리된 각 음원의 위치를 추정함으로써 추정된 위치의 정확도를 향상시키는 장치 및 방법에 관한 것이다.
오디오 신호에서 공간정보(Spatial Information)를 추출해 내는 것은 오디오 신호의 장면을 분석하거나 공간감을 가지는 오디오(Spatial audio) 구현 등을 위해 필요하다.
이러한 공간정보를 추출해 내기 위한 오디오 신호는 한 개의 음원으로 구성되는 경우도 있지만 일반적으로는 여러 개의 음원의 조합에 의해 이루어진다. 이러한 오디오 신호에서 원하는 음원만 분리해 내거나(Sound source separation) 각 음원의 위치를 추정(Location estimation)하는 여러 가지 기술들이 연구되어왔다.
주성분분석(Principal Component Analysis, PCA)방법은 음원의 위치를 추정하기 위한 방법 중의 하나로, 복수의 데이터들을 차원이 낮은 데이터로 변환시키는 것인데, 오디오 신호를 직교변환을 사용하여 첫 번째 주성분과 이와 직교하는 두 번째 주성분으로 선형 변환하는 것이다.
그러나 주성분분석방법을 다수의 음원으로 구성된 오디오 신호에 적용하면, 음원들 사이의 간섭에 의하여 각 음원의 위치를 정확하게 추정할 수 없다. 즉, 특정 음원의 위치를 추정할 때 다른 음원들은 상기 특정 음원의 위치추정을 방해하는 잡음 신호로 동작하고, 그에 따라 상기 음원의 위치추정에 오류가 발생한다.
특히 다른 음원들의 위치가 고정인 경우에 이 음원들이 잡음신호로 동작하면 음원 위치추정에 항상 일정한 방향으로 영향을 미치게 되고, 측정하려는 음원의 위치가 잡음방향으로 편중되어 잘못 측정되는 오류가 발생한다.
따라서 주성분분석방법을 사용하여 음원의 위치를 추정하기 위해서는 추정을 방해하는 잡음역할을 하는 다른 음원들을 제거하고 측정하고자 하는 음원만 분리하여 음원의 위치를 추정하는 방법이 필요하다.
특정 음원만 분리하는 방법은 비음수행렬분해(Non-negative Matrix Factorization, NMF)방법을 사용할 수 있는데, NMF방법은 여러 음원을 포함한 오디오 신호에 대해 NMF 기저행렬(Basis Matrix)을 구하고, 기저행렬에서 각 음원에 해당하는 기저행렬을 분리해 내고, 이를 이용하여 오디오 신호를 합성하는 방법으로 음원을 분리하는 방법이다.
그러나 이 과정에서 각 음원에 대한 기저행렬을 추출하기 위하여는 각 음원의 특성을 미리 알아야 하고, 이를 위해서 각 음원에 대한 훈련과정을 독립적으로 수행해야 한다. 이렇게 사전에 각 음원에 대한 훈련과정을 독립적으로 수행하여 각 음원의 특징을 미리 파악해야 하므로 아무런 정보 없이 음원들이 섞여있는 일반 오디오 신호에는 적용하기 어려운 한계가 있다.
이를 극복하기 위해 이미 알려진 음원들의 고유 특성을 이용하여 기저행렬을 추출하는 방법도 있으나 이 방법은 해당 특성을 가지는 음원의 분리에만 제한적으로 적용할 수 있는 문제점이 있다.
본 발명은 전술한 바와 같은 기술적 배경에서 안출된 것으로서, 다수의 음원으로 구성된 오디오 신호에서 특정 음원의 위치를 추정할 때 다른 음원에 의한 오류를 제거하여 특정 음원의 위치를 정확하게 추정하는 장치와 방법을 제공하는 것을 목적으로 한다.
이를 위해 본 발명은 특정 음원만 분리하여 이로부터 위치를 추정하는데, 음원의 분리는 사전 훈련 과정 또는 음원 고유 특성을 알지 못하는 상태에서도 각 음원의 특성을 자체적으로 분석하고, 분석결과를 활용하여 특정 음원을 분리할 수 있다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
전술한 목적을 달성하기 위한 본 발명의 일면에 따른 음원 위치 추정 방법은 둘 이상의 음원을 포함하는 오디오 신호에서 한 음원의 제1위치를 추정하는 단계; 상기 추정된 제1위치를 이용하여 상기 오디오 신호에서 상기 한 음원만 포함하는 오디오 신호를 분리하는 단계; 상기 분리된 한 음원만 포함하는 오디오 신호에서 상기 한 음원의 제2위치를 추정하는 단계를 포함하는 것을 특징으로 한다.
상기 오디오 신호를 분리하는 단계는, 상기 추정된 제1위치에 의해 상기 한 음원의 특성을 추출하고, 상기 추출된 음원의 특성을 비음수행렬분해(Non-negative Matrix Factorization, NMF) 계산 과정에 적용하여 상기 음원의 기저행렬을 결정하고, 상기 기저행렬을 비음수행렬분해방법에 적용하여 상기 오디오 신호를 분리하는 것을 특징으로 한다.
본 발명의 다른 일면에 따른 음원 위치 추정 장치는 적어도 하나 이상의 프로세서를 포함하고, 상기 프로세서는 둘 이상의 음원을 포함하는 오디오 신호에서 한 음원의 제1위치를 추정하는 제1위치추정부; 상기 제1위치를 이용하여 상기 오디오 신호에서 상기 한 음원만 포함하는 오디오 신호를 분리하는 음원분리부; 및 상기 음원분리부에서 분리된 오디오신호에서 상기 한 음원의 제2위치를 추정하는 제2위치추정부를 포함하여 구현하는 것을 특징으로 한다.
상기 음원분리부는, 상기 추정된 제1위치에 의해 상기 한 음원의 특성을 추출하고, 상기 추출된 음원의 특성을 비음수행렬분해(Non-negative Matrix Factorization, NMF) 계산 과정에 적용하여 상기 음원의 기저행렬을 결정하고, 상기 결정된 기저행렬을 비음수행렬분해방법에 적용하여 상기 오디오 신호를 분리하는 것을 특징으로 한다.
본 발명에 따르면, 위치를 추정하고자 하는 특정한 음원을 분리해내어 이를 이용하여 위치를 추정하므로 여러 음원이 혼재된 상태에서 특정 음원의 위치를 추정할 때 보다 훨씬 정확하게 해당 음원의 위치를 추정할 수 있는 효과가 있다.
도 1은 본 발명의 일실시예에 따른 음원 위치 추정 방법의 흐름도.
도 2는 본 발명의 다른 실시예에 따른 음원 위치 추정 장치의 구조도.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
이하, 본 발명의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 상세히 설명하기로 한다. 도 1은 본 발명에 의한 위치추정 방법을 위한 흐름도를 나타낸다.
특정 음원의 위치를 추정하기 위한 방법은 크게 세 단계로 이루어지는데, 우선 종래의 PCA방법을 이용하여 특정 음원의 초기 위치를 대략적으로 추정하는 제1위치추정단계(S110), 이렇게 추정된 위치를 기반으로 특정음원을 분리해 내어 그로부터 기저행렬을 구하는 음원분리단계(S120), 마지막으로 기저행렬을 이용하여 보다 정확한 특정 음원의 위치를 추정하는 제2위치추정단계(S130)를 거쳐 이루어진다.
제1위치추정단계(S110)에서는 우선 입력신호의 좌측채널 신호와 우측채널 신호인
Figure 112015096821039-pat00001
Figure 112015096821039-pat00002
로부터 종래의 PCA 방법을 이용하여 특정 음원
Figure 112015096821039-pat00003
의 대략적인 위치를 구하는데, 위치 추정 결과는
Figure 112015096821039-pat00004
의 패닝이득값인
Figure 112015096821039-pat00005
Figure 112015096821039-pat00006
으로 나타난다.
제1위치추정단계(S110)에서 구한 패닝이득값을 이용하여 위치를 추정하고자 하는 음원
Figure 112015096821039-pat00007
을 입력 오디오신호로부터 분리하는 단계(S120)를 거치는데 이는 다시 오디오신호에 포함된 다른 음원인
Figure 112015096821039-pat00008
의 기저행렬을 계산하는 단계(S121),
Figure 112015096821039-pat00009
의 기저행렬로부터 전체 기저행렬을 구하는 단계(S122), 마지막으로 전체 기저행렬을 이용하여
Figure 112015096821039-pat00010
을 분리해내는 단계(S123)로 이루어진다.
이하에서 제2음원인
Figure 112015096821039-pat00011
의 기저행렬을 구하는 단계(S121)를 설명하기로 한다.
입력신호로부터
Figure 112015096821039-pat00012
을 분리해 내기 위해서는 NMF방법을 이용한다. 오디오 신호 행렬인
Figure 112015096821039-pat00013
는 NMF 윈도우를 이용하여 기저행렬 B와 이득행렬 G의 곱으로 나타낼 수 있는데, 근사화된 오디오 신호 행렬
Figure 112015096821039-pat00014
Figure 112015096821039-pat00015
로 나타낼 수 있고 이때 모든 행렬의 요소(element)들은 음수가 아니어야 한다. 오디오 신호를 이루는 각 채널의 오디오 신호 행렬은 K개의 프레임으로 이루어질 수 있는데 이를 NMF 윈도우라 한다.
이때 기저행렬
Figure 112015096821039-pat00016
와 이득행렬
Figure 112015096821039-pat00017
는 반복 알고리즘에 의해 구할 수 있는데
Figure 112015096821039-pat00018
Figure 112015096821039-pat00019
사이의 오차가 최소가 될 때까지 반복해서
Figure 112015096821039-pat00020
Figure 112015096821039-pat00021
를 계산하는 방법이다.
NMF방법은 오디오 신호 행렬인
Figure 112015096821039-pat00022
를 근사화하여 표현하는 것이므로 오차가 있을 수밖에 없는데 오차를 줄이기 위해서 Orthogonal NMF, Discriminative NMF, Convolution NMF, Group sparsity NMF 등의 NMF 방법이 사용될 수 있다.
오디오 신호가 좌측 채널과 우측 채널로 이루어진 스테레오 신호라고 하면 입력 신호는 각각
Figure 112015096821039-pat00023
Figure 112015096821039-pat00024
로 나타내고 K프레임으로 이루어진 NMF윈도우에 의한 기저행렬과 이득행렬의 곱으로 나타나는 신호행렬은
Figure 112015096821039-pat00025
Figure 112015096821039-pat00026
로 나타낸다. 이 때 좌측 채널 오디오 신호행렬인
Figure 112015096821039-pat00027
과 우측 채널 오디오 신호행렬인 은 공통적인 음원을 가지고 있고, 또한, 같은 기저행렬을 가진다. 따라서 신호행렬
Figure 112015096821039-pat00029
는 다음 수학식 1과 같이 나타낼 수 있다.
Figure 112015096821039-pat00030
구하려는 특정 음원을
Figure 112015096821039-pat00031
이라 하고
Figure 112015096821039-pat00032
을 음원 신호라 하면 다른 음원과 음원 신호는
Figure 112015096821039-pat00033
Figure 112015096821039-pat00034
로 표현할 수 있다.
이들 사이의 관계를 수학식 2 및 수학식 3과 같이 나타낼 수 있다.
Figure 112015096821039-pat00035
Figure 112015096821039-pat00036
Figure 112015096821039-pat00037
는 i번째 음원 신호의 c채널에 해당하는 값으로 음원신호
Figure 112015096821039-pat00038
에 이득값
Figure 112015096821039-pat00039
를 곱한 값이다.
또한 i번째 음원 신호를
Figure 112015096821039-pat00040
라 하면 이에 대한 기저행렬은
Figure 112015096821039-pat00041
로 나타낼 수 있고 따라서
Figure 112015096821039-pat00042
Figure 112015096821039-pat00043
의 공통적인 기저행렬은
Figure 112015096821039-pat00044
로 나타내고
Figure 112015096821039-pat00045
로 나타낼 수 있다.
따라서 c채널에 대한 오디오 행렬신호를
Figure 112015096821039-pat00046
로 나타내면
Figure 112015096821039-pat00047
Figure 112015096821039-pat00048
로 근사화 하여 나타낸
Figure 112015096821039-pat00049
는 수학식 4로 나타낼 수 있다.
Figure 112015096821039-pat00050
Figure 112015096821039-pat00051
는 c채널에 대한 이득행렬이고
Figure 112015096821039-pat00052
Figure 112015096821039-pat00053
는 각각 c채널의
Figure 112015096821039-pat00054
,
Figure 112015096821039-pat00055
소스에 대한 이득행렬을 나타낸다.
Figure 112015096821039-pat00056
Figure 112015096821039-pat00057
를 구하기 위해서는 종래의 NMF방법을 사용하는데
Figure 112015096821039-pat00058
를 고정시키고
Figure 112015096821039-pat00059
에 대해 최적화를 수행하고, 다음으로
Figure 112015096821039-pat00060
를 고정하고
Figure 112015096821039-pat00061
에 대해 최적화를 수행하는데 이 두 단계를 반복하여 최적화된
Figure 112015096821039-pat00062
Figure 112015096821039-pat00063
를 구한다.
이렇게
Figure 112015096821039-pat00064
Figure 112015096821039-pat00065
를 구하면 결과적으로 음원 신호
Figure 112015096821039-pat00066
Figure 112015096821039-pat00067
Figure 112015096821039-pat00068
의 곱으로부터 구할 수 있으므로
Figure 112015096821039-pat00069
로부터
Figure 112015096821039-pat00070
를 구하는 것이 대단히 중요한 단계이다.
특정 음원인
Figure 112015096821039-pat00071
의 위치를 추정한다는 것은 결국 스테레오 입력신호인
Figure 112015096821039-pat00072
Figure 112015096821039-pat00073
로부터
Figure 112015096821039-pat00074
의 좌측채널 신호인
Figure 112015096821039-pat00075
과 우측 채널 신호인
Figure 112015096821039-pat00076
을 구하는 것인데
Figure 112015096821039-pat00077
이고
Figure 112015096821039-pat00078
으로 나타낸다.
Figure 112015096821039-pat00079
Figure 112015096821039-pat00080
은 각각 좌측채널과 우측채널의
Figure 112015096821039-pat00081
에 대한 이득 값을 나타낸다.
즉,
Figure 112015096821039-pat00082
Figure 112015096821039-pat00083
는 모두
Figure 112015096821039-pat00084
에 이득값을 곱한 형태이므로
Figure 112015096821039-pat00085
,
Figure 112015096821039-pat00086
,
Figure 112015096821039-pat00087
은 모두 같은 기저행렬을 가진다. 따라서 입력신호로부터 구한
Figure 112015096821039-pat00088
는 수학식 5와 같이 나타낼 수 있고
Figure 112015096821039-pat00089
역시
Figure 112015096821039-pat00090
와 같은 기저행렬
Figure 112015096821039-pat00091
를 포함한다.
Figure 112015096821039-pat00092
이러한 성질을 이용하여 입력신호
Figure 112015096821039-pat00093
Figure 112015096821039-pat00094
로부터
Figure 112015096821039-pat00095
를 구하고
Figure 112015096821039-pat00096
를 이용해
Figure 112015096821039-pat00097
를 결정한다. 물론
Figure 112015096821039-pat00098
를 이용하여
Figure 112015096821039-pat00099
를 구하는 것도 같은 원리로 가능하지만,
Figure 112015096821039-pat00100
Figure 112015096821039-pat00101
에서 이득값을 제거하는 단계를 더 거쳐야 하기 때문에 오류가 더 커지므로
Figure 112015096821039-pat00102
를 이용하는 것이 정확도를 높일 수 있다.
본 발명에서
Figure 112015096821039-pat00103
의 위치를 구하기 위해서
Figure 112015096821039-pat00104
을 구하는 것이 목표이지만,
Figure 112015096821039-pat00105
의 추정값인
Figure 112015096821039-pat00106
를 구하여 이로부터
Figure 112015096821039-pat00107
를 먼저 구하고,
Figure 112015096821039-pat00108
Figure 112015096821039-pat00109
,
Figure 112015096821039-pat00110
을 이용하여 최종적으로
Figure 112015096821039-pat00111
을 구하는 방법을 사용한다. 이렇게
Figure 112015096821039-pat00112
Figure 112015096821039-pat00113
,
Figure 112015096821039-pat00114
을 먼저 고정해 두고 클로즈드 루프(Closed-loop) 최적화 방식을 사용하여
Figure 112015096821039-pat00115
을 구하는 것이 훨씬 효율적이기 때문이다.
입력신호인
Figure 112015096821039-pat00116
Figure 112015096821039-pat00117
로부터 초기
Figure 112015096821039-pat00118
Figure 112015096821039-pat00119
의 위치를 대략적으로 추정하는 것은 기존의 PCA방법을 통해 가능하고 이렇게 추정된 이득값은
Figure 112015096821039-pat00120
Figure 112015096821039-pat00121
,
Figure 112015096821039-pat00122
Figure 112015096821039-pat00123
로 나타낼 수 있다.
수학식 2, 수학식 3 및 수학식 5를 이용하여 추정된
Figure 112015096821039-pat00124
를 나타내면 다음 수학식 6과 같이 나타낼 수 있다.
Figure 112015096821039-pat00125
Figure 112015096821039-pat00126
의 추정값인
Figure 112015096821039-pat00127
는 수학식 7과 같이 나타낼 수 있다.
Figure 112015096821039-pat00128
이렇게 구한
Figure 112015096821039-pat00129
로부터 NMF 윈도우를 이용하면 기저행렬
Figure 112015096821039-pat00130
를 구할 수 있고, 이런 식으로
Figure 112015096821039-pat00131
신호에 대한 아무런 사전 정보 없이 기저행렬
Figure 112015096821039-pat00132
를 구하는 것이 가능하다.
이렇게 구한
Figure 112015096821039-pat00133
를 이용하면 다음 단계(S122)에서는 NMF방법에 의한 기저행렬 계산 단계(S122)를 거쳐 전체 기저행렬인
Figure 112015096821039-pat00134
를 구할 수 있다.
구체적으로는,
Figure 112015096821039-pat00135
Figure 112015096821039-pat00136
은 수학식 1과 같이 입력신호인
Figure 112015096821039-pat00137
Figure 112015096821039-pat00138
로부터 구할 수 있고,
Figure 112015096821039-pat00139
Figure 112015096821039-pat00140
은 공통의 기저행렬
Figure 112015096821039-pat00141
를 가지고 있으며 각각의 이득행렬인
Figure 112015096821039-pat00142
Figure 112015096821039-pat00143
을 가지므로 NMF 방법으로
Figure 112015096821039-pat00144
Figure 112015096821039-pat00145
를 구할 수 있다. 이하의 실시예에서는 유클리디안 디스턴스(Euclidean distance)방법을 사용하여 오차를 최소화 하는 방법을 사용하였는데 이에 한정되지 않고 다른 NMF 방법들도 사용될 수 있다.
NMF 최적화를 위한 반복계산은 수학식 8 및 수학식 9와 같이 나타낼 수 있는데,
Figure 112015096821039-pat00146
,
Figure 112015096821039-pat00147
이고
Figure 112015096821039-pat00148
은 NMF 행렬의 각 요소(element)를 나타낸다.
Figure 112015096821039-pat00149
Figure 112015096821039-pat00150
수학식 8 및 수학식 9에서 초기
Figure 112015096821039-pat00151
로 설정되는데
Figure 112015096821039-pat00152
는 앞에서 구한 행렬을 사용하고,
Figure 112015096821039-pat00153
는 임의의 값을 가지는 행렬이다. NMF 최적화 반복이 수행되는 과정에서
Figure 112015096821039-pat00154
는 고정되어 있고
Figure 112015096821039-pat00155
는 계속 갱신되기 때문에
Figure 112015096821039-pat00156
의 계산이 완료되고 나면
Figure 112015096821039-pat00157
가 곧
Figure 112015096821039-pat00158
이 되는 것이다.
수학식 8 및 수학식 9에 의해
Figure 112015096821039-pat00159
Figure 112015096821039-pat00160
이 결정되고 나면
Figure 112015096821039-pat00161
의 각 채널별 이득행렬에 해당하는
Figure 112015096821039-pat00162
Figure 112015096821039-pat00163
도 구할 수 있다.
음원 분리의 마지막 단계(S123)에서는 이렇게 구한 각 채널 별 기저행렬과 이득행렬을 곱하여
Figure 112015096821039-pat00164
의 각 채널에 대한 신호인
Figure 112015096821039-pat00165
Figure 112015096821039-pat00166
을 구할 수 있다.
이렇게 입력신호인
Figure 112015096821039-pat00167
Figure 112015096821039-pat00168
로부터
Figure 112015096821039-pat00169
에 해당하는 신호를 분리해 내고 나면 분리해 낸 신호인
Figure 112015096821039-pat00170
Figure 112015096821039-pat00171
를 이용하여 다시 PCA방법을 이용하여
Figure 112015096821039-pat00172
의 위치 추정을 하는 단계(S130)를 거쳐 최종적으로
Figure 112015096821039-pat00173
의 위치를 구하는 것이다.
이렇게
Figure 112015096821039-pat00174
에 대한 신호만 분리하여 위치를 추정하는 경우에는
Figure 112015096821039-pat00175
Figure 112015096821039-pat00176
가 섞여 있는
Figure 112015096821039-pat00177
Figure 112015096821039-pat00178
로부터
Figure 112015096821039-pat00179
을 추정할 때와 달리
Figure 112015096821039-pat00180
가 노이즈 역할을 하지 않기 때문에 추정오류가 발생하지 않고 따라서 정확한
Figure 112015096821039-pat00181
의 위치를 구하는 것이 가능하다.
본 발명의 다른 실시예에 따른 음원 추정 장치(200)는 제1위치추정부(210), 음원분리부(220) 및 제2위치추정부(230)를 포함하여 이루어진다.
제1위치추정부(210)에서는 입력신호인
Figure 112015096821039-pat00182
Figure 112015096821039-pat00183
로부터 PCA방법을 이용하여 대략의
Figure 112015096821039-pat00184
의 위치를 추정하게 된다.
음원분리부(220)에서는 제1위치추정부에서 추정한
Figure 112015096821039-pat00185
의 특성을 이용하여 NMF방법을 사용하여 입력신호로부터
Figure 112015096821039-pat00186
만을 분리해낼 수 있는데 상세한 과정은 전술한 바와 같다.
마지막으로 제2위치추정부(230)에서는 음원분리부(220)에서 분리해 낸
Figure 112015096821039-pat00187
에 PCA방법을 적용하여
Figure 112015096821039-pat00188
의 위치를 다시 추정하는데, 이때는
Figure 112015096821039-pat00189
이외의 음원이 포함되지 않으므로 보다 정확한
Figure 112015096821039-pat00190
의 위치를 추정할 수 있는 효과가 있다.
한편, 본 발명의 일실시예에 따른 음원 위치 추정 방법은 컴퓨터 시스템에서 구현되거나, 또는 기록매체에 기록될 수 있다. 컴퓨터 시스템은 적어도 하나 이상의 프로세서와, 메모리와, 사용자 입력 장치와, 데이터 통신 버스와, 사용자 출력 장치와, 저장소를 포함할 수 있다. 전술한 각각의 구성 요소는 데이터 통신 버스를 통해 데이터 통신을 한다.
컴퓨터 시스템은 네트워크에 커플링된 네트워크 인터페이스를 더 포함할 수 있다. 상기 프로세서는 중앙처리 장치(central processing unit)이거나, 혹은 메모리 및/또는 저장소에 저장된 명령어를 처리하는 반도체 장치일 수 있다.
상기 메모리 및 상기 저장소는 다양한 형태의 휘발성 혹은 비휘발성 저장매체를 포함할 수 있다. 예컨대, 상기 메모리는 ROM 및 RAM을 포함할 수 있다.
따라서, 본 발명의 실시예에 따른 음원 위치 추정 방법은 컴퓨터에서 실행 가능한 방법으로 구현될 수 있다. 본 발명의 실시예에 따른 음원 위치 추정 방법이 컴퓨터 장치에서 수행될 때, 컴퓨터로 판독 가능한 명령어들이 본 발명에 따른 인식 방법을 수행할 수 있다.
한편, 상술한 본 발명에 따른 음원 위치 추정 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체로는 컴퓨터 시스템에 의하여 해독될 수 있는 데이터가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래시 메모리, 광 데이터 저장장치 등이 있을 수 있다. 또한, 컴퓨터로 판독 가능한 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
이상, 본 발명의 구성에 대하여 첨부 도면을 참조하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명이 속하는 기술분야에 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 변형과 변경이가능함은 물론이다. 따라서 본 발명의 보호 범위는 전술한 실시예에 국한되어서는 아니되며 이하의 특허청구범위의 기재에 의하여 정해져야 할 것이다.
S110: 제1위치 추정단계 S120: 음원분리단계
S130: 제2위치 추정단계
200: 음원 위치 추정 장치 210: 제1위치추정부
220: 음원분리부 230: 제2위치추정부

Claims (8)

  1. 둘 이상의 음원을 포함하는 오디오 신호에서 한 음원의 제1위치를 추정하는 단계;
    상기 추정된 제1위치를 이용하여 상기 오디오 신호에서 상기 한 음원만 포함하는 오디오 신호를 분리하는 단계; 및
    상기 분리된 한 음원만 포함하는 오디오 신호에서 상기 한 음원의 제2위치를 추정하는 단계;를 포함하되,
    상기 오디오 신호를 분리하는 단계는,
    상기 둘 이상의 음원을 포함하는 오디오 신호에서 상기 한 음원과 상이한 다른 음원의 기저행렬을 산출하는 단계;
    상기 다른 음원의 기저행렬로부터 전체 기저행렬을 산출하는 단계; 및
    상기 전체 기저행렬을 이용하여 상기 한 음원을 분리하는 단계를 포함하는 것
    음원 위치 추정 방법.
  2. 제1항에 있어서, 상기 오디오 신호를 분리하는 단계는,
    상기 추정된 제1위치에 의해 상기 한 음원의 특성을 추출하고,
    상기 추출된 음원의 특성을 비음수행렬분해(Non-negative Matrix Factorization, NMF) 계산 과정에 적용하여 상기 음원의 기저행렬을 결정하고,
    상기 기저행렬을 비음수행렬분해방법에 적용하여 상기 오디오 신호를 분리하는 것
    인 음원 위치 추정 방법.
  3. 제2항에 있어서, 상기 비음수행렬분해방법은,
    유클리디안 디스턴스(Euclidean Distance)를 이용하는 방법인 것
    인 음원 위치 추정 방법.
  4. 제1항에 있어서, 상기 제1위치 및 제2위치를 추정하는 단계는,
    주성분분석(Principal Component Analysis, PCA)방법으로 이루어지는 것
    인 음원 위치 추정 방법.
  5. 적어도 하나 이상의 프로세서를 포함하는 음원 위치 추정 장치에 있어서, 상기 프로세서는
    둘 이상의 음원을 포함하는 오디오 신호에서 한 음원의 제1위치를 추정하는 제1위치추정부;
    상기 제1위치를 이용하여 상기 오디오 신호에서 상기 한 음원만 포함하는 오디오 신호를 분리하는 음원분리부; 및
    상기 음원분리부에서 분리된 오디오신호에서 상기 한 음원의 제2위치를 추정하는 제2위치추정부를 포함하되,
    상기 음원 분리부는 상기 둘 이상의 음원을 포함하는 오디오 신호에서 상기 한 음원과 상이한 다른 음원의 기저행렬을 산출하고, 상기 다른 음원의 기저행렬로부터 전체 기저행렬을 산출한 다음, 상기 전체 기저행렬을 이용하여 상기 한 음원을 분리하는 것
    인 음원 위치 추정 장치.
  6. 제5항에 있어서, 상기 음원분리부는,
    상기 추정된 제1위치에 의해 상기 한 음원의 특성을 추출하고,
    상기 추출된 음원의 특성을 비음수행렬분해(Non-negative Matrix Factorization, NMF) 계산 과정에 적용하여 상기 음원의 기저행렬을 결정하고,
    상기 결정된 기저행렬을 비음수행렬분해방법에 적용하여 상기 오디오 신호를 분리하는 것
    인 음원 위치 추정 장치.
  7. 제6항에 있어서, 상기 비음수행렬분해방법은
    유클리디안 디스턴스(Euclidean Distance)를 이용하는 방법인 것
    인 음원 위치 추정 장치.
  8. 제5항에 있어서, 상기 제1위치추정부 및 제2위치추정부는
    주성분분석방법으로 음원의 위치를 추정하는 것
    인 음원 위치 추정 장치.
KR1020150140500A 2015-10-06 2015-10-06 음원 분리를 포함하는 음원 위치 추정 장치 및 방법 KR101825949B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150140500A KR101825949B1 (ko) 2015-10-06 2015-10-06 음원 분리를 포함하는 음원 위치 추정 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150140500A KR101825949B1 (ko) 2015-10-06 2015-10-06 음원 분리를 포함하는 음원 위치 추정 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20170041328A KR20170041328A (ko) 2017-04-17
KR101825949B1 true KR101825949B1 (ko) 2018-02-09

Family

ID=58703187

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150140500A KR101825949B1 (ko) 2015-10-06 2015-10-06 음원 분리를 포함하는 음원 위치 추정 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101825949B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020009350A1 (ko) * 2018-07-02 2020-01-09 엘지전자 주식회사 오클루션 이펙트에 관한 오디오 데이터를 송수신하는 방법 및 그 장치
KR20220139040A (ko) 2021-04-07 2022-10-14 한국표준과학연구원 음원 분리 및 음향 시각화 방법 및 시스템

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102607863B1 (ko) 2018-12-03 2023-12-01 삼성전자주식회사 음원 분리 장치 및 음원 분리 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010286685A (ja) 2009-06-12 2010-12-24 Yamaha Corp 信号処理装置
JP2010541350A (ja) * 2007-09-26 2010-12-24 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 周囲信号を抽出するための重み付け係数を取得する装置および方法における周囲信号を抽出する装置および方法、並びに、コンピュータプログラム
KR101509649B1 (ko) * 2014-02-27 2015-04-07 전자부품연구원 대역별 정확도에 따른 가중 평균을 이용한 음원 위치 검출 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010541350A (ja) * 2007-09-26 2010-12-24 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 周囲信号を抽出するための重み付け係数を取得する装置および方法における周囲信号を抽出する装置および方法、並びに、コンピュータプログラム
JP2010286685A (ja) 2009-06-12 2010-12-24 Yamaha Corp 信号処理装置
KR101509649B1 (ko) * 2014-02-27 2015-04-07 전자부품연구원 대역별 정확도에 따른 가중 평균을 이용한 음원 위치 검출 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
한택진. 스테레오 신호에서의 향상된 음원 위치 추정 방법. 광운대학교 대학원 석사학위논문. 2015.08, pp.1-32..

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020009350A1 (ko) * 2018-07-02 2020-01-09 엘지전자 주식회사 오클루션 이펙트에 관한 오디오 데이터를 송수신하는 방법 및 그 장치
KR20220139040A (ko) 2021-04-07 2022-10-14 한국표준과학연구원 음원 분리 및 음향 시각화 방법 및 시스템

Also Published As

Publication number Publication date
KR20170041328A (ko) 2017-04-17

Similar Documents

Publication Publication Date Title
JP7008638B2 (ja) 音声認識
US10460043B2 (en) Apparatus and method for constructing multilingual acoustic model and computer readable recording medium for storing program for performing the method
US10200804B2 (en) Video content assisted audio object extraction
US10192568B2 (en) Audio source separation with linear combination and orthogonality characteristics for spatial parameters
US9786288B2 (en) Audio object extraction
EP2954700B1 (en) Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field
US10650836B2 (en) Decomposing audio signals
US20110046952A1 (en) Acoustic model learning device and speech recognition device
US20100254539A1 (en) Apparatus and method for extracting target sound from mixed source sound
KR101825949B1 (ko) 음원 분리를 포함하는 음원 위치 추정 장치 및 방법
US10893373B2 (en) Processing of a multi-channel spatial audio format input signal
EP3440670B1 (en) Audio source separation
CN110348393B (zh) 车辆特征提取模型训练方法、车辆识别方法及设备
EP3238465B1 (en) Projection-based audio object extraction from audio content
US20150310870A1 (en) Systems and methods for analyzing audio characteristics and generating a uniform soundtrack from multiple sources
KR20170101614A (ko) 분리 음원을 합성하는 장치 및 방법
US8712073B2 (en) Method and apparatus for blind signal extraction
WO2016183367A1 (en) Audio source separation with source direction determination based on iterative weighting
WO2018208560A1 (en) Processing of a multi-channel spatial audio format input signal
US9930466B2 (en) Method and apparatus for processing audio content
JP6114053B2 (ja) 音源分離装置、音源分離方法、およびプログラム
Huang et al. A speaker diarization system with robust speaker localization and voice activity detection
WO2020216285A1 (zh) 数据处理方法、电子设备及计算机可读介质
JP7126659B2 (ja) 信号処理装置、信号処理方法及び信号処理プログラム
US20230419980A1 (en) Information processing device, and output method

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right