KR102249685B1 - System and method for determining localization of sound source - Google Patents

System and method for determining localization of sound source Download PDF

Info

Publication number
KR102249685B1
KR102249685B1 KR1020180158046A KR20180158046A KR102249685B1 KR 102249685 B1 KR102249685 B1 KR 102249685B1 KR 1020180158046 A KR1020180158046 A KR 1020180158046A KR 20180158046 A KR20180158046 A KR 20180158046A KR 102249685 B1 KR102249685 B1 KR 102249685B1
Authority
KR
South Korea
Prior art keywords
sound source
frame
ild
sound
feature vector
Prior art date
Application number
KR1020180158046A
Other languages
Korean (ko)
Other versions
KR20200070665A (en
Inventor
최승호
황현태
Original Assignee
서울과학기술대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울과학기술대학교 산학협력단 filed Critical 서울과학기술대학교 산학협력단
Priority to KR1020180158046A priority Critical patent/KR102249685B1/en
Publication of KR20200070665A publication Critical patent/KR20200070665A/en
Application granted granted Critical
Publication of KR102249685B1 publication Critical patent/KR102249685B1/en

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/22Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

본 기술은 음원 위치 결정 시스템 및 방법이 개시된다. 본 기술의 구체적인 예에 따르면, 좌우 귀에 도달하는 원음의 도착시간 차가 보정된 음원을 프레임 단위로 분할하고 분할된 각 프레임 별 에너지를 토대로 ILD를 연산하며 연산된 ILD 및 소정 수의 크로스 상관 계수 CCF의 특징 벡터에 대한 학습 수행 결과로 사용자 시점의 음원 위치를 도출함에 따라, 음원 위치 결정의 정확도를 향상시킬 수 있고, 이에 음원의 방향성, 거리감, 및 공간감을 부가하여 입체적으로 음원 가상 음향 서비스를 제공할 수 있고, 실제 환경의 음원을 가상 현실에 반영하여 사용자에게 제공됨에 따라 실제 환경과 동일하게 느낄 수 있어 3차원 가상 음향 효과 서비스를 제공할 수 있고 이에 따라 가상 현실 서비스에 대한 몰입도를 더욱 향상시킬 수 있다.The present technology discloses a sound source positioning system and method. According to a specific example of the present technology, the sound source for which the difference in arrival time of the original sound reaching the left and right ears is corrected is divided into frames, and the ILD is calculated based on the divided energy of each frame. By deriving the location of the sound source from the user's point of view as a result of learning the feature vector, the accuracy of determining the location of the sound source can be improved, and a sound source virtual sound service can be provided in three dimensions by adding a sense of direction, distance, and space of the sound source. In addition, as the sound source of the real environment is reflected in the virtual reality and provided to the user, the user can feel the same as the real environment, thereby providing a 3D virtual sound effect service, thereby further improving the immersion in the virtual reality service. I can.

Description

음원 위치 결정 시스템 및 방법{SYSTEM AND METHOD FOR DETERMINING LOCALIZATION OF SOUND SOURCE}Sound source positioning system and method {SYSTEM AND METHOD FOR DETERMINING LOCALIZATION OF SOUND SOURCE}

본 발명은 음원 위치 결정 시스템 및 방법에 관한 것으로서, 더욱 상세하게는 좌우 귀에 도달된 음원에 대해 좌우 귀의 도착시간 차가 동기된 음원의 프레임 별 ILD(Interaural Level Difference)와 크로스 상관 계수(CCF: Cross Correlation Coefficient)로 획득된 특징 벡터에 대한 학습 결과로 사용자 시점의 음원 위치를 결정함에 따라 사용자 시점의 음원 위치의 정확도를 향상시킬 수 있고, 이에 입체적인 3차원 가상 음향 효과 서비스를 제공할 수 있고 기술에 관한 것이다. The present invention relates to a sound source positioning system and method, and more particularly, to a sound source reaching the left and right ears, an interaural level difference (ILD) and a cross correlation coefficient (CCF) for each frame of a sound source in which the difference in arrival time of the left and right ears is synchronized. Coefficient), by determining the location of the sound source from the user's point of view as a result of learning about the feature vector, it is possible to improve the accuracy of the location of the sound source from the user's point of view, thereby providing a three-dimensional 3D virtual sound effect service. will be.

스마트폰 등의 기기 발달과 동시에 VR 기술(Virtual Reality: 이하 VR기술)에 대한 사회적 관심도가 높아지고 있다. VR 기술이란, 모의되는 개체에 대한 표현의 충실도를 높여 현실과 가상 체계의 차이를 극복할 수 있게 하는 기술로써 기존 기술이 갖고 있는 한계를 극복할 기술로 최근 주목 받는 기술 중 하나이다.Along with the development of devices such as smartphones, social interest in VR technology (Virtual Reality) is increasing. VR technology is a technology that can overcome the difference between reality and virtual systems by increasing the fidelity of expression for the simulated object, and is one of the technologies that have recently attracted attention as a technology that will overcome the limitations of existing technologies.

더욱이 최근에는 더욱 실감나는 VR 콘텐츠를 즐기기 위해 3차원 가상 음향 효과 기술(3-dimensional virtual sound effect technology)이 요구된다.Moreover, in recent years, in order to enjoy more realistic VR contents, 3-dimensional virtual sound effect technology is required.

이러한 3차원 가상 음향 효과를 즐기기 위해 제작된 콘텐츠의 오디오는 압축포맷을 이용하여 워크 대역폭 및 저장량을 줄여 클라이언트 장치로 전달된다. 널리 알려진 MPEG-4 오디오 BIFS 표준은 압축된 오디오로부터 3차원음을 합성하는 패러다임에 기초한다. 이는 디지털 음악, 3차원 게임, 가상 통신 회의(virtual teleconferencing) 및 가상현실 등의 넓은 범위의 응용에 적용될 수 있다.The audio of the content produced to enjoy the 3D virtual sound effect is delivered to the client device by reducing the work bandwidth and storage amount by using a compression format. The widely known MPEG-4 audio BIFS standard is based on a paradigm for synthesizing 3D sound from compressed audio. It can be applied to a wide range of applications such as digital music, 3D games, virtual teleconferencing, and virtual reality.

예를 들어, 도 1은 수신되는 원음을 보인 그래프이고, 도 2는 도 1의 원음으로부터 좌우 귀에 도달되는 도착시간 차를 보인 그래프로서, 도 1 및 도 2를 참조하면, 다자 간의 화상 통화 시 사용자가 정면을 중심으로 왼쪽으로 약 45도에서 원음이 수신되면, 왼쪽(좌)의 귀에 도달하는 시간보다 오른쪽(우) 귀에 도달하는 시간이 더 걸리는 것을 확인할 수 있다.For example, FIG. 1 is a graph showing the original sound received, and FIG. 2 is a graph showing the difference in arrival time reaching the left and right ears from the original sound of FIG. 1. Referring to FIGS. 1 and 2, a user during a multi-party video call When the original sound is received at about 45 degrees to the left centered on the front side, it can be seen that it takes longer to reach the right (right) ear than the time to reach the left (left) ear.

이에 이러한 도착시간 차로 인해 특정 시간에 도달한 에너지가 왼쪽보다 오른쪽이 더 커지는 현상이 발생되며, 이에 결정된 사용자 시점의 음원 위치가 오른쪽에 있다고 판단하는 오류가 발생하였다.Accordingly, due to the difference in arrival time, a phenomenon in which the energy reaching a specific time is greater on the right side than on the left side occurs, and an error of determining that the sound source position at the user's point of view is on the right side.

본 발명은 음원의 방향성, 거리감, 및 공간감을 부가하여 입체적으로 음원 가상 음향 서비스를 제공할 수 있고, 주변 노이즈와 원음을 고려하여 사용자 시점의 음원 위치 결정에 대한 정확도를 향상시킬 수 있는 음원 위치 결정 시스템 및 방법을 제공하고자 함에 그 목적이 있다. The present invention can provide a sound source virtual sound service in three dimensions by adding a sound source direction, a sense of distance, and a sense of space, and determine a sound source location that can improve the accuracy of determining the sound source location at a user's point of view in consideration of ambient noise and original sound. Its purpose is to provide a system and method.

본 발명에 의거 제공되는 입체 음향으로 인해 가상 현실 서비스에 대한 몰입도를 향상시킬 수 있는 음원 위치 결정 시스템 및 방법을 제공하고자 함에 그 목적이 있다. An object of the present invention is to provide a sound source positioning system and method capable of improving immersion in a virtual reality service due to the stereophonic sound provided according to the present invention.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 본 발명의 다른 목적 및 장점들은 하기의 설명에 의해서 이해될 수 있으며, 본 발명의 실시 예에 의해 보다 분명하게 알게 될 것이다. 또한, 본 발명의 목적 및 장점들은 특허청구 범위에 나타낸 수단 및 그 조합에 의해 실현될 수 있음을 쉽게 알 수 있을 것이다.The object of the present invention is not limited to the above-mentioned object, and other objects and advantages of the present invention that are not mentioned can be understood by the following description, and will be more clearly understood by the embodiments of the present invention. In addition, it will be easily understood that the objects and advantages of the present invention can be realized by the means shown in the claims and combinations thereof.

전술한 목적을 달성하기 위한 본 발명의 실시 예에 의한 음원 위치 결정 시스템은, A sound source positioning system according to an embodiment of the present invention for achieving the above object,

좌우 각각의 귀에 도달되는 원음의 도착 시간 차를 보정하여 동기화된 음원에 대해 크로스 상관(CC: Cross Correlation) 기법을 이용하여 도출된 프레임 별 에너지를 토대로 ILD(Interaural Level Difference)를 출력하는 ILD 도출부; 및An ILD derivation unit that outputs an ILD (Interaural Level Difference) based on the energy of each frame derived using a cross correlation (CC) technique for a synchronized sound source by correcting the difference in arrival time of the original sound reaching the left and right ears. ; And

동기화된 프레임 별 ILD와 크로스 상관 계수(CCF: Cross Correlation Cofficient)를 포함하는 특징 벡터에 대해 음원 방위각을 모델링하는 심층 신경망 구축부를 포함하는 것을 특징으로 하고, 바람직하게 상기 음원 위치 결정 시스템은, 입력된 음원에 대해 특징 벡터를 도출하고 도출된 특징 벡터에 대한 모델을 통해 학습 수행하여 음원 방위각을 도출하는 학습부; 및 도출된 음원 방위각으로 사용자 시점의 음원 위치를 결정하는 음원 위치 결정부를 더 포함하도록 구비될 수 있다. It characterized in that it comprises a deep neural network construction unit for modeling a sound source azimuth angle with respect to the feature vector including the ILD and the cross correlation coefficient (CCF: Cross Correlation Cofficient) for each synchronized frame, preferably, the sound source positioning system, the input A learning unit for deriving a feature vector for a sound source and performing learning through a model for the derived feature vector to derive a sound source azimuth; And a sound source position determining unit configured to determine a sound source position at the user's point of view based on the derived sound source azimuth angle.

바람직하게 상기 ILD 보정부는, 도달되는 원음

Figure 112018123396108-pat00001
에 대해 좌우 귀에 도달되는 음원 신호
Figure 112018123396108-pat00002
,
Figure 112018123396108-pat00003
를 도출하는 음원 도출모듈; 좌 우 귀에 도달되는 음원 신호
Figure 112018123396108-pat00004
,
Figure 112018123396108-pat00005
에 대해 기 설정된 시간 주기(프레임 단위)로 분할하여 프레임 음원
Figure 112018123396108-pat00006
을 도출하는 프레임 음원 도출모듈; 상기 프레임 음원에 대해 좌우 귀에 도달하는 도착시간 차를 크로스 상관을 이용하여 도출하는 도착시간 차 도출모듈; 상기 도착시간 차를 보정하여 동기화된 좌우 음원에 대한 각 프레임별 에너지
Figure 112018123396108-pat00007
를 도출하는 프레임 에너지 도출모듈; 및 상기 각 프레임 별 에너지와 ILD 간의 관계식으로부터 각 프레임 별 ILD를 연산하는 ILD 연산모듈을 포함할 수 있다. Preferably the ILD correction unit, the original sound to be reached
Figure 112018123396108-pat00001
The sound source signal reaching the left and right ears for
Figure 112018123396108-pat00002
,
Figure 112018123396108-pat00003
A sound source derivation module for deriving a sound source; Sound source signal reaching left and right ears
Figure 112018123396108-pat00004
,
Figure 112018123396108-pat00005
Frame sound source by dividing it into a preset time period (frame unit) for
Figure 112018123396108-pat00006
A frame sound source derivation module that derives; An arrival time difference derivation module for deriving an arrival time difference reaching the left and right ears with respect to the frame sound source using cross correlation; Energy of each frame for the synchronized left and right sound sources by correcting the difference in arrival time
Figure 112018123396108-pat00007
A frame energy derivation module for deriving a; And an ILD calculation module that calculates the ILD for each frame from the relationship between the energy and the ILD for each frame.

바람직하게 상기 심층 신경망 구축부는,Preferably the deep neural network building unit,

수신된 프레임 별 음원에 대한 특징 벡터를 도출하고, 도출된 특징 벡터를 심층 신경망(DNN: Deep Neural Network)에 입력하여 도출된 특징 벡터에 대한 음원 방위각의 모델을 구축하도록 구비될 수 있다.It may be provided to derive a feature vector for a sound source for each received frame, and input the derived feature vector to a deep neural network (DNN) to construct a sound source azimuth model for the derived feature vector.

바람직하게 상기 특징 벡터는 크로스 상관 계수를 정규화한 다음 정규화된 다수의 크로스 상관 계수 CCF와 각 프레임 별 ILD를 포함할 수 있다.Preferably, the feature vector may include a plurality of normalized cross-correlation coefficients CCFs and ILDs for each frame after normalizing the cross-correlation coefficients.

본 발명의 다른 실시 예에 따른 음원 위치 결정 방법은, A method of determining a location of a sound source according to another embodiment of the present invention,

좌우 각각의 귀에 도달되는 원음의 도착 시간 차를 보정하여 동기화된 음원에 대해 크로스 상관(CC: Cross Correlation) 기법을 이용하여 도출된 프레임 별 에너지를 토대로 ILD(Interaural Level Difference)를 출력하는 ILD 도출단계; 동기화된 프레임 별 ILD와 크로스 상관 계수(CCF: Cross Correlation Cofficient)를 포함하는 특징 벡터에 대해 음원 방위각을 모델링하는 심층 신경망 구축단계; 입력된 음원에 대해 특징 벡터를 도출하고 도출된 특징 벡터에 대한 모델을 통해 학습 수행하여 음원 방위각을 도출하는 학습단계; 및 도출된 음원 방위각으로 사용자 시점의 음원 위치를 결정하는 음원 위치 결정단계를 포함하는 것을 특징으로 한다.ILD derivation step of outputting ILD (Interaural Level Difference) based on the energy of each frame derived using the Cross Correlation (CC) technique for the synchronized sound source by correcting the difference in arrival time of the original sound reaching the left and right ears ; A deep neural network construction step of modeling a sound source azimuth angle for a feature vector including ILD for each synchronized frame and a cross correlation coefficient (CCF); A learning step of deriving a feature vector for an input sound source and performing learning through a model for the derived feature vector to derive a sound source azimuth angle; And a sound source position determining step of determining a sound source position at a user's point of view based on the derived sound source azimuth.

바람직하게 상기 ILD 도출단계는, 도달되는 원음

Figure 112018123396108-pat00008
에 대해 좌우 귀에 도달되는 음원 신호
Figure 112018123396108-pat00009
,
Figure 112018123396108-pat00010
를 도출하는 단계; 좌 우 귀에 도달되는 음원 신호
Figure 112018123396108-pat00011
,
Figure 112018123396108-pat00012
에 대해 기 설정된 시간 주기(프레임 단위)로 분할하여 프레임 음원
Figure 112018123396108-pat00013
을 도출하는 단계; 상기 프레임 음원에 대해 좌우 귀에 도달하는 도착시간 차를 크로스 상관 기법을 이용하여 도출하는 단계; 상기 도착시간 차를 보정하여 동기화된 좌우 음원에 대한 각 프레임별 에너지
Figure 112018123396108-pat00014
를 도출하는 단계; 및 상기 각 프레임 별 에너지와 ILD 간의 관계식으로부터 각 프레임 별 ILD를 연산하는 단계를 포함할 수 있다. Preferably, the ILD derivation step is the original sound to be reached
Figure 112018123396108-pat00008
The sound source signal reaching the left and right ears for
Figure 112018123396108-pat00009
,
Figure 112018123396108-pat00010
Deriving; Sound source signal reaching left and right ears
Figure 112018123396108-pat00011
,
Figure 112018123396108-pat00012
Frame sound source by dividing it into a preset time period (frame unit) for
Figure 112018123396108-pat00013
Deriving; Deriving a difference in arrival time reaching the left and right ears with respect to the frame sound source using a cross correlation technique; Energy of each frame for the synchronized left and right sound sources by correcting the difference in arrival time
Figure 112018123396108-pat00014
Deriving; And calculating the ILD for each frame from the relationship between the energy for each frame and the ILD.

본 발명에 따르면 좌우 귀에 도달하는 원음의 도착시간 차가 보정된 음원을 프레임 단위로 분할하고 분할된 각 프레임 별 에너지를 토대로 ILD를 연산하며 연산된 ILD 및 소정 수의 크로스 상관 계수 CCF의 특징 벡터에 대한 학습 수행 결과로 사용자 시점의 음원 위치를 도출함에 따라, 음원 위치 결정의 정확도를 향상시킬 수 있고, 이에 음원의 방향성, 거리감, 및 공간감을 부가하여 입체적으로 음원 가상 음향 서비스를 제공할 수 있다. According to the present invention, the sound source for which the difference in arrival time of the original sound reaching the left and right ears is corrected is divided into frames, the ILD is calculated based on the divided energy of each frame, and the calculated ILD and the feature vector of a predetermined number of cross-correlation coefficients CCF are By deriving the location of the sound source at the user's point of view as a result of learning, the accuracy of determining the location of the sound source can be improved, and a sound source virtual sound service can be provided in three dimensions by adding the direction, distance, and sense of space of the sound source.

이에 본 발명에 의거 실제 환경의 음원을 가상 현실에 반영하여 사용자에게 제공됨에 따라 실제 환경과 동일하게 느낄 수 있어 3차원 가상 음향 효과 서비스를 제공할 수 있고 이에 따라 가상 현실 서비스에 대한 몰입도를 더욱 향상시킬 수 있는 이점을 가진다.Accordingly, as the sound source of the real environment is reflected in the virtual reality and provided to the user according to the present invention, it is possible to feel the same as the real environment, thereby providing a 3D virtual sound effect service, thereby further enhancing the degree of immersion in the virtual reality service. It has an advantage that can be improved.

본 명세서에서 첨부되는 다음의 도면들은 본 발명의 바람직한 실시 예를 예시하는 것이며, 후술하는 발명의 상세한 설명과 함께 본 발명의 기술사상을 더욱 이해시키는 역할을 하는 것이므로, 본 발명은 그러한 도면에 기재된 사항에만 한정되어 해석되어서는 아니된다.
도 1은 일반적인 음원을 보인 예시도이다.
도 2는 일반적인 음원으로 발생되는 도착시간 차를 보인 예시도이다.
도 3은 본 실시 예의 위치 결정 시스템의 구성을 보인 도이다.
도 4는 본 실시 예의 시스템의 ILD 도출부의 세부 구성도이다.
The following drawings attached in the present specification illustrate preferred embodiments of the present invention, and serve to further understand the technical idea of the present invention together with the detailed description of the present invention to be described later, so the present invention is described in such drawings. It is limited to and should not be interpreted.
1 is an exemplary diagram showing a general sound source.
2 is an exemplary diagram showing a difference in arrival time generated by a general sound source.
3 is a diagram showing the configuration of a positioning system according to the present embodiment.
4 is a detailed configuration diagram of an ILD derivation unit of the system according to the present embodiment.

이하에서는 도면을 참조하여 본 발명의 실시예들을 보다 상세하게 설명한다.Hereinafter, embodiments of the present invention will be described in more detail with reference to the drawings.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.Advantages and features of the present invention, and a method of achieving them will be apparent with reference to the embodiments described later together with the accompanying drawings. However, the present invention is not limited to the embodiments disclosed below, but may be implemented in a variety of different forms, and only these embodiments make the disclosure of the present invention complete, and common knowledge in the technical field to which the present invention pertains. It is provided to completely inform the scope of the invention to those who have, and the invention is only defined by the scope of the claims.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.The terms used in the present specification will be briefly described, and the present invention will be described in detail.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.Terms used in the present invention have selected general terms that are currently widely used as possible while taking functions of the present invention into consideration, but this may vary according to the intention or precedent of a technician working in the field, the emergence of new technologies, and the like. In addition, in certain cases, there are terms arbitrarily selected by the applicant, and in this case, the meaning of the terms will be described in detail in the description of the corresponding invention. Therefore, the terms used in the present invention should be defined based on the meaning of the term and the overall contents of the present invention, not a simple name of the term.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.When a part of the specification is said to "include" a certain component, it means that other components may be further included rather than excluding other components unless specifically stated to the contrary. In addition, the term "unit" used in the specification refers to a hardware component such as software, FPGA, or ASIC, and "unit" performs certain roles. However, "unit" is not meant to be limited to software or hardware. The “unit” may be configured to be in an addressable storage medium or may be configured to reproduce one or more processors.

따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.Thus, as an example, "unit" refers to components such as software components, object-oriented software components, class components, and task components, processes, functions, properties, procedures, Includes subroutines, segments of program code, drivers, firmware, microcode, circuitry, data, database, data structures, tables, arrays and variables. The functions provided within the components and "units" may be combined into a smaller number of components and "units" or may be further separated into additional components and "units".

아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those of ordinary skill in the art may easily implement the present invention. In the drawings, parts not related to the description are omitted in order to clearly describe the present invention.

본 발명의 실시 예가 적용되는 시스템은 각각의 구성요소에 대해 임의 개를 임의의 적절한 구성으로 포함할 수도 있다. 일반적으로, 컴퓨팅 및 통신 시스템들은 광범위한 구성들로 나타나며, 도면은 본 개시의 범위를 어떤 특정 구성으로 한정하지 않는다. 도면은 본 특허 문서에서 개시된 다양한 특성들이 사용될 수 있는 하나의 동작 환경을 도시하고 있지만, 그러한 특성들은 어떤 다른 적절한 시스템에서 사용될 수도 있다.A system to which an embodiment of the present invention is applied may include any number of components for each component in any appropriate configuration. In general, computing and communication systems appear in a wide variety of configurations, and the drawings do not limit the scope of the present disclosure to any particular configuration. Although the figure shows one operating environment in which the various features disclosed in this patent document may be used, such features may be used in any other suitable system.

이에 본 실시 예는 좌우 귀에 도달하는 원음의 도착시간 차가 보정된 음원을 프레임 단위로 분할하고 분할된 각 프레임 별 에너지를 토대로 ILD를 연산하며 연산된 ILD 및 소정 수의 크로스 상관 계수 CCF의 특징 벡터에 대한 학습 수행 결과로 사용자 시점의 음원 위치를 도출함에 따라, 음원 위치 결정의 정확도를 향상시킬 수 있고, 이에 음원의 방향성, 거리감, 및 공간감을 부가하여 입체적으로 음원 가상 음향 서비스를 제공할 수 있다.Accordingly, in this embodiment, the sound source for which the difference in arrival time of the original sound reaching the left and right ears is corrected is divided into frames, the ILD is calculated based on the divided energy for each frame, and the calculated ILD and the feature vector of a predetermined number of cross correlation coefficients CCF are used. By deriving the location of the sound source at the user's point of view as a result of learning about the sound source, the accuracy of determining the location of the sound source can be improved, and a sound source virtual sound service can be provided in three dimensions by adding the direction, distance, and sense of space of the sound source.

도 3은 본 실시 예의 콘텐츠의 음원 위치 결정 장치의 구성을 보인 도면이고 도 4는 도 3에 도시된 콘텐츠의 음원 위치 결정 장치의 ILD 보정부(100)의 세부적인 구성을 보인 도이며, 도 1 및 도 2를 참조하면, 음원 위치 결정 장치는, ILD 보정부(100), 심층 신경망 구축부(200), 학습부(300), 및 음원 위치 결정부(400)를 포함할 수 있다.3 is a diagram showing a configuration of a device for positioning a sound source of a content according to the present embodiment, and FIG. 4 is a diagram showing a detailed configuration of an ILD correction unit 100 of the device for determining a sound source of a content shown in FIG. 3, and FIG. 1 And referring to FIG. 2, the sound source location determination apparatus may include an ILD correction unit 100, a deep neural network construction unit 200, a learning unit 300, and a sound source location determination unit 400.

여기서, ILD 보정부(100)는 좌우 귀로 도달되는 음원의 레벨 차(ILD: Interaural Level Difference)를 보정하여 동기화된 음원을 도출하고 좌우 귀 간의 음원 레벨 차가 보정된 동기화된 음원

Figure 112018123396108-pat00015
,
Figure 112018123396108-pat00016
은 심층 신경망 구축부(200)로 전달된다.Here, the ILD correction unit 100 derives a synchronized sound source by correcting an interaural level difference (ILD) of sound sources reaching the left and right ears, and a synchronized sound source in which the sound source level difference between the left and right ears is corrected.
Figure 112018123396108-pat00015
,
Figure 112018123396108-pat00016
Is transmitted to the deep neural network building unit 200.

도 4를 참조하면, ILD 보정부(100)는, 음원 도출모듈(110), 프레임 음원 도출모듈(120), 도착시간 차 도출모듈(130), 프레임 에너지 도출모듈(140), 및 ILD 연산모듈(150)를 포함할 수 있다.Referring to FIG. 4, the ILD correction unit 100 includes a sound source derivation module 110, a frame sound source derivation module 120, an arrival time difference derivation module 130, a frame energy derivation module 140, and an ILD calculation module. 150 may be included.

여기서 음원 도출모듈(110)는 귀에 도달되는 원음

Figure 112018123396108-pat00017
에 대해 좌 우 귀에 도달되는 음원 신호
Figure 112018123396108-pat00018
,
Figure 112018123396108-pat00019
를 도출한다. 여기서,
Figure 112018123396108-pat00020
는 임의의 양의 정수이다.Here, the sound source derivation module 110 is the original sound reaching the ear
Figure 112018123396108-pat00017
The sound source signal reaching the left and right ears for
Figure 112018123396108-pat00018
,
Figure 112018123396108-pat00019
To derive. here,
Figure 112018123396108-pat00020
Is any positive integer.

그리고 프레임 음원 도출모듈(120)은 좌 우 귀에 도달되는 음원 신호

Figure 112018123396108-pat00021
,
Figure 112018123396108-pat00022
에 대해 기 설정된 시간 주기(프레임 단위)로 분할하여 프레임 음원
Figure 112018123396108-pat00023
을 도출한다.And the frame sound source derivation module 120 is a sound source signal reaching the left and right ears
Figure 112018123396108-pat00021
,
Figure 112018123396108-pat00022
Frame sound source by dividing it into a preset time period (frame unit) for
Figure 112018123396108-pat00023
To derive.

그리고, 도출된 프레임 음원

Figure 112018123396108-pat00024
는 도착시간 차 도출모듈(130)로 전달되며, 도착시간 차 도출모듈(130)은 수신된 프레임 음원
Figure 112018123396108-pat00025
에 대해 크로스 상관 기법(Cross correlation)을 기반으로 좌우 귀에 도착시간 차를 도출하고 도출된 도착시간 차는 프레임 에너지 도출모듈(140)로 제공된다.And, the derived frame sound source
Figure 112018123396108-pat00024
Is transmitted to the arrival time difference derivation module 130, and the arrival time difference derivation module 130 is the received frame sound source
Figure 112018123396108-pat00025
The difference in arrival time is derived from the left and right ears based on a cross correlation technique, and the derived difference in arrival time is provided to the frame energy derivation module 140.

이에 프레임 에너지 도출모듈(140)은 제공받은 도착시간 차를 보정하여 동기화된 좌우 음원에 대한 각 프레임별 에너지

Figure 112018123396108-pat00026
를 도출하고 도출된 프레임 에너지
Figure 112018123396108-pat00027
는 ILD 연산모듈(150)로 제공된다.Accordingly, the frame energy derivation module 140 corrects the received difference in arrival time to provide energy for each frame for the synchronized left and right sound sources.
Figure 112018123396108-pat00026
And derived frame energy
Figure 112018123396108-pat00027
Is provided to the ILD calculation module 150.

ILD 연산모듈(150)은 프레임 별 에너지

Figure 112018123396108-pat00028
과 좌우 귀의 레벨 차(ILD) 간에 기 정해진 관계식으로부터 각 프레임 별 ILD(Interaural Level Difference)를 연산하며, 관계식은 다음 수학식 1을 만족한다.ILD calculation module 150 is the energy per frame
Figure 112018123396108-pat00028
The interaural level difference (ILD) for each frame is calculated from a predetermined relationship between the and the left and right ear level difference (ILD), and the relationship satisfies the following equation (1).

[수학식 1][Equation 1]

Figure 112018123396108-pat00029
Figure 112018123396108-pat00029

그리고 ILD 는 심층 신경망 구축부(200)로 전달된다.And the ILD is transmitted to the deep neural network construction unit 200.

상기 심층 신경망 구축부(200)는 크로스 상관 계수(CCF: Cross correlation Cofficient)와 ILD 를 토대로 프레임 별 특징 벡터를 도출하고 도출된 특징 벡터를 입력으로 특징 벡터를 가지는 음원 방위각을 출력하는 모델을 구축한다.The deep neural network construction unit 200 derives a feature vector for each frame based on a cross correlation coefficient (CCF) and an ILD, and builds a model for outputting a sound source azimuth angle having the feature vector as an input of the derived feature vector. .

한편 학습부(300)는 수신되는 음원

Figure 112018123396108-pat00030
에 대해 특징 벡터를 도출하고 도출된 특징 벡터에 대해 심층 신경망 구축부(200)의 모델을 통해 학습을 수행하고, 학습 수행 결과에 따른 음원 방위각을 제공받아 음원 위치 결정부(400)로 전달한다.Meanwhile, the learning unit 300 is a received sound source
Figure 112018123396108-pat00030
A feature vector is derived for, and learning is performed on the derived feature vector through a model of the deep neural network construction unit 200, and a sound source azimuth angle according to the result of the learning is provided and transmitted to the sound source position determining unit 400.

음원 위치 결정부(400)는 음원 방위각으로 수신된 사용자 시점의 음원 위치를 결정하고 결정된 사용자 시점의 음원 위치로 수신된 음원을 전송한다.The sound source position determining unit 400 determines the sound source position at the user's point of view received at the sound source azimuth and transmits the received sound source to the determined sound source position at the user's point of view.

이에 본 실시 예에 의거 좌우 귀에 도달하는 원음의 도착시간 차가 보정된 음원을 프레임 단위로 분할하고 분할된 각 프레임 별 에너지를 토대로 ILD를 연산하며 연산된 ILD 및 소정 수의 크로스 상관 계수 CCF의 특징 벡터에 대한 학습 수행 결과로 사용자 시점의 음원 위치를 도출함에 따라, 음원 위치 결정의 정확도를 향상시킬 수 있고, 이에 음원의 방향성, 거리감, 및 공간감을 부가하여 입체적으로 음원 가상 음향 서비스를 제공할 수 있다.Accordingly, according to this embodiment, the sound source for which the difference in arrival time of the original sound reaching the left and right ears is corrected is divided into frames, and the ILD is calculated based on the divided energy for each frame, and the calculated ILD and the feature vector of a predetermined number of cross correlation coefficients CCF By deriving the location of the sound source at the user's point of view as a result of learning about, it is possible to improve the accuracy of determining the location of the sound source, and add a sense of direction, distance, and space of the sound source to provide a sound source virtual sound service in three dimensions. .

이에 실제 환경의 음원을 가상 현실에 반영하여 사용자에게 제공됨에 따라 실제 환경과 동일하게 느낄 수 있어 3차원 가상 음향 효과 서비스를 제공할 수 있고 이에 따라 가상 현실 서비스에 대한 몰입도를 더욱 향상시킬 수 있다.Accordingly, as the sound source of the real environment is reflected in the virtual reality and provided to the user, the user can feel the same as the real environment, thereby providing a 3D virtual sound effect service, thereby further improving the immersion in the virtual reality service. .

본 실시 예에서 학습부(300)의 학습 결과는 심층 신경망 구축부(200)로 전달되어 모델로 업데이트될 수 있고, 본 실시 형태에서 학습부(300)는 시스템 내에 별도의 장치로 구비되는 경우를 일례로 설명하고 있으나, ILD 도출부(100) 및 심층 신경망 구축부(200)에 통합하여 구비될 수 있으며, 이들 구성 중의 하나 또는 복수의 구성이 다른 부재나 관리 장치 의해 실행되어도 되고 하나의 장치로서 통합 구성될 수 있다.In this embodiment, the learning result of the learning unit 300 may be transmitted to the deep neural network building unit 200 and updated as a model. In this embodiment, the learning unit 300 is provided as a separate device in the system. Although described as an example, it may be integrated and provided in the ILD derivation unit 100 and the deep neural network construction unit 200, and one or more of these configurations may be executed by other members or management devices, or as a single device. Can be integrated.

실시 예Example

각각의 귀에 도달하는 신호

Figure 112018123396108-pat00031
Figure 112018123396108-pat00032
에 대해 크로스 상관도가 1.0이 되도록 정규화된 크로스 33개의 상관 계수 CCF 와 한 개의 ILD를 포함하는 특징 벡터가 심층 신경망의 입력 노드로 제공되고 심층 신경망의 출력 노드는 360도 평면에서 5도의 균일한 방위각으로 추출된다. Signal reaching each ear
Figure 112018123396108-pat00031
Wow
Figure 112018123396108-pat00032
A feature vector containing 33 cross correlation coefficients CCF and one ILD normalized to have a cross correlation of 1.0 is provided as the input node of the deep neural network, and the output node of the deep neural network is a uniform azimuth angle of 5 degrees in the 360 degree plane. Is extracted.

이에 본 실시 예에 의거 노이즈가 없는 환경에서 프레임 음원 및 문장 음원 별로 도출된 위치 결정 정확도는 하기 표 1에 도시된 바와 같고, 노이즈가 존재하는 환경에서 각 신호대 노이즈 비(SNR: Signal noise ratio)에 대응되어 도출된 각 프레임 별 위치 결정 정확도는 하기 표 2에 도시된 바와 같다.Accordingly, the positioning accuracy derived for each frame sound source and sentence sound source in an environment without noise according to the present embodiment is as shown in Table 1 below, and is based on the signal-to-noise ratio (SNR) in the environment where noise is present. The corresponding and derived position determination accuracy for each frame is shown in Table 2 below.

표 1를 참조하면, 노이즈가 없는 환경에서 좌우 귀에 도달되는 원음의 도착시간 차를 보정하여 좌우 동기화된 음원으로 사용자 시점의 음원 위치를 결정하는 제안 방식(Proposed)이 원음으로 사용자 시점의 음원 위치를 결정하는 기존 방식(Conventional) 보다 프레임 음원 및 문장 음원 별 음원 위치 결정의 정확도가 향상됨을 알 수 있다.Referring to Table 1, the proposed method of determining the location of the sound source at the user's point of view with the left and right synchronized sound source by correcting the difference in arrival time of the original sound reaching the left and right ears in a noise-free environment is the original sound. It can be seen that the accuracy of sound source positioning for each frame sound source and sentence sound source is improved compared to the conventional method of determining (Conventional).

표 2를 참조하면, 사이렌, 자동차 경적음 등의 노이즈로 인해 신호대 잡음 비 SNR이 각각 0dB, 10dB, 및 20dB 일 때 0dBl를 제외한 나머지 신호대 잡음 비에서 제안 방식이 기존 방식 보다 음원 위치 결정에 대한 정확도가 향상됨을 확인할 수 있다. 이러한 결과는 신호대잡음비(SNR)이 0dB 인 경우, 노이즈의 비율이 높아 무거운 노이즈 환경에서 각각의 귀에 도달하는 도착시간 차를 도출하기 어려운 것으로 판단된다. Referring to Table 2, when the signal-to-noise ratio SNR is 0dB, 10dB, and 20dB, respectively, due to noise such as sirens and car horns, the proposed method is more accurate in determining the location of the sound source than the existing method in the remaining signal-to-noise ratios excluding 0dBl. It can be seen that it is improved. As a result of this, when the signal-to-noise ratio (SNR) is 0dB, it is judged that it is difficult to derive the difference in arrival time reaching each ear in a heavy noise environment due to a high noise ratio.

[표 1][Table 1]

Figure 112018123396108-pat00033
Figure 112018123396108-pat00033

[표 2][Table 2]

Figure 112018123396108-pat00034
Figure 112018123396108-pat00034

본 발명의 다른 실시 예에 의한 음원 위치 결정 방법은, 좌우 각각의 귀에 도달되는 원음의 도착 시간 차를 보정하여 동기화된 음원에 대해 크로스 상관(CC: Cross Correlation) 기법을 이용하여 도출된 프레임 별 에너지를 토대로 ILD(Interaural Level Difference)를 출력하는 ILD 도출단계; 동기화된 프레임 별 ILD와 크로스 상관 계수(CCF: Cross Correlation Cofficient)를 포함하는 특징 벡터에 대해 음원 방위각을 모델링하는 심층 신경망 구축단계; 입력된 음원에 대해 특징 벡터를 도출하고 도출된 특징 벡터에 대한 모델을 통해 학습 수행하여 음원 방위각을 도출하는 학습단계; 및 도출된 음원 방위각으로 사용자 시점의 음원 위치를 결정하는 음원 위치 결정단계를 포함하고, 여기서, 상기 ILD 도출단계는, 좌우 귀에 도달되는 음원 신호

Figure 112018123396108-pat00035
,
Figure 112018123396108-pat00036
를 도출하는 단계; 좌 우 귀에 도달되는 음원 신호
Figure 112018123396108-pat00037
,
Figure 112018123396108-pat00038
에 대해 기 설정된 시간 주기(프레임 단위)로 분할하여 프레임 음원
Figure 112018123396108-pat00039
을 도출하는 단계; 상기 도착시간 차를 보정하여 동기화된 좌우 음원에 대한 각 프레임별 에너지
Figure 112018123396108-pat00040
를 도출하는 단계; 및 상기 각 프레임 별 에너지와 ILD 간의 관계식으로부터 각 프레임 별 ILD를 연산하는 단계를 포함할 수 있다. 상기의 음원 위치 결정 방법의 각 단계는 전술한 ILD 도출부(100), 심층 신경망 구축부(200), 학습부(300), 및 음원 위치 결정부(400)에서 수행되는 기능으로 자세한 원용은 생략한다.In another embodiment of the present invention, the method for determining the location of a sound source is the energy of each frame derived using a cross correlation (CC) technique for a synchronized sound source by correcting the difference in arrival time of the original sound reaching the left and right ears. ILD derivation step of outputting an ILD (Interaural Level Difference) based on the; A deep neural network construction step of modeling a sound source azimuth angle for a feature vector including ILD for each synchronized frame and a cross correlation coefficient (CCF); A learning step of deriving a feature vector for an input sound source and performing learning through a model for the derived feature vector to derive a sound source azimuth angle; And a sound source position determining step of determining a sound source position at the user's point of view with the derived sound source azimuth, wherein the ILD derivation step includes sound source signals reaching the left and right ears
Figure 112018123396108-pat00035
,
Figure 112018123396108-pat00036
Deriving; Sound source signal reaching left and right ears
Figure 112018123396108-pat00037
,
Figure 112018123396108-pat00038
Frame sound source by dividing it into a preset time period (frame unit) for
Figure 112018123396108-pat00039
Deriving; Energy of each frame for the synchronized left and right sound sources by correcting the difference in arrival time
Figure 112018123396108-pat00040
Deriving; And calculating the ILD for each frame from the relationship between the energy for each frame and the ILD. Each step of the method for determining the location of the sound source is a function performed by the ILD deriving unit 100, the deep neural network building unit 200, the learning unit 300, and the sound source positioning unit 400, and detailed sources are omitted. do.

본 실시 예에 의거 좌우 귀에 도달하는 원음의 도착시간 차가 보정된 음원을 프레임 단위로 분할하고 분할된 각 프레임 별 에너지를 토대로 ILD를 연산하며 연산된 ILD 및 소정 수의 크로스 상관 계수 CCF의 특징 벡터에 대한 학습 수행 결과로 사용자 시점의 음원 위치를 도출함에 따라, 음원 위치 결정의 정확도를 향상시킬 수 있고, 이에 음원의 방향성, 거리감, 및 공간감을 부가하여 입체적으로 음원 가상 음향 서비스를 제공할 수 있다.According to this embodiment, the sound source for which the difference in arrival time of the original sound reaching the left and right ears is corrected is divided into frames, and the ILD is calculated based on the divided energy of each frame, and the calculated ILD and the feature vector of a predetermined number of cross correlation coefficients CCF are used. By deriving the location of the sound source at the user's point of view as a result of learning about the sound source, the accuracy of determining the location of the sound source can be improved, and a sound source virtual sound service can be provided in three dimensions by adding the direction, distance, and sense of space of the sound source.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.As described above, although the embodiments have been described by the limited embodiments and drawings, various modifications and variations are possible from the above description to those of ordinary skill in the art. For example, the described techniques are performed in a different order from the described method, and/or components such as systems, structures, devices, circuits, etc. described are combined or combined in a form different from the described method, or other components Alternatively, even if substituted or substituted by an equivalent, an appropriate result can be achieved. Therefore, the scope of the present invention is limited to the described embodiments and should not be defined, but should be defined by the claims to be described later as well as those equivalent to the claims.

본 실시 예에 의거 좌우 귀에 도달하는 원음의 도착시간 차가 보정된 음원을 프레임 단위로 분할하고 분할된 각 프레임 별 에너지를 토대로 ILD를 연산하며 연산된 ILD 및 소정 수의 크로스 상관 계수 CCF의 특징 벡터에 대한 학습 수행 결과로 사용자 시점의 음원 위치를 도출함에 따라, 음원 위치 결정의 정확도를 향상시킬 수 있고, 이에 음원의 방향성, 거리감, 및 공간감을 부가하여 입체적으로 음원 가상 음향 서비스를 제공할 수 있는 음원 위치 결정 시스템 및 방법에 대한 운용의 정확성 및 신뢰도 측면, 더 나아가 성능 효율 면에 매우 큰 진보를 가져올 수 있으며, 가상 현실 서비스를 제공하는 시스템의 시판 또는 영업의 가능성이 충분할 뿐만 아니라 현실적으로 명백하게 실시할 수 있는 정도이므로 산업상 이용가능성이 있는 발명이다.According to this embodiment, the sound source for which the difference in arrival time of the original sound reaching the left and right ears is corrected is divided into frames, and the ILD is calculated based on the divided energy of each frame, and the calculated ILD and the feature vector of a predetermined number of cross correlation coefficients CCF are used. By deriving the location of the sound source from the user's point of view as a result of learning about the sound source, the accuracy of the sound source location determination can be improved, and a sound source that can provide a sound source virtual sound service in three dimensions by adding the direction, distance, and spatial sense of the sound source. The accuracy and reliability of the operation of the positioning system and method, and furthermore, can bring a great progress in terms of performance efficiency, and the possibility of marketing or sales of a system providing virtual reality service is sufficient, and it can be implemented clearly in reality. It is an invention that has industrial applicability because it is present.

Claims (6)

좌우 각각의 귀에 도달되는 원음의 도착 시간 차를 보정하여 동기화된 음원에 대해 크로스 상관(CC: Cross Correlation) 기법을 이용하여 도출된 프레임 별 에너지를 토대로 ILD(Interaural Level Difference)를 출력하는 ILD 도출부; 및
동기화된 프레임 별 ILD와 크로스 상관 계수(CCF: Cross Correlation Cofficient)를 포함하는 특징 벡터에 대해 음원 방위각을 모델링하는 심층 신경망 구축부를 포함하고,
상기 ILD 도출부는,
좌우 각각의 귀에 도달하는 음위의 도착 시간을 보정한 음원을 프레임 단위로 분할하고 분할된 각 프레임 별 에너지 El, Er를 토대로 ILD를 연산하도록 구비하며,
상기 ILD는 다음 식을 만족하는 것을 특징으로 하는 음원 위치 결정 시스템.
[식 1]
Figure 112020104952692-pat00059
An ILD derivation unit that outputs an ILD (Interaural Level Difference) based on the energy of each frame derived using a cross correlation (CC) technique for a synchronized sound source by correcting the difference in arrival time of the original sound reaching the left and right ears. ; And
Including a deep neural network construction unit for modeling a sound source azimuth angle for a feature vector including ILD for each synchronized frame and a cross correlation coefficient (CCF),
The ILD derivation unit,
The sound source corrected for the arrival time of the sound level reaching the left and right ears is divided into frames, and the ILD is calculated based on the divided energies E l and E r for each frame.
The ILD is a sound source positioning system, characterized in that satisfies the following equation.
[Equation 1]
Figure 112020104952692-pat00059
제1항에 있어서, 상기 음원 위치 결정 시스템은,
입력된 음원에 대해 특징 벡터를 도출하고 도출된 특징 벡터에 대한 모델을 통해 학습 수행하여 음원 방위각을 도출하는 학습부; 및
도출된 음원 방위각으로 사용자 시점의 음원 위치를 결정하는 음원 위치 결정부를 더 포함하는 것을 특징으로 하는 음원 위치 결정 시스템.
The method of claim 1, wherein the sound source positioning system,
A learning unit for deriving a feature vector for the input sound source and performing learning through a model for the derived feature vector to derive a sound source azimuth angle; And
A sound source positioning system, further comprising a sound source positioning unit that determines a sound source position at a user's point of view based on the derived sound source azimuth.
제1항에 있어서, 상기 ILD 도출부는,
도달되는 원음
Figure 112020104952692-pat00041
에 대해 좌우 귀에 도달되는 음원 신호
Figure 112020104952692-pat00042
,
Figure 112020104952692-pat00043
를 도출하는 음원 도출모듈;
좌 우 귀에 도달되는 음원 신호
Figure 112020104952692-pat00044
,
Figure 112020104952692-pat00045
에 대해 기 설정된 시간 주기(프레임 단위)로 분할하여 프레임 음원
Figure 112020104952692-pat00046
을 도출하는 프레임 음원 도출모듈;
상기 프레임 음원에 대해 좌우 귀에 도달하는 도착시간 차를 크로스 상관을 이용하여 도출하는 도착시간 차 도출모듈;
상기 도착시간 차를 보정하여 동기화된 좌우 음원에 대한 각 프레임 별 에너지
Figure 112020104952692-pat00047
를 도출하는 프레임 에너지 도출모듈; 및
상기 각 프레임 별 에너지와 ILD 간의 관계식으로부터 각 프레임 별 ILD를 연산하는 ILD 연산모듈을 포함하는 것을 특징으로 하는 음원 위치 결정 시스템.
The method of claim 1, wherein the ILD derivation unit,
Original sound reached
Figure 112020104952692-pat00041
The sound source signal reaching the left and right ears for
Figure 112020104952692-pat00042
,
Figure 112020104952692-pat00043
A sound source derivation module for deriving a sound source;
Sound source signal reaching left and right ears
Figure 112020104952692-pat00044
,
Figure 112020104952692-pat00045
Frame sound source by dividing it into a preset time period (frame unit) for
Figure 112020104952692-pat00046
A frame sound source derivation module that derives;
An arrival time difference derivation module for deriving an arrival time difference reaching the left and right ears with respect to the frame sound source using cross correlation;
Energy of each frame for the synchronized left and right sound sources by correcting the difference in arrival time
Figure 112020104952692-pat00047
A frame energy derivation module for deriving a; And
And an ILD calculation module that calculates an ILD for each frame from a relational expression between the energy for each frame and the ILD.
제3항에 있어서, 상기 심층 신경망 구축부는,
수신된 크로스 상관 계수를 정규화한 다음 정규화된 다수의 크로스 상관 계수 CCF와 각 프레임 별 ILD을 포함하는 특징 벡터를 도출하고,
도출된 특징 벡터를 심층 신경망(DNN: Deep Neural Network)에 입력하여 도출된 특징 벡터에 대한 음원 방위각의 모델을 구축하는 것을 특징으로 하는 음원 위치 결정 시스템.
The method of claim 3, wherein the deep neural network building unit,
After normalizing the received cross-correlation coefficient, a feature vector including a number of normalized cross-correlation coefficients CCF and ILD for each frame is derived,
A sound source positioning system, characterized in that a sound source azimuth model is constructed for the derived feature vector by inputting the derived feature vector into a deep neural network (DNN).
좌우 각각의 귀에 도달되는 원음의 도착 시간 차를 보정하여 동기화된 음원에 대해 크로스 상관(CC: Cross Correlation) 기법을 이용하여 도출된 프레임 별 에너지를 토대로 ILD(Interaural Level Difference)를 출력하는 ILD 도출단계;
동기화된 프레임 별 ILD와 크로스 상관 계수(CCF: Cross Correlation Cofficient)를 포함하는 특징 벡터에 대해 음원 방위각을 모델링하는 심층 신경망 구축단계;
입력된 음원에 대해 특징 벡터를 도출하고 도출된 특징 벡터에 대한 모델을 통해 학습 수행하여 음원 방위각을 도출하는 학습단계; 및
도출된 음원 방위각으로 사용자 시점의 음원 위치를 결정하는 음원 위치 결정단계를 포함하는 것을 특징으로 하는 음원 위치 결정 방법.
ILD derivation step of outputting ILD (Interaural Level Difference) based on the energy of each frame derived using the Cross Correlation (CC) technique for the synchronized sound source by correcting the difference in arrival time of the original sound reaching the left and right ears ;
A deep neural network construction step of modeling a sound source azimuth angle for a feature vector including ILD for each synchronized frame and a cross correlation coefficient (CCF);
A learning step of deriving a feature vector for an input sound source and performing learning through a model for the derived feature vector to derive a sound source azimuth angle; And
And a sound source positioning step of determining a sound source position at a user's point of view based on the derived sound source azimuth.
제5항에 있어서, 상기 ILD 도출단계는,
도달되는 원음
Figure 112018123396108-pat00048
에 대해 좌우 귀에 도달되는 음원 신호
Figure 112018123396108-pat00049
,
Figure 112018123396108-pat00050
를 도출하는 단계;
좌 우 귀에 도달되는 음원 신호
Figure 112018123396108-pat00051
,
Figure 112018123396108-pat00052
에 대해 기 설정된 시간 주기(프레임 단위)로 분할하여 프레임 음원
Figure 112018123396108-pat00053
을 도출하는 단계;
상기 프레임 음원에 대해 좌우 귀에 도달하는 도착시간 차를 크로스 상관을 이용하여 도출하는 단계;
상기 도착시간 차를 보정하여 동기화된 음원에 대한 각 프레임 별 에너지
Figure 112018123396108-pat00054
를 도출하는 단계; 및
상기 각 프레임 별 에너지와 ILD 간의 관계식으로부터 각 프레임 별 ILD를 연산하는 단계를 포함하는 것을 특징으로 하는 음원 위치 결정 방법.


The method of claim 5, wherein the ILD derivation step,
Original sound reached
Figure 112018123396108-pat00048
The sound source signal reaching the left and right ears for
Figure 112018123396108-pat00049
,
Figure 112018123396108-pat00050
Deriving;
Sound source signal reaching left and right ears
Figure 112018123396108-pat00051
,
Figure 112018123396108-pat00052
Frame sound source by dividing it into a preset time period (frame unit) for
Figure 112018123396108-pat00053
Deriving;
Deriving a difference in arrival time reaching the left and right ears with respect to the frame sound source using cross correlation;
Energy for each frame of the synchronized sound source by correcting the difference in arrival time
Figure 112018123396108-pat00054
Deriving; And
And calculating the ILD for each frame from the relationship between the energy and the ILD for each frame.


KR1020180158046A 2018-12-10 2018-12-10 System and method for determining localization of sound source KR102249685B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180158046A KR102249685B1 (en) 2018-12-10 2018-12-10 System and method for determining localization of sound source

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180158046A KR102249685B1 (en) 2018-12-10 2018-12-10 System and method for determining localization of sound source

Publications (2)

Publication Number Publication Date
KR20200070665A KR20200070665A (en) 2020-06-18
KR102249685B1 true KR102249685B1 (en) 2021-05-10

Family

ID=71143109

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180158046A KR102249685B1 (en) 2018-12-10 2018-12-10 System and method for determining localization of sound source

Country Status (1)

Country Link
KR (1) KR102249685B1 (en)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100751921B1 (en) * 2005-11-11 2007-08-24 고려대학교 산학협력단 Method and apparatus for removing noise of multi-channel voice signal

Also Published As

Publication number Publication date
KR20200070665A (en) 2020-06-18

Similar Documents

Publication Publication Date Title
US10952009B2 (en) Audio parallax for virtual reality, augmented reality, and mixed reality
US10820097B2 (en) Method, systems and apparatus for determining audio representation(s) of one or more audio sources
CN112106385B (en) System for sound modeling and presentation
US9560467B2 (en) 3D immersive spatial audio systems and methods
Jot et al. Rendering spatial sound for interoperable experiences in the audio metaverse
KR102592858B1 (en) Method and system for handling local transitions between listening positions in a virtual reality environment
Mehra et al. Source and listener directivity for interactive wave-based sound propagation
US9560439B2 (en) Methods, systems, and computer readable media for source and listener directivity for interactive wave-based sound propagation
US9883316B2 (en) Method of generating multi-channel audio signal and apparatus for carrying out same
US20150223005A1 (en) 3-dimensional audio projection
TW202416269A (en) Method and apparatus for decoding stereo loudspeaker signals from a higher-order ambisonics audio signal
US10721578B2 (en) Spatial audio warp compensator
Blochberger et al. Particle-filter tracking of sounds for frequency-independent 3D audio rendering from distributed B-format recordings
CN101184349A (en) Three-dimensional ring sound effect technique aimed at dual-track earphone equipment
CN105594227A (en) Matrix decoder with constant-power pairwise panning
CN108701461B (en) Improved ambisonic encoder for sound sources with multiple reflections
KR102249685B1 (en) System and method for determining localization of sound source
EP2552130B1 (en) Method for sound signal processing, and computer program for implementing the method
JP2011234177A (en) Stereoscopic sound reproduction device and reproduction method
He et al. Time-shifted principal component analysis based cue extraction for stereo audio signals
Wu et al. Acuity: Creating realistic digital twins through multi-resolution pointcloud processing and audiovisual sensor fusion
Simon Galvez et al. A Listener Position Adaptive Stereo System for Object-Based Reproduction
EP4397053A1 (en) Deriving parameters for a reverberation processor
KR20190060464A (en) Audio signal processing method and apparatus
CN117998274B (en) Audio processing method, device and storage medium

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant