WO2014021492A1 - 공간 분할을 이용한 위치 의존형 누화 제거 방법 - Google Patents

공간 분할을 이용한 위치 의존형 누화 제거 방법 Download PDF

Info

Publication number
WO2014021492A1
WO2014021492A1 PCT/KR2012/006332 KR2012006332W WO2014021492A1 WO 2014021492 A1 WO2014021492 A1 WO 2014021492A1 KR 2012006332 W KR2012006332 W KR 2012006332W WO 2014021492 A1 WO2014021492 A1 WO 2014021492A1
Authority
WO
WIPO (PCT)
Prior art keywords
crosstalk
listening
listener
csr
cell
Prior art date
Application number
PCT/KR2012/006332
Other languages
English (en)
French (fr)
Inventor
이기승
Original Assignee
건국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 건국대학교 산학협력단 filed Critical 건국대학교 산학협력단
Publication of WO2014021492A1 publication Critical patent/WO2014021492A1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control

Definitions

  • the present invention relates to a binaural reproduction system, and more particularly, to a method for removing position dependent crosstalk using spatial division.
  • Cross-talk cancellation filters are designed to eliminate these undesirable effects. Crosstalk cancellation is accomplished by assuming that you know the impulse responses from the loudspeaker to the listener's ear.
  • the information needed for the design of the crosstalk rejection filter includes a pair of direct ion-dependent transfer functions representing the propagation of waves through the air from the loudspeaker to the listening point.
  • the head-related transfer function (HRTF) a direction-dependent acoustic transfer function from the sound source to the listener's eardrum, was often used to eliminate crosstalk.
  • the free sound field model (free-field mode 1) also provides an acoustic path from the loudspeaker to the listener's ear.
  • the model description parameter for the model changes with the listener's position. This means that crosstalk eliminators do not have good performance unless the filter is designed for the listener's position. In other words, if a fixed cross-talk cancellation filter is used regardless of the listener's position, only the "sweet” The crosstalk signal is properly removed only for a limited area referred to as a "sweet spot".
  • the crosstalk cancellation filter is updated according to the estimated position of the listener.
  • the system was implemented by merging two techniques: automatic listener position tracking and sound rendering (or adjusting the sweet spot) according to the estimated position of the listener.
  • the usefulness of the location-type voice playback system has already been demonstrated.
  • there is a simple problem in implementing such reliable listener position estimation This can be achieved by using special hardware systems such as a vis ion-based listener tracking system using a digital camera, a positioning system with a laser scanner, and an ultrasonic and infrared sensor. Requires a remote control-based listener tracking system.
  • the algorithm for chukjeong the absolute position of the listener is requires extensive calculations, for example, a non-linear Gauss Newton least-squares method (Gauss- Newt on nonlinear least square method), if the 'being the use require a number of iterations in the position estimate .
  • All of these previously developed positioning methods have focused mainly on improving the accuracy of the listener's location. Therefore, the absolute error between the actual listener position and the estimated listener position was the main criterion in the design of the positioning algorithm.
  • the present invention relates to a position-dependent crosstalk removal method using spatial division, which can perform efficient crosstalk removal with a small number of filters by dividing into a plurality of cell regions and placing one representative crosstalk filter in each cell region. to provide.
  • the present invention provides a relatively less listening area by selecting the listening position in units of regions.
  • the present invention provides a position dependent crosstalk cancellation method using spatial partitioning which requires precise listener tracking.
  • the present invention provides a position dependent crosstalk cancellation method using spatial division in a binaural playback system using a speaker, comprising: (1) dividing a listening space into a plurality of cell regions; And (2) assigning one crosstalk cancellation filter to an optimal position of each of the plurality of cell regions.
  • the optimal position is a point at which the sum or average of the channel separation ratios is the maximum among all the points in the divided cell regions, and the channel separation is the diagonal of the original signal and the non-diagonal of the crosstalk signal. The ratio between components is shown.
  • the channel separation ratio selects a minimum value for the left channel and the right channel.
  • the estimation of the listening position is performed by estimating the exponents of the plurality of cell regions using an artificial neural network, wherein the estimation of the listening position is a signal from a pair of microphones installed in the listening space.
  • the steps (1) and (2) are: (a-1) given the listening space, the listening
  • the plurality of cell regions each having an arbitrary shape of space (S (0)
  • step (a-2) and the step (a-3) are repeated until a predetermined condition.
  • Each of the plurality of cell regions is non-overlapping with each other.
  • the present invention performs cell-based cross-talk erasing, suitable cross-talk removal is possible using a small number of cross-talk removal filters.
  • the present invention divides the entire listening area into a plurality of cell areas and arranges only one representative crosstalk removal filter in each cell area to perform crosstalk removal for the cell area. Do.
  • the present invention is satisfied by classifying the cell index of the location of the listener, a less precise tracking process is required. As a result, suitable crosstalk cancellation can be implemented even on low system resources.
  • FIG. 1 is a block diagram of a voice reproducing system capable of adjusting a sweet spot according to a position of a listener according to the method of the present invention.
  • FIG. 2 is a diagram schematically illustrating a configuration of a position dependent crosstalk system using two loudspeakers according to the method of the present invention.
  • Figure 3 is a view showing a sound path between ⁇ the listener to the right speaker having a wall reflections is that the method of the invention applies to the ear,, l RiK, and ⁇ ⁇ , ⁇ is the reflection coefficient for each of second wall Indicates the distance between the ⁇ th image of the right speaker and the listener, and the angle between the first image of the right speaker and the listener.
  • FIG. 4 is a diagram for explaining a spatial partitioning algorithm when the method of the present invention is applied to four clusters.
  • FIG. 5 is a diagram illustrating an example obtained through spatial division employed in the position dependent crosstalk cancellation method using the spatial division of the present invention.
  • 6 is a block diagram schematically illustrating a listener tracking configuration employed in a position dependent crosstalk cancellation method using spatial division of the present invention.
  • FIG. 7 is a diagram illustrating a virtual listening space used in an experimental example using a location dependent crosstalk cancellation method using spatial division of the present invention.
  • 8A to 8C illustrate the results of an experimental example of a position dependent crosstalk cancellation method using spatial division of the present invention.
  • FIGS 9A to 9C are diagrams showing results according to an experimental example of the position-dependent crosstalk removal method using spatial division of the present invention.
  • the graph shows the relationship of the average CSR to the number of clusters and the percentage of CSR> 10 dB relative to the number of clusters.
  • 11A to 11C illustrate position-dependent crosstalk using spatial division of the present invention.
  • a diagram showing a spatial classification result using an artificial neural network in the removal method is shown.
  • FIG. 12 is a graph illustrating the results of a subjective positioning test according to an experimental example of a position dependent crosstalk cancellation method using spatial division of the present invention.
  • FIG. 13 is a diagram illustrating a result of a subjective positioning test for a reverberation environment (home living room) to which a position dependent crosstalk cancellation method using spatial division of the present invention is applied.
  • FIG. 13 is a diagram illustrating a result of a subjective positioning test for a reverberation environment (home living room) to which a position dependent crosstalk cancellation method using spatial division of the present invention is applied.
  • FIG. 14 illustrates the conventional location-based crosstalk removal shown for comparison with FIG.
  • the entire listening space is divided into a plurality of non-overlapping clusters.
  • One representative crosstalk cancellation filter is assigned to each cluster.
  • the cluster in which the listener is located is determined, and the crosstalk cancellation filter assigned to that cluster is implemented.
  • the basic assumption is that even if one crosstalk filter is used for a small area, crosstalk elimination performance is not degraded.
  • the present invention provides an average value of Channel Separation Rate (CSR).
  • CSR Channel Separation Rate
  • the partitioning / estimation algorithm determines the optimal partitioning and optimal crosstalk rejection filter set. This approach has computational advantages over conventional point-based positioning schemes because relatively less accurate estimates of user location are tolerated. Proposed method
  • Figure 1 is a block diagram of a typical voice playback system that can adjust the sweet spot according to the listener's position.
  • the signal thus obtained is given by a time delayed version of the original signal as shown in equation (3).
  • the frequency response from the loudspeaker to the listener's ear must be prepared a priori.
  • loudspeakers including the head-related transfer function (HRTF) and the free-field model
  • HRTF head-related transfer function
  • free-field model There are several ways to express the frequency response for the channels to the ear.
  • FIG. 2 is a location using two loudspeakers according to the method of the present invention.
  • Figure is a schematic diagram showing the configuration of the dependent crosstalk cancellation system.
  • the transfer matrix H 'and crosstalk rejection matrix C are at the position 0 M , y u ) of the listener.
  • CSR channel separation ratio
  • g f l ⁇ i and ⁇ 2 are components of the matrix G.
  • the integral section B was [0.3-3.0 kHz], which is a frequency range unaffected by head-shadowing effects.
  • the sound field at any position can be represented by the superposition of a limited number of reflected sound sources.
  • the basic assumption is that the room impulse response (RIR) is typically characterized by several initial (strong) reflections.
  • the energy modifying characteristics of the room transfer function are typically . This is a valid assumption, as it is dominated by several early (strong) reflections. This means that compensating for early reflections can compensate for most of the acoustic energy in the ear, because the energy that arrives early
  • FIG. 3 shows a right speaker having a wall reflection to which the method of the present invention is applied
  • a view showing a sound path between the listener's ear, ⁇ ⁇ , l R, K, and ⁇ ⁇ , ⁇ is a respective reflection coefficient, and the right speaker of the second wall the second phase and the distance between the listener and the speaker ⁇ The angle between the first phase and the listener.
  • FIG. 3 illustrates the acoustic path between the right speaker and the listener's ears taking into account the reflections generated by the second wall.
  • the acoustic path from the imaged source to the listener's left ear can be represented by the following equation (10).
  • CSRs are calculated from the modified matrix.
  • l Lik , l Rik , 9 Ltk , and ⁇ are the size (dimensions) of the listening space.
  • the reflection coefficient ⁇ may be obtained by direct measurement, or may be estimated using a predetermined table table given the individual reflection coefficients for a particular material.
  • the overall listening space is partitioned so that the performance with respect to crosstalk is effectively maintained for the entire listening space.
  • the problem of optimal spatial division in the present invention is represented by the following equation (12).
  • Equation (12) The problem of equation (12) is to find the set S, R that maximizes the sum (or, equivalently, average CSR) of the CSRs evaluated over the entire listening space. Since the CSRs are evaluated separately for the left channel and the right channel, the problem is how to define the CSR in equation (12) using the two channels of CSR. When the average CSR is used, this does not guarantee that the left channel CSR and the right channel CSR have equally large values.
  • the purpose of spatial partitioning is to maintain a good crosstalk rejection that is appropriate for both left and right channels. Therefore, the CSR is given by the minimum values of the left channel CSR and the right channel CSR as shown in Equation (13) below.
  • CSR (r *, f) min ⁇ CSR L (r, r), CSR R (r *, r) ⁇
  • the CSR for a particular watch changes when the listening configuration (eg, the location of two loudspeakers) changes. Therefore, the resulting segmentation and crosstalk rejection filter set is optimal only for the listening space in which spatial segmentation was performed.
  • the proposed spatial partitioning scheme does not take into account many other factors that can alter the transfer function from the loudspeaker and the listener's ear, such as speaker impulse response, temperature and humidity.
  • FIG. 4 is a diagram for explaining a spatial partitioning algorithm when the method of the present invention is applied to four clusters.
  • Step (a-2) Update the crosstalk elimination filter for each cluster: find a crosstalk elimination filter for each cluster using previously determined S (i) , where the crosstalk elimination filter is a corresponding partition. These are the maximum sums of CSRs evaluated across all locations belonging to the area surrounded by. In practice, this is achieved by finding a position f that maximizes the sum of CSR ( ⁇ '), where is given by points belonging to the region enclosed by the cluster, as shown in equation (14) below.
  • Equation (15) a set of positions for obtaining an optimum crosstalk removal filter is constructed as shown in Equation (15) below.
  • Step (a-3) After the space repartitioning-crosstalk removal filter is updated, the updated
  • Crosstalk removal is performed using all crosstalk removal filters for all coordinates (x, y) included in an area, and a filter having the best crosstalk performance is selected. Through this, an optimal crosstalk removal filter is assigned to all coordinates, and the same crosstalk removal filter is assigned to a group to form a cell area.
  • Step (a-4) Convergence Test-Using S ( i + 1) and ⁇
  • Equation (18) The sum of the CSRs in the i iteration is calculated as shown in Equation (18) below.
  • step (a-2) adds the sum of the CSRs for each cluster To maximize the crosstalk rejection filter
  • FIG. 5 is a diagram illustrating an example obtained through spatial division employed in the position dependent crosstalk cancellation method using the spatial division of the present invention.
  • the number of clusters is 6, and the distance between two loudspeakers is 1 ⁇ 2.
  • the listening space is 401 ⁇ 4111 ( ⁇ / ⁇ ⁇ ⁇ 1).
  • FIG. 5 An example of the division created as a result of the spatial division method employed in the present invention is shown in FIG. 5, where the number of clusters is six. This example clearly shows that the classification method of calculating linear decision boundaries is not effective for the purpose of classifying the listening position.
  • an artificial neural network ANN which is widely adopted as a nonlinear classifier, is used to classify a listening position into a plurality of clusters obtained from a listener spatial partitioning algorithm.
  • FIG. 6 is a block diagram schematically illustrating a listener tracking configuration employed in a position dependent crosstalk cancellation method using spatial division of the present invention.
  • each output node corresponds to a specific cluster index.
  • the number of output nodes is equal to the number of clusters.
  • Classification is accomplished by presenting the listening position (c, y) to the input node of the ANN and then identifying which output node has the maximum value.
  • this approach is inefficient because the listening position must also be estimated. example
  • an approach that uses the time delay between a pair of microphone signals is adopted.
  • the signal obtained from the pair of microphones is given by an acoustic signal (e.g. hand clapping) from the listener.
  • the basic principle of this approach is that, under the condition that the number of microphones is greater than three, the three-dimensional listening position is uniquely determined by the time delay between the pair of microphone signals.
  • the entire classifier consists of two cascaded classifiers.
  • the first classifier maps the time delay to the listening position, and then classifies the listening position to the cluster index in the second classification stage.
  • the structure of ANN adopted in the present invention is multi-layer
  • MLP multi-layer perception
  • the best classification result was obtained when the MLP included three hidden layers and the number of nodes in the hidden layer was set to 1.5 times the output node.
  • FIG. 7 is a diagram illustrating a virtual listening space used in an experimental example using a location dependent crosstalk cancellation method using spatial division of the present invention.
  • the spatial partitioning algorithm employed in the present invention has been performed in a virtual space.
  • the shape and dimensions of the virtual space employed in the experiment are shown in FIG. 7.
  • the total size of the virtual space is 6x6x2.5m 3 (WDH) and the actual listening area is 4m each lateral length located in the center of the virtual space.
  • the listener's position is limited to the actual listening area. Only the first order reflections were considered in constructing the transfer matrix H, which is given by equation (11). The reflection coefficient was obtained by direct measurement at each wall.
  • 8A to 8C are diagrams showing the results of an experimental example of a position dependent crosstalk cancellation method using spatial division of the present invention.
  • 8A-8C show the number of clusters divided into 4, 8, and 16 spaces, respectively, and the bottom shows the channel separation ratio contour plots for each top space segment.
  • FIGS. 8A, 8B, and 8C The spatial division results obtained according to the method of the present invention are shown at the top of FIGS. 8A, 8B, and 8C, with each zone represented by a gray level.
  • the number of clusters is 4, 8 and 16, respectively.
  • Complementary CSR plots are shown at the bottom of each figure.
  • the channel separation rate in decibels is expressed in gray levels.
  • the brighter the gray level the larger the CSR. Therefore, the white area of the CSR contour plot corresponds to the maximum CSR point, which is the position for designing the crosstalk cancellation filter.
  • the shape of the cluster is not similar to the Voronoi cell obtained from VQ-clustering. This is because the CSR does not depend solely on the distance from the centroid, which corresponded to the point for designing the crosstalk rejection filter.
  • the CSR is not only the distance from the center but also the left loudspeaker and the right. The distance from the loudspeaker and the look-direct ion for the two loudspeakers were determined. This produced a complex contour plot of the CSR within the cluster. Most clusters take the form of arcs or wings. The center (design point for the crosstalk filter) was not evenly distributed, and some of the augments were located along the same arc as shown at the bottom of FIGS. 8A, 8B, and 8C.
  • 9A to 9C are diagrams showing results of an experimental example of a position dependent crosstalk cancellation method using spatial division according to the present invention, wherein 10 dB channel separation ratio (switch) is divided into 4, 8, and 16 clusters, respectively. Spot) outline plot, the white area corresponds to the sweet spot.
  • the listener In a typical listening situation, the listener is not very close to the loudspeaker. Therefore, considering the general listening situation, it is expected that the probability of the listener being located outside the sweet spot area is very low.
  • the graph shows the relationship of the average CSR to the number of clusters and the percentage of CSR> 10 dB relative to the number of clusters.
  • FIG. 10 shows the plot for the percentage of the area where the CSR is greater than KWB.
  • Increasing the number of clusters also increases the area where the CSR is greater than 10 dB. For example, if the number of clusters is greater than 14, 10 dB
  • the percentage of all evaluated positions was greater than 90%.
  • the number of clusters exceeds 20, more than 95% of the total listening space had a CSR greater than 10 dB. This indicates that even when a limited number of crosstalk filters designed for a particular area are used, the sweet spot will occupy the entire listening space.
  • 11A to 11C show spatial classification results using an artificial neural network in the position dependent crosstalk cancellation method using the spatial division of the present invention, and the number of clusters is 4, 8, and 16, respectively, and different gray levels are different clusters.
  • the time delay was calculated using signals from three micros placed at the positions shown in FIG. Thus, there were three time delays equal to the number of input nodes for the ANN. Errors caused by the time delay estimation method are not considered in the present invention. Therefore, the time delay was calculated using the listener's distance to each microphone.
  • the cluster index for each location is given by the spatial partitioning method of the present invention described above, which is shown at the top of FIGS. 8A-8C.
  • the maximum number of repetitions for training the ANN was set to 10000. All ANN inputs (time delays) were normalized by their variance and mean. In the case of the back propagation training algorithm, the learning gain ( ⁇ ) is set to 0.5, and the momentum constant ( ⁇ ) of the sigmoid active function is 0.7. Was set.
  • the cluster was not severely lowered when adopted.
  • the verification consisted of evaluating the correct identification score for the virtual voice location. 13 predefined virtual sound images on the horizontal plane were adopted to construct the spatial partitioning rule.
  • Subjects should listen to the stimulus as many times as necessary before making a decision.
  • the evaluation position was randomly selected from the rectangular zone (3.5 ⁇ 2.5 m 2 , WD) located in the center of the anechoic chamber.
  • FIG. 12 is a graph illustrating a result of a subjective positioning test according to an experimental example of a position dependent crosstalk cancellation method using spatial division of the present invention, wherein the horizontal axis represents a target azimuth angle (degrees), and the vertical axis represents a determined azimuth angle ( Fig.
  • FIG. 14 shows positioning test results for location-based crosstalk removal shown for comparison with FIG. 12.
  • FIG. 12 and 14 show the results of a localization test, which shows the target angle versus the determined angle.
  • the size of each circle is proportional to the correct identification rate for the virtual voice direction.
  • FIG. 12 shows the positioning result according to the cell-based crosstalk removing method using the spatial division of the present invention.
  • FIG. 14 relates to the case where a crosstalk cancellation filter is calculated at each listener position. This case is called "positive ion-based cross-talk.”
  • FIG. 13 is a view showing the results of a subjective positioning test for a reverberation environment (home living room) to which the position dependent crosstalk cancellation method using the spatial division of the present invention is applied, wherein the horizontal axis is the target azimuth angle (degree) and the vertical axis is determined. The azimuth angle (degrees) is shown.
  • the protocol of the test was the same as the protocol for the anechoic environment described above, except that the reflective signal was considered in spatial partitioning. There were 16 clusters and the same 12 subjects participated in this test.
  • the present invention provides a speech rendering method in which an appropriate degree of crosstalk cancellation can be achieved at any listening position.
  • This method was implemented by dividing the entire listening space into a plurality of non-overlapping clusters and assigning an appropriate crosstalk cancellation filter for each cluster. After dividing the listening space, it provides a new way of constructing a set of crosstalk cancellation filters, which are based on the maximum CSR criteria.
  • ANN has been adopted to obtain the cluster index for a given listening position.
  • the effectiveness of the present invention has been verified to some extent through experimentation. In the objective evaluation, most positions in the listening space had channel separation rates greater than 10 dB. The expected results were also obtained in subjective listening tests, where the exact identification rate for the virtual voice position was comparable with the position by position based approach.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

스테레오 재생 시스템에서 공간 분할을 이용한 위치 의존형 누화 제거 방법이 개시된다. 전체 청취 공간이 복수의 비중첩 셀 영역으로 분할되며, 누화 제거 필터가 각각의 셀영역에 할당된다. 청취 공간 분할과 그에 대응하여 할당되는 누화 제거 필터는 평균 채널 분리율을 최대로 함으로써 구현된다. 셀 기반 누화 제거를 이용하기 때문에 청취자의 정확한 위치의 추정이 필요하지 않고, 대신에 단지 청취자가 위치되는 셀을 결정하는 것만이 필요하다. 이는 각각의 쌍의 마이크에 대한 시간 지연이 셀 지수에 상응하는 ANN 입력 및 ANN 출력으로서 이용되는 인공 신경망(artificial neural network, ANN)을 단순히 이용함으로써 달성된다.

Description

명세서 발명의 명칭: 공간분할을 이용한 위치 의존형 누화 제거 방법 기술분야
[1] 본 발명은 바이노럴 (binaural) 재생시스템에 관한 것으로서, 특히 공간 분할을 이용한 위치 의존형 누화 제거 방법에 관한 것이다.
배경기술
[2] 일반적으로, 2개의 라우드스피커 (loudspeaker)를 이용하는 바이노럴 재생시스템 (binaural playback system)에서는 헤드폰을 이용한 바이노럴 재생 시에는 발생하지 않는 몇 가지 바람직하지 않은 효과가 발생된다. 누화는 라우드스피커 기반 바이노럴 재생시스템 (loudspeaker-based binaural playback system)에서 발생하는 바람직하지 못한 주요 효과 중 하나로서, 좌측 귀를 위해 위한 신호가 우측 귀에 의해 인지되거나 또는 그 반대 현상이 발생하는 것이다.
[3] 누화 제거 필터 (cross-talk cancellation filter)는 이러한 바람직하지 않은 효과를 제거하기 위해 고안되었다. 누화 제거는 라우드스피커에서 청취자 귀까지의 임펄스 웅답 (impulse responses)을 알고 있다고 가정함으로써 이루어진다. 따라서, 누화 제거 필터의 설계를 위해 필요한 정보에는 라우드스피커로부터 청취 지점까지 공기를 통한 파동의 전파를 나타내는 한 쌍의 방향 의존형 전달 함수 (direct ion-dependent transfer function)가 포함된다. 음원으로부터 청취자의 고막까지의 방향 의존형 음향 전달 함수인 머리 전달 함수 (head-related transfer function, HRTF)가 누화 제거에 종종 이용되었다. 자유음장 모델 (free-field mode 1 )도또한 라우드스피커에서 청취자 귀까지의 음향 경로를
특성화하기 위해 채용돠었다. 이러한 모델은 HRTF-기반모델보다
. 단순하기 때문에 하드웨어 구현 측면에서 이점이 있다. 그러나, 귀와 음파사이의 상호작용 (예를 들어, 피나 효과 (pinna effects))에 대한 세부사항은 자유음장 모델에 의해 특성화될 수 없다. 보다 상세하게 음향 경로를 특성화하기 위해 하이브리드 모델이 이용된 바 있는데 , 이는 거리 변화에 의해 야기된 감쇠 (attenuation) 및 지연을 조정하기 위해 자유음장 모델을 채택하였다.
[4] HRTF모델과 자유음장 모델이 모두 방향 의존형이기 때문에, 이들
모델을 위한 모델 기술 매개변수 (model description parameter)는 청취자의 위치에 따라 변한다. 이는 필터가 청취자의 위치에 대해 설계되지 않는다면 누화 제거기가좋은 성능을 갖지 못한다는 것을 의미한다. 즉, 청취자의 위치와 무관하게 고정삭누화 제거 필터 (fixed cross-talk cancellation filter)가 이용된다면, 단지 "스위트 스폿 (sweet spot)" 으로 지칭되는 제한된 영역에 대해서만 누화 신호가 적절히 제거된다.
[5] 최근 디지털 신호 처리 기술이 발전함에 따라 청취자의 위치에
무관하게 양호한 스테레오 착각 ( stereophonic illusion)을 생성하는 스테레오 재생시스템을 개발하기에 이르렀다. 이러한 시스템에서는, 누화 제거 필터가 청취자의 추정 위치에 따라 갱신된다. 이 시스템은 2개의: 기법, 즉 자동 청취자.위치 추적 (automatic listener position tracking) 및 청취자의 추정 위치에 따른 사운드 렌더링 (sound rendering) (또는 스위트 스폿의 조정)을 병합함으로써 구현되었다. 위치 적웅형 음성 재생시스템의 유용성은 이미 입증된 바 있다. 그러나, 이러한신뢰성 있는 청취자의 위치 추정을 구현하는 데에는 간단치 않은 문제가 있다. 이는 특수한 하드웨어 시스템, 예를 들어 디지털카메라를 이용한 화상 기반 청취자 추적 시스템 (vis ion一 based listener tracking system) , 레이저스캐너를 이용한 측위 시스템 (positioning system with a laser scanner), 및 초음파센서 및 적외선센서를 이용한 원격 제어 기반 청취자 추적 시스템 (remote control -based listener tracking system)을 요구한다. 또한, 청취자의 절대위치를 축정하기 위한 알고리즘은 광범위한 계산이 필요한데, 이를테면, 위치 추정에서 가우스 뉴턴 비선형 최소 제곱법 (Gauss— Newt on nonlinear least square method)이 이용되 '는 경우 수많은 반복 연산이 필요하다. 기존에 개발되었던 이러한모든 측위 방법은 주로 청취자 위치의 정확도를 높이는데 집중되었다. 따라서, 실제 청취자 위치와 추정된 청취자 위치 사이의 절대오차가 측위 알고리즘의 설계에서 주요 기준이었다.
[6] 측위 문제를 위치 적웅형 음성 재생시스템의 구현에 한정한다면,
목표가 일반적인 측위 시스템과 약간 달라질 것이다. 따라서
근본적으로는 기존의 측위 방법을 넘어서서 몇 가지 장점을 가지는, 누화 제거와 관련된 측위 알고리즘을 제공할 필요가 있다.
[7] 이러한 이슈와 관련하여, 문제는 포인트-바이-포인트 (point-by-point) 측위가 적절한 누화 제거 성능을 획득하기 위한 필요 조건인지 여부이다. 오직 청취자의 머리를 둘러싸는 작은 "버블" 내에서만 적당한 정도의 누화 제거가 유지된다고 알려져 있다.
발명의 내용
기술적 과제
[8] 본 발명은 복수개의 샐 영역으로 분할하고 각 셀 영역에 하나의 대표 누화 제거 필터를 배치함으로써 적은 수의 필터로 효율적인 누화 제거를 수행할 수 있는, 공간 분할을 이용한 위치 의존형 누화 제거 방법을 제공한다.
[9] 본 발명은 청취 위치를 영역 단위로 선정함으로써 상대적으로 덜 정밀한 청취자의 위치 추적 과정이 요구되는 공간 분할을 이용한 위치 의존형 누화 제거 방법을 제공한다.
[10] 본 발명은 적은 시스템 리소스를 이용하여 적합한 누화 제거가
구현되는 공간 분할을 이용한 위치 의존형 누화 제거 방법을 제공한다. 기술적 해결방법
[11] 본 발명은 스피커를 이용하는 바이노럴 재생시스템에서 공간 분할을 이용한 위치 의존형 누화 제거 방법을 제공하며, 이 방법은: (1) 청취 공간을 복수개의 셀영역으로 분할하는 단계; 및 (2) 상기 복수개의 셀영역 각각의 최적 위치에 하나의 누화 제거 필터를 할당하는 단계;를 포함한다.
[12] 상기 단계 (2)에서 상기 최적 위치는 분할된 복수개의 셀영역 내의 모든 지점 중에 채널 분리율의 합 또는평균이 최대가 되는 지점이며, 상기 채널 분리을은 최초 신호의 대각성분과 누화 신호의 비대각성분 사이의 비율을 나타낸다.
[13] 상기 채널 분리율은 좌측 채널에 대한 것과 우측 채널에 대한 것의 최소값을 선택한다.
[14] 상기 단계 (2) 이후에, 인공 신경망을 이용하여 상기 복수의 셀영역의 지수를 추정함으로써 청취 위치의 추정을 수행하며, 상기 청취 위치의 추정은 상기 청취 공간에 설치된 마이크 쌍 간으로부터 신호의
시간지연으로부터 추정된다.
[15] 상기 단계 (1) 및 (2)는: (a-1) 청취 공간이 주어지면, 상기 청취
공간을 각각 임의의 형태를 가지는 상기 복수개의 셀영역 (S(0) =
{s[° s ,·.., 0)))으로 분할하는 초기화를 수행하는 단계; (a-2) 상기 복수개의 셀영역 각각에 대하여 셀영역 전체의 모든 위치에 걸쳐서 평가된 채널 분리율 ( R^f))의 합이 최대가 되는 지점 (^에 하나의 누화 제거 필터를 할당하는 누화 제거 필터 세트를 할당 단계; 및 (a-3) 상기 누화 제거 필터를 이용하여 상기 청취 공간을 재분할 하는 단계;를 포함한다.
[16] 상기 단계 (a-2)와 상기 단계 (a-3)은 소정 조건까지 반복한다.
[17] 상기 단계 (a-1)에서 문턱값 f,f(0)= -∞ 및 ί = 0을 설정하며, 상기 단계 (a-2)와 상기 단계 (a-3)의 반복에서: 반복적으로 구해지는 누화 제거 필터의 위치 다음의 식에 따라산출되고,
[18] ¾° = argmax^ ) [∑ ,es(i) , {C5fi (?:?')}]
[19] 여기에서, l≤n≤i 이고 ?'은기본 셀영역에 속하는 영역의 지점들로 주어지며,
[20] n번째 반복된〉복수개의 셀영역은 다음식으로 주어지며 , [21] s^i+1) = { |C5/?(fn (0, r) > CSR( ®, f),l≤m≤N,m≠ n)
[22] 여기서 l≤n≤i 이고, 그에 따라 i번째 반복에서 최적 클러스터
세트가 다음식으로 주어지며,
Figure imgf000005_0001
[24] ί·번째 반복에서 CSR의 합이 다음식으로 주어질 때,
Figure imgf000005_0002
[26] 만일
Figure imgf000005_0003
<e라면, 각각 최종 세트의 클러스터 및 누화 제거 필터를 획득하기 위한 최종 세트의 위치들을 나타내는 S(i+1), R(i)를 정지하고, 그렇지 않다면, ί를 (ί + l)로 대체하고, 다시 상기 단계 (a- 2)로 진행하여 반복한다.
[27] 상기 복수개의 셀영역의 각각은 상호 비중첩되는 것이다.
유리한효과
[28] 본 발명은 셀 기반의 누화쎄거를 수행하기 때문에 적은 수의 누화 제거 필터를 이용하여 적합한 누화 제거가 가능하다. 다시 말해서, 본 발명에서는 전체 청취 영역을 복수개의 셀 영역으로 분할하고 각 샐 영역에 하나의 대표 누화 제거 필터만을 배치하여 셀 영역에 대한 누화 제거를 수행하기 때문에 적은 수의 필터로 효율적인 누화 제거가 가능하다. 또한 본 발명은 청취자의 위치추적을 셀 인텍스를 분류하는 것으로 충족되기 때문에 상대적으로 덜 정밀한 추적 과정이 요구된다. 결과적으로 적은 시스템 리소스에서도 적합한 누화 제거가 구현될 수 있다.
도면의 간단한설명
[29] 도 1은 본 발명의 방법에 따른 청취자의 위치에 따라 스위트 스폿을 조정할 수 있는 음성 재생 시스템에 대한 블록도이다.
[30] 도 2는 본 발명의 방법에 따른 2개의 라우드스피커를 이용하는 위치 의존형 누화쎄거 시스템의 구성을 개략적으로 도시한 도면이다.
[31] 도 3은 본 발명의 방법이 적용되는 벽 반사를 갖는 우측 스피커의 ^ 청취자의 귀 사이의 음향 경로를 나타내는 도면으로서, , lRiK, 및 θκ,κ는 각각 번째 벽에 대한 반사 계수, 우측스피커의 ^번째 상과 청취자사이의 거리, 및 우측 스피커의 번째 상과 청취자 사이의 각도를 나타낸다.
[32] 도 4는 본 발명의 방법이 4개의 클러스터에 적용될 경우의 공간 분할 알고리즘을 설명하기 위한 도면이다.
[33] 도 5는 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거 방법에 채용되는 공간 분할을 통해 얻어진 예를 도시한 도면이다. [34] 도 6은 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거 방법에 채용된 청취자 추적 구성을 개략적으로 도시한 블록도이다.
[35] 도 7은 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거 방법을 이용한 실험예에 이용된 가상 청취 공간을 도시한 도면이다.
[36] 도 8a내지 8c는 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거 방법의 실험예에 따른 결과물을 도시한 도면이다.
[37] 도 9a내지 9c는 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거 방법의 실험예에 따른 결과물을 도시한 도면이다.
[38] 도 10은 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거
방법에서 클러스터 수 대비 평균 CSR의 관계 및 클러스터 수 대비 CSR > 10dB의 퍼센트를 보여주는 그래프이다.
[39] 도 11a내지 11c는 본 발명의 공간 분할을 이용한 위치 의존형 누화
제거 방법에서 인공신경망을 이용한 공간 분류 결과를 보여주는 도면이다.
[40] 도 12는 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거 방법의 실험예에 따른 주관적 측위 테스트의 결과를 도시한 그래프이다.
[41] 도 13은 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거 방법을 적용한 잔향 환경 (가정 거실)에 대한 주관적 측위 테스트의 결과를 보여주는 도면이다.
[42] 도 14는 도 12와 비교를 위해 도시한 기존의 위치 기반 누화 제거에
대한 측위 테스트 결과를 나타낸다.
발명의 실시를 위한 최선의 형태
[43] 본 발명에서는, 전체 청취 공간이 복수의 비중첩 클러스터로 분할된다. 각각의 클러스터에 하나의 대표 누화 제거 필터가 할당된다. 그 후, 청취자가 위치하는 클러스터가 결정되고, 해당 클러스터에 할당된 누화 제거 필터가 구현된다. 본 발명에서 제공하는 클러스터 기반 측위에 있어서 기본적인 가정은 작은 영역에 대해서는 하나의 누화 제거 필터를 이용하여도 그다지 누화 제거 성능이 떨어지지 않는다는 것이다. 이러한 가정을 테스트하기 위해, 본 발명은 채널 분리율 (CSR)의 평균값이
최대화되는 공간 분할 방법을 제안한다. 제안된 방법에서, 합동
분할 /추정 알고리즘에 의해 최적의 분할 및 최적의 누화 제거 필터 세트가 결정된다. 이러한 접근 방법은 통상적인 점 기반측위 구성을 뛰어넘는 연산 상의 장점을 갖는데, 왜냐하면 사용자 위치에 대하여 상대적으로 덜 정확한 추정이 용인되기 때문이다. 제안된 방법을
검증하기 위해서, 클러스터 수와 CSR의 평균값 사이의 관계를 분석하는 여러 가지 실험을 수행하였다. 제안된 분할 방법은 백터 양자화 (vector quantization (VQ)) 기반 분할 방법과는 다르기 때문에, 결과적으로 생성된 클러스터의 형상이 보로노이 셀 (Voronoi-cell)과 유사하지 않을 - 수 있다. 따라서, 비선형 클러스터링 방법이 위치 추정에 이용되며, ᅳ 여기서는 인공 신경망 (ANN)을 이용하여 클러스터 인덱스가 마이크 쌍들 사이의 시간 지연으로부터 추정된다.
[44] 아래에 기재된 몇몇 실험결과들은 본 발명의 음성 재생시스템의
실행가능성을 보여준다. 누화 제거 성능을 주관적으로 평가하기 위해, 음성 측위 (sound localization) 실험이 수행되었고, 음성 측위
정확도 (sound localization accuracy)에 관한성능이 평가되었다.
[45] 하기 설명에서는 전체 청취 공간을 분할하는 방법과 클러스터 기반
청취자 측위 방식을 포함하는 전체 위치 적응형 누화 제거 과정을 설명한다. 또한 실험 및 그 결과에 대하여 설명한다.
[46] [위치 적웅형 누화 제거 (POSITION-ADAPTIVE CROSS-TALK CANCELLATION)] [47] A. 누화 제거 (Cross-talk cancellation)
[48] 도 1은 청취자의 위치에 따라 스위트 스폿을 조정할 수 있는 일반적인 을성 재생 시스템에 대한 블록도이다.
[49] 스테레오 재생 환경에 대하여, 양쪽 귀에서 관찰된 신호의 주파수
도메인 표현은 다음의 식 (1)과 같다.
[50] [식 1]
[51] XL{f) = HlL{f)SL(f) + HRL f)SR f)
[52] XR{f) = HLR{f)SL{f) + HRR{f)SR{f)
[53] 여기서, ¾(/)과 (/)는 각각 좌측 채널과 우측 채널로의 입력 (또는
오리지널) 신호이다. HL[ n, HLR f), HRL f) 및 HRR(f)는 도 1에 도시된 각각의 경로에 대한 주파수 응답이다. 식 (1)은 다음의 식 (2)와 같이 매트릭스 형태로 나타낼 수 있다.
[54] [식 2]
[55] X = HS
[56] 여기서 X, H, 및 S는 각각 관측 행렬 (observation matrix), 전달
행렬 (transfer matrix), 및 신호 행렬 (signal matrix)이다.
[57] 누화 제거는 S에 제거 행렬 (cancellation matrix) C를 곱함으로써
달성되며, 따라서 얻어진 신호는 다음 식 (3)과 같이 오리지널 신호의 시간지연된 버전으로 주어진다.
[58] [식 3]
[59] X = HCS = e-^^^is
[60] 여기서 I와 e ' 2π 는 각각 단위 행렬 (identity matrix)과 시간 지연 항 (time-delay term)이다. C가 식 (3)을 만족시키기 위해,
라우드스피커에서 청취자의 귀까지의 주파수 응답이 연역적으로 (a priori) 준비되어야 한다. 머라 전달 함수 (head-related transfer function, HRTF) 및 자유음장 모델 (free-field model)을 포함하여, 라우드스피커에서 귀까지의 채널들에 대한 주파수 웅답을 표현하는 몇 가지 방법이 있다.
본 발명에서는, 비 맞춤형 HRTF(non-customized HRTF)가 이용되며, 이는
KEMAR(Knowles Electronics Manikin for Acoustic Research)
모형 (dummy)에서 측정된다.
[61] 도 2는 본 발명의 방법에 따른 2개의 라우드스피커를 이용하는 위치
의존형 누화 제거 시스템의 구성을 개략적으로 도시한 도면이다.
[62] KEMAR HRTF로부터의 측정 조건이 청취 환경 조건과 상이하므로, 이들
차이를 보상할 필요가 있다. 이를 위해, 거리 변화로 인한 감쇠 및
지연을 설명하기 위해 크기 (magnitude) 및 위상이 조정되었다. 청취자
위치의 중앙에 대한 스피커의 좌측 방향 및 우측 방향이 각각 및 ^로 주어질 때, 누화 제거 행렬은 다음의 식 (4)와 같이 주어진다.
[63] [식 4]
Figure imgf000008_0001
[65] 여기에서 A[L,R]= 27r/(Z ] -Z0)/C 와 c는 음성 속도이다. H ( )는 사잇각 (span angle) 0에 상웅하는 HRTF이며, 위첨자 ^과 은 각각 좌측 채널과 우측 채널을 지칭한다. ί0은 KEMAR HRTF가 측정되었을 때 머리의 중앙과 소스사이의 거리로서 1.4m이다. 도 2에 도시된 바와 같이, ^과
^은 각각 머리의 중앙에 대한 좌측 라우드스피커 및 우측
라우드스피커로부터 거리이며 다음의 식 (5)로 주어진다.
[66] [식 5]
Figure imgf000008_0002
[69] 여기서, (^, )는 청취자의 위치이몌 ^는좌측 라우드스피커와우측
라우드스피커 사이의 거리이다. 식 (5)에서, 머리의 반경은
라우드스피커와 귀 사이의 거리에 비해 층분히 작다고 가정된다. 사잇각 ¬과 θκ은 다음의 식 (6)으로 표현된다.
[70] [식 6]
[71] 9R = tan"1^^
[72] 9L = tan-1^^
1 Vu
식 (4)의 역 (inversion) 문제는 주파수 의존형 정규화
매개변수 (frequency dependent' regularization parameter)를 패스트 디컨볼루션 알고리즘 (fast deconvolution algorithm)을 통하여 해결된다. 따라서 역 행렬 (inversion matrix)은 다음의 식 (7)로 주어진다.
[74] [삭 7]
[75] C{f) = [Η'ίί(/)Η'( ) + α2σ)0_1Η'ίί )
[76] (.)"는 에리미트 전치 (Hermitian transpose)를 나타내며, α(/)는 정규화 항 (regularization term)이다. 은 적절한삭제 성능이 유지되면서 행렬 역 프로세스의 특이성 (singularity) 문제를 피하도록 결정된다.
[77] 전달 행렬 H'와 및 누화 제거 행렬 C는 청취자의 위치 0M,yu)에
의존한다는 것을 유념하자. 이는 청취자 위치가 주어지지 않는 한 누화 제거가 적절히 수행되지 않는다는 것을 의미한다. 청취자의 위치는 지금까지 제안된 측위 방법에 의해 추정될 수 있다. 이들 방법은 측위 정확도 측면에서 상당한성능을 나타냈다. 그러나, 실제는 정확한 위치는 획득될 수 없으며, 따라서 이들 측위 방법을 이용하여 단지 근사치의 위치가 획득될 수 있다. 이 경 에, 청취자 귀에서의
퍼스펙티브 (perspective)는 다음의 식 (8)로 주어진다.
[78] [식 8]
[79] X = H'dxu,yu)C(xu,yu)S = H'C^yjH'-^^ JS
[80] 여기에서 (xu,yu)와 는 각각 청취자의 실제 위치와 추정된
위치이다. 식 (8)에서, 단순화를 위해 주파수 지수 /가 생략되었다.
(½,yu)≠ eu,5>u)라면, 곱셈 행렬 G H'O^y CC^,^)의
비대각성분 (off-diagonal components)은 0이 아닌 값을 갖는다는 것을 유념한다. 이제 채널 분리율 (CSR)은 각각의 채널에 대한 대각 성분 (최초 신호)과 비대각성분 (누화 신호) 사이의 비율로서 다음의 식 (9)로
정의된다.
[81] [식 9]
Figure imgf000009_0001
[84] 여기에서 g f), l≤i, ≤2은 행렬 G의 성분이다. 본 발명에서 , 적분 구간 B는 머리 쉐도우잉 효과 (head-shadowing effects)로부터 영향을 받지 않는 주파수 범위인 [0.3 - 3.0 kHz]이었다.
[85] B. 잔향과 관련된 누화 제거 (Cross-talk cancellation involved with reverberation)
[86] 일상 환경에서 통상적으로 관측될 수 있는 잔향 효과 (reverberation
effects)를 설명하는 것은 쉽지 않다. 이는 전체 청취 공간에 대한 잔향 효과는 단순한 수학적 모델을 이용하여 잘 표현되지 않기 때문이다. 즉, 임필스 웅답이 전체 청취 공간에 걸쳐 측정되지 않는 한 누화 제거에서 잔향 효과가 고려될 수 없다. 본 발명에서는, 대안적인 방식이 이용되며, 여기서는 임의의 위치에서의 음성 장이 제한된 수의 반사 음원의 중첩에 의해 표현될 수 있다. 기본 가정은 실내 임펄스 응답 (room impulse response, RIR)이 전형적으로 몇 개의 초기 (강한) 반사에 의해 특징 지워진다는 것이다. 실내 전달 함수 (room transfer function)의 에너지 변이 특성 (energy一 modifying characteristics)이 전형적으로.몇 개의 초기 (강한) 반사에 의해 지배되므로, 이는 타당한가정이다. 이는 초기 반사를 보상하는 것이 귀에서의 음향 에너지의 대부분을 보정할 수 있다는 것을 의미하는데, 왜냐하면 초기에 도착하는 에너지가
방위각 (azimuth) 및 고도 (elevation) 측위의 주원인이기 때문이다.
주관적 거리 인지에서 중요한 영향을 미치는 말기의 잔향은 본 발명에서 주요 관심사가 아니라는 것을 유념한다.
[87] 도 3은 본 발명의 방법이 적용되는 벽 반사를 갖는 우측 스피커와
청취자의 귀 사이의 음향 경로를 나타내는 도면으로서, βκ, lR,K, 및 θκ,κ는 각각 번째 벽에 대한 반사 계수, 우측 스피커의 번째 상과 청취자사이의 거리, 및 우측 스피커의^번째 상과 청취자 사이의 각도를 나타낸다.
[88] 직사각형의 닫힌 실내공간이라고 가정하면, 반사 부분은 실제 음원
주위의 먼쪽 벽들에 존재하는 다양한 허 음원 (image sound
source)으로부터의 직접적인 음성으로서 모델링될 수 있다. 일 예가 도 3에 도시되는데, 여기에서는 번째 벽에 의해 발생된 반사를 고려하여 우측 스피커와 청취자의 귀 사이의 음향 경로를 나타낸다. 이 경우에, 허 음원 (imaged source)으로부터 청취자의 좌측 귀로의 음향 경로는 다음의 식 (10)으로 나타낼 수 있다.
[89] [식 10]
[90] ¾ )= β^-^Η^)
[91] 여기서, AR,fc=)27r(ZR,fc-Z0)/i:. k, lRik 및 0R,k는 각각 번째 벽에 대한 반사 계수, 우측 스피커의 번째 이미지 O th image)와 청취자 사이의 거리, 그리고 우측 스피커의 번째 이미지와 청취자사이의 각도를 나타낸다. KEMAR HRTF가 또한 특정 방향 에 대한 주파수 웅답을 표현하도록 채택되었다는 것을 유념한다. 청취자가 6 개의 평면, 즉 네 개의 벽, 천정, 및 바닥을 갖는 전형적인 실내 내에 위치할 때, 식 (4)의 전달 행렬 H'의 각 성분이 청취자를 둘러싸는 6 개의 벽에 의해 반사된 허음원으로부터의 전달 함수의 합에 의해 수정되며, 이는 다음의 식 (11)과 같다.
[92] [식 11]
Figure imgf000011_0001
[94] 0번째 벽 지수 (fc = 0)는 직접적인 음성 경로에 대웅한다는 것, 즉
ΔΙι0=Δ„ ARi0= AR, 및 0 = l이라는 것을 유념한다. RIR에 관련된
CSR들은 수정된 행렬로부터 계산된다.
[95] 식 (11)에서, lLik, lRik, 9Ltk, 및 ^는 청취 공간의 규모 (치수)와
청취자의 위치로부터 계산된다. 반사계수 ^는 직접 측정으로 얻어질 수 있거나, 특정 재료에 대한 개별적인 반사계수가 주어진 미리 설정된 테이블올 이용하여 추정될 수 있다.
[96] C. CSR에 따른 공간 분할 (Space partitioning according to CSR)
[97] 기존의 방법은 고정식 누화 제거 필터가 기본 영역에 대해 사용될 때, 일부 영역에서 누화 제거의 성능이 적절히 유지될 수 있다는 것을 보여준다 (예를 들어, CSR > 10dB)이라는 것을 보여주었다.) 이는 전체 청취 공간이 적절히 분할되고 각각의 클러스터에 적합한 누화 제거 필터가 설계된다면, 제한된 수의 누화 제거 필터를 이용하여서도 누화 제거가 효율적으로 유지될 수 있다는 것을 암시한다. 이 σ경우에, 청취자 추적 문제는 절대 청취 위치를 추정하는 것이 아닌 주어진 센서 신호에 대한 셀 지수를 알아내는 것으로 공식화될 수 있다. 이는 비교적 단순한 청취자 추적 방식을 구현하는데 도움이 될 것이다. 또한, 누화 제거 필터의 개수를 감소시키는 것은 제한된 시스템 메모리를 갖는 오디오 시스템을 위해 바람직할 수 있다. 여기에서, 공간 분할 방법이
설명되는데, 주어진 청취 구성에 대해, 누화 제거에 관한 성능이 전체 청취 공간에 대해 효을적으로 유지되도록 전체 청취 공간이 분할된다.
[98] 채널 분리율 은 기준 - ,;^)에 있는 청취자를 위해 설계된 누화 제거 필터를 이용하여 위치 = 02,y2)에서 평가된 채널 분리을로서 정의된다. (? 이 행렬 G HOi,;^)^^,;^)로부터 계산된다는 것을 유념한다. 본 발명에서 최적의 공간 분할의 문제는 다음의 식 (12)로 표현된다.
[99] [식 12]
[100] {S*, R*} = arg rnaxSiR[∑1≤nsN[∑^n{CSR(r*,r)}]]
[101] 여기에서 S* = {si,s2* ,.·., sN*] 와 R* = ,·.., )은 최적의 클러스터 세트와 각 클러스터에 대한 최적의 누화 제거 필터를 설계하기 위한 위치 세트를 각각 나타낸다. 모든 분할영역이 중첩되지 않으며 전체 청취 공간이 S*에 속하는 모든 클러스터로 구성된다는 것을 유념한다.
식 (12)의 문제는 전체 청취 공간에 걸쳐 평가된 CSR들의 합 (또는, 등가적으로, 평균 CSR)을 최대화하는 세트 S, R을 찾는 것이다. [102] CSR들이 좌측 채널과 우측 채널에 대해 별개로 평가되므로, 문제는 2개의 채널의 CSR을 이용하여 식 (12)에서 CSR을 어떻게 정의하는지가 된다. 평균 CSR이 이용될 때, 이는 좌측 채널 CSR과 우측 채널 CSR이 동일하게 큰 값을 갖는다는 것을 보장하지 않는다. 공간 분할의 목적은 좌측 채널 및 우측 채널 둘 모두에 대해 적절히 양호한 누화 제거를 유지하는 것이다. 따라서, CSR은 다음의 식 (13)과 같이 좌측 채널 CSR과 우측 채널 CSR의 최소값에 의해 주어진다.
[103] [식 13]
[104] CSR(r*,f) = min{CSRL(r ,r),CSRR(r*,r)}
[105] 청취 구성 (예를 들어, 두 개의 라우드스피커의 위치)이 변화될 때 특정 워치에 대한 CSR이 변한다는 것을 유념한다. 그러므로, 그 결과로 얻은 분할 및 누화 제거 필터 세트는 단지 공간 분할이 수행되었던 청취 공간에 대해서만 최적이다. 또한 여기서 제안된 공간 분할 방식에서는 스피커 임펼스 응답, 온도 및 습도와 같은 라우드스피커와 청취자의 귀로부터의 전달 함수를 변화시킬 수 있는 많은 다른 요인이 고려되지 않았다.
[106] S*,R'을 알아내기 위해, 반복 과정에 의해 최적화가 달성되는 합동 최적 알고리즘 (joint optimization algorithm)이 제안된다. 제안된 알고리즘이 도 4에 도시되었다. 전체 과정은 아래와 같다.
[107] 도 4는 본 발명의 방법이 4개의 클러스터에 적용될 경우의 공간 분할 알고리즘을 설명하기 위한 도면이다.
[108] 단계 (a-1): 초기화 - 청취 공간이 주어지면, 적절한 방법 (예를 들어 , 균일 분할)을 이용하여 초기 S(0) = {S 0), 0) 0)}이 생성된다. 문턱값 e,f(0) = ~∞ 및 ί = 0올 설정한다.
[109] 단계 (a-2): 각각의 클러스터에 대한 누화 제거 필터를 갱신 : 이전에 결정된 S(i)를 이용하여 각각의 클러스터에 대한 누화 제거 필터를 찾아내며, 여기서 누화 제거 필터는 해당 파티션에 의해 둘러싸인 영역에 속하는 모든 위치에 걸쳐서 평가된 CSR들의 합을 최대로 하는 것들이다. 실제로, 이는 CSR(^')의 합을 최대로 하는 위치 f를 구함으로써 달성되는데, 이때 은 다음의 식 (14)와 같이 해당 클러스터에 의해 둘러싸인 영역에 속하는 점들에 의해 주어진다.
[110] [식 14]
[HI] rn (i) = argmax.es(o [∑fles^ fl≠f{CSR(r,f')}]
[112] 여기에서, l≤n≤ N이다. 그 후, 최적 누화 제거 필터를 얻기 위한 위치 세트가아래의 식 (15)과 같이 구성된다.
[113] [식 15] [114] i?« = {f ),f2 (i) }
[115] 최적 위치 fn (i)가 닫힌 해 (closed form solution)에 의해 주어질 수
없으므로, 최적의 누화 제거 필터를 구하기 위해 해당 클러스터에 의해 둘러싸인 구역 내의 모든 점에 걸쳐서 브루트 포스 그리드 서치 (brute- force grid search)가 이용되었다. 그리드 크기는 인접하는 CSR사이의 차이가 층분히 작도록 결정되었다. 본 발명에서는 이를 5cm로 설정하였다.
[116] 단계 (a-3): 공간 재분할 - 누화 제거 필터가 갱신된 후에, 갱신된
필터를 이용하여 전체 청취 공간을 분할할 필요가 있다. 갱신된 n번째 클러스터는 다음와 식 (16)으로 주어진다.
[117] 얻어진 필터를 이용하여 공간을 재분할하는 과정에서는 재생 공간
영역에 포함되는 모든 좌표 (x,y)에 대해 모든 누화 제거 필터를 이용하여 누화 제거를 수행하고, 이 중 가장 우수한 누화 제거 성능을 보이는 필터를 선택한다. 이를 통해 모든 좌표에 대해 최적의 누화 제거 필터가 할당되며, 동일한 누화 제거 필터가 할당된 좌표를 하나의 그룹으로 묶어 셀영역을 구성하는 것이다,
[118] [식 16]
[119] = { |C5R(n (0,r) > CSR(f^,f), l≤m≤N,m≠n)
[120] 여기서 l≤n≤N이다. 그 후, /번째 반복에서 최적 클러스터 세트가
다음의 식 (17) 같이 구성된다.
[121] [식 17]
[122] S(i+1) = {51 (i+1),52 (i+1),..., i+1)}
[123] 단계 (a-4): 컨버전스 (convergence) 테스트 - S(i+1)과 ^를 이용하여
i번째 반복에서 CSR의 합을 다음의 식 (18)과 같이 계산한다.
[124] [식 18]
[125] =∑1≤n≤€s - CSR(f^,r
[126] 만일 ( (i)- -1))/^-1) <e라면, 각각 최종 세트의 클러스터 및 누화 제거 필터를 획득하기 위한 최종 세트의 위치들을 나타내는 S(i+1), R(i)를 정지한다. 그렇지 않다면, i를 (i + 1)로 대체하고, 단계 (a-2)로
진행한다.
[127] 이와 같이 공간 분할의 반복이 중지되는시점은 전체 누화 제거의
평균값이 정체 상태에 이르는 시점이 된다. 즉 분할과 필터 설계를 반복 수행하더라도 더 이상 누화 제거를 얻지 못하는 경우에 해당된다..
[128] 갱신 스테이지 (단계 (a-2))가 각각의 클러스터에 대한 CSR들의 합을 최대로 하는 누화 제거 필터를 산출하기 때문에, 전체 청취 공간에 대한
CSR들의 합이 이전의 반복의 CSR들의 합보다 작을 수 없다. 그러나, 비록 최대 기준이 공간 재분할 단계 (단계 (a-3))에 적용되더라도, 개별 위치의 CSR이 이전 스테이지에서보다크다고 언제나 보장할수는 없다. 이는 때때로 CSR의 합산의 감소 또는 매우 짧은 반복이라는 결과를 가져온다. 이 경우에 , 결과로 얻어진 CSR의 합은 그다지 크지 않다. 실험 결과에 따르면, 이러한 바람직하지 않은 효과에 의한 주파수는 초기 분할에 의해 다소 영향을 받은 것이었다. 이러한 실험은 백터 양자화기 설계에서 채택된 초기화 방법과 유사한 다음의 초기화 방법이 보다 안정적인 결과를 생성한다는 것을 보여주었다.
[129] 단계 (b-1): 초기화 - M = l로 설정하고, ° =^ 전체 청취 공간의 중심을 정의한다.
[130] 단계 (b-2): 분리 - M 개의 위치 {>/0);( = 1 Λ }를 포함하는 세트 ■S(0)(M)이 주어지면, 각각의 위치 f/0)를 2개의 인접 위치 0) + 과 r 0) - 5로 분리하며, 여기에서 = (δχ, Sy)는 고정 섭동 백터 (fixed perturbation vector)이다. { (0) + ό및 (0)一 ¾의 컬텍션 S(0)(M)은
2M개의 위치를 갖는다. M을 2M으로 대체한다.
[131] 단계 (b-3): 갱신 - M = W인가?. 그렇다면, S(0) = 5(0)(M)으로
설정하고 중단한다. 그러면, 5(0)는 Λ ]의 공간 분할을 위한 초기 위치 세트이다. 그렇지 않다면, 초기 세트 S(0)(M)를 이용하여 합동 분할 /추정 알고리즘을 실행하여, M개의 최적 위치 세트 및 그에 상응하는 M개의 누화 제거 필터를 생성하고 나서, 단계 b-2로 복귀한다.
[132] 섭동정도 (degree of perturbation)는 실험 결과를 기반으로 하여
체험적으로 결정되었다. 과 5y를 각각 0.05 과 0.05xymax로 설정하였을 때 최상의 결과가 획득되었다.
[133] D. ANN 기반 클러스터 분류 (ANN-based cluster classification)
[134] 셀 기반의 누화 제거 (cell-based cross-talk cancel 1 at ion)를 달성하기 위해, 청취자가 현재 위치하는 클러스터 인덱스 (cluster index)를 식별할 필요가 있다. 즉, 주어진 청취 위치를 상응하는 클러스터 인텍스로 매핑하는 분류 (classification) 규칙은 위치 (x,y)-클러스터 인덱스 쌍 (position-cluster index pairs)을 이용하여 구성되어야 한다. 분류 규칙을 구성하기 전에 , 제안된 공간 분할 방법으로부터 얻어지는 클러스터의 형상을 알아 보았다.
[135] 도 5는 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거 방법에 채용되는 공간 분할을 통해 얻어진 예를 도시한 도면으로서, 클러스터와 개수는 6이고, 2개의 라우드스피커 사이의 거리는 ½이며 따라서 청취 공간은 401 <4111(\/\^<1))이다.
[136] 본 발명에 채용된 공간분할 방법의 결과로서 생성되는 분할의 일 예가 도 5에 도시되었으며, 여기에서는 클러스터의 개수가 6이다. 이러한 예는 선형 결정 경계 (linear decision boundaries)들을 산출하는 분류 방법이 청취 위치를 분류하려는 목적에는 효을적이지 않다는 것을 명확히 보여준다. 본 발명에서는, 비선형 분류기로서 많이 채택되었던 인공 신경망 (artificial neural network, ANN)이 청취 위치를 청취자 공간 분할 알고리즘으로부터 얻어진 복수의 클러스터로 분류하는데 이용된다.
[137] 도 6은 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거 방법에 채용된 청취자 추적 구성을 개략적으로 도시한 블록도이다.
[138] ANN-기반 접근 방법에서, 각각의 출력 노드가 특정 클러스터 인덱스에 대응한다. 따라서, 출력 노드의 개수는 클러스터의 개수와 동일하다. 분류는 ANN의 입력 노드에 청취 위치 ( c,y)를 제시한 다음 어느 출력 노드가 최대값을 갖는지를 식별함으로써 달성된다. 그러나, 이러한 접근은 청취 위치가 또한 추정되어야 하므로 비효율적이다. 본
발명에서는, 도 6에 도시된 바와 같이, 청취자의 위치를 ANN의
입력으로서 이용한 대신에 한 쌍의 마이크 신호들 사이의 시간 지연을 이용하는 접근이 채택된다. 한 쌍의 마이크로부터 얻어진 신호는 청취자로부터의 음향 신호 (예를 들어, 손뼉 치기 (hand clapping))에 의해 주어진다. 이러한 접근의 기본 원리는, 마이크의 개수가 3보다 크다는 조건 하에, 한쌍의 마이크 신호들 사이의 시간 지연에 의해 3차원의 청취 위치가 독특하게 결정된다는 것이다. 이러한 접근을 이용하여, 전체 분류기가 두 개의 캐스케이드식 분류기 (cascaded classifiers)로 구성된다고 말할 수 있다. 제 1분류기는 시간 지연을 청취 위치로 매핑하며, 그런 다음 제 2분류 스테이지에서 청취 위치를 클러스터 인덱스로 분류한다. 본 발명에서 채택된 ANN의 구조는 다중 층
인지 (multi-layer perception, MLP)의 형태를 취한다. 그러므로, 2개 스테이지 분류기 구조는, 은닉 층 (hidden layer)의 개수를
증가시킴으로써, 단일 MLP를 이용하여 쉽게 구현돨수 있다. 실험 결과에 따르면, MLP가 3개의 은닉 층을 포함하고 은닉 층에서 노드의 개수가 출력 노드의 1.5배로 설정되었을 때, 최상의 분류 결과가 얻어졌다.
[139] 시간 지연 추정과 관련된 문제는 본 발명에서 고려되지 않았다. 알려진 청취 위치에 대해 한 쌍의 마이크 신호들 사이의 실제 시간 지연이 있다고 가정되었다. [140] [실험예]
[141] 도 7은 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거 방법을 이용한 실험예에 이용된 가상 청취 공간을 도시한 도면이다.
[142] 본 발명에 채용된 공간 분할 알고리즘이 가상 공간 (virtual space)에서 수행되었다. 실험에 채택된 가상 공간의 형상 및 치수는 도 7에 도시되어 있다. 전체 가상 공간의 크기는 6x6x2.5m3(WDH)이며, 실제 청취 영역은 가상 공간의 중심에 위치된 각각의 측방향 길이가 4m인
사각형이었다. 원점은 2개의 라우드스피커가 위치된 수평선의 중앙에 의해 주어졌다. 2개의 라우드스피커들 사이의 거리는 ½이었으며, 이는 작은 실내의 정상적인 청취 조건에 적합했다. 본 실험은 단지 수평면 내에서의 누화 제거에 관련된 문제에만 집중했다. 그러므로, 본
실험에서는, 제로 (0) 앙각 (elevation angle)에서 HRTF가 이용되었다. 청취 위치를 추적하기 위한 (또는, 등가적으로, 본 작업에서 클러스터 인덱스를 발견하기 위한) 마이크의 위치는 도 7에 도시되어 있으며, 이는 (-3, 1.95), (-3, 2.05), (3, 1.95), (3, 2.05), (-0.05, 0), 및 (0.05, 0)이었다. 따라서, 총 6개의 마이크가 청취자 추적에 이용되었다.
청취자의 위치는 실제 청취 영역 내로 제한되었다. 전달 행렬 H를 구성하는데 있어서 단지 1차 반사만 고려되었으며, 이는 식 (11)에 의해 주어진다. 각각의 벽에서 직접 측정에 의해 반사 계수가 획득되었다.
[143] A. 공간 분할 결과
[144] 도 8a내지 8c는 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거 방법의 실험예에 따른 결과물을 도시한 도면이다. 도 8a내지 8c는 각각 클러스터 수가 4, 8, 및 16개로 공간분할 된 것을 보여주며, 하부는 각각의 상부 공간분할에 대한 채널 분리율 윤곽선 플롯을 나타낸다.
[145] 본 발명의 방법에 따라 얻어진 공간 분할 결과가 도 8a, 8b, 및 8c의 상부에 도시되었으며, 각각의 구역이 그레이 레벨 (gray level)로 표시되었다. 클러스터의 개수는 각각 4, 8 및 16이다. 상웅하는 CSR 플롯이 각각 도면의 하부에 도시되어 있다. 데시벨 단위의 채널 분리율은 그레이 레벨로 표시된다. 그레이 레벨이 더 밝을수록 CSR이 더 크다. 그러므로, CSR윤곽선 (contour) 플롯의 흰색 구역이 최대 CSR지점에 해당하며, 최대 CSR지점은 누화 제거 필터를 설계하기 위한 위치이다. 예상되는 바와 같이 , 클러스터의 형상은 VQ클러스터링 (VQ- clustering)으로부터 얻어지는 보로도이 셀 (Voronoi cell)과 유사하지 않다. 이는 CSR이 누화 제거 필터를 설계하기 위한지점에 상응했던 중심 (centroid)으로부터의 거리에만 전적으로 의존하지 않기 때문이다. CSR은 중심으로부터의 거리뿐만 아니라 좌측 라우드스피커 및—우측ᅳ ᅳ— 라우드스피커로부터의 거리, 그리고 2개의 라우드스피커에 대한 시야 방향 (look-direct ion)에 의해 결정되었다. 이는 클러스터 내에 CSR의 복잡한 윤곽선 플롯을 생성하였다. 대부분의 클러스터는 호 (arc) 또는 윙 (wing)의 형태를 취한다. 중심 (누화 제거 필터를 위한 설계 지점)은 균일하게 분포되지 않았으며 , 일부 증심은 도 8a, 8b, 및 8c의 하부에 도시된 바와 갈이 동일한 호를 따라 위치되었다.
[146] 이러한 구성에서, 2개의 인접한 클러스터들이 때때로 분명하게
분리되지 않았다. 예를 들어, 4개의 클러스터의 경우에, y축의 하부에 위치된 2개의 클러스터는 클러스터의 경계에서 잘 구별되지 않았다. 이는 청취자가 클러스터 경계 근처에 위치될 경우에는, 심지어 작은
변위조차도 누화 제거 필터의 스위칭을 일으켜서 가청 불연속 (audible discontinuities)을 야기한다는 것을 나타낸다. 그러므로, 청취자가 클러스터 경계에 인접할 경우에는 필터의 보간 (interpolation)을
구현하는 것이 매우 바람직하다.
[147] 도 9a내지 9c는 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거 방법의 실험예에 따른 결과물을 도시한 도면으로서, 각각 4, 8 및 16개의 클러스터로 분할된 상태에서 10dB 채널 분리율 (스윗 스폿)의 윤곽선 플롯을 보여주며, 백색 영역이 스윗 스폿에 해당한다.
[148] 보고에 의하면, KMB의 누화 제거가 바람직한 주관적 인지를 얻는데
필요한 적절한 추정치이다. 따라서, 0.3 내지 3.0 kHz의 주파수 범위에서, 적어도 10dB누화 제거 성능이 스위트 스폿의 경계의 기준으로서
선택되었다. 도 9a내지 9c에 제시된 CSR≥10dB구역의 플롯은, 공간을 더 많은 개수의 클러스터로 나눌 때 조차도, 스위트 스폿이 전체 청취 공간을 커버할 수 없다는 것을 보여준다. 실험 결과에 따르면, 비교적 많은 개수 (≥10)의 클러스터가 채택되었을 때 10dB미만의 CSR을 갖는 영역의 대부분이 라우드스피커와 벽 근처에 있었다. 이러한 결과의 일 예를 도 9c에서 알 수 있으며, 여기서는 클러스터의 개수가 16이다.
일반적인 청취 상황에서는, 청취자가 라우드스피커에 많이 근접하지 않는다. 따라서 일반적인 청취 상황을 고려하면, 청취자가 스위트 스폿 구역의 외부에 위치될 확률이 매우 낮다고 예상된다.
[149] 도 10은 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거
방법에서 클러스터 수 대비 평균 CSR의 관계 및 클러스터 수 대비 CSR > 10dB의 퍼센트를 보여주는 그래프이다.
[150] 다양한 클러스터 개수에 대한 평균 CSR들이 도 10의 상부에 도시되어 있다. 클러스터의 개수가 KEMAR 데이터베이스에서의 HRTF총 개수의 ' 절반인 36을 초과할 때는, 본 발명에서 메모리 공간이 그다지 절약되지 않는다는 것에 유념한다. 따라서 클러스터의 최대 개수는 실험에서
36으로 제한되었다. 결과는 클러스터의 개수가 증가함에 따라 평균 CSR이 변화없이 증가된다는 것을 보여주었다. 이러한 도면에서 관찰된 흥미로운 사항 중의 하나는, 비록 클러스터의 개수와 CSR의 역 (inverse) 사이의 명시적인 관련성이 존재하지 않더라도, CSR곡선의 역의 형상이 일반적인 비트율 -왜곡 곡선 (rate-distortion curve)을 닮았다는 것이다.
[151] 도 10의 하부는 CSR이 KWB보다 큰 영역의 퍼센트에 대한 폴롯을
도시한다. 클러스터 개수를 증가시키면, CSR이 10dB보다 큰 영역도 또한 증가된다. 예를 들어, 클러스터의 개수가 14보다 클 경우, 10dB의
CSR보다 큰 CSR값을 가지는 청취 공간 내에서, 모든 평가된 위치의 퍼센트가 90%보다 컸다. 클러스터의 개수가 20을 초과할 경우, 전체 청취 공간의 95%이상이 10dB보다 큰 CSR을 가졌다. 이는 특정 영역에 적합하게 설계된 제한된 개수의 누화 제거 필터가 이용될 때 조차도, 스위트 스폿이 거와전체의 청취 공간을 차지하게 된다는 것을 나타낸다.
[152] 결과적으로, 누화 제거에 관한 적합한성과를 얻기 위해서는 제한된 개수의 누화 제거、필터가 필요하다고 할 수 있다.
[153] B. ANN기반 분류 결과 (扁-based classification results)
[154] 도 11a내지 11c는 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거 방법에서 인공신경망을 이용한 공간 분류 결과를 보여주며, 각각 클러스터 수가 4, 8 및 16이며, 회색 레벨이 다르면 다른 클러스터이다.
[155] 4, 8, 및 16개의 클러스터에 대한 ANN의 분류 결과가 도 11a내지
11c에 도시되어 있다. 결과는 6400개의 시간지연 대 클러스터 인덱스 쌍 (time delays— to-c luster index pairs)올 이용하여 트레이닝된
ANN( trained ANN)에 의해 획득되었다. 시간 지연은 도 7에 도시된 위치들에 놓여진 3개의 마이크로부터의 신호를 이용하여 계산되었다. 따라서, ANN에 대한 입력 노드의 개수와 동일한 3개의 시간 지연이 있었다. 시간 지연 추정 방법에 의해 일어나는 오차는 본 발명에서 고려되지 않았다. 따라서 시간 지연은 각각의 마이크에 대한 청취자의 거리를 이용하여 계산되었다. 각각의 위치에 대한 클러스터 인덱스는 상술한 본 발명의 공간 분할 방법에 의해 주어지며, 이는 도 8a 내지 8c의 상부에 도시된다. ANN을 트레이닝하기 위한 최대 반복 회수는 10000으로 설정되었다. ANN 입력값 (시간 지연) 모두가 그들의 분산 및 평균에 의해 정규화되었다. 역 전파 트레이닝 알고리즘 (back propagation training algorithm)의 경우에, 학습 이득 (learning gain, η)은 0.5로 설정되었고, 시그모이드 활성 함수 (sigmoid active function)의 운동량 상수 (momentum constant, α)는 0.7로 설정되었다.
[156] 분류 결과는, 도 8a내지 8c에 도시된 바와 같이, 각각의 클러스터
경계 (boundary)의 전체 형상이 오리지널 공간 클러스터링 결과와 유사하다는 것을 명확하게 보여주었다. 각각의 클러스터의 경계 형상이 본래의 분할보다 매끄러웠다는 것이 주목할 만하다. 예를 들어, 오리지널 분할에서 종종 관측되었던 클러스터 경계의 톱니-형상이 대부분 사라졌다. 이는 ANN으로부터 얻어진 분류 경계의 형상은 노드의 개수 및 채택된 활성 함수 (active function)에 의해 특징 지워진다는 사실에 기인한다. 따라서, 제한된 개수의 ANN노드가 매끄러운 클러스터 형상을 생성했다. 그러나, 보다 단순한 분류 경계 형상은 클러스터 경계 구역에서 분류 오차를 야기한다. 실험 결과에 따르면, 클러스터의 개수가 각각 4, 8, 및 16이었을 때, 정확한 분류율 (correct classification ratio)은 95.1%, 93.4%, 및 92.6%이었다. 이는 클러스터의 개수가증가됨에 따라 분류 오차가 증가된다는 나타낸다. 얻어잔위치의 퍼센트 중 KWB보다큰
CSR을 가지는 것은 각각 59.1%, 77.5%, 및 89.2%이었다. 비록 ANN의 분류 정확도가 클러스터의 개수에 따라 감소되긴 했지만, 1CWB의 CSR보다 큰 CSR을 갖는 영역의 퍼센트에 관한 결과는 상대적으로 많은 개수의
클러스터가 채택되었을 경우 심하게 낮아지지 않았다.
[157] 분류 정확도 및 CSR결과가 ANN에서의 노드 개수 및 마이크 쌍의
개수가 증가되었을 때 약간 개선되었다. CSR 결과는 심자어 ANN에서 매우 많은 개수의 노드 및 많은 개수의 마아크가 이용되었을 때에도 그다지 개선되지 않았다.
[158] C. 피험자 청취 테스트 결과 (Subjective listening test results)
[159] 본 발명의 방법에 의해서 임의의 청취 위치에서 인지된 누화 신호가
적절히 감소되었는지 여부를 검증하기 위해 주관적 청취 테스트가
수행되었다. 검증은 가상 음성 위치에 대한 정확한 식별 점수를 평가하는 것으로 이루어졌다. 수평면 상에서의 미리 명시된 13개 방향의 가상 음성 상 (virtual sound image)들이 공간 분할 규칙을 구성하는데 채택된
HRTF를 이용하여 렌더링되었다. 이어 6개의 위치가 가상 청취 공간 내에서 무작위로 선택되었다. 따라서, 위치 및 가상 음성 방향의 조합의 개수는 78이었다. 각각의 샘플링 위치에 대한 누화 제거 필터가 해당 클러스터로부터 선택되었다. 클러스터의 개수는 16이 되도록
선택되었는데, 16은 모든 누화 제거 필터를 나타내는데 필요한 정보의 양과 결과사이에서 좋은 절층안이었다. 무잔향 환경 및 잔향이 있는 환경 (잔향 환경)에 대한 평가가 수행되었다.
[160] 1) 무향 환경에 대한 평가 (Evaluation for anechoic environment):
무향실 (4x3 x 1.5m3, WDH)에서 12명의 피험자가 참여하는 청취 테스트가 수행되었다. 모든 피험자는 정상적인 청각 능력을 가졌다. 각각의
피험자는 결정을 하기 전에 필요한 횟수만큼 자극을 청취하도록
허용되었다. 청취자 피로의 효과를 완화시키기 위해, 청취 테스트는 3개의 세션으로 나누었다. 각각의 피험자에게 각각의 세션 내에서 22개의 자극이 주어졌다. 피험자의 귀의 높이는 1.2m아었으며, 이는
라우드스피커와 동밀한 높이였다. 2개의 라우드스피커 사이의 거리는
4m이었으며, 이는 가상 청취 공간 내의 거리와 동일했다. 평가 위치는 무향실의 중앙에 위치된 직사각형 구역 (3.5x2.5 m2,WD)으로부터 무작위로 선택되었다.
[161] 100ms의 코사인 페이드 인 (fade-in)와 페이드 아웃 (fade-out)을 갖는 1초 핑크 잡음 샘플 (1-second pink-noise sample)이 음원으로서 이용되었다. 자극의 수준은 피크 A-가중치 음압 레벨 (peak A-weighted sound pressure level)이 70dB을 초과하지 않도록 조정되었다. 이는 레벨 적웅 (level adaptation)을 방지하기 위해 수행되었다. 한사람에 대해 계산된 테스트 시¾스에 대한 이득 조정 (gain adjustment)은 행해지지 않았는데, 왜냐하면 레벨에서의 유일한 가변성 (only variability in level)은 사용된 누화 제거 필터에 의해 도입되었기 때문이다. 음성은 한 쌍의 제네렉 8020A(GENELEC 8020A) 이증 증폭 모니터 스피커 (bi- amplified monitor speaker)를 통해 제공되었다. 실험에서, 피험자가 비주얼 큐 (visual que)에 의해 음성의 방향을 판단하는 것을 방지하기 위해 라우드스피커는 음향 투과성 스크린 뒤에 배치되었다. 공간 분할에서 오로지 직접적인 음성만이 고려되었다는 것, 즉 식 (11) = 0forK≥l이라는 것을 유념한다.
[162] 도 12는 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거 방법의 실험예에 따른 주관적 측위 테스트의 결과를 도시한 그래프이며, 가로축은 타겟 방위각 (도)를 나타내고, 세로축은 판단된 방위각 (도)를 나타낸다. 참고로, 도 14는 도 12와 비교를 위해 도시한 위치 기반 누화 제거에 대한 측위 테스트 결과를 나타낸다.
[163] 도 12 및 14에서 측위 테스트 (localization test)의 결과를 보여주는데 이들은 여기서 타겟 각도 대 판단한 각도를 보여준다. 각각의 원의 크기는 가상 음성 방향에 대한 정확한 식별율에 비례한다. 상술한 바와 같이 비교를 위해, 본 발명의 공간 분할을 이용한 셀 기반의 누화 제거 방법에 따른 측위 결과가 도 12에 도시되었고, 기존의 위치 기반 누화 제거 방법에 따른 측위 결과가 도 14에 도시되었다. 먼저 도 14는 누화 제거 필터가 각각의 청취자 위치에서 계산된 경우쎄 관한 것이다. 이러한 경우는 "위치 기반 누화 제거 (posit ion— based cross-talk
cancellation)" 로 불린다. 도 12의 결과는 본 발명에서 제안된 샐 기반 누화 제거 (cell-based cross-talk cancel 1 at ion)의 경우에 대한 것이다. 2경우 모두에서, 가상 음원이 좌 /우측 코너 근처와 정면에 (±80° , 0° 의 방위각)에 위치할 때, 공통적으로 더 정확한 식별율이 관측되었다. 중간 방위각 (-40° —10° , 10° -40° )의 경우에는, 2경우 모두에서 전반적으로 정확도가 낮았다. 이는 주로 방위각이 조밀하게 이격되었으며 대부분의 피험자가 가상 음성 방향에서의 미세한 차이를 구별하는 것이 어려웠기 때문이다. 위치 기반 누화 제거 및 셀 기반 누화 제거의 경우에 전체적인 정확한 식별율은 각각 43.7% 및 41.73%이었다. 이러한 결과는 심지어 샐 대 샐 누화 제거 (cell-by-cell cross-talk cancel 1 at ion)가 수행될 때에도 음성 측위에 관하여 전반적인 결과가 그다지 낮아지지 않았다는 것을 나타낸다. 위치 기반 누화 제거의 경우에, HRTF보간법이
채택되었으며, 여기서 (전방 방위각에 해당하는) 총 36개의 HRTF가 이용되었다. 따라서, 조사 결과는 심지어 누화 제거를 위해 필요한 정보의 양이 55%만큼 감소되었을 때에도 음성 측위 성과가 적절히 유지되었다는 것을 나타낸다. 또한, 미리 구성된 누화 제거 필터가 이용되었기 때문에, 셀 기반 구성에서는 누화 제거 필터 계수를 획득하기 위한 긴 계산 시간이 필요하지 않았다.
[164] 2) 잔향 환경에 대한 평가 (Evaluation for reverberation environment):
[165] 도 13은 본 발명의 공간 분할을 이용한 위치 의존형 누화 제거 방법을 적용한 잔향 환경 (가정 거실)에 대한 주관적 측위 테스트의 결과를 보여주는 도면으로서, 가로축은 타켓 방위각 (도)이고 세로축은 판단된 방위각 (도)를 나타낸다.
[166] 본 발명의 누화 제거 방법의 유효성을 보다 실질적으로 검증하기 위해, 일상 환경에서의 주관적 성과를 평가할 필요가 있다. 이를 위해, 청취 테스트가 본래부터 홈 씨어터 (home theater)로 조성된 가정 거실 (8x6x 2.5 m3,WDH) 에서 또한 수행되었다. 불필요한 에코를 방지하기 위해, 벽에 방음 커튼이 설치되었으며 카펫으로 실내 바닥 덮었다. 청취
테스트의 프로토콜은, 공간 분할에서 반사형 신호가 고려되었던 것을 제외하고는, 상술한 무향 환경에 대한 프로토콜과 동일했다. 16개의 클러스터가 있었으며, 동일한 12명의 피험자가 이 테스트에 참가했다.
[167] 결과는, 도 13에 도시된 바와 같이, 전반적인 경향이 무향 환경인
경우의 전반적인 경향과 유사하였다. 전반적으로 정확한식별율은
40.5%이었으며, 이는 무향 환경보다 크게 낮지는 않았다. 그러나, 정확한 방향과 인지된 방향 간의 편차는 무향 환경의 결과에 비해 더 컸다. 또한, 가상 음원이 ±55° 의 방위각에 위치할 때, 음성 방향은 종종 인접한 방향 (±40° )으로 인지되었다. 이는 피험자가 벽에 더 가까이 앉았을 때 더 자주 관측되었다. 이는 비록 공간 분할에서 잔향 효과가 고려되긴 했지만 인지된 음성 방향이 잔향 효과에 의해 다소 영향을 받았다는 것을 나타낸다. 실내 임필스 반웅의 단순한 표현 (단지 초기 반사만
고려되었음)은 벽의 측부 근처에서 누화 제거 성과를 낮추는 가능한 원인이다. 그러므로, 실제 상황인 경우에, 특히 벽 측부에서 잔향 효과에 대한 보다 더 정밀한 표현이 위치 기반 누화 제거를 갖는 오다오 시스템의 전체적인 성능을 높이는데 도움이 될 것이다.
[168] [결론]
[169] 본 발명은 임의의 청취 위치에서 적절한 정도의 누화 제거가 달성될 수 있는 음성 렌더링 방법을 제공한다. 이러한 방법은 전체 청취 공간을 복수의 비중첩 클러스터로 분할하고 각각의 클러스터에 대해 적합한 누화 제거 필터를 할당함으로써 구현되었다. 청취 공간을 나누고 나서 한 세트의 누화 제거 필터를 구성하는 새로운 방법을 제공하며, 이는 최대 CSR 기준에 기반을 둔다. 주어진 청취 위치에 대한 클러스터 인덱스를 획득하기 위해 ANN이 채택되었다. 본 발명의 유효성이 실험을 통해 어느 정도 검증되었다. 객관적인 평가에서, 청취 공간 내의 대부분의 위치가 10dB보다 큰 채널 분리율을 가졌다. 기대되는 결과가 주관적인 청취 테스트에서 또한 얻어졌는데, 가상 음성 위치에 대한 정확한 식별률이 포지션 바이 포지션 기반 방식과 필적할 만하였다.
[170] 본 발명의 셀 기반 누화 제거 방식에는 몇 가지 제약이 있다. 이동하고 있는 청취자를 위해 필터 매개변수가 연속적으로 갱신되는 웅용에서:, 클러스터 경계에서의 필터 매개변수의 스위칭은 성가신 비연속성을 야기했다. 이 결과는 또한 채널 분리율의 관점에서의 성능이 전체 청취 공간에 걸쳐 균일하게 유지되지 않았다는 것을 보여주었다. 향후의 연구는 이들 이슈에 집증할 것이다.

Claims

청구의 범위
[청구항 1] 스피커를 이용하는 바이노럴 재생시스템에서 누화를 제거하는 방법으로서: 청취 공간을 복수개의 셀영역으로 분할하는 단계; 및 상기 복수개의 셀영역 각각의 최적 위치에 하나의 누화 제거 필터를 할당하는 단계;를 포함하는, 공간 분할을 이용한 위치 의존형 누화 제거 방법.
[청구항 2] 청구항 1에 있어서 ,
상기 단계 (2)에서 상기 최적 위치는 분할된 복수개의 셀영역 내의 모든 지점 중에 채널 분리율의 합또는 평균이 최대가 되는 지점이며, 상기 채널 분리율은 최초 신호의 대각성분과 누화 신호의 비대각성분 사이의 비율을 나타내는 것인, 공간 분할을 이용한 위치 의존형 누화 제거 방법.
[청구항 3] 청구항 2에 있어서,
상기 채널 분리율은 좌측 채널에 대한 것과 우측 채널에 대한 것의 최소값을 선택하는 것인, 공간 분할을 이용한 위치 의존형 누화 제거 방법 .
[청구항 4] 청구항 1 내지 3에 있어서,
상기 단계 (2) 이후에, 인공 신경망을 이용하여 상기 복수의 셀영역의 지수를 추정함으로써 청취 위치의 추정을 수행하며, 상기 청취 위치의 추정은 상기 청취 공간에 설치된 마이크 쌍 간으로부터 신호의 시간지연으로부터 추정되는 것인, 공간 분할을 이용한 위치 의존형 누화 제거 방법.
[청구항 5] 청구항 1에 있어서, 상기 단계 1 및 2는:
(a-1) 청취 공간이 주어지면, 상기 청취 공간을 각각 임의의 형태를 가지는 상기 복수개의 샐영역 (S(0) = {si0),s 0)))으로 분할하는 초기화를 수행하는 단계; (a-2) 상기 복수개의 샐영역 、 각각에 대하여 셀영역 전체의 모든 위치에 걸쳐서 평가된 채널 분리율 의 합이 최대가 되는 지점 (ί 에 하나의 누화 제거 필터를 할당하는 누화 제거 필터 세트를 할당 단계; 및 (a- 3) 상기 누화 제거 필터를 이용하여 상기 청취 공간을 재분할 하는 단계;를 포함하는 것인, 공간 분할을 이용한 위치 의존형 누화 제거 방법 .
[청구항 6] 청구항 5에 있어서,
상기 단계 (a-2)와 상기 단계 (a-3)은 소정 조건까지 반복하는 것 인, 공간 분할을 이용한 위치 의존형 누화 제거 방법.
[청구항 7] 청구항 6에 있어서, 상기 단계 (a-1)에서 문턱값 e,f(0) = -co 및 i = 0을 설정하며, 상기 단계 (a-2)와 상기 단계 (a-3)의 반복에서 : 반복적으로 구해지는 누화 제거 필터의 위치 다음의 식에 따라산출되고,
Figure imgf000024_0001
여기에서, l≤ n≤N이고?'은 기본 셀영역에 속하는 영역의 지점들로 주어지며,
n번째 반복된 복수개의 셀영역은 다음식으로 주어지며ᅵ,
+1) = {r\CSR{^,r)≥ CSR{f^ f), l≤m≤N,m≠n) 여기서 1≤η≤Λί이고, 그에 따라 i번째 반복에서 최적 클러스터 세트가 다음식으로 주어지며,
5(i+1) = s +1)s +i) ,.·., s ÷i)j
ί'번째 반복에서 CSR의 합이 다음식으로 주어질 때,
Figure imgf000024_0002
만일 (fW-^-^/^-^ e라면, 각각 최종 세트의 클러스터 및 누화 제거 필터를 획득하기 위한 최종 세트의 위치들을 나타내는 S(i+1), R(i)를 정지하고, 그렇지 않다면, ί를 + 로 대체하고, 다시 상기 단계 (a-2)로 진행하여 반복하는 것인, 공간 분할을 이용한 위치 의존형 누화 제거 방법 .
[청구항 8] 청구항 1 또는 7에 있어서,
상기 복수개의 셀영역의 각각은 상호 비중첩되는 것인, 공간 분할을 이용한 위치 의존형 누화 제거 방법 .
PCT/KR2012/006332 2012-07-30 2012-08-09 공간 분할을 이용한 위치 의존형 누화 제거 방법 WO2014021492A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2012-0083506 2012-07-30
KR1020120083506A KR101404411B1 (ko) 2012-07-30 2012-07-30 공간 분할을 이용한 위치 의존형 누화 제거 방법

Publications (1)

Publication Number Publication Date
WO2014021492A1 true WO2014021492A1 (ko) 2014-02-06

Family

ID=50028148

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2012/006332 WO2014021492A1 (ko) 2012-07-30 2012-08-09 공간 분할을 이용한 위치 의존형 누화 제거 방법

Country Status (2)

Country Link
KR (1) KR101404411B1 (ko)
WO (1) WO2014021492A1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010096678A (ko) * 2001-07-10 2001-11-08 김풍민 멀티채널 스피커에서 실시간으로 크로스톡을 제거하여입체음향을 재생하는 방법 및 그 시스템
JP2002236500A (ja) * 2001-02-08 2002-08-23 Nippon Telegr & Teleph Corp <Ntt> 多チャネル雑音抑圧装置、その方法、そのプログラム及びその記録媒体
US20040179693A1 (en) * 1997-11-18 2004-09-16 Abel Jonathan S. Crosstalk canceler
KR100718160B1 (ko) * 2006-05-19 2007-05-14 삼성전자주식회사 혼선제거장치 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040179693A1 (en) * 1997-11-18 2004-09-16 Abel Jonathan S. Crosstalk canceler
JP2002236500A (ja) * 2001-02-08 2002-08-23 Nippon Telegr & Teleph Corp <Ntt> 多チャネル雑音抑圧装置、その方法、そのプログラム及びその記録媒体
KR20010096678A (ko) * 2001-07-10 2001-11-08 김풍민 멀티채널 스피커에서 실시간으로 크로스톡을 제거하여입체음향을 재생하는 방법 및 그 시스템
KR100718160B1 (ko) * 2006-05-19 2007-05-14 삼성전자주식회사 혼선제거장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GIM, DONG MUN ET AL.: "Fast algorithm for user adapted music recommendation system using space partition", KOREA FUZZY LOGIC AND INTELLIGENT SYSTEMS SOCIETY PROCEEDINGS OF THE PROCEEDINGS OF THE 2007., vol. 17, no. 1, April 2007 (2007-04-01), pages 109 - 112 *

Also Published As

Publication number Publication date
KR101404411B1 (ko) 2014-06-10
KR20140016652A (ko) 2014-02-10

Similar Documents

Publication Publication Date Title
Marquardt et al. Interaural coherence preservation in multi-channel Wiener filtering-based noise reduction for binaural hearing aids
JP2013524562A (ja) マルチチャンネル音響再生方法及び装置
WO2015134658A1 (en) Structural modeling of the head related impulse response
US20110026745A1 (en) Distributed signal processing of immersive three-dimensional sound for audio conferences
KR20130116271A (ko) 다중 마이크에 의한 3차원 사운드 포착 및 재생
CN107820158B (zh) 一种基于头相关脉冲响应的三维音频生成装置
Ahrens et al. Measuring and modeling speech intelligibility in real and loudspeaker-based virtual sound environments
Vesa Binaural sound source distance learning in rooms
Gupta et al. Augmented/mixed reality audio for hearables: Sensing, control, and rendering
van de Par et al. Auditory-visual scenes for hearing research
Guiraud et al. An introduction to the speech enhancement for augmented reality (spear) challenge
Klasen et al. Preservation of interaural time delay for binaural hearing aids through multi-channel Wiener filtering based noise reduction
Rychtáriková et al. Binaural sound source localization in real and virtual rooms
Ma et al. Concept and Perceptual Validation of Listener-Position Adaptive Superdirective Crosstalk Cancellation Using a Linear Loudspeaker Array
KR100818660B1 (ko) 근거리 모델을 위한 3차원 음향 생성 장치
Kurz et al. Prediction of the listening area based on the energy vector
Hsu et al. Model-matching principle applied to the design of an array-based all-neural binaural rendering system for audio telepresence
WO2014021492A1 (ko) 공간 분할을 이용한 위치 의존형 누화 제거 방법
Massicotte et al. LSTM with scattering decomposition-based feature extraction for binaural sound source localization
Lee Position-dependent crosstalk cancellation using space partitioning
Lacouture-Parodi et al. Application of particle filtering to an interaural time difference based head tracker for crosstalk cancellation
EP3530006A1 (en) Apparatus and method for weighting stereo audio signals
Salvador et al. Enhancement of Spatial Sound Recordings by Adding Virtual Microphones to Spherical Microphone Arrays.
Gari et al. Towards determining thresholds for room divergence: A pilot study on perceived externalization
Đurković Localization, tracking, and separation of sound sources for cognitive robots

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12882468

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12882468

Country of ref document: EP

Kind code of ref document: A1