WO2014208387A1 - 音声信号処理装置 - Google Patents

音声信号処理装置 Download PDF

Info

Publication number
WO2014208387A1
WO2014208387A1 PCT/JP2014/065926 JP2014065926W WO2014208387A1 WO 2014208387 A1 WO2014208387 A1 WO 2014208387A1 JP 2014065926 W JP2014065926 W JP 2014065926W WO 2014208387 A1 WO2014208387 A1 WO 2014208387A1
Authority
WO
WIPO (PCT)
Prior art keywords
virtual sound
sound source
audio
audio signal
signal
Prior art date
Application number
PCT/JP2014/065926
Other languages
English (en)
French (fr)
Inventor
健明 末永
純生 佐藤
永雄 服部
幹生 瀬戸
Original Assignee
シャープ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シャープ株式会社 filed Critical シャープ株式会社
Publication of WO2014208387A1 publication Critical patent/WO2014208387A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/13Application of wave-field synthesis in stereophonic audio systems

Definitions

  • the present invention relates to an audio signal processing device.
  • WFS Wave Field Synthesis
  • Huygens' principle For example, countless prime waves (spherical waves, circular waves in the case of two dimensions) can be generated along the wavefront, and secondary waves can be created, and their common tangent (envelope, envelope) becomes a new wavefront.
  • Huygens' principle For example, countless prime waves (spherical waves, circular waves in the case of two dimensions) can be generated along the wavefront, and secondary waves can be created, and their common tangent (envelope, envelope) becomes a new wavefront.
  • Huygens' principle The idea that the wave progresses.
  • the wavefront (the point of the same phase, the mountain for a mountain, the valley for a valley, and the valley point connected) and the wave traveling direction are always perpendicular.
  • the traveling direction is represented by parallel rays, and the wave goes straight.
  • the wave emitted from the point wave source becomes a spherical wave (a circular wave in the case of two dimensions).
  • the wavefront is obtained assuming that the ray representing the traveling direction of the wave is perpendicular to the wavefront.
  • a listener who is listening to sound facing the speaker array in the acoustic space provided by the WFS is actually a sound source (hereinafter referred to as a sound source) in which sound radiated from the speaker array is virtually present behind the speaker array. (Referred to as “virtual sound source”) (see, for example, FIG. 10).
  • a sound source in which sound radiated from the speaker array is virtually present behind the speaker array.
  • virtual sound source Sound source
  • the listener can easily determine the position of the sound source, and can listen to the sound by paying attention to an arbitrary sound source (selective listening to the sound).
  • Patent Document 1 describes a system that enables a virtual sound source to move.
  • each sound is normally switched and viewed.
  • these contents are those in which audio is multiplexed and recorded, specifically, multiple audio broadcasting in broadcast waves, and multi-language multiplexed audio of movie contents that are commercially available on Blu-Ray (BD) ROM or the like. Etc.
  • BD Blu-Ray
  • the user may listen to the voices at the same time for studying the language, or listen to the vocal voices and his / her voice at the same time for karaoke practice.
  • the audio signal that is being watched by the listener who is watching the content changes every moment (for example, depending on the proficiency level and interest of the listener, either English or Japanese speech is used. Therefore, it is required that the listener can easily distinguish these two audio signals. Thus, when listening to two or more input audio signals at the same time, it is difficult for the listener to listen to them easily.
  • the present invention has been made in view of such circumstances, and it is an object of the present invention to provide an audio signal processing technique capable of providing an environment in which a listener can easily listen to each audio signal and pay attention to any audio signal. To do.
  • an audio signal processing device that converts a multiplexed audio input signal into a system that can be reproduced by an array speaker including a plurality of speakers, and separates the multiplexed audio signal.
  • a downmix processing unit that performs downmixing of each of the plurality of audio input signals obtained in the above, and each of the audio input signals downmixed by the downmix processing unit is regarded as a signal from an individual virtual sound source,
  • a virtual sound source setting unit that gives position information to the virtual sound source, and a wavefront synthesis processing unit that generates an output signal from each of the array speakers based on the generated positional relationship between the virtual sound source and the array speakers;
  • An audio signal processing device is provided.
  • a downmix processing unit that performs a downmix of each of a plurality of audio input signals obtained by separating multiplexed audio signals, a configuration in which a plurality of sounds can be heard simultaneously can be obtained.
  • a plurality of sounds can be heard simultaneously.
  • FIG. 1 It is a block diagram which shows the example of 1 structure of the audio
  • FIG. 6A is a diagram illustrating an example in which the delay amount ⁇ ij is proportional to the distance between the virtual sound source S j and each speaker SP i
  • FIG. 6B is based on an nth-order curve function. It is a figure which shows the example which calculates
  • FIG. 1 is a block diagram showing a configuration example of an audio signal processing system according to an embodiment of the present invention.
  • the audio signal processing system according to this embodiment includes a signal receiving unit 101 that receives an input signal, a decoding that decodes the received signal, separates it into a video signal and an audio signal, and further separates the multiplexed audio signal into each of them.
  • the audio signal processing unit 103 that processes a plurality of audio signals obtained from the audio separation unit 102 and the multiplexed audio separation unit 102 and converts them into an audio signal subjected to wavefront synthesis processing, and the digital signal output from the audio signal processing unit 103 It has a D / A converter 104 that converts to an analog signal, an amplification unit 105 that amplifies the output analog signal, and an output unit 106 that outputs the amplified analog signal.
  • the signal receiving unit 101 receives moving image content or audio content from an external storage device such as a broadcast wave, a BD recorder, or a network.
  • an external storage device such as a broadcast wave, a BD recorder, or a network.
  • the multiplex audio separation unit 102 decodes the moving image content or the audio content received by the signal reception unit 101, and extracts an audio signal from the decoded content. Further, when the extracted audio signals are multiplexed, these are extracted as individual audio signals and passed to the audio signal processing unit 103.
  • an actual audio signal is a continuous data group having an arbitrary length, but in this processing example, a description will be given assuming that the received audio signal is divided into audio signal strings (segments) of a certain length and processed.
  • an audio signal used for each process is an audio signal cut out in units of segments.
  • the audio signal processing unit 103 receives a plurality of audio signals separated by the multiplex audio demultiplexing unit 102 and outputs them as audio signals of a plurality of channels.
  • the number N of channels to be output is determined in advance, and is matched with the number of channels of the output unit 106 described later.
  • the D / A converter 104 converts the audio signals of the plurality of channels output from the audio signal processing unit 103 from digital signals to analog signals, and the amplification unit 105 amplifies the converted analog signals, and outputs the output unit 106. Output to.
  • the output unit 106 has N channels of output speakers arranged in an array (401), and outputs the signal of each channel subjected to the wavefront synthesis processing from each speaker as a sound ( 403).
  • the audio signal processing unit 103 includes a downmix processing unit 201, a virtual sound source setting unit 202, and a wavefront synthesis processing unit 203.
  • Downmix refers to a process of mixing audio signals having a plurality of channels and generating audio signals having a smaller number of channels than the original number of channels. For example, in a case where Dolby Digital 5.1 channel audio is reproduced using only two front speakers, the center and surround signals are mixed and reproduced in the front two channels.
  • FIG. 9 is a flowchart showing the flow of downmix processing.
  • the audio signal processing unit 103 receives a plurality of audio signals separated by the multiple audio demultiplexing unit 102 and passes them to the downmix processing unit 201 (step S1).
  • the downmix processing unit 201 performs a downmix to a monaural signal with respect to a multichannel or stereo channel audio signal among a plurality of received audio signals. That is, the stereo signal is downmixed to the monaural signal Sm by, for example, the following equation 1 (step S2).
  • a plurality of signals such as multi-channel (5.1, 7.1, etc.) input signals and stereo signals are input, and only a plurality of stereo signals and multi-signals are input. This includes the case where is entered.
  • the stereo signals S L and S R are respectively the left channel and right channel signal inputs of the stereo channel, and a 1 and a 2 are arbitrary preset values. It is a coefficient.
  • a multi-channel signal specifically a 5.1 channel signal, is temporarily converted into a stereo signal L ⁇ , R by the following formula 2 shown in, for example, ARIB STD-B21 “Digital Broadcasting Receiver Standard”. After being converted to ⁇ , the signal is downmixed to the monaural signal S m using the above Equation 1.
  • the multi-channel signal may be monauralized using an expression other than the above, for example, using arbitrary coefficients a 1 to a 5 , (Formula 3) It is also good.
  • the virtual sound source setting unit 202 regards each of the plurality of audio signals converted into monaural signals (S m ) by the downmix processing unit 201 as an individual virtual sound source, and gives position information thereto (step S3).
  • the N speaker rows 401 shown in FIG. 4 are arranged at equal intervals of ⁇ x, and an xz plane with the center of the speaker row as the origin is defined.
  • N 8.
  • the position of each speaker on the xz plane is located at an interval of ⁇ x on the x axis from ( ⁇ 3.5 ⁇ x, 0) to (3.5 ⁇ x, 0) as shown in the figure.
  • each of the plurality of audio signals received from the downmix processing unit 201 is regarded as a virtual sound source that is sounding at an arbitrary position on the xz plane, and position information is associated with the audio signal.
  • position information (x 1 , z 1 ) is linked to the first input signal, and this is used as the virtual sound source S1, which is also the second input.
  • the position information (x 2 , z 2 ) is associated with the signal to obtain a virtual sound source S2.
  • Reference numerals 303, 403, and 507 denote wavefronts of the audio signal generated by the processing of the wavefront synthesis processing unit 203 described later. Further, it is assumed that the position information (x 1 , z 1 ) and the position information (x 2 , z 2 ) are set in advance.
  • the wavefront synthesis processing unit 203 performs a wavefront synthesis process of the audio signal based on the virtual sound source set by the virtual sound source setting unit 202 (step S4).
  • each position is from ( ⁇ 3.5 ⁇ x, 0) on the xz plane with the center of the speaker array 503 as the origin (0).
  • ⁇ x intervals (1 interval) are arranged on the x-axis up to (3.5 ⁇ x, 0).
  • the output signal O i for an arbitrary loudspeaker SP i is calculated by the following formula 4.
  • a sound signal output from the virtual sound source is calculated by the following formula 5, as shown in the above formula 4, from the speaker SP i
  • the output signal O i is represented by the sum of output signals from the virtual sound sources S1 and S2.
  • Equation 5 x ij (n ⁇ ij ) is an input delayed by ⁇ ij , that is, an audio signal obtained from each of the virtual sound sources S1 and S2.
  • the delay amount ⁇ ij is set according to the distance d ij between the virtual sound source S j and each speaker SP i .
  • the delay amount ⁇ ij is the same as the virtual sound source S j . It is assumed that it is proportional to the distance of each speaker SP i .
  • the distance d ij indicates the Euclidean distance between the virtual sound source S j and each speaker SP i.
  • the distance d ij is obtained by the following equation (6). It is done.
  • g ij (n) represents a gain coefficient
  • the magnitude of the input gain from each virtual sound source is determined according to the distance d ij as shown in the following equation 7.
  • the output of the sound signal by the present system has the effect that the sound image is localized in the direction of the sound source of the sound by the preceding sound effect based on Equation 5 in the processing in the wavefront synthesis processing unit 203, and is thus received.
  • the listener can easily listen to each sound source. Accordingly, there is an advantage that even if a plurality of audio signals are being listened to at the same time, the listener can freely select a sound to be noticed depending on the time.
  • the audio processing device can also be used for an audio output device such as a stereo.
  • the delay amount ⁇ ij has been described as being proportional to the distance d ij as shown in the graph of FIG. 6A , but an arbitrary function, for example, As shown in FIG. 6B, the delay amount ⁇ ij with respect to the distance d ij may be obtained based on the n-th order curve function.
  • the position information (x1, z1) and (x2, z2) are set in advance.
  • the position of the virtual sound source is input from the listener. Acceptance is determined (for example, the position is operated with the up / down / left / right cursor keys of the remote controller).
  • a user input acquisition unit 701 is provided to acquire the listener's input.
  • FIG. 8 is a block diagram showing a configuration example of an audio signal processing system according to the fourth embodiment of the present invention.
  • the audio signal processing apparatus according to the present embodiment is realized by causing the computer 801 to execute the computer program 810 according to the present embodiment.
  • the computer 801 includes a CPU (Central Processing Unit) 802 that controls the entire apparatus.
  • the CPU 802 includes a ROM (Read Only Memory) 803, a RAM (Random Access Memory) 804 that stores temporary information generated in accordance with the calculation, and a recording medium 809 that stores the computer program 810 according to the embodiment of the present invention.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • an external storage device 805 that reads a computer program 810 from a CD-ROM
  • an internal storage device 806 such as a hard disk that records the computer program 810 read by the external storage device 805, an input unit 807, and an output unit 808 are connected.
  • the CPU 802 implements the audio signal processing method by reading the computer program 810 from the internal storage device 806 into the RAM 804 and executing various arithmetic processes.
  • each processing block of the computer program 810 is the same as the processing content of each component shown in FIG. To do.
  • the input to the computer 801 is an audio signal that is separated by the signal receiving unit 101 and the multiplexed audio separating unit 102 existing outside the computer 801.
  • the digital signal output is output to the output unit 106 via the D / A converter 104 and the amplification unit 105 provided outside the computer 801.
  • these configurations may be included in the computer 801.
  • the computer 801 functions as the audio signal processing device according to the first embodiment, and the audio signal processing method according to the above-described example is performed. The same effects as in the case of the first embodiment can be achieved.
  • the above apparatus may be in the form of an integrated circuit, for example, or may be in a form that functions as a program. These functions may be incorporated in, for example, an audio device, a PC, a smartphone, or the like.
  • Each component of the present invention can be arbitrarily selected, and an invention having a selected configuration is also included in the present invention.
  • a program for realizing the functions described in the present embodiment is recorded on a computer-readable recording medium, and the program recorded on the recording medium is read into a computer system and executed to execute processing of each unit. May be performed.
  • the “computer system” here includes an OS and hardware such as peripheral devices.
  • the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
  • the “computer-readable recording medium” means a storage device such as a flexible disk, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory in a computer system serving as a server or a client in that case, and a program that holds a program for a certain period of time are also included.
  • the program may be a program for realizing a part of the above-described functions, or may be a program that can realize the above-described functions in combination with a program already recorded in a computer system. At least a part of the functions may be realized by hardware such as an integrated circuit.
  • An audio signal processing apparatus that converts a multiplexed audio input signal into a method that can be reproduced by an array speaker including a plurality of speakers, A downmix processing unit for downmixing each of a plurality of audio input signals obtained by separating the multiplexed audio signal;
  • Each of the audio input signals downmixed by the downmix processing unit is regarded as a signal from an individual virtual sound source, and a virtual sound source setting unit that gives position information to the virtual sound source;
  • An audio signal processing apparatus comprising: a wavefront synthesis processing unit that generates an output signal from each of the speakers based on the generated virtual sound source and the positional relationship between the speakers of the array speaker.
  • a plurality of sounds can be heard simultaneously. Moreover, it becomes easy to distinguish the attention voice that changes from time to time.
  • the downmix processing unit The audio signal processing apparatus according to (1), wherein the audio signal that is a multi-channel or stereo channel among the plurality of audio input signals is downmixed to a monaural signal.
  • x ij (n ⁇ ij ) is an input audio signal delayed by ⁇ ij
  • the delay amount ⁇ ij is a speaker set according to the distance d ij between the virtual sound source S j and each speaker SPi. It is set based on the positional relationship between SPi and each virtual sound source.
  • g ij (n) represents a gain coefficient
  • the magnitude of the input gain from each virtual sound source is determined according to the distance d ij as shown in the following equation.
  • S L and S R are signal inputs of the left channel and the right channel of the stereo channel, respectively, and a 1 and a 2 are arbitrary coefficients set in advance.
  • the downmix processing unit temporarily converts the multichannel into stereo signals L ⁇ t and Rt ⁇ according to the following equation 2, and then downmixes the monochannel into the monaural signal Sm using the equation 1. 5.
  • the audio signal processing device according to any one of up to 5).
  • S L , S R , S C , S SL , and S SR are front left, front right, center, surround left, and surround right, which are channels constituting 5.1ch, respectively.
  • An audio output device comprising the audio signal processing device according to any one of (1) to (7).
  • Computer An audio signal processing apparatus that converts a multiplexed audio input signal into a method that can be reproduced by an array speaker including a plurality of speakers, A downmix processing unit for downmixing each of a plurality of audio input signals obtained by separating the multiplexed audio signal; Each of the downmixed audio input signals is regarded as a signal from an individual virtual sound source, and a virtual sound source setting unit that gives position information to the virtual sound source; A computer program that functions as a wavefront synthesis processing unit that generates an output signal from each of the speakers based on the generated positional relationship between the virtual sound source and the array speaker.
  • the present invention can be used for an audio signal processing apparatus.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

 多重化された音声入力信号を複数のアレイスピーカによって再生可能な方式に変換する音声信号処理装置であって、前記多重化された音声信号を分離して得られた複数の音声入力信号の各々のダウンミックスを行うダウンミックス処理部と、前記ダウンミックス処理部でダウンミックスされた音声入力信号の各々を少なくとも2つの仮想音源のそれぞれからの信号とみなし、前記仮想音源に位置情報を与える仮想音源設定部と、生成された前記仮想音源とアレイスピーカのスピーカ各々の位置関係とに基づいて、前記アレイスピーカの各々からの出力信号を生成する波面合成処理部と、を備えることを特徴とする音声信号処理装置。

Description

音声信号処理装置
 本発明は、音声信号処理装置に関する。
 近年、欧州を中心に波面合成技術(Wave Field Synthesis:WFS)を基本原理とするオーディオシステムの研究が盛んに行われている(例えば、非特許文献1)。WFSとは、アレイ状に並べられた複数のスピーカ(以下、「スピーカアレイ」と呼ぶ。)から放射される音の波面をホイヘンスの原理に基づき合成する技術である。例えば、波面に沿って無数の素元波(球形の波、2次元の場合は円形の波)といわれる2次的な波ができ、その共通接線(包絡面、包絡線)が新たな波面になって、波が進んでいくという考え方をホイヘンスの原理という。波面(同位相の点、山なら山、谷なら谷の点を連ねたもの)と波の進む向きは常に垂直である。平面波ではその進行方向は平行な射線で表され、波は直進していく。点波源から出た波は球面波(2次元の場合は円形波)になる。このときも、波の進行方向を表す射線は波面に対して垂直であるとして波面を求める。
 WFSによって提供される音響空間内においてスピーカアレイと対面して音を聴いている受聴者は、実際にはスピーカアレイから放射される音が、スピーカアレイの後方に仮想的に存在する音源(以下、「仮想音源」と呼ぶ。)から放射されているかのような感覚を受ける(例えば、図10参照)。これにより、受聴者は、音源の位置を容易に判別出来き、任意の音源に対して注目して聴く(音声の選択的聴取を行う)事が出来る。
 WFSシステムを適用することが可能な装置としては、映画、オーディオシステム、テレビ、AVラック、テレビ会議システム、テレビゲーム等がある。例えば、ディジタルコンテンツが映画の場合、俳優の存在が仮想音源という形でメディアに記録されている。したがって、会話をしながらスクリーン内を俳優が移動する場合、スクリーン内の俳優の動き方向に合わせて仮想音源をスクリーンに対して左右、前後及び任意の方向に定位させることができる。例えば特許文献1には、仮想音源を移動可能にするシステムが記載されている。
特表2007-502590号公報 特開平6-311448 号公報 特開2010-507927号公報
ベルクハウト、ド ブリース、フォーゲル(A. J. Berkhout, D. de Vries, and P. Vogel)著、「アコースティック コントロール バイ ウェーブフィールド シンセシス (Acoustic control by wave field synthesis)」(オランダ)、第93(5)版、ジャーナル・オブ・ジ・アコースティカル・ソサイエティ・オブ・アメリカ(J.Acoust. Soc)、1993年5月、p.2764-2778
 ところで、一つのコンテンツに対し、複数の音声が紐付けられている場合、通常は各音声を排他的に切り替えて視聴する。これらコンテンツの例としては、音声が多重記録されているもの、具体的には、放送波における多重音声放送や、Blu-Ray(BD)ROMなどで市販されている映画コンテンツの多言語による多重音声などが挙げられる。しかし、一方で、これら音声を同時に聴取したいと言った要望もある。例えば日本語と英語の音声を含むコンテンツにおいて、語学の勉学の為に音声を同時に受聴したり、カラオケの練習の為に、ボーカル音声と自分の音声を同時に聴取する場合である。
 このような場合に、複数の音声信号をミキシングした上で出力することが考えられるが(例えば、上記特許文献2、特許文献3参照)、ミキシングされた信号では、その時々で変わる受聴者が注目する音声信号を聴き分け辛いという問題がある。
 例えば、前述の語学学習用途を考えると、コンテンツ視聴中の受聴者が注目する音声信号は刻々と変化する(例えば、受聴者の習熟度や興味に応じて、英語音声または日本語音声のどちらを参照するかが変化する)ため、受聴者がこれら2つの音声信号を容易に聞き分けられるようにすることが求められる。このように、2つ以上の複数の入力音声信号を同時に受聴する際、受聴者がこれらを容易に聴き分けることが難しい。
 本発明は斯かる事情に鑑みてなされたものであり、受聴者が各音声信号を容易に聴き分け、任意の音声信号に注目する環境を提供可能な音声信号処理技術を提供することを目的とする。
 本発明の一観点によれば、多重化された音声入力信号を複数のスピーカからなるアレイスピーカによって再生可能な方式に変換する音声信号処理装置であって、前記多重化された音声信号を分離して得られた複数の音声入力信号の各々のダウンミックスを行うダウンミックス処理部と、前記ダウンミックス処理部でダウンミックスされた音声入力信号の各々を、個別の仮想音源からの信号とみなし、前記仮想音源に位置情報を与える仮想音源設定部と、生成された前記仮想音源と前記アレイスピーカの各々の位置関係とに基づいて、前記アレイスピーカの各々からの出力信号を生成する波面合成処理部と、を備えることを特徴とする音声信号処理装置が提供される。
 多重化された音声信号を分離して得られた複数の音声入力信号の各々のダウンミックスを行うダウンミックス処理部を備えることで、複数の音声を同時に聴取できる形態とすることができる。
 本明細書は本願の優先権の基礎である日本国特許出願2013-134814号の明細書および/または図面に記載される内容を包含する。
 本発明によれば、複数の音声を同時に聴取できる。またその時々で変わる注目音声を聞き分けることが容易になるという利点がある。
本発明の実施の形態に係る音声信号処理システムの一構成例を示すブロック図である。 音声信号処理部の詳細な構成例を示すブロック図である。 図4で定義した構成に仮想音源を配置した例を示す図である。 N個のスピーカ列の例を示す図である。 スピーカアレイとしてスピーカ8つを直線上に配し、各々の位置は、スピーカアレイの中心を原点(0)とするx-z平面上において(-3.5Δx,0)から(3.5Δx,0)までx軸上にΔx間隔に配する例を示す図である。 図6(a)は、遅延量τijが仮想音源Sと各スピーカSPの距離に比例するものとした例を示す図であり、図6(b)は、n次の曲線関数に基づいて距離dijに対する遅延量τijを求める例を示す図である。 ユーザ入力取得部を備えた音声信号処理システムの一構成例を示すブロック図である。 本発明の第4の実施の形態に係る音声信号処理システムの一構成例を示すブロック図である。 ダウンミックス処理の流れを示すフローチャート図である。 スピーカアレイから放射される音が、スピーカアレイの後方に仮想的に存在する音源から放射されているかのような感覚を受ける原理を示す図である。
 (第1の実施の形態)
 以下、本発明の実施の形態について、図面を参照しながら詳細に説明する。
 図1は、本発明の実施の形態に係る音声信号処理システムの一構成例を示すブロック図である。本実施の形態に係る音声信号処理システムは、入力信号を受けつける信号受信部101、受信した信号をデコードし、映像信号、音声信号に分離、更に多重化された音声信号をその各々に分離する多重音声分離部102、多重音声分離部102から得られる複数の音声信号を処理し、波面合成処理を施した音声信号に変換する音声信号処理部103、音声信号処理部103で出力されたデジタル信号をアナログ信号に変換するD/Aコンバータ104、出力されたアナログ信号を増幅する増幅部105、及び、増幅されたアナログ信号を出力する出力部106を有する。
 信号受信部101は、放送波、BDレコーダなどの外部記憶装置又はネットワーク等から動画像コンテンツ又は音声コンテンツを受信する。
 多重音声分離部102は、信号受信部101で受信した動画像コンテンツまたは音声コンテンツ等をデコードし、その中から音声信号を抽出する。更に、抽出した音声信号が多重化されている場合は、これらを各々個別の音声信号として取り出し、音声信号処理部103へ渡す。
 なお、実際の音声信号は、任意長の連続したデータ群であるが、この処理例では、受け取った音声信号をある一定長の音声信号列(セグメント)に区切り、処理を行うものとして説明する。以下、特に断りの無い限り、各処理に使用される音声信号は、セグメント単位に切りだされた音声信号とする。
 音声信号処理部103は、上記多重音声分離部102で分離された複数の音声信号を入力とし、複数のチャネルの音声信号として出力する。ここで出力するチャネル数Nは、予め決定されているものとし、後述する出力部106のチャネル数と一致させる。
 D/Aコンバータ104は、音声信号処理部103から出力された複数のチャネルの音声信号各々をデジタル信号からアナログ信号に変換し、増幅部105では、変換されたアナログ信号を増幅させ、出力部106に出力する。
 出力部106は、図4に示すように、チャネル数N個の出力スピーカをアレイ状に配しており(401)、波面合成処理のされた各チャネルの信号を各スピーカから音声として出力する(403)。
 次に、図2を参照して、音声信号処理部103について詳述する。
 音声信号処理部103は、ダウンミックス処理部201、仮想音源設定部202と波面合成処理部203を具備する。
 ダウンミックスとは、複数のチャネルを有する音声信号を混合し、元のチャネル数より少ないチャネル数の音声信号を生成する処理を指す。例えば、ドルビーデジタル5.1チャンネル音声を、フロント2本のスピーカのみを用いて再生するというケースにおいては、センターやサラウンド信号をフロント2チャンネルに混ぜて再生する。
 図9は、ダウンミックス処理の流れを示すフローチャート図である。
 まず、音声信号処理部103は、多重音声分離部102で分離された複数の音声信号を受け取り、ダウンミックス処理部201に渡す(ステップS1)。
 ダウンミックス処理部201は、受け取った複数の音声信号のうち、マルチチャネル、又はステレオチャネルである音声信号に対し、モノラル信号へのダウンミックスを行う。即ち、ステレオ信号は、例えば下記式1で、モノラル信号Smにダウンミックスされる(ステップS2)。尚、本実施の形態では、マルチチャネル(5.1、7.1など)の入力信号やステレオ信号などの複数の信号が入力される場合を想定しており、複数のステレオ信号やマルチ信号のみが入力される場合も含む。
(式1)
Figure JPOXMLDOC01-appb-I000003
 ここで、ステレオ信号が入力された場合には、ステレオ信号S、Sは、各々ステレオチャネルの左チャンネル、右チャンネルの信号入力であり、a、aは、予め設定された任意の係数である。また、マルチチャネル、具体的には5.1chの信号等は、例えばARIB STD-B21「デジタル放送用受信装置 標準規格」に示されている、下記式2により、一旦、ステレオ信号Lτ、Rτに変換した後、上記式1を用いてモノラル信号Sにダウンミックスされる。
(式2)
Figure JPOXMLDOC01-appb-I000004
 また、マルチチャネルの信号が入力される場合には、S、S、S、SSL、SSRは、各々5.1chを構成するチャネルであるフロントレフト、フロントライト、センター、サラウンドレフト、サラウンドライトである。
 勿論、上記以外の式を用いてマルチチャネル信号のモノラル化を行っても良く、例えば任意の係数a~aを用いて、
(式3)
Figure JPOXMLDOC01-appb-I000005
としても良い。
 尚、モノラル信号が入力される場合には、ダウンミックス処理部201における処理は行われず、同じモノラル信号が出力される。
 仮想音源設定部202は、ダウンミックス処理部201でモノラル信号(S)化された複数の音声信号各々を個別の仮想音源とみなし、これに位置情報を与える(ステップS3)。
 今、図3に示すように、図4で示したN個のスピーカ列401をΔxの間隔で等間隔に配し、このスピーカ列の中心を原点とするx-z平面を定義する。但し、ここでは説明の簡単の為、N=8として説明を行う。スピーカ各々のx-z平面上での位置は図に示している通り、(-3.5Δx,0)から(3.5Δx,0)までx軸上にΔx間隔に位置する。このとき、ダウンミックス処理部201から受け取った複数の音声信号各々が、上記x-z平面上の任意の位置で鳴っている仮想的な音源とみなし、音声信号に位置情報を紐付ける。例えば、ダウンミックス処理部201から音声信号が2つ入力された場合は、第一の入力信号に位置情報(x,z)を紐付け、これを仮想音源S1とし、同じく第二の入力信号に位置情報(x,z)を紐付けて仮想音源S2とする。符号303、403並びに507(図5)は、後述する波面合成処理部203の処理によって生成される音声信号の波面を示す。また位置情報(x,z)並びに位置情報(x,z)は予め設定されているものとする。
 波面合成処理部203は、仮想音源設定部202において設定された仮想音源に基づいて、音声信号の波面合成処理を行う(ステップS4)。
 図を参照しながら、詳細に説明を行う。図5に示すように、例えばスピーカ8つを直線上に配し、各々の位置は、スピーカアレイ503の中心を原点(0)とするx-z平面上において(-3.5Δx,0)から(3.5Δx,0)までx軸上にΔx間隔(1間隔)に配するものとする。また、ここでは、仮想音源設定部202で設定された仮想音源S1 501、S2 502があるものとし、各々(x1,z1)、(x2,z2)に配されているものとする。ここで、任意のスピーカSPに対する出力信号Oは下記式4で求められる。
(式4)
Figure JPOXMLDOC01-appb-I000006
 yijは、スピーカSPと各仮想音源との位置関係に基づき、下記式5で算出された各仮想音源から出力される音声信号であり、上記式4に示される通り、スピーカSPからの出力信号Oは、仮想音源S1、S2からの出力信号の和で表わされる。
(式5)
Figure JPOXMLDOC01-appb-I000007
 式5において、xij(n-τij)は、τijだけ遅延させた入力、即ち仮想音源S1、S2各々から得られる音声信号である。ここで、遅延量τijは、仮想音源Sと各スピーカSPの距離dijに応じて設定され、例えば図6(a)に示すグラフの通り、遅延量τijが仮想音源Sと各スピーカSPの距離に比例するものとする。但し、距離dijは、仮想音源Sと各スピーカSPのユークリッド距離を示すものとし、各々の位置が(xa,za)、(xb,zb)で示される場合は、下記式6で求められる。
(式6)
Figure JPOXMLDOC01-appb-I000008
 例えば、501の位置(x1,z1)にある仮想音源S1と、(2.5Δx,0)の位置にあるSP7との距離はd17=√((x1-2.5Δx)^2+z1^2)となる。
 また、gij(n)はゲイン係数を示し、下記式7のとおり、距離dijに応じて各仮想音源からの入力のゲインの大きさを決定する。
(式7)
Figure JPOXMLDOC01-appb-I000009
 式7において、α、δは予め設定された任意の定数である。
 以上のように、本システムによる音声信号の出力は、波面合成処理部203内の処理において、式5に基づく先行音効果により、音声の音源方向に音像が定位する効果が得られ、これにより受聴者は各音源を聴き分けやすくなる。これにより、同時に複数の音声信号を受聴していても、その時々に応じて注目する音声を受聴者が自由に選択可能になるという利点がある。尚、上記音声処理装置は、ステレオなどの音声出力装置に利用することもできる。
 (第2の実施の形態)
 本発明の第1の実施の形態では、説明の簡単の為、遅延量τijは図6(a)のグラフに示す通り距離dijに比例するものとして説明したが、任意の関数、例えば、図6(b)のようにn次の曲線関数に基づいて距離dijに対する遅延量τijを求めるようにしても良い。
 (第3の実施の形態)
 第1の実施の形態では、位置情報(x1,z1)並びに(x2,z2)は予め設定されているものとするが、第3の実施の形態では、受聴者から仮想音源の位置の入力を受け付け(例えば、リモコンの上下左右カーソルキーで位置を操作させる)決定するものである。この場合には、図7に示す通り、図1で示した処理ブロックに加えて、受聴者の入力を取得する為に、ユーザ入力取得部701を具備するものとする。
 (第4の実施の形態)
 図8は、本発明の第4の実施の形態に係る音声信号処理システムの一構成例を示すブロック図である。本実施の形態に係る音声信号処理装置は、本実施の形態に係るコンピュータプログラム810をコンピュータ801に実行させることによって実現される。
 コンピュータ801は、装置全体を制御するCPU(Central Processing Unit)802を備える。CPU802は、ROM(Read Only Memory)803と、演算に伴って発生する一時的な情報を記憶するRAM(Random Access Memory)804と、本発明の実施例に係るコンピュータプログラム810を記録した記録媒体809、例えばCD-ROMからコンピュータプログラム810を読み取る外部記憶装置805と、外部記憶装置805により読み取ったコンピュータプログラム810を記録するハードディスク等の内部記憶装置806と、入力部807と、出力部808とが接続されている。CPU802は、内部記憶装置806からコンピュータプログラム810をRAM804に読み出して各種演算処理を実行することによって、音声信号処理方法を実施する。
 CPU802の処理手順は、上述の第1の実施の形態に示す通りであり、コンピュータプログラム810の各処理ブロックは図2に示す各構成部の処理内容と同様であるため、その詳細な説明を省略する。また、特に図示しないが、コンピュータ801への入力は、その外部に存在する、信号受信部101並びに多重音声分離部102によって分離された音声信号である。
 また、同様に出力されるデジタル信号は、コンピュータ801外部に具備されるD/Aコンバータ104、増幅部105、を経て出力部106に出力される。もちろんこれらの構成をコンピュータ801に含める形としても良い事は言うまでも無い。
 第4の実施の形態に係るコンピュータ801及びコンピュータプログラム810にあっては、コンピュータ801を第1の実施の形態に係る音声信号処理装置として機能させ、また前述の実施例に係る音声信号処理方法を実施させることができ、第1の実施の形態の場合と同様の効果を奏する。
 上記の装置は、例えば、集積回路の形態であっても良く、プログラムとして機能を発揮する形態であっても良い。これらの機能を、例えば、音響装置、PCやスマートフォンなどに組み込んでも良い。
 上記の実施の形態において、添付図面に図示されている構成等については、これらに限定されるものではなく、本発明の効果を発揮する範囲内で適宜変更することが可能である。その他、本発明の目的の範囲を逸脱しない限りにおいて適宜変更して実施することが可能である。
 また、本発明の各構成要素は、任意に取捨選択することができ、取捨選択した構成を具備する発明も本発明に含まれるものである。
 また、本実施の形態で説明した機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。尚、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
 また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
 また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また前記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。機能の少なくとも一部は、集積回路などのハードウェアで実現しても良い。
(付記)
(1)
 多重化された音声入力信号を複数のスピーカからなるアレイスピーカによって再生可能な方式に変換する音声信号処理装置であって、
 前記多重化された音声信号を分離して得られた複数の音声入力信号の各々のダウンミックスを行うダウンミックス処理部と、
 前記ダウンミックス処理部でダウンミックスされた音声入力信号の各々を個別の仮想音源からの信号とみなし、前記仮想音源に位置情報を与える仮想音源設定部と、
 生成された前記仮想音源と前記アレイスピーカのスピーカ各々の位置関係とに基づいて、前記スピーカ各々からの出力信号を生成する波面合成処理部と
を備えることを特徴とする音声信号処理装置。
 本発明によれば、複数の音声を同時に聴取できる。またその時々で変わる注目音声を聞き分けることが容易になる。
(2)
 前記ダウンミックス処理部は、
 前記複数の音声入力信号のうち、マルチチャネル、又はステレオチャネルである音声信号に対し、モノラル信号へのダウンミックスを行うことを特徴とする(1)に記載の音声信号処理装置。
(3)
 前記仮想音源から出力される音声信号yijは、以下により求められることを特徴とする(2)に記載の音声信号処理装置。
Figure JPOXMLDOC01-appb-I000010
 ここで、xij(n-τij)は、τijだけ遅延させた入力音声信号であり、遅延量τijは、仮想音源Sと各スピーカSPiの距離dijに応じて設定されるスピーカSPiと各仮想音源との位置関係に基づき設定されるものである。
 gij(n)はゲイン係数を示し、下式のとおり、距離dijに応じて各仮想音源からの入力のゲインの大きさが決定される。
Figure JPOXMLDOC01-appb-I000011
(4)
 前記仮想音源の位置情報は、予め設定されていることを特徴とする(1)又は(2)に記載の音声信号処理装置。
(5)
 前記仮想音源の位置情報は、受聴者からの入力に応じて決定されることを特徴とする(1)又は(2)に記載の音声信号処理装置。
(6)
 前記ダウンミックス処理部は、ステレオ信号を下記式1によりモノラル信号Smにダウンミックスすることを特徴とする(1)から(5)までのいずれか1に記載の音声信号処理装置。
(式1)
Figure JPOXMLDOC01-appb-I000012
 ここで、S、Sは、各々ステレオチャネルの左チャンネル、右チャンネルの信号入力であり、a、aは、予め設定された任意の係数である。
(7)
 前記ダウンミックス処理部は、マルチチャネルを下記式2により、一旦、ステレオ信号Lτt、Rtτに変換した後、前記式1を用いてモノラル信号Smにダウンミックスすることを特徴とする(1)から(5)までのいずれか1に記載の音声信号処理装置。
(式2)
Figure JPOXMLDOC01-appb-I000013
 ここで、S、S、S、SSL、SSRは、各々5.1chを構成するチャネルであるフロントレフト、フロントライト、センター、サラウンドレフト、サラウンドライトである。
(8)
(1)から(7)までのいずれか1に記載の音声信号処理装置を備えた音声出力装置。
(9)
 コンピュータに、音声信号処理を行わせるコンピュータプログラムにおいて、
 コンピュータを、
 多重化された音声入力信号を複数のスピーカからなるアレイスピーカによって再生可能な方式に変換する音声信号処理装置であって、
 前記多重化された音声信号を分離して得られた複数の音声入力信号の各々のダウンミックスを行うダウンミックス処理部と、
 前記ダウンミックスされた音声入力信号各々を個別の仮想音源からの信号とみなし、前記仮想音源に位置情報を与える仮想音源設定部と、
 生成された前記仮想音源とアレイスピーカの各々のスピーカの位置関係に基づいて、前記各スピーカ各々からの出力信号を生成する波面合成処理部として機能させることを特徴とするコンピュータプログラム。
(10)
 多重化された音声入力信号を複数のスピーカによって再生可能な方式に変換する音声信号処理方法であって、
 前記多重化された音声信号を分離して得られた複数の音声入力信号の各々のダウンミックスを行うダウンミックス処理ステップと、
 前記ダウンミックス処理ステップでダウンミックスされた音声入力信号の各々を少なくとも2つの仮想音源のそれぞれからの信号とみなし、前記仮想音源に位置情報を与える仮想音源設定ステップと、
 生成された前記仮想音源とスピーカ各々の位置関係とに基づいて、前記スピーカ各々からの出力信号を生成する波面合成処理ステップと
を備えることを特徴とする音声信号処理方法。
 本発明は、音声信号処理装置に利用可能である。
 101…信号受信部、102…多重音声分離部、103…音声信号処理部、104…D/Aコンバータ、105…増幅部、106…出力部、201…ダウンミックス処理部、202…仮想音源設定部、203…波面合成処理部。
 本明細書で引用した全ての刊行物、特許および特許出願をそのまま参考として本明細書にとり入れるものとする。

Claims (9)

  1.  多重化された音声入力信号を複数のスピーカからなるアレイスピーカによって再生可能な方式に変換する音声信号処理装置であって、
     前記多重化された音声信号を分離して得られた複数の音声入力信号の各々のダウンミックスを行うダウンミックス処理部と、
     前記ダウンミックス処理部でダウンミックスされた音声入力信号の各々を、個別の仮想音源からの信号とみなし、前記仮想音源に位置情報を与える仮想音源設定部と、
     前記仮想音源と前記アレイスピーカの各々の位置関係とに基づいて、前記アレイスピーカの各々からの出力信号を生成する波面合成処理部と
    を備えることを特徴とする音声信号処理装置。
  2.  前記ダウンミックス処理部は、
     前記複数の音声入力信号のうち、マルチチャネル又はステレオチャネルである音声信号に対し、モノラル信号へのダウンミックスを行うことを特徴とする請求項1に記載の音声信号処理装置。
  3.  前記仮想音源から出力される音声信号yijは、以下により求められることを特徴とする請求項2に記載の音声信号処理装置。
    Figure JPOXMLDOC01-appb-I000001
     ここで、xij(n-τij)は、τijだけ遅延させた入力音声信号であり、遅延量τijは、仮想音源Sと各スピーカSPiの距離dijに応じて設定されるスピーカSPiと各仮想音源との位置関係に基づき設定されるものである。
     gij(n)はゲイン係数を示し、以下のとおり、距離dijに応じて各仮想音源からの入力のゲインの大きさが決定される。
    Figure JPOXMLDOC01-appb-I000002
  4.  前記仮想音源の位置情報は、予め設定されていることを特徴とする請求項1又は2に記載の音声信号処理装置。
  5.  前記仮想音源の位置情報は、受聴者からの入力に応じて決定されることを特徴とする請求項1又は2に記載の音声信号処理装置。
  6.  請求項1から5までのいずれか1項に記載の音声信号処理装置を備えた音声出力装置。
  7.  コンピュータに、音声信号処理を行わせるコンピュータプログラムにおいて、
     コンピュータを、
     多重化された音声入力信号を複数のスピーカからなるアレイスピーカによって再生可能な方式に変換する音声信号処理装置であって、
     前記多重化された音声信号を分離して得られた複数の音声入力信号の各々のダウンミックスを行うダウンミックス処理部と、
     前記ダウンミックスされた音声入力信号各々を個別の仮想音源からの信号とみなし、前記仮想音源に位置情報を与える仮想音源設定部と、
     生成された前記仮想音源とアレイスピーカの各々のスピーカの位置関係に基づいて、前記各スピーカ各々からの出力信号を生成する波面合成処理部として機能させることを特徴とするコンピュータプログラム。
  8.  多重化された音声入力信号を複数のスピーカによって再生可能な方式に変換する音声信号処理方法であって、
     前記多重化された音声信号を分離して得られた複数の音声入力信号の各々のダウンミックスを行うダウンミックス処理ステップと、
     前記ダウンミックス処理ステップでダウンミックスされた音声入力信号の各々を少なくとも2つの仮想音源のそれぞれからの信号とみなし、前記仮想音源に位置情報を与える仮想音源設定ステップと、
     生成された前記仮想音源とスピーカ各々の位置関係とに基づいて、前記スピーカ各々からの出力信号を生成する波面合成処理ステップとを備えることを特徴とする音声信号処理方法。
  9.  コンピュータに、請求項8に記載の処理方法を実行させるためのプログラム。
PCT/JP2014/065926 2013-06-27 2014-06-16 音声信号処理装置 WO2014208387A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013-134814 2013-06-27
JP2013134814 2013-06-27

Publications (1)

Publication Number Publication Date
WO2014208387A1 true WO2014208387A1 (ja) 2014-12-31

Family

ID=52141729

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/065926 WO2014208387A1 (ja) 2013-06-27 2014-06-16 音声信号処理装置

Country Status (1)

Country Link
WO (1) WO2014208387A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112470490A (zh) * 2018-07-30 2021-03-09 索尼公司 信息处理设备、信息处理系统、信息处理方法和程序
CN112584299A (zh) * 2020-12-09 2021-03-30 重庆邮电大学 一种基于多激励平板扬声器的沉浸式会议系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003244573A (ja) * 2002-02-15 2003-08-29 Toshiba Corp 複数信号再生装置及び方法
JP2005167612A (ja) * 2003-12-02 2005-06-23 Sony Corp 音場再生装置及び音場空間再生システム
JP2013106172A (ja) * 2011-11-14 2013-05-30 Sharp Corp 指向性スピーカ装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003244573A (ja) * 2002-02-15 2003-08-29 Toshiba Corp 複数信号再生装置及び方法
JP2005167612A (ja) * 2003-12-02 2005-06-23 Sony Corp 音場再生装置及び音場空間再生システム
JP2013106172A (ja) * 2011-11-14 2013-05-30 Sharp Corp 指向性スピーカ装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112470490A (zh) * 2018-07-30 2021-03-09 索尼公司 信息处理设备、信息处理系统、信息处理方法和程序
CN112470490B (zh) * 2018-07-30 2023-04-11 索尼公司 信息处理设备、信息处理系统、信息处理方法和程序
CN112584299A (zh) * 2020-12-09 2021-03-30 重庆邮电大学 一种基于多激励平板扬声器的沉浸式会议系统

Similar Documents

Publication Publication Date Title
JP6510021B2 (ja) オーディオ装置及びそのオーディオ提供方法
TWI549527B (zh) 使用物件式元資料來產生音訊輸出信號之裝置與方法(一)
RU2640647C2 (ru) Устройство и способ преобразования первого и второго входных каналов, по меньшей мере, в один выходной канал
KR101341523B1 (ko) 스테레오 신호들로부터 멀티 채널 오디오 신호들을생성하는 방법
GB2549532A (en) Merging audio signals with spatial metadata
JP6284480B2 (ja) 音声信号再生装置、方法、プログラム、及び記録媒体
US20170245055A1 (en) Orientation-aware surround sound playback
Rafaely et al. Spatial audio signal processing for binaural reproduction of recorded acoustic scenes–review and challenges
US20200053461A1 (en) Audio signal processing device and audio signal processing system
KR20190109019A (ko) 가상 공간에서 사용자의 이동에 따른 오디오 신호 재생 방법 및 장치
JP2009071406A (ja) 波面合成信号変換装置および波面合成信号変換方法
JP4810621B1 (ja) 音声信号変換装置、方法、プログラム、及び記録媒体
WO2014208387A1 (ja) 音声信号処理装置
Millns et al. An investigation into spatial attributes of 360° microphone techniques for virtual reality
JP2005286828A (ja) オーディオ再生装置
JP6161962B2 (ja) 音声信号再生装置及び方法
US10306391B1 (en) Stereophonic to monophonic down-mixing
JPWO2016039168A1 (ja) 音声処理装置および方法
JP5743003B2 (ja) 波面合成信号変換装置および波面合成信号変換方法
KR20070081735A (ko) 오디오 신호의 인코딩/디코딩 방법 및 장치
JP5590169B2 (ja) 波面合成信号変換装置および波面合成信号変換方法
AU2013200578B2 (en) Apparatus and method for generating audio output signals using object based metadata
Baume et al. Scaling New Heights in Broadcasting using Ambisonics
WO2013176073A1 (ja) 音声信号変換装置、方法、プログラム、及び記録媒体
JP6846822B2 (ja) オーディオ信号処理装置、オーディオ信号処理方法、およびオーディオ信号処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14818033

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14818033

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP