WO2016039168A1 - 音声処理装置および方法 - Google Patents

音声処理装置および方法 Download PDF

Info

Publication number
WO2016039168A1
WO2016039168A1 PCT/JP2015/074340 JP2015074340W WO2016039168A1 WO 2016039168 A1 WO2016039168 A1 WO 2016039168A1 JP 2015074340 W JP2015074340 W JP 2015074340W WO 2016039168 A1 WO2016039168 A1 WO 2016039168A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio signal
unit
delay
audio
channel
Prior art date
Application number
PCT/JP2015/074340
Other languages
English (en)
French (fr)
Inventor
梨恵 春日
弘行 福地
竜二 徳永
吉村 正樹
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to CN201580047092.1A priority Critical patent/CN106688252B/zh
Priority to JP2016547361A priority patent/JP6683617B2/ja
Priority to US15/508,806 priority patent/US20170257721A1/en
Publication of WO2016039168A1 publication Critical patent/WO2016039168A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Definitions

  • the present disclosure relates to an audio processing apparatus and method, and more particularly, to an audio processing apparatus and method that can easily change the localization position of a sound image.
  • Non-Patent Documents 1 to 3 a downmix algorithm from 5.1ch surround to stereo 2ch performed by a receiver is defined (see Non-Patent Documents 1 to 3).
  • the present disclosure has been made in view of such a situation, and can easily change the localization position of a sound image.
  • the audio processing device includes a delay unit that delays input audio signals of two or more channels for each channel, a setting unit that sets the delay value, and a delay caused by the delay unit. And a synthesizing unit that synthesizes the applied audio signal and outputs the audio signal of the output channel.
  • an audio processing device applies delay to each input audio signal of two or more channels, sets the delay value, and applies the delayed audio.
  • the signal is synthesized and the audio signal of the output channel is output.
  • the audio processing device adjusts increase / decrease of the amplitude of the audio signal delayed by the delay unit, and a delay unit that delays the input audio signal of two or more channels for each channel And a setting unit for setting the delay value and the coefficient value indicating the increase / decrease, and an audio signal whose amplitude increase / decrease is adjusted by the adjustment unit, and outputs the audio signal of the output channel And a synthesis unit.
  • the setting unit can set the delay value and the coefficient value in conjunction with each other.
  • the setting unit sets the coefficient value to increase the sound when the sound image is localized forward with respect to the listening position, and sets the coefficient value to reduce the sound when the sound image is localized backward. Can be set.
  • the correction unit can adjust the level of the audio signal whose amplitude has been adjusted by the adjustment unit.
  • the correction unit can mute the audio signal whose amplitude has been adjusted by the adjustment unit.
  • the audio processing apparatus applies delay to each input audio signal of two or more channels and adjusts increase / decrease in the amplitude of the audio signal subjected to the delay.
  • the delay value and the coefficient value indicating the increase / decrease are set, and the audio signal with the amplitude increase / decrease adjusted is synthesized to output the audio signal of the output channel.
  • the audio processing device includes a distribution unit that delays an audio signal of at least one channel among input audio signals of two or more channels and distributes the audio signals to two or more output channels.
  • a synthesis unit for synthesizing the input audio signal and the audio signal distributed by the distribution unit to output the audio signal of the output channel, and setting for setting the delay value for each output channel A part.
  • the setting unit can set the delay value so that the haas effect can be obtained.
  • the audio processing device delays the audio signal of at least one channel among the input audio signals of two or more channels, and converts the audio signal to two or more output channels.
  • the divided audio signal is distributed and synthesized with the distributed audio signal to output the audio signal of the output channel, and the delay value is set for each output channel.
  • input audio signals of two or more channels are delayed for each channel, and the delay value is set. Further, the audio signal subjected to the delay is synthesized, and the audio signal of the output channel is output.
  • input audio signals of two or more channels are delayed for each channel, and the increase / decrease in the amplitude of the audio signals subjected to the delay is adjusted.
  • the delay value and the coefficient value indicating the increase / decrease are set, and the audio signal with the amplitude increase / decrease adjusted is synthesized to output the audio signal of the output channel.
  • the audio signal of at least one channel is delayed, distributed to the output channels of two or more channels, and input audio signals And the distributed audio signal are combined to output the audio signal of the output channel.
  • the delay value is set for each output channel.
  • the localization position of the sound image can be changed.
  • the localization position of the sound image can be easily changed.
  • FIG. 1 is a block diagram illustrating a configuration example of a downmix device as an audio processing device to which the present technology is applied.
  • the downmix device 11 is characterized by having a delay circuit, and can be set for each channel.
  • a configuration example in the case of performing a downmix process from 5 channels to 2 channels is shown.
  • Ls, L, C, R, and Rs are input to the downmix device 11, and two speakers 12L and 12R are provided.
  • Ls, L, C, R, and Rs indicate left surround, left, center, right, and right surround, respectively.
  • the downmix device 11 is configured to include a control unit 21, a delay unit 22, a coefficient calculation unit 23, a distribution unit 24, synthesis units 25L and 25R, and level adjustment units 26L and 26R.
  • the control unit 21 sets delay values and coefficient values of the delay unit 22, the coefficient calculation unit 23, and the distribution unit 24 according to the channel and the left and right localization.
  • the control unit 21 can also change the delay value and the coefficient value in conjunction with each other.
  • the delay unit 22 is a delay circuit, and delay_Ls, delay_L, delay_C, delay_R, set for each channel by the control unit 21 with respect to the input audio signals Ls, L, C, R, and Rs. Multiply delay_Rs respectively. Thereby, the position of the virtual speaker (position of the sound image) is localized forward and backward. Note that delay_Ls, delay_L, delay_C, delay_R, and delay_Rs are delay values, respectively.
  • the delay unit 22 outputs each signal delayed for each channel to the coefficient calculation unit 23. In addition, since it is not necessary to apply a delay to those that do not require a delay, they are directly passed to the coefficient calculation unit 23.
  • the coefficient calculation unit 23 increases or decreases k_Ls, k_L, k_C, k_R, and k_Rs set for each channel by the control unit 21 with respect to the audio signals Ls, L, C, R, and Rs from the delay unit 22. To do.
  • the coefficient calculation unit 23 outputs each signal with the coefficient calculated for each channel to the distribution unit 24. Note that k_Ls, k_L, k_C, k_R, and k_Rs are coefficient values, respectively.
  • the distributing unit 24 outputs the audio signal Ls and the audio signal L from the coefficient calculating unit 23 as they are to the synthesizing unit 25L.
  • the distribution unit 24 outputs the audio signal Rs and the audio signal R from the coefficient calculation unit 23 to the synthesis unit 25R as they are.
  • the distribution unit 24 distributes the audio signal C from the coefficient calculation unit 23 so as to be a two-channel output, outputs the distributed audio signal C multiplied by delay_ ⁇ to the synthesis unit 25L, and distributes the distributed audio The signal C multiplied by delay_ ⁇ is output to the combining unit 25R.
  • delay_ ⁇ and delay_ ⁇ are delay values and may be the same value, but by setting them to different values, the Haas effect described later can be obtained and the position of the virtual speaker can be localized to the left and right.
  • the C channel is localized to the left and right.
  • the synthesizing unit 25L synthesizes the audio signal Ls, the audio signal L, and the audio signal C from the distributing unit 24 multiplied by delay_ ⁇ , and outputs the synthesized signal to the level adjusting unit 26L.
  • the synthesizer 25R synthesizes the audio signal Rs, the audio signal R, and the audio signal C from the distribution unit 24 multiplied by delay_ ⁇ and outputs the result to the level adjustment unit 26R.
  • the level adjustment unit 26L corrects the audio signal from the synthesis unit 25L. Specifically, the level adjusting unit 26L adjusts the level of the audio signal from the synthesizing unit 25L and outputs the level-adjusted audio signal to the speaker 12L as the audio signal correction.
  • the level adjustment unit 26R corrects the audio signal from the synthesis unit 25R. Specifically, the level adjustment unit 26R adjusts the level of the audio signal as a correction of the audio signal, and outputs the audio signal after the level adjustment to the speaker 12R. As an example of this level adjustment, the one described in JP 2010-003335 is used.
  • the speaker 12L outputs a sound corresponding to the sound signal from the level adjusting unit 26L.
  • the speaker 12R outputs sound corresponding to the sound signal from the level adjustment unit 26R.
  • the position of the virtual speaker can be localized at the preferred positions of the front, rear, left and right.
  • the delay value and the coefficient value can be fixed or can be changed continuously in time. Further, by changing the delay value and the coefficient value in conjunction with each other by the control unit 21, it is possible to audibly localize the position of the virtual speaker to a desired position.
  • the Haas effect will be described with reference to FIG.
  • the positions where the speakers 12L and 12R are shown represent the positions of the speakers where they are arranged.
  • the user is listening to the same sound from both speakers at the same distance from the speaker 12L provided on the left and the speaker 12R provided on the right. At this time, for example, if a delay is added to the audio signal heard from the speaker 12L, it is perceived that the audio signal is heard from the direction of the speaker 12R. That is, it sounds as if there is a sound source on the speaker 12R side.
  • Such an effect is called a Haas effect, and by using a delay, the left and right positions can be localized.
  • FIG. 3 shows an approximate speaker installation position and viewing distance of a television device.
  • the position where the speaker 12L and the speaker 12R are shown represents the position of the speaker where each is placed, and the position where C is shown represents the sound image position (virtual speaker position) of the C channel.
  • the left speaker 12L is installed at a position 30 cm away from the sound image C of the C channel to the left.
  • the right speaker 12R is installed at a position 30 cm away from the sound image C of the C channel.
  • the listening position of the user shown by the face illustration is 100 cm away from the C channel sound image C and 100 cm away from the left speaker 12L and the right speaker 12R. That is, the C channel, the left speaker 12L, and the right speaker 12R are arranged concentrically. Unless otherwise noted, the speaker and the virtual speaker are also arranged concentrically in the following description.
  • FIG. 5 shows another example of the speaker installation position and viewing distance of an approximate television device.
  • the left speaker 12L is installed at a position 50 cm away from the sound image C of the C channel to the left.
  • the right speaker 12R is installed at a position 50 cm away from the sound image C of the C channel.
  • the listening position of the user is 200 cm away from the sound image C of the C channel and 200 cm away from the left speaker 12L and the right speaker 12R. That is, as in the example of FIG. 3, the C channel, the left speaker 12L, and the right speaker 12R are arranged concentrically. Unless otherwise noted, the speaker and the virtual speaker are also arranged concentrically in the following description.
  • the amplitude of the sound signal heard becomes smaller as the sound image becomes farther, and the amplitude of the sound signal becomes larger as the sound image gets closer. Therefore, it can be seen that the position of the virtual speaker can be audibly localized by changing the delay and the coefficient of the amplitude in association with each other.
  • FIG. 7 is a diagram showing an example of audio waveforms before and after downmixing when there is no delay.
  • X and Y are audio waveforms of each channel
  • Z is an audio waveform obtained by downmixing audio signals of X and Y waveforms.
  • FIG. 8 is a diagram showing an example of audio waveforms before and after downmixing when there is a delay. That is, in the example of FIG. 8, P and Q are audio waveforms of each channel, and Q is added with a delay. R is an audio waveform obtained by downmixing audio signals of P and Q waveforms.
  • the level adjusting units 26L and 26R suppress the overflow by adjusting the signal level.
  • the downmix process is an example of the audio signal process.
  • step S11 the control unit 21 sets the delay delay and the value of the coefficient k of the coefficient calculation unit 23 and the distribution unit 24 according to each channel and the left and right localization.
  • the audio signal Ls, L, C, R, Rs is input to the delay unit 22.
  • the delay unit 22 localizes the virtual speaker position back and forth by delaying the input audio signal for each channel.
  • the delay unit 22 receives delay_Ls, delay_L1, delay_C, delay_R, and delay_Rs set for each channel by the control unit 21 for the input audio signals Ls, L, C, R, and Rs, respectively. Call. Thereby, the position of the virtual speaker (position of the sound image) is localized forward and backward. Details of localization before and after will be described later with reference to FIG.
  • the delay unit 22 outputs each signal delayed for each channel to the coefficient calculation unit 23.
  • the coefficient calculation unit 23 adjusts the increase / decrease of the amplitude by the coefficient.
  • the coefficient calculation unit 23 sets k_Ls, k_L, k_C, k_R, k_Rs set for each channel by the control unit 21 for the audio signals Ls, L, C, R, and Rs from the delay unit 22. Increase or decrease.
  • the coefficient calculation unit 23 outputs each signal with the coefficient calculated for each channel to the distribution unit 24.
  • step S14 the distribution unit 24 distributes at least one audio signal among the input predetermined audio signals to the number of output channels, and delays the distributed audio signal for each output channel.
  • the virtual speaker position is localized to the left and right. Details of the left and right localization will be described later with reference to FIG.
  • the distribution unit 24 outputs the audio signal Ls and the audio signal L from the coefficient calculation unit 23 to the synthesis unit 25L as they are.
  • the distribution unit 24 outputs the audio signal Rs and the audio signal R from the coefficient calculation unit 23 to the synthesis unit 25R as they are.
  • the distribution unit 24 distributes the audio signal C from the coefficient calculation unit 23 so as to be a two-channel output, outputs the distributed audio signal C multiplied by delay_ ⁇ to the synthesis unit 25L, and distributes the distributed audio The signal C multiplied by delay_ ⁇ is output to the combining unit 25R.
  • the synthesizing unit 25L and the synthesizing unit 25R synthesize an audio signal in step S15.
  • the synthesizing unit 25L synthesizes the audio signal Ls, the audio signal L, and the audio signal C from the distributing unit 24 multiplied by delay_ ⁇ , and outputs the synthesized result to the level adjusting unit 26L.
  • the synthesizer 25R synthesizes the audio signal Rs, the audio signal R, and the audio signal C from the distribution unit 24 multiplied by delay_ ⁇ and outputs the result to the level adjustment unit 26R.
  • step S16 the level adjusting unit 26L and the level adjusting unit 26R adjust the levels of the audio signals from the synthesizing unit 25L and the synthesizing unit 25R, respectively, and output the level-adjusted audio signals to the speaker 12L.
  • Speakers 12L and 12R output sounds corresponding to the audio signals from the level adjustment unit 26L and the level adjustment unit 26R, respectively, in Step 17.
  • the position of the virtual speaker can be localized at the preferred positions of the front, rear, left, and right. it can.
  • the delay value and the coefficient value can be fixed or can be changed continuously in time. Furthermore, the position of the virtual speaker can be audibly localized by changing the delay value and the coefficient value in conjunction with each other by the control unit 21.
  • L, C, and R in the upper row represent L, C, and R audio signals.
  • L ′ and R ′ in the lower stage are L and R audio signals after downmixing, and the positions thereof indicate the positions of the speakers 12L and 12R, respectively.
  • C in the lower row indicates the sound image position (virtual speaker position) of the C channel. The same applies to the examples of FIGS. 11 and 13.
  • the delay unit 22 applies a delay value (delay) corresponding to the distance only to the audio signal of the C channel.
  • the delay is the same value.
  • the sound image of the C channel is localized 30 cm backward.
  • the upper row is the audio signal added without delay
  • the lower row is the waveform when the delay is applied to the C channel.
  • the delay unit 22 applies a delay value corresponding to the distance to the audio signals of the L channel and the R channel.
  • the delay is the same value.
  • the sound image of the C channel is localized 30 cm forward.
  • the upper row is an audio signal added without delay
  • the lower row is a waveform when the L and R channels are delayed.
  • the sound image can be localized forward and backward by using a delay during downmixing. That is, the localization position of the sound image can be changed back and forth.
  • L, C, and R in the upper stage represent L, C, and R audio signals.
  • L ′ and R ′ in the lower stage are down-mixed audio signals, and the positions thereof indicate the positions of the speakers 12L and 12R, respectively.
  • C in the lower row indicates the sound image position (virtual speaker position) of the C channel. The same applies to the examples of FIGS. 16 and 17.
  • the delay unit 22 applies delay ⁇ corresponding to the distance only to the C channel audio signal synthesized with R ′.
  • the sound image of the C channel is localized in the L side direction.
  • the upper row shows R ′ and L ′ waveforms obtained by downmixing only two channels
  • the lower row shows R ′ and L ′ waveforms obtained by delaying only R ′.
  • the delay unit 22 applies delay ⁇ corresponding to the distance only to the C channel audio signal synthesized with L ′.
  • the sound image of the C channel is localized in the R-side direction.
  • the upper row shows R ′ and L ′ waveforms obtained by downmixing two channels
  • the lower row shows R ′ and L ′ waveforms obtained by delaying only L ′.
  • FIG. 18 is a diagram illustrating an example in which downmixing is performed from 7 channels including Ls, L, Lc, C, Rc, R, and Rs to 2 channels including Lo and Ro.
  • the sound images of Lc and Rc can be localized left and right. This is also the localization of the sound image in the horizontal direction using the Haas effect.
  • the sound image can be localized to the left and right by using a delay during downmixing and using the Haas effect. That is, the localization position of the sound image can be changed to the left and right.
  • FIG. 19 is a block diagram illustrating another configuration example of a downmix device as a sound processing device to which the present technology is applied.
  • the downmix device 101 of FIG. 19 is common to the downmix device 11 of FIG. 1 in that the downmix device 101 of FIG. 19 includes a control unit 21, a delay unit 22, a coefficient calculation unit 23, a distribution unit 24, and synthesis units 25L and 25R.
  • level adjustment units 26L and 26R and the mute circuits 111L and 111R are interchanged.
  • the mute circuit 111L performs mute on the audio signal as a correction of the audio signal from the synthesis unit 25L, and outputs the mute audio signal to the speaker 12L.
  • the mute circuit 111R mutes the audio signal as a correction of the audio signal from the synthesizing unit 25R, and outputs the mute audio signal to the speaker 12R.
  • steps S111 to S115 in FIG. 20 perform basically the same processing as steps S11 to S15 in FIG.
  • step S116 the mute circuit 111L and the mute circuit 111R mute the audio signals from the synthesis unit 25L and the synthesis unit 25R, respectively, and output the mute audio signals to the speaker 12L and the speaker 12R, respectively.
  • Speaker 12L and speaker 12R output audio corresponding to audio signals from mute circuit 111L and mute circuit 111R, respectively, in step S117.
  • the level adjustment unit or the mute circuit is configured as the unit for correcting the audio signal in the downmix device.
  • both the level adjustment unit and the mute circuit are provided. You may make it comprise. In that case, the order of the configuration of the level adjusting unit and the mute circuit is not limited.
  • the number of input channels may be two or more, and is not limited to the above-mentioned 5 channels or 7 channels.
  • the number of output channels may be two or more, and is not limited to the two channels described above.
  • the series of processes described above can be executed by hardware or software.
  • a program constituting the software is installed in the computer.
  • the computer includes a computer incorporated in dedicated hardware, a general-purpose personal computer capable of executing various functions by installing various programs, and the like.
  • FIG. 21 is a block diagram illustrating a configuration example of hardware of a computer that executes the above-described series of processing by a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 205 is further connected to the bus 204.
  • An input unit 206, an output unit 207, a storage unit 208, a communication unit 209, and a drive 210 are connected to the input / output interface 205.
  • the input unit 206 includes a keyboard, a mouse, a microphone, and the like.
  • the output unit 207 includes a display, a speaker, and the like.
  • the storage unit 208 includes a hard disk, a nonvolatile memory, and the like.
  • the communication unit 209 includes a network interface and the like.
  • the drive 210 drives a removable recording medium 211 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 201 loads the program stored in the storage unit 208 to the RAM 203 via the input / output interface 205 and the bus 204 and executes it, thereby executing the above-described series of processing. Is done.
  • the program executed by the computer (CPU 201) can be provided by being recorded in a removable recording medium 211 such as a package medium.
  • the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital broadcasting.
  • the program can be installed in the storage unit 208 via the input / output interface 205 by attaching the removable recording medium 211 to the drive 210.
  • the program can be received by the communication unit 209 via a wired or wireless transmission medium and installed in the storage unit 208.
  • the program can be installed in the ROM 202 or the storage unit 208 in advance.
  • the program executed by the computer may be a program that is processed in time series in the order described in this specification, or in parallel or at a necessary timing such as when a call is made. It may be a program for processing.
  • system means an overall device configured by a plurality of devices, blocks, means, and the like.
  • this technique can also take the following structures.
  • a delay unit that delays input audio signals of two or more channels for each channel;
  • a setting unit for setting the value of the delay;
  • An audio processing apparatus comprising: a synthesis unit that synthesizes an audio signal delayed by the delay unit and outputs an audio signal of an output channel.
  • the voice processing device The input audio signal of 2 or more channels is delayed for each channel, Set the delay value, An audio processing method for synthesizing the delayed audio signals and outputting an audio signal of an output channel.
  • a delay unit that delays input audio signals of two or more channels for each channel;
  • An adjustment unit that adjusts increase / decrease in the amplitude of the audio signal delayed by the delay unit;
  • a setting unit for setting the delay value and the coefficient value indicating the increase / decrease;
  • An audio processing apparatus comprising: an audio signal whose amplitude increase / decrease is adjusted by the adjustment unit, and outputs an audio signal of an output channel.
  • the audio processing apparatus according to (3) or (4), wherein coefficient values are set.
  • (6) The audio processing device according to any one of (3) to (5), further including: a correction unit that corrects an audio signal whose amplitude increase / decrease is adjusted by the adjustment unit.
  • (7) The audio processing device according to (6), wherein the correction unit adjusts a level of the audio signal whose amplitude increase / decrease is adjusted by the adjustment unit.
  • (8) The audio processing device according to (6), wherein the correction unit performs mute on the audio signal whose amplitude increase / decrease is adjusted by the adjustment unit.
  • the voice processing device The input audio signal of 2 or more channels is delayed for each channel, Adjust the increase or decrease of the amplitude of the delayed audio signal, Set a value of the delay and a coefficient value indicating the increase and decrease, An audio processing method for synthesizing an audio signal whose amplitude increase / decrease is adjusted and outputting an audio signal of an output channel.
  • a distribution unit that delays at least one audio signal of audio signals of two or more input channels and distributes the audio signals to two or more output channels;
  • a synthesis unit that synthesizes the input audio signal and the audio signal distributed by the distribution unit and outputs the audio signal of the output channel;
  • a sound processing apparatus comprising: a setting unit configured to set the delay value for each output channel.
  • the voice processing device (11) The voice processing device according to (10), wherein the setting unit sets the value of the delay so as to obtain a haas effect. (12) The voice processing device Of the input audio signals of two or more channels, the audio signal of at least one channel is delayed and distributed to two or more output channels. Synthesizes the input audio signal and the audio signal distributed by the distribution unit, and outputs the audio signal of the output channel, An audio processing method in which the delay value is set for each output channel.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Algebra (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)

Abstract

 本開示は、容易に音像の定位位置を変化させることができるようにする音声処理装置および方法に関する。 係数演算部23は、遅延部22からの音声信号Ls,L,C,R,Rsに対して、制御部21によりそれぞれのチャンネルに対して設定された係数k_Ls,係数k_L,係数k_C,係数k_R,係数k_Rsを増減する。分配部は、係数演算部からの音声信号Cを2チャンネル出力になるように分配し、分配した音声信号Cにdelay_αをかけたものを、Lチャンネルの合成部に出力し、分配した音声信号Cにdelay_βをかけたものを、Rチャンネルの合成部に出力する。本開示は、例えば、2チャンネル以上のチャンネルの音声信号を、2チャンネルにダウンミックスするダウンミックス装置に適用することができる。

Description

音声処理装置および方法
 本開示は、音声処理装置および方法に関し、特に、容易に音像の定位位置を変化させることができるようにした音声処理装置および方法に関する。
 日本のデジタル放送においては、受信機が行う5.1chサラウンドからステレオ2chへのダウンミックスアルゴリズムが規定されている(非特許文献1乃至3参照)。
 しかしながら、上記規格においては、ダウンミックス処理後に音像の定位位置を変化させるのが難しかった。
 本開示は、このような状況に鑑みてなされたものであり、容易に音像の定位位置を変化させることができるものである。
 本開示の第1の側面の音声処理装置は、入力される2チャンネル以上の音声信号にチャンネル毎に遅延をかける遅延部と、前記遅延の値を設定する設定部と、前記遅延部により遅延がかけられた音声信号を合成して、出力チャンネルの音声信号を出力する合成部とを備える。
 本開示の第1の側面の音声処理方法は、音声処理装置が、入力される2チャンネル以上の音声信号にチャンネル毎に遅延をかけ、前記遅延の値を設定し、前記遅延がかけられた音声信号を合成して、出力チャンネルの音声信号を出力する。
 本開示の第2の側面の音声処理装置は、入力される2チャンネル以上の音声信号にチャンネル毎に遅延をかける遅延部と、前記遅延部により遅延がかけられた音声信号の振幅の増減を調整する調整部と、前記遅延の値と前記増減を示す係数値とを設定する設定部と、前記調整部により振幅の増減が調整された音声信号を合成して、出力チャンネルの音声信号を出力する合成部とを備える。
 前記設定部は、前記遅延の値と前記係数値と連動して設定することができる。
 前記設定部は、リスニングポジションに対して、音像を前方に定位させる場合、音が大きくなるように前記係数値を設定し、音像を後方に定位させる場合、音が小さくなるように前記係数値を設定することができる。
 前記調整部により振幅の増減が調整された音声信号を補正する補正部をさらに備えることができる。
 前記補正部は、前記調整部により振幅の増減が調整された音声信号のレベルを調整することができる。
 前記補正部は、前記調整部により振幅の増減が調整された音声信号にミュートを行うことができる。
 本開示の第2の側面の音声処理方法は、音声処理装置が、入力される2チャンネル以上の音声信号にチャンネル毎に遅延をかけ、前記遅延がかけられた音声信号の振幅の増減を調整し、前記遅延の値と前記増減を示す係数値とを設定し、前記振幅の増減が調整された音声信号を合成して、出力チャンネルの音声信号を出力する。
 本開示の第3の側面の音声処理装置は、入力される2チャンネル以上の音声信号のうち、少なくとも1つのチャンネルの音声信号に遅延をかけて、2チャンネル以上の出力チャンネルに分配する分配部と、入力される音声信号と、前記分配部により分配された音声信号とを合成して、前記出力チャンネルの音声信号を出力する合成部と、前記遅延の値を、前記出力チャンネル毎に設定する設定部とを備える。
 前記設定部は、haas効果が得られるように、前記遅延の値を設定することができる。
 本開示の第3の側面の音声処理方法は、音声処理装置が、入力される2チャンネル以上の音声信号のうち、少なくとも1つのチャンネルの音声信号に遅延をかけて、2チャンネル以上の出力チャンネルに分配し、入力される音声信号と、分配された音声信号とを合成して、前記出力チャンネルの音声信号を出力し、前記遅延の値を、前記出力チャンネル毎に設定する。
 本開示の第1の側面においては、入力される2チャンネル以上の音声信号にチャンネル毎に遅延がかけられ、前記遅延の値が設定される。また、前記遅延がかけられた音声信号を合成して、出力チャンネルの音声信号が出力される。
 本開示の第2の側面においては、入力される2チャンネル以上の音声信号にチャンネル毎に遅延がかけられ、前記遅延がかけられた音声信号の振幅の増減が調整される。また、前記遅延の値と前記増減を示す係数値とが設定され、前記振幅の増減が調整された音声信号を合成して、出力チャンネルの音声信号が出力される。
 本開示の第3の側面においては、入力される2チャンネル以上の音声信号のうち、少なくとも1つのチャンネルの音声信号に遅延がかけられ、2チャンネル以上の出力チャンネルに分配され、入力される音声信号と、分配された音声信号とが合成されて、前記出力チャンネルの音声信号が出力される。また、前記遅延の値が、前記出力チャンネル毎に設定される。
 本開示によれば、音像の定位位置を変化させることができる。特に、容易に音像の定位位置を変化させることができる。
 なお、本明細書に記載された効果は、あくまで例示であり、本技術の効果は、本明細書に記載された効果に限定されるものではなく、付加的な効果があってもよい。
本技術を適用したダウンミックス装置の構成例を示すブロック図である。 Haas効果について説明する図である。 テレビジョン装置のスピーカ設置位置と視聴距離を説明する図である。 テレビジョン装置のスピーカ設置位置と視聴距離の例を示す図である。 テレビジョン装置のスピーカ設置位置と視聴距離を説明する図である。 テレビジョン装置のスピーカ設置位置と視聴距離の例を示す図である。 遅延なしの場合の音声波形を示す図である。 遅延ありの場合の音声波形を示す図である。 音声信号処理について説明するフローチャートである。 前後の定位について説明する図である。 前後の定位について説明する図である。 前後の定位について説明する図である。 前後の定位について説明する図である。 前後の定位について説明する図である。 左右の定位について説明する図である。 左右の定位について説明する図である。 左右の定位について説明する図である。 左右の定位の他の例について説明する図である。 本技術を適用したダウンミックス装置の他の構成例を示すブロック図である。 音声信号処理について説明するフローチャートである。 コンピュータの構成例を示すブロック図である。
 以下、本開示を実施するための形態(以下実施の形態とする)について説明する。なお、説明は以下の順序で行う。
1.第1の実施の形態(ダウンミックス装置の構成)
2.第2の実施の形態(前後の定位)
3.第3の実施の形態(左右の定位)
4.第4の実施の形態(ダウンミックス装置の他の構成)
5.第5の実施の形態(コンピュータ)
<第1の実施の形態>
 <装置の構成例>
 図1は、本技術を適用した音声処理装置としてのダウンミックス装置の構成例を示すブロック図である。
 図1の例において、ダウンミックス装置11は、遅延回路を有することが特徴であり、チャンネル毎に設定することが可能である。図1の例においては、5チャンネルから2チャンネルへのダウンミックス処理を行う場合の構成例が示されている。
 すなわち、ダウンミックス装置11には、5つの音声信号Ls,L,C,R,Rsが入力され、2つのスピーカ12Lおよび12Rが備えられる。なお、Ls,L,C,R,Rsは、それぞれ、左サラウンド、左、中央、右、右サラウンドを示している。
 ダウンミックス装置11は、制御部21、遅延部22、係数演算部23、分配部24、合成部25Lおよび25R、並びにレベル調整部26Lおよび26Rを含むように構成されている。
 制御部21は、遅延部22、係数演算部23、および分配部24の遅延の値や係数の値をチャンネル毎や左右の定位に応じて設定する。また、制御部21は、遅延の値と係数の値とを連動して変化させることもできる。
 遅延部22は、遅延回路であり、入力されてくる音声信号Ls,L,C,R,Rsに対して、制御部21によりそれぞれのチャンネルに対して設定されたdelay_Ls、delay_L、delay_C、delay_R、delay_Rsをそれぞれかける。これにより、仮想スピーカの位置(音像の位置)が前後に定位される。なお、delay_Ls、delay_L、delay_C、delay_R、delay_Rsは、それぞれ遅延の値である。
 遅延部22は、チャンネル毎に遅延されたそれぞれの信号を、係数演算部23に出力する。なお、遅延が必要のないものについては遅延をかける必要がないので、そのまま係数演算部23にスルーされる。
 係数演算部23は、遅延部22からの音声信号Ls,L,C,R,Rsに対して、制御部21によりそれぞれのチャンネルに対して設定されたk_Ls、k_L、k_C、k_R、k_Rsを増減する。係数演算部23は、チャンネル毎に係数が演算されたそれぞれの信号を、分配部24に出力する。なお、k_Ls、k_L、k_C、k_R、k_Rsは、それぞれ係数の値である。
 分配部24は、係数演算部23からの音声信号Lsと音声信号Lとをそのまま合成部25Lに出力する。分配部24は、係数演算部23からの音声信号Rsと音声信号Rとをそのまま合成部25Rに出力する。
 さらに、分配部24は、係数演算部23からの音声信号Cを2チャンネル出力になるように分配し、分配した音声信号Cにdelay_αをかけたものを、合成部25Lに出力し、分配した音声信号Cにdelay_βをかけたものを、合成部25Rに出力する。
 なお、delay_αおよびdelay_βは、遅延の値であり、同じ値でも構わないが、異なる値に設定することで、後述するHaas効果を得ることができ、仮想スピーカの位置を左右に定位することができる。なお、この例においては、Cチャンネルを左右に定位させている。
 合成部25Lは、分配部24からの音声信号Ls、音声信号L、音声信号Cにdelay_αをかけたものを合成して、レベル調整部26Lに出力する。合成部25Rは、分配部24からの音声信号Rs、音声信号R、音声信号Cにdelay_βをかけたものを合成して、レベル調整部26Rに出力する。
 レベル調整部26Lは、合成部25Lからの音声信号を補正する。具体的には、レベル調整部26Lは、音声信号の補正として、合成部25Lからの音声信号をレベル調整し、レベル調整した音声信号をスピーカ12Lに出力する。レベル調整部26Rは、合成部25Rからの音声信号を補正する。具体的には、レベル調整部26Rは、音声信号の補正として、音声信号をレベル調整し、レベル調整した音声信号をスピーカ12Rに出力する。なお、このレベル調整の一例としては、特開2010-003335に記載されているものが用いられる。
 スピーカ12Lは、レベル調整部26Lからの音声信号に対応する音声を出力する。スピーカ12Rは、レベル調整部26Rからの音声信号に対応する音声を出力する。
 以上のように、音声信号の数を減らすための音声信号の合成処理に、遅延回路を用いることにより、仮想スピーカの位置を、前後左右の好みの位置に定位させることができる。
 また、遅延の値や係数の値は、固定化することもできるし、時間的に連続して変化させることもできる。さらに、制御部21により遅延の値と係数の値とを連動して変化させることにより、聴覚的に仮想スピーカの位置を所望の位置に定位させることが可能である。
 <Haas効果の概要>
 次に、図2を参照して、Haas効果について説明する。図2の例において、スピーカ12Lおよびスピーカ12Rが示される位置は、それぞれが配置されるスピーカ位置を表している。
 左に設けられたスピーカ12Lと、右に設けられたスピーカ12Rとからの距離が同じ位置で、ユーザは、両方のスピーカからの同じ音声を聞いているとする。このとき、例えば、スピーカ12Lから聞こえる音声信号に遅延を加えると、スピーカ12Rの方向から聞こえるように知覚する。すなわち、スピーカ12R側に音源があるように聞こえる。
 このような効果をHaas効果といい、遅延を用いることで、左右の位置を定位させることができる。
 <距離、振幅と遅延の関係>
 次に、音の大きさの変化について説明する。ユーザが聞いている位置(以下、リスニングポジションと称する)から、音像の距離が遠くなると、音は小さく聞こえ、音像が近くなると音は大きく聞こえる。すなわち、音像が遠くなると聞こえた音声信号の振幅は小さくなり、近くなると音声信号の振幅は大きくなる。
 図3は、おおよそのテレビジョン装置のスピーカ設置位置と視聴距離を表している。図3の例において、スピーカ12Lおよびスピーカ12Rが示される位置は、それぞれが配置されるスピーカ位置を表しており、Cが示される位置は、Cチャンネルの音像位置(仮想スピーカ位置)を表している。また、Cチャンネルの音像Cが中央にあるとすると、左側のスピーカ12Lは、Cチャンネルの音像Cから左に30cm離れた位置に設置されている。右側のスピーカ12Rは、Cチャンネルの音像Cから右に30cm離れた位置に設置されている。
 そして、顔のイラストで示されるユーザのリスニングポジションは、Cチャンネルの音像Cから前方に100cm離れており、左側のスピーカ12Lおよび右側のスピーカ12Rからも100cm離れている。すなわち、Cチャンネル、左側のスピーカ12Lおよび右側のスピーカ12Rは、同心円状に配置されている。なお、特に言及しない限り、以下の説明においても、スピーカおよび仮想スピーカは同心円状に配置されているものとする。
 図4の例においては、図3の例のスピーカ設置位置と視聴距離の場合に、Cチャンネルの音像Cを前方(図中矢印F側)または後方(図中矢印B側)に変化させると、振幅と遅延の増減がどのくらい変化するのかを計算によって求めたものが示されている。
 すなわち、図3の配置において、Cチャンネルの音像Cを前方(矢印F側)に2cm変化させた場合、-0.172dB振幅の増減があり、-0.065msec遅延がある。前方に4cm変化させた場合、-0.341dB振幅の増減があり、-0.130msec遅延がある。前方に6cm変化させた場合、-0.506dB振幅の増減があり、-0.194msec遅延がある。前方に8cm変化させた場合、-0.668dB振幅の増減があり、-0.259msec遅延がある。前方に10cm変化させた場合、-0.828dB振幅の増減があり、-0.324msec遅延がある。
 また、図3の配置において、Cチャンネルの音像Cを後方(矢印B側)に2cm変化させた場合、-0.175dB振幅の増減があり、0.065msec遅延がある。後方に4cm変化させた場合、0.355dB振幅の増減があり、0.130msec遅延がある。後方に6cm変化させた場合、0.537dB振幅の増減があり、0.194msec遅延がある。後方に8cm変化させた場合、0.724dB振幅の増減があり、0.259msec遅延がある。後方に10cm変化させた場合、0.915dB振幅の増減があり、0.324msec遅延がある。
 図5は、おおよそのテレビジョン装置のスピーカ設置位置と視聴距離の他の例を表している。図5の例において、Cチャンネルの音像Cが中央にあるとすると、左側のスピーカ12Lは、Cチャンネルの音像Cから左に50cm離れた位置に設置されている。右側のスピーカ12Rは、Cチャンネルの音像Cから右に50cm離れた位置に設置されている。
 そして、ユーザのリスニングポジションは、Cチャンネルの音像Cから前方に200cm離れており、左側のスピーカ12Lおよび右側のスピーカ12Rからも200cm離れている。すなわち、図3の例の場合と同様に、Cチャンネル、左側のスピーカ12Lおよび右側のスピーカ12Rは、同心円状に配置されている。なお、特に言及しない限り、以下の説明においても、スピーカおよび仮想スピーカは同心円状に配置されているものとする。
 図6の例においては、図5の例のスピーカ設置位置と視聴距離の場合に、Cチャンネルの音像Cを前方(矢印F側)または後方(矢印B側)に変化させると、振幅と遅延の増減がどのくらい変化するのかを計算によって求めたものが示されている。
 すなわち、図5の配置において、Cチャンネルの音像Cを前方(矢印F側)に2cm変化させた場合、-0.0086dB振幅の増減があり、-0.065msec遅延がある。前方に4cm変化させた場合、-0.172dB振幅の増減があり、-0.130msec遅延がある。前方に6cm変化させた場合、-0.257dB振幅の増減があり、-0.194msec遅延がある。前方に8cm変化させた場合、-0.341dB振幅の増減があり、-0.259msec遅延がある。前方に10cm変化させた場合、-0.424dB振幅の増減があり、-0.324msec遅延がある。
 また、図5の配置において、Cチャンネルの音像Cを後方(矢印B側)に2cm変化させた場合、-0.087dB振幅の増減があり、0.065msec遅延がある。後方に4cm変化させた場合、0.175dB振幅の増減があり、0.130msec遅延がある。後方に6cm変化させた場合、0.265dB振幅の増減があり、0.194msec遅延がある。後方に8cm変化させた場合、0.355dB振幅の増減があり、0.259msec遅延がある。後方に10cm変化させた場合、0.446dB振幅の増減があり、0.324msec遅延がある。
 以上のように、音像が遠くなると聞こえた音声信号の振幅は小さくなり、近くなると音声信号の振幅は大きくなる。したがって、このようにして遅延と振幅の係数とを連動して変化させることにより、聴覚的に仮想スピーカの位置を定位させることができることがわかる。
 <レベル調整>
 次に、図7および図8を参照して、レベル調整について説明する。
 図7は、遅延なしの場合のダウンミックス前後の音声波形の例を示す図である。図7の例においては、XとYは、各チャンネルの音声波形であり、Zは、XとYの波形の音声信号をダウンミックスした音声波形である。
 図8は、遅延ありの場合のダウンミックス前後の音声波形の例を示す図である。すなわち、図8の例においては、PとQは、各チャンネルの音声波形であり、Qは、遅延が加えられている。そして、Rは、PとQの波形の音声信号をダウンミックスした音声波形である。
 図7の遅延なしの場合、問題なくダウンミックスが行われている。これに対して、図8の遅延有りの場合、遅延を用いることで、ダウンミックスの時間位置がずれるため、ダウンミックス(合成部25Lおよび25R)後の音の大きさが音源制作者の想定していなかったものになる恐れがある。この場合、Rの一部振幅が大きくなりすぎ、ダウンミックス後の音に、オーバーフローが発生してしまう。
 そこで、レベル調整部26Lおよび26Rにおいては、信号のレベル調整を行うことで、オーバーフローを抑制している。
 <音声信号処理>
 次に、図9のフローチャートを参照して、図1のダウンミックス装置11によるダウンミックス処理について説明する。なお、ダウンミックス処理は、音声信号処理の1つの例である。
 制御部21は、ステップS11において、係数演算部23、および分配部24の遅延delayや係数kの値をチャンネル毎や左右の定位に応じて設定する。
 遅延部22には、音声信号Ls,L,C,R,Rsが入力されてくる。遅延部22は、ステップS12において、入力された音声信号に対して、チャンネル毎に遅延をかけることにより、仮想スピーカ位置を前後に定位させる。
 すなわち、遅延部22は、入力されてくる音声信号Ls,L,C,R,Rsに対して、制御部21によりそれぞれのチャンネルに対して設定されたdelay_Ls、delay_L1、delay_C、delay_R、delay_Rsをそれぞれかける。これにより、仮想スピーカの位置(音像の位置)が前後に定位される。なお、前後の定位の詳細は、図10以降に後述する。
 遅延部22は、チャンネル毎に遅延されたそれぞれの信号を、係数演算部23に出力する。係数演算部23は、ステップS13において、係数で振幅の増減を調整する。
 すなわち、係数演算部23は、遅延部22からの音声信号Ls,L,C,R,Rsに対して、制御部21によりそれぞれのチャンネルに対して設定されたk_Ls、k_L、k_C、k_R、k_Rsを増減する。係数演算部23は、チャンネル毎に係数が演算されたそれぞれの信号を、分配部24に出力する。
 分配部24は、ステップS14において、入力されてくる所定の音声信号のうち、少なくとも1つの音声信号を、出力チャンネル数に分配し、分配された音声信号に対して、出力チャンネル毎に遅延をかけることにより、仮想スピーカ位置を左右に定位させる。なお、左右の定位の詳細は、図15以降に後述する。
 すなわち、分配部24は、係数演算部23からの音声信号Lsと音声信号Lとをそのまま合成部25Lに出力する。分配部24は、係数演算部23からの音声信号Rsと音声信号Rとをそのまま合成部25Rに出力する。
 さらに、分配部24は、係数演算部23からの音声信号Cを2チャンネル出力になるように分配し、分配した音声信号Cにdelay_αをかけたものを、合成部25Lに出力し、分配した音声信号Cにdelay_βをかけたものを、合成部25Rに出力する。
 合成部25Lおよび合成部25Rは、ステップS15において、音声信号を合成する。合成部25Lは、分配部24からの音声信号Ls、音声信号L、音声信号Cにdelay_αをかけたものを合成して、レベル調整部26Lに出力する。合成部25Rは、分配部24からの音声信号Rs、音声信号R、音声信号Cにdelay_βをかけたものを合成して、レベル調整部26Rに出力する。
 レベル調整部26Lおよびレベル調整部26Rは、ステップS16において、合成部25Lおよび合成部25Rからの音声信号をそれぞれレベル調整し、レベル調整した音声信号をスピーカ12Lにそれぞれ出力する。
 スピーカ12Lおよび12Rは、ステップ17において、レベル調整部26Lおよびレベル調整部26Rからの音声信号に対応する音声をそれぞれ出力する。
 以上のように、ダウンミックス処理、すなわち、音声信号の数を減らすための音声信号の合成処理に、遅延回路を用いることにより、仮想スピーカの位置を、前後左右の好みの位置に定位させることができる。
 また、遅延の値や係数の値は、固定化することもできるし、時間的に連続して変化させることもできる。さらに、制御部21により遅延の値と係数の値とを連動して変化させることにより、聴覚的に仮想スピーカの位置をうまく定位させることが可能である。
<第2の実施の形態>
 <前後の定位の例>
 次に、図10乃至図14を参照して、図9のステップS12の遅延部22による前後の定位について詳しく説明する。
 図10の例においては、上の段のL、C、Rは、L、C、Rの音声信号を表している。下の段のL’、R’は、ダウンミックスした後のL,Rの音声信号であり、その位置は、スピーカ12Lと12Rの位置をそれぞれ示している。下の段のCは、Cチャンネルの音像位置(仮想スピーカ位置)を示している。なお、図11および図13の例においても同様である。
 すなわち、L、C、Rからなる3チャンネルから、L’、R’の2チャンネルにダウンミックスする例、換言するに、L、C、Rの任意のチャンネルの音声信号に遅延(delay)をかけることで、Cチャンネルの音像を前後に定位させる例を説明する。
 まず、図11の例においては、Cチャンネルの音像を、図10で示された位置から後方に30cmずらす例が示されている。その際、遅延部22は、Cチャンネルの音声信号のみに、距離に相当した遅延の値(delay)をかける。なお、delayは、同じ値である。これにより、Cチャンネルの音像が30cm後方に定位される。
 また、図11の右側においては、上から順に、入力信号L、C、Rの波形、2チャンネルにダウンミックスしたR’とL’の波形、さらに、Cチャンネルの音像を30cm後方にずらしたR’とL’の波形が示されている。
 なお、2チャンネルにダウンミックスだけ行ったR’とL’の波形、さらに、Cチャンネルの音像を30cm後方にずらした(すなわち、遅延をかけた)R’とL’の波形を拡大した波形を拡大したものが、図12に示されている。
 図12の例においては、上段は、遅延を入れずに足した音声信号であり、下段が、Cチャンネルに遅延をかけたときの波形である。比較すると、上段より下段の音声信号が時間的に遅れている(すなわち、C成分が遅延している)ことがわかる。
 次に、図13の例においては、Cチャンネルの音像を、図10で示された位置から前方に30cmずらす例が示されている。その際、遅延部22は、LチャンネルとRチャンネルの音声信号に、距離に相当した遅延の値(delay)をかける。なお、delayは、同じ値である。これにより、Cチャンネルの音像が30cm前方に定位される。
 また、図13の右側においては、上から順に、入力信号L、C、Rの波形、2チャンネルにダウンミックスしたR’とL’の波形、さらに、Cチャンネルの音像を30cm前方にずらしたR’とL’の波形が示されている。
 なお、2チャンネルにダウンミックスだけ行ったR’とL’の波形、さらに、Cチャンネルの音像を30cm前方にずらした(すなわち、LとRに遅延をかけた)R’とL’の波形を拡大した波形を拡大したものが、図14に示されている。ただし、拡大の箇所は、L’成分のみが存在する箇所である。
 図14の例においては、上段は、遅延を入れずに足した音声信号であり、下段が、LとRチャンネルに遅延をかけたときの波形である。比較すると、上段より下段の音声信号が時間的に遅れている(すなわち、R’とL’成分が遅延している)ことがわかる。
 以上のように、ダウンミックス時に遅延を用いることで、音像を前後に定位させることができる。すなわち、音像の定位位置を前後に変化させることができる。
<第3の実施の形態>
 <左右の定位の例>
 次に、図15乃至図17を参照して、図9のステップS14の分配部24による左右の定位について詳しく説明する。
 図15の例においては、上の段のL、C、Rは、L、C、Rの音声信号を表している。下の段のL’、R’は、ダウンミックスした音声信号であり、その位置は、スピーカ12Lと12Rの位置をそれぞれ示している。下の段のCは、Cチャンネルの音像位置(仮想スピーカ位置)を示している。なお、図16および図17の例においても同様である。
 すなわち、L、C、Rからなる3チャンネルから、L’、R’の2チャンネルにダウンミックスする例、換言するに、L、C、Rの任意のチャンネルの音声信号に遅延の値(delay)をかける。これにより、上述したHaas効果である、Cチャンネルの音像を左右に定位させる例を説明する。
 まず、図16の例においては、Cチャンネルの音像を、図10で示された位置からL’側方向にずらす例が示されている。その際、遅延部22は、R’に合成されるCチャンネルの音声信号のみに、距離に相当したdelayβをかける。これにより、Cチャンネルの音像がL側方向に定位される。
 また、図16の右側において、上段は、2チャンネルにダウンミックスだけ行ったR’とL’の波形であり、下段は、R’のみを遅延させたR’とL’の波形である。比較すると、R’の音声信号がL’の音声信号より遅延していることがわかる。
 次に、図17の例においては、Cチャンネルの音像を、図10で示された位置からR’側方向にずらす例が示されている。その際、遅延部22は、L’に合成されるCチャンネルの音声信号のみに、距離に相当したdelayαをかける。これにより、Cチャンネルの音像がR側方向に定位される。
 また、図17の右側において、上段は、2チャンネルにダウンミックスだけ行ったR’とL’の波形であり、下段は、L’のみを遅延させたR’とL’の波形である。比較すると、L’の音声信号がR’の音声信号より遅延していることがわかる。
 <変形例>
 図18を参照して、左右の定位の他の例について説明する。図18は、Ls,L,Lc,C,Rc,R,Rsからなる7チャンネルから、Lo,Roの2チャンネルにダウンミックスを行う例が示す図である。図18の例においては、Ls,L,R,Rsの音声信号の係数がk=1.0であり、分配した各Lc,分配した各Rc,およびCの音声信号の係数がk4=1/ルート2である例が示されている。
 図18の例においては、Lc,Rcのチャンネルに任意の遅延をかけると、LcとRcの音像を左右に定位できる。これもHaas効果を用いた音像の左右方向の定位である。
 なお、左右方向の定位は、上述した係数(図中示されるk)を変化させることでも行うことができる。ただし、その場合、パワーが一定にならないことがある。それに対して、Haas効果を利用することで、パワーを一定に保つことができ、係数も変化させる必要がなくなる。
 以上のように、ダウンミックス時に遅延を用い、Haas効果を利用することで、音像を左右に定位させることができる。すなわち、音像の定位位置を左右に変化させることができる。
<第4の実施の形態>
 <装置の構成例>
 図19は、本技術を適用した音声処理装置としてのダウンミックス装置の他の構成例を示すブロック図である。
 図19のダウンミックス装置101は、制御部21、遅延部22、係数演算部23、分配部24、合成部25Lおよび25Rを備える点は、図1のダウンミックス装置11と共通している。
 図19のダウンミックス装置101は、レベル調整部26Lおよび26Rと、ミュート回路111Lおよび111Rとが入れ替わった点のみが図1のダウンミックス装置11と異なっている。
 すなわち、ミュート回路111Lは、合成部25Lからの音声信号の補正として、音声信号に対してミュートを行い、ミュートを行った音声信号をスピーカ12Lに出力する。ミュート回路111Rは、合成部25Rからの音声信号の補正として、音声信号に対してミュートを行い、ミュートを行った音声信号をスピーカ12Rに出力する。
 これにより、例えば、再生中に、遅延の値と係数の値とを変更する場合、出力信号に乗る恐れがあった雑音が出力されないように制御することができる。
 次に、図20のフローチャートを参照して、図19のダウンミックス装置101によるダウンミックス処理について説明する。なお、図20のステップS111乃至S115は、図9のステップS11乃至S15と基本的に同様の処理を行うので、その説明は省略する。
 ミュート回路111Lおよびミュート回路111Rは、ステップS116において、合成部25Lおよび合成部25Rからの音声信号にそれぞれミュートを行い、ミュートを行った音声信号をスピーカ12Lおよびスピーカ12Rにそれぞれ出力する。
 スピーカ12Lおよびスピーカ12Rは、ステップS117において、ミュート回路111Lおよびミュート回路111Rからの音声信号に対応する音声をそれぞれ出力する。
 これにより、遅延の値と係数の値を変更することで乗ってしまう恐れのある雑音の出力を抑制することができる。
 なお、上記説明においては、ダウンミックス装置に、音声信号の補正を行う部として、レベル調整部またはミュート回路のどちらか一方が構成される例を説明したが、レベル調整部とミュート回路の両方を構成するようにしてもよい。その場合、レベル調整部とミュート回路の構成の順番は問わない。
 また、入力チャンネル数は、2チャンネル以上であればよく、上述した5チャンネルや7チャンネルに限定されない。さらに、出力チャンネル数も2チャンネル以上であればよく、上述した2チャンネルに限定されない。
 上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な汎用のパーソナルコンピュータなどが含まれる。
<第5の実施の形態>
 <コンピュータの構成例>
 図21は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 コンピュータ200において、CPU(Central Processing Unit)201、ROM(Read Only Memory)202、RAM(Random Access Memory)203は、バス204により相互に接続されている。
 バス204には、さらに、入出力インタフェース205が接続されている。入出力インタフェース205には、入力部206、出力部207、記憶部208、通信部209、およびドライブ210が接続されている。
 入力部206は、キーボード、マウス、マイクロホンなどよりなる。出力部207は、ディスプレイ、スピーカなどよりなる。記憶部208は、ハードディスクや不揮発性のメモリなどよりなる。通信部209は、ネットワークインタフェースなどよりなる。ドライブ210は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体211を駆動する。
 以上のように構成されるコンピュータでは、CPU201が、例えば、記憶部208に記憶されているプログラムを入出力インタフェース205及びバス204を介してRAM203にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU201)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体211に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体211をドライブ210に装着することにより、入出力インタフェース205を介して、記憶部208にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部209で受信し、記憶部208にインストールすることができる。その他、プログラムは、ROM202や記憶部208に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本明細書において、システムの用語は、複数の装置、ブロック、手段などにより構成される全体的な装置を意味するものである。
 なお、本開示における実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有するであれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例また修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 なお、本技術は以下のような構成も取ることができる。
 (1) 入力される2チャンネル以上の音声信号にチャンネル毎に遅延をかける遅延部と、
 前記遅延の値を設定する設定部と、
 前記遅延部により遅延がかけられた音声信号を合成して、出力チャンネルの音声信号を出力する合成部と
 を備える音声処理装置。
 (2) 音声処理装置が、
 入力される2チャンネル以上の音声信号にチャンネル毎に遅延をかけ、
 前記遅延の値を設定し、
 前記遅延がかけられた音声信号を合成して、出力チャンネルの音声信号を出力する
 音声処理方法。
 (3) 入力される2チャンネル以上の音声信号にチャンネル毎に遅延をかける遅延部と、
 前記遅延部により遅延がかけられた音声信号の振幅の増減を調整する調整部と、
 前記遅延の値と前記増減を示す係数値とを設定する設定部と、
 前記調整部により振幅の増減が調整された音声信号を合成して、出力チャンネルの音声信号を出力する合成部と
 を備える音声処理装置。
 (4) 前記設定部は、前記遅延の値と前記係数値と連動して設定する
 前記(3)に記載の音声処理装置。
 (5) 前記設定部は、リスニングポジションに対して、音像を前方に定位させる場合、音が大きくなるように前記係数値を設定し、音像を後方に定位させる場合、音が小さくなるように前記係数値を設定する
 前記(3)または(4)に記載の音声処理装置。
 (6) 前記調整部により振幅の増減が調整された音声信号を補正する補正部を
 さらに備える
 前記(3)乃至(5)のいずれかに記載の音声処理装置。
 (7) 前記補正部は、前記調整部により振幅の増減が調整された音声信号のレベルを調整する
 前記(6)に記載の音声処理装置。
 (8) 前記補正部は、前記調整部により振幅の増減が調整された音声信号にミュートを行う
 前記(6)に記載の音声処理装置。
 (9) 音声処理装置が、
 入力される2チャンネル以上の音声信号にチャンネル毎に遅延をかけ、
 前記遅延がかけられた音声信号の振幅の増減を調整し、
 前記遅延の値と前記増減を示す係数値とを設定し、
 前記振幅の増減が調整された音声信号を合成して、出力チャンネルの音声信号を出力する
 音声処理方法。
 (10) 入力される2チャンネル以上の音声信号のうち、少なくとも1つのチャンネルの音声信号に遅延をかけて、2チャンネル以上の出力チャンネルに分配する分配部と、
 入力される音声信号と、前記分配部により分配された音声信号とを合成して、前記出力チャンネルの音声信号を出力する合成部と、
 前記遅延の値を、前記出力チャンネル毎に設定する設定部と
 を備える音声処理装置。
 (11) 前記設定部は、haas効果が得られるように、前記遅延の値を設定する
 前記(10)に記載の音声処理装置。
 (12) 音声処理装置が、
 入力される2チャンネル以上の音声信号のうち、少なくとも1つのチャンネルの音声信号に遅延をかけて、2チャンネル以上の出力チャンネルに分配し、
 入力される音声信号と、前記分配部により分配された音声信号とを合成して、前記出力チャンネルの音声信号を出力し、
 前記遅延の値を、前記出力チャンネル毎に設定する
 音声処理方法。
 11 ダウンミックス装置, 12L,12R スピーカ, 21 制御部, 22 遅延部, 23 係数演算部, 24 分配部, 25L,25R 合成部, 26L,26R レベル調整部, 101 ダウンミックス装置, 111L,111R ミュート回路

Claims (12)

  1.  入力される2チャンネル以上の音声信号にチャンネル毎に遅延をかける遅延部と、
     前記遅延の値を設定する設定部と、
     前記遅延部により遅延がかけられた音声信号を合成して、出力チャンネルの音声信号を出力する合成部と
     を備える音声処理装置。
  2.  音声処理装置が、
     入力される2チャンネル以上の音声信号にチャンネル毎に遅延をかけ、
     前記遅延の値を設定し、
     前記遅延がかけられた音声信号を合成して、出力チャンネルの音声信号を出力する
     音声処理方法。
  3.  入力される2チャンネル以上の音声信号にチャンネル毎に遅延をかける遅延部と、
     前記遅延部により遅延がかけられた音声信号の振幅の増減を調整する調整部と、
     前記遅延の値と前記増減を示す係数値とを設定する設定部と、
     前記調整部により振幅の増減が調整された音声信号を合成して、出力チャンネルの音声信号を出力する合成部と
     を備える音声処理装置。
  4.  前記設定部は、前記遅延の値と前記係数値と連動して設定する
     請求項3に記載の音声処理装置。
  5.  前記設定部は、リスニングポジションに対して、音像を前方に定位させる場合、音が大きくなるように前記係数値を設定し、音像を後方に定位させる場合、音が小さくなるように前記係数値を設定する
     請求項4に記載の音声処理装置。
  6.  前記調整部により振幅の増減が調整された音声信号を補正する補正部を
     さらに備える請求項3に記載の音声処理装置。
  7.  前記補正部は、前記調整部により振幅の増減が調整された音声信号のレベルを調整する
     請求項6に記載の音声処理装置。
  8.  前記補正部は、前記調整部により振幅の増減が調整された音声信号にミュートを行う
     請求項6に記載の音声処理装置。
  9.  音声処理装置が、
     入力される2チャンネル以上の音声信号にチャンネル毎に遅延をかけ、
     前記遅延がかけられた音声信号の振幅の増減を調整し、
     前記遅延の値と前記増減を示す係数値とを設定し、
     前記振幅の増減が調整された音声信号を合成して、出力チャンネルの音声信号を出力する
     音声処理方法。
  10.  入力される2チャンネル以上の音声信号のうち、少なくとも1つのチャンネルの音声信号に遅延をかけて、2チャンネル以上の出力チャンネルに分配する分配部と、
     入力される音声信号と、前記分配部により分配された音声信号とを合成して、前記出力チャンネルの音声信号を出力する合成部と、
     前記遅延の値を、前記出力チャンネル毎に設定する設定部と
     を備える音声処理装置。
  11.  前記設定部は、haas効果が得られるように、前記遅延の値を設定する
     請求項10に記載の音声処理装置。
  12.  音声処理装置が、
     入力される2チャンネル以上の音声信号のうち、少なくとも1つのチャンネルの音声信号に遅延をかけて、2チャンネル以上の出力チャンネルに分配し、
     入力される音声信号と、前記分配部により分配された音声信号とを合成して、前記出力チャンネルの音声信号を出力し、
     前記遅延の値を、前記出力チャンネル毎に設定する
     音声処理方法。
PCT/JP2015/074340 2014-09-12 2015-08-28 音声処理装置および方法 WO2016039168A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201580047092.1A CN106688252B (zh) 2014-09-12 2015-08-28 音频处理装置和方法
JP2016547361A JP6683617B2 (ja) 2014-09-12 2015-08-28 音声処理装置および方法
US15/508,806 US20170257721A1 (en) 2014-09-12 2015-08-28 Audio processing device and method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014185969 2014-09-12
JP2014-185969 2014-09-12

Publications (1)

Publication Number Publication Date
WO2016039168A1 true WO2016039168A1 (ja) 2016-03-17

Family

ID=55458922

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/074340 WO2016039168A1 (ja) 2014-09-12 2015-08-28 音声処理装置および方法

Country Status (4)

Country Link
US (1) US20170257721A1 (ja)
JP (1) JP6683617B2 (ja)
CN (1) CN106688252B (ja)
WO (1) WO2016039168A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021512358A (ja) * 2018-01-24 2021-05-13 エル アコースティックス ユーケー リミテッド 多重チャネルオーディオ再生システムに時間に基づく効果を提供するための方法およびシステム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11140509B2 (en) * 2019-08-27 2021-10-05 Daniel P. Anagnos Head-tracking methodology for headphones and headsets

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11220800A (ja) * 1998-01-30 1999-08-10 Onkyo Corp 音像移動方法及びその装置
JPH11328861A (ja) * 1998-05-14 1999-11-30 Sony Corp オーディオ信号処理装置およびオーディオ信号再生装置
JP2006025034A (ja) * 2004-07-06 2006-01-26 Sony Corp 音声信号処理装置およびその方法、音声信号記録再生装置ならびにプログラム
JP2010050544A (ja) * 2008-08-19 2010-03-04 Onkyo Corp 映像音声再生装置
WO2012144227A1 (ja) * 2011-04-22 2012-10-26 パナソニック株式会社 音声信号再生装置、音声信号再生方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1151704C (zh) * 1998-01-23 2004-05-26 音响株式会社 声像定位装置和方法
KR100416757B1 (ko) * 1999-06-10 2004-01-31 삼성전자주식회사 위치 조절이 가능한 가상 음상을 이용한 스피커 재생용 다채널오디오 재생 장치 및 방법
US7929708B2 (en) * 2004-01-12 2011-04-19 Dts, Inc. Audio spatial environment engine
KR100608024B1 (ko) * 2004-11-26 2006-08-02 삼성전자주식회사 다중 채널 오디오 입력 신호를 2채널 출력으로 재생하기위한 장치 및 방법과 이를 수행하기 위한 프로그램이기록된 기록매체
KR100739798B1 (ko) * 2005-12-22 2007-07-13 삼성전자주식회사 청취 위치를 고려한 2채널 입체음향 재생 방법 및 장치
KR100677629B1 (ko) * 2006-01-10 2007-02-02 삼성전자주식회사 다채널 음향 신호에 대한 2채널 입체 음향 생성 방법 및장치
JP2007336080A (ja) * 2006-06-13 2007-12-27 Clarion Co Ltd 音響補正装置
WO2008011719A1 (en) * 2006-07-28 2008-01-31 Hildebrandt James G Headphone improvements
KR101368859B1 (ko) * 2006-12-27 2014-02-27 삼성전자주식회사 개인 청각 특성을 고려한 2채널 입체 음향 재생 방법 및장치
US8000485B2 (en) * 2009-06-01 2011-08-16 Dts, Inc. Virtual audio processing for loudspeaker or headphone playback
JP5417352B2 (ja) * 2011-01-27 2014-02-12 株式会社東芝 音場制御装置及び方法
ITTO20120067A1 (it) * 2012-01-26 2013-07-27 Inst Rundfunktechnik Gmbh Method and apparatus for conversion of a multi-channel audio signal into a two-channel audio signal.
CA3036880C (en) * 2013-03-29 2021-04-27 Samsung Electronics Co., Ltd. Audio apparatus and audio providing method thereof
CN106576204B (zh) * 2014-07-03 2019-08-20 杜比实验室特许公司 声场的辅助增大

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11220800A (ja) * 1998-01-30 1999-08-10 Onkyo Corp 音像移動方法及びその装置
JPH11328861A (ja) * 1998-05-14 1999-11-30 Sony Corp オーディオ信号処理装置およびオーディオ信号再生装置
JP2006025034A (ja) * 2004-07-06 2006-01-26 Sony Corp 音声信号処理装置およびその方法、音声信号記録再生装置ならびにプログラム
JP2010050544A (ja) * 2008-08-19 2010-03-04 Onkyo Corp 映像音声再生装置
WO2012144227A1 (ja) * 2011-04-22 2012-10-26 パナソニック株式会社 音声信号再生装置、音声信号再生方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021512358A (ja) * 2018-01-24 2021-05-13 エル アコースティックス ユーケー リミテッド 多重チャネルオーディオ再生システムに時間に基づく効果を提供するための方法およびシステム
JP7531898B2 (ja) 2018-01-24 2024-08-13 エル アコースティックス ユーケー リミテッド 多重チャネルオーディオ再生システムに時間に基づく効果を提供するための方法およびシステム

Also Published As

Publication number Publication date
JP6683617B2 (ja) 2020-04-22
JPWO2016039168A1 (ja) 2017-06-22
US20170257721A1 (en) 2017-09-07
CN106688252A (zh) 2017-05-17
CN106688252B (zh) 2020-01-03

Similar Documents

Publication Publication Date Title
US9949053B2 (en) Method and mobile device for processing an audio signal
US8477951B2 (en) Front surround system and method of reproducing sound using psychoacoustic models
US8675899B2 (en) Front surround system and method for processing signal using speaker array
US11102577B2 (en) Stereo virtual bass enhancement
JP5245368B2 (ja) 仮想音源定位装置
EP2614659B1 (en) Upmixing method and system for multichannel audio reproduction
KR102160254B1 (ko) 액티브다운 믹스 방식을 이용한 입체 음향 재생 방법 및 장치
WO2010076850A1 (ja) 音場制御装置及び音場制御方法
US20110038485A1 (en) Nonlinear filter for separation of center sounds in stereophonic audio
US8971542B2 (en) Systems and methods for speaker bar sound enhancement
JP5118267B2 (ja) 音声信号再生装置、音声信号再生方法
US9197978B2 (en) Sound reproduction apparatus and sound reproduction method
JP5363567B2 (ja) 音響再生装置
CN104303523B (zh) 将多声道音频信号转换为双声道音频信号的方法和设备
WO2016039168A1 (ja) 音声処理装置および方法
US9998844B2 (en) Signal processing device and signal processing method
US20140219458A1 (en) Audio signal reproduction device and audio signal reproduction method
JP2009100144A (ja) 音場制御装置、音場制御方法およびプログラム
JP6463955B2 (ja) 三次元音響再生装置及びプログラム
JP2013176170A (ja) 再生装置および再生方法
JP2016039568A (ja) 音響処理装置および方法、並びにプログラム
JP2005341208A (ja) 音像定位装置
US11265671B2 (en) Method and system for applying time-based effects in a multi-channel audio reproduction system
JP6629739B2 (ja) 音声処理装置
KR20150124176A (ko) 다채널 오디오 신호의 채널 이득 제어 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15840461

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016547361

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15508806

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15840461

Country of ref document: EP

Kind code of ref document: A1