RU2426180C2 - Calculation and adjustment of audio signal audible volume and/or spectral balance - Google Patents

Calculation and adjustment of audio signal audible volume and/or spectral balance Download PDF

Info

Publication number
RU2426180C2
RU2426180C2 RU2008143336/09A RU2008143336A RU2426180C2 RU 2426180 C2 RU2426180 C2 RU 2426180C2 RU 2008143336/09 A RU2008143336/09 A RU 2008143336/09A RU 2008143336 A RU2008143336 A RU 2008143336A RU 2426180 C2 RU2426180 C2 RU 2426180C2
Authority
RU
Russia
Prior art keywords
specific volume
volume
audio signal
loudness
approximation
Prior art date
Application number
RU2008143336/09A
Other languages
Russian (ru)
Other versions
RU2008143336A (en
Inventor
Алан Джеффри СИФЕЛЬДТ (US)
Алан Джеффри Сифельдт
Original Assignee
Долби Лэборетериз Лайсенсинг Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Долби Лэборетериз Лайсенсинг Корпорейшн filed Critical Долби Лэборетериз Лайсенсинг Корпорейшн
Publication of RU2008143336A publication Critical patent/RU2008143336A/en
Application granted granted Critical
Publication of RU2426180C2 publication Critical patent/RU2426180C2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/165Equalizers; Volume or gain control in limited frequency bands
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/005Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L2021/065Aids for the handicapped in understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Stereophonic System (AREA)

Abstract

FIELD: physics.
SUBSTANCE: audio signal processing makes sense in volume adjustment with volume compensation, dynamic correction and compensation of background noise in audio playback hardware. Modification parameters are used to modify audio signal to reduce difference between specific volume and target specific volume.
EFFECT: higher intelligibility.
26 cl, 19 dwg

Description

ОБЛАСТЬ ТЕХНИКИFIELD OF TECHNOLOGY

Изобретение относится к обработке звуковых сигналов. Более точно, изобретение относится к измерению и регулировке воспринимаемой громкости звука и/или воспринимаемого спектрального баланса звукового сигнала. Изобретение, например, полезно в одном или более из: регулировки уровня громкости с компенсацией громкости, автоматической регулировки усиления, регулировки динамического диапазона (в том числе, например, ограничителях, компрессорах, расширителях динамического диапазона и т.п.), динамической коррекции и компенсации шумовых фоновых помех в средах воспроизведения аудио. Изобретение включает в себя не только способы, но также и соответствующие компьютерные программы и устройство.The invention relates to the processing of audio signals. More specifically, the invention relates to measuring and adjusting the perceived sound volume and / or the perceived spectral balance of an audio signal. The invention, for example, is useful in one or more of: volume control with volume compensation, automatic gain control, dynamic range adjustment (including, for example, limiters, compressors, dynamic range expanders, etc.), dynamic correction and compensation noise background interference in audio playback environments. The invention includes not only methods, but also related computer programs and apparatus.

УРОВЕНЬ ТЕХНИКИBACKGROUND

Было много попыток разработать удовлетворительный объективный способ измерения громкости. Флетчер и Мунсон определили в 1933 году, что человеческий слух менее чувствителен на низких и высоких частотах, чем на средних (или голосовых) частотах. Они также обнаружили, что относительное изменение чувствительности уменьшалось по мере того, как уровень звука увеличивался. Предыдущий измеритель громкости состоял из микрофона, усилителя, измерителя и соединения фильтров, сконструированных, чтобы грубо копировать частотную характеристику слуха на низких, средних и высоких уровнях звука.There have been many attempts to develop a satisfactory objective way to measure volume. Fletcher and Munson determined in 1933 that human hearing is less sensitive at low and high frequencies than at medium (or voice) frequencies. They also found that the relative change in sensitivity decreased as the sound level increased. The previous volume meter consisted of a microphone, an amplifier, a meter and a combination of filters designed to roughly copy the frequency response of hearing at low, medium and high sound levels.

Даже если такие устройства обеспечивали измерения громкости одиночного изолированного тона постоянного уровня, измерения более сложных звуков не очень хорошо соответствовали субъективным ощущениям громкости. Измерители уровня звука этого типа были стандартизованы, но использовались только для специфических задач, таких как дозиметрический контроль и надзор за промышленными шумами.Even if such devices provided measurements of the volume of a single isolated tone of a constant level, measurements of more complex sounds did not very well correspond to the subjective sensations of volume. Sound level meters of this type were standardized, but were used only for specific tasks, such as dosimetric monitoring and industrial noise surveillance.

В начале 1950-х Звикер и Стивенс, среди прочего, продолжили работу Флетчера и Мунсона по разработке более реалистичной модели процесса восприятия громкости. Стивенс опубликовал способ для «Расчета громкости смешанного шума» в журнале Акустического общества Америки в 1956 году, а Звикер опубликовал свою статью «Psychological and Methodical Basis of Loudness» («Психологическая и методическая основа громкости») в Acoustica в 1958 году. В 1959 году Звикер опубликовал графический метод для расчета громкости, а также несколько подобных статей вскоре после этого. Способы Стивенса и Звикера были стандартизованы в качестве ISO 532, частей A и B (соответственно). Оба способа заключали в себе сходные этапы.In the early 1950s, Zwicker and Stevens, among other things, continued the work of Fletcher and Munson to develop a more realistic model of the process of perceiving loudness. Stevens published a method for “Calculating the Volume of Mixed Noise” in the journal of the Acoustic Society of America in 1956, and Zwicker published his article “Psychological and Methodical Basis of Loudness” in Acoustica in 1958. In 1959, Zwicker published a graphical method for calculating volume, as well as several similar articles shortly thereafter. Stevens and Zwicker methods were standardized as ISO 532, parts A and B (respectively). Both methods included similar steps.

Прежде всего, зависящее от времени распределение энергии вдоль базилярной мембраны внутреннего уха, указываемое ссылкой как накачка, имитируется прохождением звукового сигнала через гребенку полосовых слуховых фильтров с центральными частотами, равномерно разнесенными по ступенчатой шкале критических полос. Каждый слуховой фильтр предназначен для имитации частотной характеристики в конкретном местоположении вдоль базилярной мембраны внутреннего уха, с центральной частотой фильтра, соответствующей этому местоположению. Ширина критической полосы определена как ширина полосы пропускания одного такого фильтра. Измеряемая в единицах Герц, ширина критической полосы этих слуховых фильтров увеличивается с увеличением центральной частоты. Поэтому полезно определять криволинейную шкалу частот из условия, чтобы ширина критической полосы для всех слуховых фильтров, измеренная по этой криволинейной шкале, была постоянной. Такая криволинейная шкала указывается ссылкой как ступенчатая шкала критических полос и очень полезна в понимании и имитации широкого диапазона физиологических феноменов. Например, смотрите Psychoacoustics - Facts and Models by E. Zwicker and H. Fasti, Springer-Verlag, Berlin, 1990 (Психоакустика - факты и модели по Е. Звикеру и Х.Фасти, Спрингер-Верлаг, Берлин, 1990 год). Способы Стивенса и Звикера используют ступенчатую шкалу критических полос, указываемую ссылкой как шкала Барка, в которой ширина критической полосы является постоянной ниже 500 Гц и увеличивается выше 500 Гц. Позднее, Мур и Глазберг определили ступенчатую шкалу критических полос, которую они назвали шкалой, эквивалентной прямоугольной полосы пропускания (ERB) (B. C. J. Moore, B. Glasberg, T. Baer, «A Model for the Prediction of Thresholds, Loudness, and Partial Loudness», Journal of the Audio Engineering Society, Vol. 45, No. 4, April 1997, pp. 224-240 (Б. Ц. Дж. Мур, Б. Глазберг, Т. Баер, «Модель для предсказания пороговых значений, громкости и громкости частичных тонов», Журнал сообщества звукотехники, том 45, № 4, Апрель 1997 г., стр. 224-240)). Благодаря психоакустическим экспериментам с использованием маскеров шума с узкополосным провалом в спектре Мур и Глазберг продемонстрировали, что ширина критической полосы продолжает уменьшаться ниже 500 Гц, в противоположность шкале Барка, где ширина критической полосы остается постоянной.First of all, the time-dependent energy distribution along the basilar membrane of the inner ear, referred to by reference as pumping, is simulated by the passage of an audio signal through a comb of band-pass auditory filters with central frequencies uniformly spaced along the step scale of critical bands. Each auditory filter is designed to simulate a frequency response at a specific location along the basilar membrane of the inner ear, with a central filter frequency corresponding to that location. The critical bandwidth is defined as the bandwidth of one such filter. Measured in Hertz units, the width of the critical band of these auditory filters increases with increasing center frequency. Therefore, it is useful to determine the curvilinear frequency scale from the condition that the width of the critical band for all auditory filters, measured on this curvilinear scale, is constant. Such a curved scale is indicated by reference as a stepped scale of critical bands and is very useful in understanding and simulating a wide range of physiological phenomena. For example, look Psychoacoustics - Facts and Models by E. Zwicker and H. Fasti, Springer-Verlag, Berlin, 1990 (Psychoacoustics - Facts and Models by E. Zvikeru and H.Fasti, Springer-Verlag, Berlin, 1990). The Stevens and Svicker methods use a step scale of critical bands, referred to as the Bark scale, in which the width of the critical band is constant below 500 Hz and increases above 500 Hz. Moore and Glazberg later defined a stepped critical band scale, which they called the rectangular equivalent bandwidth (ERB) scale (BCJ Moore, B. Glasberg, T. Baer, “A Model for the Prediction of Thresholds, Loudness, and Partial Loudness” , Journal of the Audio Engineering Society, Vol. 45, No. 4, April 1997, pp. 224-240 (B. C. J. Moore, B. Glasberg, T. Baer, “Model for predicting thresholds, volume and of partial tones ”, Journal of the Sound Engineering Community, Volume 45, No. 4, April 1997, pp. 224-240)). Through psychoacoustic experiments using narrow-band gap noise maskers in the spectrum, Moore and Glazberg demonstrated that the width of the critical band continues to decrease below 500 Hz, in contrast to the Bark scale, where the width of the critical band remains constant.

Последующее вычисление накачки является функцией нелинейного сжатия, которая формирует параметр указываемый ссылкой как «удельная громкость». Удельная громкость является мерой громкости восприятия в качестве функции частоты и времени и может измеряться в единицах громкости восприятия на единичную частоту по ступенчатой шкале критических полос, такой как шкала Барка или ERB, обсужденная выше. Умозрительно, удельная громкость представляет непрерывное распределение громкости в качестве функции частоты и времени, а зависящая от времени «полная громкость» вычисляется интегрированием этого распределения по частоте. На практике точное восприятие удельной громкости получается дискретизацией этого распределения равномерно по ступенчатой шкале критических полос, например, посредством использования слуховых фильтров, упомянутых выше. В этом случае полная громкость может вычисляться простым суммированием удельной громкости из каждого фильтра. Для уменьшения сложности некоторые приложения могут вычислять грубое приближение для удельной громкости за счет незначительных неточностей в оценке и модификации воспринимаемой громкости. Такие приближения позже будут обсуждены более подробно.The subsequent calculation of the pump is a non-linear compression function, which forms a parameter referred to by the link as "specific volume". Specific loudness is a measure of perception loudness as a function of frequency and time and can be measured in units of perception loudness per unit frequency on a step scale of critical bands, such as the Bark or ERB scale discussed above. Specifically, the specific volume represents a continuous distribution of volume as a function of frequency and time, and the time-dependent “full volume” is calculated by integrating this frequency distribution. In practice, an accurate perception of specific loudness is obtained by discretizing this distribution uniformly on the step scale of critical bands, for example, by using the auditory filters mentioned above. In this case, the total volume can be calculated by simply summing the specific volume from each filter. To reduce complexity, some applications can calculate a rough approximation for specific volume due to minor inaccuracies in the estimation and modification of perceived volume. Such approximations will be discussed in more detail later.

Громкость может измеряться в единицах фонов. Громкостью заданного в фонах звука является уровень звукового давления (SPL) тона в 1 кГц, имеющий субъективную громкость, равную таковой у звука. Традиционно началом отсчета 0 дБ для SPL является среднеквадратическое давление 2×10-5 Паскалей и поэтому это также является началом отсчета 0 фонов. Используя это определение при сравнении громкости тонов на частотах, иных чем 1 кГц, с громкостью на 1 КГц, может быть определена кривая равной громкости для заданного в фонах уровня. Фиг.11 показывает кривые равной громкости для частот между 20 Гц и 12,5 кГц, и для уровней в фонах между 4,2 фона (считается порогом слышимости) и 120 фонами (ISO226: 1087 (E), «Acoustics - Normal equal loudness level contours» («Акустика - нормальные кривые равного уровня громкости»)). Измерение в фонах учитывает меняющуюся чувствительность человеческого слуха в зависимости от частоты, но результаты не предоставляют возможности оценки относительных субъективных громкостей звука при переменных уровнях, так как нет попытки ввести поправку на нелинейность увеличения громкости в зависимости от SPL, то есть на то обстоятельство, что интервал кривых меняется.Volume can be measured in units of backgrounds. The volume of the sound specified in the background is the sound pressure level (SPL) of the tone at 1 kHz, which has a subjective volume equal to that of the sound. Traditionally, the 0 dB reference point for the SPL is the rms pressure of 2 × 10 -5 Pascals, and therefore this is also the reference point of 0 backgrounds. Using this definition when comparing the volume of tones at frequencies other than 1 kHz with the volume of 1 kHz, an equal volume curve can be determined for the level set in the backgrounds. 11 shows curves of equal loudness for frequencies between 20 Hz and 12.5 kHz, and for levels in the backgrounds between 4.2 backgrounds (considered the threshold of audibility) and 120 backgrounds (ISO226: 1087 (E), “Acoustics - Normal equal loudness level contours ”(“ Acoustics - normal curves of equal volume level ”)). The measurement in the background takes into account the changing sensitivity of human hearing depending on the frequency, but the results do not provide an opportunity to estimate the relative subjective sound volumes at variable levels, since there is no attempt to introduce a correction for the non-linearity of the increase in volume depending on the SPL, that is, for the fact that the interval the curves are changing.

Громкость также может измеряться в единицах «сонов». Есть однозначное соответствие между единицами фонов и единицам сонов, которое указано на фиг.11. Один сон определен в качестве громкости немодулированной гармонической волны 1 кГц при 40 дБ (SPL) и равен 40 фонам. Единицы сонов являются такими, что двойное увеличение в сонах соответствует удвоению воспринимаемой громкости. Например, 4 сона воспринимаются как громкость, вдвое большая той, что в 2 сона. Таким образом, выражение уровней громкости в сонах является более информативным. При условии определения удельной громкости как показателя громкости восприятия в качестве функции частоты и времени удельная громкость может измеряться в единицах сонов на единичную частоту. Таким образом, при использовании шкалы Барка удельная громкость обладает единицами сонов на Барк и, подобным образом, с использованием шкалы ERB единицами являются соны на ERB.Volume can also be measured in units of "sleep". There is an unambiguous correspondence between units of backgrounds and units of sleep, which is indicated in Fig. 11. One dream is defined as the volume of a 1 kHz unmodulated harmonic wave at 40 dB (SPL) and equals 40 backgrounds. The units of sleep are such that a double increase in sleep corresponds to a doubling of perceived loudness. For example, 4 sleeps are perceived as a volume twice as large as that of 2 sleeps. Thus, the expression of volume levels in sleep is more informative. Provided that specific loudness is determined as an indicator of perception loudness as a function of frequency and time, specific loudness can be measured in units of sones per unit frequency. Thus, when using the Bark scale, the specific volume has units of sleeps per Bark and, similarly, using the ERB scale, units are sones per ERB.

Как упомянуто выше, чувствительность человеческого уха изменяется как в зависимости от частоты, так и от уровня, обстоятельство, хорошо документированное в литературе по психоакустике. Одно из следствий состоит в том, что воспринимаемый спектр или тембр данного звука меняется в зависимости от акустического уровня, при котором звук прослушивается. Например, для звука, содержащего низкие, средние и высокие частоты, воспринимаемые относительные пропорции таких частотных составляющих изменяются с общей громкостью звука; когда она тихая, низкие и высокие частотные составляющие звучат тише относительно средних частот, чем они звучат, когда она громкая. Это явление общеизвестно, и было уменьшено в оборудовании воспроизведения звука посредством так называемых тонкомпенсированных регуляторов громкости. Тонкомпенсированный регулятор громкости является регулятором уровня громкости, который применяет низкочастотный, а иногда также и высокочастотный подъем по мере того как уровень громкости убавляется. Таким образом, меньшая чувствительность уха на крайних значениях частот компенсируется искусственным подъемом таких частот. Такие регуляторы являются полностью пассивными; степень применяемой компенсации является функцией настройки регулятора громкости или некоторого другого управляемого пользователем регулятора, не в качестве функции контента звуковых сигналов.As mentioned above, the sensitivity of the human ear varies both with frequency and level, a circumstance well documented in the literature on psychoacoustics. One of the consequences is that the perceived spectrum or timbre of a given sound changes depending on the acoustic level at which the sound is heard. For example, for sound containing low, medium, and high frequencies, the perceived relative proportions of such frequency components change with the overall sound volume; when it is quiet, the low and high frequency components sound quieter relative to the mid frequencies than they sound when it is loud. This phenomenon is well known, and has been reduced in sound reproduction equipment through the so-called loudness volume controls. A loudly-controlled volume control is a volume control that applies a low-frequency, and sometimes also a high-frequency boost, as the volume decreases. Thus, the lower sensitivity of the ear at extreme frequencies is compensated by the artificial rise of such frequencies. Such regulators are completely passive; the degree of compensation applied is a function of adjusting the volume control or some other user-controlled control, not as a function of the content of the audio signals.

На практике изменения воспринимаемого относительного спектрального баланса между низкими, средними и высокими частотами зависят от сигнала, в частности от его действующего спектра и от того, предназначено ли ему быть громким или тихим. Рассмотрим запись симфонического оркестра. Воспроизводимый на одном и том же уровне, который слышал бы член публики в концертном зале, баланс по ширине спектра может быть правильным, громко или тихо играет оркестр. Если музыка воспроизводится, например, тише на 10 дБ, воспринимаемый баланс по ширине спектра изменяется одним образом для громких пассажей и изменяется другим образом для тихих пассажей. Традиционный пассивный тонкомпенсированный регулятор громкости не применяет разные компенсации в качестве функции музыки.In practice, changes in the perceived relative spectral balance between low, medium and high frequencies depend on the signal, in particular on its effective spectrum and on whether it is intended to be loud or quiet. Consider a recording of a symphony orchestra. Played at the same level as a member of the public would hear in a concert hall, the balance across the width of the spectrum can be correct, the orchestra plays loudly or quietly. If music is played, for example, 10 dB quieter, the perceived balance across the width of the spectrum changes in one way for loud passages and changes in another way for quiet passages. The traditional passive loudness volume control does not apply different compensations as a function of music.

В международной патентной заявке № PCT/US 2004/016964, зарегистрированной 27 мая 2004 года, опубликованной 23 декабря 2004 года в качестве WO 2004/111994 A2, Шифельдт и другие раскрывают, среди прочего, систему для измерения и настройки воспринимаемой громкости звукового сигнала. Упомянутая заявка PCT, которая указывает Соединенные Штаты, настоящим включена в состав посредством ссылки во всей своей полноте. В упомянутой заявке психоакустическая модель рассчитывает громкость звукового сигнала в единицах восприятия. В дополнение заявка учреждает технологию для вычисления широкополосного мультипликативного коэффициента усиления, который, когда применяется к аудио, дает в результате громкость модифицированного по коэффициенту усиления аудио, по существу, являющуюся такой же, как эталонная громкость. Однако применение такого широкополосного усиления изменяет воспринимаемый спектральный баланс аудио.In international patent application No. PCT / US 2004/016964, registered May 27, 2004, published December 23, 2004 as WO 2004/111994 A2, Schifeldt and others disclose, inter alia, a system for measuring and adjusting the perceived volume of an audio signal. The PCT application, which indicates the United States, is hereby incorporated by reference in its entirety. In the said application, the psychoacoustic model calculates the volume of the sound signal in units of perception. In addition, the application establishes a technology for calculating a broadband multiplicative gain, which, when applied to audio, results in a loudness of the gain-modified audio essentially being the same as the reference loudness. However, the use of such broadband amplification changes the perceived spectral balance of audio.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION

В одном из аспектов изобретение предусматривает извлечение информации, используемой для регулирования удельной громкости звукового сигнала модифицированием звукового сигнала, для того чтобы уменьшить разницу между его удельной громкостью и целевой удельной громкостью. Удельная громкость является мерой громкости восприятия в качестве функции частоты и времени. В практических реализациях удельная громкость модифицированного звукового сигнала может делаться приближающейся к целевой удельной громкости. Приближение может находиться под влиянием не только соображений обычной сигнальной обработки, но также и временного и/или частотного сглаживания, которое может применяться при модифицировании, как описано ниже.In one aspect, the invention provides for extracting information used to control the specific volume of an audio signal by modifying the audio signal in order to reduce the difference between its specific volume and target specific volume. Specific volume is a measure of perception volume as a function of frequency and time. In practical implementations, the specific volume of the modified audio signal can be made approaching the target specific volume. The approximation may be influenced not only by considerations of conventional signal processing, but also by temporal and / or frequency smoothing, which can be applied when modifying, as described below.

Так как удельная громкость является мерой громкости восприятия звукового сигнала как функции частоты и времени, для того чтобы уменьшить разность между удельной громкостью звукового сигнала и целевой удельной громкостью, модифицирование может модифицировать звуковой сигнал в качестве функции частоты. Хотя в некоторых случаях целевая удельная громкость может быть не зависящей от времени, и сам звуковой сигнал может быть установившимся не зависящим от времени сигналом, типично модифицирование также может модифицировать звуковой сигнал в качестве функции времени.Since specific loudness is a measure of the loudness of perception of an audio signal as a function of frequency and time, in order to reduce the difference between the specific loudness of the audio signal and the target specific loudness, the modification can modify the audio signal as a function of frequency. Although in some cases the target specific loudness may be time-independent, and the sound signal itself may be a steady-state time-independent signal, typically the modification may also modify the sound signal as a function of time.

Аспекты настоящего изобретения также могут применяться для компенсации фонового шума, вмешивающегося в среду воспроизведения аудио. Когда аудио прослушивается в присутствии фонового шума, шум может частично или полностью маскировать аудио некоторым образом, зависимым как от уровня и спектра аудио, так и от уровня и спектра шума. Результатом является перестройка воспринимаемого спектра аудио. В соответствии с психоакустическим учением (например, смотрите Moore, Glasberg, and Baer, «A Model for the Prediction of Thresholds, Loudness, and Partial Loudness», J. Audio Eng. Soc, Vol. 45, No. 4, April 1997 (Мур, Глазберг и Баер, «Модель для предсказания пороговых значений, громкости и громкости частичных тонов», журнал сообщества звукотехники, том 45, №4, апрель 1997 г.)), можно определять «удельную громкость частичных тонов» аудио как громкость восприятия аудио в присутствии вторичного мешающего звукового сигнала, такого как шум.Aspects of the present invention can also be used to compensate for background noise interfering with the audio playback environment. When audio is heard in the presence of background noise, the noise can partially or completely mask the audio in some way, depending both on the level and spectrum of the audio, and on the level and spectrum of the noise. The result is a restructuring of the perceived audio spectrum. According to psychoacoustic teaching (e.g., see Moore, Glasberg, and Baer, “A Model for the Prediction of Thresholds, Loudness, and Partial Loudness”, J. Audio Eng. Soc, Vol. 45, No. 4, April 1997 ( Moore, Glazberg and Baer, “A Model for Predicting Thresholds, Partial Tone Loudness and Volume”, Journal of the Audio Engineering Community, Volume 45, No. 4, April 1997)), one can define the “specific volume of partial tones” of an audio as the audio perception loudness in the presence of a secondary interfering sound signal, such as noise.

Таким образом, в еще одном аспекте изобретение предусматривает извлечение информации, используемой для регулирования удельной громкости звукового сигнала, модифицированием звукового сигнала, для того чтобы уменьшить разницу между его удельной громкостью частичных тонов и целевой удельной громкостью. Выполнение этого смягчает влияния шума точным по ощущениям образом. В этом и других аспектах изобретения, которые учитывают мешающий шумовой сигнал, предполагается, что есть доступ отдельно к звуковому сигналу и отдельно к вторичному мешающему сигналу.Thus, in yet another aspect, the invention provides for extracting information used to control the specific volume of an audio signal by modifying the audio signal in order to reduce the difference between its specific volume of partial tones and the target specific volume. Doing this mitigates the effects of noise in a sensible, precise way. In this and other aspects of the invention, which take into account the interfering noise signal, it is assumed that there is access separately to the audio signal and separately to the secondary interfering signal.

В еще одном аспекте изобретение предусматривает регулирование удельной громкости звукового сигнала модифицированием звукового сигнала, для того чтобы уменьшать разницу между его удельной громкостью и целевой удельной громкостью.In yet another aspect, the invention provides for controlling the specific volume of the audio signal by modifying the audio signal in order to reduce the difference between its specific volume and the target specific volume.

В еще одном аспекте изобретение предусматривает регулирование удельной громкости частичных тонов звукового сигнала модифицированием звукового сигнала, для того чтобы уменьшать разницу между его удельной громкостью и целевой удельной громкостью.In yet another aspect, the invention provides for controlling the specific volume of partial tones of an audio signal by modifying the audio signal in order to reduce the difference between its specific volume and target specific volume.

Когда целевая удельная громкость не является функцией звукового сигнала, она может быть хранимой и принимаемой целевой удельной громкостью. Когда целевая удельная громкость не является функцией звукового сигнала, модифицирование или получение может явно или неявно рассчитывать удельную громкость или удельную громкость частичных тонов. Примеры неявного расчета включают в себя справочную таблицу или «отражающее ряд решений» математическое выражение, в котором удельная громкость и/или удельная громкость частичных тонов определяется по своей природе (термин, отражающий ряд решений, упомянут для описания математического выражения, которое может быть точно представлено с использованием конечного количества стандартных математических операций и функций, таких как возведение в степень и косинус). К тому же, когда целевая удельная громкость не является функцией звукового сигнала, целевая удельная громкость может быть независящей как от времени, так и от частоты, или она может быть независящей только от времени.When the target specific volume is not a function of the audio signal, it may be a stored and received target specific volume. When the target specific volume is not a function of the audio signal, modifying or receiving can explicitly or implicitly calculate the specific volume or specific volume of the partial tones. Examples of implicit calculations include a look-up table or “reflective series of solutions” mathematical expression in which specific loudness and / or specific loudness of partial tones is determined by nature (a term reflecting a series of solutions is mentioned to describe a mathematical expression that can be accurately represented using a finite number of standard mathematical operations and functions, such as exponentiation and cosine). In addition, when the target specific volume is not a function of the audio signal, the target specific volume may be independent of both time and frequency, or it may be independent of time only.

В еще одном другом аспекте изобретение предусматривает обработку звукового сигнала посредством обработки звукового сигнала или показателя звукового сигнала в соответствии с одной или более последовательностей операций или одним или более параметрами управления последовательностью операций для формирования целевой удельной громкости. Хотя целевая удельная громкость может быть независящей от времени («неизменной»), целевая удельная громкость преимущественно может быть функцией удельной громкости звукового сигнала. Хотя она может быть статическим, независящим от частоты и времени сигналом, типично сам звуковой сигнал является зависящим от частоты и времени, таким образом заставляя целевую удельную громкость быть зависящей от частоты и времени, когда она является функцией звукового сигнала.In yet another aspect, the invention provides for processing an audio signal by processing an audio signal or an indicator of an audio signal in accordance with one or more process sequences or one or more process control parameters to form a target specific volume. Although the target specific volume may be time-independent (“constant”), the target specific volume may advantageously be a function of the specific volume of the audio signal. Although it may be a static, frequency and time independent signal, typically the audio signal itself is frequency and time dependent, thereby causing the target specific volume to be frequency and time dependent when it is a function of the audio signal.

Аудио и целевая удельная громкость или представление целевой удельной громкости могут приниматься из передаваемых данных или воспроизводиться с запоминающего носителя.The audio and target specific volume or representation of the target specific volume may be received from the transmitted data or reproduced from the storage medium.

Представление целевой удельной громкости может быть одним или более масштабными коэффициентами, которые масштабируют звуковой сигнал или показатель звукового сигнала.Introduction of the target specific loudness may be one or more scale factors that scale the audio signal or the sound signal component.

Целевая удельная громкость любого из вышеприведенных аспектов изобретения может быть функцией звукового сигнала или показателя звукового сигнала. Одним из подходящих показателей звукового сигнала является удельная громкость звукового сигнала. Функция звукового сигнала или показателя звукового сигнала может быть масштабированием звукового сигнала или показателя звукового сигнала. Например, масштабирование может быть одним или комбинацией из масштабирований:The target specific volume of any of the above aspects of the invention may be a function of an audio signal or an indicator of the audio signal. One suitable indicator of an audio signal is the specific volume of the audio signal. The function of an audio signal or an indicator of an audio signal may be a scaling of an audio signal or an indicator of an audio signal. For example, scaling can be one or a combination of scaling:

(a) зависящего от времени и частоты масштабного коэффициента Ξ[b, t], масштабирующего удельную громкость, как в зависимости(a) time and frequency-dependent scale factor Ξ [ b , t ] scaling the specific volume, as a function of

Figure 00000001
Figure 00000001

(b) зависящего от времени, независящего от частоты масштабного коэффициента Φ[t], масштабирующего удельную громкость, как в зависимости(b) time-dependent, frequency-independent frequency coefficient Φ [ t ] scaling the specific volume, as a function of

Figure 00000002
Figure 00000002

(c) независящего от времени, зависящего от частоты масштабного коэффициента Θ[b], масштабирующего удельную громкость, как в зависимости(c) time-independent, frequency-dependent scale factor Θ [ b ] scaling the specific volume, as a function of

Figure 00000003
Figure 00000003

(d) независящего от времени, независящего от частоты масштабного коэффициента α, масштабирующего удельную громкость звукового сигнала, как в зависимости(d) time-independent, frequency-independent frequency coefficient α scaling the specific volume of the audio signal, as a function of

Figure 00000004
Figure 00000004

в которых

Figure 00000005
[b, t] - целевая удельная громкость, N[b, t] - удельная громкость звукового сигнала, b - показатель частоты, а t - показатель времени.in which
Figure 00000005
[ b , t ] is the target specific volume, N [ b , t ] is the specific volume of the audio signal, b is a frequency indicator, and t is a time indicator.

В случае (a) зависящего от времени и частоты масштабного коэффициента масштабирование может определяться по меньшей мере частично отношением требуемой многополосной громкости и многополосной громкости звукового сигнала. Такое масштабирование может быть используемым в качестве регулятора динамического диапазона. Дополнительные подробности аспектов применения изобретения в качестве регулятора динамического диапазона изложены ниже.In the case (a) of a time and frequency dependent scaling factor, scaling can be determined at least in part by the ratio of the desired multiband volume and multiband volume of the audio signal. Such scaling can be used as a dynamic range control. Additional details of aspects of the application of the invention as a dynamic range controller are set forth below.

К тому же в случае (a) зависящего от времени и частоты масштабного коэффициента удельная громкость может масштабироваться отношением показателя требуемой спектральной формы к показателю спектральной формы звукового сигнала. Такое масштабирование может применяться для преобразования воспринимаемого спектра звукового сигнала из зависящего от времени воспринимаемого спектра в по существу независящий от времени воспринимаемый спектр. Когда удельная громкость масштабируется отношением показателя требуемой спектральной формы к показателю спектральной формы звукового сигнала, такое масштабирование может быть используемым в качестве динамического эквалайзера. Дополнительные подробности аспектов применения изобретения в качестве динамического эквалайзера изложены ниже.In addition, in case (a) of a time-frequency and frequency-dependent scale factor, the specific loudness can be scaled by the ratio of the index of the desired spectral shape to the spectral shape of the sound signal. Such scaling can be used to convert the perceived spectrum of an audio signal from a time-dependent perceived spectrum to a substantially time-independent perceived spectrum. When the specific volume is scaled by the ratio of the index of the desired spectral shape to the spectral shape of the sound signal, such scaling can be used as a dynamic equalizer. Further details of aspects of applying the invention as a dynamic equalizer are set forth below.

В случае (b) зависящего от времени, независящего от частоты масштабного коэффициента, масштабирование может определяться по меньшей мере частично отношением требуемой широкополосной громкости и широкополосной громкости звукового сигнала. Такое масштабирование может быть используемым в качестве автоматического регулятора усиления или регулятора динамического диапазона. Дополнительные подробности аспектов применения изобретения в качестве автоматического регулятора усиления и регулятора динамического диапазона изложены ниже.In the case (b) of a time-dependent frequency-independent scale factor, scaling can be determined at least in part by the ratio of the desired broadband volume and broadband volume of the audio signal. Such scaling can be used as an automatic gain control or dynamic range control. Further details of the aspects of applying the invention as an automatic gain control and dynamic range controller are set forth below.

В случае (a) (зависящего от времени и частоты масштабного коэффициента) или случая (b) (зависящего от времени, независящего от частоты масштабного коэффициента) масштабный коэффициент может быть функцией звукового сигнала или показателем звукового сигнала.In the case of (a) (time-dependent and frequency-dependent scale factor) or case (b) (time-dependent, independent of the frequency of the scale factor), the scale factor may be a function of the sound signal or an indicator of the sound signal.

В обоих, случае (c) независящего от времени, зависящего от частоты масштабного коэффициента или случае (d) зависящего от времени, независящего от частоты масштабного коэффициента, модифицирование или получение может включать в себя хранение масштабного коэффициента, или масштабный коэффициент может приниматься из внешнего источника.In both, the case (c) of the time-independent frequency-dependent scale factor or the case (d) of the time-independent frequency-dependent scale factor, the modification or receipt may include storing the scale factor, or the scale factor may be received from an external source .

В любом из случаев (c) и (d) масштабный коэффициент может не быть функцией звукового сигнала или показателя звукового сигнала.In either case (c) and (d), the scaling factor may not be a function of the sound signal or the sound signal metric.

В любом из различных аспектов изобретения и его вариантов модифицирование, получение или формирование могут по-разному явно или неявно рассчитывать (1) удельную громкость и/или (2) удельную громкость частичных тонов, и/или (3) целевую удельную громкость. Неявные расчеты, например, могут заключать в себе справочную таблицу или отражающее ряд решений математическое выражение.In any of the various aspects of the invention and its variants, the modification, production, or formation can differently explicitly or implicitly calculate (1) the specific volume and / or (2) the specific volume of partial tones, and / or (3) the target specific volume. Implicit calculations, for example, can include a look-up table or a mathematical expression that reflects a number of solutions.

Параметры модификации могут быть сглаженными во времени. Параметрами модификации, например, могут быть (1) множество коэффициентов масштабирования амплитуды, относящихся к полосам частот звукового сигнала, или (2) множество коэффициентов фильтра для управления одним или более фильтрами, такими как многоотводный (с конечной импульсной характеристикой, FIR) КИХ-фильтр или многополюсный (с бесконечной импульсной характеристикой, IIR) БИХ-фильтр. Коэффициенты масштабирования или коэффициенты фильтра (и фильтры, к которым они применяются) могут быть зависящими от времени.Modification parameters can be smoothed over time. Modification parameters, for example, can be (1) a set of amplitude scaling factors related to the frequency bands of an audio signal, or (2) a set of filter coefficients for controlling one or more filters, such as a multi-tap (with a finite impulse response, FIR) FIR filter or multipolar (with infinite impulse response, IIR) IIR filter. The scaling factors or filter coefficients (and the filters to which they are applied) may be time dependent.

При расчете функции удельной громкости звукового сигнала, которая определяет целевую удельную громкость, или инверсии такой функции, последовательность операций или последовательности операций, выполняющие такие расчеты, работают в том, что может быть охарактеризовано как область (психоакустической) громкости восприятия - входными данными и выходными данными расчета являются удельные громкости. В противоположность при применении коэффициентов масштабирования амплитуды к полосам частот звукового сигнала или применении коэффициентов фильтра к регулируемой фильтрации звукового сигнала параметры модификации действуют для модифицирования звукового сигнала вне области (психоакустической) громкости восприятия, в том, что может характеризоваться как область электрических сигналов. Хотя модификации в отношении звукового сигнала могут производиться в отношении звукового сигнала в области электрических сигналов, такие изменения в области электрических сигналов получаются из расчетов в области (психоакустической) громкости восприятия, из условия, чтобы модифицированный звуковой сигнал имел удельную громкость, которая приближается к требуемой целевой удельной громкости.When calculating the function of the specific loudness of an audio signal, which determines the target specific loudness, or the inversions of such a function, the sequence of operations or the sequence of operations performing such calculations work in what can be described as a region of (psychoacoustic) loudness of perception - by input data and output data calculation are specific volume. In contrast, when applying amplitude scaling factors to frequency bands of an audio signal or applying filter coefficients to adjustable filtering of an audio signal, the modification parameters act to modify the audio signal outside the region of (psychoacoustic) loudness of perception, in what can be characterized as the region of electrical signals. Although modifications to the sound signal can be made with respect to the sound signal in the field of electrical signals, such changes in the field of electrical signals are obtained from calculations in the (psycho-acoustic) region of perception loudness, provided that the modified sound signal has a specific loudness that approaches the desired target specific volume.

Получением параметров модификации из расчетов в области громкости может достигаться больший контроль над громкостью восприятия и спектральным балансом восприятия, чем если бы такие параметры модификации получались в области электрических сигналов. В дополнение использование психоакустической гребенки фильтров имитации базилярной мембраны или ее эквивалентов при выполнении расчетов в области громкости может обеспечивать более детальное регулирование воспринимаемого спектра, чем в компоновках, которые получают параметры модификации в области электрических сигналов.By obtaining the modification parameters from calculations in the loudness region, greater control over the loudness of perception and the spectral balance of perception can be achieved than if such modification parameters were obtained in the field of electrical signals. In addition, the use of a psychoacoustic filter comb to simulate a basilar membrane or its equivalents when performing calculations in the volume domain can provide more detailed control of the perceived spectrum than in layouts that receive modification parameters in the field of electrical signals.

Каждое из модифицирования, получения и формирования может быть зависимым от одного или более из показателя мешающего звукового сигнала, целевой удельной громкости, оценки удельной громкости немодифицированного звукового сигнала, полученной из удельной громкости или удельной громкости частичных тонов модифицированного звукового сигнала, удельной громкости немодифицированного звукового сигнала и приближения к целевой удельной громкости, полученного из удельной громкости или удельной громкости частичных тонов модифицированного звукового сигнала.Each of the modification, production, and generation may be dependent on one or more of an interfering audio signal indicator, target specific volume, an estimate of the specific volume of the unmodified audio signal obtained from the specific volume or specific volume of partial tones of the modified audio signal, the specific volume of the unmodified audio signal, and approximations to the target specific volume obtained from the specific volume or specific volume of the partial tones of the modified sound signal.

Модифицирование или получение могут получать параметры модификации по меньшей мере частично из одного или более из показателя мешающего звукового сигнала, целевой удельной громкости, оценки удельной громкости немодифицированного звукового сигнала, полученной из удельной громкости или удельной громкости частичных тонов модифицированного звукового сигнала, удельной громкости немодифицированного звукового сигнала и приближения к целевой удельной громкости, полученного из удельной громкости или удельной громкости частичных тонов модифицированного звукового сигнала.Modification or acquisition may obtain modification parameters at least partially from one or more of an interfering sound signal indicator, target specific volume, estimated specific volume of an unmodified audio signal, obtained from specific volume or specific volume of partial tones of a modified audio signal, specific volume of an unmodified audio signal and approaching the target specific volume obtained from the specific volume or specific volume of partial tones differential sound signal.

Более точно, модифицирование или получение могут получать параметры модификации по меньшей мере частично изMore specifically, the modification or preparation can obtain the modification parameters at least partially from

(1) одного из(1) one of

целевой удельной громкости, иtarget specific volume, and

оценки удельной громкости немодифицированного звукового сигнала, полученной из удельной громкости модифицированного звукового сигнала, иestimating the specific volume of the unmodified audio signal obtained from the specific volume of the modified audio signal, and

(2) одного из(2) one of

удельной громкости немодифицированного звукового сигнала, иthe specific volume of the unmodified sound signal, and

приближения к целевой удельной громкости, полученного из удельной громкости модифицированного звукового сигнала,approaching the target specific volume obtained from the specific volume of the modified audio signal,

или, когда должен учитываться мешающий звуковой сигнал, модифицирование или получение могут получать параметры модификации по меньшей мере частично изor, when an interfering audio signal has to be taken into account, the modification or acquisition may obtain the modification parameters at least partially from

(1) показателя мешающего звукового сигнала,(1) an indicator of an interfering sound signal,

(2) одного из(2) one of

целевой удельной громкости, иtarget specific volume, and

оценки удельной громкости немодифицированного звукового сигнала, полученной из удельной громкости частичных тонов модифицированного звукового сигнала, иestimating the specific volume of the unmodified audio signal obtained from the specific volume of partial tones of the modified audio signal, and

(3) одного из(3) one of

удельной громкости немодифицированного звукового сигнала, иthe specific volume of the unmodified sound signal, and

приближения к целевой удельной громкости, полученного из удельной громкости частичных тонов модифицированного звукового сигнала.approximations to the target specific volume obtained from the specific volume of partial tones of the modified audio signal.

Может применяться компоновка с прямой связью, в которой удельная громкость получается из звукового сигнала и в которой целевая удельная громкость принимается из источника, внешнего по отношению к способу, или из хранения, когда модифицирование или получение включает в себя хранение целевой удельной громкости. В качестве альтернативы может применяться компоновка со смешанной прямой связью/обратной связью, в которой приближение к целевой удельной громкости получается из модифицированного звукового сигнала, и в которой целевая удельная громкость принимается из источника, внешнего по отношению к способу, или из хранения, когда модифицирование или получение включает в себя хранение целевой удельной громкости.A direct coupled arrangement may be used in which the specific volume is obtained from an audio signal and in which the target specific volume is received from a source external to the method, or from storage when the modification or acquisition includes storage of the target specific volume. Alternatively, a mixed direct feedback / feedback arrangement may be used in which the approximation of the target specific volume is obtained from a modified sound signal, and in which the target specific volume is received from a source external to the method, or from storage when the modification or receipt includes storing the target specific volume.

Модифицирование или получение могут включать в себя одну или более последовательностей операций для получения, явно или неявно, целевой удельной громкости, таковая или таковые из которых рассчитывают, явно или неявно, функцию звукового сигнала или показателя звукового сигнала. В одном из альтернативных вариантов может применяться компоновка с прямой связью, в которой удельная громкость и целевая удельная громкость получаются из звукового сигнала, получение целевой удельной громкости применяет функцию звукового сигнала или показателя звукового сигнала. В одном из альтернативных вариантов, может применяться компоновка со смешанной прямой связью/обратной связью, в которой приближение целевой удельной громкости получается из модифицированного звукового сигнала, а целевая удельная громкость получается из звукового сигнала, получение целевой удельной громкости применяет функцию звукового сигнала или показателя звукового сигнала.Modification or receipt may include one or more sequences of operations for obtaining, explicitly or implicitly, the target specific volume, one or those of which calculate, explicitly or implicitly, the function of the sound signal or indicator of the sound signal. In one alternative, a direct-coupled arrangement may be used in which the specific volume and target specific volume are obtained from an audio signal, and obtaining the target specific volume uses the function of an audio signal or an indicator of the audio signal. In one alternative, a mixed direct feedback / feedback arrangement may be used in which the approximate target specific loudness is obtained from a modified audio signal and the target specific loudness is obtained from an audio signal, obtaining the target specific loudness uses the function of an audio signal or an indicator of an audio signal .

Модифицирование или получение могут включать в себя одну или более последовательностей операций для получении, явно или неявно, оценки удельной громкости немодифицированного звукового сигнала в ответ на модифицированный звуковой сигнал, таковая или таковые из которых рассчитывают, явно или неявно, инверсию функции звукового сигнала или показателя звукового сигнала. В одном из альтернативных вариантов применяется компоновка с обратной связью, в которой оценка удельной громкости немодифицированного звукового сигнала и приближение к целевой удельной громкости получаются из модифицированного звукового сигнала, оценка удельной громкости рассчитывается с использованием инверсии функции звукового сигнала или показателя звукового сигнала. В еще одном альтернативном варианте применяется компоновка со смешанной прямой связью/обратной связью, в которой удельная громкость получается из звукового сигнала, а оценка удельной громкости немодифицированного звукового сигнала получается из модифицированного звукового сигнала, получение оценки рассчитывается с использованием инверсии упомянутой функции звукового сигнала или показателя звукового сигнала.Modification or receipt may include one or more sequences of operations for obtaining, explicitly or implicitly, an estimate of the specific volume of an unmodified audio signal in response to a modified audio signal, either of which, explicitly or implicitly, calculate the inverse of the function of the audio signal or sound indicator signal. In one of the alternatives, a feedback arrangement is used in which an estimate of the specific volume of an unmodified sound signal and an approximation to a target specific volume are obtained from a modified sound signal, an estimate of the specific volume is calculated using the inverse of the function of the audio signal or an indicator of the audio signal. In yet another alternative embodiment, a mixed direct feedback / feedback arrangement is applied in which the specific volume is obtained from an audio signal and the specific volume estimate of an unmodified audio signal is obtained from a modified audio signal, an estimate is calculated using an inversion of said audio signal function or sound indicator signal.

Параметры модификации могут применяться к звуковому сигналу для формирования модифицированного звукового сигнала.Modification parameters can be applied to the audio signal to form a modified audio signal.

Еще один аспект изобретения состоит в том, что может быть временное и/или пространственное разделение последовательностей операций или устройств, так что, в действительности, есть кодировщик или кодирование, а также декодер или декодирование. Например, может быть система кодирования/декодирования, в которой модифицирование или получение может передавать и принимать или хранить, а также воспроизводить звуковой сигнал и либо (1) параметры модификации либо (2) целевую удельную громкость или представление целевой удельной громкости. В качестве альтернативы, в действительности, может быть только кодировщик или кодирование, в котором есть передача или хранение звукового сигнала и (1) параметров модификации, либо (2) целевой удельной громкости или представления целевой удельной громкости. В качестве альтернативы, как упомянуто выше, в действительности, может быть только декодер или декодирование, в котором есть прием или воспроизведение звукового сигнала и (1) параметров модификации либо (2) целевой удельной громкости или представления целевой удельной громкости.Another aspect of the invention is that there may be a temporal and / or spatial separation of the sequences of operations or devices, so that, in fact, there is an encoder or coding, as well as a decoder or decoding. For example, there may be an encoding / decoding system in which a modification or reception can transmit and receive or store, as well as reproduce an audio signal and either (1) the modification parameters or (2) the target specific volume or representation of the target specific volume. As an alternative, in reality, there can only be an encoder or coding in which there is a transmission or storage of an audio signal and (1) modification parameters, or (2) a target specific volume or a representation of a target specific volume. As an alternative, as mentioned above, in reality, there can only be a decoder or decoding in which there is a reception or reproduction of an audio signal and (1) modification parameters or (2) target specific volume or representation of target specific volume.

ОПИСАНИЕ ЧЕРТЕЖЕЙDESCRIPTION OF DRAWINGS

Фиг.1 - функциональная структурная схема, иллюстрирующая пример реализации с прямой связью согласно аспектам изобретения.Figure 1 is a functional block diagram illustrating an example implementation with direct connection according to aspects of the invention.

Фиг.2 - функциональная структурная схема, иллюстрирующая пример реализации с обратной связью согласно аспектам изобретения.2 is a functional block diagram illustrating an example implementation with feedback according to aspects of the invention.

Фиг.3 - функциональная структурная схема, иллюстрирующая пример реализации со смешанной прямой связью/обратной связью согласно аспектам изобретения.3 is a functional block diagram illustrating an implementation example with mixed direct feedback / feedback according to aspects of the invention.

Фиг.4 - функциональная структурная схема, иллюстрирующая пример еще одной реализации со смешанной прямой связью/обратной связью согласно аспектам изобретения.4 is a functional block diagram illustrating an example of another implementation with mixed direct feedback / feedback according to aspects of the invention.

Фиг.5 - функциональная структурная схема, иллюстрирующая образ действий, которым немодифицированный звуковой сигнал и параметры модификации, которые определены любой одной из компоновок с прямой связью, обратной связью или со смешанной прямой связью/обратной связью, могут храниться или передаваться для использования, например, в разделенных временным и пространственным образом устройстве или последовательности операций.5 is a functional block diagram illustrating the manner in which an unmodified audio signal and modification parameters that are defined by any one of the direct link, feedback, or mixed direct / link configurations can be stored or transmitted for use, for example, in a temporally and spatially separated arrangement or sequence of operations.

Фиг.6 - функциональная структурная схема, иллюстрирующая образ действий, которым немодифицированный звуковой сигнал и целевая удельная громкость или ее представление, которые определены любой одной из компоновок с прямой связью, обратной связью или со смешанной прямой связью/обратной связью, могут храниться или передаваться для использования, например, в разделенных временным и пространственным образом устройстве или последовательности операций.6 is a functional block diagram illustrating the manner in which the unmodified audio signal and the target specific volume or its presentation, which are defined by any one of the direct communication, feedback or mixed direct / mixed arrangements, can be stored or transmitted for use, for example, in a temporally and spatially separated device or sequence of operations.

Фиг.7 - схематическая функциональная структурная схема или схематическая блок-схема последовательности операций способа, показывающая общее представление аспекта настоящего изобретения.7 is a schematic functional block diagram or a schematic flowchart of a method showing an overview of an aspect of the present invention.

Фиг.8 - идеализированная типовая характеристика линейного фильтра P(z), пригодного в качестве фильтра передачи в варианте осуществления настоящего изобретения, в котором вертикальной осью является затухание в децибелах (дБ), а горизонтальной осью является логарифмическая, по основанию 10, частота в Герцах (Гц).Fig. 8 is an idealized typical characteristic of a linear filter P ( z ) suitable as a transmission filter in an embodiment of the present invention, in which the vertical axis is decibel attenuation (dB) and the horizontal axis is the logarithmic base 10 frequency in Hertz (Hz).

Фиг.9 показывает зависимость между шкалой частот ERB (вертикальная ось) и частотой в Герцах (горизонтальная ось).Figure 9 shows the relationship between the frequency scale ERB (vertical axis) and frequency in Hertz (horizontal axis).

Фиг.10 показывает набор идеализированных типовых характеристик слухового фильтра, которые аппроксимируют определение критической полосы по шкале ERB. Горизонтальной шкалой является частота в Герцах, а вертикальной шкалой является уровень в децибелах.10 shows a set of idealized auditory filter sample characteristics that approximate the definition of a critical band on an ERB scale. The horizontal scale is the frequency in Hertz, and the vertical scale is the level in decibels.

Фиг.11 показывает кривые равной громкости по ISO 226. Горизонтальной шкалой является частота в Герцах (логарифмическая, по основанию 10, шкала), а вертикальной шкалой является уровень звукового давления в децибелах.11 shows curves of equal loudness according to ISO 226. The horizontal scale is the frequency in Hertz (logarithmic, base 10, scale), and the vertical scale is the sound pressure level in decibels.

Фиг.12 показывает кривые равной громкости по ISO 226, нормализованные фильтром P(z) передачи. Горизонтальной шкалой является частота в Герцах (логарифмическая, по основанию 10, шкала), а вертикальной шкалой является уровень звукового давления в децибелах.12 shows equal volume curves according to ISO 226 normalized by the transmission filter P (z). The horizontal scale is the frequency in Hertz (a logarithmic base 10 scale), and the vertical scale is the sound pressure level in decibels.

Фиг.13a - идеализированный график, показывающий широкополосные и многополосные коэффициенты усиления для масштабирования громкости в 0,25 на сегменте женской речи. Горизонтальной шкалой являются полосы ERB, а вертикальной шкалой является относительный коэффициент усиления в децибелах (dB).13a is an idealized graph showing broadband and multiband gain factors for scaling a volume of 0.25 on a female speech segment. The horizontal scale is the ERB bands, and the vertical scale is the relative decibel gain (dB).

Фиг.13b - идеализированный график, показывающий удельную громкость соответственно исходного сигнала, модифицированного широкополосным коэффициентом усиления сигнала, и модифицированного многополосным коэффициентом усиления сигнала. Горизонтальной шкалой являются полосы ERB, а вертикальной шкалой является удельная громкость (сон/ERB).Fig.13b is an idealized graph showing the specific loudness, respectively, of the original signal modified by the broadband signal gain and modified by the multiband signal gain. The horizontal scale is the ERB bands, and the vertical scale is the specific volume (sleep / ERB).

Фиг.14a - идеализированный график, показывающий: L o[t] в качестве функции L i[t] для типичной АРУ. Горизонтальной шкалой является log(L i[t]), а вертикальной шкалой является log(L o[t]).Fig. 14a is an idealized graph showing: L o [ t ] as a function of L i [ t ] for a typical AGC. The horizontal scale is log ( L i [ t ]), and the vertical scale is log ( L o [ t ]).

Фиг.14b - идеализированный график, показывающий: L o[t] в качестве функции L i[t] для типичной DRC. Горизонтальной шкалой является log(L i[t]), а вертикальной шкалой является log(L o[t]).14b is an idealized graph showing: L o [ t ] as a function of L i [ t ] for a typical DRC. The horizontal scale is log ( L i [ t ]), and the vertical scale is log ( L o [ t ]).

Фиг.15 - идеализированный график, показывающий типичную функцию сглаживания полос для многополосной DRC. Горизонтальной шкалой является номер полосы, а вертикальной шкалой является выход коэффициента усиления для полосы b.15 is an idealized graph showing a typical band smoothing function for a multi-band DRC. The horizontal bar is the band number, and the vertical bar is the gain output for band b.

Фиг.16 - схематическая функциональная структурная схема или схематическая блок-схема последовательности операций способа, показывающая общее представление аспекта настоящего изобретения.FIG. 16 is a schematic functional block diagram or schematic flowchart of a method showing an overview of an aspect of the present invention.

Фиг.17 - схематическая функциональная структурная схема или схематическая блок-схема последовательности операций способа, подобные фиг.1, которая к тому же включает в себя компенсацию шума в среде воспроизведения.FIG. 17 is a schematic functional block diagram or schematic flowchart of a method similar to FIG. 1, which also includes noise compensation in a reproducing environment.

НАИЛУЧШИЙ ВАРИАНТ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯBEST MODE FOR CARRYING OUT THE INVENTION

Фиг.с 1 по 4 показывают функциональные структурные схемы, иллюстрирующие возможные примеры реализаций с прямой связью обратной связью и два варианта со смешанной прямой связью/обратной связью, согласно аспектам изобретения.Figs 1 to 4 show functional block diagrams illustrating possible examples of direct feedback feedback implementations and two mixed direct feedback / feedback embodiments according to aspects of the invention.

Со ссылкой на пример топологии с прямой связью на фиг.1 звуковой сигнал подается в два тракта: (1) сигнальный тракт, содержащий последовательность операций, или устройство 2 («Модифицировать звуковой сигнал»), способные к модификации аудио в ответ на параметры модификации, (2) тракт управления, содержащий последовательность управления, или устройство 4 («Сформировать параметры модификации»), способные к формированию таких параметров модификации. Модифицировать звуковой сигнал 2 в примере топологии с прямой связью фиг.1 и в каждом из примеров фиг.2-4 можно устройством или последовательностью операций, которые модифицируют звуковой сигнал, например его амплитуду, зависящий от частоты и/или времени образом в соответствии с параметрами M модификации, принятыми из Сформировать параметры модификации, 4, (или из эквивалентных последовательностей операций или устройств 4', 4" и 4''', в каждом из примеров фиг.2-4 соответственно). Сформировать параметры модификации, 4, и его эквиваленты на фиг.2-4 каждый работают по меньше мере частично в области громкости восприятия. Модифицировать звуковой сигнал, 2, работает в области электрических сигналов и формирует модифицированный звуковой сигнал в каждом из примеров фиг.1-4. К тому же в каждом из примеров фиг.1-4, Модифицировать звуковой сигнал, 2, и Сформировать параметры модификации, 4, (или его эквиваленты) модифицируют звуковой сигнал, чтобы уменьшать разницу между его удельной громкостью и целевой удельной громкостью.With reference to an example topology with a direct connection in FIG. 1, an audio signal is fed into two paths: (1) a signal path containing a sequence of operations, or a device 2 (“Modify an audio signal”) capable of modifying audio in response to modification parameters, (2) a control path containing a control sequence or device 4 (“Generate modification parameters”) capable of generating such modification parameters. To modify the audio signal 2 in the example of the direct link topology of FIG. 1 and in each of the examples of FIGS. 2-4 it is possible with a device or a sequence of operations that modify the audio signal, for example, its amplitude, depending on the frequency and / or time in accordance with the parameters M modifications adopted from Generate modification parameters, 4, (or from equivalent sequences of operations or devices 4 ', 4 "and 4' '' in each of the examples of Figures 2-4, respectively). Generate modification parameters, 4, and its equivalents in figure 2-4 each Modify the audio signal, 2, operates in the field of electrical signals and generates a modified audio signal in each of the examples of figures 1-4. In addition, in each of the examples of figures 1-4, Modify the audio signal, 2, and Generate modification parameters, 4, (or its equivalents) modify the audio signal to reduce the difference between its specific volume and target specific volume.

В примере с прямой связью фиг.1 последовательность операций или устройство 4 могут включать в себя несколько последовательностей операций и/или устройств: последовательность операций или устройство 6 «Рассчитать целевую удельную громкость», которые рассчитывают целевую удельную громкость в ответ на звуковой сигнал или параметр звукового сигнала, такой как удельная громкость звукового сигнала, последовательность операций или устройство 8 «Рассчитать удельную громкость», которые рассчитывают удельную громкость звукового сигнала в ответ на звуковой сигнал или показатель звуковых сигналов, такой как его накачка, и последовательность операций или устройство 10 «Рассчитать параметры модификации», которые рассчитывают параметры модификации в ответ на удельную громкость и целевую удельную громкость. Рассчитать целевую удельную громкость, 6, может выполнять одну или более функций «F», каждая из которых может иметь параметры функций. Например, он может рассчитывать удельную громкость звукового сигнала, а затем применять одну или более функций F к ней, чтобы предоставить целевую удельную громкость. Это схематически показано на фиг.1 в качестве входного сигнала «Выбрать функцию(и) F и параметр(ы) функции(й)» в последовательность операций или устройство 6. Вместо расчета устройством или последовательностью 6 операций целевая удельная громкость может выдаваться последовательностью операций или устройством хранения (схематически показанными в качестве входного сигнала «Хранимые» в последовательность операций или устройство 10), включенными в или ассоциативно связанными со Сформировать параметры модификации, 4, или источником, внешним по отношению ко всей последовательности операций, или устройству (схематически показанным в качестве входного сигнала «Внешние» в последовательность операций или устройство 10). Таким образом, параметры модификации основаны, по меньшей мере частично, на расчетах в области (психоакустической) громкости восприятия (то есть по меньшей мере удельной громкости и, в некоторых случаях, расчетах целевой удельной громкости).In the direct-link example of FIG. 1, the flowchart or device 4 may include several flowcharts and / or devices: a flowchart or device 6 “Calculate target specific volume”, which calculate the target specific volume in response to an audio signal or an audio parameter a signal, such as a specific volume of an audio signal, a sequence of operations or a device 8 "Calculate specific volume", which calculate the specific volume of an audio signal in m to audio signal or measure of audio signals, such as its pump and the flow device 10 or "Calculate modification parameters", which are calculated modification parameters in response to the specific loudness and target specific loudness. Calculate the target specific volume, 6, can perform one or more functions " F ", each of which may have the parameters of the functions. For example, it can calculate the specific loudness of an audio signal, and then apply one or more of the F functions to it to provide the target specific loudness. This is schematically shown in FIG. 1 as an input signal, “Select function (s) F and parameter (s) of function (s)” in a sequence of operations or device 6. Instead of calculating by the device or sequence of 6 operations, the target specific volume may be issued by a sequence of operations or a storage device (schematically shown as an input signal "Stored" in the sequence of operations or device 10) included in or associated with the Generate modification parameters, 4, or source, external relative to the whole of the flowchart or device (shown schematically as the input signal "External" in the flowchart or device 10). Thus, the modification parameters are based, at least in part, on calculations in the area of (psychoacoustic) loudness of perception (i.e., at least specific loudness and, in some cases, calculations of the target specific loudness).

Расчеты, выполняемые последовательностями операций или устройствами 6, 8 и 10 (и последовательностями операций или устройствами 12, 14, 10' в примере фиг.2, 6, 14, 10'' в примере фиг.3, и 8, 12, 10''' в примере фиг.4), могут выполняться явным и/или неявным образом. Примеры явного выполнения включают в себя (1) справочную таблицу, чьи записи основаны, целиком или частично, на удельной громкости и/или целевой удельной громкости, и/или расчетах параметров модификации, и (2) отражающее ряд решений математическое выражение, которое, по своей природе, основано, целиком или частично, на удельной громкости и/или целевой удельной громкости, и/или параметрах модификации.The calculations performed by the sequences of operations or devices 6, 8 and 10 (and the sequences of operations or devices 12, 14, 10 'in the example of FIGS. 2, 6, 14, 10' 'in the example of FIG. 3, and 8, 12, 10' '' in the example of FIG. 4) can be performed explicitly and / or implicitly. Examples of explicit execution include (1) a look-up table whose records are based, in whole or in part, on the specific volume and / or target specific volume and / or calculation of the modification parameters, and (2) a mathematical expression reflecting a series of solutions, which, according to by its nature, based, in whole or in part, on the specific loudness and / or target specific loudness, and / or modification parameters.

Хотя последовательности операций или устройства 6, 8 и 10 расчета по примеру фиг.1 (и последовательности операций или устройства 12, 14, 10' в примере фиг.2, 6, 14, 10'' в примере фиг.3, и 8, 12, 10''' в примере фиг.4) схематически показаны и описаны как раздельные, это предназначено только для целей пояснения. Будет понятно, что таковые или все из этих последовательностей операций или устройств могут объединяться в единые последовательности операций или устройстве или по-разному комбинироваться в многочисленных последовательностях операций или устройствах. Например, в компоновке по фиг.9, приведенной ниже, топологии с прямой связью, как в примере по фиг.1, последовательность операций или устройство, которые рассчитывают параметры модификации, делают это в ответ на сглаженную накачку, полученную из звукового сигнала, и целевую удельную громкость. В примере фиг.9 устройство или последовательность операций, которые рассчитывают параметры модификации неявно, рассчитывают удельную громкость звукового сигнала.Although the sequence of operations or device 6, 8 and 10 of the calculation according to the example of figure 1 (and the sequence of operations or device 12, 14, 10 'in the example of figure 2, 6, 14, 10' 'in the example of figure 3, and 8, 12, 10 ″ ″ in the example of FIG. 4) are schematically shown and described as separate, this is intended for purposes of explanation only. It will be understood that those or all of these sequences of operations or devices can be combined into single sequences of operations or devices or combined in different ways in multiple sequences of operations or devices. For example, in the arrangement of FIG. 9 below, a direct-link topology, as in the example of FIG. 1, a process or device that calculates modification parameters does this in response to a smoothed pump obtained from the audio signal and the target specific volume. In the example of Fig. 9, a device or a sequence of operations that calculate modification parameters implicitly calculates the specific volume of an audio signal.

В качестве аспекта настоящего изобретения, в примере по фиг.1 и в других примерах вариантов осуществления изобретения, приведенного в материалах настоящей заявки, целевая удельная громкость (

Figure 00000005
[b, t]) может рассчитываться масштабированием удельной громкости (N [b, t]) одним или более коэффициентами масштабирования. Масштабирование может быть зависящим от времени и частоты масштабным коэффициентом Ξ[b, t], масштабирующим удельную громкость, как в зависимостиAs an aspect of the present invention, in the example of FIG. 1 and in other examples of embodiments of the invention provided herein, the target specific volume (
Figure 00000005
[ b , t ]) can be calculated by scaling the specific volume ( N [ b, t ]) with one or more scaling factors. Scaling can be a time-frequency-dependent scale factor Ξ [ b , t ] scaling the specific volume, as a function of

Figure 00000006
Figure 00000006

зависящим от времени, независящим от частоты масштабным коэффициентом Φ[t], масштабирующим удельную громкость, как в зависимостиtime-dependent, frequency-independent scale factor Φ [ t ] scaling the specific volume, as a function of

Figure 00000007
Figure 00000007

независящим от времени, зависящим от частоты масштабным коэффициентом Θ[b], масштабирующим удельную громкость, как в зависимостиtime-independent, frequency-dependent scale factor Θ [ b ] scaling the specific volume, as a function of

Figure 00000008
Figure 00000008

масштабным коэффициентом α, масштабирующим удельную громкость звукового сигнала, как в зависимостиscale factor α , scaling the specific volume of the sound signal, as depending

Figure 00000009
Figure 00000009

где b - показатель частоты (например, номер полосы), а t - показатель времени (например, номер кадра). Также могут применяться многочисленные масштабирования, использующие многочисленные экземпляры конкретного масштабирования и/или комбинации конкретных масштабирований. Примеры таких многочисленных масштабирований приведены ниже. В некоторых случаях, как дополнительно пояснено ниже, масштабирование может быть функцией звукового сигнала или показателей звукового сигнала. В других случаях, как также дополнительно пояснено ниже, когда масштабирование не является функцией показателя звукового сигнала, масштабирование может определяться или подаваться иным образом. Например, пользователь мог бы выбирать или применять масштабирование с независящим от времени и частоты масштабным коэффициентом α или с независящим от времени, зависящим от частоты масштабным коэффициентом Θ[b].where b is a measure of frequency (e.g., band number), and t is a measure of time (e.g., frame number). Numerous scaling may also be applied using multiple instances of a particular scaling and / or combinations of specific scaling. Examples of such multiple scaling are given below. In some cases, as further explained below, scaling may be a function of the audio signal or indicators of the audio signal. In other cases, as also further explained below, when scaling is not a function of an indicator of the audio signal, scaling may be determined or otherwise provided. For example, the user could select or apply scaling with a time and frequency independent scale factor α or with a time independent frequency dependent frequency scale factor Θ [ b ].

Таким образом, целевая удельная громкость может выражаться в качестве одной или более функций F звукового сигнала или показателя звукового сигнала (удельная громкость является одним из возможных показателей звукового сигнала):Thus, the target specific volume can be expressed as one or more functions F of the audio signal or indicator of the audio signal (specific volume is one of the possible indicators of the audio signal):

Figure 00000010
Figure 00000010

При условии, что функция или функции F являются обратимыми, удельная громкость (N[b, t]) немодифицированного звукового сигнала может рассчитываться в качестве обратной функции или функций F -1 целевой удельной громкости (

Figure 00000005
[b, t]):Provided that the function or functions F are reversible, the specific volume ( N [ b , t ]) of the unmodified sound signal can be calculated as the inverse function or functions F -1 of the target specific volume (
Figure 00000005
[ b , t ]):

Figure 00000011
Figure 00000011

Как будет видно ниже, обратная функция или функции F -1 рассчитываются в примерах с обратной связью и смешанной прямой связью/обратной связью по фиг.2 и 4.As will be seen below, the inverse function or functions F −1 are calculated in the examples with feedback and mixed direct feedback / feedback in FIGS. 2 and 4.

Входной сигнал «Выбрать функцию(и) и параметр(ы) функций» для Рассчитать целевую удельную громкость, 6, показан, чтобы служить признаком, что устройство или последовательность 6 операций может рассчитывать целевую удельную громкость применением одной или более функций в соответствии с одним или более параметров функций. Например, Рассчитать целевую удельную громкость, 8, может рассчитывать функцию или функции «F» удельной громкости звукового сигнала, для того чтобы определять целевую удельную громкость. Например, входной сигнал «Выбрать функцию(и) и параметр(ы) функции» может выбирать одну или более конкретных функций, которые попадают в один или более вышеприведенных типов масштабирования наряду с одним или более параметров функций, таких как константы (например, масштабные коэффициенты), имеющие отношение к функциям.The input “Select function (s) and function parameter (s)” for Calculate target specific loudness, 6, is shown to indicate that a device or process sequence 6 can calculate target specific loudness by applying one or more functions in accordance with one or more feature options. For example, Calculate the target specific volume, 8, can calculate the function or functions “ F ” of the specific volume of the audio signal in order to determine the target specific volume. For example, the input signal “Select function (s) and function parameter (s)” may select one or more specific functions that fall into one or more of the above types of scaling along with one or more parameters of functions, such as constants (for example, scale factors ) related to functions.

Коэффициенты масштабирования, ассоциативно связанные с масштабированием, могут служить в качестве представления целевой удельной громкости ввиду того, что целевая удельная громкость может вычисляться в качестве масштабирования удельной громкости, как указано выше. Таким образом, в примере фиг.9, описанном ниже и упомянутом выше, справочная таблица может индексироваться коэффициентами масштабирования и накачками из условия, чтобы расчет удельной громкости и целевой удельной громкости был присущ таблице.The scaling factors associated with scaling can serve as a representation of the target specific loudness since the target specific loudness can be calculated as the specific specific loudness scaling, as indicated above. Thus, in the example of FIG. 9 described below and mentioned above, the look-up table can be indexed by scaling factors and pumpings so that the calculation of the specific volume and the target specific volume is inherent in the table.

С применением справочной таблицы, отражающей ряд решений математического выражения или некоторой другой технологии, операция Сформировать параметры модификации, 4, (и ее эквивалентные последовательности операций или устройства 4', 4" и 4''' в каждом из примеров фиг.2-4) является такой, что расчеты основаны на области (психоакустической) громкости восприятия, даже если удельная громкость и целевая удельная громкость могут не рассчитываться явным образом. Есть явная удельная громкость либо есть умозрительная, неявная удельная громкость. Подобным образом, есть явная целевая удельная громкость либо есть умозрительная, неявная целевая удельная громкость. В любом случае, расчет параметров модификации стремится сформировать параметры модификации, которые модифицируют звуковой сигнал для уменьшения разности между удельной громкостью и целевой удельной громкостью.Using a lookup table that reflects a series of mathematical expression solutions or some other technology, the operation Generate modification parameters, 4, (and its equivalent sequences of operations or devices 4 ', 4 "and 4' '' in each of the examples of Figures 2-4) is such that the calculations are based on the region of (psychoacoustic) loudness of perception, even if the specific loudness and target specific loudness may not be calculated explicitly.There is an explicit specific loudness or there is speculative, implicit specific loudness. Thus, there is an explicit target specific loudness or there is a speculative, implicit target specific loudness.In any case, the calculation of the modification parameters tends to generate modification parameters that modify the audio signal to reduce the difference between the specific loudness and the target specific loudness.

В среде воспроизведения, содержащей вторичный мешающий звуковой сигнал, такой как шум, Рассчитать параметры модификации, 10, (и его эквивалентные последовательности операции или устройства 10', 10'' и 10''' в каждом из примеров 2-4, соответственно), также может принимать в качестве необязательного входного сигнала показатель такого вторичного мешающего звукового сигнала или сам вторичный мешающий сигнал в качестве одного из своих входных сигналов. Такой необязательный входной сигнал показан на фиг.1 (и на фиг.2-4) пунктирной отвесной линией. Показатель вторичного мешающего сигнала может быть его накачкой, такой как в примере по фиг.17, описанном ниже. Применение показателя мешающего сигнала или самого сигнала (допускается, что мешающий сигнал раздельно доступен для обработки) к последовательности операций или устройствам 10 Рассчитать параметры модификации на фиг.1 (и их эквивалентным последовательностям операций или устройств 10', 10'' и 10''' в каждом из примеров фиг.2-4 соответственно) дает возможность надлежащим образом сконфигурировать такие последовательности операций или устройство, чтобы рассчитывать параметры модификации, которые учитывают мешающий сигнал, как дополнительно пояснено ниже под заголовком «Компенсация шума». В примерах по фиг.2-4 расчет удельной громкости частичных тонов предполагает, что подходящий показатель мешающего сигнала подводится не только в соответственный Рассчитать параметры модификации, 10', 10'' или 10''', но также и в последовательность операций или устройство 12 «Рассчитать приближение удельной громкости немодифицированного аудио» и или последовательность операций или устройство 14 «Рассчитать приближение целевой удельной громкости», для того чтобы содействовать расчету удельной громкости частичных тонов такой функцией или устройством. В примере с прямой связью фиг.1 удельная громкость частичных тонов не рассчитывается явно - Рассчитать параметры модификации, 10, по фиг.1 рассчитывает надлежащие параметры модификации, чтобы сделать удельную громкость частичных тонов модифицированного аудио приближенной к целевой удельной громкости. Это дополнительно пояснено ниже под заголовком «Компенсация шума», упомянутым выше.In a playback environment containing a secondary interfering sound signal, such as noise, Calculate the modification parameters, 10, (and its equivalent operation sequences or devices 10 ', 10' 'and 10' '' in each of examples 2-4, respectively), can also take as an optional input signal an indicator of such a secondary interfering audio signal or the secondary interfering signal itself as one of its input signals. Such an optional input signal is shown in FIG. 1 (and FIGS. 2-4) with a dashed plumb line. The secondary interfering signal may be pumped, such as in the example of FIG. 17, described below. Application of the indicator of the interfering signal or the signal itself (it is assumed that the interfering signal is separately accessible for processing) to the sequence of operations or devices 10 Calculate the modification parameters in Fig. 1 (and their equivalent sequences of operations or devices 10 ', 10' 'and 10' '' in each of the examples of FIGS. 2-4, respectively), it is possible to properly configure such a sequence of operations or a device to calculate modification parameters that take into account the interfering signal, as an additional belt below under the heading “Noise Compensation”. In the examples of FIGS. 2-4, the calculation of the specific volume of partial tones suggests that a suitable indicator of the interfering signal is input not only into the corresponding Calculate modification parameters, 10 ', 10' 'or 10' '', but also into the sequence of operations or device 12 “Calculate the approximation of the specific loudness of unmodified audio” and either the flow of operation or device 14 “Calculate the approximation of the target specific loudness” in order to facilitate the calculation of the specific loudness of partial tones by such a function or device ystvom. In the direct-link example of FIG. 1, the specific volume of the partial tones is not calculated explicitly - Calculate the modification parameters, 10, FIG. 1 calculates the appropriate modification parameters to make the specific volume of the partial tones of the modified audio close to the target specific volume. This is further explained below under the heading “Noise Compensation” mentioned above.

Как упомянуто выше, в каждом из примеров фиг.1-4, параметры M модификации, когда применяются к звуковому сигналу Модификатором 2 звукового сигнала, уменьшают разность между удельной громкостью или удельной громкостью частичных тонов результирующего модифицированного аудио и целевой удельной громкостью. Умозрительно, удельная громкость модифицированного звукового сигнала хорошо приближается к или является такой же, как целевая удельная громкость. Параметры M модификации, например, принимают вид зависящих от времени коэффициентов усиления, применяемых к полосам частот, полученным из гребенки фильтров, или к коэффициентам зависящего от времени фильтра. Соответственно во всех примерах фиг.1-4, Модифицировать звуковой сигнал, 2, например, может быть реализован в качестве множества амплитудных преобразователей масштаба, каждый работает в полосе частот, или зависящего от времени фильтра (например, многоотводного КИХ-фильтра или многополюсного БИХ-фильтра).As mentioned above, in each of the examples of FIGS. 1-4, the modification parameters M, when applied to the audio signal by the Audio modifier 2, reduce the difference between the specific volume or specific volume of the partial tones of the resulting modified audio and the target specific volume. Specifically, the specific volume of the modified audio signal is well close to or is the same as the target specific volume. Modification parameters M, for example, take the form of time-dependent gain factors applied to frequency bands obtained from a filter bank or to coefficients of a time-dependent filter. Accordingly, in all the examples of Figs. filter).

Здесь и где-либо в другом месте в этом документе использование одного и того же номера ссылки указывает, что устройство или последовательность операций могут быть по существу идентичными другому или другим, несущим такой же номер ссылки. Номера ссылок, несущие номера со знаком штриха (например, «10'»), указывают, что устройство или последовательность операций подобны по конструкции или функции, но могут быть модификацией другого или других, несущих такой же базовый номер ссылки или его помеченные знаком штриха варианты.Here and elsewhere in this document, the use of the same reference number indicates that the device or process may be substantially identical to another or another bearing the same reference number. Link numbers bearing numbers with a dash (for example, “10 '”) indicate that the device or process is similar in design or function, but may be a modification of another or others bearing the same base link number or its variants marked with a dash .

При определенных ограничениях может быть реализована почти равноценная компоновка с обратной связью по примеру с прямой связью фиг.1. Фиг.2 изображает такой пример, в котором звуковой сигнал также подводится в последовательность операций или устройство 2 Модифицировать звуковой сигнал в сигнальном тракте. Последовательность операций или устройство 2 также принимает параметры M модификации из тракта управления, в котором последовательность операций или устройство 4' Сформировать параметры модификации в компоновке с обратной связью принимает в качестве своего входного сигнала модифицированный звуковой сигнал с выхода Модифицировать звуковой сигнал, 2. Таким образом, в примере фиг.2, скорее модифицированное аудио, нежели немодифицированное аудио, подводится в тракт управления. Последовательность операций или устройство 2 Модифицировать звуковой сигнал и последовательность операций или устройство 4' Сформировать параметры модификации модифицируют звуковой сигнал, чтобы уменьшать разницу между его удельной громкостью и целевой удельной громкостью. Последовательность операций или устройство 4' могут включать в себя несколько функций и/или устройств: последовательность операций или устройство 12 «Рассчитать приближение удельной громкости немодифицированного аудио», последовательность операций или устройство 14 «Рассчитать приближение целевой удельной громкости» и последовательность операций или устройство 10' «Рассчитать параметры модификации», которые рассчитывают параметры модификации.Under certain restrictions, an almost equivalent feedback arrangement can be implemented according to the example with direct coupling of FIG. 1. Figure 2 depicts such an example in which the audio signal is also fed into the sequence of operations or the device 2 Modify the audio signal in the signal path. The sequence of operations or device 2 also receives the modification parameters M from the control path, in which the sequence of operations or device 4 'Generate modification parameters in the feedback arrangement receives a modified sound signal from the output as its input signal. Modify the audio signal, 2. Thus, in the example of FIG. 2, modified audio rather than unmodified audio is fed into the control path. The sequence of operations or device 2 Modify the audio signal and the sequence of operations or device 4 'Generate modification parameters modify the audio signal to reduce the difference between its specific volume and target specific volume. The sequence of operations or device 4 'may include several functions and / or devices: the sequence of operations or device 12 "Calculate the approximation of the specific volume of unmodified audio", the sequence of operations or device 14 "Calculate the approximation of the target specific volume" and the sequence of operations or device 10' “Calculate modification parameters” that calculate the modification parameters.

С ограничением, что функция или функции F обратимы, последовательность операций или устройство 12 оценивает удельную громкость немодифицированного звукового сигнала применением обратной функции F -1 к удельной громкости или удельной громкости частичных тонов модифицированного звукового сигнала. Устройство или последовательность 12 операций могут рассчитывать обратную функцию F -1, как описано выше. Это схематически показано на фиг.2 в качестве входного сигнала «Выбрать обратную функцию(и) F -l и параметры функции(й)» в последовательность операций или устройство 12. «Рассчитать приближение целевой удельной громкости» 14 действует, рассчитывая удельную громкость или удельную громкость частичных тонов модифицированного звукового сигнала. Такая удельная громкость или удельная громкость частичных тонов является приближением целевой удельной громкости. Приближение удельной громкости немодифицированного звукового сигнала и приближение целевой удельной громкости используются посредством Рассчитать параметры модификации, 10', для получения параметров M модификации, которые, если применяются к звуковому сигналу посредством Модифицировать звуковой сигнал, 2, уменьшают разницу между удельной громкостью или удельной громкостью частичных тонов модифицированного звукового сигнала и целевой удельной громкостью. Как упомянуто выше, эти параметры M модификации, например, могут принимать вид зависящих от времени коэффициентов усиления, применяемых к полосам частот гребенки фильтров или коэффициентам зависящего от времени фильтра. В практических вариантах осуществления Рассчитать параметры модификации, 10'' цепь обратной связи может привносить задержку между вычислением и применением параметров M модификации.With the limitation that the function or functions F are reversible, the sequence of operations or device 12 estimates the specific volume of the unmodified audio signal by applying the inverse function F -1 to the specific volume or specific volume of the partial tones of the modified audio signal. The device or sequence of operations 12 can calculate the inverse function F -1 , as described above. This is schematically shown in FIG. 2 as an input signal, “Select the inverse function (s) F -l and function parameters (s)” in the sequence of operations or device 12. “Calculate the approximation of the target specific volume” 14 operates by calculating the specific volume or specific volume of partial tones of the modified audio signal. Such specific volume or specific volume of partial tones is an approximation of the target specific volume. The approximation of the specific volume of the unmodified sound signal and the approximation of the target specific volume are used by Calculate modification parameters, 10 ', to obtain modification parameters M, which, if applied to the audio signal by Modify the audio signal, 2, reduce the difference between the specific volume or specific volume of partial tones modified audio signal and target specific volume. As mentioned above, these modification parameters M, for example, can take the form of time-dependent gain factors applied to the filter bank frequency bands or time-dependent filter coefficients. In practical embodiments, Calculate modification parameters, a 10 ″ feedback loop may introduce a delay between the calculation and application of the modification parameters M.

Как упомянуто выше, в среде передачи, содержащей вторичный мешающий звуковой сигнал, такой как шум, каждые из Рассчитать параметры модификации, 10', Рассчитать приближение удельной громкости немодифицированного аудио, 12, и Рассчитать приближение целевой удельной громкости, 14, также могут принимать в качестве необязательного входного сигнала показатель такого вторичного мешающего звукового сигнала или сам вторичный мешающий сигнал в качестве одного из своих входных сигналов, и последовательность операций или устройство 12, и последовательность операций или устройство 14 каждые могут рассчитывать удельную громкость частичных тонов модифицированного звукового сигнала. Такие необязательные входные сигналы показаны на фиг.2 с использованием пунктирных отвесных линий.As mentioned above, in a transmission medium containing a secondary interfering audio signal, such as noise, each of Calculate modification parameters, 10 ', Calculate approximation of specific volume of unmodified audio, 12, and Calculate approximation of target specific volume, 14, can also be taken as optional input signal indicator of such a secondary interfering sound signal or the secondary interfering signal itself as one of its input signals, and the sequence of operations or device 12, and the sequence Each operation or device 14 each can calculate the specific volume of the partial tones of the modified audio signal. Such optional input signals are shown in FIG. 2 using dashed plumb lines.

Как упомянуто выше, возможны примеры реализаций со смешанной прямой связью/обратной связью аспектов изобретения. Фиг.3 и 4 показывают два примера таких реализаций. В примерах фиг.3 и 4, как и в примерах фиг.1 и 2, звуковой сигнал также подводится в последовательность операций или устройство 2 Модифицировать звуковой сигнал в сигнальном тракте, но Сформировать параметры модификации (4'' на фиг.3 и 4''' на фиг.4) в соответственных трактах управления каждые принимают как немодифицированный звуковой сигнал, так и модифицированный звуковой сигнал. В обоих примерах фиг.3 и 4, Модифицировать звуковой сигнал, 2, и Сформировать параметры модификации (4'' и 4''', соответственно) модифицируют звуковой сигнал, чтобы уменьшать разницу между его удельной громкостью, которая может быть неявной, и целевой удельной громкостью, которая также может быть неявной.As mentioned above, examples of mixed direct feedback / feedback implementations of aspects of the invention are possible. Figures 3 and 4 show two examples of such implementations. In the examples of FIGS. 3 and 4, as in the examples of FIGS. 1 and 2, the sound signal is also fed into the sequence of operations or device 2 Modify the sound signal in the signal path, but Generate modification parameters (4 '' in Figs. 3 and 4 ' '' in Fig. 4) in the respective control paths each receive both an unmodified sound signal and a modified sound signal. In both examples, FIGS. 3 and 4, Modify the audio signal, 2, and Generate modification parameters (4 '' and 4 '' ', respectively) modify the audio signal to reduce the difference between its specific volume, which may be implicit, and the target specific volume, which can also be implicit.

В примере фиг.3 последовательность операций или устройство 4' Сформировать параметры модификации могут включать в себя несколько функций и/или устройств: Рассчитать целевую удельную громкость, 6, как в примере фиг.1, Рассчитать приближение целевой удельной громкости, 14, как в примере с обратной связью фиг.2, и последовательность операций или устройство 10'' «Рассчитать параметры модификации». Как в примере фиг.1, в части с прямой связью этого примера со смешанной прямой связью/обратной связью, Рассчитать целевую удельную громкость, 6, может выполнять одну или более функций «F», каждая из которых может иметь параметры функций. Это схематически показано на фиг.3 в качестве входного сигнала «Выбрать функцию(и) F и параметр(ы) функции(й)» в последовательность операций или устройство 6. В части с обратной связью этого примера со смешанной прямой связью/обратной связью модифицированный звуковой сигнал подводится в Рассчитать приближение целевой удельной громкости, 14, как в примере с обратной связью фиг.2. Последовательность операций или устройство 14 действует в примере фиг.3, как оно это делает в примере фиг.2, рассчитывая удельную громкость или удельную громкость частичных тонов модифицированного звукового сигнала. Такая удельная громкость или удельная громкость частичных тонов является приближением целевой удельной громкости. Целевая удельная громкость (из последовательности операций или устройства 6) и приближение целевой удельной громкости (из последовательности операций или устройства 14) подводятся в Рассчитать параметры модификации, 10'', для получения параметров M модификации, которые, если применяются к звуковому сигналу посредством Модифицировать звуковой сигнал, 2, уменьшают разницу между удельной громкостью немодифицированного звукового сигнала и целевой удельной громкостью. Как упомянуто выше, эти параметры M модификации, например, могут принимать вид зависящих от времени коэффициентов усиления, применяемых к полосам частот гребенки фильтров или коэффициентам зависящего от времени фильтра. В практических вариантах осуществления цепь обратной связи может привносить задержку между вычислением и применением параметров M модификации. Как упомянуто выше, в среде передачи, содержащей вторичный мешающий звуковой сигнал, такой как шум, каждые из Рассчитать параметры модификации, 10'', и Рассчитать приближение целевой удельной громкости, 14, также могут принимать в качестве необязательного входного сигнала показатель такого вторичного мешающего звукового сигнала или сам вторичный мешающий сигнал в качестве одного из своих входных сигналов, и последовательность операций или устройство 14 могут рассчитывать удельную громкость частичных тонов модифицированного звукового сигнала. Необязательные входные сигналы показаны на фиг.3 с использованием пунктирных отвесных линий.In the example of FIG. 3, the flowchart or device 4 'Generate modification parameters may include several functions and / or devices: Calculate the target specific volume, 6, as in the example of FIG. 1, Calculate the approximation of the target specific volume, 14, as in the example 2, and the flowchart or device 10 ″ “Calculate modification parameters”. As in the example of FIG. 1, in the direct-coupling part of this example with mixed direct-feedback / feedback, Calculate the target specific volume, 6, can perform one or more functions “ F ”, each of which may have function parameters. This is schematically shown in FIG. 3 as an input signal, “Select function (s) F and parameter (s) of function (s)” in a flowchart or device 6. In the feedback part of this example with mixed direct feedback / feedback, the modified an audio signal is supplied to Calculate the approximation of the target specific volume, 14, as in the feedback example of FIG. 2. The sequence of operations or device 14 operates in the example of figure 3, as it does in the example of figure 2, calculating the specific volume or specific volume of partial tones of the modified audio signal. Such specific volume or specific volume of partial tones is an approximation of the target specific volume. The target specific volume (from the flow of operations or device 6) and the approximation of the target specific volume (from the flow of operations or device 14) are calculated in Calculate modification parameters, 10 '', to obtain the modification parameters M, which, if applied to the audio signal by Modify the sound signal 2 reduces the difference between the specific volume of the unmodified audio signal and the target specific volume. As mentioned above, these modification parameters M, for example, can take the form of time-dependent gain factors applied to the filter bank frequency bands or time-dependent filter coefficients. In practical embodiments, the feedback loop may introduce a delay between the calculation and application of the modification parameters M. As mentioned above, in a transmission medium containing a secondary interfering audio signal, such as noise, each of Calculate modification parameters, 10``, and Calculate the approximate target specific volume, 14, can also take as an optional input an indicator of such secondary interfering audio signal or the secondary interfering signal itself as one of its input signals, and the sequence of operations or device 14 can calculate the specific volume of partial tones of the modified sound signal Nala. Optional input signals are shown in FIG. 3 using dashed plumb lines.

Рассчитать параметры модификации, 10'', может применять устройство или функцию обнаружения ошибок из условия, чтобы разности между его входными сигналами целевой удельной громкости и приближения целевой удельной громкости настраивали параметры модификации, с тем чтобы уменьшать разности между приближением целевой удельной громкости и «реальной» целевой удельной громкостью. Такие настройки уменьшают разницы между удельной громкостью немодифицированного звукового сигнала и целевой удельной громкостью, которая может быть неявной. Таким образом, параметры M модификации могут адаптироваться на основании ошибки между целевой удельной громкостью, вычисленной в тракте прямой связи из удельной громкости исходного аудио с использованием функции F, и приближением целевой удельной громкости, вычисленным в тракте обратной связи из удельной громкости или удельной громкости частичных тонов модифицированного аудио.Calculate the modification parameters, 10 '', can use the device or the error detection function so that the differences between its input signals of the target specific volume and the approximation of the target specific volume adjust the modification parameters in order to reduce the differences between the approximation of the target specific volume and the “real” target specific volume. Such settings reduce the differences between the specific volume of the unmodified audio signal and the target specific volume, which may be implicit. Thus, the modification parameters M can be adapted based on an error between the target specific volume calculated in the direct path from the specific volume of the original audio using function F and the approximation of the target specific volume calculated in the feedback path from the specific volume or specific volume of partial tones modified audio.

В примере фиг.4 показан альтернативный пример с прямой связью/обратной связью. Этот альтернативный вариант отличается от примера по фиг.3 тем, что в тракте обратной связи предпочтительнее рассчитываются обратная функция или функции F -l, чем функция или функции F, рассчитываемые в тракте прямой связи. В примере фиг.4 последовательность операций или устройство 4' Сформировать параметры модификации могут включать в себя несколько функций и/или устройств: Рассчитать целевую удельную громкость, 8, как в примере с прямой связью фиг.1, Рассчитать приближение целевой удельной громкости немодифицированного аудио, 12, как в примере с обратной связью фиг.2, и «Рассчитать параметры модификации», 10'''. Рассчитать удельную громкость, 8, как в примере с прямой связью фиг.1, выдает в качестве входного сигнала в Рассчитать параметры модификации, 10''', удельную громкость немодифицированного звукового сигнала. Как в примере с обратной связью фиг.2, с ограничением, что функция или функции F обратимы, последовательность операций или устройство 12 оценивает удельную громкость немодифицированного звукового сигнала применением обратной функции F -1 к удельной громкости или удельной громкости частичных тонов модифицированного звукового сигнала. Входной сигнал «Выбрать обратную функцию(и) и параметр(ы) обратной функции(й)» для Рассчитать приближение удельной громкости немодифицированного аудио, 12, показан, чтобы служить признаком, что устройство или последовательность 12 операций могут рассчитывать обратную функцию F -1, как описано выше. Это схематически показано на фиг.4 в качестве входного сигнала «Выбрать обратную функцию(и) F -l и параметр(ы) функции(й)» в последовательность операций или устройство 12. Таким образом, последовательность операций или устройство 12 выдают, в качестве еще одного входного сигнала в Рассчитать параметры модификации, 10''', приближение удельной громкости немодифицированного звукового сигнала.In the example of FIG. 4, an alternate example with direct feedback / feedback is shown. This alternative variant differs from the example in FIG. 3 in that the inverse function or functions F −l are preferable to be calculated in the feedback path than the function or functions F calculated in the direct path. In the example of FIG. 4, the flowchart or device 4 'Generate modification parameters may include several functions and / or devices: Calculate the target specific volume, 8, as in the example with direct connection of FIG. 1, Calculate the approximation of the target specific volume of unmodified audio, 12, as in the feedback example of FIG. 2, and “Calculate modification parameters”, 10 ″. Calculate the specific volume, 8, as in the example with direct connection of Fig. 1, gives as input the signal Calculate modification parameters, 10 ''', the specific volume of the unmodified sound signal. As in the feedback example of FIG. 2, with the limitation that the function or functions F are reversible, the sequence of operations or device 12 estimates the specific volume of the unmodified audio signal by applying the inverse function F -1 to the specific volume or specific volume of partial tones of the modified audio signal. The input signal "Select the inverse function (s) and parameter (s) of the inverse function (s)" for Calculating the approximate specific volume of unmodified audio, 12, is shown to indicate that the device or sequence of operations 12 can calculate the inverse function F -1 , as described above. This is schematically shown in FIG. 4 as an input signal, “Select the inverse function (s) F -l and parameter (s) of the function (s)” to the flowchart or device 12. Thus, the flowchart or device 12 outputs, as another input signal in Calculate modification parameters, 10 ''', approximation of the specific volume of the unmodified sound signal.

Как в примерах по фиг.1-3, Рассчитать параметры модификации, 10''', получает параметры M модификации, которые, если применяются к звуковому сигналу посредством Модифицировать звуковой сигнал, 2, уменьшают разность между удельной громкостью немодифицированного звукового сигнала и целевой удельной громкостью, которая является неявной в этом примере. Как упомянуто выше, параметры M модификации, например, могут принимать вид зависящих от времени коэффициентов усиления, применяемых к полосам частот гребенки фильтров или коэффициентам зависящего от времени фильтра. В практических вариантах осуществления цепь обратной связи может привносить задержку между вычислением и применением параметров M модификации. Как упомянуто выше, в среде передачи, содержащей вторичный мешающий звуковой сигнал, такой как шум, каждые из Рассчитать параметры модификации, 10''', и Рассчитать приближение удельной громкости немодифицированного аудио, 12, также могут принимать в качестве необязательного входного сигнала показатель такого вторичного мешающего звукового сигнала или сам вторичный мешающий сигнал в качестве одного из своих входных сигналов, и последовательность операций или устройство 12 могут рассчитывать удельную громкость частичных тонов модифицированного звукового сигнала. Необязательные входные сигналы показаны на фиг.4 с использованием пунктирных отвесных линий.As in the examples of FIGS. 1-3, Calculate modification parameters, 10`` ', obtains modification parameters M, which, if applied to the audio signal by Modify the audio signal, 2, reduce the difference between the specific volume of the unmodified audio signal and the target specific volume which is implicit in this example. As mentioned above, the modification parameters M, for example, can take the form of time-dependent gain factors applied to the frequency bands of the filter bank or the coefficients of a time-dependent filter. In practical embodiments, the feedback loop may introduce a delay between the calculation and application of the modification parameters M. As mentioned above, in a transmission medium containing a secondary interfering audio signal, such as noise, each of Calculate modification parameters, 10``, and Calculate the approximate specific volume of unmodified audio, 12, can also take an indicator of such secondary as an optional input signal interfering sound signal or the secondary interfering signal itself as one of its input signals, and the sequence of operations or device 12 can calculate the specific volume of the partial tones of the modified sound signal. Optional input signals are shown in FIG. 4 using dashed plumb lines.

Рассчитать параметры модификации, 10''', может применять устройство или функцию обнаружения ошибок, из условия чтобы разности между его входными сигналами удельной громкости и приближения удельной громкости формировали выходные сигналы, которые настраивают параметры модификации, с тем чтобы уменьшать разности между приближением удельной громкости и «реальной» удельной громкостью. Так как приближение удельной громкости получается из удельной громкости или удельной громкости частичных тонов модифицированного аудио, которая может рассматриваться как приближение целевой удельной громкости, такие настройки уменьшают разницы между удельной громкостью модифицированного звукового сигнала и целевой удельной громкостью, каковое присуще функции или функциям F -1. Таким образом, параметры M модификации могут адаптироваться на основании ошибки между удельной громкостью, вычисленной в тракте прямой связи из исходного аудио, и приближением удельной громкости, вычисленным с использованием обратной функции или функций F -1, в тракте обратной связи из удельной громкости или удельной громкости частичных тонов модифицированного аудио. Благодаря тракту обратной связи, практические реализации могут привносить задержку между вычислением и применением параметров модификации.Calculate the modification parameters, 10 ''', can use the device or the error detection function, so that the differences between its input signals of specific volume and the approximation of specific volume form output signals that adjust the parameters of the modification in order to reduce the differences between the approximation of the specific volume and "Real" specific volume. Since the specific loudness approximation is obtained from the specific loudness or specific loudness of partial tones of the modified audio, which can be regarded as the approximation of the target specific loudness, such settings reduce the differences between the specific loudness of the modified audio signal and the target specific loudness, which is inherent in the function or functions F -1 . Thus, the modification parameters M can be adapted based on an error between the specific volume calculated in the direct connection path from the original audio and the specific volume approximation calculated using the inverse function or functions F -1 in the feedback path from the specific volume or specific volume partial tones of modified audio. Thanks to the feedback path, practical implementations can introduce a delay between the calculation and application of the modification parameters.

Хотя параметры M модификации в примерах по фиг.1-4, когда подводятся в последовательность операций или устройство 2 Модифицировать Звуковой сигнал, уменьшают разницу между удельной громкостью звукового сигнала и целевой удельной громкостью, в практических вариантах осуществления соответствующие параметры модификации, формируемые в ответ на один и тот же звуковой сигнал, могут не быть идентичными друг другу.Although the modification parameters M in the examples of FIGS. 1-4, when brought into the sequence of operations or device 2 Modify the Sound signal, reduce the difference between the specific volume of the sound signal and the target specific volume, in practical embodiments, the corresponding modification parameters generated in response to one the same sound signal may not be identical to each other.

Хотя некритично и несущественно по отношению к аспектам настоящего изобретения, расчет удельной громкости звукового сигнала или модифицированного звукового сигнала преимущественно может применять технологии, изложенные в упомянутой международной патентной заявке № PCT/US2004/016964, опубликованной как WO 2004/111964 A2, в которой расчет осуществляет выбор из группы из двух или более функций модели удельной громкости, одной или комбинации из двух или более функций модели удельной громкости, выбор которых управляется показателем характеристик входного звукового сигнала. Описание удельной громкости 104 по фиг.1, приведенное ниже, описывает такую компоновку.Although uncritical and inconsequential with respect to aspects of the present invention, the calculation of the specific volume of an audio signal or a modified audio signal can advantageously apply the techniques set forth in the aforementioned international patent application No. PCT / US2004 / 016964, published as WO 2004/111964 A2, in which the calculation carries out selection from a group of two or more functions of the specific volume model, one or a combination of two or more functions of the specific volume model, the choice of which is controlled by the input characteristics indicator sound signal. The specific volume description 104 of FIG. 1 below describes such an arrangement.

В соответствии с дополнительными аспектами изобретения немодифицированный звуковой сигнал и либо (1) параметры модификации, либо (2) целевая удельная громкость или представление целевой удельной громкости (например, масштабные коэффициенты, явно или неявно используемые при расчете целевой удельной громкости), могут сохраняться или передаваться для использования, например, в разделенных временным и/или пространственным образом устройствах или последовательностях операций. Параметры модификации, целевая удельная громкость или представление целевой удельной громкости могут определяться любым подходящим образом, например, как в одном из примеров компоновки с прямой связью, с обратной связью и со смешанной прямой связью/обратной связью по фиг.1-4, как описано выше. На практике компоновка с прямой связью, такая как в примере по фиг.1, является наименее сложной и наиболее быстрой ввиду того, что она избегает расчетов, основанных на модифицированном звуковом сигнале. Пример передачи или сохранения немодифицированного аудио и параметров модификации показан на фиг.5 наряду с тем, что пример передачи или сохранения немодифицированного аудио и целевой удельной громкости или представления целевой удельной громкости показан на фиг.6.In accordance with further aspects of the invention, an unmodified sound signal and either (1) modification parameters, or (2) target specific volume or representation of target specific volume (e.g., scale factors explicitly or implicitly used in calculating the target specific volume) can be stored or transmitted for use, for example, in temporally and / or spatially separated devices or sequences of operations. Modification parameters, target specific loudness, or representation of target specific loudness can be determined in any suitable way, for example, as in one example of a direct-coupled, closed-loop and mixed-direct / closed-coupling arrangement of FIGS. 1-4, as described above . In practice, a direct-coupled arrangement, such as in the example of FIG. 1, is the least complex and fastest because it avoids calculations based on a modified audio signal. An example of transmitting or storing unmodified audio and modification parameters is shown in FIG. 5, while an example of transmitting or storing unmodified audio and target specific volume or representing target specific volume is shown in FIG. 6.

Компоновка, такая как в примере по фиг.5, может использоваться для временного и/или пространственного отделения применения параметров модификации к звуковому сигналу от формирования таких параметров модификации. Компоновка, такая как в примере по фиг.6, может использоваться для временного и/или пространственного отделения обоих, формирования и применения параметров модификации, от формирования целевой удельной громкости или ее представления. Оба типа компоновок делают возможными простые недорогие компоновки воспроизведения или приема, которые избегают сложности формирования параметров модификации или формирования целевой удельной громкости. Хотя компоновка типа по фиг.5 проще, чем компоновка типа по фиг.6, компоновка фиг.6 имеет преимущество, что информация, требуемая для сохранения или передачи, может быть гораздо меньшей, в частности, когда представление целевой удельной громкости, такое как один или более масштабных коэффициентов, сохраняется или передается. Такое сокращение хранения или передачи информации, в частности, может быть полезным в звуковых средах с низкой скоростью передачи битов.An arrangement, such as in the example of FIG. 5, can be used to temporarily and / or spatially separate the application of the modification parameters to the audio signal from the formation of such modification parameters. An arrangement, such as in the example of FIG. 6, can be used to temporarily and / or spatially separate both, form and apply modification parameters, from generating the target specific volume or presenting it. Both types of arrangements make possible simple low-cost reproduction or reception arrangements that avoid the complexity of generating modification parameters or generating target specific volume. Although the layout of the type of FIG. 5 is simpler than the layout of the type of FIG. 6, the layout of FIG. 6 has the advantage that the information required for storage or transmission can be much smaller, in particular when a representation of the target specific volume, such as one or more scale factors, stored or transmitted. Such a reduction in the storage or transmission of information, in particular, may be useful in audio environments with a low bit rate.

Соответственно дополнительными аспектами настоящего изобретения является предоставление устройства или последовательности операций, которые (1) принимают или воспроизводят, из устройства или последовательности операций сохранения или передачи, параметры M модификации и применяют их к звуковому сигналу, который также принимается, или (2) которые принимают или воспроизводят, из устройства или последовательности операций сохранения или передачи, целевую удельную громкость или представление целевой удельной громкости, формируют параметры M модификации, применяя целевую удельную громкость или ее представление к звуковому сигналу, который также принимается (или к показателю звукового сигнала, такому как его удельная громкость, который может получаться из звукового сигнала), и применяют параметры M модификации к принятому звуковому сигналу. Такие устройства или последовательности операций могут характеризоваться как последовательности операций декодирования или декодеры; наряду с тем, что устройства или последовательности операций, требуемые для формирования сохраняемой или передаваемой информации, могут характеризоваться как последовательности операций кодирования или кодировщики. Такие последовательности операций кодирования или кодировщики являются теми частями примеров компоновок фиг.1-4, которые являются используемыми для формирования информации, требуемой соответственными последовательностями операций декодирования или декодерами. Такие процессоры декодирования или декодеры могут быть ассоциативно связанными или работающими практически с любым типом последовательности операций или устройства, которые обрабатывают и/или воспроизводят звук.Accordingly, additional aspects of the present invention are the provision of a device or a sequence of operations that (1) receive or reproduce from a device or a sequence of operations of storage or transmission, modification parameters M and apply them to an audio signal that is also received, or (2) which receive or reproduce, from a device or a sequence of operations of storage or transmission, the target specific volume or representation of the target specific volume, form a parameter M modification, applying the target specific volume or its representation to an audio signal that is also received (or an indicator of the audio signal, such as its specific volume that can be obtained from the audio signal), and apply the M modification parameters to the received audio signal. Such devices or process sequences may be characterized as decoding process sequences or decoders; while the devices or sequences of operations required to generate stored or transmitted information may be characterized as encoding sequences or encoders. Such coding sequences or encoders are those parts of the example layouts of FIGS. 1-4 that are used to generate the information required by respective decoding sequences or decoders. Such decoding processors or decoders may be associated with or working with virtually any type of process or device that processes and / or reproduces sound.

В одном из аспектов изобретения, как в примере по фиг.5, немодифицированный звуковой сигнал и параметры M модификации, например, сформированные последовательностью операций формирования или генератором параметров модификации, таким как Сформировать параметры модификации, 4, по фиг.1, 4' по фиг.2, 4'' по фиг.3 или 4''' по фиг.4 могут подводиться в любое подходящее устройство или функцию 16 сохранения или передачи («Сохранить или Передать»). В случае использования примера с прямой связью по фиг.1 в качестве последовательности операций кодирования или кодировщика, Модифицировать звуковой сигнал, 2, не потребовался бы для формирования модифицированного аудио и мог бы быть опущен, если нет потребности предоставлять модифицированное аудио во временном или пространственном местоположении кодировщика или последовательности операций кодирования. Сохранить или передать, 16, например, может включать в себя любые подходящие оптические или твердотельные устройства хранения и воспроизведения или любые подходящие проводные или беспроводные устройства передачи и приема, их выбор не является критичным по отношению к изобретению. Воспроизведенные или принятые параметры модификации затем могут подводиться в Модифицировать звуковой сигнал, 2, типа, примененного в примерах по фиг.1-4, для того чтобы модифицировать воспроизводимый или принимаемый звуковой сигнал, так что его удельная громкость приближается к целевой удельной громкости, или присуща компоновке, в которой получались параметры модификации. Параметры модификации могут сохраняться или передаваться любым из различных способов. Например, они могут сохраняться или передаваться в качестве метаданных, сопровождающих звуковой сигнал, они могут отправляться в отдельных трактах или каналах, они могут стенографически кодироваться в аудио, они могут мультиплексироваться и т.п. Использование параметров модификации для модификации звукового сигнала может быть необязательным и, если необязательно, их использование может быть выбираемым, например, пользователем. Например, параметры модификации, если применяются к звуковому сигналу, могли бы уменьшать динамический диапазон звукового сигнала. Следует ли применять или не применять такое уменьшение динамического диапазона могло бы быть выбираемым пользователем.In one aspect of the invention, as in the example of FIG. 5, an unmodified sound signal and modification parameters M, for example, generated by a sequence of generation steps or a modification parameter generator, such as Generate modification parameters, 4, in FIGS. 1, 4 'in FIG. .2, 4 ″ in FIG. 3 or 4 ″ ″ in FIG. 4 can be input to any suitable storage or transmission device or function 16 (“Save or Transmit”). In the case of using the direct-link example of FIG. 1 as an encoding or encoder flowchart, Modify the audio signal, 2, would not be required to generate modified audio and could be omitted if there is no need to provide modified audio at the temporal or spatial location of the encoder or coding process. Save or transmit, 16, for example, may include any suitable optical or solid state storage and playback devices or any suitable wired or wireless transmission and reception devices, their selection is not critical to the invention. The reproduced or received modification parameters can then be input to Modify the audio signal, 2, of the type used in the examples of FIGS. 1-4, in order to modify the reproduced or received audio signal, so that its specific volume approaches the target specific volume, or is inherent layout in which the modification parameters were obtained. Modification parameters may be stored or transmitted in any of various ways. For example, they can be stored or transmitted as metadata accompanying an audio signal, they can be sent in separate paths or channels, they can be shorthand encoded into audio, they can be multiplexed, etc. The use of modification parameters to modify the audio signal may be optional and, if not, their use may be selectable, for example, by the user. For example, modification parameters, if applied to an audio signal, could reduce the dynamic range of the audio signal. Whether or not to apply such a reduction in dynamic range could be user selectable.

В еще одном аспекте изобретения, как в примере по фиг.6, немодифицированный звуковой сигнал и целевая удельная громкость или представление целевой удельной громкости могут подводиться в любые подходящие устройство или функцию 16 сохранения или передачи («Сохранить или передать»). В случае использования конфигурации с прямой связью, такой как пример по фиг.1, в качестве последовательности операций кодирования или кодировщика, ни последовательность операций или устройство типа Рассчитать параметры модификации, 10, ни последовательность операций или устройство типа Модифицировать звуковой сигнал, 2, не потребовались бы и могли бы быть опущены, если нет потребности предоставлять параметры модификации или модифицированное аудио во временном или пространственном местоположении кодировщика или последовательности операций кодирования. Как в случае примера фиг.5, Сохранить или передать, 16, например, может включать в себя любые подходящие оптические или твердотельные устройства хранения и воспроизведения, или любые подходящие проводные или беспроводные устройства передачи и приема, их выбор не является критичным по отношению к изобретению. Воспроизведенные или принятые целевая удельная громкость или представление целевой удельной громкости затем могут подводиться, наряду с немодифицированным аудио, в Рассчитать параметры модификации, 10, типа, примененного в примерах по фиг.3, для того чтобы предоставить параметры M модификации, которые затем могут подводиться в Модифицировать звуковой сигнал, 2, типа, применяемого в примерах по фиг.1-4, для того чтобы модифицировать воспроизводимый или принимаемый сигнал, так что его удельная громкость приближается к целевой удельной громкости или присуща компоновке, в которой получались параметры модификации. Хотя целевая удельная громкость или ее представление могут наиболее легко получаться в последовательности операций кодирования или кодировщике примерного типа фиг.10, целевая удельная громкость или ее представление либо приближение к целевой удельной громкости или его представление могут получаться в последовательности операций кодирования или кодировщике примерных типов фиг. со 2 по 4 (приближения рассчитываются в последовательностях операций или устройствах 14 по фиг.2 и 3 и в последовательности операций или устройстве 12 по фиг.4). Целевая удельная громкость или ее представление могут сохраняться или передаваться любым из различных способов. Например, она может сохраняться или передаваться в качестве метаданных, сопровождающих звуковой сигнал, она может отправляться в отдельных трактах или каналах, она может стенографически кодироваться в аудио, она может мультиплексироваться и т.п. Использование параметров модификации, полученных из хранимых или переданных целевой удельной громкости, или представления для модификации звукового сигнала может быть необязательным и, если необязательно, их использование может быть выбираемым, например, пользователем. Например, параметры модификации, если применяются к звуковому сигналу, могли бы уменьшать динамический диапазон звукового сигнала. Следует ли применять или не применять такое уменьшение динамического диапазона могло бы быть выбираемым пользователем.In yet another aspect of the invention, as in the example of FIG. 6, the unmodified audio signal and the target specific volume or representation of the target specific volume can be supplied to any suitable storage or transmission device or function 16 (“Save or Transmit”). In the case of using a direct-coupling configuration, such as the example of FIG. 1, as a coding or encoder flowchart, neither a flowchart or device of type Calculate modification parameters, 10 nor a flowchart or device of type Modify an audio signal, 2, was required could and could be omitted if there is no need to provide modification parameters or modified audio at the temporal or spatial location of the encoder or op sequence coding radios. As in the case of the example of FIG. 5, Save or Transmit, 16, for example, may include any suitable optical or solid state storage and playback devices, or any suitable wired or wireless transmission and reception devices, their selection is not critical to the invention . The reproduced or accepted target specific volume or representation of the target specific volume can then be input, along with unmodified audio, to Calculate modification parameters, 10, of the type used in the examples of FIG. 3, in order to provide modification parameters M, which can then be input to Modify an audio signal, 2, of the type used in the examples of FIGS. 1-4, in order to modify a reproduced or received signal, so that its specific volume approaches the target specific loudly or inherent in the layout in which the modification parameters were obtained. Although the target specific loudness or its representation can most easily be obtained in the encoding process or an encoder of the approximate type of FIG. 10, the target specific loudness or its representation or approximation to the target specific loudness or its representation can be obtained in the encoding process or the encoder of the exemplary types of FIG. 2 to 4 (approximations are calculated in the sequence of operations or devices 14 of FIGS. 2 and 3 and in the sequence of operations or device 12 of FIG. 4). The target specific volume or its representation may be stored or transmitted in any of various ways. For example, it can be stored or transmitted as metadata accompanying an audio signal, it can be sent in separate paths or channels, it can be shorthand encoded into audio, it can be multiplexed, etc. The use of modification parameters obtained from stored or transmitted target specific volume, or representations for modifying an audio signal may be optional and, if not necessary, their use may be selected, for example, by the user. For example, modification parameters, if applied to an audio signal, could reduce the dynamic range of the audio signal. Whether or not to apply such a reduction in dynamic range could be user selectable.

При реализации раскрытого изобретения в качестве цифровой системы наиболее практичной является конфигурация с прямой связью, а потому примеры таких конфигураций подробно описаны ниже, подразумевается, что объем изобретения не ограничен таким образом.When implementing the disclosed invention as a digital system, a direct-coupled configuration is most practical, and therefore examples of such configurations are described in detail below, it is understood that the scope of the invention is not so limited.

На всем протяжении этого документа термины, такие как «фильтр» или «гребенка фильтров», используются в материалах настоящей заявки для включения в состав по существу любой разновидности рекурсивной и нерекурсивной фильтрации, такой как БИХ-фильтры или преобразования, и «фильтрованная» информация является результатом применения таких фильтров. Варианты осуществления, описанные ниже, применяют гребенки фильтров, реализованные преобразованиями.Throughout this document, terms such as “filter” or “filter comb” are used throughout this application to include essentially any kind of recursive and non-recursive filtering, such as IIR filters or transforms, and “filtered” information is the result of applying such filters. The embodiments described below apply filter banks implemented by transformations.

Фиг.7 изображает большие подробности примерного варианта осуществления аспекта изобретения, воплощенного в компоновке с прямой связью. Аудио сначала проходит через функцию или устройство 100 гребенки фильтров анализа («Гребенка фильтров анализа»), которые разделяют звуковой сигнал на множество полос частот (отсюда фиг.5 показывает многочисленные выходные сигналы из Гребенки фильтров анализа, 100, каждый выходной сигнал представляет полосу частот, которую выходной сигнал проносит через различные функции или устройства вплоть до гребенки фильтров синтеза, которая суммирует полосы в объединенный широкополосный сигнал, как дополнительно описано ниже). Характеристика фильтра, ассоциативно связанного с каждой полосой частот в Гребенке фильтров анализа, 100, предназначена для имитации характеристики в конкретном местоположении базилярной мембраны во внутреннем ухе. Выходной сигнал каждого фильтра в Гребенке фильтров анализа, 100, затем проходит в пропускающий фильтр или функцию 101 пропускающего фильтра («Пропускающий фильтр»), которые имитируют эффект фильтрации передачи аудио через наружное и среднее ухо. Если должна была измеряться только громкость аудио, пропускающий фильтр мог бы применяться до гребенки фильтров анализа, но, так как выходные сигналы гребенки фильтров анализа используются для синтеза модифицированного аудио, полезно применять пропускающий фильтр после гребенки фильтров. Выходные сигналы Пропускающего фильтра, 101, затем проходят в функцию или устройство 102 накачки («Накачка»), выходные сигналы которых имитируют распределение энергии по базилярной мембране. Значения энергии накачки могут сглаживаться по времени функцией или устройством 103 сглаживания («Сглаживание»). Постоянные времени функции сглаживания заданы в соответствии с потребностями желательного применения. Сглаженные сигналы накачки по существу преобразуются в удельную громкость в функции или устройстве 104 удельной громкости («Удельная громкость (SL)»). Удельная громкость представлена в единицах сонов на единичную частоту. Составляющая удельной громкости, ассоциативно связанная с каждой полосой, проходит в функцию или устройство 105 модификации удельной громкости («Модификация SL»). Модификация 105 SL принимает в качестве своего входного сигнала исходную удельную громкость, а затем выводит требуемую или «целевую» удельную громкость, которая согласно аспекту настоящего изобретения предпочтительно является функцией исходной удельной громкости (смотрите следующий ниже заголовок, озаглавленный «Целевая удельная громкость»). Модификация SL, 105 может работать независимо в каждой полосе, или может существовать взаимная зависимость между или среди полос (частотное сглаживание, как подсказано линиями перекрестных соединений на фиг.7), зависящая от требуемого результата. Принимая в качестве своих входных сигналов сглаженные составляющие полос частот накачки из Накачки, 102, и целевую удельную громкость из Модификации SL, 105, функция или устройство 106 решателя коэффициентов усиления («Решатель коэффициентов усиления») определяет коэффициент усиления, которому необходимо применяться к каждой полосе выходного сигнала Гребенки фильтров анализа, 100, для того чтобы преобразовывать измеренную удельную громкость в целевую удельную громкость. Решатель коэффициентов усиления может быть реализован различными способами. Например, Решатель коэффициентов усиления может включать в себя итерационную последовательность операций, такую как в способе, который раскрыт в упомянутой международной патентной заявке № PCT/US2004/016964, опубликованной как WO 2004/111964 A2, или в качестве альтернативы справочную таблицу. Хотя коэффициенты на полосу, формируемые Решателем коэффициентов усиления, 106, могут дополнительно сглаживаться по времени необязательными функцией или устройством 107 сглаживания («Сглаживание»), для того чтобы минимизировать артефакты восприятия, предпочтительно, чтобы временное сглаживание применялось где-то в другом месте во всей последовательности операций или устройстве, как описано где-либо в другом месте. В заключение коэффициенты усиления применяются к соответственным полосам Гребенки фильтров анализа, 100 через соответственную функцию мультипликативного объединения или объединитель 108, и обработанное или «модифицированное» аудио синтезируется из модифицированных коэффициентами усиления полос в функции или устройстве 110 гребенки фильтров синтеза («Гребенка фильтров синтеза»). В дополнение выходные сигналы из гребенки фильтров анализа могут задерживаться функцией или устройством 109 задержки («Задержка») до применения коэффициентов усиления, для того чтобы компенсировать любое запаздывание, ассоциативно связанное с вычислением коэффициентов усиления. В качестве альтернативы вместо расчета коэффициентов усиления для использования при применении модификаций коэффициентов усиления в полосах частот, Решатели коэффициентов усиления, 106, могут рассчитывать коэффициенты фильтра, которые управляют зависящим от времени фильтром, таким как многоотводный КИХ-фильтр или многополюсный БИХ-фильтр. Для простоты в описании аспекты изобретения, главным образом, описаны в качестве использования коэффициентов усиления, применяемых к полосам частот, подразумевается, что коэффициенты фильтра и зависящие от времени фильтры также могут применяться в практических вариантах осуществления.7 depicts large details of an exemplary embodiment of an aspect of the invention embodied in a direct-coupled arrangement. The audio first passes through a function or device 100 of an analysis filter bank (“Analysis filter bank”) that divides an audio signal into a plurality of frequency bands (hence, FIG. 5 shows multiple output signals from an analysis filter bank, 100, each output signal represents a frequency band, which the output signal carries through various functions or devices up to the synthesis filter bank, which sums the bands into an integrated broadband signal, as further described below). A filter characteristic associated with each frequency band in the Analysis Filter Comb, 100, is intended to simulate a characteristic at a particular location of the basilar membrane in the inner ear. The output of each filter in the Analysis Filter Comb, 100, then passes to a pass filter or pass filter function 101 (“Pass Filter”), which mimics the filtering effect of transmitting audio through the outer and middle ear. If only the audio volume was to be measured, a transmission filter could be applied before the analysis filter bank, but since the output signals of the analysis filter bank are used to synthesize modified audio, it is useful to use a transmission filter after the filter bank. The output signals of the Pass Filter, 101, then pass into a pump function or device 102 (“Pump”), the output signals of which simulate the distribution of energy across the basilar membrane. The values of the pump energy can be smoothed over time by a function or a smoothing device 103 (“Smoothing”). The time constants of the smoothing function are set in accordance with the needs of the desired application. Smoothed pump signals are essentially converted to specific volume in a specific volume function or device 104 (“Specific Volume (SL)”). Specific loudness is presented in units of sleep per unit frequency. A specific loudness component associated with each band passes into a specific loudness modification function or device 105 (“SL Modification”). Modification 105 SL takes as its input a source specific loudness and then outputs the desired or “target” specific loudness, which according to an aspect of the present invention is preferably a function of the original specific loudness (see the following heading entitled “Target specific loudness”). Modification SL, 105 may work independently in each band, or there may be an interdependence between or among the bands (frequency smoothing, as suggested by the cross-connection lines in Fig. 7), depending on the desired result. Taking as its input signals the smoothed components of the pump frequency bands from Pumps, 102, and the target specific volume from Modification SL, 105, the function or device 106 of the gain coefficient (“Gain Solver”) determines the gain to be applied to each band output signal Combs analysis filters, 100, in order to convert the measured specific volume to the target specific volume. The gain factor solver can be implemented in various ways. For example, the Gain Solver may include an iterative process such as in the method disclosed in the aforementioned International Patent Application No. PCT / US2004 / 016964 published as WO 2004/111964 A2, or as an alternative to a lookup table. Although the band coefficients generated by the Gain Solver, 106, can be further time-smoothed by an optional smoothing function or device 107 (“Smoothing”) in order to minimize perception artifacts, it is preferable that temporal smoothing is applied elsewhere in the whole a process or device as described elsewhere. In conclusion, the amplification factors are applied to the respective bands of the Analysis filter comb, 100 through the corresponding multiplicative combining function or combiner 108, and the processed or “modified” audio is synthesized from the modified gain bands in the synthesis filter comb function or device 110 (“Synthesis filter comb”) . In addition, the output from the analysis filter bank may be delayed by a delay function or device 109 (“Delay”) until the amplification factors are applied in order to compensate for any delay associated with the calculation of the amplification factors. Alternatively, instead of calculating gain factors to use when applying gain bandwidth modifications, gain resolvers, 106, can calculate filter coefficients that control a time-dependent filter, such as a multi-tap FIR filter or a multi-pole IIR filter. For simplicity of description, aspects of the invention are mainly described as using gain factors applied to frequency bands, it is understood that filter coefficients and time-dependent filters can also be applied in practical embodiments.

В конкретных вариантах осуществления обработка аудио может выполняться в цифровой области. Соответственно звуковой входной сигнал обозначен дискретной временной последовательностью x[n], которая была дискретизирована из источника аудио на некоторой частоте f s выборки. Предполагается, что последовательность x[n] была надлежащим образом масштабирована, так что среднеквадратическая мощность x[n] в децибелах, заданная посредствомIn specific embodiments, audio processing may be performed in the digital domain. Accordingly, the audio input signal is indicated by a discrete time sequence x [ n ], which was sampled from the audio source at a certain sampling frequency f s . It is assumed that the sequence x [ n ] was appropriately scaled so that the rms power x [ n ] in decibels given by

Figure 00000012
Figure 00000012

равна уровню звукового давления в дБ, на котором аудио прослушивается человеком-слушателем. В дополнение звуковой сигнал предполагается монофоническим для простоты описания.equal to the sound pressure level in dB at which the audio is heard by a human listener. In addition, an audio signal is assumed to be monophonic for ease of description.

Гребенка фильтров анализа, 100, Пропускающий фильтр, 101, Накачка, 102, Удельная громкость, 104, Модификация удельной громкости, 105, Решатель коэффициентов усиления, 106, и Гребенка фильтров синтеза, 110, могут быть описаны более подробно, как изложено ниже.Analysis Filter Comb, 100, Pass Filter, 101, Pumping, 102, Specific Volume, 104, Specific Volume Modification, 105, Gain Solver, 106, and Synthesis Filter Comb, 110, can be described in more detail as follows.

Гребенка фильтров, 100Filter Comb, 100

Звуковой входной сигнал подводится в гребенку фильтров или функцию 100 гребенки фильтров анализа («Гребенка фильтров анализа»). Каждый фильтр в Гребенке фильтров анализа, 100, предназначен для имитации частотной характеристики в конкретном местоположении вдоль базилярной мембраны во внутреннем ухе. Гребенка 100 фильтров может включать в себя набор линейных фильтров, чьи полоса пропускания и разнесение постоянны по шкале эквивалентной прямоугольной полосы пропускания (ERB), как определено Муром, Глазбергом и Баером (B. C. J. Moore, B. Glasberg, T. Baer, «A Model for the Prediction of Thresholds, Loudness, and Partial Loudness», приведенном выше).The audio input signal is fed into the filter bank or function 100 of the analysis filter bank (“Analysis filter bank”). Each filter in the Analysis Filter Comb, 100, is designed to simulate the frequency response at a specific location along the basilar membrane in the inner ear. Filter bank 100 may include a set of linear filters whose bandwidth and spacing are constant on an equivalent rectangular bandwidth (ERB) scale as defined by Moore, Glasberg and Baer (BCJ Moore, B. Glasberg, T. Baer, “A Model for the Prediction of Thresholds, Loudness, and Partial Loudness ”above).

Хотя шкала частот ERB ближе соответствует человеческому восприятию и показывает улучшенное качество функционирования при создании измерений объективной громкости, которые соответствуют результатам субъективной громкости, шкала частот Барка может применяться с пониженным качеством функционирования.Although the ERB frequency scale is closer to human perception and shows improved performance when creating measurements of objective volume that correspond to the results of subjective volume, the Bark frequency scale can be used with reduced quality of operation.

Для центральной частоты f в герцах ширина одной полосы ERB в герцах может быть приближенно выражена как:For the center frequency f in hertz, the width of one ERB band in hertz can be approximately expressed as:

Figure 00000013
Figure 00000013

По этой зависимости определяется криволинейная шкала частот из условия, чтобы любая точка по криволинейной шкале, соответствующая ERB в единицах криволинейной шкалы, была равна единице. Функция для преобразования из линейной частоты в Герцах в эту шкалу частот ERB получается интегрированием аналога уравнения 1:This dependence determines the curvilinear frequency scale from the condition that any point on the curvilinear scale corresponding to ERB in units of the curvilinear scale is equal to unity. The function for converting from linear frequency in Hertz to this ERB frequency scale is obtained by integrating the analogue of equation 1:

Figure 00000014
Figure 00000014

Также полезно выражать преобразование из шкалы ERB обратно в линейную шкалу частот посредством решения уравнения 2a в отношении f:It is also useful to express the conversion from the ERB scale back to the linear frequency scale by solving equation 2a with respect to f :

Figure 00000015
Figure 00000015

где e имеет место в единицах шкалы ERB. Фиг.9 показывает зависимость между шкалой ERB и частотой в Герцах.where e takes place in units of the ERB scale. Figure 9 shows the relationship between the ERB scale and frequency in Hertz.

Гребенка фильтров анализа, 100, может включать в себя B слуховых фильтров, указываемых ссылкой как полосы, на центральных частотах f c[1]... f c[B], равномерно разнесенных вдоль шкалы ERB. Более точно,The analysis filter bank, 100, may include B auditory filters, referred to as bands, at center frequencies f c [1] ... f c [ B ] uniformly spaced along the ERB scale. More accurately,

Figure 00000016
Figure 00000016

где ∆ - требуемое разнесение ERB Гребенки фильтров анализа, 100 и где f min и f max - требуемые минимальные и максимальные центральные частоты соответственно. Можно выбрать ∆=1, и, учитывая частотный диапазон, на котором чувствительно человеческое ухо, можно установить f min =50 Гц и f max=20000 Гц. С такими параметрами, например, применение уравнений 3a-c дает B=40 слуховых фильтров.where ∆ is the required spacing of the ERB Combs of the analysis filters, 100 and where f min and f max are the required minimum and maximum center frequencies, respectively. You can choose ∆ = 1, and, taking into account the frequency range over which the human ear is sensitive, you can set f min = 50 Hz and f max = 20,000 Hz . With such parameters, for example, applying equations 3a-c gives B = 40 auditory filters.

Амплитудно-частотная характеристика каждого слухового фильтра может характеризоваться сферической экспоненциальной функцией, как предложено Муром и Глазбергом. Более точно, амплитудная характеристика фильтра с центральной частотой f c[b] может вычисляться в качестве:The frequency response of each auditory filter may be characterized by a spherical exponential function, as proposed by Moore and Glazberg. More precisely, the amplitude characteristic of the filter with a central frequency f c [ b ] can be calculated as:

Figure 00000017
Figure 00000017

гдеWhere

Figure 00000018
Figure 00000018

Амплитудные характеристики таких B слуховых фильтров, которые приближенно равняются определению критических полос по шкале ERB, показаны на фиг.10.The amplitude characteristics of such B auditory filters, which are approximately equal to the definition of critical bands on the ERB scale, are shown in FIG. 10.

Операции фильтрации Гребенки фильтров анализа, 100, могут удовлетворительно приближенно выражаться с использованием дискретного преобразования Фурье конечной длины, обычно указываемого ссылкой как кратковременное дискретное преобразование Фурье (STDFT), так как реализация, выполняющая фильтры на частоте выборки звукового сигнала, указываемая ссылкой как полночастотная реализация, предполагается дающей большее временное разрешение, чем необходимо для точных измерений громкости. Посредством использования STDFT вместо полночастотной реализации может достигаться улучшение эффективности и снижение вычислительной сложности.Filtering operations The comb filter analysis, 100, can be satisfactorily approximately expressed using a finite-length discrete Fourier transform, usually referred to as a short-term discrete Fourier transform (STDFT), since an implementation that performs filters at the audio sampling frequency, indicated by the link as a full-frequency implementation, It is supposed to give a greater temporal resolution than is necessary for accurate volume measurements. By using STDFT instead of full-frequency implementation, improved efficiency and reduced computational complexity can be achieved.

STDFT входного звукового сигнала x[n] определено в качестве:The STDFT of the audio input signal x [ n ] is defined as:

Figure 00000019
Figure 00000019

где k - индекс частоты, t - индекс временного интервала, N - размер ДПФ (дискретного преобразования Фурье, DFT), T - размер скачка, а w[n] - длина окна N, нормализованного так, чтоwhere k is the frequency index, t is the time interval index, N is the size of the DFT (discrete Fourier transform, DFT), T is the size of the jump, and w [ n ] is the length of the window N , normalized so that

Figure 00000020
Figure 00000020

Отметим, что переменная t в уравнении 5a является дискретным индексом, представляющим временной интервал STDFT, в противоположность измерению времени в секундах. Каждое приращение в t представляет скачок на T отсчетов вдоль сигнала x[n]. Последующие ссылки на индекс t предполагают это определение. Несмотря на то что разные настройки параметров и формы окна могут использоваться в зависимости от деталей реализаций, для f s=44100 Гц, выбор N=2048, T=1024, и вынуждение w[n] быть окном Хенинга обеспечивает достаточный баланс временного и частотного разрешения. STDFT, описанное выше, может быть более эффективным с использованием быстрого преобразования Фурье (БПФ, FFT).Note that the variable t in equation 5a is a discrete index representing the time interval STDFT, as opposed to measuring time in seconds. Each increment in t represents a jump of T samples along the signal x [ n ] . Subsequent references to the index t imply this definition. Despite the fact that different parameter settings and window shapes can be used depending on the implementation details, for f s = 44100 Hz , choosing N = 2048, T = 1024, and forcing w [ n ] to be a Hanning window provides a sufficient balance of time and frequency resolution . The STDFT described above can be more efficient using Fast Fourier Transform (FFT).

Вместо STDFT для реализации гребенки фильтров анализа может использоваться модифицированное дискретное косинусное преобразование (MDCT). MDCT-преобразование, обычно используемое в кодировщиках связанного с восприятием аудио, таких как AC-3 системы Долби. Если раскрытая система реализуется с помощью такого перцепционно кодированного аудио, раскрытые измерение и модификация громкости могут более эффективно реализовываться обработкой существующих коэффициентов MDCT кодированного аудио, тем самым устраняя необходимость выполнять преобразование гребенки фильтра анализа. MDCT входного звукового сигнала x[n] задано посредством:Instead of STDFT, a modified discrete cosine transform (MDCT) can be used to implement an analysis filter bank. The MDCT conversion commonly used in audio-related encoders, such as Dolby's AC-3 systems. If the disclosed system is implemented using such perceptually encoded audio, the disclosed volume measurement and modification can be more effectively implemented by processing the existing MDCT coefficients of the encoded audio, thereby eliminating the need to convert the analysis filter bank. The MDCT of the audio input signal x [ n ] is defined by:

Figure 00000021
Figure 00000021

Обычно размер T скачка выбирается, чтобы быть точно половиной длины N преобразования, так что возможна безукоризненная реконструкция сигнала x[n].Usually, the jump size T is chosen to be exactly half the length N of the transform, so that perfect reconstruction of the signal x [ n ] is possible.

Пропускающий фильтр, 101Pass Filter, 101

Выходные сигналы Гребенки фильтров анализа, 100, подводятся в пропускающий фильтр или функцию 101 пропускающего фильтра («Пропускающий фильтр»), которые фильтруют каждую полосу гребенки фильтров в соответствии с передачей аудио через наружное и среднее ухо. Фиг.8 изображает одну из пригодных амплитудно-частотных характеристик пропускающего фильтра, P(f), на ширине диапазона слышимых частот. Характеристика является единицей ниже 1 кГц, а выше 1 кГц, следуют инверсии порога слышимости, который задан в стандарте ISO226, с пороговым значением, нормализованным для равенства единице на 1 кГц.The output signals of the Analysis Filter Combs 100, are fed into a transmission filter or a transmission filter function 101 (“Transmission Filter”), which filters each band of the filter comb according to audio transmission through the outer and middle ear. Fig. 8 depicts one of the suitable amplitude-frequency characteristics of a transmission filter, P ( f ), over a bandwidth of audible frequencies. The characteristic is a unit below 1 kHz and above 1 kHz, followed by an inversion of the auditory threshold, which is specified in the ISO226 standard, with a threshold value normalized to equal unity at 1 kHz.

Накачка, 102Pumping, 102

Для того чтобы вычислять громкость входного звукового сигнала, необходим показатель кратковременной энергии звуковых сигналов в каждом фильтре Гребенки фильтров анализа, 100, после применения Пропускающего фильтра, 101. Этот зависящий от времени и частоты показатель указывается ссылкой как накачка. Выходной сигнал кратковременной энергии каждого фильтра в Гребенке фильтров анализа, 100, может приближенно выражаться в Функции накачки, 102, посредством перемножения характеристик фильтров в частотной области со спектром мощности входного сигнала:In order to calculate the volume of the input sound signal, an indicator of short-term energy of sound signals in each filter is required. The filter banks of the analysis filters, 100, after applying the Pass filter, 101. This time and frequency-dependent indicator is indicated by reference as pumping. The output signal of the short-term energy of each filter in the Analysis Filter Comb, 100, can be approximately expressed in the Pump Functions, 102, by multiplying the characteristics of the filters in the frequency domain with the power spectrum of the input signal:

Figure 00000022
Figure 00000022

где b - номер полосы, t - номер кадра, а H b[k] и P[k] - частотные характеристики слухового фильтра и пропускающего фильтра, соответственно дискретизированные на частоте, соответствующей индексу k приемника STDFT или MDCT. Должно быть отмечено, что разновидности для амплитудной характеристики слуховых фильтров, иные чем заданные в уравнениях 4a-c, могут использоваться в уравнении 7 для достижения подобных результатов. Например, упомянутая международная заявка № PCT/US2004/016964, опубликованная как WO 2004/111964 A2, описывает два альтернативных варианта: слуховой фильтр, характеризуемый функцией БИХ-преобразования 12ого порядка, и приближение недорогого полосового фильтра «с крутым срезом».where b is the band number, t is the frame number, and H b [ k ] and P [ k ] are the frequency characteristics of the auditory filter and transmission filter, respectively sampled at a frequency corresponding to the index k of the STDFT or MDCT receiver. It should be noted that varieties for the amplitude characteristics of auditory filters other than those specified in equations 4a-c can be used in equation 7 to achieve similar results. For example, the aforementioned international application No. PCT / US2004 / 016964, published as WO 2004/111964 A2, describes two alternatives: an auditory filter characterized by a 12th order IIR transform function, and an approximation of an inexpensive “sharp cut” bandpass filter.

Итак, выходной сигнал Функции накачки, 102, является представлением в частотной области энергии E в соответственных полосах b ERB за период t времени.So, the output signal of the Pump Function, 102, is a representation in the frequency domain of the energy E in the respective bands b ERB over a period of t time.

Усреднение по времени («Сглаживание»), 103Time Averaging (“Smoothing”), 103

Для некоторых применений раскрытого изобретения, как описано ниже, может быть желательным сглаживать накачку E[b, t] до ее преобразования в удельную громкость. Например, сглаживание может выполняться рекурсивно в функции 103 сглаживания согласно уравнению:For some applications of the disclosed invention, as described below, it may be desirable to smooth the pump E [ b , t ] before converting it to a specific loudness. For example, smoothing can be performed recursively in smoothing function 103 according to the equation:

Figure 00000023
Figure 00000023

где постоянные времени λ b в каждой полосе b выбираются в соответствии с требуемым применением. В большинстве случаев постоянные времени преимущественно могут выбираться, чтобы быть пропорциональными времени интегрирования человеческого восприятия громкости в пределах полосы b. Уотсон и Гендель выполняли эксперименты, демонстрирующие, что это время интегрирования находится в пределах диапазона в 150-175 мс на низких частотах (125-200 Гц) и 40-60 мс на высоких частотах (Charles S. Watson and Roy W. Gengel, «Signal Duration and Signal Frequency in Relation to Auditory Sensitivity» Journal of the Acoustical Society of America, Vol. 46, No. 4 (Part 2), 1969, pp. 989-997 (Чарли С., Уотсон и Рой В. Гендель, «Длительность сигнала и частота сигнала относительно слуховой чувствительности» Журнал Акустического сообщества Америки, том 46, № 4 (часть 2), 1969 год, стр. 989-997)).where the time constants λ b in each band b are selected in accordance with the desired application. In most cases, time constants can advantageously be chosen to be proportional to the integration time of human perception of loudness within band b. Watson and Handel performed experiments demonstrating that this integration time was within the range of 150-175 ms at low frequencies (125-200 Hz) and 40-60 ms at high frequencies (Charles S. Watson and Roy W. Gengel, “ Signal Duration and Signal Frequency in Relation to Auditory Sensitivity Journal of the Acoustical Society of America, Vol. 46, No. 4 (Part 2), 1969, pp. 989-997 (Charlie S., Watson and Roy W. Handel, “Signal duration and signal frequency relative to auditory sensitivity” ( Journal of the Acoustic Society of America , Volume 46, No. 4 (Part 2), 1969, pp. 989-997)).

Удельная громкость, 104Specific Volume, 104

В преобразователе или функции 104 преобразования удельной громкости («Удельная громкость») каждая полоса накачки преобразуется в значение составляющей удельной громкости, которое измеряется в сонах на ERB.In the converter or specific volume conversion function 104 (“Specific Volume”), each pump band is converted to a specific volume component, which is measured in sones on the ERB.

Вначале при вычислении удельной громкости уровень накачки в каждой полосе

Figure 00000024
[b, t] может преобразовываться в эквивалентный уровень накачки на 1 кГц, как задано кривыми равной громкости по ISO 226 (фиг.11), нормализованным пропускающим фильтром P(z) фиг.12):Initially, when calculating the specific volume, the pump level in each band
Figure 00000024
[ b , t ] can be converted to an equivalent pump level at 1 kHz, as defined by equal-volume curves in accordance with ISO 226 (FIG. 11), normalized by a transmission filter P (z) of FIG. 12):

Figure 00000025
Figure 00000025

где T 1kHz (E, f) - функция, которая формирует уровень на 1 кГц, который равен по громкости уровню E на частоте f. На практике, T 1kHz(E, f) реализуется в качестве интерполяции справочной таблицы кривых равной громкости, нормализованных пропускающим фильтром. Преобразование эквивалентных уровней на 1 кГц упрощает последующий расчет удельной громкости.where T 1kHz ( E , f ) is a function that forms a level at 1 kHz, which is equal in volume to level E at a frequency f . In practice, T 1kHz ( E , f ) is implemented as interpolation of the reference table of equal volume curves normalized by a transmission filter. Converting equivalent levels to 1 kHz simplifies the subsequent calculation of specific volume.

Затем удельная громкость в каждой полосе может быть вычислена в качестве:Then the specific volume in each band can be calculated as:

Figure 00000026
Figure 00000026

где N NB[b, t] и N WB[b, t] - значения удельной громкости на основании узкополосной или широкополосной модели прохождения сигнала соответственно. Значение α[b, t] - является коэффициентом интерполяции, лежащим между 0 и 1, который вычисляется из звукового сигнала. Упомянутая международная заявка № PCT/US2004/016964, опубликованная как WO 2004/111964 A2, описывает технологию для расчета α[b, t] по спектральной неравномерности накачки. Она также более подробно описывает «узкополосные» и «широкополосные» модели прохождения сигнала.where N NB [ b , t ] and N WB [ b , t ] are the specific volume values based on the narrow-band or wide-band signal transmission model, respectively. The value α [ b , t ] - is the interpolation coefficient lying between 0 and 1, which is calculated from the sound signal. Mentioned international application No. PCT / US2004 / 016964, published as WO 2004/111964 A2, describes a technology for calculating α [ b , t ] from spectral pump irregularities. It also describes in more detail the "narrow-band" and "broadband" signal transmission models.

Значения N NB[b, t] и N WB[b, t] узкополосной и широкополосной удельной громкости могут оцениваться по преобразованной накачке с использованием экспоненциальных функций:The values of N NB [ b , t ] and N WB [ b , t ] of narrowband and broadband specific volume can be estimated from the converted pump using exponential functions:

Figure 00000027
Figure 00000027

где TQ 1kHz - уровень накачки при пороговом значении в тишине для тона в 1 кГц. По кривым равной громкости (фиг.11 и 12) TQ lkHz равен 4,2 дБ. Отмечаем, что обе из этих функций удельной громкости равны нулю, когда накачка равна пороговому значению в тишине. Для накачек, больших чем пороговое значение в тишине, обе функции монотонно возрастают со степенной зависимостью в соответствии с законом Стивенса об ощущении интенсивности. Показатель степени для узкополосной функции выбирается, чтобы быть большим, чем таковой у широкополосной функции, заставляя узкополосную функцию возрастать быстрее, чем широкополосная функция. Отдельный набор показателей степени β и коэффициентов усиления G для узкополосного и широкополосного случаев выбирается, чтобы соответствовать экспериментальным данным о росте громкости для тонов и шума.where TQ 1kHz is the pump level at a threshold value in silence for a tone of 1 kHz. According to the equal volume curves (Figs. 11 and 12), TQ lkHz is 4.2 dB. We note that both of these specific volume functions are equal to zero when the pump is equal to the threshold value in silence. For pumps larger than the threshold value in silence, both functions monotonically increase with a power dependence in accordance with Stevens law on the feeling of intensity. The exponent for the narrowband function is selected to be greater than that of the broadband function, causing the narrowband function to increase faster than the broadband function. A separate set of exponents β and gain G for narrowband and wideband cases is selected to match experimental data on volume growth for tones and noise.

Мур и Глазберг выдвинули в качестве предположения, что удельная громкость должна быть равной некоторому небольшому значению вместо нуля, когда накачка находится на пороге слышимости. Удельная громкость затем должна монотонно уменьшаться до нуля, по мере того как накачка уменьшается до нуля. Обоснование состоит в том, что порог слышимости является вероятностным порогом (точкой, в которой тон обнаруживается 50% времени) и что количество тонов, каждый при пороговом значении, представленных совместно, может суммироваться в звук, который слышим в большей степени, чем любой из отдельных тонов. В раскрытой заявке пополнение функций удельной громкости этим свойством имеет дополнительное преимущество побуждения решателя коэффициентов усиления, обсужденного ниже, вести себя более уместно, когда накачка находится возле порогового значения. Если удельная громкость определена равной нулю, когда накачка находится на или ниже порогового значения, то уникального решения для решателя коэффициентов усиления не существует для накачек на или ниже порогового значения. Если, с другой стороны, удельная громкость определена монотонно повышающейся для всех значений накачки, больших чем или равных нулю, как предложено Муром и Глазбергом, то уникальное решение существует. Масштабирование громкости, большее чем единица, всегда будет иметь следствием коэффициент усиления, больший чем единица, и наоборот. Функции удельной громкости в уравнениях 11a и 11b могут быть видоизменены, чтобы иметь требуемое свойство, согласно:Moore and Glasberg put forward as an assumption that the specific volume should be equal to some small value instead of zero when the pump is at the threshold of hearing. The specific volume should then decrease monotonously to zero as the pump decreases to zero. The rationale is that the auditory threshold is a probabilistic threshold (the point at which a tone is detected 50% of the time) and that the number of tones, each at a threshold value presented together, can be summed into a sound that we hear more than any of the individual tones. In the disclosed application, the replenishment of specific volume functions with this property has the additional advantage of inducing the gain factor solver, discussed below, to behave more appropriately when the pump is near a threshold value. If the specific volume is determined to be zero when the pump is at or below a threshold value, then there is no unique solution for the gain factor solver for pumping at or below a threshold value. If, on the other hand, the specific loudness is determined to increase monotonically for all pump values greater than or equal to zero, as proposed by Moore and Glazberg, then a unique solution exists. Scaling a volume larger than one will always result in a gain greater than one, and vice versa. The specific volume functions in equations 11a and 11b can be modified to have the desired property, according to:

Figure 00000028
Figure 00000028

где константа λ является большей, чем единица, показатель η степени является меньшим, чем единица, а константы K и C выбираются так, что функция удельной громкости и ее первая производная являются непрерывными в точке

Figure 00000029
1kHz[b, t] = λTQ 1kHz.where the constant λ is greater than one, the exponent η is less than one, and the constants K and C are chosen so that the specific volume function and its first derivative are continuous at
Figure 00000029
1kHz [ b , t ] = λTQ 1kHz .

Из удельной громкости, общая или «полная» громкость L[t] задается суммой удельной громкости по всем полосам 6:From the specific volume, the total or “full” volume L [ t ] is set by the sum of the specific volume for all bands 6:

Figure 00000030
Figure 00000030

Модификация удельной громкости, 105Specific Volume Modification, 105

В функции 105 модификации удельной громкости («Модификация удельной громкости») целевая удельная громкость, указываемая ссылкой как

Figure 00000031
[b, t], может рассчитываться по удельной громкости из SL 104 (фиг.7) различными способами, зависящими от требуемого применения всего устройства или последовательности операций. Как более подробно описано ниже, целевая удельная громкость может рассчитываться с использованием масштабного коэффициента α, например, в случае регулировки уровня громкости. Смотрите уравнение 16, приведенное ниже, и его ассоциативно связанное описание. В случае автоматической регулировки усиления (АРУ) и регулировки динамического диапазона (DRC) целевая удельная громкость может рассчитываться с использованием отношения требуемой выходной громкости ко входной громкости. Смотрите уравнения 17 и 18, приведенные ниже, и их ассоциативно связанные описания. В случае динамической коррекции целевая удельная громкость может рассчитываться с использованием зависимости, изложенной в уравнении 23, и ее ассоциативно связанном описании.In the specific volume modification function 105 (“Specific Volume Modification”), the target specific volume indicated by reference as
Figure 00000031
[ b , t ], can be calculated from the specific volume from SL 104 (Fig. 7) in various ways, depending on the desired application of the entire device or sequence of operations. As described in more detail below, the target specific volume can be calculated using a scale factor α , for example, in the case of adjusting the volume level. See equation 16 below and its associated description. In the case of automatic gain control (AGC) and dynamic range control (DRC), the target specific volume can be calculated using the ratio of the desired output volume to the input volume. See equations 17 and 18 below and their associated descriptions. In the case of dynamic correction, the target specific loudness can be calculated using the dependence set forth in equation 23 and its associated description.

Решатель коэффициентов усиления, 106Gain Solver, 106

В этом примере для каждой полосы b и каждого интервала t времени, Решатель коэффициентов усиления, 106, принимает в качестве своих входных сигналов сглаженную накачку

Figure 00000032
[b, t] и целевую удельную громкость
Figure 00000033
[b, t] и формирует коэффициенты G[b, t] усиления, используемые впоследствии для модификации аудио. С допущением, что функция Ψ{·} представляет нелинейное преобразование из накачки в удельную громкость, из условия чтобыIn this example, for each band b and each time interval t , the Gain Solver, 106, receives a smooth pump as its input signal
Figure 00000032
[ b , t ] and target specific volume
Figure 00000033
[ b , t ] and forms the gain factors G [ b , t ], which are subsequently used to modify the audio. Assuming that the function Ψ {·} represents a nonlinear transformation from pump to specific loudness, so that

Figure 00000034
Figure 00000034

Решатель коэффициентов усиления находит G[b, t], так чтоThe gain solver finds G [ b , t ], so that

Figure 00000035
Figure 00000035

Решатели коэффициентов усиления, 106, определяют зависящие от частоты и времени коэффициенты усиления, которые, когда применяются к исходной накачке, дают в результате громкость, которая в соответствии с идеалом равна требуемой целевой удельной громкости. На практике, Решатели коэффициентов усиления определяют зависящие от часты и времени коэффициенты усиления, которые, когда применяются к варианту в частотной области звукового сигнала, дают в результате модификацию звукового сигнала, для того чтобы уменьшать разность между его удельной громкостью и целевой удельной громкостью. Умозрительно модификация является такой, что модифицированный звуковой сигнал имеет удельную громкость, которая является хорошим приближением целевой удельной громкости. Решение для уравнения 14a может быть реализовано многообразием способов. Например, если существует отражающее ряд решений математическое выражение для инверсии удельной громкости, представленной посредством Ψ-1{·}, то коэффициенты усиления могут вычисляться непосредственно перекомпоновкой уравнения 14a:Gain solvers, 106, determine frequency and time-dependent gain factors, which, when applied to the initial pump, result in a volume that is ideally equal to the desired target specific volume. In practice, Gain Solvers determine the frequency and time-dependent gain factors that, when applied to a variation in the frequency domain of the audio signal, result in a modification of the audio signal in order to reduce the difference between its specific loudness and target specific loudness. Suspiciously, the modification is such that the modified sound signal has a specific volume, which is a good approximation of the target specific volume. The solution to equation 14a can be implemented in a variety of ways. For example, if there is a mathematical expression reflecting a number of solutions for the inversion of the specific volume represented by Ψ -1 {·}, then the gain can be calculated directly by rearranging equation 14a:

Figure 00000036
Figure 00000036

В качестве альтернативы, если отражающего ряд решений математического выражения для Ψ-1{·} не существует, может использоваться итерационный подход, в котором в течение каждой итерации уравнение 14a оценивается с использованием текущей оценки коэффициентов усиления. Результирующая удельная громкость сравнивается с требуемой целевой, и коэффициенты усиления обновляются на основании ошибки. Если коэффициенты усиления обновляются надлежащим образом, они будут сходиться к требуемому решению. Другой способ заключает в себе предварительное вычисление функции Ψ-1{·} для диапазона значений накачки в каждой полосе, чтобы создавать справочную таблицу. Из этой справочной таблицы получают приближение обратной функции Ψ-1{·}, а коэффициенты усиления, в таком случае, могут вычисляться из уравнения 14b. Как упомянуто ранее, целевая удельная громкость может быть представлена масштабированием удельной громкости;Alternatively, if there is no reflective series of solutions for the mathematical expression for Ψ -1 {·}, an iterative approach can be used in which, during each iteration, equation 14a is estimated using the current gain estimate. The resulting specific volume is compared with the desired target, and the gain is updated based on the error. If the gains are updated properly, they will converge to the desired solution. Another method involves pre-calculating the function { -1 {·} for the range of pump values in each strip to create a look-up table. An approximation of the inverse function { -1 {·} is obtained from this look-up table, and the amplification factors, in this case, can be calculated from equation 14b. As mentioned earlier, the target specific volume can be represented by scaling the specific volume;

Figure 00000037
Figure 00000037

Подстановка уравнения 13 в 14c, а затем, 14c в 14b дает альтернативное выражение для коэффициентов усиления:Substituting equation 13 into 14c and then 14c into 14b gives an alternative expression for the gains:

Figure 00000038
Figure 00000038

Мы видим, что коэффициенты усиления могут безукоризненно выражаться в качестве функции накачки

Figure 00000039
[b, t] и масштабирования Ξ [b, t] удельной громкости. Поэтому, коэффициенты могут вычисляться посредством оценки по 14d или эквивалентной справочной таблицы без явного вычисления когда-либо удельной громкости или целевой удельной громкости в качестве промежуточных значений. Однако, эти значения вычисляются неявно благодаря использованию уравнения 14d. Могут быть изобретены другие эквивалентные способы для вычисления параметров модификации через явное или неявное вычисление удельной громкости и целевой удельной громкости, и это изобретение подразумевается покрывающим все такие способы.We see that the gains can be perfectly expressed as a pump function
Figure 00000039
[ b , t ] and scaling Ξ [ b , t ] specific volume. Therefore, the coefficients can be calculated by estimating from 14d or an equivalent lookup table without explicitly calculating the ever specific loudness or target specific loudness as intermediate values. However, these values are calculated implicitly by using equation 14d. Other equivalent methods can be invented for calculating the modification parameters by explicitly or implicitly calculating the specific volume and the target specific volume, and this invention is intended to cover all such methods.

Гребенка фильтров синтеза, 110Synthesis Filter Comb, 110

Как описано выше, Гребенка фильтров анализа, 100, может быть эффективно реализована благодаря использованию кратковременного дискретного преобразования Фурье (STDFT) или модифицированного дискретного косинусного преобразования, а STDFT или MDCT могут использоваться подобным образом для реализации Гребенки фильтров синтеза, 110. Более точно, с допущением, что X[k, t] представляет STDFT или MDCT входного аудио, как определено ранее, STDFT или MDCT обработанного (модифицированного) аудио в Гребенке фильтров синтеза, 110, могут рассчитываться в качествеAs described above, the Analysis Filter Comb, 100, can be efficiently implemented using either the Short-Term Discrete Fourier Transform (STDFT) or the Modified Discrete Cosine Transform, and STDFT or MDCT can be used in a similar way to implement the Synthesis Filter Comb, 110. More precisely, with the assumption that X [ k , t ] represents the STDFT or MDCT of the input audio, as previously defined, the STDFT or MDCT of the processed (modified) audio in the Synthesis Filter Comb, 110, can be calculated as

Figure 00000040
Figure 00000040

где S b[k] - характеристика фильтра синтеза, ассоциативно связанная с полосой b, а d - задержка, ассоциативно связанная с блоком 109 задержки на фиг.7. Форма фильтров S b[k] синтеза может выбираться такой же, как фильтры, используемые в гребенке фильтров анализа, H b[k], или они могут модифицироваться, чтобы обеспечивать безупречную реконструкцию в отсутствии любой модификации коэффициентами усиления (то есть когда G[b, t]=1). Конечное обработанное аудио, в таком случае, может формироваться посредством обратного преобразования Фурье или модифицированного косинусного преобразования X[k, t] и синтеза с добавлением перекрытия, как знакомо специалисту в данной области техники.where S b [ k ] is the synthesis filter characteristic associated with band b , and d is the delay associated with delay unit 109 in FIG. 7. The shape of the synthesis filters S b [ k ] can be selected to be the same as the filters used in the analysis filter bank, H b [ k ], or they can be modified to provide flawless reconstruction in the absence of any modification by amplification factors (that is, when G [ b , t ] = 1). The final processed audio, in this case, can be formed by the inverse Fourier transform or the modified cosine transform X [ k , t ] and synthesis with the addition of overlapping, as is familiar to a person skilled in the art.

Целевая удельная громкостьTarget specific volume

Поведение компоновок, воплощающих аспекты изобретения, таких как примеры по фиг.1-7, главным образом, диктуется образом действий, которым рассчитывается целевая удельная громкость

Figure 00000041
[b, t]. Хотя изобретение не ограничено никакими конкретными функцией или обратной функцией для расчета целевой удельной громкости, несколько таких функций и подходящих применений для них будут описаны далее.The behavior of arrangements embodying aspects of the invention, such as the examples of FIGS. 1-7, is mainly dictated by the manner in which the target specific volume is calculated
Figure 00000041
[ b , t ]. Although the invention is not limited to any specific function or inverse function for calculating the target specific volume, several such functions and suitable applications for them will be described later.

Независящая от времени и независящая от частоты функция, пригодная для регулировки громкостиTime-independent and frequency-independent function suitable for volume control

Стандартный регулятор громкости настраивает громкость звукового сигнала применением широкополосного коэффициента усиления к аудио. Обычно коэффициент усиления привязан к ручке или ползунку, которые настраиваются пользователем до тех пор, пока громкость аудио не находится на требуемом уровне. Аспект настоящего изобретения предусматривает более психоакустически совместимый способ реализации такого регулятора. Согласно этому аспекту изобретения предпочтительнее, чем обладание широкополосным коэффициентом усиления, привязанным к регулятору уровня громкости, который имеет результатом изменение коэффициента усиления на одинаковую величину по всем полосам частот, которое может вызывать изменение в воспринимаемом спектре, коэффициент масштабирования удельной громкости взамен ассоциативно связан с настройкой регулятора уровня громкости, с тем чтобы коэффициент усиления на каждой из многочисленных полос частот изменялся на величину, которая учитывает модель человеческого слуха, так что в соответствии с идеалом нет никакого изменения воспринимаемого спектра. В контексте этого аспекта изобретения и примерного его применения «постоянный» или «независящий от времени» подразумеваются предусматривающими изменения в настройке коэффициента масштабирования регулятора уровня громкости, время от времени, например, пользователем. Такая «независимость от времени» иногда указывается ссылкой как «почти независящий от времени», «квазистационарный», «кусочно независящий от времени», «кусочно стационарный», «ступенчато независящий от времени» и «ступенчато стационарный». При условии такого масштабного коэффициента, α, целевая удельная громкость может рассчитываться в качестве измеренной удельной громкости, умноженной на α.A standard volume control adjusts the volume of the audio signal by applying wideband gain to audio. Typically, the gain is tied to a knob or slider that the user adjusts until the audio volume is at the desired level. An aspect of the present invention provides a more psychoacoustic compatible method for implementing such a regulator. According to this aspect of the invention, it is preferable to have a broadband gain associated with a volume control that results in a change in the gain by the same amount across all frequency bands, which can cause a change in the perceived spectrum, the specific volume scaling factor is instead associated with adjusting the control volume level so that the gain on each of the multiple frequency bands changes by an amount that I used to read a model of the human ear, so that in accordance with the ideal there is no change in the perceived spectrum. In the context of this aspect of the invention and its approximate application, “permanent” or “time independent” is intended to include changes to the scaling factor of the volume control, from time to time, for example, by the user. Such “time independence” is sometimes referred to as “almost time-independent”, “quasistationary”, “piecewise time-independent”, “piecewise stationary”, “step-wise time-independent” and “step-wise stationary”. Given such a scale factor, α , the target specific volume can be calculated as the measured specific volume multiplied by α .

Figure 00000042
Figure 00000042

Так как полная громкость L[t] является суммой удельной громкости N[b, t] по всем полосам b, вышеприведенная модификация также масштабирует полную громкость коэффициентом α, но она делает это способом, который сохраняет одинаковый воспринимаемый спектр в конкретный момент времени для изменений настройки регулятора уровня громкости. Другими словами, в любой конкретный момент времени изменение настройки регулятора уровня громкости имеет результатом изменение воспринимаемой громкости, но никакого изменения в воспринимаемом спектре модифицированного аудио в сравнении с воспринимаемым спектром немодифицированного аудио. Фиг.13a изображает результирующие многополосные коэффициенты усиления G[b, t] по всем полосам «b» в конкретный момент времени «t», когда α=0,25 для звукового сигнала, состоящего из женской речи. Для сравнения, также начерчен широкополосный коэффициент усиления, требуемый для масштабирования исходной полной громкости посредством 0,25 (горизонтальная линия), как в стандартном регуляторе уровня громкости. Многополосный коэффициент G[b, t] увеличивается в полосах низких и высоких частот по сравнению с полосами средних частот. Это совместимо с кривыми равной громкости, указывающими, что человеческое ухо менее чувствительно на низких и высоких частотах.Since the full volume L [ t ] is the sum of the specific volume N [ b , t ] over all b bands, the above modification also scales the full volume with the coefficient α , but it does this in a way that preserves the same perceived spectrum at a particular point in time for setting changes volume control. In other words, at any given time, a change in the volume control setting results in a change in the perceived volume, but no change in the perceived spectrum of the modified audio compared to the perceived spectrum of unmodified audio. Fig. 13a depicts the resulting multiband gains G [ b , t ] over all bands “ b ” at a particular point in time “ t ” when α = 0.25 for an audio signal consisting of female speech. For comparison, the broadband gain factor required to scale the original full volume with 0.25 (horizontal line) is also plotted, as in the standard volume control. The multiband coefficient G [ b , t ] increases in the low and high frequency bands compared to the mid-frequency bands. This is compatible with equal volume curves indicating that the human ear is less sensitive at low and high frequencies.

Фиг.13b изображает удельную громкость для исходного звукового сигнала, модифицированного широкополосным коэффициентом усиления сигнала, который модифицировался в соответствии с регулятором уровня громкости предшествующего уровня техники, и модифицированного многополосным коэффициентом усиления сигнала, который модифицировался в соответствии с этим аспектом изобретения. Удельная громкость модифицированного многополосным коэффициентом усиления сигнала является таковой у исходного сигнала, масштабированной на 0,25. Удельная громкость модифицированного широкополосным коэффициентом усиления сигнала изменила его спектральную форму по отношению к таковой у исходного немодифицированного сигнала. В этом случае удельная громкость, в относительном смысле, теряет громкость как на низких, так и на высоких частотах. Это воспринимается как потускнение аудио по мере того, как понижается его уровень громкости, проблема, которая не возникает при многополосном модифицированном сигнале, чья громкость регулируется коэффициентами усиления, полученными в области громкости восприятия.Fig.13b depicts the specific volume for the original audio signal modified with a wideband gain of the signal, which was modified in accordance with the volume control of the prior art, and modified with a multi-band gain of the signal, which was modified in accordance with this aspect of the invention. The specific loudness of a signal modified with a multi-band gain is that of the original signal, scaled by 0.25. The specific volume of a signal modified by a broadband gain has changed its spectral shape with respect to that of the original unmodified signal. In this case, the specific volume, in a relative sense, loses volume at both low and high frequencies. This is perceived as dimming the audio as its volume level decreases, a problem that does not occur with a multi-band modified signal whose volume is controlled by gain factors obtained in the perception loudness region.

Наряду с искажением воспринимаемого спектрального баланса, ассоциативно связанным с традиционным регулятором уровня громкости, существует вторая проблема. Свойство восприятия громкости, которое отражается в модели громкости, отраженной в уравнениях 11a-11d, состоит в том, что громкость сигнала на любой частоте уменьшается быстрее по мере того, как уровень сигнала подходит к порогу слышимости. Как результат электрическое затухание, требуемое для передачи такого же затухания громкости более тихому сигналу, является меньшим, чем таковое, требуемое для более громкого сигнала. Традиционный регулятор уровня громкости придает постоянное затухание независимо от уровня сигнала, а потому тихие сигналы становятся «слишком тихими» по отношению к более громким сигналам по мере того, как уровень громкости убавляется. Во многих случаях это имеет следствием потерю деталей в аудио. Рассмотрим запись кастаньет в реверберирующем помещении. В такой записи основной «удар» кастаньет слишком громок по сравнению с реверберирующими эхо-сигналами, но это реверберирующие эхо-сигналы, которые передают размер помещения. По мере того как уровень громкости убавляется традиционным регулятором уровня громкости, реверберирующие эхо-сигналы становятся тише относительно основного удара и в итоге исчезают ниже порога слышимости, оставляя «сухое» звучание кастаньет. Основанный на громкости регулятор уровня громкости предотвращает исчезновение более тихих частей записей посредством подъема более тихих реверберирующих частей записи относительно более громкого основного удара, так что относительная громкость между этими частями остается постоянной. Для того чтобы достичь этого эффекта, многополосные коэффициенты усиления G[b, t] должны меняться во времени со скоростью, которая соизмерима с человеческим временным разрешением восприятия громкости. Так как многополосные коэффициенты усиления G[b, t] вычисляются в качестве функции сглаженной накачки

Figure 00000043
[b, t], выбор постоянных λ b времени в уравнении 8 предписывает, насколько быстро коэффициенты усиления могут меняться во времени в каждой полосе b. Как упомянуто ранее, эти постоянные времени могут выбираться пропорциональными времени интегрирования человеческого восприятия громкости в пределах полосы b и, таким образом, давать надлежащее изменение G[b, t] со временем. Должно быть отмечено, что, если временные ограничения выбираются ненадлежащим образом (слишком быстрыми либо слишком медленными), то неприятные по восприятию артефакты могут привноситься в обработанное аудио.Along with the distortion of the perceived spectral balance associated with the traditional volume control, there is a second problem. The property of loudness perception, which is reflected in the loudness model reflected in equations 11a-11d, is that the volume of the signal at any frequency decreases faster as the signal level approaches the threshold of audibility. As a result, the electrical attenuation required to transmit the same volume attenuation to a quieter signal is less than that required for a louder signal. The traditional volume control gives constant attenuation regardless of signal level, and therefore quiet signals become “too quiet” with respect to louder signals as the volume level decreases. In many cases, this results in loss of detail in the audio. Consider a castanet recording in a reverb room. In such a recording, the main “hit” castanet is too loud compared to the reverberating echoes, but these are reverberating echoes that convey the size of the room. As the volume level is reduced by the traditional volume control, the reverberating echoes become quieter with respect to the main beat and eventually disappear below the audibility threshold, leaving a “dry” sound castanet. The volume-based volume control prevents the quieter parts of the recordings from disappearing by raising the quieter reverberating parts of the recording with respect to the louder main beat, so that the relative volume between these parts remains constant. In order to achieve this effect, the multi-band gains G [ b , t ] must change in time at a rate that is commensurate with the human temporal resolution of loudness perception. Since the multiband gains G [ b , t ] are calculated as a function of the smoothed pump
Figure 00000043
[ b , t ], the choice of time constants λ b in equation 8 prescribes how quickly the gains can change in time in each band b. As mentioned earlier, these time constants can be selected proportional to the integration time of human perception of loudness within the band b and, thus, give a proper change in G [ b , t ] over time. It should be noted that if time constraints are chosen improperly (too fast or too slow), then artifacts that are unpleasant in perception can be introduced into the processed audio.

Независящая от времени и зависящая от частоты функция, пригодная для постоянной амплитудной коррекцииTime-independent and frequency-dependent function suitable for continuous amplitude correction

В некоторых применениях кто-то может пожелать применять постоянную амплитудную коррекцию восприятия к аудио, в каковом случае целевая удельная громкость может вычисляться применением независящего от времени, но зависящего от частоты масштабного коэффициента Θ[b], как в зависимостиIn some applications, someone may wish to apply a constant amplitude correction of perception to audio, in which case the target specific loudness can be calculated by applying a time-independent but frequency-dependent scale factor Θ [ b ], as a function of

Figure 00000044
Figure 00000044

в которой

Figure 00000045
[b, t] - целевая удельная громкость, N[b, t] - удельная громкость звукового сигнала, b - показатель частоты, а t - показатель времени. В этом случае масштабирование может изменяться от полосы к полосе. Такое применение, например, может быть полезным для подчеркивания части спектра, доминируемой речевыми частотами для того, чтобы повышать разборчивость.wherein
Figure 00000045
[ b , t ] is the target specific volume, N [ b , t ] is the specific volume of the audio signal, b is a frequency indicator, and t is a time indicator. In this case, the scaling can vary from strip to strip. Such an application, for example, may be useful in emphasizing the portion of the spectrum dominated by speech frequencies in order to increase intelligibility.

Независящая от частоты и зависящая от времени функция для автоматической регулировки усиления и регулировки динамического диапазонаFrequency-independent and time-dependent function for automatic gain control and dynamic range adjustment

Технологии автоматической регулировки усиления и регулировки динамического диапазона (АРУ и DRC) широко известны в области звуковой обработки. В абстрактном смысле обе технологии измеряют уровень звукового сигнала некоторым образом, а затем модифицируют сигнал коэффициентом усиления на величину, которая является функцией измеренного уровня. Для случая АРУ сигнал модифицируется коэффициентом усиления, так что его измеренный уровень ближе к выбранному пользователем контрольному уровню. С помощью DRC сигнал модифицируется коэффициентом усиления, так что диапазон измеренного уровня сигнала преобразуется в некоторый требуемый диапазон. Например, кто-то может пожелать сделать тихие части аудио более громкими, а громкие части более тихими. Такая система описана Робинсоном и Гундри (Charles Robinson and Kenneth Gundry, «Dynamic Range Control via Metadata», 107th Convention of the AES, Preprint 5028, September 24-27, 1999, New York (Чарльз Робинсон и Кеннет Гундри, «Регулировка динамического диапазона посредством метаданных», 107ая конвенция AES, препринт 5028, 24-27 сентября 1999 года, Нью-Йорк)). Традиционные реализации АРУ и DRC обычно используют простое измерение уровня звукового сигнала, такое как сглаженная пиковая или среднеквадратическая (rms) амплитуда, для получения модификации коэффициента усиления. Такие простые измерения до некоторой степени могут коррелировать с воспринимаемой громкостью аудио, но аспекты настоящего изобретения предусматривают более значимые по восприятию АРУ и DRC посредством модификаций коэффициентом усиления с измерением громкости на основании психоакустической модели. К тому же многие традиционные системы АРУ и DRC применяют модификацию коэффициента усиления с помощью широкополосного коэффициента усиления, тем самым навлекая на себя вышеупомянутые тембровые (спектральные) искажения в обработанном аудио. Аспекты настоящего изобретения, с другой стороны, используют многополосный коэффициент усиления для придания формы удельной громкости некоторым образом, который снижает или минимизирует такие искажения.Technologies for automatic gain control and dynamic range control (AGC and DRC) are widely known in the field of sound processing. In an abstract sense, both technologies measure the level of the audio signal in some way, and then modify the signal with a gain by a value that is a function of the measured level. For the AGC case, the signal is modified by the gain, so that its measured level is closer to the control level selected by the user. Using the DRC, the signal is modified by the gain, so that the range of the measured signal level is converted to some desired range. For example, someone might want to make the quieter parts of the audio louder and the louder parts more quiet. Such a system is described by Robinson and Kenneth Gundry (“Dynamic Range Control via Metadata”, 107 th Convention of the AES, Preprint 5028, September 24-27, 1999, New York (Charles Robinson and Kenneth Gundry, “Dynamic range by metadata ", the AES 107 th Convention, preprint 5028, 24-27 September 1999, New York)). Conventional AGC and DRC implementations typically use simple audio level measurement, such as a smoothed peak or rms amplitude, to produce a gain modification. Such simple measurements can to some extent correlate with the perceived audio volume, but aspects of the present invention provide more perceptible AGCs and DRCs through gain modifications with volume measurements based on the psychoacoustic model. In addition, many conventional AGC and DRC systems use gain modification using wideband gain, thereby entailing the aforementioned tonal (spectral) distortions in the processed audio. Aspects of the present invention, on the other hand, use a multi-band gain to shape the specific volume in some way that reduces or minimizes such distortion.

Оба применения, АРУ и DRC, применяющие аспекты настоящего изобретения, характеризуются функцией, которая преобразует или отображает входную широкополосную громкость L i[t] в требуемую выходную широкополосную громкость L o[t], где громкость измеряется в единицах громкости восприятия, таких как соны. Входная широкополосная громкость L i[t] является функцией удельной громкости N [b, t] входного звукового сигнала. Хотя она может быть такой же, как полная громкость входного звукового сигнала, она может быть сглаженным во времени вариантом полной громкости звукового сигнала.Both applications, AGC and DRC, applying aspects of the present invention, are characterized by a function that converts or maps the input broadband volume L i [ t ] to the desired output broadband volume L o [ t ], where the volume is measured in units of sensory volume, such as sleep. The input broadband volume L i [ t ] is a function of the specific volume N [ b , t ] of the input audio signal . Although it may be the same as the full volume of the input audio signal, it may be a time-smoothed version of the full volume of the audio signal.

Фиг.14a и 14b изображает примеры функций отображения, типичных для АРУ и DRC соответственно. При условии такого отображения, в котором L o[t] является функцией от L i[t], целевая удельная громкость может рассчитываться в качествеFiga and 14b depict examples of display functions typical of the AGC and DRC, respectively. Under the condition of such a display in which L o [ t ] is a function of L i [ t ], the target specific volume can be calculated as

Figure 00000046
Figure 00000046

Исходная удельная громкость N[b, t] звукового сигнала просто масштабируется отношением требуемой выходной широкополосной громкости ко входной широкополосной громкости, чтобы давать выходную удельную громкость

Figure 00000047
[b, t]. Для системы АРУ входная широкополосная громкость L i[t] обычно должна быть показателем долговременной полной громкости аудио. Это может достигаться сглаживанием полной громкости L[t] по времени для формирования L i[t].The original specific volume N [ b , t ] of the audio signal is simply scaled by the ratio of the desired output broadband volume to the input broadband volume to give an output specific volume
Figure 00000047
[ b , t ]. For an AGC system, the input broadband volume L i [ t ] should usually be an indicator of the long-term full audio volume. This can be achieved by smoothing the full volume L [ t ] in time to form L i [ t ].

По сравнению с АРУ система DRC реагирует на более кратковременные изменения в громкости сигнала, а потому L i[t] может просто делаться равной L[t]. Как результат масштабирование удельной громкости, заданное посредством L o[t]/L i[t], может быстро флуктуировать, приводя к нежелательным артефактам в воспринимаемом аудио. Одним из типичных артефактов является слышимая модуляция части частотного спектра некоторой другой относительно несвязанной частью спектра. Например, подборка классической музыки могла бы содержать высокие частоты, доминируемые продолжительной струнной нотой, наряду с тем, что низкие частоты содержат громко громыхающие литавры. Всякий раз, когда ударяют литавры, общая громкость L i[t] повышается, и система DRC применяет затухание к взятой в целом удельной громкости. Струны, в таком случае, слышатся «опустошаемыми» и наполняемыми в зависимости от литавров. Такая перекрестная пульсация в спектре также является проблемой при традиционной системе с широкополосной DRC, и типичное решение влечет за собой применение DRC независимо по отношению к разным полосам частот. Система, раскрытая здесь, по своей природе является многополосной вследствие гребенки фильтров и расчета удельной громкости, которые применяют модель громкости восприятия, а потому модификация системы DRC для работы многополосным образом в соответствии с аспектами настоящего изобретения является относительно простой и описана далее.Compared to the AGC, the DRC system responds to shorter-term changes in the signal volume, and therefore L i [ t ] can simply be made equal to L [ t ]. As a result, the specific volume scaling specified by L o [ t ] / L i [ t ] can quickly fluctuate, leading to undesirable artifacts in the perceived audio. One typical artifact is the audible modulation of part of the frequency spectrum by some other relatively unrelated part of the spectrum. For example, a selection of classical music might contain high frequencies dominated by a long stringed note, while low frequencies contain loudly rumbling timpani. Whenever the timpani strike, the overall volume L i [ t ] rises, and the DRC system applies the attenuation to the overall specific volume. Strings, in this case, are heard “empty” and filled, depending on the timpani. Such cross-pulsation in the spectrum is also a problem in a traditional system with wideband DRC, and a typical solution entails the use of DRC independently with respect to different frequency bands. The system disclosed here is inherently multi-band due to a filter bank and specific volume calculation, which apply the perception loudness model, and therefore, modifying the DRC system to operate in a multi-band manner in accordance with aspects of the present invention is relatively simple and will be described later.

Зависящая от времени и зависящая от частоты функция, пригодная для регулировки динамического диапазонаTime-dependent and frequency-dependent function suitable for dynamic range adjustment

Система DRC может быть расширена для работы многополосным или зависящим от частоты образом предоставлением входной и выходной громкости возможности независимо меняться с полосой b. Эти значения многополосной громкости указываются ссылкой как L i[b, t] и L o[b, t], и в таком случае целевая удельная громкость может быть задана согласноThe DRC system can be expanded to operate in a multi-band or frequency-dependent manner by providing input and output volume capabilities to independently vary with band b . These multiband loudness values are referred to as L i [ b , t ] and L o [ b , t ], in which case the target specific loudness can be set according to

Figure 00000048
Figure 00000048

где L o[b, t] была рассчитана по или отображена из L i[b, t], как проиллюстрировано на фиг.14b, но независимо для каждой полосы b. Входная многополосная громкость L i[b, t] является функцией удельной громкости N[b, t] входного звукового сигнала. Хотя она может быть такой же, как удельная громкость входного звукового сигнала, она может быть сглаженным во времени и/или сглаженным по частоте вариантом удельной громкости звукового сигнала.where L o [ b , t ] was calculated from or mapped from L i [ b , t ], as illustrated in FIG. 14b, but independently for each band b . Multiband input loudness L i [b, t] is a function of the specific loudness N [b, t] of the input audio signal. Although it may be the same as the specific volume of the input audio signal, it may be time-smoothed and / or frequency-smoothed version of the specific volume of the audio signal.

Наиболее простой способ расчета L i[b, t] состоит в том, чтобы устанавливать ее равной удельной громкости N[b, t]. В этом случае DRC скорее выполняется независимо в каждой полосе в гребенке слуховых фильтров модели громкости восприятия, чем в соответствии с одинаковым отношением входной к выходной громкости для всех полос, как только что описано выше под заголовком «Независящая от частоты и зависящая от времени функция, пригодная для автоматической регулировки усиления и регулировки динамического диапазона». В практическом варианте осуществления, применяющем 40 полос, разнесение этих полос по оси частот является относительно частым, для того чтобы давать точный показатель громкости. Однако применение масштабного коэффициента DRC независимо к каждой полосе может заставлять обработанное аудио звучать «раздробленно». Чтобы избежать этой проблемы, можно предпочесть рассчитывать L i[b, t] сглаживанием удельной громкости N[b, t] по полосам, так что применяемая величина DRC от одной полосы к следующей не меняется настолько радикально. Это может достигаться определением фильтра Q(b) сглаживания полос, а затем сглаживанием удельной громкости по всем полосам c согласно стандартной сверточной сумме:The simplest way to calculate L i [ b , t ] is to set it equal to the specific volume N [ b , t ] . In this case, the DRC is rather performed independently in each band in the filter bank of the auditory perception model than in accordance with the same input to output volume ratio for all bands, as just described above under the heading “Frequency-independent and time-dependent function suitable for automatic gain control and dynamic range adjustment. " In a practical embodiment employing 40 bands, spacing of these bands along the frequency axis is relatively frequent in order to give an accurate measure of volume. However, applying the DRC scale factor independently to each band can cause the processed audio to sound “fragmented”. To avoid this problem, one may prefer to calculate L i [ b , t ] by smoothing the specific volume N [ b , t ] in the bands, so that the applied DRC from one band to the next does not change so radically. This can be achieved by determining the filter Q ( b ) to smooth the bands, and then smooth the specific volume for all bands c according to the standard convolution sum:

Figure 00000049
Figure 00000049

при этом N[c, t] - удельная громкость звукового сигнала, а Q(b-c) - сдвигаемая по полосам характеристика сглаживающего фильтра. Фиг.15 изображает один из примеров такого сглаживающего полосы фильтра.moreover, N [ c , t ] is the specific volume of the sound signal, and Q ( bc ) is the band-shifted characteristic of the smoothing filter. Fig. 15 shows one example of such a smoothing filter band.

Если функция DRC, которая рассчитывает L i[b, t] в качестве функции от L o[b, t], является фиксированной для каждой полосы b, то тип изменения, вносимого в каждую полосу удельной громкости N[b, t], будет меняться в зависимости от спектра аудио, являющегося обрабатываемым, даже если общая громкость сигнала остается той же самой. Например, звуковой сигнал с громким басом и тихим сопрано может содержать бас срезанным, а сопрано повышенным. Сигнал с тихим басом и громким сопрано может заставлять происходить противоположное. Результирующим эффектом является изменение тембра или воспринимаемого спектра аудио, а это может быть желательным в определенных применениях.If the DRC function, which calculates L i [ b , t ] as a function of L o [ b , t ], is fixed for each band b , then the type of change introduced into each band of specific loudness N [ b , t ] will be vary depending on the spectrum of the audio being processed, even if the overall volume of the signal remains the same. For example, an audio signal with loud bass and a quiet soprano may contain bass cut and soprano increased. A signal with quiet bass and a loud soprano can cause the opposite to happen. The net effect is a change in the timbre or perceived spectrum of the audio, and this may be desirable in certain applications.

Однако кто-то может пожелать выполнять многополосную DRC, не модифицируя нормальный воспринимаемый спектр аудио. Кто-то мог пожелать, чтобы средняя модификация в каждой полосе была приблизительно одинаковой наряду с прежним предоставлением возможности кратковременных изменений модификаций для независимой работы между или среди полос. Желательный эффект может достигаться вынуждением среднего поведения DRC в каждой полосе быть таким же, как таковое у некоторого среднего эталонного поведения. Можно выбирать это эталонное поведение в качестве требуемого DRC для широкополосной входной громкости L i[t]. Пусть функция L o[t] = DRC{L i[t]} представляет требуемое отображение DRC для широкополосной громкости. В таком случае пусть

Figure 00000050
[b, t] представляет усредненный по времени вариант многополосной входной громкости L i[b, t]. Многополосная выходная громкость в таком случае может рассчитываться в качествеHowever, someone may wish to perform multi-band DRC without modifying the normal perceived audio spectrum. Someone might wish that the average modification in each strip was approximately the same, along with the previous provision of the possibility of short-term modifications of the modifications for independent work between or among the bands. The desired effect can be achieved by forcing the average DRC behavior in each band to be the same as that of some average reference behavior. You can select this reference behavior as the desired DRC for the broadband input volume L i [ t ]. Let the function L o [ t ] = DRC { L i [t]} represent the desired DRC mapping for broadband volume. In this case, let
Figure 00000050
[ b , t ] represents a time-averaged version of the multiband input volume L i [ b , t ]. In this case, the multiband output volume can be calculated as

Figure 00000051
Figure 00000051

Отметим, что многополосная входная громкость сначала масштабируется, чтобы быть в таком же среднем диапазоне, как широкополосная входная громкость. Затем применяется функция DRC, предназначенная для широкополосной громкости. Наконец, результат подвергается уменьшению масштаба обратно, в средний диапазон многополосной громкости. С помощью этой формулировки многополосной DRC сохраняется пониженная спектральная пульсация наряду с одновременным сохранением среднего воспринимаемого спектра аудио.Note that the multiband input volume is first scaled to be in the same mid-range as the broadband input volume. Then, the DRC function for broadband volume is applied. Finally, the result is scaled back to the middle range of the multiband volume. With this multi-band DRC formulation, reduced spectral ripple is maintained while preserving the average perceived audio spectrum.

Зависящая от частоты и зависящая от времени функция, пригодная для динамической коррекцииFrequency-dependent and time-dependent function suitable for dynamic correction

Еще одним применением аспектов настоящего изобретения является преднамеренная трансформация зависящего от времени воспринимаемого спектра аудио в целевой независящий от времени спектр, по-прежнему наряду с сохранением исходного динамического диапазона аудио. На эту обработку могут указывать ссылкой как динамическую коррекцию (DEQ). При традиционной статической коррекции простая постоянная фильтрация применяется к аудио, для того чтобы изменять его спектр. Например, можно применять постоянный подъем баса и сопрано. Такая обработка не принимает во внимание текущий спектр аудио, а потому может быть неподходящей для некоторых сигналов, то есть сигналов, которые уже содержат относительно большую величину баса или сопрано. При DEQ спектр сигнала измеряется, и сигнал затем динамически модифицируется, для того чтобы трансформировать измеренный спектр в по существу статическую требуемую форму. Что касается аспектов настоящего изобретения, такая требуемая форма задается по полосам в гребенке фильтров и указывается ссылкой как EQ[b]. В практическом варианте осуществления измеренный спектр должен представлять среднюю спектральную форму аудио, которая может формироваться сглаживанием удельной громкости N[b, t] по времени. Сглаженную удельную громкость могут указывать ссылкой как

Figure 00000052
[b, t]. Как при многополосной DRC, кто-то может не пожелать, чтобы модификация DEQ радикально менялась от одной полосы к следующей, а потому функция сглаживания полос может применяться для формирования сглаженного по полосам спектра
Figure 00000053
[b, t]:Another application of aspects of the present invention is the deliberate transformation of a time-dependent perceived audio spectrum into a target time-independent spectrum, while still maintaining the original dynamic range of the audio. This processing may be referred to as dynamic correction (DEQ). In traditional static correction, simple constant filtering is applied to audio in order to change its spectrum. For example, you can apply a constant rise in bass and soprano. Such processing does not take into account the current spectrum of audio, and therefore may not be suitable for some signals, that is, signals that already contain a relatively large amount of bass or soprano. With DEQ, the spectrum of the signal is measured, and the signal is then dynamically modified in order to transform the measured spectrum into a substantially static desired shape. With regard to aspects of the present invention, such a desired shape is defined in stripes in the filter bank and is referred to as EQ [ b ]. In a practical embodiment, the measured spectrum should represent the average spectral shape of the audio, which can be formed by smoothing the specific volume N [ b , t ] over time. Smoothed specific volume may indicate as
Figure 00000052
[ b , t ]. As with multi-band DRC, someone might not want the DEQ modification to change radically from one band to the next, and therefore the band smoothing function can be used to form a band-smoothed spectrum
Figure 00000053
[ b , t ]:

Figure 00000054
Figure 00000054

Для того чтобы сохранить исходный динамический диапазон аудио, требуемый спектр EQ[b] должен быть нормализован, чтобы иметь такую же общую громкость, как измеренная спектральная форма, заданная посредством

Figure 00000053
[b, t]. Эту нормализованную спектральную форму могут указывать ссылкой как
Figure 00000053
EQ[b, t]:In order to maintain the original dynamic range of the audio, the required spectrumEq[b] Should be normalized to have the same overall loudness as the measured spectral shape given by
Figure 00000053
[b,t]. This normalized spectral shape may be referred to as
Figure 00000053
Eq[b,t]:

Figure 00000055
Figure 00000055

В заключение целевая удельная громкость рассчитывается в качествеIn conclusion, the target specific volume is calculated as

Figure 00000056
Figure 00000056

где β - заданный пользователем параметр, находящийся в диапазоне от нуля до единицы, указывающий степень DEQ, которая должна применяться. Глядя на уравнение 23, кто-то заметит, что когда β=0, исходная удельная громкость является немодифицированной, а когда β=1, удельная громкость масштабируется отношением требуемой спектральной формы к измеренной спектральной форме.where β is a user-specified parameter ranging from zero to one, indicating the degree of DEQ to be applied. Looking at equation 23, someone will notice that when β = 0, the initial specific volume is unmodified, and when β = 1, the specific volume is scaled by the ratio of the desired spectral form to the measured spectral form.

Один из удобных способов формирования требуемой спектральной формы EQ[b] предназначен, чтобы пользователь устанавливал ее равной

Figure 00000053
[b, t], которая измерена для некоторой части аудио, чей спектральный баланс находит приятным пользователь. В практическом варианте осуществления, например, как показанный на фиг.16, пользователь может снабжаться кнопкой или другим подходящим исполнительным механизмом 507, который, когда приведен в действие, вызывает фиксацию текущего показателя спектральной формы
Figure 00000053
[b, t] аудио, а затем сохраняет этот показатель в качестве предустановки (в Фиксации и хранении предустановки целевой удельной громкости, 506), которая позже может загружаться в EQ[b], когда задействована DEQ (как посредством выбора 508 предустановки). Фиг.16 - упрощенный вариант фиг.7, в котором только одна линия показана для представления многочисленных полос из Гребенки фильтров анализа, 100, в Гребенку фильтров синтеза, 110. Пример фиг.17 также предусматривает Модификацию удельной громкости (SL) динамической EQ, 505, которая обеспечивает модификацию в отношении удельной громкости, измеренной функцией или устройством 104, в соответствии с динамической коррекцией, как поясненная выше.One of the convenient ways to form the required spectral shape EQ [ b ] is designed so that the user sets it equal
Figure 00000053
[ b , t ], which is measured for some part of the audio whose spectral balance is pleasant to the user. In a practical embodiment, for example, as shown in FIG. 16, the user may be provided with a button or other suitable actuator 507, which, when activated, causes the current spectral shape to be locked.
Figure 00000053
[ b , t ] audio, and then saves this metric as a preset (in Fixing and storing the target specific volume preset, 506), which can later be loaded into EQ [ b ] when DEQ is enabled (as by selecting preset 508). FIG. 16 is a simplified version of FIG. 7, in which only one line is shown to represent multiple bands from the Analysis Filter Comb, 100, to the Synthesis Filter Comb, 110. The example of FIG. 17 also provides for Specific Volume (SL) Modification of the dynamic EQ, 505 , which provides a modification with respect to the specific volume measured by the function or device 104, in accordance with the dynamic correction, as explained above.

Комбинированная обработкаCombined processing

Кто-то может пожелать объединить всю описанную ранее обработку, включая регулировку уровня громкости (VC), АРУ, DRC и DEQ в единую систему. Так как каждая из этих последовательностей операций может быть представлена в качестве масштабирования удельной громкости, все из них легко объединяются, как изложено ниже:Someone may wish to combine all the processing described above, including volume control (VC), AGC, DRC and DEQ into a single system. Since each of these sequences of operations can be represented as a specific volume scaling, all of them are easily combined, as follows:

Figure 00000057
Figure 00000057

где Ξ*[b, t] представляет масштабные коэффициенты, ассоциативно связанные с последовательностью операций «*». Единый набор коэффициентов G[b, t] усиления затем может рассчитываться для целевой удельной громкости, который представляет комбинированную обработку.where Ξ * [ b , t ] represents the scale factors associated with the sequence of operations “*”. A single set of gain factors G [ b , t ] can then be calculated for the target specific volume, which represents the combined processing.

В некоторых случаях масштабные коэффициенты одной или комбинации последовательностей операций модификации громкости могут флуктуировать слишком быстро со временем и создавать артефакты в результирующем обработанном аудио. Поэтому может быть желательным сглаживать некоторые подмножества этих коэффициентов масштабирования. Вообще, масштабные коэффициенты из VC и DEQ равномерно меняются со временем, но может потребоваться сглаживание комбинации масштабных коэффициентов АРУ и DRC. Пусть комбинация этих масштабных коэффициентов представлена посредствомIn some cases, the scale factors of one or a combination of volume modification sequences can fluctuate too quickly over time and create artifacts in the resulting processed audio. Therefore, it may be desirable to smooth out some subsets of these scaling factors. In general, the scale factors from VC and DEQ vary uniformly over time, but smoothing the combination of AGC and DRC scale factors may be required. Let a combination of these scale factors be represented by

Figure 00000058
Figure 00000058

Основная идея за сглаживанием состоит в том, что комбинированные масштабные коэффициенты должны быстро реагировать, когда удельная громкость повышается, и что масштабные коэффициенты должны сильнее сглаживаться, когда удельная громкость уменьшается. Эта идея соответствует широко известной практике использования быстрого наступления и медленного освобождения в конструкции звуковых компрессоров. Надлежащие постоянные времени для сглаживания масштабных коэффициентов могут рассчитываться сглаживанием по времени сглаженного по полосам варианта удельной громкости. Прежде всего вычисляется сглаженный по полосам вариант удельной громкости:The main idea behind anti-aliasing is that combined scale factors should respond quickly when the specific volume increases, and that scale factors should smooth out more when the specific volume decreases. This idea is in line with the well-known practice of using rapid onset and slow release in the design of sound compressors. The proper time constants for smoothing the scale factors can be calculated by time-smoothing of the band-specific version of the specific volume. First of all, the specific volume variant smoothed over the bands is calculated:

Figure 00000059
Figure 00000059

при этом N[c, t] - удельная громкость звукового сигнала, а Q(b-c) - сдвигаемая по полосам характеристика сглаживающего фильтра, как в уравнении 19, приведенном выше.wherein N [ c , t ] is the specific volume of the sound signal, and Q ( bc ) is the band-shifted characteristic of the smoothing filter, as in equation 19 above.

Сглаженный по времени вариант этой сглаженной по полосам удельной громкости затем рассчитывается в качествеA time-smoothed version of this band-smoothed specific volume is then calculated as

Figure 00000060
Figure 00000060

где зависимый от полосы коэффициент сглаживания λ[b, t] задан согласноwhere the band-dependent smoothing coefficient λ [ b , t ] is set according to

Figure 00000061
Figure 00000061

Сглаженные комбинированные масштабные коэффициенты затем рассчитываются какThe smoothed combined scale factors are then calculated as

Figure 00000062
Figure 00000062

где λ M[b, t] - сглаженный по полосам вариант λ[b, t]:where λ M [ b , t ] is the band-smoothed version of λ [ b , t ]:

Figure 00000063
Figure 00000063

Сглаживание по полосам коэффициентов сглаживания предохраняет сглаженные по времени масштабные коэффициенты от радикального изменения по полосам. Описанное сглаживание по времени и полосам масштабных коэффициентов имеет результатом обработанное аудио, содержащее меньшее количество нежелательных относящихся к восприятию артефактов.Smoothing by bands of smoothing coefficients prevents time-smoothed scale factors from drastically changing by bands. The described smoothing in time and bands of scale factors results in processed audio containing fewer undesirable perceptual artifacts.

Компенсация шумаNoise compensation

Во многих средах воспроизведения аудио существует фоновый шум, который мешает аудио, которое желает прослушивать слушатель. Например, слушатель в движущемся автомобиле может быть проигрывающим музыку через встроенную стереофоническую систему, и шум от двигателя и дороги может значительно изменять восприятие музыки. В частности, для частей спектра, в которых энергия шума значительна относительно энергии музыки, воспринимаемая громкость музыки снижается. Если уровень шума достаточно высок, музыка полностью скрывается. Что касается аспекта настоящего изобретения, кто-то захотел бы выбрать коэффициенты G[b, t] усиления, с тем чтобы удельная громкость обработанного аудио в присутствии мешающего шума была равной целевой удельной громкости

Figure 00000064
[b, t]. Для достижения этого результата можно использовать концепцию громкости частичных тонов, как определено Муром и Глазбергом ранее. Допустим, что кто-то способен получать измерение шума самого по себе и измерение аудио самого по себе. Пусть E N[b, t] представляет накачку от шума, и пусть E A[b, t] представляет накачку от аудио. Объединенная удельная громкость аудио и шума, в таком случае, задается посредствомIn many audio playback environments, there is background noise that interferes with the audio that the listener wants to listen to. For example, a listener in a moving automobile may be playing music through the integrated stereo system and noise from the engine and road may significantly alter the perception of the music. In particular, for parts of the spectrum in which the noise energy is significant relative to the energy of the music, the perceived loudness of the music decreases. If the noise level is high enough, the music is completely hidden. Regarding an aspect of the present invention, someone would like to select gain factors G [ b , t ] so that the specific volume of the processed audio in the presence of interfering noise is equal to the target specific volume
Figure 00000064
[ b , t ]. To achieve this result, you can use the concept of the volume of partial tones, as defined by Moore and Glazberg earlier. Suppose someone is able to receive a measurement of noise in itself and a measurement of audio in itself. Let E N [ b , t ] represent pumping from noise, and let E A [ b , t ] represent pumping from audio. The combined specific volume of audio and noise, in this case, is set by

Figure 00000065
Figure 00000065

где снова Ψ{·} представляет нелинейное преобразование из накачки в удельную громкость. Можно допустить, что слух слушателя разделяет объединенную удельную громкость между удельной громкостью частичных тонов аудио и удельной громкостью частичных тонов шума некоторым способом, который сохраняет объединенную удельную громкость:where again Ψ {·} represents a nonlinear transformation from pump to specific volume. It can be assumed that the listener's hearing separates the combined specific volume between the specific volume of the partial tones of the audio and the specific volume of the partial tones of the noise in some way that preserves the combined specific volume:

Figure 00000066
Figure 00000066

Удельная громкость частичных тонов аудио, N A[b, t], является значением, которое желательно контролировать, а потому необходимо вычислять это значение. Удельная громкость частичных тонов шума может быть приближенно выражена в качествеSpecific audio volume partials, N A [b, t] , is a value that is desirable to control, and therefore it is necessary to calculate this value. The specific volume of partial noise tones can be approximately expressed as

Figure 00000067
Figure 00000067

где E TN[b, t] - маскируемое пороговое значение в присутствии шума, E TQ[b] - порог слышимости в тишине на полосе b, и k - показатель степени между нулем и единицей.where E TN [ b , t ] is the masked threshold in the presence of noise, E TQ [ b ] is the audibility threshold in silence on band b , and k is the exponent between zero and one.

Объединяя уравнения 31-33, приходим к выражению для удельной громкости частичных тонов аудио:Combining equations 31-33, we come to the expression for the specific volume of partial tones of audio:

Figure 00000068
Figure 00000068

Отмечают, что, когда накачка аудио равна маскируемому пороговому значению шума (E A [b, t]=E TN [b, t]), удельная громкость частичных тонов аудио равна громкости сигнала на пороговом значении в тишине, каковое является требуемым результатом. Когда накачка аудио гораздо больше, чем у шума, второй член в уравнении 34 исчезает, и удельная громкость аудио приблизительно равна такой, какая могла бы быть, если бы шум отсутствовал. Другими словами, в то время как аудио становится гораздо громче чем шум, шум скрывается за аудио. Показатель k выбирается опытным путем, чтобы давать максимальное соответствие данным о громкости тона в шуме в качестве функции отношения сигнал-шум. Мур и Глазберг обнаружили, что значение k=0,3 является подходящим. Маскируемое пороговое значение шума может быть приближенно выражено в качестве функции восприятия собственно шума:It is noted that when the pumping of the audio is equal to the masked threshold noise value ( E A [ b , t ] = E TN [ b , t ]), the specific volume of the partial tones of the audio is equal to the volume of the signal at the threshold value in silence, which is the desired result. When the pumping of audio is much larger than that of noise, the second term in equation 34 disappears, and the specific volume of the audio is approximately equal to what it would be if there were no noise. In other words, while audio becomes much louder than noise, noise lurks behind the audio. The indicator k is chosen empirically in order to maximize compliance with the data on the volume of the tone in the noise as a function of the signal-to-noise ratio. Moore and Glasberg found that a value of k = 0.3 is appropriate. The masked threshold value of noise can be approximately expressed as a function of perception of noise itself:

Figure 00000069
Figure 00000069

где K[b] - константа, которая увеличивается в полосах нижних частот. Таким образом, удельная громкость частичных тонов аудио, заданная уравнением 34, может быть представлена абстрактно, в качестве функции накачки аудио и накачки шума:where K [ b ] is a constant that increases in the low frequency bands. Thus, the specific volume of the partial audio tones defined by equation 34 can be represented abstractly as a function of the pump pumping audio and noise:

Figure 00000070
Figure 00000070

Модифицированный решатель коэффициентов усиления в таком случае может использоваться для расчета коэффициентов усиления G[b, t] из условия, чтобы удельная громкость частичных тонов обработанного аудио в присутствии шума была равна целевой удельной громкости:In this case, the modified gain factor solver can be used to calculate the gain G [ b , t ] so that the specific volume of the partial tones of the processed audio in the presence of noise is equal to the target specific volume:

Figure 00000071
Figure 00000071

Фиг.17 изображает систему по фиг.7 с исходным Решателем коэффициентов усиления, 106 замещенным описанным Решателем коэффициентов усиления с компенсацией шума, 206, (отметим, что многочисленные вертикальные линии между блоками, представляющими многочисленные полосы гребенки фильтров, были замещены одиночной линией для упрощения схемы). В дополнение фигура изображает измерение накачки шума (Гребенкой фильтров анализа, 200, Пропускающим фильтром 201, Накачкой, 202, и Сглаживанием, 203, некоторым образом, соответствующим работе блоков 100, 101, 102 и 103), которое подается в новый решатель 206 коэффициентов усиления наряду с накачкой аудио (из Сглаживания, 103) и целевой удельной громкостью (из Модификации SL, 105).Fig. 17 depicts the system of Fig. 7 with the original Gain Solver 106 replaced by the described noise compensation Gain Solver, 206, (note that the multiple vertical lines between the blocks representing the multiple filter bank bands have been replaced by a single line to simplify the circuit ) In addition, the figure depicts a measurement of noise pumping (Comb of analysis filters, 200, Pass filter 201, Pumping, 202, and Smoothing, 203, in some way corresponding to the operation of blocks 100, 101, 102 and 103), which is supplied to the new gain factor solver 206 along with pumping audio (from Smoothing, 103) and target specific volume (from SL Modification, 105).

В своем наиболее основном режиме работы Модификация SL, 105, по фиг.17 может просто устанавливать целевую удельную громкость

Figure 00000072
[b, t] равной исходной удельной громкости аудио, N[b, t]. Другими словами, Модификация SL предусматривает независящий от частоты масштабный коэффициент α, масштабирующий удельную громкость звукового сигнала, при этом α=1. С помощью компоновки, такой как на фиг.17, коэффициенты усиления рассчитываются так, что воспринимаемый спектр громкости обработанного аудио в присутствии шума равен спектру громкости аудио в отсутствие шума. Дополнительно, любая одна или комбинация таковых из описанных ранее технологий для вычисления целевой удельной громкости в качестве функции исходной, в том числе VC, АРУ, DRC и DEQ, могут использоваться в соединении с системой модификации громкости с компенсацией шума.In its most basic operating mode, Modification SL, 105 of FIG. 17 may simply set a target specific volume
Figure 00000072
[ b , t ] equal to the original specific audio volume, N [ b , t ] . In other words, SL modification provides a frequency independent scaling factor α, the specific loudness scaling the audio signal, with α = 1. Using the arrangement, such as in FIG. 17, the gains are calculated so that the perceived loudness spectrum of the processed audio in the presence of noise is equal to the audio loudness spectrum in the absence of noise. Additionally, any one or a combination of those of the previously described technologies for calculating the target specific volume as a function of the original, including VC, AGC, DRC and DEQ, can be used in conjunction with a noise compensation volume modification system.

В практическом варианте осуществления измерение шума может быть получено с микрофона, размещенного в или возле среды, в которую будет воспроизводиться аудио. В качестве альтернативы может использоваться предопределенный набор шаблонных накачек шума, которые аппроксимируют ожидаемый спектр шума при различных условиях. Например, шум в салоне автомобиля может предварительно анализироваться при различных скоростях езды, а затем сохраняться в качестве справочной таблицы шумовой накачки в зависимости от скорости. Шумовая накачка, подаваемая в Решатель коэффициентов усиления, 206, по фиг.17, в таком случае, приближенно выражается по этой справочной таблице, по мере того как изменяется скорость автомобиля.In a practical embodiment, the noise measurement can be obtained from a microphone located in or near the environment in which the audio will be played. Alternatively, a predefined set of noise pattern pumping that approximates the expected noise spectrum under various conditions can be used. For example, noise in the car interior can be pre-analyzed at various driving speeds, and then stored as a reference table of noise pumping depending on speed. The noise pumping supplied to the Gain Solver, 206, of FIG. 17, is then approximately expressed in this look-up table as the vehicle speed changes.

Приближения к удельной громкостиApproximation to specific volume

Несмотря на то что раскрытое изобретение работает наилучшим образом, когда используется точное измерение удельной громкости, некоторые применения могут требовать использования более грубой аппроксимации, для того чтобы снижать вычислительную сложность. С подходящим приближением по-прежнему может достигаться приемлемая оценка и модификация воспринимаемой громкости. Такое приближение должно пытаться сохранить, по меньшей мере частично, несколько ключевых аспектов восприятия громкости. Во-первых, приближение должно, по меньшей мере грубо, фиксировать изменение чувствительности в восприятии громкости в зависимости от частоты. В общих чертах, приближение должно отображать меньшую чувствительность на нижних и верхних частотах по сравнению со средними частотами. Во-вторых, приближение должно демонстрировать нелинейный рост громкости в зависимости от уровня сигнала. Более точно, рост удельной громкости должен быть наиболее быстрым для низкоуровневых сигналов возле порога слышимости, а затем уменьшаться до постоянной скорости роста по мере того, как повышается уровень сигнала. Наконец, приближение должно демонстрировать свойство суммирования громкости, означающее, что для постоянного уровня сигнала полная громкость (интегрирование удельной громкости по частоте) увеличивается по мере того, как увеличивается ширина полосы пропускания сигнала.Although the disclosed invention works best when accurate specific volume measurements are used, some applications may require a coarser approximation in order to reduce computational complexity. With a suitable approximation, acceptable estimation and modification of perceived loudness can still be achieved. Such an approximation should try to preserve, at least in part, several key aspects of loudness perception. Firstly, the approximation should, at least roughly, record the change in sensitivity in the perception of volume depending on the frequency. In general terms, the approximation should display lower sensitivity at the lower and upper frequencies compared to the middle frequencies. Secondly, the approximation should demonstrate a nonlinear increase in volume depending on the signal level. More specifically, the increase in specific volume should be the fastest for low-level signals near the threshold of audibility, and then decrease to a constant growth rate as the signal level rises. Finally, the approximation should demonstrate the property of summing volume, meaning that for a constant signal level, the total volume (integration of the specific volume over frequency) increases as the signal bandwidth increases.

Один из способов для уменьшения сложности вычисления удельной громкости, по-прежнему наряду с сохранением желательных свойств восприятия громкости, состоит в том, чтобы использовать гребенку фильтров с меньшим количеством полос, и в которой полосы могут не быть равномерно разнесенными по ступенчатой шкале критических полос. Например, можно использовать 5-полосную гребенку фильтров с полосами, равномерно распределенными по линейной шкале частот, в противоположность 40 полосам, описанным ранее. Существует много технологий для эффективной реализации таких гребенок фильтров, например, модулированные косинусом гребенки фильтров (P.P Vaidyanthan, MultiRate Systems and Fitter Banks, 1993 Prentice Hall (П. П. Вайдьянтан, Многоступенчатые системы и гребенки фильтров, 1993 год, Прентис-Холл)). В качестве общего примера рассмотрим гребенку фильтров с B полосами, где каждая полоса описывается импульсной характеристикой h b[n] во временной области. К тому же, допустим, что гребенка фильтров является почти совершенной реконструкцией, имея в виду, что:One way to reduce the complexity of calculating specific loudness, while still maintaining the desired properties of loudness perception, is to use a comb of filters with fewer bands, and in which the bands may not be evenly spaced along the step scale of critical bands. For example, a 5-band filter bank with strips distributed uniformly on a linear frequency scale, as opposed to strips 40 described previously. There are many technologies for the efficient implementation of such filter banks, for example, cosine modulated filter banks (PP Vaidyanthan, MultiRate Systems and Fitter Banks, 1993 Prentice Hall (P.P. Vaidyantan, Multistage filter systems and filters , 1993, Prentice Hall)) . As a general example, consider a comb filter with B bands, wherein each band is described by the impulse response h b [n] in the time domain. In addition, suppose that the filter bank is an almost perfect reconstruction, bearing in mind that:

Figure 00000073
Figure 00000073

Частотная характеристика каждой полосы b может характеризоваться центральной частотой f b и шириной Δf b полосы пропускания в Герцах. Эквивалентная центральная частота и ширина полосы пропускания в единицах ERB, в таком случае, задаются согласноThe frequency response of each band b can be characterized by a center frequency f b and a bandwidth Δ f b of the passband in Hertz. The equivalent center frequency and bandwidth in units of ERB, in this case, are set according to

Figure 00000074
Figure 00000074

Если количество полос B относительно мало, то ширина e b полосы пропускания каждой полосы, вероятно, будет большей, чем 1 ERB.If the number of B bands is relatively small, then the bandwidth e b of the bandwidth of each band is likely to be greater than 1 ERB.

С допущением, что x b[n]=h b[n] * x[n] представляет звуковой сигнал, ассоциативно связанный с каждой полосой, сглаженный сигнал накачки

Figure 00000075
[b, n] может вычисляться подобно уравнениям 7 и 8, с вычислением сглаженной среднеквадратической мощности x b [n], взвешенной частотной характеристикой пропускающего фильтра, дискретизированного на частоте f b, и инверсией ширины полосы пропускания в единицах ERB:On the assumption that x b [n] = h b [n] * x [n] represents an audio signal associated with the each lane smoothed pump signal
Figure 00000075
[ b , n ] can be calculated similarly to equations 7 and 8, with the calculation of the smoothed rms power x b [ n ], the weighted frequency response of the pass filter, sampled at frequency f b , and the inverse of the bandwidth in units of ERB:

Figure 00000076
Figure 00000076

Взвешивание накачки полосы b посредством 1/e b эффективно распределяет энергию в пределах такой полосы, равномерно по всем критическим полосам, отнесенным к группе в пределах нее. В качестве альтернативы кто-то мог бы назначать всю энергию на критическую полосу, чья центральная частота наиболее близка к центральной частоте f b полосы, но распределение энергии равномерно является лучшим приближением для большинства реальных звуковых сигналов.Band b by pumping Weigh 1 / e b effectively distributes the energy within such a band, evenly over all critical bands, referred to a group within it. Alternatively, someone could assign all the energy to a critical band whose center frequency is closest to the center frequency f b of the band, but the energy distribution is uniformly the best approximation for most real sound signals.

С накачкой

Figure 00000077
[b, n], можно приступать к вычислению удельной громкости N[b, n], целевой удельной громкости
Figure 00000078
[b, n] и коэффициентов усиления G[b, n], как обсуждено выше, за исключением того, что здесь общее количество полос может быть гораздо меньшим, тем самым снижая сложность. К тому же, одной модификации необходимо производиться в вычислении общей громкости L[n]: удельная громкость должна взвешиваться количеством ERB в пределах полосы b, в то время как она суммируется по полосам:Pumped
Figure 00000077
[ b , n ], we can begin to calculate the specific volume N [ b , n ], the target specific volume
Figure 00000078
[ b , n ] and gain G [ b , n ], as discussed above, except that here the total number of bands can be much smaller, thereby reducing complexity. In addition, one modification must be made in calculating the total volume L [ n ]: the specific volume should be weighted by the number of ERBs within the band b, while it is summed over the bands:

Figure 00000079
Figure 00000079

В заключение модифицированный сигнал y[n] может формироваться суммированием каждого из полосных сигналов, взвешенных коэффициентом усиления из соответственной полосы:In conclusion, the modified signal y [n] can be generated by summing each of the bandpass signals, weighted gain of the respective strips:

Figure 00000080
Figure 00000080

Для простоты описания вышеприведенные вычисления показаны выполняемыми для каждого периода n выборки сигнала x[n]. На практике, однако, накачка может быть подвергнута понижающей дискретизации по времени до гораздо меньшей частоты, а затем вся последующая обработка громкости может выполняться на этой пониженной частоте. Когда коэффициенты усиления применяются в конце, они затем могут быть подвергнуты повышающей дискретизации посредством интерполяции до применения к полосовым сигналам.For simplicity of description, the above calculations are shown to be performed for each period n of the sample signal x [ n ]. In practice, however, the pump can be subjected to downsampling in time to a much lower frequency, and then all subsequent processing of the volume can be performed at this reduced frequency. When the gain coefficients are applied at the end, they can then be subjected to the interpolation by the upsampled before being applied to bandpass signals.

Вышеприведенное является только одним из примеров грубого приближения к удельной громкости, которое является подходящим для раскрытого изобретения. Возможны другие приближения, и изобретение подразумевается покрывающим использование всех таких приближений.The above is only one example of a rough approximation to the specific volume, which is suitable for the disclosed invention. Other approximations are possible, and the invention is intended to cover the use of all such approximations.

РеализацияImplementation

Изобретение может быть реализовано в аппаратных средствах или программном обеспечении либо сочетании обоих (например, программируемых логических матрицах). Если не указан иной способ действий, алгоритмы, включенные в качестве части изобретения, по своей природе не имеют отношения к какому бы то ни было конкретному компьютеру или другому устройству. В частности, различные машины общего применения могут использоваться с программами, написанными в соответствии с доктринами, приведенными в материалах настоящей заявки, или может быть более удобным сконструировать более специализированное устройство (например, интегральные схемы) для выполнения требуемых этапов способа. Таким образом, изобретение может быть реализовано в одной или более компьютерных программ, выполняющихся в одной или более программируемых компьютерных системах, каждая из которых содержит по меньшей мере один процессор, по меньшей мере одну систему хранения данных (в том числе энергозависимую и энергонезависимую память и/или запоминающие элементы), по меньшей мере одно устройство или порт ввода и по меньшей мере одно устройство или порт вывода. Управляющая программа применяется к входным данным для выполнения функций, описанных в материалах настоящей заявки, и формирует выходную информацию. Выходная информация подводится в одно или более устройств вывода известным образом.The invention may be implemented in hardware or software, or a combination of both (e.g., programmable logic arrays). Unless otherwise specified, the algorithms included as part of the invention are inherently irrelevant to any particular computer or other device. In particular, various general-purpose machines can be used with programs written in accordance with the doctrines given in the materials of this application, or it may be more convenient to design a more specialized device (for example, integrated circuits) to perform the required steps of the method. Thus, the invention can be implemented in one or more computer programs running in one or more programmable computer systems, each of which contains at least one processor, at least one data storage system (including volatile and non-volatile memory and / or storage elements), at least one input device or port, and at least one output device or port. The control program is applied to the input data to perform the functions described in the materials of this application, and generates output information. The output is fed to one or more output devices in a known manner.

Каждая такая программа может быть реализована на любом желательном компьютерном языке (включая машинные, компоновочные или высокоуровневые процедурные, логические или объектно-ориентированные языки программирования) для общения с компьютерной системой. В любом случае, язык может быть компилируемым или интерпретируемым языком.Each such program can be implemented in any desired computer language (including machine, layout, or high-level procedural, logical, or object-oriented programming languages) for communicating with a computer system. In any case, the language may be a compiled or interpreted language.

Каждая такая компьютерная программа предпочтительно хранится на или загружается в запоминающие носители или устройство (например, твердотельную память или носители, либо магнитные или оптические носители), удобочитаемые программируемым компьютером общего применения или специального назначения, для конфигурирования и управления компьютером, когда запоминающие носители или устройства считываются компьютерной системой, чтобы выполнять процедуры, описанные в материалах настоящей заявки. Обладающая признаками изобретения система также может считаться реализуемой в качестве машиночитаемого запоминающего носителя, сконфигурированного компьютерной программой, где запоминающий носитель, сконфигурированный таким образом, побуждает компьютерную систему работать специальным и предопределенным образом для выполнения функций, описанных в материалах настоящей заявки.Each such computer program is preferably stored on or loaded into storage media or device (e.g., solid state memory or media, or magnetic or optical media) readable by a general purpose or special purpose programmable computer to configure and control the computer when the storage media or devices are read a computer system to perform the procedures described in the materials of this application. The inventive system can also be considered as being implemented as a computer-readable storage medium configured by a computer program, where the storage medium configured in this way causes the computer system to operate in a special and predetermined manner to perform the functions described in the materials of this application.

Было описано некоторое количество вариантов осуществления изобретения. Тем не менее, будет понятно, что различные модификации могут быть произведены, не выходя из сущности и объема изобретения. Например, некоторые из этапов, описанных в материалах настоящей заявки, могут быть независимыми от очередности и, таким образом, могут выполняться в очередности, отличной от той, которая описана.A number of embodiments of the invention have been described. However, it will be understood that various modifications can be made without departing from the spirit and scope of the invention. For example, some of the steps described in the materials of this application may be independent of order and, thus, may be performed in order different from that described.

Claims (26)

1. Способ для регулировки конкретной характеристики громкости звукового сигнала, в котором конкретная характеристика громкости является либо приближением удельной громкости, которое является показателем громкости восприятия как функции частоты и времени, либо приближением удельной громкости частичных тонов, которое является показателем громкости восприятия сигнала в присутствии вторичного мешающего сигнала, как функции частоты и времени, состоящий в том, что
получают приближение к целевой удельной громкости, получают зависящие от частоты параметры модификации, используемые для модифицирования звукового сигнала, для того, чтобы уменьшать разность между его конкретной характеристикой громкости и приближением к целевой удельной громкости, и
a) применяют параметры модификации к звуковому сигналу для уменьшения разницы между его конкретной характеристикой громкости и приближением к целевой удельной громкости, либо
b) передают или хранят параметры модификации и звуковой сигнал для разделенного временным образом и/или разделенного пространственным образом применения параметров модификации к звуковому сигналу, чтобы уменьшать разность между его конкретной характеристикой громкости и приближением к целевой удельной громкости.
1. A method for adjusting a specific characteristic of the loudness of an audio signal, in which a specific characteristic of loudness is either an approximation of the specific loudness, which is an indicator of perception loudness as a function of frequency and time, or an approximation of the specific loudness of partial tones, which is an indicator of the loudness of signal perception in the presence of a secondary interfering signal, as a function of frequency and time, consisting in the fact that
getting closer to the target specific loudness, getting frequency-dependent modification parameters used to modify the audio signal in order to reduce the difference between its specific loudness characteristic and approaching the target specific loudness, and
a) modification parameters apply to the audio signal to reduce the difference between its specific loudness characteristic and an approximation to the target specific loudness or
b) transmit or store the modification parameters and the audio signal for temporarily and spatially separated application of the modification parameters to the audio signal in order to reduce the difference between its specific loudness characteristic and approaching the target specific loudness.
2. Способ по п.1, в котором приближение к целевой удельной громкости не является функцией звукового сигнала.2. The method according to claim 1, in which approaching the target specific volume is not a function of the audio signal. 3. Способ по п.2, в котором упомянутое модифицирование или упомянутое получение заключается в том, что принимают приближение к целевой удельной громкости из источника, внешнего по отношению к способу.3. The method according to claim 2, in which said modification or said receipt is that they take an approximation to the target specific volume from a source external to the method. 4. Способ по п.2, в котором упомянутое модифицирование или упомянутое получение включают в себя обработку, которая явным образом рассчитывает приближение к удельной громкости и/или приближение к удельной громкости частичных тонов.4. The method according to claim 2, in which said modification or said receipt includes processing that explicitly calculates the approach to the specific volume and / or the approximation to the specific volume of partial tones. 5. Способ по п.2, в котором упомянутое модифицирование или упомянутое получение включают в себя обработку, которая неявным образом рассчитывает приближение к удельной громкости и/или приближение к удельной громкости частичных тонов.5. The method according to claim 2, in which said modification or said receipt includes processing that implicitly calculates an approach to specific volume and / or an approximation to specific volume of partial tones. 6. Способ по п.5, в котором обработка применяет справочную таблицу из условия, чтобы обработка, по своей природе, определяла приближение к удельной громкости и/или приближение к удельной громкости частичных тонов.6. The method according to claim 5, in which the processing uses a look-up table so that the processing, by its nature, determines an approach to the specific volume and / or approach to the specific volume of partial tones. 7. Способ по п.5, в котором приближение к удельной громкости и/или приближение к удельной громкости частичных тонов, по своей природе, определяется отражающим ряд решений математическим выражением, применяемым обработкой.7. The method according to claim 5, in which the approximation to the specific volume and / or the approximation to the specific volume of partial tones, by its nature, is determined by the mathematical expression reflecting a number of solutions used by the processing. 8. Способ по пп.2-7, в котором приближение к целевой удельной громкости является независящим от времени и частоты.8. The method according to claims 2 to 7, in which the approximation to the target specific volume is independent of time and frequency. 9. Способ по пп.2-7, в котором приближение к целевой удельной громкости является независящим от времени.9. The method according to claims 2 to 7, in which the approximation to the target specific volume is time-independent. 10. Способ по п.1, в котором приближение к целевой удельной громкости является функцией звукового сигнала или показателя звукового сигнала.10. The method according to claim 1, in which the approximation to the target specific volume is a function of the sound signal or indicator of the sound signal. 11. Способ по п.10, в котором показателем звукового сигнала является приближение к удельной громкости звукового сигнала.11. The method according to claim 10, in which the indicator of the sound signal is approaching the specific volume of the sound signal. 12. Способ по п.10 или 11, в котором функцией звукового сигнала или показателя звукового сигнала является одно или более масштабирований звукового сигнала или показателя звукового сигнала.12. The method of claim 10 or 11, wherein the function of the sound signal or measure of the sound signal is one or more scaling of the sound signal or measure of the sound signal. 13. Способ для регулирования конкретной характеристики громкости звукового сигнала, в котором конкретная характеристика громкости является либо приближением удельной громкости, которое является показателем громкости восприятия как функции частоты и времени, либо приближением удельной громкости частичных тонов, которое является показателем громкости восприятия звукового сигнала в присутствии вторичного мешающего сигнала как функции частоты и времени, состоящий в том, что
принимают из передаваемых данных или воспроизводят с запоминающего носителя звуковой сигнал и
a) зависящие от частоты параметры модификации для модифицирования звукового сигнала, параметры модификации были получены из приближения к целевой удельной громкости, или
b) приближение к целевой удельной громкости или представление приближения к такой целевой удельной громкости, и
модифицируют звуковой сигнал в ответ на а) принятые параметры модификации, либо b) параметры модификации, полученные из приближения к целевой удельной громкости или ее представления, для того чтобы уменьшать разность между конкретной характеристикой громкости звукового сигнала и приближением к целевой удельной громкости.
13. A method for controlling a specific loudness characteristic of an audio signal, in which a specific loudness characteristic is either an approximation of specific loudness, which is an indicator of perception loudness as a function of frequency and time, or an approximation of specific loudness of partial tones, which is an indicator of loudness of perception of an audio signal in the presence of a secondary interfering signal as a function of frequency and time, consisting in the fact that
receive from the transmitted data or reproduce from the storage medium an audio signal and
a) frequency dependent modification parameters for modifying an audio signal modification parameters were derived from the approximation to the target specific loudness or
b) approaching a target specific loudness or presenting an approximation to such a target specific loudness, and
modify the audio signal in response to a) the received modification parameters, or b) the modification parameters obtained from approaching the target specific volume or its representation in order to reduce the difference between the specific characteristic of the volume of the audio signal and approaching the target specific volume.
14. Способ по п.13, в котором приближение к целевой удельной громкости не является функцией звукового сигнала.14. The method according to item 13, in which approaching the target specific volume is not a function of the sound signal. 15. Способ по п.14, в котором упомянутое модифицирование или упомянутое получение заключается в том, что принимают приближение к целевой удельной громкости из источника, внешнего по отношению к способу.15. The method according to 14, in which the aforementioned modification or the aforementioned receipt is that take the approach to the target specific volume from a source external to the method. 16. Способ по п.14, в котором упомянутое модифицирование или упомянутое получение включают в себя обработку, которая явным образом рассчитывает приближение к удельной громкости и/или приближение к удельной громкости частичных тонов.16. The method of claim 14, wherein said modification or said preparation includes processing that explicitly calculates an approach to specific volume and / or an approach to specific volume of partial tones. 17. Способ по п.14, в котором упомянутое модифицирование или упомянутое получение включают в себя обработку, которая неявным образом рассчитывает приближение к удельной громкости и/или приближение к удельной громкости частичных тонов.17. The method of claim 14, wherein said modification or said receipt includes processing that implicitly calculates an approach to specific volume and / or an approximation to specific volume of partial tones. 18. Способ по п.17, в котором обработка применяет справочную таблицу из условия, чтобы обработка, по своей природе, определяла приближение к удельной громкости и/или приближение к удельной громкости частичных тонов.18. The method according to 17, in which the processing uses a look-up table so that the processing, by its nature, determines an approach to the specific volume and / or approach to the specific volume of partial tones. 19. Способ по п.17, в котором приближение к удельной громкости и/или приближение к удельной громкости частичных тонов, по своей природе, определяется отражающим ряд решений математическим выражением, применяемым обработкой.19. The method according to 17, in which the approximation to the specific volume and / or the approximation to the specific volume of partial tones, by its nature, is determined by the mathematical expression reflecting a number of solutions used by the processing. 20. Способ по любому одному из пп.14-19, в котором приближение к целевой удельной громкости является независящим от времени и частоты.20. The method according to any one of paragraphs.14-19, in which the approximation to the target specific volume is independent of time and frequency. 21. Способ по любому одному из пп.14-19, в котором приближение к целевой удельной громкости является независящим от времени.21. The method according to any one of paragraphs.14-19, in which the approximation to the target specific volume is time-independent. 22. Способ по п.13, в котором приближение к целевой удельной громкости является функцией звукового сигнала или показателя звукового сигнала.22. The method according to item 13, in which the approximation to the target specific volume is a function of the sound signal or indicator of the sound signal. 23. Способ по п.22, в котором показателем звукового сигнала является приближение к удельной громкости звукового сигнала.23. The method according to item 22, in which the indicator of the sound signal is approaching the specific volume of the sound signal. 24. Способ по п.22 или 23, в котором функцией звукового сигнала или показателя звукового сигнала является одно или более масштабирований звукового сигнала или показателя звукового сигнала.24. The method according to item 22 or 23, in which the function of the audio signal or indicator of the audio signal is one or more scaling of the audio signal or indicator of the audio signal. 25. Устройство для регулирования конкретной характеристики громкости звукового сигнала, выполненное с возможностью осуществления всех этапов способа по любому одному из пп.1-24.25. A device for controlling a specific characteristic of the volume of the audio signal, configured to implement all the steps of the method according to any one of claims 1 to 24. 26. Машиночитаемый носитель, содержащий записанную на нем компьютерную программу, при этом компьютерная программа при исполнении ее компьютером приводит к осуществлению упомянутым компьютером всех этапов способа по любому одному из пп.1-24. 26. A computer-readable medium containing a computer program recorded thereon, while the computer program, when executed by a computer, causes the computer to carry out all the steps of the method according to any one of claims 1 to 24.
RU2008143336/09A 2006-04-04 2007-03-30 Calculation and adjustment of audio signal audible volume and/or spectral balance RU2426180C2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US78953906P 2006-04-04 2006-04-04
US60/789,539 2006-04-04

Publications (2)

Publication Number Publication Date
RU2008143336A RU2008143336A (en) 2010-05-10
RU2426180C2 true RU2426180C2 (en) 2011-08-10

Family

ID=38325459

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2008143336/09A RU2426180C2 (en) 2006-04-04 2007-03-30 Calculation and adjustment of audio signal audible volume and/or spectral balance

Country Status (9)

Country Link
EP (1) EP2002429B1 (en)
JP (1) JP4981123B2 (en)
CN (1) CN101421781A (en)
BR (1) BRPI0709877B1 (en)
ES (1) ES2400160T3 (en)
PL (1) PL2002429T3 (en)
RU (1) RU2426180C2 (en)
TW (1) TWI471856B (en)
WO (1) WO2007120453A1 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2589298C1 (en) * 2014-12-29 2016-07-10 Александр Юрьевич Бредихин Method of increasing legible and informative audio signals in the noise situation
US9997167B2 (en) 2013-06-21 2018-06-12 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Jitter buffer control, audio decoder, method and computer program
RU2662683C2 (en) * 2013-06-21 2018-07-26 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Using the quality management time scale converter, audio decoder, method and computer program
RU2667627C1 (en) * 2013-12-27 2018-09-21 Сони Корпорейшн Decoding device, method, and program
RU2670182C2 (en) * 2013-03-13 2018-10-18 Конинклейке Филипс Н.В. Apparatus and method for improving audibility of specific sounds to user

Families Citing this family (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BRPI0410740A (en) 2003-05-28 2006-06-27 Dolby Lab Licensing Corp computer method, apparatus and program for calculating and adjusting the perceived volume of an audio signal
MX2007005027A (en) 2004-10-26 2007-06-19 Dolby Lab Licensing Corp Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal.
US8199933B2 (en) 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US8504181B2 (en) 2006-04-04 2013-08-06 Dolby Laboratories Licensing Corporation Audio signal loudness measurement and modification in the MDCT domain
TWI517562B (en) 2006-04-04 2016-01-11 杜比實驗室特許公司 Method, apparatus, and computer program for scaling the overall perceived loudness of a multichannel audio signal by a desired amount
RU2417514C2 (en) 2006-04-27 2011-04-27 Долби Лэборетериз Лайсенсинг Корпорейшн Sound amplification control based on particular volume of acoustic event detection
MY144271A (en) 2006-10-20 2011-08-29 Dolby Lab Licensing Corp Audio dynamics processing using a reset
US8521314B2 (en) 2006-11-01 2013-08-27 Dolby Laboratories Licensing Corporation Hierarchical control path with constraints for audio dynamics processing
CN101790758B (en) 2007-07-13 2013-01-09 杜比实验室特许公司 Audio processing using auditory scene analysis and spectral skewness
CN102017402B (en) 2007-12-21 2015-01-07 Dts有限责任公司 System for adjusting perceived loudness of audio signals
SG189747A1 (en) 2008-04-18 2013-05-31 Dolby Lab Licensing Corp Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
TWI416328B (en) * 2008-04-29 2013-11-21 Novatek Microelectronics Corp Method and related apparatus for controlling audio data sources for multimedia device
CN102160115A (en) 2008-09-19 2011-08-17 杜比实验室特许公司 Upstream quality enhancement signal processing for resource constrained client devices
CN102160358B (en) * 2008-09-19 2015-03-11 杜比实验室特许公司 Upstream signal processing for client devices in a small-cell wireless network
TWI491277B (en) * 2008-11-14 2015-07-01 That Corp Dynamic volume control and multi-spatial processing protection
ATE552651T1 (en) 2008-12-24 2012-04-15 Dolby Lab Licensing Corp AUDIO SIGNAL AUTUTITY DETERMINATION AND MODIFICATION IN THE FREQUENCY DOMAIN
CN102057429B (en) * 2009-01-09 2015-08-05 Lsi公司 For the system and method for adaptive targets search
TWI503816B (en) * 2009-05-06 2015-10-11 Dolby Lab Licensing Corp Adjusting the loudness of an audio signal with perceived spectral balance preservation
CN102422349A (en) * 2009-05-14 2012-04-18 夏普株式会社 Gain control apparatus and gain control method, and voice output apparatus
EP2899996B1 (en) * 2009-05-18 2017-07-12 Oticon A/s Signal enhancement using wireless streaming
WO2010138309A1 (en) * 2009-05-26 2010-12-02 Dolby Laboratories Licensing Corporation Audio signal dynamic equalization processing control
WO2010138311A1 (en) 2009-05-26 2010-12-02 Dolby Laboratories Licensing Corporation Equalization profiles for dynamic equalization of audio data
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
TWI525987B (en) 2010-03-10 2016-03-11 杜比實驗室特許公司 System for combining loudness measurements in a single playback mode
PL2381574T3 (en) 2010-04-22 2015-05-29 Fraunhofer Ges Forschung Apparatus and method for modifying an input audio signal
JP5126281B2 (en) * 2010-04-27 2013-01-23 ソニー株式会社 Music playback device
TWI733583B (en) 2010-12-03 2021-07-11 美商杜比實驗室特許公司 Audio decoding device, audio decoding method, and audio encoding method
CN102044249B (en) * 2010-12-10 2012-05-30 北京中科大洋科技发展股份有限公司 Method suitable for controlling consistency of sound volume of file broadcasting system
CN102610229B (en) * 2011-01-21 2013-11-13 安凯(广州)微电子技术有限公司 Method, apparatus and device for audio dynamic range compression
US8930182B2 (en) * 2011-03-17 2015-01-06 International Business Machines Corporation Voice transformation with encoded information
EP2530835B1 (en) * 2011-05-30 2015-07-22 Harman Becker Automotive Systems GmbH Automatic adjustment of a speed dependent equalizing control system
WO2013091703A1 (en) * 2011-12-22 2013-06-27 Widex A/S Method of operating a hearing aid and a hearing aid
CN104221284B (en) 2012-04-12 2017-05-24 杜比实验室特许公司 System and method for leveling loudness variation in an audio signal
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
CN107403624B (en) * 2012-05-18 2021-02-12 杜比实验室特许公司 Method and apparatus for dynamic range adjustment and control of audio signals
CN103428607A (en) * 2012-05-25 2013-12-04 华为技术有限公司 Audio signal playing system and electronic device
ITTO20120530A1 (en) * 2012-06-19 2013-12-20 Inst Rundfunktechnik Gmbh DYNAMIKKOMPRESSOR
EP2693637A1 (en) * 2012-08-01 2014-02-05 Harman Becker Automotive Systems GmbH Automatic loudness control
CN103841241B (en) * 2012-11-21 2017-02-08 联想(北京)有限公司 Volume adjusting method and apparatus
CN103050119B (en) * 2012-12-30 2015-06-17 安徽科大讯飞信息科技股份有限公司 Self-adaptive detection method for synchronism of lamplight/motor and sound
CN107578781B (en) * 2013-01-21 2021-01-29 杜比实验室特许公司 Audio encoder and decoder using loudness processing state metadata
CN107093991B (en) * 2013-03-26 2020-10-09 杜比实验室特许公司 Loudness normalization method and equipment based on target loudness
RU2712814C2 (en) * 2013-04-05 2020-01-31 Долби Лабораторис Лайсэнзин Корпорейшн Companding system and method for reducing quantisation noise using improved spectral spreading
JP6201460B2 (en) * 2013-07-02 2017-09-27 ヤマハ株式会社 Mixing management device
CN104681034A (en) * 2013-11-27 2015-06-03 杜比实验室特许公司 Audio signal processing method
EP2879131A1 (en) 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
US10283137B2 (en) 2014-02-18 2019-05-07 Dolby Laboratories Licensing Corporation Device and method for tuning a frequency-dependent attenuation stage
EP2922058A1 (en) * 2014-03-20 2015-09-23 Nederlandse Organisatie voor toegepast- natuurwetenschappelijk onderzoek TNO Method of and apparatus for evaluating quality of a degraded speech signal
KR20230156153A (en) * 2014-03-24 2023-11-13 돌비 인터네셔널 에이비 Method and device for applying dynamic range compression to a higher order ambisonics signal
US9615185B2 (en) * 2014-03-25 2017-04-04 Bose Corporation Dynamic sound adjustment
US9503803B2 (en) 2014-03-26 2016-11-22 Bose Corporation Collaboratively processing audio between headset and source to mask distracting noise
US9800220B2 (en) * 2014-09-24 2017-10-24 Intel Corporation Audio system with noise interference mitigation
CN104393848B (en) * 2014-10-27 2017-08-04 广州酷狗计算机科技有限公司 Volume adjusting method and device
US10136240B2 (en) 2015-04-20 2018-11-20 Dolby Laboratories Licensing Corporation Processing audio data to compensate for partial hearing loss or an adverse hearing environment
WO2017034874A1 (en) 2015-08-24 2017-03-02 Dolby Laboratories Licensing Corporation Volume-levelling processing
US9590580B1 (en) * 2015-09-13 2017-03-07 Guoguang Electric Company Limited Loudness-based audio-signal compensation
CN106817324B (en) * 2015-11-30 2020-09-11 腾讯科技(深圳)有限公司 Frequency response correction method and device
CN105916095B (en) * 2016-05-31 2017-08-04 音曼(北京)科技有限公司 The method of feedback delay network tone color optimization
CN106101925B (en) * 2016-06-27 2020-02-21 联想(北京)有限公司 Control method and electronic equipment
CN106354469B (en) * 2016-08-24 2019-08-09 北京奇艺世纪科技有限公司 A kind of loudness adjusting method and device
WO2018066383A1 (en) 2016-10-07 2018-04-12 ソニー株式会社 Information processing device and method, and program
TWI590239B (en) 2016-12-09 2017-07-01 宏碁股份有限公司 Voice signal processing apparatus and voice signal processing method
US10389323B2 (en) 2017-12-18 2019-08-20 Tls Corp. Context-aware loudness control
CN110832830B (en) * 2018-03-22 2021-07-09 华为技术有限公司 Volume adjusting method and electronic equipment
CN111048108B (en) * 2018-10-12 2022-06-24 北京微播视界科技有限公司 Audio processing method and device
KR20230003293A (en) * 2018-10-24 2023-01-05 그레이스노트, 인코포레이티드 Methods and Apparatus to Adjust Audio Playback Settings Based on Analysis of Audio Characteristics
US11295718B2 (en) 2018-11-02 2022-04-05 Bose Corporation Ambient volume control in open audio device
US11032642B1 (en) 2020-03-10 2021-06-08 Nuvoton Technology Corporation Combined frequency response and dynamic range correction for loudspeakers
CN111698631B (en) * 2020-05-22 2021-10-15 深圳市东微智能科技股份有限公司 Automatic debugging method of audio equipment, audio equipment and audio system
US11317203B2 (en) 2020-08-04 2022-04-26 Nuvoton Technology Corporation System for preventing distortion of original input signal
US11202149B1 (en) 2020-09-11 2021-12-14 Ford Global Technologies, Llc Vehicle audio control
CN112040373B (en) * 2020-11-02 2021-04-23 统信软件技术有限公司 Audio data processing method, computing device and readable storage medium
CN116033314B (en) * 2023-02-15 2023-05-30 南昌航天广信科技有限责任公司 Audio automatic gain compensation method, system, computer and storage medium

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3006259B2 (en) * 1992-01-17 2000-02-07 ソニー株式会社 hearing aid
JPH07122953A (en) * 1993-10-22 1995-05-12 Matsushita Electric Ind Co Ltd Signal level compression device
DE69833749T2 (en) * 1997-04-16 2006-08-17 Emma Mixed Signal C.V. FILTER BANK ARRANGEMENT AND METHOD FOR FILTRATION AND SEPARATION OF AN INFORMATION SIGNAL IN DIFFERENT FREQUENCY BANDS, ESPECIALLY FOR AUDIO SIGNALS IN HEARING AIDS
TW358925B (en) * 1997-12-31 1999-05-21 Ind Tech Res Inst Improvement of oscillation encoding of a low bit rate sine conversion language encoder
WO2000065872A1 (en) * 1999-04-26 2000-11-02 Dspfactory Ltd. Loudness normalization control for a digital hearing aid
AUPQ952700A0 (en) * 2000-08-21 2000-09-14 University Of Melbourne, The Sound-processing strategy for cochlear implants
US7242784B2 (en) * 2001-09-04 2007-07-10 Motorola Inc. Dynamic gain control of audio in a communication device
DE10308483A1 (en) * 2003-02-26 2004-09-09 Siemens Audiologische Technik Gmbh Method for automatic gain adjustment in a hearing aid and hearing aid
US7551745B2 (en) * 2003-04-24 2009-06-23 Dolby Laboratories Licensing Corporation Volume and compression control in movie theaters
BRPI0410740A (en) * 2003-05-28 2006-06-27 Dolby Lab Licensing Corp computer method, apparatus and program for calculating and adjusting the perceived volume of an audio signal
TWI233090B (en) * 2003-07-24 2005-05-21 Inventec Multimedia & Telecom System and method of language translation for multimedia data
US20050069153A1 (en) * 2003-09-26 2005-03-31 Hall David S. Adjustable speaker systems and methods
MX2007005027A (en) * 2004-10-26 2007-06-19 Dolby Lab Licensing Corp Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal.

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2670182C2 (en) * 2013-03-13 2018-10-18 Конинклейке Филипс Н.В. Apparatus and method for improving audibility of specific sounds to user
US9997167B2 (en) 2013-06-21 2018-06-12 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Jitter buffer control, audio decoder, method and computer program
RU2662683C2 (en) * 2013-06-21 2018-07-26 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Using the quality management time scale converter, audio decoder, method and computer program
US10204640B2 (en) 2013-06-21 2019-02-12 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Time scaler, audio decoder, method and a computer program using a quality control
US10714106B2 (en) 2013-06-21 2020-07-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Jitter buffer control, audio decoder, method and computer program
US10984817B2 (en) 2013-06-21 2021-04-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Time scaler, audio decoder, method and a computer program using a quality control
US11580997B2 (en) 2013-06-21 2023-02-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Jitter buffer control, audio decoder, method and computer program
RU2667627C1 (en) * 2013-12-27 2018-09-21 Сони Корпорейшн Decoding device, method, and program
RU2764260C2 (en) * 2013-12-27 2022-01-14 Сони Корпорейшн Decoding device and method
US11705140B2 (en) 2013-12-27 2023-07-18 Sony Corporation Decoding apparatus and method, and program
RU2589298C1 (en) * 2014-12-29 2016-07-10 Александр Юрьевич Бредихин Method of increasing legible and informative audio signals in the noise situation

Also Published As

Publication number Publication date
JP4981123B2 (en) 2012-07-18
CN101421781A (en) 2009-04-29
TW200746049A (en) 2007-12-16
EP2002429A1 (en) 2008-12-17
TWI471856B (en) 2015-02-01
EP2002429B1 (en) 2012-11-21
BRPI0709877B1 (en) 2019-12-31
PL2002429T3 (en) 2013-03-29
BRPI0709877A2 (en) 2011-07-26
JP2009532739A (en) 2009-09-10
RU2008143336A (en) 2010-05-10
ES2400160T3 (en) 2013-04-08
WO2007120453A1 (en) 2007-10-25

Similar Documents

Publication Publication Date Title
RU2426180C2 (en) Calculation and adjustment of audio signal audible volume and/or spectral balance
US11296668B2 (en) Methods and apparatus for adjusting a level of an audio signal
US8199933B2 (en) Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal