RU2641461C2 - Audio encoder, audio decoder, method of providing coded audio information, method of providing decoded audio information, computer program and coded presentation using signal-adaptive bandwidth extension - Google Patents

Audio encoder, audio decoder, method of providing coded audio information, method of providing decoded audio information, computer program and coded presentation using signal-adaptive bandwidth extension Download PDF

Info

Publication number
RU2641461C2
RU2641461C2 RU2015136792A RU2015136792A RU2641461C2 RU 2641461 C2 RU2641461 C2 RU 2641461C2 RU 2015136792 A RU2015136792 A RU 2015136792A RU 2015136792 A RU2015136792 A RU 2015136792A RU 2641461 C2 RU2641461 C2 RU 2641461C2
Authority
RU
Russia
Prior art keywords
audio
information
bandwidth
bandwidth extension
audio information
Prior art date
Application number
RU2015136792A
Other languages
Russian (ru)
Other versions
RU2015136792A (en
Inventor
Саша ДИШ
Кристиан ХЕЛЬМРИХ
Йоханнес ХИЛЬПЕРТ
Жюльен РОБИЙЯР
Константин ШМИДТ
Штефан ВИЛЬДЕ
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Publication of RU2015136792A publication Critical patent/RU2015136792A/en
Application granted granted Critical
Publication of RU2641461C2 publication Critical patent/RU2641461C2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

FIELD: physics.SUBSTANCE: audio encoder comprises a low-frequency encoder for obtaining an encoded representation of the low-frequency portion and a unit for providing bandwidth extension information based on the input audio information. The audio encoder is also configured to selectively include the bandwidth extension information in the encoded audio information. The audio decoder comprises a low-frequency decoder to obtain a decoded representation of the low-frequency portion and an extension of the bandwidth to obtain a blind-bandwidth expansion signal for portions of audio content, for which the bandwidth expansion parameters are not included in the coded audio information and to obtain a bandwidth extension signal for portions of audio content, for which the parameters of the bandwidth extension are included in the coded audio information.EFFECT: providing bandwidth expansion to improve the tradeoff between the bit rate and the sound quality.38 cl, 8 dwg

Description

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕFIELD OF THE INVENTION

Варианты осуществления согласно изобретению относятся к аудиокодеру для обеспечения кодированной аудиоинформации на основании входной аудиоинформации.Embodiments according to the invention relate to an audio encoder for providing encoded audio information based on the input audio information.

Дополнительные варианты осуществления согласно изобретению относятся к аудиодекодеру для обеспечения декодированной аудиоинформации на основании кодированной аудиоинформации.Additional embodiments of the invention relate to an audio decoder for providing decoded audio information based on encoded audio information.

Дополнительные варианты осуществления согласно изобретению относятся к способу обеспечения кодированной аудиоинформации на основании входной аудиоинформации.Additional embodiments of the invention relate to a method for providing encoded audio information based on the input audio information.

Дополнительные варианты осуществления согласно изобретению относятся к способу обеспечения декодированной аудиоинформации на основании кодированной аудиоинформации.Additional embodiments of the invention relate to a method for providing decoded audio information based on encoded audio information.

Дополнительные варианты осуществления согласно изобретению относятся к компьютерной программе для осуществления одного из упомянутых способов.Additional embodiments of the invention relate to a computer program for implementing one of the above methods.

Дополнительные варианты осуществления согласно изобретению относятся к кодированному аудиопредставлению, представляющему аудиоинформацию.Further embodiments according to the invention relate to an encoded audio presentation representing audio information.

Некоторые варианты осуществления согласно изобретению относятся к общему расширению полосы пропускания аудиосигнала со скоростью передачи сигнально-адаптивной вспомогательной информации для кодирования аудио с очень низкой скоростью передачи битов.Some embodiments of the invention relate to the general extension of the bandwidth of an audio signal with a signal rate of adaptive auxiliary information for encoding audio with a very low bit rate.

УРОВЕНЬ ТЕХНИКИBACKGROUND

В последние годы постоянно растет потребность в кодировании и декодировании аудиоконтента. Хотя доступные скорости передачи битов и емкости устройств хранения данных для передачи и хранения кодированного аудиоконтента существенно возрастают, по-прежнему имеется потребность в эффективном по скорости передачи битов кодировании, передаче, хранении и декодировании аудиоконтента при обоснованном качестве, в частности, речевых сигналов в сценариях связи.In recent years, the need for encoding and decoding audio content has been constantly growing. Although the available bit rates and capacities of data storage devices for transmitting and storing encoded audio content are substantially increasing, there is still a need for efficient bit rate encoding, transmission, storage and decoding of audio content with reasonable quality, in particular, speech signals in communication scenarios .

Современные системы кодирования речи допускают кодирование широкополосного (WB) цифрового аудиоконтента, т.е. сигналов с частотами вплоть до 7-8 кГц, на скоростях передачи битов всего в 6 Кбит/с. Наиболее широко обсуждаемые примеры представляют собой рекомендации ITU-T G.722.2 (см., например, ссылочный материал [1]), а также позднее разработанный G.718 (см., например, ссылочные материалы [4] и [10]) и унифицированный речевой и аудио-MPEG-кодек xHE-AAC (см., например, ссылочный материал [8]). Как G.722.2, также известный как AMR-WB, так и G.718 используют технологии расширения полосы пропускания (BWE) в 6,4-7 кГц, чтобы давать возможность лежащему в основе базовому ACELP-кодеру «сосредоточиться» на более релевантных с точки зрения восприятия нижних частотах (в частности, на частотах, на которых слуховая система человека является фазочувствительной) и за счет этого достигать достаточного качества, в частности, на очень низких скоростях передачи битов. В xHE-AAC, улучшенная репликация полос спектра (eSBR) используется для расширения полосы пропускания (BWE). Процесс расширения полосы пропускания может, в общем, разделяться на два концептуальных подхода.Modern speech coding systems allow encoding of wideband (WB) digital audio content, i.e. signals with frequencies up to 7-8 kHz, at bit rates of only 6 Kbit / s. The most widely discussed examples are ITU-T G.722.2 recommendations (see, for example, reference material [1]), as well as the later developed G.718 (see, for example, reference materials [4] and [10]) and xHE-AAC unified speech and audio-MPEG codec (see, for example, reference material [8]). Both G.722.2, also known as AMR-WB, and G.718 use 6.4-7 kHz bandwidth extension (BWE) technologies to enable the underlying ACELP core encoder to “focus” on more relevant the point of view of perception of lower frequencies (in particular, at frequencies at which the human auditory system is phase-sensitive) and due to this, to achieve sufficient quality, in particular, at very low bit rates. In xHE-AAC, Advanced Spectrum Band Replication (eSBR) is used for bandwidth extension (BWE). The process of expanding bandwidth can, in general, be divided into two conceptual approaches.

BWE «вслепую» (или «искусственное» BWE), в котором высокочастотные (HF) компоненты восстанавливаются только из декодированного низкочастотного (LF) сигнала базового кодера, т.е. без необходимости передачи вспомогательной информации из кодера. Эта схема используется посредством AMR-WB и G.718 при 16 Кбит/с и ниже, а также посредством некоторых обратно совместимых систем постобработки при расширении полосы пропускания, управляющих традиционной узкополосной телефонной речью (см., например, ссылочные материалы [5] и [9]).A BWE is “blind” (or “artificial” BWE) in which the high frequency (HF) components are reconstructed only from the decoded low frequency (LF) signal of the base encoder, i.e. without the need to transmit auxiliary information from the encoder. This scheme is used by AMR-WB and G.718 at 16 Kbps and below, as well as through some backward compatible post-processing systems with bandwidth expansion that control traditional narrow-band telephone speech (see, for example, reference materials [5] and [ 9]).

«Направляемое» BWE, которое отличается от расширения полосы пропускания вслепую тем, что некоторые параметры, используемые для восстановления высокочастотного (HF) контента, передаются в декодер в качестве вспомогательной информации вместо оценки из декодированного базового сигнала. AMR-WB, G.718, xHE-AAC, а также некоторые другие кодеки (см., например, ссылочные материалы [2], [7] и [11]) используют этот подход, но не на очень низких скоростях передачи битов.A “guided” BWE that differs from blind bandwidth expansion in that some parameters used to recover high-frequency (HF) content are transmitted to the decoder as auxiliary information instead of being estimated from the decoded base signal. AMR-WB, G.718, xHE-AAC, as well as some other codecs (see, for example, reference materials [2], [7] and [11]) use this approach, but not at very low bit rates.

Тем не менее, обнаружено, что сложно обеспечить надлежащее расширение полосы пропускания на низких скоростях передачи битов, которое обеспечивает достаточно хорошее качество при восстановлении аудиоконтента.However, it was found that it is difficult to ensure proper bandwidth expansion at low bit rates, which provides good enough quality when restoring audio content.

Таким образом, имеется потребность в принципе расширения полосы пропускания, который способствует улучшенному компромиссу между скоростью передачи битов и качеством звука.Thus, there is a need for a bandwidth extension principle that promotes an improved trade-off between bit rate and sound quality.

РАСКРЫТИЕ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION

Вариант осуществления согласно изобретению создает аудиокодер для обеспечения кодированной аудиоинформации на основании входной аудиоинформации. Аудиокодер содержит низкочастотный кодер, выполненный с возможностью кодировать низкочастотную часть входной аудиоинформации для того, чтобы получать кодированное представление низкочастотной части. Аудиокодер также содержит блок обеспечения информации расширения полосы пропускания, выполненный с возможностью обеспечения информации расширения полосы пропускания на основании входной аудиоинформации. Аудиокодер выполнен с возможностью избирательно включать информацию расширения полосы пропускания в кодированную аудиоинформацию сигнально-адаптивным способом.An embodiment of the invention creates an audio encoder for providing encoded audio information based on the input audio information. The audio encoder comprises a low-frequency encoder, configured to encode the low-frequency part of the input audio information in order to obtain an encoded representation of the low-frequency part. The audio encoder also comprises a bandwidth extension information providing unit adapted to provide bandwidth extension information based on the input audio information. The audio encoder is configured to selectively include bandwidth extension information in encoded audio information in a signal-adaptive manner.

Этот вариант осуществления согласно изобретению основан на таких выявленных сведениях, что для некоторых типов аудиоконтента и даже для некоторых частей смежного фрагмента аудиоконтента, расширение полосы пропускания с хорошим качеством может достигаться на основании кодированного представления низкочастотной части вообще без вспомогательной информации расширения полосы пропускания или только с небольшим объемом вспомогательной информации расширения полосы пропускания (например, с небольшим числом параметров расширения полосы пропускания, которые включены в кодированную аудиоинформацию). Тем не менее, принцип также основан на таких выявленных сведениях, что для других типов аудиоконтента и даже для других частей смежного фрагмента аудиоконтента, может быть необходимым (или по меньшей мере очень желательным) включать вспомогательную информацию расширения полосы пропускания (например, выделенные параметры расширения полосы пропускания) или увеличенный объем вспомогательной информации расширения полосы пропускания (например, по сравнению с вышеуказанным случаем) в кодированную аудиоинформацию, поскольку в противном случае расширение полосы пропускания на стороне декодера не обеспечивает удовлетворительное качество звука.This embodiment according to the invention is based on such identified information that for some types of audio content and even for some parts of an adjacent piece of audio content, good quality bandwidth expansion can be achieved based on the encoded representation of the low frequency part without any additional bandwidth extension information or with only a small amount the amount of auxiliary bandwidth extension information (for example, with a small number of bandwidth extension parameters ropuskaniya which are included in the encoded audio information). However, the principle is also based on such identified information that for other types of audio content and even for other parts of an adjacent piece of audio content, it may be necessary (or at least very desirable) to include additional bandwidth extension information (e.g., highlighted bandwidth expansion parameters bandwidth) or an increased amount of auxiliary information for expanding the bandwidth (for example, compared with the above case) into encoded audio information, since otherwise However, bandwidth expansion on the decoder side does not provide satisfactory sound quality.

Посредством избирательного включения информации расширения полосы пропускания в кодированную аудиоинформацию (например, посредством избирательного варьирования объема информации расширения полосы пропускания или параметров расширения полосы пропускания, включенных в кодированную аудиоинформацию, либо посредством избирательного переключения между включением информации расширения полосы пропускания в кодированную аудиоинформацию и исключением упомянутого включения информации расширения полосы пропускания в кодированную аудиоинформацию), можно не допускать того, что «факультативная» информация расширения полосы пропускания использует ценную скорость передачи битов для случая, когда расширение полосы пропускания на стороне декодера реально не требует информации расширения полосы пропускания, и, тем не менее, можно обеспечивать то, что информация расширения полосы пропускания (или увеличенный объем информации расширения полосы пропускания) включен в кодированную аудиоинформацию, если информация расширения полосы пропускания фактически требуется для расширения полосы пропускания на стороне декодера, т.е. для восстановления аудиоконтента на стороне декодера.By selectively including bandwidth extension information in encoded audio information (for example, by selectively varying the amount of bandwidth extension information or bandwidth extension parameters included in encoded audio information, or by selectively switching between including bandwidth extension information in encoded audio information and excluding said inclusion of information audio encoded bandwidth extensions information), it is possible to prevent the “optional” bandwidth extension information from using valuable bit rates for the case where the bandwidth extension on the decoder side does not really require bandwidth extension information, and yet it can be ensured that bandwidth extension information (or an increased amount of bandwidth extension information) is included in the encoded audio information if the bandwidth extension information is actually required to expand rhenium bandwidth on the decoder side, i.e. to restore audio content on the side of the decoder.

Таким образом, посредством избирательного включения информации расширения полосы пропускания в кодированную аудиоинформацию сигнально-адаптивным способом, т.е. когда информация расширения полосы пропускания фактически необходима для достижения достаточно хорошего качества декодированного представления аудиосигнала, средняя скорость передачи битов может уменьшаться при одновременном поддержании возможности получать высокое качество звука.Thus, by selectively including bandwidth extension information in the encoded audio information in a signal-adaptive manner, i.e. when bandwidth extension information is actually necessary to achieve a sufficiently good quality of the decoded representation of the audio signal, the average bit rate may decrease while maintaining the ability to obtain high sound quality.

Другими словами, аудиокодер, например, может переключаться между обеспечением информации расширения полосы пропускания, которая обеспечивает направляемое параметрами расширение полосы пропускания на стороне аудиодекодера, и исключением обеспечения информации расширения полосы пропускания, которая требует использования расширения полосы пропускания вслепую на стороне аудиодекодера.In other words, the audio encoder, for example, can switch between providing bandwidth extension information that provides parameter-driven bandwidth expansion on the side of the audio decoder, and eliminating providing bandwidth extension information that requires the use of blindband expansion on the side of the audio decoder.

Соответственно, очень хороший компромисс между скоростью передачи битов и качеством звука может получаться с использованием вышеописанного принципа.Accordingly, a very good compromise between bit rate and sound quality can be obtained using the above principle.

В предпочтительном варианте осуществления, аудиокодер содержит детектор, выполненный с возможностью идентифицировать части входной аудиоинформации, которые не могут декодироваться с достаточным или желаемым качеством (например, с точки зрения заданного показателя качества), на основании кодированного представления низкочастотной части и с использованием расширения полосы пропускания вслепую. В этом случае аудиокодер выполнен с возможностью избирательно включать информацию расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, идентифицированных посредством детектора. Посредством определения или оценки (например, на основании свойств входной аудиоинформации или на основании частичного или полного восстановления аудиоинформации на стороне аудиокодера) того, какие части входной аудиоинформации не могут декодироваться с достаточным (или желаемым) качеством, на основании кодированного представления низкочастотной части и с использованием расширения полосы пропускания вслепую, получается значимый критерий для определения, следует ли включать информацию расширения полосы пропускания в кодированную аудиоинформацию, для частей (например, кадров) входной аудиоинформации (или эквивалентно, для кадров или частей кодированной аудиоинформации). Другими словами, вышеуказанный критерий, который оценен посредством детектора, обеспечивает возможность хорошего компромисса между впечатлением от прослушивания, которое может достигаться посредством декодирования кодированной аудиоинформации, и скоростью передачи битов для кодированной аудиоинформации.In a preferred embodiment, the audio encoder comprises a detector configured to identify portions of the input audio information that cannot be decoded with sufficient or desired quality (for example, in terms of a given quality score) based on the encoded representation of the low frequency portion and using the blind bandwidth extension . In this case, the audio encoder is configured to selectively include bandwidth extension information in encoded audio information for portions of the input audio information identified by the detector. By determining or evaluating (for example, based on the properties of the input audio information or based on partial or complete restoration of the audio information on the side of the audio encoder) which parts of the input audio information cannot be decoded with sufficient (or desired) quality, based on the encoded representation of the low-frequency part and using blind bandwidth expansion, a significant criterion is obtained for determining whether to include bandwidth extension information in coded a audio information, for parts (for example, frames) of the input audio information (or equivalently, for frames or parts of encoded audio information). In other words, the above criterion, which is evaluated by the detector, provides a good compromise between the listening experience that can be achieved by decoding the encoded audio information and the bit rate for the encoded audio information.

В предпочтительном варианте осуществления аудиокодер содержит детектор, выполненный с возможностью идентифицировать части входной аудиоинформации, для которых параметры расширения полосы пропускания не могут оцениваться на основании низкочастотной части с достаточной или желаемой точностью. В этом случае аудиокодер выполнен с возможностью избирательно включать информацию расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, идентифицированных посредством детектора. Этот вариант осуществления согласно изобретению основан на таких выявленных сведениях, что определение в отношении того, могут ли параметры расширения полосы пропускания оцениваться на основании низкочастотной части с достаточной или желаемой точностью, составляет критерий, который может быть оценен при небольших вычислительных затратах, и который, тем не менее, составляет хороший критерий для определения, следует ли включать информацию расширения полосы пропускания в кодированную аудиоинформацию.In a preferred embodiment, the audio encoder comprises a detector configured to identify portions of the input audio information for which bandwidth expansion parameters cannot be estimated based on the low frequency portion with sufficient or desired accuracy. In this case, the audio encoder is configured to selectively include bandwidth extension information in encoded audio information for portions of the input audio information identified by the detector. This embodiment according to the invention is based on such identified information that determining whether bandwidth expansion parameters can be estimated based on the low-frequency part with sufficient or desired accuracy is a criterion that can be estimated at low computational cost, and which however, constitutes a good criterion for determining whether to include bandwidth extension information in encoded audio information.

В предпочтительном варианте осуществления аудиокодер содержит детектор, выполненный с возможностью идентифицировать части входной аудиоинформации в зависимости от того, являются ли части неподвижными во времени частями, и в зависимости от того, имеют ли части низкочастотный характер. Кроме того, аудиокодер выполнен с возможностью избирательно исключать включение информации расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, идентифицированных посредством детектора в качестве неподвижных во времени частей, имеющих низкочастотный характер.In a preferred embodiment, the audio encoder comprises a detector configured to identify parts of the input audio information depending on whether the parts are parts that are motionless in time and depending on whether the parts are of a low frequency nature. In addition, the audio encoder is configured to selectively exclude the inclusion of bandwidth extension information in encoded audio information for parts of the input audio information identified by the detector as stationary in time parts having a low frequency character.

Этот вариант осуществления согласно изобретению основан на таких выявленных сведениях, что обычно не обязательно включать информацию расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, которые являются неподвижными во времени и имеют низкочастотный характер, поскольку расширение полосы пропускания вслепую (которое не основывается на информации расширения полосы пропускания или параметрах из потока битов) обычно обеспечивает возможность достаточно хорошего восстановления таких частей сигнала. Соответственно, предусмотрен критерий, который может быть оценен вычислительно эффективным способом, и который, тем не менее, обеспечивает хорошие результаты (с точки зрения компромисса между скоростью передачи битов и качеством звука).This embodiment according to the invention is based on such identified information that it is usually not necessary to include bandwidth extension information in encoded audio information for parts of the input audio information that are motionless in time and have a low frequency character, since the bandwidth extension is blind (which is not based on the extension information bandwidth or parameters from the bit stream) usually provides the possibility of a sufficiently good recovery of such parts signal. Accordingly, a criterion is provided that can be evaluated in a computationally efficient manner, and which nonetheless provides good results (in terms of a compromise between bit rate and sound quality).

В предпочтительном варианте осуществления детектор выполнен с возможностью идентифицировать части входной аудиоинформации в зависимости от того, содержат ли части вокализованную речь, и/или в зависимости от того, содержат ли части шум окружающей среды (например, автомобилей), и/или в зависимости от того, содержат ли части музыку без ударных инструментов. Обнаружено, что такие части, которые содержат вокализованную речь, либо которые содержат шум окружающей среды, либо которые содержат музыку без ударных инструментов, обычно могут восстанавливаться с использованием расширения полосы пропускания вслепую с достаточным качеством звука, так что рекомендуется включение информации расширения полосы пропускания в кодированную аудиоинформацию для таких частей.In a preferred embodiment, the detector is configured to identify parts of the input audio information depending on whether the parts contain voiced speech, and / or depending on whether the parts contain ambient noise (e.g., cars), and / or depending on whether parts contain music without percussion instruments. It has been found that those parts that contain voiced speech, or that contain ambient noise, or that contain music without percussion instruments, can usually be restored using blindfold bandwidth extension with sufficient sound quality, so it is recommended that bandwidth extension information be included in the encoded audio information for such parts.

В предпочтительном варианте осуществления аудиокодер содержит детектор, выполненный с возможностью идентифицировать части входной аудиоинформации в зависимости от того, превышает или равна либо нет разность между спектральной огибающей низкочастотной части и спектральной огибающей высокочастотной части заданному показателю разности. В этом случае аудиокодер выполнен с возможностью избирательно включать информацию расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, идентифицированных посредством детектора.In a preferred embodiment, the audio encoder comprises a detector configured to identify portions of the input audio information depending on whether the difference between the spectral envelope of the low frequency part and the spectral envelope of the high frequency part exceeds or is equal to or equal to a predetermined difference index. In this case, the audio encoder is configured to selectively include bandwidth extension information in encoded audio information for portions of the input audio information identified by the detector.

Обнаружено, что части входной аудиоинформации, которые содержат большую разность между спектральной огибающей низкочастотной части и спектральной огибающей высокочастотной части, обычно не могут хорошо восстанавливаться с использованием расширения полосы пропускания вслепую, поскольку расширение полосы пропускания вслепую зачастую обеспечивает аналогичные спектральные огибающие в высокочастотной части (т.е. в сигнале расширения полосы пропускания) по сравнению с соответствующей низкочастотной частью. Соответственно, обнаружено, что оценка разности между спектральной огибающей низкочастотной части и спектральной огибающей высокочастотной части составляет хороший критерий определения того, следует ли включать информацию расширения полосы пропускания в кодированную аудиоинформацию.It has been found that parts of the input audio information that contain a large difference between the spectral envelope of the low-frequency part and the spectral envelope of the high-frequency part cannot usually be reconstructed well using blind bandwidth expansion, since blind bandwidth expansion often provides similar spectral envelopes in the high-frequency part (i.e. e. in the bandwidth extension signal) compared to the corresponding low-frequency part. Accordingly, it has been found that estimating the difference between the spectral envelope of the low-frequency part and the spectral envelope of the high-frequency part is a good criterion for determining whether to include bandwidth extension information in encoded audio information.

В предпочтительном варианте осуществления детектор выполнен с возможностью идентифицировать части входной аудиоинформации в зависимости от того, содержат ли части невокализованную речь, и/или в зависимости от того, содержат ли части звуки ударных инструментов. Обнаружено, что части, содержащие невокализованную речь, и части, содержащие звуки ударных инструментов, обычно содержат спектры, в которых спектральная огибающая низкочастотной части существенно отличается от спектральной огибающей высокочастотной части. Соответственно, обнаружено, что обнаружение невокализованной речи и/или звуков ударных инструментов представляет собой хороший критерий определения того, следует ли включать информацию расширения полосы пропускания в кодированную аудиоинформацию.In a preferred embodiment, the detector is configured to identify parts of the input audio information depending on whether the parts contain unvoiced speech and / or depending on whether the parts contain sounds of percussion instruments. It has been found that parts containing unvoiced speech and parts containing percussion instrument sounds typically contain spectra in which the spectral envelope of the low-frequency part differs significantly from the spectral envelope of the high-frequency part. Accordingly, it has been found that the detection of unvoiced speech and / or percussion sounds is a good criterion for determining whether to include bandwidth extension information in encoded audio information.

В предпочтительном варианте осуществления аудиокодер содержит детектор, выполненный с возможностью определять спектральный наклон частей входной аудиоинформации и идентифицировать части входной аудиоинформации в зависимости от того, превышает или равен либо нет определенный спектральный наклон фиксированному или переменному пороговому значению наклона. В этом случае аудиокодер выполнен с возможностью избирательно включать информацию расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, идентифицированных посредством детектора. Обнаружено, что спектральный наклон может извлекаться при небольших вычислительных затратах и при этом обеспечивает хороший критерий определения в отношении того, следует ли включать информацию расширения полосы пропускания в кодированную аудиоинформацию. Например, если спектральный наклон достигает или превышает пороговое значение наклона, можно прийти к выводу, что спектр имеет высокочастотный характер и не может быть хорошо восстановлен посредством расширения полосы пропускания вслепую. В частности, расширение полосы пропускания вслепую обычно не может восстанавливать спектры, содержащие положительный наклон (при этом высокочастотная часть подчеркивается относительно низкочастотной части), с хорошей точностью. Кроме того, поскольку высокочастотная часть имеет конкретную перцепционную релевантность в случае положительного спектрального наклона, в таких случаях рекомендуется включать информацию расширения полосы пропускания в кодированное аудиопредставление.In a preferred embodiment, the audio encoder comprises a detector configured to determine a spectral tilt of parts of the input audio information and to identify parts of the input audio information depending on whether the specific spectral tilt is greater than or equal to a fixed or variable threshold tilt value. In this case, the audio encoder is configured to selectively include bandwidth extension information in encoded audio information for portions of the input audio information identified by the detector. It has been found that the spectral tilt can be extracted at a low computational cost, while providing a good determination criterion as to whether bandwidth extension information should be included in the encoded audio information. For example, if the spectral tilt reaches or exceeds the threshold tilt value, it can be concluded that the spectrum has a high-frequency character and cannot be well restored by expanding the blind bandwidth. In particular, blind bandwidth expansion usually cannot restore spectra containing a positive slope (with the high-frequency part being emphasized with respect to the low-frequency part), with good accuracy. In addition, since the high-frequency part has a specific perceptual relevance in the case of a positive spectral tilt, it is recommended in such cases to include bandwidth extension information in an encoded audio presentation.

В предпочтительном варианте осуществления детектор дополнительно выполнен с возможностью определять частоту переходов через нуль частей входной аудиоинформации и идентифицировать части входной аудиоинформации также в зависимости от того, превышает или равна либо нет определенная частота переходов через нуль фиксированному или переменному пороговому значению частоты переходов через нуль. Обнаружено, что частота переходов через нуль также представляет собой хороший критерий для того, чтобы обнаруживать части входной аудиоинформации, которые не могут быть хорошо восстановлены с использованием расширения полосы пропускания вслепую, так что целесообразно (с точки зрения достижения хорошего компромисса между скоростью передачи битов и качеством звука) включать информацию расширения полосы пропускания в кодированную аудиоинформацию.In a preferred embodiment, the detector is further configured to determine the frequency of zero transitions of parts of the input audio information and to identify parts of the input audio information also depending on whether or not a certain frequency of zero transitions exceeds a fixed or variable threshold value of the zero transition frequency. It has been found that the zero-crossing rate is also a good criterion for detecting portions of the input audio information that cannot be well reconstructed using blind bandwidth expansion, so it is advisable (in terms of achieving a good compromise between bit rate and quality audio) include bandwidth extension information in encoded audio information.

В предпочтительном варианте осуществления детектор выполнен с возможностью применять гистерезис для идентификации частей сигнала входной аудиоинформации для того, чтобы сокращать число переходов между идентифицированными частями сигнала (для которых информация расширения полосы пропускания включена в кодированное аудиопредставление) и неидентифицированными частями сигнала (для которых информация расширения полосы пропускания не включена в кодированное аудиопредставление). Обнаружено, что преимущественно не допускать избыточного переключения между включением информации расширения полосы пропускания в кодированную аудиоинформацию и исключением включения информации расширения полосы пропускания в кодированное аудиопредставление, поскольку такие переходы могут способствовать некоторым артефактам, в частности, если число переходов является очень большим. Соответственно, с использованием гистерезиса, который, например, может применяться к пороговому значению наклона (которое в таком случае является переменным пороговым значением наклона) или к пороговому значению частоты переходов через нуль (которое в таком случае является переменным пороговым значением частоты переходов через нуль), эта цель может достигаться.In a preferred embodiment, the detector is configured to use hysteresis to identify parts of the signal of the input audio information in order to reduce the number of transitions between the identified parts of the signal (for which the bandwidth extension information is included in the encoded audio presentation) and the unidentified parts of the signal (for which the bandwidth extension information not included in encoded audio presentation). It has been found that it is preferable not to allow excessive switching between including bandwidth extension information in encoded audio information and excluding inclusion of bandwidth extension information in encoded audio presentation, since such transitions may contribute to some artifacts, in particular if the number of transitions is very large. Accordingly, using hysteresis, which, for example, can be applied to a slope threshold value (which in this case is a variable slope threshold value) or to a threshold value of zero transitions (which in this case is a variable threshold value of zero transitions), this goal can be achieved.

В предпочтительном варианте осуществления аудиокодер выполнен с возможностью избирательно включать параметры, представляющие спектральную огибающую высокочастотной части входной аудиоинформации, в кодированную аудиоинформацию сигнально-адаптивным способом в качестве информации расширения полосы пропускания. Этот вариант осуществления основан на такой идее, что параметры, представляющие спектральную огибающую высокочастотной части, являются особенно важными в направляемом параметрами расширении полосы пропускания, так что включение упомянутых параметров, представляющих спектральную огибающую высокочастотной части входной аудиоинформации, позволяет достигать расширения полосы пропускания с хорошим качеством без результирующей высокой скорости передачи битов.In a preferred embodiment, the audio encoder is configured to selectively include parameters representing the spectral envelope of the high-frequency part of the input audio information in the encoded audio information in a signal-adaptive manner as bandwidth extension information. This embodiment is based on the idea that the parameters representing the spectral envelope of the high-frequency part are particularly important in the parameter-guided expansion of the passband, so that the inclusion of the above parameters representing the spectral envelope of the high-frequency part of the input audio information allows achieving a bandwidth extension with good quality without resulting high bit rate.

В предпочтительном варианте осуществления низкочастотный кодер выполнен с возможностью кодировать низкочастотную часть входной аудиоинформации, содержащую частоты вплоть до максимальной частоты, которая находится в диапазоне 6-7 кГц. Кроме того, аудиокодер выполнен с возможностью избирательно включать в кодированное аудиопредставление от трех до пяти параметров, описывающих интенсивности высокочастотных частей или подчастей сигнала (например, частей сигнала, имеющих частоты выше приблизительно 6-7 кГц), имеющих полосы пропускания в 300-500 Гц. Обнаружено, что такой принцип приводит к высокому качеству звука без существенного увеличения затрат в виде скорости передачи битов.In a preferred embodiment, the low-frequency encoder is configured to encode the low-frequency part of the input audio information containing frequencies up to the maximum frequency, which is in the range of 6-7 kHz. In addition, the audio encoder is configured to selectively include from three to five parameters describing the intensities of the high-frequency parts or sub-parts of the signal (e.g., parts of the signal having frequencies above about 6-7 kHz) having a passband of 300-500 Hz. It was found that such a principle leads to high sound quality without a significant increase in costs in the form of bit rate.

В предпочтительном варианте осуществления аудиокодер выполнен с возможностью избирательно включать в кодированное аудиопредставление 3-5 скалярно квантованных параметров, описывающих интенсивности четырех высокочастотных частей (или подчастей) сигнала, причем высокочастотные части (или подчасти) сигнала покрывают частотные диапазоны выше низкочастотной части. Обнаружено, что использование 3-5 скалярно квантованных параметров, описывающих интенсивности четырех высокочастотных частей сигнала, обычно является достаточным для того, чтобы достигать направляемого параметрами расширения полосы пропускания, которое превышает относительно низкое качество звука, получаемое посредством расширения полосы пропускания вслепую на идентичной части сигнала. Соответственно, отсутствуют большие различия в качестве между восстановленными частями аудиосигнала, независимо от того, восстановлены восстановленные части аудиосигнала с использованием расширения полосы пропускания вслепую или направляемого расширения полосы пропускания. Таким образом, вышеуказанный принцип хорошо адаптирован к принципу, который обеспечивает возможность переключения между расширением полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания.In a preferred embodiment, the audio encoder is configured to selectively include 3-5 scalar quantized parameters describing the intensities of the four high-frequency parts (or sub-parts) of the signal in the encoded audio presentation, the high-frequency parts (or sub-parts) of the signal covering frequency ranges above the low-frequency part. It has been found that the use of 3-5 scalar quantized parameters describing the intensities of the four high-frequency parts of the signal is usually sufficient to achieve a parameter-guided bandwidth extension that exceeds the relatively low sound quality obtained by blindly extending the bandwidth on an identical part of the signal. Accordingly, there are no large differences in quality between the reconstructed parts of the audio signal, regardless of whether the reconstructed parts of the audio signal using the blind bandwidth extension or the directional bandwidth extension are restored. Thus, the above principle is well adapted to the principle that provides the ability to switch between blind bandwidth expansion and parameter-guided bandwidth expansion.

В предпочтительном варианте осуществления аудиокодер выполнен с возможностью избирательно включать в кодированное аудиопредставление множество параметров, описывающих взаимосвязь между энергиями спектрально смежных частотных частей, при этом один из параметров описывает отношение между энергией первой высокочастотной части и низкочастотной части расширения полосы пропускания, и при этом другие из параметров описывают отношения между энергиями (пар) других высокочастотных частей расширения полосы пропускания. Обнаружено, что такой принцип, описывающий отношения (или разности) между энергиями (или, эквивалентно, интенсивностями) различных (предпочтительно смежных) частотных частей, обеспечивает возможность эффективного кодирования информации расширения полосы пропускания. Также обнаружено, что такие параметры, описывающие взаимосвязь между энергиями спектрально смежных частотных частей, обычно могут квантоваться только с небольшим числом битов без существенного ухудшения качества звука, получаемого посредством расширения полосы пропускания.In a preferred embodiment, the audio encoder is configured to selectively include in the encoded audio presentation a plurality of parameters describing the relationship between the energies of the spectrally adjacent frequency parts, one of the parameters describing the relationship between the energy of the first high-frequency part and the low-frequency part of the bandwidth extension, and other parameters describe the relationship between the energies (pairs) of other high-frequency parts of the expansion of the bandwidth. It has been found that such a principle describing the relationships (or differences) between the energies (or, equivalently, intensities) of different (preferably adjacent) frequency parts provides the ability to efficiently encode bandwidth extension information. It has also been found that such parameters describing the relationship between the energies of spectrally adjacent frequency parts can usually be quantized with only a small number of bits without significantly degrading the sound quality obtained by expanding the bandwidth.

Другой вариант осуществления согласно изобретению обеспечивает аудиодекодер для обеспечения декодированной аудиоинформации на основании кодированной аудиоинформации. Аудиодекодер содержит низкочастотный декодер, выполненный с возможностью декодировать кодированное представление низкочастотной части (аудиоконтента) для того, получать декодированное представление низкочастотной части. Аудиодекодер также содержит расширение полосы пропускания, выполненное с возможностью получать сигнал расширения полосы пропускания с использованием расширения полосы пропускания вслепую для частей аудиоконтента, для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию, и получать сигнал расширения полосы пропускания с использованием направляемого параметрами расширения полосы пропускания для частей аудиоконтента, для которых параметры расширения полосы пропускания включены в кодированную аудиоинформацию.Another embodiment according to the invention provides an audio decoder for providing decoded audio information based on encoded audio information. The audio decoder comprises a low-frequency decoder, configured to decode the encoded representation of the low-frequency part (audio content) in order to obtain a decoded representation of the low-frequency part. The audio decoder also comprises a bandwidth extension configured to receive a bandwidth extension signal using blindly bandwidth extension for parts of audio content for which the bandwidth extension parameters are not included in the encoded audio information, and to obtain a bandwidth extension signal using the bandwidth extension parameter guided for parts of audio content for which bandwidth extension parameters are included in the encoded audio information.

Этот аудиокодер основан на такой идее, что хороший компромисс между качеством звука и скоростью передачи битов может получаться, если можно переключаться между расширением полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания даже в пределах смежного фрагмента аудиоконтента, поскольку обнаружено, что множество характерных фрагментов аудиоконтента содержат как секции, для которых высокое качество звука может получаться с использованием расширения полосы пропускания вслепую, так и секции, для которых требуется направляемое параметрами расширение полосы пропускания с тем, чтобы достигать достаточного качества звука. Кроме того, должно быть очевидным, что идентичные соображения, поясненные выше относительно аудиокодера, также применяются к аудиодекодеру.This audio encoder is based on the idea that a good compromise between sound quality and bit rate can be obtained if you can switch between blind bandwidth expansion and parameter-guided bandwidth expansion even within an adjacent piece of audio content, since it has been found that many characteristic pieces of audio content contain both sections for which high sound quality can be obtained using blind bandwidth expansion, and sections for which ebuetsya guided bandwidth extension parameters so as to achieve sufficient sound quality. In addition, it should be obvious that the identical considerations explained above with respect to the audio encoder also apply to the audio decoder.

В предпочтительном варианте осуществления аудиодекодер выполнен с возможностью определять то, следует получать сигнал расширения полосы пропускания с использованием расширения полосы пропускания вслепую или с использованием направляемого параметрами расширения полосы пропускания, на покадровой основе. Обнаружено, что такое сверхточное (покадровое) переключение между расширением полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания помогает поддерживать скорость передачи битов обоснованно низкой, даже если регулярно возникают некоторые кадры, в которых направляемое параметрами расширение полосы пропускания требуется для того, чтобы не допускать избыточного ухудшения аудиоконтента.In a preferred embodiment, the audio decoder is configured to determine whether to receive a bandwidth extension signal using a blindband extension or using a parameterized bandwidth extension on a frame-by-frame basis. It has been found that such a fine-tuning (frame-by-frame) switching between blind bandwidth extension and bandwidth-guided parameters helps keep the bit rate reasonably low even if some frames regularly appear in which parameter-guided bandwidth expansion is required in order to avoid excessive deterioration in audio content.

В предпочтительном варианте осуществления аудиодекодер выполнен с возможностью переключаться между использованием расширения полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания в пределах смежного фрагмента аудиоконтента. Этот вариант осуществления основан на таких выявленных сведениях, что даже один (смежный) фрагмент аудиоконтента зачастую содержит пассажи (либо части или кадры) различных видов, некоторые из которых должны кодироваться (и, следовательно, декодироваться) с использованием направляемого параметрами расширения полосы пропускания, в то время как другие пассажи или кадры могут декодироваться с использованием расширения полосы пропускания вслепую без существенного ухудшения качества звука.In a preferred embodiment, the audio decoder is configured to switch between using blind bandwidth expansion and parameter-guided bandwidth expansion within an adjacent piece of audio content. This embodiment is based on such revealed information that even one (adjacent) fragment of audio content often contains passages (or parts or frames) of various types, some of which must be encoded (and therefore decoded) using the bandwidth extension while other passages or frames can be decoded using blind bandwidth extension without significant degradation of sound quality.

В предпочтительном варианте осуществления аудиодекодер выполнен с возможностью оценивать флаги, включенные в кодированную аудиоинформацию для различных частей (например, кадров) аудиоконтента, чтобы определять то, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания (например, для кадра, с которым ассоциирован флаг). Соответственно, определение того, должно использоваться расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания, поддерживается простым, и аудиодекодер не должен иметь существенной интеллектуальности, чтобы определять то, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания.In a preferred embodiment, the audio decoder is configured to evaluate flags included in the encoded audio information for different parts (e.g., frames) of audio content to determine whether to use blind bandwidth extension or parameter-guided bandwidth extension (e.g., for the frame with which it is associated flag). Accordingly, determining whether a bandwidth extension is used blindly or parameter-guided bandwidth expansion is supported is simple, and the audio decoder should not have significant intelligence to determine whether to use a bandwidth expansion blindly or parameter-guided bandwidth extension.

Тем не менее, в другом предпочтительном варианте осуществления аудиодекодер выполнен с возможностью определять то, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания, на основании кодированного представления низкочастотной части без оценки флага сигнализации режима расширения полосы пропускания. Таким образом, за счет обеспечения интеллектуальности в аудиодекодере может исключаться флаг сигнализации режима расширения полосы пропускания, что сокращает скорость передачи битов.However, in another preferred embodiment, the audio decoder is configured to determine whether to use blind bandwidth extension or parameter-driven bandwidth extension based on the encoded representation of the low frequency portion without evaluating the bandwidth extension mode signaling flag. Thus, by providing intelligence in the audio decoder, the bandwidth extension mode signaling flag can be eliminated, which reduces the bit rate.

В предпочтительном варианте осуществления аудиодекодер выполнен с возможностью определять то, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания, на основании одного или более свойств декодированного представления низкочастотной части (аудиоконтента). Обнаружено, что свойства декодированного представления низкочастотной части составляют величины, которые могут использоваться с хорошей точностью для того, чтобы определять то, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания. Это является, в частности, верным, если на стороне аудиокодера используются те же свойства. Соответственно, более не обязательно оценивать флаг сигнализации режима расширения полосы пропускания, что, в свою очередь, обеспечивает возможность уменьшения скорости передачи битов, поскольку не обязательно включать флаг сигнализации режима расширения полосы пропускания в кодированное аудиопредставление на стороне аудиокодера.In a preferred embodiment, the audio decoder is configured to determine whether to use blind bandwidth expansion or parameter-guided bandwidth expansion based on one or more properties of the decoded representation of the low frequency portion (audio content). It has been found that the properties of the decoded representation of the low-frequency part are values that can be used with good accuracy in order to determine whether to use the bandwidth extension blindly or parameter-guided bandwidth extension. This is particularly true if the same properties are used on the audio encoder side. Accordingly, it is no longer necessary to evaluate the signaling flag of the bandwidth extension mode, which, in turn, makes it possible to reduce the bit rate, since it is not necessary to include the signaling flag of the bandwidth expansion mode in the encoded audio presentation on the audio encoder side.

В предпочтительном варианте осуществления аудиодекодер выполнен с возможностью определять то, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания, на основании квантованных коэффициентов линейного прогнозирования и/или статистики во временной области декодированного представления низкочастотной части (аудиоконтента). Обнаружено, что квантованные коэффициенты линейного прогнозирования могут легко получаться на стороне аудиодекодера и за счет обеспечения возможности извлекать спектральный наклон, как следствие, могут служить в качестве хорошего индикатора того, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания. Кроме того, квантованные коэффициенты линейного прогнозирования также являются легкодоступными на стороне аудиокодера, так что можно легко координировать переключение между расширением полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания на стороне аудиокодера и на стороне аудиодекодера. Аналогично, обнаружено, что статистика во временной области декодированного представления низкочастотной части, такая как частота переходов через нуль, представляет собой надежную величину для определения того, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания на стороне аудиодекодера.In a preferred embodiment, the audio decoder is configured to determine whether to use blind bandwidth expansion or parameter-guided bandwidth expansion based on quantized linear prediction coefficients and / or statistics in the time domain of the decoded representation of the low frequency part (audio content). It has been found that quantized linear prediction coefficients can be easily obtained on the side of the audio decoder and by providing the ability to extract the spectral tilt, as a result, they can serve as a good indicator of whether to use the bandwidth extension blindly or parameter-guided bandwidth expansion. In addition, the quantized linear prediction coefficients are also readily available on the audio encoder side, so that switching between the blind bandwidth extension and the parameter-guided bandwidth extension on the audio encoder side and the audio decoder side can be easily coordinated. Similarly, it has been found that time-domain statistics of the decoded representation of the low-frequency part, such as the zero-crossing frequency, are a reliable value for determining whether to use blind bandwidth extension or parameter-guided bandwidth extension on the side of the audio decoder.

В предпочтительном варианте осуществления расширение полосы пропускания выполнено с возможностью получать сигнал расширения полосы пропускания с использованием одного или более свойств декодированного представления низкочастотной части и/или с использованием одного или более параметров низкочастотного декодера для временных частей входной аудиоинформации (или контента), для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию. Обнаружено, что такое расширение полосы пропускания вслепую приводит к высокому качеству звука.In a preferred embodiment, the bandwidth extension is configured to receive a bandwidth extension signal using one or more decoded representations of the low frequency part and / or using one or more low frequency decoder parameters for temporary parts of the input audio information (or content) for which the expansion parameters bandwidths are not included in encoded audio information. It has been found that such blind bandwidth expansion results in high sound quality.

В предпочтительном варианте осуществления расширение полосы пропускания выполнено с возможностью получать сигнал расширения полосы пропускания с использованием информации спектрального центроида и/или с использованием информации энергии, и/или с использованием информации (спектрального) наклона, и/или с использованием кодированных коэффициентов фильтрации для временных частей входной аудиоинформации (или контента), для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию. Обнаружено, что использование этих величин дает в результате эффективный способ получать расширение полосы пропускания с хорошим качеством.In a preferred embodiment, the bandwidth extension is configured to receive a bandwidth extension signal using spectral centroid information and / or using energy information and / or using tilt information (spectral) and / or using encoded filter coefficients for the time parts input audio information (or content) for which bandwidth extension parameters are not included in the encoded audio information. It has been found that using these values results in an effective way to obtain bandwidth expansion with good quality.

В предпочтительном варианте осуществления расширение полосы пропускания выполнено с возможностью получать сигнал расширения полосы пропускания с использованием параметров потока битов, описывающих спектральную огибающую высокочастотной части для временных частей аудиоконтента, для которых параметры расширения полосы пропускания включены в кодированную аудиоинформацию. Обнаружено, что использование параметров потока битов, описывающих спектральную огибающую высокочастотной части, обеспечивает возможность эффективного по скорости передачи битов направляемого параметрами расширения полосы пропускания с хорошим качеством, при этом параметры потока битов, описывающие спектральную огибающую, обычно не требуют высокой скорости передачи битов, и могут кодироваться только с сравнительно небольшим числом битов в расчете на аудиокадр. Следовательно, даже переключение на направляемое параметрами расширение полосы пропускания не приводит к существенному увеличению скорости передачи битов.In a preferred embodiment, the bandwidth extension is configured to receive a bandwidth extension signal using bitstream parameters describing the spectral envelope of the high frequency portion for the time portions of the audio content for which the bandwidth expansion parameters are included in the encoded audio information. It was found that the use of bit stream parameters describing the spectral envelope of the high-frequency part provides the possibility of efficient bit rate directed by the bandwidth expansion parameters with good quality, while the bit stream parameters describing the spectral envelope usually do not require a high bit rate, and can only encoded with a relatively small number of bits per audio frame. Therefore, even switching to parameter-driven bandwidth expansion does not significantly increase the bit rate.

В предпочтительном варианте осуществления расширение полосы пропускания выполнено с возможностью оценивать от трех до пяти параметров потока битов, описывающих интенсивности высокочастотных частей сигнала, имеющих полосы пропускания в 300-500 Гц, чтобы получать сигнал расширения полосы пропускания. Обнаружено, что сравнительно небольшое число параметров потока битов является достаточным для того, чтобы получать расширение полосы пропускания в перцепционно важном диапазоне, так что высокое качество звука может получаться с небольшим увеличением скорости передачи битов.In a preferred embodiment, the bandwidth extension is configured to evaluate from three to five bitstream parameters describing the intensities of the high frequency parts of the signal having a bandwidth of 300-500 Hz to obtain a bandwidth extension signal. It has been found that a relatively small number of bitstream parameters is sufficient to obtain bandwidth expansion in a perceptually important range, so that high sound quality can be obtained with a slight increase in bit rate.

В предпочтительном варианте осуществления от трех до пяти параметров потока битов, описывающих интенсивность высокочастотных частей сигнала, имеющих полосы пропускания в 300-500 Гц, скалярно квантуются с разрешением в 2 или 3 бита, так что предусмотрено 6-15 битов для параметров формирования спектра расширения полосы пропускания в расчете на аудиокадр. Обнаружено, что такой выбор обеспечивает очень высокую эффективность по скорости передачи битов направляемого параметрами расширения полосы пропускания, в то время как качество расширения полосы пропускания обычно является сравнимым с качеством расширения полосы пропускания, получаемым с использованием расширения полосы пропускания вслепую для «некритических» частей аудиоконтента, в которых расширение полосы пропускания вслепую предлагает хорошие результаты. Соответственно, обеспечивается сбалансированное качество как в случае, если применяется расширение полосы пропускания вслепую, так и в случае, если применяется направляемое параметрами расширение полосы пропускания.In a preferred embodiment, from three to five bitstream parameters describing the intensity of the high frequency parts of the signal having a passband of 300-500 Hz are scalarly quantized with a resolution of 2 or 3 bits, so that 6-15 bits are provided for the parameters of forming the band extension spectrum bandwidth per audio frame. It was found that this choice provides a very high bit rate efficiency guided by the parameters of the bandwidth extension, while the quality of the bandwidth expansion is usually comparable to the quality of the bandwidth obtained using blind bandwidth expansion for "non-critical" parts of audio content, in which blindfold bandwidth expansion offers good results. Accordingly, a balanced quality is ensured both in the case that blind bandwidth expansion is applied, and in the case where the bandwidth expansion directed by the parameters is applied.

В предпочтительном варианте осуществления расширение полосы пропускания выполнено с возможностью осуществлять сглаживание энергий сигнала расширения полосы пропускания при переключении с расширения полосы пропускания вслепую на направляемое параметрами расширение полосы пропускания и/или при переключении с направляемого параметрами расширения полосы пропускания на расширение полосы пропускания вслепую. Соответственно, могут не допускаться щелчки или «артефакты блочности», которые могут вызываться посредством различных свойств расширения полосы пропускания вслепую и направляемого параметрами расширения полосы пропускания.In a preferred embodiment, the bandwidth extension is configured to smooth out the energies of the bandwidth extension signal when switching from a blind bandwidth extension to a parameter-driven bandwidth extension and / or when switching from a parameterized bandwidth extension to a blind-bandwidth extension. Accordingly, clicks or “blocking artifacts” that may be triggered by various blind bandwidth expansion properties and channelized by bandwidth expansion parameters may not be allowed.

В предпочтительном варианте осуществления расширение полосы пропускания выполнено с возможностью гасить высокочастотную часть сигнала расширения полосы пропускания для части аудиоконтента, к которой применяется направляемое параметрами расширение полосы пропускания, после части аудиоконтента, к которой применяется расширение полосы пропускания вслепую. Кроме того, расширение полосы пропускания выполнено с возможностью уменьшать гашение для высокочастотной части сигнала расширения полосы пропускания для части аудиоконтента, к которой применяется расширение полосы пропускания вслепую, после части аудиоконтента, к которой применяется направляемое параметрами расширение полосы пропускания. Соответственно, может компенсироваться в некоторой степени такой эффект, что расширение полосы пропускания вслепую обычно показывает характеристику нижних частот, при том, что это не обязательно имеет место для направляемого параметрами расширения полосы пропускания. Соответственно, уменьшаются артефакты при переходах между частями аудиоконтента, декодированными с использованием расширения полосы пропускания вслепую и с использованием направляемого параметрами расширения полосы пропускания.In a preferred embodiment, the bandwidth extension is configured to suppress the high frequency portion of the bandwidth extension signal for the portion of audio content to which the parameter-directed bandwidth extension is applied after the portion of the audio content to which the blindband extension is applied. In addition, the bandwidth extension is configured to reduce blanking for the high frequency portion of the bandwidth extension signal for the portion of audio content to which the bandwidth extension is applied blindly after the portion of the audio content to which the parameter-directed bandwidth extension is applied. Accordingly, to some extent, such an effect can be compensated that the expansion of the passband blindly usually shows the characteristic of the lower frequencies, while this does not necessarily occur for the bandwidth extension guided by the parameters. Accordingly, artifacts are reduced during transitions between portions of audio content decoded using blind bandwidth extension and using parameter-driven bandwidth expansion.

Другой вариант осуществления согласно изобретению обеспечивает способ обеспечения кодированной аудиоинформации на основании входной аудиоинформации. Способ содержит кодирование низкочастотной части входной аудиоинформации для того, чтобы получать кодированное представление низкочастотной части. Способ также содержит обеспечение информации расширения полосы пропускания на основании входной аудиоинформации. Информация расширения полосы пропускания избирательно включена в кодированную аудиоинформацию сигнально-адаптивным способом. Этот способ основан на соображениях, идентичных соображениям для вышеописанного аудиокодера.Another embodiment according to the invention provides a method for providing encoded audio information based on the input audio information. The method comprises encoding the low-frequency part of the input audio information in order to obtain an encoded representation of the low-frequency part. The method also comprises providing bandwidth extension information based on input audio information. Bandwidth extension information is selectively included in the encoded audio information in a signal adaptive manner. This method is based on considerations identical to those for the above audio encoder.

Другой вариант осуществления согласно изобретению обеспечивает способ обеспечения декодированной аудиоинформации на основании кодированной аудиоинформации. Способ содержит декодирование кодированного представления низкочастотной части для того, чтобы получать декодированное представление низкочастотной части. Способ дополнительно содержит получение сигнала расширения полосы пропускания с использованием расширения полосы пропускания вслепую для частей аудиоконтента, для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию. Способ дополнительно содержит получение сигнала расширения полосы пропускания с использованием направляемого параметрами расширения полосы пропускания для частей аудиоконтента, для которых параметры расширения полосы пропускания включены в кодированную аудиоинформацию. Этот способ основан на соображениях, идентичных соображениям для вышеописанного аудиодекодера.Another embodiment according to the invention provides a method for providing decoded audio information based on encoded audio information. The method comprises decoding the encoded representation of the low frequency part in order to obtain a decoded representation of the low frequency part. The method further comprises receiving a bandwidth extension signal using blindly bandwidth extension for parts of audio content for which bandwidth extension parameters are not included in the encoded audio information. The method further comprises receiving a bandwidth extension signal using the bandwidth expansion-guided parameters for parts of audio content for which the bandwidth expansion parameters are included in the encoded audio information. This method is based on considerations identical to those for the above audio decoder.

Другой вариант осуществления согласно изобретению создает компьютерную программу для осуществления одного из вышеуказанных способов, когда компьютерная программа работает на компьютере.Another embodiment according to the invention creates a computer program for implementing one of the above methods when the computer program is running on a computer.

Другой вариант осуществления согласно изобретению создает кодированное аудиопредставление, представляющее аудиоинформацию. Кодированное аудиопредставление содержит кодированное представление низкочастотной части аудиоинформации и информации расширения полосы пропускания. Информация расширения полосы пропускания включена в кодированное аудиопредставление сигнально-адаптивным способом для некоторых, но не для всех частей аудиоинформации. Эта кодированная аудиоинформация обеспечивается посредством аудиокодера, описанного выше, и может быть оценена посредством аудиодекодера, описанного выше.Another embodiment according to the invention creates an encoded audio presentation representing audio information. The encoded audio presentation comprises an encoded representation of the low frequency portion of the audio information and the bandwidth extension information. Bandwidth extension information is included in the encoded audio presentation in a signal-adaptive manner for some, but not all parts of the audio information. This encoded audio information is provided by the audio encoder described above, and can be estimated by the audio decoder described above.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS

Ниже описаны варианты осуществления согласно настоящему изобретению со ссылкой на прилагаемые чертежи, на которых:Embodiments of the present invention are described below with reference to the accompanying drawings, in which:

Фиг. 1 показывает принципиальную блок-схему аудиокодера согласно варианту осуществления настоящего изобретения;FIG. 1 shows a schematic block diagram of an audio encoder according to an embodiment of the present invention;

Фиг. 2 показывает принципиальную блок-схему аудиокодера согласно другому варианту осуществления настоящего изобретения;FIG. 2 shows a schematic block diagram of an audio encoder according to another embodiment of the present invention;

Фиг. 3 показывает графическое представление частотных частей и кодированной аудиоинформации, ассоциированной с ними;FIG. 3 shows a graphical representation of the frequency parts and encoded audio information associated with them;

Фиг. 4 показывает принципиальную блок-схему аудиодекодера согласно варианту осуществления настоящего изобретения;FIG. 4 shows a schematic block diagram of an audio decoder according to an embodiment of the present invention;

Фиг. 5 показывает принципиальную блок-схему аудиодекодера согласно другому варианту осуществления настоящего изобретения;FIG. 5 shows a schematic block diagram of an audio decoder according to another embodiment of the present invention;

Фиг. 6 показывает блок-схему способа обеспечения кодированного аудиопредставления согласно варианту осуществления настоящего изобретения;FIG. 6 shows a flowchart of a method for providing an encoded audio presentation according to an embodiment of the present invention;

Фиг. 7 показывает блок-схему способа обеспечения декодированного аудиопредставления согласно варианту осуществления настоящего изобретения;FIG. 7 shows a flowchart of a method for providing a decoded audio presentation according to an embodiment of the present invention;

Фиг. 8 показывает схематичную иллюстрацию кодированного аудиопредставления согласно варианту осуществления настоящего изобретения.FIG. 8 shows a schematic illustration of an encoded audio presentation according to an embodiment of the present invention.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯDETAILED DESCRIPTION OF THE INVENTION

1. Аудиокодер согласно фиг. 11. The audio encoder of FIG. one

Фиг. 1 показывает принципиальную блок-схему аудиокодера, согласно варианту осуществления настоящего изобретения.FIG. 1 shows a schematic block diagram of an audio encoder according to an embodiment of the present invention.

Аудиокодер 100 согласно фиг. 1 принимает входную аудиоинформацию 110 и обеспечивает на основании ее кодированную аудиоинформацию 112. Аудиокодер 100 содержит низкочастотный кодер 120, который выполнен с возможностью кодировать низкочастотную часть входной аудиоинформации 110 с тем, получать кодированное представление 122 низкочастотной части. Аудиокодер 100 также содержит блок 130 обеспечения информации расширения полосы пропускания, выполненный с возможностью обеспечения информации 132 расширения полосы пропускания на основании входной аудиоинформации 110. Аудиокодер 100 выполнен с возможностью избирательно включать информацию 132 расширения полосы пропускания в кодированную аудиоинформацию 112 сигнально-адаптивным способом.The audio encoder 100 of FIG. 1 receives the input audio information 110 and provides, based on its encoded audio information 112. The audio encoder 100 comprises a low-frequency encoder 120, which is configured to encode the low-frequency part of the input audio information 110 so as to obtain an encoded representation of the low-frequency part 122. The audio encoder 100 also includes a bandwidth extension information providing unit 130 adapted to provide bandwidth extension information 132 based on the input audio information 110. The audio encoder 100 is configured to selectively include the bandwidth extension information 132 in the signal-adaptive encoded audio information 112.

Относительно функциональности аудиокодера 100 можно сказать, что аудиокодер 100 обеспечивает эффективное по скорости передачи битов кодирование входной аудиоинформации 110. Низкочастотная часть, например, в частотном диапазоне приблизительно вплоть до 6 или 7 кГц, кодируется с использованием низкочастотного кодера 120, в котором может использоваться любой из известных принципов кодирования аудио. Например, низкочастотный кодер 120 может представлять собой «общий аудиокодер» (такой как, например, AAC-аудиокодер) или речевой аудиокодер (такой как, например, аудиокодер на основании линейного прогнозирования, CELP-аудиокодер, ACELP-аудиокодер и т.п.). Соответственно, низкочастотная часть входной аудиоинформации кодируется с использованием любых из традиционных принципов. Тем не менее, скорость передачи битов кодированного представления 122 низкочастотной части поддерживается обоснованно небольшой, поскольку кодируются только частотные компоненты приблизительно вплоть до 6-7 кГц. Кроме того, аудиокодер 100 допускает обеспечение информации расширения полосы пропускания, например, в форме параметров расширения полосы пропускания, описывающих высокочастотную часть входной аудиоинформации 110, такую как, например, частотная область, содержащая более высокие частоты по сравнению с частотной областью, кодированной посредством низкочастотного кодера 120. Таким образом, блок 130 обеспечения информации расширения полосы пропускания допускает обеспечение вспомогательной информации кодированной аудиоинформации 112, которая может управлять расширением полосы пропускания, выполняемым на стороне аудиодекодера, не показанного на фиг. 1. Информация расширения полосы пропускания (или вспомогательная информация расширения полосы пропускания), например, может представлять спектральную форму (или спектральную огибающую) высокочастотной части входной аудиоинформации, т.е. частотного диапазона входной аудиоинформации, который не покрыт низкочастотным кодером 120.Regarding the functionality of the audio encoder 100, it can be said that the audio encoder 100 provides bit-rate coding of the input audio information 110. The low-frequency part, for example, in the frequency range up to about 6 or 7 kHz, is encoded using a low-frequency encoder 120, in which any of well-known principles of audio coding. For example, the low-frequency encoder 120 may be a “common audio encoder” (such as, for example, an AAC audio encoder) or a speech audio encoder (such as, for example, an audio encoder based on linear prediction, CELP audio encoder, ACELP audio encoder, etc.) . Accordingly, the low-frequency part of the input audio information is encoded using any of the traditional principles. However, the bit rate of the encoded representation 122 of the low-frequency part is reasonably low, since only the frequency components are encoded up to about 6-7 kHz. In addition, the audio encoder 100 allows the provision of bandwidth extension information, for example, in the form of bandwidth extension parameters describing the high-frequency portion of the input audio information 110, such as, for example, a frequency domain containing higher frequencies than the frequency domain encoded by a low-frequency encoder 120. Thus, the bandwidth extension information providing unit 130 allows for providing auxiliary information of the encoded audio information 112, which can control the bandwidth extension performed on the side of an audio decoder not shown in FIG. 1. The bandwidth extension information (or auxiliary bandwidth extension information), for example, can represent the spectral shape (or spectral envelope) of the high-frequency part of the input audio information, i.e. the frequency range of the input audio information that is not covered by the low-frequency encoder 120.

Тем не менее, аудиокодер 100 выполнен с возможностью определять, сигнально-адаптивным способом, то, должна ли информация расширения полосы пропускания быть включена в кодированную аудиоинформацию 112. Соответственно, аудиокодер 100 допускает включение информации расширения полосы пропускания в кодированную аудиоинформацию 112 только в том случае, если информация расширения полосы пропускания требуется (или по меньшей мере является желательной) для восстановления аудиоинформации на стороне аудиодекодера. В этом контексте аудиокодер также может управлять тем, следует ли обеспечивать информацию 132 расширения полосы пропускания посредством блока 130 обеспечения информации расширения полосы пропускания для части входной аудиоинформации (или, эквивалентно, для части кодированной аудиоинформации), поскольку, разумеется, не обязательно обеспечивать информацию расширения полосы пропускания для части входной аудиоинформации (или кодированной аудиоинформации), если информация расширения полосы пропускания не должна быть включена в кодированную аудиоинформацию. Соответственно, аудиокодер 100 допускает поддержание скорости передачи битов для кодированной аудиоинформации 112 как можно меньшей посредством недопущения включения информации 132 расширения полосы пропускания в кодированную аудиоинформацию 112, если обнаружено, на основании некоторого процесса анализа и/или процесса принятия решений, выполняемого посредством аудиокодера 100, то, что информация расширения полосы пропускания не требуется для получения определенного качества звука при восстановлении соответствующей части аудиоконтента на стороне аудиодекодера.However, the audio encoder 100 is configured to determine, in a signal-adaptive manner, whether bandwidth extension information should be included in the encoded audio information 112. Accordingly, the audio encoder 100 allows the inclusion of bandwidth extension information in the encoded audio information 112 only if if bandwidth extension information is required (or at least desirable) to restore audio information on the side of the audio decoder. In this context, the audio encoder can also control whether to provide bandwidth extension information 132 through the bandwidth extension information providing unit 130 for a portion of the input audio information (or, equivalently, for a portion of the encoded audio information), since, of course, it is not necessary to provide bandwidth information bandwidth for part of the input audio information (or encoded audio information) if bandwidth extension information should not be included in the encoded th audio information. Accordingly, the audio encoder 100 allows the bit rate for the encoded audio information 112 to be kept as low as possible by not allowing the inclusion of bandwidth extension information 132 in the encoded audio information 112, if detected, based on some analysis process and / or decision process performed by the audio encoder 100, then that bandwidth extension information is not required to obtain a certain sound quality when restoring the corresponding part of the audio content n on the side of the audio decoder.

Таким образом, аудиокодер 100 включает информацию расширения полосы пропускания в кодированную аудиоинформацию только в том случае, если она требуется (для того чтобы получать определенное качество звука) на стороне аудиодекодера, что, с одной стороны, помогает сокращать скорость передачи битов для кодированной аудиоинформации 112, а с другой стороны, обеспечивает то, что надлежащая информация 132 расширения полосы пропускания включена в кодированную аудиоинформацию 112, если она требуется для того, чтобы не допускать плохого качества звука при декодировании кодированной аудиоинформации на стороне аудиодекодера. Таким образом, улучшенный компромисс между скоростью передачи битов и качеством звука достигается посредством аудиокодера 100 по сравнению с традиционными решениями.Thus, the audio encoder 100 includes bandwidth extension information in the encoded audio information only if it is required (in order to obtain a certain sound quality) on the side of the audio decoder, which, on the one hand, helps to reduce the bit rate for the encoded audio information 112, and on the other hand, ensures that the proper bandwidth extension information 132 is included in the encoded audio information 112 if it is required in order to prevent poor sound quality When the decoding of the encoded audio data to the audio decoder side. Thus, an improved trade-off between bit rate and sound quality is achieved by the audio encoder 100 compared to traditional solutions.

Например, аудиодекодер может определять, в расчете на аудиокадр, то, должна ли информация расширения полосы пропускания быть включена в кодированную аудиоинформацию 112 (или даже то, должна ли определяться информация расширения полосы пропускания). Тем не менее, в качестве альтернативы аудиодекодер может определять, в расчете на «ввод» (например, в расчете на аудиофайл или в расчете на аудиопоток), то, должна ли информация расширения полосы пропускания быть включена в кодированную аудиоинформацию 112. С этой целью ввод может быть проанализирован (например, до кодирования), так что решение принимается сигнально-адаптивным способом.For example, an audio decoder may determine, based on an audio frame, whether bandwidth extension information should be included in encoded audio information 112 (or even whether bandwidth extension information should be determined). However, as an alternative, the audio decoder may determine, based on “input” (for example, based on an audio file or based on an audio stream), whether bandwidth extension information should be included in encoded audio information 112. To this end, input can be analyzed (for example, before coding), so that the decision is made in a signal-adaptive way.

2. Аудиокодер согласно фиг. 22. The audio encoder of FIG. 2

Фиг. 2 показывает принципиальную блок-схему аудиокодера согласно варианту осуществления настоящего изобретения. Аудиокодер 200 принимает входную аудиоинформацию 210 и обеспечивает на основании ее кодированную аудиоинформацию 212. Аудиокодер 200 содержит низкочастотный кодер 220, который может быть практически идентичным низкочастотному кодеру 120, описанному выше. Низкочастотный кодер 220 обеспечивает кодированное представление 222 низкочастотной части входной аудиоинформации (или, эквивалентно, аудиоконтента, представленного посредством входной аудиоинформации 210). Аудиокодер 200 также содержит блок 230 обеспечения информации расширения полосы пропускания, который может быть практически идентичным блоку 130 обеспечения информации расширения полосы пропускания, описанному выше. Блок 230 обеспечения информации расширения полосы пропускания обычно принимает входную аудиоинформацию 210. Тем не менее, блок 230 обеспечения информации расширения полосы пропускания также может принимать управляющую информацию (или промежуточную информацию) из низкочастотного кодера 220, при этом упомянутая управляющая информация (или промежуточная информация), например, может содержать информацию относительно спектра (спектральной формы или спектральной огибающей) низкочастотной части входной аудиоинформации 210. Тем не менее, управляющая информация (или промежуточная информация) также может содержать параметры кодирования (например, коэффициенты LPC-фильтрации либо значения в области преобразования, такие как MDCT-коэффициенты или QMF-коэффициенты) и т.п. Кроме того, блок 230 обеспечения информации расширения полосы пропускания при необходимости может принимать кодированное представление 222 низкочастотной части или по меньшей мере ее части. Кроме того, аудиокодер 200 содержит детектор 240, который выполнен с возможностью определять, включена ли информация расширения полосы пропускания в кодированную аудиоинформацию 212 для данной части входной аудиоинформации 210 (или для данной части кодированной аудиоинформации 212). При необходимости детектор 240 также может определять, определяется ли упомянутая информация расширения полосы пропускания посредством блока 230 обеспечения информации расширения полосы пропускания для упомянутой данной части входной аудиоинформации 210 (или кодированной аудиоинформации 212). Следовательно, детектор 240 может принимать входную аудиоинформацию 210 и/или управляющую информацию или промежуточную информацию 224 из низкочастотного кодера 220 (например, как описано выше) и/или кодированное представление 222 низкочастотной части. Кроме того, детектор 240 выполнен с возможностью обеспечивать управляющий сигнал 242, который управляет избирательным обеспечением информации расширения полосы пропускания и/или избирательным включением информации расширения полосы пропускания в кодированную аудиоинформацию 212.FIG. 2 shows a schematic block diagram of an audio encoder according to an embodiment of the present invention. The audio encoder 200 receives the input audio information 210 and provides, based on its encoded audio information 212. The audio encoder 200 comprises a low-frequency encoder 220, which may be substantially identical to the low-frequency encoder 120 described above. The low-frequency encoder 220 provides an encoded representation 222 of the low-frequency part of the input audio information (or, equivalently, the audio content represented by the input audio information 210). The audio encoder 200 also includes a bandwidth extension information providing unit 230, which may be substantially identical to the bandwidth extension information providing unit 130 described above. The bandwidth extension information providing unit 230 typically receives input audio information 210. However, the bandwidth extension information providing unit 230 can also receive control information (or intermediate information) from the low-frequency encoder 220, wherein said control information (or intermediate information), for example, it may contain information regarding the spectrum (spectral shape or spectral envelope) of the low-frequency part of the input audio information 210. However, I control Single information (or intermediate information) may also include encoding parameters (e.g., LPC-filter coefficients either in the transform domain values, such as coefficients or MDCT-QMF-factors), etc. In addition, the bandwidth extension information providing unit 230 may optionally receive an encoded representation 222 of the low frequency part or at least a part thereof. In addition, the audio encoder 200 includes a detector 240, which is configured to determine whether bandwidth extension information is included in the encoded audio information 212 for a given part of the input audio information 210 (or for a given part of the encoded audio information 212). If necessary, the detector 240 may also determine whether said bandwidth extension information is determined by the bandwidth extension information unit 230 for said given portion of the input audio information 210 (or encoded audio information 212). Therefore, the detector 240 may receive input audio information 210 and / or control information or intermediate information 224 from the low-frequency encoder 220 (for example, as described above) and / or the encoded representation 222 of the low-frequency part. In addition, the detector 240 is configured to provide a control signal 242 that controls the selective provision of bandwidth extension information and / or the selective inclusion of bandwidth extension information in encoded audio information 212.

Относительно функциональности аудиокодера 200 следует обратиться к вышеприведенным пояснениям, приведенным относительно аудиокодера 100.Regarding the functionality of the audio encoder 200, refer to the above explanations given with respect to the audio encoder 100.

Кроме того, следует отметить, что детектор 240 играет центральную роль, поскольку детектор 240 определяет то, включена ли информация расширения полосы пропускания в кодированную аудиоинформацию 212, и, следовательно, определяет то, восстанавливает аудиодекодер, который принимает кодированную аудиоинформацию 212, аудиоконтент, который описывается посредством входной аудиоинформации 210, с использованием расширения полосы пропускания вслепую или с использованием направляемого параметрами расширения полосы пропускания (при этом информация расширения полосы пропускания представляет параметры, направляющие направляемое параметрами расширение полосы пропускания).In addition, it should be noted that the detector 240 plays a central role, because the detector 240 determines whether the bandwidth extension information is included in the encoded audio information 212, and therefore determines whether the audio decoder that receives the encoded audio information 212 restores the audio content that is described through the input audio information 210, using blindly expanding the bandwidth or using the parameterized bandwidth extension ( bandwidth broadening represents parameters directing the parameter-guided bandwidth expansion).

Вообще говоря, детектор идентифицирует части входной аудиоинформации, которые не могут декодироваться с достаточным или желаемым качеством на основании кодированного представления 222 низкочастотной части с использованием расширения полосы пропускания вслепую. Другими словами, детектор 240 должен распознавать, когда одно только кодированное представление 222 низкочастотной части не обеспечивает возможность расширения полосы пропускания вслепую с достаточным качеством. Иными словами, детектор 240 предпочтительно идентифицирует части входной аудиоинформации, для которых параметры расширения полосы пропускания не могут оцениваться на основании низкочастотной части с достаточной (или желаемой) точностью для достижения приемлемого (или желаемого) качества звука. Следовательно, детектор 240 может определять, с использованием управляющего сигнала 242, то, что информация расширения полосы пропускания должна быть включена в кодированную аудиоинформацию для частей входной аудиоинформации, которая не может декодироваться с достаточным или желаемым качеством на основании кодированного представления 222 низкочастотной части с использованием расширения полосы пропускания вслепую (т.е. без приема информации расширения полосы пропускания из кодера). Эквивалентно, детектор может определять, с использованием управляющего сигнала 242, то, что информация расширения полосы пропускания должна быть включена в кодированную аудиоинформацию для частей входной аудиоинформации, для которых параметры расширения полосы пропускания не могут оцениваться на основании низкочастотной части (или, эквивалентно, кодированного представления 222 низкочастотной части) с достаточной или желаемой точностью.Generally speaking, the detector identifies portions of the input audio information that cannot be decoded with sufficient or desired quality based on the encoded representation of the low-frequency portion 222 using the blind bandwidth extension. In other words, the detector 240 must recognize when the encoded representation of the low-frequency part 222 alone does not provide the possibility of expanding the bandwidth blindly with sufficient quality. In other words, the detector 240 preferably identifies portions of the input audio information for which bandwidth extension parameters cannot be estimated based on the low frequency portion with sufficient (or desired) accuracy to achieve acceptable (or desired) sound quality. Therefore, the detector 240 can determine, using the control signal 242, that the bandwidth extension information should be included in the encoded audio information for parts of the input audio information, which cannot be decoded with sufficient or desired quality based on the encoded representation of the low-frequency part 222 using the extension blind bandwidth (i.e., without receiving bandwidth extension information from an encoder). Equivalently, the detector can determine, using the control signal 242, that the bandwidth extension information should be included in the encoded audio information for parts of the input audio information for which the bandwidth expansion parameters cannot be estimated based on the low frequency part (or, equivalently, the encoded representation 222 low-frequency parts) with sufficient or desired accuracy.

Чтобы идентифицировать такие части, для которых информация расширения полосы пропускания должна быть включена в кодированную аудиоинформацию (или, эквивалентно, чтобы идентифицировать части входной аудиоинформации, для которых при необходимости можно включать информацию расширения полосы пропускания в кодированную аудиоинформацию 212), детектор 240 может использовать различные стратегии. Как упомянуто выше, детектор 240 может принимать различные типы входной информации. В некоторых случаях, определение посредством детектора того, должна ли информация расширения полосы пропускания быть включена в кодированную аудиоинформацию 212, может быть основано исключительно на входной аудиоинформации 210. Другими словами, детектор 240, например, может быть выполнен с возможностью анализировать входную аудиоинформацию 210, с тем чтобы выявлять то, для какой части входной аудиоинформации (которая соответствует частям кодированной аудиоинформации 212) необходимо включать информацию 232 расширения полосы пропускания в кодированную аудиоинформацию 212 для того, чтобы достигать приемлемого (или желаемого) качества звука. Тем не менее, определение посредством детектора 240 в качестве альтернативы может быть основано на некоторой управляющей информации или промежуточной информации 224, обеспеченной посредством низкочастотного кодера 200. В качестве альтернативы или дополнения, определение посредством детектора 240 может быть основано на кодированном представлении 222 низкочастотной части входной аудиоинформации 210. Таким образом, детектор может оценивать различные величины, чтобы определять (или оценивать) то, должно ли расширение полосы пропускания вслепую на стороне аудиодекодера приводить к достаточному качеству звука (или с большой вероятностью приводить к достаточному качеству звука, или предположительно приводить к достаточному качеству звука).To identify portions for which bandwidth extension information should be included in the encoded audio information (or, equivalently, to identify portions of the input audio information for which bandwidth extension information may be included in the encoded audio information 212 if necessary), the detector 240 may use various strategies . As mentioned above, detector 240 may receive various types of input information. In some cases, determining by the detector whether bandwidth extension information should be included in the encoded audio information 212 may be based solely on the input audio information 210. In other words, the detector 240, for example, may be configured to analyze the input audio information 210, s in order to identify for which part of the input audio information (which corresponds to parts of the encoded audio information 212) it is necessary to include information 232 bandwidth extension in the code encoded audio information 212 in order to achieve acceptable (or desired) sound quality. However, the determination by the detector 240 may alternatively be based on some control information or intermediate information 224 provided by the low-frequency encoder 200. Alternatively, or in addition, the determination by the detector 240 may be based on the encoded representation 222 of the low-frequency portion of the input audio information 210. Thus, the detector can evaluate various quantities to determine (or evaluate) whether the bandwidth extension should be blindly the audio decoder and the side lead to sufficient sound quality (or is likely to lead to a sufficient audio quality, or suspected to result in adequate quality of sound).

Например, детектор может определять то, являются ли части входной аудиоинформации 210 неподвижными во времени частями, и то, имеют ли части входной аудиоинформации 210 низкочастотный характер. Например, детектор 240 может прийти к заключению, что не обязательно включать информацию расширения полосы пропускания в кодированную аудиоинформацию 212 для частей, которые, как выявлено, являются неподвижными во времени частями, и которые имеют низкочастотный характер, поскольку следует признать, что такие части входной аудиоинформации 210 обычно могут воспроизводиться с достаточно высоким качеством звука на стороне аудиодекодера даже при использовании расширения полосы пропускания вслепую. Это обусловлено этим фактом, что расширение полосы пропускания вслепую обычно хорошо работает для частей входной аудиоинформации (или контента), которые не содержат сильные изменения аудиоконтента (либо которые не содержат переходные части или другие сильные варьирования аудиоконтента) и, следовательно, могут считаться неподвижными во времени. Кроме того, обнаружено, что расширение полосы пропускания вслепую хорошо работает для частей аудиоконтента, которые имеют низкочастотный характер, т.е. для части аудиоконтента, для которой интенсивность низкочастотной части выше интенсивности высокочастотной части, поскольку это является фундаментальным допущением в отношении большинства принципов расширения полосы пропускания вслепую. Соответственно, детектор 240 может сигнализировать с использованием управляющего сигнала 242 необходимость избирательно исключать включение информации расширения полосы пропускания в кодированную аудиоинформацию 212 для таких неподвижных во времени частей, имеющих низкочастотный характер.For example, the detector may determine whether the parts of the input audio information 210 are parts that are motionless in time, and whether the parts of the input audio information 210 are of a low frequency nature. For example, detector 240 may conclude that it is not necessary to include bandwidth extension information in encoded audio information 212 for parts that are found to be parts that are motionless in time and that are of a low frequency nature, as it should be recognized that such parts of the input audio information 210 can usually be reproduced with sufficiently high sound quality on the side of the audio decoder even when using the blind bandwidth extension. This is due to this fact that blind bandwidth expansion usually works well for parts of input audio information (or content) that do not contain strong changes in audio content (or that do not contain transition parts or other strong variations in audio content) and therefore can be considered fixed over time . In addition, it was found that blind bandwidth expansion works well for parts of audio content that are of a low frequency nature, i.e. for the part of audio content for which the intensity of the low-frequency part is higher than the intensity of the high-frequency part, as this is a fundamental assumption with respect to most principles of blind bandwidth expansion. Accordingly, the detector 240 can signal using the control signal 242 the need to selectively exclude the inclusion of bandwidth extension information in the encoded audio information 212 for such time-stationary parts having a low frequency character.

Например, детектор 240 может быть выполнен с возможностью идентифицировать части входной аудиоинформации, которые содержат вокализованную речь, и/или части входной аудиоинформации, которые содержат шум окружающей среды, и/или части входной аудиоинформации, которые содержат музыку без ударных инструментов. Такие части входной аудиоинформации обычно являются неподвижными во времени и имеют низкочастотный характер, так что детектор 240 обычно сигнализирует необходимость исключить включение информации расширения полосы пропускания в кодированную аудиоинформацию для таких частей.For example, detector 240 may be configured to identify portions of input audio information that contain voiced speech, and / or portions of input audio information that contain environmental noise, and / or portions of input audio information that contain music without percussion instruments. Such parts of the input audio information are usually time-constant and have a low-frequency character, so that the detector 240 usually signals the need to exclude the inclusion of bandwidth extension information in the encoded audio information for such parts.

В качестве альтернативы или дополнения детектор 240 может анализировать то, может ли спектральная форма в высокочастотной части входной аудиоинформации прогнозироваться с обоснованной точностью (например, с использованием принципов, применяемых посредством расширения полосы пропускания вслепую), на основании спектральной огибающей низкочастотной части. Соответственно, детектор, например, может быть выполнен с возможностью определять то, превышает или равна либо нет разность между спектральной огибающей низкочастотной части (которая может описываться, например, посредством промежуточной информации 224 или посредством кодированного представления 222 низкочастотной части) и спектральной огибающей высокочастотной части (которая, например, может определяться посредством детектора 240 на основании входной аудиоинформации 210) заданному показателю разности. Например, детектор 240 может определять разницу с точки зрения разности интенсивности или с точки зрения разности формы, либо с точки зрения варьирования по частоте, либо с точки зрения любых других отличительных признаков спектральных огибающих. Соответственно, детектор 240 может определять (и сигнализировать) необходимость включать информацию 232 расширения полосы пропускания во входную аудиоинформацию, в ответ на такие выявленные сведения, что разность между спектральной огибающей низкочастотной части и спектральной огибающей высокочастотной части превышает или равна заданному показателю разности. Другими словами, детектор 240 может определять то, насколько хорошо спектральная огибающая высокочастотной части может прогнозироваться на основании спектральной огибающей низкочастотной части, и если прогнозирование является невозможным с хорошими результатами (что, например, имеет место в случае, если прогнозная спектральная огибающая высокочастотной части слишком существенно отличается от фактической спектральной огибающей высокочастотной части), можно прийти к выводу, что информация 232 расширения полосы пропускания должна требоваться на стороне аудиодекодера. Тем не менее, вместо сравнения прогнозной спектральной огибающей высокочастотной части с фактической спектральной огибающей высокочастотной части, детектор 240, в качестве альтернативы, может сравнивать спектральную огибающую низкочастотной части со спектральной огибающей высокочастотной части. Это целесообразно, если предполагается, что спектральная огибающая высокочастотной части обычно является аналогичной спектральной огибающей низкочастотной части при применении оценки полосы пропускания вслепую.As an alternative or addition, detector 240 can analyze whether the spectral shape in the high-frequency part of the input audio information can be predicted with reasonable accuracy (for example, using principles applied by expanding the blind bandwidth) based on the spectral envelope of the low-frequency part. Accordingly, the detector, for example, can be configured to determine whether the difference between the spectral envelope of the low-frequency part (which can be described, for example, by intermediate information 224 or the encoded representation of the low-frequency part 222) and the spectral envelope of the high-frequency part ( which, for example, can be determined by a detector 240 based on the input audio information 210) to a predetermined difference index. For example, the detector 240 may determine the difference in terms of the difference in intensity or in terms of the difference in shape, or from the point of view of variation in frequency, or from the point of view of any other distinguishing features of the spectral envelopes. Accordingly, the detector 240 can determine (and signal) the need to include bandwidth extension information 232 in the input audio information, in response to such detected information that the difference between the spectral envelope of the low-frequency part and the spectral envelope of the high-frequency part is greater than or equal to a predetermined difference index. In other words, the detector 240 can determine how well the spectral envelope of the high-frequency part can be predicted based on the spectral envelope of the low-frequency part, and if prediction is impossible with good results (which, for example, occurs if the predicted spectral envelope of the high-frequency part is too significant differs from the actual spectral envelope of the high-frequency part), we can conclude that the bandwidth extension information 232 should require atsya on the side of the audio decoder. However, instead of comparing the predicted spectral envelope of the high-frequency part with the actual spectral envelope of the high-frequency part, the detector 240, as an alternative, can compare the spectral envelope of the low-frequency part with the spectral envelope of the high-frequency part. This is useful if it is assumed that the spectral envelope of the high-frequency part is usually the same as the spectral envelope of the low-frequency part when applying the blind bandwidth estimate.

В качестве альтернативы или дополнения детектор 240 может идентифицировать части, содержащие невокализованную речь, и/или части, содержащие звуки ударных инструментов. Поскольку спектральная огибающая высокочастотной части обычно сильно отличается от спектральной огибающей низкочастотной части в таких случаях, детектор может сигнализировать необходимость включать информацию расширения полосы пропускания в кодированное аудиопредставление для таких частей входной аудиоинформации (или кодированной аудиоинформации), содержащих невокализованную речь или содержащих звуки ударных инструментов.As an alternative or addition, detector 240 may identify parts containing unvoiced speech and / or parts containing percussion instrument sounds. Since the spectral envelope of the high-frequency part is usually very different from the spectral envelope of the low-frequency part in such cases, the detector may signal the need to include bandwidth extension information in the encoded audio representation for such parts of the input audio information (or encoded audio information) containing unvoiced speech or containing the sounds of percussion instruments.

Тем не менее, в качестве альтернативы или дополнения детектор 240 может анализировать спектральный наклон частей входной аудиоинформации 210. Кроме того, детектор 240 может использовать информацию относительно спектрального наклона частей входной аудиоинформации для того, чтобы определять то, должна ли информация 232 расширения полосы пропускания быть включена в кодированную аудиоинформацию 212. Такой принцип основан на такой идее, что расширение полосы пропускания вслепую хорошо работает для частей аудиоконтента, для которых имеется большая энергия (или, в общем, интенсивность) в низкочастотном диапазоне по сравнению с высокочастотным диапазоном. Напротив, если высокочастотная часть (также обозначаемая как высокочастотный диапазон) является «доминирующей», т.е. содержит значительную величину энергии, расширение полосы пропускания вслепую обычно не может хорошо воспроизводить аудиоконтент, так что информация расширения полосы пропускания должна быть включена в кодированную аудиоинформацию. Соответственно, в некоторых вариантах осуществления детектор определяет то, превышает или равен либо нет спектральный наклон (который описывает распределение энергий или, в общем, интенсивности по частоте) фиксированному или переменному пороговому значению наклона. Если спектральный наклон превышает или равен фиксированному или переменному пороговому значению наклона (что означает то, что имеется сравнительно большая энергия или интенсивность в высокочастотной части аудиоконтента по меньшей мере по сравнению с «нормальным» случаем, в котором энергия или интенсивность снижается с увеличением частоты), детектор может определять необходимость включать информацию расширения полосы пропускания в кодированную аудиоинформацию.However, as an alternative or addition, the detector 240 can analyze the spectral tilt of the parts of the input audio information 210. In addition, the detector 240 can use the information regarding the spectral tilt of the parts of the input audio information to determine whether bandwidth extension information 232 should be turned on encoded audio information 212. This principle is based on the idea that blind bandwidth expansion works well for parts of audio content for which there is more I have the energy (or, in general, the intensity) in the low-frequency range compared to the high frequency band. On the contrary, if the high-frequency part (also referred to as the high-frequency range) is “dominant”, i.e. contains a significant amount of energy, blindband expansion usually cannot reproduce audio content well, so bandwidth extension information should be included in encoded audio information. Accordingly, in some embodiments, the detector determines whether the spectral tilt (which describes the distribution of energies or, in general, frequency intensity) is greater than or equal to a fixed or variable threshold tilt value. If the spectral tilt is greater than or equal to a fixed or variable threshold tilt (which means that there is a relatively high energy or intensity in the high-frequency part of the audio content, at least compared to the “normal” case, in which the energy or intensity decreases with increasing frequency), the detector may determine the need to include bandwidth extension information in encoded audio information.

В дополнение к некоторым или всем вышеуказанным признакам детектор также может оценивать частоту переходов через нуль частей входной аудиоинформации. Кроме того, определение посредством детектора того, следует ли включать информацию расширения полосы пропускания, также может быть основано на том, превышает или равна либо нет определенная частота переходов через нуль фиксированному или переменному пороговому значению частоты переходов через нуль. Этот принцип основан на таком соображении, что высокая частота переходов через нуль обычно указывает то, что высокие частоты играют важную роль во входной аудиоинформации, которая, в свою очередь, указывает то, что направляемое параметрами расширение полосы пропускания должно использоваться на стороне аудиодекодера.In addition to some or all of the above features, the detector can also estimate the frequency of transitions through zero parts of the input audio information. In addition, determining by a detector whether to include bandwidth extension information can also be based on whether a particular zero-crossing frequency is greater than or equal to a fixed or variable threshold zero-crossing frequency. This principle is based on the idea that a high zero-crossover frequency usually indicates that high frequencies play an important role in the input audio information, which in turn indicates that the parameter-driven bandwidth extension should be used on the audio decoder side.

Кроме того, следует отметить, что детектор 240 предпочтительно может использовать некоторый гистерезис, чтобы не допускать избыточного переключения между включением информации 232 расширения полосы пропускания в кодированную аудиоинформацию и исключением упомянутого включения. Например, гистерезис может применяться к переменному пороговому значению наклона, к переменному пороговому значению частоты переходов через нуль либо к любому другому пороговому значению, которое используется для того, чтобы определять переход от включения информации расширения полосы пропускания к недопущению упомянутого включения, или наоборот. Таким образом, гистерезис может варьировать пороговое значение, чтобы уменьшать вероятность переключения на исключение включения информации расширения полосы пропускания, когда информация расширения полосы пропускания включена для текущей части входной аудиоинформации. Аналогично, пороговое значение может варьироваться, чтобы уменьшать вероятность для переключения на включение информации расширения полосы пропускания, когда включение информации расширения полосы пропускания не допускается для текущей части входной аудиоинформации. Таким образом, могут уменьшаться артефакты, которые могут вызываться посредством переходов между различными режимами.In addition, it should be noted that the detector 240 can preferably use some hysteresis in order to prevent excessive switching between including bandwidth extension information 232 in the encoded audio information and excluding said inclusion. For example, hysteresis can be applied to a variable threshold slope threshold, to a variable threshold threshold value of zero transitions, or to any other threshold value that is used to determine the transition from enabling bandwidth extension information to avoiding said inclusion, or vice versa. Thus, the hysteresis can vary the threshold value in order to reduce the likelihood of switching to exclude the inclusion of bandwidth extension information when the bandwidth extension information is turned on for the current part of the input audio information. Similarly, the threshold value may be varied to reduce the likelihood of switching to turning on bandwidth extension information when bandwidth extension information is not allowed for the current part of the input audio information. Thus, artifacts that can be triggered by transitions between different modes can be reduced.

Далее, поясняются некоторые подробности касательно блока 230 обеспечения информации расширения полосы пропускания. В частности, поясняется то, какая информация включена в кодированную аудиоинформацию 212 в ответ на сигнализацию детектором того, что информация 232 расширения полосы пропускания должна быть включена в кодированную аудиоинформацию. В целях пояснений, также следует обратиться к фиг. 3, который показывает схематичное представление частотных частей входной аудиоинформации и параметров, включенных в кодированное аудиопредставление. Абсцисса 310 описывает частоту, а ордината 312 описывает интенсивность (например, интенсивность, к примеру, амплитуду или энергия) различных спектральных элементов выборки (таких как, например, MDCT-коэффициенты, QMF-коэффициенты, FFT-коэффициенты и т.п.). Как можно видеть, низкочастотная часть входной аудиоинформации, например, может покрывать частотный диапазон от более низкочастотной границы (например, 0 или 50 Гц, или 300 Гц, или любой другой обоснованной более низкочастотной границы) вплоть до частоты приблизительно в 6,4 кГц. Как можно видеть, кодированное представление 222 может быть обеспечено для этой низкочастотной части (например, от 300 Гц до 6,4 кГц и т.п.). Кроме того, предусмотрена высокочастотная часть, которая, например, колеблется от 6,4 кГц до 8 кГц. Тем не менее, высокочастотная часть, разумеется, может покрывать другой частотный диапазон, который обычно ограничивается посредством частотного диапазона, воспринимаемого слушателем-человеком. Тем не менее, на фиг. 3 можно видеть, что, в качестве примера, спектральная огибающая, показанная посредством ссылки с номером 320, содержит нерегулярную форму в высокочастотной части. Кроме того, можно видеть, что спектральная огибающая 320 содержит сравнительно большую энергию в высокочастотной части и даже сравнительно высокую энергию в 7,2-7,6 кГц. Для сравнения, вторая спектральная огибающая 330 также показана на фиг. 3, при этом вторая спектральная огибающая 330 показывает затухание интенсивности или энергии (например, в расчете на единичную частоту) в высокочастотной части. Соответственно, спектральная огибающая 320 обычно должна заставлять детектор выполнять определение на предмет включения информации расширения полосы пропускания в кодированное аудиопредставление для части, содержащей спектральную огибающую 320, в то время как спектральная огибающая 330 обычно должна заставлять детектор выполнять определение на предмет исключения включения информации расширения полосы пропускания для части аудиоконтента, содержащей спектральную огибающую 330.Next, some details are explained regarding the bandwidth extension information providing unit 230. In particular, what information is included in the encoded audio information 212 in response to a signaling by the detector that bandwidth extension information 232 should be included in the encoded audio information is explained. For purposes of explanation, reference should also be made to FIG. 3, which shows a schematic representation of the frequency parts of the input audio information and the parameters included in the encoded audio presentation. Abscissa 310 describes the frequency, and ordinate 312 describes the intensity (for example, intensity, for example, amplitude or energy) of various spectral elements of the sample (such as, for example, MDCT coefficients, QMF coefficients, FFT coefficients, etc.). As you can see, the low-frequency part of the input audio information, for example, can cover the frequency range from the lower-frequency boundary (for example, 0 or 50 Hz, or 300 Hz, or any other reasonable lower-frequency boundary) up to a frequency of approximately 6.4 kHz. As you can see, encoded representation 222 can be provided for this low-frequency part (for example, from 300 Hz to 6.4 kHz, etc.). In addition, a high-frequency part is provided, which, for example, ranges from 6.4 kHz to 8 kHz. However, the high-frequency part, of course, can cover a different frequency range, which is usually limited by the frequency range perceived by the human listener. However, in FIG. 3, it can be seen that, by way of example, the spectral envelope shown by reference numeral 320 contains an irregular shape in the high frequency portion. In addition, it can be seen that the spectral envelope 320 contains a relatively large energy in the high-frequency part and even a relatively high energy of 7.2-7.6 kHz. For comparison, the second spectral envelope 330 is also shown in FIG. 3, the second spectral envelope 330 shows the attenuation of the intensity or energy (for example, based on the unit frequency) in the high-frequency part. Accordingly, spectral envelope 320 typically should cause the detector to determine whether to include bandwidth extension information in the encoded audio representation for the portion containing spectral envelope 320, while spectral envelope 330 should usually cause the detector to determine whether to exclude bandwidth information for a portion of audio content containing a spectral envelope 330.

Как также можно видеть, для части аудиоконтента, содержащей спектральную огибающую 320, четыре скалярных параметра должны быть включены в кодированное аудиопредставление в качестве информации расширения полосы пропускания. Первый скалярный параметр, например, может описывать спектральную огибающую (или среднее спектральной огибающей) для частотной области в 6,4-6,8 кГц, второй скалярный параметр может описывать спектральную огибающую 320 (или ее среднее) для частотной области в 6,8-7,2 кГц, третий скалярный параметр может описывать спектральную огибающую 320 (или ее среднее) для частотной области в 7,2-7,6 кГц, и четвертый скалярный параметр может описывать спектральную огибающую (или ее среднее) для частотной области в 7,6-8 кГц. Скалярные параметры могут описывать спектральную огибающую абсолютным или относительным способом, например, в отношении спектрально предыдущего частотного диапазона (или области). Например, первый скалярный параметр может описывать отношение интенсивности (которое, например, может быть нормализовано как некоторая величина) между спектральной огибающей в частотной области в 6,4-6,8 кГц и спектральной огибающей в области более низких частот (например, ниже 6,4 кГц). Второй, третий и четвертый скалярные параметры, например, могут описывать разность (или отношение) между (интенсивностями) спектральной огибающей в смежных частотных диапазонах, так что, например, второй скалярный параметр может описывать отношение между (средним значением) спектральной огибающей в частотном диапазоне в 6,8-7,2 кГц и спектральной огибающей в частотном диапазоне в 6,4-6,8 кГц.As can also be seen, for the portion of the audio content containing the spectral envelope 320, four scalar parameters should be included in the encoded audio presentation as bandwidth extension information. The first scalar parameter, for example, can describe the spectral envelope (or average spectral envelope) for the frequency domain of 6.4-6.8 kHz, the second scalar parameter can describe the spectral envelope (or its average) for the frequency domain of 6.8- 7.2 kHz, the third scalar parameter can describe the spectral envelope 320 (or its average) for the frequency domain of 7.2-7.6 kHz, and the fourth scalar parameter can describe the spectral envelope (or its average) for the frequency domain of 7, 6-8 kHz. Scalar parameters can describe the spectral envelope in an absolute or relative way, for example, with respect to the spectrally previous frequency range (or region). For example, the first scalar parameter can describe the intensity ratio (which, for example, can be normalized as a value) between the spectral envelope in the frequency domain of 6.4-6.8 kHz and the spectral envelope in the lower frequency region (for example, below 6, 4 kHz). The second, third and fourth scalar parameters, for example, can describe the difference (or ratio) between the (intensities) of the spectral envelope in adjacent frequency ranges, so that, for example, the second scalar parameter can describe the relationship between the (average value) of the spectral envelope in the frequency range in 6.8-7.2 kHz and a spectral envelope in the frequency range of 6.4-6.8 kHz.

Кроме того, следует отметить, что кодированное представление низкочастотной части, т.е. частотной части ниже 6,4 кГц, может быть включено в любом случае. Частотная часть ниже 6,4 кГц (низкочастотная часть) может кодироваться с использованием любых из известных принципов кодирования, например, с использованием «общего» кодирования аудиоданных, такого как AAC (либо его производной), или кодирования речи (такого как, например, CELP, ACELP либо его производной). Соответственно, для части аудиоконтента, содержащей спектральную огибающую 320, как кодированное представление низкочастотной части, так и четыре скалярных параметра расширения полосы пропускания (которые могут квантоваться с использованием сравнительно небольшого числа битов) должны быть включены в кодированное аудиопредставление. Напротив, для части аудиоконтента, содержащей спектральную огибающую 330, только кодированное представление низкочастотной части должно быть включено в кодированное аудиопредставление, а (скалярные) параметры расширения полосы пропускания не должны быть включены в кодированное аудиопредставление (что, тем не менее, не вызывает серьезные проблемы, поскольку спектральная огибающая 330 демонстрирует регулярную затухающую характеристику (нижних частот), которая может быть хорошо воспроизведена с использованием расширения полосы пропускания вслепую).In addition, it should be noted that the encoded representation of the low-frequency part, i.e. the frequency part below 6.4 kHz can be turned on anyway. The frequency part below 6.4 kHz (the low frequency part) can be encoded using any of the known encoding principles, for example, using “common” encoding of audio data, such as AAC (or its derivative), or speech encoding (such as, for example, CELP ACELP or its derivative). Accordingly, for the part of the audio content containing the spectral envelope 320, both the encoded representation of the low-frequency part and the four scalar bandwidth expansion parameters (which can be quantized using a relatively small number of bits) should be included in the encoded audio representation. In contrast, for a portion of audio content containing a spectral envelope 330, only the encoded representation of the low-frequency portion should be included in the encoded audio presentation, and the (scalar) bandwidth expansion parameters should not be included in the encoded audio presentation (which, however, does not cause serious problems, since the spectral envelope 330 exhibits a regular damped (low-frequency) response that can be well reproduced using the bandwidth extension blindly).

В качестве вывода, аудиокодер 200 выполнен с возможностью избирательно включать параметры, представляющие спектральную огибающую высокочастотной части входной аудиоинформации, в кодированную аудиоинформацию сигнально-адаптивным способом в качестве информации расширения полосы пропускания. Например, скалярные параметры расширения полосы пропускания, упомянутые со ссылкой на фиг. 3, могут быть включены в кодированную аудиоинформацию сигнально-адаптивным способом. Вообще говоря, низкочастотный кодер 220 может быть выполнен с возможностью кодировать низкочастотную часть входной аудиоинформации 210, содержащую частоты вплоть до максимальной частоты, которая находится в диапазоне 6-7 кГц (при этом граница в 6,4 кГц использована в примере по фиг. 3). Кроме того, аудиокодер может быть выполнен с возможностью избирательно включать в кодированное аудиопредставление от трех до пяти параметров, описывающих интенсивность высокочастотных частей сигнала, имеющих полосы пропускания в 300-500 Гц. В примере по фиг. 3, показаны четыре скалярных параметра, описывающих интенсивность высокочастотных частей сигнала, имеющих полосы пропускания приблизительно в 400 Гц. Другими словами, аудиокодер может быть выполнен с возможностью включать в кодированное аудиопредставление четыре скалярно квантованных параметра, описывающих интенсивность четырех высокочастотных частей сигнала, причем высокочастотные части сигнала покрывают частотные диапазоны (например, как показано на фиг. 3) выше низкочастотной части (например, как пояснено со ссылкой на фиг. 3). Например, аудиокодер может быть выполнен с возможностью избирательно включать в кодированное аудиопредставление множество параметров, описывающих взаимосвязь между энергиями или интенсивностями спектрально смежных частотных частей, при этом один из параметров описывает отношение между энергией или интенсивностью первой высокочастотной части расширения полосы пропускания и энергией или интенсивностью низкочастотной части, и при этом другие из параметров описывают отношения между энергиями или интенсивностями других высокочастотных частей расширения полосы пропускания (при этом высокочастотные части расширения полосы пропускания могут представлять собой частотные части в 6,4-6,8 кГц, в 6,8-7,2 кГц, в 7,2-7,6 кГц и в 7,6-8 кГц). В качестве альтернативы, могут векторно квантоваться от трех до пяти параметров формы огибающей (описывающих интенсивности высокочастотных частей сигнала). Векторное квантование обычно является немного более эффективным, чем скалярное квантование. С другой стороны, векторное квантование является более сложным, чем скалярное квантование. Другими словами, квантование четырех значений энергии расширения полосы пропускания в качестве альтернативы может выполняться с использованием векторного квантования (вместо использования скалярного квантования).As a conclusion, the audio encoder 200 is configured to selectively include parameters representing the spectral envelope of the high-frequency part of the input audio information in the encoded audio information in a signal-adaptive manner as bandwidth extension information. For example, scalar bandwidth expansion parameters mentioned with reference to FIG. 3 may be included in the encoded audio information in a signal adaptive manner. Generally speaking, the low-frequency encoder 220 may be configured to encode the low-frequency part of the input audio information 210 containing frequencies up to a maximum frequency that is in the range of 6-7 kHz (the 6.4 kHz boundary used in the example of Fig. 3) . In addition, the audio encoder may be configured to selectively include from three to five parameters describing the intensity of the high-frequency parts of the signal having a passband of 300-500 Hz in the encoded audio presentation. In the example of FIG. 3, four scalar parameters are shown describing the intensity of the high-frequency parts of the signal having passbands of approximately 400 Hz. In other words, the audio encoder can be configured to include four scalar-quantized parameters describing the intensity of the four high-frequency parts of the signal in the encoded audio representation, the high-frequency parts of the signal covering the frequency ranges (for example, as shown in Fig. 3) above the low-frequency part (for example, as explained with reference to Fig. 3). For example, an audio encoder may be configured to selectively include in a coded audio presentation a plurality of parameters describing the relationship between the energies or intensities of spectrally adjacent frequency parts, one of the parameters describing the relationship between the energy or intensity of the first high-frequency part of the bandwidth extension and the energy or intensity of the low-frequency part , while other parameters describe the relationship between the energies or intensities of other high frequencies parts of the expansion of the bandwidth (in this case, the high-frequency parts of the expansion of the bandwidth can be the frequency parts of 6.4-6.8 kHz, 6.8-7.2 kHz, 7.2-7.6 kHz and 7 , 6-8 kHz). Alternatively, three to five envelope shape parameters (describing the intensities of the high-frequency parts of the signal) can be vector quantized. Vector quantization is usually a little more efficient than scalar quantization. Vector quantization, on the other hand, is more complex than scalar quantization. In other words, the quantization of four values of the bandwidth extension energy can alternatively be performed using vector quantization (instead of using scalar quantization).

В качестве вывода, аудиокодер может быть выполнен с возможностью включать сравнительно простую информацию расширения полосы пропускания в кодированное аудиопредставление, так что скорость передачи битов кодированного аудиопредставления только немного увеличивается для частей входной аудиоинформации (или кодированного аудиопредставления), для которых посредством детектора обнаружено то, что желательно направляемое параметрами расширение полосы пропускания.As a conclusion, the audio encoder can be configured to include relatively simple bandwidth extension information in the encoded audio presentation, so that the bit rate of the encoded audio presentation only increases slightly for parts of the input audio information (or encoded audio presentation) for which what is desired is detected by the detector bandwidth-driven parameter expansion.

3. Аудиодекодер согласно фиг. 43. The audio decoder according to FIG. four

Фиг. 4 показывает принципиальную блок-схему аудиодекодера согласно варианту осуществления настоящего изобретения. Аудиодекодер 400 согласно фиг. 4 принимает кодированную аудиоинформацию 410 (которая, например, может обеспечиваться посредством аудиокодера 100 или посредством аудиокодера 200) и обеспечивает на основании ее декодированную аудиоинформацию 412.FIG. 4 shows a schematic block diagram of an audio decoder according to an embodiment of the present invention. The audio decoder 400 of FIG. 4 receives encoded audio information 410 (which, for example, can be provided by an audio encoder 100 or by an audio encoder 200) and provides based on its decoded audio information 412.

Аудиодекодер 400 содержит низкочастотный декодер 420, который принимает кодированную аудиоинформацию 410 (или по меньшей мере кодированное представление низкочастотной части, включенное в нее), декодирует кодированное представление низкочастотной части и получает декодированное представление 422 низкочастотной части. Аудиодекодер 400 также содержит расширение 430 полосы пропускания, которое выполнено с возможностью получать сигнал 432 расширения полосы пропускания с использованием расширения полосы пропускания вслепую для частей (кодированного) аудиоконтента (представленных посредством кодированной аудиоинформации 410), для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию 410, и получает сигнал 432 расширения полосы пропускания с использованием направляемого параметрами расширения полосы пропускания (при помощи информации расширения полосы пропускания или параметров расширения полосы пропускания, включенных в кодированную аудиоинформацию 410) для частей аудиоконтента, для которых параметры расширения полосы пропускания включены в кодированную аудиоинформацию 410 (или кодированное аудиопредставление).The audio decoder 400 comprises a low-frequency decoder 420, which receives encoded audio information 410 (or at least an encoded representation of the low-frequency part included therein), decodes the encoded representation of the low-frequency part, and obtains the decoded representation of the low-frequency part 422. The audio decoder 400 also comprises a bandwidth extension 430 that is configured to receive a bandwidth extension signal 432 using blind bandwidth expansion for portions of (encoded) audio content (represented by encoded audio information 410) for which bandwidth expansion parameters are not included in the encoded audio information 410, and receives a bandwidth extension signal 432 using the parameterized bandwidth extension (with general bandwidth extension information or bandwidth expansion parameters included in encoded audio information 410) for parts of audio content for which bandwidth expansion parameters are included in encoded audio information 410 (or encoded audio presentation).

Соответственно, аудиодекодер 400 допускает выполнение расширения полосы пропускания независимо от того, включены ли параметры расширения полосы пропускания в кодированную аудиоинформацию 410. Таким образом, аудиодекодер может адаптироваться к кодированной аудиоинформации 410 и предусматривает принцип, в котором возникает переключение между расширением полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания. Следовательно, аудиодекодер 400 допускает обработку кодированной аудиоинформации 410, в которой параметры расширения полосы пропускания включаются только для частей (например, кадров) аудиоконтента, которые не могут быть восстановлены с достаточным качеством с использованием расширения полосы пропускания вслепую. Таким образом, может обеспечиваться декодированная аудиоинформация 412, которая содержит как декодированное представление низкочастотной части, так и сигнал расширения полосы пропускания (при этом сигнал, например, может добавляться в декодированное представление 422 низкочастотной части, чтобы за счет этого получать декодированную аудиоинформацию 412).Accordingly, the audio decoder 400 allows bandwidth expansion to be performed regardless of whether the bandwidth expansion parameters are included in the encoded audio information 410. Thus, the audio decoder can adapt to the encoded audio information 410 and provides a principle in which switching between blind bandwidth extension and guided parameters occurs bandwidth extension. Therefore, the audio decoder 400 allows processing of encoded audio information 410, in which bandwidth extension parameters are included only for portions (eg, frames) of audio content that cannot be reconstructed with sufficient quality using the blindband extension. Thus, decoded audio information 412 can be provided that contains both a decoded representation of the low-frequency part and a bandwidth extension signal (in this case, a signal, for example, can be added to the decoded representation of the low-frequency part 422 to thereby obtain decoded audio information 412).

Таким образом, аудиодекодер 400 помогает получать хороший компромисс между качеством звука и скоростью передачи битов.Thus, the audio decoder 400 helps to obtain a good compromise between sound quality and bit rate.

Ниже описывается дополнительное факультативное улучшение аудиодекодера 400, например, со ссылкой на фиг. 5.An additional optional enhancement to the audio decoder 400 is described below, for example with reference to FIG. 5.

4. Аудиодекодер согласно фиг. 54. The audio decoder of FIG. 5

Фиг. 5 показывает принципиальную блок-схему аудиодекодера 500, согласно другому варианту осуществления настоящего изобретения. Аудиодекодер 500 принимает кодированную аудиоинформацию 510 (также обозначаемую как кодированное аудиопредставление) и обеспечивает на основании ее декодированную аудиоинформацию 512 (также обозначаемую как декодированное аудиопредставление). Аудиодекодер 500 содержит низкочастотный декодер 520, который может быть идентичен низкочастотному декодеру 420 и может осуществлять сравнимую функциональность. Таким образом, низкочастотный декодер 500 обеспечивает декодированное представление 522 низкочастотной части аудиоконтента, представленного посредством кодированной аудиоинформации 510. Аудиодекодер 500 также содержит расширение 530 полосы пропускания, которое может осуществляет функциональность, идентичную функциональности расширения 430 полосы пропускания.FIG. 5 shows a schematic block diagram of an audio decoder 500, according to another embodiment of the present invention. The audio decoder 500 receives the encoded audio information 510 (also referred to as an encoded audio presentation) and provides based on its decoded audio information 512 (also referred to as a decoded audio presentation). The audio decoder 500 comprises a low-frequency decoder 520, which may be identical to the low-frequency decoder 420 and may provide comparable functionality. Thus, the low-frequency decoder 500 provides a decoded representation 522 of the low-frequency portion of the audio content represented by the encoded audio information 510. The audio decoder 500 also includes a bandwidth extension 530, which can implement functionality identical to that of the bandwidth extension 430.

Следовательно, расширение 530 полосы пропускания может обеспечивать сигнал 532 расширения полосы пропускания, который обычно комбинируется (например, суммируется) с декодированным представлением 522 низкочастотной части, чтобы за счет этого получать декодированную аудиоинформацию 512. Расширение 530 полосы пропускания, например, может принимать декодированное представление 522 низкочастотной части 522. Тем не менее, в качестве альтернативы, расширение полосы пропускания 532 может принимать управляющую информацию 524 (которая также рассматривается как вспомогательная информация или промежуточная информация), которая обеспечивается посредством низкочастотного декодера 520. Вспомогательная информация или управляющая информация, или промежуточная информация 524, например, может представлять спектральную форму низкочастотной части аудиоконтента, частоты переходов через нуль декодированного представления низкочастотной части либо любую другую промежуточную величину, используемую посредством низкочастотного декодера 520, которая является полезной в процессе расширения полосы пропускания. Кроме того, аудиодекодер содержит контроллер 540, который выполнен с возможностью обеспечивать управляющую информацию 542, указывающую то, должно выполняться расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания посредством расширения 530 полосы пропускания. Контроллер 540 может использовать различные типы информации для обеспечения управляющей информации 542. Например, контроллер 540 может принимать флаг потока битов режима расширения полосы пропускания, который может быть включен в кодированную аудиоинформацию 510. Например, может быть предусмотрен один флаг потока битов режима расширения полосы пропускания для каждой части (например, кадра) кодированной аудиоинформации, которая может извлекаться из кодированной аудиоинформации посредством контроллера 540 и которая может использоваться для того, чтобы извлекать управляющую информацию 542 (либо которая может сразу составлять управляющую информацию 542). Тем не менее, в качестве альтернативы, контроллер 540 может принимать информацию, которая представляет низкочастотную часть и/или которая описывает то, как декодировать низкочастотную часть (и которая в силу этого также обозначается как «информация декодирования низкочастотной части»). В качестве альтернативы или дополнения, контроллер 540 может принимать управляющую информацию или вспомогательную информацию, или промежуточную информацию 524 из низкочастотного декодера, которая, например, может переносить информацию относительно спектральной огибающей низкочастотной части и/или информацию относительно частоты переходов через нуль декодированного представления низкочастотной части. Тем не менее, управляющая информация или вспомогательная информация, или промежуточная информация 524 также может переносить информацию относительно статистики декодированного представления 522 низкочастотной части либо может представлять любую другую промежуточную информацию, которая извлекается посредством низкочастотного декодера 520 из кодированного представления низкочастотной части (также обозначаемую как информация декодирования низкочастотной части).Therefore, the bandwidth extension 530 may provide a bandwidth extension signal 532, which is usually combined (eg, added) with the decoded representation of the low-frequency part 522 to thereby obtain decoded audio information 512. The bandwidth extension 530, for example, may receive the decoded representation 522 low-frequency part 522. However, as an alternative, the expansion of bandwidth 532 may receive control information 524 (which also considers I, as auxiliary information or intermediate information), which is provided by the low-frequency decoder 520. The auxiliary information or control information or intermediate information 524, for example, can represent the spectral shape of the low-frequency part of the audio content, the frequency of zero transitions of the decoded representation of the low-frequency part, or any other intermediate value used by low-frequency decoder 520, which is useful in the process of expanding the bandwidth lowering. In addition, the audio decoder comprises a controller 540, which is configured to provide control information 542 indicating whether blind bandwidth expansion or parameter-guided bandwidth expansion should be performed by bandwidth extension 530. Controller 540 may use various types of information to provide control information 542. For example, controller 540 may receive a bandwidth extension bitstream flag, which may be included in encoded audio information 510. For example, one bandwidth expansion bitstream flag may be provided for each part (for example, a frame) of encoded audio information that can be extracted from encoded audio information by the controller 540 and which can be used to th to extract management information 542 (or which can directly be control information 542). However, as an alternative, the controller 540 may receive information that represents the low frequency part and / or which describes how to decode the low frequency part (and which is therefore also referred to as “low frequency decoding information”). Alternatively or in addition, the controller 540 may receive control information or auxiliary information, or intermediate information 524 from a low-frequency decoder, which, for example, can carry information about the spectral envelope of the low-frequency part and / or information regarding the frequency of transitions through zero of the decoded representation of the low-frequency part. However, the control information or auxiliary information or intermediate information 524 may also carry information regarding the statistics of the decoded representation of the low-frequency part 522 or may represent any other intermediate information that is extracted by the low-frequency decoder 520 from the encoded representation of the low-frequency part (also referred to as decoding information low frequency part).

В качестве альтернативы или дополнения контроллер 540 может принимать декодированное представление 522 низкочастотной части и может непосредственно извлекать значения свойств (например, информацию частоты переходов через нуль, информацию спектральной огибающей, информацию спектрального наклона и т.п.) из декодированного представления 522 низкочастотной части.As an alternative or addition, the controller 540 may receive the decoded representation of the low-frequency part 522 and can directly extract property values (e.g., zero-crossing frequency information, spectral envelope information, spectral tilt information, etc.) from the decoded low-frequency part representation 522.

Соответственно, контроллер 540 может оценивать флаг потока битов, чтобы обеспечивать управляющую информацию 542 относительно режима вслепую/направляемого параметрами режима, если такой флаг потока битов (сигнализирующий, должно ли использоваться расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания) включен в кодированную аудиоинформацию 510. Тем не менее, если такой флаг потока битов не включен в кодированную аудиоинформацию 510 (например, чтобы сокращать скорость передачи битов), контроллер 540 обычно определяет то, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания, на основании другой информации. С этой целью, информация декодирования низкочастотной части (которая может быть идентична кодированному представлению низкочастотной части или его поднабору) может быть оценена посредством контроллера 540. В качестве альтернативы или дополнения контроллер может рассматривать декодированное представление 522 низкочастотной части для принятия решения в отношении того, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания, т.е. для обеспечения управляющей информации 542. Кроме того, контроллер 540, при необходимости может использовать управляющую информацию или вспомогательную информацию, или промежуточную информацию 524, обеспеченную посредством низкочастотного декодера 520, при условии, что низкочастотный декодер 520 обеспечивает любые промежуточные величины, которые являются применимыми посредством контроллера 540.Accordingly, the controller 540 may evaluate the bitstream flag to provide control information 542 regarding the blind / guided mode parameters if such a bitstream flag (indicating whether blind bandwidth expansion or parameter-guided bandwidth extension is to be used) is included in the encoded audio information 510 However, if such a bitstream flag is not included in the encoded audio information 510 (for example, to reduce the bit rate), the controller 540 o Usually determines whether to use bandwidth expansion blindly or parameter-guided bandwidth expansion, based on other information. To this end, the decoding information of the low-frequency part (which may be identical to the encoded representation of the low-frequency part or its subset) can be evaluated by the controller 540. As an alternative or addition, the controller may consider the decoded representation 522 of the low-frequency part to decide whether to use bandwidth expansion blindly or parameter-guided bandwidth expansion, i.e. to provide control information 542. In addition, the controller 540 may optionally use control information or auxiliary information or intermediate information 524 provided by the low-frequency decoder 520, provided that the low-frequency decoder 520 provides any intermediate values that are applicable by the controller 540.

Соответственно, контроллер 540 может переключать расширение полосы пропускания между расширением полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания.Accordingly, the controller 540 may switch the bandwidth extension between the blind bandwidth extension and the parameter-guided bandwidth extension.

В случае расширения полосы пропускания вслепую расширение 530 полосы пропускания может обеспечивать сигнал 532 расширения полосы пропускания на основании декодированного представления 522 низкочастотной части без оценки дополнительных параметров потока битов. Напротив, в случае направляемого параметрами расширения полосы пропускания, расширение 530 полосы пропускания может обеспечивать сигнал 532 расширения полосы пропускания с учетом дополнительных (выделенных) параметров потока битов расширения полосы пропускания, которые помогают определять характеристики высокочастотной части аудиоконтента (т.е. характеристики сигнала расширения полосы пропускания). Тем не менее, расширение 530 полосы пропускания также может использовать декодированное представление 522 низкочастотной части и/или управляющей информации или вспомогательной информации, или промежуточной информации 524, обеспеченной посредством низкочастотного декодера 520, чтобы обеспечить сигнал 532 расширения полосы пропускания.In the case of a blindfold bandwidth extension, the bandwidth extension 530 may provide a bandwidth extension signal 532 based on the decoded representation of the low frequency part 522 without evaluating additional bitstream parameters. In contrast, in the case of bandwidth expansion-driven parameters, bandwidth extension 530 may provide a bandwidth extension signal 532, taking into account additional (allocated) bandwidth expansion bitstream parameters that help determine the characteristics of the high-frequency portion of the audio content (i.e., the characteristics of the bandwidth extension signal transmission). However, the bandwidth extension 530 can also use the decoded representation 522 of the low-frequency part and / or control information or auxiliary information or intermediate information 524 provided by the low-frequency decoder 520 to provide a bandwidth extension signal 532.

Таким образом, решение между использованием расширения полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания эффективно определяет то, применяются ли выделенные параметры расширения полосы пропускания (которые обычно не используются посредством низкочастотного декодера 520 для того, чтобы обеспечить декодированное представление низкочастотной части) для того, чтобы получать сигнал расширения полосы пропускания (который обычно описывает высокочастотную часть аудиоконтента, представленного посредством кодированной аудиоинформации).Thus, the decision between using the blind bandwidth extension and the parameter-guided bandwidth extension effectively determines whether the selected bandwidth extension parameters (which are not typically used by the low-frequency decoder 520 to provide a decoded representation of the low-frequency part) are used to receive a bandwidth extension signal (which typically describes the high-frequency portion of the audio content presented by m coded audio information).

Если обобщить вышесказанное, аудиодекодер 500 может быть выполнен с возможностью определять то, следует получать сигнал 532 расширения полосы пропускания с использованием расширения полосы пропускания вслепую или с использованием направляемого параметрами расширения полосы пропускания, на покадровой основе (при этом «кадр» является примером части аудиоконтента, и при этом кадр, например, может содержать длительность между 10 мс и 40 мс и предпочтительно может иметь длительность приблизительно в 20 мс±2 мс). Таким образом, аудиодекодер может быть выполнен с возможностью переключаться между расширением полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания с очень точной временной детализацией.To summarize the above, the audio decoder 500 can be configured to determine whether to receive a bandwidth extension signal 532 using a blindband extension or using a parameterized bandwidth extension, on a frame-by-frame basis (the “frame” is an example of part of the audio content, and the frame, for example, may contain a duration between 10 ms and 40 ms and preferably may have a duration of approximately 20 ms ± 2 ms). Thus, the audio decoder can be configured to switch between blindly expanding bandwidth and parameter-guided bandwidth expansion with very accurate time detail.

Кроме того, следует отметить, что аудиодекодер 500 обычно допускает переключение между использованием расширения полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания в пределах смежного фрагмента аудиоконтента. Таким образом, переключение между расширением полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания может выполняться практически в любое время (разумеется, с у учетом кадрирования) в пределах смежного фрагмента аудиоконтента, с тем чтобы адаптировать расширение полосы пропускания к (изменяющимся) характеристикам различных частей одного фрагмента аудиоконтента.In addition, it should be noted that the audio decoder 500 typically allows switching between using blind bandwidth extension and parameter-guided bandwidth expansion within an adjacent piece of audio content. Thus, switching between blindly expanding bandwidth and parameterized bandwidth expansion can be performed at almost any time (of course, taking into account framing) within an adjacent piece of audio content in order to adapt the bandwidth extension to the (changing) characteristics of different parts of one fragment of audio content.

Как упомянуто выше, аудиодекодер (предпочтительно, контроллер 540) может быть выполнен с возможностью оценивать флаги (например, один однобитовый флаг в расчете на кадр), включенные в кодированную аудиоинформацию 510 для различных частей (например, кадров) аудиоконтента, чтобы определять то, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания. В этом случае, контроллер 540 может поддерживаться очень простым за счет того, что флаг сигнализации должен быть включен в кодированную аудиоинформацию для каждой части аудиоконтента. Тем не менее, в качестве альтернативы, контроллер 540 может быть выполнен с возможностью определять то, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания, на основании кодированного представления низкочастотной части (которое может включать в себя использование управляющей информации или вспомогательной информации, или промежуточной информации 524, извлекаемой посредством низкочастотного декодера 520 из упомянутого кодированного представления низкочастотной части, и которое также может включать в себя использование декодированного представления 522, которое извлекается из кодированного представления низкочастотной части посредством низкочастотного декодера 520), без оценки (выделенного) флага сигнализации режима расширения полосы пропускания. Таким образом, переключение между расширением полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания может выполняться даже без дополнительного объема служебной информации в потоке битов.As mentioned above, an audio decoder (preferably, controller 540) may be configured to evaluate flags (e.g., one single-bit flag per frame) included in encoded audio information 510 for different parts (e.g., frames) of audio content to determine if Use bandwidth extension blindly or parameter-guided bandwidth extension. In this case, the controller 540 can be kept very simple due to the fact that the alarm flag must be included in the encoded audio information for each piece of audio content. However, as an alternative, the controller 540 may be configured to determine whether to use a blindband extension or parameter-guided bandwidth extension based on an encoded representation of the low frequency portion (which may include the use of control information or auxiliary information, or intermediate information 524 extracted by a low-frequency decoder 520 from said encoded representation of the low-frequency part, and which may also include using the decoded representation 522, which is extracted from the encoded representation of the low frequency part by the low frequency decoder 520), without evaluating the (allocated) bandwidth extension mode signaling flag. Thus, switching between blindly bandwidth extension and parameter-guided bandwidth extension can be performed even without additional overhead in the bitstream.

Аудиодекодер (или контроллер 540) может быть выполнен с возможностью определять то, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания, на основании одного или более свойств декодированного представления низкочастотной части. Такие свойства, как, например, информация спектрального наклона, информация частоты переходов через нуль и т.п., либо могут извлекаться из декодированного представления 522 низкочастотной части, либо могут сигнализироваться посредством управляющей информации/вспомогательной информации/промежуточной информации 524. Например, аудиодекодер (или контроллер 540) может быть выполнен с возможностью определять то, следует использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания, на основании квантованных коэффициентов линейного прогнозирования (которые, например, могут быть включены в управляющую информацию/вспомогательную информацию/промежуточную информацию 524), и/или в зависимости от статистики во временной области декодированного представления 522 низкочастотной части.An audio decoder (or controller 540) may be configured to determine whether to use blind bandwidth expansion or parameter-guided bandwidth expansion based on one or more properties of the decoded representation of the low frequency portion. Properties such as, for example, spectral tilt information, zero-crossing frequency information, and the like, can either be extracted from the decoded representation 522 of the low-frequency part, or can be signaled by control information / auxiliary information / intermediate information 524. For example, an audio decoder ( or controller 540) may be configured to determine whether to use blind bandwidth expansion or parameter-guided bandwidth expansion based on quantized linear prediction coefficients (which, for example, can be included in the control information / auxiliary information / intermediate information 524) and / or depending on the statistics in the time domain of the decoded representation 522 of the low-frequency part.

Далее описываются некоторые принципы касательно того, как достигать расширения полосы пропускания. Например, расширение полосы пропускания может быть выполнено с возможностью получать сигнал 532 расширения полосы пропускания с использованием одного или более свойств декодированного представления 522 низкочастотной части и/или одного или более параметров низкочастотного декодера 520 (которые могут сигнализироваться посредством управляющей информации/вспомогательной информации/промежуточной информации 524) для временных частей (входного) аудиоконтента, для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию. Таким образом, расширение 530 полосы пропускания может выполнять расширение полосы пропускания вслепую, которое основано на идее делать выводы из декодированного представления низкочастотной части в высокочастотной части аудиоконтента, представленного посредством кодированной аудиоинформации. Например, расширение 530 полосы пропускания может быть выполнено с возможностью получать сигнал 532 расширения полосы пропускания с использованием информации спектрального центроида и/или с использованием информации энергии, и/или с использованием (например, кодированных) коэффициентов фильтрации для временных частей входного аудиоконтента, для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию 510. Соответственно, может достигаться хорошее расширение полосы пропускания вслепую.The following describes some principles regarding how to achieve bandwidth expansion. For example, bandwidth extension may be configured to receive a bandwidth extension signal 532 using one or more properties of the decoded representation of the low frequency part 522 and / or one or more parameters of the low frequency decoder 520 (which may be signaled by control information / auxiliary information / intermediate information 524) for temporary parts of (input) audio content for which bandwidth extension parameters are not included in the encoded au ioinformatsiyu. Thus, the bandwidth extension 530 can perform blind bandwidth expansion, which is based on the idea of drawing conclusions from a decoded representation of the low-frequency part in the high-frequency part of the audio content represented by the encoded audio information. For example, bandwidth extension 530 may be configured to receive a bandwidth extension signal 532 using spectral centroid information and / or using energy information and / or using (eg, coded) filtering coefficients for the time portions of the input audio content for which bandwidth expansion parameters are not included in encoded audio information 510. Accordingly, good blindband expansion can be achieved.

Тем не менее, разумеется, также могут применяться другие принципы расширения полосы пропускания вслепую.However, of course, other principles for blindly expanding bandwidth may also apply.

Тем не менее, расширение полосы пропускания может быть выполнено с возможностью получать сигнал 532 расширения полосы пропускания с использованием параметров потока битов, описывающих спектральную огибающую высокочастотной части для временных частей аудиоконтента, для которых параметры расширения полосы пропускания включены в кодированную аудиоинформацию. Другими словами, направляемое параметрами расширение полосы пропускания может выполняться с использованием параметров потока битов, описывающих спектральную огибающую высокочастотной части. Параметры потока битов, описывающие спектральную огибающую высокочастотной части, могут поддерживать направляемое параметрами расширение полосы пропускания (которое, тем не менее, дополнительно может основываться на некоторых или всех величинах, используемых посредством расширения полосы пропускания вслепую).However, the bandwidth extension may be configured to receive a bandwidth extension signal 532 using bitstream parameters describing the spectral envelope of the high frequency portion for the time portions of the audio content for which the bandwidth expansion parameters are included in the encoded audio information. In other words, the parameter-driven bandwidth extension can be performed using bitstream parameters describing the spectral envelope of the high-frequency part. The bitstream parameters describing the spectral envelope of the high-frequency part can support parameter-guided bandwidth expansion (which, however, can additionally be based on some or all of the values used by blindly extending the bandwidth).

Например, обнаружено, что расширение полосы пропускания предпочтительно должно быть выполнено с возможностью оценивать от трех до пяти параметров потока битов, описывающих интенсивность высокочастотных частей сигнала, имеющих полосы пропускания в 300-500 Гц, чтобы получать сигнал расширения полосы пропускания. Использование такого сравнительно небольшого числа параметров потока битов не увеличивает существенно скорость передачи битов, но при этом способствует достаточному улучшению в отношении расширения полосы пропускания в случае «трудных» частей сигнала, так что качество, получаемое посредством такого направляемого расширения полосы пропускания для «трудных» частей сигнала, является сравнимым с качеством, получаемым для «простых» частей сигнала с использованием расширения полосы пропускания вслепую (при этом «трудные» части сигнала представляют собой части сигнала, для которых расширение полосы пропускания вслепую не приводит к хорошему или приемлемому качеству звука, тогда как «простые» части сигнала представляют собой части сигнала, для которых расширение полосы пропускания вслепую способствует достаточным результатам).For example, it was found that the bandwidth extension should preferably be configured to evaluate from three to five bitstream parameters describing the intensity of the high frequency parts of the signal having a bandwidth of 300-500 Hz to obtain a bandwidth extension signal. The use of such a relatively small number of bitstream parameters does not significantly increase the bit rate, but it contributes to a sufficient improvement in terms of bandwidth expansion in the case of “hard” parts of the signal, so that the quality obtained by such directional bandwidth expansion for “hard” parts of the signal is comparable to the quality obtained for the “simple” parts of the signal using the blind bandwidth extension (while the “difficult” parts of the signal are parts of a signal for which blind bandwidth expansion does not lead to good or acceptable sound quality, while “simple” signal parts are parts of a signal for which blind bandwidth expansion provides sufficient results).

Соответственно, предпочтительно, чтобы от трех до пяти параметров потока битов, описывающих интенсивность высокочастотных частей сигнала, имеющих полосы пропускания в 300-500 Гц, скалярно квантовались с разрешением в два или три бита, так что предусмотрено 6-15 битов для параметров формирования спектра расширения полосы пропускания в расчете на кадр. Обнаружено, что такая низкая скорость передачи битов информации расширения полосы пропускания уже является достаточной для того, чтобы получать достаточно хорошее расширение полосы пропускания в случае «трудных» частей аудиоконтента.Accordingly, it is preferable that from three to five parameters of the bitstream describing the intensity of the high-frequency parts of the signal having a bandwidth of 300-500 Hz are scalarly quantized with a resolution of two or three bits, so that 6-15 bits are provided for the parameters of the formation of the expansion spectrum bandwidth per frame. It was found that such a low bit rate of the bandwidth extension information is already sufficient to obtain a sufficiently good bandwidth extension in the case of “difficult” parts of the audio content.

При необходимости расширение 530 полосы пропускания может быть выполнено с возможностью осуществлять сглаживание энергий сигнала расширения полосы пропускания при переключении с расширения полосы пропускания вслепую на направляемое параметрами расширение полосы пропускания и/или при переключении с направляемого параметрами расширения полосы пропускания на расширение полосы пропускания вслепую. Соответственно, уменьшаются нарушения непрерывности в спектральной форме при переключении между расширением полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания. Например, расширение полосы пропускания может быть выполнено с возможностью гасить высокочастотную часть сигнала расширения полосы пропускания для части аудиоконтента, к которой применяется направляемое параметрами расширение полосы пропускания, после части аудиоконтента, к которой применяется расширение полосы пропускания вслепую. Кроме того, расширение полосы пропускания может быть выполнено с возможностью уменьшать гашение для высокочастотной части сигнала расширения полосы пропускания (т.е. в определенной степени подчеркивать высокочастотную часть сигнала расширения полосы пропускания) для части аудиоконтента, к которой применяется расширение полосы пропускания вслепую, после части аудиоконтента, к которой применяется направляемое параметрами расширение полосы пропускания. Тем не менее, сглаживание также может выполняться посредством любой другой операции, которая уменьшает нарушения непрерывности спектральной формы высокочастотной части при переключении между режимами расширения полосы пропускания. Таким образом, качество звука повышается за счет уменьшения артефактов.If necessary, the bandwidth extension 530 can be configured to smooth out the energies of the bandwidth extension signal when switching from blindly expanding the bandwidth to the parameter-driven bandwidth extension and / or when switching from the bandwidth-expanding parameter to the blindly bandwidth extension. Accordingly, continuity disturbances in spectral form are reduced when switching between blind bandwidth expansion and parameterized bandwidth expansion. For example, the bandwidth extension may be configured to suppress the high frequency portion of the bandwidth extension signal for the portion of audio content to which the parameter-directed bandwidth extension is applied after the portion of the audio content to which the blindband extension is applied. In addition, the bandwidth extension can be configured to reduce blanking for the high-frequency part of the bandwidth extension signal (i.e., to emphasize the high-frequency part of the bandwidth extension signal to a certain extent) for the part of the audio content to which the bandwidth expansion is applied blindly, after the part audio content to which the parameter-driven bandwidth extension is applied. However, smoothing can also be performed by any other operation that reduces the disruption of the spectral shape of the high-frequency part when switching between bandwidth extension modes. Thus, sound quality is improved by reducing artifacts.

В качестве вывода, аудиодекодер 500 обеспечивает возможность декодирования аудиоконтента с хорошим качеством как в случае, если информация расширения полосы пропускания предусмотрена в кодированной аудиоинформации, так и для случая, если информация расширения полосы пропускания не предусмотрена в кодированной аудиоинформации. Аудиодекодер может переключаться между расширением полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания с точной временной детализацией (например, на покадровой основе), при этом артефакты поддерживаются небольшими.As a conclusion, the audio decoder 500 provides the ability to decode audio content with good quality both in case bandwidth extension information is provided in the encoded audio information, and in the case where bandwidth extension information is not provided in the encoded audio information. An audio decoder can switch between blindfold bandwidth extension and parameter-guided bandwidth extension with precise time detail (for example, frame-by-frame), while artifacts are kept small.

5. Способ обеспечения кодированной аудиоинформации на основании входной аудиоинформации, согласно фиг. 65. A method for providing encoded audio information based on input audio information according to FIG. 6

Фиг. 6 показывает блок-схему способа 600 обеспечения кодированной аудиоинформации на основании входной аудиоинформации. Способ 600 содержит кодирование 610 низкочастотной части входной аудиоинформации для того, чтобы получать кодированное представление низкочастотной части. Способ 600 также содержит обеспечение 620 информации расширения полосы пропускания на основе входной аудиоинформации, при этом информация расширения полосы пропускания избирательно включена в кодированную аудиоинформацию сигнально-адаптивным способом.FIG. 6 shows a flow diagram of a method 600 for providing encoded audio information based on input audio information. The method 600 comprises encoding 610 the low-frequency part of the input audio information in order to obtain an encoded representation of the low-frequency part. The method 600 also comprises providing 620 bandwidth extension information based on input audio information, wherein the bandwidth extension information is selectively included in the encoded audio information in a signal-adaptive manner.

Следует отметить, что способ 600 согласно фиг. 6 может дополняться посредством любых из признаков и функциональностей, описанных в данном документе относительно аудиокодера (а также относительно аудиодекодера).It should be noted that the method 600 of FIG. 6 may be supplemented by any of the features and functionalities described herein with respect to the audio encoder (as well as with respect to the audio decoder).

6. Способ обеспечения декодированной аудиоинформации согласно фиг. 76. A method for providing decoded audio information according to FIG. 7

Фиг. 7 показывает блок-схему способа обеспечения декодированной аудиоинформации согласно варианту осуществления изобретения. Способ 700 содержит декодирование 710 кодированного представления низкочастотной части для того, чтобы получать декодированное представление низкочастотной части. Способ 700 также содержит получение 720 сигнала расширения полосы пропускания с использованием расширения полосы пропускания вслепую для частей аудиоконтента, для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию. Кроме того, способ 700 содержит получение 730 сигнала расширения полосы пропускания с использованием направляемого параметрами расширения полосы пропускания для частей аудиоконтента, для которых параметры расширения полосы пропускания включены в кодированную аудиоинформацию.FIG. 7 shows a flowchart of a method for providing decoded audio information according to an embodiment of the invention. Method 700 comprises decoding 710 an encoded representation of a low frequency part in order to obtain a decoded representation of a low frequency part. The method 700 also comprises receiving a 720 bandwidth extension signal using blindly bandwidth extension for parts of audio content for which bandwidth extension parameters are not included in the encoded audio information. In addition, method 700 comprises obtaining 730 a bandwidth extension signal using bandwidth expansion-guided parameters for parts of audio content for which bandwidth expansion parameters are included in encoded audio information.

Следует отметить, что способ 700 согласно фиг. 7 может дополняться посредством любых из признаков и функциональностей, описанных в данном документе относительно аудиодекодера (а также относительно аудиокодера).It should be noted that the method 700 of FIG. 7 may be supplemented by any of the features and functionalities described herein with respect to an audio decoder (as well as with respect to an audio encoder).

7. Кодированное аудиопредставление согласно фиг. 87. The encoded audio presentation of FIG. 8

Фиг. 8 показывает схематичную иллюстрацию кодированного аудиопредставления 800, представляющего аудиоинформацию.FIG. 8 shows a schematic illustration of an encoded audio presentation 800 representing audio information.

Кодированное аудиопредставление (также обозначаемое как кодированная аудиоинформация) содержит кодированное представление низкочастотной части аудиоинформации. Например, кодированное представление 810 низкочастотной части аудиоинформации обеспечивается для первой части аудиоинформации, например, для первого кадра аудиоинформации. Кроме того, кодированное представление низкочастотной части аудиоинформации также обеспечивается для второй части (например, второго кадра) аудиоинформации. Тем не менее, кодированное аудиопредставление 800 также содержит информацию расширения полосы пропускания, при этом информация расширения полосы пропускания включена в кодированное аудиопредставление сигнально-адаптивным способом для некоторых, но не для всех частей аудиоинформации. Например, информация 812 расширения полосы пропускания включена для первой части аудиоинформации. Напротив, информация расширения полосы пропускания не предусмотрена для второй части аудиоинформации.The encoded audio presentation (also referred to as encoded audio information) contains an encoded representation of the low-frequency portion of the audio information. For example, an encoded representation 810 of the low-frequency part of the audio information is provided for the first part of the audio information, for example, for the first frame of the audio information. In addition, an encoded representation of the low-frequency part of the audio information is also provided for the second part (for example, the second frame) of the audio information. However, the encoded audio presentation 800 also contains bandwidth extension information, and bandwidth extension information is included in the encoded audio presentation in a signal-adaptive manner for some, but not all parts of the audio information. For example, bandwidth extension information 812 is included for a first piece of audio information. In contrast, bandwidth extension information is not provided for the second part of the audio information.

В качестве вывода, кодированное аудиопредставление 800 обычно обеспечивается посредством аудиокодеров, описанных в данном документе, и оценивается посредством аудиодекодеров, описанных в данном документе. Разумеется, кодированное аудиопредставление может сохраняться на энергонезависимом машиночитаемом носителе и т.п. Кроме того, следует отметить, что кодированное аудиопредставление 800 может дополняться посредством любых из признаков, информационных элементов и т.д., описываемых относительно аудиокодера и аудиодекодера.As an output, encoded audio presentation 800 is typically provided by the audio encoders described herein, and evaluated by the audio decoders described herein. Of course, the encoded audio presentation can be stored on non-volatile computer-readable media, etc. In addition, it should be noted that the encoded audio presentation 800 may be supplemented by any of the features, information elements, etc. described with respect to the audio encoder and audio decoder.

8. Заключения и дополнительные аспекты8. Conclusions and additional aspects

Варианты осуществления согласно настоящему изобретению разрешают проблемы традиционного расширения полосы пропускания при кодировании аудио с очень низкой скоростью передачи битов и недостатки существующих, традиционных технологий расширения полосы пропускания посредством предложения «минимально направляемого» расширения полосы пропускания в качестве сигнально-адаптивной комбинации расширения полосы пропускания вслепую и направляемого параметрами расширения полосы пропускания, которая:Embodiments of the present invention solve the problems of traditional bandwidth expansion when encoding audio at very low bit rates and the disadvantages of existing, traditional bandwidth expansion technologies by offering a “minimally directional” bandwidth extension as a signal adaptive combination of blind bandwidth and directional bandwidth bandwidth expansion options, which:

- использует направляемое расширение полосы пропускания, т.е. передает несколько битов вспомогательной информации каждые 20 мс (например, в расчете на аудиокадр) только в том случае, если высокочастотный контент (например, высокочастотная часть) входного аудио не может быть восстановлен достаточно хорошо из низкочастотного аудио (например, низкочастотной части аудиоконтента),- uses directional bandwidth expansion, i.e. transmits several bits of auxiliary information every 20 ms (for example, per audio frame) only if the high-frequency content (for example, the high-frequency part) of the input audio cannot be restored quite well from the low-frequency audio (for example, the low-frequency part of the audio content),

- использует расширение полосы пропускания вслепую, т.е. классическое восстановление высокочастотных компонентов (например, высокочастотной части) из низкочастотных базовых свойств (например, свойств восстановленной низкочастотной части), таких как спектральный центроид, энергия, наклон, кодированные коэффициенты фильтрации, в противном случае,- Uses blind bandwidth extension, i.e. classical restoration of high-frequency components (e.g., high-frequency parts) from low-frequency basic properties (e.g., properties of the restored low-frequency parts), such as spectral centroid, energy, tilt, coded filter coefficients, otherwise,

- демонстрирует очень низкую вычислительную сложность посредством использования скалярного вместо векторного квантования вспомогательной информации и посредством недопущения операций, заключающих в себе большие количества точек данных, таких как преобразования Фурье и автокорреляция и/или вычисления фильтра,- demonstrates very low computational complexity by using scalar instead of vector quantization of auxiliary information and by avoiding operations involving large numbers of data points, such as Fourier transforms and autocorrelation and / or filter calculations,

- является надежной относительно характеристик входного сигнала, т.е. не оптимизирована для конкретных входных сигналов, таких как речь взрослого человека в тихих окружениях, так что она хорошо подходит для всех типов речи, а также музыки.- is reliable with respect to the characteristics of the input signal, i.e. It is not optimized for specific input signals, such as adult speech in quiet environments, so it is well suited for all types of speech as well as music.

Вопрос касательно того, какие параметры следует передавать в качестве вспомогательной информации в части направляемого расширения полосы пропускания по вариантам осуществления согласно настоящему изобретению, а также касательно того, когда передавать параметры, по-прежнему должен быть разрешен.The question is what parameters should be transmitted as supporting information regarding the directed bandwidth expansion according to the embodiments of the present invention, and also when the parameters should be transmitted, should still be resolved.

Обнаружено, что в широкополосных кодеках, таких как AMR-WB, спектральная огибающая высокочастотной области выше области базового кодера представляет наиболее критические данные, необходимые (или желаемые) для выполнения расширения полосы пропускания с соответствующим качеством. Все остальные параметры, к примеру, точная спектральная структура и временная огибающая, могут извлекаться из декодированного базового сигнала достаточно точно или имеют небольшую перцепционную важность. Следовательно, направляемая часть минимально направляемого расширения полосы пропускания, описанного здесь, передает только высокочастотную спектральную огибающую в качестве вспомогательной информации (например, в качестве информации расширения полосы пропускания). Это помогает в поддержании на низком уровне скорости передачи вспомогательной информации расширения полосы пропускания. Кроме того, экспериментально обнаружено, что расширения полосы пропускания вслепую обеспечивают достаточное, т.е. по меньшей мере приемлемое качество для пассажей неподвижного во времени сигнала с более или менее явным низкочастотным характером. Вокализованная речь, шум окружающей среды и музыкальные секции без ударных инструментов являются характерными примерами. Фактически, большая часть ввода в широкополосную систему кодирования речи и аудио обычно попадает в эту категорию.It has been found that in broadband codecs such as AMR-WB, the spectral envelope of the high frequency region above the region of the base encoder represents the most critical data necessary (or desired) to perform bandwidth expansion with appropriate quality. All other parameters, for example, the exact spectral structure and time envelope, can be extracted from the decoded base signal quite accurately or have little perceptual importance. Therefore, the guided portion of the minimally guided bandwidth extension described herein transmits only the high frequency spectral envelope as auxiliary information (e.g., as bandwidth extension information). This helps in keeping the bandwidth extension auxiliary information low. In addition, it has been experimentally discovered that blind bandwidth extensions provide sufficient, i.e. at least acceptable quality for passages of a motionless in time signal with more or less obvious low-frequency character. Voiced speech, environmental noise, and music sections without percussion instruments are typical examples. In fact, most input to a broadband speech and audio coding system usually falls into this category.

Тем не менее, сегменты сигнала, мгновенные спектры которых демонстрируют существенно отличающуюся огибающую в высокочастотной области (например, в высокочастотной части) по сравнению с низкочастотной областью (или низкочастотной частью) (базового кодера), предпочтительно должны кодироваться через направляемое расширение полосы пропускания, передающее квантованное представление высокочастотной спектральной огибающей в качестве вспомогательной информации (например, в качестве информации расширения полосы пропускания). Причина состоит в том, что в таких спектральных структурах, расширения полосы пропускания вслепую, в общем, неспособны прогнозировать развитие в высокочастотную спектральную огибающую из огибающей базового сигнала, как представлено посредством кодированных коэффициентов фильтрации или остаточного сигнала спектральной формы (что также известно как возбуждение в речевых кодерах). Известными примерами являются невокализованная речь, в частности, сильные фрикативные звуки и аффрикативные звуки, такие как "s" или немецкий "z", а также определенные звуки ударных инструментов главным образом в современной музыке. В вариантах осуществления согласно настоящему изобретению, направляемое расширение полосы пропускания в силу этого активируется только для таких «непредсказуемых» высокочастотных спектров.However, signal segments whose instantaneous spectra exhibit a significantly different envelope in the high-frequency region (e.g., in the high-frequency part) compared to the low-frequency region (or low-frequency part) (base encoder) should preferably be encoded through a directional bandwidth extension transmitting the quantized presentation of the high-frequency spectral envelope as auxiliary information (for example, as bandwidth extension information). The reason is that in such spectral structures, blind bandwidth extensions are generally incapable of predicting the development of a high-frequency spectral envelope from the envelope of the base signal, as represented by coded filter coefficients or a spectral-shaped residual signal (which is also known as speech excitation encoders). Well-known examples are unvoiced speech, in particular strong fricative sounds and afflicative sounds such as "s" or German "z", as well as certain percussion instrument sounds mainly in contemporary music. In the embodiments of the present invention, directional bandwidth expansion is therefore only activated for such “unpredictable” high-frequency spectra.

Минимально направляемое расширение полосы пропускания согласно настоящему изобретению реализовано в контексте LD-USAC, версии с низкой задержкой xHE-AAC, для того чтобы расширять полосу пропускания широкополосно кодированного (WB-кодированного) сигнала при 13,2 Кбит/с с 6,4 до 8,0 кГц. На стороне кодера, решение по режиму вслепую/направляемому режиму вычисляется в расчете на кадр кодека в 20 мс из спектрального наклона входного сигнала на перцепционной шкале частот (существующего свойств, также используемого в тракте ACELP-кодирования), а также свойств временной области, таких как изменение частоты переходов через нуль входного сигнала, обеспеченного посредством существующего детектора переходных событий (который также используется для других решений по выбору режима кодирования). Более конкретно, если спектральный наклон является положительным, что означает то, что спектральная энергия имеет тенденцию увеличиваться с увеличением частоты и выше указанного порогового значения, и одновременно частота переходов через нуль увеличена на определенное отношение или превышает определенное пороговое значение, что означает то, что текущий кадр представляет начало или находится внутри зашумленного пассажа формы сигнала, то выбирается и сигнализируется направляемое расширение полосы пропускания. В противном случае, выбирается расширение полосы пропускания вслепую. Относительно вышеуказанных пороговых значений, дополнительно применяется простой гистерезис, чтобы уменьшать вероятность взаимного переключения между направляемым расширением полосы пропускания и расширением полосы пропускания вслепую. Когда режим направляемого расширения полосы пропускания приспосабливается для кадра, пороговые значения принятия решения, которые должны использоваться в последующих кадрах, немного снижаются, так что кодек с большей вероятностью должен оставаться в направляемом режиме. Когда определено переключение обратно на режим вслепую, исходные пороговые значения восстанавливаются, делая менее вероятным возврат решения по расширению полосы пропускания в направляемый режим сразу.The minimum directional bandwidth extension of the present invention is implemented in the context of LD-USAC, the xHE-AAC low latency version, in order to expand the bandwidth of a broadband encoded (WB encoded) signal from 13.2 Kbps from 6.4 to 8 , 0 kHz. On the encoder side, the blind / guided mode decision is calculated per 20 ms codec frame from the spectral slope of the input signal on the perceptual frequency scale (existing properties also used in the ACELP coding path), as well as time-domain properties, such as changing the frequency of transitions through zero of the input signal provided by the existing transient event detector (which is also used for other decisions on choosing the encoding mode). More specifically, if the spectral tilt is positive, which means that the spectral energy tends to increase with increasing frequency and above a specified threshold value, and at the same time the frequency of zero transitions is increased by a certain ratio or exceeds a certain threshold value, which means that the current If the frame represents the beginning or is located inside the noisy passage of the waveform, then the directional bandwidth extension is selected and signaled. Otherwise, blindband expansion is selected. Regarding the above thresholds, a simple hysteresis is additionally applied to reduce the likelihood of mutual switching between directional bandwidth expansion and blind bandwidth expansion. When the directed bandwidth extension mode is adapted for the frame, the decision thresholds to be used in subsequent frames are slightly reduced, so that the codec is more likely to remain in the guided mode. When it is determined to switch back to blind mode, the initial threshold values are restored, making it less likely that the decision to expand the bandwidth in the guided mode will immediately return.

Оставшаяся процедура расширения полосы пропускания в расчете на кадр обобщается следующим образом:The remaining procedure for expanding the bandwidth per frame is summarized as follows:

1. Если расширение полосы пропускания находится в режиме вслепую, передача 0 с использованием одного бита в потоке битов, чтобы сигнализировать этот режим в декодер. При необходимости невыполнение передачи бита и обеспечение возможности декодеру идентифицировать кадр как использующий режим расширения полосы пропускания вслепую посредством анализа базового сигнала на стороне декодера.1. If the bandwidth extension is in blind mode, transmit 0 using one bit in the bitstream to signal this mode to the decoder. If necessary, failure to transmit the bit and allowing the decoder to identify the frame as using the blind bandwidth extension mode by analyzing the base signal on the side of the decoder.

2. Если расширение полосы пропускания находится в направляемом режиме, передача 1 с использованием одного бита в потоке битов. Затем кодер вычисляет четыре индекса частотного усиления, каждый из которых охватывает 400 Гц входного сигнала, чтобы обеспечивать возможность точного формирования спектра в области расширения полосы пропускания в 6,4-8 кГц в декодере. В USAC-реализации с низкой задержкой, каждый из четырех индексов является результатом скалярного квантования одной из четырех QMF-энергий области расширения полосы пропускания относительно предыдущей QMF-энергии (или энергии QMF-спектра в 4,8-6,4 кГц, в случае первого усиления расширения полосы пропускания). Поскольку используется 2-битовый квантователь с ненулевой ступенью с размером шага 2 дБ, усиления покрывают диапазон значений в -3…3 дБ и используют 8 битов в расчете на кадр. Это дает в результате полную вспомогательную информацию в 9 битов в расчете на кадр для направляемого расширения полосы пропускания или при необходимости в 8 битов при исключении сигнализации, как показано на этапе 1.2. If the bandwidth extension is in steered mode, transmit 1 using one bit in the bitstream. The encoder then calculates four frequency gain indexes, each of which covers 400 Hz of the input signal, to enable accurate spectrum shaping in the range of 6.4-8 kHz bandwidth expansion in the decoder. In the low latency USAC implementation, each of the four indices is the result of scalar quantization of one of the four QMF energies of the bandwidth extension region relative to the previous QMF energy (or the energy of the QMF spectrum of 4.8-6.4 kHz, in the case of the first bandwidth expansion gain). Since a 2-bit quantizer with a non-zero step with a step size of 2 dB is used, the amplifications cover a range of values of -3 ... 3 dB and use 8 bits per frame. This results in complete auxiliary information of 9 bits per frame for the directional bandwidth extension or, if necessary, 8 bits when signaling is excluded, as shown in step 1.

3. В соответствующем декодере считывается первый бит расширения полосы пропускания. Если он равен 0, используется расширение полосы пропускания вслепую, в противном случае, считываются еще 8 битов, используется и направляемое расширение полосы пропускания. При необходимости считывание первого бита расширения полосы пропускания пропускается (поскольку этот бит не присутствует в потоке битов), и решение по режиму вслепую/направляемому режиму выполняется локально посредством анализа базовых сигналов, как упомянуто на этапе 1.3. The first bandwidth extension bit is read in the corresponding decoder. If it is 0, blindband expansion is used, otherwise another 8 bits are read, and directional bandwidth expansion is used. If necessary, the reading of the first bit of the bandwidth extension is skipped (since this bit is not present in the bitstream), and the decision on the blind / guided mode is performed locally by analyzing the basic signals, as mentioned in step 1.

4. Если режим расширения полосы пропускания вслепую определен в декодере, выполняется расширение полосы пропускания с использованием только свойств декодированного базового сигнала. Это расширение полосы пропускания по существу соответствует принципу расширения полосы пропускания, описанному в одном из ссылочных материалов [2], [3], [6] и [9], но в QMF - вместо DFT-области и только со свойствами с низкой сложностью, извлекаемыми из базового QMF-спектра, например, спектральным центроидом/наклоном.4. If the blind bandwidth extension mode is defined in the decoder, bandwidth expansion is performed using only the properties of the decoded base signal. This bandwidth extension essentially corresponds to the principle of bandwidth expansion described in one of the reference materials [2], [3], [6] and [9], but in QMF instead of the DFT region and only with properties with low complexity, retrieved from the base QMF spectrum, for example, spectral centroid / tilt.

5. Если режим направляемого расширения полосы пропускания выбран в декодере, четыре 2-битовых индекса усиления обратно квантуются в усиления QMF-энергии и применяются для формирования спектра полос QMF-частот области расширения полосы пропускания, которые восстановлены, как показано на этапе 4. Другими словами, здесь также используется расширение полосы пропускания вслепую, за исключением того, что формирование спектра выполняется через коэффициенты масштабирования, передаваемые в потоке битов, а не через масштабирование, экстраполированное из базового сигнала (которое, как результат, составляет направляемое параметрами расширение полосы пропускания).5. If the guided bandwidth extension mode is selected in the decoder, four 2-bit gain indexes are inverse quantized into QMF energy amplifications and are used to form the spectrum of the QMF frequency bands of the bandwidth extension region, which are restored, as shown in step 4. In other words , blind bandwidth expansion is also used here, except that spectrum shaping is done through scaling factors transmitted in the bitstream, and not through scaling, extrapolated th of the base signal (which, as a result, is guided bandwidth extension parameters).

6. При переключении между расширением полосы пропускания вслепую и направляемым расширением полосы пропускания от одного кадра до следующего, простое сглаживание высокочастотных энергий выполняется для того, чтобы минимизировать артефакты при переключении (нарушения непрерывности высокочастотной энергии), вызываемые посредством поведения на основании нижних частот расширения полосы пропускания вслепую. Сглаживание по существу выступает в качестве регулятора плавного перехода между расширениями полосы пропускания вслепую и направляемыми расширениями полосы пропускания: первый кадр направляемого расширения полосы пропускания после некоторого кадра(ов) расширения полосы пропускания вслепую немного гасится в высокочастотной области, тогда как высокочастотное гашение первого кадра расширения полосы пропускания вслепую после некоторого направляемого расширения(й) полосы пропускания немного уменьшается.6. When switching between blindly expanding bandwidth and guided bandwidth expansion from one frame to the next, a simple smoothing of high-frequency energies is performed in order to minimize switching artifacts (high frequency energy continuity disruptions) caused by behavior based on lower bandwidth-expansion frequencies blindly. Anti-aliasing essentially acts as a smooth transition regulator between blind bandwidth extensions and guided bandwidth extensions: the first frame of guided bandwidth expansion after some blindband bandwidth extension (s) is blanked out a little in the high-frequency region, while the high-frequency blanking of the first bandwidth extension frame blind bandwidth after some directional bandwidth expansion (s) is slightly reduced.

Для обычного телефонного речевого контента и популярной музыки, эксперименты демонстрируют, что приблизительно 13% всех кадров в 20 мс используют направляемое расширение полосы пропускания в LD-USAC. Следовательно, средняя скорость передачи вспомогательной информации расширения полосы пропускания составляет примерно 2 бита в расчете на кадр или 0,1 Кбит/с. Это намного меньше скоростей (e)SBR (см., например, ссылочный материал [8]) или любых из направляемых расширений полосы пропускания речевого кодера, упоминаемых в данном документе.For regular telephone voice content and popular music, experiments show that approximately 13% of all 20 ms frames use the directed bandwidth extension in LD-USAC. Therefore, the average transmission rate of the auxiliary bandwidth extension information is about 2 bits per frame or 0.1 Kbps. This is much less than the (e) SBR speeds (see, for example, reference [8]) or any of the routed speech encoder bandwidth extensions mentioned in this document.

Дополнительно следует отметить, что, как предложено в качестве факультативного способа в пошаговом описании выше в этом разделе, может исключаться 1-битовая сигнализация решения по выбору режима расширения полосы пропускания в декодер, если как кодер, так и декодер могут извлекать это решение из базового кодированного сигнала битово-точным способом. Это может достигаться, если кодер выбирает режим расширения полосы пропускания на основании некоторых свойств, извлекаемых из локально декодированного базового сигнала, поскольку он представляет собой единственный сигнал, доступный в декодере. При условии, что ошибки при передаче не возникают в определенном кадре, и как кодер, так и декодер определяют режим расширения полосы пропускания из совершенно идентичных свойств базового сигнала (таких как квантованные LPC-коэффициенты или статистика во временной области из декодированного остаточного сигнала, к примеру частота переходов через нуль, как отмечено выше), решение по выбору режима является идентичным в кодере и декодере.In addition, it should be noted that, as suggested as an optional method in the step-by-step description earlier in this section, 1-bit signaling of the decision to select the bandwidth extension mode to the decoder may be excluded if both the encoder and the decoder can extract this solution from the base coded signal in a bit-accurate manner. This can be achieved if the encoder selects a bandwidth extension mode based on some properties extracted from the locally decoded base signal, since it is the only signal available in the decoder. Provided that transmission errors do not occur in a particular frame, both the encoder and decoder determine the bandwidth extension mode from completely identical properties of the base signal (such as quantized LPC coefficients or time-domain statistics from a decoded residual signal, for example the frequency of transitions through zero, as noted above), the decision on the choice of mode is identical in the encoder and decoder.

Варианты осуществления согласно изобретению разрешают определенную дилемму качества в широкополосных кодеках, которая может наблюдаться на скоростях передачи битов в 9-13 Кбит/с. Обнаружено, что, с одной стороны, такие скорости уже являются слишком низкими для того, чтобы оправдывать передачу даже средних объемов данных расширения полосы пропускания, что исключает обычные системы направляемого расширения полосы пропускания с 1 Кбит/с или более из вспомогательной информации. С другой стороны, обнаружено, что осуществимое расширение полосы пропускания вслепую, как выявлено, звучит значительно хуже по меньшей мере для некоторых типов речи или музыкального материала вследствие неспособности надлежащего прогнозирования параметра из базового сигнала. Обнаружено, что в силу этого желательно сокращать скорость передачи вспомогательной информации схемы направляемого расширения полосы пропускания до уровня гораздо ниже 1 Кбит/с, что обеспечивает возможность ее приспособления даже при кодировании с очень низкой скоростью передачи битов. Подход, который используется в вариантах осуществления согласно изобретению, заключается в том, чтобы идентифицировать сегменты обычных входных сигналов, которые плохо или субоптимально восстановлены посредством расширения полосы пропускания вслепую, и передавать только для этих сегментов вспомогательную информацию, необходимую для того, чтобы повышать качество высокочастотного восстановления до допустимого уровня (или по меньшей мере до уровня, который находится в диапазоне среднего качества расширения полосы пропускания вслепую для этого сигнала). Другими словами, части высокочастотного входного сигнала, которые воссоздаются достаточно хорошо посредством расширения полосы пропускания вслепую, должны кодироваться с очень небольшим объемом или вообще без вспомогательной информацией расширения полосы пропускания, и только пассажи, в которых расширение полосы пропускания вслепую ухудшает общее впечатление от качества кодека, должны иметь высокочастотные компоненты, воспроизводимые посредством направляемого расширения полосы пропускания. Такая схема расширения полосы пропускания, которая регулирует скорость передачи вспомогательной информации сигнально-адаптивным способом, является предметом настоящего изобретения и называется «минимально направляемым расширением полосы пропускания».Embodiments according to the invention solve a certain quality dilemma in broadband codecs that can be observed at bit rates of 9-13 kbit / s. It has been found that, on the one hand, such speeds are already too low to justify the transfer of even medium volumes of bandwidth extension data, which excludes conventional guided bandwidth expansion systems with 1 Kbps or more of auxiliary information. On the other hand, it has been found that feasible blind bandwidth expansion has been found to sound significantly worse for at least some types of speech or musical material due to the inability to properly predict the parameter from the base signal. It was found that, because of this, it is desirable to reduce the transmission rate of auxiliary information of the guided bandwidth expansion scheme to a level much lower than 1 Kbit / s, which makes it possible to adapt it even when encoding with a very low bit rate. The approach used in the embodiments according to the invention is to identify segments of conventional input signals that are poorly or suboptimally restored by expanding the bandwidth blindly, and to transmit only for these segments auxiliary information necessary in order to improve the quality of high-frequency recovery to an acceptable level (or at least to a level that is in the range of medium quality blindband expansion for this signal). In other words, portions of the high-frequency input signal that are recreated quite well by expanding the blind bandwidth should be encoded with very little or no auxiliary bandwidth extension information, and only passages in which the blind bandwidth extension worsens the overall impression of the quality of the codec, must have high frequency components reproducible through directional bandwidth expansion. Such a bandwidth extension scheme that controls the transmission rate of auxiliary information in a signal-adaptive manner is the subject of the present invention and is called a “minimally directional bandwidth extension”.

Варианты осуществления согласно изобретению превосходят несколько подходов к расширению полосы пропускания, которые приведены в соответствующей литературе в последние годы (см., например, источники [1], [2], [3], [4], [5], [6], [7], [8], [9] и [10]). В общем, все они являются либо полностью вслепую, либо полностью направляемыми в данной рабочей точке, независимо от мгновенных характеристик входного сигнала. Кроме того, все реализации расширений полосы пропускания вслепую (см., например, ссылочные материалы [1], [3], [4], [5], [9] и[10]) оптимизированы исключительно для речевых сигналов, и по сути, маловероятно, что они обеспечивают удовлетворительное качество для другого ввода, такого как музыка (что даже отмечается в некоторых публикациях). В завершение, большинство традиционных реализаций расширения полосы пропускания являются относительно сложными в силу использования преобразований Фурье, вычислений LPC-фильтра или векторного квантования вспомогательной информации. Это может приводить к недостатку при приспособлении новой технологии кодирования на рынках мобильной связи с учетом того, что большинство мобильных устройств обеспечивают очень ограниченную вычислительную мощность.Embodiments according to the invention are superior to several approaches to bandwidth expansion, which are given in the relevant literature in recent years (see, for example, sources [1], [2], [3], [4], [5], [6] , [7], [8], [9] and [10]). In general, all of them are either completely blind or completely guided at a given operating point, regardless of the instantaneous characteristics of the input signal. In addition, all implementations of blind bandwidth extensions (see, for example, reference materials [1], [3], [4], [5], [9] and [10]) are optimized exclusively for speech signals, and in fact , they are unlikely to provide satisfactory quality for other input such as music (which is even noted in some publications). In conclusion, most traditional bandwidth extension implementations are relatively complex due to the use of Fourier transforms, LPC filter calculations, or vector quantization of auxiliary information. This can lead to a lack of adaptation of the new coding technology in the mobile markets, given that most mobile devices provide very limited computing power.

В качестве еще одного вывода, варианты осуществления согласно изобретению создают аудиокодер или способ для кодирования аудио либо соответствующую компьютерную программу, как описано выше.As a further conclusion, the embodiments according to the invention create an audio encoder or method for encoding audio or a corresponding computer program, as described above.

Дополнительные варианты осуществления согласно изобретению создают аудиодекодер или способ декодирования аудио либо соответствующую компьютерную программу, как описано выше.Additional embodiments according to the invention create an audio decoder or method for decoding audio or a corresponding computer program, as described above.

Дополнительные варианты осуществления согласно изобретению создают кодированный аудиосигнал или носитель хранения данных, имеющий сохраненный кодированный аудиосигнал, как описано выше.Additional embodiments according to the invention create an encoded audio signal or storage medium having a stored encoded audio signal, as described above.

9. Альтернативные варианты реализации9. Alternative implementation options

Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего устройства. Некоторые или все этапы способа могут быть выполнены посредством (или с использованием) устройства, такого как, например, микропроцессор, программируемый компьютер либо электронная схема. В некоторых вариантах осуществления, некоторые из одного или более самых важных этапов способа могут выполняться посредством этого устройства.Although some aspects are described in the context of the device, it is obvious that these aspects also represent a description of the corresponding method, while the unit or device corresponds to a step of the method or an indication of the step of the method. Similarly, the aspects described in the context of a method step also provide a description of a corresponding unit or element, or feature of a corresponding device. Some or all of the steps of the method may be performed by (or using) a device, such as, for example, a microprocessor, a programmable computer, or an electronic circuit. In some embodiments, implementation, some of the one or more most important steps of the method can be performed by this device.

Изобретаемый кодированный аудиосигнал может быть сохранен на цифровом носителе хранения данных или может быть передан по среде передачи, такой как беспроводная среда передачи или проводная среда передачи, к примеру, Интернет.The inventive encoded audio signal may be stored on a digital storage medium or may be transmitted via a transmission medium, such as a wireless transmission medium or a wired transmission medium, for example, the Internet.

В зависимости от определенных требований к реализации, варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронно считываемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой, так что осуществляется соответствующий способ. Следовательно, цифровой носитель хранения данных может быть машиночитаемым.Depending on certain implementation requirements, embodiments of the invention may be implemented in hardware or in software. The implementation may be carried out using a digital storage medium, for example, a floppy disk, DVD, Blu-ray, CD, ROM, PROM, EPROM, EEPROM or flash memory, which has stored electronically readable control signals that interact (or allow interaction) with programmable computer system, so that the corresponding method. Therefore, the digital storage medium may be computer readable.

Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронночитаемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.Some embodiments of the invention comprise a storage medium having electronically readable control signals that allow interaction with a programmable computer system in such a way that one of the methods described herein is carried out.

В общем, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может быть сохранен на машиночитаемом носителе.In general, embodiments of the present invention can be implemented as a computer program product with program code, wherein the program code is configured to implement one of the methods when the computer program product is running on a computer. The program code, for example, may be stored on a computer-readable medium.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе.Other embodiments comprise a computer program for implementing one of the methods described herein stored on a computer-readable medium.

Другими словами, следовательно, вариант осуществления изобретаемого способа представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.In other words, therefore, an embodiment of the inventive method is a computer program having program code for implementing one of the methods described herein when the computer program is running on a computer.

Следовательно, дополнительный вариант осуществления изобретаемых способов представляет собой носитель хранения данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе. Носитель данных, цифровой носитель хранения данных или носитель с записанными данными обычно является материальным и/или энергонезависимым.Therefore, an additional embodiment of the inventive methods is a storage medium (digital storage medium or computer-readable medium) comprising a recorded computer program for implementing one of the methods described herein. A storage medium, a digital storage medium or a medium with recorded data is usually tangible and / or non-volatile.

Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.Therefore, an additional embodiment of the inventive method is a data stream or a sequence of signals representing a computer program for implementing one of the methods described herein. A data stream or signal sequence, for example, may be configured to be transmitted over a data connection, for example, over the Internet.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществлять один из способов, описанных в данном документе.A further embodiment comprises processing means, for example, a computer or programmable logic device, configured to implement one of the methods described herein.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.A further embodiment comprises a computer having an installed computer program for implementing one of the methods described herein.

Дополнительный вариант осуществления согласно изобретению содержит устройство или систему, выполненную с возможностью передавать (например, электронно или оптически) компьютерную программу для осуществления одного из способов, описанных в данном документе, в приемное устройство. Приемное устройство, например, может представлять собой компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система, например, может содержать файловый сервер для передачи компьютерной программы в приемное устройство.An additional embodiment according to the invention comprises a device or system configured to transmit (for example, electronically or optically) a computer program for implementing one of the methods described herein to a receiving device. The receiving device, for example, may be a computer, a mobile device, a storage device, or the like. A device or system, for example, may comprise a file server for transmitting a computer program to a receiving device.

В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может быть использовано для того, чтобы выполнять часть или все из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого устройства.In some embodiments, a programmable logic device (eg, a user programmable gate array) may be used to perform part or all of the functionality of the methods described herein. In some embodiments, a user-programmable gate array may interact with a microprocessor to implement one of the methods described herein. In general, the methods are preferably carried out by any device.

Устройство, описанное в данном документе, может реализовываться с использованием аппаратного устройства либо с использованием компьютера, либо с использованием комбинации аппаратного устройства и компьютера.The device described herein may be implemented using a hardware device, either using a computer or using a combination of a hardware device and a computer.

Способы, описанные в данном документе, могут осуществляться с использованием аппаратного устройства либо с использованием компьютера, либо с использованием комбинации аппаратного устройства и компьютера.The methods described herein may be carried out using a hardware device, either using a computer or using a combination of a hardware device and a computer.

Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных подробностей, представленных посредством описания и пояснения вариантов осуществления в данном документе.The above embodiments are merely illustrative with respect to the principles of the present invention. It should be understood that modifications and changes to the layouts and details described herein should be apparent to those skilled in the art. Therefore, they are meant to be limited only by the scope of the claims below, and not by way of the specific details presented by describing and explaining the embodiments herein.

БИБЛИОГРАФИЧЕСКИЙ СПИСОКBIBLIOGRAPHIC LIST

[1] B. Bessette et al. "The Adaptive Multi-rate Wideband Speech Codec (AMR-WB)", IEEE Trans. on Speech and Audio Processing, издание 10, номер 8, ноябрь 2002 года.[1] B. Bessette et al. "The Adaptive Multi-rate Wideband Speech Codec (AMR-WB)", IEEE Trans. on Speech and Audio Processing, edition 10, number 8, November 2002.

[2] B. Geiser et al. "Bandwidth Extension for Hierarchical Speech and Audio Coding in ITU-T Rec. G.729.1", IEEE Trans. on Audio, Speech and Language Processing, издание 15, номер 8, ноябрь 2007 года.[2] B. Geiser et al. "Bandwidth Extension for Hierarchical Speech and Audio Coding in ITU-T Rec. G.729.1", IEEE Trans. on Audio, Speech and Language Processing, Edition 15, Number 8, November 2007.

[3] B. Iser, W. Minker и G. Schmidt "Bandwidth Extension of Speech Signals", Springer Lecture Notes in Electrical Engineering, издание 13, Нью-Йорк, 2008 год.[3] B. Iser, W. Minker, and G. Schmidt "Bandwidth Extension of Speech Signals", Springer Lecture Notes in Electrical Engineering, vol. 13, New York, 2008.

[4] M. Jelínek и R. Salami "Wideband Speech Coding Advances in VMR-WB Standard", IEEE Trans. on Audio, Speech and Language Processing, издание 15, номер 4, май 2007 года.[4] M. Jelínek and R. Salami "Wideband Speech Coding Advances in VMR-WB Standard", IEEE Trans. on Audio, Speech and Language Processing, Edition 15, Number 4, May 2007.

[5] I. Katsir, I. Cohen и D. Malah "Speech Bandwidth Extension Based on Speech Phonetic Content and Speaker Vocal Tract Shape Estimation", in Proc. EUSIPCO 2011, Барселона, Испания, сентябрь 2011 года.[5] I. Katsir, I. Cohen and D. Malah "Speech Bandwidth Extension Based on Speech Phonetic Content and Speaker Vocal Tract Shape Estimation", in Proc. EUSIPCO 2011, Barcelona, Spain, September 2011.

[6] E. Larsen и R. M. Aarts "Audio Bandwidth Extension: Application of Psychoacoustics, Signal Processing and Loudspeaker Design", Wiley, Нью-Йорк, 2004 год.[6] E. Larsen and R. M. Aarts, “Audio Bandwidth Extension: Application of Psychoacoustics, Signal Processing and Loudspeaker Design,” Wiley, New York, 2004.

[7] J. Mäkinen et al. "AMR-WB+: A New Audio Coding Standard for 3rd Generation Mobile Audio Services", in Proc. ICASSP 2005, Филадельфия, США, март 2005 года.[7] J. Mäkinen et al. "AMR-WB +: A New Audio Coding Standard for 3rd Generation Mobile Audio Services", in Proc. ICASSP 2005, Philadelphia, USA, March 2005.

[8] M. Neuendorf et al. "MPEG Unified Speech and Audio Coding-The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types", in Proc. 132nd AES Convention, Будапешт, Венгрия, апрель 2012 года. Также содержится в Journal of the AES, 2013 год.[8] M. Neuendorf et al. "MPEG Unified Speech and Audio Coding-The ISO / MPEG Standard for High-Efficiency Audio Coding of All Content Types", in Proc. 132nd AES Convention, Budapest, Hungary, April 2012. Also found in the Journal of the AES, 2013.

[9] H. Pulakka и P. Alku "Bandwidth Extension of Telephone Speech Using the Neural Network and the Filter Bank Implementation for Highband Mel Spectrum", IEEE Trans. on Audio, Speech and Language Processing, издание 19, номер 7, сентябрь 2011 года.[9] H. Pulakka and P. Alku "Bandwidth Extension of Telephone Speech Using the Neural Network and the Filter Bank Implementation for Highband Mel Spectrum", IEEE Trans. on Audio, Speech and Language Processing, Edition 19, Number 7, September 2011.

[10] T. Vaillancourt et al. "ITU-T EV-VBR: A Robust 8-32 kbit/s Scalable Coder for Error Prone Telecommunications Channels", in Proc. EUSIPCO 2008, Лозанна, Швейцария, август 2008 года.[10] T. Vaillancourt et al. "ITU-T EV-VBR: A Robust 8-32 kbit / s Scalable Coder for Error Prone Telecommunications Channels", in Proc. EUSIPCO 2008, Lausanne, Switzerland, August 2008.

[11] L. Miao et al. "G.711.1 Annex D and G.722 Annex B: New ITU-T Superwideband codecs", in Proc. ICASSP 2011, Прага, Чешская Республика, май 2011 года.[11] L. Miao et al. "G.711.1 Annex D and G.722 Annex B: New ITU-T Superwideband codecs", in Proc. ICASSP 2011, Prague, Czech Republic, May 2011.

Claims (92)

1. Аудиокодер (100; 200) для обеспечения кодированной аудиоинформации (112; 212) на основании входной аудиоинформации (110; 210), причем аудиокодер содержит:1. An audio encoder (100; 200) for providing encoded audio information (112; 212) based on the input audio information (110; 210), the audio encoder comprising: - низкочастотный кодер (120; 220), выполненный с возможностью кодирования низкочастотной части входной аудиоинформации для получения кодированного представления (122; 222) низкочастотной части; и- a low-frequency encoder (120; 220), configured to encode the low-frequency part of the input audio information to obtain an encoded representation (122; 222) of the low-frequency part; and - блок (130; 230) обеспечения информации расширения полосы пропускания, выполненный с возможностью обеспечения информации (132; 232) расширения полосы пропускания на основании входной аудиоинформации;- a block (130; 230) for providing bandwidth extension information, configured to provide information (132; 232) for bandwidth expansion based on input audio information; - при этом аудиокодер выполнен с возможностью избирательного включения информации расширения полосы пропускания в кодированную аудиоинформацию сигнально-адаптивным способом;- while the audio encoder is configured to selectively include bandwidth extension information in encoded audio information in a signal-adaptive manner; - при этом аудиокодер содержит детектор (240), выполненный с возможностью идентификации частей входной аудиоинформации, для которых параметры расширения полосы пропускания не могут оцениваться на основании низкочастотной части с достаточной или желаемой точностью; и- wherein the audio encoder comprises a detector (240) configured to identify parts of the input audio information for which bandwidth expansion parameters cannot be estimated based on the low-frequency part with sufficient or desired accuracy; and - при этом аудиокодер выполнен с возможностью избирательного включения информации расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, идентифицированных детектором.- while the audio encoder is configured to selectively include bandwidth extension information in encoded audio information for parts of the input audio information identified by the detector. 2. Аудиокодер (100; 200) по п. 1, при этом аудиокодер содержит детектор (240), выполненный с возможностью идентификации частей входной аудиоинформации, которые не могут декодироваться с достаточным или желаемым качеством на основании кодированного представления низкочастотной части и с использованием расширения полосы пропускания вслепую; и2. The audio encoder (100; 200) according to claim 1, wherein the audio encoder comprises a detector (240) configured to identify parts of the input audio information that cannot be decoded with sufficient or desired quality based on the encoded representation of the low-frequency part and using the band extension blind transmittance; and - при этом аудиокодер выполнен с возможностью избирательного включения информации расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, идентифицированных детектором. - while the audio encoder is configured to selectively include bandwidth extension information in encoded audio information for parts of the input audio information identified by the detector. 3. Аудиокодер (100; 200) по п. 1, при этом аудиокодер содержит детектор (240), выполненный с возможностью идентификации частей входной аудиоинформации в зависимости от того, являются ли части неподвижными во времени частями, и в зависимости от того, имеют ли части низкочастотный характер; и3. The audio encoder (100; 200) according to claim 1, wherein the audio encoder comprises a detector (240) configured to identify parts of the input audio information depending on whether the parts are parts that are motionless in time, and depending on whether parts of a low-frequency nature; and - при этом аудиокодер выполнен с возможностью избирательного исключения включения информации расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, идентифицированных детектором в качестве неподвижных во времени частей, имеющих низкочастотный характер.- while the audio encoder is configured to selectively exclude the inclusion of bandwidth extension information in encoded audio information for parts of the input audio information identified by the detector as parts that are stationary in time having a low-frequency character. 4. Аудиокодер (100; 200) по п. 3, в котором детектор выполнен с возможностью идентификации частей входной аудиоинформации в зависимости от того, содержат ли части вокализованную речь, и/или в зависимости от того, содержат ли части шум окружающей среды, и/или в зависимости от того, содержат ли части музыку без ударных инструментов.4. The audio encoder (100; 200) according to claim 3, wherein the detector is configured to identify parts of the input audio information depending on whether the parts contain voiced speech, and / or depending on whether the parts contain environmental noise, and / or depending on whether the parts contain music without percussion instruments. 5. Аудиокодер (100; 200) по п. 1, при этом аудиокодер содержит детектор (240), выполненный с возможностью идентификации частей входной аудиоинформации в зависимости от того, превышает ли или равна ли разность между спектральной огибающей низкочастотной части и спектральной огибающей высокочастотной части заданному показателю разности; и5. The audio encoder (100; 200) according to claim 1, wherein the audio encoder comprises a detector (240) configured to identify parts of the input audio information depending on whether the difference between the spectral envelope of the low-frequency part and the spectral envelope of the high-frequency part is greater than or equal to the specified index of the difference; and - при этом аудиокодер выполнен с возможностью избирательного включения информации расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, идентифицированных детектором.- while the audio encoder is configured to selectively include bandwidth extension information in encoded audio information for parts of the input audio information identified by the detector. 6. Аудиокодер (100; 200) по п. 5, в котором детектор выполнен с возможностью идентификации частей в зависимости от того, содержат ли части невокализованную речь, и/или в котором детектор выполнен с возможностью идентификации частей в зависимости от того, содержат ли части звуки ударных инструментов.6. The audio encoder (100; 200) according to claim 5, in which the detector is configured to identify parts depending on whether the parts contain unvoiced speech, and / or in which the detector is configured to identify parts, depending on whether parts of the sounds of percussion instruments. 7. Аудиокодер (100; 200) по п. 1, при этом аудиокодер содержит детектор (240), выполненный с возможностью определения спектрального наклона частей входной аудиоинформации и идентификации частей входной аудиоинформации в зависимости от того, превышает ли или равен ли определенный спектральный наклон фиксированному или переменному пороговому значению наклона; и7. The audio encoder (100; 200) according to claim 1, wherein the audio encoder comprises a detector (240) configured to determine a spectral tilt of parts of the input audio information and identify parts of the input audio information depending on whether or not a certain spectral tilt is fixed or equal to a fixed or a variable slope threshold value; and - при этом аудиокодер выполнен с возможностью избирательного включения информации расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, идентифицированных детектором.- while the audio encoder is configured to selectively include bandwidth extension information in encoded audio information for parts of the input audio information identified by the detector. 8. Аудиокодер (100; 200) по п. 7, в котором детектор дополнительно выполнен с возможностью определять частоту переходов через нуль частей входной аудиоинформации и идентифицировать части входной аудиоинформации также в зависимости от того, превышает ли или равна ли определенная частота переходов через нуль фиксированному или переменному пороговому значению частоты переходов через нуль, либо в зависимости от того, содержит ли частота переходов через нуль временное изменение, которое превышает пороговое значение изменения частоты переходов через нуль.8. The audio encoder (100; 200) according to claim 7, wherein the detector is further configured to determine the frequency of transitions through zero of parts of the input audio information and to identify parts of the input audio information also depending on whether or not a certain frequency of transitions through zero is fixed or a variable threshold value of the zero transition rate, or depending on whether the frequency of zero transitions contains a temporary change that exceeds the threshold value of the transition frequency change Erez zero. 9. Аудиокодер (100; 200) по п. 2, в котором детектор (240) выполнен с возможностью применения гистерезиса для идентификации частей сигнала входной аудиоинформации для сокращения числа переходов между идентифицированными частями сигнала и неидентифицированными частями сигнала.9. The audio encoder (100; 200) according to claim 2, wherein the detector (240) is configured to use hysteresis to identify signal portions of the input audio information to reduce the number of transitions between the identified signal parts and unidentified signal parts. 10. Аудиокодер (100; 200) по п. 1, при этом аудиокодер выполнен с возможностью избирательного включения параметров, представляющих спектральную огибающую высокочастотной части входной аудиоинформации, в кодированную аудиоинформацию сигнально-адаптивным способом в качестве информации расширения полосы пропускания.10. The audio encoder (100; 200) according to claim 1, wherein the audio encoder is configured to selectively include parameters representing the spectral envelope of the high-frequency part of the input audio information in the encoded audio information in a signal-adaptive manner as bandwidth extension information. 11. Аудиокодер (100; 200) по п. 1, в котором низкочастотный кодер выполнен с возможностью кодирования низкочастотной части входной аудиоинформации, содержащей частоты вплоть до максимальной частоты, которая находится в диапазоне 6-7 кГц, и11. The audio encoder (100; 200) according to claim 1, wherein the low-frequency encoder is configured to encode the low-frequency part of the input audio information containing frequencies up to a maximum frequency that is in the range of 6-7 kHz, and - при этом аудиокодер выполнен с возможностью избирательного включения в кодированное аудиопредставление от трех до пяти параметров, описывающих интенсивность высокочастотных частей сигнала, имеющих полосы пропускания в 300-500 Гц. - while the audio encoder is configured to selectively include in the encoded audio presentation from three to five parameters that describe the intensity of the high-frequency parts of the signal having a passband of 300-500 Hz. 12. Аудиокодер (100; 200) по п. 11, при этом аудиокодер выполнен с возможностью избирательного включения в кодированное аудиопредставление 4 скалярно квантованных параметров, описывающих интенсивность четырех высокочастотных частей сигнала, причем высокочастотные части сигнала покрывают частотные диапазоны выше низкочастотной части.12. The audio encoder (100; 200) according to claim 11, wherein the audio encoder is configured to selectively include 4 scalar quantized parameters describing the intensity of the four high-frequency parts of the signal in the encoded audio presentation, the high-frequency parts of the signal covering frequency ranges above the low-frequency parts. 13. Аудиокодер (100; 200) по п. 11, при этом аудиокодер выполнен с возможностью избирательного включения в кодированное аудиопредставление множества параметров, описывающих взаимосвязь между энергиями или интенсивностями спектрально смежных частотных частей, при этом один из параметров описывает отношение или разность между энергией или интенсивностью первой высокочастотной части и низкочастотной части расширения полосы пропускания, и при этом другие из параметров описывают отношения или разности между энергиями или интенсивностями других высокочастотных частей расширения полосы пропускания.13. The audio encoder (100; 200) according to claim 11, wherein the audio encoder is configured to selectively include in the encoded audio presentation a plurality of parameters describing the relationship between the energies or intensities of spectrally adjacent frequency parts, one of the parameters describing the ratio or difference between the energy or the intensity of the first high-frequency part and the low-frequency part of the expansion of the passband, while the other parameters describe the relationships or differences between the energies or intensities of each other x high frequency bandwidth extension parts. 14. Аудиодекодер (400; 500) для обеспечения декодированной аудиоинформации (412; 512) на основании кодированной аудиоинформации (410; 510), причем аудиодекодер содержит:14. An audio decoder (400; 500) for providing decoded audio information (412; 512) based on encoded audio information (410; 510), the audio decoder comprising: - низкочастотный декодер (420; 520), выполненный с возможностью декодирования кодированного представления низкочастотной части для получения декодированного представления (422; 522) низкочастотной части; и- a low-frequency decoder (420; 520), configured to decode the encoded representation of the low-frequency part to obtain a decoded representation (422; 522) of the low-frequency part; and - расширение (430; 530) полосы пропускания, выполненное с возможностью получения сигнала (432; 532) расширения полосы пропускания с использованием расширения полосы пропускания вслепую для частей аудиоконтента, для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию, и получения сигнала расширения полосы пропускания с использованием направляемого параметрами расширения полосы пропускания для частей аудиоконтента, для которых параметры расширения полосы пропускания включены в кодированную аудиоинформацию;- bandwidth extension (430; 530), configured to receive a bandwidth extension signal (432; 532) using blind bandwidth expansion for parts of audio content for which bandwidth expansion parameters are not included in the encoded audio information, and receiving a bandwidth extension signal bandwidth using parameter-guided bandwidth expansion for parts of audio content for which bandwidth expansion parameters are included in the encoded audio information Mats - при этом аудиодекодер выполнен с возможностью определения, следует ли использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания, на основании кодированного представления низкочастотной части без оценки флага сигнализации режима расширения полосы пропускания.- while the audio decoder is configured to determine whether to use the bandwidth extension blindly or parameter-driven expansion of the bandwidth based on the encoded representation of the low-frequency part without evaluating the signaling flag of the bandwidth extension mode. 15. Аудиодекодер (400; 500) по п. 14, при этом аудиодекодер выполнен с возможностью определения, следует ли получать сигнал расширения полосы пропускания с использованием расширения полосы пропускания вслепую или с использованием направляемого параметрами расширения полосы пропускания, на покадровой основе.15. The audio decoder (400; 500) according to claim 14, wherein the audio decoder is configured to determine whether to receive a bandwidth extension signal using blindly expanding bandwidth or using the bandwidth expansion parameter-guided, on a frame-by-frame basis. 16. Аудиодекодер (400; 500) по п. 14, при этом аудиодекодер выполнен с возможностью переключения между использованием расширения полосы пропускания вслепую и направляемым параметрами расширением полосы пропускания в пределах смежного фрагмента аудиоконтента.16. The audio decoder (400; 500) according to claim 14, wherein the audio decoder is configured to switch between using blind bandwidth extension and parameter-guided bandwidth extension within an adjacent piece of audio content. 17. Аудиодекодер (400; 500) по п. 14, при этом аудиодекодер выполнен с возможностью оценки флагов, включенных в кодированную аудиоинформацию для различных частей аудиоконтента, для определения, следует ли использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания.17. The audio decoder (400; 500) according to claim 14, wherein the audio decoder is configured to evaluate flags included in the encoded audio information for various parts of the audio content to determine whether to use the blindband extension or the bandwidth-directed extension of the parameters. 18. Аудиодекодер (400; 500) по п. 14, при этом аудиодекодер выполнен с возможностью определения, следует ли использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания, на основании одного или более свойств декодированного представления низкочастотной части.18. The audio decoder (400; 500) according to claim 14, wherein the audio decoder is configured to determine whether to use blind bandwidth expansion or parameter-guided bandwidth expansion based on one or more properties of the decoded representation of the low-frequency part. 19. Аудиодекодер (400; 500) по п. 14, при этом аудиодекодер выполнен с возможностью определения, следует ли использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания, на основании коэффициентов линейного прогнозирования и/или на основании статистики во временной области декодированного представления низкочастотной части.19. The audio decoder (400; 500) according to claim 14, wherein the audio decoder is configured to determine whether to use blind bandwidth extension or parameter-guided bandwidth extension based on linear prediction coefficients and / or based on statistics in the time domain of the decoded representations of the low-frequency part. 20. Аудиодекодер (400; 500) по п. 14, в котором расширение полосы пропускания выполнено с возможностью получения сигнала расширения полосы пропускания с использованием одного или более свойств декодированного представления низкочастотной части и/или с использованием одного или более параметров низкочастотного декодера для временных частей входного аудиоконтента, для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию.20. The audio decoder (400; 500) according to claim 14, wherein the bandwidth extension is configured to receive a bandwidth extension signal using one or more properties of the decoded representation of the low-frequency part and / or using one or more parameters of the low-frequency decoder for the time parts input audio content for which bandwidth extension parameters are not included in encoded audio information. 21. Аудиодекодер (400; 500) по п. 14, в котором расширение полосы пропускания выполнено с возможностью получения сигнала расширения полосы пропускания с использованием информации спектрального центроида и/или с использованием информации энергии, и/или с использованием наклонной информации, и/или с использованием коэффициентов фильтрации для временных частей входного аудиоконтента, для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию.21. The audio decoder (400; 500) according to claim 14, wherein the bandwidth extension is configured to receive a bandwidth extension signal using spectral centroid information and / or using energy information and / or using oblique information and / or using filtering coefficients for the time portions of the input audio content for which bandwidth extension parameters are not included in the encoded audio information. 22. Аудиодекодер (400; 500) по п. 14, в котором расширение полосы пропускания выполнено с возможностью получения сигнала расширения полосы пропускания с использованием параметров потока битов, описывающего спектральную огибающую высокочастотной части для временных частей аудиоконтента, для которых параметры расширения полосы пропускания включены в кодированную аудиоинформацию.22. The audio decoder (400; 500) according to claim 14, wherein the bandwidth extension is configured to receive a bandwidth extension signal using bitstream parameters describing the spectral envelope of the high-frequency part for time portions of audio content for which the bandwidth expansion parameters are included in encoded audio information. 23. Аудиодекодер (400; 500) по п. 22, в котором расширение полосы пропускания выполнено с возможностью оценки от трех до пяти параметров потока битов, описывающего интенсивность высокочастотных частей сигнала, имеющих полосы пропускания в 300-500 Гц, для получения сигнала расширения полосы пропускания.23. The audio decoder (400; 500) according to claim 22, wherein the bandwidth extension is configured to estimate from three to five parameters of a bit stream describing the intensity of high-frequency parts of a signal having a bandwidth of 300-500 Hz to obtain a band extension signal transmittance. 24. Аудиодекодер (400; 500) по п. 23, в котором от трех до пяти параметров потока битов, описывающего интенсивность высокочастотных частей сигнала, скалярно квантуются с разрешением в 2 или 3 бита, так что предусмотрено 6-15 битов для параметров формирования спектра расширения полосы пропускания в расчете на аудиокадр.24. The audio decoder (400; 500) according to claim 23, wherein three to five parameters of the bit stream describing the intensity of the high-frequency parts of the signal are scalarly quantized with a resolution of 2 or 3 bits, so 6-15 bits are provided for the parameters of the formation of the spectrum bandwidth expansion per audio frame. 25. Аудиодекодер (400; 500) по п. 14, в котором расширение полосы пропускания выполнено с возможностью осуществления сглаживания энергий сигнала расширения полосы пропускания при переключении с расширения полосы пропускания вслепую на направляемое параметрами расширение полосы пропускания и/или при переключении с направляемого параметрами расширения полосы пропускания на расширение полосы пропускания вслепую.25. The audio decoder (400; 500) according to claim 14, wherein the bandwidth expansion is configured to smooth out the energies of the bandwidth expansion signal when switching from blind bandwidth expansion to parameter-controlled bandwidth expansion and / or when switching from directionally expanded bandwidth Blind bandwidth expansion bandwidth. 26. Аудиодекодер (400; 500) по п. 25, в котором расширение полосы пропускания выполнено с возможностью гашения высокочастотной части сигнала расширения полосы пропускания для части аудиоконтента, к которой применяется направляемое параметрами расширение полосы пропускания, после части аудиоконтента, к которой применяется расширение полосы пропускания вслепую; и26. The audio decoder (400; 500) according to claim 25, wherein the bandwidth extension is configured to suppress the high-frequency portion of the bandwidth extension signal for the portion of audio content to which the parameter-directed bandwidth extension is applied after the portion of the audio content to which the bandwidth is applied blind transmittance; and - при этом расширение полосы пропускания выполнено с возможностью уменьшения гашения или повышения уровня для высокочастотной части сигнала расширения полосы пропускания для части аудиоконтента, к которой применяется расширение полосы пропускания вслепую, после части аудиоконтента, к которой применяется направляемое параметрами расширение полосы пропускания.- wherein the bandwidth extension is configured to reduce blanking or increase the level for the high-frequency part of the bandwidth extension signal for the part of the audio content to which the bandwidth expansion is applied blindly, after the part of the audio content to which the bandwidth extension directed by the parameters is applied. 27. Способ (600) обеспечения кодированной аудиоинформации на основании входной аудиоинформации, при этом способ содержит этапы, на которых:27. The method (600) of providing encoded audio information based on the input audio information, the method comprising the steps of: - кодируют (610) низкочастотную часть входной аудиоинформации для получения кодированного представления низкочастотной части; и- encode (610) the low-frequency part of the input audio information to obtain an encoded representation of the low-frequency part; and - обеспечивают (620) информацию расширения полосы пропускания на основании входной аудиоинформации;- provide (620) bandwidth extension information based on input audio information; - при этом информация расширения полосы пропускания избирательно включается в кодированную аудиоинформацию сигнально-адаптивным способом;- wherein the bandwidth extension information is selectively included in the encoded audio information in a signal-adaptive manner; - при этом способ содержит этап, на котором идентифицируют части входной аудиоинформации, для которых параметры расширения полосы пропускания не могут оцениваться на основании низкочастотной части с достаточной или желаемой точностью; и- wherein the method comprises the step of identifying parts of the input audio information for which the bandwidth expansion parameters cannot be estimated based on the low-frequency part with sufficient or desired accuracy; and - при этом способ содержит этап, на котором избирательно включают информацию расширения полосы пропускания в кодированную аудиоинформацию для идентифицированных частей входной аудиоинформации.- wherein the method comprises the step of selectively including bandwidth extension information in encoded audio information for the identified parts of the input audio information. 28. Способ (700) обеспечения декодированной аудиоинформации на основании кодированной аудиоинформации, при этом способ содержит этапы, на которых:28. The method (700) of providing decoded audio information based on encoded audio information, the method comprising the steps of: - декодируют (710) кодированное представление низкочастотной части для получения декодированного представления низкочастотной части; и- decode (710) the encoded representation of the low-frequency part to obtain a decoded representation of the low-frequency part; and - получают (720) сигнал расширения полосы пропускания с использованием расширения полосы пропускания вслепую для частей аудиоконтента, для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию, и- receive (720) a bandwidth extension signal using blindly bandwidth extension for parts of audio content for which bandwidth extension parameters are not included in the encoded audio information, and - получают (730) сигнал расширения полосы пропускания с использованием направляемого параметрами расширения полосы пропускания для частей аудиоконтента, для которых параметры расширения полосы пропускания включены в кодированную аудиоинформацию;- receive (730) a bandwidth extension signal using the bandwidth extension parameters guided for parts of audio content for which the bandwidth expansion parameters are included in the encoded audio information; - при этом способ содержит этап, на котором определяют, следует ли использовать расширение полосы пропускания вслепую или направляемое параметрами расширение полосы пропускания, на основании кодированного представления низкочастотной части без оценки флага сигнализации режима расширения полосы пропускания.- wherein the method comprises the step of determining whether to use the bandwidth extension blindly or parameter-guided bandwidth expansion based on the encoded representation of the low-frequency part without evaluating the signaling flag of the bandwidth extension mode. 29. Машиночитаемый носитель, на котором сохранена компьютерная программа для осуществления способа по п. 27, когда компьютерная программа выполняется на компьютере.29. A computer-readable medium that stores a computer program for implementing the method according to claim 27, when the computer program is executed on a computer. 30. Машиночитаемый носитель, на котором сохранена компьютерная программа для осуществления способа по п. 28, когда компьютерная программа выполняется на компьютере.30. A computer-readable medium on which a computer program is stored for implementing the method of claim 28, when the computer program is executed on a computer. 31. Аудиокодер (100; 200) для обеспечения кодированной аудиоинформации (112; 212) на основании входной аудиоинформации (110; 210), причем аудиокодер содержит:31. An audio encoder (100; 200) for providing encoded audio information (112; 212) based on input audio information (110; 210), the audio encoder comprising: - низкочастотный кодер (120; 220), выполненный с возможностью кодирования низкочастотной части входной аудиоинформации для получения кодированного представления (122; 222) низкочастотной части; и- a low-frequency encoder (120; 220), configured to encode the low-frequency part of the input audio information to obtain an encoded representation (122; 222) of the low-frequency part; and - блок (130; 230) обеспечения информации расширения полосы пропускания, выполненный с возможностью обеспечения информации (132; 232) расширения полосы пропускания на основании входной аудиоинформации;- a block (130; 230) for providing bandwidth extension information, configured to provide information (132; 232) for bandwidth expansion based on input audio information; - при этом аудиокодер выполнен с возможностью избирательного включения информации расширения полосы пропускания в кодированную аудиоинформацию сигнально-адаптивным способом;- while the audio encoder is configured to selectively include bandwidth extension information in encoded audio information in a signal-adaptive manner; - при этом аудиокодер содержит детектор (240), выполненный с возможностью идентификации частей входной аудиоинформации в зависимости от того, превышает ли или равна ли разность между спектральной огибающей низкочастотной части и спектральной огибающей высокочастотной части заданному показателю разности; и- wherein the audio encoder comprises a detector (240) configured to identify parts of the input audio information depending on whether or not the difference between the spectral envelope of the low-frequency part and the spectral envelope of the high-frequency part exceeds a predetermined difference index; and - при этом аудиокодер выполнен с возможностью избирательного включения информации расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, идентифицированных детектором.- while the audio encoder is configured to selectively include bandwidth extension information in encoded audio information for parts of the input audio information identified by the detector. 32. Аудиокодер (100; 200) для обеспечения кодированной аудиоинформации (112; 212) на основании входной аудиоинформации (110; 210), причем аудиокодер содержит:32. An audio encoder (100; 200) for providing encoded audio information (112; 212) based on input audio information (110; 210), the audio encoder comprising: - низкочастотный кодер (120; 220), выполненный с возможностью кодирования низкочастотной части входной аудиоинформации для получения кодированного представления (122; 222) низкочастотной части; и- a low-frequency encoder (120; 220), configured to encode the low-frequency part of the input audio information to obtain an encoded representation (122; 222) of the low-frequency part; and - блок (130; 230) обеспечения информации расширения полосы пропускания, выполненный с возможностью обеспечения информации (132; 232) расширения полосы пропускания на основании входной аудиоинформации;- a block (130; 230) for providing bandwidth extension information, configured to provide information (132; 232) for bandwidth expansion based on input audio information; - при этом аудиокодер выполнен с возможностью избирательного включения информации расширения полосы пропускания в кодированную аудиоинформацию сигнально-адаптивным способом;- while the audio encoder is configured to selectively include bandwidth extension information in encoded audio information in a signal-adaptive manner; - при этом аудиокодер содержит детектор (240), выполненный с возможностью определения спектрального наклона частей входной аудиоинформации и идентификации частей входной аудиоинформации в зависимости от того, превышает ли или равен ли определенный спектральный наклон фиксированному или переменному пороговому значению наклона; и- wherein the audio encoder comprises a detector (240) configured to determine a spectral tilt of parts of the input audio information and identify parts of the input audio information depending on whether or not a particular spectral tilt is equal to a fixed or variable threshold tilt value; and - при этом аудиокодер выполнен с возможностью избирательного включения информации расширения полосы пропускания в кодированную аудиоинформацию для частей входной аудиоинформации, идентифицированных детектором.- while the audio encoder is configured to selectively include bandwidth extension information in encoded audio information for parts of the input audio information identified by the detector. 33. Аудиодекодер (400; 500) для обеспечения декодированной аудиоинформации (412; 512) на основании кодированной аудиоинформации (410; 510), причем аудиодекодер содержит:33. An audio decoder (400; 500) for providing decoded audio information (412; 512) based on encoded audio information (410; 510), the audio decoder comprising: - низкочастотный декодер (420; 520), выполненный с возможностью декодирования кодированного представления низкочастотной части для получения декодированного представления (422; 522) низкочастотной части; и- a low-frequency decoder (420; 520), configured to decode the encoded representation of the low-frequency part to obtain a decoded representation (422; 522) of the low-frequency part; and - расширение (430; 530) полосы пропускания, выполненное с возможностью получения сигнала (432; 532) расширения полосы пропускания с использованием расширения полосы пропускания вслепую для частей аудиоконтента, для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию, и получения сигнала расширения полосы пропускания с использованием направляемого параметрами расширения полосы пропускания для частей аудиоконтента, для которых параметры расширения полосы пропускания включены в кодированную аудиоинформацию;- bandwidth extension (430; 530), configured to receive a bandwidth extension signal (432; 532) using blind bandwidth expansion for parts of audio content for which bandwidth expansion parameters are not included in the encoded audio information, and receiving a bandwidth extension signal bandwidth using parameter-guided bandwidth expansion for parts of audio content for which bandwidth expansion parameters are included in the encoded audio information Mats - при этом расширение полосы пропускания выполнено с возможностью осуществления сглаживания энергий сигнала расширения полосы пропускания при переключении с расширения полосы пропускания вслепую на направляемое параметрами расширение полосы пропускания и/или при переключении с направляемого параметрами расширения полосы пропускания на расширение полосы пропускания вслепую;- wherein the bandwidth extension is configured to smooth out the energies of the bandwidth extension signal when switching from blindly expanding the bandwidth to the parameter-driven bandwidth extension and / or when switching from the parameterized bandwidth expansion to blindly expanding the bandwidth; - при этом расширение полосы пропускания выполнено с возможностью гашения высокочастотной части сигнала расширения полосы пропускания для части аудиоконтента, к которой применяется направляемое параметрами расширение полосы пропускания, после части аудиоконтента, к которой применяется расширение полосы пропускания вслепую; и- wherein the bandwidth extension is configured to suppress the high-frequency portion of the bandwidth extension signal for the portion of audio content to which the parameter-directed bandwidth extension is applied after the portion of the audio content to which blindband expansion is applied; and - при этом расширение полосы пропускания выполнено с возможностью уменьшения гашения или повышения уровня для высокочастотной части сигнала расширения полосы пропускания для части аудиоконтента, к которой применяется расширение полосы пропускания вслепую, после части аудиоконтента, к которой применяется направляемое параметрами расширение полосы пропускания.- wherein the bandwidth extension is configured to reduce blanking or increase the level for the high-frequency part of the bandwidth extension signal for the part of the audio content to which the bandwidth expansion is applied blindly, after the part of the audio content to which the bandwidth extension directed by the parameters is applied. 34. Способ (600) обеспечения кодированной аудиоинформации на основании входной аудиоинформации, при этом способ содержит этапы, на которых:34. The method (600) of providing encoded audio information based on the input audio information, the method comprising the steps of: - кодируют (610) низкочастотную часть входной аудиоинформации для получения кодированного представления низкочастотной части; и- encode (610) the low-frequency part of the input audio information to obtain an encoded representation of the low-frequency part; and - обеспечивают (620) информацию расширения полосы пропускания на основании входной аудиоинформации;- provide (620) bandwidth extension information based on input audio information; - при этом информация расширения полосы пропускания избирательно включается в кодированную аудиоинформацию сигнально-адаптивным способом;- wherein the bandwidth extension information is selectively included in the encoded audio information in a signal-adaptive manner; - при этом способ содержит этап, на котором идентифицируют части входной аудиоинформации в зависимости от того, превышает ли или равна ли разность между спектральной огибающей низкочастотной части и спектральной огибающей высокочастотной части заданному показателю разности; и- wherein the method comprises the step of identifying parts of the input audio information depending on whether or not the difference between the spectral envelope of the low-frequency part and the spectral envelope of the high-frequency part exceeds a predetermined difference index; and - при этом способ содержит этап, на котором избирательно включают информацию расширения полосы пропускания в кодированную аудиоинформацию для идентифицированных частей входной аудиоинформации.- wherein the method comprises the step of selectively including bandwidth extension information in encoded audio information for the identified parts of the input audio information. 35. Способ (600) обеспечения кодированной аудиоинформации на основании входной аудиоинформации, при этом способ содержит этапы, на которых:35. The method (600) of providing encoded audio information based on the input audio information, the method comprising the steps of: - кодируют (610) низкочастотную часть входной аудиоинформации для получения кодированного представления низкочастотной части; и- encode (610) the low-frequency part of the input audio information to obtain an encoded representation of the low-frequency part; and - обеспечивают (620) информацию расширения полосы пропускания на основании входной аудиоинформации;- provide (620) bandwidth extension information based on input audio information; - при этом информация расширения полосы пропускания избирательно включается в кодированную аудиоинформацию сигнально-адаптивным способом;- wherein the bandwidth extension information is selectively included in the encoded audio information in a signal-adaptive manner; - при этом способ содержит этап, на котором определяют спектральный наклон частей входной аудиоинформации и идентифицируют части входной аудиоинформации в зависимости от того, превышает ли или равен ли определенный спектральный наклон фиксированному или переменному пороговому значению наклона; и- wherein the method comprises determining the spectral slope of the parts of the input audio information and identifying the parts of the input audio information depending on whether the specific spectral tilt is greater than or equal to a fixed or variable threshold tilt value; and - при этом способ содержит этап, на котором избирательно включают информацию расширения полосы пропускания в кодированную аудиоинформацию для идентифицированных частей входной аудиоинформации.- wherein the method comprises the step of selectively including bandwidth extension information in encoded audio information for the identified parts of the input audio information. 36. Способ (700) обеспечения декодированной аудиоинформации на основании кодированной аудиоинформации, при этом способ содержит этапы, на которых:36. The method (700) of providing decoded audio information based on encoded audio information, the method comprising the steps of: - декодируют (710) кодированное представление низкочастотной части для получения декодированного представления низкочастотной части; и- decode (710) the encoded representation of the low-frequency part to obtain a decoded representation of the low-frequency part; and - получают (720) сигнал расширения полосы пропускания с использованием расширения полосы пропускания вслепую для частей аудиоконтента, для которых параметры расширения полосы пропускания не включены в кодированную аудиоинформацию, и- receive (720) a bandwidth extension signal using blindly bandwidth extension for parts of audio content for which bandwidth extension parameters are not included in the encoded audio information, and - получают (730) сигнал расширения полосы пропускания с использованием направляемого параметрами расширения полосы пропускания для частей аудиоконтента, для которых параметры расширения полосы пропускания включены в кодированную аудиоинформацию;- receive (730) a bandwidth extension signal using the bandwidth extension parameters guided for parts of audio content for which the bandwidth expansion parameters are included in the encoded audio information; - при этом способ содержит этап, на котором выполняют сглаживание энергий сигнала расширения полосы пропускания при переключении с расширения полосы пропускания вслепую на направляемое параметрами расширение полосы пропускания и/или при переключении с направляемого параметрами расширения полосы пропускания на расширение полосы пропускания вслепую;- wherein the method comprises the step of smoothing the energies of the bandwidth extension signal when switching from blindly expanding the bandwidth to the parameter-driven bandwidth extension and / or when switching from the bandwidth-expanding parameter to blindly bandwidth expansion; - при этом способ содержит этап, на котором гасят высокочастотную часть сигнала расширения полосы пропускания для части аудиоконтента, к которой применяется направляемое параметрами расширение полосы пропускания, после части аудиоконтента, к которой применяется расширение полосы пропускания вслепую; и- wherein the method comprises the step of quenching the high-frequency part of the bandwidth extension signal for the part of the audio content to which the parameter-directed bandwidth expansion is applied, after the part of the audio content to which the bandwidth expansion is applied blindly; and - при этом способ содержит этап, на котором уменьшают гашение или повышают уровень для высокочастотной части сигнала расширения полосы пропускания для части аудиоконтента, к которой применяется расширение полосы пропускания вслепую, после части аудиоконтента, к которой применяется направляемое параметрами расширение полосы пропускания.- wherein the method comprises reducing the blanking or increasing the level for the high-frequency part of the bandwidth extension signal for the part of the audio content to which the bandwidth expansion is applied blindly, after the part of the audio content to which the parameter-directed bandwidth extension is applied. 37. Машиночитаемый носитель, на котором сохранена компьютерная программа для осуществления способа по п. 34 или 35, когда компьютерная программа выполняется на компьютере.37. A computer-readable medium that stores a computer program for implementing the method according to claim 34 or 35, when the computer program is executed on a computer. 38. Машиночитаемый носитель, на котором сохранена компьютерная программа для осуществления способа по п. 36, когда компьютерная программа выполняется на компьютере.38. A computer-readable medium that stores a computer program for implementing the method according to claim 36, when the computer program is executed on a computer.
RU2015136792A 2013-01-29 2014-01-28 Audio encoder, audio decoder, method of providing coded audio information, method of providing decoded audio information, computer program and coded presentation using signal-adaptive bandwidth extension RU2641461C2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361758205P 2013-01-29 2013-01-29
US61/758,205 2013-01-29
PCT/EP2014/051641 WO2014118185A1 (en) 2013-01-29 2014-01-28 Audio encoder, audio decoder, method for providing an encoded audio information, method for providing a decoded audio information, computer program and encoded representation using a signal-adaptive bandwidth extension

Publications (2)

Publication Number Publication Date
RU2015136792A RU2015136792A (en) 2017-03-10
RU2641461C2 true RU2641461C2 (en) 2018-01-17

Family

ID=50029037

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2015136792A RU2641461C2 (en) 2013-01-29 2014-01-28 Audio encoder, audio decoder, method of providing coded audio information, method of providing decoded audio information, computer program and coded presentation using signal-adaptive bandwidth extension

Country Status (20)

Country Link
US (1) US9646624B2 (en)
EP (4) EP2951822B1 (en)
JP (1) JP6239007B2 (en)
KR (1) KR101771828B1 (en)
CN (2) CN105264599B (en)
AR (2) AR094681A1 (en)
AU (1) AU2014211479B2 (en)
BR (1) BR112015017753B1 (en)
CA (4) CA2985105C (en)
ES (4) ES2664185T3 (en)
HK (1) HK1218179A1 (en)
MX (1) MX347062B (en)
MY (1) MY185176A (en)
PL (4) PL3054446T3 (en)
PT (3) PT3067890T (en)
RU (1) RU2641461C2 (en)
SG (1) SG11201505912QA (en)
TW (1) TWI533288B (en)
WO (1) WO2014118185A1 (en)
ZA (1) ZA201506312B (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2782981C2 (en) * 2018-05-30 2022-11-08 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Module for assessment of similarity of audio signals, audio encoder, methods and computer program
US12051431B2 (en) 2018-05-30 2024-07-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio similarity evaluator, audio encoder, methods and computer program

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9886959B2 (en) * 2005-02-11 2018-02-06 Open Invention Network Llc Method and system for low bit rate voice encoding and decoding applicable for any reduced bandwidth requirements including wireless
KR101261677B1 (en) * 2008-07-14 2013-05-06 광운대학교 산학협력단 Apparatus for encoding and decoding of integrated voice and music
WO2014118156A1 (en) * 2013-01-29 2014-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for synthesizing an audio signal, decoder, encoder, system and computer program
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
TWI693594B (en) 2015-03-13 2020-05-11 瑞典商杜比國際公司 Decoding audio bitstreams with enhanced spectral band replication metadata in at least one fill element
US10049684B2 (en) 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection
CN106294331B (en) 2015-05-11 2020-01-21 阿里巴巴集团控股有限公司 Audio information retrieval method and device
EP3288031A1 (en) 2016-08-23 2018-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding an audio signal using a compensation value
GB201620317D0 (en) * 2016-11-30 2017-01-11 Microsoft Technology Licensing Llc Audio signal processing
TW202341126A (en) 2017-03-23 2023-10-16 瑞典商都比國際公司 Backward-compatible integration of harmonic transposer for high frequency reconstruction of audio signals
EP3382703A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and methods for processing an audio signal
US10650806B2 (en) * 2018-04-23 2020-05-12 Cerence Operating Company System and method for discriminative training of regression deep neural networks
US11570849B2 (en) * 2018-12-06 2023-01-31 Schneider Electric Systems Usa, Inc. Wireless instrument area network node with internal force sensor
WO2020253941A1 (en) * 2019-06-17 2020-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs
KR20210003507A (en) * 2019-07-02 2021-01-12 한국전자통신연구원 Method for processing residual signal for audio coding, and aduio processing apparatus
EP4171065A4 (en) * 2020-06-22 2023-12-13 Sony Group Corporation Signal processing device and method, and program
CN112019282B (en) * 2020-08-13 2022-10-28 西安烽火电子科技有限责任公司 Short-wave time-varying channel fading bandwidth estimation method
CN112669860B (en) * 2020-12-29 2022-12-09 北京百瑞互联技术有限公司 Method and device for increasing effective bandwidth of LC3 audio coding and decoding
CN113035211B (en) * 2021-03-11 2021-11-16 马上消费金融股份有限公司 Audio compression method, audio decompression method and device
WO2024080597A1 (en) * 2022-10-12 2024-04-18 삼성전자주식회사 Electronic device and method for adaptively processing audio bitstream, and non-transitory computer-readable storage medium

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5061210A (en) * 1989-08-24 1991-10-29 Yazaki Corporation Connector with terminal retainer
WO2000079520A1 (en) * 1999-06-21 2000-12-28 Digital Theater Systems, Inc. Improving sound quality of established low bit-rate audio coding systems without loss of decoder compatibility
WO2010069885A1 (en) * 2008-12-15 2010-06-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and bandwidth extension decoder
US7835904B2 (en) * 2006-03-03 2010-11-16 Microsoft Corp. Perceptual, scalable audio compression
WO2011000780A1 (en) * 2009-06-29 2011-01-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Bandwidth extension encoder, bandwidth extension decoder and phase vocoder
RU2411594C2 (en) * 2005-03-30 2011-02-10 Конинклейке Филипс Электроникс Н.В. Audio coding and decoding
EP2352147A2 (en) * 2008-07-11 2011-08-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus and a method for encoding an audio signal
RU2455709C2 (en) * 2008-03-03 2012-07-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Audio signal processing method and device

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8901032A (en) 1988-11-10 1990-06-01 Philips Nv CODER FOR INCLUDING ADDITIONAL INFORMATION IN A DIGITAL AUDIO SIGNAL WITH A PREFERRED FORMAT, A DECODER FOR DERIVING THIS ADDITIONAL INFORMATION FROM THIS DIGITAL SIGNAL, AN APPARATUS FOR RECORDING A DIGITAL SIGNAL ON A CODE OF RECORD. OBTAINED A RECORD CARRIER WITH THIS DEVICE.
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
SE512719C2 (en) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd A method and apparatus for reducing data flow based on harmonic bandwidth expansion
CN1279512C (en) * 2001-11-29 2006-10-11 编码技术股份公司 Methods for improving high frequency reconstruction
SG161223A1 (en) * 2005-04-01 2010-05-27 Qualcomm Inc Method and apparatus for vector quantizing of a spectral envelope representation
ES2705589T3 (en) 2005-04-22 2019-03-26 Qualcomm Inc Systems, procedures and devices for smoothing the gain factor
US7610197B2 (en) * 2005-08-31 2009-10-27 Motorola, Inc. Method and apparatus for comfort noise generation in speech communication systems
US7953605B2 (en) 2005-10-07 2011-05-31 Deepen Sinha Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension
KR20070115637A (en) * 2006-06-03 2007-12-06 삼성전자주식회사 Method and apparatus for bandwidth extension encoding and decoding
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
EP2239732A1 (en) 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
CN101521014B (en) * 2009-04-08 2011-09-14 武汉大学 Audio bandwidth expansion coding and decoding devices
RU2568278C2 (en) * 2009-11-19 2015-11-20 Телефонактиеболагет Лм Эрикссон (Пабл) Bandwidth extension for low-band audio signal
US8600737B2 (en) * 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
JP5743137B2 (en) * 2011-01-14 2015-07-01 ソニー株式会社 Signal processing apparatus and method, and program
WO2012110481A1 (en) * 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio codec using noise synthesis during inactive phases
CN102543086B (en) * 2011-12-16 2013-08-14 大连理工大学 Device and method for expanding speech bandwidth based on audio watermarking

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5061210A (en) * 1989-08-24 1991-10-29 Yazaki Corporation Connector with terminal retainer
WO2000079520A1 (en) * 1999-06-21 2000-12-28 Digital Theater Systems, Inc. Improving sound quality of established low bit-rate audio coding systems without loss of decoder compatibility
RU2411594C2 (en) * 2005-03-30 2011-02-10 Конинклейке Филипс Электроникс Н.В. Audio coding and decoding
US7835904B2 (en) * 2006-03-03 2010-11-16 Microsoft Corp. Perceptual, scalable audio compression
RU2455709C2 (en) * 2008-03-03 2012-07-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Audio signal processing method and device
EP2352147A2 (en) * 2008-07-11 2011-08-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus and a method for encoding an audio signal
WO2010069885A1 (en) * 2008-12-15 2010-06-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and bandwidth extension decoder
WO2011000780A1 (en) * 2009-06-29 2011-01-06 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Bandwidth extension encoder, bandwidth extension decoder and phase vocoder

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2782981C2 (en) * 2018-05-30 2022-11-08 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Module for assessment of similarity of audio signals, audio encoder, methods and computer program
US12051431B2 (en) 2018-05-30 2024-07-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio similarity evaluator, audio encoder, methods and computer program

Also Published As

Publication number Publication date
SG11201505912QA (en) 2015-08-28
PL3054446T3 (en) 2024-02-19
PL3070713T3 (en) 2018-07-31
CN105264599A (en) 2016-01-20
CN110111801B (en) 2023-11-10
PL3067890T3 (en) 2018-06-29
ES2664185T3 (en) 2018-04-18
ES2959240T3 (en) 2024-02-22
AR115823A2 (en) 2021-03-03
CN110111801A (en) 2019-08-09
EP3070713A1 (en) 2016-09-21
BR112015017753A2 (en) 2018-05-02
PT3067890T (en) 2018-03-08
CA2898637C (en) 2020-06-16
US9646624B2 (en) 2017-05-09
CA2898637A1 (en) 2014-08-07
CA2985121A1 (en) 2014-08-07
JP2016509257A (en) 2016-03-24
EP3054446A1 (en) 2016-08-10
PT2951822T (en) 2020-02-05
KR20150114979A (en) 2015-10-13
KR101771828B1 (en) 2017-08-25
EP3054446C0 (en) 2023-08-09
AU2014211479B2 (en) 2017-02-23
EP3070713B1 (en) 2018-01-17
WO2014118185A1 (en) 2014-08-07
EP2951822A1 (en) 2015-12-09
PL2951822T3 (en) 2020-06-29
MX2015009682A (en) 2015-11-30
EP3054446B1 (en) 2023-08-09
CA2985115A1 (en) 2014-08-07
BR112015017753B1 (en) 2022-05-31
EP2951822B1 (en) 2019-11-13
RU2015136792A (en) 2017-03-10
JP6239007B2 (en) 2017-11-29
ZA201506312B (en) 2016-12-21
CA2985121C (en) 2019-03-12
US20150332702A1 (en) 2015-11-19
TWI533288B (en) 2016-05-11
ES2768179T3 (en) 2020-06-22
CA2985115C (en) 2019-02-19
TW201443883A (en) 2014-11-16
MX347062B (en) 2017-04-10
CA2985105A1 (en) 2014-08-07
HK1218179A1 (en) 2017-02-03
ES2659177T3 (en) 2018-03-14
AR094681A1 (en) 2015-08-19
CN105264599B (en) 2019-05-10
MY185176A (en) 2021-04-30
EP3067890B1 (en) 2018-01-03
PT3070713T (en) 2018-04-24
EP3067890A1 (en) 2016-09-14
AU2014211479A1 (en) 2015-09-10
CA2985105C (en) 2019-03-12

Similar Documents

Publication Publication Date Title
RU2641461C2 (en) Audio encoder, audio decoder, method of providing coded audio information, method of providing decoded audio information, computer program and coded presentation using signal-adaptive bandwidth extension
RU2676870C1 (en) Decoder for formation of audio signal with improved frequency characteristic, decoding method, encoder for formation of encoded signal and encoding method using compact additional information for selection