RU2022106058A - Обработка аудиоданных на основе карты направленной громкости - Google Patents

Обработка аудиоданных на основе карты направленной громкости Download PDF

Info

Publication number
RU2022106058A
RU2022106058A RU2022106058A RU2022106058A RU2022106058A RU 2022106058 A RU2022106058 A RU 2022106058A RU 2022106058 A RU2022106058 A RU 2022106058A RU 2022106058 A RU2022106058 A RU 2022106058A RU 2022106058 A RU2022106058 A RU 2022106058A
Authority
RU
Russia
Prior art keywords
audio data
spectral
analysis module
data analysis
loudness
Prior art date
Application number
RU2022106058A
Other languages
English (en)
Other versions
RU2793703C2 (ru
Inventor
Юрген ХЕРРЕ
Пабло Мануэль ДЕЛЬГАДО
Саша ДИК
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Publication of RU2022106058A publication Critical patent/RU2022106058A/ru
Application granted granted Critical
Publication of RU2793703C2 publication Critical patent/RU2793703C2/ru

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/22Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only 
    • H04R1/26Spatial arrangements of separate transducers responsive to two or more frequency ranges
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Otolaryngology (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Claims (67)

1. Модуль (100) анализа аудиоданных,
причем модуль (100) анализа аудиоданных выполнен с возможностью получения представлений (110, 1101, 1102, 110a, 110b) в спектральной области двух или более входных аудиосигналов (112, 1121, 1122, 1123, 112a, 112b);
причем модуль (100) анализа аудиоданных выполнен с возможностью получения информации (122, 1221, 1222, 125, 127) о направлении, ассоциированной со спектральными полосами представлений (110, 1101, 1102, 110a, 110b) в спектральной области;
причем модуль (100) анализа аудиоданных выполнен с возможностью получения информации (142, 1421, 1422, 142a, 142b) о громкости, ассоциированной с различными направлениями (121), в качестве результата анализа,
причем вклады (132, 1321, 1322, 1351, 1352) в информацию (142, 1421, 1422, 142a, 142b) о громкости определяются в зависимости от информации (122, 1221, 1222, 125, 127) о направлении.
2. Модуль (100) анализа аудиоданных по п. 1, причем модуль (100) анализа аудиоданных выполнен с возможностью получения множества взвешенных представлений (135, 1351, 1352, 132) в спектральной области на основе представлений (110, 1101, 1102, 110a, 110b) в спектральной области двух или более входных аудиосигналов (112, 1121, 1122, 1123, 112a, 112b);
причем значения одного или более представлений (110, 1101, 1102, 110a, 110b) в спектральной области взвешены (134) в зависимости от различных направлений (125) звуковых компонентов в двух или более входных аудиосигналах (112, 1121, 1122, 1123, 112a, 112b) для получения множества взвешенных представлений (135, 1351, 1352, 132) в спектральной области;
причем модуль (100) анализа аудиоданных выполнен с возможностью получения информации (142, 1421, 1422, 142a, 142b) о громкости, ассоциированной с различными направлениями (121), на основе взвешенных представлений (135, 1351, 1352, 132) в спектральной области в качестве результата анализа.
3. Модуль (100) анализа аудиоданных по п. 1, причем модуль (100) анализа аудиоданных выполнен с возможностью выполнения декомпозиции двух или более входных аудиосигналов (112, 1121, 1122, 1123, 112a, 112b) в область кратковременного преобразования Фурье (STFT) для получения двух или более преобразованных аудиосигналов (110, 1101, 1102, 110a, 110b).
4. Модуль (100) анализа аудиоданных по п. 3, причем модуль (100) анализа аудиоданных выполнен с возможностью группирования спектральных интервалов двух или более преобразованных аудиосигналов (110, 1101, 1102, 110a, 110b) в спектральные полосы двух или более преобразованных аудиосигналов (110, 1101, 1102, 110a, 110b); и причем модуль (100) анализа аудиоданных выполнен с возможностью взвешивания спектральных полос с использованием разных весовых коэффициентов на основе модели (116) внешнего уха и среднего уха, получать одно или более представлений (110, 1101, 1102, 110a, 110b) в спектральной области двух или более входных аудиосигналов (112, 1121, 1122, 1123, 112a, 112b).
5. Модуль (100) анализа аудиоданных по п. 1, в котором два или более входных аудиосигнала (112, 1121, 1122, 1123, 112a, 112b) ассоциированы с различными направлениями или разными положениями громкоговорителей.
6. Модуль (100) анализа аудиоданных по п. 1, причем модуль (100) анализа аудиоданных выполнен с возможностью определения зависящего от направления взвешивания (127, 122) для каждого спектрального интервала и для множества заданных направлений (121).
7. Модуль (100) анализа аудиоданных по п. 1, причем модуль (100) анализа аудиоданных выполнен с возможностью определения зависящего от направления взвешивания (127, 122) с использованием гауссовой функции, в результате чего зависящее от направления взвешивание (127, 122) уменьшается с увеличением отклонения между соответствующими извлеченными значениями (125, 122) направлений и соответствующими значениями (121) заданного направления.
8. Модуль (100) анализа аудиоданных по п. 7, причем модуль (100) анализа аудиоданных выполнен с возможностью определения значений индекса панорамирования как извлеченные значения (125, 122) направлений.
9. Модуль (100) анализа аудиоданных по п. 7, причем модуль (100) анализа аудиоданных выполнен с возможностью определения извлеченных значений (125, 122) направлений в зависимости от спектральных значений домена (110) из входных аудиосигналов (112, 1121, 1122, 1123, 112a, 112b).
10. Модуль (100) анализа аудиоданных по п. 6, в котором модуль (100) анализа аудиоданных выполнен с возможностью получения зависящего от направления взвешивания (127, 122)
Figure 00000001
, ассоциированного с заданным направлением (121), временем, обозначенным временным индексом m, и спектральным интервалом, обозначенным индексом спектрального интервала k, в соответствии с
Figure 00000002
,
где
Figure 00000003
- заданное значение;
где
Figure 00000004
обозначает извлеченные значения (125, 122) направлений, ассоциированные со временем, обозначенным временным индексом m, и спектральным интервалом, обозначенным индексом спектрального интервала k; и
где
Figure 00000005
- значение направления, которое обозначает заданное направление (121).
11. Модуль (100) анализа аудиоданных по п. 6, причем модуль (100) анализа аудиоданных выполнен с возможностью применения зависящего от направления взвешивания (127, 122) к одному или более представлениям (110, 1101, 1102, 110a, 110b) в спектральной области двух или более входных аудиосигналов (112, 1121, 1122, 1123, 112a, 112b) для получения взвешенных представлений (135, 1351, 1352, 132) в спектральной области.
12. Модуль (100) анализа аудиоданных по п. 6, причем модуль (100) анализа аудиоданных выполнен с возможностью получения взвешенных представлений (135, 1351, 1352, 132) в спектральной области,
в результате чего компоненты сигнала, имеющие ассоциированное первое заданное направление (121), усиливаются по сравнению с компонентами сигнала, имеющими ассоциированные другие направления (125) в первом взвешенном представлении (135, 1351, 1352, 132) в спектральной области, и
в результате чего компоненты сигнала, имеющие ассоциированное второе заданное направление (121), усиливаются по сравнению с компонентами сигнала, имеющими ассоциированные другие направления (125) во втором взвешенном представлении (135, 1351, 1352, 132) в спектральной области.
13. Модуль (100) анализа аудиоданных по п. 1, причем модуль (100) анализа аудиоданных выполнен с возможностью получения взвешенных представлений (135, 1351, 1352, 132) в спектральной области
Figure 00000006
, ассоциированных с входным аудиосигналом или объединением входных аудиосигналов (112, 1121, 1122, 1123, 112a, 112b) (112, 1121, 1122, 1123, 112a, 112b), обозначенным индексом i, спектральной полосой, обозначенной индексом b, направлением (121), обозначенным индексом
Figure 00000007
, временем, обозначенным временным индексом m, и спектральным интервалом, обозначенным индексом спектрального интервала k, в соответствии с
Figure 00000008
где
Figure 00000009
обозначает представление (110) в спектральной области, ассоциированное с входным аудиосигналом (112) или объединением входных аудиосигналов (112, 1121, 1122, 1123, 112a, 112b), обозначенным индексом i, спектральной полосой, обозначенной индексом b, временем, обозначенным временным индексом m, и спектральным интервалом, обозначенным индексом спектрального интервала k; и
где
Figure 00000001
обозначает зависящее от направления взвешивание (127, 122), ассоциированное с направлением (121), обозначенным индексом
Figure 00000005
, временем, обозначенным временным индексом m, и спектральным интервалом, обозначенным индексом спектрального интервала k.
14. Модуль (100) анализа аудиоданных по п. 1, причем модуль (100) анализа аудиоданных выполнен с возможностью определения среднего значения по множеству значений (145) громкости частотных полос для получения значения (142) объединенной громкости.
15. Модуль (100) анализа аудиоданных по п. 1, причем модуль (100) анализа аудиоданных выполнен с возможностью получения значений (145) громкости частотных полос для множества спектральных полос на основе взвешенного объединенного представления (137) в спектральной области, представляющего множество входных аудиосигналов (112, 1121, 1122, 1123, 112a, 112b); и
причем модуль (100) анализа аудиоданных выполнен с возможностью получения в качестве результата анализа множества значений (142) объединенной громкости на основе полученных значений громкости (145) частотных полос для множества различных направлений (121).
16. Модуль (100) анализа аудиоданных по п. 14, причем модуль (100) анализа аудиоданных выполнен с возможностью вычисления среднего значения квадратов спектральных значений взвешенного объединенного представления (137) в спектральной области по спектральным значениям частотной полосы и применять возведение в степень с показателем между 0 и 1/2 к среднему значению квадратов спектральных значений для определения значения (145) громкости частотных полос.
17. Модуль (100) анализа аудиоданных по п. 14, причем модуль (100) анализа аудиоданных выполнен с возможностью получения значений (145) громкости частотных полос
Figure 00000010
, ассоциированные со спектральной полосой, обозначенной индексом b, направлением (121), обозначенным индексом
Figure 00000005
, временем, обозначенным временным индексом m, в соответствии с
Figure 00000011
где Kb обозначает количество спектральных интервалов в частотной полосе, имеющей индекс частотной полосы b;
где k - бегущая переменная, которая обозначает спектральные интервалы в частотной полосе, имеющей индекс частотной полосы b;
где b обозначает спектральную полосу; и
где
Figure 00000012
обозначает взвешенное объединенное представление (137) в спектральной области, ассоциированное со спектральной полосой, обозначенной индексом b, направлением (121), обозначенным индексом
Figure 00000005
, временем, обозначенным временным индексом m, и спектральным интервалом, обозначенным индексом спектрального интервала k.
18. Модуль (100) анализа аудиоданных по п. 1, причем модуль (100) анализа аудиоданных выполнен с возможностью получения множества значений (142) объединенной громкости L(m,
Figure 00000005
), ассоциированных с направлением (121), обозначенным индексом
Figure 00000005
, и временем, обозначенным временным индексом m, в соответствии с
Figure 00000013
где B обозначает общее количество спектральных полос b, и
где
Figure 00000010
обозначает значения (145) громкости частотных полос, ассоциированные со спектральной полосой, обозначенный индексом b, направлением (121), обозначенным индексом
Figure 00000005
, и временем, обозначенным временным индексом m.
19. Модуль (100) анализа аудиоданных по п. 1, причем модуль (100) анализа аудиоданных выполнен с возможностью распределения вкладов (132, 1321, 1322, 1351, 1352) громкости в интервалы гистограммы, ассоциированные с различными направлениями (121), в зависимости от информации (122, 1221, 1222, 125, 127) о направлении для получения результата анализа.
20. Модуль (100) анализа аудиоданных по п. 1, причем модуль (100) анализа аудиоданных выполнен с возможностью получения информации о громкости, ассоциированной со спектральными интервалами, на основе представлений (110, 1101, 1102, 110a, 110b) в спектральной области, и причем модуль (100) анализа аудиоданных выполнен с возможностью добавления вклада (132, 1321, 1322, 1351, 1352) громкости к одному или более интервалам гистограммы на основе информации о громкости, ассоциированной с определённым спектральным интервалом; причем выбор, к какому одному или более интервалам гистограммы делается вклад (132, 1321, 1322, 1351, 1352) громкости, основан на определении информации о направлении для определённого спектрального интервала.
21. Модуль (100) анализа аудиоданных по п. 1, причем модуль (100) анализа аудиоданных выполнен с возможностью добавления вкладов (132, 1321, 1322, 1351, 1352) громкости к множеству интервалов гистограммы на основе информации о громкости, ассоциированной с определённым спектральным интервалом, таким образом, что наибольший вклад (132, 1321, 1322, 1351, 1352) добавляется к интервалу гистограммы, ассоциированному с направлением (121), которое соответствует информации (125, 122) о направлении, ассоциированной с определённым спектральным интервалом, и таким образом, что сокращенные вклады (132, 1321, 1322, 1351, 1352) добавляются к одному или более интервалам гистограммы, ассоциированным с дополнительными направлениями (121).
22. Модуль (100) анализа аудиоданных по п. 1, причем модуль (100) анализа аудиоданных выполнен с возможностью получения информации (122, 1221, 1222, 125, 127) о направлении на основе аудиосодержимого двух или более входных аудиосигналов (112, 1121, 1122, 1123, 112a, 112b).
23. Модуль (100) анализа аудиоданных по п. 1, причем модуль (100) анализа аудиоданных выполнен с возможностью получения информации (122, 1221, 1222, 125, 127) о направлении на основе анализа амплитудного панорамирования аудиосодержимого; и/или
причем модуль (100) анализа аудиоданных выполнен с возможностью получения информации (122, 1221, 1222, 125, 127) о направлении на основе анализа фазового соотношения, и/или временной задержки, и/или корреляции между аудиосодержимым двух или более входных аудиосигналов (112, 1121, 1122, 1123, 112a, 112b); и/или
причем модуль (100) анализа аудиоданных выполнен с возможностью получения информации (122, 1221, 1222, 125, 127) о направлении на основе идентификации расширенных истоков, и/или
причем модуль анализа аудиоданных выполнен с возможностью получения информации (122, 1221, 1222, 125, 127) о направлении с использованием соответствия спектральной информации входящего аудиоданных и шаблонов, ассоциированных с функциями моделирования восприятия аудиоданных в различных направлениях.
24. Модуль (100) анализа аудиоданных по п. 1, причем модуль (100) анализа аудиоданных выполнен с возможностью распространения информации о громкости во множестве направлений (121) в соответствии с правилом распространения.
25. Модуль (200) оценки сходства аудиоданных,
причем модуль (200) оценки сходства аудиоданных выполнен с возможностью получения первой информации (142, 1421, 1422, 142a, 142b) о громкости, ассоциированную с различными направлениями (121), на основе первого множества из двух или более входных аудиосигналов (112a), и
причем модуль (200) оценки сходства аудиоданных выполнен с возможностью сравнения (220) первой информации (142, 1421, 1422, 142a, 142b) о громкости со второй информацией (142, 1421, 1422, 142a, 142b) о громкости, ассоциированной с различными направлениями панорамирования, и с множеством из двух или более эталонных аудиосигналов (112b) для получения информации (210) о сходстве, описывающей сходство между первым множеством из двух или более входных аудиосигналов (112a) и множеством из двух или более эталонных аудиосигналов (112b).
26. Модуль (200) оценки сходства аудиоданных по п. 25, причем модуль (200) оценки сходства аудиоданных выполнен с возможностью получения первой информации (142, 1421, 1422, 142a, 142b) о громкости таким образом, что первая информация (142, 1421, 1422, 142a, 142b) о громкости содержит множество значений (142) объединенной громкости, ассоциированных с первым множеством из двух или более входных аудиосигналов (112a), и ассоциированных с соответствующими заданными направлениями (121), в которых значения (142) объединенной громкости из первой информации (142, 1421, 1422, 142a, 142b) о громкости описывают громкость компонентов сигнала первого множества из двух или более входных аудиосигналов (112a), ассоциированных с соответствующими заданными направлениями (121).
27. Модуль (200) оценки сходства аудиоданных по п. 25, причем модуль (200) оценки сходства аудиоданных выполнен с возможностью получения первой информации (142, 1421, 1422, 142a, 142b) о громкости таким образом, что первая информация (142, 1421, 1422, 142a, 142b) о громкости ассоциирована с комбинациями множества взвешенных представлений (135, 1351, 1352, 132) в спектральной области первого множества из двух или более входных аудиосигналов (112a), ассоциированных с соответствующими заданными направлениями (121).
28. Модуль (200) оценки сходства аудиоданных по п. 25, причем модуль (200) оценки сходства аудиоданных выполнен с возможностью определения разности (210) между второй информацией (142, 1421, 1422, 142a, 142b) о громкости и первой информацией (135, 1351, 1352, 132) о громкости, чтобы получить разностную информацию (210) о громкости.
29. Модуль (200) оценки сходства аудиоданных по п. 28, причем модуль (200) оценки сходства аудиоданных выполнен с возможностью определения значения (210), которое определяет величину разности (210) по множеству направлений.
30. Модуль (200) оценки сходства аудиоданных по п. 25, причем модуль (200) оценки сходства аудиоданных выполнен с возможностью получения первой информации (142, 1421, 1422, 142a, 142b) о громкости и/или второй информации (142, 1421, 1422, 142a, 142b) о громкости с использованием модуля (100) анализа аудиоданных по одному из пп. 1-24.
31. Модуль (200) оценки сходства аудиоданных по п. 25, причем модуль (200) оценки сходства аудиоданных выполнен с возможностью получения компонента направления, используемого для получения информации (142, 1421, 1422, 142a, 142b) о громкости, ассоциированной с различными направлениями (121), с использованием метаданных, представляющих информацию о положении громкоговорителей, ассоциированную с входными аудиосигналами (112, 1121, 1122, 1123, 112a, 112b).
32. Способ (1000) анализа аудиосигнала, причём способ содержит этапы, на которых
получают (1100) множество взвешенных представлений в спектральной области на основе одного или более представлений в спектральной области двух или более входных аудиосигналов,
причем значения одного или более представлений в спектральной области нагружаются (1200) в зависимости от различных направлений звуковых компонентов в двух или более входных аудиосигналах для получения множества взвешенных представлений в спектральной области; и
получают (1300) информацию о громкости, ассоциированную с различными направлениями, на основе множества взвешенных представлений в спектральной области в качестве результата анализа.
33. Способ (2000) оценки сходства аудиосигналов, способ содержит этапы, на которых
получают (2100) первую информацию о громкости, ассоциированную с различными направлениями, на основе первого множества из двух или более входных аудиосигналов, и сравнивают (2200) первую информацию о громкости со второй информацией о громкости, ассоциированной с различными направлениями панорамирования, и с множеством из двух или более эталонных аудиосигналов для получения (2300) информации о сходстве, описывающей сходство между первым множеством из двух или более входных аудиосигналов и множеством из двух или более эталонных аудиосигналов.
34. Компьютерная программа, имеющая программный код для выполнения способа по п. 32 или 33 при его выполнении на компьютере.
RU2022106058A 2018-10-26 2019-10-28 Обработка аудиоданных на основе карты направленной громкости RU2793703C2 (ru)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP18202945.4 2018-10-26
EP18202945 2018-10-26
EP19169684 2019-04-16
EP19169684.8 2019-04-16

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
RU2021114678A Division RU2771833C1 (ru) 2018-10-26 2019-10-28 Обработка аудиоданных на основе карты направленной громкости

Publications (2)

Publication Number Publication Date
RU2022106058A true RU2022106058A (ru) 2022-04-05
RU2793703C2 RU2793703C2 (ru) 2023-04-04

Family

ID=

Also Published As

Publication number Publication date
EP4220639A1 (en) 2023-08-02
JP7526173B2 (ja) 2024-07-31
US20210383820A1 (en) 2021-12-09
WO2020084170A1 (en) 2020-04-30
JP2022177253A (ja) 2022-11-30
RU2022106060A (ru) 2022-04-04
EP3871216A1 (en) 2021-09-01
JP2022505964A (ja) 2022-01-14
BR112021007807A2 (pt) 2021-07-27
CN113302692A (zh) 2021-08-24
EP4213147A1 (en) 2023-07-19

Similar Documents

Publication Publication Date Title
US11657798B2 (en) Methods and apparatus to segment audio and determine audio segment similarities
CN103718242B (zh) 采用谱运动变换的用于处理声音信号的系统和方法
JP5732994B2 (ja) 楽曲検索装置および方法、プログラム、並びに記録媒体
KR101670313B1 (ko) 음원 분리를 위해 자동적으로 문턱치를 선택하는 신호 분리 시스템 및 방법
CN104464726B (zh) 一种相似音频的确定方法及装置
US9426564B2 (en) Audio processing device, method and program
CN102124518A (zh) 采用特征提取处理音频信号用于语音增强的方法和装置
CN103999076A (zh) 包括将声音信号变换成频率调频域的处理声音信号的系统和方法
US8865993B2 (en) Musical composition processing system for processing musical composition for energy level and related methods
US9646592B2 (en) Audio signal analysis
CN110400572A (zh) 音频增强方法及系统
Hoffmann et al. Bass enhancement settings in portable devices based on music genre recognition
Wang et al. Passive moving target classification via spectra multiplication method
Muhammad Extended average magnitude difference function based pitch detection
CN107210029A (zh) 用于处理一连串信号以进行复调音符辨识的方法和装置
Duong et al. Speech enhancement based on nonnegative matrix factorization with mixed group sparsity constraint
CN107430850A (zh) 确定谐波信号的特征
RU2022106058A (ru) Обработка аудиоданных на основе карты направленной громкости
Kitamura et al. Robust music signal separation based on supervised nonnegative matrix factorization with prevention of basis sharing
JP6724290B2 (ja) 音響処理装置、音響処理方法、及び、プログラム
US9398387B2 (en) Sound processing device, sound processing method, and program
Xie et al. Acoustic feature extraction using perceptual wavelet packet decomposition for frog call classification
Vyas et al. Automatic mood detection of indian music using MFCCs and K-means algorithm
JP5772957B2 (ja) 音響処理装置、音響処理システム、ビデオ処理システム、制御方法および制御プログラム
CN110534128B (zh) 一种噪音处理方法、装置、设备及存储介质