RU2419859C2 - Способ и электронное устройство для определения характеристики элемента контента - Google Patents

Способ и электронное устройство для определения характеристики элемента контента Download PDF

Info

Publication number
RU2419859C2
RU2419859C2 RU2007144711/08A RU2007144711A RU2419859C2 RU 2419859 C2 RU2419859 C2 RU 2419859C2 RU 2007144711/08 A RU2007144711/08 A RU 2007144711/08A RU 2007144711 A RU2007144711 A RU 2007144711A RU 2419859 C2 RU2419859 C2 RU 2419859C2
Authority
RU
Russia
Prior art keywords
stress
content
genre
sounds
determining
Prior art date
Application number
RU2007144711/08A
Other languages
English (en)
Other versions
RU2007144711A (ru
Inventor
Йанто СКОВРОНЕК (NL)
Йанто СКОВРОНЕК
Мартин Ф. МАККИННИ (NL)
Мартин Ф. МАККИННИ
Original Assignee
Конинклейке Филипс Электроникс Н.В.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Конинклейке Филипс Электроникс Н.В. filed Critical Конинклейке Филипс Электроникс Н.В.
Publication of RU2007144711A publication Critical patent/RU2007144711A/ru
Application granted granted Critical
Publication of RU2419859C2 publication Critical patent/RU2419859C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/036Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal of musical genre, i.e. analysing the style of musical pieces, usually for selection, filtering or classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/081Genre classification, i.e. descriptive metadata for classification or selection of musical pieces according to style
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/085Mood, i.e. generation, detection or selection of a particular emotional content or atmosphere in a musical piece

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Auxiliary Devices For Music (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

Изобретение относится к способу и электронному устройству определения характеристики элемента контента. Техническим результатом является повышение точности поиска мультимедийных данных за счет использования при поиске дополнительного параметра. Способ включает выбор из элемента контента данных, представляющих множество звуков; определение характеристики каждого из множества звуков путем анализа указанных данных, каждая характеристика представляет собой временной аспект одного из множества звуков; определение меры ударности элемента контента, основываясь на множестве определенных характеристик, при этом мера ударности элемента основана на параметрическом описании временного аспекта множества звуков в области времени; определение жанра и/или тональности элемента контента, основываясь на мере ударности элемента контента этап, на котором определяют меру ударности элемента контента, содержит этап, на котором определяют первую особенность ударности и вторую особенность ударности элемента контента, и этап, на котором определяют жанр и/или тональность элемента контента, содержит этап, на котором сравнивают первую особенность ударности с характеристикой первого жанра или тональности и сравнивают вторую особенность ударности с характеристикой второго жанра или тональности. 5 н. и 4 з.п. ф-лы, 7 ил.

Description

Изобретение имеет отношение к способу определения характеристики элемента контента.
Изобретение дополнительно имеет отношение к способу поиска элемента контента во множестве элементов контента.
Изобретение также имеет отношение к программному обеспечению создания программируемого устройства, работающего для того, чтобы выполнить способ определения характеристики элемента контента и/или способ поиска элемента контента во множестве элементов контента.
Изобретение дополнительно имеет отношение к электронному устройству, содержащему электронную схему, где электронная схема функционирует для того, чтобы определить характеристику элементов контента.
Изобретение также имеет отношение к электронному устройству, содержащему электронную схему, где электронная схема функционирует для того, чтобы искать элемент контента во множестве элементов контента.
Изобретение дополнительно имеет отношение к электронной схеме для использования в электронных устройствах, где электронная схема функционирует для того, чтобы определить характеристику элемента контента или искать элемент контента во множестве элементов контента.
Пример такого способа известен из патента США 5918223. Способ, описанный в этом патенте, измеряет множество акустических особенностей звукового файла, выбранного из группы, состоящей из по меньшей мере одного элемента из громкости, шага, яркости, пропускной способности и коэффициентов MFCC. Измерения, вычисленные, основываясь на этих особенностях, используются для группы звуковых файлов. Это является недостатком этого способа, так как его особенности низкого уровня недостаточны для того, чтобы позволить пользователю искать и находить все песни, соответствующие его персональным настройкам.
Патент США 6476308 B1 раскрывает способ, направленный на классификацию музыкальной части, основанной на определенных характеристиках для каждого из множества нот, содержавшихся в этой части. Примеры показывают тот факт, что в непрерывном музыкальном отрывке начальные и конечные точки нот могут накладываться на предыдущие ноты, следующую ноту или ноты, которые играются параллельно одним или более инструментами. Это усложнено дополнительным фактом, что различные инструменты производят ноты с сильно различными характеристиками. Например, ноты со стадией поддержки, типа созданных трубой или флейтой, обладают высокой энергией в середине стадии поддержки, в то время как ноты без стадии поддержки, типа созданных фортепьяно или гитарой, обладают высокой энергией в стадии атаки, когда нота сначала генерируется.
Первой целью изобретения является обеспечение способа вида, описанного во вводном параграфе, который определяет характеристику, которая может использоваться, чтобы искать и находить больше песен, соответствующих персональным настройкам пользователя.
Второй целью изобретения является обеспечение электронного устройства вида, описанного в вводном параграфе, которое способно к определению характеристики, которая может использоваться для того, чтобы искать и находить больше песен, соответствующих персональным настройкам пользователя.
Первая цель, согласно изобретению, реализуется тем, что способ содержит этапы, на которых выбирают из элемента контента данные, представляющие множество звуков, определяют характеристики каждого из множества звуков, анализируя указанные данные, без определения типа источника звуков, такого как музыкальный инструмент, каждая характеристика представляет временной аспект одного из множества звуков и определяет меру ударности элемента контента, основываясь на множестве определенных характеристик. Способ определяет меру ударности элемента контента, например файла MP3, видеомузыки или звуковой дорожки кино. Изобретатели распознали, что потребители могут не только распознать, является ли инструмент ударным или нет, но что они также в состоянии распознать меру ударности для целого элемента контента. Поскольку мера ударности является особенностью высокого уровня, это хорошо подходит для использования в поиске и нахождении песен, соответствующих персональным настройкам пользователя, вместо или в дополнение к другим особенностям, таким как темп, например. Кроме того, эта мера ударности может использоваться для нахождения подобной музыки, основываясь на начальной песне и/или автоматической установке параметров звуковых алгоритмов манипуляции динамикой, подобных управлению ограничения/компрессии/громкости.
В варианте воплощения способа изобретения этап определения меры ударности элемента контента содержит определение процентного содержания. Для примера, элемент контента может быть на 75% ударным и на 25% неударным, или на 50% ударным и негармоническим, на 30% ударным и гармоническим и на 20% неударным. Когда это процентное содержание используется в запросах поиска, сначала пользователь, возможно, не знает отношения между ударностью и элементами контента, которые имеют эту меру ударности. Однако когда пользователь экспериментирует с этим критерием поиска, он быстро изучит это отношение.
Альтернативно или дополнительно, этап определения меры ударности элемента контента содержит определение доминирующего инструмента. Доминирующий инструмент, выбранный пользователем, может быть переведен в диапазон ударности, который может использоваться для поиска элемента контента во множестве элементов контента. При поиске элементов контента, которые имеют ударность в этом диапазоне, вероятно, не будут найдены все элементы контента с указанным доминирующим инструментом и, вероятно, элементы контента с другим доминирующим инструментом будут также перечислены среди найденных элементов контента, выбор доминирующего инструмента может быть более понятным для пользователей, чем выбор процента.
Способ может также содержать этап определения жанра и/или тональности элемента контента, основываясь на мере ударности элемента контента. Эксперименты показали, что эта мера ударности может использоваться для обнаружения жанра с хорошими результатами, обнаруживая один жанр музыки из других и различия между двумя жанрами музыки. Поскольку способ определения тональности подобен способу определения жанра, эта мера ударности, как также ожидают, приведет к хорошим результатам при использовании для определения тональности. Другие характеристики элемента контента могут дополнительно использоваться для обнаружения жанра и/или тональности, но этого не требуется.
Этап определения характеристики элемента контента может содержать определение первой характеристики и второй характеристики элемента контента, и этап определения жанра и/или тональности элемента контента может содержать сравнение первой характеристики с характеристикой первого жанра или тональности и сравнения второй характеристики с характеристикой второго жанра или тональности. Мера ударности элемента контента может быть основана на одной или более особенностях ударности. Некоторые особенности ударности лучше удовлетворяют обнаружению первого жанра музыки из других или различию между первым жанром музыки и вторым жанром музыки, в то время как другие особенности ударности лучше удовлетворяют обнаружению второго жанра из прочих или различию между вторым жанром музыки и третьим жанром музыки.
Этап определения характеристики каждого из множества звуков может содержать определение характеристики первой фазы каждого из множества звуков и характеристики второй фазы каждого из множества звуков. Эксперименты показали, что сегментируя звук в по меньшей мере фазу атаки и одну или более других фаз, подобных фазам, используемым в технологии синтезатора (Нападение, Распад, Выдержка и Отпуск), и определение особенностей ударности каждой из отдельных фаз приводит к лучшим особенностям ударности.
Вторая цель, согласно изобретению, реализуется в том, что электронное устройство содержит электронную схему, которая функционирует для того, чтобы выбрать из элемента контента данные, представляющие множество звуков, определить характеристику каждого из множества звуков, анализируя указанные данные, без определения типа источника звуков, такого как музыкальный инструмент, каждая характеристика представляет временной аспект одного из множества звуков и определения меры ударности элемента контента, основываясь на множестве определенных характеристик.
Эти и другие аспекты способа и электронного устройства изобретения будут далее объяснены и описаны в отношении чертежей, в которых:
Фиг.1 - блок-схема способа определения характеристики элементов контента;
Фиг.2 - блок-схема воплощения способа по Фиг.1;
Фиг.3 показывает примеры звуков, которые были сегментированы в три фазы;
Фиг.4 показывает пример характеристик, определенных для одного из звуков по Фиг.3;
Фиг.5 показывает уравнения, используемые в варианте воплощения по Фиг.2;
Фиг.6 показывает результаты различий между двумя жанрами; и
Фиг.7 - блок-схема электронного устройства изобретения.
Соответствующие элементы в чертежах идентифицированы одной и той же ссылочной позицией.
Обратимся к Фиг. 1 и 2, где способ изобретения содержит этап 1 выбора данных, представляющих множество звуков, из элемента контента, этап 3 определения характеристики каждого из множества звуков, анализируя указанные данные, где каждая характеристика представляет временной аспект амплитуды одного из множестве звуков, и этап 5 определения характеристики элемента контента, основываясь на множестве определенных характеристик. Способ может дополнительно содержать этап 7 определения жанра и/или тональности элемента контента, основываясь на характеристике элемента контента.
Определенная характеристика элемента контента и/или определенного жанра и/или тональности может быть связана с элементом контента как значение параметра. Это значение параметра может быть сохранено в списке музыкальных произведений, в описании файла или в базе данных системной службы, например. Это значение параметра может использоваться в способе поиска элемента контента во множестве элементов контента, где каждый элемент контента во множестве элементов контента связан со значением признака. Способ находит элементы контента, которые связаны со значением признака, которое является подобным желательному значению признака. Множество элементов контента может быть частью большей коллекции элементов контента, в которых некоторые элементы контента не связаны со значением признака. Способ может быть выполнен, например, системной службой или пользовательским электронным устройством.
Определенная характеристика звука является мерой тембра звука и, в особенности, мерой ударности звука. Определение для тембра дается Американским Национальным Институтом Стандартизации (ANSI):..., что признак слуховой чувствительности, о терминах которой слушатель может судить, что два звука, подобным образом представленные и имеющие одну и ту же громкость и шаг, являются отличными. Обычная интерпретация этого определения звучит так: тембр помогает отличать звуки, исходящие из двух типов инструментов, проигрывая одну и ту же ноту на одном и том же уровне.
И определение, и интерпретация указывают, что довольно трудно описать тембр с одной единственной характеристикой. В тембре есть по меньшей мере два главных действия исследований, которые подтверждают это:
1. Восприятие тембра: используя перцепционные эксперименты, множество исследований идентифицировало те свойства сигнала, которые вносят свой вклад в восприятие тембра. Несколько спектральных характеристик, таких как число и организация спектральных компонентов, но также и временных параметров, таких как время атаки, являются самыми важными.
2. Звуковое моделирование: параметры, определенные в вышеупомянутых исследованиях, извлечены из звуковых сигналов и затем используются для целей моделирования. Эти модели обычно используются или для того, чтобы (заново) синтезировать звуки, или для классификации и идентификации звуков.
Есть несколько исследований, где были сделаны автоматическая классификация и идентификация звуков, основываясь на параметрах тембра. Но большинство публикаций имеет дело с классификацией отдельных гармонических или ударных инструментальных звуков. Кроме того, есть первые попытки, которые пробуют использовать эти подходы для простых многотембровых фраз. Однако автоматическая идентификация музыкального инструмента в полифоническом потоке аудиомузыки является в настоящее время нерешенной. Причина этого состоит в том, что в полифонической музыке каждый сталкивается с накладывающимися инструментами, и в современной музыке также с синтезируемыми или управляемыми звуками, которые изменяют свой тембр в течение игры. Известные особенности тембра типично относятся к единственному монофоническому инструменту и нелегко применить такие звуки. Это означает, что есть потребность в более общих особенностях, которые описывают тембр произвольных звуковых текстур без определения исходного типа (например, музыкального инструмента) непосредственно. Способ изобретения использует ударность звука, чтобы описать тембр звука. Средство ударности необязательно является звуком, исходящим из ударного инструмента. Это скорее термин, используемый для короткого звука, имеющего острую характеристику спада атаки. Значение термина ударность может быть проиллюстрирована со следующими четырьмя примерами:
1. Звук флейты: можно было бы классифицировать это как типичный неударный звук.
2. Барабан: можно было бы классифицировать это как типичный ударный звук.
3. Игра виолончели (струна возбуждается смычком): можно было бы классифицировать это как типичный неударный звук.
4. Та же самая виолончель, но на сей раз пиццикато (струна щиплется пальцами): можно было бы согласиться, что звук теперь более ударный, чем предыдущий. Причина состоит в том, что звук имеет теперь другую временную характеристику, тогда как спектральная структура остается в основном той же самой. Теория сигнала заявляет, что модуляция области времени затрагивает спектр постоянного тона. Поэтому это дает средство, которым оба сигнала (звучащая и щипнутая струна) имеют ту же самую основную организацию (например, регулярность) спектральных компонентов.
Эти примеры показывают, что ударность может быть определена как обобщенное описание для обертки сигнала. Таким образом, это является чистой особенностью области времени. На этом определении ударность относится к обертке звука, и желательные особенности должны поэтому сформировать параметрическое описание этой обертки. В варианте воплощения способа первое четырехфазное приближение обертки сигнала, известного из технологии синтезатора (атака, спад, выдержка и затухание), применено. Но по вычислительным причинам это объединяет части обертки спада и выдержки, приводя к трем фазам атаки (A), спада & выдержки (D&S) и затухания (R). Во-вторых, вычисляются несколько особенностей, которые относятся к продолжительности времени, различиям уровня и формы кривой этих фаз. Фиг.3 показывает схематично этот принцип для обертки двух различных звуков.
Первый этап определения желательного A-D&S-R приближения должен определить начало фаз и точки конца. Эти временные события могут быть обнаружены способом, подобным способу, предложенному Jensen ((Timbre Models of Musical Sounds, PhD. Dissertation, Department of Datalogy, University of Copenhagen, DIKU Report 99/7,1999). Основной идеей является процесс из двух стадий: сначала вычисляют грубое приближение обертки и определяют желательные точки начала и конца; потом корректируют эти точки, шаг за шагом используя все меньше и меньше приближенные версии обертки, пока несглаженный случай не будет достигнут.
Процедура Jensen обнаружения временных случаев плохо сглаженных оберток была разработана для отдельных гармонических компонентов звука. Он вычислил первую производную сглаженной обертки и использовал другие производные пороги для того, чтобы найти хороших кандидатов на желательные точки начала и конца. Jensen показывал, что этот способ производной позволяет лучше обнаружить реальные R-фазы для инструментов спада (как фортепьяно), чем более простой способ, использующий пороги уровня (10% максимума - начало атаки, 90% - конец атаки и так далее). Однако подход Jensen должен быть изменен для того, чтобы работать с широкополосными сигналами: сначала сглаженная обертка должна быть получена, вычисляя абсолютные значения сигнала (и полуволновые, и полноволновые исправления могут использоваться), сопровождаемые низкой фильтрацией прохода с низкой частотой останова. Кроме того, необходимо расширение способа для обнаружения желательных временных событий, потому что оставшиеся замечательные структуры обертки приводят к неправильным обнаружениям. Поэтому комбинации порогов для первой производной и для самой обертки должны использоваться (см. Фиг.4):
1. Поиск событий времени A-фазы:
(a) Поиск 'середина атаки' (moa):
'Середина атаки' - это точка, где обертка env(t) имеет сильное увеличение уровня, означающее, что первая производная d/dt env(t) имеет локальный максимум, и где обертка имеет справедливое значение. Разумное значение обертки определено: последний кандидат перед локальным максимумом обертки лежит выше определенного порога для первого времени: local_max (env(t))≥env critmoa = 0,25·max(env(t)).
(b) начало Поиска атаки (soa):
Начиная с moa, возвращаемся обратно, пока производная и критерий обертки не выполнены. Условие производной: d/dt env(t)≤d_critsoa = 0,1*max(d/dt env(t)). Условие обертки: env(t)≤env_critsoa = 0,25*max(env(t)).
(c) конец Поиска атаки (eoa):
Начиная с moa, двигаемся вперед, пока производная и критерий обертки не выполнены. Условие производной: d/dt env(t)≤d_critsoa = 0,1*max (d/dt env(t)). Условие обертки: env(t)≥env_critsoa = 0,75*max (env(t)).
2. Поиск на временных событиях R-фазы:
(a) Поиск 'на середине затухания' (mor):
'Середина затухания' - это когда точка, где обертка имеет крутое уменьшение уровня, означающее, что первая производная имеет локальный минимум ниже нуля, и где обертка имеет разумное значение. Разумное значение обертки определено как: первый кандидат после локального максимума обертки был выше определенного порога в последний раз: local_max (env(t))≥env_critmor = 0,3*max(env(t)).
(b) Поиск начала затухания (sor):
Начиная с mor, двигаемся назад, пока производная и критерий обертки не выполнены. Условие производной: d/dt env(t)≥d_critsor = 0,2*min (d/dt env(t)). Условие обертки: env(t)≥env_critsor = 0,25*max(env(t)).
(c) Поиск конца затухания (eor):
Начиная с moa, идти вперед, пока производная и критерий обертки не выполняются. Условие производной: d/dt env(t)≥d criteor = 0,1*max (d/dt env(t)). Условие обертки: env(t)≤env_criteor = 0,1*min(env(t)).
3. Определение временных событий D&S-фазы:
20. Начало D&S - конец атаки (eoa), и конец D&S - начало затухания (sor).
Отметим, что значения критериев были найдены, проверяя алгоритм приблизительно с 40 различными инструментальными звуками. Однако, используя дополнительный исследовательский материал, другие значения для критериев могут быть найдены, что может привести к еще лучшему выполнению обнаружения. Во втором шаге для настройки найденных событий времени к несглаженному событию используется итерационная процедура. Итерация за итерацией менее сглаженной версии обертки вычисляется при использовании различных частот останова низкопроходного фильтра при вычислении обертки (чтобы избежать различных запаздываний оберток, введенных другими фильтрами, применена неприведенная фильтрация, что предотвращает задержки, вызванные фильтрами). Тогда события времени (soa, eoa, sor, eor) корректируются, используя критерий времени и уровня: новый кандидат не должен быть слишком далеко от прежнего временного события ( | tnew - toldj\≤1024 образца~23 мс), и его новая обертка оценивается не слишком далеко от прежнего значения обертки (0,9*env old ≤env new<1,5 *env old). Вновь эти критерии были получены, проверяя алгоритм с вышеупомянутыми звучаниями инструментов, и другие значения для критериев могут быть найдены, что может привести к еще лучшему выполнению обнаружения.
Как только вышеупомянутые начальные и конечные точки найдены, трехфазное приближение обертки сигнала может быть применено. Чтобы найти эффективное параметрическое описание обертки, приближение формы кривой, предложенное Jensen, применяется для каждой фазы, которая может быть описана с одним единственным параметром n (см. уравнение 2.1 из Фиг.5).
Граничные условия νO и ν1 являются значениями обертки для начальной и конечной точек фазы. Переменная x - время, нормализованное между нулем и единицей (t = start -> x = 0, t = end -> x = 1). Скалярный параметр n определяет форму кривой: Если n равно 1, тогда форма кривой линейна; если n является меньшим, чем 1, то форма кривой имеет показательную характеристику; и если n больше, чем 1, то форма кривой является логарифмической. Оптимальный параметр формы кривой nopt найден, минимизируя ошибку наименьшего квадрата между получающейся формой кривой и обертки (см. уравнения 2.2 и 2.3 из Фиг.5).
Результатом является трехфазное параметрическое описание с обертки с 11 параметрами:
• временные события: soa, eoa, sor, eor
• значения уровня: env (soa), env (eoa), env (sor), env (eor)
• оптимальные параметры формы кривой для каждой фазы: nA, nD&S, nR
Вышеупомянутое описанное A-D&S-R приближение спроектировано для того, чтобы вычислить параметрическое описание обертки в одной полосе по целому частотному диапазону, но этот способ также может использоваться в многополосном анализе.
В подходе Jensen параметрическое описание обертки было вычислено для отдельных спектральных компонентов сигнала. Этот подход был оптимизирован для его задачи, потому что он сконцентрировался на (квази-) гармонических инструментах, таких как фортепьяно, флейта, скрипка и т.д. Но когда также имеется противостояние с негармоническими или смешанными гармоническими и негармоническими звуками, должен быть применен многополосный анализ, использующий более широкие полосы, когда объединяется все покрытие целого частотного диапазона от 0 до 22050 Гц. С этой целью алгоритм фильтрует сигналы с банком фильтра (линейные фазовые фильтры FIR с ERB-нормой, масштабирующие пропускную способность и приблизительно прямоугольные полосы), и вычисляет параметры A-D&S-R для каждого вывода фильтра отдельно.
Осуществленный алгоритм выделения признаков был проверен с отдельными звуками инструментов в некоторых предварительных экспериментах с хорошими результатами. Чтобы использовать осуществленную особенность алгоритма извлечения с полифонической музыкой, следующие этапы должны быть выполнены:
1. Нарезать непрерывную музыку или звуковой поток на части, начинающиеся при появлении начала и заканчивающиеся в следующих началах.
2. Применить A-D&S-R приближение и вычислить особенности оценки ударности для каждой звуковой части.
Чтобы нарезать непрерывные звуки в полезные части, расширенный алгоритм должен обнаружить начала в звуковом потоке и затем вырезать эти звуки вокруг этих начал таким способом, чтобы приближение могло работать должным образом. Для обнаружения начала используется доступный способ, осуществленный Schrader (Detecting and interpreting musical note onsets in polyphonic music, masters thesis, department of electrical engineering, TU Eindhoven, 2003), который обеспечивает временные события начала. Так как обнаруженные временные события весьма часто указывают больше на середину начала, алгоритм должен вырезать звуковой поток в более ранней адекватной точке. С этой целью вычисляется сглаженная обертка области интереса сигнала и выбирается следующий минимум как желательная точка вырезки.
Помимо осуществления вышеуказанной функции разрезания, должен быть изменен алгоритм приближения, потому что первая версия для отдельных инструментальных звуков имела трудности с извлеченными звуковыми частями. Причина в том, что критерии обертки, используемые для обнаружения soa и eoa, неприменимы для звуковых частей. Положим, что критерии были получены с помощью звукового файла, имеющего структуру 'пауза-звук-пауза'. Впоследствии уровни обертки в soa и точках eor были весьма низки относительно максимального звукового уровня. Но для извлеченных звуковых частей уровни в soa и точках eor намного выше, потому что в полифонической музыке нет почти никаких пауз сигнала между двумя смежными началами, по меньшей мере, если только одна полоса используется для целого частотного диапазона. Поэтому критерии обертки расширены термином исправления, который рассматривает минимальный уровень обертки звуковой части.
Из полученных параметров A-D&S-R был вычислен обширный список особенностей, которые выглядели многообещающими для наших задач классификации:
• Группа 1: особенности низкого уровня в A-D&S-R фазе (вычисление отдельной полосы):
- продолжительность времени фазы ('t')
- различие уровня между точкой начала и конца фазы ('d')
- крутизна фазы ('d/t')
• Группа 2: описание формы кривой в A-D&S-R фазе (вычисление отдельной полосы):
- Параметр формы кривой n фазы
- Дополнительный параметр, который описывает ошибку между кривой приближения и реальными обертками сигнала: Это является параметром, основанным на функции автокорреляции (ACF) функции ошибки в уравнении 2.3 из Фиг.5. Параметр является высотой первого пика около точки нулевой задержки развитой функции связи. Это описывает "силу" периодичности функции ошибки и поэтому называется "регулярностью ошибки".
• Группа 3: особенности, которые описывают асинхронные точки начала и конца фаз в полосе (многополосное вычисление): Асинхронное было определено как отклонение временных событий sао, eoa, sor и eor в одной полосе от их среднего значения по всей полосе (Все фильтры банка фильтров являются линейными фильтрами FIR фазы, имеющие тот же самый порядок, что означает, что они все вызывают ту же самую постоянную задержку. Поэтому асинхронность, измеренная здесь, является фактически асинхронностью компонентов сигнала). По такому вычислению значения асинхронности в полосе вычисляются две скалярные особенности:
Среднее асинхронности по полосам
дисперсия асинхронности по полосам
• Группа 4: средние значения по полосам особенностей группы 1, которые были вычислены в полосе заранее (многополосное вычисление)
• Группа 5: средние значения по полосам особенностей группы 2, которые были вычислены в полосе заранее (многополосное вычисление)
• Группа 6: значения расхождения по полосам особенностей группы 1, которые были вычислены в полосе заранее (многополосное вычисление)
• Группа 7: значения расхождения по полосам особенностей группы 2, которые были вычислены в полосе заранее (многополосное вычисление)
• Группа 8: особенности, которые описывают "форму" значений особенности группы 1 по всем полосам:
Форма означает распределение значений особенности полосы, когда они составляют график как функцию слышимой полосы. Форма описана двумя параметрами, подобными параметру формы кривой и упомянутому выше параметру ошибки регулярности:
- Один параметр, который описывает приближение формы, используя линейные кривые. Параметр - градиент m линейного приближения.
- Один параметр, описывающий регулярность ошибки между формой и линейным приближением. Его вычисление подобно параметру ошибки регулярности; основывается на развитой функции связи между линейным приближением и реальной формой.
• Группа 9: параметры формы для особенностей группы 2.
Вместо предварительно описанного приближения с тремя фазами, которое может хорошо иметь дело со звуками, которые позволяют ясное различие между D&S-фазой и R-фазой (например, звук флейты), также может использоваться двухфазное приближение. Это приближение выгодно для звуков, которые имеют только затухающую обертку, означающую, что D&S-фаза и R-фаза не могут быть соответственно выделены (например, барабанный звук). Поэтому интересно посмотреть, как выделение признаков работало бы, если бы D&S и R-фазы были объединены в одну фазу. Комбинация была бы довольно простой: получающаяся фаза начинается в конце атаки eoa и идет до конца затухания eor. Так как эта фаза описывает остальную часть сигнала после A-фазы, эту фазу называют Остаточной фазой атаки (AR).
Применяя это двухфазное приближение, получены разновидности девяти упомянутых выше групп особенности. Теперь все особенности, относящиеся к D&S и R-фазам, обмениваются с соответствующими особенностями Фазы AR. Чтобы отличать их от оригинального приближения с тремя фазами, эти группы обозначены со звездочкой:
"группа 1 *", "группа 2 *" и т.д. Отметьте, что связанные A-фазой особенности в этих новых группах - те же самые, как и прежде, и поэтому они не должны быть вычислены снова.
Кроме того, все многополосные особенности были вычислены, используя оба способа приближений (группа 3, группы 4-9, группы 4*-9 *) для трех различных номеров полос: 4, 12 и 24. Чтобы указывать, какой номер полосы принадлежит упомянутым группам особенности, каждая группа обозначена следующим образом: "группа X.l" для 4 полос, "группа X.2" для 12 полос и "группы X.3" для 24 полос.
В варианте воплощения способа изобретения двухступенчатый процесс используется для того, чтобы определить жанр и/или тональность элемента контента:
1. Извлечение звуковых событий из звукового потока (шаг 21 из Фиг.2) и оценка их ударности, используя соответственно обучаемый классификатор (шаги 23 и 25 из Фиг.2).
2. Вычисление вторичных особенностей (например, статистически) по этим оценкам ударности данного звукового файла (шаг 27 из Фиг.2), и использование этих вторичных особенностей для конечной классификации звукового файла (шаг 29 из Фиг.2).
Например, если один звуковой поток состоит приблизительно из 80% ударных звуков, другие приблизительно из 30%, то первый мог бы быть, вероятно, латинской музыкой, в то время как вторым могла бы быть классическая музыка.
Отметим, что этот двухступенчатый процесс является фактически своего рода иерархическим алгоритмом классификации, который состоит из двух стадий классификации: предсказание ударности и предсказание звукового класса. Конечно, первый этап мог быть пропущен, и особенности ударности могли использоваться непосредственно, чтобы классифицировать звуковой класс. Но это привело бы к рассеянному представлению ударности извлеченных звуковых событий. Поскольку ударность представляется как материальная особенность звуковой классификации, такой альтернативный подход классификации с одним шагом был опущен.
Следующая таблица перечисляет четырнадцать прогнозов ударности, то есть классификаторов, которые предсказывают ударность отдельных извлеченных звуков:
№ предсказания Число классов предсказания Набор особенностей
1 3 Group 1
2 Group 2
3 Group 4.3
4 Group 5.3
5 Groups 1 & 2
6 Groups 4.3 & 5.3
7 Groups 1,2,4.3 & 5.3
8 2 Group 1
9 Group 2
10 Group 4.3
11 Group 5.3
12 Groups 1 & 2
13 Groups 4.3 & 5.3
14 Groups 1,2,4.3 & 5.3
Эти четырнадцать прогнозов используют различные комбинации предварительно отобранных наборов признаков и двух различных путей маркирующего класса. Основанные на предсказаниях ударности для звуковых файлов, вторичные особенности должны быть вычислены для того, чтобы определить конечную классификацию звука. Двухступенчатый процесс Фиг.2 может быть осуществлен следующими этапами:
1. События звука извлекают из приблизительно 6-тисекундных частей звукового файла.
2. Предсказывают ударность каждого извлеченного звука, используя вышеупомянутые прогнозы.
3. Вычисляют проценты в звуковом файле, как часто звуки назначаются к другим классам ударности, например 50% ударных и негармонических, 30% ударных и гармонических, 20% неударных.
4. Использовать два из трех процентов как вторичные особенности, так как третье следует из линейной комбинации отобранных двух (особенность 1 + особенность 2 + особенность 3 = 1 выдерживается всегда).
Эксперименты показали: эти вторичные особенности могут использоваться, чтобы определить жанр элемента контента с хорошими результатами, если используется один из следующих подходов:
1. Обнаружить один жанр музыки из другого.
Это означает, что звуковой файл одного жанра музыки назначен классу 1, в то время как звуковой файл оставшихся 13 жанров назначен классу 2. Это может быть повторено для всех 14 жанров, которые рассматривают в этих экспериментах.
2. Различить между двумя жанрами музыки.
Это означает, что два жанра музыки классифицированы, в то время как другой звуковой файл исключен. Это может быть повторено для всех комбинаций жанра музыки.
Следующая таблица показывает точности обнаружения одного жанра музыки из других:
Жанр музыки Лучшее предсказание Средняя производительность
Classical 11 86,00±6,17%
Jazz 11 68,86±8,28%
Pop 8 65,23±6,87%
Country 3 63,24±13,83%
Folk 13 65,75±10,32%
New age 6 77,29±12,07%
Electronica 13 70,73±8,69%
Latin 12 71,86±10,95%
R&B 6 74,44±7,94%
Rock 3 64,72±9,97%
Rap 7 77,76±8,85%
Reggae 3 79,81±9,78%
Vocal 8 84,29±8,34%
Easy Listening 8 74,18±13,48%
Эта таблица указывает, что Классическая (classic) и Вокальная (vocal) музыка могут быть обнаружены приблизительно с 85%-ной точностью, сопровождаемые музыкой Reggae почти с 80%. По контрасту - Pop, Country, Folk и Rock-музыка не могут быть разумно обнаружены с описанным алгоритмом ударности, потому что их точность с 60-65% - немного выше шанса.
Фиг.6 показывает матрицу с дискриминационным выполнением. Номера, изображенные в областях ниже главной диагонали - средняя точность дискриминации каждой пары класса, в то время как номера выше главной диагонали обозначают лучший прогноз для каждой пары класса. Достигнутая дискриминационная точность отличается довольно сильно. Для некоторых жанров музыки комбинаций почти отсутствие дискриминации является возможным (60%). Например, Classical против New Age или Vocal, Rap против Electronica, Latin или R&B. Но для других пар классов достигнуты очень хорошие результаты (90-99%), например, Classical или New Age против Rap, Reggey или Electronica.
Так как жанры музыки, как classical или vocal, обычно состоят только из нескольких ударных звуков, в то время как жанры, такие как Rap или Electronica, очень ритмично ориентированы (множество ударных инструментов), обнаружение и результаты дискриминации разумны. Впоследствии описанный алгоритм ударности способен к обнаружению и дифференциации, по меньшей мере, между некоторыми жанрами музыки. Чтобы сохранять четкость и видимость, перечислены/показаны только результаты лучшего прогноза выполнения в каждом случае.
Обратимся к Фиг.7, где электронное устройство 51 изобретения содержит электронную схему 53. Электронная схема 53 может функционировать для того, чтобы выбрать представление данных множества звуков из элемента контента, определить характеристику каждого из множества звуков, анализируя указанные данные, где каждая характеристика представляет собой временной аспект амплитуды одного из множества звуков, и определить характеристику элемента контента, основываясь на множестве определенных характеристик.
Дополнительно или альтернативно, электронная схема 53 может функционировать для поиска элемента контента во множестве элементов контента, где каждый элемент контента во множестве элементов контента связан с признаком оценки, и найденный элемент контента связан со значением признака, которое является подобным желательному значению признака. Значение параметра указанного элемента контента является характеристикой указанных элементов контента или основано на характеристике указанного элемента контента. Указанная характеристика сказанного элемента контента была определена представлением данных, выбирая множество звуков из элемента контента, определяя характеристику каждого из множества звуков, анализируя указанные данные, где каждая характеристика представляет собой временной аспект амплитуды одного из множества звуков и определяет характеристику элемента контента, основываясь на множестве определенных характеристик.
Хотя возможно проанализировать множество элементов контента после того, как запрос поиска был получен, поиск может быть выполнен быстрее, гарантируя, что характеристика была определена прежде, чем запрос поиска получен. Это удобно, если поиск выполняется в личной коллекции так же, как если поиск выполняется в коллекции системной службы (например, сетевой магазин). Первая системная служба, предлагая службу, которая позволяет пользователю искать во множестве элементов контента, может запросить вторую системную службу (или поставщика оперативной информации) определить характеристику для элементов контента.
Электронное устройство 51 может быть сервером PC, домашним PC, медиа-сервером, аудио/видео (например, находящейся на жестком диске) записи или портативным универсальным проигрывателем. Электронная схема 53 может быть универсальным процессором (например, Intel Pentium или AMD Athlon) или специфическим для приложения процессором (например, Philips IS Nexperia). Электронное устройство 51 может дополнительно содержать средство 55 памяти, средство 57 ввода и вывода 57. Средство 55 памяти может содержать, например, энергозависимую или энергонезависимую оперативную память, жесткий диск, оптический диск и/или голографический носитель данных. Элемент контента, характеристика которого определена и/или определенная характеристика самого элемента контента может быть сохранена на средстве 55 памяти. Ввод 57 может быть оптическим или электрическим (цифровым или аналоговым) вводом, возможно, для того, чтобы получить видео так же, как аудио. Вывод 57 может быть оптическим или электрическим (цифровым или аналоговым) выводом, возможно, для того, чтобы передать видео так же, как аудио. Вывод 57 может также быть средством воспроизведения, чтобы воспроизвести выбранный элемент контента. Ввод 57 и/или вывод 59 может содержать один или более сетевых адаптеров, связанных с домашней сетью и/или с Интернетом. Например, вывод 59 из сервера PC может использоваться для того, чтобы передать песню (например, файл MP3) к вводу 57 из потребительского электронного устройства, например домашнего PC.
В то время как изобретение было описано в соответствии с предпочтительными вариантами его осуществления, необходимо понимать, что модификации в пределах определенных выше принципов будут очевидными для специалистов в данной области техники, и, таким образом, изобретение не ограничено предпочтительными вариантами осуществления, но предназначено для того, чтобы охватить такие модификации. Изобретение охарактеризовано каждым из существенных признаков и совокупностью этих признаков. Ссылочные позиции в формуле изобретения не ограничивают объем притязаний. Использование глагола "содержать" и его спряжений не исключает присутствия элементов, кроме заявленных в формуле изобретения. Использование неопределенного артикля «a» или «an», относящегося к элементу, не исключает присутствие множества таких элементов.
Термин «средство», как будет очевидным специалисту в данной области техники, предназначается для того, чтобы определять любые аппаратные средства (типа отдельных или интегральных схем или электронных элементов) или программное обеспечение (типа программ или частей программ), которые выполняют или спроектированы для того, чтобы выполнить указанную функцию, исключительно или вместе с другими функциями, отдельно или вместе с другими элементами. Изобретение может быть осуществлено посредством аппаратных средств, включающих в себя несколько отличных элементов, и посредством соответственно запрограммированного компьютера. Термин «программное обеспечение» должен быть понятен как означающий любой программный продукт, сохраненный на читаемом компьютером носителе, типа гибкого диска, загружаемого через сеть, типа Интернета, или поставляемый любым другим способом.

Claims (9)

1. Способ определения меры ударности элемента контента, содержащий этапы, на которых:
выбирают (1) из элемента контента данные, представляющие множество звуков;
определяют (3) характеристики каждого из множества звуков путем анализа указанных данных, каждая характеристика представляет собой временной аспект одного из множества звуков;
определяют (5) меру ударности элемента контента, основываясь на множестве определенных характеристик; при этом мера ударности элемента основана на параметрическом описании временного аспекта множества звуков в области времени,
определяют (7) жанр и/или тональность элемента контента, основываясь на мере ударности элемента контента,
при этом этап, на котором определяют (5) меру ударности элемента контента содержит этап, на котором определяют первую особенность ударности и вторую особенность ударности элемента контента, и этап, на котором определяют (7) жанр и/или тональность элемента контента содержит этап, на котором сравнивают первую особенность ударности с характеристикой первого жанра или тональности и сравнивают вторую особенность ударности с характеристикой второго жанра или тональности.
2. Способ по п.1, в котором этап определения (5) меры ударности элемента контента содержит определение процентного содержания.
3. Способ по п.1, в котором этап определения (5) меры ударности элемента контента содержит определение доминирующего инструмента.
4. Способ по п.1, в котором этап определения (3) характеристики каждого из множества звуков содержит этап, на котором определяют характеристику первой фазы (А) каждого из множества звуков и характеристику второй фазы (D&S, R) каждого из множества звуков.
5. Способ поиска элемента контента во множестве элементов контента, каждый элемент контента из множества элементов контента взаимосвязан со значением параметра, обнаруживаемый элемент контента взаимосвязан со значением параметра, которое является подобным желательному значению параметра, указанное значение параметра каждого элемента контента является жанром и/или тональностью указанного каждого элемента контента или основывается на жанре и/или тональности указанного каждого элемента контента, и указанный жанр и/или тональность каждого элемента контента определяется способом по любому из пп.1-4.
6. Читаемый компьютером носитель, имеющий сохраненное на нем программное обеспечение для программируемого устройства для выполнения способа по п.1.
7. Электронное устройство (51) для определения меры ударности элемента контента, содержащее процессор (53), который функционирует для того, чтобы:
выбрать из элемента контента данные, представляющие множество звуков;
определить характеристики каждого из множества звуков путем анализа указанных данных, каждая характеристика представляет собой временной аспект одного из множества звуков;
определить меру ударности элемента контента, основываясь на множестве определенных характеристик; при этом мера ударности элемента основана на параметрическом описании временного аспекта множества звуков в области времени,
определить жанр и/или тональность элемента контента, основываясь на мере ударности элемента контента,
при этом процессор функционирует для того, чтобы определить меру ударности элемента контента посредством определения первой особенности ударности и второй особенности ударности элемента контента и чтобы определить жанр и/или тональность элемента контента, основываясь на сравнении первой особенности ударности с характеристикой первого жанра или тональности и на сравнении второй особенности ударности с характеристикой второго жанра или тональности.
8. Электронное устройство (51) для определения меры ударности элемента контента по п.7, в котором процессор (53) функционирует для того, чтобы:
искать элемент контента во множестве элементов контента, каждый элемент контента во множестве элементов контента взаимосвязан со значением параметра, обнаруживаемый элемент контента взаимосвязан со значением параметра, который является подобным желательному значению параметра, указанное значение параметра каждого элемента контента является жанром и/или тональностью каждого элемента контента или основано на жанре и/или тональности указанного каждого элемента контента.
9. Процессор (53) по п.7.
RU2007144711/08A 2005-06-01 2006-05-30 Способ и электронное устройство для определения характеристики элемента контента RU2419859C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP05104740 2005-06-01
EP05104740.5 2005-06-01

Publications (2)

Publication Number Publication Date
RU2007144711A RU2007144711A (ru) 2009-06-10
RU2419859C2 true RU2419859C2 (ru) 2011-05-27

Family

ID=36930199

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2007144711/08A RU2419859C2 (ru) 2005-06-01 2006-05-30 Способ и электронное устройство для определения характеристики элемента контента

Country Status (7)

Country Link
US (1) US7718881B2 (ru)
EP (1) EP1891548B1 (ru)
JP (1) JP5112300B2 (ru)
KR (1) KR101249024B1 (ru)
CN (1) CN101189610B (ru)
RU (1) RU2419859C2 (ru)
WO (1) WO2006129274A1 (ru)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4665836B2 (ja) * 2006-05-31 2011-04-06 日本ビクター株式会社 楽曲分類装置、楽曲分類方法、及び楽曲分類プログラム
EP2031581A1 (de) * 2007-08-31 2009-03-04 Deutsche Thomson OHG Verfahren zum Erkennen eines akustischen Ereignisses in einem Audio-Signal
US20120294457A1 (en) * 2011-05-17 2012-11-22 Fender Musical Instruments Corporation Audio System and Method of Using Adaptive Intelligence to Distinguish Information Content of Audio Signals and Control Signal Processing Function
KR102104594B1 (ko) 2011-06-24 2020-04-24 엘지전자 주식회사 영상 정보 부호화 및 복호화 방법
GB201119206D0 (en) 2011-11-07 2011-12-21 Canon Kk Method and device for providing compensation offsets for a set of reconstructed samples of an image
CN102930865B (zh) * 2012-09-21 2014-04-09 重庆大学 一种波形音乐粗情感软切割分类方法
US9123353B2 (en) * 2012-12-21 2015-09-01 Harman International Industries, Inc. Dynamically adapted pitch correction based on audio input
TWI527025B (zh) * 2013-11-11 2016-03-21 財團法人資訊工業策進會 電腦系統、音訊比對方法及其電腦可讀取記錄媒體
US9671862B2 (en) * 2014-10-15 2017-06-06 Wipro Limited System and method for recommending content to a user based on user's interest
WO2016102737A1 (en) * 2014-12-22 2016-06-30 Nokia Technologies Oy Tagging audio data
CN108648767B (zh) * 2018-04-08 2021-11-05 中国传媒大学 一种流行歌曲情感综合与分类方法
CN109841223B (zh) * 2019-03-06 2020-11-24 深圳大学 一种音频信号处理方法、智能终端及存储介质
JP7275711B2 (ja) * 2019-03-20 2023-05-18 ヤマハ株式会社 オーディオ信号の処理方法

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5918223A (en) 1996-07-22 1999-06-29 Muscle Fish Method and article of manufacture for content-based analysis, storage, retrieval, and segmentation of audio information
US6201176B1 (en) * 1998-05-07 2001-03-13 Canon Kabushiki Kaisha System and method for querying a music database
US20050120870A1 (en) * 1998-05-15 2005-06-09 Ludwig Lester F. Envelope-controlled dynamic layering of audio signal processing and synthesis for music applications
US7022905B1 (en) * 1999-10-18 2006-04-04 Microsoft Corporation Classification of information and use of classifications in searching and retrieval of information
EP1143409B1 (en) 2000-04-06 2008-12-17 Sony France S.A. Rhythm feature extractor
US7075000B2 (en) * 2000-06-29 2006-07-11 Musicgenome.Com Inc. System and method for prediction of musical preferences
US6545209B1 (en) * 2000-07-05 2003-04-08 Microsoft Corporation Music content characteristic identification and matching
US7065416B2 (en) * 2001-08-29 2006-06-20 Microsoft Corporation System and methods for providing automatic classification of media entities according to melodic movement properties
US6657117B2 (en) * 2000-07-14 2003-12-02 Microsoft Corporation System and methods for providing automatic classification of media entities according to tempo properties
US7035873B2 (en) * 2001-08-20 2006-04-25 Microsoft Corporation System and methods for providing adaptive media property classification
EP1244033A3 (en) * 2001-03-21 2004-09-01 Matsushita Electric Industrial Co., Ltd. Play list generation device, audio information provision device, system, method, program and recording medium
US6993532B1 (en) * 2001-05-30 2006-01-31 Microsoft Corporation Auto playlist generator
US6476308B1 (en) * 2001-08-17 2002-11-05 Hewlett-Packard Company Method and apparatus for classifying a musical piece containing plural notes
US7295977B2 (en) * 2001-08-27 2007-11-13 Nec Laboratories America, Inc. Extracting classifying data in music from an audio bitstream
US6426456B1 (en) * 2001-10-26 2002-07-30 Motorola, Inc. Method and apparatus for generating percussive sounds in embedded devices
US6987221B2 (en) * 2002-05-30 2006-01-17 Microsoft Corporation Auto playlist generation with multiple seed songs
EP1378912A3 (en) * 2002-07-02 2005-10-05 Matsushita Electric Industrial Co., Ltd. Music search system
GB0229940D0 (en) * 2002-12-20 2003-01-29 Koninkl Philips Electronics Nv Audio signal analysing method and apparatus
DE10313875B3 (de) * 2003-03-21 2004-10-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Analysieren eines Informationssignals
US7227072B1 (en) * 2003-05-16 2007-06-05 Microsoft Corporation System and method for determining the similarity of musical recordings
US7022907B2 (en) * 2004-03-25 2006-04-04 Microsoft Corporation Automatic music mood detection
US7193148B2 (en) * 2004-10-08 2007-03-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating an encoded rhythmic pattern
US20060254409A1 (en) * 2005-05-11 2006-11-16 Withop Ryan L Sorting media files using dynamic passive recognition techniques
US7672916B2 (en) * 2005-08-16 2010-03-02 The Trustees Of Columbia University In The City Of New York Methods, systems, and media for music classification
US7396990B2 (en) * 2005-12-09 2008-07-08 Microsoft Corporation Automatic music mood detection
US7888582B2 (en) * 2007-02-08 2011-02-15 Kaleidescape, Inc. Sound sequences with transitions and playlists

Also Published As

Publication number Publication date
EP1891548B1 (en) 2017-04-26
EP1891548A1 (en) 2008-02-27
US20080202320A1 (en) 2008-08-28
JP2008542835A (ja) 2008-11-27
CN101189610A (zh) 2008-05-28
CN101189610B (zh) 2011-12-14
RU2007144711A (ru) 2009-06-10
US7718881B2 (en) 2010-05-18
WO2006129274A1 (en) 2006-12-07
KR101249024B1 (ko) 2013-03-29
KR20080019031A (ko) 2008-02-29
JP5112300B2 (ja) 2013-01-09

Similar Documents

Publication Publication Date Title
RU2419859C2 (ru) Способ и электронное устройство для определения характеристики элемента контента
US9313593B2 (en) Ranking representative segments in media data
TW201142818A (en) Complexity scalable perceptual tempo estimation
MX2012009787A (es) Aparato y metodo para modificar una señal de audio usando modelado de envolvente.
Eggink et al. A missing feature approach to instrument identification in polyphonic music
US8865993B2 (en) Musical composition processing system for processing musical composition for energy level and related methods
KR20070004891A (ko) 오디오 신호의 분류를 위한 방법 빛 시스템
Eggink et al. Instrument recognition in accompanied sonatas and concertos
Zhu et al. Music key detection for musical audio
KR20050085765A (ko) 오디오 신호 분석 방법 및 장치
Niyazov et al. Content-based music recommendation system
Rajan et al. Music genre classification by fusion of modified group delay and melodic features
US7214870B2 (en) Method and device for generating an identifier for an audio signal, method and device for building an instrument database and method and device for determining the type of an instrument
Marolt On finding melodic lines in audio recordings
Rossignol et al. State-of-the-art in fundamental frequency tracking
US20040158437A1 (en) Method and device for extracting a signal identifier, method and device for creating a database from signal identifiers and method and device for referencing a search time signal
Skowronek et al. Features for audio classification: Percussiveness of sounds
Tian A cross-cultural analysis of music structure
Eley et al. A custom feature set for analyzing historically informed baroque performances
Wieczorkowska et al. Quality of musical instrument sound identification for various levels of accompanying sounds
Rodríguez et al. Automatic transcription of Flamenco guitar falsetas
Lin et al. Sinusoidal Partials Tracking for Singing Analysis Using the Heuristic of the Minimal Frequency and Magnitude Difference.
Wegener et al. On the robustness of audio features for musical instrument classification
Wieczorkowska et al. Training of classifiers for the recognition of musical instrument dominating in the same-pitch mix
Bodo Music similarity models applied to cover song identification and classification