PT1405222E

PT1405222E - Método e dispositivo para produzir uma impressão digital e método e dispositivo para identificar um sinal de audio

Info

Publication number: PT1405222E
Application number: PT02747417T
Authority: PT
Inventors: Jurgen Herre; Eric Allamanche; Thorsten Kastner; Oliver Hellmuth; Markus Cremer
Original assignee: M2Any Gmbh
Priority date: 2001-07-10
Filing date: 2002-06-20
Publication date: 2012-05-25
Also published as: ATE545930T1; JP4184955B2; ES2382974T3; EP1405222A1; KR20040040409A; HK1060632A1; DE10133333C1; WO2003007185A1; EP1405222B9; US20040172411A1; US7460994B2; KR100659672B1; EP1405222B1; JP2004534285A

Description

DESCRIÇÃO

MÉTODO E DISPOSITIVO PARA PRODUZIR UMA IMPRESSÃO DIGITAL E MÉTODO E DISPOSITIVO PARA IDENTIFICAR UM

SINAL DE AUDIO A presente invenção refere-se á. caracterização, ou identificação, dos sinais de áudio no que diz respeito ao seu conteúdo, em particular para produzir e utilizar as impressões digitais diferentes para um sinal de áudio.

Nos últimos anos temos visto um grande aumento na disponibilidade de material de dados multimédia, ou seja, dados de áudio. Este desenvolvimento é devido a um certo número de f actores téc n i c os. E s t e s £ a c t. ores té c n i c os i n c 1 u e m, p o r e x e mp 1 o, a ampla disponibilidade da Internet, a ampla disponibilidade de computadores de alto desempenho, bem como a ampla disponibilidade de métodos de compressão de dados de alta performance, ou seja, codificação de fonte, de dados de áudio. Como um exemplo desta situação, menção será feita de MPEG 1/2 camada 3, também referido como MP3. A enorme quantidade de dados audiovisuais disponíveis, por exemplo, na internet, em escala mundial, apela para conceitos que permitem a esses dados serem avaliados, categorizados ou geridos por critérios relacionados com o conteúdo. Há uma necessidade de pesquisar e encontrar dados multimédia especificamente determinando critérios úteis.

Isto requer a utilização dos chamados "conteúdos base" técnicas de extração, a partir dos dados audiovisuais, os chamados 'qualidades’ representam importantes propriedades de conteúdo característico do sinal de interesse. Com base em tais características, as relações de semelhança, ou características comuns, entre os sinais de áudio podem ser derivadas. Este processo é geralmente feito através da comparação, ou relativa, dos valores de características extraídos de sinais diferentes, que devem ser aqui referidos como "peças". A patente Americana N.° 5.918.223 revela um método para o conteúdo baseado em análise, armazenamento, recuperação e segmentação de informações de áudio. Análise de dados de áudio produz um conjunto de valores numéricos que é também referido como vector de características e pode ser utilizado para classificar e qualificar a semelhança entre as peças de áudio individuais, que são tipicamente armazenadas numa base de dados multimédia ou na rede mundial. 1

Além disso, a análise permite a descrição das ciasses demardas pelo utilizador de peças de áudio com base numa analise ae um conjunto de peças de áudio, que são todos os membros de uma classe definida pelo utilizador. 0 sistema e capaz de encontrai secções de som individuais dentro de uma peça de^ som de tempo relativamente longo, o que permite a gravação de audio para ser automaticamente segmentado numa série de segmentos curtos ae áudio.

Os recursos utilizados para caracterizar ou classificai peça» oe áudio que diz respeito ao seu conteúdo mciuem a sonoridade oe uma peça, o timbre, largura, os banda, oriího e os chamciaos coeficientes Mel-frequency Cepstral (MFCCs) em intervalos periódicos em peça de áudio. Os valores per bioco e per irame são armazenados e sujeitos a uma primeira derivação. Posto isto, quantidades estatísticas específicas, por exemplo, o valor medio ou o desvio padrão, de cada uma destas características, incluindo os primeiros derivados dos mesmos, são calculados para descrever uma variação ao longo do tempo. Este conjunto de quantidades estatísticas constitui o vector de características. O vector de características da peca de áudio é armazenado num banco de dados em associação com o arquivo original, um usuário sendo capaz de aceder ao banco de dados, de modo a pesquisar peças apropriadas de áudio. 0 sistema ae base de dados é capaz de quantificar a distância, em um espaço n~dimensional, entre dois vetores n-dimensionais. É ainda possível produzir classes de peças de áudio, especificando um conjunto oe peças de áudio que pertencem a uma classe, axemplos ae orasses são sons de pássaros, rock, etc. 0 usuário esta Aabiiitaao a pesquisar o banco de dados de peças áudio Li&anoo metoaos ^específicos. 0 resultado de uma. pesquisa é uma χ 1υ:;6ιΐΌ8 oe som, que são listados ordenadamente de r -C°ni, α _sua . distância a partir do vector n-dimensional ' ° utilizador pode procurar o banco de dados no que . ^arac^eriStícas oe semelhança, no que respeita U<!ÍX!V_iCas acústicas e / ou psico acústicas, no que diz iór«7dor«^t«!ítStÍ°e® sub]eotivas °“ n0 que dlz -'espeito por exemplo, o zumbi ao de abelhas.

Wan^et 'íSrii.ailzada "Análise de Conteúdo Multimédia",

Yao

Novembro de 2000,

Wang et al. , inpp o.: . _ po 1/-^ .pVep" °Agnai Processing Magazine, ...... ..... multimédia são tempo ou de multimédia/'Pe^^TCeit° semelhante Para caracterizar peças _ q3n P°ra classificar o conteúdo de uma peca re/^ro?tÚP°St°S para incluir recursos no domínio do volume, o pasa»!*,Estes incluem o áudio, cnract.-rí c,tir irc3-e^icl basica de uma torrna de sinal de energia de urna "fit-Π e/P/Ct/aÍSí tais como 0 conteúdo de corte de frequências ao i.eor total ae energia, de características Curfp rT//''Vd esPectld-l/ etc. Alem disso para quantidades mencion»*-0, prazf' que se relacionam com as ' por Pi°co de amostras do sinal de áudio 2 a ·) prazo são também propostas quantiaaa.es correspondentes a um """per iodo mais longo do pedaço de áudio. oiversas categorias são sugeridas para a caracterização de peças te áudio como sons de animais, o toque de sinos, sons de uma mUjiídão ' de pessoas, risos, barulho das máquinas, instrumentos musicai s, a v0Z masculina, a voz teminina, sons de telefone ou o som de água- A escolha de características utilizadas é problemática em que as despesas de processamento necessárias para a extracção de uma caraCteri stica, são supostas serem moderadas de modo a atingir rapidamente uma caracterização, mas em que, ao mesmo tempo, a particularidade é para ser atributo da porção de áudio, tais que duas pecas diferentes têm características diferentes umas das outras.

Para caracterizar um sinal de áudio, uma caracterização do sinal de áudio, ou uma característica assim chamada, que é também referida como impressão digital, é extraída, como já foi descrito. Dois requisitos diferentes são colocados em cima do tipo de recurso. 0 único requisito colocado sobre uma impressão digital é que a impressão digital é para sinalizar o sinal de áudio como unicamente possível. O outro requisito colocado sobre a impressão digital é que a impressão digital é para conter pouca informação quanto possível, isto é, que a impressão digital é para usar como pequeno espaço de memória quanto possível. Estes dois requisitos conflituam um com o outro. A maneira mais simples de reconhecer este facto é o de que a melhor "impressão digital" para um sinal de áudio é o sinal de áuaio em si, isto é, a sequência de amostras representada pelo sinal de áudio. Essa impressão digital, no entanto, iria apresentar uma violação em larga escala do segundo requisito, uma vez que a impressão digital do sinal de áudio ocuparia muita memoiia o que, por um lado, torna impossível armazenar um número muit0. grande de impressões digitais para um número muito grande ae sinais de áudio num banco de dados de reconhecimento de mu oioo. Uma desvantagem adicional é também que a quantidade de tempo de Processamento necessária por meio de algoritmos correspondentes, que é suposto para comparar uma impressão digitai de busca com uma pluralidade de impressões digitais de ^armazenados, é proporcional ao tamanho da impressão digitai de busca e / ou á impressão digital do banco de dados. O outro extremo seria, por exemplo, para levar apenas um valor méaio de todas as amostras de uma peça. Este valor médio requer mtm^o pouco espaço de memória e é, portanto, mais adequado tanto para aii imenso banco de dados de música e para os algoritmos correspondertes> No entanto, a força de caracterização de tal *n.pressao aigital, não seria para uma pessoa, muito .robusta com le^eito a uma mudança irrelevante. 3

Um compromisso ideal entre a força caracterizante, por um lado, e o volume de dados da impressão digitai, por outro, não existe, como tal, em geral, mas normalmente é estabelecido empiricamente ou depende das circunstâncias da respectiva aplicação em termos de espaço de memória disponível e capacidade de transporte disponível. Este procedimento tem a desvantagem de os diferentes tipos de impressões digitais que são idealmente adequados para apenas uma aplicação específica, serem mais ou menos inadequados para outras aplicações. Deve ser salientado neste contexto que a identificação do sinal áudio e / ou caracterização é de particular interesse apenas se existem bancos de dados característicos muito grandes cujas impressões digitais podem ser comparadas a uma impressão digital de 'pesquisa para identificar quer diretamente um sinal de áudio ou caracterizar o sinal de áudio para o efeito que uma medida de semelhança do sinal de áudio em comparação com um ou vários dos sinais cie áudio no banco de dados é saída. Se se verificar que um tipo específico de impressão digital era de facto favorável para a uma aplicação, mas não era mais favorável para a outra, o processamento cie extração caracterí stico renovado deve ser realizado para a grande quantidade de sinais de áudio, cuja impressões digitais são armazenadas no banco de dados para atingir uma base de dados nova caracteristica servindo como um compromisso ideal para as aplicações correntes, a fim de alcançar um. compromisso ideal entre a força caracterizante, por um lado, e o espaço de memória, por outro. Por um lado, as peças originais não são de todo disponíveis para uma extração de características renovadas (por exemplo, 500.000 peças de áudio são utilizadas para uma base de dados de áudio). Por outro lado, o resultado - se possível - é em grande escala as despesas para o processamento de extração de características para preencher e / ou para "treinar" o "novo" banco de dados.

Este problema é agravado em especial pelo fato de que, embora haja de efetivamente uma rede mundial de computadores disponível sob a forma da internet, que em princípio tem uma capacidade de armazenamento ilimitada, é no entanto, impossível deixar diferentes "criadores de impressões digitais” saber a qualquer fnomento que impressão digital é a mais adequada para qual aplicação, de tal modo que há também material de base de dados çe impressões digitais suficiente sempre disponível para ser capaz de efetuar a identificação do sinal útil de áudio e / ou caracterízação. rjm problema adicional é que as impressões digitais devem também sgr transmitidas através de canais de transmissão mais variados, ym canal de transmissão possuindo uma capacidade de transmissão muito baixa é, por exemplo, um canal de transmissão ao ar livre qe um telefone móvel. Para além da força caracterizante e capacidade de armazenamento para o banco de dados, a largura de ti anda do canal de transmissão é também, um fator decisivo. Não faria sentido produzir uma impressão digital com uma elevada resistência caracterizante mas que dificilmente pode ou não ser 4 transmitida em todos através do canal de transmissão de banda estreita. A impressão digital ideal para ama tal aplicação é, portanto, especificada adicionalmente pelo canal de transmissão através do qual a impressão digital, por exemplo de um banco de dados de pesquisa, é transmitida. É objeto da presente invenção proporcionar um conceito de impressão digital flexível que é adaptável a diferentes requisitos.

Este objectivo é atingido por um método de produção de uma impressão digital como reivindicado na reivindicação 1, um método caracterizante de um sinal de áudio tal como reivindicado na reivindicação 11, uma impressão digital como reivindicado na reivindicação 15, um aparelho para produzir uma impressão digitai como reivindicado na reivindicação 16 ou um aparelho para a caracterização de um sinal de áudio tal como reivindicado n a r e i v i ndi caç ão 17, A presente invenção baseia-se na descoberta de que um conceito de impressão digital que é o mais universal possível pode ser obtido pelo facto de que a impressão digital foi criada em conformidade com um modus de uma pluralidade pré-determxnada de impressão digital Modí, toda a impressão digital modi respeitante ao mesmo tipo de .impressão digital, a impressão digital Modi, no entanto, proporcionando diferentes impressões digitais que diferem umas das outras no que diz respeito ao seu volume de dados, por um lado, e no que diz respeito à sua força caracterizante para caracterizar um sinal de áudio, por outro. De acordo com a invenção, as impressões digitais modi são predeterminadas de tal modo que uma. impressão digital de acordo com uma impressão digital modus com uma .resistência primeira caracterização pode ser convertida numa impressão digitai de acordo com uma impressão digital modus com uma segunda resistência caracterizante, sem usar o sinal de áudio em si. Esta impressão digital "escalável" permite proporcionar, por exemplo, uma base de dados caracterizante tendo impressões digitais de alta resistência e envolvendo uma grande quantidade de dados. A base de dados de impressões digitais dispendiosa que tenha sido produzida em conformidade com um dos Modi impressão digital pré-determinada pode ser prontamente convertida numa impressão digital "inferior", que tem uma resistência caracterizante inferior, sem sujeitar o sinai de áudio em si, a uma extração de caracteristicas. É sempre preferível que a impressão digital que é convertida, da impressão digital de busca e da impressão digital banco de dados, que tem maior resistência caracterizante, de tal modo que as duas impressões digitais que sao realmente comparáveis sejam comparadas umas com as outras. De uma escala com diversas impressões digitais modi é fornecida ae acordo com a invenção, a base de dados é adequada para processar: drte.rent.es impressões digitais, como muitas impressões digitais ou seja, produzidas em 5 conformidade com diferentes total modí impressão digital impressõe; digitais Mo d i, como no A vantagem é que a mesma utilização do banco de dados de impressões digitais, as impressões digitais com uma resistência caracterizante muito baixa, mas também as impressões digitais com uma resistência caracterizante muito elevada podem ser transformadas, de modo a que, dependendo do aprovado predeterminado de impressão digital Modi, uma impressão digital modus apropriada pode ser encontrada para cada aplicação, enquanto uma base de dados de impressões digitais pode mesmo, e c o n t u d. o, ser u s a d o .

Este conceito tem a vantagem adicional de que os produtores de impressões digitais para bases de dados de áudio são privados da tarefa de constantemente produzir diferentes impressões digitais para alterar aplicações, mas que uma impressão digital escalável é produzida uma vez, que pode então ser utilizada para uma pluralidade de aplicações, devido à sua escalabilida.de recurso. Por outro lado, aos tais utilizadores de bases de dados de busca, é dada uma flexibilidade suficiente em que eles podem portanto produzir, se as circunstâncias requerem, quer uma impressão digital tendo baixa força caracterizante o que pode, no entanto, ser transmitida muito rapidamente, enquanto que o mesmo utilizador pode produzir uma impressão digitai tendo uma elevada resistência caracterizante numa aplicação diterente em que a força caracterizante é mais importante do que o volume de dados da impressão digital. 0 usuário pode aceder a um banco de dados e mesmo para os dois casos de aplicação, o que simplifica todo o conceito de contexto baseado em descrição do sinal de áudio de forma substancial e, portanto, o torna mais usuário friendiy. É, em particular a facilidade de utilização e facilidade de manuseio que são decisivos para o produto atingir o sucesso comercial generalizado no mercado.

De preferência, a escalabilidade no que diz respeito à frequência e / ou escalabilidade em relação ao tempo são utilizadas. A escalabilidade no que diz respeito à irequencia e conseguida, de acordo com uma forma de realização preferida da presente invenção, em que cada impressão digital modi contém informações de impressão digital separadas para suo-bandas separado do sinal de áudio, e era que a impressão digital modi difere uma da outra na medida em que incluem xnformaçao de impressão digital separada para um número diferente ae sub-bandas. Esta especificação de sub-bandas é a mesma para todos os modi de impressões digitais. Se um banco de dados tendo impressões digitais com uma elevada resistência à caracterização é produzido, ou seja, se a impressão digital nrodus em que as impressões digitais para o banco de dados têm sido proauzidas contém informações de impressão digital separadas para, por exemplo, 20 sub-bandas do sinal de áudio, outra impressão digital modi tendo menos força caracterizante conduziria a impressões digitais contendo, por exemplo, a informação de 6 impressão digitai separada para apenas 15, 10, 5 ou apenas uma única sub-banda. Todas as impressões digitais produzidas em conformidade com as impressões digitais diferentes modi são prontamente baixo compatíveis, uma vez que numa operação de correspondência com a base de dados apenas a informação de impressão digital aqueles são tomados a. partir da impressão digital base de dados para as sub-bandas que estão incluídas na impressão digital de pesquisa. Num caso extremo, serra apenas a informação de impressão digital de uma única sub-banda que seria usada para uma operação de correspondência de 20 itens separados de informação de impressão digital de uma impressão digital, se a. impressão digital de busca também inclui apenas uma informação de impressão digital para sub-bandas individuais.

Uma outra alternativa preferida é a capacidade de expansão ao longo do tempo. ÍJma impressão digitai tendo relatrvamente baixa força caracterizante contém, por: exemplo, a inrormaçao de impressão digital de 10 blocos de amostras cio sinal de audio, ao passo que uma impressão digital tendo alta força caracterizante inclui informação de impressão digital Por bloco de amostreis do sinal de áudio. Com o mesmo comprimento ao oloco para ambas as impressões digitais, um número corresponaente de itens ae informação de impressão digital em tempo sucessivo e tenao elevada resistência caracterizante são combinados para a conversão descendente para a partir destes proauzir uma impressão digital convertida caracterizante o mesmo numero de amostras, tal como a impressão digitai tenao baixa rorça caracterizante. Aqui, a impressão digitai moai difere uma da outra em que uma impressão digital modus tem muito baixa resistência caracterizante de muitos biocos de amostras em uma impressão digital única, enquanto que uma impressão digital modus tendo muito elevada força caracterizante produz, por exemplo, uma impressão digital por nioco. com um ramanho de bloco predeterminado uma impressão digitai tendo força caracterizante baixa pode ser produzida a partir do número correspondente de impressões digitais modi tendo força caracterizante elevada., sem ter de sujeitar o sinar ae audio a uma extração de características renovada, de moao a. ser capaz de realizar, por exemplo, uma comparaçao banco de dados.

As concretizações preferidas aa presente invenção serão explicadas em mais detalhe abaixo com rererencia às figuras que a acompanham, nas quais: a produção de uma digitai/

Fig. 1 mostra um diagrama de blocos para impressão

Fig. 2 mostra invenção pa ra a um diagraima de biocos de um dispositivo caracterização de um sinal de áudio; da

Fig. 3 a. mostra uma. representação da subdivisão de um sinal de áudio em várias sub-bandas; 7

Fig. 3b mostra ama representação esauemática das repre^iiLavOco digitais diferentes que podem ser produzidas por raodi impr<.,ooã., digitai diferente da subdivisão mostrad» na fig· 3a;

Fig. 4a mostra uma representação de urna subdivisão de um sinal de áudio ao longo do tempo;

Fig. 4b mostra uma visão esquemática das representações cngitaxs diferentes que podem ser produzidas em conformidade oom ιΠυα,. impressão digital diferente da subdivisão bloco mostrado na iig, 4a e

Fig. 5 mostra um diagrama bloco básico de um sistema ae reconhecimento de padrões.

Deve ser feita referência para fig. 5 abaixo, que mostra uma visão geral esquemática de um sistema de reconhecimento ae padrões, em que o presente invento oode ser vantajosamente utilizado. Em principio, num sistema cie reconhecimento de padrao mostrado na fig. 5 diferenciação <§ feita entre dois modi operacional, para ser mais preciso entre a formação modus bU e a c1a s s i f i c a çã o mo du s 52.

Na formação de funcionamento, os dados são "treinados em", ou seja adicionados ao sistema e, subsequentemente, incluídos numa base de dados 54.

Na classificação modus é feita uma tentativa para comparar um sinal a ser caracterizado com as entradas existentes no banco de dados 54 e efectuar a classificação. 0 sistema de reconhecimento de padrão inclui meios 56 para o pré-processamento do sinal, a jusante meios 58 para extração de caracterxsticas, os meios 60 para o Drocessarnento de recurso, meios 62 para a geração de aglomerado, e meios 64 para a realização de uma classificação de modo a fazer uma indicação sobre o conteúdo do sinal para. ser caracteri zado, por exemplo, como um resultado da classificação modus 52, no sentido de que o sinal e iaêntrco ao sina.! de xy, c?ue tem uma tormação numa. formação prévia modus. A funcionalidade dos blocos individuais de Fig. 5 sera tratada adiante.

Junto com o bloco 58, o bloco 5 6 forma uma caraccerlstica extratora, enquanto o bloco 60 representa um processador de recurso. 0 bloco 5b converte um sinal de entrada para um xormato alvo uniforme, tal como o número de canais, a. taxa de amostragem, a resolução etc. (em. bits por amostra) . Isto e util e necessário que nenhuma condição seja. definida em relação a fonte a partir da. qual o sinal de entrada tem origem. 8

Meios 58 para a extração característica servem para restringir a Quantidade geralmente grande de informação na saída dos meros t6 para uma pequena quantidade de informação. us sinais a serem examinados têm principalmente uma taxa de dados ae alta., isto é, um grande número de amostras por rannura ae tempo, A limitação a uma. pequena quantidade de informação deve uer rugar de tal. ror ma que a essência do sinal original, isto e, a natureza específica da mesma, não se perca. Dentro dos meios 58, são fixadas propriedades características, tais como, em geral, a intensidade, a frequência de Joase, eco, e / ou, em conformidade com a presente invenção, as características de tonalidade e / ou de SFM, são extraídas a partir do sinal. As características de tonalidade assim obtidas, são supostas conter, por assim dizer, a essência do sinal examinado.

No bloco 60, os vectores característicos anteriormente calculados podem ser processados. Processamento simples compreende normalizar os vetores. Potencial processamento característico compreende transformações lineares, tais como transformação Karhunen-Loève (KLT) ou analise discriminante linear (LDA), que são conhecidos na arte. Transformações adicionais, nomeadamente também transformações não-lineares, podem também ser utilizadas para o processamento de recurso. O gerador de classe serve para combinar os vetores de características transformadas em classes. Estas classes correspondem a uma representação compacta do sinal associado. Finalmente, o classificador 64, serve para associar um vector característico produzido com uma classe pré-definida e / ou um sinal pré-definido.

Fig. 1 mostra esquematicamente um aparelho para a. produção de uma. impressão digital de um sinal de áudio, tal como podem, estar presentes, por exemplo, no bloco 58 da FIG. 5. Para produzir uma- impressão digital de um sinal de áudio, é feito uso da informação definindo uma pluralidade de impressão digital Modi pré-determinada, esta informação relativa a modi modus impressão digital mutuamente compatíveis sendo armazenado por meio de meios 10. A impressão digital modi definida pela informação armazenada no modus meios 10, está relacionada com o mesmo tion de impressão digital, no entanto a impressão digital Modi proporcionando diferentes impressões digitais, por um lado, com vista ao seu volume de dados, e, por outro, tendo em vista 0V-" torça caractenzante para identificar o sinal de áudio em si p acordo com a. invenção, as impressões digitais modi _og- predeterminadas de tal modo que uma. impressão digital de acoru com uma impressão digital modus com uma primeira resistem-^- caracterí zante é convertível numa impressão digitai de aco^v com uma impressão digital modus com uma segundai resist§^.^7^ caracterí zante sem usar o sinal de áudio. Convertibilidade.""*'^' partir da impressão digital é preferida, tendo maior resistê^ t caracterí zante para a impressão digital de menor f ^ caractenzante. Dependendo do tipo particular de aplicacã^· i Γ^α v , 0 no 9 entanto, também possível para assegurar alta compatibilidade, por exemplo, por interpolação, etc. 0 aparelho da invenção inclui ainda meros 12 para a fixação de uma impressão digital modus da pluralidade de impressão digital pré-determinada modi. Meios 14 para calcular a impressão digital de acordo com a impressão digital alimentado por meios 12, uma impressão digital de um sinal de áudio definido através de uma entrada 16 é finalmente computada e largada numa saída 18. Meios 14 para. calcular a impressão digital de acordo com o conjunto de impressão digital modus por meio 12 está. ligado a meios de armazenagem. 10, de modo a aplicar as especificações de computação respetivas dependendo da impressão digitai modus.

Meios 14 para calcular a impressão digital de acordo com o conjunto impressão digital modus será tratado abaixo com mais detalhe. Verificou-se que a tonalidade de um sinal de áudio é bem adequada como uma característica a qual é robusta, por um lado, e facilmente expa.nsi.vel, por outro. Vários métodos podem ser utilizados para calcular a medida de tonalidade de uma peça. Um sinal de tempo para ser caracterizado pode ser convertido no domínio espectral utilizando meios, de modo a produzir um bloco de coeficientes espectrais de um bioco de amostras relacionados com o tempo. Como será expiícaao abaixo, um valor especifico de tonalidade pode ser determin^ao para cada coeficiente espectral e / ou para cada componen espectral, de modo a classificar, por exemplo por meio de^L determinação sim / não, se ou não um componente especLr_^j.eq tonal. Utilizando os valores de tonalidade para os comp°^*®^tes espectrais, a energia e / ou alimentação dos comp'-'1^’ de espectrais, é possível calcular a medida para o sj-110' tonalidade numa multiplicidade de maneiras diferentes. 1 -Λ }') ^ ^ f

Deviao ao facto de uma medida quantitativa de tonalidade .. oriças e sambem possível para indicar as distâncias e / ou ve] entre dois pedaços de tonalidade indexados, sendo P^j, de classificar peças como semelha.nt.es, se as suas me d-V‘ um tonctiidciae diferem apenas por uma diferença menor cio ser

limiar ^ predeterminado, ao passo que outras peças Ρ°α3^ ,jP classificadas como náo semelhantes se os seus índi^jj^.

Loiiaj-iaaae arierem por uma diferença maior do que um 11^^ -^

Steiaej-hança. Além da. diferença entre duas medidas de tonal^ & quantidades adicionais podem ser utilizadas para determi^- a distancia entre dois pedaços de tonalidade, tais C°^U da quantidade da diferença entre dois valores, o quadra^© ^ diferença, o quociente entre duas medidas de tonalidade J^cia b COrrelaçao entre duas medidas de tonalidade, a d^'·' ^ n_ métrica entre duas medidas de tonalidade, que são vetor©-α .1 me n s i o n a i s, e t c , 10

Deve salientar-se que o sinal necessariamente de ser ura sinal também ser, por exemplo, um numa sequência de palavras de código partir de quantia de valores espectrais. ser caracterizado não tempo, mas que pode mesmo °fna ^3 codificado que consiste de Huffman P r o duzido s a nem

Os valores quantificados espectrais foram dos valores originais espectrais por “leio de quantizacão, a quantificação deve ter sido seieccionada de tal modo que o ruido de quantização introduzido peia quantizaçao é inferior ao lindar de mascaramento psico-acústico. Era tal caso, o fluxo de dados codificado MP3 pode ser usado directamente para calcular os valores espectrais, por exemplo por meio de um c!escodifrcador de MP3. Não e necessário para uma conversão para o dorainio do tempo e, em seguida outra conversão para o domínio esoeotral, realizar a determinação da tonalidade, mas os valores espectrais calculados dentro do descoditicador MP3 podem ser imediatamente a to,,«aridade por componente espectral a.^eitral medido) Portanto, se os são uiirisadQg para determinar a u ser caracterizado é uma corrente de concebidos produzidos a partir utilizados para calcular ou a SFM (nivelamento c o mponentes espectrais tonalidade, e se o sinal dados MP3, meios 40 são entanto sem. o inverso filtro-banco. como um descoditicador, no A medida para o nivelamento espectral da equaçào seguinte. (SFM) é calculado por meio iV-l Π-νυ SFM = n=0 1 N-1νΣ*οο

Nto

Mesta equação X (n) representa o quadrado do valor absoluto de um componente espectral com o índice n, enquanto que N representa o numero total de coeficientes espectrais cie um espectro. Pode ser visto a partir da equação que a SFM é iqual ao quociente entre a. média, geométrica dos componentes espectrais e a média aritmética dos componentes espectrais. Como é sabido, a média geométrica é sempre menor do que ou, no máximo, o mesmo que a média aritmética, de modo que a SFM tem uma gama de valor©3 entre U e i. Neste contexto, um valor próximo cie 0 indica um sinal tonal, e um valor próximo de 1 indica um sinal em v©z ae ruído como ter uma curva plana espectral. Deve salientar-se que a média aritmética e a média geométrica são iguais apenas se todos X (n) são idênticos, o que corresponde a um completo atonal, i.e. como ruído ou pulsação. No entanto, se, 11 num caso extremo, apenas uma componente espectral tem um valor muito elevado, enquanto que outros componentes espectrais x (n) têm valores muito pequenos, a SFM terá um valor próximo de 0, o que indica um sinal muito tonai. A SFM tem sido descrita em "Codificação Digitai de onda de formas", Englewood Cliffs, N.J, Prentice-Hall, N. Jayant, P. Noll, 1384, e foi inicialmente definida como uma medida para o ganho de codificação para ser maximamente obtida a partir de uma redução de redundância, A medida, tonalidade pode ser, em seguida, pré-determinada a partir do SFM.

Uma outra possibilidade de determinar a tonalidade dos valores espectrais é determinar os picos no espectro de densidade de potência do sinal de áudio, tal como é descrito em MPEG 1-áudio ISO / IEC 11172-3, Anexo Dl "Modelo psico-acústico 1". Aqui, o nível de um componente espectral é determinado. Subsequentemente, os níveis de dois componentes espectrais em torno do componente de um espectral são determinados. O componente espectral será classificado como tonal se o nível do componente espectral excede um nível de um componente circundante espectral por um factor predeterminado. Na arte, o limiar pré-determinado é considerado como 7 dB, sendo possível, no entanto, utilizar* quaisquer outros limiares predeterminados na presente invenção. Assim, ele pode ser indicado para cada componente espectral seja este roanl ou nex·.

Uma outra possibilidade de determinar a tonalidade de um componente espectrar β o de avala previsibi-^i^icx-w relacionada com o tempo do componente espectral. Aqui, a referência' será novamente feita para MPEG-1 áudio ISO / IEC linVrVexo D2 "Modelo Psico-acústico 2". Geralmente, um bloco de corrente de amostras do sinal a ser caracterizado é convertido para uma apresentação espectral bloco corrente de componentes para se obter um jxnco -orr-nte ue ........ espectrais. Subsequentemente, os componentes" espectrais do actual bloco de componentes espectrais são previstos usando a informação a partir de amostras ao sinal a se- -ara-t^rizadas que precedem o atual bloco, ou seja, usando ai Afirmado' do passado. Em seguida, um erro de predição é determinado a partir do qual uma medida o* tonalidade pode enra-, ser derivada.

Urpa r-, visibilidade de determinar a tonalidade tem sido det-m. VVatente Americana No. 5.918.203. Mais uma vez, é feit7de uma apresentação de valores reais positivos do . a ser caracterizado · Esra apresentação poce ? n^x. Q° eSPI 1 oi'eQ as praças de valores absolutos, etc. dos 03 !^rit-raís. Em uma forma de realização, os valores ~°ml°ne!lLe· ^Í’s * valores absolutos dos componentes espectrais ou dddc.rdo.Ov i i caaritmicamente co;nprinudos e, em seguiaa, ;“ΧΤ"ΐΤ»Λ um íiltro com. uma caracteiística de diferínciacão de modo a obter um bioco ae componentes especXdX filtrados"de uma forma de diferenciação. 12 cm Lr a forraa de realização, os valores cios espectros componenLes são micialmenie filtrados utilizando um filtro com uirid. caracterrstica de dxterenciaçáo para se obter um numerador, e, em seguida, filtrado utilizando um filtro com uma. caracteristica da integração para se obter um denominador. 0 quociente de um valor, filtrado de um modo diferencial, de um componente especrral, e o valor, filtrou-se numa forma cie integração, cio mesmo componente espectral, em seguida, produz o valor de tonalidade para estes componentes espectrais.

Por meio destes dois procedimentos, variações lentas entre os valores adjacentes de componentes espectrais são suprimidas, enquanto que as alterações abruptas entre valores adjacentes de componentes espectrais no espectro são exemplificadas. Mudanças lentas entre valores adjacentes de componentes espectrais indicam componentes de sinal atonais, ao passo que mudanças abruptas indicam os componentes de sinal de tom. Os componentes espectrais logaritmicamente compactados e diferencialmente filtrados e / ou os quocientes podem então ser novamente utilizados para calcular uma medida de tonalidade contemplada para o espectro.

Mesmo que tenha sido dito acima que um valor de tonalidade calculado por componente espectral, é preferido, com vista a baixa despesa de computação, para adicionar, por exemplo, os quadrados dos valores absolutos de dois componentes espectrais adjacentes em cada caso e, em seguida para calcular um valor de tonalidade para cada resultado da adição, por meio de um dos métodos mencionados. Cada tipo de agrupamento aditivo dos quadraaos dos valores absolutos e / ou valores de coirvoonentes espectrais pode ser utilizado para. calcular os valores de tonalidade para mais do que um componente espectral.

Uma outra componente espectral espectrais frequência que contém comparado com o valor médio de, por exemplo, os quadrados dos valores absolutos dos componentes espectraJ ser selecionado como requerido. Uma possibilidade, possibilidade de determinar a tonalidade de um espectral é comparar o nível de um componente para um valor médio de níveis de componentes numa banda de frequência. A largura da ha^da de que contém o componente espectral cujo „íypi £ por exemplo, os valores* ou -is, pode -, exemplo, °u poderia p S .1. c O - Q C£ s f. ^ c Q 3 „ isto é como a míiuência de retrocessos de curto energia no espectro pode ser reduzida. e a escoiha aa banaa para ser estreita. AI terna ti te a banda pode também ser seleccionado para ser ampla, ser seleccionados tendo em. vista a critérios

Prazo cie

Mesmo que acima da tonalidade determinada por meio dos seus também ter lugar no domínio amostras do sinal de áudio, sinal pode ser realizada para de um sinal de áudio tenha «ido componentes espectrais, es“~ " Aq do tempo, isto é, "as r/a.-t. a este fim, a análjg^ i ue qo estimar um ganho de Predirão 'para 13 o sinal. Ο ganho de predição é inversamente proporcional à SFM e e portanto uma medida da tonalidade do sinal de áuaio.

Numa forma de realização preferida da presente invenção,, não ó apenas um valor a curto prazo por espectro que é indicado, mas a medida de tonalidade é um vetor multi-dimensional de valores cie tonalidade. Por exemplo, o espectro de curta duração pode ser subdividido em quatro áreas sobrepostas e de preferência nâo mutuarnente adjacentes e / ou bandas de frequência, um valor de tonalidade sendo determinado para cada banda de frequência. Isto significa que um vetor de tonalidade 4-dimensional é obtido para um espect.ro de curto prazo do sinai a. ser cara coe ri zado. A fim. de permitir uma melhor caracterização, seria ainda preferido para processar, por exemplo, quatro espectros sucessivos de curto prazo, como descrito a.cima, de modo que, é proo.uzio.a. uma total tonalidade medida, que é um vector de 16-dimensional oq geraimente uma nx m-vetor dimensional, n representa o número 0¾ componentes de tonalidade por quadro ou um bloco de amostras, enquanto que m representa o número de blocos e / ou espectros cie curto prazo contemplado. A ronalidade medida seria, então, urn vetor de 16-dimensional, como roi estabelecido. A íim de acomodar melhor tal forma de onaa do sinal a ser caractenzado, além disso é preferido para computar, por exemplo 16-dimensional, vários vectores e, em seguida, processá-los estatisticamente, de modo a. calcular, por exemplo, variância, valor médio, ou momentos centrais o.e uma orcem mais elevada de todos os vetores de tonalidaae nx m-dimensionais de uma peça que tem um comprimento predeterminado de modo a assim indexar este pedaço.

De um modo geral, a tonalidade pode assim ser calculada a partir de peças de todo o espectro. Por conseguinte, é possível determinar a tonalidade / ruído-semelhança de um sub~espect.ro ou de vários sub-espectros e, assim, alcançar uma caracterização mais refinada do espectro e, 'portanto, do sinal de áudio.

Além disso, a curto prazo estatísticas dos valores de tonalidade, tais como, por exemplo, meios valor, e momentos de variância e centrais de elevada, ordem, podem ser calculados como medida cie tonalidade. Estes são determinados por meio de estatísticas técnicas utilizando uma sequência de tempo de valores de tonalidade e / ou vetores de tonalidade e, portanto, proporcionar uma essência durante uma longo porção de peça.

Acima disso, também é possível utilizar as diferenças entre vetores de tonalidades sucessivas no tempo ou valores cie tonalidade linearmente filtradas, sendo possível utilizar, por exemplo, filtros IIR ou filtros FIR como filtros lineares.

Ao calcular a SFM é também preferido, por razões de economia de tempo cie computação, para .adicionar ou em média, e.g. cio.is quadra cios dos valores absolutos mutuarnente adjacentes em. termos de frequência, e para executar o cálculo SFM na base desta 14 apresentação positiva e de valores reais especuruiS ora^nár^os, Além disso, isto leva a unia robustez crescente para a queda Qe frequências banda estreita e ura menor gasto oe computarão. Mais uma vez, com referência a fig. i, meios^ 12 para aefinir urna impressão digital do modus impressão d.icf.ii_al pré-deteiminaQo modi será tratada adiante com mais aetalnes. Ao o meios 12 fox-Ihe apontada a tarefa de escoiher, a pcLrtir oa pluralidade ae pré impressão digital Modi, e aerrnrr que impresbao dxgxucil modus é mais adequada para uma deteiminada aplxcaçao. ά cbudua p o de s e r r e a 11 z a d a qu e r e mp -1 r i c dIÍj. i t e ou automaticamente por meio de ooerações de verificação-correspondente especificadas. Em tais operações de verificação-correspondente, por exemplo, vários sinais de áudio conhecidos são transiormados de acordo com impressão digital modi diferente para produzir diferentes impressões digitais que exibem resistência a caracterização. Subsequentemente, uma amostra de correspondência de operação é realizada em um banco de dados usando estas impressões digitais diferentes, todas as quais, no entanto, representam o mesmo tipo saber, por exemplo a tonalidade e / ou de imoressão digital, a . . dade do sinal de áudio. Por meio de um saldas de erro para as impressões uma medida de tonalK limite especificado de , ... . nma das impressões digitais predeterminada satisfaz um critério de limiar, pode digitais individuais, Modi, por exemplo, que então ser selecionada.· meios 12 podem seleccionar a impressão ,. . - uma impressão digital que, no entanto, digitai modus que forne.'-'·- : . . . . , , ae sex transmitida encraves ae uma canoa so oode apenas ser cap^ _ .... , . f . ,r1 r-rni ssao, por exenipio, devi ao ao seu volume nmitaaa canai ae uran—IL- Λ , .,·· „ . , , , podem xaze-io de xorma mdepenaente dos por exemplo, dependendo de um canal de da ocupação do canal e / ou da Jp sponívei, quer uma impressão digital modus cia caracter izante, ou, se o canal está 1 imitada, em grande medida, uma impressão força caracteri zante relativamente baixa

Alternativamente, os de dados, e meios 12 valores de limiar, maSç transmissão. Dependendo capacidade de canal tendo elevada resistên ocupado ou de banda digital modus tendo P o de ser de f1nida. caso em que a impressão digital não é para deve ser armazenada. Deoendendo dos O mesmo se aplica ao ser transmitida, ma- , . . Ai cponi«e±b, uma impressão digital modus que recursos de memória .....4...... é memória intensa e, -i tnoauc >íuc e uma impressão digital ·resistência relativamente baixa definida por meio de _______de Fig. 2 mostra um invenção para a car aparelho inclui meios . , .. , ‘ . , · xmpret>o^° digitar pre-d.er.ermin.ada. Estes busca, num aos moai ·" £ meios são denotados Pe são, de preferênda oortanto, tem força caracterizante alta, ou economia de memória, mas c a r a. c t e r i z a n te, p o de diagtama de blocos de um dispositivo -acter*zaçao de um. sinal de áudio, um para produzir uma impressão digital alo numero de referência. 20 implementados como foi na. fig. descrito tem ser da tal de e em 15 conjugação com a fig. 1. O dispositivo para a caracterização de um sinal de áudio inclui ainda uma base de dados 22, em que as impressões digitais de dados são armazenados, que também têm sido calculados em um dos Modi impressão digital predeterminados . 0 dispositivo mostrado na fig. 2 inclui ainda meios 24 para a comparação da impressão digital de busca, que foi produzido por meio 20, com as impressões digitais de base de dados. Inicialmente, e estabelecida em meios 24a se a impressão digital de busca e a impressão digital, de dados a ser comparados com o anterior têm a mesma força caracterizante, isto é, têm. sido produzidos pela mesma impressão diçitcLl moeras, ou se a impressão digitai de pesquisa foi produzida em conformidade com uma impressão digitai modus diferente daquela da impressão digital base de dados. Se se verificar que uma das impressões digitais tem maior resistência caracterizante que a outra, uma. conversão é realizada em meios 24b, de tal forma que após a conversão, tanto de impressão digital de busca e da impressão digitai de dados tem a mesma força caracterizante, isto é, são comparáveis ou existem em conformidade com a mesma impressão digital modus. Não é até esta condição ser cumprida que os meios 24c realizam uma comparação das duas impressões digitais. Tal comparação irá então possivelmente obter-se, como uma saída 2 6, que o sinal de áudio representado pela impressão digital de busca corresponde ao sinal de áudio representado pelcL impressão digital corrente de dados. Alternativamente, a saída 26 pode também existir estabelecendo uma semelhança tendo uma certa probabilidade, isto é, uma medida de semelhança.

De preferência, meios 24a estão dispostos para descobrir que impressão digital tem maior força caracterizante. Esta impressão digital é então reduzida para caracterizar a força, ou seja, para a impressão digital de funcionamento, da impressão digital tendo a menor resistência caracterizante das duas impressões digitais. Alternativamente, por exemplo, se desejado, por razões de uma pesquisa rápida, ambas as impressões digitais podem ser reduzidas para uma impressão digital modus provendo impressões digitais possuindo menor resistência do que a da. impressão digital de busca e da impressão digitai base de dados.

Dependendo da aplicação, pode também ser necessário dimensionar-se, por meio de interpolação, a impressão digital tendo uma força caracterizante baixa, esta alternativa, no entanto, proporcionando resultados úteis apenas se o tipo de impressões digitais permite interpolação.

Como já foi explicado, existem exigências contraditórias em especificar a impressão digital modus. Por um lado, há uma grande quantidade de interesse envolvida na obtenção de uma redução o.e dados que é tão completa quanto possível, isto é, para alcançar um tamanho de impressão digital pequeno para ser capaz de reter como impressões digitais de pesquisa quanto 16 possível na memória de um computador e para ser capaz de p r o c e s s a r p r o c e s sament o adi c iona1 ma i s e f i c i e nt e.

Por- outro lado, como o tamanho da impressão digital se torna menor, existe um risco crescente de que uma diferenciação correcta ia não possa ser feita entre as peças registadas na base de dados. Isto diz respeito particularmente a um banco de peças de áudio elevadas, que podem incluir, por exemplo, 500.000 títulos, e para aquelas aplicações em que as peças de áudio são expostas a distorções pronunciadas antes do processo de identificação, por exemplo, com uma transmissão acústica do sinal ou com uma peraa de compressão.

Claro, seria possível definir, por esta razão, os formatos de impressão digital mais compactos, que não são tão robustos, e formatos que não são tão compactos, mas que proporcionam propriedades correspondentemente melhor discriminatórias. No entanto, como foi estabelecido, isto requer que as bases de dados de impressão digital dispendiosa devem ser ajustadas várias vezes, i. e. uma vez em todos os formatos, e mantida em armazenamento, particularmente desde que uma descrição de um primeiro tipo de impressão digital não pode geralmente ser comparado com uma impressão digital de um tipo diferente.

Para eliminar estes problemas, o presente invento proporciona um. formato universal, de descrição escalável que proporciona, de uma maneira flexível, dependendo da aplicação, um compromisso variando entre a força caracterizando a compacidade e da impressão digital, sem que a comparabilidade das impressões digitais tenha sido perdida. Isto é de preferência conseguido por esca.labilida.de em duas dimensões, uma dimensão sendo a capacidade de expansão do número de bandas, e sendo a outra dimensão a capacidade de expansão no tempo. Geraimente, 3 capacidade de expansão do número de bandas baseia-se em UIt,s aissecção espectral do sinal de áudio, O domínio da frequência ao sinal de áudio, ou um subconjunto dos mesmos, por exemplo 250 a 4 &Hz, é dividido em bandas de frequência, em que as impressões digitais são calculadas com base nas características contempladas, por exemplo a medida de tonalidade. Devido 'á separação de frequências, existem itens de informação rnaependentes sobre a característica do sinal em cada uma das bandas. Todas as impressões digitais usam o mesmo paru acionamento banda, e de preferência, começam a. partir da mesma frequência inferior de corte. Uma impressão digital modus fornece uma impressão digital compacta com. menor força cuiacuerizante, no entanto, contém menos faixas e, portanto, uirm menor faixa de frequências do que uma impressão digital modus mais generosa, que, no entanto, é menos compacta. No entanto° ambos os tipos de descrição podem ser comparados de uma forma uLi1· Iias suas bandas de frequências comuns sem processamení'^ lenovaao do sinal de áudio. 17

Uma concretização preferida é a utilização de uma banda compartimentação que é pelo menos parcialmente logarítmica e inclina-se fortemente na escala de frequência e / ou a discriminação de frequência utilizada pelo ouvido humano para as frequências que não sejam muito baixas, por exemplo para as frequências mais elevadas do que 500 Hz. É preferível não utilizar o particionamento logarítmica acima mencionado, abaixo por exemplo de 500 Hz e por exemplo, de partição das bandas abaixo de 500 Hz, ter a mesma largura, como a parti-los em cinco bandas de 100 Hz cada. Essa divisão corresponde aproximadamente à escala Bark.

Um exemplo da escalabilidade no número de bandas será dado a seguir com referência â fig. 3a e 3b. Por razões de apresentação, um sinal de áudio é dividido em quatro sub-bandas 30a a 30d, como é mostrado na fig. 3a. Fig. 3b mostra representações digitais diferentes, como pode ser produzido por impressão digital modi diferente. Cada representação da impressão digital da fig. 3b contém uma porção identificadora de 31, indicando o número de sub-bandas parei a qual a informação digital está contida, ou seja, indicando o modus impressão digital em conformidade com o que a impressão digital em questão tenha sido produzida. Na impressão digital modus N. ° 4 fornece a representação da impressão digital de memória mais intensa, que é, no entanto, também a com a maior força caracterizante, uma vez que a representação da impressão digital contém informação de impressão digital (FPI), tanto para sub-banda 1 e para as outras três sub -bandas de 2 a 4. Na impressão digitai modus N.° 3, em contraste, fornece uma representação da impressão digital ligeiramente mais compacta, a qual, no entanto, já tem menor força caracteri zante, uma vez que os itens separados de informação de impressão digital estão contidos apenas durante as primeiras três sub-bandas. Na impressão digital modus N. ° 2 fornece uma representação relativamente compactei, a qual, no entanto, tem ainds menor força caracterizante, uma vez que a informação de impressão digitai esta contida apenas 'para as duas mais baixas sub-bandas. Na impressão digital modus N.° l, em contraste, fornece uma representação da impressão digital muito compacta, a qual, no entanto, tem a xorça, peio menos caracterizante, uma vez que a inrormaçao oe impressão digital única mais baixa- da sub—banda 30a esta contida. A função de blocos 2*íd. da figura 2, is to é, a conversão de impressão digital- oe uma. i. mores sãu O-ig.:. ta. i moous em outra impressão digital modus, seiá. tratada a. seguir com rexerência à fig. 3b. considera-se, quase a título de exemplo, que uma impressão digital de dados tenha sido produzida em conformidade com a impressão digital modus N. ° 4. A base de dados contém assim as impressões digitais que têm uma elevada resistência à caracterização. Uma impressão digital de busca tenha sido produzida, por exemplo, em conformidade com o modus Mo. 2 de impressão" digital - Uma vez que meios 24a da fig. 2 estabeleceu, por exemplo por meio do identificador de impressão digital 31 da 18 fig. 3b, que a impressão digital de busca e da impressão digital de dados têm sido produzidas em conformidade com diferentes impressões digitais Modi, a impressão digital tendo a maior resistência caracterizante, isto é, a impressão digital do banco de dados, é submetida a uma conversão. Na concretização mostrada na fig. 3b, a conversão consiste em que a informação de impressão digital da terceira sub-banda e as informações de impressão digital da quarta sub-banda da impressão digital de dados já não são tomadas em consideração, o que quer dizer que já não desempenham um papel na operação correspondente. Assim, a informação de impressão digital única da primeira sub-banda e de informação de impressão digital da segunda sub-banda. são comparadas umas com as outras. Alternativamente, a base de dados de impressões digitais que tenham sido produzidas em conformidade com o modus No. 4 de impressão digital, e as impressões digitais de pesquisa que tenham sido produzidas em conrormidaae com o modus No, 2 de impressão digital tanto poderia ser convertida em impressão digital modus No, 1, o que é vantajoso em particular se uma operação correspondente rápida, é desej ada. teve saxientar-se que não e crucial para a impressão digital do banco de aaaos ter maior resistência do que a caracterizante impressão digitai de disca. Por exemplo, se apenas um banco de dados mais antigo existe que tem menor força caracterizante, enquanto que as impressões digitais de busca são impressões digitais que tem maior resistência caracterizante, o processo pocie ser invertido, de tal modo que as impressões digitais de busca são convertidas para uma forma que tem menor força caracteri zante, mas é rnais compacta, e que a operação correspondente é realizada posteriormente.

Mesmo que na fig. 3A, as sub-bandas 1 a 4 (30a a 30b) têm sido desenhadas de formei não-sobreposta, deve ser salientado que mesmo um pouco de sobreposição das sub-bandas conduz a um aumento da robustez das alterações no campo. Para aumentar a robustez da representação para mudanças cie sinal que envolvam uma mudança no passo de sinal, por exemplo uma taxa de conversão da amostra ou uma mudança no passo de um sinal que é reproduzido um pouco mais rápido ou mais lento, uma certa sobreposição da banda é preferida. No caso de uma mudança de passo, há o problema de que porções do sinal que se encontram numa banda de frequência determinada Çn) para um sinal de moldes pode, sob certas circunstancias, vir a estar na faixa n-1 ou n +1 devido para a mudança de frequência, por: exemplo uma extensão ou a compressão do espectro, de modo que valores de caracteristicas claramente diferentes surgem e a taxa cie reconhecimento cai em conformidade. Na forma de realização preferida da presente invenção, este efeito é aliviada pelo facto de que existe uma gama de frequência entre as bandas adjacentes, por exemplo usando ura número de linhas em bandas de DFT ambas as frequências. A titulo indicativo, uma sobreposição dos intervalos de frequência de, por exempio 10% é preferido, sendo 19 possível para seieccionar disse se sobrepõem para ser maior as extensões mais pronunciadas ou compressões do espectro sa0 p ar a s e r e spe r adas.

Uma outra dimensão da escalabilidade é fornecida pelo tempo. &0 utiliza.r o valor médio e o desvio para a combinação de um número n de valores de características individuais, a grsnulsridade cie tempo relacionada de uma impressão digital pode ser definida. ^ aescrição compacta seleciona um valor maior para n e, portante;, uma maior escala combinação relacionada ao tempo do que uma descrição mais generosa, mas menos compacta. Para ilustrar isto, Figuras 4a. e 4b serão explicadas em mais detalhe abaixo. Fig. 4a mostra bloco-conhecido processamento de um sinal de áudio u (t) ao longo cio tempo t, quatro biocos 40a a 40d sucessivos em tempo sendo representados por uma questão de clareza. Todos os blocos 40a a 40d para terem o mesmo comprimento, ou sela, o mesmo número de amostras, A impressão digital modus N.° 3 irá fornecer uma. representação tendo uma. elevada resistência à caracterização, uma vez que para cada bloco 1 para bloquear 4, a informação de impressão digital especifica é calculada e guardada. Em contraste, modus M.° 2 cie impressão digitai já fornece uma representação da impressão digital, eme tem menor força, caracterízando mas é mais compacto em termos de memória, uma vez que a informação de impressão digital é sempre formada a partir de dois sucessivos blocos, isto é, a partir do bloco 1 e 2, por um lado e, a partir do bloco 3 e o bloco 4, por outro lado. A representação da impressão digital que é mais favorável em termos de iriemória, mas temi a menor resistência caracterizante é finalmente fornecida por modus N.° l de impressão digital, que inclui informação de impressão digital de todos os blocos 1 a 4.

Se a inrormação Ge impressão digital que tenham sido produzidas em conformidade com modus N.° 3 de impressão digital são armazenados em uma base de dados, e se a impressão digital de pesquisa foi produzida em conformidade com o modus N.° 2 da impressão digital, a base de dados de impressão digital é convertida de tal moao que os dois primeiros biocos são combinados e são, então, em comparação com a primeira impressão digital informação da impressão digital de busca, este procedimento sendo repetiao para blocos subsequentes 3 e 4.

Neste ponto, também seria possível, de novo, para converter a impressão digitar ao banco de dados e da impressão digitai de busca para uma. representação da impressão digital de acordo com a impressão digital modus No. l.

Em aplicações reais, é preferível combinar a informação cie impressão digital de n Piocos de tal forma que a representação da impressão digital contém o valor médio / ou a variância da intormaçao de impressão digital dos blocos individuais. O valor médio e a. variância sao aeiirxidos como se segue: 20 η-1 Ο valor meoio:

Mn(F) = l/η-Σπ /=0

Vanaça η-1 /=0 w-1

Un-J^F2 /=0 -Af„ (O2

Em ambas as equações acima, n é um índice que indica o número de blocos ou etc, bandas que combinam um certo número de itens de informação Fi impressão digital para formar o valor médio Mn de mesmo. Na definição acima de variância deve salientar-se que ^ variância de um bloco e / ou banda que não é útil igual a zero

Com referência à fio, 4b, a informação de impressão digital do bloco 1 da representação da impressão digital de ter sido produzido pelo modus N.c 3 de impressão digital irá incluir o valor médio e / ou a variância das características de áudio. O mesmo se aplica às informações de impressão digital para o bloco 2 da representação de impressões digitais que tenham sido produzidas por impressão digital modus N. ° 3, Para converter ambos os itens de impressão digital em informação para o bloco 1 e do bloco 2 da representação da impressão digital em contormiaaae com: o modus N. ° 3 de impressão digital a informação de impressão digital da representação da impressão digital que tenha sido produzida em conformidade com o modus N. ° 2 da impressão digital, como é representado pela linha 42, a representação da impressão digital da informação da impressão digital ae acordo com o modus N,° 3 de impressão digital deve ser convertido como se segue: O valor médio: M2n (F) = 0.5 · \_M n (F) + M'n (F)]

Variação:

V2„ (F) = 0.5 · [vn (F) + V\ (F) + 0.5 · (M„ (F) + M\ (F))2 J

Os valores médios e variâncias podem ser comparados uns com os outros se a granularidade relacionada ao tempo de uma representação de impressão digital é um número inteiro múltiplo aa granuraridade das outras representações digitais. As equações acima Av-ply a uin fat0r de exemplo de 2. Na equação, a Nn e Vn variáveis representam os valores correspondentes do valor médio e / ou da variância para a informação de impressão digitai do bloco 1, em conformidade com o modus N.° 3 de impressão digital, enquanto que Mn >e yn< representam os valores do valor medio e / ou variancia para o bloco 2 da representação da impressão aigitai o.e acordo com. o número de impressões digitais modus 3 aa fig. 4b. No caso em. que a. variância é usada como informação ae impressão digital,, o valor médio deve também estar presente, por exemplo como informação de impressão digital adicionai, de moao a garantir escalabilidade, 21

Deve salientar-se que, por analogia, concomitantemente, a informação da impressão digital da representação da impressão digital de acordo com o modus N. ° 2 de impressão digital podem ser combinadas de modo a ser comparável com a informação de impressão digital de acordo com a impressão digital modus N.° 1.

Assim, as representações digitais de granularidade de tempo relacionadas com vários, ou seja, de acordo com diferentes Modi digitais, podem ser comparadas, por exemplo convertendo a representação mais refinada numa mais ordinária. A representação digitai inventiva pode ser definida, por exemplo, como uma série chamada escalável, como foi descrito no parágrafo 4.2 do documento ISO / IEC JTC 1/SC 2 9/WG11 (MPEG), a tecnologia da informação - interface de descrição de conteúdos muitimédia - parte 4: Áudio de 27.10.2000.

Lisboa, 15 de Maio de 2012. 22

Claims

REIVINDICAÇÕES 1 · Método para a produção de uma impressão digitai de um sinal de áudio utilizando a informação modus (10) que define uma pluralidade de pré-determinada digital Modi, toda a digital modi respeitante ao mesmo tipo de impressões digitais, o modi de impressão digital, no entanto, proporcionando diferentes impressões digitais escaláveis no eme diz respeito ao tempo e / ou a frequência diferentes uma da outra no que diz respeito ao seu voiume de dados, por um lado, e à sua força caracterizante para caracterizar o sinal de áudio, por outro lado, a impressão digital modi diferindo entre sp na medida ern que incluem separados informação digitai para um número diferente de sub-bandas, ou a impressão digitai escalável compreendendo informação relativa a um número de blocos de temporais, dependendo da modus digital, compreendendo o método: configuração (12) uma impressão digital predeterminado modus da pluralidade de pré-determinado digital modi; e computação (14) uma impressão digital escalável de acordo com o conjunto impressão digitai pré-determinada pela regulamentação aplicavei modus informação de computação, de acordo com as informações para a impressão digital modus.
2. Métoao como reivindicado na reivindicação 1, em que a .impressão digital de acordo com a impressão digital modus tendo maior resistência caracterizante é convertida para uma impressão digitai de acordo com uma impressão digital modus tendo menor força caracterizante.
3. Método como reivindicado na reivindicação 1 ou 2, que compreende ainda; transferir ou armazenar a impressão digital produzido através de um canai de transmissão tendo uma capacidade de transmissão limitada ou um meio de armazenamento com uma capacidade de a r maz e name nto limi t ada, re s pec t i vame nte, em que no passo de ajuste (12) de uma. impressão digital modus, a impressão digitai predeterminada modus é definida dependendo do canai ae transmissão ou da capacidade de armazenamento, r e spe c t i v ame n t e. a, Métoao como reivinaicaao em qualquer uma das reivindicações anteriores, em que o tipo de impressão digital se relaciona com as propriedades de tonalidade de*sinal de áudio. 1 b. Método como reivindicado em qualquer uma das reivindicações anteriores, em que o sinal de áudio pode ser subdividido em um número pré-determinado de bandas de frequência pré-definidas (30a a 30d), em que cada impressão digital modus inclui a produção de informações de impressão digital por banda de frequencra pré-definida, a impressão digital modi diferindo no que diz respeito ao número de itens de informação de impressão aigítai, de modo que uma primeira impressão digital modus inclui, uma impressão digital, separada para cada banda de frequência, um primeiro número de itens de informação de impressão digital para um primeiro número de bandas de frequência, e uma segunda impressão digital modus inclui, como impressão digital, separada para cada banda de frequência, um segundo número de elementos de informação de impressão digital para um. segundo número de bandas de frequência , o primeiro número diferindo do segundo número, e as bandas de frequência pre-definiaas, sendo as mesmo para. todas impressões digitais de modi . na reivindicação 5, em que a nas bandas de frequência pré-menos parcialmente, bandas
6. Método como reivindicado subdivisão do sinal de áudio definidas compreende, pelo logarítmicas partição,
7. Método como reivindicado na reivindicação 5 ou 6, em que cluas bandas de trequência mutuamente adjacentes em termos de frequencra têm uma área de sobreposição, os componentes espectrais na zona acima pertencem a ambas as bandas de f r e qu ê n c i a a d j a c e n t e s .
8. Metoao como reivindicado em qualquer uma das reivindicações b a 7, em que a banda de frequência, incluindo a frequência mais baixa está contida em todas as modi de impressão digital, a impressão digital modi diterindo no número de frequências mais elevadas das ioancias ae trequência subsequentes. y. Método como reivindicado em qualquer uma das reivindicações j. a 8, em que o sinal de áudio pode ser subdividido em blocos (40a a 40d) sucessivos em tempo e tendo um. comprimento pré-determinado, em que na produção de uma informação de impressão digital, informação de impressão digital por bloco é determinada, a impressão digitai modi diferindo no número de blocos representados pela informação de impressão digital, e o comprimento dos blocos sendo o mesmo para todas as impressão digital modi.
10. Método como reivindicado na reivindicação 9, em eme uma primeira impressão digital modus inclui o valor médio e / ou a variedade de um primeiro número pré-definido de blocos como impressão digitar, informações e urna segunda impressão digital modus inclui o valor médio e o / ou a variância de um segundo número pré-definido de blocos, a razão do primeiro número 2 predefinido para o segundo número predefinido sendo uma integral.
11. Método de caracterização de um sinal de áudio, compreendendo: produzindo uma impressão digital do sinal de áudio utilizando modus informação (10) definindo uma pluralidade de impressão digital pré-determinado Modr, toda a impressão digital modi respeitante ao mesmo tipo de impressões digitais, o modi impressão digital, no entanto, proporcionando diferentes impressões digitais escaláveis no que diz respeito ao tempo e / ou à frequência diferenciando um cio outro no que diz respeito ao seu volume de dados, por um lado, e à sua força caracterizante para caracterizar o sinal de áudio, por outro lado, a impressão digital modi diferindo umas das outras em que incluem informação digital separada para um número diferente de sub-bandas, ou a impressão digital escalável compreendendo informações de impressão digital para um número de blocos temporais, dependendo da impressão digital modus, compreendendo: configuração (12) uma impressão digital predeterminada modus da pluralidade de impressão digital pré-determinada modi; e computação (14) uma impressão digital escalável em conformidade com o conjunto pré-determinado de impressão digital modus aplicando regulamentos de computação, de acordo com as informações para o conjunto de impressão digital modus; comparando (24) a impressão digital computadorizada com uma pluralidade de impressões digitais armazenadas representando sinais de áudio conhecidos para caracterizar o sinal de áudio, as impressões digitais armazenadas tendo sido produzidas em conformidade com uma pluralidade de impressões digitais modi, o passo de comparação (24) compreendendo: examinando (24a) se a digital de busca e da impressão digital de dados ter sido produzidas em conformidade com a i f e r e ntes digi t a1 modr; convertendo (24b) em que a impressão digital de busca e / ou a impressão digital do banco de dados de modo que as impressões di.gr tais para ser comparadas existem em conformidade com a mesma impressão digital modus; e realizando (24c) na comparação com as impressões digitais existentes na mesma, impressão digital modus. 3 i2. Método como reivindicado na reivindicação 11, em que cada uma aas impressões digitais modus inclui a produção de impressão digitai em formação por banda de frequência pré-definida, a impressão digital moai diferente no que Giz respeito ao número de itens de informação impressão digital, de modo que um primeiro modus impressão digital inclui, como impressão digital, separadamente para cada banda de frequência, um primeiro número de itens de informação impressão digital para um primeiro número de bandas de frequência, e um segundo modus impressão digital inclui, como uma impressão digital, separadamente para. cada banda de frequência, um segundo número de itens de informação impressão digitai para. um segundo número de bandas de frequência, o primeiro número diferindo o segundo número, em que o passo de conversão de (24b) compreende supressão de informação impressão digital para sub-bandas. ,;.3. MéLoao como reivindicado na reivindicação 11, em que o sinal de áudio pode ser subdividido em blocos (40a a 40c) sucessivos em tempo e tendo um comprimento pré-determinado, em que na produção de uma informação de impressão digital, a impressão digital por bloco é determinada, a impressão digital moo.i diferindo no numero de tlocos representados pela informação ae impressão digital, e o comprimento dos blocos, sendo o mesmo par. ci ι,ο das as impressões digitais Modi, em que o passo de conversão de i24b) compreende o passo de combinar a informação 0-0 impressão digital de blocos de sucessivios no tempo. 14 * Método como reivindicado na reivindicação 13, em que a mformaçao digitai inclui ·αΓ|~. valor médio e / ou uma variância, e em que uma proporção inteira existe entre os blocos comomados na. impressão digitai, de busca e os blocos combinados, na impressão digital base de dados. i5. representação da impressão digi^ai de um sinal de áudio, conpreendeno: uma impre»sao digitai escaiavei no que diz respeito ao tempo e / ou frequência, a impressão digital a ser configurada, de acordo com uma plur<*liaade de informação pré-determinada de impressão digitai Moai, toda a impressão digitai modi respeitante ao mesmo tipo ae impressões digitais, q ^odi de impressão digital, no entanto, proporcionando i^P^essões digitais diferentes sacdiaveib no que aiz respei to ao tempo e / ou a. f requência diferentes um ao outro no que diz respeito ao seu volume de aaaos, por um. íaao, e à sua, força caracterizante para caracterizar o sinal de áudio, por outro, a impressão digital escaiavei compreendendo mformaçao cie impressão digital separada para sub-bandas separadas ao sinal de áudio, o modi impressão digitai direrent.es uns dos outros na medida em que incluem mformaçao digitai separada para um número diferente de sub-bandas, ou a impressão digital escalável compreendendo informações de impressão digital por um número cie blocos temporais, dependendo cia impressão digital modus; e 4 um indicador (31) indicando a impressão digital modus subjacente á impressão digital,
16. Aparelho cara nroduzir uma impressão digital de um sinal de áudio uti Ί dzando "a informação modus (10) que define uma pluralidade pré-determinada de impressão digital Modi, toda a impressão digital modi respeitante ao mesmo tipo de impressão digital, a impressão digital Modi, no entanto, proporcionando diferent-es impressões digitais escaláveis no que diz respeito ao tempo e / ou" frequência diferindo entre si no que diz respeito ao seu volume de dados, por um lado, e á sua força de caracterizante para caracterizar o sinal de áudio, por outro lado, a impressão digital modi diferindo uma da outra na medida em que incluem informação de impressão digitai separada para um numero diferente de sut—oancias, ou a impressa.o drgrtal escalavel compreendendo informação digital para um numero de blocos temporais, dependendo da impressão digital modus, o dispositivo compreende: meios para o ajuste (12) de uma impressão digital predeterminada modus da pluralidade pré-determinada da impressão digital modi; e meios de computação (14) uma impressão digitai escalável em ac-cordance com o conjunto pré-determinado impressão digital modus aplicando regulamentos de computação, de acordo com as informações para o conjunto impressão digital modus,
17. Aparelho para a caracterização de um sinal de áudio, compreendendo: meios para produzir uma impressão digital de busca do sinal de áudio utilizando a informação modus (10) definindo uma pluralidade pré-determinada de impressão digital Modi, toda a modi impressão digital respeitante ao mesmo tipo de impressão digital, a impressão digital Modi, no entanto, que fornece diferentes impressões digitais expansíveis em relação ao tempo e / ou frequência diferentes urna da. outra no que diz respeito ao seu volume de dados, por um iado, e à sua forçai caracterizante para caracterizar o sinal de áudio, por outro lado, a impressão digitar moai diferindo uma da outra na medida em eme incluem informação impressão digital separada para um número diferente, de sub-bandas, ou a impressão digital escalável compreendendo informação ae impressão aigital para um número de blocos temporais dependente na impressão digital modus, os meios que compreendem: meios para o anuste (12) a pré-impressão digital modus da pluralidade pré-determinada de impressão digital modi, e 5 meios para a computação (14) de uma impressão digital escaiávei em conformidade com o conjunto pré-determinado de impressão digital modus aplicando regulamentos de computação, de acordo com a informação modus para o conjunto de i.rnpressão d.igita 1 modus; meios para comparar a impressão digitar computadorizada com uma pluralidade de impressões digitais armazenadas representando sinais de áudio conhecidos para caracterizar o sinal de áudio, as impressões digitais armazenados tendo sido produzidas em conformidade com uma pluralidade de impressões digitais Modi, o meio compreendendo: meios para o exame (24a) a impressão digital busca e / ou a impressão digital banco de dados têm sido produzidas em conformidade com diferentes impressões digitais modi; meios para a conversão de (24b) a. impressão digital de busca e / ou a impressão digital do banco de dados de modo que as impressões digitais ao serem comparadas existem em conformidade com a mesma impressão digital modus; e meios para a realização de (24c), a comparação com as impressões digitais existentes na mesma impressão digital modus. Lisboa, 15 de Maio de 2012. 6 ANMERKUNG ZUR ENTSCHEIDUNG UBER DIE ERTEILUNG EINES EUROPÃISCHEN PATENTS (EPA Form 2006) 1. EPA Informationsbroschiire "Nationales Recht zum EPLI" Diese Brosohure enthãlt niltzliche Informationen zu den formalen Erfordernissen und den Handlungen, die vor den Patentbehõrden der Vertragsstaaten vorzunehmen sind, um Reohte in diesen Staaten zu erlangen. Da diese Handlungen einem stãndigen Wandel unterworfen sind, sollte immer nur die neueste Ausgabe der Brosohure benutzt werden. Naohtrãgliohe Informationen werden im Amtsblatt verõffentlicht. 2. Ubersetzung der europãischen Patentschrift nach Artikel 65 (1) des Europãischen Patentiibereinkommens Sie werden erneut darauf hingewiesen, dass bestimmte Vertragsstaaten nach Artikel 65 (1) EPÚ eine Ubersetzung der europãischen Patentschrift verlangen; hierauf wird in der Mitteilung gemãB Regei 71 (5) EPL) verwiesen. Die Nichteinreichung dieser Ubersetzung kann zur Folge haben, dass das Patent in dem betreffenden Staat/in den betreffenden Staaten ais von Anfang an nicht eingetreten gilt. Weitere Einzelheiten entnehmen Sie bitte der oben genannten Brosohure. 3. Zahlung von Jahresgebiihren fiir europãische Patente Nach Artikel 141 EPU kõnnen "nationale" Jahresgebuhren fur das europãische Patent fur die Jahre erhoben werden, die an das Jahr anschlieBen, in dem der Hinweis auf die Erteilung des europãischen Patents im "Europãischen Patentblatt" bekanntgemacht wird. Weitere Einzelheiten entnehmen Sie bitte der oben genannten Brosohure. NOTE RELATING TO THE DECISION TO GRANT A EUROPEAN PATENT (EPO Form 2006) 1. EPO Information Brochure "National law relating to the EPC" This brochure provides useful Information regarding formal requirements and the steps to be taken before the patent authorities of the Contraoting States in order to aoquire rights in those States. Since the necessary steps are subject to change the latest edition of the brochure should always be used. Subsequent Information is published In the Official Journal. 2. Translation of the European patent application under Article 65(1) of the European Patent Convention Your attention is again drawn to the requirements regarding translation of the European patent specification laid down by a number of Contraoting States under Article 65(1) EPC, to which reference is made in the communication under Rule 71(5) EPC. Failure to supply such translation(s) may result in the patent being deemed to be void "ab initio" in the State(s) in question. For further details you are recommended to consult the above-mentioned brochure. 3. Payment of renewal fees for European patents Under Article 141 EPC "national" renewal fees in respect of a European patent may be imposed for the years which follow that in which the mention of the grant of the European patent is published in the "European Patent Bulletin". For further details you are recommended to consult the above-mentioned brochure. REMARQUE RELATIVE A LA DECISION DE DELIVRANCE D'UN BREVET EUROPEEN (OEB Form 2006) 1. Brochure d'information de ΓΟΕΒ "Droit national relatif à la CBE" Cette brochure fournit d'utiles renseignements sur les conditions de forme requises et sur les actes à accomplir auprès des offices de brevet des Etats contractants aux fins d'obtenir des droits dans les Etats contractants. Etant donné que les actes indispensables sont susceptibles de modifications, il serait bon de toujours consulter la dernière édition de la brochure. Toute Information ultérieure est publiée au Journal Officiel. 2. Traduction du fascicule du brevet européen en vertu de Carticle 65(1) de la Convention sur le brevet européen Votre attention est de nouveau attirée sur Tobligation faite par certains Etats contractants, en vertu de Tarticle 65(1) CBE, da fournir une traduction du fascicule du brevet européen, à laquelle il est fait référence dans la notification établie conformément à la règle 71 (5) CBE. Si la(les) traduction(s) n'est(ne sont) pas fournie(s), le brevet européen peut, dès 1'origine, être réputé sans effet dans cet(ces) Etat(s). Pour plus de détails, nous vous renvoyons à la brochure susmentionnée. 3. Paiement des taxes annuelles pour le brevet européen Conformément à Tarticle 141 CBE des taxes annuelles "nationales" dues au titre du brevet européen peuvent être perçues pour les années suivant celle au cours de laquelle la mention de la délivrance du brevet européen est publiée au "Bulletin européen des brevets. Pour plus de détails, nous vous renvoyons à la brochure susmentionnée. 02747417.0 (13.01.12) EPA/EPO/OEB Form 2006R 12.07