MX2011000364A

MX2011000364A - Metodo y discriminador para clasificar distintos segmentos de una señal.

Info

Publication number: MX2011000364A
Application number: MX2011000364A
Authority: MX
Inventors: Juergen Herre; Jens Hirschfeld; Stefan Wabnik; Stefan Bayer; Nikolaus Rettelbach; Frederik Nagel; Guillaume Fuchs; Jeremie Lecomte; Yoshikazu Yokotani
Original assignee: Ten Forschung Ev Fraunhofer
Priority date: 2008-07-11
Filing date: 2009-06-16
Publication date: 2011-02-25
Also published as: KR101380297B1; KR20110039254A; CN102089803B; RU2507609C2; EP2301011A1; TWI441166B; AR072863A1; WO2010003521A1; CA2730196A1; AU2009267507B2; PT2301011T; KR101281661B1; PL2301011T3; ZA201100088B; MY153562A; EP2301011B1; ES2684297T3; JP5325292B2; TW201009813A; BRPI0910793B1

Abstract

Para clasificar distintos segmentos de una señal que comprende segmentos de por lo menos un primer tipo y un segundo tipo, por ejemplo, segmentos de voz y de música, se clasifica la señal en un corto plazo (150) sobre la base de por lo menos un rasgo distintivo de corto plazo extraída de la señal y se entrega un resultado de clasificación de corto plazo (152). La señal se clasifica también en un largo plazo (154) sobre la base de por lo menos un rasgo distintivo de corto plazo y por lo menos un rasgo distintivo de largo plazo extraídos de la señal y se entrega un resultado de clasificación de largo plazo (156). Se combinan (158) el resultado de la clasificación de corto plazo (152) y el resultado de la clasificación de largo plazo (156) para proveer una señal de salida (160) que indica si un segmento de la señal es del primer tipo o del segundo tipo.

Description

TODO Y DISCRIMINADOR PARA CLASIFICAR DISTINTOS SE DE UNA SEÑAL Fondo del Invento El invento se refiere a un enfoque para la clasificación entos de una señal que comprende segmentos de por lo men y de un segundo tipo. Las realizaciones del invento se refieren al ficación de audio y, en particular, a la discriminación de voz ficar una señal de audio.

En el arte previo se conocen los esquemas de codific inio de la frecuencia tales como MP3 o AAC. Estos codificadores a frecuencia se basan en una conversión del dominio del tiempo a ecuencia, una fase de cuantificación, en la cual el error de cua rola usando la información de un módulo psicoacústico y u ificación, en la cual se codifica por entropía a los coeficientes tificados y a la correspondiente información lateral mediante un igos. ual o la señal de error de predicción, la cual se conoce también c excitación, se codifica mediante las fases de análisis por ficador ACELP o, de manera alternativa, se codifica mediante u sformador que utiliza una transformación de Fourier con una supe sión entre la codificación por ACELP y la codificación por excitaci transformación, que se llama también codificación XCT, se H do un algoritmo de lazo cerrado o de lazo abierto.

Los esquemas de codificación de audio en el dominio de l como el esquema de codificación tipo AAC de alta eficiencia, que uema de codificación tipo AAC y una técnica de réplica de anc ctral, se puede combinar también con una herramienta de co reo conjunto o de canales múltiples, la cual se conoce bajo el tér ound". Los esquemas de codificación en el dominio de la frecu ajas por el hecho de que con bajas velocidades de transiere stran una alta calidad para señales de música. Sin embarg eidades de transferencia de bits son problemáticas para la calida oz. y otros son más apropiados para la codificación de música, la seg ificación automáticas de una señal de audio a ser codificada son amientas en muchas aplicaciones multimedia y se pueden usar ccionar un proceso apropiado para cada categoría diferente que l de audio. El rendimiento total de la aplicación depende iabilidad de la clasificación de la señal de audio. De hecho, una ivocada puede generar selecciones y sintonizaciones no apropiad esos siguientes.

La Figura 6 muestra un diseño de un aparato de encional usado para codificar por separado música y voz, que d riminación de una señal de audio. El diseño del aparato de prende una rama de codificación de voz 100 que incluye un codifi piado 102, por ejemplo un codificador de voz AMR-WB+ tal como l "Codificador-decodificador (AMR-WB+) adaptivo, extendido de múltiples velocidades" ("Extended Adaptive Multi-Rate - Wide -) codee"), 3GPP TS 26.290 V6.3.0, 2005-06, descripción técnic aparato de codificación comprende además una rama de co en conectar selectivamente con una línea de entrada 110 que tr udio de entrada. La señal de audio de entrada se aplica selec ficador de voz 102 o al codificador de música 106 mediante un que se muestra esquemáticamente en la Figura 6 y que está co ontrol de conmutación 114. El diseño del aparato de codificación ás a un discriminador de voz y música 116 que también re ada la señal de audio de entrada y que emite por una salida u rol al control de conmutación 114. El control de conmutación 11 salida también una señal indicadora de modo sobre una línea e a una segunda entrada del multiplexor 108 de modo que se p señal indicadora de modo junto con una señal codificada. La señ odo puede tener sólo un bit, que indica que un bloque de datos a dicador de modo es o una voz codificada o una música codifica , por ejemplo, no hace falta hacer una discriminación en un deco idad, sobre la base del bit indicador de modo transmitido junto c ficados al lado del decodificador se puede generar una señal piada sobre la base del indicador de modo para dirigir los dato l de entrada muy apropiado que accione el elemento con ificador es el discriminador de voz y música 116 que se muestra sualmente la clasificación confiable de una señal de audio introduc riante, mientras, por otro lado, el retardo es un factor import aciones en tiempo real.

En general, se desea que el retardo algorítmico total introd riminador de voz y música es suficientemente corto para que pe los aparatos de codificación, conmutados en una aplicación en tie La Figura 7 muestra los retardos que se experimentaron parato de codificación como se muestra en la Figura 6. Se su al aplicada sobre la línea de entrada 110 debe ser codificada sob uadro de 1024 muestras con una tasa de muestreo de 16 kHz de riminación de voz y música debe entregar una decisión en cad ir, cada 64 milisegundos. La transición entre dos codificadores s plo en una manera que se describe en el documento WO 2008/ iscriminador de voz y música no debe aumentar significativamen rítmíco de los decodificadores conmutados que en total es de En la Figura 7 se toman la decisión de conmutación de blo decisión de voz o música sobre los cuadros 126 y 128, respecti 4 muestras, que cubren el mismo periodo de tiempo. Las dos d an en esta posición particular para permitir a la codificación q o tiempo ventanas de transición para pasar adecuadamente de . En consecuencia, un retardo mínimo de 512+64 muestras est las dos decisiones. Este retardo se debe sumar el retardo de 10 eradas por la superposición de 50% de la AAC MDCT, lo cu ltado un retardo mínimo de 1600 muestras. En una AAC convenci e la conmutación de bloque y el retardo es exactamente 1600 iere este retardo para conmutar al mismo tiempo de un bloqu ues cortos cuando se detectan componentes transitorios en el conmutación del largo de transformación es deseable para facto pre^eco. En cualquier caso (bloques largos o cortos odificado 130 en la Figura 7 representa el primer cuadro entero q ituir en el lado del decodificador.

En un aparato de codificación conmutado que utiliza un Los enfoques convencionales que se describen más entajosos debido a que, para una clasificación confiable de u o, se introduce un retardo no deseado de modo que existe la nec O enfoque para la discriminación de una señal que incluye se ntos tipos, en lo cual un retardo algorítmica adicional introd riminador es suficientemente pequeña de modo que los ficación conmutados se puedan usar también para una aplicació .

J. Wang, et. al. "Clasificación de voz y música en tiempo l de decisión oblicuo jerárquico" ("Real-time speech/music classifi archical oblique decisión tree", ICASSP 2008, Congreso Inter stica de IEEE, Procesamiento de Voz y Señal (IEEE International oustics, Speech and Signal Processing), 2008, 31 de marzo de 2 abril de 2008, describen un enfoque para la clasificación de v ndo rasgos distintivos de corto plazo y rasgos distintivos de vados de la misma cantidad de cuadros. Estos rasgos distintiv o y rasgos distintivos de largo plazo se usan para clasificar la señ Este objetivo se obtiene mediante un método de acu ndicación 1 y por un discriminador de acuerdo con la reivindicació Una realización del invento provee un método para clasifi entos de una señal, en el cual la señal comprende segment os un primer tipo y un segundo tipo, y el método comprende: clasificar en un corto plazo la señal sobre la base de por l o distintivo de corto plazo extraída de la señal y entregar un ificación de corto plazo; clasificar en un largo plazo la señal sobre la base de por l o distintivo de corto plazo y por lo menos un rasgo distintivo de aídas de la señal y entregar un resultado de clasificación de largo combinar el resultado de la clasificación de corto plazo con a clasificación de largo plazo para proveer una señal de salida qu mento de la señal es del primer tipo o del segundo tipo.

Otra realización del invento provee un discriminador que co un clasificador de corto plazo configurado para recibir eer un resultado de clasificación de corto plazo de la señal sobr eer una señal de salida que indica si un segmento de la señal e o del segundo tipo.

Algunas realizaciones del invento proveen la señal de sal de una comparación del resultado del análisis de corto plazo con nálisis de largo plazo.

Algunas realizaciones del invento se refieren a un e ificar distintos segmentos de corto plazo no superpuestos de u io o bien como segmento de voz o como segmento de no voz goría de segmento. Este enfoque se basa sobre la extracció ntivos y el análisis de sus estadísticas sobre dos distintas longit anas de análisis. La primera ventana es larga y mira principalm ado. La primera ventana se utiliza para obtener un indicio de decisi retardada para la clasificación de la señal. La segunda ventan sidera principalmente el segmento que se procesa en ese i mento actual. La segunda ventana se utiliza para obtener u isión instantáneo. Los dos indicios de decisión se combinan de m eriblemente utilizando una decisión de histéresis que recibe la inf plazo tiene acceso a varios rasgos distintivos porque cons ros. Como una consecuencia, el clasificador de largo plazo pu rasgos distintivos de la señal explotando estadísticas sobre va el clasificador de corto plazo. Por ejemplo, el clasificador de largo otar la variación de los rasgos distintivos o la evolución en el tie o, el clasificador de largo plazo puede explotar más informa ificador de corto plazo, pero introduce retardos o tiempos de argo, los rasgos distintivos de largo plazo, a pesar de introduci ras de tiempo hacen que los resultados de clasificación de larg robustos y confiables. En algunas realizaciones los clasificado o y de largo plazo pueden considerar los mismos rasgos distinti o, que se pueden calcular sólo una vez y pueden ser utilizada ificadorés. De ese modo, en tal realización el clasificador de largo ir los rasgos distintivos de corto plazo directamente del clasifica 0.

El nuevo enfoque permite de esa manera obtener una clasi sta, mientras se introduce un retardo de poca duración. A difer ra 1 es un diagrama de bloque de un discriminador de voz acuerdo con una realización del invento; ra 2 muestra la ventana de análisis utilizada por los clasif largo plazo y de corto plazo del discriminador de la Figura ra 3 muestra una decisión de histéresis utilizada en el discrim Figura 1 ; ra 4 es un diagrama de bloque de un esquema de codificaci que comprende un discriminador de acuerdo c realizaciones del invento; ra 5 es un diagrama de bloque de un esquema de decodi corrésponde al esquema de codificación de la Figura 4 ra 6 muestra un diseño de aparato de codificación convenci para codificar de manera separada voz y música dep una discriminación de una señal de audio; y ra 7 muestra los retardos que se experimentan en el diseño d codificación que se muestra en la Figura 6. ificador de largo plazo 154 que también recibe la señal de entr e una línea de salida 156 el resultado de clasificación de largo pla ecisión retardada. Además se provee un circuito de histére bina las señales de salida del clasificador de corto plazo 150 y del rgo plazo 154 en una manera, que se describirá más abajo con generar una decisión de voz o música que se emite a la línea de se puede utilizar para controlar el futuro procesamiento de un s señal de entrada en una manera que se describió más arriba co igura 6, es decir la señal de decisión de voz o música 160 se dirigir el segmento de señal de entrada, que ha sido clasif ficador de voz o un codificador de audio.

De ese modo, de acuerdo con las realizaciones del invent distintos clasificadores 150 y 154 en paralelo sobre la señal ada a los respectivos clasificadores vía la línea de entrada 1 ificadores se llaman clasificador de largo plazo 154 y clasifica o 150, en lo cual los dos clasificadores se distinguen an dísticas de los rasgos distintivos sobre las cuales funcionan a tra eso de discriminación en su totalidad. Por ejemplo, debido a q idera que es cuasiestacionario en duraciones de 5 a 20 ms, ntivos de corto plazo se pueden calcular para cada cuadro de 1 l que se toma con una tasa de muestreo dé 16 kHz. El clasifica o 154 genera los IDD sobre la base de rasgos distintivos que s ltado de observaciones más largas de la señal (rasgos distintiv d) y por lo tanto permiten lograr una clasificación más confiable.

La Figura 2 muestra las ventanas de análisis utiliza ificador de largo plazo 154 y el clasificador de corto plazo stran en la Figura 1. Suponiendo un cuadro de 1024 muestras c uestreo de 16 kHz, la longitud de la ventana del clasificador de es de 4*1024+128 muestras, es decir, la ventana del clasifica o 162 se extiende a lo largo de cuatro cuadros de la señal de aud muestras adicionales que necesita el clasificador de largo pla r a cabo su análisis. Este retardo adicional a la cual se refiere ta icipación" está indicada en la Figura 2 bajo el número de refere ra 2 muestra también la ventana del clasificador de corto plazo 1 riminadores robustos dé voz y música usados, por ejemplo, por ey M., "Diseño y evaluación de un discriminador robusto de voz iples rasgos distintivos" ("Construction and Evaluation of a Robust ech/Music Discriminator"), ICASSP'97, Munich, 1997. La mo gía de 4 Hz es un rasgo distintivo que sólo se puede extraer o l sobre un segmento de tiempo largo. El retardo adicional que el discriminador de voz y música es igual a la anticipación stras, la cual se necesita por cada una de las clasificadores 150 r a cabo un análisis de predicción lineal perceptiva tal como está Hermansky, "Análisis de predicción lineal perceptiva (plp) rceptive linear predictíon (plp) analysis of speech"), Journal of th iety of America, vol. 87, no. 4, pp. 1738 - 1752, 1990 y H. Herm lisis predictivo lineal de la voz basado en la percepción" ("Percep r predictive analysis of speech"), ICASSP 5.509 - 512, 1985. D do se utiliza el discriminador de la realización descripta más ño de codificación tal como se muestra en la Figura 7, el retardo ficadores conmutados 102 y 106 será de 1600+128 muestras, lo dos como una función del IDD y del IDI para determinar si la señal voz o música debe indicar que un segmento que se está almente de la señal de entrada como un segmento de voz o un s ica. El ciclo de histéresis característico se puede ver en la Figura están normalizados por los clasificadores 150 y 154 de tal ma res están entre -1 y 1 , en lo cual -1 significa que la probabilidad e ipo música, y 1 significa que la probabilidad es totalmente del tipo La decisión se basa sobre el valor de una función F(IDI, plos de la cual se describirán más abajo. En la Figura 3 F1(IDD, I ral, el cual F(IDI, IDD) debe cruzar para ir de un estado de música oz. F2(IDD, IDI) muestra un umbral, el cual F(IDI, IDD) debe cruz stado de voz a un estado de música. La decisión final D(n) para al o un cuadro actual que tiene el índice n, se puede calcular ent ase del siguiente pseudo código: seudo código de decisión de histéresis (n-1) == música) lf(F(IDI, IDD) < F1 (IDD, IDI)) l, IDD) = IDI DI, IDD) = 0.4-0.4*IDD DI, IDD) = -0.4-0.4*IDD De manera alternativa, se pueden usar las definiciones sigui l, IDD) = (2*IDI + IDD)/3 DI, IDD) = -0.75 * IDD DI, IDD) = -0.75 * IDD Cuando se utiliza la última decisión, el ciclo de histéresis S sión se toma sólo sobre la base de un umbral adaptivo único.

El invento no se limita a la decisión de histéresis que se d a. En lo que sigue, se describirán las realizaciones adicion binación de los resultados de análisis para obtener la señal de sal Una determinación simple de umbrales se puede utilizar e isión de histéresis constituyendo el umbral de una manera qu Iota los rasgos distintivos tanto del IDD como del IDI. Se consider n indicio de discriminación más confiable porque vienen de una larga de la señal. Sin embargo, el IDD se calcula parcialmente s na observación del pasado de la señal. Un clasificador convenció in de la determinación adaptiva de umbrales En otra realización se puede utilizar el IDD para hacer más El IDI se conoce como ser reactivo pero no tan confiable c más, la observación de la evolución del IDD entre el segmento ento actual puede dar otra indicación como el cuadro 166 en ye sobre el IDD calculado para el segmento 162. La notación IDD el valor actual del IDD y el IDD(n-1 ) para el valor pasado. Utiliz res, IDD(n) e IDD(n-1 ), se puede hacer que el IDI sea más confia rbol de decisión tal como se describe en lo que sigue: seudo código del árbol de decisión I > 0 && IDD(n) > 0) D(n) = voz if (IDI < 0 && IDD(n) < 0) D(n) =música if (IDI > 0 && IDD(n) - IDD(n-1 )>0) D(n) = voz if (IDI < 0 && IDD(n) - IDD(n-1 )<0) D(n) = música if (IDD > 0) D(n) = voz D(n) = música sión considerando sólo el indicio retardado IDD, porque la confiabi e pudo validar.

En lo que sigue se describirán los respectivos clasificadore más detalle de acuerdo con una realización del invento.

Tratando primero el clasificador de largo plazo 154, se e un respectivo conjunto de rasgos distintivos de igual manera cuadro de 256 muestras. El primer rasgo distintivo es el coefici redicción lineal perceptiva (PLPCC) que está descripto por H. lisis de predicción lineal perceptiva (plp) de la voz" ("Perc iction (plp) analysis of speech"), Journal of the Acoustical Society 87, no. 4, pp. 1738 - 1752, 1990 and H. Hermansky, et al., "Análi l de la voz basado en la percepción" ("Perceptually based line lysis of speech"), ICASSP 5.509 - 512, 1985. Los PLPCC son efici ificación de personas que hablan usando la estimación de la iva humana. Este rasgo distintivo se puede usar para discriminar e hecho, permite distinguir tanto los formantes de la< voz como la ica de 4 Hz de la voz observando la variación de los rasgos dis ficación de aparatos de codificación de música. La fluctuació rdo de frecuencia fundamental, dado por el vibrato natural de la v presentación de frecuencia en los aparatos de codificación d de compactar eficientemente la energía que se requiere para obte encia de codificación.

Se pueden determinar los siguientes rasgos distintivos d amental: Relación de energía de pulsos glotales: Este rasgo distintivo de la relación dé energía entre los puls eñal residual LPC. Los pulsos glotales se extraen desde la señal ndo un algoritmo de selección de picos, Normalmente, la señal n segmento sonoro muestra una gran estructura de tipo pulso que bración glotal. Este rasgo distintivo es alto durante segmentos o s Predicción de ganancia de largo plazo: Normalmente se calcula la ganancia en los aparatos de co (ve por ejemplo "Codificador-decodificador (AMR-WB+) adaptiv banda ancha de múltiples velocidades" ("Extended Adaptive la voz sonora este rasgo distintivo debe ser bajo pero no en ucionar suavemente.

Una vez que el clasificador de largo plazo ha extraído sario de rasgos distintivos, se utiliza un clasificador estadístico os distintivos extraídos. El clasificador se ha entrenado primero ex os distintivos de un conjunto de entrenamiento de voz y un enamiento de música. Los rasgos distintivos extraídos se nornr r promedio de 0 y una variación de 1 sobre ambos c enamiento. Para cada conjunto de entrenamiento, se recogen ntivos extraídos y normalizados dentro de una ventana de clasific 0 y se modelan con un modelo de mezcla gaussiana (GMM) qu ssianas. Al final de cada secuencia de entrenamiento, se ob rdan un conjunto de parámetros de normalización y dos c metros GMM.

Para cada cuadro a ser clasificado, primero se extraen y s rasgos distintivos con los parámetros de normalización. Se abilidad máxima para voz (lld_voz) y la probabilidad máxima El clasificador de corto plazo utiliza como un rasgo distint o los PLPCC. Diferente al clasificador de largo plazo, este rasgo d naliza en la ventana 128. Se explotan las estadísticas de este ras ste tiempo corto mediante un modelo de mezcla gaussiana (G o gaussianas. Dos modelos se entrenan,, uno para música y el ot la pena mencionar, que los dos modelos son diferentes de los btienen para el clasificador de largo plazo. Para cada cuadro a se ero se extraen los PLPCC y se calculan la probabilidad máxi voz) y la probabilidad máxima para música (lld_música) para el u a categoría de voz y del GMM de la categoría de música, resp nces se calcula el indicio de decisión instantáneo IDI de la siguien IDI = (lld_voz - lldjnúsica) / (abs(lldjriúsica) + abs (lld_vo El IDI está limitado entre los valores -1 y 1.

De ese modo, el clasificador de corto plazo 50 genera los ificación de corto plazo de la señal sobre la base del rasgo ficiente cepstral de predicción lineal perceptiva" (PLPCC), y el cí o plazo 154 genera le resultado de clasificación de largo plazo o, se consideran suficientemente los rasgos distintivos de corto p ificación, es decir, sus propiedades se explotan suficientemente.

Más abajo se describirá con más detalle otra realizaci ectivos clasificadores 150 y 154.

Los rasgos distintivos de corto plazo analizados por el cl plazo de acuerdo con esta realización corresponden principal icientes cepstrales de predicción lineal perceptiva (PLPCC) menci a. Tanto los PLPCC como los MFCC (ver más arriba) se utilizan l reconocimiento de voz y de la persona que habla. Se mantiene CC porque comparten una gran parte de su funcionalidad de l l (LP) que se utiliza en la mayoría de los aparatos de codifica emos y si ya están implementados también en un aparato de co ica conmutado. Los PLPCC pueden extraer le estructura de form o hace también el LP pero tomando en cuenta las con eptivas. Los PLPCC son más independientes de la persona que h o más importante con respecto a la información lingüística. Se util 6 en una señal de entrada tomado con una tasa de muestreo de 1 rsión espectral (tilt), la estabilidad de la frecuencia fundament elación normalizada de frecuencia fundamental (nc). Todos metros están normalizados entre 0 y 1 en una manera que 0 co señal típicamente no sonora y 1 corresponde a una señal típicam esta realización, la intensidad de sonorización está inspirada rios de clasificación de voz usados en el aparato de codificado ripto por Milán Jelinek y Redwan Salami, "Avances en la codific anda ancha en el estándar vmr-wb" ("Wideband speech coding wb standard"), IEEE Trans. on Audio, Procesamiento de v ech and Language Processing), vol. 15, no. 4, pp. 1167 - 11 7. Se basa sobre un rastreador de frecuencia fundamental evoluci ase de una auto-correlación. Para el cuadro con el índice k, la i orización u(k) tienen la siguiente fórmula: La capacidad discriminatoria de los rasgos distintivos de c luada por los modelos de mezcla gaussiana (GMMS) como un cía can dos GMM uno ara la cate oría de voz el otro ara la Tabla 1 : Precisión de clasificación de rasgos distintivos de corto p Tratando ahora el clasificador de largo plazo 154, se nota jos , por ejemplo, M. J. Carey, et. al. "Una comparación de ntivos para la discriminación de voz y música" ("A comparison of ch and music discrimination"), Proc. IEEE Int. Conf. Acoustics, Pr oz y señal (Speech and Signal Processing), ICASSP, vol. 12, p , Marzo de 1999, consideran que las variaciones de los rasgo dísticos sean más discriminatorias que los rasgos distintivos mi regla general indicativa, se puede considerar que la músi cionaria y presenta generalmente menos variaciones. Al contrarí e distinguir fácilmente por su modulación de energía de 4 Hz no ñal cambia periódicamente entre los segmentos sonoros y no s , la sucesión de distintos fonemas hace que los rasgos distintivos spera introducidos, ia ventana de análisis es asimétrica y consi ro actual y la historia pasada. En una primera etapa, se calcula il mam(k) de los PLPCC sobre por lo menos N cuadros como se d iente fórmula: i=0 Donde PLPPm(k) es el coeficiente cepstral m sobre un icientes provenientes del cuadro k. La variación móvil mvm(k nces como: i=0 Donde w es una ventana del largo N, que en esta realiza iente de rampa definida como: w(i)= (N-i) /N-(N+ 1) /2 Finalmente se promedia la variación móvil sobre la dimensi M M m=0 orno de la frecuencia fundamental sobre un segmento de tiem metro de contorno de frecuencia fundamental pc(k) se define com 0 si |p(k)-p(k-l)|<l 0,5 si l<|p(k)-p(k-l)|<2 pc(k)=¡l si 2<|p (k)-p(k-l)|<20 0,5 si 20<|p(k)-p{k-l)|<25 0 si es de otra manera donde p(k) es el retardo de la frecuencia fundamental calc e de cuadro k sobre la señal residual LP tomado con una tasa de Hz. A partir del parámetro de contorno de frecuencia fundament calidad de voz sm(k) en una manera que espera que la voz d rdo de frecuencia fundamental de una suave fluctuación mentos sonoros y una fuerte distorsión espectral hacia las frecu nte los segmentos no sonoros: donde nc(k), tilt (k) y v(k) están definidas como se indicó m entemente la fluctuación natural de la frecuencia fundamental d rario, la misma fluctuación daña la eficiencia de codificadore unes que explotan las transformaciones lineales sobre ventana s. Luego se distribuye la energía principal de la señal s icientes transformados.

Tal como para los rasgos distintivos de corto plazo, tambié asgos distintivos de largo plazo utilizando un clasificador estadísti o se obtienen un resultado de clasificación de largo plazo (ID os distintivos se calculan utilizando N = 25 cuadros, p iderando 400 ms de historia pasada de la señal. Un análisis discri L) se aplica primero antes de utilizar 3 GMM en el espacio un cido. La Tabla 2 muestra el rendimiento medido sobre los c enamiento y de prueba para la clasificación de segmentos de cu sivos.

P) mientras la entrada instantánea proviene del IDI o del riminación de corto plazo (IDCP). Los dos indicios son las sa ificadores de largo plazo y de corto plazo como se muestra en la a la decisión sobre la base del IDI pero se estabiliza la misma co rola dinámicamente los umbrales que disparan un cambio de esta El clasificador de largo plazo 154 utiliza ambos, los rasgos o plazo y de corto plazo previamente definido por un ADSL se M. El IDD es igual a la relación logarítmica entre la probabilidad de argo plazo para la categoría de voz y la para la categoría de músic re los últimos 4 x K cuadros. El número de cuadros, que se toma de variar con le parámetro K a fin de agregar más o menos efecto decisión final. Al contrario, el clasificador de corto plazo utiliza só intivos de corto plazo con 5 GMM que muestran un buen compror imiento y la complejidad. El IDI es igual a la relación logarít abilidad del clasificador de largo plazo para la categoría de voz goría de música calculados sólo sobre los últimos 4 cuadros.

A fin de evaluar el enfoque inventivo, en particular, para la unto grande de productos de voz sobre música. La mezcla entre v ace en distintos niveles de un producto a otro. Entonces s imiento de voz sobre música (VsM) calculando la relación de la utaciones de categoría que ocurrió durante la cantidad total de cu Se utilizan los clasificadores de largo plazo y los clasificado 0 como referencias para evaluar los enfoques de clasificadores encionales. El clasificador de corto plazo muestra una buena tras tiene una estabilidad más baja y una capacidad de discrim baja. Por otro lado el clasificador de largo plazo, especialm enta el número de cuadros por 4 x K, puede alcanzar una mejor e ejor comportamiento de discriminación a costo de la reactivi sión. En comparación con los enfoques convencionales r acionados, los rendimientos de los clasificadores combinados de vento tienen varias ventajas. Una ventaja es que mantienen un re buena voz pura contra la discriminación de música mientras tividad del sistema. Otra ventaja es la buena solución de compro tividad y la estabilidad.

La fase de pre-procesamiento común 200 puede onalidad de estéreo unida, una funcionalidad "surroun onalidad de extensión de ancho de banda. En la salida de la fase l mono, un canal estéreo o unos canales múltiples que forman la o más conmutadores 202. El conmutador 202 puede estar provist a de la fase 200, cuando la fase 200 tiene dos o más salidas, es d se 200 emite una señal estéreo una señal de múltiples canales. ipio, el primer canal de una señal estéreo puede ser un canal ndo canal de la señal estéreo puede ser un canal de música. En sión en una fase de decisión 204 puede ser diferente entre los el mismo instante de tiempo.

Se controla el conmutador 202 mediante la fase de decisió ecisión comprende un discriminador de acuerdo con algunas reali nto y recibe, como una entrada, una señal de entrada hacia la fas a de señal desde la fase 200. De manera alternativa, la fase de de recibir también una información lateral, que está incluida en la eñal estéreo y la señal de múltiples canales o está por lo menos de modo que la funcionalidad principal en la fase 200 es pendencia de la decisión en la fase de decisión 204. .

La fase de decisión 204 actúa el conmutador 202 a fin de a de la fase de pre-procesamiento común o sea en una ficación de frecuencia 206 ilustrada en una rama superior de la F porción de codificación del dominio del LPC 208 ilustrada en una Figura 4.

En una realización, el conmutador 202 conmuta entre las d ificación 206, 208. En otra realización, puede haber otras ificación tales como una tercera rama de codificación o aún una odificación o aún más ramas de codificación. En un a realizac as de codificación, la tercera rama de codificación puede ser unda rama de codificación, pero incluye un codificador de excitac codificador de excitación 210 en la segunda rama de codificació ización la segunda rama de codificación comprende la fase LP ificador de excitación 210 basado en un libro de códigos tal LP, y la tercera rama de codificación comprende una fase e las señales de sub banda en este banco de filtros pueden se res reales o señales de valores complejos. La salida del bloque d está codificada utilizando un codificador de audio espectral 216 ir bloques de procesamiento como se conocen desde el e ficación tipo AAC.

La rama inferior de codificación 208 comprende un a élo de fuente tal como el LPC 212 que emite dos tipos de señale na señal de información LPC que se utiliza para controlar la cara de un filtro de síntesis LPC. Esta información LPC se transm dificador. La otra señal de salida de fase LPC 212 es una señal na señal de dominio del LPC que es una entrada en un co tación 210. El codificador de excitación 210 puede ser cualquier c élo de filtro de fuente tal como un codificador CELP, un codificad lquier otro codificador que es capaz de procesar una señal de v Otra implementación de un codificador de excitación pu ificación de transformación de una señal de excitación. En tal r La decisión en la fase de decisión 204 puede ser adaptabl odo que la fase de decisión 204 lleva a cabo una discriminación y controla el conmutador 202 de tal manera, que las señales an la entrada para la rama superior 206 y las señales de o ada para la rama inferior -208. En una realización, la fase de enta su información de decisión a una transmisión de bits de sali un decodificador puede utilizar está información de decisión a fi las funciones correctas de decodificación.

Tal decodificador se ilustra en la Figura 5. Después de la tr a la señal emitida por e! codificador de audio espectral 216 en un d udio espectral 218. La salida del decodificador de audio espectr ada para un convertidor de dominio del tiempo 220. La salida de xcitación 210 de la Figura 4 es la entrada para un decodificador que emite una señal de dominio del LPC. La señal de dominio d ada para una fase de síntesis de LPC 224 que recibe como otra formación LPC generada por la correspondiente fase de análisis a del convertidor de dominio del tiempo 220 y/o la salida de la fas ién puede ser una señal estéreo o una señal de múltiples can l estéreo cuando el pre-procesamiento incluye una reducción d canales. Inclusive, puede ser una señal de múltiples canales, cua bo una reducción de canales a tres canales o ninguna reducción una replicación de banda espectral.

Dependiendo de la funcionalidad específica de la fas esamiento común, se emite una señal mono, una señal estéreo últiples canales, que tiene, cuando la fase de post-procesamient a cabo una operación de extensión de ancho de banda, un anc or que la señal que entró en el bloque 228.

En una realización el conmutador 226 conmuta entre las d dificación 218, 220 y 222, 224. En otra realización, puede hab dificación adicionales tales como una tercera rama de decodific cuarta rama de decodificación o aún más ramas de decodifica ización con tres ramas de decodificación, la tercera rama de d de ser similar a la segunda rama de decodificación, pero dificador de excitación que es diferente al decodificador de excit elando hacia abajo la señal de entrada que es una señal que tien les. En general, la señal en la salida del bloque también puede s tiene más canales, pero debido a la operación de mezclar ha ero de canales en la salida del bloque será menor que el númer entrada al bloque. En esta realización, la rama de codificación d prende una fase de conversión espectral y una fase iguientemente de cuantificación y codificación. La fase de cua ficación puede incluir cualquiera de las funcionalidades que se co ficadores modernos del dominio de la frecuencia tales como los ipo AAC. Además se puede controlar la operación de cuantificaci cuantificación y codificación mediante un módulo psicoacústico rmación psicoacústica tal como un umbral de enmascaramiento p re la frecuencia donde esta información se ingresa a eriblemente, la conversión espectral se hace usando una funció , aún más preferiblemente, es la función de MDGT deformada e de la inténsidad o en general, la intensidad de deformación, trolada entre cero y una alta intensidad de deformación. En una i ua\ las funcionalidades de los bloques corresponden a las et do.

Algunas realizaciones del invento se describieron más arr de una señal de entrada de audio que comprende distintos s ros, se asocian los distintos segmentos o cuadros con informaci mación de música. El invento no se limita a tales realizaciones, que para clasificar distintos segmentos de una señal comprend or lo menos un primer tipo y un segundo tipo se puede aplica les de audio que comprenden tres o más distintos tipos de seg de los cuales se desea codificar con distintos esquemas de plos para tales tipos de segmentos son: - Segmentos estacionarios y no estacionarios pueden ser de distintos bancos de filtros, ventanas o adaptaciones de codi ipio, un componente transitorio se debe codificar con un banco fina resolución de tiempo, mientras una señal sinusoidal pu ificar con un banco de filtros de una fina resolución de frecuencia.

- Sonoros / no sonoros: Los segmentos sonoros están b ar a otros tipos de señales tales como señales de vídeo o señal o cual estas respectivas señales incluyen segmentos de distint ieren un procesamiento diferente, como por ejemplo: Se puede adaptar el presente invento para todas las apli po real que requieren una segmentación de una señal de tiempo. conocimiento de una cara desde una cámara de video de vigilanci do sobre un clasificador que determina para cada píxel de un cua ro corresponde a una imagen tomada en un momento e ti enece a la cara de una persona o no. La clasificación ( entación de la cara) se debe hacer para cada cuadro indi smisión de video. Sin embargo, utilizando el presente invento, la s cuadro actual puede tomar en cuanta los sucesivos cuadros p ner una mejor precisión de la segmentación tomando la vent sivas imágenes están fuertemente correladas. Entonces se pu clasificadores. Uno considera sólo el cuadro actual y otro que unto de cuadros incluyendo el cuadro actual y los cuadros pa ÍO clasificador puede integrar un conjunto de cuadros y d as ramas procesen la misma señal en paralelo. Se selecciona l de una de estas ramas para la salida, por ejemplo, a ser es misión de bits de salida.

Mientras algunas realizaciones del invento se describier de señales digitales, en las cuales se determinaron los segment cantidad predeterminada de muestras obtenidas con una tasa cifica, el invento no está limitado a esas señales, más bien, se p ién a señales análogas en las cuales se determinaría el segme ango de frecuencia específico o un periodo de tiempo específico loga. Además, algunas realizaciones del invento se desc binación con codificadores que incluyen un discriminador. Se hac camente, el enfoque de acuerdo con las realizaciones del i ificár señales se puede aplicar también a decodificadores que l codificada, para lo cual se pueden clasificar distintos es ficación, permitiendo, de ese modo, que se suministre la señal co dificador apropiado.

Dependiendo de ciertos requerimientos de implementa llevar a cabo los métodos inventivos, cuando se ejecuta el rama de computación en una computadora. En otras palabras, l ntivos son, por lo tanto, un programa de computación que tiene u rama para llevar a cabo por lo menos uno de los métodos inveni jecuta el programa de computación en una computadora.

Las realizaciones que se describieron más arriba son rativas para los principios del presente invento. Se entien ificaciones y variaciones posibles de las disposiciones y de riptos en la presente serán evidentes para ios expertos en la m , es la intención que el invento esté limitado sólo por el alc ientes reivindicaciones de patente y no por los detalles entados por la descripción y la explicación de las realizaciones en En las realizaciones, la señal se describe, que com lidad de cuadros, en lo cual se evalúa el cuadro actual con res sión de conmutación. Se hace notar que el cuadro actual de la S evaluando con respecto a una decisión de conmutación, pu ro, sin embargo, el invento no está limitado a tales realizacione o distintivo de corto plazo en uno de los clasificadores de cort plazo y se suministra el resultado al otro clasificador. paración entre los resultados de los clasificadores de corto plaz 0 pueden ser más importantes, ya que se puede deducir más f ribución del cuadro actual en el resultado de clasificación de parándolo con el resultado de clasificación de corto, plazo, debí clasificadores comparten rasgos distintivos comunes Sin embargo, el invento no se restringe a este enfoque y e argo plazo no se restringe al uso de la misma característica o de os distintivo que el clasificador de corto plazo, es decir tanto el d o plazo como el clasificador de largo plazo pueden calcular su resp ntivo de corto plazo o sus respectivas rasgos distintivo de corto pí ntos uno de otro.

Mientras las realizaciones descriptas más arriba mencion PLPCC como rasgo distintivo de corto plazo, se hace notar qu siderar otras características, por ejemplo la variabilidad de los PLP

Claims

REIVINDICACIONES 1. Un método para clasificar distintos segmentos de una la señal comprende segmentos de por lo menos un primer tipo y y el método comprende: clasificar en un corto plazo (150) la señal sobre la base de asgo distintivo de corto plazo extraída de la señal y entregar un ificación de corto plazo (152); clasificar en un largo plazo (154) la señal sobre la base de asgo distintivo de corto plazo y por lo menos un rasgo distintivo d aídas de la señal y entregar un resultado de clasificación de largo combinar (158) el resultado de la clasificación de corto pla sultado de la clasificación de largo plazo (156) para proveer u a (160) que indica si un segmento de la señal es del primer tipo o . 2. El método de acuerdo con la reivindicación 1 , en el cual se obtiene la por lo menos un rasgo distintivo de largo plaz gmento actual de la señal a ser clasificada y uno o más segment señal; y la señal de salida (160) indica si el segmento actual es del egundo tipo. 4. El método de acuerdo con cualquiera de las reiv¡ndicac l cual la por lo menos un rasgo distintivo de corto plazo se obtien ventana de análisis (168) que tiene una primera longitud y usan odo de análisis; y la por lo menos un rasgo distintivo de largo plazo se obtien ventana de análisis (162) que tiene una segunda longitud y undo método de análisis, siendo la primera longitud más corta qu itud, y siendo los métodos de análisis primera y segunda diferente 5. El método de acuerdo con la reivindicación 4, en el cu itud se extiende a lo largo del segmento actual de la señal, itud se extiende a lo largo del segmento actual de la señal y ltado de la clasificación de largo plazo (156), cada uno ponde r de ponderación predeterminado. 7. El método de acuerdo con cualquiera de las reivindica l cual la señal es una señal digital y un segmento de la señal co ero predefinido de muestras obtenido a una tasa de muestreo esp 8. El método de acuerdo con cualquiera de las reivindica l cual la señal comprende segmentos de voz y de música; la por lo menos un rasgo distintivo de corto plazo cor metros PLPCC; y la por lo menos un rasgo distintivo de largo plazo rmación característica de frecuencia fundamental. 9. El método de acuerdo con cualquiera de las reivindica l cual el rasgo distintivo de corto plazo usados para la clasifica o y el rasgo distintivo de corto plazo usados para la clasificación d las mismas o diferentes. 10. Un método para procesar una señal que comprende s la señal comprende segmentos de voz y de música. se procesa el segmento con un codificador de voz (102 l de salida (160) indica que el segmento es un segmento de voz; y se procesa el segmento con un codificador de música (10 l de salida (160) indica que el segmento es un segmento de músic 12. El método de acuerdo con la reivindicación 11 , que ás: combinar (108) el segmento codificado e información de a (160) que indica el tipo del segmento. 13. Un programa de computación que, cuando se ejec putadora, lleva a cabo el método de acuerdo con cualqui ndicaciones 1 a 12. 14. Un discriminador que comprende: un clasificador de corto plazo (150) configurado para recibir eer un resultado de clasificación de corto plazo (152) de la señal s or lo menos un rasgo distintivo de corto plazo extraída de la señ ñal comprende segmentos de por lo menos un primer tipo y un se 15. El discriminádor de acuerdo con la reivindicación 14, ito de decisión (158) está configurado para proveer la señal de sa de una comparación del resultado de la clasificación de corto pla sultado de la clasificación de largo plazo (156). 16. El discriminádor de acuerdo con cualquiera de las reiv 15, en el cual la señal comprende segmentos de voz y de música eñal de salida (160) indica si un segmento de una señal es un o un segmento de música. 17. Un aparato procesador de señal, que comprende: una entrada (110) configurada para recibir una señal a se l cual la señal comprende segmentos de por lo menos un prim undo tipo; un primer elemento procesador (102; 206) configurado p mentos de un primer tipo; un segundo elemento procesador (104; 208) configurado p mentos de un segundo tipo; un discriminádor (116; 204) de acuerdo con cualqui en el cual la señal es una señal de audio que comprende s y de música, y en el cual el primer elemento procesador comprende un c (102) y el segundo elemento procesador comprende un codificad ). ·