MX2010011863A - Metodo y aparato para determinar una pluralidad de frecuencias de centro de gravedad locales de un espectro de una señal de audio. - Google Patents

Metodo y aparato para determinar una pluralidad de frecuencias de centro de gravedad locales de un espectro de una señal de audio.

Info

Publication number
MX2010011863A
MX2010011863A MX2010011863A MX2010011863A MX2010011863A MX 2010011863 A MX2010011863 A MX 2010011863A MX 2010011863 A MX2010011863 A MX 2010011863A MX 2010011863 A MX2010011863 A MX 2010011863A MX 2010011863 A MX2010011863 A MX 2010011863A
Authority
MX
Mexico
Prior art keywords
frequency
frequencies
iteration
spectrum
audio signal
Prior art date
Application number
MX2010011863A
Other languages
English (en)
Inventor
Sascha Disch
Harald Popp
Original Assignee
Fraunhofer Ges Forschung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Ges Forschung filed Critical Fraunhofer Ges Forschung
Publication of MX2010011863A publication Critical patent/MX2010011863A/es

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Auxiliary Devices For Music (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Stereophonic System (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Transmitters (AREA)

Abstract

Se describe un aparato para determinar una pluralidad de frecuencias de centros de gravedad locales de un espectro de una señal de audio que comprende un determinador de desplazamiento, un determinador de frecuencia y un controlador de iteración. El determinador de desplazamiento determina una frecuencia de desplazamiento para cada frecuencia de inicio de iteración de una pluralidad de frecuencias de inicio de iteración en base al espectro de la señal de audio, en donde el número de valores de muestra discretos del espectro es mayor que el número de frecuencias de inicio de iteración. El determinador de frecuencia determina una nueva pluralidad de frecuencias de inicio de iteración al incrementar o reducir cada frecuencia de inicio de iteración de la pluralidad de frecuencias de inicio de iteración por la frecuencia de desplazamiento determinada correspondiente. El controlador de iteración provee la nueva pluralidad de frecuencias de inicio de iteración al determinador de desplazamiento para iteración adicional o provee la pluralidad de frecuencias de centros de gravedad locales si se satisface una condición de terminación predefinida. La pluralidad de frecuencias de centros de gravedad locales puede ser utilizada como base para generar una nueva pluralidad de frecuencias de inicio de iteración.

Description

MÉTODO Y APARATO PARA DETERMINAR UNA PLURALIDAD DE FRECUENCIAS DE CENTRO DE GRAVEDAD LOCALES DE UN ESPECTRO DE UNA SEÑAL DE AUDIO DESCRIPCIÓN DE LA INVENCIÓN Las modalidades de acuerdo con la invención son concernientes con sistemas de procesamiento de señal de audio y más en particular con un método y aparato para determinar una pluralidad de frecuencias de centros de gravedad locales de un espectro de una señal de audio.
Hay una demanda incrementada por técnicas de procesamiento de señales digitales que traten la necesidad de manipulaciones de señales extremas con el fin de ajustar señales de audio pre-grabadas , por ejemplo tomadas de una base de datos a un nuevo contexto musical. Con el fin de hacer esto, propiedades de señal semánticas de alto nivel tales como altura, tono musical y modo de escala son necesarios a ser adaptados. Todas estas manipulaciones tienen en común que tienen como objetivo alterar sustancialmente las propiedades musicales del material de audio original en tanto que conservan la calidad de sonido subjetiva tan buena como sea posible. En otras palabras, estas emisiones cambian fuertemente el •contenido musical del material de audio pero no obstante, son requeridas para conservar la naturalidad de la muestra de audio procesada y asi mantener la credibilidad. Esto requiere idealmente métodos de procesamiento de señales que sean ampliamente aplicables a diferentes clases de señales en las que se incluyen contenido de música mezclado polifónico.
Por consiguiente, un método para análisis, manipulación y síntesis de señales de audio basado en componentes de modulación de multibandas ha sido propuesto últimamente (véase "S. Disch and B. Edler, "An amplitude- and frequency modulation vocoder for audio signal processing". Proc. of the Int. Conf. on Digital Audio Effects (DAFx) . 2008", "S. Disch and B. Edler, "Multiband perceptual modulation analysis, processing and synthesis of audio signáis". Proc. of the IEEE-ICASSP, 2009") . La idea fundamental de este procedimiento es descomponer mezclas polifónicas en componentes que son percibidos como entidades sónicas de cualquier manera y manipular adicionalmente todos los elementos de señal que están contenidos en un componente de manera adjunta. Adicionalmente, se ha introducido un método de síntesis que produce una señal de salida uniforme y todavía perceptualmente agradable dependiendo del tipo de manipulación aplicada - modificada drásticamente. Si ninguna manipulación es aplicada de cualquier manera a los componentes, el método ha mostrado proveer una calidad de audio subjetiva transparente o casi transparente (véase "S. Disch and B. Edler, "An amplitude- and frequency modulation vocoder for audio signal processing," Proc. of the Int. Conf. on Digital Audio Effects (DAFx), 2008") para muchas señales de prueba.
Una etapa importante para una manipulación de música polifónica basada en bloques, por ejemplo, la descomposición de modulación de multibanda, es la estimación de centros de gravedad' locales (COG) (véase "J. Anantharaman, A. Krishnamurthy, and L. Feth, "Intensity-weighted average of instantaneous frequency as a model for frequency discrimination. ", J Acoust. Soc. Am., vol . 94, pp. 723-729, 1993", "Q. Xu, L. L. Feth, J. N. Anantharaman, and A. K. Krishnamurthy, "Bandwidth of spectral resolution for the c-o-g" effect in vowel-like complex sounds", Acoustical Society of America Journal, vol. 101, pp . 3149-+, May 1997") en espectros sucesivos con el paso del tiempo. Este documento muestra Un algoritmo iterativo, que puede ser usado para determinar una descomposición espectral adaptable de señal que es alineada con el COG local de la señal.
El procedimiento de COG puede ser reminiscente del método de reasignación de frecuencia en el tiempo clásico (reasignación t-f ) . Para una vista general extensa de esta técnica, se refiere al lector a (véase "A. Fulop and K. Fitz, "Algorithms for computing the time corrected instantaneous frequency (reassigned) spectrogram, with applications", Journal of the Acoustical Society of America, vol. 119, pp. 360-371, 2006") . Básicamente, la reasignación de t-f altera la rejilla de tiempo-frecuencia regular de una transformada de Fourier de corto tiempo convencional (STFT) hacia un espectrograma de frecuencia instantáneo corregida en el tiempo, revelando mediante esto acumulaciones temporales y espectrales de energía que son mejor localizadas que las implicadas por el compromiso de resolución de t-f inherente en el espectrograma de STFT. Frecuentemente, la reasignación es usada como un extremo frontal mejorado para el rastreo parcial subsecuente (véase "K. Fitz and L. Haken, "On the use of time-frequency reassignment in additive sound modeling", Journal of the Audio Engineering Society, vol. 50(11), pp. 879-893, 2002").
Otras ubicaciones relacionadas apuntan en la estimación de múltiples frecuencias fundamentales (véase Klapuri, Signal Processing Methods For the Automatic Transcription of Music, Ph.D. thesis, Tampere University of Technology, 2004", "Chunghsin Yeh, Múltiple fundamental frequency estimation of polyphonic recordings, Ph.D. thesis, École doctórale edité, Université de París, 2008") al agrupar picos espectrales que exhiben ciertas · relaciones armónicas en fuentes separadas. Sin embargo, para música compleja compuesta de muchas fuentes (como música orquestal), este procedimiento no tiene ninguna oportunidad razonable.
En algunos aplicaciones se usan vocoders para la manipulación de señal. Una clase de vocoders son los vocoders de fase. Un tutorial en cuanto a vocoders de fase es la publicación ""The Phase Vocqder: A tutorial", Mark Dolson, Computer Music Journal, Volume 10, No. 4, pages 14 to 27, 1986". Una publicación adicional es ""New phase vocoder techniques for pitch-shifting, harmonizing and other exotic effects", L. Laroche and M. Dolson, proceedings 1999, IEEE workshop on applications of signal processing to audio and acoustics, New Paltz, New York, October 17 to 20, 1999, pages 91 to 94".
Las Figuras 17 y 18 ilustran diferentes implementaciones y aplicaciones para un vocoder de fase. La Fg 17 ilustra una implementación de banda de filtros de un vocoder de fase 1700, en el cual se provee una señal de audio en una entrada 500 y en donde, en una salida 510, se obtiene una señal de audio sintetizada. Específicamente, cada canal de banco de filtros ilustrado en la Figura 17 comprende un filtro de paso de banda 501 y un oscilador conectado subsecuentemente 502. Las señales de salida de todos los osciladores 502 de todos canales son combinadas vía un combinador 503, que es ilustrado como un adicionador. En la salida del combinador 503, se obtiene la señal de salida 510.
Cada. filtro 501 es implementado para proveer, por una parte, una señal de amplitud A(t), y por otra parte, la señal de frecuencia f(t). La señal de amplitud y la señal de frecuencia son señales de tiempo. La señal de amplitud ilustra un desarrollo de la amplitud dentro de una banda de filtro con el tiempo y la señal de frecuencia ilustra el desarrollo de la frecuencia de una señal de salida de filtro con el tiempo.
Una implementación esquemática de un filtro 501 es ilustrada en la Figura 18. La señal entrante es enrutada a dos rutas paralelas. En una ruta, la señal es multiplicada por una onda seno con una amplitud de 1.0 y una frecuencia igual a la frecuencia central del filtro de paso de banda como se ilustra en 551.. En la otra ruta, la señal es multiplicada por una onda coseno de la misma amplitud de y frecuencia como se ilustra en 551. Asi, las dos rutas paralelas son idénticas excepto por la fase de la forma de onda de multiplicación. Luego, en cada ruta, el resultado de la multiplicación es alimentado a un filtro de paso de bajos 553. La operación de multiplicación por si misma es también conocida como una modulación de anillo simple. La multiplicación de cualquier señal por una onda seno (o coseno) de frecuencia constante tiene el efecto de desplazar simultáneamente todos los componentes de frecuencia en la señal original tanto por mas y menos la frecuencia de la onda seno. Si este resultado se hace pasar ahora a través de un filtro de paso de bajos apropiado, solamente la porción de baja frecuencia permanecerá. Esta secuencia de operaciones es también conocida como heterodinación . Esta, heterodinación es efectuada en cada una de las dos rutas paralelas, pero puesto que una ruta se heterodina con una onda seno, 'en tanto que la otra ruta usa una onda coseno, las señales heterodinas resultantes en las dos rutas están fuera de fase por 90 grados. El filtro de paso de bajos superior 553, por consiguiente, provee una señal de cuadratura 554 y el filtro inferior 553 proporciona una señal en fase. Estas dos señales, que son también conocidas como señales I y Q, son enviadas a un transformador de coordinadas 556 que genera una representación de magnitud/fase a partir de la representación rectangular.
La señal de amplitud es emitida en 557 y corresponde a A(t) de la Figura 17. La señal de fase es introducida a un desenvolvedor de fase 558. En la salida del elemento 558 no existe un valor de fase entre 0 y 360° sino un valor de fase que se incrementa de manera lineal. Este valor de fase "desenvuelto" es introducido a un convertidor de fase/frecuencia 559 que puede ser implementado por ejemplo como un dispositivo de diferencia de fase que resta una fase en un instante de tiempo precedente de la fase en un instante de tiempo actual con el fin de obtener valor de frecuencia para el instante de tiempo actual.
Este valor de frecuencia es agregado a un valor de frecuencia constante fi del canal de filtro i, con el fin de obtener un valor de frecuencia variable en el tiempo en una salida 560.
El valor de frecuencia en la salida 560 tiene una porción CD Fi y una porción cambiante que es también conocida como la "fluctuación de frecuencia", mediante la cual una frecuencia actual de la señal en el canal de filtro se desvia de la frecuencia promedio Fi.
Asi, el vocoder de fase como se ilustra en la Figura 5 y la Figura 6 provee una separación de información espectral e información de tiempo. La información espectral está comprendida en el canal de banda de filtro especifico y en la frecuencia fi y la información de tiempo está en la fluctuación de frecuencia y en la magnitud con el paso de, tiempo.
Otra descripción del vocoder de fase es la interpretación de transformada de Fourier. Consiste de una sucesión de transformadas de Fourier traslapadas tomadas sobre ventanas de duración finita en el tiempo. En la interpretación de transformada de Fourier, la atención es enfocada sobre la magnitud y valores de fase para todas las bandas de filtro diferentes o binarios de frecuencia en el solo punto en el tiempo. En tanto que en la interpretación de banco de filtro, la re-sintesis puede ser vista como un ejemplo clásico de síntesis aditiva con amplitud variable en el tiempo y controles de frecuencia para cada oscilador, la síntesis, en la implementación de Fourier, se lleva a cabo al convertir de regreso a forma real e imaginaria y superposición-adición la transformada de Fourier inversa sucesivas. En la interpretación de Fourier, el número de bandas de filtro en el vocoder de fase es el número de puntos en la transformada de Fourier. Similarmente, el espaciamiento igual en frecuencia de los filtros individuales puede ser reconocido como el elemento fundamental de la transformada de Fourier. Por otra parte, la forma de las bandas de paso de filtro, esto es, lo empinado del corte en los bordes de banda es determinado por la forma de la función de ventana que es aplicada antes de calcular la transformada. Para una forma característica particular, por ejemplo, ventana de Hamming, lo empinado del corte de filtro se incrementa en proporción directa a la duración de la ventana.
Es útil ver que las dos implementaciones diferentes del análisis de vocoder de fase se aplica solamente a la implementación del banco de filtros de paso de banda. La operación por la cual las salidas de esos filtros son expresadas como amplitudes variables en el tiempo y frecuencias es la misma para ambas implementaciones. El objetivo básico del vocoder de fase es separar la información temporal de la información espectral. La estrategia operativa es dividir la señal en un número de bandas espectrales y caracterizar la señal variable en el tiempo en cada banda.
Dos operaciones básicas ' son particularmente significativas. Estas operaciones son escalado en el tiempo y transposición de altura. Es siempre posible frenar un sonido grabado simplemente al reproducirlo a una velocidad de toma de muestras más baja. Esto es análogo a reproducir una cinta grabada a una velocidad de reproducción más baja. Sin embargo, esta clase de expansión en el tiempo simple disminuye simultáneamente la altura por el mismo factor como la expansión de tiempo. El frenado de la evaluación temporal de . un sonido sin alterar su altura requiere una separación explícita de información temporal y espectral. Como se indica anteriormente, esto es precisamente lo que el vocoder de fase intenta hacer. El estiramiento de la amplitud variable en el tiempo y señales de frecuencia A(t) y f(t) a la Figura 5a no cambia la frecuencia de los osciladores individuales, sino que frena la evaluación temporal del sonido compuesto. El resultado es un sonido expandido en el tiempo con la altura original, la vista de transformada de Fourier de escalado en el tiempo es de tal manera que, con el fin de expandir en el tiempo un sonido, las FFT inversas pueden simplemente estar espaciadas adiciónalmente aparte de las FFT de análisis. Como, resultado, los cambios espectrales, ocurren más lentamente en el sonido sintetizado que en el original en esta aplicación y la fase es reescalada por precisamente el mismo factor por el cual el sonido es expandido en el tiempo.
La, otra aplicación es transposición de altura. Puesto que el vocoder de fase puede ser usado para cambiar la evaluación temporal de un sonido sin cambiar su altura, también debe ser posible hacerlo inverso, esto es, cambiar la altura sin cambiar la duración. Esto se hace por escala de tiempo utilizando un factor de cambio de altura deseado y luego reproducir los sonidos resultantes de regreso a una velocidad de toma de muestras modificada por el mismo factor. Por ejemplo, para elevar la altura por un octavo,, el sonido es primero expandido en el tiempo por un factor de 2 y la expansión en el tiempo es luego reproducida a dos veces la velocidad de toma de muestras original.
Una aplicación de vocoders para procesamiento de señales de audio es mostrada por ejemplo en "Sascha Disch, Bernd Edler: "An Amplitude- and Frequency-Modulation Vocoder for Audio Signal Processing", Proceedings of the llth International Conference on Digital Audio Effects (DAFx-08), Espoo, Finland, September 1-4, 2008". En este documento, se estiman candidatos de centros dé gravedad locales al buscar transiciones positivas a negativas en una función de posición de centro de gravedad. Para esto, la función de posición de centro de gravedad es calculada para cada valor del espectro (por ejemplo, para cada valor de amplitud espectral o cada valor de densidad de potencia) por cada bloque en el tiempo de la señal de audio. En este contexto," se mencionan tamaños de bloque de valores de N=214 a una frecuencia de toma de muestras de 48 kHz. Por consiguiente, los esfuerzos computacionales para estimar los candidatos de centros de gravedad locales son muy altos .
Adicionalmente, un procedimiento de post-selección es necesario para asegurar que las posiciones de centro de gravedad estimados finales sean aproximadamente equidistantes en una escala perceptual.
Es el objeto de la presente invención proveer un concepto mejorado para determinar una pluralidad de frecuencias de centros de gravedad locales de un espectro de una señal de audro, que permite reducir los esfuerzos computacionales .
Este objeto es resuelto por un aparato de acuerdo con la reivindicación 1 y un método de acuerdo con la reivindicación 20.
Una modalidad de la invención provee un aparato para determinar una pluralidad de frecuencias de centros de gravedad locales de un espectro de una señal de audio. El aparato comprende un determinador de desplazamiento, un determinador de frecuencia y un controlador de iteración. El determinador de desplazamiento está configurado para determinar una frecuencia de desplazamiento para cada frecuencia de inicio de iteración de una pluralidad de frecuencias de- inicio de iteración- en base al espectro de la señal de audio, en donde un número de valores de muestra discreto del' espectro es mayor que un número de valores de inicio de iteración. El determinador de frecuencia está configurado para determinar una nueva pluralidad de frecuencias de inicio de iteración al incrementar o reducir cada frecuencia de inicio de iteración de una pluralidad de frecuencias de inicio de iteración por la frecuencia de desplazamiento determinada correspondiente. Además, el controlador de iteración está configurado para proveer la nueva pluralidad de frecuencias de inicio de iteración al determinador de desplazamiento para una iteración adicional o para proveer la pluralidad de frecuencias de centros de gravedad locales, si se satisface una condición de determinación predefinida, en donde la pluralidad de frecuencias de centros de gravedad locales es ajustada igual a la nueva pluralidad de frecuencias de inicio de iteración.
Las modalidades de acuerdo con la invención están basadas en la idea central que las frecuencias de desplazamiento son determinadas para una pluralidad de frecuencias de inicio de iteración y luego las frecuencias de inicio de iteración son actualizadas por sus frecuencias de desplazamiento determinadas. Esto se hace iterativamente hasta que se satisface una condición de terminación predefinida. Puesto que el número de frecuencias de inicio de iteración es menor que el número de valores de muestras discretas del espectro, la complejidad computacional es reducida significativamente en comparación con conceptos conocidos.
Por ejemplo, el número de frecuencia de inicio de iteración puede ser de entre 10 y 100. Esto es, por ejemplo, exactamente menor que el número de valores de muestras discretas de un N=214 mencionado anteriormente. En este ejemplo, los esfuerzos computacionales pueden ser reducidos por un factor de más de 100.
Adicionalmente, la resolución espectral puede ser fácilmente adaptada al hacer variar el número de frecuencia de inicio de iteración y/o adaptar los parámetros de cálculo de frecuencia de desplazamiento.
Algunas modalidades de acuerdo con la invención comprenden un fusionador de, frecuencia. El fusionador de frecuencia fusiona dos frecuencias dé inicio de iteración adyacentes de la pluralidad de' frecuencias de inicio de iteración, si una distancia de frecuencia entre las dos frecuencias de inicio de iteración adyacentes es menor que una distancia de frecuencia mínima.
Algunas modalidades adicionales de acuerdo con la invención comprenden un adicionador de frecuencia. El adicionador de frecuencia agrega una frecuencia de inicio de iteración a la pluralidad de frecuencias de inicio de iteración, si la distancia de frecuencia entre dos frecuencias de inicio . de iteración adyacentes de la pluralidad de frecuencias de inicio de iteración es mayor que una distancia de frecuencia máxima. Por ejemplo, esto puede ser útil, si se hace una inicialización por un valor estimativo del bloque (tiempo) previo.
Algunas modalidades de- acuerdo con la invención son concernientes con un método para determinar una pluralidad de frecuencias de centros de gravedad locales de un espectro de una señal de audio de acuerdo con una modalidad de la invención. El método comprende determinar una frecuencia de desplazamiento para cada frecuencia de inicio de iteración de una pluralidad de frecuencias de inicio de iteración, determinar una nueva pluralidad de frecuencias de inicio de iteración y proveer la nueva pluralidad de frecuencias de inicio de iteración para una iteración adicional o proveer la pluralidad de frecuencias de centros, de gravedad locales. La frecuencia de desplazamiento para cada frecuencia de inicio de iteración de la pluralidad de frecuencia de inicio de iteración es determinada en base al espectro de las señales de audio, en donde el número de valores de muestra discretas del espectro es mayor que el número de frecuencias de inicio de iteración. La nueva pluralidad de frecuencias de inicio de iteración es determinada al incrementar o reducir cada frecuencia de inicio de iteración de la pluralidad de frecuencias de inicio de iteración por la frecuencia de desplazamiento determinada correspondiente. La pluralidad de frecuencias de centros de gravedad locales es provista para almacenamiento, transmisión o procesamiento adicional, si se satisface una condición de terminación predefinida. Para esto, la pluralidad de frecuencias de centros de gravedad locales es igual a la nueva pluralidad de frecuencias de inicio de iteración.
En algunas modalidades de acuerdo con la invención, la pluralidad de frecuencias de centros de gravedad locales determinada para un bloque de tiempo previo de la señal de audio son usadas como frecuencias de inicio de iteración para la primera iteración del siguiente bloque en el tiempo de la señal de audio. En este caso, separaciones grandes entre las frecuencias de inicio de iteración pueden ser llenadas por el adicionador de frecuencia.
Las modalidades de acuerdo con la invención serán detalladas subsecuentemente con referencia a las figuras adjuntas, en las cuales: La Figura 1 es diagrama de bloques de un aparato para determinar una pluralidad de frecuencias de centros de gravedad locales; La Figura 2 es un diagrama de bloques de un aparato para determinar una pluralidad de frecuencias de centros de gravedad locales; La Figura 3 es un diagrama de bloques de un aparato para determinar una pluralidad de frecuencias de centros de gravedad locales utilizando un pre-procesamiento; La Figura 3a es un diagrama de un espectro mapeado vs . espectro suavizado; La Figura 4 es una ilustración esquemática de valores estimativos de centros de gravedad locales contra un espectro mapeado (extracto) de dos tonos separados; La Figura 5 es una ilustración esquemática de valores estimativos de centros de gravedad locales contra el espectro mapeado (extracto) de dos tonos de latido; La Figura 6 es una ilustración esquemática de valores estimátivos de centros de gravedad locales contra el espectro mapeado (extracto) de cuerdas tocadas; La Figura 7 es una ilustración esquemática de valores estimativos de centros de gravedad locales contra el espectro mapeado (extracto) de una música orquestal; La Figura 8 es un diagrama de bloques de un banco de filtros adaptable de señal; La Figura 9 es una ilustración esquemática . de una segmentación de paso de banda alineada con centros de gravedad locales contra el espectro de potencia (extracto) de cuerdas pulsadas; La Figura 10 es una ilustración esquemática de una segmentación de paso de banda alineada con el centro de gravedad local contra el espectro de potencia (extracto) de una música orquestal; La Figura 11 es un diagrama de bloques de un aparato para convertir una señal de audio a una representación parametrizada ; La Figura 12 es un diagrama de bloques de un aparato para convertir una señal de audio a una representación parametrizada ; ' La Figura 12a es, un diagrama de bloques de un aparato para convertir una señal de audio a una representación parametrizada; La Figura 13a es un diagrama de bloques de un módulo de síntesis; La Figura 13b es una ilustración esquemática de una aplicación para cambios de modo de tonos polifónicos; La Figura 13c es una ilustración esquemática de un circulo de quinta; La Figura 14 es un diagrama de flujo de un método para determinar una pluralidad de frecuencias de centro de gravedad locales; La Figura 15 es ún diagrama de flujo de un método para determinar una pluralidad de frecuencias de centros de gravedad locales; La Figura 15a es una ilustración esquemática de una estimación de COG iterativa; , La Figura 16 es un diagrama de flujo de un método para agregar una frecuencia de inicio de iteración; La Figura 17 es una ilustración esquemática de una estructura de análisis-síntesis de vocoder del arte previo; y La Figura 18 es una ilustración esquemática dé una implementación de filtro del arte previo de la estructura de vocoder mostrada en la Figura 17.
En lo siguiente, los mismos números de referencia son usados parcialmente para objetos y unidades funcionales que tienen las mismas o similares propiedades funcionales y la descripción de los mismos con respecto a una figura se aplicarán también a otras figuras con el fin de reducir redundancias en la descripción de las modalidades.
La Figura 1 muestra' un diagrama de bloques de un aparato 100 para determinar una pluralidad de frecuencias de centros de gravedad locales 132 de un espectro 102 de una señal de audio de acuerdo con una modalidad- de la invención. El aparato 100 comprende un determinador de desplazamiento 110, un determinador de frecuencia 120 y un controlador de iteración 130. El determinador de desplazamiento 110 es 10 conectado al determinador de frecuencia 120, el determinador de frecuencia 120 es conectado al controlador de iteración 130 y el controlador de iteración 130 es conectado al determinador de desplazamiento 110. El determinador de desplazamiento 110 determina una frecuencia de desplazamiento 112 para cada frecuencia . de inicio de iteración de una pluralidad de frecuencias de inicio de iteración en base al espectro 102 de la señal de audio. El espectro 102 es representado por valores de muestra discretos, en donde el número de valores de muestra del espectro 102 es mayor que el número de frecuencias de inicio de iteración. El determinador de frecuencia 120 determina una nueva pluralidad de frecuencias de inicio de iteración 122 al incrementar o reducir cada frecuencia de inicio de iteración de la pluralidad de frecuencias de inicio de iteración por la frecuencia de desplazamiento determinada correspondiente 112. Luego, el controlador de iteración 130 provee la nueva pluralidad de frecuencias de inicio de iteración 122 al determinador de desplazamiento 110 para una iteración adicional. Alternativa o adicionalmente, la pluralidad de frecuencias de centros de gravedad locales 132 es provista, si se satisface una condición de terminación predefinida, en donde la pluralidad de frecuencias de centros de gravedad locales 132 es igual o es ajustada igual a la nueva pluralidad de frecuencias de inicio de iteración 122.
Puesto que el número de frecuencias de inicio de iteración es menor que el número de valores de muestra discretos del espectro, los esfuerzos computacionales para determinar la pluralidad de frecuencias de centro.s de gravedad locales 132 son reducidos en comparación con conceptos que determinan las frecuencias de centros de gravedad locales basadas en funciones, que tienen que ser calculadas para cada valor de muestra discreto del espectro.
La resolución y/o la exactitud de la determinación de la frecuencia de centro gravedad local puede ser adaptada a la aplicación particular al hacer variar el número de frecuencias de inicio de iteración y/o los parámetros de cálculo- de frecuencia de desplazamiento. De esta manera, también el esfuerzo computacional varia, pero puesto que el número de frecuencias de inicio de iteración es usualmente claramente menor que el número de valores de muestra discretos del espectro, una baja complejidad computacional puede ser garantizada .
Por ejemplo, los valores de muestra discretos del espectro 102 pueden ser amplitudes espectrales, valores de densidad espectral¦ de potencia u otros valores obtenidos mediante una transformación de Fourier de la señal de audio. El número de valores de muestra discretos del espectro 102 para un bloque de tiempo de la señal de audio puede caer, por ejemplo, entre 1,000 y 100,000 o entre 29 y 220. En contraste, el número de frecuencias de inicio de iteración puede caer, por ejemplo, entre 5 y 500. Esta gran diferencia entre el número de valores de muestra discretos del espectro 102 y el número de frecuencias de inicio de iteración permite la reducción significativa de complejidad computacional en comparación con métodos conocidos.
Una frecuencia de centro de gravedad local 132 puede ser una frecuencia a la cual el espectro 102 de la señal de audio puede comprender, por ejemplo, un máximo local o una agregación local de amplitud de espectros o la densidad espectral de potencia u otro valor obtenido por una transformación de Fourier de la señal de audio.
Por ejemplo, la pluralidad de frecuencias de inicio de iteración puede ser igualmente o de acuerdo con una función de distribución o una distribución dada espaciadas entre si sobre el espectro 102 para la primera iteración. En base a estas frecuencias de inicio de iteración y el espectro 102, el determinador de desplazamiento 110 determina la frecuencia de desplazamientos' 112, que puede ser una indicación de que tan lejos el centro de gravedad local de una frecuencia de inicio de iteración está ubicado. Por consiguiente, el determinador de frecuencia 120 trata de compensar esta distancia entre el centro de gravedad local y la frecuencia de inicio de iteración al incrementar o reducir (dependiendo de un valor positivo o negativo de la frecuencia de desplazamiento) la frecuencia de inicio de iteración por las frecuencias de desplazamiento determinadas correspondientes. Luego, la nueva pluralidad de frecuencias de inicio de iteración 122 es provista al determinador de desplazamiento 110 para una iteración adicional o la nueva pluralidad de frecuencias de inicio de iteración 122 es provista como la pluralidad de frecuencias de centro de gravedad local 132 a ser determinada, si se satisface una condición de terminación predefinida.
El aparato 100 puede determinar una pluralidad de frecuencias de centros de gravedad locales 132 para cada bloque en el vtiempo de una pluralidad de bloques en el tiempo de la señal de audio. En otras palabras, la señal de audio puede ser procesada en bloques de tiempo. Para cada tiempo bloque, se puede generar un espectro 102 mediante una transformación de Fourier y se puede determinar una pluralidad de frecuencias de centros de gravedad locales 132.
Condiciones de terminación predefinidas posibles pueden ser por ejemplo que cada frecuencia de desplazamiento esté debajo de una frecuencia de desplazamiento máxima, que la suma de todas las frecuencias de desplazamiento está debajo de una suma de frecuencia de desplazamientos máxima o que la suma de la frecuencia de desplazamiento determinada para el bloque de tiempo actual y la frecuencia de desplazamiento determinada para un bloque de tiempo previo es menor que un desplazamiento de umbral.
El espectro 102 provisto al determinador de desplazamiento 110 puede comprender, por ejemplo, una escala lineal o logarítmica. Por ejemplo, la pluralidad de frecuencias de inicio de iteración pueden estar distribuidas espaciadas igualmente en un espectro logarítmico 102 para la primera iteración para ajustar o establecer una tendencia para la determinación de la pluralidad de frecuencias de centros de gravedad locales 132, de tal manera que la pluralidad determinada de frecuencias de centros de gravedad 132 puede estar distribuida en una escala perceptual.
El determinador de desplazamiento 110, el determinador de frecuencia 120 y el controlador de iteración 130 pueden ser unidades de elementos físicos independientes, parte de un procesador de señales digitales, un microcontrolador o computadora o pueden ser realizados como un programa de computadora o un producto de programa de computadora configurado para ejecutarse en un microcontrolador o computadora.
La Figura 2 muestra un diagrama de bloques de un aparato 200 para determinar una pluralidad de frecuencias de centros de gravedad locales 132 de un espectro 102 de una señal de audio de acuerdo con una modalidad de la invención. El aparato 200 es similar al aparato mostrado en la Figura 1, pero comprende adicionalmente un adicionador de frecuencia 210, un fusionador de frecuencia 220 y un removedor de frecuencia 230. En este ejemplo, el determinador de frecuencia 120 es conectado al removedor de frecuencia 230, el removedor de frecuencia 23.0 es conectado al controlador de iteración 130, el controlador de iteración 130 es conectado al adicionador de frecuencia 210, el adicionador de frecuencia 210 es conectado al fusionador de frecuencia 220 y el fusionador de frecuencia 220 es conectado al determinador de desplazamiento 110. Alternativamente, las posiciones del adicionador de frecuencia 210 y el fusionador de frecuencia 220 pueden ser cambiadas y/o el removedor. de frecuencia 230 puede ser dispuesto entre el controlador de iteración 130 y el adicionador. de frecuencia 210, entre el adicionador de frecuencia 210 y el fusionador de frecuencia 220 o entre el fusionador de frecuencia 220 y el determinador de desplazamiento 110.
El adicionador de frecuencia 210 puede agregar una frecuencia de inicio de iteración a la nueva pluralidad de frecuencias de inicio de iteración 122, si la distancia de frecuencia entre dos frecuencias de inicio de iteración adyacentes de la nueva pluralidad de frecuencias de inicio de iteración 122 es mayor que una distancia de frecuencia máxima.
Para esto,' la distancia de frecuencia y la distancia de frecuencia máxima pueden ser medidas en una escala lineal o logarítmica.
En otras palabras, el adicionador de frecuencia 210 agrega una frecuencia de inicio de iteración si la separación entre dos frecuencias de inicio de iteración adyacentes es demasiado grande. Por ejemplo, este puede ser especialmente de interés si la pluralidad de frecuencia de centros de gravedad locales 132 determinada para el bloque de tiempo actual es provista al determinador de desplazamiento 110 a ser usado como pluralidad de frecuencias de inicio de iteración para la primera iteración del siguiente bloque en el tiempo. Sin embargo, también durante las iteraciones para el mismo bloque en el tiempo una frecuencia de inicio de iteración puede ser agregada.
La pluralidad de frecuencias de centros de gravedad locales puede ser utilizada como base para generar una nueva pluralidad de frecuencias de inicio de iteración.
La pluralidad de frecuencias de inicio de iteración para la primera iteración de un bloque en el tiempo puede por ejemplo estar igualmente espaciadas entre sí, como se describe anteriormente o la pluralidad determinada de frecuencias de centros de gravedad locales 132 determinada para el bloque en el tiempo previo de la señal de audio puede ser usada como frecuencias de inicio de iteración para la primera iteración del bloque en el tiempo actual.
El fusionador de frecuencia 220 fusiona dos frecuencias de inicio de iteración adyacentes de la nueva pluralidad de frecuencias de inicio de iteración 122 si una distancia de frecuencia entre las dos frecuencias de inicio de iteración adyacentes es menor que una distancia de frecuencia mínima. Una vez más, la distancia de frecuencia y la distancia de frecuencia mínima pueden ser medidas en una escala lineal o escala logarítmica.
En otras palabras, el fusionador de frecuencia 220 puede reemplazar dos frecuencias de inicio de iteración adyacentes por una frecuencia de inicio de iteración si la distancia entre las dos frecuencias de inicio de iteración adyacentes es menor que un límite.
El removedor de frecuencia 230 remueve una frecuencia de inicio de iteración de la nueva pluralidad de frecuencias de inicio de iteración 132 si la frecuencia de inicio de iteración es más alta que una frecuencia máxima predefinida del espectro 102 de la señal de audio o si la frecuencia de inicio de iteración es menor que una frecuencia mínima predefinida del espectro 102 de la señal de audio. Por ejemplo, la frecuencia máxima predefinida puede ser la frecuencia más alta comprendida por' el espectro 102 y la frecuencia mínima predefinida puede ser la frecuencia más baja comprendida por espectro 102..
En otras palabras, el removedor de frecuencia 230 remueve frecuencias de inicio de iteración de la nueva pluralidad de frecuencias de inicio de iteración 122, si están ubicadas fuera del intervalo de frecuencia del espectro 102 de la señal de audio.
El adicionador de frecuencia 210 y el removedor de frecuencia 230 son unidades opcionales del aparato 200.
El adicionador de frecuencia 210, el fusionador de frecuencia 220 y el removedor de frecuencia 230 pueden ser unidades de elementos físicos independientes o integradas como se menciona para el determinador de desplazamiento 110, el determinador de frecuencia 120 y el controlador de alteración 130.
La Figura 3 muestra un diagrama de bloques de un aparato 300 paré determinar una pluralidad de frecuencias de centros de gravedad locales.132 de un espectro 102 de una señal de audio 302 de acuerdo con una modalidad de la invención. El aparato 300 es similar al aparato mostrado en la Figura 1, pero comprende adicionalmente un pre-procesador 310. El pre-procesador 310 es conectado al determinador de desplazamiento 110. El pre-procesador 310 genera un espectro de transformación de Fourier para un bloque de tiempo de la señal de audio 302 y genera un espectro suavizado en base al espectro de transformación de Fourier del bloque en el tiempo. Además, el pre-procesador 310 genera el espectro 102 de la señal de audio 302 a ser provisto al determinador de desplazamiento 110 al dividir el espectro de transformación de Fourier por el espectro suavizado. Luego, el pre-procesador 310 mapea el espectro a una escala logarítmica y provee el espectro logarítmico 102 al determinador de desplazamiento 110. Alternativamente, el pre-procesador 310 puede mapear el espectro de transformación de Fourier a una escala logarítmica antes de generar el espectro suavizado y antes de dividir el espectro de transformación de Fourier por el espectro suavizado .
En algunas modalidades, para cada bloque de señal (bloque en el tiempo) , se obtiene un valor estimativo de la densidad espectral de potencia (psd) al- calcular la energía espectral de DFT . Subsecuentemente, con el fin de remover la tendencia global, el psd es estimado en base a un psd suavizado que es calculado, por ejemplo, al ajustar un polinomio de bajo orden, que efectúa suavizado cepstral o mediante filtración junto con dirección de frecuencia. Antes de la división, ambas cantidades pueden también ser suavizadas temporalmente, por ejemplo, mediante' un filtro de IIR de primer orden con constante de tiempo de, por ejemplo, 200 ms . Enseguida, un mapeo del psd es efectuado sobre una escala perceptual (escala logarítmica) antes del cálculo de COG y segmentación, por ejemplo, con el fin de facilitar la tarea de segmentar un espectro a bandas perceptualmente adaptadas no uniforme y al mismo tiempo COG centradas. Mediante esto, el problema puede ser simplificado a la tarea de una alineación de un conjunto de segmentos aproximadamente ' uniformes con las posiciones de COG locales estimadas de la señal. Como una escala perceptual, la escala de ERB (véase "B. C. J. Mooré and B.R. Glasberg, "A revisión of Zwicker' s loudness model", Acta Acústica, vol. 82, pp. 335-345, 1996") puede ser aplicada que proporciona una resolución espectral mejor a frecuencias más bajas que por ejemplo, la escala de BARK. Sin embargo, la escala de BARK puede también ser usada. El espectro mapeado puede ser calculado mediante interpolación del espectro muestreado uniformemente hacia muestras espectrales que son espaciadas siguiendo la escala de ERB (véase ecuación 2).
ERB (f) = 21.4 logio (0.00437/ + 1) ¦ (2) Alternativamente, para cada bloque de señal, se obtiene un valor estimativo de la densidad espectral de potencia (psd) al calcular la energía espectral de DFT . Enseguida, se efectúa un mapeo del psd sobre una escala perceptual antes del cálculo del COG y segmentación con el fin de facilitar la tarea de segmentación de un espectro1 a bandas no uniformes adaptadas perceptualmente y al mismo tiempo, COG centradas. Mediante esto, el problema es simplificado a la tarea de alineación de un conjunto de segmentos aproximadamente uniformes con las posiciones de COG locales estimadas de la señal. Como una escala perceptual, l escala de ERB es aplicada que proporciona mejor resolución espectral a frecuencias más bajas que, por ejemplo la escala de BARK. El espectro mapeado es calculado mediante interpolación del espectro muestreado uniformemente hacia muestras espectrales que están espaciadas siguiendo la escala de ERB (véase ecuación 2) .
Subsecuentemente, con el fin de remover la tendencia global inherente en los espectros de señal de audio del mundo real, el psd mapeado es normalizado sobre su tendencia que es calculada mediante minimización de regresión lineal de mínimos cuadrados. Antes de la división, ambas cantidades son suavizadas temporalmente mediante la aplicación de por ejemplo, filtros IIR de primer orden H (z) que tienen una constante de tiempo de, por ejemplo, t = 200 ms como se define por las ecuaciones 2a, en donde T es el período de muestra de sub-banda de DFT dado por el período de muestra de entrada multiplicado por el avance temporal del DFT. 1 H(z) = 1— ci\z~l (2a) Estas etapas de pre-procesamiento pueden impedir una polarización global hacia bajas frecuencias en la iteración de posición de COG subsecuente y estabiliza las posiciones estimadas para' bloques temporalmente sucesivos, respectivamente.
La Figura 3a muestra un ejemplo para un diagrama 350 de un espectro mapeado 360 y un espectro suavizado 370 representado por una tendencia lineal.
El pre-procesador 310 puede ser una unidad de elementos físicos separada, parte de un procesador de señales digitales, un microprocesador o una computadora o realizado como un programa de elementos de programación.
La Figura 15 muestra un diagrama de flujo de un método 1500 para determinar una pluralidad de frecuencias de centros de gravedad locales de un espectro de una señal de audio de acuerdo con una modalidad de la invención. El método 1500 describe un ejemplo más detallado para la estimación del centro de gravedad iterativa descrito anteriormente.
Para cada bloque de tiempo k., una lista de candidatos de posición sorteada c puede ser inicializada 1510 con una rejilla espaciada uniformemente de N posiciones candidatas c(n) que tienen un espaciamiento S. El parámetro S ajusta la resolución espectral de los valores estimativos obtenidos en el curso del proceso de iteración. En otras palabras, el parámetro S puede determinar lo que se considera ser el alcance local de la estimación del COG. c(n) = nS n€[l,2...,JV] (3) Por ejemplo, utilizando una longitud de bloque de tiempo de 2?14 muestras, el espectro de DFT consiste de 2A13+1 muestras. Aquellas son mapeadas a una representación de escala de ERB que también tiene 2A13+1 muestras. Escoger una resolución de COG equivalente a 0.5 ERB, esto da S = 47 muestras a una' frecuencia de toma de muestras de 48kHz y de aquí N = 174 candidatos espaciados igualmente iniciales. En la iteración, por ejemplo, 40-50 posiciones de COG finales son estimadas. El número total de posiciones de COG' finales es dependiente de las características de señal, los pesos g(i) y la resolución de COG medida en ERB (véase también ecuación 4). Valores sensibles para la resolución de COG están, por ejemplo, en el intervalo de 0.1 - 1 ERB. _ El proceso de iteración consiste de dos bucles. El primer bucle calcula 1410 la posición desplazada posOff(n) de la posición candidata c(n) a partir del centro de gravedad local verdadero mediante -la aplicación de una función dependiente lineal negativa a positiva de tamaño 2S, ponderada por pesos g(i), a cada posición candidata n sobre el valor estimativo de psd pre-procesado de un bloque de señal (véase ecuaciones ) . poHOffin) = redonda (?> ff •^ ( ) w„ (i ) = psd (c (n) + idx («) )¦ g {%) iávOff (i) = i - S + 0 idx (i) = redondo (idxOff (t)j ¿ e [0, 1, 2..., 25* - l] · (4) En otras palabras, el determinador de desplazamiento 110 puede determinar la frecuencia de desplazamiento, también llamada desplazamiento de posición, en base a una pluralidad de valores de muestra discretos del espectro (los valores de densidad espectral de potencia en este ejemplo) y una pluralidad de valores correspondientes de un parámetro de peso • g(i) y valores correspondientes de un parámetro de distancia idxOff(i). Los valores del parámetro de distancia pueden estar espaciados igualmente entre si en una escala- logarítmica, en donde todos los valores del parámetro de distancia son más pequeños que un valor de distancia máximo (en este ejemplo S) . Además, el parámetro de distancia puede tomar valores positivos o negativos-, como por ejemplo se muestra por las ecuaciones 4. El parámetro de peso puede estar basado en una función de ventana, como por ejemplo un rectángulo o una ventana con más o menos bordes empinados. De esta manera, la influencia de picos grandes lejos de la frecuencia de inicio de iteración (también llamada candidata en este ejemplo) , para los cuales la frecuencia de desplazamiento es determinada actualmente, es reducida. En otras palabras, los valores del parámetro de peso pueden ser todos los mismos (por ejemplo para un rectángulo) o los valores del parámetro de peso pueden disminuir para incrementar los valores absolutos del parámetro de distancia correspondiente (por ejemplo, para reducir la influencia de picos con distancia grande) .
En la Figura 15a, se visualiza el procedimiento de desplazamiento de posición del candidato posOff(n). Las gráficas derivadas 1590 corresponden a las muestras de psd locales- wn(i) centradas en la posición candidata c(n), la función de ventana es representada por valores g(i) y la función de pendiente lineal es denotada por idxOff (i) .
En una siguiente etapa (véase ecuación 5), todas las posiciones candidatas de la lista son actualizadas 1420 por su desplazamiento de posición. c (n) := c(«} + posOff (n) Cada posición candidata que viola las limitaciones de frontera (frecuencias más altas que la frecuencia máxima del espectro y más bajas que la frecuencia mínima del espectro) es removida 1525 de la lista como se indica por (véase ecuación 6) y el número de posiciones candidatas restantes N es diminuido por 1. íf (c(n) < 5) v (c(n) >NS ? c(x) := c(x + 1) Var€ (n4- 1, N - 1] Si el valor absoluto de la suma de los desplazamientos de posición actuales y previos de un candidato como se define en (véase ecuación 7a) es¦ más pequeño que un umbral predefinido, esta posición candidata c(n) no '.es actualizada en iteraciones adicionales sino que todavía permanece en la lista y es así sometida al mecanismo de fusión de candidatos subsecuente. sumOff (ñ) = posOf jk (»). + posOf fk-i (ti.) (7a) Si sumOff(n) de todos los candidatos es más pequeño que un umbral predefinido (véase ecuación 7b) se sale del primer bucle de iteración 1440 terminando mediante esto el proceso de iteración. Todos los candidatos restantes de la lista constituyen el conjunto final de valores estimativos de posición de COG. Nótese que al usar este tipo de condición también termina la iteración en el caso de que si el desplazamiento de posición bascula relativamente entre dos valores siempre asegurando mediante esto terminación apropiada. max (|sum(-)// (n) |) < umbral 1 (7b) De otra manera, la siguiente etapa de iteración puede ser ejecutada con las posiciones candidatas actualizadas 1520.
Por ejemplo, thresl puede ser ajustado igual o más pequeño que una muestra (2 muestras, 5 muestras o 10 muestras) .
El segundo bucle fusiona iterativamente 1540 los dos candidatos de posición más cercanos (de acuerdo con una cierta medida de proximidad) que violan 1570 una restricción de proximidad predefinida debida a la actualización .de posición provista por el primer bucle, al un solo nuevo candidato, tomando en cuenta mediante esto la fusión perceptual. La medida de proximidad prox2 1530 es la distancia espectral de los dos candidatos (véanse ecuaciones 8) . próx2 < umbral 2 . prox'2 = |c(n)—¦ c(n + 1)| ' umbral2 := S (8) Por ejemplo, thres2 (umbral2) puede ser ajustado a S muestras, S/2 muestras, 2S muestras u otro valor entre 1 muestra y IOS muestras.
Gada candidato adjunto recién calculado es inicializado para ocupar la posición promedio ponderada de energía de las dos candidatos anteriores (véanse ecuaciones 9) . f , . w(n)c(n) +w(n + l)c(n + 1)\ c(n) := redondo ———^- —: — - w(n) + w(n + l) J . w ( ) =? w (*) =? (Psd (c (n) + idx(0) · 9 (»).) c ( ) := c (x + 1) Va;€ [n + 1, .
N := N- 1 (9) Ambos candidatos anteriores son cancelados de la lista y el nuevo candidato adjunto es agregado a la lista. Consecuentemente, el número de posiciones candidatas restantes N es disminuido por 1. La iteración del segundo bucle termina 1570 si no más candidatos violan la restricción de proximidad. El conjunto final de candidatos de COG constituye las posiciones de centros de gravedad locales estimadas.
La frecuencia de centros de gravedad estimadas pueden ser guardadas 1560, transmitidas o provistas para procesamiento adicional.
Con el fin de acelerar el proceso de iteración, la inicialización de cada nuevo bloque se puede 'hacer ventajosamente utilizando el valor estimativo de posición de COG del bloque previo puesto que ya es un valor estimativo bastante bueno de las condiciones actuales. Por ejemplo, esto se aplica debido a la superposición de bloques en el análisis y el suavizado temporal en el pre-procesamiento, de aquí la suposición aproximada de una proporción de cambio limitado en evaluación temporal de posiciones de COG.
Todavía, se tiene que tener cuidado de proveer suficientes valores estimativos de posición inicial para también capturar el surgimiento posible de un nuevo COG. Por consiguiente, las separaciones de candidatos de posición en el valor estimativo abaxca una distancia mayor que un valor predefinido, por ejemplo ubicado en un intervalo S,...,2S, son satisfechos por nuevos candidatos de posición de COG (véase ecuaciones 10) asegurando así que nuevos candidatos potenciales estén dentro del alcance de la función de actualización de posición. La Figura 16 muestra un diagrama de flujo de esta extensión 1600 al algoritmo. La aposición de candidatos adicionales a la lista se lleva a cabo con un bucle que termina 1620 si no se encuentran espacios más grandes de 2S.
SÍ proxl > 2S ? pwl=c(n + l)-.c(rt) c {x + 1) := c (¾) Vrr€ [Nt N- 1, n+ 1] + redondo (*W + c(n*i^ ..
?G := N + l ' · (10) En otras palabras, para una pluralidad de frecuencias de centros de gravedad locales o valores estimativos de centros de gravedad locales 1602, la distancia de frecuencia entre frecuencias de centros de gravedad locales adyacentes es calculada 1610. Si 1620 la distancia de frecuencia entre dos frecuencias de centros de gravedad adyacentes es mayor que una distancia de frecuencia máxima, se agrega una frecuencia de centros de gravedad local 1630 a la pluralidad de frecuencias de centros de gravedad locales. Después de llenar todos los espacios mayores que la distancia de frecuencia máxima, la pluralidad de frecuencias de centros de gravedad locales puede ser guardada 1640 para el siguiente bloque de tiempo.
Las Figuras 4, 5, . 6, y 7 visualizan resultados obtenidos por el algoritmo de estimación de COG local iterativo propuesto descrito anteriormente que , ha sido aplicado a diferentes ítems de prueba. Los ítems de prueba son dos tonos puros separados 400, dos tonos que laten entre sí 590, cuerdas pulsadas 600 ("MPEG Test Set - sm03") y música orquestal ("Vivaldi - Cuatro Estaciones, Primavera, Allegro") 700. En estas figuras, el espectro mapeado perceptualmente, suavizado y-sin tendencias globalmente (normalizado) 410, 595, 610, 710 es mostrado junto con los valores estimativos de COG (números de referencia 12-26) . Los valores estimativos de COG son numerados en orden ascendente. Por ejemplo, mientras que los valores estimativos No. 22, No. 26 de la Figura 4 y valores estimativos No. 18 y No. 19 de la Figura 6 corresponden a componentes de señal sinusoidales, el valor estimativo No. 22 de la Figura 5, valores estimativos No. 22 y No. 25 de la Figura 6 y la mayoría de los valores estimativos de la Figura 7 capturan componentes del latido o espectralmente ampliados, que son no obstante detectados y segmentados bien, agrupándolos así en unidades perceptuales .
La Figura 8 muestra un diagrama de bloques de una banda de filtros adaptable de señal 800 de acuerdo con una modalidad de la invención. El banco de filtros adaptables de señal 800 comprende un aparato 100 para determinar una pluralidad de frecuencias de centros de gravedad locales 132 de un espectro de una señal de audio 802 y una pluralidad de filtros de paso de banda 810. La pluralidad de. filtros de paso de banda 810 están configurados para filtrar la señal de audio 802. y para proveer la señal de audio filtrada 812 para transmisión, almacenamiento o procesamiento adicional. Para esto, una frecuencia central y un ancho de banda de cada filtro de paso de banda de la pluralidad de filtros de paso de banda 810 está básada en la pluralidad de frecuencias de centros de gravedad locales 132.
Por ejemplo, cada filtro de paso de banda de la pluralidad de filtros de paso de banda 810 corresponde a una frecuencia de centro de gravedad local, en donde la frecuencia central y el ancho de banda del filtro de paso de banda depende de la frecuencia de centro de gravedad local correspondiente y las frecuencias de centros de gravedad locales adyacentes de la frecuencia de centros de gravedad locales correspondiente.
El ancho de. banda de la pluralidad de filtros de paso de banda 810 puede ser determinado, de tal manera que todo el espectro es cubierto sin agujeros.
Los filtros pueden ser diseñados en una escala de frecuencia logarítmica de acuerdo con los valores estimativos de. COG originales obtenidos en una escala logarítmica y los pesos espectrales' resultantes pueden ser mapeados al dominio lineal o alternativamente, en otras modalidades, los filtros pueden ser diseñados en el dominio lineal de acuerdo con las posiciones de COG re-mapeadas.
En otras palabras, para la última modalidad, después de haber determinado los valores estimativos de COG, por ejemplo, el dominio adaptado de ERB, las posiciones de COG son mapeadas de regreso al dominio lineal al resolver la ecuación 2 para f y subsecuentemente, e ' el dominio lineal, se calcula un conjunto de N filtros de paso de banda en forma de pesos espectrales, que van a ser aplicados directamente al espectro de DFT original de la señal de banda amplia.
Para la primera modalidad y modalidad preferida, las posiciones de COG son procesadas adicionalmente en el dominio de ERB. Se calcula un conjunto de N filtros de paso de banda en forma de funciones de ponderación espectral pesosn de longitud M de acuerdo con las ecuaciones (10a). En otras palabras, se puede calcular un conjunto de filtros de paso de banda en forma de pesos espectrales, que son, después de un mapeo al dominio lineal, aplicados al espectro de DFT¦ original de la señal de banda amplia.
Por ejemplo, los > filtros de paso de banda están diseñados para tener una variación progresiva (roll-off ) de longitud 2 · variación progresiva con característica de seno-cuadrado. Para obtener la alineación deseada con las posiciones de COG estimadas, se puede aplicar el proceso de diseño descrito en lo siguiente.
En primer lugari se calculan las posiciones medias entre valores estimativos de posición de COG adyacentes, en donde mL(n) denota el punto medio inferior y m0(n) el punto medio superior de una posición de COG c(n) en relación con sus vecinos. Luego, en estos puntos de transición, las partes de variación progresiva de los pesos espectrales son centradas de tal manera que las. partes de variación progresiva de filtros vecinos se suman a uno. La sección media de la función de ponderación de paso de banda es escogida para ser plana en la parte superior igual a uno, los puntos de muestra restantes son ajustados a cero. Los filtros para n = 0 y n = N tienen solamente una parte de variación progresiva y están configurados para ser de paso de bajos o de paso de altos, respectivamente. [sen 2 (ki (ni)) mL (n) - rollOff < in < mL (n) + rollOff f < pesosn (m) = ) 1 W¿ (n) + rollOf m < my (n)— rollOff sen 2 '.(½ ('»)) mu in) ~ c llO f f < m < mu (n) + rollOff 0 de otra manera m e [?,?..., -l] (ti.)— c(n— 1)' m¿ (n) = redondo 2 c (n + 1) c (n) mu (n)= redondo 7 hL (in) = (m - m.L (n) + rollOff) 4 · rollOf f ku (m) = (m - mu (n) - rollOff) i _ mü0^ + ^ (10a) En el diseño de la variación progresiva característica, se tiene que hace un intercambio con respecto a la selectividad espectral por una parte y resolución temporal por otra parte. También, el permitir múltiples filtros que se superpongan espectralmente puede agregar un grado de libertad adicional a las restricciones de diseño. El intercambio puede ser escogido de manera adaptable de señal, por ejemplo mejorando sobre la reproducción de transitorios.
Finalmente, las posiciones de COG y las funciones de ponderación espectral son mapeadas de regreso al dominio lineal al resolver la ecuación (2) para f obteniendo la ecuación (10b) . Finalmente, los pesos espectrales en una escala lineal son producidos, que van a ser aplicados al espectro DFT de la señal de banda amplia. (10b) Al utilizar un espectro logarítmico y una frecuencias de inicio de iteración igualmente espaciadas, se puede obtener la tendencia para una segmentación perceptual (anchos de banda pequeños para bajas frecuencias y anchos de banda grandes para altas frecuencias) aunque en algunas regiones del espectro, el ancho de banda de filtros para bajas frecuencias podría ser mayor que el ancho de banda de filtros para frecuencias más altas, puesto que las posiciones de las frecuencias de centro de gravedad locales depende de la señal de audio.
Por ejemplo, los bordes de los filtros de paso de banda pueden estar ubicados en la parte media de cada dos frecuencias de centros de gravedad adyacentes en una escala logarítmica o una escala lineal. Alternativamente, también puede ser posible una superposición de varios filtros de paso de banda .
Algunas modalidades de la invención son concernientes con una aplicación del concepto descrito para bancos de filtros o vocoders de fase. El concepto descrito puede ser usado para manipulación de música, por ejemplo, para cambiar alturas de solamente uno de un número predefinido de canales.
Eñ las Figuras 9 y 10, el psd original, no pre-procesado 910, 1010 del bloque de señal 900, 1000 es ilustrado y un conjunto de filtros de paso de banda 920, 1020 es bosquejado, que ha sido diseñado como se resume anteriormente.
Es claramente visible que cada filtro está alineado con un valor estimativo de COG y se superpone suavemente de par en par con sus filtros de sub-banda adyacentes. La Figura 9 corresponde a la Figura 6 y la Figura 10 corresponde a la Figura 7.
La Figura 11 muestra un diagrama de bloques' de un aparato 1100 para convertir una señal de audio 1102 a una representación parametrizada 1132 de acuerdo con una modalidad de la invención. El aparato 1100 comprende un aparato 100 para determinar una pluralidad de frecuencias de centros de gravedad locales 132 de un espectro de la señal de audio 1102, un estimador de paso de banda 1110, un estimador de modulación 1120 y una interfase de salida 1130.
El aparato 100 para determinar la pluralidad de frecuencias de centros de gravedad locales 132 es también llamado analizador de señal y el estimador de modulación 1120 comprende una pluralidad de filtros de paso de banda 810.
El analizador de señal 100 analiza. una porción de la señal de audio 1102 para obtener un resultado de análisis 132 en términos de las frecuencias de centros de gravedad locales 132. El resultado de análisis 132 es introducido a un estimador de paso de banda 1110 para estimar información 1112 en una pluralidad de filtros de paso de banda 810 para la porción de señal de audio en base al resultado de análisis de señal 132. Asi, la información 1112 en cuanto a la pluralidad de filtros de paso de banda 810 es calculada de manera señál-adaptable.
Específicamente, la información 1112 en cuanto a la pluralidad de filtros de paso de banda 810 comprende información en cuanto a una forma de filtro. La forma de filtro puede incluir un ancho de banda de un filtro de paso de banda y/o una frecuencia central del filtro de paso de banda para la porción de la señal de audio, y/o una forma espectral de una función de transferencia de magnitud en una forma paramétrica o una forma no paramétrica. Importantemente, el ancho de banda de , un filtro de paso de banda no es constante en todo el intervalo de frecuencia, sino que pude depender de la frecuencia central del filtro de paso de banda. Por ejemplo^ la dependencia es de tal manera que el ancho de banda se incrementa a frecuencias centrales más altas y disminuye a frecuencias centrales más bajas.
El analizador de señal 100 efectúa un análisis espectral de una porción de señal de la señal de audio y, particularmente, 'puede analizar la distribución de energía en el espectro para encontrar regiones que tienen una , concentración de energía, puesto que tales regiones son determinadas por el oído humano también cuando reciben y procesan adicionalmente sonido.
El . aparato de la invención 1100 comprende adicionalmente un estimador de. modulación 1120 para la estimación de una modulación de amplitud 1122 o una modulación de frecuencia 1124 para cada banda de la pluralidad de filtros de paso de banda 810 para la porción de la señal de audio. Para este fin, el estimador de modulación 1120 utiliza la información 1112 en cuanto a la pluralidad de filtros de paso de banda 810 como se discutirá posteriormente en la presente.
El aparato de la invención de la Figura 11 comprende adicionalmente una interfase de salida ' 1130 para transmitir, almacenar o modificar la información en cuanto a la modulación de amplitud 1112, la información de la modulación de frecuencia 1124 o la información en cuanto a la pluralidad de filtros de paso de banda 810, que puede comprender información de forma de filtro tale como los valores de las frecuencias centrales de los filtros de paso de banda para esta porción/bloque específico de la señal de audio u otra información como se discute anteriormente. La salida es una representación parametrizada 1132.
Las Figuras 12 y 12a ilustran dos modalidades preferidas del estimador de modulación 1120 y el analizador de señal 100 y el estimador de paso de banda 1110 combinados en una sola unidad, que es llamada "estimación de frecuencia portadora". El estimador de modulación 1120 comprende preferiblemente un filtro de paso de banda 1120a, que proporciona una señal de paso de banda. Esta es introducida a un convertidor de señal analítico 1120b. La salida del bloque 1120b es útil para calcular información de AM e información de FM. Para calcular la información AM, la magnitud de la señal analítica es calculada por el bloque 1120c. La salida del bloque de señal analítico 1120b es introducida a un multiplicador 1120d, que recibe, a su otra entrada, una señal de oscilador de un oscilador 1120e, que es controlado por la frecuencia portadora real fe 1210 del paso de banda 1120a. Luego, se determina la fase de la salida del multiplicador en el bloque 1120f. La fase instantánea es diferenciada en el bloque 1120g con el fin de obtener finalmente la información de FM. Además, la Figura 12a muestra un pre-procesador 310 que • genera un espectro de DFT de la señal de audio.
La descomposición de modulación de multibanda disecta la señal de audio a un conjunto adaptable de señal de señales de paso de banda (analítica) , cada una de las cuales es dividida adicionalmente en una portadora sinusoidal y su modulación de amplitud (??) y modulación de frecuencia (FM)'. El conjunto de filtros de paso de banda es calculado de tal manera que por una parte, el espectro de plena banda es cubierto sin costura y por otra parte, los filtros son alineados con COG locales cada uno. Adicionalmente, se toma en cuenta la percepción auditiva humana a escoger el ancho de banda de los filtros para coincidir con una escala perceptual, por ejemplo la escala de ERB (vé'ase "B. C. J. Mopre and B. R. Glasberg, "A • revisión of Zwicker's loudness model," Acta Acústica, vol . 82, pp.. 335-345, . 1996") . Los COG locales corresponden a la frecuencia media que es percibida por un usuario que escucha debido a las contribuciones espectrales en aquella región de frecuencia. Además, las bandas centradas en las posiciones de COG locales corresponden a regiones de influencia basadas en el bloqueo del fase de los vocoders de fase clásicos (véase "J. Laroche and M. Dolson, "Improved phase vocoder timescale modification of 10 audio", IEEE Transactions on Speech .and Audio Processing, vol. 7, no. 3, pp. 323-332, 1999", "Ch. Duxbury, M. Davies, and M. Sandler, "Improved timescaling of musical audio using phase locking at transients," in 112th AES Convention, ' 2002", "A. Róbel, "A new approach to transient processing in the phase vocoder," Proc. of the Int. Conf. on Digital Audio Effects' (DAFx) , ' pp. 344-349, 2003", "A. Róbel, "Transient detection and 15. preservation in the phase vocoder", Int. Computer Music Conference (ICMC'03), pp. 247- 250, 2003").
La representación de envolvente de señal de paso de banda ' y la región tradicional de bloqueo de fase de influencia ambas conservan la envolvente temporal de una señal de paso de banda: ya sea intrínsecamente o en el último caso, al asegurar coherencia de fase espectral local durante la síntesis. Con respecto a una portadora sinusoidal de una frecuencia correspondiente al COG local estimado, ambos AM y FM son capturados en la envolvente de amplitud y la fase heterodina de las señales de paso de banda analítica, respectivamente. Un método de síntesis dedicado produce la señal de salida de las frecuencias portadoras, AM y FM.
Un diagrama de bloques de la descomposición de señal en señales portadoras y sus componentes ~de modulación asociados es ilustrado eni la Figura 12. En la figura, se muestra el flujo de señal esquemático para la extracción de un componente. Todos los otros componentes son obtenidos de una manera similar. Prácticamente, . la extracción se lleva a cabo conjuntamente para todos los componentes en una base de bloque por bloque, utilizando por ejemplo un tamaño de bloque de N = 214 a una frecuencia de toma de muestras de 48 kHz y 75% de supersposición de análisis - correspondiente aproximadamente a un intervalo de tiempo de 340 ms y un avance o adelanto de 85 ms - mediante la aplicación de una transformada de Fourier discreta (DFT) en cada bloque de señal de ventana. La ventana puede ser una ventana de "parte superior plana" de acuerdo con la Ecuación (1). Esto puede asegurar que las N/2 muestras centradas que se hacen pasar para la síntesis de modulación subsecuente no son afectadas por las pendientes de la ventana de análisis. Se puede usar un grado de superposición más alto para una exactitud mejorada al costo de complejidad 'computacional incrementada. (1) Dada la representación espectral, enseguida, un conjunto de funciones de ponderación espectrales adaptables de señal (que tienen paso de banda característicos) que está alineado con las posiciones de COG locales puede ser calculado. Después de la aplicación de la ponderación de paso de banda al espectro, la señal es transformada al dominio de tiempo y la señal analítica- es derivada por la transformada de Hilbert. Estas dos etapas de procesamiento pueden ser combinadas eficientemente mediante el cálculo de la IDFT de un solo lado sobre cada señal de paso de banda. Subsecuentemente, cada señal analítica se vuelve heterodina por su frecuencia portadora estimada. Finalmente, la señal es descompuesta adicionalmente a su envolvente de amplitud y su pista de frecuencia instantánea (IF), obtenida al calcular la derivada de fase, que produce la señal de AM o FM deseada (véase también "S. Disch and B. Edler, "An amplitude- and frequency modulation vocoder for audio signal processing," Proc. of the Int. Conf. on Digital Audio Effects (DAFx) , 2008")- Apropiadamente, la Figura 13a muestra un diagrama de bloques de un aparato 1300 para sintetizar una representación parametrizada de una señal de audio. Por ejemplo, una implementación ventajosa está basada en una operación de superposición-adicional (OLA) en el dominio de modulación, esto es, en el dominio antes de la generación de la señal de paso de banda de dominio de tiempo. La señal de entrada, que puede ser una corriente de bits, pero que puede también ser una conexión directa a un analizador o modificador también, es separado en el componente de AM 1302, el componente de FM 1304 y el componente de frecuencia portadora 1306. El sintetizador de AM comprende preferiblemente un traslapador-adicionador - 1310 y, adicionalmente, un controlador de enlace de componente 1320 que, preferiblemente no solo comprende el bloque 1310 sino también el bloque 1330, que es un traslapador-adicionador dentro' del sintetizador de FM. El sintetizador de FM comprende adicionalmente un traslapador-adicionador de frecuencia 1330, un integrador de fase 1332, un combinador de fase 1334 que, otra vez, puede ser implementado como un adicionador regular y un desplazador de fase 1336 que es controlable por el controlador de enlace de componente 1320 con el fin de regenerar una fase constante de bloque a bloquear, de tal manera que la fase de una señal de un bloque precedente es continua con la fase de un bloque actúa. Por ejemplo, se puede decir que la adición de fase en los elementos 1334, 1336 corresponde a una regeneración de una constante que se perdió durante la diferenciación en el. bloque 1120g en la Figura 12 en el lado del analizador. Desde una perspectiva de pérdida de información en el dominio perceptual, se notará que esta es la única pérdida de información, esto es,' la pérdida de una porción constante por el dispositivo de diferenciación 1120g en la Figura 12. Esta pérdida puede ser recreada al agregar una fase constante determinada por el dispositivo de enlace de componente 1320.
La superposición-adición (OLA) es aplicada al dominio de parámetro en lugar en lugar de en la señal sintetizada fácilmente con el fin de evitar efectos de latido entre bloques de tiempo adyacentes. El OLA es controlado por un mecanismo de enlace de componente que, direccionado por la vecindad espectral (medida en una escala de ERB) , efectúa una correspondencia de par en par de componentes del bloque actual con sus predecesores en el bloque previo. Adicionalmente, el enlace alinea la fase de componentes absolutas del bloque real a una de las del bloque previo.
En detalle, en primer lugar la señal de F es agregada a la frecuencia portadora y el resultado se hace pasar a la etapa de OLA, la salida de la cual es integrada subsecuentemente. Un oscilador sinusoidal 1340 es alimentado por la señal de fase resultante. La señal de AM es procesada by por una segunda etapa de OLA. Finalmente, la salida del oscilador es modulada 1350 en su amplitud por la señal de AM resultante para obtener la contribución aditiva del componente a la señal de salida 1360.
Se debe enfatizar que una segmentación espectral apropiada de la señal dentro del análisis de modulación es de gran importancia para un resultado convincente de cualquier procesamiento de parámetro de modulación adicional. Por consiguiente, en la presente un nuevo algoritmo de segmentación apropiado es presentado.
Apropiadamente, la Figura 13b muestra una aplicación del concepto descrito 1300 para cambios de modo de tono polifónicos.
La transposición de una señal de audio en tanto que se mantiene la velocidad de reproducción original es una tarea desafiante. Utilizando el sistema propuesto, esto es obtenido de manera directa mediante multiplicación de todos los componentes portadores con un factor constante. Puesto que la estructura temporal de la señal de entrada es solamente capturada por las señales de AM está sin afectar por el estiramiento de desplazamiento espectral de la portadora.
Un efecto aún más demandante puede ser obtenido mediante procesamiento selectivo: el modo de tono de una pieza de música puede ser cambiado de, por ejemplo menor a mayor o viceversa. Por consiguiente,- solamente un , subconjunto de portadoras que corresponden a ciertos intervalos de frecuencia predefinidos es mapeado a nuevos valores apropiados. Para obtener esto, las frecuencias portadoras son cuantificadas 1370 a alturas de MIDI que son mapeadas subsecuentemente 1372 sobre nuevos tonos de MIDI apropiados (utilizando un conocimiento a priori del modo y tono del ítem de música a ser procesado) . El procesamiento necesario es ilustrado en la Figura 13b.
Para el caso de una conversión entre un modo mayor y un modo menor natural, las alturas de MIDI a ser mapeadas pueden ser derivadas del circulo de quinta 1390 como se ilustra en la 'Figura 13c. La conversión mayor a menor es obtenida mediante 'un salto de tres etapas en dirección contraria de ' las manecillas del reloj, cambio menor a mayor por tres etapas en la dirección, de las manecillas del reloj . Finalmente, las notas de MIDI mapeadas son convertidas de regreso 1374 con el fin de obtener 1376 las frecuencias portadoras modificadas que son usadas para la síntesis 1378. Una detección de inicio/desplazado de nota de MIDI dedicada no es requerida puesto que las características temporales son representadas predominantemente por la 7?? sin modificar y así conservadas. Tablas de mapeo arbitrarias pueden ser definidas que permite la conversión a y de otros sabores menores (por ejemplo, armónica menor) .
La Figura 14 muestra un diagrama de flujo de un método 1400 para determinar una pluralidad de frecuencias de centros de gravedad locales de un espectro de una, señal de audio de acuerdo con una modalidad de la invención. El método 1400 comprende determinar 1410.una frecuencia de desplazamiento para cada frecuencia de inicio de iteración de una pluralidad de frecuencias de inicio de iteración, determinar 1420 una nueva pluralidad de frecuencias de inicio de iteración y proveer 1430 la nueva pluralidad de frecuencias de inicio de iteración para una iteración adicional o proveer 1440 la pluralidad de frecuencias de centros de gravedad locales. La frecuencia de desplazamiento para cada frecuencia de inicio de iteración de la pluralidad de frecuencias de inicio de iteración es determinada 1410 en base al espectro de las señales de audio, en donde un número de .valores de muestra discretos del espectro es mayor que un número de frecuencias de inicio de iteración. La nueva pluralidad de frecuencias de inicio de iteración es determinada 1420 al incrementar o reducir cada frecuencia de inicio de iteración de la pluralidad de frecuencias de inicio de iteración por la frecuencia de desplazamiento determinada correspondiente. La pluralidad de frecuencias de centros de gravedad locales es provista 1440 para almacenamiento, transmisión o procesamiento adicional, si se satisface una condición de terminad predefinida. Para esto, la pluralidad de frecuencias de centros de gravedad locales es ajustado igual a la nueva pluralidad de frecuencias de inicio de iteración.
Algunas modalidades .de acuerdo con la invención son concernientes con un algoritmo de segmentación iterativo de espectros de señales de audio dependiendo de centros de gravedad locales estimados.
La. producción de música moderna y generación de sonido depende frecuentemente de la manipulación de piezas pre-grabadas de audio, las llamadas muestras, tomadas de una base de datos enorme. Consecuentemente, hay una necesidad incrementada por adaptar extensamente estas muestras a cualquier nuevo contexto musical de una manera flexible. Para este propósito, el procesamiento de señales digitales avanzando es necesario con el fin de revisar efectos de audio como desplazamiento de altura, estiramiento en el tiempo o armonización. Frecuentemente, una parte clave de estos métodos de procesamiento es una operación de segmentación espectral a base de bloques de señal adaptable. De aquí, se propone un nuevo algoritmo para tal segmentación espectral basada en centros de gravedad locales (COG) . Por ejemplo, el método puede ser usado para una descomposición de modulación de multibanda para señales de audio. Además, este algoritmo puede también ser usado en el contexto más general de aplicaciones relacionadas con vocoder mejoradas.
En algunas modalidades el algoritmo de segmentación propuesto en la presente consiste de una lista de candidatos de posición espectral de COG inicial que es actualizada iterativamente por valores estimativos refinados. En el proceso de refinación, la adición, cancelación o fusión de candidatos es incorporada, asi el método no requiere un conocimiento a priori del número total de valores estimativos de COG finales. La iteración puede ser implementada mediante dos bucles. Todas las operaciones necesarias son efectuadas sobre una representación espectral de la señal.
Una etapa importante en la manipulación de música basada en bloques (polifónica) es la estimación de centros de gravedad locales (COG) en espectros sucesivos con el paso del tiempo. Motivados por el desarrollo de una descomposición de modulación de multibanda señal-adaptable, un método y algoritmo detallado que estima múltiples COG locales en el espectro de una señal de audio arbitraria ha sido propuesto. Además, se ha descrito un esquema de diseño para un conjunto de filtros de paso de banda resultantes alineados a las posiciones de COG estimadas. Estos filtros pueden ser utilizados para separar subsecuentemente la señal de banda amplia a señales de sub-banda adaptadas perceptualmente dependientes de la señal.
Resultados ejemplares obtenidos por la aplicación de este método han sido presentados y discutidos. Desarrollado en el contexto de un esquema de descomposición de modulación de mlutibanda dedicado, el algoritmo propuesto puede potencialmente ser usado en el contexto más general de postprocesamiento de audio, efectos de audio y aplicaciones de vocoder mejoradas.
En contraste con los métodos de reasignación de t-f, el algoritmo descrito efectúa directamente una segmentación espectral en una escala perceptualmente adaptada, en tanto que la reasignación de t-f provee solamente un espectrograma mejor localizado y deja el problema de segmentación a etapas más tarde, por ejemplo rastreo parcial.
En contraste con los métodos que tienen como objetivo la estimación de múltiples frecuencias fundamentales, el procedimiento presentado no intenta descomponer la señal en sus fuentes, sino más bien segmentos de espectros en unidades perceptuales que pueden ser manipuladas adicionalmente de manera conjunta.
Entre otros aspectos, un nuevo algoritmo de estimación de COG local múltiple seguido por la derivación de un conjunto de filtros de paso de banda alineados con las posiciones de COG estimadas es descrito. Algunos datos de resultado ejemplares de la estimación de COG y su conjunto asociado de filtros de paso de banda es presentado y discutido.
Aunque algunos aspectos han sido descritos en el contexto de un aparato, es claro que estos aspectos1 también representan una descripción del método correspondiente, en donde un bloque o dispositivo corresponde a una etapa de método o un elemento de una etapa de método. Análogamente, aspectos descritos en el contexto de una etapa de método también ¦representan una descripción de; un bloque o ítem o elemento correspondiente de un aparato correspondiente.
La señal de audio codificada de la invención puede ser almacenada en un medio de almacenamiento digital o puede sér transmitida en un medio" de transmisión tal como un medio de transmisión inalámbrico o un medio de transmisión cableado tal como Internet.
Dependiendo de ciertos requerimientos de implementación, las modalidades de la invención pueden ser implementadas en elementos físicos o en elementos de programación. La implementación puede ser efectuada utilizando un medio de almacenamiento digital, por ejemplo un disco flexible, un DVD, un Blue-Ray, un CD, un ROM, una PROM, una EPROM, una EEPROM o una memoria instantánea, que tiene señales de control que se pueden leer electrónicamente almacenadas en el mismo-, que cooperan (o son aptas de cooperar) con un sistema de computadora programable de tal manera que el método respectivo es efectuado. Por consiguiente, el medio de almacenamiento digital puede ser leíble por computadora.
Algunas modalidades de acuerdo con la invención comprenden un portador, de datos que tiene señales de control que se pueden leer electrónicamente que son aptos de cooperar con un sistema de computadora programable, de tal manera que uno de los métodos descritos en la presente es efectuado.' En general, las modalidades de la presente invención pueden ser implementadas como un producto de programa de computadora con códigos de programas, los códigos de programa son operativos para efectuar uno de los métodos cuando el producto de programa de computadora se ejecuta en una computadora. Los códigos de programa pueden por ejemplo ser almacenados en un portador que se puede leer por la máquina.
Otras modalidades comprenden el programa de computadora para efectuar uno de los métodos descritos en la presente, almacenados en un portador que se puede leer por la máquina.
En otras palabras, una modalidad del método de la invención es, por consiguiente, un programa de computadora que tiene códigos de programa para efectuar uno de los métodos descritos en la presente, cuando el programa de computadora se ejecuta en una computadora.
Una modalidad adicional de los métodos de la invención es, por consiguiente, un portador de datos (o un medio de almacenamiento digital o un medio que se puede leer por computadora) que comprende, grabados en el mismo, el programa de computadora para efectuar uno de los métodos descritos en la presente.
Una modalidad adicional del método de la invención es por consiguiente, una corriente de datos o una secuencia de señales que representan el programa de computadora para efectuar uno de los métodos descritos en la presente. La corriente de datos o la secuencia de señales pueden por ejemplo estar configurados para ser transferidos vía una conexión de comunicación de datos, por ejemplo vía Internet.
Una modalidad adicional comprende medios ¦ de procesamiento, por ejemplo una computadora, o un dispositivo lógico programable, configurado para o adaptado para efectuar uno de los métodos descritos en la presente.
Una modalidad adicional comprende una computadora que tiene instalado en la misma el programa de computadora para efectuar uno de los métodos- descritos en la presente.
En algunas modalidades, se puede usar un dispositivo lógico programable (por ejemplo un arreglo de compuerta programable en el campo) para efectuar algunas o todas las funcionalidades de los métodos descritos: en la presente. En algunas modalidades, un arreglo de compuertas programable en el campo puede cooperar con un microprocesador con el fin de efectuar uno de los métodos descritos en la presente. En general, los métodos son efectuados preferiblemente por cualquiera aparato de elementos físicos.
Las modalidades descritas anteriormente son solamente ilustrativas de los principios de la presente invención. Se comprenderá que modificaciones y variaciones de las disposiciones y los detalles descritos en la presente serán evidentes para otros experimentados en el arte.
Es la intención, por consiguiente, estar limitado solamente por el alcance de las reivindicaciones de patente pendientes y no por los detalles específicos presentados como descripción y explicación de las modalidades de la presente.

Claims (22)

REIVINDICACIONES
1. Un aparato para determinar una pluralidad de frecuencias de centros de gravedad locales de un espectro de una señal de audio, el aparato está caracterizado porque comprende : un determinador de desplazamiento configurado para determinar una frecuencia de desplazamiento para cada frecuencia de inicio de iteración de una pluralidad de frecuencias de inicio de iteración en base al espectro de la señal de audio, en donde el número de valores de muestra discretas del espectro es mayor que el número de frecuencias de inicio de iteración; un determinador de frecuencia configurado para determinar una nueva pluralidad d frecuencias de inicio de iteración al incrementar o reducir cada frecuencia de inicio de iteración de la pluralidad de frecuencias de inicio de iteración por la frecuencia de desplazamiento determinada correspondiente; y un controlador de iteración configurado para proveer la nueva pluralidad de frecuencias de inicio de iteración al determinador de desplazamiento para una iteración adicional o para proveer la pluralidad de frecuencias de centros de gravedad locales, si se satisface una condición de terminación predefinida, en donde la pluralidad de frecuencias de centros de gravedad locales es igual a la nueva pluralidad de frecuencias de inicio de iteración.
2. El aparato de conformidad con la reivindicación 1, caracterizado porque el determinador de desplazamiento está configurado para determinar la frecuencia de desplazamiento para una frecuencia de inicio de iteración en base a una pluralidad de valores de muestra discretos del espectro, valores . correspondientes de un parámetro de peso y valores correspondientes de una parámetro de distancia.
3. El aparato de conformidad con la reivindicación 2, caracterizado porque los valores del parámetro de distancia están igualmente espaciados entre si én una escala logarítmica, en donde todos los valores del parámetro de distancia son menores que un valor de distancia máxima.
. El aparato de conformidad con la reivindicación 2 ó 3, caracterizado porque los valores del parámetro de peso son todos iguales o -los valores del parámetro de peso son decrecientes para incrementar los -valores absolutos del parámetro de distancia correspondiente.
5. El aparato de conformidad con cualquiera de las reivindicaciones 1 a 4, caracterizado porque el determinador de desplazamiento está configurado para determinar la frecuencia de desplazamiento para cada frecuencia de inicio de iteración en base al espectro, en donde el espectro comprende una escala logarítmica.
6. El aparato de conformidad con cualquiera de las reivindicaciones 1 a 5, caracterizado porque el aparato está configurado para determinar una pluralidad de frecuencias de centros de gravedad locales para cada bloque de tiempo de una pluralidad de bloques de. tiempo de la señal de audio.
7. El aparato de conformidad con la reivindicación 6, caracterizado porque la pluralidad de frecuencias de inicio de iteración es inicializada espaciadas igualmente entre si en una escala logarítmica para una primera iteración de un bloque de tiempo de la pluralidad de bloques de tiempo.
8. El aparato de conformidad con la reivindicación 6, caracterizado porque la pluralidad de frecuencias de inicio de iteración para una primer.a iteración de un bloque de tiempo está basada en una pluralidad de frecuencias de centros de gravedad locales determinadas para un bloque de tiempo previo.
9. El aparato de conformidad con cualquiera de las reivindicaciones 1 a 8, caracterizado porque comprende un adicionador de frecuencia configurado para agregar una frecuencia de inicio de iteración a la nueva pluralidad de frecuencias de inicio de iteración, si la distancia de frecuencia entre dos frecuencias de inicio de iteración adyacentes de la nueva pluralidad de frecuencias de inicio de iteración es mayor que una distancia de frecuencia máxima.
10. El aparato de conformidad con cualquiera de las reivindicaciones 1 a ,9, caracterizado porque comprende un fusionador de . frecuencia configurado para fusionar dos frecuencias de inicio de iteración adyacentes de la pluralidad de frecuencias de inicio de iteración, · si la distancia de frecuencia entre las dos frecuencias de inicio de iteración adyacentes es menor que una distancia de frecuencia mínima. 5
11. El aparato de conformidad con la reivindicación 10, caracterizado porque el fusionador de frecuencia está configurado para fusionar las dos frecuencias de inicio de iteración adyacentes al reemplazar las dos frecuencias de inicio de iteración adyacentes por una nueva frecuencia de 10 inicio de iteración localizada entre las dos frecuencias de inicio de iteración adyacentes.
12. El aparato de conformidad con cualquiera de las reivindicaciones 1 a 11, caracterizado porque comprende un removedor de frecuencia configurado para remover una frecuencia 15. de inicio de iteración de la nueva pluralidad de frecuencias de inicio de iteración, si la frecuencia de inicio de iteración es mayor que una frecuencia máxima predefinida del espectro de la señal de audio o si la frecuencia de inicio de iteración es menor que una frecuencia mínima predefinida del espectro de la 20 señal de audio.
13. El aparato de conformidad con cualquiera de las reivindicaciones 6 a 12, caracterizado porque la condición de terminación predefinida es satisfecha si el valor absoluto de la suma del desplazamiento de frecuencia determinado para un 25 bloque de tiempo actual y el desplazamiento de frecuencia determinado para un bloque de tiempo ' previo para cada frecuencia de inicio de iteración es menor que un desplazamiento de umbral predefinido.
14. El aparato de conformidad con cualquiera de las reivindicaciones 1 a 13, caracterizado porque comprende un pre-procesador configurado para generar un espectro de transformación de Fourier para un bloque de tiempo de la señal de audio, para generar un espectro suave basado en el espectro de transformación de Fourier del bloque de tiempo, para generar el espectro de la señal de audio a ser provisto al determinador -de desplazamiento al dividir el espectro de transformación de Fourier con el espectro suavizado, para mapear el espectro a una escala logarítmica y para proveer el espectro logarítmico al determinador de desplazamiento, o configurado para generar un espectro de transformación de Fourier para un bloque de tiempo de la señal de audio, para mapear el espectro de transformación . de Fourier a una escala logarítmica, para generar un espectro suave basado en el espectro de transformación de Fourier logarítmica del bloque de tiempo, para generar el espectro de la señal de audio a ser provisto al determinador de desplazamiento al dividir el espectro de transformación de Fourier logarítmico con el espectro suavizado y para proveer el espectro al determinador de desplazamiento.
15. El aparato de conformidad con la reivindicación 14, caracterizado porque el pre-procesador comprende un filtro configurado para suavizar temporalmente el espectro de transformación de Fourier, el espectro de transformación de Fourier logarítmico y/o el espectro suavizado antes de dividir el espectro de transformación de Fourier o el espectro de transformación de Fourier logarítmico con el espectro suavizado .
16. Un banco de filtros adaptable de señal para filtrar una señal de audio, caracterizado porque comprende: un aparato para determinar una pluralidad de frecuencias de centros de gravedad locales de un espectro de la señal de audio de conformidad con cualquiera de las reivindicaciones 1 a 15; y una pluralidad de filtros de paso de banda configurados para, filtrar la señal de audio para obtener una señal de audio filtrada y para proveer la señal de audio filtrada, en donde una frecuencia central y un ancho de banda de cada filtro de paso de banda de la pluralidad de filtros de paso de banda está basada en la pluralidad de 'frecuencias de centros de gravedad locales.
17. El banco de filtros adaptable de señal de conformidad con la reivindicación 16, caracterizado porque cada filtro de paso de banda de la pluralidad de filtros de paso de banda corresponde a una frecuencia de centros de gravedad local, en donde la frecuencia central y el ancho de banda de un filtro de paso de banda depende de la frecuencia de centro de gravedad local correspondiente y las frecuencias de centro de gravedad locales adyacentes de la frecuencia de centro de gravedad correlacionada.
18. El banco de filtros adaptable de señal de conformidad con la reivindicación 16 ó 17, caracterizado porque el ancho de banda de la pluralidad de filtros de paso de banda son determinados de tal manera que todo el espectro es cubierto sin agujeros.
19. Un vocoder de fase caracterizado porque comprende un banco de filtros de señal adaptable de conformidad con cualquiera de las reivindicaciones 15 a 18.
20. Un aparato para convertir una señal de audio a una representación parametrizada, el aparato está caracterizado porque comprende: un " aparato para determinar una pluralidad de frecuencias de centros de gravedad locales de un espectro de la señal de audio de conformidad con cualquiera de las reivindicaciones 1 a 15; un estimador de paso de banda para estimar información de una pluralidad de filtros de paso de banda en base a la pluralidad de frecuencias de centros de gravedad locales, en donde la información en cuanto a la pluralidad de filtros de . paso de banda comprende información en cuanto a la forma de filtro para la porción 'de la señal de audio, en donde el ancho de banda de un filtro de paso de banda es diferente sobre un espectro de audio; un estimador de modulación para estimar una modulación de amplitud o una modulación de frecuencia o una modulación de fase para cada banda de la pluralidad de filtros de paso de banda para la porción de la señal de audio utilizando la información en cuanto a la pluralidad de filtros de paso de banda; y una interfase de salida para transmitir, almacenar o modificación de información en cuanto a la modulación de amplitud, información en cuanto a la modulación de frecuencia o modulación de fase o la información en cuanto a la pluralidad de filtros de paso de banda para la porción de la señal de audio.
21. Un método para determinar una pluralidad de frecuencias de centros de gravedad locales de un espectro de una señal de audio, el método está caracterizado porque comprende: determinar una frecuencia de desplazamiento para cada frecuencia de inicio de iteración de una pluralidad de frecuencias de inicio de iteración en base al . espectro de la señal de audio, en donde el número de valores de muestra discretos del espectro es mayor que el número de frecuencias de inicio de iteración; determinar una nueva pluralidad de frecuencias de inicio de iteración al incrementar o reducir cada frecuencia de inicio de iteración de la pluralidad de frecuencias de inicio de iteración por lá frecuencia de desplazamiento determinada correspondiente; y proveer la nueva pluralidad de frecuencias de inicio de iteración para una iteración adicional o proveer la pluralidad de frecuencias de centros de gravedad locales, si se satisface una condición de terminación predefinida, en donde la pluralidad de frecuencias de centros de gravedad locales es igual a la nueva pluralidad de frecuencias de inicio de iteración .
22. Un programa de computadora caracterizado porque tiene un código de programa para efectuar el método de conformidad con la reivindicación 21, cuando el programa de computadora se ejecuta en una computadora o un microcontrolador .
MX2010011863A 2009-04-03 2010-03-18 Metodo y aparato para determinar una pluralidad de frecuencias de centro de gravedad locales de un espectro de una señal de audio. MX2010011863A (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16656209P 2009-04-03 2009-04-03
EP09011091A EP2237266A1 (en) 2009-04-03 2009-08-28 Apparatus and method for determining a plurality of local center of gravity frequencies of a spectrum of an audio signal
PCT/EP2010/053574 WO2010112348A1 (en) 2009-04-03 2010-03-18 Apparatus and method for determining a plurality of local center of gravity frequencies of a spectrum of an audio signal

Publications (1)

Publication Number Publication Date
MX2010011863A true MX2010011863A (es) 2010-11-30

Family

ID=41328588

Family Applications (1)

Application Number Title Priority Date Filing Date
MX2010011863A MX2010011863A (es) 2009-04-03 2010-03-18 Metodo y aparato para determinar una pluralidad de frecuencias de centro de gravedad locales de un espectro de una señal de audio.

Country Status (12)

Country Link
US (1) US8996363B2 (es)
EP (2) EP2237266A1 (es)
JP (1) JP5283757B2 (es)
KR (1) KR101264486B1 (es)
CN (1) CN102027533B (es)
AU (1) AU2010219353B2 (es)
BR (1) BRPI1001241B1 (es)
CA (1) CA2721402C (es)
HK (1) HK1165602A1 (es)
MX (1) MX2010011863A (es)
RU (1) RU2490729C2 (es)
WO (1) WO2010112348A1 (es)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5433022B2 (ja) * 2009-09-18 2014-03-05 ドルビー インターナショナル アーベー 高調波転換
FR2956743B1 (fr) * 2010-02-25 2012-10-05 Inst Francais Du Petrole Procede non intrusif de determination de l'impedance electrique d'une batterie
FR2961938B1 (fr) * 2010-06-25 2013-03-01 Inst Nat Rech Inf Automat Synthetiseur numerique audio ameliore
US8855322B2 (en) * 2011-01-12 2014-10-07 Qualcomm Incorporated Loudness maximization with constrained loudspeaker excursion
GB2488768A (en) * 2011-03-07 2012-09-12 Rhodia Operations Treatment of hydrocarbon-containing systems
EP2631906A1 (en) * 2012-02-27 2013-08-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Phase coherence control for harmonic signals in perceptual audio codecs
EP2720222A1 (en) * 2012-10-10 2014-04-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient synthesis of sinusoids and sweeps by employing spectral patterns
EP3171362B1 (en) * 2015-11-19 2019-08-28 Harman Becker Automotive Systems GmbH Bass enhancement and separation of an audio signal into a harmonic and transient signal component
CN109427345B (zh) * 2017-08-29 2022-12-02 杭州海康威视数字技术股份有限公司 一种风噪检测方法、装置及系统
JP2019106575A (ja) * 2017-12-08 2019-06-27 ルネサスエレクトロニクス株式会社 無線受信機、及び中間周波数信号生成方法
KR102277952B1 (ko) * 2019-01-11 2021-07-19 브레인소프트주식회사 디제이 변환에 의한 주파수 추출 방법
BR112021017197A2 (pt) * 2019-03-06 2021-11-09 Fraunhofer Ges Forschung Mixador de redução e método de mixagem de redução
CN112666547B (zh) * 2020-12-11 2024-03-19 北京理工大学 一种无线电多普勒信号频率提取和脱靶量测量方法
CN114236231B (zh) * 2021-12-08 2024-08-09 湖南艾科诺维科技有限公司 一种载波频率估计方法、系统及介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5633499A (en) * 1995-11-21 1997-05-27 Trionix Research Laboratory, Inc. Scatter elimination technique and apparatus in radionuclide emission and transmission imaging in a nuclear camera
WO1998055830A1 (en) * 1997-06-02 1998-12-10 Izatt Joseph A Doppler flow imaging using optical coherence tomography
RU2174714C2 (ru) 1998-05-12 2001-10-10 Научно-технический центр "Вычислительная техника" Способ выделения основного тона
US6494834B2 (en) * 2000-03-17 2002-12-17 The Board Of Regents Of The University Of Texas System Power spectral strain estimators in elastography
JP2004334160A (ja) * 2002-09-24 2004-11-25 Matsushita Electric Ind Co Ltd 特徴量抽出装置
EP1403783A3 (en) 2002-09-24 2005-01-19 Matsushita Electric Industrial Co., Ltd. Audio signal feature extraction
WO2007120316A2 (en) * 2005-12-05 2007-10-25 Qualcomm Incorporated Systems, methods, and apparatus for detection of tonal components
KR100653643B1 (ko) 2006-01-26 2006-12-05 삼성전자주식회사 하모닉과 비하모닉의 비율을 이용한 피치 검출 방법 및피치 검출 장치

Also Published As

Publication number Publication date
EP2237266A1 (en) 2010-10-06
EP2401740A1 (en) 2012-01-04
WO2010112348A1 (en) 2010-10-07
US8996363B2 (en) 2015-03-31
JP5283757B2 (ja) 2013-09-04
CA2721402C (en) 2014-08-26
US20120008799A1 (en) 2012-01-12
BRPI1001241B1 (pt) 2021-02-23
AU2010219353A1 (en) 2010-10-21
KR20110002089A (ko) 2011-01-06
AU2010219353B2 (en) 2011-10-06
BRPI1001241A2 (pt) 2017-06-13
CN102027533A (zh) 2011-04-20
RU2010136359A (ru) 2012-03-10
CN102027533B (zh) 2012-11-07
EP2401740B1 (en) 2013-01-16
RU2490729C2 (ru) 2013-08-20
HK1165602A1 (en) 2012-10-05
KR101264486B1 (ko) 2013-05-15
CA2721402A1 (en) 2010-10-07
JP2012507055A (ja) 2012-03-22

Similar Documents

Publication Publication Date Title
CA2721402C (en) Apparatus and method for determining a plurality of local center of gravity frequencies of a spectrum of an audio signal
RU2758466C2 (ru) Система и способ для генерирования ряда сигналов высокочастотных поддиапазонов
US8793123B2 (en) Apparatus and method for converting an audio signal into a parameterized representation using band pass filters, apparatus and method for modifying a parameterized representation using band pass filter, apparatus and method for synthesizing a parameterized of an audio signal using band pass filters
JP5425250B2 (ja) 瞬間的事象を有する音声信号の操作装置および操作方法
MX2012009787A (es) Aparato y metodo para modificar una señal de audio usando modelado de envolvente.
KR101333162B1 (ko) Imdct 입력신호를 이용한 오디오 신호의 음정 및 속도 가변 장치 및 방법
Disch et al. An iterative segmentation algorithm for audio signal spectra depending on estimated local centers of gravity

Legal Events

Date Code Title Description
FG Grant or registration