MXPA03010750A - Metodo para la alineacion temporal de senales de audio usando caracterizaciones basadas en eventos auditivos. - Google Patents

Metodo para la alineacion temporal de senales de audio usando caracterizaciones basadas en eventos auditivos.

Info

Publication number
MXPA03010750A
MXPA03010750A MXPA03010750A MXPA03010750A MXPA03010750A MX PA03010750 A MXPA03010750 A MX PA03010750A MX PA03010750 A MXPA03010750 A MX PA03010750A MX PA03010750 A MXPA03010750 A MX PA03010750A MX PA03010750 A MXPA03010750 A MX PA03010750A
Authority
MX
Mexico
Prior art keywords
signal
audio
auditory
audio signal
characterization
Prior art date
Application number
MXPA03010750A
Other languages
English (en)
Inventor
G Crockett Brett
Original Assignee
Dolby Lab Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Lab Licensing Corp filed Critical Dolby Lab Licensing Corp
Priority claimed from PCT/US2002/004317 external-priority patent/WO2002084645A2/en
Publication of MXPA03010750A publication Critical patent/MXPA03010750A/es

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8455Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal

Abstract

Un metodo para la alineacion temporal de senales de audio, en donde una senal de audio ha sido derivada a partir de la otra o ambas han sido derivada a partir de otra senal, comprende derivar caracterizaciones de informacion reducida, de las senales de audio, por analisis de escenas auditivas. Se calcula el descentrado temporal de una caracterizacion con respecto a las otras caracterizaciones, y la relacion temporal de las senales de audio con respecto a cada una de las otras, se modifica en respuesta al descentrado temporal, de manera tal que las senales de audio coincidan unas con otras. Estos principios pueden aplicarse tambien a un metodo para la alineacion temporal de una senal de video y de una senal de audio, que seran sometidas a descentrados temporales diferenciales. La figura mas representativa de la invencion es la numero 1B.

Description

MÉTODO PARA LA ALINEACIÓN TEMPORAL DE SEÑALES DE AUDIO USANDO CARACTERIZACIONES BASADAS EN EVENTOS AUDITIVOS CAMPO DE LA INVENCIÓN La invención se refiere a señales de audio. Más particularmente la invención se refiere a la caracterización de señales de audio y al uso de caracterizaciones para la alineación temporal o sincronización de señales de audio, en donde una señal ha sido derivada de la otra, o en la que ambas han sido derivadas de la misma otra señal. Esa sincronización es útil, por ejemplo, para restablecer la sincronización del audio y video en televisión (sincronización de diálogos) y para detectar una marca de agua insertada en una señal de audio (la señal que tiene aplicada la marca de agua se compara con una versión de la señal que no tenga aplicada la marca de agua) . La invención puede implementarse de manera tal que un proceso con bajo poder de procesamiento ponga dos de esas señales de audio en alineación temporal substancial.
ANTECEDENTES DE LA INVENCIÓN A la división de sonidos en unidades percibidas como separadas, se hace referencia a veces como "análisis de eventos auditivos" o "análisis de escenas auditivas" ("ASA") . Una amplia discusión del análisis de escenas auditivas es presentada por Albert S. Bregman en su libro Auditory Scene Analysis - The Perceptual Organization of Sound, Massachusetts Institute of Technology, 1991, Fourth printing, 2001, Second MIT Press paperback edition. Además, la patente de los Estados Unidos de Norteamérica 6,002,776 de Bhadkamkar, et al., 14 de Diciembre de 1999, cita publicaciones que datan desde 1976 como "trabajo de la técnica anterior relacionado con la separación de sonidos mediante el análisis de escenas auditivas". Sin embargo, la patente de Bhadkamkar, et al., desanima el uso práctico del análisis de escenas auditivas, concluyendo que "las técnicas que involucran el análisis de escenas auditivas, aunque son interesantes desde un punto de vista científico como modelos del procesamiento auditivo humano, actualmente exigen demasiados recursos de cómputo y son demasiado especializadas como . para ser consideradas técnicas prácticas para la separación del sonido hasta que se realice un progreso fundamental" . Bregman menciona en una parte que "escuchamos unidades discretas cuando el sonido cambia abruptamente su timbre, tono, sonoridad, o (en un grado menor) su ubicación en el espacio" . (Auditory Scene Analysis - The Perceptual Organization of Sound, supra, en la página 469) . Bregman describe también la percepción de múltiples corrientes sonoras, simultáneas, cuando, por ejemplo, se separan en la frecuencia .
Existen muchos métodos diferentes para extraer características o peculiaridades del audio. Con tal que las peculiaridades o características se encuentren definidas en forma apropiada, su extracción puede ser realizada usando procesos automatizados. Por ejemplo la "ISO/IEC JTC 1/SC 29/WG 11" (MPEG) actualmente está estandarizando una variedad de descriptores de audio como parte del estándar MPEG-7. Una desventaja común de ese método es que ignora la ASA. Esos métodos buscan medir, periódicamente, ciertos parámetros de procesamientos de señales "clásicos" tales como el tono, la amplitud, la potencia, la estructura armónica y la ausencia de distorsión espectral. Esos parámetros, aunque proporcionan información útil no analizan y caracterizan señales de audio en elementos percibidos como separados de acuerdo con la cognición humana. El análisis de escenas auditivas intenta caracterizar señales de audio en una manera similar a la percepción humana, identificando elementos que sean separados de acuerdo con la cognición humana. Al desarrollar esos métodos se pueden implementar procesos automatizados que ejecuten en forma exacta tareas que hasta ahora hubiesen requerido de la intervención humana. La identificación de elementos percibidos en forma separada permitiría la identificación única de una señal de audio usando substancialmente menos información que la señal completa en sí. Se pueden emplear identificaciones únicas y compactas, en base a eventos auditivos, por ejemplo, para identificar una señal que sea copiada de otra señal (o que sea copiada de la misma señal original que otra señal) .
DESCRIPCIÓN DE LA INVENCIÓN Se describe un método que genera una caracterización única de información reducida, de una señal de audio, que puede ser usada para identificar la señal de audio. La caracterización de audio puede ser considerada una "rúbrica" o "huella^.digital" de la señal de audio. De acuerdo con la presente invención, se lleva a cabo un análisis de escenas auditivas (ASA) para identificar eventos auditivos como la base para caracterizar una señal de audio. Idealmente, el análisis de escenas auditivas identifica eventos auditivos que en la forma más probable serán percibidos por un escucha humano inclusive después de que el audio haya sufrido procesamiento, tal como una codificación de baja tasa de transferencia de bitios o transmisión acústica a través de una bocina. La señal de audio puede ser caracterizada por las ubicaciones de frontera de eventos auditivos y, opcionalmente, por la banda secundaria de frecuencia dominante de cada evento auditivo. El patrón de información resultante, constituye una rúbrica o huella digital de audio, compacta, que puede ser comparada con la huella digital o rúbrica de una señal de audio relacionada, para determinar rápidamente y/o con bajo poder de procesamiento, el descentrado en el tiempo, entre las señales de audio originales. Las características de información reducida tienen substancialmente la misma temporización relativa que las señales de audio que representan. El método de análisis de escenas auditivas de conformidad con la presente invención proporciona un método rápido y exacto para la alineación temporal de dos señales de audio, particularmente música, comparando rúbricas que contengan información de eventos auditivos. El ASA extrae información fundamental de la percepción de la similitud, en contraste con los métodos tradicionales que extraen características menos fundamentales para percibir similitudes entre las señales de audio (tales como el tono, la amplitud, la potencia, y la estructura armónica) . El uso del ASA mejora la oportunidad de encontrar similitud, y por lo tanto alineación temporal, en un material que haya sufrido un procesamiento significativo, tal como una codificación de baja tasa de transferencia de bitios o la transmisión acústica a través de una bocina. En las modalidades analizadas posteriormente se asume que las dos señales de audio bajo análisis, se derivan de una fuente común. El método de la presente invención determina el descentrado en el tiempo de una de esas señales de audio, con respecto a la otra, de manera tal que se puedan poner en sincronía aproximada, una con respecto a la otra. Aunque en principio la invención puede llevarse a la práctica ya sea en el dominio analógico o digital (o en cierta combinación de los dos) , en modalidades prácticas de la invención, las señales de audio se representan mediante muestras en bloques de datos y el procesamiento se realiza en el dominio digital . Haciendo referencia a la figura 1A, el análisis de escenas auditivas 2 se aplica a una señal de audio a fin de producir una "rúbrica" o "huella digital" , relacionada con esa señal. En este caso existen dos señales de audio de interés . Son similares porque una se deriva de la otra o porque ambas han sido derivadas previamente a partir de la misma señal original. De esta manera, el análisis de escenas auditivas se aplica a ambas señales. Por simplicidad, la figura 1A muestra solamente la aplicación del ASA a una señal. Como se muestra en la figura IB, las rúbricas para las dos señales de audio, la rúbrica 1 y la rúbrica 2, se aplican a una función de cálculo 4 del descentrado temporal, que calcula una salida "descentrada" que es una medida del descentrado temporal, relativo, entre las dos rúbricas. Debido a que las rúbricas son representativas de las señales de audio pero son substancialmente más cortas (es decir, son más compactas o tienen menos bitios) que las señales de audio a partir de las cuales fueron derivadas, el descentrado temporal entre las rúbricas puede ser determinado en forma mucho más rápida del tiempo que hubiese tomado determinar el descentrado temporal entre las señales de audio. Además, debido a que las rúbricas conservan substancialmente la misma relación temporal, relativa, que las señales de audio a partir de las cuales fueron derivadas, puede usarse un cálculo del descentrado entre las rúbricas, para alinear temporalmente las señales de audio originales. De esta manera, la salida descentrada de la función 4 se aplica a una función de alineación temporal 6. La función de alineación temporal recibe también las dos señales de audio, la Señal de Audio 1 y la Señal de Audio 2 (a partir de la cual fueron derivadas las Rúbricas 1 y 2) y proporciona dos salidas de señales, la Señal de Audio 3 y la Señal de Audio 4. Se desea ajusfar la temporización relativa de la Señal de Audio 1 con respecto a la Señal de Audio 2, de manera tal que se encuentren en alineación (sincronía) temporal o casi en alineación temporal. Para lograr esto se puede realizar el desplazamiento temporal de una señal con respecto a la otra o, en principio, ambas pueden ser desplazadas en el tiempo. En la práctica, una de las señales de audio es un "paso" de la Señal de Audio 1 o de la Señal de Audio 2 (es decir, es substancialmente la misma señal) y la otra es una versión desplazada en el tiempo, de la otra señal de audio, que ha sido modificada temporalmente de manera que la Señal de Audio 3 y la Señal de Audio 4 se encuentren en sincronía temporal o casi en sincronía temporal, una con respecto a la otra, dependiendo de la exactitud de la resolución de las funciones de cálculo de descentrado y de alineación temporal. Si se desea mayor exactitud en la alineación, se puede aplicar procesamiento adicional a la Señal de Audio 3 y/o a la Señal de Audio 4 mediante uno o más procesos diferentes que no forman parte de la presente invención. La alineación temporal de las señales puede ser útil, por ejemplo, en la restauración de la sincronización del audio y video (sincronización de diálogos) en televisión, y en la detección de una marca de agua insertada en una señal de audio. En el caso anterior, una rúbrica del audio se inserta en la señal de video antes de la transmisión o almacenamiento que puede dar por resultado que el audio y el video se salgan de sincronía. En un punto de reproducción se puede derivar una rúbrica a partir de la señal de audio y compararse con la rúbrica insertada en la señal de video a fin de restablecer su sincronía. Sistemas de ese tipo, que no emplean caracterizaciones basadas en el análisis de escenas auditivas, se describen en las patentes de los Estados Unidos de Norteamérica Re 33,535, 5,202,761, 6,211,919, y 6,246,439, todas las cuales se incorporan aquí como referencia en su totalidad. En el segundo caso, una versión original de una señal de audio se compara con una versión con marca de agua, de la señal de audio, a fin de recuperar la marca de agua. Esa recuperación requiere la cercana alineación temporal de las dos señales de audio. Esto puede conseguirse, al menos en un primer grado de alineación, derivando una rúbrica de cada señal de audio para ayudar a la alineación temporal de las señales de audio originales, tal como se explica aqui. Detalles adicionales de las figuras 1A y IB se presentan posteriormente . Para algunas aplicaciones, los procesos de las figuras 1? y IB deberán ser en tiempo real. Para otras aplicaciones, no necesitan ser en tiempo real. En una aplicación en tiempo real, el proceso almacena una historia (por ejemplo unos cuantos segundos) del análisis de escenas auditivas, para cada señal de entrada. Periódicamente, se emplea esa historia de eventos para actualizar el cálculo del descentrado, a fin de corregir en forma continua el descentrado temporal. La información del análisis de escenas auditivas, para cada una de las señales de entrada, puede generarse en tiempo real, o la información para cualesquiera de las señales puede encontrarse ya presente (asumiendo que ya se ha realizado cierto procesamiento de análisis de escenas auditivas, fuera de linea) . ün uso para el sistema en tiempo real es, por ejemplo, un alineador de audio/video tal como se mencionó anteriormente. Una serie de fronteras de eventos se deriva del audio,¦ la otra serie de fronteras de eventos se recupera del video (asumiendo cierta inserción previa de las fronteras de eventos de audio, en el video) . Las dos secuencias de fronteras de eventos pueden compararse periódicamente para determinar el descentrado temporal entre el audio y el video, a fin de mejorar, por ejemplo, la sincronización de diálogos. De esta manera, ambas rúbricas pueden ser generadas a partir de las señales de audio, casi al mismo tiempo que se calcula el descentrado temporal de las rúbricas y que se usa para modificar la alineación de las señales de audio para lograr su coincidencia substancial . Alternativamente, una de las rúbricas que se va a comparar puede transmitirse junto con la señal de audio a partir de la cual fue derivada, por ejemplo, insertando las rúbricas en otra señal, tal como una señal de video como en el caso de la alineación de audio y video, apenas descrita. Como una alternativa adicional, ambas rúbricas pueden ser generadas por adelantado y puede realizarse en tiempo real solamente la comparación y la modificación de la temporización. Por ejemplo, en el caso de dos fuentes del mismo programa de televisión (tanto con audio y video) , ambas con rúbricas de audio insertadas, las señales de televisión respectivas (con audio adjunto) podrían ser sincronizadas (tanto el audio como el video) comparando las rúbricas recuperadas . La relación de temporización relativa del video y audio en cada señal de televisión, permanecería inalterada. La sincronización de la señal de televisión ocurriría en tiempo real, pero no seria generada ninguna rúbrica en ese momento o en forma simultánea. De conformidad con aspectos de la presente invención, se proporciona un proceso, eficiente desde el punto de vista de cómputo, para dividir el audio en segmentos temporales o "eventos auditivos" que tiendan a ser percibidos como separados . Se cree que un indicador poderoso del inicio o fin del evento auditivo percibido es un cambio en el contenido espectral . ? fin de detectar cambios en el timbre y en ,el tono (contenido espectral) y, como un resultado auxiliar, ciertos cambios en la amplitud, el proceso de detección de eventos de audio de conformidad con un aspecto de la presente invención, detecta cambios en la composición espectral con respecto al tiempo. Opcionalmente, de acuerdo con un aspecto adicional de la presente invención, el proceso puede detectar también cambios en la amplitud con respecto al tiempo, que no hubiesen sido detectados mediante la detección de cambios en la composición espectral con respecto al tiempo . En su implementación con menos requerimientos de cómputo, el proceso divide el audio en segmentos de tiempo, analizando toda la banda de frecuencias de la señal de audio (audio de ancho de banda completo) o substancialmente toda la banda de frecuencias (en implementaciones prácticas, se emplea a menudo la filtración limitadora de bandas en los extremos del espectro) y se le proporciona el mayor peso a los componentes de la señal de audio más sonoros. Este enfoque saca ventaja de un fenómeno psicoascústico en el que, en menores escales de tiempo (de 20 milisegundos y menores) el oido puede tender a enfocarse en un solo evento auditivo en un tiempo determinado. Esto implica que aunque puedan estar ocurriendo múltiples eventos al mismo tiempo, un componente tiende a ser perceptivamente el más prominente y puede ser procesado en forma individual como si fuese el único evento que se presentase. Sacar ventaja de este efecto permite también que la detección de eventos auditivos aumente con la complejidad del audio que se procesa. Por ejemplo, si la señal de audio de entrada que se procesa es un instrumento solo, los eventos de audio que se identifican serán probablemente las notas individuales que sean tocadas. Similarmente para una señal de voz de entrada, los componentes individuales de la voz, las vocales y consonantes por ejemplo, serán identificadas probablemente como elementos de audio individuales. ? medida que se incrementa la complejidad del audio, tal como música con repiques de tambor o múltiples instrumentos y voz, la detección de eventos auditivos identifica el elemento de audio más prominente (es decir, el más fuerte) en cualquier momento determinado. Alternativamente, el elemento de audio "más prominente" puede ser determinado tomando en consideración el umbral de audición y la respuesta en la frecuencia. Opcionalmente, de acuerdo con aspectos adicionales de la presente invención, a expensas de una mayor complejidad computacional, el proceso puede tomar también en consideración cambios en la composición espectral con respecto al tiempo, en bandas de frecuencia discretas (determinadas en forma fija o dinámica, o bandas determinadas tanto en forma fija como dinámica) en vez que en todo el ancho de banda. Este enfoque alternativo tomarla en cuenta más de un flujo de audio en diferentes bandas de frecuencia, en vez que asumir que en un tiempo particular únicamente se puede percibir un solo flujo. Inclusive un proceso simple y eficiente desde el punto de vista de cómputo, de conformidad con un aspecto de la presente invención para seqmentar audio, ha sido encontrado útil para identificar eventos auditivos . Un proceso de detección de eventos auditivos, de la presente invención, puede ser implementado dividiendo una forma de onda de audio en el dominio temporal, en intervalos o bloques de tiempo, y luego convirtiendo los datos que se encuentran en cada bloque, al dominio de la frecuencia, usando, ya sea un banco de filtros o una transformación tiempo-frecuencia, tal como una Transformada de Fourier Discreta (DFT) (Implementada como una transformada de Fourier Rápida (FFT) para dar -velocidad) . La amplitud del contenido espectral de cada bloque puede ser normalizada a fin de eliminar o reducir el efecto de los cambios en la amplitud. Cada representación en el dominio de la frecuencia, resultante, proporciona un indicio del contenido espectral (la amplitud como una función de la frecuencia) del audio en el bloque particular. El contenido espectral del bloque sucesivo se compara y se puede tomar un cambio mayor que un umbral, para indicar el inicio temporal o el término temporal de un evento auditivo. A fin de minimizar la complejidad de cómputo, únicamente se puede procesar una sola banda de las frecuencias de la forma de onda de audio en el dominio temporal, preferentemente toda la banda de frecuencia del espectro (que puede ser desde aproximadamente 50 Hz hasta 15 KHz en el caso de un sistema de música de calidad promedio) o substancialmente toda la banda de frecuencias (por ejemplo, un filtro definidor de bandas puede excluir los extremos de alta frecuencia y de baja frecuencia) . Preferentemente, los datos en el dominio de la frecuencia se normalizan tal como se describe posteriormente. El grado en el cual necesitan normalizarse los datos en el dominio de la frecuencia proporciona una indicación de la amplitud. De aquí que, si un cambio de este grado excede un umbral predeterminado, también debe tomarse para indicar una frontera de eventos. Los puntos de inicio y fin de un evento, que resultan de cambios espectrales y cambios en la amplitud, pueden ser sometidos a la operación lógica OR en forma conjunta, de manera tal que se identifiquen las fronteras de eventos que resulten de ambos tipos de cambios. En modalidades prácticas en las que el audio esté representado por muestras divididas en bloques, cada frontera de punto de inicio y paro, temporal, de eventos auditivos, coinciden neces riamente con una frontera del bloque en la cual se divide la forma de onda de audio en el dominio temporal. Existe un compromiso entre los requerimientos de procesamiento en tiempo real (ya que los bloques más grandes requieren de menos gastos de procesamiento) y la resolución de la ubicación de eventos (bloques más pequeños proporcionan información más detallada de la ubicación de eventos auditivos) . Como una opción adicional, tal como se sugirió anteriormente, pero a expensas de mayor complejidad computacional , en lugar de procesar el contenido espectral de la forma de onda en el dominio temporal, en una sola banda de frecuencias, el espectro de la forma de onda en el dominio temporal, antes de la conversión al dominio de la frecuencia, puede ser dividido en dos o más bandas de frecuencias . Cada una de las bandas de frecuencia puede convertirse después al dominio de la frecuencia y procesarse como si fuese un canal independiente. Las fronteras de eventos resultantes pueden ser sometidas después a la operación lógica OR, en forma conjunta, para 'definir las fronteras de eventos para ese canal. La bandas de frecuencias múltiples pueden ser fijas, adaptativas, o una combinación de fijas y adaptativas. Técnicas con filtros de seguimiento, empleadas en la reducción del ruido de audio, y otras técnicas, por e emplo, pueden emplearse para definir bandas de frecuencia adaptativas (por ejemplo, ondas sinusoidales simultáneas, dominantes, a 800 Hz y 2 KHz podrían dar por resultado dos bandas determinadas en forma adaptativa, centradas en esas dos frecuencias) . Otras técnicas para proporcionar el análisis de escenas auditivas pueden emplearse para identificar eventos auditivos en la presente invención.
DESCRIPCIÓN DE LOS DIBUJOS La figura 1A es un diagrama de flujo que muestra el proceso de extracción de una rúbrica de una señal de audio de conformidad con la presente invención. La señal de audio puede representar, por ejemplo, música (por ejemplo, una composición musical o "canción") . La figura IB es un diagrama de flujo que ilustra un proceso para la alineación temporal de dos señales de audio, de conformidad con la presente invención. La figura 2 es un diagrama de flujo que muestra la extracción de ubicaciones de eventos de audio y la extracción opcional de bandas secundarias dominantes de una señal de audio de conformidad con la presente invención. La figura 3 es una representación esquemática conceptual, que representa el paso del análisis espectral de conformidad con la presente invención. Las figuras 4A y 4B son formas de onda de audio idealizadas, que muestran una pluralidad de ubicaciones de eventos auditivos y fronteras de eventos auditivos, de conformidad con la presente invención.
MEJOR MODO PARA LLEVAR A CABO LA INVENCIÓN En una modalidad práctica de la invención, la señal de audio está representada por muestras que son procesadas en bloques de 512 muestras, lo cual corresponde a aproximadamente 11.6 milisegundos de audio de entrada con una tasa de muestreo de 44.1 kHz . Una longitud de bloque que tenga un tiempo menor que la duración del evento auditivo perceptible, más corto (de aproximadamente 20 milisegundos) es deseable. Se comprenderá que los aspectos de la invención no están limitados a esa modalidad práctica. Los principios de la invención no requieren disponer el audio en bloques de entrada antes de determinar los eventos auditivos, ni de proporcionar a los bloques, si los hay, una longitud constante. Sin embargo, para minimizar la complejidad, una longitud de bloque fija de 512 muestras (o alguna otra potencia de dos del número de muestras) es útil por tres razones primarias. Primero, proporciona una latencia lo suficientemente baja para ser aceptable para aplicaciones de procesamiento en tiempo real. Segundo, es una potencia de dos del número de muestras, lo cual es útil para el análisis por transformada de Fourier rápida (FFT) . Tercero, proporciona un tamaño de ventana apropiadamente grande para llevar a cabo el análisis de escenas auditivas útil. En las siguientes discusiones se asume que la señal de entrada son datos con valores de amplitud que se encuentran en el intervalo [-1,+1] .
Análisis de Escenas Auditivas 2 (Figura 1A) Seguido a la formación de bloques de entrada de audio (no mostrados) , la señal de audio de entrada se divide en eventos auditivos, cada uno de los cuales tiende a ser percibido como separado, en el proceso 2 ("Análisis de Escenas Auditivas") de la figura la. El análisis de escenas auditivas puede llevarse a cabo mediante un proceso de análisis de escenas auditivas (ASA) analizado anteriormente. Aunque posteriormente se describe con detalle un proceso apropiado para llevar a cabo el análisis de escenas auditivas, la invención contempla que se puedan emplear otras técnicas útiles para llevar a cabo el ASA. La figura 2 bosqueja un proceso de conformidad con técnicas de la presente invención, que puede ser usado como el proceso de análisis de escenas auditivas de la figura 1A. El paso o proceso 2 del ASA está compuesto de tres pasos secundarios de procesamiento general. El primer paso secundario 2-1 ("Realizar Análisis Espectral") toma la señal de audio, la divide en bloques y calcula un perfil espectral o contenido espectral para cada uno de los bloques. El análisis espectral transforma la señal de audio al dominio de la frecuencia a corto plazo. Esto puede llevarse a cabo usando cualquier banco de filtros; ya sea basado en transformadas o bancos de filtros de paso de banda, y en un espacio de frecuencia ya sea lineal o curvo (tal como la escala de Bark o banda critica, que mejor se aproximan a las características del oido humano) . En cualquier banco de filtros existe un compromiso entre el tiempo y la frecuencia. Una mayor resolución en el tiempo, y por lo tanto intervalos de tiempo más cortos, conduce a una menor resolución en la frecuencia. Una mayor resolución en la frecuencia, y por lo tanto bandas secundarias más estrechas, conducen a intervalos de tiempo más largos. El primer paso secundario calcula el contenido espectral de segmentos de tiempo sucesivos de la señal de audio. En una modalidad práctica, descrita posteriormente, el tamaño del bloque del ASA es de 512 muestras de la señal de audio de entrada (figura 3) . En el segundo paso secundario 2-2, se determinan las diferencias en el contenido espectral de bloque a bloque ("realizar mediciones de las diferencias en el perfil espectral") . De esta manera, el segundo paso secundario calcula la diferencia en el contenido espectral entre segmentos de tiempos sucesivos de la señal de audio. En el tercer paso secundario 2-3 ("identificar la ubicación de eventos auditivos") , cuando la diferencia espectral entre un bloque del perfil espectral y el siguiente, es mayor que un valor umbral, la frontera del bloque se toma como la frontera del elemento auditivo. De esta manera, el tercer paso secundario fija una frontera de evento auditivo entre segmentos de tiempo sucesivos, cuando la diferencia en el contenido del perfil espectral, entre esos segmentos de tiempo sucesivos excede un umbral. Como se analizó anteriormente, se cree que un indicador de potencia del inicio o fin de un evento auditivo percibido, es un cambio en el contenido espectral. Las ubicaciones de las fronteras de eventos se almacenan como una rúbrica. Un paso de proceso opcional 2-4 ("identificar la banda secundaria dominante") usa el análisis espectral para identificar una banda secundaria de frecuencia dominante que pueda ser almacenada también como parte de la rúbrica. En esta modalidad, las fronteras de eventos auditivos definen eventos auditivos que tengan una longitud que sea un múltiplo entero de los bloques del perfil espectral, con una longitud mínima de un bloque del perfil espectral (512 muestras en este ejemplo) . En principio, las fronteras de eventos no necesitan estar limitadas de esta manera . Se pueden disponer en ventana segmentos de audio traslapantes o no traslapantes, y usarlos para calcular los perfiles espectrales del audio de entrada. El traslape da por resultado una resolución más fina en cuanto a la ubicación de eventos auditivos y hace también que sea menos probable perder un evento, tal como un transitorio. Sin embargo, a medida que se incrementa la resolución en el tiempo, la resolución en la frecuencia disminuye. El traslape incrementa también la complejidad computacional . De esta manera puede omitirse el traslape. La figura 3 muestra una representación conceptual de bloques de 512 muestras, no traslapantes, que se encuentran dispuestos en ventana y que son transformados al dominio de la frecuencia mediante la Transformada de Fourier Discreta (DFT) . Cada bloque puede ser dispuesto en ventana y transformado al dominio de la frecuencia, tal como mediante el uso de la DFT, implementada preferentemente como una Transformada de Fourier Rápida (FFT) para imprimir rapidez . Las siguientes variables pueden ser usadas para calcular el perfil espectral del bloque de entrada: N = número de muestras en la señal de entrada M = número de muestras dispuestas en ventana, usadas para calcular el perfil espectral P = número de muestras de traslape del cálculo espectral Q = número de ventanas /regiones espectrales calculadas. En general, se pueden usar cualesquiera números enteros para las variables anteriores. Sin embargo, la implementación será más eficiente si M se fija igual a una potencia de 2, de manera tal que puedan usarse las FFT estándares para los cálculos del perfil espectral. En una modalidad práctica del proceso de análisis de escenas auditivas, los parámetros listados se pueden fijar a: M = 512 muestras (o 11.6 milisegundos a 44.1 kHz) P = 0 muestras (sin traslape) Los valores listados anteriormente fueron determinados experimentalmente y se encontró, en general, que identificaban con suficiente exactitud la ubicación y duración de los eventos auditivos. Sin embargo, se ha encontrado que el ajuste del valor de P en 256 muestras (traslape del 50%) es útil en la identificación de algunos eventos difíciles de encontrar. Aunque se pueden usar muchos diferentes tipos de ventanas, para minimizar los artefactos espectrales debido a la disposición en ventana, la ventana usada en los cálculos del perfil espectral es una ventana de Hanning, Kaiser-Bessel de M puntos u otra ventana apropiada, preferentemente no rectangular. Los valores indicados anteriormente y un tipo de ventana de Hanning, fueron seleccionados después de largos análisis experimentales, ya que demostraron excelentes resultados en todo un amplio intervalo de material de audio. Se prefiere la disposición en ventana, no rectangular, para el procesamiento de señales de audio con un contenido de frecuencias predominante bajas. La disposición en ventana rectangular produce artefactos espectrales que pueden causar la detección incorrecta de eventos. A diferencia de ciertas aplicaciones de codificación y descodificación, en donde un proceso global de traslape/adición, debe proporcionar un nivel constante, esa restricción no aplica aquí y la ventana puede seleccionarse para que tenga características tales como su resolución en el tiempo/frecuencia y el rechazo de bandas de paro. En el paso secundario 2-1 (figura 2), el espectro de cada bloque de M muestras se puede calcular disponiendo en ventana los datos, mediante una ventana de Hanning, Kaiser-Bessel de puntos, u otra ventana apropiada, convirtiendo al dominio de la frecuencia usando una Transformada de Fourier Rápida de M puntos, y calculando la magnitud de los coeficientes de la FFT. Los datos resultantes se normalizan de manera tal que la magnitud más grande se fija como la unidad, y el arreglo normalizado de M números se convierte al dominio logarítmico. El arreglo no necesita ser convertido al dominio logarítmico, pero la conversión simplifica el cálculo de la medición de diferencias en el paso secundario 2-2. Además, el dominio logarítmico coincide más estrechamente con la naturaleza de amplitud en el dominio logarítmico del sistema auditivo humano. Los valores en el dominio logarítmico, resultantes, tienen un intervalo desde menos infinito hasta cero. En una modalidad práctica, se puede imponer un límite inferior al intervalo de valores; el límite puede ser fijo, por ejemplo, -60 dB, o puede ser dependiente de la frecuencia, para reflejar la menor audibilidad de sonidos silenciosos a frecuencia bajas y muy altas. (Obsérvese que sería posible reducir el tamaño del arreglo a M/2 en el que la FFT representa frecuencias tanto negativas como positivas) . El paso secundario 2-2 calcula una medida de la diferencia entre los espectros de bloques adyacentes. Para cada bloque, cada uno de los coeficientes espectrales de M (log) del paso secundario 2-1 se resta del coeficiente correspondiente para el bloque precedente y se calcula la magnitud de la diferencia (se ignora el signo) . Estás M diferencias se suman después para obtener un solo número de aquí que, para toda la señal de audio el resultado es un arreglo de Q números positivos, en donde mientras mayor es el número más difiere un bloque en el espectro, del bloque precedente. Esta medida de la diferencia podría expresarse también como una diferencia promedio por coeficiente espectral, dividiendo la medida de diferencia entre el número de coeficientes espectrales usados en la suma (en este caso M coeficientes) . El paso secundario 2-3 identifica las ubicaciones de fronteras de eventos auditivos, aplicando un umbral al arreglo de medidas de diferencia, del paso secundario 2-2, con un valor umbral. Cuando una medida de diferencia excede un umbral, se considera que el cambio en el espectro es suficiente- para señalar un nuevo evento y el número de bloques del cambio se registra como una frontera de eventos. Para los valores de M y P dados anteriormente y para los valores del dominio logarítmico (en el paso secundario 2-1) expresados en unidades de dB, el umbral puede fijarse igual a 2500 si se compara la FFT de magnitud total (incluyendo la parte en el espejo) , o de 1250 si se compara la mitad de la FFT (como se mencionó anteriormente, la FFT representa las frecuencias tanto negativas como positivas; para la magnitud de la FFT, una es la imagen en el espejo de la otra) . Este valor se seleccionó experimentalmente y proporciona una buena detección de fronteras de eventos auditivos. Este valor del parámetro puede cambiarse para reducir (incrementar el umbral) o incrementar (reducir el umbral) la detección de eventos . Los detalles de esta modalidad práctica no son críticos. Se pueden emplear otras formas para calcular el contenido espectral de segmentos de tiempo sucesivos, de la señal de audio, calcular las diferencias entre segmentos de tiempo sucesivos, y fijar fronteras de eventos auditivos en las fronteras respectivas entre segmentos de tiempo sucesivos cuando la diferencia en el contenido del perfil espectral, entre esos segmentos de tiempo sucesivos, excede un umbral. Para una señal de audio que consista de Q bloques (de tamaño M muestras) , la salida del proceso de análisis de escenas auditivas de la función 2 de la figura 1A es un arreglo B(q) de información que representa la ubicación de las fronteras de los eventos auditivos en donde q = 0, 1,...,Q-1. Para un tamaño de bloque de M = 512 muestras, un traslape de P = 0 muestras y una tasa de muestreo de señales de 44.1 kHz, la función 2 del análisis de escenas auditivas emite aproximadamente 86 valores por segundo. Preferentemente, el arreglo B (q) se almacena como la rúbrica, de manera tal que, en su forma básica, sin la información de frecuencias de las bandas secundarias dominantes, opcional, la rúbrica de la señal de audio es un arreglo B (q) que representa una cadena de fronteras de eventos auditivos . Un ejemplo de los resultados del análisis de escenas auditivas para dos señales diferentes se muestra en las figuras 4A y 4B. La gráfica superior, en la figura 4?, muestra los resultados del procesamiento de escenas auditivas, cuando las fronteras de los eventos auditivos han sido identificadas en las muestras 1024 y 1536. La curva inferior, en la figura 4B, muestra la identificación de fronteras de eventos en las muestras 1024, 2048 y 3072.
Identificar Bandas Secundarias Dominantes (Opcional ) Para cada bloque, un paso adicional, opcional, en el procesamiento ASA (mostrado en la figura 2) es extraer información de la señal de audio que denote la "banda secundaria" de frecuencia dominante, del bloque (la conversión de los datos en cada bloque, al dominio de la frecuencia, da por resultado información dividida en bandas secundarias de frecuencia) . Esta información a base de bloques puede ser convertida en información basada en eventos auditivos, de manera tal que la banda secundaria de frecuencia dominante sea identificada para cada evento auditivo. Esta información para cada evento auditivo proporciona al procesamiento de correlación (descrito posteriormente) información adicional además de la información de las fronteras de los eventos auditivos. La banda secundaria dominante (de la mayor amplitud) puede seleccionarse a partir de una pluralidad de bandas secundarias, 3 o 4, por ejemplo, que se encuentren dentro del intervalo o bandas de frecuencia en donde el oído humano sea lo más sensible. Alternativamente se pueden usar otros criterios para seleccionar las bandas secundarias . El espectro puede ser dividido, por ejemplo, en tres bandas secundarias . El intervalo de f ecuencias preferido, de las bandas secundarias es: Banda secundaria 1 de 301 Hz a 560 Hz Banda secundaria 2 de 560 Hz a 1938 Hz Banda secundaria 3 de 1938 Hz a 9948 Hz Para determinar la banda secundaria dominante, se suma, para cada banda secundaria, el cuadrado del espectro de las magnitudes (o el espectro de magnitudes de potencia) . Esta suma resultante para cada banda secundaria se calcula y se selecciona la más grande . Las bandas secundarias pueden ser ponderadas también antes de seleccionar la mayor. La ponderación puede tomar la forma de dividir la suma de cada banda secundaria, entre ..el número de valores espectrales en la banda secundaria, o alternativamente puede tomar la forma de una adición o multiplicación, para enfatizar la importancia de una banda con respecto a otra. Esto puede ser útil en donde algunas bandas secundarias tengan más energía, en promedio, que otras bandas secundarias, pero que sean perceptivamente menos importantes . Considerando una señal de audio que consista de Q bloques, la salida del procesamiento de bandas secundarias dominantes, es un arreglo de DS (q) de información que representa la banda secundaria dominante en cada bloque {q = 0, 1,..., Q-l) . Preferentemente, el arreglo Ds (q) se almacena en la rúbrica junto con el arreglo B(q). De esta manera, con la información opcional de las bandas secundarias dominantes, la rúbrica de la señal de audio consiste en dos arreglos B(q) y DS (q) , que representan, respectivamente, una cadena de eventos auditivos y una banda secundaria de frecuencia dominante, dentro de cada bloque. Asi, en un ejemplo idealizado, los dos arreglos podrían tener los siguientes valores (para un caso en el que existan tres posibles bandas secundarias dominantes) . 1 0 1 0 0 0 1 0 0 1 0 0 0 0 0 1 0 (Fronteras de Eventos) 1 1 2 2 2 2 1 1 1 3 3 3 3 3 3 1 1 (Bandas Secundarias Dominantes) En la mayoría de los casos, la banda secundaria dominante permanece igual dentro de cada evento auditivo, tal como se muestra en este ejemplo, o tiene un valor promedio si no es uniforme para todos los bloques dentro del evento. De está manera se puede determinar una banda secundaria dominante para cada evento auditivo y el arreglo DS (q) puede ser modificado para proporcionar la misma banda secundaria dominante que es asignada a cada bloque dentro de un evento.
Cálculo del Descentrado Temporal La salida de la Extracción de la Rúbrica (Figura 1A) es uno o más arreglos de la información del análisis de escenas auditivas, que se almacenan como una rúbrica, tal como se describió anteriormente. La función de Cálculo del Descentrado Temporal (Figura IB) toma dos rúbricas y calcula una medida de su descentrado temporal. Esto se realiza usando métodos conocidos de correlación cruzada. Sea S1 (longitud Q-J un arreglo de la Rúbrica 1 y S2 (Longitud Q2) un arreglo de la Rúbrica 2. Primero se calcula el arreglo de correlación cruzada RElE2 (ver, por ejemplo, John G. Proakis, Dimitris G. anolakis, Digital Slgnal Processing: Principies, Algorithms, and Applications, Macmillan Publishing Company, 1992, ISBN 0-02-396815-X) .
R^(D= ?S, {q) S2 (q -l) / = 0,±1,±2 (1) En una modalidad práctica, la correlación cruzada se lleva a cabo usando técnicas estándares basadas en la FFT, para reducir el tiempo de ejecución. Dado que tanto Sx como s2 son de longitud finita, el componente diferente a cero de RE1E2 tiene una longitud de £?+¾-1 · El retardo 1 que corresponde al elemento máximo en ¾iB2 representa el descentrado temporal de S2 con relación a l?0 =1 Vsra MAX(IÍEA(1)) (2) Este descentrado tiene las mismas unidades que los arreglos de rúbricas Sx y S2. En una implementación práctica, los elementos de S2 y S2 tienen una tasa de actualización equivalente al tamaño del bloque de audio usado para generar los arreglos menos el traslape de bloques adyacentes: es decir, M-P = 512 - 0 = 512 muestras. Por lo tanto el descentrado tiene unidades de 512 muestras de audio.
Alineación Temporal La Función de Alineación Temporal 6 (figura IB) usa el descentrado calculado para alinear en el tiempo las dos señales de audio. Toma como entradas las Señales de Audio 1 y 2 (usadas para generar las dos rúbricas) y descentra una con relación de la otra, de manera tal que se encuentren alineadas más estrechamente en el tiempo. Las dos señales señaladas son emitidas como Señales de Audio 3 y 4 La cantidad de retardo del descentrado aplicado es el producto del retardo relativo de las rúbricas 2plco entre las rúbricas ¾ y la resolución M-P, en las muestras, de las rúbricas . Para aplicaciones en donde solamente sea de interés el paso común de las dos fuentes (tal como en el caso de la detección de marcas de agua en donde se vayan a comparar directamente señales marcadas y no marcadas) , las dos fuentes deben ser truncadas para conservar solamente ese paso común . Para aplicaciones en donde no se vaya a perder información, una señal puede ser descentrada mediante la inserción de muestras delanteras. Por ejemplo, sea x1(n) las muestras de la Señal de Audio 1 con una longitud de Nx muestras y sean x2 (n) las muestras de la Señal de Audio 2 con una longitud de N2 muestras . También lpico representa el descentrado de S2 con relación de Sx en unidades de M-P muestras de audio . El descentrado D21 de la muestra, de la Señal de Audio 2 con relación a la Señal de Audio 1 es el producto del descentrado de la rúbrica 2pico y M-P.
D2] = l?8 .(M - P) (3) Si D21 es cero, ambas señales de entrada son emitidas sin modificación, como las señales 3 y 4 (ver figura IB) . Si D21 es positivo entonces la señal de entrada x2 (n) se modifica insertando muestras delanteras .
La señales x {n) y x2(n) son emitidas como las Señales 3 y 4 (ver figura IB) . Si D21 es negativo entonces la señal de entrada x3(n) se modifica mediante la inserción de muestras delanteras .
Complejidad del Cálculo y Exactitud El poder de cómputo requerido para calcular el descentrado, es proporcional a las longitudes de los arreglos de rúbricas, Q y Q2. Debido a que el proceso descrito tiene cierto error en el descentrado, el proceso de alineación temporal de la presente invención puede seguirse mediante un proceso convencional que tenga una resolución más fina, que funcione directamente con las señales de audio, en vez que con las rúbricas. Por ejemplo, ese proceso puede tomar secciones de las señales de audio alineadas (ligeramente más largas que el error del descentrado, para asegurar cierto traslape) y correlacionar en forma cruzada las secciones directamente para determinar el error exacto de las muestras o el descentrado- fino . Dado que los arreglos de rúbricas se usan para calcular el descentrado entre las muestras, la exactitud del método de alineación temporal está limitada al tamaño del bloque de audio usado para generar las rúbricas: en esta implementación, 512 muestras . En otras palabras este método tendrá un error en el descentrado de las muestras, de aproximadamente más/menos la mitad del tamaño del bloque: en esta implementación ±256 muestras. Este error puede reducirse incrementando la resolución de las rúbricas; sin embargo existe una negociación entre la exactitud y complejidad computacional. Un error menor en el descentrado requiere una resolución más fina en los arreglos de rúbricas (más elementos de arreglos) y esto requiere de mayor poder de procesamiento en el cálculo de la correlación cruzada. A mayor error en el descentrado se requiere de una resolución más burda en los arreglos de rúbricas (menos elementos en el arreglo) y esto requiere de menos poder en el procesamiento en el cálculo de la correlación cruzada.
Aplicaciones La aplicación de marcas de agua involucra insertar información en una señal, alterando la señal en alguna forma predefinida, incluyendo la adición de otras señales, para crear una señal marcada. La detección o extracción de información insertada se basa a menudo en una comparación de la señal marcada con la fuente original. También, la señal marcada sufre a menudo de otro procesamiento, incluyendo la codificación de audio y la transmisión por la ruta acústica bocina/micrófono. La presente invención proporciona una forma de alineación temporal de una señal marcada, con la fuente original, para facilitar después la extracción de la información insertada. Los métodos subjetivos y objetivos para determinar la calidad del codificador de audio, comparan una señal codificada con la fuente original, usada para generar la señal codificada, a fin de crear una medida de la degradación de la señal (por ejemplo, una puntuación del deterioro de 5 puntos ITÜ-R) . La comparación se basa en la alineación temporal de la señal de audio codificada, con la señal fuente original. Este método proporciona un medio de alineación temporal de la fuente y de las señales codificadas . También son posibles otras aplicaciones de la invención, por ejemplo, mejorar la sincronización de diálogos, de señales de audio y video, tal como se mencionó anteriormente . Deberá comprenderse que la implementación de otras variaciones y modificaciones de la invención y de sus diferentes aspectos, serán evidentes para los experimentados en la técnica, y que la invención no está limitada por estas modalidades especificas descritas. Por lo tanto se contempla que la presente invención cubra cualesquiera y todas modificaciones, variaciones, o equivalentes que caigan dentro del verdadero espíritu y alcance de los principios subyacentes, básicos, descritos y reivindicados aquí. La presente invención y sus diferentes aspectos pueden ser implementados como sus funciones de Software ejecutadas en procesadores de señales digitales, en computadoras digitales de propósito general, programadas, y/o en computadoras digitales de propósito especial. Las interfases entre fuentes de señales analógicas y digitales pueden ser ejecutadas en hardware apropiado y/o como funciones en software y/o firmware.

Claims (9)

  1. REIVINDICACIONES 1. Un método para la alineación temporal de señales de audio, en donde una señal ha sido derivada a partir de la otra o ambas han sido derivadas a partir de otra señal, caracterizado porque comprende derivar caracterizaciones de información reducida, de señales de audio, en donde las caracterizaciones de información reducida se basan en el análisis de escenas auditivas, calcular el descentrado temporal de una caracterización con respecto a la otra caracterización, modificar la relación temporal de las señales de audio, unas con respecto a otras, en respuesta a ese descentrado temporal , de manera tal que las señales de audio coincidan substancialmente una con otra.
  2. 2. El método de conformidad con la reivindicación 1, caracterizado porque las caracterizaciones de información reducida se derivan a partir de las señales de audio y se insertan en otras señales respectivas que son transmitidas con las señales de audio a partir de las cuales fueron derivadas antes del cálculo y modificación.
  3. 3. El método de conformidad con la reivindicación 2, caracterizado porque las otras señales son la porción de video de una señal de televisión y las señales de audio son la porción de audio de la señal de televisión respectiva.
  4. 4. Un método para la alineación temporal de una señal de audio y de otra señal, caracterizado porque comprende derivar una caracterización de información reducida, de la señal de audio, e insertar esa caracterización en la otra señal, cuando la señal de audio y la otra señal se encuentren substancialmente en sincronía, en donde la caracterización se basa en el análisis de escenas auditivas, recuperar la caracterización insertada, de la señal de audio, de la otra señal, y derivar una caracterización de información reducida, de la señal de audio, a partir de la señal de audio, en la misma forma en que la caracterización insertada de la señal de audio fue derivada en base al análisis de escenas auditivas, después de que la señal de audio y la otra señal hayan sido sometidas a descentrados temporales diferenciales, calcular el descentrado temporal de una caracterización con respecto a la otra caracterización, modificar la relación temporal de la señal de audio con respecto a la otra señal, en respuesta al descentrado temporal, de manera tal que la señal de audio y la señal de video se encuentren substancialmente en sincronía una con la otra.
  5. 5. El método de conformidad con la reivindicación 4, caracterizado porque la otra señal es una señal de video.
  6. 6. El método de conformidad con la reivindicación 1 o con la reivindicación 4, caracterizado porque el cálculo del descentrado temporal incluye llevar a cabo una correlación cruzada de las caracterizaciones.
  7. 7. El método de conformidad con cualesquiera de las reivindicaciones 1-6, caracterizado porque las caracterizaciones de información reducida, basadas en el análisis de escenas auditivas, son arreglos de información que representan al menos la ubicación de las fronteras de los eventos auditivos.
  8. 8. El método de conformidad con la reivindicación 7, caracterizado porque las fronteras de los eventos auditivos son determinadas, calculando el contenido espectral de segmentos de tiempo sucesivos, de la señal de audio, calculando la diferencia en el contenido espectral entre segmentos de tiempo sucesivos, de la señal de audio, e identificando una frontera de evento auditivo, como la frontera entre los segmentos de tiempo sucesivos, cuando la diferencia en el contenido espectral, entre esos segmentos de tiempo sucesivos, exceda un umbral.
  9. 9. El método de conformidad con la reivindicación 7 o con la reivindicación 8, caracterizado porque los arreglos de información representan la banda secundaria de la frecuencia dominante^ de cada uno de los eventos auditivos .
MXPA03010750A 2001-05-25 2002-02-12 Metodo para la alineacion temporal de senales de audio usando caracterizaciones basadas en eventos auditivos. MXPA03010750A (es)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US29382501P 2001-05-25 2001-05-25
US4564402A 2002-01-11 2002-01-11
US35149802P 2002-01-23 2002-01-23
PCT/US2002/004317 WO2002084645A2 (en) 2001-04-13 2002-02-12 High quality time-scaling and pitch-scaling of audio signals

Publications (1)

Publication Number Publication Date
MXPA03010750A true MXPA03010750A (es) 2004-07-01

Family

ID=39362827

Family Applications (2)

Application Number Title Priority Date Filing Date
MXPA03010750A MXPA03010750A (es) 2001-05-25 2002-02-12 Metodo para la alineacion temporal de senales de audio usando caracterizaciones basadas en eventos auditivos.
MXPA03010751A MXPA03010751A (es) 2001-05-25 2002-02-12 Segmentacion de senales de audio en eventos auditivos.

Family Applications After (1)

Application Number Title Priority Date Filing Date
MXPA03010751A MXPA03010751A (es) 2001-05-25 2002-02-12 Segmentacion de senales de audio en eventos auditivos.

Country Status (11)

Country Link
EP (2) EP1390942B1 (es)
JP (2) JP4906230B2 (es)
KR (3) KR100873396B1 (es)
CN (2) CN1272765C (es)
AT (1) ATE470927T1 (es)
DE (1) DE60236648D1 (es)
DK (1) DK1393300T3 (es)
ES (1) ES2400700T3 (es)
HK (2) HK1066087A1 (es)
MX (2) MXPA03010750A (es)
WO (1) WO2002097791A1 (es)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610205B2 (en) 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7711123B2 (en) 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7461002B2 (en) 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US7283954B2 (en) 2001-04-13 2007-10-16 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
WO2002093560A1 (en) 2001-05-10 2002-11-21 Dolby Laboratories Licensing Corporation Improving transient performance of low bit rate audio coding systems by reducing pre-noise
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
ATE527654T1 (de) 2004-03-01 2011-10-15 Dolby Lab Licensing Corp Mehrkanal-audiodecodierung
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
WO2006037014A2 (en) 2004-09-27 2006-04-06 Nielsen Media Research, Inc. Methods and apparatus for using location information to manage spillover in an audience monitoring system
AU2006255662B2 (en) 2005-06-03 2012-08-23 Dolby Laboratories Licensing Corporation Apparatus and method for encoding audio signals with decoding instructions
US7948557B2 (en) * 2005-06-22 2011-05-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a control signal for a film event system
JP4940588B2 (ja) * 2005-07-27 2012-05-30 ソニー株式会社 ビート抽出装置および方法、音楽同期画像表示装置および方法、テンポ値検出装置および方法、リズムトラッキング装置および方法、音楽同期表示装置および方法
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
US7539616B2 (en) * 2006-02-20 2009-05-26 Microsoft Corporation Speaker authentication using adapted background models
ATE493794T1 (de) 2006-04-27 2011-01-15 Dolby Lab Licensing Corp Tonverstärkungsregelung mit erfassung von publikumsereignissen auf der basis von spezifischer lautstärke
MX2008015819A (es) 2006-06-13 2009-01-12 Koninkl Philips Electronics Nv Impresion digital, aparato, metodo de identificacion y sincronizacion de video.
JP5040425B2 (ja) * 2007-05-10 2012-10-03 カシオ計算機株式会社 コンテンツ再生方法、再生装置、及びプログラム
GB2457694B (en) 2008-02-21 2012-09-26 Snell Ltd Method of Deriving an Audio-Visual Signature
JP2010017216A (ja) * 2008-07-08 2010-01-28 Ge Medical Systems Global Technology Co Llc 音声データ処理装置,音声データ処理方法、および、イメージング装置
WO2010126709A1 (en) * 2009-04-30 2010-11-04 Dolby Laboratories Licensing Corporation Low complexity auditory event boundary detection
US8855101B2 (en) 2010-03-09 2014-10-07 The Nielsen Company (Us), Llc Methods, systems, and apparatus to synchronize actions of audio source monitors
CN102142257B (zh) * 2010-12-28 2013-07-03 北大方正集团有限公司 一种音频信号处理方法及装置
CN103548079B (zh) * 2011-08-03 2015-09-30 Nds有限公司 音频水印
WO2012163013A1 (zh) * 2011-10-19 2012-12-06 华为技术有限公司 音乐查询方法和装置
US9779736B2 (en) 2011-11-18 2017-10-03 Sirius Xm Radio Inc. Systems and methods for implementing efficient cross-fading between compressed audio streams
CA2855845A1 (en) 2011-11-18 2013-05-23 Sirius Xm Radio Inc. Systems and methods for implementing cross-fading, interstitials and other effects downstream
MX343807B (es) 2012-03-06 2016-11-24 Sirius Xm Radio Inc Sistemas y métodos para el mapeo de atributos de audio.
EP2648418A1 (en) * 2012-04-05 2013-10-09 Thomson Licensing Synchronization of multimedia streams
WO2014018652A2 (en) 2012-07-24 2014-01-30 Adam Polak Media synchronization
US20140114456A1 (en) * 2012-10-22 2014-04-24 Arbitron Inc. Methods and Systems for Clock Correction and/or Synchronization for Audio Media Measurement Systems
US9021516B2 (en) 2013-03-01 2015-04-28 The Nielsen Company (Us), Llc Methods and systems for reducing spillover by measuring a crest factor
US9118960B2 (en) 2013-03-08 2015-08-25 The Nielsen Company (Us), Llc Methods and systems for reducing spillover by detecting signal distortion
US9191704B2 (en) 2013-03-14 2015-11-17 The Nielsen Company (Us), Llc Methods and systems for reducing crediting errors due to spillover using audio codes and/or signatures
WO2014151813A1 (en) 2013-03-15 2014-09-25 Dolby Laboratories Licensing Corporation Normalization of soundfield orientations based on auditory scene analysis
KR102179321B1 (ko) 2014-01-31 2020-11-18 인터디지털 씨이 페이튼트 홀딩스 두 개의 전자 디바이스에서 재생을 동기화하는 방법 및 장치
CN104036794A (zh) * 2014-06-27 2014-09-10 广东远峰汽车电子有限公司 可识别车载多媒体设备工作频道的加装设备、车载多媒体设备工作频道识别方法及装置
US9924224B2 (en) 2015-04-03 2018-03-20 The Nielsen Company (Us), Llc Methods and apparatus to determine a state of a media presentation device
US9848222B2 (en) 2015-07-15 2017-12-19 The Nielsen Company (Us), Llc Methods and apparatus to detect spillover
US10394518B2 (en) * 2016-03-10 2019-08-27 Mediatek Inc. Audio synchronization method and associated electronic device
CN109791773B (zh) * 2016-11-04 2020-03-24 惠普发展公司,有限责任合伙企业 音频输出产生系统、音频通道输出方法和计算机可读介质
GB2556058A (en) * 2016-11-16 2018-05-23 Nokia Technologies Oy Distributed audio capture and mixing controlling
WO2019088853A1 (en) * 2017-11-03 2019-05-09 Klaps Limited Live audio replacement in a digital stream
CN110476960B (zh) * 2019-09-19 2021-06-15 河北省农林科学院植物保护研究所 噻虫胺薄膜缓释型种子处理悬浮剂及其制备方法与应用
CN111489759A (zh) * 2020-03-23 2020-08-04 天津大学 基于光纤语音时域信号波形对齐的噪声评估方法
CN112651429B (zh) * 2020-12-09 2022-07-12 歌尔股份有限公司 一种音频信号时序对齐方法和装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4624009A (en) 1980-05-02 1986-11-18 Figgie International, Inc. Signal pattern encoder and classifier
US5040081A (en) * 1986-09-23 1991-08-13 Mccutchen David Audiovisual synchronization signal generator using audio signature comparison
US5055939A (en) 1987-12-15 1991-10-08 Karamon John J Method system & apparatus for synchronizing an auxiliary sound source containing multiple language channels with motion picture film video tape or other picture source containing a sound track
WO1991019989A1 (en) * 1990-06-21 1991-12-26 Reynolds Software, Inc. Method and apparatus for wave analysis and event recognition
US5175769A (en) * 1991-07-23 1992-12-29 Rolm Systems Method for time-scale modification of signals
JPH05181464A (ja) * 1991-12-27 1993-07-23 Sony Corp 楽音認識装置
US6002776A (en) 1995-09-18 1999-12-14 Interval Research Corporation Directional acoustic signal processor and method therefor
KR100236974B1 (ko) * 1996-12-13 2000-02-01 정선종 동화상과 텍스트/음성변환기 간의 동기화 시스템
JP3379624B2 (ja) * 1997-02-17 2003-02-24 日本電信電話株式会社 波形同期方法
US6211919B1 (en) * 1997-03-28 2001-04-03 Tektronix, Inc. Transparent embedment of data in a video signal
JP3511360B2 (ja) * 1998-03-09 2004-03-29 日本電信電話株式会社 音楽音響信号分離方法、その装置およびそのプログラム記録媒体
JP2000181449A (ja) * 1998-12-15 2000-06-30 Sony Corp 情報処理装置および方法、並びに提供媒体
US6321200B1 (en) * 1999-07-02 2001-11-20 Mitsubish Electric Research Laboratories, Inc Method for extracting features from a mixture of signals
JP4458581B2 (ja) * 1999-08-17 2010-04-28 大日本印刷株式会社 信号監視用音楽演奏装置

Also Published As

Publication number Publication date
JP4906230B2 (ja) 2012-03-28
WO2002097791A1 (en) 2002-12-05
CN1511311A (zh) 2004-07-07
KR100911679B1 (ko) 2009-08-10
CN1264137C (zh) 2006-07-12
EP2549475B1 (en) 2019-07-31
CN1620684A (zh) 2005-05-25
JP2004528600A (ja) 2004-09-16
ATE470927T1 (de) 2010-06-15
KR100873396B1 (ko) 2008-12-11
KR20040004647A (ko) 2004-01-13
ES2400700T3 (es) 2013-04-11
EP1390942A1 (en) 2004-02-25
MXPA03010751A (es) 2005-03-07
KR20040004648A (ko) 2004-01-13
KR100871607B1 (ko) 2008-12-02
EP1390942B1 (en) 2012-08-01
HK1066087A1 (en) 2005-03-11
KR20040004646A (ko) 2004-01-13
DK1393300T3 (da) 2013-03-18
JP2004528601A (ja) 2004-09-16
JP4763965B2 (ja) 2011-08-31
EP2549475A1 (en) 2013-01-23
CN1272765C (zh) 2006-08-30
HK1066902A1 (en) 2005-04-01
DE60236648D1 (de) 2010-07-22

Similar Documents

Publication Publication Date Title
MXPA03010750A (es) Metodo para la alineacion temporal de senales de audio usando caracterizaciones basadas en eventos auditivos.
CA2448178C (en) Method for time aligning audio signals using characterizations based on auditory events
US7461002B2 (en) Method for time aligning audio signals using characterizations based on auditory events
US7283954B2 (en) Comparing audio using characterizations based on auditory events
US9165562B1 (en) Processing audio signals with adaptive time or frequency resolution
AU2002242265A1 (en) Method for time aligning audio signals using characterizations based on auditory events
AU2002240461A1 (en) Comparing audio using characterizations based on auditory events
AU2002252143A1 (en) Segmenting audio signals into auditory events

Legal Events

Date Code Title Description
FG Grant or registration