MXPA04012865A - Dispositivo de preparacion de metadatos, metodo de preparacion para el mismo y dispositivo de recuperacion. - Google Patents

Dispositivo de preparacion de metadatos, metodo de preparacion para el mismo y dispositivo de recuperacion.

Info

Publication number
MXPA04012865A
MXPA04012865A MXPA04012865A MXPA04012865A MXPA04012865A MX PA04012865 A MXPA04012865 A MX PA04012865A MX PA04012865 A MXPA04012865 A MX PA04012865A MX PA04012865 A MXPA04012865 A MX PA04012865A MX PA04012865 A MXPA04012865 A MX PA04012865A
Authority
MX
Mexico
Prior art keywords
content
metadata
file
speech recognition
voice
Prior art date
Application number
MXPA04012865A
Other languages
English (en)
Inventor
Mitsuru Endoh
Original Assignee
Matsushita Electric Ind Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2002319757A external-priority patent/JP2004153765A/ja
Priority claimed from JP2002319756A external-priority patent/JP3781715B2/ja
Priority claimed from JP2002334831A external-priority patent/JP2004086124A/ja
Application filed by Matsushita Electric Ind Co Ltd filed Critical Matsushita Electric Ind Co Ltd
Publication of MXPA04012865A publication Critical patent/MXPA04012865A/es

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4334Recording operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)

Abstract

Un dispositivo de preparacion de metadatos que comprende una unidad de reproduccion de contenido (1) para reproducir y producir contenido, un monitor (3) para verificar el contenido reproducido por la unidad de reproduccion de contenido, una unidad de entrada de voz(4), una unidad de reconocimiento de voz (5) para reconocer una entrada de senal de voz de la unidad de entrada de voz, una unidad de generacion de metadatos (6) para convertir informacion reconocida por la unidad de reconocimiento de voz a metadatos, y una unidad que imparte informacion de identificacion (7) para adquirir informacion de identificacion que identifica partes respectivas en el contenido del contenido reproducido, suministrado de la unidad de reproduccion de contenido, para impartir a metadatos, en donde los metadatos generados son asi construidos que seran asociados con partes respectivas en el contenido.

Description

WO 2004/002144 Al ! (II tí III ? lili I ·( iií (!i 11 ? li: KÍIIU ílilí II ? ti It I !tt! — ffijE* DISPOSITIVO DE PREPARACION DE METADATOS, METODO DE PREPARACIÓN PARA EL MISMO Y DISPOSITIVO DE RECUPERACION CAMPO TÉCNICO La presente invención se refiere a dispositivos de producción de metadatos y métodos de producción de metadatos para producir metadatos que están relacionados con contenido de video o audio o lo similar que haya sido creado. La presente invención además se relaciona a dispositivos de recuperación que buscan contenido con los metadatos producidos.
ANTECEDENTES DE LA TÉCNICA En años recientes, el contenido de audio o video o lo similar que se ha creado, está provisto con metadatos que están relacionados con tal contenido. Sin embargo, para la tarea convencional de vincular metadatos, era común confirmar la información que se supone sirve como metadatos, mientras reproduce el contenido de audio o video creado, en base a un guión o argumento del contenido de audio o video creado, y para producir los metadatos introduciéndolos manualmente en la computadora. Consecuentemente, la producción de metadatos requería esfuerzo considerable. JP H09-130736A revela un sistema que une etiquetas utilizando reconocimiento de voz mientras filma con una cámara. Sin - 2 -embargo, este sistema se utiliza al mismo tiempo que se toma la imagen, y no se puede aplicar para unir metadatos al contenido que ya se ha creado.
BREVE DESCRIPCIÓN DE LA INVENCIÓN Por ello, es un objetivo de la presente invención resolver los problemas arriba descritos, y suministrar un dispositivo de producción de metadatos y un método de producción de metadatos, con el cual se pueden crear metadatos fácilmente a través de la entrada de voz para contenido ya creado. Es otro objetivo de la presente invención suministrar un mecanismo de recuperación, con el cual se puede buscar fácilmente contenido, utilizando así los metadatos producidos. Un dispositivo de producción de metadatos de acuerdo a la presente invención incluye: una parte de reproducción de contenido que reproduce y produce contenido; una parte de entrada de voz; una parte de reconocimiento de voz que reconoce señales de voz que ingresan de la parte de entrada de voz; una parte de generación de metadatos que convierte información reconocida por la parte de reconocimiento de voz dentro de los metadatos; y una parte de unión de información de identificación que obtiene información de identificación para identificar posiciones dentro del contenido del contenido reproducido que se suministra de la parte de reproducción de contenido y une la información de identificación a los metadatos; por lo que los metadatos generados se asocian con posiciones en el - 3 -contenido. Un método para producir metadatos de la presente invención, incluye: información de entrada de voz relacionada a un contenido dado; someter la señal de voz de entrada a reconocimiento de voz con un dispositivo de reconocimiento de voz; convertir la información reconocimiento de voz en los metadatos; y unir la información de identificación suministrada al contenido para identificar las posiciones en el contenido para los metadatos, por consiguiente asociando los metadatos generados con las posiciones en el contenido. Un dispositivo de búsqueda de metadatos de acuerdo a la presente invención incluye una base de datos de contenido que reproduce y produce contenido; una parte de entrada de voz que convierte señales de voz de palabras clave ingresadas dentro de los datos con una señal de contador que esta sincronizada con una señal de sincronización del contenido reproducido; una parte de reconocimiento de voz que reconoce las palabras clave de los datos de señal de voz que se han convertido en datos a través de la parte de entrada de voz; una parte de procesamiento de archivo que produce un archivo de metadatos a través de la combinación de la producción de palabras clave de la parte de reconocimiento de voz con códigos de tiempo que indican una posición de tiempo de una señal de imagen que está incluida en el contenido; una parte de procesamiento de archivo de información de contenido que genera un archivo de control que controla una relación entre el archivo de - 4 -metadatos y las partes de grabación del archivo de contenido; una parte de grabación que graba el archivo de contenido, el archivo de metadatos y el archivo de control; y una parte de búsqueda que extrae una parte de grabación que corresponde a la palabra clave del archivo de contenido especificando los archivos de metadatos en los cuales está incluida la palabra clave de búsqueda ingresada, y que coloca referencia al archivo de control. La posición de grabación del archivo de contenido corresponde a la posición de grabación en la parte de grabación.
BREVE DESCRIPCIÓN DE LOS DI BUJOS La Fig. 1 es un bloque diagrama que muestra la configuración de un dispositivo de producción de metadatos, de acuerdo a la Modalidad 1 de la presente invención. La Fig. 2 es un diagrama que muestra un ejemplo de metadatos al cual está unido un código de tiempo, de acuerdo a la Modalidad 1 de la presente invención. La Fig. 3 es un bloque diagrama que muestra la configuración de un dispositivo de producción de metadatos, de acuerdo a la Modalidad 2 de la presente invención. La Fig. 4 es un diagrama que muestra un ejemplo de una parte de exhibición de contenido/metadatos de imagen fija en ese dispositivo. La Fig. 5 es un bloque diagrama que muestra otra configuración de un dispositivo de producción de metadatos, de - 5 -acuerdo a la Modalidad 2 de la presente invención. La Fig. 6 es un bloque diagrama que muestra la configuración de un dispositivo de producción de metadatos, de acuerdo a la Modalidad 3 de la presente invención. La Fig. 7 es un diagrama que muestra un ejemplo del diccionario de DB en el dispositivo de esa modalidad. La Fig. 8 es un diagrama que muestra una receta, es decir, un ejemplo de un argumento de contenido al cual se puede aplicar el dispositivo de esta modalidad. La Fig. 9 es un diagrama de datos en formato de texto que muestra un ejemplo de un archivo de metadatos producido con el dispositivo de esta modalidad. La Fig. 10 es un bloque diagrama que muestra la configuración de un dispositivo de producción de metadatos, de acuerdo a la Modalidad 4 de la presente invención. La Fig. 1 1 es un diagrama que muestra un ejemplo de un archivo de información producido con el dispositivo de esta modalidad. La Fig. 12 es un bloque diagrama que muestra la configuración de un dispositivo de búsqueda de metadatos, de acuerdo a la Modalidad 5 de la presente invención. La Fig. 13 es un bloque diagrama que muestra la configuración de un dispositivo de producción de metadatos, de acuerdo a la Modalidad 6 de la presente invención. - 6 - MEJOR MODO PARA LLEVAR A CABO LA I NVENCIÓN Con el dispositivo de producción de metadatos, de acuerdo a la presente invención, los metadatos o etiquetas se producen a través de la entrada de voz utilizando reconocimiento de voz para la producción de metadatos o el acoplamiento de etiquetas relacionadas al contenido, y los metadatos o etiquetas se asocian con las escenas o momentos de contenido. Por ello, los metadatos que se utilizan convencionalmente para ser producidos a través de entrada de teclado, se pueden producir automáticamente a través de entrada de voz. Se debe observar que "metadatos" significa un conjunto de etiquetas, y que está referido como "metadatos" durante toda esta especificación, también incluye las etiquetas por sí mismas. Además, "contenido" se utiliza para querer decir todo lo que es ordinariamente referido como contenido, tal como contenido de imagen fija, contenido de audio, video creado, o contenido de audio o video en una base de datos o lo similar. Es preferible que el dispositivo de producción de metadatos además comprenda un diccionario relacionado al contenido, en donde, cuando las señales de voz de entrada de la parte de entrada de voz se reconocen a través de la parte de reconocimiento de voz, el reconocimiento se lleva a cabo en asociación con el diccionario. Con esta configuración, es posible introducir, como señales de voz, palabras clave que se han extraído con anticipación de los argumentos de contenido creado o lo similar, para fijar un archivo de diccionario en base al argumento, y para - 7 -asignar una colocación de prioridad a las palabras clave, de tal manera que los metadatos se puedan generar eficaz y precisamente con el medio de reconocimiento de voz. Además, las señales de voz se pueden reconocer a través de la parte de reconocimiento de voz, palabra por palabra, en asociación con el diccionario. También es preferible que el dispositivo de producción de metadatos además contenga una parte de procesamiento de información qué incluya un teclado, y los metadatos se puedan corregir a través de la parte de procesamiento de información a través de la entrada del teclado. La información de código de tiempo que está unida al contenido, se puede utilizar como la información de identificación. Alternativamente, direcciones de contenido, números o números de imagen unidos al contenido, se pueden utilizar como la información de identificación. Además, el contenido puede ser contenido de imagen fija, y las direcciones del contenido de imagen fija se pueden utilizar como la información de identificación. Como un ejemplo de aplicación de la presente invención, el dispositivo de producción de metadatos se pude configurar como sigue: La parte de reproducción de contenido se configura a través de una base de datos de contenido, y la parte de entrada de voz suministra a la parte de reconocimiento de voz señales de voz de palabras clave ingresadas que son convertidas en datos con una señal de contador que está sincronizada con una señal de sincronización suministrada de la base de datos de contenido. La - 8 -parte de reconocimiento de voz está configurada para reconocer las palabras clave de los datos de señal de voz que se han convertido en datos a través de la parte de entrada de voz. Y la parte de generación de metadatos está configurada como una parte de procesamiento de archivo que produce un archivo de metadatos utilizando, como la información de identificación, un código de tiempo que indica una posición de tiempo de una señal de imagen incluida en el contenido, y que combina las palabras calve que se producen de la parte de reconocimiento de voz con ese código de tiempo. Con esta configuración, los metadatos se pueden unir eficientemente, incluso en intervalos de varios segundos. Consecuentemente, es posible producir metadatos de intervalos de tiempo cortos, los cuales son difíciles de utilizar con teclado convencional de entrada. En esta configuración, es preferible que el dispositivo de producción de metadatos además contenga una parte de grabación que grabe el contenido que se suministra de la base de datos de contenido junto con el archivo de metadatos como un archivo de contenido. También es preferible que el dispositivo de producción de metadatos además contenga una parte de procesamiento de archivo de información de contenido que genere un archivo de control, que controla la relación entre el archivo de metadatos y posiciones de grabación, en las cuales el archivo de contenido es para ser grabado, y el archivo de control se graba en la parte de grabación junto con el archivo de contenido y el archivo de metadatos. También es - 9 -preferible que el dispositivo de producción de metadatos además comprenda una base de datos de diccionario, en donde la parte de reconocimiento de voz puede elegir un diccionario de un género que corresponde al contenido de una pluralidad de diccionarios dependientes de género. Es además preferible que las palabras clave relacionadas al contenido puedan ser provistas a la parte de reconocimiento de voz, y que la parte de reconocimiento de voz este configurada para reconocer aquellas palabras clave con prioridad más alta. En el método para producir metadatos, es preferible que la información relacionada al contenido sea entrada de voz, mientras que exhibe el contenido en un monitor de reproducción. Es además preferible que se utilice un diccionario relacionado al contenido, y las señales de voz de entrada sean reconocidas a través del dispositivo de reconocimiento de voz a través de la asociación con el diccionario. Además es preferible que la información de código de tiempo que está unida al contenido, se utilice como la información de identificación. También es preferible que el contenido sea contenido de imagen fija, y las direcciones del contenido de imagen fija se utilicen como la información de identificación. Con el dispositivo de búsqueda de metadatos de la presente invención, es posible buscar rápidamente la localización deseada del contenido en base a metadatos, utilizando un archivo de control que indica las posiciones de grabación del contenido y un archivo de metadatos que indica códigos de tiempo y metadatos. - 10 - En el dispositivo de búsqueda de metadatos de la presente invención, es preferible que el archivo de control de salida de la parte de procesamiento de archivo de información de contenido se conciba como una tabla que enlista posiciones de grabación de contenido en la parte de grabación, de acuerdo con un tiempo de grabación del contenido, y la posición de grabación del contenido pueda ser buscada del código de tiempo. Es además preferible que el dispositivo de búsqueda de metadatos además contenga una base de datos de diccionario, y una parte de suministro de palabra clave que suministra palabras clave relacionadas al contenido dentro de la parte de reconocimiento de voz, y esa parte de reconocimiento de voz pueda elegir un diccionario de un género que corresponda al contenido de una pluralidad de diccionarios dependientes de género, y la parte de reconocimiento de voz este configurada para reconocer aquellas palabras clave con prioridad más alta. Es más preferible que el dispositivo de búsqueda de metadatos además contenga una base de datos de diccionario, que la parte de reconocimiento de voz pueda elegir un diccionario de un género que corresponda al contenido de una pluralidad de diccionarios dependientes del género, y que la parte de búsqueda este configurada para buscar a través de palabras clave que se eligen de un diccionario común utilizado por la parte de reconocimiento de oz. La siguiente es una explicación más detallada de la - 1 1 -invención, con referencia a los dibujos que la acompañan.
Modalidad 1 La Fig. 1 es un bloque diagrama que muestra la configuración de un dispositivo de producción de metadatos, de acuerdo a la Modalidad 1 de la presente invención. Una parte de reproducción de contenido 1 es un elemento para confirmar el contenido creado durante la producción de metadatos. La salida de la parte de reproducción de contenido 1 se proporciona a un monitor de video 2, un monitor de audio 3 y una parte que une el código de tiempo 7. Se suministra un micrófono 4 como una parte de entrada de voz para la producción de metadatos. La voz que se ingresa con el micro 4 se proporciona a la parte de reconocimiento de voz 5. La parte de confirmación de voz 5 está conectada con un diccionario 8 para reconocimiento de voz, y puede hacer referencia a los datos en el diccionario 8. La producción de reconocimiento de la parte de reconocimiento de voz 5 se proporciona a una parte de generación de metadatos 6, y los metadatos producidos se proporcionan a una parte de unión de código de tiempo 7, de la cual estos pueden ser producidos a la salida. La parte de reproducción de contenido 1 puede estar configurada con un dispositivo de reproducción de señal de video/audio tal como un VTR, dispositivo de disco duro o un dispositivo de disco óptico, un dispositivo de reproducción de señal de video/audio utilizando un medio de memoria tal como una memoria - 12 -semiconductora como un medio de grabación, o un dispositivo de reproducción de señal de video/audio que reproduce señales de video/audio que se proporcionan a través de transmisiones o difusión. Las señales de video reproducidas se suministran de la terminal de salida de señal de video 1 a de la parte de reproducción de contenido 1 al monitor de video 2. Las señales de voz reproducidas se proporcionan de la terminal de salida de señal de voz 1 b al monitor de audio 3. Los códigos de tiempo reproducidos se proporcionan de la terminal de salida de código de tiempo 1 c a la parte de unión de código de tiempo 7. Se debe observar que el monitor de video 2 y el monitor de audio 3 no son necesariamente requeridos como elementos del dispositivo de producción de metadatos, y es suficiente si estos se puedan conectar y utilizar cuando sea necesario. Cuando se producen los metadatos, el operador pronuncia los metadatos a ser introducidos al micrófono 4, mientras revisa ya sea el monitor de video 2 o el monitor de audio 3 o ambos, y si es necesario, haciendo referencia al argumento o guión. Las señales de voz que se producen del micrófono 4, se proporcionan a la parte de reconocimiento de voz 5. Además, si es necesario, se hace referencia a los datos del diccionario 8 para reconocimiento de voz a través de la parte de reconocimiento de voz 5. Los datos de voz que se han reconocido a través de la parte de reconocimiento de voz 5 se suministran a la parte de generación de metadatos 6, y se convierten en metadatos. Los metadatos así generados se proveen con la - 13 -información de código de tiempo que está capturada del contenido reproducido y suministrada de la parte de reproducción de contenido 1 , a través de la parte de unión de código de tiempo 7, con el propósito de unir Información que asocie el momento o escena de cada parte del contenido con los metadatos. Con el propósito de explicar la operación de arriba en más detalle, vamos a imaginar, por ejemplo, un argumento en el cual el contenido es una receta. En este caso, cuando el operador pronuncie "sal: una cucharada" en del micrófono 4 mientras revisa la pantalla de exhibición del monitor de video 2, entonces "sal" y "una cucharada" se reconocen a través de la parte de reconocimiento de voz 5 consultando el diccionario 8, y se convierten en los datos "sal" y "una cucharada" a través de la parte de generación de metadatos 6. Se debe observar que un existe limitación particular a la configuración de la parte de reconocimiento de voz 5, y es suficiente si el reconocimiento de voz se desempeña utilizando cualquiera de los medios de reconocimiento de voz comúnmente utilizados, y los datos "sal" y "una cucharada" se pueden reconocer. Se debe observar que ordinariamente, "metadatos" significa un conjunto de tales etiquetas. Como se muestra en la FIG. 2, como resultado de este reconocimiento de voz, los metadatos 9a se producen de la parte de generación de metadatos 6 y se suministran a la parte de unión de código de tiempo 7. En la parte de unión de código de tiempo 7, se generan los datos de paquete que están hechos de metadatos de unión de - 14 -código de tiempo 1 0 q ue tienen un código de tiempo unido a éstos, en base a la señal de código de tiempo 9b proporcionada de la parte de reproducción de contenido 1 . Los metadatos generados pueden ser producidos como son , o pueden ser almacenados en un medio de grabación , tal como un disco duro o lo similar. Se debe observar q ue en este ejemplo, se mostró un ejemplo en el cual los metadatos se generan en forma de paquete, pero no existe limitación para esto.
Modalidad 2 La Fig. 3 es un bloq ue diagrama que muestra la configuración de un dispositivo de producción de metadatos, de acuerdo a la Modalidad 2 de la presente invención . Esta modalidad es un ejemplo en el cual el contenido de imagen fija es el sujeto de la producción de metadatos. Con el propósito de identificar el contenido de imagen fija, esta configuración correlaciona los metadatos generados y el contenido de imagen fija, utilizando direcciones del contenido, el cual corresponde al código de tiempo en el caso de imágenes en movimiento. En la FIG. 3, una cámara 1 1 es un elemento para la creación de contenido de imagen fija. La producción de la cámara 1 1 se graba a través de una parte de grabación de contenido de imagen fija 12 con información de dirección unida a ésta. Aq uí, el contenido de imagen fija grabado y la información de dirección se proporcionan a una parte de grabación de contenido/metadatos de imagen fija 13 - 15 -para la creación de metadatos. La información de dirección además se aplica a una parte de unión de dirección de metadatos 19. Se utiliza un micrófono 16 para entrada de voz de información relacionada a las imágenes fijas, y la producción del micrófono 16 se suministra dentro de una parte de reconocimiento de voz 17. La parte de reconocimiento de voz 17 está conectada con un diccionario 20 para reconocimiento de voz, y puede hacer referencia a los datos en el diccionario 20. La producción de reconocimiento de la parte de reconocimiento de voz 17 se proporciona a una parte de generación de metadatos 18, y los metadatos producidos se proporcionan a una parte de unión de dirección de metadatos 19. El contenido de imagen fija y los metadatos grabados por la parte de grabación de contenido/metadatos de imagen fija 13 se reproducen a través de una parte de reproducción de contenido/metadatos de imagen fija 14, y se exhiben a través de una parte de exhibición de contenido/metadatos de imagen fija 1 5. La siguiente es una descripción más detallada de la operación de un dispositivo de producción de metadatos con la configuración descrita arriba. El contenido de imagen fija tomado con la cámara 1 1 se graba a través de la parte de grabación de contenido de imagen fija 12 en un medio de grabación (que no se muestra en los dibujos), y la información de dirección se une a este, la cual también se graba en el medio de grabación. El medio de grabación ordinariamente está configurado como una memoria semiconductora, pero no existe - 16 -limitación para memorias semiconductoras, y es posible utilizar cualquier otro medio de grabación, por ejemplo, una memoria magnética, un medio de grabación óptico o un medio de grabación magneto-óptico. El contenido de imagen fija grabado, se suministra a través de una terminal de salida 12a y una terminal de entrada 13a, así como a través de una terminal de salida 12b y una terminal de entrada 13b, a la parte de grabación de contenido/metadatos de imagen fija 13. La información de dirección además se proporciona a través de la terminal de salida 12b y una terminal de entrada 19b a la parte de unión de dirección de metadatos 19. Por el otro lado, la información que se relaciona a las imagen fijas que se han tomado con la cámara 1 1 se ingresa a través del micrófono 16 dentro de la parte de reconocimiento de voz 17. La información que se relaciona las imágenes fijas puede ser, por ejemplo, título, fecha y hora en que se ha tomado la imagen, operador de cámara, localización de la imagen (dónde), personas en la imagen (quiénes), objetivo en la imagen (qué) o lo similar. Además, también los datos del diccionario 2,0 para reconocimiento de voz se suministran a la parte de reconocimiento de voz 17, si es necesario. Los datos de voz reconocidos por la parte de reconocimiento de voz 17 se suministran a la parte de generación de metadatos 1 8, y se convierten en metadatos o etiquetas. Se debe observar que ordinariamente "metadatos" es información relacionada al contenido, y significa un conjunto de etiquetas, tal como título, fecha y hora en que es tomó la imagen, operador de cámara, - 17 -localización de la imagen (dónde), personas en la imagen (quiénes), objetos en la imagen (qué), o lo similar. Las etiquetas o megadatos así generados, se proporcionan a la parte de unión de dirección de metadatos 19, con el propósito de unir la información que se asocia a ellos con las escenas o contenido de imagen fija. En la parte de unión de dirección de metadatos 19, la información de dirección suministrada de la parte de grabación de contenido de imagen fija 12, su une a los metadatos. Los metadatos de unión de dirección, a los cuales se ha unido así la información de dirección, se suministran a la parte de grabación de contenido/metadatos de imagen fija 13 a través de una terminal de salida 19c y un terminal de entrada 13c. El contenido de imagen fija con una dirección dada se asocia a través de la parte de grabación de contenido/metadatos de imagen fija 13 con los metadatos de la misma dirección y se graba. Con el propósito de explicar los metadatos de unión de dirección más específicamente, la FIG. 4 muestra un ejemplo de reproducción con la parte de reproducción de contenido/metadatos de imagen fija 14, el contenido de imagen fija y los metadatos grabados a través de la parte de grabación de contenido/metadatos de imagen fija 13 y que los exhibe con la parte de exhibición de contenido/metadatos de imagen fija. La pantalla de la parte de exhibición de contenido/metadatos de imagen fija 1 5 en la FIG. 4, la cual es meramente un ejemplo, está configurada por una parte de exhibición de contenido de imagen fija 21 , una parte de exhibición de dirección - 18 - 22, y una región de exhibición de metadatos 23. La región de exhibición de metadatos 23 está configurada a través de, por ejemplo, 1 ) una parte de presentación de título 23a, 2) una parte de presentación de fecha/hora, 3) una parte de presentación de operador de cámara 23c, 4) una parte de presentación de localización de filmación 23d etc. Estos metadatos se crean de los datos de voz reconocidos por la parte de reconocimiento de voz descrita arriba 17. La operación descrita arriba se relaciona al caso, tal como aquellos anteriores que toman el contenido de la imagen fija, en aproximadamente el mismo tiempo que se toma, o inmediatamente después de que se toma el contenido de imagen fija, etc. , en las cuales la creación de los metadatos no requiere necesariamente una confirmación del contenido de imagen fija que se ha tomado. Haciendo referencia a la FIG. 5, la siguiente es una explicación del caso en el cual se reproduce el contenido de imagen fija, y los metadatos se crean para el contenido de imagen fija monitoreado, con el propósito de unir más tarde los metadatos creados al contenido de imagen fija. Se debe observar que los elementos que son los mismos que en la FIG. 3 se denotan a través de los mismos números, y se han omitido explicaciones adicionales tomando en cuenta sus funciones y lo similar. En este caso, una parte de reproducción de contenido/dirección de imagen fija 24 se dispone entre la parte de grabación de contenido de imagen fija 12 y la parte de grabación de contenido/metadatos de imagen fija 13. Además, se suministra un monitor 25, al cual se suministra la salida - 19 -de la parte de reproducción de contenido/dirección de imagen fija 24. El contenido de imagen fija que se toma con la cámara 1 1 y que se suministra a la parte de grabación de contenido de imagen fija 12, se graba en un medio de grabación (que no se muestra en los dibujos), y se une una dirección a esta, la cual también está grabada en el medio de grabación." Este medio de grabación se proporciona a la parte de reproducción de contenido/dirección de imagen fija 24. Consecuentemente, el contenido de imagen fija que ya ha sido creado puede ser reproducido, y la cámara 1 1 y la parte de grabación de contenido de imagen fija 12 no son elementos indispensables en el dispositivo de producción de metadatos utilizado para crear metadatos para el contenido de imagen fija monitoreado en el monitor. El contenido de imagen fija creado con la parte de reproducción de contenido/dirección de imagen fija 24 se suministra al monitor 25. La información de dirección que se reproduce de manera similar se proporciona a través de la terminal de salida 24b y la terminal de entrada 19b a la parte de unión de dirección de metadatos 19. El usuario que crea los metadatos, pronuncia las palabras necesarias para la creación de metadatos en el micrófono 16, después de confirmar el contenido de imagen fija que se exhibe en el monitor 25. Por ello, la información relacionada a las imágenes fijas tomadas con la cámara 1 1 se ingresa a través del micrófono 16 dentro de la parte de reconocimiento de voz 17. La información relacionada a las imágenes fijas puede ser, por ejemplo, título, fecha y hora en que se ha tomado la imagen, operador de cámara, localización de la imagen - 20 - (dónde), personas en la imagen (quiénes), objetos en la imagen (qué), o lo similar. Las siguientes operaciones son las mismas que aquellas explicadas para al configuración de la FIG. 3.
Modalidad 3 La FIG. 6 es un bloque diagrama que muestra la configuración de un dispositivo de producción de metadatos, de acuerdo a la Modalidad 3 de la presente invención. Esta modalidad es un ejemplo en el cual el contenido de datos digital ordinario, es el sujeto para la producción de metadatos. Con el propósito de identificar el contenido de datos digital, esta configuración correlaciona los metadatos generados y el contenido de datos digital, utilizando direcciones o números del contenido. En la FIG. 6 , el número 31 denota una base de datos de contenido (referida en lo siguiente como "contenido DB"). La salida que se reproduce del contenido DB 31 se suministra a una parte de entrada de voz 32, una parte de procesamiento de archivo 35 y una parte de grabación 37. La salida de la parte de entrada de voz 32 es suministra a un parte de reconocimiento de voz 33. Los datos de una base de datos de diccionario (referidos como "diccionario DB" en lo siguiente) 34, se pueden suministrar a la parte de reconocimiento de voz 33. Los metadatos se producen de la parte de reconocimiento de voz 33 e ingresan en la parte de procesamiento de archivo 35. Utilizando un valor de código de tiempo del contenido DB 31 , los datos predeterminados se anexan a la salida de metadatos de la parte - 21 -de reconocimiento de voz 33, la cual se procesa dentro de un archivo con este formato, a través de la parte de procesamiento de archivo 35. El archivo de . metadatos que se producen de la parte de procesamiento de archivo 35, se suministra a la parte de grabación 37, y se graba junto con el contenido que se produce del contenido DB 31 . La parte de entrada de voz 32 se suministra con una terminal de entrada de voz 39, y el diccionario DB 34 se suministra con una terminal de entrada de selección de archivo de diccionario 40. La salida de reproducción del contenido DB 31 y la salida de reproducción de la parte de grabación 37, se pueden exhibir con un monitor de video 41 . El contenido DB 31 tiene una configuración para suministrar una función para reproducir contenido creado, mientras que asigna un código de tiempo adaptado al contenido, el cual puede ser, por ejemplo, un dispositivo de reproducción de señal de audio/video, tal como un VTR, un dispositivo de disco duro, o un dispositivo de disco óptico, un dispositivo de reproducción de señal de video/audio que utiliza un medio de memoria, tal como una memoria semiconductora como un medio de grabación, o un dispositivo de reproducción de señal de video/audio que temporalmente graba y reproduce señales de audio/video, que se suministran a través de transmisiones o difusión. La siguiente es una explicación de la operación de este dispositivo de producción de metadatos. Una señal de video con código de tiempo unido que se reproduce del contenido DB 31 , se - 22 -suministra al monitor de video 41 y se exhibe. Cuando el operador ingresa una señal de voz de narración utilizando el micrófono, de acuerdo con el contenido exhibido a través del monitor de video 41 , la señal de voz se ingresa a través de la terminal de entrada de voz 39, dentro de la parte de entrada de voz 32. Es preferible que durante esto, el operador confirme el contenido exhibido en el monitor de video 41 o el código de tiempo, y pronuncie las palabras clave para el manejo de contenido que se extrae en base al argumento, guión o el contenido de video, o lo similar. Es posible mejorar la proporción de reconocimiento con la parte de reconocimiento de voz hacía abajo 33 utilizando, como las así ingresadas señales de voz, únicamente palabras clave que se han limitado con anterioridad, de acuerdo al argumento o lo similar. En la parte de entrada de voz 32, la señal de voz que se ingresa de la terminal de entrada de voz 39 se convierte a datos con un contador que está sincronizado con una señal de sincronización vertical que se produce del contenido DB 31. Los datos de señal de voz que se han convertido a datos a través de la parte de entrada de voz 32 se ingresan en la parte de reconocimiento de voz 33, mientras que al mismo tiempo el diccionario necesario para el reconocimiento de voz, se suministra del diccionario DB 34. El diccionario utilizado para el reconocimiento de voz en el diccionario DB 34 se puede fijar de la terminal de entrada de selección de campo de diccionario 40. Como se muestra en la FIG. 7, por ejemplo, cuando el diccionario DB 34 está configurado para tener diccionarios separados - 23 -para campos diferentes, entonces el campo a ser utilizado se fija de la terminal de entrada de selección de campo de diccionario 40 (por ejemplo, una terminal de teclado que permita el ingreso de clave). Por ejemplo en el caso de un programa de cocina, es posible fijar el campo del diccionario DB 34 de la terminal 40 a: Cocina-Cocina Japonesa-Métodos de Cocina-Verduras de freimiento con agitación. Fijando el diccionario DB34 de esta manera, los términos utilizados y los términos a ser reconocidos a través de voz, se pueden limitar, y la proporción de reconocimiento de la parte de reconocimiento de voz 33 se puede mejorar. Además, de la terminal de selección de campo de diccionario 40 en la FIG. 6, es posible ingresar palabras clave extraídas del argumento, el guión o el contenido. Por ejemplo, si el contenido es un programa de cocina, es posible ingresar una receta como se muestra en la FIG. 8 de la terminal 40. Considerando el contenido del programa, es alta la posibilidad de que las palabras que aparecen en la receta serán ingresadas como señales de voz, de tal manera que el grado de prioridad de reconocimiento de los términos en la entrada de recta de la terminal 40 este especificada claramente a través del diccionario DB 34, y el reconocimiento de voz para éstos términos se desempeñe con prioridad. Por ejemplo, si homónimos tal como "KAKI", lo cual puede significar ya sea "caqui" u "ostra" en Japonés, están incluidos en el diccionario, y si los términos en la receta ingresada de la terminal 40 incluyen únicamente el término "KAKI" (significando "ostra"), entonces esta asignado un rango de - 24 -prioridad de 1 a "KAKI" (significando "ostra"). Y si la expresión "KAKI" es reconocida paro la parte de reconocimiento de voz 33, entonces esta reconocida como "KAKI" (significando "ostra"), a la cual se ha fijado un rango de prioridad de 1 en el diccionario DB 34. Por ello, es posible mejorar la proporción de reconocimiento con la parte de reconocimiento de voz 33 limitando los términos en el diccionario DB 34 con el campo que se ingresa de la terminal 40, y además ingresando un argumento de la terminal 40 y especificando claramente el grado de prioridad de los términos. La parte de reconocimiento de voz 33 en la FIG. 6, reconoce los datos de señal de voz que se han ingresado de la parte de entrada de voz 32, de acuerdo con el diccionario suministrado del diccionario DB 34, y los metadatos están creados. Los metadatos que se producen de la parte de reconocimiento de voz 33 se ingresan a al parte de procesamiento de archivo 35. Como se describe arriba, la parte de entrada de voz 32 convierte las señales de voz en datos, en sincronización con una señal de sincronización vertical que está reproducida del contenido DB 31 . Consecuentemente, la parte de procesamiento de archivo 35 produce un archivo de metadatos de formato de texto, como se muestra en la FIG. 9, en el caso del programa de cocina arriba visto, por ejemplo, utilizando información de sincronización de la parte de entrada de voz 32 y valores de código de tiempo que se proporcionan del contenido DB 31 . Es decir, TM_ENT (seg), que es un tiempo de referencia medido en segundo del inicio del archivo, TM_OFFSET, el cual indica el número de - 25 -desviación de imagen del tiempo de referencia, y un código de tiempo se anexan a través de la parte de procesamiento de archivo 35 a los metadatos que se producen de la parte de reconocimiento de voz 33, y los metadatos se procesan en un archivo con este formato. La parte de grabación 37 graba el archivo de metadatos que se produce de la parte de procesamiento de archivo 35 y la producción de contenido del contenido DB 31. La parte de grabación 37 se configura a través de un HDD, una memoria, un disco óptico, o lo similar, y graba el contenido de salida del contenido DB 31 , también en formato de archivo.
Modalidad 4 La FIG. 10 es un bloque diagrama que muestra la configuración de un dispositivo de producción de metadatos, de acuerdo a la Modalidad 4 de la presente invención. En el dispositivo de esta modalidad, se añade una parte de procesamiento de archivo de información de contenido 36 a la configuración de la Modalidad 3. La parte de procesamiento de archivo de información de contenido 36 crea un archivo de control que indica las posiciones de grabación del contenido que está grabado con la parte de grabación 37, y este archivo de control se graba con la parte de grabación 37. Es decir, en base a la información de posición de grabación del contenido que se produce del contenido DB 32 y del contenido que se produce de la parte de grabación 37, la parte de procesamiento de archivo de información de contenido 36 genera - 26 -información del eje del tiempo para ese contenido, así como información que indica una relación de dirección del contenido grabado en la parte de grabación 37, y convierte la información del eje del tiempo en datos a ser producidos como un archivo de control. Por ejemplo, como se muestra en la FIG. 1 1 , TM_ENT #j, lo cual indica una referencia del eje del tiempo del contenido, está señalado en intervalos de ejes de tiempo iguales a las direcciones del medio de grabación, lo cual indica la posición de grabación del contenido. Por ejemplo, TM_ENT #j está señalado para la dirección del medio de grabación cada segundo (30 imágenes en caso de una señal NSTC). Exponiendo de esta manera, incluso cuando el contenido se grabe de manera dispersa en unidades de 1 seg, es posible identificar la dirección de grabación de la parte de grabación 37 de manera no ambigua, en gase a T _ENT #j. En un archivo de metadatos, como se muestra en la FIG. 9, T _ENT (seg), lo cual es un tiempo de referencia medido en segundos del inicio del archivo, TM_OFFSET, lo cual indica el número de desviaciones de imagen del tiempo de referencia, el código de tiempo, y los metadatos se graban en formato de texto. Consecuentemente, si metadatos se especifican en el archivo de metadatos, entonces el código de tiempo, el tiempo de referencia y el valor de desvío de imagen se conocen, de tal manera que la posición de grabación en la parte de grabación 37 se puede determinar inmediatamente del archivo de control que se muestra en la FIG. 1 1 . Se debe observar que los intervalos del eje del tiempo - 27 -iguales de TM_ENT #j, no están limitados para señalar cada segundo como se observó arriba, y también es posible anotar, de acuerdo con GOP unidades utilizadas en compresión MPEG 2 o lo similar. Además, en señales de televisión NTSC, la señal de sincronización vertical es 60/1 .001 Hz, de tal manera que es posible utilizar dos tipos de códigos de tiempo, a saber un código de tiempo adaptado al modo de imagen de descenso, de acuerdo con el tiempo absoluto o un código de tiempo de no descenso, de acuerdo con la señal de sincronización vertical (60/1 .001 Hz). En este caso, el código de tiempo de no descenso se puede expresar a través de TM_ENT #j, y un código de tiempo que corresponde al modo de imagen de descenso se puede expresar a través de TC_ENT #j. Además, la conversión del archivo de control en datos, se pude desempeñar utilizando un lenguaje existente tal como SMIL 2. Si la funcionalidad de SMIL 2 se utiliza, también es posible convertir contenido relacionado y el nombre del archivo del archivo de metadatos en datos, y almacenarlos en el archivo de control. Además, aunque la FIG.1 1 muestra una configuración en la cual la dirección de grabación de la parte de grabación se exhibe directamente, también es posible exhibir, en lugar de la dirección de grabación, la cantidad de datos del inicio del archivo de contenido para el código de tiempo actual, para calcular y encontrar la dirección de grabación correspondiente al código de tiempo en la parte de grabación, en base a la cantidad de datos y la dirección de grabación del sistema de archivo. - 28 - Además, se puede conseguir un efecto similar cuando una tabla de correspondencia de TM_ENT #j y los códigos de tiempo no están almacenados en el archivo de metadatos, pero la tabla de correspondencia de TM_ENT #j y los códigos de tiempo se almacenan en el archivo de control.
Modalidad 5 La FIG. 12 es un bloque diagrama que muestra la configuración de un dispositivo de búsqueda de metadatos, de acuerdo a la Modalidad 5 de la presente invención. En el dispositivo de esta modalidad, se añade una parte de búsqueda 38 a la configuración de la Modalidad 4. Con la parte de búsqueda 38, las palabras clave para argumentos a ser buscados, se eligen de un diccionario DB 34 que es idéntico al que se utilizó para encontrar metadatos a través de reconocimiento de voz, y aquellas palabras clave se fijan. Después, la parte de búsqueda 38 busca las partidas en los archivos de metadatos y exhibe una lista de nombres de título que corresponden a las palabras clave, así como posiciones (códigos de tiempo) de los argumentos de contenido. Si un argumento especificado se fija de la exhibición de lista, entonces la dirección del medio de grabación en el archivo de control es automáticamente encontrado de el tiempo de referencia TM_ENT (seg) y el número de desvíos de imagen T _OFFSET del archivo de metadatos y se fija en la parte de grabación 37, y la escena de contenido grabada en esa - 29 -dirección de grabación se reproduce y exhibe a través de la parte de grabación 37 en el monitor 41 . Con esta configuración, la escena a ser vista se puede encontrar inmediatamente cuando se han encontrado los metadatos. Se debe observar que si los archivos pequeños que están ligados al contenido se preconfiguran, entonces es posible reproducir y exhibir imágenes pequeñas representativas del contenido, cuando se exhibe la lista arriba observada de los nombres de contenido que corresponden a las palabras clave.
Modalidad 6 Las Modalidades anteriormente mencionadas 3 a 5 explicaron un dispositivo en el cual los metadatos están unidos al contenido que ha sido grabado con anticipación, mientras que la presente modalidad se relaciona a un ejemplo en el cual se ha expandido la presente invención a un sistema que une metadatos cuando toma imágenes con una cámara o lo similar, y en particular un dispositivo que une metadatos " a posiciones de toma de imagen cuando que tomas escenas cuyo contenido se ha limitado con anticipación. La FIG. 13 es un bloque de diagrama que muestra la configuración de un dispositivo de producción de metadatos, de acuerdo a la Modalidad 6 de la presente invención. La imagen salida de la cámara 51 se graba como contenido de video en un contenido DB 54. Al mismo tiempo, un GPS 52 detecta la localización en la cual la cámara toma las imágenes, - 30 -esta información de posición (coordenadas geográficas) se convierten en señales de voz a través de una parte de síntesis de voz 53, y se graban como información de posición a través de un canal de voz del contenido DB 54. La cámara 51 , el GPS 52, la parte de síntesis de voz 53 y el contenido DB 54 se pueden configurar de una manera integrada como una cámara 50 con parte de grabación. El contenido DB 54 ingresa la información de posición de señal de voz en el canal de audio en una parte de reconocimiento de voz 56. También, se suministran datos de diccionario de un diccionario DB 55 a la parte de reconocimiento de voz 56. El diccionario DB 55 se pude configurar de tal manera que se pueden elegir o restringir nombres de lugar o puntos destacados o lo similar, a través de teclado de entrada de una terminal 59, y salida de la parte de reconocimiento de voz 56. La parte de reconocimiento de voz 56 encuentra los nombres de lugar o lugares destacados utilizando las coordenadas geográficas reconocidas y los datos del diccionario DB 55 y los envía a una parte de procesamiento de archivo 57. La parte de procesamiento de archivo 57 convierte los códigos de tiempo que se producen del contenido DB 54, así como los nombres de lugar y lugares destacados que se producen de la parte de reconocimiento de voz 56 como metadatos en texto, generando así un archivo de metadatos. El archivo de metadatos se proporciona a la parte de grabación 58, la cual graba este archivo de metadatos, así como los datos de contenido que se producen del contenido DB 54. Con esta configuración, los metadatos de nombres de - 31 -lugar y lugares destacados se pueden unir automáticamente a cada escena que se toma. En las modalidades anteriormente mencionadas, las configuraciones se describieron, en la cuales, las palabras clave reconocidas por una parte de reconocimiento de voz se convierten en archivos de metadatos junto con códigos de tiempo, pero también es posible añadir palabras clave relacionadas a las palabras clave reconocidas por la parte de reconocimiento de voz y que las incluyen en los archivos. Por ejemplo, cuando "Río Yodogawa" ha sido reconocido a través de voz, entonces las palabras clave atributivas ordinarias, tal como "topografía" o "río", se pueden añadir. Por ello, se hace posible utilizar las palabras clave añadidas "topografía" o "río" cuando se busca, de tal manera que la facilidad de búsqueda se incrementa. Se debe observar que con la parte de reconocimiento de voz de la presente invención, es posible mejorar la proporción de reconocimiento de voz utilizando un " método de reconocimiento en base a palabras que reconozca palabras individuales, y limitando el número de palabras de la entrada de voz y el número de palabras en el diccionario de reconocimiento utilizado. Además, existe en general la posibilidad de que ocurran reconocimientos falsos en el reconocimiento de voz. En las modalidades arriba descritas, es posible mejorar una parte de procesamiento de información, tal como una computadora que incluya un teclado, de tal manera que cuando ha ocurrido un reconocimiento - 32 -falso, la etiqueta o metadatos producidos se puedan corregir a través de una operación de teclado.
APLICABILIDAD INDUSTRIAL Con el dispositivo de producción de metadatos de la presente invención, los metadatos se producen a través de la entrada de voz utilizando reconocimiento de voz y los metadatos están asociados con posiciones predeterminadas del contenido, con el propósito de producir metadatos o etiquetas de unión relacionados al contenido, de tal manera que la producción de metadatos o la unión de etiquetas se pueda llevar a cabo más eficazmente que con entrada de teclado convencional.

Claims (1)

  1. - 33 - REIVINDICACIONES 1. Un dispositivo de producción de metadatos, que comprende: una parte de reproducción de contenido que reproduce y produce contenido; una parte de entrada de voz; una parte de reconocimiento de voz que reconoce señales de voz que se ingresan de la parte de entrada de voz; una parte de generación de metadatos que convierte información reconocida por la parte de reconocimiento de voz a metadatos; una parte de unión de información de identificación que obtiene información de identificación para identificar posiciones dentro del contenido, y une la información de identificación a los metadatos; y un diccionario que está limitado, de acuerdo con el contenido; por medio del cual los metadatos generados se asocian con las posiciones en el contenido; y el reconocimiento se lleva a cabo en asociación con el diccionario, cuando reconoce las señales de voz de entrada de la parte de entrada de voz con la parte de reconocimiento de voz. 2. El dispositivo de producción de metadatos, de acuerdo a la reivindicación 1 , caracterizado porque la señales de voz se reconocen a través de la parte de reconocimiento de voz palabra por - 34 -palabra, en asociación con el diccionario. 3. El dispositivo de producción de metadatos de acuerdo a la reivindicación 1 o 2, además comprende una parte de procesamiento de información que incluye un teclado, en donde los metadatos se pueden corregir a través de la parte de procesamiento de información a través del ingreso del teclado. 4. El dispositivo de producción de metadatos de acuerdo a cualquiera de las reivindicaciones 1 y 2 a 3, caracterizado porque la información del código de tiempo que está unida al contenido, se utiliza como la información de identificación. 5. El dispositivo de producción de metadatos de acuerdo a cualquiera de las reivindicaciones 1 y 2 a 5, caracterizado porque las direcciones de contenido, números o números de desviación unidos al contenido se utilizan como la información de identificación. 6. El dispositivo de producción de metadatos de acuerdo a la reivindicación 1 , caracterizado porque el contenido es contenido de imagen fija y las direcciones del contenido de imagen fija se utilizan como la información de identificación. 7. El dispositivo de producción de metadatos de acuerdo a la reivindicación 1 , caracterizado porque la parte de reproducción de contenido está configurada por una base de datos de contenido; - 35 - caracterizado porque la parte de entrada de voz suministra a la parte de reconocimiento de voz señales de voz de palabras clave ingresadas que se han convertido en datos con una señal de contador que está sincronizada con una señal de sincronización suministrada de la base de datos de contenido; caracterizado porque la parte de reconocimiento de voz está configurada para reconocer las palabras clave de los datos de señal de voz que se han convertido a datos a través de la parte de entrada de voz; y caracterizado porque la parte de generación de metadatos está configurada como una parte de procesamiento de archivo que produce un archivo de metadatos utilizando, como la información de identificación, un código de tiempo que indica una posición de tiempo de una señal de imagen que está incluida en el contenido, y combinando las palabras clave que se producen de la parte de reconocimiento de voz con ese código de tiempo. 8. El dispositivo de producción de metadatos de acuerdo a la reivindicación 7, además comprende una parte de grabación que graba el contenido que se proporciona de la base de datos de contenido, junto con el archivo de metadatos como un archivo de contenido. 9. El dispositivo de producción de metadatos de acuerdo a la reivindicación 8, además comprende una parte de procesamiento de - 36 -archivo de información de contenido que genera un archivo de control que controla la relación entre el archivo de metadatos y las posiciones de grabación a ser grabadas por el archivo de contenido; caracterizado porque el archivo de control está grabado en la parte de grabación junto con el archivo de contenido y el archivo de metadatos. 1 0. El dispositivo de producción de metadatos de acuerdo a la reivindicación 7, además comprende una base de datos de diccionario, en donde la parte de reconocimiento de voz puede elegir un diccionario de un género que corresponda al contenido de una pluralidad de diccionarios dependientes de género. 1 1 . El dispositivo de producción de metadatos de acuerdo a la reivindicación 10, caracterizado porque las palabras clave relacionadas al contenido se pueden suministrar a la parte de reconocimiento de voz; y caracterizado porque la parte de reconocimiento de voz está configurada para reconocer aquellas palabras clave con prioridad más alta. 12. Un método para producir metadatos, que comprende: información de entrada de voz relacionada a un contenido dado mientras que se exhibe el contenido en un monitor; someter la señal de voz de entrada a reconocimiento de voz con un - 37 -dispositivo de reconocimiento de voz utilizando un diccionario que está limitado de acuerdo con el contenido; convertir la información reconocida de voz a metadatos; y unir la información de identificación suministrada al contenido para identificar posiciones en el contenido a los metadatos, por ello asociando los metadatos generados con las posiciones en el contenido. 13. El método para producir metadatos de acuerdo a la reivindicación 12, caracterizado porque la información de código de tiempo que está unida al contenido, se utiliza como la información de identificación. 14. El dispositivo de producción de metadatos de acuerdo a la reivindicación 12, caracterizado porque el contenido es contenido de imagen fija y las direcciones del contenido de imagen fija se utilizan como la información de identificación. 15. Un dispositivo de búsqueda de metadatos, que comprende: una base de datos de contenido que reproduce y produce contenido; una parte de entrada de voz que convierte señales de voz de palabras clave ingresadas en datos con una señal de contador que está sincronizada con una señal de sincronización suministrada del contenido reproducido; una parte de reconocimiento de voz que reconoce - 38 -las palabras clave de los datos de señal de voz que se han convertido a datos a través de la parte de entrada de voz; y una parte de procesamiento de archivo que produce un archivo de metadatos combinando las palabras clave que se producen de la parte de reconocimiento de voz con códigos de tiempo que indican una posición de tiempo de una señal de imagen que está incluida en el contenido; una parte de procesamiento de archivo de información de contenido que genera un archivo de control que controla un relación entre el archivo de metadatos y posiciones del archivo de contenido; una parte de grabación que graba el archivo de contenido, el archivo de metadatos y el archivo de control; y una parte de búsqueda que extrae una posición de grabación que corresponde a una palabra clave en el archivo de contenido especificando los archivos de metadatos en los cuales está incluida una palabra clave de búsqueda ingresada, y haciendo referencia al archivo de control; caracterizado porque la posición de grabación del archivo de contenido es la posición de grabación de la parte de grabación. 16. El dispositivo de búsqueda de metadatos de acuerdo a la reivindicación 15, caracterizado porque el archivo de control que se produce de la parte de procesamiento de archivo de información de - 39 -contenido se concibe como una tabla que enlista las posiciones de grabación del contenido en la parte de grabación, de acuerdo con un tiempo de grabación del contenido, y la posición de grabación del contenido se puede buscar del código de tiempo. 17. El dispositivo de búsqueda de metadatos de acuerdo a la reivindicación 15, además comprende una base de datos de diccionario, y una parte de suministro de palabra clave que suministra palabras clave relacionadas al contenido dentro de la parte de reconocimiento de voz; caracterizado porque la parte de reconocimiento de voz puede elegir un diccionario de un género que corresponde al contenido de una pluralidad de diccionarios dependientes de género, y la parte de reconocimiento de voz está configurada para reconocer aquellas palabras clave con prioridad más alta. 18. El dispositivo de búsqueda de metadatos de acuerdo a la reivindicación 15, además comprende una base de datos de diccionario; caracterizado porque la parte de reconocimiento de voz puede elegir un diccionario de un género que corresponde al contenido de una pluralidad de diccionarios dependientes de género; y caracterizado porque la parte de búsqueda está configurada para buscar a través de palabras clave que se eligen de un diccionario común, utilizado por la parte de reconocimiento de voz.
MXPA04012865A 2002-06-24 2003-06-23 Dispositivo de preparacion de metadatos, metodo de preparacion para el mismo y dispositivo de recuperacion. MXPA04012865A (es)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2002182506 2002-06-24
JP2002319757A JP2004153765A (ja) 2002-11-01 2002-11-01 メタデータ制作装置及び制作方法
JP2002319756A JP3781715B2 (ja) 2002-11-01 2002-11-01 メタデータ制作装置及び検索装置
JP2002334831A JP2004086124A (ja) 2002-06-24 2002-11-19 メタデータ制作装置及び制作方法
PCT/JP2003/007908 WO2004002144A1 (ja) 2002-06-24 2003-06-23 メタデータ作成装置、その作成方法および検索装置

Publications (1)

Publication Number Publication Date
MXPA04012865A true MXPA04012865A (es) 2005-03-31

Family

ID=30003905

Family Applications (1)

Application Number Title Priority Date Filing Date
MXPA04012865A MXPA04012865A (es) 2002-06-24 2003-06-23 Dispositivo de preparacion de metadatos, metodo de preparacion para el mismo y dispositivo de recuperacion.

Country Status (5)

Country Link
US (1) US20050228665A1 (es)
EP (1) EP1536638A4 (es)
CN (1) CN1663249A (es)
MX (1) MXPA04012865A (es)
WO (1) WO2004002144A1 (es)

Families Citing this family (156)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP4127668B2 (ja) * 2003-08-15 2008-07-30 株式会社東芝 情報処理装置、情報処理方法、およびプログラム
US20060080286A1 (en) * 2004-08-31 2006-04-13 Flashpoint Technology, Inc. System and method for storing and accessing images based on position data associated therewith
US7818350B2 (en) 2005-02-28 2010-10-19 Yahoo! Inc. System and method for creating a collaborative playlist
JP2006311462A (ja) * 2005-05-02 2006-11-09 Toshiba Corp コンテンツ検索装置及びその方法
US7467147B2 (en) 2005-06-01 2008-12-16 Groundspeak, Inc. System and method for facilitating ad hoc compilation of geospatial data for on-line collaboration
JP4659681B2 (ja) * 2005-06-13 2011-03-30 パナソニック株式会社 コンテンツタグ付け支援装置およびコンテンツタグ付け支援方法
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7844820B2 (en) * 2005-10-10 2010-11-30 Yahoo! Inc. Set of metadata for association with a composite media item and tool for creating such set of metadata
CN102930888A (zh) 2005-10-21 2013-02-13 尼尔逊媒介研究股份有限公司 用于计量便携式媒体播放器的方法和装置
US7822746B2 (en) * 2005-11-18 2010-10-26 Qurio Holdings, Inc. System and method for tagging images based on positional information
EP1998554A4 (en) * 2006-03-23 2009-11-25 Panasonic Corp CONTENT IMAGING APPARATUS
KR101583268B1 (ko) 2006-03-27 2016-01-08 닐슨 미디어 리서치 인코퍼레이티드 무선통신장치에 표현되는 미디어 컨텐츠의 미터링 방법 및 시스템
EP2011017A4 (en) * 2006-03-30 2010-07-07 Stanford Res Inst Int METHOD AND APPARATUS FOR ANNOTATING MULTIMEDIA STREAMS
JP4175390B2 (ja) * 2006-06-09 2008-11-05 ソニー株式会社 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
KR100856407B1 (ko) * 2006-07-06 2008-09-04 삼성전자주식회사 메타 데이터를 생성하는 데이터 기록 및 재생 장치 및 방법
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP2008118232A (ja) * 2006-11-01 2008-05-22 Hitachi Ltd 映像再生装置
US8643745B2 (en) * 2007-03-12 2014-02-04 Panasonic Corporation Content shooting apparatus
US8204359B2 (en) * 2007-03-20 2012-06-19 At&T Intellectual Property I, L.P. Systems and methods of providing modified media content
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8793256B2 (en) 2008-03-26 2014-07-29 Tout Industries, Inc. Method and apparatus for selecting related content for display in conjunction with a media
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8364721B2 (en) 2008-06-12 2013-01-29 Groundspeak, Inc. System and method for providing a guided user interface to process waymark records
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
KR101479079B1 (ko) * 2008-09-10 2015-01-08 삼성전자주식회사 디지털 캡션에 포함된 용어의 설명을 표시해주는 방송수신장치 및 이에 적용되는 디지털 캡션 처리방법
US8712776B2 (en) * 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
KR20100061078A (ko) * 2008-11-28 2010-06-07 삼성전자주식회사 메타 데이터를 이용하는 컨텐츠 소비 방법 및 그 장치
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8935204B2 (en) * 2009-08-14 2015-01-13 Aframe Media Services Limited Metadata tagging of moving and still image content
GB2472650A (en) * 2009-08-14 2011-02-16 All In The Technology Ltd Metadata tagging of moving and still image content
JP5257330B2 (ja) * 2009-11-06 2013-08-07 株式会社リコー 発言記録装置、発言記録方法、プログラム及び記録媒体
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
KR20120045582A (ko) * 2010-10-29 2012-05-09 한국전자통신연구원 음향 모델 생성 장치 및 방법
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US20120310642A1 (en) 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9325381B2 (en) 2013-03-15 2016-04-26 The Nielsen Company (Us), Llc Methods, apparatus and articles of manufacture to monitor mobile devices
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9559651B2 (en) * 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
US10791216B2 (en) 2013-08-06 2020-09-29 Apple Inc. Auto-activating smart responses based on activities from remote devices
US9942396B2 (en) * 2013-11-01 2018-04-10 Adobe Systems Incorporated Document distribution and interaction
US9544149B2 (en) 2013-12-16 2017-01-10 Adobe Systems Incorporated Automatic E-signatures in response to conditions and/or events
US10182280B2 (en) 2014-04-23 2019-01-15 Panasonic Intellectual Property Management Co., Ltd. Sound processing apparatus, sound processing system and sound processing method
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9703982B2 (en) 2014-11-06 2017-07-11 Adobe Systems Incorporated Document distribution and interaction
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
CN106409295B (zh) * 2015-07-31 2020-06-16 腾讯科技(深圳)有限公司 从自然语音信息中识别时间信息的方法和装置
US9935777B2 (en) 2015-08-31 2018-04-03 Adobe Systems Incorporated Electronic signature framework with enhanced security
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9626653B2 (en) 2015-09-21 2017-04-18 Adobe Systems Incorporated Document distribution and interaction with delegation of signature authority
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
CN105389350B (zh) * 2015-10-28 2019-02-15 浪潮(北京)电子信息产业有限公司 一种分布式文件系统元数据信息获取方法
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US10347215B2 (en) 2016-05-27 2019-07-09 Adobe Inc. Multi-device electronic signature framework
WO2017208820A1 (ja) * 2016-05-30 2017-12-07 ソニー株式会社 映像音響処理装置および方法、並びにプログラム
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
JP6530357B2 (ja) * 2016-09-06 2019-06-12 株式会社日立ビルシステム 保全作業管理システム及び保全作業管理装置
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10503919B2 (en) 2017-04-10 2019-12-10 Adobe Inc. Electronic signature framework with keystroke biometric authentication
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US11652656B2 (en) * 2019-06-26 2023-05-16 International Business Machines Corporation Web conference replay association upon meeting completion

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3337798B2 (ja) * 1993-12-24 2002-10-21 キヤノン株式会社 画像データ及び音声データを処理する装置、データ処理装置並びにデータ処理方法
US5546145A (en) * 1994-08-30 1996-08-13 Eastman Kodak Company Camera on-board voice recognition
US5835667A (en) * 1994-10-14 1998-11-10 Carnegie Mellon University Method and apparatus for creating a searchable digital video library and a system and method of using such a library
JPH09130736A (ja) * 1995-11-02 1997-05-16 Sony Corp 撮像装置及び編集装置
US6111605A (en) * 1995-11-06 2000-08-29 Ricoh Company Limited Digital still video camera, image data output system for digital still video camera, frame for data relay for digital still video camera, data transfer system for digital still video camera, and image regenerating apparatus
JPH09149365A (ja) * 1995-11-20 1997-06-06 Ricoh Co Ltd デジタルスチルビデオカメラ
US6336093B2 (en) * 1998-01-16 2002-01-01 Avid Technology, Inc. Apparatus and method using speech recognition and scripts to capture author and playback synchronized audio and video
JP2000069442A (ja) * 1998-08-24 2000-03-03 Sharp Corp 動画システム
JP3166725B2 (ja) * 1998-08-28 2001-05-14 日本電気株式会社 情報記録装置および情報記録方法、並びに記録媒体
JP2000306365A (ja) * 1999-04-16 2000-11-02 Sony Corp 編集支援システム及び編集支援システムの制御装置
GB2354105A (en) * 1999-09-08 2001-03-14 Sony Uk Ltd System and method for navigating source content
GB2359918A (en) * 2000-03-01 2001-09-05 Sony Uk Ltd Audio and/or video generation apparatus having a metadata generator
US7051048B2 (en) * 2000-09-29 2006-05-23 Canon Kabushiki Kaisha Data management system, data management method, and program
JP2002157112A (ja) * 2000-11-20 2002-05-31 Teac Corp 音声情報変換装置
JP2002171481A (ja) * 2000-12-04 2002-06-14 Ricoh Co Ltd 映像処理装置
JP2002207753A (ja) * 2001-01-10 2002-07-26 Teijin Seiki Co Ltd マルチメディア情報記録作成提供システム
JP2002374494A (ja) * 2001-06-14 2002-12-26 Fuji Electric Co Ltd ビデオコンテンツファイル生成システムおよびビデオコンテンツファイル検索方法。
JP2003018505A (ja) * 2001-06-29 2003-01-17 Toshiba Corp 情報再生装置および会話シーン検出方法
JP4240867B2 (ja) * 2001-09-28 2009-03-18 富士フイルム株式会社 電子アルバム編集装置
JP3768915B2 (ja) * 2002-04-26 2006-04-19 キヤノン株式会社 デジタルカメラ及びデジタルカメラのデータ処理方法

Also Published As

Publication number Publication date
EP1536638A4 (en) 2005-11-09
EP1536638A1 (en) 2005-06-01
WO2004002144A1 (ja) 2003-12-31
WO2004002144B1 (ja) 2004-04-08
US20050228665A1 (en) 2005-10-13
CN1663249A (zh) 2005-08-31

Similar Documents

Publication Publication Date Title
MXPA04012865A (es) Dispositivo de preparacion de metadatos, metodo de preparacion para el mismo y dispositivo de recuperacion.
JP4794740B2 (ja) オーディオ/ビデオ信号生成装置、及びオーディオ/ビデオ信号生成方法
US9837077B2 (en) Enhanced capture, management and distribution of live presentations
JP4591982B2 (ja) オーディオ信号及び/又はビデオ信号生成装置、及びオーディオ信号及び/又はビデオ信号生成方法
US6877134B1 (en) Integrated data and real-time metadata capture system and method
US6789228B1 (en) Method and system for the storage and retrieval of web-based education materials
US7295752B1 (en) Video cataloger system with audio track extraction
US6567980B1 (en) Video cataloger system with hyperlinked output
JP3657206B2 (ja) 個人用映画コレクションの作成を可能にするシステム
US7924325B2 (en) Imaging device and imaging system
US20020036694A1 (en) Method and system for the storage and retrieval of web-based educational materials
JP2005341015A (ja) 議事録作成支援機能を有するテレビ会議システム
KR20060132595A (ko) 미디어 콘텐츠를 검색할 수 있도록 식별 데이터를 유지하는저장 시스템
US20120257869A1 (en) Multimedia data recording method and apparatus for automatically generating/updating metadata
JP3781715B2 (ja) メタデータ制作装置及び検索装置
US20070201864A1 (en) Information processing apparatus, information processing method, and program
US7675827B2 (en) Information processing apparatus, information processing method, and program
US20140078331A1 (en) Method and system for associating sound data with an image
JP2004023661A (ja) 記録情報処理方法、記録媒体及び記録情報処理装置
JPH0991928A (ja) 映像の編集方法
US7444068B2 (en) System and method of manual indexing of image data
KR102376646B1 (ko) 상품 동영상 자동화 시스템
US7720798B2 (en) Transmitter-receiver system, transmitting apparatus, transmitting method, receiving apparatus, receiving method, and program
JP2002262225A (ja) コンテンツ仲介装置およびコンテンツ仲介処理方法
US7873637B2 (en) Automatically imparting an index by using various kinds of control signals