MXPA04012865A

MXPA04012865A - Dispositivo de preparacion de metadatos, metodo de preparacion para el mismo y dispositivo de recuperacion.

Info

Publication number: MXPA04012865A
Application number: MXPA04012865A
Authority: MX
Inventors: Mitsuru Endoh
Original assignee: Matsushita Electric Ind Co Ltd
Priority date: 2002-06-24
Filing date: 2003-06-23
Publication date: 2005-03-31
Also published as: EP1536638A4; EP1536638A1; WO2004002144A1; WO2004002144B1; US20050228665A1; CN1663249A

Abstract

Un dispositivo de preparacion de metadatos que comprende una unidad de reproduccion de contenido (1) para reproducir y producir contenido, un monitor (3) para verificar el contenido reproducido por la unidad de reproduccion de contenido, una unidad de entrada de voz(4), una unidad de reconocimiento de voz (5) para reconocer una entrada de senal de voz de la unidad de entrada de voz, una unidad de generacion de metadatos (6) para convertir informacion reconocida por la unidad de reconocimiento de voz a metadatos, y una unidad que imparte informacion de identificacion (7) para adquirir informacion de identificacion que identifica partes respectivas en el contenido del contenido reproducido, suministrado de la unidad de reproduccion de contenido, para impartir a metadatos, en donde los metadatos generados son asi construidos que seran asociados con partes respectivas en el contenido.

Description

WO 2004/002144 Al ! (II tí III ? lili I ·( iií (!i 11 ? li: KÍIIU ílilí II ? ti It I !tt! — ffijE* DISPOSITIVO DE PREPARACION DE METADATOS, METODO DE PREPARACIÓN PARA EL MISMO Y DISPOSITIVO DE RECUPERACION CAMPO TÉCNICO La presente invención se refiere a dispositivos de producción de metadatos y métodos de producción de metadatos para producir metadatos que están relacionados con contenido de video o audio o lo similar que haya sido creado. La presente invención además se relaciona a dispositivos de recuperación que buscan contenido con los metadatos producidos.

ANTECEDENTES DE LA TÉCNICA En años recientes, el contenido de audio o video o lo similar que se ha creado, está provisto con metadatos que están relacionados con tal contenido. Sin embargo, para la tarea convencional de vincular metadatos, era común confirmar la información que se supone sirve como metadatos, mientras reproduce el contenido de audio o video creado, en base a un guión o argumento del contenido de audio o video creado, y para producir los metadatos introduciéndolos manualmente en la computadora. Consecuentemente, la producción de metadatos requería esfuerzo considerable. JP H09-130736A revela un sistema que une etiquetas utilizando reconocimiento de voz mientras filma con una cámara. Sin - 2 -embargo, este sistema se utiliza al mismo tiempo que se toma la imagen, y no se puede aplicar para unir metadatos al contenido que ya se ha creado.

BREVE DESCRIPCIÓN DE LA INVENCIÓN Por ello, es un objetivo de la presente invención resolver los problemas arriba descritos, y suministrar un dispositivo de producción de metadatos y un método de producción de metadatos, con el cual se pueden crear metadatos fácilmente a través de la entrada de voz para contenido ya creado. Es otro objetivo de la presente invención suministrar un mecanismo de recuperación, con el cual se puede buscar fácilmente contenido, utilizando así los metadatos producidos. Un dispositivo de producción de metadatos de acuerdo a la presente invención incluye: una parte de reproducción de contenido que reproduce y produce contenido; una parte de entrada de voz; una parte de reconocimiento de voz que reconoce señales de voz que ingresan de la parte de entrada de voz; una parte de generación de metadatos que convierte información reconocida por la parte de reconocimiento de voz dentro de los metadatos; y una parte de unión de información de identificación que obtiene información de identificación para identificar posiciones dentro del contenido del contenido reproducido que se suministra de la parte de reproducción de contenido y une la información de identificación a los metadatos; por lo que los metadatos generados se asocian con posiciones en el - 3 -contenido. Un método para producir metadatos de la presente invención, incluye: información de entrada de voz relacionada a un contenido dado; someter la señal de voz de entrada a reconocimiento de voz con un dispositivo de reconocimiento de voz; convertir la información reconocimiento de voz en los metadatos; y unir la información de identificación suministrada al contenido para identificar las posiciones en el contenido para los metadatos, por consiguiente asociando los metadatos generados con las posiciones en el contenido. Un dispositivo de búsqueda de metadatos de acuerdo a la presente invención incluye una base de datos de contenido que reproduce y produce contenido; una parte de entrada de voz que convierte señales de voz de palabras clave ingresadas dentro de los datos con una señal de contador que esta sincronizada con una señal de sincronización del contenido reproducido; una parte de reconocimiento de voz que reconoce las palabras clave de los datos de señal de voz que se han convertido en datos a través de la parte de entrada de voz; una parte de procesamiento de archivo que produce un archivo de metadatos a través de la combinación de la producción de palabras clave de la parte de reconocimiento de voz con códigos de tiempo que indican una posición de tiempo de una señal de imagen que está incluida en el contenido; una parte de procesamiento de archivo de información de contenido que genera un archivo de control que controla una relación entre el archivo de - 4 -metadatos y las partes de grabación del archivo de contenido; una parte de grabación que graba el archivo de contenido, el archivo de metadatos y el archivo de control; y una parte de búsqueda que extrae una parte de grabación que corresponde a la palabra clave del archivo de contenido especificando los archivos de metadatos en los cuales está incluida la palabra clave de búsqueda ingresada, y que coloca referencia al archivo de control. La posición de grabación del archivo de contenido corresponde a la posición de grabación en la parte de grabación.

BREVE DESCRIPCIÓN DE LOS DI BUJOS La Fig. 1 es un bloque diagrama que muestra la configuración de un dispositivo de producción de metadatos, de acuerdo a la Modalidad 1 de la presente invención. La Fig. 2 es un diagrama que muestra un ejemplo de metadatos al cual está unido un código de tiempo, de acuerdo a la Modalidad 1 de la presente invención. La Fig. 3 es un bloque diagrama que muestra la configuración de un dispositivo de producción de metadatos, de acuerdo a la Modalidad 2 de la presente invención. La Fig. 4 es un diagrama que muestra un ejemplo de una parte de exhibición de contenido/metadatos de imagen fija en ese dispositivo. La Fig. 5 es un bloque diagrama que muestra otra configuración de un dispositivo de producción de metadatos, de - 5 -acuerdo a la Modalidad 2 de la presente invención. La Fig. 6 es un bloque diagrama que muestra la configuración de un dispositivo de producción de metadatos, de acuerdo a la Modalidad 3 de la presente invención. La Fig. 7 es un diagrama que muestra un ejemplo del diccionario de DB en el dispositivo de esa modalidad. La Fig. 8 es un diagrama que muestra una receta, es decir, un ejemplo de un argumento de contenido al cual se puede aplicar el dispositivo de esta modalidad. La Fig. 9 es un diagrama de datos en formato de texto que muestra un ejemplo de un archivo de metadatos producido con el dispositivo de esta modalidad. La Fig. 10 es un bloque diagrama que muestra la configuración de un dispositivo de producción de metadatos, de acuerdo a la Modalidad 4 de la presente invención. La Fig. 1 1 es un diagrama que muestra un ejemplo de un archivo de información producido con el dispositivo de esta modalidad. La Fig. 12 es un bloque diagrama que muestra la configuración de un dispositivo de búsqueda de metadatos, de acuerdo a la Modalidad 5 de la presente invención. La Fig. 13 es un bloque diagrama que muestra la configuración de un dispositivo de producción de metadatos, de acuerdo a la Modalidad 6 de la presente invención. - 6 - MEJOR MODO PARA LLEVAR A CABO LA I NVENCIÓN Con el dispositivo de producción de metadatos, de acuerdo a la presente invención, los metadatos o etiquetas se producen a través de la entrada de voz utilizando reconocimiento de voz para la producción de metadatos o el acoplamiento de etiquetas relacionadas al contenido, y los metadatos o etiquetas se asocian con las escenas o momentos de contenido. Por ello, los metadatos que se utilizan convencionalmente para ser producidos a través de entrada de teclado, se pueden producir automáticamente a través de entrada de voz. Se debe observar que "metadatos" significa un conjunto de etiquetas, y que está referido como "metadatos" durante toda esta especificación, también incluye las etiquetas por sí mismas. Además, "contenido" se utiliza para querer decir todo lo que es ordinariamente referido como contenido, tal como contenido de imagen fija, contenido de audio, video creado, o contenido de audio o video en una base de datos o lo similar. Es preferible que el dispositivo de producción de metadatos además comprenda un diccionario relacionado al contenido, en donde, cuando las señales de voz de entrada de la parte de entrada de voz se reconocen a través de la parte de reconocimiento de voz, el reconocimiento se lleva a cabo en asociación con el diccionario. Con esta configuración, es posible introducir, como señales de voz, palabras clave que se han extraído con anticipación de los argumentos de contenido creado o lo similar, para fijar un archivo de diccionario en base al argumento, y para - 7 -asignar una colocación de prioridad a las palabras clave, de tal manera que los metadatos se puedan generar eficaz y precisamente con el medio de reconocimiento de voz. Además, las señales de voz se pueden reconocer a través de la parte de reconocimiento de voz, palabra por palabra, en asociación con el diccionario. También es preferible que el dispositivo de producción de metadatos además contenga una parte de procesamiento de información qué incluya un teclado, y los metadatos se puedan corregir a través de la parte de procesamiento de información a través de la entrada del teclado. La información de código de tiempo que está unida al contenido, se puede utilizar como la información de identificación. Alternativamente, direcciones de contenido, números o números de imagen unidos al contenido, se pueden utilizar como la información de identificación. Además, el contenido puede ser contenido de imagen fija, y las direcciones del contenido de imagen fija se pueden utilizar como la información de identificación. Como un ejemplo de aplicación de la presente invención, el dispositivo de producción de metadatos se pude configurar como sigue: La parte de reproducción de contenido se configura a través de una base de datos de contenido, y la parte de entrada de voz suministra a la parte de reconocimiento de voz señales de voz de palabras clave ingresadas que son convertidas en datos con una señal de contador que está sincronizada con una señal de sincronización suministrada de la base de datos de contenido. La - 8 -parte de reconocimiento de voz está configurada para reconocer las palabras clave de los datos de señal de voz que se han convertido en datos a través de la parte de entrada de voz. Y la parte de generación de metadatos está configurada como una parte de procesamiento de archivo que produce un archivo de metadatos utilizando, como la información de identificación, un código de tiempo que indica una posición de tiempo de una señal de imagen incluida en el contenido, y que combina las palabras calve que se producen de la parte de reconocimiento de voz con ese código de tiempo. Con esta configuración, los metadatos se pueden unir eficientemente, incluso en intervalos de varios segundos. Consecuentemente, es posible producir metadatos de intervalos de tiempo cortos, los cuales son difíciles de utilizar con teclado convencional de entrada. En esta configuración, es preferible que el dispositivo de producción de metadatos además contenga una parte de grabación que grabe el contenido que se suministra de la base de datos de contenido junto con el archivo de metadatos como un archivo de contenido. También es preferible que el dispositivo de producción de metadatos además contenga una parte de procesamiento de archivo de información de contenido que genere un archivo de control, que controla la relación entre el archivo de metadatos y posiciones de grabación, en las cuales el archivo de contenido es para ser grabado, y el archivo de control se graba en la parte de grabación junto con el archivo de contenido y el archivo de metadatos. También es - 9 -preferible que el dispositivo de producción de metadatos además comprenda una base de datos de diccionario, en donde la parte de reconocimiento de voz puede elegir un diccionario de un género que corresponde al contenido de una pluralidad de diccionarios dependientes de género. Es además preferible que las palabras clave relacionadas al contenido puedan ser provistas a la parte de reconocimiento de voz, y que la parte de reconocimiento de voz este configurada para reconocer aquellas palabras clave con prioridad más alta. En el método para producir metadatos, es preferible que la información relacionada al contenido sea entrada de voz, mientras que exhibe el contenido en un monitor de reproducción. Es además preferible que se utilice un diccionario relacionado al contenido, y las señales de voz de entrada sean reconocidas a través del dispositivo de reconocimiento de voz a través de la asociación con el diccionario. Además es preferible que la información de código de tiempo que está unida al contenido, se utilice como la información de identificación. También es preferible que el contenido sea contenido de imagen fija, y las direcciones del contenido de imagen fija se utilicen como la información de identificación. Con el dispositivo de búsqueda de metadatos de la presente invención, es posible buscar rápidamente la localización deseada del contenido en base a metadatos, utilizando un archivo de control que indica las posiciones de grabación del contenido y un archivo de metadatos que indica códigos de tiempo y metadatos. - 10 - En el dispositivo de búsqueda de metadatos de la presente invención, es preferible que el archivo de control de salida de la parte de procesamiento de archivo de información de contenido se conciba como una tabla que enlista posiciones de grabación de contenido en la parte de grabación, de acuerdo con un tiempo de grabación del contenido, y la posición de grabación del contenido pueda ser buscada del código de tiempo. Es además preferible que el dispositivo de búsqueda de metadatos además contenga una base de datos de diccionario, y una parte de suministro de palabra clave que suministra palabras clave relacionadas al contenido dentro de la parte de reconocimiento de voz, y esa parte de reconocimiento de voz pueda elegir un diccionario de un género que corresponda al contenido de una pluralidad de diccionarios dependientes de género, y la parte de reconocimiento de voz este configurada para reconocer aquellas palabras clave con prioridad más alta. Es más preferible que el dispositivo de búsqueda de metadatos además contenga una base de datos de diccionario, que la parte de reconocimiento de voz pueda elegir un diccionario de un género que corresponda al contenido de una pluralidad de diccionarios dependientes del género, y que la parte de búsqueda este configurada para buscar a través de palabras clave que se eligen de un diccionario común utilizado por la parte de reconocimiento de oz. La siguiente es una explicación más detallada de la - 1 1 -invención, con referencia a los dibujos que la acompañan.

Modalidad 1 La Fig. 1 es un bloque diagrama que muestra la configuración de un dispositivo de producción de metadatos, de acuerdo a la Modalidad 1 de la presente invención. Una parte de reproducción de contenido 1 es un elemento para confirmar el contenido creado durante la producción de metadatos. La salida de la parte de reproducción de contenido 1 se proporciona a un monitor de video 2, un monitor de audio 3 y una parte que une el código de tiempo 7. Se suministra un micrófono 4 como una parte de entrada de voz para la producción de metadatos. La voz que se ingresa con el micro 4 se proporciona a la parte de reconocimiento de voz 5. La parte de confirmación de voz 5 está conectada con un diccionario 8 para reconocimiento de voz, y puede hacer referencia a los datos en el diccionario 8. La producción de reconocimiento de la parte de reconocimiento de voz 5 se proporciona a una parte de generación de metadatos 6, y los metadatos producidos se proporcionan a una parte de unión de código de tiempo 7, de la cual estos pueden ser producidos a la salida. La parte de reproducción de contenido 1 puede estar configurada con un dispositivo de reproducción de señal de video/audio tal como un VTR, dispositivo de disco duro o un dispositivo de disco óptico, un dispositivo de reproducción de señal de video/audio utilizando un medio de memoria tal como una memoria - 12 -semiconductora como un medio de grabación, o un dispositivo de reproducción de señal de video/audio que reproduce señales de video/audio que se proporcionan a través de transmisiones o difusión. Las señales de video reproducidas se suministran de la terminal de salida de señal de video 1 a de la parte de reproducción de contenido 1 al monitor de video 2. Las señales de voz reproducidas se proporcionan de la terminal de salida de señal de voz 1 b al monitor de audio 3. Los códigos de tiempo reproducidos se proporcionan de la terminal de salida de código de tiempo 1 c a la parte de unión de código de tiempo 7. Se debe observar que el monitor de video 2 y el monitor de audio 3 no son necesariamente requeridos como elementos del dispositivo de producción de metadatos, y es suficiente si estos se puedan conectar y utilizar cuando sea necesario. Cuando se producen los metadatos, el operador pronuncia los metadatos a ser introducidos al micrófono 4, mientras revisa ya sea el monitor de video 2 o el monitor de audio 3 o ambos, y si es necesario, haciendo referencia al argumento o guión. Las señales de voz que se producen del micrófono 4, se proporcionan a la parte de reconocimiento de voz 5. Además, si es necesario, se hace referencia a los datos del diccionario 8 para reconocimiento de voz a través de la parte de reconocimiento de voz 5. Los datos de voz que se han reconocido a través de la parte de reconocimiento de voz 5 se suministran a la parte de generación de metadatos 6, y se convierten en metadatos. Los metadatos así generados se proveen con la - 13 -información de código de tiempo que está capturada del contenido reproducido y suministrada de la parte de reproducción de contenido 1 , a través de la parte de unión de código de tiempo 7, con el propósito de unir Información que asocie el momento o escena de cada parte del contenido con los metadatos. Con el propósito de explicar la operación de arriba en más detalle, vamos a imaginar, por ejemplo, un argumento en el cual el contenido es una receta. En este caso, cuando el operador pronuncie "sal: una cucharada" en del micrófono 4 mientras revisa la pantalla de exhibición del monitor de video 2, entonces "sal" y "una cucharada" se reconocen a través de la parte de reconocimiento de voz 5 consultando el diccionario 8, y se convierten en los datos "sal" y "una cucharada" a través de la parte de generación de metadatos 6. Se debe observar que un existe limitación particular a la configuración de la parte de reconocimiento de voz 5, y es suficiente si el reconocimiento de voz se desempeña utilizando cualquiera de los medios de reconocimiento de voz comúnmente utilizados, y los datos "sal" y "una cucharada" se pueden reconocer. Se debe observar que ordinariamente, "metadatos" significa un conjunto de tales etiquetas. Como se muestra en la FIG. 2, como resultado de este reconocimiento de voz, los metadatos 9a se producen de la parte de generación de metadatos 6 y se suministran a la parte de unión de código de tiempo 7. En la parte de unión de código de tiempo 7, se generan los datos de paquete que están hechos de metadatos de unión de - 14 -código de tiempo 1 0 q ue tienen un código de tiempo unido a éstos, en base a la señal de código de tiempo 9b proporcionada de la parte de reproducción de contenido 1 . Los metadatos generados pueden ser producidos como son , o pueden ser almacenados en un medio de grabación , tal como un disco duro o lo similar. Se debe observar q ue en este ejemplo, se mostró un ejemplo en el cual los metadatos se generan en forma de paquete, pero no existe limitación para esto.

Modalidad 2 La Fig. 3 es un bloq ue diagrama que muestra la configuración de un dispositivo de producción de metadatos, de acuerdo a la Modalidad 2 de la presente invención . Esta modalidad es un ejemplo en el cual el contenido de imagen fija es el sujeto de la producción de metadatos. Con el propósito de identificar el contenido de imagen fija, esta configuración correlaciona los metadatos generados y el contenido de imagen fija, utilizando direcciones del contenido, el cual corresponde al código de tiempo en el caso de imágenes en movimiento. En la FIG. 3, una cámara 1 1 es un elemento para la creación de contenido de imagen fija. La producción de la cámara 1 1 se graba a través de una parte de grabación de contenido de imagen fija 12 con información de dirección unida a ésta. Aq uí, el contenido de imagen fija grabado y la información de dirección se proporcionan a una parte de grabación de contenido/metadatos de imagen fija 13 - 15 -para la creación de metadatos. La información de dirección además se aplica a una parte de unión de dirección de metadatos 19. Se utiliza un micrófono 16 para entrada de voz de información relacionada a las imágenes fijas, y la producción del micrófono 16 se suministra dentro de una parte de reconocimiento de voz 17. La parte de reconocimiento de voz 17 está conectada con un diccionario 20 para reconocimiento de voz, y puede hacer referencia a los datos en el diccionario 20. La producción de reconocimiento de la parte de reconocimiento de voz 17 se proporciona a una parte de generación de metadatos 18, y los metadatos producidos se proporcionan a una parte de unión de dirección de metadatos 19. El contenido de imagen fija y los metadatos grabados por la parte de grabación de contenido/metadatos de imagen fija 13 se reproducen a través de una parte de reproducción de contenido/metadatos de imagen fija 14, y se exhiben a través de una parte de exhibición de contenido/metadatos de imagen fija 1 5. La siguiente es una descripción más detallada de la operación de un dispositivo de producción de metadatos con la configuración descrita arriba. El contenido de imagen fija tomado con la cámara 1 1 se graba a través de la parte de grabación de contenido de imagen fija 12 en un medio de grabación (que no se muestra en los dibujos), y la información de dirección se une a este, la cual también se graba en el medio de grabación. El medio de grabación ordinariamente está configurado como una memoria semiconductora, pero no existe - 16 -limitación para memorias semiconductoras, y es posible utilizar cualquier otro medio de grabación, por ejemplo, una memoria magnética, un medio de grabación óptico o un medio de grabación magneto-óptico. El contenido de imagen fija grabado, se suministra a través de una terminal de salida 12a y una terminal de entrada 13a, así como a través de una terminal de salida 12b y una terminal de entrada 13b, a la parte de grabación de contenido/metadatos de imagen fija 13. La información de dirección además se proporciona a través de la terminal de salida 12b y una terminal de entrada 19b a la parte de unión de dirección de metadatos 19. Por el otro lado, la información que se relaciona a las imagen fijas que se han tomado con la cámara 1 1 se ingresa a través del micrófono 16 dentro de la parte de reconocimiento de voz 17. La información que se relaciona las imágenes fijas puede ser, por ejemplo, título, fecha y hora en que se ha tomado la imagen, operador de cámara, localización de la imagen (dónde), personas en la imagen (quiénes), objetivo en la imagen (qué) o lo similar. Además, también los datos del diccionario 2,0 para reconocimiento de voz se suministran a la parte de reconocimiento de voz 17, si es necesario. Los datos de voz reconocidos por la parte de reconocimiento de voz 17 se suministran a la parte de generación de metadatos 1 8, y se convierten en metadatos o etiquetas. Se debe observar que ordinariamente "metadatos" es información relacionada al contenido, y significa un conjunto de etiquetas, tal como título, fecha y hora en que es tomó la imagen, operador de cámara, - 17 -localización de la imagen (dónde), personas en la imagen (quiénes), objetos en la imagen (qué), o lo similar. Las etiquetas o megadatos así generados, se proporcionan a la parte de unión de dirección de metadatos 19, con el propósito de unir la información que se asocia a ellos con las escenas o contenido de imagen fija. En la parte de unión de dirección de metadatos 19, la información de dirección suministrada de la parte de grabación de contenido de imagen fija 12, su une a los metadatos. Los metadatos de unión de dirección, a los cuales se ha unido así la información de dirección, se suministran a la parte de grabación de contenido/metadatos de imagen fija 13 a través de una terminal de salida 19c y un terminal de entrada 13c. El contenido de imagen fija con una dirección dada se asocia a través de la parte de grabación de contenido/metadatos de imagen fija 13 con los metadatos de la misma dirección y se graba. Con el propósito de explicar los metadatos de unión de dirección más específicamente, la FIG. 4 muestra un ejemplo de reproducción con la parte de reproducción de contenido/metadatos de imagen fija 14, el contenido de imagen fija y los metadatos grabados a través de la parte de grabación de contenido/metadatos de imagen fija 13 y que los exhibe con la parte de exhibición de contenido/metadatos de imagen fija. La pantalla de la parte de exhibición de contenido/metadatos de imagen fija 1 5 en la FIG. 4, la cual es meramente un ejemplo, está configurada por una parte de exhibición de contenido de imagen fija 21 , una parte de exhibición de dirección - 18 - 22, y una región de exhibición de metadatos 23. La región de exhibición de metadatos 23 está configurada a través de, por ejemplo, 1 ) una parte de presentación de título 23a, 2) una parte de presentación de fecha/hora, 3) una parte de presentación de operador de cámara 23c, 4) una parte de presentación de localización de filmación 23d etc. Estos metadatos se crean de los datos de voz reconocidos por la parte de reconocimiento de voz descrita arriba 17. La operación descrita arriba se relaciona al caso, tal como aquellos anteriores que toman el contenido de la imagen fija, en aproximadamente el mismo tiempo que se toma, o inmediatamente después de que se toma el contenido de imagen fija, etc. , en las cuales la creación de los metadatos no requiere necesariamente una confirmación del contenido de imagen fija que se ha tomado. Haciendo referencia a la FIG. 5, la siguiente es una explicación del caso en el cual se reproduce el contenido de imagen fija, y los metadatos se crean para el contenido de imagen fija monitoreado, con el propósito de unir más tarde los metadatos creados al contenido de imagen fija. Se debe observar que los elementos que son los mismos que en la FIG. 3 se denotan a través de los mismos números, y se han omitido explicaciones adicionales tomando en cuenta sus funciones y lo similar. En este caso, una parte de reproducción de contenido/dirección de imagen fija 24 se dispone entre la parte de grabación de contenido de imagen fija 12 y la parte de grabación de contenido/metadatos de imagen fija 13. Además, se suministra un monitor 25, al cual se suministra la salida - 19 -de la parte de reproducción de contenido/dirección de imagen fija 24. El contenido de imagen fija que se toma con la cámara 1 1 y que se suministra a la parte de grabación de contenido de imagen fija 12, se graba en un medio de grabación (que no se muestra en los dibujos), y se une una dirección a esta, la cual también está grabada en el medio de grabación." Este medio de grabación se proporciona a la parte de reproducción de contenido/dirección de imagen fija 24. Consecuentemente, el contenido de imagen fija que ya ha sido creado puede ser reproducido, y la cámara 1 1 y la parte de grabación de contenido de imagen fija 12 no son elementos indispensables en el dispositivo de producción de metadatos utilizado para crear metadatos para el contenido de imagen fija monitoreado en el monitor. El contenido de imagen fija creado con la parte de reproducción de contenido/dirección de imagen fija 24 se suministra al monitor 25. La información de dirección que se reproduce de manera similar se proporciona a través de la terminal de salida 24b y la terminal de entrada 19b a la parte de unión de dirección de metadatos 19. El usuario que crea los metadatos, pronuncia las palabras necesarias para la creación de metadatos en el micrófono 16, después de confirmar el contenido de imagen fija que se exhibe en el monitor 25. Por ello, la información relacionada a las imágenes fijas tomadas con la cámara 1 1 se ingresa a través del micrófono 16 dentro de la parte de reconocimiento de voz 17. La información relacionada a las imágenes fijas puede ser, por ejemplo, título, fecha y hora en que se ha tomado la imagen, operador de cámara, localización de la imagen - 20 - (dónde), personas en la imagen (quiénes), objetos en la imagen (qué), o lo similar. Las siguientes operaciones son las mismas que aquellas explicadas para al configuración de la FIG. 3.

Modalidad 3 La FIG. 6 es un bloque diagrama que muestra la configuración de un dispositivo de producción de metadatos, de acuerdo a la Modalidad 3 de la presente invención. Esta modalidad es un ejemplo en el cual el contenido de datos digital ordinario, es el sujeto para la producción de metadatos. Con el propósito de identificar el contenido de datos digital, esta configuración correlaciona los metadatos generados y el contenido de datos digital, utilizando direcciones o números del contenido. En la FIG. 6 , el número 31 denota una base de datos de contenido (referida en lo siguiente como "contenido DB"). La salida que se reproduce del contenido DB 31 se suministra a una parte de entrada de voz 32, una parte de procesamiento de archivo 35 y una parte de grabación 37. La salida de la parte de entrada de voz 32 es suministra a un parte de reconocimiento de voz 33. Los datos de una base de datos de diccionario (referidos como "diccionario DB" en lo siguiente) 34, se pueden suministrar a la parte de reconocimiento de voz 33. Los metadatos se producen de la parte de reconocimiento de voz 33 e ingresan en la parte de procesamiento de archivo 35. Utilizando un valor de código de tiempo del contenido DB 31 , los datos predeterminados se anexan a la salida de metadatos de la parte - 21 -de reconocimiento de voz 33, la cual se procesa dentro de un archivo con este formato, a través de la parte de procesamiento de archivo 35. El archivo de . metadatos que se producen de la parte de procesamiento de archivo 35, se suministra a la parte de grabación 37, y se graba junto con el contenido que se produce del contenido DB 31 . La parte de entrada de voz 32 se suministra con una terminal de entrada de voz 39, y el diccionario DB 34 se suministra con una terminal de entrada de selección de archivo de diccionario 40. La salida de reproducción del contenido DB 31 y la salida de reproducción de la parte de grabación 37, se pueden exhibir con un monitor de video 41 . El contenido DB 31 tiene una configuración para suministrar una función para reproducir contenido creado, mientras que asigna un código de tiempo adaptado al contenido, el cual puede ser, por ejemplo, un dispositivo de reproducción de señal de audio/video, tal como un VTR, un dispositivo de disco duro, o un dispositivo de disco óptico, un dispositivo de reproducción de señal de video/audio que utiliza un medio de memoria, tal como una memoria semiconductora como un medio de grabación, o un dispositivo de reproducción de señal de video/audio que temporalmente graba y reproduce señales de audio/video, que se suministran a través de transmisiones o difusión. La siguiente es una explicación de la operación de este dispositivo de producción de metadatos. Una señal de video con código de tiempo unido que se reproduce del contenido DB 31 , se - 22 -suministra al monitor de video 41 y se exhibe. Cuando el operador ingresa una señal de voz de narración utilizando el micrófono, de acuerdo con el contenido exhibido a través del monitor de video 41 , la señal de voz se ingresa a través de la terminal de entrada de voz 39, dentro de la parte de entrada de voz 32. Es preferible que durante esto, el operador confirme el contenido exhibido en el monitor de video 41 o el código de tiempo, y pronuncie las palabras clave para el manejo de contenido que se extrae en base al argumento, guión o el contenido de video, o lo similar. Es posible mejorar la proporción de reconocimiento con la parte de reconocimiento de voz hacía abajo 33 utilizando, como las así ingresadas señales de voz, únicamente palabras clave que se han limitado con anterioridad, de acuerdo al argumento o lo similar. En la parte de entrada de voz 32, la señal de voz que se ingresa de la terminal de entrada de voz 39 se convierte a datos con un contador que está sincronizado con una señal de sincronización vertical que se produce del contenido DB 31. Los datos de señal de voz que se han convertido a datos a través de la parte de entrada de voz 32 se ingresan en la parte de reconocimiento de voz 33, mientras que al mismo tiempo el diccionario necesario para el reconocimiento de voz, se suministra del diccionario DB 34. El diccionario utilizado para el reconocimiento de voz en el diccionario DB 34 se puede fijar de la terminal de entrada de selección de campo de diccionario 40. Como se muestra en la FIG. 7, por ejemplo, cuando el diccionario DB 34 está configurado para tener diccionarios separados - 23 -para campos diferentes, entonces el campo a ser utilizado se fija de la terminal de entrada de selección de campo de diccionario 40 (por ejemplo, una terminal de teclado que permita el ingreso de clave). Por ejemplo en el caso de un programa de cocina, es posible fijar el campo del diccionario DB 34 de la terminal 40 a: Cocina-Cocina Japonesa-Métodos de Cocina-Verduras de freimiento con agitación. Fijando el diccionario DB34 de esta manera, los términos utilizados y los términos a ser reconocidos a través de voz, se pueden limitar, y la proporción de reconocimiento de la parte de reconocimiento de voz 33 se puede mejorar. Además, de la terminal de selección de campo de diccionario 40 en la FIG. 6, es posible ingresar palabras clave extraídas del argumento, el guión o el contenido. Por ejemplo, si el contenido es un programa de cocina, es posible ingresar una receta como se muestra en la FIG. 8 de la terminal 40. Considerando el contenido del programa, es alta la posibilidad de que las palabras que aparecen en la receta serán ingresadas como señales de voz, de tal manera que el grado de prioridad de reconocimiento de los términos en la entrada de recta de la terminal 40 este especificada claramente a través del diccionario DB 34, y el reconocimiento de voz para éstos términos se desempeñe con prioridad. Por ejemplo, si homónimos tal como "KAKI", lo cual puede significar ya sea "caqui" u "ostra" en Japonés, están incluidos en el diccionario, y si los términos en la receta ingresada de la terminal 40 incluyen únicamente el término "KAKI" (significando "ostra"), entonces esta asignado un rango de - 24 -prioridad de 1 a "KAKI" (significando "ostra"). Y si la expresión "KAKI" es reconocida paro la parte de reconocimiento de voz 33, entonces esta reconocida como "KAKI" (significando "ostra"), a la cual se ha fijado un rango de prioridad de 1 en el diccionario DB 34. Por ello, es posible mejorar la proporción de reconocimiento con la parte de reconocimiento de voz 33 limitando los términos en el diccionario DB 34 con el campo que se ingresa de la terminal 40, y además ingresando un argumento de la terminal 40 y especificando claramente el grado de prioridad de los términos. La parte de reconocimiento de voz 33 en la FIG. 6, reconoce los datos de señal de voz que se han ingresado de la parte de entrada de voz 32, de acuerdo con el diccionario suministrado del diccionario DB 34, y los metadatos están creados. Los metadatos que se producen de la parte de reconocimiento de voz 33 se ingresan a al parte de procesamiento de archivo 35. Como se describe arriba, la parte de entrada de voz 32 convierte las señales de voz en datos, en sincronización con una señal de sincronización vertical que está reproducida del contenido DB 31 . Consecuentemente, la parte de procesamiento de archivo 35 produce un archivo de metadatos de formato de texto, como se muestra en la FIG. 9, en el caso del programa de cocina arriba visto, por ejemplo, utilizando información de sincronización de la parte de entrada de voz 32 y valores de código de tiempo que se proporcionan del contenido DB 31 . Es decir, TM_ENT (seg), que es un tiempo de referencia medido en segundo del inicio del archivo, TM_OFFSET, el cual indica el número de - 25 -desviación de imagen del tiempo de referencia, y un código de tiempo se anexan a través de la parte de procesamiento de archivo 35 a los metadatos que se producen de la parte de reconocimiento de voz 33, y los metadatos se procesan en un archivo con este formato. La parte de grabación 37 graba el archivo de metadatos que se produce de la parte de procesamiento de archivo 35 y la producción de contenido del contenido DB 31. La parte de grabación 37 se configura a través de un HDD, una memoria, un disco óptico, o lo similar, y graba el contenido de salida del contenido DB 31 , también en formato de archivo.

Modalidad 4 La FIG. 10 es un bloque diagrama que muestra la configuración de un dispositivo de producción de metadatos, de acuerdo a la Modalidad 4 de la presente invención. En el dispositivo de esta modalidad, se añade una parte de procesamiento de archivo de información de contenido 36 a la configuración de la Modalidad 3. La parte de procesamiento de archivo de información de contenido 36 crea un archivo de control que indica las posiciones de grabación del contenido que está grabado con la parte de grabación 37, y este archivo de control se graba con la parte de grabación 37. Es decir, en base a la información de posición de grabación del contenido que se produce del contenido DB 32 y del contenido que se produce de la parte de grabación 37, la parte de procesamiento de archivo de información de contenido 36 genera - 26 -información del eje del tiempo para ese contenido, así como información que indica una relación de dirección del contenido grabado en la parte de grabación 37, y convierte la información del eje del tiempo en datos a ser producidos como un archivo de control. Por ejemplo, como se muestra en la FIG. 1 1 , TM_ENT #j, lo cual indica una referencia del eje del tiempo del contenido, está señalado en intervalos de ejes de tiempo iguales a las direcciones del medio de grabación, lo cual indica la posición de grabación del contenido. Por ejemplo, TM_ENT #j está señalado para la dirección del medio de grabación cada segundo (30 imágenes en caso de una señal NSTC). Exponiendo de esta manera, incluso cuando el contenido se grabe de manera dispersa en unidades de 1 seg, es posible identificar la dirección de grabación de la parte de grabación 37 de manera no ambigua, en gase a T _ENT #j. En un archivo de metadatos, como se muestra en la FIG. 9, T _ENT (seg), lo cual es un tiempo de referencia medido en segundos del inicio del archivo, TM_OFFSET, lo cual indica el número de desviaciones de imagen del tiempo de referencia, el código de tiempo, y los metadatos se graban en formato de texto. Consecuentemente, si metadatos se especifican en el archivo de metadatos, entonces el código de tiempo, el tiempo de referencia y el valor de desvío de imagen se conocen, de tal manera que la posición de grabación en la parte de grabación 37 se puede determinar inmediatamente del archivo de control que se muestra en la FIG. 1 1 . Se debe observar que los intervalos del eje del tiempo - 27 -iguales de TM_ENT #j, no están limitados para señalar cada segundo como se observó arriba, y también es posible anotar, de acuerdo con GOP unidades utilizadas en compresión MPEG 2 o lo similar. Además, en señales de televisión NTSC, la señal de sincronización vertical es 60/1 .001 Hz, de tal manera que es posible utilizar dos tipos de códigos de tiempo, a saber un código de tiempo adaptado al modo de imagen de descenso, de acuerdo con el tiempo absoluto o un código de tiempo de no descenso, de acuerdo con la señal de sincronización vertical (60/1 .001 Hz). En este caso, el código de tiempo de no descenso se puede expresar a través de TM_ENT #j, y un código de tiempo que corresponde al modo de imagen de descenso se puede expresar a través de TC_ENT #j. Además, la conversión del archivo de control en datos, se pude desempeñar utilizando un lenguaje existente tal como SMIL 2. Si la funcionalidad de SMIL 2 se utiliza, también es posible convertir contenido relacionado y el nombre del archivo del archivo de metadatos en datos, y almacenarlos en el archivo de control. Además, aunque la FIG.1 1 muestra una configuración en la cual la dirección de grabación de la parte de grabación se exhibe directamente, también es posible exhibir, en lugar de la dirección de grabación, la cantidad de datos del inicio del archivo de contenido para el código de tiempo actual, para calcular y encontrar la dirección de grabación correspondiente al código de tiempo en la parte de grabación, en base a la cantidad de datos y la dirección de grabación del sistema de archivo. - 28 - Además, se puede conseguir un efecto similar cuando una tabla de correspondencia de TM_ENT #j y los códigos de tiempo no están almacenados en el archivo de metadatos, pero la tabla de correspondencia de TM_ENT #j y los códigos de tiempo se almacenan en el archivo de control.

Modalidad 5 La FIG. 12 es un bloque diagrama que muestra la configuración de un dispositivo de búsqueda de metadatos, de acuerdo a la Modalidad 5 de la presente invención. En el dispositivo de esta modalidad, se añade una parte de búsqueda 38 a la configuración de la Modalidad 4. Con la parte de búsqueda 38, las palabras clave para argumentos a ser buscados, se eligen de un diccionario DB 34 que es idéntico al que se utilizó para encontrar metadatos a través de reconocimiento de voz, y aquellas palabras clave se fijan. Después, la parte de búsqueda 38 busca las partidas en los archivos de metadatos y exhibe una lista de nombres de título que corresponden a las palabras clave, así como posiciones (códigos de tiempo) de los argumentos de contenido. Si un argumento especificado se fija de la exhibición de lista, entonces la dirección del medio de grabación en el archivo de control es automáticamente encontrado de el tiempo de referencia TM_ENT (seg) y el número de desvíos de imagen T _OFFSET del archivo de metadatos y se fija en la parte de grabación 37, y la escena de contenido grabada en esa - 29 -dirección de grabación se reproduce y exhibe a través de la parte de grabación 37 en el monitor 41 . Con esta configuración, la escena a ser vista se puede encontrar inmediatamente cuando se han encontrado los metadatos. Se debe observar que si los archivos pequeños que están ligados al contenido se preconfiguran, entonces es posible reproducir y exhibir imágenes pequeñas representativas del contenido, cuando se exhibe la lista arriba observada de los nombres de contenido que corresponden a las palabras clave.

Modalidad 6 Las Modalidades anteriormente mencionadas 3 a 5 explicaron un dispositivo en el cual los metadatos están unidos al contenido que ha sido grabado con anticipación, mientras que la presente modalidad se relaciona a un ejemplo en el cual se ha expandido la presente invención a un sistema que une metadatos cuando toma imágenes con una cámara o lo similar, y en particular un dispositivo que une metadatos " a posiciones de toma de imagen cuando que tomas escenas cuyo contenido se ha limitado con anticipación. La FIG. 13 es un bloque de diagrama que muestra la configuración de un dispositivo de producción de metadatos, de acuerdo a la Modalidad 6 de la presente invención. La imagen salida de la cámara 51 se graba como contenido de video en un contenido DB 54. Al mismo tiempo, un GPS 52 detecta la localización en la cual la cámara toma las imágenes, - 30 -esta información de posición (coordenadas geográficas) se convierten en señales de voz a través de una parte de síntesis de voz 53, y se graban como información de posición a través de un canal de voz del contenido DB 54. La cámara 51 , el GPS 52, la parte de síntesis de voz 53 y el contenido DB 54 se pueden configurar de una manera integrada como una cámara 50 con parte de grabación. El contenido DB 54 ingresa la información de posición de señal de voz en el canal de audio en una parte de reconocimiento de voz 56. También, se suministran datos de diccionario de un diccionario DB 55 a la parte de reconocimiento de voz 56. El diccionario DB 55 se pude configurar de tal manera que se pueden elegir o restringir nombres de lugar o puntos destacados o lo similar, a través de teclado de entrada de una terminal 59, y salida de la parte de reconocimiento de voz 56. La parte de reconocimiento de voz 56 encuentra los nombres de lugar o lugares destacados utilizando las coordenadas geográficas reconocidas y los datos del diccionario DB 55 y los envía a una parte de procesamiento de archivo 57. La parte de procesamiento de archivo 57 convierte los códigos de tiempo que se producen del contenido DB 54, así como los nombres de lugar y lugares destacados que se producen de la parte de reconocimiento de voz 56 como metadatos en texto, generando así un archivo de metadatos. El archivo de metadatos se proporciona a la parte de grabación 58, la cual graba este archivo de metadatos, así como los datos de contenido que se producen del contenido DB 54. Con esta configuración, los metadatos de nombres de - 31 -lugar y lugares destacados se pueden unir automáticamente a cada escena que se toma. En las modalidades anteriormente mencionadas, las configuraciones se describieron, en la cuales, las palabras clave reconocidas por una parte de reconocimiento de voz se convierten en archivos de metadatos junto con códigos de tiempo, pero también es posible añadir palabras clave relacionadas a las palabras clave reconocidas por la parte de reconocimiento de voz y que las incluyen en los archivos. Por ejemplo, cuando "Río Yodogawa" ha sido reconocido a través de voz, entonces las palabras clave atributivas ordinarias, tal como "topografía" o "río", se pueden añadir. Por ello, se hace posible utilizar las palabras clave añadidas "topografía" o "río" cuando se busca, de tal manera que la facilidad de búsqueda se incrementa. Se debe observar que con la parte de reconocimiento de voz de la presente invención, es posible mejorar la proporción de reconocimiento de voz utilizando un " método de reconocimiento en base a palabras que reconozca palabras individuales, y limitando el número de palabras de la entrada de voz y el número de palabras en el diccionario de reconocimiento utilizado. Además, existe en general la posibilidad de que ocurran reconocimientos falsos en el reconocimiento de voz. En las modalidades arriba descritas, es posible mejorar una parte de procesamiento de información, tal como una computadora que incluya un teclado, de tal manera que cuando ha ocurrido un reconocimiento - 32 -falso, la etiqueta o metadatos producidos se puedan corregir a través de una operación de teclado.

APLICABILIDAD INDUSTRIAL Con el dispositivo de producción de metadatos de la presente invención, los metadatos se producen a través de la entrada de voz utilizando reconocimiento de voz y los metadatos están asociados con posiciones predeterminadas del contenido, con el propósito de producir metadatos o etiquetas de unión relacionados al contenido, de tal manera que la producción de metadatos o la unión de etiquetas se pueda llevar a cabo más eficazmente que con entrada de teclado convencional.

Claims

- 33 - REIVINDICACIONES 1. Un dispositivo de producción de metadatos, que comprende: una parte de reproducción de contenido que reproduce y produce contenido; una parte de entrada de voz; una parte de reconocimiento de voz que reconoce señales de voz que se ingresan de la parte de entrada de voz; una parte de generación de metadatos que convierte información reconocida por la parte de reconocimiento de voz a metadatos; una parte de unión de información de identificación que obtiene información de identificación para identificar posiciones dentro del contenido, y une la información de identificación a los metadatos; y un diccionario que está limitado, de acuerdo con el contenido; por medio del cual los metadatos generados se asocian con las posiciones en el contenido; y el reconocimiento se lleva a cabo en asociación con el diccionario, cuando reconoce las señales de voz de entrada de la parte de entrada de voz con la parte de reconocimiento de voz. 2. El dispositivo de producción de metadatos, de acuerdo a la reivindicación 1 , caracterizado porque la señales de voz se reconocen a través de la parte de reconocimiento de voz palabra por - 34 -palabra, en asociación con el diccionario. 3. El dispositivo de producción de metadatos de acuerdo a la reivindicación 1 o 2, además comprende una parte de procesamiento de información que incluye un teclado, en donde los metadatos se pueden corregir a través de la parte de procesamiento de información a través del ingreso del teclado. 4. El dispositivo de producción de metadatos de acuerdo a cualquiera de las reivindicaciones 1 y 2 a 3, caracterizado porque la información del código de tiempo que está unida al contenido, se utiliza como la información de identificación. 5. El dispositivo de producción de metadatos de acuerdo a cualquiera de las reivindicaciones 1 y 2 a 5, caracterizado porque las direcciones de contenido, números o números de desviación unidos al contenido se utilizan como la información de identificación. 6. El dispositivo de producción de metadatos de acuerdo a la reivindicación 1 , caracterizado porque el contenido es contenido de imagen fija y las direcciones del contenido de imagen fija se utilizan como la información de identificación. 7. El dispositivo de producción de metadatos de acuerdo a la reivindicación 1 , caracterizado porque la parte de reproducción de contenido está configurada por una base de datos de contenido; - 35 - caracterizado porque la parte de entrada de voz suministra a la parte de reconocimiento de voz señales de voz de palabras clave ingresadas que se han convertido en datos con una señal de contador que está sincronizada con una señal de sincronización suministrada de la base de datos de contenido; caracterizado porque la parte de reconocimiento de voz está configurada para reconocer las palabras clave de los datos de señal de voz que se han convertido a datos a través de la parte de entrada de voz; y caracterizado porque la parte de generación de metadatos está configurada como una parte de procesamiento de archivo que produce un archivo de metadatos utilizando, como la información de identificación, un código de tiempo que indica una posición de tiempo de una señal de imagen que está incluida en el contenido, y combinando las palabras clave que se producen de la parte de reconocimiento de voz con ese código de tiempo. 8. El dispositivo de producción de metadatos de acuerdo a la reivindicación 7, además comprende una parte de grabación que graba el contenido que se proporciona de la base de datos de contenido, junto con el archivo de metadatos como un archivo de contenido. 9. El dispositivo de producción de metadatos de acuerdo a la reivindicación 8, además comprende una parte de procesamiento de - 36 -archivo de información de contenido que genera un archivo de control que controla la relación entre el archivo de metadatos y las posiciones de grabación a ser grabadas por el archivo de contenido; caracterizado porque el archivo de control está grabado en la parte de grabación junto con el archivo de contenido y el archivo de metadatos. 1 0. El dispositivo de producción de metadatos de acuerdo a la reivindicación 7, además comprende una base de datos de diccionario, en donde la parte de reconocimiento de voz puede elegir un diccionario de un género que corresponda al contenido de una pluralidad de diccionarios dependientes de género. 1 1 . El dispositivo de producción de metadatos de acuerdo a la reivindicación 10, caracterizado porque las palabras clave relacionadas al contenido se pueden suministrar a la parte de reconocimiento de voz; y caracterizado porque la parte de reconocimiento de voz está configurada para reconocer aquellas palabras clave con prioridad más alta. 12. Un método para producir metadatos, que comprende: información de entrada de voz relacionada a un contenido dado mientras que se exhibe el contenido en un monitor; someter la señal de voz de entrada a reconocimiento de voz con un - 37 -dispositivo de reconocimiento de voz utilizando un diccionario que está limitado de acuerdo con el contenido; convertir la información reconocida de voz a metadatos; y unir la información de identificación suministrada al contenido para identificar posiciones en el contenido a los metadatos, por ello asociando los metadatos generados con las posiciones en el contenido. 13. El método para producir metadatos de acuerdo a la reivindicación 12, caracterizado porque la información de código de tiempo que está unida al contenido, se utiliza como la información de identificación. 14. El dispositivo de producción de metadatos de acuerdo a la reivindicación 12, caracterizado porque el contenido es contenido de imagen fija y las direcciones del contenido de imagen fija se utilizan como la información de identificación. 15. Un dispositivo de búsqueda de metadatos, que comprende: una base de datos de contenido que reproduce y produce contenido; una parte de entrada de voz que convierte señales de voz de palabras clave ingresadas en datos con una señal de contador que está sincronizada con una señal de sincronización suministrada del contenido reproducido; una parte de reconocimiento de voz que reconoce - 38 -las palabras clave de los datos de señal de voz que se han convertido a datos a través de la parte de entrada de voz; y una parte de procesamiento de archivo que produce un archivo de metadatos combinando las palabras clave que se producen de la parte de reconocimiento de voz con códigos de tiempo que indican una posición de tiempo de una señal de imagen que está incluida en el contenido; una parte de procesamiento de archivo de información de contenido que genera un archivo de control que controla un relación entre el archivo de metadatos y posiciones del archivo de contenido; una parte de grabación que graba el archivo de contenido, el archivo de metadatos y el archivo de control; y una parte de búsqueda que extrae una posición de grabación que corresponde a una palabra clave en el archivo de contenido especificando los archivos de metadatos en los cuales está incluida una palabra clave de búsqueda ingresada, y haciendo referencia al archivo de control; caracterizado porque la posición de grabación del archivo de contenido es la posición de grabación de la parte de grabación. 16. El dispositivo de búsqueda de metadatos de acuerdo a la reivindicación 15, caracterizado porque el archivo de control que se produce de la parte de procesamiento de archivo de información de - 39 -contenido se concibe como una tabla que enlista las posiciones de grabación del contenido en la parte de grabación, de acuerdo con un tiempo de grabación del contenido, y la posición de grabación del contenido se puede buscar del código de tiempo. 17. El dispositivo de búsqueda de metadatos de acuerdo a la reivindicación 15, además comprende una base de datos de diccionario, y una parte de suministro de palabra clave que suministra palabras clave relacionadas al contenido dentro de la parte de reconocimiento de voz; caracterizado porque la parte de reconocimiento de voz puede elegir un diccionario de un género que corresponde al contenido de una pluralidad de diccionarios dependientes de género, y la parte de reconocimiento de voz está configurada para reconocer aquellas palabras clave con prioridad más alta. 18. El dispositivo de búsqueda de metadatos de acuerdo a la reivindicación 15, además comprende una base de datos de diccionario; caracterizado porque la parte de reconocimiento de voz puede elegir un diccionario de un género que corresponde al contenido de una pluralidad de diccionarios dependientes de género; y caracterizado porque la parte de búsqueda está configurada para buscar a través de palabras clave que se eligen de un diccionario común, utilizado por la parte de reconocimiento de voz.