MXPA04012865A - Dispositivo de preparacion de metadatos, metodo de preparacion para el mismo y dispositivo de recuperacion. - Google Patents
Dispositivo de preparacion de metadatos, metodo de preparacion para el mismo y dispositivo de recuperacion.Info
- Publication number
- MXPA04012865A MXPA04012865A MXPA04012865A MXPA04012865A MXPA04012865A MX PA04012865 A MXPA04012865 A MX PA04012865A MX PA04012865 A MXPA04012865 A MX PA04012865A MX PA04012865 A MXPA04012865 A MX PA04012865A MX PA04012865 A MXPA04012865 A MX PA04012865A
- Authority
- MX
- Mexico
- Prior art keywords
- content
- metadata
- file
- speech recognition
- voice
- Prior art date
Links
- 238000000034 method Methods 0.000 title description 4
- 238000004519 manufacturing process Methods 0.000 claims description 53
- 230000001419 dependent effect Effects 0.000 claims description 6
- 230000010365 information processing Effects 0.000 claims description 5
- 230000001360 synchronised effect Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 2
- 238000012544 monitoring process Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 19
- 244000236655 Diospyros kaki Species 0.000 description 6
- 235000008597 Diospyros kaki Nutrition 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 241000237502 Ostreidae Species 0.000 description 4
- 238000005304 joining Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 235000020636 oyster Nutrition 0.000 description 4
- 150000003839 salts Chemical class 0.000 description 4
- 239000004065 semiconductor Substances 0.000 description 4
- 238000011084 recovery Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000012876 topography Methods 0.000 description 2
- 235000011511 Diospyros Nutrition 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003756 stirring Methods 0.000 description 1
- 235000013311 vegetables Nutrition 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/7867—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/42203—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/4223—Cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/433—Content storage operation, e.g. storage operation in response to a pause request, caching operations
- H04N21/4334—Recording operations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
- H04N21/440236—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
Abstract
Un dispositivo de preparacion de metadatos que comprende una unidad de reproduccion de contenido (1) para reproducir y producir contenido, un monitor (3) para verificar el contenido reproducido por la unidad de reproduccion de contenido, una unidad de entrada de voz(4), una unidad de reconocimiento de voz (5) para reconocer una entrada de senal de voz de la unidad de entrada de voz, una unidad de generacion de metadatos (6) para convertir informacion reconocida por la unidad de reconocimiento de voz a metadatos, y una unidad que imparte informacion de identificacion (7) para adquirir informacion de identificacion que identifica partes respectivas en el contenido del contenido reproducido, suministrado de la unidad de reproduccion de contenido, para impartir a metadatos, en donde los metadatos generados son asi construidos que seran asociados con partes respectivas en el contenido.
Description
WO 2004/002144 Al ! (II tí III ? lili I ·( iií (!i 11 ? li: KÍIIU ílilí II ? ti It I !tt!
— ffijE*
DISPOSITIVO DE PREPARACION DE METADATOS, METODO DE PREPARACIÓN PARA EL MISMO Y DISPOSITIVO DE RECUPERACION
CAMPO TÉCNICO La presente invención se refiere a dispositivos de producción de metadatos y métodos de producción de metadatos para producir metadatos que están relacionados con contenido de video o audio o lo similar que haya sido creado. La presente invención además se relaciona a dispositivos de recuperación que buscan contenido con los metadatos producidos.
ANTECEDENTES DE LA TÉCNICA En años recientes, el contenido de audio o video o lo similar que se ha creado, está provisto con metadatos que están relacionados con tal contenido. Sin embargo, para la tarea convencional de vincular metadatos, era común confirmar la información que se supone sirve como metadatos, mientras reproduce el contenido de audio o video creado, en base a un guión o argumento del contenido de audio o video creado, y para producir los metadatos introduciéndolos manualmente en la computadora. Consecuentemente, la producción de metadatos requería esfuerzo considerable. JP H09-130736A revela un sistema que une etiquetas utilizando reconocimiento de voz mientras filma con una cámara. Sin - 2 -embargo, este sistema se utiliza al mismo tiempo que se toma la imagen, y no se puede aplicar para unir metadatos al contenido que ya se ha creado.
BREVE DESCRIPCIÓN DE LA INVENCIÓN Por ello, es un objetivo de la presente invención resolver los problemas arriba descritos, y suministrar un dispositivo de producción de metadatos y un método de producción de metadatos, con el cual se pueden crear metadatos fácilmente a través de la entrada de voz para contenido ya creado. Es otro objetivo de la presente invención suministrar un mecanismo de recuperación, con el cual se puede buscar fácilmente contenido, utilizando así los metadatos producidos. Un dispositivo de producción de metadatos de acuerdo a la presente invención incluye: una parte de reproducción de contenido que reproduce y produce contenido; una parte de entrada de voz; una parte de reconocimiento de voz que reconoce señales de voz que ingresan de la parte de entrada de voz; una parte de generación de metadatos que convierte información reconocida por la parte de reconocimiento de voz dentro de los metadatos; y una parte de unión de información de identificación que obtiene información de identificación para identificar posiciones dentro del contenido del contenido reproducido que se suministra de la parte de reproducción de contenido y une la información de identificación a los metadatos; por lo que los metadatos generados se asocian con posiciones en el - 3 -contenido. Un método para producir metadatos de la presente invención, incluye: información de entrada de voz relacionada a un contenido dado; someter la señal de voz de entrada a reconocimiento de voz con un dispositivo de reconocimiento de voz; convertir la información reconocimiento de voz en los metadatos; y unir la información de identificación suministrada al contenido para identificar las posiciones en el contenido para los metadatos, por consiguiente asociando los metadatos generados con las posiciones en el contenido. Un dispositivo de búsqueda de metadatos de acuerdo a la presente invención incluye una base de datos de contenido que reproduce y produce contenido; una parte de entrada de voz que convierte señales de voz de palabras clave ingresadas dentro de los datos con una señal de contador que esta sincronizada con una señal de sincronización del contenido reproducido; una parte de reconocimiento de voz que reconoce las palabras clave de los datos de señal de voz que se han convertido en datos a través de la parte de entrada de voz; una parte de procesamiento de archivo que produce un archivo de metadatos a través de la combinación de la producción de palabras clave de la parte de reconocimiento de voz con códigos de tiempo que indican una posición de tiempo de una señal de imagen que está incluida en el contenido; una parte de procesamiento de archivo de información de contenido que genera un archivo de control que controla una relación entre el archivo de - 4 -metadatos y las partes de grabación del archivo de contenido; una parte de grabación que graba el archivo de contenido, el archivo de metadatos y el archivo de control; y una parte de búsqueda que extrae una parte de grabación que corresponde a la palabra clave del archivo de contenido especificando los archivos de metadatos en los cuales está incluida la palabra clave de búsqueda ingresada, y que coloca referencia al archivo de control. La posición de grabación del archivo de contenido corresponde a la posición de grabación en la parte de grabación.
BREVE DESCRIPCIÓN DE LOS DI BUJOS La Fig. 1 es un bloque diagrama que muestra la configuración de un dispositivo de producción de metadatos, de acuerdo a la Modalidad 1 de la presente invención. La Fig. 2 es un diagrama que muestra un ejemplo de metadatos al cual está unido un código de tiempo, de acuerdo a la Modalidad 1 de la presente invención. La Fig. 3 es un bloque diagrama que muestra la configuración de un dispositivo de producción de metadatos, de acuerdo a la Modalidad 2 de la presente invención. La Fig. 4 es un diagrama que muestra un ejemplo de una parte de exhibición de contenido/metadatos de imagen fija en ese dispositivo. La Fig. 5 es un bloque diagrama que muestra otra configuración de un dispositivo de producción de metadatos, de - 5 -acuerdo a la Modalidad 2 de la presente invención. La Fig. 6 es un bloque diagrama que muestra la configuración de un dispositivo de producción de metadatos, de acuerdo a la Modalidad 3 de la presente invención. La Fig. 7 es un diagrama que muestra un ejemplo del diccionario de DB en el dispositivo de esa modalidad. La Fig. 8 es un diagrama que muestra una receta, es decir, un ejemplo de un argumento de contenido al cual se puede aplicar el dispositivo de esta modalidad. La Fig. 9 es un diagrama de datos en formato de texto que muestra un ejemplo de un archivo de metadatos producido con el dispositivo de esta modalidad. La Fig. 10 es un bloque diagrama que muestra la configuración de un dispositivo de producción de metadatos, de acuerdo a la Modalidad 4 de la presente invención. La Fig. 1 1 es un diagrama que muestra un ejemplo de un archivo de información producido con el dispositivo de esta modalidad. La Fig. 12 es un bloque diagrama que muestra la configuración de un dispositivo de búsqueda de metadatos, de acuerdo a la Modalidad 5 de la presente invención. La Fig. 13 es un bloque diagrama que muestra la configuración de un dispositivo de producción de metadatos, de acuerdo a la Modalidad 6 de la presente invención.
- 6 - MEJOR MODO PARA LLEVAR A CABO LA I NVENCIÓN Con el dispositivo de producción de metadatos, de acuerdo a la presente invención, los metadatos o etiquetas se producen a través de la entrada de voz utilizando reconocimiento de voz para la producción de metadatos o el acoplamiento de etiquetas relacionadas al contenido, y los metadatos o etiquetas se asocian con las escenas o momentos de contenido. Por ello, los metadatos que se utilizan convencionalmente para ser producidos a través de entrada de teclado, se pueden producir automáticamente a través de entrada de voz. Se debe observar que "metadatos" significa un conjunto de etiquetas, y que está referido como "metadatos" durante toda esta especificación, también incluye las etiquetas por sí mismas. Además, "contenido" se utiliza para querer decir todo lo que es ordinariamente referido como contenido, tal como contenido de imagen fija, contenido de audio, video creado, o contenido de audio o video en una base de datos o lo similar. Es preferible que el dispositivo de producción de metadatos además comprenda un diccionario relacionado al contenido, en donde, cuando las señales de voz de entrada de la parte de entrada de voz se reconocen a través de la parte de reconocimiento de voz, el reconocimiento se lleva a cabo en asociación con el diccionario. Con esta configuración, es posible introducir, como señales de voz, palabras clave que se han extraído con anticipación de los argumentos de contenido creado o lo similar, para fijar un archivo de diccionario en base al argumento, y para - 7 -asignar una colocación de prioridad a las palabras clave, de tal manera que los metadatos se puedan generar eficaz y precisamente con el medio de reconocimiento de voz. Además, las señales de voz se pueden reconocer a través de la parte de reconocimiento de voz, palabra por palabra, en asociación con el diccionario. También es preferible que el dispositivo de producción de metadatos además contenga una parte de procesamiento de información qué incluya un teclado, y los metadatos se puedan corregir a través de la parte de procesamiento de información a través de la entrada del teclado. La información de código de tiempo que está unida al contenido, se puede utilizar como la información de identificación. Alternativamente, direcciones de contenido, números o números de imagen unidos al contenido, se pueden utilizar como la información de identificación. Además, el contenido puede ser contenido de imagen fija, y las direcciones del contenido de imagen fija se pueden utilizar como la información de identificación. Como un ejemplo de aplicación de la presente invención, el dispositivo de producción de metadatos se pude configurar como sigue: La parte de reproducción de contenido se configura a través de una base de datos de contenido, y la parte de entrada de voz suministra a la parte de reconocimiento de voz señales de voz de palabras clave ingresadas que son convertidas en datos con una señal de contador que está sincronizada con una señal de sincronización suministrada de la base de datos de contenido. La - 8 -parte de reconocimiento de voz está configurada para reconocer las palabras clave de los datos de señal de voz que se han convertido en datos a través de la parte de entrada de voz. Y la parte de generación de metadatos está configurada como una parte de procesamiento de archivo que produce un archivo de metadatos utilizando, como la información de identificación, un código de tiempo que indica una posición de tiempo de una señal de imagen incluida en el contenido, y que combina las palabras calve que se producen de la parte de reconocimiento de voz con ese código de tiempo. Con esta configuración, los metadatos se pueden unir eficientemente, incluso en intervalos de varios segundos. Consecuentemente, es posible producir metadatos de intervalos de tiempo cortos, los cuales son difíciles de utilizar con teclado convencional de entrada. En esta configuración, es preferible que el dispositivo de producción de metadatos además contenga una parte de grabación que grabe el contenido que se suministra de la base de datos de contenido junto con el archivo de metadatos como un archivo de contenido. También es preferible que el dispositivo de producción de metadatos además contenga una parte de procesamiento de archivo de información de contenido que genere un archivo de control, que controla la relación entre el archivo de metadatos y posiciones de grabación, en las cuales el archivo de contenido es para ser grabado, y el archivo de control se graba en la parte de grabación junto con el archivo de contenido y el archivo de metadatos. También es - 9 -preferible que el dispositivo de producción de metadatos además comprenda una base de datos de diccionario, en donde la parte de reconocimiento de voz puede elegir un diccionario de un género que corresponde al contenido de una pluralidad de diccionarios dependientes de género. Es además preferible que las palabras clave relacionadas al contenido puedan ser provistas a la parte de reconocimiento de voz, y que la parte de reconocimiento de voz este configurada para reconocer aquellas palabras clave con prioridad más alta. En el método para producir metadatos, es preferible que la información relacionada al contenido sea entrada de voz, mientras que exhibe el contenido en un monitor de reproducción. Es además preferible que se utilice un diccionario relacionado al contenido, y las señales de voz de entrada sean reconocidas a través del dispositivo de reconocimiento de voz a través de la asociación con el diccionario. Además es preferible que la información de código de tiempo que está unida al contenido, se utilice como la información de identificación. También es preferible que el contenido sea contenido de imagen fija, y las direcciones del contenido de imagen fija se utilicen como la información de identificación. Con el dispositivo de búsqueda de metadatos de la presente invención, es posible buscar rápidamente la localización deseada del contenido en base a metadatos, utilizando un archivo de control que indica las posiciones de grabación del contenido y un archivo de metadatos que indica códigos de tiempo y metadatos.
- 10 - En el dispositivo de búsqueda de metadatos de la presente invención, es preferible que el archivo de control de salida de la parte de procesamiento de archivo de información de contenido se conciba como una tabla que enlista posiciones de grabación de contenido en la parte de grabación, de acuerdo con un tiempo de grabación del contenido, y la posición de grabación del contenido pueda ser buscada del código de tiempo. Es además preferible que el dispositivo de búsqueda de metadatos además contenga una base de datos de diccionario, y una parte de suministro de palabra clave que suministra palabras clave relacionadas al contenido dentro de la parte de reconocimiento de voz, y esa parte de reconocimiento de voz pueda elegir un diccionario de un género que corresponda al contenido de una pluralidad de diccionarios dependientes de género, y la parte de reconocimiento de voz este configurada para reconocer aquellas palabras clave con prioridad más alta. Es más preferible que el dispositivo de búsqueda de metadatos además contenga una base de datos de diccionario, que la parte de reconocimiento de voz pueda elegir un diccionario de un género que corresponda al contenido de una pluralidad de diccionarios dependientes del género, y que la parte de búsqueda este configurada para buscar a través de palabras clave que se eligen de un diccionario común utilizado por la parte de reconocimiento de oz. La siguiente es una explicación más detallada de la - 1 1 -invención, con referencia a los dibujos que la acompañan.
Modalidad 1 La Fig. 1 es un bloque diagrama que muestra la configuración de un dispositivo de producción de metadatos, de acuerdo a la Modalidad 1 de la presente invención. Una parte de reproducción de contenido 1 es un elemento para confirmar el contenido creado durante la producción de metadatos. La salida de la parte de reproducción de contenido 1 se proporciona a un monitor de video 2, un monitor de audio 3 y una parte que une el código de tiempo 7. Se suministra un micrófono 4 como una parte de entrada de voz para la producción de metadatos. La voz que se ingresa con el micro 4 se proporciona a la parte de reconocimiento de voz 5. La parte de confirmación de voz 5 está conectada con un diccionario 8 para reconocimiento de voz, y puede hacer referencia a los datos en el diccionario 8. La producción de reconocimiento de la parte de reconocimiento de voz 5 se proporciona a una parte de generación de metadatos 6, y los metadatos producidos se proporcionan a una parte de unión de código de tiempo 7, de la cual estos pueden ser producidos a la salida. La parte de reproducción de contenido 1 puede estar configurada con un dispositivo de reproducción de señal de video/audio tal como un VTR, dispositivo de disco duro o un dispositivo de disco óptico, un dispositivo de reproducción de señal de video/audio utilizando un medio de memoria tal como una memoria - 12 -semiconductora como un medio de grabación, o un dispositivo de reproducción de señal de video/audio que reproduce señales de video/audio que se proporcionan a través de transmisiones o difusión. Las señales de video reproducidas se suministran de la terminal de salida de señal de video 1 a de la parte de reproducción de contenido 1 al monitor de video 2. Las señales de voz reproducidas se proporcionan de la terminal de salida de señal de voz 1 b al monitor de audio 3. Los códigos de tiempo reproducidos se proporcionan de la terminal de salida de código de tiempo 1 c a la parte de unión de código de tiempo 7. Se debe observar que el monitor de video 2 y el monitor de audio 3 no son necesariamente requeridos como elementos del dispositivo de producción de metadatos, y es suficiente si estos se puedan conectar y utilizar cuando sea necesario. Cuando se producen los metadatos, el operador pronuncia los metadatos a ser introducidos al micrófono 4, mientras revisa ya sea el monitor de video 2 o el monitor de audio 3 o ambos, y si es necesario, haciendo referencia al argumento o guión. Las señales de voz que se producen del micrófono 4, se proporcionan a la parte de reconocimiento de voz 5. Además, si es necesario, se hace referencia a los datos del diccionario 8 para reconocimiento de voz a través de la parte de reconocimiento de voz 5. Los datos de voz que se han reconocido a través de la parte de reconocimiento de voz 5 se suministran a la parte de generación de metadatos 6, y se convierten en metadatos. Los metadatos así generados se proveen con la - 13 -información de código de tiempo que está capturada del contenido reproducido y suministrada de la parte de reproducción de contenido 1 , a través de la parte de unión de código de tiempo 7, con el propósito de unir Información que asocie el momento o escena de cada parte del contenido con los metadatos. Con el propósito de explicar la operación de arriba en más detalle, vamos a imaginar, por ejemplo, un argumento en el cual el contenido es una receta. En este caso, cuando el operador pronuncie "sal: una cucharada" en del micrófono 4 mientras revisa la pantalla de exhibición del monitor de video 2, entonces "sal" y "una cucharada" se reconocen a través de la parte de reconocimiento de voz 5 consultando el diccionario 8, y se convierten en los datos "sal" y "una cucharada" a través de la parte de generación de metadatos 6. Se debe observar que un existe limitación particular a la configuración de la parte de reconocimiento de voz 5, y es suficiente si el reconocimiento de voz se desempeña utilizando cualquiera de los medios de reconocimiento de voz comúnmente utilizados, y los datos "sal" y "una cucharada" se pueden reconocer. Se debe observar que ordinariamente, "metadatos" significa un conjunto de tales etiquetas. Como se muestra en la FIG. 2, como resultado de este reconocimiento de voz, los metadatos 9a se producen de la parte de generación de metadatos 6 y se suministran a la parte de unión de código de tiempo 7. En la parte de unión de código de tiempo 7, se generan los datos de paquete que están hechos de metadatos de unión de - 14 -código de tiempo 1 0 q ue tienen un código de tiempo unido a éstos, en base a la señal de código de tiempo 9b proporcionada de la parte de reproducción de contenido 1 . Los metadatos generados pueden ser producidos como son , o pueden ser almacenados en un medio de grabación , tal como un disco duro o lo similar. Se debe observar q ue en este ejemplo, se mostró un ejemplo en el cual los metadatos se generan en forma de paquete, pero no existe limitación para esto.
Modalidad 2 La Fig. 3 es un bloq ue diagrama que muestra la configuración de un dispositivo de producción de metadatos, de acuerdo a la Modalidad 2 de la presente invención . Esta modalidad es un ejemplo en el cual el contenido de imagen fija es el sujeto de la producción de metadatos. Con el propósito de identificar el contenido de imagen fija, esta configuración correlaciona los metadatos generados y el contenido de imagen fija, utilizando direcciones del contenido, el cual corresponde al código de tiempo en el caso de imágenes en movimiento. En la FIG. 3, una cámara 1 1 es un elemento para la creación de contenido de imagen fija. La producción de la cámara 1 1 se graba a través de una parte de grabación de contenido de imagen fija 12 con información de dirección unida a ésta. Aq uí, el contenido de imagen fija grabado y la información de dirección se proporcionan a una parte de grabación de contenido/metadatos de imagen fija 13 - 15 -para la creación de metadatos. La información de dirección además se aplica a una parte de unión de dirección de metadatos 19. Se utiliza un micrófono 16 para entrada de voz de información relacionada a las imágenes fijas, y la producción del micrófono 16 se suministra dentro de una parte de reconocimiento de voz 17. La parte de reconocimiento de voz 17 está conectada con un diccionario 20 para reconocimiento de voz, y puede hacer referencia a los datos en el diccionario 20. La producción de reconocimiento de la parte de reconocimiento de voz 17 se proporciona a una parte de generación de metadatos 18, y los metadatos producidos se proporcionan a una parte de unión de dirección de metadatos 19. El contenido de imagen fija y los metadatos grabados por la parte de grabación de contenido/metadatos de imagen fija 13 se reproducen a través de una parte de reproducción de contenido/metadatos de imagen fija 14, y se exhiben a través de una parte de exhibición de contenido/metadatos de imagen fija 1 5. La siguiente es una descripción más detallada de la operación de un dispositivo de producción de metadatos con la configuración descrita arriba. El contenido de imagen fija tomado con la cámara 1 1 se graba a través de la parte de grabación de contenido de imagen fija 12 en un medio de grabación (que no se muestra en los dibujos), y la información de dirección se une a este, la cual también se graba en el medio de grabación. El medio de grabación ordinariamente está configurado como una memoria semiconductora, pero no existe - 16 -limitación para memorias semiconductoras, y es posible utilizar cualquier otro medio de grabación, por ejemplo, una memoria magnética, un medio de grabación óptico o un medio de grabación magneto-óptico. El contenido de imagen fija grabado, se suministra a través de una terminal de salida 12a y una terminal de entrada 13a, así como a través de una terminal de salida 12b y una terminal de entrada 13b, a la parte de grabación de contenido/metadatos de imagen fija 13. La información de dirección además se proporciona a través de la terminal de salida 12b y una terminal de entrada 19b a la parte de unión de dirección de metadatos 19. Por el otro lado, la información que se relaciona a las imagen fijas que se han tomado con la cámara 1 1 se ingresa a través del micrófono 16 dentro de la parte de reconocimiento de voz 17. La información que se relaciona las imágenes fijas puede ser, por ejemplo, título, fecha y hora en que se ha tomado la imagen, operador de cámara, localización de la imagen (dónde), personas en la imagen (quiénes), objetivo en la imagen (qué) o lo similar. Además, también los datos del diccionario 2,0 para reconocimiento de voz se suministran a la parte de reconocimiento de voz 17, si es necesario. Los datos de voz reconocidos por la parte de reconocimiento de voz 17 se suministran a la parte de generación de metadatos 1 8, y se convierten en metadatos o etiquetas. Se debe observar que ordinariamente "metadatos" es información relacionada al contenido, y significa un conjunto de etiquetas, tal como título, fecha y hora en que es tomó la imagen, operador de cámara, - 17 -localización de la imagen (dónde), personas en la imagen (quiénes), objetos en la imagen (qué), o lo similar. Las etiquetas o megadatos así generados, se proporcionan a la parte de unión de dirección de metadatos 19, con el propósito de unir la información que se asocia a ellos con las escenas o contenido de imagen fija. En la parte de unión de dirección de metadatos 19, la información de dirección suministrada de la parte de grabación de contenido de imagen fija 12, su une a los metadatos. Los metadatos de unión de dirección, a los cuales se ha unido así la información de dirección, se suministran a la parte de grabación de contenido/metadatos de imagen fija 13 a través de una terminal de salida 19c y un terminal de entrada 13c. El contenido de imagen fija con una dirección dada se asocia a través de la parte de grabación de contenido/metadatos de imagen fija 13 con los metadatos de la misma dirección y se graba. Con el propósito de explicar los metadatos de unión de dirección más específicamente, la FIG. 4 muestra un ejemplo de reproducción con la parte de reproducción de contenido/metadatos de imagen fija 14, el contenido de imagen fija y los metadatos grabados a través de la parte de grabación de contenido/metadatos de imagen fija 13 y que los exhibe con la parte de exhibición de contenido/metadatos de imagen fija. La pantalla de la parte de exhibición de contenido/metadatos de imagen fija 1 5 en la FIG. 4, la cual es meramente un ejemplo, está configurada por una parte de exhibición de contenido de imagen fija 21 , una parte de exhibición de dirección - 18 - 22, y una región de exhibición de metadatos 23. La región de exhibición de metadatos 23 está configurada a través de, por ejemplo, 1 ) una parte de presentación de título 23a, 2) una parte de presentación de fecha/hora, 3) una parte de presentación de operador de cámara 23c, 4) una parte de presentación de localización de filmación 23d etc. Estos metadatos se crean de los datos de voz reconocidos por la parte de reconocimiento de voz descrita arriba 17. La operación descrita arriba se relaciona al caso, tal como aquellos anteriores que toman el contenido de la imagen fija, en aproximadamente el mismo tiempo que se toma, o inmediatamente después de que se toma el contenido de imagen fija, etc. , en las cuales la creación de los metadatos no requiere necesariamente una confirmación del contenido de imagen fija que se ha tomado. Haciendo referencia a la FIG. 5, la siguiente es una explicación del caso en el cual se reproduce el contenido de imagen fija, y los metadatos se crean para el contenido de imagen fija monitoreado, con el propósito de unir más tarde los metadatos creados al contenido de imagen fija. Se debe observar que los elementos que son los mismos que en la FIG. 3 se denotan a través de los mismos números, y se han omitido explicaciones adicionales tomando en cuenta sus funciones y lo similar. En este caso, una parte de reproducción de contenido/dirección de imagen fija 24 se dispone entre la parte de grabación de contenido de imagen fija 12 y la parte de grabación de contenido/metadatos de imagen fija 13. Además, se suministra un monitor 25, al cual se suministra la salida - 19 -de la parte de reproducción de contenido/dirección de imagen fija 24. El contenido de imagen fija que se toma con la cámara 1 1 y que se suministra a la parte de grabación de contenido de imagen fija 12, se graba en un medio de grabación (que no se muestra en los dibujos), y se une una dirección a esta, la cual también está grabada en el medio de grabación." Este medio de grabación se proporciona a la parte de reproducción de contenido/dirección de imagen fija 24. Consecuentemente, el contenido de imagen fija que ya ha sido creado puede ser reproducido, y la cámara 1 1 y la parte de grabación de contenido de imagen fija 12 no son elementos indispensables en el dispositivo de producción de metadatos utilizado para crear metadatos para el contenido de imagen fija monitoreado en el monitor. El contenido de imagen fija creado con la parte de reproducción de contenido/dirección de imagen fija 24 se suministra al monitor 25. La información de dirección que se reproduce de manera similar se proporciona a través de la terminal de salida 24b y la terminal de entrada 19b a la parte de unión de dirección de metadatos 19. El usuario que crea los metadatos, pronuncia las palabras necesarias para la creación de metadatos en el micrófono 16, después de confirmar el contenido de imagen fija que se exhibe en el monitor 25. Por ello, la información relacionada a las imágenes fijas tomadas con la cámara 1 1 se ingresa a través del micrófono 16 dentro de la parte de reconocimiento de voz 17. La información relacionada a las imágenes fijas puede ser, por ejemplo, título, fecha y hora en que se ha tomado la imagen, operador de cámara, localización de la imagen - 20 - (dónde), personas en la imagen (quiénes), objetos en la imagen (qué), o lo similar. Las siguientes operaciones son las mismas que aquellas explicadas para al configuración de la FIG. 3.
Modalidad 3 La FIG. 6 es un bloque diagrama que muestra la configuración de un dispositivo de producción de metadatos, de acuerdo a la Modalidad 3 de la presente invención. Esta modalidad es un ejemplo en el cual el contenido de datos digital ordinario, es el sujeto para la producción de metadatos. Con el propósito de identificar el contenido de datos digital, esta configuración correlaciona los metadatos generados y el contenido de datos digital, utilizando direcciones o números del contenido. En la FIG. 6 , el número 31 denota una base de datos de contenido (referida en lo siguiente como "contenido DB"). La salida que se reproduce del contenido DB 31 se suministra a una parte de entrada de voz 32, una parte de procesamiento de archivo 35 y una parte de grabación 37. La salida de la parte de entrada de voz 32 es suministra a un parte de reconocimiento de voz 33. Los datos de una base de datos de diccionario (referidos como "diccionario DB" en lo siguiente) 34, se pueden suministrar a la parte de reconocimiento de voz 33. Los metadatos se producen de la parte de reconocimiento de voz 33 e ingresan en la parte de procesamiento de archivo 35. Utilizando un valor de código de tiempo del contenido DB 31 , los datos predeterminados se anexan a la salida de metadatos de la parte - 21 -de reconocimiento de voz 33, la cual se procesa dentro de un archivo con este formato, a través de la parte de procesamiento de archivo 35. El archivo de . metadatos que se producen de la parte de procesamiento de archivo 35, se suministra a la parte de grabación 37, y se graba junto con el contenido que se produce del contenido DB 31 . La parte de entrada de voz 32 se suministra con una terminal de entrada de voz 39, y el diccionario DB 34 se suministra con una terminal de entrada de selección de archivo de diccionario 40. La salida de reproducción del contenido DB 31 y la salida de reproducción de la parte de grabación 37, se pueden exhibir con un monitor de video 41 . El contenido DB 31 tiene una configuración para suministrar una función para reproducir contenido creado, mientras que asigna un código de tiempo adaptado al contenido, el cual puede ser, por ejemplo, un dispositivo de reproducción de señal de audio/video, tal como un VTR, un dispositivo de disco duro, o un dispositivo de disco óptico, un dispositivo de reproducción de señal de video/audio que utiliza un medio de memoria, tal como una memoria semiconductora como un medio de grabación, o un dispositivo de reproducción de señal de video/audio que temporalmente graba y reproduce señales de audio/video, que se suministran a través de transmisiones o difusión. La siguiente es una explicación de la operación de este dispositivo de producción de metadatos. Una señal de video con código de tiempo unido que se reproduce del contenido DB 31 , se - 22 -suministra al monitor de video 41 y se exhibe. Cuando el operador ingresa una señal de voz de narración utilizando el micrófono, de acuerdo con el contenido exhibido a través del monitor de video 41 , la señal de voz se ingresa a través de la terminal de entrada de voz 39, dentro de la parte de entrada de voz 32. Es preferible que durante esto, el operador confirme el contenido exhibido en el monitor de video 41 o el código de tiempo, y pronuncie las palabras clave para el manejo de contenido que se extrae en base al argumento, guión o el contenido de video, o lo similar. Es posible mejorar la proporción de reconocimiento con la parte de reconocimiento de voz hacía abajo 33 utilizando, como las así ingresadas señales de voz, únicamente palabras clave que se han limitado con anterioridad, de acuerdo al argumento o lo similar. En la parte de entrada de voz 32, la señal de voz que se ingresa de la terminal de entrada de voz 39 se convierte a datos con un contador que está sincronizado con una señal de sincronización vertical que se produce del contenido DB 31. Los datos de señal de voz que se han convertido a datos a través de la parte de entrada de voz 32 se ingresan en la parte de reconocimiento de voz 33, mientras que al mismo tiempo el diccionario necesario para el reconocimiento de voz, se suministra del diccionario DB 34. El diccionario utilizado para el reconocimiento de voz en el diccionario DB 34 se puede fijar de la terminal de entrada de selección de campo de diccionario 40. Como se muestra en la FIG. 7, por ejemplo, cuando el diccionario DB 34 está configurado para tener diccionarios separados - 23 -para campos diferentes, entonces el campo a ser utilizado se fija de la terminal de entrada de selección de campo de diccionario 40 (por ejemplo, una terminal de teclado que permita el ingreso de clave). Por ejemplo en el caso de un programa de cocina, es posible fijar el campo del diccionario DB 34 de la terminal 40 a: Cocina-Cocina Japonesa-Métodos de Cocina-Verduras de freimiento con agitación. Fijando el diccionario DB34 de esta manera, los términos utilizados y los términos a ser reconocidos a través de voz, se pueden limitar, y la proporción de reconocimiento de la parte de reconocimiento de voz 33 se puede mejorar. Además, de la terminal de selección de campo de diccionario 40 en la FIG. 6, es posible ingresar palabras clave extraídas del argumento, el guión o el contenido. Por ejemplo, si el contenido es un programa de cocina, es posible ingresar una receta como se muestra en la FIG. 8 de la terminal 40. Considerando el contenido del programa, es alta la posibilidad de que las palabras que aparecen en la receta serán ingresadas como señales de voz, de tal manera que el grado de prioridad de reconocimiento de los términos en la entrada de recta de la terminal 40 este especificada claramente a través del diccionario DB 34, y el reconocimiento de voz para éstos términos se desempeñe con prioridad. Por ejemplo, si homónimos tal como "KAKI", lo cual puede significar ya sea "caqui" u "ostra" en Japonés, están incluidos en el diccionario, y si los términos en la receta ingresada de la terminal 40 incluyen únicamente el término "KAKI" (significando "ostra"), entonces esta asignado un rango de - 24 -prioridad de 1 a "KAKI" (significando "ostra"). Y si la expresión "KAKI" es reconocida paro la parte de reconocimiento de voz 33, entonces esta reconocida como "KAKI" (significando "ostra"), a la cual se ha fijado un rango de prioridad de 1 en el diccionario DB 34. Por ello, es posible mejorar la proporción de reconocimiento con la parte de reconocimiento de voz 33 limitando los términos en el diccionario DB 34 con el campo que se ingresa de la terminal 40, y además ingresando un argumento de la terminal 40 y especificando claramente el grado de prioridad de los términos. La parte de reconocimiento de voz 33 en la FIG. 6, reconoce los datos de señal de voz que se han ingresado de la parte de entrada de voz 32, de acuerdo con el diccionario suministrado del diccionario DB 34, y los metadatos están creados. Los metadatos que se producen de la parte de reconocimiento de voz 33 se ingresan a al parte de procesamiento de archivo 35. Como se describe arriba, la parte de entrada de voz 32 convierte las señales de voz en datos, en sincronización con una señal de sincronización vertical que está reproducida del contenido DB 31 . Consecuentemente, la parte de procesamiento de archivo 35 produce un archivo de metadatos de formato de texto, como se muestra en la FIG. 9, en el caso del programa de cocina arriba visto, por ejemplo, utilizando información de sincronización de la parte de entrada de voz 32 y valores de código de tiempo que se proporcionan del contenido DB 31 . Es decir, TM_ENT (seg), que es un tiempo de referencia medido en segundo del inicio del archivo, TM_OFFSET, el cual indica el número de - 25 -desviación de imagen del tiempo de referencia, y un código de tiempo se anexan a través de la parte de procesamiento de archivo 35 a los metadatos que se producen de la parte de reconocimiento de voz 33, y los metadatos se procesan en un archivo con este formato. La parte de grabación 37 graba el archivo de metadatos que se produce de la parte de procesamiento de archivo 35 y la producción de contenido del contenido DB 31. La parte de grabación 37 se configura a través de un HDD, una memoria, un disco óptico, o lo similar, y graba el contenido de salida del contenido DB 31 , también en formato de archivo.
Modalidad 4 La FIG. 10 es un bloque diagrama que muestra la configuración de un dispositivo de producción de metadatos, de acuerdo a la Modalidad 4 de la presente invención. En el dispositivo de esta modalidad, se añade una parte de procesamiento de archivo de información de contenido 36 a la configuración de la Modalidad 3. La parte de procesamiento de archivo de información de contenido 36 crea un archivo de control que indica las posiciones de grabación del contenido que está grabado con la parte de grabación 37, y este archivo de control se graba con la parte de grabación 37. Es decir, en base a la información de posición de grabación del contenido que se produce del contenido DB 32 y del contenido que se produce de la parte de grabación 37, la parte de procesamiento de archivo de información de contenido 36 genera - 26 -información del eje del tiempo para ese contenido, así como información que indica una relación de dirección del contenido grabado en la parte de grabación 37, y convierte la información del eje del tiempo en datos a ser producidos como un archivo de control. Por ejemplo, como se muestra en la FIG. 1 1 , TM_ENT #j, lo cual indica una referencia del eje del tiempo del contenido, está señalado en intervalos de ejes de tiempo iguales a las direcciones del medio de grabación, lo cual indica la posición de grabación del contenido. Por ejemplo, TM_ENT #j está señalado para la dirección del medio de grabación cada segundo (30 imágenes en caso de una señal NSTC). Exponiendo de esta manera, incluso cuando el contenido se grabe de manera dispersa en unidades de 1 seg, es posible identificar la dirección de grabación de la parte de grabación 37 de manera no ambigua, en gase a T _ENT #j. En un archivo de metadatos, como se muestra en la FIG.
9, T _ENT (seg), lo cual es un tiempo de referencia medido en segundos del inicio del archivo, TM_OFFSET, lo cual indica el número de desviaciones de imagen del tiempo de referencia, el código de tiempo, y los metadatos se graban en formato de texto. Consecuentemente, si metadatos se especifican en el archivo de metadatos, entonces el código de tiempo, el tiempo de referencia y el valor de desvío de imagen se conocen, de tal manera que la posición de grabación en la parte de grabación 37 se puede determinar inmediatamente del archivo de control que se muestra en la FIG. 1 1 . Se debe observar que los intervalos del eje del tiempo - 27 -iguales de TM_ENT #j, no están limitados para señalar cada segundo como se observó arriba, y también es posible anotar, de acuerdo con GOP unidades utilizadas en compresión MPEG 2 o lo similar. Además, en señales de televisión NTSC, la señal de sincronización vertical es 60/1 .001 Hz, de tal manera que es posible utilizar dos tipos de códigos de tiempo, a saber un código de tiempo adaptado al modo de imagen de descenso, de acuerdo con el tiempo absoluto o un código de tiempo de no descenso, de acuerdo con la señal de sincronización vertical (60/1 .001 Hz). En este caso, el código de tiempo de no descenso se puede expresar a través de TM_ENT #j, y un código de tiempo que corresponde al modo de imagen de descenso se puede expresar a través de TC_ENT #j. Además, la conversión del archivo de control en datos, se pude desempeñar utilizando un lenguaje existente tal como SMIL 2. Si la funcionalidad de SMIL 2 se utiliza, también es posible convertir contenido relacionado y el nombre del archivo del archivo de metadatos en datos, y almacenarlos en el archivo de control. Además, aunque la FIG.1 1 muestra una configuración en la cual la dirección de grabación de la parte de grabación se exhibe directamente, también es posible exhibir, en lugar de la dirección de grabación, la cantidad de datos del inicio del archivo de contenido para el código de tiempo actual, para calcular y encontrar la dirección de grabación correspondiente al código de tiempo en la parte de grabación, en base a la cantidad de datos y la dirección de grabación del sistema de archivo.
- 28 - Además, se puede conseguir un efecto similar cuando una tabla de correspondencia de TM_ENT #j y los códigos de tiempo no están almacenados en el archivo de metadatos, pero la tabla de correspondencia de TM_ENT #j y los códigos de tiempo se almacenan en el archivo de control.
Modalidad 5 La FIG. 12 es un bloque diagrama que muestra la configuración de un dispositivo de búsqueda de metadatos, de acuerdo a la Modalidad 5 de la presente invención. En el dispositivo de esta modalidad, se añade una parte de búsqueda 38 a la configuración de la Modalidad 4. Con la parte de búsqueda 38, las palabras clave para argumentos a ser buscados, se eligen de un diccionario DB 34 que es idéntico al que se utilizó para encontrar metadatos a través de reconocimiento de voz, y aquellas palabras clave se fijan. Después, la parte de búsqueda 38 busca las partidas en los archivos de metadatos y exhibe una lista de nombres de título que corresponden a las palabras clave, así como posiciones (códigos de tiempo) de los argumentos de contenido. Si un argumento especificado se fija de la exhibición de lista, entonces la dirección del medio de grabación en el archivo de control es automáticamente encontrado de el tiempo de referencia TM_ENT (seg) y el número de desvíos de imagen T _OFFSET del archivo de metadatos y se fija en la parte de grabación 37, y la escena de contenido grabada en esa - 29 -dirección de grabación se reproduce y exhibe a través de la parte de grabación 37 en el monitor 41 . Con esta configuración, la escena a ser vista se puede encontrar inmediatamente cuando se han encontrado los metadatos. Se debe observar que si los archivos pequeños que están ligados al contenido se preconfiguran, entonces es posible reproducir y exhibir imágenes pequeñas representativas del contenido, cuando se exhibe la lista arriba observada de los nombres de contenido que corresponden a las palabras clave.
Modalidad 6 Las Modalidades anteriormente mencionadas 3 a 5 explicaron un dispositivo en el cual los metadatos están unidos al contenido que ha sido grabado con anticipación, mientras que la presente modalidad se relaciona a un ejemplo en el cual se ha expandido la presente invención a un sistema que une metadatos cuando toma imágenes con una cámara o lo similar, y en particular un dispositivo que une metadatos " a posiciones de toma de imagen cuando que tomas escenas cuyo contenido se ha limitado con anticipación. La FIG. 13 es un bloque de diagrama que muestra la configuración de un dispositivo de producción de metadatos, de acuerdo a la Modalidad 6 de la presente invención. La imagen salida de la cámara 51 se graba como contenido de video en un contenido DB 54. Al mismo tiempo, un GPS 52 detecta la localización en la cual la cámara toma las imágenes, - 30 -esta información de posición (coordenadas geográficas) se convierten en señales de voz a través de una parte de síntesis de voz 53, y se graban como información de posición a través de un canal de voz del contenido DB 54. La cámara 51 , el GPS 52, la parte de síntesis de voz 53 y el contenido DB 54 se pueden configurar de una manera integrada como una cámara 50 con parte de grabación. El contenido DB 54 ingresa la información de posición de señal de voz en el canal de audio en una parte de reconocimiento de voz 56. También, se suministran datos de diccionario de un diccionario DB 55 a la parte de reconocimiento de voz 56. El diccionario DB 55 se pude configurar de tal manera que se pueden elegir o restringir nombres de lugar o puntos destacados o lo similar, a través de teclado de entrada de una terminal 59, y salida de la parte de reconocimiento de voz 56. La parte de reconocimiento de voz 56 encuentra los nombres de lugar o lugares destacados utilizando las coordenadas geográficas reconocidas y los datos del diccionario DB 55 y los envía a una parte de procesamiento de archivo 57. La parte de procesamiento de archivo 57 convierte los códigos de tiempo que se producen del contenido DB 54, así como los nombres de lugar y lugares destacados que se producen de la parte de reconocimiento de voz 56 como metadatos en texto, generando así un archivo de metadatos. El archivo de metadatos se proporciona a la parte de grabación 58, la cual graba este archivo de metadatos, así como los datos de contenido que se producen del contenido DB 54. Con esta configuración, los metadatos de nombres de - 31 -lugar y lugares destacados se pueden unir automáticamente a cada escena que se toma. En las modalidades anteriormente mencionadas, las configuraciones se describieron, en la cuales, las palabras clave reconocidas por una parte de reconocimiento de voz se convierten en archivos de metadatos junto con códigos de tiempo, pero también es posible añadir palabras clave relacionadas a las palabras clave reconocidas por la parte de reconocimiento de voz y que las incluyen en los archivos. Por ejemplo, cuando "Río Yodogawa" ha sido reconocido a través de voz, entonces las palabras clave atributivas ordinarias, tal como "topografía" o "río", se pueden añadir. Por ello, se hace posible utilizar las palabras clave añadidas "topografía" o "río" cuando se busca, de tal manera que la facilidad de búsqueda se incrementa. Se debe observar que con la parte de reconocimiento de voz de la presente invención, es posible mejorar la proporción de reconocimiento de voz utilizando un " método de reconocimiento en base a palabras que reconozca palabras individuales, y limitando el número de palabras de la entrada de voz y el número de palabras en el diccionario de reconocimiento utilizado. Además, existe en general la posibilidad de que ocurran reconocimientos falsos en el reconocimiento de voz. En las modalidades arriba descritas, es posible mejorar una parte de procesamiento de información, tal como una computadora que incluya un teclado, de tal manera que cuando ha ocurrido un reconocimiento - 32 -falso, la etiqueta o metadatos producidos se puedan corregir a través de una operación de teclado.
APLICABILIDAD INDUSTRIAL Con el dispositivo de producción de metadatos de la presente invención, los metadatos se producen a través de la entrada de voz utilizando reconocimiento de voz y los metadatos están asociados con posiciones predeterminadas del contenido, con el propósito de producir metadatos o etiquetas de unión relacionados al contenido, de tal manera que la producción de metadatos o la unión de etiquetas se pueda llevar a cabo más eficazmente que con entrada de teclado convencional.
Claims (1)
- - 33 - REIVINDICACIONES 1. Un dispositivo de producción de metadatos, que comprende: una parte de reproducción de contenido que reproduce y produce contenido; una parte de entrada de voz; una parte de reconocimiento de voz que reconoce señales de voz que se ingresan de la parte de entrada de voz; una parte de generación de metadatos que convierte información reconocida por la parte de reconocimiento de voz a metadatos; una parte de unión de información de identificación que obtiene información de identificación para identificar posiciones dentro del contenido, y une la información de identificación a los metadatos; y un diccionario que está limitado, de acuerdo con el contenido; por medio del cual los metadatos generados se asocian con las posiciones en el contenido; y el reconocimiento se lleva a cabo en asociación con el diccionario, cuando reconoce las señales de voz de entrada de la parte de entrada de voz con la parte de reconocimiento de voz. 2. El dispositivo de producción de metadatos, de acuerdo a la reivindicación 1 , caracterizado porque la señales de voz se reconocen a través de la parte de reconocimiento de voz palabra por - 34 -palabra, en asociación con el diccionario. 3. El dispositivo de producción de metadatos de acuerdo a la reivindicación 1 o 2, además comprende una parte de procesamiento de información que incluye un teclado, en donde los metadatos se pueden corregir a través de la parte de procesamiento de información a través del ingreso del teclado. 4. El dispositivo de producción de metadatos de acuerdo a cualquiera de las reivindicaciones 1 y 2 a 3, caracterizado porque la información del código de tiempo que está unida al contenido, se utiliza como la información de identificación. 5. El dispositivo de producción de metadatos de acuerdo a cualquiera de las reivindicaciones 1 y 2 a 5, caracterizado porque las direcciones de contenido, números o números de desviación unidos al contenido se utilizan como la información de identificación. 6. El dispositivo de producción de metadatos de acuerdo a la reivindicación 1 , caracterizado porque el contenido es contenido de imagen fija y las direcciones del contenido de imagen fija se utilizan como la información de identificación. 7. El dispositivo de producción de metadatos de acuerdo a la reivindicación 1 , caracterizado porque la parte de reproducción de contenido está configurada por una base de datos de contenido; - 35 - caracterizado porque la parte de entrada de voz suministra a la parte de reconocimiento de voz señales de voz de palabras clave ingresadas que se han convertido en datos con una señal de contador que está sincronizada con una señal de sincronización suministrada de la base de datos de contenido; caracterizado porque la parte de reconocimiento de voz está configurada para reconocer las palabras clave de los datos de señal de voz que se han convertido a datos a través de la parte de entrada de voz; y caracterizado porque la parte de generación de metadatos está configurada como una parte de procesamiento de archivo que produce un archivo de metadatos utilizando, como la información de identificación, un código de tiempo que indica una posición de tiempo de una señal de imagen que está incluida en el contenido, y combinando las palabras clave que se producen de la parte de reconocimiento de voz con ese código de tiempo. 8. El dispositivo de producción de metadatos de acuerdo a la reivindicación 7, además comprende una parte de grabación que graba el contenido que se proporciona de la base de datos de contenido, junto con el archivo de metadatos como un archivo de contenido. 9. El dispositivo de producción de metadatos de acuerdo a la reivindicación 8, además comprende una parte de procesamiento de - 36 -archivo de información de contenido que genera un archivo de control que controla la relación entre el archivo de metadatos y las posiciones de grabación a ser grabadas por el archivo de contenido; caracterizado porque el archivo de control está grabado en la parte de grabación junto con el archivo de contenido y el archivo de metadatos. 1 0. El dispositivo de producción de metadatos de acuerdo a la reivindicación 7, además comprende una base de datos de diccionario, en donde la parte de reconocimiento de voz puede elegir un diccionario de un género que corresponda al contenido de una pluralidad de diccionarios dependientes de género. 1 1 . El dispositivo de producción de metadatos de acuerdo a la reivindicación 10, caracterizado porque las palabras clave relacionadas al contenido se pueden suministrar a la parte de reconocimiento de voz; y caracterizado porque la parte de reconocimiento de voz está configurada para reconocer aquellas palabras clave con prioridad más alta. 12. Un método para producir metadatos, que comprende: información de entrada de voz relacionada a un contenido dado mientras que se exhibe el contenido en un monitor; someter la señal de voz de entrada a reconocimiento de voz con un - 37 -dispositivo de reconocimiento de voz utilizando un diccionario que está limitado de acuerdo con el contenido; convertir la información reconocida de voz a metadatos; y unir la información de identificación suministrada al contenido para identificar posiciones en el contenido a los metadatos, por ello asociando los metadatos generados con las posiciones en el contenido. 13. El método para producir metadatos de acuerdo a la reivindicación 12, caracterizado porque la información de código de tiempo que está unida al contenido, se utiliza como la información de identificación. 14. El dispositivo de producción de metadatos de acuerdo a la reivindicación 12, caracterizado porque el contenido es contenido de imagen fija y las direcciones del contenido de imagen fija se utilizan como la información de identificación. 15. Un dispositivo de búsqueda de metadatos, que comprende: una base de datos de contenido que reproduce y produce contenido; una parte de entrada de voz que convierte señales de voz de palabras clave ingresadas en datos con una señal de contador que está sincronizada con una señal de sincronización suministrada del contenido reproducido; una parte de reconocimiento de voz que reconoce - 38 -las palabras clave de los datos de señal de voz que se han convertido a datos a través de la parte de entrada de voz; y una parte de procesamiento de archivo que produce un archivo de metadatos combinando las palabras clave que se producen de la parte de reconocimiento de voz con códigos de tiempo que indican una posición de tiempo de una señal de imagen que está incluida en el contenido; una parte de procesamiento de archivo de información de contenido que genera un archivo de control que controla un relación entre el archivo de metadatos y posiciones del archivo de contenido; una parte de grabación que graba el archivo de contenido, el archivo de metadatos y el archivo de control; y una parte de búsqueda que extrae una posición de grabación que corresponde a una palabra clave en el archivo de contenido especificando los archivos de metadatos en los cuales está incluida una palabra clave de búsqueda ingresada, y haciendo referencia al archivo de control; caracterizado porque la posición de grabación del archivo de contenido es la posición de grabación de la parte de grabación. 16. El dispositivo de búsqueda de metadatos de acuerdo a la reivindicación 15, caracterizado porque el archivo de control que se produce de la parte de procesamiento de archivo de información de - 39 -contenido se concibe como una tabla que enlista las posiciones de grabación del contenido en la parte de grabación, de acuerdo con un tiempo de grabación del contenido, y la posición de grabación del contenido se puede buscar del código de tiempo. 17. El dispositivo de búsqueda de metadatos de acuerdo a la reivindicación 15, además comprende una base de datos de diccionario, y una parte de suministro de palabra clave que suministra palabras clave relacionadas al contenido dentro de la parte de reconocimiento de voz; caracterizado porque la parte de reconocimiento de voz puede elegir un diccionario de un género que corresponde al contenido de una pluralidad de diccionarios dependientes de género, y la parte de reconocimiento de voz está configurada para reconocer aquellas palabras clave con prioridad más alta. 18. El dispositivo de búsqueda de metadatos de acuerdo a la reivindicación 15, además comprende una base de datos de diccionario; caracterizado porque la parte de reconocimiento de voz puede elegir un diccionario de un género que corresponde al contenido de una pluralidad de diccionarios dependientes de género; y caracterizado porque la parte de búsqueda está configurada para buscar a través de palabras clave que se eligen de un diccionario común, utilizado por la parte de reconocimiento de voz.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002182506 | 2002-06-24 | ||
JP2002319757A JP2004153765A (ja) | 2002-11-01 | 2002-11-01 | メタデータ制作装置及び制作方法 |
JP2002319756A JP3781715B2 (ja) | 2002-11-01 | 2002-11-01 | メタデータ制作装置及び検索装置 |
JP2002334831A JP2004086124A (ja) | 2002-06-24 | 2002-11-19 | メタデータ制作装置及び制作方法 |
PCT/JP2003/007908 WO2004002144A1 (ja) | 2002-06-24 | 2003-06-23 | メタデータ作成装置、その作成方法および検索装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
MXPA04012865A true MXPA04012865A (es) | 2005-03-31 |
Family
ID=30003905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
MXPA04012865A MXPA04012865A (es) | 2002-06-24 | 2003-06-23 | Dispositivo de preparacion de metadatos, metodo de preparacion para el mismo y dispositivo de recuperacion. |
Country Status (5)
Country | Link |
---|---|
US (1) | US20050228665A1 (es) |
EP (1) | EP1536638A4 (es) |
CN (1) | CN1663249A (es) |
MX (1) | MXPA04012865A (es) |
WO (1) | WO2004002144A1 (es) |
Families Citing this family (156)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
JP4127668B2 (ja) * | 2003-08-15 | 2008-07-30 | 株式会社東芝 | 情報処理装置、情報処理方法、およびプログラム |
US20060080286A1 (en) * | 2004-08-31 | 2006-04-13 | Flashpoint Technology, Inc. | System and method for storing and accessing images based on position data associated therewith |
US7818350B2 (en) | 2005-02-28 | 2010-10-19 | Yahoo! Inc. | System and method for creating a collaborative playlist |
JP2006311462A (ja) * | 2005-05-02 | 2006-11-09 | Toshiba Corp | コンテンツ検索装置及びその方法 |
US7467147B2 (en) | 2005-06-01 | 2008-12-16 | Groundspeak, Inc. | System and method for facilitating ad hoc compilation of geospatial data for on-line collaboration |
JP4659681B2 (ja) * | 2005-06-13 | 2011-03-30 | パナソニック株式会社 | コンテンツタグ付け支援装置およびコンテンツタグ付け支援方法 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7844820B2 (en) * | 2005-10-10 | 2010-11-30 | Yahoo! Inc. | Set of metadata for association with a composite media item and tool for creating such set of metadata |
CN102930888A (zh) | 2005-10-21 | 2013-02-13 | 尼尔逊媒介研究股份有限公司 | 用于计量便携式媒体播放器的方法和装置 |
US7822746B2 (en) * | 2005-11-18 | 2010-10-26 | Qurio Holdings, Inc. | System and method for tagging images based on positional information |
EP1998554A4 (en) * | 2006-03-23 | 2009-11-25 | Panasonic Corp | CONTENT IMAGING APPARATUS |
KR101583268B1 (ko) | 2006-03-27 | 2016-01-08 | 닐슨 미디어 리서치 인코퍼레이티드 | 무선통신장치에 표현되는 미디어 컨텐츠의 미터링 방법 및 시스템 |
EP2011017A4 (en) * | 2006-03-30 | 2010-07-07 | Stanford Res Inst Int | METHOD AND APPARATUS FOR ANNOTATING MULTIMEDIA STREAMS |
JP4175390B2 (ja) * | 2006-06-09 | 2008-11-05 | ソニー株式会社 | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
KR100856407B1 (ko) * | 2006-07-06 | 2008-09-04 | 삼성전자주식회사 | 메타 데이터를 생성하는 데이터 기록 및 재생 장치 및 방법 |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
JP2008118232A (ja) * | 2006-11-01 | 2008-05-22 | Hitachi Ltd | 映像再生装置 |
US8643745B2 (en) * | 2007-03-12 | 2014-02-04 | Panasonic Corporation | Content shooting apparatus |
US8204359B2 (en) * | 2007-03-20 | 2012-06-19 | At&T Intellectual Property I, L.P. | Systems and methods of providing modified media content |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8793256B2 (en) | 2008-03-26 | 2014-07-29 | Tout Industries, Inc. | Method and apparatus for selecting related content for display in conjunction with a media |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8364721B2 (en) | 2008-06-12 | 2013-01-29 | Groundspeak, Inc. | System and method for providing a guided user interface to process waymark records |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
KR101479079B1 (ko) * | 2008-09-10 | 2015-01-08 | 삼성전자주식회사 | 디지털 캡션에 포함된 용어의 설명을 표시해주는 방송수신장치 및 이에 적용되는 디지털 캡션 처리방법 |
US8712776B2 (en) * | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
KR20100061078A (ko) * | 2008-11-28 | 2010-06-07 | 삼성전자주식회사 | 메타 데이터를 이용하는 컨텐츠 소비 방법 및 그 장치 |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8935204B2 (en) * | 2009-08-14 | 2015-01-13 | Aframe Media Services Limited | Metadata tagging of moving and still image content |
GB2472650A (en) * | 2009-08-14 | 2011-02-16 | All In The Technology Ltd | Metadata tagging of moving and still image content |
JP5257330B2 (ja) * | 2009-11-06 | 2013-08-07 | 株式会社リコー | 発言記録装置、発言記録方法、プログラム及び記録媒体 |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
KR20120045582A (ko) * | 2010-10-29 | 2012-05-09 | 한국전자통신연구원 | 음향 모델 생성 장치 및 방법 |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US20120310642A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Automatically creating a mapping between text data and audio data |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9325381B2 (en) | 2013-03-15 | 2016-04-26 | The Nielsen Company (Us), Llc | Methods, apparatus and articles of manufacture to monitor mobile devices |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9559651B2 (en) * | 2013-03-29 | 2017-01-31 | Apple Inc. | Metadata for loudness and dynamic range control |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
KR101809808B1 (ko) | 2013-06-13 | 2017-12-15 | 애플 인크. | 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법 |
US10791216B2 (en) | 2013-08-06 | 2020-09-29 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US9942396B2 (en) * | 2013-11-01 | 2018-04-10 | Adobe Systems Incorporated | Document distribution and interaction |
US9544149B2 (en) | 2013-12-16 | 2017-01-10 | Adobe Systems Incorporated | Automatic E-signatures in response to conditions and/or events |
US10182280B2 (en) | 2014-04-23 | 2019-01-15 | Panasonic Intellectual Property Management Co., Ltd. | Sound processing apparatus, sound processing system and sound processing method |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9703982B2 (en) | 2014-11-06 | 2017-07-11 | Adobe Systems Incorporated | Document distribution and interaction |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
CN106409295B (zh) * | 2015-07-31 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 从自然语音信息中识别时间信息的方法和装置 |
US9935777B2 (en) | 2015-08-31 | 2018-04-03 | Adobe Systems Incorporated | Electronic signature framework with enhanced security |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9626653B2 (en) | 2015-09-21 | 2017-04-18 | Adobe Systems Incorporated | Document distribution and interaction with delegation of signature authority |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
CN105389350B (zh) * | 2015-10-28 | 2019-02-15 | 浪潮(北京)电子信息产业有限公司 | 一种分布式文件系统元数据信息获取方法 |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US10347215B2 (en) | 2016-05-27 | 2019-07-09 | Adobe Inc. | Multi-device electronic signature framework |
WO2017208820A1 (ja) * | 2016-05-30 | 2017-12-07 | ソニー株式会社 | 映像音響処理装置および方法、並びにプログラム |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
JP6530357B2 (ja) * | 2016-09-06 | 2019-06-12 | 株式会社日立ビルシステム | 保全作業管理システム及び保全作業管理装置 |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10503919B2 (en) | 2017-04-10 | 2019-12-10 | Adobe Inc. | Electronic signature framework with keystroke biometric authentication |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US11652656B2 (en) * | 2019-06-26 | 2023-05-16 | International Business Machines Corporation | Web conference replay association upon meeting completion |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3337798B2 (ja) * | 1993-12-24 | 2002-10-21 | キヤノン株式会社 | 画像データ及び音声データを処理する装置、データ処理装置並びにデータ処理方法 |
US5546145A (en) * | 1994-08-30 | 1996-08-13 | Eastman Kodak Company | Camera on-board voice recognition |
US5835667A (en) * | 1994-10-14 | 1998-11-10 | Carnegie Mellon University | Method and apparatus for creating a searchable digital video library and a system and method of using such a library |
JPH09130736A (ja) * | 1995-11-02 | 1997-05-16 | Sony Corp | 撮像装置及び編集装置 |
US6111605A (en) * | 1995-11-06 | 2000-08-29 | Ricoh Company Limited | Digital still video camera, image data output system for digital still video camera, frame for data relay for digital still video camera, data transfer system for digital still video camera, and image regenerating apparatus |
JPH09149365A (ja) * | 1995-11-20 | 1997-06-06 | Ricoh Co Ltd | デジタルスチルビデオカメラ |
US6336093B2 (en) * | 1998-01-16 | 2002-01-01 | Avid Technology, Inc. | Apparatus and method using speech recognition and scripts to capture author and playback synchronized audio and video |
JP2000069442A (ja) * | 1998-08-24 | 2000-03-03 | Sharp Corp | 動画システム |
JP3166725B2 (ja) * | 1998-08-28 | 2001-05-14 | 日本電気株式会社 | 情報記録装置および情報記録方法、並びに記録媒体 |
JP2000306365A (ja) * | 1999-04-16 | 2000-11-02 | Sony Corp | 編集支援システム及び編集支援システムの制御装置 |
GB2354105A (en) * | 1999-09-08 | 2001-03-14 | Sony Uk Ltd | System and method for navigating source content |
GB2359918A (en) * | 2000-03-01 | 2001-09-05 | Sony Uk Ltd | Audio and/or video generation apparatus having a metadata generator |
US7051048B2 (en) * | 2000-09-29 | 2006-05-23 | Canon Kabushiki Kaisha | Data management system, data management method, and program |
JP2002157112A (ja) * | 2000-11-20 | 2002-05-31 | Teac Corp | 音声情報変換装置 |
JP2002171481A (ja) * | 2000-12-04 | 2002-06-14 | Ricoh Co Ltd | 映像処理装置 |
JP2002207753A (ja) * | 2001-01-10 | 2002-07-26 | Teijin Seiki Co Ltd | マルチメディア情報記録作成提供システム |
JP2002374494A (ja) * | 2001-06-14 | 2002-12-26 | Fuji Electric Co Ltd | ビデオコンテンツファイル生成システムおよびビデオコンテンツファイル検索方法。 |
JP2003018505A (ja) * | 2001-06-29 | 2003-01-17 | Toshiba Corp | 情報再生装置および会話シーン検出方法 |
JP4240867B2 (ja) * | 2001-09-28 | 2009-03-18 | 富士フイルム株式会社 | 電子アルバム編集装置 |
JP3768915B2 (ja) * | 2002-04-26 | 2006-04-19 | キヤノン株式会社 | デジタルカメラ及びデジタルカメラのデータ処理方法 |
-
2003
- 2003-06-23 MX MXPA04012865A patent/MXPA04012865A/es unknown
- 2003-06-23 CN CN038149028A patent/CN1663249A/zh active Pending
- 2003-06-23 US US10/519,089 patent/US20050228665A1/en not_active Abandoned
- 2003-06-23 EP EP03733537A patent/EP1536638A4/en not_active Withdrawn
- 2003-06-23 WO PCT/JP2003/007908 patent/WO2004002144A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
EP1536638A4 (en) | 2005-11-09 |
EP1536638A1 (en) | 2005-06-01 |
WO2004002144A1 (ja) | 2003-12-31 |
WO2004002144B1 (ja) | 2004-04-08 |
US20050228665A1 (en) | 2005-10-13 |
CN1663249A (zh) | 2005-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
MXPA04012865A (es) | Dispositivo de preparacion de metadatos, metodo de preparacion para el mismo y dispositivo de recuperacion. | |
JP4794740B2 (ja) | オーディオ/ビデオ信号生成装置、及びオーディオ/ビデオ信号生成方法 | |
US9837077B2 (en) | Enhanced capture, management and distribution of live presentations | |
JP4591982B2 (ja) | オーディオ信号及び/又はビデオ信号生成装置、及びオーディオ信号及び/又はビデオ信号生成方法 | |
US6877134B1 (en) | Integrated data and real-time metadata capture system and method | |
US6789228B1 (en) | Method and system for the storage and retrieval of web-based education materials | |
US7295752B1 (en) | Video cataloger system with audio track extraction | |
US6567980B1 (en) | Video cataloger system with hyperlinked output | |
JP3657206B2 (ja) | 個人用映画コレクションの作成を可能にするシステム | |
US7924325B2 (en) | Imaging device and imaging system | |
US20020036694A1 (en) | Method and system for the storage and retrieval of web-based educational materials | |
JP2005341015A (ja) | 議事録作成支援機能を有するテレビ会議システム | |
KR20060132595A (ko) | 미디어 콘텐츠를 검색할 수 있도록 식별 데이터를 유지하는저장 시스템 | |
US20120257869A1 (en) | Multimedia data recording method and apparatus for automatically generating/updating metadata | |
JP3781715B2 (ja) | メタデータ制作装置及び検索装置 | |
US20070201864A1 (en) | Information processing apparatus, information processing method, and program | |
US7675827B2 (en) | Information processing apparatus, information processing method, and program | |
US20140078331A1 (en) | Method and system for associating sound data with an image | |
JP2004023661A (ja) | 記録情報処理方法、記録媒体及び記録情報処理装置 | |
JPH0991928A (ja) | 映像の編集方法 | |
US7444068B2 (en) | System and method of manual indexing of image data | |
KR102376646B1 (ko) | 상품 동영상 자동화 시스템 | |
US7720798B2 (en) | Transmitter-receiver system, transmitting apparatus, transmitting method, receiving apparatus, receiving method, and program | |
JP2002262225A (ja) | コンテンツ仲介装置およびコンテンツ仲介処理方法 | |
US7873637B2 (en) | Automatically imparting an index by using various kinds of control signals |