MX2014004889A - Sistema y metodo para el manejo del contenido de audio. - Google Patents

Sistema y metodo para el manejo del contenido de audio.

Info

Publication number
MX2014004889A
MX2014004889A MX2014004889A MX2014004889A MX2014004889A MX 2014004889 A MX2014004889 A MX 2014004889A MX 2014004889 A MX2014004889 A MX 2014004889A MX 2014004889 A MX2014004889 A MX 2014004889A MX 2014004889 A MX2014004889 A MX 2014004889A
Authority
MX
Mexico
Prior art keywords
content
user
voice
sound
original
Prior art date
Application number
MX2014004889A
Other languages
English (en)
Inventor
Nathaniel T Bradley
William C O'conor
David Ide
Original Assignee
Audioeye Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Audioeye Inc filed Critical Audioeye Inc
Publication of MX2014004889A publication Critical patent/MX2014004889A/es

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/001Teaching or communicating with blind persons
    • G09B21/006Teaching or communicating with blind persons using audible presentation of the information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

Los archivos de sonido que representan archivos destinados principalmente para la visualización (p. ej, para usuarios videntes) son creados y organizados en jerarquías que imitan a los archivos originales instanciados en sitios web originales que incorporan tales archivos. Así, a los usuarios con deficiencias visuales se les proporciona acceso a y navegación de los archivos de sonido en una forma que imita el sitio web original.

Description

SISTEMA Y MÉTODO PARA EL MANEJO DEL CONTENIDO DE AUDIO CAMPO DE LA INVENCIÓN Las modalidades consistente con esta invención en general se refieren al procesamiento de datos con el propósito de crear, manejar y acceder a contenido audible disponible para utilizarse en la web, en teléfono móvil, y dispositivos mp3 , y permitir a cualquier usuario, pero especialmente a usuarios discapacitados y con deficiencias visuales, que accedan y naveguen la salida basándose en señales de sonido.
ANTECEDENTE Los sitios web y muchos otros archivos y contenido de las computadoras son creados con la suposición de que aquellos que están utilizando los archivos pueden ver el contenido del archivo en un monitor de la computadora. Debido a que los sitios web y otros contenidos son desarrollados con la suposición de que los usuarios están accediendo al contenido visualmente, los sitios no convierten mucho contenido de forma audible, tampoco los sitios convierten la arquitectura de navegación, como pueden ser los menús y las barras de navegación, de forma audible. El resultado es que los usuarios que son incapaces de ver el contenido visualmente o están incapacitados para acceder visualmente al contenido tienen dificultad para utilizar esos sitios web.
Los sistemas tradicionales se han desarrollado para ayudar a usuarios con deficiencias visuales y otros usuarios a utilizar los sitios web, pero estos sistemas frecuentemente necesitan que se instale software y hardware en la computadora del usuario. Muchos de estos sistemas simplemente utilizan tecnología de lectura en pantalla sola o en combinación con aplicaciones de software que amplifican la impresión. Los sistemas han que son costosos, difíciles de manejar, e inconvenientes. Además, debido a que esa tecnología se instala en la computadora del usuario, los usuarios con deficiencias visuales no pueden utilizar de forma efectiva los archivos tradicionales de la computadora en cualquier lugar excepto en sus propias computadoras . Como una consecuencia, los sitios web y otros archivos de computadora frecuentemente son inaccesibles para los usuarios en cualquier lugar excepto en su casa.
Diversos sistemas tradicionales se han desarrollado para superar este problema permitiendo a los usuarios acceder a alguna información de la computadora utilizando cualquier teléfono de tono. En esencia, una persona que llama tiene acceso a una computadora especial mediante el teléfono. La computadora tiene acceso a los archivos de la computadora que contienen componentes de sonido, los cuales se pueden reproducir a través del teléfono al usuario. Por ejemplo, un archivo de texto que ha sido transferido por un software de voz sintetizada a un archivo de sonido puede ser reproducido al usuario sobre el teléfono. Algunos sistemas acceden a archivos de sonido que ya han sido transferidos; algunos transfieren texto a voz sobre la marcha después del comando del usuario. Para vigilar cuales archivos se están reproduciendo, el archivo presiona las teclas en el teclado táctil para enviar un sonido que le da instrucciones a la computadora sobre cual archivo de sonido reproducir.
Desafortunadamente, estos sistemas también tienen desventajas. Los archivos grandes o aquellos que tienen capas anidadas múltiples transforman el sistema en un sistema de respuesta de voz automatizada gigante, en el cual es difícil navegar y frecuentemente muy frustrante. Comúnmente solo se reproduce texto al usuario. Los gráficos, música, imágenes y sistemas de navegación como aquellos de los sitios web no se reproducen. Además, algunas de las voces metálicas de la voz generada por la computadora no convierten el significado con la inflexión que una persona les da, y es tedioso escucharla, especialmente para volúmenes de información importantes .
BREVE DESCRIPCIÓN Los métodos y sistemas consistentes con la presente invención, proporcionados para la creación de archivo de sonido a partir de archivos creados originalmente para verlos (por ejemplo, por usuarios videntes) . Los archivos creados originalmente para usuarios videntes principalmente se mencionan en la presente como archivos originales. Una recolección organizada de archivos originales se menciona en la presente como un sitio web original. Un sistema de jerarquía y navegación se puede asignar a los archivos de audio con base en un diseño del sitio web original, proporcionados para acceder a y navegar en el archivo de sonido en una forma que imita la navegación del sitio web original.
En diversas modalidades la presente invención proporciona los sistemas y métodos para distribuir el contenido de sonido. Las selecciones de contenido original (por ejemplo, páginas Web, consultas de búsqueda, etc.) que el usuario quiere que sean convertidas a contenido de sonido son recibidas y se realiza esa conversión. Los identificadores están asociados con el contenido original y el contenido de sonido. El identificador y el contenido de sonido asociado se almacenan después en un dispositivo de la red para que tenga acceso uno o más usuarios que indiquen su deseo de acceder al contenido original en la forma de contenido de sonido.
BREVE DESCRIPCIÓN DE LOS DIBUJOS Los dibujos acompañantes, los cuales se incorporan en y constituyen una parte de esta especificación, muestran una forma de poner en práctica los métodos y sistemas consistentes con la presente invención y, junto con la descripción, sirven para explicar las ventajas y principios consistentes con la invención. En los dibujos, La FIG. 1 muestra un sistema de conexión en red adecuado para utilizarse junto con las modalidades de la presente invención; La FIG. 2 muestra una red de computación ejemplar como puede estar asociada con el sistema de conexión en red que se muestra en la FIG. 1; La FIG. 3 muestra una página de inicio ejemplar de un sitio web original; La FIG. 4 muestra una jerarquía ejemplar de páginas en un sitio web; La FIG. 5 muestra un arreglo de navegación del teclado consistente con las modalidades de la presente invención; La FIG. 6 muestra una interacción entre componentes de un sistema de computación y las redes consistente con las modalidades de la presente invención; La FIG. 7 muestra un método para convertir una fuente XML a voz consistente con una modalidad de la presente invención; La FIG. 8 muestra un método para la conversión habilitada por las personas de un sitio web a voz consistente con una modalidad de la presente invención; La FIG. 9 muestra un método para convertir un sitio web publicado a voz consistente con una modalidad de la presente invención; La FIG. 10 muestra un método para proporcionar una descripción de sonido de una foto basada en la web consistente con una modalidad de la presente invención; La FIG. 11 muestra un método para convertir formas interactivas publicadas a voz consistente con una modalidad de la presente invención; La FIG. 12 muestra un método para indexar podcasts (mensajes electrónicos) consistente con una modalidad de la presente invención; La FIG. 13 muestra un reproductor de medios ejemplar consistente con una modalidad de la presente invención; y La FIG. 14 muestra un sistema de computación que se puede configurar para realizar los métodos consistentes con la presente invención; La FIG. 15 muestra una representación gráfica de un entorno de comunicaciones de acuerdo con una modalidad de la presente invención; La FIG. 16 es una representación gráfica del entorno de un usuario de acuerdo con una modalidad de la presente invención; La FIG. 17 es una representación gráfica de un sistema de computación de acuerdo con una modalidad de la presente invención; La FIG. 18 es un diagrama de flujo de un proceso para realizar la conversión de sonido de contenido original de acuerdo con una modalidad de la presente invención; La FIG. 19 es un diagrama de flujo de un proceso para realizar la conversión de sonido del contenido original de acuerdo con una modalidad de la presente invención; y La FIG. 20 es una representación gráfica de una interfaz de sonido del usuario de acuerdo con una modalidad de la presente invención.
DESCRIPCIÓN DETALLADA Los métodos y sistemas consistentes con la presente invención crean archivos de sonido a partir de archivos creados originalmente para usuarios videntes. Los archivos creados originalmente para usuarios videntes principalmente se mencionan en la presente como archivos originales. Una colección organizada de archivos originales se menciona en la presente como un sitio web original. De este modo, una jerarquía y sistema de navegación se pueden asignar a los archivos de sonido con base en el diseño del sitio web original, proporcionando acceso a y navegación de los archivos de sonido .
Se puede acceder a los archivos de sonido a través de la computadora del usuario. Se puede incluir un indicador en un archivo original que reproducirá un tono audible u otro sonido después de abrir el archivo, indicando con esto a un usuario que se puede acceder al archivo de forma audible. Después de escuchar el sonido, el usuario indica a la computadora que abra el archivo de sonido. El contenido del archivo de sonido se reproduce a través de una interfaz de sonido, la cual se puede incorporar en la computadora del usuario o un dispositivo independiente.
El usuario puede navegar en los archivos de sonido utilizando navegación mediante el teclado a través de un portal de navegación. Diferente a los sistemas de teléfono táctil que necesitan un dispositivo de entrada de sonido, las modalidades consistentes con la presente invención pueden utilizar navegación átona. En una modalidad consistente con la presente invención, el usuario puede utilizar comandos de voz que son detectados por el portal de navegación para la navegación. En aún otra modalidad, el usuario acciona una pantalla táctil para la navegación. El portal de navegación se puede poner en práctica en un sistema de computación, pero también se puede poner en práctica en un teléfono, televisión, asistente digital personal, u otro dispositivo comparable.
Ahora se hará referencia en detalle a una forma de ponerla en práctica consistente con la presente invención como se muestra en los dibujos acompañantes.
Una modalidad consistente con la presente invención se puede aplicar a las páginas web originales hospedadas en computadoras a distancia de una red de computación global, por ejemplo, la Internet. La FIG. 1 muestra una pluralidad de computadoras de usuarios, indicadas como usuarioi ... usuariox, comunicándose entre sí a través de computadoras a distancia conectadas en red juntas. Otra modalidad consistente con la presente invención se puede utilizar para redes de computación más pequeñas, como pueden ser redes de área local o de área amplia. La FIG. 2 muestra esa red, donde una pluralidad de computadoras de usuarios, 21, 22, 23 y 24 se comunican a través de un servidor 25. En este ejemplo, cada computadora de usuario puede tener una interfaz de sonido independiente 26 para reproducir los archivos de sonido. De forma alternativa, la interfaz de sonido se puede incorporar en las computadoras de los usuarios .
En una modalidad consistente con la presente invención, los archivos de sonido se pueden crear convirtiendo texto, imágenes, sonido y otro rico contenido de medios de los archivos originales en archivos de sonido a través de un proceso de análisis del sitio. En esta modalidad, una persona lee el texto del archivo original y la voz es grabada. La persona también describe el contenido del archivo que no es texto y las opciones de navegación del archivo en voz alta y esta voz se graba. El contenido que no es voz, como puede ser música o efectos de sonido, también se graban, y estos diversos componentes de sonido se colocan en uno o más archivos. Cualquier tipo de contenido, como puede ser pero no limitado a FLASH, HTML, XML, . E , JAVA, o video por Internet, se pueden describir de forma audible en palabras, música u otros sonidos, y se pueden incorporar en los archivos de sonido. Una jerarquía se asigna a cada archivo de sonido con base en el diseño del archivo de computación original de modo que cuando el archivo de sonido se reproduce a través de una interfaz de sonido, el sonido es emitido. El usuario puede escuchar todo o parte del contenido del archivo y puede navegar dentro del archivo respondiendo a las indicaciones de navegación audibles .
En esta modalidad, un sitio web original se convierte en un sitio web audible. Cada archivo, o página, del sitio web original se convierte en un archivo de sonido separado, o una página de sonido. La colección de archivos de sonido asociados puede encontrarse en una computadora o servidor a distancia. Por ejemplo, la FIG. 3 muestra la página de inicio 30 de un sitio web original. Una persona lee en voz alta el contenido del texto 31 de la página de inicio 30 y la voz se graba en un archivo de sonido. La persona dice en voz alta las opciones del menú 32, 33, 34, 35, 36 las cuales son " LOG IN (REGISTRO)", "PRODUCTS (PRODUCTOS)", "SHOWCASE (ESCAPARATE)", "WHAT'S NEW (NOVEDADES)", y "ABOUT US (CONÓCENOS)", respectivamente, que están visibles en el sitio web original. Esta voz también se graba.
De igual forma, una persona lee en voz alta el contenido del texto y las opciones del menú de otros archivos en el sitio web original y la voz se graba en archivos de sonido. En este ejemplo, la tecla 1 se asigna a la opción del menú 32, LOG IN; la tecla 2 se asigna a la opción del menú 33, PRODUCTS; la tecla 3 se asigna a la opción del menú 34, SHOWCASE; la tecla 4 se asigna a la opción del menú 35, WHAT'S NEW; la tecla 5 se asigna a la opción del menú 36, ABOUT US. Otros componentes visuales del sitio web original también se pueden describir en el discurso, como pueden ser imágenes o colores del sitio web, y se graban en uno o más archivos de sonido . Los componentes no visuales también se pueden grabar en los archivos de sonido, como puede ser música o efectos de sonido.
La FIG. 4 muestra una jerarquía ejemplar de los archivos originales que forman el sitio web original 40. La opción del menú 32 conducirá al usuario al archivo 42, el cual a su vez conducirá a los archivos 42i . . . v. La opción del menú 33 conducirá al usuario al archivo 43, el cual a su vez conducirá a los archivos 43i . . iii. La opción del menú 34 conducirá al usuario al archivo 44, el cual a su vez conducirá a los archivos 44i . . . iv, de igual forma para todos los archivos originales del sitio web original. La colección de archivos de sonido seguirá una jerarquía considerablemente similar a la que se muestra en la FIG. 4 para formar un sitio web audible que se describe de forma audible.
En una modalidad consistente con la presente invención, el texto se ingresa en un sistema de manejo de contenido (CMS) y automáticamente se convierte a voz. Después de la adquisición del texto, un motor de texto a voz de tercera parte, como puede ser ATyT Natural Voices o Microsoft Reader, se invoca y es creado un archivo de sonido, como puede ser un archivo .wav, o archivo .mp3. El archivo de sonido se puede codificar de acuerdo con una especificación común, como puede ser una tasa de muestreo común. Una vez codificado, el archivo de sonido se descarga a una Red de Entrega de Contenido (CDN) y se establece una vía URL para el acceso al contenido. La vía URL del contenido de sonido se asocia con un valor de navegación en una base de datos de navegación. Durante la exploración, una selección del usuario que tiene un valor de navegación se mapea a un URL de contenido de sonido utilizando la base de datos de navegación. El contenido de sonido después se adquiere y reproduce en el sistema del cliente.
En otra modalidad consistente con la presente invención, fuentes sindicadas del sitio web se leen y los documentos de información estructurada se convierten en sitios web habilitados con sonido. En un ejemplo, las fuentes sindicadas del sitio web son una Sindicación Realmente Simple (RSS) y el documento de información de la estructura es un archivo XML. Un RSS URL se ingresa primero en el CMS. Un RSS de lógica de raspado (scraping) se ingresa en el sistema de manejo de contenido y tras el programa predefinido, se invoca un motor de creación de contenido RSS . El motor de creación de contenido RSS extrae los títulos, descripciones, y orden del contenido a partir de la fuente que sigue a la estructura RSS proporcionada a partir de la fuente. La vía URL al contenido de la historia se despliega hacia un motor de raspado y el texto se extrae utilizando la lógica de raspado. El contenido se filtra después para separar todo el formateo y texto y código no contextual .
Una conversión de texto a voz se completa para arabos títulos y el contenido de la historia principal. Los títulos y contenido convertidos, ahora en un formato de sonido como puede ser un archivo .wav, se descargan a un CDN y se establece una vía URL para acceder al contenido. La vía URL del contenido de sonido está asociada con un valor de navegación en una base de datos de navegación. Durante la exploración, una selección del usuario con un valor de navegación se mapea a un URL con contenido de sonido utilizando la base de datos de navegación. El contenido de sonido se adquiere después y se reproduce en el sistema del cliente. A través de la integración XML, el contenido se despliega en texto dentro de un reproductor de medios y cuando se selecciona utilizando el teclado o dando clic, el archivo se reproduce sobre el sitio web.
La estructura de una muestra de un archivo de fuente RSS se da a continuación: <?xml version="l .0" encoding= "UTF-8 " ?> <rss version= " 2.0 " xmlns :blogChannel= "htt : / /backend. userland. com/blogChanne lModule"> <channel> <title> </title> <link> </link> <description/> <language> </language> <copyright> </copyright> <generator>XML : :RSS<generator> <ttl><ttl> <image> <title> </title> <url> </url> <link> </link> </image> <item> <title> </title> <link> </link> <description> description> <category> </category> <guid isPermaLink=" false"> </guid> <pubDate> </pubDate> </item> </channel> <rss> Observe que un archivo de fuente puede tener múltiples etiquetas <item>. Cada etiqueta <item> tiene etiquetas hijo que proporcionan información acerca del ítem. La etiqueta <title> es la etiqueta que el sistema lee y utiliza cuando intenta determinar si un item ha cambiado desde la última vez que se tuvo acceso. Un usuario que crea o edita los menús puede tener la opción de seleccionar RSS como uno de los tipos de contenido. La secuencia de eventos que eventualmente conducirán a la creación del contenido del menú si el usuario elige RSS como un tipo de contenido son como sigue: creación del Menú; Lectura; Raspado; Filtración; generación de sonido; y generación de XML.
El Menú Nombre, Lugar de Fuente y los campos de las Opciones Avanzadas están disponibles si la opción de Fuente de RSS se selecciona en el campo tipo de Contenido. Dando clic a un botón Explorar en el campo Sonido del Menú nombre puede enviar un cuadro de dialogo para permitir al usuario seleccionar un archivo de sonido. Dando clic a un botón Guardar guardará los detalles del nuevo menú en el sistema. El nuevo menú se formará en la cola de espera para generar el sonido para los item respectivos. El sistema corre una aplicación del programador que inicia la conversión TTS para los menús . Este programador también puede iniciar la descarga del archivo fuente. Después de esto, el control se moverá al Motor de lectura. Dando clic a un botón Cancelar saldrá de la página. La aplicación del programador y motor de lectura se describen más adelante.
En una modalidad consistente con la presente invención, un portal de navegación puede tener un teclado con al menos dieciocho teclas. Como se muestra en la FIG. 5, las teclas pueden incluir diez teclas numeradas de opciones del menú, cuatro teclas de flechas de dirección, una barra espadadora, una tecla Inicio, y dos teclas para ajustar el volumen. Las teclas de volumen pueden ser las teclas de corchete izquierda y derecha. El sistema de navegación puede ser estándar a través de todos los sitios web participantes y las teclas pueden funcionar como sigue: las teclas numeradas del 1 al 9 seleccionan las opciones asociadas del menú 51; la tecla numerada O selecciona ayuda 52; la flecha hacia arriba selecciona navegación de avance 53; la flecha hacia abajo selecciona navegación de retroceso 54; la tecla de la flecha hacia la derecha selecciona la siguiente opción del menú 55; la tecla de la flecha hacia la izquierda selecciona la opción anterior del menú 56 la barra espadadora repite la pista de sonido 57; la tecla Inicio selecciona el menú principal 58; la tecla del paréntesis derecho aumenta el volumen del sitio web audible 59; la tecla del paréntesis izquierdo disminuye el volumen del sitio web audible 60.
Las teclas se pueden arreglar en agrupaciones como se muestra en la FIG. 5, utilizando un diseño de teclado numérico de 10 teclas, o utilizando diseños alternativos como puede ser un teclado similar al de una máquina de escribir o diseño de teclado numérico de teléfono. Otros tipos de dispositivos se pueden utilizar para darle instrucciones de navegación a la computadora. Por ejemplo, para usuarios que no tienen destreza, pueden utilizar un interruptor de mentón o un tubo de inhalación y exhalación en lugar de un teclado para navegar los sitios web audibles.
La FIG. 6 muestra una interacción entre los componentes de una modalidad consistente con la presente invención. La aplicación web 601 proporciona un portal con base en la web a través del cual los usuarios pueden interactuar con los sistemas consistentes con la presente invención. Cargar archivos de sonido, archivos de datos XML y fuentes RSS se proporcionan al servidor 603 a través de la aplicación web 601. El servidor 603 tiene un motor de lectura 605 para leer las fuentes RSS, una aplicación del programador 607 para programar la lectura de las fuentes RSS, un motor de raspado 609 para el raspado de XML y el código fuente de la página web, un motor de filtrado para filtrar el contenido raspado, y un motor de texto a voz (TTS) 611 para convertir el contenido de la web a base de texto a contenido de sonido. El servidor 603 proporciona contenido de sonido a la Red de Entrega de Contenido (CDN) 613, que después puede proporcionar el contenido a un usuario a través de la aplicación web 601. El servidor 603 además proporciona archivos de datos XML a una base de datos 617 para almacenamiento y recuperación.
El motor de lectura 605 es invocado a intervalos regulares por la aplicación del programador 607 en el servidor 603. Descarga el archivo fuente y lo analiza para ensamblar una lista de los item sindicados a partir de la fuente URI especificada. La primera vez que el archivo fuente es descargado a partir de su URI, el motor de lectura 605 lo inspecciona y prepara una lista de ítems en el archivo. Estos items son creados como submenús debajo del menú para el cual se especifica la fuente URI (de aquí en adelante, el "menú base") .
Si este archivo se ha leído y analizado anteriormente, cada item (es decir, el contenido de la etiqueta <item>) se compara con el submenú en la posición respectiva debajo del menú base. Si los títulos no coinciden, el sistema puede suponer que el item ha cambiado y marcará el nuevo ítem, como un candidato para raspado y el ítem existente se eliminará. En una modalidad, los items se comparan como éste uno a la vez. Una vez que los items han sido comparados, este motor transfiere el control al motor de raspado 609 .
El motor de raspado 609 acepta la lista de items marcados para ser raspados por el motor de lectura 605 . El lee uno a la vez, los enlaces reales (los URL) a las páginas de contenido para estos ítems y realiza una búsqueda real del contenido de esas páginas. Este contenido se puede adquirir "como está" a partir de las páginas. Este contenido se transfiere al motor de filtrado 615. El contenido transferido por el motor de raspado 609 puede ser contenido HTML en bruto. El contenido HTML en bruto puede contener muchos elementos HTML sin limpiar, scripts, etc. Estos elementos se separan mediante el motor de filtrado 615 para llegar al contenido de texto que puede entender una persona adecuado para almacenarse en el sistema de menú como texto contenido de Menú. El motor de filtrado 615 de este modo produce contenido limpio para almacenarle en los menús del sistema. Este contenido se actualiza después para los menús respectivos en el sistema como texto de contenido. Los menús que se actualizan se vuelven inactivos (si no lo son todavía) y se formarán en la cola de espera para la generación de contenido de sonido.
El sonido es generado por el contenido actualizado en los menús que han sido actualizados por las fuentes RSS en la secuencia de generación de sonido más cercana ejecutada por el motor TTS 611. Por último los archivos de Datos XML se pueden generar/actualizar con el nombre del nuevo menú, nombre/vías de contenido y archivo de sonido. Estos archivos XML se pueden utilizar mediante una aplicación flash que interactúa con el usuario para desplegar el Menú, Contenido o reproducir el sonido. Se incluye un indicador en un sitio web original que acciona un tono después de que una visita del usuario indica que se puede acceder al sitio web de forma audible. Después de escuchar el tono, un usuario presiona una tecla de su teclado e ingresa al sitio web audible. El sitio web original puede cerrarse o permanecer abierto. El usuario puede entonces navegar en el sitio web audible utilizando un sistema de comandos del teclado. La narración audible se reproduce a través de una interfaz de sonido en la computadora del usuario, describiendo el texto y los menús e indicando que teclas presionar para escuchar los otros archivos de sonido en la web con el sitio web audible. De esta manera los usuarios pueden navegar en los menús del sitio web, adelantando y regresando el contenido, y moviéndose de un sitio web a otro sin indicaciones visuales.
La FIG. 7 es un diagrama de flujo que muestra un método para convertir una fuente XML a voz consistente con una modalidad de la presente invención. Una fuente RSS XML se ingresa en una aplicación web (paso 710). La vía XML/RSS es leída por un sistema de manejo de contenido y el contenido del texto se extrae a partir de la fuente, se indexa en los menús , y se asocia con un URL con contenido basado en la web (paso 720) . Para cada ítem del menú creado, los servidores crean una asociación con una página web y una lógica de raspado que proporciona coordinados para la extracción del texto del código fuente, extraer el texto, filtrar el texto para separar las referencias del código fuente, y después enviar el texto filtrado al motor TTS (paso 730) . El motor TTS es invocado después y crea un archivo de sonido que es transferido al CDN, y los datos XML para la aplicación web se almacenan como un nodo en la base de datos (paso 740) .
La FIG. 8 es un diagrama de flujo que muestra un método para la conversión habilitada por personas de un sitio web a voz consistente con una modalidad de la presente invención. Primero, se graba la voz de una persona a partir de cualquier dispositivo digital o aplicación de escritorio (paso 810) . Un usuario carga después el menú y los archivos de contenido a través de un panel de administración, y el contenido se convierte a un formato de archivo .mp3, indexado y asociado con el contenido de la base de datos propuesta y nodos del menú (paso 820) . Una persona con experiencia en la técnica reconocerá que el contenido se puede convertir a cualquier formato de archivo de sonido existente o desarrollado en el futuro. El contenido resultante se entrega al CDN para entregarlo a otros usuarios, a la base de datos como un URL y etiqueta a base de texto, y a la aplicación web como los datos XML para navegación (paso 830 ) .
La FIG. 9 es un diagrama de flujo que muestra un método para convertir un sitio web publicado a voz consistente con una modalidad de la presente invención. El contenido del sitio web es descargado a través de un explorador en un programa preestablecido (paso 910 ) . El código fuente es leído por un sistema de manejo de contenido y el contenido del texto se extrae a partir del código fuente, se indexa hacia los menús, y se asocia con un URL con contenido en base a la web (paso 920 ) . Para cada item del menú creado, los servidores crean una asociación con una página web y una lógica de raspado que se proporciona para la extracción del texto del código fuente, extraer el texto, filtrar el texto para separar las referencias del código fuente, y después enviar el texto filtrado al motor TTS (paso 930 ) . El motor TTS es invocado después y crea un archivo de sonido que es transferido al CDN, y los datos XML para la aplicación web se almacenan como un nodo en la base de datos (paso 940 ) .
La FIG. 10 es un diagrama de flujo que muestra un método para proporcionar una descripción de sonido de una foto basada en la web consistente con una modalidad de la presente invención. Una foto se guarda en el servidor a través de la aplicación con base en la web (paso 1010) . Una descripción del texto de la foto se carga después a través de la aplicación web (paso 1020) . De forma alternativa, un usuario puede cargar una descripción de voz de la foto a través de la aplicación web. La descripción del texto de la foto se envía después al motor TTS, que crea una descripción audible de la foto y carga la descripción al CDN (paso 1030) .
La FIG. 11 es un diagrama de flujo que muestra un método para convertir las formas interactivas publicadas a voz consistente con una modalidad de la presente invención. Una forma a base del web existente es recreada utilizando los ingresos de texto en la aplicación web (paso 1110) . El texto se envía al motor TTS, el cual crea solicitudes audibles para diversos campos en la forma basada en la web (paso 1120) . Un usuario final accede después a la forma audible e ingresa datos en los campos de acuerdo con las solicitudes de sonido (paso 1130) .
La FIG. 12 es un diagrama de flujo que muestra un método para indexar los podcasts consistente con una modalidad de la presente invención. Un URL para un podcast se ingresa a través de la aplicación web (paso 1210) . La vía URL del podcast es leída por los servidores y los nombres del menú de texto son creados a partir de la fuente, indexados en los menús , y asociados con el URL del contenido (paso 1220) . El motor TTS se invoca y el contenido del ítem del menú se convierte a un menú de contenido audible (paso 1230) . El menú de contenido audible después es entregado al CDN y el XML es creado para apuntar al podcast de la aplicación web (paso 1240) .
La FIG. 13 muestra un ejemplo de un reproductor de medios consistente con una modalidad de la presente invención. Un reproductor de medios consistente con una modalidad de la presente invención se describe ahora. En cualquier punto el usuario final tiene la opción de presionar 'Inicio' para regresar al menú principal, '#' para el menú ayuda, ' N' para la vista de lo que se está reproduciendo ahora, 'S' para Buscar, 'P' para las preferencias del menú. N reproduciéndose ahora es la pestaña seleccionada, la cual presenta el control de volumen, controles de reproducción (reproducir está resaltado en naranja (#FF8737) debido a que esta muestra de la vista supone que una pista de sonido se está reproduciendo. Si no está reproduciendo se puede presentar un botón de pausa resaltado. De igual forma, si las teclas de flechas son— 'derecha, izquierda, arriba, abajo'— o los controles de sonido— '[?']'- están presionados, se intenta que el botón esté resaltado en naranja.) A la derecha de estos controles puede estar el área de Estado del Reproductor, el cual presenta los metadatos para el archivo de sonido. Si está reproduciendo, se presenta 'Reproduciendo'. Otros estados de reproducción pueden incluir 'Descarga lenta de medios (Buffering) ' , 'Pausado', 'Detenido'. El reproductor también puede presentar la tasa de bits en la cual se está reproduciendo la pista de sonido (si es posible) . Siguiente, presenta el Nombre del Título de la Pista (éste únicamente presenta un # determinado de caracteres y si el título de la pista es más grande que el # máximo de caracteres, el título se debe truncar y estar seguido por tres puntos ('...'). Debajo de esto un lector puede ver una barra de navegación que presenta el valor 0—100 de la pista de sonido que se está reproduciendo. Por último, un lector puede ver el tiempo de reproducción de la pista actual y el tiempo total de presentación de la pista de sonido. El botón Esc (el cual, nuevamente, estará resaltado si se presiona) se proporciona para permitir al usuario salir del reproductor y regresar al sitio web normal.
Debajo de la pestaña N que ahora se está reproduciendo, puede haber Navegar mediante el Centro de Mensajes de Sonido, el cual proporciona indicaciones de texto simples. También, si el usuario final tiene encendido Subtítulos, esto es donde se desplegará el texto que se está leyendo. A la derecha del centro de mensajes pueden estar las elecciones de navegación En un área gris de la selección nav, puede haber ' /más info de navegación ([número] de opciones)' texto. Esto ayuda al usuario a seguir la vía de su navegación. Por ejemplo si en una página de inicio con 6 opciones del menú, éstas se desplegarán ' (/Inicio (6 opciones) ' . Además si un usuario final elige la 5a opción del menú (por ejemplo Noticias y Eventos) la cual, quizá tenga 12 opciones del menú, la lista de navegación se actualizaría y el área de texto ahora desplegaría '/Noticias y Eventos (12 opciones) '. Si hay 12 opciones del menú, el texto 'más selecciones»' aparecería frecuentemente y el usuario final tendría la opción de ver cuáles son esas opciones dando clic en el botón (el cual, nuevamente, resaltaría el botón en naranja) . Del mismo modo, si hubiera más de 10 opciones para cualquier menú determinado, la lista de navegación automáticamente puede avanzar y desplegar 6-10 en la caja de nav en la izquierda, 11-15 en la derecha, etcétera) .
La vista búsqueda supone que el usuario final presiona S desde dentro de la vista predeterminada (véase lo anterior) . Antes de buscar, el menú sonido puede permitir al usuario final elegir si quiere buscar el sitio actual en el que está o un Portal para Navegar en Internet por Sonido, lo cual, si se selecciona, dirigiría al usuario al portal para navegar en internet por sonido. Una vez que se selecciona, automáticamente se les indicaría que empiecen a teclear su solicitud de búsqueda. Si la Reproducción de Sonido por Teclado está encendida, un lector puede escuchar los golpes de sus teclas. También, un lector puede ver que el Centro de Mensajes despliega la descripción del texto de ayuda de lo que está haciendo (es decir coincide con el texto general que está leyendo) . Y el texto '/búsqueda (2 opciones) ' se despliega debido a que está en la pestaña de búsqueda y hay 2 opciones para elegir. Por último, presionar ?' (la cual activará el resaltado naranja) dentro del Menú de Búsqueda o Preferencias saldrá del menú y regresará a la vista predeterminada.
La vista preferencias supone que el usuario presiona P desde dentro de la vista predeterminada. Primero, esta pestaña despliega el Ancho de banda de la máquina del usuario, esta es una prueba generada automáticamente que se realiza cuando el reproductor se abre por primera vez. Desde dentro de esta vista el Centro de Mensajes se actualiza con información que pertenece al proceso general que está siendo descrito a través del sonido y las opciones de nav coinciden con las opciones desde dentro de esta pestaña de preferencias. La primera opción es Encender o Apagar 'Subtítulos'. Si se encienden, el reproductor de medios despliega el texto que se lee en el cuadro de presentación del Centro de Mensajes. Las otras opciones dentro de esta pestaña encenderían o apagarían 'Modo Lectura de la Pantalla ' , Presionar tecla de sonido', y Modo Amplificar'. Por último, también le puede dar al usuario la opción de desplegar la vista predeterminada o 'Reproducir Únicamente'. La pantalla 'Reproducir Únicamente' eliminaría (ocultaría) el Centro de Mensajes y las cajas de opciones de navegación.
Una modalidad consistente con la presente invención puede tener un panel de control para permitir que el administrador maneje sitios de terceras partes. El usuario puede acceder a un MANEJO de enlaces de SITIOS DE TERCERAS PARTES en el panel de administración debajo del menú Manejo del Sitio. El administrador puede clasificar la rejilla en Nombre Sitio, Contacto Sitio y Fecha creación. Dando clic a Nombre Sitio puede mover el control a la sección de manejo de menú para un sitio particular de tercera parte. El control se mueve al MANEJO DE LOS MENÚS DE TERCERA PARTE. Dando clic a un sitio URL puede traer la Página de Inicio del sitio en una ventana del explorador. Esta página puede desplegar un reproductor de medios para el sitio de tercera parte. Dando clic en un icono puede mover el control para CREAR SITIO DE TERCERA PARTE. Los campos con prefijo "*" son los campos requeridos . El nombre del usuario y correo electrónico debe ser único en el sistema. Dando clic en el botón Crear crea la nueva cuenta. Un correo electrónico se puede enviar a la cuenta del administrador. El control se mueve entonces a la página anterior. Dando clic en el botón Cancelar incondicionalmente sale de la página. Dando clic en el botón Retroceder mueve el control a la página anterior.
Volviendo ahora a la FIG. 14, un sistema de computación ejemplar que se puede configurar como un sistema de computación para ejecutar los métodos que se describe anteriormente como consistentes con la presente invención se describe ahora. El sistema de computación 1401 tiene un bus 1403 u otro mecanismo de comunicación para comunicar información, y un procesador 1405 acoplado con el bus 1403 para procesar la información. El sistema de computación 1401 también tiene una memoria principal 1407, como puede ser una memoria de acceso aleatorio (RAM) u otro dispositivo de almacenamiento dinámico, acoplado al bus 1403 para almacenar información y las instrucciones que van a ser ejecutadas por el procesador 1405. Además, la memoria principal 1407 se puede utilizar para almacenar variables temporales u otra información intermedia durante la ejecución de instrucciones que van a ser ejecutadas por el procesador 1405. El sistema de computación 1401 además tiene una memoria de solo lectura (ROM) 1409 u otro dispositivo de almacenamiento estático acoplado al bus 1403 para almacenar información estática e instrucciones para el procesador 1405. Se proporciona un dispositivo de almacenamiento 1411, como puede ser un disco magnético o un disco óptico, acoplado al bus 1403 para almacenar información e instrucciones.
De acuerdo con una modalidad, el procesador 1405 ejecuta una o más secuencias de una o más instrucciones contenidas en la memoria principal 1407. Esas instrucciones se pueden leer en la memoria principal 1407 desde otro medio legible por la computadora, como puede ser el dispositivo de almacenamiento 1411. La ejecución de las secuencias de instrucciones en la memoria principal 1407 ocasiona que el procesador 1405 realice los pasos del proceso descritos en la presente. Uno o más procesadores en un arreglo de multiprocesamiento también se pueden emplear para ejecutar las secuencias de instrucciones contenidas en la memoria principal 1407. En las modalidades alternativas, la circuitería alámbrica se puede utilizar en lugar de o en combinación con las instrucciones del software. De este modo, las modalidades no están limitadas a ninguna combinación específica de circuitería de hardware y software.
Además, las instrucciones para soportar las interfaces del sistema y protocolos del sistema 1401 se pueden encontrar en un medio legible por la computadora. El término "medio legible por la computadora" como se utiliza en la presente se refiere a cualquier medio que participe en proporcionar instrucciones al procesador 1405 para su ejecución. Las formas comunes de medios legibles por la computadora incluyen, por ejemplo, un disco flotante, un disco flexible, un disco duro, cinta magnética, un CD-ROM, un medio magnético, óptico o físico, una RAM, una PROM, y EPROM, una FLASH-EPROM, cualquier otro chip o cartucho de memoria, o cualquier otro medio del cual una computadora pueda leer, ya sea actual o que se descubra posteriormente.
El sistema de computación 1401 también tiene una interfaz de comunicación 1419 acoplada al bus 1403. La interfaz de comunicación 1419 proporciona un acoplamiento de comunicación de datos de dos vías a un enlace de red 1421 que está conectado a una red local 1423. Los enlaces inalámbricos también se pueden poner en práctica. En cualquiera de esas implementaciones, la interfaz de comunicación 1419 envía y recibe señales que portan corrientes de datos digitales que representan diversos tipos de información. Las modalidades que se ilustran se pueden utilizar a través de un número de plataformas de computación y comunicaciones . Es importante observar que los archivos de sonido pueden ser útiles para cualquier número de usuarios o consumidores y no están enfocados a un grupo particular, tipo de discapacidad o usuario aplicable. En particular, las modalidades que se muestran pueden ser útiles a través de redes alámbricas e inalámbricas, así como dispositivo en red o independientes.
Volviendo ahora a la FIG. 15 muestra un entorno de comunicaciones 1500 de acuerdo con una modalidad que se muestra. El entorno de comunicaciones 1500 tiene cualquier número de redes, dispositivos, sistemas, equipo, aplicaciones de software, e instrucciones que se pueden utilizar tanto para generar, reproducir, y manejar contenido de sonido. En una modalidad, el entorno de comunicaciones 1500 tiene numerosas redes. Por ejemplo, el entorno de comunicaciones 1500 puede tener una red en la nube 1502, una red privada 1504, y una red pública 1506. Las redes en la nube son bien conocidas en la técnica y pueden tener cualquier número de componentes de hardware y software.
Además, a la red en la nube 1502 se puede acceder en cualquier número de formas. Por ejemplo, la red en la nube 1502 puede tener un sistema de manejo de comunicaciones 1508, los servidores 1510 y 1512, bases de datos 1514 y 1516, y seguridad 1518. Los componentes de la red en la nube 1502 representan componentes múltiples que se pueden utilizar para manejar y distribuir contenido original y archivos de sonido a cualquier número de usuarios, sistemas, u otras redes. Por ejemplo, los servidores 1510 y 1512 pueden representar una o más redes distribuidas y del mismo modo las bases de datos 1514 y 1516 pueden representar sistemas de bases de datos distintos o integrados y depósitos para almacenar cualquier tipo de archivos, datos, información, u otros contenidos que se pueden distribuir y manejar mediante la red en la nube 1502. Además, a la red en la nube 1502 se puede acceder directamente por cualquier número de dispositivos alámbricos e inalámbricos.
La seguridad 1518 puede representar cualquier número de constructos de hardware o software que aseguran la red en la nube. En particular, La seguridad 1518 puede asegurar que los usuarios están autorizados para acceder al contenido o se comunican a través de la red en la nube 1502. La seguridad 1518 puede tener cualquier número de firewalls (cortafuegos) , software, suites de seguridad, sistemas de acceso remoto, estándares y protocolos en la red, y túneles en la red para asegurar que la red en la nube 1502 así como o además de las comunicaciones entre los dispositivos del entorno de comunicaciones y la red en la nube 1502 son seguros.
Los dispositivos del entorno de comunicaciones 1500 son representativos de cualquier número de dispositivos, sistemas, equipo, o software que se pueda comunicar con o a través de la red en la nube 1502, la red privada 1504, y la red pública 1506. Las formas de desarrollo de dispositivos de hardware y software también se pueden comunicar con estas redes como se necesite para acceder y manejar archivos de sonido y otro contenido de sonido. En una modalidad, la red en la nube 1502 se puede comunicar con una caja sobre el aparato 1518, una pantalla 1520, una tableta 1522, dispositivos inalámbricos 1524 y 1526, una laptop 1528, una computadora 1530, y un sistema de posicionamiento global (GPS) 1531. Una tableta 1536 es representativa de cualquier número de dispositivos que pueden acceder a la red privada 1504.
Una interfaz de usuario de sonido 1532 puede ser utilizada por la computadora 1530 o cualquier dispositivo en comunicación con la red en la nube 1502 para permitir la interacción del usuario, retroalimentación e instrucciones para manejar, generar y recuperar contenido de sonido como se describe en la presente. El dispositivo independiente 1534 representa un dispositivo que se puede desconectar de todas las redes de comunicaciones para conectar a elección a una red con base en las necesidades o selecciones de un usuario. Los componentes del entorno de comunicaciones 1500 junto o de forma separada también pueden funcionar como una red distribuida o de igual a igual para almacenar archivos de sonido, índices de los archivos de sonido, y apuntadores, enlaces, o identificadores para los archivos de sonido (y archivos originales correspondientes como se necesite) .
La red privada 1504 representa una o más redes propiedad de u operadas por entidades privadas, corporaciones, individuos, gobierno o grupos a la que no puede acceder totalmente el público. Por ejemplo, la red privada 1504 puede representar una red gubernamental que puede distribuir contenido selectivo para los usuarios como puede ser la red privada de un congresista, senador u oficina del gobernador del estado. La red privada 1504 de forma alternativa puede ser una red corporativa que se esfuerza para cumplir con las leyes y regulaciones aplicables en relación con el contenido que está disponible para los empleados, clientes, y consumidores. Por ejemplo, los requerimientos federales pueden estipular que la información general del empleado esté disponible de forma audible así como textualmente.
La red pública 1506 representa cualquier número de redes generalmente dedicadas o disponibles al público, como puede ser la Internet como un todo. Como se sabe en la técnica, la red pública 1506 puede ser accesible a cualquier número de dispositivos, como puede ser una computadora 1538 . El entorno de comunicaciones 1500 muestra cómo se pueden recuperar los archivos originales para la conversión a archivos de sonido y distribuirse a través de cualquier número de redes y sistemas para los usuarios que necesitan o pueden utilizar los archivos de sonido.
En una modalidad, los dispositivos pueden intercambiar contenido a través de una red Local . En una modalidad, el contenido de sonido se puede generar o convertir utilizando la laptop 1528 y después de forma subsiguiente distribuirse al dispositivo inalámbrico 1524, GPS 1531, y computadora 1530. De forma alternativa, el usuario puede distribuir el contenido original para la conversión a contenido de sonido utilizando una red de amigos o familiares que desean grabar el contenido de sonido. Como resultado, la generación de contenido de sonido se puede beneficiar de los mismos sistemas y redes sociales disponibles para los usuarios que se comunican a través de contenido textual y gráfico.
En un ejemplo, un usuario puede enviar una solicitud para que el contenido sea transcrito y descrito automáticamente o por un miembro de la familia, amigo, transcriptor pagado, u otra parte. Siguiente, un voluntario o la parte seleccionada recupera el contenido seleccionando un enlace, abriendo un archivo, o de otro modo accediendo al contenido . El contenido se transcribe después en contenido de sonido como se describe en la presente para que sea utilizado por el usuario. El contenido audible después se puede distribuir a través de la red social para el beneficio de cualquier número de usuarios utilizando características como puede ser compartir, me gusta, enviar, comunicarse, o algunos otros. En un ejemplo, una carta familiar puede ser transcrita y compartida de modo que otros miembros de la familia pueden escuchar la carta mientras manejan o lejos de una pantalla visual.
Volviendo ahora a la FIG. 16, que muestra un entorno de un usuario 1600 de acuerdo con una modalidad que se muestra. La FIG. 16 además describe la red pública 1506, la caja sobre el aparato 1518, pantalla 1520 y computadora 1530 como se combina a elección en la FIG. 15. El entorno del usuario 1600 se puede utilizar para enviar y recibir contenido 1602 que representa archivos originales, archivos convertidos, archivos de sonido, u otras comunicaciones comunes del entorno del usuario 1600.
En una modalidad, las modalidades que se muestran se pueden utilizar para distribuir el contenido 1602 que se puede utilizar para sonido, video, o mejores subtítulos para sordos para el contenido de medios distribuidos a la caja sobre el aparato 1618. La caja sobre el aparato 1618 puede representar cualquier número de grabadores de video digital, grabadores de video personal, sistemas de juego, u otras cajas de red que son o se pueden utilizar por usuarios individuales o proveedores de servicios de comunicación para manejar, almacenar y comunicar datos, información y contenido de medios. Además de las aplicaciones de medios conocidas y la funcionalidad, la caja sobre el aparato 1618 también se puede utilizar para explorar la Internet, utilizar las aplicaciones de redes sociales, o de otro modo desplegar texto y contenido gráfico que se puede convertir a contenido de sonido.
En una modalidad, la caja sobre el aparato 1618 se puede utilizar para transmitir el contenido 1602 en tiempo real. El contenido en tiempo real puede tener archivos originales que pueden necesitar convertirse a contenido de sonido para que un usuario pueda acceder. El contenido 1602 se puede desplegar en la pantalla 1520 o cualquier número de otros dispositivos en comunicación con la caja sobre el aparato 1518 o una red local. Por ejemplo, la caja sobre el aparato 1618, computadora 1630 y otros dispositivos de computación y comunicaciones se pueden comunicar entre sí a través de una red local. La red local se puede comunicar con la red pública 1606 a través de una conexión de red como puede ser una conexión de cable, una conexión de fibra óptica, línea DSL, satélite, interfaz o cualquier número de otros vínculos, conexiones o interfaces .
Volviendo ahora a la FIG. 17 que muestra un sistema de computación 1700 de acuerdo con modalidad que se muestra. El sistema de computación 1700 muestra cualquier número de dispositivos comerciales o del usuario del entorno de comunicaciones 1500 de la FIG. 15. El sistema de computación 1700 puede enviar y recibir contenido de la red 1702 que representa archivos originales, contenido de la red recuperado y archivos de sonido que son enviados y recibidos del sistema de computación 1700. El sistema de computación 1700 también se puede comunicar con uno o más sitios web de las redes sociales incluyendo un sitio web de la red social 1704. El sitio web de la red social 1704 representa una o más redes sociales, aplicaciones, o correo electrónico o sitio web de colaboración con el cual se puede comunicar el sistema de computación 1700.
En una modalidad, el contenido de la red 1702 representa resultados de búsqueda y clasificación realizadas por un motor de búsqueda. El contenido de la red 1702 puede ser los resultados de búsqueda y clasificaciones que se convierten en contenido de sonido. Por ejemplo, la conversión automática de texto se puede realizar a medida que los resultados de búsqueda se solicitan. De forma alternativa, las búsquedas populares se pueden convertir y leer diariamente por una persona para la asociación con cada uno de los resultados de búsqueda.
En otra modalidad, el contenido de la red 1702 es un cupón electrónico u oferta promocional, sitio web de venta por internet, o posicionamiento global o información de navegación. Por ejemplo, el generador de contenido puede asociar el contenido de sonido con un cupón electrónico para alcanzar consumidores adicionales . El cupón electrónico se puede distribuir como texto únicamente y a base de gráficos o puede ser agrupado con contenido de sonido para el cupón electrónico. En otro ejemplo, las instrucciones de navegación (es decir instrucciones de mando a partir del punto A al punto B) se pueden convertir a uno o más archivos de sonido asociados con componentes o instrucciones individuales. Los proveedores de medios, proveedores de servicios de comunicación, anunciantes, y otros pueden encontrar que teniendo disponible el contenido de sonido ellos pueden atraer más clientes diversos, consumidores, y partes interesadas .
En una modalidad, la interfaz de sonido 1704 del sistema de computación 300 se puede utilizar para generar contenido de sonido. Un usuario que desea hablar o transcribir porciones de contenido original y asociar los archivos de sonido generados con las porciones seleccionadas del contenido original . En una modalidad, la conversión se puede realizar gráficamente. Por ejemplo, un usuario puede utilizar un ratón y apuntador del ratón para desplazarse sobre las porciones designadas y después puede seleccionar un botón para grabar el contenido de sonido con las porciones designadas. Adicionalmente, los sistemas de navegación e interfaces descritos también se pueden utilizar para generar el contenido de sonido y asociar el contenido de sonido con las porciones correspondientes del contenido original .
El contenido original se puede convertir automáticamente a un formato jerárquico como se describe anteriormente antes de que el usuario asocie el contenido hablado con las porciones designadas del contenido original. De forma alternativa, el usuario puede preparar gráficamente el formato jerárquico antes de realizar la conversión del contenido a contenido de sonido. Cada resultado de la búsqueda puede ser resaltado por un usuario y una vez que está resaltado un comando de voz para grabar o una selección del teclado puede habilitar un micrófono para grabar la voz del usuario del contenido resaltado. En una modalidad, el sistema puede seleccionar o agrupar automáticamente porciones o contenido de un sitio web, resultados de búsquedas, documentos, o archivos para la selección y grabación de la conversión por un usuario.
El sistema de computación 1700 puede tener cualquier número de componentes de hardware y software. En una modalidad, el sistema de computación 1700 tiene un procesador 1706, una memoria 1708, una interfaz de red 1710, lógica de sonido 1712, una interfaz de sonido 1714, preferencias del usuario 1716 y contenido archivado 1718.
El procesador tiene circuitería o lógica habilitada para controlar la ejecución de una serie de instrucciones. El procesador puede ser microprocesadores, procesadores de señal digital, circuitos integrados de aplicaciones especificas (ASIC) , unidades de procesamiento central, u otros dispositivos adecuados para controlar un dispositivo electrónico que tiene uno o más elementos de hardware y software, ejecución de software, instrucciones, programas, y aplicaciones, convertir y procesar señales e información, y realizar otras tareas relacionadas. El procesador puede ser un chip simple o integrado con otros elementos de computación o comunicaciones.
La memoria es un elemento de hardware, dispositivo, o medio de grabación configurado para almacenar datos para la recuperación o acceso subsiguiente en un tiempo posterior. La memoria puede ser memoria estática o dinámica. La memoria puede tener un disco duro, memoria de acceso aleatorio, caché, unidad de medios extraíbles, almacenamiento en masa, o configuración adecuada como almacenamiento para datos, instrucciones, e información. En una modalidad, la memoria y procesador pueden ser integrados. La memoria puede utilizar cualquier tipo de técnicas y medios de almacenamiento volátil o no volátil.
La lógica de sonido 1712 se puede utilizar para realizar las conversiones y manejo de archivos de sonido a partir de archivos originales como se describe en la presente. En una modalidad, la lógica de sonido 1712 tiene una matriz de puertas programable por campo, lógica Booleana, firmware u otras instrucciones que pueden ser actualizadas periódicamente para proporcionar características mejoradas y funcionalidad de generación de contenido de sonido mejorada. Las preferencias del usuario 1716 son los parámetros y selecciones recibidas del usuario para manejar la funcionalidad y acciones de la lógica de sonido 1712 y adicionalmente el sistema de computación 1700.
En una modalidad, las preferencias del usuario 1716 se pueden almacenar en la memoria 1708. El contenido archivado 1718 puede representar contenido de sonido recuperado o generado anteriormente por el sistema de computación 1700. El contenido archivado 1718 puede ser almacenado para ser utilizado de forma subsiguiente por un usuario del sistema de computación 1700 y adicionalmente se puede acceder mediante uno o más dispositivos o sistemas o conexiones que se comunican con el sistema de computación 1700 de modo que el sistema de computación 1700 puede actuar como una parte de una red distribuida. Como resultado, los recursos de la red se pueden compartir entre cualquier número de dispositivos. El contenido archivado 1718 puede representar una o más porciones de la memoria 1708 u otros sistemas de memoria o sistemas de almacenamiento del sistema de computación 1700.
El contenido archivado 1718 puede almacenar contenido que fue descargado al sistema de computación 1700. El contenido archivado 1718 también puede almacenar contenido que fue generado en el sistema de computación 1700. En una modalidad, las fuentes, podcasts o contenido de medios recuperado automáticamente se puede almacenar en el contenido archivado 1718 para consumo del usuario cuando se selecciona.
En una modalidad, el sistema de computación 1700 interactúa con el sitio web de la red social 1704 para generar y tener disponibles los archivos de sonido. Por ejemplo, una Página de Inicio o pared de un usuario comúnmente puede tener texto, imágenes e incluso contenido de video. El sistema de computación 1700 y el sitio web de la red social 1704 se pueden comunicar para asegurar que todo el contenido del usuario en el sitio web de la red social 1704, así como el contenido recuperado por el usuario, está disponible en la forma de sonido. Por ejemplo, el sitio web de la red social 1704 puede crear una imagen espejo del sitio web que tiene contenido de sonido para los individuos que prefieren explorar o escuchar el contenido en lugar de la búsqueda tradicional con la vista. En un ejemplo, el usuario puede estar manejando y puede seleccionar escuchar los comentarios a un mensaje electrónico (posting) particular en lugar de leerlos. Como resultado, los archivos de sonido pueden ser convertidos por el sitio web de la red social 1704 o el sistema de computación 1700 para reproducirlos al usuario a través de las bocinas que pueden estar separadas de la interfaz de sonido 1714 del sistema de computación 1700.
En otra modalidad, el usuario puede seleccionar enviar por mensaje el contenido a la red social, hacer blogs, o sitios micro-blogs de forma audible. Por ejemplo, el usuario puede utilizar comandos de voz recibidos a través de un dispositivo inalámbrico, para navegar en los sitios de las redes sociales y dejar un comentario. En una modalidad, una aplicación especializada ejecutada por el dispositivo inalámbrico se puede configurar para recibir la voz de los usuarios para dejar mensajes, generar una versión sintetizada automáticamente de la voz del usuario, o una voz predeterminada para crear el mensaje. El comentario también se puede convertir a texto para aquellos usuarios de la red social que prefieren navegar en el sitio. Las asignaciones de teclas especializadas descritas en la presente se pueden utilizar para proporcionar los comandos o instrucciones necesarios para manejar, generar, y recuperar el contenido del sitio de la red social. El efecto de la red social se puede mejorar siendo capaz de acceder al contenido de sonido que suena como la voz de la parte que la genera, o envía el mensaje.
Se puede acceder a todas las funcionalidades, características, y contenido disponible a través de texto tradicional e imágenes con base en las interfaces del usuario utilizando el manejo del sistema de sonido. En una modalidad, el usuario puede analizar el contenido para los miembros de la familia, amigos, o transcriptores pagados para crear contenido de texto a partir del contenido de sonido sometido por el usuario. Una vez que se genera el contenido de sonido, se puede indexar y distribuir a través de la red en la nube, una red distribuida, o una red de igual a igual. En una modalidad, una base de datos central o sistema de manejo de comunicaciones puede identificar el contenido original que se ha convertido a contenido de sonido mediante la asociación de un identificador conocido o asignado. Por ejemplo, el identificador puede ser una firma digital o huella digital del contenido original que se carga a un servidor con base en la nube y sistema de base de datos manejado por un proveedor de servicios de comunicaciones, fomento del acceso al contenido de sonido sin fines de lucro, o una entidad gubernamental. Los identificadores recibidos se archivan en un índice que puede almacenar de forma central o distribuida con actualizaciones al contenido disponible que está siendo sincronizado y actualizado. Cualquier número de bases de datos, tablas, índices, o sistemas para rastrear y actualizar el contenido, identificadores asociados, enlaces, contenido original, y contenido de sonido se puede utilizar.
Siguiente, el contenido de sonido se puede cargar a un lugar centralizado. De forma alternativa, un enlace al contenido distribuido se puede guardar para la recuperación de los servidores distribuidos, dispositivos personales de computación o comunicaciones, redes o recursos de redes . Las solicitudes para contenido se pueden enrutar a y cumplir utilizando un modelo centralizado o distribuido.
Volviendo ahora al proceso de la FIG. 18, la FIG. 18 se puede poner en práctica mediante un dispositivo de computación o comunicaciones operable para realizar la conversión de sonido del contenido original. El proceso de la FIG. 18 se puede realizar con o sin la interacción del usuario o solicitando la retroalimentación mediante un dispositivo electrónico. El proceso puede empezar con el intento de un usuario para recuperar el contenido de forma audible (paso 1802) . En una modalidad, el contenido puede ser de una red social que el usuario está utilizando o revisando. En otra modalidad, el contenido está disponible a través de un Lector electrónico o almohadilla de la red (es decir iPad) .
Siguiente, el sistema determina si el contenido está disponible de forma audible (paso 1804) . Si el contenido está disponible de forma audible, el sistema reproduce el contenido de sonido al usuario (paso 1806) . El sistema puede determinar si el contenido está disponible de forma audible buscando el contenido archivado, bases de datos, memoria, cables, los sitios web, enlaces y otros indicadores o lugares de almacenamiento. Si el sistema determina que el contenido no está disponible de forma audible durante el paso 1804, el sistema determina si utiliza una voz automatizada o humana (paso 1808) . La determinación del paso 1808 se puede realizar con base en las preferencias del usuario que están preestablecidas.
En otra modalidad, en el momento de la selección del contenido de sonido, como puede ser el paso 1802, el archivo puede indicar si él o ella desean escuchar el contenido con una voz humana o una voz automatizada. En algunos casos diferentes usuarios pueden tener una preferencia por una voz automatizada o humana con base en el tiempo de conversión requerido, facilidad para entender la voz y otras preferencias o características similares. Si el sistema determina utilizar una voz automatizada durante el paso 1808 el sistema realiza la conversión automática del contenido a contenido de sonido (paso 1810) . El proceso de conversión se describe anteriormente y se puede poner en práctica tan pronto como sea posible para que sea utilizado de inmediato por el usuario.
Siguiente, el sistema archiva el contenido de sonido convertido para otros usuarios (paso 1812) antes de continuar reproduciendo el contenido de sonido al usuario (paso 1806). Archivando el contenido de sonido convertido para otros usuarios, los recursos del procesamiento de sonido se conservan y el contenido de sonido que puede ser recuperado por un usuario se recupera más fácilmente por cualquier número de otros usuarios que de forma subsiguiente seleccionen para recuperar el contenido. Como resultado, el contenido de sonido se puede reproducir más rápidamente al usuario y el proceso de conversión no necesita realizarse de forma redundante en la medida en que el contenido convertido se puede comunicar entre distintos sistemas, dispositivos y software.
Si el sistema determina utilizar una voz humana en el paso 1808, el sistema envía el contenido a una parte designada para la conversión (paso 1814) . La parte designada puede ser uno o más contratistas o voluntarios, centros de conversión u otros recursos o procesos que utilicen individuos para leer en voz alta el contenido. Siguiente, el sistema archiva el contenido de sonido convertido para otros usuarios (paso 1812) y reproduce el contenido de sonido al usuario (paso 1806) terminando el proceso después de esto.
Volviendo ahora al proceso de la FIG. 19. El proceso de la FIG. 19 se puede realizar de igual forma mediante un dispositivo de computación o comunicaciones habilitado para la conversión de sonido o por otros dispositivos electrónicos como se describe en la presente. El proceso puede empezar recibiendo las selecciones de las preferencias del usuario para contenido de sonido (paso 1902). Las preferencias del usuario pueden tener cualquier número de características, factores, condiciones o parámetros para la generación o reproducción del contenido de sonido. Por ejemplo, el usuario puede hablar muy lentamente y puede preferir que cuando se utiliza una voz generada por el usuario se aumente la velocidad a una y media veces la velocidad normal. En otras modalidades, el usuario puede preferir que su voz no se reconozca y como resultado puede especificar características como puede ser paso, volumen, velocidad u otros factores para asegurar que la voz del usuario no sea reconocible.
Siguiente, el sistema determina si se proporcionará una muestra de voz (paso 1904) . El sistema puede interactuar con un usuario para hacer la determinación del paso 1904. Si el sistema determina que se proporcionará una muestra de voz en el paso 1904, el sistema recibe una voz generada por el usuario u otra muestra de voz (paso 1906) . En una modalidad, el sistema puede solicitar a un usuario hablar una oración designada, párrafo o contenido específico. Como resultado, el sistema puede ser capaz de analizar las características de la muestra de voz para generar el contenido de sonido. Siguiente, el sistema sintetiza la voz generada por el usuario (paso 1908) . Durante el paso 1908, el sistema completa todo el procesamiento necesario y genera una voz sintetizada equivalente o aproximación de la voz del usuario que se puede utilizar para los mensajes de las redes sociales, un sistema de posicionamiento global, comunicaciones a través de un dispositivo inalámbrico y otro contenido de sonido que es generado por o asociado con el usuario.
Siguiente, el sistema determina si se ajusta la voz sintetizada del usuario (paso 1910) . Los ajustes pueden ocurrir con base en las determinaciones de que la muestra de la voz y la voz sintetizada del usuario no son lo suficientemente similares o con base en la retroalimentacion del usuario. Por ejemplo, el usuario simplemente puede determinar que la voz es demasiado similar o no es lo suficientemente similar a la muestra de voz proporcionada y como resultado el usuario puede ser capaz de proporcionar retroalimentacion personalizada o ajustes a la voz sintetizada. Siguiente, si el sistema determina no ajustar la voz sintetizada del usuario en el paso 1910, el sistema utiliza la voz sintetizada del usuario para el contenido de sonido de acuerdo con las preferencias del usuario (paso 1912) .
Si el sistema determina ajustar la voz sintetizada del usuario en el paso 1910, el sistema recibe una entrada del usuario para ajustar la graduación y timbre, velocidad de la voz y otras características de la voz (paso 1912) . Los ajustes del paso 1912 se pueden realizar hasta que el usuario esté satisfecho con el sonido y características de la voz. Por ejemplo, el usuario puede ser capaz de seleccionar oraciones o entradas textuales que se convierten a contenido de sonido y se reproducen con la voz sintetizada del usuario para asegurar que él o ella estén satisfechos con el sonido y características de voz de la voz sintetizada. Si el sistema determina que no se proporciona una muestra de voz en el paso 1904, el sistema puede proporcionar una voz generada automáticamente con base en las selecciones del usuario (paso 1916) . Por ejemplo, al usuario se le puede solicitar que seleccione una voz de hombre o mujer como un punto de inicio. El sistema después puede recibir la entrada del usuario para ajustar la graduación y timbre, velocidad de voz y otras características de la voz en el paso 1914.
Siguiente, el sistema utiliza la voz sintetizada del usuario para el contenido de sonido de acuerdo con las preferencias del usuario (paso 1912) . Como resultado, durante el proceso de la FIG. 19, el usuario puede seleccionar utilizar su propia voz como un punto de inicio o puede utilizar una voz generada por la computadora o automática para los ajustes para generar una voz que estará asociada con el usuario. En una modalidad, las preferencias del usuario pueden indicar los sitios web específicos, perfiles u otros parámetros para los cuales se puede utilizar la voz o voces generadas durante el proceso de la FIG. 19.
Volviendo ahora a la FIG. 20, la FIG. 20 muestra una modalidad de una interfaz de sonido del usuario 2000. En una modalidad, la interfaz de sonido del usuario se puede utilizar con cualquiera de los procesos descritos en la presente. Por ejemplo, la interfaz de sonido del usuario 2000 se puede utilizar con el proceso de la FIG. 19 para generar o ajustar una voz. En una modalidad, la interfaz de sonido del usuario 2000 puede tener cualquier número de elementos o indicadores de selección para proporcionar la entrada del usuario y hacer las selecciones.
En una modalidad, el usuario puede necesitar proporcionar un nombre de usuario y contraseña para asegurar la información accesible a través de la otra interfaz de usuario 2000. El archivo puede seleccionar editar las preferencias del usuario utilizando la interfaz de sonido del usuario 2000. Las preferencias del usuario pueden ser especificadas por cualquier número de dispositivos como se muestra en la sección 2002. Por ejemplo, la interfaz de sonido del usuario 2000 se puede utilizar para ajustar las preferencias del usuario y las voces utilizadas por una computadora personal, teléfono celular, GPS, caja sobre el aparato, sitio de redes sociales asociado con un nombre de usuario, almohadilla de la web, lector electrónico u otro dispositivo electrónico con el cual el usuario puede generar o recuperar el contenido de sonido.
La sección 2004 se puede utilizar para generar una voz de usuario predeterminada o una voz de usuario sintetizada como se describe anteriormente en la FIG. 19. La interfaz de sonido del usuario 2000 se puede utilizar para crear cualquier número de voces distintas que se utilizan con diferentes dispositivos o aplicaciones. Por ejemplo, el usuario puede tener una voz que se utiliza para aplicaciones de trabajo y otra voz que se utiliza para aplicaciones sociales. La propiedad o selección de cada voz puede dejarse al usuario con base en sus propias preferencias .
En la sección 2006 , el usuario puede seleccionar de cualquier número de voces que se han generado o sintetizado automáticamente con base en la entrada proporcionada por el usuario para utilizarlas en distintos dispositivos y aplicaciones. En una modalidad, la interfaz de sonido del usuario 2000 se puede utilizar o manejar por un solo individuo o administrador para un número de diferentes dispositivos o usuarios. Por ejemplo, un padre puede especificar las voces que se utilizarán para cada uno de los dispositivos de sus niños y cómo y cuando se utilizarán estas voces. Por ejemplo, un programa que lee texto del padre puede utilizar la voz del padre para reproducir esos mensajes de texto para hacer que los mensajes parezcan más realistas y posiblemente aún más entendibles para los niños.
Aunque se han mostrado y descrito las modalidades consistentes con la presente invención, los expertos en la técnica entenderán que se pueden hacer diversos cambios y modificaciones y equivalentes se pueden sustituir por elementos de estos sin salir del alcance verdadero de la invención. Por lo tanto, se intenta que esta invención no esté limitada a las modalidades particulares descritas.

Claims (40)

REIVINDICACIONES Reivindicación
1. Un método para distribuir contenido de sonido, el método consiste en: recibir una selección del usuario del contenido original, la selección del usuario indicando que un usuario quiere que el contenido original se convierta a contenido de sonido ,- convertir el contenido original en contenido de sonido; asociar un identificador con el contenido original y el contenido de sonido; y almacenar el identificador y el contenido de sonido asociado en un dispositivo de red para que uno o más usuarios que seleccionen escuchar el contenido original puedan acceder a él . Reivindicación
2. El método de acuerdo con la reivindicación 1, que además consiste en indexar los identificadores asociados con cada uno de una pluralidad archivos de sonido convertidos de una pluralidad de archivos originales, en donde el índice está disponible para una pluralidad de usuarios a través de una conexión de red . Reivindicación
3. El método de acuerdo con la reivindicación 2, además consiste en distribuir el índice a una pluralidad de puntos de acceso de la red en respuesta a los identificadores de indexacion. Reivindicación
4. El método de acuerdo con la reivindicación 1, en donde la conversión consiste en enviar el contenido original a un transcriptor para generar el contenido de sonido a partir del contenido original . Reivindicación
5. El método de acuerdo con la reivindicación 4, en donde el transcriptor es un miembro de la familia o amigo. Reivindicación
6. El método de acuerdo con la reivindicación 1, además consiste en: recibir una selección del usuario de un usuario secundario para el contenido original; acceder al índice para determinar el identificador asociado con el contenido original y el contenido de sonido en respuesta a la recepción de la selección del usuario; recuperar el contenido de sonido asociado con el identificador para reproducirlo al usuario secundario. Reivindicación
7. El método de acuerdo con la reivindicación 1, en donde el índice que asocia una pluralidad de identificadores y una pluralidad de archivos de sonido está almacenado en una pluralidad de lugares para el acceso distribuido por los usuarios. Reivindicación
8. El método de acuerdo con la reivindicación 7, en donde el índice que asocia cada uno de la pluralidad de identificadores y la pluralidad de archivos de sonido está almacenado en una red en la nube. Reivindicación
9. Un sistema para realizar la distribución del contenido de sonido, el sistema consiste en una pluralidad de dispositivos de usuario habilitados para comunicarse con una red en la nube, en donde uno de la pluralidad de dispositivos de usuario recibe una selección del usuario del contenido original, la selección del usuario indica que un usuario desea que el contenido original se convierta a contenido de sonido, el uno de la pluralidad de dispositivos de usuario maneja la conversión del contenido original al contenido de sonido; y la red en la nube puede operar para asociar un identificador con el contenido original y el contenido de sonido, en donde la red en la nube almacena el identificador y el contenido de sonido asociado para que uno o más usuarios que seleccionan escuchar el contenido original puedan acceder a él . Reivindicación
10. El sistema de acuerdo con la reivindicación 9, en donde la pluralidad de dispositivos de usuario realiza la conversión automática de texto a voz para generar el contenido de sonido . Reivindicación
11. El sistema de acuerdo con la reivindicación 9, en donde la pluralidad de dispositivos de usuario envía el contenido original a una parte designada para convertir el contenido original en contenido de sonido . Reivindicación
12. El sistema de acuerdo con la reivindicación 11, en donde la parte designada utiliza una voz humana para generar el contenido de sonido utilizando una jerarquía del contenido original. Reivindicación
13. El sistema de acuerdo con la reivindicación 9, en donde la red en la nube almacena un índice que asocia cada uno de una pluralidad de identificadores asociados con cada uno de una pluralidad archivos de sonido convertidos a partir de una pluralidad de archivos originales, en donde el índice está disponible para la pluralidad de dispositivos de usuario a través de una conexión de red. Reivindicación
14. El sistema de acuerdo con la reivindicación 9 , en donde el contenido de sonido se recupera mediante uno de la pluralidad de dispositivos de usuario . Reivindicación
15. Un dispositivo de red que consiste en: un procesador para ejecutar una serie de ins rucciones; y una memoria para almacenar la serie de instrucciones, en donde la serie de instrucciones es ejecutada por el procesador para: recibir una selección del usuario del contenido original, la selección del usuario indica que un usuario quiere que el contenido original se convierta a contenido de sonido; convertir el contenido original en contenido de sonido; asociar un identificador con el contenido original y el contenido de sonido; y almacenar el identificador y el contenido de sonido asociado para que uno o más usuarios que seleccionan escuchar el contenido original puedan acceder a él . Reivindicación
16. El dispositivo de red de acuerdo con la reivindicación 15, en donde la serie de instrucciones además se ejecuta para indexar los identificadores asociados con cada uno de una pluralidad de archivos de sonido convertidos de una pluralidad de archivos originales, en donde el índice está disponible para una pluralidad de usuarios a través de una conexión de red. Reivindicación
17. El dispositivo de red de acuerdo con la reivindicación 15, en donde la serie de instrucciones además se ejecuta para distribuir el índice a una pluralidad de puntos de acceso de la red en respuesta a los identificadores de indexación. Reivindicación
18. El dispositivo de red de acuerdo con la reivindicación 15, en donde la serie de instrucciones además se ejecuta para enviar el contenido original a un transcriptor para generar el contenido de sonido a partir del contenido original . Reivindicación
19. El dispositivo de red de acuerdo con la reivindicación 18, en donde la serie de instrucciones además se ejecuta para: recibir una selección del usuario de un usuario secundario para el contenido original; acceder al índice para determinar el identificador asociado con el contenido original y el contenido de sonido en respuesta a la selección del usuario recibida; recuperar el contenido de sonido asociado con el identificador para reproducirlo al usuario secundario. Reivindicación
20. El dispositivo de red de acuerdo con la reivindicación 15, en donde el índice que asocia una pluralidad de identificadores y una pluralidad de archivos de sonido se almacena en una pluralidad de lugares para el acceso distribuido por los usuarios . Reivindicación
21. Un método para proporcionar contenido de sonido para las redes sociales, el método consiste en: solicitar a un usuario que seleccione una voz; ajustar una graduación de voz, velocidad de voz, y volumen de la voz en respuesta a una entrada del usuario; asociar una o más voces incluyendo la voz con contenido para las redes sociales generada por el usuario en respuesta a las preferencias del usuario; y de forma audible comunicar el contenido de las redes sociales utilizando la voz en respuesta a la selección del contenido de las redes sociales. Reivindicación
22. El método de acuerdo con la reivindicación 21, en donde la voz tiene una voz automatizada o voz sintetizada. Reivindicación
23. El método de acuerdo con la reivindicación 22, además consiste en: grabar una muestra de voz; generar la voz sintetizada utilizando la muestra de voz para aproximarla con la muestra de voz del usuario; Y utilizar la voz sintetizada como la voz. Reivindicación
24. El método de acuerdo con la reivindicación 21, en donde la solicitud además consiste en generar una pluralidad de voces para asociarla con cada una de una pluralidad de redes sociales de acuerdo con las preferencias del usuario. Reivindicación
25. El método de acuerdo con la reivindicación 21, en donde los ajustes a la graduación de la voz incluye el timbre. Reivindicación
26. El método de acuerdo con la reivindicación 21, en donde el contenido de las redes sociales tiene comentarios hechos por el usuario en línea . Reivindicación
27. El método de acuerdo con la reivindicación 21, en donde la comunicación de forma audible consiste en reproducir el contenido de las redes sociales a cualquiera de una pluralidad de usuarios que tienen acceso al contenido de las redes sociales . Reivindicación
28. El método de acuerdo con la reivindicación 21, además consiste en almacenar el contenido de las redes sociales y la voz como un archivo de sonido para reproducirlo en respuesta a la selección. Reivindicación
29. Un sistema para proporcionar la asociación de una voz con un usuario, el sistema consiste en: una pluralidad de dispositivos habilitados para comunicarse con una red en la nube, en donde uno de la pluralidad de dispositivos solicita a un usuario seleccionar una voz, y ajustar una graduación de voz y timbre, velocidad al hablar, y volumen de la voz en respuesta a una entrada del usuario; la red en la nube puede operar para asociar una o más voces incluyendo la voz con el contenido de las redes sociales generada por el usuario en respuesta a las preferencias del usuario, y reproducir el contenido de las redes sociales utilizando la voz en respuesta a la selección del contenido de las redes sociales. Reivindicación
30. El sistema de acuerdo con la reivindicación 29, en donde la voz es una voz automática generada utilizando la conversión de texto a voz. Reivindicación
31. El sistema de acuerdo con la reivindicación 29, en donde la pluralidad de dispositivos además se pueden operar para: grabar una muestra de voz; y generar la voz sintetizada utilizando la muestra de voz para aproximarla a la muestra de voz del usuario. Reivindicación
32. El sistema de acuerdo con la reivindicación 29, en donde el contenido de las redes sociales tiene comentarios hechos por el usuario en línea. Reivindicación
33. El sistema de acuerdo con la reivindicación 29, en donde la red en la nube almacena el contenido de las redes sociales y la voz como un archivo de sonido para reproducirla en respuesta a la selección. Reivindicación
34. El sistema de acuerdo con la reivindicación 29, en donde el usuario genera una pluralidad de voces para asociarla con cada una de una pluralidad de redes sociales de acuerdo con las preferencias del usuario almacenadas en uno o más dispositivos . Reivindicación
35. Un dispositivo de red que consiste en: un procesador para ejecutar una serie de instrucciones; y una memoria para almacenar la serie de instrucciones, en donde la serie de instrucciones es ejecutada por el procesador para: solicitar a un usuario que selecciona una voz; ajustar la graduación de voz, velocidad al hablar, y volumen de la voz en respuesta a una entrada del usuario; asociar una o más voces incluyendo la voz con el contenido de redes sociales generada por el usuario en respuesta a las preferencias del usuario; y de forma audible comunicar el contenido de las redes sociales utilizando la voz en respuesta a la selección del contenido de las redes sociales . Reivindicación
36. El dispositivo de red de acuerdo con la reivindicación 35, en donde la serie de instrucciones además se ejecuta para almacenar el contenido de las redes sociales y la voz como un archivo de sonido para reproducirlo en respuesta a la selección. Reivindicación
37. El dispositivo de red de acuerdo con la reivindicación 35, en donde el contenido de las redes sociales tiene comentarios hechos por el usuario en línea. Reivindicación
38. El dispositivo de red de acuerdo con la reivindicación 35, en donde la serie de instrucciones además se ejecuta para generar una pluralidad de voces para asociarla con cada una de una pluralidad de redes sociales, una pluralidad de los sitios web, una pluralidad de perfiles, o una pluralidad de dispositivos electrónicos de acuerdo con las preferencias del usuario. Reivindicación
39. El dispositivo de red de acuerdo con la reivindicación 35, en donde la voz tiene una voz automatizada o una voz sintetizada. Reivindicación
40. El dispositivo de red de acuerdo con la reivindicación 35, en donde la serie de instrucciones además se ejecuta para: grabar una muestra de voz; generar la voz sintetizada utilizando la muestra de voz para aproximarla a la muestra de voz del usuario; y utilizar la voz sintetizada como la voz.
MX2014004889A 2011-10-24 2012-10-24 Sistema y metodo para el manejo del contenido de audio. MX2014004889A (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/280,184 US20120240045A1 (en) 2003-08-08 2011-10-24 System and method for audio content management
PCT/US2012/061620 WO2013063066A1 (en) 2011-10-24 2012-10-24 System and method for audio content management

Publications (1)

Publication Number Publication Date
MX2014004889A true MX2014004889A (es) 2015-01-26

Family

ID=48168422

Family Applications (1)

Application Number Title Priority Date Filing Date
MX2014004889A MX2014004889A (es) 2011-10-24 2012-10-24 Sistema y metodo para el manejo del contenido de audio.

Country Status (8)

Country Link
US (2) US20120240045A1 (es)
EP (1) EP2771881A4 (es)
JP (1) JP2015506000A (es)
AU (1) AU2012328956A1 (es)
BR (1) BR112014009867A2 (es)
CA (1) CA2854990A1 (es)
MX (1) MX2014004889A (es)
WO (1) WO2013063066A1 (es)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120240045A1 (en) * 2003-08-08 2012-09-20 Bradley Nathaniel T System and method for audio content management
WO2009089097A1 (en) * 2008-01-04 2009-07-16 Bandtones Llc Methods and apparatus for delivering audio content to a caller placed on hold
US8433577B2 (en) * 2011-09-27 2013-04-30 Google Inc. Detection of creative works on broadcast media
US8856272B2 (en) * 2012-01-08 2014-10-07 Harman International Industries, Incorporated Cloud hosted audio rendering based upon device and environment profiles
US9438589B2 (en) * 2012-04-19 2016-09-06 Martin Tomlinson Binding a digital file to a person's identity using biometrics
US10122710B2 (en) 2012-04-19 2018-11-06 Pq Solutions Limited Binding a data transaction to a person's identity using biometrics
US10229197B1 (en) 2012-04-20 2019-03-12 The Directiv Group, Inc. Method and system for using saved search results in menu structure searching for obtaining faster search results
US9451389B2 (en) * 2012-10-21 2016-09-20 Kadeer Beg Methods and systems for communicating greeting and informational content using NFC devices
US9986051B2 (en) * 2013-09-18 2018-05-29 Modiolegal, Llc Method and system for creation and distribution of narrated content
US10224056B1 (en) 2013-12-17 2019-03-05 Amazon Technologies, Inc. Contingent device actions during loss of network connectivity
US9431002B2 (en) 2014-03-04 2016-08-30 Tribune Digital Ventures, Llc Real time popularity based audible content aquisition
US9606766B2 (en) 2015-04-28 2017-03-28 International Business Machines Corporation Creating an audio file sample based upon user preferences
US10452231B2 (en) * 2015-06-26 2019-10-22 International Business Machines Corporation Usability improvements for visual interfaces
US10394421B2 (en) 2015-06-26 2019-08-27 International Business Machines Corporation Screen reader improvements
US10261964B2 (en) 2016-01-04 2019-04-16 Gracenote, Inc. Generating and distributing playlists with music and stories having related moods
US10867120B1 (en) 2016-03-18 2020-12-15 Audioeye, Inc. Modular systems and methods for selectively enabling cloud-based assistive technologies
US10444934B2 (en) 2016-03-18 2019-10-15 Audioeye, Inc. Modular systems and methods for selectively enabling cloud-based assistive technologies
US10423709B1 (en) 2018-08-16 2019-09-24 Audioeye, Inc. Systems, devices, and methods for automated and programmatic creation and deployment of remediations to non-compliant web pages or user interfaces
US11727195B2 (en) 2016-03-18 2023-08-15 Audioeye, Inc. Modular systems and methods for selectively enabling cloud-based assistive technologies
US10896286B2 (en) 2016-03-18 2021-01-19 Audioeye, Inc. Modular systems and methods for selectively enabling cloud-based assistive technologies
US10235989B2 (en) 2016-03-24 2019-03-19 Oracle International Corporation Sonification of words and phrases by text mining based on frequency of occurrence
US10777201B2 (en) * 2016-11-04 2020-09-15 Microsoft Technology Licensing, Llc Voice enabled bot platform
US10019225B1 (en) 2016-12-21 2018-07-10 Gracenote Digital Ventures, Llc Audio streaming based on in-automobile detection
US10565980B1 (en) * 2016-12-21 2020-02-18 Gracenote Digital Ventures, Llc Audio streaming of text-based articles from newsfeeds
US10419508B1 (en) 2016-12-21 2019-09-17 Gracenote Digital Ventures, Llc Saving media for in-automobile playout
US11170754B2 (en) * 2017-07-19 2021-11-09 Sony Corporation Information processor, information processing method, and program
US10657954B2 (en) 2018-02-20 2020-05-19 Dropbox, Inc. Meeting audio capture and transcription in a collaborative document context
US10467335B2 (en) 2018-02-20 2019-11-05 Dropbox, Inc. Automated outline generation of captured meeting audio in a collaborative document context
US10803865B2 (en) 2018-06-05 2020-10-13 Voicify, LLC Voice application platform
US11437029B2 (en) * 2018-06-05 2022-09-06 Voicify, LLC Voice application platform
US10235999B1 (en) 2018-06-05 2019-03-19 Voicify, LLC Voice application platform
US10636425B2 (en) 2018-06-05 2020-04-28 Voicify, LLC Voice application platform
CN108737872A (zh) * 2018-06-08 2018-11-02 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
US11398164B2 (en) * 2019-05-23 2022-07-26 Microsoft Technology Licensing, Llc Providing contextually relevant information for ambiguous link(s)
US11087421B2 (en) * 2019-06-11 2021-08-10 Matthew M. Tonuzi Method and apparatus for improved analysis of legal documents
US11720747B2 (en) * 2019-06-11 2023-08-08 Matthew M. Tonuzi Method and apparatus for improved analysis of legal documents
US11689379B2 (en) 2019-06-24 2023-06-27 Dropbox, Inc. Generating customized meeting insights based on user interactions and meeting media
US11270603B1 (en) 2020-09-11 2022-03-08 Bank Of America Corporation Real-time disability identification and preferential interaction modification
CN113064561A (zh) * 2021-03-26 2021-07-02 珠海奔图电子有限公司 语音打印控制方法、装置及系统
JP2023000588A (ja) * 2021-06-18 2023-01-04 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5799279A (en) * 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
US7334050B2 (en) * 2000-06-07 2008-02-19 Nvidia International, Inc. Voice applications and voice-based interface
US6665642B2 (en) * 2000-11-29 2003-12-16 Ibm Corporation Transcoding system and method for improved access by users with special needs
US7194411B2 (en) * 2001-02-26 2007-03-20 Benjamin Slotznick Method of displaying web pages to enable user access to text information that the user has difficulty reading
US7035804B2 (en) * 2001-04-26 2006-04-25 Stenograph, L.L.C. Systems and methods for automated audio transcription, translation, and transfer
US20090164304A1 (en) * 2001-11-14 2009-06-25 Retaildna, Llc Method and system for using a self learning algorithm to manage a progressive discount
US20120240045A1 (en) * 2003-08-08 2012-09-20 Bradley Nathaniel T System and method for audio content management
US7966184B2 (en) * 2006-03-06 2011-06-21 Audioeye, Inc. System and method for audible web site navigation
US7653544B2 (en) * 2003-08-08 2010-01-26 Audioeye, Inc. Method and apparatus for website navigation by the visually impaired
US7200560B2 (en) * 2002-11-19 2007-04-03 Medaline Elizabeth Philbert Portable reading device with display capability
US8170863B2 (en) * 2003-04-01 2012-05-01 International Business Machines Corporation System, method and program product for portlet-based translation of web content
US7275032B2 (en) * 2003-04-25 2007-09-25 Bvoice Corporation Telephone call handling center where operators utilize synthesized voices generated or modified to exhibit or omit prescribed speech characteristics
US8953908B2 (en) * 2004-06-22 2015-02-10 Digimarc Corporation Metadata management and generation using perceptual features
US7554522B2 (en) * 2004-12-23 2009-06-30 Microsoft Corporation Personalization of user accessibility options
US7957976B2 (en) * 2006-09-12 2011-06-07 Nuance Communications, Inc. Establishing a multimodal advertising personality for a sponsor of a multimodal application
WO2008134625A1 (en) * 2007-04-26 2008-11-06 Ford Global Technologies, Llc Emotive advisory system and method
US20090043583A1 (en) * 2007-08-08 2009-02-12 International Business Machines Corporation Dynamic modification of voice selection based on user specific factors
US20100064053A1 (en) * 2008-09-09 2010-03-11 Apple Inc. Radio with personal dj
US20100036926A1 (en) * 2008-08-08 2010-02-11 Matthew Lawrence Ahart Platform and method for cross-channel communication
US8571849B2 (en) * 2008-09-30 2013-10-29 At&T Intellectual Property I, L.P. System and method for enriching spoken language translation with prosodic information
US8438485B2 (en) * 2009-03-17 2013-05-07 Unews, Llc System, method, and apparatus for generating, customizing, distributing, and presenting an interactive audio publication
US9043474B2 (en) * 2010-01-20 2015-05-26 Microsoft Technology Licensing, Llc Communication sessions among devices and interfaces with mixed capabilities
US20110239253A1 (en) * 2010-03-10 2011-09-29 West R Michael Peters Customizable user interaction with internet-delivered television programming

Also Published As

Publication number Publication date
EP2771881A4 (en) 2015-11-11
AU2012328956A1 (en) 2014-05-22
CA2854990A1 (en) 2013-05-02
WO2013063066A1 (en) 2013-05-02
BR112014009867A2 (pt) 2017-04-18
JP2015506000A (ja) 2015-02-26
EP2771881A1 (en) 2014-09-03
US20150113410A1 (en) 2015-04-23
US20120240045A1 (en) 2012-09-20

Similar Documents

Publication Publication Date Title
US20150113410A1 (en) Associating a generated voice with audio content
US8260616B2 (en) System and method for audio content generation
US20240029025A1 (en) Computer-based method and system of analyzing, editing and improving content
JP7459153B2 (ja) 音声駆動コンピューティングインフラストラクチャによるグラフィカルユーザインターフェースレンダリング管理
CN101656800B (zh) 自动应答装置及方法、会话情节编辑装置、会话服务器
US9218414B2 (en) System, method, and user interface for a search engine based on multi-document summarization
US20160234278A1 (en) Audio commenting and publishing system
KR101132509B1 (ko) 모바일 검색을 위한 모바일 시스템, 검색 시스템 및 검색 결과 제공 방법
EP2157571A2 (en) Automatic answering device, automatic answering system, conversation scenario editing device, conversation server, and automatic answering method
CN108292203A (zh) 基于设备间对话通信的主动协助
JP2008090545A (ja) 音声対話装置および音声対話方法
TW200424951A (en) Presentation of data based on user input
US10313403B2 (en) Systems and methods for virtual interaction
US11776536B2 (en) Multi-modal interface in a voice-activated network
Wagner Building Facebook applications for dummies
Borschke Ad hoc archivists: mp3 blogs and the generation of provenance
KR101250169B1 (ko) 모바일 검색을 위한 모바일 시스템, 검색 시스템 및 검색 결과 제공 방법
KR20120065980A (ko) 모바일 검색을 위한 모바일 시스템, 검색 시스템 및 검색 결과 제공 방법
JP2001229203A (ja) マルチメディア検索サーバーおよび画像音声混合文章生成装置

Legal Events

Date Code Title Description
FA Abandonment or withdrawal