PT1662482E

PT1662482E - Método para ortografia com utilização de mnemónica genérica

Info

Publication number: PT1662482E
Application number: PT05109732T
Authority: PT
Inventors: Ciprian I Chelba; David Mowatt; Robert L Chambers; Qiang Wu
Original assignee: Microsoft Corp
Priority date: 2004-11-24
Filing date: 2005-10-19
Publication date: 2011-12-19
Also published as: US20060111907A1; AU2010212370B2; EP1662482A2; CA2523933C; JP2006146193A; KR101183310B1; RU2005136460A; AU2005229636B2; JP4818683B2; AU2010212370A1; PL1662482T3; CN1779783A; MXPA05011448A; KR20060058004A; US7418387B2; AU2005229636A1; US7765102B2; BRPI0504510A; RU2441287C2; ATE534988T1

Description

DESCRIÇÃO "MÉTODO PARA ORTOGRAFIA COM UTILIZAÇÃO DE MNEMÓNICA GENÉRICA"

CAMPO DA INVENÇÃO A presente invenção refere-se, de um modo geral, a aplicações de software de reconhecimento de voz e, mais particularmente, a um método para manipular os caracteres de uma frase através de uma aplicação de reconhecimento de voz.

ANTECEDENTES DA INVENÇÃO A fala é, talvez, a forma mais antiga de comunicação humana e muitos cientistas acreditam, agora, que a capacidade de comunicar através da fala faz, inerentemente, parte da biologia do cérebro humano. Assim, a possibilidade de permitir que utilizadores comuniquem com computadores utilizando uma Interface de Utilizador Natural (NUI), tal como a fala, tem sido um objectivo há muito procurado. De facto, recentemente, têm-se feito grandes avanços na obtenção deste objectivo. Por exemplo, alguns computadores já incluem aplicações de reconhecimento de voz que permitem que um utilizador controle o computador através da introdução de comandos verbais e possa ditar palavras para as converter em texto. Estas aplicações funcionam, tipicamente, pela gravação periódica de amostras de som captadas através de um microfone, análise das amostras para reconhecer os fonemas falados pelo utilizador e identificação das palavras constituídas pelos fonemas falados. 1

Embora o reconhecimento de voz seja cada vez mais comum, ainda há algumas desvantagens na utilização de aplicações de reconhecimento de voz convencionais que tendem a frustrar o utilizador experiente e a alienar o utilizador inexperiente. Uma dessas desvantagens envolve a interacção entre o orador e o computador. Por exemplo, na interacção humana, as pessoas tendem a controlar o seu discurso com base na reacção de resposta de um ouvinte. Como tal, durante uma conversação, um ouvinte pode responder fazendo um sinal de assentimento ou respondendo vocalmente, tal como "sim" ou "uh-huh", para indicar que está a compreender o que lhe foi dito. Além disso, se o ouvinte não compreender o que lhe está a ser dito, o ouvinte pode fazer uma expressão interrogativa, inclinar-se para a frente ou dar outras sugestões vocais ou não vocais. Em resposta a esta reacção, o orador mudará, tipicamente, a forma como está a falar e, em alguns casos, o orador pode falar mais lentamente, mais alto, com pausas mais frequentes ou mesmo repetir uma afirmação, normalmente, sem que o ouvinte se aperceba que o orador alterou a forma de interagir com o ouvinte. Assim, a reacção durante uma conversação é um elemento muito importante para o orador informando-o se está ou não a ser compreendido pelo ouvinte. Infelizmente, no entanto, as aplicações de reconhecimento de voz convencionais ainda não conseguem proporcionar este tipo de resposta reactiva de "Interface de Utilizador Natural (NUI)" a entradas/comandos de voz facilitados por uma interface homem-máquina.

Actualmente, as aplicações de reconhecimento de voz conseguiram uma taxa de exactidão de, aproximadamente, 90% a 98%. Isto significa que quando um utilizador dita um documento utilizando uma aplicação de reconhecimento de voz típica o seu discurso será reconhecido, com exactidão, pela aplicação de 2 reconhecimento de voz durante, aproximadamente, 90% a 98% do tempo. Assim, de entre cem (100) letras gravadas pela aplicação de reconhecimento de voz, aproximadamente duas (2) a dez (10) letras terão que ser corrigidas. Em particular, as aplicações de reconhecimento de voz existentes tendem a ter dificuldade em reconhecer determinadas letras, tais como "s" (e. g., esse) e "f" (e. g., efe) . Uma abordagem que as existentes aplicações de reconhecimento de voz utilizam para resolver este problema implica dar ao utilizador a possibilidade de utilizar mnemónicas predefinidas para esclarecer que letra é que se está a pronunciar. Por exemplo, um utilizador tem a possibilidade de dizer "a como em 'apple''" ou "b como em yboy'" ao ditar.

Infelizmente, no entanto, esta abordagem tem desvantagens associadas que tendem a limitar a facilidade de utilização da aplicação de reconhecimento de voz. Uma desvantagem implica a utilização de mnemónicas predefinidas para cada letra, que tendem a ser o alfabeto militar padrão (e. g., alfa, bravo, charlie,...) . Isto acontece porque, mesmo que um utilizador possa receber uma lista de mnemónicas para utilização ao ditar (e. g., "I como em Iglo"), estes tendem a formar o seu próprio alfabeto mnemónico (e. g., "I como em índia") e ignorar o alfabeto mnemónico predefinido. Como previsto, dado que as aplicações de reconhecimento de voz não reconhecem mnemónicas não predefinidas, os erros de reconhecimento de letras tornam-se comuns. Outra desvantagem envolve o facto de que embora algumas letras tenham um pequeno conjunto de mnemónicas predominantes (i. e., > 80%) associadas às mesmas (A como em 'Apple'', A como yAdamy ou D como yDogy, D como em 'David' ou Z como em 'Zebra', Z como yZuluy), outras letras não têm qualquer mnemónica predominante associada com elas (e. g., L, P, R e S) . Isto faz com que a criação de um modelo de linguagem genérico apropriado 3 seja não só muito difícil, como praticamente impossível. Como tal, a linguagem de comunicação para uma aplicação de software de reconhecimento de voz ainda produz um número relativamente elevado de erros e não só esses erros tendem a criar frustração em utilizadores frequentes, como também tendem a ser desencorajadores para os utilizadores inexperientes, resultando, possivelmente, na recusa do utilizador em continuar a empregar a aplicação de reconhecimento de voz. 0 documento US 6694296 BI refere-se a um sistema de reconhecimento de voz incluindo um Modelo de Linguagem de ditado proporcionando uma saída de modelo de ditado indicativa de uma provável sequência de palavras reconhecida com base numa elocução introduzida. Um Modelo de Linguagem de ortografia proporciona uma saída de modelo de ortografia indicativa de uma provável sequência de letras reconhecida com base na elocução introduzida. Um modelo acústico proporciona uma saída de modelo acústico indicativo de uma provável unidade de fala reconhecida com base nas elocuções introduzidas. Um componente de reconhecimento de voz é configurado para aceder ao Modelo de Linguagem de ditado, Modelo de Linguagem de ortografia e modelo acústico. 0 documento US 6321196 Bl refere-se a um aparelho de reconhecimento de voz incluindo meios para determinar se um orador deseja soletrar uma primeira palavra. 0 orador pode, em seguida, enunciar uma sequência de palavras seleccionadas de um vocabulário extenso sem ficar limitado a um alfabeto fonético pré-especifiçado. 0 aparelho reconhece as palavras enunciadas, associa letras a estas palavras e, depois, organiza as palavras para formar a primeira palavra. 4 0 documento US 2003/167166 AI refere-se a um método para executar reconhecimento de voz para determinar um caractere alfabético particular, incluindo a recepção de uma entrada de voz acústica incluindo um único caractere alfabético e uma associação de palavras com o único caractere para que o primeiro caractere da palavra seja, conforme pretendido, igual ao único caractere alfabético. A entrada acústica pode ser processada utilizando um sistema de reconhecimento de vocabulário de voz para reconhecer o único caractere alfabético e a palavra. Pode fazer-se uma tentativa para fazer coincidir o único caractere alfabético com o primeiro caractere da palavra. O documento US 200/184035 AI refere-se a um método de ortografia de voz.

Sumário da Invenção O objectivo da presente invenção é proporcionar um método e sistema para criar um modelo de linguagem de n-gramas a utilizar com uma aplicação de software de reconhecimento de voz.

Este objectivo é obtido pelo objecto das reivindicações independentes.

Nas reivindicações dependentes apresentam-se formas de realização.

Proporciona-se um método para criar um Modelo de Linguagem mnemónico para utilização com uma aplicação de software de reconhecimento de voz, em que o método inclui gerar um Modelo de Linguagem de n-gramas contendo um corpo extenso de caracteres 5 predefinidos, e. g., letras, números, símbolos, etc., em que o Modelo de Linguagem de n-gramas inclui, pelo menos, um caractere do corpo extenso de caracteres predefinidos. 0 método inclui, ainda, a construção de um novo símbolo de Modelo de Linguagem (LM) para cada um dos, pelo menos um, caracteres e a extracção de pronúncias para cada um dos, pelo menos um, caracteres, em resposta a um dicionário de pronúncias predefinidas para obter uma representação de pronúncias de caracteres. Além disso, o método inclui a criação de, pelo menos, uma pronúncia alternativa para cada um dos, pelo menos um, caracteres, em resposta à representação de pronúncias de caracteres para criar um dicionário de pronúncias alternativas e a compilação do Modelo de Linguagem de n-gramas para utilização com a aplicação de software de reconhecimento de voz, em que a compilação do Modelo de Linguagem é sensível ao novo símbolo de Modelo de Linguagem e ao dicionário de pronúncias alternativas.

Proporciona-se um método para criar um Modelo de Linguagem mnemónico para utilização com uma aplicação de software de reconhecimento de voz, em que o método inclui gerar um Modelo de Linguagem de n-gramas contendo um corpo extenso de caracteres predefinidos, em que o Modelo de Linguagem de n-gramas inclui, pelo menos, um caractere do corpo extenso de caracteres predefinidos. Além disso, o método inclui a extracção de pronúncias para cada um dos, pelo menos um, caracteres, em resposta a um dicionário de pronúncias predefinidas para obter uma representação de pronúncias de caracteres e a criação de, pelo menos, uma pronúncia alternativa para cada um dos, pelo menos um, caracteres, em resposta à representação de pronúncias de caracteres para criar um dicionário de pronúncias alternativas. 6

Proporciona-se um sistema para implementar um método para criar um Modelo de Linguagem mnemónico para utilização com uma aplicação de software de reconhecimento de voz, em que o sistema inclui um dispositivo de armazenamento para armazenar a Aplicação de Software de Reconhecimento de Voz e, pelo menos, uma aplicação de software alvo. 0 sistema inclui, ainda, um dispositivo de introdução de dados para inserir, vocalmente, dados e comandos no sistema, um dispositivo de visionamento, em que o dispositivo de visionamento inclui o ecrã de visionamento para exibir os dados inseridos e um dispositivo de processamento. 0 dispositivo de processamento está em comunicação com o dispositivo de armazenamento, o dispositivo de introdução de dados e o dispositivo de visionamento, de tal modo que o dispositivo de processamento receba instruções para fazer com que a Aplicação de Software de Reconhecimento de Voz apresente os dados inseridos no ecrã de visionamento e para manipular os dados inseridos em resposta aos comandos inseridos.

Proporciona-se um código de programa informático legível por máquina, em que o código de programa inclui instruções para fazer com que um dispositivo de processamento implemente um método para a criação de um Modelo de Linguagem mnemónico, para utilização com uma aplicação de software de reconhecimento de voz, em que, o dispositivo de processamento está em comunicação com um dispositivo de armazenamento e um dispositivo de visionamento e, em que, o dispositivo de armazenamento inclui uma Aplicação de Software de Reconhecimento de Voz. 0 método inclui a geração de um Modelo de Linguagem de n-gramas contendo um corpo extenso de caracteres predefinidos, em que o Modelo de Linguagem de n-gramas inclui, pelo menos, um caractere do corpo extenso de caracteres predefinidos e a construção de um novo símbolo de Modelo de Linguagem (LM) para cada um dos, pelo menos 7 um, caracteres. 0 método inclui, ainda, a extracção de pronúncias para cada um dos, pelo menos um, caracteres, em resposta a um dicionário de pronúncias predefinidas para obter uma representação de pronúncias de caracteres e a criação de, pelo menos, uma pronúncia alternativa para cada um dos, pelo menos um, caracteres, em resposta à representação de pronúncias de caracteres para criar um dicionário de pronúncias alternativas. Além disso, o método inclui a compilação do Modelo de Linguagem de n-gramas para utilização com a aplicação de software de reconhecimento de voz, em que a compilação do Modelo de Linguagem é sensível ao novo símbolo de Modelo de Linguagem e ao dicionário de pronúncias alternativas.

Proporciona-se um meio codificado com um código de programa informático legível por máquina, em que o código de programa inclui instruções para fazer com que um dispositivo de processamento implemente um método para a criação de um Modelo de Linguagem mnemónico para utilização com uma aplicação de software de reconhecimento de voz, em que o dispositivo de processamento está em comunicação com um dispositivo de armazenamento e um dispositivo de visionamento e em que o dispositivo de armazenamento inclui uma Aplicação de Software de Reconhecimento de Voz. 0 método inclui a geração de um Modelo de Linguagem de n-gramas contendo um corpo extenso de caracteres predefinidos, em que o Modelo de Linguagem de n-gramas inclui, pelo menos, um caractere do corpo extenso de caracteres predefinidos e a construção de um novo símbolo de Modelo de Linguagem (LM) para cada um dos, pelo menos um, caracteres. 0 método inclui, ainda, a extracção de pronúncias para cada um dos, pelo menos um, caracteres, em resposta a um dicionário de pronúncias predefinidas para obter uma representação de pronúncias de caracteres e a criação de, pelo menos, uma 8 pronúncia alternativa para cada um dos, pelo menos um, caracteres, em resposta à representação de pronúncias de caracteres para criar um dicionário de pronúncias alternativas. Além disso, o método inclui a compilação do Modelo de Linguagem de n-gramas para utilização com a aplicação de software de reconhecimento de voz, em que compilar o Modelo de Linguagem é sensivel ao novo simbolo de Modelo de Linguagem e ao dicionário de pronúncias alternativas.

BREVE DESCRIÇÃO DAS FIGURAS

As caracteristicas e vantagens acima mencionadas e outras da presente invenção serão melhor compreendidas a partir da descrição pormenorizada que se segue de formas de realização ilustrativas, feitas em associação com os desenhos em anexo nos quais elementos semelhantes são identificados com os mesmos números nas várias Figuras: A Figura 1 é um diagrama de blocos que ilustra um sistema de reconhecimento de voz típico; A Figura 2 é um diagrama de blocos esquemático que ilustra um sistema para implementar um método para criar um Modelo de Linguagem mnemónico para utilização com uma aplicação de software de reconhecimento de voz, de acordo com uma forma de realização exemplificativa; A Figura 3 é um diagrama de blocos que ilustra um método para criar um Modelo de Linguagem mnemónico para utilização com uma aplicação de software de reconhecimento de voz, de acordo com uma forma de realização exemplificativa; e 9 A Figura 4 é uma tabela de Fonemas em Inglês Americano.

DESCRIÇÃO DETALHADA DA INVENÇÃO A maioria das aplicações de reconhecimento de voz emprega um modelo de padrões acústicos típicos e de padrões de palavras típicos de modo a determinar uma transcrição palavra por palavra de uma dada elocução acústica. Estes padrões de palavras são, depois, utilizados por aplicações de reconhecimento de voz e são designados, colectivamente, por Modelos de Linguagem (LM) . Como tal, um Modelo de Linguagem representa sequências de palavras e a probabilidade dessa sequência ocorrer num determinado contexto. Assim, para ser eficaz em aplicações de reconhecimento de voz, um Modelo de Linguagem deve ser construído a partir de uma grande quantidade de dados de aprendizagem textuais. Também se deve compreender que se podem utilizar mnemónicas, com grande sucesso, quando utilizadas para corrigir a ortografia de uma palavra utilizando uma aplicação de software de reconhecimento de voz de ambiente de trabalho. Por exemplo, um cenário pode envolver a tentativa de um utilizador soletrar uma palavra sem a utilização de mnemónicas, que se encontra, agora, na situação em que a aplicação de software de reconhecimento de voz confundiu uma (ou mais) letras das que foram comunicadas. Utilizando mnemónicas para voltar a enunciar uma letra aumenta, drasticamente, a probabilidade de o utilizador ser bem sucedido quando volta a enunciar essa letra.

No que se refere à Figura 1, mostra-se um diagrama de blocos que ilustra um sistema 100 de reconhecimento de voz típico e inclui um dispositivo 102 de processamento, um dispositivo 104 de introdução de dados, um dispositivo 106 de armazenamento e um 10 dispositivo 108 de visionamento, em que um modelo 110 acústico e um Modelo 112 de Linguagem estão armazenados no dispositivo 106 de armazenamento. O modelo 110 acústico contém, tipicamente, informação que ajuda o descodificador a determinar que palavras foram ditas. O modelo 110 acústico realiza isso ao criar, como hipóteses, uma série de fonemas com base nos parâmetros espectrais fornecidos pelo dispositivo 104 de introdução de dados, em que um fonema é a menor unidade fonética numa linguagem que é capaz de transmitir uma distinção em termos de significado e implica, tipicamente, a utilização de um dicionário e de modelos ocultos de Markov. Por exemplo, o modelo 110 acústico pode incluir um dicionário (léxico) de palavras e as suas respectivas pronúncias fonéticas, em que estas pronúncias contêm um indicador da probabilidade de ocorrência de uma determinada sequência de fonemas em conjunto para formar uma palavra. Além disso, o modelo 110 acústico também pode incluir informações sobre a probabilidade de ocorrência possível de fonemas distintos no contexto de outros fonemas. Por exemplo, um "trifonema" é um fonema distinto utilizado no contexto de um fonema distinto à esquerda (prefixação) e outro fonema distinto à direita (sufixação). Assim, o conteúdo do modelo 110 acústico é utilizado pelo dispositivo 102 de processamento para prever que palavras são representadas pelos parâmetros espectrais calculados.

Além disso, o Modelo 112 de Linguagem (LM) especifica como e em que frequências as palavras irão ocorrer em conjunto. Por exemplo, um Modelo 112 de Linguagem de n-gramas estima a probabilidade de uma palavra se seguir a uma sequência de palavras. Estes valores de probabilidade formam, colectivamente, o Modelo 112 de Linguagem de n-gramas. 0 dispositivo 102 de processamento utiliza, em seguida, as probabilidades do Modelo 11 112 de Linguagem de n-gramas para escolher entre as melhores hipóteses de sequência de palavras, identificadas utilizando o modelo 110 acústico, para obter a palavra ou sequência de palavras mais provável representada pelos parâmetros espectrais, em que as hipóteses mais prováveis podem ser exibidas pelo dispositivo 108 de visionamento. A presente invenção, como aqui descrita, é descrita no contexto de um módulo de aplicação autónomo e/ou integrado utilizado com um sistema implementado em computador de utilização geral que utiliza uma aplicação de reconhecimento de voz para receber e reconhecer comandos de voz oriundos de um utilizador. 0 módulo de aplicação pode, enquanto aplicação orientada por objectos, expor uma interface padrão a que programas de cliente podem aceder para comunicar com o módulo de aplicação. 0 módulo de aplicação também pode permitir a uma série de programas de cliente diferentes, tais como um programa de processamento de texto, um programa de edição electrónica, um programa de aplicação e assim por diante, utilizar o módulo de aplicação localmente e/ou através de uma rede, tal como uma WAN, LAN e/ou um veículo de base internet. Por exemplo, o acesso e utilização do módulo de aplicação podem ser efectuados através de qualquer aplicação e/ou controlo tendo um campo de texto, tal como uma aplicação de e-mail ou Microsoft® Word, localmente ou através de um ponto de acesso Internet. No entanto, antes de descrever aspectos da presente invenção, uma forma de realização de um ambiente informático adequado, que pode incorporar e beneficiar desta invenção, é descrita abaixo.

No que se refere à Figura 2, um diagrama de blocos que ilustra um sistema 200 para implementação de um método para criar um Modelo 112 de Linguagem mnemónico para utilização com 12 uma aplicação de software de reconhecimento de voz é mostrado e inclui um sistema 202 informático geral, incluindo um dispositivo 204 de processamento, uma memória 206 de sistema e um barramento 208 de sistema, em que o barramento 208 de sistema acopla a memória 206 de sistema ao dispositivo 204 de processamento. 0 sistema 206 de memória pode incluir uma memória 210 só de leitura (ROM) e memória 212 de acesso aleatório (RAM). Um sistema 214 de entrada/saida básico (BIOS), contendo rotinas básicas que ajudam a transferência de informação entre elementos dentro do sistema 202 informático geral, tal como durante o arranque, está armazenado na ROM 210. O sistema 202 informático geral inclui, ainda, um dispositivo 216 de armazenamento, tal como uma unidade 218 de disco rígido, uma unidade 220 de disco magnético, e. g., para ler ou gravar um disco 222 removível magnético e uma unidade 224 de disco óptico, e. g., para ler um disco 226 CD-ROM ou para ler ou gravar outros meios de suporte ópticos. 0 dispositivo 216 de armazenamento pode ser conectado ao barramento 208 de sistema por uma interface de dispositivo de armazenamento, tal como uma interface 230 de unidade de disco rígido, uma interface 232 de unidade de disco magnético e uma interface 234 de unidade óptica. As unidades e os seus meios legíveis por computador associados proporcionam um armazenamento permanente para o sistema 202 informático geral. Embora a descrição dos meios legíveis por computador supracitados se refira a um disco rígido, disco magnético removível e disco CD-ROM, deve compreender-se que outros tipos de meios de suporte que podem ser lidos por um sistema de computador e que são adequados para o fim desejado podem ser utilizados, tais como cassetes magnéticas, cartões de memória flash, discos de vídeo digital, cartuchos Bernoulli e semelhantes. 13

Um utilizador pode introduzir comandos e informação no sistema 202 informático geral através de um dispositivo 235 de introdução de dados convencional, incluindo um teclado 236, um dispositivo apontador, tal como um rato 238 e um microfone 240, em que o microfone 240 pode ser utilizado para a introdução de áudio, tal como voz, no sistema 202 informático geral. Além disso, um utilizador pode inserir informações gráficas, tais como um desenho ou texto manuscrito, no sistema 202 informático geral, desenhando as informações gráficas num bloco 242 de escrita utilizando um estilete. 0 sistema 202 informático geral também pode incluir dispositivos de introdução de dados adicionais adequados ao fim desejado, tais como um joystick, game pad, antena parabólica, digitalizador ou semelhantes. 0 microfone 240 pode ser conectado ao dispositivo 204 de processamento através de um adaptador 244 de áudio, que está acoplado ao barramento 208 de sistema. Além disso, os outros dispositivos de introdução de dados estão, muitas vezes, conectados ao dispositivo 204 de processamento através de uma interface 246 de porta série, que está acoplada ao barramento 208 de sistema, mas também podem ser conectados por outras interfaces, tais como uma interface de porta paralela, uma porta de jogos ou um barramento de série universal (USB) .

Um dispositivo 247 de visionamento, tal como um monitor ou outro tipo de dispositivo 247 de visionamento, tendo um ecrã 248 de visionamento, também está conectado ao barramento 208 de sistema através de uma interface, tal como um adaptador 250 de vídeo. Além do ecrã 248 de visionamento, o sistema 202 informático geral também pode incluir, tipicamente, outros dispositivos de saída periféricos, tais como altifalantes e/ou impressoras. 0 sistema 202 informático geral pode funcionar num ambiente em rede utilizando conexões lógicas a um ou mais 14 sistemas 252 informáticos remotos. 0 sistema 252 informático remoto pode ser um servidor, um encaminhador, um dispositivo homólogo ou outro nó de rede comum e pode incluir qualquer ou todos os elementos descritos relacionados com o sistema 202 informático geral, embora se tenha ilustrado apenas um dispositivo 254 de armazenamento de memória remoto na Figura 2. As conexões lógicas, como mostrado na Figura 2, incluem uma rede 256 de área local (LAN) e uma rede 258 de área alargada (WAN). Estes ambientes de rede são comuns em escritórios, redes informáticas empresariais, intranets e Internet.

Quando utilizado num ambiente de rede LAN, o sistema 202 informático geral é conectado à LAN 256 através de uma interface 260 de rede. Quando utilizado num ambiente de rede WAN, o sistema 202 informático geral inclui, tipicamente, um modem 262 ou outros meios para estabelecer comunicações através de uma WAN 258, tal como a Internet. O modem 262, que pode ser interno ou externo, pode ser conectado ao barramento 208 de sistema através da interface 246 de porta série. Num ambiente em rede, módulos de programa descritos em relação ao sistema 202 informático geral ou partes respectivas, podem ser armazenados no dispositivo 254 de armazenamento de memória remoto. Deve compreender-se que as conexões de rede mostradas são exemplificativas e se podem utilizar outros meios para estabelecer uma ligação de comunicações entre os sistemas informáticos. Também se deve compreender que o módulo de aplicação poderia, equivalentemente, ser implementado em sistemas informáticos anfitriões ou servidores para além de sistemas informáticos gerais e poderia, equivalentemente, ser transmitido para o sistema informático anfitrião por outros 15 meios para além de um CD-ROM, por exemplo, por meio da interface 260 de conexão de rede.

Além disso, uma série de módulos de programa podem ser armazenados nas unidades e RAM 212 do sistema 202 informático geral. Os módulos de programa controlam o funcionamento do sistema 202 informático geral e a forma de interacção com o utilizador, com dispositivos I/O ou com outros computadores. Os módulos de programa incluem rotinas, sistemas 264 operativos, módulos 266 de programa de aplicação alvo, estruturas de dados, programas de navegação e outros componentes de software ou firmware. O método da presente invenção pode ser incluído num módulo de aplicação e o módulo de aplicação pode ser, convenientemente, implementado num ou mais módulos de programa, tais como um módulo 270 de correcção de mecanismo de voz com base nos métodos descritos neste documento. Os módulos 266 de programa de aplicação alvo podem compreender uma variedade de aplicações utilizadas em conjunto com a presente invenção, algumas das quais são mostradas na Figura 3. Os objectivos e interacções entre alguns destes módulos de programa são discutidos mais pormenorizadamente no texto que descreve a Figura 3. Estes incluem qualquer aplicação e/ou controlo tendo um campo de texto, e. g., uma aplicação de e-mail, um programa processador de texto (tal como o Microsoft® Word, produzido pela Microsoft Corporation de Redmond, Wash.), um módulo de programa de reconhecimento de escrita, o módulo 270 de correcção de mecanismo de voz e um editor de método de introdução de dados (IME) [tipo alternativo de esquema de teclado - para introdução de texto em caracteres asiáticos, por exemplo].

Deve compreender-se que não se descreve qualquer linguagem de programação específica para a realização dos vários processos 16 descritos na descrição pormenorizada, dado que se considera que as operações, etapas e processos descritos e ilustrados nos desenhos em anexo estão suficientemente divulgados para permitir que os especialistas na técnica possam implementar uma forma de realização exemplificativa da presente invenção. Além disso, há muitos computadores e sistemas operativos que podem ser utilizados para a implementação de uma forma de realização exemplificativa e, portanto, não se poderia proporcionar nenhum programa de computador pormenorizado que fosse aplicável a todos estes sistemas muito diferentes. Cada utilizador de um determinado computador estará ciente da linguagem e ferramentas que são mais úteis para as necessidades e finalidades do utilizador.

No que se refere à Figura 3, mostra-se um diagrama de blocos que ilustra um método 300 para criar um modelo de linguagem mnemónico para utilização com uma aplicação de software de reconhecimento de voz implementada através da utilização do sistema 202 informático geral da Figura 2, em que o sistema 202 informático geral inclui um dispositivo 204 de processamento em comunicação com um dispositivo 235 de introdução de dados, um dispositivo 216 de armazenamento e um dispositivo 247 de visionamento, em que o dispositivo 247 de visionamento inclui o ecrã 248 de visionamento, como mostrado na Figura 2. Como discutido acima, o dispositivo 235 de introdução de dados pode ser um qualquer dispositivo apropriado para a finalidade desejada, tal como um microfone. Além disso, a aplicação de software de reconhecimento de voz pode ser armazenada no dispositivo 216 de armazenamento para permitir que o dispositivo 204 de processamento aceda à aplicação de software de reconhecimento de voz. Além disso, pelo menos, uma aplicação 266 de software alvo, tal como Microsoft® Windows, também pode ser 17 armazenada no dispositivo 216 de armazenamento para permitir que um utilizador implemente a aplicação de software alvo através de uma instrução comunicada ao dispositivo 204 de processamento. O método 300 inclui gerar um Modelo 112 de Linguagem de n-gramas para cada caractere e/ou cadeia de caracteres num corpo extenso de caracteres e/ou cadeias de caracteres predefinido, como mostrado no bloco 302 operacional. Como discutido resumidamente acima, isto atribuiria uma probabilidade à ocorrência de um caractere específico após outros caracteres. Por exemplo, considere-se a ocorrência da letra "a" após a cadeia de caracteres "er" na palavra "era." A geração de um Modelo 112 de Linguagem de n-gramas causaria uma probabilidade, P(a|e,r), a atribuir a esta ocorrência. Noutra palavra, a probabilidade P(a|e,r) representaria a probabilidade de o a ocorrer após a sequência de letras "er". Deve compreender-se que o Modelo 112 de Linguagem de n-gramas pode ser escrito como um ficheiro no formato ARPA padrão e pode ser sensível a minúsculas e maiúsculas para permitir a atribuição de probabilidades às letras maiúsculas e minúsculas. O método 300 também inclui a construção de um novo símbolo de Modelo de Linguagem para cada um dos caracteres e/ou cadeias de caracteres no corpo extenso de caracteres e/ou cadeias de caracteres predefinido, como mostrado no bloco 304 operacional. Por exemplo, considere-se o caractere "a", em que um símbolo de Modelo de Linguagem já existe. Um novo símbolo de Modelo de Linguagem, "a-AsIn" [Asln significa ComoEm], é construído para utilização com ortografia à base de mnemónicas, ao passo que o símbolo de Modelo de Linguagem antigo, "a", é conservado para utilização com ortografia de caracteres. Isto permite construir um Modelo 112 de Linguagem de n-gramas para técnicas de ortografia regulares e técnicas de 18 ortografia à base de mnemónicas, mantendo, ao mesmo tempo, o desempenho e sem aumentar o tamanho do Modelo de Linguagem. 0 método 300 inclui, ainda, extrair pronúncias para cada um dos caracteres e/ou cadeias de caracteres em resposta a um dicionário de pronúncias predefinidas para que a aplicação de software de reconhecimento de voz crie um dicionário de pronúncias alternativas de representações de pronúncias de caracteres, como mostrado no bloco 306 operacional. Por exemplo, considere-se, outra vez, o caractere "a", em que as pronúncias para palavras que começam em "a" são extraídas do dicionário de pronúncias da aplicação de software de reconhecimento de voz que está a ser utilizada para o ditado no ambiente de trabalho. Utilizando este dicionário, verifica-se que a palavra "ARON" tem uma representação de pronúncias de caracteres de "ae r ax n", como mostrado na Figura 4. Para cada um dos caracteres e/ou cadeias de caracteres no dicionário de pronúncias predefinidas, uma pronúncia alternativa pode ser criada prefixando cada caractere com seu novo símbolo de Modelo de Linguagem e adicionando como sufixo um longo silêncio "sil", como mostrado no bloco 308 operacional. Por exemplo, considere-se o novo símbolo de Modelo de Linguagem "a Asln" e a palavra "ARON". Dada a relação acima mencionado, a pronúncia alternativa seria representada por "ey AA1 ey ae z ih n ae r ax n sil", em que "ey AA1 ey ae z ih n" é a pronúncia prefixada para "a Asln ", "ae r ax n" é a pronúncia para "ARON" e "sil" é o silêncio longo adicionado como sufixo. Além disso, as letras maiúsculas são tratadas de modo semelhante. Por exemplo, considere-se a frase "capital a as in ARON". Dada a relação acima mencionada, a pronúncia alternativa seria representada por "k ae p ih t ax 1 ey AA1 ey ae z ih n ae r ax n sil", em que " "k ae p ih t ax 1" é a pronúncia para capital, " ey AA1 ey ae z ih n" é a pronúncia 19 prefixada para "a Asln", "ae r ax n" é a pronúncia para "ARON" e "sil" é o silêncio longo adicionado como sufixo. 0 Modelo de Linguagem de n-gramas para utilização no sistema de reconhecimento de vocabulário extenso pode, em seguida, ser compilado utilizando um compilador padrão, como mostrado no bloco 310 operacional, em que a introdução de dados no compilador inclui o Modelo de Linguagem (em formato ARPA) de n-gramas incorporado no bloco 302 de operação e o dicionário de pronúncias (que codifica as diferentes variantes de pronúncias para cada letra) incorporado no bloco 304 operacional e bloco 306 operacional. Deve compreender-se que o Modelo 112 de Linguagem de n-gramas pode ser compilado utilizando qualquer dispositivo de compilação adequado para o produto final desejado, tal como um compilador Just-In-Time (JIT).

Deve compreender-se que o método 300 facilita a criação de um Modelo de Linguagem de voz com base em trigramas que permite que um utilizador utilize um modelo de linguagem tendo mais de 120000 mnemónicas. Isto pode ser feito codificando o facto de um utilizador poder dizer uma das 120000 palavras, codificando a pronúncia das palavras e codificando as probabilidades de trigrama de uma palavra aparecer dadas duas palavras anteriores de contexto. Por exemplo, tendo em conta a frase "isto é", e podendo a próxima palavra falada pelo utilizador ser a palavra "perto" ou "metro", então, dado que a frase "isto é perto" é muito mais comum em Português do que "isto é metro", a palavra "metro" é escolhida. De modo semelhante, para o modelo de linguagem de ortografia, o termo "palavra" refere-se, na prática, a caracteres, em que os caracteres incluem as vinte e seis letras minúsculas, as vinte e seis letras maiúsculas, números e símbolos. Assim, o método 300 aqui divulgado utiliza 20 uma média de 5000 pronúncias por letra (S como em 'Salmon' = S, S como em 'Sugar' = S, S como em 'Salamander' = S...) e, na verdade, cada palavra no modelo de ditado de 120000 palavras é utilizada como uma mnemónica possível. A cada mnemónica é atribuída uma ponderação diferente para cada letra ou pronúncia, tendo algumas uma ponderação com mais peso do que outras. Por exemplo, a ponderação da frase mnemónica "T como em Tom" tem mais peso do que "T como em 'Tom'" devido à probabilidade de a frase mnemónica "T como em Tom" ter sido utilizada com mais frequência. Além disso, as sequências mnemónicas também têm probabilidades, por exemplo, a probabilidade de "D" como em 'Donkey' ser seguido por "F" como em "Fun" é menor do que a probabilidade de "D" como em 'Donkey' ser seguido por "S" como em 'Sun'. Estas probabilidades podem ser geradas especialmente ou podem ser obtidas a partir de uma simples lista de mnemónicas, como amostradas por inquéritos. Também se deve compreender que o método 300, como divulgado neste documento, permite ao sistema 200 "aprender" caracteres e/ou cadeias de caracteres adicionais. Além disso, embora o método 300 seja divulgado e discutido neste documento recorrendo ao Fonema Inglês Americano, o método 300 pode ser utilizado com fonemas para qualquer idioma, tal como Chinês, Russo, Espanhol e Francês.

De acordo com uma forma de realização exemplificativa, o processamento da Figura 3 pode ser implementado, total ou parcialmente, por um controlador que funciona em resposta a um programa de computador legível por máquina. Para executar as funções prescritas e o processamento desejado, bem como os cálculos para isso, (e. g., algoritmo(s) de controlo de execução, os processos de controlo previstos neste documento e semelhantes), o controlador pode incluir, sem limitação, um ou 21 memória, computadores, mais processadores, computadores, memória, armazenamento, registos, temporização, interrupções, interfaces de comunicação e interfaces de sinal de entrada/saida, bem como combinações compreendendo, pelo menos, um dos anteriores.

Além disso, a invenção pode ser realizada na forma de processos implementados por computador ou controlador. A invenção também pode ser realizada na forma de código de programa de computador contendo instruções incorporadas em meios tangíveis, como disquetes, CD-ROM, unidades de disco rígido e/ou qualquer outro meio legível por computador, em que, quando o código de programa de computador é carregado em e executado por um computador ou controlador, o computador ou controlador transforma-se num aparelho para implementar a invenção. A invenção também pode ser realizada na forma de código de programa de computador, por exemplo, se armazenado num meio de armazenamento, carregado em e/ou executado por um computador ou controlador ou transmitido através de algum meio de transmissão, tal como através de fios ou cabos eléctricos, através de fibra óptica ou através de radiação electromagnética, em que, quando o código de programa de computador é carregado em e executado por um computador ou um controlador, o computador ou controlador transforma-se num aparelho para implementar a invenção. Quando implementados num microprocessador de utilização geral, os segmentos de código de programa de computador podem configurar o microprocessador para criar circuitos lógicos específicos.

Embora a invenção tenha sido descrita recorrendo a uma forma de realização exemplificativa, os especialistas na técnica compreenderão que se podem fazer várias alterações, omissões e/ou adições e equivalentes podem ser substituídos por respectivos elementos sem se divergir do âmbito da invenção. 22

Além disso, podem fazer-se muitas modificações para adaptar uma situação ou material particular aos ensinamentos da invenção sem se divergir do seu âmbito. Por conseguinte, pretende-se que a invenção não esteja limitada à forma de realização particular divulgada como o melhor modo de realizar esta invenção, mas que a invenção inclua todas as formas de realização abrangidas pelo âmbito das reivindicações apensas. Além disso, salvo disposição em contrário, qualquer utilização dos termos primeiro, segundo, etc., não indicam qualquer ordem ou importância, sendo os termos primeiro, segundo, etc., apenas utilizados para distinguir os elementos entre si.

Lisboa, 28 de Novembro de 2011 23

Claims

REIVINDICAÇÕES 1. Método para criar um Modelo de Linguagem de n-gramas para utilização com uma aplicação de software de reconhecimento de voz, compreendendo o método: gerar (302) um Modelo (112) de Linguagem de n-gramas para cada caractere e cadeia de caracteres num corpo extenso de caracteres e cadeias de caracteres predefinido, construir (304) um novo símbolo de Modelo de Linguagem para cada caractere para utilização com uma ortografia com base em mnemónicas; caracterizado por extrair (306), para cada caractere determinado, pronúncias para palavras a começar com o caractere determinado a partir de um dicionário de pronúncias predefinidas para obter uma representação de pronúncias de caracteres; criar, (308) pelo menos, uma pronúncia alternativa para cada caractere determinado ao prefixar o novo símbolo de Modelo de Linguagem do caractere determinado para uma pronúncia extraída para uma palavra a começar com o caractere determinado para criar um dicionário de pronúncias alternativas; e 1 compilar (310) o referido Modelo de Linguagem de n-gramas para utilização com a aplicação de software de reconhecimento de voz ao introduzir num compilador o referido Modelo de Linguagem de n-gramas gerado e um dicionário de pronúncias codificando as diferentes pronúncias para cada caractere.
2. Método da Reivindicação 1, em que o referido corpo extenso de caracteres predefinido inclui, pelo menos, um de entre letras minúsculas, letras maiúsculas, números e caracteres gráficos predefinidos.
3. Método da Reivindicação 2, em que, pelo menos, um de entre o referido corpo extenso de caracteres predefinido, referido dicionário de pronúncias predefinidas e referido dicionário de pronúncias alternativas é sensível à língua Inglesa.
4. Método da Reivindicação 1, em que a referida construção inclui construir um novo símbolo de Modelo de Linguagem para cada um de entre os referidos, pelo menos um, caracteres, em resposta a uma ortografia com base em mnemónicas para cada um dos referidos, pelo menos um, caracteres.
5. Método da Reivindicação 1, em que a referida criação inclui ainda adicionar como sufixo um longo silêncio "sil" à referida representação de pronúncias de caracteres para formar a referida pronúncia alternativa.
6. Método da Reivindicação 1, em que, se o referido, pelo menos um, caractere for um caractere maiúsculo, a referida criação inclui ainda prefixar "k ae p ih t ax 1" ao referido novo Modelo de Linguagem. 2
7. Método da Reivindicação 1, em que a referida compilação do Modelo de Linguagem de n-gramas é compilada utilizando uma ferramenta de compilação convencional.
8. Método da Reivindicação 7, em que a referida ferramenta de compilação convencional é uma ferramenta de compilação Just-In-Time, JIT.
9. Método da Reivindicação 1, em que o referido Modelo de Linguagem de n-gramas é gerado utilizando um formato predefinido.
10. Método da Reivindicação 9, em que o referido formato predefinido é o formato ARPA.
11. Sistema adaptado para implementar o método para criar um Modelo de Linguagem de n-gramas para utilização com uma aplicação de software de reconhecimento de voz, de acordo com uma das reivindicações 1 a 10, em que o sistema compreende: um dispositivo (106, 216) de armazenamento para armazenar a Aplicação de Software de Reconhecimento de Voz e, pelo menos, uma aplicação de software alvo; um dispositivo (104, 235) de introdução para inserir, vocalmente, dados e comandos no sistema; um dispositivo (247, 248) de visionamento, em que o referido dispositivo de visionamento inclui o ecrã de visionamento para exibir os referidos dados inseridos; e 3 um dispositivo (102, 204) de processamento, em que o referido dispositivo de processamento está em comunicação com o referido dispositivo de armazenamento, referido dispositivo de introdução de dados e referido dispositivo de visionamento, para que o referido dispositivo de processamento receba instruções para fazer com que a Aplicação de Software de Reconhecimento de Voz apresente os dados inseridos no ecrã de visionamento e para manipular os dados inseridos em resposta aos referidos comandos inseridos.
12. Sistema da Reivindicação 11, incluindo ainda um módulo (110) de software de modelo acústico e um módulo (112) de software de Modelo de Linguagem, em que o referido módulo de software de modelo acústico e referido módulo de software de Modelo de Linguagem estão dispostos no referido dispositivo de armazenamento.
13. Sistema da Reivindicação 11, incluindo ainda um compilador, em que o referido compilador é uma ferramenta de compilação convencional apta a compilar o formato ARPA.
14. Sistema da Reivindicação 11, em que o referido dispositivo de armazenamento é, pelo menos, um de entre um dispositivo de suporte óptico e um dispositivo de suporte magnético, um dispositivo de armazenamento interno, um dispositivo de armazenamento externo, um dispositivo de armazenamento removível e um dispositivo de armazenamento não-removível.
15. Sistema da Reivindicação 11, em que o referido dispositivo de introdução de dados é um Microfone. 4
16. Sistema da Reivindicação 11, em que o dispositivo de visionamento é, pelo menos, um de entre um monitor CRT, um LCD e um dispositivo de visionamento de plasma.
17. Código de programa de computador legivel por máquina, incluindo o código de programa instruções para fazer com que um dispositivo de processamento implemente um método para criar um Modelo de Linguagem de n-gramas para utilização com uma aplicação de software de reconhecimento de voz, em que o dispositivo de processamento está em comunicação com um dispositivo de armazenamento e um dispositivo de visionamento e em que o dispositivo de armazenamento inclui uma Aplicação de Software de Reconhecimento de Voz, compreendendo o método: gerar um Modelo de Linguagem de n-gramas para cada caractere e cadeia de caracteres num corpo extenso de caracteres e cadeias de caracteres predefinido, construir um novo símbolo de Modelo de Linguagem para cada caractere para utilização com uma ortografia com base em mnemónicas; caracterizado por extrair, para cada caractere determinado, pronúncias para palavras a começar com o caractere determinado a partir de um dicionário de pronúncias predefinidas para obter uma representação de pronúncias de caracteres; criar, pelo menos, uma pronúncia alternativa para cada caractere determinado ao prefixar o novo símbolo de 5 Modelo de Linguagem do caractere determinado para uma pronúncia extraída para uma palavra a começar com o caractere determinado para criar um dicionário de pronúncias alternativas; e compilar o referido Modelo de Linguagem de n-gramas para utilização com a aplicação de software de reconhecimento de voz ao introduzir num compilador o referido Modelo de Linguagem de n-gramas gerado e um dicionário de pronúncias codificando as diferentes pronúncias para cada caractere.
18. Meio codificado com um código de programa de computador legível por máquina, incluindo o código de programa instruções para fazer com que um dispositivo de processamento implemente um método para criar um Modelo de Linguagem de n-gramas para utilização com uma aplicação de software de reconhecimento de voz, em que o dispositivo de processamento está em comunicação com um dispositivo de armazenamento e um dispositivo de visionamento, em que o dispositivo de armazenamento inclui uma Aplicação de Software de Reconhecimento de Voz, compreendendo o método: gerar um Modelo de Linguagem de n-gramas para cada caractere e cadeia de caracteres num corpo extenso de caracteres e cadeias de caracteres predefinido, construir um novo símbolo de Modelo de Linguagem para cada caractere para utilização com uma ortografia com base em mnemónicas; caracterizado por 6 extrair, para cada caractere determinado, pronúncias para palavras a começar com o caractere determinado a partir de um dicionário de pronúncias predefinidas para obter uma representação de pronúncias de caracteres; criar, pelo menos, uma pronúncia alternativa para cada caractere determinado ao prefixar o novo símbolo de Modelo de Linguagem do caractere determinado para uma pronúncia extraída para uma palavra a começar com o caractere determinado para criar um dicionário de pronúncias alternativas; e compilar o referido Modelo de Linguagem de n-gramas para utilização com a aplicação de software de reconhecimento de voz ao introduzir num compilador o referido Modelo de Linguagem de n-gramas gerado e um dicionário de pronúncias codificando as diferentes pronúncias para cada caractere. Lisboa, 28 de Novembro de 2011 7