PT789901E

PT789901E - Metodo e aparelho para o reconhecimento de voz

Info

Publication number: PT789901E
Application number: PT95935526T
Authority: PT
Inventors: Simon Patrick Alexand Ringland
Original assignee: British Telecomm
Priority date: 1994-11-01
Filing date: 1995-11-01
Publication date: 2000-04-28
Also published as: FI971822A0; CA2202656A1; FI971822A; HK1002787A1; CN1121680C; KR100383353B1; DE69514382D1; ES2143079T3; JPH10507536A; DK0789901T3; WO1996013827A1; KR970707529A; CN1162365A; MX9703138A; EP0789901B1; DE69514382T2; AU707355B2; NO309750B1; NZ294659A; AU3751695A

Description

VW3-S 0{

DESCRIÇÃO "MÉTODO E APARELHO PARA O RECONHECIMENTO DE VOZ" A invenção refere-se ao processamento de voz e em particular ao reconhecimento de voz.

Os técnicos de desenvolvimento de aparelhos de reconhecimento de voz têm o objectivo final de produzir máquinas, com as quais uma pessoa pode interagir de uma forma completamente natural, sem constrangimentos. 0 interface máquina/homem deverá idealmente ser completamente perfeito.

Trata-se de uma visão que está a tornar-se cada vez mais próxima de acontecer, mas uma total fluência entre o homem e a máquina ainda não foi atingida. Para se obter a fluência, um identificador automatizado necessitará de um vocabulário de palavras infinito e também estar em condições de entender a voz de qualquer utilizador, sem ter em conta o sotaque, a enunciação, etc. A tecnologia actual e o nosso limitado entendimento de como os seres humanos percebem a voz tornam isto impraticável.

Um aparelho corrente de reconhecimento de voz inclui dados que se referem ao vocabulário limitado que o aparelho é capaz de reconhecer. Os dados referem-se de uma maneira geral a modelos estatísticos ou padrões, que representam as palavras do vocabulário limitado. Durante o reconhecimento, um sinal de entrada é comparado com os dados armazenados para determinar a similaridade entre o sinal de entrada e os dados memorizados. Se se encontrar uma conformidade muito próxima, o sinal de entrada é de uma maneira geral confirmado para ser -1-

V

reconhecido como o modelo ou padrão (ou frequência de modelos ou padrões), que proporciona a conformidade mais próxima.

Os padrões ou modelos são geralmente constituídos medindo características particulares da voz de entrada. As medidas das características são, em regra, a saída de certa forma de técnica de análise espectral, por exemplo um analisador de banco de filtros, uma análise de códigos prevista linear ou uma análise de transformação descontínua. As medidas das características de uma ou mais entradas experimentais correspondentes ao mesmo som da voz (isto é, uma determinada palavra, frase, etc.) são tipicamente usadas para criar um ou mais padrões de referência representativos das características deste som. O padrão de referência pode ser um padrão derivado de algum tipo de técnica de cálculo da média, ou pode ser um modelo que caracterize as estatísticas das características das entradas experimentais para um som particular.

Uma entrada não conhecida é então comparada com o padrão de referência de cada som do vocabulário de reconhecimento e uma medida da similaridade entre a entrada não conhecida e ' cada padrão de referência é sujeita a cálculo. Este passo de ^ classificação de padrões pode incluir um procedimento de alinhamento do tempo global (conhecido como o tempo dinâmico de envolvimento DTW), que compensa os diferentes valores da voz. As medidas de similaridade são então usadas para decidir que padrão dê referência está mais conforme com a entrada não conhecida e então qual é que se deve reconhecer. 0 uso definido para o identificador de voz pode também determinar as características do sistema. Por exemplo, o sistema que é desenhado para ser dependente do orador apenas necessita de entradas experimentais de um só orador. Assim, os modelos ou padrões representam a voz de entrada de um determinado orador em vez das falas médias de vários -2- Γ L-Cj oradores. Enquanto um destes sistemas tem um bom nivel de reconhecimento para o orador do qual foram recebidas as entradas experimentais, este sistema não é obviamente apropriado para uso por outros utilizadores. O reconhecimento independente do orador assenta nos modelos de palavras formados a partir dos sinais de voz de uma série de oradores. Modelos estatísticos ou padrões representando todos os sinais de voz experimentais de cada entrada de voz particular são constituídos para reconhecimentos subsequentes. Embora os sistemas independentes do orador sirvam relativamente bem para um grande número de utilizadores, o desempenho de um sistema independente do orador é provavelmente fraco para um utilizador que tenha um sotaque, entoação, enunciação, etc. significativamente diferente das amostras experimentais.

Para aumentar o vocabulário aceitável, amostras experimentais suficientes de vocabulário adicional têm de ser obtidas. Isto constitui uma operação demorada, que pode não se justificar se o vocabulário mudar repetidamente.

Sabe-se como obter sistemas de reconhecimento de voz, em que o vocabulário, que um determinado sistema está em condições de reconhecer, pode ser aumentado por um prestador de serviços, fazendo entrar o vocabulário adicional na forma de texto. Um exemplo destes sistemas é o Flexword da AT&T. Neste sistema, as palavras são convertidas da sua forma de texto nas suas transcrições fonéticas, de acordo com regras de linguística. São estas transcrições que são usadas num identificador que tem modelos acústicos de cada um dos fonemas. 0 número de fonemas numa linguagem é muitas vezes uma questão de ponderação e pode depender da linguística -3-

V

particular envolvida. Na língua Inglesa há cerca de quarenta fonemas, como está representado na tabela 1. TABELA 1

Fonema Transcrição Exemplo Fonema Transcrição Exemplo /1/ IY beat /0/ G sing /1/ IH bit /p / P pet /e/ (ey) EY bait /t/ T ten /ε/ EH bet /k/ K kit /$/ AE bat /b / B bet /a/ AA Bob /d/ D debt /A/ AH but /g/ G get // AO bought /h/ HH hat /0/ (ow) ow boat /f/ F fat /u/ UH book /0/ TH thing /u/ UW boot /s/ S sat // AX about /s/(sh) SH shut /3/ ER bird /v/ V vat / aw/ AW down /0/ DH that / aY/ AY buy /z/ Z zoo /V OY boy /_/(zh) ZH azure /y/ Y you /_/(tsh) CH church /w/ W wit /_/(dzh,j) JH judge /r/ R rent /m/ M met /1/ L let /n/ N net -4-

Uma referência aqui feita a fonemas ou subpalavras refere-se a qualquer bloco de construção de palavras convenientes, por exemplo fonemas, fiadas de fonemas, alofones, etc. Quaisquer referências aqui feitas a fonemas ou a subpalavras são intermutáveis e referem-se a esta interpretação mais alargada.

Para efeitos de reconhecimento, pode então ser formada uma rede de textos foneticamente transcrita de modelos memorizados que representam os fonemas individuais. Durante o reconhecimento, a voz entrada é comparada com as fiadas de modelos de referência que representam cada palavra ou frase disponíveis. Os modelos que representam os fonemas individuais podem ser gerados de uma forma independente do orador a partir de sinais de voz de um certo número de oradores diferentes. Podem ser usados quaisquer modelos apropriados, por exemplo os Modelos Hidden Markov.

Um sistema destes não permite quaisquer desvios das transcrições fonéticas normais das palavras, se, por exemplo, uma pessoa tem um forte sotaque. Assim, mesmo que um utilizador tenha pronunciado uma palavra que está no vocabulário do sistema, a voz de entrada pode não ser reconhecida como tal. É desejável estar em condições de adaptar um sistema independente do orador, de tal maneira que ele possa ser usado por um utilizador com uma pronúncia diferente da do orador modelo. A Patente Europeia N°453649 descreve um destes aparelhos, no qual as palavras permitidas do vocabulário do aparelho são modeladas por uma concatenação de modelos representando sub-unidades de palavras, por exemplo fonemas. Os modelos de «palavra», isto é, as concatenações memorizadas, são então experimentadas por uma voz de um utilizador particular pela previsão de novos parâmetros para modelo de palavra da voz do utilizador. Assim conhecidos, os -5- modelos de palavra pré-definidos (formados a partir de uma concatenação de modelos de fonemas) são adaptados para se ajustarem a um utilizador particular.

Da mesma maneira, a Patente Europeia N°508225 descreve também um aparelho de reconhecimento de voz, no qual as palavras a reconhecer são memorizadas em conjunto com uma sequência de fonemas representando a palavra. Durante a experiência, um utilizador profere as palavras do vocabulário e os parâmetros dos modelos de fonemas são adaptados à entrada vinda do utilizador.

Em ambos estes sistemas conhecidos, é necessário um vocabulário pré-determinado sob a forma de sequências concatenadas de fonemas. Contudo, em muitos casos, seria desejável a um utilizador acrescentar palavras ao vocabulário, por exemplo palavras especificas desse utilizador. Um meio conhecido para permitir ao utilizador real esta flexibilidade envolve a utilização da tecnologia dependente do orador para formar novos modelos de palavras, que são então memorizadas num léxico separado. 0 utilizador tem de pronunciar cada palavra uma ou mais vezes para treinar o sistema. Estes modelos dependentes do orador usando as técnicas DTW ou outras semelhantes exigem quantidades relativamente grandes de memória para usar cada padrão de utilizadores. Tipicamente, cada palavra para cada utilizador ocupará pelo menos 125 bytes (e possivelmente mais de 2 kilobytes) . Isto significa que para um vocabulário de 20 palavras devem ser telecarregados entre 2,5 e 40 kilobytes no identificador antes do começo do reconhecimento. Além disso, um serviço baseado numa rede telefónica com exactamente 1000 utilizadores necessitará entre 2,5 e 20 Mbytes de memória de disco exactamente para os padrões dos utilizadores. Um exemplo deste serviço é uma lista de assinantes, na qual o utilizador define as pessoas que quer chamar, de tal maneira -6-

V

pode ser feita que, subsequentemente, uma chamada pronunciando o nome do destinatário. A Patente Europeia N°590173 descreve um sistema, no qual um utilizador que pronuncia uma palavra desconhecida para um sistema de reconhecimento pode corrigir a palavra e adicionar esta palavra ao vocabulário do sistema. 0 único método descrito para tornar a nova palavra conhecida do sistema de reconhecimento é por introdução através de um teclado.

De acordo com a invenção, é proporcionado um método de geração de um vocabulário para o aparelho de reconhecimento de voz, compreendendo o método: a recepção de um sinal de voz de entrada representando uma palavra; a derivação de amostras de caracteristicas do sinal de voz recebido; comparação das amostras das caracteristicas com sequências disponíveis de representações de subpalavras de referência, sendo pelo menos uma destas representações de subpalavras capaz de representar uma sequência de mais de uma amostra de caracteristicas; identificação da sequência disponível de representações de subpalavras, que mais se pareça com o sinal de voz recebido e geração de uma representação codificada da referida sequência disponível e memorização da representação codificada da palavra gerada para subsequente reconhecimento de outro sinal de voz.

Este método permite a um utilizador escolher novas palavras sem a necessidade de formar novos modelos acústicos de cada uma das palavras, sendo cada palavra ou frase modelada como uma sequência de representações de subpalavras de referência única para o utilizador. Isto não exige qualquer conhecimento prévio relativo às palavras a adicionar ao vocabulário, permitindo assim a um utilizador adicionar qualquer palavra ou frase desejadas. -7- \ ρ U,

As representações codificadas de palavras escolhidas por um utilizador podem provavelmente apresentar uma semelhança mais próxima à voz emitida pelo utilizador do que os modelos formados a partir do texto. Além disso, as representações codificadas exigem uma capacidade de memória que é pelo menos de uma magnitude inferior à da memorização de representações de palavra como os modelos DTW, (ainda que isto possa acarretar um ligeiro custo na precisão).

De preferência, a geração da representação codificada é livre de regras gramaticais, isto é, qualquer representação de subpalavra pode ser seguida por qualquer outra. Em alternativa, pode ser usada uma gramática dupla que imponha probabilidades de transição entre cada par de subpalavras ou seja de fonemas. Assim, um par de fonemas que não ocorra normalmente numa determinada linguagem (por exemplo P H na língua Inglesa) tem uma baixa probabilidade de transição.

As representações codificadas de mais de um sinal de voz, que representam a mesma expressão oral, podem ser geradas. Quaisquer anomalias na representação codificada serão então tomadas em conta. Por exemplo, se um sinal de voz é recebido numa linha telefónica com ruído, a representação codificada da expressão oral pode apresentar pequena semelhança com as representações codificadas de uma mesma expressão oral numa linha telefónica sem ruído. Pode ser conveniente receber três sinais de voz experimentais, que representem a mesma expressão oral e não considerar uma representação codificada que difira significativamente das outras. Em alternativa, todas as representações codificadas podem ser retidas. Se sim ou não todas as representações codificadas são armazenadas, é determinado por quem desenvolve o aparelho.

De acordo com um segundo aspecto da invenção, o aparelho de geração de vocabulário compreende meios de derivação para derivar amostras de características de um sinal de voz de -8-

V

entrada; um identificador de subpalavras para gerar a partir de cada amostra de sinal de voz de entrada uma representação codificada identificando uma série de representações de subpalavras de referência, uma sequência de representações de subpalavras de referência que mais de perto se assemelhe ao sinal de voz de entrada; e uma memória para armazenar a representação codificada do sinal de voz de entrada para efeito de reconhecimento posterior. O aparelho destina-se a ficar associado com o identificador de voz, que é configurado para reconhecer as expressões orais representadas pelas representações codificadas. Durante o reconhecimento, o identificador de voz compara os sinais de voz de entrada desconhecidos com as sequências de representações de subpalavras representadas pelas representações codificadas armazenadas na memória, e produz um sinal indicativo do reconhecimento ou o contrário.

De preferência, a gramática do identificador de subpalavras é pouco restrita. Por exemplo, o identificador de subpalavras pode, por exemplo, ser constrangido a reconhecer qualquer sequência de unidades de subpalavras limitada por ruído da linha. Em alternativa, pode ser usada uma gramática dupla que imponha probabilidades de transição entre cada par de fonemas. 0 aparelho de reconhecimento de voz pode ser configurado para reconhecer também algumas palavras pré-definidas. De preferência, as palavras pré-definidas são também memorizadas como representações codificadas de transcrições de subpalavras de palavras pré-definidas. As palavras pré- definidas e as palavras escolhidas por um utilizador são assim modeladas, usando as mesma subpalavras de referência. 0 reconhecedor de voz pode ser configurado de maneira a reconhecer palavras pré-definidas expressas em conjunto com palavras escolhidas pelo utilizador. -9-

V

1-^

De preferência, as representações de subpalavras de referência representam fonemas. Cada representação de subpalavra pode ser um modelo estatístico de uma série de emissões de voz de oradores contendo uma determinada subpalavra. De preferência, os modelos são modelos Hidden Markov, ainda que possam ser usados outros modelos. A invenção será agora descrita apenas a título de exemplo com referência aos desenhos anexos, nos quais: A figura 1 mostra esquematicamente o emprego do aparelho de reconhecimento de voz de acordo com a invenção num ambiente de telecomunicações; A figura 2 é um diagrama de blocos, mostrando esquematicamente os elementos funcionais de um gerador de vocabulário de acordo com a invenção; A figura 3 mostra um exemplo de uma rede de pequeno constrangimento como a usada no gerador de vocabulário da figura 2; A figura 4 mostra um identificador de voz para uso com o gerador de vocabulário da figura 2; A figura 5 mostra um exemplo de uma rede de reconhecimento que é usada com o identificador de voz da figura 4; A figura 6 mostra uma rede de reconhecimento de voz alternativa à representada na figura 5; e A figura 7 mostra uma segunda forma de realização do aparelho de reconhecimento de voz de acordo com a invenção.

Referindo-nos à figura 1, iam sistema de telecomunicações, que inclui identificação de voz, compreende geralmente um microfone 1 (em regra fazendo parte de um microtelefone), uma -10-

V

L-Cj rede de telecomunicações 2 (em regra uma rede de telecomunicações pública comutada - PSTN), um reconhecedor ou identificador de voz 3 preparado para receber um sinal de reconhecimento de voz da rede 2, e a utilização de um aparelho 4 ligado ao identificador de voz 3 e preparado para receber dele um sinal de reconhecimento de voz, indicando o reconhecimento ou o contrário de uma determinada palavra ou frase, e para agir em resposta a esse sinal. Por exemplo, o aparelho de utilização 4 pode ser um sistema de lista de assinantes com operação à distância, no qual o utilizador não digita o número desejado, mas simplesmente pronuncia o nome da pessoa a chamar.

Em muitos casos, o aparelho 4 gerará uma resposta audível pelo utilizador, transmitida através da rede 2 a um altifalante 5, em regra fazendo parte do microtelefone do utilizador.

Durante a utilização, um utilizador fala para um microfone 1, sendo transmitido um sinal do referido microfone 1 para o interior da rede 2 para o identificador de voz 3. 0 identificador de voz analisa o sinal de voz e gera um sinal indicador do reconhecimento ou o contrário de uma determinada palavra ou frase e transmite-o para o aparelho de utilização 4, que então desencadeia acção apropriada no caso do reconhecimento da' voz.

Quando o utilizador usa pela primeira vez o serviço fornecido pelo aparelho de utilização 4, o identificador de voz 3 necessita de adquirir dados respeitantes ao vocabulário, em relação aos quais verifica os sinais de voz subsequentes desconhecidos. A aquisição de dados é levada a cabo por um gerador de vocabulário 9 no modo experimental de operação, no qual o utilizador proporciona a entrada de amostras de voz experimentais, das quais as representações codificadas do conteúdo das subpalavras da voz de entrada -11-

V

L-Cj ^ experimental são geradas para fins de reconhecimento subsequente.

Na figura 2, são representados os elementos funcionais de um gerador de vocabulário 9 de acordo com a invenção. 0 gerador de vocabulário 9 inclui um derivador de caracteristicas 6 para derivar dados caracteristicos de um sinal de voz de entrada, que tenha sido fraccionado numa sucessão de estruturas de grupos de amostras contíguas. As estruturas representam convencionalmente uma amostra de 16 ms da voz de entrada, sendo cada amostra dotada de uma caixa de diálogo (isto é, utilizando uma caixa de diálogo Hamming). Exemplos de derivadores de caracteristicas apropriados são bem conhecidos dos especialistas nestes assuntos e podem compreender alguma forma de técnica de análise espectral, por exemplo um analisador de uma bateria de filtros, uma análise linear de códigos previsíveis ou uma análise de transformação descontínua.

As caracteristicas podem, por exemplo, compreender coeficientes cepstral (por exemplo, coeficientes cepstral LPC ou coeficientes cepstral ou de mistura de frequências descritos na obra «Na Avaliação de Identificadores de Voz e Bases de Dados usando um Sistema de Referência», de Chollet & Gagnoulet, de 1982, proced. IEEE p.2026), ou valores diferenciais destes coeficientes, compreendendo para cada coeficiente a diferença entre o coeficiente e o valor de coeficiente correspondente no vector precedente, como se descreve no documento «No uso de Informação Instantânea e Espectral Transicional no Reconhecimento do Orador», de Soong & Rosenberg, de 1988 IEEE transcrito em Acústica, Voz e Processamento de Sinal, Vol 36 N°6 p.871. Igualmente pode ser usada uma mistura de vários tipos de coeficientes de caracteristicas. 0 derivador de caracteristicas é provido de um processador de sinal digital (DSP) convenientemente -12-

V

programado. 0 conjunto de dados de saída do derivador de características 6 constitui a entrada num identificador de subpalavras 7. 0 identificador de subpalavras 7 está associado com uma memória de modelos de subpalavras 8, tendo modelos HMM, que representam os 40 fonemas indicados na Tabela 1. A memória de modelos 8 possui um campo 81, 82, ..., para cada uma das séries de subpalavras. Por exemplo, o identificador de subpalavras é desenhado para reconhecer fonemas e, consequentemente, é provido de um campo na memória de modelos por cada fonema. 0 identificador de subpalavras 7 está preparado para ler cada campo da memória 8 sucessivamente e calcula para cada um, usando o conjunto de coeficientes de características de entrada corrente, a probabilidade do conjunto de características de entrada corresponder ao respectivo campo. Um sinal que indica o modelo de subpalavra mais provável é enviado e memorizado numa memória de palavras 10. Assim, para cada expressão oral, a memória de palavras 10 memoriza uma representação codificada, indicando a sequência de modelos de subpalavras de referência, que é confirmada pelo identificador de subpalavras para representar mais exactamente a voz de entrada. O cálculo emprega o bem conhecido HMM, que foi discutido em «Modelos Hidden Markov para Reconhecimento Automático de Voz: Teoria e Aplicação», de S J Cox, do «British Telecom Tecnology Journal», VOL 6, N°2, de Abril de 1988. Com vantagem, o processamento HMM levado a cabo pelo identificador de subpalavras 7 usa o bem conhecido algoritmo Viterbi. O identificador de subpalavras 7 pode, por exemplo, ser um microprocessador Intel(TM) I-4861™1 ou o microprocessador 68000 Motorola’™1 ou, em alternativa, ser um -13- t dispositivo DSP (por exemplo, o mesmo dispositivo DSP do extractor de características 6).

Como atrás foi descrito, os modelos de subpalavras associados com o identificador de subpalavras são obtidos de uma maneira independente do orador. As representações codificadas geradas pelo identificador 7 só são, portanto, dependentes do orador na medida em que representam a transcrição fonémica de como um determinado utilizador pronuncia uma palavra. 0 identificador de subpalavras 7 tem uma rede de reconhecimento, que impõe poucos ou nenhuns constrangimentos na sequência possível de unidades de subpalavras que podem ser geradas. Um exemplo de uma rede de fraco constrangimento está representado na figura 3. Esta rede permite o reconhecimento de uma única sequência ligada de fonemas rodeada de ruído. A sequência de fonemas é totalmente livre de constrangimento e as sequências de fonemas que não ocorrem na linguagem da utilização (no exemplo descrito trata-se da língua Inglesa) podem, portanto, ser geradas.

Uma rede de reconhecimento, como está representado na figura 3, proporciona normalmente melhores resultados de transcrição de conversações telefónicas do que uma rede sem qualquer constrangimento, isto é, uma rede sem modelos de ruído antes e depois dos modelos de fonemas. Isto não permite fonemas seguidos por ruído seguidos por fonemas. 0 significado deste facto num sistema prático é que ele poderá melhorar a eficácia do sistema para palavras isoladas ou frases ligadas, mas terá problemas se o utilizador fizer entrar uma frase com intervalos entre as palavras. Por exemplo, numa lista de telefones, se o utilizador diz «John Smith» sem intervalo entre o nome próprio e o sobrenome, esta forma gramatical não causará quaisquer problemas. Se, por outro lado, fizerem um intervalo entre eles, o desempenho -14- V Γ u

ressentir-se-á. Contudo, a rede de reconhecimento do identificador de subpalavras será concebida para responder às necessidades do sistema, isto é, palavras isoladas, palavras ligadas, etc.

Na primeira utilização do serviço, o aparelho de utilização induz o utilizador a indicar as palavras que deseja acrescentar ao vocabulário do identificador. Em resposta a uma indicação audível do aparelho, o utilizador profere uma palavra escolhida no microfone. Num sistema de lista telefónica, esta palavra pode ser o nome de uma pessoa que o utilizador deseje chamar, por exemplo «Jane». 0 gerador de vocabulário deriva características das entradas, que são apresentadas ao identificador de subpalavras 7. À medida que as palavras de entrada são recebidas são comparadas com os modelos da memória 8. 0 identificador de subpalavras 7, que tem uma rede de reconhecimento igual à representada na figura 3, gera uma representação codificada das palavras entradas, identificando a representação codificada a sequência de modelos que mais de perto se assemelhem às palavras de entrada. Assim, é gerada uma transcrição fonémica das palavras de entrada. A representação ou representações codificadas da expressão oral experimental é então memorizada na memória 10. O utilizador é então induzido a repetir a expressão verbal de maneira que seja formada uma sua representação mais consistente. A partir de experiências, verificou-se que a precisão obtida quando se utiliza apenas um sinal de voz experimental foi de 87,8%, enquanto que a precisão obtida quando foram usados três sinais de voz experimentais para a mesma expressão oral cresceu significativamente até 93,7%.

Claramente, uma má qualidade da linha telefónica teria um efeito significativo no resultado da geração. A precisão obtida quando foram utilizados três sinais de voz -15- t Γ experimentais foi também .mais elevada que quando foram usadas transcrições de Pronúncia Recebida idealizadas das entradas de texto, em vez da representação de subpalavras. A Pronúncia Recebida é o sotaque normal da Lingua Inglesa do Sul.

Uma nova indicação é dada ao utilizador, perguntando se quaisquer outras palavras devem ser adicionadas. Se o utilizador responde afirmativamente, (por exemplo usando uma chave DTMF pré-determinada), o processo de reconhecimento é repetido para a palavra seguinte. Se o utilizador responde negativamente, o sistema comuta para o modo de reconhecimento, isto é, o identificador de voz 3 torna-se operacional. Na memória 10 são memorizadas representações codificadas identificando, para cada item de vocabulário adicional, uma sequência de representações de subpalavras de referência.

Uma vez as representações geradas para cada uma das palavras do vocabulário desejadas, o referido vocabulário pode ser usado pelo identificador de voz 3. A figura 4 mostra os elementos do identificador de voz 3. Este identificador de voz 3 compreende um derivador de caracteristicas 6', uma memória de modelos de subpalavras 8' e uma memória de representações codificadas 10, geradas pelo gerador de vocabulário 9. Um gerador de rede 12 é associado à memória 10 e forma uma rede de reconhecimento configurada pelas sequências de representações de subpalavras de referência representadas pelas representações codificadas. Uma tal rede pode ser gerada, por exemplo, combinando as representações codificadas individuais da memória 10 em alternativas paralelas da rede, como se mostra na figura 5, ou combinando a representação codificada numa estrutura em árvore, como se mostra na figura 6, ambas mostrando um exemplo de uma sequência de fonemas identificados em representação -16- p Lc, ^^ codificada de uma expressão oral das palavras «six» e «seven».

Durante o reconhecimento, é passado um sinal de voz de entrada ao dispositivo de derivação de caracteristicas 6' e estas caracteristicas passadas a um identificador 16, que está associado com a rede configurada pelo gerador de redes 12. A voz de entrada desconhecida é comparada com a rede como configurada, sendo emitido um sinal de saida do identificador 16, se se verificar uma conformação muito próxima entre a voz de entrada desconhecida e um dos ramos da rede e dai uma das palavras ou frases representadas pelas representações codificadas. Uma vez ocorrido o reconhecimento, o aparelho utilizado 4 dá o passo apropriado seguinte de acordo com o serviço, por exemplo, digamos que o serviço é um serviço de lista de assinantes e o identificador 16 confirma que a palavra «Jane» foi reconhecida, o aparelho utilizado marcará o número associado ao nome de «Jane». A figura 7 representa uma segunda forma de realização da invenção. Enquanto as figuras 2 e 3 mostram o gerador de vocabulário 9 e o identificador de voz 3 como componentes separados, a figura 7 mostra-os combinados dentro do aparelho de reconhecimento de voz 20. O gerador de vocabulário 9 e o identificador 16 partilham os componentes comuns, por exemplo o derivador de caracteristicas 6, a memória de modelos de subpalavras 8 e a memória de palavras 10 escolhidas pelo utilizador. O aparelho de reconhecimento de voz 20 inclui adicionalmente uma memória 14 de palavras pré-definidas que armazena representações codificadas pré-definidas de transcrições de fonemas de palavras pré-definidas próprias para o aparelho utilizador pretendido. Por exemplo, para um sistema de listas de assinantes, estas palavras pré-definidas podem ser os dígitos 0 a 9, «marcar», «não», «sim», «acrescentar», etc. -17-

V \ \ L-Cj Ο aparelho de reconhecimento de voz 20 está normalmente no modo de reconhecimento, isto é, o sinal de voz de entrada é passado ao identificador 16. Quando o utilizador deseja acrescentar uma palavra ao vocabulário do sistema, o utilizador profere a palavra «acrescentar». Este sinal é passado ao extractor de caracteristicas 6 e estas passadas ao identificador 16. O gerador de rede 12 gera uma rede constituída por todas as palavras representadas nas memórias 14 e 10 (à saída não haverá quaisquer palavras armazenadas na memória 10). 0 identificador 16 compara a entrada com a rede e reconhece a entrada como a palavra «acrescentar» e a resposta faz entrar o modo experimencia, comutando a entrada para o gerador de vocabulário 9. 0 utilizador procede então como na forma de realização anterior, proferindo os nomes que devem ser acrescentados ao vocabulário do sistema. Este identificador de subpalavras 7 do gerador de vocabulário 9 gera as representações codificadas para memorização na memória 10 escolhida pelo utilizador. Contudo, o utilizador pode responder aos sinais do aparelho de utilização de uma maneira vocal, proferindo as palavras «sim» e «não», sendo o sinal de voz de entrada comutado para o identificador 16 quando é esperada uma resposta específica.

Uma vez escolhidas pelo utilizador as palavras desejadas, a rede subsequente gerada pelo gerador de rede 12 combina palavras pré-definidas da memória 14 e palavras escolhidas pelo utilizador da memória 10. O identificador resultante tem uma gramática, na qual algumas das palavras são definidas por sequências de fonemas derivadas da voz do utilizador e algumas palavras são pré-definidas por sequências derivadas de outra fonte. As palavras das duas memórias podem ser combinadas de maneira que, por exemplo, se a palavra «marcar» é pré-definida, a rede de reconhecimento pode ser configurada -18- para combinar «marcar» com cada uma das palavras escolhidas, de maneira que a gramática do sistema leve à ligação das palavras «marcar Jane», sendo «marcar» pré-definida e «Jane» escolhida pelo utilizador. 0 aparelho de reconhecimento de voz, tendo 50% de vocabulário pré-definido, tem uma precisão semelhante a um vocabulário totalmente escolhido pelo utilizador quando apenas um sinal de voz experimental tenha sido considerado. Contudo, a precisão de um tal aparelho é significativamente pior que um vocabulário escolhido totalmente pelo utilizador, quando três sinais de voz experimentais para cada expressão oral forem proporcionados.

Assim, numa outra forma de realização da invenção, o identificador de voz 20 tem o número de palavras pré-definido na memória pré-definida 14 e o número de palavras escolhidas pelo utilizador na memória 10 definida durante o modo experimental. Representações de subpalavras de palavras pré-definidas são geradas a partir de palavras de entrada proferidas por um utilizador durante a utilização do aparelho, passando as caracteristicas dos meios de derivação de caracteristicas 6 ao identificador de subpalavras 7, bem como ao identificador 16. As representações codificadas geradas pelo identificador de subpalavras para o sinal de voz são adicionadas à memória 10. Sinais de voz subsequentes correspondendo às mesmas expressões orais devem corresponder às representações armazenadas na memória 10 com mais proximidade do que as armazenadas na memória 14, tendo como resultado uma precisão aumentada no reconhecimento de palavras pré-definidas.

Lisboa, 31 de Janeiro de 2000

AGENTE OFICIAL DA PROPRIEDADE INDUSTRIAL

-19-

Claims

u REIVINDICAÇÕES 1. Método para gerar um vocabulário para um aparelho de reconhecimento de voz, compreendendo o método: recepção de um sinal de voz de entrada representando uma palavra; derivação de amostras de caracteristicas do sinal de voz recebido: comparação das amostras de caracteristicas com as sequências de representações de subpalavras de referência disponíveis, sendo pelo menos uma das referidas representações de subpalavras capaz de representar uma sequência de mais do que uma amostra de caracteristicas; identificação das sequências de representações de subpalavras de referência disponíveis que mais se pareçam com o sinal de voz recebido e geração de uma representação codificada da referida sequência disponível; e memorização da representação codificada da palavra gerada para reconhecimento subsequente de outro sinal de voz.
2. Método de acordo com a reivindicação 1, em que todas as sequências possíveis de representações de subpalavras de referência estão disponíveis.
3. Método de acordo com a reivindicação 1, em que as sequências de representações de subpalavras disponíveis são restritas às sequências que compreendem representações de subpalavras que representem ruído -1- ) . L-—

\ Γ seguido de representações de subpalavras que representem voz seguidas de representações de subpalavras que representem ruído.
4. Método de acordo com a reivindicação 1, em que o passo de identificação da sequência disponível de representações de subpalavras de referência que mais de perto se assemelhem ao sinal de voz recebido inclui a consideração de parâmetros memorizados representando, cada um, uma probabilidade de transição de uma representação de subpalavra a seguir à representação de subpalavra anterior.
5. Método de acordo com qualquer das reivindicações anteriores, que compreende também o passo de geração de lima rede de reconhecimento a partir de uma ou mais representações de subpalavras memorizadas, representando a referida rede sequências disponíveis de representações de subpalavras num vocabulário gerado.
6. Método de acordo com qualquer das reivindicações anteriores, em que as representações de subpalavras são modelos estatísticos.
7. Método de acordo com a reivindicação 6, em que as representações de subpalavras são Modelos "Hidden Markov".
8. Aparelho para a geração de vocabulário (9) para gerar um vocabulário de um sinal de voz de entrada, compreendendo: uma memória (8) contendo uma série de representações de subpalavras de referência; um derivador de características (6) para receber o sinal de voz de entrada e que pode funcionar para gerar amostras de características desse sinal; -2- μ Γ L-Cj γ iam identificador de subpalavras (7) ligado de maneira a receber as amostras de caracteristicas geradas, tendo o identificador de subpalavras um vocabulário de sequências de representações de subpalavras disponíveis, em que pelo menos uma das referidas representações de subpalavras é capaz de representar uma sequência de mais do que uma amostra de caracteristicas; um identificador de subpalavras, estando preparado para durante o funcionamento: comparar as amostras de caracteristicas recebidas com as sequências de representações de subpalavras de referência disponíveis; e gerar uma representação codificada pela identificação de uma sequência de representações de subpalavras de referência disponíveis que mais de perto se assemelhem ao sinal de voz de entrada; e uma memória de palavras (10) para armazenar a representação codificada do sinal de voz de entrada para subsequente reconhecimento de um outro sinal de voz.
9. Aparelho de acordo com a reivindicação 8, incluindo também um identificador (16) preparado para comparar os sinais de voz de entrada com representações codificadas armazenadas na memória de palavras (10) e para emitir um sinal indicativo do reconhecimento.
10. Aparelho de acordo com a reivindicação 9, que compreende também uma segunda memória (14) de representações codificadas de palavras, representações estas que foram geradas de uma maneira diferente da das representações codificadas armazenadas na memória de palavras. -3-
11. Aparelho de acordo com a reivindicação 10, no qual as representações codificadas de palavras identificam uma sequência de representações de subpalavras de referência.
12. Aparelho de acordo com qualquer das reivindicações 8 a 11, no qual o’ vocabulário define sequências de representações de subpalavras, que compreendem representações de subpalavras, que representam ruido seguido de representações de subpalavras, que representam voz, seguida de representações de subpalavras que representam ruido.
13. Aparelho de acordo com qualquer das reivindicações 8 a 11, no qual o vocabulário define todas as sequências possíveis das representações de subpalavras.
14. Aparelho de acordo com qualquer das reivindicações 8 a 13, no qual a geração de sequências de representações de subpalavras de referência disponíveis que mais de perto se assemelham ao sinal de voz recebido incluem a consideração de parâmetros armazenados representando cada um uma probabilidade de transição de uma representação de subpalavra a seguir a uma representação de subpalavra anterior.
15. Aparelho de acordo com qualquer das reivindicações 8 a 14, no qual as representações de subpalavras são modelos estatísticos.
16. Aparelho de acordo com a reivindicação 15, no qual as representações de subpalavras são Modelos "Hidden Markov". Lisboa, 31 de Janeiro de 2000 agente oficial da propriedade industrial