PT82502B - Processo e dispositivo de comando de processos por via sonora - Google Patents

Processo e dispositivo de comando de processos por via sonora Download PDF

Info

Publication number
PT82502B
PT82502B PT8250286A PT8250286A PT82502B PT 82502 B PT82502 B PT 82502B PT 8250286 A PT8250286 A PT 8250286A PT 8250286 A PT8250286 A PT 8250286A PT 82502 B PT82502 B PT 82502B
Authority
PT
Portugal
Prior art keywords
sound
message
samples
command
signals
Prior art date
Application number
PT8250286A
Other languages
English (en)
Other versions
PT82502A (fr
Inventor
Marc Fridisch
Alain Lipsyc
Charles Chaze
Benoit Dupeyrat
Daniel Tual
Original Assignee
Telic Alcatel Sa La Telephonie
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telic Alcatel Sa La Telephonie filed Critical Telic Alcatel Sa La Telephonie
Publication of PT82502A publication Critical patent/PT82502A/pt
Publication of PT82502B publication Critical patent/PT82502B/pt

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Investigating Or Analyzing Materials By The Use Of Ultrasonic Waves (AREA)
  • Feedback Control In General (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Control By Computers (AREA)

Description

PROCESSO E DISPOSITIVO DE COMANDO DE PROCESSOS POR VIA SONORA
A presente invenção tem por objecto um processo e um dispositivo de comando de processos por via sonora e, em particular, por meio da palavra falada.
há muito tempo que são reconhecidas as vantagens que po
dem ser trazidas pelos processos e os dispositivos que permitem aos seus utilizadores comandar, por meio de mensagens sonoras específicas, o funcionamento de aparelhos, de acordo com processos determinados de antemão.
Em particular, quando estes processos e dispositivos se combinam com os meios de comando manuais clássicos ou os substi tuem,eles aliviam tanto os seus operadores que eles podem, por
exemplo, efectuar em melhores condições os seus trabalhos habituais ou ainda realizar tarefas que não teriam podido realizar de outro modo.
alívio, particularmente importante para * operadores de aparelhos que exigem manobras quase simultâneas ou para defi cientes físicos, é igualmente muito apreciado por todos os uti lizadores aos quais evita uma. manobra útil, mas por vezes fasti diosa ou pouco prática.
Ainda de acordo com esta última circunstância, o estabe lecimento de uma comunicação telefónica por intermédio de um posto telefónico de disco marcador ou de teclado implica mano bras fastidiosas e sujeitas a erros, quando são repetidas ou pou co cómodas de efectuar, por exemplo quando posto telefónico se encontra num ambiente atravancado
Os dispositivos de comando por via sonora apresentam também a vantagem de não necessitar de contacto físico entre o utilizador e o aparelho que ele comanda, o que acessoriamentejrote^ um do outro.
*To entanto, até ao presente, estes processos e dispositivos de comando de processos por via sonora estão ainda pouco desenvolvidos por diversas razões, ligadas nomeadamente ao seu custo e a complexidade dos meios até aqui utilizados
Em particular, estes comandos por mensagens sonoras con vencionadas exigem uma memorização prévia das mensagens pelo dispositivo de comando, que compara tudo o que recebe, sob a for ma sonora, com o que tem memorizado e que traduz por um comando de processo específico todo conjunto de sinais recebidos corres;
pondentes a uma mensagem sonora memorizada.
TTa medida em que as mensagens memorizadas devem ser con servadas de maneira permanente e comparadas com os sinais rece bidos, é vantajoso transcrevê-las sob a forma digital, para fa-
cilitar a sua conservação, nomeadamente em memórias electrónicas, e a sua manipulação por processador digital. entanto, as capacidades de ^emória necessárias e os tempos de calculo ne cessa'rios aumentam muito rapidamente com o comprimento e o núme ro das mensagens memorizadas, o que limitou durante muito tempo o desenvolvimento. Em particular a potência e, portanto, o custo dos processadores necessários têm constituído um travão para esse desenvolvimento.
Além disso, a memorização das mensagens sonoras convencionadas deve fazer-se sob forma semipermanente, se se pretender deixar ao utilizador a possibilidade de as modificar no seu conteúdo, segundo as suas necessidades, no decurso do tempo; isso
não pode fazer-se sem incómodos exagerados a não ser que o dis positivo de comando disponha de uma memória viva, de preferen cia protegida, e de meios para permitir o registo e o apagamen to das mensagens, quando se pretendeu Nesse caso ainda, salvo com arranjos particulares, o custo das memórias vivas necessá rias torna-se rapidamente proibitivo.
Para remediar estes inconvenientes, a presente invenção propõe pois um processo e um dispositivo de comando por via so nora por meio de um dispositivo apto para reconhecer diferentes
mensagens sonoras previamente memorizadas, quardo as recebe iso
1aderente, e para comandar, em conformidade com as mesmas, o funcionamento de uma aparelhagem segundo um processo específico, que é função da mensagem sonora rececida. Segundo a presente invenção, este processo compreende as seguintes fases:
- codificação permanente, sob a forma de Uma sucessão de amostras MIC , dos sinais sonoros recebidos pelo dispositivo;
- determinação do valor médio da energia dos sinais sono ros recebidos, chamados de ruído ambiente, na ausência da men-
sagem;
- busca simultânea, por um lado, por medição de energia, das amostras MIC, ditas energéticas, que ultrapassam um limiar mfnimo de energia, evolutivo, definido em função do nível de ruído ambiente tal como é determinado atrás e, por outro lado, por medição de frequência, das amostras MIC , ditas fricativàs, correspondentes a sinais de frequências vocais;
• determinação do início, do corpo e do fim de qualquer série de sinais sonoros susceptíveis de corresponder a uma men sagem potencial, tomando em conta as séries de amostras energé ticas e/ou fricativas eventualmente misturadas com amostras de
Λ ·
silêncio, entre duas séries de amostras de silêncio de durações mínimas predeterminadas;
- transcodificação das amostras MIC para palavras de extremos e de silêncios cada uma das quais fornece, sob a for ma de uma informação digital, uma indicação de lapso de tempo entre dois extremos sucessivos dos sinais sonoros recebidos;
- contabilização, sob a forma de histogramas sucessiva me^te estabelecidos, por uma sucessão de janelas temporais com a mesma duração, ao longo de uma série de sinais recebidos con
siderada como uma mensagem sonora evenhial, dos lapsos de tempo entre extremos classificados para cada janela temporal em fun ção das su^s durações respectivas e com passos respectivos de incrementação correspondentes a estas durações;
- memorização temporária da forma de referência composta dos dados binários correspondentes ao conjunto de histogramas realizados, para uma série de sinais recebidos considerada como
uma mensagem sonora eventual;
comparação dinamica da forma de referencia temporariamente memorizada de uma série de sinais recebidos com as formas de referência, tomadas uma a uma, das diferentes mensagens sonoras memorizadas previamente de maneira permanente;
- envio de uma informação digital de comando, específica, quando da detecção de uma identidade entre as formas de referên cia de uma mensagem sonora de comando memorizada e de uma série de sinais recebidoê,
A presente invenção, as suas c^racterístieas e as suas vantagens são precisadas na descrição que se segue, com referên cia aos desenhos anexos cujas figuras representam:
A fig. 1, um esquema simplificado de um dispositivo de
comando por via sonora segundo a presente invenção, associado a um aparelho comandado;
A fig. 2, um organigrama que resume as diferentes possi bilidades de exploração de um dispositivo de comando do tipo de uma marcador telefónico com comando vocal associado a um apare lho do tipo de terminal telefónico;
As fig. 3A e 3B, um organigrama que resume o autómato de recolha da mensagem sonora segundo a presente invenção;
A fig. *+, uma representação simplificada do principio fig.
de codificação por extremos;
5, um exemplo de histograma;
6, um esquema que mostra o princípio de compara fig.
ção entre dois histogramas; e fig.
duas formas de
7, uri diagrama matricial referência.
de comparação entre dispositivo de comando por via do na fig. 1, destina-se a ser associado sonora. (1), representa a uma aparelhagem (2) com a finalidade de comandai; pelo menos parcialmente, o funcio-
namento desta aparelhagem de acordo com processos convencionares de antemão.
São numerosas as variantes de dispositivos de comando e de aparelhangens susceptíveis de realizar a presente invenção, considerando-se aqui, a título de exemplo, que o dispositivo de comando (1) se destina a constituir um marcador de números tele fónicos, apropriado para ser comandado por via sonora, na maioria dos casos por palavras, e que a aparelhagem (2) é um posto ou terminal telefónico, por exemplo um terminal de informação, que integra num mesmo aparelho um posto eterminal informático com microprocessador, um. visor e um teclado.
Faz-se referência a um terminal telefónico de informação deste tipo por exemplo no artigo Terminaux personnels d'information ã usage prof essionéln, publicado no número 1 de Março de 1984 ds revista Commutation et Transmission. 0 terminal compreende os elementos habituais de um posto telefónico destinados destinados a permitir a ligação a uma rede telefóni ca por uma. linha usual e, por consequência, o estabelecimento
de comunicações com qualquer outro assinante para uma convers^ ção ou uma permuta de dados. *Ta ^aioria dos casos estas opera ções são efectuadas sob o contrõlo de um dispositivo lógico de gestão com microprocessador e memórias. 0 terminal de lista telefónica referido anterior-ente compreende igualmente Um modem que lhe permite a permuta de informações sob a forma digital, por exemplo com um equipamento servidor de dados distante, através da linha e da rede telefónica a que está ligado.
visor permite afixar as informações transmitidas ou a transmitir, através do modem, e o teclado permite introduzir ordens e dados destinados ao dispositivo lógico de gestão e, eventualmente, a um assinante distante, com o qual se estabeleceu uma comunicação.
dispositivo de comando (1), que é neste caso um marcador telefónico destinado a ser comandado por via sonora,está previsto para permitir a um ou vários utilizadores habilitados obter a marcação do número de chamada de diferentes assinantes telefónicos de uma rede pela simples geração de mensagens sono ras convencionadas de antemão, por exemplo pela simples pronún cia do nome de um destes assinantes na proximidade de um micro fone do marcador ou do aparelho comandado. Isso permite nomeadamente uma exploração de tipo mãos livres.
X
Devido às inúmeras possibilidades de pronúncia de uma mesma palavra por indivíduos diferentes é necessário prever uma fase prévia de aurendizagem, no decurso da qual o dispositi vo de comando (1) extrai pelo menos certas caracteristicas es senciais de uma mensagem sonora recebida para que fique apto a reconhecê-la, se ela for repetida.
Cada utilizador potencial, ou locutor, deve pois utili zar um procedimento de aprendizagem que lhe permitirá fazer com que o dispositivo de comando (1) reconheça as diferentes mensagens sonoras personalizadas, por intermédio das quais ele pretende comandar a aparelhagem (2).
No exemplo de realização aqui considerado, as mensagens sonoras podem ser diferentes, semelhantes ou eventualmente idên ticas para os diversos locutores segundo as necessidades; os re pertórios respectivos dos locutores habilitados podem conter por
exemplo mensagens correspondentes a nomes completamente diferen tes e outras a nomes idênticos pronunciados de maneira diferente, outras ainda a nomes completamente idênticos, se correspondem a sons gerados de maneira sempre idêntica por um aparelho.
Qualquer que seja a utilização do dispositivo de coman do por via sonora (1) segundo a presente invenção e a sua integra ção ou não na aparelhagem (2) que ele comanda, ele compreende meios essenciais, partilhados ou não, que foram aqui agrupados na cercadura (1) da fig. 1.
Como se indicou antes, são muito diversas as aparelhagens que podem servir, mas têm como caracteristicas comum serem apropriadas para assegurar a execução de processo determinados quando da recepção de ordens individualizadas provenientes, usual mente sob a forma de dados digitais, dos dispositivos de comando (1) de que denendem, pelo menos parcialmente, quando estes
dispositivos recebem uma das mensagens sonoras que estão aptos a reconhecer.
De maneira habitual, os dados digitais permutados entre um dispositivo de comando por via sonora e um aparelho transitam por ligações por fios directas, quando o dispositivo de comendo está integrado no aparelho que ele serve ou quando está junto ou ligado ao mesmo por uma ficha, tal como (3), e eventualmente por um cabo de ligação, aqui simbolizado por (L3). Pode evidentemente também encarar-se a hipótese de uma ligação sem fios, por intermédio de emissores e receptores sintonizados.
Uma interface de adaptação (10), mais ou menos complexa, está ligada, aqui na extremidade de ligação (L3), no dispositivo de comando por via sonora (1), a qual assegura, pelo menos parcialmente, as diversas adaptações necessárias para as permutas com a aparelhagem (2) comandada, bem como, por exemplo, uma protecção contra as sobretensões e as inversões de polaridade, quando o dispositivo de comando (1) não está integrado no aparelho (2).
As mensagens sonoras que são emitidas directa ou indirectamente pelos utilizadores com vista a. comeoxÈffáapsremanem (2‘; são recebidas por intermédio de um microfone clássico (11).
Este microfone (11) está por exemplo integrado no dispositivo de comando (1), se este estiver numa caixa independen te, fazendo eventualmente parte da aparelhagem (2), em particular se esta for um posto ou terminal telefónico que permite a conversação; está eventualmente ligado por fio ou por via hertziana ao dispositivo de comando ou ao aparelho, se necessário.
Um conjunto amplificador-filtro (12) permite «daptar o nível sos sinais recebidos no microfone (11), em especial em função do ruído ambiente na ausência de mensagem, de maneira a fornecer mensagens de nível aceitável a um codificador analógico-digital (13)/ colocado a jusante. Este conjunto amplificador-filtro (12) está ligado pela maneira habitual por exemplo por meio de uma cadeia de amplificadores operacionais que permitem a adaptação de nível atrás referido e uma eliminação das frequências baixas devidas ao ruído ambiente e aos fenómenos de eco, que são captadas pelo microfone, nomeadamente quando este for omnidireccional.
codificador (13) é por exemplo o de um codificadordescodificador-filtro (designado por COFIDEC) clássico, usual em telefonia, sendo classicamente comandado por um? base de tempo (14) de modo a fornecer, de 125 e^ 125 microssegundos, um
octeto de amostra codificada MIC , segundo « lei A , tal como definida na Recomendação G711 da CCITT.
As amostras provenientes do codificador sao fornecidas ao dispositivo lógico do meio de comando que compreende, na maioria dos casos, um microprocessador (15), classicamente asso ciado a memórias (16) e (17), uma viva e outra morta. A memória viva tem segurança pelo menos parcial no caso de corte da alimentação, para evitar as perdas de informações asseneiais modificáveis e em particular o apagamento involuntário das mensagens sonoras de comando que nelas se memoriza, com vista a sua comparação ulterior com os sinais sonoros recebidos, através do microfone, depois da aprendisagem.
No exemplo representado, as memórias (16) e (17) são classicamente endereçadas pelo microprocessador (15), através de um descodificador de endereços (18) ligado a estas memórias por uma ligação serie (L18); uma linha omnibus de dados comum
(L15) liga uma porta do microprocessador (15), as memórias (16) e (17) e o descodificador.
Outras portas do microprocessador (15) ligam aqui o mi croprocessador a interface (10) e ao codificador (13) para as suas permutas de dados digitais.
organigrama simplificado apresentado na fig. 2 refere-se a um exemplo de exploração de uma aparelhagem (2) comandada por um dispositivo de comando por via sonora (1), quando a aparelhagem (2) for o terminal de informação atrás referido e o dispositivo de comando (1) for o marcador telefónico também referido antes.
De uma maneira geral, depois do arranque 7 bloco (4)_7, por um lado, do terminal de informação, devidamente ligado a u^a linha telefónica e alimentado electricamente e, por outro lado, do marcador telefónico com comando por via sonora, quatro possibilidades de exploração são aqui susceptfveis de ser escolhidas, como se indica no bloco (5).
Duas explorações são independentes do marcador, es explorações normais do terminal de informação, dizendo as outras duas respeito a.o comando do terminal de informação pelo marca dor.
As duas primeiras explorações, simbolizadas pelos blocos (6) e (7) referem-se, respectivamente, à constituição de um repertório que permite comandar um processo clássico de cha mada de um número de assinante a partir de uma.mensagem pré-registada de tipo alfanumérico e, por outro lado, o conjunto dos outros processos que põem em jogo o terminal telefónico de informação, sem intervenção do marcador can comando por vi^ sonora, sendo aqui conglderada apenas a primeira das duas exploraçoes
Para esta exploração, o utilizador memoriza uma mensagem alfanumérica na memória do terminal da lista telefónica pa_ ra cada número de· chamada de assinante telefónico que pretenda repertoriar, a fim de poder desencadear a chamada dos postos destes assinantes de maneira simplificada.
Esta colocação em. memória faz-se classicamente por tabu lação do numero de chamada e das mensagens correspondentes no teclado do terminal de lista telefónica, em associação com a actuação nas teclas de função apropriadas. Ela permite ulteriormente chamar de novo, de maneira simples, qualquer número de chamada memorizado e/ou afixar no visor do terminal s lista telefónica total ou parcial, se for necessário.
As outras duas explorações põem em jogo o marcador e estão respectivamente ligadas à. composição de um repertório dos co mandos vocais (8) considerados e à exploração (9) deste repertório para activar o terminal de lista telefónica em função dos co mandos vocais memorizados, que são desenvolvidos no seguimento.
De uma maneira geral, quando um dispositivo de comando por via sonora (1) está a funcionar, o seu microfone (11) alimen ta o seu codificador (13) de maneira contínua e este último fornece sem interrupção um sinal codificado MIC que apresenta uma amostra todos os 125 microssegundos. Como a capacidade de memória e os tempos de comparação aumentam com o comprimento e o número das mensagens, tal como se referiu anteriormente, estas têm em geral uma dimensão limitada e o número de locutores habilitados é igualmente limitado. Além disso, a mensagem sonora deve ser produzida de maneira isolada, a fim de permitir uma boa apre ciação do seu início e do seu fim.
Com a finalidade de limitar os volumes de dados numeri cos correspondentes respectivamente às mensagens memorizadas de maneira semipermanente e aos sinais sonoros temporariamente memorizados para serem comparados, o processo e o dispositivo de comando por via sonora segundo a presente invenção prevê uma transcodificação compressiva que toma em conta a energia dos si nais a memorizar.
Esta transcodifieaçao baseia-se em primeiro lugar no pro cesso descrito na patente de invenção francesa N2 2.252.793 e to
ma em consideração a energia do sinal inicial e, mais especifica mente, os valores das amostras I-IIC correspondentes aos extremos do sinal recolhido pelo microfone (11) (fig. 4).
As amostras correspondentes aos extremos do sinal reco
Ihido sao transcodifiçadas em palavtás denominadas palavras de ex tremo, cada uma delas constituída por dois octetos, um dos quais fornece uma indicação relativa à amplitude do extremo obtido a partir da amostra correspondente e a outra uma indicação relati va ao lapso de tempo que separa esta amostra da amostra correspondente ao extremo anterior.
A transcodificaçao escolhida baseia-se assim, em segun do lugar, no processo complementar descrito no pedido de paten te de invenção francesa 172 2.545.3°1 que permite codificar econo micamente os silêncios e determinar um limiar de silêncio evolu tivo tendo em conta 0 ruído ambiente, quando se recolhem os sinais sonoros pelo microfone (11) e 0 nível do sinel sonoro propriamen te dito.
A codificação dos silêncios efectua-se com o auxílio de palavras de silêncio, eventualmente repetidas, que são constituí das, cada uma, por dois octetos correspondendo um deles a uma descrição especifica do estado de silencio que se produz quando
lâ se tenha reconhecido esse estado, e o outro a uma indicação re lativa à duração do silêncio medido tomando como unidade de tem po por exemplo 12? microssegundos.
tratamento dos silêncios do sinal recolhido arranca em consequência de uma operação de aquisição que exige previamente « recepção de uma referência, de sincronização proveniente ds base de tempo (14), eventualmente através do codificador (13), para inlcializar o tratamento de cadaaniróaTWxeoelítía deste codifica dor (13.
Todas as «mostras MIC recolhidas são submetidas a uma operação de comparação da sua amplitude em relação a um v«lor prescrito que permite classifica-las em função do seu valor em relação ao nível tomacb neste instante como referência numa faixa de energia dada.
Em um exemplo teórico que compreende três faixas bomoté ticas de energia, tem-se pois três valores prescritos de saída e, num instante dado, é considerada apenas uma das três faixas; é o que se denomina uma faixa corrente. wa prática apenas se
consideram as amplitudes das amostras MIC codificadas na lei A e despreza-se o sinal destas amostras, o que conduz a ter apenas um limiar prescrito de saída por cada faixa, em vez de dois.
Se a amplitude de uma amostra recolhida for inferior ao limiar de saída em vigor, decrementa-se um contador progressivo-degressivo limitado, denomirado contador de saída de silêncio, na medida em que este não esteja já no limite de contagem degres siva, isto é, em zero, e compreendendo-se que qualquer emissão de amostras arranca, classicamente, por uma fase de silêncio.
Se a amplitude de uma amostra for superior ao valor prescrito de saída, incrementa-se u- contador progressivo-degressivo de saída de silêncio com um passo de incrementação de preferência maior do que o passo de decrementação correspondente, de maneira a privilegiar os sinais úteis em relação aos silêncios e a não levar em conta os parasitas de curta duração.
Se a incrementação do contador progressivo-degressivo de silêncio não tiver como consequência, uma ultrapassagem da ca P8cidade de contagem deste contador, incrementa-se um segundo contador, denominado contador de duração do silêncio, que é igualmente incrementado quando se verificar uma escolha em fase de silêncio de uma amostra de amplitude menor que o valor pres crito em vigor.
Se a incrementação do contador de duração de silêncio não conduzir à ultrapassagem da capacidade de contagem deste contador além de um limiar de contagem, de duração, a operação continua voltando h operação de busca de referência de sincroni zação prévia antes da recolha de uma amostra.
Se a incrementação do contador de duração de silêncio conduzir a uma ultrapassagem da contagem para além do limiar de contagem de duração, o microprocessador (1?) gera uma palavra de silêncio.
wo seguimento da produção de uma tal palavra de silêncio, o contador de duração de silêncio é reposto no zero e a operação continua voltando à operação de busca de sinalização prévia anterior à recolha de uma amostra.
Se, a seguir à incrementação do contador de silêncio, se atingir o limiar de saída de silêncio, gera-se uma palavra de fim de silêncio, que se apresenta sob uma forma análoga à de uma palavra de silêncio e compreende portanto um conjunto de dois
' octetos que incluem o mesmo descrita? que a palavra de silêncio e uma indicação de duração de silêncio correspondente ao conteu do contador de duração de silêncio. Os diferentes contadores de silêncio são em seguida repostos no zero.
tratamento de entrada em fase de silêncio arranca por meio de uma operação de recolha que implica uma operação de bus ca de uma referência de sincronização MIC , tal como o tretamente das fases de silêncio estabelecido.
Em seguida a esta recolha de amostra, a amplitude desta é comparada a um valor prescrito de entrada em fase de silêncio, tal como anteriormente, havendo pois um valor prescrito de entra da para cada faixa e o valor tido em conta é o da faixa corrente.
Se a amplitude da amostra MIC corrente não for inferior ao valor prescrito de entrada, decrementa-se de um passo um contador degressivo limitado de entrada de silêncio, desde
que esse contador não esteja já no limite da contagem degressi va; a srçostra é então submetida a uma fase de codificação.
Se a amplitude da amostra MIC corrente for menor do que o valor prescrito de entrada, o contador degressivo de entrada de silêncio é incrementado com um passo de incrementação menor do que o passo de decrementação para também aqui privilegiar os sinais úteis em relação ao silencio.
Se a contagem de entrada de silêncio não ultrapassar um valor de limiar de entrada de silêncio, a amostra MIC é subme tida a fase de codificação; caso contrário, esta fase é abandonada e há uma geração de uma palavra de extremo, ou seja aqui um octeto, que compreende uma indicação de amplitude nulo e uma indicação de tempo, correspondente ao lapso de tempo que separa esta amostra da amostra que conduziu a um extremo ou a um pseu16
do-extremo anterior, sendo este termo definido ulteriormente.
Além disso, verifiua-se que a faixa corrente é idêntica à faixa anterior, segundo um processo igualmente mencionado mais adiante de maneira a gerar eventualmente uma palavra de mu dança de faixa. Depois da reposição no zero dos contadores de silêncio, as amostras MIC ulteriores já não serão, pelo menos temporariamente , submetidas a. este tratamento de entrada em fase de silêncio, mas sim ao tratamento das fases de silêncio esta
belecido.
A medição de energia do sinal a partir das amostras MIC tem essencialmente como finalidade determinar a faixa, de codificação a utilizar para a codificação das amostras MIC .
Esta medida é incluída num tratamento de escolha de faixa que implica uma. operação de recolha de amostra MIC , precedi da por uma operação de busca de referência de sincronização MIC, permitindo determinar a faixa de codificação corrente das amos tras em palavras de extremo.
Para esse fim, cada amostra MIC é rectificada, por eliminação do seu bit de sinal por uma máscara, por um lado, e, por outro lado, filtrada por meio de um filtro passa-baixo que forne ce o valor médio da energia do sinal codificado. De preferência, realiza-se um filtro com constante de tempo suficientemente gran de para dar um valor de longo prazo da energia. De preferência também o valor da energia deve variar suficientemente depressa na saíd» de um silêncio para evitar uma correcção excessiva do sinal.
filtro está pois adaptado à amplitude do sinal e possui um ganho de entrada variável, sendo o critério de adaptação baseado numa comparação do sinal e da energia medida de maneira que
o ganho do filtro seja unitário, quando a amplitude do sinal for inferior b. energia medida e o ganho do filtro for maior do que a unidade, quando a amplitude deste sinal for superior a energia medida.
De acordo com uma foana de realização preferida, este
filtro passa-baixo á um filtro digital de primeira ordem, defini do classicamente por uma equação da forma l(z) = G<I(z) + BI* •Y(z)* z , na qual G é o ganho de entrada e BI um coeficien te de ponderação de forma co-sinusoidal, função da frequência de corte do filtro e da frequência de amostragem.
contrôlo do tempo de resposta do filtro é realizado por variação do seu ganho após comparação da amplitude da amos tra corrente com a anterior.
nível de energia atingido pelas amostras permite determinar a faixa de codificação das amostras em palavras de ex tremo.
Com a finalidade de se obter uma definição precisa das amplitudes de palavra de extremo, tanto para amplitudes reduzidas como para as grandes amplitudes, prevêem-se várias faixas de codificação com escalas diferentes e valores de limiar de entrada e de saída de silêncio respectivamente equivalentes; como se viu , são usadas três faixas no exemplo de realização consi derado.
A fase de codificação das amostras MIC em palavras de extremo compreende em primeiro lugar uma mudança de lei de conversão que permite traduzir sob a forma binária crescente a amplitude de uma amostra MIC codificada na lei logarítmica A .
Uma segunda operação tem em conta o sentido de variação das amplitudes de amostras sucessivas com vista a determinar se
a amostra varia no sentido determinado para a amostra anterior, de maneira a detectar o aparecimento de um extremo do sinal codi ficado que se traduz por uma mudança de sentido de variação para a amostra corrente e que indica que a amostra anterior correspon de a um extremo de sinal.
wo caso da mudança do sentido de variação, a amplitude desta variação é comparada a um valor prescrito de amplitude corrente que é função da faixa de codificação corrente, como os valores prescritos de entrada e de saída de silêncio.
Se a variação de amplitude for superior ao valor prescri to de amplitude corrente, é desencadeada a geração de uma palavra de extremo.
Para esse fim, a amplitude da amostra correspondente ao extremo e transcodifiçada, por intermédio da tabela de codifica ção corrente, numa indicação de amplitude de extremo destinada a integrar-se numa palavra de extremo.
Mo exemplo aqui descrito, esta palavra de extremo com a
referência (Ml) apresenta-se sob a forma de um octeto, do qual cinco bits são atribuído a indicação de amplitude e os outros três bits a indicação do lapso de tempo que separa a amostra de extremo corrente, cuja indicação de amplitude está junta, da amostra de extremo anterior.
Este lapso de tempo é contabilizado por um contador de duração da palavra de extremo, que é reposto no zero quando se gera cada uma das palavras de extremo, ou de pseudo-extremo, como se indica adiante.
Incrementa-se o contador de duração de palavra de extremo se a variação de amplitude da amostra corrente em relação h amostra anterior for inferior ao valor prescrito de amplitude
corrente, quando tiver havido mudança de sentido de variação; enquanto o contador não tiver atingido um limiar de contagem determinado mais adiante, efectua-se novamente uma fase de tratamento de escolha de faixa.
Se o contador de duração de palavra de extremo ultrapas-
sar um certo limiar de contagem (Sm) correspondente aos três bits de indicação de lapso de tempo, é desencadeada a geração de uma palavra de extremo (Ml).
Se, pelo contrário, a variação da amplitude da amostra corrente for no sentido de variação determinado pela amostra anterior, o contador de duração de palavra de extremo é incrementa do. Se, neste último caso, o contador ultrapassar o limiar de contagem, é desencadeada a geração de uma palavra de pseudo-extremo; no caso contrário, efectua-se novamente a fase de tratamento de escolha de faixa após a recolha da amostra MIC seguin te.
A geração de uma palavra de extremo ou de pseudo-extre-
mo tem como consequência a reposição no zero do contador de duração de extremo e uma verificação de escolha de faixa, comparando a faixa corrente determinada pela amostra corrente com a faixa anterior determinada para a amostra de extremo ou de pseudo-extremo que acaba de ser produzida. Se a medição de energia efectuada nestes dois casos conduziu a duas faixas diferentes, produz-se uma palavra de mudança de faixa M2. Esta palavra M2 compreende essencialmente um descritor constituído por cinco bits e uma indicação de mudança de faixa em três bits.
fo caso atrás mencionado, no qual houve a geração de uma palavra de mudança de faixa M2, e no caso em que a última medição de energia conduziu à escolha da mesma faixa que para o ex-
tremo ou pseudo-extremo anterior, efectua-se novamente um trata mento de escolha de faixa para a amostra seguinte.
Obtém-se pois uma sucessão de palavras, aqui de dois octetos cada uma, correspondentes a codificação dos extremos e dos silêncios do sinal sonoro recolhido pelo microfone (11), a partir da sucessão dos sinais codificados MIC fornecidos pelo codificador (13).
processo e o dispositivo de comando por via sonora se gundo a presente invenção tem por objecto apenas o reconhecimen
to de certas mensagens sonoras, entre um conjunto de sons susceptíveis de ser captados pelo microfone, não sendo portanto, co mo é evidente, necessário poder conservar os sinais recolhidos para além do tempo necessário para as suas comparações, com excepção dos que são recolhidos com vista a constituir as mensagens sonoras de comando.
Como atrás se indicou, qualquer comando por via sonora implica uma tomada em consideração prévia das mensagens sonoras de comando. Essa, tocada em consideração prévia faz-se classica
mente no decurso de uma fase de aprendisagem durante a qual o locutor ou os locutores, habilitados a comandar por via sonora, dão individualmente a conhecer as mensagens sonoras que preten dem utilizar, podendo esta fase ser retomada ao longo do tempo consoante as necessidades.
Cada mensagem sonora destina-se a ser reconhecida, mesmo num ambiente ruidoso, quando é pronunciada de maneira isolada.
autómato correspondente ã fase de recolha de mensagem sonora em aprendizagem e em reconhecimento de mensagem está resumido no organigrama indicado nas fig. 3A, 3B.
Esta fase implica a utilização de várias rotinas de tra tamento, iniciando-se, com cada registo de mensagem sonora, por uma determinação prévia do nível de ruído ambiente e por conseguinte dos limiares escolhidos para a detecção das informações de mensagem sonora, sendo esta determinação efectuada a partir das amostras MIC fornecidas pelo codificador (13)·
A rotina correspondente é denominada de cálculo de energia e está simbolizada pelo bloco (20); permite determinar a fai xa corrente e os limiares correspondentes a partir de uma série de, por exemplo, 2$6 amostras de ruído ambiente recolhidas antes do início do registo de uma mensagem.
Como se indicou antes, qualquer registo propriamente dito deve ser precedido por uma fase de silêncio mínima, para facilitar o seu reconhecimento, e em especial a detecção do início de mensagem. Uma contagem permite pois tomar em conta um início de mensagem apenas se ele tiver sido precedido por um tempo mínimo de silêncio prévio, que é por exemplo escolhido igual a trinta
milissegundos, correspondendo este tempo k operação de detecção de tempo de silêncio mínimo referenciada em (21) na fig. 3A.
Uma rotina de determinação da natureza do sinal (22) tem por objectivo levar em conta os silêncios estabelecidos por uma segunda contagem de silêncio que permite voltar em anel à rotina de cálculo de energia (20) quando a duração do silêncio ultrapassar um valor de limiar nitidamente maior do que o tempo mínimo de silêncio prévio e correspondente, por exemplo, a 1 segundo; Esta segunda contagem está simbolizada na fig. 3A pelo bloco (23) intitulado detecção de silêncio estabelecido.
Simultaneamente, a rotina de determinação de natureza de sin*l permite levar em conta qualquer início de mensagem sonora
que intervém depois de decorrido um tempo pelo menos igual ao tempo mínimo de silêncio prévio, sendo essa tomada em conta considerada quer na sequência de uma operação (24) de tomada em conta de amostras energéticas, depois de ultrapassada a capacidade de contagem do contador progressivo-degressivo de saí da de silêncio activado pelo aparecimento de amostras com valo res maiores do que o limiar de saída de silêncio em vigor na faixa corrente, quer na sequência de uma operação (2?) de toma da em conta de fricativas.
Com efeito, as fricativas apresentam uma energia fraca, que pode ser inferior aos limiares de detecção, o que cria o risco de conduzir a um erro de determinação do início ou do fim da mensagem sonora, por exemplo da ordem de 50 ms.
Pelo contrario, estas fricativas têm um espectro rico em altas frequências que permite diferençá-las do ruído ambiente e levá-las em conta, por detecção e contagem das passagens por zero do sinal recolhido. Isso faz-se facilmente por contagem das mudanças de sinal das amostras MIC fornecidas sucessi
vamente pelo codificador no decurso de uma janela temporal. Escolhe-se um limiar de detecção correspondente a uma frequência média mínima admissível, por exemplo de 2 KHz, e fixa-se uma amplitude mínima de amplitude de variação, para eliminar os erros de quantificação devidos ao codificador (13).
A detecção de fricativas após um tempo de silêncio supe rlor ao tempo mínimo de silêncio prévio conduz a uma rotina cor firmativa de presença de fricativas (26), que conduz, por conta gem de duração, à diferenciação dos inícios de fricativas longos de mensagem sonora dos que são considerados como curtos, por duas operaçoes (27) e (28) que conduzem a resultados diferen
tes.
A detecção de um início fricativo curto (27) para o qual a duração de presença de sinal fricativo é por exemplo inferior a um limiar de 48 ms conduz a uma rotina de determinação da presença de um início de mensagem (29), à qual também conduz a operação (24) que conduziu à tomada em conta de amostras ener géticas.
A detecção de um início fricativo longo (28) para 0 qual a duração de presença do sinal fricativo é superior ao valor de limiar atrás mencionado, conduz a. uma rotina de tratamento do corpo de mensagem sonora (30) representada nas fig. 3A e 3B.
A rotina de determinação de presença de um início de men sagem (29) permite tomar em conta os inícios reais de mensagem sonora por uma operação de contagem de duração de presença de amostras energéticas para além de um valor de limiar determinado, por exemplo da ordem de 70 ms, no seguimento da tomada em conta de um início fricativo ou energético. Esta operação (31), denominada detecção de início de mensagem energética longo, conduz a rotina de tratamento do corpo da mensagem sonora (30).
A rotina de determinação de presença de um início de men sagem (31) permite igualmente tomar em conta os silêncios que in tervém após um início fricativo ou energético por uma operação de tomada em conta de silêncio (32) baseada no processo de deter minação de silêncio descrito no pedido de patente de invenção francesa citado antes e igualmente relembrado mais atrás, do mes mo modo que a rotina indicada adiante. A operação de tomada em conta de silêncio (32) conduz a uma rotina de determinação de duração de silêncio (33), destinada a. determinar se se trata de uma. pausa na mensagem ou de um silêncio durável. Para isso, ou o
aparecimento de amostras energéticas conduz b retomada d? operação (2b-) de tomada e« conta destas amostras, ou o silêncio pros segue para além de um limiar predeterminado, por exemplo da ordem de 10 ms, correspondente a um silêncio prolongado, que se detecta por simples contagem, por meio de uma operação (34·), denominada de detecção de silêncio prolongado.
no seguimento de uma tal detecção, a fase de recolha prossegue por uma retomada da rotina de determinação de natureza de sinal (22) já mencionada.
A rotina de tratamento do corpo de mensagem sonora (30) produz-se sempre que sejam detectadas amostras energéticas e/ou fricativas pela utilização dos processos correspondentes atrás mencionados e que não são nova·ente aqui descritos; esta rotina termina se a mensagem sonora continuar durante um intervalo de tempo maior do que um valor fixado em função da capacidade da memória prevista para o registo permanente de uma mensagem sonora, ou se se detectar o fi·* da mensagem.
Uma operação (35) de detecção de silêncio é efectuada no quadro da rotina de tratamento, baseada no processo descrito no pedido de patente atrás mencionado e recordado anteriormente e realizada apenas na ausência de fricativas.
Uma operação (36) de tipo de contagem te- por finalidade interromper a rotina de tratamento de mensagem quando a mensagem sonora vai prosseguir para além da capacidade de memoriza ção nominal por mensagem, conduzindo esta operação, denominada de limitação de comprimento da mensagem, a uma rotina, de rejeição de mensagem (37)· *Ta aplicação atrás mencionada, esta roti na conduz, por uma operação (4-7), à afixação no visor do terminal de informação de uma indicação visual do motivo da rejeição, eventualmente em associação com a chamada da mensagem listada
correspondente s mensagem sonora rejeitada, nomeadamente se se admitir que um enunciado muito mais lento da mensagem possa con duzir a uma rejeição de uma mensagem de comando admissível sob forma tabelada.
A detecção de um silêncio pela operação de detecção (35) conduz à passagem a uma rotina de tomada em conta de corte (38), que determina, por contagem de tempo por meio de uma operação (39) de detecção de silêncio prolongado, a realidade do corte ou a sua interrupção por uma operação (4o) de tomada em conta de amostras energéticas. Esta última operação é análoga à operação (24) e ccnduz a um retorno a rotina de tratamento do corpo de mensagem sonora (30), se as amostras energéticas forem obtidas nas condições atrás mencionadas.
A operação de detecção de silêncio prolongado é análoga à operação (34), e efectua-se por contagem nas mesmas condições e permite passar a uma rotina (41) de fim presumido de mensagem sonora.
A detecção de um silêncio prolongado é obtida por exemplo depois de uma contagem igual a um mínimo, por exemplo de 12 ms; a rotina de fim presumido (41) que daí resulta conduz, por uma última operação de contagem (42) a uma rotina de colocação em repouso (43) que conduz, por exemplo, ao registo permanente em memória viva protegida (16) da mensagem sonora rece bida; ela conduz, em alternativa, a uma nova posição em questão, se amostras energéticas forem deteetadas antes do fim da última operação de contagem (42), por uma operação (44), idêntica a ope ração de tomada em conta (4o) ’Teste caso, é lançada uma rotina (4^) de verificação de fim de palavra que, em alternativa, conduz * retomar a rotina
de tratamento de corpo de mensagem (jO), através de uma. operação (46) de verificação de duração de presença de amostras ener géticas por uma contagem de limiar por exemplo a base de 6 ms, ou ainda a retomar a rotina de fim presumido de mensagemaonra í.41), no caso de não se atingir o limiar de duração.
Utiliza-se então, para esse fim, uma operação de constatação de silêncio (48).
Se o registo de uma mensagem sonora tender a prolongar-se para além da capacidade de memorização prevista para a mesma, no decurso das rotinas de tomada em conta de corte (38) e de fim presumido de mensagem sonora (41), a operação de limitação de comprimento (36) é então também considerada, a qual conduz à rotina de rejeição (37).
Esta rotina de rejeição (37) permite ao utilizador voltar à fase de recolha, de uma maneira aqui não representada, do mesmo modo que a rotina de colocação no repouso (43).
De uma maneira constante após a colocação do dispositivo de comando por via sonora em funcionamento, incluindo a fase de recolha, o sinal MIC fornecido pelo codificador (13) é transcodificado pelo processo atrás indicado, com vist» a redu zir o volume dos dados digitais a memorizar em fase de aprendizagem e a comparar em fase de reconhecimento de mensagem sonora.
De acordo com uma forma de realização preferida, só são tidos em conta os dados digitais correspondentes aos lapsos de tempo que separam os extremos do sinal recebido com vista a asse gurar uma pseudocodificação em frequência deste sinal recebido.
Para isso, o referido sinal é dividido em fatias temporais, denominadas janelas de constituição de histogramas, que têm a mesma duração e que, de preferência, se sobrepõem. ,Jum exemplo de realização, cada janela tem uma duração de 50 ms e
corresponde portanto a 4-00 amostras MIC recebidas que são transcodifiçadas num número variável de palavras codificadas de extremos e de silêncio.
Em cada janela de constituição de --istograma, os lapsos de tempo que separam os extremos sucessivos, são contabilizados em função da sua duração, são medidos por números iguais ou múltiplos de 125 microssegundos, no exemplo escolhido.
Um histograma é obtido para cada janela tal como se definiu antes, e corresponde ? soma por classe de duração dos lapsos de tempo entre extremos extraídos para essa janela.
Num exemplo de realização, a contabilização relativa a um histograma e feita com 0 auxílio de contadores afectados , ca da um deles a uma classe de diferente duração e a incrementação de cada contador faz-se quando ocorre cada um dos extremos, com um passo de contagem correspondente à duração contabilizada a partir da anterior.
Assim, a título de exemplo teórico, p = 7 contadores (figura 5) são associados a durações que variam de uma a sete unidades de 125 microssegundos e são respectivamente incrementados de acordo com as suas categorias respectivas de uma a sete unidades, quando de uma contagem de lapso de tempo que lhes diz respeito.
Esta última c^racterística permite que não se subestimem as componentes de baixas frequências do sin-l recolhido.
No exemplo teórico considerado anteriormente, um contador de ordem 8 está atribuído ã contabilização das durações superiores à duração unitária tida em conta pelo contador de cias se mais elevada, isto é, 7 unidades; ele contabiliza em verdadeira grandeza quaisquer lapsos de tempo superiores a esta ultima duração.
Uma mensagem sonora recebida pelo dispositivo de comando por via sonora traduz-se pois por uma sucessão de histogramas correspondente à sucessão de janelas realizadas a partir do início até ao fim. Os números de histogramas tidos e·” conta para diferentes mensagens sonoras são pois a priori” diferentes, vis to que variam com os comprimentos reais das mensagens, medidas pelo dispositivo de comando quando dos registos.
Pelo contrário, todos os histogramas correspondem à captação de um mesmo número de contadores de capacidades -«áximas d£ das e traduzem-se pois por número idêntico de dados binários.
São os dados binários relativos aos histogramas sucessivos que são memorizados, ou temporariamente, para os sinais reco lhidos pelo microfone (11) na fase de reconhecimento, ou de maneira permanente na fase de aprendizagem, quando tiver sido acei te uma mensagem sonora de comando.
A comparação entre duas mensagens sonoras, uma registada
de maneira permanente e outra recebida, faz-se por comparação de formas de referências respectivas de cada uma delas segundo um processo conhecido, denominado processo de comparação dinamica, inicialmente descrito num artigo publicado por SAKOE e CHIBA , em Fevereiro de 1978, na revista IEEE/TRANS. A forma de referência da mensagem é constituída pela sucessão dos histogramas retirados no decurso desta mensagem.
Um primeiro elemento de comparação tido em conta é devi do ao facto de que; se o número de histogramas de uma forma de referência diferir muito do de uma outra forma de referência, estas não podem manifestamente corresponder a mesma mensagem so nora. Isto permite tomar em conta, na fase de comparação, ape-
nas as formas de referência que têm, pelo menos aproximadamente, o mesmo número de histogramas e eliminar todos os outros.
nos outros casos, é necessário examinar a distancia que existe entre duas formas de referência, a partir das distâncias entre histogramas supostos correspondentes.
A distância entre dois histogramas é obtida tendo em con
ta a soma das porções não comuns dos dois histogramas representa da por zonas tracejadas na fig. 6 realizada a uma escala de ordenadas diferentes da da fig. 5. A distância entre duas formas de referencia é, por sua vez, constituída pela soma das n distâncias dos n histogramas de uma com os n histogramas da outra, que se define da seguinte fôrma:
n D12 = B21 “ 2__ j=l n
i=l bijl ' hij2 em que D12 e ΐ>2ΐ representam as distâncias respectivas das duas formas de referência, η o número de histogramas considerado
igual para as duas formas e as distâncias entre canais correspondentes dos histogramas da mesma classe nas duas formas respectivas.
A comparação faz-se, portanto, histograma por histograma entre um sinal sonoro recebido, memorizado durante um curto intervalo de tempo, e uma mensagem sonora registada. As diferentes etapas desta comparação podem ser simbolizadas por uma representação matricial plana, tal como a representada na fig. 7, na qual se representaram em abcissas os histogramas da mensagem sonora e em ordenadas os histogramas do sinal sonoro, que se su põe ser idêntico.
Idealmente, a forma de referência de um sinal sonoro
idêntico a uma mensagem sonora de comando registada deveria com preender o mesmo número de histogramas, os histogramas da mesma classe cronológica seriam idênticos, a sua distancia seria nula, tal como a das duas formas de referência; o deslocamento do primeiro histograma para o último histograma de cada forma de referência poderia ser representado pela diagonal de um quadrado que começaria na casa de ordem 0,0 para ir até à casa de ordem ni>
= n^ na fig.
7.
Praticamente, por razões ligadas ao locutor e ao dispositivo de comando, o sinal sonoro correspondente a pronúncia de uma mensagem sonora de comando não inclui sempre o mesmo número de histogramas que a referida mensagem sonora tal como se encon tra registada, como se simboliza na fig. 7·
Por conseguinte, a distancia entre as duas formas de referência correspondentes não é obtida fazendo a. soma das distancias entre histogramas correspondentes, visto que a correspondeu cia não é total.
A distancia entre duas fornas de referência deve pois
ser definida a partir de um conjunto de distâncias entre histogramas correspondentes tal que, dado não poder conseguir-se que as distancias sejam nulas, o que corresponderia a um sinal sono ro idêntico em todos os pontos * mensagem registada, elas sejam pelo menos mínimas, quando não puderem ser nulas, para os dife rentes pares de histogramas pertencentes, respectivamente, um ao sinal e o outro à mensagem»
Portanto, em cada etapa de comparação, determina-se se o histograma tido em conta do sinal sonoro recebido está a uma dis tancia razoável de um histograma da mensagem sonora com o qual é comparado, a fim de se decidir se este sinal recebido corres-
ponde ou não à mensagem sonora considerada.
Idealmente, a comparação de um sinal sonoro recebido a uma mensagem sonora registada implica uma distância nula entre o primeiro histograma da mensagem de comando sonora registada de maneira permanente e o do sinal recebido.
Para isso, o sinal sonoro recebido pelo microfone (11) é submetido ao tratamento de aquisição descrito em ligação com a fase de aprendizagem. Este tratamento permite ter em conta apenas as partes do sinal fornecido de maneira contínua pelo mi crofone, que são susceptíveis de corresponder a um? mensagem so nora de comando pela sua constituição geral; ele permite igual mente determinar os inícios de mensagem sonora e, por consequên cia, o primeiro histograma, tomados em conta para um sinal rece bido, susceptível de ser uma mensagem de comando.
Devido ? incerteza eventual respeitante a exactidão d? escolha do primeiro histograma a ter em conta num sinal recebido, em relação h mensagem registada, procura-se determinar se um dos primeiros histogramas sucessivamente recebidos está p uma
distancia admissível de um dos primeiros histogramas da mensagem sonora de comando registada.
Determina-se também a compatibilidade das duas formas de referência a comparar determinando igualmente pelo menos a distancia entre os histogramas de classes respectivas
de fim de mensagem sonora de comando registado e do sinal sono ro susceptível de ser uma mensagem de comando.
Se houver compatibilidade a este nível, verifica-se ? compatibilidade das duas formas de referência a partir dos dois histogramas, um de sinal, o outro de mensagem registada, que es tão situadas a uma distância admissível e que representam a ca-
sa de partida de ordem n^ = 0, n^· = O do diagrama matricial representado na fig. 7.
A verificação de compatibilidade das formas efectun-se por etapas, cada uma das quais permite determinar qual é o ponto seguinte mais provável no caminho que conduz > casa final de ordem , a partir de uma cada de matriz de ordem n^, reconhecida como correspondente a dois histogramas situados a distância admissível.
Recorda-se aqui que a casa a determinar, que se segue a uma casa de ordem n15 nj determinada por um histograma de sinal de ordem j e um histograma de mensagem registada de ordem i na fig. 7, apenas pode ser uma das casas de ordem ni + 1> nj + 1> ou de ordem ni + nj + ou ainda ni + 2, nj +1 para que os histogramas correspondentes estejam a distâncias admissíveis. Isto implica as limitações ditas de inclinação, referenciadas com (A) na fig. 7, que permitem considerar como dissemelhantes duas formas de referência cujos histo gramas sucessivos não respeitam as condições atrás referidas.
Do mesmo modo, o caminho ideal entre a casa de ordem
0, 0 e a casa de ordem n^, nj á a diagonal que une estas duas casas e as casas do caminho real não podem, evidentemente, afas tar-se para um lado e para o outro desta diagonal para alem de uma zona, dita de ajustamento, definida por duas paralelas à dia gonal, que são aqui referenciadas por (B) e que correspondem por tanto a um desfasamento máximo em classes de dois histogramas situados a uma distância admissível um do outro.
Em último lugar e necessário ter igualmente em conta uma limitação de chegada que limita a distância em número de histogramas entre o ponto de chegada teórico de ordem w e o
ponto de chegada obtido no fim do caminho estabelecido, tal como está representado pelos pontos correspondentes às casas defi nidas pelos pares de histogramas situados a. distancias admissíveis um do outro e a partir do par correspondente à casa anterior.
A ultima casa do caminho estabelecido é a que associa, num par de histogramas situados a uma distância admissível, o último histograma de uma das formas de referência com um dos úl-
timos histogramas da outra.
igualmente necessário rejeitar, como dissemelhantes, duas formas de referência cujo caminho estabelecido tem como úl tira casa uma casa situada a uma distância horizontal ou verti cal superior a um valor predeterminado, o que indica os limites referenciados com (C). Estes últimos definem com as referências (A) e (B) um sector fechado, representado não tracejado, que define as possibilidades de variação de posicionamento exis tentes entre histogramas situados a uma distância, admissível.
,fo caso de rejeição de um caminho e quando foi necessá-
rio fazer uma escolha anterior entre soluções possíveis, o processo de determinação é susceptível de ser retomado numa etapa anterior, de maneira a ver se uma das suas soluções não retidas não conduz a um caminho conveniente e, portanto, a um reconhecimento efectivo da mensagem sonora de comando registada no sinal sono ro recebido.
É igualmente previsto, no decurso da aprendisagem, afinar os resultados obtidos quando da tomada em conta de uma mensagem sonora de comando, permitindo ao locutor em causa repetir esta mensagem várias vezes, por exemplo cinco, de maneira a definir um registo correspondente ao caminho mais provável visto
a partir destas repetições da mesma mensagem, de maneira a facilitar os reconhecimentos ulteriores.
Praticamente isto traduz-se para o utilizador da manei ra resumidamente indicada atrás, em ligação com a aprendizagem citada mais atrás, a título de exemplo, associando um dispositivo de comando (1) de tipo marcador vocal de números telefónicos e um aparelho de tipo terminal de informações.
wuma forma não exclusiva de realização, na qual o terminal de informação permite a constituição de um repertório de números de chamadas telefónicas introduzidos por tabulação do teclado, o marcador vocal memoriza mensagens sonoras específicas para permitir chamar cada um desses números.
Quando da constituição simultânea ou separada de cada Um dos seus repertórios, o utilizador em questão introduz previamente num terminal, por um processo adequado, nump memória protegida do terminal, cada número de chamada telefónica e a curta palavra de código alfanumérico que permite obter o mesmo por um processo acelerado. Esta palavra de código corresponde a uma informação numérica de comando que desencadeia o envio do número de chamada correspondente quando é tabelado no tecla do do terminal.
Quando da constituição de repertório vocal, o utilizador pronuncia, junto do microfone (11), a mensagem sonora pela qual ele pretende obter o envio de um número de chamada e por exemplo a palavra de código já utilizada para o processo de envio acelerado por meio do teclado. Se esta mensagem sonora for aceite pelo marcador, este regista em memória protegida (16) a forma de referência correspondente, bem como a informnqão numérica que é utilizada no terminal par» esta palavra.
então possível comandar o envio de um número de chamada pelo terminal por tâdaqão ou por comando vocal, sendo a informação digital susceptível de ser transmitida ao microprocessador de gestão deste terminal, ou pelo teclado, ou pelo microprocessador (15) do marcador vocal associado e a ele ligado.
A constituição dos repertórios efectua-se pois por etapas para cada comando diferente, quer no modo tabelado, quer no modo vocal.
Quando se utiliza este último, cada mensagem sonora de comando, de preferência repetida em fase de aprendizagem como atrás se indicou, é igualmente comparada »s mensagens sonoras de comando previamente registadas de ^aneira a descobrir desdeactri^n as mensagens suficientemente vizinhas para serem susceptíveis de criar confusões entre o comando.
Esta comparação faz-se substancialmente segundo o processo usado na fase de reconhecimento de uma mensagem de comando, como atrás se referiu. Traduz-se no caso de aplicação já descrito pela afixação no visor do terminal da mensagem ou das
mensagens sonoras susceptíveis de serem confundidas com a mensagem sonora que o utilizador deseja introduzir, de maneira a per mitir-lhe efectuar uma escolha com conhecimento de causa.
De uma maneira preferida, a aceitação de Uma mensagem sonora de comando deve ser validada para ser tomada em conta e o terminal afixa uma mensagem de convite para validar por inter médio por exemplo de uma das teclas de função do seu teclado queim ço mo consequência o envio de uma informação digital de validação para o microprocessador (15) do marcador, através da ligação (L3).
A este respeito deve notar-se que o comando das funções
normalmente obtidas por manipulação das teclas de função do ter minai é igualmente susceptível de ser obtido por via sonora como para um numero de chamada; isso permite em particular um dia logo vocal com um servidor distante para os comandos postos à dis posição dos utilizadores para o servidor.
Prevê-se igualmente dispor de mensagens sonoras que for mam una chave, bloqueando uma tal mensagem chave, por exemplo, o acesso a um repertório de mensagens sonoras de comando, enquan to não tiver sido pronunciado previamente, a uma das outras. 0
processo de realização de tais mensagens sonoras que formam uma chave é idêntico ao das outras mensagens sonoras. Isso permite, em particular, o desencadeamento de um comando pela mensagem so nora correspondente quando esta é pronunciada involuntariamente numa conversação fora do contexto de comando.
processo de comando com o auxílio de mensagens chave permite igualmente o acesso a um repertório de mensagens sonoras de comando para uma aplicação particular dada e, portanto, desencadear um processo determinado no quadro desta aplicação.
Isto permite substituir comandos particulares por coman dos por mensagens sonoras especializadas exigidos pelos servido res de dados e que o utilizador deve normalmente produzir com o auxílio das teclas alfanuméricas ou de função do teclado.
São então necessárias duas fases de reconhecimento sucessivas para o envio de pelo menos certas informações digitais de comando. A primeira fase corresponde ao reconhecimento da men sagem chave de acesso, assegurando a fase ouas fases de reconheci mento das mensagens sonoras seguintes o envio de outras tantas informações numéricas de comando predeterminadas.
Isto permite em particular a um locutor seleccionar um
repertório entre vários ou a vários locutores seleccionar independentemente cada um o seu repertório de comando, com o auxílio do mesmo dispositivo.

Claims (10)

Reivindicações
1, caracterizado por a determinação do início, do corpo e do fim de uma mensagem sonora potencial se efectuar pela tomada em conta de uma primeira série mínima de amostras energéticas e/ou fricativas durante um primeiro lapso de tempo mínimo, que prossegue com uma segunda série mínima de amostras energéticas e/ou fricativas eventualmente misturadas com amostras, denominadas amostras de silêncio, cuja energia é menor do que o limitar de aiergia corrente, estando o conjunto formado por estas duas séries necessariamente compreendido entre duas séries de amostras de silêncio de durações mínimas pré-determinadas.
1, caracterizado por a medição da frequência se efectuar por conta gem das mudanças de sinal das amostras MIC sucessivas.
1.- Processo de comando de processos por via sonora por meio de um dispositivo (1) apto para reconhecer diferentes mensagens sonoras previamente memorizadas, quando as recebe isoladamente, e a comandar em consequência o funcionamento de uma aparelhagem (2) segundo um processo específico, função da mensagem sonora reconhecida, caracterizado por compreender as fases seguintes:
- codificação permanente, sob a forma de uma sucessão de amostras MIC, dos sinais sonoros recebidos pelo dispositivo;
- determinação do valor médio da energia dos sinais sonoros recebidos, denominados sinais de ruído ambiente, na ausência da mensagem;
- busca simultânea, por um lado, por medição de energia, das amostras MIC, denominadas amostras energéticas, que ultrapassam um limiar mínimo de energia, evolutivo, definido em função do nível de ruído ambiente tal como é determinado atrãs e, por outro lado, por medição de frequência, das amostras MIC denominadas fricativas, correspondentes a sinais de frequência vocal;
- determinação do início, do corpo e do fim de qualquer série de sinais sonoros susceptíveis de corresponder a uma mensagem potencial, por tomada em conta das séries de amostras energéticas e/ou fricativas eventualmente misturadas com amostras de silêncio, entre duas séries de amostras de silêncio de durações mínimas prê-determinadas;
- transcodificação das amostras MIC em palavras de extremos e de silêncio, cada uma das quais fornece, sob a forma de uma infor inação digital, uma indicação de lapso de tempo entre dois extremos sucessivos dos sinais sonoros recebidos;
- contabilização sob a forma de histogramas, sucessivamente estabelecidos para uma sucessão de janelas temporais com a mesma duração ao longo de uma série de sinais recebidos considera da como uma eventual mensagem sonora, dos lapsos de tempo entre extremos classificados para cada janela temporal em função das suas durações respectivas e.com passos respectivos de incrementa- ção correspondentes a estas durações;
- memorização temporária da forma de referência constituí da pelos dados binários correspondentes ao conjunto dos histogramas realizados para a série de sinais recebidos considerada como uma eventual mensagem sonora,
- comparação dinâmica da forma de referência temporalmente memorizada de uma série de sinais recebidos com as formas de refe rência, tomadas uma a uma, das diferentes mensagens sonoras pre viamente memorizadas de maneira permanente;
- envio de uma informação digital de comando, específica, quando de uma da detecção de uma identidade.entre as formas de referência mensagem sonora de comando memorizada e de uma série de sinais recebidos.
2,- Processo de comando de acordo com a reivindicação
3.- Processo de comando de acordo com a reivindicação
4.- Processo de comando de acordo com a reivindicação 1, caracterizado por as janelas temporais tomadas em sucessão para uma série de sinais recebidos se sobreporem parcialmente umas às outras.
5,- Processo de acordo com a reivindicação 1, caracteri- zado por implicar uma aprendizagem de cada mensagem sonora de corrando pelo dispositivo que recebe e trata a mensagem sonora, por um processo idêntico ao processo de reconhecimento de qual quer série de sinais sonoros susceptível de constituir uma mensagem, e que compara esta mensagem recebida com qualquer outra mensagem de comando previamente memorizada, se existir a aceitar apenas se a sua forma de referência estiver distante da das referidas outras mensagens previamente memorizadas.
6.- Processo de comando de acordo com a reivindicação 5, que permite uma aprendizagem múltipla de uma mesma mensagem de comando, caracterizado por, em cada uma das aprendizagens da mesma mensagem, se compararem os histogramas obtidos com os histogramas correspondentes memorizados no decurso das aprendizagens ulteriores, de maneira a obter-se a forma de referência mais provável que é então memorizada de maneira permanente por acção do utilizador.
7.- Processo de comando de acordo com a reivindicação 1, para o dispositivo (1) de comando por via sonora de uma aparelhagem (2) de tipo posto ou terminal telefónico com microprocessador e teclado, caracterizado por o dispositivo de comando gerar com destino à aparelhagem e ao reconhecimento de uma mensagem so nora de comando memorizado, uma informação digital de comando cor respondente ã que deve produzir-se no teclado da referida aparelhagem para se obter um processo de comando
8.- Processo de comando de acordo com racterizado por compreender necessariamente idêntico.
a reivindicação 1, ca pelo menos duas fases de reconhecimento sucessivas para o envio de pelo menos certas informações digitais de comando, correspondendo a primeira fase ao reconhecimento de uma mensagem chave de acesso necessária para o envio das informações digitais determinadas pelo reconhecimen to ou pelos reconhecimentos de mensagens sonoras seguintes.
9.- Processo de acordo com a reivindicação 1, para o dispositivo (1) de comando por via sonora de uma aparelhagem (2) de ti po terminal pessoal de informações com microprocessador, teclado e visor, caracterizado por as mensagens sonoras de comando memorizadas serem conservadas pelo dispositivo de comando em associação com a informação digital correspondente ã sua forma tabulada no teclado da aparelhagem (2).
10.- Dispositivo de comando por via sonora de uma aparelha gem (2) de tipo posto ou terminal telefónico com processador e teclado, caracterizado por compreender, numa caixa independente ou integrada, um microfone (11) ligado a uma porta de entrada de £2 um microprocessador (15) , por intermédio de um amplificador (12) e de um codificador analógico-digital (13) comandado por uma base de tempo (14) para codificar sob a forma MIC os sinais sono ros recebidos do microfone, sendo o referido microprocessador ligado a um conjunto de memórias (16,17) vivas ou mortas, para a memorização permanente das mensagens de comando e temporária dos sinais sonoros recebidos, também apropriado para ser ligado por uma linha de transmissão digital de dados (13) ao microprocessador da aparelhagem comandada.
PT8250286A 1985-05-03 1986-05-02 Processo e dispositivo de comando de processos por via sonora PT82502B (pt)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR8506743A FR2581465B1 (fr) 1985-05-03 1985-05-03 Procede et dispositif de commande de processus par voie sonore

Publications (2)

Publication Number Publication Date
PT82502A PT82502A (fr) 1986-06-01
PT82502B true PT82502B (pt) 1993-01-29

Family

ID=9318930

Family Applications (1)

Application Number Title Priority Date Filing Date
PT8250286A PT82502B (pt) 1985-05-03 1986-05-02 Processo e dispositivo de comando de processos por via sonora

Country Status (6)

Country Link
EP (1) EP0203401A1 (pt)
DK (1) DK195286A (pt)
ES (1) ES8705137A1 (pt)
FR (1) FR2581465B1 (pt)
GR (1) GR861114B (pt)
PT (1) PT82502B (pt)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01169499A (ja) * 1987-12-24 1989-07-04 Fujitsu Ltd 単語音声区間切出し方式
DE19508711A1 (de) * 1995-03-10 1996-09-12 Siemens Ag Verfahren zur Erkennung einer Signalpause zwischen zwei Mustern, welche in einem zeitvarianten Meßsignal vorhanden sind

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4348550A (en) * 1980-06-09 1982-09-07 Bell Telephone Laboratories, Incorporated Spoken word controlled automatic dialer
EP0125422A1 (en) * 1983-04-13 1984-11-21 Texas Instruments Incorporated Speaker-independent word recognizer
JPS6024597A (ja) * 1983-07-21 1985-02-07 日本電気株式会社 音声登録方式

Also Published As

Publication number Publication date
DK195286A (da) 1986-11-04
PT82502A (fr) 1986-06-01
FR2581465A1 (fr) 1986-11-07
GR861114B (en) 1986-08-14
FR2581465B1 (fr) 1988-05-20
ES8705137A1 (es) 1987-04-16
EP0203401A1 (fr) 1986-12-03
DK195286D0 (da) 1986-04-29
ES554595A0 (es) 1987-04-16

Similar Documents

Publication Publication Date Title
US10645214B1 (en) Identical conversation detection method and apparatus
US9386146B2 (en) Multi-party conversation analyzer and logger
JP3204632B2 (ja) 音声ダイヤルサーバー
CN104168353A (zh) 蓝牙耳机及其语音交互控制方法
CN102780819A (zh) 一种移动终端的语音识别联系人的方法
CN105529038A (zh) 对用户语音信号进行处理的方法及其系统
Lennig Putting speech recognition to work in the telephone network
PT82502B (pt) Processo e dispositivo de comando de processos por via sonora
WO1987007460A1 (en) Voice activated telephone
CN101222703A (zh) 一种基于语音辨识的移动终端的身份验证方法
CN104978960A (zh) 一种基于语音识别拍照的方法及装置
US10237399B1 (en) Identical conversation detection method and apparatus
JPS6126079B2 (pt)
US20030081738A1 (en) Method and apparatus for improving access to numerical information in voice messages
CN101882438A (zh) 音乐数据处理方法与应用其的电子装置
JPS6361300A (ja) 音声認識方式
CN111294475A (zh) 电子装置及电子装置的模式切换方法
Rabiner The impact of voice processing on modern telecommunications
JPH0352638B2 (pt)
Srivastava et al. Multi-scenario dataset for speaker recognition
US20220284920A1 (en) A method and a noise indicator system for identifying one or more noisy persons
JPH0343639B2 (pt)
FR2556910A1 (fr) Dispositif de dialogue vocal entre un ordinateur et un poste telephonique et procede de mise en oeuvre
RU2316145C1 (ru) Способ управления услугами сервисного центра в системе связи (варианты) и устройство для его осуществления
CN107644078A (zh) 亲情陪伴时间计算系统及其使用方法

Legal Events

Date Code Title Description
FG3A Patent granted, date of granting

Effective date: 19920728

MM3A Annulment or lapse

Free format text: LAPSE DUE TO NON-PAYMENT OF FEES

Effective date: 19940131