PT2394271T

PT2394271T - Método para divisão de canais de sinal e utilização para o aperfeiçoamento vocal utilizando a eletrolaringe

Info

Publication number: PT2394271T
Application number: PT107088825T
Authority: PT
Inventors: Hagmüller Martin; Kubin Gernot
Original assignee: Heimomed Heinze Gmbh & Co Kg
Priority date: 2009-02-04
Filing date: 2010-02-01
Publication date: 2017-04-26
Also published as: EP2394271B1; ES2628521T3; JP5249431B2; CA2749617A1; AT507844B1; CA2749617C; WO2010088709A1; AT507844A1; DK2394271T3; CN102341853B; US20120004906A1; EP2394271A1; CN102341853A; JP2012517031A

Description

DESCRIÇÃO "Método para separação dos canais de sinal e utilização para o aperfeiçoamento vocal utilizando a eletrolaringe" 0 invento refere-se a um método para aperfeiçoar a qualidade vocal de um aparelho fonador do tipo eletrolaringe (EL), em que o sinal vocal do aparelho fonador é digitalizado através de meios apropriados. Os meios apropriados, por exemplo, são, neste caso, a utilização de equipamento eletrónico, um microfone com o correspondente conversor de analógico para digital, um telefone ou outros métodos.

Uma EL é um aparelho para gerar uma voz artificial, por exemplo, para doentes a quem foi retirada a laringe cirurgicamente. A EL é, neste caso, fixa no lado inferior da mandíbula; um gerador de frequências com uma determinada frequência leva a que o ar vibre na cavidade bucal através das partes moles no lado inferior da mandíbula. Estas vibrações são depois moduladas através dos órgãos de articulação, sendo assim possível uma vocalização. No entanto, visto que usualmente o gerador de audiofrequências apenas trabalha com uma frequência, a voz soa monótona e não natural, ou "robótica".

Além disso, é desvantajoso que a vibração da EL prejudique a perceção do falante ou até mesmo se sobreponha a ela, visto que apenas uma parte do som é articulada na cavidade oral. As partes que saem diretamente do aparelho ou no ponto de transição na garganta sobrepõem-se às partes articuladas e reduzem a inteligibilidade. Este é sobretudo o caso de indivíduos que foram submetidos a radioterapia na zona da garganta, tendo por isso ocorrido um endurecimento da estrutura histológica. Por isso, foram desenvolvidos diferentes métodos para reforçar o sinal útil, portanto as vibrações articuladas, em relação ao sinal parasita, portanto o som direto, ou a vibração não modulada da EL.

Estes métodos são sobretudo aplicados em situações em que o ouvinte não está diretamente exposto ao som emitido, sendo empregues, em vez disso, meios eletrónicos, como, por exemplo, em comunicações telefónicas, no caso de gravações de som ou em geral ao falar através do microfone e amplificador.

Em US 6,359,988 Bl, um sinal vocal da EL é submetido a uma análise cepstral e é sobreposto pela fala de um falante normal, tornando assim possível criar naturalmente a modificação do tom do falante com EL; ao mesmo tempo também se suprime com isso a parte do som direto emitido no sinal. A desvantagem desta solução é sobretudo que a cada fala de um falante com EL é necessária ao mesmo tempo a mesma fala de um falante saudável (ou seja, sem EL) , o que é na prática extremamente difícil de conseguir.

Outra solução é apresentada por US 6,975,984 B2, em que é descrita uma solução para aperfeiçoar um sinal vocal da EL na comunicação telefónica. Neste caso, o sinal vocal é processado num processador de sinal digital, de modo a reconhecer o ruído/zumbido de fundo da EL e a remover o mesmo do sinal vocal. 0 sinal vocal é para isso dividido num componente fónico e num componente afónico e o respetivo processamento é realizado em separado. A parte fónica é sujeita à transformada de Fourier por blocos, a filtragem de frequências (a frequência de fundo e a harmónica são posteriormente reutilizadas), a transformação inversa e, em sequência disso, a subtração de todo o sinal original. Permanece a parte afónica do sinal original. Em alternativa, propõe-se igualmente filtrar a parte fónica através de filtro passa-baixo, no caso de reconhecimento de uma pausa na fala filtrar totalmente e, a seguir, sobrepor a parte afónica. 0 documento "Enhancement of Electrolaryngeal Speech by Adaptive Filtering" de Carol Y. Espy-Wilson et al. (JSLHR, 41: 1253-1264, 1998) descreve um método para o aperfeiçoamento da qualidade vocal de um aparelho fonador do tipo EL. 0 ruído de fundo da EL é neste caso adaptado por meio da filtragem adaptativa do sinal vocal com interferência pelo ruído de fundo da EL (ou o ruído de fundo da EL articulado na forma de fala); noutro passo, os sinais são subtraídos um do outro. Permanece um sinal de erro, que é utilizado no controlo e no ajustamento dos parâmetros de filtro com o objetivo de minimizar o sinal de erro. 0 sinal de erro no presente método é o sinal vocal liberto do ruído de fundo da EL. A assunção neste caso é que de facto o sinal parasita no sinal vocal está correlacionado com o ruído de fundo da EL, o sinal vocal de interesse é, no entanto, independente dos outros sinais, portanto o ruído de fundo de interferência e o sinal vocal provêm efetivamente de fontes diferentes. 0 documento "Enhancement of Electrolarynx Speech Based on Auditory Masking" de Hanjun Liu et al. (IEEE Transactions on Biomedical Engineering, 53(5): 865-874, 2006) descreve um algoritmo de substração para aperfeiçoar o sinal de um aparelho fonador tipo EL, em especial em relação ao ruído ambiente.

Ao contrário de outros métodos, que preveem parâmetros de substração fixos, no caso deste algoritmo adapta-se os parâmetros de subtração no domínio de frequências com base na máscara auditiva. Neste caso, parte-se do princípio que a fala e os ruídos de fundo não estão correlacionados e, por isso, o ruído de fundo pode ser avaliado e pode ser removido no domínio de frequência do sinal.

Estas soluções têm em comum a utilização de métodos com base num modelo, de acordo com o qual a fala e o sinal parasita (portanto, o ruído ambiente, mas também o ruído de fundo da EL) são estatisticamente independentes ou não estão correlacionados.

Com base nesta assunção, a implementação dos referidos métodos é muito dispendiosa. Se for feita uma tentativa para suprimir o som direto com um filtro de rejeição de banda (adaptativo), reduz-se com isso também a qualidade do sinal vocal, que soará então como um sussurro; o sinal vocal e o ruído parasita têm as mesmas harmónicas.

Em US 2005/0004604 Al é descrita uma solução de laringe, na qual se coloca um emissor de som e um microfone diretamente na frente da boca de um utilizador, indo o emissor de som emitir um som com um menor volume e sendo o sinal recebido pelo microfone para fins de processamento posterior. No processamento posterior, o sinal é essencialmente filtrado com um filtro em pente, a fim de reduzir ou a remover as harmónicas do sinal. No entanto, isto afeta muito a qualidade do sinal vocal.

Em WO 2006/099670 AI é descrito um dispositivo para a monitorização das vias respiratórias, introduzindo-se som no domínio de frequências audível nas vias respiratórias de um objeto e determinando-se o estado dos canais respiratórias a partir do som refletido ou processado. É, por exemplo, possível detetar assim uma projeção nas vias respiratórias. Numa variante do invento, verifica-se através da TRF (transformada rápida de Fourier) a ultrapassagem de determinados limiares, tirando-se daí conclusões acerca do tratamento do sinal medido. E um objeto do invento superar as desvantagens acima referidas do estado da técnica e aperfeiçoar a qualidade vocal dos utilizadores da EL no caso da utilização de meios eletrónicos, como, por exemplo, microfones.

Este objeto é conseguido de acordo com o invento por um método do tipo referido no início, com os seguintes passos: a) divisão de um sinal vocal monocanal (S (w, t) , o qual consiste na soma de um componente varável no tempo X (w)H(w, t) e um componente invariável no tempo x(w)F(w) numa série de canais de frequências, através da transferência do domínio de tempos para um domínio de frequências discreto, b) filtragem da frequência de modulação da EL do componente invariável no tempo x(w)F(w) pela filtragem da frequência de modulação de 0 Hz por meio de um filtro passa-alto ou filtro de rejeição de banda, em qualquer canal de frequências, e c) transformação inversa do sinal vocal filtrado do domínio de frequências para o domínio de tempos e integração num sinal de saída monocanal. O invento é um modelo aperfeiçoado da utilização de uma EL, provindo o ruído de fundo da EL articulado na forma de um sinal vocal e as partes inalteradas da EL, que interferem com a perceção do sinal vocal, de uma fonte comum, nomeadamente da EL. Visto que o ruído de fundo não articulado de interferência da EL é reconhecível no domínio de modulação como sinal invariável no tempo, o mesmo pode ser facilmente separado por filtragem por um procedimento apropriado. Ocorre, portanto, uma separação não das fontes de sinal, mas sim dos canais de propagação (de um canal de propagação através dos órgãos de articulação de um falante, outro canal de propagação do ponto de aplicação na garganta do falante diretamente para o ouvido do ouvinte, ou para o microfone ou para meios recetores).

Os especialistas conhecem diversas possibilidades de transferir um sinal monocanal digitalizado no domínio de frequências e proceder assim à sua divisão numa série de canais de frequências. Em cada canal de frequências, a frequência de modulação da EL é suprimida por filtros apropriados, por exemplo, filtros rejeição de banda ou filtros passa-alto, aplicados no valor, e melhora-se assim a qualidade das partes de sinal articuladas.

Os métodos semelhantes do estado da técnica consideram as partes articuladas e as partes não modificadas como provenientes de diferentes fontes e selecionam abordagens correspondentes a este modelo, como, por exemplo, filtragem através de filtros passa-banda, os quais em todo o caso também atenuam o sinal vocal. 0 método de acordo com o invento tem também por objetivo aumentar a inteligibilidade da fala dos utilizadores da EL ou tornar o sinal mais agradável e "humano". 0 objetivo é reduzir ou eliminar o som direto da EL na comunicação através de meios eletrónicos (por exemplo, telefone). 0 método de acordo com o invento pode ser concretizado, por exemplo, por meio de um suporte lógico (software) de extensão, na forma de solução por fios fixa ou também como circuito analógico. A partir dos vários métodos conhecidos para a transferência de um sinal no domínio de frequências ou o inverso, a transferência no passo a) do método de acordo com o invento ocorre favoravelmente por meio da transformada de

Fourier, e a transformação inversa no passo c) ocorre através da transformada inversa de Fourier. A transferência ocorre por blocos (por exemplo, blocos de 20 ms) em intervalos curtos (atualização, por exemplo, a cada 10 ms). A divisão do sinal numa série de canais de frequências ocorre quando da transferência do sinal no domínio de frequências.

Numa variante do invento, a transferência do sinal vocal ocorre no passo a) e a transformação inversa ocorre no passo c) com um banco de filtros correspondente.

Os resultados do método de acordo com o invento podem ainda ser mais melhorados, se antes da filtraqem no passo b) ocorrer uma compressão do sinal e, após o passo b) , ocorrer uma descompressão. Através da compressão, consegue-se evitar que, no caso de grandes amplitudes, as suas alterações são dominantes ao ponto das alterações de pequenas amplitudes não são consideradas. Por meio da compressão tornam-se, portanto, mais visíveis as alterações relativas para o filtro.

Numa outra concretização do método de acordo com o invento, antes da conversão inversa no passo c) ocorre uma retificação dos componentes de sinal negativos.

Seguidamente, o invento é descrito em maior detalhe com base num exemplo de concretização não limitativo, que representado nos desenhos, os quais mostram esquematicamente: na Fig. 1 uma representação simplificada da utilização de uma EL e as vias de sinal em questão, na Fig. 2 uma representação simplificada da situação em que se aplica o método de acordo com o invento, e na Fig. 3 um diagrama de blocos do método de acordo com o invento.

Na Fig. 1 encontram-se esquematicamente os diferentes canais de transmissão de sinal de uma EL 1. Neste caso, uma EL 1 encontra-se disposta na garganta de um falante 2. O som gerado pela EL 1 propaga-se, por um lado, através dos canais vocais normais (nariz e boca) 5 do primeiro falante 2 e é aí articulado na forma de fala; este primeiro sinal 3 é claramente variável ou variante no tempo. Ao ouvido de um ouvinte 4 chega, a par deste sinal variável no tempo 3, também um segundo sinal 6 (na Fig. 1 representado pela linha ponteada) na forma do som direto da EL 1, sendo este sinal 4 em grande medida estacionário e sendo considerado, por isso, invariável no tempo. A segunda parte 6 de todo o sinal, ou seja, o ruido de fundo da EL 1, é percecionada pelo ouvinte 4 como sinal parasita e reduz a inteligibilidade da fala do falante 2. A excitação original por meio da EL 1 é, portanto, transmitida através de duas vias diferentes. 0 invento refere-se ao aperfeiçoamento da qualidade vocal de um aparelho fonador do tipo EL no caso da utilização de meios eletrónicos, em vez de um ouvinte, os sinais serão recebidos, portanto, por exemplo, por um microfone. Para ilustrar a situação inicial, escolheu-se, no entanto, este modelo geral de modo a facilitar a compreensão. A Fig. 2 mostra uma representação de um modelo simplificado da situação, à qual se aplica o método de acordo com o invento para a supressão de um segundo sinal parasita 6 (ver a Fig. 1) . É possível reconhecer facilmente, que o método de acordo com o invento não origina uma separação das fontes de sinal, mas sim dos canais de propagação.

Um sinal de fonte x (w) de uma fonte de sinal 7 propaga-se por duas vias de sinal diferentes. No primeiro canal de sinal, o sinal inicial é modulado por um filtro variável no tempo H (w, t) passando a um sinal variável no tempo x(w)H(w, t) . No segundo canal de sinal, o sinal inicial é apenas modificado por um filtro invariável no tempo F (w) passando a um sinal x(w)F(w).

Os sinais das duas vias são depois somados num recetor 8, por exemplo, o ouvido de um ouvinte, um microfone, etc., num sinal S (w, t) disponível para medição. 0 sinal consiste assim na soma dos componentes, S (w, t) = x(w)H(w, t) + x (w) F (w) É então possível separar as partes de sinal do canal de sinal invariável no tempo e variável no tempo, ao atenuar todas as partes de sinal que variam no tempo ou que são constantes no tempo. Obtém-se, portanto, por exemplo, como resultado apenas a parte variável no tempo SI(w, t)~x(w)H(w, t) .

No caso da aplicação para falar com a EL, a parte de sinal não articulada x(w)F(w) (ou seja, o ruído de fundo da EL) sobrepõe-se ao sinal vocal variável no tempo x(w)H(w, t) e leva por isso a uma perda da inteligibilidade do sinal vocal. A inteligibilidade vocal é aperfeiçoada ao separar-se a parte de sinal variável no tempo da parte de sinal invariável no tempo. A Fig. 3 mostra uma implementação possível do método de acordo com o invento. Neste caso, na entrada pode encontrar-se um sinal vocal digital 9 opcional de um falante com EL. Numa primeiro passo 10 transforma-se, com a aplicação da transformada rápida de Fourier, o sinal vocal 9 por blocos no domínio de frequências e realiza-se assim a sua separação numa série de canais de frequência. O especialista pode escolher dentre os diferentes métodos estabelecidos para a transformação de um sinal do domínio de tempos para o domínio de frequências; além da transformada de Fourier, também se pode aplicar, por exemplo, a conversão cossinusoidal discreta, condição prévia para uma aplicação de acordo com o invento, é, no entanto, que a conversão seja reversível. O sinal é separado com uma determinada taxa de refrescamento (por exemplo, 10 ms) em blocos, por exemplo, de 20 ms de duração, que são por sua vez propagados numa série de canais de frequência 11. O sinal vocal monocanal original 9 é, portanto, dividido numa série de domínios de frequências, que se alteram no decorrer do tempo. O sinal de frequência é complexo, mas, no entanto, é a seguir modificado apenas o valor absoluto, a fase 15 fica inalterada.

No passo 10 também se pode utilizar um banco de filtros, sendo a taxa de amostragem do sinal reduzida após o banco de filtros. A redução da taxa de amostragem corresponde neste caso à formação de blocos quando da aplicação da transformada de Fourier.

Noutro bloco funcional 12 cada canal de frequência 11 é filtrado, por exemplo, com um filtro passa-alto ou filtro de rejeição de banda. Esta filtragem permite separar determinadas frequências, na técnica de som elimina-se interferências de banda estreita com filtros rejeição de banda. Dado que a EL oscila numa determinada frequência, por exemplo, 100 Hz, o sinal parasita, que não é modificado pelos órgãos de articulação de um falante, origina, no domínio de frequências, amplitudes no canal de 100 Hz com a frequência de modulação 0 Hz, ou seja, a amplitude do sinal da EL não é modificada. O sinal parasita é caracterizado por ser perfeitamente invariável no tempo. Para a filtragem do ruído de fundo da EL, utiliza-se um filtro de rejeição de banda ou um filtro passa-alto. Como frequência limite para o filtro passa-alto, utiliza-se neste caso a frequência de modulação da EL; escolhe-se o filtro de rejeição de banda de modo a bloquear com precisão na frequência de modulação da EL.

Na implementação real, poderá naturalmente não se conseguir uma invariância temporal perfeita devido a reflexões, falhas, ruído ambiente e requisitos de construção da EL. Visto que em todo o caso o filtro também não se encontra limitado a apenas uma frequência, cobrindo, em vez disso, uma determinado domínio de frequências, neste caso fica garantido num domínio de frequências de modulação, o funcionamento do método de acordo com o invento.

Num bloco funcional terminal 13, ocorre o retorno dos sinais para o domínio de tempos, por exemplo, através de transformada inversa de Fourier, e a integração dos canais de frequências 11 de novo num canal ocorre por meio de overlap-add. O método overlap-add é neste caso um método conhecido pelos especialistas do processamento de sinais digitais. O resultado é um sinal de saída monocanal 14, no qual o sinal parasita da EL é filtrado ou pelo menos atenuado. O sinal de saída pode ser posteriormente processado.

No caso da aplicação de um banco de filtros no passo 10, ocorre de novo aumento da taxa de amostragem do sinal após a filtragem no passo 12 e ocorre após o seu processamento posterior, como descrito.

Em princípio, estas concretizações representam apenas os componentes mais importantes do método de acordo com o invento; antes da filtragem no bloco 12, o sinal pode ser comprimido, após a filtragem pode estar prevista uma descompressão. Poderá ser também favorável uma retificação antes da conversão inversa no domínio de tempos, dado se poder originar valores negativos não admitidos no processamento. 0 invento pode ser empregue, por exemplo, como aparelho adicional para comunicação telefónica. No caso de um telefone analógico convencional, o aparelho é simplesmente integrado no auscultador. No caso de um telefone com processador de sinal digital integrado, a integração do invento é possível através de um software de extensão. Também é possível a concretização no âmbito de uma solução por fios fixa, por exemplo, também num circuito analógico. 0 método de acordo com o invento também pode ser aplicado no caso da utilização de uma EL, na qual se comuta entre duas ou mais frequências, de modo a conferir à fala um som realístico. Isto aplica-se tanto a saltos de frequência discretos, como também a alterações contínuas da frequência básica com a assunção de que as frequências, entre as quais se alterna, se encontram dentro de uma banda de frequências, na qual o sinal de fundo é separado. A largura do filtro de modulação de frequência determina a rapidez com que se pode alterar a frequência. No caso de alterações contínuas muito lentas, a frequência pode variar, no caso de funcionamento da supressão, em todo o domínio da banda de frequências, não é o tamanho que é determinante, mas sim a velocidade da alteração. Ao ligar e desligar a EL, o que corresponde a uma alteração rápida, a supressão apenas ocorre passados alguns milissegundos, consoante a largura selecionada para o filtro de rejeição de banda ou onde se encontra a frequência básica do filtro passa-alto.

Neste caso, as alterações da frequência básica não podem de qualquer forma ser demasiado grandes. De modo a garantir o funcionamento de acordo com o invento, será necessário, por exemplo, expandir os canais de frequência, nos quais o sinal é separado, ou a filtragem por meio do filtro passa-alto terá de ser aplicada numa frequência algo mais alta.

Claims

REIVINDICAÇÕES

1 - Método para melhorar a qualidade vocal de um aparelho fonador do tipo eletrolaringe (EL), cujo sinal vocal S(w, t) é digitalizado por meios apropriados, caracterizado por compreender seguintes passos de: a) divisão de um sinal vocal monocanal S (w, t) , o qual consiste na soma de um componente varável no tempo X(w)H(w, t) e um componente invariável no tempo x(w)F(w) numa série de canais de frequência, pela transferência do mesmo do domínio de tempos para um domínio de frequências discreto, b) filtragem do componente invariável no tempo x(w)F(w) pela filtragem da frequência de modulação de 0 Hz por meio de um filtro passa-alto ou filtro de rejeição de banda, em cada canal de frequências, e c) transformação inversa do sinal vocal filtrado do domínio de frequências para o domínio de tempos e integração num sinal de saída de monocanal.
2 - Método de acordo com a reivindicação 1, caracterizado por a transferência do sinal vocal no passo a) ser efetuada por uma transformada de Fourier e por a transformação inversa ser realizada no passo c) por meio da transformada inversa de Fourier.
3 - Método de acordo com a reivindicação 1, caracterizado por se realizar a transferência do sinal vocal no passo a) e a síntese dos canais de frequência no passo c) com um banco de filtros.
4 - Método de acordo com uma das reivindicações 1 a 3, caracterizado por ocorrer uma compressão de sinal antes da filtragem no passo b) e ocorrer uma descompressão após o passo b).
5 - Método de acordo com uma das reivindicações 1 a 4, caracterizado por ocorrer uma retificação dos componentes de sinal negativos antes da transformação inversa no passo c).