PT1010168E - Eliminacao acelerada de ruido de convolucao - Google Patents
Eliminacao acelerada de ruido de convolucao Download PDFInfo
- Publication number
- PT1010168E PT1010168E PT79103498T PT98909699T PT1010168E PT 1010168 E PT1010168 E PT 1010168E PT 79103498 T PT79103498 T PT 79103498T PT 98909699 T PT98909699 T PT 98909699T PT 1010168 E PT1010168 E PT 1010168E
- Authority
- PT
- Portugal
- Prior art keywords
- signal
- power
- log
- transformation
- frequency band
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000001228 spectrum Methods 0.000 claims abstract description 38
- 239000013598 vector Substances 0.000 claims abstract description 29
- 230000009466 transformation Effects 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 17
- 230000003595 spectral effect Effects 0.000 claims description 14
- 230000000694 effects Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 8
- 230000006978 adaptation Effects 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 239000003795 chemical substances by application Substances 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 description 6
- 239000000654 additive Substances 0.000 description 4
- 230000000996 additive effect Effects 0.000 description 4
- 230000008030 elimination Effects 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241001014642 Rasta Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000001944 accentuation Effects 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Noise Elimination (AREA)
- Control Of Motors That Do Not Use Commutators (AREA)
- Complex Calculations (AREA)
- Soil Working Implements (AREA)
- Absorbent Articles And Supports Therefor (AREA)
- Folding Of Thin Sheet-Like Materials, Special Discharging Devices, And Others (AREA)
- Interface Circuits In Exchanges (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Ultra Sonic Daignosis Equipment (AREA)
Description
DESCRIÇÃO "ELIMINAÇÃO ACELERADA DE RUÍDO DE CONVOLUÇÃO" A presente invenção refere-se a um método e aparelho para eliminar ruído de convolução que surge através de um canal de comunicações, com o fim de, por exemplo, facilitar o reconhecimento automático de características de voz que são independentes do canal.
Embora o reconhecimento de voz por humanos seja muito robusto contra distorções estacionárias do sinal de voz introduzidas pelo equipamento de captação e reprodução de voz e pelo canal telefónico, estas distorções, filtrando efectivamente o sinal de voz, podem degradar o desempenho dos sistemas de reconhecimento automático de voz. A fim de que a voz seja automaticamente reconhecida, é produzida uma representação paramétrica da voz de entrada que é optimamente independente, na medida possível, das fontes de ruído enumeradas. O efeito de fontes de ruído tais como as enumeradas é mais convolucional do que aditivo, e portanto aparece como uma perturbação aditiva no domínio da potência-log em que cada banda de frequência é caracterizada pelo logaritmo de uma estimativa da potência de sinal nessa banda. A análise do sinal nos domínios espectral-log e cepsetral ("cepstral") é discutida in Rabiner e Juang, Fundamentais of Speech Recognition, (Prentice Hall, 1993). O ruído convolucional é tipicamente constante ou lentamente variável. Uma técnica conhecida para remoção de ruído convolucional, de outro modo conhecida como "normalização de canal", é a retirada de uma média, ou no domínio potência-log ou no domínio
7/V'* •'\s - 2 -cepsetral ("cepstral"), correspondente a mais uma transformaçao do logaritmo da transformação de Fourier do sinal do domínio-tempo. A eliminação típica de mído de convolução baseada na retirada de média implica três passos: a. seleccionar partes de sinal contendo voz para serem usadas em calcular uma média; b. computar a média, calculada durante um período de tempo tipicamente na ordem de segundos a dezenas de segundos, da potência de ruído em cada banda de potência-log; c. subtrair a média, numa base de banda-por-banda, do sinal em cada banda.
Um exemplo para esta técnica de eliminação de ruído de convolução é descrito in Gales et. al., "Robust Speech Recognition in Additive and Convolutional Noise using Parallel Model Combination", Computer Speech and Language, vol. 9, no. 4, Oct. 1995, pp. 289-307.
Uma vez que a média computada para cada banda é uma escalar, o conjunto de médias computadas pode ser encarado como um vector médio (isto é, um vector, cada elemento do qual é uma média). A retirada de média deste tipo pode ser aplicada nos domínios quer potência-log quer cepsetral ("ceps trai"). O vector médio tem uma dimensionalidade igual ao número total de bandas de frequência. Assim, têm de ser reunidos dados suficientes para proporcionar um número de parâmetros (isto é, os elementos do vector médio) igual ao número de elementos do vector. Isto requer que vários segundos de voz sejam tipicamente necessários antes - 3 -Ι/Ι^η
de técnicas deste tipo poderem ser aplicadas com êxito. Tais técnicas estão, por isso, sujeitas às seguintes dificuldades: a. estão disponíveis dados insuficientes para as primeiras poucas palavras pronunciadas para computar o vector médio de modo fiável; b. se o cálculo de média corrente incorporar acidentalmente um segmento que não contém dados de voz, o vector médio é incorrectamente calculado, e a recuperação requer um longo período para acumular um novo cálculo de média significativo.
Uma outra técnica aplicada para eliminação de ruído convolucional é a técnica RASTA, em que é realizada filtragem linear com uma componente passa-alto, correspondente à subtracção do cépsetro ("cepstrum") médio durante os 200 milisegundos precedentes. Uma desvantagem desta técnica é a introdução de uma dependência de contexto devida ao facto de que a componente subtraída depende fortemente de fonemas pronunciados no passado imediato. É de notar que o ruído aditivo não é visado pelas técnicas precedentes.
De acordo com um aspecto da invenção, em uma das suas realizações, é proporcionado um método para remover ruído convolucional de um sinal. O método tem os passos de: a. caracterizar o sinal com respeito a uma pluralidade de bandas de frequência, onde o sinal tem uma potência em cada banda de frequência; b. computar um logaritmo de uma quantidade que caracteriza a potência do sinal em cada banda de frequência durante um intervalo de tempo especificado, para derivar uma transformação
J - 4 - do sinal num domínio espectral-log; c. adaptar um espectro de potência-log suavizado ao logaritmo da transformação do sinal no domínio espectral-log, para derivar um espectro de potência-log adaptado correspondente ao efeito de ruído convolucional no domínio espectral-log; e d. remover uma função do espectro de potência-log adaptado da transformação do sinal no domínio espectral-log.
De acordo com realizações alternativas da invenção, o passo de computar um logaritmo pode incluir computar um logaritmo de uma potência média do sinal em cada banda de frequência, e o passo de adaptar um espectro de potência-log suavizado pode incluir seleccionar estruturas temporais para inclusão na computação do logaritmo da quantidade que caracteriza a potência em cada banda de frequência. O passo de computar um logaritmo pode incluir fazer amostragem do sinal em estruturas discretas que podem incluir períodos de menos de 20 milisegundos. O passo de adaptar um espectro de potência-log suavizado pode incluir adaptar uma pluralidade de segmentos ligados de modo suave ao logaritmo da transformação do sinal no domínio espectral-log em função da banda de frequência onde cada segmento é escolhido a partir de pelo menos um de segmentos quadráticos que têm coeficientes quadráticos negativos e segmentos lineares. O passo de caracterizar o sinal pode incluir a atribuição de uma potência a cada banda de frequência num conjunto de bandas em escala de MEL.
De acordo com outras realizações da invenção, o passo de adaptar um espectro de potência-log suavizado pode incluir comprimir preliminarmente a
LS y - 5 -quantidade que caracteriza a potência em cada banda de frequência de acordo com um critério de compressão especificado. O passo de adaptar um espectro de potência-log suavizado pode incluir adaptar um espectro sujeito a um constrangimento de uma forma como de passa-banda e pode incluir efectuar uma adaptação côncava de mínimo-quadrados a um número de parâmetros inferior ao número da pluralidade de bandas de frequência. O passo de remover da transformação do sinal uma função do espectro de potência-log adaptado pode incluir actualizar o espectro de potência-log adaptado para produzir uma estimativa actualizada do vector médio baseada na transformação do sinal durante pelo menos um período de tempo subsequente, e pode também incluir subtrair do sinal o espectro de potência-log adaptado.
De acordo com um outro aspecto da presente invenção, é proporcionado um método para remover ruído convolucional de um sinal. O método tem os passos de: a. caracterizar o sinal com respeito a uma pluralidade de bandas de frequência, tendo o sinal uma potência em cada banda de frequência; b. computar uma fimção de uma quantidade que caracteriza a potência do sinal em cada banda de frequência durante um intervalo de tempo especificado, para derivar uma transformação do sinal num domínio de transformação; c. adaptar um espectro de domínio de transformação suavizado à transformação do sinal no domínio de transformação, para derivar um espectro de domínio de transformação adaptado correspondente ao efeito de ruído convolucional no domínio de transformação; e
d. remover uma função do espectro de domínio de transformação adaptado da transformação do sinal no domínio de transformação.
De acordo com mais um aspecto da presente invenção, é proporcionado um aparelho para remover ruído convolucional de um canal capaz de transportar um sinal. O aparelho tem um processador espectral para transformar estruturas sucessivas do sinal numa transformação do sinal num domínio espectral-log e um registo de memória acoplado ao processador espectral para armazenar um conjunto de amplitudes espectrais-log resultantes do funcionamento do processador espectral. O aparelho também tem um processador de modelos em comunicação com o registo de memória para adaptar um modelo recursivamente suavizado ao conjunto de amplitudes espectrais-log para derivar um espectro de potência-log adaptado correspondente ao efeito de ruído de convolução no domínio espectral-log. O aparelho também tem um dispositivo de saída para subtrair o modelo recursivamente suavizado da transformação do sinal para obter uma transformação residual e para transmitir a transformação residual para subsequente descodificação. A invenção será mais prontamente compreendida por referência à seguinte descrição, apreciada com os desenhos que a acompanham, nos quais: FIG. 1 é um traçado do espectro-log de uma estrutura contendo voz de dados de sinal, antes e depois da aplicação de um método de modelação passa-banda de acordo com uma realização preferida da invenção; e FIG. 2 é um traçado do espectro-log da FIG. 1 calculado em média sobre um número que excede 1000 de estruturas de dados de sinal, antes e depois da aplicação de um método de modelação passa-banda de acordo com uma realização preferida da invenção. - 7 -
<--Ν /
•1 Λ 7
De acordo com uma realização preferida da invenção, o processo de eliminação de ruído de convolução é acelerado por aquisição de dados suficientes para modelar um vector médio em termos de menos parâmetros do que o número de bandas de frequência, reduzindo desse modo a duração de intervalos de tempo contendo conteúdo de voz que tem de ser amostrado para estabelecer ou actualizar um vector médio para uso em subtracção de média. Realizações da invenção são aqui descritas, sem limitação, no contexto de reconhecimento de voz, podendo contudo ser proporcionadas pela invenção vantagens em outras aplicações de processamento de sinal.
Embora sejam aqui descritas realizações da invenção em termos da extracção de um vector "médio" para uso em subtracção de média, deve ser entendido que os métodos e técnicas aqui descritos podem ser igualmente aplicados à derivação de várias outras características do vector de dados, tais, por exemplo, como o mediano ou máximo do vector de dados. O termo "médio", onde ocorre, pode ser substituído, como exemplo, por um operador X definido no espaço de vectores de dados {x}, tal que X(x+a) = X(x) + a, onde x é o vector de dados variável no tempo e a é um vector constante no espaço {x}.
Na prática, de acordo com uma realização preferida da invenção, o logaritmo da potência em cada de uma pluralidade de bandas de frequência é recolhido numa base de estrutura por estrutura, com uma estrutura a ser amostrada a uma taxa especificada, tipicamente na ordem de 10 milisegundos. A estrutura amostrada contém dados espectrais correspondentes ao conteúdo espectral do período de amostragem, o conteúdo espectral obtido por meio de uma transformação rápida de Fourier dos dados temporais. Outras representações espectrais dos dados podem também ser usadas dentro do âmbito da invenção. - 8 - - 8 - / ίΜή A escala de frequência nos termos da qual os dados espectrais de estruturas são representados pode ser qualquer escala de frequência empregada na análise de voz ou noutros dados de sinal. A título de exemplo, a análise de voz emprega muitas vezes as bandas de frequência de MEL com base em estudos empíricos de percepção subjectiva de altura de som. Altemativamente, a frequência pode ser lançada em termos das bandas "críticas" perceptivas em escala de BARK. Qualquer inclusão ("binning") de potência de sinal em bandas de frequência está dentro do âmbito da invenção como descrito aqui e nas reivindicações anexas.
Referindo-nos à FIG. 1, é mostrado o espectro-log 10 de dados de sinal adquiridos durante o curso de uma única estrutura, como transformado num domínio de frequência. As inclusões ("bins") de frequência numeradas são traçadas ao longo da abcissa, enquanto o logaritmo da potência em cada banda é traçado ao longo da ordenada. Como acima discutido, a inclusão em frequência pode ser realizada num de vários métodos conhecidos na técnica de processamento de sinal. A estrutura de dados transformados representada na FIG. 1 corresponde a uma estrutura que contém energia vocal. Tais estruturas pode ser referidas como estruturas "elegíveis para CMS", na medida em que contêm energia total suficiente para utilmente transportar informação relativa ao núcleo convolvente que deve ser removido no processo de eliminação de ruído. A selecção de estruturas elegíveis para CMS é efectuada por um discriminador que rejeita as estruturas que contêm energia total insuficiente para contribuir substancialmente para a derivação de uma média. "CMS" refere-se particularmente à subtracção de média cepsetral, mas é aqui empregado num sentido mais geral igualmente aplicável à eliminação de ruído de convolução em espaço espectral-log. - 9 - - 9 -
iyUi-i
I
De acordo com realizações da invenção, o espectro-log 10 pode representar qualquer vector de dados espectral-log, e não é limitado ao particular vector de dados espectral-log captado durante uma estrutura temporal. Por exemplo, dados de estruturas sucessivas podem ser acumulados ou calculados em média ou processados, anteriormente à implementação da suavização que será abaixo descrita em pormenor. Adicionalmente, o uso de aproximações ao logaritmo ou outras dependências ou características funcionais do sinal em lugar do logaritmo como aqui descritas estão também dentro do âmbito da invenção como reivindicado nas reivindicações anexas. A forma particular do espectro-log 10 pode conter canais de frequência localmente optimizados, tais como o canal designado pelo numeral 12. Canais localmente optimizados podem ocorrer devido ao facto de que a energia num sinal de voz é concentrada em formadores, a frequência dominante caracterizando ressonâncias ou regiões de acentuação associadas com diferentes sons. Uma estrutura contendo voz é susceptível de apresentar picos nos formadores de um fonema expresso durante essa estrutura. Assim, se o espectro-log 10 tivesse de ser usado como uma componente na remoção de uma média no domínio espectral-log, a média seria contaminada pela presença de picos relativamente localizados tais como 12.
Um método para suprimir as ressonâncias tais como 12, de acordo com realizações da presente invenção, é suavizar o espectro-log 10 no domínio espectral-log por um modelo de ordem-baixa, isto é, um modelo contendo um número K de parâmetros livres que é menor do que o número N de canais de frequência nos quais os dados de sinal foram incluídos. Em particular, o espectro-log 10 pode ser suavizado de modo a não apresentar ressonâncias e assim modelar
/ -10-uma contribuição convolucional que, semelhantemente, apresenta uma resposta de magnitude de passa-banda.
Como passo subsequente, de acordo com certas realizações da invenção, uma vez que foram seleccionadas estruturas que entrarão na computação de média, o espectro-log 10 de uma estrutura pode ser comprimido, de modo a controlar o efeito de formadores de voz. Assim, picos proeminentes tais como 12 são limitados no processo. A quantidade de compressão pode ser mais ou menos extensa, de acordo com a particular realização da invenção empregada. Adicionalmente, de acordo com realizações alternativas da invenção, a filtragem não-linear de vários géneros conhecidos na técnica pode ser aplicada antes da compressão a fim de obter uma estimativa robusta do valor máximo observado para impedir compressão anómala. O espectro-log 10, possivelmente comprimido, é então suavizado por lhe ser adaptado um modelo de mínimo-quadrados tal como representado pela curva tracejada 14. O modelo 14 pode ser derivado da maneira seguinte, intervalos K são definidos em toda a gama de bandas de frequência, correspondendo, de modo equivalente, a K+l pontos de interrupção separando os intervalos. Uma curva quadrática é definida a cada intervalo, sendo as curvas quadráticas adaptadas ao espectro-log 10, no sentido de mínimo-quadrados como geralmente usado em matemática, usando qualquer algoritmo de adaptação numérico conhecido na técnica. Um segmento quadrático definido num intervalo indexado j, tem a forma funcional: qj (x) = aj (* - fj \ + bj (x -fj)+ Cj
Um
J - 11 -para frequências x entre osj ° e (j+1) ° pontos de interrupção.
De acordo com uma realização preferida da presente invenção, os segmentos quadráticos adaptados aos intervalos de frequências respectivos são tanto contínuos como diferenciáveis nos pontos de interrupção, de tal modo que o espectro modelo resultante, neste caso um segmento quadrático, é uma função "bem-comportada” do número ordinal da banda de frequência, ou, noutros termos, "ligado de modo suave", como referido por pessoas de usual perícia em matemática. Dado que diversas características do vector médio modelo podem ser conhecidas a priori, são vantajosamente impostas certas condições no procedimento de adaptação. A função de transferência do canal de transmissão / aquisição tipicamente diminui acentuadamente tanto nas baixas como nas altas frequências, o vector médio desejado tendo assim a forma de uma passa-banda em frequências centrais com joelhos agudos em cortes de frequência baixa e alta. Assim, a adaptação é constrangida a ser côncava ("derramando água") como apresentada pelo modelo 14, correspondendo a coeficientes quadráticos negativos aj. Para forçar a forma de passa-banda, pode ser necessário que alguns dos segmentos sejam adaptados por segmentos lineares de preferência a segmentos quadráticos. A adaptação resultante é assim o modelo suavizado 14. Numa realização preferida da invenção, a adaptação de mínimo-quadrados é efectuada por remoção de colunas (as que correspondem a uma solução positiva para algum aj na iteração anterior) numa decomposição-QR até que os quadráticos e linhas rectas concatenados de modo suave tenham uma forma de passa-banda. Assim, inicialmente, todos os segmentos têm um parâmetro aj livre estimado com a decomposição de QR e, em cada um de uma série de passos iterativos, são resolvidos os coeficientes dos segmentos quadráticos. Se resulta um aj positivo, a coluna correspondente ao aj positivo é removida da QR, o aj correspondente ó colocado em zero, e o segmento quadrático é substituído por uma - 12- - 12-
<L / s/L·'-'· f / LS linha recta. Os parâmetros de segmentos são então novamente resolvidos, repetindo-se este processo até todos os af s serem negativos ou zero. Contudo, outros métodos de alcançar a potência-log ou o espectro cepsetral suavizados estão dentro do âmbito da invenção, como reivindicado nas reivindicações anexas.
Referindo-nos agora à FIG. 2, a média de mais de 1000 estruturas de dados não suavizados (em bruto) é designada pela curva 20, ao passo que a versão suavizada, após aplicação do algoritmo de adaptação acima descrito, é designada pela curva 22, que tem a forma de passa-banda côncava prescrita.
De acordo com uma realização da invenção, a média, derivada como acima descrito, pode ser actualizada recursivamente, como sabido por pessoas especializadas na técnica. A título de exemplo, a estimativa do vector médio (ou, semelhantemente, a estimativa de qualquer quantidade que caracteriza a potência de sinal em cada banda de frequência) na estrutura t, designada μ, , pode ser actualizada a partir da estimativa do vector médio na estrutura t-1 adicionando o resto do vector de potência-log na estrutura t, ponderado pelo inverso de uma constante de tempo T correspondendo, tipicamente, a na ordem de 50 estruturas, assim: μ,=μ,-
Além de acumulação ou actualização da estimativa do vector médio, outras operações matemáticas podem ser empreendidas para modificar a estimativa do vector médio. Semelhantemente, pode ser obtida saída útil subtraindo a estimativa do vector médio, ou o seu equivalente como discutido, da transformação -13- do sinal no domínio espectral-log ou, de outro modo, operando sobre o sinal usando informação incorporada na estimativa do vector médio.
As realizações descritas da invenção destinam-se a ser meramente exemplares e numerosas variações e modificações serão evidentes para os especializados na técnica. Todas essas variações e modificações destinam-se a estar dentro do âmbito da presente invenção como definido nas reivindicações anexas.
Lisboa, 19 de Novembro de 2001 luís silva carvalho '
Agente Oficial da Propriedade Industrial RUA VICTOR CORDON, 14 1200 LISBOA
Claims (25)
- {/(AM L··-' - 1 - REIVINDICAÇÕES 1. Um método para remover ruído convolucional de um sinal, compreendendo: a. caracterizar o sinal com respeito a uma pluralidade de bandas de frequência, o sinal tendo uma potência em cada banda de frequência; b. computar um logaritmo de uma quantidade que caracteriza a potência do sinal em cada banda de frequência durante um intervalo de tempo especificado para derivar uma transformação do sinal num domínio espectral-log; c. adaptar um espectro de potência-log suavizado ao logaritmo da transformação do sinal no domínio espectral log para derivar um espectro de potência-log adaptado correspondente ao efeito de ruído convolucional no domínio espectral-log; e d. remover uma função do espectro de potência-log adaptado da transformação do sinal no domínio espectral-log.
- 2. Um método de acordo com a reivindicação 1, em que o passo de computar um logaritmo incluir computar um logaritmo de uma potência média do sinal em cada banda de frequência.
- 3. Um método de acordo com a reivindicação 1, em que o passo de adaptar um espectro de potência-log suavizado incluir seleccionar estruturas temporais para inclusão na computação do logaritmo da quantidade que caracteriza a potência.
- 4. Um método de acordo com a reivindicação 1, em que o passo de computar um logaritmo incluir fazer amostragem do sinal em estruturas discretas.
- 5. Um método de acordo com a reivindicação 1, em que o passo de computar um logaritmo incluir fazer amostragem do sinal em estruturas discretas incluindo períodos de menos de 20 milisegundos.
- 6. Um método de acordo com a reivindicação 1, em que o passo de adaptar um espectro de potência-log suavizado incluir adaptar uma pluralidade de segmentos quadráticos ao logaritmo da quantidade que caracteriza a potência em cada banda de frequência em função da banda de frequência.
- 7. Um método de acordo com a reivindicação 1, em que o passo de adaptar um espectro de potência-log suavizado incluir adaptar uma pluralidade de segmentos ligados de modo suave ao logaritmo da quantidade que caracteriza a potência em cada banda de frequência em função da banda de frequência onde cada segmento é escolhido a partir de pelo menos um de segmentos quadráticos e segmentos lineares.
- 8. Um método de acordo com a reivindicação 1, em que o passo de adaptar um espectro de potência-log suavizado incluir adaptar uma pluralidade de segmentos ligados de modo suave ao logaritmo da quantidade que caracteriza a potência em cada banda de frequência em função da banda de frequência onde cada segmento é escolhido a partir de pelo menos um de segmentos quadráticos que têm coeficientes quadráticos negativos e segmentos lineares.
- 9. Um método de acordo com a reivindicação 1, em que o passo de caracterizar o sinal incluir a atribuição de uma potência a cada banda de frequência num conjunto de bandas em escala de MEL.
- 10. Um método de acordo com a reivindicação 1, em que o passo de adaptar um espectro de potência-log suavizado incluir comprimir preliminarmente a quantidade que caracteriza a potência em cada banda de frequência de acordo com um critério de compressão especificado.
- 11. Um método de acordo com a reivindicação 1, em que o passo de adaptar um espectro de potência-log suavizado incluir adaptar um espectro sujeito a um constrangimento de uma forma como de passa-banda.
- 12. Um método de acordo com a reivindicação 1, em que o passo de adaptar um espectro de potência-log suavizado incluir efectuar uma adaptação côncava de mínimo-quadrados a um número de parâmetros inferior ao número da pluralidade de bandas de frequência.
- 13. Um método de acordo com a reivindicação 1, em que o passo de remover uma função do espectro de potência-log adaptado da transformação do sinal incluir actualizar o espectro de potência-log adaptado para produzir uma estimativa actualizada do vector médio baseada na transformação do sinal durante pelo menos um período de tempo subsequente.
- 14. Um método de acordo com a reivindicação 1, em que o passo de remover uma função do espectro de potência-log adaptado da transformação do sinal incluir subtrair o espectro de potência-log adaptado do sinal.
- 15. Um método para remover ruído convolucional de um sinal, compreendendo: a. caracterizar o sinal com respeito a uma pluralidade de bandas de frequência, o sinal tendo uma potência em cada banda de frequência; b. computar uma função de uma quantidade que caracteriza a potência do sinal em cada banda de frequência durante um intervalo de tempo especificado para derivar uma transformação do sinal num domínio de transformação; c. adaptar um espectro de domínio de transformação suavizado à transformação do sinal no domínio de transformação para derivar um espectro de domínio de transformação adaptado correspondente ao efeito de ruído convolucional no domínio de transformação; e d. remover uma função do espectro de domínio de transformação adaptado da transformação do sinal no domínio de transformação.
- 16. Um aparelho para remover ruído convolucional de um canal capaz de transportar um sinal, o aparelho compreendendo: a. um processador espectral para transformar estruturas sucessivas do sinal numa transformação do sinal num domínio espectral-log; b. um registo de memória acoplado ao processador espectral para armazenar um conjunto de amplitudes espectrais-log resultantes do funcionamento do processador espectral; c. um processador de modelos em comunicação com o registo de memória para adaptar um modelo recursivamente suavizado ao conjunto de amplitudes espectrais-log para derivar um espectro de potência-log adaptado correspondente ao efeito de ruído de convolução no domínio espectral-log; ei.-' J - 5 - d. um dispositivo de saída para subtrair o modelo recursivamente suavizado da transformação do sinal para obter uma transformação residual e para transmitir a transformação residual para subsequente descodificação.
- 17. Um aparelho de acordo com a reivindicação 16, em que além disso, inclui um discriminador para seleccionar estruturas temporais para inclusão na computação do logaritmo da quantidade que caracteriza a potência.
- 18. Um aparelho de acordo com a reivindicação 16, em que o processador espectral inclui um dispositivo de amostragem para fazer amostragem do sinal em estruturas discretas.
- 19. Um aparelho de acordo com a reivindicação 16, em que o processador espectral inclui um dispositivo de amostragem para fazer amostragem do sinal em estruturas discretas incluindo períodos de menos de 20 milisegundos.
- 20. Um aparelho de acordo com a reivindicação 16, em que o processador de modelos inclui um dispositivo para adaptar uma pluralidade de segmentos quadráticos ao logaritmo da quantidade que caracteriza a potência em cada banda de frequência em função da banda de frequência.
- 21. Um aparelho de acordo com a reivindicação 16, em que o processador de modelos inclui um dispositivo para adaptar uma pluralidade de segmentos ligados de modo suave ao logaritmo da quantidade que caracteriza a potência em cada banda de frequência em função da banda de frequência onde cada segmento é escolhido a partir de pelo menos um de segmentos quadráticos e segmentos lineares. - 6 -
- 22. Um aparelho de acordo com a reivindicação 16, ern que o processador de modelos inclui um dispositivo para adaptar uma pluralidade de segmentos ligados de modo suave ao logaritmo da quantidade que caracteriza a potência em cada banda de frequência em função da banda de frequência onde cada segmento é escolhido a partir de pelo menos um de segmentos quadráticos que têm coeficientes quadráticos negativos e segmentos lineares.
- 23. Um aparelho de acordo com a reivindicação 16, em que o processador de modelos inclui um dispositivo para comprimir preliminarmente a quantidade que caracteriza a potência em cada banda de frequência de acordo com um critério de compressão especificado.
- 24. Um aparelho de acordo com a reivindicação 16, em que o processador de modelos inclui um dispositivo para adaptar um espectro sujeito a um constrangimento de uma forma como de passa-banda.
- 25. Um aparelho de acordo com a reivindicação 16, em que o processador de modelos inclui um dispositivo para efectuar uma adaptação côncava de mínimo-quadrados a um número de parâmetros inferior ao número da pluralidade de bandas de frequência. Lisboa, 19 de Novembro de 2001luís silva carvalho Agente Oficial da Propriedade Industrial RUA ViCTOR CORDON, 14 Λ ΟΛΛ I ICOrVA
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US3846897P | 1997-02-21 | 1997-02-21 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| PT1010168E true PT1010168E (pt) | 2002-02-28 |
Family
ID=21900145
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PT79103498T PT1010168E (pt) | 1997-02-21 | 1998-02-13 | Eliminacao acelerada de ruido de convolucao |
Country Status (11)
| Country | Link |
|---|---|
| US (1) | US6044340A (pt) |
| EP (1) | EP1010168B1 (pt) |
| JP (1) | JP2001512585A (pt) |
| AT (1) | ATE205628T1 (pt) |
| AU (1) | AU737067B2 (pt) |
| CA (1) | CA2278231A1 (pt) |
| DE (1) | DE69801674T2 (pt) |
| DK (1) | DK1010168T3 (pt) |
| ES (1) | ES2161522T3 (pt) |
| PT (1) | PT1010168E (pt) |
| WO (1) | WO1998037542A1 (pt) |
Families Citing this family (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6351729B1 (en) * | 1999-07-12 | 2002-02-26 | Lucent Technologies Inc. | Multiple-window method for obtaining improved spectrograms of signals |
| DE10005609C1 (de) * | 2000-02-09 | 2001-08-09 | Siemens Ag | Verfahren zur Spracherkennung |
| US6694294B1 (en) | 2000-10-31 | 2004-02-17 | Qualcomm Incorporated | System and method of mu-law or A-law compression of bark amplitudes for speech recognition |
| US7697700B2 (en) * | 2006-05-04 | 2010-04-13 | Sony Computer Entertainment Inc. | Noise removal for electronic device with far field microphone on console |
| JP4423300B2 (ja) * | 2004-10-28 | 2010-03-03 | 富士通株式会社 | 雑音抑圧装置 |
| US7697620B2 (en) | 2005-11-14 | 2010-04-13 | Ibiquity Digital Corporation | Equalizer for AM in-band on-channel radio receivers |
| US7877255B2 (en) * | 2006-03-31 | 2011-01-25 | Voice Signal Technologies, Inc. | Speech recognition using channel verification |
| US20100094622A1 (en) * | 2008-10-10 | 2010-04-15 | Nexidia Inc. | Feature normalization for speech and audio processing |
| US20100262423A1 (en) * | 2009-04-13 | 2010-10-14 | Microsoft Corporation | Feature compensation approach to robust speech recognition |
| WO2017078714A1 (en) * | 2015-11-05 | 2017-05-11 | Halliburton Energy Services Inc. | Fluid flow metering with point sensing |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5450522A (en) * | 1991-08-19 | 1995-09-12 | U S West Advanced Technologies, Inc. | Auditory model for parametrization of speech |
| US5598505A (en) * | 1994-09-30 | 1997-01-28 | Apple Computer, Inc. | Cepstral correction vector quantizer for speech recognition |
-
1998
- 1998-02-13 EP EP98909699A patent/EP1010168B1/en not_active Expired - Lifetime
- 1998-02-13 CA CA002278231A patent/CA2278231A1/en not_active Abandoned
- 1998-02-13 US US09/023,291 patent/US6044340A/en not_active Expired - Lifetime
- 1998-02-13 ES ES98909699T patent/ES2161522T3/es not_active Expired - Lifetime
- 1998-02-13 JP JP53644198A patent/JP2001512585A/ja active Pending
- 1998-02-13 DK DK98909699T patent/DK1010168T3/da active
- 1998-02-13 WO PCT/IB1998/000497 patent/WO1998037542A1/en not_active Ceased
- 1998-02-13 AT AT98909699T patent/ATE205628T1/de not_active IP Right Cessation
- 1998-02-13 DE DE69801674T patent/DE69801674T2/de not_active Expired - Fee Related
- 1998-02-13 AU AU64160/98A patent/AU737067B2/en not_active Ceased
- 1998-02-13 PT PT79103498T patent/PT1010168E/pt unknown
Also Published As
| Publication number | Publication date |
|---|---|
| DE69801674T2 (de) | 2002-06-20 |
| WO1998037542A1 (en) | 1998-08-27 |
| DE69801674D1 (de) | 2001-10-18 |
| ATE205628T1 (de) | 2001-09-15 |
| ES2161522T3 (es) | 2001-12-01 |
| US6044340A (en) | 2000-03-28 |
| DK1010168T3 (da) | 2001-12-27 |
| EP1010168A1 (en) | 2000-06-21 |
| CA2278231A1 (en) | 1998-08-27 |
| JP2001512585A (ja) | 2001-08-21 |
| AU737067B2 (en) | 2001-08-09 |
| EP1010168B1 (en) | 2001-09-12 |
| AU6416098A (en) | 1998-09-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Kim et al. | Power-normalized cepstral coefficients (PNCC) for robust speech recognition | |
| CA2732723C (en) | Apparatus and method for processing an audio signal for speech enhancement using a feature extraction | |
| JP4484283B2 (ja) | 音声処理装置及び方法 | |
| JPH08506427A (ja) | 雑音減少 | |
| JPWO2005124739A1 (ja) | 雑音抑圧装置および雑音抑圧方法 | |
| PT1010168E (pt) | Eliminacao acelerada de ruido de convolucao | |
| JP3907194B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
| CN108962275B (zh) | 一种音乐噪声抑制方法及装置 | |
| Erell et al. | Filterbank-energy estimation using mixture and Markov models for recognition of noisy speech | |
| KR20150117114A (ko) | 잡음 제거 장치 및 방법 | |
| Fu et al. | Perceptual wavelet adaptive denoising of speech. | |
| CN105869652B (zh) | 心理声学模型计算方法和装置 | |
| Nemer et al. | Speech enhancement using fourth-order cumulants and optimum filters in the subband domain | |
| CN119667349A (zh) | 一种gis设备的机械缺陷振声特征提取方法 | |
| Veselinovic et al. | A wavelet transform approach to blind adaptive filtering of speech from unknown noises | |
| JP4965891B2 (ja) | 信号処理装置およびその方法 | |
| Fu et al. | A novel speech enhancement system based on wavelet denoising | |
| Manfredi et al. | SVD-based portable device for real-time hoarse voice denoising | |
| Farahani et al. | Consideration of correlation between noise and clean speech signals in autocorrelation-based robust speech recognition | |
| Mehta et al. | Robust front-end and back-end processing for feature extraction for Hindi speech recognition | |
| Nemer | Speech enhancement using fourth-order cumulants and time-domain optimal filters | |
| Semenov | A novel approach to calculation of line spectral frequencies based on inter-frame ordering property | |
| Hadri et al. | Improvement of Arab Digits Recognition Rate Based in the Parameters Choice | |
| Ali et al. | The phase spectra based feature for robust speech recognition | |
| Potamitis et al. | Speech enhancement using band-dependent spectral estimators |