RU2407074C2 - Улучшение речи с помощью нескольких датчиков с использованием предшествующей чистой речи - Google Patents

Улучшение речи с помощью нескольких датчиков с использованием предшествующей чистой речи Download PDF

Info

Publication number
RU2407074C2
RU2407074C2 RU2007147463/09A RU2007147463A RU2407074C2 RU 2407074 C2 RU2407074 C2 RU 2407074C2 RU 2007147463/09 A RU2007147463/09 A RU 2007147463/09A RU 2007147463 A RU2007147463 A RU 2007147463A RU 2407074 C2 RU2407074 C2 RU 2407074C2
Authority
RU
Russia
Prior art keywords
distribution
signal
speech
variance
air conduction
Prior art date
Application number
RU2007147463/09A
Other languages
English (en)
Other versions
RU2007147463A (ru
Inventor
Цзычэн ЛЮ (US)
Цзычэн ЛЮ
Алехандро АСЕРО (US)
Алехандро АСЕРО
Чженью ЧЖАН (US)
Чженью ЧЖАН
Original Assignee
Майкрософт Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Майкрософт Корпорейшн filed Critical Майкрософт Корпорейшн
Publication of RU2007147463A publication Critical patent/RU2007147463A/ru
Application granted granted Critical
Publication of RU2407074C2 publication Critical patent/RU2407074C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Meter Arrangements (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Machine Translation (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)
  • User Interface Of Digital Computer (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

Изобретение относится к распознаванию речи. Способ и устройство определяют характеристику канала для альтернативного датчика с использованием сигнала альтернативного датчика, сигнала микрофона воздушной проводимости. Характеристика канала и распределение априорной вероятности для значений чистой речи затем используются для оценки значения чистой речи. Технический результат - обнаружение и/или исправление речевого сигнала при его искажении, вызванном речью другого говорящего. 3 н. и 14 з.п. ф-лы, 6 ил.

Description

УРОВЕНЬ ТЕХНИКИ
Общая проблема в распознавании речи и передаче речи состоит в искажении речевого сигнала аддитивным шумом. В частности, искажение, вызванное речью другого говорящего, оказывается трудно обнаружить и/или исправить.
Недавно была разработана система, которая пытается удалить шум с использованием комбинации альтернативного датчика, такого как микрофон костной проводимости, и микрофона воздушной проводимости. Эта система «обучается» с использованием трех каналов обучения: искаженный обучающий сигнал альтернативного датчика, искаженный обучающий сигнал микрофона воздушной проводимости и чистый обучающий сигнал микрофона воздушной проводимости. Каждый из сигналов преобразуется в область признаков. Признаки искаженного сигнала альтернативного датчика и искаженного сигнала микрофона воздушной проводимости объединяются в один вектор, представляющий искаженный сигнал. Признаки чистого сигнала микрофона воздушной проводимости формируют один чистый вектор. Затем эти векторы используются для «обучения» преобразованию между искаженными векторами и чистыми векторами. После «обучения» преобразование применяется к искаженному вектору, сформированному из комбинации искаженного испытательного сигнала альтернативного датчика и искаженного испытательного сигнала микрофона воздушной проводимости. Это преобразование производит вектор чистого сигнала.
Эта система менее чем оптимальна, когда условия искажений испытательных сигналов не соответствуют условиям искажений обучающих сигналов, поскольку преобразования построены для условий искажений обучающих сигналов.
РАСКРЫТИЕ ИЗОБРЕТЕНИЯ
Способ и устройство определяют характеристику канала для альтернативного датчика с использованием сигнала альтернативного датчика, сигнала микрофона воздушной проводимости. Характеристика канала и распределение априорной вероятности для значений чистой речи затем используются для оценки значения чистой речи.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Фиг.1 - блок-схема вычислительной среды, в которой могут быть осуществлены варианты воплощения настоящего изобретения.
Фиг.2 - блок-схема альтернативной вычислительной среды, в которой могут быть осуществлены варианты воплощения настоящего изобретения.
Фиг.3 - блок-схема общей системы обработки речи одного варианта воплощения настоящего изобретения.
Фиг.4 - блок-схема системы для улучшения речи в одном варианте воплощения настоящего изобретения.
Фиг.5 - блок-схема последовательности операций для улучшения речи в одном варианте воплощения настоящего изобретения.
Фиг.6 - блок-схема последовательности операций для улучшения речи в другом варианте воплощения настоящего изобретения.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ
Фиг.1 иллюстрирует пример подходящей вычислительной среды 100, в которой могут быть осуществлены варианты воплощения изобретения. Вычислительная среда 100 представляет собой только один пример подходящей вычислительной среды и не предназначена для наложения каких-либо ограничений относительно объема использования или функциональных возможностей изобретения. Вычислительная среда 100 также не должна интерпретироваться как имеющая какую-либо зависимость или требование по отношению к любому компоненту или комбинации компонентов, изображенных в иллюстративной среде 100.
Изобретение может работать с многими другими вычислительными средами и конфигурациями общего назначения или специального назначения. Примеры известных вычислительных систем, сред и/или конфигураций, которые могут являться подходящими для использования с изобретением, включают в себя, но без ограничения, персональные компьютеры, серверные компьютеры, карманные или переносные устройства, многопроцессорные системы, системы на основе микропроцессора, телеприставки, программируемую бытовую электронику, сетевые персональные компьютеры, миникомпьютеры, универсальные вычислительные системы, системы телефонии, распределенные вычислительные среды, которые включают в себя любые из упомянутых выше систем или устройств, и т.п.
Изобретение может быть описано в общем контексте исполняемых на компьютере команд, таких как программные модули, исполняемые компьютером. В общем случае программные модули включают в себя подпрограммы, программы, объекты, компоненты, структуры данных и т.д., которые выполняют специфические задачи или реализуют специфические абстрактные типы данных. Изобретение выполнено с возможностью быть осуществленным в распределенных вычислительных средах, в которых задачи выполняются отдаленными устройствами обработки, которые связаны через сеть связи. В распределенной вычислительной среде программные модули расположены и на локальных, и на удаленных компьютерных носителях данных, в том числе запоминающих устройствах.
На фиг.1 показано, что иллюстративная система для реализации вариантов воплощения изобретения включает в себя универсальное вычислительное устройство в виде компьютера 110. Компоненты компьютера 110 могут включать в себя, но без ограничения, процессор 120, системную память 130 и системную шину 121, которая соединяет различные компоненты системы, в том числе системную память, с процессором 120. Системная шина 121 может представлять собой любой из нескольких типов шинных структур, в том числе шину памяти или контроллер памяти, периферийную шину и локальную шину, с использованием любой из разнообразных шинных архитектур. В качестве примера, но не ограничения, такие архитектуры включают в себя шину промышленной стандартной архитектуры (ISA), шину микроканальной архитектуры (MCA), шину расширенной промышленной стандартной архитектуры (EISA), локальную шину Ассоциации по стандартам в области видеоэлектроники (VESA) и шину соединения периферийных компонентов (PCI), также известную как шина второго уровня.
Компьютер 110 обычно включает в себя разные машиночитаемые носители. Машиночитаемые носители могут представлять собой любые имеющиеся носители, к которым можно получить доступ с помощью компьютера 110, и включают в себя как энергозависимые, так и энергонезависимые носители, сменные и несменные носители. В качестве примера, но не ограничения, машиночитаемые носители могут содержать компьютерные носители данных и коммуникационные носители. Компьютерные носители данных включают в себя энергозависимые и энергонезависимые, сменные и несменные носители, реализованные любым способом или по любой технологии для хранения информации, такой как машиночитаемые команды, структуры данных, программные модули или другие данные. Компьютерные носители данных включают в себя, но без ограничения, оперативное запоминающее устройство (RAM; ОЗУ), постоянное запоминающее устройство (ROM; ПЗУ), электрически стираемое программируемое постоянное запоминающее устройство (EEPROM; ЭСППЗУ), флэш-память или другую технологию памяти, компакт-диск, предназначенный только для чтения (CD-ROM), цифровые универсальные диски (DVD) или другую память на оптическом диске, магнитные кассеты, магнитную ленту, память на магнитном диске или другие магнитные запоминающие устройства или любой другой носитель, который может быть использован для хранения желаемой информации и к которому можно получить доступ с помощью компьютера 110. Коммуникационные носители обычно воплощают машиночитаемые команды, структуры данных, программные модули или другие данные в модулированном сигнале данных, таком как несущая волна или другой транспортный механизм, и включают в себя любые носители для доставки информации. Термин "модулированный сигнал данных" обозначает сигнал, у которого одна или более из его характеристик установлена или изменена таким образом, чтобы закодировать информацию в сигнале. В качестве примера, но не ограничения, коммуникационные носители включают в себя проводные носители, такие как проводная сеть или прямое проводное соединение, и беспроводные носители, такие как акустические, радиоволновые, инфракрасные и другие беспроводные носители. Комбинации любых упомянутых выше элементов также должны быть включены в объем понятия машиночитаемых носителей.
Системная память 130 включает в себя компьютерные носители данных в виде энергозависимой и/или энергонезависимой памяти, такой как постоянное запоминающее устройство (ROM; ПЗУ) 131 и оперативное запоминающее устройство (RAM; ОЗУ) 132. Базовая система 133 ввода-вывода (BIOS), содержащая базовые подпрограммы, которые помогают перемещать информацию между элементами в компьютере 110, например, во время запуска, обычно хранится в постоянном запоминающем устройстве (ROM; ПЗУ) 131. Оперативное запоминающее устройство (RAM; ОЗУ) 132 обычно содержит данные и/или программные модули, которые являются моментально доступными для процессора 120 и/или которые в данный момент обрабатываются процессором 120. В качестве примера, но не ограничения, фиг.1 иллюстрирует операционную систему 134, прикладные программы 135, другие программные модули 136 и программные данные 137.
Компьютер 110 может также включать в себя другие сменные/несменные, энергозависимые/энергонезависимые компьютерные носители данных. Только в качестве примера фиг.1 иллюстрирует накопитель 141 на жестких дисках, который считывает или записывает на несменный энергонезависимый магнитный носитель, магнитный дисковод 151, который считывает или записывает на сменный энергонезависимый магнитный диск 152, и оптический дисковод 155, который считывает или записывает на сменный энергонезависимый оптический диск 156, такой как постоянное запоминающее устройство на компакт-диске (CD ROM) или другой оптический носитель. Другие сменные/несменные, энергозависимые/энергонезависимые компьютерные носители данных, которые могут использоваться в иллюстративной операционной среде, включают в себя, но без ограничения, кассеты магнитной ленты, карты флэш-памяти, цифровые универсальные диски, цифровую видеоленту, полупроводниковое ОЗУ, полупроводниковое ПЗУ и т.п. Накопитель 141 на жестких дисках обычно соединен с системной шиной 121 через интерфейс несменной памяти, такой как интерфейс 140, и магнитный дисковод 151 и оптический дисковод 155 обычно соединяются с системной шиной 121 посредством интерфейса сменной памяти, такого как интерфейс 150.
Дисковые накопители и связанные с ними компьютерные носители данных, обсуждаемые выше и проиллюстрированные на фиг.1, обеспечивают хранение машиночитаемых команд, структур данных, программных модулей и других данных для компьютера 110. На фиг.1, например, накопитель 141 на жестких дисках проиллюстрирован как содержащий операционную систему 144, прикладные программы 145, другие программные модули 146 и программные данные 147. Следует отметить, что эти компоненты могут либо быть теми же самыми, либо отличными от операционной системы 134, прикладных программ 135, других программных модулей 136 и программных данных 137. Операционной системе 144, прикладным программам 145, другим программным модулям 146 и программным данным 147 здесь даны другие номера, чтобы проиллюстрировать, что они как минимум являются другими копиями.
Пользователь может вводить команды и информацию в компьютер 110 через устройства ввода данных, такие как клавиатура 162, микрофон 163 и координатно-указательное устройство 161, такое как мышь, шаровой манипулятор или сенсорная клавиатура. Другие устройства ввода данных (не показаны) могут включать в себя джойстик, игровую клавиатуру, спутниковую антенну, сканер и т.п. Эти и другие устройства ввода данных часто соединены с процессором 120 через интерфейс 160 пользовательского ввода, который присоединен к системной шине, но может быть соединен другими интерфейсными и шинными структурами, такими как параллельный порт, игровой порт или универсальная последовательная шина (USB). Монитор 191 или другой тип устройства отображения также соединен с системной шиной 121 через интерфейс, такой как видеоинтерфейс 190. В дополнение к монитору компьютеры могут также включать в себя другие внешние устройства вывода, такие как динамики 197 и принтер 196, которые могут быть соединены через интерфейс 195 периферийных устройств вывода.
Компьютер 110 работает в сетевом окружении, используя логические соединения с одним или более удаленными компьютерами, такими как удаленный компьютер 180. Удаленный компьютер 180 может являться персональным компьютером, переносным компьютером, сервером, маршрутизатором, сетевым персональным компьютером, одноранговым устройством или другим общим сетевым узлом и обычно включает в себя многие или все элементы, описанные выше относительно компьютера 110. Логические соединения, изображенные на фиг.1, включают в себя локальную сеть (LAN) 171 и глобальную сеть (WAN) 173, но могут также включать в себя другие сети. Такие сетевые среды являются обычным явлением в офисах, компьютерных сетях масштаба предприятия, интрасетях и Интернете.
При использовании в среде локальной сети компьютер 110 соединен с локальной сетью 171 через сетевой интерфейс или адаптер 170. При использовании в среде глобальной сети компьютер 110 обычно включает в себя модем 172 или другое средство для установления связи по глобальной сети 173, такой как Интернет. Модем 172, который может быть внутренним или внешним, может быть соединен с системной шиной 121 через интерфейс 160 пользовательского ввода или другой соответствующий механизм. В сетевом окружении программные модули, изображенные относительно компьютера 110, или их части могут храниться в удаленном запоминающем устройстве. В качестве примера, но не ограничения, фиг.1 иллюстрирует удаленные прикладные программы 185 как находящиеся в удаленном компьютере 180. Следует понимать, что показанные сетевые соединения являются иллюстративными и могут быть использованы другие средства установления линии связи между компьютерами.
Фиг.2 является блок-схемой мобильного устройства 200, которое является иллюстративной вычислительной средой. Мобильное устройство 200 включает в себя микропроцессор 202, память 204, компоненты 206 ввода-вывода и интерфейс 208 связи для связи с удаленными компьютерами или другими мобильными устройствами. В одном варианте воплощения упомянутые выше компоненты соединены для связи друг с другом через подходящую шину 210.
Память 204 реализована как энергонезависимая электронная память, такая как оперативное запоминающее устройство (RAM; ОЗУ) с резервным модулем батарей (не показан), с тем чтобы информация, сохраненная в памяти 204, не была потеряна, когда отключается общее энергопитание мобильного устройства 200. Часть памяти 204 предпочтительно распределена как адресуемая память для исполнения программ, в то время как другая часть памяти 204 предпочтительно используется для хранения, с тем чтобы симулировать хранение на дисковом накопителе.
Память 204 включает в себя операционную систему 212, прикладные программы 214, а также хранилище 216 объектов. Во время работы операционная система 212 предпочтительно исполняется процессором 202 из памяти 204. Операционная система 212 в одном предпочтительном варианте воплощения является операционной системой WINDOWS® CE, которую можно приобрести у Microsoft Corporation. Операционная система 212 предпочтительно является разработанной для мобильных устройств и реализует возможности базы данных, которые могут использоваться приложениями 214 через набор доступных прикладных программных интерфейсов и методов. Объекты в хранилище 216 объектов поддерживаются приложениями 214 и операционной системой 212, по меньшей мере, частично в ответ на вызовы доступных прикладных программных интерфейсов и методов.
Интерфейс 208 связи представляет многочисленные устройства и технологии, которые позволяют мобильному устройству 200 отправлять и принимать информацию. Устройства включают в себя проводные и беспроводные модемы, спутниковые приемники и приемники вещания и многие другие устройства. Мобильное устройство 200 также может быть непосредственно соединено с компьютером для обмена данными с ним. В таких случаях интерфейс 208 связи может являться инфракрасным приемопередатчиком или последовательным или параллельным соединением связи, из которых все могут передавать потоковую информацию.
Компоненты 206 ввода-вывода включают в себя различные устройства ввода данных, такие как сенсорный экран, кнопки, ролики и микрофон, а также различные устройства вывода, включающие в себя генератор звука, устройство вибрации и дисплей. Перечисленные выше устройства даны в качестве примера и необязательно должны все присутствовать в мобильном устройстве 200. Кроме того, другие устройства ввода-вывода могут быть присоединены к мобильному устройству 200 или находиться в нем в рамках объема настоящего изобретения.
Фиг.3 представляет основную блок-схему вариантов воплощения настоящего изобретения. На фиг.3 диктор 300 формирует речевой сигнал 302 (X), который обнаруживается посредством микрофона 304 воздушной проводимости и альтернативного датчика 306. Примеры альтернативных датчиков включают в себя ларингофон, который измеряет колебания гортани пользователя, датчик костной проводимости, который расположен на лицевой или черепной кости пользователя (например, кости челюсти) или прилегает к ней или в ухе пользователя и который воспринимает колебания черепа и челюсти, которые соответствуют речи, формируемой пользователем. Микрофон 304 воздушной проводимости является типом микрофона, который обычно используется для преобразования звуковых волн в электрические сигналы.
Микрофон 304 воздушной проводимости также принимает окружающий шум 308 (Z), формируемый одним или более источниками 310 шума. В зависимости от типа окружающего шума и уровня окружающего шума окружающий шум 308 также может быть обнаружен посредством альтернативного датчика 306. Однако в вариантах воплощения настоящего изобретения альтернативный датчик 306 обычно менее чувствителен к окружающему шуму, чем микрофон 304 воздушной проводимости. Таким образом, сигнал 316 (B) альтернативного датчика, формируемый альтернативным датчиком 306, в общем случае включает в себя меньше шума, чем сигнал 318 (Y) микрофона воздушной проводимости, формируемый микрофоном 304 воздушной проводимости. Хотя альтернативный датчик 306 менее чувствителен к окружающему шуму, он формирует некоторый шум 320 (W) датчика.
Путь от диктора 300 до сигнала 316 альтернативного датчика может быть смоделирован как канал, имеющий характеристику H канала. Путь от окружающего шума 308 до сигнала 316 альтернативного датчика может быть смоделирован как канал, имеющий характеристику G канала.
Сигнал 316 (B) альтернативного датчика и сигнал 318 (Y) микрофона воздушной проводимости выдаются на блок 322 оценки чистого сигнала, который оценивает чистый сигнал 324. Оценка 324 чистого сигнала выдается на обработку 328 речи. Оценка 324 чистого сигнала может являться либо отфильтрованным сигналом в области времени, либо вектором преобразования Фурье. Если оценка 324 чистого сигнала является сигналом в области времени, обработка 328 речи может принимать вид слушателя, системы кодирования речи или системы распознавания речи. Если оценка 324 чистого сигнала является вектором преобразования Фурье, обработка 328 речи обычно будет являться системой распознавания речи или содержать обратное преобразование Фурье, чтобы преобразовать вектор преобразования Фурье в форму сигнала.
При прямой фильтрации 322 сигнал 316 альтернативного датчика и сигнал 318 микрофона преобразуются в область частот, используемую для оценки чистой речи. Как показано на фиг.4, сигнал 316 альтернативного датчика и сигнал 318 микрофона воздушной проводимости подаются на аналого-цифровые конвертеры 404 и 414 соответственно для формирования последовательности цифровых значений, которые группируются в кадры значений посредством конструкторов 406 и 416 кадров соответственно. В одном варианте воплощения аналого-цифровые конвертеры 404 и 414 преобразовывают аналоговые сигналы на частоте 16 кГц и 16 битов на отсчет, таким образом создавая 32 килобайта речевых данных на каждую секунду, и конструкторы 406 и 416 кадров создают новый соответствующий кадр каждые 10 миллисекунд, что включает в себя 20 миллисекунд данных.
Каждый соответствующий кадр данных, выданный конструкторами 406 и 416 кадров, преобразуется в область частот с использованием быстрых преобразований 408 и 418 Фурье (FFT) соответственно.
Значения в области частот для сигнала альтернативного датчика и сигнала микрофона воздушной проводимости подаются на блок 420 оценки чистого сигнала, который использует значения в области частот для оценки чистого речевого сигнала 324.
В некоторых вариантах воплощения чистый речевой сигнал 324 преобразовывается обратно в область времени с использованием обратных быстрых преобразований 422 Фурье. Они создают версию чистого речевого сигнала 324 в области времени.
Варианты воплощения настоящего изобретения обеспечивают методики прямой фильтрации для оценки чистого речевого сигнала 324. При прямой фильтрации максимально правдоподобная оценка характеристики канала (характеристик каналов) для альтернативного датчика 306 определяется посредством минимизации функции относительно характеристики канала (характеристик каналов). Эти оценки затем используются для определения максимально правдоподобной оценки чистого речевого сигнала посредством минимизации функции относительно чистого речевого сигнала.
В одном варианте воплощения настоящего изобретения характеристика G канала, соответствующая фоновой речи, обнаруживаемой альтернативным датчиком, считается равной нулю. Это приводит к такой модели между чистым речевым сигналом и сигналом микрофона воздушной проводимости и сигналом альтернативного датчика:
Figure 00000001
Уравнение 1
Figure 00000002
Уравнение 2
где y(t) - сигнал микрофона воздушной проводимости, b(t) - сигнал альтернативного датчика, x(t) - чистый речевой сигнал, z(t) - окружающий шум, w(t) - шум альтернативного датчика, и h(t) - характеристика канала для чистого речевого сигнала, относящаяся к альтернативному датчику. Таким образом, в уравнении 2 сигнал альтернативного датчика смоделирован как отфильтрованная версия чистой речи, где фильтр имеет импульсную характеристику h(t).
В области частот уравнения 1 и 2 могут быть выражены как:
Figure 00000003
Уравнение 3
Figure 00000004
Уравнение 4
где обозначение Yt(k) представляет компоненту частоты с порядковым номером k кадра сигнала, сосредоточенного вокруг времени t. Это обозначение применяется к Xt(k), Zt(k), Ht(k), Wt(k) и Bt(k). В описании ниже ссылка на компоненту частоты k опускается для краткости. Однако специалисты в области техники поймут, что выполненные ниже вычисления выполняются для каждого компонента частоты.
В этом варианте воплощения действительные и мнимые части шума Zt и Wt смоделированы как независимые Гауссианы с нулевым математическим ожиданием:
Figure 00000005
Уравнение 5
Figure 00000006
Уравнение 6
где
Figure 00000007
- дисперсия для шума Zt, и
Figure 00000008
- дисперсия для шума Wt.
Ht также моделируется как Гауссиан:
Figure 00000009
Уравнение 7
где H0 - математическое ожидание характеристики канала, и
Figure 00000010
- дисперсия характеристики канала.
Учитывая эти параметры модели, вероятность значения Xt чистой речи и значения Ht характеристики канала описывается условной вероятностью:
Figure 00000011
Уравнение 8
которая является пропорциональной вероятности:
Figure 00000012
Уравнение 9
которая равна:
Figure 00000013
Уравнение 10
В одном варианте воплощения априорная вероятность
Figure 00000014
для характеристики канала игнорируется, и каждая из оставшихся вероятностей рассматривается как распределение Гаусса с априорной вероятностью p(Xt) чистой речи, рассматриваемое как Гауссиан с нулевым математическим ожиданием и дисперсией
Figure 00000015
:
Figure 00000016
Уравнение 11
С использованием этого упрощения и уравнения 10 максимально правдоподобная оценка Xt для кадра в момент t определяется посредством минимизации выражения:
Figure 00000017
Уравнение 12
Поскольку уравнение 12 минимизируется относительно Xt, для определения значения Xt, которое минимизирует функцию, может быть взята частная производная по Xt. В частности,
Figure 00000018
дает:
Figure 00000019
Уравнение 13
где
Figure 00000020
представляет комплексно сопряженное значение для Ht, и |Ht| представляет модуль комплексного значения Ht.
Характеристика Ht канала оценивается из целого фрагмента речи посредством минимизации выражения:
Figure 00000021
Уравнение 14
Подстановка в уравнение 14 выражения Xt, вычисленного в уравнении 13, приравнивание частной производной нулю
Figure 00000022
и затем предположение, что H имеет постоянное значение по всем временным кадрам T, дает решение для H:
Figure 00000023
Уравнение 15
В уравнении 15 оценка H требует вычисления нескольких сумм по последним T кадрам в виде:
Figure 00000024
Уравнение 16
где st равно
Figure 00000025
или
Figure 00000026
.
В такой формулировке первый кадр (t=1) столь же важен, как и последний кадр (t=T). Однако в других вариантах воплощения предпочтительно, чтобы последние кадры вносили больший вклад в оценку H, чем более старые кадры. Одна методика для достижения этого представляет собой "экспоненциальное старение", в котором сумма, представленная в уравнении 16, заменяется суммой:
Figure 00000027
Уравнение 17
где c≤1. Если с=1, то уравнение 17 эквивалентно уравнению 16. Если с<1, то последний кадр имеет весовой коэффициент 1, предпоследний кадр имеет весовой коэффициент c (то есть вносит меньший вклад, чем последний кадр) и первый кадр имеет весовой коэффициент cT-1 (то есть вносит значительно меньший вклад, чем последний кадр). Возьмем пример. Пусть c=0,99 и T=100, тогда весовой коэффициент для первого кадра равен лишь 0,9999=0,37.
В одном варианте воплощения уравнение 17 оценивается рекурсивно как
Figure 00000028
Уравнение 18
Поскольку уравнение 18 автоматически применяет меньшие весовые коэффициенты к старым данным, не нужно использовать фиксированную длину окна, и данные последних T кадров не нужно хранить в памяти. Вместо этого должно быть сохранено только значение для S(T-1) в предыдущем кадре.
С использованием уравнения 18 уравнение 15 становится таким:
Figure 00000029
Уравнение 19
где:
Figure 00000030
Уравнение 20
Figure 00000031
Уравнение 21
Значение параметра с в уравнениях 20 и 21 обеспечивает эффективную длину для количества прошлых кадров, которые используются для вычисления текущего значения J(T) и K(T). В частности, эффективная длина задается следующим образом:
Figure 00000032
Уравнение 22
Асимптотическая эффективная длина задается следующим образом:
Figure 00000033
Уравнение 23
или эквивалентно
Figure 00000034
Уравнение 24
Таким образом, с использованием уравнения 24 параметр с может быть установлен для достижения различных эффективных длин в уравнении 19. Например, для достижения эффективной длины в 200 кадров параметр с устанавливается следующим образом:
Figure 00000035
Уравнение 25
Как только значение H оценено с использованием уравнения 15, оно может быть использовано вместо всех значений Ht в уравнении 13, чтобы определить отдельное значение Xt в каждом временном кадре t. В качестве альтернативы уравнение 19 может использоваться для оценки Ht в каждом временном кадре t. Значение Ht в каждом кадре затем используется в уравнении 13, чтобы определить Xt.
Фиг.5 представляет блок-схему последовательности операций способа настоящего изобретения, который использует уравнения 13 и 15 для оценки значения чистой речи для фрагмента речи.
На этапе 500 фиксируют частотные компоненты кадров сигнала микрофона воздушной проводимости и сигнала альтернативного датчика по всему фрагменту речи.
На этапе 502 определяют дисперсию
Figure 00000036
для окружающего шума и дисперсию
Figure 00000037
для шума альтернативного датчика из кадров сигнала микрофона воздушной проводимости и сигнала альтернативного датчика соответственно, которые зафиксированы ранее во фрагменте речи в течение периодов, когда диктор не говорит.
Способ определяет, когда диктор не говорит, посредством идентификации частей сигнала альтернативного датчика с низкой энергией, поскольку энергия шума альтернативного датчика намного меньше, чем речевой сигнал, зафиксированный посредством сигнала альтернативного датчика. В других вариантах воплощения известные методики обнаружения речи могут быть применены к речевому сигналу воздушной проводимости, чтобы определить, когда диктор говорит. В течение периодов, когда диктор, как полагают, не говорит, предполагается, что значение Xt равно нулю и любой сигнал от микрофона воздушной проводимости или альтернативного датчика считается шумом. Образцы этих значений для шума собирают из кадров, в которых отсутствует речь, и используют для оценки дисперсии шума в сигнале воздушной проводимости и сигнале альтернативного датчика.
На этапе 504 определяют дисперсию
Figure 00000038
распределения априорной вероятности для чистой речи. В одном варианте воплощения эту дисперсию вычисляют следующим образом:
Figure 00000039
Уравнение 26
где |Yd|2 - энергия сигнала микрофона воздушной проводимости, и суммирование выполнено по набору речевых кадров, который включает в себя k речевых кадров перед текущим речевым кадром и m речевых кадров после текущего речевого кадра. Чтобы избежать отрицательного или нулевого значения для дисперсии
Figure 00000040
, некоторые варианты воплощения настоящего изобретения используют (0,01·
Figure 00000041
) в качестве наименьшего возможного значения для
Figure 00000040
.
В альтернативном варианте воплощения реализовано выполнение в реальном времени с использованием методики сглаживания, которая полагается только на дисперсию чистого речевого сигнала в предыдущем кадре речи:
Figure 00000042
Уравнение 27
где
Figure 00000043
- дисперсия распределения априорной вероятности для чистой речи из последнего кадра, который содержал речь, p - сглаживающий коэффициент с диапазоном между 0 и 1, α - маленькая константа и
Figure 00000044
указывает, что выбирается большее из значений
Figure 00000045
и
Figure 00000046
, чтобы обеспечить положительные значения для
Figure 00000040
. В одном специфическом варианте воплощения сглаживающий коэффициент имеет значение 0,08 и α=0,01.
На этапе 506 значения для сигнала альтернативного датчика и сигнала микрофона воздушной проводимости по всем кадрам фрагмента речи используют для определения значения H с использованием уравнения 15, приведенного выше. На этапе 508 это значение H используют вместе с отдельными значениями сигнала микрофона воздушной проводимости и сигнала альтернативного датчика в каждом временном кадре, чтобы определить улучшенное значение или значение с уменьшенным шумом для речи для каждого временного кадра с использованием уравнения 13, приведенного выше.
В других вариантах воплощения вместо использования всех кадров фрагмента речи для определения одного значения H с использованием уравнения 15 определяют Ht для каждого кадра с использованием уравнения 19. Значение Ht затем используют для вычисления Xt для кадра с использованием уравнения 13, приведенного выше.
Во втором варианте воплощения настоящего изобретения характеристика канала альтернативного датчика для окружающего шума считается не равной нулю. В этом варианте воплощения сигнал микрофона воздушной проводимости и сигнал альтернативного датчика смоделированы следующим образом:
Figure 00000047
Уравнение 28
Figure 00000048
Уравнение 29
где характеристика канала альтернативных датчиков для окружающего шума является ненулевым значением Gt (k).
Максимальное правдоподобие Xt для чистой речи может быть найдено посредством минимизации целевой функции, приводя к уравнению для чистой речи:
Figure 00000049
Уравнение 30
Чтобы решить уравнение 30, должны быть известны дисперсии
Figure 00000040
,
Figure 00000050
и
Figure 00000051
, а также значения H и G характеристики канала. Фиг.6 представляет блок-схему последовательности операций для определения этих значений и для определения улучшенных значений речи для каждого кадра.
На этапе 600 идентифицируют кадры фрагмента речи, в которых пользователь не говорит. Эти кадры затем используются для определения дисперсии
Figure 00000052
и
Figure 00000053
для альтернативного датчика и окружающего шума соответственно.
Чтобы идентифицировать кадры, в которых пользователь не говорит, может быть исследован сигнал альтернативного датчика. Поскольку сигнал альтернативного датчика произведет намного меньшие значения сигнала для фоновой речи, чем для шума, если энергия сигнала альтернативного датчика будет низкой, можно предположить, что диктор не говорит.
После того как были определены дисперсии для окружающего шума и шума альтернативного датчика, способ на фиг.6 переходит на этап 602, на котором определяют дисперсию
Figure 00000040
априорной вероятности для чистой речи с использованием уравнений 26 или 27, приведенных выше. Как было рассмотрено выше, для определения дисперсии априорной вероятности для чистой речи используются только кадры, содержащие речь.
На этапе 604 идентифицированные кадры, в которых пользователь не говорит, используются для оценки характеристики G канала альтернативного датчика для окружающего шума. В частности, G определяется следующим образом:
Figure 00000054
Уравнение 31
где D - количество кадров, в которых пользователь не говорит. В уравнении 31 предполагается, что значение G остается постоянным во всех кадрах фрагмента речи и, таким образом, больше не зависит от временного кадра t. В уравнении 31 суммирование по t может быть заменено вычислением экспоненциального затухания, рассмотренного выше в связи с уравнениями 16-25.
На этапе 606 значение G характеристики канала альтернативного датчика для фоновой речи используется для определения характеристики канала альтернативного датчика для чистого речевого сигнала. А именно, H вычисляется следующим образом:
Figure 00000055
Уравнение 32
В уравнении 32 суммирование по T может быть заменено рекурсивным вычислением экспоненциального затухания, рассмотренным выше в связи с уравнениями 16-25.
После того как значение H было определено на этапе 606, уравнение 30 может быть использовано для определения значения чистой речи для всех кадров. При использовании уравнения 30 в некоторых вариантах воплощения член Bt-GYt заменяется на
Figure 00000056
, поскольку оказалось трудным точно определить разность фаз между фоновой речью и ее проникновением в альтернативный датчик.
Если в уравнении 32 вместо суммирования используется рекурсивное вычисление экспоненциального затухания, отдельное значение Ht может быть определено для каждого временного кадра и может использоваться в качестве H в уравнении 30.
Хотя настоящее изобретение было описано со ссылкой на специфические варианты воплощения, специалисты в области техники поймут, что могут быть сделаны изменения в форме и деталях без отступления от сущности и объема изобретения.

Claims (17)

1. Способ определения оценки для значения с уменьшенным шумом, представляющего часть речевого сигнала с уменьшенным шумом, причем способ содержит этапы, на которых:
формируют сигнал альтернативного датчика с использованием альтернативного датчика, отличного от микрофона воздушной проводимости;
формируют сигнал микрофона воздушной проводимости;
используют сигнал альтернативного датчика и сигнал микрофона воздушной проводимости для оценки значения для характеристики канала сигнала альтернативного датчика; и
используют характеристику канала и распределение априорной вероятности значения с уменьшенным шумом для оценки значения с уменьшенным шумом.
2. Способ по п.1, в котором распределение априорной вероятности значения с уменьшенным шумом определяется дисперсией.
3. Способ по п.2, дополнительно содержащий этап, на котором определяют дисперсию распределения на основе сигнала микрофона воздушной проводимости.
4. Способ по п.3, в котором определение дисперсии на основе сигнала микрофона воздушной проводимости содержит этап, на котором формируют сумму значений энергии для кадров сигнала микрофона воздушной проводимости.
5. Способ по п.4, в котором все кадры сигнала микрофона воздушной проводимости содержат речь.
6. Способ по п.3, в котором определение дисперсии распределения дополнительно содержит этап, на котором определяют дисперсию на основе дисперсии окружающего шума.
7. Способ по п.6, в котором определение дисперсии распределения дополнительно содержит этап, на котором определяют дисперсию, относящуюся к текущему кадру речевого сигнала с уменьшенным шумом на основе текущего кадра сигнала микрофона воздушной проводимости и дисперсии распределения, относящейся к предыдущему кадру речевого сигнала с уменьшенным шумом.
8. Способ по п.7, в котором определение дисперсии распределения дополнительно содержит этап, на котором ограничивают значения дисперсии так, чтобы дисперсия всегда превышала некоторое минимальное значение.
9. Способ по п.8, в котором минимальное значение представляет собой процент от дисперсии окружающего шума.
10. Машиночитаемый носитель, имеющий машиноисполняемые команды для выполнения этапов, на которых:
определяют характеристику канала для альтернативного датчика с использованием сигнала альтернативного датчика и сигнала микрофона воздушной проводимости;
определяют дисперсию распределения априорной вероятности для значения для чистой речи на основании сигнала микрофона воздушной проводимости; и
используют характеристику канала и дисперсию распределения априорной вероятности для значения для чистой речи, чтобы оценить значение для чистой речи.
11. Машиночитаемый носитель по п.11, в котором определение дисперсии распределения априорной вероятности дополнительно содержит этап, на котором определяют дисперсию распределения априорной вероятности на основе распределения окружающего шума.
12. Машиночитаемый носитель по п.11, в котором определение дисперсии распределения априорной вероятности на основе сигнала микрофона воздушной проводимости содержит этап, на котором формируют сумму значений энергии для кадров сигнала микрофона воздушной проводимости.
13. Машиночитаемый носитель по п.11, в котором определение дисперсии для распределения априорной вероятности дополнительно содержит этап, на котором определяют дисперсию для распределения априорной вероятности, относящейся к текущему значению для чистой речи, на основе дисперсии для распределения априорной вероятности, относящейся к более раннему значению для чистой речи.
14. Машиночитаемый носитель по п.13, в котором определение дисперсии распределения априорной вероятности дополнительно содержит этап, на котором берут взвешенную сумму дисперсии для распределения априорной вероятности, относящейся к более ранним значениям для чистой речи, и разность между энергией кадра сигнала микрофона воздушной проводимости и дисперсией распределения окружающего шума.
15. Машиночитаемый носитель по п.10, в котором определение дисперсии распределения априорной вероятности дополнительно содержит этап, на котором устанавливают минимальное значение для дисперсии распределения априорной вероятности.
16. Машиночитаемый носитель по п.15, в котором минимальное значение для дисперсии является функцией дисперсии для распределения окружающего шума.
17. Способ идентификации значения для чистой речи для чистого речевого сигнала, причем способ содержит этапы, на которых:
определяют характеристику канала альтернативного датчика для окружающего шума;
определяют параметр распределения априорной вероятности для значений чистой речи из значения сигнала микрофона воздушной проводимости; и
используют характеристику канала и указанное распределение априорной вероятности для значений для чистой речи, чтобы определить значение для чистой речи.
RU2007147463/09A 2005-06-20 2006-06-06 Улучшение речи с помощью нескольких датчиков с использованием предшествующей чистой речи RU2407074C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/156,434 US7346504B2 (en) 2005-06-20 2005-06-20 Multi-sensory speech enhancement using a clean speech prior
US11/156,434 2005-06-20

Publications (2)

Publication Number Publication Date
RU2007147463A RU2007147463A (ru) 2009-06-27
RU2407074C2 true RU2407074C2 (ru) 2010-12-20

Family

ID=37574502

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2007147463/09A RU2407074C2 (ru) 2005-06-20 2006-06-06 Улучшение речи с помощью нескольких датчиков с использованием предшествующей чистой речи

Country Status (14)

Country Link
US (1) US7346504B2 (ru)
EP (1) EP1891627B1 (ru)
JP (1) JP4975025B2 (ru)
KR (1) KR101422844B1 (ru)
CN (1) CN101199006B (ru)
AT (1) ATE476734T1 (ru)
AU (1) AU2006262706B2 (ru)
BR (1) BRPI0611649B1 (ru)
CA (1) CA2607981C (ru)
DE (1) DE602006015954D1 (ru)
MX (1) MX2007014562A (ru)
NO (1) NO339834B1 (ru)
RU (1) RU2407074C2 (ru)
WO (1) WO2007001768A2 (ru)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7115093B2 (en) 2001-11-21 2006-10-03 Ge Medical Systems Global Technology Company, Llc Method and system for PDA-based ultrasound system
US7914468B2 (en) * 2004-09-22 2011-03-29 Svip 4 Llc Systems and methods for monitoring and modifying behavior
US9767817B2 (en) * 2008-05-14 2017-09-19 Sony Corporation Adaptively filtering a microphone signal responsive to vibration sensed in a user's face while speaking
WO2010126321A2 (ko) * 2009-04-30 2010-11-04 삼성전자주식회사 멀티 모달 정보를 이용하는 사용자 의도 추론 장치 및 방법
KR101581883B1 (ko) * 2009-04-30 2016-01-11 삼성전자주식회사 모션 정보를 이용하는 음성 검출 장치 및 방법
CN102340719B (zh) * 2010-07-19 2014-07-23 深圳市宇恒互动科技开发有限公司 一种基于传感器获取声音信号的方法及装置
EP2458586A1 (en) * 2010-11-24 2012-05-30 Koninklijke Philips Electronics N.V. System and method for producing an audio signal
CN102436810A (zh) * 2011-10-26 2012-05-02 华南理工大学 一种基于信道模式噪声的录音回放攻击检测方法和系统
US9094749B2 (en) 2012-07-25 2015-07-28 Nokia Technologies Oy Head-mounted sound capture device
CN103871419B (zh) * 2012-12-11 2017-05-24 联想(北京)有限公司 一种信息处理方法及电子设备
CN103208291A (zh) * 2013-03-08 2013-07-17 华南理工大学 一种可用于强噪声环境的语音增强方法及装置
CN105611061A (zh) * 2015-12-31 2016-05-25 宇龙计算机通信科技(深圳)有限公司 一种语音传输的方法、装置及移动终端
CN110931031A (zh) * 2019-10-09 2020-03-27 大象声科(深圳)科技有限公司 一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法

Family Cites Families (98)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US629278A (en) * 1898-07-23 1899-07-18 Stickerei Feldmuehle Shuttle for embroidering-machines.
US636176A (en) * 1899-01-10 1899-10-31 Theodore Mundorff Eyeglass-case.
US785768A (en) * 1904-06-27 1905-03-28 Charles B Sippel Collar-button.
US3383466A (en) 1964-05-28 1968-05-14 Navy Usa Nonacoustic measures in automatic speech recognition
US3746789A (en) 1971-10-20 1973-07-17 E Alcivar Tissue conduction microphone utilized to activate a voice operated switch
US3787641A (en) 1972-06-05 1974-01-22 Setcom Corp Bone conduction microphone assembly
US4382164A (en) 1980-01-25 1983-05-03 Bell Telephone Laboratories, Incorporated Signal stretcher for envelope generator
JPS62239231A (ja) 1986-04-10 1987-10-20 Kiyarii Rabo:Kk 口唇画像入力による音声認識方法
JPH0755167B2 (ja) 1988-09-21 1995-06-14 松下電器産業株式会社 移動体
JPH03160851A (ja) 1989-11-20 1991-07-10 Fujitsu Ltd 携帯電話機
US5054079A (en) 1990-01-25 1991-10-01 Stanton Magnetics, Inc. Bone conduction microphone with mounting means
US5404577A (en) 1990-07-13 1995-04-04 Cairns & Brother Inc. Combination head-protective helmet & communications system
US5295193A (en) 1992-01-22 1994-03-15 Hiroshi Ono Device for picking up bone-conducted sound in external auditory meatus and communication device using the same
US5590241A (en) 1993-04-30 1996-12-31 Motorola Inc. Speech processing system and method for enhancing a speech signal in a noisy environment
US5446789A (en) 1993-11-10 1995-08-29 International Business Machines Corporation Electronic device having antenna for receiving soundwaves
AU684872B2 (en) 1994-03-10 1998-01-08 Cable And Wireless Plc Communication system
US5828768A (en) 1994-05-11 1998-10-27 Noise Cancellation Technologies, Inc. Multimedia personal computer with active noise reduction and piezo speakers
EP0984660B1 (en) 1994-05-18 2003-07-30 Nippon Telegraph and Telephone Corporation Transmitter-receiver having ear-piece type acoustic transducer part
JPH08186654A (ja) 1994-12-22 1996-07-16 Internatl Business Mach Corp <Ibm> 携帯端末装置
US5701390A (en) 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
US5692059A (en) 1995-02-24 1997-11-25 Kruger; Frederick M. Two active element in-the-ear microphone system
US5555449A (en) 1995-03-07 1996-09-10 Ericsson Inc. Extendible antenna and microphone for portable communication unit
US5651074A (en) 1995-05-11 1997-07-22 Lucent Technologies Inc. Noise canceling gradient microphone assembly
KR960042590A (ko) 1995-05-23 1996-12-21 김광호 테이프 재생용 음량기기에서의 발음비교방법
JP3591068B2 (ja) 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
US5647834A (en) 1995-06-30 1997-07-15 Ron; Samuel Speech-based biofeedback method and system
JP3674990B2 (ja) 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
JPH09172479A (ja) 1995-12-20 1997-06-30 Yokoi Kikaku:Kk 送受話器およびそれを用いた通話装置
US6377919B1 (en) 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
US6006175A (en) 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US6243596B1 (en) 1996-04-10 2001-06-05 Lextron Systems, Inc. Method and apparatus for modifying and integrating a cellular phone with the capability to access and browse the internet
US5943627A (en) 1996-09-12 1999-08-24 Kim; Seong-Soo Mobile cellular phone
JPH10261910A (ja) 1997-01-16 1998-09-29 Sony Corp 携帯無線装置およびアンテナ装置
JP2874679B2 (ja) 1997-01-29 1999-03-24 日本電気株式会社 雑音消去方法及びその装置
JPH10224253A (ja) 1997-02-10 1998-08-21 Sony Corp 携帯通信機
US6308062B1 (en) 1997-03-06 2001-10-23 Ericsson Business Networks Ab Wireless telephony system enabling access to PC based functionalities
FR2761800A1 (fr) 1997-04-02 1998-10-09 Scanera Sc Dispositif de transmission de voix et telephone le mettant en oeuvre
US5983073A (en) 1997-04-04 1999-11-09 Ditzik; Richard J. Modular notebook and PDA computer systems for personal computing and wireless communications
US6175633B1 (en) 1997-04-09 2001-01-16 Cavcom, Inc. Radio communications apparatus with attenuating ear pieces for high noise environments
US6151397A (en) 1997-05-16 2000-11-21 Motorola, Inc. Method and system for reducing undesired signals in a communication environment
US6434239B1 (en) 1997-10-03 2002-08-13 Deluca Michael Joseph Anti-sound beam method and apparatus
JPH11249692A (ja) 1998-02-27 1999-09-17 Nec Saitama Ltd 音声認識装置
US6912287B1 (en) 1998-03-18 2005-06-28 Nippon Telegraph And Telephone Corporation Wearable communication device
US6590651B1 (en) 1998-05-19 2003-07-08 Spectrx, Inc. Apparatus and method for determining tissue characteristics
US6717991B1 (en) 1998-05-27 2004-04-06 Telefonaktiebolaget Lm Ericsson (Publ) System and method for dual microphone signal noise reduction using spectral subtraction
US6052464A (en) 1998-05-29 2000-04-18 Motorola, Inc. Telephone set having a microphone for receiving or an earpiece for generating an acoustic signal via a keypad
US6137883A (en) 1998-05-30 2000-10-24 Motorola, Inc. Telephone set having a microphone for receiving an acoustic signal via keypad
JP3160714B2 (ja) 1998-07-08 2001-04-25 株式会社シコー技研 携帯無線通信機
US6292674B1 (en) 1998-08-05 2001-09-18 Ericsson, Inc. One-handed control for wireless telephone
JP3893763B2 (ja) 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
JP2000066691A (ja) * 1998-08-21 2000-03-03 Kdd Corp オーディオ情報分類装置
US6760600B2 (en) 1999-01-27 2004-07-06 Gateway, Inc. Portable communication apparatus
DE19917169A1 (de) 1999-04-16 2000-11-02 Kamecke Keller Orla Verfahren zur Speicherung und Wiedergabe von Audio-, Video- und Anwendungsprogrammdaten in Mobilfunkendgeräten
US6560468B1 (en) 1999-05-10 2003-05-06 Peter V. Boesen Cellular telephone, personal digital assistant, and pager unit with capability of short range radio frequency transmissions
US6094492A (en) 1999-05-10 2000-07-25 Boesen; Peter V. Bone conduction voice transmission apparatus and system
US6952483B2 (en) 1999-05-10 2005-10-04 Genisus Systems, Inc. Voice transmission apparatus with UWB
US20020057810A1 (en) 1999-05-10 2002-05-16 Boesen Peter V. Computer and voice communication unit with handsfree device
US6542721B2 (en) 1999-10-11 2003-04-01 Peter V. Boesen Cellular telephone, personal digital assistant and pager unit
US6738485B1 (en) 1999-05-10 2004-05-18 Peter V. Boesen Apparatus, method and system for ultra short range communication
US6258734B1 (en) * 1999-07-16 2001-07-10 Vanguard International Semiconductor Corporation Method for patterning semiconductor devices on a silicon substrate using oxynitride film
US6594629B1 (en) 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US6603823B1 (en) * 1999-11-12 2003-08-05 Intel Corporation Channel estimator
US6339706B1 (en) 1999-11-12 2002-01-15 Telefonaktiebolaget L M Ericsson (Publ) Wireless voice-activated remote control device
US6675027B1 (en) 1999-11-22 2004-01-06 Microsoft Corp Personal mobile computing device having antenna microphone for improved speech recognition
US6411933B1 (en) 1999-11-22 2002-06-25 International Business Machines Corporation Methods and apparatus for correlating biometric attributes and biometric attribute production features
GB2357400A (en) 1999-12-17 2001-06-20 Nokia Mobile Phones Ltd Controlling a terminal of a communication system
US20030179888A1 (en) 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
JP3339579B2 (ja) 2000-10-04 2002-10-28 株式会社鷹山 電話装置
KR100394840B1 (ko) 2000-11-30 2003-08-19 한국과학기술원 독립 성분 분석을 이용한 능동 잡음 제거방법
US6853850B2 (en) 2000-12-04 2005-02-08 Mobigence, Inc. Automatic speaker volume and microphone gain control in a portable handheld radiotelephone with proximity sensors
US20020075306A1 (en) 2000-12-18 2002-06-20 Christopher Thompson Method and system for initiating communications with dispersed team members from within a virtual team environment using personal identifiers
US6985858B2 (en) 2001-03-20 2006-01-10 Microsoft Corporation Method and apparatus for removing noise from feature vectors
GB2375276B (en) 2001-05-03 2003-05-28 Motorola Inc Method and system of sound processing
WO2002098169A1 (en) * 2001-05-30 2002-12-05 Aliphcom Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US6701390B2 (en) * 2001-06-06 2004-03-02 Koninklijke Philips Electronics N.V. FIFO buffer that can read and/or write multiple and/or selectable number of data words per bus cycle
US6987986B2 (en) 2001-06-21 2006-01-17 Boesen Peter V Cellular telephone, personal digital assistant with dual lines for simultaneous uses
US7054423B2 (en) 2001-09-24 2006-05-30 Nebiker Robert M Multi-media communication downloading
US6959276B2 (en) 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
US6952482B2 (en) 2001-10-02 2005-10-04 Siemens Corporation Research, Inc. Method and apparatus for noise filtering
JP3532544B2 (ja) 2001-10-30 2004-05-31 株式会社テムコジャパン 面体又は帽体のストラップ装着用送受話装置
US7162415B2 (en) 2001-11-06 2007-01-09 The Regents Of The University Of California Ultra-narrow bandwidth voice coding
US6707921B2 (en) 2001-11-26 2004-03-16 Hewlett-Packard Development Company, Lp. Use of mouth position and mouth movement to filter noise from speech in a hearing aid
DE10158583A1 (de) 2001-11-29 2003-06-12 Philips Intellectual Property Verfahren zum Betrieb eines Barge-In-Dialogsystems
US6664713B2 (en) 2001-12-04 2003-12-16 Peter V. Boesen Single chip device for voice communications
US7219062B2 (en) 2002-01-30 2007-05-15 Koninklijke Philips Electronics N.V. Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system
US9374451B2 (en) 2002-02-04 2016-06-21 Nokia Technologies Oy System and method for multimodal short-cuts to digital services
US7117148B2 (en) 2002-04-05 2006-10-03 Microsoft Corporation Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
US7190797B1 (en) 2002-06-18 2007-03-13 Plantronics, Inc. Headset with foldable noise canceling and omnidirectional dual-mode boom
US7047047B2 (en) * 2002-09-06 2006-05-16 Microsoft Corporation Non-linear observation model for removing noise from corrupted signals
US7092529B2 (en) 2002-11-01 2006-08-15 Nanyang Technological University Adaptive control system for noise cancellation
WO2004068464A2 (en) 2003-01-30 2004-08-12 Aliphcom, Inc. Acoustic vibration sensor
US7593851B2 (en) 2003-03-21 2009-09-22 Intel Corporation Precision piecewise polynomial approximation for Ephraim-Malah filter
US20060008256A1 (en) 2003-10-01 2006-01-12 Khedouri Robert K Audio visual player apparatus and system and method of content distribution using the same
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7499686B2 (en) 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US8095073B2 (en) 2004-06-22 2012-01-10 Sony Ericsson Mobile Communications Ab Method and apparatus for improved mobile station and hearing aid compatibility
US7574008B2 (en) 2004-09-17 2009-08-11 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
US7283850B2 (en) 2004-10-12 2007-10-16 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device

Also Published As

Publication number Publication date
KR20080018163A (ko) 2008-02-27
WO2007001768A3 (en) 2007-12-13
CA2607981C (en) 2014-08-19
CN101199006B (zh) 2011-08-24
WO2007001768A2 (en) 2007-01-04
US7346504B2 (en) 2008-03-18
EP1891627A2 (en) 2008-02-27
CN101199006A (zh) 2008-06-11
EP1891627B1 (en) 2010-08-04
AU2006262706A1 (en) 2007-01-04
BRPI0611649A2 (pt) 2010-09-28
NO20075732L (no) 2008-03-17
AU2006262706B2 (en) 2010-11-25
NO339834B1 (no) 2017-02-06
EP1891627A4 (en) 2009-07-22
DE602006015954D1 (de) 2010-09-16
CA2607981A1 (en) 2007-01-04
RU2007147463A (ru) 2009-06-27
JP4975025B2 (ja) 2012-07-11
MX2007014562A (es) 2008-01-16
ATE476734T1 (de) 2010-08-15
US20060287852A1 (en) 2006-12-21
KR101422844B1 (ko) 2014-07-30
BRPI0611649B1 (pt) 2019-09-24
JP2008544328A (ja) 2008-12-04

Similar Documents

Publication Publication Date Title
RU2407074C2 (ru) Улучшение речи с помощью нескольких датчиков с использованием предшествующей чистой речи
RU2389086C2 (ru) Способ и устройство для улучшения речи с помощью нескольких датчиков
RU2420813C2 (ru) Повышение качества речи с использованием множества датчиков с помощью модели состояний речи
RU2370831C2 (ru) Способ оценки шума с использованием пошагового байесовского изучения
RU2373584C2 (ru) Способ и устройство для повышения разборчивости речи с использованием нескольких датчиков
US7406303B2 (en) Multi-sensory speech enhancement using synthesized sensor signal
EP1688919B1 (en) Method and apparatus for reducing noise corruption from an alternative sensor signal during multi-sensory speech enhancement
JP2011158918A (ja) クリーン信号確率変数の推定値を識別する方法
JP2005284016A (ja) 音声信号の雑音推定方法およびそれを用いた雑音除去装置

Legal Events

Date Code Title Description
PC41 Official registration of the transfer of exclusive right

Effective date: 20150526