RU2407074C2 - Улучшение речи с помощью нескольких датчиков с использованием предшествующей чистой речи - Google Patents
Улучшение речи с помощью нескольких датчиков с использованием предшествующей чистой речи Download PDFInfo
- Publication number
- RU2407074C2 RU2407074C2 RU2007147463/09A RU2007147463A RU2407074C2 RU 2407074 C2 RU2407074 C2 RU 2407074C2 RU 2007147463/09 A RU2007147463/09 A RU 2007147463/09A RU 2007147463 A RU2007147463 A RU 2007147463A RU 2407074 C2 RU2407074 C2 RU 2407074C2
- Authority
- RU
- Russia
- Prior art keywords
- distribution
- signal
- speech
- variance
- air conduction
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract description 22
- 239000006185 dispersion Substances 0.000 claims description 15
- 230000004044 response Effects 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000001514 detection method Methods 0.000 abstract description 2
- 239000000126 substance Substances 0.000 abstract 1
- 238000004891 communication Methods 0.000 description 10
- 239000013598 vector Substances 0.000 description 10
- 239000012634 fragment Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 210000000988 bone and bone Anatomy 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 210000003625 skull Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/13—Hearing devices using bone conduction transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Meter Arrangements (AREA)
- Time-Division Multiplex Systems (AREA)
- Machine Translation (AREA)
- Details Of Audible-Bandwidth Transducers (AREA)
- User Interface Of Digital Computer (AREA)
- Mobile Radio Communication Systems (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
Изобретение относится к распознаванию речи. Способ и устройство определяют характеристику канала для альтернативного датчика с использованием сигнала альтернативного датчика, сигнала микрофона воздушной проводимости. Характеристика канала и распределение априорной вероятности для значений чистой речи затем используются для оценки значения чистой речи. Технический результат - обнаружение и/или исправление речевого сигнала при его искажении, вызванном речью другого говорящего. 3 н. и 14 з.п. ф-лы, 6 ил.
Description
УРОВЕНЬ ТЕХНИКИ
Общая проблема в распознавании речи и передаче речи состоит в искажении речевого сигнала аддитивным шумом. В частности, искажение, вызванное речью другого говорящего, оказывается трудно обнаружить и/или исправить.
Недавно была разработана система, которая пытается удалить шум с использованием комбинации альтернативного датчика, такого как микрофон костной проводимости, и микрофона воздушной проводимости. Эта система «обучается» с использованием трех каналов обучения: искаженный обучающий сигнал альтернативного датчика, искаженный обучающий сигнал микрофона воздушной проводимости и чистый обучающий сигнал микрофона воздушной проводимости. Каждый из сигналов преобразуется в область признаков. Признаки искаженного сигнала альтернативного датчика и искаженного сигнала микрофона воздушной проводимости объединяются в один вектор, представляющий искаженный сигнал. Признаки чистого сигнала микрофона воздушной проводимости формируют один чистый вектор. Затем эти векторы используются для «обучения» преобразованию между искаженными векторами и чистыми векторами. После «обучения» преобразование применяется к искаженному вектору, сформированному из комбинации искаженного испытательного сигнала альтернативного датчика и искаженного испытательного сигнала микрофона воздушной проводимости. Это преобразование производит вектор чистого сигнала.
Эта система менее чем оптимальна, когда условия искажений испытательных сигналов не соответствуют условиям искажений обучающих сигналов, поскольку преобразования построены для условий искажений обучающих сигналов.
РАСКРЫТИЕ ИЗОБРЕТЕНИЯ
Способ и устройство определяют характеристику канала для альтернативного датчика с использованием сигнала альтернативного датчика, сигнала микрофона воздушной проводимости. Характеристика канала и распределение априорной вероятности для значений чистой речи затем используются для оценки значения чистой речи.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Фиг.1 - блок-схема вычислительной среды, в которой могут быть осуществлены варианты воплощения настоящего изобретения.
Фиг.2 - блок-схема альтернативной вычислительной среды, в которой могут быть осуществлены варианты воплощения настоящего изобретения.
Фиг.3 - блок-схема общей системы обработки речи одного варианта воплощения настоящего изобретения.
Фиг.4 - блок-схема системы для улучшения речи в одном варианте воплощения настоящего изобретения.
Фиг.5 - блок-схема последовательности операций для улучшения речи в одном варианте воплощения настоящего изобретения.
Фиг.6 - блок-схема последовательности операций для улучшения речи в другом варианте воплощения настоящего изобретения.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ
Фиг.1 иллюстрирует пример подходящей вычислительной среды 100, в которой могут быть осуществлены варианты воплощения изобретения. Вычислительная среда 100 представляет собой только один пример подходящей вычислительной среды и не предназначена для наложения каких-либо ограничений относительно объема использования или функциональных возможностей изобретения. Вычислительная среда 100 также не должна интерпретироваться как имеющая какую-либо зависимость или требование по отношению к любому компоненту или комбинации компонентов, изображенных в иллюстративной среде 100.
Изобретение может работать с многими другими вычислительными средами и конфигурациями общего назначения или специального назначения. Примеры известных вычислительных систем, сред и/или конфигураций, которые могут являться подходящими для использования с изобретением, включают в себя, но без ограничения, персональные компьютеры, серверные компьютеры, карманные или переносные устройства, многопроцессорные системы, системы на основе микропроцессора, телеприставки, программируемую бытовую электронику, сетевые персональные компьютеры, миникомпьютеры, универсальные вычислительные системы, системы телефонии, распределенные вычислительные среды, которые включают в себя любые из упомянутых выше систем или устройств, и т.п.
Изобретение может быть описано в общем контексте исполняемых на компьютере команд, таких как программные модули, исполняемые компьютером. В общем случае программные модули включают в себя подпрограммы, программы, объекты, компоненты, структуры данных и т.д., которые выполняют специфические задачи или реализуют специфические абстрактные типы данных. Изобретение выполнено с возможностью быть осуществленным в распределенных вычислительных средах, в которых задачи выполняются отдаленными устройствами обработки, которые связаны через сеть связи. В распределенной вычислительной среде программные модули расположены и на локальных, и на удаленных компьютерных носителях данных, в том числе запоминающих устройствах.
На фиг.1 показано, что иллюстративная система для реализации вариантов воплощения изобретения включает в себя универсальное вычислительное устройство в виде компьютера 110. Компоненты компьютера 110 могут включать в себя, но без ограничения, процессор 120, системную память 130 и системную шину 121, которая соединяет различные компоненты системы, в том числе системную память, с процессором 120. Системная шина 121 может представлять собой любой из нескольких типов шинных структур, в том числе шину памяти или контроллер памяти, периферийную шину и локальную шину, с использованием любой из разнообразных шинных архитектур. В качестве примера, но не ограничения, такие архитектуры включают в себя шину промышленной стандартной архитектуры (ISA), шину микроканальной архитектуры (MCA), шину расширенной промышленной стандартной архитектуры (EISA), локальную шину Ассоциации по стандартам в области видеоэлектроники (VESA) и шину соединения периферийных компонентов (PCI), также известную как шина второго уровня.
Компьютер 110 обычно включает в себя разные машиночитаемые носители. Машиночитаемые носители могут представлять собой любые имеющиеся носители, к которым можно получить доступ с помощью компьютера 110, и включают в себя как энергозависимые, так и энергонезависимые носители, сменные и несменные носители. В качестве примера, но не ограничения, машиночитаемые носители могут содержать компьютерные носители данных и коммуникационные носители. Компьютерные носители данных включают в себя энергозависимые и энергонезависимые, сменные и несменные носители, реализованные любым способом или по любой технологии для хранения информации, такой как машиночитаемые команды, структуры данных, программные модули или другие данные. Компьютерные носители данных включают в себя, но без ограничения, оперативное запоминающее устройство (RAM; ОЗУ), постоянное запоминающее устройство (ROM; ПЗУ), электрически стираемое программируемое постоянное запоминающее устройство (EEPROM; ЭСППЗУ), флэш-память или другую технологию памяти, компакт-диск, предназначенный только для чтения (CD-ROM), цифровые универсальные диски (DVD) или другую память на оптическом диске, магнитные кассеты, магнитную ленту, память на магнитном диске или другие магнитные запоминающие устройства или любой другой носитель, который может быть использован для хранения желаемой информации и к которому можно получить доступ с помощью компьютера 110. Коммуникационные носители обычно воплощают машиночитаемые команды, структуры данных, программные модули или другие данные в модулированном сигнале данных, таком как несущая волна или другой транспортный механизм, и включают в себя любые носители для доставки информации. Термин "модулированный сигнал данных" обозначает сигнал, у которого одна или более из его характеристик установлена или изменена таким образом, чтобы закодировать информацию в сигнале. В качестве примера, но не ограничения, коммуникационные носители включают в себя проводные носители, такие как проводная сеть или прямое проводное соединение, и беспроводные носители, такие как акустические, радиоволновые, инфракрасные и другие беспроводные носители. Комбинации любых упомянутых выше элементов также должны быть включены в объем понятия машиночитаемых носителей.
Системная память 130 включает в себя компьютерные носители данных в виде энергозависимой и/или энергонезависимой памяти, такой как постоянное запоминающее устройство (ROM; ПЗУ) 131 и оперативное запоминающее устройство (RAM; ОЗУ) 132. Базовая система 133 ввода-вывода (BIOS), содержащая базовые подпрограммы, которые помогают перемещать информацию между элементами в компьютере 110, например, во время запуска, обычно хранится в постоянном запоминающем устройстве (ROM; ПЗУ) 131. Оперативное запоминающее устройство (RAM; ОЗУ) 132 обычно содержит данные и/или программные модули, которые являются моментально доступными для процессора 120 и/или которые в данный момент обрабатываются процессором 120. В качестве примера, но не ограничения, фиг.1 иллюстрирует операционную систему 134, прикладные программы 135, другие программные модули 136 и программные данные 137.
Компьютер 110 может также включать в себя другие сменные/несменные, энергозависимые/энергонезависимые компьютерные носители данных. Только в качестве примера фиг.1 иллюстрирует накопитель 141 на жестких дисках, который считывает или записывает на несменный энергонезависимый магнитный носитель, магнитный дисковод 151, который считывает или записывает на сменный энергонезависимый магнитный диск 152, и оптический дисковод 155, который считывает или записывает на сменный энергонезависимый оптический диск 156, такой как постоянное запоминающее устройство на компакт-диске (CD ROM) или другой оптический носитель. Другие сменные/несменные, энергозависимые/энергонезависимые компьютерные носители данных, которые могут использоваться в иллюстративной операционной среде, включают в себя, но без ограничения, кассеты магнитной ленты, карты флэш-памяти, цифровые универсальные диски, цифровую видеоленту, полупроводниковое ОЗУ, полупроводниковое ПЗУ и т.п. Накопитель 141 на жестких дисках обычно соединен с системной шиной 121 через интерфейс несменной памяти, такой как интерфейс 140, и магнитный дисковод 151 и оптический дисковод 155 обычно соединяются с системной шиной 121 посредством интерфейса сменной памяти, такого как интерфейс 150.
Дисковые накопители и связанные с ними компьютерные носители данных, обсуждаемые выше и проиллюстрированные на фиг.1, обеспечивают хранение машиночитаемых команд, структур данных, программных модулей и других данных для компьютера 110. На фиг.1, например, накопитель 141 на жестких дисках проиллюстрирован как содержащий операционную систему 144, прикладные программы 145, другие программные модули 146 и программные данные 147. Следует отметить, что эти компоненты могут либо быть теми же самыми, либо отличными от операционной системы 134, прикладных программ 135, других программных модулей 136 и программных данных 137. Операционной системе 144, прикладным программам 145, другим программным модулям 146 и программным данным 147 здесь даны другие номера, чтобы проиллюстрировать, что они как минимум являются другими копиями.
Пользователь может вводить команды и информацию в компьютер 110 через устройства ввода данных, такие как клавиатура 162, микрофон 163 и координатно-указательное устройство 161, такое как мышь, шаровой манипулятор или сенсорная клавиатура. Другие устройства ввода данных (не показаны) могут включать в себя джойстик, игровую клавиатуру, спутниковую антенну, сканер и т.п. Эти и другие устройства ввода данных часто соединены с процессором 120 через интерфейс 160 пользовательского ввода, который присоединен к системной шине, но может быть соединен другими интерфейсными и шинными структурами, такими как параллельный порт, игровой порт или универсальная последовательная шина (USB). Монитор 191 или другой тип устройства отображения также соединен с системной шиной 121 через интерфейс, такой как видеоинтерфейс 190. В дополнение к монитору компьютеры могут также включать в себя другие внешние устройства вывода, такие как динамики 197 и принтер 196, которые могут быть соединены через интерфейс 195 периферийных устройств вывода.
Компьютер 110 работает в сетевом окружении, используя логические соединения с одним или более удаленными компьютерами, такими как удаленный компьютер 180. Удаленный компьютер 180 может являться персональным компьютером, переносным компьютером, сервером, маршрутизатором, сетевым персональным компьютером, одноранговым устройством или другим общим сетевым узлом и обычно включает в себя многие или все элементы, описанные выше относительно компьютера 110. Логические соединения, изображенные на фиг.1, включают в себя локальную сеть (LAN) 171 и глобальную сеть (WAN) 173, но могут также включать в себя другие сети. Такие сетевые среды являются обычным явлением в офисах, компьютерных сетях масштаба предприятия, интрасетях и Интернете.
При использовании в среде локальной сети компьютер 110 соединен с локальной сетью 171 через сетевой интерфейс или адаптер 170. При использовании в среде глобальной сети компьютер 110 обычно включает в себя модем 172 или другое средство для установления связи по глобальной сети 173, такой как Интернет. Модем 172, который может быть внутренним или внешним, может быть соединен с системной шиной 121 через интерфейс 160 пользовательского ввода или другой соответствующий механизм. В сетевом окружении программные модули, изображенные относительно компьютера 110, или их части могут храниться в удаленном запоминающем устройстве. В качестве примера, но не ограничения, фиг.1 иллюстрирует удаленные прикладные программы 185 как находящиеся в удаленном компьютере 180. Следует понимать, что показанные сетевые соединения являются иллюстративными и могут быть использованы другие средства установления линии связи между компьютерами.
Фиг.2 является блок-схемой мобильного устройства 200, которое является иллюстративной вычислительной средой. Мобильное устройство 200 включает в себя микропроцессор 202, память 204, компоненты 206 ввода-вывода и интерфейс 208 связи для связи с удаленными компьютерами или другими мобильными устройствами. В одном варианте воплощения упомянутые выше компоненты соединены для связи друг с другом через подходящую шину 210.
Память 204 реализована как энергонезависимая электронная память, такая как оперативное запоминающее устройство (RAM; ОЗУ) с резервным модулем батарей (не показан), с тем чтобы информация, сохраненная в памяти 204, не была потеряна, когда отключается общее энергопитание мобильного устройства 200. Часть памяти 204 предпочтительно распределена как адресуемая память для исполнения программ, в то время как другая часть памяти 204 предпочтительно используется для хранения, с тем чтобы симулировать хранение на дисковом накопителе.
Память 204 включает в себя операционную систему 212, прикладные программы 214, а также хранилище 216 объектов. Во время работы операционная система 212 предпочтительно исполняется процессором 202 из памяти 204. Операционная система 212 в одном предпочтительном варианте воплощения является операционной системой WINDOWS® CE, которую можно приобрести у Microsoft Corporation. Операционная система 212 предпочтительно является разработанной для мобильных устройств и реализует возможности базы данных, которые могут использоваться приложениями 214 через набор доступных прикладных программных интерфейсов и методов. Объекты в хранилище 216 объектов поддерживаются приложениями 214 и операционной системой 212, по меньшей мере, частично в ответ на вызовы доступных прикладных программных интерфейсов и методов.
Интерфейс 208 связи представляет многочисленные устройства и технологии, которые позволяют мобильному устройству 200 отправлять и принимать информацию. Устройства включают в себя проводные и беспроводные модемы, спутниковые приемники и приемники вещания и многие другие устройства. Мобильное устройство 200 также может быть непосредственно соединено с компьютером для обмена данными с ним. В таких случаях интерфейс 208 связи может являться инфракрасным приемопередатчиком или последовательным или параллельным соединением связи, из которых все могут передавать потоковую информацию.
Компоненты 206 ввода-вывода включают в себя различные устройства ввода данных, такие как сенсорный экран, кнопки, ролики и микрофон, а также различные устройства вывода, включающие в себя генератор звука, устройство вибрации и дисплей. Перечисленные выше устройства даны в качестве примера и необязательно должны все присутствовать в мобильном устройстве 200. Кроме того, другие устройства ввода-вывода могут быть присоединены к мобильному устройству 200 или находиться в нем в рамках объема настоящего изобретения.
Фиг.3 представляет основную блок-схему вариантов воплощения настоящего изобретения. На фиг.3 диктор 300 формирует речевой сигнал 302 (X), который обнаруживается посредством микрофона 304 воздушной проводимости и альтернативного датчика 306. Примеры альтернативных датчиков включают в себя ларингофон, который измеряет колебания гортани пользователя, датчик костной проводимости, который расположен на лицевой или черепной кости пользователя (например, кости челюсти) или прилегает к ней или в ухе пользователя и который воспринимает колебания черепа и челюсти, которые соответствуют речи, формируемой пользователем. Микрофон 304 воздушной проводимости является типом микрофона, который обычно используется для преобразования звуковых волн в электрические сигналы.
Микрофон 304 воздушной проводимости также принимает окружающий шум 308 (Z), формируемый одним или более источниками 310 шума. В зависимости от типа окружающего шума и уровня окружающего шума окружающий шум 308 также может быть обнаружен посредством альтернативного датчика 306. Однако в вариантах воплощения настоящего изобретения альтернативный датчик 306 обычно менее чувствителен к окружающему шуму, чем микрофон 304 воздушной проводимости. Таким образом, сигнал 316 (B) альтернативного датчика, формируемый альтернативным датчиком 306, в общем случае включает в себя меньше шума, чем сигнал 318 (Y) микрофона воздушной проводимости, формируемый микрофоном 304 воздушной проводимости. Хотя альтернативный датчик 306 менее чувствителен к окружающему шуму, он формирует некоторый шум 320 (W) датчика.
Путь от диктора 300 до сигнала 316 альтернативного датчика может быть смоделирован как канал, имеющий характеристику H канала. Путь от окружающего шума 308 до сигнала 316 альтернативного датчика может быть смоделирован как канал, имеющий характеристику G канала.
Сигнал 316 (B) альтернативного датчика и сигнал 318 (Y) микрофона воздушной проводимости выдаются на блок 322 оценки чистого сигнала, который оценивает чистый сигнал 324. Оценка 324 чистого сигнала выдается на обработку 328 речи. Оценка 324 чистого сигнала может являться либо отфильтрованным сигналом в области времени, либо вектором преобразования Фурье. Если оценка 324 чистого сигнала является сигналом в области времени, обработка 328 речи может принимать вид слушателя, системы кодирования речи или системы распознавания речи. Если оценка 324 чистого сигнала является вектором преобразования Фурье, обработка 328 речи обычно будет являться системой распознавания речи или содержать обратное преобразование Фурье, чтобы преобразовать вектор преобразования Фурье в форму сигнала.
При прямой фильтрации 322 сигнал 316 альтернативного датчика и сигнал 318 микрофона преобразуются в область частот, используемую для оценки чистой речи. Как показано на фиг.4, сигнал 316 альтернативного датчика и сигнал 318 микрофона воздушной проводимости подаются на аналого-цифровые конвертеры 404 и 414 соответственно для формирования последовательности цифровых значений, которые группируются в кадры значений посредством конструкторов 406 и 416 кадров соответственно. В одном варианте воплощения аналого-цифровые конвертеры 404 и 414 преобразовывают аналоговые сигналы на частоте 16 кГц и 16 битов на отсчет, таким образом создавая 32 килобайта речевых данных на каждую секунду, и конструкторы 406 и 416 кадров создают новый соответствующий кадр каждые 10 миллисекунд, что включает в себя 20 миллисекунд данных.
Каждый соответствующий кадр данных, выданный конструкторами 406 и 416 кадров, преобразуется в область частот с использованием быстрых преобразований 408 и 418 Фурье (FFT) соответственно.
Значения в области частот для сигнала альтернативного датчика и сигнала микрофона воздушной проводимости подаются на блок 420 оценки чистого сигнала, который использует значения в области частот для оценки чистого речевого сигнала 324.
В некоторых вариантах воплощения чистый речевой сигнал 324 преобразовывается обратно в область времени с использованием обратных быстрых преобразований 422 Фурье. Они создают версию чистого речевого сигнала 324 в области времени.
Варианты воплощения настоящего изобретения обеспечивают методики прямой фильтрации для оценки чистого речевого сигнала 324. При прямой фильтрации максимально правдоподобная оценка характеристики канала (характеристик каналов) для альтернативного датчика 306 определяется посредством минимизации функции относительно характеристики канала (характеристик каналов). Эти оценки затем используются для определения максимально правдоподобной оценки чистого речевого сигнала посредством минимизации функции относительно чистого речевого сигнала.
В одном варианте воплощения настоящего изобретения характеристика G канала, соответствующая фоновой речи, обнаруживаемой альтернативным датчиком, считается равной нулю. Это приводит к такой модели между чистым речевым сигналом и сигналом микрофона воздушной проводимости и сигналом альтернативного датчика:
где y(t) - сигнал микрофона воздушной проводимости, b(t) - сигнал альтернативного датчика, x(t) - чистый речевой сигнал, z(t) - окружающий шум, w(t) - шум альтернативного датчика, и h(t) - характеристика канала для чистого речевого сигнала, относящаяся к альтернативному датчику. Таким образом, в уравнении 2 сигнал альтернативного датчика смоделирован как отфильтрованная версия чистой речи, где фильтр имеет импульсную характеристику h(t).
В области частот уравнения 1 и 2 могут быть выражены как:
где обозначение Yt(k) представляет компоненту частоты с порядковым номером k кадра сигнала, сосредоточенного вокруг времени t. Это обозначение применяется к Xt(k), Zt(k), Ht(k), Wt(k) и Bt(k). В описании ниже ссылка на компоненту частоты k опускается для краткости. Однако специалисты в области техники поймут, что выполненные ниже вычисления выполняются для каждого компонента частоты.
В этом варианте воплощения действительные и мнимые части шума Zt и Wt смоделированы как независимые Гауссианы с нулевым математическим ожиданием:
Ht также моделируется как Гауссиан:
Учитывая эти параметры модели, вероятность значения Xt чистой речи и значения Ht характеристики канала описывается условной вероятностью:
которая является пропорциональной вероятности:
которая равна:
В одном варианте воплощения априорная вероятность для характеристики канала игнорируется, и каждая из оставшихся вероятностей рассматривается как распределение Гаусса с априорной вероятностью p(Xt) чистой речи, рассматриваемое как Гауссиан с нулевым математическим ожиданием и дисперсией :
С использованием этого упрощения и уравнения 10 максимально правдоподобная оценка Xt для кадра в момент t определяется посредством минимизации выражения:
Поскольку уравнение 12 минимизируется относительно Xt, для определения значения Xt, которое минимизирует функцию, может быть взята частная производная по Xt. В частности, дает:
где представляет комплексно сопряженное значение для Ht, и |Ht| представляет модуль комплексного значения Ht.
Характеристика Ht канала оценивается из целого фрагмента речи посредством минимизации выражения:
Подстановка в уравнение 14 выражения Xt, вычисленного в уравнении 13, приравнивание частной производной нулю и затем предположение, что H имеет постоянное значение по всем временным кадрам T, дает решение для H:
В уравнении 15 оценка H требует вычисления нескольких сумм по последним T кадрам в виде:
В такой формулировке первый кадр (t=1) столь же важен, как и последний кадр (t=T). Однако в других вариантах воплощения предпочтительно, чтобы последние кадры вносили больший вклад в оценку H, чем более старые кадры. Одна методика для достижения этого представляет собой "экспоненциальное старение", в котором сумма, представленная в уравнении 16, заменяется суммой:
где c≤1. Если с=1, то уравнение 17 эквивалентно уравнению 16. Если с<1, то последний кадр имеет весовой коэффициент 1, предпоследний кадр имеет весовой коэффициент c (то есть вносит меньший вклад, чем последний кадр) и первый кадр имеет весовой коэффициент cT-1 (то есть вносит значительно меньший вклад, чем последний кадр). Возьмем пример. Пусть c=0,99 и T=100, тогда весовой коэффициент для первого кадра равен лишь 0,9999=0,37.
В одном варианте воплощения уравнение 17 оценивается рекурсивно как
Поскольку уравнение 18 автоматически применяет меньшие весовые коэффициенты к старым данным, не нужно использовать фиксированную длину окна, и данные последних T кадров не нужно хранить в памяти. Вместо этого должно быть сохранено только значение для S(T-1) в предыдущем кадре.
С использованием уравнения 18 уравнение 15 становится таким:
где:
Значение параметра с в уравнениях 20 и 21 обеспечивает эффективную длину для количества прошлых кадров, которые используются для вычисления текущего значения J(T) и K(T). В частности, эффективная длина задается следующим образом:
Асимптотическая эффективная длина задается следующим образом:
или эквивалентно
Таким образом, с использованием уравнения 24 параметр с может быть установлен для достижения различных эффективных длин в уравнении 19. Например, для достижения эффективной длины в 200 кадров параметр с устанавливается следующим образом:
Как только значение H оценено с использованием уравнения 15, оно может быть использовано вместо всех значений Ht в уравнении 13, чтобы определить отдельное значение Xt в каждом временном кадре t. В качестве альтернативы уравнение 19 может использоваться для оценки Ht в каждом временном кадре t. Значение Ht в каждом кадре затем используется в уравнении 13, чтобы определить Xt.
Фиг.5 представляет блок-схему последовательности операций способа настоящего изобретения, который использует уравнения 13 и 15 для оценки значения чистой речи для фрагмента речи.
На этапе 500 фиксируют частотные компоненты кадров сигнала микрофона воздушной проводимости и сигнала альтернативного датчика по всему фрагменту речи.
На этапе 502 определяют дисперсию для окружающего шума и дисперсию для шума альтернативного датчика из кадров сигнала микрофона воздушной проводимости и сигнала альтернативного датчика соответственно, которые зафиксированы ранее во фрагменте речи в течение периодов, когда диктор не говорит.
Способ определяет, когда диктор не говорит, посредством идентификации частей сигнала альтернативного датчика с низкой энергией, поскольку энергия шума альтернативного датчика намного меньше, чем речевой сигнал, зафиксированный посредством сигнала альтернативного датчика. В других вариантах воплощения известные методики обнаружения речи могут быть применены к речевому сигналу воздушной проводимости, чтобы определить, когда диктор говорит. В течение периодов, когда диктор, как полагают, не говорит, предполагается, что значение Xt равно нулю и любой сигнал от микрофона воздушной проводимости или альтернативного датчика считается шумом. Образцы этих значений для шума собирают из кадров, в которых отсутствует речь, и используют для оценки дисперсии шума в сигнале воздушной проводимости и сигнале альтернативного датчика.
На этапе 504 определяют дисперсию распределения априорной вероятности для чистой речи. В одном варианте воплощения эту дисперсию вычисляют следующим образом:
где |Yd|2 - энергия сигнала микрофона воздушной проводимости, и суммирование выполнено по набору речевых кадров, который включает в себя k речевых кадров перед текущим речевым кадром и m речевых кадров после текущего речевого кадра. Чтобы избежать отрицательного или нулевого значения для дисперсии , некоторые варианты воплощения настоящего изобретения используют (0,01·) в качестве наименьшего возможного значения для .
В альтернативном варианте воплощения реализовано выполнение в реальном времени с использованием методики сглаживания, которая полагается только на дисперсию чистого речевого сигнала в предыдущем кадре речи:
где - дисперсия распределения априорной вероятности для чистой речи из последнего кадра, который содержал речь, p - сглаживающий коэффициент с диапазоном между 0 и 1, α - маленькая константа и указывает, что выбирается большее из значений и , чтобы обеспечить положительные значения для . В одном специфическом варианте воплощения сглаживающий коэффициент имеет значение 0,08 и α=0,01.
На этапе 506 значения для сигнала альтернативного датчика и сигнала микрофона воздушной проводимости по всем кадрам фрагмента речи используют для определения значения H с использованием уравнения 15, приведенного выше. На этапе 508 это значение H используют вместе с отдельными значениями сигнала микрофона воздушной проводимости и сигнала альтернативного датчика в каждом временном кадре, чтобы определить улучшенное значение или значение с уменьшенным шумом для речи для каждого временного кадра с использованием уравнения 13, приведенного выше.
В других вариантах воплощения вместо использования всех кадров фрагмента речи для определения одного значения H с использованием уравнения 15 определяют Ht для каждого кадра с использованием уравнения 19. Значение Ht затем используют для вычисления Xt для кадра с использованием уравнения 13, приведенного выше.
Во втором варианте воплощения настоящего изобретения характеристика канала альтернативного датчика для окружающего шума считается не равной нулю. В этом варианте воплощения сигнал микрофона воздушной проводимости и сигнал альтернативного датчика смоделированы следующим образом:
где характеристика канала альтернативных датчиков для окружающего шума является ненулевым значением Gt (k).
Максимальное правдоподобие Xt для чистой речи может быть найдено посредством минимизации целевой функции, приводя к уравнению для чистой речи:
Чтобы решить уравнение 30, должны быть известны дисперсии , и , а также значения H и G характеристики канала. Фиг.6 представляет блок-схему последовательности операций для определения этих значений и для определения улучшенных значений речи для каждого кадра.
На этапе 600 идентифицируют кадры фрагмента речи, в которых пользователь не говорит. Эти кадры затем используются для определения дисперсии и для альтернативного датчика и окружающего шума соответственно.
Чтобы идентифицировать кадры, в которых пользователь не говорит, может быть исследован сигнал альтернативного датчика. Поскольку сигнал альтернативного датчика произведет намного меньшие значения сигнала для фоновой речи, чем для шума, если энергия сигнала альтернативного датчика будет низкой, можно предположить, что диктор не говорит.
После того как были определены дисперсии для окружающего шума и шума альтернативного датчика, способ на фиг.6 переходит на этап 602, на котором определяют дисперсию априорной вероятности для чистой речи с использованием уравнений 26 или 27, приведенных выше. Как было рассмотрено выше, для определения дисперсии априорной вероятности для чистой речи используются только кадры, содержащие речь.
На этапе 604 идентифицированные кадры, в которых пользователь не говорит, используются для оценки характеристики G канала альтернативного датчика для окружающего шума. В частности, G определяется следующим образом:
где D - количество кадров, в которых пользователь не говорит. В уравнении 31 предполагается, что значение G остается постоянным во всех кадрах фрагмента речи и, таким образом, больше не зависит от временного кадра t. В уравнении 31 суммирование по t может быть заменено вычислением экспоненциального затухания, рассмотренного выше в связи с уравнениями 16-25.
На этапе 606 значение G характеристики канала альтернативного датчика для фоновой речи используется для определения характеристики канала альтернативного датчика для чистого речевого сигнала. А именно, H вычисляется следующим образом:
В уравнении 32 суммирование по T может быть заменено рекурсивным вычислением экспоненциального затухания, рассмотренным выше в связи с уравнениями 16-25.
После того как значение H было определено на этапе 606, уравнение 30 может быть использовано для определения значения чистой речи для всех кадров. При использовании уравнения 30 в некоторых вариантах воплощения член Bt-GYt заменяется на , поскольку оказалось трудным точно определить разность фаз между фоновой речью и ее проникновением в альтернативный датчик.
Если в уравнении 32 вместо суммирования используется рекурсивное вычисление экспоненциального затухания, отдельное значение Ht может быть определено для каждого временного кадра и может использоваться в качестве H в уравнении 30.
Хотя настоящее изобретение было описано со ссылкой на специфические варианты воплощения, специалисты в области техники поймут, что могут быть сделаны изменения в форме и деталях без отступления от сущности и объема изобретения.
Claims (17)
1. Способ определения оценки для значения с уменьшенным шумом, представляющего часть речевого сигнала с уменьшенным шумом, причем способ содержит этапы, на которых:
формируют сигнал альтернативного датчика с использованием альтернативного датчика, отличного от микрофона воздушной проводимости;
формируют сигнал микрофона воздушной проводимости;
используют сигнал альтернативного датчика и сигнал микрофона воздушной проводимости для оценки значения для характеристики канала сигнала альтернативного датчика; и
используют характеристику канала и распределение априорной вероятности значения с уменьшенным шумом для оценки значения с уменьшенным шумом.
формируют сигнал альтернативного датчика с использованием альтернативного датчика, отличного от микрофона воздушной проводимости;
формируют сигнал микрофона воздушной проводимости;
используют сигнал альтернативного датчика и сигнал микрофона воздушной проводимости для оценки значения для характеристики канала сигнала альтернативного датчика; и
используют характеристику канала и распределение априорной вероятности значения с уменьшенным шумом для оценки значения с уменьшенным шумом.
2. Способ по п.1, в котором распределение априорной вероятности значения с уменьшенным шумом определяется дисперсией.
3. Способ по п.2, дополнительно содержащий этап, на котором определяют дисперсию распределения на основе сигнала микрофона воздушной проводимости.
4. Способ по п.3, в котором определение дисперсии на основе сигнала микрофона воздушной проводимости содержит этап, на котором формируют сумму значений энергии для кадров сигнала микрофона воздушной проводимости.
5. Способ по п.4, в котором все кадры сигнала микрофона воздушной проводимости содержат речь.
6. Способ по п.3, в котором определение дисперсии распределения дополнительно содержит этап, на котором определяют дисперсию на основе дисперсии окружающего шума.
7. Способ по п.6, в котором определение дисперсии распределения дополнительно содержит этап, на котором определяют дисперсию, относящуюся к текущему кадру речевого сигнала с уменьшенным шумом на основе текущего кадра сигнала микрофона воздушной проводимости и дисперсии распределения, относящейся к предыдущему кадру речевого сигнала с уменьшенным шумом.
8. Способ по п.7, в котором определение дисперсии распределения дополнительно содержит этап, на котором ограничивают значения дисперсии так, чтобы дисперсия всегда превышала некоторое минимальное значение.
9. Способ по п.8, в котором минимальное значение представляет собой процент от дисперсии окружающего шума.
10. Машиночитаемый носитель, имеющий машиноисполняемые команды для выполнения этапов, на которых:
определяют характеристику канала для альтернативного датчика с использованием сигнала альтернативного датчика и сигнала микрофона воздушной проводимости;
определяют дисперсию распределения априорной вероятности для значения для чистой речи на основании сигнала микрофона воздушной проводимости; и
используют характеристику канала и дисперсию распределения априорной вероятности для значения для чистой речи, чтобы оценить значение для чистой речи.
определяют характеристику канала для альтернативного датчика с использованием сигнала альтернативного датчика и сигнала микрофона воздушной проводимости;
определяют дисперсию распределения априорной вероятности для значения для чистой речи на основании сигнала микрофона воздушной проводимости; и
используют характеристику канала и дисперсию распределения априорной вероятности для значения для чистой речи, чтобы оценить значение для чистой речи.
11. Машиночитаемый носитель по п.11, в котором определение дисперсии распределения априорной вероятности дополнительно содержит этап, на котором определяют дисперсию распределения априорной вероятности на основе распределения окружающего шума.
12. Машиночитаемый носитель по п.11, в котором определение дисперсии распределения априорной вероятности на основе сигнала микрофона воздушной проводимости содержит этап, на котором формируют сумму значений энергии для кадров сигнала микрофона воздушной проводимости.
13. Машиночитаемый носитель по п.11, в котором определение дисперсии для распределения априорной вероятности дополнительно содержит этап, на котором определяют дисперсию для распределения априорной вероятности, относящейся к текущему значению для чистой речи, на основе дисперсии для распределения априорной вероятности, относящейся к более раннему значению для чистой речи.
14. Машиночитаемый носитель по п.13, в котором определение дисперсии распределения априорной вероятности дополнительно содержит этап, на котором берут взвешенную сумму дисперсии для распределения априорной вероятности, относящейся к более ранним значениям для чистой речи, и разность между энергией кадра сигнала микрофона воздушной проводимости и дисперсией распределения окружающего шума.
15. Машиночитаемый носитель по п.10, в котором определение дисперсии распределения априорной вероятности дополнительно содержит этап, на котором устанавливают минимальное значение для дисперсии распределения априорной вероятности.
16. Машиночитаемый носитель по п.15, в котором минимальное значение для дисперсии является функцией дисперсии для распределения окружающего шума.
17. Способ идентификации значения для чистой речи для чистого речевого сигнала, причем способ содержит этапы, на которых:
определяют характеристику канала альтернативного датчика для окружающего шума;
определяют параметр распределения априорной вероятности для значений чистой речи из значения сигнала микрофона воздушной проводимости; и
используют характеристику канала и указанное распределение априорной вероятности для значений для чистой речи, чтобы определить значение для чистой речи.
определяют характеристику канала альтернативного датчика для окружающего шума;
определяют параметр распределения априорной вероятности для значений чистой речи из значения сигнала микрофона воздушной проводимости; и
используют характеристику канала и указанное распределение априорной вероятности для значений для чистой речи, чтобы определить значение для чистой речи.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/156,434 US7346504B2 (en) | 2005-06-20 | 2005-06-20 | Multi-sensory speech enhancement using a clean speech prior |
US11/156,434 | 2005-06-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2007147463A RU2007147463A (ru) | 2009-06-27 |
RU2407074C2 true RU2407074C2 (ru) | 2010-12-20 |
Family
ID=37574502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2007147463/09A RU2407074C2 (ru) | 2005-06-20 | 2006-06-06 | Улучшение речи с помощью нескольких датчиков с использованием предшествующей чистой речи |
Country Status (14)
Country | Link |
---|---|
US (1) | US7346504B2 (ru) |
EP (1) | EP1891627B1 (ru) |
JP (1) | JP4975025B2 (ru) |
KR (1) | KR101422844B1 (ru) |
CN (1) | CN101199006B (ru) |
AT (1) | ATE476734T1 (ru) |
AU (1) | AU2006262706B2 (ru) |
BR (1) | BRPI0611649B1 (ru) |
CA (1) | CA2607981C (ru) |
DE (1) | DE602006015954D1 (ru) |
MX (1) | MX2007014562A (ru) |
NO (1) | NO339834B1 (ru) |
RU (1) | RU2407074C2 (ru) |
WO (1) | WO2007001768A2 (ru) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7115093B2 (en) | 2001-11-21 | 2006-10-03 | Ge Medical Systems Global Technology Company, Llc | Method and system for PDA-based ultrasound system |
US7914468B2 (en) * | 2004-09-22 | 2011-03-29 | Svip 4 Llc | Systems and methods for monitoring and modifying behavior |
US9767817B2 (en) * | 2008-05-14 | 2017-09-19 | Sony Corporation | Adaptively filtering a microphone signal responsive to vibration sensed in a user's face while speaking |
WO2010126321A2 (ko) * | 2009-04-30 | 2010-11-04 | 삼성전자주식회사 | 멀티 모달 정보를 이용하는 사용자 의도 추론 장치 및 방법 |
KR101581883B1 (ko) * | 2009-04-30 | 2016-01-11 | 삼성전자주식회사 | 모션 정보를 이용하는 음성 검출 장치 및 방법 |
CN102340719B (zh) * | 2010-07-19 | 2014-07-23 | 深圳市宇恒互动科技开发有限公司 | 一种基于传感器获取声音信号的方法及装置 |
EP2458586A1 (en) * | 2010-11-24 | 2012-05-30 | Koninklijke Philips Electronics N.V. | System and method for producing an audio signal |
CN102436810A (zh) * | 2011-10-26 | 2012-05-02 | 华南理工大学 | 一种基于信道模式噪声的录音回放攻击检测方法和系统 |
US9094749B2 (en) | 2012-07-25 | 2015-07-28 | Nokia Technologies Oy | Head-mounted sound capture device |
CN103871419B (zh) * | 2012-12-11 | 2017-05-24 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN103208291A (zh) * | 2013-03-08 | 2013-07-17 | 华南理工大学 | 一种可用于强噪声环境的语音增强方法及装置 |
CN105611061A (zh) * | 2015-12-31 | 2016-05-25 | 宇龙计算机通信科技(深圳)有限公司 | 一种语音传输的方法、装置及移动终端 |
CN110931031A (zh) * | 2019-10-09 | 2020-03-27 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法 |
Family Cites Families (98)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US629278A (en) * | 1898-07-23 | 1899-07-18 | Stickerei Feldmuehle | Shuttle for embroidering-machines. |
US636176A (en) * | 1899-01-10 | 1899-10-31 | Theodore Mundorff | Eyeglass-case. |
US785768A (en) * | 1904-06-27 | 1905-03-28 | Charles B Sippel | Collar-button. |
US3383466A (en) | 1964-05-28 | 1968-05-14 | Navy Usa | Nonacoustic measures in automatic speech recognition |
US3746789A (en) | 1971-10-20 | 1973-07-17 | E Alcivar | Tissue conduction microphone utilized to activate a voice operated switch |
US3787641A (en) | 1972-06-05 | 1974-01-22 | Setcom Corp | Bone conduction microphone assembly |
US4382164A (en) | 1980-01-25 | 1983-05-03 | Bell Telephone Laboratories, Incorporated | Signal stretcher for envelope generator |
JPS62239231A (ja) | 1986-04-10 | 1987-10-20 | Kiyarii Rabo:Kk | 口唇画像入力による音声認識方法 |
JPH0755167B2 (ja) | 1988-09-21 | 1995-06-14 | 松下電器産業株式会社 | 移動体 |
JPH03160851A (ja) | 1989-11-20 | 1991-07-10 | Fujitsu Ltd | 携帯電話機 |
US5054079A (en) | 1990-01-25 | 1991-10-01 | Stanton Magnetics, Inc. | Bone conduction microphone with mounting means |
US5404577A (en) | 1990-07-13 | 1995-04-04 | Cairns & Brother Inc. | Combination head-protective helmet & communications system |
US5295193A (en) | 1992-01-22 | 1994-03-15 | Hiroshi Ono | Device for picking up bone-conducted sound in external auditory meatus and communication device using the same |
US5590241A (en) | 1993-04-30 | 1996-12-31 | Motorola Inc. | Speech processing system and method for enhancing a speech signal in a noisy environment |
US5446789A (en) | 1993-11-10 | 1995-08-29 | International Business Machines Corporation | Electronic device having antenna for receiving soundwaves |
AU684872B2 (en) | 1994-03-10 | 1998-01-08 | Cable And Wireless Plc | Communication system |
US5828768A (en) | 1994-05-11 | 1998-10-27 | Noise Cancellation Technologies, Inc. | Multimedia personal computer with active noise reduction and piezo speakers |
EP0984660B1 (en) | 1994-05-18 | 2003-07-30 | Nippon Telegraph and Telephone Corporation | Transmitter-receiver having ear-piece type acoustic transducer part |
JPH08186654A (ja) | 1994-12-22 | 1996-07-16 | Internatl Business Mach Corp <Ibm> | 携帯端末装置 |
US5701390A (en) | 1995-02-22 | 1997-12-23 | Digital Voice Systems, Inc. | Synthesis of MBE-based coded speech using regenerated phase information |
US5692059A (en) | 1995-02-24 | 1997-11-25 | Kruger; Frederick M. | Two active element in-the-ear microphone system |
US5555449A (en) | 1995-03-07 | 1996-09-10 | Ericsson Inc. | Extendible antenna and microphone for portable communication unit |
US5651074A (en) | 1995-05-11 | 1997-07-22 | Lucent Technologies Inc. | Noise canceling gradient microphone assembly |
KR960042590A (ko) | 1995-05-23 | 1996-12-21 | 김광호 | 테이프 재생용 음량기기에서의 발음비교방법 |
JP3591068B2 (ja) | 1995-06-30 | 2004-11-17 | ソニー株式会社 | 音声信号の雑音低減方法 |
US5647834A (en) | 1995-06-30 | 1997-07-15 | Ron; Samuel | Speech-based biofeedback method and system |
JP3674990B2 (ja) | 1995-08-21 | 2005-07-27 | セイコーエプソン株式会社 | 音声認識対話装置および音声認識対話処理方法 |
JPH09172479A (ja) | 1995-12-20 | 1997-06-30 | Yokoi Kikaku:Kk | 送受話器およびそれを用いた通話装置 |
US6377919B1 (en) | 1996-02-06 | 2002-04-23 | The Regents Of The University Of California | System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech |
US6006175A (en) | 1996-02-06 | 1999-12-21 | The Regents Of The University Of California | Methods and apparatus for non-acoustic speech characterization and recognition |
US6243596B1 (en) | 1996-04-10 | 2001-06-05 | Lextron Systems, Inc. | Method and apparatus for modifying and integrating a cellular phone with the capability to access and browse the internet |
US5943627A (en) | 1996-09-12 | 1999-08-24 | Kim; Seong-Soo | Mobile cellular phone |
JPH10261910A (ja) | 1997-01-16 | 1998-09-29 | Sony Corp | 携帯無線装置およびアンテナ装置 |
JP2874679B2 (ja) | 1997-01-29 | 1999-03-24 | 日本電気株式会社 | 雑音消去方法及びその装置 |
JPH10224253A (ja) | 1997-02-10 | 1998-08-21 | Sony Corp | 携帯通信機 |
US6308062B1 (en) | 1997-03-06 | 2001-10-23 | Ericsson Business Networks Ab | Wireless telephony system enabling access to PC based functionalities |
FR2761800A1 (fr) | 1997-04-02 | 1998-10-09 | Scanera Sc | Dispositif de transmission de voix et telephone le mettant en oeuvre |
US5983073A (en) | 1997-04-04 | 1999-11-09 | Ditzik; Richard J. | Modular notebook and PDA computer systems for personal computing and wireless communications |
US6175633B1 (en) | 1997-04-09 | 2001-01-16 | Cavcom, Inc. | Radio communications apparatus with attenuating ear pieces for high noise environments |
US6151397A (en) | 1997-05-16 | 2000-11-21 | Motorola, Inc. | Method and system for reducing undesired signals in a communication environment |
US6434239B1 (en) | 1997-10-03 | 2002-08-13 | Deluca Michael Joseph | Anti-sound beam method and apparatus |
JPH11249692A (ja) | 1998-02-27 | 1999-09-17 | Nec Saitama Ltd | 音声認識装置 |
US6912287B1 (en) | 1998-03-18 | 2005-06-28 | Nippon Telegraph And Telephone Corporation | Wearable communication device |
US6590651B1 (en) | 1998-05-19 | 2003-07-08 | Spectrx, Inc. | Apparatus and method for determining tissue characteristics |
US6717991B1 (en) | 1998-05-27 | 2004-04-06 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method for dual microphone signal noise reduction using spectral subtraction |
US6052464A (en) | 1998-05-29 | 2000-04-18 | Motorola, Inc. | Telephone set having a microphone for receiving or an earpiece for generating an acoustic signal via a keypad |
US6137883A (en) | 1998-05-30 | 2000-10-24 | Motorola, Inc. | Telephone set having a microphone for receiving an acoustic signal via keypad |
JP3160714B2 (ja) | 1998-07-08 | 2001-04-25 | 株式会社シコー技研 | 携帯無線通信機 |
US6292674B1 (en) | 1998-08-05 | 2001-09-18 | Ericsson, Inc. | One-handed control for wireless telephone |
JP3893763B2 (ja) | 1998-08-17 | 2007-03-14 | 富士ゼロックス株式会社 | 音声検出装置 |
JP2000066691A (ja) * | 1998-08-21 | 2000-03-03 | Kdd Corp | オーディオ情報分類装置 |
US6760600B2 (en) | 1999-01-27 | 2004-07-06 | Gateway, Inc. | Portable communication apparatus |
DE19917169A1 (de) | 1999-04-16 | 2000-11-02 | Kamecke Keller Orla | Verfahren zur Speicherung und Wiedergabe von Audio-, Video- und Anwendungsprogrammdaten in Mobilfunkendgeräten |
US6560468B1 (en) | 1999-05-10 | 2003-05-06 | Peter V. Boesen | Cellular telephone, personal digital assistant, and pager unit with capability of short range radio frequency transmissions |
US6094492A (en) | 1999-05-10 | 2000-07-25 | Boesen; Peter V. | Bone conduction voice transmission apparatus and system |
US6952483B2 (en) | 1999-05-10 | 2005-10-04 | Genisus Systems, Inc. | Voice transmission apparatus with UWB |
US20020057810A1 (en) | 1999-05-10 | 2002-05-16 | Boesen Peter V. | Computer and voice communication unit with handsfree device |
US6542721B2 (en) | 1999-10-11 | 2003-04-01 | Peter V. Boesen | Cellular telephone, personal digital assistant and pager unit |
US6738485B1 (en) | 1999-05-10 | 2004-05-18 | Peter V. Boesen | Apparatus, method and system for ultra short range communication |
US6258734B1 (en) * | 1999-07-16 | 2001-07-10 | Vanguard International Semiconductor Corporation | Method for patterning semiconductor devices on a silicon substrate using oxynitride film |
US6594629B1 (en) | 1999-08-06 | 2003-07-15 | International Business Machines Corporation | Methods and apparatus for audio-visual speech detection and recognition |
US6603823B1 (en) * | 1999-11-12 | 2003-08-05 | Intel Corporation | Channel estimator |
US6339706B1 (en) | 1999-11-12 | 2002-01-15 | Telefonaktiebolaget L M Ericsson (Publ) | Wireless voice-activated remote control device |
US6675027B1 (en) | 1999-11-22 | 2004-01-06 | Microsoft Corp | Personal mobile computing device having antenna microphone for improved speech recognition |
US6411933B1 (en) | 1999-11-22 | 2002-06-25 | International Business Machines Corporation | Methods and apparatus for correlating biometric attributes and biometric attribute production features |
GB2357400A (en) | 1999-12-17 | 2001-06-20 | Nokia Mobile Phones Ltd | Controlling a terminal of a communication system |
US20030179888A1 (en) | 2002-03-05 | 2003-09-25 | Burnett Gregory C. | Voice activity detection (VAD) devices and methods for use with noise suppression systems |
JP3339579B2 (ja) | 2000-10-04 | 2002-10-28 | 株式会社鷹山 | 電話装置 |
KR100394840B1 (ko) | 2000-11-30 | 2003-08-19 | 한국과학기술원 | 독립 성분 분석을 이용한 능동 잡음 제거방법 |
US6853850B2 (en) | 2000-12-04 | 2005-02-08 | Mobigence, Inc. | Automatic speaker volume and microphone gain control in a portable handheld radiotelephone with proximity sensors |
US20020075306A1 (en) | 2000-12-18 | 2002-06-20 | Christopher Thompson | Method and system for initiating communications with dispersed team members from within a virtual team environment using personal identifiers |
US6985858B2 (en) | 2001-03-20 | 2006-01-10 | Microsoft Corporation | Method and apparatus for removing noise from feature vectors |
GB2375276B (en) | 2001-05-03 | 2003-05-28 | Motorola Inc | Method and system of sound processing |
WO2002098169A1 (en) * | 2001-05-30 | 2002-12-05 | Aliphcom | Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors |
US6701390B2 (en) * | 2001-06-06 | 2004-03-02 | Koninklijke Philips Electronics N.V. | FIFO buffer that can read and/or write multiple and/or selectable number of data words per bus cycle |
US6987986B2 (en) | 2001-06-21 | 2006-01-17 | Boesen Peter V | Cellular telephone, personal digital assistant with dual lines for simultaneous uses |
US7054423B2 (en) | 2001-09-24 | 2006-05-30 | Nebiker Robert M | Multi-media communication downloading |
US6959276B2 (en) | 2001-09-27 | 2005-10-25 | Microsoft Corporation | Including the category of environmental noise when processing speech signals |
US6952482B2 (en) | 2001-10-02 | 2005-10-04 | Siemens Corporation Research, Inc. | Method and apparatus for noise filtering |
JP3532544B2 (ja) | 2001-10-30 | 2004-05-31 | 株式会社テムコジャパン | 面体又は帽体のストラップ装着用送受話装置 |
US7162415B2 (en) | 2001-11-06 | 2007-01-09 | The Regents Of The University Of California | Ultra-narrow bandwidth voice coding |
US6707921B2 (en) | 2001-11-26 | 2004-03-16 | Hewlett-Packard Development Company, Lp. | Use of mouth position and mouth movement to filter noise from speech in a hearing aid |
DE10158583A1 (de) | 2001-11-29 | 2003-06-12 | Philips Intellectual Property | Verfahren zum Betrieb eines Barge-In-Dialogsystems |
US6664713B2 (en) | 2001-12-04 | 2003-12-16 | Peter V. Boesen | Single chip device for voice communications |
US7219062B2 (en) | 2002-01-30 | 2007-05-15 | Koninklijke Philips Electronics N.V. | Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system |
US9374451B2 (en) | 2002-02-04 | 2016-06-21 | Nokia Technologies Oy | System and method for multimodal short-cuts to digital services |
US7117148B2 (en) | 2002-04-05 | 2006-10-03 | Microsoft Corporation | Method of noise reduction using correction vectors based on dynamic aspects of speech and noise normalization |
US7190797B1 (en) | 2002-06-18 | 2007-03-13 | Plantronics, Inc. | Headset with foldable noise canceling and omnidirectional dual-mode boom |
US7047047B2 (en) * | 2002-09-06 | 2006-05-16 | Microsoft Corporation | Non-linear observation model for removing noise from corrupted signals |
US7092529B2 (en) | 2002-11-01 | 2006-08-15 | Nanyang Technological University | Adaptive control system for noise cancellation |
WO2004068464A2 (en) | 2003-01-30 | 2004-08-12 | Aliphcom, Inc. | Acoustic vibration sensor |
US7593851B2 (en) | 2003-03-21 | 2009-09-22 | Intel Corporation | Precision piecewise polynomial approximation for Ephraim-Malah filter |
US20060008256A1 (en) | 2003-10-01 | 2006-01-12 | Khedouri Robert K | Audio visual player apparatus and system and method of content distribution using the same |
US7447630B2 (en) * | 2003-11-26 | 2008-11-04 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
US7499686B2 (en) | 2004-02-24 | 2009-03-03 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
US8095073B2 (en) | 2004-06-22 | 2012-01-10 | Sony Ericsson Mobile Communications Ab | Method and apparatus for improved mobile station and hearing aid compatibility |
US7574008B2 (en) | 2004-09-17 | 2009-08-11 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
US7283850B2 (en) | 2004-10-12 | 2007-10-16 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
-
2005
- 2005-06-20 US US11/156,434 patent/US7346504B2/en active Active
-
2006
- 2006-06-06 CN CN2006800195287A patent/CN101199006B/zh active Active
- 2006-06-06 WO PCT/US2006/022058 patent/WO2007001768A2/en active Application Filing
- 2006-06-06 CA CA2607981A patent/CA2607981C/en active Active
- 2006-06-06 JP JP2008518201A patent/JP4975025B2/ja active Active
- 2006-06-06 AT AT06772389T patent/ATE476734T1/de not_active IP Right Cessation
- 2006-06-06 BR BRPI0611649-3A patent/BRPI0611649B1/pt active Search and Examination
- 2006-06-06 DE DE602006015954T patent/DE602006015954D1/de active Active
- 2006-06-06 AU AU2006262706A patent/AU2006262706B2/en active Active
- 2006-06-06 EP EP06772389A patent/EP1891627B1/en active Active
- 2006-06-06 KR KR1020077026297A patent/KR101422844B1/ko active IP Right Grant
- 2006-06-06 MX MX2007014562A patent/MX2007014562A/es active IP Right Grant
- 2006-06-06 RU RU2007147463/09A patent/RU2407074C2/ru active
-
2007
- 2007-11-09 NO NO20075732A patent/NO339834B1/no unknown
Also Published As
Publication number | Publication date |
---|---|
KR20080018163A (ko) | 2008-02-27 |
WO2007001768A3 (en) | 2007-12-13 |
CA2607981C (en) | 2014-08-19 |
CN101199006B (zh) | 2011-08-24 |
WO2007001768A2 (en) | 2007-01-04 |
US7346504B2 (en) | 2008-03-18 |
EP1891627A2 (en) | 2008-02-27 |
CN101199006A (zh) | 2008-06-11 |
EP1891627B1 (en) | 2010-08-04 |
AU2006262706A1 (en) | 2007-01-04 |
BRPI0611649A2 (pt) | 2010-09-28 |
NO20075732L (no) | 2008-03-17 |
AU2006262706B2 (en) | 2010-11-25 |
NO339834B1 (no) | 2017-02-06 |
EP1891627A4 (en) | 2009-07-22 |
DE602006015954D1 (de) | 2010-09-16 |
CA2607981A1 (en) | 2007-01-04 |
RU2007147463A (ru) | 2009-06-27 |
JP4975025B2 (ja) | 2012-07-11 |
MX2007014562A (es) | 2008-01-16 |
ATE476734T1 (de) | 2010-08-15 |
US20060287852A1 (en) | 2006-12-21 |
KR101422844B1 (ko) | 2014-07-30 |
BRPI0611649B1 (pt) | 2019-09-24 |
JP2008544328A (ja) | 2008-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2407074C2 (ru) | Улучшение речи с помощью нескольких датчиков с использованием предшествующей чистой речи | |
RU2389086C2 (ru) | Способ и устройство для улучшения речи с помощью нескольких датчиков | |
RU2420813C2 (ru) | Повышение качества речи с использованием множества датчиков с помощью модели состояний речи | |
RU2370831C2 (ru) | Способ оценки шума с использованием пошагового байесовского изучения | |
RU2373584C2 (ru) | Способ и устройство для повышения разборчивости речи с использованием нескольких датчиков | |
US7406303B2 (en) | Multi-sensory speech enhancement using synthesized sensor signal | |
EP1688919B1 (en) | Method and apparatus for reducing noise corruption from an alternative sensor signal during multi-sensory speech enhancement | |
JP2011158918A (ja) | クリーン信号確率変数の推定値を識別する方法 | |
JP2005284016A (ja) | 音声信号の雑音推定方法およびそれを用いた雑音除去装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PC41 | Official registration of the transfer of exclusive right |
Effective date: 20150526 |