RU2768506C2 - Устройство и способ для голосового взаимодействия с сохранением конфиденциальности - Google Patents
Устройство и способ для голосового взаимодействия с сохранением конфиденциальности Download PDFInfo
- Publication number
- RU2768506C2 RU2768506C2 RU2018142910A RU2018142910A RU2768506C2 RU 2768506 C2 RU2768506 C2 RU 2768506C2 RU 2018142910 A RU2018142910 A RU 2018142910A RU 2018142910 A RU2018142910 A RU 2018142910A RU 2768506 C2 RU2768506 C2 RU 2768506C2
- Authority
- RU
- Russia
- Prior art keywords
- speaker
- name
- masked
- audio signal
- response
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 230000003993 interaction Effects 0.000 title claims abstract description 16
- 238000004321 preservation Methods 0.000 title 1
- 230000004044 response Effects 0.000 claims abstract description 63
- 230000005236 sound signal Effects 0.000 claims abstract description 46
- 230000000873 masking effect Effects 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims 1
- 239000000126 substance Substances 0.000 abstract 1
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000009118 appropriate response Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 208000032368 Device malfunction Diseases 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- ZPUCINDJVBIVPJ-LJISPDSOSA-N cocaine Chemical compound O([C@H]1C[C@@H]2CC[C@@H](N2C)[C@H]1C(=O)OC)C(=O)C1=CC=CC=C1 ZPUCINDJVBIVPJ-LJISPDSOSA-N 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/42008—Systems for anonymous communication between parties, e.g. by use of disposal contact identifiers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W12/00—Security arrangements; Authentication; Protecting privacy or anonymity
- H04W12/02—Protecting privacy or anonymity, e.g. protecting personally identifiable information [PII]
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Bioethics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Respiratory Apparatuses And Protective Means (AREA)
Abstract
Настоящее техническое решение относится к области вычислительной техники. Технический результат заключается в сохранении конфиденциальности пользователя в многопользовательской среде при голосовом взаимодействии с устройством виртуального помощника по дому. Технический результат достигается за счёт устройства и способа для голосовых взаимодействий, где микрофон захватывает звуковой сигнал, соответствующий голосовому запросу пользователя; определяются идентификационные данные говорящего, и генерируется замаскированное имя, соответствующее идентифицированному говорящему; звуковой сигнал анализируется для определения намерения пользователя, и генерируется персонализированный ответ в совокупности с замаскированным именем; ответ затем демаскируется путем повторного представления имени говорящего; демаскированный ответ воспроизводится говорящему. 3 н. и 11 з.п. ф-лы, 1 табл., 2 ил.
Description
ОБЛАСТЬ ТЕХНИКИ
Настоящее изобретение относится к области голосовых взаимодействий и, в частности, сохраняет конфиденциальность пользователей в многопользовательской среде помощников по дому.
УРОВЕНЬ ТЕХНИКИ
Настоящий раздел предназначен для ознакомления читателя с различными аспектами данной области техники, которые могут быть связаны с различными аспектами настоящего изобретения, описываемыми и/или заявляемыми ниже. Предполагается, что обсуждаемая тема поможет представить вниманию читателя дополнительную информацию для улучшения понимания различных аспектов настоящего изобретения. В этой связи следует понимать, что приведенные выше высказывания следует воспринимать в свете этого, а не как признания уровня техники.
Использование в жилой среде голосового управления с помощью устройств виртуального помощника по дому, таких как Amazon Echo или Google Home, а также служб виртуального помощника по дому, таких как Microsoft Cortana или Apple Siri, стало реальностью массового рынка; такие устройства или службы используются в миллионах домов. Устройство виртуального помощника по дому захватывает естественную речь пользователей жилого дома с помощью микрофонов, анализирует пользовательский запрос и обеспечивает соответствующий отклик или службу. В выполняемых запросах могут применяться домашние устройства (например: выключение звука телевизора, закрывание жалюзи и т.д.), но также и внешние службы (например: поиск прогноза погоды или стоимости акций, получение справки о неисправности устройства и т.д.). Кроме того, последнее поколение устройства виртуального помощника по дому осуществляет также распознавание говорящего. Такое распознавание обеспечивает множество функций, таких как контроль доступа (например: ребенок не может настраивать домашнюю сеть, не может осуществлять доступ к фильмам для взрослых и т.д.), персонализация взаимодействий (например: словарь взаимодействия может адаптироваться к категории говорящего, выбираемой из младших детей, подростков, взрослых или пожилых). Однако это достигается ценой пониженной конфиденциальности пользователя. Действительно, анализ речи и логика разговора, которые используются в таких экосистемах голосового взаимодействия, традиционно осуществляются вне домашней среды, как правило, в облаке.
Поэтому можно понять, что имеется необходимость в решении для распознавания говорящего в жилой среде, в котором решаются, по меньшей мере, некоторые из проблем уровня техники. Такое решение предлагается в настоящем изобретении.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
В настоящем изобретении описываются устройство и способ виртуального помощника по дому для голосовых взаимодействий с сохранением конфиденциальности. Микрофон захватывает звуковой сигнал, соответствующий голосовому пользовательскому запросу. Определяются идентификационные данные говорящего, и генерируется замаскированное имя, соответствующее идентифицированному говорящему. Анализируется звуковой сигнал для определения намерения пользователя, и генерируется персонализированный ответ в совокупности с замаскированным именем. Этот ответ затем демаскируется путем повторного представления имени говорящего. Такой демаскированный ответ затем передается говорящему.
В первом аспекте данное изобретение относится к устройству для выполнения голосовых взаимодействий с сохранением конфиденциальности, содержащему: микрофон, выполненный с возможностью захвата звукового сигнала, характеризующего голосовое произнесение, связанное с запросом от говорящего; идентификатор говорящего, выполненный с возможностью определения идентификационных данных говорящего по захватываемому звуковому сигналу; контроллер конфиденциальности, выполненный с возможностью генерирования замаскированного имени говорящего, соответствующего идентифицированному говорящему, и хранения списка соответствий между именами говорящих и замаскированными именами говорящих; интерфейс передачи данных, выполненный с возможностью выдачи во внешнее устройство захватываемого звукового сигнала и замаскированного имени говорящего; приема от внешнего устройства ответа на запрос говорящего; причем контроллер конфиденциальности дополнительно выполнен с возможностью определения того, содержит ли принятый ответ замаскированное имя говорящего из списка, и в этом случае замены в принятом ответе замаскированного имени говорящего соответствующим именем, благодаря чему генерируется демаскированный ответ.
В первом варианте первого аспекта принимаемый ответ находится в текстовой форме, а устройство дополнительно содержит преобразователь текста в речь, выполненный с возможностью преобразования демаскированного ответа из текстовой формы в звуковой сигнал.
Во втором варианте первого аспекта принимаемый ответ находится в звуковом формате, а контроллер конфиденциальности дополнительно выполнен с возможностью маскирования захватываемого звукового сигнала путем обнаружения имени говорящего из списка и замены его звуковым сигналом, характеризующим соответствующее замаскированное имя говорящего.
В третьем варианте первого аспекта контроллер конфиденциальности дополнительно содержит настройку для включения или выключения режима инкогнито, причем в первом случае контроллер конфиденциальности маскирует имя говорящего перед его выдачей и демаскирует принимаемый ответ, когда он содержит замаскированное имя говорящего, а во втором случае контроллер конфиденциальности более не маскирует имя говорящего и более не определяет, содержит ли принимаемый ответ замаскированное имя говорящего.
Во втором аспекте данное изобретение относится к способу выполнения голосовых взаимодействий с сохранением конфиденциальности, включающему в себя: захват звукового сигнала, характеризующего голосовое произнесение, связанное с запросом от говорящего; идентификацию говорящего по захватываемому звуковому сигналу; генерирование замаскированного имени говорящего, соответствующего идентифицированному говорящему, и сохранение списка соответствий между именами говорящих и замаскированными именами говорящих; выдачу во внешнее устройство захватываемого звукового сигнала и замаскированного имени говорящего; получение от внешнего устройства ответа на запрос говорящего; определение того, содержит ли принятый ответ замаскированное имя говорящего из списка, и в этом случае замену в принятом ответе замаскированного имени говорящего соответствующим именем, благодаря чему генерируется демаскированный ответ; и выдачу ответа говорящему.
В первом варианте второго аспекта принимаемый ответ находится в текстовой форме, а способ дополнительно включает в себя обнаружение имени говорящего из списка и замену его звуковым сигналом, характеризующим соответствующее замаскированное имя говорящего.
Второй вариант второго аспекта дополнительно включает в себя настройку для включения или выключения режима инкогнито, причем, в первом случае маскируют имя говорящего перед его выдачей и демаскируют принимаемый ответ, когда он содержит замаскированное имя говорящего, а во втором случае более не маскируют имя говорящего и более не определяют, содержит ли принимаемый ответ замаскированное имя говорящего.
Третий вариант второго аспекта включает в себя обновление замаскированных имен говорящих.
В третьем аспекте данное изобретение относится к компьютерной программе, содержащей команды программного кода, исполнимые процессором, для реализации любого варианта осуществления способа второго аспекта.
В четвертом аспекте данное изобретение относится к компьютерному программному продукту, который хранится на энергонезависимом машиночитаемом носителе и содержит команды программного кода, исполнимые процессором, для реализации любого варианта осуществления способа второго аспекта.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Предпочтительные признаки настоящего изобретения описываются далее в качестве неограничительного примера со ссылкой на прилагаемые чертежи, на которых:
фиг. 1А иллюстрирует пример экосистемы виртуального помощника по дому в соответствии с уровнем техники,
фиг. 1В иллюстрирует пример экосистемы виртуального помощника по дому, в которой может быть реализована, по меньшей мере, часть данного изобретения,
фиг. 2 иллюстрирует пример структурной схемы способа голосового взаимодействия с сохранением конфиденциальности в соответствии с одним из вариантов осуществления изобретения.
ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ
Фиг. 1А иллюстрирует пример экосистемы виртуального помощника по дому в соответствии с уровнем техники. Специалисту в данной области техники будет понятно, что для наглядности изображенное устройство упрощено. Экосистема виртуального помощника по дому содержит, по меньшей мере, устройство 100 виртуального помощника по дому, которое взаимодействует с поставщиками услуг посредством интерфейса 120 передачи данных. Поставщики услуг предлагают пользователю множество услуг с той особенностью, что эти услуги основаны на голосовых взаимодействиях и персонализированы для отдельных пользователей. Услуги предоставляются специализированными программными приложениями, которые взаимодействуют для ответа на запрос говорящего. Эти программные приложения традиционно исполняются на внешних устройствах, как правило, в облаке и могут осуществляться единым оператором 140 услуг, как показано на фиг. 1А, или могут быть разделены между множеством взаимодействующих поставщиков услуг.
Устройство виртуального помощника по дому содержит микрофон 102 для захвата генерируемых пользователем голосовых произнесений, создающих голосовой запрос, и генерирования соответствующего звукового сигнала 121. Модуль 104 идентификатора говорящего анализирует звуковой сигнал 121 для идентификации говорящего из группы пользователей жилого дома и выдает идентификационные данные 122 говорящего поставщику 140 услуг. Модуль 150 преобразования речи в намерение принимает звуковой сигнал 121, анализирует его, преобразует его в текст и генерирует намерение. Функция преобразования речи в намерение отличается от функции преобразования речи в текст. Действительно, намерение соответствует концепции и является более общим, чем простое распознанное слово. Например, намерение может представлять собой «здравствуйте», когда говорящие произносят «гутен таг» («guten Tag»), «бонжур» («bonjour»), «хай» («hi») и т.д. Модуль 160 логики разговора принимает намерение 123 и идентификационные данные 122 говорящего. Зная о предыдущих взаимодействиях с говорящим, модуль 160 логики разговора генерирует надлежащий ответ 124 в качестве отклика на последнее намерение. Поскольку модуль логики разговора знает идентификационные данные говорящего, он персонализирует ответ, например, вставляя в отклик имя говорящего. Ответ 124 представляет собой текстовую строку и выдается в модуль 160 преобразования текста в речь, который преобразует его в звуковой сигнал 125, передаваемый в устройство виртуального помощника по дому и воспроизводимый в громкоговорителе 110.
Например, как показано на фиг. 1A, когда пользователь Боб желает взаимодействовать с экосистемой, он начинает с простого запроса: «Алекса, бонжур!» в случае экосистемы Amazon. Экосистема ответит, сказав: «Бонжур, Боб», тем самым персонализируя отклик путем вставления имени распознанного говорящего.
При использовании такой настройки устройство 100 виртуального помощника по дому выдает поставщикам услуг идентификационные данные говорящего. Однако пользователи не всегда хотят, чтобы их идентификационные данные раскрывались, и ожидают улучшений в отношении их конфиденциальности.
Фиг. 1В иллюстрирует пример экосистемы виртуального помощника по дому, в которой может быть реализована, по меньшей мере, часть данного изобретения. Экосистема виртуального помощника по дому содержит ориентированное на конфиденциальность устройство 100' виртуального помощника по дому и может использоваться с точно такой же средой 140 оператора услуг, как и в системе уровня техники, описанной на фиг. 1А, при этом улучшая конфиденциальность говорящего.
Устройство 100' виртуального помощника по дому содержит микрофон 102, выполненный с возможностью захвата звука от пользователей, идентификатор 104 говорящего, выполненный с возможностью обнаружения идентификационных данных говорящего среди пользователей жилого дома, контроллер 106 конфиденциальности, выполненный с возможностью маскирования идентификационных данных говорящего в исходящих данных путем замены имени говорящего временным именем и вставки его назад во входящие данные, опциональный преобразователь 108 текста в речь, выполненный с возможностью преобразования текстовых ответов в голосовой сигнал, громкоговоритель 110, выполненный с возможностью выдачи звукового сигнала, и интерфейс 120 передачи данных. Устройство 100' виртуального помощника по дому также содержит прочие элементы, которые не показаны, поскольку они не имеют отношения к данному изобретению (такие как кнопки для конфигурирования системы, источник питания для приведения в действие электронных компонентов, звуковой усилитель для возбуждения громкоговорителя и т.д.), но важны для работы устройства. Устройство 100' виртуального помощника по дому может быть реализовано в виде автономного устройства или может быть встроено в традиционное бытовое устройство, такое как телевизионная приставка, межсетевой шлюз, телевизор, компьютер, смартфон, планшет и т.д.
Интерфейс 120 передачи данных выполнен с возможностью взаимодействия с внешними устройствами, такими как серверы данных и процессоры в облаке, выполняющими, по меньшей мере, функции преобразования речи в намерение и разговорной логики. Асимметричная цифровая абонентская линия (ADSL), кабельный модем, 3G или 4G являются примерами интерфейсов передачи данных, которые могут использоваться для этой цели. Могут использоваться и другие интерфейсы передачи данных.
Устройство 100' виртуального помощника по дому работает в одном из двух режимов в зависимости от типа ответа, выдаваемого модулем логики разговора в устройство 100' виртуального помощника по дому. Первый режим используется, когда модуль 160 логики разговора передает ответ в текстовом формате. В этом случае преобразователь 170 текста в речь поставщика 140 услуг не используется, а преобразование звука осуществляется в устройстве 100' виртуального помощника по дому преобразователем 108 текста в речь. Второй режим используется с существующими поставщиками услуг, когда ответ передается в виде звукового сигнала, тем самым используется преобразователь 170 текста в речь поставщика 140 услуг.
В соответствии с предпочтительным вариантом осуществления экосистема виртуального помощника по дому работает в первом режиме. Говорящий генерирует голосовое произнесение, чтобы выполнить голосовой запрос, например: «Алекса, какая сегодня погода?». Микрофон 102 захватывает это голосовое произнесение и генерирует соответствующий звуковой сигнал 121. Модуль 104 идентификатора говорящего анализирует звуковой сигнал 121 и идентифицирует говорящего как являющегося говорящим, который имеет идентификатор XYZ-002 и имя Боб. Такая идентификация, например, осуществляется с использованием традиционных технологий распознавания говорящего, таких как классификация с использованием моделей GMM-UBM (модели смеси Гауссовых распределений - универсальной фоновой модели). Как только говорящий идентифицирован, имя 122 говорящего выдается в контроллер 106 конфиденциальности, который генерирует временное имя 126 (в примере на фиг. 1B: «tak») и выдает его поставщику 140 услуг, тем самым маскируя реальное имя и идентификационные данные говорящего. Контроллер 106 конфиденциальности сохраняет отношение между идентификатором говорящего и замаскированным именем 126. Это осуществляется, например, путем сохранения ассоциации между именем идентифицированного говорящего (или его локальным идентификатором/профилем) и замаскированным именем в таблице соответствий. В таблице 1 приведен пример такой таблицы соответствий.
Таблица 1. Таблица соответствий
# | Имя | Замаскированное имя |
XYZ-001 | Алиса | okul |
XYZ-002 | Боб | tak |
XYZ-003 | Чарли | wakbo |
XYZ-004 | Элеонора | dragopasa |
Для генерирования замаскированного имени могут использоваться различные методы, такие как генерирование случайной текстовой строки или случайный выбор в списке случайных текстов одного элемента, отличного от имен домочадцев. Замаскированное имя предпочтительно не соответствует распространенному имени или общеупотребительному слову. С этой целью генерированный случайный текст может использоваться только в том случае, если он не входит в состав словаря имен и словаря общего словоупотребления. В тех случаях, когда это не так, должно осуществляться новое генерирование.
Контроллер 106 конфиденциальности после этого выдает звуковой сигнал 121' и замаскированное имя 126 оператору 140 услуг. Модуль 150 преобразования речи в намерение анализирует принятый звуковой сигнал 121' и генерирует соответствующее намерение 123. Модуль 160 логики разговора после этого анализирует намерение 123 и генерирует персонализированный ответ 124, например, содержащий замаскированное имя. Данный ответ после этого непосредственно отправляется назад в устройство 100' виртуального помощника по дому в текстовой форме. Контроллер 106 конфиденциальности анализирует принятый ответ 124 и проверяет, содержит ли он замаскированное имя из списка замаскированных имен таблицы соответствия. В тех случаях, когда это так, обнаруженное замаскированное имя заменяется соответствующим именем говорящего, тем самым генерируется демаскированный ответ 124', который преобразуется преобразователем 108 текста в речь в звуковой сигнал 127, воспроизводимый громкоговорителем 110.
В примере, приведенном на фиг. 1В, Боб говорит: «Алекса, какая сегодня погода?». Говорящий идентифицируется как «Боб», и, следовательно, соответствующее замаскированное имя представляет собой «tak». Анализ звуков показывает, что намерением являлась «погода на сегодня». После этого вызывается сводка погоды на сегодня, и ответ персонализируется путем добавления имени говорящего: «Здравствуйте, tak. Погода на сегодня -...», тем не менее, включая в себя замаскированное имя говорящего. Когда анализируется ответ, обнаруживается одно из замаскированных имен говорящих из списка («tak»). Оно заменяется соответствующим реальным именем говорящего «Боб», вследствие чего генерируется окончательный отклик «Здравствуйте, Боб. Погода на сегодня -...». Результат состоит в том, что имя говорящего не было раскрыто за пределами устройства 100' виртуального помощника по дому, вследствие чего сохраняется конфиденциальность множества пользователей устройства виртуального помощника по дому.
В соответствии с альтернативным вариантом осуществления, экосистема виртуального помощника по дому работает во втором режиме. Отличие от первого режима состоит в том, что когда модуль логики разговора генерирует ответ 124, этот ответ выдается в устройство 100' виртуального помощника по дому непосредственно не в текстовой форме, а в форме звука, поскольку звуковой сигнал 125 генерируется преобразователем 170 текста в речь поставщика 140 услуг. Следовательно, когда устройство 100' виртуального помощника по дому принимает ответ 125, контроллер 106 конфиденциальности анализирует звуковой сигнал 125 для обнаружения замаскированного имени. С этой целью контроллер конфиденциальности получает представления звуков замаскированных имен и ищет эти представления в звуковом сигнале 125 в звуковой области, например, используя взаимную корреляцию двух звуковых сигналов. Когда замаскированное имя найдено, оно заменяется соответствующим именем говорящего, тем самым генерируется демаскированный ответ 127, который воспроизводится громкоговорителем 110.
В этом втором режиме выбранное замаскированное имя может иметь такую же длину, как и имя говорящего, как показано в таблице 1. В альтернативном варианте оно может иметь фиксированную длину во избежание выдачи информации, которая может использоваться для определения количества людей в жилом доме. Одним примером методов генерирования такого замаскированного имени является чередование случайного согласного звука и случайного гласного звука при фиксированном числе букв. В таком случае примерами замаскированных имен для таблицы 1 могут являться «kadopabo», «jilybelo», «gatekomu» и «dagopasa».
В альтернативном варианте осуществления для улучшения конфиденциальности записанный звуковой сигнал 121 модифицируется контроллером конфиденциальности в другой звуковой сигнал 121' таким образом, что голосовые характеристики записанного голоса не могут быть распознаны. Это осуществляется с помощью любого алгоритма преобразования голоса (голосового морфинга, просодических модификаций или даже применения преобразования речи в текст с последующим преобразованием текста в речь и т.д.), благодаря чему характеристики преобразуются без изменения произносимого текста. Результат такого преобразования состоит в том, что все голоса, покидающие домашнюю сеть, являются одинаковыми и тем самым становятся неразличимыми. Такая дополнительная меры безопасности применяется к обоим режимам.
В альтернативном варианте осуществления контроллер конфиденциальности также маскирует текст исходящего звукового сигнала 121' из устройства записи звукового сигнала 121. Это осуществляется путем обнаружения в звуковом сигнале одного из имен говорящих жилого дома, перечисленных, например, в таблице соответствия, приведенной в виде таблицы 1. Когда найдено имя говорящего, оно заменяется соответствующим замаскированным именем. Данный вариант осуществления является опциональным, поскольку в некоторых ситуациях он может приводить к безуспешным запросам. Например, если данный признак активирован, при использовании таблицы 1 станет невозможным смотреть фильм «Алиса в стране чудес», поскольку запрос преобразуется в «okul в стране чудес».
В альтернативном варианте осуществления маскирование периодически обновляется под контролем настройки по умолчанию, выбора пользователя или настройки в предпочтениях пользователя, например, при каждом запуске устройства, каждый день, каждые 15 минут, для каждого запроса и т.д. Случай, в котором маскирование обновляется для каждого запроса, улучшает несвязность между двумя последовательными запросами. Однако это сопровождается недостатком, состоящим в пониженной контекстуализации запроса, поскольку после обновления логика разговора всегда начинается с пустого контекста, так как он осуществляется предположительно новым говорящим.
В соответствии с одним из вариантов осуществления, контроллер 106 конфиденциальности может включаться или выключаться, например, под контролем выбора пользователя или настройки в предпочтениях пользователя. Это контролирует уровень конфиденциальности, обеспечиваемый контроллером конфиденциальности, и вследствие этого называется настройкой уровня конфиденциальности. Когда настройка уровня конфиденциальности представляет собой «NO_CONFIDENTIALITY», контроллер 106 конфиденциальности полностью прозрачен: он не оказывает влияния на исходящие запросы устройства 100' виртуального помощника по дому и не изменяет входящие результаты. Когда настройка уровня конфиденциальности представляет собой «INCOGNITO», контроллер 106 конфиденциальности полностью активен: он анализирует исходящие запросы для маскирования имени говорящего в запросе, исключает любое имя говорящего из звука, преобразует исходящий голосовой запрос и восстанавливает имя говорящего во входящих результатах. Возможны и другие промежуточные настройки уровня конфиденциальности, например, без выполнения преобразования голоса.
В соответствии с одним из вариантов осуществления, настройка уровня конфиденциальности может корректироваться с помощью самого голосового запроса, например, «запустить конфиденциальный режим», «запустить режим инкогнито», «спрятать мои идентификационные данные» и т.д. для активации контроллера конфиденциальности и «остановить конфиденциальный режим», «остановить режим инкогнито» и т.д. для обхода контроллера конфиденциальности. Такой запрос обнаруживается контроллером конфиденциальности, который соответствующим образом корректирует свое поведение.
Фиг. 2 иллюстрирует пример структурной схемы способа голосового взаимодействия с сохранением конфиденциальности в соответствии с одним из вариантов осуществления изобретения. На этапе 200 микрофон захватывает голосовые произнесения, которые выполняются пользователем, формирующим голосовой запрос, и генерирует соответствующий звуковой сигнал. На этапе 202 идентификатор говорящего идентифицирует идентификационные данные говорящего захватываемый звуковой сигнал, а на этапе 204 контроллер конфиденциальности генерирует замаскированное имя говорящего. При необходимости на параллельном этапе 206 контроллер конфиденциальности маскирует звуковой сигнал. На этапе 208 звуковой сигнал поступает, анализируется, и генерируется соответствующее намерение. На этапе 210 персонализированный отклик генерируется после получения замаскированного имени говорящего. На этапе 212 отклик анализируется контроллером конфиденциальности, который заменяет замаскированные имена отклика соответствующими именами говорящих. На этапе 214 громкоговорители воспроизводят демаскированный отклик. Этапы 204 и 206 маскирования и этап 212 демаскирования выполняются под контролем настроек уровня конфиденциальности и обходятся, когда настройки представляют собой «NO_CONFIDENTIALITY».
Специалистам в данной области техники очевидно, что аспекты настоящих принципов и признаков, описанных выше, могут принимать форму полностью аппаратного варианта осуществления, полностью программного варианта осуществления (включая микропрограммные средства, резидентные программные средства, микрокод и так далее) или варианта осуществления, комбинирующего аппаратные и программные аспекты. Например, несмотря на то, что описание выполнено с использованием аппаратных компонентов идентификатора 104 говорящего, контроллера 106 конфиденциальности и преобразователя 108 текста в речь, эти элементы могут быть реализованы в виде программных компонентов с использованием, по меньшей мере, одного аппаратного процессора, выполненного с возможностью осуществления способа, по меньшей мере, одного варианта осуществления настоящего изобретения, памяти, выполненной с возможностью хранения данных, необходимых для осуществления способа, по меньшей мере, одного варианта осуществления настоящего изобретения, и машиночитаемого программного кода, исполнимого процессором, для осуществления, по меньшей мере, одного варианта осуществления настоящего изобретения. Таким образом, в такой реализации аппаратный процессор выполнен с возможностью реализации, по меньшей мере, функций идентификатора 104 говорящего, контроллера 106 конфиденциальности и преобразователя 108 текста в речь и взаимодействия с поставщиком услуг посредством интерфейса 120 передачи данных. С этой целью аппаратный процессор выполнен с возможностью реализации, по меньшей мере, приведенных на фиг. 2 этапов, включающих в себя этап 202 идентификации пользователя, этап 204 маскирования имени, этап 206 маскирования звукового запроса, этап 212 демаскирования и этап 214 воспроизведения ответа.
Кроме того, несмотря на то, что различные альтернативные варианты осуществления описаны по отдельности, они могут быть объединены друг с другом в любой форме.
Claims (27)
1. Устройство (100') для выполнения голосовых взаимодействий с сохранением конфиденциальности, содержащее:
- микрофон (102), выполненный с возможностью захвата звукового сигнала (121), характеризующего голосовое произнесение, связанное с запросом от говорящего;
- идентификатор (104) говорящего, выполненный с возможностью определения идентификационных данных говорящего по захватываемому звуковому сигналу (121);
- контроллер (106) конфиденциальности, выполненный с возможностью выдачи замаскированного имени (122) говорящего, соответствующего идентифицированному говорящему, и хранения списка соответствий между именами говорящих и замаскированными именами говорящих;
- интерфейс (120) передачи данных, выполненный с возможностью:
- выдачи во внешнее устройство захватываемого звукового сигнала (121) и замаскированного имени (122) говорящего;
- приема от внешнего устройства ответа (124, 125) на запрос говорящего;
причем контроллер конфиденциальности дополнительно выполнен с возможностью определения того, содержит ли принятый ответ замаскированное имя говорящего из списка, и в этом случае замены в принятом ответе замаскированного имени говорящего соответствующим именем.
2. Устройство по п. 1, дополнительно содержащее выдачу ответа говорящему.
3. Устройство по п. 1, причем принимаемый ответ (124) находится в текстовой форме.
4. Устройство по п. 3, дополнительно содержащее преобразователь (108) текста в речь, выполненный с возможностью преобразования демаскированного ответа (124') из текстовой формы в звуковой сигнал (127).
5. Устройство по п. 1, причем принимаемый ответ (124) находится в звуковом формате.
6. Устройство по п. 1, причем контроллер конфиденциальности дополнительно выполнен с возможностью маскирования захватываемого звукового сигнала (121) путем обнаружения имени говорящего из списка и замены его звуковым сигналом, характеризующим соответствующее замаскированное имя говорящего.
7. Устройство по п. 1, причем контроллер конфиденциальности дополнительно содержит настройку для включения или выключения режима инкогнито, причем в первом случае контроллер конфиденциальности маскирует имя говорящего перед его выдачей и демаскирует принимаемый ответ, когда он содержит замаскированное имя говорящего, а во втором случае контроллер конфиденциальности не маскирует имя говорящего и не определяет, содержит ли принимаемый ответ замаскированное имя говорящего.
8. Способ выполнения голосовых взаимодействий с сохранением конфиденциальности, содержащий этапы, на которых:
- захватывают (200) звуковой сигнал, характеризующий голосовое произнесение, связанное с запросом от говорящего;
- идентифицируют (202) говорящего по захватываемому звуковому сигналу;
- генерируют (204) замаскированное имя говорящего, соответствующее идентифицированному говорящему, и сохраняют список соответствий между именами говорящих и замаскированными именами говорящих;
- выдают во внешнее устройство захватываемый звуковой сигнал и замаскированное имя говорящего;
- получают от внешнего устройства ответ на запрос; и
- определяют (212) то, содержит ли принятый ответ замаскированное имя говорящего из списка, и в этом случае заменяют в принятом ответе замаскированное имя говорящего соответствующим именем.
9. Способ по п. 8, дополнительно содержащий выдачу ответа говорящему.
10. Способ по п. 8, в котором принимаемый ответ (124) находится в текстовой форме или звуковой форме
11. Способ по п. 8, дополнительно содержащий маскирование захватываемого звукового сигнала (121) путем обнаружения имени говорящего из списка и замены его звуковым сигналом, характеризующим соответствующее замаскированное имя говорящего.
12. Способ по п. 8, дополнительно содержащий настройку для включения или выключения режима инкогнито, причем, в первом случае маскируют имя говорящего перед его выдачей и демаскируют принимаемый ответ, когда он содержит замаскированное имя говорящего, а во втором случае более не маскируют имя говорящего и более не определяют, содержит ли принимаемый ответ замаскированное имя говорящего.
13. Способ по п. 8, дополнительно содержащий обновление замаскированных имен говорящих из списка.
14. Энергонезависимый машиночитаемый носитель, содержащий команды программного кода, исполнимые процессором, для реализации этапов способа, по меньшей мере, по одному из пп. 8-13.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17306719.0A EP3496090A1 (en) | 2017-12-07 | 2017-12-07 | Device and method for privacy-preserving vocal interaction |
EP17306719.0 | 2017-12-07 |
Publications (3)
Publication Number | Publication Date |
---|---|
RU2018142910A RU2018142910A (ru) | 2020-06-05 |
RU2018142910A3 RU2018142910A3 (ru) | 2021-08-17 |
RU2768506C2 true RU2768506C2 (ru) | 2022-03-24 |
Family
ID=60811978
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2018142910A RU2768506C2 (ru) | 2017-12-07 | 2018-12-05 | Устройство и способ для голосового взаимодействия с сохранением конфиденциальности |
Country Status (9)
Country | Link |
---|---|
US (1) | US11069362B2 (ru) |
EP (2) | EP3496090A1 (ru) |
JP (1) | JP7166900B2 (ru) |
KR (1) | KR20190067697A (ru) |
CN (1) | CN110033774B (ru) |
BR (1) | BR102018075377B1 (ru) |
CA (1) | CA3026205A1 (ru) |
MX (1) | MX2018015218A (ru) |
RU (1) | RU2768506C2 (ru) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10909978B2 (en) * | 2017-06-28 | 2021-02-02 | Amazon Technologies, Inc. | Secure utterance storage |
EP3496090A1 (en) * | 2017-12-07 | 2019-06-12 | Thomson Licensing | Device and method for privacy-preserving vocal interaction |
DE102018202018B3 (de) | 2018-02-09 | 2019-05-09 | Siemens Schweiz Ag | Verfahren und System zum Bereitstellen eines sprachbasierten Dienstes, insbesondere für die Ansteuerung von Raumbedienelementen in Gebäuden |
CN110992957B (zh) * | 2019-11-15 | 2023-09-08 | 东华大学 | 基于隐私保护的语音数据处理方法 |
US11769496B1 (en) * | 2019-12-12 | 2023-09-26 | Amazon Technologies, Inc. | Predictive deletion of user input |
AU2021254787A1 (en) * | 2020-04-15 | 2022-10-27 | Pindrop Security, Inc. | Passive and continuous multi-speaker voice biometrics |
US11449674B2 (en) | 2020-04-28 | 2022-09-20 | International Business Machines Corporation | Utility-preserving text de-identification with privacy guarantees |
US11217223B2 (en) * | 2020-04-28 | 2022-01-04 | International Business Machines Corporation | Speaker identity and content de-identification |
CN112673423A (zh) * | 2020-04-29 | 2021-04-16 | 华为技术有限公司 | 一种车内语音交互方法及设备 |
EP3905631B1 (en) * | 2020-05-01 | 2024-05-29 | Avago Technologies International Sales Pte. Limited | Systems and methods for speaker anonymization |
CN111597580B (zh) * | 2020-05-13 | 2023-04-14 | 贵州大学 | 机器人听觉隐私信息监听处理方法 |
CN113066485B (zh) * | 2021-03-25 | 2024-05-17 | 支付宝(杭州)信息技术有限公司 | 一种语音数据处理方法、装置及设备 |
US20220399009A1 (en) * | 2021-06-09 | 2022-12-15 | International Business Machines Corporation | Protecting sensitive information in conversational exchanges |
CN113782027B (zh) * | 2021-09-01 | 2024-06-21 | 维沃移动通信(杭州)有限公司 | 音频处理方法及音频处理装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2337020C1 (ru) * | 2007-09-26 | 2008-10-27 | Общество с ограниченной ответственностью "АЛЬТОНИКА" (ООО"АЛЬТОНИКА") | Система голосового распознавания пользователя транспортного средства |
US7698131B2 (en) * | 1999-11-12 | 2010-04-13 | Phoenix Solutions, Inc. | Speech recognition system for client devices having differing computing capabilities |
US7920682B2 (en) * | 2001-08-21 | 2011-04-05 | Byrne William J | Dynamic interactive voice interface |
US8682676B2 (en) * | 2005-08-09 | 2014-03-25 | Nuance Communications, Inc. | Voice controlled wireless communication device system |
US9330668B2 (en) * | 2005-12-20 | 2016-05-03 | International Business Machines Corporation | Sharing voice application processing via markup |
US9542956B1 (en) * | 2012-01-09 | 2017-01-10 | Interactive Voice, Inc. | Systems and methods for responding to human spoken audio |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0942575A3 (en) * | 1998-03-12 | 2001-11-14 | Novcom N.V. | Adaptive telephone answering system |
US6499013B1 (en) * | 1998-09-09 | 2002-12-24 | One Voice Technologies, Inc. | Interactive user interface using speech recognition and natural language processing |
JP2001125900A (ja) * | 1999-10-29 | 2001-05-11 | Yazaki Corp | 対話システム及び対話方法、双方向対話システム及び双方向対話方法並びに記録媒体 |
US6839417B2 (en) * | 2002-09-10 | 2005-01-04 | Myriad Entertainment, Inc. | Method and apparatus for improved conference call management |
US8473451B1 (en) | 2004-07-30 | 2013-06-25 | At&T Intellectual Property I, L.P. | Preserving privacy in natural language databases |
KR20080107376A (ko) * | 2006-02-14 | 2008-12-10 | 인텔렉츄얼 벤처스 펀드 21 엘엘씨 | 화자 독립 음성 인식을 구비한 통신 장치 |
US20120215528A1 (en) | 2009-10-28 | 2012-08-23 | Nec Corporation | Speech recognition system, speech recognition request device, speech recognition method, speech recognition program, and recording medium |
US20110218798A1 (en) * | 2010-03-05 | 2011-09-08 | Nexdia Inc. | Obfuscating sensitive content in audio sources |
US9298878B2 (en) * | 2010-07-29 | 2016-03-29 | Oracle International Corporation | System and method for real-time transactional data obfuscation |
US9131369B2 (en) * | 2013-01-24 | 2015-09-08 | Nuance Communications, Inc. | Protection of private information in a client/server automatic speech recognition system |
US9437207B2 (en) | 2013-03-12 | 2016-09-06 | Pullstring, Inc. | Feature extraction for anonymized speech recognition |
US9514741B2 (en) | 2013-03-13 | 2016-12-06 | Nuance Communications, Inc. | Data shredding for speech recognition acoustic model training under data retention restrictions |
CN103279499B (zh) * | 2013-05-09 | 2016-11-09 | 北京信息科技大学 | 个性化信息检索中用户隐私保护方法 |
US9472206B2 (en) | 2013-06-17 | 2016-10-18 | Google Technology Holdings LLC | Privacy mode for always-on voice-activated information assistant |
US9666188B2 (en) * | 2013-10-29 | 2017-05-30 | Nuance Communications, Inc. | System and method of performing automatic speech recognition using local private data |
CN103596172A (zh) * | 2013-11-25 | 2014-02-19 | 中国联合网络通信集团有限公司 | 用户信息保护的方法、装置及系统 |
CN103730114A (zh) * | 2013-12-31 | 2014-04-16 | 上海交通大学无锡研究院 | 一种基于联合因子分析模型的移动设备声纹识别方法 |
US10410630B2 (en) * | 2014-06-19 | 2019-09-10 | Robert Bosch Gmbh | System and method for speech-enabled personalized operation of devices and services in multiple operating environments |
CN104168377A (zh) * | 2014-08-18 | 2014-11-26 | 小米科技有限责任公司 | 通话方法及装置 |
KR102536944B1 (ko) * | 2014-11-07 | 2023-05-26 | 삼성전자주식회사 | 음성 신호 처리 방법 및 장치 |
US9881613B2 (en) | 2015-06-29 | 2018-01-30 | Google Llc | Privacy-preserving training corpus selection |
US10333904B2 (en) * | 2015-08-08 | 2019-06-25 | Peter J. Tormey | Voice access and control |
US20180053504A1 (en) * | 2016-08-19 | 2018-02-22 | Otis Elevator Company | Intention recognition for triggering voice recognition system |
CN110392913B (zh) * | 2017-05-16 | 2023-09-29 | 谷歌有限责任公司 | 在共用的启用语音的装置上处理呼叫 |
EP3496090A1 (en) * | 2017-12-07 | 2019-06-12 | Thomson Licensing | Device and method for privacy-preserving vocal interaction |
-
2017
- 2017-12-07 EP EP17306719.0A patent/EP3496090A1/en not_active Withdrawn
-
2018
- 2018-11-16 EP EP18206851.0A patent/EP3496091B1/en active Active
- 2018-12-03 CA CA3026205A patent/CA3026205A1/en active Pending
- 2018-12-03 JP JP2018226745A patent/JP7166900B2/ja active Active
- 2018-12-04 KR KR1020180154627A patent/KR20190067697A/ko active IP Right Grant
- 2018-12-05 RU RU2018142910A patent/RU2768506C2/ru active
- 2018-12-06 MX MX2018015218A patent/MX2018015218A/es unknown
- 2018-12-07 CN CN201811501711.1A patent/CN110033774B/zh active Active
- 2018-12-07 US US16/213,187 patent/US11069362B2/en active Active
- 2018-12-07 BR BR102018075377-0A patent/BR102018075377B1/pt active IP Right Grant
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7698131B2 (en) * | 1999-11-12 | 2010-04-13 | Phoenix Solutions, Inc. | Speech recognition system for client devices having differing computing capabilities |
US7920682B2 (en) * | 2001-08-21 | 2011-04-05 | Byrne William J | Dynamic interactive voice interface |
US8682676B2 (en) * | 2005-08-09 | 2014-03-25 | Nuance Communications, Inc. | Voice controlled wireless communication device system |
US9330668B2 (en) * | 2005-12-20 | 2016-05-03 | International Business Machines Corporation | Sharing voice application processing via markup |
RU2337020C1 (ru) * | 2007-09-26 | 2008-10-27 | Общество с ограниченной ответственностью "АЛЬТОНИКА" (ООО"АЛЬТОНИКА") | Система голосового распознавания пользователя транспортного средства |
US9542956B1 (en) * | 2012-01-09 | 2017-01-10 | Interactive Voice, Inc. | Systems and methods for responding to human spoken audio |
Also Published As
Publication number | Publication date |
---|---|
CA3026205A1 (en) | 2019-06-07 |
EP3496091A1 (en) | 2019-06-12 |
BR102018075377A2 (pt) | 2019-06-25 |
CN110033774A (zh) | 2019-07-19 |
KR20190067697A (ko) | 2019-06-17 |
EP3496090A1 (en) | 2019-06-12 |
CN110033774B (zh) | 2024-07-12 |
US11069362B2 (en) | 2021-07-20 |
JP2019109503A (ja) | 2019-07-04 |
MX2018015218A (es) | 2019-07-04 |
US20190180759A1 (en) | 2019-06-13 |
JP7166900B2 (ja) | 2022-11-08 |
BR102018075377B1 (pt) | 2022-08-02 |
RU2018142910A (ru) | 2020-06-05 |
RU2018142910A3 (ru) | 2021-08-17 |
EP3496091B1 (en) | 2020-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2768506C2 (ru) | Устройство и способ для голосового взаимодействия с сохранением конфиденциальности | |
CN110800044B (zh) | 用于语音助手系统的话语权限管理 | |
US20240071382A1 (en) | Temporary account association with voice-enabled devices | |
US10714085B2 (en) | Temporary account association with voice-enabled devices | |
US10706848B1 (en) | Anomaly detection for voice controlled devices | |
US11682393B2 (en) | Method and system for context association and personalization using a wake-word in virtual personal assistants | |
KR20190103308A (ko) | 기록된 미디어 핫워드 트리거 억제 | |
US11776541B2 (en) | Communicating announcements | |
KR20180082783A (ko) | 인공 지능 자동 화자 식별 방법을 이용하는 개인 맞춤형 음성 인식 서비스 제공 방법 및 이에 사용되는 서비스 제공 서버 | |
CN110858841B (zh) | 通过已注册用户的认证来注册新用户的电子设备和方法 | |
Guo et al. | Specpatch: Human-in-the-loop adversarial audio spectrogram patch attack on speech recognition | |
CN110517686A (zh) | 智能音箱端语音开通应用的方法及系统 | |
US10861453B1 (en) | Resource scheduling with voice controlled devices | |
US11575758B1 (en) | Session-based device grouping | |
WO2019155716A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム | |
US11024303B1 (en) | Communicating announcements | |
CN111429917B (zh) | 一种设备唤醒方法及终端设备 | |
CN112513845A (zh) | 与语音使能设备的暂时账户关联 | |
US12081628B1 (en) | Account association for voice-enabled devices | |
Hansson et al. | Voice-operated Home Automation Affordable System using Open-source Toolkits | |
KR20190091188A (ko) | 포먼트 주파수 신호들의 변조에 의해, 임의 삭제가 불가능한 합성음 표시를 포함하는 tts 음성 신호를 생성하는 방법 및 컴퓨터 판독가능 기록매체 | |
JP2019090944A (ja) | システム、方法、およびプログラム |