RU2735363C1 - Способ и устройство для обработки звука и носитель информации - Google Patents

Способ и устройство для обработки звука и носитель информации Download PDF

Info

Publication number
RU2735363C1
RU2735363C1 RU2019139979A RU2019139979A RU2735363C1 RU 2735363 C1 RU2735363 C1 RU 2735363C1 RU 2019139979 A RU2019139979 A RU 2019139979A RU 2019139979 A RU2019139979 A RU 2019139979A RU 2735363 C1 RU2735363 C1 RU 2735363C1
Authority
RU
Russia
Prior art keywords
audio data
audio
target
data
specified
Prior art date
Application number
RU2019139979A
Other languages
English (en)
Inventor
Канхун ЛУ
Жуй ЯН
Сяочуань ФЭН
Шици ЦУЙ
Вэй ХАНЬ
Бинь ЦИНЬ
Ган Ван
Дань ЛИ
Original Assignee
Бейджин Сяоми Мобайл Софтвеа Ко., Лтд.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Бейджин Сяоми Мобайл Софтвеа Ко., Лтд. filed Critical Бейджин Сяоми Мобайл Софтвеа Ко., Лтд.
Application granted granted Critical
Publication of RU2735363C1 publication Critical patent/RU2735363C1/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)

Abstract

Изобретение относится к акустике. Способ заключается в приеме аудиоданных, их распознавании, проверке наличия в них информации об активации приложения, активации приложения, приеме первых и вторых речевых данных. Затем выполняют вычисление разности времени между окончанием приема первых аудиоданных и началом приема вторых аудиоданных. Определяют больше или равна первой длительности вычисленная разность. Если разность времени больше, то выполняют проверку полноты введенных данных. Если данные введены не полностью, выполняется комбинирование первых и вторых данных. Если данные введены полностью, используются первые и вторые данные по отдельности. Получают на основе введенных данных ответную информацию от цифрового помощника. Выводят ответную информацию через динамик. Устройство обработки звука содержит первый и второй аудиоприемные модули, аудиоопределяющий модуль. Также устройство содержит схему памяти, процессор, элемент питания, мультимедийные и аудиокомпоненты, интерфейс ввода-вывода, модуль связи, сенсорный экран. Технический результат – обеспечение беспроблемного, ровного диалога с цифровым помощником. 4 н. и 8 з.п. ф-лы, 4 ил.

Description

Перекрестная ссылка на родственные заявки
По настоящей заявке испрашивается приоритет согласно заявке на выдачу патента Китая №201910760806.3, поданной в пятницу 16 августа 2019 г., содержание которой полностью включено в настоящую заявку посредством ссылки.
Область техники, к которой относится изобретение
Настоящее изобретение относится к области информации, и, более конкретно, к способу и устройству для обработки звука и к носителю информации.
Уровень техники
Взаимодействие человек-машина посредством голоса привлекает широкое внимание. Вся интернет-индустрия активно разрабатывает возможные варианты и сценарии использования голосового взаимодействия, и на рынок уже выпущено большое количество изделий, работающих на основе голосового взаимодействия, например, умные колонки и голосовые помощники. Голосовые помощники практически стали главной темой конференций, посвященных выпуску новых изделий, у различных производителей, и в определенной степени влияют на потребительский выбор. Однако диалог в ходе взаимодействия между пользователями и такими голосовыми помощниками бывает затрудненным, неровным.
Раскрытие сущности изобретения
Настоящее изобретение предусматривает способ и устройство для обработки звука и носитель информации.
Согласно первому аспекту вариантов осуществления настоящего изобретения предусматривается способ обработки звука. Указанный способ может использоваться электронным устройством. Способ может содержать следующие этапы.
Принимают первые аудиоданные, связанные с первым аудиосигналом, после того, как активировано целевое приложение.
Принимают вторые аудиоданные в ответ на обнаружение вторых аудиоданных, связанных со вторым аудиосигналом, в процессе приема указанных первых аудиоданных.
Получают целевые аудиоданные на основании первых аудиоданных и вторых аудиоданных.
В некоторых вариантах осуществления способ может дополнительно содержать следующие этапы.
Определяют разность времени между окончанием приема первых аудиоданных и началом приема вторых аудиоданных.
Этап получения целевых аудиоданных на основании первых аудиоданных и вторых аудиоданных может содержать следующие этапы.
Получают целевые аудиоданные на основании первых аудиоданных и вторых аудиоданных, если указанная разность времени больше или равна первой заданной длительности.
В некоторых вариантах осуществления этап получения целевых аудиоданных на основании первых аудиоданных и вторых аудиоданных, когда разность времени больше или равна первой заданной длительности, может содержать следующие этапы.
Проверяют полноту ввода первых аудиоданных, если разность времени больше или равна первой заданной длительности.
Получают целевые аудиоданные на основании первых аудиоданных и вторых аудиоданных, если первые аудиоданные введены не полностью.
В некоторых вариантах осуществления этап получения целевых аудиоданных на основании первых аудиоданных и вторых аудиоданных, если первые аудиоданные введены не полностью, может содержать следующие этапы.
Проверяют, если первые аудиоданные введены не полностью, возможность комбинирования первых аудиоданных и вторых аудиоданных.
Комбинируют первые аудиоданные и вторые аудиоданные для получения целевых аудиоданных, если комбинирование первых аудиоданных и вторых аудиоданных возможно.
В некоторых вариантах осуществления способ может дополнительно содержать следующие этапы.
Определяют первые аудиоданные и вторые аудиоданные по отдельности в качестве целевых аудиоданных, если первые аудиоданные введены полностью.
В некоторых вариантах осуществления способ может дополнительно содержать следующие этапы.
Выполняют на целевых аудиоданных подавление акустического эха (ПАЭ).
Получают ответную информацию на основании целевых аудиоданных, обработанных посредством ПАЭ.
Выдают указанную ответную информацию.
В некоторых вариантах осуществления способ может дополнительно содержать следующие этапы.
Принимают аудиоданные, подлежащие распознаванию.
Проверяют, содержат ли эти аудиоданные, подлежащие распознаванию, информацию активации для активации целевого приложения.
Активируют целевое приложение, если аудиоданные, подлежащие распознаванию, содержат информацию активации.
Указанные аудиоданные, подлежащие распознаванию, могут содержать голосовые данные.
Согласно второму аспекту вариантов осуществления настоящего изобретения предусматривается устройство для обработки звука, которое может содержать:
первый аудиоприемный модуль, выполненный с возможностью приема первых аудиоданных, связанных с первым аудиосигналом, после того, как активировано целевое приложение;
второй аудиоприемный модуль, выполненный с возможностью приема вторых аудиоданных в ответ на обнаружение вторых аудиоданных, связанных со вторым аудиосигналом, в процессе приема первых аудиоданных; и
первый аудиоопределяющий модуль, выполненный с возможностью получения целевых аудиоданных на основании первых аудиоданных и вторых аудиоданных.
В некоторых вариантах осуществления устройство может дополнительно содержать:
времяопределяющий модуль, выполненный с возможностью определения разности времени между окончанием приема первых аудиоданных и началом приема вторых аудиоданных, при этом первый аудиоопределяющий модуль содержит:
аудиоопределяющий субмодуль, выполненный с возможностью получения целевых аудиоданных на основании первых аудиоданных и вторых аудиоданных, если указанная разность времени больше или равна первой заданной длительности.
В некоторых вариантах осуществления аудиоопределяющий субмодуль может быть выполнен с возможностью:
проверки полноты ввода первых аудиоданных, если указанная разность времени больше или равна первой заданной длительности; и
получения целевых аудиоданных на основании первых аудиоданных и вторых аудиоданных, если первые аудиоданные введены не полностью.
В некоторых вариантах осуществления аудиоопределяющий субмодуль может быть дополнительно выполнен с возможностью:
проверки, если первые аудиоданные введены не полностью, возможности комбинирования первых аудиоданных и вторых аудиоданных; и
комбинирования первых аудиоданных и вторых аудиоданных для получения целевых аудиоданных, если комбинирование первых аудиоданных и вторых аудиоданных возможно.
В некоторых вариантах осуществления устройство может дополнительно содержать
второй аудиоопределяющий модуль, выполненный с возможностью определения первых аудиоданных и вторых аудиоданных по отдельности в качестве целевых аудиоданных, если первые аудиоданные введены полностью.
В некоторых вариантах осуществления устройство может дополнительно содержать:
модуль ПАЭ, выполненный с возможностью выполнения обработки подавления акустического эха на целевых аудиоданных;
ответный модуль, выполненный с возможностью получения ответной информации на основании целевых аудиоданных, обработанных посредством ПАЭ; и
выходной модуль, выполненный с возможностью выдачи указанной ответной информации.
В некоторых вариантах осуществления устройство может дополнительно содержать:
третий аудиоприемный модуль, выполненный с возможностью приема аудиоданных, подлежащих распознаванию;
модуль проверки информации, выполненный с возможностью проверки наличия в аудиоданных, подлежащих распознаванию, информации активации для активации целевого приложения; и
активирующий модуль, выполненный с возможностью активации целевого приложения при наличии информации активации в аудиоданных, подлежащих распознаванию.
Указанные аудиоданные, подлежащие распознаванию, могут содержать голосовые данные.
Согласно третьему аспекту вариантов осуществления настоящего изобретения предусматривается устройство для обработки звука, которое может содержать:
процессор; и
память, выполненную с возможностью хранения инструкции, которая может быть исполнена указанным процессором.
Указанный процессор может быть сконфигурирован так, чтобы при исполнении указанной инструкции выполнялись этапы способа обработки звука согласно первому аспекту.
Согласно четвертому аспекту вариантов осуществления настоящего изобретения предусматривается долговременный машиночитаемый носитель информации. Указанное устройство для обработки звука выполнено с возможностью при исполнении его процессором инструкции с указанного носителя информации выполнять способ обработки звука согласно первому аспекту.
Технические решения, предусматриваемые вариантами осуществления настоящего изобретения, могут содержать следующие благоприятные эффекты.
В вариантах осуществления настоящего изобретения после активации целевого приложения в случае обнаружения вторых аудиоданных в процессе приема первых аудиоданных, первые аудиоданные и вторые аудиоданные могут быть подвергнуты анализу и обработке для получения целевых аудиоданных. При продолжительном высказывании это дает возможность сразу обрабатывать по отдельности множество аудиоданных без необходимости повторной активации целевого приложения. Благодаря упрощению процесса обработки высказывания согласно вариантам осуществления настоящего изобретения, голосовое взаимодействие может быть более ровным по сравнению с ситуацией, в которой обработка следующих аудиоданных возможна лишь после ответа на уже принятые аудиоданные. Для получения целевых аудиоданных возможно комбинирование первых аудиоданных и вторых аудиоданных, а звуковой ответ на такие целевые аудиоданные может более точно отражать реальные потребности пользователя, снижается частота ошибок ответа, вызванных изоляцией высказываний, из-за которой ответ дается отдельно на первые аудиоданные и на вторые аудиоданные, что в итоге повышает точность звукового ответа,
Следует понимать, что вышеприведенное общее описание и нижеследующее подробное раскрытие изобретения служат лишь для пояснения и не имеют целью ограничение настоящего изобретения.
Краткое описание чертежей
Сопровождающие чертежи, составляющие часть настоящего раскрытия, иллюстрируют варианты осуществления, совместимые с настоящим изобретением, и вместе с описанием служат для пояснения принципов настоящего изобретения.
Фиг. 1 представляет блок-схему 1 способа обработки звука в соответствии с иллюстративным вариантом осуществления.
Фиг. 2 представляет блок-схему 2 способа обработки звука в соответствии с иллюстративным вариантом осуществления.
Фиг. 3 представляет структурную схему устройства для обработки звука в соответствии с иллюстративным вариантом осуществления.
Фиг. 4 представляет структурную схему аппаратной конфигурации устройства для обработки звука согласно иллюстративному варианту осуществления.
Осуществление изобретения
Далее подробно рассматриваются иллюстративные варианты осуществления, примеры которых представлены на сопровождающих чертежах. В следующем описании используются отсылки к сопровождающим чертежам, при этом одинаковые числа на разных чертежах представляют одинаковые или подобные элементы, если не указано иное. Реализации, представленные в нижеследующем описании иллюстративных вариантов осуществления, не представляют все реализации, совместимые с настоящим изобретением. Напротив, это лишь примеры устройств и способов, совместимых с аспектами, относящимися к настоящему изобретению, изложенному в прилагаемой формуле изобретения.
Фиг. 1 представляет блок-схему 1 способа обработки звука в соответствии с вариантом осуществления. Как показано на фиг. 1, этот способ применим к электронному устройству, которым может быть мобильный терминал и стационарный терминал, например, мобильный телефон, планшетный компьютер, ручной компьютер, портативный компьютер, настольный компьютер, надеваемое мобильное устройство, умная колонка и т.д. Способ может содержать следующие этапы.
На этапе 101 после того, как целевое приложение активировано, принимают первые аудиоданные, связанные с первым аудиосигналом.
Указанным целевым приложением может быть приложение, которое может быть установлено в электронном устройстве для осуществления голосового взаимодействия с пользователем, например, голосовой помощник. Указанный первый аудиосигнал может содержать голосовой сигнал, например, голосовой сигнал, произнесенный пользователем, зарегистрированный с использованием звукорегистрирующего компонента указанного электронного устройства. Указанными первыми аудиоданными могут быть аудиоданные после перевода первого аудиосигнала в цифровую форму.
Аудиосигнал может регистрироваться звукорегистрирующим компонентом в указанном электронном устройстве и переводиться в цифровую форму для получения аудиоданных. Указанным звукорегистрирующим компонентом может быть компонент для регистрации звука в электронном устройстве. Например, когда указанным электронным устройством является мобильный телефон, указанным звукорегистрирующим компонентом может быть микрофон этого мобильного телефона.
В вариантах осуществления настоящего изобретения голосом может активироваться целевое приложение, а после того, как оно активировано, с использованием этого целевого приложения могут приниматься аудиоданные.
Например, когда аудиосигнал, переданный пользователем, принят звукорегистрирующим компонентом электронного устройства, этот голосовой сигнал может переводиться в цифровую форму для получения голосовых данных. Может выполняться проверка наличия в указанных голосовых данных заранее заданного активирующего слова, и при наличии в голосовых данных этого активирующего слова целевое приложение может активироваться. Активирующее слово может задаваться пользователем в соответствии с потребностями. Например, в качестве активирующего слова может задаваться «ИИ».
На этапе 102 принимают вторые аудиоданные в ответ на обнаружение вторых аудиоданных, связанных со вторым аудиосигналом, в процессе приема указанных первых аудиоданных.
Вторые аудиоданные могут совпадать с первыми аудиоданными или отличаться от них. Вторыми аудиоданными могут быть аудиоданные, принятые в процессе приема первых аудиоданных.
На этапе 103 получают целевые аудиоданные на основании первых аудиоданных и вторых аудиоданных.
После приема целевым приложением первых аудиоданных и вторых аудиоданных по отдельности в разное время, на основании этих первых аудиоданных и вторых аудиоданных могут получать целевые аудиоданные, которые могут передавать в целевое приложение для получения ответа.
Целевыми аудиоданными может быть по меньшей мере что-то одно из следующего: первые аудиоданные, вторые аудиоданные и третьи аудиоданные, полученные путем комбинирования первых аудиоданных и вторых аудиоданных. Например, целевыми аудиоданными могут быть третьи аудиоданные, полученные путем комбинирования первых аудиоданных и вторых аудиоданных. Например, когда содержанием первых аудиоданных является «Сегодня», а содержанием вторых аудиоданных является «солнечно», содержанием третьих аудиоданных, т.е., целевых аудиоданных, может быть «Сегодня солнечно».
В вариантах осуществления настоящего изобретения после того, как целевое приложение активировано, при обнаружении вторых аудиоданных в процессе приема первых аудиоданных, первые аудиоданные и вторые аудиоданные могут одновременно подвергаться анализу и обработке для получения целевых аудиоданных. Во время продолжительного высказывания возможна непосредственная одновременная обработка множества аудиоданных без новой активации целевого приложения, что не только упрощает процесс обработки высказывания, но и делает голосовое взаимодействие более ровным.
Этап получения целевых аудиоданных на основании первых аудиоданных и вторых аудиоданных может содержать следующие этапы.
Получают целевые аудиоданные на основании первого семантического содержания первых аудиоданных и второго семантического содержания вторых аудиоданных.
Например, первое семантическое содержание и второе семантическое содержание могут быть взаимодополняющими, и тогда для получения целевых аудиоданных первые аудиоданные и вторые аудиоданные могут комбинировать, а сценарий использования может быть таким: после передачи пользователем первого голосового сигнала пользователь мог сделать паузу или его могли прервать, поэтому в качестве дополнения нужен второй аудиосигнал.
Например, первым семантическим содержанием может быть «Пожалуйста, помоги мне», а вторым семантическим содержанием может быть «установить будильник». В семантическом анализе, который может выполняться по первому семантическому содержанию и по второму семантическому содержанию, может быть установлено, что первое семантическое содержание и второе семантическое содержание дополняют друг друга. После этого путем комбинирования первых аудиоданных и вторых аудиоданных могут получать целевые аудиоданные. В качестве окончательного требования пользователя может быть определено следующее: «Пожалуйста, помоги мне установить будильник».
В качестве еще одного примера, при противоречии между первым семантическим содержанием и вторым семантическим содержанием в качестве целевых аудиоданных могут использоваться вторые аудиоданные, при этом сценарий использования может быть таким: пользователь, передав ошибочный первый аудиосигнал, затем исправляет его вторым аудиосигналом.
Например, первым семантическим содержанием может быть «Погода в Ухане сегодня», а вторым семантическим содержанием «Нет, я хотел узнать погоду в Пекине сегодня». Семантический анализ может выполняться по первому семантическому содержанию и по второму семантическому содержанию с целью удостовериться, что и первые аудиоданные, и вторые аудиоданные используются для запроса погоды. Но, хотя первое семантическое содержание и второе семантическое содержание связаны, первые аудиоданные используются для запроса погоды в Ухане, а вторые аудиоданные используются для запроса погоды в Пекине, что является противоречием и может приводить к выводу о том, что первое семантическое содержание ошибочно. В этом случае может приниматься решение о том, что целевое приложение не должно обрабатывать первые аудиоданные, в качестве целевых аудиоданных могут определять вторые аудиоданные, и ответная информация может выдаваться на вторые аудиоданные.
В качестве еще одного примера, первое семантическое содержание и второе семантическое содержание могут быть независимы, не иметь семантического дополнения и противоречия, тогда первые аудиоданные и вторые аудиоданные могут использоваться как два отдельных элемента целевых аудиоданных, на которые должны быть даны отдельные звуковые ответы. Сценарий использования может быть таким: возбужденные пользователи или пользователи с быстрой речью могут за короткое время передавать два совершенно разных голосовых сигнала.
Например, первым семантическим содержанием может быть «Погода в Ухане сегодня», а вторым семантическим содержанием «Пожалуйста, помоги мне установить будильник». Семантический анализ первого семантического содержания и второго семантического содержания может приводить к выводу о том, что первое семантическое содержание и второе семантическое содержание не связаны между собой, и первые аудиоданные и вторые аудиоданные могут, соответственно, представлять две разных потребности пользователя. Таким образом, может быть установлено, что первое семантическое содержание и второе семантическое содержание независимы, не имеют семантического дополнения и противоречия, и тогда первые аудиоданные и вторые аудиоданные могут использоваться как два отдельных элемента целевых аудиоданных, на которые должны быть даны отдельные звуковые ответы, а соответствующая ответная информация может выдаваться и на первые аудиоданные, и на вторые аудиоданные.
Согласно техническому решению из вариантов осуществления настоящего изобретения, отпадает необходимость повторно активировать целевое приложение. Благодаря упрощению процесса обработки высказывания согласно настоящему изобретению голосовое взаимодействие может быть сделано более ровным по сравнению с ситуацией, в которой следующие аудиоданные невозможно обработать до выдачи ответа на уже принятые аудиоданные. Повышается точность звукового ответа, поскольку для получения целевых аудиоданных становится возможным комбинирование первых аудиоданных и вторых аудиоданных, а звуковой ответ на эти целевые аудиоданные может более точно отражать реальные потребности пользователя благодаря возможности снижения частоты ошибок ответа, вызванных изоляцией высказываний, при которой ответ дается отдельно на первые аудиоданные и на вторые аудиоданные.
В других возможных вариантах осуществления указанный способ может дополнительно содержать следующие этапы.
Определяют разность времени между окончанием приема первых аудиоданных и началом приема вторых аудиоданных.
Соответственно, этап 103 может содержать:
получение целевых аудиоданных на основании первых аудиоданных и вторых аудиоданных, если разность времени между окончанием приема первых аудиоданных и началом приема вторых аудиоданных больше или равна первой заданной длительности.
В процессе приема аудиоданных возможна небольшая пауза в речи пользователя. В этом случае целевое приложение может определить аудиоданные, принятые до и после паузы, соответственно в качестве первых аудиоданных и вторых аудиоданных.
Прием таких первых аудиоданных и вторых аудиоданных происходит в разные моменты времени, при этом вторые аудиоданные принимаются после окончания первых аудиоданных, поэтому электронное устройство может индивидуально определить время окончания приема первых аудиоданных и время начала приема вторых аудиоданных, а затем на основании указанного времени окончания и указанного времени начала может определить разность времени.
Затем эта разность времени может сравниваться с первой заданной длительностью, и если разность времени больше или равна первой заданной длительности, может считаться, что пауза в речи пользователя не была небольшой. В этом случае для получения целевых аудиоданных необходимо дополнительно проверить и обработать первые аудиоданные и вторые аудиоданные. Например, может оказаться, что первые аудиоданные и вторые аудиоданные можно по отдельности использовать как целевые аудиоданные, или что для получения целевых аудиоданных можно скомбинировать первые аудиоданные и вторые аудиоданные, и т.д.
Может считаться, что пользователь сделал небольшую паузу в речи, если разность времени между окончанием приема первых аудиоданных и началом приема вторых аудиоданных меньше первой заданной длительности. В этом случае первые аудиоданные и вторые аудиоданные можно непосредственно комбинировать в полные аудиоданные, которые можно использовать в качестве целевых аудиоданных.
В вариантах осуществления настоящего изобретения перед получением целевых аудиоданных может определяться разность времени между окончанием приема первых аудиоданных и началом приема вторых аудиоданных, а затем может выполняться проверка возможности дальнейшей обработки первых аудиоданных и вторых аудиоданных, что позволяет сократить ненужную обработку принятых аудиоданных.
В других возможных вариантах осуществления этап получения целевых аудиоданных на основании первых аудиоданных и вторых аудиоданных, когда разность времени больше или равна первой заданной длительности, может содержать следующие этапы.
Проверяют полноту ввода первых аудиоданных, если разность времени больше или равна первой заданной длительности.
Получают целевые аудиоданные на основании первых аудиоданных и вторых аудиоданных, если первые аудиоданные введены не полностью.
Если разность времени между окончанием приема первых аудиоданных и началом приема вторых аудиоданных больше или равна первой заданной длительности, то может дополнительно проверяться полнота ввода первых аудиоданных. Проверка полноты ввода первых аудиоданных может содержать: прием первого семантического содержания первых аудиоданных; выполнение семантического анализа по первому семантическому содержанию для получения результата семантического анализа; и определение полноты ввода первых аудиоданных на основании указанного результата семантического анализа.
Например, первым семантическим содержанием первых аудиоданных может быть «Пожалуйста, помоги мне установить». Несмотря на наличие нескольких слов в первом семантическом содержании, после анализа первого семантического содержания ясно, что одних лишь слов, содержащихся в первом семантическом содержании, недостаточно для определения потребности пользователя. Можно видеть, что в процессе передачи голосового сигнала пользователь, передавший первое семантическое содержание, мог сделать паузу или был прерван, и может быть установлено, что ввод первых голосовых данных неполон.
В других вариантах осуществления, если первые голосовые данные неполны и обнаружено, что пользователь больше не вводит другие аудиосигналы, целевое приложение также может формировать ответную информацию на первые аудиоданные согласно контексту. Например, первым семантическим содержанием первых аудиоданных может быть «Пожалуйста, помоги мне установить», а ответной информацией от целевого приложения может быть «Что требуется установить?».
При этом проверка полноты ввода первых аудиоданных может выполняться на основе технологии обработки естественного языка (англ. Natural Language Processing, NLP).
В других возможных вариантах осуществления указанная этап получения целевых аудиоданных на основании первых аудиоданных и вторых аудиоданных, если первые аудиоданные введены не полностью, может содержать следующие этапы.
Если первые аудиоданные введены не полностью, может определяться возможность комбинирования первых аудиоданных и вторых аудиоданных.
Если комбинирование первых аудиоданных и вторых аудиоданных возможно, то первые аудиоданные и вторые аудиоданные могут комбинировать для получения целевых аудиоданных.
Например, когда содержанием первых аудиоданных является «Сегодня», а содержанием вторых аудиоданных является «солнечно», содержанием третьих аудиоданных, т.е., целевых аудиоданных, может быть «Сегодня солнечно».
В других возможных вариантах осуществления указанный способ может дополнительно содержать определение первых аудиоданных и вторых аудиоданных по отдельности в качестве целевых аудиоданных, если первые аудиоданные введены полностью.
В данном случае, если первые аудиоданные введены полностью, может быть установлено, что целевое приложение может дать ответную информацию на первые аудиоданные, и тогда в качестве целевых аудиоданных могут принимать просто первые аудиоданные. Подобным образом, если вторые аудиоданные введены полностью, вторые аудиоданные могут быть определены в качестве целевых аудиоданных. Таким образом, целевое приложение может находить ответную информацию, относящуюся к первым аудиоданным и вторым аудиоданным, по отдельности.
В других возможных вариантах осуществления указанный способ может дополнительно содержать следующие этапы.
На целевых аудиоданных может выполняться обработка подавления акустического эха (ПАЭ). На основании целевых аудиоданных, обработанных посредством ПАЭ, могут получать ответную информацию. Эту ответную информацию могут выдавать.
В процессе обработки звука электронное устройство возможен прием аудиосигнала (музыки или тонального сигнала ожидания сообщения), переданного самим электронным устройством. В этом случае целевые аудиоданные необходимо обработать посредством ПАЭ, а ответную информацию можно получать на основании целевых аудиоданных, обработанных ПАЭ. Так можно снизить помеху от аудиосигнала, созданного самим электронным устройством, и обеспечить точность и стабильность ответной информации, выдаваемой целевым приложением.
В данном варианте осуществления целевые аудиоданные могут подвергаться ПАЭ на основе технологии автоматического распознавания речи (англ. Automatic Speech Recognition, ASR) и технологии ПАЭ.
В других вариантах осуществления, чтобы снизить вероятность приема внешнего шума, постороннего голоса (не адресованного целевому приложению звука, создаваемого пользователями или другими людьми) и т.д. путем подавления звука, не адресованного целевому приложению, целевые аудиоданные также могут обрабатывать на основе технологии автоматического распознавания речи и обработки естественного языка.
В других возможных вариантах осуществления указанный способ может дополнительно содержать следующие этапы.
Могут принимать аудиоданные, подлежащие распознаванию. Могут проверять наличие в аудиоданных, подлежащих распознаванию, информации активации для активации целевого приложения. Могут активировать целевое приложение, если аудиоданные, подлежащие распознаванию, содержат информацию активации. Указанные аудиоданные могут содержать голосовые данные.
Для получения аудиоданных аудиосигнал может регистрироваться звукорегистрирующим компонентом электронного устройства и переводиться в цифровую форму. Указанным звукорегистрирующим компонентом может быть компонент для регистрации звука в электронном устройстве. Например, когда указанным электронным устройством является мобильный телефон, указанным звукорегистрирующим компонентом может быть микрофон этого мобильного телефона.
Аудиоданные, подлежащие распознаванию, могут содержать голосовые данные, полученные путем преобразования зарегистрированного голосового сигнала пользователя в цифровую форму. Указанной информацией активации может быть заранее заданное активирующее слово. Указанным целевым приложением может быть приложение, установленное в электронном устройстве для осуществления голосового взаимодействия с пользователем, например, голосовой помощник.
Конкретнее, когда аудиосигнал, переданный пользователем, может быть принят с использованием звукорегистрирующего компонента электронного устройства, указанный голосовой сигнал могут переводить в цифровую форму для получения голосовых данных и проверять наличие в этих голосовых данных заранее заданного активирующего слова. Активирующее слово может задаваться пользователем в соответствии с потребностями. Например, в качестве активирующего слова может задаваться «ИИ».
Указанной активацией может быть управление целевым приложением для его перевода в рабочее состояние из состояния сна; после активации целевого приложения возможна обработка аудиоданных этим целевым приложением. В других вариантах осуществления пользовательский ввод, инициирующий активацию, может также приниматься посредством значка, кнопки быстрого вызова и т.п. для активации целевого приложения.
В других возможных вариантах осуществления в качестве примера взят голосовой помощник, установленный на мобильный телефон. Пользователь, осуществляя голосовое взаимодействие с голосовым помощником на мобильном телефоне, может активировать голосовой помощник посредством установочной инструкции, а после активации голосового помощника может начинать говорить. Голосовой помощник должен дать ответ согласно содержанию высказывания пользователя.
Указанной установочной инструкцией может быть по меньшей мере что-то одно из следующего: установочная голосовая инструкция, инициирующая инструкция для значка на мобильном телефоне, инициирующая инструкция для кнопки быстрого вызова на мобильном телефоне. Далее в качестве примера пользователь запрашивает у голосового помощника погоду на сегодня и завтра, и основной диалог может быть таким:
Пользователь: «ИИ» (здесь голосовой помощник активируют голосовой инструкцией, но также возможна активация щелчком по значку, клавишей и т.д.).
ИИ: «Я слушаю»/тональный сигнал ожидания (который является сигналом ожидания ответа).
Пользователь: «Какая погода сегодня?»
ИИ: «Погода в Пекине сегодня...» (сообщает погоду на сегодня).
Пользователь: «ИИ» (здесь голосовой помощник активируют голосовой инструкцией, но также возможна активация щелчком по значку, клавишей и т.д.).
ИИ: «Я слушаю»/тональный сигнал ожидания (который является сигналом ожидания ответа).
Пользователь: «А завтра?»
ИИ: «Погода в Пекине завтра...» (сообщает погоду на завтра).
В других вариантах осуществления пользователь может активировать голосовой помощник посредством установочной инструкции, а после активации голосового помощника может начинать говорить. Если голосовой помощник прогнозирует, что пользователь, закончив предложение, может продолжить говорить, то после окончания ответа голосового помощника для приема следующей инструкции от пользователя может автоматически включаться микрофон. Далее в качестве примера пользователь с помощью голосового помощника устанавливает будильник, и основной диалог может быть таким:
Пользователь: «ИИ» (здесь голосовой помощник активируют голосовой инструкцией, но также возможна активация щелчком по значку, клавишей и т.д.).
ИИ: «Я слушаю»/тональный сигнал ожидания (который является сигналом ожидания ответа).
Пользователь: «Я хочу установить будильник».
ИИ: «На какое время?»
Пользователь: «На семь вечера».
ИИ: «Будильник установлен для вас на семь часов вечера».
Фиг. 2 представляет блок-схему 2 способа обработки звука в соответствии с вариантом осуществления. Как показано на фиг. 2, способ может содержать следующие этапы.
На этапе 201 принимают аудиоданные, подлежащие распознаванию, и проверяют наличие в этих аудиоданных, подлежащих распознаванию, информации активации для активации целевого приложения.
Для получения аудиоданных аудиосигнал может регистрироваться звукорегистрирующим компонентом электронного устройства и переводиться в цифровую форму. Указанным звукорегистрирующим компонентом может быть компонент для регистрации аудиосигнала, содержащийся в электронном устройстве. Например, когда указанным электронным устройством является мобильный телефон, указанным звукорегистрирующим компонентом может быть микрофон этого мобильного телефона.
Аудиоданные, подлежащие распознаванию, могут содержать голосовые данные, полученные путем преобразования зарегистрированного голосового сигнала пользователя в цифровую форму. Указанной информацией активации может быть заранее заданное активирующее слово. Указанным целевым приложением может быть приложение, установленное на электронном устройстве для осуществления голосового взаимодействия с пользователем, например, голосовой помощник.
Например, когда аудиосигнал, переданный пользователем, принят с использованием звукорегистрирующего компонента электронного устройства, указанный голосовой сигнал могут переводить в цифровую форму для получения голосовых данных и проверять наличие в этих голосовых данных заранее заданного активирующего слова. Активирующее слово может задаваться пользователем в соответствии с потребностями. Например, в качестве активирующего слова может задаваться «ИИ».
На этапе 202, если аудиоданные, подлежащие распознаванию, содержат информацию активации, активируют целевое приложение.
Указанной активацией может быть управление целевым приложением для его перевода в рабочее состояние из состояния сна; после активации целевого приложения возможна обработка аудиоданных этим целевым приложением. В других вариантах осуществления пользовательский ввод, инициирующий активацию, может также приниматься посредством значка, кнопки быстрого вызова и т.п. для активации целевого приложения.
На этапе 203 после активации целевого приложения принимают первые аудиоданные, связанные с первым аудиосигналом.
Указанными первыми аудиоданными могут быть аудиоданные после преобразования первого аудиосигнала в цифровую форму. Указанным первым аудиосигналом может быть голосовой сигнал, переданный пользователем, зарегистрированный с использованием звукорегистрирующего компонента.
На этапе 204 в ответ на обнаружение вторых аудиоданных, связанных со вторым аудиосигналом, в процессе приема первых аудиоданных, эти вторые аудиоданные принимают.
На этапе 205 определяют разность времени между окончанием приема первых аудиоданных и началом приема вторых аудиоданных, связанных со вторым аудиосигналом.
На этапе 206 проверяют, является ли разность времени между окончанием приема первых аудиоданных и началом приема вторых аудиоданных большей или равной первой заданной длительности.
В других вариантах осуществления, когда разность времени между окончанием приема первых аудиоданных и началом приема вторых аудиоданных меньше первой заданной длительности, первые аудиоданные и вторые аудиоданные непосредственно комбинируют в целевые аудиоданные.
При наличии разности времени между окончанием приема первых аудиоданных и началом приема вторых аудиоданных целевое приложение не может определить, являются ли первые аудиоданные и вторые аудиоданные двумя множествами полностью независимых данных или двумя множествами связанных данных, и поэтому может не дать точный ответ.
В вариантах осуществления настоящего изобретения перед получением целевых аудиоданных может определяться разность времени между окончанием приема первых аудиоданных и началом приема вторых аудиоданных, а затем может выполняться проверка возможности дальнейшей обработки первых аудиоданных и вторых аудиоданных, что позволяет не только сократить ненужную обработку принятых аудиоданных, но и выдавать более точную ответную информацию.
На этапе 207 проверяют полноту ввода первых аудиоданных, если разность времени больше или равна первой заданной длительности.
При этом проверка полноты ввода первых аудиоданных может выполняться на основе технологии обработки естественного языка. Если установлено, что первые аудиоданные введены полностью, то могут получать информацию, связанную с первыми аудиоданными, и выдавать эту ответную информацию.
На этапе 208, если первые аудиоданные введены не полностью, проверяют возможность комбинирования первых аудиоданных и вторых аудиоданных.
На этапе 209, если комбинирование первых аудиоданных и вторых аудиоданных возможно, для получения целевых аудиоданных первые аудиоданные и вторые аудиоданные комбинируют.
На этапе 210, если первые аудиоданные введены полностью, определяют первые аудиоданные и вторые аудиоданные по отдельности в качестве целевых аудиоданных.
На этапе 211 на основании целевых аудиоданных получают ответную информацию.
На этапе 212 эту ответную информацию выдают.
В других возможных вариантах осуществления взаимодействие между целевым приложением и пользователем может завершаться на основании принятой инструкции завершения взаимодействия. Указанная инструкция завершения взаимодействия может вводиться голосом, щелчком по значку, кнопкой быстрого вызова и т.п.
В вариантах осуществления настоящего изобретения после того, как целевое приложение активировано, пользователь может просто говорить, обращаясь к целевому приложению, в любое время, а целевое приложение может своевременно отвечать на аудиосигналы, вводимые пользователем в течение длящегося высказывания. Например, пользователь, слушающий музыку и недовольный содержанием музыкального произведения, предложенного целевым приложением, может просто сказать «Смени»; а при длящейся передаче голосового сигнала в целевое приложение пользователем у целевого приложения есть возможность непрерывно принимать голосовой сигнал и выдавать соответствующий ответ без новой активации целевого приложения и без ожидания завершения полного вывода целевым приложением ответной информации на ранее принятый голосовой сигнал.
Фиг. 3 представляет блок-схему устройства для обработки звука в соответствии с вариантом осуществления. Как показано на фиг. 3, устройство 300 для обработки звука может содержать первый аудиоприемный модуль 301, второй аудиоприемный модуль 302 и первый аудиоопределяющий модуль 303.
Первый аудиоприемный модуль 301 выполнен с возможностью приема первых аудиоданных, связанных с первым аудиосигналом, после того, как активировано целевое приложение.
Второй аудиоприемный модуль 302 выполнен с возможностью приема вторых аудиоданных в ответ на обнаружение вторых аудиоданных, связанных со вторым аудиосигналом, в процессе приема первых аудиоданных.
Первый аудиоопределяющий модуль 303 выполнен с возможностью получения целевых аудиоданных на основании первых аудиоданных и вторых аудиоданных.
В других возможных вариантах осуществления устройство 300 может дополнительно содержать времяопределяющий модуль.
Указанный времяопределяющий модуль выполнен с возможностью определения разности времени между окончанием приема первых аудиоданных и началом приема вторых аудиоданных.
Первый аудиоопределяющий модуль может содержать аудиоопределяющий субмодуль.
Указанный аудиоопределяющий субмодуль выполнен с возможностью получения целевых аудиоданных на основании первых аудиоданных и вторых аудиоданных, если указанная разность времени больше или равна первой заданной длительности.
В других возможных вариантах осуществления аудиоопределяющий субмодуль выполнен с возможностью:
проверки полноты ввода первых аудиоданных, если указанная разность времени больше или равна первой заданной длительности; и
получения целевых аудиоданных на основании первых аудиоданных и вторых аудиоданных, если первые аудиоданные введены не полностью.
В других возможных вариантах осуществления аудиоопределяющий субмодуль дополнительно выполнен с возможностью:
проверки, если первые аудиоданные введены не полностью, возможности комбинирования первых аудиоданных и вторых аудиоданных; и
комбинирования первых аудиоданных и вторых аудиоданных для получения целевых аудиоданных, если комбинирование первых аудиоданных и вторых аудиоданных возможно.
В других возможных вариантах осуществления устройство 300 может дополнительно содержать второй аудиоопределяющий модуль.
Указанный второй аудиоопределяющий модуль выполнен с возможностью определения первых аудиоданных и вторых аудиоданных по отдельности в качестве целевых аудиоданных, если первые аудиоданные введены полностью.
В других возможных вариантах осуществления устройство 300 может дополнительно содержать модуль ПАЭ, ответный модуль и выходной модуль.
Модуль ПАЭ выполнен с возможностью выполнения обработки подавления акустического эха на целевых аудиоданных.
Ответный модуль выполнен с возможностью получения ответной информации на основании целевых аудиоданных, обработанных посредством ПАЭ.
Выходной модуль выполнен с возможностью выдачи ответной информации.
В других возможных вариантах осуществления устройство 300 может дополнительно содержать третий аудиоприемный модуль, модуль проверки наличия информации и активирующий модуль.
Третий аудиоприемный модуль выполнен с возможностью приема аудиоданных, подлежащих распознаванию.
Модуль проверки наличия информации выполнен с возможностью проверки наличия в аудиоданных, подлежащих распознаванию, информации активации для активации целевого приложения.
Активирующий модуль выполнен с возможностью активации целевого приложения при наличии информации активации в аудиоданных, подлежащих распознаванию.
Указанные аудиоданные, подлежащие распознаванию, могут содержать голосовые данные.
Что касается устройства в вышеприведенных вариантах осуществления, то конкретный подход, посредством которого соответствующие модули выполняют указанные операции, подробно описан в варианте осуществления, относящемся ко способу, и здесь подробно не поясняется.
Фиг. 4 представляет функциональную схему устройства 400 для обработки звука в соответствии с вариантом осуществления. Устройством 400 может быть мобильный телефон, компьютер, цифровой радиотерминал, устройство обмена сообщениями, игровая консоль, планшетное устройство, медицинское устройство, оборудование для упражнений, персональный цифровой помощник и т.п.
Как показано на фиг. 4, устройство 400 может содержать один или более следующих компонентов: обрабатывающий компонент 402, память 404, питающий компонент 406, мультимедийный компонент 408, аудиокомпонент 410, интерфейс 412 ввода/вывода, сенсорный компонент 414 и компонент 416 связи.
Обрабатывающий компонент 402 выполнен с возможностью, в основном, управления работой устройства 400 в целом, например, операциями, связанными с отображением, телефонными вызовами, передачей данных, работой камеры и записью. Обрабатывающий компонент 402 может содержать один или более процессоров 420 для выполнения инструкций с целью реализации всех или части шагов вышеописанных способов. Кроме того, обрабатывающий компонент 402 может содержать один или более модулей, выполненных с возможностью обеспечения взаимодействия между обрабатывающим компонентом 402 и другими компонентами. Например, обрабатывающий компонент 402 может содержать мультимедийный модуль, выполненный с возможностью обеспечения взаимодействия между мультимедийным компонентом 408 и обрабатывающим компонентом 402.
Память 404 выполнена с возможностью хранения данных различных типов с целью обеспечения функционирования устройства 400. В число примеров таких данных входят инструкции для любых приложений или способов, выполняемых на устройстве 400, контактные данные, данные телефонной книги, сообщения, изображения, видеоданные и т.д. Память 404 может быть реализована с использованием любого типа долговременного или недолговременного запоминающего устройства или их сочетания, например, статического запоминающего устройства с произвольным доступом (Static Random Access Memory, SRAM), электрически стираемого программируемого постоянного запоминающего устройства (Electrically Erasable Programmable Read-Only Memory, EEPROM), стираемого программируемого постоянного запоминающего устройства (Erasable Programmable Read-Only Memory, EPROM), программируемого постоянного запоминающего устройства (Programmable Read-Only Memory, PROM), постоянного запоминающего устройства (Read-Only Memory, ROM), магнитной памяти, флэш-памяти, магнитного диска или оптического диска.
Питающий компонент 406 выполнен с возможностью обеспечения питанием различных компонентов устройства 400. Питающий компонент 406 может содержать систему управления питанием, один или несколько источников питания и другие компоненты, имеющие отношение к генерированию питания, управлению питанием и распределению питания в устройстве 400.
Мультимедийный компонент 408 может содержать экран, реализующий интерфейс вывода между устройством 400 и пользователем. В некоторых вариантах осуществления изобретения этот экран может содержать жидкокристаллический дисплей (ЖКД) и сенсорную панель (СП). Экран, содержащий сенсорную панель, может быть реализован как сенсорный экран, выполненный с возможностью приема сигналов ввода от пользователя. Сенсорная панель содержит один или более сенсорных датчиков, выполненных с возможностью восприятия прикосновений, проводок и жестов на сенсорной панели. Сенсорные датчики выполнены с возможностью восприятия не только границы области прикосновения или проводки, но и периода времени и давления, имеющих отношение к данному прикосновению или проводке. В некоторых вариантах осуществления изобретения мультимедийный компонент 408 может содержать переднюю камеру и/или заднюю камеру. Когда устройство 400 находится в рабочем режиме, например, в режиме фотосъемки или в режиме видеосъемки, передняя камера и/или задняя камера могут получать извне мультимедийные данные. И передняя камера, и задняя камера может быть системой с ненастраиваемым объективом или может иметь техническую возможность фокусировки и оптической трансфокации.
Аудиокомпонент 410 выполнен с возможностью вывода и/или приема аудиосигнала. Например, аудиокомпонент 410 содержит микрофон (MIC), выполненный с возможностью приема внешнего аудиосигнала, когда устройство 400 находится в рабочем режиме, например, в режиме вызова, в режиме записи и в режиме распознавания голоса. Принятый аудиосигнал может быть затем сохранен в памяти 404 или передан посредством компонента 416 связи. В некоторых вариантах осуществления изобретения аудиокомпонент 410 дополнительно содержит акустический излучатель для вывода аудиосигналов.
Интерфейс 412 ввода/вывода выполнен с возможностью обеспечения взаимосвязи между обрабатывающим компонентом 402 и периферийными интерфейсными модулями, например, клавиатурой, чувствительным к нажатию колесиком, кнопками и т.п. В число указанных кнопок могут входить кнопка возврата в исходное состояние, кнопка регулировки громкости, кнопка запуска и кнопка блокировки, но приведенный перечень не накладывает никаких ограничений.
Сенсорный компонент 414 может содержать один или более датчиков для предоставления информации о состояниях различных аспектов устройства 400. Например, сенсорный компонент 414 может быть выполнен с возможностью определения открытого/закрытого состояния устройства 400 и относительного расположения компонентов, например, дисплея и клавиатуры устройства 400, изменения положения устройства 400 или компонента устройства 400, наличия или отсутствия контакта между пользователем и устройством 400, ориентации или ускорения/замедления устройства 400 и изменения температуры устройства 400. Сенсорный компонент 414 может содержать датчик приближения, выполненный с возможностью обнаружения присутствия близко расположенных объектов при отсутствии физического контакта. Сенсорный компонент 414 также может содержать оптический датчик, например, датчик изображения типа КМОП (комплементарные структуры металл-оксид-полупроводник) или ПЗС (прибор с зарядовой связью) для использования в прикладных программах с получением изображений. В некоторых вариантах осуществления изобретения сенсорный компонент 414 также может содержать акселерометрический датчик, гироскопический датчик, магнитный датчик, датчик давления или температурный датчик.
Компонент 416 связи выполнен с возможностью осуществления проводной или беспроводной связи между устройством 400 и другими устройствами. Устройство 400 может быть выполнено с возможностью осуществления доступа к беспроводной сети с использованием некоторого стандарта связи, например, Wi-Fi, 2G, 3G или их сочетания. В одном варианте осуществления компонент 416 связи принимает широковещательный сигнал или информацию, связанную с широковещательной передачей, из внешней системы управления, использующей широковещательную передачу, через широковещательный канал. В одном варианте осуществления компонент 416 связи дополнительно содержит модуль беспроводной связи ближнего радиуса действия (Near Field Communication, NFC) для осуществления связи на небольших расстояниях. Этот модуль ближней связи может быть реализован, например, на основе технологии радиочастотной идентификации (Radio-frequency Identification, RFID), технологии инфракрасной передачи данных (Infrared Data Association, IrDA), сверхширокополосной технологии (Ultra Wide Band, UWB), технологии Bluetooth (BT) и других технологий.
В вариантах осуществления устройство 400 может быть реализовано с использованием одной или более специализированных интегральных схем, цифровых сигнальных процессоров, цифровых устройств обработки сигнала, программируемых логических устройств, программируемых матриц логических элементов, контроллеров, микроконтроллеров, микропроцессоров или других электронных компонентов, и выполнено с возможностью реализации вышеизложенного способа.
В вариантах осуществления также предусматривается долговременный машиночитаемый носитель информации, содержащий инструкции, которые, например, содержатся в памяти 404 и могут быть исполнены процессором 420 в устройстве 400 с целью реализации вышеописанных способов. Этим долговременным машиночитаемым носителем информации может быть, например, постоянное запоминающее устройство (ПЗУ), компакт-диск, магнитная лента, гибкий магнитный диск, оптическое запоминающее устройство и т.п.
Предусматривается долговременный машиночитаемый носитель информации. Устройство для обработки звука может быть выполнено с возможностью реализации, посредством исполнения инструкции с указанного носителя информации процессором указанного устройства, указанного способа обработки звука, содержащего следующие этапы.
Могут, после того, как активировано целевое приложение, принимать первые аудиоданные, связанные с первым аудиосигналом.
Могут принимать вторые аудиоданные в ответ на обнаружение вторых аудиоданных, связанных со вторым аудиосигналом, в процессе приема первых аудиоданных.
Могут получать целевые аудиоданные на основании первых аудиоданных и вторых аудиоданных.
Из рассмотрения настоящего описания и практического использования раскрытого здесь изобретения специалисту в данной области техники должны стать очевидными и другие варианты осуществления настоящего изобретения. Настоящая патентная заявка подразумевает охват всех разновидностей, видов использования или адаптаций настоящего изобретения, следующих из его общих принципов, и содержит подобные отклонения от настоящего изобретения, полагая их относящимися к известной или общепринятой практике в данной области техники. Настоящее раскрытие и примеры должны рассматриваться лишь в качестве иллюстрации, а подлинный объем и сущность настоящего изобретения указываются нижеследующей формулой изобретения.
Должно быть понятно, что настоящее изобретение не ограничено конкретной конструкцией, описанной выше и показанной на сопровождающих чертежах, и что без выхода за пределы объема настоящего изобретения могут быть сделаны различные модификации и изменения. Объем настоящего изобретения следует считать ограничиваемым лишь прилагаемой формулой изобретения.

Claims (49)

1. Способ обработки звука, применимый к электронному устройству, содержащий этапы, на которых:
принимают первые аудиоданные, связанные с первым аудиосигналом, после активации целевого приложения;
в ответ на обнаружение вторых аудиоданных, связанных со вторым аудиосигналом, в процессе приема первых аудиоданных принимают вторые аудиоданные; и
получают целевые аудиоданные на основании первых аудиоданных и вторых аудиоданных;
при этом в способе дополнительно:
определяют разность времени между окончанием приема первых аудиоданных и началом приема вторых аудиоданных,
при этом получение целевых аудиоданных на основании первых аудиоданных и вторых аудиоданных содержит:
проверку полноты ввода первых аудиоданных, если указанная разность времени больше или равна первой заданной длительности; и
получение целевых аудиоданных на основании первых аудиоданных и вторых аудиоданных, если первые аудиоданные введены не полностью.
2. Способ по п. 1, отличающийся тем, что получение целевых аудиоданных на основании первых аудиоданных и вторых аудиоданных, если первые аудиоданные введены не полностью, содержит:
проверку возможности комбинирования первых аудиоданных и вторых аудиоданных, если первые аудиоданные введены не полностью; и
комбинирование первых аудиоданных и вторых аудиоданных для получения целевых аудиоданных при наличии возможности комбинирования первых аудиоданных и вторых аудиоданных.
3. Способ по п. 1, в котором дополнительно, если первые аудиоданные введены полностью, определяют первые аудиоданные и вторые аудиоданные по отдельности в качестве целевых аудиоданных.
4. Способ по любому из пп. 1-3, в котором дополнительно:
выполняют подавление акустического эха (ПАЭ) на целевых аудиоданных;
получают ответную информацию на основании целевых аудиоданных, обработанных посредством ПАЭ; и
выдают указанную ответную информацию.
5. Способ по любому из пп. 1-3, в котором дополнительно: принимают аудиоданные, подлежащие распознаванию;
проверяют наличие в аудиоданных, подлежащих распознаванию, информации активации для активации целевого приложения; и
активируют целевое приложение при наличии указанной информации активации в аудиоданных, подлежащих распознаванию,
при этом аудиоданные, подлежащие распознаванию, содержат голосовые данные.
6. Устройство для обработки звука, содержащее:
первый аудиоприемный модуль, выполненный с возможностью приема первых аудиоданных, связанных с первым аудиосигналом, после того, как активировано целевое приложение;
второй аудиоприемный модуль, выполненный с возможностью приема вторых аудиоданных в ответ на обнаружение вторых аудиоданных, связанных со вторым аудиосигналом, в процессе приема первых аудиоданных;
первый аудиоопределяющий модуль, выполненный с возможностью получения целевых аудиоданных на основании первых аудиоданных и вторых аудиоданных; и
времяопределяющий модуль, выполненный с возможностью определения разности времени между окончанием приема первых аудиоданных и началом приема вторых аудиоданных,
при этом первый аудиоопределяющий модуль содержит:
аудиоопределяющий субмодуль, выполненный с возможностью:
проверки полноты ввода первых аудиоданных, если указанная разность времени больше или равна первой заданной длительности; и
получения целевых аудиоданных на основании первых аудиоданных и вторых аудиоданных, если первые аудиоданные введены не полностью.
7. Устройство по п. 6, отличающееся тем, что аудиоопределяющий субмодуль дополнительно выполнен с возможностью:
проверки возможности комбинирования первых аудиоданных и вторых аудиоданных, если первые аудиоданные введены не полностью; и
комбинирования первых аудиоданных и вторых аудиоданных для получения целевых аудиоданных при наличии возможности комбинирования первых аудиоданных и вторых аудиоданных.
8. Устройство по п. 6, дополнительно содержащее
второй аудиоопределяющий модуль, выполненный с возможностью определения первых аудиоданных и вторых аудиоданных по отдельности в качестве целевых аудиоданных, если первые аудиоданные введены полностью.
9. Устройство по любому из пп. 6-8, дополнительно содержащее:
модуль подавления акустического эха (ПАЭ), выполненный с возможностью выполнения обработки подавления акустического эха на целевых аудиоданных;
ответный модуль, выполненный с возможностью получения ответной информации на основании целевых аудиоданных, обработанных посредством ПАЭ; и
выходной модуль, выполненный с возможностью выдачи указанной ответной информации.
10. Устройство по любому из пп. 6-8, дополнительно содержащее:
третий аудиоприемный модуль, выполненный с возможностью приема аудиоданных, подлежащих распознаванию;
модуль проверки информации, выполненный с возможностью проверки наличия в аудиоданных, подлежащих распознаванию, информации активации для активации целевого приложения; и
активирующий модуль, выполненный с возможностью активации целевого приложения при наличии информации активации в аудиоданных, подлежащих распознаванию,
при этом аудиоданные, подлежащие распознаванию, содержат голосовые данные.
11. Устройство для обработки звука, содержащее:
процессор и
память, выполненную с возможностью хранения инструкции, которая может быть исполнена указанным процессором,
причем указанный процессор выполнен с возможностью, при исполнении указанной инструкции, реализации этапов способа обработки звука по любому из пп. 1-5.
12. Долговременный машиночитаемый носитель информации, содержащий инструкцию, при исполнении которой процессором устройства для обработки звука предусмотрена возможность выполнения указанным устройством способа обработки звука по любому из пп. 1-5.
RU2019139979A 2019-08-16 2019-10-09 Способ и устройство для обработки звука и носитель информации RU2735363C1 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910760806.3A CN110619873A (zh) 2019-08-16 2019-08-16 音频处理方法、装置及存储介质
CN201910760806.3 2019-08-16
PCT/CN2019/110213 WO2021031308A1 (zh) 2019-08-16 2019-10-09 音频处理方法、装置及存储介质

Publications (1)

Publication Number Publication Date
RU2735363C1 true RU2735363C1 (ru) 2020-10-30

Family

ID=68731780

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2019139979A RU2735363C1 (ru) 2019-08-16 2019-10-09 Способ и устройство для обработки звука и носитель информации

Country Status (7)

Country Link
US (1) US11264027B2 (ru)
EP (2) EP4184506A1 (ru)
JP (1) JP7166294B2 (ru)
KR (1) KR102300257B1 (ru)
CN (1) CN110619873A (ru)
RU (1) RU2735363C1 (ru)
WO (1) WO2021031308A1 (ru)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112837694A (zh) * 2021-01-29 2021-05-25 青岛海尔科技有限公司 设备唤醒方法、装置、存储介质及电子装置
CN113113036A (zh) * 2021-03-12 2021-07-13 北京小米移动软件有限公司 音频信号处理方法及装置、终端及存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11431658B2 (en) * 2020-04-02 2022-08-30 Paymentus Corporation Systems and methods for aggregating user sessions for interactive transactions using virtual assistants
CN111583923B (zh) * 2020-04-28 2023-11-14 北京小米松果电子有限公司 信息控制方法及装置、存储介质
CN111598577B (zh) * 2020-07-24 2020-11-13 深圳市声扬科技有限公司 资源转移方法、装置、计算机设备和存储介质
CN113329372B (zh) * 2021-06-08 2023-04-28 阿波罗智联(北京)科技有限公司 用于车载通话的方法、装置、设备、介质和产品

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006107044A (ja) * 2004-10-04 2006-04-20 Oki Consulting Solutions Co Ltd 会話記録装置および会話記録方法
RU2349969C2 (ru) * 2003-05-29 2009-03-20 Майкрософт Корпорейшн Синхронное понимание семантических объектов, реализованное с помощью тэгов речевого приложения
CN106409295A (zh) * 2015-07-31 2017-02-15 腾讯科技(深圳)有限公司 从自然语音信息中识别时间信息的方法和装置
US20170068423A1 (en) * 2015-09-08 2017-03-09 Apple Inc. Intelligent automated assistant in a media environment
US9659555B1 (en) * 2016-02-09 2017-05-23 Amazon Technologies, Inc. Multichannel acoustic echo cancellation
US9799328B2 (en) * 2012-08-03 2017-10-24 Veveo, Inc. Method for using pauses detected in speech input to assist in interpreting the input during conversational interaction for information retrieval
CN108172219A (zh) * 2017-11-14 2018-06-15 珠海格力电器股份有限公司 识别语音的方法和装置
CN108986814A (zh) * 2018-09-04 2018-12-11 出门问问信息科技有限公司 一种唤醒应用服务的方法及装置
CN109147779A (zh) * 2018-08-14 2019-01-04 苏州思必驰信息科技有限公司 语音数据处理方法和装置
US20190019509A1 (en) * 2017-07-17 2019-01-17 Samsung Electronics Co., Ltd. Voice data processing method and electronic device for supporting the same
CN109599124A (zh) * 2018-11-23 2019-04-09 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置及存储介质

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5855000A (en) * 1995-09-08 1998-12-29 Carnegie Mellon University Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input
US7386454B2 (en) * 2002-07-31 2008-06-10 International Business Machines Corporation Natural error handling in speech recognition
US7930168B2 (en) * 2005-10-04 2011-04-19 Robert Bosch Gmbh Natural language processing of disfluent sentences
JP5158174B2 (ja) * 2010-10-25 2013-03-06 株式会社デンソー 音声認識装置
US9123339B1 (en) * 2010-11-23 2015-09-01 Google Inc. Speech recognition using repeated utterances
US9437186B1 (en) * 2013-06-19 2016-09-06 Amazon Technologies, Inc. Enhanced endpoint detection for speech recognition
JP6235280B2 (ja) * 2013-09-19 2017-11-22 株式会社東芝 音声同時処理装置、方法およびプログラム
US10832005B1 (en) * 2013-11-21 2020-11-10 Soundhound, Inc. Parsing to determine interruptible state in an utterance by detecting pause duration and complete sentences
US8843369B1 (en) * 2013-12-27 2014-09-23 Google Inc. Speech endpointing based on voice profile
EP3100259A4 (en) * 2014-01-31 2017-08-30 Hewlett-Packard Development Company, L.P. Voice input command
US9607613B2 (en) 2014-04-23 2017-03-28 Google Inc. Speech endpointing based on word comparisons
DE102014017385B4 (de) * 2014-11-24 2016-06-23 Audi Ag Kraftfahrzeug-Gerätebedienung mit Bedienkorrektur
US10269341B2 (en) 2015-10-19 2019-04-23 Google Llc Speech endpointing
KR101942521B1 (ko) 2015-10-19 2019-01-28 구글 엘엘씨 음성 엔드포인팅
KR102495517B1 (ko) * 2016-01-26 2023-02-03 삼성전자 주식회사 전자 장치, 전자 장치의 음성 인식 방법
CN107665706B (zh) * 2016-07-29 2021-05-04 科大讯飞股份有限公司 快速语音交互方法及系统
US10013980B2 (en) * 2016-10-04 2018-07-03 Microsoft Technology Licensing, Llc Combined menu-based and natural-language-based communication with chatbots
CN106875945B (zh) * 2017-03-09 2020-06-26 广东美的制冷设备有限公司 语音控制方法、装置和空调器
CN107146602B (zh) * 2017-04-10 2020-10-02 北京猎户星空科技有限公司 一种语音识别方法、装置及电子设备
KR20180118470A (ko) * 2017-04-21 2018-10-31 엘지전자 주식회사 음성 인식 장치 및 음성 인식 방법
CN107146618A (zh) * 2017-06-16 2017-09-08 北京云知声信息技术有限公司 语音处理方法及装置
CN107195303B (zh) * 2017-06-16 2021-08-20 云知声智能科技股份有限公司 语音处理方法及装置
CN109215642A (zh) * 2017-07-04 2019-01-15 阿里巴巴集团控股有限公司 人机会话的处理方法、装置及电子设备
CN110998719A (zh) 2017-08-09 2020-04-10 索尼公司 信息处理设备和信息处理方法
US10586534B1 (en) * 2017-09-27 2020-03-10 Amazon Technologies, Inc. Voice-controlled device control using acoustic echo cancellation statistics
CN107863113A (zh) * 2017-11-08 2018-03-30 天脉聚源(北京)传媒科技有限公司 一种语音上传方法及装置
WO2019107145A1 (ja) 2017-11-28 2019-06-06 ソニー株式会社 情報処理装置、及び情報処理方法
CN108257616A (zh) * 2017-12-05 2018-07-06 苏州车萝卜汽车电子科技有限公司 人机对话的检测方法以及装置
JP2019101385A (ja) 2017-12-08 2019-06-24 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
CN108337362A (zh) 2017-12-26 2018-07-27 百度在线网络技术(北京)有限公司 语音交互方法、装置、设备和存储介质
US20190279623A1 (en) * 2018-03-08 2019-09-12 Kika Tech (Cayman) Holdings Co., Limited Method for speech recognition dictation and correction by spelling input, system and storage medium
JP7096707B2 (ja) 2018-05-29 2022-07-06 シャープ株式会社 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法
CN108737933A (zh) * 2018-05-30 2018-11-02 上海与德科技有限公司 一种基于智能音箱的对话方法、装置及电子设备
CN108932942A (zh) * 2018-06-26 2018-12-04 四川斐讯信息技术有限公司 一种实现智能音箱人机对话的系统及其方法
CN108737934B (zh) * 2018-08-10 2024-04-09 广东庆昇科技有限公司 一种智能音箱及其控制方法
CN109360551B (zh) * 2018-10-25 2021-02-05 珠海格力电器股份有限公司 一种语音识别方法及装置
CN109545206B (zh) * 2018-10-29 2024-01-30 百度在线网络技术(北京)有限公司 智能设备的语音交互处理方法、装置和智能设备
CN109599130B (zh) * 2018-12-10 2020-10-30 百度在线网络技术(北京)有限公司 收音方法、装置及存储介质
CN109410944B (zh) * 2018-12-12 2020-06-09 百度在线网络技术(北京)有限公司 语音交互方法、装置和终端
CN110111789B (zh) * 2019-05-07 2022-02-08 阿波罗智联(北京)科技有限公司 语音交互方法、装置、计算设备和计算机可读介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2349969C2 (ru) * 2003-05-29 2009-03-20 Майкрософт Корпорейшн Синхронное понимание семантических объектов, реализованное с помощью тэгов речевого приложения
JP2006107044A (ja) * 2004-10-04 2006-04-20 Oki Consulting Solutions Co Ltd 会話記録装置および会話記録方法
US9799328B2 (en) * 2012-08-03 2017-10-24 Veveo, Inc. Method for using pauses detected in speech input to assist in interpreting the input during conversational interaction for information retrieval
CN106409295A (zh) * 2015-07-31 2017-02-15 腾讯科技(深圳)有限公司 从自然语音信息中识别时间信息的方法和装置
US20170068423A1 (en) * 2015-09-08 2017-03-09 Apple Inc. Intelligent automated assistant in a media environment
US9659555B1 (en) * 2016-02-09 2017-05-23 Amazon Technologies, Inc. Multichannel acoustic echo cancellation
US20190019509A1 (en) * 2017-07-17 2019-01-17 Samsung Electronics Co., Ltd. Voice data processing method and electronic device for supporting the same
CN108172219A (zh) * 2017-11-14 2018-06-15 珠海格力电器股份有限公司 识别语音的方法和装置
CN109147779A (zh) * 2018-08-14 2019-01-04 苏州思必驰信息科技有限公司 语音数据处理方法和装置
CN108986814A (zh) * 2018-09-04 2018-12-11 出门问问信息科技有限公司 一种唤醒应用服务的方法及装置
CN109599124A (zh) * 2018-11-23 2019-04-09 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112837694A (zh) * 2021-01-29 2021-05-25 青岛海尔科技有限公司 设备唤醒方法、装置、存储介质及电子装置
CN113113036A (zh) * 2021-03-12 2021-07-13 北京小米移动软件有限公司 音频信号处理方法及装置、终端及存储介质

Also Published As

Publication number Publication date
US11264027B2 (en) 2022-03-01
CN110619873A (zh) 2019-12-27
KR20210024408A (ko) 2021-03-05
US20210050010A1 (en) 2021-02-18
KR102300257B1 (ko) 2021-09-10
JP7166294B2 (ja) 2022-11-07
EP4184506A1 (en) 2023-05-24
JP2022501623A (ja) 2022-01-06
WO2021031308A1 (zh) 2021-02-25
EP3779968A1 (en) 2021-02-17

Similar Documents

Publication Publication Date Title
RU2735363C1 (ru) Способ и устройство для обработки звука и носитель информации
US11443744B2 (en) Electronic device and voice recognition control method of electronic device
US20190013025A1 (en) Providing an ambient assist mode for computing devices
KR102423670B1 (ko) 디지털 어시스턴트를 위한 음성 트리거
JP2019117623A (ja) 音声対話方法、装置、デバイス及び記憶媒体
KR20150138109A (ko) 수동 시작/종료 포인팅 및 트리거 구문들에 대한 필요성의 저감
US11178280B2 (en) Input during conversational session
CN109360549B (zh) 一种数据处理方法、穿戴设备和用于数据处理的装置
US11200899B2 (en) Voice processing method, apparatus and device
CN111063354B (zh) 人机交互方法及装置
CN110634488B (zh) 信息处理方法、装置和系统以及存储介质
JP7250900B2 (ja) ホットワード認識および受動的支援
CN111696553A (zh) 一种语音处理方法、装置及可读介质
CN112185388A (zh) 语音识别方法、装置、设备及计算机可读存储介质
CN110944056A (zh) 交互方法、移动终端及可读存储介质
CN109325337A (zh) 解锁方法及装置
US20170201479A1 (en) Group message display method, device and medium
CN111580773A (zh) 信息处理方法、装置及存储介质
KR20210042520A (ko) 전자 장치 및 이의 제어 방법
CN111968680A (zh) 一种语音处理方法、装置及存储介质
CN110428828A (zh) 一种语音识别方法、装置和用于语音识别的装置
CN110632600B (zh) 环境识别方法和装置
CN110047494B (zh) 设备响应方法、设备及存储介质
CN116030804A (zh) 一种语音唤醒方法、语音唤醒装置及存储介质
CN117597730A (zh) 一种音箱播放控制方法、音箱播放控制装置及存储介质