RU2439716C2 - Детектирование автоответчика путем распознавания речи - Google Patents

Детектирование автоответчика путем распознавания речи Download PDF

Info

Publication number
RU2439716C2
RU2439716C2 RU2009100152/08A RU2009100152A RU2439716C2 RU 2439716 C2 RU2439716 C2 RU 2439716C2 RU 2009100152/08 A RU2009100152/08 A RU 2009100152/08A RU 2009100152 A RU2009100152 A RU 2009100152A RU 2439716 C2 RU2439716 C2 RU 2439716C2
Authority
RU
Russia
Prior art keywords
call
recipient
answering machine
audio response
output indicating
Prior art date
Application number
RU2009100152/08A
Other languages
English (en)
Other versions
RU2009100152A (ru
Inventor
Алехандро АСЕРО (US)
Алехандро АСЕРО
Крейг М. ФИШЕР (US)
Крейг М. ФИШЕР
Дун ЮЙ (US)
Дун ЮЙ
Е-И Ван (Us)
Е-И Ван
Юй-Чэн ЦЗЮЙ (US)
Юй-Чэн ЦЗЮЙ
Original Assignee
Майкрософт Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Майкрософт Корпорейшн filed Critical Майкрософт Корпорейшн
Publication of RU2009100152A publication Critical patent/RU2009100152A/ru
Application granted granted Critical
Publication of RU2439716C2 publication Critical patent/RU2439716C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/5158Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing in combination with automated outdialling systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/20Aspects of automatic or semi-automatic exchanges related to features of supplementary services
    • H04M2203/2027Live party detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Marketing (AREA)
  • Business, Economics & Management (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

Изобретение относится к способам и устройствам детектирования автоответчика, используемым для определения того, является ли получатель вызова реальной персоной или автоответчиком. Техническим результатом является повышение точности детектирования автоответчика. Указанный результат достигается тем, что способ содержит посредством процессора прием звукового ответа от получателя вызова и обработку звукового ответа посредством распознавателя речи, имеющего языковую модель для преобразования звукового ответа в вывод, указывающий распознанную речь в текстовой форме; и обработку вывода, указывающего распознанную речь, в текстовой форме со статистическим классификатором, настроенным по словесным фразам, обычно используемым реальными персонами и автоматическими системами, наряду с установлением несловесных особенностей, ассоциированных со звуковым ответом для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком. Классификатор является отдельным от языковой модели. Обработка является основанной на статистическом анализе вывода, указывающего распознанную речь в текстовой форме наряду с несловесными особенностями. Статистический анализ проверяет содержимое вывода, указывающего распознанную речь, и, на основании этой проверки, определяет, является ли вывод, указывающий распознанную речь, более статистически согласуемым со словесными фразами, обычно используемыми реальными людьми или автоматическими системами. 3 н. и 15 з.п. ф-лы, 6 ил.

Description

Уровень техники
Данный раздел приведен исключительно для предоставления общего уровня техники и не предназначен для использования в качестве помощи при определении объема формулы изобретения.
В настоящее время широко используются автоматические телефонные системы для исходящих вызовов. Кроме применения в маркетинговых целях, подобные системы также могут использоваться медицинскими учреждениями или клиниками для связи с пациентами, чтобы назначать или изменять время посещения, учебными заведениями для информирования студентов об изменениях расписания, благотворительными организациями для получения взносов, государственными учреждениями для распространения уведомлений или другой информации и т.п.
Во многих случаях может быть необходимо или желательно автоматически определять, является ли получатель телефонного вызова реальной персоной или автоответчиком. В зависимости от того, ответила ли на вызов реальная персона или используется автоответчик, телефонной системой для исходящих вызовов могут быть выполнены различные действия. Тем не менее, данная задача - анализ вызова - является достаточно сложной и в настоящее время решение ее не обеспечивает точности.
Анализ вызова обычно выполняется на уровне аппаратного переключателя. Анализ выполняется в течение короткого интервала, начиная с момента, когда получатель отвечает на вызов, и до того момента, когда вызов соединяется с телефонным приложением. В течение данного интервала, когда получатель начинает говорить, система обрабатывает принятые звуковые сигналы в части, например, энергии, мощности или других параметров звуковых сигналов, чтобы определить, является ли получатель реальной персоной или автоответчиком. Следует отметить, что на данном этапе телефонному приложению даже не известно о том, что на вызов ответили, и, следовательно, оно не предоставляет каких-либо начальных запросов. Соответственно, на другом конце линии, несмотря на то, что получатель ответил на вызов и выслушал приветствие, такое как "Здравствуйте", после этого он больше нечего не слышит, поскольку в это время система выполнят анализ вызова. Во многих случаях получатель просто повесит трубку.
Сущность изобретения
Разделы "Сущность изобретения" и "Реферат" приведены, чтобы представить в упрощенной форме выборку концепций, которые подробно описываются ниже, в разделе "Подробное описание". Разделы "Сущность изобретения" и "Реферат" не предназначены ни для определения ключевых или существенных отличительных признаков сущности формулы изобретения, ни для использования в качестве вспомогательного средства при определении объема сущности формулы изобретения. В добавление, объем формулы изобретения не ограничивается реализациями, которые устраняют какие-либо или все недостатки, перечисленные в разделе "Уровень техники".
Модуль детектирования автоответчика используется для определения того, является ли получатель вызова реальной персоной или автоответчиком. Модуль детектирования автоответчика включает в себя распознаватель речи и модуль анализа вызова. Распознаватель речи принимает звуковой ответ от получателя вызова. Распознаватель речи обрабатывает звуковой ответ и предоставляет вывод, указывающий распознанную речь. Модуль анализа вызова обрабатывает вывод распознавателя речи, чтобы сгенерировать вывод, указывающий, является ли получатель вызова реальной персоной или автоответчиком. В одном варианте осуществления модуль анализа вызова может включать в себя модуль классификатора, который выполняет статистический анализ вывода из распознавателя речи, чтобы определить, является ли получатель вызова реальной персоной или автоответчиком.
Также описан способ для обеспечения того, чтобы сообщение вызывающего было записано автоответчиком целиком. В частности, задействуется распознаватель речи, чтобы детектировать события вмешательства в разговор, выполняемые автоответчиком, причем если детектируется событие вмешательства в разговор, то сообщение воспроизводится повторно. Несмотря на то, что данная процедура может привести к тому, что сообщение воспроизводится один или более раз, это особенно полезно, поскольку наличие какого-либо события вмешательства в разговор указывает на то, что приветствие автоответчика не было завершено, и, соответственно, автоответчик не готов записать сообщение. Когда сообщение повторно воспроизводится после каждого события вмешательства в разговор, если после последнего события вмешательства в разговор данное сообщение воспроизводится, то обеспечивается гарантия того, что сообщение будет записано целиком, когда автоответчик готов записать сообщение.
Краткое описание чертежей
Фиг.1 - структурная схема, иллюстрирующая систему набора номера;
Фиг.2 - структурная схема, иллюстрирующая компоненты системы набора номера с Фиг.1,
Фиг.3 - структурная схема для обработки вызова;
Фиг.4 - схема последовательности операций для обработки вызова;
Фиг.5 - более подробная схема последовательности операций для обработки вызова;
Фиг.6 - пример вычислительного окружения.
Подробное описание
Фиг.1 и 2 представляют собой структурные схемы системы 100 для исходящих вызовов (или системы набора номера). Система 100 реализована, например, в одном из вычислительных окружений, описанных в привязке к Фиг.6, описанной ниже, или в другом подходящем вычислительном окружении. Как показано на Фиг.1, система 100 для исходящих вызовов вызывает любого из или множество получателей 102 вызова (проиллюстрированы получатели 102-1 ~ 102-М). В контексте данного документа "получателем вызова" может быть либо реальная персона, либо автоответчик. После вызова одного из получателей 102-1 ~ 102-М вызова система 100 для исходящих вызовов определяет, является ли получатель вызова реальной персоной или используется автоответчик.
Фиг.2 представляет собой более подробную иллюстрацию компонентов и модулей системы 100 для исходящих вызовов согласно одному примеру осуществления. Как показано, система 100 для исходящих вызовов осуществляет вызовы одного или более получателей 102 вызова. Модуль 106 детектирования автоответчика используется для определения того, является ли получатель 102 вызова реальной персоной или автоответчиком. В типовом приложении модуль 104 приложения инициирует набор телефонного номера получателя вызова, извлеченного из, например, базы 108 данных телефонных номеров. Далее, модуль 106 детектирования автоответчика используется для определения того, является ли получатель 102 вызова реальной персоной или автоответчиком. В зависимости от вывода модуля 106 детектирования, система 100 для исходящих вызовов может выполнять различные действия. Например, если получатель вызова является реальной персоной, то модуль 104 приложения может перевести вызов на оператора 110 или войти в контакт с получателем в режиме автоматического разговора. В других случаях модуль 104 приложения может использоваться, чтобы оставить сообщение на автоответчике получателя 102 вызова. На Фиг.2 получатели 102 вызова, база 108 данных телефонных номеров и оператор 110 показаны в пунктирных линиях, чтобы показать, что они не являются частью системы 100 для исходящих вызовов, или что их наличие в системе 100 необязательно. Сверх того, структурная схема системы 100 для исходящих вызовов приведена в схематическом виде в целях разъяснения и предоставления примера взаимосвязей между модулем 106 детектирования автоответчика и его компонентами, а также другими компонентами системы 100 исходящих вызовов. Следует понимать, что это всего лишь один пример осуществления, и что в других вариантах осуществления один или более компонентов системы 100 для исходящих вызовов и модуль 106 детектирования автоответчика могут быть исключены из состава и/или комбинированы в других конфигурациях.
В проиллюстрированном варианте осуществления модуль 106 детектирования автоответчика включает в себя распознаватель 120 речи и модуль 122 анализа вызова. Фиг.3 и 4 представляют собой структурную схему и схему последовательности операций способа 200, соответственно, иллюстрирующие работу этих модулей. На этапе 202 распознаватель 120 речи принимает звуковой ответ 124 получателя 102 вызова на вызов, размещенный системой 100 для исходящих вызовов. Распознаватель 120 речи обрабатывает звуковой ответ 124 и предоставляет вывод 126, указывающий распознанную речь, а в одном варианте осуществления, также фразы, обычно в форме текстовых данных. В использованном здесь значении термин "фраза" обозначает множество слов в контексте, предоставленном получателем вызова.
На этапе 204 вывод 126 из распознавателя 120 речи предоставляется в качестве ввода в модуль 122 анализа вызова. Модуль 122 анализа вызова обрабатывает вывод 126 распознавателя речи 120, чтобы сгенерировать вывод 128, указывающий, является ли получатель вызова реальной персоной или автоответчиком. Модуль 122 анализа вызова может включать в себя модуль 123 классификатора, который выполняет статистический анализ содержимого фраз(ы) в выводе 126. Принципы действия распознавателя 120 речи и модуля 123 классификатора широко известны, и данные компоненты могут быть реализованы посредством известных методов. Тем не менее, следует отметить, что тренинг языковой модели 130 (например, N-грамма, контекстно-свободная грамматика, гибридная модель и т.п.), используемой распознавателем 120 речи и моделью 132 классификатора, как правило, выполняется только по фразам или приветствиям, используемым людьми и автоответчиками, когда они отвечают на вызов. Например, реальная персона может ответить на вызов приветствием "Алло", "Чем могу быть полезен?", "Это Стив" или просто назвав свое имя. В отличие от этого автоответчик может ответить приветствием "Это мой автоответчик. Я не могу Вам ответить в настоящий момент. Пожалуйста, оставьте сообщение" или просто "Пожалуйста, оставьте сообщение". Тем не менее, при детектировании автоответчика на основании содержимого может потребоваться распознать важные фразы, такие как "не могу Вам ответить в настоящий момент" или "оставьте сообщение".
Аналогично, в случае прохождения процедуры системы телефонного экрана на стороне получателя может потребоваться распознавание фразы типа "нажмите 2". Для распознавания таких фраз с высокой точностью, тренинг языковой модели 130 может быть выполнен посредством важных фраз, и эта модель может быть сглажена с помощью модели заполнителя N-граммы, чтобы выполнить захват слов, не входящих в важные фразы. Пример модели заполнителя N-граммы описан авторами D. Yu, Y. С. Ju, Y.Wang и А.Acero в документе "Модель заполнителя на основе N-граммы для устойчивого авторинга грамматики", опубликованном в материалах Международной Конференции по Акустике, Обработке Речи и Сигналов, Май 2006. Соответствующий тренинг языковой модели 130 и модели 132 классификатора может быть выполнен посредством достаточного количества примеров (либо общих примеров, либо примеров, присущих приложению).
Что касается модуля 122 анализа вызова и этапа 204, то альтернативно или в добавление к выводу 126 распознавателя 120 речи также могут использоваться несловесные особенности 136. Примеры несловесных особенностей 136 включают в себя, но не ограничиваются перечисленным, событие вмешательства в разговор получателя 102 вызова (то есть прерывание приглашения, когда приложение 104 выполняет диалог), длительность звукового ответа, выполненного получателем 102 вызова при ответе на вызов, и то, смог ли распознаватель 120 речи распознать звуковой ответ 124 как действительную фразу. На Фиг.3 несловесные особенности 136 производятся из генератора 128 несловесных особенностей, который может принимать и обрабатывать звуковой ответ 124 или иную входную информацию 138, относящуюся к вызову, от системы 100 для исходящих вызовов. На Фиг.4 прием несловесных особенностей 136 показан на этапе 203.
Следует отметить, что распознаватель 120 речи не должен распознавать весь звуковой ответ 124, а из-за шумного окружения у получателя 102 вызова, шума в записанном приветствии или шума от телефонной системы и природы самого ответа, только одна или более частей звукового ответа 124 могут быть распознаваемыми и, соответственно, использованы для определения того, является ли получатель 102 вызова реальной персоной или автоответчиком.
Фиг.5 представляет собой схему последовательности операций иллюстративного способа 300, выполняемого модулем 122 анализа вызова при исполнении этапа 204 на Фиг.3. Этап 302 представляет начало распознавания речи после выполнения вызова. Первой несловесной особенностью, которая может быть опционально использована для определения того, является ли получатель вызова реальной персоной или автоответчиком, является наличие или отсутствие тишины сразу после приема вызова. В частности, было выявлено, что реальная персона может выждать, например, секунду или две до того как начать говорить. Соответственно, если на этапе 304 определяется наличие тишины после ответа на вызов (например, если измеренное таймером значение с момента этапа 302 превышает выбранное), то может быть сделано заключение, что получатель 102 вызова реальная персона.
С другой стороны, если после ответа вызова на этапе 302 шум отсутствует, или если этап 302 отсутствует, то длительность звукового ответа может использоваться для определения того, является ли получатель вызова реальной персоной. Этапы 306 и 308 иллюстрируют обработку несловесной особенности, включая длительность звукового ответа. Если на этапе 306 определяется, что длительность звукового ответа очень коротка (например, примерно меньше одной секунды), то более чем вероятно, что на вызов ответил реальная персона. А если длительность звукового ответа очень длинная (например, примерно четыре или более секунд), как проиллюстрировано на этапе 308, то получатель вызова наверняка является автоответчиком. Следует отметить, что порядок этапов 306 и 308 необязателен, и что данные этапы могут быть выполнены в обратном порядке. Аналогично, может быть отрегулирована длительность специфицированных временных периодов.
Если определение того, является ли получатель вызова реальной персоной или автоответчиком, не было выполнено до этапа 308, то процесс переходит к этапу 310, где снова может быть использована длительность звукового ответа. В частности, на этапе 310 измеряется длительность звукового ответа, чтобы определить, является ли она относительно короткой, например две или три секунды. Результат данного этапа комбинируется с информацией, относящейся к контексту звукового ответа и распознанной распознавателем 120 речи посредством модуля 123 классификатора. Иначе говоря, модуль 123 классификатора анализирует вывод 126 из распознавателя 120 речи, чтобы определить, соответствуют ли статистически одна или более фраз фразам, используемым реальной персоной, или фразам, используемым автоответчиком. На Фиг.5 информация из модуля 123 классификатора представлена на этапах 312 и 314. В частности, если на этапе 312 информация из модуля 123 классификатора указывает, что очень вероятно (с высоким уровнем доверия), что фразы в звуковом ответе от реальной персоны, то вывод 128 модуля 122 анализа вызова укажет, что получателем 102 вызова является реальная персона. А если на этапе 312 определяется, что нет высокого уровня доверия в том, что получатель вызова является реальной персоной, то вывод модуля 122 анализа вызова укажет, что получатель 102 вызова является автоответчиком. Аналогично, если на этапе 314 информация из модуля 123 классификатора указывает, что очень вероятно, что фразы в звуковом ответе исходят от автоответчика, то вывод модуля 122 анализа вызова укажет, что получатель вызова является автоответчиком, тогда как если нет высокого уровня доверия, что получатель вызова автоответчик, то вывод модуля 122 анализа вызова укажет, что получатель 102 вызова является реальной персоной. Следует отметить, что в данном примере есть склонность к ошибке в части неправильного классифицирования получателя вызова как реальной персоны, а не автоответчика. При желании может быть заложена склонность к классифицированию получателя вызова как автоответчика, или данная склонность может быть исключена согласно стоимости, связанной с различными ошибками.
Следует отметить, что описанный выше статистический классификатор является лишь иллюстративным примером. Модуль 122 анализа вызова может использовать множество других классификаторов, таких как классификаторы по методу максимума энтропии. Сверх того, для обеспечения сопоставимой точности модуль 122 анализа вызова также может использовать вспомогательные векторные машины, компоненты, использующие деревья решений, а также искусственные нейронные сети.
В примере с Фиг.5 несловесные особенности, такие как наличие шума после ответа вызова и длительность звукового ответа, используются до фактической классификации содержимого звукового ответа, чтобы определить, является ли получатель вызова реальной персоной или автоответчиком. Кроме того, для распознавания звукового ответа также могут использоваться другие несловесные особенности, такие как то, был ли прерван разговор получателя, или смог ли распознаватель 120 речи распознать звуковой ответ. В добавление, тренинг классификатора может быть выполнен на основании несловесной(ых) особенности(ей), и классификатор 123 предоставляет вывод на основании распознанных фраз звукового ответа, чтобы предоставить индикацию о том, является ли получатель вызова реальной персоной и автоответчиком. Аналогично, тренинг одного классификатора может быть выполнен на основании несловесной(ых) особенности(ей) и распознанных фраз звукового ответа, чтобы предоставить индикацию о том, является ли получатель вызова реальной персоной или автоответчиком.
В некоторых приложениях может потребоваться воспроизвести сообщение получателю вызова, например, если было определено, что получатель вызова является автоответчиком. Несмотря на то, что автоответчики предоставляют тон или тишину, указывающую, что приветствие закончилось и что сейчас следует оставить сообщение, распознавание данного тона сложно выполнить. Поскольку во многих случаях данный тон или тишина не могут быть точно распознаны, по меньшей мере, часть сообщения может быть воспроизведена в течение приветствия, и, соответственно, начальная часть сообщения не может быть записана.
Опциональный этап, проиллюстрированный на Фиг.4, предоставляет средство и способ для обеспечения того, чтобы сообщение было записано автоответчиком целиком, или, при желании, было прослушано реальной персоной. В частности, сообщение воспроизводится при включенном распознавателе 120 речи и активированной функции "детектирования вмешательства в разговор" (чтобы детектировать завершение приветствия) до завершения сообщения. Например, предположим, что автоответчик проигрывает следующее приветствие "Вы позвонили … Ерику Мо … Пожалуйста, оставьте сообщение", где “…” представляет тишину в течение приветствия. Во многих существующих системах сообщение может быть воспроизведено при детектировании одного из этих периодов тишины, из-за чего сообщение будет проиграно, но не будет записано автоответчиком, поскольку проигрывание приветствия не было завершено. Используя описанный здесь способ, распознаватель 120 речи с активированной функцией детектирования вмешательства в разговор детектирует каждую часть приветствия и каждый раз приводит к проигрыванию сообщения сначала. После того, как приветствие определенно достигло конца, сообщение воспроизводится снова, но в этот раз оно воспроизводится до конца, чтобы гарантировать то, что сообщение было прослушано или записано целиком.
Фиг.6 иллюстрирует пример подходящего вычислительного окружения 400 системы, в которой могут быть реализованы описанные в настоящем документе концепции. В частности, определенный вид окружения 400 вычислительной системы может использоваться для системы 100 для исходящих вызовов или ее частей. Тем не менее, вычислительное окружение 400 системы является лишь одним примером подходящего вычислительного окружения для каждого из этих компьютеров, и оно не предназначено для определения границ объема использования или функциональных возможностей настоящего изобретения. Кроме того, вычислительное окружение 400 не должно быть интерпретировано как имеющее зависимость или требования, относящиеся к какому-либо компоненту или комбинациям компонентов, проиллюстрированных в примере рабочего окружения 400.
В добавление к предоставленным примерам с описанными здесь концепциями могут использоваться другие известные вычислительные системы, окружения и/или конфигурации. Подобные системы включают в себя, но не ограничиваются перечисленным, персональные компьютеры, серверные компьютеры, карманные или портативные устройства, многопроцессорные системы, системы на микропроцессорах, телевизионные приставки, программируемую потребительскую электронику, сетевые персональные компьютеры, миникомпьютеры, мэйнфреймы, распределенные вычислительные окружения, которые включают в себя любые из упомянутых систем или устройств, и т.п.
Описанные в настоящем документе концепции могут быть реализованы в общем контексте выполняемых компьютером инструкций, таких как программные модули, которые выполняются компьютером. В общем, программные модули включают в себя рутинные процедуры, программы, объекты, компоненты, структуры данных и т.п., которые выполняют конкретные задачи или осуществляют конкретные абстрактные типы данных. Специалисты в данной области техники могут реализовать приведенное в настоящем документе описание и/или фигуры как выполняемые компьютером инструкции, которые могут быть реализованы в любой форме машиночитаемых носителей, описанных ниже.
Описанные в настоящем документе концепции также могут быть применены в распределенных вычислительных окружениях, где задачи выполняются посредством удаленных устройств обработки, которые объединены через сеть связи. В распределенном вычислительном окружении программные модули могут быть расположены как в среде хранения локального компьютера, так и в среде хранения удаленного компьютера, включая устройства памяти.
Ссылаясь на Фиг.6, пример системы включает в себя вычислительное устройство общего назначения в форме компьютера 410. Компоненты компьютера 410 могут включать в себя, но не ограничены перечисленным, блок 420 обработки, системную память 430 и системную шину 421, которая соединяет различные компоненты системы, в том числе соединяет системную память с блоком 420 обработки. Системная шина 421 может быть любого типа из ряда типов структур шин, включающих в себя шину памяти или контроллер памяти, периферийную шину и локальную шину, используя любую архитектуру из разнообразия архитектур шин. В качестве примера, но не ограничиваясь перечисленным, подобные архитектуры включают в себя шину стандарта Industry Standard Architecture (ISA), шину стандарта Micro Channel Architecture (MCA), шину стандарта Enhanced ISA (EISA), локальную шину стандарта Video Electronics Standards Association (VESA) и шину стандарта Peripheral Component Interconnect (PCI), также известную как шина расширения.
Компьютер 410, как правило, включает в себя ряд машиночитаемых средств. Машиночитаемые средства могут быть любым доступным средством, к которому компьютер 410 может выполнить доступ, и они включают в себя как энергозависимые, так и энергонезависимые средства, съемные и несъемные средства. В качестве примера, но не ограничиваясь перечисленным, машиночитаемые средства могут содержать компьютерные средства хранения. Компьютерное средство хранения включает в себя энергозависимую, энергонезависимую, съемное и несъемное средство, реализованное посредством какого-либо способа или технологии для хранения информации, такой как машиночитаемые команды, структуры данных, программные модули или другие данные. Компьютерное средство хранения включает в себя, но не ограничено этим, ОЗУ, ПЗУ, ЭСППЗУ, флэш-память или другую технологию памяти, диски CD-ROM, цифровые универсальные диски (DVD) или иные оптические дисковые носители, магнитные кассеты, магнитные ленты, магнитные дисковые носители или другие магнитные устройства хранения, или любое другое средство, которое может быть использовано, чтобы хранить желаемую информацию, и к которой может быть выполнен доступ компьютером 400.
Системная память 430 включает в себя компьютерное средство хранения в форме энергозависимой и/или энергонезависимой памяти, такой как ПЗУ 431 и ОЗУ 432. Базовая система 433 ввода/вывода (BIOS), содержащая базовые рутинные процедуры, которые помогают передавать информацию между элементами в компьютере 410, как например во время загрузки, хранится в ПЗУ 431. ОЗУ 432, как правило, содержит данные и/или программные модули, которые непосредственно доступны и/или задействованы процессорным блоком 420. В качестве примера, но не ограничиваясь этим, Фиг.6 иллюстрирует операционную систему 434, прикладные программы 435, другие программные модули 436 и программные данные 437. Упомянутые прикладные программы 435, программные модули 436 и программные данные 437 реализуют одну или более концепций, описанных выше.
Компьютер 410 может также включать в себя другой съемный/несъемный энергозависимый/энергонезависимый компьютерный носитель информации. Исключительно в качестве примера, Фиг.6 иллюстрирует привод 441 жесткого диска, который считывает с или записывает на несъемный, энергонезависимый магнитный носитель, привод 451 магнитного диска, который считывает с или записывает на съемный, энергонезависимый магнитный диск 452, и привод 455 оптического диска, который считывает с или записывает на съемный, энергонезависимый оптический диск 456, такой как CD-ROM или другой оптический носитель информации. Другие съемные/несъемные, энергозависимые/энергонезависимые компьютерные носители информации, которые могут быть использованы в примере рабочего окружения, включают в себя, но не ограничиваются перечисленным, кассеты с магнитной лентой, карты флэш-памяти, цифровые универсальные диски, цифровые видео ленты, твердотельные ОЗУ, твердотельные ПЗУ и т.п. Привод 441 жесткого диска, как правило, соединен с системной шиной 421 через интерфейс несъемной памяти, такой как интерфейс 440, а привод 451 магнитного диска и привод 4 55 оптического диска, как правило, соединены с системой шиной 421 посредством интерфейса съемной памяти, такого как интерфейс 450.
Приводы и связанные с ними компьютерные носители информации, описанные выше и проиллюстрированные на Фиг.6, предоставляют хранение машиночитаемых команд, структур данных, программных модулей и других данных для компьютера 410. На Фиг.6, например, привод 441 жесткого диска проиллюстрирован как хранящий операционную систему 44 4, прикладные программы 4 45, другие программные модули 44 6 и программные данные 447. Следует отметить, что эти компоненты могут быть такими же, как операционная система 434, прикладные программы 4 35, другие программные модули 436 и программные данные 437, или же отличаться от них. Операционная система 444, прикладные программы 445, другие программные модули 446 и программные данные 447 обозначены различными номерами, чтобы проиллюстрировать, что, по меньшей мере, они представляют собой различные копии.
Пользователь может вводить команды и информацию в компьютер 410 посредством устройств ввода, таких как клавиатура 462, микрофон 463 и указывающее устройство 461, такое как мышь, трекбол или сенсорная панель. Эти и другие устройства ввода часто соединяются с процессорным блоком 420 через интерфейс 460 ввода пользователя, который соединен с системной шиной, но они могут также быть соединены посредством другого интерфейса и структур шины, такой как параллельный порт или универсальная последовательная шина (USB). Монитор 491 или другой тип устройства отображения также соединен с системой шиной 421 посредством интерфейса, такого как видео интерфейс 490.
Компьютер 410 может работать в сетевом окружении, используя логические соединения с одним или более удаленными компьютерами, такими как удаленный компьютер 4 80. Удаленный компьютер 480 может быть персональным компьютером, карманным устройством, сервером, маршрутизатором, сетевым персональным компьютером, устройством однорангового узла или другим обычным сетевым узлом, и он, как правило, включает в себя многие или все элементы, описанные выше относительно компьютера 410. Логические соединения, изображенные на Фиг.6, включают в себя локальную сеть (Local Area Network, LAN) 471 и глобальную сеть (Wide Area Network, WAN) 473, но могут также включать в себя другие сети. Подобные сетевые окружения типичны для учреждений, компьютерных сетей масштаба предприятия, интранета и Интернета.
При использовании в сетевом окружении локальной сети компьютер 410 соединен с локальной сетью 471 через сетевой интерфейс или адаптер 470. При использовании в сетевом окружении глобальной сети компьютер 410, как правило, включает в себя модем 472 или иное средство для установления связи через глобальную сеть 473, такую как Интернет. Модем 472, который может быть внутренним или внешним, может быть соединен с системной шиной 421 посредством интерфейса 460 ввода пользователя или иного подходящего механизма. В сетевом окружении программные модули, изображенные относительно компьютера 410, или их части могут храниться в удаленном устройстве памяти. В качестве примера, но не ограничиваясь этим, Фиг.6 иллюстрирует удаленные прикладные программы 485 как находящиеся на удаленном компьютере 480. Очевидно, что показанные сетевые соединения представляют собой лишь примеры, и могут быть использованы другие средства для установления линии связи между компьютерами.
Следует отметить, что описанные в настоящем документе концепции могут быть реализованы в компьютерной системе, такой как описанная со ссылкой на Фиг.6. Тем не менее, другие подходящие системы включают в себя сервер, компьютер, выделенный для обработки сообщений, или распределенную систему, в которой различные части концепций реализуются в различных частях распределенной вычислительной системы.
Несмотря на то, что сущность настоящего изобретения была описана в привязке к структурным особенностям и/или методологическим действиям, следует понимать, что сущность, определенная в прилагаемой формуле изобретения, не ограничена конкретными особенностями или действиями, описанными выше. Скорее, описанные выше конкретные структурные особенности и действия раскрыты как примеры форм осуществления пунктов формулы изобретения.

Claims (18)

1. Реализуемый компьютером способ определения, является ли получатель вызова реальной персоной или автоответчиком, способ содержит
посредством процессора:
прием звукового ответа от получателя вызова и обработку звукового ответа посредством распознавателя речи, имеющего языковую модель для преобразования звукового ответа в вывод, указывающий распознанную речь в текстовой форме; и
обработку вывода, указывающего распознанную речь, в текстовой форме со статистическим классификатором, настроенным по словесным фразам, обычно используемым реальными персонами, и по словесным фразам, обычно используемым автоматическими системами наряду с установлением несловесных особенностей, ассоциированных со звуковым ответом для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, при этом указанный классификатор является отдельным от указанной языковой модели, указанная обработка является основанной на статистическом анализе вывода, указывающего распознанную речь в текстовой форме наряду с несловесными особенностями, статистический анализ, проверяющий содержимое вывода, указывающего распознанную речь, и на основании этой проверки определение, является ли вывод, указывающий распознанную речь, более статистически согласуемым со словесными фразами, обычно используемыми реальными людьми, или со словесными фразами обычно используемыми автоматическими системами.
2. Реализуемый компьютером способ по п.1, в котором обработка включает в себя определение длительности звукового ответа и использование длительности звукового ответа в качестве основы для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, и при этом модель статистического классификатора является сглаженной для захвата слов, не включенных в словесные фразы, обычно используемые реальными людьми, и в словесные фразы, обычно используемые автоматическими системами.
3. Реализуемый компьютером способ по п.1, в котором обработка включает в себя определение, присутствует ли в начале звукового ответа тишина, и использование присутствия тишины в качестве основы для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, и при этом языковая модель является языковой моделью n-граммы.
4. Реализуемый компьютером способ по п.3, в котором обработка включает в себя установление, присутствует ли тишина с периодом, соразмерным выбранной длине, в звуковом ответе изначально, и использование присутствия тишины в качестве основы для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, и при этом обработка звукового ответа с распознаванием речи для преобразования звукового ответа для вывода, указывающего распознанную речь в текстовой форме, содержит распознаватель речи, распознающий только часть звукового ответа.
5. Реализуемый компьютером способ по п.1, в котором обработка включает в себя использование индикации о том, смог ли распознаватель речи распознать какую-либо речь в звуковом ответе, в качестве основы для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, и при этом обработка звукового ответа с распознаванием речи для преобразования звукового ответа для вывода, указывающего распознанную речь в текстовой форме, содержит распознаватель речи, распознающий каждую часть звукового ответа.
6. Реализуемый компьютером способ по п.2, в котором обработка включает в себя использование статистического анализа, когда длительность фрагмента речи лежит в выбранном диапазоне, и при этом языковая модель сглажена, используя модель заполнителя n-граммы.
7. Реализуемый компьютером способ по п.1, в котором обработка включает в себя использование статистического анализа, когда длительность фрагмента речи лежит в выбранном диапазоне, и при этом языковая модель является контекстно-свободной грамматической моделью.
8. Машиночитаемый носитель, содержащий инструкции, которые при выполнении компьютером, определяют, является ли получатель вызова реальной персоной или автоответчиком, инструкции содержат:
прием звукового ответа от получателя вызова;
вызов языковой модели и использование распознанной речи для преобразования звукового ответа в вывод, указывающий распознанные словесные фразы в текстовой форме; и
обработку вывода, указывающего распознанные словесные фразы в текстовой форме для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, указанная обработка является основанной на статистическом анализе словесных фраз, используемых посредством получателя вызова в звуковом ответе, и независима от языковой модели, при этом каждая из указанных словесных фраз содержит множество слов, и при этом статистический анализ включает в себя вычисление уровня доверия, чтобы вывод, указывающий распознанные словесные фразы, соответствовал реальной персоне, и вычисление уровня доверия, что вывод, указывающий распознанные словесные фразы, соответствует автоответчику, вывод, указывающий, является ли получатель вызова реальной персоной или автоответчиком, является основанным, по меньшей мере, в части на вычисленных уровнях доверия.
9. Машиночитаемый носитель по п.8, в котором обработка содержит обработку словесных фраз посредством статистического классификатора, и использование вывода из статистического классификатора в качестве основы для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, и при этом вывод, указывающий является ли получатель вызова реальной персоной или автоответчиком, является смещенным в сторону классификации получателя вызова как реальной персоны.
10. Машиночитаемый носитель по п.8, в котором обработка включает в себя обработку звукового ответа, чтобы определить несловесные особенности, ассоциированные со звуковым ответом, и использование несловесных особенностей в качестве основы для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, и при этом вывод, указывающий является ли получатель вызова реальной персоной или автоответчиком, смещается в сторону классификации получателя вызова как автоответчика.
11. Машиночитаемый носитель по п.8, в котором обработка включает в себя определение длительности звукового ответа и использование длительности звукового ответа в качестве основы для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, и при этом вывод, указывающий является ли получатель вызова реальной персоной или автоответчиком, не имеет смещения.
12. Машиночитаемый носитель по п.8, в котором обработка включает в себя определение того, присутствует ли тишина в звуковом ответе изначально, и использование присутствия тишины в качестве основы для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком.
13. Машиночитаемый носитель по п.12, в котором обработка включает в себя определение того, присутствует ли тишина с периодом, соразмерным выбранной длине, в звуковом ответе изначально, и использование присутствия тишины в качестве основы для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком.
14. Машиночитаемый носитель по п.8, в котором обработка включает в себя использование индикации о том, смог ли распознаватель речи распознать какую-либо речь в звуковом ответе, в качестве основы для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком.
15. Машиночитаемый носитель по п.9, в котором обработка включает в себя использование статистического анализа, когда длительность фрагмента речи лежит в выбранном диапазоне.
16. Машиночитаемый носитель по п.9, дополнительно содержащий приведение в действие распознавателя речи, чтобы детектировать события вмешательства в разговор получателем вызова, и повторное воспроизведение сообщения получателю вызова, если событие вмешательства в разговор детектируется до того, как сообщение будет воспроизведено целиком.
17. Машиночитаемый носитель по п.16, в котором повторное воспроизведение сообщения получателю вызова включает в себя повторное воспроизведение сообщения получателю вызова, если получатель вызова является автоответчиком.
18. Реализуемый компьютером способ оставления сообщения на автоответчике, при этом способ содержит:
детектирование, является ли получатель вызова реальной персоной или автоответчиком, при этом детектирование содержит получение звукового ответа от получателя вызова и обработку звукового ответа посредством процессора, действующего как распознаватель речи, имеющий доступ к языковой модели для обеспечения вывода, указывающего распознанную речь;
обработку вывода, указывающего распознанную речь для обеспечения вывода, указывающего является ли полученный вызов реальной персоной или автоответчиком, указанная обработка, использующая статистический классификатор, настроенный по словесным фразам, обычно используемым реальной персоной, и по словесным фразам, обычно используемым автоматическими системами, вместе с установлением несловесных особенностей, ассоциированных с распознавателем речи для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, при этом указанный классификатор является отдельным от указанной языковой модели, указанная обработка является основанной на статистическом анализе вывода, указывающего распознанную речь в текстовой форме вместе с несловесными особенностями, статистический анализ, проверяющий содержимое вывода, указывающего распознанную речь, и на основании этой проверки определяющий, является ли вывод, указывающий распознанную речь более статистически согласуемым с словесными фразами, обычно используемыми реальными людьми, или с словесными фразами, обычно используемыми автоматическими системами; и
если получатель вызова является автоответчиком, затем выполняется распознавание речи, чтобы детектировать события вмешательства в разговор автоответчиком, при этом события вмешательства в разговор являются детектированием части приветствия от автоответчика после периода молчания;
детектирование множества событий вмешательства в разговор от автоответчика внутри одной сессии вызова; и
повторение перезапуска сообщения и проигрывание сообщения сначала на автоответчике при детектировании каждого из множества событий вмешательства до того, как сообщение будет воспроизведено целиком.
RU2009100152/08A 2006-07-12 2007-05-15 Детектирование автоответчика путем распознавания речи RU2439716C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/485,011 2006-07-12
US11/485,011 US8065146B2 (en) 2006-07-12 2006-07-12 Detecting an answering machine using speech recognition

Publications (2)

Publication Number Publication Date
RU2009100152A RU2009100152A (ru) 2010-07-20
RU2439716C2 true RU2439716C2 (ru) 2012-01-10

Family

ID=38923532

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2009100152/08A RU2439716C2 (ru) 2006-07-12 2007-05-15 Детектирование автоответчика путем распознавания речи

Country Status (12)

Country Link
US (1) US8065146B2 (ru)
EP (1) EP2038877A4 (ru)
JP (1) JP5124573B2 (ru)
KR (1) KR20090033437A (ru)
CN (1) CN101490741B (ru)
BR (1) BRPI0714140A2 (ru)
CA (1) CA2653536A1 (ru)
MX (1) MX2008016354A (ru)
NO (1) NO20085203L (ru)
RU (1) RU2439716C2 (ru)
TW (1) TW200810504A (ru)
WO (1) WO2008008117A1 (ru)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2583150C1 (ru) * 2014-11-28 2016-05-10 Самсунг Электроникс Ко., Лтд. Голосовая связь на естественном языке между человеком и устройством
RU2672000C2 (ru) * 2014-02-27 2018-11-08 ФОРД ГЛОУБАЛ ТЕКНОЛОДЖИЗ, ЭлЭлСи Устранение неоднозначности динамических команд
US11532305B2 (en) 2019-06-26 2022-12-20 Samsung Electronics Co., Ltd. Electronic apparatus and control method thereof
RU2792288C1 (ru) * 2019-06-26 2023-03-21 Самсунг Электроникс Ко., Лтд. Электронное устройство и способ управления им

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8396713B2 (en) * 2007-04-30 2013-03-12 Nuance Communications, Inc. Method and system for using a statistical language model and an action classifier in parallel with grammar for better handling of out-of-grammar utterances
US8370148B2 (en) * 2008-04-14 2013-02-05 At&T Intellectual Property I, L.P. System and method for answering a communication notification
CN101662544B (zh) * 2008-08-26 2012-01-25 华为技术有限公司 一种外呼处理的方法、装置和系统
US8624875B2 (en) * 2009-08-24 2014-01-07 Semiconductor Energy Laboratory Co., Ltd. Method for driving touch panel
US8990071B2 (en) * 2010-03-29 2015-03-24 Microsoft Technology Licensing, Llc Telephony service interaction management
US20110313762A1 (en) * 2010-06-20 2011-12-22 International Business Machines Corporation Speech output with confidence indication
US8417223B1 (en) 2010-08-24 2013-04-09 Google Inc. Advanced voicemail features without carrier voicemail support
US20120209590A1 (en) * 2011-02-16 2012-08-16 International Business Machines Corporation Translated sentence quality estimation
US9100479B2 (en) * 2011-03-10 2015-08-04 Angel.Com Incorporated Answering machine detection
CN103295585A (zh) * 2012-02-24 2013-09-11 北京英立讯科技有限公司 识别电话自动外呼是否真人应答的处理系统及方法
KR101909141B1 (ko) * 2012-07-27 2018-10-17 엘지전자 주식회사 전자기기 및 전자기기의 제어방법
CN103973872B (zh) * 2013-01-31 2016-12-28 联想(北京)有限公司 一种信息处理的方法及电子设备
GB2513924A (en) * 2013-05-10 2014-11-12 Noetica Ltd Live person detection in an automated calling system
WO2015134954A1 (en) * 2014-03-07 2015-09-11 Dialogtech Inc. Phone fraud deterrence system for use with toll free and other fee generating numbers
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
GB2533139A (en) * 2014-12-11 2016-06-15 Ultra Communications Ltd Telephone call processing
CN104601834B (zh) * 2014-12-19 2017-03-22 国家电网公司 多语种自动语音呼叫应答装置及其使用方法
US10277745B1 (en) 2017-05-30 2019-04-30 Noble Systems Corporation Answering machine detection for a contact center
US10148818B1 (en) 2017-03-15 2018-12-04 Noble Systems Corporation Using enhanced answering machine detection (“AMD”) to detect reassigned numbers
US10530928B1 (en) 2017-03-15 2020-01-07 Noble Systems Corporation Answering machine detection (“AMD”) for a contact center by using AMD meta-data
US10910105B2 (en) * 2017-05-31 2021-02-02 International Business Machines Corporation Monitoring the use of language of a patient for identifying potential speech and related neurological disorders
US11373635B2 (en) * 2018-01-10 2022-06-28 Sony Corporation Information processing apparatus that fades system utterance in response to interruption
KR102142338B1 (ko) * 2018-12-26 2020-08-07 주식회사 어플라이 인공지능 통신 장치 및 그 동작 방법
KR102636409B1 (ko) 2018-12-28 2024-02-15 삼성전자주식회사 전자 장치 및 그 제어 방법
JP7304627B2 (ja) * 2019-11-08 2023-07-07 株式会社ハロー 留守番電話判定装置、方法及びプログラム
US11501067B1 (en) * 2020-04-23 2022-11-15 Wells Fargo Bank, N.A. Systems and methods for screening data instances based on a target text of a target corpus
KR102494422B1 (ko) 2022-06-24 2023-02-06 주식회사 액션파워 Ars 음성이 포함된 오디오 데이터에서 발화 음성을 검출하는 방법

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4941168A (en) 1988-09-21 1990-07-10 U.S. Telecom International Inc. System for the recognition of automated telephone answering devices and delivery of prerecorded messages to such devices
US5581602A (en) * 1992-06-19 1996-12-03 Inventions, Inc. Non-offensive termination of a call detection of an answering machine
US5371787A (en) 1993-03-01 1994-12-06 Dialogic Corporation Machine answer detection
US5644624A (en) 1994-05-23 1997-07-01 Caldwell Communications Development, Inc. Automatic telephone call origination and retry system and method of operation
DE19536212B4 (de) 1994-09-28 2004-12-23 Rockwell International Corp., Downers Grove Anordnung zum Erkennen eines Anrufbeantworters
US6233319B1 (en) 1997-12-30 2001-05-15 At&T Corp. Method and system for delivering messages to both live recipients and recording systems
US6324262B1 (en) 1998-03-26 2001-11-27 Market Ability, Inc. Method and system for automated delivery of nontruncated messages
US6161087A (en) * 1998-10-05 2000-12-12 Lernout & Hauspie Speech Products N.V. Speech-recognition-assisted selective suppression of silent and filled speech pauses during playback of an audio recording
US6574601B1 (en) * 1999-01-13 2003-06-03 Lucent Technologies Inc. Acoustic speech recognizer system and method
GB9930731D0 (en) * 1999-12-22 2000-02-16 Ibm Voice processing apparatus
US6999565B1 (en) * 2000-02-01 2006-02-14 Envoyworldwide, Inc. Multi-mode message routing and management
AU2001286937A1 (en) * 2000-09-01 2002-03-13 Eliza Corporation Sppech recognition method and system to determine the status of an outbound telephone call
US7054419B2 (en) 2001-01-02 2006-05-30 Soundbite Communications, Inc. Answering machine detection for voice message delivery method and system
US20030086541A1 (en) 2001-10-23 2003-05-08 Brown Michael Kenneth Call classifier using automatic speech recognition to separately process speech and tones
US7069221B2 (en) * 2001-10-26 2006-06-27 Speechworks International, Inc. Non-target barge-in detection
US6850602B1 (en) 2002-03-27 2005-02-01 Avaya Technology Corp. Method and apparatus for answering machine detection in automatic dialing
US7162421B1 (en) * 2002-05-06 2007-01-09 Nuance Communications Dynamic barge-in in a speech-responsive system
US7389230B1 (en) * 2003-04-22 2008-06-17 International Business Machines Corporation System and method for classification of voice signals
US20050013418A1 (en) * 2003-07-15 2005-01-20 Shye-Bin Chang Emergency notification systems
US7392188B2 (en) 2003-07-31 2008-06-24 Telefonaktiebolaget Lm Ericsson (Publ) System and method enabling acoustic barge-in
DE60303278T2 (de) 2003-11-27 2006-07-20 Alcatel Vorrichtung zur Verbesserung der Spracherkennung
US9117460B2 (en) 2004-05-12 2015-08-25 Core Wireless Licensing S.A.R.L. Detection of end of utterance in speech recognition system
US7184521B2 (en) 2004-06-10 2007-02-27 Par3 Communications, Inc. Method and system for identifying a party answering a telephone call based on simultaneous activity
JP3874196B2 (ja) 2004-08-16 2007-01-31 船井電機株式会社 インターホン装置
KR20060077505A (ko) 2004-12-30 2006-07-05 주식회사 한맥소프트웨어 이단계 예측 전화 연결 시스템
US20060235694A1 (en) * 2005-04-14 2006-10-19 International Business Machines Corporation Integrating conversational speech into Web browsers

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2672000C2 (ru) * 2014-02-27 2018-11-08 ФОРД ГЛОУБАЛ ТЕКНОЛОДЖИЗ, ЭлЭлСи Устранение неоднозначности динамических команд
RU2583150C1 (ru) * 2014-11-28 2016-05-10 Самсунг Электроникс Ко., Лтд. Голосовая связь на естественном языке между человеком и устройством
US11532305B2 (en) 2019-06-26 2022-12-20 Samsung Electronics Co., Ltd. Electronic apparatus and control method thereof
RU2792288C1 (ru) * 2019-06-26 2023-03-21 Самсунг Электроникс Ко., Лтд. Электронное устройство и способ управления им

Also Published As

Publication number Publication date
NO20085203L (no) 2008-12-12
KR20090033437A (ko) 2009-04-03
CA2653536A1 (en) 2008-01-17
TW200810504A (en) 2008-02-16
EP2038877A1 (en) 2009-03-25
US20080015846A1 (en) 2008-01-17
WO2008008117A1 (en) 2008-01-17
JP2009543158A (ja) 2009-12-03
CN101490741A (zh) 2009-07-22
CN101490741B (zh) 2012-01-11
MX2008016354A (es) 2009-01-16
RU2009100152A (ru) 2010-07-20
BRPI0714140A2 (pt) 2012-12-25
EP2038877A4 (en) 2010-08-11
US8065146B2 (en) 2011-11-22
JP5124573B2 (ja) 2013-01-23

Similar Documents

Publication Publication Date Title
RU2439716C2 (ru) Детектирование автоответчика путем распознавания речи
US9270817B2 (en) Method for determining the on-hold status in a call
US8473290B2 (en) Voice barge-in in telephony speech recognition
US9293133B2 (en) Improving voice communication over a network
US9583108B2 (en) Voice detection for automated communication system
JP4917729B2 (ja) 以後のオフライン音声認識のための音声情報を記録する記録装置
US8532995B2 (en) System and method for isolating and processing common dialog cues
US20070067172A1 (en) Method and apparatus for performing conversational opinion tests using an automated agent
US20050207543A1 (en) Method and apparatus for voice interactive messaging
JP2014191029A (ja) 音声認識システムおよび音声認識システムの制御方法
JP2009003040A (ja) 音声対話装置、音声対話方法及びロボット装置
JP4852584B2 (ja) 禁止語発信防止方法、禁止語発信防止電話、禁止語発信防止サーバ
US8949134B2 (en) Method and apparatus for recording/replaying application execution with recorded voice recognition utterances
EP2763136A1 (en) Method and system for obtaining relevant information from a voice communication
US20130151248A1 (en) Apparatus, System, and Method For Distinguishing Voice in a Communication Stream
CN112435669B (zh) 一种机器人多轮对话语音交互方法、系统和终端设备
JP6544439B2 (ja) 困惑状態判定装置、困惑状態判定方法、及びプログラム
JP4408665B2 (ja) 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム
JP2013257428A (ja) 音声認識装置
CN112883178B (zh) 对话方法、装置、服务器及存储介质
JP4745837B2 (ja) 音響分析装置及びコンピュータプログラム、音声認識システム
CN116975242A (zh) 语音播报打断处理方法、装置、设备和存储介质
JP2011119943A (ja) 情報処理装置およびその制御方法
WO2014152542A2 (en) Voice detection for automated communication system

Legal Events

Date Code Title Description
PC41 Official registration of the transfer of exclusive right

Effective date: 20150306

MM4A The patent is invalid due to non-payment of fees

Effective date: 20180516