RU2439716C2 - Детектирование автоответчика путем распознавания речи - Google Patents
Детектирование автоответчика путем распознавания речи Download PDFInfo
- Publication number
- RU2439716C2 RU2439716C2 RU2009100152/08A RU2009100152A RU2439716C2 RU 2439716 C2 RU2439716 C2 RU 2439716C2 RU 2009100152/08 A RU2009100152/08 A RU 2009100152/08A RU 2009100152 A RU2009100152 A RU 2009100152A RU 2439716 C2 RU2439716 C2 RU 2439716C2
- Authority
- RU
- Russia
- Prior art keywords
- call
- recipient
- answering machine
- audio response
- output indicating
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 12
- 230000004044 response Effects 0.000 claims abstract description 55
- 238000012545 processing Methods 0.000 claims abstract description 37
- 230000001755 vocal effect Effects 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000007619 statistical method Methods 0.000 claims abstract description 12
- 239000012634 fragment Substances 0.000 claims 3
- 230000003213 activating effect Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract 1
- 238000007689 inspection Methods 0.000 abstract 1
- 239000000126 substance Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 239000000945 filler Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/51—Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
- H04M3/5158—Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing in combination with automated outdialling systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/20—Aspects of automatic or semi-automatic exchanges related to features of supplementary services
- H04M2203/2027—Live party detection
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Marketing (AREA)
- Business, Economics & Management (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
Изобретение относится к способам и устройствам детектирования автоответчика, используемым для определения того, является ли получатель вызова реальной персоной или автоответчиком. Техническим результатом является повышение точности детектирования автоответчика. Указанный результат достигается тем, что способ содержит посредством процессора прием звукового ответа от получателя вызова и обработку звукового ответа посредством распознавателя речи, имеющего языковую модель для преобразования звукового ответа в вывод, указывающий распознанную речь в текстовой форме; и обработку вывода, указывающего распознанную речь, в текстовой форме со статистическим классификатором, настроенным по словесным фразам, обычно используемым реальными персонами и автоматическими системами, наряду с установлением несловесных особенностей, ассоциированных со звуковым ответом для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком. Классификатор является отдельным от языковой модели. Обработка является основанной на статистическом анализе вывода, указывающего распознанную речь в текстовой форме наряду с несловесными особенностями. Статистический анализ проверяет содержимое вывода, указывающего распознанную речь, и, на основании этой проверки, определяет, является ли вывод, указывающий распознанную речь, более статистически согласуемым со словесными фразами, обычно используемыми реальными людьми или автоматическими системами. 3 н. и 15 з.п. ф-лы, 6 ил.
Description
Уровень техники
Данный раздел приведен исключительно для предоставления общего уровня техники и не предназначен для использования в качестве помощи при определении объема формулы изобретения.
В настоящее время широко используются автоматические телефонные системы для исходящих вызовов. Кроме применения в маркетинговых целях, подобные системы также могут использоваться медицинскими учреждениями или клиниками для связи с пациентами, чтобы назначать или изменять время посещения, учебными заведениями для информирования студентов об изменениях расписания, благотворительными организациями для получения взносов, государственными учреждениями для распространения уведомлений или другой информации и т.п.
Во многих случаях может быть необходимо или желательно автоматически определять, является ли получатель телефонного вызова реальной персоной или автоответчиком. В зависимости от того, ответила ли на вызов реальная персона или используется автоответчик, телефонной системой для исходящих вызовов могут быть выполнены различные действия. Тем не менее, данная задача - анализ вызова - является достаточно сложной и в настоящее время решение ее не обеспечивает точности.
Анализ вызова обычно выполняется на уровне аппаратного переключателя. Анализ выполняется в течение короткого интервала, начиная с момента, когда получатель отвечает на вызов, и до того момента, когда вызов соединяется с телефонным приложением. В течение данного интервала, когда получатель начинает говорить, система обрабатывает принятые звуковые сигналы в части, например, энергии, мощности или других параметров звуковых сигналов, чтобы определить, является ли получатель реальной персоной или автоответчиком. Следует отметить, что на данном этапе телефонному приложению даже не известно о том, что на вызов ответили, и, следовательно, оно не предоставляет каких-либо начальных запросов. Соответственно, на другом конце линии, несмотря на то, что получатель ответил на вызов и выслушал приветствие, такое как "Здравствуйте", после этого он больше нечего не слышит, поскольку в это время система выполнят анализ вызова. Во многих случаях получатель просто повесит трубку.
Сущность изобретения
Разделы "Сущность изобретения" и "Реферат" приведены, чтобы представить в упрощенной форме выборку концепций, которые подробно описываются ниже, в разделе "Подробное описание". Разделы "Сущность изобретения" и "Реферат" не предназначены ни для определения ключевых или существенных отличительных признаков сущности формулы изобретения, ни для использования в качестве вспомогательного средства при определении объема сущности формулы изобретения. В добавление, объем формулы изобретения не ограничивается реализациями, которые устраняют какие-либо или все недостатки, перечисленные в разделе "Уровень техники".
Модуль детектирования автоответчика используется для определения того, является ли получатель вызова реальной персоной или автоответчиком. Модуль детектирования автоответчика включает в себя распознаватель речи и модуль анализа вызова. Распознаватель речи принимает звуковой ответ от получателя вызова. Распознаватель речи обрабатывает звуковой ответ и предоставляет вывод, указывающий распознанную речь. Модуль анализа вызова обрабатывает вывод распознавателя речи, чтобы сгенерировать вывод, указывающий, является ли получатель вызова реальной персоной или автоответчиком. В одном варианте осуществления модуль анализа вызова может включать в себя модуль классификатора, который выполняет статистический анализ вывода из распознавателя речи, чтобы определить, является ли получатель вызова реальной персоной или автоответчиком.
Также описан способ для обеспечения того, чтобы сообщение вызывающего было записано автоответчиком целиком. В частности, задействуется распознаватель речи, чтобы детектировать события вмешательства в разговор, выполняемые автоответчиком, причем если детектируется событие вмешательства в разговор, то сообщение воспроизводится повторно. Несмотря на то, что данная процедура может привести к тому, что сообщение воспроизводится один или более раз, это особенно полезно, поскольку наличие какого-либо события вмешательства в разговор указывает на то, что приветствие автоответчика не было завершено, и, соответственно, автоответчик не готов записать сообщение. Когда сообщение повторно воспроизводится после каждого события вмешательства в разговор, если после последнего события вмешательства в разговор данное сообщение воспроизводится, то обеспечивается гарантия того, что сообщение будет записано целиком, когда автоответчик готов записать сообщение.
Краткое описание чертежей
Фиг.1 - структурная схема, иллюстрирующая систему набора номера;
Фиг.2 - структурная схема, иллюстрирующая компоненты системы набора номера с Фиг.1,
Фиг.3 - структурная схема для обработки вызова;
Фиг.4 - схема последовательности операций для обработки вызова;
Фиг.5 - более подробная схема последовательности операций для обработки вызова;
Фиг.6 - пример вычислительного окружения.
Подробное описание
Фиг.1 и 2 представляют собой структурные схемы системы 100 для исходящих вызовов (или системы набора номера). Система 100 реализована, например, в одном из вычислительных окружений, описанных в привязке к Фиг.6, описанной ниже, или в другом подходящем вычислительном окружении. Как показано на Фиг.1, система 100 для исходящих вызовов вызывает любого из или множество получателей 102 вызова (проиллюстрированы получатели 102-1 ~ 102-М). В контексте данного документа "получателем вызова" может быть либо реальная персона, либо автоответчик. После вызова одного из получателей 102-1 ~ 102-М вызова система 100 для исходящих вызовов определяет, является ли получатель вызова реальной персоной или используется автоответчик.
Фиг.2 представляет собой более подробную иллюстрацию компонентов и модулей системы 100 для исходящих вызовов согласно одному примеру осуществления. Как показано, система 100 для исходящих вызовов осуществляет вызовы одного или более получателей 102 вызова. Модуль 106 детектирования автоответчика используется для определения того, является ли получатель 102 вызова реальной персоной или автоответчиком. В типовом приложении модуль 104 приложения инициирует набор телефонного номера получателя вызова, извлеченного из, например, базы 108 данных телефонных номеров. Далее, модуль 106 детектирования автоответчика используется для определения того, является ли получатель 102 вызова реальной персоной или автоответчиком. В зависимости от вывода модуля 106 детектирования, система 100 для исходящих вызовов может выполнять различные действия. Например, если получатель вызова является реальной персоной, то модуль 104 приложения может перевести вызов на оператора 110 или войти в контакт с получателем в режиме автоматического разговора. В других случаях модуль 104 приложения может использоваться, чтобы оставить сообщение на автоответчике получателя 102 вызова. На Фиг.2 получатели 102 вызова, база 108 данных телефонных номеров и оператор 110 показаны в пунктирных линиях, чтобы показать, что они не являются частью системы 100 для исходящих вызовов, или что их наличие в системе 100 необязательно. Сверх того, структурная схема системы 100 для исходящих вызовов приведена в схематическом виде в целях разъяснения и предоставления примера взаимосвязей между модулем 106 детектирования автоответчика и его компонентами, а также другими компонентами системы 100 исходящих вызовов. Следует понимать, что это всего лишь один пример осуществления, и что в других вариантах осуществления один или более компонентов системы 100 для исходящих вызовов и модуль 106 детектирования автоответчика могут быть исключены из состава и/или комбинированы в других конфигурациях.
В проиллюстрированном варианте осуществления модуль 106 детектирования автоответчика включает в себя распознаватель 120 речи и модуль 122 анализа вызова. Фиг.3 и 4 представляют собой структурную схему и схему последовательности операций способа 200, соответственно, иллюстрирующие работу этих модулей. На этапе 202 распознаватель 120 речи принимает звуковой ответ 124 получателя 102 вызова на вызов, размещенный системой 100 для исходящих вызовов. Распознаватель 120 речи обрабатывает звуковой ответ 124 и предоставляет вывод 126, указывающий распознанную речь, а в одном варианте осуществления, также фразы, обычно в форме текстовых данных. В использованном здесь значении термин "фраза" обозначает множество слов в контексте, предоставленном получателем вызова.
На этапе 204 вывод 126 из распознавателя 120 речи предоставляется в качестве ввода в модуль 122 анализа вызова. Модуль 122 анализа вызова обрабатывает вывод 126 распознавателя речи 120, чтобы сгенерировать вывод 128, указывающий, является ли получатель вызова реальной персоной или автоответчиком. Модуль 122 анализа вызова может включать в себя модуль 123 классификатора, который выполняет статистический анализ содержимого фраз(ы) в выводе 126. Принципы действия распознавателя 120 речи и модуля 123 классификатора широко известны, и данные компоненты могут быть реализованы посредством известных методов. Тем не менее, следует отметить, что тренинг языковой модели 130 (например, N-грамма, контекстно-свободная грамматика, гибридная модель и т.п.), используемой распознавателем 120 речи и моделью 132 классификатора, как правило, выполняется только по фразам или приветствиям, используемым людьми и автоответчиками, когда они отвечают на вызов. Например, реальная персона может ответить на вызов приветствием "Алло", "Чем могу быть полезен?", "Это Стив" или просто назвав свое имя. В отличие от этого автоответчик может ответить приветствием "Это мой автоответчик. Я не могу Вам ответить в настоящий момент. Пожалуйста, оставьте сообщение" или просто "Пожалуйста, оставьте сообщение". Тем не менее, при детектировании автоответчика на основании содержимого может потребоваться распознать важные фразы, такие как "не могу Вам ответить в настоящий момент" или "оставьте сообщение".
Аналогично, в случае прохождения процедуры системы телефонного экрана на стороне получателя может потребоваться распознавание фразы типа "нажмите 2". Для распознавания таких фраз с высокой точностью, тренинг языковой модели 130 может быть выполнен посредством важных фраз, и эта модель может быть сглажена с помощью модели заполнителя N-граммы, чтобы выполнить захват слов, не входящих в важные фразы. Пример модели заполнителя N-граммы описан авторами D. Yu, Y. С. Ju, Y.Wang и А.Acero в документе "Модель заполнителя на основе N-граммы для устойчивого авторинга грамматики", опубликованном в материалах Международной Конференции по Акустике, Обработке Речи и Сигналов, Май 2006. Соответствующий тренинг языковой модели 130 и модели 132 классификатора может быть выполнен посредством достаточного количества примеров (либо общих примеров, либо примеров, присущих приложению).
Что касается модуля 122 анализа вызова и этапа 204, то альтернативно или в добавление к выводу 126 распознавателя 120 речи также могут использоваться несловесные особенности 136. Примеры несловесных особенностей 136 включают в себя, но не ограничиваются перечисленным, событие вмешательства в разговор получателя 102 вызова (то есть прерывание приглашения, когда приложение 104 выполняет диалог), длительность звукового ответа, выполненного получателем 102 вызова при ответе на вызов, и то, смог ли распознаватель 120 речи распознать звуковой ответ 124 как действительную фразу. На Фиг.3 несловесные особенности 136 производятся из генератора 128 несловесных особенностей, который может принимать и обрабатывать звуковой ответ 124 или иную входную информацию 138, относящуюся к вызову, от системы 100 для исходящих вызовов. На Фиг.4 прием несловесных особенностей 136 показан на этапе 203.
Следует отметить, что распознаватель 120 речи не должен распознавать весь звуковой ответ 124, а из-за шумного окружения у получателя 102 вызова, шума в записанном приветствии или шума от телефонной системы и природы самого ответа, только одна или более частей звукового ответа 124 могут быть распознаваемыми и, соответственно, использованы для определения того, является ли получатель 102 вызова реальной персоной или автоответчиком.
Фиг.5 представляет собой схему последовательности операций иллюстративного способа 300, выполняемого модулем 122 анализа вызова при исполнении этапа 204 на Фиг.3. Этап 302 представляет начало распознавания речи после выполнения вызова. Первой несловесной особенностью, которая может быть опционально использована для определения того, является ли получатель вызова реальной персоной или автоответчиком, является наличие или отсутствие тишины сразу после приема вызова. В частности, было выявлено, что реальная персона может выждать, например, секунду или две до того как начать говорить. Соответственно, если на этапе 304 определяется наличие тишины после ответа на вызов (например, если измеренное таймером значение с момента этапа 302 превышает выбранное), то может быть сделано заключение, что получатель 102 вызова реальная персона.
С другой стороны, если после ответа вызова на этапе 302 шум отсутствует, или если этап 302 отсутствует, то длительность звукового ответа может использоваться для определения того, является ли получатель вызова реальной персоной. Этапы 306 и 308 иллюстрируют обработку несловесной особенности, включая длительность звукового ответа. Если на этапе 306 определяется, что длительность звукового ответа очень коротка (например, примерно меньше одной секунды), то более чем вероятно, что на вызов ответил реальная персона. А если длительность звукового ответа очень длинная (например, примерно четыре или более секунд), как проиллюстрировано на этапе 308, то получатель вызова наверняка является автоответчиком. Следует отметить, что порядок этапов 306 и 308 необязателен, и что данные этапы могут быть выполнены в обратном порядке. Аналогично, может быть отрегулирована длительность специфицированных временных периодов.
Если определение того, является ли получатель вызова реальной персоной или автоответчиком, не было выполнено до этапа 308, то процесс переходит к этапу 310, где снова может быть использована длительность звукового ответа. В частности, на этапе 310 измеряется длительность звукового ответа, чтобы определить, является ли она относительно короткой, например две или три секунды. Результат данного этапа комбинируется с информацией, относящейся к контексту звукового ответа и распознанной распознавателем 120 речи посредством модуля 123 классификатора. Иначе говоря, модуль 123 классификатора анализирует вывод 126 из распознавателя 120 речи, чтобы определить, соответствуют ли статистически одна или более фраз фразам, используемым реальной персоной, или фразам, используемым автоответчиком. На Фиг.5 информация из модуля 123 классификатора представлена на этапах 312 и 314. В частности, если на этапе 312 информация из модуля 123 классификатора указывает, что очень вероятно (с высоким уровнем доверия), что фразы в звуковом ответе от реальной персоны, то вывод 128 модуля 122 анализа вызова укажет, что получателем 102 вызова является реальная персона. А если на этапе 312 определяется, что нет высокого уровня доверия в том, что получатель вызова является реальной персоной, то вывод модуля 122 анализа вызова укажет, что получатель 102 вызова является автоответчиком. Аналогично, если на этапе 314 информация из модуля 123 классификатора указывает, что очень вероятно, что фразы в звуковом ответе исходят от автоответчика, то вывод модуля 122 анализа вызова укажет, что получатель вызова является автоответчиком, тогда как если нет высокого уровня доверия, что получатель вызова автоответчик, то вывод модуля 122 анализа вызова укажет, что получатель 102 вызова является реальной персоной. Следует отметить, что в данном примере есть склонность к ошибке в части неправильного классифицирования получателя вызова как реальной персоны, а не автоответчика. При желании может быть заложена склонность к классифицированию получателя вызова как автоответчика, или данная склонность может быть исключена согласно стоимости, связанной с различными ошибками.
Следует отметить, что описанный выше статистический классификатор является лишь иллюстративным примером. Модуль 122 анализа вызова может использовать множество других классификаторов, таких как классификаторы по методу максимума энтропии. Сверх того, для обеспечения сопоставимой точности модуль 122 анализа вызова также может использовать вспомогательные векторные машины, компоненты, использующие деревья решений, а также искусственные нейронные сети.
В примере с Фиг.5 несловесные особенности, такие как наличие шума после ответа вызова и длительность звукового ответа, используются до фактической классификации содержимого звукового ответа, чтобы определить, является ли получатель вызова реальной персоной или автоответчиком. Кроме того, для распознавания звукового ответа также могут использоваться другие несловесные особенности, такие как то, был ли прерван разговор получателя, или смог ли распознаватель 120 речи распознать звуковой ответ. В добавление, тренинг классификатора может быть выполнен на основании несловесной(ых) особенности(ей), и классификатор 123 предоставляет вывод на основании распознанных фраз звукового ответа, чтобы предоставить индикацию о том, является ли получатель вызова реальной персоной и автоответчиком. Аналогично, тренинг одного классификатора может быть выполнен на основании несловесной(ых) особенности(ей) и распознанных фраз звукового ответа, чтобы предоставить индикацию о том, является ли получатель вызова реальной персоной или автоответчиком.
В некоторых приложениях может потребоваться воспроизвести сообщение получателю вызова, например, если было определено, что получатель вызова является автоответчиком. Несмотря на то, что автоответчики предоставляют тон или тишину, указывающую, что приветствие закончилось и что сейчас следует оставить сообщение, распознавание данного тона сложно выполнить. Поскольку во многих случаях данный тон или тишина не могут быть точно распознаны, по меньшей мере, часть сообщения может быть воспроизведена в течение приветствия, и, соответственно, начальная часть сообщения не может быть записана.
Опциональный этап, проиллюстрированный на Фиг.4, предоставляет средство и способ для обеспечения того, чтобы сообщение было записано автоответчиком целиком, или, при желании, было прослушано реальной персоной. В частности, сообщение воспроизводится при включенном распознавателе 120 речи и активированной функции "детектирования вмешательства в разговор" (чтобы детектировать завершение приветствия) до завершения сообщения. Например, предположим, что автоответчик проигрывает следующее приветствие "Вы позвонили … Ерику Мо … Пожалуйста, оставьте сообщение", где “…” представляет тишину в течение приветствия. Во многих существующих системах сообщение может быть воспроизведено при детектировании одного из этих периодов тишины, из-за чего сообщение будет проиграно, но не будет записано автоответчиком, поскольку проигрывание приветствия не было завершено. Используя описанный здесь способ, распознаватель 120 речи с активированной функцией детектирования вмешательства в разговор детектирует каждую часть приветствия и каждый раз приводит к проигрыванию сообщения сначала. После того, как приветствие определенно достигло конца, сообщение воспроизводится снова, но в этот раз оно воспроизводится до конца, чтобы гарантировать то, что сообщение было прослушано или записано целиком.
Фиг.6 иллюстрирует пример подходящего вычислительного окружения 400 системы, в которой могут быть реализованы описанные в настоящем документе концепции. В частности, определенный вид окружения 400 вычислительной системы может использоваться для системы 100 для исходящих вызовов или ее частей. Тем не менее, вычислительное окружение 400 системы является лишь одним примером подходящего вычислительного окружения для каждого из этих компьютеров, и оно не предназначено для определения границ объема использования или функциональных возможностей настоящего изобретения. Кроме того, вычислительное окружение 400 не должно быть интерпретировано как имеющее зависимость или требования, относящиеся к какому-либо компоненту или комбинациям компонентов, проиллюстрированных в примере рабочего окружения 400.
В добавление к предоставленным примерам с описанными здесь концепциями могут использоваться другие известные вычислительные системы, окружения и/или конфигурации. Подобные системы включают в себя, но не ограничиваются перечисленным, персональные компьютеры, серверные компьютеры, карманные или портативные устройства, многопроцессорные системы, системы на микропроцессорах, телевизионные приставки, программируемую потребительскую электронику, сетевые персональные компьютеры, миникомпьютеры, мэйнфреймы, распределенные вычислительные окружения, которые включают в себя любые из упомянутых систем или устройств, и т.п.
Описанные в настоящем документе концепции могут быть реализованы в общем контексте выполняемых компьютером инструкций, таких как программные модули, которые выполняются компьютером. В общем, программные модули включают в себя рутинные процедуры, программы, объекты, компоненты, структуры данных и т.п., которые выполняют конкретные задачи или осуществляют конкретные абстрактные типы данных. Специалисты в данной области техники могут реализовать приведенное в настоящем документе описание и/или фигуры как выполняемые компьютером инструкции, которые могут быть реализованы в любой форме машиночитаемых носителей, описанных ниже.
Описанные в настоящем документе концепции также могут быть применены в распределенных вычислительных окружениях, где задачи выполняются посредством удаленных устройств обработки, которые объединены через сеть связи. В распределенном вычислительном окружении программные модули могут быть расположены как в среде хранения локального компьютера, так и в среде хранения удаленного компьютера, включая устройства памяти.
Ссылаясь на Фиг.6, пример системы включает в себя вычислительное устройство общего назначения в форме компьютера 410. Компоненты компьютера 410 могут включать в себя, но не ограничены перечисленным, блок 420 обработки, системную память 430 и системную шину 421, которая соединяет различные компоненты системы, в том числе соединяет системную память с блоком 420 обработки. Системная шина 421 может быть любого типа из ряда типов структур шин, включающих в себя шину памяти или контроллер памяти, периферийную шину и локальную шину, используя любую архитектуру из разнообразия архитектур шин. В качестве примера, но не ограничиваясь перечисленным, подобные архитектуры включают в себя шину стандарта Industry Standard Architecture (ISA), шину стандарта Micro Channel Architecture (MCA), шину стандарта Enhanced ISA (EISA), локальную шину стандарта Video Electronics Standards Association (VESA) и шину стандарта Peripheral Component Interconnect (PCI), также известную как шина расширения.
Компьютер 410, как правило, включает в себя ряд машиночитаемых средств. Машиночитаемые средства могут быть любым доступным средством, к которому компьютер 410 может выполнить доступ, и они включают в себя как энергозависимые, так и энергонезависимые средства, съемные и несъемные средства. В качестве примера, но не ограничиваясь перечисленным, машиночитаемые средства могут содержать компьютерные средства хранения. Компьютерное средство хранения включает в себя энергозависимую, энергонезависимую, съемное и несъемное средство, реализованное посредством какого-либо способа или технологии для хранения информации, такой как машиночитаемые команды, структуры данных, программные модули или другие данные. Компьютерное средство хранения включает в себя, но не ограничено этим, ОЗУ, ПЗУ, ЭСППЗУ, флэш-память или другую технологию памяти, диски CD-ROM, цифровые универсальные диски (DVD) или иные оптические дисковые носители, магнитные кассеты, магнитные ленты, магнитные дисковые носители или другие магнитные устройства хранения, или любое другое средство, которое может быть использовано, чтобы хранить желаемую информацию, и к которой может быть выполнен доступ компьютером 400.
Системная память 430 включает в себя компьютерное средство хранения в форме энергозависимой и/или энергонезависимой памяти, такой как ПЗУ 431 и ОЗУ 432. Базовая система 433 ввода/вывода (BIOS), содержащая базовые рутинные процедуры, которые помогают передавать информацию между элементами в компьютере 410, как например во время загрузки, хранится в ПЗУ 431. ОЗУ 432, как правило, содержит данные и/или программные модули, которые непосредственно доступны и/или задействованы процессорным блоком 420. В качестве примера, но не ограничиваясь этим, Фиг.6 иллюстрирует операционную систему 434, прикладные программы 435, другие программные модули 436 и программные данные 437. Упомянутые прикладные программы 435, программные модули 436 и программные данные 437 реализуют одну или более концепций, описанных выше.
Компьютер 410 может также включать в себя другой съемный/несъемный энергозависимый/энергонезависимый компьютерный носитель информации. Исключительно в качестве примера, Фиг.6 иллюстрирует привод 441 жесткого диска, который считывает с или записывает на несъемный, энергонезависимый магнитный носитель, привод 451 магнитного диска, который считывает с или записывает на съемный, энергонезависимый магнитный диск 452, и привод 455 оптического диска, который считывает с или записывает на съемный, энергонезависимый оптический диск 456, такой как CD-ROM или другой оптический носитель информации. Другие съемные/несъемные, энергозависимые/энергонезависимые компьютерные носители информации, которые могут быть использованы в примере рабочего окружения, включают в себя, но не ограничиваются перечисленным, кассеты с магнитной лентой, карты флэш-памяти, цифровые универсальные диски, цифровые видео ленты, твердотельные ОЗУ, твердотельные ПЗУ и т.п. Привод 441 жесткого диска, как правило, соединен с системной шиной 421 через интерфейс несъемной памяти, такой как интерфейс 440, а привод 451 магнитного диска и привод 4 55 оптического диска, как правило, соединены с системой шиной 421 посредством интерфейса съемной памяти, такого как интерфейс 450.
Приводы и связанные с ними компьютерные носители информации, описанные выше и проиллюстрированные на Фиг.6, предоставляют хранение машиночитаемых команд, структур данных, программных модулей и других данных для компьютера 410. На Фиг.6, например, привод 441 жесткого диска проиллюстрирован как хранящий операционную систему 44 4, прикладные программы 4 45, другие программные модули 44 6 и программные данные 447. Следует отметить, что эти компоненты могут быть такими же, как операционная система 434, прикладные программы 4 35, другие программные модули 436 и программные данные 437, или же отличаться от них. Операционная система 444, прикладные программы 445, другие программные модули 446 и программные данные 447 обозначены различными номерами, чтобы проиллюстрировать, что, по меньшей мере, они представляют собой различные копии.
Пользователь может вводить команды и информацию в компьютер 410 посредством устройств ввода, таких как клавиатура 462, микрофон 463 и указывающее устройство 461, такое как мышь, трекбол или сенсорная панель. Эти и другие устройства ввода часто соединяются с процессорным блоком 420 через интерфейс 460 ввода пользователя, который соединен с системной шиной, но они могут также быть соединены посредством другого интерфейса и структур шины, такой как параллельный порт или универсальная последовательная шина (USB). Монитор 491 или другой тип устройства отображения также соединен с системой шиной 421 посредством интерфейса, такого как видео интерфейс 490.
Компьютер 410 может работать в сетевом окружении, используя логические соединения с одним или более удаленными компьютерами, такими как удаленный компьютер 4 80. Удаленный компьютер 480 может быть персональным компьютером, карманным устройством, сервером, маршрутизатором, сетевым персональным компьютером, устройством однорангового узла или другим обычным сетевым узлом, и он, как правило, включает в себя многие или все элементы, описанные выше относительно компьютера 410. Логические соединения, изображенные на Фиг.6, включают в себя локальную сеть (Local Area Network, LAN) 471 и глобальную сеть (Wide Area Network, WAN) 473, но могут также включать в себя другие сети. Подобные сетевые окружения типичны для учреждений, компьютерных сетей масштаба предприятия, интранета и Интернета.
При использовании в сетевом окружении локальной сети компьютер 410 соединен с локальной сетью 471 через сетевой интерфейс или адаптер 470. При использовании в сетевом окружении глобальной сети компьютер 410, как правило, включает в себя модем 472 или иное средство для установления связи через глобальную сеть 473, такую как Интернет. Модем 472, который может быть внутренним или внешним, может быть соединен с системной шиной 421 посредством интерфейса 460 ввода пользователя или иного подходящего механизма. В сетевом окружении программные модули, изображенные относительно компьютера 410, или их части могут храниться в удаленном устройстве памяти. В качестве примера, но не ограничиваясь этим, Фиг.6 иллюстрирует удаленные прикладные программы 485 как находящиеся на удаленном компьютере 480. Очевидно, что показанные сетевые соединения представляют собой лишь примеры, и могут быть использованы другие средства для установления линии связи между компьютерами.
Следует отметить, что описанные в настоящем документе концепции могут быть реализованы в компьютерной системе, такой как описанная со ссылкой на Фиг.6. Тем не менее, другие подходящие системы включают в себя сервер, компьютер, выделенный для обработки сообщений, или распределенную систему, в которой различные части концепций реализуются в различных частях распределенной вычислительной системы.
Несмотря на то, что сущность настоящего изобретения была описана в привязке к структурным особенностям и/или методологическим действиям, следует понимать, что сущность, определенная в прилагаемой формуле изобретения, не ограничена конкретными особенностями или действиями, описанными выше. Скорее, описанные выше конкретные структурные особенности и действия раскрыты как примеры форм осуществления пунктов формулы изобретения.
Claims (18)
1. Реализуемый компьютером способ определения, является ли получатель вызова реальной персоной или автоответчиком, способ содержит
посредством процессора:
прием звукового ответа от получателя вызова и обработку звукового ответа посредством распознавателя речи, имеющего языковую модель для преобразования звукового ответа в вывод, указывающий распознанную речь в текстовой форме; и
обработку вывода, указывающего распознанную речь, в текстовой форме со статистическим классификатором, настроенным по словесным фразам, обычно используемым реальными персонами, и по словесным фразам, обычно используемым автоматическими системами наряду с установлением несловесных особенностей, ассоциированных со звуковым ответом для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, при этом указанный классификатор является отдельным от указанной языковой модели, указанная обработка является основанной на статистическом анализе вывода, указывающего распознанную речь в текстовой форме наряду с несловесными особенностями, статистический анализ, проверяющий содержимое вывода, указывающего распознанную речь, и на основании этой проверки определение, является ли вывод, указывающий распознанную речь, более статистически согласуемым со словесными фразами, обычно используемыми реальными людьми, или со словесными фразами обычно используемыми автоматическими системами.
посредством процессора:
прием звукового ответа от получателя вызова и обработку звукового ответа посредством распознавателя речи, имеющего языковую модель для преобразования звукового ответа в вывод, указывающий распознанную речь в текстовой форме; и
обработку вывода, указывающего распознанную речь, в текстовой форме со статистическим классификатором, настроенным по словесным фразам, обычно используемым реальными персонами, и по словесным фразам, обычно используемым автоматическими системами наряду с установлением несловесных особенностей, ассоциированных со звуковым ответом для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, при этом указанный классификатор является отдельным от указанной языковой модели, указанная обработка является основанной на статистическом анализе вывода, указывающего распознанную речь в текстовой форме наряду с несловесными особенностями, статистический анализ, проверяющий содержимое вывода, указывающего распознанную речь, и на основании этой проверки определение, является ли вывод, указывающий распознанную речь, более статистически согласуемым со словесными фразами, обычно используемыми реальными людьми, или со словесными фразами обычно используемыми автоматическими системами.
2. Реализуемый компьютером способ по п.1, в котором обработка включает в себя определение длительности звукового ответа и использование длительности звукового ответа в качестве основы для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, и при этом модель статистического классификатора является сглаженной для захвата слов, не включенных в словесные фразы, обычно используемые реальными людьми, и в словесные фразы, обычно используемые автоматическими системами.
3. Реализуемый компьютером способ по п.1, в котором обработка включает в себя определение, присутствует ли в начале звукового ответа тишина, и использование присутствия тишины в качестве основы для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, и при этом языковая модель является языковой моделью n-граммы.
4. Реализуемый компьютером способ по п.3, в котором обработка включает в себя установление, присутствует ли тишина с периодом, соразмерным выбранной длине, в звуковом ответе изначально, и использование присутствия тишины в качестве основы для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, и при этом обработка звукового ответа с распознаванием речи для преобразования звукового ответа для вывода, указывающего распознанную речь в текстовой форме, содержит распознаватель речи, распознающий только часть звукового ответа.
5. Реализуемый компьютером способ по п.1, в котором обработка включает в себя использование индикации о том, смог ли распознаватель речи распознать какую-либо речь в звуковом ответе, в качестве основы для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, и при этом обработка звукового ответа с распознаванием речи для преобразования звукового ответа для вывода, указывающего распознанную речь в текстовой форме, содержит распознаватель речи, распознающий каждую часть звукового ответа.
6. Реализуемый компьютером способ по п.2, в котором обработка включает в себя использование статистического анализа, когда длительность фрагмента речи лежит в выбранном диапазоне, и при этом языковая модель сглажена, используя модель заполнителя n-граммы.
7. Реализуемый компьютером способ по п.1, в котором обработка включает в себя использование статистического анализа, когда длительность фрагмента речи лежит в выбранном диапазоне, и при этом языковая модель является контекстно-свободной грамматической моделью.
8. Машиночитаемый носитель, содержащий инструкции, которые при выполнении компьютером, определяют, является ли получатель вызова реальной персоной или автоответчиком, инструкции содержат:
прием звукового ответа от получателя вызова;
вызов языковой модели и использование распознанной речи для преобразования звукового ответа в вывод, указывающий распознанные словесные фразы в текстовой форме; и
обработку вывода, указывающего распознанные словесные фразы в текстовой форме для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, указанная обработка является основанной на статистическом анализе словесных фраз, используемых посредством получателя вызова в звуковом ответе, и независима от языковой модели, при этом каждая из указанных словесных фраз содержит множество слов, и при этом статистический анализ включает в себя вычисление уровня доверия, чтобы вывод, указывающий распознанные словесные фразы, соответствовал реальной персоне, и вычисление уровня доверия, что вывод, указывающий распознанные словесные фразы, соответствует автоответчику, вывод, указывающий, является ли получатель вызова реальной персоной или автоответчиком, является основанным, по меньшей мере, в части на вычисленных уровнях доверия.
прием звукового ответа от получателя вызова;
вызов языковой модели и использование распознанной речи для преобразования звукового ответа в вывод, указывающий распознанные словесные фразы в текстовой форме; и
обработку вывода, указывающего распознанные словесные фразы в текстовой форме для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, указанная обработка является основанной на статистическом анализе словесных фраз, используемых посредством получателя вызова в звуковом ответе, и независима от языковой модели, при этом каждая из указанных словесных фраз содержит множество слов, и при этом статистический анализ включает в себя вычисление уровня доверия, чтобы вывод, указывающий распознанные словесные фразы, соответствовал реальной персоне, и вычисление уровня доверия, что вывод, указывающий распознанные словесные фразы, соответствует автоответчику, вывод, указывающий, является ли получатель вызова реальной персоной или автоответчиком, является основанным, по меньшей мере, в части на вычисленных уровнях доверия.
9. Машиночитаемый носитель по п.8, в котором обработка содержит обработку словесных фраз посредством статистического классификатора, и использование вывода из статистического классификатора в качестве основы для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, и при этом вывод, указывающий является ли получатель вызова реальной персоной или автоответчиком, является смещенным в сторону классификации получателя вызова как реальной персоны.
10. Машиночитаемый носитель по п.8, в котором обработка включает в себя обработку звукового ответа, чтобы определить несловесные особенности, ассоциированные со звуковым ответом, и использование несловесных особенностей в качестве основы для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, и при этом вывод, указывающий является ли получатель вызова реальной персоной или автоответчиком, смещается в сторону классификации получателя вызова как автоответчика.
11. Машиночитаемый носитель по п.8, в котором обработка включает в себя определение длительности звукового ответа и использование длительности звукового ответа в качестве основы для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, и при этом вывод, указывающий является ли получатель вызова реальной персоной или автоответчиком, не имеет смещения.
12. Машиночитаемый носитель по п.8, в котором обработка включает в себя определение того, присутствует ли тишина в звуковом ответе изначально, и использование присутствия тишины в качестве основы для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком.
13. Машиночитаемый носитель по п.12, в котором обработка включает в себя определение того, присутствует ли тишина с периодом, соразмерным выбранной длине, в звуковом ответе изначально, и использование присутствия тишины в качестве основы для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком.
14. Машиночитаемый носитель по п.8, в котором обработка включает в себя использование индикации о том, смог ли распознаватель речи распознать какую-либо речь в звуковом ответе, в качестве основы для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком.
15. Машиночитаемый носитель по п.9, в котором обработка включает в себя использование статистического анализа, когда длительность фрагмента речи лежит в выбранном диапазоне.
16. Машиночитаемый носитель по п.9, дополнительно содержащий приведение в действие распознавателя речи, чтобы детектировать события вмешательства в разговор получателем вызова, и повторное воспроизведение сообщения получателю вызова, если событие вмешательства в разговор детектируется до того, как сообщение будет воспроизведено целиком.
17. Машиночитаемый носитель по п.16, в котором повторное воспроизведение сообщения получателю вызова включает в себя повторное воспроизведение сообщения получателю вызова, если получатель вызова является автоответчиком.
18. Реализуемый компьютером способ оставления сообщения на автоответчике, при этом способ содержит:
детектирование, является ли получатель вызова реальной персоной или автоответчиком, при этом детектирование содержит получение звукового ответа от получателя вызова и обработку звукового ответа посредством процессора, действующего как распознаватель речи, имеющий доступ к языковой модели для обеспечения вывода, указывающего распознанную речь;
обработку вывода, указывающего распознанную речь для обеспечения вывода, указывающего является ли полученный вызов реальной персоной или автоответчиком, указанная обработка, использующая статистический классификатор, настроенный по словесным фразам, обычно используемым реальной персоной, и по словесным фразам, обычно используемым автоматическими системами, вместе с установлением несловесных особенностей, ассоциированных с распознавателем речи для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, при этом указанный классификатор является отдельным от указанной языковой модели, указанная обработка является основанной на статистическом анализе вывода, указывающего распознанную речь в текстовой форме вместе с несловесными особенностями, статистический анализ, проверяющий содержимое вывода, указывающего распознанную речь, и на основании этой проверки определяющий, является ли вывод, указывающий распознанную речь более статистически согласуемым с словесными фразами, обычно используемыми реальными людьми, или с словесными фразами, обычно используемыми автоматическими системами; и
если получатель вызова является автоответчиком, затем выполняется распознавание речи, чтобы детектировать события вмешательства в разговор автоответчиком, при этом события вмешательства в разговор являются детектированием части приветствия от автоответчика после периода молчания;
детектирование множества событий вмешательства в разговор от автоответчика внутри одной сессии вызова; и
повторение перезапуска сообщения и проигрывание сообщения сначала на автоответчике при детектировании каждого из множества событий вмешательства до того, как сообщение будет воспроизведено целиком.
детектирование, является ли получатель вызова реальной персоной или автоответчиком, при этом детектирование содержит получение звукового ответа от получателя вызова и обработку звукового ответа посредством процессора, действующего как распознаватель речи, имеющий доступ к языковой модели для обеспечения вывода, указывающего распознанную речь;
обработку вывода, указывающего распознанную речь для обеспечения вывода, указывающего является ли полученный вызов реальной персоной или автоответчиком, указанная обработка, использующая статистический классификатор, настроенный по словесным фразам, обычно используемым реальной персоной, и по словесным фразам, обычно используемым автоматическими системами, вместе с установлением несловесных особенностей, ассоциированных с распознавателем речи для предоставления вывода, указывающего, является ли получатель вызова реальной персоной или автоответчиком, при этом указанный классификатор является отдельным от указанной языковой модели, указанная обработка является основанной на статистическом анализе вывода, указывающего распознанную речь в текстовой форме вместе с несловесными особенностями, статистический анализ, проверяющий содержимое вывода, указывающего распознанную речь, и на основании этой проверки определяющий, является ли вывод, указывающий распознанную речь более статистически согласуемым с словесными фразами, обычно используемыми реальными людьми, или с словесными фразами, обычно используемыми автоматическими системами; и
если получатель вызова является автоответчиком, затем выполняется распознавание речи, чтобы детектировать события вмешательства в разговор автоответчиком, при этом события вмешательства в разговор являются детектированием части приветствия от автоответчика после периода молчания;
детектирование множества событий вмешательства в разговор от автоответчика внутри одной сессии вызова; и
повторение перезапуска сообщения и проигрывание сообщения сначала на автоответчике при детектировании каждого из множества событий вмешательства до того, как сообщение будет воспроизведено целиком.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/485,011 | 2006-07-12 | ||
US11/485,011 US8065146B2 (en) | 2006-07-12 | 2006-07-12 | Detecting an answering machine using speech recognition |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2009100152A RU2009100152A (ru) | 2010-07-20 |
RU2439716C2 true RU2439716C2 (ru) | 2012-01-10 |
Family
ID=38923532
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2009100152/08A RU2439716C2 (ru) | 2006-07-12 | 2007-05-15 | Детектирование автоответчика путем распознавания речи |
Country Status (12)
Country | Link |
---|---|
US (1) | US8065146B2 (ru) |
EP (1) | EP2038877A4 (ru) |
JP (1) | JP5124573B2 (ru) |
KR (1) | KR20090033437A (ru) |
CN (1) | CN101490741B (ru) |
BR (1) | BRPI0714140A2 (ru) |
CA (1) | CA2653536A1 (ru) |
MX (1) | MX2008016354A (ru) |
NO (1) | NO20085203L (ru) |
RU (1) | RU2439716C2 (ru) |
TW (1) | TW200810504A (ru) |
WO (1) | WO2008008117A1 (ru) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2583150C1 (ru) * | 2014-11-28 | 2016-05-10 | Самсунг Электроникс Ко., Лтд. | Голосовая связь на естественном языке между человеком и устройством |
RU2672000C2 (ru) * | 2014-02-27 | 2018-11-08 | ФОРД ГЛОУБАЛ ТЕКНОЛОДЖИЗ, ЭлЭлСи | Устранение неоднозначности динамических команд |
US11532305B2 (en) | 2019-06-26 | 2022-12-20 | Samsung Electronics Co., Ltd. | Electronic apparatus and control method thereof |
RU2792288C1 (ru) * | 2019-06-26 | 2023-03-21 | Самсунг Электроникс Ко., Лтд. | Электронное устройство и способ управления им |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8396713B2 (en) * | 2007-04-30 | 2013-03-12 | Nuance Communications, Inc. | Method and system for using a statistical language model and an action classifier in parallel with grammar for better handling of out-of-grammar utterances |
US8370148B2 (en) * | 2008-04-14 | 2013-02-05 | At&T Intellectual Property I, L.P. | System and method for answering a communication notification |
CN101662544B (zh) * | 2008-08-26 | 2012-01-25 | 华为技术有限公司 | 一种外呼处理的方法、装置和系统 |
US8624875B2 (en) * | 2009-08-24 | 2014-01-07 | Semiconductor Energy Laboratory Co., Ltd. | Method for driving touch panel |
US8990071B2 (en) * | 2010-03-29 | 2015-03-24 | Microsoft Technology Licensing, Llc | Telephony service interaction management |
US20110313762A1 (en) * | 2010-06-20 | 2011-12-22 | International Business Machines Corporation | Speech output with confidence indication |
US8417223B1 (en) | 2010-08-24 | 2013-04-09 | Google Inc. | Advanced voicemail features without carrier voicemail support |
US20120209590A1 (en) * | 2011-02-16 | 2012-08-16 | International Business Machines Corporation | Translated sentence quality estimation |
US9100479B2 (en) * | 2011-03-10 | 2015-08-04 | Angel.Com Incorporated | Answering machine detection |
CN103295585A (zh) * | 2012-02-24 | 2013-09-11 | 北京英立讯科技有限公司 | 识别电话自动外呼是否真人应答的处理系统及方法 |
KR101909141B1 (ko) * | 2012-07-27 | 2018-10-17 | 엘지전자 주식회사 | 전자기기 및 전자기기의 제어방법 |
CN103973872B (zh) * | 2013-01-31 | 2016-12-28 | 联想(北京)有限公司 | 一种信息处理的方法及电子设备 |
GB2513924A (en) * | 2013-05-10 | 2014-11-12 | Noetica Ltd | Live person detection in an automated calling system |
WO2015134954A1 (en) * | 2014-03-07 | 2015-09-11 | Dialogtech Inc. | Phone fraud deterrence system for use with toll free and other fee generating numbers |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
GB2533139A (en) * | 2014-12-11 | 2016-06-15 | Ultra Communications Ltd | Telephone call processing |
CN104601834B (zh) * | 2014-12-19 | 2017-03-22 | 国家电网公司 | 多语种自动语音呼叫应答装置及其使用方法 |
US10277745B1 (en) | 2017-05-30 | 2019-04-30 | Noble Systems Corporation | Answering machine detection for a contact center |
US10148818B1 (en) | 2017-03-15 | 2018-12-04 | Noble Systems Corporation | Using enhanced answering machine detection (“AMD”) to detect reassigned numbers |
US10530928B1 (en) | 2017-03-15 | 2020-01-07 | Noble Systems Corporation | Answering machine detection (“AMD”) for a contact center by using AMD meta-data |
US10910105B2 (en) * | 2017-05-31 | 2021-02-02 | International Business Machines Corporation | Monitoring the use of language of a patient for identifying potential speech and related neurological disorders |
US11373635B2 (en) * | 2018-01-10 | 2022-06-28 | Sony Corporation | Information processing apparatus that fades system utterance in response to interruption |
KR102142338B1 (ko) * | 2018-12-26 | 2020-08-07 | 주식회사 어플라이 | 인공지능 통신 장치 및 그 동작 방법 |
KR102636409B1 (ko) | 2018-12-28 | 2024-02-15 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
JP7304627B2 (ja) * | 2019-11-08 | 2023-07-07 | 株式会社ハロー | 留守番電話判定装置、方法及びプログラム |
US11501067B1 (en) * | 2020-04-23 | 2022-11-15 | Wells Fargo Bank, N.A. | Systems and methods for screening data instances based on a target text of a target corpus |
KR102494422B1 (ko) | 2022-06-24 | 2023-02-06 | 주식회사 액션파워 | Ars 음성이 포함된 오디오 데이터에서 발화 음성을 검출하는 방법 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4941168A (en) | 1988-09-21 | 1990-07-10 | U.S. Telecom International Inc. | System for the recognition of automated telephone answering devices and delivery of prerecorded messages to such devices |
US5581602A (en) * | 1992-06-19 | 1996-12-03 | Inventions, Inc. | Non-offensive termination of a call detection of an answering machine |
US5371787A (en) | 1993-03-01 | 1994-12-06 | Dialogic Corporation | Machine answer detection |
US5644624A (en) | 1994-05-23 | 1997-07-01 | Caldwell Communications Development, Inc. | Automatic telephone call origination and retry system and method of operation |
DE19536212B4 (de) | 1994-09-28 | 2004-12-23 | Rockwell International Corp., Downers Grove | Anordnung zum Erkennen eines Anrufbeantworters |
US6233319B1 (en) | 1997-12-30 | 2001-05-15 | At&T Corp. | Method and system for delivering messages to both live recipients and recording systems |
US6324262B1 (en) | 1998-03-26 | 2001-11-27 | Market Ability, Inc. | Method and system for automated delivery of nontruncated messages |
US6161087A (en) * | 1998-10-05 | 2000-12-12 | Lernout & Hauspie Speech Products N.V. | Speech-recognition-assisted selective suppression of silent and filled speech pauses during playback of an audio recording |
US6574601B1 (en) * | 1999-01-13 | 2003-06-03 | Lucent Technologies Inc. | Acoustic speech recognizer system and method |
GB9930731D0 (en) * | 1999-12-22 | 2000-02-16 | Ibm | Voice processing apparatus |
US6999565B1 (en) * | 2000-02-01 | 2006-02-14 | Envoyworldwide, Inc. | Multi-mode message routing and management |
AU2001286937A1 (en) * | 2000-09-01 | 2002-03-13 | Eliza Corporation | Sppech recognition method and system to determine the status of an outbound telephone call |
US7054419B2 (en) | 2001-01-02 | 2006-05-30 | Soundbite Communications, Inc. | Answering machine detection for voice message delivery method and system |
US20030086541A1 (en) | 2001-10-23 | 2003-05-08 | Brown Michael Kenneth | Call classifier using automatic speech recognition to separately process speech and tones |
US7069221B2 (en) * | 2001-10-26 | 2006-06-27 | Speechworks International, Inc. | Non-target barge-in detection |
US6850602B1 (en) | 2002-03-27 | 2005-02-01 | Avaya Technology Corp. | Method and apparatus for answering machine detection in automatic dialing |
US7162421B1 (en) * | 2002-05-06 | 2007-01-09 | Nuance Communications | Dynamic barge-in in a speech-responsive system |
US7389230B1 (en) * | 2003-04-22 | 2008-06-17 | International Business Machines Corporation | System and method for classification of voice signals |
US20050013418A1 (en) * | 2003-07-15 | 2005-01-20 | Shye-Bin Chang | Emergency notification systems |
US7392188B2 (en) | 2003-07-31 | 2008-06-24 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method enabling acoustic barge-in |
DE60303278T2 (de) | 2003-11-27 | 2006-07-20 | Alcatel | Vorrichtung zur Verbesserung der Spracherkennung |
US9117460B2 (en) | 2004-05-12 | 2015-08-25 | Core Wireless Licensing S.A.R.L. | Detection of end of utterance in speech recognition system |
US7184521B2 (en) | 2004-06-10 | 2007-02-27 | Par3 Communications, Inc. | Method and system for identifying a party answering a telephone call based on simultaneous activity |
JP3874196B2 (ja) | 2004-08-16 | 2007-01-31 | 船井電機株式会社 | インターホン装置 |
KR20060077505A (ko) | 2004-12-30 | 2006-07-05 | 주식회사 한맥소프트웨어 | 이단계 예측 전화 연결 시스템 |
US20060235694A1 (en) * | 2005-04-14 | 2006-10-19 | International Business Machines Corporation | Integrating conversational speech into Web browsers |
-
2006
- 2006-07-12 US US11/485,011 patent/US8065146B2/en not_active Expired - Fee Related
-
2007
- 2007-05-15 RU RU2009100152/08A patent/RU2439716C2/ru not_active IP Right Cessation
- 2007-05-15 EP EP07777047A patent/EP2038877A4/en not_active Withdrawn
- 2007-05-15 CN CN2007800264794A patent/CN101490741B/zh not_active Expired - Fee Related
- 2007-05-15 MX MX2008016354A patent/MX2008016354A/es not_active Application Discontinuation
- 2007-05-15 WO PCT/US2007/011567 patent/WO2008008117A1/en active Application Filing
- 2007-05-15 JP JP2009519430A patent/JP5124573B2/ja not_active Expired - Fee Related
- 2007-05-15 CA CA002653536A patent/CA2653536A1/en not_active Withdrawn
- 2007-05-15 KR KR1020097000363A patent/KR20090033437A/ko not_active IP Right Cessation
- 2007-05-15 BR BRPI0714140-8A patent/BRPI0714140A2/pt not_active Application Discontinuation
- 2007-05-21 TW TW096118089A patent/TW200810504A/zh unknown
-
2008
- 2008-12-12 NO NO20085203A patent/NO20085203L/no unknown
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2672000C2 (ru) * | 2014-02-27 | 2018-11-08 | ФОРД ГЛОУБАЛ ТЕКНОЛОДЖИЗ, ЭлЭлСи | Устранение неоднозначности динамических команд |
RU2583150C1 (ru) * | 2014-11-28 | 2016-05-10 | Самсунг Электроникс Ко., Лтд. | Голосовая связь на естественном языке между человеком и устройством |
US11532305B2 (en) | 2019-06-26 | 2022-12-20 | Samsung Electronics Co., Ltd. | Electronic apparatus and control method thereof |
RU2792288C1 (ru) * | 2019-06-26 | 2023-03-21 | Самсунг Электроникс Ко., Лтд. | Электронное устройство и способ управления им |
Also Published As
Publication number | Publication date |
---|---|
NO20085203L (no) | 2008-12-12 |
KR20090033437A (ko) | 2009-04-03 |
CA2653536A1 (en) | 2008-01-17 |
TW200810504A (en) | 2008-02-16 |
EP2038877A1 (en) | 2009-03-25 |
US20080015846A1 (en) | 2008-01-17 |
WO2008008117A1 (en) | 2008-01-17 |
JP2009543158A (ja) | 2009-12-03 |
CN101490741A (zh) | 2009-07-22 |
CN101490741B (zh) | 2012-01-11 |
MX2008016354A (es) | 2009-01-16 |
RU2009100152A (ru) | 2010-07-20 |
BRPI0714140A2 (pt) | 2012-12-25 |
EP2038877A4 (en) | 2010-08-11 |
US8065146B2 (en) | 2011-11-22 |
JP5124573B2 (ja) | 2013-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2439716C2 (ru) | Детектирование автоответчика путем распознавания речи | |
US9270817B2 (en) | Method for determining the on-hold status in a call | |
US8473290B2 (en) | Voice barge-in in telephony speech recognition | |
US9293133B2 (en) | Improving voice communication over a network | |
US9583108B2 (en) | Voice detection for automated communication system | |
JP4917729B2 (ja) | 以後のオフライン音声認識のための音声情報を記録する記録装置 | |
US8532995B2 (en) | System and method for isolating and processing common dialog cues | |
US20070067172A1 (en) | Method and apparatus for performing conversational opinion tests using an automated agent | |
US20050207543A1 (en) | Method and apparatus for voice interactive messaging | |
JP2014191029A (ja) | 音声認識システムおよび音声認識システムの制御方法 | |
JP2009003040A (ja) | 音声対話装置、音声対話方法及びロボット装置 | |
JP4852584B2 (ja) | 禁止語発信防止方法、禁止語発信防止電話、禁止語発信防止サーバ | |
US8949134B2 (en) | Method and apparatus for recording/replaying application execution with recorded voice recognition utterances | |
EP2763136A1 (en) | Method and system for obtaining relevant information from a voice communication | |
US20130151248A1 (en) | Apparatus, System, and Method For Distinguishing Voice in a Communication Stream | |
CN112435669B (zh) | 一种机器人多轮对话语音交互方法、系统和终端设备 | |
JP6544439B2 (ja) | 困惑状態判定装置、困惑状態判定方法、及びプログラム | |
JP4408665B2 (ja) | 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム | |
JP2013257428A (ja) | 音声認識装置 | |
CN112883178B (zh) | 对话方法、装置、服务器及存储介质 | |
JP4745837B2 (ja) | 音響分析装置及びコンピュータプログラム、音声認識システム | |
CN116975242A (zh) | 语音播报打断处理方法、装置、设备和存储介质 | |
JP2011119943A (ja) | 情報処理装置およびその制御方法 | |
WO2014152542A2 (en) | Voice detection for automated communication system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PC41 | Official registration of the transfer of exclusive right |
Effective date: 20150306 |
|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20180516 |