RU2689203C2 - Гибкая схема для настройки языковой модели - Google Patents

Гибкая схема для настройки языковой модели Download PDF

Info

Publication number
RU2689203C2
RU2689203C2 RU2016138130A RU2016138130A RU2689203C2 RU 2689203 C2 RU2689203 C2 RU 2689203C2 RU 2016138130 A RU2016138130 A RU 2016138130A RU 2016138130 A RU2016138130 A RU 2016138130A RU 2689203 C2 RU2689203 C2 RU 2689203C2
Authority
RU
Russia
Prior art keywords
components
language modeling
information
list
language
Prior art date
Application number
RU2016138130A
Other languages
English (en)
Other versions
RU2016138130A (ru
RU2016138130A3 (ru
Inventor
Майкл ЛЕВИТ
Бенуа ДИМУЛЕН
Эрман ГУЭЛЬМАН
Шуанюй ЧАН
Сарангараджан ПАРТАСАРАТИ
Original Assignee
МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи filed Critical МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи
Publication of RU2016138130A publication Critical patent/RU2016138130A/ru
Publication of RU2016138130A3 publication Critical patent/RU2016138130A3/ru
Application granted granted Critical
Publication of RU2689203C2 publication Critical patent/RU2689203C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/02Digital computers in general; Data processing equipment in general manually operated with input through keyboard and computation using a built-in program, e.g. pocket calculators
    • G06F15/0225User interface arrangements, e.g. keyboard, display; Interfaces to other computer systems
    • G06F15/0233User interface arrangements, e.g. keyboard, display; Interfaces to other computer systems with printing provisions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • User Interface Of Digital Computer (AREA)
  • Stored Programmes (AREA)
  • Machine Translation (AREA)

Abstract

Изобретение относится к вычислительным устройствам. Технический результат направлен на расширение арсенала средств того же назначения. Компьютерно-реализуемый способ настройки компонентов языкового моделирования включает этапы, на которых отображают список компонентов языкового моделирования, принимают выбор одного или более компонентов языкового моделирования из данного списка, принимают выбор фиксированного значения веса для выбранных одного или более компонентов языкового моделирования, генерируют информацию на основе упомянутого выбора, отправляют эту информацию поставщику услуг и принимают от поставщика услуг настроенную комбинацию выбранных компонентов языкового моделирования на основе упомянутой информации. 3 н. и 17 з.п. ф-лы, 8 ил.

Description

УРОВЕНЬ ТЕХНИКИ
[0001] Многие вычислительные устройства, такие как смартфоны, настольные компьютеры, переносные компьютеры, планшетные компьютеры, игровые консоли и т.п., используют приложения, которые включают в себя автоматическое распознавание речи (ASR) для использования в ряде разных областей, таких как голосовой поиск и диктовка коротких сообщений. Для того, чтобы улучшить качество распознавания речи, языковые модели (например, совершение покупок, игры, музыка, фильмы и т.д.) часто используются для способствования распознаванию речи, которая сфокусирована на разных областях. Текущие недостатки, ассоциированные с использованием языковых моделей, включают в себя сценарии ASR, в которых разные области должны обслуживаться одновременно поставщиком услуг распознавания. В этих сценариях, может требоваться, чтобы многие потенциальные огромные языковые модели удерживались в памяти, что может исчерпать ресурсы поставщиков услуг распознавания. Именно в отношении этих и других моментов и были сделаны варианты осуществления.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
[0002] Это краткое изложение сущности изобретения предоставлено для введения подборки концепций в упрощенной форме, которые дополнительно описаны ниже в "Подробном описании". Эта краткое изложение не предназначено ни для идентификации ключевых признаков или существенных признаков заявленного изобретения, ни для использования в качестве помощи при определении объема заявленного изобретения.
[0003] Предложены варианты осуществления для настройки компонентов языкового моделирования для распознавания речи. Список компонентов языкового моделирования может быть сделан доступным посредством вычислительного устройства. Затем может быть отправлена подсказка поставщику услуг распознавания для комбинирования многочисленных компонентов языкового моделирования из данного списка. Подсказка может быть основана на некотором числе разных областей. Настроенная комбинация компонентов языкового моделирования может быть затем принята вычислительным устройством на основе подсказки.
[0004] Эти и другие признаки и преимущества будут понятны после прочтения нижеследующего подробного описания и просмотра ассоциированных с ним чертежей. Следует понимать, что и упомянутое выше общее описание и нижеследующее подробное описание являются только иллюстративными и не ограничивают заявленное изобретение.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[0005] Фигура 1 является блок-схемой, иллюстрирующей систему для настройки компонентов языкового моделирования для распознавания речи, в соответствии с вариантом осуществления;
[0006] Фигура 2 является блок-схемой, иллюстрирующей различные подсказки, которые могут быть использованы системой по Фигуре 1, в соответствии с вариантом осуществления;
[0007] Фигура 3 является блок-схемой, иллюстрирующей различные области, которые могут быть использованы в системе по Фигуре 1, в соответствии с вариантом осуществления;
[0008] Фигура 4 является схемой последовательности операций, иллюстрирующей стандартную программу для настройки компонентов языкового моделирования для распознавания речи, в соответствии с вариантом осуществления;
[0009] Фигура 5 является упрощенной блок-схемой вычислительного устройства, с помощью которого различные варианты осуществления могут быть применены на практике;
[0010] Фигура 6A является упрощенной блок-схемой мобильного вычислительного устройства, с помощью которого различные варианты осуществления могут быть применены на практике;
[0011] Фигура 6B является упрощенной блок-схемой мобильного вычислительного устройства, с помощью которого различные варианты осуществления могут быть применены на практике; и
[0012] Фигура 7 является упрощенной блок-схемой распределенной вычислительной системы, в которой различные варианты осуществления могут быть применены на практике.
ПОДРОБНОЕ ОПИСАНИЕ
[0013] Предложены варианты осуществления для настройки компонентов языкового моделирования для распознавания речи. Список компонентов языкового моделирования может быть сделан доступным для вычислительного устройства. Затем может быть отправлена подсказка поставщику услуг распознавания для комбинирования многочисленных компонентов языкового моделирования из данного списка. Подсказка может быть основана на одной из многочисленных областей. Настроенная комбинация компонентов языкового моделирования может быть затем принята вычислительным устройством на основе подсказки.
[0014] В нижеследующем подробном описании сделаны ссылки на прилагаемые чертежи, которые формируют его часть и на которых показаны в качестве иллюстраций конкретные варианты осуществления или примеры. Эти варианты осуществления могут быть скомбинированы, могут быть использованы другие варианты осуществления, и структурные изменения могут быть сделаны без отступления от сущности и объема настоящего изобретения. Нижеследующее подробное описание вследствие этого не следует принимать в ограничивающем смысле, и объем настоящего изобретения определяется прилагаемой формулой изобретения и ее эквивалентами.
[0015] Обращаясь теперь к чертежам, на которых подобные номера представляют подобные элементы на нескольких Фигурах, могут быть рассмотрены различные аспекты настоящего изобретения. Фигура 1 является блок-схемой, иллюстрирующей систему 100, которая может быть использована для настройки компонентов языкового моделирования для распознавания речи, в соответствии с вариантом осуществления. Система 100 может включать в себя поставщика 102 услуг распознавания, который может быть на связи с вычислительным устройством 150, выполненным с возможностью приема аудио и/или текстового ввода от одного или более пользователей (не показано). В одном варианте осуществления, поставщик 102 услуг распознавания может быть сконфигурирован для интерполяции языковой модели "на лету" или по сети для распознавания речи на основе "подсказок" 160 (т.е., указания или наставления), предоставленных приложением 170, исполняющимся на вычислительном устройстве 150 (т.е., "подсказки"), для различных комбинаций компонентов языкового моделирования, приспособленных для конкретных областей или сценариев распознавания речи. В частности, и как будет подробно описано в дальнейшем, подсказки 160, предоставляемые приложением 170, могут содержать гибкую схему для настройки языковой модели поставщиком 102 услуг распознавания.
[0016] В соответствии с различными вариантами осуществления, вычислительное устройство 150 может содержать, без ограничения, настольный компьютер, переносной компьютер, интеллектуальный телефон, игровую видеоконсоль или телевизор. Вычислительное устройство 150 может также содержать или иметь связь с одним или более устройств записи (не показано), используемых для обнаружения речи и приема видео/изображений (например, MICROSOFT KINECT, микрофон(ы) и подобные). Вычислительное устройство 150 может хранить приложение 170, которое может быть выполнено с возможностью предоставления подсказок 160, которые могут быть использованы поставщиком 102 услуг распознавания для настройки компонентов языкового моделирования (LM) 120. В соответствии с вариантом осуществления (и как будет подробно описано ниже), приложение 170 может быть выполнено с возможностью генерирования списка 165 LM-компонентов, включающего в себя LM-компоненты 120. В варианте осуществления, LM-компоненты 120 могут содержать компоненты 125A-125N, которые могут быть использованы для распознавания речи. В некоторых вариантах осуществления, различные комбинации компонентов 125A-125N могут включать в себя или могут обеспечиваться весами 130 (например, разработчиком приложения), на основе конкретной области, сценария или ситуации. Например, языковая модель, содержащая комбинацию компонентов 125A-125N, подстроенную под область или сценарий, который в первую очередь используется для игр, может иметь нижеследующие применяемые веса: Игры: 0,5, Фильмы 0,3 и Музыка 0,2). Также возможны другие типы компонентов (например, совершение покупок и т.д.) и комбинации весов.
[0017] В некоторых вариантах осуществления, LM-компоненты 120 могут быть использованы при выборе настроенных комбинаций компонентов (т.е., языковых моделей 105) поставщиком 102 услуг распознавания на основе указания, содержащегося в подсказках 160, принятых из приложения 170. В частности, языковые модели 105 могут включать в себя, без ограничения, предварительно скомпилированную комбинацию 110 компонентов, комбинацию 112 компонентов на основе темы, комбинацию 114 компонентов с фиксированными весами и другие комбинации 116 компонентов. Например, языковая модель, содержащая предварительно скомпилированную комбинацию 110 компонентов, может быть приспособлена под конкретную область, такую как голосовой поиск для диктовки коротких сообщений, языковая модель, содержащая комбинацию 112 компонентов на основе темы, может быть основана на предварительно скомпилированном списке доступных элементов на основе одной или более тем/стилей, соответствующих LM-компонентам, доступным в текущий момент в системе 100 (например, совершение покупок, игры, музыка и т.д.), и языковая модель, содержащая комбинацию 114 компонентов с фиксированными весами, может содержать существующие комбинации с фиксированными весами из LM-компонентов (например, веса 130, примененные к LM-компонентам), приспособленные в соответствии с интуицией разработчика для конкретного сценария.
[0018] Как будет более подробно описано в дальнейшем, поставщик 102 услуг распознавания может использовать подсказки 160 при осуществлении выбора соответствующих комбинаций LM-компонентов для различных ситуаций или сценариев распознавания. В одном варианте осуществления, подсказки 160 могут быть поданы приложением 170 поставщику 102 услуг распознавания как часть запроса 175 распознавания (т.е., для интерполяции языковой модели "на лету". В другом варианте осуществления, подсказки 160 могут быть поданы приложением 170 поставщику 102 услуг распознавания как часть процесса инициализации в режиме "оффлайн". В соответствии с вариантом осуществления, приложение 170 может содержать приложение распознавания речи, такое как приложения BING VOICE SEARCH, WINDOWS PHONE SHORT MESSAGE DICTATION и XBOX MARKET PLACE VOICE SEARCH от MICROSOFT CORPORATION из Редмонда, Вашингтон. Однако следует понимать, что другие приложения (включая операционные системы) от других изготовителей могут в качестве альтернативы быть использованы в соответствии с различными вариантами осуществления, описанными в настоящем документе.
[0019] Фигура 2 является блок-схемой, иллюстрирующей различные подсказки 160, которые могут быть использованы системой 100 по Фигуре 1, в соответствии с вариантом осуществления. Подсказки 160 могут содержать подсказку 210 предварительно заданной комбинации, подсказку 220 тем распознавания, подсказку 230 повторно используемой существующей комбинации, подсказку 240 текстового корпуса и подсказку 250 аудиокорпуса. Подсказка 210 предварительно заданной комбинации может содержать предварительно заданные выборы (например, разработчиком приложения) LM-компонентов (например, LM-компонентов 120), которые охватывают широкие области, такие как голосовой поиск, диктовка коротких сообщений и т.д. Предварительно заданные выборы могут содержать, например, предварительно скомпилированную языковую модель или существующую комбинацию с фиксированными весами из LM-компонентов для интерпретации компонентов "на лету" поставщиком 102 услуг распознавания.
[0020] Подсказка 220 тем распознавания может содержать ручной выбор одной или более тем/стилей из предварительно скомпилированного списка доступных элементов, соответствующих LM-компонентам 120. Например, если LM-компоненты включают в себя совершение покупок, игры, музыку, фильмы и т.д., то предварительно скомпилированный список может включать в себя элементы, соответствующие LM-компонентам, выбранным разработчиком приложения, которые определены как релевантные конкретному приложению распознавания речи (например, игры, фильмы и музыка для игровой консоли). Как рассмотрено выше, в некоторых вариантах осуществления, разработчиком приложения LM-компонентам могут также быть предоставлены веса. Следует понимать, что после того, как поставщик 102 услуг распознавания принимает подсказку 220 тем распознавания, поставщик 102 услуг распознавания может интерполировать выбранные LM-компоненты с предоставленными весами после приема запроса распознавания из приложения 170.
[0021] Подсказка 230 повторно используемой существующей комбинации может указывать повторное использование существующей характерной для сценария комбинации LM-компонентов. Например, разработчик приложения может уже иметь существующее приложение распознавания, для которого комбинация LM-компонентов была оптимизирована ранее. В ответ на подсказку 230 повторно используемой существующей комбинации, та же комбинация может быть повторно использована поставщиком 102 услуг распознавания для нового, но аналогичного сценария.
[0022] Подсказка 240 текстового корпуса может содержать внутриобластной текстовый корпус для системы 100, чтобы изучить оптимальные коэффициенты интерполяции LM-компонентов по отношению к корпусу. Например, если разработчик приложения предоставляет коллекцию расшифровок, относящихся к программному обеспечению, можно ожидать, что результирующая языковая модель справится с аудиозапросами, относящимися к программному обеспечению. Специалисты в данной области техники должны понимать, что способы, такие как алгоритм максимизации ожидания, могут быть использованы для оптимизирования весовых векторов LM-компонентов по отношению к корпусу. Следует понимать, что по сравнению с подсказками 210-230, рассмотренными выше, подсказка 240 текстового корпуса (также как подсказка 250 аудиокорпуса, рассмотренная ниже) являются неявными подсказками.
[0023] Подсказка 250 аудиокорпуса может содержать внутриобластной аудиокорпус для системы 100, чтобы изучить оптимальные коэффициенты интерполяции LM-компонентов по отношению к корпусу. Следует понимать, что в варианте осуществления, для внутриобластного текстового корпуса может требоваться большее число выборок, для того, чтобы достигнуть аналогичной точности распознавания.
[0024] Фигура 3 является блок-схемой, иллюстрирующей различные области 300, которые могут быть использованы в системе 100 по Фигуре 1, в соответствии с вариантом осуществления. Области 300 могут включать в себя широкие области, такие как область 310 голосового поиска и область 320 диктовки коротких сообщений. Области 300 могут также включать в себя узкие области, такие как область 330 игровых консолей. В некоторых вариантах осуществления, приложение 170 может быть выполнено с возможностью присваивания интуитивных имен областей (например, "область XBOX") для обозначения комбинаций LM-компонентов. Области 300 могут также включать в себя другие области 340, которые могут содержать широкие или узкие области в дополнение к областям, идентифицированным выше.
[0025] Фигура 4 является схемой последовательности операций, иллюстрирующей стандартную процедуру 400 для настройки компонентов языкового моделирования для распознавания речи, в соответствии с вариантом осуществления. При чтении рассмотрения стандартных процедур, представленных в настоящем документе, следует понимать, что логические операции различных вариантов осуществления настоящего изобретения реализованы (1) как последовательность реализуемых компьютером действий или программные модули, выполняющиеся на вычислительной системе и/или (2) как взаимосоединенные машинные логические схемы или модули схем внутри вычислительной системы. Реализация зависит от выбора, зависящего от требований к эксплуатационным характеристикам вычислительной системы, реализующей данное изобретение. Соответственно, логические операции, проиллюстрированные на Фигуре 4 и составляющие различные варианты осуществления, описанные в настоящем документе, называются по-разному, как операции, структурные устройства, действия или модули. Специалист в данной области техники поймет, что эти операции, структурные устройства, действия и модули могут быть реализованы программно, аппаратно, программно-аппаратно, в специальной цифровой логике и любой их комбинации без отступления от сущности и объема настоящего изобретения, как изложено в формуле изобретения, приведенной в настоящем документе.
[0026] Стандартная процедура 400 начинается с операции 405, где приложение 170, исполняющееся на вычислительном устройстве 150, может представить список компонентов языкового моделирования (LM) для выбора пользователем (например, разработчиком приложения). В различных вариантах осуществления, список может быть отображен в пользовательском интерфейсе 155 или, в качестве альтернативы, предоставлен разработчику приложения посредством программного доступа. Например, список может содержать список 165 LM-компонентов, описанный выше по отношению к Фигуре 1.
[0027] С операции 405 стандартная процедура 400 переходит к операции 410, где приложение 170, исполняющееся на вычислительном устройстве 150, может отправить подсказку 160 для комбинирования выбранных LM-компонентов из списка. Подсказка 160 может быть основана на одной или более из областей 300. Например, в одном варианте осуществления, подсказка 160 может содержать выбор предварительно скомбинированной языковой модели (например, предварительно скомпилированную комбинацию 110 компонентов), которая основана на одной или более областях. В другом варианте осуществления, подсказка 160 может содержать выбор комбинации с фиксированными весами из LM-компонентов (например, комбинацию 114 компонентов с фиксированными весами) на основе одной или более областей. В еще одном варианте осуществления, подсказка 160 может содержать выбор одной или более тем распознавания (из предварительно скомпилированного списка), соответствующих одному или более из LM-компонентов (например, комбинацию 112 на основе темы). Как рассмотрено выше по отношению к Фигуре 1, один или более весов 130 могут также быть применены к LM-компонентам. В еще одном варианте осуществления, подсказка 160 может содержать внутриобластной текстовый корпус или внутриобластной аудиокорпус, как описано выше по отношению к Фигуре 2. В еще одном варианте осуществления, подсказка 160 может содержать существующую комбинацию LM-компонентов для повторного использования. Следует понимать, в одном варианте осуществления, подсказки 160 могут быть отправлены с запросом распознавания поставщику 102 услуг распознавания посредством приложения 170. В другом варианте осуществления, подсказки 160 могут быть отправлены поставщику 102 услуг распознавания до отправки запросов распознавания как часть процесса инициализации в режиме "оффлайн". Например, разработчик приложения может подать подсказку 160 до запуска приложения как часть процесса регистрации, тем самым обеспечивая поставщику 102 услуг распознавания достаточно времени для обработки подсказки 160. Следует понимать, что неявные подсказки, такие как внутриобластной текстовый корпус и внутриобластной аудиокорпус (рассмотренные выше), могут быть поданы таким образом.
[0028] С операции 410 стандартная процедура 400 переходит к операции 415, где приложение 170, исполняющееся на вычислительном устройстве 150, может принять настроенную комбинацию LM-компонентов на основе подсказки 160. В частности, вычислительное устройство 150 может принять языковую модель (например, одну из языковых моделей 105), настроенную поставщиком 102 услуг распознавания на основе указания, принятого в подсказке 160.
[0029] С операции 415 стандартная процедура 400 переходит к операции 420, где приложение 170, исполняющееся на вычислительном устройстве 150, может поддерживать соединение между поданной подсказкой 160 и ассоциированными LM-компонентами. Например, приложение 170 может быть выполнено с возможностью поддержания стабильного соединения между подсказками, содержащими темы, выбранные вручную разработчиком приложения, и жизненным циклом соответствующей LM-комбинации или языковой модели, настроенной поставщиком 102 услуг распознавания. В частности, и в соответствии с вариантом осуществления, разработчик приложения может быть обеспечен уникальным ID, который может быть использован для обращения к конкретной настроенной языковой модели, используемой для распознавания в соответствии с конкретным сценарием (или сравнимым сценарием) ,идентифицированным разработчиком приложения. Следует понимать, что вышеупомянутый подход может быть применен с различными уровнями детализации, в том числе, но не ограничиваясь этим, по каждой области, по каждому сценарию, по каждому приложению, по каждой области приложения и по каждому пользователю приложения, так же как и их комбинации. С операции 415, стандартная процедура 400 затем завершается.
[0030] Фигуры 5-7 и ассоциированные описания предусматривают рассмотрение многообразия операционных окружений, в которых варианты осуществления данного изобретения могут быть применены на практике. Однако, устройства и системы, проиллюстрированные и рассмотренные по отношению к Фигурам 5-7, служат в целях примера и иллюстрации и не ограничивают огромное число конфигураций вычислительных устройств, которые могут быть использованы для применения на практике вариантов осуществления данного изобретения, описанных в настоящем документе.
[0031] Фигура 5 является блок-схемой, иллюстрирующей примерные физические компоненты вычислительного устройства 500, с помощью которого варианты осуществления могут быть применены на практике. В базовой конфигурации, вычислительное устройство 500 может включать в себя по меньшей мере один блок 502 обработки и системную память 504. В зависимости от конфигурации и типа вычислительного устройства, системная память 504 может содержать, но не ограничена этим, энергозависимую (например, оперативную память (RAM)), энергонезависимую (например, постоянную память (ROM)), flash-память или любую комбинацию. Системная память 504 может включать в себя операционную систему 505 и приложение 170. Операционная система 505, например, может подходить для управления функционированием вычислительного устройства 500 и, в соответствии с вариантом осуществления, может содержать операционные системы WINDOWS от MICROSOFT CORPORATION из Редмонда, Вашингтон. Приложение 170 (которое, в некоторых вариантах осуществления, может быть включено в операционную систему 505) может содержать функциональность для выполнения стандартных программ, включающую в себя, например, настройку компонентов языкового моделирования, как описано выше относительно операций в стандартной программе 400 по Фигуре 4.
[0032] Вычислительное устройство 500 может иметь дополнительные признаки или функциональность. Например, вычислительное устройство 500 может также включать в себя дополнительные устройства хранения данных (съемные и/или несъемные), такие как, например, магнитные диски, оптические диски, твердотельные устройства хранения ("SSD"), flash-память или лента. Такое дополнительное хранилище проиллюстрировано на Фигуре 5 посредством съемного хранилища 509 и несъемного хранилища 510. Вычислительное устройство 500 может также иметь устройство(а) 512 ввода, такое как клавиатура, мышь, перо, устройство ввода звука, сенсорное устройство ввода для приема жестов, акселерометр или датчик вращения, и т.д. Устройство(а) 514 вывода, такое как дисплей, динамики, принтер и т.д. может также быть включено. Вышеупомянутые устройства являются примерами и могут быть использованы другие. Вычислительное устройство 500 может включать в себя одно или более соединений 516 связи, обеспечивающих связь с другими вычислительными устройствами 518. Примеры подходящих соединений 516 связи включают в себя, но не ограничены этим, схему РЧ-передатчика, приемника и/или приемопередатчика; универсальную последовательную шину (USB), параллельные и/или последовательные порты.
[0033] К тому же, различные варианты осуществления могут быть применены на практике в электрической схеме, содержащей дискретные электронные элементы, объединенных или интегрированных кристаллах интегральной схемы, содержащих логические вентили, схеме, использующей микропроцессор, или на одиночном кристалле, содержащем электронные элементы или микропроцессоры. Например, различные варианты осуществления могут быть применены на практике посредством системы на кристалле ("SOC"), где каждый или многие из компонентов, проиллюстрированных на Фигуре 5, могут быть интегрированы в единую интегральную схему. Такое SOC-устройство может включать в себя один или более блоков обработки, графических блоков, блоков связи, блоков виртуализации системы и функциональность различных приложений, все из которых интегрированы (или "выжжены") на подложке кристалла, как единую интегральную схему. При функционировании посредством SOC, функциональностью, описанной в настоящем документе, можно оперировать посредством специализированной логики, интегрированной с другими компонентами вычислительного устройства/системы 500 на единой интегральной схеме (кристалле). Варианты осуществления могут также быть применены на практике с использованием других технологий, способных выполнять логические операции, такие как, например, И, ИЛИ и НЕТ, включающих в себя, но не ограниченных этим, механические, оптические, флюидные и квантовые технологии. В дополнение, варианты осуществления могут быть применены на практике внутри компьютера общего назначения или любых других схемах или системах.
[0034] Термин "компьютерно-читаемые носители", который используется в настоящем документе, может включать в себя компьютерные носители информации. Компьютерные носители информации могут включать в себя энергозависимые и энергонезависимые, съемные и несъемные носители, реализованные посредством любого способа или технологии для хранения информации, такой как компьютерно-читаемые инструкции, структуры данных или программные модули. Системная память 504, съемное устройство 509 хранения и несъемное устройство 510 хранения - все являются примерами компьютерных носителей информации (т.е., запоминающих устройств). Компьютерные носители информации могут включать в себя RAM, ROM, электрически стираемую программируемую постоянную память (EEPROM), flash-память или память другой технологии, CD-ROM, универсальные цифровые диски (DVD) или другое оптическое хранилище, магнитные кассеты, магнитную пленку, накопитель на магнитном диске или другие магнитные устройства хранения, или любое другое изделие производства, которое может быть использовано для хранения информации и к которому может быть осуществлен доступ посредством вычислительного устройства 500. Любые такие компьютерные носители информации могут быть частью вычислительного устройства 500. Компьютерные носители информации не включают в себя несущую волну или другой распространяемый или модулированный сигнал данных.
[0035] Среды связи могут быть осуществлены посредством компьютерно-читаемых инструкций, структур данных, программных модулей, или других данных в модулированном сигнале данных, как например, волна несущей или другой транспортный механизм, и содержат любые среды доставки информации. Термин "модулированный сигнал данных" может описывать сигнал, у которого одна или более его характеристик задаются или изменяются таким образом, чтобы кодировать информацию в сигнале. В качестве примера, а не ограничения, среды связи могут включать в себя проводные среды, такие как проводная сеть или прямое проводное соединение, и беспроводные среды, такие как акустические, радиочастотные (РЧ), инфракрасные и другие беспроводные среды.
[0036] Фигуры 6A и 6B иллюстрируют подходящее мобильное вычислительное окружение, например, мобильное вычислительное устройство 650, которое может включать в себя, без ограничения, интеллектуальный телефон, планшетный персональный компьютер, переносной компьютер и подобные, с помощью которых различные варианты осуществления могут быть применены на практике. Со ссылкой на Фигуру 6A, проиллюстрировано примерное мобильного вычислительное устройство 650 для реализации вариантов осуществления. В базовой конфигурации, мобильное вычислительное устройство 650 является карманным компьютером, имеющим как элементы ввода, так и элементы вывода. Элементы ввода могут включать в себя дисплей 625 с сенсорным экраном и кнопки 610 ввода, которые обеспечивают пользователю возможность ввода информации в мобильное вычислительное устройство 650. Мобильное вычислительное устройство 650 может также включать в себя опциональный боковой элемент 620 ввода, обеспечивающий возможность дополнительного пользовательского ввода. Опциональным боковым элементом 620 ввода может быть вращательный переключатель, кнопка или элемент ручного ввода любого другого типа. В альтернативных вариантах осуществления, мобильное вычислительное устройство 650 может включать в себя больше или меньше элементов ввода. В еще одном альтернативном варианте осуществления, мобильным вычислительным устройством является портативная телефонная система, такая как сотовый телефон, имеющий дисплей 625 и кнопки 610 ввода. Мобильное вычислительное устройство 650 может также включать в себя опциональную клавишную панель 605. Опциональной клавишной панелью 605 может быть физическая клавишная панель или "программная" клавишная панель, сгенерированная на дисплее с сенсорным экраном.
[0037] Мобильное вычислительное устройство 650 включает в себя элементы вывода, такие как дисплей 625, который может отображать графический пользовательский интерфейс (GUI). Другие элементы вывода включают в себя динамик 630 и LED 680. Дополнительно, мобильное вычислительное устройство 650 может включать в себя модуль вибрации (не показан), который предписывает мобильному вычислительному устройству 650 вибрировать для уведомления пользователя о событии. В еще одном варианте осуществления, мобильное вычислительное устройство 650 может включать в себя разъем для наушников (не показан) для обеспечения других средств предоставления выходных сигналов.
[0038] Хотя описано в настоящем документе в комбинации с мобильным вычислительным устройством 650, в альтернативных вариантах осуществления может быть использовано в комбинации с любым числом компьютерных систем, таких как окружения настольных систем, системы с переносными компьютерами или компьютерами типа "ноутбук", многопроцессорные системы, основанная на микропроцессорах или программируемая потребительская электроника, сетевые ПК, миникомпьютеры, центральные ЭВМ и подобные. Различные варианты осуществления могут также быть применены на практике в распределенных вычислительных окружениях, где задачи выполняются удаленными устройствами обработки, которые связаны посредством сети связи в распределенном вычислительном окружении; программы могут быть размещены как в локальных, так и удаленных устройствах хранения. Подведем итоги, любая компьютерная система, имеющая множество датчиков окружения, множество элементов вывода для предоставления уведомлений пользователю, и множество типов событий уведомлений могут включать в себя различные варианты осуществления, описанные в настоящем документе.
[0039] Фиг. 6B является блок-схемой, иллюстрирующей компоненты мобильного вычислительного устройства, используемого в одном варианте осуществления, таком как мобильное вычислительное устройство 650, показанное на Фиг. 6A. То есть, мобильное вычислительное устройство 650 может включать в себя систему 602 для реализации некоторых вариантов осуществления. Например, система 602 может быть использована при реализации "интеллектуального телефона", который может выполнять одно или более приложений, аналогичных приложениям настольного компьютера или компьютера типа "ноутбук". В некоторых вариантах осуществления, система 602 интегрирована как вычислительное устройство, такое как интегрированный персональный цифровой помощник (PDA) и беспроводной телефон.
[0040] Приложение 170 может быть загружено в память 662 и выполняться в операционной системе 664 или совместно с ней. Система 602 также включает в себя энергонезависимое хранилище 668 внутри памяти 662. Энергонезависимое хранилище 668 может быть использовано для хранения постоянной информации, которая не должна быть потеряна, если система 602 обесточивается. Приложение 170 может использовать и хранить информацию в энергонезависимом хранилище 668. Приложение 170, например, может содержать функциональность для выполнения стандартных программ, включающую в себя, например, настройку компонентов языкового моделирования, как описано выше относительно операций в стандартной программе 400 по Фигуре 4. Приложение синхронизации (не показано) также находится в системе 602 и запрограммировано взаимодействовать с соответствующим приложением синхронизации, находящимся на хост-компьютере, для поддержания информации, хранящейся в энергонезависимом хранилище 668, в синхронизации с соответствующей информацией, хранящейся на хост-компьютере. Как должно быть понятно, другие приложения могут также быть загружены в память 662 и выполняться на мобильном вычислительном устройстве 500.
[0041] Система 602 имеет блок 670 электропитания, который может быть реализован как одна или более батарей. Блок 670 электропитания может дополнительно включать в себя внешний источник электропитания, такой как AC-адаптер или питаемая электроэнергией док-станция, которая дополняет или перезаряжает батареи.
[0042] Система 602 может также включать в себя средство 672 радиосвязи (т.е., уровень радиоинтерфейса), которое выполняет функцию передачи и приема радиочастотной связи. Средство 672 радиосвязи способствует возможности беспроводного соединения между системой 602 и "внешним миром", посредством оператора связи или поставщика услуг. Передачи на средство 672 радиосвязи и от него проводятся под управлением ОС 664. Другими словами, связь, принимаемая средством 672 радиосвязи, может быть распространена на приложение 170 посредством ОС 664, и наоборот.
[0043] Средство 672 радиосвязи обеспечивает системе 602 возможность осуществления связи с другими вычислительными устройствами, как например, через сеть. Средство 672 радиосвязи является одним примером сред связи. Вариант осуществления системы 602 показан с двумя типами устройств вывода уведомлений: LED 680, который может быть использован для предоставления визуальных уведомлений, и аудиоинтерфейс 674, который может быть использован с динамиком 630 для предоставления аудиоуведомлений. Эти устройства могут быть напрямую соединены с блоком 670 электропитания, так чтобы при активации оставались включенными в течение продолжительности, продиктованной механизмом уведомления, даже если процессор 660 и другие компоненты могут отключиться для сбережения электроэнергии батареи. LED 680 может быть запрограммирован оставаться включенным бессрочно, пока пользователь не предпримет действие для указания включенного статуса устройства. Аудиоинтерфейс 674 используется для предоставления слышимых сигналов пользователю и приема слышимых сигналов от него. Например, в дополнение к соединению с динамиком 630, аудиоинтерфейс 674 может также быть соединен с микрофоном (не показан) для приема слышимого (например, голосового) ввода, так чтобы способствовать телефонному разговору. В соответствии с вариантами осуществления, микрофон может также служить в качестве аудиодатчика для способствования управлению уведомлениями. Система 602 может дополнительно включать в себя видеоинтерфейс 676, который обеспечивает возможность функционирования встроенной камеры 640 для записи неподвижных изображений, видеопотоков и подобного.
[0044] Мобильное вычислительное устройство, реализующее систему 602, может иметь дополнительные признаки или функциональность. Например, устройство может также включать в себя дополнительные устройства хранения данных (съемные и/или несъемные), такие как магнитные диски, оптические диски или ленту. Такое дополнительное хранилище проиллюстрировано на Фигуре 6B посредством хранилища 668.
[0045] Данные/информация, сгенерированные или захваченные посредством мобильного вычислительного устройства 650 и хранящиеся посредством системы 602, могут храниться локально на мобильном вычислительном устройстве 650, как описано выше, или данные могут храниться на любом числе носителей информации, к которым может быть осуществлен доступ устройством посредством средства 672 радиосвязи или посредством проводного соединения между мобильным вычислительным устройством 650 и отдельным вычислительным устройством, ассоциированным с мобильным вычислительным устройством 650, например, серверным компьютером в распределенной вычислительной сети, такой как Интернет. Как должно быть понятно, к таким данным/информации может быть осуществлен доступ через мобильное вычислительное устройство 650 посредством средства 672 радиосвязи или посредством распределенной вычислительной сети. Аналогично, такие данные/информация могут быть с легкостью перенесены между вычислительными устройствами для хранения и использования согласно хорошо известным средствам переноса и хранения данных/информации, включающим в себя системы электронной почты и совместного использования общих данных/информации.
[0046] Фигура 7 является упрощенной блок-схемой распределенной вычислительной системы, в которой различные варианты осуществления могут быть применены на практике. Распределенная вычислительная система может включать в себя некоторое число клиентских устройств, таких как вычислительное устройство 703, планшетное вычислительное устройство 705 и мобильное вычислительное устройство 710. Клиентские устройства 703, 705 и 710 могут иметь связь с распределенной вычислительной сетью 715 (например, Интернетом). Сервер 720 имеет связь с клиентскими устройствами 703, 705 и 710 по сети 715. Сервер 720 может хранить приложение 170, которое может выполнять стандартные программы, включающие в себя, например, настройку компонентов языкового моделирования, как описано выше в отношении операций в стандартной программе 400 по Фигуре 4.
[0047] Контент, который разработали, с которым осуществляли взаимодействие или редактировали совместно с приложением 170, может быть сохранен в других каналах связи или других типах хранилищ. Например, различные документы могут храниться с использованием службы 722 каталогов, веб-портала 724, почтовой службы 726, хранилища 728 службы мгновенной передачи сообщений или сайта 730 социальной сети. Приложение 170 может использовать любой из этих типов систем или подобные для обеспечения возможности использования данных, как описано в настоящем документе. Сервер 720 может предоставить клиентам приложение 170, основывающееся на пространственной близости. В качестве одного примера, сервер 720 может быть веб-сервером, предоставляющим приложение 170 через веб. Сервер 720 может предоставить клиентам приложение 170 через веб посредством сети 715. В качестве примера, вычислительное устройство 10 может быть реализовано как вычислительное устройство 703 и осуществлено в персональном компьютере, планшетном вычислительном устройстве 705 и/или мобильном вычислительном устройстве 710 (например, интеллектуальном телефоне). Любой из этих вариантов осуществления вычислительных устройств 703, 705 и 710 может получить контент из хранилища 716.
[0048] Различные варианты осуществления описаны выше со ссылкой на блок-схемы и/или операционные иллюстрации способов, систем и компьютерных программных продуктов. Функции/действия, обозначенные в блоках, могут происходить вне порядка, который показан на какой-либо схеме последовательности операций. Например, два блока, показанные последовательно, могут в действительности исполняться по существу параллельно, или блоки могут иногда исполняться в обратном порядке, в зависимости от предусмотренной функциональности/действий.
[0049] Описание и иллюстрация одного или более вариантов осуществления, предусмотренных в этой заявке, не предназначены для ограничения или сокращения объема данного изобретения, которое заявлено, каким-либо образом. Варианты осуществления, примеры и сведения, предоставленные в этой заявке считаются достаточными для передачи владения и обеспечения другим возможности создавать и использовать наилучший режим заявленного изобретения. Заявленное изобретение не должно толковаться как ограниченное каким-либо вариантом осуществления, например, или сведениями, предоставленными в этой заявке. Независимо от того, показаны и описаны вместе или раздельно, различные признаки (как структурные, так и методологические) предназначены для выборочного включения или исключения для произведения варианта осуществления с конкретных набором признаков. Обеспеченные описанием и иллюстрацией настоящей заявки, специалисты в данной области техники могут предположить вариации, модификации и альтернативные варианты осуществления, попадающие в пределы сущности расширенных аспектов основной изобретательской идеи, осуществленной в этой заявке, которые не отступают от широкого объема заявленного изобретения.

Claims (42)

1. Компьютерно-реализуемый способ настройки компонентов языкового моделирования, содержащий этапы, на которых:
отображают список компонентов языкового моделирования;
принимают выбор одного или более компонентов языкового моделирования из данного списка;
принимают выбор фиксированного значения веса для выбранных одного или более компонентов языкового моделирования;
генерируют информацию на основе упомянутого выбора, причем данной информацией указываются выбранные один или более компонентов языкового моделирования на основе одной или более областей применения и выбранное значение веса для выбранных одного или более компонентов языкового моделирования;
отправляют эту информацию поставщику услуг; и
принимают от поставщика услуг настроенную комбинацию выбранных компонентов языкового моделирования на основе упомянутой информации.
2. Способ по п. 1, дополнительно содержащий этап, на котором поддерживают соединение между упомянутой информацией и упомянутыми одним или более компонентами языкового моделирования.
3. Способ по п. 1, в котором упомянутая информация дополнительно включает в себя выбор предварительно скомпилированной языковой модели на основе упомянутых одной или более областей применения.
4. Способ по п. 1, в котором упомянутая информация дополнительно включает в себя выбор одной или более тем распознавания из предварительно скомпилированного списка, причем эти одна или более тем распознавания соответствуют одному или более из компонентов языкового моделирования.
5. Способ по п. 1, дополнительно содержащий этап, на котором отправляют текстовый корпус, относящийся к конкретной области применения.
6. Способ по п. 1, дополнительно содержащий этап, на котором отправляют аудиокорпус, относящийся к конкретной области применения.
7. Способ по п. 1, в котором упомянутая информация включает в себя существующую комбинацию компонентов языкового моделирования для повторного использования.
8. Способ по п. 1, дополнительно содержащий этап, на котором отправляют запрос распознавания, содержащий упомянутую информацию.
9. Способ по п. 1, в котором упомянутую информацию отправляют перед инициированием офлайнового процесса инициализации.
10. Способ по п. 1, дополнительно содержащий этап, на котором отображают список фиксированных весов одновременно с упомянутым списком компонентов языкового моделирования.
11. Система для настройки компонентов языкового моделирования, содержащая:
память для хранения исполняемого программного кода; и
процессор, функционально соединенный с памятью, причем процессор, в качестве реакции на машиноисполняемые инструкции, содержащиеся в программном коде, выполнен с возможностью:
отображать список компонентов языкового моделирования;
принимать выбор одного или более компонентов языкового моделирования из данного списка;
принимать выбор фиксированного значения веса для выбранных одного или более компонентов языкового моделирования;
генерировать информацию на основе упомянутого выбора, причем данной информацией указываются выбранные один или более компонентов языкового моделирования на основе одной или более областей применения и выбранное значение веса для выбранных одного или более компонентов языкового моделирования;
отправлять эту информацию поставщику услуг; и
принимать от поставщика услуг настроенную комбинацию выбранных компонентов языкового моделирования на основе упомянутой информации.
12. Система по п. 11, в которой процессор выполнен с возможностью отправлять выбор предварительно скомпилированной языковой модели на основе упомянутых одной или более областей применения.
13. Система по п. 11, в которой процессор выполнен с возможностью:
отправлять выбор одной или более тем распознавания из предварительно скомпилированного списка, причем эти одна или более тем распознавания соответствуют одному или более из компонентов языкового моделирования; и
применять один или более весов к этим одному или более компонентам языкового моделирования.
14. Система по п. 11, в которой процессор выполнен с возможностью отображать список фиксированных весов одновременно с упомянутым списком компонентов языкового моделирования.
15. Машиночитаемый носитель информации, на котором сохранены машиноисполняемые инструкции, которые при их исполнении компьютером предписывают компьютеру выполнять способ настройки компонентов языкового моделирования, содержащий этапы, на которых:
отображают список компонентов языкового моделирования;
принимают выбор одного или более компонентов языкового моделирования из данного списка;
принимают выбор фиксированного значения веса для выбранных одного или более компонентов языкового моделирования;
генерируют информацию на основе упомянутого выбора, причем данной информацией указываются выбранные один или более компонентов языкового моделирования на основе одной или более областей применения и выбранное значение веса для выбранных одного или более компонентов языкового моделирования;
отправляют эту информацию поставщику услуг; и
принимают от поставщика услуг настроенную комбинацию выбранных компонентов языкового моделирования на основе упомянутой информации.
16. Машиночитаемый носитель информации по п. 15, при этом отправка упомянутой информации содержит отправку выбора предварительно скомпилированной языковой модели на основе упомянутых одной или более областей применения.
17. Машиночитаемый носитель информации по п. 15, при этом отправка упомянутой информации содержит отправку выбора одной или более разных тем распознавания из предварительно скомпилированного списка, причем эти одна или более разных тем распознавания соответствуют одному или более из компонентов языкового моделирования.
18. Машиночитаемый носитель информации по п. 15, при этом упомянутая информация дополнительно содержит по меньшей мере одно из текстового корпуса, относящегося к конкретной области применения, и аудиокорпуса, относящегося к конкретной области применения.
19. Машиночитаемый носитель информации по п. 15, в котором способ дополнительно содержит этап, на котором отображают список фиксированных весов одновременно с упомянутым списком компонентов языкового моделирования.
20. Машиночитаемый носитель информации по п. 15, при этом упомянутая информация включает в себя существующую комбинацию компонентов языкового моделирования для повторного использования.
RU2016138130A 2014-03-27 2015-03-23 Гибкая схема для настройки языковой модели RU2689203C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/227,492 2014-03-27
US14/227,492 US9529794B2 (en) 2014-03-27 2014-03-27 Flexible schema for language model customization
PCT/US2015/021921 WO2015148333A1 (en) 2014-03-27 2015-03-23 Flexible schema for language model customization

Publications (3)

Publication Number Publication Date
RU2016138130A RU2016138130A (ru) 2018-04-27
RU2016138130A3 RU2016138130A3 (ru) 2018-10-19
RU2689203C2 true RU2689203C2 (ru) 2019-05-24

Family

ID=53039568

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2016138130A RU2689203C2 (ru) 2014-03-27 2015-03-23 Гибкая схема для настройки языковой модели

Country Status (10)

Country Link
US (2) US9529794B2 (ru)
EP (1) EP3123467B1 (ru)
JP (1) JP6571106B2 (ru)
KR (1) KR102315104B1 (ru)
CN (1) CN106133826B (ru)
AU (1) AU2015236417B2 (ru)
CA (1) CA2940430C (ru)
MX (2) MX2016012195A (ru)
RU (1) RU2689203C2 (ru)
WO (1) WO2015148333A1 (ru)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8181205B2 (en) 2002-09-24 2012-05-15 Russ Samuel H PVR channel and PVR IPG information
US9728184B2 (en) 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
US9589565B2 (en) 2013-06-21 2017-03-07 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
US9311298B2 (en) 2013-06-21 2016-04-12 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
CN104281626B (zh) * 2013-07-12 2018-01-19 阿里巴巴集团控股有限公司 基于图片化处理的网页展示方法及网页展示装置
US9324321B2 (en) 2014-03-07 2016-04-26 Microsoft Technology Licensing, Llc Low-footprint adaptation and personalization for a deep neural network
US9529794B2 (en) 2014-03-27 2016-12-27 Microsoft Technology Licensing, Llc Flexible schema for language model customization
US9614724B2 (en) 2014-04-21 2017-04-04 Microsoft Technology Licensing, Llc Session-based device configuration
US9520127B2 (en) 2014-04-29 2016-12-13 Microsoft Technology Licensing, Llc Shared hidden layer combination for speech recognition systems
US9384335B2 (en) 2014-05-12 2016-07-05 Microsoft Technology Licensing, Llc Content delivery prioritization in managed wireless distribution networks
US10111099B2 (en) 2014-05-12 2018-10-23 Microsoft Technology Licensing, Llc Distributing content in managed wireless distribution networks
US9874914B2 (en) 2014-05-19 2018-01-23 Microsoft Technology Licensing, Llc Power management contracts for accessory devices
US10037202B2 (en) 2014-06-03 2018-07-31 Microsoft Technology Licensing, Llc Techniques to isolating a portion of an online computing service
US9367490B2 (en) 2014-06-13 2016-06-14 Microsoft Technology Licensing, Llc Reversible connector for accessory devices
US9717006B2 (en) 2014-06-23 2017-07-25 Microsoft Technology Licensing, Llc Device quarantine in a wireless network
CN110111780B (zh) * 2018-01-31 2023-04-25 阿里巴巴集团控股有限公司 数据处理方法和服务器
US11182565B2 (en) 2018-02-23 2021-11-23 Samsung Electronics Co., Ltd. Method to learn personalized intents
US11314940B2 (en) 2018-05-22 2022-04-26 Samsung Electronics Co., Ltd. Cross domain personalized vocabulary learning in intelligent assistants
CN110908667B (zh) * 2019-11-18 2021-11-16 北京迈格威科技有限公司 神经网络联合编译的方法、装置和电子设备
CN111161739B (zh) * 2019-12-28 2023-01-17 科大讯飞股份有限公司 语音识别方法及相关产品
KR20240076977A (ko) * 2022-11-24 2024-05-31 고려대학교 산학협력단 개체 유형 및 관계 정보에 대한 프롬프트 및 빈칸 추론을 이용한 대화 관계 추출 방법 및 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2187902C2 (ru) * 1997-08-28 2002-08-20 Самсунг Электроникс Ко., Лтд. Способ и устройство для управления вводами речевой регистрации устройства распознавания речи для использования в микротелефонной трубке и в комплекте громкоговорящей связи
US20050165598A1 (en) * 2003-10-01 2005-07-28 Dictaphone Corporation System and method for modifying a language model and post-processor information
RU2004123352A (ru) * 2003-07-29 2006-01-27 Майкрософт Корпорейшн (Us) Система детектирования речи
US20120253799A1 (en) * 2011-03-28 2012-10-04 At&T Intellectual Property I, L.P. System and method for rapid customization of speech recognition models

Family Cites Families (132)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2631864B2 (ja) 1988-06-13 1997-07-16 大成建設株式会社 偏平トンネルの施工方法
US5170499A (en) 1989-03-06 1992-12-08 Motorola, Inc. Method and apparatus for adjusting the volume level of a radio
DE69126983T2 (de) 1991-08-19 1998-03-05 Lernout & Hauspie Speechprod Einrichtung zur mustererkennung mit einem kuenstlichen neuronalen netzwerk fuer kontextabhaengige modellierung
US5233681A (en) 1992-04-24 1993-08-03 International Business Machines Corporation Context-dependent speech recognizer using estimated next word context
US6405132B1 (en) 1997-10-22 2002-06-11 Intelligent Technologies International, Inc. Accident avoidance system
US6167377A (en) 1997-03-28 2000-12-26 Dragon Systems, Inc. Speech recognition language models
ITTO980383A1 (it) 1998-05-07 1999-11-07 Cselt Centro Studi Lab Telecom Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.
US20050091057A1 (en) 1999-04-12 2005-04-28 General Magic, Inc. Voice application development methodology
US6647270B1 (en) 1999-09-10 2003-11-11 Richard B. Himmelstein Vehicletalk
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US6263308B1 (en) 2000-03-20 2001-07-17 Microsoft Corporation Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process
US7788602B2 (en) 2000-06-06 2010-08-31 Microsoft Corporation Method and system for providing restricted actions for recognized semantic categories
CA2414707C (en) 2000-06-29 2011-08-16 Aspen Technology, Inc. Computer method and apparatus for constraining a non-linear approximator of an empirical process
JP2002091477A (ja) 2000-09-14 2002-03-27 Mitsubishi Electric Corp 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
US6807536B2 (en) 2000-11-16 2004-10-19 Microsoft Corporation Methods and systems for computing singular value decompositions of matrices and low rank approximations of matrices
US6622136B2 (en) 2001-02-16 2003-09-16 Motorola, Inc. Interactive tool for semi-automatic creation of a domain model
US20050234727A1 (en) 2001-07-03 2005-10-20 Leo Chiu Method and apparatus for adapting a voice extensible markup language-enabled voice system for natural speech recognition and system response
US6970947B2 (en) 2001-07-18 2005-11-29 International Business Machines Corporation Method and apparatus for providing a flexible and scalable context service
US20030149566A1 (en) 2002-01-02 2003-08-07 Esther Levin System and method for a spoken language interface to a large database of changing records
US7006972B2 (en) 2002-03-20 2006-02-28 Microsoft Corporation Generating a task-adapted acoustic model from one or more different corpora
JP2003280683A (ja) * 2002-03-20 2003-10-02 Toshiba Corp 音声認識装置、音声認識装置における音声認識制御方法、音声処理に関する辞書管理装置
US7191119B2 (en) 2002-05-07 2007-03-13 International Business Machines Corporation Integrated development tool for building a natural language understanding application
US7548847B2 (en) 2002-05-10 2009-06-16 Microsoft Corporation System for automatically annotating training data for a natural language understanding system
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7756531B2 (en) 2002-09-04 2010-07-13 Farhad John Aminzadeh Method and apparatus for avoiding call disturbances and facilitating urgent calls based on a caller's decision
US7274741B2 (en) * 2002-11-01 2007-09-25 Microsoft Corporation Systems and methods for generating a comprehensive user attention model
JP2004227468A (ja) 2003-01-27 2004-08-12 Canon Inc 情報提供装置、情報提供方法
US20040176083A1 (en) 2003-02-25 2004-09-09 Motorola, Inc. Method and system for reducing distractions of mobile device users
US7366655B1 (en) 2003-04-02 2008-04-29 At&T Corp. Method of generating a labeling guide for spoken dialog services
US7835910B1 (en) 2003-05-29 2010-11-16 At&T Intellectual Property Ii, L.P. Exploiting unlabeled utterances for spoken language understanding
US20070150287A1 (en) 2003-08-01 2007-06-28 Thomas Portele Method for driving a dialog system
US20050065789A1 (en) 2003-09-23 2005-03-24 Sherif Yacoub System and method with automated speech recognition engines
JP2005157494A (ja) 2003-11-20 2005-06-16 Aruze Corp 会話制御装置及び会話制御方法
JP5255769B2 (ja) 2003-11-21 2013-08-07 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル
CN100539763C (zh) 2003-11-27 2009-09-09 国际商业机器公司 控制来自移动车辆的无线通信的方法
JP4581441B2 (ja) * 2004-03-18 2010-11-17 パナソニック株式会社 家電機器システム、家電機器および音声認識方法
US8412521B2 (en) 2004-08-20 2013-04-02 Multimodal Technologies, Llc Discriminative training of document transcription system
US7693713B2 (en) 2005-06-17 2010-04-06 Microsoft Corporation Speech models generated using competitive training, asymmetric training, and data boosting
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US8321220B1 (en) 2005-11-30 2012-11-27 At&T Intellectual Property Ii, L.P. System and method of semi-supervised learning for spoken language understanding using semantic role labeling
US20070128979A1 (en) 2005-12-07 2007-06-07 J. Shackelford Associates Llc. Interactive Hi-Tech doll
US7835911B2 (en) 2005-12-30 2010-11-16 Nuance Communications, Inc. Method and system for automatically building natural language understanding models
US7603330B2 (en) 2006-02-01 2009-10-13 Honda Motor Co., Ltd. Meta learning for question classification
DE102006006551B4 (de) 2006-02-13 2008-09-11 Siemens Ag Verfahren und System zum Bereitstellen von Sprachdialoganwendungen sowie mobiles Endgerät
IL174522A0 (en) 2006-03-23 2006-08-01 Jonathan Agmon Method for predictive typing
JP2007264128A (ja) * 2006-03-27 2007-10-11 Toshiba Corp 音声認識装置及びその方法
US7627536B2 (en) 2006-06-13 2009-12-01 Microsoft Corporation Dynamic interaction menus from natural language representations
US7716049B2 (en) 2006-06-30 2010-05-11 Nokia Corporation Method, apparatus and computer program product for providing adaptive language model scaling
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
WO2008081543A1 (ja) 2006-12-28 2008-07-10 Fujitsu Limited 携帯端末装置、その通話制御プログラム、その通話制御プログラムを格納した記録媒体、及びその通話制御方法
US7912700B2 (en) 2007-02-08 2011-03-22 Microsoft Corporation Context based word prediction
TW200836893A (en) 2007-03-01 2008-09-16 Benq Corp Interactive home entertainment robot and method of controlling the same
US20090030697A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model
US8838457B2 (en) * 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US20070150428A1 (en) 2007-03-20 2007-06-28 Brandyn Webb Inference engine for discovering features and making predictions using generalized incremental singular value decomposition
JP2008233678A (ja) 2007-03-22 2008-10-02 Honda Motor Co Ltd 音声対話装置、音声対話方法、及び音声対話用プログラム
US8301757B2 (en) 2007-06-11 2012-10-30 Enghouse Interactive Inc. System and method for obtaining in-use statistics for voice applications in interactive voice response systems
US8275615B2 (en) 2007-07-13 2012-09-25 International Business Machines Corporation Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation
JP2009075582A (ja) * 2007-08-29 2009-04-09 Advanced Media Inc 端末装置、言語モデル作成装置、および分散型音声認識システム
CN101415039A (zh) 2007-10-17 2009-04-22 宏达国际电子股份有限公司 通话管理方法
US8229729B2 (en) 2008-03-25 2012-07-24 International Business Machines Corporation Machine translation in continuous space
JP2009230068A (ja) * 2008-03-25 2009-10-08 Denso Corp 音声認識装置及びナビゲーションシステム
US8332394B2 (en) 2008-05-23 2012-12-11 International Business Machines Corporation System and method for providing question and answers with deferred type evaluation
US8364481B2 (en) 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US8412529B2 (en) 2008-10-29 2013-04-02 Verizon Patent And Licensing Inc. Method and system for enhancing verbal communication sessions
US20100114890A1 (en) 2008-10-31 2010-05-06 Purediscovery Corporation System and Method for Discovering Latent Relationships in Data
JP5475795B2 (ja) * 2008-11-05 2014-04-16 グーグル・インコーポレーテッド カスタム言語モデル
RU2509350C2 (ru) 2008-11-07 2014-03-10 Матрокс Профешнл Инк Способ семантической обработки естественного языка с использованием графического языка-посредника
US20100128863A1 (en) 2008-11-21 2010-05-27 Robert Bosch Gmbh Context aware voice communication proxy
US8447608B1 (en) * 2008-12-10 2013-05-21 Adobe Systems Incorporated Custom language models for audio content
US20100211695A1 (en) 2009-02-16 2010-08-19 Comverse, Ltd. Context-aware communications
US8930179B2 (en) 2009-06-04 2015-01-06 Microsoft Corporation Recognition using re-recognition and statistical classification
US9177557B2 (en) 2009-07-07 2015-11-03 General Motors Llc. Singular value decomposition for improved voice recognition in presence of multi-talker background noise
US8886641B2 (en) * 2009-10-15 2014-11-11 Yahoo! Inc. Incorporating recency in network search using machine learning
US8571866B2 (en) 2009-10-23 2013-10-29 At&T Intellectual Property I, L.P. System and method for improving speech recognition accuracy using textual context
KR101622111B1 (ko) 2009-12-11 2016-05-18 삼성전자 주식회사 대화 시스템 및 그의 대화 방법
US8249627B2 (en) 2009-12-21 2012-08-21 Julia Olincy “I am driving/busy” automatic response system for mobile phones
US8315597B2 (en) 2009-12-21 2012-11-20 Julia Olincy “I am driving/busy” automatic response system for mobile phones
EP3091535B1 (en) 2009-12-23 2023-10-11 Google LLC Multi-modal input on an electronic device
US8400332B2 (en) 2010-02-09 2013-03-19 Ford Global Technologies, Llc Emotive advisory system including time agent
JP2012038239A (ja) 2010-08-11 2012-02-23 Sony Corp 情報処理装置、情報処理方法、及び、プログラム
US8972253B2 (en) 2010-09-15 2015-03-03 Microsoft Technology Licensing, Llc Deep belief network for large vocabulary continuous speech recognition
FR2965377A1 (fr) * 2010-09-24 2012-03-30 Univ D Avignon Et Des Pays De Vaucluse Procede de classification de donnees biometriques
JP2012075047A (ja) 2010-09-29 2012-04-12 Toshiba Corp Ip交換システム及びip交換装置
US8812321B2 (en) 2010-09-30 2014-08-19 At&T Intellectual Property I, L.P. System and method for combining speech recognition outputs from a plurality of domain-specific speech recognizers via machine learning
JP5704692B2 (ja) * 2010-11-30 2015-04-22 独立行政法人情報通信研究機構 パターン分類装置の学習装置及びそのためのコンピュータプログラム
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
JP5861649B2 (ja) 2011-02-03 2016-02-16 日本電気株式会社 モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム
US9081760B2 (en) * 2011-03-08 2015-07-14 At&T Intellectual Property I, L.P. System and method for building diverse language models
US8489529B2 (en) 2011-03-31 2013-07-16 Microsoft Corporation Deep convex network with joint use of nonlinear random projection, Restricted Boltzmann Machine and batch-based parallelizable optimization
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
WO2012135226A1 (en) 2011-03-31 2012-10-04 Microsoft Corporation Augmented conversational understanding architecture
US8260615B1 (en) 2011-04-25 2012-09-04 Google Inc. Cross-lingual initialization of language models
US20120290293A1 (en) 2011-05-13 2012-11-15 Microsoft Corporation Exploiting Query Click Logs for Domain Detection in Spoken Language Understanding
US8918352B2 (en) 2011-05-23 2014-12-23 Microsoft Corporation Learning processes for single hidden layer neural networks with linear output units
US20130031476A1 (en) 2011-07-25 2013-01-31 Coin Emmett Voice activated virtual assistant
KR20130022513A (ko) 2011-08-24 2013-03-07 한국전자통신연구원 결합 쌍일차 변환 공간 기반의 화자 적응 방법 및 장치
AU2012232977A1 (en) 2011-09-30 2013-04-18 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US8698621B2 (en) 2011-11-22 2014-04-15 Verizon Patent And Licensing Inc. Method and system for providing notifications of a mobile device in motion to determine call treatment
US9235799B2 (en) 2011-11-26 2016-01-12 Microsoft Technology Licensing, Llc Discriminative pretraining of deep neural networks
US9082402B2 (en) 2011-12-08 2015-07-14 Sri International Generic virtual personal assistant platform
US9324323B1 (en) * 2012-01-13 2016-04-26 Google Inc. Speech recognition using topic-specific language models
US9263040B2 (en) 2012-01-17 2016-02-16 GM Global Technology Operations LLC Method and system for using sound related vehicle information to enhance speech recognition
JP2012128440A (ja) 2012-02-06 2012-07-05 Denso Corp 音声対話装置
CN102609264A (zh) 2012-02-14 2012-07-25 深圳市同洲视讯传媒有限公司 一种调用应用程序编程接口生成调用代码的方法及装置
US9524730B2 (en) * 2012-03-30 2016-12-20 Ohio State Innovation Foundation Monaural speech filter
US8346563B1 (en) 2012-04-10 2013-01-01 Artificial Solutions Ltd. System and methods for delivering advanced natural language interaction applications
GB201208373D0 (en) 2012-05-14 2012-06-27 Touchtype Ltd Mechanism for synchronising devices,system and method
US8600525B1 (en) 2012-05-31 2013-12-03 Honeywell Asca Inc. Efficient quadratic programming (QP) solver for process control and optimization
US9053708B2 (en) 2012-07-18 2015-06-09 International Business Machines Corporation System, method and program product for providing automatic speech recognition (ASR) in a shared resource environment
US9424840B1 (en) 2012-08-31 2016-08-23 Amazon Technologies, Inc. Speech recognition platforms
US8527276B1 (en) * 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
US10282419B2 (en) 2012-12-12 2019-05-07 Nuance Communications, Inc. Multi-domain natural language processing architecture
KR101559124B1 (ko) 2013-02-28 2015-10-12 한양대학교 산학협력단 리튬황전지용 양극, 이를 포함하는 리튬황전지 및 이의 제조 방법
US9177550B2 (en) 2013-03-06 2015-11-03 Microsoft Technology Licensing, Llc Conservatively adapting a deep neural network in a recognition system
US9728184B2 (en) 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
US9311298B2 (en) 2013-06-21 2016-04-12 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
US9589565B2 (en) 2013-06-21 2017-03-07 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
CN103456299B (zh) * 2013-08-01 2016-06-15 百度在线网络技术(北京)有限公司 一种控制语音识别的方法和装置
CN103400577B (zh) * 2013-08-01 2015-09-16 百度在线网络技术(北京)有限公司 多语种语音识别的声学模型建立方法和装置
US9280968B2 (en) 2013-10-04 2016-03-08 At&T Intellectual Property I, L.P. System and method of using neural transforms of robust audio features for speech processing
US9721561B2 (en) 2013-12-05 2017-08-01 Nuance Communications, Inc. Method and apparatus for speech recognition using neural networks with speaker adaptation
US9373324B2 (en) 2013-12-06 2016-06-21 International Business Machines Corporation Applying speaker adaption techniques to correlated features
US9400955B2 (en) 2013-12-13 2016-07-26 Amazon Technologies, Inc. Reducing dynamic range of low-rank decomposition matrices
KR101937655B1 (ko) 2013-12-31 2019-01-11 코오롱인더스트리 주식회사 복합 중공사막 및 그 제조방법
US10339920B2 (en) 2014-03-04 2019-07-02 Amazon Technologies, Inc. Predicting pronunciation in speech recognition
US9324321B2 (en) 2014-03-07 2016-04-26 Microsoft Technology Licensing, Llc Low-footprint adaptation and personalization for a deep neural network
US9529794B2 (en) 2014-03-27 2016-12-27 Microsoft Technology Licensing, Llc Flexible schema for language model customization
US9520127B2 (en) 2014-04-29 2016-12-13 Microsoft Technology Licensing, Llc Shared hidden layer combination for speech recognition systems
US20150325236A1 (en) 2014-05-08 2015-11-12 Microsoft Corporation Context specific language model scale factors

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2187902C2 (ru) * 1997-08-28 2002-08-20 Самсунг Электроникс Ко., Лтд. Способ и устройство для управления вводами речевой регистрации устройства распознавания речи для использования в микротелефонной трубке и в комплекте громкоговорящей связи
RU2004123352A (ru) * 2003-07-29 2006-01-27 Майкрософт Корпорейшн (Us) Система детектирования речи
US20050165598A1 (en) * 2003-10-01 2005-07-28 Dictaphone Corporation System and method for modifying a language model and post-processor information
US20120253799A1 (en) * 2011-03-28 2012-10-04 At&T Intellectual Property I, L.P. System and method for rapid customization of speech recognition models

Also Published As

Publication number Publication date
US10497367B2 (en) 2019-12-03
US20170103753A1 (en) 2017-04-13
AU2015236417A1 (en) 2016-09-08
AU2015236417B2 (en) 2019-12-19
WO2015148333A1 (en) 2015-10-01
JP2017515141A (ja) 2017-06-08
RU2016138130A (ru) 2018-04-27
CN106133826A (zh) 2016-11-16
EP3123467B1 (en) 2019-09-11
CA2940430A1 (en) 2015-10-01
RU2016138130A3 (ru) 2018-10-19
CN106133826B (zh) 2019-12-17
US20150278191A1 (en) 2015-10-01
MX2021008012A (es) 2021-08-05
EP3123467A1 (en) 2017-02-01
KR20160138424A (ko) 2016-12-05
CA2940430C (en) 2022-05-03
US9529794B2 (en) 2016-12-27
JP6571106B2 (ja) 2019-09-04
MX2016012195A (es) 2017-01-05
KR102315104B1 (ko) 2021-10-19

Similar Documents

Publication Publication Date Title
RU2689203C2 (ru) Гибкая схема для настройки языковой модели
US11144371B2 (en) Digital assistant extensibility to third party applications
US11107466B2 (en) Digital assistant voice input integration
US9324321B2 (en) Low-footprint adaptation and personalization for a deep neural network
US10509829B2 (en) Contextual search using natural language
RU2667717C2 (ru) Диалоговые политики на основе параметров окружающей среды и генерация ответа
US20150325236A1 (en) Context specific language model scale factors
CN103702297A (zh) 短信增强方法、装置及系统
US10474439B2 (en) Systems and methods for building conversational understanding systems
CN113709506A (zh) 基于云手机的多媒体播放方法、装置、介质及程序产品