RU2368946C2 - Система для идентификации перефразирования с использованием технологии машинного перевода - Google Patents
Система для идентификации перефразирования с использованием технологии машинного перевода Download PDFInfo
- Publication number
- RU2368946C2 RU2368946C2 RU2004129675/09A RU2004129675A RU2368946C2 RU 2368946 C2 RU2368946 C2 RU 2368946C2 RU 2004129675/09 A RU2004129675/09 A RU 2004129675/09A RU 2004129675 A RU2004129675 A RU 2004129675A RU 2368946 C2 RU2368946 C2 RU 2368946C2
- Authority
- RU
- Russia
- Prior art keywords
- text
- text segments
- rephrasing
- sentences
- cluster
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Изобретение относится к идентификации перефразирования в тексте. Изобретение позволяет идентифицировать отношения перефразирования в различных текстах, относящихся к одному событию. Получают набор текстовых сегментов из кластера различных статей, написанных об общем событии. Затем набор текстовых сегментов обрабатывают согласно методикам текстового совмещения для идентификации перефразирования на основе текстовых сегментов в тексте. Идентифицированные перефразирования можно использовать в системах машинного перевода. 6 з.п. ф-лы, 5 ил.
Description
Область техники, к которой относится изобретение
Данное изобретение относится к идентификации перефразирования в тексте. Более определенно, данное изобретение относится к методикам машинного перевода, используемым для идентификации и генерации перефразирования.
Предшествующий уровень техники
Распознавание и генерация перефразирования - ключевой аспект многих приложений систем обработки естественного языка. Способность идентификации того, что две различные части текста являются эквивалентными по значению, обеспечивает возможность системе вести себя намного более разумно. Фундаментальная цель работы в этой области состоит в том, чтобы сделать программу, которая будет способна переформулировать часть текста при сохранении ее семантического содержания при манипулировании такими признаками, как словарь, порядок слов, уровень понимания и степень осмысленности.
Одно иллюстративное применение, которое может извлечь выгоду из идентификации и генерации перефразирования, включает в себя систему ответа на вопросы. Например, рассмотрим вопрос "Когда Джон До уволился с работы?", где объект "Джон До" - известный человек. Вероятно, что большая совокупность данных, такая как глобальная компьютерная сеть (или система передачи новостей, которая публикует статьи в глобальной компьютерной сети), может уже содержать текст, который отвечает на этот вопрос. Фактически, такая совокупность может уже содержать текст, который отвечает на вопрос и выражен точно в тех же самых терминах, что и вопрос. Поэтому обычное средство поиска может не иметь трудностей при нахождении текста, который соответствует вопросу, и при выдаче, таким образом, адекватного результата.
Однако эта проблема становится намного более трудноразрешимой при поиске в меньшей совокупности данных, например соответствующей интрасети (внутренней компьютерной сети). В этом случае, даже при том, что эта малая совокупность данных может содержать текст, который отвечает на вопрос, ответ может быть выражен в отличных от вопроса терминах. В качестве примера, все следующие предложения отвечают на вопрос, изложенный выше, но выражены в отличных от вопроса терминах:
Джон До ушел в отставку вчера.
Джон До оставил свою должность вчера.
Джон До оставил свой правительственный пост вчера.
Джон До уступил свою должность вчера.
Вчера, Джон До решил исследовать новые карьерные возможности.
Так как эти ответы выражены по-другому по сравнению с вопросом, обычный поисковый сервер, вероятно, столкнется с трудностями в выдаче хорошего результата, учитывая только эти текстовые ответы в совокупности, в которой он осуществляет поиск.
Предшествующие системы, ориентированные на решение проблемы распознавания и генерации перефразирования, включают большие усилия по ручному кодированию в попытке направить силы на решение проблемы в ограниченных контекстах. Например, большие системы, закодированные вручную, пытаются связать широкое разнообразие различных способов высказывания одной и той же вещи и форму, приемлемую для системы управления и команд. Конечно, это чрезвычайно трудно, потому что автор кода, вероятно, не может продумать все различные способы, которыми пользователь мог бы выразить что-то. Поэтому фокус в исследовательском сообществе сдвинулся от ручных усилий к автоматическим способам идентификации и генерации перефразирования.
Недавняя работа над системами, нацеленными на автоматическую идентификацию отношений перефразированных текстов, включает в себя статью D. Lin и P. Pantel “DIRT-DISCOVERY OF INFERENCE RULES FROM TEXT”, материалы ACMSIGKDD Conference on Knowledge Discovery and Data Mining, страницы 323-328 (2001) (в дальнейшем обозначаемую ссылкой DIRT). В статье DIRT исследуются свойства распространения путей зависимости, связывающих идентичные "местоположения анкеров" (то есть идентичные или подобные слова) в анализируемой совокупности новостных данных. Ни одно из специальных свойств новостных данных не эксплуатируется, так как анализируемая совокупность просто рассматривается как большой источник одноязычных данных. Основной идеей является то, что часто встречающиеся в пути в графе зависимости, которые связывают идентичные или подобные слова, вероятно, сами должны быть подобны по значению. Когда выполнялась обработка газетных данных объемом гигабайт, система идентифицировала образцы типа:
X разрешается посредством Y.
X разрешает Y.
X находит решение для Y.
X пробует решить Y.
Система DIRT ограничена очень узкой разновидностью "тройных" отношений, типа "X глагол Y".
Другая статья, которая относится к идентификации перефразирования, это работа Y. Shinyama, S. Sekine, K. Sudo и R. Grisham, “AUTOMATIC PARAPHRASE ACQUISITION FROM NEWS ARTICLES”, материалы Human Language Technology Conference, San Diego, CA (HLT 2002). В статье Shinyama и др. сделано наблюдение, что для статей из различных газет, которые описывают одно и то же событие, часто характерны отношения перефразирования. Статья описывает методику, которая основывается на условии, что именованные объекты (такие, как люди, места, даты и адреса) остаются неизменными в различных газетных статьях относительно одной и той же темы или в один и тот же день. Статьи кластеризуют, используя существующую информационно-поисковую систему, по группам или кластерам, например "убийство" или "персонал". Именованные объекты аннотируют, используя статистический маркировщик, и данные затем подвергают морфологическому и синтаксическому анализу для получения деревьев синтаксической зависимости. В пределах каждого кластера предложения кластеризованы, основываясь на именованных объектах, которые они содержат. Например, следующие предложения кластеризованы, потому что они вместе используют одни и те же четыре именованных объекта:
Вице-президент “Nihon Yamamuri Glass Corp” Осаму Курода был выдвинут в Президенты.
“Nihon Yamamuri Glass Corp.” решила продвинуть по службе вице-президента Осаму Курода в Президенты в понедельник.
Учитывая совпадение в именованных объектах, эти предложения предполагаются связанными отношениями перефразирования. Shinyama и др. после этого пытаются идентифицировать образцы, которые связывают эти предложения, используя существующие средства из области извлечения информации.
Shinyama и др. также пытаются изучать очень простые образцы уровня фразы, но эта методика ограничена тем, что она основывается на местоположениях анкеров именованных объектов. Без этих легко идентифицируемых анкеров Shinyama и др. не могут изучить что-либо из пары предложений. Образцы, которые изучали Shinyama и др., все фокусировались на отношениях между специфическим типом объекта и некоторым типом события в пределах специфической области. Результаты довольно бедны, особенно когда обучающие предложения содержат очень мало именованных объектов.
Другая статья также относится к перефразированию. В работе Barzilay R. и L. Lee, “LEARNING TO PARAPHRASE: AN UNSUPERVISED APPROACH USING MULTIPLE-SEQUENCE ALIGNMENT”, материалы HLT/NAACL: (2003), Edmonton, Canada, используется программное обеспечение обнаружения темы для кластеризации тематически подобных газетных статей из единого источника и из данных за несколько лет. Более определенно, Barzilay и др. пытаются идентифицировать статьи, описывающие террористические инциденты. Они затем кластеризуют предложения из этих статей для того, чтобы найти предложения, которые совместно используют основную общую форму или которые совместно используют множество ключевых слов. Эти кластеры используются как основание для построения шаблонных моделей предложений, которые учитывают некоторые заменяющие элементы. Короче говоря, Barzilay и др. сосредотачиваются на обнаружении подобных описаний различных событий, даже событий, которые, возможно, произошли в разные годы. Это фокусирование на группировании предложений по форме означает, что такая методика не найдет часть из более интересных перефразирований.
Также Barzilay и Lee требуют сильного подобия порядка слов для того, чтобы классифицировать два предложения как подобные. Например, они не могут классифицировать даже активные/пассивные варианты описания событий как родственные. Шаблонные отношения перефразирования, изученные Barzilay и др., получены из набора предложений, которые совместно используют полный фиксированный порядок слов. Перефразирование, изученное такой системой, эквивалентно областям гибкости в пределах этой большей фиксированной структуры. Необходимо отметить, что Barzilay и Lee оказались единственными в литературных источниках, кто предложил схему генерирования. Другая работа, обсуждаемая в этом разделе, нацелена только на распознавание перефразирования.
Другая статья, Barzilay и McKeown “Extracting Paraphrases From a Parallel Corpus”, материалы ACL/EACL (2001), основывается на множественных переводах одного исходного документа. Однако Barzilay и McKeown определенно отличают их работу от методик машинного перевода. Они утверждают, что без полного соответствия между словами в родственных предложениях невозможно использовать “способы, разработанные в сообществе MT (машинного перевода), основанные чисто на параллельных массивах”. Таким образом, Barzilay и McKeown отклоняют идею, что стандартные методики машинного перевода могут быть применены к задаче изучения одноязычного перефразирования.
Другая соответствующая предшествующему уровню техники система в данной области техники также относится к перефразированию. Эта система основывается на множественных переводах единого источника для построения конечных состояний представлений отношений перефразирования. B. Pang, K. Knight и D. Marcu, “SYNTAX BASED ALIGNMENT OF MULTIPLE TRANSLATION: EXTRACTING PARAPHRASES AND GENERATING NEW SENTENCES”, материалы NAACL-HLT, 2003.
Кроме того, другая соответствующая предшествующему уровню техники ссылка также относится к распознаванию перефразирования. Магистерская диссертация Ibrahim, Ali, “EXTRACTING PARAPHRASES FROM ALIGNED CORPORA”, MIT (2002), расположена по адресу HTTP://www.ai.mit.edu/people/jimmylin/papers/ibrahim02.pdf. В своей диссертации Ibrahim указывает, что предложения “совмещают” или подвергают “совмещению” и идентифицируют перефразирование. Однако термин “совмещение”, как он используется в упомянутой диссертации, означает совмещение предложений вместо совмещения слов или фраз и не относится к обычному совмещению слов и фраз, выполняемому в системах машинного перевода. Вместо этого совмещение, обсужденное в данной диссертации, основано на следующей статье, в которой сделана попытка совмещения предложений на одном языке с их соответствующими переводами на другой язык: Gale, William, A. и Church, Kenneth W., “A PROGRAM FOR ALIGNING SENTENCES IN BILINGUAL CORPORA”, материалы the Associations for Computational Linguistics, страницы 177-184 (1991). Ibrahim использует этот алгоритм для совмещения предложений в пределах множества английских переводов, например, романов Жюля Верна. Однако структура предложения может разительно изменяться от перевода к переводу. То, что один переводчик представляет как отдельное длинное предложение, другой может отобразить на два более коротких. Это означает, что полное число предложений в различных переводах отдельного романа не совпадает, и некоторый вид автоматизированной процедуры совмещения предложений необходим для идентификации эквивалентных предложений. В совокупности методика, которую Ibrahim использует для выделения перефразирования из этих совмещенных одноязычных предложений, является производной от концепций множественных переводов, сформулированных в ссылке на Barzilay, McKeown, и разновидности структуры DIRT, описанной Lin и др.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
Согласно настоящему изобретению получают набор текстовых сегментов из множества различных статей (кластера статей), написанных об общем событии. Текстовые сегменты в этом наборе затем подвергают методикам совмещения слов/фраз для идентификации перефразирования. Может использоваться декодер для генерации перефразирования на основе пар текстовых сегментов.
В одном воплощении источниками набора текстовых сегментов являются различные статьи, написанные об одном и том же событии в периоды времени, близкие друг к другу. Текстовые сегменты могут, например, быть конкретными предложениями, извлеченными из этих статей. Например, было обнаружено, что первые два предложения новостных статей, написанных об одном и том же событии приблизительно в одно и то же время, часто содержат очень похожую информацию. Поэтому в одном воплощении первые два предложения множества различных статей, написанных об одном и том же событии приблизительно в одно и то же время, кластеризуют вместе и используют как источник наборов предложений. Конечно, может быть сформировано множество кластеров статей, где относительно большое количество статей написано о вариантах различных событий и где каждый кластер включает в себя группу статей, написанных об одном и том же событии.
В одном воплощении текстовые сегменты в заданном наборе текстовых сегментов, полученном из кластера статей, затем организуют в пары по отношению к другим текстовым сегментам в этом наборе и используют методики совмещения слов/фраз (или машинного перевода) для идентификации перефразирования, получая на входе парные текстовые сегменты. В то время как системы совмещения слов/фраз обычно обрабатывают текстовые сегменты на разных языках, в соответствии с одним воплощением данного изобретения, система совмещения обрабатывает текстовые сегменты на общем языке. Текстовые сегменты рассматриваются просто как различные пути высказывания одной и той же вещи.
В одном воплощении наборы текстовых сегментов могут быть отфильтрованы, используя эвристические или иные методики фильтрации. В еще одном воплощении модели, сгенерированные для идентификации перефразирования в системе совмещения слов/фраз, также используются для идентификации перефразирования в последующих обучающих данных.
В соответствии с другим воплощением данного изобретения алгоритм декодирования используется для генерации перефразирования при наличии перефразирования и моделей, выдаваемых системой совмещения.
ПЕРЕЧЕНЬ ФИГУР
Фиг.1 - блок-схема одного воплощения среды, в которой может использоваться данное изобретение.
Фиг.2 - блок-схема системы распознавания и генерации перефразирования в соответствии с одним воплощением данного изобретения.
Фиг.2a - иллюстрация использования компоненты распознавания перефразирования для выбора перефразированных наборов текстовых сегментов для использования при обучении.
Фиг.3 - блок-схема последовательности операций, иллюстрирующая функционирование системы, показанной на фиг.2.
Фиг.4 - иллюстрация одного иллюстративного совмещения между двумя парными предложениями в соответствии с одним воплощением данного изобретения.
ДЕТАЛЬНОЕ ОПИСАНИЕ ИЛЛЮСТРАТИВНЫХ ВОПЛОЩЕНИЙ
Данное изобретение относится к идентификации и, потенциально, генерации отношений перефразирования с использованием методик совмещения слов/фраз. Однако до обсуждения данного изобретения в деталях будет обсуждена одна иллюстративная среда, в которой может использоваться данное изобретение.
Фиг.1 иллюстрирует пример подходящей среды 100 вычислительной системы, в которой настоящее изобретение может быть реализовано. Среда 100 вычислительной системы представляет собой только один пример подходящей вычислительной среды, при этом не подразумевается, что она накладывает какие-либо ограничения относительно диапазона использования или функциональных возможностей изобретения. Также не следует интерпретировать вычислительную среду 100 как имеющую какие-либо зависимости или требования, касающиеся какого-либо компонента или комбинации компонентов, проиллюстрированных в примерной рабочей среде 100.
Изобретение может функционировать в других многочисленных средах или конфигурациях вычислительных систем общего или специального назначения. Примеры широко известных вычислительных систем, сред и/или конфигураций, которые могут быть подходящими для использования с изобретением, включают в себя, но не в ограничительном смысле, персональные компьютеры, серверные компьютеры, карманные или портативные устройства, многопроцессорные системы, системы на основе микропроцессоров, телевизионные компьютерные приставки, программируемую бытовую электронику, сетевые персональные компьютеры (ПК), мини-компьютеры, универсальные компьютеры (мейнфреймы), распределенные вычислительные среды, которые включают в себя любые из вышеупомянутых систем или устройств, и т.п.
Изобретение может быть описано в общем контексте машиноисполняемых команд, таких как программные модули, исполняемые компьютером. Вообще, программные модули включают в себя процедуры, программы, объекты, компоненты, структуры данных и т.д., которые выполняют специфические задачи или реализуют специфические абстрактные типы данных. Изобретение может также применяться в распределенных вычислительных средах, где задачи выполняются удаленными устройствами обработки данных, которые связаны между собой сетью связи. В распределенной вычислительной среде программные модули могут быть расположены как на локальных, так и на удаленных компьютерных носителях информации, включая запоминающие устройства.
Со ссылкой на фиг.1, примерная система для осуществления изобретения включает в себя вычислительное устройство общего назначения в форме компьютера 110. Компоненты компьютера 110 могут включать в себя, но не в ограничительном смысле, процессор 120, системную память 130 и системную шину 121, которая подсоединяет различные системные компоненты, включая системную память, к процессору 120. Системная шина 121 может относиться к любому из нескольких типов шинных структур, включая шину памяти или контроллер памяти, периферийную шину и локальную шину, использующие любой тип из многообразия шинных архитектур. В качестве примера, но не ограничения, такие архитектуры включают в себя шину Архитектуры Промышленного Стандарта (ISA), шину Микроканальной Архитектуры (MCA), расширенную шину ISA (EISA), локальную шину Видео Электронной Ассоциации Стандартов (VESA) и шину Межсоединения Периферийных Устройств (PCI), известную также как мезонинная шина.
Компьютер 110 обычно включает в себя разнообразные машиночитаемые носители информации. Машиночитаемые носители информации могут быть любыми возможными носителями, к которым компьютер 110 может осуществить доступ, и включают в себя как энергонезависимые, так и энергозависимые, как съемные, так и несъемные носители. В качестве примера, но не ограничения, машиночитаемые носители информации могут включать в себя компьютерные носители информации и среды передачи. Компьютерные носители информации включают в себя как энергонезависимые, так и энергозависимые, как съемные, так и несъемные носители, созданные любым методом или с помощью любой технологии для хранения информации, такой как машиночитаемые команды, структуры данных, программные модули или другие данные. Компьютерные носители информации включают в себя, но не в ограничительном смысле, оперативное запоминающее устройство (RAM, ОЗУ), постоянное запоминающее устройство (ROM, ПЗУ), электрически стираемое программируемое ПЗУ (EEPROM), флеш-память или память другой технологии, ПЗУ на компакт-диске (CDROM), универсальные цифровые диски (DVD) или другие оптические диски для хранения информации, магнитные кассеты, магнитные ленты, магнитные диски или другие магнитные устройства для хранения информации или любые другие носители, которые могут использоваться для хранения желаемой информации и к которым компьютер 110 может осуществить доступ. Среды передачи обычно воплощают машиночитаемые команды, структуры данных, программные модули или другие данные в модулированном информационном сигнале, таком как несущее колебание или другой механизм транспортировки, и включают в себя любые среды доставки информации. Термин “модулированный информационный сигнал” обозначает сигнал, одна или более характеристик которого установлены или изменены так, чтобы обеспечить кодирование информации в этом сигнале. В качестве примера, но не ограничения, среды передачи включают в себя проводные среды, такие как проводные сети или прямые проводные соединения, и беспроводные среды, такие как акустические, радиочастотные, инфракрасные и другие беспроводные среды. Комбинации любых из вышеперечисленных носителей и сред также охватываются понятием “машиночитаемый носитель информации”.
Системная память 130 включает в себя компьютерные носители информации в форме энергонезависимых и/или энергозависимых запоминающих устройств, таких как постоянное запоминающее устройство (ПЗУ) 131 и оперативное запоминающее устройство (ОЗУ) 132. Базовая система ввода/вывода 133 (BIOS), включающая основные процедуры, помогающие передаче информации между устройствами внутри компьютера 110, используемые, например, во время запуска системы, обычно хранится в ПЗУ 131. ОЗУ 132 обычно включает в себя данные и/или программные модули, которые оперативно доступны процессору 120 и/или обрабатываются процессором 120 в текущий момент. В качестве примера, но не ограничения, фиг.1 показывает операционную систему 134, прикладные программы 135, другие программные модули 136 и данные 137 программ.
Компьютер 110 может также включать в себя другие съемные/несъемные, энергонезависимые/энергозависимые компьютерные носители информации. Только для примера, фиг.1 показывает накопитель 140 на жестких магнитных дисках, который читает или записывает данные на несъемный, энергонезависимый магнитный носитель, магнитный дисковод 151, который читает или записывает данные на съемный энергонезависимый магнитный диск 152, и оптический дисковод, который читает или записывает данные на съемный энергонезависимый оптический диск 156, такой как компакт-диск CD-ROM или другой оптический носитель. Другие съемные/несъемные, энергозависимые/энергонезависимые компьютерные носители информации, которые можно использовать в иллюстративной операционной среде, включают в себя, но не в ограничительном смысле, кассеты с магнитной лентой, карты флеш-памяти, универсальные цифровые диски, ленты для цифрового видео, твердотельные ОЗУ, твердотельные ПЗУ и тому подобное. Накопитель 141 на жестких магнитных дисках обычно подсоединен к системной шине 121 с помощью интерфейса несъемной памяти, такого как интерфейс 140, а магнитный дисковод 151 и оптический дисковод 155 обычно подсоединены к системной шине 121 с помощью интерфейса съемной памяти, такого как интерфейс 150.
Накопители и дисководы и используемые ими компьютерные носители информации, рассмотренные выше и показанные на фиг.1, обеспечивают хранение машиночитаемых команд, структур данных, программных модулей или других данных для компьютера 110. На фиг.1 для примера накопитель 141 на жестких магнитных дисках показан как хранящий операционную систему 144, прикладные программы 145, другие программные модули 146 и данные 147 программ. Следует отметить, что эти компоненты могут либо быть одинаковыми, либо отличаться от операционной системы 134, прикладных программ 135, других программных модулей 136 и данных 137 программ. Операционная система 144, прикладные программы 145, другие программные модули 146 и данные 147 программ показаны под другими ссылочными номерами, чтобы проиллюстрировать, что они, как минимум, являются другими копиями.
Пользователь может вводить команды и информацию в компьютер 110 с помощью устройств ввода, таких как клавиатура 162 и координатно-указательное устройство 161, такое как мышь, шаровой манипулятор или сенсорная панель. Другие устройства ввода (не показанные здесь) могут включать в себя микрофон, джойстик, игровую панель, спутниковую тарелку, сканер или подобные им устройства. Эти и другие устройства ввода зачастую подсоединены к процессору 120 с помощью интерфейса 160 пользовательского ввода, связанного с системной шиной, но могут также быть подсоединены посредством других структур интерфейсов и шин, таких как параллельный порт, игровой порт или универсальная последовательная шина (USB). Монитор 191 или другой тип устройства отображения также подсоединяется к системной шине 121 через интерфейс, такой как видеоинтерфейс 190. В добавлении к монитору компьютеры могут также включать в себя другие периферийные устройства вывода, такие как громкоговорители 197 и принтер 196, которые могут быть подсоединены через периферийный интерфейс 195 вывода.
Компьютер 110 может работать в сетевой среде, используя логические соединения с одним или более удаленными компьютерами, такими как удаленный компьютер 180. Удаленный компьютер 180 может быть персональным компьютером, сервером, маршрутизатором, сетевым ПК, одноранговым устройством или другим обычным сетевым узлом и обычно включает в себя некоторые или все элементы, описанные выше по отношению к компьютеру 110, хотя только запоминающее устройство 181 показано на фиг.1. Логические соединения, изображенные на фиг.1, включают в себя локальную сеть (LAN) 171 и глобальную сеть (WAN) 173, но также могут включать в себя и другие сети. Такая сетевая среда обычно характерна для офисов, компьютерных сетей масштаба предприятия, интрасетей и сети Интернет.
При использовании в сетевой среде LAN компьютер 110 подсоединяется к LAN через сетевой интерфейс или адаптер 170. При использовании в сетевой среде WAN компьютер 110 обычно включает в себя модем 172 или другие средства, предназначенные для осуществления связи через WAN, такую как Интернет. Модем 172, который может быть внутренним или внешним, может быть подсоединен к системной шине 121 через интерфейс 160 пользовательского ввода или другое подходящее устройство. В сетевой среде программные модули, показанные в отношении к компьютеру 110, или их части, могут храниться в удаленном запоминающем устройстве. В качестве примера, но не ограничения, фиг.1 показывает удаленную прикладную программу 185 как постоянно хранящуюся на удаленном компьютере 180. Важно отметить, что показанные сетевые соединения являются иллюстративными и могут быть также использованы другие средства установления линии связи между компьютерами.
Необходимо отметить, что данное изобретение может быть осуществлено на компьютерной системе, такой как описанная при рассмотрении фиг.1 система. Однако данное изобретение может быть осуществлено на сервере, компьютере, предназначенном для обработки сообщений, или на распределенной системе, в которой различные части данного изобретения осуществляются на различных частях распределенной компьютерной системы.
Фиг.2 является блок-схемой одного воплощения системы 200 обработки перефразирования. Система 200 имеет доступ к базе 202 данных документов и включает в себя систему 204 кластеризации документов, систему 206 выбора текстовых сегментов, систему 210 совмещения слов/фраз, систему 211 идентификации на основе входного текста и систему 212 генерации на основе входного текста. Фиг.3 является блок-схемой последовательности операций, иллюстрирующей работу системы 200, показанной на фиг.2.
База 202 данных документов в качестве иллюстрации включает в себя множество различных новостных статей, написанных множеством различных агентств новостей. Каждая из статей в качестве иллюстрации включает в себя временную метку, указывающую, когда приблизительно эта статья создавалась. Также упомянутое множество статей от различных агентств новостей в качестве иллюстрации описывает широкое множество различных событий.
Конечно, хотя данное изобретение и описано относительно новостных статей, также могли бы быть использованы другие исходные документы, такие как технические статьи, описывающие общий процесс, различные медицинские статьи, описывающие общую медицинскую процедуру, и т.д.
Система 204 кластеризации документов осуществляет доступ к базе 202 данных документов, как проиллюстрировано этапом 214 на фиг.3. Необходимо отметить, что хотя на фиг.2 проиллюстрирована отдельная база 202 данных, вместо этого можно было бы осуществить доступ к множеству баз данных.
Система 204 кластеризации идентифицирует статьи в базе 202 данных документов, которые написаны об одном и том же событии. В одном воплощении статьи также идентифицируются как написанные в приблизительно одно и то же время (например, в пределах заранее определенного порога времени между ними, такого как один месяц, одна неделя, один день, в течение нескольких часов и т.д., как это желательно). Статьи, идентифицированные как написанные об одном и том же событии (и, возможно, в приблизительно одно и то же время), образуют кластер 218 документов. Это обозначено этапом 216 на фиг.3.
После того как родственные исходные статьи идентифицированы как кластер 218, желательно, чтобы были извлечены текстовые сегменты (такие как предложения, фразы, заголовки, абзацы и т.д.) в этих статьях. Например, журналистское соглашение о новостных статьях советует, чтобы первые 1-2 предложения статьи представляли собой резюме остальной части статьи. Поэтому в соответствии с одним воплощением данного изобретения статьи (которые в качестве иллюстрации были написаны разными агентствами новостей) кластеризуются в кластеры 218 и передаются системе 206 выбора текстовых сегментов, где извлекаются первые два предложения каждой статьи в каждом кластере 218. Хотя данное описание представлено по отношению к предложениям, необходимо отметить, что это является только примером, и другие текстовые сегменты могут также легко использоваться. Предложения из каждого кластера 218 статей выводятся как набор 222 предложений, соответствующих кластеризованным статьям. Наборы 222 предложений выдаются системой 206 выбора текстовых сегментов системе 210 совмещения слов/фраз. Это обозначено этапом 220 на фиг.3.
В данном конкретном примере, в котором используются предложения, многие из предложений, собранных этим способом, являются версиями некоторого единственного первоначального исходного предложения, в незначительной степени переписанного редакторами различных агентств новостей по стилистическим причинам. Отмечено, что часто эти наборы предложений имеют минимальные отличия, например в порядке слов, появляющихся в предложении.
Система 206 выбора текстовых сегментов генерирует наборы 222 предложений для каждого кластера. Необходимо отметить, что система 210 совмещения слов/фраз может обрабатывать большие наборы предложений, извлекая связи между словами или фразами на основе целостного анализа предложений в наборе. Однако далее в настоящем описании рассматривается формирование пар предложений и выполнение совмещения в отношении этих пар как одно из иллюстративных воплощений. Таким образом, в одном воплощении идентифицированные наборы предложений формируют в пары предложений. Поэтому система 206 выбора текстовых сегментов ставит в пару каждому предложению в наборе каждое другое предложение в этом наборе для формирования пар предложений для каждого набора. Пары предложений в одном воплощении подвергаются дополнительному этапу фильтрации, а в другом воплощении выдаются непосредственно системе 210 совмещения слов/фраз. Хотя фильтрация и будет описана относительно данного воплощения, необходимо отметить, что этапы, связанные с фильтрацией, являются необязательными.
В одном иллюстративном воплощении система 206 выбора текстовых сегментов реализует эвристическое правило, согласно которому фильтруют пары предложений на основе общих ключевых слов содержимого. Например, в одном иллюстративном воплощении система 206 фильтрует пары предложений, удаляя те пары предложений, которые не используют совместно, по меньшей мере, три слова не менее четырех символов каждое. Конечно, фильтрация является необязательной, и если она используется, то реализация алгоритма фильтрации может широко варьироваться. Может использоваться любая из множества различных методик фильтрации, например фильтрация на основе прошлых результатов (для чего требуется контур обратной связи для организации вывода из системы 210 совмещения слов/фраз в обратном направлении к системе 206 выбора текстовых сегментов), фильтрация на основе другого числа слов содержимого, фильтрация на основе другой семантической или синтаксической информации и т.д. В любом случае в наборах предложений может быть выполнено формирование пар и эти наборы могут быть отфильтрованы и переданы системе 210 совмещения слов/фраз.
В одном иллюстративном воплощении система 210 совмещения слов/фраз реализует общепринятый алгоритм совмещения слов/фраз, известный из литературы по статистическому машинному переводу, в попытке изучения лексических соответствий между предложениями в наборах 222. Например, предположим, что два следующих предложения вводятся в систему 210 машинного перевода как пара предложений:
Штормы и торнадо уничтожили не менее 14 человек, когда они пронеслись сквозь центральные американские штаты Канзас и Миссури.
Множество разрушительных торнадо прокатилось через Средний Запад, уничтожив не менее 19 человек в Канзасе и Миссури.
Эти предложения могут иметь общий редакционный источник, несмотря на некоторые различия. В любом случае они в качестве иллюстрации были написаны двумя различными агентствами новостей об одном и том же событии в приблизительно одно и то же время. Различия в предложениях включают “пронеслись сквозь”, соответствующее “прокатилось через”, различия в порядке слов “центральные американские штаты”, соответствующие “Среднему Западу”, морфологическое различие между словами “уничтожили” и “уничтожив” и различие в числе жертв, о которых сообщается.
Фиг.4 иллюстрирует соответствия между словами и множеством, составленных из слов фраз в предложениях, после того как слова и фразы были совмещены согласно известной системе 210 совмещения. Для большинства из этих соответствий статистический алгоритм совмещения установил связи между различными, но параллельными частями информации, как показано линиями, соединяющими слова. Например, фразы из существительных “штормы и торнадо” и “множество торнадо” непосредственно не сопоставимы. Поэтому по мере получения большего количества данных связь между “штормы” и “множество” исчезает. Различие в порядке слов можно заметить по пересекающейся комбинации связей между двумя предложениями.
В одном иллюстративном воплощении система 210 совмещения слов/фраз реализована с использованием методик, изложенных в статье P.F. Brown et al., “The Mathematics of Statistical Machine Translation: Parameter Estimation”, Computational Linguistics, 19:263-312, (июнь 1993). Конечно, могут использоваться другие методики машинного перевода или совмещения слов/фраз для идентификации ассоциаций между словами и входным текстом. Использование системы 210 совмещения для разработки моделей совмещения и выполнения статистического совмещения слов и/или фраз в отношении наборов предложений обозначено этапом 230 на фиг.3.
Система 210 совмещения слов/фраз после этого выдает совмещенные слова и фразы 232, наряду с моделями 234 совмещения, которые она сгенерировала на основе входных данных. В основном в вышеназванной системе совмещения модели обучены идентифицировать соответствия между словами. Согласно этой методике совмещения вначале находят совмещения слов между словами в текстовых сегментах, как проиллюстрировано на фиг.4. Затем система назначает вероятность каждому из этих совмещений и оптимизирует вероятности на основе последующих обучающих данных для генерации более точных моделей. Вывод моделей 234 совмещения и совмещенных слов и фраз 232 проиллюстрирован этапом 236 на фиг.3.
Модели 234 совмещения в качестве иллюстрации включают в себя обычные параметры модели перевода, такие как вероятности перевода, назначенные совмещениям слов, вероятности перемещения, показывающие вероятность того, что слово или фраза перемещаются в пределах предложения, и вероятности многозначности, показывающие вероятность того, что отдельное слово может соответствовать двум различным словам в другом текстовом сегменте.
Этапы 237, 238 и 239 являются необязательными этапами обработки, используемыми при начальной загрузке системы для самообучения. Они описаны в больших деталях ниже при рассмотрении фиг.2a.
В воплощении, в котором начальная загрузка не используется, система 211 получает выходные данные системы 210 и идентифицирует слова, фразы или предложения, которые являются перефразированием друг друга. Идентифицированные перефразирования 213 выводятся системой 211. Это обозначено этапом 242 на фиг.3.
Совмещенные фразы и модели могут также быть преданы системе 212 генерации на основе входного текста. Система 212 является в качестве иллюстрации обычным декодером, который принимает в качестве входных данных слова и/или фразы и генерирует перефразирование 238 для этих входных данных. Таким образом, система 212 может использоваться для генерации перефразирования входного текста, используя совмещенные слова и фразы 232 и модели 234 совмещения, сгенерированные системой 210 совмещения. Генерация перефразирования для входного текста на основе совмещенных слов и фраз и моделей совмещения обозначена этапом 240 на фиг.3. Одна иллюстративная система генерации изложена в статье Y. Wang и A. Waibel “Decoding Algorithm in Statistical Machine Translation”, материалы 35th Annual Meeting of the Association of Computational Linguistics (1997).
Фиг.2a подобна фиг.2 за исключением того, что система 211 идентификации также используется при начальном обучении. Это дополнительно проиллюстрировано этапами 237-239 на фиг.3. Например, предположим, что система 210 совмещения слов/фраз выдала модели 234 совмещения и совмещенные слова и фразы 232, как описано выше относительно фиг.2 и 3. Теперь, однако, полный текст каждого кластера 218 документов подан системе 211 идентификации для идентификации дополнительного набора 300 предложений (опять же, предложения используются только в качестве примера, другие текстовые сегменты также могут быть использованы) для использования при дальнейшем обучении системы. Система 211 идентификации с помощью моделей 234 совмещения и совмещенных слов и фраз 232 может обработать текст в кластерах документов 218, чтобы осуществить повторный выбор наборов 300 предложений для каждого из кластеров. Это обозначено этапом 237. Повторно выбранные наборы 300 предложений после этого передаются системе 210 совмещения слов/фраз, которая генерирует или повторно вычисляет модели 234 совмещения и совмещенные слова и фразы 232 и связанные с ними метрики вероятности на основе повторно выбранных наборов 300 предложений. Выполнение совмещения слов и фраз и генерация моделей совмещения и совмещенных слов и фраз на основе повторно выбранных наборов предложений обозначены этапами 238 и 239 на фиг.3.
Теперь повторно вычисленные модели 234 совмещения и новые совмещенные слова и фразы 232 могут снова быть введены в систему 211 идентификации и использованы системой 211, чтобы снова обработать текст в кластерах документов 218 для идентификации новых наборов предложений. Эти новые наборы предложений могут снова быть выданы в систему 210 совмещения слов/фраз, и процесс может быть продолжен для повышения качества обучения системы.
Существует широкое разнообразие применений для перефразирований, обработанных с использованием данной системы. Например, потенциальные применения для систем обработки перефразирования включают в себя систему ответа на вопросы, типа изложенной при описании предшествующего уровня техники, и более общую информационно-поисковую систему. Такая система может генерировать оценку перефразирования для определения подобия двух текстовых сегментов при выдаче набора документов на основе запроса. Подобным образом, такая система может использовать возможность генерации перефразирования для выполнения расширения запроса (получения множества форм единственного исходного запроса) для нахождения лучшего соответствия результатов или улучшения повторного запроса.
Кроме того, другие применения распознавания и генерации перефразирования включают в себя рефератирование множества документов. Используя распознание перефразирования, автоматическая система рефератирования документов может найти сходные отрывки в различных документах для выбора самой существенной информации в наборе документов для того, чтобы сгенерировать реферат.
Другим применением распознавания и генерации перефразирования является диалоговая система. Такая система может сгенерировать ответ, который повторяет ввод, но выражен по-другому во избежание бессмысленного повторения одного и того же ввода. Это придает системе диалога более естественное или разговорное звучание.
Распознавание и генерация перефразирования может также использоваться в системах обработки текстов. Система обработки текстов может использоваться для автоматической генерации стилистических вариантов написанного и предложения этих вариантов пользователю. Это может быть полезно, например, когда пользователь, будучи автором документа, повторил фразу большое количество раз, возможно, даже в одном абзаце. Точно так же система обработки текстов может включать в себя возможность помечания повторной (но по-другому перефразированной) информации, которая разбросана по документу. Точно так же, такая система может включать в себя возможность переписывать часть прозы в качестве парафразы.
Данное изобретение может также использоваться в системах управления и команд. Люди обычно спрашивают о вещах, используя весьма разную терминологию. Идентификация перефразирования позволяет такой системе выполнить надлежащую команду и управляющие действия, даже если входные данные сформулированы различными путями.
Таким образом, в соответствии с одним воплощением данного изобретения текстовые источники, описывающие общее событие, являются кластеризоваными. Заранее определенные текстовые сегменты в этих текстовых источниках извлекаются в наборы текстовых сегментов. Текстовый сегмент в каждом наборе передается системе совмещения для идентификации перефразирования. Таким образом, данное изобретение идентифицирует перефразирование по многим кластерам. Идентифицированные отношения перефразирования могут быть найдены, используя пары текстовых сегментов во множестве различных кластеров. Кроме того, в одном воплощении найденные перефразирования используются для нахождения большего числа отношений перефразирования при дальнейших процессах обучения. Это более выгодно по сравнению с предшествующими системами распознавания перефразирования.
Хотя данное изобретение было описано со ссылками на специфические воплощения, специалисты в данной области техники могут увидеть, что изменения могут быть сделаны в форме и деталях, но не отступая от сущности и объема данного изобретения.
Claims (7)
1. Способ обучения системы обработки перефразирования, содержащий этапы, на которых
осуществляют доступ к множеству документов;
идентифицируют из упомянутого множества документов кластер родственных текстов, написанных различными авторами по общей теме, причем упомянутые родственные тексты дополнительно идентифицируются как исходящие от различных агентств новостей и относящиеся к общему событию;
принимают кластер родственных текстов;
выбирают набор текстовых сегментов из этого кластера, причем при упомянутом выборе группируют желаемые текстовые сегменты родственных документов в набор родственных текстовых сегментов; и
используют текстовое совмещение для идентификации отношений перефразирования между текстами в текстовых сегментах, включенных в упомянутый набор родственных текстовых сегментов;
при этом при использовании текстового совмещения:
используют статистическое текстовое совмещение для совмещения слов в текстовых сегментах в упомянутом наборе и
идентифицируют отношения перефразирования на основе совмещенных слов.
осуществляют доступ к множеству документов;
идентифицируют из упомянутого множества документов кластер родственных текстов, написанных различными авторами по общей теме, причем упомянутые родственные тексты дополнительно идентифицируются как исходящие от различных агентств новостей и относящиеся к общему событию;
принимают кластер родственных текстов;
выбирают набор текстовых сегментов из этого кластера, причем при упомянутом выборе группируют желаемые текстовые сегменты родственных документов в набор родственных текстовых сегментов; и
используют текстовое совмещение для идентификации отношений перефразирования между текстами в текстовых сегментах, включенных в упомянутый набор родственных текстовых сегментов;
при этом при использовании текстового совмещения:
используют статистическое текстовое совмещение для совмещения слов в текстовых сегментах в упомянутом наборе и
идентифицируют отношения перефразирования на основе совмещенных слов.
2. Способ по п.1, дополнительно содержащий этап, на котором вычисляют модели совмещения на основе идентифицированных отношений перефразирования.
3. Способ по п.2, дополнительно содержащий этапы, на которых
принимают входной текст и
генерируют перефразирование входного текста на основе модели совмещения.
принимают входной текст и
генерируют перефразирование входного текста на основе модели совмещения.
4. Способ по п.1, в котором при выборе набора текстовых сегментов выбирают текстовые сегменты для упомянутого набора на основе ряда общих слов в текстовых сегментах.
5. Способ по п.1, в котором при идентификации кластера родственных текстов идентифицируют тексты, написанные в пределах заранее определенного времени друг по отношению к другу.
6. Способ по п.1, в котором при группировании желаемых текстовых сегментов группируют первое заранее определенное число предложений каждой новостной статьи в каждом кластере в набор родственных текстовых сегментов.
7. Способ по п.6, в котором при выборе набора текстовых сегментов формируют пару каждого предложения в заданном наборе родственных текстовых сегментов с каждым другим предложением в этом заданном наборе.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/706,102 US7412385B2 (en) | 2003-11-12 | 2003-11-12 | System for identifying paraphrases using machine translation |
US10/706,102 | 2003-11-12 |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2004129675A RU2004129675A (ru) | 2006-03-20 |
RU2368946C2 true RU2368946C2 (ru) | 2009-09-27 |
Family
ID=34435622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2004129675/09A RU2368946C2 (ru) | 2003-11-12 | 2004-10-12 | Система для идентификации перефразирования с использованием технологии машинного перевода |
Country Status (10)
Country | Link |
---|---|
US (2) | US7412385B2 (ru) |
EP (1) | EP1531402A3 (ru) |
JP (1) | JP2005149494A (ru) |
KR (1) | KR101130444B1 (ru) |
CN (1) | CN100371927C (ru) |
AU (1) | AU2004218705B2 (ru) |
BR (1) | BRPI0404348A (ru) |
CA (1) | CA2484410C (ru) |
MX (1) | MXPA04010820A (ru) |
RU (1) | RU2368946C2 (ru) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2610241C2 (ru) * | 2015-03-19 | 2017-02-08 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов |
RU2639684C2 (ru) * | 2014-08-29 | 2017-12-21 | Общество С Ограниченной Ответственностью "Яндекс" | Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты) |
RU2649294C2 (ru) * | 2015-11-24 | 2018-03-30 | Сяоми Инк. | Способ и устройство для построения шаблона и способ и устройство для идентификации информации |
RU2699396C1 (ru) * | 2018-11-19 | 2019-09-05 | Общество С Ограниченной Ответственностью "Инвек" | Нейронная сеть для интерпретирования предложений на естественном языке |
Families Citing this family (259)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7660740B2 (en) * | 2000-10-16 | 2010-02-09 | Ebay Inc. | Method and system for listing items globally and regionally, and customized listing according to currency or shipping area |
US7752266B2 (en) | 2001-10-11 | 2010-07-06 | Ebay Inc. | System and method to facilitate translation of communications between entities over a network |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US8719041B2 (en) | 2002-06-10 | 2014-05-06 | Ebay Inc. | Method and system for customizing a network-based transaction facility seller application |
US7941348B2 (en) | 2002-06-10 | 2011-05-10 | Ebay Inc. | Method and system for scheduling transaction listings at a network-based transaction facility |
US8078505B2 (en) | 2002-06-10 | 2011-12-13 | Ebay Inc. | Method and system for automatically updating a seller application utilized in a network-based transaction facility |
US8428934B2 (en) * | 2010-01-25 | 2013-04-23 | Holovisions LLC | Prose style morphing |
US7742985B1 (en) | 2003-06-26 | 2010-06-22 | Paypal Inc. | Multicurrency exchanges between participants of a network-based transaction facility |
US7584092B2 (en) * | 2004-11-15 | 2009-09-01 | Microsoft Corporation | Unsupervised learning of paraphrase/translation alternations and selective application thereof |
US7412385B2 (en) * | 2003-11-12 | 2008-08-12 | Microsoft Corporation | System for identifying paraphrases using machine translation |
US9189568B2 (en) | 2004-04-23 | 2015-11-17 | Ebay Inc. | Method and system to display and search in a language independent manner |
US7546235B2 (en) * | 2004-11-15 | 2009-06-09 | Microsoft Corporation | Unsupervised learning of paraphrase/translation alternations and selective application thereof |
US7552046B2 (en) * | 2004-11-15 | 2009-06-23 | Microsoft Corporation | Unsupervised learning of paraphrase/translation alternations and selective application thereof |
JP4645242B2 (ja) * | 2005-03-14 | 2011-03-09 | 富士ゼロックス株式会社 | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
US8719244B1 (en) | 2005-03-23 | 2014-05-06 | Google Inc. | Methods and systems for retrieval of information items and associated sentence fragments |
US7937396B1 (en) * | 2005-03-23 | 2011-05-03 | Google Inc. | Methods and systems for identifying paraphrases from an index of information items and associated sentence fragments |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7937265B1 (en) | 2005-09-27 | 2011-05-03 | Google Inc. | Paraphrase acquisition |
US7908132B2 (en) * | 2005-09-29 | 2011-03-15 | Microsoft Corporation | Writing assistance using machine translation techniques |
US7739254B1 (en) * | 2005-09-30 | 2010-06-15 | Google Inc. | Labeling events in historic news |
US20080040339A1 (en) * | 2006-08-07 | 2008-02-14 | Microsoft Corporation | Learning question paraphrases from log data |
US8639782B2 (en) | 2006-08-23 | 2014-01-28 | Ebay, Inc. | Method and system for sharing metadata between interfaces |
US8626486B2 (en) * | 2006-09-05 | 2014-01-07 | Google Inc. | Automatic spelling correction for machine translation |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8423908B2 (en) * | 2006-09-08 | 2013-04-16 | Research In Motion Limited | Method for identifying language of text in a handheld electronic device and a handheld electronic device incorporating the same |
US8019595B1 (en) | 2006-09-11 | 2011-09-13 | WordRake Holdings, LLC | Computer processes for analyzing and improving document readability |
JP5082374B2 (ja) * | 2006-10-19 | 2012-11-28 | 富士通株式会社 | フレーズアラインメントプログラム、翻訳プログラム、フレーズアラインメント装置およびフレーズアラインメント方法 |
US8078451B2 (en) * | 2006-10-27 | 2011-12-13 | Microsoft Corporation | Interface and methods for collecting aligned editorial corrections into a database |
KR100911372B1 (ko) * | 2006-12-05 | 2009-08-10 | 한국전자통신연구원 | 통계적 기계번역 시스템에서 단어 및 구문들간의 번역관계를 자율적으로 학습하기 위한 장치 및 그 방법 |
CN101563682A (zh) * | 2006-12-22 | 2009-10-21 | 日本电气株式会社 | 语句改述方法、程序以及系统 |
US20090326913A1 (en) * | 2007-01-10 | 2009-12-31 | Michel Simard | Means and method for automatic post-editing of translations |
US20080221866A1 (en) * | 2007-03-06 | 2008-09-11 | Lalitesh Katragadda | Machine Learning For Transliteration |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
CN104866469B (zh) * | 2007-04-11 | 2018-10-02 | 谷歌有限责任公司 | 具有第二语言模式的输入法编辑器 |
US20080294398A1 (en) * | 2007-05-25 | 2008-11-27 | Justsystems Evans Research, Inc. | Method and apparatus for the automated construction of models of activities from textual descriptions of the activities |
JP5638948B2 (ja) * | 2007-08-01 | 2014-12-10 | ジンジャー ソフトウェア、インコーポレイティッド | インターネットコーパスを用いた、文脈依存言語の自動的な修正および改善 |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8725490B2 (en) * | 2007-10-18 | 2014-05-13 | Yahoo! Inc. | Virtual universal translator for a mobile device with a camera |
US9910850B2 (en) * | 2007-10-25 | 2018-03-06 | Disney Enterprises, Inc. | System and method of localizing assets using text substitutions |
US20090119090A1 (en) * | 2007-11-01 | 2009-05-07 | Microsoft Corporation | Principled Approach to Paraphrasing |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8612469B2 (en) | 2008-02-21 | 2013-12-17 | Globalenglish Corporation | Network-accessible collaborative annotation tool |
WO2009105735A2 (en) | 2008-02-21 | 2009-08-27 | Globalenglish Corporation | Web-based tool for collaborative, social learning |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US20090228427A1 (en) * | 2008-03-06 | 2009-09-10 | Microsoft Corporation | Managing document work sets |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8504354B2 (en) * | 2008-06-02 | 2013-08-06 | Microsoft Corporation | Parallel fragment extraction from noisy parallel corpora |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US20100082324A1 (en) * | 2008-09-30 | 2010-04-01 | Microsoft Corporation | Replacing terms in machine translation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US8494835B2 (en) * | 2008-12-02 | 2013-07-23 | Electronics And Telecommunications Research Institute | Post-editing apparatus and method for correcting translation errors |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) * | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8527500B2 (en) * | 2009-02-27 | 2013-09-03 | Red Hat, Inc. | Preprocessing text to enhance statistical features |
US8396850B2 (en) * | 2009-02-27 | 2013-03-12 | Red Hat, Inc. | Discriminating search results by phrase analysis |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US20100299132A1 (en) * | 2009-05-22 | 2010-11-25 | Microsoft Corporation | Mining phrase pairs from an unstructured resource |
US10891659B2 (en) | 2009-05-29 | 2021-01-12 | Red Hat, Inc. | Placing resources in displayed web pages via context modeling |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US8285706B2 (en) * | 2009-06-10 | 2012-10-09 | Microsoft Corporation | Using a human computation game to improve search engine performance |
US20100332217A1 (en) * | 2009-06-29 | 2010-12-30 | Shalom Wintner | Method for text improvement via linguistic abstractions |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US20110184723A1 (en) * | 2010-01-25 | 2011-07-28 | Microsoft Corporation | Phonetic suggestion engine |
US8543381B2 (en) * | 2010-01-25 | 2013-09-24 | Holovisions LLC | Morphing text by splicing end-compatible segments |
US8566078B2 (en) * | 2010-01-29 | 2013-10-22 | International Business Machines Corporation | Game based method for translation data acquisition and evaluation |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8478699B1 (en) * | 2010-04-30 | 2013-07-02 | Google Inc. | Multiple correlation measures for measuring query similarity |
US8554542B2 (en) * | 2010-05-05 | 2013-10-08 | Xerox Corporation | Textual entailment method for linking text of an abstract to text in the main body of a document |
US8788260B2 (en) * | 2010-05-11 | 2014-07-22 | Microsoft Corporation | Generating snippets based on content features |
US8484016B2 (en) | 2010-05-28 | 2013-07-09 | Microsoft Corporation | Locating paraphrases through utilization of a multipartite graph |
US20120330643A1 (en) * | 2010-06-04 | 2012-12-27 | John Frei | System and method for translation |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US20120109623A1 (en) * | 2010-11-01 | 2012-05-03 | Microsoft Corporation | Stimulus Description Collections |
US8903719B1 (en) * | 2010-11-17 | 2014-12-02 | Sprint Communications Company L.P. | Providing context-sensitive writing assistance |
US20120143593A1 (en) * | 2010-12-07 | 2012-06-07 | Microsoft Corporation | Fuzzy matching and scoring based on direct alignment |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8838433B2 (en) * | 2011-02-08 | 2014-09-16 | Microsoft Corporation | Selection of domain-adapted translation subcorpora |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US9098488B2 (en) | 2011-04-03 | 2015-08-04 | Microsoft Technology Licensing, Llc | Translation of multilingual embedded phrases |
US8972240B2 (en) * | 2011-05-19 | 2015-03-03 | Microsoft Corporation | User-modifiable word lattice display for editing documents and search queries |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
CN103092829B (zh) * | 2011-10-27 | 2015-11-25 | 北京百度网讯科技有限公司 | 一种复述资源获取方法及系统 |
KR20130047471A (ko) * | 2011-10-31 | 2013-05-08 | 한국전자통신연구원 | 자동번역 시스템의 패러프레이징 데이터 구축방법 |
US9348479B2 (en) | 2011-12-08 | 2016-05-24 | Microsoft Technology Licensing, Llc | Sentiment aware user interface customization |
US9378290B2 (en) | 2011-12-20 | 2016-06-28 | Microsoft Technology Licensing, Llc | Scenario-adaptive input method editor |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9754585B2 (en) | 2012-04-03 | 2017-09-05 | Microsoft Technology Licensing, Llc | Crowdsourced, grounded language for intent modeling in conversational interfaces |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
EP2864856A4 (en) | 2012-06-25 | 2015-10-14 | Microsoft Technology Licensing Llc | SEIZURE METHOD EDITOR APPLICATION PLATFORM |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US8959109B2 (en) | 2012-08-06 | 2015-02-17 | Microsoft Corporation | Business intelligent in-document suggestions |
WO2014032244A1 (en) | 2012-08-30 | 2014-03-06 | Microsoft Corporation | Feature-based candidate selection |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US9116880B2 (en) | 2012-11-30 | 2015-08-25 | Microsoft Technology Licensing, Llc | Generating stimuli for use in soliciting grounded linguistic information |
US9146919B2 (en) | 2013-01-16 | 2015-09-29 | Google Inc. | Bootstrapping named entity canonicalizers from English using alignment models |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US10223349B2 (en) | 2013-02-20 | 2019-03-05 | Microsoft Technology Licensing Llc | Inducing and applying a subject-targeted context free grammar |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US10078487B2 (en) | 2013-03-15 | 2018-09-18 | Apple Inc. | Context-sensitive handling of interruptions |
KR101857648B1 (ko) | 2013-03-15 | 2018-05-15 | 애플 인크. | 지능형 디지털 어시스턴트에 의한 사용자 트레이닝 |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3937002A1 (en) | 2013-06-09 | 2022-01-12 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
AU2014278595B2 (en) | 2013-06-13 | 2017-04-06 | Apple Inc. | System and method for emergency calls initiated by voice command |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
CN105580004A (zh) | 2013-08-09 | 2016-05-11 | 微软技术许可有限责任公司 | 提供语言帮助的输入方法编辑器 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9779087B2 (en) * | 2013-12-13 | 2017-10-03 | Google Inc. | Cross-lingual discriminative learning of sequence models with posterior regularization |
KR101615621B1 (ko) * | 2014-04-23 | 2016-04-27 | 한국과학기술원 | 동일 지시어 해소 시스템 및 방법 |
JPWO2015162737A1 (ja) * | 2014-04-23 | 2017-04-13 | 株式会社東芝 | 音訳作業支援装置、音訳作業支援方法及びプログラム |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
CN105335343A (zh) | 2014-07-25 | 2016-02-17 | 北京三星通信技术研究有限公司 | 文本编辑方法和装置 |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
JP6190341B2 (ja) * | 2014-09-04 | 2017-08-30 | 日本電信電話株式会社 | データ生成装置、データ生成方法、及びプログラム |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
JP6466138B2 (ja) * | 2014-11-04 | 2019-02-06 | 株式会社東芝 | 外国語文作成支援装置、方法及びプログラム |
TWI591494B (zh) * | 2014-11-26 | 2017-07-11 | 納寶股份有限公司 | 內容參與翻譯設備和方法 |
JP6320982B2 (ja) * | 2014-11-26 | 2018-05-09 | ネイバー コーポレーションNAVER Corporation | 翻訳文エディタ提供装置、並びに翻訳文エディタ提供方法 |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US20180011920A1 (en) * | 2015-01-29 | 2018-01-11 | Hewlett-Packard Development Company, L.P. | Segmentation based on clustering engines applied to summaries |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
CN106156010B (zh) * | 2015-04-20 | 2019-10-11 | 阿里巴巴集团控股有限公司 | 翻译训练方法、装置、系统、以及在线翻译方法及装置 |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
EP3380950A1 (en) * | 2015-11-25 | 2018-10-03 | Koninklijke Philips N.V. | Reader-driven paraphrasing of electronic clinical free text |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
CN105653620B (zh) * | 2015-12-25 | 2020-05-22 | 上海智臻智能网络科技股份有限公司 | 智能问答系统的日志分析方法及装置 |
JP6671027B2 (ja) * | 2016-02-01 | 2020-03-25 | パナソニックIpマネジメント株式会社 | 換言文生成方法、該装置および該プログラム |
US11727198B2 (en) | 2016-02-01 | 2023-08-15 | Microsoft Technology Licensing, Llc | Enterprise writing assistance |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
CN107861937B (zh) * | 2016-09-21 | 2023-02-03 | 松下知识产权经营株式会社 | 对译语料库的更新方法、更新装置以及记录介质 |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
KR102589638B1 (ko) | 2016-10-31 | 2023-10-16 | 삼성전자주식회사 | 문장 생성 장치 및 방법 |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
KR101851785B1 (ko) * | 2017-03-20 | 2018-06-07 | 주식회사 마인드셋 | 챗봇의 트레이닝 세트 생성 장치 및 방법 |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
US10275452B2 (en) | 2017-05-12 | 2019-04-30 | International Business Machines Corporation | Automatic, unsupervised paraphrase detection |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10423665B2 (en) * | 2017-08-02 | 2019-09-24 | Oath Inc. | Method and system for generating a conversational agent by automatic paraphrase generation based on machine translation |
US11620566B1 (en) * | 2017-08-04 | 2023-04-04 | Grammarly, Inc. | Artificial intelligence communication assistance for improving the effectiveness of communications using reaction data |
CN107766337A (zh) * | 2017-09-25 | 2018-03-06 | 沈阳航空航天大学 | 基于深度语义关联的译文预测方法 |
US10606943B2 (en) * | 2017-10-09 | 2020-03-31 | International Business Machines Corporation | Fault injection in human-readable information |
US20190163756A1 (en) * | 2017-11-29 | 2019-05-30 | International Business Machines Corporation | Hierarchical question answering system |
US10558762B2 (en) | 2018-02-24 | 2020-02-11 | International Business Machines Corporation | System and method for adaptive quality estimation for machine translation post-editing |
JP6970345B2 (ja) * | 2018-08-21 | 2021-11-24 | 日本電信電話株式会社 | 学習装置、音声認識装置、学習方法、音声認識方法およびプログラム |
KR102637340B1 (ko) | 2018-08-31 | 2024-02-16 | 삼성전자주식회사 | 문장 매핑 방법 및 장치 |
US11151452B2 (en) * | 2018-12-07 | 2021-10-19 | Capital One Services, Llc | Systems and methods for legal document generation |
US11126794B2 (en) * | 2019-04-11 | 2021-09-21 | Microsoft Technology Licensing, Llc | Targeted rewrites |
US11449687B2 (en) | 2019-05-10 | 2022-09-20 | Yseop Sa | Natural language text generation using semantic objects |
US10817576B1 (en) * | 2019-08-07 | 2020-10-27 | SparkBeyond Ltd. | Systems and methods for searching an unstructured dataset with a query |
KR102240910B1 (ko) | 2019-09-30 | 2021-04-14 | 광운대학교 산학협력단 | 머신 러닝 기반 한국 고객 서비스 어시스턴트 보조 시스템 |
US11501088B1 (en) | 2020-03-11 | 2022-11-15 | Yseop Sa | Techniques for generating natural language text customized to linguistic preferences of a user |
US11210473B1 (en) * | 2020-03-12 | 2021-12-28 | Yseop Sa | Domain knowledge learning techniques for natural language generation |
US11983486B1 (en) | 2020-12-09 | 2024-05-14 | Yseop Sa | Machine learning techniques for updating documents generated by a natural language generation (NLG) engine |
KR102370729B1 (ko) | 2021-06-03 | 2022-03-07 | 최연 | 문장 작성 시스템 |
US20230019081A1 (en) * | 2021-07-16 | 2023-01-19 | Microsoft Technology Licensing, Llc | Modular self-supervision for document-level relation extraction |
US20230401286A1 (en) * | 2022-06-14 | 2023-12-14 | Oracle International Corporation | Guided augmention of data sets for machine learning models |
Family Cites Families (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4319711A (en) * | 1977-10-11 | 1982-03-16 | Robertshaw Controls Company | Wall thermostat and the like |
US4277784A (en) * | 1979-07-13 | 1981-07-07 | Commodore Electronics Limited | Switch scanning means for use with integrated circuits |
US4337822A (en) * | 1979-08-16 | 1982-07-06 | Hyltin Tom M | Digital thermostat |
US4264034A (en) * | 1979-08-16 | 1981-04-28 | Hyltin Tom M | Digital thermostat |
US4460125A (en) * | 1981-05-14 | 1984-07-17 | Robertshaw Controls Company | Wall thermostat and the like |
SE466029B (sv) | 1989-03-06 | 1991-12-02 | Ibm Svenska Ab | Anordning och foerfarande foer analys av naturligt spraak i ett datorbaserat informationsbehandlingssystem |
US5103078A (en) * | 1990-02-01 | 1992-04-07 | Boykin T Brooks | Programmable hot water heater control method |
US5107918A (en) * | 1991-03-01 | 1992-04-28 | Lennox Industries Inc. | Electronic thermostat |
US5495413A (en) | 1992-09-25 | 1996-02-27 | Sharp Kabushiki Kaisha | Translation machine having a function of deriving two or more syntaxes from one original sentence and giving precedence to a selected one of the syntaxes |
US6139201A (en) | 1994-12-22 | 2000-10-31 | Caterpillar Inc. | Integrated authoring and translation system |
US5870700A (en) | 1996-04-01 | 1999-02-09 | Dts Software, Inc. | Brazilian Portuguese grammar checker |
US5999896A (en) * | 1996-06-25 | 1999-12-07 | Microsoft Corporation | Method and system for identifying and resolving commonly confused words in a natural language parser |
US6076051A (en) | 1997-03-07 | 2000-06-13 | Microsoft Corporation | Information retrieval utilizing semantic representation of text |
WO1999000789A1 (en) * | 1997-06-26 | 1999-01-07 | Koninklijke Philips Electronics N.V. | A machine-organized method and a device for translating a word-organized source text into a word-organized target text |
US6098033A (en) | 1997-07-31 | 2000-08-01 | Microsoft Corporation | Determining similarity between words |
US5960080A (en) * | 1997-11-07 | 1999-09-28 | Justsystem Pittsburgh Research Center | Method for transforming message containing sensitive information |
US6424983B1 (en) | 1998-05-26 | 2002-07-23 | Global Information Research And Technologies, Llc | Spelling and grammar checking system |
US6035269A (en) * | 1998-06-23 | 2000-03-07 | Microsoft Corporation | Method for detecting stylistic errors and generating replacement strings in a document containing Japanese text |
US6188976B1 (en) | 1998-10-23 | 2001-02-13 | International Business Machines Corporation | Apparatus and method for building domain-specific language models |
US6848080B1 (en) | 1999-11-05 | 2005-01-25 | Microsoft Corporation | Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors |
US6315211B1 (en) * | 1999-12-03 | 2001-11-13 | Emerson Electric Co. | Hardwired or battery powered digital thermostat |
WO2001082111A2 (en) * | 2000-04-24 | 2001-11-01 | Microsoft Corporation | Computer-aided reading system and method with cross-language reading wizard |
US7107204B1 (en) * | 2000-04-24 | 2006-09-12 | Microsoft Corporation | Computer-aided writing system and method with cross-language writing wizard |
US6961692B1 (en) * | 2000-08-01 | 2005-11-01 | Fuji Xerox Co, Ltd. | System and method for writing analysis using the linguistic discourse model |
US7043420B2 (en) | 2000-12-11 | 2006-05-09 | International Business Machines Corporation | Trainable dynamic phrase reordering for natural language generation in conversational systems |
US7054803B2 (en) * | 2000-12-19 | 2006-05-30 | Xerox Corporation | Extracting sentence translations from translated documents |
JP2002245037A (ja) * | 2001-02-16 | 2002-08-30 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 句アラインメント方法 |
JP3764058B2 (ja) * | 2001-03-01 | 2006-04-05 | 株式会社東芝 | 翻訳装置、翻訳方法及び翻訳プログラム |
US7146308B2 (en) | 2001-04-05 | 2006-12-05 | Dekang Lin | Discovery of inference rules from text |
JP2005500594A (ja) * | 2001-05-04 | 2005-01-06 | パラセル, インコーポレイテッド | 高速の近似部分文字列検索ための方法および装置 |
US20030055625A1 (en) | 2001-05-31 | 2003-03-20 | Tatiana Korelsky | Linguistic assistant for domain analysis methodology |
US7050964B2 (en) | 2001-06-01 | 2006-05-23 | Microsoft Corporation | Scaleable machine translation system |
CN1391180A (zh) * | 2001-06-11 | 2003-01-15 | 国际商业机器公司 | 外语写作辅助方法和辅助工具 |
JP2003263433A (ja) * | 2002-03-07 | 2003-09-19 | Advanced Telecommunication Research Institute International | 統計的機械翻訳機における翻訳モデルの生成方法 |
US7031911B2 (en) * | 2002-06-28 | 2006-04-18 | Microsoft Corporation | System and method for automatic detection of collocation mistakes in documents |
US7076422B2 (en) | 2003-03-13 | 2006-07-11 | Microsoft Corporation | Modelling and processing filled pauses and noises in speech recognition |
US7412385B2 (en) | 2003-11-12 | 2008-08-12 | Microsoft Corporation | System for identifying paraphrases using machine translation |
US7496621B2 (en) | 2004-07-14 | 2009-02-24 | International Business Machines Corporation | Method, program, and apparatus for natural language generation |
US7908132B2 (en) | 2005-09-29 | 2011-03-15 | Microsoft Corporation | Writing assistance using machine translation techniques |
-
2003
- 2003-11-12 US US10/706,102 patent/US7412385B2/en active Active
-
2004
- 2004-10-08 AU AU2004218705A patent/AU2004218705B2/en not_active Ceased
- 2004-10-08 CA CA2484410A patent/CA2484410C/en not_active Expired - Lifetime
- 2004-10-11 BR BR0404348-0A patent/BRPI0404348A/pt not_active IP Right Cessation
- 2004-10-12 RU RU2004129675/09A patent/RU2368946C2/ru not_active IP Right Cessation
- 2004-10-18 EP EP04024785A patent/EP1531402A3/en not_active Ceased
- 2004-10-27 KR KR1020040086343A patent/KR101130444B1/ko active IP Right Grant
- 2004-10-29 JP JP2004316990A patent/JP2005149494A/ja active Pending
- 2004-10-29 MX MXPA04010820A patent/MXPA04010820A/es active IP Right Grant
- 2004-11-12 CN CNB2004100957902A patent/CN100371927C/zh active Active
-
2005
- 2005-10-07 US US11/246,979 patent/US7752034B2/en not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
Brazilay R. et al. Extracting Paraphrases from a Parallel Corpus, Proceeding of the ACL/EACL, Toulouse, France, 05.07.2001. * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2639684C2 (ru) * | 2014-08-29 | 2017-12-21 | Общество С Ограниченной Ответственностью "Яндекс" | Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты) |
RU2610241C2 (ru) * | 2015-03-19 | 2017-02-08 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов |
RU2649294C2 (ru) * | 2015-11-24 | 2018-03-30 | Сяоми Инк. | Способ и устройство для построения шаблона и способ и устройство для идентификации информации |
US10061762B2 (en) | 2015-11-24 | 2018-08-28 | Xiaomi Inc. | Method and device for identifying information, and computer-readable storage medium |
RU2699396C1 (ru) * | 2018-11-19 | 2019-09-05 | Общество С Ограниченной Ответственностью "Инвек" | Нейронная сеть для интерпретирования предложений на естественном языке |
WO2020106180A1 (ru) * | 2018-11-19 | 2020-05-28 | Общество С Ограниченной Ответственностью "Инвек" | Нейронная сеть для интерпретирования предложений на естественном языке |
US12019991B2 (en) | 2018-11-19 | 2024-06-25 | Obshchestvo S Ogranichennoj Otvetsvetvennostu “Invek” | Neural network for interpreting sentences of a natural language |
Also Published As
Publication number | Publication date |
---|---|
BRPI0404348A (pt) | 2005-07-12 |
CN1617134A (zh) | 2005-05-18 |
US20050102614A1 (en) | 2005-05-12 |
AU2004218705B2 (en) | 2010-03-11 |
CA2484410A1 (en) | 2005-05-12 |
CN100371927C (zh) | 2008-02-27 |
KR101130444B1 (ko) | 2012-07-02 |
MXPA04010820A (es) | 2007-11-14 |
AU2004218705A1 (en) | 2005-05-26 |
KR20050045822A (ko) | 2005-05-17 |
RU2004129675A (ru) | 2006-03-20 |
JP2005149494A (ja) | 2005-06-09 |
EP1531402A3 (en) | 2006-05-31 |
US7752034B2 (en) | 2010-07-06 |
CA2484410C (en) | 2013-12-03 |
US20060053001A1 (en) | 2006-03-09 |
US7412385B2 (en) | 2008-08-12 |
EP1531402A2 (en) | 2005-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2368946C2 (ru) | Система для идентификации перефразирования с использованием технологии машинного перевода | |
Ojokoh et al. | A review of question answering systems | |
US7546235B2 (en) | Unsupervised learning of paraphrase/translation alternations and selective application thereof | |
US7552046B2 (en) | Unsupervised learning of paraphrase/translation alternations and selective application thereof | |
US7584092B2 (en) | Unsupervised learning of paraphrase/translation alternations and selective application thereof | |
WO2013125286A1 (ja) | ノン・ファクトイド型質問応答システム及びコンピュータプログラム | |
US20090119090A1 (en) | Principled Approach to Paraphrasing | |
Li et al. | Natural language data management and interfaces | |
Kaur et al. | Natural language processing interface for synonym | |
HajiAminShirazi et al. | Cross-lingual embedding for cross-lingual question retrieval in low-resource community question answering | |
Nguyen et al. | A novel approach for automatic extraction of semantic data about football transfer in sport news | |
Fehri et al. | ARmed question answering system | |
Rishel et al. | Determining the context of text using augmented latent semantic indexing | |
Trandafili et al. | A novel question answering system for Albanian language | |
Islam | Towards achieving a delicate blending between rule-based translator and neural machine translator for Bengali to English translation | |
Yan et al. | A novel word-graph-based query rewriting method for question answering | |
Handler | Natural Language Processing for Lexical Corpus Analysis | |
Chistova et al. | Open Information Extraction from Texts: Part III. Question Answering over an Automatically Constructed Knowledge Base | |
Birke | A clustering approach for the unsupervised recognition of nonliteral language | |
Tang et al. | Improving translation selection with supersenses | |
Niklaus | Text Simplification for Information Extraction | |
Žubrinic | Automatic creation of a concept map | |
ANGELOVA | CHAPTER NINETEEN AUTOMATIC ONTOLOGY ACQUISITION | |
Gola | An analysis of translation divergence patterns using PanLex translation pairs | |
Bergström et al. | Acquiring textual relations automatically on the web using genetic programming |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20121013 |