RU2699396C1

RU2699396C1 - Нейронная сеть для интерпретирования предложений на естественном языке

Info

Publication number: RU2699396C1
Application number: RU2018140784A
Authority: RU
Inventors: Михаил Николаевич Молин; Георгий Михайлович Перский
Original assignee: Общество С Ограниченной Ответственностью "Инвек"
Priority date: 2018-11-19
Filing date: 2018-11-19
Publication date: 2019-09-05
Also published as: WO2020106180A1; CN113366484A; US20210334470A1

Abstract

Изобретение относится к области вычислительной техники и может быть использовано для интерпретирования предложений на естественном языке, в том числе выполнения контекстно-тематического машинного перевода. Техническим результатом является повышение качества интерпретирования предложений на естественном языке. Устройство состоит из слоев нейронов, при этом первый слой нейронов предназначен для интерпретирования значений отдельных слов в предложении, промежуточные слои нейронов предназначены для интерпретирования словосочетаний предложения, количество слов в которых соответствует номеру слоя нейронов в нейронной сети. Последний слой нейронов представлен выходным нейроном и предназначен для интерпретирования предложения на основе интерпретированных на предыдущих слоях нейронов значений слов. Каждый нейрон входного и промежуточных слоев содержит ячейку памяти, предназначенную для хранения, соответственно, значений слова или словосочетания, при этом каждому такому значению соответствует бинарный признак, кодирование которого описывается следующим правилом: "1" - основное значение слова или словосочетания, "0" - дополнительное значение слова или словосочетания. 7 з.п. ф-лы, 1 ил.

Description

Область техники

Настоящее изобретение относится к средствам вычислительной техники, предназначенным для интерпретирования предложений на естественном языке, в том числе, выполнения контекстно-тематического машинного перевода. Изобретение может быть использовано в различных отраслях промышленности и социальной сферы, в которых требуется управление межъязыковыми коммуникациями.

Уровень техники

Управление коммуникациями является одной из компетенций, выделяемых в своде знаний руководства по управлению проектами (PMBOK). Во многом именно благодаря развитию международного сотрудничества растет потребность в качественной коммуникации между сторонами проектов. При этом языковой барьер зачастую становится проблемой, создающей сложности не только в межличностном общении, но и в понимании сущности текстов на техническую тематику.

Другой проблемой, с которой сталкиваются проекты, требующие интенсивного перевода сообщений с оригинального языка на целевой язык – это сохранение опыта экспертов-переводчиков, который остается невостребованным по окончании работ по проекту по причине недостаточной оцифровки такого опыта для последующего использования в проектах схожей или той же тематики. При этом общепринятым показателем качества перевода является соответствие переведенных корпусов фраз уместному контексту, в котором действуют участники проекта, иными словами, качество перевода напрямую зависит от контекста.

В одном примере из уровня техники известен веб-ресурс Reverso Context (режим доступа: http://context.reverso.net/], позволяющий получить перевод текста на основе ранее выполненных переводов профессиональными переводчиками. По запросу пользователя указанный сервер предоставляет выборку значений исходных слов или словосочетаний на целевом языке в различных контекстах. При этом пользователю предоставляются также варианты контекста, в котором может быть использовано слово или словосочетание на оригинальном языке. Однако известный сервис не предоставляет пользователю информации о том, в каком значении выступает результат перевода – в основном значении или дополнительном. Другим недостатком сервиса являются его скудные возможности по конъюнкции значений слов и словосочетаний для их интерпретации в составе полного предложения. К примеру, на дату подачи настоящей заявки перевод предложения «Nobody can go back and start a new beginning, but anyone can start today and make a new ending» осуществляется известным сервисом следующим образом: «Никто не может возвращаться и начинать новое начало, но любой может начинать сегодня и делать новое окончание». Данный пример может иллюстрировать ограничения в функциональных возможностях, проявляющиеся при использовании известного сервиса.

Из патентной литературы известны следующие аналоги. В патенте США № 8 533 130 (МПК G06F15/18, опубл. 10.09.2013) раскрыто устройство, в котором использование нейронной сети предназначено для аннотирования результатов поиска. Устройство состоит из памяти, связанной с процессором, и нейронной сети. Нейронная сеть состоит из множества слово-нейронов, множества предложение-нейронов, по меньшей мере, одного документ-нейрона, множества связей, по меньшей мере, между некоторыми слово-нейронами и предложение-нейронами, множества связей, по меньшей мере, между некоторыми слово-нейронами и документ-нейроном. При этом нейронная сеть выполнена с возможностью активации одного из предложение-нейронов в ответ на активацию документ-нейрона. Процессор устройства выполнен с возможностью изменения положения множества слово-нейронов на дисплее в зависимости от вводимых данных, при этом изменение положения одного слово-нейрона приводит к изменению аннотации, соответствующей, по меньшей мере, одному из предложение-нейронов. Известное изобретение позволяет получить краткое содержание сущности информации с использованием нейронной сети. Однако использование известного решения для интерпретирования предложений может привести к полной или частичной потере значений части исходных предложений.

В патенте США № 5 416 696 (МПК G06F17/27, опубл. 16.05.1995) раскрыты устройство и способ, предназначенные для осуществления перевода слов при помощи нейронной сети. Нейронная сеть согласно известному изобретению содержит нейроны, в ячейках памяти которых сохранены ассоциированные значения слов оригинального и целевого языков. Нейроны связаны между собой при помощи позитивных и негативных связей, ассоциированных со словами на разных языках, близких друг к другу лингвистически и семантически. Устройство, использующее нейронную сеть, также содержит память с правилами грамматики для оригинального и целевого языков. При интерпретировании исходного предложения устройство выводит пользователю ответ с учетом порядка слов исходного предложения, что позволяет передать дословный смысл исходного предложения. Однако использование известного изобретения также может привести к частичной потере смысла исходного предложения, поскольку в ячейках памяти нейронной сети не предполагается хранения языковых конструкций, состоящих из нескольких слов или словосочетаний.

Раскрытие сущности изобретения

Технической задачей, поставленной перед разработчиками, является создание многослойной нейронной сети, предназначенной для интерпретирования исходной информации с целью представления ее на языке, подходящем для пользователя такой информации.

Технический результат настоящего изобретения заключается в повышении качества интерпретирования предложений на естественном языке за счет повторного использования опыта экспертов.

Достижение технического результата обеспечивается настоящим изобретением, согласно которому заявляемая нейронная сеть для интерпретирования предложений на естественном языке состоит из слоев нейронов. Далее, первый слой нейронов предназначен для интерпретирования значений отдельных слов в предложении. Промежуточные слои нейронов предназначены для интерпретирования словосочетаний предложения, количество слов в которых соответствует номеру слоя нейронов в нейронной сети. Последний слой нейронов представлен выходным нейроном и предназначен для интерпретирования предложения на основе интерпретированных на предыдущих слоях нейронов значений слов. При этом каждый нейрон входного и промежуточных слоев содержит ячейку памяти, предназначенную для хранения, соответственно, значений слова или словосочетания, при этом каждому такому значению соответствует бинарный признак, кодирование которого описывается следующим правилом: "1" - основное значение слова или словосочетания, "0" - дополнительное значение слова или словосочетания.

Для целей настоящей заявки значение термина «интерпретирование» будет преимущественно использовано для обозначения процесса перевода с оригинального языка на целевой язык. Однако использование данного термина может быть справедливо и для других областей техники, в которых требуется преобразование исходной информации для лучшего ее понимания пользователем.

Отличиями настоящего изобретения от технических решений, известных из уровня техники, в первую очередь, являются следующие: конфигурация нейронов отдельного слоя нейронной сети для интерпретирования словосочетания, количество слов в котором является равным номеру слоя в нейронной сети; присвоение значению интерпретируемого слова или словосочетания бинарного признака, указывающего на основное или дополнительное значение интерпретируемого слова или словосочетания; осуществление выходным нейроном конъюнкции слов и словосочетаний с учетом их основного или дополнительного значения и порядка слов в исходном предложении. В ходе анализа общедоступных сведений из научно-технической и патентной литературы не было выявлено технических решений, обладающих идентичными существенными признаками и обеспечивающих технический результат, достигаемый при осуществлении настоящего изобретения.

Представленные ниже примеры осуществления настоящего изобретения не могут быть использованы для ограничения изобретательского замысла, выраженного формулой настоящего изобретения. Представленные примеры служат для более ясной иллюстрации сущности изобретения, а само изобретение не ограничивается лишь представленными конкретными подробностями.

Осуществление изобретения

Интерпретирование является одной из когнитивных функций человеческого мышления, позволяющей на основе заданных правил приводить к пониманию содержания информации. Функция интерпретирования может реализовываться в тех случаях, когда для понимания сущности информации необходимо перевести ее в другое состояние. К примеру, для того чтобы понять смысл математической формулы, записанной на языке, основанном на строгом формализме математической логики, необходимо уметь сопоставить математические символы с их семантическим сущностным содержанием, характерным для целевого языка. Похожая проблема может также возникнуть в тех случаях, когда необходимо преобразовать предложение на одном и том же языке с учетом подбора синонимичных слов, более уместных в определенной ситуации в зависимости от контекста и выбранного стиля речи – разговорного, официального, возвышенного и т.д. Схожие ситуации могут также возникать при работе исследователей с научными публикациями, которые перегружены сложной терминологией, не всегда доступной неподготовленному читателю. При этом интерпретирование текста может быть осуществлено как при работе с терминами в рамках одного языка, так и при работе с иностранной литературой, когда требуется перевод исходного предложения или фрагмента текста с оригинального языка на целевой язык.

В особенности к данной проблеме приковано пристальное внимание именно в области переводоведения, в которой решаются, в том числе, задачи обеспечения межъязыковых коммуникаций в рамках проектах международного сотрудничества. В ходе таких проектов накапливаются значительные объемы переводов, осуществленных профессиональными переводчиками в условиях контекста, принятого для конкретного проекта. Это означает, что в рамках одного и того же проекта высока вероятность, что определенное слово на оригинальном языке будет иметь одно определенное основное значение на целевом языке, характерное именно для специфики проекта. В таком случае значения иностранных слов, не характерных для специфики проекта, будут являться их дополнительными значениями. Накопление и фиксирование таких знаний в дальнейшем позволит повторно использовать опыт экспертов-переводчиков, что положительно скажется на скорости и качестве выполнения переводов в той же самой предметной области. Подобное также является справедливым и для проектов академического сотрудничества в определенной области науки или техники.

На предыдущем этапе развития информационных систем задачи анализа, моделирования и интерпретации пользовательской информации решались на основе классификации элементов исходной информации с использованием онтологического моделирования, которое использует иерархическую структуру присвоения признаков для записей баз знаний. Сложность структуры такой онтологии позволяет провести детальную сортировку записей баз знаний по специализациям по аналогии с книгами, размещенными в различных отделах библиотек. Однако, после выполнения такой сортировки, данные записи баз знаний и присвоенные им взаимосвязи будут отражать лишь данную выстроенную классификацию, и таким образом, их использование при обработке последующей пользовательской информации, структура которой еще не известна пользователю, не обеспечит их эффективного применения при интерпретировании новой информации.

Создание инструментария для интерпретирования предложений, изложенных на естественном языке, может быть решено за счет построения обучаемой нейронной сети, в ячейках памяти нейронов которой сохранены смысловые значения исходных слов и словосочетаний. Нейронные сети традиционно находят свое применение в тех областях, в которых требуется обеспечить отражение знаний эксперта с учетом изменяющихся условий внешней среды.

Данная функция адаптации или обучения индивида правильному ответу в виде действий в определенной обстановке соответствует основной задаче, которая решается при машинном обучении с учителем (supervised machine learning). Данная задача состоит в выполнении аппроксимации входных данных на устойчивые словосочетания и грамматические конструкции для получения наиболее точного ответа на выходе с использованием обучающей выборки (training set), представляющей собой исходное предложение текста, путем сравнения ее с контрольной выборкой (testing set), представляющей собой основные и дополнительные значения исходных слов и словосочетаний, ранее сохраненные в нейронной сети, и последующего обучения нейронной сети основным и дополнительным значениям новых слов, устойчивых словосочетаний и грамматических конструкций.

Для более ясной иллюстрации настоящего изобретения в дальнейшем все примеры будут касаться интерпретирования предложения на естественном языке в части выполнения перевода исходных слов, словосочетаний и предложений с оригинального языка на целевой язык.

В соответствии с фиг.1, нейронная сеть для интерпретирования предложений на естественном языке состоит из нескольких слоев L_n, где n – номер слоя. Первый слой нейронной сети L₁ предназначен для интерпретирования значений отдельных слов исходного текста. Второй слой нейронной сети L₂ предназначен для интерпретирования отдельных фраз, состоящих из двух слов. По аналогии, N-й слой L_n предназначен для интерпретирования фраз, состоящих из n слов.

Каждый слой состоит из нейронов S. Каждому нейрона S_1i первого слоя L₁ принадлежит ячейка памяти из множества ячеек памяти M, в которой записано правило интерпретирования одного слова исходного языка на целевой язык. Правило интерпретирования заключается в назначении бинарного признака значению слова на исходном языке. Так, если значению произвольного слова на целевом языке установлен бинарный признак «1», то это означает, что такое значение является основным. Иным вариантам перевода устанавливается бинарный признак «0», означающий, что такой вариант является дополнительным значением. Назначение бинарного признака может быть осуществлено, к примеру, экспертом-переводчиком, обучающим нейронную сеть и имеющим знания о контексте выполнения перевода. В другом примере назначение указанного признака может быть проведено с учетом статистического показателя встречаемости варианта перевода слова или словосочетания в больших объемах информации, например, при сопоставлении двуязычных корпусов текстов, перевод которых был осуществлен экспертами-переводчиками.

Каждому нейрону каждого слоя соответствует последовательность символов активации, т.е. если в исходном тексте встречается слово «nobody», то активируется нейрон S_1i, в ячейке памяти которого сохранены значения слова «nobody» на целевом языке. В случае активации нейрона происходит выполнение его целевой функции f_a, заключающейся в передаче основного значения слова или словосочетания на вход нейрона S_DNN последнего слоя, являющегося выходным сумматором. Структура нейронной сети является полносвязной, т.е. поддерживает параллельную обработку текста на исходном языке всеми нейронами сети, в том числе, выходным сумматором S_DNN. Указанная особенность также иллюстрируется на фиг.1, в соответствии с которой входные последовательности символов P₁, P₂, P₃,…, P_k поступают одновременно на входы нейронов всех слоев L нейронной сети и вход выходного сумматора S_DNN. Входные последовательности символов могут быть представлены отдельными словами и словосочетаниями исходного предложения, исходным предложением полностью, более крупными фрагментами текста, результатами голосового ввода.

Целевая функция f_DNN выходного сумматора заключается в выполнении конъюнкции результатов интерпретации предыдущих слоев с учетом порядка слов в исходном предложении и возвращении пользователю исходного предложения на целевом языке. Полученное предложение может быть возвращено пользователю как в качестве конструкции, состоящей только из основных значений слов, так и в качестве конструкции, состоящей из дополнительных значений.

В случае если в ячейке памяти ни одного из нейронов сети не сохранено значение какого-либо слова исходного предложения на целевом языке, то выходной сумматор S_DNN возвращает пользователю в полученном тексте такое слово на оригинальном языке.

Для более ясной иллюстрации настоящего изобретения в следующем примере английский язык представлен в качестве оригинального языка, а русский язык – в качестве целевого.

Исходное предложение на английском языке:

«Nobody can go back and start a new beginning, but anyone can start today and make a new ending».

Проведение анализа структуры предложения экспертом позволяет определить следующие элементы его структуры, представленные словами и устойчивыми выражениями: «nobody can», «go back», «and», «start a new beginning», «but», «anyone can», «start», «today», «and», «make a new ending».

Обученная нейронная сеть является работающей эффективно, если в ней созданы нейроны первого слоя отдельных слов и нейроны устойчивых словосочетаний и грамматических конструкций второго и последующих слоев. В случае если ни один из нейронов сети не может вернуть значение слова на целевом языке, то в интерпретированном предложении пользователю выводится это слово на оригинальном языке. Возникновение такой ситуации может быть сигналом для эксперта о том, что нейронной сети необходимо дополнительное обучение. В случае если нейронная сеть выводит слово на исходном языке в значении, которое является нежелательным, то это также может быть сигналом для эксперта, что необходимо внести изменения на один из слоев нейронной сети с целью создания нейрона, хранящего значение контекста, относительно которого можно судить о правильности перевода. Так, к примеру, в отдельности слова «go» и «back» могут иметь основные значения на русском языке, соответственно, «идти» и «назад». Однако словосочетание «go back» в английском языке является устойчивым. По этой причине целесообразным является сохранение на втором слое нейронной сети именно словосочетания «go back» в его основном значении «вернуться обратно».

Для осуществления перевода приведенного в качестве примера предложения нейроны первого слоя L₁ нейронной сети должны хранить значения на русском языке для слов «nobody», «can», «go», «back», «and», «start», «a», «new», «beginning», «but», «anyone», «start», «today», «make», «ending».

Нейроны второго слоя L₂ нейронной сети должны хранить значения для следующих словосочетаний:

«nobody can» - «никто не может»;

«go back» - «вернуться обратно»;

«anyone can» - «каждый может»;

«new beginning» - «новое начало»;

«new ending» - «новое окончание».

На втором слое также могут быть сохранены и другие возможные комбинации слов исходного предложения. Несмотря на то, что в некоторых случаях хранение словосочетаний, не являющихся устойчивыми фразами, является избыточным, оно все равно может поддерживаться нейронной сетью для разрешения встречающихся неоднозначностей.

Кроме того, для дополнительного информирования пользователя в ячейках памяти нейронов может быть также сохранено множество дополнительных значений словосочетаний, к примеру:

«new beginning» - «новое начало» - 1;

«new beginning» - «начало нового проекта» - 0;

«new beginning» - «начало нового этапа» - 0;

«new beginning» - «начало новой жизни» - 0;

«new beginning» - «новая возможность» - 0;

«new beginning» - «новая отправная точка» - 0;

«new beginning» - «новое дело» - 0;

«new beginning» - «новое начинание» - 0;

«new beginning» - «новое предприятие» - 0;

«new beginning» - «новый проект» - 0;

«new beginning» - «новый шанс» - 0;

«new beginning» - «новый этап» - 0.

При этом “1” – значение бинарного признака, присвоенное основному значению словосочетания на целевом языке, “0” – значение бинарного признака, присвоенное дополнительному значению словосочетания на целевом языке.

Для словосочетания «new ending» хранение значений словосочетания будет осуществлено по аналогии:

«new ending» - «новое окончание» - 1;

«new ending» - «новая концовка» - 0;

«new ending» - «новое завершенное дело» - 0;

«new ending» - «новый финал» - 0.

При этом указанные устойчивые словосочетания "new beginning" и "new ending" являются подэлементами двух других словосочетаний в предложении - "make a new beginning" и "make a new ending". В результате обучения, ячейки памяти двух нейронов четвертого слоя L₄ нейронной сети содержат следующие значения слов:

«make a new beginning» - «начать все заново» - 1

«make a new beginning» - «начать новое дело» - 0

«make a new beginning» - «начать с начала» - 0

«make a new beginning» - «начать с чистого листа» - 0

«make a new ending» - «завершить определенное новое дело» - 1

«make a new ending» - «сделать новое окончание» - 0

«make a new ending» - «сделать новую концовку» - 0

«make a new ending» - «сделать новый финал» - 0

Нейронная сеть согласно настоящему изобретению является полносвязной, т.е. исходное предложение интерпретируется параллельно всеми слоями в сети, в том числе, выходным нейроном-сумматором S_DNN. Это означает, к примеру, что одновременно на нейрон S_DNN поступают значения с нейронов первого слоя L₁ для слов «make», «a», «new», «beginning», так и значение словосочетания «make a new beginning» с нейрона четвертого слоя L₄, при этом при интерпретировании исходного предложения приоритет будет отдан именно значению, поступившего с более старшего слоя сети. С учетом порядка слов, характерного для исходного предложения, нейрон S_DNN выполняет конъюнкцию полученных значений в том же самом порядке. Таким образом, выходное предложение будет иметь следующим вид:

«Никто не может вернуться обратно и начать все заново, но каждый может начать сегодня и завершить определенное новое дело».

Затем пользователь анализирует правильность интерпретации и для новых элементов входных данных, которые они содержат, проводит интерактивное обучение путем создания новых нейронов на соответствующих слоях сети для оптимизации полученного результата.

При этом для полноты предоставленной пользователю информации, нейронная сеть отображает все значения слов и словосочетаний, которые содержат входные данные, что обеспечивает точность интерпретации для новых словосочетаний, за обработку которых отвечают новые нейроны сети.

Следует учесть, что для более эффективной работы сети, нейроны могут содержать также значения различных форм слова на оригинальном языке. Так, в случае слова «go» могут быть сохранены значения с учетом возможных форм «goes», «going», «gone», «have gone», «has gone», «has been going» и т.д. Подобное верно и при переводе с учетом лица глагола. В таком случае в нейронной сети будут сохранены значения для словосочетаний «she has gone», «he has gone», «he is going» и т.д.

В качестве источника данных для обучения нейронной сети могут выступать, к примеру, данные известного из уровня техники сервиса Reverso Context, содержащего двуязычные корпуса текстов, перевод которых осуществлен профессиональными переводчиками.

Функциональные возможности заявляемой нейронной сети для интерпретирования предложения на естественном языке могут быть реализованы частично или полностью одним или несколькими аппаратными логическими компонентами. Такие компоненты могут быть представлены, в том числе, программируемой пользователем вентильной матрицей (FPGA), интегральной схемой специального назначения (ASIC), стандартной интегральной схемой специального применения (ASSP), системой на кристалле (SOC), программируемой логической интегральной схемой (CPLD) или другим типом конфигурируемого процессорного устройства.

В различных вариантах осуществления настоящее изобретение может быть также использовано в составе клиент-серверного программного продукта, в котором в качестве клиентского устройства может выступать персональный компьютер или мобильное устройство с разделением функциональных возможностей, предоставляемых настоящим изобретением между клиентским устройством и сервером. Также настоящее изобретение может быть использовано в составе «облачного» программного продукта, в котором все функциональные возможности, предоставляемые настоящим изобретением, перенесены на сторону сервера, а клиентское устройство оснащено лишь веб-браузером или другим средством доступа к интернет-серверу, обеспечивающим пользователя графическим пользовательским интерфейсом, генерируемым интернет-сервером.

Claims

1. Нейронная сеть для интерпретирования предложений на естественном языке, состоящая из слоев нейронов, при этом первый слой нейронов предназначен для интерпретирования значений отдельных слов предложения, промежуточные слои нейронов предназначены для интерпретирования словосочетаний предложения, количество слов в которых соответствует номеру слоя нейронов в нейронной сети, а последний слой нейронов представлен выходным нейроном и предназначен для интерпретирования предложения на основе интерпретированных на предыдущих слоях нейронов значений слов, при этом каждый нейрон входного и промежуточных слоев содержит ячейку памяти, предназначенную для хранения, соответственно, значений слова или словосочетания, при этом каждому такому значению соответствует бинарный признак, кодирование которого описывается следующим правилом: "1" - основное значение слова или словосочетания, "0" - дополнительное значение слова или словосочетания.

2. Нейронная сеть по п.1, в которой критерием определения бинарного признака значения слова или словосочетания является наибольший статистический показатель их применения в больших объемах информации.

3. Нейронная сеть по п.1, в которой критерием определения бинарного признака значения слова или словосочетания является оценка, выполненная экспертом при обучении нейронной сети с учетом контекста использования слова или словосочетания.

4. Нейронная сеть по п.1, в которой каждому нейрону входного и промежуточных слоев соответствует целевая функция возврата основного или дополнительного значения слова или словосочетания пользователю и передачи основного значения выходному нейрону.

5. Нейронная сеть по п.4, в которой выполнение целевой функции нейрона входного или промежуточных слоев осуществляется при активации такого нейрона.

6. Нейронная сеть по п.5, в которой условием активации нейрона входного или промежуточных слоев является соответствие входного слова или словосочетания, соответственно, слову или словосочетанию, значения которых записаны в ячейке памяти нейрона.

7. Нейронная сеть по п.1, в которой целевой функцией выходного нейрона является конъюнкция значений слов и словосочетаний, значения которых интерпретированы на входном и промежуточных слоях нейронов.

8. Нейронная сеть по п.1, которая реализована на программируемой пользователем вентильной матрице.