RU2733816C1 - Способ обработки речевой информации, устройство и запоминающий носитель информации - Google Patents

Способ обработки речевой информации, устройство и запоминающий носитель информации Download PDF

Info

Publication number
RU2733816C1
RU2733816C1 RU2019143666A RU2019143666A RU2733816C1 RU 2733816 C1 RU2733816 C1 RU 2733816C1 RU 2019143666 A RU2019143666 A RU 2019143666A RU 2019143666 A RU2019143666 A RU 2019143666A RU 2733816 C1 RU2733816 C1 RU 2733816C1
Authority
RU
Russia
Prior art keywords
words
target word
phoneme
sequence
correspond
Prior art date
Application number
RU2019143666A
Other languages
English (en)
Inventor
И Ню
Хунюй ВАН
Сюэфан У
Original Assignee
Бейджин Сяоми Мобайл Софтвэар Ко., Лтд.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Бейджин Сяоми Мобайл Софтвэар Ко., Лтд. filed Critical Бейджин Сяоми Мобайл Софтвэар Ко., Лтд.
Application granted granted Critical
Publication of RU2733816C1 publication Critical patent/RU2733816C1/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06KGRAPHICAL DATA READING; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K7/00Methods or arrangements for sensing record carriers, e.g. for reading patterns
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

Настоящее изобретение относится к способу обработки речевой информации, устройству, запоминающему носителю информации и электронному устройству. Способ включает в себя этапы, на которых: определяют текстовую информацию, которая соответствует собранной речевой информации, в соответствии с технологией распознавания речи, при этом текстовая информация содержит некоторое слово; при использовании упомянутого слова в текстовой информации в качестве целевого слова определяют одно или более нечетких слов, которые соответствуют целевому слову, в соответствии с последовательностью фонем, которая соответствует целевому и предварительно установленному фонетическому словарю, при этом фонетический словарь содержит множество слов и последовательностей фонем, которые соответствуют множеству слов; и выводят целевое слово и одно или более нечетких слов, которые соответствуют целевому слову. Техническое решение, предоставленное вариантами осуществления настоящего изобретения, может решить проблему при использовании существующих технологий распознавания речи, например, то что не могут быть точно распознаны слова, которые являются омонимами и словами, произношения которых обычно сбивают с толку, тем самым улучшая восприятие пользователя. 3 н. и 8 з.п. ф-лы, 6 ил.

Description

ОБЛАСТЬ ТЕХНИКИ
[0001] Варианты осуществления настоящего изобретения в целом относятся к информационным технологиям и, в частности, к способу обработки речевой информации, устройству и запоминающему носителю информации.
УРОВЕНЬ ТЕХНИКИ
[0002] С быстрым развитием информационных технологий также быстро развивалась технология Автоматического Распознавания Речи (ASR). Распознавание речи является комплексной прикладной технологией, которая использует компьютеры для автоматического преобразования из речи в текст. Технология ASR объединяет превосходные результаты в ряде базовых дисциплин, включающих в себя обработку сигналов, распознавание образов, машинное обучение, численный анализ, обработку естественного языка и высокопроизводительные вычисления, и технология ASR является междисциплинарным проблемно–ориентированным исследованием, которое широко используется в изучении языка и других областях.
[0003] Технология распознавания речи в родственных областях техники в целом использует статистический алгоритм распознавания образов, чтобы идентифицировать собранную речевую информацию. Однако применительно к областям, таким как изучение языка, присутствует большое количество слов, которые являются омонимами, и слова, произношения которых обычно сбивают с толку в английском и других языках. Сложно точно распознать такие слова путем использования технологий распознавания речи в родственных областях техники.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
[0004] Стремясь к решению этих проблем варианты осуществления настоящего изобретения предоставляют способ обработки речевой информации и устройство и запоминающий носитель информации.
[0005] В соответствии с первым аспектом вариантов осуществления настоящего изобретения предоставляется способ обработки речевой информации, включающий в себя этапы, на которых:
[0006] определяют текстовую информацию, которая соответствует собранной речевой информации, в соответствии с технологией распознавания речи, при этом текстовая информация включает в себя некоторое слово;
[0007] при использовании упомянутого слова в текстовой информации в качестве целевого слова определяют одно или более нечетких (двусмысленных) слов, которые соответствуют целевому слову, в соответствии с последовательностью фонем, которая соответствует целевому и предварительно установленному фонетическому словарю, при этом фонетический словарь содержит множество слов и последовательностей фонем, которые соответствуют множеству слов; и
[0008] выводят целевое слово и одно или более нечетких слов, которые соответствуют целевому слову.
[0009] В соответствии с примерными вариантами осуществления этап, на котором определяют одно или более нечетких слов, которые соответствуют целевому слову, в соответствии с последовательностью фонем, которая соответствует целевому и предварительно установленному фонетическому словарю, включает в себя этап, на котором:
[0010] из множества слов в фонетическом словаре выбирают одно или более слов, которые соответствуют последовательности фонем, которая является точно такой же, как последовательность фонем, которая соответствует целевому слову, в качестве одного или более нечетких слов, которые соответствуют целевому слову.
[0011] В соответствии с примерными вариантами осуществления этап, на котором определяют одно или более нечетких слов, которые соответствуют целевому слову, в соответствии с последовательностью фонем, которая соответствует целевому и предварительно установленному фонетическому словарю, включает в себя этап, на котором:
[0012] если последовательность фонем, которая соответствует целевому слову, включает в себя фонему первого предварительно установленного типа, выбирают из множества слов в фонетическом словаре одно или более слов, которые соответствуют последовательности фонем, которая удовлетворяет следующим условиям, в качестве одного или более нечетких слов, которые соответствуют целевому слову, при использовании последовательности фонем, которая соответствует целевому слову, в качестве опорной последовательности:
[0013] последовательность фонем, которая соответствует одному или более словам в фонетическом словаре, включает в себя фонему первого предварительно установленного типа, и положение фонемы первого предварительно установленного типа в последовательности фонем, которая соответствует одному или более словам в фонетическом словаре, является точно таким же, как положение фонемы первого предварительно установленного типа в опорной последовательности; и
[0014] первая последовательность фонем, составленная из других фонем в последовательности фонем, которая соответствует одному или более словам в фонетическом словаре, чем фонема первого предварительно установленного типа, является точно такой же, как вторая последовательность фонем, составленная из других фонем в опорной последовательности, чем фонема первого предварительно установленного типа.
[0015] В соответствии с примерными вариантами осуществления этап, на котором определяют одно или более нечетких слов, которые соответствуют целевому слову, в соответствии с последовательностью фонем, которая соответствует целевому и предварительно установленному фонетическому словарю, включает в себя этапы, на которых:
[0016] если первая фонема и/или последняя фонема в последовательности фонем, которая соответствует целевому слову, является фонемой второго предварительно установленного типа, объединяют другие фонемы в последовательности фонем, чем фонема второго предварительно установленного типа, в новую последовательность фонем, и выбирают из множества слов в фонетическом словаре одно или более слов, которые соответствуют последовательности фонем, которая является точно такой же, как новая последовательность фонем, в качестве одного или более нечетких слов, которые соответствуют целевому слову.
[0017] В соответствии с примерными вариантами осуществления этап, на котором выводят целевое слово и одно или более нечетких слов, которые соответствуют целевому слову, включает в себя этапы, на которых:
[0018] ранжируют одно или более нечетких слов, которые соответствуют целевому слову, в соответствии с предварительно установленным приоритетом;
[0019] если количество одного или более нечетких слов, которые соответствуют целевому слову, больше предварительно установленного количества, выбирают нечеткие слова предварительно установленного количества из всех нечетких слов, которые соответствуют целевому слову, в соответствии с результатом ранжирования, и выводят целевое слово и выбранные нечеткие слова; и
[0020] если количество одного или более нечетких слов, которые соответствуют целевому слову, меньше или равно предварительно установленному количеству, выводят целевое слово и все из одного или более нечетких слов, которые соответствуют целевому слову, в соответствии с результатом ранжирования.
[0021] В соответствии со вторым аспектом вариантов осуществления настоящего изобретения предоставляется устройство обработки речевой информации, включающее в себя:
[0022] первый модуль определения, выполненный с возможностью определения текстовой информации, которая соответствует собранной речевой информации, в соответствии с технологией распознавания речи, при этом текстовая информация включает в себя некоторое слово;
[0023] второй модуль определения, выполненный с возможностью при использовании слова в текстовой информации в качестве целевого слова определения одного или более нечетких слов, которые соответствуют целевому слову, в соответствии с последовательностью фонем, которая соответствует целевому и предварительно установленному фонетическому словарю, при этом фонетический словарь включает в себя множество слов и последовательностей фонем, которые соответствуют множеству слов; и
[0024] модуль вывода, выполненный с возможностью вывода целевого слова и одного или более нечетких слов, которые соответствуют целевому слову.
[0025] В соответствии с примерными вариантами осуществления второй модуль определения включает в себя:
[0026] первый подмодуль выбора, выполненный с возможностью из множества слов в фонетическом словаре выбора одного или более слов, которые соответствуют последовательности фонем, которая является точно такой же, как последовательность фонем, которая соответствует целевому слову, в качестве одного или более нечетких слов, которые соответствуют целевому слову.
[0027] В соответствии с примерными вариантами осуществления второй модуль определения включает в себя:
[0028] подмодуль выбора, выполненный с возможностью, если последовательность фонем, которая соответствует целевому слову, включает в себя фонему первого предварительно установленного типа, выбора из множества слов в фонетическом словаре одного или более слов, которые соответствуют последовательности фонем, которая удовлетворяет следующим условиям, в качестве одного или более нечетких слов, которые соответствуют целевому слову, при использовании последовательности фонем, которая соответствует целевому слову, в качестве опорной последовательности:
[0029] последовательность фонем, которая соответствует одному или более словам в фонетическом словаре, включает в себя фонему первого предварительно установленного типа, и положение фонемы первого предварительно установленного типа в последовательности фонем, которая соответствует одному или более словам в фонетическом словаре, является точно таким же, как положение фонемы первого предварительно установленного типа в опорной последовательности; и
[0030] первая последовательность фонем, составленная из других фонем в последовательности фонем, которая соответствует одному или более словам в фонетическом словаре, чем фонема первого предварительно установленного типа, является точно такой же, как вторая последовательность фонем, составленная из других фонем в опорной последовательности, чем фонема первого предварительно установленного типа.
[0031] В соответствии с примерными вариантами осуществления второй модуль определения включает в себя:
[0032] третий подмодуль выбора, выполненный с возможностью, если первая фонема и/или последняя фонема в последовательности фонем, которая соответствует целевому слову, является фонемой второго предварительно установленного типа, объединения других фонем в последовательности фонем, чем фонема второго предварительно установленного типа, в новую последовательность фонем, и выбора из множества слов в фонетическом словаре одного или более слов, которые соответствуют последовательности фонем, которая является точно такой же, как новая последовательность фонем, в качестве одного или более нечетких слов, которые соответствуют целевому слову.
[0033] В соответствии с примерными вариантами осуществления модуль вывода включает в себя:
[0034] подмодуль ранжирования, выполненный с возможностью ранжирования одного или более нечетких слов, которые соответствуют целевому слову, в соответствии с предварительно установленным приоритетом;
[0035] первый подмодуль вывода выполнен с возможностью, если количество одного или более нечетких слов, которые соответствуют целевому слову, больше предварительно установленного количества, выбора нечетких слов предварительно установленного количества из всех нечетких слов, которые соответствуют целевому слову, в соответствии с результатом ранжирования, и вывода целевого слова и выбранных нечетких слов; и
[0036] второй подмодуль вывода выполнен с возможностью, если количество одного или более нечетких слов, которые соответствуют целевому слову, меньше или равно предварительно установленному количеству, вывода целевого слова и всех из одного или более нечетких слов, которые соответствуют целевому слову, в соответствии с результатом ранжирования.
[0037] В соответствии с третьим аспектом вариантов осуществления настоящего изобретения предоставляется устройство обработки речевой информации, включающее в себя:
[0038] процессор; и
[0039] память для хранения инструкций, исполняемых процессором;
[0040] при этом процессор выполнен с возможностью:
[0041] определения текстовой информации, которая соответствует собранной речевой информации, в соответствии с технологией распознавания речи, при этом текстовая информация включает в себя некоторое слово;
[0042] при использовании слова в текстовой информации в качестве целевого слова, определения одного или более нечетких слов, которые соответствуют целевому слову, в соответствии с последовательностью фонем, которая соответствует целевому и предварительно установленному фонетическому словарю, при этом фонетический словарь включает в себя множество слов и последовательностей фонем, которые соответствуют множеству слов; и
[0043] вывода целевого слова и одного или более нечетких слов, которые соответствуют целевому слову.
[0044] В соответствии с четвертым аспектом вариантов осуществления настоящего изобретения предоставляется машиночитаемый запоминающий носитель информации с хранящимися на нем инструкциями компьютерной программы, при этом, когда инструкции программы исполняются, выполняются этапы в способе обработки речевой информации в соответствии с первым аспектом.
[0045] Технические решения в соответствии с вариантами осуществления настоящего изобретения обладают следующими полезными эффектами:
[0046] Текстовая информация, которая соответствуют собранной речевой информации, определяется в соответствии с технологией распознавания речи. При использовании слова в текстовой информации в качестве целевого слова одно или более нечетких слов, которые соответствуют целевому слову, определяются в соответствии с последовательностью фонем, которая соответствует целевому и предварительно установленному фонетическому словарю. Целевое слово и одно или более нечетких слов, которые соответствуют целевому слову, выводятся для выбора пользователей. Таким образом варианты осуществления настоящего изобретения могут решить проблему при использовании существующих технологий распознавания речи, например, то что не могут быть точно распознаны слова, которые являются омонимами и словами, произношения которых обычно сбивают с толку, тем самым улучшая восприятие пользователя.
[0047] Вышеупомянутое общее описание и последующее подробное описание являются лишь примерными и пояснительными и не являются ограничивающими изобретение.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[0048] Сопроводительные чертежи, которые включены в данное техническое описание и составляют его часть, иллюстрируют варианты осуществления, которые согласуются с настоящим изобретением, и вместе с описанием служат для объяснения принципов настоящего изобретения.
[0049] Фиг. 1 является принципиальной схемой среды реализации в соответствии с примерным вариантом осуществления.
[0050] Фиг. 2 является блок–схемой способа обработки речевой информации в соответствии с примерным вариантом осуществления.
[0051] Фиг. 3 является структурной схемой устройства обработки речевой информации в соответствии с примерным вариантом осуществления.
[0052] Фиг. 4 является структурной схемой устройства обработки речевой информации в соответствии с другим примерным вариантом осуществления.
[0053] Фиг. 5 является структурной схемой устройства для способа обработки речевой информации в соответствии с примерным вариантом осуществления.
[0054] Фиг. 6 является структурной схемой устройства для способа обработки речевой информации в соответствии с другим примерным вариантом осуществления.
ПОДРОБНОЕ ОПИСАНИЕ
[0055] Теперь обратимся за подробностями к примерным вариантам осуществления, примеры которых иллюстрируются на сопроводительных чертежах. Нижеследующее описание обращается к сопроводительным чертежам, на которых одни и те же числа на разных чертежах представляют собой одни и те же или сходные элементы, при условии, что не представлено иное. Реализации, изложенные в нижеследующем описании примерных вариантов осуществления, не представляют собой все реализации, которые согласуются с настоящим изобретением. Наоборот, они являются лишь примерами устройств и способов, которые согласуются с аспектами, которые относятся к настоящему изобретению, как изложено в прилагаемой формуле изобретения.
[0056] Следует понимать, что термины «первый», «второй» и аналогичное в техническом описании и формуле изобретения настоящего изобретения и вышеупомянутых фигурах используются чтобы различать сходные объекты, и не обязательно должны толковаться в качестве конкретной очередности.
[0057] Перед объяснением способа обработки речевой информации, предоставленного вариантами осуществления настоящего изобретения, сначала описывается среда реализации, которая участвует в вариантах осуществления настоящего изобретения. Фиг. 1 является принципиальной схемой среды реализации, которая участвует в вариантах осуществления настоящего изобретения. Как показано на Фиг. 1 среда реализации, которая участвует в вариантах осуществления настоящего изобретения, включает в себя терминал 10 пользователя и сервер 20, и присутствует соединение связи между терминалом 10 пользователя и сервером 20. Терминал 10 пользователя может собирать речевую информацию, которая вводится пользователем через встроенное устройство сбора речи (такое как микрофон), и отправлять собранную речевую информацию серверу 20. Сервер 20 обрабатывает собранную речевую информацию, чтобы определить текстовую информацию, которая соответствует речевой информации, и одно или более нечетких слов, которые соответствуют слову(ам) в текстовой информации, и отправляет слово(а) в текстовой информации и одно или более нечетких слов, которые соответствуют слову(ам), на терминал 10 пользователя. Терминал 10 пользователя отображает слово(а) и соответствующие нечеткие слова, отправленные сервером, для выбора пользователя.
[0058] Следует отметить, что в данной среде реализации различные проводные или беспроводные технологии могут быть использованы между терминалом 10 пользователя и сервером 20, чтобы устанавливать соединение связи. Например, метод соединения может включать в себя, но не ограничиваться, Bluetooth, WiFi (Беспроводная Преданность), сеть 2G, сеть 3G, сеть 4G и аналогичное. Терминал 10 пользователя может быть, например, интеллектуальным телефоном, планшетом, PDA (Персональный Цифровой Помощник), интеллектуальным носимым устройством и т.д., а сервер 20 может быть любым устройством, выполненным с возможностью обеспечения функции обработки речевой информации.
[0059] В дополнение способ обработки речевой информации, предоставленный вариантами осуществления настоящего изобретения, также может быть выполнен локально на терминале 10 пользователя. Например, терминал 10 пользователя может собирать речевую информацию через встроенное устройство сбора речи (такое как микрофон), обрабатывать собранную речевую информацию, определять текстовую информацию, которая соответствует речевой информации, и одно или более нечетких слов, которые соответствуют слову(ам) в текстовой информации, и затем выводить и отображать слово(а) в текстовой информации и одно или более нечетких слов, которые соответствуют слову(ам), через устройство отображения (такое как дисплейный экран) пользователю для выбора.
[0060] На основании среды реализации, показанной на Фиг. 1, вариант осуществления настоящего изобретения предоставляет способ обработки речевой информации. Способ может быть применен в терминале 10 пользователя или сервере 20, показанных на Фиг. 1. Фиг. 2 является блок–схемой способа обработки речевой информации в соответствии с примерным вариантом осуществления. Способ включает в себя следующие этапы.
[0061] На этапе S201 текстовая информация, которая соответствует собранной речевой информации, определяется в соответствии с технологией распознавания речи.
[0062] Текстовая информация включает в себя слово.
[0063] В примерных вариантах осуществления предварительные процессы могут быть выполнены над собранной речевой информацией, такие как подавление шума, обработка кадрирования, обработка предыскажения и отсечения, и извлекаются признаки обработанной речевой информации. Затем извлеченные признаки вводятся в предварительно созданную модель распознавания речи, чтобы получить соответствующую текстовую информацию. Модель распознавания речи может быть получена посредством обучения по большому объему речевой информации и соответствующей текстовой информации. Например, модель распознавания речи может быть скрытой марковской моделью (HMM) или моделью нейронной сети (NN). Варианты осуществления настоящего изобретения не накладывают на это конкретных ограничений.
[0064] Следует отметить, что методы предварительной обработки и извлечение признаков собранной речевой информации хорошо известны специалистам в соответствующей области техники и не будут детально разбираться в вариантах осуществления настоящего изобретения.
[0065] В дополнение собранная речевая информация может быть обработана посредством других технологий распознавания речи, которые известны специалистам в соответствующей области техники для определения текстовой информации, которая соответствует речевой информации, что не ограничено в вариантах осуществления настоящего изобретения.
[0066] На этапе S202 при использовании слова в текстовой информации в качестве целевого слова одно или более нечетких слов, которые соответствуют целевому слову, определяются в соответствии с последовательностью фонем, которая соответствует целевому и предварительно установленному фонетическому словарю.
[0067] Фонетический словарь включает в себя множество слов и последовательностей фонем, которые соответствуют множеству слов.
[0068] В вариантах осуществления настоящего изобретения фонема является минимальной единицей речи, а последовательность фонем является упорядоченной последовательностью, в которой объединено множество фонем. Последовательность фонем, которая соответствует целевому слову, может быть определена путем поиска по фонетическому словарю. Например, слово «bad» соответствует последовательности фонем, включающей в себя три фонемы /b/, /
Figure 00000001
/ и /d/. В примерном варианте осуществления фонетические словари для множества языков могут быть предварительно установлены, и в соответствии с языком, который соответствует собранной речи, может быть выбран фонетический словарь, который соответствует языку. Например, если языком, который соответствует речи, является английский язык, то выбирается фонетический словарь английского языка.
[0069] В языках, таких как английский язык, омонимы сложно различать, слова, которые содержат неразличимые фонемы («bad» и «bed» содержат неразличимые фонемы /
Figure 00000001
/ и /e/), сбивают с толку, и слова, в которых первая или последняя фонема является глухими согласными, являются неотличимыми от других слов (например, сложно отличить «bite» и «buy»). В примерных реализациях этап S201 может быть реализован посредством одного или более из следующих трех альтернативных вариантов осуществления.
[0070] Вариант 1 осуществления: Касательно омонимов
[0071] Последовательность фонем, которая соответствует омонимам, является одной и той же. Вследствие этого в примерных реализациях одно или более слов, которые соответствуют последовательности фонем, которая является точно такой же, как последовательность фонем, которая соответствует целевому слову, могут быть выбраны из множества слов в фонетическом словаре в качестве одного или более нечетких слов, которые соответствуют целевому слову. Например, если целевым словом является «two», то его фонетическим символом является /tu:/ и соответствующей последовательностью фонем является /t/ и /u:/, тогда слов «too» с точно такой же последовательностью фонем выбирается из соответствующего фонетического словаря в качестве нечеткого слова для целевого слова «two». Сходным образом, если целевым словом является «be», то слово «bee» с последовательностью фонем, которая является точно такой же, как последовательность фонем (/b/, /i:/) целевого слова «be», выбирается из соответствующего фонетического словаря в качестве нечеткого слова для целевого слова «be».
[0072] Вариант 2 осуществления: Касательно слов, содержащих неразличимые фонемы
[0073] Например, если последовательность фонем, которая соответствует целевому слову, включает в себя фонему первого предварительно установленного типа, то одно или более слов, которые соответствуют последовательности фонем, которая удовлетворяет следующим условиям
Figure 00000002
и
Figure 00000003
, выбираются из множества слов в фонетическом словаре в качестве одного или более нечетких слов, которые соответствуют целевому слову (при использовании последовательности фонем, которая соответствуют целевому слову, в качестве опорной последовательности:
Figure 00000002
последовательность фонем, которая соответствует одному или более словам в фонетическом словаре, включает в себя фонему первого предварительно установленного типа, и положение фонемы первого предварительно установленного типа в последовательности фонем, которая соответствует одному или более словам в фонетическом словаре, является точно таким же, как положение фонемы первого предварительно установленного типа в опорной последовательности; и
Figure 00000003
первая последовательность фонем, составленная из других фонем в последовательности фонем, которая соответствует одному или более словам в фонетическом словаре, чем фонема первого предварительно установленного типа, является точно такой же, как вторая последовательность фонем, составленная из других фонем в опорной последовательности, чем фонема первого предварительно установленного типа. Фонема первого предварительно установленного типа может быть установлена пользователями или изготовителями в зависимости от фактических потребностей. Например, фонема первого предварительно установленного типа может включать в себя, но не ограничивается, фонемы, которые сложно отличить, например, /
Figure 00000001
/, /e/ и /a:/.
[0074] Например, целевым словом является «bed», соответствующим фонетическим символом является /bed/, и соответствующей последовательностью фонем является /b/, /e/ и /d/, и последовательность фонем содержит фонему /e/ первого предварительно установленного типа. Слово «bad» (соответствующей последовательностью фонем является /b/, /
Figure 00000001
/ и /d/), выбирается из слов в фонетическом словаре в качестве нечеткого слова для целевого слова «bed».
[0075] Вариант 3 осуществления: Касательно слов, в которых первая или последняя фонема является глухой согласной
[0076] В данном случае, когда распознается речевая информация, может присутствовать проблема, состоящая в том, что фонема глухой согласной слова может быть проигнорирована, и результат распознавания является неточным. Например, слово «bite» обычно неправильно идентифицируется как слово «buy». Таким образом, если первая фонема и/или последняя фонема в последовательности фонем, которая соответствует целевому слову, является фонемой второго предварительно установленного типа, то другие фонемы в последовательности фонем, чем фонема второго предварительно установленного типа, объединяются в новую последовательность фонем, и одно или более слов, которые соответствуют последовательности фонем, которая является точно такой же, как новая последовательность фонем, выбираются из множества слов в фонетическом словаре в качестве одного или более нечетких слов, которые соответствуют целевому слову. Фонема второго предварительно установленного типа может быть установлена пользователями или изготовителями в зависимости от фактических потребностей. Например, фонема второго предварительно установленного типа может включать в себя, но не ограничивается, фонему глухой согласной, такую как /p/, /t/, /k/, /s/, /f/ и т.д.
[0077] Например, целевым словом является «bite», соответствующим фонетическим символом является /bait/, и соответствующей последовательностью фонем является /b/, /ai/ и /t/, и последняя фонема является фонемой второго предварительно установленного типа. Фонемы отличные от /t/ объединяются в новую последовательность фонем /b/ и /ai/ и слово «buy» с последовательностью фонем, которая является точно такой же, как новая последовательность фонем, выбирается из фонетического словаря в качестве нечеткого слова для целевого слова «bite».
[0078] На этапе S203 выводится целевое слово и одно или более нечетких слов, которые соответствуют целевому слову.
[0079] В примерном варианте осуществления могут быть выведены целевое слово и все нечеткие слова, которые соответствуют целевому слову.
[0080] В другом примерном варианте осуществления с учетом того, что целевое слово может соответствовать большому количеству нечетких слов, то если все нечеткие слова выводятся пользователю для выбора, то в некоторой степени может быть затронуто восприятие пользователя. Вследствие этого одно или более нечетких слов, которые соответствуют целевому слову, ранжируются в соответствии с предварительно установленным приоритетом; если количество одного или более нечетких слов, которые соответствуют целевому слову, больше предварительно установленного количества, то нечеткие слова предварительно установленного количества выбираются из всех нечетких слов, которые соответствуют целевому слову, в соответствии с результатом ранжирования, и выводятся целевое слово и выбранные нечеткие слова; если количество одного или более нечетких слов, которые соответствуют целевому слову, меньше или равно предварительно установленному количеству, то целевое слово и все из одного или более нечетких слов, которые соответствуют целевому слову, выводятся в соответствии с результатом ранжирования. Например, все нечеткие слова, которые соответствуют целевому слову, могут быть ранжированы в порядке убывания в соответствии с предварительно установленным приоритетом от высокого к низкому. Если количество нечетких слов больше предварительно установленного количества N, то первые N нечетких слов выбираются в соответствии с результатом ранжирования, и выводятся и отображаются целевое слов и N нечетких слов. В соответствии с другими вариантами осуществления все нечеткие слова, которые соответствуют целевому слову, могут быть ранжированы в порядке возрастания в соответствии с предварительно установленным приоритетом от низкого к высокому. Если количество нечетких слов больше предварительно установленного количества N, то последние N нечетких слов выбираются в соответствии с результатом ранжирования, и выводятся и отображаются целевое слово и выбранные N нечетких слов.
[0081] Предварительно установленное количество и предварительно установленный приоритет могут быть предварительно установлены пользователями или изготовителями при необходимости. Например, предварительно установленное количество может быть целым числом между 10 и 20. Предварительно установленный приоритет может включать в себя следующие ситуации. Например,
Figure 00000002
нечеткие слова, которые определены в соответствии с Вариантом 1 осуществления (т.е. нечеткие слова с произношением точно таким же, как у целевого слова), обладают более высоким приоритетом, чем нечеткие слова, которые определены в соответствии с другими вариантами осуществления;
Figure 00000003
применительно к нечетким словам, которые определены в соответствии с Вариантом 2 осуществления, если целевое слово содержит фонему /e/, то нечеткие слова, содержащие фонему /
Figure 00000001
/, обладают более высоким приоритетом, чем нечеткие слова, содержащие фонему /a:/;
Figure 00000004
нечеткие слов, которые часто встречаются в повседневной жизни, обладают более высоким приоритетом, чем нечеткие слова, которые встречаются менее часто в повседневной жизни.
[0082] Следует отметить, что если способ обработки речевой информации, описанный в вышеизложенных вариантах осуществления, реализуется посредством терминала пользователя, то блок обработки терминала пользователя может выводить целевое слово и нечеткие слова, которые соответствуют целевому слову, на устройство отображения терминала пользователя (такое как дисплейный экран) с тем, чтобы пользователь мог выбрать правильные слова из этих отображенных слов. Если способ обработки речевой информации, описанный в вышеупомянутых вариантах осуществления, реализуется сервером, то сервер может отправлять целевое слово и нечеткие слова, которые соответствуют целевому слову, терминалу пользователя, который осуществляет связь с сервером. Терминал пользователя отображает целевое слово и соответствующие нечеткие слова, которые соответствуют целевому слову, чтобы пользователь мог выбрать правильные слова из отображенных слов.
[0083] В способе обработки речевой информации в соответствии с вариантами осуществления настоящего изобретения, текстовая информация, которая соответствует собранной речевой информации, определяется в соответствии с технологией распознавания речи. При использовании слова в текстовой информации в качестве целевого слова одно или более нечетких слов, которые соответствуют целевому слову, определяются в соответствии с последовательностью фонем, которая соответствует целевому и предварительно установленному фонетическому словарю. Целевое слово и одно или более нечетких слов, которые соответствуют целевому слову, выводятся для выбора пользователей. Таким образом варианты осуществления настоящего изобретения могут решить проблему при использовании существующих технологий распознавания речи, т.е. то, что не могут быть точно распознаны слова, которые являются омонимами и словами, произношения которых обычно сбивают с толку, тем самым улучшая восприятие пользователя.
[0084] Вариант осуществления настоящего изобретения дополнительно предоставляет устройство обработки информации, которое применимо к терминалу 10 пользователя или серверу 20, показанным на Фиг. 1. Фиг. 3 является структурной схемой устройства обработки речевой информации в соответствии с примерным вариантом осуществления. Устройство 300 включает в себя первый модуль 301 определения, второй модуль 302 определения и модуль 303 вывода.
[0085] Первый модуль 301 определения выполнен с возможностью определения текстовой информации, которая соответствует собранной речевой информации, в соответствии с технологией распознавания речи. Текстовая информация включает в себя некоторое слово.
[0086] Второй модуль 302 определения выполнен с возможностью при использовании слова в текстовой информации в качестве целевого слова определения одного или более нечетких слов, которые соответствуют целевому слову, в соответствии с последовательностью фонем, которая соответствует целевому и предварительно установленному фонетическому словарю. Фонетический словарь включает в себя множество слов и последовательностей фонем, которые соответствуют множеству слов.
[0087] Модуль 303 вывода выполнен с возможностью вывода целевого слова и одного или более нечетких слов, которые соответствуют целевому слову.
[0088] В соответствии с примерным вариантом осуществления второй модуль 302 определения включает в себя первый подмодуль 321 выбора.
[0089] Первый подмодуль 321 выбора выполнен с возможностью из множества слов в фонетическом словаре выбора одного или более слов, которые соответствуют последовательности фонем, которая является точно такой же, как последовательность фонем, которая соответствует целевому слову, в качестве одного или более нечетких слов, которые соответствуют целевому слову.
[0090] В соответствии с примерным вариантом осуществления, как показано на Фиг. 4, второй модуль 302 определения включает в себя второй подмодуль 322 выбора.
[0091] Второй подмодуль 322 выбора выполнен с возможностью, если последовательность фонем, которая соответствует целевому слову, включает в себя фонему первого предварительно установленного типа, выбора из множества слов в фонетическом словаре одного или более слов, которые соответствуют последовательности фонем, которая удовлетворяет следующим условиям, в качестве одного или более нечетких слов, которые соответствуют целевому слову, при использовании последовательности фонем, которая соответствует целевому слову, в качестве опорной последовательности.
[0092] Условия таковы, что:
[0093] последовательность фонем, которая соответствует одному или более словам в фонетическом словаре, включает в себя фонему первого предварительно установленного типа, и положение фонемы первого предварительно установленного типа в последовательности фонем, которая соответствует одному или более словам в фонетическом словаре, является точно таким же, как положение фонемы первого предварительно установленного типа в опорной последовательности; и
[0094] первая последовательность фонем, составленная из других фонем в последовательности фонем, которая соответствует одному или более словам в фонетическом словаре, чем фонема первого предварительно установленного типа, является точно такой же, как вторая последовательность фонем, составленная из других фонем в опорной последовательности, чем фонема первого предварительно установленного типа.
[0095] В соответствии с примерным вариантом осуществления, как показано на Фиг. 4, второй модуль 302 определения включает в себя третий подмодуль 323 выбора.
[0096] Третий подмодуль 323 выбора выполнен с возможностью, если первая фонема и/или последняя фонема в последовательности фонем, которая соответствует целевому слову, является фонемой второго предварительно установленного типа, объединения других фонем в последовательности фонем, чем фонема второго предварительно установленного типа, в новую последовательность фонем, и выбора из множества слов в фонетическом словаре одного или более слов, которые соответствуют последовательности фонем, которая является точно такой же, как новая последовательность фонем, в качестве одного или более нечетких слов, которые соответствуют целевому слову.
[0097] В соответствии с примерным вариантом осуществления, как показано на Фиг. 4, модуль 303 вывода включает в себя подмодуль 331 ранжирования, первый подмодуль 332 вывода и второй подмодуль 333 вывода.
[0098] Подмодуль 331 ранжирования выполнен с возможностью ранжирования одного или более нечетких слов, которые соответствуют целевому слову, в соответствии с предварительно установленным приоритетом.
[0099] Первый подмодуль 332 вывода выполнен с возможностью, если количество одного или более нечетких слов, которые соответствуют целевому слову, больше предварительно установленного количества, выбора нечетких слов предварительно установленного количества из всех нечетких слов, которые соответствуют целевому слову, в соответствии с результатом ранжирования, и вывода целевого слова и выбранных нечетких слов.
[0100] Второй подмодуль 333 вывода выполнен с возможностью, если количество одного или более нечетких слов, которые соответствуют целевому слову, меньше или равно предварительно установленному количеству, вывода целевого слова и всех из одного или более нечетких слов, которые соответствуют целевому слову, в соответствии с результатом ранжирования.
[0101] В отношении устройств в вышеупомянутых вариантах осуществления, конкретные методы для выполнения операций применительно к отдельным модулям в них были подробно описаны в вариантах осуществления касательно способов, и это не будет здесь детально разбираться.
[0102] В дополнение специалисты в соответствующей области техники могут четко понимать, что для удобства и краткости описания иллюстрируется разделение на функциональные модули, описанное выше. В практических применениях вышеупомянутое назначение функций может быть выполнено другими функциональными модулями при необходимости. Внутренняя структура устройства разделена на разные функциональные модули, чтобы выполнять все или часть функций, описанных выше.
[0103] В устройстве распознавания речи текстовая информация, которая соответствует собранной речевой информации, определяется в соответствии с технологией распознавания речи. При использовании слова в текстовой информации в качестве целевого слова одно или более нечетких слов, которые соответствуют целевому слову, определяются в соответствии с последовательностью фонем, которая соответствует целевому и предварительно установленному фонетическому словарю. Целевое слово и одно или более нечетких слов, которые соответствуют целевому слову, выводятся для выбора пользователей. Таким образом варианты осуществления настоящего изобретения могут решить проблему при использовании существующих технологий распознавания речи, например, то, что не могут быть точно распознаны слова, которые являются омонимами и словами, произношения которых обычно сбивают с толку, тем самым улучшая восприятие пользователя.
[0104] Вариант осуществления настоящего изобретения также предоставляет машиночитаемый запоминающий носитель информации с хранящимися на нем инструкциями компьютерной программы, которые, когда исполняются процессором, реализуют этапы способа обработки речевой информации, предоставленного вариантами осуществления настоящего изобретения.
[0105] Вариант осуществления настоящего изобретения также предоставляет устройство обработки речевой информации, включающее в себя: процессор; память для хранения исполняемых процессором инструкций; при этом процессор выполнен с возможностью реализации этапов способа обработки речевой информации, предоставленного вариантами осуществления настоящего изобретения.
[0106] Фиг. 5 является структурной схемой устройства 500 обработки речевой информации в соответствии с примерным вариантом осуществления. Например, устройство 500 может быть выполнено в качестве терминала пользователя. Например, устройство 500 может быть мобильным телефоном, компьютером, терминалом цифрового вещания, устройством обмена сообщениями, игровой консолью, планшетом, медицинским устройством, тренажером, персональным цифровым помощником и аналогичным.
[0107] Обращаясь к Фиг. 5 устройство 500 может включать в себя один или более из следующих компонентов: компонент 502 обработки, память 504, компонент 506 питания, мультимедийный компонент 508, аудио компонент 510, интерфейс 512 ввода/вывода (I/O), компонент 514 датчика и компонент 516 связи.
[0108] Компонент 502 обработки как правило управляет всей работой устройства 500, как например операциями, ассоциированными с отображением, телефонными вызовами, связью для передачи данных, операциями камеры и операциями записи. Компонент 502 обработки может включать в себя один или более процессоров 520, чтобы исполнять инструкции, чтобы выполнять все или часть из этапов в описанных выше способах. Более того компонент 502 обработки может включать в себя один или более модулей, которые обеспечивают взаимодействие между компонентом 502 обработки и другими компонентами. Например, компонент 502 обработки может включать в себя мультимедийный модуль для обеспечения взаимодействия между мультимедийным компонентом 508 и компонентом 502 обработки.
[0109] Память 504 выполнена с возможностью хранения различных типов данных, чтобы поддерживать работу устройства 500. Примеры таких данных включают в себя инструкции для любых приложений или способов, работающих на устройстве 500, контактные данные, данные телефонной книги, сообщения, картинки, видео и т.д. Память 504 может быть реализована используя любой тип энергозависимых или энергонезависимых устройств памяти или их сочетание, таких как статическая память с произвольным доступом (SRAM), электрически стираемая программируемая постоянная память (EEPROM), стираемая программируемая постоянная память (EPROM), программируемая постоянная память (PROM), постоянная память (ROM), магнитная память, флэш–память, магнитный или оптический диск.
[0110] Компонент 506 питания предоставляет питание различным компонентам устройства 500. Компонент 506 питания может включать в себя систему администрирования питания, один или более источников питания и любые другие компоненты, ассоциированные с формированием, администрированием и распределением питания в устройстве 500.
[0111] Мультимедийный компонент 508 включает в себя экран, обеспечивающий интерфейс вывода между устройством 500 и пользователем. В некоторых вариантах осуществления экран может включать в себя жидкокристаллический дисплей (LCD) и панель касания (TP). Если экран включает в себя панель касания, то экран может быть реализован в качестве экрана касания, чтобы принимать сигналы ввода от пользователя. Панель касания включает в себя один или более датчиков касания, чтобы регистрировать касания, смахивания и жесты по панели касания. Датчики касания могут регистрировать не только границу касания или действия смахивания, но также регистрировать период времени и давление, ассоциированные с касанием или действием смахивания. В некоторых вариантах осуществления мультимедийный компонент 508 включает в себя фронтальную камеру и/или тыловую камеру. Фронтальная камера и тыловая камера могут принимать внешние мультимедийные данные, когда устройство 500 находится в рабочем режиме, таком как режим фотографирования или видеорежим. Каждая из фронтальной камеры и тыловой камеры может быть фиксированной системой оптических линз или обладать фокусным расстоянием и возможностями оптического масштабирования.
[0112] Аудио компонент 510 выполнен с возможностью вывода и/или ввода аудиосигналов. Например, аудио компонент 510 включает в себя микрофон («MIC»), выполненный с возможностью приема внешнего аудиосигнала, когда устройство 500 находится в рабочем режиме, таком как режим вызова, режим записи и режим распознавания голоса. Принятый аудиосигнал дополнительно может быть сохранен в памяти 504 или передан через компонент 516 связи. В некоторых вариантах осуществления аудио компонент 510 дополнительно включает в себя громкоговоритель для вывода аудиосигналов.
[0113] Интерфейс 512 I/O обеспечивает интерфейс между компонентом 502 обработки и модулями периферийного интерфейса, такими как клавиатура, нажимное колесо, кнопки и аналогичное. Кнопки могут включать в себя, но не ограничиваются, главную кнопку, кнопку громкости, кнопку запуска и кнопку блокировки.
[0114] Компонент 514 датчика включает в себя один или более датчиков для обеспечения оценок статуса различных аспектов устройства 500. Например, компонент 514 датчика может обнаруживать открытый/закрытый статус устройства 500, относительное позиционирование компонентов, например, дисплея и клавишной панели, устройства 500, изменение положения устройства 500 или компонента устройства 500, наличие или отсутствие контакта пользователя с устройством 500, ориентацию или ускорение/замедление устройства 500 и изменение температуры устройства 500. Компонент 514 датчика может включать в себя датчик близости, выполненный с возможностью обнаружения присутствия объектов поблизости без какого–либо физического контакта. Компонент 514 датчика может также включать в себя светочувствительный датчик, такой как датчик изображения CMOS или CCD для использования в приложениях формирования изображения. В некоторых вариантах осуществления компонент 514 датчика также может включать в себя датчик акселерометра, датчик гироскопа, магнитный датчик, датчик давления или датчик температуры.
[0115] Компонент 516 связи выполнен с возможностью обеспечения связи проводным или беспроводным образом между устройством 500 и другими устройствами. Устройство 500 может осуществлять доступ к беспроводной сети на основании стандарта связи, такого как WiFi, 2G или 3G, или их сочетания. В одном примерном варианте осуществления компонент 516 связи принимает широковещательный сигнал или связанную с широковещательной передачей информацию от внешней системы администрирования широковещательной передачи через широковещательный канал. В одном примерном варианте осуществления компонент 516 связи дополнительно включает в себя модуль связи ближнего поля (NFC) для обеспечения связи малого радиуса действия. Например, модуль NFC может быть реализован на основании технологии радиочастотной идентификации (RFID), технологии ассоциации по средствам передачи данных в инфракрасном диапазоне (IrDA), технологии сверхширокополосной связи (UWB), технологии Bluetooth (BT) и других технологий.
[0116] В примерных вариантах осуществления устройство 500 может быть реализовано с помощью одной или более проблемно–ориентированных интегральных микросхем (ASIC), цифровых сигнальных процессоров (DSP), устройств цифровой обработки сигнала (DSPD), программируемых логических устройств (PLD), программируемых вентильных матриц (FPGA), контроллеров, микроконтроллеров, микропроцессоров или других электронных компонентов, для выполнения описанных выше способов.
[0117] В примерных вариантах осуществления также предоставляется не временный машиночитаемый запоминающий носитель информации, включающий в себя инструкции, такие как включенные в память 504, исполняемые процессором 520 в устройстве 500, для выполнения описанных выше способов. Например, не временный машиночитаемый запоминающий носитель информации может быть ROM, RAM, CD–ROM, магнитной лентой, гибким диском, оптическим устройством хранения данных и аналогичным.
[0118] Фиг. 6 является структурной схемой устройства 600 для способа обработки речевой информации в соответствии с примерным вариантом осуществления. Например, устройство 600 может быть выполнено в качестве сервера. Обращаясь к Фиг. 6 устройство 600 включает в себя компонент 622 обработки, который дополнительно включает в себя один или более процессоров, и ресурсы памяти, представленные памятью 632, для хранения инструкций, исполняемых компонентом 622 обработки, таких как прикладные программы. Прикладные программы, которые хранятся в памяти 632, могут включать в себя один или более модулей, причем каждый соответствует набору инструкций. Кроме того, компонент 622 обработки выполнен с возможностью исполнения инструкций, чтобы выполнять описанный выше способ обработки речевой информации.
[0119] Устройство 600 также может включать в себя компонент 626 питания, выполненный с возможностью осуществления администрирования питания устройства 600, проводной или беспроводной сетевой интерфейс(ы) 650, выполненный с возможностью соединения устройства 600 с сетью, и интерфейс 658 ввода/вывода (I/O). Устройство 600 может работать на основании операционной системы, которая хранится в памяти 632, такой как Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM или аналогичная.
[0120] Прочие варианты осуществления изобретения будут очевидны специалистам в соответствующей области техники из рассмотрения технического описания и реализации на практике изобретения, раскрытого в данном документе. Предполагается, что данная заявка охватывает любые вариации, использования или адаптации изобретения, которые придерживаются его общих принципов, и включая такие отступления от настоящего изобретения, как подпадающие под известную или общую практику в данной области техники. Предполагается, что техническое описание и примеры должны рассматриваться только в качестве примерных, причем истинный объем и сущность изобретения указываются нижеследующей формулой изобретения.
[0121] Следует принять во внимание, что настоящее изобретение не ограничивается точной конструкцией, которая была описана выше и иллюстрируется на сопроводительных чертежах, и что различные модификации и изменения могут быть выполнены, не отступая от его объема. Предполагается, что объем изобретения должен ограничиваться только прилагаемой формулой изобретения.

Claims (39)

1. Способ обработки речевой информации, содержащий этапы, на которых:
определяют текстовую информацию, которая соответствует собранной речевой информации, в соответствии с технологией распознавания речи, при этом текстовая информация содержит слово;
при использовании слова в текстовой информации в качестве целевого слова определяют одно или более нечетких слов, которые соответствуют целевому слову, в соответствии с последовательностью фонем, которая соответствует целевому и предварительно установленному фонетическому словарю, при этом фонетический словарь содержит множество слов и последовательностей фонем, которые соответствуют множеству слов; и
выводят целевое слово и одно или более нечетких слов, которые соответствуют целевому слову.
2. Способ по п. 1, в котором этап, на котором определяют одно или более нечетких слов, которые соответствуют целевому слову, в соответствии с последовательностью фонем, которая соответствует целевому и предварительно установленному фонетическому словарю, содержит этап, на котором:
из множества слов в фонетическом словаре выбирают одно или более слов, которые соответствуют последовательности фонем, которая является точно такой же, как последовательность фонем, которая соответствует целевому слову, в качестве одного или более нечетких слов, которые соответствуют целевому слову.
3. Способ по п. 1, в котором этап, на котором определяют одно или более нечетких слов, которые соответствуют целевому слову, в соответствии с последовательностью фонем, которая соответствует целевому и предварительно установленному фонетическому словарю, содержит этап, на котором:
если последовательность фонем, которая соответствует целевому слову, содержит фонему первого предварительно установленного типа, выбирают из множества слов в фонетическом словаре одно или более слов, которые соответствуют последовательности фонем, которая удовлетворяет следующим условиям, в качестве одного или более нечетких слов, которые соответствуют целевому слову, при использовании последовательности фонем, которая соответствует целевому слову, в качестве опорной последовательности:
последовательность фонем, которая соответствует одному или более словам в фонетическом словаре, содержит фонему первого предварительно установленного типа, и положение фонемы первого предварительно установленного типа в последовательности фонем, которая соответствует одному или более словам в фонетическом словаре, является точно таким же, как положение фонемы первого предварительно установленного типа в опорной последовательности; и
первая последовательность фонем, составленная из других фонем в последовательности фонем, которая соответствует одному или более словам в фонетическом словаре, за исключением фонемы первого предварительно установленного типа, является точно такой же, как вторая последовательность фонем, составленная из других фонем в опорной последовательности, за исключением фонемы первого предварительно установленного типа.
4. Способ по п. 1, в котором этап, на котором определяют одно или более нечетких слов, которые соответствуют целевому слову, в соответствии с последовательностью фонем, которая соответствует целевому и предварительно установленному фонетическому словарю, содержит этапы, на которых:
если первая фонема и/или последняя фонема в последовательности фонем, которая соответствует целевому слову, является фонемой второго предварительно установленного типа, объединяют другие фонемы в последовательности фонем, за исключением фонемы второго предварительно установленного типа, в новую последовательность фонем, и выбирают из множества слов в фонетическом словаре одно или более слов, которые соответствуют последовательности фонем, которая является точно такой же, как новая последовательность фонем, в качестве одного или более нечетких слов, которые соответствуют целевому слову.
5. Способ по любому из пп. 1-4, в котором этап, на котором выводят целевое слово и одно или более нечетких слов, которые соответствуют целевому слову, содержит этапы, на которых:
ранжируют одно или более нечетких слов, которые соответствуют целевому слову, в соответствии с предварительно установленным приоритетом;
если количество одного или более нечетких слов, которые соответствуют целевому слову, больше предварительно установленного количества, выбирают нечеткие слова предварительно установленного количества из всех нечетких слов, которые соответствуют целевому слову, в соответствии с результатом ранжирования, и выводят целевое слово и выбранные нечеткие слова; и
если количество одного или более нечетких слов, которые соответствуют целевому слову, меньше или равно предварительно установленному количеству, выводят целевое слово и все из одного или более нечетких слов, которые соответствуют целевому слову, в соответствии с результатом ранжирования.
6. Устройство обработки речевой информации, содержащее:
первый модуль определения, выполненный с возможностью определения текстовой информации, которая соответствует собранной речевой информации, в соответствии с технологией распознавания речи, при этом текстовая информация содержит слово;
второй модуль определения, выполненный с возможностью при использовании слова в текстовой информации в качестве целевого слова определения одного или более нечетких слов, которые соответствуют целевому слову, в соответствии с последовательностью фонем, которая соответствует целевому и предварительно установленному фонетическому словарю, при этом фонетический словарь содержит множество слов и последовательностей фонем, которые соответствуют множеству слов; и
модуль вывода, выполненный с возможностью вывода целевого слова и одного или более нечетких слов, которые соответствуют целевому слову.
7. Устройство по п. 6, в котором второй модуль определения содержит:
первый подмодуль выбора, выполненный с возможностью из множества слов в фонетическом словаре выбора одного или более слов, которые соответствуют последовательности фонем, которая является точно такой же, как последовательность фонем, которая соответствует целевому слову, в качестве одного или более нечетких слов, которые соответствуют целевому слову.
8. Устройство по п. 6, в котором второй модуль определения содержит:
второй подмодуль выбора, выполненный с возможностью, если последовательность фонем, которая соответствует целевому слову, содержит фонему первого предварительно установленного типа, выбора из множества слов в фонетическом словаре одного или более слов, которые соответствуют последовательности фонем, которая удовлетворяет следующим условиям, в качестве одного или более нечетких слов, которые соответствуют целевому слову, при использовании последовательности фонем, которая соответствует целевому слову, в качестве опорной последовательности:
последовательность фонем, которая соответствует одному или более словам в фонетическом словаре, содержит фонему первого предварительно установленного типа, и положение фонемы первого предварительно установленного типа в последовательности фонем, которая соответствует одному или более словам в фонетическом словаре, является точно таким же, как положение фонемы первого предварительно установленного типа в опорной последовательности; и
первая последовательность фонем, составленная из других фонем в последовательности фонем, которая соответствует одному или более словам в фонетическом словаре, за исключением фонемы первого предварительно установленного типа, является точно такой же, как вторая последовательность фонем, составленная из других фонем в опорной последовательности, за исключением фонемы первого предварительно установленного типа.
9. Устройство по п. 6, в котором второй модуль определения содержит:
третий подмодуль выбора, выполненный с возможностью, если первая фонема и/или последняя фонема в последовательности фонем, которая соответствует целевому слову, является фонемой второго предварительно установленного типа, объединения других фонем в последовательности фонем, за исключением фонемы второго предварительно установленного типа, в новую последовательность фонем, и выбора из множества слов в фонетическом словаре одного или более слов, которые соответствуют последовательности фонем, которая является точно такой же, как новая последовательность фонем, в качестве одного или более нечетких слов, которые соответствуют целевому слову.
10. Устройство по любому из пп. 6-9, в котором модуль вывода содержит:
подмодуль ранжирования, выполненный с возможностью ранжирования одного или более нечетких слов, которые соответствуют целевому слову, в соответствии с предварительно установленным приоритетом;
первый подмодуль вывода выполнен с возможностью, если количество одного или более нечетких слов, которые соответствуют целевому слову, больше предварительно установленного количества, выбора нечетких слов предварительно установленного количества из всех нечетких слов, которые соответствуют целевому слову, в соответствии с результатом ранжирования, и вывода целевого слова и выбранных нечетких слов; и
второй подмодуль вывода выполнен с возможностью, если количество одного или более нечетких слов, которые соответствуют целевому слову, меньше или равно предварительно установленному количеству, вывода целевого слова и всех из одного или более нечетких слов, которые соответствуют целевому слову, в соответствии с результатом ранжирования.
11. Устройство обработки речевой информации, содержащее:
процессор; и
память для хранения инструкций, исполняемых процессором;
при этом процессор выполнен с возможностью:
определения текстовой информации, которая соответствует собранной речевой информации, в соответствии с технологией распознавания речи, при этом текстовая информация содержит слово;
при использовании слова в текстовой информации в качестве целевого слова определения одного или более нечетких слов, которые соответствуют целевому слову, в соответствии с последовательностью фонем, которая соответствует целевому и предварительно установленному фонетическому словарю, при этом фонетический словарь содержит множество слов и последовательностей фонем, которые соответствуют множеству слов; и
вывода целевого слова и одного или более нечетких слов, которые соответствуют целевому слову.
RU2019143666A 2019-09-09 2019-10-15 Способ обработки речевой информации, устройство и запоминающий носитель информации RU2733816C1 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910848567.7 2019-09-09
CN201910848567.7A CN112562675B (zh) 2019-09-09 2019-09-09 语音信息处理方法、装置及存储介质
PCT/CN2019/111308 WO2021046958A1 (zh) 2019-09-09 2019-10-15 语音信息处理方法、装置及存储介质

Publications (1)

Publication Number Publication Date
RU2733816C1 true RU2733816C1 (ru) 2020-10-07

Family

ID=69157636

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2019143666A RU2733816C1 (ru) 2019-09-09 2019-10-15 Способ обработки речевой информации, устройство и запоминающий носитель информации

Country Status (7)

Country Link
US (1) US11270693B2 (ru)
EP (1) EP3790001B1 (ru)
JP (1) JP7116088B2 (ru)
KR (1) KR102334299B1 (ru)
CN (1) CN112562675B (ru)
RU (1) RU2733816C1 (ru)
WO (1) WO2021046958A1 (ru)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489657A (zh) * 2020-12-04 2021-03-12 宁夏新航信息科技有限公司 一种数据分析系统与数据分析方法
CN115273852A (zh) * 2022-06-21 2022-11-01 北京小米移动软件有限公司 语音应答方法、装置、可读存储介质及芯片

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113053362A (zh) * 2021-03-30 2021-06-29 建信金融科技有限责任公司 语音识别的方法、装置、设备和计算机可读介质
CN113409767B (zh) * 2021-05-14 2023-04-25 北京达佳互联信息技术有限公司 一种语音处理方法、装置、电子设备及存储介质
CN113689882B (zh) * 2021-08-24 2024-09-06 上海喜马拉雅科技有限公司 发音评测方法、装置、电子设备及可读存储介质
WO2024177172A1 (ko) * 2023-02-22 2024-08-29 주식회사 엔씨소프트 발화검증 방법 및 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6581034B1 (en) * 1999-10-01 2003-06-17 Korea Advanced Institute Of Science And Technology Phonetic distance calculation method for similarity comparison between phonetic transcriptions of foreign words
US20110282667A1 (en) * 2010-05-14 2011-11-17 Sony Computer Entertainment Inc. Methods and System for Grammar Fitness Evaluation as Speech Recognition Error Predictor
US20140372122A1 (en) * 2013-06-14 2014-12-18 Mitsubishi Electric Research Laboratories, Inc. Determining Word Sequence Constraints for Low Cognitive Speech Recognition

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6363342B2 (en) 1998-12-18 2002-03-26 Matsushita Electric Industrial Co., Ltd. System for developing word-pronunciation pairs
JP2002215184A (ja) * 2001-01-19 2002-07-31 Casio Comput Co Ltd 音声認識装置、及びプログラム
US7062436B1 (en) * 2003-02-11 2006-06-13 Microsoft Corporation Word-specific acoustic models in a speech recognition system
US7590533B2 (en) * 2004-03-10 2009-09-15 Microsoft Corporation New-word pronunciation learning using a pronunciation graph
JP4604178B2 (ja) 2004-11-22 2010-12-22 独立行政法人産業技術総合研究所 音声認識装置及び方法ならびにプログラム
CN201054644Y (zh) * 2006-07-25 2008-04-30 陈修志 具有语音识别及翻译功能的移动终端
US8201087B2 (en) * 2007-02-01 2012-06-12 Tegic Communications, Inc. Spell-check for a keyboard system with automatic correction
US7983915B2 (en) * 2007-04-30 2011-07-19 Sonic Foundry, Inc. Audio content search engine
KR101300839B1 (ko) * 2007-12-18 2013-09-10 삼성전자주식회사 음성 검색어 확장 방법 및 시스템
JP2013125144A (ja) 2011-12-14 2013-06-24 Nippon Hoso Kyokai <Nhk> 音声認識装置およびそのプログラム
US9135912B1 (en) 2012-08-15 2015-09-15 Google Inc. Updating phonetic dictionaries
US9293129B2 (en) * 2013-03-05 2016-03-22 Microsoft Technology Licensing, Llc Speech recognition assisted evaluation on text-to-speech pronunciation issue detection
CN103677729B (zh) * 2013-12-18 2017-02-08 北京搜狗科技发展有限公司 一种语音输入方法和系统
KR102380833B1 (ko) * 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
CN105243143B (zh) * 2015-10-14 2018-07-24 湖南大学 基于即时语音内容检测的推荐方法及系统
CN106935239A (zh) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 一种发音词典的构建方法及装置
CN107195296B (zh) * 2016-03-15 2021-05-04 阿里巴巴集团控股有限公司 一种语音识别方法、装置、终端及系统
US10593346B2 (en) * 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
CN107665705B (zh) * 2017-09-20 2020-04-21 平安科技(深圳)有限公司 语音关键词识别方法、装置、设备及计算机可读存储介质
CN109841209A (zh) * 2017-11-27 2019-06-04 株式会社速录抓吧 语音识别设备和系统
CN108417202B (zh) * 2018-01-19 2020-09-01 苏州思必驰信息科技有限公司 语音识别方法及系统
US10839159B2 (en) * 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
CN109493846B (zh) * 2018-11-18 2021-06-08 深圳市声希科技有限公司 一种英语口音识别系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6581034B1 (en) * 1999-10-01 2003-06-17 Korea Advanced Institute Of Science And Technology Phonetic distance calculation method for similarity comparison between phonetic transcriptions of foreign words
US20110282667A1 (en) * 2010-05-14 2011-11-17 Sony Computer Entertainment Inc. Methods and System for Grammar Fitness Evaluation as Speech Recognition Error Predictor
US20140372122A1 (en) * 2013-06-14 2014-12-18 Mitsubishi Electric Research Laboratories, Inc. Determining Word Sequence Constraints for Low Cognitive Speech Recognition

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489657A (zh) * 2020-12-04 2021-03-12 宁夏新航信息科技有限公司 一种数据分析系统与数据分析方法
CN115273852A (zh) * 2022-06-21 2022-11-01 北京小米移动软件有限公司 语音应答方法、装置、可读存储介质及芯片

Also Published As

Publication number Publication date
US20210074273A1 (en) 2021-03-11
JP7116088B2 (ja) 2022-08-09
EP3790001A1 (en) 2021-03-10
KR20210032875A (ko) 2021-03-25
EP3790001B1 (en) 2023-07-12
US11270693B2 (en) 2022-03-08
WO2021046958A1 (zh) 2021-03-18
JP2022503255A (ja) 2022-01-12
CN112562675A (zh) 2021-03-26
KR102334299B1 (ko) 2021-12-06
CN112562675B (zh) 2024-05-24

Similar Documents

Publication Publication Date Title
RU2733816C1 (ru) Способ обработки речевой информации, устройство и запоминающий носитель информации
CN107632980B (zh) 语音翻译方法和装置、用于语音翻译的装置
CN107608532B (zh) 一种联想输入方法、装置及电子设备
CN111368541B (zh) 命名实体识别方法及装置
CN107564526B (zh) 处理方法、装置和机器可读介质
CN109582768B (zh) 一种文本输入方法和装置
CN108628819B (zh) 处理方法和装置、用于处理的装置
EP3734472A1 (en) Method and device for text processing
CN112579767B (zh) 搜索处理方法、装置和用于搜索处理的装置
CN116127062A (zh) 预训练语言模型的训练方法、文本情感分类方法及装置
CN107797676B (zh) 一种单字输入方法及装置
KR102327790B1 (ko) 정보 처리 방법, 장치 및 저장 매체
CN111381685B (zh) 一种句联想方法和装置
CN111324214B (zh) 一种语句纠错方法和装置
CN112306251A (zh) 一种输入方法、装置和用于输入的装置
CN108108356B (zh) 一种文字翻译方法、装置及设备
CN113035189A (zh) 一种文档演示的控制方法、装置和设备
CN113807082B (zh) 一种目标用户确定方法、装置和用于确定目标用户的装置
US20230196001A1 (en) Sentence conversion techniques
CN113625885B (zh) 一种输入方法、装置和用于输入的装置
CN114510154A (zh) 一种输入方法、装置和用于输入的装置
CN112507726A (zh) 一种义项嵌入向量的训练方法及装置
CN113672144A (zh) 一种数据处理方法及装置
CN114661172A (zh) 一种指令响应方法、装置和用于响应指令的装置
CN114064877A (zh) 文本词句推荐方法、装置、电子设备及可读存储介质