RU2754920C1 - Способ синтеза речи с передачей достоверного интонирования клонируемого образца - Google Patents

Способ синтеза речи с передачей достоверного интонирования клонируемого образца Download PDF

Info

Publication number
RU2754920C1
RU2754920C1 RU2020127476A RU2020127476A RU2754920C1 RU 2754920 C1 RU2754920 C1 RU 2754920C1 RU 2020127476 A RU2020127476 A RU 2020127476A RU 2020127476 A RU2020127476 A RU 2020127476A RU 2754920 C1 RU2754920 C1 RU 2754920C1
Authority
RU
Russia
Prior art keywords
speech
neural network
text
selected speaker
dataset
Prior art date
Application number
RU2020127476A
Other languages
English (en)
Inventor
Петр Владимирович Тагунов
Владислав Александрович Гонта
Original Assignee
Автономная некоммерческая организация поддержки и развития науки, управления и социального развития людей в области разработки и внедрения искусственного интеллекта "ЦифровойТы"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Автономная некоммерческая организация поддержки и развития науки, управления и социального развития людей в области разработки и внедрения искусственного интеллекта "ЦифровойТы" filed Critical Автономная некоммерческая организация поддержки и развития науки, управления и социального развития людей в области разработки и внедрения искусственного интеллекта "ЦифровойТы"
Priority to RU2020127476A priority Critical patent/RU2754920C1/ru
Priority to PCT/RU2021/050284 priority patent/WO2022039636A1/ru
Application granted granted Critical
Publication of RU2754920C1 publication Critical patent/RU2754920C1/ru

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

Изобретение относится к способам синтезирования речи с использованием искусственных нейронных сетей и может быть применено для синтеза речи выбранного спикера с передачей достоверного интонирования клонируемого образца. Технический результат изобретения состоит в том, что достигается передача достоверного интонирования клонируемого образца речи выбранного спикера на естественном языке. Производят предварительную подготовку обучающего датасета, состоящего из текста и соответствующей ему аудиозаписи речи выбранного спикера. Осуществляют глубокое обучение нейронной сети на основе обучающего датасета и получение на выходе мел-спектрограммы голоса выбранного спикера, преобразование мел-спектрограммы с помощью вокодера с получением на выходе аудиофайла в формате WAV. В качестве глубоко обучаемой нейронной сети применяется сеть Tacotron2, в качестве вокодера применяется нейронная сеть Waveglow. В процессе глубокого обучения нейросети Tacotron2 на основе подготовленного датасета осуществляется ее модификация путем увеличения количества весов ее модели и расширения объема ее памяти. Повторно применяют уже обученную нейронную сеть и вокодер для преобразования загружаемого пользователем произвольного текста в речь выбранного спикера, с получением на выходе аудиофайла озвучивания произвольного текста голосом выбранного спикера.

Description

Изобретение относится к области способов и устройств распознавания, обработки, анализирования и синтезирования речи, а именно к способам синтезирования речи с использованием искусственных нейронных сетей, и может быть применено для клонирования и синтеза речи выбранного спикера с передачей достоверного интонирования клонируемого образца.
Из общего уровня техники известны различные технические решения в области способов и устройств распознавания, обработки, анализирования и синтезирования речи. Некоторая часть из данных решений предполагает применение в процессе обработки, анализирования и синтезирования речи искусственных нейронных сетей. Основной задачей при синтезировании речи является преобразование того или иного текста в слышимую речь. Искусственные нейронные сети обладают свойством глубокого обучения (по аналогии с мозгом человека), в связи с чем позволяют преобразовать текст не в некий механический безжизненный голос, а добиться того, чтобы текст озвучивался «живым», естественным человеческим голосом, в том числе голосом выбранных людей (например, известных личностей) за счет предварительного обучения нейронной сети голосу выбранного спикера.
В качестве наиболее известных и совершенных нейронных сетей, применяемых в настоящее время для синтеза речи с передачей достоверного интонирования клонируемого образца, можно выделить нейронные сети Tacotron 2 и Waveglow. Tacotron 2 (tacotron2//сайт NVIDIA Corporation// электронный ресурс URL: https://github.com/NVIDIA/tacotron2 (дата доступа 29.07.2020) состоит из двух нейронных сетей, первая из которых преобразует текст в мел-спектрограмму, которая затем передается во вторую сеть (WaveNet) для считывания визуальных изображений и создания соответствующих звуковых элементов. Waveglow (WAVEGLOW: A FLOW-BASED GENERATIVE NETWORK FOR SPEECH SYNTHESIS»//Ryan Prenger, Rafael Valle, Bryan Catanzaro NVIDIA Corporation// электронный ресурс URL: https://arxiv.org/pdf/1811.00002.pdf (дата доступа 27.07.2020) представляет собой сеть на основе потоков, способную генерировать высококачественную речь из мел-спектрограмм. WaveGlow сочетает в себе идеи от Glow и WaveNet, чтобы обеспечить быстрый, эффективный и высококачественный синтез звука без необходимости авторегрессии.
В качестве примеров запатентованных технических решений, применяющих искусственные нейронные сети для синтезирования речи, можно привести иностранный патент на изобретение № CN 110335587 A «МЕТОД СИНТЕЗА РЕЧИ, СИСТЕМА СИНТЕЗА РЕЧИ, ТЕРМИНАЛЬНОЕ ОБОРУДОВАНИЕ И МАШИНОЧИТАЕМЫЙ НОСИТЕЛЬ ДЛЯ ХРАНЕНИЯ», иностранный патент на изобретение № CN 110853616 А «СПОСОБ И СИСТЕМА СИНТЕЗА РЕЧИ НА ОСНОВЕ НЕЙРОННОЙ СЕТИ И НОСИТЕЛЬ ИНФОРМАЦИИ», иностранный патент на изобретение № CN 108597492A «СПОСОБ И УСТРОЙСТВО СИНТЕЗА ГОЛОСА», иностранный патент на изобретение № JP 2018036413 А «УЧЕБНОЕ УСТРОЙСТВО ГОЛОСОВОГО СИНТЕЗА, СПОСОБ И ПРОГРАММА», российский патент на изобретение №2686589 «РАСПОЗНАВАНИЕ СМЕШАННОЙ РЕЧИ», российский патент на изобретение №2720359 «СПОСОБ И ОБОРУДОВАНИЕ РАСПОЗНАВАНИЯ ЭМОЦИЙ В РЕЧИ», российский патент на изобретение №2698153 «АДАПТИВНОЕ УЛУЧШЕНИЕ АУДИО ДЛЯ РАСПОЗНАВАНИЯ МНОГОКАНАЛЬНОЙ РЕЧИ». В качестве общих признаков данных технических решений с предлагаемым способом синтеза речи с передачей достоверного интонирования клонируемого образца можно выделить применение обучаемых искусственных нейронных сетей, в том числе одновременно двух нейронных сетей, предварительную подготовку обучающей базы данных для нейронной сети, применение преобразования исходных данных в мел-спектрограмму и дальнейшей обработки мел-спектрограммы и ее преобразование в речь, применение программного обеспечения, использование сверточной нейронной сети для глубокого обучения.
Также в открытом доступе содержатся упоминания платформы RESEMBLE (сайт RESEMBLE PLATFORM// электронный ресурс URL:https://www.resemble.ai/ (дата доступа 28.07.2020)) для клонирования голоса и проект VeraVoice (сайт VeraVoice// электронный ресурс URL: https://veravoice.ai/(дата доступа 28.07.2020)). Однако отсутствует техническое описание данных решений.
Наиболее близким техническим решением (прототипом) является техническое решение по российскому патенту на изобретение №2632424 «СПОСОБ И СЕРВЕР ДЛЯ СИНТЕЗА РЕЧИ ПО ТЕКСТУ» (дата приоритета 29.09.2015). Данное решение характеризуется тем, что представляет собой способ синтеза речи по тексту, включающий в себя этапы получения обучающих текстовых данных и соответствующих обучающих акустических данных, извлечения одной или нескольких фонетических и лингвистических характеристик обучающих текстовых данных, извлечения вокодерных характеристик соответствующих обучающих акустических данных, и корреляции вокодерных характеристик с фонетическими и лингвистическими характеристиками обучающих текстовых данных и с одним или несколькими определенными речевыми атрибутами, использования глубокой нейронной сети для определения факторов взаимозависимости между речевыми атрибутами в обучающих данных, получения текста, получения выбора речевого атрибута, преобразования текста в синтезированную речь с использованием акустической пространственной модели, вывода синтезированной речи в виде аудио, обладающего выбранным речевым атрибутом. Технический результат заключается в повышении естественности человеческого голоса в синтезированной речи. Общими признаками прототипа с заявляемым техническим решением являются использование глубоко обучаемой нейронной сети, предварительная подготовка обучающей базы данных, состоящей из текстовых и акустических данных.
Однако прототип имеет ряд недостатков:
- отсутствует техническое описание глубоко-обучаемой нейронной сети и принципа ее работы. В решении весьма подробно описана аппаратная часть способа синтеза речи по тексту, но опущено описание самой нейронной сети, ее свойств, между тем как нейронные сети значительно отличаются друг от друга, обладают различной структурой, свойствами, а для использования для клонирования речи нейронная сеть должна обладать строго определенными свойствами (например, быть рекуррентной), иметь определенные слои;
- отсутствует техническое описание способа подготовки базы обучающих данных, состоящей из обучающих текстовых данных и соответствующих обучающих акустических данных. Текстовые и акустические данные должны строго соответствовать друг другу, транскрипция голоса должна совпадать с текстом. При увеличении количества данных возрастает риск появления ошибок, неточностей, в результате чего снижается качество обучения нейронной сети, а значит и соответствия синтезированной речи образцу;
- преобразование текста в синтезированную речь с использованием акустической пространственной модели с применением преимущественно аппаратных средств без использования мел-спектрограмм может повлечь также ошибки и неточности при преобразовании текста в речь, делать голос частично искусственным, «неживым» в связи с неполноценной передачей всех интонаций голоса реального человека.
В результате недостатки прототипа не позволяют обеспечить качественное, точное соответствие интонирования синтезированной речи клонируемому образца речи любого спикера на любом естественном языке, в том числе на сложном, например на русском языке.
Таким образом, ни одно из представленных технических решений из указанной области техники не предлагает полноценного программно-аппаратного способа синтеза любой речи на любом естественном языке, в том числе на русском или другом сложном языке, выполненной любым спикером с передачей достоверного интонирования клонируемого образца во всех его аспектах с максимальным соответствием синтезированного голоса голосу реального человека-спикера.
В отличие от прототипа и иных технических решений, заявляемый на регистрацию способ синтеза речи с передачей достоверного интонирования клонируемого образца решает данную техническую проблему, так как представляет собой полноценный программно-аппаратный способ синтеза любой речи на любом естественном языке, в том числе на русском или другом сложном языке, выполненной любым спикером с передачей достоверного интонирования клонируемого образца во всех его аспектах с максимальным соответствием синтезированного голоса голосу реального человека-спикера, что достигается тщательной ручной (механической) подготовкой обучающего датасета для нейронный сетей, использованием одновременно нейронный сетей Tacotron2 и Waveglow, с глубоким обучением и модификацией сети Tacotron2 с целью максимальной адаптации нейронной сети под особенности того или иного языка, использованием программного обеспечения для управления работой нейронных сетей, и применением веб-сервиса и веб-сайта для взаимодействия любого пользователя с программным обеспечением и компьютером.
Соответственно, технический результат заявляемого технического решения «Способ синтеза речи с передачей достоверного интонирования клонируемого образца» состоит в том, что в результате синтеза речи согласно предлагаемому способу за счет тщательной ручной (механической) подготовки обучающего датасета, качественного изменения архитектуры применяемой искусственной нейронной сети для ее максимальной адаптации под особенности того или иного языка достигается передача достоверного интонирования клонируемого образца речи выбранного любого спикера на любом естественном языке, в том числе на сложном языке, например русском, то есть максимальное соответствие всех аспектов интонации синтезированной на основе введенного сторонним пользователем произвольного текста речи голосу выбранного любого спикера на любом естественном языке, в результате чего синтезированная речь становится неотличимой от естественной, а также в целом расширение арсенала способов синтеза речи с использованием искусственных нейронных сетей.
Технический результат достигается тем, что способ синтеза речи с передачей достоверного интонирования клонируемого образца включает в себя этапы предварительной подготовки обучающего датасета, состоящего из текста и соответствующей ему аудиозаписи речи выбранного спикера, глубокого обучения нейронной сети на основе тренировочного датасета и получения на выходе мел-спектрограммы голоса выбранного спикера, преобразования мел-спектрограммы с помощью вокодера с получением на выходе аудиофайла в формате WAV, повторного применения уже обученной нейронной сети и вокодера для преобразования загружаемого пользователем произвольного текста в речь выбранного спикера, обработанного на этапах подготовки датасета и глубокого обучения нейронной сети с получением на выходе аудиофайла озвучивания произвольного текста голосом выбранного спикера в формате WAV, отличающийся тем, что аудиозапись речи выбранного спикера разбита на фрагменты длительностью не более 16 секунд каждая, подготовка датасета осуществляется в ручном режиме путем тщательной проверки человеком каждого фрагмента аудиозаписи и соответствующего ему фрагмента текста на предмет полного совпадения транскрипции аудиозаписи тексту, в качестве глубоко обучаемой нейронной сети применяется сеть Tacotron2, в качестве вокодера применяется нейронная сеть Waveglow, в процессе глубокого обучения нейросети Tacotron2 на основе подготовленного датасета осуществляется ее модификация путем увеличения количества весов ее модели, расширения объема ее памяти с целью максимальной адаптации нейронной сети под особенности того или иного языка, процессы модификации и глубокого обучения модели Tacotron2 с получением на выходе мел-спектрограммы, преобразования сетью Waveglow мел-спектрограммы в аудиофайл в формате WAV и дальнейшего преобразования загружаемого пользователем произвольного текста в речь спикера, обработанного на этапах подготовки датасета и глубокого обучения модели Tacotron2, контролируются программным обеспечением, взаимодействие пользователя с программным обеспечением и компьютерным оборудованием при загрузке им произвольного текста для его озвучивания голосом выбранного спикера и получении на выходе аудиофайла в формате WAV осуществляется с помощью веб-сервиса на языке Java и веб-сайта.
Для получения технического результата изобретение может быть осуществлено следующим предпочтительным образом, не исключающим иных способов осуществления в рамках заявленной формулы изобретения.
Способ синтеза речи с передачей достоверного интонирования клонируемого образца включает в себя следующие этапы. На первом этапе вручную подготавливается обучающий датасет, состоящий из текста и соответствующей ему аудиозаписи речи выбранного спикера, разбитой на фрагменты длительностью не более 16 секунд каждая. Ручная подготовка датасета означает, что каждый фрагмент аудиозаписи и соответствующий ему фрагмент текста тщательно проверяется человеком путем прослушивания фрагмента аудиозаписи и прочтения одновременно соответствующего ему фрагмента текста на предмет их полного совпадения. В случае несовпадения текста с аудиозаписью, человек с помощью компьютера вносит изменения в текст для максимизации соответствия транскрипции аудиозаписи тексту. При этом минимальный объем датасета для будущего полноценного обучения нейросети на основе данного датасета, например, для русской речи, составляет 20 часов аудиозаписи для удовлетворительного (тестового) качества и 30 часов речи для промышленной эксплуатации голоса выбранного спикера. Далее на основе подготовленного датасета осуществляется процесс модификации и глубокого обучения искусственной нейронной сети (модели) Tacotron2 применительно к специфике того или иного естественного языка, например русского. Полученный вручную подготовленный тренировочный датасет и нейронные сети (модели) Tacotron2 и Waveglow загружаются в графический и центральный процессоры компьютера и производятся тензорные вычисления весов моделей Tacotron2 и Waveglow, определяющих особенности речи выбранного спикера. Далее следует этап кодирования - преобразование символов текста из датасета в их численное представление. Далее сверточные слои нейронной сети Tacotron2 определяют взаимосвязь букв в слове и в тексте в целом. Затем результат поступает в двунаправленный слой нейронной сети Tacotron2, использующий свою внутреннюю память для обработки последовательностей произвольной длины, который сохраняет состояние о «прошлом» и «будущем», то есть запоминает контекст того или иного фрагмента текста и аудиозаписи. Далее следует этап декодирования - полученный на этапе кодирования результат проходит через слой сети Tacotron2 «внимания», который вычисляет средний момент по всем возможным результатам сети этапа кодирования, который в свою очередь состоит из двух однонаправленных слоев памяти нейронной сети Tacotron2, слоя pre-net, необходимого для обучения внимания, и слоя линейного преобразования в мел-спектрограмму. Полученный результат этапа декодирования проходит через пятисверточный слой (post-net) нейронной сети Tacotron2 для повышения качества мел-спектрограммы. Далее полученная обработанная мел-спектрограмма передается в вокодер, качестве которого выступает нейронная сеть Waveglow, которая на выходе выдает аудиофайл в формате WAV. Далее модифицированная на предыдущих этапах глубокого обучения модель Tacotron2 и сеть Waveglow с вычисленными весами загружаются повторно на графический и центральный процессор компьютера и производится преобразование загружаемого пользователем произвольного текста в речь спикера, обработанного на этапах подготовки датасета и глубокого обучения модели Tacotron2. Процессы модификации и глубокого обучения модели Tacotron2 с получением на выходе мел-спектрограммы, преобразования сетью Waveglow мел-спектрограммы в аудиофайл в формате WAV и дальнейшего преобразования загружаемого пользователем произвольного текста в речь спикера, обработанного на этапах подготовки датасета и глубокого обучения модели Tacotron2, контролируются программным обеспечением. Взаимодействие пользователя с программным обеспечением и компьютерным оборудованием при загрузке им произвольного текста для его озвучивания голосом выбранного спикера и получении на выходе аудиофайла в формате WAV осуществляется с помощью веб-сервиса на языке Java и веб-сайта.
Новизна и изобретательский уровень представленного изобретения состоит в том, что в изложенном способе синтеза речи с передачей достоверного интонирования клонируемого образца осуществляется тщательная ручная (механическая) подготовка обучающего датасета для нейронный сетей Tacotron2 и Waveglow, нейронная сеть Tacotron2 проходит процесс модификации путем увеличения количества весов ее модели, расширения объема ее памяти и последующего ее глубокого обучения на основе подготовленного обучающего датасета с использованием большего количества «фичей» (специфических программных возможностей) с целью максимальной адаптации нейронной сети под особенности того или иного языка. В результате применения предложенного способа достигается качественное соответствие звучания синтезированной речи голосу реального выбранного пользователем любого человека (спикера), выполненного на любом естественном языке.

Claims (1)

  1. Способ синтеза речи с передачей достоверного интонирования клонируемого образца характеризуется тем, что включает в себя этапы предварительной подготовки обучающего датасета, состоящего из текста и соответствующей ему аудиозаписи речи выбранного спикера, глубокого обучения нейронной сети на основе обучающего датасета и получения на выходе мел-спектрограммы голоса выбранного спикера, преобразования мел-спектрограммы с помощью вокодера с получением на выходе аудиофайла в формате WAV, повторного применения уже обученной нейронной сети и вокодера для преобразования загружаемого пользователем произвольного текста в речь выбранного спикера, обработанного на этапах подготовки датасета и глубокого обучения нейронной сети с получением на выходе аудиофайла озвучивания произвольного текста голосом выбранного спикера в формате WAV, отличающийся тем, что аудиозапись речи выбранного спикера разбита на фрагменты длительностью не более 16 секунд каждая, подготовка датасета осуществляется в ручном режиме путем тщательной проверки человеком каждого фрагмента аудиозаписи и соответствующего ему фрагмента текста на предмет полного совпадения транскрипции аудиозаписи тексту, в качестве глубоко обучаемой нейронной сети применяется сеть Tacotron2, в качестве вокодера применяется нейронная сеть Waveglow, в процессе глубокого обучения нейросети Tacotron2 на основе подготовленного датасета осуществляется ее модификация путем увеличения количества весов ее модели, расширения объема ее памяти с целью максимальной адаптации нейронной сети под особенности того или иного языка, процессы модификации и глубокого обучения модели Tacotron2 с получением на выходе мел-спектрограммы, преобразования сетью Waveglow мел-спектрограммы в аудиофайл в формате WAV и дальнейшего преобразования загружаемого пользователем произвольного текста в речь спикера, обработанного на этапах подготовки датасета и глубокого обучения модели Tacotron2, контролируются программным обеспечением, взаимодействие пользователя с программным обеспечением и компьютерным оборудованием при загрузке им произвольного текста для его озвучивания голосом выбранного спикера и получении на выходе аудиофайла в формате WAV осуществляется с помощью веб-сервиса на языке Java и веб-сайта.
RU2020127476A 2020-08-17 2020-08-17 Способ синтеза речи с передачей достоверного интонирования клонируемого образца RU2754920C1 (ru)

Priority Applications (2)

Application Number Priority Date Filing Date Title
RU2020127476A RU2754920C1 (ru) 2020-08-17 2020-08-17 Способ синтеза речи с передачей достоверного интонирования клонируемого образца
PCT/RU2021/050284 WO2022039636A1 (ru) 2020-08-17 2021-09-02 Способ синтеза речи с передачей достоверного интонирования клонируемого образца

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2020127476A RU2754920C1 (ru) 2020-08-17 2020-08-17 Способ синтеза речи с передачей достоверного интонирования клонируемого образца

Publications (1)

Publication Number Publication Date
RU2754920C1 true RU2754920C1 (ru) 2021-09-08

Family

ID=77670309

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2020127476A RU2754920C1 (ru) 2020-08-17 2020-08-17 Способ синтеза речи с передачей достоверного интонирования клонируемого образца

Country Status (2)

Country Link
RU (1) RU2754920C1 (ru)
WO (1) WO2022039636A1 (ru)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116151832B (zh) * 2023-04-18 2023-07-21 支付宝(杭州)信息技术有限公司 一种交互式风控系统及方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2632424C2 (ru) * 2015-09-29 2017-10-04 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер для синтеза речи по тексту
RU2686589C2 (ru) * 2014-03-24 2019-04-29 МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи Распознавание смешанной речи
RU2698153C1 (ru) * 2016-03-23 2019-08-22 ГУГЛ ЭлЭлСи Адаптивное улучшение аудио для распознавания многоканальной речи
CN110335587A (zh) * 2019-06-14 2019-10-15 平安科技(深圳)有限公司 语音合成方法、系统、终端设备和可读存储介质
CN108597492B (zh) * 2018-05-02 2019-11-26 百度在线网络技术(北京)有限公司 语音合成方法和装置
JP6649210B2 (ja) * 2016-08-30 2020-02-19 日本電信電話株式会社 音声合成学習装置、方法、及びプログラム
CN110853616A (zh) * 2019-10-22 2020-02-28 武汉水象电子科技有限公司 一种基于神经网络的语音合成方法、系统与存储介质
RU2720359C1 (ru) * 2019-04-16 2020-04-29 Хуавэй Текнолоджиз Ко., Лтд. Способ и оборудование распознавания эмоций в речи

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2686589C2 (ru) * 2014-03-24 2019-04-29 МАЙКРОСОФТ ТЕКНОЛОДЖИ ЛАЙСЕНСИНГ, ЭлЭлСи Распознавание смешанной речи
RU2632424C2 (ru) * 2015-09-29 2017-10-04 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер для синтеза речи по тексту
RU2698153C1 (ru) * 2016-03-23 2019-08-22 ГУГЛ ЭлЭлСи Адаптивное улучшение аудио для распознавания многоканальной речи
JP6649210B2 (ja) * 2016-08-30 2020-02-19 日本電信電話株式会社 音声合成学習装置、方法、及びプログラム
CN108597492B (zh) * 2018-05-02 2019-11-26 百度在线网络技术(北京)有限公司 语音合成方法和装置
RU2720359C1 (ru) * 2019-04-16 2020-04-29 Хуавэй Текнолоджиз Ко., Лтд. Способ и оборудование распознавания эмоций в речи
CN110335587A (zh) * 2019-06-14 2019-10-15 平安科技(深圳)有限公司 语音合成方法、系统、终端设备和可读存储介质
CN110853616A (zh) * 2019-10-22 2020-02-28 武汉水象电子科技有限公司 一种基于神经网络的语音合成方法、系统与存储介质

Also Published As

Publication number Publication date
WO2022039636A1 (ru) 2022-02-24

Similar Documents

Publication Publication Date Title
JP7355306B2 (ja) 機械学習を利用したテキスト音声合成方法、装置およびコンピュータ読み取り可能な記憶媒体
WO2020215666A1 (zh) 语音合成方法、装置、计算机设备及存储介质
CN109767778B (zh) 一种融合Bi-LSTM和WaveNet的语音转换方法
KR20240096867A (ko) 2-레벨 스피치 운율 전송
US12046226B2 (en) Text-to-speech synthesis method and system, a method of training a text-to-speech synthesis system, and a method of calculating an expressivity score
US12027165B2 (en) Computer program, server, terminal, and speech signal processing method
JP2023539888A (ja) 声変換および音声認識モデルを使用した合成データ拡大
US20230230576A1 (en) Text-to-speech synthesis method and system, and a method of training a text-to-speech synthesis system
US20230343319A1 (en) speech processing system and a method of processing a speech signal
KR102639322B1 (ko) 실시간 음색 및 운율 스타일 복제 가능한 음성합성 시스템 및 방법
KR102319753B1 (ko) 딥러닝 기반의 영상 컨텐츠 제작 방법 및 장치
CN116994553A (zh) 语音合成模型的训练方法、语音合成方法、装置及设备
CN117373431A (zh) 音频合成方法、训练方法、装置、设备及存储介质
Kaur et al. Genetic algorithm for combined speaker and speech recognition using deep neural networks
Shah et al. Nonparallel emotional voice conversion for unseen speaker-emotion pairs using dual domain adversarial network & virtual domain pairing
Shechtman et al. Synthesis of Expressive Speaking Styles with Limited Training Data in a Multi-Speaker, Prosody-Controllable Sequence-to-Sequence Architecture.
RU2754920C1 (ru) Способ синтеза речи с передачей достоверного интонирования клонируемого образца
US11404045B2 (en) Speech synthesis method and apparatus
CN112216293A (zh) 一种音色转换方法和装置
Nazir et al. Multi speaker text-to-speech synthesis using generalized end-to-end loss function
JP7357518B2 (ja) 音声合成装置及びプログラム
JP6578544B1 (ja) 音声処理装置、および音声処理方法
EP4205104A1 (en) System and method for speech processing
JP2020204755A (ja) 音声処理装置、および音声処理方法
Azizah Zero-Shot Voice Cloning Text-to-Speech for Dysphonia Disorder Speakers