PL401372A1

PL401372A1 - Hybrydowa kompresja danych głosowych w systemach zamiany tekstu na mowę

Info

Publication number: PL401372A1
Application number: PL401372A
Authority: PL
Inventors: Michał T. Kaszczuk; Łukasz M. Osowski
Original assignee: Ivona Software Spółka Z Ograniczoną Odpowiedzialnością
Priority date: 2012-10-26
Filing date: 2012-10-26
Publication date: 2014-04-28
Also published as: US20140122060A1; US9064489B2

Abstract

Nagrane albo syntetyzowane segmenty mowy z systemów zamiany tekstu na mowę są kompresowane poprzez użycie zarówno technik kompresji domeny czasu, jak i kompresji percepcyjnej. Dwukrotnie skompresowane nagranie zostaje podzielone na segmenty mowy odpowiadające słowom oraz podsłowom do wykorzystania w systemie TTS. Stopień kompresji w ramach kompresji domeny czasu oraz współczynnik kompresji domeny czasu do kompresji percepcyjnej są modyfikowane na potrzeby dowolnego segmentu mowy. Wielkość lub współczynnik kompresji określa się na podstawie właściwości lingwistycznych lub akustycznych słowa lub podsłowa reprezentowanego przez dany segment mowy. Do różnych części danego segmentu mowy są stosowane różne wielkości i współczynniki kompresji.