WO2023059402A1

WO2023059402A1 - Amélioration de la parole personnalisée multicanaux indépendante de la géométrie de réseau

Info

Publication number: WO2023059402A1
Application number: PCT/US2022/040979
Authority: WO
Inventors: Sefik Emre ESKIMEZ; Takuya Yoshioka; Huaming Wang; Hassan Taherian; Zhuo Chen; Xuedong Huang
Original assignee: Microsoft Technology Licensing, Llc.
Priority date: 2021-10-05
Filing date: 2022-08-22
Publication date: 2023-04-13
Also published as: EP4413566A1

Abstract

Des exemples d'amélioration de la parole personnalisée (PSE) multicanaux indépendante de la géométrie de réseau extraient des incorporations de locuteur, qui représentent des caractéristiques acoustiques d'un ou plusieurs locuteurs cibles, à partir de données d'inscription de locuteur cible. Des caractéristiques spatiales (par exemple, une différence de phase entre canaux) sont extraites à partir d'un signal audio d'entrée capturé par un réseau de microphones. Le signal audio d'entrée comprend un mélange de données de parole du ou des locuteurs cibles et d'un ou plusieurs locuteurs perturbateurs. Le signal audio d'entrée, les incorporations de locuteur extraites et les caractéristiques spatiales extraites sont fournis à un modèle de PSE indépendant de la géométrie appris. Des données de sortie sont produites, lesquelles comprennent des données de parole nettes estimées du ou des locuteurs cibles qui ont une réduction (ou une élimination) de données de parole du ou des locuteurs perturbateurs, sans que le modèle de PSE appris nécessite des informations de géométrie pour le réseau de microphones.