KR102577513B1 - 음성 처리 방법, 장치 및 음성 처리 모델의 생성 방법, 장치 - Google Patents

음성 처리 방법, 장치 및 음성 처리 모델의 생성 방법, 장치 Download PDF

Info

Publication number
KR102577513B1
KR102577513B1 KR1020210117561A KR20210117561A KR102577513B1 KR 102577513 B1 KR102577513 B1 KR 102577513B1 KR 1020210117561 A KR1020210117561 A KR 1020210117561A KR 20210117561 A KR20210117561 A KR 20210117561A KR 102577513 B1 KR102577513 B1 KR 102577513B1
Authority
KR
South Korea
Prior art keywords
voice
echo
frequency band
signal
voice signal
Prior art date
Application number
KR1020210117561A
Other languages
English (en)
Other versions
KR20210116372A (ko
Inventor
쑤 첸
진펑 바이
룬치앙 한
레이 지아
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20210116372A publication Critical patent/KR20210116372A/ko
Application granted granted Critical
Publication of KR102577513B1 publication Critical patent/KR102577513B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

본 출원은 음성 처리 방법, 장치 및 음성 처리 모델의 생성 방법, 장치를 개시하는데, 이는 음성 기술, 휴먼 인터랙션, 딥 러닝 기술분야에 관한 것이다. 구현방안은, 처리해야 할 M개의 음성 신호 및 N개의 참조 신호를 획득하고; 각각의 신호에 대해 각각 서브밴드 분해를 수행하여 각 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분을 획득하며; N개의 참조 신호가 각 음성 신호의 각 주파수 대역에서 대응되는 아이디얼 비율 마스크(IRM)를 획득하고; 각 IRM에 기반하여 각 음성 신호의 각 주파수 대역 성분에 대해 에코 소거를 수행하여, 에코 소거 후의 M개의 음성 신호를 획득하는 것이다. 이로써, 실제 참조 신호가 음성 신호의 각 주파수 대역에서 대응되는 아이디얼 비율 마스크(IRM)에 기반하여 음성 신호의 각 주파수 대역 성분에 대해 에코 소거를 수행함으로써 임의의 아날로그 신호에 의거할 필요가 없어 에코 소거의 정확성과 일반화를 향상시키고 사용자의 사용 체험을 개선한다.

Description

음성 처리 방법, 장치 및 음성 처리 모델의 생성 방법, 장치{VOICE PROCESSING METHOD AND DEVICE AND VOICE PROCESSING MODEL GENERATION METHOD AND DEVICE}
본 출원은 신호 처리 기술분야에 관한 것으로, 구체적으로는 음성 기술, 휴먼 인터랙션, 딥 러닝 기술분야에 관한 것이고, 특히 음성 처리 방법, 장치, 전자 기기 및 저장매체에 관한 것이며, 또 음성 처리 모델의 생성 방법, 장치, 전자 기기 및 저장매체에 관한 것이다.
칩 기술과 음성 기술의 발전과 더불어 점점 더 많은 지능형 음성 인터랙션 기기가 사람들의 생활에 들어왔다. 예를 들어, 홈 시나리오에서의 스마트 스피커와 스마트 티비, 차량용 시나리오에서의 스마트 네비게이션 등과 같이 사람들은 이미 음성을 사용하여 기기와 인터랙션을 수행하여 리소스와 서비스를 획득하는데 점차 익숙해졌다. 이러한 지능형 음성 인터랙션 기기는 일반적으로 딥 러닝 기술을 기반으로 하고 마이크 어레이와 스피커를 사용하여 사용자와의 음성 인터랙션을 완성한다.
음성 인터랙션 과정에서 기기의 스피커가 발송한 음성 신호는 스마트 하드웨어 캐비티와 실내의 반사 등 여러 에코 경로를 통해 자체 마이크에 의해 수신된다. 이러한 에코 신호는 사용자의 실제 음성 신호의 신호 대 잡음비를 줄여 음성 인식 오류, 웨이크업 오류/웨이크업 실패 등 문제를 초래할 뿐만 아니라, 심지어 기기 오작동 등 사용자 경험에 심각한 영향을 미치는 상황도 추가로 일으킬 수 있다. 따라서, 어떻게 에코 소거 성능을 더 향상시켜 음성 인터랙션 체험을 더 향상시킬 것인가 하는 것은 현재 음성 인터랙션 관련 기술의 중요 포인트이다.
본 출원은 에코 소거 성능을 향상시키기 위한 음성 처리 방법, 장치 및 음성 처리 모델의 생성 방법, 장치를 제공한다.
본 출원의 제1 양태에 따르면, 처리해야 할 M개의 음성 신호 및 N개의 참조 신호를 획득하되, M와 N은 각각 1보다 크거나 같은 자연수인 단계; 각각의 상기 음성 신호 및 참조 신호에 대해 각각 서브밴드 분해를 수행하여 각각의 상기 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분을 획득하는 단계; 에코 소거 모델을 사용하여 각각의 상기 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분을 처리하여 상기 N개의 참조 신호가 각각의 상기 음성 신호의 각 주파수 대역에서 대응되는 아이디얼 비율 마스크(IRM)를 획득하는 단계; 상기 N개의 참조 신호가 각각의 상기 음성 신호의 각 주파수 대역에서 대응되는 IRM에 기반하여 각각의 상기 음성 신호의 각 주파수 대역 성분에 대해 에코 소거를 수행하여, 에코 소거 후의 M개의 음성 신호를 획득하는 단계를 포함하는 음성 처리 방법을 제공한다.
본 출원의 제2 양태에 따르면, 트레이닝 데이터 세트를 획득하되, 상기 트레이닝 데이터 세트의 각 그룹의 트레이닝 데이터에는 참조 신호, 에코를 휴대한 음성 신호 및 라벨 아이디얼 비율 마스크(IRM)가 포함되는 단계; 각 그룹의 상기 참조 신호 및 에코를 휴대한 음성 신호에 대해 각각 서브밴드 분해를 수행하여 각 그룹의 상기 참조 신호 및 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분을 획득하는 단계; 초기 신경망 모델을 사용하여 각 그룹의 상기 참조 신호 및 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분을 처리함으로써 각 그룹의 상기 참조 신호가 상기 에코를 휴대한 음성 신호의 각 주파수 대역에서 대응되는 예측 IRM을 획득하는 단계; 각 그룹의 상기 예측 IRM 및 대응되는 라벨 IRM의 차이에 따라 상기 초기 신경망 모델에 대해 역구배 전파 보정을 수행함으로써 트레이닝된 음성 처리 모델을 생성하는 단계를 포함하는 음성 처리 모델의 생성 방법을 제공한다.
본 출원의 제3 양태에 따르면, 처리해야 할 M개의 음성 신호 및 N개의 참조 신호를 획득하되, M와 N은 각각 1보다 크거나 같은 자연수인 획득 모듈; 각각의 상기 음성 신호 및 참조 신호에 대해 각각 서브밴드 분해를 수행하여 각각의 상기 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분을 획득하는 제1 처리 모듈; 에코 소거 모델을 사용하여 각각의 상기 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분을 처리하여 상기 N개의 참조 신호가 각각의 상기 음성 신호의 각 주파수 대역에서 대응되는 아이디얼 비율 마스크(IRM)를 획득하는 제2 처리 모듈; 상기 N개의 참조 신호가 각각의 상기 음성 신호의 각 주파수 대역에서 대응되는 IRM에 기반하여 각각의 상기 음성 신호의 각 주파수 대역 성분에 대해 에코 소거를 수행하여, 에코 소거 후의 M개의 음성 신호를 획득하는 제3 처리 모듈을 포함하는 음성 처리 장치를 제공한다.
이로써, 실제 참조 신호가 음성 신호의 각 주파수 대역에서 대응되는 아이디얼 비율 마스크(IRM)에 기반하여 음성 신호의 각 주파수 대역 성분에 대해 에코 소거를 수행함으로써 임의의 아날로그 신호에 의거할 필요가 없어 에코 소거의 정확성과 일반화를 향상시키고 사용자의 사용 체험을 개선한다.
본 출원의 제4 양태에 따르면, 트레이닝 데이터 세트를 획득하되, 상기 트레이닝 데이터 세트의 각 그룹의 트레이닝 데이터에는 참조 신호, 에코를 휴대한 음성 신호 및 라벨 아이디얼 비율 마스크(IRM)가 포함되는 제2 획득 모듈; 각 그룹의 상기 참조 신호 및 에코를 휴대한 음성 신호에 대해 각각 서브밴드 분해를 수행하여 각 그룹의 상기 참조 신호 및 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분을 획득하는 제5 처리 모듈; 초기 신경망 모델을 사용하여 각 그룹의 상기 참조 신호 및 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분을 처리함으로써 각 그룹의 상기 참조 신호가 상기 에코를 휴대한 음성 신호의 각 주파수 대역에서 대응되는 예측 IRM을 획득하는 제6 처리 모듈; 각 그룹의 상기 예측 IRM 및 대응되는 라벨 IRM의 차이에 따라 상기 초기 신경망 모델에 대해 역구배 전파 보정을 수행함으로써 트레이닝된 음성 처리 모델을 생성하는 제7 처리 모듈을 포함하는 음성 처리 모델의 생성 장치를 제공한다.
본 출원의 제5 양태에 따르면, 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장매체를 제공하는데, 여기에는 컴퓨터 프로그램이 저장되며, 상기 컴퓨터 명령은 상기 컴퓨터로 하여금 상기 일 양태의 실시예에 따른 음성 처리 방법을 수행하거나 또는 상기 일 양태의 실시예에 따른 음성 처리 방법을 수행하도록 한다.
본 출원의 제6 양태에 따르면, 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공하는바, 상기 컴퓨터 프로그램중의 명령이 실행될 경우, 상기 일 양태의 실시예에 따른 음성 처리 방법을 수행하거나 또는 상기 일 양태의 실시예에 따른 음성 처리 방법이 실행된다.
본 출원의 음성 처리 방법은, 실제 참조 신호가 음성 신호의 각 주파수 대역에서 대응되는 아이디얼 비율 마스크(IRM)에 기반하여 음성 신호의 각 주파수 대역 성분에 대해 에코 소거를 수행함으로써 임의의 아날로그 신호에 의거할 필요가 없어 에코 소거의 정확성과 일반화를 향상시키고 사용자의 사용 체험을 개선한다. 더 나아가, 에코 소거를 수행하기 위한 모델은, 실제 참조 신호, 에코를 휴대한 음성 신호 및 라벨 아이디얼 비율 마스크(IRM)에 기반하여 생성된 것으로서, 임의의 아날로그 신호에 의거할 필요가 없어 음성 처리 모델의 정확성과 일반화를 향상시키고 사용자의 사용 체험을 개선한다.
본 명세서에서 설명한 내용은 본 출원의 실시예의 관건적이거나 중요한 특징을 표기하기 위한 것이 아니고 본 출원의 범위를 한정하기 위한 것도 아님을 이해해야 한다. 본 출원의 기타 특징은 아래의 명세서를 통해 더 용이하게 이해할 수 있을 것이다.
첨부 도면은 본 방안을 더 잘 이해하기 위한 것으로, 본 출원을 한정하지 않는다. 여기서,
도 1은 본 출원의 실시예에서 제공하는 한가지 음성 처리 방법의 흐름도이고;
도 2는 본 출원의 실시예에서 제공하는 한가지 서브밴드 분해를 수행하는 흐름도이며;
도 3은 본 출원의 실시예에서 제공하는 다른 한 음성 처리 방법의 흐름도이고;
도 4는 본 출원의 실시예에서 제공하는 한가지 음성 처리 방법에서 아이디얼 비율 마스크(IRM)를 획득하는 흐름도이며;
도 5는 본 출원의 실시예에서 제공하는 한가지 에코 소거를 수행하는 개략도이고;
도 6은 본 출원의 실시예에서 제공하는 또 다른 음성 처리 방법의 흐름도이며;
도 7은 본 출원의 실시예에서 제공하는 한가지 음성 처리 모델의 생성 방법의 흐름도이고;
도 8은 본 출원의 실시예에서 제공하는 한가지 음성 처리 모델의 생성 방법에서의 트레이닝 데이터 세트를 획득하는 흐름도이며;
도 9는 본 출원의 실시예에서 제공하는 한가지 라벨 IRM을 결정하는 흐름도이고;
도 10은 본 출원의 실시예에서 제공하는 다른 한 음성 처리 모델의 생성 방법의 흐름도이며;
도 11은 본 출원의 실시예에서 제공하는 한가지 음성 처리 장치의 구조 개략도이고;
도 12는 본 출원의 실시예에서 제공하는 한가지 음성 처리 모델의 생성 장치의 구조 개략도이며;
도 13은 본 출원의 실시예에 따른 음성 처리 방법을 구현하기 위한 전자 기기의 블록도이다.
이하, 첨부 도면을 결부하여 본 출원의 예시적인 실시예들을 설명하고자 하며, 이해를 돕기 위해 본 출원의 실시예들의 다양한 세부 사항들이 포함되는데, 이들은 단지 예시적인 것으로 간주되어야 한다. 따라서, 본 출원의 기술 분야의 통상의 지식을 가진 자라면 본 출원의 범위 및 사상을 벗어나지 않으면서 본 명세서에 설명된 실시예들에 대해 다양한 변경 및 수정이 이루어질 수 있음을 알아야 한다. 또한, 명확성 및 간결성을 위해, 공지된 기능 및 구조에 대한 설명은 아래 설명에서 생략된다.
설명해야 할 것은, 음성 인터랙션에서, 스피커가 발송한 음성 신호는 스마트 하드웨어 캐비티와 실내의 반사 등 여러 에코 경로를 통해 자체 마이크에 의해 수신된다. 이러한 에코 신호는 사용자의 실제 음성 신호의 신호 대 잡음비를 줄여 음성 인식 오류, 웨이크업 오류/웨이크업 실패 등 문제를 초래할 뿐만 아니라, 심지어 기기 오작동 등 사용자 경험에 심각한 영향을 미치는 상황도 추가로 일으킬 수 있다. 따라서, 이러한 에코 신호를 소거하여 실제 음성의 신호 대 잡음비를 향상시키고 음성의 인식률, 웨이크업의 정확률 및 사용자의 인터랙션 체험을 향상시키는 방법이 필요하다.
관련 기술에서는, 일반적으로 스피커에서 발생한 신호를 추정하여 에코 신호 (아날로그 신호)를 획득하고, 그 다음 추정된 에코 신호를 마이크 입력 신호에서 감하여 추정된 실제 음성 신호를 얻어 에코 소거 목적을 달성할 수 있다. 상기 에코 소거 기술은 추정된 에코 신호에 의존하므로 에코 소거 정확성이 낮고 효과가 좋지 않다.
이 때문에, 본 출원의 실시예는 음성 처리 방법, 장치 및 음성 처리 모델의 생성 방법, 장치를 제공한다. 본 출원의 실시예는, 실제 참조 신호가 음성 신호의 각 주파수 대역에서 대응되는 아이디얼 비율 마스크(IRM)에 기반하여 음성 신호의 각 주파수 대역 성분에 대해 에코 소거를 수행함으로써 임의의 아날로그 신호에 의거할 필요가 없어 에코 소거의 정확성과 일반화를 향상시키고 사용자의 사용 체험을 개선한다.
이하 도면을 참조하여 본 출원의 실시예에 따른 음성 처리 방법, 장치 및 음성 처리 모델의 생성 방법, 장치를 설명한다.
도 1은 본 출원의 실시예에서 제공하는 한가지 음성 처리 방법의 흐름도이다.
설명해야 할 것은, 본 출원의 실시예에 따른 음성 처리 방법은 음성 처리 기기에 응용되는데, 상기 기기는 스마트 스피커, 스마트 티비 등과 같은 스마트 홈 기기 일 수도 있고 스마트 차량용 기기 등 일 수도 있다.
도 1에 도시된 바와 같이, 상기 음성 처리 방법은 하기와 같은 단계를 포함한다.
단계S101, 처리해야 할 M개의 음성 신호 및 N개의 참조 신호를 획득하되, M와 N은 각각 1보다 크거나 같은 자연수이다.
참조 신호란 음성 처리 기기 자체(스피커)가 실제로 플레이한 음성 신호를 말한다. 처리해야 할 음성 신호란 표준 음성 신호와 에코 신호로 조성된 혼합 음성 신호를 말하는데, 표준 음성 신호는 음성 처리 기기가 인식하거나 처리해야 할 순수한 음성 신호이고, 에코 신호는 음성 처리 기기 자체가 플레이한 음성 신호로서, 스마트 하드웨어 캐비티와 실내의 반사 등 여러 에코 경로를 거친 후 마이크에 의해 수집된 에코 신호이다.
본 출원의 실시예에서의 음성 신호와 참조 신호는 모두 실제로 수집한 신호인 바, 예를 들어, 참조 신호는 "나팔에서 플레이한 소리"이고, 에코 신호는 "나팔에서 플레이한 소리가 마이크에 의해 수집된 소리"이며, 처리해야 할 음성 신호는 "사람의 소리+나팔이 플레이한 소리가 마이크에 의해 수집된 소리"이다.
일반적으로, 음성 처리 기기가 오디오를 플레이할 경우, 사용자는 인터랙션 수요가 있을 수 있어 상기 음성 처리 기기에 (표준) 음성 신호를 입력하게 된다. 이러한 경우, 음성 처리 기기의 마이크는 표준 음성 신호와 에코 신호로 조성된 혼합 음성 신호를 수집하게 되는데, 이때 만약 상기 음성 처리 기기에 M개의 마이크 어레이가 존재하게 되면 M개의 처리해야 할 음성을 획득하게 된다. 그 밖에, 만약 상기 음성 처리 기기에 N개의 스피커가 존재할 경우 수집 회로에 의해 N개의 참조 신호를 수집하여 획득할 수 있는데, 이해할 수 있는 것은, 이때 각 처리해야 할 음성 신호는 모두 N개의 참조 신호에 대응되는 에코 신호를 포함하게 된다.
단계S102, 각 음성 신호 및 참조 신호에 대해 각각 서브밴드 분해를 수행하여 각 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분을 획득한다.
구체적으로, 처리해야 할 M개의 음성 신호 및 N개의 참조 신호를 획득한 후, 각 음성 신호 및 참조 신호를 다중 채널 서브밴드 오디오 신호로 분할하고, 각 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분을 획득하여 음성 신호 및 참조 신호를 주파수 대역 특징으로 변환하는데, 전통적인 FFT(Fast Fourier Transformation, 고속 푸리에 변환) 변환과 비교하여, 서브밴드 분해는 주파수 대역 누출을 더 잘 방지하여 상이한 주파수 대역 사이의 정보가 더 독립되게 함으로써 에코 소거의 효율을 향상시키는데 유리하도록 한다.
단계S103, 에코 소거 모델을 사용하여 각 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분을 처리함으로써 N개의 참조 신호가 각 음성 신호의 각 주파수 대역에서 대응되는 아이디얼 비율 마스크(IRM)를 획득한다.
에코 소거 모델은 혼합 음성 신호 및 참조 신호의 각각의 주파수 대역 성분-아이디얼 비율 마스크(IRM)(Ideal Ratio Mask, 약칭 IRM)모델, 즉 혼합 음성 신호 및 참조 신호의 각각의 주파수 대역 성분을 입력으로 하고, 아이디얼 비율 마스크(IRM)를 출력으로 하며, 아이디얼 비율 마스크(IRM)로 표준 음성 신호가 혼합 음성 신호의 각 주파수 대역 성분에서의 백분율을 나타낸다.
구체적으로, 각 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분을 획득한 다음, 각각의 주파수 대역 성분을 에코 소거 모델에 입력하여 에코 소거 모델로 하여금 각 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분을 처리하도록 한 후, N개의 참조 신호가 각 음성 신호의 각 주파수 대역에서 대응되는 아이디얼 비율 마스크(IRM)를 출력한다.
단계S104, N개의 참조 신호가 각 음성 신호의 각 주파수 대역에서 대응되는 IRM에 기반하여 각 음성 신호의 각 주파수 대역 성분에 대해 에코 소거를 수행하여, 에코 소거 후의 M개의 음성 신호를 획득한다.
구체적으로, N개의 참조 신호가 각 음성 신호의 각 주파수 대역에서 대응되는 IRM을 획득한 후, IRM각 음성 신호의 각 주파수 대역 성분에 대해 에코 소거를 수행하고 에코 소거를 수행한 후의 M개의 음성 신호를 획득하는데, 에코 소거를 수행한 후의 음성 신호는 바로 표준 음성 신호, 즉 순수한 인식 대기 또는 처리해야 할 "소리"이다.
설명해야 할 것은, 본 출원의 실시예에서의 아이디얼 비율 마스크(IRM)가 표준 음성 신호가 혼합 음성 신호의 각 주파수 대역에서의 백분율이므로 각 주파수 대역 성분에 대해 에코 소거를 수행할 경우, 획득한 각 아이디얼 비율 마스크(IRM) 및 대응되는 혼합 음성 신호의 주파수 대역 성분을 곱하여, 즉 대응되는 성분의 에코를 소거하여 에코 소거를 수행한 후의 각각의 주파수 대역 성분을 획득하고, 에코 소거를 수행한 후의 각각의 성분을 합성한 후, 에코 소거를 수행한 후의 M개의 음성 신호를 얻는다.
예를 들어, 만약 1개의 처리해야 할 음성 신호 및 1개의 참조 신호가 존재할 경우 상기 음성 신호와 참조 신호를 획득한 후, 상기 음성 신호 및 참조 신호에 대해 각각 서브밴드 분해를 수행하여 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분을 획득하고, 각각의 주파수 대역 성분을 에코 소거 모델에 입력하여 에코 소거 모델이 처리한 다음, 상기 참조 신호가 상기 음성 신호의 제1 주파수 대역에서 대응되는 IRM1, 제2 주파수 대역에서 대응되는 IRM2, 제3 주파수 대역에서 대응되는 IRM3, 제4 주파수 대역에서 대응되는 IRM4를 출력하며, 그 다음, IRM1에 제1 주파수 대역 성분을 곱하여 제1 주파수 대역에서의 에코 신호를 소거하고, IRM2에 제2 주파수 대역 성분을 곱하여 제2 주파수 대역에서의 에코 신호를 소거하며, IRM3에 제3 주파수 대역 성분을 곱하여 제3 주파수 대역에서의 에코 신호를 소거하고, IRM4에 제4 주파수 대역 성분을 곱하여 제4 주파수 대역에서의 에코 신호를 소거하며, 마지막으로 에코 소거를 수행한 후의 4개의 주파수 대역 성분을 합성하여 에코 소거를 수행한 후의 1개의 음성 신호를 얻는다.
본 출원의 실시예에 따른 음성 처리 방법은, 실제 참조 신호가 음성 신호의 각 주파수 대역에서 대응되는 아이디얼 비율 마스크(IRM)에 기반하여 음성 신호의 각 주파수 대역 성분에 대해 에코 소거를 수행함으로써 임의의 아날로그 신호에 의거할 필요가 없어 에코 소거의 정확성과 일반화를 향상시키고 사용자의 사용 체험을 개선한다.
설명해야 할 것은, 실제 응용에서, 참조 신호와 에코 신호 사이의 관계는 애플리케이션 시나리오의 상이함에 의해 차이가 존재할 수 있는 바, 예를 들어, 가정용 기기의 참조 신호와 에코 신호의 관계는 차량용 기기에서의 참조 신호와 에코 신호 사이의 관계와 상이하다. 따라서, 단계S102에서는, 음성 처리 기기가 위치한 환경에 따라 음성 신호 및 참조 신호에 대해 서브밴드 분해를 수행할 수 있다. 예를 들어, 음성 처리 기기가 정거장 등 인파가 많은 환경에 놓일 경우, 음성 신호에서의 에코 신호는 주요하게 고 주파수 대역에 집중될 수 있으며, 음성 신호와 참조 신호를 각각 다중 채널 서브밴드 오디오 신호로 분할(즉 서브밴드 세분을 수행)할 수도 있고, 음성 신호와 참조 신호의 고주파 대역에 대해 서브밴드 세분, 저주파 대역에 대해 서브밴드 대별을 수행할 수도 있거나; 또는 음성 기기의 유형에 따라 음성 신호 및 참조 신호에 대해 서브밴드 분해를 수행할 수도 있다.
즉 본 출원의 일 실시예에서, 도 2에 도시된 바와 같이, 단계S102는 하기와 같은 단계를 포함한다.
단계S201, 음성 처리 기기의 유형에 따라 서브밴드 분해 모드를 결정한다.
서브밴드 분해 모드는 서브밴드 세분 모드, 서브밴드 대별 모드 등을 포함할 수 있다.
단계S202, 분해 모드로 각 음성 신호 및 참조 신호에 대해 각각 서브밴드 분해를 수행하여 각 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분을 획득한다.
예를 들어, 음성 처리 기기가 가정용 기기일 경우, 에코 신호는 주요하게 저주파 대역에 위치하게 되는데 이렇게 되면 각 음성 신호 및 참조 신호에 대해 각각 서브밴드 분해를 수행할 경우, 대별을 수행할 수 있고; 음성 처리 기기가 차량용 기기일 경우, 에코 신호는 주요하게 홀수 주파수 대역에 집중되는데, 이렇게 되면 각 음성 신호 및 참조 신호에 대해 각각 서브밴드 분해를 수행할 경우, 서브밴드 세분을 수행해야 한다.
이로써, 음성 처리 기기의 유형에 따라 각 음성 신호 및 참조 신호에 대해 서브밴드 분해를 수행함으로써 주파수 대역 누출을 더 방지할 뿐만 아니라 주파수 대역 사이의 신호가 더 독립되게 함으로써 에코 소거의 정확성을 향상시키고 에코 소거에 대한 불필요한 서브밴드 분해를 방지함으로써 서브밴드 분해가 더 간단하고 효과적이도록 할 수 있다.
본 출원의 실시예에서의 에코 소거 모델은 음성 신호 및 참조 신호의 각각의 주파수 대역 성분으로서, 입력 신호를 위해 아이디얼 비율 마스크(IRM)을 생성하여 사후의 에코 소거를 수행하기 편리하도록 한다는 것을 이해해야 한다. 입력 에코 소거 신호의 각각의 주파수 대역 성분에는 특이 신호가 존재할 수 있는데, 특이 신호는 모델의 처리 시간이 길어지고 수렴할 수 없는 현생을 초래하게 된다. 따라서, 이러한 현상을 방지하고 사후 데이터 처리의 편리를 위하여 에코 소거 모델의 입력 신호에 대해 정규화 처리를 수행할 수 있다.
본 출원의 일 실시예에서, 도 3에 도시된 바와 같이, 에코 소거 모델을 사용하여 각 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분을 처리하기 전에, 즉 단계S103 이전에, 하기 단계를 더 포함할 수 있다.
단계S301, 각 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분에 대해 정규화 처리를 수행한다.
구체적으로, 각 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분을 획득한 다음, 각 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분에 대해 정규화 처리를 수행하고, 그 다음 정규화 처리된 후의 각각의 주파수 대역 성분을 에코 소거 모델에 입력하여 에코 소거 모델이 처리한 후, N개의 참조 신호가 각 음성 신호의 각 주파수 대역에서 대응되는 아이디얼 비율 마스크(IRM)를 출력하여IRM에 기반하여 에코 소거를 수행한다.
설명해야 할 것은, 본 출원의 실시예에서 사용하는 참조 개수의 처리는 단지 서브밴드 분해 및 정규화 처리이므로 본 출원의 실시예의 계산의 복잡성은 참조 신호의 개수에 따라 선형으로 증가하지 않게 된다.
이로써, 각각의 주파수 대역 성분에 대해 정규화 처리를 수행한 후, 에코 소거 모델을 입력하여 특이한 주파수 대역 성분이 초래한 처리 시간이 길고 수렴할 수 없는 현상을 방지하고 모델의 처리를 편리하도록 한다.
본 출원의 일 실시예에서, 도 4에 도시된 바와 같이, 단계S103은 하기와 같은 단계를 포함할 수 있다.
단계S401, 음성 신호 및 참조 신호에서의 각 주파수 대역 성분에 대해 다중 입도 특징 추출을 수행하여 각 음성 신호 및 참조 신호에서 각 주파수 대역 성분의 특징을 획득한다.
상기 실시예에서, 에코 소거 모델은 인과 컨볼루션과 LSTM(Long Short-Term Memory, 장단기 메모리)에 기반한 신경망 모델 일 수 있다.
구체적으로, 각 음성 신호 및 참조 신호의 각각의 주파수 대역 성분을 에코 소거 모델에 입력한 후, 에코 소거 모델이 각 주파수 대역 성분에 대대 인과 컨볼루션 처리를 수행하여 각 주파수 대역 성분의 특징 추출을 구현하되, 컨볼루션 처리를 수행할 경우, 상이한 채널 수를 설치하는 것을 통해 상이한 차원의 특징 추출을 구현할 수 있다.
이렇게, 각 주파수 대역 성분에 대해 컨볼루션 처리를 수행한 후에 각 주파수 대역 성분의 특징 추출을 구현할 수 있고, 또한 현재의 에코 신호가 그 전의 참조 신호에만 의존하므로 전반적인 에코 소거 과정에 억지 지연이 존재하지 않아 음성 처리의 응답 속도를 향상시킬 수 있다.
단계S402, 각 음성 신호 및 참조 신호에서의 각 주파수 대역 성분의 특징에 대해 특징 융합을 수행하여 N개의 참조 신호가 각 음성 신호의 각 주파수 대역에서 대응되는 IRM을 획득한다.
구체적으로, 각 음성 신호 및 참조 신호에서의 각 주파수 대역 성분의 특징을 획득한 후, 에코 소거 모델은 이를 적층된 장단기 메모리(LSTM)에 이송하여 음성이 시간에서의 동적 특성을 모델링하는데 장단기 메모리(LSTM)의 출력은 학습한 고급 특징을 구성하고, 이어서 고급 특징을 마스크층에 이송하여 N개의 참조 신호가 각 음성 신호의 각 주파수 대역에서 대응되는 아이디얼 비율 마스크(IRM)를 얻으며, 그 다음, 각 아이디얼 비율 마스크(IRM) 및 대응되는 음성 신호의 주파수 대역 성분을 곱하여 주파수 대역 성분에서의 에코 신호를 소거한다.
본 출원의 실시예에 따른 음성 처리 방법을 더 뚜렷하게 설명하기 위하여 아래에서는 하나의 예시를 통해 설명한다.
도 5에 도시된 바와 같이, 두 갈래의 음성 신호와 한 갈래의 참조 신호를 획득하되, M1(t)는 제1 갈래 음성 신호, M2(t)는 제2 갈래 음성 신호이고, R(t)는 한 갈래의 참조 신호이며, M1(t), M2(t) 및 R(t)에 대해 각각 서브밴드 분해를 수행한 후 다수의 주파수 대역 성분을 획득하고, 그 다음, 주파수 대역 성분에 대해 정규화 처리를 수행하며, 정규화 처리된 후의 각각의 주파수 대역 성분을 에코 소거 모델에 입력한 후, 에코 소거 모델이 각 주파수 대역 성분에 대대 인과 컨볼루션 처리를 수행하여 각 주파수 대역 성분의 특징 추출을 구현하되, 컨볼루션 처리를 수행할 경우, 상이한 채널 수를 설치하는 것을 통해 상이한 창원의 특징 추출을 구현할 수 있는 바, 예를 들어, 도 5에서의 4@1*3이 나타내고자 하는 것은: 채널 수를 3으로 설치하고, 컨볼루션 커널은 1*3이며, 상기 컨볼루션 커널은 현재의 오디오 프레임, 현재의 오디오 프레임과 인접하는 앞의 두 오디오 프레임에 대해서만 컨볼루션 처리를 수행하며 출력 채널 수는 4라는 것이다.
컨볼루션 처리를 수행한 후, 주파수 대역에 의해 LSTM을 공유하고, 컨볼루션에 따라 출력한 채널 수에 대해 정규화 처리를 수행하되, 각각의 컨볼루션 층의 상이한 주파수 대역 사이는 완전이 공유하여 참조 신호(R(t))가 제1 갈래 참조 신호M1(t)에서 대응되는 아이디얼 비율 마스크(Mask1) 및 참조 신호R(t)가 제2 갈래 참조 신호M2(t)에서 대응되는 아이디얼 비율 마스크(Mask2)를 획득하며, Mask1에 M1(t)를 곱하여 M1(t)에서의 에코 신호를 소거하고, Mask2에 M2(t)를 곱하여 M2(t)에서의 에코 신호를 소거하여 에코 소거를 수행한 후의 두 갈래의 음성 신호를 획득한다.
이로써, 에코 소거 모델을 사용하여 각 주파수 대역 성분에 대해 다중 입도 특징 추출을 수행함으로써 주파수 대역특징을 추출한 후, 각 주파수 대역특징에 대해 융합 처리를 수행하고 참조 신호가 각 음성 신호의 각 주파수 대역에서의 IRM을 획득하여 에코 소거를 수행할 경우, 모델 가중치 파라미터가 변하지 않도록 유지하되, 에코가 음악, 사운드 아니면 TTS(Text To Speech, 텍스트로부터 음성)든지 막론하고 모두 에코 소거 모델이 출력한 아이디얼 비율 마스크(IRM)에 따라 에코를 소거함으로써 에코 소거의 안정성을 담보한다.
설명해야 할 것은, 본 출원의 실시예에 따른 신경망의 에코 소거 모델에 기반하여 직접 음성 인식 모델, 음성 웨이크업 모델의 전단에 액세스하고 단으로부터 단으로의 연합 트레이닝을 수행함으로써 역전파의 구배가 모델 가중치를 조절하는데 유리하고, 나아가 내부 소음에서의 음성 인식, 웨이크업의 정확률을 향상시킨다. 즉, 본 출원의 일 실시예에서, 도 6에 도시된 바와 같이, 에코 소거를 수행한 후의 M개의 음성 신호를 획득한 후, 즉 단계S104 다음에 하기와 같은 단계를 포함할 수 있다.
단계S601, M개의 음성 신호를 음성 인식 모델에 입력하여 M개의 음성 신호에 대응되는 인식 결과를 획득한다.
음성 인식 모델은 음성 신호를 입력으로 하고 인식 결과를 출력으로 하는 신경망 모델일 수 있다. 설명해야 할 것은, 에코 신호를 포함하지 않는 다수의 음성 신호를 샘플링 신호로 하여 학습함으로써 음성 인식 모델을 트레이닝하여 얻을 수 있다.
구체적으로, 에코 소거를 수행한 후의 음성 신호, 즉 표준 음성 신호를 획득한 후, 이를 음성 인식 모델에 입력하여 음성 인식 모델이 자체 학습을 통해 상기 표준 음성 신호에 대응되는 음성 인식 결과를 출력한다.
예를 들어, 에코 소거를 수행한 후의 음성 신호가 "오늘의 날씨는 몇도"이면 음성 인식 모델이 출력한 인식 결과는 "오늘의 일기예보를 방송"이므로 음성 처리 기기는 이의 스피커를 제어하여 "오늘의 날씨는 24섭씨도"인 오디오 신호를 방송하도록 한다.
본 출원의 실시예에 따른 음성 처리 방법은, 기기가 내부 소음 시나리오에 놓일 때의 웨이크업 기능에 사용될 수도 있는 바, 즉 에코 소거를 수행한 후의 음성 신호, 즉 표준 음성 신호를 획득한 다음 이를 음성 웨이크업 모델에 입력하여 내부 소음 웨이크업 기능을 구현할 수 있다.
구체적으로 말하면, 음성 처리 기기 자체가 음성 방송 시나리오에 놓일 경우, 만약 기기가 사용자의 웨이크업 음성 신호(에코 신호를 휴대)를 수신하게 되면 우선 현재 실제 방송한 참조 신호를 획득하고, 그 다음 사용자의 웨이크업 음성 신호 및 참조 신호에 대해 서브밴드 분해를 수행한 후, 각각의 주파수 대역 성분을 획득하며, 각각의 주파수 대역 성분에 대해 정규화 처리를 수행한 다음 에코 소거 모델을 사용하여 각각의 주파수 대역 성분을 처리하여 참조 신호가 웨이크업 음성 신호의 각 주파수 대역에서 대응되는 아이디얼 비율 마스크(IRM)를 획득하고, 그 다음 상기 IRM에 웨이크업 음성 신호에 대응되는 주파수 대역 성분을 곱하여 에코 소거를 수행한 후의 다수의 주파수 대역 성분을 얻을 수 있으며, 에코 소거를 수행한 후의 다수의 주파수 대역 성분을 합성 처리하여 에코를 소거한 후의 하나의 웨이크업 음성 신호를 얻고, 음성 처리 기기는 에코 소거를 수행한 후의 웨이크업 음성에 따라 상응한 응답을 수행한다.
이로써, 신경망에 기반한 에코 소거 모델은 직접 음성 인식 모델, 음성 웨이크업 모델의 전단에 액세스하여 단으로부터 단으로의 연합 트레이닝을 수행함으로써 내부 소음에서의 음성 인식, 음성 웨이크업의 정확률을 향상시킬 수 있고, 내부 소음에서의 웨이크업, 내부 소음에서의 음성 검출 등 시나리오에서의 모델의 성능에 보류 공간을 향상시킨다.
본 출원의 실시예는 음성 처리 모델의 생성 방법을 더 제공하는데, 도 7은 본 출원의 실시예에서 제공하는 한가지 음성 처리 모델의 생성 방법의 흐름도이다.
도 7에 도시된 바와 같이, 상기 음성 처리 모델의 생성 방법은 하기와 같은 단계를 포함한다.
단계S701, 트레이닝 데이터 세트를 획득하되, 트레이닝 데이터 세트의 각 그룹의 트레이닝 데이터에는 참조 신호, 에코를 휴대한 음성 신호 및 라벨 아이디얼 비율 마스크(IRM)가 포함된다.
라벨 IRM은 실제 표준 음성 신호 및 에코를 휴대한 음성 신호에 따라 얻을 수도 있고 표준 음성 신호, 참조 신호 및 대응되는 에코 신호에 따라 얻을 수도 있다. 표준 음성 신호는 음성 처리 기기가 인식하거나 처리해야 할 순수한 음성 신호이다.
단계S702, 각 그룹의 참조 신호 및 에코를 휴대한 음성 신호에 대해 각각 서브밴드 분해를 수행하여 각 그룹의 참조 신호 및 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분을 획득한다.
단계는 단계S102와 유사하므로 중복을 방지하기 위하여 여기서 더 이상 설명하지 않는다.
단계S703, 초기 신경망 모델을 사용하여 각 그룹의 참조 신호 및 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분을 처리함으로써 각 그룹의 참조 신호가 에코를 휴대한 음성 신호의 각 주파수 대역에서 대응되는 예측 IRM을 획득한다.
이해할 수 있는 것은, 아이디얼 비율 마스크(IRM)가 나타내는 것은 표준 음성 신호가 에코를 휴대한 음성 신호에서의 백분율이므로 단지 참조 신호 및 에코를 휴대한 음성 신호를 이미 알고 있는 경우, 대응되는 IRM만 예측할 수 있다.
구체적으로, 각 그룹의 참조 신호 및 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분을 획득한 후, 각각의 주파수 대역 성분을 초기 신경망 모델을 입력하여 초기 신경망 모델로 하여금 예측 IRM을 출력하도록 할 수 있다.
단계S704, 각 그룹의 예측 IRM 및 대응되는 라벨 IRM의 차이에 따라 초기 신경망 모델에 대해 역구배 전파 보정을 수행함으로써 트레이닝된 음성 처리 모델을 생성한다.
설명해야 할 것은, 초기 신경망 모델은 참조 신호 및 에코를 휴대한 음성 신호를 입력으로 하고 예측 IRM을 출력으로 하는 신경망 모델로서, 이는 예측 IPM만 출력할 수 있는 바, 참조 신호 및 에코의 음성 신호에 대응되는 실제 IPM을 출력하도록 담보하기 위하여 본 출원의 실시예는 표준 음성 신호와 결부하여 이를 보정함으로써 참조 신호, 에코를 휴대한 음성 신호를 입력으로 하고 실제 아이디얼 비율 마스크(IRM)를 출력으로 하는 음성 처리 모델을 트레이닝하도록 한다.
구체적으로, 단계S701 내지 S703을 수행한 후, 여러 그룹의 참조 신호 및 에코를 휴대한 음성 신호에 대응되는 라벨 IRM과 예측 IRM을 얻을 수 있고, 양자 사이의 평균 제곱 오차(Mean Square Error, 약칭 MSE)를 계산하여 평균 제곱 오차에 의해 손실 값을 판정할 수 있으며 역구배 전파를 통해 구배 벡터를 결정하고 구배 벡터에 의해 각 가중치를 조절하여 평균 제곱 오차가 0에 가깝도록 하거나 수렴되도록 함으로써 초기 네트워크 모델의 기초상에 트레이닝된 음성 처리 모델을 생성하도록 할 수 있는데, 여기서 평균 제곱 오차가 작을수록 생성된 음성 처리 모델의 정확도가 더 높다.
설명해야 할 것은, 본 출원의 실시예에서의 음성 처리 모델은 처리해야 할 음성 신호 및 참조 신호를 입력으로 하고 실제 아이디얼 비율 마스크(IRM)를 출력으로 하는 신경망 모델이다. 따라서, 음성 처리 모델에 대해 에코 소거를 수행, 즉 음성 처리를 수행할 때 처리해야 할 음성 신호 및 참조 신호를 음성 처리 모델에 입력하여 음성 처리 모델로 하여금 입력과 대응되는 실제 아이디얼 비율 마스크(IRM)를 출력하도록 한 다음, 음성 처리 모델이 출력한 IRM에 처리해야 할 음성 신호를 곱하여 에코 소거를 수행한 후의 음성 신호, 즉 표준 음성 신호를 얻을 수 있다.
상기 설명에 기반하여 알 수 있다 시피, 본 출원은 초기 신경망 모델을 트레이닝하여 음성 처리 모델을 얻고, 음성 처리 모델을 통해 음성 신호에서의 에코 소거를 수행함으로써 에코 신호를 소거한 후의 음성 신호를 음성 인식 모델 또는 음성 웨이크업 모델에 입력하여 음성 인식 모델이 대응되는 인식 결과를 출력하도록 할 수 있다. 이 외에, 초기 신경망 모델은 음성 인식 모델 또는 음성 웨이크업 모델과 직렬한 후, 통일적으로 음성 처리 및 인식의 모델 트레이닝을 수행하여 상기 모델을 통해 대응되는 인식 결과를 출력한다.
본 출원의 실시예에 따른 음성 처리 모델의 생성 방법은, 실제 참조 신호, 에코를 휴대한 음성 신호 및 라벨 아이디얼 비율 마스크(IRM)에 기반하여 음성 처리 모델을 생성하고, 임의의 아날로그 신호에 의거할 필요가 없어 음성 처리 모델의 정확성과 일반화를 향상시키고 사용자의 사용 체험을 개선한다.
본 출원의 실시예에서의 트레이닝 데이터 세트의 각 그룹의 트레이닝 데이터에는 참조 신호, 에코를 휴대한 음성 신호 및 라벨 아이디얼 비율 마스크(IRM)가 포함되고, 라벨 IRM은 실제 표준 음성 신호 및 에코를 휴대한 음성 신호 또는 표준 음성 신호, 참조 신호 및 대응되는 에코 신호에 따라 얻은 것이다. 따라서, 아래 실시예에 의해 트레이닝 데이터 세트를 획득할 수 있다.
본 출원의 일 실시예에서, 도 8에 도시된 바와 같이, 단계S701는 하기와 같은 단계를 포함할 수 있다.
단계S801, 여러 그룹의 표준 음성 신호, 참조 신호 및 대응되는 에코 신호를 획득한다.
본 출원의 실시예에서는, 오디오를 플레이하는 음성 처리 기기를 조용한 환경에 안착할 수 있는데 이렇게 되면 기기의 각 마이크는 자체가 플레이한 참조 신호의 에코 신호를 수신하게 되며, 이로써 여러 그룹의 참조 신호 및 대응되는 에코 신호를 획득할 수 있다. 다음, 다수의 표준 음성 신호를 획득할 수 있다.
단계S802, 각 그룹의 에코 신호와 표준 음성 신호를 융합하여 에코를 휴대한 음성 신호를 생성한다.
구체적으로, 여러 그룹의 표준 음성 신호, 참조 신호 및 대응되는 에코 신호를 획득한 후, 생성된 에코를 휴대한 음성 신호가 강한 일반화 능력을 가지도록 하기 위하여 음성 처리 기기가 위치한 환경, 음성 처리 기기의 유형에 의거하여 각 그룹의 에코 신호와 표준 음성 신호를 융합하여 일정한 신호 대 잡음비에 따라 각 그룹의 에코 신호와 표준 음성 신호를 융합할 수도 있다.
즉, 본 출원의 하나의 예시에서, 상이한 신호 대 잡음비에 따라 각 그룹의 에코 신호와 표준 음성 신호를 융합하여 여러 그룹의 에코를 휴대한 음성 신호를 생성한다.
신호 대 잡음비는 에코를 휴대한 음성 신호에서의 표준 음성 신호와 에코 신호의 비의 값을 나타내는 바, 바꾸어 말하면, 신호 대 잡음비가 상이할 경우 에코 신호가 에코를 휴대한 음성 신호에서의 백분율도 상이하다.
음성 처리 모델의 일반화 능력을 향상시키기 위하여 상이한 신호 대 잡음비를 미리 설정함으로써 상이한 신호 대 잡음비에 따라 각 그룹의 에코 신호와 표준 음성 신호를 융합하여 여러 그룹의 신호 대 잡음비가 상이한 에코를 휴대한 음성 신호를 생성함으로써 에코를 휴대한 음성 신호의 일반화를 향상시키고, 나아가 음성 처리 모델의 일반화 성능을 향상시킬 수 있다.
단계S803, 각 그룹의 표준 음성 신호 및 에코를 휴대한 음성 신호에 대해 서브밴드 분해를 수행하여 각 그룹의 표준 음성 신호 및 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분을 획득한다.
단계S804, 각 그룹의 표준 음성 신호 및 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분에 따라 각 그룹의 에코를 휴대한 음성 신호에 대응되는 라벨 IRM을 결정한다.
더 나아가, 도 9에 도시된 바와 같이, 단계S804는 하기와 같은 단계를 포함할 수 있다.
단계S901, 각 그룹의 표준 음성 신호 및 에코를 휴대한 음성 신호에서의 각 주파수 대역 성분을 모듈로(Modulo)하여 각 그룹의 표준 음성 신호 및 에코를 휴대한 음성 신호에서의 각 주파수 대역 성분의 진폭을 획득한다.
단계S902, 표준 음성 신호에서의 각각의 주파수 대역 성분의 진폭과 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분의 진폭 사이의 비의 값에 따라 각 그룹의 에코를 휴대한 음성 신호에 대응되는 라벨 IRM을 결정한다.
구체적으로 말하면, 각 그룹의 표준 음성 신호 및 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분을 획득한 후, 각 주파수 대역 성분을 모듈로하여 각 주파수 대역 성분의 진폭을 획득하며, 그 다음, 각 표준 음성 신호에서의 각 주파수 대역 성분의 진폭, 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분의 진폭 사이의 비의 값을 획득하여 다수의 비의 값을 얻으며, 각 그룹의 표준 음성 신호의 각각의 주파수 대역 성분의 진폭이 에코를 휴대한 음성 신호의 각각의 주파수 대역 성분의 진폭 사이의 다수의 비의 값을 융합 처리하여 각 표준 음성 신호가 각 에코를 휴대한 음성 신호에서의 라벨 IRM을 획득하며, 이로써 트레이닝을 위한 여러 그룹의 실제 라벨 IRM을 얻는다.
바꾸어 말하면, 하나의 에코를 휴대한 주파수 대역 성분에 대하여, 라벨 IRM*에코를 휴대한 주파수 대역 성분의 진폭=표준 주파수 대역 성분의 진폭이다.
이로써, 실제 표준 음성 신호 및 에코를 휴대한 음성 신호의 진폭에 기반하여 에코를 휴대한 음성 신호에 대응되는 라벨 IRM을 결정함으로써 음성 처리 모델을 생성하는데, 이는 신경망이 진폭 스펙트럼의 에코 소거에 더 집중하도록 하는데 유리하다.
본 출원의 실시예에서의 초기 신경망 모델은 그룹의 참조 신호 및 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분을 입력 신호로 하고 예측 IRM을 출력으로 하는 모델로서, 출력된 예측 IRM은 음성 처리 모델의 생성에 사용된다는 것을 이해해야 한다. 초기 신경망 모델을 입력하는 각각의 주파수 대역 성분에는 특이 신호가 존재할 수 있는데, 특이 신호는 모델의 처리 시간이 길어지고 수렵하기 어려운 현상을 초래할 수 있다. 따라서, 이러한 현상이 나타나는 것을 방지하고 사후 데이터 처리의 편리를 위하여 초기 신경망 모델의 입력 신호에 대해 정규화 처리를 수행할 수 있다.
본 출원의 일 실시예에서, 도 10에 도시된 바와 같이, 초기 신경망 모델을 사용하여 각 그룹의 참조 신호 및 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분을 처리하기 전에, 즉 단계S703 이전에 아래 단계를 더 포함할 수 있다.
단계S1001, 각 그룹의 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분에 대해 정규화 처리를 수행한다.
구체적으로, 각 그룹의 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분을 획득한 후, 각 그룹의 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분에 대해 정규화 처리를 수행하고, 그 다음 정규화 처리를 수행한 후의 각각의 주파수 대역 성분초기 신경망 모델을 입력하여 초기 신경망 모델로 하여금 처리를 수행한 후 각 그룹의 에코를 휴대한 음성 신호에 대응되는 라벨 IRM을 출력하며 이를 음성 처리 모델의 생성에 사용한다.
이로써, 각각의 주파수 대역 성분에 대해 정규화 처리를 수행한 후, 초기 신경망 모델을 입력하여 특이 주파수 대역 성분이 초래한 처리 시간이 너무 길고 수렴할 수 없는 현상을 방지하고 모델의 처리를 편리하게 한다.
본 출원의 실시예는 음성 처리 장치를 더 제공하는데, 도 11은 본 출원의 실시예에서 제공하는 한가지 음성 처리 장치의 구조 개략도이다.
도 11에 도시된 바와 같이, 상기 음성 처리 장치(100)는 제1 획득 모듈(110), 제1 처리 모듈(120), 제2 처리 모듈(130) 및 제3 처리 모듈(140)을 포함한다.
제1 획득 모듈(110)은 처리해야 할 M개의 음성 신호 및 N개의 참조 신호를 획득하되, M와 N은 각각 1보다 크거나 같은 자연수이고; 제1 처리 모듈(120)은 각 음성 신호 및 참조 신호에 대해 각각 서브밴드 분해를 수행하여 각 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분을 획득하며; 제2 처리 모듈(130)은 에코 소거 모델을 사용하여 각 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분을 처리함으로써 N개의 참조 신호가 각 음성 신호의 각 주파수 대역에서 대응되는 아이디얼 비율 마스크(IRM)를 획득하고; 제3 처리 모듈(140)은 N개의 참조 신호가 각 음성 신호의 각 주파수 대역에서 대응되는 IRM에 기반하여 각 음성 신호의 각 주파수 대역 성분에 대해 에코 소거를 수행하여, 에코 소거 후의 M개의 음성 신호를 획득한다.
본 출원의 일 실시예에서, 제1 처리 모듈은 구체적으로, 음성 처리 기기의 유형에 따라 서브밴드 분해 모드를 결정하고; 분해 모드로 각 음성 신호 및 참조 신호에 대해 각각 서브밴드 분해를 수행한다.
본 출원의 일 실시예에서, 음성 처리 장치(100)는, 에코 소거 모델을 사용하여 각 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분을 처리하기 전에, 각 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분에 대해 정규화 처리를 수행하는 제4 처리 모듈을 더 포함한다.
본 출원의 일 실시예에서, 제2 처리 모듈(130)은 특징 추출 유닛과 특징 융합 유닛을 포함할 수 있다.
특징 추출 유닛은 음성 신호 및 참조 신호에서의 각 주파수 대역 성분에 대해 다중 입도 특징 추출을 수행하여 각 음성 신호 및 참조 신호에서 각 주파수 대역 성분의 특징을 획득하고; 특징 융합 유닛은 각 음성 신호 및 참조 신호에서 각 주파수 대역 성분의 특징에 대해 특징 융합을 수행하여 N개의 참조 신호가 각 음성 신호의 각 주파수 대역에서 대응되는 IRM을 획득한다.
본 출원의 일 실시예에서, 음성 처리 장치(100)는, 에코 소거를 수행한 후의 M개의 음성 신호를 획득한 후, M개의 음성 신호를 음성 인식 모델에 입력하여 M개의 음성 신호에 대응되는 인식 결과를 획득하는 입력 모듈을 더 포함한다.
설명해야 할 것은, 본 출원의 실시예에 따른 음성 처리 장치의 기타 구체적인 실시형태는 상술한 음성 처리 방법의 구체적인 실시형태를 참조할 수 있는 바, 중복을 방지하기 위하여 여기서 더 이상 설명하지 않는다.
본 출원의 실시예에 따른 음성 처리 장치는, 실제 참조 신호가 음성 신호의 각 주파수 대역에서 대응되는 아이디얼 비율 마스크(IRM)에 기반하여 음성 신호의 각 주파수 대역 성분에 대해 에코 소거를 수행함으로써 임의의 아날로그 신호에 의거할 필요가 없어 에코 소거의 정확성과 일반화를 향상시키고 사용자의 사용 체험을 개선한다.
상기 실시예를 구현하기 위하여 본 출원의 실시예는 음성 처리 모델의 생성 장치를 더 제공하는데, 도 12는 본 출원의 실시예에서 제공하는 한가지 음성 처리 모델의 생성 장치의 구조 개략도이다.
도 12에 도시된 바와 같이, 상기 음성 처리 모델의 생성 장치(200)은 제2 획득 모듈(210), 제5 처리 모듈(220), 제6 처리 모듈(230) 및 제7 처리 모듈(240)을 포함한다.
제2 획득 모듈(210)은 트레이닝 데이터 세트를 획득하되, 트레이닝 데이터 세트의 각 그룹의 트레이닝 데이터에는 참조 신호, 에코를 휴대한 음성 신호 및 라벨 아이디얼 비율 마스크(IRM)가 포함되고; 제5 처리 모듈(220)은 각 그룹의 참조 신호 및 에코를 휴대한 음성 신호에 대해 각각 서브밴드 분해를 수행하여 각 그룹의 참조 신호 및 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분을 획득하며; 제6 처리 모듈(230)은 초기 신경망 모델을 사용하여 각 그룹의 참조 신호 및 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분을 처리함으로써 각 그룹의 참조 신호가 에코를 휴대한 음성 신호의 각 주파수 대역에서 대응되는 예측 IRM을 획득하고; 제7 처리 모듈(240)은 각 그룹의 예측 IRM 및 대응되는 라벨 IRM의 차이에 따라 초기 신경망 모델에 대해 역구배 전파 보정을 수행함으로써 트레이닝된 음성 처리 모델을 생성한다.
본 출원의 일 실시예에서, 제2 획득 모듈(210)은 구체적으로, 여러 그룹의 표준 음성 신호, 참조 신호 및 대응되는 에코 신호를 획득하고; 각 그룹의 에코 신호와 표준 음성 신호를 융합하여 에코를 휴대한 음성 신호를 생성하며; 각 그룹의 표준 음성 신호 및 에코를 휴대한 음성 신호에 대해 서브밴드 분해를 수행하여 각 그룹의 표준 음성 신호 및 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분을 획득하고; 각 그룹의 표준 음성 신호 및 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분에 따라 각 그룹의 에코를 휴대한 음성 신호에 대응되는 라벨 IRM을 결정한다.
본 출원의 일 실시예에서, 제2 획득 모듈(210)은 구체적으로, 상이한 신호 대 잡음비에 따라 각 그룹의 에코 신호와 표준 음성 신호를 융합하여 여러 그룹의 에코를 휴대한 음성 신호를 생성한다.
본 출원의 일 실시예에서, 제2 획득 모듈(210)은 구체적으로, 각 그룹의 표준 음성 신호 및 에코를 휴대한 음성 신호에서의 각 주파수 대역 성분을 모듈로하여 각 그룹의 표준 음성 신호 및 에코를 휴대한 음성 신호에서의 각 주파수 대역 성분의 진폭을 획득하고; 표준 음성 신호에서의 각각의 주파수 대역 성분의 진폭과 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분의 진폭 사이의 비의 값에 따라 각 그룹의 에코를 휴대한 음성 신호에 대응되는 라벨 IRM을 결정하는데 더 사용된다.
본 출원의 일 실시예에서, 음성 처리 모델의 생성 장치는, 각 그룹의 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분에 대해 정규화 처리를 수행하는 제8 처리 모듈을 더 포함할 수 있다.
설명해야 할 것은, 본 출원의 실시예에 따른 음성 처리 모델의 생성 장치의 구체적인 실시형태는 상술한 음성 처리 모델의 생성 방법의 구체적인 실시형태를 참조할 수 있으므로 여기서 더 이상 설명하지 않는다.
본 출원의 실시예에 따른 음성 처리 모델의 생성 장치는 실제 참조 신호, 에코를 휴대한 음성 신호 및 라벨 아이디얼 비율 마스크(IRM)에 기반하여 음성 처리 모델을 생성하므로 임의의 아날로그 신호에 의거할 필요가 없어 음성 처리 모델의 정확성과 일반화를 향상시키고 사용자의 사용 체험을 개선한다.
본 출원의 실시예에 따르면, 본 출원은 음성 처리 방법 또는 음성 처리 모델의 생성 방법의 전자 기기와 판독 가능 저장매체를 더 제공한다. 이하 도 13과 결부하여 설명한다. 본 출원의 실시예에 따르면, 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공한다. 당해 컴퓨터 프로그램중의 명령이 실행될 경우, 상기 음성 처리 방법 또는 상기 음성 처리 모델의 생성 방법이 실행된다.
도 13에 도시된 바와 같이, 이는 본 출원의 실시예에 따른 음성 처리 방법 또는 음성 처리 모델의 생성 방법의 전자 기기의 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 벤치, 개인용 정보 단말기, 서버, 블레이드 서버, 메인 프레임 컴퓨터 및 다른 적합한 컴퓨터 등의 다양한 형태의 디지털 컴퓨터를 가리킨다. 전자 기기는 또한 개인용 정보 단말기, 셀룰러 폰, 스마트 폰, 웨어러블 장치 및 다른 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수 있다. 본 명세서에 도시된 구성 요소, 그들의 연결 및 관계 및 그 기능은 단지 예시에 불과하며, 본 명세서에 기술되거나 및/또는 청구된 구현을 한정하도록 의도되지 않는다.
도 13에 도시된 바와 같이, 상기 전자 기기는 하나 이상의 프로세서(1310), 메모리(1320) 및 고속 인터페이스 및 저속 인터페이스를 포함하는 다양한 구성 요소를 연결하기 위한 인터페이스를 포함한다. 다양한 구성 요소는 서로 다른 버스를 사용하여 서로 연결되며 마더 보드에 설치되거나 필요에 따라 다른 방식으로 설치될 수 있다. 프로세서는 외부 입력/출력 장치(예를 들어, 인터페이스에 연결된 디스플레이 장치)에 GUI의 그래픽 정보를 표시하기 위해 메모리에 저장된 명령을 포함하여 전자 기기 내에서 실행되는 명령을 처리할 수 있다. 다른 실시형태에서, 필요한 경우, 다수의 프로세서 및/또는 다수의 버스를 다수의 메모리와 함께 사용할 수 있다. 마찬가지로, 여러 전자 기기를 연결할 수 있고, 각 장치는 단지 몇 가지 필요한 기능(예를 들어, 서버 배열, 블레이드 서버 그룹 또는 다중 프로세서 시스템)을 제공할 수 있다. 도 13은 프로세서(1301)가 하나인 경우를 예를 들어 설명한다.
메모리(1320)는 본 출원에 의해 제공된 비일시적 컴퓨터 판독 가능 저장 매체이다. 적어도 하나의 프로세서에 의해 본 출원의 음성 처리 방법 또는 음성 처리 모델의 생성 방법을 수행하도록 상기 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장된다. 본 출원의 비 일시적 컴퓨터 판독 가능 저장 매체에는 컴퓨터로 하여금 본 출원의 음성 처리 방법 또는 음성 처리 모델의 생성 방법을 실행하게 하는 컴퓨터 명령어가 저장된다.
메모리(1320)는 비 일시적 컴퓨터 판독 가능 저장 매체로서, 비 일시적 소프트웨어 프로그램, 비 일시적 컴퓨터 실행 가능 프로그램, 본 출원의 실시예의 음성 처리 방법에 대응하는 프로그램 명령/모듈과 같은 모듈(예를 들어, 도 11에 도시된 제1 획득 모듈(110), 제1 처리 모듈(120), 제2 처리 모듈(130) 및 제3 처리 모듈(140), 또는 도 12에 도시된 제2 획득 모듈(210), 제5 처리 모듈(220), 제6 처리 모듈(230) 및 제7 처리 모듈(240))을 저장하기 위해 사용될 수 있다. 프로세서(1310)는 메모리(1320)에 저장된 비 일시적 소프트웨어 프로그램, 명령 및 모듈을 실행하여 서버의 다양한 기능적 애플리케이션 및 데이터 처리를 실행한다. 다시 말하면, 상기 방법 실시예의 음성 처리 방법 또는 음성 처리 모델의 생성 방법을 구현한다.
메모리(1320)는 프로그램을 저장하기 위한 영역 및 데이터를 저장하기 위한 영역을 포함할 수 있고, 여기서 프로그램을 저장하기 위한 영역은 운영 체제 및 적어도 하나의 기능에 필요한 응용 프로그램이 저장될 수 있고; 데이터를 저장하기 위한 영역에는 음성 처리에 따른 전자 기기를 사용하여 생성된 데이터가 저장될 수 있다. 또한, 메모리(1320)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 또한 자기 디스크 저장 장치, 플래시 메모리 장치 또는 다른 비 일시적 솔리드 스테이트 저장 장치와 같은 적어도 하나의 비 일시적 메모리를 포함할 수 있다. 일부 실시예에서, 메모리(1320)는 프로세서(1310)에 대해 원격으로 설정된 메모리를 선택적으로 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 음성 처리 방법 또는 음성 처리 모델의 생성 방법에 따른 전자 기기에 연결될 수 있다. 상기 네트워크의 사례는 인터넷, 인트라넷, 근거리 통신망, 이동 통신망 및 이들의 조합을 포함하지만 이에 한정되지는 않는다.
음성 처리 방법 또는 음성 처리 모델의 생성 방법을 수행하는 전자 기기는 입력 장치(1330) 및 출력 장치(1340)를 더 포함할 수 있다. 프로세서(1310), 메모리(1320), 입력 장치(1330) 및 출력 장치(1340)는 버스를 통해 연결되거나 또는 다른 방식으로 연결될 수 있으며, 도 13은 버스를 통한 연결을 예시한 것이다.
입력 장치(1330)는 입력된 숫자 또는 문자 정보를 수신할 수 있고, 음성 처리 방법 또는 음성 처리 모델의 생성 방법에 따른 전자 기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 생성할 수 있으며, 터치 스크린, 키 패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나 이상의 마우스 버튼, 트랙 볼, 조이스틱 및 기타 입력 장치일 수 있다. 출력 장치(1340)는 디스플레이 장치, 보조 조명 장치(예를 들어, LED), 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 상기 디스플레이 장치는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 플라즈마 디스플레이를 포함할 수 있지만, 이에 한정되지는 않는다. 일부 실시형태에서, 디스플레이 장치는 터치 스크린일 수 있다.
본 명세서에 설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로, 집적 회로 시스템, 전용 ASIC(특정 용도 지향 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에 의해 구현될 수 있다. 이러한 다양한 실시형태는 하나 이상의 컴퓨터 프로그램에 의해 실시될 수 있고, 상기 하나 이상의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서의 프로그램 가능 시스템에 의해 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 전용 또는 범용 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신하며, 데이터 및 명령을 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치에 전송할 수 있다.
이러한 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 응용 프로그램 또는 코드라고도 함)에는 프로그램 가능 프로세서의 기계 명령어가 포함되고, 고급 프로세스 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리 언어/기계어를 사용하여 이러한 컴퓨터 프로그램을 구현할 수 있다. 본 명세서에서 사용되는 용어 "기계 판독 가능 매체” 및 "컴퓨터 판독 가능 매체”는 프로그램 가능 프로세서에 기계 명령 및/또는 데이터를 제공하기 위해 사용되는 임의의 컴퓨터 프로그램 제품, 장비 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치(PLD))를 가리키며, 기계 판독 가능 신호로서 기계 명령을 수신하는 기계 판독 가능 매체를 포함한다. 용어 "기계 판독 가능 신호”는 기계 명령 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 지칭한다.
사용자와의 인터랙션을 제공하기 위해, 여기에 설명된 시스템 및 기술을 컴퓨터에서 구현할 수 있다. 컴퓨터는 사용자에게 정보를 표시하기 위한 디스플레이 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터)와 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙 볼)를 포함하고, 사용자는 상기 키보드 및 상기 포인팅 장치를 통해 정보를 입력하여 컴퓨터에 제공할 수 있다. 다른 종류의 장치를 사용하여 사용자와의 인터랙션을 제공할 수도 있다. 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 감각 피드백(예를 들어, 시각적 피드백, 청각 피드백 또는 촉각 피드백) 일 수 있고, 임의의 형태(음성 입력, 스피치 입력 또는 촉각 입력 포함)로 사용자에 의해 발송된 정보를 수신할 수 있다.
본 명세서에 설명된 시스템 및 기술은 백 엔드 구성 요소(예를 들어, 데이터 서버)를 포함하는 컴퓨팅 시스템 또는 미들웨어 구성 요소(예를 들어, 애플리케이션 서버)를 포함하는 컴퓨팅 시스템 또는 프론트 엔드 구성 요소(예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저를 가진 사용자 컴퓨터일 수 있으며, 사용자는 그래픽 사용자 인터페이스 또는 웹 브라우저를 통해 여기에 설명된 시스템 및 기술의 실시형태와 인터랙션 할 수 있음)를 포함하는 컴퓨팅 시스템 또는 이러한 백 엔드 구성 요소, 미들웨어 구성 요소 또는 프론트 엔드 구성 요소의 임의의 조합을 포함하는 컴퓨팅 시스템에 의해 구현될 수 있다. 시스템의 구성 요소는 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)에 의해 상호 연결될 수 있다. 통신 네트워크의 예로는 근거리 통신망(LAN), 광역 통신망(WAN) 및 인터넷이 포함될 수 있다.
컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며, 일반적으로 통신 네트워크를 통해 인터랙션 한다. 클라이언트와 서버 간의 관계는 해당 컴퓨터에서 실행되고 서로 클라이언트-서버 관계가 있는 컴퓨터 프로그램에 의해 발생된다. 서버는 클라우드 서버 일 수 있고 클라우드 컴퓨팅 서버 또는 클라우드 호스트라고도 하는 바, 이는 클라우드 컴퓨팅 서비스 시스템에서의 하나의 호스트 제품으로서 전통적인 물리 호스트와 VPS(Virtual Private Server, 가상 전용 서버) 서비스에서 관리 난이도가 크고 서비스 확장성이 약한 단점을 해결한다.
본 출원의 실시예의 기술적 해결수단에 따르면, 실제 참조 신호가 음성 신호의 각 주파수 대역에서 대응되는 아이디얼 비율 마스크(IRM)에 기반하여 음성 신호의 각 주파수 대역 성분에 대해 에코 소거를 수행함으로써 임의의 아날로그 신호에 의거할 필요가 없어 더 나아가, 에코 소거를 수행하기 위한 모델은, 실제 참조 신호, 에코를 휴대한 음성 신호 및 라벨 아이디얼 비율 마스크(IRM)에 기반하여 생성된 것으로서, 임의의 아날로그 신호에 의거할 필요도 없어 에코 소거의 정확성과 일반화를 향상시키고 사용자의 사용 체험을 개선한다. 본 명세서의 설명에서, 용어 "제1", "제2"는 단지 설명의 목적으로만 사용되고 상대적 중요성을 나타내거나 암시하거나 또는 나타내는 기술 특징의 개수를 은연중 나타내는 것으로 이해되어서는 아니된다. 이로써, "제1", "제2"로 한정되는 특징은 적어도 하나의 상기 특징을 명시적 또는 은연중 포함할 수 있다. 본 출원의 설명에서, 달리 정의되지 않는 한, "다수”는 2개, 3개와 같이 적어도 2개를 의미한다.
비록 이상에서 본 출원의 실시예를 도시하고 설명하였으나 상기 실시예는 예시적인 것일 뿐 본 출원에 대한 한정으로 이해되지 말아야 하며, 본 기술분야에서 통상의 지식을 가진 자들은 본 출원의 범위 내에서 상기 실시예를 변화, 수정, 대체 및 변형시킬 수 있다는 것을 이해할 수 있다.

Claims (23)

  1. 음성 처리 방법에 있어서,
    처리해야 할 M개의 음성 신호 및 N개의 참조 신호를 획득하는 단계 - M와 N은 각각 1보다 크거나 같은 자연수임 -;
    각각의 상기 음성 신호 및 참조 신호에 대해 각각 서브밴드 분해를 수행하여 각각의 상기 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분을 획득하는 단계;
    에코 소거 모델을 사용하여 각각의 상기 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분을 처리하여 상기 N개의 참조 신호가 각각의 상기 음성 신호의 각 주파수 대역에서 대응되는 아이디얼 비율 마스크(IRM)를 획득하는 단계; 및
    상기 N개의 참조 신호가 각각의 상기 음성 신호의 각 주파수 대역에서 대응되는 IRM에 기반하여 각각의 상기 음성 신호의 각 주파수 대역 성분에 대해 에코 소거를 수행하여, 에코 소거 후의 M개의 음성 신호를 획득하는 단계를 포함하고,
    상기 각각의 상기 음성 신호 및 참조 신호에 대해 각각 서브밴드 분해를 수행하는 단계는,
    음성 처리 기기의 유형에 따라 서브밴드 분해 모드를 결정하는 단계;
    상기 분해 모드로 각각의 상기 음성 신호 및 참조 신호에 대해 각각 서브밴드 분해를 수행하는 단계를 포함하는
    것을 특징으로 하는 음성 처리 방법.
  2. 제1항에 있어서,
    상기 에코 소거 모델을 사용하여 각각의 상기 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분을 처리하는 단계 이전에,
    각각의 상기 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분에 대해 정규화 처리를 수행하는 단계를 더 포함하는
    것을 특징으로 하는 음성 처리 방법.
  3. 제1항에 있어서,
    상기 에코 소거 후의 M개의 음성 신호를 획득하는 단계 다음에,
    상기 M개의 음성 신호를 음성 인식 모델에 입력하여 상기 M개의 음성 신호에 대응되는 인식 결과를 획득하는 단계를 더 포함하는
    것을 특징으로 하는 음성 처리 방법.
  4. 음성 처리 모델의 생성 방법에 있어서,
    트레이닝 데이터 세트를 획득하는 단계 - 상기 트레이닝 데이터 세트의 각 그룹의 트레이닝 데이터에는 참조 신호, 에코를 휴대한 음성 신호 및 라벨 아이디얼 비율 마스크(IRM)가 포함됨 -;
    각 그룹의 상기 참조 신호 및 에코를 휴대한 음성 신호에 대해 각각 서브밴드 분해를 수행하여 각 그룹의 상기 참조 신호 및 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분을 획득하는 단계;
    초기 신경망 모델을 사용하여 각 그룹의 상기 참조 신호 및 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분을 처리함으로써 각 그룹의 상기 참조 신호가 상기 에코를 휴대한 음성 신호의 각 주파수 대역에서 대응되는 예측 IRM을 획득하는 단계; 및
    각 그룹의 상기 예측 IRM 및 대응되는 라벨 IRM의 차이에 따라 상기 초기 신경망 모델에 대해 역구배 전파 보정을 수행함으로써 트레이닝된 음성 처리 모델을 생성하는 단계를 포함하고,
    상기 트레이닝 데이터 세트를 획득하는 단계는,
    여러 그룹의 표준 음성 신호, 참조 신호 및 대응되는 에코 신호를 획득하는 단계;
    각 그룹의 상기 에코 신호와 상기 표준 음성 신호를 융합하여 에코를 휴대한 음성 신호를 생성하는 단계;
    각 그룹의 표준 음성 신호 및 에코를 휴대한 음성 신호에 대해 서브밴드 분해를 수행하여 각 그룹의 상기 표준 음성 신호 및 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분을 획득하는 단계;
    각 그룹의 상기 표준 음성 신호 및 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분에 따라 각 그룹의 상기 에코를 휴대한 음성 신호에 대응되는 라벨 IRM을 결정하는 단계를 포함하고,
    상기 각 그룹의 상기 표준 음성 신호 및 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분에 따라 각 그룹의 상기 에코를 휴대한 음성 신호에 대응되는 라벨 IRM을 결정하는 단계는,
    각 그룹의 상기 표준 음성 신호 및 에코를 휴대한 음성 신호에서의 각 주파수 대역 성분을 모듈로(Modulo)하여 각 그룹의 상기 표준 음성 신호 및 에코를 휴대한 음성 신호에서의 각 주파수 대역 성분의 진폭을 획득하는 단계;
    상기 표준 음성 신호에서의 각각의 주파수 대역 성분의 진폭과 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분의 진폭 사이의 비의 값에 따라 각 그룹의 상기 에코를 휴대한 음성 신호에 대응되는 라벨 IRM을 결정하는 단계를 포함하는
    것을 특징으로 하는 음성 처리 모델의 생성 방법.
  5. 제4항에 있어서,
    상기 각 그룹의 상기 에코 신호와 상기 표준 음성 신호를 융합하여 에코를 휴대한 음성 신호를 생성하는 단계는,
    상이한 신호 대 잡음비에 따라 각 그룹의 상기 에코 신호와 상기 표준 음성 신호를 융합하여 여러 그룹의 에코를 휴대한 음성 신호를 생성하는 단계를 포함하는
    것을 특징으로 하는 음성 처리 모델의 생성 방법.
  6. 제4항에 있어서,
    초기 신경망 모델을 사용하여 각 그룹의 상기 참조 신호 및 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분을 처리하는 단계 이전에,
    각 그룹의 상기 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분에 대해 정규화 처리를 수행하는 단계를 더 포함하는
    것을 특징으로 하는 음성 처리 모델의 생성 방법.
  7. 음성 처리 장치에 있어서,
    처리해야 할 M개의 음성 신호 및 N개의 참조 신호를 획득하는 획득 모듈 - M와 N은 각각 1보다 크거나 같은 자연수임 -;
    각각의 상기 음성 신호 및 참조 신호에 대해 각각 서브밴드 분해를 수행하여 각각의 상기 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분을 획득하는 제1 처리 모듈;
    에코 소거 모델을 사용하여 각각의 상기 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분을 처리하여 상기 N개의 참조 신호가 각각의 상기 음성 신호의 각 주파수 대역에서 대응되는 아이디얼 비율 마스크(IRM)를 획득하는 제2 처리 모듈; 및
    상기 N개의 참조 신호가 각각의 상기 음성 신호의 각 주파수 대역에서 대응되는 IRM에 기반하여 각각의 상기 음성 신호의 각 주파수 대역 성분에 대해 에코 소거를 수행하여, 에코 소거 후의 M개의 음성 신호를 획득하는 제3 처리 모듈을 포함하고,
    상기 제1 처리 모듈은 구체적으로,
    음성 처리 기기의 유형에 따라 서브밴드 분해 모드를 결정하고;
    상기 분해 모드로 각각의 상기 음성 신호 및 참조 신호에 대해 각각 서브밴드 분해를 수행하는
    것을 특징으로 하는 음성 처리 장치.
  8. 제7항에 있어서,
    상기 장치는,
    에코 소거 모델을 사용하여 각각의 상기 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분을 처리하기 전에, 각각의 상기 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분에 대해 정규화 처리를 수행하는 제4 처리 모듈을 더 포함하는
    것을 특징으로 하는 음성 처리 장치.
  9. 제7항에 있어서,
    상기 장치는,
    에코 소거 후의 M개의 음성 신호를 획득한 다음에, 상기 M개의 음성 신호를 음성 인식 모델에 입력하여 상기 M개의 음성 신호에 대응되는 인식 결과를 획득하는 입력 모듈을 더 포함하는
    것을 특징으로 하는 음성 처리 장치.
  10. 음성 처리 모델의 생성 장치에 있어서
    트레이닝 데이터 세트를 획득하는 제2 획득 모듈 - 상기 트레이닝 데이터 세트의 각 그룹의 트레이닝 데이터에는 참조 신호, 에코를 휴대한 음성 신호 및 라벨 아이디얼 비율 마스크(IRM)가 포함됨 -;
    각 그룹의 상기 참조 신호 및 에코를 휴대한 음성 신호에 대해 각각 서브밴드 분해를 수행하여 각 그룹의 상기 참조 신호 및 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분을 획득하는 제5 처리 모듈;
    초기 신경망 모델을 사용하여 각 그룹의 상기 참조 신호 및 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분을 처리함으로써 각 그룹의 상기 참조 신호가 상기 에코를 휴대한 음성 신호의 각 주파수 대역에서 대응되는 예측 IRM을 획득하는 제6 처리 모듈; 및
    각 그룹의 상기 예측 IRM 및 대응되는 라벨 IRM의 차이에 따라 상기 초기 신경망 모델에 대해 역구배 전파 보정을 수행함으로써 트레이닝된 음성 처리 모델을 생성하는 제7 처리 모듈을 포함하고,
    상기 제2 획득 모듈은 구체적으로,
    여러 그룹의 표준 음성 신호, 참조 신호 및 대응되는 에코 신호를 획득하고;
    각 그룹의 상기 에코 신호와 상기 표준 음성 신호를 융합하여 에코를 휴대한 음성 신호를 생성하며;
    각 그룹의 표준 음성 신호 및 에코를 휴대한 음성 신호에 대해 서브밴드 분해를 수행하여 각 그룹의 상기 표준 음성 신호 및 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분을 획득하고;
    각 그룹의 상기 표준 음성 신호 및 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분에 따라 각 그룹의 상기 에코를 휴대한 음성 신호에 대응되는 라벨 IRM을 결정하고,
    상기 제2 획득 모듈은 구체적으로,
    각 그룹의 상기 표준 음성 신호 및 에코를 휴대한 음성 신호에서의 각 주파수 대역 성분을 모듈로하여 각 그룹의 상기 표준 음성 신호 및 에코를 휴대한 음성 신호에서의 각 주파수 대역 성분의 진폭을 획득하고;
    상기 표준 음성 신호에서의 각각의 주파수 대역 성분의 진폭과 에코를 휴대한 음성 신호에서의 각각의 주파수 대역 성분의 진폭 사이의 비의 값에 따라 각 그룹의 상기 에코를 휴대한 음성 신호에 대응되는 라벨 IRM을 결정하는데 더 사용되는
    것을 특징으로 하는 음성 처리 모델의 생성 장치.
  11. 제10항에 있어서,
    상기 제2 획득 모듈은 구체적으로,
    상이한 신호 대 잡음비에 따라 각 그룹의 상기 에코 신호와 상기 표준 음성 신호를 융합하여 여러 그룹의 에코를 휴대한 음성 신호를 생성하는
    것을 특징으로 하는 음성 처리 모델의 생성 장치.
  12. 제10항에 있어서,
    상기 장치는,
    각 그룹의 상기 음성 신호 및 참조 신호에서의 각각의 주파수 대역 성분에 대해 정규화 처리를 수행하는 제8 처리 모듈을 더 포함하는
    것을 특징으로 하는 음성 처리 모델의 생성 장치.
  13. 전자 기기에 있어서,
    적어도 하나의 프로세서; 및
    상기 적어도 하나의 프로세서와 통신 가능하게 연결하는 메모리를 포함하고,
    상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령은 상기 적어도 하나의 프로세서에 의해 실행되어 상기 적어도 하나의 프로세서로 하여금 제1항 내지 제3항 중 어느 한 항에 따른 음성 처리 방법을 수행하거나 또는 제4항 내지 제6항 중 어느 한 항에 따른 음성 처리 모델의 생성 방법을 수행하도록 하는
    것을 특징으로 하는 전자 기기.
  14. 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장매체에 있어서,
    상기 컴퓨터 명령은 상기 컴퓨터로 하여금 제1항 내지 제3항 중 어느 한 항에 따른 음성 처리 방법을 수행하거나 또는 제4항 내지 제6항 중 어느 한 항에 따른 음성 처리 모델의 생성 방법을 수행하도록 하는
    것을 특징으로 하는 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장매체.
  15. 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램중의 명령이 실행될 경우, 제1항 내지 제3항 중 어느 한 항에 따른 음성 처리 방법을 수행하거나 또는 제4항 내지 제6항 중 어느 한 항에 따른 음성 처리 모델의 생성 방법이 실행되는,
    것을 특징으로 하는 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램.
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
KR1020210117561A 2020-10-27 2021-09-03 음성 처리 방법, 장치 및 음성 처리 모델의 생성 방법, 장치 KR102577513B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202011164617.9A CN112466318B (zh) 2020-10-27 2020-10-27 语音处理方法、装置及语音处理模型的生成方法、装置
CN202011164617.9 2020-10-27

Publications (2)

Publication Number Publication Date
KR20210116372A KR20210116372A (ko) 2021-09-27
KR102577513B1 true KR102577513B1 (ko) 2023-09-12

Family

ID=74835699

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210117561A KR102577513B1 (ko) 2020-10-27 2021-09-03 음성 처리 방법, 장치 및 음성 처리 모델의 생성 방법, 장치

Country Status (4)

Country Link
US (1) US20220044678A1 (ko)
JP (1) JP7291190B2 (ko)
KR (1) KR102577513B1 (ko)
CN (1) CN112466318B (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112786028B (zh) * 2021-02-07 2024-03-26 百果园技术(新加坡)有限公司 声学模型处理方法、装置、设备和可读存储介质
CN113077812A (zh) * 2021-03-19 2021-07-06 北京声智科技有限公司 语音信号生成模型训练方法、回声消除方法和装置及设备
CN114242098B (zh) * 2021-12-13 2023-08-29 北京百度网讯科技有限公司 一种语音增强方法、装置、设备以及存储介质
CN114512136B (zh) * 2022-03-18 2023-09-26 北京百度网讯科技有限公司 模型训练、音频处理方法、装置、设备、存储介质及程序

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109841206A (zh) * 2018-08-31 2019-06-04 大象声科(深圳)科技有限公司 一种基于深度学习的回声消除方法
US20190251985A1 (en) * 2018-01-12 2019-08-15 Alibaba Group Holding Limited Enhancing audio signals using sub-band deep neural networks
CN111292759A (zh) * 2020-05-11 2020-06-16 上海亮牛半导体科技有限公司 一种基于神经网络的立体声回声消除方法及系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102157276B1 (ko) 2013-07-26 2020-09-17 삼성전자주식회사 비선형 음향 에코 소거 장치 및 그 방법
US10726859B2 (en) * 2015-11-09 2020-07-28 Invisio Communication A/S Method of and system for noise suppression
WO2018098230A1 (en) * 2016-11-22 2018-05-31 Massachusetts Institute Of Technology Systems and methods for training neural networks
US10957337B2 (en) 2018-04-11 2021-03-23 Microsoft Technology Licensing, Llc Multi-microphone speech separation
US10672414B2 (en) * 2018-04-13 2020-06-02 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable media for improved real-time audio processing
US10573301B2 (en) * 2018-05-18 2020-02-25 Intel Corporation Neural network based time-frequency mask estimation and beamforming for speech pre-processing
CN109841226B (zh) * 2018-08-31 2020-10-16 大象声科(深圳)科技有限公司 一种基于卷积递归神经网络的单通道实时降噪方法
EP3942547A4 (en) * 2019-03-20 2022-12-28 Research Foundation Of The City University Of New York METHOD OF SPEECH EXTRACTION FROM DEGRADED SIGNALS BY PREDICTING THE INPUTS OF A SPEECH VOCODER
CN110867181B (zh) * 2019-09-29 2022-05-06 北京工业大学 基于scnn和tcnn联合估计的多目标语音增强方法
CN110956976B (zh) 2019-12-17 2022-09-09 苏州科达科技股份有限公司 一种回声消除方法、装置、设备及可读存储介质
CN111048061B (zh) 2019-12-27 2022-12-27 西安讯飞超脑信息科技有限公司 回声消除滤波器的步长获取方法、装置及设备
CN111370016B (zh) * 2020-03-20 2023-11-10 北京声智科技有限公司 一种回声消除方法及电子设备
CN111696580B (zh) 2020-04-22 2023-06-16 广州多益网络股份有限公司 一种语音检测方法、装置、电子设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190251985A1 (en) * 2018-01-12 2019-08-15 Alibaba Group Holding Limited Enhancing audio signals using sub-band deep neural networks
CN109841206A (zh) * 2018-08-31 2019-06-04 大象声科(深圳)科技有限公司 一种基于深度学习的回声消除方法
CN111292759A (zh) * 2020-05-11 2020-06-16 上海亮牛半导体科技有限公司 一种基于神经网络的立体声回声消除方法及系统

Also Published As

Publication number Publication date
CN112466318A (zh) 2021-03-09
JP2022020055A (ja) 2022-01-31
JP7291190B2 (ja) 2023-06-14
US20220044678A1 (en) 2022-02-10
KR20210116372A (ko) 2021-09-27
CN112466318B (zh) 2024-01-19

Similar Documents

Publication Publication Date Title
KR102577513B1 (ko) 음성 처리 방법, 장치 및 음성 처리 모델의 생성 방법, 장치
KR102320708B1 (ko) 영상 재생 방법, 장치, 전자 기기 및 판독 가능 저장 매체
US11735168B2 (en) Method and apparatus for recognizing voice
US20240038252A1 (en) Sound signal processing method and apparatus, and electronic device
US11475869B2 (en) Hybrid noise suppression for communication systems
JP7214798B2 (ja) 音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体
CN112489668B (zh) 去混响方法、装置、电子设备和存储介质
US10395658B2 (en) Pre-processing partial inputs for accelerating automatic dialog response
US20240046955A1 (en) Voice extraction method and apparatus, and electronic device
US20230298611A1 (en) Speech enhancement
CN110489179A (zh) 获取调用栈栈帧函数签名的方法、装置、介质和设备
KR20220083990A (ko) 다 음성 영역 음성의 웨이크업 및 인식 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램
CN110489165A (zh) 获取调用栈栈帧指令偏移的方法、装置、介质和设备
CN112466327B (zh) 语音处理方法、装置和电子设备
US11482244B2 (en) Textual echo cancellation
US20220044049A1 (en) Method, apparatus, device and storage medium for determining displayed recognized text
CN117577124B (zh) 基于知识蒸馏的音频降噪模型的训练方法、装置及设备
US20240134935A1 (en) Method, device, and computer program product for model arrangement
US20230154480A1 (en) Adl-ufe: all deep learning unified front-end system
JP2022006183A (ja) 言語モデルのトレーニング方法、装置、及び電子機器
CN114913846A (zh) 识别方法、装置和电子设备
CN114783457A (zh) 基于波形和频域信息融合网络的声音信号增强方法及装置
CN115050383A (zh) 回声消除方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant