KR102262686B1

KR102262686B1 - 음성 품질 평가 방법 및 음성 품질 평가 장치

Info

Publication number: KR102262686B1
Application number: KR1020197009232A
Authority: KR
Inventors: 빙 인; 시 웨이; 궈핑 후; 수 쳉
Original assignee: 아이플라이텍 캄파니 리미티드
Priority date: 2016-10-12
Filing date: 2016-12-20
Publication date: 2021-06-09
Also published as: US10964337B2; EP3528250A1; CN106531190B; WO2018068396A1; KR20190045278A; EP3528250B1; CN106531190A; US20190180771A1; JP2019531494A; EP3528250A4

Abstract

본 출원은 음성 품질 평가 방법 및 음성 품질 평가 장치를 제공하고, 당해 음성 품질 평가 방법은 평가해야 할 음성 데이터를 수신하는 단계, 상기 평가해야 할 음성 데이터의 평가 특징을 추출하는 단계, 및 상기 평가해야 할 음성 데이터의 평가 특징과 구축된 음성 품질 평가 모델에 따라, 상기 평가해야 할 음성 데이터를 품질 평가하는 단계를 포함하고, 상기 음성 품질 평가 모델은 싱글 엔드 음성 데이터의 평가 특징과 상기 싱글 엔드 음성 데이터의 품질 정보 사이의 관계를 나타내기 위한 것이다. 당해 방법은 음성 품질 평가의 응용 범위를 확장할 수 있다.

Description

음성 품질 평가 방법 및 음성 품질 평가 장치

본 출원은 아이플라이텍 캄파니 리미티드가 2016년 10월 12일 제출한, 발명의 명칭이 "음성 품질 평가 방법 및 음성 품질 평가 장치"이고, 중국 특허 출원 번호가 "201610892176.1"인 출원에 대한 우선권을 요구한다.

본 출원은 통신 기술 분야에 관한 것으로, 특히 음성 품질 평가 방법 및 음성 품질 평가 장치에 관한 것이다.

기술의 지속적인 발전에 따라, 예를 들어 통신 네트워크를 이용하여 음성 데이터의 전송을 행하는 것과 같이 통신이 사람들의 생활에 있어서 점점 더 중요해지고 있다. 음성 품질은 통신 네트워크 품질을 평가하는 하나의 중요한 요소이다. 음성 품질을 평가하는 목적을 달성하기 위하여, 효과적인 음성 품질 평가 알고리즘을 개발하는 것이 필요하다.

관련 기술에서, 통신 네트워크에서의 음성 품질 평가 알고리즘은 음성 품질을 감지 평가하는 PESQ(Perceptual Evaluation of Speech Quality) 알고리즘과 객관적 음성 품질을 감지 평가하는 POLQA(Perceptual Objective Listening Quality Analysis) 알고리즘을 포함한다. 이런 알고리즘은 구현될 때, 입력 음성 데이터와 출력 음성 데이터를 획득할 필요가 있는데, 입력 음성 데이터는 일반적으로 깨끗한 음성 데이터이며, 출력 음성 데이터는 일반적으로 통신 네트워크를 통과한 후 퇴화된 음성 데이터이고, 입력 음성 데이터 및 출력 음성 데이터를 분석하는 것을 통하여 출력 음성 데이터를 품질 평가한다. 입력 음성 데이터는 일반적으로 운영 업체의 도로 테스트 차량을 이용하여 수집하지만, 아파트 단지 또는 쇼핑몰 등 실내 조건에서는 도로 테스트 차량을 통하여 수집할 수 없으므로, 입력 음성 데이터를 획득할 수 없고, 또한 입력 음성 데이터를 통하여 음성 품질 평가를 할 수 없어, 상술한 입력 음성 데이터와 출력 음성 데이터에 기반하여 출력 음성 데이터에 대하여 음성 품질 평가를 하는 알고리즘은 응용의 한계성이 있다.

본 출원은 적어도 일정한 정도에서 관련 기술에서의 기술적 과제 중의 하나를 해결하는 것을 목적으로 한다.

이를 위하여, 본 출원의 하나의 목적은 음성 품질 평가 방법을 제공하는바, 당해 방법은 평가해야 할 음성 데이터에 대하여 음성 품질 평가를 할 경우, 상응하는 입력 음성 데이터가 필요없이, 단지 싱글 엔드(single end) 음성 데이터에 의존하여 음성 품질 평가를 구현함으로써, 응용 범위를 확장할 수 있다.

본 출원의 다른 하나의 목적은 음성 품질 평가 장치를 제공하는 데 있다.

상술한 목적에 도달하기 위하여, 본 출원의 제1 측면의 실시예에 따라 제공되는 음성 품질 평가 방법은, 평가해야 할 음성 데이터를 수신하는 단계, 상기 평가해야 할 음성 데이터의 평가 특징을 추출하는 단계, 및 상기 평가해야 할 음성 데이터의 평가 특징과 구축된 음성 품질 평가 모델에 따라, 상기 평가해야 할 음성 데이터를 품질 평가하는 단계를 포함하고, 상기 음성 품질 평가 모델은 싱글 엔드 음성 데이터의 평가 특징과 상기 싱글 엔드 음성 데이터의 품질 정보 사이의 관계를 나타내기 위한 것이다.

본 출원의 제1 측면의 실시예에 따라 제공되는 음성 품질 평가 방법은, 음성 품질 평가 모델을 이용하여 평가해야 할 음성 데이터를 품질 평가하는 것을 통하여, 음성 품질 평가를 할 때 싱글 엔드 음성 데이터만 필요하여, 양쪽 엔드(two-end) 음성 데이터에 의존하여 조성되는 응용 한정 문제를 피함으로써, 응용 범위를 확장할 수 있다.

상술한 목적에 도달하기 위하여, 본 출원의 제2 측면의 실시예에 따라 제공되는 음성 품질 평가 장치는, 평가해야 할 음성 데이터를 수신하기 위한 수신 모듈, 상기 평가해야 할 음성 데이터의 평가 특징을 추출하기 위한 추출 모듈, 및 상기 평가해야 할 음성 데이터의 평가 특징과 구축된 음성 품질 평가 모델에 따라, 상기 평가해야 할 음성 데이터를 품질 평가하기 위한 평가 모듈을 포함하고, 상기 음성 품질 평가 모델은 싱글 엔드 음성 데이터의 평가 특징과 상기 싱글 엔드 음성 데이터의 품질 정보 사이의 관계를 나타내기 위한 것이다.

본 출원의 제2 측면의 실시예에 따라 제공되는 음성 품질 평가 장치는, 음성 품질 평가 모델을 이용하여 평가해야 할 음성 데이터를 품질 평가하는 것을 통하여, 음성 품질 평가를 할 때 싱글 엔드 음성 데이터만 필요하여, 양쪽 엔드 음성 데이터에 의존하여 조성되는 응용 한정 문제를 피함으로써, 응용 범위를 확장할 수 있다.

본 출원의 실시예는 또한 기기를 제공하고, 상기 기기는 하나 또는 복수의 프로세서, 및 하나 또는 복수의 프로그램을 저장하기 위한 메모리를 포함하며, 상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수의 프로세서가 본 출원의 제1 측면의 실시예 중 임의의 한 항의 방법을 실행하도록 한다.

본 출원의 실시예는 또한 비일시적 컴퓨터 판독 가능 저장 매체를 제공하고, 상기 저장 매체의 하나 또는 복수의 프로그램이 기기의 하나 또는 복수의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수의 프로세서가 본 출원의 제1 측면의 실시예 중 임의의 한 항의 방법을 실행하도록 한다.

본 출원의 실시예는 또한 컴퓨터 프로그램 제품을 제공하고, 상기 컴퓨터 프로그램 제품이 기기의 하나 또는 복수의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수의 프로세서가 본 출원의 제1 측면의 실시예 중 임의의 한 항의 방법을 실행하도록 한다.

본 출원의 부가적인 측면과 장점은 이하의 설명에서 일부 제기되고, 다른 일부는 이하의 설명에서 더욱 명확해지거나 또는 본 출원의 실시를 통하여 이해될 것이다.

본 출원의 상기 및/또는 부가적인 측면과 장점은 이하의 첨부된 도면을 결합하여 행한 실시예에 대한 설명으로부터 더욱 명확해지고 용이하게 이해될 것이며, 여기서,
도 1은 본 출원의 실시예에 따라 제공되는 음성 품질 평가 방법의 흐름도이다.
도 2는 본 출원의 다른 하나의 실시예에 따라 제공되는 음성 품질 평가 방법의 흐름도이다.
도 3은 본 출원의 실시예에 따라 제공되는 음성 품질 평가 장치의 구조 개략도이다.
도 4는 본 출원의 다른 하나의 실시예에 따라 제공되는 음성 품질 평가 장치의 구조 개략도이다.

이하, 본 출원의 실시예를 상세하게 설명하고자 한다. 상기 실시예의 예시는 도면에 도시되었는바, 그 중 동일하거나 유사한 도면부호는 시종일관하게 동일하거나 유사한 요소 또는 동일하거나 유사한 기능을 구비한 모듈을 가리킨다. 아래의 첨부 도면을 참조하여 설명된 실시예는 예시적인 것으로서, 본 출원을 해석하기 위한 것일 뿐, 본 출원을 한정하는 것으로 이해하여서는 안 된다. 반대로, 본 출원의 실시예는 추가된 청구범위에 들어가는 정신과 내포된 범위 내의 모든 변화, 수정 및 균등물을 포함한다.

PESQ 알고리즘의 문제를 해결하고 4G/LTE 시대의 음성 품질 평가의 필요에 더 잘 적응하기 위하여, ITU-T는 2006년부터 POLQA 알고리즘의 개발 작업을 하였고, 2011년 초에 공식적으로 ITU-T P.863 표준을 발표하였다. 주요 특징은 최신 음성 코딩과 네트워크 전송 기술을 커버할 수 있으며, 3G, 4G/LTE, VoIP 네트워크에 사용될 때 더 높은 정확성을 구비하여 초광대역(ultra wide band)(50 Hz ~ 14 KHz) 음성 전송, 고품질 음성 전송을 지원한다. 따라서, POLQA 알고리즘은 현재 통신 네트워크의 음성 품질을 평가할 때 통상적으로 선택되는 알고리즘이다.

딥러닝(deep learning)의 개념은 인공 신경망의 연구에서 온다. 멀티 은닉층(multi-hidden layer)을 포함하는 다층 퍼셉트론은 딥러닝 구조이다. 딥러닝은 저수준 특징을 조합하는 것을 통하여 더욱 추상적인 고수준을 형성하여 속성 카테고리 또는 특징을 표시하여, 데이터의 분산 특징의 표현을 발견한다. 현재 딥러닝의 응용 분야는 주로 컴퓨터 비전, 음성 인식의 음향 모델 훈련, 기계 번역 및 시맨틱 마이닝 등 자연 언어 처리 분야를 포함한다.

딥러닝은 새로 나타난 기술이기에, 여전히 지속적인 발전하고 있으므로, 현재 비교적 성공적인 응용 분야는 다만 상술한 바와 같은 한정된 분야이다. 발명자가 알고 있는 바에 의하면, 통신 분야, 특히 통신 분야의 음성 품질 평가에서는 응용되지 않았다.

본 출원의 발명자는 통신 분야의 기술자로서, 음성 품질 평가를 완성해야 할 경우, 그전에도 POLQA 알고리즘을 통상적으로 이용하지만, 발명자는 POLQA 알고리즘이 양쪽 엔드의 음성 데이터를 필요한 것을 발견했다. 즉, 출력 음성 데이터의 음성 품질을 평가할 경우, 출력 음성 데이터가 필요할 뿐만 아니라 입력 음성 데이터도 필요하고, 일부 상황에서는 입력 음성 데이터를 획득하기 어렵기에, POLQA 알고리즘의 응용이 한정될 수 있다. 응용이 한정되는 문제를 피하기 위하여, 새로운 해결 방안을 제공할 필요가 있다. 발명자는 더 분석하는 것을 통하여, 딥러닝에 의해 구축된 모델이 우수한 성능을 구비한 것을 발견하였으므로, 딥러닝을 음성 품질 평가 알고리즘에 도입할 수 있다. 나아가, 양쪽 엔드 음성 데이터가 존재하는 응용의 한계성 문제를 피하기 위하여, 딥러닝을 통하여 모델을 구축할 경우, 단지 싱글 엔드 음성 데이터를 샘플로 이용하여 훈련할 수 있으며, 따라서 이미 구축된 모델을 이용하여 음성 품질 평가를 할 경우, 평가해야 할 음성 데이터로 싱글 엔드 음성 데이터만 필요할 수 있다.

따라서, 본 출원의 주요 사상은 딥러닝을 음성 품질 평가에 도입하는 것, 특히는 통신 분야의 음성 품질 평가에 도입하는 것이다. 통신 분야의 음성 품질 평가에 싱글 엔드 음성 데이터에만 의존하는 새로운 해결 방안을 제공하고, 싱글 엔드 음성 데이터에만 의존할 경우 딥러닝 방식으로 모델을 구축하면 모델의 우수한 성능을 보장할 수 있으므로, 한정이 더 적고 성능이 더 우수한 음성 품질 평가의 기술적 문제를 해결한다. 나아가, 설명해야 하는 바로는, 비록 상술한 본 출원의 주요 사상에 대하여 설명하였지만, 구체적인 기술적 수단은 상술한 주요 사상에 한정하지 않고, 기타 특징과 서로 결합할 수도 있으며, 이러한 다른 기술 특징 사이의 결합은 여전히 본 출원의 보호 범위에 속한다.

나아가, 설명해야 하는 바로는, 비록 상술한 내용에서 주로 해결하는 기술적 문제를 제시하지만, 본 출원은 단지 상술한 기술적 문제를 해결하는데 한정되지 않으며, 본 출원을 응용하여 해결할 수도 있는 기타 기술적 문제는 여전히 본 출원의 보호 범위에 속한다.

나아가, 설명해야 하는 바로는, 비록 상술한 내용에서 본 출원의 주요 사상을 제시하고, 후속의 실시예는 일부 특별한 점에 대하여 설명을 할 수 있지만, 본 출원의 혁신적인 포인트는 상술한 주요 사상 및 특별한 점에 관련된 내용에 한정되지 않고, 본 출원에서 일부 특별히 설명하지 않은 내용이 여전히 본 출원의 혁신적인 포인트를 포함할 수 있는 것을 배제하지 않는다.

이해 가능한 바로는, 비록 위에서 일부 설명을 하였지만, 여전히 기타 가능한 방안을 배제하지 않으며, 따라서, 후속의 본 출원에서 제시된 실시예와 동일하거나 유사한 것과 동등한 상황의 기술적 수단은 여전히 본 출원의 보호 범위에 속한다.

이하, 구체적인 실시예를 결합하여 본 출원의 기술적 수단에 대하여 설명한다.

도 1은 본 출원의 실시예에 따라 제공되는 음성 품질 평가 방법의 흐름도이다.

도 1에 도시된 바와 같이, 본 실시예의 방법은 하기의 단계를 포함한다.

S11: 평가해야 할 음성 데이터를 수신한다.

통신 분야를 예로 들면, 평가해야 할 음성 데이터는 구체적으로 통신 네트워크의 출력 음성 데이터를 가리킬 수 있다. 즉, 입력 음성 데이터는 통신 네트워크를 통과한 후 퇴화된 음성 데이터이다. 입력 음성 데이터는 일반적으로 깨끗한 음성 데이터 또는 원래의 음성 데이터를 가리키고, 퇴화된 음성 데이터는 일반적으로 원래의 음성 데이터에 비교하여 명확도의 퇴화, 지연, 잡음 등 하나 또는 복수의 내용이 존재하는 품질 퇴화의 음성 데이터를 가리킨다.

S12: 상기 평가해야 할 음성 데이터의 평가 특징을 추출한다.

상기 평가 특징 및 음성 품질 모델이 구축될 경우, 퇴화된 음성 데이터에 대하여 추출한 평가 특징은 서로 같고, 구체적으로 응용의 필요에 따라 확정된다.

일반적으로 말하자면, 평가 특징은 사람의 청각을 감지하는 각도로부터 음성 데이터의 특징을 설명하는 것을 가리키고, 구체적인 내용은 후속의 설명을 참조할 수 있다.

S13: 상기 평가해야 할 음성 데이터의 평가 특징과 구축된 음성 품질 평가 모델에 따라, 상기 평가해야 할 음성 데이터를 품질 평가하되, 상기 음성 품질 평가 모델은 싱글 엔드 음성 데이터의 평가 특징과 상기 싱글 엔드 음성 데이터의 품질 정보 사이의 관계를 나타내기 위한 것이다.

여기서, 음성 품질 평가 모델은 음성 품질 평가가 요구되기 전에 미리 구축될 수 있으며, 예를 들어, 오프라인 모드를 통하여 음성 품질 평가 모델을 먼저 구축하고, 음성 품질 평가가 필요할 때, 미리 구축된 음성 품질 평가 모델을 직접 이용할 수 있다. 물론, 음성 품질 평가 모델이 온라인에서 구축된다는 것도 배제하지 않으며, 예를 들어 음성 품질 평가가 필요할 때 온라인에서 구축한다. 구체적인 구축 내용은 후속 설명을 참조할 수 있다.

음성 품질 평가 모델의 입력과 출력은 각각 싱글 엔드 음성 데이터의 평가 특징과 품질 정보이고, 따라서, 평가해야 할 음성 데이터의 평가 특징을 추출한 후, 당해 평가 특징을 음성 품질 평가 모델의 입력으로 결정하며, 따라서 획득한 출력은 평가해야 할 음성 데이터의 품질 정보이며, 음성 품질 평가를 구현할 수 있다.

나아가, 음성 품질 평가 모델은 회귀 모델 또는 분류 모델로 설명할 수 있고, 서로 다른 설명 상황에서, 상술한 품질 정보의 구체적인 내용은 서로 다를 수 있다. 예를 들어, 만약 음성 품질 평가 모델을 회귀 모델로 설명할 경우, 획득한 품질 정보는 예를 들어 1 내지 5점 중 하나의 점수와 같은 구체적인 평가 점수이고, 음성 품질 평가 모델을 분류 모델로 설명할 경우, 획득한 품질 정보는 예를 들어 나쁨, 비교적 나쁨, 보통, 좋음, 비교적 좋음 중 하나의 카테고리와 같은 평가 카테고리이다.

나아가, 일부 실시예에서, 음성 품질 평가의 정확도를 향상시키기 위하여, 또한 S13에서 획득한 품질 평가 결과에 대하여 정리할 수 있다. 품질 평가 결과는 평가 점수인 것을 예로 들어, 정리할 경우, S13에서 획득한 평가 점수를 직접 최종의 평가 점수로 결정할 수 있거나, 또는 통신 네트워크의 패킷 손실, 지터, 지연 등 관련 파라미터를 결합하여 S13에서 획득한 평가 점수에 대하여 정리하여 최종의 평가 점수를 획득할 수도 있다. 구체적으로, 네트워크 파라미터를 결합하여 정리하는 알고리즘을 설치할 수 있으며, 여기서는 상세히 설명하지 않는바, 예를 들어 S13에서 획득한 평가 점수의 기초 상에서 하나의 계수를 곱해 최종의 평가 점수로 결정할 수 있고, 당해 계수는 통신 네트워크의 상술한 파라미터와 관련된다.

본 실시예에서, 음성 품질 평가 모델을 이용하여 평가해야 할 음성 데이터를 품질 평가하는 것을 통하여, 음성 품질 평가를 할 때 싱글 엔드 음성 데이터만 필요하여, 양쪽 엔드 음성 데이터에 의존하여 조성되는 응용 한정 문제를 피함으로써, 응용 범위를 확장할 수 있다.

도 2는 본 출원의 다른 하나의 실시예에 따라 제공되는 음성 품질 평가 방법의 흐름도이다.

본 실시예는 평가해야 할 음성 데이터가 통신 네트워크를 통과한 후 퇴화된 음성 데이터를 예로 한다. 음성 품질 평가 모델을 구축할 때 딥러닝 방식으로 구축하는 것을 예로 한다.

도 2를 참조하면, 본 실시예의 방법은 하기의 단계를 포함한다.

S21: 음성 데이터를 획득하되, 상기 음성 데이터는 깨끗한 음성 데이터와 퇴화된 음성 데이터를 포함한다.

여기서, 수집 및/또는 이미 있는 데이터로부터 직접 획득하는 방식을 이용하여 음성 데이터를 획득할 수 있다. 구축한 음성 품질 평가 모델의 정확도를 향상시키기 위하여, 여기서는 가능한 많은 음성 데이터를 획득해야 한다.

수집 방식을 예로 들면, 음성 데이터를 구체적으로 수집할 경우, 통신을 시뮬레이션하는 방식을 이용하여, 통화할 때의 깨끗한 음성 데이터와 통신 네트워크를 통과한 후 퇴화된 음성 데이터를 각각 수집할 수 있으며, 구체적으로는, 먼저 고화질의 스튜디오로부터 예를 들어 2,000 시간의 깨끗한 음성 데이터와 같은 대량의 깨끗한 음성 데이터를 수집하고, 그 다음에 여러 핸드폰을 이용하여 통화 방식을 시뮬레이션한다. 즉, 하나의 핸드폰을 사용하여 전화를 걸어 상기 깨끗한 음성 데이터를 플레이하고, 다른 하나의 핸드폰으로 이 깨끗한 음성 데이터를 수신하며, 통신 네트워크에서 서로 다른 인터페이스를 통하여, 송신한 데이터 패킷을 복원하고, 통신 네트워크를 통과한 후 퇴화된 음성 데이터를 획득한다.

물론, 진실한 네트워크 통화 음성 데이터를 직접 수집할 수도 있고, 상응한 깨끗한 음성 데이터와 퇴화된 음성 데이터를 각각 획득할 수도 있으며, 구체적인 획득 방식은 본 출원에서 한정하지 않는다.

나아가, 음성 데이터를 수집할 경우, 깨끗한 음성 데이터와 퇴화된 음성 데이터는 따로 수집할 수 있으므로, 깨끗한 음성 데이터와 퇴화된 음성 데이터를 직접 각각 획득할 수 있다. 또는, 음성 데이터를 수집할 경우, 깨끗한 음성 데이터와 퇴화된 음성 데이터는 같이 수집할 수 있고, 이때 깨끗한 음성 데이터와 퇴화된 음성 데이터를 각각 표기하여 깨끗한 음성 데이터와 퇴화된 음성 데이터를 구분할 수 있으며, 예를 들어 1을 사용하여 깨끗한 음성 데이터를 표시하고, 0을 사용하여 퇴화된 음성 데이터를 표시하며, 이때, 표기에 따라 깨끗한 음성 데이터와 퇴화된 음성 데이터를 각각 획득할 수 있다.

S22: 상기 깨끗한 음성 데이터에 따라 처리해야 할 깨끗한 음성 데이터를 획득하고, 상기 퇴화된 음성 데이터에 따라 처리해야 할 퇴화된 음성 데이터를 획득한다.

획득된 퇴화된 음성 데이터를 처리해야 할 퇴화된 음성 데이터로 직접 결정하거나, 또는

획득된 퇴화된 음성 데이터의 유효 음성 세그먼트를 추출하고, 퇴화된 음성 데이터의 유효 음성 세그먼트를 처리해야 할 퇴화된 음성 데이터로 결정하거나, 또는

획득된 퇴화된 음성 데이터를 클러스터링하고, 클러스터링 중심에 대응되는 퇴화된 음성 데이터를 처리해야 할 퇴화된 음성 데이터로 결정하거나, 또는

획득된 퇴화된 음성 데이터의 유효 음성 세그먼트를 추출하고, 퇴화된 음성 데이터의 유효 음성 세그먼트를 클러스터링하며, 클러스터링 중심에 대응되는 퇴화된 음성 데이터의 유효 음성 세그먼트를 처리해야 할 퇴화된 음성 데이터로 결정하는 것을 포함할 수 있다.

구체적으로, 깨끗한 음성 데이터와 퇴화된 음성 데이터를 획득한 후, 획득된 깨끗한 음성 데이터와 퇴화된 음성 데이터를 각각 처리해야 할 깨끗한 음성 데이터와 처리해야 할 퇴화된 음성 데이터로 직접 결정할 수 있다. 나아가, 또한 깨끗한 음성 데이터와 퇴화된 음성 데이터를 획득한 후, 각각 유효 음성 세그먼트를 추출하고, 추출된 깨끗한 음성 데이터의 유효 음성 세그먼트를 처리해야 할 깨끗한 음성 데이터로 결정하며, 퇴화된 음성 데이터의 유효 음성 세그먼트를 처리해야 할 퇴화된 음성 데이터로 결정한다. 구체적인 추출 유효 음성 세그먼트의 방식은 한정하지 않으며, 예를 들어 음성 활동 검출(Voice Activity Detection; VAD) 방식을 이용한다. 유효 음성 세그먼트만 처리하는 것을 통하여, 연산량과 복잡도를 감소시킬 수 있다.

나아가, 처리해야 할 퇴화된 음성 데이터를 획득할 경우, 음성 데이터에 포함된 모든 퇴화된 음성 데이터 또는 모든 퇴화된 음성 데이터의 유효 음성 세그먼트를 처리해야 할 퇴화된 음성 데이터로 결정할 수 있거나, 또는 부분적으로 퇴화된 음성 데이터 또는 그의 유효 음성 세그먼트를 선택하여 처리해야 할 퇴화된 음성 데이터로 결정할 수도 있다. 선택할 경우, 클러스터링 방식을 이용하여, 모든 퇴화된 음성 데이터 또는 그의 유효 음성 세그먼트에 대하여 클러스터링을 할 수 있으며, 클러스터링 중심에 대응되는 퇴화된 음성 데이터 또는 그의 유효 음성 세그먼트를 처리해야 할 퇴화된 음성 데이터로 결정한다.

예를 들어, 클러스터링할 경우, 퇴화된 음성 데이터의 유효 음성 세그먼트의 ivector 특징을 추출하고, k-means 방법을 사용하여 추출한 ivector 특징에 대하여 클러스터링하여, k개의 클러스터링 중심을 획득하며, 각 클러스터링 중심에 대응되는 퇴화된 음성 데이터 또는 그의 유효 음성 세그먼트를 처리해야 할 퇴화된 음성 데이터로 결정한다. 클러스터링 및 클러스터링 중심에 대응되는 퇴화된 음성 데이터만 선택하는 것을 통해 처리하여, 데이터 양을 감소시킬 수 있고, 연산 효율을 향상시킬 수 있다.

S23: 처리해야 할 깨끗한 음성 데이터와 처리해야 할 퇴화된 음성 데이터에 따라, 처리해야 할 퇴화된 음성 데이터의 평가 점수를 산출한다.

처리해야 할 데이터가 유효 음성 세그먼트인 것을 예로 들면, 깨끗한 음성 데이터의 유효 음성 세그먼트와 퇴화된 음성 데이터의 유효 음성 세그먼트를 획득한 후, 깨끗한 음성 데이터의 유효 음성 세그먼트에 따라, 퇴화된 음성 데이터의 각 유효 음성 세그먼트에 대하여 프레임 별로 분석하여, 퇴화된 음성 데이터의 유효 음성 세그먼트의 평가 점수를 산출한다. 산출 방식은 한정하지 않으며, 예를 들어, 상기 평가 점수는 음성 데이터의 평균 평가점(Mean Opinion Score; MOS) 점수이고, 구체적인 산출 방법은 종래 기술과 같을 수 있으며, 예를 들어 POLQA 알고리즘 또는 PESQ 알고리즘을 사용하여 산출하여 획득하며, 여기서 상세히 설명하지 않는다.

S24: 처리해야 할 퇴화된 음성 데이터의 평가 특징을 추출한다.

상기 평가 특징은 사람의 청각을 감지하는 각도로부터 음성 데이터를 설명하고, 구체적으로 추출할 경우, 처리해야 할 퇴화된 음성 데이터의 시간 영역 특징을 먼저 추출하고, 예를 들어 음성 데이터의 단시간 평균 에너지, 음성의 세그먼트 배경 노이즈, 음성의 단시간 파형 충격 또는 진동, 예를 들어 기본 주파수 특징의 1차, 2차 차분 값 등과 같은 기본 주파수 특징 및 기본 주파수의 차분 특징, 그 다음 처리해야 할 퇴화된 음성 데이터의 주파수 영역 특징을 다시 추출하며, 상기 주파수 영역 특징은 예를 들어 FilterBank 특징, 선형 예측 코딩(Linear Predictive Coding; LPC) 특징 등이 있고, 상기 주파수 영역 특징을 추출할 경우, 사람의 청각을 설명할 수 있는 달팽이관 모양의 필터를 이용함으로써, 추출하는 주파수 영역 특징이 사람의 귀의 청각을 감지하는 각도로부터 음성 데이터를 설명할 수 있도록 하며, 퇴화된 음성 데이터를 더 잘 설명하기 위하여, 각 주파수 영역 특징의 평균값, 분산(variance), 최대치, 최소치, 및 예를 들어 1차, 2차 차분 값 등과 같은 차분 특징을 추출할 수도 있고, 구체적으로 어떤 평가 특징을 추출할지는 응용의 필요 및 음성 데이터의 퇴화 상황에 따라 확정되고, 구체적으로 본 출원은 이에 대하여 한정하지 않는다.

S25: 상기 추출된 처리해야 할 퇴화된 음성 데이터의 평가 특징과 상기 처리해야 할 퇴화된 음성 데이터의 평가 점수에 따라 훈련하여, 음성 품질 평가 모델을 구축한다.

훈련할 경우, 딥러닝 방식을 구체적으로 이용하여 음성 품질 평가 모델의 파라미터를 훈련하고 획득하여, 음성 품질 평가 모델을 구축한다.

딥러닝 방식이 이용하는 네트워크 토폴로지 구조는 심층 신경망(Deep Neural Networks; DNN), 컨볼루션 신경망(Convolutional Neural Networks; CNN), 순환 신경망(Recurrent Neural Networks; RNN), 장단기 메모리(Long Short-Term Memory; LSTM) 신경망 등의 네트워크 중 하나 또는 복수의 조합일 수 있고, 구체적으로 본 출원은 이에 대하여 한정하지 않으며, 구체적인 네트워크의 선택은 응용의 필요에 따라 확정된다. 모델의 입력과 출력을 확정한 후, 파라미터 훈련 과정은 종래 기술과 같으며, 여기서 상세히 설명하지 않는다.

나아가, 음성 품질 평가 모델은 서로 다른 유형의 모델로 설명할 수 있으며, 예를 들어 회귀 모델 또는 분류 모델을 이용하여 설명할 수 있다. 서로 다른 유형에서, 모델에 대응되는 입력과 출력은 상응하게 조정할 수 있다.

구체적으로, 회귀 모델로 음성 품질 평가 모델을 설명할 경우, 직접 상술한 획득한 처리해야 할 퇴화된 음성 데이터의 평가 특징과 처리해야 할 퇴화된 음성 데이터의 평가 점수를 각각 모델의 입력과 출력으로 결정한다.

분류 모델을 이용하여 음성 품질 평가 모델을 설명할 경우, 직접 상술한 획득한 처리해야 할 퇴화된 음성 데이터의 평가 특징을 모델의 입력으로 결정하고, 모델의 출력은 처리해야 할 퇴화된 음성 데이터의 평가 점수를 계량화한 후 획득한 평가 카테고리이다.

구체적으로 계량화할 경우, 고정 스텝 사이즈 또는 비고정 스텝 사이즈를 이용하여 퇴화된 음성 데이터의 평가 점수를 계량화할 수 있고, 만약 고정 스텝 사이즈를 이용할 경우, 고정 스텝 사이즈는 0.2이고, 모든 퇴화된 음성 데이터의 평가 점수를 계량화하여, 계량화된 후 퇴화된 음성 데이터의 카테고리를 획득하며, MOS점수를 예로 들면, 0.2의 고정 스텝 사이즈로 계량화할 경우, 1점부터 5점까지 계량화한 후 20개의 평가 카테고리를 획득할 수 있고, 만약 비고정 스텝 사이즈를 이용할 경우, 응용의 필요에 따라 퇴화된 음성 데이터의 각 범위 내의 평가 점수의 계량화 스텝 사이즈를 확정할 수 있으며, 예를 들어 평가 점수가 비교적 낮은 범위 내에서는 큰 스텝 사이즈를 이용하여 계량화할 수 있고, 평가 점수 비교적 높은 범위 내에서는 작은 스텝 사이즈를 이용하여 계량화할 수 있으며, MOS 점수를 예로 들면, 예를 들어 1점부터 3점까지는 비교적 낮은 점수 범위이며, 예를 들어 0.5와 같은 큰 스텝 사이즈를 이용하여 계량화할 수 있고, 3점부터 5점까지는 비교적 높은 점수 범위이며, 예를 들어 0.2와 같은 작은 스텝 사이즈를 이용하여 계량화할 수 있으며, 계량화한 후 모두 14개의 평가 카테고리를 획득할 수 있다.

물론, 기타 방법을 이용하여 상기 평가 점수를 계량화할 수도 있고, 평가 점수를 복수의 평가 카테고리로 나누며, 예를 들어 계량화한 후의 상기 평가 카테고리는 나쁨, 비교적 나쁨, 보통, 좋음, 비교적 좋음이며, 구체적으로 본 출원은 이에 대하여 한정하지 않는다.

S26: 통신 네트워크를 통과한 후 퇴화된 음성 데이터를 수신한다.

S27: 상기 퇴화된 음성 데이터의 평가 특징을 추출한다.

평가 특징의 추출 방식은 훈련 과정에서의 추출 방식과 서로 같고, 여기서 상세히 설명하지 않는다.

S28: 상기 평가 특징과 상기 구축된 음성 품질 평가 모델에 따라, 상기 퇴화된 음성 데이터를 품질 평가한다.

구체적으로, 현재의 퇴화된 음성 데이터의 평가 특징을 음성 품질 평가 모델의 입력으로 결정하고, 모델의 출력을 현재의 퇴화된 음성 데이터에 대한 품질 평가 결과로 결정한다. 만약 음성 품질 평가 모델을 회귀 모델로 설명할 경우, 품질 평가 결과는 평가 점수이고, 음성 품질 평가 모델을 분류 모델로 설명할 경우, 품질 평가 결과는 평가 카테고리이다.

본 실시예에서, 음성 품질 평가 모델을 이용하여 평가해야 할 음성 데이터를 품질 평가하는 것을 통하여, 음성 품질 평가를 할 때 싱글 엔드 음성 데이터만 필요하여, 양쪽 엔드 음성 데이터에 의존하여 조성되는 응용 한정 문제를 피함으로써, 응용 범위를 확장할 수 있다. 나아가, 딥러닝 방식으로 훈련하는 것을 통하여, 딥러닝 방식의 우수한 성능을 이용하여, 음성 품질 평가 모델이 더 정확해지도록 할 수 있으며, 더 나아가 음성 품질 평가 결과가 더 정확해질 수 있다. 나아가, 통신 분야의 음성 데이터를 품질 평가하는 것을 통하여, 딥러닝과 통신 분야의 음성 품질 평가를 서로 결합하여, 통신 분야의 음성 품질 평가에 새로운 해결 맥락을 제공할 수 있다.

도 3은 본 출원의 실시예에 따라 제공되는 음성 품질 평가 장치의 구조 개략도이다.

도 3에 도시된 바와 같이, 본 실시예의 장치(30)는 수신 모듈(31), 추출 모듈(32) 및 평가 모듈(33)을 포함한다.

수신 모듈(31)은 평가해야 할 음성 데이터를 수신하기 위한 것이다.

추출 모듈(32)은 상기 평가해야 할 음성 데이터의 평가 특징을 추출하기 위한 것이다.

평가 모듈(33)은 상기 평가해야 할 음성 데이터의 평가 특징과 구축된 음성 품질 평가 모델에 따라, 상기 평가해야 할 음성 데이터를 품질 평가하기 위한 것이며, 상기 음성 품질 평가 모델은 싱글 엔드 음성 데이터의 평가 특징과 상기 싱글 엔드 음성 데이터의 품질 정보 사이의 관계를 나타내기 위한 것이다.

일부 실시예에서, 상기 평가해야 할 음성 데이터는 통신 네트워크를 통과한 후 퇴화된 음성 데이터를 포함한다.

일부 실시예에서, 도 4를 참조하면, 본 실시예의 장치(30)는 음성 품질 평가 모델을 구축하기 위한 구축 모듈(34)을 더 포함하고, 상기 구축 모듈(34)은 제1 획득 서브 모듈(341), 제2 획득 서브 모듈(342), 산출 서브 모듈(343), 추출 서브 모듈(344) 및 훈련 서브 모듈(345)을 포함한다.

상기 제1 획득 서브 모듈(341)은 음성 데이터를 획득하기 위한 것이고, 상기 음성 데이터는 깨끗한 음성 데이터와 퇴화된 음성 데이터를 포함한다.

상기 제2 획득 서브 모듈(342)은 상기 깨끗한 음성 데이터에 따라 처리해야 할 깨끗한 음성 데이터를 획득하고, 상기 퇴화된 음성 데이터에 따라 처리해야 할 퇴화된 음성 데이터를 획득하기 위한 것이다.

상기 산출 서브 모듈(343)은 처리해야 할 깨끗한 음성 데이터와 처리해야 할 퇴화된 음성 데이터에 따라, 처리해야 할 퇴화된 음성 데이터의 평가 점수를 산출하기 위한 것이다.

상기 추출 서브 모듈(344)은 처리해야 할 퇴화된 음성 데이터의 평가 특징을 추출하기 위한 것이다.

상기 훈련 서브 모듈(345)은 상기 처리해야 할 퇴화된 음성 데이터의 평가 특징과 상기 처리해야 할 퇴화된 음성 데이터의 평가 점수에 따라 훈련하여, 음성 품질 평가 모델을 구축하기 위한 것이다.

일부 실시예에서, 상기 음성 품질 평가 모델은 딥러닝 방식으로 훈련한 후 구축된다.

일부 실시예에서, 상기 훈련 서브 모듈(345)은 구체적으로,

회귀 모델로 상기 음성 품질 평가 모델을 설명할 경우, 상기 처리해야 할 퇴화된 음성 데이터의 평가 특징과, 상기 처리해야 할 퇴화된 음성 데이터의 평가 점수를 각각 모델의 입력과 모델의 출력으로 결정하여 모델 파라미터를 훈련함으로써 음성 품질 평가 모델을 구축하거나, 또는

분류 모델로 상기 음성 품질 평가 모델을 설명할 경우, 상기 처리해야 할 퇴화된 음성 데이터의 평가 특징을 모델의 입력으로 결정하고, 상기 처리해야 할 퇴화된 음성 데이터의 평가 점수를 계량화하여 평가 카테고리를 획득하며, 평가 점수 카테고리를 모델의 출력으로 결정하여 모델 파라미터를 훈련함으로써 음성 품질 평가 모델을 구축하기 위한 것이다.

일부 실시예에서, 상기 제2 획득 서브 모듈(342)은 상기 깨끗한 음성 데이터에 따라 처리해야 할 깨끗한 음성 데이터를 획득하기 위한 것이고, 획득된 깨끗한 음성 데이터를 처리해야 할 깨끗한 음성 데이터로 직접 결정하거나, 또는 획득된 깨끗한 음성 데이터의 유효 음성 세그먼트를 추출하고, 깨끗한 음성 데이터의 유효 음성 세그먼트를 처리해야 할 깨끗한 음성 데이터로 결정하는 것을 포함한다.

일부 실시예에서, 상기 제2 획득 서브 모듈(342)은 상기 퇴화된 음성 데이터에 따라 처리해야 할 퇴화된 음성 데이터를 획득하기 위한 것이고,

획득된 퇴화된 음성 데이터의 유효 음성 세그먼트를 추출하고, 퇴화된 음성 데이터의 유효 음성 세그먼트를 클러스터링하며, 클러스터링 중심에 대응되는 퇴화된 음성 데이터의 유효 음성 세그먼트를 처리해야 할 퇴화된 음성 데이터로 결정하는 것을 포함한다.

이해 가능한 바로는, 본 실시예의 장치는 상술한 방법의 실시예에 대응되고, 구체적인 내용은 방법의 실시예의 관련 설명을 참조할 수 있으며, 여기서 상세히 설명하지 않는다.

본 출원의 실시예는 또한 기기를 제공하고, 상기 기기는 하나 또는 복수의 프로세서, 및 하나 또는 복수의 프로그램을 저장하기 위한 메모리를 포함하며, 상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수의 프로세서가 하기의 방법, 즉, 평가해야 할 음성 데이터를 수신하는 단계, 상기 평가해야 할 음성 데이터의 평가 특징을 추출하는 단계, 및 상기 평가해야 할 음성 데이터의 평가 특징과 구축된 음성 품질 평가 모델에 따라, 상기 평가해야 할 음성 데이터를 품질 평가하는 단계를 실행하도록 하고, 상기 음성 품질 평가 모델은 싱글 엔드 음성 데이터의 평가 특징과 상기 싱글 엔드 음성 데이터의 품질 정보 사이의 관계를 나타내기 위한 것이다.

본 출원의 실시예는 또한 비일시적 컴퓨터 판독 가능 저장 매체를 제공하고, 상기 저장 매체의 하나 또는 복수의 프로그램이 기기의 하나 또는 복수의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수의 프로세서가 하기의 방법, 즉, 평가해야 할 음성 데이터를 수신하는 단계, 상기 평가해야 할 음성 데이터의 평가 특징을 추출하는 단계, 및 상기 평가해야 할 음성 데이터의 평가 특징과 구축된 음성 품질 평가 모델에 따라, 상기 평가해야 할 음성 데이터를 품질 평가하는 단계를 실행하도록 하고, 상기 음성 품질 평가 모델은 싱글 엔드 음성 데이터의 평가 특징과 상기 싱글 엔드 음성 데이터의 품질 정보 사이의 관계를 나타내기 위한 것이다.

본 출원의 실시예는 컴퓨터 프로그램 제품을 더 제공하고, 상기 컴퓨터 프로그램 제품이 기기의 하나 또는 복수의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수의 프로세서가 하기의 방법, 즉, 평가해야 할 음성 데이터를 수신하는 단계, 상기 평가해야 할 음성 데이터의 평가 특징을 추출하는 단계, 및 상기 평가해야 할 음성 데이터의 평가 특징과 구축된 음성 품질 평가 모델에 따라, 상기 평가해야 할 음성 데이터를 품질 평가하는 단계를 실행하도록 하고, 상기 음성 품질 평가 모델은 싱글 엔드 음성 데이터의 평가 특징과 상기 싱글 엔드 음성 데이터의 품질 정보 사이의 관계를 나타내기 위한 것이다.

이해 가능한 바로는, 상술한 각 실시예 중 서로 같거나 유사한 부분은 서로 참조할 수 있고, 일부 실시예에서 상세히 설명하지 않은 내용은 기타 실시예 중 서로 같거나 유사한 내용을 참조할 수 있다.

설명해야 하는 바로는, 본 출원의 설명에서, "제1", "제2" 등의 용어는 단지 설명의 목적을 위한 것일 뿐, 상대적인 중요성을 지시하거나 암시하는 것으로 이해해서는 안 된다. 이밖에, 본 출원의 설명에서, 다른 설명이 없는 한, "복수"의 함의는 적어도 두 개를 가리킨다.

흐름도 또는 여기서 기타 방식으로 설명된 모든 프로세스 또는 방법에 관한 설명은, 특정의 로직 기능 또는 프로세스의 단계를 구현하기 위한 하나 또는 그 이상의 실행 가능한 명령의 코드를 포함하는 모듈, 세그먼트 또는 파트를 나타내는 것으로 이해될 수 있다. 또한, 본 출원의 바람직한 실시 형태의 범위는 그 밖의 다른 구현을 포함하며, 그 중에서 나타낸 또는 토론된 순서에 따르지 않아도 된다. 이는 언급된 기능이 실질적으로 동시에 또는 상반되는 순서에 따라 기능을 실행하는 것을 포함하며, 본 출원의 실시예가 속한 기술 분야의 통상의 지식을 가진 자는 이를 이해해야 한다.

본 출원의 각 파트는 하드웨어, 소프트웨어, 펌웨어 또는 이들의 조합으로 구현될 수 있는 것으로 이해되어야 한다. 상기 실시 형태에서, 다수의 단계 또는 방법은, 메모리에 저장되어 적절한 명령 실행 시스템에 의해 실행되는 소프트웨어 또는 펌웨어를 통하여 구현될 수 있다. 예를 들어, 하드웨어를 통하여 구현되는 경우, 다른 실시 형태에서와 마찬가지로, 본 기술 분야에서 널리 알려진 하기 기술 중의 임의의 하나 또는 이들의 조합을 통하여 구현될 수 있다. 상기 '기술'은 데이터 신호에 대하여 로직 기능을 구현하기 위한 로직 게이트 회로를 갖춘 이산 로직 회로, 적절한 조합 로직 게이트 회로를 갖춘 전용 집적 회로, 프로그램 가능 게이트 어레이(PGA), 필드-프로그램 가능 게이트 어레이(FPGA) 등이다.

본 기술 분야에서 통상의 지식을 가진 자는, 상술한 실시예에 따른 방법에 포함된 전체 또는 일부 단계가 프로그램을 통하여 관련 하드웨어를 명령함으로써 구현될 수 있으며, 상술한 프로그램은 컴퓨터 판독 가능 매체에 저장되며, 당해 프로그램은 실행시 방법 실시예에 따른 단계 중 하나 또는 그 조합을 포함함을 이해할 수 있다.

또한, 본 출원의 각 실시예에 따른 각 기능 유닛은 하나의 프로세서 모듈에 집적될 수 있으며, 각 유닛이 독립적으로, 물리적으로 존재할 수도 있으며, 2개 또는 2개 이상의 유닛이 하나의 모듈에 집적될 수도 있다. 상기 집적된 모듈은 하드웨어의 형태를 이용하여 구현될 수 있으며, 소프트웨어 기능 모듈의 형태를 이용하여 구현될 수도 있다. 상기 집적된 모듈은 소프트웨어 기능 모듈의 형태로 구현되고, 독립적인 제품으로 판매 또는 사용되는 경우 하나의 컴퓨터 판독 가능 저장 매체에 저장될 수도 있다.

이상 언급된 저장 매체는 롬, 자기 디스크 또는 씨디롬 등일 수 있다.

본 명세서의 설명에서, 참고 용어 '일 실시예', '일부 실시예', '예시', '구체적인 예시', 또는 '일부 예시' 등의 설명은 당해 실시예 또는 예시를 결부하여 설명한 구체적인 특징, 구조, 재료 또는 특점이 본 출원의 적어도 하나의 실시예 또는 예시에 포함됨을 의미한다. 본 명세서에서 상기 용어에 대한 예시적 표현은 동일한 실시예 또는 예시를 반드시 가리키는 것은 아니다. 또한, 설명된 구체적인 특징, 구조, 재료 또는 특점은 임의의 하나 또는 다수의 실시예 또는 예시에서 적절한 형태로 결합될 수 있다.

비록 상술한 바와 같이 이미 본 출원의 실시예를 도시 및 기재하였지만, 상기 실시예들은 예시적인 것으로 본 출원에 대한 한정이 아니며, 본 출원이 속하는 기술 분야의 일반 지식을 파악한 당업자라면 본 출원의 범위 내에서 상기 실시예에 대한 변경, 수정, 대체 또는 변형을 가할 수 있을 것이라는 점을 이해할 것이다.

Claims

음성 품질 평가 방법에 있어서,
음성 품질 평가 모델을 구축하는 단계 - 상기 음성 품질 평가 모델을 구축하는 단계는, 깨끗한 음성 데이터와 퇴화된 음성 데이터를 포함하는 음성 데이터를 획득하는 단계, 상기 깨끗한 음성 데이터에 따라 처리해야 할 깨끗한 음성 데이터를 획득하고, 상기 퇴화된 음성 데이터에 따라 처리해야 할 퇴화된 음성 데이터를 획득하는 단계, 상기 처리해야 할 깨끗한 음성 데이터와 상기 처리해야 할 퇴화된 음성 데이터에 따라, 상기 처리해야 할 퇴화된 음성 데이터의 평가 점수를 산출하는 단계, 상기 처리해야 할 퇴화된 음성 데이터의 평가 특징을 추출하는 단계, 및 상기 처리해야 할 퇴화된 음성 데이터의 평가 특징과 상기 처리해야 할 퇴화된 음성 데이터의 평가 점수에 따라 훈련하여, 음성 품질 평가 모델을 구축하는 단계를 포함함 - ,
평가해야 할 음성 데이터를 수신하는 단계 - 상기 평가해야 할 음성 데이터는 통신 네트워크를 통과한 후 퇴화된 음성 데이터를 포함함 - ,
상기 평가해야 할 음성 데이터의 평가 특징을 추출하는 단계, 및
상기 평가해야 할 음성 데이터의 평가 특징과 구축된 음성 품질 평가 모델에 따라, 상기 평가해야 할 음성 데이터를 품질 평가하는 단계 - 상기 음성 품질 평가 모델은 싱글 엔드 음성 데이터의 평가 특징과 상기 싱글 엔드 음성 데이터의 품질 정보 사이의 관계를 나타내기 위한 것임 -
를 포함하고,
상기 퇴화된 음성 데이터에 따라 처리해야 할 퇴화된 음성 데이터를 획득하는 단계는,
상기 획득된 퇴화된 음성 데이터를 클러스터링하고, 클러스터링 중심에 대응되는 퇴화된 음성 데이터를 상기 처리해야 할 퇴화된 음성 데이터로 결정하는 단계, 또는
상기 획득된 퇴화된 음성 데이터의 유효 음성 세그먼트를 추출하고, 상기 퇴화된 음성 데이터의 유효 음성 세그먼트를 클러스터링하며, 클러스터링 중심에 대응되는 퇴화된 음성 데이터의 유효 음성 세그먼트를 상기 처리해야 할 퇴화된 음성 데이터로 결정하는 단계
를 포함하는 것을 특징으로 하는 음성 품질 평가 방법.
삭제
삭제
제1항에 있어서,
상기 음성 품질 평가 모델은 딥러닝 방식으로 훈련한 후 구축된 것을 특징으로 하는 음성 품질 평가 방법.
제1항에 있어서,
상기 처리해야 할 퇴화된 음성 데이터의 평가 특징과 상기 처리해야 할 퇴화된 음성 데이터의 평가 점수에 따라 훈련하여, 음성 품질 평가 모델을 구축하는 단계는,
회귀 모델로 상기 음성 품질 평가 모델을 설명할 경우, 상기 처리해야 할 퇴화된 음성 데이터의 평가 특징과 상기 처리해야 할 퇴화된 음성 데이터의 평가 점수를 각각 모델의 입력과 모델의 출력으로 결정하여 모델 파라미터를 훈련함으로써 상기 음성 품질 평가 모델을 구축하는 단계, 또는
분류 모델로 상기 음성 품질 평가 모델을 설명할 경우, 상기 처리해야 할 퇴화된 음성 데이터의 평가 특징을 모델의 입력으로 결정하고, 상기 처리해야 할 퇴화된 음성 데이터의 평가 점수를 계량화하여 평가 카테고리를 획득하며, 상기 평가 카테고리를 모델의 출력으로 결정하여 모델 파라미터를 훈련함으로써 상기 음성 품질 평가 모델을 구축하는 단계
를 포함하는 것을 특징으로 하는 음성 품질 평가 방법.
제1항에 있어서,
상기 깨끗한 음성 데이터에 따라 처리해야 할 깨끗한 음성 데이터를 획득하는 단계는,
상기 획득된 깨끗한 음성 데이터를 상기 처리해야 할 깨끗한 음성 데이터로 직접 결정하는 단계, 또는
상기 획득된 깨끗한 음성 데이터의 유효 음성 세그먼트를 추출하고, 상기 깨끗한 음성 데이터의 유효 음성 세그먼트를 상기 처리해야 할 깨끗한 음성 데이터로 결정하는 단계
를 포함하는 것을 특징으로 하는 음성 품질 평가 방법.
삭제
음성 품질 평가 장치에 있어서,
음성 품질 평가 모델을 구축하기 위한 구축 모듈,
평가해야 할 음성 데이터를 수신하기 위한 수신 모듈 - 상기 평가해야 할 음성 데이터는 통신 네트워크를 통과한 후 퇴화된 음성 데이터를 포함함 - ,
상기 평가해야 할 음성 데이터의 평가 특징을 추출하기 위한 추출 모듈, 및
상기 평가해야 할 음성 데이터의 평가 특징과 구축된 음성 품질 평가 모델에 따라, 상기 평가해야 할 음성 데이터를 품질 평가하기 위한 평가 모듈
을 포함하고,
상기 구축 모듈은,
깨끗한 음성 데이터와 퇴화된 음성 데이터를 포함하는 음성 데이터를 획득하기 위한 제1 획득 서브 모듈,
상기 깨끗한 음성 데이터에 따라 처리해야 할 깨끗한 음성 데이터를 획득하고, 상기 퇴화된 음성 데이터에 따라 처리해야 할 퇴화된 음성 데이터를 획득하기 위한 제2 획득 서브 모듈,
상기 처리해야 할 깨끗한 음성 데이터와 상기 처리해야 할 퇴화된 음성 데이터에 따라, 상기 처리해야 할 퇴화된 음성 데이터의 평가 점수를 산출하기 위한 산출 서브 모듈,
상기 처리해야 할 퇴화된 음성 데이터의 평가 특징을 추출하기 위한 추출 서브 모듈, 및
상기 처리해야 할 퇴화된 음성 데이터의 평가 특징과 상기 처리해야 할 퇴화된 음성 데이터의 평가 점수에 따라 훈련하여, 음성 품질 평가 모델을 구축하기 위한 훈련 서브 모듈
을 포함하며,
상기 음성 품질 평가 모델은 싱글 엔드 음성 데이터의 평가 특징과 상기 싱글 엔드 음성 데이터의 품질 정보 사이의 관계를 나타내기 위한 것이고,
상기 제2 획득 서브 모듈에 의해 상기 퇴화된 음성 데이터에 따라 처리해야 할 퇴화된 음성 데이터를 획득하는 것은,
상기 획득된 퇴화된 음성 데이터를 클러스터링하고, 클러스터링 중심에 대응되는 퇴화된 음성 데이터를 상기 처리해야 할 퇴화된 음성 데이터로 결정하거나, 또는
상기 획득된 퇴화된 음성 데이터의 유효 음성 세그먼트를 추출하고, 상기 퇴화된 음성 데이터의 유효 음성 세그먼트를 클러스터링하며, 클러스터링 중심에 대응되는 퇴화된 음성 데이터의 유효 음성 세그먼트를 상기 처리해야 할 퇴화된 음성 데이터로 결정하는 것
을 포함하는 것을 특징으로 하는 음성 품질 평가 장치.
삭제
삭제
제8항에 있어서,
상기 음성 품질 평가 모델은 딥러닝 방식으로 훈련한 후 구축된 것을 특징으로 하는 음성 품질 평가 장치.
제8항에 있어서,
상기 훈련 서브 모듈은,
회귀 모델로 상기 음성 품질 평가 모델을 설명할 경우, 상기 처리해야 할 퇴화된 음성 데이터의 평가 특징과 상기 처리해야 할 퇴화된 음성 데이터의 평가 점수를 각각 모델의 입력과 모델의 출력으로 결정하여 모델 파라미터를 훈련함으로써 상기 음성 품질 평가 모델을 구축하거나, 또는
분류 모델로 상기 음성 품질 평가 모델을 설명할 경우, 상기 처리해야 할 퇴화된 음성 데이터의 평가 특징을 모델의 입력으로 결정하고, 상기 처리해야 할 퇴화된 음성 데이터의 평가 점수를 계량화하여 평가 카테고리를 획득하며, 상기 평가 카테고리를 모델의 출력으로 결정하여 모델 파라미터를 훈련함으로써 상기 음성 품질 평가 모델을 구축하기 위한 것을 특징으로 하는 음성 품질 평가 장치.
제8항에 있어서,
상기 제2 획득 서브 모듈에 의해 상기 깨끗한 음성 데이터에 따라 처리해야 할 깨끗한 음성 데이터를 획득하는 것은,
상기 획득된 깨끗한 음성 데이터를 상기 처리해야 할 깨끗한 음성 데이터로 직접 결정하거나, 또는
상기 획득된 깨끗한 음성 데이터의 유효 음성 세그먼트를 추출하고, 상기 깨끗한 음성 데이터의 유효 음성 세그먼트를 상기 처리해야 할 깨끗한 음성 데이터로 하는 것을 특징으로 하는 음성 품질 평가 장치.
삭제
기기에 있어서,
하나 또는 복수의 프로세서, 및
하나 또는 복수의 프로그램을 저장하기 위한 메모리
를 포함하고,
상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수의 프로세서가 제1항 및 제4항 내지 제6항 중 임의의 한 항의 방법을 실행하도록 하는 것을 특징으로 하는 기기.
비일시적 컴퓨터 판독 가능 저장 매체에 있어서,
상기 저장 매체의 하나 또는 복수의 프로그램이 기기의 하나 또는 복수의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수의 프로세서가 제1항 및 제4항 내지 제6항 중 임의의 한 항의 방법을 실행하도록 하는 것을 특징으로 하는 비일시적 컴퓨터 판독 가능 저장 매체.
컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램이 기기의 하나 또는 복수의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수의 프로세서가 제1항 및 제4항 내지 제6항 중 임의의 한 항의 방법을 실행하도록 하는 것을 특징으로 하는 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램.