KR102599978B1

KR102599978B1 - 음성 검출 방법 및 장치

Info

Publication number: KR102599978B1
Application number: KR1020210031674A
Authority: KR
Inventors: 신 리; 빈 황; 처 장; 진펑 바이; 레이 지아
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2020-07-20
Filing date: 2021-03-10
Publication date: 2023-11-08
Also published as: US20210210113A1; EP3816999A2; CN111863036A; EP3816999A3; KR20220011064A; CN111863036B; EP3816999B1; JP7406521B2; JP2022017170A

Abstract

본 출원은 음성 검출 방법 및 장치를 공개하며, 음성 처리 및 딥 러닝 기술분야에 관한 것이다. 구체적인 실시형태로서, 타겟음성을 획득하는 단계와, 미리 훈련된 심층 신경망에 타겟음성을 입력하여, 해당 타겟음성이 미리 설정된 복수 방향구간의 매개 방향구간에서 서브음성을 갖는지 여부를 얻는 단계를 포함하며, 해당 심층 신경망은 음성이 해당 복수 방향구간의 매개 방향구간에서 서브음성을 갖는지 여부를 예측하는데 사용된다. 본 출원은 매개 방향구간을 예측함으로써, 타겟음성이 매개 방향구간에서 서브음성을 갖는지 여부를 정확하게 확정할 수 있어 정확한 예측을 실현할 수 있다.

Description

음성 검출 방법 및 장치{METHOD AND APPARATUS FOR DETECTING VOICE}

본 출원은 컴퓨터 기술분야에 관한 것이며, 구체적으로 음성처리 및 딥 러닝 기술분야, 특히 음성 검출 방법 및 장치에 관한 것이다.

도달방향(Direction Of Arrival: DOA) 추정은 파가 도달하는 방향에 대한 추정, 즉 음원의 방향을 추정하는 것이다. 여기서 소스는 오디오소스 또는 기타의 통신에 사용할 수 있는 신호소스일 수 있다. 음성 활동 검출(Voice Activity Detection: VAD)은 현재 오디오에 음성신호(즉, 사람의 음성신호)가 포함되어 있는지 여부를 검출할 수 있다. 즉, 오디오를 판단함으로써 다양한 배경 소음으로부터 사람의 음성신호를 구분할 수 있다. 관련기술 중의 도달방향 추정은 일반적으로 수신장치 어레이를 사용하여 신호를 획득하고, 수신장치로부터 신호까지의 파 도달방향선을 확정하고, 파 도달방향선을 이용하여 삼각측량을 행하여 도달방향을 확정한다.

음성 검출 방법, 장치, 전자기기 및 저장매체를 제공한다.

제1 양태에 따르면, 음성 검출 방법으로서, 타겟음성을 획득하는 단계와, 미리 훈련된 심층 신경망에 타겟음성을 입력하여, 타겟음성이 미리 설정된 복수 방향구간의 매개 방향구간에서 서브음성을 갖는지 여부를 얻는 단계를 포함하며, 심층 신경망은 음성이 복수 방향구간의 매개 방향구간에서 서브음성을 갖는지 여부를 예측하는데 사용된다.

제2 양태에 따르면, 심층 신경망의 훈련 방법으로서, 훈련샘플을 획득하는 단계 - 상기 훈련샘플 중의 음성샘플은 미리 설정된 적어도 하나의 방향구간의 서브음성을 포함함 - 와, 상기 음성샘플을 상기 심층 신경망에 입력하여 예측결과를 얻는 단계 - 상기 심층 신경망은 음성이 복수 방향구간의 매개 방향구간에서 서브음성을 갖는지 여부를 예측하는데 사용됨 - 와, 상기 예측결과에 근거하여 상기 심층 신경망을 훈련시켜 훈련된 심층 신경망을 얻는 단계를 포함한다.

제3 양태에 따르면, 음성 검출 장치으로서, 타겟음성을 획득하도록 구성되는 획득유닛과, 상기 타겟음성을 미리 훈련된 심층 신경망에 입력하여, 상기 타겟음성이 미리 설정된 복수 방향구간의 매개 방향구간에서 서브음성을 갖는지 여부를 얻도록 구성되는 예측유닛 - 상기 심층 신경망은 음성이 상기 복수 방향구간의 매개 방향구간에서 서브음성을 갖는지 여부를 예측하는데 사용됨 - 을 포함한다.

제4 양태에 따르면, 심층 신경망의 훈련 장치으로서, 훈련샘플을 획득하도록 구성되는 샘플 획득 유닛 - 상기 훈련샘플 중의 음성샘플은 미리 설정된 적어도 하나의 방향구간의 서브음성을 포함함 - 과, 상기 음성샘플을 상기 심층 신경망에 입력하여 예측결과를 얻도록 구성되는 입력유닛 - 상기 심층 신경망은 음성이 복수 방향구간의 매개 방향구간에서 서브음성을 갖는지 여부를 예측하는데 사용됨- 과, 상기 예측결과에 근거하여 상기 심층 신경망을 훈련시켜 훈련된 심층 신경망을 얻도록 구성되는 훈련유닛을 포함한다.

제5 양태에 따르면, 적어도 하나의 프로세서와, 적어도 하나의 프로그램을 저장하기 위한 저장장치를 구비하는 전자기기로서, 적어도 하나의 프로그램이 적어도 하나의 프로세서에 의해 실행될 경우, 적어도 하나의 프로세서가 음성 검출 방법 또는 심층 신경망 훈련 방법 중 어느 한 실시예의 방법을 실현하도록 한다.

제6 양태에 따르면, 컴퓨터 프로그램이 저장된 컴퓨터 판독가능 저장매체로서, 해당 프로그램은 프로세서에 의해 실행될 때, 음성 검출 방법 또는 심층 신경망 훈련 방법 중 어느 한 실시예의 방법을 실현하도록 한다.

본 출원의 기술수단에 따르면, 매개 방향구간을 각각 예측함으로써, 타겟음성이 매개 방향구간에서 서브음성을 갖는지 여부를 정확하게 확정할 수 있어 정확한 예측을 실현할 수 있다.

아래의 도면에 나타낸 비제한적인 실시예에 대한 상세한 설명을 참조함으로써, 본 출원의 다른 특징, 목적 및 이점이 더욱 명백해질 것이다.
도 1은 본 출원의 일부 실시예들이 적용될 수 있는 예시적인 시스템 아키텍처이다.
도 2는 본 출원에 따른 음성 검출 방법의 일 실시예의 흐름도이다.
도 3a는 본 출원에 따른 음성 검출 방법의 하나의 애플리케이션 시나리오의 개략도이다.
도 3b는 본 출원에 따른 음성 검출을 위한 심층 신경망의 예측 프로세스의 개략도이다.
도 4a는 본 출원에 따른 심층 신경망의 훈련 방법의 일 실시예의 흐름도이다.
도 4b는 본 출원에 따른 음성 검출을 위한 심층 신경망의 훈련 네트워크 구조 개략도이다.
도 5는 본 출원에 따른 음성 검출 장치의 일 실시예의 개략적인 구조도이다.
도 6은 본 출원의 실시예의 음성 검출 방법을 실현하기 위한 전자기기의 블록도이다.

이하, 첨부된 도면들을 참조하면서 본 출원의 예시적인 실시예들을 설명하되, 그 중에는 이해를 용이하게 하기 위한 본 출원의 실시예들의 다양한 세부사항들을 포함하며, 이들은 단지 예시적인 것으로 간주되어야 한다. 따라서, 당업자는 본 출원의 범위 및 사상을 벗어남이 없이 여기에 설명된 실시예에 대해 다양한 변경 및 수정이 이루어질 수 있음을 인식해야 한다. 또한, 이하의 설명에서는 명확성과 간결성을 위해, 잘 알려진 기능 및 구조에 대한 설명은 생략한다.

본 출원의 실시예와 실시예에 있어서의 특징은 충돌하지 않는 한, 서로 결합될 수 있다는 점에 유의해야 한다. 이하, 본 출원을 도면을 참조하고 실시예를 결합하여 상세하게 설명한다.

도 1은 본 출원의 음성 검출 방법 또는 음성 검출 장치의 실시예가 적용될 수 있는 예시적인 시스템 아키텍처(100)를 나타낸다.

도 1에 나타낸 바와 같이, 시스템 아키텍처(100)는 단말 기기(101, 102, 103), 네트워크(104) 및 서버(105)를 포함할 수 있다. 네트워크(104)는 단말 기기(101, 102, 103)와 서버(105) 사이에 통신 링크를 제공하기 위한 매체로 사용된다. 네트워크(104)는 예를 들어, 유선, 무선 통신 링크 혹은 광섬유 케이블 등과 같은 각종 접속 유형을 포함할 수 있다.

사용자는 단말 기기(101, 102, 103)를 사용하여 네트워크(104)를 통해 서버(105)와 상호 작용함으로써 메시지 등을 수신 또는 송신할 수 있다. 단말 기기(101, 102, 103)에는 예를 들어, 음성 검출 애플리케이션, 생방송 애플리케이션, 인스턴트 통신 툴, 메일 클라이언트, 소셜 플랫폼 소프트웨어 등의 다양한 통신 클라이언트 어플리케이션이 설치될 수 있다.

단말 기기(101, 102, 103)는 하드웨어일 수 있고 소프트웨어일 수도 있다. 단말 기기(101, 102, 103)가 하드웨어인 경우, 디스플레이 화면을 갖는 다양한 전자 기기일 수 있으며, 스마트 폰, 태블릿 컴퓨터, 전자 책 리더, 랩톱 컴퓨터, 데스크톱 컴퓨터 등을 포함하지만 이에 한정되지 않는다. 단말 기기(101, 102, 103)가 소프트웨어인 경우, 상기 나열한 전자기기에 설치될 수 있다. 단말기기는(예를 들어, 분산형 서비스를 제공하기 위한) 복수의 소프트웨어 또는 소프트웨어 모듈로서 구현될 수 있으며, 단일 소프트웨어 또는 소프트웨어 모듈로서 구현될 수도 있다. 여기서는 특별히 한정하지 않는다.

서버(105)는 예를 들어, 단말기기(101, 102, 103)에 지원을 제공하는 백그라운드 서버와 같은 다양한 서비스를 제공하는 서버일 수 있다. 백그라운드 서버는 수신된 타겟음성 등 데이터에 대해 분석 등 처리를 행하고 처리결과(예를 들어, 심층 신경망의 예측결과)를 단말기기에 피드백할 수 있다.

본 출원의 실시예에 의한 음성 검출 방법은, 서버(105) 혹은 단말 기기(101, 102, 103)에 의해 실행될 수 있으며, 따라서, 음성 검출 장치는 서버(105) 혹은 단말기기(101, 102, 103)에 설치될 수 있다.

도 1의 단말기기, 네트워크 및 서버의 수량은 단지 예시적인 것임을 이해해야 한다. 구현의 수요에 따라 임의의 수량의 단말기기, 네트워크 및 서버를 구비할 수 있다.

계속하여 도 2를 참조하고, 본 출원에 따른 음성 검출 방법의 일 실시예의 프로세스(200)를 나타낸다. 해당 음성 검출 방법은 다음의 단계를 포함한다.

단계(201)에서, 타겟음성을 취득한다.

본 실시예에서, 음성 검출 방법이 실행되는 실행주체(예를 들어, 도 1에 도시된 서버 또는 단말기기)는 타겟음성을 획득할 수 있다. 실제로, 타겟음성은 단일 채널 음성 또는 다중 채널 음성일 수 있다. 즉, 타겟음성은 하나의 마이크가 수신한 음성이거나, 복수의 서로 다른 수신방향의 마이크로 구성된 마이크로폰 어레이가 수신한 음성일 수 있다.

단계(202)에서, 타겟음성을 미리 훈련된 심층 신경망에 입력하여, 타겟음성이 미리 설정된 복수 방향구간의 매개 방향구간에서 서브음성을 갖는지 여부를 얻는바, 심층 신경망은 음성이 복수 방향구간의 매개 방향구간에서 서브음성을 갖는지 여부를 예측하는데 사용된다.

본 실시예에서, 상기 실행주체는 사전 훈련된 심층 신경망에 타겟음성을 입력하여, 해당 심층 신경망이 출력한 예측결과를 얻을 수 있다. 구체적으로, 해당 예측결과는 타겟음성이 미리 설정된 복수 방향구간의 매개 방향구간에 서브음성이 있는지 그 여부결과이다. 타겟음성은 적어도 하나의 음원에서 나오는 음성으로, 각 음원은 타겟음성 중의 하나의 서브음성을 방출하며, 매개 음원은 하나의 도달방향에 대응된다. 본 출원에서 복수는 적어도 두개를 나타낸다.

구체적으로, 심층 신경망은 컨볼루션 신경망, 잔여 신경망 등과 같은 다양한 네트워크일 수 있다.

예측결과는 상기 복수 방향구간의 매개 방향구간을 예측한, 서브음성이 있는지 여부 결과를 포함할 수 있다. 예를 들어, 전방향은 360°를 포함하고, 매개 방향구간이 120°를 포함하면 상기 복수 방향구간은 3개 방향구간을 포함할 수 있다. 매개 방향구간이 36°를 포함할 경우, 상기 복수 방향구간은 10개의 방향구간을 포함할 수 있다. 매개 방향구간이 36°를 포함할 경우, 상기 복수 방향구간은 12개의 방향구간을 포함할 수 있다.

상기 심층 신경망의 예측결과는 매개 방향구간에 서브음성이 있는지를 전면적이고 개별적으로 예측할 수 있으며, 매개 방향구간은 해당 예측결과에 있어서 대응하는 결과가 존재한다. 예를 들어, 방향구간이 12개일 경우, 예측결과에는 12개의 결과가 있을 수 있으며, 서로 다른 방향의 구간은 12개의 결과에 있어서 서로 다른 결과에 각각 대응된다.

실제로, 예측결과는 고정적일 수 있는바, 예를 들어, 예측결과는 서브음성이 있음을 나타내는 "1" 또는 서브음성이 없음을 나타내는 "0"일 수 있다. 또는, 예측결과는 정량적일 수도 있는바, 예를 들어, 예측결과는 "0.96"과 같이 서브음성의 존재를 나타내는 확률p일 수 있으며, 해당 확률의 값 범위는 [0, 1]이다. 해당 예측결과는 0.95와 같은 임계값을 가질 수 있는데, 즉 해당 확률이 해당 임계값 이상이면 타겟음성은 해당 방향구간에서 서브음성을 갖는다. 또한, 예측결과는 "0.06"과 같이 서브음성이 없는 확률q를 나타낼 수도 있으며, 해당 확률의 범위는 [1, 0]이다. 해당 예측결과는 0.05와 같은 임계값을 가질 수 있는바, 즉 해당 확률이 해당 임계값 이하이면 타겟음성은 해당 방향구간에서 서브음성을 갖는다.

본 출원의 상술한 실시예에 의한 방법은 매개 방향구간을 각각 예측함으로써, 타겟음성이 매개 방향구간에서 서브음성을 갖는지 여부를 정확하게 판단할 수 있어 정확한 예측을 실현할 수 있다.

계속하여 도 3a를 참조하고, 도 3a는 본 실시예에 따른 음성 검출 방법의 하나의 애플리케이션 시나리오의 개략도이다. 도 3a의 애플리케이션 시나리오에 있어서, 실행주체(301)는 타겟음성(302)을 획득한다. 실행주체(301)는 사전 훈련된 심층 신경망에 타겟음성(302)을 입력하여 심층 신경망의 예측결과(303)를 얻는다. 즉, 타겟음성이 미리 설정된 3개의 방향구간의 매개 방향구간에서 서브음성을 갖는지 여부를 얻는바, 구체적으로, 첫번째 방향구간에는 서브음성이 있고, 두번째 방향구간에는 서브음성이 있으며, 세번째 방향구간에는 서브음성이 없다는 예측결과(303)를 얻는다. 그 중, 심층 신경망은 입력된 음성이 상기 세 방향구간의 매개 방향구간에서 서브음성을 갖는지 여부를 예측하는데 사용된다.

본 출원은 또한 음성 검출 방법의 또 하나의 실시예를 제공하는바, 심층 신경망은 멀티 헤드 완전 연결 네트워크를 포함하며, 멀티 헤드 완전 연결 네트워크의 출력은 각각 음성이 복수 방향구간의 매개 방향구간에서 서브음성을 갖는지 여부를 표시하는데 사용되며, 멀티 헤드 완전 연결 네트워크 중 임의의 두개의 완전 연결 네트워크에 대응하는 방향구간은 부동하다.

본 실시예에 있어서, 심층 신경망의 완전 연결 네트워크는 멀티 헤드 완전 연결 네트워크일 수 있다. 음성 검출 방법이 실행되는 실행주체(도 1에 표시된 서버 또는 단말기기)는 멀티 헤드 완전 연결 네트워크에 포함된 복수의 완전 연결 네트워크를 사용하여 완전 연결 처리를 행하며, 심층 신경망이 출력하는 예측결과는 매개 완전 연결 네트워크의 전체 또는 일부 출력을 포함할 수 있다. 완전 연결 네트워크와 방향구간 사이에는 대응관계가 있는바, 즉, 완전 연결 네트워크는 복수 방향구간 중 하나의 방향구간에 대응하며, 따라서 완전 연결 네트워크는 타겟음성이 완전 연결 네트워크에 대응하는 방향구간에서 서브음성을 갖는지 예측할 수 있다.

멀티 헤드 완전 연결 네트워크의 입력은 본 분야의 기타 완전 연결 네트워크의 입력과 같이, 예를 들어, 타겟음성의 음성특징일 수 있다.

본 실시예에 있어서, 멀티 헤드 완전 연결 네트워크를 이용하여 부동한 방향구간의 서브음성을 정확하게 예측할 수 있다.

본 실시예의 일부 선택적 실시형태에 있어서, 멀티 헤드 완전 연결 네트워크의 완전 연결 네트워크는 완전연결층, 아핀층 및 로지스틱 회귀층을 포함한다.

이러한 선택적 실시형태에 있어서, 멀티 헤드 완전 연결 네트워크는 완전 연결(fully connected: FC)층(예를 들어, 활성화 relu 층이 연결된 완전연결층 FC-relu), 아핀층(affine layer) 및 로지스틱 회귀층(softmax layer)을 포함할 수 있다. 이러한 실시형태는 완전 연결 네트워크의 각 처리층을 사용하여 보다 정교한 처리를 수행할 수 있으므로 보다 정확한 예측결과를 얻을 수 있다.

본 실시예의 일부 선택적 실시형태에 있어서, 심층 신경망은 또한 특징추출 네트워크 및 컨볼루션 네트워크를 포함하며, 상기 타겟음성을 미리 훈련된 심층 신경망에 입력하여, 타겟음성이 미리 설정된 복수 방향구간의 매개 방향구간에서 서브음성을 갖는지 여부를 얻는 단계는, 사전 훈련된 심층 신경망에 타겟음성을 입력하고, 특징추출 네트워크에 근거하여 타겟음성의 음성특징 추출하고, 컨볼루션 네트워크를 사용하여 음성특징을 처리하여, 멀티 헤드 완전 연결 네트워크에 입력하고자 하는 컨볼루션 음성특징을 얻는 단계를 포함할 수 있다.

이러한 선택적 실시형태에 있어서, 상기 실행주체는 먼저 특징추출(feature-extraction，FE) 네트워크를 사용하여 타겟음성의 음성특징을 추출하고, 컨볼루션 네트워크(Convolutional Neural Networks: CNN， 예를 들어, 활성화relu층이 연결된 컨볼루션층, CNN-relu)를 사용하여 음성특징에 대해 컨볼루션처리를 행하여 컨볼루션 음성특징을 얻을 수 있다. 구체적으로, 컨볼루션 네트워크는 하나 또는 둘 이상의 컨볼루션층을 포함할 수 있으며, 또한 컨볼루션 네트워크는 활성화층을 포함할 수도 있다.

실제로, 상기 실행주체는 다양한 방법을 사용하여 특징추출 네트워크에 근거하여 타겟음성의 음성특징을 추출할 수 있는바, 예를 들어, 특징추출 네트워크는 스펙트럼 분석에 사용될 수 있고, 상기 실행주체는 특징추출 네트워크를 이용하여 타겟음성에 대한 스펙트럼 분석을 행하여 타겟음성의 스펙트로그램을 얻고, 해당 스펙트로그램을 컨볼루션 네트워크에 입력되는 음성특징으로 한다.

이러한 실시형태는, 음성특징을 추출하고 음성특징에 대해 컨볼루션을 행함으로써, 음성특징이 추출되고 음성특징에 대해 비교적 충분한 처리가 이루어져 멀티 헤드 완전 연결 네트워크가 컨볼루션 음성특징을 보다 잘 사용할 수 있도록 하여 정확한 예측결과를 얻을 수 있다.

이러한 실시형태의 일부 선택적 애플리케이션 시나리오에 있어서, 심층 신경망은 푸리에 변환 네트워크도 포함하며, 이러한 실시형태에 있어서의 특징추출 네트워크에 근거하여 타겟음성의 음성특징을 추출하는 단계는, 푸리에 변환 네트워크를 사용하여 타겟음성에 대해 푸리에 변환을 행하여 복소수형태의 벡터를 얻고, 특징추출 네트워크를 사용하여 벡터의 실수부와 허수부를 정규화하여 정규화 실수부 및 정규화 허수부를 얻고, 정규화 실수부와 정규화 허수부를 타겟음성의 음성특징으로 하는 것을 포함할 수 있다.

이러한 선택적 애플리케이션 시나리오에 있어서, 상기 실행주체는 타겟음성에 대해 푸리에 변환(fast fourier transform: FFT)을 수행할 수 있으며, 얻은 결과는 하나의 벡터이다. 또한 해당 벡터는 복수형식으로 표현되는 바, 예를 들어, x+yj로 표현할 수 있으며, 여기서 x는 실수부, y는 허수부, j는 허수부 단위이다. 대응하여, 는 정규화 실수부, 는 정규화 허수부이다. 상기 정규화 실수부와 정규화 허수부는 모든 방향의 위상정보를 포함하고 있음을 알 수 있다. 종래기술에 있어서, 푸리에 변환을 통해 얻은 벡터의 위상을 음성특징으로 직접 사용하는 경우가 많은바, 위상의 주기성(보통 2π를 주기로 함)으로 인해 해당 방법으로 계산된 위상이 실제 위상과 약간의 2π차이가 존재하는 경우가 많다.

이러한 애플리케이션 시나리오는 정규화 실수부와 정규화 허수부를 음성특징으로 확정할 수 있으므로, 종래기술에 있어서 위상 편차를 도입하는 문제를 피면할 수 있다. 그리고 음성에 대해 다양한 특징을 확정함으로써 보다 정확한 예측결과를 얻는데 도움이 된다.

선택적으로, 상기 방법은 특징추출 네트워크를 사용하여 벡터 모듈러스 길이의 대수(對數)를 확정하는 단계와, 정규화 실수부 및 정규화 허수부를 타겟음성의 음성특징으로 하는 단계를 더 포함할 수 있으며, 정규화 실수부, 정규화 허수부 및 로그를 타겟음성의 음성특징으로 하는 것을 포함한다.

구체적으로, 복소수형태의 벡터에 대한 길이의 확정은, 해당 벡터의 실수부와 허수부의 제곱합의 제곱근 결과를 확정하는 것이다.

상기 실행주체는 획득한 정규화 실수부, 정규화 허수부 및 로그를 3개의 서로 다른 채널(channel)로 컨볼루션 네트워크에 입력하여 컨볼루션처리를 행할 수 있다. 해당 로그는 음성을 검출하는데 충분한 정보를 제공할 수 있다.

이러한 실시형태의 일부 선택적 애플리케이션 시나리오에 있어서, 타겟음성을 미리 훈련된 심층 신경망에 입력하여, 타겟음성이 미리 설정된 복수 방향구간의 매개 방향구간에서 서브음성을 갖는지 여부를 얻는 단계는, 멀티 헤드 완전 연결 네트워크의 매개 완전 연결 네트워크에 대해, 컨볼루션 음성특징을 해당 완전 연결 네트워크에 입력하여, 타겟음성이 해당 완전 연결 네트워크에 대응하는 방향구간에서 서브음성을 가질 확률을 얻는 단계를 더 포함할 수 있다.

이러한 선택적 애플리케이션 시나리오에 있어서, 상기 실행주체는 컨볼루션 네트워크에서 출력된 컨볼루션 음성특징을 멀티 헤드 완전 연결 네트워크의 매개 완전 연결 네트워크에 입력하여, 타겟음성이 매개 완전 연결 네트워크에 대응하는 방향구간에서 서브음성을 가질 확률을 얻을 수 있다. 실제로, 여기서 확률은 서브음성이 있음을 나타내는 상기 확률p 및/또는 서브음성이 없음을 나타내는 확률q일 수 있다.

이러한 애플리케이션 시나리오는 멀티 헤드 완전 연결 네트워크를 사용하여 타겟음성이 매개 방향구간에서 서브음성을 가질 확률을 정확하게 확정할 수 있다.

이러한 애플리케이션 시나리오의 일부 선택적인 경우에 있어서, 상기 심층 신경망은 병합층도 포함할 수 있고, 상기 타겟음성을 미리 훈련된 심층 신경망에 입력하여, 타겟음성이 미리 설정된 복수 방향구간의 매개 방향구간에서 서브음성을 갖는지 여부를 얻는 단계는, 멀티 헤드 완전 연결 네트워크에 대응하는 각 확률을 병합처리하여 출력하고자 하는 확률집합을 얻는 단계를 더 포함할 수 있다.

이러한 선택적인 경우에 있어서, 상기 실행주체는 병합(concate) 층을 사용하여 멀티 헤드 완전 연결 네트워크의 매개 완전 연결 네트워크에서 얻은 확률을 병합처리하고 병합처리 결과를 심층 신경망의 예측결과로 사용할 수 있다.

매개 완전 연결 네트워크의 결과가 상기 확률p와 같은 단일 확률인 경우, 상기 병합처리는 각 완전 연결 네트워크에서 얻은 확률을 확률집합으로 병합하는 처리일 수 있다. 매개 완전 연결 네트워크의 결과가 상기 확률p 및 확률q와 같이 적어도 두개의 확률인 경우, 상기 병합처리는 상기 확률p와 같이 매개 완전 연결 네트워크에서 얻은 적어도 두개의 확률 중 하나를 확률집합으로 병합하는 처리일 수 있다. 구체적으로, 심층 신경망 훈련시에 사용되는 손실함수가 교차 엔트로피 함수인 경우, 예측결과에는 확률p와 확률q과 포함됨과 동시에 p+q=1이다. 따라서, 확률p와 같이 상기 확률 중 하나를 선택하여 예측결과로 출력할 수 있다.

실제로, 병합처리는 전환처리를 더 포함할 수 있으며, 부호 T로 표시되며 확률집합은 p_n의 집합이며, p_n은 방향구간n에서 서브음성을 갖는 확률을 나타내고, p_n=[p₀, p₁, …, p_{(N- 1)}]^T , 여기서 n=0, 1, … , N-1이다.

도 3b에 나타낸 바와 같이, 음성정보를 심층 신경망에 입력하고 예측을 행하여 예측결과를 얻는 전체 과정을 보여준다.

이러한 경우에 있어서, 상기 실행주체는 병합층을 사용하여 매개 확률에 대해 병합처리를 행함으로써 심층 신경망이 복수 방향구간에 타겟음성의 서브음성이 있는지 여부를 일차성적으로 출력하도록 할 수 있다.

또한 도 4a를 참조하면, 심층 신경망의 훈련 방법의 일 실시예의 프로세스(400)를 보여준다. 해당 프로세스(400)는 다음의 단계를 포함할 수 있다.

단계(401)에서, 훈련샘플을 획득하는 단계로서, 훈련샘플 중의 음성샘플은 미리 설정된 적어도 하나의 방향구간에서의 서브음성을 포함한다.

본 실시예에 있어서, 심층 신경망의 훈련방법이 실행되는 실행주체(예를 들어, 도 1에 도시된 서버 또는 단말기기)는 훈련샘플을 획득할 수 있다. 훈련샘플은 훈련을 위한 음성샘플을 포함하고, 해당 음성샘플은 하나이상의 미리 설정된 방향구간에서의 서브음성을 포함할 수 있다.

단계(402)에서, 음성샘플을 심층 신경망에 입력하여 예측결과를 얻는 단계로서, 심층 신경망은 음성이 복수 방향구간의 매개 방향구간에서 서브음성을 갖는지 여부를 예측하는데 사용된다.

본 실시예에 있어서, 상기 실행주체는 음성샘플을 심층 신경망에 입력하고, 심층 신경망에서 순전파를 행하여 심층 신경망이 출력한 예측결과를 얻을 수 있다. 구체적으로 입력한 심층 신경망은 훈련하고자 하는 심층 신경망이다.

단계(403)에서, 예측결과에 근거하여 심층 신경망을 훈련시켜 훈련된 심층 신경망을 얻는다.

본 실시예에 있어서, 상기 실행주체는 예측결과에 근거하여 심층 신경망을 훈련시켜 훈련된 심층 신경망을 얻을 수 있다. 훈련샘플은 상기 음성샘플에 대응하는 실제결과, 즉 해당 음성샘플이 복수 방향구간의 매개 방향구간에서 서브음성을 갖는지 여부를 포함할 수 있다.

구체적으로, 상기 실행주체는 예측결과 및 상기 실제결과에 근거하여 손실값을 확정하고, 그 손실값을 이용하여 심층 신경망에서 역전파를 행함으로써 훈련된 심층 신경망을 얻을 수 있다.

본 실시예의 훈련된 심층 신경망은 매개 방향구간을 각각 예측함으로써, 음성이 매개 방향구간에서 서브음성을 갖는지 여부를 정확하게 확정할 수 있어 정확한 예측을 실현할 수 있다.

본 실시예의 일부 선택적 실시형태에 있어서, 심층 신경망은 멀티 헤드 완전 연결 네트워크를 포함하며, 멀티 헤드 완전 연결 네트워크의 출력은 각각 음성이 복수 방향구간의 매개 방향구간에서 서브음성을 갖는지 여부를 표시하는데 사용되며, 그 중, 멀티 헤드 완전 연결 네트워크 중 임의의 두개의 완전 연결 네트워크에 대응하는 방향구간은 부동하다.

이러한 실시형태의 일부 선택적인 애플리케이션 시나리오에 있어서, 단계(402)는, 음성샘플을 심층 신경망에 입력하고, 심층 신경망을 사용하여 음성샘플의 특징을 확정하여 처리대상 음성특징을 획득하는 단계를 포함하며, 여기서 훈련샘플은 음성샘플 중의 매개 서브음성의 방향정보를 추가로 포함하며, 처리대상 음성특징에는 음성샘플 중의 매개 서브음성에 대응하는 처리대상 서브음성특징이 포함되며, 매개 서브음성의 처리대상 서브음성특징에 대해서는, 멀티 헤드 완전 연결 네트워크에서 해당 서브음성의 방향정보가 지시하는 방향이 위치하는 방향구간에 대응하는 완전 연결 네트워크를 확정함과 동시에, 해당 완전 연결 네트워크를 해당 처리대상 서브음성특징의 입력하고자 하는 완전 연결 네트워크로 하고, 멀티 헤드 완전 연결 네트워크를 이용하여 음성샘플이 복수 도달방향구간의 매개 도달방향구간에서 서브음성을 갖는지 여부를 확정한다.

이러한 선택적 애플리케이션 시나리오에 있어서, 상기 실행주체는 상기 음성샘플의 특징을 확정하고 확정된 특징을 처리대상 음성특징으로 할 수 있다. 구체적으로, 상기 실행주체는 다양한 방법을 사용하여 상기 음성샘플의 특징을 확정할 수 있다. 예를 들어, 상기 실행주체는 특징추출층 사용하여 상기 음성샘플의 특징을 추출하고, 추출된 특징을 처리대상 음성특징으로 할 수 있다. 또한, 상기 실행주체는 해당 추출된 특징에 대해 기타 처리를 행하여 처리결과를 처리대상 음성특징으로 할 수도 있다. 예를 들어, 상기 실행주체는 추출된 특징을 미리 설정된 모델에 입력하고, 미리 설정된 모델이 출력한 결과를 처리대상 음성특징으로 할 수 있다.

상기 실행주체는 처리대상 서브음성특징에 대해 특징지향 네트워크를 이용하여 해당 서브음성의 방향정보가 지시하는 방향이 위치하는 방향구간을 확정함으로써 해당 방향구간에 대응하는 완전 연결 네트워크를 확정할 수 있다. 해당 완전 연결 네트워크를 해당 처리대상 서브음성특징의 입력하고자 하는 완전 연결 네트워크로 한다.

멀티 헤드 완전 연결 네트워크의 매개 완전 연결 네트워크는, 상기 음성샘플이 여러 도달방향구간의 매개 도달방향구간에서 서브음성을 갖는지 여부를 출력할 수 있다.

이러한 애플리케이션 시나리오의 일부 선택적 경우에 있어서, 상기 매개 서브음성의 처리대상 서브음성특징에 대해, 멀티 헤드 완전 연결 네트워크에서 해당 서브음성의 방향정보가 지시하는 방향이 위치하는 방향구간에 대응하는 완전 연결 네트워크를 확정하고, 이 완전 연결 네트워크를 해당 처리대상 서브음성특징의 입력하고자 하는 완전 연결 네트워크로 하는 단계는, 특징지향 네트워크를 사용하여 매개 서브음성의 처리대상 서브음성특징에 대해, 멀티 헤드 완전 연결 네트워크에서 해당 서브음성의 방향정보가 지시하는 방향이 위치하는 방향구간에 대응하는 완전 연결 네트워크를 확정하여 이 완전 연결 네트워크를 해당 처리대상 서브음성특징의 입력하고자 하는 완전 연결 네트워크로 하는 단계를 포함할 수 있다.

이러한 경우에 있어서, 상기 실행주체는 특징지향 네트워크를 통해 매개 처리대상 서브음성특징에 대응하는 완전 연결 네트워크, 즉 입력하고자 하는 완전 연결 네트워크를 확정할 수 있다. 이에 의해 상기 실행주체는 매개 처리대상 서브음성특징에 대해, 해당 처리대상 서브음성특징을 해당 처리대상 서브음성특징에 대응하는 완전 연결 네트워크에 입력할 수 있다.

이러한 경우, 상기 실행주체는 특징지향 네트워크를 사용하여 훈련과정에서 처리대상 서브음성특징을 각 완전 연결 네트워크에 할당하고, 매개 완전 연결 네트워크는 훈련중 특정 방향구간내의 서브음성의 특징을 학습함으로써, 해당 방향구간내의 서브음성을 검출하는 정확도를 향상시킬 수 있다.

이러한 애플리케이션 시나리오의 일부 선택적 경우에 있어서, 이러한 애플리케이션 시나리오에 있어서의 멀티 헤드 완전 연결 네트워크를 사용하여 음성샘플이 여러 도달방향구간의 매개 도달방향구간에서 서브음성을 갖는지 여부를 확정하는 단계는, 매개 처리대상 서브음성특징에 대해, 해당 처리대상 서브음성특징을 이용하여 대응하는 완전 연결 네트워크에서 순전파를 행하여, 음성샘플이 복수 방향구간의 매개 방향구간에서 서브음성을 가질 확률을 얻는 단계를 포함할 수 있다.

이러한 경우에 있어서, 상기 실행주체는 매개 처리대상 서브음성특징에 대해, 해당 처리대상 서브음성특징을 이용하여, 해당 처리대상 서브음성특징에 대응하는 완전 연결 네트워크에서 순전파를 행하고 순전파의 결과를 음성샘플이 복수 방향구간의 매개 방향구간에 서브음성을 가질 확률로 한다.

이러한 경우에, 상기 실행주체는 매개 방향구간에서 서브음성을 갖는 확률을 통해 정확한 예측을 진행할 수 있다.

선택적으로, 상기 심층 신경망을 사용하여 음성샘플의 특징을 확정하여 처리대상 음성특징을 얻는 단계는, 특징추출 네트워크에 근거하여 음성샘플의 음성특징을 추출하는 단계와, 컨볼루션 네트워크를 사용하여 추출된 음성특징을 처리하여 멀티 헤드 완전 연결 네트워크에 입력하고자 하는 처리대상 음성특징을 얻는 단계를 포함할 수 있다.

이 경우, 상기 실행주체는 특징추출 네트워크와 컨볼루션 네트워크를 이용하여 음성샘플의 특징을 충분히 추출함으로써 후속의 특징에 대한 사용을 용이하게 할 수 있다.

선택적으로, 상기 심층 신경망은 푸리에 변환 네트워크도 포함하며, 상기 특징추출 네트워크에 근거하여 음성샘플의 음성특징을 추출하는 단계는, 푸리에 변환 네트워크를 사용하여 음성샘플에 대해 푸리에 변환을 행하여 복소수형태의 벡터를 얻는 단계와, 특징추출 네트워크를 사용하여 벡터의 실수부와 허수부를 정규화하여 정규화 실수부 및 정규화 허수부를 얻는 단계와, 정규화 실수부와 정규화 허수부를 음성샘플의 음성특징으로 하는 단계를 포함할 수 있다.

이러한 경우, 상기 실행주체는 정규화 실수부와 정규화 허수부를 음성특징으로 확정할 수 있어, 종래기술에 있어서 위상 편차를 도입하는 문제를 피면할 수 있다. 또한 음성에 대한 다양한 특징이 확정되어 훈련 후의 심층 신경망이 보다 정확한 예측결과를 예측하는데 도움이 된다.

선택적으로, 상기 예측결과에 근거하여 심층 신경망을 훈련시켜 훈련된 심층 신경망을 얻는 단계는, 획득된 확률에 근거하여, 훈련 네트워크 구조에서 역전파를 행하여 컨볼루션 네트워크의 매개 변수 및 멀티 헤드 완전 연결 네트워크의 매개 변수를 업데이트하는 단계를 포함할 수 있다.

실제로, 상기 실행주체는, 획득된 확률과 실제확률(예를 들어 존재할 경우 "1", 존재하지 않을 경우 "0")과 같은 훈련샘플 중의 실제결과 및 미리 설정된 손실함수(예를 들어 크로스 엔트로피 함수)에 근거하여, 획득된 확률의 손실값을 확정하고, 손실값을 사용하여 역전파를 행하여 컨볼루션 네트워크의 매개 변수와 멀티 헤드 완전 연결 네트워크의 매개 변수를 업데이트할 수 있다.

선택적으로, 상기 획득된 확률에 근거하여 훈련 네트워크 구조에서 역전파를 행하여 컨볼루션 네트워크의 매개 변수 및 멀티 헤드 완전 연결 네트워크의 매개 변수를 업데이트하는 단계는, 획득한 매개 확률에 대해, 해당 확률에 대응하는 손실값을 확정하고, 손실값을 사용하여 해당 확률을 획득한 완전 연결 네트워크에서 역전파를 행하여 해당 확률에 대응하는 제1 결과를 얻는 단계와,

특징지향 네트워크를 이용하여, 획득한 매개 제1 결과를 병합하여 제1 결과집합을 얻는 단계와,

제1 결과집합을 이용하여 컨볼루션 네트워크에서 역전파를 행하여 컨볼루션 네트워크의 매개 변수와 멀티 헤드 완전 연결 네트워크의 매개 변수를 업데이트하는 단계를 포함할 수 있다.

실제로, 상기 실행주체는 매개의 완전 연결 네트워크에서 획득한 확률과, 훈련샘플에 표시된 해당 완전 연결 네트워크에 대응하는 방향구간에서 음성샘플의 서브음성이 있는지 여부에 대한 실제결과 즉 실제확률과, 미리 설정된 손실함수를 이용하여, 매개 완전 연결 네트워크에 대응하는 손실값을 확정할 수 있다. 그리고 매개 완전 연결 네트워크에 대응하는 손실값을 사용하여 해당 완전 연결 네트워크에서 역전파를 행함으로써 매개 완전 연결 네트워크에 대응하는 역전파 결과, 즉 매개 완전 연결 네트워크에 대응하는 제1 결과를 얻는다.

상기 실행주체는 특징지향 네트워크를 사용하여 각 완전 연결 네트워크에 대응하는 제1 결과를 병합하여 제1 결과집합을 얻을 수 있다. 그 후, 상기 실행주체는 제1 결과집합을 사용하여 컨볼루션 네트워크에서 역전파를 행하고 컨볼루션 네트워크의 매개 변수와 멀티 헤드 완전 연결 네트워크의 매개 변수를 업데이트할 수 있다.

도 4b에서 나타낸바와 같이, 심층 신경망의 훈련 네트워크 구조를 보여준다. 그중 DOA-Splitter는 특징지향 네트워크이다.

이러한 실시형태는 컨볼루션 네트워크 및 멀티 헤드 완전연결층에서 역전파를 행함으로써 두 네트워크의 매개 변수를 업데이트할 수 있다. 또한 이러한 실시형태는 특징지향 네트워크를 사용하여 각 완전 연결 네트워크의 역전파 결과를 병합함으로써 컨볼루션 네트워크에서 역전파를 계속 행할 수 있고 전체 모델에서 역전파가 이루어져 매개 변수의 업데이트가 이루어진다.

또한 도 5를 참조하면, 도 2 및 도 3에 도시된 방법의 실시로서, 본 출원은 음성 검출 장치의 실시예를 제공하며, 이 장치 실시예는 도 2에 도시된 방법의 실시예에 대응하며, 후술하는 특징 외에 도 2에 도시된 방법의 실시예와 동일하거나 상응한 특징 또는 효과를 포함할 수 있다. 이 장치는 다양한 전자기기에 적용될 수 있다.

도 5에 도시된 바와 같이, 본 실시예의 음성 검출 장치(500)는 획득유닛(501) 및 예측유닛(502)을 포함한다. 그 중, 획득유닛(501)은 타겟음성을 획득하도록 구성되고, 예측유닛(502)은 타겟음성을 미리 훈련된 심층 신경망에 입력하여, 타겟음성이 미리 설정된 복수 방향구간의 매개 방향구간에서 서브음성을 갖는지 여부를 얻도록 구성되는바, 심층 신경망은 음성이 복수 방향구간의 매개 방향구간에서 서브음성을 갖는지 여부를 예측하는데 사용된다.

본 실시예에 있어서, 음성 검출 장치(500)의 획득유닛(501) 및 예측유닛(502)의 구체적인 처리 및 이들에 의한 기술적 효과는 도 2의 대응 실시예의 단계(201) 및 단계(202)의 관련 설명을 참조할 수 있는바, 여기서는 그 설명을 생략한다.

본 실시예의 일부 선택적 실시형태에 있어서, 심층 신경망은 멀티 헤드 완전 연결 네트워크를 포함하며, 멀티 헤드 완전 연결 네트워크의 출력은 각각 음성이 복수 방향구간의 매개 방향구간에서 서브음성을 갖는지 여부를 표시하는데 사용되며, 그 중, 멀티 헤드 완전 연결 네트워크 중 임의의 두개의 완전 연결 네트워크에 대응하는 방향구간이 부동하다.

본 실시예의 일부 선택적 실시형태에 있어서, 심층 신경망은 또한 특징추출 네트워크 및 컨볼루션 네트워크를 포함하며, 예측유닛은 또한, 타겟음성을 미리 훈련된 심층 신경망에 입력하고 특징추출 네트워크에 근거하여 타겟음성의 음성특징 추출하는 단계, 컨볼루션 네트워크를 사용하여 음성특징을 처리하여, 멀티 헤드 완전 연결 네트워크에 입력할 컨볼루션 음성특징을 얻는 단계에 의해, 타겟음성을 사전 훈련된 심층 신경망에 입력하여, 타겟음성이 미리 설정된 복수 방향구간의 매개 방향구간에서 서브음성을 갖는지 여부를 얻도록 구성된다.

본 실시예의 일부 선택적 실시형태에 있어서, 심층 신경망은 푸리에 변환 네트워크를 추가로 포함하며, 예측유닛은 또한, 푸리에 변환 네트워크를 사용하여 타겟음성에 대해 푸리에 변환을 행하여 복소수형태의 벡터를 얻는 단계, 특징추출 네트워크를 사용하여 벡터의 실수부와 허수부를 정규화하여 정규화 실수부 및 정규화 허수부를 얻는 단계, 정규화 실수부와 정규화 허수부를 타겟음성의 음성특징으로 하는 단계에 의해, 특징추출 네트워크에 근거하여 타겟음성의 음성특징을 추출하도록 구성된다.

본 실시예의 일부 선택적 실시형태에 있어서, 장치는, 특징추출 네트워크를 사용하여 벡터 모듈러스 길이의 대수(對數)를 확정하도록 구성되는 확정유닛과, 정규화 실수부, 정규화 허수부 및 로그를 타겟음성의 음성특징으로 하는 방법에 의해, 정규화 실수부 및 정규화 허수부를 타겟음성의 음성특징으로 하도록 구성되는 예측유닛을 추가로 포함한다.

본 실시예의 일부 선택적 실시형태에 있어서, 예측유닛은 또한, 멀티 헤드 완전 연결 네트워크의 매개 완전 연결 네트워크에 대해, 컨볼루션 음성특징을 해당 완전 연결 네트워크에 입력하여, 타겟음성이 해당 완전 연결 네트워크에 대응하는 방향구간에서 서브음성을 가질 확률을 얻는 방법에 의해, 타겟음성을 미리 훈련된 심층 신경망에 입력하여, 타겟음성이 미리 설정된 복수 방향구간의 매개 방향구간에서 서브음성을 갖는지 여부를 얻도록 구성된다.

본 실시예의 일부 선택적 실시형태에 있어서, 심층 신경망은 병합층을 추가로 포함하며, 예측유닛은 또한, 멀티 헤드 완전 연결 네트워크에 대응하는 각 확률을 병합처리하여 출력될 확률집합을 얻는 방법에 의해, 타겟음성을 미리 훈련된 심층 신경망에 입력하여, 타겟음성이 미리 설정된 복수 방향구간의 매개 방향구간에서 서브음성을 갖는지 여부를 얻도록 구성된다.

본 실시예의 일부 선택적 실시형태에 있어서, 멀티 헤드 완전 연결 네트워크의 매개 완전 연결 네트워크는 완전연결층, 아핀층 및 로지스틱 회귀층을 포함한다.

본 실시예의 일부 선택적 실시형태에 있어서, 심층 신경망의 훈련 네트워크 구조는 특징지향 네트워크, 푸리에 변환 네트워크, 특징추출 네트워크 및 컨볼루션 네트워크를 더 포함하며, 네트워크 구조의 훈련단계에는, 훈련샘플 중의 음성샘플을 심층 신경망의 푸리에 변환 네트워크, 특징추출 네트워크 및 컨볼루션 네트워크에서 순전파를 행하여 음성샘플의 컨벌루션 음성특징을 얻는 단계에 있어서, 훈련샘플은 추가로 음성샘플 중의 서로 다른 서브음성의 방향정보를 포함하고, 컨볼루션 음성특징은 서로 다른 서브음성에 각각 대응하는 컨볼루션 서브음성특징을 포함하는 단계와, 음성샘플의 컨볼루션 음성특징 중 매개 서브음성의 컨볼루션 서브음성특징에 대해, 특징지향 네트워크를 사용하여 해당 서브음성의 방향정보가 지시하는 방향이 위치한 방향구간에 대응하는 완전 연결 네트워크를 확정하고, 해당 완전 연결 네트워크를 해당 컨볼루션 서브음성특징의 입력하고자 하는 완전 연결 네트워크로 하는 단계와, 멀티 헤드 완전 연결 네트워크에서 순전파를 행하여 음성샘플이 복수 방향구간의 매개 방향구간에 서브음성을 가질 확률을 얻는 단계와, 획득한 확률에 근거하여 훈련 네트워크 구조에서 역전파를 행하여 컨볼루션 네트워크의 매개 변수와 멀티 헤드 완전 연결 네트워크의 매개 변수를 업데이트하는 단계를 포함한다.

본 실시예의 일부 선택적 실시형태에 있어서, 획득한 확률에 근거하여 훈련 네트워크 구조에서 역전파를 행하여 컨볼루션 네트워크의 매개 변수와 멀티 헤드 완전 연결 네트워크의 매개 변수를 업데이트하는 단계는, 획득된 매개 확률에 대해, 해당 확률에 대응하는 손실값을 확정하고, 손실값을 사용하여 해당 확률을 획득한 완전 연결 네트워크에서 역전파를 행하여 해당 확률에 대응하는 제1 결과를 얻는 단계와, 특징지향 네트워크를 사용하여 획득한 각 제1 결과를 병합하여 제1 결과집합을 얻는 단계와, 제1 결과집합을 컨볼루션 네트워크에서 역전파하여 컨볼루션 네트워크의 매개 변수와 멀티 헤드 완전 연결 네트워크의 매개 변수를 업데이트하는 단계를 포함한다.

상기 각 도면에 도시된 방법의 실시로서, 본 출원은 심층 신경망 훈련장치의 실시예를 제공하며, 이 장치 실시예는 도 4a 및 도 4b에 도시된 방법의 실시예에 대응하는바, 아래에 기술하는 특징 외에 도 4a에 도시된 방법의 실시예와 동일하거나 상응한 특징 또는 효과를 더 포함한다. 이 장치는 다양한 전자기기에 적용될 수 있다.

본 실시예의 심층 신경망의 훈련장치는 샘플 획득 유닛, 입력유닛 및 훈련유닛을 포함한다. 샘플 획득 유닛은 훈련샘플을 획득하도록 구성되는바, 훈련샘플 중의 음성샘플은 미리 설정된 적어도 하나의 방향구간의 서브음성을 포함하며, 입력유닛은 음성샘플을 심층 신경망에 입력하여 예측결과를 얻도록 구성되는바, 심층 신경망은 음성이 복수 방향구간의 매개 방향구간에서 서브음성을 갖는지 여부를 예측하는데 사용되며, 훈련유닛은 예측결과에 근거하여 심층 신경망을 훈련시켜 훈련된 심층 신경망을 얻도록 구성된다.

본 실시예에 있어서, 심층 신경망의 훈련장치의 샘플 획득 유닛, 입력 유닛 및 훈련 유닛의 구체적인 처리 및 이에 의한 기술적 효과는 도 4a의 대응 실시예의 단계(401), 단계(402) 및 단계(403)의 관련 설명을 참조할 수 있으며, 여기에서는 반복하지 않는다.

본 실시예의 일부 선택적 실시형태에 있어서, 입력 유닛은 또한, 음성샘플을 심층 신경망에 입력하고, 심층 신경망을 사용하여 음성샘플의 특징을 확정하여 처리대상 음성특징을 획득하는 단계로서, 훈련샘플은 음성샘플 중의 매개 서브음성의 방향정보를 추가로 포함하며, 처리대상 음성특징에는 음성샘플 중의 매개 서브음성에 대응하는 처리대상 서브음성특징이 포함되는 단계와, 매개 서브음성의 처리대상 서브음성특징에 대해, 멀티 헤드 완전 연결 네트워크에서 해당 서브음성의 방향정보가 지시하는 방향이 위치하는 방향구간에 대응하는 완전 연결 네트워크를 확정하고, 해당 완전 연결 네트워크를 해당 처리대상 서브음성특징의 입력하고자 하는 완전 연결 네트워크로 하는 단계와, 멀티 헤드 완전 연결 네트워크를 이용하여 음성샘플이 복수 도달방향구간의 매개 도달방향구간에서 서브음성을 갖는지 여부를 확정하는 단계에 의해, 음성샘플을 심층 신경망에 입력하여 예측결과를 얻도록 구성된다.

본 실시예의 일부 선택적 실시형태에 있어서, 심층 신경망의 훈련 네크워크 구조는 특징지향 네트워크를 추가로 포함하며, 입력 유닛은 또한, 특징지향 네트워크를 사용하여 매개 서브음성의 처리대상 서브음성특징에 대해, 멀티 헤드 완전 연결 네트워크에서 해당 서브음성의 방향정보가 지시하는 방향이 위치하는 방향구간에 대응하는 완전 연결 네트워크를 확정하여 이 완전 연결 네트워크를 해당 처리대상 서브음성특징의 입력하고자 하는 완전 연결 네트워크로 하는 방법에 의해, 매개 서브음성의 처리대상 서브음성특징에 대해, 멀티 헤드 완전 연결 네트워크에서 해당 서브음성의 방향정보가 지시하는 방향이 위치하는 방향구간에 대응하는 완전 연결 네트워크를 확정하고, 이 완전 연결 네트워크를 해당 처리대상 서브음성특징의 입력하고자 하는 완전 연결 네트워크로 하도록 구성된다.

본 실시예의 일부 선택적 실시형태에 있어서, 입력 유닛은 또한, 매개의 처리대상 서브음성특징에 대해, 해당 처리대상 서브음성특징을 이용하여 대응하는 완전 연결 네트워크에서 순전파를 행하여, 음성샘플이 복수 방향구간의 매개 방향구간에서 서브음성을 가질 확률을 얻는 방법에 의해, 멀티 헤드 완전 연결 네트워크를 사용하여 음성샘플이 여러 도달방향구간의 매개 도달방향구간에 서브음성이 있는지 여부를 확정하도록 구성된다.

본 실시예의 일부 선택적 실시형태에 있어서, 심층 신경망은 특징추출 네트워크와 컨볼루션 네트워크를 추가로 포함하며, 입력 유닛은 또한, 특징추출 네트워크에 근거하여 음성샘플의 음성특징을 추출하는 단계, 컨볼루션 네트워크를 사용하여 추출된 음성특징을 처리하여 멀티 헤드 완전 연결 네트워크에 입력하고자 하는 처리대상 음성특징을 얻는 단계에 의해, 심층 신경망을 사용하여 음성샘플의 특징을 확정하여 처리대상 음성특징을 얻도록 구성된다.

본 실시예의 일부 선택적 실시형태에 있어서, 심층 신경망은 푸리에 변환 네트워크를 추가로 포함하며, 입력 유닛은 또한, 푸리에 변환 네트워크를 사용하여 음성샘플에 대해 푸리에 변환을 행하여 복소수형태의 벡터를 얻는 단계, 특징추출 네트워크를 사용하여 벡터의 실수부와 허수부를 정규화하여 정규화 실수부 및 정규화 허수부를 얻는 단계, 정규화 실수부와 정규화 허수부를 음성샘플의 음성특징으로 하는 단계에 의해, 특징추출 네트워크에 근거하여 음성샘플의 음성특징을 추출하도록 구성된다.

본 실시예의 일부 선택적 실시형태에 있어서, 훈련 유닛은 또한, 획득한 확률에 근거하여 훈련 네트워크 구조에서 역전파를 행하여 컨볼루션 네트워크의 매개 변수와 멀티 헤드 완전 연결 네트워크의 매개 변수를 업데이트하는 방법에 의해, 예측결과에 근거하여 심층 신경망을 훈련시켜 훈련된 심층 신경망을 얻도록 구성된다.

본 실시예의 일부 선택적 실시형태에 있어서, 훈련 유닛은 또한, 획득된 매개 확률에 대해, 해당 확률에 대응하는 손실값을 확정하고, 손실값을 사용하여 해당 확률을 획득한 완전 연결 네트워크에서 역전파를 행하여 해당 확률에 대응하는 제1 결과를 얻는 단계, 특징지향 네트워크를 사용하여 획득한 각 제1 결과를 병합하여 제1 결과집합을 얻는 단계, 제1 결과집합을 컨볼루션 네트워크에서 역전파하여 컨볼루션 네트워크의 매개 변수와 멀티 헤드 완전 연결 네트워크의 매개 변수를 업데이트하는 단계에 의해, 획득한 확률에 근거하여 훈련 네트워크 구조에서 역전파를 행하여 컨볼루션 네트워크의 매개 변수와 멀티 헤드 완전 연결 네트워크의 매개 변수를 업데이트하도록 구성된다.

본 출원의 실시예에 따르면, 본 출원은 또한 전자기기 및 판독가능 저장매체를 제공한다.

도 6에 나타낸 바와 같이, 본 출원의 실시예에 따른 음성 검출 방법의 전자기기의 블록도 및 심층 신경망의 훈련 방법의 전자기기의 블록도이다. 이하, 음성 검출 방법의 전자기기의 블록도를 예로 설명하기로 한다.

전자기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 태블릿 컴퓨터, 개인 휴대 정보 단말기, 서버, 블레이드 서버, 메인 프레임 컴퓨터 및 기타 적합한 컴퓨터 등 각종형태의 디지털 컴퓨터를 나타내기 위한 것을 목적으로 하고 있다. 전자기기는 개인 휴대 정보 단말기, 휴대폰, 스마트폰, 웨어러블 장치 및 기타 유사한 컴퓨팅장치 등 각종형태의 모바일장치를 나타낼 수도 있다. 본 명세서에 나타내는 부품, 그들의 연결 및 관계, 그리고 그들의 기능은 단순한 예로서, 본 명세서에서 설명 및/또는 요구되는 본 출원의 실시를 제한하려는 것이 아니다.

도 6에 나타낸 바와 같이, 해당 전자기기는 하나 또는 여러 개의 프로세서(601), 메모리(602), 및 고속 인터페이스 및 저속 인터페이스 등 각 부품을 연결하기 위한 인터페이스를 포함한다. 각 부품은 서로 다른 버스로 상호 연결되어 있으며, 공용 마더보드에 안장되거나 또는 필요에 따라 다른 방식으로 안장될 수도 있다. 프로세서는 전자기기내에서 실행되는 지령을 처리할 수 있으며, 메모리내 또는 메모리에 저장되어 외부 입력/출력장치(인터페이스 등에 접속된 디스플레이 장치 등)에 GUI 그래픽정보를 표시하는 지령을 포함한다. 다른 실시형태에서는, 필요에 따라 여러 프로세서 및/또는 복수의 버스를 여러 메모리 및 복수의 메모리와 함께 사용할 수 있다. 마찬가지로, 여러 전자기기를 연결할 수 있으며, 각 기기는 몇 가지 필요한 조작(예를 들어, 서버 배열, 한 쌍의 블레이드 서버, 또는 멀티 프로세서 시스템)을 제공한다. 도 6은 하나의 프로세서(601)를 예로 한다.

메모리(602)는 본 출원에 의한 비 일시적 컴퓨터 판독가능 저장매체이다. 메모리는 적어도 하나의 프로세서에 의해 실행되는 지령을 저장하고, 적어도 하나의 프로세서에 본 출원에 의한 음성 검출 방법을 실행시킨다. 본 출원의 비 일시적 컴퓨터 판독가능 저장매체는 본 출원에 의한 음성 검출 방법을 컴퓨터에 실행시키기 위한 컴퓨터 지령을 저장한다.

메모리(602)는 비 일시적 컴퓨터 판독가능 저장매체로서, 본 출원의 실시예의 음성 검출 방법에 대응하는 프로그램 지령/모듈(예를 들어, 도 5에 나타내는 획득 유닛(501), 예측 유닛(502)) 등 비 일시적인 소프트웨어 프로그램, 비 일시적인 컴퓨터 실행 가능 프로그램 및 모듈을 저장할 수 있다. 프로세서(601)는 메모리(602)에 저장되어 있는 비 일시적인 소프트웨어 프로그램, 지령 및 모듈의 운행을 통해 서버의 각종 기능 응용 및 데이터 처리를 실행한다. 즉, 상기 방법의 실시예에 있어서의 음성 검출 방법을 실현한다.

메모리(602)는, 운영체제, 적어도 하나의 기능을 실행하기 위해 필요한 애플리케이션 프로그램을 저장할 수 있는 스토리지 프로그램 영역과, 블록체인의 프라이버시데이터 처리방법의 전자기기의 사용에 의해 생성된 데이터 등을 저장할 수 있는 스토리지 데이터 영역을 포함할 수 있다. 또한 메모리(602)는 고속 랜덤 액세스 메모리를 포함할 수도 있을 뿐만 아니라, 예를 들어, 하나의 자기디스크 메모리장치, 플래시 메모리장치, 또는 기타 비 일시적인 고체 메모리장치와 같은 비 일시적인 메모리를 포함할 수도 있다. 일부 실시예에 있어서, 메모리(602)는 프로세서(601)에 대해 원격설치된 메모리를 선택적으로 포함할 수도 있고, 이러한 원격 메모리는 네트워크를 통해 음성 검출 방법의 전자기기에 연결되어 있다. 상기 네트워크의 실례는 인터넷, 인트라넷, 로컬 영역 네트워크, 이동 통신 네트워크 및 이들의 조합을 포함하지만 이에 한정되지 않는다.

음성 검출 방법의 전자기기는 추가로, 입력장치(603) 및 출력장치(604)를 포함할 수 있다. 프로세서(601), 메모리(602), 입력장치(603) 및 출력장치(604)는 버스 또는 기타 형태를 통해 연결될 수 있으며, 도 6은 버스를 통해 연결되어 있는 예이다.

입력장치(603)는 입력된 디지털 또는 문자정보를 수신할 수 있고, 음성 검출 방법의 전자기기의 사용자 설치 및 기능 제어에 관한 키신호 입력을 생성할 수 있으며, 예를 들어, 터치스크린, 키패드, 마우스, 트랙패드, 터치패드, 포인팅스틱, 1개 또는 여러 개의 마우스버튼, 트랙볼, 조이스틱 등의 입력장치를 포함한다. 출력장치(604)는 디스플레이장치, 보조조명장치(예를 들면, LED), 촉각피드백장치(예를 들어, 진동모터) 등을 포함할 수 있다. 해당 디스플레이장치는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 플라즈마 디스플레이를 포함하나 이에 한정되지 않는다. 일부 실시형태에 있어서, 디스플레이장치는 터치스크린일 수 있다.

여기에 설명한 시스템 및 기술의 각종 실시형태는 디지털 전자회로 시스템, 집적회로 시스템, 전용 ASIC(주문형 집적회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합으로 실현될 수 있다. 이러한 각종 실시형태는 다음을 포함할 수 있다. 즉 하나 이상의 컴퓨터 프로그램에서 실시되고, 해당 하나 이상의 컴퓨터 프로그램은 적어도 하나의 프로그래머블 프로세서를 포함하는 프로그램 가능한 시스템에서 실행 및/또는 해석될 수 있고, 해당 프로그래머블 프로세서는 전용 또는 범용 프로그래머블 프로세서일 수 있고, 스토리지 시스템, 적어도 하나의 입력장치, 및 적어도 하나의 출력장치로부터 데이터 및 지령을 수신하고, 데이터 및 지령을 해당 스토리지 시스템, 해당 적어도 하나의 입력장치 및 해당 적어도 하나의 출력장치에 전송할 수 있다.

이러한 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 응용 프로그램, 또는 코드라고도 한다)은 프로그래머블 프로세서의 기계 지령을 포함하며, 컴퓨터 프로그램을 고급 절차 및/또는 객체 지향 프로그래밍 언어, 및/또는 어셈블리/기계언어를 이용하여 실시할 수 있다. 본 명세서에 사용된 바와 같이, 용어 "기계 판독가능 매체" 및 "컴퓨터 판독가능 매체"는 기계 지령 및/또는 데이터를 프로그래머블 프로세서에 제공하는 모든 컴퓨터 프로그램 제품, 설비 및/또는 장치(예를 들어, 자기 디스크, 광디스크, 메모리, 프로그래머블 로직 디바이스(PLD))를 의미하며, 기계 판독 신호로서의 기계 지령을 수신하는 기계 판독 가능 매체를 포함한다. 용어 "기계 판독 신호"는 기계 지령 및/또는 데이터를 프로그래머블 프로세서에 제공하는 모든 신호를 가리킨다.

사용자와의 상호작용을 제공하기 위해, 컴퓨터에서 명세서에 설명한 시스템 및 기술을 실시할 수 있으며, 상기 컴퓨터는 사용자에게 정보를 표시하기 위한 표시장치(예를 들면, CRT(음극 레이 튜브) 또는 LCD(액정 디스플레이) 모니터), 그리고, 사용자가 컴퓨터에 입력을 제공하기 위한 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙볼)을 가진다. 다른 종류의 장치는 사용자와의 상호작용을 제공하기 위해 이용될 수 있으며, 예를 들어, 사용자에게 제공되는 피드백은 모든 형태의 감지 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백)이며, 모든 형태(음향 입력, 음성 입력 또는 촉각 입력을 포함)로 사용자의 입력을 받을 수 있다.

본 명세서에 설명되는 시스템 및 기술은, 백엔드 구성요소를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버로), 또는 미들웨어 구성요소를 포함하는 컴퓨팅 시스템(예를 들어, 응용 프로그램 서버), 또는 프런트 엔드 구성요소를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 웹 브라우저가 있는 사용자 컴퓨터는, 사용자가 해당 그래픽 사용자 인터페이스 또는 해당 웹 브라우저를 통해 본 명세서에서 설명하는 시스템 및 기술의 실시형태와 상호작용할 수 있다), 또는 이러한 백엔드 구성요소, 미들웨어 구성요소 또는 프런트 엔드 구성요소의 임의의 조합을 포함하는 컴퓨팅 시스템에서 실시할 수 있다. 또한, 시스템의 구성요소는 모든 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 서로 연결할 수 있다. 통신 네트워크의 예로서 로컬 영역 네트워크(LAN), 광역 네트워크(WAN) 및 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 떨어져 있으며, 보통 통신 네트워크를 통해 상호작용한다. 클라이언트와 서버 사이의 관계는, 대응하는 컴퓨터에서 운행되며 동시에 서로 클라이언트 - 서버 관계를 가지는 컴퓨터 프로그램에 의해 생성된다. 서버는 클라우드 서버일 수 있고, 클라우드 컴퓨팅 서버 또는 클라우드 호스트라고도 하며, 클라우드 컴퓨팅 서비스 시스템의 호스트 제품으로서, 기존의 물리적 호스트 및 VPS 서비스("Virtual Private Server" 또는 "VPS"라고 함)에 있어서, 관리가 어렵고 비즈니스 확장성이 약한 단점을 해결한다.

첨부된 도면 중의 흐름도 및 블록도는 본 출원의 각 실시예에 따른 시스템, 방법, 및 컴퓨터 프로그램 제품의 구현 가능한 체계구조, 기능 및 동작을 도시하였다. 이러한 방면에 있어서, 흐름도 또는 블록도 중의 각 블록은 하나의 모듈, 프로그램 세그먼트 또는 코드의 일부분을 대표할 수 있고, 해당 모듈, 프로그램 세그먼트 또는 코드의 일부분은 규정된 로직 기능을 구현하기 위한 하나 또는 다수의 실행 가능한 명령을 포함한다. 일부 대체 구현에 있어서, 블록에 표기된 기능들은 첨부된 도면에 표기된 순서와 다른 순서로 수행될 수도 있음을 유의하여야 한다. 예를 들어, 순차적으로 표시된 두개의 블록은 실제적으로 거의 동시에 실행될 수 있고, 경우에 따라 반대된 순서에 따라 실행될 수도 있으며, 이는 관련된 기능에 따라 확정된다. 블록도 및/또는 흐름도 중의 각 블록 및 블록도 및/또는 흐름도 중의 블록들의 조합은 규정된 기능 또는 동작을 실행하는 하드웨어 기반의 전용 시스템으로 실시되거나, 전용 하드웨어와 컴퓨터 명령의 조합으로 실시될 수 있음을 유의하여야 한다.

본 출원의 실시예에 설명된 관련 유닛들은 소프트웨어의 방식으로 실시될 수 있거나, 또는 하드웨어의 방식으로 실시될 수도 있다. 설명된 유닛은 또한 프로세서에 설치될 수도 있으며, 예를 들어, 획득유닛, 예측유닛을 포함하는 프로세서로서 설명될 수 있다. 이러한 유닛들의 명칭은 해당 유닛 자체의 제한을 구성하지 않는 경우가 있다. 예를 들면, 획득유닛은 "타겟음성을 획득하는 유닛"으로 설명될 수도 있다.

다른 한 방면에 있어서, 본 출원은 컴퓨터 판독 가능한 매체를 더 제공하며, 해당 컴퓨터 판독 가능한 매체는 상술한 실시예에 설명된 장치에 포함되는 것일 수 있으며, 또는 해당 장치에 설치되는 것이 아니라 단독으로 존재할 수도 있다. 상기 컴퓨터 판독 가능 매체에는 하나 또는 다수의 프로그램이 탑재되어 있고, 상기 하나 또는 다수의 프로그램이 상기 장치에 의해 실행될 경우, 상기 장치로 하여금, 타겟음성을 획득하고, 타겟음성을 사전 훈련된 심층 신경망에 입력하여 타겟음성이 미리 설정된 복수 방향구간의 매개 방향구간에서 서브음성을 갖는지 여부를 확정하도록 하는바, 심층 신경망은 다 방향구간의 매개 방향구간에서 서브음성을 갖는지 여부를 예측하는데 사용된다.

다른 한 방면에 있어서, 본 출원은 컴퓨터 판독 가능한 매체를 더 제공하며, 해당 컴퓨터 판독 가능한 매체는 상술한 실시예에 설명된 장치에 포함되는 것일 수 있으며, 또는 해당 장치에 설치되는 것이 아니라 단독으로 존재할 수도 있다. 상기 컴퓨터 판독 가능 매체에는 하나 또는 다수의 프로그램이 탑재되어 있고, 상기 하나 또는 다수의 프로그램이 상기 장치에 의해 실행될 경우, 상기 장치로 하여금, 훈련샘플을 획득하도록 하는바, 상기 훈련샘플 중의 음성샘플은 미리 설정된 적어도 하나의 방향구간의 서브음성을 포함하고, 상기 음성샘플을 상기 심층 신경망에 입력하여 예측결과를 얻는바, 상기 심층 신경망은 음성이 복수 방향구간의 매개 방향구간에서 서브음성을 갖는지 여부를 예측하는데 사용되며, 상기 예측결과에 근거하여 상기 심층 신경망을 훈련시켜 훈련된 심층 신경망을 얻도록 한다.

이상의 설명은 단지 본 출원의 비교적 바람직한 실시예 및 운용한 기술적 원리에 대한 설명이다. 본 출원에 관련된 발명의 범위가 상기 기술적 특징들의 특정 조합으로 이루어진 기술적 방안들에 한정되는 것이 아니라, 본 발명의 주지를 벗어나지 않는 한 상기 기술적 특징들 또는 그들의 균등한 특징들의 임의의 조합으로 이루어진 기타 기술적 방안들도 포함되어야 함을 해당 기술분야의 당업자는 이해할 것이다. 예를 들어, 상기 특징들과 본 출원에 개시되어 있으나 이에 한정되지 않는 유사한 기능을 구비한 기술적 특징을 서로 대체하여 이루어진 기술적 방안도 포함된다.

Claims

음성 검출 방법으로서,
타겟음성을 획득하는 단계; 및
상기 타겟음성을 미리 훈련된 심층 신경망에 입력하여, 상기 타겟음성이 미리 설정된 복수 방향구간의 각 방향구간에서 서브음성을 갖는지 여부를 얻는 단계를 포함하되,
상기 심층 신경망은 음성이 상기 복수 방향구간의 각 방향구간에서 서브음성을 갖는지 여부를 예측하는데 사용되고,
상기 타겟음성은 적어도 하나의 음원에서 나오는 음성으로, 각 음원은 타겟음성 중의 하나의 서브음성을 방출하며, 매개 음원은 하나의 도달방향에 대응되고,
상기 심층 신경망은 멀티 헤드 완전 연결 네트워크, 특징 추출 네트워크, 컨볼루션 네트워크, 푸리에 변환 네트워크 및 병합층을 포함하고,
상기 멀티 헤드 완전 연결 네트워크의 출력은 음성이 복수 방향구간의 각 방향구간에서 서브음성을 갖는지 여부를 표시하는데 사용되며, 상기 멀티 헤드 완전 연결 네트워크 중 임의의 두개의 완전 연결 네트워크에 대응하는 방향구간이 상이하고,
상기 타겟음성을 미리 훈련된 심층 신경망에 입력하여, 상기 타겟음성이 미리 설정된 복수 방향구간의 각 방향구간에서 서브음성을 갖는지 여부를 얻는 단계는,
타겟음성을 미리 훈련된 심층 신경망에 입력하고, 상기 특징추출 네트워크에 근거하여 상기 타겟음성의 음성특징을 추출하는 단계; 및
상기 컨볼루션 네트워크를 이용하여 상기 음성특징을 처리하여, 상기 멀티 헤드 완전 연결 네트워크에 입력될 컨볼루션 음성특징을 얻는 단계를 포함하고,
상기 특징추출 네트워크에 근거하여 상기 타겟음성의 음성특징을 추출하는 단계는,
상기 푸리에 변환 네트워크를 이용하여 상기 타겟음성에 푸리에 변환을 행하여 복소수형태의 벡터를 얻는 단계와,
상기 특징추출 네트워크를 이용하여 상기 벡터의 실수부와 허수부를 정규화하여 정규화 실수부와 정규화 허수부를 얻는 단계와,
상기 정규화 실수부와 상기 정규화 허수부를 상기 타겟음성의 음성특징으로 하는 단계를 포함하고,
상기 타겟음성을 미리 훈련된 심층 신경망에 입력하여, 상기 타겟음성이 미리 설정된 복수 방향구간의 각 방향구간에서 서브음성을 갖는지 여부를 얻는 단계는,
상기 멀티 헤드 완전 연결 네트워크에 대응하는 각 확률에 대해 병합처리를 행하여, 출력할 확률집합을 얻는 단계를 더 포함하는, 음성 검출 방법.
삭제
삭제
삭제
제1항에 있어서,
상기 방법은,
상기 특징추출 네트워크를 이용하여 상기 벡터 모듈러스 길이의 대수(對數)를 확정하는 단계를 더 포함하며,
상기 정규화 실수부와 상기 정규화 허수부를 상기 타겟음성의 음성특징으로 하는 단계는,
상기 정규화 실수부와 상기 정규화 허수부 및 상기 대수(對數)를 상기 타겟음성의 음성특징으로 하는 단계를 포함하는, 음성 검출 방법.
제1항에 있어서,
상기 타겟음성을 미리 훈련된 심층 신경망에 입력하여, 상기 타겟음성이 미리 설정된 복수 방향구간의 각 방향구간에서 서브음성을 갖는지 여부를 얻는 단계는,
상기 멀티 헤드 완전 연결 네트워크 중의 매개 완전 연결 네트워크에 대해, 상기 컨볼루션 음성특징을 해당 완전 연결 네트워크에 입력하여, 상기 타겟음성이 해당 완전 연결 네트워크에 대응하는 방향구간에서 서브음성을 가지는 확률을 얻는 단계를 더 포함하는, 음성 검출 방법.
삭제
제1항에 있어서,
상기 멀티 헤드 완전 연결 네트워크의 완전 연결 네트워크는 완전 연결층, 아핀층 및 로지스틱 회귀층을 포함하는, 음성 검출 방법.
심층 신경망의 훈련 방법으로서,
훈련샘플을 획득하는 단계로서, 상기 훈련샘플 중의 음성샘플은 미리 설정된 적어도 하나의 방향구간에서의 서브음성을 포함하는, 상기 훈련샘플을 획득하는 단계;
상기 음성샘플을 상기 심층 신경망에 입력하여 예측결과를 얻는 단계로서, 상기 심층 신경망은 음성이 복수 방향구간의 각 방향구간에서 서브음성을 갖는지 여부를 예측하는데 사용되는, 상기 예측결과를 얻는 단계; 및
상기 예측결과에 근거하여 상기 심층 신경망을 훈련시켜 훈련된 심층 신경망을 얻는 단계를 포함하고,
상기 음성샘플은 적어도 하나의 음원에서 나오는 음성으로, 각 음원은 음성샘플 중의 하나의 서브음성을 방출하며, 매개 음원은 하나의 도달방향에 대응되고,
상기 심층 신경망은 멀티 헤드 완전 연결 네트워크, 특징 추출 네트워크, 컨볼루션 네트워크 및 푸리에 변환 네트워크를 포함하고,
상기 멀티 헤드 완전 연결 네트워크의 출력은 음성이 복수 방향구간의 각 방향구간에서 서브음성을 갖는지 여부를 표시하는데 사용되며, 상기 멀티 헤드 완전 연결 네트워크 중 임의의 두 완전 연결 네트워크에 대응하는 방향구간이 상이하고,
상기 심층 신경망을 이용하여 상기 음성샘플의 특징을 확정하여 처리대상 음성특징을 얻는 단계는,
상기 특징추출 네트워크에 근거하여 상기 음성샘플의 음성특징을 추출하는 단계; 및
상기 컨볼루션 네트워크를 이용하여 추출된 음성특징을 처리하여, 상기 멀티 헤드 완전 연결 네트워크에 입력하고자 하는 처리대상 음성특징을 얻는 단계를 포함하고,
상기 특징추출 네트워크에 근거하여 상기 음성샘플의 음성특징을 추출하는 단계는,
상기 푸리에 변환 네트워크를 이용하여 상기 음성샘플에 대해 푸리에 변환을 행하여 복소수형태의 벡터를 얻는 단계;
상기 특징추출 네트워크를 이용하여 상기 벡터의 실수부와 허수부를 정규화하여 정규화 실수부와 정규화 허수부를 얻는 단계; 및
상기 정규화 실수부와 상기 정규화 허수부를 상기 음성샘플의 음성특징으로 하는 단계를 포함하는, 심층 신경망의 훈련 방법.
삭제
제9항에 있어서,
상기 음성샘플을 상기 심층 신경망에 입력하여 예측결과를 얻는 단계는,
상기 음성샘플을 상기 심층 신경망에 입력하고, 상기 심층 신경망을 이용하여 상기 음성샘플의 특징을 확정하여, 처리대상 음성특징을 얻는 단계로서, 상기 훈련샘플은 상기 음성샘플 중 매개 서브음성의 방향정보를 더 포함하며, 상기 처리대상 음성특징은 상기 음성샘플 중 매개 서브음성에 각각 대응되는 처리대상 서브음성특징을 포함하는, 상기 처리대상 음성특징을 얻는 단계;
매개 서브음성의 처리대상 서브음성특징에 대해, 상기 멀티 헤드 완전 연결 네트워크에서, 해당 서브음성의 방향정보가 지시하는 방향이 위치하는 방향구간에 대응하는 완전 연결 네트워크를 확정하고, 해당 완전 연결 네트워크를 해당 처리대상 서브음성특징의 입력하고자 하는 완전 연결 네트워크로 하는 단계; 및
상기 멀티 헤드 완전 연결 네트워크를 이용하여, 상기 음성샘플이 복수 도달방향구간의 매개 도달방향구간에서 서브음성을 갖는지 여부를 확정하는 단계
를 포함하는, 심층 신경망의 훈련 방법.
제11항에 있어서,
상기 심층 신경망의 훈련 네트워크 구조에는 특징지향 네트워크를 더 포함하며,
상기 매개 서브음성의 처리대상 서브음성특징에 대해, 상기 멀티 헤드 완전 연결 네트워크에서 해당 서브음성의 방향정보가 지시하는 방향이 위치하는 방향구간에 대응하는 완전 연결 네트워크를 확정하고, 해당 완전 연결 네트워크를 해당 처리대상 서브음성특징의 입력하고자 하는 완전 연결 네트워크로 하는 단계는,
상기 특징지향 네트워크를 이용하여, 매개 서브음성의 처리대상 서브음성특징에 대해, 상기 멀티 헤드 완전 연결 네트워크에서, 해당 서브음성의 방향정보가 지시하는 방향이 위치하는 방향구간에 대응하는 완전 연결 네트워크를 확정하고, 해당 완전 연결 네트워크를 해당 처리대상 서브음성특징의 입력하고자 하는 완전 연결 네트워크로 하는 단계를 포함하는, 심층 신경망의 훈련 방법.
제12항에 있어서,
상기 멀티 헤드 완전 연결 네트워크를 이용하여 상기 음성샘플이 상기 복수 도달방향구간의 매개 도달방향구간에서 서브음성을 갖는지 여부를 확정하는 단계는,
매개 처리대상 서브음성특징에 대해, 해당 처리대상 서브음성특징을 이용하여, 대응하는 완전 연결 네트워크에서 순전파를 행하여, 상기 음성샘플이 상기 복수 방향구간의 각 방향구간에서 서브음성을 가지는 확률을 획득하는 단계를 포함하는, 심층 신경망의 훈련 방법.
삭제
삭제
제13항에 있어서,
상기 예측결과에 근거하여 상기 심층 신경망을 훈련시켜 훈련된 심층 신경망을 얻는 단계는,
획득한 확률에 근거하여 상기 훈련 네트워크 구조에서 역전파를 행하여, 상기 컨볼루션 네트워크의 매개 변수와 상기 멀티 헤드 완전 연결 네트워크의 매개 변수를 업데이트하는 단계를 포함하는, 심층 신경망의 훈련 방법.
제16항에 있어서,
상기 획득한 확률에 근거하여 상기 훈련 네트워크 구조에서 역전파를 행하여 상기 컨볼루션 네트워크의 매개 변수와 상기 멀티 헤드 완전 연결 네트워크의 매개 변수를 업데이트하는 단계는,
획득한 매개 확률에 대해, 해당 확률에 대응하는 손실값을 확정하고, 상기 손실값을 이용하여, 해당 확률을 획득한 완전 연결 네트워크에서 역전파를 행하여 해당 확률에 대응하는 제1 결과를 얻는 단계;
상기 특징지향 네트워크를 이용하여, 얻어진 각 제1 결과를 병합하여 제1 결과집합을 얻는 단계; 및
상기 제1 결과집합을 이용하여 상기 컨볼루션 네트워크에서 역전파를 행하여, 상기 컨볼루션 네트워크의 매개 변수와 상기 멀티 헤드 완전 연결 네트워크의 매개 변수를 업데이트하는 단계
를 포함하는, 심층 신경망의 훈련 방법.
음성 검출 장치로서,
타겟음성을 획득하도록 구성되는 획득유닛; 및
상기 타겟음성을 미리 훈련된 심층 신경망에 입력하여, 상기 타겟음성이 미리 설정된 복수 방향구간의 각 방향구간에서 서브음성을 갖는지 여부를 얻도록 구성되는 예측유닛
을 포함하되, 상기 심층 신경망은 음성이 상기 복수 방향구간의 각 방향구간에서 서브음성을 갖는지 여부를 예측하는데 사용되고,
상기 타겟음성은 적어도 하나의 음원에서 나오는 음성으로, 각 음원은 타겟음성 중의 하나의 서브음성을 방출하며, 매개 음원은 하나의 도달방향에 대응되고,
상기 심층 신경망은 멀티 헤드 완전 연결 네트워크, 특징 추출 네트워크, 컨볼루션 네트워크, 푸리에 변환 네트워크 및 병합층을 포함하고,
상기 멀티 헤드 완전 연결 네트워크의 출력은 음성이 복수 방향구간의 각 방향구간에서 서브음성을 갖는지 여부를 표시하는데 사용되며, 상기 멀티 헤드 완전 연결 네트워크 중 임의의 두 완전 연결 네트워크에 대응하는 방향구간이 상이하고,
상기 예측유닛은 또한,
타겟음성을 미리 훈련된 심층 신경망에 입력하고, 상기 특징추출 네트워크에 근거하여 상기 타겟음성의 음성특징을 추출하고,
상기 컨볼루션 네트워크를 이용하여 상기 음성특징을 처리하여, 상기 멀티 헤드 완전 연결 네트워크에 입력하고자 하는 컨볼루션 음성특징을 얻는 방법에 의해,
상기 타겟음성을 미리 훈련된 심층 신경망에 입력하여, 상기 타겟음성이 미리 설정된 복수 방향구간의 각 방향구간에서 서브음성을 갖는지 여부를 얻도록 구성되고,
상기 예측유닛은 또한,
상기 푸리에 변환 네트워크를 이용하여 상기 타겟음성에 푸리에 변환을 행하여 복소수형태의 벡터를 얻고,
상기 특징추출 네트워크를 이용하여 상기 벡터의 실수부와 허수부를 정규화하여 정규화 실수부와 정규화 허수부를 얻고,
상기 정규화 실수부와 상기 정규화 허수부를 상기 타겟음성의 음성특징으로 하는 방법에 의해,
상기 특징추출 네트워크에 근거하여, 상기 타겟음성의 음성특징을 추출하도록 구성되고,
상기 예측유닛은 또한,
상기 멀티 헤드 완전 연결 네트워크에 대응하는 각 확률에 대해 병합처리를 행하여, 출력하고자 하는 확률집합을 얻는 방법에 의해,
상기 타겟음성을 미리 훈련된 심층 신경망에 입력하여, 상기 타겟음성이 미리 설정된 복수 방향구간의 각 방향구간에서 서브음성을 갖는지 여부를 얻도록 구성되는, 음성 검출 장치.
삭제
삭제
삭제
제18항에 있어서,
상기 장치는,
상기 특징추출 네트워크를 이용하여 상기 벡터 모듈러스 길이의 대수(對數)를 확정하도록 구성되는 확정유닛을 더 포함하며,
상기 예측유닛은 또한,
상기 정규화 실수부, 상기 정규화 허수부 및 상기 대수(對數)를 상기 타겟음성의 음성특징으로 하는 방법에 의해,
상기 정규화 실수부와 상기 정규화 허수부를 상기 타겟음성의 음성특징으로 하도록 구성되는, 음성 검출 장치.
제18항에 있어서,
상기 예측유닛은 또한,
상기 멀티 헤드 완전 연결 네트워크 중의 매개 완전 연결 네트워크에 대해, 상기 컨볼루션 음성특징을 해당 완전 연결 네트워크에 입력하여, 상기 타겟음성이 해당 완전 연결 네트워크에 대응하는 방향구간에서 서브음성을 가지는 확률을 얻는 방법에 의해,
상기 타겟음성을 미리 훈련된 심층 신경망에 입력하여, 상기 타겟음성이 미리 설정된 복수 방향구간의 각 방향구간에서 서브음성을 갖는지 여부를 얻도록 구성되는, 음성 검출 장치.
삭제
제18항에 있어서,
상기 멀티 헤드 완전 연결 네트워크의 완전 연결 네트워크는 완전 연결층, 아핀층 및 로지스틱 회귀층을 포함하는, 음성 검출 장치.
심층 신경망의 훈련 장치로서,
훈련샘플을 획득하도록 구성되는 샘플 획득 유닛으로서, 상기 훈련샘플 중의 음성샘플은 미리 설정된 적어도 하나의 방향구간에서의 서브음성을 포함하는, 상기 샘플 획득 유닛;
상기 음성샘플을 상기 심층 신경망에 입력하여 예측결과를 얻도록 구성되는 입력 유닛으로서, 상기 심층 신경망은 음성이 복수 방향구간의 각 방향구간에서 서브음성을 갖는지 여부를 예측하는데 사용되는, 상기 입력 유닛; 및
상기 예측결과에 근거하여 상기 심층 신경망을 훈련시켜 훈련된 심층 신경망을 얻도록 구성되는 훈련유닛을 포함하고,
상기 음성샘플은 적어도 하나의 음원에서 나오는 음성으로, 각 음원은 음성샘플 중의 하나의 서브음성을 방출하며, 매개 음원은 하나의 도달방향에 대응되고,
상기 심층 신경망은 멀티 헤드 완전 연결 네트워크, 특징 추출 네트워크, 컨볼루션 네트워크 및 푸리에 변환 네트워크를 포함하고,
상기 멀티 헤드 완전 연결 네트워크의 출력은 각각 음성이 복수 방향구간의 각 방향구간에서 서브음성을 갖는지 여부를 표시하는데 사용되며, 상기 멀티 헤드 완전 연결 네트워크 중 임의의 두 완전 연결 네트워크에 대응하는 방향구간이 상이하고,
상기 입력유닛은 또한,
상기 특징추출 네트워크에 근거하여 상기 음성샘플의 음성특징을 추출하고,
상기 컨볼루션 네트워크를 이용하여 추출된 음성특징을 처리하여, 상기 멀티 헤드 완전 연결 네트워크에 입력하고자 하는 처리대상 음성특징을 얻는 방법에 의해,
상기 심층 신경망을 이용하여 상기 음성샘플의 특징을 확정하고 처리대상 음성특징을 얻도록 구성되고,
상기 입력 유닛은 또한,
상기 푸리에 변환 네트워크를 이용하여 상기 음성샘플에 대해 푸리에 변환을 행하여 복소수형태의 벡터를 얻고,
상기 특징추출 네트워크를 이용하여 상기 벡터의 실수부와 허수부를 정규화하여 정규화 실수부와 정규화 허수부를 얻고,
상기 정규화 실수부와 상기 정규화 허수부를 상기 음성샘플의 음성특징으로 하는 방법에 의해,
상기 특징추출 네트워크에 근거하여, 상기 음성샘플의 음성특징을 추출하도록 구성되는, 심층 신경망의 훈련 장치.
삭제
제26항에 있어서,
상기 입력유닛은 또한,
상기 음성샘플을 상기 심층 신경망에 입력하고, 상기 심층 신경망을 이용하여 상기 음성샘플의 특징을 확정하여, 처리대상 음성특징을 얻되, 상기 훈련샘플은 상기 음성샘플 중 매개 서브음성의 방향정보를 더 포함하며, 상기 처리대상 음성특징은 상기 음성샘플 중 매개 서브음성에 각각 대응되는 처리대상 서브음성특징을 포함하며,
매개 서브음성의 처리대상 서브음성특징에 대해, 상기 멀티 헤드 완전 연결 네트워크에서 해당 서브음성의 방향정보가 지시하는 방향이 위치하는 방향구간에 대응하는 완전 연결 네트워크를 확정하고, 해당 완전 연결 네트워크를 해당 처리대상 서브음성특징의 입력하고자 하는 완전 연결 네트워크로 하고,
상기 멀티 헤드 완전 연결 네트워크를 이용하여 상기 음성샘플이 복수 도달방향구간의 매개 도달방향구간에서 서브음성을 갖는지 여부를 확정하는 방법에 의해,
상기 음성샘플을 상기 심층 신경망에 입력하여 예측결과를 얻도록 구성되는, 심층 신경망의 훈련 장치.
제26항에 있어서,
상기 심층 신경망의 훈련 네트워크 구조에는 특징지향 네트워크를 더 포함하며,
상기 입력유닛은 또한,
상기 특징지향 네트워크를 이용하여, 매개 서브음성의 처리대상 서브음성특징에 대해, 상기 멀티 헤드 완전 연결 네트워크에서 해당 서브음성의 방향정보가 지시하는 방향이 위치하는 방향구간에 대응하는 완전 연결 네트워크를 확정하고, 해당 완전 연결 네트워크를 해당 처리대상 서브음성특징의 입력하고자 하는 완전 연결 네트워크로 하는 방법에 의해,
매개 서브음성의 처리대상 서브음성특징에 대해, 상기 멀티 헤드 완전 연결 네트워크에서 해당 서브음성의 방향정보가 지시하는 방향이 위치하는 방향구간에 대응하는 완전 연결 네트워크를 확정하고, 해당 완전 연결 네트워크를 해당 처리대상 서브음성특징의 입력하고자 하는 완전 연결 네트워크로 하도록 구성되는, 심층 신경망의 훈련 장치.
제26항에 있어서,
상기 입력유닛은 또한,
매개 처리대상 서브음성특징에 대해, 해당 처리대상 서브음성특징을 이용하여, 대응하는 완전 연결 네트워크에서 순전파를 행하여, 상기 음성샘플이 상기 복수 방향구간의 각 방향구간에서 서브음성을 가질 확률을 획득하는 방법에 의해,
상기 멀티 헤드 완전 연결 네트워크를 이용하여 상기 음성샘플이 복수 도달방향구간의 매개 도달방향구간에서 서브음성을 갖는지 여부를 확정하도록 구성되는, 심층 신경망의 훈련 장치.
삭제
삭제
제29항에 있어서,
상기 훈련유닛은 또한,
획득한 확률에 근거하여 상기 훈련 네트워크 구조에서 역전파를 행하여 상기 컨볼루션 네트워크의 매개 변수와 상기 멀티 헤드 완전 연결 네트워크의 매개 변수를 업데이트하는 방법에 의해,
상기 예측결과에 근거하여 상기 심층 신경망을 훈련시켜 훈련된 심층 신경망을 얻도록 구성되는, 심층 신경망의 훈련 장치.
제33항에 있어서,
상기 훈련유닛은 또한,
획득한 매개 확률에 대해, 해당 확률에 대응하는 손실값을 확정하고, 상기 손실값을 이용하여, 해당 확률을 획득한 완전 연결 네트워크에서 역전파를 행하여 해당 확률에 대응하는 제1 결과를 얻고,
상기 특징지향 네트워크를 이용하여, 얻어진 각 제1 결과를 병합하여 제1 결과집합을 얻고,
상기 제1 결과집합을 이용하여 상기 컨볼루션 네트워크에서 역전파를 행하여 상기 컨볼루션 네트워크의 매개 변수와 상기 멀티 헤드 완전 연결 네트워크의 매개 변수를 업데이트하는 방법에 의해,
상기 획득한 확률에 근거하여 상기 훈련 네트워크 구조에서 역전파를 행하여 상기 컨볼루션 네트워크의 매개 변수와 상기 멀티 헤드 완전 연결 네트워크의 매개 변수를 업데이트하도록 구성되는, 심층 신경망의 훈련 장치.
전자기기로서,
적어도 하나의 프로세서와,
적어도 하나의 프로그램을 저장하기 위한 저장장치
를 포함하되, 상기 적어도 하나의 프로그램이 상기 적어도 하나의 프로세서에 의해 실행될 때, 상기 적어도 하나의 프로세서가 제1항과 제5항과 제6항과 제8항 중 어느 한 항, 또는 제9항과 제11항과 제12항과 13항과 제16항과 제17항 중 어느 한 항에 기재된 방법을 실현하도록 하는, 전자기기.
컴퓨터 프로그램이 저장된 컴퓨터 판독가능 저장매체로서,
상기 프로그램은 프로세서에 의해 실행될 때, 제1항과 제5항과 제6항과 제8항 중 어느 한 항, 또는 제9항과 제11항과 제12항과 13항과 제16항과 제17항 중 어느 한 항에 기재된 방법을 실현하는, 컴퓨터 판독가능 저장매체.
컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램으로서,
상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우 제1항과 제5항과 제6항과 제8항 중 어느 한 항, 또는 제9항과 제11항과 제12항과 13항과 제16항과 제17항 중 어느 한 항에 기재된 방법을 구현하도록 하는, 컴퓨터 프로그램.