KR20210150372A

KR20210150372A - 신호 처리 장치, 신호 처리 방법 및 프로그램

Info

Publication number: KR20210150372A
Application number: KR1020217030609A
Authority: KR
Inventors: 아츠오 히로에
Original assignee: 소니그룹주식회사
Priority date: 2019-04-08
Filing date: 2020-02-10
Publication date: 2021-12-10
Also published as: WO2020208926A1; US20220189498A1; EP3955589A4; JPWO2020208926A1; EP3955589A1; CN113661719A

Abstract

목적 소리와 목적 소리 이외의 소리가 혼합된 혼합 소리를 포함하는 마이크로폰 신호와, 보조 센서에 의해 취득된, 목적 소리와 동기하고 있는 1차원의 시계열 신호가 입력되는 입력부와, 1차원의 시계열 신호에 기초하여, 마이크로폰 신호로부터 목적 소리에 대응하는 목적 소리 신호를 추출하는 음원 추출부를 갖는 신호 처리 장치이다.

Description

신호 처리 장치, 신호 처리 방법 및 프로그램

본 개시는, 신호 처리 장치, 신호 처리 방법 및 프로그램에 관한 것이다.

유저가 발화한 음성과 그 이외의 음성(예를 들어, 주위의 소음)이 섞인 혼합 소리로부터, 유저가 발화한 음성을 추출하는 기술이 개발되어 있다(예를 들어, 비특허문헌 1 및 비특허문헌 2 참조).

A. Ephrat, I. Mosseri, O. Lang, T. Dekel, K. Wilson, A. Hassidim, W. Freeman, M. Rubinstein, "Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation", [online], 2018년 8월 9일, [2019년 4월 5일 검색], 인터넷 <URL: https://arxiv.org/abs/1804.03619> M. Delcroix, K. Zmolikova, K. Kinoshita, A. Ogawa, T. Nakatani, "Single Channel Target Speaker Extraction and Recognition with Speaker Beam", 2018 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP), p.5554-5558, 2018

이 분야에서는, 추출 대상인 소리(이하, 목적 소리라고 적절히 칭한다)를 목적 소리 및 목적 소리 이외의 소리가 혼합된 혼합 소리로부터 적절하게 추출할 수 있을 것이 요망되고 있다.

본 개시는, 상술한 점을 감안하여 이루어진 것이며, 목적 소리 및 목적 소리 이외의 소리가 혼합된 혼합 소리로부터 목적 소리를 적절하게 추출할 수 있는 신호 처리 장치, 신호 처리 방법 및 프로그램에 관한 것이다.

본 개시는, 예를 들어,

목적 소리와 목적 소리 이외의 소리가 혼합된 혼합 소리를 포함하는 마이크로폰 신호와, 보조 센서에 의해 취득된, 목적 소리와 동기하고 있는 1차원의 시계열 신호가 입력되는 입력부와,

1차원의 시계열 신호에 기초하여, 마이크로폰 신호로부터 목적 소리에 대응하는 목적 소리 신호를 추출하는 음원 추출부

를 갖는 신호 처리 장치이다.

또한, 본 개시는, 예를 들어,

목적 소리와 목적 소리 이외의 소리가 혼합된 혼합 소리를 포함하는 마이크로폰 신호와, 보조 센서에 의해 취득된, 목적 소리와 동기하고 있는 1차원의 시계열 신호가 입력부에 입력되고,

1차원의 시계열 신호에 기초하여, 마이크로폰 신호로부터 목적 소리에 대응하는 목적 소리 신호가 음원 추출부에 의해 추출되는

신호 처리 방법이다.

또한, 본 개시는, 예를 들어,

신호 처리 방법을 컴퓨터에 실행시키는 프로그램이다.

도 1은, 실시 형태에 따른 신호 처리 시스템의 구성예를 설명하기 위한 도면이다.
도 2의 A 내지 도 2의 D는, 실시 형태에 따른 신호 처리 장치에서 행하여지는 처리의 개략을 설명할 때에 참조되는 도면이다.
도 3은, 실시 형태에 따른 신호 처리 장치의 구성예를 설명하기 위한 도면이다.
도 4는, 실시 형태에 따른 신호 처리 장치의 일 양태를 설명하기 위한 도면이다.
도 5는, 실시 형태에 따른 신호 처리 장치의 다른 양태를 설명하기 위한 도면이다.
도 6은, 실시 형태에 따른 신호 처리 장치의 다른 양태를 설명하기 위한 도면이다.
도 7은, 실시 형태에 따른 음원 추출부의 상세한 구성예를 설명하기 위한 도면이다.
도 8은, 실시 형태에 따른 특징량 생성부의 상세한 구성예를 설명하기 위한 도면이다.
도 9의 A 내지 도 9의 C는, 실시 형태에 따른 단시간 푸리에 변환부에서 행하여지는 처리를 설명할 때에 참조되는 도면이다.
도 10은, 실시 형태에 따른 추출 모델부의 상세한 구성예를 설명하기 위한 도면이다.
도 11은, 실시 형태에 따른 재구성부의 상세한 구성예를 설명하기 위한 도면이다.
도 12는, 실시 형태에 따른 학습계를 설명할 때에 참조되는 도면이다.
도 13은, 실시 형태에 따른 학습 데이터를 도시하는 도면이다.
도 14는, 실시 형태에 따른 기도 마이크로폰 및 보조 센서의 구체예를 설명할 때에 참조되는 도면이다.
도 15는, 실시 형태에 따른 기도 마이크로폰 및 보조 센서의 다른 구체예를 설명할 때에 참조되는 도면이다.
도 16은, 실시 형태에 따른 신호 처리 장치에서 행하여지는 전체의 처리의 흐름을 도시하는 흐름도이다.
도 17은, 실시 형태에 따른 음원 추출부에서 행하여지는 처리의 흐름을 도시하는 흐름도이다.
도 18은, 변형예를 설명할 때에 참조되는 도면이다.
도 19는, 변형예를 설명할 때에 참조되는 도면이다.
도 20은, 변형예를 설명할 때에 참조되는 도면이다.
도 21은, 변형예를 설명할 때에 참조되는 도면이다.
도 22는, 변형예를 설명할 때에 참조되는 도면이다.

이하, 본 개시의 실시 형태 등에 대하여 도면을 참조하면서 설명한다. 또한, 설명은 이하의 순서로 행한다.

<1. 실시 형태>

<2. 변형예>

이하에 설명하는 실시 형태 등은 본 개시의 적합한 구체예이며, 본 개시의 내용이 이들 실시 형태 등에 한정되는 것은 아니다.

<1. 실시 형태>

[본 개시의 개요]

먼저, 본 개시의 개요에 대하여 설명한다. 본 개시는, 교시부 음원 추출의 일종이며, 혼합 소리를 취득하기 위한 마이크로폰(기도 마이크로폰)에 추가로, 교시 정보를 취득하기 위한 센서(보조 센서)를 구비한다. 보조 센서의 예로서, 이하의 어느 것 혹은 2개 이상의 조합을 생각할 수 있다. (1) 외이도 등, 방해 소리보다도 목적 소리쪽이 우세한 상태에서 취득할 수 있는 위치에 설치(장착)된 또하나의 기도 마이크로폰, (2) 골전도 마이크로폰이나 인두 마이크로폰 등, 대기 중 이외에서 전파되는 음파를 취득하는 마이크로폰, (3) 소리 이외의 모달이며, 유저의 발화와 동기하고 있는 신호를 취득하는 센서. 보조 센서는, 예를 들어, 목적 소리의 발생원에 장착된다. 상기 (3)의 예에 있어서는 유저의 발화와 동기한 신호로서, 볼이나 목 부근의 피부 진동이나, 얼굴 부근의 근육의 움직임 등을 생각할 수 있다. 그들을 취득하는 보조 센서의 구체예에 대해서는 후술한다.

도 1은, 본 개시의 실시 형태에 따른 신호 처리 시스템(신호 처리 시스템(1))을 나타내고 있다. 신호 처리 시스템(1)은 신호 처리 장치(10)를 갖고 있다. 신호 처리 장치(10)는 개략적으로는, 입력부(11) 및 음원 추출부(12)를 갖고 있다. 또한, 신호 처리 시스템(1)은 소리를 수음하는 기도 마이크로폰(2) 및 보조 센서(3)를 갖고 있다. 기도 마이크로폰(2) 및 보조 센서(3)는 신호 처리 장치(10)의 입력부(11)에 대하여 접속되어 있다. 기도 마이크로폰(2) 및 보조 센서(3)는 입력부(11)에 대하여 유선 또는 무선에 의해 접속되어 있다. 보조 센서(3)는 예를 들어, 목적 소리의 발생원에 장착되는 센서이다. 본 예에 있어서의 보조 센서(3)는 유저(UA)의 근방에 배치되어 있고, 구체적으로는, 유저(UA)의 신체에 장착되어 있다. 보조 센서(3)는 후술하는 목적 소리와 동기한 1차원의 시계열 신호를 취득한다. 이러한 시계열 신호에 기초하여 교시 정보가 얻어진다.

신호 처리 시스템(1)에 있어서 음원 추출부(12)에 의한 추출 대상으로 되는 목적 소리란, 유저(UA)가 발성한 음성이다. 목적 소리는 반드시 음성이며, 또한, 지향성 음원이다. 방해 소리 음원은, 목적 소리 이외의 방해 소리를 발하는 음원이다. 이것은 음성인 경우도 비음성인 경우도 있을 수 있고, 또한 동일한 음원으로부터 양쪽의 신호가 발생하는 경우도 있을 수 있다. 방해 소리 음원은 지향성 음원 또는 무지향성 음원이다. 방해 소리 음원의 개수는 0 또는 1개 이상의 정수이다. 도 1에 도시하는 예에서는, 방해 소리의 일례로서, 유저(UB)가 발성한 음성이 도시되어 있다. 물론, 소음(예를 들어, 도어의 개폐 시의 소리나, 상공을 선회하는 헬리콥터의 소리나, 많은 사람이 존재하는 장소의 혼잡 소리 등)도 방해 소리로 될 수 있다. 기도 마이크로폰(2)은 대기 중에서 전해지는 소리를 수록하는 마이크로폰이며, 목적 소리와 방해 소리의 혼합 소리를 취득한다. 이하의 설명에서는, 취득된 혼합 소리를 마이크로폰 관측 신호라고 적절히 칭한다.

이어서, 도 2의 A 내지 도 2의 D를 참조하여, 신호 처리 장치(10)에서 행하여지는 처리의 개략에 대하여 설명한다. 도 2의 A 내지 도 2의 D에서는, 횡축이 시간, 종축이 음량(또는 파워)을 각각 나타내고 있다.

도 2의 A는, 마이크로폰 관측 신호의 이미지도이다. 마이크로폰 관측 신호는, 목적 소리에서 유래되는 성분(4A)과 방해 소리에서 유래되는 성분(4B)이 혼합된 신호이다.

도 2의 B는, 교시 정보의 이미지도이다. 본 예에서는, 보조 센서(3)가 기도 마이크로폰(2)과는 다른 위치에 설치된 또하나의 기도 마이크로폰일 경우를 상정하고 있다. 따라서, 보조 센서(3)에 의해 취득되는 1차원의 시계열 신호는, 소리 신호이다. 이러한 소리 신호가 교시 정보로서 사용된다. 도 2의 B는, 목적 소리와 방해 소리가 혼합되어 있다는 점은 도 1과 마찬가지이지만, 보조 센서(3)의 장착 위치가 유저의 신체에 장착되어 있기 때문에, 방해 소리에서 유래되는 성분(4B)보다도 목적 소리에서 유래되는 성분(4A)쪽이 우세한 상태에서 관측된다.

도 2의 C는, 교시 정보의 다른 이미지도이다. 본 예에서는, 보조 센서(3)가 기도 마이크로폰 이외의 센서일 경우를 상정하고 있다. 기도 마이크로폰 이외의 센서로 취득되는 신호의 예로서, 골전도 마이크로폰이나 인두 마이크로폰 등에 의해 취득되는, 유저의 체내에서 전파된 음파나, 마이크로폰 이외의 센서로 취득되는, 유저의 볼이나 목 등의 피부 표면의 진동이나, 입 부근의 근육의 근 전위 및 가속도 등이 있다. 이들 신호는 대기 중에서 전파되지 않기 때문에, 방해 소리의 영향을 받기 어려울 것으로 생각된다. 그 때문에, 교시 정보는 주로 목적 소리에서 유래되는 성분(4A)으로 구성된다. 즉, 유저의 발화 개시와 함께 신호 강도가 상승되고, 발화 종료와 함께 하강한다.

교시 정보는 목적 소리의 발화와 동기하여 취득되기 때문에, 목적 소리에서 유래되는 성분(4A)과 목적 소리에서 유래되는 성분(4B)의 상승·하강의 타이밍은, 목적 소리에서 유래되는 성분(4A)과 동일하다.

도 1에 도시하는 바와 같이, 신호 처리 장치(10)의 음원 추출부(12)는 기도 마이크로폰(2) 유래의 마이크로폰 관측 신호와 보조 센서(3) 유래의 교시 정보를 입력하고, 마이크로폰 관측 신호로부터 방해 소리 유래의 성분을 지워서 목적 소리 유래의 성분을 남김으로써, 추출 결과를 생성한다.

도 2의 D는, 추출 결과의 이미지이다. 이상적인 추출 결과는, 목적 소리에서 유래되는 성분(4A)만으로 구성된다. 이러한 추출 결과를 생성하기 위해서, 음원 추출부(12)는 마이크로폰 관측 신호와 교시 정보로부터 추출 결과에의 대응짓기를 나타내는 모델을 갖고 있다. 이러한 모델은 대량의 데이터에 의해 사전에 학습되어 있다.

[신호 처리 장치의 구성예]

(전체의 구성예)

도 3은, 실시 형태에 따른 신호 처리 장치(10)의 구성예를 설명하기 위한 도면이다. 상술한 바와 같이, 기도 마이크로폰(2)은 대기 중에서 전해져 오는 목적 소리와 목적 소리 이외의 소리(방해 소리)가 혼합된 혼합 소리를 관측한다. 보조 센서(3)는 유저의 신체에 장착되어 있어서, 목적 소리와 동기한 1차원의 시계열 신호를 교시 정보로서 취득한다. 기도 마이크로폰(2)에 수음된 마이크로폰 관측 신호 및 보조 센서(3)에 의해 취득된 1차원의 시계열 신호가 신호 처리 장치(10)의 입력부(11)를 통하여 음원 추출부(12)에 입력된다. 또한, 신호 처리 장치(10)는 신호 처리 장치(10)를 통괄적으로 제어하는 제어부(13)를 갖고 있다. 음원 추출부(12)는 기도 마이크로폰(2)에 의해 수음되는 혼합 소리로부터 목적 소리에 대응하는 목적 소리 신호를 추출하고, 출력한다. 구체적으로는, 음원 추출부(12)는 1차원의 시계열 신호에 기초하여 생성되는 교시 정보를 사용하여 목적 소리 신호를 추출한다. 목적 소리 신호는, 후처리부(14)로 출력된다.

후처리부(14)의 구성은, 신호 처리 장치(10)가 적용되는 기기에 따라서 다르다. 도 4는, 후처리부(14)가 소리 재생부(14A)에 의해 구성되는 예를 도시하고 있다. 소리 재생부(14A)는 소리 신호를 재생하기 위한 구성(증폭기나 스피커 등)을 갖고 있다. 도시된 예의 경우에는, 목적 소리 신호가 소리 재생부(14A)에 의해 재생된다.

도 5는, 후처리부(14)가 통신부(14B)에 의해 구성되는 예를 도시하고 있다. 통신부(14B)는 인터넷이나 소정의 통신망 등의 네트워크를 통하여, 목적 소리 신호를 외부 기기로 송신하기 위한 구성을 갖고 있다. 도시된 예의 경우에는, 목적 소리 신호가 통신부(14B)에 의해 송신된다. 또한, 외부 기기로부터 송신된 음성 신호가 통신부(14B)에 의해 수신된다. 본 예의 경우에는, 신호 처리 장치(10)는 예를 들어, 통신 기기에 적용된다.

도 6은, 후처리부(14)가 발화 구간 추정부(14C), 음성 인식부(14D) 및 애플리케이션 처리부(14E)에 의해 구성되는 예를 도시하고 있다. 발화 구간 추정부(14C)에 의해, 기도 마이크로폰(2)으로부터 음원 추출부(12)까지는 도중 끊김이 없는 스트림으로서 다루어지고 있었던 신호가, 발화라고 하는 단위로 분할된다. 발화 구간 추정(혹은 음성 구간 검출)의 방법으로서는, 공지된 방법을 적용할 수 있다. 또한, 발화 구간 추정부(14C)의 입력으로서, 음원 추출부(12)의 출력인 깨끗한 목적 소리에 추가로, 보조 센서(3)로 취득된 신호를 사용해도 된다(이 경우에 있어서의 보조 센서(3)로 취득된 신호의 흐름이, 도 6에서는 점선에 의해 나타내져 있다.). 즉, 소리 신호뿐만 아니라, 보조 센서(3)로 취득된 신호도 아울러 사용함으로써 발화 구간 추정(검출)이 행하여져도 된다. 이러한 방법으로서도 공지된 방법을 적용할 수 있다.

발화 구간 추정부(14C)는 분할된 소리 그 자체를 출력한다고 하는 형태도 가능하지만, 소리 대신에 개시 시각이나 종료 시각과 같은 구간을 나타내는 발화 구간 정보를 출력하고, 분할 자체는 발화 구간 정보를 사용하여 음성 인식부(14D)에서 행한다고 하는 형태도 가능하다. 도 6은, 후자의 형태를 상정한 예이다. 음성 인식부(14D)는 음원 추출부(12)의 출력인 깨끗한 목적 소리와 발화 구간 추정부(14C)의 출력인 구간 정보를 입력으로 하고, 그 구간에 대응한 단어열을 음성 인식 결과로서 출력한다. 애플리케이션 처리부(14E)는 음성 인식 결과를 이용하는 처리를 담당하는 모듈이다. 애플리케이션 처리부(14E)는 신호 처리 장치(10)가 음성 대화 시스템에 적용되는 예이면, 응답 생성이나 음성 합성 등을 행하는 모듈에 대응한다. 또한, 신호 처리 장치(10)가 음성 번역 시스템에 적용되는 예이면, 애플리케이션 처리부(14E)는 기계 번역이나 음성 합성 등을 행하는 모듈에 대응한다.

(음원 추출부에 대해서)

도 7은, 음원 추출부(12)의 상세한 구성예를 설명하기 위한 블록도이다. 음원 추출부(12)는 예를 들어, AD(Analog to Digital) 변환부(12A)와, 특징량 생성부(12B)와, 추출 모델부(12C)와, 재구성부(12D)를 갖고 있다.

음원 추출부(12)의 입력은 2종류 있다. 한쪽은 기도 마이크로폰(2)에 의해 취득된 마이크로폰 관측 신호이며, 다른쪽은 보조 센서(3)에 의해 취득된 교시 정보이다. 마이크로폰 관측 신호는, AD 변환부(12A)에 의해 디지털 신호로 변환된 후, 특징량 생성부(12B)로 보내진다. 교시 정보는 특징량 생성부(12B)로 보내진다. 도 7에서는 생략되어 있지만, 보조 센서(3)로 취득된 신호가 아날로그 신호일 경우에는, 당해 아날로그 신호가, AD 변환부(12A)와는 다른 AD 변환부에 의해 디지털 신호로 변환된 후에, 특징량 생성부(12B)에 입력된다. 이와 같이 디지털 신호로 변환된 것도, 보조 센서(3)로 취득된 1차원의 시계열 신호에 기초하여 생성되는 교시 정보의 하나이다.

특징량 생성부(12B)는 마이크로폰 관측 신호 및 교시 정보의 양쪽을 입력으로 하여, 추출 모델부(12C)에 입력하기 위한 특징량을 생성한다. 또한, 추출 모델부(12C)의 출력을 파형으로 변환하기 위하여 필요한 정보의 유지도 행한다. 추출 모델부(12C)의 모델은, 목적 소리와 방해 소리의 혼합 신호인 마이크로폰 관측 신호와 추출해야 할 목적 소리의 힌트가 되는 교시 정보의 세트로부터 깨끗한 목적 소리에의 대응 관계가 미리 학습되어 있는 모델이다. 이후에는, 추출 모델부(12C)에의 입력을 입력 특징량, 추출 모델부(12C)로부터의 출력을 출력 특징량이라고 적절히 칭한다.

재구성부(12D)는 추출 모델부(12C)로부터의 출력 특징량을 소리 파형 또는 그와 유사한 신호로 변환한다. 그 때에, 특징량 생성부(12B)로부터 파형 생성을 위하여 필요한 정보를 수취한다.

(음원 추출부가 갖는 각 구성의 상세에 대해서)

「특징량 생성부의 상세에 대해서」

이어서, 특징량 생성부(12B)의 상세에 대하여 도 8을 참조하여 설명한다. 도 8에서는, 특징량으로서 스펙트럼 또는 그와 유사한 것을 상정하고 있지만, 그 이외의 특징량도 사용 가능하다. 특징량 생성부(12B)는 단시간 푸리에 변환부(121B)와, 교시 정보 변환부(122B)와, 특징량 버퍼부(123B)와, 특징량 얼라인먼트부(124B)를 갖고 있다.

특징량 생성부(12B)의 입력으로서는, 2종류의 신호가 존재한다. 한쪽의 입력인, AD 변환부(12A)에 의해 디지털 신호로 변환된 마이크로폰 관측 신호가 단시간 푸리에 변환부(121B)에 입력된다. 그리고, 마이크로폰 관측 신호가, 단시간 푸리에 변환부(121B)에 의해 시간 주파수 영역의 신호, 즉, 스펙트럼으로 변환된다.

다른 쪽의 입력인 보조 센서(3)로부터의 교시 정보에 대해서는, 교시 정보 변환부(122B)에 의해 신호의 종류에 따른 변환이 행하여진다. 교시 정보가 소리 신호일 경우에는, 마이크로폰 관측 신호와 마찬가지로 단시간 푸리에 변환이 행하여진다. 교시 정보가 소리 이외의 모달일 경우에는, 단시간 푸리에 변환을 행하는 것이든 무변환인채로 사용하는 것이든 가능하다.

단시간 푸리에 변환부(121B) 및 교시 정보 변환부(122B)에 의해 변환된 신호는, 소정의 시간분만큼 특징량 버퍼부(123B)에서 보존된다. 여기에서는, 시간 정보와 변환 결과가 대응지어진 상태에서 보존되어 있고, 후단의 모듈로부터 과거의 특징량의 취득이라고 하는 리퀘스트가 있었을 경우에 그 특징량을 출력할 수 있다. 또한, 마이크로폰 관측 신호의 변환 결과에 대해서는, 그 정보가 후단에서의 파형 생성에서 사용되기 때문에, 복소 스펙트럼의 집합으로서 보존된다.

특징량 버퍼부(123B)의 출력은, 2군데, 구체적으로는 재구성부(12D) 및 특징량 얼라인먼트부(124B) 각각에서 사용된다. 특징량 얼라인먼트부(124B)는 마이크로폰 관측 신호 유래의 특징량과 교시 정보 유래의 특징량에서 시간의 입도가 다른 경우에, 양자의 입도를 맞추는 처리를 행한다.

예를 들어, 마이크로폰 관측 신호의 샘플링 주파수가 16kHz이며, 단시간 푸리에 변환부(121B)에서의 시프트 폭이 160샘플이면, 마이크로폰 관측 신호 유래의 특징량은 1/100초에 1회의 빈도로 생성된다. 한편, 교시 정보 유래의 특징량이 1/200초에 1회의 빈도로 생성되는 경우에는, 마이크로폰 관측 신호 유래의 특징량의 1세트분과 교시 정보 유래의 특징량의 2세트분을 결합한 데이터를 생성하고, 그것을 추출 모델부(12C)에의 1회분의 입력 데이터로 한다.

반대로, 교시 정보 유래의 특징량이 1/50초에 1회의 빈도로 생성되는 경우에는, 마이크로폰 관측 신호 유래의 특징량의 2세트분과 교시 정보 유래의 특징량의 1세트분을 결합한 데이터를 생성한다. 또한, 이 단계에 있어서, 복소 스펙트럼으로부터 진폭 스펙트럼으로의 변환 등도 필요에 따라서 행한다. 이와 같이 하여 생성된 출력이 추출 모델부(12C)로 보내진다.

여기서, 도 9를 참조하여, 상술한 단시간 푸리에 변환부(121B)에서 행하여지는 처리에 대하여 설명한다. AD 변환부(12A)에 의해 얻어진 마이크로폰 관측 신호의 파형(도 9의 A 참조)으로부터 일정 길이를 잘라내고, 그들에 해닝창이나 해밍창 등의 창 함수를 적용한다. 이 잘라낸 단위를 프레임이라고 칭한다. 1프레임분의 데이터에 단시간 푸리에 변환을 적용함으로써, 시간 주파수 영역의 관측 신호로서, 예를 들어, X(1,t)로부터 X(K,t)을 얻는다(도 9의 B 참조). 단, t는 프레임 번호, K는 주파수 빈의 총 수를 나타낸다. 잘라내는 프레임간에는 중복이 있어도 되고, 그렇게 함으로써 연속하는 프레임 간에서 시간 주파수 영역의 신호 변화가 매끄러워진다. 1프레임분의 데이터인 X(1,t)부터 X(K,t)까지의 세트를 스펙트럼이라고 칭하고, 복수의 스펙트럼을 시간 방향으로 배열한 데이터 구조를 스펙트로그램(도 9의 C 참조)이라고 칭한다. 도 9의 C의 스펙트로그램에서는, 횡축이 프레임 번호를, 종축이 주파수 빈 번호를 나타내고, 도 9의 A로부터 3개의 스펙트럼(X(1,t-1)부터 X(K,t-1)까지, X(1,t)부터 X(K,t)까지, X(1,t+1)부터 X(K,t+1)까지)이 각각 생성되어 있다.

「추출 모델부의 상세에 대해서」

이어서, 도 10을 참조하여, 추출 모델부(12C)의 상세에 대하여 설명한다. 추출 모델부(12C)는 특징량 생성부(12B)의 출력을 입력으로 한다. 특징량 생성부(12B)의 출력에는 2종류의 데이터가 포함된다. 한쪽은 마이크로폰 관측 신호 유래의 특징량이며, 다른쪽은 교시 정보 유래의 특징량이다. 이후에는, 마이크로폰 관측 신호 유래의 특징량을 제1 특징량, 교시 정보 유래의 특징량을 제2 특징량이라고 적절히 칭한다.

추출 모델부(12C)는 예를 들어, 입력층(121C)과, 입력층(122C)과, 중간층 1 내지 중간층 n을 포함하는 중간층(123C)과, 출력층(124C)을 갖고 있다. 도 10에 도시되는 추출 모델부(12C)는 소위 뉴럴 네트워크를 나타내고 있다. 입력층이 입력층(121C) 및 입력층(122C)의 2개로 나뉘어져 있는 이유는, 2종류의 특징량을 각각에 입력하기 위해서이다.

도 10에 도시한 예에 있어서, 입력층(121C)은 제1 특징량이 입력되는 입력층이며, 입력층(122C)은 제2 특징량이 입력되는 입력층이다. 뉴럴 네트워크의 종류나 구조(층의 수)는 임의로 설정 가능하며, 후술하는 학습계에 의해, 제1 특징량과 제2 특징량의 세트로부터 깨끗한 목적 소리에의 대응 관계가 미리 학습되어 있다.

추출 모델부(12C)는 제1 특징량을 입력층(121C)에, 제2 특징량을 입력층(122C)에 각각 입력하고, 소정의 순방향 전파 처리(forward propagation)를 행함으로써, 출력 데이터인 깨끗한 목적 소리의 목적 소리 신호에 상당하는 출력 특징량을 생성한다. 출력 특징량의 종류로서, 깨끗한 목적 소리에 대응한 진폭 스펙트럼이나, 마이크로폰 관측 신호의 스펙트럼으로부터 깨끗한 목적 소리의 스펙트럼을 생성하기 위한 시간 주파수 마스크 등이 사용 가능하다.

또한, 도 10에서는, 2종류의 입력 데이터는 직후의 중간층인 (중간층 1)에서 합류되어 있지만, 그것보다도 출력층(124C)에 가까운 측의 중간층에서 합류시켜도 된다. 그 경우, 각 입력층으로부터 합류 지점까지의 층의 개수는 각각 달라도 되고, 하나의 예로서, 입력 데이터의 한쪽이 중간층으로부터 입력되는 네트워크 구조를 사용해도 상관없다. 2종류의 데이터를 중간층에서 합류시키는 방법은, 이하와 같이 복수 가지를 생각할 수 있다. 하나는, 직전에 2개의 층으로부터 출력되는 벡터 형식의 데이터를 연결(concatenate)하는 방법이다. 또한 하나는, 2개의 벡터의 요소수가 동일하면, 요소끼리를 곱한다고 하는 방법이다.

「재구성부의 상세에 대해서」

이어서, 도 11을 참조하여, 재구성부(12D)의 상세에 대하여 설명한다. 재구성부(12D)는 추출 모델부(12C)의 출력을 소리 파형 또는 소리와 유사한 데이터로 변환한다. 이러한 처리를 행하기 위해서, 특징량 생성부(12B) 중 특징량 버퍼부(123B)로부터도 필요한 데이터를 수취한다.

재구성부(12D)는 복소 스펙트로그램 생성부(121D)와, 역 단시간 푸리에 변환부(122D)를 갖고 있다. 복소 스펙트로그램 생성부(121D)는 추출 모델부(12C)의 출력 및 특징량 생성부(12B)로부터의 데이터를 통합하여 목적 소리의 복소 스펙트로그램을 생성한다. 생성의 방법은, 추출 모델부의 출력이 진폭 스펙트럼인지 시간 주파수 마스크인지에 따라 바뀐다. 진폭 스펙트럼의 경우에는, 위상 정보가 결락되어 있기 때문에, 파형으로 변환하기 위해서는 위상 정보를 추가할(복원할) 필요가 있다. 위상의 복원을 위해서는 공지된 기술이 적용 가능하며, 예를 들어, 특징량 버퍼부(123B)로부터 동일한 타이밍의 마이크로폰 관측 신호의 복소 스펙트럼을 취득하고, 그것으로부터 위상 정보를 취출하여 진폭 스펙트럼과 합성함으로써 목적 소리의 복소 스펙트럼을 생성한다.

한편, 시간 주파수 마스크의 경우에는, 동일하게 마이크로폰 관측 신호의 복소 스펙트럼을 취득한 후, 복소 스펙트럼에 시간 주파수 마스크를 적용함(시간 주파수마다에 승산함)으로써 목적 소리의 복소 스펙트럼을 생성한다. 시간 주파수 마스크의 적용에 대해서는, 공지된 방법(예를 들어, 일본 특허 공개 제2015-55843호 공보에 기재된 방법)을 사용할 수 있다.

역 단시간 푸리에 변환부(122D)는 복소 스펙트럼을 파형으로 변환한다. 역 단시간 푸리에 변환은, 역 푸리에 변환 및 오버랩 가산 등을 포함한다. 이들 방법에 대해서는 공지된 방법(예를 들어, 일본 특허 공개 제2018-64215호 공보에 기재된 방법)을 적용할 수 있다.

또한, 후단의 모듈에 따라서는, 재구성부(12D)에 있어서 파형 이외의 데이터로 변환하거나, 혹은, 재구성부(12D) 자체를 생략하거나 하는 것도 가능하다. 예를 들어, 후단의 모듈이 발화 구간 검출 및 음성 인식이며, 거기에서 사용되는 특징량이 진폭 스펙트럼 혹은 거기에서 생성 가능한 데이터일 경우, 재구성부(12D)는 추출 모델부(12C)의 출력을 진폭 스펙트럼으로 변환하기만 해도 된다. 또한, 추출 모델부(12C)가 진폭 스펙트럼 그 자체를 출력하는 경우에는, 재구성부(12D) 자체를 생략해도 된다.

(추출 모델부의 학습계에 대해서)

이어서, 도 12 및 도 13을 참조하여, 추출 모델부(12C)의 학습계에 대하여 설명한다. 이러한 학습계는 추출 모델부(12C)에 대하여 소정의 학습을 사전에 행하기 위하여 사용된다. 이하에 설명하는 학습계는, 추출 모델부(12C)를 제외하고, 신호 처리 장치(10)와는 다른 시스템인 것을 상정하고 있지만, 학습계에 이러한 구성이 신호 처리 장치(10)에 내장되어 있어도 된다.

학습계의 기본적인 동작은, 예를 들어, 이하의 (1) 내지 (3)과 같으며, (1) 내지 (3)까지의 프로세스를 반복하여 행하는 것을 학습이라고 칭한다. (1) 목적 소리 데이터 세트(21) 및 방해 소리 데이터 세트(22)로부터, 입력 특징량 및 교사 데이터(그 입력 특징량에 대한 이상적인 출력 특징량)가 생성된다. (2) 입력 특징량이 추출 모델부(12C)에 입력되고, 순방향 전파에 의해 출력 특징량이 생성된다. (3) 출력 특징량과 교사 데이터가 비교되어, 오차가 작아지도록, 바꾸어 말하면, 손실 함수에 있어서의 손실값을 최소로 하도록 추출 모델 내의 파라미터가 갱신된다.

입력 특징량과 교사 데이터의 페어를, 이하에서는 학습 데이터라고 적절히 칭한다. 학습 데이터는 도 13에 도시하는 바와 같은 4가지를 생성한다. 이 도면에 있어서, (a)는 목적 소리와 방해 소리가 혼합되어 있는 경우에 목적 소리를 추출하는 것을 학습하기 위한 데이터이며, (b)는 조용한 환경에서의 발화를 열화 없이 출력시키기 위한 데이터이며, (c)는 유저가 발화를 하고 있지 않은 경우에 무음을 출력시키기 위한 데이터이며, (d)는 조용한 환경에 있어서 유저가 아무것도 발화하고 있지 않은 경우에 무음을 출력시키기 위한 데이터이다. 또한, 도 13의 교시 정보에 있어서 「없음」이란, 신호 자체는 존재하지만, 그 중에는 목적 소리에서 유래되는 성분이 포함되어 있지 않은 것을 의미한다.

이들 4가지의 학습 데이터는, 경우 분류에 의해 각각을 소정의 비율로 생성한다. 혹은 후술하는 바와 같이, 조용한 환경에서 수록된 무음에 가까운 소리를 목적 소리 및 방해 소리의 데이터 세트에 포함해 둠으로써, 경우 분류 없이 전체 조합이 생성되도록 해도 된다.

이하, 학습계를 구성하는 모듈과 그 동작에 대하여 설명한다. 목적 소리 데이터 세트(21)는 목적 소리 파형과 그것과 동기한 교시 정보의 페어로 구성되는 집합이다. 단, 도 13에 있어서의 (c)에 대응하는 학습 데이터나 도 13에 있어서의 (d)에 대응하는 학습 데이터를 생성할 목적으로, 조용한 장소에서 사람이 발화하고 있지 않을 때의 마이크로폰 관측 신호 및 그에 대응한 보조 센서의 입력 신호의 페어도, 이 데이터 세트에는 포함된다.

방해 소리 데이터 세트(22)는 방해 소리가 될 수 있는 소리로 구성되는 집합이다. 음성도 방해 소리가 될 수 있기 때문에, 방해 소리 데이터 세트(22)에는 음성이든 비음성이든 포함된다. 또한, 도 13에 있어서의 (b)에 대응하는 학습 데이터나 도 13에 있어서의 (d)에 대응하는 학습 데이터를 생성하기 위해서, 조용한 장소에서 관측된 마이크로폰 관측 신호도 이 데이터 세트에는 포함된다. 학습 시에는, 목적 소리 파형과 교시 정보를 포함하는 페어의 하나가 목적 소리 데이터 세트(21)로부터 랜덤하게 취출된다. 그 안의 교시 정보에 대해서는, 그것이 기도 마이크로폰에 의해 취득된 경우에는 혼합부(24)에 입력되지만, 기도 마이크로폰 이외의 센서로 취득된 경우에는 특징량 생성부(25)에 직접 입력된다. 목적 소리 파형에 대해서는, 혼합부(23) 및 교사 데이터 생성부(26)에 각각 입력된다. 한편, 방해 소리 데이터 세트(22)로부터는 랜덤하게 1개 이상의 소리 파형이 취출되어, 당해 소리 파형이 혼합부(23)에 입력된다. 보조 센서가 기도 마이크로폰 이외일 경우에는, 방해 소리 데이터 세트(22)로부터 취출된 파형은 혼합부(24)에도 입력된다.

혼합부(23)는 목적 소리 파형과 1개 이상의 방해 소리 파형을, 소정의 혼합비(SN비(Signal Noise Ratio))로 혼합한다. 혼합 결과는 마이크로폰 관측 신호에 상당하고, 특징량 생성부(25)로 보내진다. 혼합부(24)는 보조 센서(3)가 기도 마이크로폰일 경우에 적용되는 모듈이며, 소리 신호인 교시 정보에 대하여 방해 소리를 소정의 혼합비로 혼합한다. 혼합부(24)에 있어서 방해 소리를 혼합하는 이유는, 교시 정보에 방해 소리가 어느 정도까지 혼입되더라도 양호한 음원 추출을 행할 수 있도록 하기 위해서이다.

특징량 생성부(25)에 대한 입력은 2종류 있고, 한쪽은 마이크로폰 관측 신호이며, 다른쪽은 교시 정보 혹은 혼합부(24)의 출력이다. 이들 2종류의 데이터로부터 입력 특징량을 생성한다. 추출 모델부(12C)는 학습 전 및 학습 도중의 뉴럴 네트워크이며, 구성은 도 10과 동일하다. 교사 데이터 생성부(26)는 이상적인 출력 특징량인 교사 데이터를 생성한다. 교사 데이터의 형상은 기본적으로 출력 특징량과 동일하며, 진폭 스펙트럼이나 시간 주파수 마스크 등이다. 단 후술하는 바와 같이, 추출 모델부(12C)의 출력 특징량이 시간 주파수 마스크인 한편, 교사 데이터가 진폭 스펙트럼이라고 하는 조합도 가능하다.

도 13에 도시한 바와 같이, 교사 데이터는 목적 소리 및 방해 소리의 유무에 따라 다르다. 목적 소리가 존재하는 경우에는 목적 소리에 대응한 출력 특징량, 목적 소리가 존재하지 않는 경우에는 무음에 대응한 출력 특징량이다. 비교부(27)는 추출 모델부(12C)의 출력과 교사 데이터를 비교하여, 손실 함수(loss function)에 있어서의 손실값이 감소하도록, 추출 모델부(12C)에 포함되는 파라미터에 관한 갱신값을 계산한다. 비교에서 사용하는 손실 함수로서는, 평균 제곱 오차 등이 사용 가능하다. 비교의 방법 및 파라미터의 갱신 방법에 대해서는, 뉴럴 네트워크의 학습 알고리즘으로서 공지된 방법을 적용할 수 있다.

[기도 마이크로폰 및 보조 센서의 구체예]

(구체예 1)

이어서, 기도 마이크로폰(2) 및 보조 센서(3)의 구체예에 대하여 설명한다. 도 14는, 오버 이어형의 헤드폰(30)에 있어서의, 기도 마이크로폰(2) 및 보조 센서(3)의 구체예를 도시하는 도면이다. 귀에 씌우는 부품인 이어 컵(31)의 외측과 내측에, 각각, 외측(이개측과는 반대측) 마이크로폰(32)과 내측(이개측) 마이크로폰(33)이 마련되어 있다. 외측 마이크로폰(32) 및 내측 마이크로폰(33)은 예를 들어, 노이즈 캔슬용으로서 마련되어 있는 마이크로폰을 적용할 수 있다. 마이크로폰의 종류로서는 외측도 내측도 기도 마이크로폰이지만, 사용 목적이 다르다. 외측 마이크로폰(32)이 상술한 기도 마이크로폰(2)에 상당하고, 목적 소리와 방해 소리가 혼합된 소리를 취득하기 위하여 사용된다. 내측 마이크로폰(33)이 보조 센서(3)에 상당한다.

사람의 발성 기관은 귀와 연결되어 있기 때문에, 헤드폰 장착자 즉 유저의 발화(목적 소리)는 대기를 통하여 외측 마이크로폰(32)으로 관측되는 외에, 내이 및 외이도를 경유하여, 내측 마이크로폰(33)에서도 관측된다. 방해 소리는, 외측 마이크로폰(32)으로 관측되는 외에 내측 마이크로폰(33)에서도 관측되지만, 이어 컵(31)에 의해 어느 정도 감쇠되기 때문에, 내측 마이크로폰(33)에서는 방해 소리보다도 목적 소리가 우세한 상태에서 소리가 관측된다. 그러나, 내측 마이크로폰(33)으로 관측된 목적 소리는, 내이를 경유하고 있기 때문에 주파수 분포가 외측 마이크로폰(32) 유래의 것과는 다르고, 또한, 체내에서 발생하는 발화 이외의 소리(연하 소리 등)가 수음되는 경우도 있기 때문에, 내측 마이크로폰(33)으로 관측된 소리를 다른 인간이 청취하거나, 그대로 음성 인식에 입력하거나 하는 것은 반드시 적절한 것은 아니다.

따라서 본 개시에서는, 내측 마이크로폰(33)으로 관측된 소리 신호를 음원 추출의 교시 정보로서 사용함으로써 문제를 해결한다. 구체적으로는, 이하의 (1) 내지 (3)의 이유에 의해 문제가 해결된다. (1) 추출 결과는, 기도 마이크로폰(2)인 외측 마이크로폰(32)의 관측 신호로부터 생성되고, 또한, 학습 시에 기도 마이크로폰 유래의 교사 데이터를 사용하기 때문에, 추출 결과에 있어서의 목적 소리의 주파수 분포는 조용한 환경에서 수록된 것에 가깝다. (2) 내측 마이크로폰(33)으로 관측되는 소리 즉 교시 정보에는, 목적 소리뿐만 아니라 방해 소리도 혼입되는 경우는 있지만, 학습 시에는 그러한 교시 정보 및 외측 마이크로폰 관측 신호로부터 목적 소리를 출력하는 데이터를 사용하여 대응짓기를 학습시키기 때문에, 추출 결과는 비교적 깨끗한 음성이다. (3) 연하 소리 등이 내측 마이크로폰(33)으로 관측되더라도, 그 소리는 외측 마이크로폰(32)에서는 관측되지 않기 때문에, 추출 결과에는 출현하지 않는다.

(구체예 2)

도 15는, 편귀 삽입형의 이어폰(40)에 있어서의, 기도 마이크로폰(2) 및 보조 센서(3)의 구체예를 도시하는 도면이다. 하우징(41)의 외측에 외측 마이크로폰(42)이 마련되어 있다. 외측 마이크로폰(42)이 기도 마이크로폰(2)에 상당한다. 외측 마이크로폰(42)에 의해, 공기 중에서 전해지는 목적 소리와 방해 소리가 혼합된 혼합 소리가 관측된다.

이어 피스(43)는 유저의 외이도에 삽입되는 부분이다. 이어 피스(43)의 일부에 내측 마이크로폰(44)이 마련되어 있다. 내측 마이크로폰(44)이 보조 센서(3)에 상당한다. 내측 마이크로폰(44)에서는, 내이 경유로 전해져 온 목적 소리와, 하우징부를 통과하여 감쇠한 방해 소리가 혼합된 소리가 관측된다. 음원 추출의 방법에 대해서는 도 14에 도시한 헤드폰과 마찬가지이기 때문에, 중복된 설명을 생략한다.

(다른 구체예)

또한, 보조 센서(3)는 기도 마이크로폰에 한정되는 것은 아니며, 그 이외의 종류의 마이크로폰이나, 나아가 마이크로폰 이외의 센서도 사용 가능하다.

예를 들어, 보조 센서(3)로서, 골전도 마이크로폰이나 인두 마이크로폰과 같은, 체내에서 직접 전파하는 음파를 취득 가능한 마이크로폰을 사용해도 된다. 체내에서 전파하는 음파는 대기 중에서 전해지는 방해 소리의 영향을 받기 어렵기 때문에, 이들 마이크로폰에서 취득된 소리 신호는 유저의 깨끗한 발화 음성에 가까울 것으로 생각된다. 그러나 실제로는, 도 14의 오버 이어형 헤드폰(30)에 있어서의 내측 마이크로폰(33)을 사용한 경우와 마찬가지로, 주파수 분포의 차이나 연하 소리 등의 문제가 발생할 가능성이 있다. 그래서, 골전도 마이크로폰이나 인두 마이크로폰 등을 보조 센서(3)로서 사용하여, 교시부 음원 추출을 행함으로써 문제를 해결한다.

보조 센서(3)로서는 이외에, 음파 이외의 신호를 검출하는 센서, 예를 들어, 광 센서를 적용하는 것도 가능하다. 소리를 발하는 물체의 표면(예를 들어, 근육)은 진동하고 있고, 인체이면 발성 기관의 근처에 있는 목이나 볼의 피부는 자체가 발하는 음성에 따라서 진동하고 있다. 그 때문에, 그 진동을 광 센서에 의해 비접촉적인 방법으로 검출함으로써, 발화 자체의 유무를 검출하거나, 음성 그 자체를 추정하거나 할 수 있다.

예를 들어, 진동을 검출하는 광 센서를 사용하여 발화 구간의 검출을 행하는 기술이 제안되어 있다. 또한, 레이저를 피부에 쬠으로써 발생하는 반점의 밝기를 고프레임 레이트의 카메라로 관측하고, 그 밝기의 변화로부터 소리의 추정을 행하는 기술도 제안되어 있다. 본 예에서도 광 센서를 사용하는데, 광 센서에 의한 검출 결과는, 발화 구간 검출이나 소리의 추정을 위해서가 아니라, 교시부 음원 추출을 위하여 사용된다.

광 센서를 사용한 구체예에 대하여 설명한다. 레이저 포인터나 LED 등의 광원으로부터 발하는 광을 볼·목·후두부와 같은 발성 기관 부근의 피부에 쬔다. 광을 쬠으로써 피부 상에 광의 반점이 발생한다. 반점의 밝기는 광 센서로 관측된다. 이 광 센서가 보조 센서(3)에 상당하고, 유저의 신체에 장착되어 있다. 집광을 용이하게 하기 위해서, 광 센서와 광원은 일체화해도 된다.

휴대를 용이하게 하기 위해서, 기도 마이크로폰(2)을 광 센서 및 광원과 일체화해도 된다. 이 모듈에 대하여 기도 마이크로폰(2)으로 취득된 신호를 마이크로폰 관측 신호로서 입력하고, 광 센서로 취득된 신호를 교시 정보로서 입력한다.

상기 예는 진동을 검출하는 광 센서를 보조 센서(3)로서 사용하는 것이었지만, 유저의 발화와 동기한 신호를 취득하는 센서이면, 다른 종류의 센서도 사용 가능하다. 그러한 예로서, 하악이나 구순 부근의 근육의 근 전위를 취득하기 위한 근전 센서나, 하악 부근의 움직임을 취득하기 위한 가속도 센서 등을 들 수 있다.

[처리의 흐름]

(전체의 처리의 흐름)

이어서, 실시 형태에 따른 신호 처리 장치(10)에서 행하여지는 처리의 흐름에 대하여 설명한다. 도 16은, 실시 형태에 따른 신호 처리 장치(10)에서 행하여지는 전체의 처리의 흐름을 도시하는 흐름도이다. 처리가 개시되면, 스텝 ST1에서는, 기도 마이크로폰(2)에 의해 마이크로폰 관측 신호가 취득된다. 그리고, 처리가 스텝 ST2로 진행한다.

스텝 ST2에서는, 보조 센서(3)에 의해 1차원의 시계열 신호인 교시 정보가 취득된다. 그리고, 처리가 스텝 ST3으로 진행한다.

스텝 ST3에서는, 음원 추출부(12)에 의해, 마이크로폰 관측 신호와 교시 정보를 사용하여 추출 결과, 즉, 목적 소리 신호가 생성된다. 그리고, 처리가 스텝 ST4로 진행한다.

스텝 ST4에서는, 일련의 처리가 종료되었는지의 여부가 판단된다. 이러한 판단 처리는, 예를 들어, 신호 처리 장치(10)의 제어부(13)에 의해 행하여진다. 일련의 처리가 종료되지 않은 경우에는, 처리가 스텝 ST1로 되돌아가서, 상술한 처리가 반복된다.

또한, 도 16에서는 도시를 생략하고 있지만, 스텝 ST3에 관한 처리에서 목적 소리 신호가 생성된 후, 후처리부(14)에 의한 처리가 행하여진다. 상술한 바와 같이, 후처리부(14)에 의한 처리는, 신호 처리 장치(10)가 적용되는 기기에 따른 처리(통화, 녹음, 음성 인식 등)이다.

(음원 추출부에 의한 처리의 흐름)

이어서, 도 16의 스텝 ST3에서 행하여지는 음원 추출부(12)에 의한 처리의 흐름을, 도 17의 흐름도를 참조하여 설명한다.

처리가 개시되면, 스텝 ST11에서는, AD 변환부(12A)에 의한 AD 변환 처리가 행하여진다. 구체적으로는, 기도 마이크로폰(2)에 의해 취득된 아날로그 신호가 디지털 신호인 마이크로폰 관측 신호로 변환된다. 또한, 보조 센서(3)로서 마이크로폰이 적용되어 있는 경우에는, 보조 센서(3)로 취득된 아날로그 신호가 디지털 신호인 교시 정보로 변환된다. 그리고, 처리가 스텝 ST12로 진행한다.

스텝 ST12에서는, 특징량 생성부(12B)에 의한 특징량 생성 처리가 행하여진다. 구체적으로는, 마이크로폰 관측 신호와 교시 정보가, 특징량 생성부(12B)에 의해, 각각 입력 특징량으로 변환된다. 그리고 처리가 스텝 ST13로 진행한다.

스텝 ST13에서는, 추출 모델부(12C)에 의한 출력 특징량 생성 처리가 행하여진다. 구체적으로는, 스텝 ST12에서 생성된 입력 특징량을 추출 모델인 뉴럴 네트워크에 입력하고, 소정의 순전파 처리(forward propagation)를 행함으로써 출력 특징량을 생성한다. 그리고, 처리가 스텝 ST14로 진행한다.

스텝 ST14에서는, 재구성부(12D)에 의한 재구성 처리가 행하여진다. 구체적으로는, 스텝 ST13에서 생성된 출력 특징량에 대하여 복소 스펙트럼의 생성이나 역 단시간 푸리에 변환 등을 적용함으로써, 소리 파형 또는 그와 유사한 데이터인 목적 소리 신호가 생성된다. 그리고, 처리가 종료된다.

또한, 음원 추출 처리보다 후단의 처리에 의해서는, 소리 파형 이외의 데이터를 생성하거나 재구성 처리 자체를 생략하거나 해도 된다. 예를 들어, 후단에서 음성 인식을 행하는 경우에는, 재구성 처리에 있어서 음성 인식용의 특징량을 생성해도 되고, 혹은, 재구성 처리에 있어서 진폭 스펙트럼을 생성하고, 음성 인식에 있어서 진폭 스펙트럼으로부터 음성 인식용의 특징량을 생성해도 된다. 또한, 추출 모델이 진폭 스펙트럼을 출력하도록 학습되어 있는 경우에는, 재구성 처리 자체를 스킵해도 된다.

또한, 상술한 흐름도에서 도시되는 처리의 일부의 처리 순서가 교체되어도 되고, 복수의 처리가 병행하여 행하여져도 된다.

[실시 형태에 의해 얻어지는 효과]

본 실시 형태에 의하면, 예를 들어, 이하의 효과가 얻어진다.

실시 형태의 신호 처리 장치(10)는 목적 소리와 방해 소리가 혼합된 혼합 소리(마이크로폰 관측 신호)를 취득하는 기도 마이크로폰(2)과, 유저의 발화와 동기한 1차원의 시계열을 취득하는 보조 센서(3)를 구비하고 있다. 보조 센서(3)로 취득된 신호를 교시 정보로 하는 교시부 음원 추출을 마이크로폰 관측 신호에 대하여 행함으로써, 방해 소리가 음성인 경우에는 유저의 발화만을 선택적으로 추출할 수 있고, 방해 소리가 비음성인 경우에는 교시 정보가 없을 경우와 비교하여 입력 데이터의 정보량이 증가하는 분만큼 고정밀도의 추출이 가능하게 된다.

교시부 음원 추출에 있어서는, 마이크로폰 관측 신호 및 교시 정보라고 하는 입력 데이터로부터 깨끗한 목적 소리에의 대응 관계가 미리 학습되어 있는 모델을 사용한다. 그 때문에, 학습 시에 사용된 데이터와 동일 정도라면 교시 정보에는 방해 소리가 포함되어 있어도 된다. 또한, 교시 정보는 소리여도 되고 소리 이외여도 된다. 즉, 교시 정보가 소리라는 제한이 불필요하게 되기 때문에, 발화에 동기한 임의의 일차원의 시계열 신호를 교시 정보로서 사용할 수 있다.

또한, 본 실시 형태에 의하면, 최소의 센서수는 기도 마이크로폰(2)과 보조 센서(3)의 2개이다. 그 때문에, 다수의 기도 마이크로폰을 사용한 빔 포밍 처리에 의해 음원 추출을 실현하는 경우와 비교하여, 시스템 자체를 소형화할 수 있다. 또한, 보조 센서(3)를 휴대할 수 있으므로, 여러가지 장면에 실시 형태를 적용할 수 있다.

예를 들어, 교시 정보로서, 1차원의 시계열 신호가 아닌 신호, 예를 들어, 공간 정보를 포함하는 화상 정보를 적용하는 것도 생각할 수 있다. 그러나, 발화하고 있는 유저의 얼굴 화상(입매)을 인식하는 카메라를 유저 자신이 장착하여, 이동할 수 있는 유저의 얼굴 화상을 항상 취득하는 것은 곤란하다. 이에 반해 실시 형태에서 사용되는 교시 정보는, 내이 경유로 전해져 온 유저의 발화, 발화자의 피부의 진동이나 발화자의 입 부근의 근육의 움직임 등이며, 그들을 관측하는 센서를 유저가 장착 혹은 휴대하는 것은 용이하다. 그 때문에, 유저가 이동하는 상황이더라도 실시 형태를 용이하게 적용할 수 있다.

본 실시 형태에서는, 유저의 발화와 동기한 신호를 교시 정보로서 사용하기 때문에, 유저의 깨끗한 음성을 취득할 수 없는 경우에도 고정밀도의 추출을 행할 수 있다. 그 때문에, 하나의 신호 처리 장치(10)를 복수인에서 공유하거나, 불특정 다수가 단시간씩 사용하거나 한다고 하는 것도 용이하게 실현할 수 있다.

<2. 변형예>

이상, 본 개시의 실시 형태에 대하여 구체적으로 설명했지만, 본 개시의 내용은 상술한 실시 형태에 한정되는 것은 아니며, 본 개시의 기술적 사상에 기초하는 각종 변형이 가능하다. 이하, 변형예에 대하여 설명한다. 또한, 변형예의 설명에 있어서, 상술한 실시 형태에 따른 구성과 동일하거나 또는 동질의 구성에 대해서는 동일한 참조 부호를 붙이고, 중복된 설명을 적절히 생략한다.

[변형예 1]

변형예 1은, 교시부 음원 추출과 발화 구간 추정을 동시에 추정하는 예이다. 상술한 실시 형태에서는, 음원 추출부(12)에 의해 추출 결과를 생성하고, 그 추출 결과에 기초하여 발화 구간 추정부(14C)가 발화 구간 정보를 생성하고 있었지만, 변형예 1에서는, 추출 결과가 생성됨과 함께 발화 구간 정보가 생성된다.

이러한 동시 추정을 행하는 이유는, 방해 소리도 음성인 경우에 있어서의 발화 구간 추정의 정밀도를 향상시키기 위해서이다. 이 점에 대하여 도 2를 참조하여 설명한다. 목적 소리뿐만 아니라 방해 소리도 음성인 경우에는, 방해 소리가 비음성인 경우보다도 인식 정밀도가 크게 저하하는 경우가 있고, 그 원인의 하나는 발화 구간 추정의 실패이다. 입력 소리가 음성일 것 같은지 여부로 발화 구간을 추정하는 방식에서는, 목적 소리도 방해 소리도 모두 음성인 경우에는 양자를 구별할 수 없기 때문에, 방해 소리만이 존재하는 구간도 발화 구간으로서 검출되어, 그것이 인식 오류로 이어진다. 예를 들어, 목적 소리의 전후의 시간에 존재하는 방해 소리를 포함한 긴 구간이 발화 구간으로서 검출된 결과, 본래의 목적 소리에서 유래되는 단어열의 전후에 방해 소리 유래의 불필요한 단어열이 연결된 것이 인식 결과로서 얻어지거나, 방해 소리만이 울리고 있을 때에 그 부분이 발화 구간으로서 검출된 결과, 불필요한 인식 결과가 생성되거나 하는 경우 등이 있다.

음원 추출부(12)의 추출 결과에 대하여 발화 구간 추정을 행하는 경우에도, 추출 결과에 방해 소리를 지운 나머지가 존재하는 한은 동일한 문제가 발생할 가능성이 있다. 즉, 추출 결과는 방해 소리가 완전히 제거된 이상적인 신호(도 2의 D 참조)에는 한정하지 않고, 목적 소리의 전후에 방해 소리에서 유래되는 작은 음량의 음성이 연결되어 있는 경우가 있다. 그러한 신호에 대하여 발화 구간 추정을 행하면, 진실의 목적 소리보다도 긴 구간이 발화 구간으로서 추정되거나, 방해 소리를 지운 나머지가 발화 구간으로서 검출되거나 해버릴 가능성이 있다.

발화 구간 추정부(14C)는 음원 추출부(12)의 출력인 추출 결과에 추가로 보조 센서(3)에서 유래되는 교시 정보도 사용함으로써 구간 추정 정밀도의 향상을 의도하고 있지만, 음성인 방해 소리가 교시 정보에도 혼입되어 있는 경우(예를 들어 도 2의 B에 있어서 방해 소리(4B)도 음성인 경우)에는, 본래의 발화보다도 긴 구간이 발화 구간으로서 추정될 가능성이 여전히 남는다.

그래서, 뉴럴 네트워크의 학습 시에, 마이크로폰 관측 신호와 교시 정보라고 하는 양쪽 입력으로부터 깨끗한 목적 소리에의 대응 관계를 학습할뿐만 아니라, 양쪽 입력으로부터 발화 구간의 내외 어느 쪽인지의 판별 결과에의 대응 관계도 아울러 학습되도록 한다. 그리고, 신호 처리 장치의 사용 시에는, 추출 결과의 생성과 발화 구간의 판별이 동시에 행하여지도록 함(2종류의 정보를 출력함)으로써, 상술한 문제를 해결한다. 즉, 추출 결과 내에 음성인 방해 소리를 지운 나머지가 존재하고 있더라도, 그 타이밍에 있어서의 다른 한쪽의 출력이 「발화 구간의 외측이다」라고 하는 판별 결과이면, 방해 소리가 단독으로 존재하는 부분이 발화 구간으로서 추정되어버리는 문제를 회피할 수 있다.

도 18은, 변형예 1에 관한 신호 처리 장치(신호 처리 장치(10A))의 구성예를 도시하는 도면이다. 도 18에 도시하는 신호 처리 장치(10A)와, 도 6에 구체적으로 도시한 신호 처리 장치(10)의 상이는, 신호 처리 장치(10)에 관한 음원 추출부(12)와 발화 구간 추정부(14C)가 통합되어, 음원 추출·발화 구간 추정부(52)라고 하는 모듈로 치환되어 있는 것이다. 음원 추출·발화 구간 추정부(52)의 출력은 2계통 있다. 한쪽은 음원 추출 결과이며, 이 음원 추출 결과가 음성 인식부(14D)로 보내진다. 다른쪽은 발화 구간 정보이며, 이 발화 구간 정보도 음성 인식부(14D)로 보내진다.

음원 추출·발화 구간 추정부(52)의 상세를 도 19에 도시하였다. 음원 추출·발화 구간 추정부(52)와 음원 추출부(12)의 차이는, 추출 모델부(12C)가 추출·검출 모델부(12F)로 치환된 것과 구간 트래킹부(12G)가 새롭게 마련된 것이며, 그 이외의 모듈은 음원 추출부(12)의 모듈과 동일하다.

추출·검출 모델부(12F)의 출력은 2계통 있다. 한쪽의 출력은 재구성부(12D)로 출력되어, 음원 추출 결과인 목적 소리 신호가 생성된다. 다른 쪽의 출력은, 구간 트래킹부(12G)로 보내진다. 후자의 데이터는 발화 검출의 판별 결과이며, 예를 들어 프레임마다 2치화된 판별 결과이다. 즉, 그 프레임에 있어서 유저의 발화가 존재함/존재하지 않음을, 「1」 또는 「0」의 값으로 각각 표현한다. 발화의 유무이며 음성의 유무는 아니므로, 유저가 발화하고 있지 않은 타이밍에 있어서 음성인 방해 소리가 발생한 경우의 이상값은 「0」이다.

구간 트래킹부(12G)는 프레임마다의 판별 결과를 시간 방향으로 트래킹함으로써 발화 구간 정보인 발화 개시 시각·종료 시각을 각각 구한다. 처리의 예로서는, 1이라고 하는 판정 결과가 소정의 시간의 길이 이상에 걸쳐서 계속되면 발화의 시단부로 간주하고, 마찬가지로 0이라고 하는 판정 결과가 소정의 시간의 길이 이상 계속되면 발화의 종단부로 간주한다. 혹은, 그러한 규칙에 기초하는 방법 대신에 뉴럴 네트워크를 사용한 학습에 기초하는 공지된 방법에 의해 트래킹을 행해도 된다.

상술한 예에서는 추출·검출 모델부(12F)로부터 출력되는 판별 결과가 2치라고 설명했지만, 대신에 연속값을 출력하고, 구간 트래킹부(12G)에 있어서 소정의 역치에 의해 2치화를 행해도 된다. 이와 같이 하여 구해진 음원 추출 결과 및 발화 구간 정보가 음성 인식부(14D)로 보내진다.

이어서, 도 20을 참조하여, 추출·검출 모델부(12F)의 상세에 대하여 설명한다. 추출·검출 모델부(12F)가 추출 모델부(12C)와 서로 다른 점은, 출력층이 2종류(출력층(121F) 및 출력층(122F)) 존재하는 것이다. 출력층(121F)은 추출 모델부(12C)의 출력층(124C)과 마찬가지로 동작함으로써, 음원 추출 결과에 상당하는 데이터를 출력한다. 한편, 출력층(122F)은 발화 검출의 판별 결과를 출력한다. 구체적으로는, 프레임마다 2치화된 판별 결과 등이다.

도 20에 있어서는, 출력측의 분기는 그 1개 전의 층인 중간층 n에서 발생하고 있지만, 그것보다도 입력층에 가까운 측의 중간층에 있어서 분기를 발생시켜도 된다. 그 경우, 분기가 발생한 중간층으로부터 각 출력층까지의 층의 개수는 각각 달라도 되고, 하나의 예로서, 출력 데이터의 한쪽이 중간층으로부터 출력되는 네트워크 구조를 사용해도 상관없다.

이어서, 추출·검출 모델부(12F)의 학습계에 대해서, 도 21을 사용하여 설명한다. 추출·검출 모델부(12F)는 추출 모델부(12C)와 달리 2종류의 데이터를 출력하기 때문에, 추출 모델부(12C)와는 다른 학습을 행할 필요가 있다. 복수 종류의 데이터를 출력하는 뉴럴 네트워크를 학습하는 것은 멀티태스크 학습이라고 불리고 있고, 도 21은 멀티태스크 학습기의 일종이다. 멀티태스크 학습에 대해서는, 공지된 방법을 적용할 수 있다.

목적 소리 데이터 세트(61)는 이하의 (a) 내지 (c)의 3개의 신호의 조로 구성되는 집합이다. 그것은, (a) 목적 소리 파형(목적 소리인 음성 발화 및 그 전후에 연결된 소정의 길이의 무음을 포함하는 소리 파형), (b) (a)와 동기한 교시 정보, (c) (a)와 동기한 발화 판별 플래그이다.

상기 (c)의 예로서, (a)를 소정의 시간 간격(예를 들어 도 9의 단시간 푸리에 변환의 시프트 폭과 동일한 시간 간격)으로 분할한 뒤에, 각 시간 간격 내에 발화가 존재하면 「1」의 값을, 존재하지 않으면 「0」의 값을 부여함으로써 생성되는 비트열 등을 생각할 수 있다.

학습 시에는, 목적 소리 데이터 세트(61)로부터 랜덤하게 1개의 조가 취출되고, 그 안의 교시 정보가 혼합부(64)(교시 정보가 기도 마이크로폰에 의해 취득된 경우) 또는 특징량 생성부(65)(그 이외의 경우)에, 목적 소리 파형이 혼합부(63) 및 교사 데이터 생성부(66)에, 발화 판별 플래그가 교사 데이터 생성부(67)에 각각 출력된다. 또한, 방해 소리 데이터 세트(62)로부터 랜덤하게 1개 이상의 소리 파형이 취출되고, 취출된 소리 파형이, 혼합부(63)로 보내진다. 교시 정보가 기도 마이크로폰에 의해 취득된 경우에는, 방해 소리의 소리 파형은 혼합부(64)에도 보내진다.

추출·검출 모델부(12F)는 2종류의 데이터를 출력하기 위해서, 각각에 관한 교사 데이터를 준비한다. 교사 데이터 생성부(66)는 음원 추출 결과에 대응한 교사 데이터를 생성한다. 교사 데이터 생성부(67)는 발화 검출 결과에 대응한 교사 데이터를 생성한다. 발화 판별 플래그가 전술한 바와 같은 비트열일 경우에는, 그것을 그대로 교사 데이터로서 사용할 수 있다. 이후에는, 교사 데이터 생성부(66)에 의해 생성된 교사 데이터를 교사 데이터(1D), 교사 데이터 생성부(67)에서 생성된 교사 데이터를 교사 데이터(2D)라고 각각 칭한다.

추출·검출 모델부(12F)의 출력이 2종류 있기 때문에, 비교부도 2개 필요하다. 2종류의 출력 중, 음원 추출 결과에 상당하는 출력은 비교부(70)로 출력되어, 비교부(70)에 의해 교사 데이터(1D)와 비교된다. 비교부(70)의 동작은, 상술한 도 12에 있어서의 비교부(27)와 동일하다. 한편, 발화 검출 결과에 상당하는 출력은 비교부(71)로 출력되어, 비교부(71)에 의해 교사 데이터(2D)와 비교된다. 비교부(71)도 비교부(70)와 마찬가지로 손실 함수를 사용하는데, 이쪽은 2치의 분류기를 학습하기 위한 손실 함수이다.

파라미터 갱신값 계산부(72)는 2개의 비교부(70) 및 비교부(71)로 계산된 각각의 손실값으로부터, 손실값이 감소하도록 추출·검출 모델부(12F)의 파라미터에 관한 갱신값을 계산한다. 멀티태스크 학습에 있어서의 파라미터 갱신 방법에 대해서는 공지된 방법을 이용할 수 있다.

[변형예 2]

상술한 변형예 1에 있어서는, 음원 추출 결과와 발화 구간 정보를 개별로 음성 인식부(14D)측으로 보내고, 음성 인식부(14D)측에서 발화 구간마다로의 분할과 인식 결과인 단어열의 생성을 행하는 것을 상정하고 있었다. 이에 반해, 변형예 2는, 음원 추출 결과와 발화 구간 정보를 통합한 데이터를 일단 생성하고, 생성한 데이터를 출력하게 해도 된다. 이하, 변형예 2에 대하여 설명한다.

도 22는, 변형예 2에 관한 신호 처리 장치(신호 처리 장치(10B))의 구성예를 도시하는 도면이다. 신호 처리 장치(10B)가 신호 처리 장치(10A)와 상이한 점은, 신호 처리 장치(10B)에서는, 음원 추출·발화 구간 추정부(52)로부터 출력되는 2종류의 데이터(음원 추출 결과 및 발화 구간 정보)가 구간 외 무음화부(55)에 입력되는 점, 및 구간 외 무음화부(55)의 출력이 새롭게 마련된 발화 분할부(14H) 또는 음성 인식부(14D)에 입력되는 점이다. 기타의 구성은, 신호 처리 장치(10A)의 구성과 동일하다.

구간 외 무음화부(55)는 소리 신호인 음원 추출 결과에 대하여 발화 구간 정보를 적용함으로써 새로운 소리 신호를 생성한다. 구체적으로는, 구간 외 무음화부(55)는 발화 구간 외의 시간에 대응한 소리 신호에 대해서, 그 부분을 무음 혹은 무음에 가까운 소리로 치환하는 처리를 행한다. 무음에 가까운 소리란, 음원 추출 결과에 대하여 0에 가까운 정의 상수를 곱한 신호 등이다. 또한, 소리의 재생을 행하지 않는 경우에는, 무음으로 치환하는 대신, 후단의 발화 분할부(14H)나 음성 인식부(14D)에 악영향을 주지 않는 종류의 노이즈로 치환해도 된다.

구간 외 무음화부(55)의 출력은 절단부가 없는 스트림이며, 그것을 음성 인식부(14D)에 입력하기 위하여 이하의 (1) 또는 (2)의 어느 방법으로 대응한다. (1) 구간 외 무음화부(55)와 음성 인식부(14D) 사이에, 발화 분할부(14H)를 추가한다. (2) 축차 음성 인식이라고 불리는, 스트림 입력에 대응한 음성 인식을 사용한다. (2)의 경우, 발화 분할부(14H)는 없어도 된다. 발화 분할부(14H)로서는, 공지된 방법(예를 들어, 일본 특허 제4182444호에 기재된 방법)을 적용할 수 있다.

축차 음성 인식은, 공지된 방법(예를 들어, 일본 특허 공개 제2012-226068호 공보에 기재된 방법)을 적용할 수 있다. 구간 외 무음화부(55)가 동작함으로써, 유저가 발화하고 있는 구간 이외에는 무음(혹은 후단의 동작에 악영향을 주지 않는 소리)이라고 하는 소리 신호가 입력되기 때문에, 그것이 입력되는 발화 분할부(14H) 또는 음성 인식부(14D)는 음원 추출 결과가 직접 입력되는 경우보다도 정확한 동작을 하는 것이 가능하게 된다. 또한, 음원·발화 구간 추정부(52)의 후단에 구간 외 무음화부(55)를 마련함으로써, 축차 음성 인식기를 구비한 시스템에 대해서뿐만 아니라, 발화 분할부(14H)와 음성 인식부(14D)가 일체화된 시스템에 대해서도, 본 개시의 교시부 음원 추출을 적용할 수 있다.

음원 추출 결과에 대하여 발화 구간 추정을 행하면, 방해 소리도 음성인 경우에 발화 구간 추정이 방해 소리를 지운 나머지에도 반응해버려, 오인식으로 이어지거나, 불필요한 인식 결과가 생성되거나 하는 경우가 있다. 변형예에서는, 음원 추출과 발화 구간 추정이라고 하는 2개의 추정 처리를 동시에 행함으로써, 음원 추출 결과에 방해 소리를 지운 나머지가 포함되어 있더라도, 그것과는 독립적으로 정확한 발화 구간 추정이 행하여져, 그 결과 음성 인식 정밀도를 향상시킬 수 있다.

[기타의 변형예]

기타의 변형예에 대하여 설명한다.

상술한 신호 처리 장치에 있어서의 전부 또는 일부의 처리가 클라우드 상의 서버 등에서 행하여져도 된다. 또한, 목적 소리는 사람이 발한 음성 이외(예를 들어, 로봇이나 애완동물의 목소리)여도 된다. 또한, 보조 센서는, 인물 이외의 로봇이나 애완동물에 장착되어도 된다. 또한, 보조 센서는, 다른 종류의 복수의 보조 센서여도 되고, 신호 처리 장치가 사용되는 환경에 따라, 사용되는 보조 센서가 전환되게 해도 된다. 또한, 본 개시는, 오브젝트마다의 음원을 생성할 때에도 적용할 수 있다.

또한, 도 12의 「혼합부(24)」 및 도 21의 「혼합부(64)」은, 보조 센서의 종류에 따라서는 생략 가능하므로, 도 12의 「혼합부(24)」 및 도 21의 「혼합부(64)」 각각에는 괄호를 붙이고 있다.

또한, 본 개시 중에 예시된 효과에 의해 본 개시의 내용이 한정하여 해석되는 것은 아니다.

본 개시는, 이하의 구성도 채용할 수 있다.

(1)

목적 소리와 상기 목적 소리 이외의 소리가 혼합된 혼합 소리를 포함하는 마이크로폰 신호와, 보조 센서에 의해 취득된, 상기 목적 소리와 동기하고 있는 1차원의 시계열 신호가 입력되는 입력부와,

상기 1차원의 시계열 신호에 기초하여, 상기 마이크로폰 신호로부터 상기 목적 소리에 대응하는 목적 소리 신호를 추출하는 음원 추출부

를 갖는 신호 처리 장치.

(2)

상기 음원 추출부는, 상기 1차원의 시계열 신호에 기초하여 생성되는 교시 정보를 사용해서 상기 목적 소리 신호를 추출하는

(1)에 기재된 신호 처리 장치.

(3)

상기 보조 센서는, 상기 목적 소리의 발생원에 장착되는 센서인

(1) 또는 (2)에 기재된 신호 처리 장치.

(4)

상기 마이크로폰 신호는, 제1 마이크로폰에 의해 검출되는 신호이며,

상기 보조 센서는, 상기 제1 마이크로폰과 다른 제2 마이크로폰인

(1) 내지 (3)까지의 어느 것에 기재된 신호 처리 장치.

(5)

상기 제1 마이크로폰은, 헤드폰의 하우징 외측에 마련되는 마이크로폰이며, 상기 제2 마이크로폰은, 상기 하우징의 내부에 마련되는 마이크로폰인

(4)에 기재된 신호 처리 장치.

(6)

상기 보조 센서는, 체내에서 전파된 음파를 검출하는 센서인

(1) 내지 (4)에 기재된 신호 처리 장치.

(7)

상기 보조 센서는, 음파 이외의 신호를 검출하는 센서인

(1) 내지 (4)에 기재된 신호 처리 장치.

(8)

상기 보조 센서는, 근육의 움직임을 검출하는 센서인

(7)에 기재된 신호 처리 장치.

(9)

상기 음원 추출부에 의해 추출된 상기 목적 소리 신호를 재생하는 재생부를 갖는

(1) 내지 (8)까지의 어느 것에 기재된 신호 처리 장치.

(10)

상기 음원 추출부에 의해 추출된 상기 목적 소리 신호를 외부 기기로 송신하는 통신부를 갖는

(1) 내지 (8)까지의 어느 것에 기재된 신호 처리 장치.

(11)

상기 음원 추출부에 의한 추출 결과에 기초하여, 발화의 유무를 나타내는 발화 구간을 추정하고, 그 결과인 발화 구간 정보를 생성하는 발화 구간 추정부와,

상기 발화 구간에 있어서의 음성 인식을 행하는 음성 인식부를 갖는

(1) 내지 (8)까지의 어느 것에 기재된 신호 처리 장치.

(12)

상기 음원 추출부는, 또한, 발화의 유무를 나타내는 발화 구간을 추정하고, 그 결과인 발화 구간 정보를 생성하는 음원 추출·발화 구간 추정부로서 구성되어 있고,

상기 음원 추출·발화 구간 추정부는, 상기 목적 소리 신호 및 상기 발화 구간 정보를 출력하는

(1) 내지 (8)까지의 어느 것에 기재된 신호 처리 장치.

(13)

상기 음원 추출·발화 구간 추정부로부터 출력되는 발화 구간 정보에 기초하여, 상기 목적 소리 신호에 있어서의 발화 구간 외의 시간에 대응하는 소리 신호를 판정하고, 판정한 상기 소리 신호를 무음화하는 구간 외 무음화부를 갖는

(12)에 기재된 신호 처리 장치.

(14)

상기 음원 추출부는, 상기 마이크로폰 신호에 기초하는 제1 특징량과, 상기 1차원의 시계열 신호에 기초하는 제2 특징량을 입력으로 하여, 당해 입력에 대하여 순방향 전파 처리를 행함으로써, 출력 특징량을 출력하는 추출 모델부를 갖는

(1) 내지 (8)의 어느 것, (11) 또는 (12)에 기재된 신호 처리 장치.

(15)

상기 음원 추출부는, 상기 마이크로폰 신호에 기초하는 제1 특징량과, 상기 1차원의 시계열 신호에 기초하는 제2 특징량을 입력으로 하여, 당해 입력에 대하여 순방향 전파 처리를 행함으로써, 복수의 출력 특징량을 출력하는 추출·검출 모델부를 갖는

(1) 내지 (8)의 어느 것, (12) 또는 (13)에 기재된 신호 처리 장치.

(16)

상기 출력 특징량에 기초하여 적어도 상기 목적 소리 신호를 생성하는 재구성부를 갖는

(14) 또는 (15)에 기재된 신호 처리 장치.

(17)

입력 특징량으로부터 상기 출력 특징량에의 대응 관계가 미리 학습되어 있는

(14) 또는 (15)에 기재된 신호 처리 장치.

(18)

목적 소리와 상기 목적 소리 이외의 소리가 혼합된 혼합 소리를 포함하는 마이크로폰 신호와, 보조 센서에 의해 취득된, 상기 목적 소리와 동기하고 있는 1차원의 시계열 신호가 입력부에 입력되고,

상기 1차원의 시계열 신호에 기초하여, 상기 마이크로폰 신호로부터 상기 목적 소리에 대응하는 목적 소리 신호가 음원 추출부에 의해 추출되는

신호 처리 방법.

(19)

신호 처리 방법을 컴퓨터에 실행시키는 프로그램.

2: 기도 마이크로폰
3: 보조 센서
10, 10A, 10B: 신호 처리 장치
11: 입력부
12: 음원 추출부
12C: 추출 모델부
12D: 재구성부
14A: 소리 재생부
14B: 통신부
32, 33, 42, 44: 마이크로폰
52: 음원 추출·발화 구간 추정부
55: 구간 외 무음화부

Claims

목적 소리와 상기 목적 소리 이외의 소리가 혼합된 혼합 소리를 포함하는 마이크로폰 신호와, 보조 센서에 의해 취득된, 상기 목적 소리와 동기하는 1차원의 시계열 신호가 입력되는 입력부와,
상기 1차원의 시계열 신호에 기초하여, 상기 마이크로폰 신호로부터 상기 목적 소리에 대응하는 목적 소리 신호를 추출하는 음원 추출부
를 갖는 신호 처리 장치.
제1항에 있어서, 상기 음원 추출부는, 상기 1차원의 시계열 신호에 기초하여 생성되는 교시 정보를 사용해서 상기 목적 소리 신호를 추출하는
신호 처리 장치.
제1항에 있어서, 상기 보조 센서는, 상기 목적 소리의 발생원에 장착되는 센서인
신호 처리 장치.
제1항에 있어서, 상기 마이크로폰 신호는, 제1 마이크로폰에 의해 검출되는 신호이며,
상기 보조 센서는, 상기 제1 마이크로폰과 다른 제2 마이크로폰인
신호 처리 장치.
제4항에 있어서, 상기 제1 마이크로폰은, 헤드폰의 하우징 외측에 마련되는 마이크로폰이며, 상기 제2 마이크로폰은, 상기 하우징의 내부에 마련되는 마이크로폰인
신호 처리 장치.
제1항에 있어서, 상기 보조 센서는, 체내에서 전파된 음파를 검출하는 센서인
신호 처리 장치.
제1항에 있어서, 상기 보조 센서는, 음파 이외의 신호를 검출하는 센서인
신호 처리 장치.
제7항에 있어서, 상기 보조 센서는, 근육의 움직임을 검출하는 센서인
신호 처리 장치.
제1항에 있어서, 상기 음원 추출부에 의해 추출된 상기 목적 소리 신호를 재생하는 재생부를 갖는
신호 처리 장치.
제1항에 있어서, 상기 음원 추출부에 의해 추출된 상기 목적 소리 신호를 외부 기기로 송신하는 통신부를 갖는
신호 처리 장치.
제1항에 있어서, 상기 음원 추출부에 의한 추출 결과에 기초하여, 발화의 유무를 나타내는 발화 구간을 추정하고, 그 결과인 발화 구간 정보를 생성하는 발화 구간 추정부와,
상기 발화 구간에 있어서의 음성 인식을 행하는 음성 인식부를 갖는
신호 처리 장치.
제1항에 있어서, 상기 음원 추출부는, 또한, 발화의 유무를 나타내는 발화 구간을 추정하고, 그 결과인 발화 구간 정보를 생성하는 음원 추출·발화 구간 추정부로서 구성되어 있고,
상기 음원 추출·발화 구간 추정부는, 상기 목적 소리 신호 및 상기 발화 구간 정보를 출력하는
신호 처리 장치.
제12항에 있어서, 상기 음원 추출·발화 구간 추정부로부터 출력되는 발화 구간 정보에 기초하여, 상기 목적 소리 신호에 있어서의 발화 구간 외의 시간에 대응하는 소리 신호를 판정하고, 판정한 상기 소리 신호를 무음화하는 구간 외 무음화부를 갖는
신호 처리 장치.
제1항에 있어서, 상기 음원 추출부는, 상기 마이크로폰 신호에 기초하는 제1 특징량과, 상기 1차원의 시계열 신호에 기초하는 제2 특징량을 입력으로 하여, 당해 입력에 대하여 순방향 전파 처리를 행함으로써, 출력 특징량을 출력하는 추출 모델부를 갖는
신호 처리 장치.
제1항에 있어서, 상기 음원 추출부는, 상기 마이크로폰 신호에 기초하는 제1 특징량과, 상기 1차원의 시계열 신호에 기초하는 제2 특징량을 입력으로 하여, 당해 입력에 대하여 순방향 전파 처리를 행함으로써, 복수의 출력 특징량을 출력하는 추출·검출 모델부를 갖는
신호 처리 장치.
제14항에 있어서, 상기 출력 특징량에 기초하여 적어도 상기 목적 소리 신호를 생성하는 재구성부를 갖는
신호 처리 장치.
제14항에 있어서, 입력 특징량으로부터 상기 출력 특징량에의 대응 관계가 미리 학습되어 있는
신호 처리 장치.
목적 소리와 상기 목적 소리 이외의 소리가 혼합된 혼합 소리를 포함하는 마이크로폰 신호와, 보조 센서에 의해 취득된, 상기 목적 소리와 동기하고 있는 1차원의 시계열 신호가 입력부에 입력되고,
상기 1차원의 시계열 신호에 기초하여, 상기 마이크로폰 신호로부터 상기 목적 소리에 대응하는 목적 소리 신호가 음원 추출부에 의해 추출되는
신호 처리 방법.
목적 소리와 상기 목적 소리 이외의 소리가 혼합된 혼합 소리를 포함하는 마이크로폰 신호와, 보조 센서에 의해 취득된, 상기 목적 소리와 동기하고 있는 1차원의 시계열 신호가 입력부에 입력되고,
상기 1차원의 시계열 신호에 기초하여, 상기 마이크로폰 신호로부터 상기 목적 소리에 대응하는 목적 소리 신호가 음원 추출부에 의해 추출되는
신호 처리 방법을 컴퓨터에 실행시키는 프로그램.