KR102408308B1

KR102408308B1 - 센서 변환 집중 네트워크 모델

Info

Publication number: KR102408308B1
Application number: KR1020170117021A
Authority: KR
Inventors: 브라운 스테판; 네일 다니엘; 세올린 에나; 아누물라 지센더; 리우 시-치
Original assignee: 삼성전자주식회사; 우니페르지타에트 취리히
Priority date: 2017-05-17
Filing date: 2017-09-13
Publication date: 2022-06-13
Also published as: KR20180126353A

Abstract

일 실시예에 따른 센서 변환 집중 네트워크 모델은 입력 신호들을 수집하는 센서들, 입력 신호들에 대응하는 제1 특징 벡터들에 대한 집중 스코어들을 산출하는 집중 레이어들, 집중 스코어들에 대한 집중 값들을 산출하고, 집중 값들 및 제1 특징 벡터들을 이용하여 병합된 변환 벡터를 생성하는 병합 레이어, 및 병합된 변환 벡터를 분류하는 분류 레이어를 포함한다.

Description

센서 변환 집중 네트워크 모델{SENSOR TRANSFORMATION ATTENTION NETWORK(STAN) MODEL}

아래의 실시예들은 센서 변환 집중 네트워크 모델에 관한 것이다.

어떤 영상을 보고 정보를 얻을 때, 사람은 어딘가에 자동적으로 집중하게 된다. 예를 들어, 먼 바다에 있는 섬에 등대가 서 있다고 하자. 이때 사람은 "섬에 등대가 있다"는 정보를 얻기 위해 자동적으로 등대와 섬에 '집중(attention)'하게 된다.

이와 같이 대상 또는 대상의 일부에 집중하여 정보를 얻는 사람의 처리 과정을 컴퓨터의 학습에 적용함으로써 인식 또는 처리 성능을 향상시킬 수 있다.

일 실시예에 따르면, 센서 변환 집중 네트워크 모델은 입력 신호들을 수집하는 센서들(sensors); 상기 입력 신호들에 대응하는 제1 특징 벡터들에 대한 집중 스코어들(attention scores)을 산출하는 집중 레이어들(attention layers); 상기 집중 스코어들에 대한 집중 값들(attention values)을 산출하고, 상기 집중 값들 및 상기 제1 특징 벡터들을 이용하여 병합된 변환 벡터를 생성하는 병합 레이어(merge layer); 및 상기 병합된 변환 벡터를 분류하는 분류 레이어(classification layers)를 포함한다.

상기 입력 신호들은 청각 특징 및 시각 특징 중 적어도 하나에 대응하는 원시 신호, 및 상기 청각 특징 및 상기 시각 특징이 전처리된 신호 중 적어도 하나를 포함할 수 있다.

상기 입력 신호들은 시계열에 따라 프레임 단위로 분할될 수 있다.

상기 센서들은 동일한 모달리티(modality)를 갖는 복수 개의 센서들 및 서로 다른 모달리티를 갖는 복수 개의 센서들 중 적어도 하나를 포함할 수 있다.

상기 집중 레이어들은 상기 제1 특징 벡터들의 프레임 별로 하나의 스칼라 집중 스코어들(scalar attention scores)을 산출할 수 있다.

상기 집중 레이어들은 상기 센서들 각각에 대응하고, 상기 집중 레이어들의 집중 값들은 상기 센서들에 대한 노이즈 레벨과 음(negative)의 상관 관계를 가질 수 있다.

상기 노이즈 레벨은 선형 노이즈 스윕(linear noise sweeps), 노이즈 버스트(noise bursts), 또는 정현파 노이즈(sinusoidal noise) 중 적어도 하나에 기초할 수 있다.

상기 집중 레이어들은 게이티드 리커런트 유닛들(Gated Recurrent Units; GRU)으로 구성될 수 있다.

상기 병합 레이어는 시계열(time series)에 따른 시퀀스(sequence) 대 시퀀스 간의 맵핑(mapping)을 통해 상기 집중 값들을 산출 하고, 상기 병합된 변환 벡터를 생성할 수 있다.

상기 병합 레이어는 상기 제1 특징 벡터들을 대응되는 집중 값들에 의해 스케일링하고, 상기 스케일링된 집중 값들을 가산 연산(adding operation)에 의해 병합하여 상기 병합된 변환 벡터를 생성할 수 있다.

상기 분류 레이어는 게이티드 리커런트 유닛들 및 LSTM(Long Short Term Memory) 중 적어도 하나로 구성될 수 있다.

상기 분류 레이어는 2- 레이어들의 양 방향 게이티드 리커런트 유닛들로 구성될 수 있다.

상기 센서 변환 집중 네트워크 모델은 상기 입력 신호들을 특징 공간(feature space)으로 맵핑하여 상기 제1 특징 벡터들로 변환하는 변환 레이어들(transformation layers)을 더 포함할 수 있다.

상기 변환 레이어들은 상기 집중 레이어에 연결되고, 상기 변환 레이어들은 상기 병합 레이어에 연결될 수 있다.

상기 변환 레이어들은 상기 입력 신호들 중 청각 특징을 위한 게이티드 리커런트 유닛들 및 상기 입력 신호들 중 시각 특징을 위한 컨볼루션 신경망(Convolution Neural Network; CNN) 중 적어도 하나를 포함할 수 있다.

상기 컨볼루션 신경망은 상기 제1 특징 벡터들의 변환을 위한 복수 개의 컨볼루션 레이어들; 및 상기 복수 개의 컨볼루션 레이어들 각각에 대응하는 맥스 풀링 레이어(max pooling layer)를 포함할 수 있다.

상기 병합 레이어는 상기 제1 특징 벡터들을 대응되는 집중 값들에 의해 스케일링하고, 상기 스케일링된 집중 값들 및 상기 제1 특징 벡터들을 가산 연산(adding operation)에 의해 병합하여 상기 병합된 변환 벡터를 생성할 수 있다.

상기 센서 변환 집중 네트워크는 랜덤 워크 노이즈 모델(random walk noise model)에 따른 정규 분포의 랜덤 노이즈로부터 샘플링된 노이즈와 상기 입력 신호들을 혼합(mix)시킨 트레이닝 세트에 의해 트레이닝될 수 있다.

상기 센서들 각각은 상기 랜덤 워크 노이즈 모델에 기초한 트레이닝 샘플마다 독자적으로 도출된 고유한 노이즈 신호를 수신할 수 있다.

도 1은 일 실시예에 따른 센서 변환 집중 네트워크 모델의 블록도.
도 2는 다른 실시예에 따른 센서 변환 집중 네트워크 모델의 블록도.
도 3은 일 실시예에 따른 센서 변환 집중 네트워크 모델의 구성도.
도 4는 일 실시예에 따른 센서 변환 집중 네트워크 모델의 트레이닝 중에 추가된 랜덤 워크 노이즈를 설명하기 위한 도면.
도 5는 일 실시예에 따라 두 개의 청각 센서들을 포함하는 더블 오디오 센서 변환 집중 네트워크 모델의 집중 응답을 도시한 도면.
도 6은 도 5의 더블 오디오 센서 변환 집중 네트워크 모델의 트레이닝 동안 보이지 않는 노이즈 유형들을 설명하기 위한 도면.
도 7은 실시예들에 따른 센서 변환 집중 네트워크 모델들에 적용되는 서로 다른 데이터 세트들의 서로 다른 가중치 초기화의 평균 구문 오류율(PER)을 도시한 도면.

본 명세서에서 개시되어 있는 특정한 구조적 또는 기능적 설명들은 단지 실시예들을 설명하기 위한 목적으로 예시된 것으로서, 실시예들은 다양한 다른 형태로 실시될 수 있으며 본 명세서에 설명된 실시예들에 한정되지 않는다.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 이해되어야 한다. 예를 들어 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 표현들, 예를 들어 "~간의"와 "바로~간의" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

하기에서 설명될 실시예들은 자동차, 텔레비전, 핸드폰, 기타 전자 장치 등에 탑재되어 예를 들어, 음성 인식, 영상 분석, 시계열 분석, 자언어 처리 등을 제공하는 데에 사용될 수 있다. 실시예들은 퍼스널 컴퓨터, 랩톱 컴퓨터, 태블릿 컴퓨터, 스마트 폰, 스마트 가전 기기, 및 웨어러블 디바이스 등 다양한 형태의 제품으로 구현될 수 있다. 이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

도 1은 일 실시예에 따른 센서 변환 집중 네트워크 모델의 블록도이다. 도 1을 참조하면, 일 실시예에 따른 센서 변환 집중 네트워크(Sensor Transformation Attention Network) 모델(이하, 'STAN 모델')(100)은 센서들(sensors)(110, 115), 집중 레이어들(attention layers)(130,135), 병합 레이어(merge layer)(150) 및 분류 레이어(classification layer)(170)를 포함한다.

센서들(110, 115)은 입력 신호들을 수집한다. 센서로는 청각 및 시각과 같은 여러 가지 모달리티들(modalities)이 사용될 수 있다. 각 모달리티는 다중 센서들을 제공할 수 있다.

입력 신호들은 예를 들어, 청각 특징(audio feature) 및 시각 특징(visual feature) 중 적어도 하나에 대응하는 원시 신호(raw signal), 및 청각 특징 및 시각 특징이 전처리된 신호(pre-processed signal) 중 적어도 하나를 포함할 수 있다. 이때, 전처리된 신호는 청각 특징이 전처리된 신호 또는 시각 특징이 정규화된 신호(normalized signal)일 수 있다. 입력 신호들은 시계열에 따라 프레임 단위로 분할될 수 있다.

센서들(110, 115)은 동일한 모달리티(modality)를 갖는 복수 개의 센서들 및 서로 다른 모달리티를 갖는 복수 개의 센서들 중 적어도 하나를 포함할 수 있다. 예를 들어, 센서 1(110)은 청각 특징을 감지하는 청각 센서이고, 센서 2(115)는 시각 특징을 감지하는 시각 센서일 수 있다. 또는 센서 1(110) 및 센서 2(115) 모두 청각 특징을 감지하는 청각 센서들이거나, 또는 센서 1(110) 및 센서 2(115) 모두 시각 특징을 감지하는 시각 센서들일 수 있다. 도 1에서는 설명의 편의를 위하여 센서 1(110) 및 센서 2(115)의 2개의 센서들만을 도시하였으나, 반드시 이에 한정되는 것은 아니고, STAN 모델(100)는 이외에도 다수 개의 센서들을 더 포함할 수 있다. 실시예에 따라서, STAN 모델(100)에 포함된 다수 개의 센서들은 서로 연결된 연결(concatenation) 구조를 가질 수도 있다.

집중 레이어들(130,135)은 입력 신호들에 대응하는 제1 특징 벡터들에 대한 집중 스코어들(attention scores)을 산출한다. 이때, 집중 스코어들은 센서들(110, 115) 마다에 대응될 수 있다. 집중 레이어들(130,135)은 제1 특징 벡터들의 프레임 별로 하나의 스칼라 집중 스코어들(scalar attention scores)을 산출할 수 있다. 집중 레이어들(130,135)은 예를 들어, 제1 특징 벡터들을 비선형성을 가지지 않는 비편평치 밀도 레이어(non-flattening dense layer)에 의해 프레임 당 하나의 스칼라 집중 스코어들로 변환할 수 있다.

집중 레이어들(130,135)은 센서들(110, 115) 각각에 대응할 수 있다. 집중 레이어들(130,135)의 집중 값들은 도 5에 도시된 것과 같이 센서들(110, 115)에 대한 노이즈 레벨과 음(negative)의 상관 관계를 가질 수 있다. 예를 들어, 센서들(110, 115)에 대한 노이즈 레벨이 높아질수록 센서들(110, 115) 각각에 대응하는 집중 레이어들(130,135)의 집중 값들은 낮아질 수 있다. 센서들(110, 115)에 대한 노이즈 레벨이 낮아질수록 집중 레이어들(130,135)의 집중 값을 높아질 수 있다. 이때, 노이즈 레벨은 선형 노이즈 스윕(linear noise sweeps), 노이즈 버스트(noise bursts), 또는 정현파 노이즈(sinusoidal noise) 중 적어도 하나에 기초할 수 있다.

집중 레이어들(130,135)은 예를 들어, 게이티드 리커런트 유닛들(Gated Recurrent Units; GRU)으로 구성될 수 있다.

병합 레이어(150)는 집중 스코어들에 대한 집중 값들(attention values)을 산출하고, 집중 값들 및 제1 특징 벡터들을 이용하여 병합된 변환 벡터를 생성한다. 병합 레이어(150)는 예를 들어, 시계열(time series)에 따른 시퀀스 대 시퀀스(sequence to sequence) 간의 맵핑(mapping)을 통해 집중 값들을 산출하고, 병합된 변환 벡터를 생성할 수 있다. 병합 레이어(150)는 예를 들어, 소프트맥스(softmax) 연산을 수행함으로써 집중 값들을 산출할 수 있다. 집중 값들은 프레임 단위로 산출될 수 있다.

병합 레이어(150)는 제1 특징 벡터들을, 제1 특징 벡터들 각각에 대응되는 집중 값들에 의해 스케일링(scaling)하고, 스케일링된 집중 값들을 가산 연산(adding operation)에 의해 병합하여 병합된 변환 벡터를 생성할 수 있다.

분류 레이어(170)는 병합된 변환 벡터를 분류한다. 분류 레이어(170)는 게이티드 리커런트 유닛들 및 LSTM(Long Short Term Memory) 중 적어도 하나로 구성될 수 있다. 분류 레이어(170)는 예를 들어, 2-레이어들의 양 방향 게이티드 리커런트 유닛들로 구성될 수 있다.

도 2는 다른 실시예에 따른 센서 변환 집중 네트워크 모델의 블록도이다. 도 2를 참조하면, 도 1의 구조에 변환 레이어들(transformation layers)(210,215)이 더 포함된 STAN 모델(200)이 도시된다.

변환 레이어들(210,215)은 입력 신호들을 특징 공간으로 맵핑하여 제1 특징 벡터들로 변환할 수 있다. 이때, 변환 레이어들(210,215)은 집중 레이어(130, 135) 및 병합 레이어(150)에 연결될 수 있다. 예를 들어, 변환 레이어 1(210)는 집중 레이어 1(130)에 연결되고, 변환 레이어 1(210)는 병합 레이어(150)로 바로 연결될 수 있다. 또한, 변환 레이어 2(215)는 집중 레이어 2(135)에 연결되고, 변환 레이어 2(215)는 병합 레이어(150)에 바로 연결될 수 있다. 이때, 집중 레이어(130, 150)의 출력은 집중값이다. 특징 공간은 서로 다른 모달리티들을 통해 공유될 수 있다. 변환 레이어들(210,215)은 여러 레이어들로 융통성이 있게 구성될 수 있다. 변환 레이어들(210,215)은 특정 작업에 필요하지 않은 경우 생략될 수도 있다. 변환 레이어들(210,215)이 생략되는 경우, 센서들(110, 115)은 도 1에 도시된 것과 같이 집중 레이어들(130, 135)에 직접 연결될 수 있다.

변환 레이어들(210,215)은 예를 들어, 입력 신호들 중 청각 특징을 위한 게이티드 리커런트 유닛들 및 입력 신호들 중 시각 특징을 위한 컨볼루션 신경망(Convolutional Neural Network; CNN) 중 적어도 하나를 포함할 수 있다. 이때, 컨볼루션 신경망은 제1 특징 벡터들의 변환을 위한 복수 개의 컨볼루션 레이어들, 및 복수 개의 컨볼루션 레이어들 각각에 대응하는 맥스 풀링 레이어(max pooling layer)를 포함할 수 있다.

도 2에 도시된 것과 같이 STAN 모델(200)에 변환 레이어들(210, 215)이 포함된 경우, 병합 레이어(150)는 제1 특징 벡터들을 대응되는 집중 값들에 의해 스케일링되고, 스케일링된 집중 값들 및 제1 특징 벡터들을 가산 연산에 의해 병합하여 병합된 변환 벡터를 생성할 수 있다.

병합 레이어(150)는 센서들(110, 115) 별로 얻어진 집중값들(집중 레이어(130, 135)의 결과물)을 통해 각 센서별 스케일링 값을 계산하여 스케일링한 후, 가산 연산하여 변환 벡터를 병합할 수 있다.

STAN 모델(200)은 입력 신호들을 시계열에 따라 프레임 단위로 분할할 수 있다. 변환 레이어들(210,215)은 프레임 단위로 분할된 입력 신호들을 특징 공간으로 맵핑하여 제1 특징 벡터들로 변환할 수 있다. 변환 레이어들은 센서들(110,115)의 입력 모달리티(input modality)에 의존할 수 있다.

일 실시예에 따른 STAN 모델은 도 1 또는 도 2에 도시된 STAN 모델들(100, 200)과 같이 센서들 각각이 자체적으로 집중 레이어와 변환 레이어들에 연결되는 다중 모드 및/또는 다중 센서 입력을 지원할 수 있다.

도 1 및/또는 도 2에 도시된 STAN 모델들(100, 200)은 후술하는 랜덤 워크 노이즈 모델(random walk noise model)에 따른 정규 분포의 랜덤 노이즈로부터 샘플링된 노이즈와 입력 신호들을 혼합(mix)시킨 트레이닝 세트에 의해 트레이닝될 수 있다. 이때, 센서들(110, 115) 각각은 랜덤 워크 노이즈 모델에 기초한 트레이닝 샘플마다 독자적으로 도출된 고유한 노이즈 신호를 수신할 수 있다.

이를 통해 일 실시예에 따른 STAN 모델은 노이즈가 있는 곳에서도 데이터를 보다 견고하게 처리할 수 있고, 네트워크의 재사용을 허용하며, 감각 모달리티들(sensory modalities)이 추가됨에 따른 매개 변수의 큰 증가를 방지할 수 있다. 일 실시예에서는 랜덤 워크 노이즈(random walk noise)를 이용하여 STAN 모델들(100, 200)를 트레이닝 함으로써 STAN 모델이 보다 유익한 입력 또는 보다 낮은 노이즈 수준으로 센서에 동적으로 집중하도록 할 수 있다. 또한, 랜덤 워크 노이즈에 따른 노이즈 유형은 STAN 모델의 집중 메커니즘이 트레이닝 중에 볼 수 없는 노이즈 통계 또한 일반화하도록 할 수 있다.

일 실시예에 따른 STAN 모델은 다수의 멀티 모달(multi-modal) 시간 시퀀스들 및 가능한 중복적인 감각 모달리티들을 처리할 수 있다. STAN 모델은 모듈화된 조직으로 인해 네트워크를 여러 센서들로 쉽게 확장할 수 있으며, 따라서 다중 모드 및 다중 센서 통합이 필요한 작업에 적용될 수 있다.

도 3은 일 실시예에 따른 센서 변환 집중 네트워크 모델의 구성도이다. 도 3을 참조하면, 일 실시예에 따른 STAN 모델(300)은 센서 1(110)로부터 수집된 입력 신호들의 시퀀스(X₁₁, X₁₂, .. , X_1N)를 변환 레이어 1(210)에 인가하고, 센서 2(115)로부터 수집된 입력 신호들(X₂₁, X₂₂, .. , X_2N)을 변환 레이어 2(215)에 인가할 수 있다. 이때, 입력 신호들은 시간에 따라 지속적으로 인가 또는 입력될 수 있다. 변환 레이어 1(210) 및 변환 레이어 2(215) 각각은 예를 들어, 컨볼루션 신경망을 이용하여 새로운 입력 신호들이 인가될 때마다 입력 신호들의 특징을 추출하고, 추출된 특징을 특징 공간에 맵핑하여 제1 특징 벡터들로 변환(또는 생성)할 수 있다. 변환 레이어 1(210)는 입력 신호들(X₁₁, X₁₂, .. , X_1N)을 제 1 특징 벡터들(t₁₁, t₁₂, .. , t_1N)로 변환할 수 있다. 또한, 변환 레이어 2(215)는 입력 신호들(X₂₁, X₂₂, .. , X_2N)을 제1 특징 벡터들(t₂₁, t₂₂, .. , t_2N)로 변환할 수 있다. 이때, 제1 특징 벡터들의 입력 시퀀스는 예를 들어, 양방향 LSTM(bidirectional LSTM), 게이티드 리커런트 유닛 또는 컨볼루션 신경망에 기반한 인코더를 사용하여 획득할 수 있다.

제1 특징 벡터들은 집중 레이어들(130, 135)에 인가될 수 있다. 집중 레이어들(130, 135)은 제1 특징 벡터들에 대한 집중 스코어들(z₁₁, z₁₂, . . z_1N, z₂₁, z₂₂, . . z_2N)을 산출할 수 있다. 집중 스코어들은 '집중 가중치(attention weight)'라고도 부를 수 있다.

집중 레이어들(130, 135)에서의 집중 메커니즘(Attention mechanisms)은 입력 시퀀스 전체를 대한 집중 스코어들(또는 집중 가중치들)을 사용하여 구현될 수 있다. 일 실시예에서는 집중 스코어들을 사용함으로써 센서 네트워크가 다음 출력 단어를 예측하는 데에 가장 중요한 특징에 집중하도록 할 수 있다. 이때, 집중 스코어들은 개별적인 입력 시퀀스들에 대한 것일 수 있다.

이러한 집중 메커니즘은 이미지 캡션(image caption), 음성 인식, 기계 번역과 같은 어플리케이션을 위한 인코더-디코더 기반의 시퀀스 대 시퀀스 프레임워크의 일부로서 성능을 향상시킬 수 있다. 예를 들어, 영상의 중요 부분과 같은 하위 수준에서 동적인 시프팅 집중(Dynamic shifting attention)은 다양한 벤치마크 데이터 세트에 대한 이미지 캡셔닝으로 센서 변환 집중 네트워크를 도울 수 있다

또한, 집중 기반의 반복적 시퀀스 생성기 네트워크(attention-based recurrent sequence generator network)는 대용량 연속 음성 인식 시스템에서 일반적으로 사용되는 히든 마르코프 모델(Hidden Markov Model; HMM)을 대체할 수 있다. 따라서, 집중 기반의 반복적 시퀀스 생성기 네트워크를 사용하는 경우, 엔드 투 엔드 음성 인식을 위해 훈련된 히든 마르코프 모델이 없이도 리커런트 신경망 기반의 네트워크를 구성할 수 있다. 집중 메커니즘은 공간적 특징과 시간적 특징에 모두 적용될 수도 있고, 동일한 모달리티를 갖는 다수 개의 센서들 또는 서로 다른 모달리티를 갖는 센서들에 대한 선택 집중에도 이용될 수 있다.

병합 레이어(150)는 집중 스코어들에 대한 집중 값들(a_i) 및 특징 벡터들을 이용하여 병합된 변환 벡터(t_merged)를 생성할 수 있다.

분류 레이어(170)는 예를 들어, 2-레이어들의 양 방향 게이티드 리커런트 유닛 또는 LSTM 디코더로 구성될 수 있다.

실시예에 따라서, STAN 모델은 예를 들어, i = 1, ... , N 인 N 개의 센서들 s_i의 풀(pool)을 이용할 수 있다. STAN 모델은 센서들에 대한 새로운 입력이 들어올 때마다 특징 벡터(f_i)를 생성할 수 있다. 특징 벡터(f_i)는 변환 레이어들(210, 215)을 거치면 변환된 특징 벡터(t_i)로 변환될 수 있다. 이때, 프레임(Frame) 단위로 생각하면 시간마다 새로운 특징 벡터(t_i)가 센서마다 생성될 수 있다. 예를 들어, 시간 T0에서 센서 1(110) 및 센서 2(115) 각각의 특징 벡터를 t1i, t2i라 하면, 각각의 특징 벡터로부터 집중 스코어 z1i 및 z2i가 생성될 수 있다. STAN 모델은 집중 스코어들을 이용하여 병합을 수행할 수 있다.

STAN 모델은 집중 스코어들 z_i에 대한 소프트맥스 연산을 수행 함으로써 아래의 수학식 1과 같이 집중 값들 a_i를 계산할 수 있다.

각각의 변환된 특징 벡터 t_i는 대응되는 집중 값들 a_i에 의해 스케일링되고, 가산 연산에 의해 아래의 수학식 2와 같이 병합될 수 있다.

병합된 변환 벡터 t _merged는 분류를 위해 분류 레이어(170)에 제공될 수 있다.

일 실시예에서는 상술한 과정을 통해 노이즈, 센서 장애 또는 기타 요인으로 인해 시간에 따라 변하는 신호 품질을 보상할 수 있다. 따라서, STAN 모델은 최상의 신호 품질을 제공하는 센서에 집중할 수 있다.

편리하고도 성공적으로 시계열적 처리를 수행하는 방법은 리커런트 신경망(Recurrent Neural Networks; RNN)을 이용하는 것이다. 이러한 이유로 일 실시예에서는 집중 레이어들(130, 135) 및 분류 레이어(170)를 GRU로 구성할 수 있다. 변환 레이어들(210, 215)은 청각 특성들에 대해 잘 적용되는 GRU 및 영상들(시간 특성들)에 잘 적용되는 CNN(Convolution Neural Network)와 함께 입력 모달리티들에 의존할 수 있다.

도 4는 일 실시예에 따른 센서 변환 집중 네트워크 모델의 트레이닝 중에 추가된 랜덤 워크 노이즈를 설명하기 위한 도면들이다. 도 4의 (a)를 참조하면, 랜덤 변수들의 시퀀스의 누적 합계가 랜덤 워크(random walk)를 형성하는 그래프가 도시된다. 도 4의 (b)를 참조하면, 랜덤 워크가 반사 연산자

를 적용한 후에 바운드(bounded)되는 그래프가 도시된다.

도 4의 (c)를 참조하면, 각 시점에서 그려지는 노이즈가 시각화된 네 개의 패널들이 도시된다. 각 패널은 GRID 코퍼스(corpus), 제로 평균, 및 정규화된 단위 분산으로부터 정규화되고, 그 표준 편차가 도 4의 (b)에 그려진 수직 점선과 일치하는 가우시안 노이즈 소스와 혼합(mix)된 시각 프레임들을 나타낸다.

STAN 모델이 다양한 노이즈 유형에 대해 강인해 질 수 있도록, 일 실시예에서는 랜덤 노이즈 모델(random noise model)을 이용하여 트레이닝할 수 있다. 랜덤 노이즈 모델은 예를 들어, 범위 [0, σ_max]에 걸치는 노이즈 레벨의 균일한 커버리지를 가지며, 노이즈에 대한 시퀀스 길이 의존성을 도입할 수 있는 세틀 인 타임(settle-in time)이 없도록 할 수 있다.

예를 들어, t 타임 스텝의 입력 시퀀스에 대한 노이즈 σ 의 표준 편차는 다음의 수학식 3과 같이 계산될 수 있다.

여기서, σ₀ 는 [0, σ_max/2] 범위에 걸쳐 균일하게 분포될 수 있다. 또한, n_i는 형태(shape) k 및 스케일(scale) θ를 갖는 감마 분포(gamma distribution)로부터 유도된다. signum 함수는 동일한 확률로 s_i에서 양수 부호 및 음수 부호를 추출한다. 실험 동안 파라미터 검색은 적절한 파라미터들의 세트로서 σ_max = 3, k = 0.8 및 θ = 0.2를 산출할 수 있다. 반사 함수

는 다음의 수학식 4와 같이 나타낼 수 있다.

여기서,

는 원하는 범위 (0,2σ_max) 내에서 값을 유지하고, 후속 시프트(subsequent shift) 및 크기 연산(magnitude operations)은 불연속성을 피하면서 값을 범위 [0, σ_max)에 매핑한다.

마지막으로 특징 인덱스 k및 타임 인덱스 t를 갖는 입력 데이터 x는 아래의 수학식 5와 같이 정규 분포로부터 샘플링된 노이즈와 혼합(mix)될 수 있다.

반사 함수(reflection function)

는 모드(mod) 연산자와 유사하게 수행되지만, 에지들(edges)에서는 불연속 랩(discontinuous wrap) 대신 에지들에 대해 연속적인 반사(continuous reection)를 생성할 수 있다. 그러므로, 반사 함수는 σ_max에 의해 제한되는, 제한된 랜덤 워크(constrained random walk)를 형성하고, 제한된 랜덤 워크는 특징 인덱스 k 및 시점 t에서의 입력 x에 추가되는 정규 분포의 랜덤 노이즈의 표준 편차가 될 수 있다.

노이즈 레벨은 시간에 따라 변하고, 낮은 노이즈(높은 집중이 요구됨) 및 높은 노이즈(낮은 관심이 요구됨)의 기간을 허용한다. 때문에, 이러한 랜덤 노이즈 모델은 일 실시예에 따른 STAN 모델의 집중 메커니즘을 조정(tune)하는데 유용한 트레이닝을 제공하는 시퀀스들을 생성할 수 있다.

노이즈 실험(Noise Experiments)

일 실시예에서는 동적으로 변화하는 노이즈 레벨을 갖는 센서에 대한 STAN 모델의 성능을 보여주기 위해 일반적으로 사용되는 세 가지 데이터 세트들을 이용하여 노이즈 실험을 수행할 수 있다. 세 가지 데이터 세트들은 예를 들어, TIDIGITS, Wall Street Journal(WSJ) 및 GRID 테스트 세트일 수 있다. 우선, TIDIGITS 데이터 세트를 이용한 노이즈 실험을 설명한다.

데이터 세트(Dataset)

TIDIGITS 데이터 세트는 여러 센서들에서 서로 다른 레벨의 노이즈에 대한 집중 신호의 반응을 입증하는 초기 평가 작업에 사용될 수 있다. TIDIGITS 데이터 세트는 청각 데이터만을 포함하며, 연결된 숫자 시퀀스의 자동 음성 인식을 위해 설계되었다. 어휘는 11 자리('오', '0' 및 '1'에서 '9')로 구성될 수 있다. 스피커는 예를 들어, '1-3-7' 또는 '5-4-9-9-8'와 같은 1-7 자리 길이의 시퀀스를 출력할 수 있다.

데이터 세트는 8623 개의 샘플들로 구성된 훈련 세트와 8700 개의 샘플들로 구성된 테스트 세트로 분할될 수 있다. 원시 청각 데이터는 MFCC(Mel-frequency cepstrum coefficients) 기능에 의해 변환될 수 있다. 특징 추출 과정에서 25ms의 프레임 크기, 10ms의 프레임 시프트와 12 개의 Mel 간격 필터 뱅크가 적용될 수 있다. 마지막으로, 에너지 항(energy term) 뿐만 아니라 1 차 및 2 차 델타 특징들(delta features)이 추가되어 프레임 당 39 차원의 특징 벡터가 생성될 수 있다. 델타 특징들은 전체 데이터 세트에서 표준화된 제로 평균 및 단위 분산일 수 있다.

구문 오류율(Phrase Error Rate; PER)은 성능 메트릭(performance metric)으로 사용될 수 있다. 구문 오류율은 모든 시퀀스 A의 개수에 대해 올바르게 기록된 숫자 시퀀스 C의 개수, 다시 말해 PER [%] = C/A와 같이 정의될 수 있다. 구문 오류율을 이용한 오류 측정법은 거짓 레이블(false label)의 삽입(insertions), 삭제(deletions) 또는 대체(substitutions)로 모든 시퀀스를 측정하는 까다로운 오류 측정법이다.

모델들(Models)

TIDIGITS의 평가에 사용되는 총 5개의 모델들의 요약은 아래의 [표 1]과 같다. [표 1]에 나타난 것과 같이, 분류 레이어는 모든 모델들에 대해 동일한 2-레이어 단방향(150,100) GRU 네트워크로 구성될 수 있다. 기본(Baseline) 구조의 모델은 분류 레이어에 직접 연결된 단일 청각 센서로 구성될 수 있다. 두 개의 모델들은 두 개 또는 세 개의 청각 센서를 가진 STAN 구조를 사용할 수 있다.

집중 레이어들은 (20) GRU로 구성되고, 그 출력은 비선형성이 없는 비편평치 밀도 레이어(non-attening dense layer)에 의해 프레임 당 하나의 스칼라 집중 스코어로 변환될 수 있다.

일 실시예에서는 STAN 구조의 잠재적인 이점을 평가하기 위해, STAN 구조를 두 개의 간단한 센서 연결(Concatenation) 구조의 모델들과 비교할 수 있다. 센서 연결 구조의 모델들은 2-3개의 청각 센서들을 가지고 있으며, 이들 청각 센서의 입력은 연결되어 변환 레이어들 및 집중 레이어들을 거치지 않고 분류 레이어들에 직접 제공될 수 있다. 이때, 어떤 모델들도 변형 레이어들을 사용하지 않는다.

매개 변수들의 개수는 모든 모델들에서 대략 동일하며, 입력 센서들의 양에만 의존한다. 분류 레이어에서 GRU들의 개수가 동일하기 때문에 공정한 비교가 보장된다.

트레이닝(Training)

연결된 숫자 시퀀스들은 시퀀스 대 시퀀스의 매핑 작업을 허용한다. 음성 프레임들과 레이블 시퀀스들 간의 정렬을 자동으로 학습하기 위해, CTC(Connectionist Temporal Classification) 오브젝트를 이용할 수 있다. 모든 모델들은 오버피팅(overtting)을 방지하는 조기 정지(early stopping)와 함께 ADAM 최적화기(optimizer)에 의해 최대 100개의 에포크들(epochs)에 대하여 학습될 수 있다.

모든 모델들은 랜덤 워크 노이즈 모델에 의해 손상된 노이즈 있는 트레이닝 세트에 대해 트레이닝 된다. 랜덤 워크 노이즈들의 노이즈 레벨은 [0,...,3]σ 사이에서 변화할 수 있다.

평가 결과(Results)

일 실시예에서 집중 메커니즘은 여러 노이즈 유형에서 작동할 수 있다. 또한, 일 실시예에 따른 STAN 모델은 오류율(error rate) 측면에서 특징 연결 모델들을 능가할 수 있다. STAN 모델들의 집중 메커니즘은 우선 랜덤 워크 노이즈에 대해 평가될 수 있다.

도 5는 일 실시예에 따라 두 개의 청각 센서들을 포함하는 더블 오디오 STAN 모델(Double Audio STAN)의 집중 응답을 도시한 도면이다. 도 5를 참조하면, TIDIGITS 데이터 세트를 이용하여 트레이닝 된 더블 오디오 STAN 모델의 랜덤 워크 노이즈 조건에 대한 집중 응답(Attention response)이 도시된다.

도 5의 (a)는 노이즈가 많은 입력 특성들을 나타낸다. 도 5의 (b)는 두 개의 청각 센서들에 적용된 노이즈 레벨들을 나타내고, 도 5의 (c)는 두 개의 청각 센서들에 대한 집중 값들을 나타낸다.

테스트 세트의 샘플은 [0, ... , 3] σ 사이의 노이즈 레벨을 가진 랜덤 워크에 의해 손상되었다고 하자. 도 5의 (b) 및 (c)에 도시된 것과 같이, 더블 오디오 STAN 모델은 노이즈 레벨과 집중 간의 바람직한 음의 상관 관계(negative correlation)를 보여준다. 센서에 대한 노이즈 레벨이 올라가면, 동일한 센서에 대해 집중은 낮아지게 된다. 노이즈 레벨들이 시간에 따라 삽입됨에 따라, 집중 메커니즘은 1-5 프레임의 지연에 의해 센서들 간에 전환될 수 있다.

더블 오디오 STAN 모델이 도 5의 트레이닝 동안에 보이지 않는 다른 노이즈 유형들에 대해 평가될 수도 있다.

도 6은 도 5의 더블 오디오 STAN 모델의 트레이닝 동안 보이지 않는 노이즈 유형들을 설명하기 위한 도면이다. 도 6을 참조하면, TIDIGITS 데이터 세트에 의해 트레이닝 된 더블 오디어 STAN 모델의 다양한 노이즈 조건들에 대한 집중 응답이 도시된다.

도 6의 (a)는 두 청각 센서들의 선형 노이즈 스윕(linear noise sweeps)에 대한 노이즈 응답을 나타내고, 도 6의 (b)는 청각 센서 1에 대한 노이즈 버스트(noise bursts)에 대한 노이즈 응답을, 도 6의 (c)는 청각 센서 2의 정현파 노이즈(sinusoidal noise)에 대한 노이즈 응답을 나타낸다.

이러한 노이즈 조건들이 트레이닝 중에 보이지는 않지만, 일 실시예에 따른 STAN 모델은 도 6의 (a) 내지 (c)에 도시된 것과 같이 노이즈 레벨과 센서들에 대한 집중 간의 바람직한 음의 상관 관계를 보여준다.

선형 노이즈 스윕, 노이즈 버스트, 또는 정현파 노이즈가 특징들에 추가되면, 집중 레이어들은 낮은 노이즈 레벨을 가진 센서들에 성공적으로 집중하게 된다.

노이즈 버스트 또는 정현파 노이즈의 경우와 같이 두 청각 센서들의 노이즈 레벨이 낮은 상황에서 집중은 센서들 간의 균형을 맞출 수 있다.

일 실시예에 따른 STAN 모델들은 기준 단일 센서 모델 및 연결 구조의 모델들에 대해 평가될 수 있다. 테스트는 TIDIGITS 테스트 세트의 깨끗한 변형(clean variant)과 노이즈에 의해 손상된 변형(noise corrupted variant)에서 수행될 수 있다. 깨끗한 테스트 세트에서, 모든 사용 가능한 센서들은 동일한 깨끗한 신호로 표시된다. 노이즈 있는 테스트 세트에서, 센서들의 데이터 각각은 [0, ... , 3] 사이의 표준 편차를 가지는 고유한 랜덤 워크 노이즈에 의해 손상될 수 있다. 이러한 TIDIGITS 데이터 세트들을 이용한 테스트 결과는 도 7(a)를 참조하여 후술한다.

TIDIGITS 에서 Wall Street Journal 코퍼스로의 집중 레이어들의 이동(Transfer of Attention Layers from TIDIGITS to the Wall Street Journal Corpus) 실험

데이터 세트(Dataset)

이 실험은 STAN 모델을 작은 데이터 세트(예를 들어, TIDIGITS)에서 트레이닝한 후, 더 큰 데이터 세트(예를 들어, Wall Street Journal)에서 집중 레이어들을 재사용할 수 있는 가능성을 보여준다. 초기 STAN 모델은 TIDIGITS 코퍼스(Corpus)에 의해 트레이닝될 수 있다.

트레이닝 후, STAN 모델의 분류 레이어들은 Wall Street Journal(WSJ) 코퍼스에서 트레이닝 된 음향 모델로 대체될 수 있다. 데이터베이스는 'Wall Street Journal' 잡지의 읽기 연설로 구성될 수 있다.

81 시간의 서브 셋 'si284'는 37000 개의 문장들로 구성되고, 트레이닝 세트로 사용될 수 있다. 서브 셋 'dev93'은 513 개의 문장들로 구성되고, 개발 세트로 사용될 수 있다. 서브 셋 'eval92'는 330 개의 문장들로 구성되고, 테스트 세트로 사용될 수 있다.

두 개의 데이터 세트들에 대해, 원시 청각 데이터는 40 개의 필터 뱅크들(lter banks), 1 개의 에너지 텀(energy term) 및 각각의 1 차 및 2 차 델타 특징들로 구성된 123 차원 필터 뱅크 특징들로 변환될 수 있다.

25ms의 동일한 프레임 크기와 10ms의 프레임 시프트가 사용되어 Wall Street Journal(WSJ)에서 더 긴 시퀀스가 생성될 수 있다. 이러한 특징들은 사전 처리 루틴에 의해 생성될 수 있다. 각 특징 차원은 제로 평균(zero-mean) 및 단위 분산(unit-variance)을 정규화 한 것일 수 있다.

모델들(Models)

TIDIGITS-STAN 모델은 필터 뱅크 특징들, 변환 레이어들 및 집중 레이어 당 (60) GRU를 제공하는 두 개의 청각 센서들을 사용하며, 비선형성이 없는 단일 비편평치 밀도 레이어가 연결될 수 있다. 병합 레이어의 상단에 있는 분류 레이어는 단방향 2-레이어(150, 100) GRU 네트워크로 구성될 수 있다. TIDIGITS-STAN 모델은 266544 개의 파라미터들을 사용하며 분류 레이어는 200062 개의 파라미터들(75%)을 차지한다.

WSJ 기준을 나타내는 WSJ 음향 모델은 TIDIGTS-STAN 모델의 분류 레이어보다 42 배 많은 매개 변수(8.5M)를 가질 수 있다. WSJ 음향 모델은 각 방향으로 320 유닛의 양방향 LSTM의 4 개 레이어들로 구성되며, 마지막 레이어들 출력을 59개의 출력 라벨로 매핑하는 아핀 변환(afne transformation)이 수행될 수 있다.

WSJ 음향 모델은 문자 기반이며 필터 뱅크 특징 시퀀스들(lter bank feature sequences)을 문자 시퀀스들(character sequences)에 매핑할 수 있다.

일 실시예에서는 다음과 같은 방법으로 WSJ-STAN 모델을 생성할 수 있다.

첫째, TIDIGITS-STAN 모델을 트레이닝 한다.

둘째, WSJ 음향 모델을 트레이닝한다.

셋째, TIDIGITS-STAN 모델의 분류 단계를 WSJ 음향 모델로 대체한다. 이때, WSJ-STAN 모델에서는 어떠한 미세 조정(ne tuning)도 수행되지 않는다.

트레이닝(Training)

TIDIGITS 테스트 세트 및 WSJ 테스트 세트는 모두 시퀀스 대 시퀀스의 매핑 작업을 허용한다. 음성 프레임들과 레이블 시퀀스들 간의 정렬을 자동으로 학습하기 위해 CTC 오브젝티브(objective)가 채택될 수 있다. 모든 모델들은 오버피팅을 방지하는 조기 정지와 함께 ADAM 최적화기에 의해 최대 100개의 에포크들에 대해 학습될 수 있다.

TIDIGITS-STAN 모델은 전술한 랜덤 워크 노이즈에 의해 손상된 노이즈 있는 트레이닝 세트에 의해 트레이닝 될 수 있다.

각 센서는 트레이닝 샘플마다 독자적으로 추출된 고유한 노이즈 신호를 수신할 수 있다. 랜덤 워크의 노이즈 레벨은 [0, ... , 3] σ 사이에서 변화될 수 있다. WSJ 음향 모델은 클린 스피치(clean speech)로만 트레이닝될 수 있다.

결과(Results)

WSJ-baseline 모델과 WSJ-STAN 모델은 WSJ 코퍼스의 'eval92' 테스트 세트에 의해 평가될 수 있다. 아래의 [표 2]는 WSJs 코퍼스에서의 평가 결과들을 나타낸다. 보다 구체적으로, [표 2]는 WFST(Weighted Finite State Transducer)를 기반으로 하는 3-그램(gram) 언어 모델을 사용하여 네트워크 출력을 디코딩한 후의 단어 오류율(Word Error Rate; WER) [%]을 나타낸다.

클린 테스트 세트를 이용한 클린 스피치 테스트의 경우, 동일한 클린 신호가 WSJ-STAN 모델의 두 센서에 대한 입력으로 사용되므로 클린 신호는 클린 테스트 케이스의 WSJ-baseline 모델에서와 동일해야 한다. [표 2]를 통해 WSJ-STAN 모델과 WSJ-baseline 모델이 모두 클린 스피치에 대해 8.4 %의 단어 오류율을 달성하는 것으로 확인할 수 있다. 이 밖에도, 동일한 야구장에서 다른 작업을 수행한 경우 예를 들어, 7.34%의 단어 오류율을 달성할 수 있다.

노이즈 있는 테스트 세트를 이용한 노이지 테스트에서, 입력 특징은 최대 3σ의 노이즈 레벨을 갖는 랜덤 워크 노이즈로 중첩(overlay)될 수 있다. 이때, 센서의 설정을 위한 WSJ-STAN 모델의 절대 단어 오류율은 26.1 %이고, WSJ-baseline 모델의 절대 단어 오류율은 53.5 %일 수 있다.

이 결과는 STAN 구조가 단순히 분류 레이어를 교체함으로써 다른 데이터 세트에 대한 집중 메커니즘을 일반화 할 수 있음을 나타낸다. TIDIGITS 테스트 세트에서는 샘플 당 평균 프레임 수는 175개이고, WSJ 'eval92'에서는 760개 라는 사실은 주목할 만하다. 집중 메커니즘은 훨씬 더 긴 시퀀스 길이에도 여전히 기능을 유지할 수 있다.

이 밖에도, WSJ-STAN 모델은 예를 들어, 집중 레이어들은 GRU로 구성되고, 분류 레이어는 LSTM들로 구성되는 하이브리드 모델의 형태로 구성될 수도 있다.

GRID의 여러 센서들로부터의 수정 퓨전(Correct Fusion from Multiple Sensors on Grid) 실험

데이터 세트(Dataset)

GRID 코퍼스는 음성 처리에 대한 지각(perceptual) 연구에 사용될 수 있다. GRID 코퍼스는 34 명의 화자 각각이 말하는 1000 개의 문장들을 포함할 수 있다. GRID 단어 어휘는 예를 들어, 네 개의 명령들('bin', 'lay', 'place', 'set'), 네 가지 색상들('blue', 'green', 'red', 'white'), 네 개의 전치사들('at', 'by', 'in', 'with'), 25개의 문자들('A'- 'Z', 'W' 제외), 10 자리 숫자들('0'- '9') 및 4 개의 부사들('again', 'now', 'please', 'soon')를 포함하며, 결과적으로 51 개의 클래스가 생성될 수 있다. GRID 코퍼스는 예를 들어, 24339 개의 트레이닝 샘플들 및 2661 개의 테스트 샘플들을 포함할 수 있다.

GRID 데이터 세트는 청각 데이터 및 시각 데이터로 구성될 수 있다. 원시 청각 데이터는 MFCCs(Mel-frequency cepstral coefficients)에 의해 변환될 수 있다. 계산을 위해, 프레임 크기 60ms, 프레임 쉬프트 40ms 및 12 개의 Mel 간격 필터 뱅크들(Mel spaced lter banks)이 적용될 수 있다. 마지막으로, 1 차 및 2 차 델타 특징들 및 에너지 텀이 추가되어 프레임 당 39차원의 특징 벡터가 생성될 수 있다.

시각 프레임은 그레이 레벨 프레임들(grey level frames)로 변환될 수 있다. 청각 데이터 및 시각 데이터는 전체 데이터 세트에 대한 제로 평균 및 단위 분산으로 정규화될 수 있다. TIDIGITS 데이터 세트의 경우 구문 에러율은 성능 척도로 사용될 수 있다.

트레이닝(Training)

GRID 데이터베이스의 시각 시퀀스들 및 청각 시퀀스들은 시퀀스 대 시퀀스 매핑 작업을 허용한다. 음성 프레임들, 시각 프레임들 및 레이블 시퀀스들 간의 정렬을 자동으로 학습하기 위해 CTC 오브젝티브가 채택될 수 있다. 출력 레이블은 52 개의 클래스들(어휘 크기 + 빈 레이블)로 구성될 수 있다. 모든 모델들은 오버피팅을 방지하는 조기 정지와 함께 ADAM 최적화기에 의해 최대 100개의 에포크들에 대해 학습될 수 있다.

모든 모델들은 전술한 랜덤 워크 노이즈에 의해 손상된 노이즈 있는 트레이닝 셋트로 트레이닝될 수 있다. 센서들 각각은 트레이닝 샘플마다 독자적으로 도출된 고유한 노이즈 신호를 수신할 수 있다. 랜덤 워크들의 노이즈 레벨은 [0, ... , 3] σ 사이에서 변화될 수 있다.

모델들(Models)

청각 입력만을 사용하는 다섯 개의 모델들, 시각 입력만을 사용하는 하나의 모델, 및 청각 입력 및 시각 입력을 사용하는 하나의 모델을 포함하는 총 7개의 모델들이 GRID 데이터 세트에 의해 평가될 수 있다. 7개의 모델들에 대한 요약은 아래의 [표 3]에 기재되어 있다.

[표 3]에 나타난 것과 같이 모든 모델들은 분류 레이어에서 각 방향으로 (200, 200) 단위로 구성된 2-레이어 양방향 GRU 네트워크를 사용할 수 있다.

청각 전용 모델은 기본 단일(Single Audio Baseline) 구조의 센서 모델, 두 개 또는 세 개의 센서가 있는 두 개의 STAN 구조의 모델 및 두 개 또는 세 개의 센서가 있는 두 개의 연결(Concatenation) 구조의 모델로 구성될 수 있다. 모든 청각 센서들은 특징 변환을 위해 탄(tanh) 비선형성을 가진 유닛의 비편평치 밀도 레이어를 사용할 수 있다.

STAN 구조의 모델들의 경우, 집중 레이어들은 변환된 특징들에서 동작하고, 센서 당 (20) GRU를 사용할 수 있다. 이들의 출력은 비선형성이 없는 비편평치 밀도 레이어에 의해 프레임 당 하나의 스칼라 집중 스코어로 변환될 수 있다.

시각 전용 모델은 특징 변환을 위해 5x5x8 (5x5 필터 크기, 8 가지 기능)의 3 개의 컨볼루션 레이어들을 포함하고, 각 컨볼루션 레이어들 각각에는 2x2의 맥스 풀링 레이어가 뒤따르는 컨볼루션 신경망을 사용할 수 있다. 컨볼루션 신경망의 출력은 편평해지고, 분류 레이어에 제공될 수 있다.

청각 및 시각이 결합된 STAN(Audio Video STAN) 구조의 모델은 해당 단일 모달리티 모델 변형과 동일한 청각 변환 레이어들 및 시각 변환 레이어들을 사용할 수 있다. STAN 구조의 모델과 동일하게 집중 레이어들의 센서들 각각에 대하여 (20) GRU들이 사용될 수 있다.

결과(Results)

전술한 7 개의 모델들은 GRID 테스트 세트의 구문 오류율에 의해 비교될 수 있다. 테스트는 테스트 세트의 깨끗한 변형 및 노이즈에 의해 손상된 변형에 의해 수행될 수 있다. 깨끗한 테스트 세트를 사용하는 경우, 동일한 모달리티의 모든 센서들에서 동일한 깨끗한 신호가 나타날 수 있다. 노이즈 있는 테스트 세트를 사용하는 경우, 센서들 각각의 데이터는 [0, ..., 3]σ 사이의 노이즈 레벨을 가진 고유한 랜덤 워킹 노이즈에 의해 손상될 수 있다. GRID 테스트 세트에 의한 테스트 결과는 도 7(b)를 참조하여 후술한다.

모든 청각 전용 모델들은 노이즈가 있는 환경에서 트레이닝 되었지만, 깨끗한 테스트 세트에 비해 상대적으로 약 5 %의 낮은 구문 오류율을 달성할 수 있다. STAN 구조는 클린 신호에 부정적인 영향을 미치지 않는다.

노이즈 있는 테스트 세트에서, 청각 STAN(Audio STAN) 모델들은 연결 구조의 모델들에 비해 13% (2 개 센서) 및 17% (3 개 센서) 성능을 능가할 수 있다.

STAN 구조의 모델들에 더 많은 센서들을 추가하면 구문 오류율이 48%(단일 또는 두 개의 청각 센서) 및 58%(단일 또는 세 개의 청각 센서)로 상대적으로 낮아질 수 있다. 시각 전용 기본(Single Video Baseline) 구조의 모델은 깨끗한 테스트 조건 및 노이즈 있는 테스트 조건 둘 다에서 단일 청각 전용 기본(Single Audio Baseline) 구조의 모델보다 성능이 떨어진다. 청각 모달리티는 유용한 모달리티일 수 있다. 그러나 두 개의 모달리티들을 STAN 구조와 융합(fusion)하는 경우, 융합된 모델의 구문 오류율이 청각 전용 모델의 구문 오류율보다 향상될 수 있다.

도 7은 실시예들에 따른 STAN 모델들에 적용되는 서로 다른 데이터 세트들의 서로 다른 가중치 초기화의 평균 구문 오류율(PER)을 도시한 도면이다. 도 7의 (a)는 깨끗하고, 노이즈 있는 테스트 세트들에 대해 TIDIGITS 데이터 세트의 5개의 서로 다른 가중치 초기화의 평균 구문 오류율을 나타낸다. 도 7의 (b)는 깨끗하고, 노이즈 있는 테스트 세트들에 대해 GRID 데이터 세트의 5개의 서로 다른 가중치 초기화의 평균 구문 오류율을 나타낸다.

모든 STAN 모델들은 노이즈 있는 조건들에서 트레이닝 되었음에도 불구하고, 깨끗한 테스트 세트에서 약 3 %의 낮은 구문 오류율을 달성할 수 있다. 센서 변환 집중 네트워크 구조는 깨끗한 신호들에 부정적인 영향을 미치지 않는다. 도 7을 참조하면, 노이즈 있는 테스트 세트에서는 두 개 및 세 개의 센서들을 가진 STAN 구조의 모델이 가장 효과적임을 알 수 있다. STAN 구조의 모델은 구문 오류율을 66.8 % (단일 센서 대 이중 센서들) 및 75 % (단일 센서 대 삼중 센서들)로 상대적으로 낮출 수 있다.

연결 구조의 모델들(Concatenation models) 및 동일한 수의 센서들과 비교할 때, STAN 구조의 모델은 구문 오류율의 절반 정도를 달성한다. 외관상으로는, STAN의 구조는 우수하고, 동적 센서 조정은 노이즈 있는 조건들에 도움이 된다. 도 7에서 연결 모델들의 결과가 더 나쁜 건은 네트워크가 분류 시에 더 낮은 노이즈 레벨들을 갖는 신호 소스들에 우선 순위를 매기는 것이 어렵다는 것을 나타낸다.

추가적인 실험(Further Experiments)

데이터 세트(Dataset)

Youtube2Text는 1970 년대 비디오 클립들(video clips)로 구성되며, 각 비디오 클립에는 Mechanical Turks에서 제공된 다양한 이미지 캡션들(image captions)이 추가될 수 있다. 비디오 클립들 각각에는 평균 40 개의 주석이 달린 총 80,839 개의 문장들이 포함될 수 있다. 데이터 세트의 모든 동영상에 해당 오디오가 제공되는 것은 아니다. 1970 년대 비디오들 중에는 1677 개의 오디오 트레이스들(audio traces)이 포함될 수 있다.

아래의 [표 4]는 youtube2text 데이터 세트를 이용한 테스트 결과를 나타낸다.

데이터 세트는 1200 개의 비디오 클립들로 구성된 트레이닝 세트와 770 개의 비디오 클립들로 구성된 테스트 세트로 구분될 수 있다. 데이터 세트의 작업은 비디오에 대한 설명을 생성하는 것이다. 모델에 의해 생성된 설명의 품질은 기계 번역 동기 부여된 메트릭스(machine-translation motivated metrics)를 사용하여 평가될 수 있다.

평가에는 예를 들어, BLEU(BiLingual Evaluation Understudy), METEOR, ROUGE 및 CIDEr(Consensus-based Image Description Evaluation) 등과 같은 메트릭스가 사용될 수 있다.

평가는 이미지 캡션 작성 문제에 대하여 공개적으로 가능한 구현을 사용하여 수행될 수 있다. 이때, 각 비디오에는 고유한 설명이 없으므로 명확한 진실은 없다. 따라서, 생성된 설명의 품질을 계산하기는 어렵다.

평가 작업에 사용된 4가지 메트릭스들은 일부 필사본이 잘못되어 중복 필사본을 사용할 가능성을 고려한다. 이 작업을 위해 일 실시예에서는 청각 특징들 및 시각 특징들 모두를 사용한다.

시각 특징들(2048 x 프레임들의 개수)은 사전 트레이닝 된 Resnet-50에서 추출되고, 여기서 비디오는 초당 24 프레임에서 초당 1.5 프레임으로 다운 샘플링될 수 있다.

청각 특징들은 80 ms의 프레임 크기와 60 ms의 프레임 시프트로 얻어진 MFCC 특징들(39 x 프레임들의 개수)이다. 입력 특징들의 느리게 변화하는 특성으로 인해, 이러한 낮은 시간 해상도도 충분하다.

시각 특징들 및 청각 특징들의 두 개의 입력들을 처리하기 위해, 일 실시예에서는 전술한 STAN 모델의 인식 부분을 수정하여 사용할 수 있다. 병합 레이어는 두 가지 모달리티를 병합하는 출력 시퀀스를 생성할 수 있다. 일 실시예에서는 출력 시퀀스에 대한 마지막 출력 활성화를 취하여 디코더 네트워크의 컨텍스트(context)로 사용할 수 있다. 즉, 생성해야 하는 출력 심볼들의 수만큼의 시간 스텝들에 대하여 이러한 표현을 입력으로 수신하는 GRU 네트워크를 이용할 수 있다. 디코더는 해당 비디오에 대해 사용 가능한 설명 중에서 무작위로 선택된 비디오의 설명 중 하나와 일치하도록 트레이닝 될 수 있다.

STAN 모델들은 표준 파라미터들을 가진 Adam 최적화기를 이용하여 분류적인 교차 엔트로피를 기반으로 하는 시퀀스 손실에 의해 엔드-투-엔드(end-to-end)로 트레이닝될 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

Claims

입력 신호들을 수집하는 센서들(sensors);
상기 입력 신호들에 대응하는 제1 특징 벡터들에 대한 집중 스코어들(attention scores)을 산출하는 집중 레이어들(attention layers);
상기 집중 스코어들에 대한 집중 값들(attention values)을 산출하고, 상기 집중 값들 및 상기 제1 특징 벡터들을 이용하여 병합된 변환 벡터를 생성하는 병합 레이어(merge layer); 및
상기 병합된 변환 벡터를 분류하는 분류 레이어(classification layers)
를 포함하고,
상기 집중 레이어들은 상기 센서들 각각에 대응하고,
상기 집중 레이어들의 집중 값들은 상기 센서들에 대한 노이즈 레벨과 음(negative)의 상관 관계를 가지는, 센서 변환 집중 네트워크 모델.
제1항에 있어서,
상기 입력 신호들은
청각 특징 및 시각 특징 중 적어도 하나에 대응하는 원시 신호, 및 상기 청각 특징 및 상기 시각 특징이 전처리된 신호 중 적어도 하나를 포함하는, 센서 변환 집중 네트워크 모델.
제1항에 있어서,
상기 입력 신호들은
시계열에 따라 프레임 단위로 분할되는, 센서 변환 집중 네트워크 모델.
제1항에 있어서,
상기 센서들은
동일한 모달리티(modallity)를 갖는 복수 개의 센서들 및 서로 다른 모달리티를 갖는 복수 개의 센서들 중 적어도 하나를 포함하는, 센서 변환 집중 네트워크 모델.
제1항에 있어서,
상기 집중 레이어들은
상기 제1 특징 벡터들의 프레임 별로 하나의 스칼라 집중 스코어들(scolar attention scores)을 산출하는, 센서 변환 집중 네트워크 모델.
삭제
제1항에 있어서,
상기 노이즈 레벨은
선형 노이즈 스윕(linear noise sweeps), 노이즈 버스트(noise bursts), 또는 정현파 노이즈(sinusoidal noise) 중 적어도 하나에 기초하는, 센서 변환 집중 네트워크 모델.
제1항에 있어서,
상기 집중 레이어들은
게이티드 리커런트 유닛들(Gated Recurrent Units; GRU)으로 구성되는, 센서 변환 집중 네트워크 모델.
제1항에 있어서,
상기 병합 레이어는
시계열(time series)에 따른 시퀀스(sequence) 대 시퀀스 간의 맵핑(mapping)을 통해 상기 집중 값들을 산출하고, 상기 병합된 변환 벡터를 생성하는, 센서 변환 집중 네트워크 모델.
입력 신호들을 수집하는 센서들(sensors);
상기 입력 신호들에 대응하는 제1 특징 벡터들에 대한 집중 스코어들(attention scores)을 산출하는 집중 레이어들(attention layers);
상기 집중 스코어들에 대한 집중 값들(attention values)을 산출하고, 상기 집중 값들 및 상기 제1 특징 벡터들을 이용하여 병합된 변환 벡터를 생성하는 병합 레이어(merge layer); 및
상기 병합된 변환 벡터를 분류하는 분류 레이어(classification layers)
를 포함하고,
상기 병합 레이어는
상기 제1 특징 벡터들을 대응되는 집중 값들에 의해 스케일링하고, 상기 스케일링된 집중 값들을 가산 연산(adding operation)에 의해 병합하여 상기 병합된 변환 벡터를 생성하는, 센서 변환 집중 네트워크 모델.
제1항에 있어서,
상기 분류 레이어는
게이티드 리커런트 유닛들(Gated Recurrent Units; GRU) 및 LSTM(Long Short Term Memory) 중 적어도 하나로 구성되는, 센서 변환 집중 네트워크 모델.
제1항에 있어서,
상기 분류 레이어는
2- 레이어들의 양 방향 게이티드 리커런트 유닛들(GRUs)로 구성되는, 센서 변환 집중 네트워크 모델.
입력 신호들을 수집하는 센서들(sensors);
상기 입력 신호들에 대응하는 제1 특징 벡터들에 대한 집중 스코어들(attention scores)을 산출하는 집중 레이어들(attention layers);
상기 집중 스코어들에 대한 집중 값들(attention values)을 산출하고, 상기 집중 값들 및 상기 제1 특징 벡터들을 이용하여 병합된 변환 벡터를 생성하는 병합 레이어(merge layer);
상기 병합된 변환 벡터를 분류하는 분류 레이어(classification layers); 및
상기 입력 신호들을 특징 공간(feature space)으로 맵핑하여 상기 제1 특징 벡터들로 변환하는 변환 레이어들(transformation layers)
을 포함하고,
상기 병합 레이어는
상기 제1 특징 벡터들을 대응되는 집중 값들에 의해 스케일링하고, 상기 스케일링된 집중 값들 및 상기 제1 특징 벡터들을 가산 연산(adding operation)에 의해 병합하여 상기 병합된 변환 벡터를 생성하는, 센서 변환 집중 네트워크 모델.
제13항에 있어서,
상기 변환 레이어들은 상기 집중 레이어에 연결되고, 상기 변환 레이어들은 상기 병합 레이어에 연결되는, 센서 변환 집중 네트워크 모델.
제13항에 있어서,
상기 변환 레이어들은
상기 입력 신호들 중 청각 특징을 위한 게이티드 리커런트 유닛들(GRUs) 및 상기 입력 신호들 중 시각 특징을 위한 컨볼루션 신경망(Convolutional Neural Network; CNN) 중 적어도 하나를 포함하는, 센서 변환 집중 네트워크 모델.
제15항에 있어서,
상기 컨볼루션 신경망은
상기 제1 특징 벡터들의 변환을 위한 복수 개의 컨볼루션 레이어들; 및
상기 복수 개의 컨볼루션 레이어들 각각에 대응하는 맥스 풀링 레이어(max pooling layer)를 포함하는, 센서 변환 집중 네트워크 모델.
삭제
센서 변환 집중 네트워크 모델에 있어서,
입력 신호들을 수집하는 센서들(sensors);
상기 입력 신호들에 대응하는 제1 특징 벡터들에 대한 집중 스코어들(attention scores)을 산출하는 집중 레이어들(attention layers);
상기 집중 스코어들에 대한 집중 값들(attention values)을 산출하고, 상기 집중 값들 및 상기 제1 특징 벡터들을 이용하여 병합된 변환 벡터를 생성하는 병합 레이어(merge layer); 및
상기 병합된 변환 벡터를 분류하는 분류 레이어(classification layers)
를 포함하고,
상기 센서 변환 집중 네트워크 모델은
랜덤 워크 노이즈 모델(random walk noise model)에 따른 정규 분포의 랜덤 노이즈로부터 샘플링된 노이즈와 상기 입력 신호들을 혼합(mix)시킨 트레이닝 세트에 의해 트레이닝 되는, 센서 변환 집중 네트워크 모델.
제18항에 있어서,
상기 센서들 각각은
상기 랜덤 워크 노이즈 모델에 기초한 트레이닝 샘플마다 독자적으로 도출된 고유한 노이즈 신호를 수신하는, 센서 변환 집중 네트워크 모델.