KR20160134019A

KR20160134019A - 인공 신경망의 하향식 선택적 주의집중 트레이닝 방법

Info

Publication number: KR20160134019A
Application number: KR1020150067380A
Authority: KR
Inventors: 이수영; 동서연
Original assignee: 한국과학기술원
Priority date: 2015-05-14
Filing date: 2015-05-14
Publication date: 2016-11-23
Also published as: KR102154676B1

Abstract

본 발명은 인간의 두뇌에서 일어나는 선택적 주의 집중의 능력을 공학적으로 구현하고, 이를 인식기에 적용하여 정밀도를 임의로 높이기 위해 다층 퍼셉트론 네트워크 기반 인공 신경망의 학습 수행을 통해 획득된 시냅스별 연결 강도에 대응하는 복수의 가중치를 기설정된 가중치 값을 기반으로 고정하고, 다수의 뉴런으로 구성된 입력층에 훈련 패턴을 제시하여 훈련 패턴에 대응되는 인공 신경망 내의 연산 을 수행하고 복수의 도메인별 데이터에 대응하는 입력 벡터에 대한 출력을 산출한 후 산출된 출력을 통해 도메인별 정책 기반 데이터 인식률을 비교하여 인식률이 가장 높은 데이터의 해당 출력에 가중치를 부여하여 하향식(top-down) 선택적 주의집중 기반 시냅스별 트레이닝을 수행함으로써 복수의 후보자 클래스에 대하여 주의 집중의 정도를 새로운 인식 척도로 정의하여 기존의 하나의 후보자 클래스에 대한 인식시스템에 비하여 우수한 인식 결과를 출력 가능할 뿐만 아니라, 가중합을 통해 구현 가능한 최고 속도를 떨어뜨리지 않고 연산의 정밀도(precision)를 임의로 높일 수 있고, 이러한 하향식 선택적 주의 집중의 다층 퍼셉트론은 생물학적으로 선택적 주의집중의 메커니즘을 모델링하는 것과 동시에 이를 이용하여 대용량 범용 신경망 컴퓨터의 구현이 가능할 뿐만 아니라 소형 반도체에도 집적이 가능하여 다양한 인공 신경망 응용 분야에 적용 가능한 기술을 제공하고자 한다.

Description

인공 신경망의 하향식 선택적 주의집중 트레이닝 방법{METHOD FOR TRAINING TOP-DOWN SELECTIVE ATTENTION IN ARTIFICIAL NEURAL NETWORKS}

본 발명은 시냅스 회로를 포함하는 인공 신경망에 관한 것으로, 특히 음성과 영상 융합을 이용한 화자 의도 인식을 위한 하향식 선택적 주의집중에 관한 것이다.

인공 신경망(ANN)은 컴퓨터 비전, 자동 음성 인식, 자연어 처리, 음성 인식 등 다양한 작업들에서 첨단의 성과를 보여주었고, 특정 작업들에서는 그 성능이 인간에 비견될 수 있을 정도로 되었다. 딥 뉴럴 네트워크(deep neural networks)와 같은 대규모의 인공 신경망은 종종 수백만이나 수십억의 신경세포 간 시냅스 연결을 포함한다.

인공 신경망에서는 생물학적인 뉴런의 기능을 단순화시킨 인공 뉴런을 사용하게 된다. 그리고, 연결강도를 갖는 연결선을 통해 상호 연결시켜 인간의 인지작용이나 학습과정을 수행하게 된다. 이러한 인공 신경망은 지도 학습과 비지도 학습으로 나눌 수 있다. 지도학습이란 입력 데이터와 그에 대응하는 출력 데이터를 함께 신경망에 넣고, 입력 데이터에 대응하는 출력 데이터가 출력되도록 연결선들의 연결강도를 갱신시키는 방법이다. 대표적인 학습 알고리즘으로는 델타규칙(Delta Rule)과 오류 역전파 학습(Backpr opagation Learning)이 있다.

최근, 인지과학 기반의 선택적 주의집중을 공학적으로 모사하여 실제의 음성인식이나 문자인식에 도움을 주고자 시도되고 있으나, 실제 인식에 이용하기는 복잡한 소프트웨어 혹은 하드웨어 구현의 용이치 않은 문제점이 있다.

이를 해결하기 위해 시도되고 있는 몇 가지 방식 중 대표적이라 할 수 있는 방식이 다층 퍼셉트론 방식으로써, 일정 패턴의 반복된 학습을 통해 추후 입력되는 정보의 인식 또는 판단을 수행하게 되는 방식이나, 이러한 다층 퍼셉트론 방식에 따른 인공 신경망에서는 일정시간 반복 학습한 특정 패턴에 대해서는 빠른 적응력을 보이는 반면, 학습된 패턴과 상이한 입력에 대하여는 인식 성능이 저하되는 문제가 있다.

대한민국 공개특허 제10-2014-0141778호

따라서 본 발명은 입력층에 주의 집중의 정도를 또 다른 가중치의 형태로 반영하는 구조를 추가하여 기존의 하나의 후보자 클래스에 대한 인식시스템에 비하여 우수한 인식 결과를 출력 가능한 기술을 제공하고자 한다.

본 발명의 일 견지에 따르면, 다층 퍼셉트론 네트워크 기반 인공 신경망의 학습 수행을 통해 획득된 시냅스별 연결 강도에 대응하는 복수의 가중치를 기설정된 가중치 값을 기반으로 고정하고, 다수의 뉴런으로 구성된 입력층에 훈련 패턴을 제시하는 과정과, 제시된 상기 훈련 패턴에 대응되는 인공 신경망 내의 연산 수행을 수행하여 복수의 도메인별 데이터에 대응하는 입력 벡터에 대한 출력을 산출하는 과정과, 산출된 출력을 통해 도메인별 정책 기반 데이터 인식률을 비교하여 인식률이 최우선하는 데이터의 해당 출력에 가중치를 부여하여 하향식(top-down) 선택적 주의집중 기반 시냅스별 트레이닝을 수행하는 과정을 포함한다.

본 발명은 복수의 후보자 클래스에 대하여 주의 집중의 정도를 새로운 인식 척도로 정의하여 기존의 하나의 후보자 클래스에 대한 인식시스템에 비하여 우수한 인식 결과를 출력 가능한 효과가 있다.

또한, 본 발명은 가중합을 통해 구현 가능한 최고 속도를 떨어뜨리지 않고 연산의 정밀도(precision)를 임의로 높일 수 있는 효과가 있다.

그리고, 본 발명은 이러한 하향식 선택적 주의 집중의 다층 퍼셉트론은 생물학적으로 선택적 주의집중의 메커니즘을 모델링하는 것과 동시에 이를 이용하여 대용량 범용 신경망 컴퓨터의 구현이 가능할 뿐만 아니라 소형 반도체에도 집적이 가능하여 다양한 인공 신경망 응용 분야에 적용 가능한 효과가 발생한다.

도 1은 본 발명의 일 실시 예에 따른 하향식 선택적 주의집중 트레이닝 방법이 적용된 인공 신경망을 개략적으로 보인 구조.
도 2는 본 발명의 일 실시 예에 따른 인공 신경망의 하향식 선택적 주의집중 트레이닝 방법에 관한 전체 흐름도.
도 3은 본 발명의 일 실시 예에 따른 인공 신경망의 하향식 선택적 주의집중 트레이닝 방법이 적용된 블록도.
도 4는 본 발명의 일 실시 예에 따른 하향식 선택적 주의 집중 트레이닝 방법에 있어서, 음성과 영상 데이터 각각의 선택적 주의 집중을 이용한 출력 수준의 융합 방법의 흐름도.

이하 본 발명에 따른 바람직한 실시 예를 첨부한 도면을 참조하여 상세히 설명한다. 하기 설명에서는 구체적인 구성 소자 등과 같은 특정 사항들이 나타나고 있는데 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐 이러한 특정 사항들이 본 발명의 범위 내에서 소정의 변형이나 혹은 변경이 이루어질 수 있음은 이 기술 분야에서 통상의 지식을 가진 자에게는 자명하다 할 것이다.

본 발명은 인공 신경망에 관한 것으로, 보다 상세하게는 인간의 두뇌에서 일어나는 선택적 주의 집중의 능력을 공학적으로 구현하고, 이를 인식기에 적용하여 정밀도를 임의로 높이기 위해 다층 퍼셉트론 네트워크 기반 인공 신경망의 학습 수행을 통해 획득된 시냅스별 연결 강도에 대응하는 복수의 가중치를 기설정된 가중치 값을 기반으로 고정하고, 고정된 상태에서 다수의 뉴런으로 구성된 입력층에 훈련 패턴을 제시하여 훈련 패턴에 대응되는 인공 신경망 내의 연산 수행을 수행하고 복수의 도메인별 데이터에 대응하는 입력 벡터에 대한 출력을 산출한 후 산출된 출력을 통해 도메인별 정책 기반 데이터 인식률을 비교하여 인식률이 가장 높은 데이터의 해당 출력에 가중치를 부여하여 하향식(top-down) 선택적 주의집중 기반 시냅스별 트레이닝을 수행함으로써 복수의 후보자 클래스에 대하여 주의 집중의 정도를 새로운 인식 척도로 정의하여 기존의 하나의 후보자 클래스에 대한 인식시스템에 비하여 우수한 인식 결과를 출력 가능할 뿐만 아니라, 가중합을 통해 구현 가능한 최고 속도를 떨어뜨리지 않고 연산의 정밀도(precision)를 임의로 높일 수 있고, 이러한 하향식 선택적 주의 집중의 다층 퍼셉트론은 생물학적으로 선택적 주의집중의 메커니즘을 모델링하는 것과 동시에 이를 이용하여 대용량 범용 신경망 컴퓨터의 구현이 가능할 뿐만 아니라 소형 반도체에도 집적이 가능하여 다양한 인공 신경망 응용 분야에 적용 가능한 기술을 제공하고자 한다.

한편, 본 발명을 설명함에 있어, 하기에서의 '신경 세포' 및 뉴런'의 용어는 같은 의미로 혼용하여 사용하기로 한다.

이하, 본 발명의 일 실시 예에 따른 인공 신경망의 하향식 선택적 주의집중 트레이닝 방법에 관해 도 1 내지 도 4를 참조하여 자세히 살펴보기로 한다.

우선, 도 1은 본 발명의 일 실시 예에 따른 하향식 선택적 주의집중 트레이닝 방법이 적용된 인공 신경망을 개략적으로 보인 것으로, 도 1을 참조하면 인공 신경망 내의 뉴런들은 외부로부터 입력 값을 받아들이는 입력 뉴런들과 처리한 결과를 외부로 전달하는 역할을 하는 출력 뉴런들, 그리고 나머지 은닉 뉴런들로 구분할 수 있다. 이에 따라, 인공 신경망은 다층 신경망으로 입력층(input layer), 출력층(output layer), 하나 이상의 은닉층(hidden layer)으로 구성되며, 각 층은 다수의 유닛 혹은 뉴런으로 구성된다.

본 발명이 적용된 인공 신경망은 기트레이닝된 인공 신경망으로부터 하향식 주의집중(210)이 추가된 다층 퍼셉트론 네트워크는 입력층에 주의 집중의 정도를 또 다른 가중치의 형태로 반영하는 구조가 추가된다.

이로써 하향식 선택적 주의 집중의 다층 퍼셉트론은 생물학적으로 선택적 주으집중의 메커니즘을 모델링하는 것과 동시에 이를 이용하여 복수의 후보자 클래스에 대하여 주의 집중의 정도를 새로운 인식 척도로 정의하여 기존의 하나의 클래스에 대한 인식 시스템에 비하여 우수한 인식 결과를 갖게 한다.

보다 상세하게는 도 2를 참조하여 설명하도록 한다.

도 2는 본 발명의 일 실시 예에 따른 인공 신경망의 하향식 선택적 주의집중 트레이닝 방법에 관한 전체 흐름도이다.

먼저, 도 2의 동작을 설명하기에 앞서, 본 발명이 적용된 인공 신경망의 전반적인 동작을 개략적으로 살펴보면, 인간두뇌 세포구조를 공학적으로 모델링한 인공 신경망(Artificial Neural Network)이란 연결선으로 연결된 수많은 인공 뉴런들을 이용하여 생물학적인 시스템의 계산 능력을 모방하는 소프트웨어나 하드웨어로 구현된 연산모델을 나타낸다. 이러한 인공 신경망에서는 생물학적인 뉴런의 기능을 단순화시킨 인공 뉴런을 사용하게 되며, 연결 강도를 갖는 연결선 즉, 시냅스를 통해 상호 연결시켜 인간의 인지작용이나 학습과정을 수행하게 된다. 이때, 연결 강도는 시냅스가 갖는 속성값으로, 연결 가중치라고도 한다.

인간의 뇌는 뉴런이라는 신경의 기본 단위로 구성되어 있으며, 이들 사이의 각각의 밀도 있는 연결 형태에 따라 정보를 암호화하거나 해독하게 된다. 이러한 생물학적 뉴런 구조를 모방하여 인공 신경망에서는 생물학적인 뉴런의 기능을 단순화시켜 인공 뉴런을 사용하게 된다. 그리고 연결 강도를 가지는 연결선을 통해 상호 연결시켜 학습과정을 수행하게 된다.

인공 신경망의 학습이란 학습용 데이터를 이용하여 학습용 입력 데이터를 인공 신경망의 입력층에 입력시켰을 때, 입력 데이터에 대한 학습용 출력 데이터가 인공 신경망의 출력층으로부터 출력되도록 인공 신경망을 학습시키는 동작으로 예를 들어, 사람 얼굴을 검출하는 신호를 통해 얼굴을 인식하고자 하는 경우, 다양한 사람의 얼굴을 보여 주면서 얼굴 인식 알고리즘 관련 인공 신경망을 생성하되, 상기 다양한 사람의 얼굴을 보여 주면서 사람의 얼굴임을 인식시키는 동작이 학습용 입력 데이터가 입력되는 트레이닝 동작이 될 수 있다.

본 발명의 실시 예에 따른 인공 신경망은 상술된 바와 같이 인간 두뇌 세포 구조를 공학적으로 모델링한 것으로, 이를 기반으로, 도 2를 살펴보면 먼저, 210 과정에서는 다층 퍼셉트론 네트워크 기반 인공 신경망의 학습 수행을 통해 획득된 시냅스별 연결 강도에 대응하는 복수의 가중치를 기설정된 가중치 값을 기반으로 고정하고, 212 과정에서 다수의 뉴런으로 구성된 입력층에 훈련 패턴을 제시한다.

기존의 다층 퍼셉트론과 오차 역전파법이 주어진 입력에 대하여 네트워크의 가중치를 변화시켜 원하는 인식의 기능을 하던 것에 반하여, 본 발명의 하향식 선택적 주의 집중 방법은 일반적인 다층 퍼셉트론과 동일한 방법으로 가중치를 미리 학습시키고, 가중치의 값은 고정시킨 상태에서 테스트 입력이 들어올 때마다 출력층의 오차가 최소가 되도록 현재의 입력 패턴을 학습시킴으로써 원래의 입력 중 네트워크가 원하는 입력만을 선택적으로 받아들이는 기능을 가지게 한다.

214 과정에서는 제시된 상기 훈련 패턴에 대응되는 인공 신경망 내의 연산 수행을 수행하여 복수의 도메인별 데이터에 대응하는 입력 벡터에 대한 출력을 산출한다.

여기서, 상기 복수의 도메인별 데이터에 대응하는 입력 벡터에 대응하는 후보자 클라스별 인식률은 하기의 수학식 1을 통해 산출되고, 산출된 후보자 클라스별 가장 높은 값에 해당하는 후보자 클라스에 대응되는 서로 다른 도메인별 데이터가 통합된 DLF (Decision Level Fusion)기반 출력을 획득한다.

216 과정에서는 산출된 출력을 통해 도메인별 정책 기반 데이터 인식률을 비교하고, 비교 결과 218 과정에서 가장 높은 인식률을 선정한다.

이후, 220 과정에서는 가장 높은 데이터의 해당 출력에 가중치를 부여하여 222 과정에서 하향식(top-down) 선택적 주의집중 기반 시냅스별 트레이닝을 수행한다.

이때, 상기 시냅스별 트레이닝 수행은, 상기 인공 신경망 내 입력층, 은닉층 및 출력층 사이의 연결선들의 연결강도에 대응하는 가중치가 고정된 상태로 도메인별 데이터에 대응하는 입력 벡터에 대한 출력 결과를 로컬 디시전(local decision)에서 하향식 선택적 주의집중을 통해 최우선순위에 해당하는 출력 결과를 데이터별 후보자 클래스에서 선정하고, 선정된 후보자 클래스에 기설정된 가중치를 부여하여 최종 인식 결과로 선택한다.

이러한 214 내지 222 과정의 동작을 도 3 내지 도 4를 참조하여 상세히 살펴보도록 한다.

우선, 본 발명에 해당하는 인공 신경망 기술분야에서는 기존의 음성과 얼굴 영상의 두 가지 감각 정보를 융합하는 방법이 결정 수준 융합(decision level fusion, DLF)과 특징 수준 융합(feature level fusion, FLF) 두 가지로 나누어진다 [3]. 서로 다른 도메인의 두 데이터로부터 하나의 출력을 얻기 위해서는 FLF 방법으로는 음성과 영상의 데이터가 같은 포맷으로 통일이 되어야 한다는 어려움이 있었다. 반면, DLF 방법은 서로 다른 도메인의 데이터로부터 동일한 포맷의 출력을 얻고 나서 그 출력으로부터 통합된 최종 출력을 얻는 것이기 때문에 음성은 음성에 최적화된 인식 방법을 사용하여 출력을 얻고, 영상은 영상에 맞는 방법으로 출력을 얻을 수 있다. 즉, 각자의 출력을 얻기 전까지는 인식 방법이 서로 달라져도 상관이 없다는 큰 장점이 있다.

음성에서 추출된 특징 벡터

를 입력으로 하는 하향식 주의집중 인식기는 화자의 의도가 무엇인지를 출력

로 나타내고, 동일한 방법으로 영상에서 추출된 특징 벡터

는 출력

를 내보낸다. 이 두 가지 출력을 가지고 출력수준의 융합(DLF)을 하는데, 도 3에 도시된 바와 같이 DF block(312)이 그 역할을 담당한다. 융합하기 이전의 단일 모델에서의 인식률을 기반으로, 인식률이 더 높은 인식기의 출력에 더 큰 가중치를 부여함으로써 신뢰도를 바탕으로 한 융합 결과를 도출하게 된다. C개의 후보자 클래스에 대해 각각의 척도를 D로 계산하되, 가장 높은 값을 가지는 후보자 클래스로 최종 인식 결과를 도출해낸다. 음성 인식기의 단일 모델 인식률을

, 영상 인식기의 단일 모델 인식률을

라고 하면, i번째 클래스에 대한 최종 출력

는 수학식 1로 구할 수 있다.

도 4는 본 발명의 일 실시 예에 따른 하향식 선택적 주의 집중 트레이닝 방법에 있어서, 음성과 영상 데이터 각각의 선택적 주의 집중을 이용한 출력 수준의 융합 방법의 흐름도이다.

도 4를 참조하면, 도시된 바와 같이 인공 신경망은 다층 신경망으로 입력층(input layer, 410), 출력층(output layer, 416), 하나 이상의 은닉층(hidden layer, 414)으로 구성되며, 각 층은 다수의 유닛 혹은 뉴런으로 구성된다. 상기 입력층(410)과 은닉층(414) 사이에 주의집중층(412)이 연결되며, 상기 출력층(416)으로부터 출력된 서로 다른 도메인별 데이터 관련 출력값을 수신하는 로컬 디시전(local decision, 418), DLF 기반 최종 출력이 획득되는 융합된 결정(fused decision, 420)을 포함한다.

각 층의 뉴런은 수정 가능한 연결 가중치로 다른 층의 뉴런과 연결되어 있으며, 도 4에 도시된 바와 같이, 입력 벡터(

)들이 입력층의 각 입력 뉴런에 제시되면

형태의 가중합을 통해 뉴런 간 연결 강도에 따른 서로 다른 도메인별 출력 신호

,

를 연산하여 출력한다.

본 발명에서는 음성(Audio)과 영상(Video) 각각으로부터 하향식 선택적 주의 집중 방법을 사용하되, 출력은 화자의 의도를 인식할 수 있게 DLF까지 구현된 인식 시스템을 제안한다.

도 4에 도시된 바와 같이, 음성(Audio)과 영상(Video) 각각의 입력에 대한 다층 퍼셉트론 네트워크가 있고, 하향식 주의 집중을 이용하여 local decision(418)을 출력으로 내보내면, 이를 가중치를 부여하여 합산하는 방식으로 출력수준의 융합을 사용하여 fused decision(420)을 내린다. 이 fused decision값은 C개의 후보자에 대하여 하나씩 나오는 값이며, 가장 높은 값의 decision값을 가진 후보자를 최종 인식 결과로 선택하게 된다.

상기와 같이 본 발명에 따른 인공 신경망의 하향식 선택적 주의집중 트레이닝 방법에 관한 동작이 이루어질 수 있으며, 한편 상기한 본 발명의 설명에서는 구체적인 실시 예에 관해 설명하였으나 여러 가지 변형이 본 발명의 범위를 벗어나지 않고 실시될 수 있다. 따라서 본 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 청구범위와 청구범위의 균등한 것에 의하여 정하여져야 할 것이다.

[참고문헌]

[1] C.-H. Lee, and S.-Y. Lee, “Noise-robust speech recognition using top-down selective attention with an HMM classifier,” IEEE Signal Processing Letters, vol. 14, no. 7, pp. 489-491, 2007.

[2] B.T. Kim and S.Y. Lee, “Sequential recognition of superimposed patterns with top-down selective attention,” Neurocomputing, vol. 58-60, pp. 633-640, 2004.

[3] C.G.M. Snoek, M. Worring, A.W.M. Smeulders, ”Early versus late fusion in semantic video analysis,” In: ACM International Conference on Multimedia, pp. 399-402. Singapore (2005).

410: 입력층 412: 주의집중 층
414: 은닉층 416: 출력층
418: 로컬 디시전 420: 융합된 결정

Claims

다층 퍼셉트론 네트워크 기반 인공 신경망의 학습 수행을 통해 획득된 시냅스별 연결 강도에 대응하는 복수의 가중치를 기설정된 가중치 값을 기반으로 고정하고, 다수의 뉴런으로 구성된 입력층에 훈련 패턴을 제시하는 과정과,
제시된 상기 훈련 패턴에 대응되는 인공 신경망 내의 연산 수행을 수행하여 복수의 도메인별 데이터에 대응하는 입력 벡터에 대한 출력을 산출하는 과정과,
산출된 출력을 통해 도메인별 정책 기반 데이터 인식률을 비교하여 인식률이 최우선하는 데이터의 해당 출력에 가중치를 부여하여 하향식(top-down) 선택적 주의집중 기반 시냅스별 트레이닝을 수행하는 과정을 포함함을 특징으로 하는 인공 신경망의 하향식 선택적 주의집중 트레이닝 방법.
제1항에 있어서,
상기 복수의 도메인별 데이터에 대응하는 입력 벡터에 대응하는 후보자 클라스별 인식률은 하기의 수학식을 통해 산출되고, 산출된 후보자 클라스별 가장 높은 값에 해당하는 후보자 클라스에 대응되는 서로 다른 도메인별 데이터가 통합된 DLF (Decision Level Fusion)기반 출력을 획득함을 특징으로 하는 인공 신경망의 하향식 선택적 주의집중 트레이닝 방법.
제1항에 있어서, 상기 시냅스별 트레이닝을 수행하는 과정은,
상기 인공 신경망 내 입력층, 은닉층 및 출력층 사이의 연결선들의 연결강도에 대응하는 가중치가 고정된 상태로 도메인별 데이터에 대응하는 입력 벡터에 대한 출력 결과를 로컬 디시전(local decision)에서 하향식 선택적 주의집중을 통해 최우선순위에 해당하는 출력 결과를 데이터별 후보자 클래스에서 선정하고, 선정된 후보자 클래스에 기설정된 가중치를 부여하여 최종 인식 결과로 선택함을 특징으로 하는 인공 신경망의 하향식 선택적 주의집중 트레이닝 방법.