KR102455681B1 - 긴 시퀀스 데이터 내 존재하는 관계 정보를 저장 가능한 분산 연관 메모리 네트워크 시스템 - Google Patents
긴 시퀀스 데이터 내 존재하는 관계 정보를 저장 가능한 분산 연관 메모리 네트워크 시스템 Download PDFInfo
- Publication number
- KR102455681B1 KR102455681B1 KR1020200176093A KR20200176093A KR102455681B1 KR 102455681 B1 KR102455681 B1 KR 102455681B1 KR 1020200176093 A KR1020200176093 A KR 1020200176093A KR 20200176093 A KR20200176093 A KR 20200176093A KR 102455681 B1 KR102455681 B1 KR 102455681B1
- Authority
- KR
- South Korea
- Prior art keywords
- information
- memory
- controller
- network system
- sequence data
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0655—Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
- G06F3/0658—Controller construction arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/14—Handling requests for interconnection or transfer
- G06F13/36—Handling requests for interconnection or transfer for access to common bus or bus system
- G06F13/368—Handling requests for interconnection or transfer for access to common bus or bus system with decentralised access control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0604—Improving or facilitating administration, e.g. storage management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
- G06F3/064—Management of blocks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Neurology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 긴 시퀀스 데이터 내 존재하는 관계 정보를 저장 가능한 분산 연관 메모리 네트워크 시스템에 관한 것으로, 본 발명에 따르면, 긴 시퀀스 데이터 내 존재하는 관계 정보를 저장 가능한 분산 연관 메모리 네트워크 시스템에 있어서, 시퀸스 데이터를 입력받는 입력부; 상기 입력부로부터 상기 시퀀스 데이터를 전달받아 메모리 연산자 및 다중 표현 정보를 생성하는 제어기; 상기 제어기로부터 상기 메모리 연산자를 통해 상기 다중 표현 정보가 저장되어 갱신되는 다중 메모리 블록 및 상기 제어기로부터 전달받은 읽혀진 다중 표현 정보를 처리하여 최종 메모리 정보를 생성하고 출력하는 출력부를 포함하되, 상기 제어기는 상기 입력부로부터 입력정보가 전달되면, 상기 다중 메모리 블록으로부터 정보를 읽어 읽혀진 다중 표현 정보를 상기 출력부에 전달하는 것을 특징으로 하는 분산 연관 메모리 네트워크 시스템을 제공할 수 있다.
Description
본 발명은 긴 시퀀스 데이터 내 존재하는 관계 정보를 저장 가능한 분산 연관 메모리 네트워크 시스템에 관한 것으로, 더욱 자세하게는 다중 메모리 블록 구조를 구비하여 긴 시퀀스 데이터 내 내재된 다양한 관계 정보를 저장하고 이를 통해 다양한 관계 추론이 가능하도록 함으로써, 추론 능력이 향상된 분산 연관 메모리 네트워크 시스템에 관한 것이다.
최근 딥러닝 분야에서는 긴 시퀀스의 데이터를 다루기 위해 외부 메모리 모듈을 추가한 메모리 증강 신경망 모델 연구가 활발하게 진행되는 추세이다.
메모리 증강 신경망 모델은 기존 순환 신경망 모델과 비교해 외부 메모리를 통해 정보를 저장하고 이후 필요한 정보를 읽어 와 활용할 수 있다는 장점이 있으나, 아직 입력 내 내재된 관계 정보에 대한 고려 부족으로 인해 복잡한 추론 문제에서 한계를 보이고 있다.
또한 데이터 항목과 관련 정보를 하나의 벡터 표현으로 암시적으로 인코팅하기 때문에 관계형 표현이 손실되는 경우가 종종 발생하여, 관계형 추론 작업을 해결하기에 정보가 충분하지 않는 문제가 있다.
또한 외부 메모리를 통해 정보를 저장할 경우, 고도의 계산적주의 메커니즘을 사용하여 관계형 정보 메모리를 업데이트 할 때마다 반복적으로 다시 관계 계산을 해야 하는 번거로움이 있다.
따라서, 기존 메모리 증강 신경망 모델의 한계를 극복할 수 있는 기술 개발이 필요한 실정이다.
상기와 같은 문제를 해결하고자, 본 발명은 다중 메모리 블록 구조를 구비하여 긴 시퀀스 데이터 내 내재된 다양한 관계 정보를 저장하고 이를 통해 다양한 관계 추론이 가능하도록 함으로써, 추론 능력이 향상된 긴 시퀀스 데이터 내 존재하는 관계 정보를 저장 가능한 분산 연관 메모리 네트워크 시스템을 제공하는 데 목적이 있다.
상기와 같은 과제를 해결하기 위하여, 본 발명의 실시예에 따른 긴 시퀀스 데이터 내 존재하는 관계 정보를 저장 가능한 분산 연관 메모리 네트워크 시스템은 시퀸스 데이터를 입력받는 입력부; 상기 입력부로부터 상기 시퀀스 데이터를 전달받아 메모리 연산자 및 다중 표현 정보를 생성하는 제어기; 상기 제어기로부터 상기 메모리 연산자를 통해 상기 다중 표현 정보가 저장되어 갱신되는 다중 메모리 블록 및 상기 제어기로부터 전달받은 읽혀진 다중 표현 정보를 처리하여 최종 메모리 정보를 생성하고 출력하는 출력부를 포함하되, 상기 제어기는 상기 입력부로부터 입력정보가 전달되면, 상기 다중 메모리 블록으로부터 정보를 읽어 읽혀진 다중 표현 정보를 상기 출력부에 전달하는 것을 특징으로 하는 분산 연관 메모리 네트워크 시스템을 제공할 수 있다.
여기서, 상기 제어기는 하기 수학식 1을 통해 각 메모리 블록의 메모리 연산자를 구하는 것을 특징으로 한다.
[수학식 1]
(여기서, εt,k 는 각 메모리 블록의 메모리 연산자, 는 시간t에서의 주의적 게이트, at는 주의적 게이트(attentive gate), K는 메모리 블록의 수, Wε,k는 각 메모리 연산자의 가중치, ht는 제어기의 은닉 상태 벡터이다)
또한, 상기 제어기는 상기 메모리 연산자를 통해 각 메모리 블록에 개별적으로 상기 다중 표현 정보를 저장하여 갱신시키는 것을 특징으로 한다.
또한, 상기 메모리 연산자는 단서 정보를 포함하는 것을 특징으로 한다.
또한, 상기 제어기는 상기 입력정보로부터 현재 단서 정보를 생성하고, 생성된 현재 단서 정보를 기반으로 상기 다중 메모리 블록으로부터 필요한 다중 표현 정보를 읽어 내는 것을 특징으로 한다.
또한, 상기 제어기는 상기 다중 메모리 블록으로부터 정보를 읽어 읽혀진 다중 표현 정보를 주의적 게이트로 생성하여 상기 출력부에 전달하는 것을 특징으로 한다.
또한, 상기 출력부는 상기 주의적 게이트에 주의적 보간법을 적용하여 하나의 정보로 취합하여 최종 메모리 정보를 생성하는 것을 특징으로 한다.
또한, 상기 출력부는 하기 수학식 7을 통해 상기 주의적 게이트로부터 최종 메모리 정보를 생성하는 것을 특징으로 한다.
[수학식 7]
(여기서, rt는 최종 메모리 정보, K는 메모리 블록의 수, 는 시간t에서의 주의적 게이트, 는 시간t에서의 k번째 메모리 행렬(memory matrix), ㅜ는 Transpose, 는 각 메모리 블록의 읽기 주소이다)
또한, 상기 제어기는 ARL (Association Reinforcing Loss) 기능을 통해 상기 다중 메모리 블록에 저장되어 있는 상기 다중 표현 정보를 기반으로 시퀀스 데이터를 샘플링하고, 샘플링된 시퀀스 데이터를 재현해 학습하는 것을 특징으로 한다.
또한, 상기 제어기는 ARL 함수인 하기 수학식 2를 이용하여 ARL(Association Reinforcing Loss) 기능을 구현하는 것을 특징으로 한다.
[수학식 2]
(여기서, lar(x,y)는 샘플링된 시퀀스 데이터 종속 손실 함수, it는 시간t에서의 입력정보, yt는 시간t에서의 출력정보이다)
상기와 같은 본 발명의 실시예에 따른 긴 시퀀스 데이터 내 존재하는 관계 정보를 저장 가능한 분산 연관 메모리 네트워크 시스템은 다중 메모리 블록 구조를 구비하여 긴 시퀀스 데이터 내 내재된 다양한 관계 정보를 저장하고 이를 통해 다양한 관계 추론이 가능하도록 함으로써, 추론 능력이 향상될 수 있다.
이에 기존 메모리 증강 신경망 모델의 한계였던 복잡한 추론 문제도 해결할 수 있다.
이와 같은 시스템은 데이터 내 관계 추론을 요구하는 모든 영역에서 사용될 수 있는데, 예를 들어 자연어 및 영상 질의응답 시스템, 요약 시스템 등 수 많은 관계 추론 문제에 필수적인 기반 기술로써, 다양한 사업에서의 경쟁력을 확보할 수 있을 것으로 사료된다.
도 1은 본 발명의 실시예에 따른 긴 시퀀스 데이터 내 존재하는 관계 정보를 저장 가능한 분산 연관 메모리 네트워크 시스템을 도시한 구성도.
도 2의 (a) 및 (b)는 메모리 블록 수를 달리하여 8세그먼트, 16세그먼트 시퀀스 데이터를 처리에 대한 반복수(N, 복잡도)에 따른 정확도를 측정한 평균 훈련 그래프.
도 3의 (a) 및 (b)는 메모리 블록 수를 달리하여 복사 및 연관 리콜 작업에 대한 반복수(N, 복잡도)에 따른 정확도를 측정한 평균 훈련 그래프.
도 4는 bAbI 작업에 따른 DNC와 DAM-K의 평균 오류율을 도시한 그래프.
도 5의 (a) 및 (b)는 ARL을 적용한 DNC와 DAM의 복사 작업에 대한 반복수(N, 복잡도)에 따른 정확도를 나타내는 평균 훈련 그래프.
도 6의 (a) 및 (b)는 ARL을 적용한 DNC와 DAM의 연관 리콜 작업에 대한 반복수(N, 복잡도)에 따른 정확도를 나타내는 평균 훈련 그래프.
도 2의 (a) 및 (b)는 메모리 블록 수를 달리하여 8세그먼트, 16세그먼트 시퀀스 데이터를 처리에 대한 반복수(N, 복잡도)에 따른 정확도를 측정한 평균 훈련 그래프.
도 3의 (a) 및 (b)는 메모리 블록 수를 달리하여 복사 및 연관 리콜 작업에 대한 반복수(N, 복잡도)에 따른 정확도를 측정한 평균 훈련 그래프.
도 4는 bAbI 작업에 따른 DNC와 DAM-K의 평균 오류율을 도시한 그래프.
도 5의 (a) 및 (b)는 ARL을 적용한 DNC와 DAM의 복사 작업에 대한 반복수(N, 복잡도)에 따른 정확도를 나타내는 평균 훈련 그래프.
도 6의 (a) 및 (b)는 ARL을 적용한 DNC와 DAM의 연관 리콜 작업에 대한 반복수(N, 복잡도)에 따른 정확도를 나타내는 평균 훈련 그래프.
이하, 도면을 참조한 본 발명의 설명은 특정한 실시 형태에 대해 한정되지 않으며, 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있다. 또한, 이하에서 설명하는 내용은 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
이하의 설명에서 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용되는 용어로서, 그 자체에 의미가 한정되지 아니하며, 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 명세서 전체에 걸쳐 사용되는 동일한 참조번호는 동일한 구성요소를 나타낸다.
본 발명에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 또한, 이하에서 기재되는 "포함하다", "구비하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것으로 해석되어야 하며, 하나 또는 그 이상의 다른 특징들이나, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 명세서에 기재된 "??부", "??기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 실시 예에 따른 긴 시퀀스 데이터 내 존재하는 관계 정보를 저장 가능한 분산 연관 메모리 네트워크 시스템을 상세히 살펴보기로 한다.
도 1은 본 발명의 실시예에 따른 긴 시퀀스 데이터 내 존재하는 관계 정보를 저장 가능한 분산 연관 메모리 네트워크 시스템을 도시한 구성도이다.
본 발명은 다중 메모리 블록 구조를 바탕으로 입력되는 시퀀스 데이터 내 내재된 다양한 관계 정보(표현 정보)를 저장하고 이를 활용하여 메모리 증강 신경망(MANN) 모델의 관계 추론 능력이 향상된 시스템을 제공하고자 한다. 이에 질의응답, 요약과 같이 긴 시퀀스 데이터 내에서 관계 추론을 요구하는 다양한 영역의 문제를 해결하기 위한 시스템으로 활용 가능하도록 할 수 있다.
도 1을 참조하면, 본 발명의 실시예에 따른 긴 시퀀스 데이터 내 존재하는 관계 정보를 저장 가능한 분산 연관 메모리 네트워크 시스템은 입력부(1), 제어기(2), 다중 메모리 블록(3) 및 출력부(4)를 포함할 수 있다.
먼저, 입력부(1)는 시퀀스 데이터를 입력받아 제어기(2)로 전달할 수 있다. 이때, 입력부(1)는 시퀀스 데이터를 입력받은 순서에 따라 순차적으로 제어기(2)에 전달할 수 있다.
여기서 시퀀스 데이터란 순서(sequence)가 있는 데이터로, 시퀀스 원소들이 시간을 따라 순서대로 나열되고 있으며, 특정 순서를 가져 독립적이지 않는 특징을 가진다. 시퀀스 데이터로 시계열 데이터(시간의 흐름에 따라 기록된 데이터)와 텍스트 데이터가 있다.
제어기(2)는 입력부(1)로부터 시퀀스 데이터를 전달받고, 전달받은 시퀀스 데이터로부터 메모리 연산자와 다중 표현 정보를 생성할 수 있다.
여기서 제어기(2)는 메모리 증강 신경망(MANN)과 장단기 기억 신경망(LSTM)을 기반으로 하고 있어, 콘텐츠 기반 주소 지정 메커니즘을 기반으로 각 메모리 블록에 다중 표현 정보를 저장할 수 있다. 또한 메모리 증강 신경망(MANN)과 장단기 기억 신경망(LSTM)을 기반에 분산 연관 메모리 구조와 ARL 기능이 더 해져 연관 분석 기능 및 암기 기능이 개선되고 관계 추론 능력이 보다 향상될 수 있다.
구체적으로, 제어기(2)는 다중 메모리 블록(3)의 동작을 결정할 메모리 연산자와 각 메모리 블록에 저장될 다중 표현 정보를 생성할 수 있으며, 생성된 메모리 연산자를 통해 각 메모리 블록에 개별적으로 다중 표현 정보를 저장하여 갱신시킬 수 있다. 이러한 과정을 '쓰기 작업'이라고 지칭할 수 있다.
이때, 메모리 연산자는 단서 정보를 포함할 수 있다.
제어기(2)는 각 메모리 블록의 메모리 연산자를 구할 시, 하기 수학식 1을 통해 구할 수 있다.
[수학식 1]
여기서, εt,k 는 각 메모리 블록의 메모리 연산자, 는 시간t에서의 주의적 게이트, at는 주의적 게이트(attentive gate), K는 메모리 블록의 수, Wε,k는 각 메모리 연산자의 가중치, ht는 제어기의 은닉 상태 벡터이다.
한편, 제어기(2)는 이전 은닉 상태를 기반으로 현재 입력되는 시퀀스 데이터로부터 메모리 연산자와 다중 표현 정보를 생성하기 때문에, 동일한 시퀀스 데이터에 대해서도 다중 표현 정보를 독립적으로 다중 메모리 블록(3)의 각 메모리 블록에 저장할 수 있다. 이에 동일한 시퀀스 데이터에 대한 다중 표현 정보를 보다 다양한 표현 정보로 다중 메모리 블록(3)에 저장할 수 있다.
또한 제어기(2)는 입력부(1)로부터 입력정보가 전달되면, 입력정보로부터 현재 단서 정보를 생성하고, 생성된 현재 단서 정보를 기반으로 다중 메모리 블록(3)의 모든 메모리 블록을 동시에 읽는 것으로, 필요한 다중 표현 정보를 읽어 낼 수 있다. 각 메모리 블록의 메모리 연산자에는 단서 정보가 포함되어 있기 때문에 이를 기반으로 입력정보에 따른 필요한 정보를 읽어 낼 수 있는 것이다. 이러한 과정을 '읽기 작업'이라고 지칭할 수 있다.
또한 제어기(2)는 다중 메모리 블록(3)으로부터 읽혀진 다중 표현 정보를 주의적 게이트로 생성하여 출력부(4)로 전달할 수 있다.
한편, 제어기(2)는 ARL(Association Reinforcing Loss) 기능을 통해 다중 메모리 블록(3)에 저장되어 있는 다중 표현 정보를 기반으로 시퀀스 데이터를 샘플링하고, 샘플링된 시퀀스 데이터를 재현해 학습할 수 있다. 이를 통해 제어기(2)의 연관 분석 기능 및 암기 기능을 보다 향상시킬 수 있다.
ARL(Association Reinforcing Loss) 기능은 다중 메모리 블록(3)에 저장되어 있는 다중 표현 정보만을 가지고 확률적으로 샘플링된 시퀀스 데이터를 재현하는 방법을 학습하도록 하며, 시퀀스 데이터의 각 시퀀스 원소를 샘플링할 수 있다.
구체적으로, 제어기(2)는 ARL 함수인 하기 수학식 2를 이용하여 ARL(Association Reinforcing Loss) 기능을 구현할 수 있다.
[수학식2]
여기서, lar(x,y)는 샘플링된 시퀀스 데이터 종속 손실 함수, it는 시간t에서의 입력정보, yt는 시간t에서의 출력정보이다.
제어기(2)에 의해 각 샘플링된 시퀀스 데이터의 재현 확률(p)은 하기 수학식 3고 같이 정의될 수 있다.
[수학식 3]
여기서 α(t)는 시간t에서 샘플링 상태를 나타내는 함수이다.
각 샘플링된 시퀀스 데이터의 기대값은 상기 재현확률을 이용하여 구할 수 있는데, 시행횟수(n) × 재현확률(p)로, ARL에 의해 재구성될 수 있다. 이때, 시행횟수(n)은 시퀀스 데이터의 길이일 수 있다.
한편, 제어기(2)는 시퀀스 데이터를 하기 수학식 4의 시퀀스 데이터에 따른 처리 함수를 통해 처리할 수 있다.
[수학식 4]
여기서, T는 시퀀스 데이터 크기, A(t)는 시간t의 함수, ltask(x,y)는 시퀀스 데이터 종속 손실 함수, ot는 시간t에서의 목표(target)정보, yt는 시간t에서의 출력정보이다.
제어기(2)는 ARL(Association Reinforcing Loss) 기능을 구현할 시 손실 불균형을 방지하기 위하여 Ltask와 간의 균형을 유지시켜야 하는데, 하기 수학식 5과 같이 스케일링 계수 γ를 도입하여 수학식 6을 통해 손실 불균형을 방지할 수 있다.
[수학식 5]
여기서 T는 시퀀스 데이터 크기, S(t)는 시간t가 스토리 단계에 있는지 여부를 나타내는 표시기 함수, α(t)는 시간t에서 샘플링 상태를 나타내는 함수, A(t)는 시간t의 함수이다.
[수학식 6]
다중 메모리 블록(3)은 제어기(2)로부터 메모리 연산자를 통해 다중 표현 정보가 각 메모리 블록별로 저장되어 갱신될 수 있다. 메모리 블록의 수가 증가함에 따라 보다 관계 추론 정확도가 향상될 수 있다.
또한 다중 메모리 블록(3)은 여러 개의 메모리 블록이 병렬로 연결되어 각 메모리 블록이 독립적으로 구성되어 있다.
출력부(4)는 제어기(2)로부터 전달받은 읽혀진 다중 표현 정보를 포함하는 주의적 게이트를 처리하여 최종 메모리 정보를 생성하고 출력할 수 있다.
보다 구체적으로, 출력부(4)는 주의적 게이트에 주의적 보간법을 적용하여 하나의 정보로 취합하는 것으로, 최종 메모리 정보를 생성할 수 있다.
이때, 출력부(4)는 하기 수학식 7을 통해 주의적 게이트로부터 최종 메모리 정보를 생성할 수 있다.
[수학식 7]
여기서, rt는 최종 메모리 정보, K는 메모리 블록의 수, 는 시간t에서의 주의적 게이트, 는 시간t에서의 k번째 메모리 행렬(memory matrix), ㅜ는 Transpose, 는 각 메모리 블록의 읽기 주소이다)
상기에서 설명한 바와 같이, 본 발명의 실시예에 따른 긴 시퀀스 데이터 내 존재하는 관계 정보를 저장 가능한 분산 연관 메모리 네트워크 시스템은 다중 메모리 블록 구조를 구비하여 긴 시퀀스 데이터 내 내재된 다양한 관계 정보를 저장하고 이를 통해 다양한 관계 추론이 가능하도록 함으로써, 추론 능력이 향상될 수 있다.
이에 기존 메모리 증강 신경망 모델의 한계였던 복잡한 추론 문제도 해결할 수 있다.
이와 같은 시스템은 데이터 내 관계 추론을 요구하는 모든 영역에서 사용될 수 있는데, 예를 들어 자연어 및 영상 질의응답 시스템, 요약 시스템 등 수 많은 관계 추론 문제에 필수적인 기반 기술로써, 다양한 사업에서의 경쟁력을 확보할 수 있을 것으로 사료된다.
이하, 상기에서 설명한 본 발명에 대해 실험예 및 실시예를 들어 더욱 구체적으로 설명하기로 한다. 그러나 본 발명이 반드시 이들 실험예 및 실시예에 한정되는 것은 아니다.
[
실험예
1] 메모리 블록의 수에 따른 성능 평가
다중 메모리 블록에 따른 성능 향상 효과를 평가하기 위하여, 단일 외부 메모리를 구비하고 있는 DNC(Differential Neural Computer)와 메모리 블록 2개, 4개, K개 포함하는 본 발명의 시스템(DAM-2, DAM-4 또는 DAM-K)을 통해 관계 추론 작업을 진행하고 이에 따라 Representation Recall Task, Algorithmic Task, 평균 오류율 측정을 진행하였다.
그 결과는 도 2 내지 도 4와 같다.
1) Representation Recall Task
Representation Recall Task는 메모리에서 얼마나 많은 표현 정보를 저장하고 기억할 수 있는지를 평가한다. 반복(Iteration) 수가 증가함에 따라 작업 복잡성이 증가할 수 있다.
도 2는 메모리 블록 수를 달리하여 8세그먼트, 16세그먼트 시퀀스 데이터를 처리에 대한 반복수(N, 복잡도)에 따른 정확도를 측정한 평균 훈련 그래프이다.
도 2에 도시된 바와 같이, DNC보다 DAM-2, DAM-4가 보다 높은 정확도를 나타내는 것을 확인할 수 있었다.
2) Algorithmic Task
Algorithmic Task는 긴 시퀀스 데이터에 대한 다중 표현 정보를 올바르게 저장하고 호출할 수 있는지 여부를 평가한다.
도 3은 메모리 블록 수를 달리하여 복사 및 연관 리콜 작업에 대한 반복수(N, 복잡도)에 따른 정확도를 측정한 평균 훈련 그래프이다.
도 3에 도시된 바와 같이, DNC보다 DAM-2, DAM-4가 보다 높은 정확도를 나타내는 것을 확인할 수 있었다.
3) 평균 오류율
단일 외부 메모리를 구비하고 있는 DNC(Differential Neural Computer)와 메모리 블록 K개 포함하는 본 발명의 시스템(DAM-K)의 확장성을 평가하기 위하여, 관계 추론 작업인 bAbI 작업을 통해 평균 오류율을 측정하였다.
도 4는 bAbI 작업에 따른 DNC와 DAM-K의 평균 오류율을 도시한 그래프이다.
도 4에 도시된 바와 같이, DNC보다 DAM-K의 평균 오류율이 낮게 나타났으며, DAM-K에서 메모리 블록의 수(K)가 늘어남에 따라 오류율이 낮아지는 것을 확인할 수 있었다.
[
실험예
2]
ARL에
따른 성능 평가
ARL의 효과를 보여주기 위하여, 단일 외부 메모리를 구비하고 있는 DNC(Differential Neural Computer)와 메모리 블록 3개 포함하는 본 발명의 시스템(DAM3)에 ARL을 적용하여 복사 및 연관 리콜 작업에 대한 정확도를 평가하였다. 이때 재현 확률(p)을 0.1, 0.3, 0.5로 변화시켜 각각 평가를 진행하였다.
그 결과는 도 5 및 도 6과 같다.
도 5는 ARL을 적용한 DNC와 DAM의 복사 작업에 대한 반복수(N, 복잡도)에 따른 정확도를 나타내는 평균 훈련 그래프이다.
도 5를 보면 알 수 있듯이, DNC와 DAM3 모두 학습 속도가 가속화된 것을 확인할 수 있었으며, DNC의 경우 재현 확률(p)이 높을수록 속도가 보다 빨라지는 것을 확인할 수 있었으나, DAM3의 경우에는 재현 확률(P) 변화에 민감하지 않은 것을 확인할 수 있었다.
도 6은 ARL을 적용한 DNC와 DAM의 연관 리콜 작업에 대한 반복수(N, 복잡도)에 따른 정확도를 나타내는 평균 훈련 그래프이다.
도 6을 보면 알 수 있듯이, 연관 리콜 작업에서도 마찬가지로, DNC와 DAM3 모두 학습 속도가 가속화된 것을 확인할 수 있었으며, DNC의 경우 재현 확률(p)이 높을수록 속도가 보다 빨라지는 것을 확인할 수 있었으나, DAM3의 경우에는 재현 확률(P) 변화에 민감하지 않은 것을 확인할 수 있었다.
[
실험예
3] 관계 추론
작업에 대한 평가
본 발명의 시스템(DAM)에 대한 성능을 확인하기 위하여, 관계 추론 작업에 따른 성능을 평가하였고, 그 결과는 표 1 및 표 2와 같다.
1)
반복수(N)에
따른 정확도
Nth Farthest은 모델별(DNC, RMC, TPR, STM, DAM)로 N번째(Nth) 작업에 따른 정확도를 측정하였다. 여기서, DNC는 Differential Neural Computer 이고, RMC는 Relational Memory Core이고, TPR은 Total Physical Response이며, STM은 Self-attentive Associative Memory이다.
그 결과는 표 1과 같다.
상기 표 1을 보면 알 수 있듯이, DAM이 다른 모델들보다 우수한 정확도를 보여주는 것을 확인할 수 있었다.
2)
bAbI
작업에 따른 오차율
모델별(DNC, SDNC, rsDNC, DNC-MD, NUTM, DAM)로 bAbI 작업에 따른 평균 오차율을 측정하였다. 여기서, DNC는 Differential Neural Computer 이고, SDNC는 Sparse Differentiable Neural Computer이고, rsDNC는 robust and scalable Differentiable Neural Computer이고, DNC-MD는 Differentiable Neural Computer - Masking, De-allocation이며, NUTM은 Neural Universal Turing Machine이다.
그 결과는 표 2와 같다.
상기 표 2에 나타난 바와 같이, 다른 모델들보다 DAM2-AR에서 가장 좋은 평균 성능을 나타내는 것을 확인할 수 있었다.
1) Convex hull task에 따른 정확도
모델별(LSTM, ALSTM, DNC, RMC, STM, DAM)로 Convex hull task에 따른 정확도를 측정하였다. Convex hull task은 좌표별로 정렬된 Convex hull을 형성하는 점 목록을 예측하고, 입력 목록은 2D 좌표가 있는 N개의 점으로 구성된다.
여기서, N은 5와 10으로 각각 측정하였으며, LSTM은 Long Short Term Memory이고, ALSTM은 Attentional Long Short Term Memory이고, DNC는 Differential Neural Computer이고, RMC는 Relational Memory Core이고, STM은 Self-attentive Associative Memory이다.
그 결과는 표 3과 같다.
상기 표 3을 보면 알 수 있듯이, DAM6-AR과 DAM8-AR이 LSTM, ALSTM, DNC, RMC 보다 성능이 우수하게 나타나는 것을 확인할 수 있었으며, STM와는 유사한 성능을 보이는 것을 확인할 수 있었다.
이상으로 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고 다른 구체적인 형태로 실시할 수 있다는 것을 이해할 수 있을 것이다. 따라서 이상에서 기술한 실시예는 모든 면에서 예시적인 것이며 한정적이 아닌 것이다.
1: 입력부
2: 제어기
3: 다중 메모리 블록
4: 출력부
2: 제어기
3: 다중 메모리 블록
4: 출력부
Claims (7)
- 긴 시퀀스 데이터 내 존재하는 관계 정보를 저장 가능한 분산 연관 메모리 네트워크 시스템에 있어서,
시퀸스 데이터를 입력받는 입력부;
상기 입력부로부터 상기 시퀀스 데이터를 전달받아 메모리 연산자 및 다중 표현 정보를 생성하는 제어기;
상기 제어기로부터 상기 메모리 연산자를 통해 상기 다중 표현 정보가 저장되어 갱신되는 다중 메모리 블록 및
상기 제어기로부터 전달받은 읽혀진 다중 표현 정보를 처리하여 최종 메모리 정보를 생성하고 출력하는 출력부를 포함하되,
상기 제어기는,
상기 입력부로부터 입력정보가 전달되면, 상기 다중 메모리 블록으로부터 정보를 읽어 읽혀진 다중 표현 정보를 상기 출력부에 전달하는 것을 특징으로 하는 분산 연관 메모리 네트워크 시스템.
- 제1항에 있어서,
상기 제어기는,
상기 메모리 연산자를 통해 각 메모리 블록에 개별적으로 상기 다중 표현 정보를 저장하여 갱신시키는 것을 특징으로 하는 분산 연관 메모리 네트워크 시스템.
- 제1항에 있어서,
상기 메모리 연산자는,
단서 정보를 포함하는 것을 특징으로 하는 분산 연관 메모리 네트워크 시스템.
- 제3항에 있어서,
상기 제어기는,
상기 입력정보로부터 현재 단서 정보를 생성하고, 생성된 현재 단서 정보를 기반으로 상기 다중 메모리 블록으로부터 필요한 다중 표현 정보를 읽어 내는 것을 특징으로 하는 분산 연관 메모리 네트워크 시스템.
- 제1항에 있어서,
상기 제어기는,
상기 다중 메모리 블록으로부터 정보를 읽어 읽혀진 다중 표현 정보를 주의적 게이트로 생성하여 상기 출력부에 전달하는 것을 특징으로 하는 분산 연관 메모리 네트워크 시스템.
- 제5항에 있어서,
상기 출력부는,
상기 주의적 게이트에 주의적 보간법을 적용하여 하나의 정보로 취합하여 최종 메모리 정보를 생성하는 것을 특징으로 하는 분산 연관 메모리 네트워크 시스템.
- 제1항에 있어서,
상기 제어기는,
ARL (Association Reinforcing Loss) 기능을 통해 상기 다중 메모리 블록에 저장되어 있는 상기 다중 표현 정보를 기반으로 시퀀스 데이터를 샘플링하고, 샘플링된 시퀀스 데이터를 재현해 학습하는 것을 특징으로 하는 분산 연관 메모리 네트워크 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200176093A KR102455681B1 (ko) | 2020-12-16 | 2020-12-16 | 긴 시퀀스 데이터 내 존재하는 관계 정보를 저장 가능한 분산 연관 메모리 네트워크 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200176093A KR102455681B1 (ko) | 2020-12-16 | 2020-12-16 | 긴 시퀀스 데이터 내 존재하는 관계 정보를 저장 가능한 분산 연관 메모리 네트워크 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220086014A KR20220086014A (ko) | 2022-06-23 |
KR102455681B1 true KR102455681B1 (ko) | 2022-10-18 |
Family
ID=82221601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200176093A KR102455681B1 (ko) | 2020-12-16 | 2020-12-16 | 긴 시퀀스 데이터 내 존재하는 관계 정보를 저장 가능한 분산 연관 메모리 네트워크 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102455681B1 (ko) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012027587A (ja) | 2010-07-21 | 2012-02-09 | Tokyo Denki Univ | データ分散保管装置及び方法及びプログラム及び記録媒体 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010141182A2 (en) * | 2009-06-02 | 2010-12-09 | Saffron Technology, Inc. | Methods, systems and computer program products for providing a distributed associative memory base |
CN108229647A (zh) * | 2017-08-18 | 2018-06-29 | 北京市商汤科技开发有限公司 | 神经网络结构的生成方法和装置、电子设备、存储介质 |
KR102387305B1 (ko) * | 2017-11-17 | 2022-04-29 | 삼성전자주식회사 | 멀티모달 데이터 학습 방법 및 장치 |
-
2020
- 2020-12-16 KR KR1020200176093A patent/KR102455681B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012027587A (ja) | 2010-07-21 | 2012-02-09 | Tokyo Denki Univ | データ分散保管装置及び方法及びプログラム及び記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
KR20220086014A (ko) | 2022-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299284B (zh) | 一种基于结构信息与文本描述的知识图谱表示学习方法 | |
EP3398117B1 (en) | Augmenting neural networks with external memory | |
Sutton | Temporal credit assignment in reinforcement learning | |
US8983888B2 (en) | Efficient modeling system for user recommendation using matrix factorization | |
CN111160409A (zh) | 一种基于共同特征学习的异构神经网络知识重组方法 | |
US4366551A (en) | Associative memory search system | |
CN107544960B (zh) | 一种基于变量绑定和关系激活的自动问答方法 | |
JPWO2020097221A5 (ko) | ||
CN111506814B (zh) | 一种基于变分自注意力网络的序列推荐方法 | |
CN111666427A (zh) | 一种实体关系联合抽取方法、装置、设备及介质 | |
Moonen et al. | SVD and Signal Processing, III: Algorithms, Architectures and Applications | |
CN114186084B (zh) | 在线多模态哈希检索方法、系统、存储介质及设备 | |
CN111680109A (zh) | 知识图谱表示学习模型训练方法、装置及电子设备 | |
CN112116092A (zh) | 可解释性知识水平追踪方法、系统和存储介质 | |
CN109977029A (zh) | 一种页面跳转模型的训练方法及装置 | |
CN113726545B (zh) | 基于知识增强生成对抗网络的网络流量生成方法及装置 | |
Liu et al. | Incorporating domain and sentiment supervision in representation learning for domain adaptation | |
Matheron et al. | PBCS: Efficient exploration and exploitation using a synergy between reinforcement learning and motion planning | |
CN114780723B (zh) | 基于向导网络文本分类的画像生成方法、系统和介质 | |
CN116561260A (zh) | 一种基于语言模型的习题生成方法、设备及介质 | |
KR102455681B1 (ko) | 긴 시퀀스 데이터 내 존재하는 관계 정보를 저장 가능한 분산 연관 메모리 네트워크 시스템 | |
CN115204292A (zh) | 一种基于psfen的跨设备振动故障迁移诊断方法 | |
CN115310520A (zh) | 融合多特征的深度知识追踪方法及习题推荐方法 | |
CN107885854A (zh) | 一种基于特征选择和虚拟数据生成的半监督跨媒体检索方法 | |
CN112632267B (zh) | 一种全局交互与贪心选择相结合的搜索结果多样化系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |