KR102659172B1 - 그래프 및 하이퍼그래프 처리를 위한 등변적 하이퍼그래프 신경망을 갖는 컴퓨터 장치 및 그의 방법 - Google Patents

그래프 및 하이퍼그래프 처리를 위한 등변적 하이퍼그래프 신경망을 갖는 컴퓨터 장치 및 그의 방법 Download PDF

Info

Publication number
KR102659172B1
KR102659172B1 KR1020230055368A KR20230055368A KR102659172B1 KR 102659172 B1 KR102659172 B1 KR 102659172B1 KR 1020230055368 A KR1020230055368 A KR 1020230055368A KR 20230055368 A KR20230055368 A KR 20230055368A KR 102659172 B1 KR102659172 B1 KR 102659172B1
Authority
KR
South Korea
Prior art keywords
sequence
order
hypergraph
input
output
Prior art date
Application number
KR1020230055368A
Other languages
English (en)
Inventor
홍승훈
오세윤
김진우
조성준
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020230055368A priority Critical patent/KR102659172B1/ko
Application granted granted Critical
Publication of KR102659172B1 publication Critical patent/KR102659172B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 개시는 그래프 및 하이퍼그래프 처리를 위한 등변적 하이퍼그래프 신경망을 갖는 컴퓨터 장치 및 그의 방법을 제공한다. 본 개시에 따르면, 등변적 하이퍼그래프 신경망은, 입력되는 하이퍼그래프 데이터를 상이한 차수들의 희소 텐서들의 입력 시퀀스로 변환하고, 입력 시퀀스를 차수에 따라 인코딩하고, 입력 시퀀스를 이용하여 하이퍼그래프 상에서의 가중치 상호작용을 수행하여 출력 시퀀스를 생성하고, 출력 시퀀스를 차수에 따라 디코딩하도록 구성될 수 있다.

Description

그래프 및 하이퍼그래프 처리를 위한 등변적 하이퍼그래프 신경망을 갖는 컴퓨터 장치 및 그의 방법{COMPUTER DEVICE WITH ISOMETRIC HYPERGRAPH NEURAL NETWORK FOR GRAPH AND HYPERGRAPH PROCESSING, AND METHOD OF THE SAME}
본 개시는 그래프 및 하이퍼그래프 처리를 위한 등변적 하이퍼그래프 신경망을 갖는 컴퓨터 장치 및 그의 방법에 관한 것이다.
물체들의 관계성을 다루기 위해서는 관계적(relational) 데이터 구조가 필요하다. 그래프(graph)는 정점(node)과 간선(edge)을 이용해 간단한 형태의 관계성을 표현하는데, 각 정점은 물체를 나타내고 각 간선은 두 정점들 사이의 관계를 나타낸다. 그래프 데이터를 처리하기 위해, 연결성을 나타내는 인접 행렬(adjacency matrix)을 이용해 지역적 연결성을 따라 정보를 전파하는 메시지 패싱(message-passing) 기반의 그래프 신경망(graph neural network; GNN)이 최근까지 개발되어 왔다. 다만, 그래프가 다루는 관계성은 이차(second-order) 관계로 제한되어, 세 개 이상의 물체들이 조합적으로 나타내는 복잡한 고차(higher-order) 관계성을 다루기 어렵다. 최근 이러한 문제를 해결하기 위해 모든 차수의 관계성을 고차 간선(hyperedge)으로 일반화하여 표현하는 하이퍼그래프(hypergraph) 데이터 구조를 도입하고 근접 행렬(incidence matrix)에 기반해 그래프 신경망의 메시지 패싱 연산을 도입한 하이퍼그래프 신경망(hypergraph neural network; HGNN)이 개발되었다. 그러나, 이들 신경망은 하이퍼그래프를 처리하는 데에 있어 그래프 메시지 패싱과 같은 제한된 연산만을 사용하므로 모델링의 유연성과 표현력이 한정적이다.
이러한 문제를 해결하기 위해, 최근 매우 제한된 수의 연구가 텐서(tensor) 기반의 데이터 표현을 도입해 더 표현력이 높은 고차 관계성을 위한 신경망을 제안한 바 있다. 이러한 연구에서는 물체들의 집합을 일차(first-order) 텐서, 그래프를 이차(second-order) 텐서, 그리고 최대 k차 간선을 가진 하이퍼그래프는 k차(order-k) 텐서로 표현한다. 이러한 텐서 표현은 정점들의 순열 변환(permutation)에 의한 변환이 일어나더라도 그 본질(isomorphism)은 불변하는 성질을 가지므로, 이러한 텐서를 입력으로 받는 신경망 레이어는 입력 텐서의 순열 변환이 일어났을 때 출력을 동일한 순열로 변환하는 특성, 즉 등변성(equivariance)을 가져야 한다. 등변성을 가지는 선형(linear) 레이어의 경우 그 구조가 수학적으로 완전히 밝혀져 있으므로, 이러한 연구들은 선형 레이어를 쌓은 등변적 다층 퍼셉트론(equivariant multilayer perceptron; equivariant MLP) 신경망이나, 선형 레이어의 정적인 연산을 자가 어텐션(self-attention)을 기반으로 동적으로 변형한 고차 트랜스포머(higher-order transformer) 신경망을 제시하였다. 이러한 신경망들은 이론적으로 고차 관계성을 처리할 수 있으며 메시지 패싱 연산보다 강력한 표현력을 가지지만, 실용적으로 하이퍼그래프 처리에 사용하기에는 계산복잡도가 지나치게 크고 텐서 데이터의 정의상 입출력 가능한 차수에 제한이 있어 집합이나 이차 그래프에만 제한적으로 사용되었다.
본 개시는 고차 관계성을 나타내는 그래프 및 하이퍼그래프 데이터를 다룰 수 있고, 순열 변환 등변성에 기반해 다양한 연산이 가능하되, 실세계 하이퍼그래프 데이터에 실용적으로 사용 가능하도록 높은 성능과 계산복잡도 상의 효율성, 그리고 입출력 가능한 차수에 제한이 없는 하이퍼그래프 신경망 알고리즘 개발을 목적으로 한다.
본 개시는 그래프 및 하이퍼그래프 처리를 위한 등변적 하이퍼그래프 신경망을 갖는 컴퓨터 장치 및 그의 방법을 제공한다.
본 개시에 따르면, 컴퓨터 장치는 적어도 하나의 등변적 하이퍼그래프 신경망을 갖고, 각 등변적 하이퍼그래프 신경망은, 입력되는 하이퍼그래프 데이터를 상이한 차수들의 희소 텐서들의 입력 시퀀스로 변환하도록 구성되는 입력 전처리 모듈, 상기 입력 시퀀스를 차수에 따라 인코딩하도록 구성되는 입력 하이퍼네트워크 모듈, 상기 입력 시퀀스를 이용하여 하이퍼그래프 상에서의 가중치 상호작용을 수행하여 출력 시퀀스를 생성하도록 구성되는 중첩 기반 하부 레이어 모듈, 및 상기 출력 시퀀스를 차수에 따라 디코딩하도록 구성되는 출력 하이퍼네트워크 모듈을 포함할 수 있다.
본 개시에 따르면, 컴퓨터 장치에서 구현되는 등변적 하이퍼그래프 신경망의 동작 방법은, 입력되는 하이퍼그래프 데이터를 상이한 차수들의 희소 텐서들의 입력 시퀀스로 변환하는 단계, 상기 입력 시퀀스를 차수에 따라 인코딩하는 단계, 상기 입력 시퀀스를 이용하여 하이퍼그래프 상에서의 가중치 상호작용을 수행하여 출력 시퀀스를 생성하는 단계, 및 상기 출력 시퀀스를 차수에 따라 디코딩하는 단계를 포함할 수 있다.
본 개시에 따르면, 컴퓨터 프로그램은 등변적 하이퍼그래프 신경망을 컴퓨터 장치에서 실행시키기 위해 비-일시적인 컴퓨터 판독 가능한 기록 매체에 저장되며, 각 등변적 하이퍼그래프 신경망은, 입력되는 하이퍼그래프 데이터를 상이한 차수들의 희소 텐서들의 입력 시퀀스로 변환하도록 구성되는 입력 전처리 모듈, 상기 입력 시퀀스를 차수에 따라 인코딩하도록 구성되는 입력 하이퍼네트워크 모듈, 상기 입력 시퀀스를 이용하여 하이퍼그래프 상에서의 가중치 상호작용을 수행하여 출력 시퀀스를 생성하도록 구성되는 중첩 기반 하부 레이어 모듈, 및 상기 출력 시퀀스를 차수에 따라 디코딩하도록 구성되는 출력 하이퍼네트워크 모듈을 포함할 수 있다.
본 개시는, 순열 변환 등변성에 기반한 그래프 및 하이퍼그래프를 위한 등변적 하이퍼그래프 신경망에 의해 다음과 같은 효과들을 달성할 수 있다.
첫째, 본 개시는 하이퍼그래프 데이터를 입출력하도록 설계됨으로써, 임의의 차수의 관계성 데이터를 다루거나 변환하기 위한 통일된 모델 프레임워크로 기능하는 효과를 가질 수 있다.
둘째, 본 개시는 순열 변환 등변적 선형 레이어를 기반으로 설계되어 그들의 강점을 상속하므로 현재까지 개발된 메시지 패싱 기반의 하이퍼그래프 신경망보다 이론적으로 높은 표현력을 가질 수 있다.
셋째, 본 개시는 서로 다른 차수의 희소 텐서들의 시퀀스에 기반해 동작함으로써, 등변적 선형 레이어들의 문제였던 높은 계산복잡도와 차수의 제한을 해결하여 입출력의 차수가 제한되지 않으면서 계산의 효율성이 극대화되는 효과를 가질 수 있다.
넷째, 본 개시는 자가 어텐션 메커니즘에 기반해 동적으로 하이퍼그래프 위에서의 가중치 상호작용을 수행함으로써 더욱 높은 모델링 성능과 확장성을 갖추는 효과를 가질 수 있다.
도 1은 다양한 실시예들에 따른 컴퓨터 장치의 구성을 개략적으로 도시하는 도면이다.
도 2는 다양한 실시예들에 따른 등변적 하이퍼그래프 신경망을 도시하는 도면이다.
도 3 및 도 4는 다양한 등변적 하이퍼그래프 신경망의 동작 특징을 설명하기 위한 도면들이다.
도 5는 다양한 실시예들에 따른 컴퓨터 장치에서 등변적 하이퍼그래프 신경망의 동작 방법을 도시하는 도면이다.
이하, 본 개시의 다양한 실시예들이 첨부된 도면을 참조하여 설명된다.
도 1은 다양한 실시예들에 따른 컴퓨터 장치(100)의 구성을 개략적으로 도시하는 도면이다.
도 1을 참조하면, 컴퓨터 장치(100)는 통신 모듈(110), 입력 모듈(120), 출력 모듈(130), 메모리(140), 또는 프로세서(150) 중 적어도 하나를 포함할 수 있다. 일부 실시예들에서, 컴퓨터 장치(100)의 구성 요소들 중 적어도 하나가 생략될 수 있으며, 적어도 하나의 다른 구성 요소가 추가될 수 있다. 일부 실시예들에서, 컴퓨터 장치(100)의 구성 요소들 중 적어도 두 개가 하나의 통합된 회로로 구현될 수 있다.
통신 모듈(110)은 컴퓨터 장치(100)에서 외부 기기와 통신을 수행할 수 있다. 통신 모듈(110)은 컴퓨터 장치(100)와 외부 기기 간 통신 채널을 수립하고, 통신 채널을 통해, 외부 기기와 통신을 수행할 수 있다. 여기서, 외부 기기는 다른 컴퓨터 장치, 기지국, 또는 서버 중 적어도 하나를 포함할 수 있다. 통신 모듈(110)은 유선 통신 모듈 또는 무선 통신 모듈 중 적어도 하나를 포함할 수 있다. 유선 통신 모듈은 외부 기기와 유선으로 연결되어, 유선으로 통신할 수 있다. 무선 통신 모듈은 근거리 통신 모듈 또는 원거리 통신 모듈 중 적어도 하나를 포함할 수 있다. 근거리 통신 모듈은 외부 기기와 근거리 통신 방식으로 통신할 수 있다. 예를 들면, 근거리 통신 방식은, 블루투스(Bluetooth), 와이파이 다이렉트(WiFi direct), 또는 적외선 통신(IrDA; infrared data association) 중 적어도 하나를 포함할 수 있다. 원거리 통신 모듈은 외부 기기와 원거리 통신 방식으로 통신할 수 있다. 여기서, 원거리 통신 모듈은 네트워크를 통해 외부 기기와 통신할 수 있다. 예를 들면, 네트워크는 셀룰러 네트워크, 인터넷, 또는 LAN(local area network)이나 WAN(wide area network)과 같은 컴퓨터 네트워크 중 적어도 하나를 포함할 수 있다.
입력 모듈(120)은 컴퓨터 장치(100)의 적어도 하나의 구성 요소에 사용될 신호를 입력할 수 있다. 입력 모듈(120)은, 사용자에 의해 직접적으로 입력되는 신호를 검출하거나, 주변의 변화를 감지하여 신호를 발생하도록 구성될 수 있다. 예를 들어, 입력 모듈(120)은 마우스(mouse), 키패드(keypad), 마이크로폰(microphone), 또는 적어도 하나의 센서를 갖는 센싱 모듈 중 적어도 하나를 포함할 수 있다. 일부 실시예들에서, 입력 모듈(120)은 터치를 감지하도록 설정된 터치 회로(touch circuitry) 또는 터치에 의해 발생되는 힘의 세기를 측정하도록 설정된 센서 회로 중 적어도 하나를 포함할 수 있다.
출력 모듈(130)은 컴퓨터 장치(100)의 외부로 정보를 출력할 수 있다. 출력 모듈(130)은 정보를 시각적으로 출력하도록 구성되는 표시 모듈 또는 정보를 오디오 신호로 출력할 수 있는 오디오 출력 모듈 중 적어도 하나를 포함할 수 있다. 예를 들면, 오디오 출력 모듈은 스피커 또는 리시버 중 적어도 하나를 포함할 수 있다.
메모리(140)는 컴퓨터 장치(100)의 적어도 하나의 구성 요소에 의해 사용되는 다양한 데이터를 저장할 수 있다. 예를 들면, 메모리(140)는 휘발성 메모리 또는 비휘발성 메모리 중 적어도 하나를 포함할 수 있다. 데이터는 적어도 하나의 프로그램 및 이와 관련된 입력 데이터 또는 출력 데이터를 포함할 수 있다. 프로그램은 메모리(140)에 적어도 하나의 명령을 포함하는 소프트웨어로서 저장될 수 있으며, 운영 체제, 미들 웨어 또는 어플리케이션 중 적어도 하나를 포함할 수 있다.
프로세서(150)는 메모리(140)의 프로그램을 실행하여, 컴퓨터 장치(100)의 적어도 하나의 구성 요소를 제어할 수 있다. 이를 통해, 프로세서(150)는 데이터 처리 또는 연산을 수행할 수 있다. 이 때, 프로세서(150)는 메모리(140)에 저장된 명령을 실행할 수 있다. 다양한 실시예들에서, 프로세서(150)는 고차 관계성을 나타내는 그래프 및 하이퍼그래프 데이터를 다룰 수 있고, 순열 변환 등변성에 기반하여 다양한 연산이 가능하되, 실세계 하이퍼그래프 데이터에 실용적으로 사용 가능하도록 높은 성능과 계산복잡도 상의 효율성, 그리고 입출력 가능한 차수에 제한이 없는 적어도 하나의 등변적 하이퍼그래프 신경망(도 2의 등변적 하이퍼그래프 신경망(200))을 가질 수 있다.
도 2는 다양한 실시예들에 따른 등변적 하이퍼그래프 신경망(200)을 도시하는 도면이다. 도 3 및 도 4는 다양한 등변적 하이퍼그래프 신경망(200)의 동작 특징을 설명하기 위한 도면들이다.
도 2를 참조하면, 등변적 하이퍼그래프 신경망(200)은 입력 전처리 모듈(210), 입력 하이퍼네트워크 모듈(220), 중첩 기반 하부 레이어 모듈(230), 및 출력 하이퍼네트워크 모듈(240)을 포함할 수 있다.
입력 전처리 모듈(210)는 입력되는 하이퍼그래프 데이터를 상이한 차수들의 희소 텐서들의 입력 시퀀스로 변환하도록 구성될 수 있다. 먼저, 입력 전처리 모듈(210)은 도 3에 도시된 바와 같이, 하이퍼그래프 데이터를 k-균일(uniform) 하이퍼그래프들의 시퀀스로 변환할 수 있다. 구체적으로, 입력 전처리 모듈(210)은 하이퍼그래프 데이터를 정점들의 시퀀스, 간선들의 시퀀스, 및 고차간선들의 시퀀스로 표현하고, 이 시퀀스들로 k-균일 하이퍼그래프들의 시퀀스로 표현할 수 있다. 그런 다음, 입력 전처리 모듈(210)은 도 3에 도시된 바와 같이, k-균일 하이퍼그래프들의 시퀀스를 대칭 텐서들의 시퀀스로 변환할 수 있다. 구체적으로, 입력 전처리 모듈(210)은 정점들의 시퀀스를 1차 텐서로 표현하고, 간선들의 시퀀스를 2차 텐서로 표현하고, 고차간선들의 시퀀스를 3차 텐서로 표현하고, 이 텐서들의 시퀀스를 표현할 수 있다.
입력 하이퍼네트워크 모듈(220)은 입력 시퀀스를 차수에 따라 인코딩하도록 구성될 수 있다.
중첩 기반 하부 레이어 모듈(230)은 입력 시퀀스를 이용하여 하이퍼그래프 상에서의 가중치 상호작용을 수행하여 출력 시퀀스를 생성하도록 구성될 수 있다. 이 때, 중첩 기반 하부 레이어 모듈(230)은 입력 시퀀스 내의 상이한 입력들로부터 출력 시퀀스 내의 하나의 출력에 대한 상호작용들에 대해, 상이한 가중치들을 부여하도록 구성될 수 있다. 가중치들은 입력들의 출력에 대한 중첩 정도에 따라 상이하게 결정될 수 있다. 여기서, 출력의 차수는 입력들의 차수보다 낮을 수 있다. 구체적으로, 도 4에 도시된 바와 같이, 입력들이 고차간선들인 경우, 출력은 간선이고, 가중치들은 고차간선들의 각각에서의 정점들과 간선의 정점들 사이의 중첩 정도에 따라, 상이하게 결정될 수 있다. 그리고, 중첩 기반 하부 레이어 모듈(230)은 각 고차간선에 대해 가중치를 기반으로 해당 고차간선의 중첩 정도에 따라 결정되는 상이한 상호작용들을 수행할 수 있다.
일 예로, 임의의 고차간선의 정점들 중 하나가 간선의 정점들 중 하나와 중첩되는 경우, 중첩 기반 하부 레이어 모듈(230)은 중첩 정도를 1로 결정하고, 해당 고차간선에 대해 중첩 정도가 1인 경우의 가중치(w1)를 부여하며, 이로써, 해당 고차간선에 대해 해당 가중치(w1)를 기반으로 로컬 상호작용을 수행할 수 있다. 다른 예로, 임의의 고차간선의 정점들 중 두 개가 간선의 정점들 중 두 개와 중첩되는 경우, 중첩 기반 하부 레이어 모듈(230)은 중첩 정도를 2로 결정하고, 해당 고차간선에 대해 중첩 정도가 2인 경우의 가중치(w2)를 부여하며, 이로써, 해당 고차간선에 대해 해당 가중치(w2)를 기반으로 로컬 상호작용을 수행할 수 있다. 또 다른 예로, 임의의 고차간선의 정점들 중 어떤 것도 간선의 정점들과 중첩되지 않는 경우, 중첩 기반 하부 레이어 모듈(230)은 중첩 정도를 0으로 결정하고, 해당 고차간선에 대해 중첩 정도가 0인 경우의 가중치(w0)를 부여하며, 이로써 해당 고차간선에 대해 해당 가중치(w0)를 기반으로 글로벌 상호작용을 수행할 수 있다.
출력 하이퍼네트워크 모듈(240)은 출력 시퀀스를 차수에 따라 디코딩하도록 구성될 수 있다.
이와 같은 방식으로, 하이퍼그래프는 복수의 등변적 하이퍼그래프 신경망(200)들을 통과할 수 있으며, 이로써, 일차 텐서가 출력될 수 있다. 일차 텐서는 정점마다 할당된 특징 벡터(feature vector)의 집합을 표현하기 때문에, 각 정점의 벡터를 선형 분류기에 통과시켜 정점의 카테고리를 분류할 수 있다. 여기에 사용된 모든 신경망 파라미터는 교차 엔트로피(cross-entropy) 손실 함수(loss function)와 역전파(backpropagation) 기반 경사하강법(gradient descent)을 통하여 학습될 수 있다.
이하에서, 등변적 하이퍼그래프 신경망(200)의 구현을 설명을 상세하게 설명할 것이다.
관련 연구
순열 등변성(equivariant) 학습의 몇 가지 예비 개념들을 소개한다. 먼저 고차 텐서들을 설명한 다음 동일 GNN들을 구성하는 최대 표현 순열 등변성 선형 레이어들을 설명한다. 몇 가지 표기법으로 시작한다.
집합을 {a, ..., b}, 튜플을 (a, ..., b), [n] = {1, ..., n}으로 표시한다. k차 텐서들의 공간을 특징 차원이 d인 로 표시한다. k차 텐서 A ∈ 의 경우, 요소 를 색인화하기 위해 다중 인덱스 를 사용한다. Sn이 [n]의 모든 순열을 나타낸다고 한다. 정점 순열 에 의해 다중 인덱스 i에 작용하고, 에 의해 텐서 A에 작용한다.
고차 텐서. 등변성 학습에 대한 이전 연구에서는 n개 정점들의 집합인 V와 텐서 인코딩 고차간선 특징들인 를 사용하여 하이퍼그래프 데이터를 G = (V,A)로 간주한다. 텐서 A의 차수 k는 하이퍼그래프의 종류를 나타낸다. 1차 텐서는 Ai가 정점 i의 특징인 일련의 특징(예: 포인트 클라우드)을 인코딩 한다. 2차 텐서는 가 간선(i1,i2)의 특징인 쌍별 간선 특징(예: 인접)을 인코딩 한다. 일반적으로 k차 텐서는 고차간선 특징(예: 메시 노멀)을 인코딩 한다. 여기서, 은 고차간선의 특징 이다. 텐서에서 논의를 시작하지만, 임의의 차수의 방향성이 없는 하이퍼그래프라는 익숙한 개념에 도달할 것이다.
순열 불변성(invariance) 및 등변성. (하이퍼)그래프 학습에서, (고차) 텐서 A를 입력으로 하고 일부 값을 출력하는 함수 f를 구축하는 데 관심이 있다. 그래프의 텐서 표현은 정점 번호의 순열에 따라 크게 변하기 때문에 함수 f는 정점 순열에서 불변하거나 등변해야 한다. 형식적으로, 출력이 단일 벡터인 경우, f는 항상 를 만족하는 순열 불변이어야 하며, 출력이 텐서인 경우, f는 항상 를 만족하는 순열 등변이어야 한다. 신경망 f는 종종 선형 레이어들과 비선형성들의 스택으로 구축되기 때문에 그 구성은 불변 및 등변 선형 레이어들을 찾는 것으로 감소한다.
불변적 및 등변적 선형 레이어들. 많은 (하이퍼)그래프 신경망은 메시지 패싱에 의존하며, 이는 제한된 동일 연산자이다. 또는 고차 텐서에 대한 최대 표현 선형 레이어들은 이전 연구에 의해 특징 지어졌다. 구체적으로, 불변적 선형 레이어들 과 등변적 선형 레이어들 이 확인되었다(불변성은 l = 0인 등변성의 특별한 경우이다). k차 입력 가 주어지면 등변적 선형 레이어 Lk→l의 l차수 출력은 지시자 과 다중-인덱스들 로 하기 [수학식 1]과 같이 쓰여진다:
여기서, 는 가중치와 바이어스 파라미터들이며, μ 및 λ는 각각 (k + l)차수 및 l차수 다중 인덱스들의 등변성 클래스들이다.
등변성 클래스는 다중 인덱스 공간의 분할로 해석할 수 있다. 가중치에 대한 (k+l)차수 등변성 클래스 μ는 다중 인덱스 [n]k+l의 공간 분할을 지정하고, 바이어스에 대한 l차수 등변성 클래스 λ는 다중 인덱스 [n]l의 공간 분할을 지정한다. 등변성 클래스들의 총 수(분할 크기)는 차수들 k와 l에만 의존한다. b(k)의 k번째 Bell 수를 사용하면 가중치에 대한 b(k +l) 등변성 클래스 μ와 바이어스에 대한 b(l) 등변성 클래스 λ가 존재한다. 1차 레이어 L1→1의 경우, 가중치에 대한 [n]2의 분할을 {μ1, μ2}로 지정한 b(2) = 2 등변성 클래스들 μ1, μ2가 존재한다. 여기서, 이다.
등변적 GNN들. 최대 표현 등변적 선형 레이어(상기 [수학식 1])을 기반으로 순열 불변적 또는 등변적 신경망의 부케(bouquet)가 공식화되었다. 대표적인 예로 등변적 GNN(k-IGN라고도 함)이 있으며, 등변적 선형 레이어들과 비선형성을 쌓아 구축된다. 그들의 이론적 표현은 광범위하게 연구되어 집합 및 그래프 학습에서 성공적인 변형으로 이어졌다. 특히, 고차 트랜스포머 및 토큰과 같은 실용적인 변형GT는 등변적 GNN들과 트랜스포머 아키텍처를 통합하여 대규모 분자 그래프 회귀에서 메시지 패싱 GNN들의 성능을 능가했다.
하이퍼그래프 학습의 과제. 이론적이고 실용적인 이점들에도 불구하고, 등변적 GNN과 그 변형들은 고차 데이터를 포함하는 일반적인 하이퍼그래프 학습에 거의 고려되지 않았으며, 고도로 제한된 k-균일 하이퍼그래프 예측을 제외하고는 구현되지 않았다. 두 가지 주요 과제들을 식별한다. 첫째, 최근 트릭들로 점근적 비용을 실질적인 수준으로 줄일 수 있지만 파라미터들의 수는 여전히 입력 순서의 Bell 수로 빠르게 증가한다. k + l = 5가 이미 52개의 가중치 매트릭스들로 이어지기 때문에 k + l > 4의 레이어 Lk→l은 사용하기 어렵다. 둘째, 모델이 보이지 않는 정점들 또는 하이퍼그래프들에서 테스트되는 유도 학습에서, 모델은 훈련 데이터의 최대 차수를 초과할 수 있는 보이지 않는 차수의 고차간선을 처리해야 할 수 있다. Lk→l의 기초가 되는 고정 차수 텐서는 모델이 처리할 수 있는 최대 고차간선 차수(k,l)를 미리 지정해야 하기 때문에 등변적 GNN들의 경우 이는 간단하지 않다.
등변적 하이퍼그래프 신경망
이제 일반 하이퍼그래프 데이터에 대한 실질적인 등변적 GNN에 대한 프레임워크로 진행한다. 무방향 하이퍼그래프를 가정하는 실제 설정에서 하이퍼그래프 G = (V, E, X)는 n개의 정점들의 집합 V, m개의 고차간선들 집합 E, 고차간선들의 특징들 X ∈ Rm×d로 정의된다. 각 고차간선 e ∈ E는 정점 집합 V의 하위 집합이며, 해당 차수 |e|는 정점 집합 V의 유형을 나타낸다. 예를 들어, 1차 간선 {i}은 i번째 정점을 나타내고, 2차 간선 {i,j}은 i번째 정점과 j번째 정점의 쌍방향 링크를 나타낸다. 일반적으로, k차 간선 {i1, ..., ik}는 k개의 정점들을 연결하는 고차간선을 나타낸다. Xe ∈ Rd는 고차간선 e에 부착된 특징을 나타낸다. 정점 및 고차간선 특징들이 모두 d차원이라고 가정한다. 서로 다른 차원들을 처리하기 위해 정점 특징들을 d = (dv + de)라 하고 첫 번째 dv 채널들에 정점 특징들을 배치하고 마지막 de 채널들에 고차간선 특징들을 배치했다.
상기 하이퍼그래프들 (V,E,X)의 개념은 전술된 고차 텐서 와 직접적으로 일치하지 않는다. 그들과 달리, 여기에서 관심을 갖는 하이퍼그래프들은 희소하고, 고차간선들은 방향성이 없으며, 각 고차간선은 고유한 정점 인덱스들을 포함한다. 전술된 등변적 GNN은 고차 텐서를 기반으로 하므로 하이퍼그래프와 고차 텐서 사이에 연결을 설정해야 한다.
고차 텐서들의 시퀀스로서의 하이퍼그래프
고차 텐서 를 사용하여 하이퍼그래프들 (V,E,X)을 설명하려면 k-균일 하이퍼그래프들을 도입하면 편리하다. 하이퍼그래프의 모든 고차간선들이 정확하게 k차일 경우 하이퍼그래프는 k-균일하다. 예를 들어, 자가 루프들이 없는 그래프는 2-균일하고 삼각 메시는 3-균일하다. 이로부터, k-균일 하이퍼그래프들의 시퀀스로서 하이퍼그래프의 등변적 표현을 정의할 수 있다:
정의 1. 최대 고차간선 차수 K를 갖는 하이퍼그래프 (V,E,X)의 시퀀스 표현은 k ≤ K인 k-균일 하이퍼그래프들의 시퀀스이며, 라 쓸 수 있다. 여기서, E(k)는 E의 모든 k차 고차간선들의 집합이고, X(k)는 특징들 {Xe|e ∈ E(k)}의 행 스택이다.
집합 가 E의 분할을 형성하기 때문에 E에 대한 의 결합과 X에 대한 의 연결을 사용하여 시퀀스 표현 에서 원래의 하이퍼그래프 (V,E,X)를 검색할 수 있다.
균일 하이퍼그래프의 개념은 대칭 고차 텐서로 동등한 표현을 그릴 수 있기 때문에 편리하다. k차 텐서 A는 등과 같이 인덱스들의 순서가 변경되지 않는 경우 대칭이다. 이로부터, k-균일 하이퍼그래프의 등변적 표현을 k차 대칭 텐서로 정의할 수 있다:
정의 2. k-균일 하이퍼그래프(V,E(k),X(k))의 텐서 표현은 하기 [수학식 2]와 같이 정의되는 k차 대칭 텐서 이다:
A(k)에서, 먼저 E(k)를 구성하기 위해 A(k)의 0이 아닌 모든 항목들의 인덱스들을 식별한 다음, E(k)를 사용하여 A(k)를 색인화하여 X(k)를 구성함으로써 원래의 k-균일 하이퍼그래프 (V, E(k), X(k))를 검색할 수 있다.
이제 정의 1과 정의 2를 직접 결합하면 하이퍼그래프의 등변적 표현을 고차 텐서의 시퀀스로 정의할 수 있다:
정의 3. 최대 고차간선 차수 K를 갖는 하이퍼그래프 (V,E,X)의 텐서 시퀀스 표현은 대칭 고차 텐서들의 시퀀스 이며, 여기서 각 A(k)는 하이퍼그래프 의 시퀀스 표현(정의 1)에서 생겨나는 각 k-균일 하이퍼그래프 (V,E(K),X(K))의 텐서 표현(정의 2)이다.
도 3에 설명이 있다. 정점 특징을 A(1)로 포함할 수 있다. 이제 관심 문제는 하이퍼그래프를 나타내는 텐서들의 시퀀스 A(:K)에서 작동하는 함수 f를 식별하는 것으로 줄어든다. 순열 불성변 및 등변성의 개념도 여기에 유사하게 적용된다. 정점 순열 은 텐서 시퀀스 A(:K)에 작용하며, 이로써, 각각의 텐서에 공동으로 작용한다 . 불변성 f는 항상 를 충족하고, 등변성 f는 항상 를 충족한다.
하이퍼그래프들을 위한 등변적 선형 레이어
정의 3에서, k-균일 하이퍼그래프를 나타내는 각각의 텐서 A(k)인 대칭 고차 텐서 의 시퀀스로 하이퍼그래프를 표현했다. 이제 전술된 등변적 선형 레이어 (상기 [수학식 1])를 사용하여 하이퍼그래프를 입력하고 출력하는 등변적 선형 레이어를 공식화한다. 기본 설계는 입력 및 출력 시퀀스의 텐서(즉, k-균일 하이퍼그래프) 사이의 모든 쌍별 선형 매핑을 찾아 결합하는 것이다. 겉보기에는 단순해 보이지만, 이것이 하이퍼그래프에 대해 최대로 표현 가능한 등변적 선형 레이어를 제공한다는 것을 증명한다.
k-균일 하이퍼그래프들에 대한 동일 선형 레이어들. 상기에서, 금지된 수의 b(k+l) 가중치와 b(l) 바이어스로 인해 동일 선형 레이어 Lk→l을 실질적으로 사용할 수 없다고 주장했다. 그러나, 입력 텐서와 출력 텐서가 각각 k 및 l-균일 하이퍼그래프들로 제한되면 레이어가 O(k + l) 가중치들과 단일 바이어스로 감소한다는 것을 보여줄 수 있다:
제안 1. 동일 선형 레이어 Lk→l(상기 [수학식 1])의 입력과 출력이 각각 k- 및 l-균일 하이퍼그래프(상기 [수학식 2])를 나타내는 대칭 텐서들로 제한된다고 가정한다. 그러면 하기 [수학식 3]과 같이 L(k)→(l)로 줄어든다:
여기서, 는 가중치와 바이어스이고 |i|는 i에서 구별되는 요소들의 수이며 |i ∩ j|는 i와 j에서 구별되는 교차 요소들의 수이다.
입력과 출력이 균일한 하이퍼그래프(상기 [수학식 2])를 나타내는 텐서들로 제한되면 많은 파라미터들이 대칭을 고수하도록 묶여 있다는 점이 증명의 아이디어이다. 이는 원래 레이어 Lk→l에 비해 훨씬 적은 수의 파라미터들로 이어진다. 그래도 L(k)→(l)(상기 [수학식 3])은 (감소하지 않은) Lk→l과 동일한 출력들을 생성하기 때문에 최대 표현 선형 레이어이다.
특히, 최대 표현은 글로벌 상호작용으로 증강된 정교한 로컬 메시지 패싱으로 구성된다. 상기 [수학식 3]의 첫 번째 항에 있어서, 제약 조건 1|i∩j|>0은 적어도 하나의 중첩 정점을 갖는 근접 입력과 출력 고차간선들 사이의 로컬 의존성을 지정한다. 이 로컬 상호작용은 중복되는 정점들 I의 다른 수들에 대해 별도의 가중치들 를 사용하기 때문에 기존 메시지 패싱보다 더 세분화된다(fine-grained)(도 4). 이는 GNN들의 표현을 향상시키는 하위 그래프 메시지 패싱의 최근 작업을 연상시킨다. 또한, 레이어에는 가상 정점 또는 표현을 향상시키는 글로벌 어텐션을 상기시키는, 상기 [수학식 3]의 두 번째 항에서 풀링을 통한 본질적인 글로벌 상호작용이 포함된다.
하이퍼그래프들을 위한 등변적 선형 레이어들. 이제 무방향 하이퍼그래프들을 위한 최대 표현형 등변적 선형 레이어들을 구성한다. 정의 3에서와 같이 하이퍼그래프는 텐서들의 시퀀스로 표현될 수 있다. 따라서, 선형 레이어 L(:K)→(:L)을 구성하여 등변적 가 되도록 한다. 이를 위해, 입력 시퀀스와 출력 시퀀스의 텐서들 사이에 모든 쌍별 선형 레이어들 L(k)→(l)(상기 [수학식 3])를 사용한다:
나은 해석을 위해, 상기 [수학식 3]을 상기 [수학식 4]에 연결하고 l-번째(l차) 출력 텐서의 j번째 항목과 관련하여 다시 쓴다:
각 하위 레이어 L(k)→(l)의 가중치를 구별하기 위해 에 첨자(k, l)을 추가했다. 각 하위 레이어 L(k)→(l)은 서로 다른 계산에 포함된다. 반면, 하위 레이어들 의 바이어스들은 정확하게 동일한 계산을 수행하며 단일 바이어스 bl에 병합될 수 있다. 결과적으로 L(:K)→(:L) 가중치들과 L 바이어스들을 포함하여 기하급수적으로 많은 가중치들과 바이어스들을 갖는 원래의 LK→L보다 더 나은 확장성을 달성한다.
하위 레이어 L(k)→(l)(상기 [수학식 3])과 유사하게 일반 하이퍼그래프 L(:K)→(:L)(상기 [수학식 5])에 대한 결합된 레이어가 세분화된 로컬 메시지 패싱과 글로벌 상호작용의 혼합임을 알 수 있다. 이 경우, 로컬 상호작용은 k차 입력과 l차 출력 고차간선들 사이의 종속성을 지정하는 각 삼중항 ( )에 대해 서로 다른 가중치들 을 사용한다. 마찬가지로, 글로벌 상호작용(풀링)은 각 쌍 (k,l)에 대해 서로 다른 가중치들 wk,l,0을 사용하여 모든 k차 입력과 l차 출력 고차간선들 간의 글로벌 종속성을 지정한다. 마지막으로, 각 출력 고차간선 차수 l에 대해 서로 다른 바이어스들 bl이 할당된다.
더 중요한 것은 다음과 같다:
정리 1. L(:K)→(:L)(상기 [수학식 4])은 텐서 시퀀스들로 표현되는 무방향 하이퍼그래프들에 대한 최대 표현 등변적 선형 레이어이다.
제안 1에서와 유사하게, 증명에 대한 아이디어는 최대 표현 등변적 선형 레이어 LK→L의 입력과 출력을 적절하게 제한하고, 대부분의 파라미터들이 묶이고 줄어들어 L(:K)→(:L)로 이어지는 것을 관찰하는 것이다. 그러나, 레이어는 동일한 출력을 생성하므로 원래의 레이어 LK→L의 최대 표현을 유지한다.
등변적 하이퍼그래프 신경망(EHNN)
상기에서는 k ≤ K, l ≤ L에 대한 차수별 하위 레이어 L(k)→(l)을 구성하여 일반적인 무방향 하이퍼그래프들 L(:K)→(:L)에 대한 등변적 선형 레이어를 소개하고 최대 표현을 입증했다. 그러나 이러한 레이어는 차수들이 (K,L)을 초과하는 하이퍼그래프들을 입력하거나 출력할 수 없고 가중치들과 바이어스들의 수가 실제로 수백 개에 이를 수 있는 (K,L)까지 선형적으로 증가하기 때문에 실제로 사용하기에는 여전히 적합하지 않다. 문제를 공동으로 해결하기 위해, 하이퍼네트워크들을 통해 본질적으로 훈련 가능한 파라미터 공유를 도입하는 등변적 하이퍼그래프 신경망(EHNN)을 제안한다. 보다 구체적으로, 가중치들과 바이어스들에 대해 각각 두 개의 하이퍼네트워크들을 통해 L(:K)→(:L) 내 및 모든 하위 레이어 L(k)→(l)에 파라미터 공유를 도입한다. 결과적으로, 하이퍼네트워크들 W: N3 → Rd×d'와 B: N → Rd'는 첨자 ( ) 및 (l)로부터 각각 모든 가중치들 및 바이어스들 bl(상기 [수학식 5])을 추론하여 EHNN 레이어를 다음과 같이 정의한다:
원칙적으로, 이는 W와 B가 MLP로 파라미터화될 때 L(:K)→(:L)의 최대 표현을 유지한다. 보편적 근사에 의해 그들은 가중치들과 바이어스들에 첨자들을 매핑하는 모든 룩업 테이블을 학습할 수 있다. 또한 하이퍼네트워크들 W와 B는 임의의 고차간선 차수 ( )에 대한 가중치들을 생성할 수 있으므로 레이어 사양에서 고차간선 차수들의 경계를 제거하고 경계가 없거나 보이지 않는 고차간선 차수들이 있는 하이퍼그래프들에 경계 파라미터들이 있는 단일 EHNN 레이어를 사용할 수 있다. 결론적으로, EHNN 레이어는 임의 차수의 하이퍼그래프들을 구성으로 처리할 수 있으면서도 최대로 표현이 뛰어난 최초의 시도이다(즉, L(:K)→(:L)(정리 1)이고, 무방향 하이퍼그래프들에서 등변적 선형 레이어의 전체 공간을 소진할 수 있다).
EHNN의 실용화
상기 [수학식 6]의 EHNN 레이어는 개념적으로는 우아하지만, 실제로는 하이퍼네트워크 의 모든 출력 매트릭스들을 메모리에 명시적으로 보유해야 하기 때문에 비용이 많이 들 수 있다. 이는 최대한의 표현을 유지하면서 효율적으로 구현할 수 있는 EHNN의 보다 단순한 실현을 모색하도록 동기를 부여한다. 이를 위해 3개의 연속 MLP들을 활용하여 가중치 하이퍼네트워크의 역할을 근사화하는 EHNN-MLP를 제안하고, 자가 어텐션을 갖는 확장 EHNN-트랜스포머를 제안한다. 그런 다음 기존 메시지 패싱 하이퍼그래프 신경망들과 관련하여 EHNN-MLP와 EHNN-트랜스포머에 대한 비교 분석을 제공하여 섹션을 마친다.
MLP를 통한 실현. 먼저 3개의 요소별 MLP들이 φ1:3인 EHNN의 간단한 실현인 EHNN-MLP를 소개한다. 여기서, 각 는 보조 입력으로 양의 정수를 취한다. 여기서 직관은 하이퍼네트워크 가 있는 가중치 적용을 3개의 연속된 MLP들 로 분해하여 각 삼중항 에 대해 추론된 가중치들을 명시적으로 저장할 필요를 없애는 것이다. EHNN-MLP의 특징은 다음과 같다:
여기서, 간결성을 위해 출력 제약 조건 1|j|=l을 생략하고 로컬(I ≥ 1)과 글로벌(I = 0) 상호작용들을 함께 쓰기 위한 이진 스칼라 를 도입한다.
이제 EHNN-MLP 레이어가 모든 EHNN 레이어를 실현할 수 있음을 보여준다:
정리 2. EHNN-MLP 레이어(상기 [수학식 7])는 임의의 정밀도로 모든 EHNN 레이어(상기 [수학식 6])를 근사할 수 있다.
증명은 범용 근사 속성을 활용하여 MLP φ1:3으로 적절한 함수를 모델링하여 EHNN-MLP의 출력이 EHNN의 출력과 정확하게 근사하도록 한다. 결과적으로, EHNN-MLP를 사용하여, 이제 일반적인 무방향 하이퍼그래프들에 대한 최대 표현 선형 레이어를 근사화할 수 있는 실용적인 모델을 갖게 되었다.
MLP들 φ1:3의 구현에서 먼저 입력 차수(k, l 또는 )를 차수 임베딩이라는 연속 벡터로 변환하고 연결을 통해 입력 특징과 결합한다. 이러한 방식으로, 차수 임베딩은 입력 또는 출력 고차간선들의 차수를 나타내는 미묘한 차이가 있는 트랜스포머에서 사용되는 위치 인코딩과 유사하게 제공된다. 사인파 인코딩을 사용하여 효율성으로 인해 차수 임베딩을 얻고, 더 중요하게는 테스트에서 보이지 않는 고차간선들의 차수에 대한 외삽을 지원한다.
트랜스포머로서의 실현. EHNN-MLP(상기 [수학식 7])는 이론적으로 EHNN의 높은 표현을 이어받지만, 실제로 정적 합계 풀링은 입력 고차간선들의 상대적 중요성을 고려하여 제한될 수 있다. 이에 대한 해결책은 보다 정교한 풀링을 도입하는 것이다. 특히, 트랜스포머들의 어텐션 메커니즘은 입력 요소들의 동적 가중치를 통해 집합 및 (하이퍼)그래프 모델링에서 큰 성능 향상을 제공하는 것으로 나타났다. 따라서, 다중 헤드 어텐션 계수들 로 EHNN-MLP를 확장하고 EHNN의 고급 실현인 EHNN-트랜스포머를 도입한다:
여기서, 출력 제약 조건 1|j|=l과 바이어스 B(l)를 생략한다. H는 헤드들의 수를 나타내고 는 값 가중치 매트릭스를 나타낸다. 입력에서 어텐션 계수들 를 계산하기 위해 에 추가 쿼리 및 키 (하이퍼)네트워크들 도입하고 확장된 내적(dot-product) 어텐션을 다음과 같이 특성화한다:
여기서, σ(·)는 활성화를 나타내며, 종종 소프트맥스 정규화로 선택된다. 쿼리 Q( )는 집합 및 (하이퍼)그래프 어텐션에 대한 이전 작업을 따르는 출력 인덱스 j에 대해 독립적이다. 이러한 어텐션 선택 메커니즘은 출력(j)에 따라 입력(i)에 중요도를 할당하는 것이 간단하지 않다는 단점이 있지만, 확장성을 위해 선택한다.
메시지 패싱 네트워크들과의 비교. 하이퍼그래프들에 대한 기존 메시지 패싱 네트워크들과 관련하여 EHNN에 대한 비교 분석을 제공하여 섹션을 마친다. 특히 AllSet과 비교한다. AllSet은 대부분의 기존 하이퍼그래프 신경망들을 보완하는 매우 일반적인 프레임워크이기 때문이다. MLP 기반 특성화 AllDeepSet은 다음과 같이 두 개의 MLP들 φ1 및 φ2로 작성할 수 있다:
절제(ablation)을 통해 EHNN-MLP를 AllDeepSet으로 줄임으로써 다음을 보여준다:
정리 3. AllDeepSets 레이어(상기 [수학식 12])는 EHNN-MLP 레이어(상기 [수학식 7])의 특수한 경우이지만 그 반대는 사실이 아니다.
마지막으로 정리 3은 다음과 같은 결과로 이어진다:
따름정리 1. EHNN-MLP 레이어는 AllDeepSets 레이어 및 AllDeepSets가 수용하는 모든 하이퍼그래프 신경망보다 표현이 뛰어나다.
도 5는 다양한 실시예들에 따른 컴퓨터 장치(100)에서 등변적 하이퍼그래프 신경망(200)의 동작 방법을 도시하는 도면이다.
도 5를 참조하면, 컴퓨터 장치(100)는 등변적 하이퍼그래프 신경망(200)을 통해 고차 관계성을 나타내는 그래프 및 하이퍼그래프를 처리할 수 있다. 구체적으로, 등변적 하이퍼그래프 신경망(200)은 순열 변환 등변성에 기반하여 다양한 연산이 가능하되, 실세계 하이퍼그래프 데이터에 실용적으로 사용 가능하도록 높은 성능과 계산복잡도 상의 효율성, 그리고 입출력 가능한 차수에 제한이 없을 수 있다.
먼저, 510 단계에서, 등변적 하이퍼그래프 신경망(200)의 입력 전처리 모듈(210)이 입력되는 하이퍼그래프 데이터를 상이한 차수들의 희소 텐서들의 입력 시퀀스로 변환할 수 있다. 구체적으로, 입력 전처리 모듈(210)은 도 3에 도시된 바와 같이, 하이퍼그래프 데이터를 k-균일(uniform) 하이퍼그래프들의 시퀀스로 변환할 수 있다. 구체적으로, 입력 전처리 모듈(210)은 하이퍼그래프 데이터를 정점들의 시퀀스, 간선들의 시퀀스, 및 고차간선들의 시퀀스로 표현하고, 이 시퀀스들로 k-균일 하이퍼그래프들의 시퀀스로 표현할 수 있다. 그런 다음, 입력 전처리 모듈(210)은 도 3에 도시된 바와 같이, k-균일 하이퍼그래프들의 시퀀스를 대칭 텐서들의 시퀀스로 변환할 수 있다. 구체적으로, 입력 전처리 모듈(210)은 정점들의 시퀀스를 1차 텐서로 표현하고, 간선들의 시퀀스를 2차 텐서로 표현하고, 고차간선들의 시퀀스를 3차 텐서로 표현하고, 이 텐서들의 시퀀스를 표현할 수 있다.
다음으로, 520 단계에서, 등변적 하이퍼그래프 신경망(200)의 입력 하이퍼네트워크 모듈(220)이 입력 시퀀스를 차수에 따라 인코딩할 수 있다.
다음으로, 530 단계에서, 등변적 하이퍼그래프 신경망(200)의 중첩 기반 하부 레이어 모듈(230)이 입력 시퀀스를 이용하여 하이퍼그래프 상에서의 가중치 상호작용을 수행하여 출력 시퀀스를 생성할 수 있다. 이 때, 중첩 기반 하부 레이어 모듈(230)은 입력 시퀀스 내의 상이한 입력들로부터 출력 시퀀스 내의 하나의 출력에 대한 상호작용들에 대해, 상이한 가중치들을 부여하도록 구성될 수 있다. 가중치들은 입력들의 출력에 대한 중첩 정도에 따라 상이하게 결정될 수 있다. 여기서, 출력의 차수는 입력들의 차수보다 낮을 수 있다. 구체적으로, 도 4에 도시된 바와 같이, 입력들이 고차간선들인 경우, 출력은 간선이고, 가중치들은 고차간선들의 각각에서의 정점들과 간선의 정점들 사이의 중첩 정도에 따라, 상이하게 결정될 수 있다. 그리고, 중첩 기반 하부 레이어 모듈(230)은 각 고차간선에 대해 가중치를 기반으로 해당 고차간선의 중첩 정도에 따라 결정되는 상이한 상호작용들을 수행할 수 있다.
일 예로, 임의의 고차간선의 정점들 중 하나가 간선의 정점들 중 하나와 중첩되는 경우, 중첩 기반 하부 레이어 모듈(230)은 중첩 정도를 1로 결정하고, 해당 고차간선에 대해 중첩 정도가 1인 경우의 가중치(w1)를 부여하며, 이로써, 해당 고차간선에 대해 해당 가중치(w1)를 기반으로 로컬 상호작용을 수행할 수 있다. 다른 예로, 임의의 고차간선의 정점들 중 두 개가 간선의 정점들 중 두 개와 중첩되는 경우, 중첩 기반 하부 레이어 모듈(230)은 중첩 정도를 2로 결정하고, 해당 고차간선에 대해 중첩 정도가 2인 경우의 가중치(w2)를 부여하며, 이로써, 해당 고차간선에 대해 해당 가중치(w2)를 기반으로 로컬 상호작용을 수행할 수 있다. 또 다른 예로, 임의의 고차간선의 정점들 중 어떤 것도 간선의 정점들과 중첩되지 않는 경우, 중첩 기반 하부 레이어 모듈(230)은 중첩 정도를 0으로 결정하고, 해당 고차간선에 대해 중첩 정도가 0인 경우의 가중치(w0)를 부여하며, 이로써 해당 고차간선에 대해 해당 가중치(w0)를 기반으로 글로벌 상호작용을 수행할 수 있다.
다음으로, 540 단계에서, 등변적 하이퍼그래프 신경망(200)의 출력 하이퍼네트워크 모듈(240)이 출력 시퀀스를 차수에 따라 디코딩할 수 있다.
이와 같은 방식으로, 하이퍼그래프는 복수의 등변적 하이퍼그래프 신경망(200)들을 통과할 수 있으며, 이로써, 일차 텐서가 출력될 수 있다. 일차 텐서는 정점마다 할당된 특징 벡터의 집합을 표현하기 때문에, 각 정점의 벡터를 선형 분류기에 통과시켜 정점의 카테고리를 분류할 수 있다. 여기에 사용된 모든 신경망 파라미터는 교차 엔트로피 손실 함수와 역전파 기반 경사하강법을 통하여 학습될 수 있다.
본 개시는, 순열 변환 등변성에 기반한 그래프 및 하이퍼그래프를 위한 등변적 하이퍼그래프 신경망(200)에 의해 다음과 같은 효과들을 달성할 수 있다.
첫째, 본 개시는 하이퍼그래프 데이터를 입출력하도록 설계됨으로써, 임의의 차수의 관계성 데이터를 다루거나 변환하기 위한 통일된 모델 프레임워크로 기능하는 효과를 가질 수 있다.
둘째, 본 개시는 순열 변환 등변적 선형 레이어를 기반으로 설계되어 그들의 강점을 상속하므로 현재까지 개발된 메시지 패싱 기반의 하이퍼그래프 신경망보다 이론적으로 높은 표현력을 가질 수 있다.
셋째, 본 개시는 서로 다른 차수의 희소 텐서들의 시퀀스에 기반해 동작함으로써, 등변적 선형 레이어들의 문제였던 높은 계산복잡도와 차수의 제한을 해결하여 입출력의 차수가 제한되지 않으면서 계산의 효율성이 극대화되는 효과를 가질 수 있다.
넷째, 본 개시는 자가 어텐션 메커니즘에 기반해 동적으로 하이퍼그래프 위에서의 가중치 상호작용을 수행함으로써 더욱 높은 모델링 성능과 확장성을 갖추는 효과를 가질 수 있다.
요컨대, 본 개시는 그래프 및 하이퍼그래프 처리를 위한 등변적 하이퍼그래프 신경망(200)을 갖는 컴퓨터 장치(100) 및 그의 방법을 제공한다.
본 개시에 따르면, 컴퓨터 장치(100)는 적어도 하나의 등변적 하이퍼그래프 신경망(200)을 갖고, 각 등변적 하이퍼그래프 신경망(200)은, 입력되는 하이퍼그래프 데이터를 상이한 차수들의 희소 텐서들의 입력 시퀀스로 변환하도록 구성되는 입력 전처리 모듈(210), 입력 시퀀스를 차수에 따라 인코딩하도록 구성되는 입력 하이퍼네트워크 모듈(220), 입력 시퀀스를 이용하여 하이퍼그래프 상에서의 가중치 상호작용을 수행하여 출력 시퀀스를 생성하도록 구성되는 중첩 기반 하부 레이어 모듈(230), 및 출력 시퀀스를 차수에 따라 디코딩하도록 구성되는 출력 하이퍼네트워크 모듈(240)을 포함할 수 있다.
다양한 실시예들에 따르면, 중첩 기반 하부 레이어 모듈(230)은, 입력 시퀀스 내의 상이한 입력들로부터 출력 시퀀스 내의 하나의 출력에 대한 상호작용들에 대해, 상이한 가중치들을 부여하도록 구성될 수 있다.
다양한 실시예들에 따르면, 가중치들은 입력들의 출력에 대한 중첩 정도에 따라, 상이하게 결정될 수 있다.
다양한 실시예들에 따르면, 출력의 차수는 입력들의 차수보다 낮을 수 있다.
다양한 실시예들에 따르면, 입력들이 고차간선들인 경우, 출력은 간선이고, 가중치들은 고차간선들의 각각에서의 정점들과 간선의 정점들 사이의 중첩 정도에 따라, 상이하게 결정될 수 있다.
다양한 실시예들에 따르면, 하이퍼그래프 데이터는 복수의 등변적 하이퍼그래프 신경망(200)들을 통과하며, 이로써, 일차 텐서가 출력될 수 있다.
본 개시에 따르면, 컴퓨터 장치(100)에서 구현되는 등변적 하이퍼그래프 신경망(200)의 동작 방법은, 입력되는 하이퍼그래프 데이터를 상이한 차수들의 희소 텐서들의 입력 시퀀스로 변환하는 단계(510 단계), 입력 시퀀스를 차수에 따라 인코딩하는 단계(520 단계), 입력 시퀀스를 이용하여 하이퍼그래프 상에서의 가중치 상호작용을 수행하여 출력 시퀀스를 생성하는 단계(530 단계), 및 출력 시퀀스를 차수에 따라 디코딩하는 단계(540 단계)를 포함할 수 있다.
다양한 실시예들에 따르면, 출력 시퀀스를 생성하는 단계(530 단계)는, 입력 시퀀스 내의 상이한 입력들로부터 출력 시퀀스 내의 하나의 출력에 대한 상호작용들에 대해, 상이한 가중치들을 부여하여, 출력 시퀀스를 생성하는 단계를 포함할 수 있다.
이상에서 설명된 장치는 하드웨어 구성 요소, 소프트웨어 구성 요소, 및/또는 하드웨어 구성 요소 및 소프트웨어 구성 요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성 요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성 요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
다양한 실시예들에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이 때 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 그리고, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.
본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성 요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및/또는 B 중 적어도 하나", "A, B 또는 C" 또는 "A, B 및/또는 C 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", "첫째" 또는 "둘째" 등의 표현들은 해당 구성 요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성 요소를 다른 구성 요소와 구분하기 위해 사용될 뿐 해당 구성 요소들을 한정하지 않는다. 어떤(예: 제 1) 구성 요소가 다른(예: 제 2) 구성 요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성 요소가 상기 다른 구성 요소에 직접적으로 연결되거나, 다른 구성 요소(예: 제 3 구성 요소)를 통하여 연결될 수 있다.
다양한 실시예들에 따르면, 기술한 구성 요소들의 각각의 구성 요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있다. 다양한 실시예들에 따르면, 전술한 해당 구성 요소들 중 하나 이상의 구성 요소들 또는 단계들이 생략되거나, 또는 하나 이상의 다른 구성 요소들 또는 단계들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성 요소들(예: 모듈 또는 프로그램)은 하나의 구성 요소로 통합될 수 있다. 이런 경우, 통합된 구성 요소는 복수의 구성 요소들 각각의 구성 요소의 하나 이상의 기능들을 통합 이전에 복수의 구성 요소들 중 해당 구성 요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 단계들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 단계들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 단계들이 추가될 수 있다.

Claims (10)

  1. 적어도 하나의 등변적 하이퍼그래프 신경망을 갖는 컴퓨터 장치에 있어서,
    각 등변적 하이퍼그래프 신경망은,
    입력되는 하이퍼그래프 데이터를 정점들의 시퀀스, 간선들의 시퀀스, 및 고차간선들의 시퀀스로 표현하고, 상기 정점들의 시퀀스, 간선들의 시퀀스, 및 고차간선들의 시퀀스를 이용하여 k-균일 하이퍼그래프들의 시퀀스로 표현하며, 상기 정점들의 시퀀스를 1차 텐서로 변환하고, 상기 간선들의 시퀀스를 2차 텐서로 변환하며, 상기 고차간선들의 시퀀스를 3차 텐서로 변환함으로써 상기 입력되는 하이퍼그래프 데이터를 상이한 차수들의 희소 텐서들의 입력 시퀀스로 변환하도록 구성되는 입력 전처리 모듈;
    상기 1차 텐서로 변환된 상기 정점들의 시퀀스, 상기 2차 텐서로 변환된 상기 간선들의 시퀀스 및 상기 3차 텐서로 변환된 상기 고차간선들의 시퀀스를 포함하는 상기 입력 시퀀스를 차수에 따라 상기 정점들의 시퀀스, 상기 간선들의 시퀀스 및 상기 고차간선들의 시퀀스가 갖는 특징 각각을 인코딩하도록 구성되는 입력 하이퍼네트워크 모듈;
    상기 입력 시퀀스를 이용하여 상기 등변적 하이퍼그래프 신경망 상에서의 가중치 상호작용을 수행하여 출력 시퀀스를 생성하도록 구성되는 중첩 기반 하부 레이어 모듈; 및
    상기 출력 시퀀스를 차수에 따라 디코딩하도록 구성되는 출력 하이퍼네트워크 모듈
    을 포함하고,
    상기 중첩 기반 하부 레이어 모듈은
    상기 입력 시퀀스 내의 상이한 입력들로부터 상기 출력 시퀀스 내의 하나의 출력에 대한 상호작용들에 대해, 상이한 가중치들을 부여하도록 구성되며,
    상기 가중치들은 상기 입력들의 상기 출력에 대한 중첩 정도에 따라, 상이하게 결정되는,
    컴퓨터 장치.
  2. 삭제
  3. 삭제
  4. 제 1 항에 있어서,
    상기 출력의 차수는 상기 입력들의 차수보다 낮은,
    컴퓨터 장치.
  5. 제 4 항에 있어서,
    상기 입력들이 고차간선들인 경우, 상기 출력은 간선이고, 상기 가중치들은 상기 고차간선들의 각각에서의 정점들과 상기 간선의 정점들 사이의 중첩 정도에 따라, 상이하게 결정되는,
    컴퓨터 장치.
  6. 제 1 항에 있어서,
    상기 하이퍼그래프 데이터는 복수의 등변적 하이퍼그래프 신경망들을 통과하며, 이로써, 일차 텐서가 출력되는,
    컴퓨터 장치.
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
KR1020230055368A 2023-04-27 2023-04-27 그래프 및 하이퍼그래프 처리를 위한 등변적 하이퍼그래프 신경망을 갖는 컴퓨터 장치 및 그의 방법 KR102659172B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230055368A KR102659172B1 (ko) 2023-04-27 2023-04-27 그래프 및 하이퍼그래프 처리를 위한 등변적 하이퍼그래프 신경망을 갖는 컴퓨터 장치 및 그의 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230055368A KR102659172B1 (ko) 2023-04-27 2023-04-27 그래프 및 하이퍼그래프 처리를 위한 등변적 하이퍼그래프 신경망을 갖는 컴퓨터 장치 및 그의 방법

Publications (1)

Publication Number Publication Date
KR102659172B1 true KR102659172B1 (ko) 2024-04-22

Family

ID=90881361

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230055368A KR102659172B1 (ko) 2023-04-27 2023-04-27 그래프 및 하이퍼그래프 처리를 위한 등변적 하이퍼그래프 신경망을 갖는 컴퓨터 장치 및 그의 방법

Country Status (1)

Country Link
KR (1) KR102659172B1 (ko)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5712793A (en) * 1995-11-20 1998-01-27 Lsi Logic Corporation Physical design automation system and process for designing integrated circuit chips using fuzzy cell clusterization
KR20130085697A (ko) * 2012-01-20 2013-07-30 한국과학기술원 고차 상관 클러스터링을 이용한 이미지 분할 방법, 이를 처리하는 시스템 및 기록매체
KR101965277B1 (ko) * 2018-08-10 2019-04-03 주식회사 비트나인 하이퍼그래프 데이터 분석 시스템 및 방법과, 이를 위한 컴퓨터 프로그램
US20210241067A1 (en) * 2020-02-05 2021-08-05 Facebook, Inc. Hyper-Graph Network Decoders for Algebraic Block Codes
US20210256368A1 (en) * 2020-02-16 2021-08-19 International Business Machines Corporation Training a neural network to create an embedding for an unlabeled vertex in a hypergraph
US20230037388A1 (en) * 2021-07-16 2023-02-09 Tata Consultancy Services Limited System and method for molecular property prediction using hypergraph message passing neural network (hmpnn)
CN115906954A (zh) * 2022-12-09 2023-04-04 北京数洋智慧科技有限公司 一种基于图神经网络的多变量时间序列预测方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5712793A (en) * 1995-11-20 1998-01-27 Lsi Logic Corporation Physical design automation system and process for designing integrated circuit chips using fuzzy cell clusterization
KR20130085697A (ko) * 2012-01-20 2013-07-30 한국과학기술원 고차 상관 클러스터링을 이용한 이미지 분할 방법, 이를 처리하는 시스템 및 기록매체
KR101965277B1 (ko) * 2018-08-10 2019-04-03 주식회사 비트나인 하이퍼그래프 데이터 분석 시스템 및 방법과, 이를 위한 컴퓨터 프로그램
US20210241067A1 (en) * 2020-02-05 2021-08-05 Facebook, Inc. Hyper-Graph Network Decoders for Algebraic Block Codes
US20210256368A1 (en) * 2020-02-16 2021-08-19 International Business Machines Corporation Training a neural network to create an embedding for an unlabeled vertex in a hypergraph
US20230037388A1 (en) * 2021-07-16 2023-02-09 Tata Consultancy Services Limited System and method for molecular property prediction using hypergraph message passing neural network (hmpnn)
CN115906954A (zh) * 2022-12-09 2023-04-04 北京数洋智慧科技有限公司 一种基于图神经网络的多变量时间序列预测方法及装置

Similar Documents

Publication Publication Date Title
Chen et al. Equivalence of restricted Boltzmann machines and tensor network states
Mütter et al. Deep learning in the heterotic orbifold landscape
Shenvi et al. Quantum random-walk search algorithm
US20200210840A1 (en) Adjusting precision and topology parameters for neural network training based on a performance metric
US11562279B2 (en) Apparatus and methods for quantum computing and machine learning
Zheng et al. Speeding up learning quantum states through group equivariant convolutional quantum ansätze
US11562247B2 (en) Neural network activation compression with non-uniform mantissas
WO2020142192A1 (en) Neural network activation compression with narrow block floating-point
EP3906616A1 (en) Neural network activation compression with outlier block floating-point
Kepner et al. Enabling massive deep neural networks with the GraphBLAS
Nichele et al. Deep learning with cellular automaton-based reservoir computing
Biamonte et al. Tensor network methods for invariant theory
Nichele et al. Deep reservoir computing using cellular automata
Drakopoulos et al. Evaluating graph resilience with tensor stack networks: A keras implementation
Geng et al. Differentiable programming of isometric tensor networks
CN113962262B (zh) 一种基于连续学习的雷达信号智能分选方法
Melzer et al. Exploring characteristics of neural network architecture computation for enabling SAR ATR
Peddireddy et al. Classical simulation of variational quantum classifiers using tensor rings
Zhao et al. QSAN: A near-term achievable quantum self-attention network
KR102659172B1 (ko) 그래프 및 하이퍼그래프 처리를 위한 등변적 하이퍼그래프 신경망을 갖는 컴퓨터 장치 및 그의 방법
Vadiyala et al. Exploring the Symbiosis: Dynamic Programming and its Relationship with Data Structures
Matwiejew et al. QSW_MPI: a framework for parallel simulation of quantum stochastic walks
Das et al. The role of data embedding in equivariant quantum convolutional neural networks
CN114511092B (zh) 一种基于量子线路的图注意力机制实现方法
JP2002042104A (ja) 量子ソフトコンピューティングを使用した制御システムと制御方法

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant