KR102593832B1 - 과적합 없는 단일 신경망 기반 다중 도메인 적응 학습을 위한 컴퓨터 시스템, 및 그의 방법 - Google Patents
과적합 없는 단일 신경망 기반 다중 도메인 적응 학습을 위한 컴퓨터 시스템, 및 그의 방법 Download PDFInfo
- Publication number
- KR102593832B1 KR102593832B1 KR1020200183859A KR20200183859A KR102593832B1 KR 102593832 B1 KR102593832 B1 KR 102593832B1 KR 1020200183859 A KR1020200183859 A KR 1020200183859A KR 20200183859 A KR20200183859 A KR 20200183859A KR 102593832 B1 KR102593832 B1 KR 102593832B1
- Authority
- KR
- South Korea
- Prior art keywords
- data sets
- shared information
- data
- computer system
- neural network
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 31
- 238000012549 training Methods 0.000 title description 2
- 239000000284 extract Substances 0.000 claims description 20
- 238000013527 convolutional neural network Methods 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 11
- 230000003595 spectral effect Effects 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 abstract description 6
- 238000004891 communication Methods 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 230000006978 adaptation Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 238000011161 development Methods 0.000 description 9
- 238000013473 artificial intelligence Methods 0.000 description 7
- 238000013145 classification model Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000013519 translation Methods 0.000 description 3
- 238000003759 clinical diagnosis Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 208000025721 COVID-19 Diseases 0.000 description 1
- 208000035473 Communicable disease Diseases 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/10—Interfaces, programming languages or software development kits, e.g. for simulating neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
다양한 실시예들은 과적합 없는 단일 신경망 기반 다중 도메인 적응 학습을 위한 컴퓨터 시스템, 및 그의 방법에 관한 것으로, 복수의 도메인들의 데이터 셋들을 정규화하고, 정규화된 데이터 셋들 사이에서 공유되는 공유 정보를 추출하고, 추출된 공유 정보를 기반으로 학습을 수행하여, 학습 모델을 구현하고, 목표 도메인에 대해, 학습 모델을 이식하도록 구성될 수 있다.
Description
다양한 실시예들은 과적합 없는 단일 신경망 기반 다중 도메인 적응 학습을 위한 컴퓨터 시스템, 및 그의 방법에 관한 것이다.
딥러닝 학습과 같은 전통적 머신 러닝 방식은 단일 도메인(domain)에 한정되어 있다. 특정 도메인 데이터를 통해 학습시킨 모델은 곧 과적합(overfitting)되어 타 도메인에 활용할 수 없다. 따라서, 타 도메인에서의 활용을 위해 완전한 데이터(labeled data)를 추가로 필요로 하며 이 과정에서 막대한 비용이 발생된다.
위와 같은 문제를 해결하기 위해, 기존 도메인의 완전한 데이터 및 목표 도메인의 불완전 데이터를 이용하여 목표 도메인에서의 성능 향상을 목표로 하는 도메인 적응(domain adaptation) 방법론이 연구되어 왔다. 그러나, 데이터가 여러 도메인에서 동시에 수집된 경우는 고려되지 않아 확장성이 크게 떨어지고, 도메인에서 공통적으로 활용 가능한 정보를 한 번에 추출할 수 없다.
다양한 실시예들은, 단일 신경망을 이용하여, 복수의 도메인들의 데이터 셋들을 한 번에 학습할 수 있는 컴퓨터 시스템 및 그의 방법을 제공한다.
다양한 실시예들은, 과적합 없이, 도메인들 사이에 공유되는 공유 정보를 추출하고, 공유 정보를 학습할 수 있는 컴퓨터 시스템 및 그의 방법을 제공한다.
다양한 실시예들에 따른 컴퓨터 시스템에 의한 방법은, 복수의 도메인들의 데이터 셋들을 정규화하는 단계, 상기 정규화된 데이터 셋들 사이에서 공유되는 공유 정보를 추출하는 단계, 및 상기 추출된 공유 정보를 기반으로 학습을 수행하여, 학습 모델을 구현하는 단계를 포함할 수 있다.
다양한 실시예들에 따른 컴퓨터 시스템은, 메모리, 및 상기 메모리와 연결되고, 상기 메모리에 저장된 적어도 하나의 명령을 실행하도록 구성된 프로세서를 포함하고, 상기 프로세서는, 복수의 도메인들의 데이터 셋들을 정규화하고, 상기 정규화된 데이터 셋들 사이에서 공유되는 공유 정보를 추출하고, 상기 추출된 공유 정보를 기반으로 학습을 수행하여, 학습 모델을 구현하도록 구성될 수 있다.
다양한 실시예들에 따른 비-일시적인 컴퓨터-판독 가능 저장 매체는, 복수의 도메인들의 데이터 셋들을 정규화하는 단계, 상기 정규화된 데이터 셋들 사이에서 공유되는 공유 정보를 추출하는 단계, 및 상기 추출된 공유 정보를 기반으로 학습을 수행하여, 학습 모델을 구현하는 단계를 실행하기 위한 하나 이상의 프로그램들을 저장할 수 있다.
다양한 실시예들에 따르면, 컴퓨터 시스템은 다수의 도메인들의 데이터 셋들을 정규화한 후에 데이터 셋들로부터 학습 모델을 구현하므로, 학습 모델의 도메인들 중 일부에 대한 과적합을 방지할 수 있다.
다양한 실시예들에 따르면, 컴퓨터 시스템은 다수의 도메인들의 데이터 셋들 사이에서 공유되는 공유 정보를 기반으로 학습 모델을 구현하므로, 단일 신경망으로도, 즉 다른 신경망의 추가 없이, 학습 모델을 구현할 수 있다.
다양한 실시예들에 따르면, 컴퓨터 시스템은 데이터 셋들을 정규화할 때 데이터 셋들의 각각으로부터 추출하기 위한 특징 데이터의 복잡도를 강화시킴에 따라, 구현되는 학습 모델이 보다 향상된 성능을 가질 수 있다. 즉, 데이터 셋들이 정규화될 때 데이터 셋들로부터 추출되는 특징 데이터가 단순화되는, 문제가 방지될 수 있다.
도 1은 다양한 실시예들에 따른 컴퓨터 시스템을 도시하는 도면이다.
도 2는 도 1의 컴퓨터 시스템의 동작 특징을 개념적으로 설명하기 위한 도면이다.
도 3은 도 1의 컴퓨터 시스템의 동작 특징을 예시적으로 설명하기 위한 도면이다.
도 4은 다양한 실시예들에 따른 컴퓨터 시스템에 의한 방법을 도시하는 도면이다.
도 5a, 도 5b, 도 5c, 도 6a, 도 6b, 도 7a 및 도 7b는 다양한 실시예들에 따른 컴퓨터 시스템의 동작 성능을 설명하기 위한 도면들이다.
도 2는 도 1의 컴퓨터 시스템의 동작 특징을 개념적으로 설명하기 위한 도면이다.
도 3은 도 1의 컴퓨터 시스템의 동작 특징을 예시적으로 설명하기 위한 도면이다.
도 4은 다양한 실시예들에 따른 컴퓨터 시스템에 의한 방법을 도시하는 도면이다.
도 5a, 도 5b, 도 5c, 도 6a, 도 6b, 도 7a 및 도 7b는 다양한 실시예들에 따른 컴퓨터 시스템의 동작 성능을 설명하기 위한 도면들이다.
이하, 본 문서의 다양한 실시예들이 첨부된 도면을 참조하여 설명된다.
기존 딥러닝 분야에서는 부족한 데이터를 보완하고 보다 일반화 가능한 모델을 얻기 위하여, 학습된 모델을 다른 도메인으로 이식시키는 적대적 도메인 적응(adversarial domain adaptation) 방법론이 연구되어 왔다. 이를 위해서는 기존 도메인과 목표 도메인의 정보를 분류하는 도메인 분류 모델을 필요로 한다. 그러나, 기존 방법론은 활용 가능한 기존 도메인이 여러 개인 일반적인 상황에서 1) 컴퓨팅 자원 활용의 효율성과 2) 정보 추출 능력이 크게 떨어지게 된다. 가령 빅 데이터가 주어져 활용 가능한 기존 도메인이 기하급수적으로 증가할 때, 이에 따라 늘어나는 도메인 분류 모델 및 이에 따른 컴퓨팅 자원을 감당하기 어렵다. 또한 통일되지 않은 각각의 도메인 분류 모델은 인코딩하는 정보가 서로 독립적이기 때문에, 여러 도메인에서 상호보완적으로 활용 가능한 정보를 인코딩할 수 없으며 이로 인해 주어진 다중 도메인 데이터에 숨어 있는 공통적인 기본 원리 파악이 어렵다.
이러한 문제점은 정보 이론에 기반으로 한 다중 도메인 적응 모델의 개발을 통해 해결할 수 있다. (1) 기존 도메인 적응을 도메인과 추출 특징 간의 상호 정보량 정규화 과정으로 해석함으로써 여러 도메인을 한 번에 분류하는 통일된 모델의 이론적 배경을 제시한다. (2) 나아가 합성곱 신경망을 기반으로 단일 도메인 분류 모델을 제안한다. 이는 대량의 기존 도메인 데이터를 제한 없이 활용할 수 있을 뿐만 아니라, 특정 도메인에 국한되지 않는 유용한 정보를 인코딩함으로써 도메인 간의 기초 지식을 공유할 수 있게 된다. (3) 또한 기존 도메인 적응 방식이 상호 정보량을 제한함에 따라 발생하는 추출 특징의 단순화 문제를 해결하기 위해서 점진적 추출 특징 복잡도 개선 알고리즘을 개발한다. 이를 통해 기존 학습된 도메인에 대한 성능 저하의 위험 없이 목표 도메인으로 이식이 가능하다.
다양한 실시예들은 다중 도메인의 데이터에 대한 일괄적 정보 처리 및 인코딩 시스템으로써, 과적합의 위험 없이 목표 도메인으로 모델을 이식하는 기술에 대해 다룬다. 이러한 단일 도메인 분류 신경망에 대한 기술은 다중 작업이 가능한 메타 인공 지능 개발에 있어서 핵심적인 기술이다. 또한 추가적인 데이터 생성, 네트워크 확장 및 추가, 사전 학습 등이 필요 없다는 점에서 유연성이 높으며 유사 연구 사례가 없는 기술이다.
다양한 실시예들은, (1) 활용 가능한 도메인 데이터를 모두 사용하여 정보를 인코딩하고, (2) 추출한 정보를 목표 도메인에 성공적으로 이식할 수 있으며, (3) 그 과정에서 모델의 단순화 위험 없이 학습이 가능한 기술이다.
도 1은 다양한 실시예들에 따른 컴퓨터 시스템(100)을 도시하는 도면이다. 도 2는 도 1의 컴퓨터 시스템(100)의 동작 특징을 개념적으로 설명하기 위한 도면이다. 도 3은 도 1의 컴퓨터 시스템(100)의 동작 특징을 예시적으로 설명하기 위한 도면이다.
도 1을 참조하면, 다양한 실시예들에 따른 컴퓨터 시스템(100)은, 입력 모듈(110), 출력 모듈(120), 메모리(130), 또는 프로세서(140) 중 적어도 하나를 포함할 수 있다. 어떤 실시예에서, 컴퓨터 시스템(100)의 구성 요소들 중 적어도 하나가 생략될 수 있으며, 적어도 하나의 다른 구성 요소가 추가될 수 있다. 어떤 실시예에서, 컴퓨터 시스템(100)의 구성 요소들 중 적어도 두 개가 하나의 통합된 회로로 구현될 수 있다. 이 때 컴퓨터 시스템(100)은 적어도 하나의 장치, 예컨대 적어도 하나의 서버(server) 또는 적어도 하나의 전자 장치(electronic device) 중 적어도 하나로 이루어질 수 있다. 어떤 실시예에서, 컴퓨터 시스템(100)이 복수의 장치들을 포함하는 경우, 컴퓨터 시스템(100)의 구성 요소들은 장치들 중 하나에 구성되거나, 장치들 중 적어도 두 개에 분산되어 구성될 수 있다.
입력 모듈(110)은 컴퓨터 시스템(100)의 적어도 하나의 구성 요소에 사용될 신호를 입력할 수 있다. 입력 모듈(110)은, 사용자가 컴퓨터 시스템(100)에 직접적으로 신호를 입력하도록 구성되는 입력 장치, 주변의 변화를 감지하여 신호를 발생하도록 구성되는 센서 장치, 또는 외부 기기로부터 신호를 수신하도록 구성되는 수신 장치 중 적어도 하나를 포함할 수 있다. 예를 들면, 입력 장치는 마이크로폰(microphone), 마우스(mouse) 또는 키보드(keyboard) 중 적어도 하나를 포함할 수 있다. 어떤 실시예에서, 입력 장치는 터치를 감지하도록 설정된 터치 회로(touch circuitry) 또는 터치에 의해 발생되는 힘의 세기를 측정하도록 설정된 센서 회로 중 적어도 하나를 포함할 수 있다.
출력 모듈(120)은 컴퓨터 시스템(100)의 외부로 정보를 출력할 수 있다. 출력 모듈(120)은, 정보를 시각적으로 출력하도록 구성되는 표시 장치, 정보를 오디오 신호로 출력할 수 있는 오디오 출력 장치, 또는 정보를 무선으로 송신할 수 있는 송신 장치 중 적어도 하나를 포함할 수 있다. 예를 들면, 표시 장치는 디스플레이, 홀로그램 장치 또는 프로젝터 중 적어도 하나를 포함할 수 있다. 일 예로, 표시 장치는 입력 모듈(110)의 터치 회로 또는 센서 회로 중 적어도 하나와 조립되어, 터치 스크린으로 구현될 수 있다. 예를 들면, 오디오 출력 장치는 스피커 또는 리시버 중 적어도 하나를 포함할 수 있다.
일 실시예에 따르면, 수신 장치와 송신 장치는 통신 모듈로 구현될 수 있다. 통신 모듈은 컴퓨터 시스템(100)에서 외부 기기와 통신을 수행할 수 있다. 통신 모듈은 컴퓨터 시스템(100)와 외부 기기 간 통신 채널을 수립하고, 통신 채널을 통해, 외부 기기와 통신을 수행할 수 있다. 여기서, 외부 기기는 위성, 기지국, 서버 또는 다른 컴퓨터 시스템 중 적어도 하나를 포함할 수 있다. 통신 모듈은 유선 통신 모듈 또는 무선 통신 모듈 중 적어도 하나를 포함할 수 있다. 유선 통신 모듈은 외부 기기와 유선으로 연결되어, 유선으로 통신할 수 있다. 무선 통신 모듈은 근거리 통신 모듈 또는 원거리 통신 모듈 중 적어도 하나를 포함할 수 있다. 근거리 통신 모듈은 외부 기기와 근거리 통신 방식으로 통신할 수 있다. 예를 들면, 근거리 통신 방식은, 블루투스(Bluetooth), 와이파이 다이렉트(WiFi direct), 또는 적외선 통신(IrDA; infrared data association) 중 적어도 하나를 포함할 수 있다. 원거리 통신 모듈은 외부 기기와 원거리 통신 방식으로 통신할 수 있다. 여기서, 원거리 통신 모듈은 네트워크를 통해 외부 기기와 통신할 수 있다. 예를 들면, 네트워크는 셀룰러 네트워크, 인터넷, 또는 LAN(local area network)이나 WAN(wide area network)과 같은 컴퓨터 네트워크 중 적어도 하나를 포함할 수 있다.
메모리(130)는 컴퓨터 시스템(100)의 적어도 하나의 구성 요소에 의해 사용되는 다양한 데이터를 저장할 수 있다. 예를 들면, 메모리(130)는 휘발성 메모리 또는 비휘발성 메모리 중 적어도 하나를 포함할 수 있다. 데이터는 적어도 하나의 프로그램 및 이와 관련된 입력 데이터 또는 출력 데이터를 포함할 수 있다. 프로그램은 메모리(130)에 적어도 하나의 명령을 포함하는 소프트웨어로서 저장될 수 있으며, 운영 체제, 미들 웨어 또는 어플리케이션 중 적어도 하나를 포함할 수 있다.
프로세서(140)는 메모리(130)의 프로그램을 실행하여, 컴퓨터 시스템(100)의 적어도 하나의 구성 요소를 제어할 수 있다. 이를 통해, 프로세서(140)는 데이터 처리 또는 연산을 수행할 수 있다. 이 때 프로세서(140)는 메모리(130)에 저장된 명령을 실행할 수 있다.
다양한 실시예들에 따르면, 프로세서(140)는 복수의 도메인들의 데이터 셋들을 정규화(regularization)할 수 있다. 도메인들 중 일부에 대한 과적합(overfitting)을 방지하기 위해, 프로세서(140)는 도메인들의 데이터 셋들을 정규화할 수 있다. 즉, 프로세서(140)는, 도 2에 도시된 바와 같은 과적합 방지를 위한 정보 이론을 기반으로, 데이터 셋들을 정규화(I(Z; V))할 수 있다. 이 때 프로세서(140)는 데이터 셋들의 각각으로부터, 정규화된 정보량의 특징 데이터를 추출할 수 있다. 예를 들면, 프로세서(140)는 분류기(classifier)를 포함하고, 분류기는, 도 3에 도시된 바와 같이 데이터 셋들의 각각으로부터, 특징 데이터(L(F, C))를 추출할 수 있다.
어떤 실시예들에 따르면, 프로세서(140)는 추출하기 위한 특징 데이터에 대한 복잡도를 강화하면서, 데이터 셋들의 각각으로부터 특징 데이터를 추출할 수 있다. 일 실시예에 따르면, 프로세서(140)는 복잡도를 점진적으로 강화할 수 있다. 여기서, 프로세서(140)는 BSP(Batch Spectral Penalization) 알고리즘을 이용하여, 복잡도를 강화할 수 있다. 일 예로, 프로세서(140)는 디케잉(decaying) BSP 알고리즘을 이용하여, 복잡도를 강화할 수 있다. 이를 통해, 데이터 셋들을 정규화함에 따라 발생 가능한 적어도 하나의 문제가 방지될 수 있다. 예를 들면, 데이터 셋들이 정규화될 때 데이터 셋들로부터 추출되는 특징 데이터가 단순화되는, 문제가 방지될 수 있다.
다양한 실시예들에 따르면, 프로세서(140)는 데이터 셋들 사이에서 공유되는 공유 정보를 추출할 수 있다. 프로세서(140)는 단일 신경망(neural network)을 통해, 데이터 셋들 사이에서 공유 정보를 추출할 수 있다. 일 실시예에 따르면, 단일 신경망은 합성곱 신경망(Convolutional Neural Network; CNN)일 수 있다. 즉, 프로세서(140)는, 도 2에 도시된 바와 같이 복수의 도메인들에 대해, 공유 정보를 추출할 수 있다. 도 2에서, 타원들은 도메인들 또는 도메인들의 데이터 셋들을 각각 나타낼 수 있으며, 도메인들에 대응하는 타원들이 실질적으로 도 2의 (a)에 도시된 바와 같이 개별적으로 존재할 수 있다. 이러한 경우, 프로세서(140)는, 도 2의 (b)에 도시된 바와 같이 데이터 셋들을 분석하면서, 도메인들에 대응하는 타원들을 정렬시키고, 결과적으로 도 2의 (c)에 도시된 바와 같이 도메인들에 대응하는 타원들을 중첩시킬 수 있다. 여기서, 타원들이 중첩되는 영역이 데이터 셋들의 공유 정보를 나타낼 수 있다. 이러한 방식으로, 프로세서(140)는 데이터 셋들의 공유 정보를 추출할 수 있다. 예를 들면, 프로세서(140)는, 도 3에 도시된 바와 같이 인코더(encoder)를 포함하고, 인코더는 단일 신경망을 통해 데이터 셋들을 인코딩하여, 공유 정보를 추출할 수 있다. 이 때 프로세서(140)는 데이터 셋들의 각각으로부터의 특징 데이터를 기반으로, 공유 정보를 추출할 수 있다.
다양한 실시예들에 따르면, 프로세서(140)는 공유 정보를 기반으로 학습을 수행하여, 학습 모델을 구현할 수 있다. 이를 통해, 프로세서(140)는 복수의 도메인들과 관련하여, 학습 모델을 구현할 수 있다. 즉, 프로세서(140)는 도메인들 중 일부에 국한되지 않고, 모든 도메인들과 관련하여, 학습 모델을 구현할 수 있다. 예를 들면, 프로세서(140)는, 도 3에 도시된 바와 같이 단일 판별기(discriminator)를 포함하고, 단일 판별기는 공유 정보를 기반으로 적대적 학습을 수행할 수 있다. 이에 따라, 컴퓨터 시스템(100)은 적대적 적응 학습(adversarial adaptation training)을 통해 복수의 도메인들에 대한 학습 모델을 구현할 수 있다.
다양한 실시예들에 따르면, 프로세서(140)는 목표 도메인에 대해, 학습 모델을 이식할 수 있다. 이를 통해, 목표 도메인에서, 학습 모델이 활용될 수 있다.
도 4는 다양한 실시예들에 따른 컴퓨터 시스템(100)에 의한 방법을 도시하는 도면이다. 이 때 도 4는 컴퓨터 시스템(100)에 의한, 과적합 없는 단일 신경망 기반 다중 도메인 적응 학습을 위한 방법을 나타낸다.
도 4를 참조하면, 컴퓨터 시스템(100)은 410 단계에서 복수의 도메인들의 데이터 셋들을 정규화할 수 있다. 도메인들 중 일부에 대한 과적합을 방지하기 위해, 컴퓨터 시스템(100)은 도메인들의 데이터 셋들을 정규화할 수 있다. 즉, 프로세서(140)는, 도 2에 도시된 바와 같은 과적합 방지를 위한 정보 이론을 기반으로, 데이터 셋들을 정규화(I(Z; V))할 수 있다. 이 때 프로세서(140)는 데이터 셋들의 각각으로부터, 정규화된 정보량의 특징 데이터를 추출할 수 있다. 예를 들면, 프로세서(140)는 도 3에 도시된 바와 같이 분류기를 통해, 데이터 셋들의 각각으로부터, 특징 데이터(L(F, C))를 추출할 수 있다.
어떤 실시예들에 따르면, 프로세서(140)는 추출하기 위한 특징 데이터에 대한 복잡도를 강화하면서, 데이터 셋들의 각각으로부터 특징 데이터를 추출할 수 있다. 일 실시예에 따르면, 프로세서(140)는 복잡도를 점진적으로 강화할 수 있다. 여기서, 프로세서(140)는 BSP 알고리즘을 이용하여, 복잡도를 강화할 수 있다. 일 예로, 프로세서(140)는 디케잉 BSP 알고리즘을 이용하여, 복잡도를 강화할 수 있다. 이를 통해, 데이터 셋들을 정규화함에 따라 발생 가능한 적어도 하나의 문제가 방지될 수 있다. 예를 들면, 데이터 셋들이 정규화될 때 데이터 셋들로부터 추출되는 특징 데이터가 단순화되는, 문제가 방지될 수 있다.
컴퓨터 시스템(100)은 420 단계에서 데이터 셋들 사이에서 공유되는 공유 정보를 추출할 수 있다. 컴퓨터 시스템(100)은 단일 신경망을 통해, 데이터 셋들 사이에서 공유 정보를 추출할 수 있다. 일 실시예에 따르면, 단일 신경망은 합성곱 신경망(CNN)일 수 있다. 즉, 프로세서(140)는, 도 2에 도시된 바와 같이 복수의 도메인들에 대해, 공유 정보를 추출할 수 있다. 예를 들면, 프로세서(140)는, 도 3에 도시된 바와 같이 인코더를 통해, 단일 신경망을 통해 데이터 셋들을 인코딩하여, 공유 정보를 추출할 수 있다. 이 때 프로세서(140)는 데이터 셋들의 각각으로부터의 특징 데이터를 기반으로, 공유 정보를 추출할 수 있다.
컴퓨터 시스템(100)은 430 단계에서 공유 정보를 기반으로 학습을 수행하여, 학습 모델을 구현할 수 있다. 이를 통해, 컴퓨터 시스템(100)은 복수의 도메인들과 관련하여, 학습 모델을 구현할 수 있다. 즉, 프로세서(140)는 도메인들 중 일부에 국한되지 않고, 모든 도메인들과 관련하여, 학습 모델을 구현할 수 있다. 예를 들면, 프로세서(140)는, 도 3에 도시된 바와 같이 단일 판별기를 통해, 공유 정보를 기반으로 적대적 학습을 수행할 수 있다. 이에 따라, 컴퓨터 시스템(100)은 적대적 적응 학습을 통해 복수의 도메인들에 대한 학습 모델을 구현할 수 있다.
컴퓨터 시스템(100)은 440 단계에서 목표 도메인에 대해, 학습 모델을 이식할 수 있다. 이를 통해, 목표 도메인에서, 학습 모델이 활용될 수 있다.
도 5a, 도 5b 및 도 5c는 다양한 실시예들에 따른 컴퓨터 시스템(100)의 동작 성능을 설명하기 위한 도면들이다. 이 때 도 5a, 도 5b 및 도 5c는 다양한 실시예들에 따른 컴퓨터 시스템(100)의 시뮬레이션 결과를 나타낸다. 도5a는 숫자 이미지 인식과 각각 관련되는 다섯 개의 도메인들에 대해 구현되는 학습 모델의 각 도메인에 대한 적응 성능을 나타내는 표이고, 도 5b는 사진 기반 사무 용품 분류와 각각 관련되는 세 개의 도메인들에 대해 구현되는 학습 모델의 각 도메인에 대한 적응 성능을 나타내는 표이고, 도 5c는 가상 그래픽 및 실사 기반 사무 용품 분류와 각각 관련되는 네 개의 도메인들에 대해 구현되는 학습 모델의 각 도메인에 대한 적응 성능을 나타내는 표이다.
도 5a, 도 5b 및 도 5c를 참조하면, 다양한 실시예들에 따른 컴퓨터 시스템(100)은 우수한 동작 성능을 갖는다. 여기서, 'Source-combined'는 도메인들의 데이터 셋들을 단순 결합하여, 학습 모델을 구현하는 경우이고, 'Single-best'는 도메인들 중 하나, 즉 최적의 도메인의 데이터 셋을 기반으로 학습 모델을 구현하는 경우이고, 'Multi-source'는 다양한 실시예들에 따라 학습 모델을 구현하는 경우이다. 이 때 학습 모델이 복수의 도메인들의 데이터 셋들의 공유 정보를 기반으로 구현되며, 이로써 학습 모델이 각 도메인에 대해 우수한 적응 성능을 나타낸다. 즉, 컴퓨터 시스템(100)은 도메인들의 개수와 관계없이, 우수한 적응 성능의 학습 모델을 구현할 수 있다.
도 6a 및 도 6b는 다양한 실시예들에 따른 컴퓨터 시스템(100)의 동작 성능을 설명하기 위한 도면들이다. 이 때 도 6a 및 도 6b는 다양한 실시예들에 따른 컴퓨터 시스템(100)에 의해 구현된 학습 모델과 기존 기술에 의해 구현된 학습 모델의 동작 정확도를 나타낸다. 여기서, 도 6a 및 도 6b는 상이한 도메인들에 대한 동작 정확도들을 각각 나타내는 그래프이다.
도 6a 및 도 6b를 참조하면, 다양한 실시예들에 따른 컴퓨터 시스템(100)은 우수한 동작 성능을 갖는다. 다양한 실시예들에 따르면, 학습 모델이 복수의 도메인들의 데이터 셋들의 공유 정보를 기반으로 구현되며, 이로써 다양한 실시예들의 학습 모델이 기존 기술의 학습 모델에 비해, 각 도메인에 대해 높은 정확도를 나타낸다. 즉, 컴퓨터 시스템(100)은 어떤 도메인에도 높은 정확도를 나타내는 학습 모델을 구현할 수 있다.
도 7a 및 도 7b는 다양한 실시예들에 따른 컴퓨터 시스템(100)의 동작 성능을 설명하기 위한 도면들이다. 이 때 도 7a는 데이터 셋들을 정규화함에 따라 발생 가능한 문제를 설명하기 위한 그래프이고, 도 7b는 다양한 실시예들에 따른 컴퓨터 시스템(100)에서의 상기 문제의 해결을 설명하기 위한 표이다.
도 7a를 참조하면, 데이터 셋들이 정규화될 때, 데이터 셋들로부터 추출되는 특징 데이터의 복잡도가 감소될 수 있다. 여기서, 복잡도는 엔트로피(entropy)로 표현될 수 있다. 다양한 실시예들에 따르면, 컴퓨터 시스템(100)이 데이터 셋들을 정규화할 때, 추출하기 위한 특징 데이터의 복잡도를 강화할 수 있다. 즉, 컴퓨터 시스템(100)은 추출하기 위한 특징 데이터에 대한 복잡도를 강화하면서, 데이터 셋들의 각각으로부터 특징 데이터를 추출하고, 추출된 특징 데이터를 기반으로 학습 모델을 구현할 수 있다. 다양한 실시예들에 따르면, 추출되는 특징 데이터의 복잡도가 강화됨에 따라, 도 7b에 도시된 바와 같이 학습 모델이 각 도메인에 대해 보다 향상된 적응 성능을 나타낸다. 이 때 컴퓨터 시스템(100)은 BSP 알고리즘을 이용하여, 복잡도를 강화할 수 있다. 여기서, 컴퓨터 시스템(100)은 디케잉(decaying) BSP 알고리즘을 이용하여, 복잡도를 보다 강화할 수 있다. 이를 통해, 데이터 셋들이 정규화될 때 데이터 셋들로부터 추출되는 특징 데이터가 단순화되는, 문제가 방지될 수 있다.
다양한 실시예들에 따르면, 컴퓨터 시스템(100)은 다수의 도메인들의 데이터 셋들을 정규화한 후에 데이터 셋들로부터 학습 모델을 구현하므로, 학습 모델의 도메인들 중 일부에 대한 과적합을 방지할 수 있다. 다양한 실시예들에 따르면, 컴퓨터 시스템(100)은 다수의 도메인들의 데이터 셋들 사이에서 공유되는 공유 정보를 기반으로 학습 모델을 구현하므로, 단일 신경망으로도, 즉 다른 신경망의 추가 없이, 학습 모델을 구현할 수 있다. 다양한 실시예들에 따르면, 컴퓨터 시스템(100)은 데이터 셋들을 정규화할 때 데이터 셋들의 각각으로부터 추출하기 위한 특징 데이터의 복잡도를 강화시킴에 따라, 구현되는 학습 모델이 보다 향상된 성능을 가질 수 있다. 즉, 데이터 셋들이 정규화될 때 데이터 셋들로부터 추출되는 특징 데이터가 단순화되는, 문제가 방지될 수 있다.
다양한 실시예들에 따르면, 컴퓨터 시스템(100)에 의한 방법은, 복수의 도메인들의 데이터 셋들을 정규화하는 단계, 정규화된 데이터 셋들 사이에서 공유되는 공유 정보를 추출하는 단계, 및 추출된 공유 정보를 기반으로 학습을 수행하여, 학습 모델을 구현하는 단계를 포함할 수 있다.
다양한 실시예들에 따르면, 컴퓨터 시스템(100)에 의한 방법은, 목표 도메인에 대해, 학습 모델을 이식하는 단계를 더 포함할 수 있다.
다양한 실시예들에 따르면, 공유 정보를 추출하는 단계는, 단일 신경망을 통해 정규화된 데이터 셋들을 인코딩하여, 공유 정보를 추출할 수 있다.
다양한 실시예들에 따르면, 단일 신경망은, 합성곱 신경망(CNN)일 수 있다.
다양한 실시예들에 따르면, 데이터 셋들을 정규화하는 단계는, 데이터 셋들의 각각으로부터 신경망에 입력하기 위한 특징 데이터를 추출하는 단계를 포함할 수 있다.
다양한 실시예들에 따르면, 공유 정보를 추출하는 단계는, 특징 데이터를 기반으로, 공유 정보를 추출하는 단계를 포함할 수 있다.
다양한 실시예들에 따르면, 데이터 셋들을 정규화하는 단계는, BSP 알고리즘을 이용하여, 데이터 셋들의 각각으로부터 추출하기 위한 특징 데이터에 대한 복잡도를 강화할 수 있다.
다양한 실시예들에 따르면, 학습 모델을 구현하는 단계는, 단일 판별기를 통해 적대적 학습을 수행할 수 있다.
다양한 실시예들에 따르면, 컴퓨터 시스템(100)은, 메모리(130), 및 메모리(130)와 연결되고, 메모리(130)에 저장된 적어도 하나의 명령을 실행하도록 구성된 프로세서(140)를 포함할 수 있다.
다양한 실시예들에 따르면, 프로세서(140)는, 복수의 도메인들의 데이터 셋들을 정규화하고, 정규화된 데이터 셋들 사이에서 공유되는 공유 정보를 추출하고, 추출된 공유 정보를 기반으로 학습을 수행하여, 학습 모델을 구현하도록 구성될 수 있다.
다양한 실시예들에 따르면, 프로세서(140)는, 목표 도메인에 대해, 학습 모델을 이식하도록 구성될 수 있다.
다양한 실시예들에 따르면, 프로세서(140)는, 단일 신경망을 통해 정규화된 데이터 셋들을 인코딩하여, 공유 정보를 추출하도록 구성되는 인코더를 포함할 수 있다.
다양한 실시예들에 따르면, 단일 신경망은, 합성곱 신경망(CNN)일 수 있다.
다양한 실시예들에 따르면, 프로세서(140)는, 데이터 셋들의 각각으로부터 신경망에 입력하기 위한 특징 데이터를 추출하고, 특징 데이터를 기반으로, 공유 정보를 추출하도록 구성될 수 있다.
다양한 실시예들에 따르면, 프로세서(140)는, BSP 알고리즘을 이용하여, 데이터 셋들의 각각으로부터 추출하기 위한 특징 데이터에 대한 복잡도를 강화하도록 구성될 수 있다.
다양한 실시예들에 따르면, 프로세서(140)는, 적대적 학습을 수행하도록 구성되는 단일 판별기를 포함할 수 있다.
다양한 실시예들은 주어진 도메인의 데이터를 빠짐 없이 학습 가능하며 여러 도메인에서 배운 기본 원리를 정제, 타 목표 도메인에 활용할 수 있기 때문에 풍부한 확장 가능성을 필요로 하는 분야에서 적극 응용 가능하다. 예를 들면, 다음과 같은 분야들이 있다.
첫 번째는 의료 AI 분야이다. 임상 진단 및 치료를 돕는 인공 지능 개발에 있어 적극적인 데이터 활용은 필수로 요구된다. 그러나 의료 데이터는 특성상 다양한 의료 기기(X-ray, MRI, CT 등)를 통해 수집되기 때문에 인공 지능 모델이 이를 포괄적으로 활용하여 학습하기 어렵고, 학습 이후에도 특정 데이터에 과적합될 위험이 있다. 본 시스템은 단순히 여러 데이터를 취합하여 모델을 학습시키는 것을 넘어, 여러 의료 분야의 데이터에 공유되고 있는 기본 원리를 파악함으로써 보다 정확한 진단을 내릴 수 있도록 보조할 수 있다. 또한 주어진 여러 형식의 데이터를 빠짐없이 학습함으로써 효율적으로 데이터를 사용할 수 있다. 나아가, 특정 문화, 사회 혹은 시대적 특성 상 의료 데이터는 통계적으로 다원화되기 쉽다. 예를 들어 대규모 감염 질환(COVID-19 등)에 의해 전반적 데이터의 분포와 통계가 급격히 변하거나, 이에 대한 민족, 문화적 특성에 차이가 있을 수 있다. 본 시스템은 취득 가능한 다양한 데이터 간의 차이를 고려하여, 범용적이며 유연하게 적용 가능한 의료 진단 알고리즘 구축에 활용 가능하다.
두 번째는 자율 주행 분야이다. 자율 주행 자동차를 위한 데이터는 수집 과정에서 필연적으로 다양한 환경 변화를 수반하게 된다. 가령 주행 시 계절, 광량, 위치, 차량의 종류, 카메라의 화각, 시간적 변화 등으로 인해 데이터는 여러 도메인으로 분류된다. 이러한 데이터의 컨텍스트를 이해하는 것은 성공적인 자율 주행에 있어서 필수로 요구된다. 본 시스템은 높은 확장성을 기반으로 다양한 도메인에서 동시에 수집된 대규모 데이터를 병렬적, 일괄적으로 처리할 수 있으며 이 과정에서 효율적으로 주어진 컴퓨팅 자원을 활용하게 된다. 따라서 위와 같은 환경 변화에 유연하게 반응 가능하며 안정성이 보장된 자율 주행 알고리즘 개발에 활용될 수 있다.
세 번째는 기계 번역/자연어 처리 분야이다. 기계 번역 분야는 여러 문화권, 언어권에서 수집된 대규모의 텍스트 코퍼스(corpus)를 활용하여 학습된다. 영미권 및 서구 문화권에서 대규모로 데이터를 수집할 수 있는 것과 달리, 특정 전문 분야 및 소수 언어권에서 수집할 수 있는 데이터에는 한계가 있기 때문에 기존 기계 번역 기술 적용이 불가능하다. 본 시스템은 활용 가능한 기존 대규모 코퍼스 데이터를 이용해 기본적인 언어 원리를 터득하고, 이를 타 목표 도메인에 적용함으로써 다양한 언어권에 적용 가능한 모델을 얻을 수 있다.
네 번째는 개인화 분야이다. 광고 제안, 모바일 컨텐츠 추천 등 개인화 분야는 수많은 개별 사용자의 행동 특성 파악을 요구로 한다. 그러나 다양한 플랫폼 및 디바이스에서 수집된 데이터에는 사용자 데이터의 통계적 차이가 존재해 학습된 모델을 범용적으로 적용하기 어렵다. 본 기술을 활용하면 다양한 사용자, 플랫폼에서 수집된 데이터를 바탕으로 선호도를 파악해, 특정 목표 사용자 그룹에 이식 가능한 범용적 추천 모델을 개발할 수 있다.
클라우드 및 모바일 시장의 발달로 인해 수집되는 데이터는 점점 그 규모와 다양성 면에서 거대해지고 있으나, 기존에 개발된 인공 지능 모델은 이러한 데이터 프로파일을 제대로 고려하지 못하고 있다. 여러 도메인에서 수집된 데이터를 병렬적으로 처리하여 다양한 컨텍스트에서 활용 가능하도록 디자인된 제안 기술은, 의료 및 자율 주행 분야를 포함해 유연성이 요구되는 모든 자동화 관련 시장에서 광범위하게 쓰일 수 있다.
개발 도상국 혹은 특정 전문 집단, 문화권의 경우 디지털, 모바일 환경의 발전 속도가 뒷받침되지 않아 데이터 처리 및 확보가 어렵고, 이로 인해 학습된 모델이 상기 문화적, 지리적 특성을 충분히 반영하지 않을 수 있다. 본 시스템을 통해 기존 대규모 데이터를 기반으로 모델을 학습한 후 상기한 특수 환경에 이식 함으로써 사회적으로 공정한 인공 지능 개발에 기여할 수 있다.
제안 기술은 다양한 미디어, 플랫폼 등의 경로를 통해 데이터를 수집하며 이를 일반화하고자 하는 모든 기업 및 서비스에 적용 가능하다. 예를 들면, 제안 기술은 인공 지능 기반 헬스케어 및 임상 진단 기술 개발 기업, 미디어 플랫폼 개발 기업, 스마트 팩토리 등 인공 지능 기술 기반 제조 기업, 자율 주행 기술 개발 기업 등에서 활용될 수 있다.
이상에서 설명된 장치는 하드웨어 구성 요소, 소프트웨어 구성 요소, 및/또는 하드웨어 구성 요소 및 소프트웨어 구성 요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성 요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성 요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
다양한 실시예들에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터-판독 가능 매체에 기록될 수 있다. 이 때 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 그리고, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.
본 문서의 다양한 실시예들 및 이에 사용된 용어들은 본 문서에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 해당 실시 예의 다양한 변경, 균등물, 및/또는 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성 요소에 대해서는 유사한 참조 부호가 사용될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 본 문서에서, "A 또는 B", "A 및/또는 B 중 적어도 하나", "A, B 또는 C" 또는 "A, B 및/또는 C 중 적어도 하나" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. "제 1", "제 2", "첫째" 또는 "둘째" 등의 표현들은 해당 구성 요소들을, 순서 또는 중요도에 상관없이 수식할 수 있고, 한 구성 요소를 다른 구성 요소와 구분하기 위해 사용될 뿐 해당 구성 요소들을 한정하지 않는다. 어떤(예: 제 1) 구성 요소가 다른(예: 제 2) 구성 요소에 "(기능적으로 또는 통신적으로) 연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 상기 어떤 구성 요소가 상기 다른 구성 요소에 직접적으로 연결되거나, 다른 구성 요소(예: 제 3 구성 요소)를 통하여 연결될 수 있다.
본 문서에서 사용된 용어 "모듈"은 하드웨어, 소프트웨어 또는 펌웨어로 구성된 유닛을 포함하며, 예를 들면, 로직, 논리 블록, 부품, 또는 회로 등의 용어와 상호 호환적으로 사용될 수 있다. 모듈은, 일체로 구성된 부품 또는 하나 또는 그 이상의 기능을 수행하는 최소 단위 또는 그 일부가 될 수 있다. 예를 들면, 모듈은 ASIC(application-specific integrated circuit)으로 구성될 수 있다.
다양한 실시예들에 따르면, 기술한 구성 요소들의 각각의 구성 요소(예: 모듈 또는 프로그램)는 단수 또는 복수의 개체를 포함할 수 있다. 다양한 실시예들에 따르면, 전술한 해당 구성 요소들 중 하나 이상의 구성 요소들 또는 단계들이 생략되거나, 또는 하나 이상의 다른 구성 요소들 또는 단계들이 추가될 수 있다. 대체적으로 또는 추가적으로, 복수의 구성 요소들(예: 모듈 또는 프로그램)은 하나의 구성 요소로 통합될 수 있다. 이런 경우, 통합된 구성 요소는 복수의 구성 요소들 각각의 구성 요소의 하나 이상의 기능들을 통합 이전에 복수의 구성 요소들 중 해당 구성 요소에 의해 수행되는 것과 동일 또는 유사하게 수행할 수 있다. 다양한 실시예들에 따르면, 모듈, 프로그램 또는 다른 구성 요소에 의해 수행되는 단계들은 순차적으로, 병렬적으로, 반복적으로, 또는 휴리스틱하게 실행되거나, 단계들 중 하나 이상이 다른 순서로 실행되거나, 생략되거나, 또는 하나 이상의 다른 단계들이 추가될 수 있다.
Claims (20)
- 컴퓨터 시스템에 의한 방법에 있어서,
복수의 도메인들의 데이터 셋들을 정규화하는 단계;
상기 데이터 셋들 사이에서 공유되는 공유 정보를 추출하는 단계; 및
상기 공유 정보를 기반으로 학습을 수행하여, 학습 모델을 구현하는 단계
를 포함하고,
상기 데이터 셋들을 정규화하는 단계는,
상기 데이터 셋들의 각각으로부터 특징 데이터를 추출하는 단계
를 포함하고,
상기 공유 정보를 추출하는 단계는,
상기 데이터 셋들 모두의 특징 데이터를 정렬시켰을 때, 상기 데이터 셋들 모두의 특징 데이터가 중첩되는 영역을 상기 공유 정보로 추출하는 단계
를 포함하는, 방법.
- 제 1 항에 있어서,
목표 도메인에 대해, 상기 학습 모델을 이식하는 단계
를 더 포함하는, 방법.
- 제 2 항에 있어서,
상기 공유 정보를 추출하는 단계는,
단일 신경망을 통해 상기 데이터 셋들을 인코딩하여, 상기 공유 정보를 추출하는,
방법.
- 제 3 항에 있어서,
상기 신경망은,
합성곱 신경망(Convolutional Neural Network; CNN)인,
방법.
- 제 3 항에 있어서,
상기 공유 정보를 추출하는 단계는,
상기 데이터 셋들의 각각으로부터의 상기 특징 데이터를 상기 신경망에 입력하여, 상기 공유 정보를 추출하는,
방법.
- 제 5 항에 있어서,
상기 데이터 셋들을 정규화하는 단계는,
BSP(Batch Spectral Penalization) 알고리즘을 이용하여, 상기 데이터 셋들의 각각으로부터 추출하기 위한 특징 데이터에 대한 복잡도를 강화하는,
방법.
- 제 1 항에 있어서,
상기 학습 모델을 구현하는 단계는,
단일 판별기(discriminator)를 통해 적대적 학습을 수행하는,
방법.
- 컴퓨터 시스템에 있어서,
메모리; 및
상기 메모리와 연결되고, 상기 메모리에 저장된 적어도 하나의 명령을 실행하도록 구성된 프로세서를 포함하고,
상기 프로세서는,
복수의 도메인들의 데이터 셋들을 정규화하고,
상기 데이터 셋들 사이에서 공유되는 공유 정보를 추출하고,
상기 공유 정보를 기반으로 학습을 수행하여, 학습 모델을 구현하도록 구성되고,
상기 프로세서는,
상기 데이터 셋들의 각각으로부터 특징 데이터를 추출하고,
상기 데이터 셋들 모두의 특징 데이터를 정렬시켰을 때, 상기 데이터 셋들 모두의 특징 데이터가 중첩되는 영역을 상기 공유 정보로 추출하도록 구성되는,
컴퓨터 시스템.
- 제 8 항에 있어서,
상기 프로세서는,
목표 도메인에 대해, 상기 학습 모델을 이식하도록 구성되는,
컴퓨터 시스템.
- 제 9 항에 있어서,
상기 프로세서는,
단일 신경망을 통해 상기 데이터 셋들을 인코딩하여, 상기 공유 정보를 추출하도록 구성되는 인코더를 포함하는,
컴퓨터 시스템.
- 제 10 항에 있어서,
상기 신경망은,
합성곱 신경망(CNN)인,
컴퓨터 시스템.
- 제 10 항에 있어서,
상기 프로세서는,
상기 데이터 셋들의 각각으로부터의 상기 특징 데이터를 상기 신경망에 입력하여, 상기 공유 정보를 추출하도록 구성되는,
컴퓨터 시스템.
- 제 12 항에 있어서,
상기 프로세서는,
BSP 알고리즘을 이용하여, 상기 데이터 셋들의 각각으로부터 추출하기 위한 특징 데이터에 대한 복잡도를 강화하도록 구성되는,
컴퓨터 시스템.
- 제 8항에 있어서,
상기 프로세서는,
적대적 학습을 수행하도록 구성되는 단일 판별기를 포함하는,
컴퓨터 시스템.
- 컴퓨터 시스템에 방법을 실행하기 위한 하나 이상의 프로그램들을 저장하는 비-일시적인 컴퓨터-판독 가능 저장 매체에 있어서,
복수의 도메인들의 데이터 셋들을 정규화하는 단계;
상기 데이터 셋들 사이에서 공유되는 공유 정보를 추출하는 단계; 및
상기 공유 정보를 기반으로 학습을 수행하여, 학습 모델을 구현하는 단계
를 포함하고,
상기 데이터 셋들을 정규화하는 단계는,
상기 데이터 셋들의 각각으로부터 특징 데이터를 추출하는 단계
를 포함하고,
상기 공유 정보를 추출하는 단계는,
상기 데이터 셋들 모두의 특징 데이터를 정렬시켰을 때, 상기 데이터 셋들 모두의 특징 데이터가 중첩되는 영역을 상기 공유 정보로 추출하는 단계
를 포함하는,
컴퓨터-판독 가능 저장 매체.
- 제 15 항에 있어서,
상기 프로그램들은,
목표 도메인에 대해, 상기 학습 모델을 이식하는 단계
를 더 실행하기 위한 것인,
컴퓨터-판독 가능 저장 매체.
- 제 16 항에 있어서,
상기 공유 정보를 추출하는 단계는,
단일 신경망을 통해 상기 데이터 셋들을 인코딩하여, 상기 공유 정보를 추출하는,
컴퓨터-판독 가능 저장 매체.
- 제 17 항에 있어서,
상기 신경망은,
합성곱 신경망(CNN)인,
컴퓨터-판독 가능 저장 매체.
- 제 17 항에 있어서,
상기 공유 정보를 추출하는 단계는,
상기 데이터 셋들의 각각으로부터의 상기 특징 데이터를 상기 신경망에 입력하여, 상기 공유 정보를 추출하는,
컴퓨터-판독 가능 저장 매체.
- 제 19 항에 있어서,
상기 데이터 셋들을 정규화하는 단계는,
BSP(Batch Spectral Penalization) 알고리즘을 이용하여, 상기 데이터 셋들의 각각으로부터 추출하기 위한 특징 데이터에 대한 복잡도를 강화하는,
컴퓨터-판독 가능 저장 매체.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200183859A KR102593832B1 (ko) | 2020-12-24 | 2020-12-24 | 과적합 없는 단일 신경망 기반 다중 도메인 적응 학습을 위한 컴퓨터 시스템, 및 그의 방법 |
US17/547,166 US20220207360A1 (en) | 2020-12-24 | 2021-12-09 | Computer system for multi-source domain adaptative training based on single neural network without overfitting and method thereof |
PCT/KR2021/019192 WO2022139325A1 (ko) | 2020-12-24 | 2021-12-16 | 과적합 없는 단일 신경망 기반 다중 도메인 적응 학습을 위한 컴퓨터 시스템, 및 그의 방법 |
CN202111587772.6A CN114676836A (zh) | 2020-12-24 | 2021-12-23 | 用于多源域适应学习的计算机系统及其的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200183859A KR102593832B1 (ko) | 2020-12-24 | 2020-12-24 | 과적합 없는 단일 신경망 기반 다중 도메인 적응 학습을 위한 컴퓨터 시스템, 및 그의 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220092256A KR20220092256A (ko) | 2022-07-01 |
KR102593832B1 true KR102593832B1 (ko) | 2023-10-26 |
Family
ID=82071076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200183859A KR102593832B1 (ko) | 2020-12-24 | 2020-12-24 | 과적합 없는 단일 신경망 기반 다중 도메인 적응 학습을 위한 컴퓨터 시스템, 및 그의 방법 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220207360A1 (ko) |
KR (1) | KR102593832B1 (ko) |
CN (1) | CN114676836A (ko) |
WO (1) | WO2022139325A1 (ko) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20240059477A (ko) | 2022-10-27 | 2024-05-07 | 주식회사 케이티 | 신경망에서 유사도에 기반하여 데이터를 처리하는 방법, 장치, 시스템 및 컴퓨터 프로그램 |
KR20240080932A (ko) | 2022-11-30 | 2024-06-07 | 고려대학교 산학협력단 | 손실 조정을 이용한 벤치마크 데이터 셋의 강건성 분석 장치 및 방법 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2860672A3 (en) * | 2013-10-10 | 2015-08-12 | Deutsche Telekom AG | Scalable cross domain recommendation system |
JP6877978B2 (ja) * | 2016-12-06 | 2021-05-26 | 日本電気通信システム株式会社 | 学習装置、学習方法およびプログラム |
JP6870346B2 (ja) * | 2017-01-30 | 2021-05-12 | 日本電気株式会社 | データ分析システム、データ分析方法およびプログラム |
JP6928346B2 (ja) * | 2017-07-11 | 2021-09-01 | 日本電信電話株式会社 | 予測装置、予測方法および予測プログラム |
-
2020
- 2020-12-24 KR KR1020200183859A patent/KR102593832B1/ko active IP Right Grant
-
2021
- 2021-12-09 US US17/547,166 patent/US20220207360A1/en active Pending
- 2021-12-16 WO PCT/KR2021/019192 patent/WO2022139325A1/ko active Application Filing
- 2021-12-23 CN CN202111587772.6A patent/CN114676836A/zh active Pending
Non-Patent Citations (1)
Title |
---|
XINYANG CHEN et al., "Transferability vs. Discriminability: Batch Spectral Penalization for Adversarial Domain Adaptation," 36th International Conference on Machine Learning (2019.06.15.)* |
Also Published As
Publication number | Publication date |
---|---|
US20220207360A1 (en) | 2022-06-30 |
KR20220092256A (ko) | 2022-07-01 |
CN114676836A (zh) | 2022-06-28 |
WO2022139325A1 (ko) | 2022-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11003949B2 (en) | Neural network-based action detection | |
CN111797893B (zh) | 一种神经网络的训练方法、图像分类系统及相关设备 | |
CN113807399B (zh) | 一种神经网络训练方法、检测方法以及装置 | |
Planche et al. | Hands-On Computer Vision with TensorFlow 2: Leverage deep learning to create powerful image processing apps with TensorFlow 2.0 and Keras | |
KR102593832B1 (ko) | 과적합 없는 단일 신경망 기반 다중 도메인 적응 학습을 위한 컴퓨터 시스템, 및 그의 방법 | |
CN112801265A (zh) | 一种机器学习方法以及装置 | |
Zimmermann et al. | Adaptive enterprise architecture for digital transformation | |
CN113011568B (zh) | 一种模型的训练方法、数据处理方法及设备 | |
CN112396106A (zh) | 内容识别方法、内容识别模型训练方法及存储介质 | |
CN115244587A (zh) | 高效基础事实注释 | |
WO2021120177A1 (zh) | 编译神经网络模型的方法和装置 | |
CN110188210A (zh) | 一种基于图正则化与模态独立的跨模态数据检索方法及系统 | |
CN112529149B (zh) | 一种数据处理方法及相关装置 | |
Singh et al. | Artificial intelligence in edge devices | |
Kroshchanka et al. | A neural-symbolic approach to computer vision | |
Lee et al. | Real-time neuron detection and neural signal extraction platform for miniature calcium imaging | |
Liu et al. | Collaborating domain-shared and target-specific feature clustering for cross-domain 3d action recognition | |
US20220215287A1 (en) | Self-supervised pretraining through text alignment | |
CN113537270A (zh) | 数据分类方法及多分类模型训练方法、装置、设备、介质 | |
CN112633385A (zh) | 一种模型训练的方法、数据生成的方法以及装置 | |
US20230153085A1 (en) | Systems and methods for source code understanding using spatial representations | |
CN118411531A (zh) | 一种神经网络的训练方法、图像处理的方法以及装置 | |
CN112101015A (zh) | 一种识别多标签对象的方法及装置 | |
CN112132230A (zh) | 图像分类方法及装置 | |
US20220067487A1 (en) | Electronic device for generating data and improving task performance by using only very small amount of data without prior knowledge of associative domain and operating method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |