KR102542451B1 - 공정 분포 추정을 통한 공정 군집화 방법 및 그의 장치 - Google Patents

공정 분포 추정을 통한 공정 군집화 방법 및 그의 장치 Download PDF

Info

Publication number
KR102542451B1
KR102542451B1 KR1020200146312A KR20200146312A KR102542451B1 KR 102542451 B1 KR102542451 B1 KR 102542451B1 KR 1020200146312 A KR1020200146312 A KR 1020200146312A KR 20200146312 A KR20200146312 A KR 20200146312A KR 102542451 B1 KR102542451 B1 KR 102542451B1
Authority
KR
South Korea
Prior art keywords
sub
connection strength
edge
value
clusters
Prior art date
Application number
KR1020200146312A
Other languages
English (en)
Other versions
KR20220060375A (ko
Inventor
고형진
이재욱
윤태호
변준영
이우진
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020200146312A priority Critical patent/KR102542451B1/ko
Publication of KR20220060375A publication Critical patent/KR20220060375A/ko
Application granted granted Critical
Publication of KR102542451B1 publication Critical patent/KR102542451B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

탑재된 인공지능(artificial intelligence, AI) 알고리즘을 실행하는 공정 분포 추정 장치가 개시된다. 본 장치는, 안정평형벡터 및 전이평형벡터 등을 통해 생성된 그래프를 이용하여 공정 분포를 추정하며, 공정 군집화를 통해 편향된 의사 결정을 방지할 수 있다.

Description

공정 분포 추정을 통한 공정 군집화 방법 및 그의 장치{METHOD AND APPARATUS FOR PERFORMING FAIR CLUSTERING THROUGH ESTIMATING FAIR DISTRIBUTION}
본 개시는 인공지능 기술에 관한 것으로, 표본 데이터로부터 공정 분포를 추정하는 방법, 공정 분포 추정을 통한 공정 군집화 방법, 이를 위한 장치 및 공정 군집화 방법을 저장한 컴퓨터 판독 가능한 기록 매체에 관한 것이다.
종래의 인공지능 방법론은 어떤 원인에 의해 사회적으로 바람직하지 못한 편향된 학습을 수행하고, 편향된 학습을 통한 의사 결정은 불공정하여, 사회적 문제를 야기할 수 있다.
예를 들면, 흑인 여성의 경우 사회적 편견 또는 차별에 의해 은행 대출에 제약을 받을 수 있으며, 이런 제약이 대출승인 인공지능 시스템의 학습에 사용될 데이터에 반영되어 있을 개연성이 높다 할 수 있다.
이러한 차별적 데이터에 의해 학습이 완료된 인공지능 의사 결정 시스템에 의해, 흑인 여성은 또 다시 대출 심사에 부적격 판정을 받아 사회적 약자로서의 생활만이 유지되는 악순환에 빠지는 경우가 발생될 수 있다.
이에, 사회적으로 불공정한 인공지능 시스템은 개선될 필요가 있다.
선행 기술 : 등록특허공보 제10-1475625호(2014.12.16 등록)
본 발명이 해결하고자 하는 과제는 민감 데이터를 적절하게 반영하여 공정한 학습을 수행하는 인공지능 방법을 제공하는 데에 있다.
본 발명의 또 다른 과제는 표본 데이터로부터 공정 분포를 추정하는 방법을 제공하는 데에 있다.
본 발명의 또 다른 과제는 공정 분포의 추정을 통해, 밸런스를 고려한 공정 군집화를 수행하는 방법 및 장치를 제공하는 데에 있다.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기 과제를 달성하기 위하여, 본 발명의 일 실시 예에 따른 공정 분포(Fair Distribution)의 추정을 통한 공정 군집화 방법은 민감 변수의 데이터를 포함하는 표본 데이터를 입력받아 표본 분포에 대응하는 샘플 서포트(Support) 밀도 함수를 생성하는 단계; 상기 표본 데이터 각각을 아토믹 셀(Atomic Cell)에 매핑하는 경우, 상기 아토믹 셀의 안정평형벡터(SEV, Stable Equilibrium Vector)를 그래프의 정점(V)으로 설정하는 단계; 안정평형벡터(SEV) 간의 인접 관계를 전이평형벡터(TEV, Transitional Equilibrium Vector)에 기초하여 상기 그래프의 간선(E)으로 설정하고, 상기 간선(E)의 연결 강도를 상기 전이평형벡터(TEV)에 대응하는 상기 샘플 서포트 밀도 함수의 값으로 설정하는 단계; 상기 아토믹 셀 각각을 이에 대응하는 서브 클러스터로 매핑하는 단계; 상기 간선(E)의 연결 강도를 밸런스 측정 수치에 기초하여 재설정하는 단계; 및 재설정된 상기 연결 강도의 크기에 기초하여, 계층적 클러스터링을 수행하는 단계를 포함할 수 있다.
또한, 본 발명의 일 실시 예에 따른 공정 분포(Fair Distribution)의 추정을 통한 공정 군집화 장치는 입력부; 상기 입력부를 통해, 민감 변수의 데이터를 포함하는 표본 데이터를 입력받아 표본 분포에 대응하는 샘플 서포트(Support) 밀도 함수를 생성하고, 상기 표본 데이터 각각을 아토믹 셀(Atomic Cell)에 매핑하는 경우, 상기 아토믹 셀의 안정평형벡터(SEV, Stable Equilibrium Vector)를 그래프의 정점(V)으로 설정하며, 안정평형벡터(SEV) 간의 인접 관계를 전이평형벡터(TEV, Transitional Equilibrium Vector)에 기초하여 상기 그래프의 간선(E)으로 설정하고, 상기 간선(E)의 연결 강도를 상기 전이평형벡터(TEV)에 대응하는 상기 샘플 서포트 밀도 함수의 값으로 설정하는 프로세서를 포함할 수 있다.
상기 프로세서는, 상기 아토믹 셀 각각을 이에 대응하는 서브 클러스터로 매핑하고, 상기 간선(E)의 연결 강도를 밸런스 측정 수치에 기초하여 재설정하며, 재설정된 상기 연결 강도의 크기에 기초하여, 계층적 클러스터링을 수행하도록 구성될 수 있다.
또한, 본 발명의 일 실시 예에 따른 공정 군집화 방법은 컴퓨터상에서 수행하기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체에 저장될 수 있다.
상기 프로그램은, 프로세서에 의한 실행 시, 상기 프로세서가, 민감 변수의 데이터를 포함하는 표본 데이터를 입력받아 표본 분포에 대응하는 샘플 서포트(Support) 밀도 함수를 생성하는 단계; 상기 표본 데이터 각각을 아토믹 셀(Atomic Cell)에 매핑하는 경우, 상기 아토믹 셀의 안정평형벡터(SEV, Stable Equilibrium Vector)를 그래프의 정점(V)으로 설정하는 단계; 안정평형벡터(SEV) 간의 인접 관계를 전이평형벡터(TEV, Transitional Equilibrium Vector)에 기초하여 상기 그래프의 간선(E)으로 설정하고, 상기 간선(E)의 연결 강도를 상기 전이평형벡터(TEV)에 대응하는 상기 샘플 서포트 밀도 함수의 값으로 설정하는 단계; 상기 아토믹 셀 각각을 이에 대응하는 서브 클러스터로 매핑하는 단계; 상기 간선(E)의 연결 강도를 밸런스 측정 수치에 기초하여 재설정하는 단계; 및 재설정된 상기 연결 강도의 크기에 기초하여, 계층적 클러스터링을 수행하는 단계를 수행하도록 하는 실행 가능한 명령을 포함할 수 있다.
본 발명에서 이루고자 하는 기술적 과제들의 해결 수단은 이상에서 언급한 해결 수단들로 제한되지 않으며, 언급하지 않은 또 다른 해결 수단들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명의 다양한 실시 예에 의해, 표본 데이터로부터 공정 분포를 추정하는 과정에서 공정 군집화가 수행됨으로써, 공정 학습 및 이에 기반한 공정한 의사 결정이 수행될 수 있으며, 대표값에 의한 밸런스 연산을 수행함으로써, 시간 및 연산 효율이 제고될 수 있다.
도 1은 본 발명의 일 실시 예에 따른 공정 분포의 추정을 통한 공정 군집화 방법을 개략적으로 설명하기 위한 도면,
도 2는 본 발명의 일 실시 예에 따른 공정 군집화 장치의 구성을 나타내는 블록도,
도 3(a) 내지 도 5(d)은 본 발명의 일 실시 예에 따른 공정 군집화 장치의 구체적인 동작을 설명하기 위한 도면들, 그리고,
도 6은 본 발명의 일 실시 예에 따른 공정 분포의 추정을 통한 공정 군집화 방법의 시퀀스도이다.
이하, 첨부된 도면들을 참조하여 본 발명의 예시적인 실시예들에 대하여 설명한다. 본 발명은 서로 다른 다양한 형태들로 구현될 수 있으며, 본 명세서에 설명된 실시예들로 한정되는 것으로 해석되어서는 안 된다. 도면에서 구성요소들, 계층들 및 영역들의 상대적인 크기는 설명의 명확성을 위해 과장될 수 있다.
도 1은 본 발명의 일 실시 예에 따른 공정 분포의 추정을 통한 공정 군집화 방법을 개략적으로 설명하기 위한 도면이다. 상기 공정 분포 추정은 도 2에 도시된 공정 군집화 장치(100)에 의해 수행될 수 있다.
표본 분포(DS)는 모집단에서 샘플링된 표본 데이터에 대한 확률 분포이며, 공정 분포(DF) 대비 사회적 및/또는 경제적으로 편향성을 갖을 수 있다. 이는 표본 데이터에 포함된 민감 변수의 데이터가 적절하게 반영되지 않았기 때문이다.
공정 분포(DF)는 모집단에 대한 가상의 확률 분포로, 편향되지 않은 의사 결정을 수행하는 확률 분포이다.
공정 군집화 장치(100)는 민감 변수의 데이터로 인한 불공정한 학습 및 편향된 의사 결정을 내릴 수 있는 표본 분포(DS)로부터 공정 분포(DF)를 추정할 수 있으며, 공정한 의사 결정을 수행하기 위해 공정 군집화를 수행할 수 있다.
먼저, 공정 군집화 장치(100)는 표본 분포(DS)의 데이터를 모드 공간(DSMS, Mode Space)에 매핑할 수 있다. 공정 군집화 장치(100)는 표현 함수 W를 이용하여 표본 데이터를 모드 공간(DSMS)에 매핑할 수 있다.
여기서, 공정 군집화 장치(100)는 표본 데이터 각각을 모드 공간(DSMS) 상의 k 개(가령, 5 개)의 안정 평형 벡터(13, SEV)에 매핑시킬 수 있다. 안정 평형 벡터(13, SEV)는 그래디언트(Gradient)가 0인 포인트(critical point 중에서, 그 Hessian matrix의 eigen value가 모두 양수인 포인트)를 의미하며, 표본 데이터들을 그룹핑할 수 있다. 안정 평형 벡터(13, SEV)를 중심으로 형성한 원(SAC)을 아토믹 셀(SAC, Atomic Cell)이라고 하며, 아토믹 셀(SAC)은 가상의 영역일 수 있으며, Basin 이라 표현할 수도 있다.
이와 같이, 공정 군집화 장치(100)는 안정 평형 벡터 근처의 밀집 영역을 공유하는 분포인 공정 대응 분포를 찾기 위해, 표본 분포(DS)로부터 샘플 서포트 밀도 함수(Sample Support Density Function)를 생성하고, 생성된 샘플 서포트 밀도 함수의 동적 시스템을 이용하여 표본 데이터 각각을 아토믹 셀(SAC)에 매핑할 수 있다.
본 명세서에서, 공정 분포(DF)를 모드 공간(DFMS)에 매핑한 경우의 안정 평형 벡터(11)는 표본 공간(DS)의 안정 평형 벡터(13)와 동일한 것으로 상정하여 기술하기로 한다. 다만, 공정 분포에 대응하는 간선(15)의 연결 강도는 표본 분포(DS)에 대응하는 간선(17)의 연결 강도와는 차이를 갖게 된다. 공정 군집화 장치(100)는 공정 군집화를 수행할 ‹š, 표본 분포(DS)에 대응하는 간선(17)의 연결 강도를 공정 분포(DF)에 대응하는 간선(15)의 연결 강도에 근접하는 방향으로 재설정할 수 있다.
공정 군집화 장치(100)는 공정 군집화(25)를 통해 간선(19)의 연결 강도를 조정하고, 군집화를 수행하여, 공정 분포(DF)의 모드 공간(DFMS) 상의 군집화된 상태(DSC)를 추정할 있으며, 이에 기반하여 공정 분포(DF)를 추정(27)할 수 있다.
이와 같이, 공정 군집화 장치(100)는 표본 분포(DS)를 기초로 공정 분포(DF)를 추정할 수 있으며, 공정 분포(DF)를 추정하는 와중에, 공정 군집화를 수행함으로써, 편향되지 않은 의사 결정 및 편향되지 않은 학습을 수행할 수 있다. 또한, 학습을 통해 생성된 모델에 의한 공정한 의사 결정 수립의 가능하다.
도 2는 본 발명의 일 실시 예에 따른 공정 군집화 장치(100)의 구성을 나타내는 블록도이다.
공정 군집화 장치(100)는 입력부(110), 디스플레이(120), 공정 분포 추정 모델(151)을 저장한 메모리(150) 및 프로세서(190)를 포함할 수 있다. 도 2에 도시된 구성요소들은 공정 군집화 장치(100)를 구현하는데 있어서 필수적인 것은 아니어서, 본 명세서 상에서 설명되는 공정 군집화 장치(100)는 위에서 열거된 구성요소들 보다 많거나, 또는 적은 구성요소들을 가질 수 있다.
입력부(110)는 데이터를 입력받는 모듈로 다양한 형태의 데이터를 입력받을 수 있다.
디스플레이(120)는 프로세서(190)의 제어에 의해, 표본 분포(DS)에 대응하는 샘플 서포트 밀도 함수 및 공정 분포(DF)에 대응하는 공정 서포트 밀도 함수를 소정의 시간차를 두고 출력할 수 있다. 이에, 표본 분포(DS)로부터 공정 분포(DF)의 추정이 시각적으로 표현되어 사용자 편의가 제고될 수 있다.
메모리(150)는 프로세서(190)에 의해 수행된 인공 지능 모델을 저장할 수 있다. 구체적으로, 메모리(150)는 프로세서(190)의 제어에 따라, 공정 분포 추정 모델(151)을 저장할 수 있다. 공정 분포 추정 모델(151)은 소정의 표본 모델을 입력받아 공정 모델을 추정하는 모델일 수 있다.
프로세서(190)는 입력부(110)를 통해, 민감 변수의 데이터를 포함하는 표본 데이터를 입력받아 표본 분포(DS)에 대응하는 샘플 서포트 밀도 함수를 생성할 수 있다.
여기서, 민감 변수는 특정 의사 결정을 수행할 때, 결과를 편향되게 이끌 수 있는 변수를 말하며, 생성하는 인공 지능 모델의 테마에 따라 다양하게 설정될 수 있다.
프로세서(190)는 표본 데이터에 민감 변수의 데이터가 포함된 것을 기본적으로 가정하며, 표본 데이터에 대한 공정 분포(DF)가 존재함을 가정하고, 표본 분포(DS)에 대응하는 샘플 서포트 밀도 함수를 생성할 수 있다. 생성된 샘플 서포트 밀도 함수의 동적 시스템을 이용하여 표본 데이터 각각이 안정 평형 벡터(13)에 대응하는 아토믹 셀(SAC)에 각각 매핑될 수 있다.
상술한 바와 같이, 프로세서(190)는 공정 분포(DF)를 추정하기 위해, 안정평형벡터(SEV, Stable Equilibrium Vector) 근처의 밀집영역을 공유하는 분포인 공정 대응 분포를 이용하여, 표본 분포(DS)의 표본 데이터를 모드 공간(DSMS)에 각각 매핑할 수 있다. 여기서 안정평형벡터(SEV)는 샘플 서포트 밀도 함수의 동적 시스템 상에서 국소 영역 내의 데이터 포인트 중 대표가 되는 포인트를 의미한다. 또한, 안정평형벡터(SEV) 각각은 하나의 아토믹 셀(Atomic Cell)에 매핑될 수 있다. 즉, 프로세서(190)는 샘플 서포트 밀도 함수를 생성함으로써, 표본 분포와 공정 분포의 공통으로 포함될 가능성이 높은 영역을 결정할 수 있다.
이하에서는 도 3(a) 내지 도 5(d)를 참고하여, 공정 군집화 장치(100)의 구체적인 동작을 설명하기로 한다. 도 1 및 도 2의 도면부호를 함께 참고하기로 한다.
도 3(a) 내지 도 4(b)를 참고하면, 프로세서(190)는 정점 및 간선을 갖는 그래프를 이용하여, 모드 공간(DSMS) 상에서 표본 데이터를 표현할 수 있다.
프로세서(190)는 표본 데이터 각각을 아토믹 셀(SAC)에 매핑하는 경우, 아토믹 셀(SAC)의 안정평형벡터(SEV)를 그래프의 정점(V)으로 설정하며, 안정평형벡터 간의 인접 관계를 전이평형벡터(TEV, Transitional Equilibrium Vector)에 기초하여 그래프의 간선(E)으로 설정할 수 있다.
구체적으로, 프로세서(190)는 표본 데이터 각각을 모드 공간 상의 아토믹 셀에 매핑할 때, 각 데이터가 디스조인트 셋을 형성하도록 구현할 수 있다. 프로세서(190)는 모드 공간(DSMS) 상에서 안정평형벡터(13, SEV)를 기준으로 표본 데이터들을 그룹핑할 수 있다.
프로세서(190)는 모드 공간(DSMS) 상에서 안정평형벡터(13a~13e, 13)를 설정하고, 안정평형벡터(13a~13e, 13) 간의 연결 관계인 간선(17)을 전이평형벡터(TEV)에 기초하여 그래프의 간선으로 설정할 수 있다.
전이평형벡터(TEV)는 모드 공간 상에서 안장점(Gradient 가 0인 포인트)에 해당하며, 안정평형벡터 사이에 배치된 포인트이며, Hessian 의 아이젠 밸류 값에 기초하여 index 1 안장점일 수 있다.
프로세서(190)는 간선(17)의 연결 강도를 전이평형벡터(TEV) 각각에 대응하는 샘플 서포트 밀도 함수의 값을 디폴트 값으로 설정할 수 있다.
프로세서(190)는 아직, 간선(17)의 연결 강도를 재설정하지 않았으며, 민감 변수의 데이터가 적절하게 반영되지 않아, 편향된 의사 결정이 이뤄질 수 있다.
도 5(a) 내지 도 5(d)를 참고하여, 간선(17)의 연결 강도를 밸런스를 고려하여 재설정하는 공정 군집화 장치(100)의 동작을 설명하기로 한다.
먼저, 프로세서(190)는 아토믹 셀(SAC) 각각을 이에 대응하는 서브 클러스터로 매핑한다(도 5(a)). 이때, 프로세서(190)는 간선(17)의 연결 강도를 밸런스 측정 수치에 기초하여 재설정할 수 있다.
프로세서(190)는 간선(17) 각각에 대해, 서브 클러스터의 페어(Pair)에 대응하는 밸런스 측정 수치(BM1) 및 상기 페어를 이루는 서브 클러스터 각각의 밸런스 측정 수치(BM2, BM3)를 산출할 수 있다.
프로세서(190)는 간선(17) 각각에 대해 전이평형벡터(TEV)의 샘플 서포트 밀도 함수의 값, 산출된 페어(Pair)에 대응하는 밸런스 측정 수치(BM1) 및 상기 페어를 이루는 서브 클러스터 각각의 밸런스 측정 수치(BM2, BM3)에 기초하여, 상기 간선(E) 각각의 연결 강도를 재설정할 수 있다.
프로세서(190)는 페어(Pair)에 대응하는 밸런스 측정 수치(BM1)에서, 페어를 이루는 서브 클러스터 각각의 밸런스 측정 수치(BM2, BM3) 중 작은 값을 차감한 간선 밸런스 조정값을 산출하고, 간선(17) 각각에 대해, 전이평형벡터(TEV)의 샘플 서포트 밀도 함수의 값에서, 상기 간선 밸런스 조정값을 차감하여, 상기 간선(17) 각각의 연결 강도를 재설정할 수 있다.
구체적으로, 프로세서(190)는 아래 [식 1]에 의해 각 간선(17)의 연결 강도를 재설정할 수 있으며, 재설정되는 간선의 연결 강도(17)는 간선의 길이(가령, d(Cj+, Cj-))일 수 있다.
[식 1]
d(Cj+, Cj-) = p(Tj) - λ[balance(Cj+UCj-) - min(balance(Cj+), balance(Cj-))
여기서, p(Tj)는 전이평형벡터(j)의 샘플 서포트 밀도 함수의 값이고, balance(Cj+UCj-)는 전이 평형벡터(j)의 인접한 두 서브 클래스 페어에 대응하는 밸런스 측정 수치(BM1)이고, min(balance(Cj+), balance(Cj-))은 페어를 이루는 서브 클러스터 각각의 밸런스 측정 수치(BM2, BM3) 중 작은 값을 의미할 수 있다. λ는 업데이트 속도를 결정하는 인자일 수 있다.
또한, balance(Ci)는 아래 [식 2]와 같이 표현될 수 있다.
[식 2]
balance(Ci) = min(|Sr|/|Sb|, |Sb|/|Sr|)
가령, Ci 에 속한 데이터가 남성/여성을 의미한다고 가정하면, |Sr|/|Sb|는 여성 대비 남성 비율이고, |Sb|/|Sr|는 남성 대비 여성 비율일 수 있다. 이 중에서 작은 값이 선택될 수 있다. balance(C)는 Ci 에 속하는 모든 클러스터 중에서 가장 작은값을 나타낼 수 있다.
프로세서(190)는 재설정된 상기 간선(17) 각각의 연결 강도의 크기에 기초하여 오름차순으로 정렬하고, 정렬된 오름차순에 대응하도록 간선(17)에 포함된 서브 클러스터의 인덱스 정보를 조정하도록 구성될 수 있다.
즉, 프로세서(190)는 연결 강도가 작은 순으로 간선(17)을 정렬할 수 있다. 가령, 프로세서(190)는 제1 간선(17a), 제2 간선(17b), 제3 간선(17e), 제4 간선들(17c, 17d, 17f) 순으로 정렬할 수 있다.
프로세서(190)는 연결 강도가 가장 작은 제1 간선(17a)에 해당하는 양 서브 클러스터(제1 서브 클러스터(SAC1), 제2 서브 클러스터(SAC2))를 제6 서브 클러스터(SAC6)로 그룹핑할 수 있다(도 5(b)).
프로세서(190)는 기 설정된 클러스터의 개수(K, 가령 2개)가 될 때까지, 공정 군집화를 수행할 수 있다. 여기서, 프로세서(190)는 계층적으로 서브 클러스터 간 병합을 수행할 수 있다.
구체적으로, 프로세서(190)는 제1 간선(17a) 다음의 제2 간선(17b)을 이용하여 제6 서브 클러스터(SAC6)와 제3 서브 클러스터(SAC3)를 제7 서브 클러스터(SAC7)으로 그룹핑할 수 있다(도 5(c)).
마지막으로, 프로세서(190)는 제2 간선(17b) 다음의 제3 간선(17e)를 이용하여 제7 서브 클러스터(SAC7)와 제4 서브 클러스터(SAC4)를 제8 서브 클러스터(SAC8)로 병합할 수 있다. 그러면, 최종 클러스터의 개수가 K에 도달하여, 공정 군집화가 마무리될 수 있다.
도 6은 본 발명의 일 실시 예에 따른 공정 군집화 방법을 나타내는 시퀀스도이다. 도 2의 도면부호를 함께 참고하기로 한다.
먼저, 공정 군집화 장치(100)는 민감 변수의 데이터를 포함하는 표본 데이터를 입력받는다(S51).
그 다음으로, 공정 군집화 장치(100)는 입력된 표본 데이터를 모드 공간 상의 아토믹 셀에 매핑하고, 아토믹 셀에 대응하는 안정평형벡터를 그래프의 정점으로 설정한다(S53).
그 후에, 공정 군집화 장치(100)는 안정평형벡터 간의 인접 관계를 전이평형벡터에 기초하여 그래프의 간선(E)으로 설정하고, 간선(E)의 연결 강도를 전이평형벡터(TEV)에 대응하는 샘플 서포트 밀도 함수의 값으로 설정한다(S55).
그 다음으로, 공정 군집화 장치(100)는 아토믹 셀 각각을 이에 대응하는 서브 클러스터로 매핑한다(S57).
그 후에, 공정 군집화 장치(100)는 간선의 연결 강도를 밸런스 측정 수치에 기초하여 재설정한다(S59).
마지막으로, 공정 군집화 장치(100)는 소정 개수의 클러스터가 되기까지 간선의 연결 강도에 기초하여 계층적 클러스터링을 수행한다(S61).
그러면, 공정 군집화 장치(100)는 공정 분포에 대응하는 모드 공간 상의 밸런스가 좋은 모델을 생성할 수 있다.
상기 재설정하는 단계(S59)는 간선 각각에 대해, 서브 클러스터의 페어(Pair)에 대응하는 밸런스 측정 수치(BM1) 및 페어를 이루는 서브 클러스터 각각의 밸런스 측정 수치(BM2, BM3)를 산출하는 단계 및 간선 각각에 대해, 전이평형벡터의 샘플 서포트 밀도 함수의 값, 산출된 페어(Pair)에 대응하는 밸런스 측정 수치(BM1) 및 상기 페어를 이루는 서브 클러스터 각각의 밸런스 측정 수치(BM2, BM3)에 기초하여, 간선(E) 각각의 연결 강도를 재설정하는 단계를 포함할 수 있다.
여기서, 상기 산출하는 단계 이후에, 공정 분포 추정 방법은 간선 각각에 대해, 페어에 대응하는 밸런스 측정 수치(BM1)에서, 페어를 이루는 서브 클러스터 각각의 밸런스 측정 수치(BM2, BM3) 중 작은 값을 차감한 간선 밸런스 조정값을 산출하는 단계를 더 포함할 수 있다.
이 경우, 상기 연결 강도를 재설정하는 단계는, 간선(E) 각각에 대해, 전이평형벡터(TEV)의 샘플 서포트 밀도 함수의 값에서, 상기 간선 밸런스 조정값을 차감하여, 상기 간선(E) 각각의 연결 강도를 재설정하는 단계를 포함할 수 있다.
공정 서포트 밀도 함수를 생성하는 경우, 재설정된 간선 각각의 연결 강도의 크기에 기초하여 오름차순으로 정렬하고, 정렬된 오름차순에 대응하도록 간선에 포함된 서브 클러스터의 인덱스 정보를 조정할 수 있다.
공정 서포트 밀도 함수를 생성하는 경우, 간선의 연결 강도가 작은 서브 클러스터 간의 병합을 시작으로, 기 설정된 최종 클러스터의 개수에 도달하기까지, 서브 클러스터에 대한 병합을 계층적으로 수행할 수 있다.
본 발명의 일 실시 예에 따른 공정 군집화 방법은 컴퓨터상에서 수행하기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체에 저장될 수 있다.
프로그램은, 프로세서(190)에 의한 실행 시, 프로세서가, 민감 변수의 데이터를 포함하는 표본 데이터를 입력받아 표본 분포에 대응하는 샘플 서포트(Support) 밀도 함수를 생성하는 단계, 표본 데이터 각각을 아토믹 셀(Atomic Cell)에 매핑하는 경우, 아토믹 셀의 안정평형벡터(SEV, Stable Equilibrium Vector)를 그래프의 정점(V)으로 설정하는 단계, 안정평형벡터(SEV) 간의 인접 관계를 전이평형벡터(TEV, Transitional Equilibrium Vector)에 기초하여 그래프의 간선(E)으로 설정하고, 간선(E)의 연결 강도를 전이평형벡터(TEV)에 대응하는 상기 샘플 서포트 밀도 함수의 값으로 설정하는 단계, 아토믹 셀 각각을 이에 대응하는 서브 클러스터로 매핑하는 단계, 간선(E)의 연결 강도를 밸런스 측정 수치에 기초하여 재설정하는 단계, 및 재설정된 상기 연결 강도의 크기에 기초하여, 계층적 클러스터링을 수행하는 단계를 수행하도록 하는 실행 가능한 명령을 포함할 수 있다.
여기서, 안정평형벡터(SEV)를 정점으로 사용하여, 정점 간의 연산만 수행함으로써, 모든 표본 데이터에 대한 밸런스 연산(밸런스 측정 수치 연산)을 수행하지 않아, 연산 효율성이 향상될 수 있다.
앞에서, 본 발명의 특정한 실시예가 설명되고 도시되었지만 본 발명은 기재된 실시예에 한정되는 것이 아니고, 이 기술 분야에서 통상의 지식을 가진 자는 본 발명의 사상 및 범위를 벗어나지 않고서 다른 구체적인 실시예로 다양하게 수정 및 변형할 수 있음을 이해할 수 있을 것이다. 따라서, 본 발명의 범위는 설명된 실시예에 의하여 정하여 질 것이 아니고 청구범위에 기재된 기술적 사상에 의해 정하여져야 할 것이다.

Claims (12)

  1. 컴퓨팅 장치에 의해 수행되는 공정 분포(Fair Distribution)의 추정을 통한 공정 군집화 방법으로서,
    민감 변수의 데이터를 포함하는 표본 데이터를 입력받아 표본 분포에 대응하는 샘플 서포트(Support) 밀도 함수를 생성하는 단계;
    상기 표본 데이터 각각을 아토믹 셀(Atomic Cell)에 매핑하는 경우, 상기 아토믹 셀의 안정평형벡터(SEV, Stable Equilibrium Vector)를 그래프의 정점(V)으로 설정하는 단계;
    안정평형벡터(SEV) 간의 인접 관계를 전이평형벡터(TEV, Transitional Equilibrium Vector)에 기초하여 상기 그래프의 간선(E)으로 설정하고, 상기 간선(E)의 연결 강도를 상기 전이평형벡터(TEV)에 대응하는 상기 샘플 서포트 밀도 함수의 값으로 설정하는 단계;
    상기 아토믹 셀 각각을 이에 대응하는 서브 클러스터로 매핑하는 단계;
    상기 간선(E)의 연결 강도를 밸런스 측정 수치에 기초하여 재설정하는 단계; 및
    재설정된 상기 연결 강도의 크기에 기초하여, 계층적 클러스터링을 수행하는 단계를 포함하며,
    상기 재설정하는 단계는,
    간선(E) 각각에 대해, 서브 클러스터의 페어(Pair)에 대응하는 밸런스 측정 수치(BM1) 및 상기 페어를 이루는 서브 클러스터 각각의 밸런스 측정 수치(BM2, BM3)를 산출하는 단계; 및
    간선(E) 각각에 대해, 전이평형벡터(TEV)의 샘플 서포트 밀도 함수의 값, 산출된 페어(Pair)에 대응하는 밸런스 측정 수치(BM1) 및 상기 페어를 이루는 서브 클러스터 각각의 밸런스 측정 수치(BM2, BM3)에 기초하여, 상기 간선(E) 각각의 연결 강도를 재설정하는 단계를 포함하는, 공정 군집화 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 산출하는 단계 이후에,
    간선(E) 각각에 대해, 페어에 대응하는 밸런스 측정 수치(BM1)에서, 페어를 이루는 서브 클러스터 각각의 밸런스 측정 수치(BM2, BM3) 중 작은 값을 차감한 간선 밸런스 조정값을 산출하는 단계를 더 포함하며,
    상기 간선(E) 각각의 연결 강도를 재설정하는 단계는,
    간선(E) 각각에 대해, 전이평형벡터(TEV)의 샘플 서포트 밀도 함수의 값에서, 상기 간선 밸런스 조정값을 차감하여, 상기 간선(E) 각각의 연결 강도를 재설정하는 단계를 포함하는, 공정 군집화 방법.
  4. 제1항 또는 제3항에 있어서,
    상기 공정 분포에 대응하는 공정 서포트 밀도 함수를 생성하는 경우, 재설정된 상기 간선(E) 각각의 연결 강도의 크기에 기초하여 오름차순으로 정렬하는 단계; 및
    정렬된 오름차순에 대응하도록 상기 간선(E)에 포함된 서브 클러스터의 인덱스 정보를 조정하는 단계를 더 포함하는, 공정 군집화 방법.
  5. 제4항에 있어서,
    상기 간선(E)의 연결 강도가 작은 서브 클러스터 간의 병합을 시작으로, 기 설정된 최종 클러스터의 개수에 도달하기까지, 상기 서브 클러스터에 대한 병합을 계층적으로 수행하는 단계를 더 포함하는, 공정 군집화 방법.
  6. 공정 분포(Fair Distribution)의 추정을 통한 공정 군집화 장치로서,
    입력부;
    상기 입력부를 통해, 민감 변수의 데이터를 포함하는 표본 데이터를 입력받아 표본 분포에 대응하는 샘플 서포트(Support) 밀도 함수를 생성하고,
    상기 표본 데이터 각각을 아토믹 셀(Atomic Cell)에 매핑하는 경우, 상기 아토믹 셀의 안정평형벡터(SEV, Stable Equilibrium Vector)를 그래프의 정점(V)으로 설정하며, 안정평형벡터(SEV) 간의 인접 관계를 전이평형벡터(TEV, Transitional Equilibrium Vector)에 기초하여 상기 그래프의 간선(E)으로 설정하고, 상기 간선(E)의 연결 강도를 상기 전이평형벡터(TEV)에 대응하는 상기 샘플 서포트 밀도 함수의 값으로 설정하는 프로세서를 포함하며,
    상기 프로세서는,
    상기 아토믹 셀 각각을 이에 대응하는 서브 클러스터로 매핑하고, 상기 간선(E)의 연결 강도를 밸런스 측정 수치에 기초하여 재설정하며, 재설정된 상기 연결 강도의 크기에 기초하여, 계층적 클러스터링을 수행하도록 구성되며,
    상기 프로세서는,
    간선(E) 각각에 대해, 서브 클러스터의 페어(Pair)에 대응하는 밸런스 측정 수치(BM1) 및 상기 페어를 이루는 서브 클러스터 각각의 밸런스 측정 수치(BM2, BM3)를 산출하고,
    간선(E) 각각에 대해, 전이평형벡터(TEV)의 샘플 서포트 밀도 함수의 값, 산출된 페어(Pair)에 대응하는 밸런스 측정 수치(BM1) 및 상기 페어를 이루는 서브 클러스터 각각의 밸런스 측정 수치(BM2, BM3)에 기초하여, 상기 간선(E) 각각의 연결 강도를 재설정하도록 구성되는, 공정 군집화 장치.
  7. 삭제
  8. 제6항에 있어서,
    상기 프로세서는,
    간선(E) 각각에 대해, 페어(Pair)에 대응하는 밸런스 측정 수치(BM1)에서, 페어를 이루는 서브 클러스터 각각의 밸런스 측정 수치(BM2, BM3) 중 작은 값을 차감한 간선 밸런스 조정값을 산출하고,
    간선(E) 각각에 대해, 전이평형벡터(TEV)의 샘플 서포트 밀도 함수의 값에서, 상기 간선 밸런스 조정값을 차감하여, 상기 간선(E) 각각의 연결 강도를 재설정하도록 구성되는, 공정 군집화 장치.
  9. 제6항 또는 제8항에 있어서,
    상기 프로세서는,
    재설정된 상기 간선(E) 각각의 연결 강도의 크기에 기초하여 오름차순으로 정렬하고,
    정렬된 오름차순에 대응하도록 상기 간선(E)에 포함된 서브 클러스터의 인덱스 정보를 조정하도록 구성되는, 공정 군집화 장치.
  10. 제9항에 있어서,
    상기 프로세서는,
    상기 간선(E)의 연결 강도가 작은 서브 클러스터 간의 병합을 시작으로, 기 설정된 최종 클러스터의 개수에 도달하기까지, 상기 서브 클러스터에 대한 병합을 계층적으로 수행하도록 구성되는, 공정 군집화 장치.
  11. 제6항에 있어서,
    디스플레이를 더 포함하며,
    상기 프로세서는,
    상기 표본 분포에 대응하는 샘플 서포트 밀도 함수 및 상기 공정 분포에 대응하는 공정 서포트 밀도 함수의 상기 디스플레이에 시간차를 두고 출력하도록 구성되는, 공정 군집화 장치.
  12. 컴퓨터상에서 수행하기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체에 있어서,
    상기 프로그램은, 프로세서에 의한 실행 시, 상기 프로세서가,
    민감 변수의 데이터를 포함하는 표본 데이터를 입력받아 표본 분포에 대응하는 샘플 서포트(Support) 밀도 함수를 생성하는 단계;
    상기 표본 데이터 각각을 아토믹 셀(Atomic Cell)에 매핑하는 경우, 상기 아토믹 셀의 안정평형벡터(SEV, Stable Equilibrium Vector)를 그래프의 정점(V)으로 설정하는 단계;
    안정평형벡터(SEV) 간의 인접 관계를 전이평형벡터(TEV, Transitional Equilibrium Vector)에 기초하여 상기 그래프의 간선(E)으로 설정하고, 상기 간선(E)의 연결 강도를 상기 전이평형벡터(TEV)에 대응하는 상기 샘플 서포트 밀도 함수의 값으로 설정하는 단계;
    상기 아토믹 셀 각각을 이에 대응하는 서브 클러스터로 매핑하는 단계;
    상기 간선(E)의 연결 강도를 밸런스 측정 수치에 기초하여 재설정하는 단계; 및
    재설정된 상기 연결 강도의 크기에 기초하여, 계층적 클러스터링을 수행하는 단계를 수행하도록 하는 실행 가능한 명령을 포함하며,
    상기 재설정하는 단계는,
    간선(E) 각각에 대해, 서브 클러스터의 페어(Pair)에 대응하는 밸런스 측정 수치(BM1) 및 상기 페어를 이루는 서브 클러스터 각각의 밸런스 측정 수치(BM2, BM3)를 산출하는 단계; 및
    간선(E) 각각에 대해, 전이평형벡터(TEV)의 샘플 서포트 밀도 함수의 값, 산출된 페어(Pair)에 대응하는 밸런스 측정 수치(BM1) 및 상기 페어를 이루는 서브 클러스터 각각의 밸런스 측정 수치(BM2, BM3)에 기초하여, 상기 간선(E) 각각의 연결 강도를 재설정하는 단계를 포함하는, 컴퓨터 판독 가능한 기록 매체.

KR1020200146312A 2020-11-04 2020-11-04 공정 분포 추정을 통한 공정 군집화 방법 및 그의 장치 KR102542451B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200146312A KR102542451B1 (ko) 2020-11-04 2020-11-04 공정 분포 추정을 통한 공정 군집화 방법 및 그의 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200146312A KR102542451B1 (ko) 2020-11-04 2020-11-04 공정 분포 추정을 통한 공정 군집화 방법 및 그의 장치

Publications (2)

Publication Number Publication Date
KR20220060375A KR20220060375A (ko) 2022-05-11
KR102542451B1 true KR102542451B1 (ko) 2023-06-12

Family

ID=81606968

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200146312A KR102542451B1 (ko) 2020-11-04 2020-11-04 공정 분포 추정을 통한 공정 군집화 방법 및 그의 장치

Country Status (1)

Country Link
KR (1) KR102542451B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101577249B1 (ko) * 2014-03-17 2015-12-14 서울대학교산학협력단 보로노이 셀 기반의 서포트 클러스터링 장치 및 방법
US20200082300A1 (en) 2018-09-10 2020-03-12 Google Llc Rejecting Biased Data Using a Machine Learning Model

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100895261B1 (ko) * 2007-08-22 2009-04-29 포항공과대학교 산학협력단 평형기반 서포트 벡터를 이용한 귀납적이고 계층적인군집화 방법
KR101475625B1 (ko) 2013-09-25 2014-12-22 한국해양과학기술원 컴퓨터가 수행하는 해양 기상 표본 추출 및 이를 이용한 통계적 신호 해석 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101577249B1 (ko) * 2014-03-17 2015-12-14 서울대학교산학협력단 보로노이 셀 기반의 서포트 클러스터링 장치 및 방법
US20200082300A1 (en) 2018-09-10 2020-03-12 Google Llc Rejecting Biased Data Using a Machine Learning Model

Also Published As

Publication number Publication date
KR20220060375A (ko) 2022-05-11

Similar Documents

Publication Publication Date Title
US10733332B2 (en) Systems for solving general and user preference-based constrained multi-objective optimization problems
Nillius et al. Automatic estimation of the projected light source direction
CN112699847A (zh) 基于深度学习的人脸特征点检测方法
US20230267730A1 (en) Image abnormality detection model training
CN113361397B (zh) 一种基于深度学习的人脸口罩佩戴情况检测方法
Hassanabadi et al. Robust fault detection of singular LPV systems with multiple time-varying delays
CN111310821A (zh) 多视图特征融合方法、系统、计算机设备及存储介质
CN114460941A (zh) 一种基于改进麻雀搜索算法的机器人路径规划方法及系统
KR102542451B1 (ko) 공정 분포 추정을 통한 공정 군집화 방법 및 그의 장치
Masuda et al. Common properties of scalable multiobjective problems and a new framework of test problems
CN104537224B (zh) 基于自适应学习算法的多状态系统可靠性分析方法及系统
D'Aronco et al. Online resource inference in network utility maximization problems
WO2023070274A1 (en) A method and an apparatus for continual learning
WO2023155301A1 (zh) 基于改进irt结构的答题序列预测方法、控制器及存储介质
Dvorkin et al. Price-aware deep learning for electricity markets
CN111382834B (zh) 一种置信度比较方法及装置
US20220245448A1 (en) Method, device, and computer program product for updating model
CN114741822A (zh) 一种自然灾害下配电网停电概率预测方法、系统及装置
Benini et al. Comparison between pure and surrogate assisted evolutionary algorithms for multiobjective optimization
CN113723540A (zh) 一种基于多视图的无人驾驶场景聚类方法及系统
CN113112092A (zh) 一种短期概率密度负荷预测方法、装置、设备和存储介质
Hamker RBF learning in a non-stationary environment: the stability-plasticity dilemma
Mozelli et al. SOFC for TS fuzzy systems: Less conservative and local stabilization conditions
Alessandri et al. Robust receding-horizon estimation for discrete-time linear systems in the presence of bounded uncertainties
JP2004062482A (ja) データ分類装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant