KR102321735B1 - 다차원의 부분집합 연관 분석에 기반한 인공지능 학습 데이터셋 공정성을 보장하는 장치 및 이를 이용한 인공지능 학습 데이터셋 공정성을 보장하는 방법 - Google Patents

다차원의 부분집합 연관 분석에 기반한 인공지능 학습 데이터셋 공정성을 보장하는 장치 및 이를 이용한 인공지능 학습 데이터셋 공정성을 보장하는 방법 Download PDF

Info

Publication number
KR102321735B1
KR102321735B1 KR1020200185398A KR20200185398A KR102321735B1 KR 102321735 B1 KR102321735 B1 KR 102321735B1 KR 1020200185398 A KR1020200185398 A KR 1020200185398A KR 20200185398 A KR20200185398 A KR 20200185398A KR 102321735 B1 KR102321735 B1 KR 102321735B1
Authority
KR
South Korea
Prior art keywords
reference value
column
values
column values
unit
Prior art date
Application number
KR1020200185398A
Other languages
English (en)
Inventor
권준호
김구
김진우
신현실
Original Assignee
부산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 부산대학교 산학협력단 filed Critical 부산대학교 산학협력단
Application granted granted Critical
Publication of KR102321735B1 publication Critical patent/KR102321735B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 인공지능 학습을 위한 원시 데이터셋 속성에 해당하는 속성값의 편향을 편향성을 제거하고 공정성이 보장된 인공지능 학습 데이터셋을 만드는 다차원의 부분집합 연관 분석에 기반한 인공지능 학습 데이터셋 공정성을 보장하는 장치 및 이를 이용한 인공지능 학습 데이터셋 공정성을 보장하는 방법에 관한 것이다.
본 발명에 따른 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 방법은, CSV(Comma-Separated Values) 형식으로 마련된 원시 데이터셋 파일을 업로드하는 제1단계; 상기 업로드 된 원시 데이터셋 파일의 구조를 파싱(Parsing)하는 제2단계; 상기 파싱된 구조에서 컬럼(Column)의 군집화 개수 및 전체 컬럼값의 개수를 확인하는 제3단계; 상기 컬럼(Column)의 군집화 개수 및 전체 컬럼값의 개수를 이용하여 기준값을 계산하는 제4단계; 하나의 군집을 선택한 후, 상기 선택된 군집의 컬럼값 개수와 상기 기준값을 비교하는 제5단계; 상기 제5단계에서 상기 선택된 군집의 컬럼값 개수가 상기 기준값 이상인 경우, 상기 기준값과 동일한 값의 컬럼값 개수만 포함하는 제6-1단계; 상기 제5단계에서 상기 선택된 군집의 컬럼값 개수가 상기 기준값 미만인 경우, 상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 값을 비교하는 제6-2단계; 상기 제6-2단계에서 상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 이상인 경우 및 상기 제6-1단계에서 상기 기준값과 동일한 값의 컬럼값 개수만 포함한 데이터를 조합하여 하위데이터셋을 생성하는 제7-1단계; 상기 제6-2단계에서 상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 미만인 경우, 상기 선택된 군집의 컬럼값은 제거하는 제7-2단계; 상기 컬럼(Column)의 군집화 개수만큼 상기 제5단계 내지 상기 제7단계를 반복 수행(Loop)하여 하위데이터셋을 추가로 생성하는 제8단계; 및 상기 추가로 생성된 하위데이터셋의 데이터를 취합하는 제9단계;를 포함하는 것을 특징으로 한다.

Description

다차원의 부분집합 연관 분석에 기반한 인공지능 학습 데이터셋 공정성을 보장하는 장치 및 이를 이용한 인공지능 학습 데이터셋 공정성을 보장하는 방법{APPARATUS FOR ENSURING FAIRNESS OF AI LEARNING DATASETS BASED ON MULTIDIMENSIONAL SUBSET ASSOCIATION ANALYSIS AND METHOD FOR ENSURING FAIRNESS OF AI LEARNING DATASETS THEREOF}
본 발명은 인공지능 학습을 위한 원시 데이터셋 속성에 해당하는 속성값의 편향을 편향성을 제거하고 공정성이 보장된 인공지능 학습 데이터셋을 만드는 다차원의 부분집합 연관 분석에 기반한 인공지능 학습 데이터셋 공정성을 보장하는 장치 및 이를 이용한 인공지능 학습 데이터셋 공정성을 보장하는 방법에 관한 것이다.
최근 인공지능 알고리즘이 빠르게 성장하고 있고, 이를 활용하여 의사결정을 내리기 전에 미리 그 위험과 영향을 예측하여 사람의 판단을 보조하거나 자동화할 수 있다. 치안, 정책, 금융, 의학, 채용 등 다양한 주제에서 인공지능 알고리즘이 의사결정 모형을 학습할 수 있고, 이러한 의사결정 모형들은 종종 사회에 존재하는 편향까지도 그대로 학습될 수 있다. 대상자의 삶에 중대한 영향을 미칠 수 있는 알고리즘이 내린 결정들은 그 결정과 무관해야 하는 특성에 따라 편향될 수 있으며, 성별·인종·종교 등 특정 집단에 속한 개인들에게 불리하게 작용한다.
인공지능(AI) 기술의 빠른 발달로 다양한 산업 분야에 적용되면서 인공지능의 역작용이나 사회 전반에 끼치는 영향에 대한 논의가 필요하다. 특히, 성별과 인종, 사회 집단 등에 대해 편향을 갖거나 투명성 결여 등의 공정성 문제가 이슈가 된다.
인공지능(AI)의 제대로 된 동작 및 결과를 위해서는 학습을 위한 데이터셋의 공정성 보장이 매우 중요하다. 예를 들어, 남과 여를 구분하는 인공지능에서 단순하게는 남과 여의 데이터 개수 비율이 공정하지 못한 (eg, 남 : 여 = 80,000row : 20,000row) 학습 데이터셋을 사용하게 된다면, 잘못된 결과를 초래하고 그 원인을 데이터셋의 불공정이라 할 수 있다.
앞서 기술한 예시에서, 해당 남녀의 데이터 종속적인 다른 속성들에서 편향이 발생하게 된다면 남과 여 데이터 비율을 맞추는 것만으로는 제대로 된 인공지능 학습의 결과를 기대할 수 없다. 현재는 데이터셋의 공정성 보장을 위한 구체적인 방법 및 기술이 개발되어 있지 않은 상황이다.
손영신, 「인공지능 알고리즘 기반 의사결정의 공정성 지각」, 서울대학교 대학원 :사회과학대학 심리학과, 2020. 02.
본 발명은 상기의 문제점을 해결하기 위해서 안출된 것으로서, 본 발명의 목적은 알고리즘이 내린 결정에서 그 결정과 무관해야 하는 특성에 따라 편향될 수 있는 문제를 해결하고 공정성을 보장하는 방법에 관한 것이다.
발명이 해결하고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명에 따른 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 방법은,
CSV(Comma-Separated Values) 형식으로 마련된 원시 데이터셋 파일을 업로드하는 제1단계;
상기 업로드 된 원시 데이터셋 파일의 구조를 파싱(Parsing)하는 제2단계;
상기 파싱된 구조에서 컬럼(Column)의 군집화 개수 및 전체 컬럼값의 개수를 확인하는 제3단계;
상기 컬럼(Column)의 군집화 개수 및 전체 컬럼값의 개수를 이용하여 기준값을 계산하는 제4단계;
하나의 군집을 선택한 후, 상기 선택된 군집의 컬럼값 개수와 상기 기준값을 비교하는 제5단계;
상기 제5단계에서 상기 선택된 군집의 컬럼값 개수가 상기 기준값 이상인 경우, 상기 기준값과 동일한 값의 컬럼값 개수만 포함하는 제6-1단계;
상기 제5단계에서 상기 선택된 군집의 컬럼값 개수가 상기 기준값 미만인 경우, 상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 값을 비교하는 제6-2단계;
상기 제6-2단계에서 상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 이상인 경우 및 상기 제6-1단계에서 상기 기준값과 동일한 값의 컬럼값 개수만 포함한 데이터를 조합하여 하위데이터셋을 생성하는 제7-1단계;
상기 제6-2단계에서 상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 미만인 경우, 상기 선택된 군집의 컬럼값은 제거하는 제7-2단계;
상기 컬럼(Column)의 군집화 개수만큼 상기 제5단계 내지 상기 제7단계를 반복 수행(Loop)하여 하위데이터셋을 추가로 생성하는 제8단계; 및
상기 추가로 생성된 하위데이터셋의 데이터를 취합하는 제9단계;를 포함하는 것을 특징으로 한다.
상기 제2단계에서 상기 원시 데이터셋 파일의 구조를 파싱(parsing)은,
컬럼값 개수, 컬럼(Column) 개수, 컬럼(Column)의 군집화, 컬럼(Column)의 군집화 개수 및 컬럼 이름(column header) 중 어느 하나 이상을 확인하여 추출하는 것을 특징으로 한다.
상기 기준값은 아래 [식 1]에 의해 계산되는 것을 특징으로 한다.
[식 1]
Figure 112020142359268-pat00001
상기 제9단계에서 추가로 생성된 하위데이터셋의 데이터 취합은 상기 선택된 군집의 컬럼값 개수, 기준값 및 선택된 컬럼을 입력값으로 하고 상기 제7-1단계에서 추가로 생성된 하위데이터를 결과값으로 하는 취합모듈(association module)로 취합하는 것을 특징으로 한다.
또한, 본 발명인 다차원의 부분집합 연관 분석에 기반한 인공지능 학습 데이터셋 공정성을 보장하는 장치는,
CSV(Comma-Separated Values) 형식으로 마련된 원시 데이터셋 파일을 업로드하는 업로드부(10);
상기 업로드 된 원시 데이터셋 파일의 구조를 파싱(Parsing)하는 파싱부(20);
상기 파싱된 구조에서 컬럼(Column)의 군집화 개수 및 전체 컬럼값의 개수를 확인하는 개수확인부(30);
상기 컬럼(Column)의 군집화 개수 및 전체 컬럼값의 개수를 이용하여 기준값을 계산하는 기준값계산부(40);
하나의 군집을 선택한 후, 상기 선택된 군집의 컬럼값 개수와 상기 기준값을 비교하는 기준값비교부(50);
상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 이상인 경우 및 상기 기준값과 동일한 값의 컬럼값 개수만 포함한 데이터를 조합하는 하위데이터셋생성부(60);
상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 미만인 경우, 상기 선택된 군집의 컬럼값은 제거하는 컬럼값제거부(70);
상기 컬럼(Column)의 군집화 개수만큼 상기 기준값비교부(50), 하위데이터셋생성부(60) 및 컬럼값제거부(70)를 반복 수행(Loop)하여 하위데이터셋을 추가로 생성하는 반복수행부(80);
상기 반복수행부(80)에 의해 상기 추가로 생성된 하위데이터셋의 데이터를 취합하는 데이터취합부(90);를 포함하는 것을 특징으로 한다.
상기 파싱부는,
상기 원시 데이터셋 파일의 구조에서 컬럼값 개수, 컬럼(Column) 개수, 컬럼(Column)의 군집화, 컬럼(Column)의 군집화 개수 및 컬럼 이름(column header) 중 어느 하나 이상을 확인하여 추출하는 것을 특징으로 한다.
상기 기준값은 아래 [식 1]에 의해 계산되는 것을 특징으로 한다.
[식 1]
Figure 112020142359268-pat00002
상기 데이터취합부(90)는 상기 선택된 군집의 컬럼값 개수, 기준값 및 선택된 컬럼을 입력값으로 하고 상기 추가로 생성된 하위데이터를 결과값으로 하는 취합모듈(association module)로 취합하는 것을 특징으로 한다.
상기 과제의 해결 수단에 의해, 본 발명은 알고리즘이 내린 결정에서 그 결정과 무관해야 하는 특성에 따라 편향될 수 있는 문제를 해결하고 공정성을 보장할 수 있다.
도 1은 본 발명인 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 방법을 보여주는 순서도이다.
도 2는 본 발명인 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 장치를 나타내는 구성도이다.
도 3은 종래의 데이터셋을 나타낸 그래프 결과이다.
도 4는 본 발명에 의해 실행된 데이터셋 그래프 결과이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.
본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다.
아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다.
본 발명에 대한 해결하고자 하는 과제, 과제의 해결 수단, 발명의 효과를 포함한 구체적인 사항들은 다음에 기재할 실시 예 및 도면들에 포함되어 있다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다.
이하, 첨부된 도면을 참조하여 본 발명을 보다 상세히 설명하기로 한다.
본 발명은 인공지능 학습을 위한 원시 데이터셋 속성에 해당하는 속성값의 편향을 편향성을 제거하고 공정성이 보장된 인공지능 학습 데이터셋을 만드는 다차원의 부분집합 연관 분석에 기반한 인공지능 학습 데이터셋 공정성을 보장하는 장치 및 이를 이용한 인공지능 학습 데이터셋 공정성을 보장하는 방법에 관한 것이다.
본 발명은 머신러닝(NL)에 원치 않은 편향이 발생할 수 있는 방식에 주목하면서 공정성을 염두에 두고 데이터세트를 살펴보고 분류자를 평가한다. 공정성에 관한 머신러닝 프로세스의 컨텍스트를 구성하기 위해 편향을 파악하고 이러한 편향이 해결되지 않을 때 발생하는 모델 예측의 장기적인 영향을 고려한다.
본 발명인 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 방법은, 도 1에 나타난 바와 같이 아래 단계에 의해 수행된다.
먼저, 제1단계(S10)는 CSV(Comma-Separated Values) 형식으로 마련된 원시 데이터셋 파일을 업로드한다. 보다 구체적으로, 상기 CSV(Comma-Separated Values) 형식은 테이블(Table), 필드(Field), 컬럼(Column) 및 컬럼값을 형성하는 것이다.
상기 테이블(Table)은 빠른 참조를 위해 적당한 형태로 자료를 모아 놓은 것으로, 관계 데이터 베이스 모델(relational data base model)에서 자료의 구조를 2차원의 표로 나타낸 것이다. 즉, 컬럼값과 컬럼의 형태로 관리되며 키를 지정함으로써 원하는 자료를 빠르고 쉽게 찾아 낼 수도 있다.
상기 필드(Field)는 어떠한 의미를 지니는 정보의 한 조각으로, 데이터베이스 시스템에서 처리의 최소 단위가 되는 것을 말한다.
상기 컬럼값은 관계형 데이터베이스에서 레코드(record) 또는 튜플(tuple)로 불리기도 하며, 어떤 테이블에서 단일 구조 데이터 항목을 가리킨다. 간단한 용어로, 데이터베이스 테이블은 컬럼값과 컬럼(Column) 또는 필드로 구성되어 있다고 간주할 수 있다. 각 테이블의 컬럼값은 일련의 관련 자료를 나타내며, 테이블에서 모든 컬럼값은 동일한 구조를 가지고 있다.
상기 컬럼(Column)은 관계형 데이터베이스 테이블에서 특정한 단순 자료형의 일련의 데이터값과 테이블에서의 각 컬럼을 말한다.
다음으로, 제2단계(S20)는 상기 업로드 된 원시 데이터셋 파일의 구조를 파싱(Parsing)한다. 본 발명에서 인공지능 학습을 위한 원시 데이터셋 속성에 해당하는 속성값의 편향을 CSV 형식으로 마련된 원시 데이터셋 파일의 구조를 파싱(parsing)한다.
상기 제2단계(S20)에서 상기 원시 데이터셋 파일의 구조를 파싱(parsing)은 컬럼값 개수, 컬럼(Column) 개수, 컬럼(Column)의 군집화, 컬럼(Column)의 군집화 개수 및 컬럼 이름(column header) 중 어느 하나 이상을 확인하여 추출 하는 것이 바람직하다.
상기 컬럼(Column)의 군집화는 원시 데이터셋 파일에서 각 필드(Field)에 해당하는 값을 카테고리로 분류하여 놓은 것으로, 각 컬럼(Column)은 특징(Features)에 따라 분류한다.
다음으로, 제3단계(S30)는 상기 파싱된 구조에서 컬럼(Column)의 군집화 개수 및 전체 컬럼값의 개수를 확인한다.
다음으로, 제4단계(S40)는 상기 컬럼(Column)의 군집화 개수 및 전체 컬럼값의 개수를 이용하여 기준값을 계산한다. 보다 구체적으로, 상기 기준값은 아래 [식 1]에 의해 계산되는 것을 특징으로 한다.
[식 1]
Figure 112020142359268-pat00003
상기 기준값은 전체 컬럼값의 개수에서 컬럼(Column)의 군집화 개수을 나눈 값으로, 필드(Field)를 군집에 따른 평균값을 계산하여 각 군집의 기준이 되는 값을 확인 할 수 있도록 한다.
일실시예로, 전체 컬럼값의 개수가 2,000이고 컬럼(Column)의 군집화 개수이 4개인 경우, 기준값은 500이라 할 수 있다.
다음으로, 제5단계(S50)는 하나의 군집을 선택한 후, 상기 선택된 군집의 컬럼값 개수와 상기 기준값을 비교한다. 상기 제5단계(S50)는 각 군집에 따라 반복수행(LOOP)을 실시한다.
다음으로, 제6단계(S60)는 상기 제5단계(S50)에서 비교 된 값을 이용하여 포함될 컬럼값의 개수를 확정한다. 상기 제6단계(S60)는 아래 제6-1단계(S61) 및 제6-2단계(S62)로 분리하여 수행한다.
상기 제6-1단계(S61)는 상기 제5단계(S50)에서 상기 선택된 군집의 컬럼값 개수가 상기 기준값 이상인 경우, 상기 기준값과 동일한 값의 컬럼값 개수만 포함한다.
일실시예로, 상기 기준값이 500일 때, 제1군집의 컬럼값 개수가 600인 경우 상기 제1군집은 상기 기준값에 해당하는 500개의 컬럼값만 포함하고 나머지 100개에 해당하는 컬럼값은 버리거나 제거한다.
상기 제6-2단계(S62)는 상기 제5단계(S50)에서 상기 선택된 군집의 컬럼값 개수가 상기 기준값 미만인 경우, 상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 값을 비교한다.
일실시예로, 상기 기준값이 500일 때, 제2군집의 컬럼값 개수가 100인 경우 상기 기준값의 10%인 50과 상기 제2군집의 컬럼값 개수인 100을 비교하고 상기 제2군집의 컬럼값 개수가 상기 기준값을 초과함을 확인한다.
다음으로, 제7단계(S70)는 상기 제6-1단계(S61) 및 제6-2단계(S62)에서 수행 된 값을 이용하여 수행하며, 상기 확정된 컬럼값의 개수를 포함한 데이터를 조합하여 하위데이터셋을 생성한다. 상기 제7단계(S70)는 아래 제7-1단계(S71) 및 제7-2단계(S72)로 분리하여 수행한다.
상기 제7-1단계(S71)는 상기 제6-2단계(S62)에서 상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 이상인 경우 및 상기 제6-1단계(S61)에서 상기 기준값과 동일한 값의 컬럼값 개수만 포함한 데이터를 조합하여 하위데이터셋을 생성한다.
일실시예로, 상기 제2군집의 컬럼값 개수(100)는 상기 기준값의 10%(50)보다 크므로 상기 제2군집은 상기 하위데이터셋에 포함되어 생성된다.
또한, 상기 제1군집은 상기 기준값에 해당하는 500개의 컬럼값만 포함하여 상기 하위데이터셋에 포함되어 생성된다.
상기 제7-2단계(S72)는 상기 제6-2단계에서 상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 미만인 경우, 상기 선택된 군집의 컬럼값은 제거한다.
일실시예로, 상기 기준값이 500일 때, 제3군집의 컬럼값 개수가 30인 경우 상기 제3군집의 컬럼값 개수가 상기 기준값 미만이므로 상기 기준값의 10%인 50과 상기 제2군집의 컬럼값 개수인 30을 비교하고, 상기 제6-2단계(S62)에서 상기 기준값의 10%보다 미만으로 판단한 경우 상기 제7-2단계(S72)에서 상기 제3군집의 컬럼값은 삭제하거나 제거한다.
다음으로, 제8단계(S80)는 상기 컬럼(Column)의 군집화 개수만큼 상기 제5단계(S50) 내지 상기 제7단계(S70)를 반복 수행(Loop)하여 하위데이터셋을 추가로 생성한다.
다음으로, 제9단계(S90)는 상기 추가로 생성된 하위데이터셋의 데이터를 취합한다. 보다 구체적으로, 상기 제9단계에서 추가로 생성된 하위데이터셋의 데이터 취합은 상기 선택된 군집의 컬럼값 개수, 기준값 및 선택된 컬럼(Column)을 입력값(input)으로 하고 상기 제7-1단계(S71)에서 추가로 생성된 하위데이터셋을 결과값(output)으로 하여 취합하는 것으로, 상기 반복 수행(Loop)의 재수행을 통해 취합한다.
본 발명에 의한 일실시예로, 전체 100개 값을 가진 컬럼(Column)에서 상기 입력값은 백인남자 35, 백인여자 30, 흑인남자 20, 흑인여자 15라 하면 상기 제9단계(S90)에서 컬럼값 추출 후 백인남자 25, 백인여자 25, 흑인남자 20, 흑인여자 15로 취합하고 결과값은 85개 값을 가진 공정한 서브셋을 획득한다.
또한, 본 발명인 다차원의 부분집합 연관 분석에 기반한 인공지능 학습 데이터셋 공정성을 보장하는 장치는, 도 2에 나타난 바와 같이, 업로드부(10), 파싱부(20), 개수확인부(30), 기준값계산부(40), 기준값비교부(50), 하위데이터셋생성부(60), 컬럼값제거부(70), 반복수행부(80) 및 데이터취합부(90)로 구성된다.
먼저, 상기 업로드부(10)는 원시 데이터셋 파일이 CSV(Comma-Separated Values) 형식인지 확인 후 파일을 업로드한다. 보다 구체적으로, 상기 CSV(Comma-Separated Values) 형식은 테이블(Table), 필드(Field), 컬럼(Column) 및 컬럼값을 형성하는 것이다.
다음으로, 상기 파싱부(20)는 상기 원시 데이터셋 파일의 구조를 파싱(parsing)한다. 상기 파싱부(20)는 상기 원시 데이터셋 파일의 구조를 파싱(parsing)은 컬럼값 개수, 컬럼(Column) 개수, 컬럼(Column)의 군집화, 컬럼(Column)의 군집화 개수 및 컬럼 이름(column header) 중 어느 하나 이상을 확인하여 추출 하는 것이 바람직하다.
상기 컬럼(Column)의 군집화는 원시 데이터셋 파일에서 각 필드(Field)에 해당하는 값을 카테고리로 분류하여 놓은 것으로, 각 컬럼(Column)은 특징(Features)에 따라 분류한다.
다음으로, 상기 개수확인부(30)는 상기 파싱된 구조에서 컬럼(Column)의 군집화 개수 및 전체 컬럼값의 개수를 확인한다.
다음으로, 상기 기준값계산부(40)는 상기 컬럼(Column)의 군집화 개수 및 전체 컬럼값의 개수를 이용하여 기준값을 계산한다. 상기 기준값은 아래 [식 1]에 의해 계산되는 것을 특징으로 한다.
[식 1]
Figure 112020142359268-pat00004
상기 기준값은 전체 컬럼값 개수에서 컬럼값들의 군집화 개수를 나눈 값으로, 필드(Field)를 군집에 따른 평균값을 계산하여 각 군집의 기준이 되는 값을 확인 할 수 있도록 한다.
일실시예로, 전체 컬럼값 개수가 2,000이고 컬럼값들의 군집화 개수이 4개인 경우, 기준값은 500이라 할 수 있다.
다음으로, 상기 기준값비교부(50)는 하나의 군집을 선택한 후, 상기 선택된 군집의 컬럼값 개수와 상기 기준값을 비교한다.
일실시예로, 상기 기준값이 500일 때, 제1군집의 컬럼값 개수가 600인 경우 상기 제1군집은 상기 기준값에 해당하는 500개의 컬럼값만 포함한다.
다음으로, 상기 하위데이터셋생성부(60)는 상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 이상인 경우 및 상기 기준값과 동일한 값의 컬럼값 개수만 포함한 데이터를 조합한다.
일실시예로, 상기 기준값이 500일 때, 제2군집의 컬럼값 개수가 100인 경우 상기 기준값의 10%인 50과 상기 제2군집의 컬럼값 개수인 100을 비교하고 상기 제2군집의 컬럼값 개수가 상기 기준값을 초과함을 확인한다.
다음으로, 상기 컬럼값제거부(70)는 상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 미만인 경우, 상기 선택된 군집의 컬럼값은 제거한다.
일실시예로, 상기 기준값이 500일 때, 제1군집의 컬럼값 개수가 600인 경우 상기 제1군집은 상기 기준값에 해당하는 500개의 컬럼값만 포함하고 나머지 100개에 해당하는 컬럼값은 버리거나 제거한다.
또한, 상기 기준값이 500일 때, 제3군집의 컬럼값 개수가 30인 경우 상기 제3군집의 컬럼값 개수가 상기 기준값 미만이므로 상기 기준값의 10%인 50과 상기 제2군집의 컬럼값 개수인 30을 비교하고, 상기 제6-2단계(S62)에서 상기 기준값의 10%보다 미만으로 판단한 경우 상기 제7-2단계(S72)에서 상기 제3군집의 컬럼값은 삭제하거나 제거한다.
다음으로, 상기 반복수행부(80)는 상기 컬럼(Column)의 군집화 개수만큼 상기 기준값비교부(50), 하위데이터셋생성부(60) 및 컬럼값제거부(70)를 반복 수행(Loop)하여 하위데이터셋을 추가로 생성한다.
다음으로, 상기 데이터취합부(90)는 상기 반복수행부(80)에 의해 상기 추가로 생성된 하위데이터셋의 데이터를 취합한다. 상기 데이터취합부(90)는 특정 군집의 컬럼값 개수, 기준값 및 특정 컬럼(Column)을 입력값으로 하고 상기 하위데이터셋을 결과값으로 하여 취합하는 것으로, 상기 반복 수행(Loop)의 재수행을 통해 취합한다.
일실시예로, 본 발명인 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 장치 및 이를 이용한 인공지능 학습 데이터셋 공정성을 보장하는 방법은 CHICAGO DATA PORTAL의 TRANSPORTATION 도메인 데이터셋에서 TRAFFIC CRASHES-CRASHES 데이터셋을 활용하였다.
데이터셋 및 예상 작업 정보는 아래와 같다.
- SOURCE : TRAFFIC CRASHES - CRASHES
- 원본 데이터셋에서 머신러닝 공정성에 영향을 미칠 수 있는 FIELD 만을 이므이 선택하여 학습에 사용
- 원본 데이터셋의 DAMAGE FIELD 수정 사용
· $500 OR LESS : ≤ 1500
· $501 - $1,500 : ≤ 1500
· OVER - $1,500 : 〉 1500
수적 특징(NUMERIC FEATURES)은 아래와 같다.
· posted_speed_limit : 사고 당시 경찰에 의해 기록 된 차량의 속도 정보
범주적 특징(CATEGORICAL FEATURES)은 아래와 같다.
· weather_condition : 사고 당시 경찰에 의해 기록 된 날씨 정보. 입력값 예시: CLEAR , RAIN etc.
· lighting_condition : 사고 당시 경찰에 의해 기록 된 조명(밝기) 정보. 입력값 예시: DAYLIGHT, DARKNESS, DARKNESS LIGHTED ROAD etc.
· roadway_surface_cond : 사고 당시 경찰에 의해 기록 된 사고지점 노면의 상태 정보. 입력값 예시: DRY, ICE, WET etc.
· first_crash_type : 사고 당시 경찰에 의해 기록 된 사고타입 정보. 입력값 예시: REAR EDN, TURNING, ANGLE, PARKED MOTOR VEHICLE etc.
예측(PREDICTION) 작업은 교통사고 수리비가 $1,500를 초과하는지 확인하기 위해 실행한다.
라벨(LABEL)은 교통 사고 수리비가 $1,500 넘는지 여부를 나타낸다.
도 3은 종래의 데이터셋을 나타낸 것으로, 범주적 특징(CATEGORICAL FEATURES)에 의해 필터링 되었을 때 그래프에 나타난 바와 같이 각 특징의 데이터에서 그래프 편차가 큼을 확인할 수 있다.
한편, 도 4는 본 발명에 의해 실행된 데이터셋을 나타낸 것으로, 범주적 특징(CATEGORICAL FEATURES)에 의해 필터링 되었을 때 그래프에 나타난 바와 같이 각 특징의 데이터에서 그래프 편차가 작음을 확인할 수 있다.
상기 과제의 해결 수단에 의해, 본 발명은 알고리즘이 내린 결정에서 그 결정과 무관해야 하는 특성에 따라 편향될 수 있는 문제를 해결하고 공정성을 보장할 수 있다.
이와 같이, 상술한 본 발명의 기술적 구성은 본 발명이 속하는 기술분야의 당업자가 본 발명의 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다.
그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해되어야 하고, 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타나며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
S10. CSV(Comma-Separated Values) 형식으로 마련된 원시 데이터셋 파일을 업로드하는 제1단계
S20. 상기 업로드 된 원시 데이터셋 파일의 구조를 파싱(Parsing)하는 제2단계
S30. 상기 파싱된 구조에서 컬럼(Column)의 군집화 개수 및 전체 컬럼값의 개수를 확인하는 제3단계
S40. 상기 컬럼(Column)의 군집화 개수 및 전체 컬럼값의 개수를 이용하여 기준값을 계산하는 제4단계
S50. 하나의 군집을 선택한 후, 상기 선택된 군집의 컬럼값 개수와 상기 기준값을 비교하는 제5단계
S61. 상기 제5단계에서 상기 선택된 군집의 컬럼값 개수가 상기 기준값 이상인 경우, 상기 기준값과 동일한 값의 컬럼값 개수만 포함하는 제6-1단계
S62. 상기 제5단계에서 상기 선택된 군집의 컬럼값 개수가 상기 기준값 미만인 경우, 상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 값을 비교하는 제6-2단계
S71. 상기 제6-2단계에서 상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 이상인 경우 및 상기 제6-1단계에서 상기 기준값과 동일한 값의 컬럼값 개수만 포함한 데이터를 조합하여 하위데이터셋을 생성하는 제7-1단계
S72. 상기 제6-2단계에서 상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 미만인 경우, 상기 선택된 군집의 컬럼값은 제거하는 제7-2단계
S80. 상기 컬럼(Column)의 군집화 개수만큼 상기 제5단계 내지 상기 제7단계를 반복 수행(Loop)하여 하위데이터셋을 추가로 생성하는 제8단계
S90. 상기 추가로 생성된 하위데이터셋의 데이터를 취합하는 제9단계
10. 업로드부
20. 파싱부
30. 개수확인부
40. 기준값계산부
50. 기준값비교부
60. 하위데이터셋생성부
70. 컬럼값제거부
80. 반복수행부
90. 데이터취합부

Claims (10)

  1. 업로드부(10)가 CSV(Comma-Separated Values) 형식으로 마련된 원시 데이터셋 파일을 업로드하는 제1단계;
    파싱부(20)가 상기 업로드 된 원시 데이터셋 파일의 구조를 파싱(Parsing)하는 제2단계;
    개수확인부(30)가 상기 파싱된 구조에서 컬럼(Column)의 군집화 개수 및 전체 컬럼값의 개수를 확인하는 제3단계;
    기준값계산부(40)가 상기 컬럼(Column)의 군집화 개수 및 전체 컬럼값의 개수를 이용하여 기준값을 계산하는 제4단계;
    기준값비교부(50)가 하나의 군집을 선택한 후, 상기 선택된 군집의 컬럼값 개수와 상기 기준값을 비교하는 제5단계;
    하위데이터셋생성부(60)가 상기 제5단계에서 비교 된 값을 이용하여 포함 될 컬럼값의 개수를 확정하는 제6단계;
    컬럼값제거부(70)가 상기 확정된 컬럼값의 개수를 포함한 데이터를 조합하여 하위데이터셋을 생성하는 제7단계;
    반복수행부(80)가 상기 컬럼(Column)의 군집화 개수만큼 상기 제5단계 내지 상기 제7단계를 반복 수행(Loop)하여 하위데이터셋을 추가로 생성하는 제8단계; 및
    데이터취합부(90)가 상기 추가로 생성된 하위데이터셋의 데이터를 취합하는 제9단계;에 의해 실행되는 것을 특징으로 하는 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 방법.
  2. 제 1항에 있어서,
    상기 제2단계에서 상기 원시 데이터셋 파일의 구조를 파싱(parsing)은,
    컬럼값 개수, 컬럼(Column) 개수, 컬럼(Column)의 군집화, 컬럼(Column)의 군집화 개수 및 컬럼 이름(column header) 중 어느 하나 이상을 확인하여 추출하는 것을 특징으로 하는 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 방법.
  3. 제 1항에 있어서,
    상기 기준값은 아래 [식 1]에 의해 계산되는 것을 특징으로 하는 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 방법 :

    [식 1]
    Figure 112020142359268-pat00005

  4. 제 1항에 있어서,
    상기 제9단계에서 추가로 생성된 하위데이터셋의 데이터 취합은,
    상기 선택된 군집의 컬럼값 개수, 기준값 및 선택된 컬럼을 입력값(input)으로 하고 상기 제7단계에서 추가로 생성된 하위데이터를 결과값(output)으로 하는 취합모듈(association module)로 취합하는 것을 특징으로 하는 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 방법.
  5. 제 1항에 있어서,
    상기 제6단계는,
    상기 제5단계에서 상기 선택된 군집의 컬럼값 개수가 상기 기준값 이상인 경우, 상기 기준값과 동일한 값의 컬럼값 개수만 포함하는 제6-1단계; 및
    상기 제5단계에서 상기 선택된 군집의 컬럼값 개수가 상기 기준값 미만인 경우, 상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 값을 비교하는 제6-2단계;로 분리하여 수행하는 것을 특징으로 하는 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 방법.
  6. 제 5항에 있어서,
    상기 제7단계는,
    상기 제6-2단계에서 상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 이상인 경우 및 상기 제6-1단계에서 상기 기준값과 동일한 값의 컬럼값 개수만 포함한 데이터를 조합하여 하위데이터셋을 생성하는 제7-1단계; 및
    상기 제6-2단계에서 상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 미만인 경우, 상기 선택된 군집의 컬럼값은 제거하는 제7-2단계;로 분리하여 수행하는 것을 특징으로 하는 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 방법.
  7. CSV(Comma-Separated Values) 형식으로 마련된 원시 데이터셋 파일을 업로드하는 업로드부(10);
    상기 업로드 된 원시 데이터셋 파일의 구조를 파싱(Parsing)하는 파싱부(20);
    상기 파싱된 구조에서 컬럼(Column)의 군집화 개수 및 전체 컬럼값의 개수를 확인하는 개수확인부(30);
    상기 컬럼(Column)의 군집화 개수 및 전체 컬럼값의 개수를 이용하여 기준값을 계산하는 기준값계산부(40);
    하나의 군집을 선택한 후, 상기 선택된 군집의 컬럼값 개수와 상기 기준값을 비교하는 기준값비교부(50);
    상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 이상인 경우 및 상기 기준값과 동일한 값의 컬럼값 개수만 포함한 데이터를 조합하는 하위데이터셋생성부(60);
    상기 선택된 군집의 컬럼값 개수와 상기 기준값의 10% 미만인 경우, 상기 선택된 군집의 컬럼값은 제거하는 컬럼값제거부(70);
    상기 컬럼(Column)의 군집화 개수만큼 상기 기준값비교부(50), 하위데이터셋생성부(60) 및 컬럼값제거부(70)를 반복 수행(Loop)하여 하위데이터셋을 추가로 생성하는 반복수행부(80);
    상기 반복수행부(80)에 의해 상기 추가로 생성된 하위데이터셋의 데이터를 취합하는 데이터취합부(90);에 의해 실행되는 것을 특징으로 하는 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 장치.
  8. 제 7항에 있어서,
    상기 파싱부는,
    상기 원시 데이터셋 파일의 구조에서 컬럼값 개수, 컬럼(Column) 개수, 컬럼(Column)의 군집화, 컬럼(Column)의 군집화 개수 및 컬럼 이름(column header) 중 어느 하나 이상을 확인하여 추출하는 것을 특징으로 하는 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 장치.
  9. 제 7항에 있어서,
    상기 기준값은 아래 [식 1]에 의해 계산되는 것을 특징으로 하는 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 장치 :

    [식 1]
    Figure 112020142359268-pat00006

  10. 제 7항에 있어서,
    상기 데이터취합부(90)는,
    상기 선택된 군집의 컬럼값 개수, 기준값 및 선택된 컬럼을 입력값(input)으로 하고 상기 추가로 생성된 하위데이터를 결과값(output)으로 하는 취합모듈(association module)로 취합하는 것을 특징으로 하는 다차원의 부분집합 연관 분석에 기반 한 인공지능 학습 데이터셋 공정성을 보장하는 장치.
KR1020200185398A 2020-11-27 2020-12-29 다차원의 부분집합 연관 분석에 기반한 인공지능 학습 데이터셋 공정성을 보장하는 장치 및 이를 이용한 인공지능 학습 데이터셋 공정성을 보장하는 방법 KR102321735B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200161943 2020-11-27
KR20200161943 2020-11-27

Publications (1)

Publication Number Publication Date
KR102321735B1 true KR102321735B1 (ko) 2021-11-04

Family

ID=78521431

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200185398A KR102321735B1 (ko) 2020-11-27 2020-12-29 다차원의 부분집합 연관 분석에 기반한 인공지능 학습 데이터셋 공정성을 보장하는 장치 및 이를 이용한 인공지능 학습 데이터셋 공정성을 보장하는 방법

Country Status (2)

Country Link
KR (1) KR102321735B1 (ko)
WO (1) WO2022114639A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022114639A1 (ko) * 2020-11-27 2022-06-02 부산대학교 산학협력단 다차원의 부분집합 연관 분석에 기반한 인공지능 학습 데이터셋 공정성을 보장하는 장치 및 이를 이용한 인공지능 학습 데이터셋 공정성을 보장하는 방법
KR20230149914A (ko) 2022-04-20 2023-10-30 서울시립대학교 산학협력단 인공지능 모델 학습 장치 및 방법
KR20240032288A (ko) 2022-09-02 2024-03-12 동국대학교 산학협력단 정량적 녹차학습데이터셋 생성모듈과 정성적 녹차학습데이터셋 생성모듈로 이루어진 하이브리드형 녹차학습데이터셋 구축장치 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018113048A (ja) * 2013-02-20 2018-07-19 ハートフォード スチーム ボイラー インスペクション アンド インシュアランス カンパニー 外れ値偏りを低減するシステム及び方法
KR102005628B1 (ko) * 2017-04-26 2019-07-30 김정희 학습 데이터 전처리 방법 및 시스템
US20200081865A1 (en) * 2018-09-10 2020-03-12 Google Llc Rejecting Biased Data Using a Machine Learning Model
KR20200046899A (ko) * 2018-10-26 2020-05-07 삼성에스디에스 주식회사 관심 데이터 추출 방법 및 그 장치

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160096460A (ko) * 2015-02-05 2016-08-16 삼성전자주식회사 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법
KR102321735B1 (ko) * 2020-11-27 2021-11-04 부산대학교 산학협력단 다차원의 부분집합 연관 분석에 기반한 인공지능 학습 데이터셋 공정성을 보장하는 장치 및 이를 이용한 인공지능 학습 데이터셋 공정성을 보장하는 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018113048A (ja) * 2013-02-20 2018-07-19 ハートフォード スチーム ボイラー インスペクション アンド インシュアランス カンパニー 外れ値偏りを低減するシステム及び方法
KR102005628B1 (ko) * 2017-04-26 2019-07-30 김정희 학습 데이터 전처리 방법 및 시스템
US20200081865A1 (en) * 2018-09-10 2020-03-12 Google Llc Rejecting Biased Data Using a Machine Learning Model
KR20200046899A (ko) * 2018-10-26 2020-05-07 삼성에스디에스 주식회사 관심 데이터 추출 방법 및 그 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
손영신, 「인공지능 알고리즘 기반 의사결정의 공정성 지각」, 서울대학교 대학원 :사회과학대학 심리학과, 2020. 02.

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022114639A1 (ko) * 2020-11-27 2022-06-02 부산대학교 산학협력단 다차원의 부분집합 연관 분석에 기반한 인공지능 학습 데이터셋 공정성을 보장하는 장치 및 이를 이용한 인공지능 학습 데이터셋 공정성을 보장하는 방법
KR20230149914A (ko) 2022-04-20 2023-10-30 서울시립대학교 산학협력단 인공지능 모델 학습 장치 및 방법
KR20240032288A (ko) 2022-09-02 2024-03-12 동국대학교 산학협력단 정량적 녹차학습데이터셋 생성모듈과 정성적 녹차학습데이터셋 생성모듈로 이루어진 하이브리드형 녹차학습데이터셋 구축장치 및 방법

Also Published As

Publication number Publication date
WO2022114639A1 (ko) 2022-06-02

Similar Documents

Publication Publication Date Title
KR102321735B1 (ko) 다차원의 부분집합 연관 분석에 기반한 인공지능 학습 데이터셋 공정성을 보장하는 장치 및 이를 이용한 인공지능 학습 데이터셋 공정성을 보장하는 방법
WO2019238109A1 (zh) 一种故障根因分析的方法及装置
CN102982344B (zh) 基于同时融合多视角特征及多标签信息的支持向量机分类方法
CN102968637B (zh) 一种复杂背景图像文字分割方法
CN106022300A (zh) 基于级联深度学习的交通标志识别方法和系统
CN109635296A (zh) 新词挖掘方法、装置计算机设备和存储介质
CN109218223B (zh) 一种基于主动学习的鲁棒性网络流量分类方法及系统
CN104036023A (zh) 一种融合上下文的树形视频语义索引建立方法
CN111814472B (zh) 文本识别方法、装置、设备及存储介质
CN105975491A (zh) 企业新闻分析方法及系统
JP2018511109A (ja) 分散データからの学習
Yilmaz et al. A vehicle detection approach using deep learning methodologies
US11803971B2 (en) Generating improved panoptic segmented digital images based on panoptic segmentation neural networks that utilize exemplar unknown object classes
CN110929806B (zh) 基于人工智能的图片处理方法、装置及电子设备
CN106126585A (zh) 基于质量分级与感知哈希特征组合的无人机图像检索方法
Zhang et al. A decision tree approach for traffic accident analysis of Saskatchewan highways
CN104102730B (zh) 一种基于已知标签的大数据常态模式提取方法及系统
CN113378962B (zh) 一种基于图注意力网络的服装属性识别方法与系统
CN108920694B (zh) 一种短文本多标签分类方法及装置
CN112990371B (zh) 一种基于特征扩增的无监督夜间图像分类方法
Tao et al. A traffic accident morphology diagnostic model based on a rough set decision tree
CN114358177B (zh) 一种基于多维度特征紧凑决策边界的未知网络流量分类方法及系统
CN105469095A (zh) 一种基于车型图像的模式集直方图的车型识别方法
CN116521729A (zh) 一种基于Elasticsearch的信息分类搜索方法及装置
CN115168609A (zh) 一种文本匹配方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant