KR102406961B1 - 자가 지도학습을 통한 데이터 특성 학습 방법 및 가짜 정보 판별 방법 - Google Patents

자가 지도학습을 통한 데이터 특성 학습 방법 및 가짜 정보 판별 방법 Download PDF

Info

Publication number
KR102406961B1
KR102406961B1 KR1020210007638A KR20210007638A KR102406961B1 KR 102406961 B1 KR102406961 B1 KR 102406961B1 KR 1020210007638 A KR1020210007638 A KR 1020210007638A KR 20210007638 A KR20210007638 A KR 20210007638A KR 102406961 B1 KR102406961 B1 KR 102406961B1
Authority
KR
South Korea
Prior art keywords
learning
data
artificial intelligence
original data
self
Prior art date
Application number
KR1020210007638A
Other languages
English (en)
Other versions
KR20220065640A (ko
Inventor
홍채은
Original Assignee
홍채은
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 홍채은 filed Critical 홍채은
Publication of KR20220065640A publication Critical patent/KR20220065640A/ko
Application granted granted Critical
Publication of KR102406961B1 publication Critical patent/KR102406961B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0278Product appraisal

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Evolutionary Computation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Molecular Biology (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명에 따른 자가 지도학습을 통한 데이터 특성 학습 방법은, 라벨링이 되지 않은 원본 데이터를 마련하는 단계, 상기 원본 데이터로부터 지도학습을 위한 문제를 생성하고, 인공지능으로 하여금 문제를 해결하도록 하여 인공지능을 학습하는 단계 및 상기 인공지능이 데이터 자체 특성을 도출할 때까지 문제를 변경하며 인공지능을 반복 학습하는 단계를 포함한다.

Description

자가 지도학습을 통한 데이터 특성 학습 방법 및 가짜 정보 판별 방법{ A method of learning data characteristics and method of identifying fake information through self-supervised learning}
본 발명은 자가 지도학습을 통한 데이터 특성 학습 방법 및 가짜 정보 판별 방법에 관한 것이다.
근래에 들어 딥러닝은 얼굴 인식, 전신 인식, 자세 인식, 음성 인식, 객체 인식, 데이터 마이닝 등 다양한 인식에 적용되고 있다. 딥러닝에 의한 학습의 가장 큰 장점은 기존에는 연구자들이 인식을 위해 구축한 최적의 특징(SIFT, LBP, HOG 등) 설계에 많은 노력이 필요했지만 딥러닝은 데이터로부터 자연스러운 특징을 스스로 학습할 수 있어 해당 분야 전문가의 지식이나 응용 분야의 제한을 적게 받는다는 점이다. 이러한 장점에도 불구하고, 딥러닝이 원활히 이루어지려면 충분한 학습 데이터가 확보된 상태에서 학습이 이루어져야 제기능이 발휘될 수 있다는 점이 단점으로 지적된다.
딥러닝의 응용 분야 중 하나로 가짜 리뷰를 확인하는 것이 제안되고 있다. 최근 소비자들은 구매 결정에 앞서서 구매의 합리성을 파악하기 위해 정보 탐색 을 수행하는 경우가 많다. 최근의 급속한 언택트(untact)화로 정보 탐색에 있어서 이전 소비자들의 리뷰(review) 데이터들은 소비자에게 많은 정보를 제공하는 경우가 많다. 그만큼, 쇼핑몰, 블로그 등에서 상품사용에 대한 리뷰의 중요성이 높아지고 이에 따라, 리뷰를 적극적으로 활용하는 마케팅 또한 증가하는 추세이다. 이에 따라, 바이럴 마케팅이 증가하며, 제대로 된 리뷰가 아닌 리뷰어가 마케팅 업체로부터 금전적 대가를 받고 상품의 리뷰를 작성한 이른바‘거짓 리뷰(fake review)’가 생겼다. 이러한 거짓, 가짜 리뷰는 상품에 대한 객관적인 정보를 전달하지 않은 경우가 대부분이며, 심지어는 제품에 대한 기능, 효과 등을 허위로 표시하는 경우도 있기 때문에 문제된다.
이러한 가짜 리뷰를 딥러닝을 이용하여 판별하는 기술이 요구되고 있는 추세로, 다양한 방법들이 제안되고 있다. 그러나 기존에 제안된 다양한 방법은 대부분 지도학습 방법(supervised learning)을 제안하고 있는 한계가 존재한다. 리뷰 데이터는 객체 인식, 음성 인식 등의 분야와는 달리 대부분의 데이터가 라벨링 되지 않은(unlabeled) 데이터에 해당하여 지도학습 방법을 사용하기 위해서는 일일이 데이터에 라벨링을 해야만하여 데이터 전처리에 많은 시간적 비용적 소모가 발생할 수 있다. 또한, 객체 인식, 음성 인식 등은 정답이 명확하지만 리뷰의 경우 긍정/부정이 명확하지 않고 다양한 복합 정보를 제공한다는 점에서 주관성이 더 높을 수 있다. 대안으로 제시되는 비지도 학습(unsupervised learning)의 경우 클러스터 알고리즘(cluster algorithm) 및 베이시안 딥러닝(Bayesian deep neural network) 등이 제안되고 있으나, 데이터 학습에 이용하기에는 복잡하고 학습된 모델의 효용이 떨어지는 한계가 존재한다. 최근 주목받는 GAN 방법은 데이터 생성을 통한다는 장점이 있으나 이미지 영역에 국한되어 있어 텍스트 및 수치에 대한 적용 능력이 떨어진다는 한계가 존재한다. 이러한 주관성이 높은 데이터를 학습하고 사용자에게 도움이 될 수 있는 학습 방법을 제공할 수 있는 방법의 개발이 요구된다.
상술한 바와 같은 문제점을 해결하기 위해, 본 발명은 자가 지도학습을 통한 데이터 특성 학습 방법 및 가짜 정보 판별 방법을 제공하고자 한다.
자가 지도학습을 통한 데이터 특성 학습 방법은, 라벨링이 되지 않은 원본 데이터를 마련하는 단계, 상기 원본 데이터 자체로부터 지도학습을 위한 문제를 생성하고, 인공지능으로 하여금 문제를 해결하도록 하여 인공지능을 학습하는 단계 및 상기 인공지능이 데이터 자체 특성을 도출할 때까지 문제를 변경하며 인공지능을 반복 학습하는 단계를 포함한다.
상기 인공지능을 학습하는 단계는, 상기 원본 데이터를 소정의 방식으로 변경하는 단계 및 상기 변경된 원본 데이터와 상기 라벨링이 되지 않은 원본 데이터를 대조하여 상기 소정의 방식이 어떤 방식인지를 확인하도록 문제를 제공하여 인공지능을 학습시키는 단계를 포함할 수 있다.
상기 원본 데이터를 소정의 방식으로 변경하는 단계는 타겟 테스크를 결정하고 타겟 테스크와 상관관계가 존재하는 소스 테스크를 바탕으로 결정할 수 있다.
상기 인공지능을 반복 학습시키는 단계는, 원본 데이터의 클러스터링이 완료될 때까지 반복 학습시키는 단계일 수 있다.
상기 인공지능을 반복 학습하는 단계 이후에, 상기 인공지능이 학습한 데이터의 임베딩을 2차원으로 투영한 경우에, 클러스터링 에러 및 클러스터링 경계에 있는 이상 데이터(anomaly data)를 도출하는 단계를 더 포함할 수 있다.
본 발명에 따른 자가 지도학습을 통한 가짜 정보 판별 방법은, 라벨링이 되지 않은 원본 데이터를 마련하는 단계, 상기 원본 데이터 자체로부터 지도학습을 위한 문제를 생성하고, 인공지능으로 하여금 문제를 해결하도록 하여 인공지능을 학습하는 단계, 상기 인공지능이 데이터 자체 특성을 도출할 때까지 문제를 변경하며 인공지능을 반복 학습하는 단계 및 상기 인공지능을 바탕으로 데이터의 이상 데이터(anomaly data)인지 여부를 바탕으로 가짜 정보를 판별하는 단계를 포함한다.
상기 원본 데이터를 마련하는 단계는, 수치 데이터, 텍스트 데이터 중 적어도 하나를 포함하는 원본 데이터를 마련하는 단계이고, 상기 인공지능을 학습하는 단계는, 상기 원본 데이터의 종류에 따라 별도로 인공지능을 학습하는 단계일 수 있다.
상기 인공지능을 학습하는 단계는, 상기 수치 데이터에 대하여 수치 AI 모델로 학습하고, 상기 텍스트 데이터에 대하여 텍스트 AI로 모델로 학습한 뒤 각 퓨전 레이어로 임베딩을 혼합하는 단계를 더 포함할 수 있다.
상기 원본 데이터 자체로부터 지도학습을 위한 문제를 생성하는 단계는, 단어 예측하기 문제, 문장 내 공란 맞추기 문제, 문장 순서 맞추기 문제, 특징 맞추기 문제 중 적어도 하나를 포함할 수 있다.
본 발명에 따른 가짜 정보 판별 프로그램은 컴퓨터인 하드웨어와 결합되어, 전술한 방법을 실행하기 위해 매체에 저장될 수 있다.
본 발명에 따른 자가 지도학습을 통한 가짜 정보 판별 장치는, 제어부를 포함하고, 상기 제어부는 라벨링이 되지 않은 원본 데이터를 마련하는 단계, 상기 원본 데이터 자체로부터 지도학습을 위한 문제를 생성하고, 인공지능으로 하여금 문제를 해결하도록 하여 인공지능을 학습하는 단계, 상기 인공지능이 데이터 자체 특성을 도출할 때까지 문제를 변경하며 인공지능을 반복 학습하는 단계 및 상기 인공지능을 바탕으로 데이터의 이상 데이터(anomaly data)인지 여부를 바탕으로 가짜 정보를 판별하는 단계를 수행할 수 있다.
본 발명에 따른 자가 지도학습을 통한 데이터 특성 학습 방법 및 가짜 정보 판별 방법은 라벨링 되지 않은 원본 데이터 자체의 특성을 학습하도록 함으로써 데이터의 양이 많지 않은 경우에도 신뢰도 높은 타겟 테스크의 해결이 가능할 수 있다.
본 발명에 따른 자가 지도학습을 통한 데이터 특성 학습 방법 및 가짜 정보 판별 방법은 원본 데이터 자체의 특성을 클러스터링화하여 클러스터가 잘못되거나 경계에 있는 데이터를 이상 데이터로 판별할 수 있고, 이러한 특성을 활용하여 텍스트/수치 데이터를 포함하는 리뷰 데이터의 가짜 여부를 판별할 수 있다.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명에 따른 자가 지도학습을 통한 데이터 특성 학습 방법을 도시한 순서도이다.
도 2는 본 발명에 따른 자가 지도학습을 통한 데이터 특성 학습 방법을 활용한 가짜 정보 판별 방법을 도시한 순서도이다
도 3은 일 실시예에 따른 리뷰 데이터의 가짜 정보 판별을 위한 데이터 종류에 따른 AI 모델의 예시를 도시한 도면이다.
도 4는 소스 테스크를 활용한 사전학습 모델과 준지도 학습 모델을 결합한 가짜 정보 판별에 대한 AI 모델의 예시를 도시한 도면이다.
도 5는 일 실시예에 따른 소스 테스크의 예시들을 도시한 도면이다.
도 6은 복수의 소스 테스크를 해결한 AI 모델의 T-SNE를 도시한 것으로 경계선에 존재하거나 잘못 분류된 데이터를 가짜 정보로 판별하는 일례를 도시한 도면이다.
이하, 첨부된 도면을 참조하여 본 개시의 바람직한 실시예들을 상세히 설명한다. 본 개시의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 개시의 기술적 사상은 이하의 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 이하의 실시예들은 본 개시의 기술적 사상을 완전하도록 하고, 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 본 개시의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 개시의 기술적 사상은 청구항의 범주에 의해 정의될 뿐이다.
각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 개시를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 개시를 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다.
또한, 본 개시의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.
본 개시에서 사용되는 "포함한다 (comprises)" 및/또는 "포함하는 (comprising)"은 언급된 구성 요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성 요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
어느 하나의 실시예에 포함된 구성요소와, 공통적인 기능을 포함하는 구성 요소는, 다른 실시예에서 동일한 명칭을 사용하여 설명될 수 있다. 반대되는 기재가 없는 이상, 어느 하나의 실시예에 기재된 설명은 다른 실시예에도 적용될 수 있으며, 중복되는 범위 또는 당해 기술 분야에 속한 통상의 기술자가 자명하게 이해할 수 있는 범위 내에서 구체적인 설명은 생략될 수 있다.
이하, 본 개시의 몇몇 실시예들에 대하여 첨부된 도면에 따라 상세하게 설명한다.
이하, 본 발명의 바람직한 실시예 및 첨부한 도면을 참조하여 본 발명에 대해 상세히 설명한다.
도 1은 본 발명에 따른 자가 지도학습을 통한 데이터 특성 학습 방법을 도시한 순서도이다. 도 1을 참조하면, 라벨링이 되지 않은 원본 데이터를 마련하는 단계(S110), 원본 데이터 자체로부터 지도학습을 위한 문제를 생성하고, 인공지능으로 하여금 문제를 해결하도록 하여 인공지능을 학습하는 단계(S120), 상기 인공지능이 데이터 자체 특성을 도출할 때까지 문제를 변경하며 인공지능을 반복 학습하는 단계(S130)를 포함한다.
라벨링이 되지 않은 원본 데이터를 마련하는 단계(S110)는 데이터 특성을 학습하고자 하는 원본 데이터를 마련하는 단계일 수 있다. 본 발명에 따른 자가 지도학습을 통한 데이터 특성 학습 방법은 종래 기술 대비 학습의 효율이 높아 상대적으로 소수의 데이터를 마련하는 것으로 충분할 수 있다.
종래의 AI 학습 방법은 대부분 데이터와 정답이 주어진 지도학습(supervised learning)에 대한 것으로 라벨링이 되지 않은 데이터에 대하여 정답을 부여하는 라벨링 작업이 요구되고, 이미지를 학습하는 것과 달리 "언어"를 학습함에 있어서는 수만개의 데이터로도 부족하다고 보는 것이 일반적이다. 예를 들어, 위키피디아의 경우에는 50억개 이상의 문장 데이터를 보유하고 있다고 알려져있는데, 언어 학습을 위하여 이 데이터를 라벨링하는 것은 불가능에 가까우므로 그 대안으로 비지도 학습(unsupervised learning)이 제안된다. 그러나 비지도 학습은 모델링이 어렵고, 학습 효율이 낮으며, 성능 또한 떨어지는 것이 단점으로 지적된다.
본 단계(S110)에 있어서는, 이러한 문제를 해결하기 위해 자가지도 학습을 통한 비지도학습 모델을 통해 라벨링이 되지 않은 원본 데이터를 마련하는 것으로, 원본 데이터는 문자열, 문장, 단어 등의 텍스트 데이터와 수치 데이터를 포함할 수 있다. 그러나 이에 한정되는 것은 아니며 원본 데이터는 이미지 데이터, 영상 데이터도 포함될 수 있다.
예를 들어, 본 발명에 따른 자가 지도학습을 통한 데이터 특성 학습 방법은 가짜 정보 판별 방법, 구체적으로는 가짜 리뷰(fake review) 판별에 이용될 수 있다. 그에 따라 라벨링이 되지 않은 원본 데이터는 예를 들어, 평점/주문시간/리뷰적용여부 등의 수치 데이터와 주문음식, 지역, 요청사항, 작성리뷰 등 텍스트 데이터를 포함할 수 있다. 나아가 원본 데이터는 예시적으로 사용자가 촬영한 리뷰 촬영 데이터를 더 포함할 수 도 있다.
원본 데이터 자체로부터 지도학습을 위한 문제를 생성하고, 인공지능으로 하여금 문제를 해결하도록 하여 인공지능을 학습하는 단계(S120)는 주어진 원본 데이터 자체로부터 소스 테스크(source task)를 만들고 이를 통해 데이터 자체의 특성을 이해할 수 있도록 인공지능을 학습하는 단계이다.
구체적으로 본 단계는(S120), 상기 원본 데이터를 소정의 방식으로 변경하는 단계, 및 상기 변경된 원본 데이터와 상기 라벨링이 되지 않은 원본 데이터를 대조하여 상기 소정의 방식이 어떤 방식인지를 확인하도록 문제를 제공하여 인공지능을 학습시키는 단계를 포함할 수 있다.
원본 데이터를 소정의 방식으로 변경하는 단계는 타겟 테스크를 결정하고 타겟 테스크와 상관관계가 존재하는 소스 테스크를 바탕으로 결정할 수 있다.
본 발명에 따른 자가 지도학습을 통한 데이터 특성 학습 방법은 라벨링이 되지 않는 원본 데이터를 이용한 학습 방법이라는 점에서 비지도 학습의 특성을 가지나, 원본 데이터 자체로부터 정답을 만들어내고 이를 예측하는 학습 방법을 취함으로써 지도 학습의 특성을 가진다. 요컨대, 사람이 데이터에 라벨링을 직접하는 것이 아니라 데이터 자체의 특성에서 "정답"을 만들어내고, 이를 소스 테스크화 함으로써 주어진 데이터에 대하여 복수의 지도학습식 인공지능 학습이 가능하다.
예를 들어, 원본 데이터가 이미지인 경우에는, 이미지 데이터를 임의의 각도만큼 회전시키고, 해당 이미지의 회전양을 맞추는 소스 테스크를 만들어냄으로써 인공지능의 지도학습이 가능하다. 예를 들어, 이미지를 9등분하여 어느 조각이 어디에 위치하는지를 맞추는 문제 등 데이터 자체로부터 절대적 정답을 설정하고 이를 맞추도록 하게 할 수 있다. 이러한 소스 테스크는 "자가지도 학습의 문제"에 해당하는 것으로, 인공지능은 주어진 원본 데이터를 바탕으로 임의로 소스 테스크를 정의하고 풀어낼 수도 있으며, 사용자가 소스 테스크를 정의하고 제공함으로써 풀어낼 수도 있으며 특정 실시예에 한정되지 않는다. 이러한 자가지도 학습법을 통해 일반적으로는 수백만개의 학습 데이터가 요구되는 "언어"에 대한 비지도학습에 대해서 불과 수백개 내지 원본 데이터만 가지고도 효율성 있는 인공지능이 학습이 가능할 수 있고, 이를 따라 다양한 수백개 내지 수천개 수준의 원본데이터가 제공되는 많은 응용분야에 본 기법이 활용될 수 있다.
소스 테스크는 데이터의 종류/특성에 따라 다양하게 설정되고, 이를 학습함으로써 인공지능은 데이터 자체 특성에 대한 학습이 가능하나, 최종적으로 타겟팅하는 문제 - 타겟 테스크(target task) - 와 소스 테스크의 관련도가 높을수록 인공지능의 학습 효율이 향상될 수 있다. 구체적으로는 타겟 테스크과 소스 테스크의 상관도(correlation)가 높을수록 타겟 테스크를 풀이의 효율성이 높아질 수 있으며, 이를 바탕으로 적절한 소스 테스크의 선택이 가능할 수 있다.
예를 들어, 텍스트 기반의 온라인 상품 쇼핑몰 리뷰 데이터에 대한 가짜 리뷰 판별이 목적이면 가짜 리뷰 판별이 타겟 테스크로 정의되며, 이를 위한 원본 데이터 자체의 학습법으로는 "문장 순서 맞추기", "주요 단어 비워놓고 예측하기" 등 텍스트와 관련된 문제들이 소스 테스크로 선별될 수 있다. 자세한 예시는 도 5에서 후술한다.
상기 인공지능이 데이터 자체 특성을 도출할 때까지 문제를 변경하며 인공지능을 반복 학습하는 단계(S130)는 전술한 내용에 따른 소스 테스크의 종류를 변경하며 인공지능을 반복 학습하여 데이터 자체 특성을 도출하는 단계이다.
예를 들어, 서로 다른 복수의 소스 테스크를 학습한 인공지능 모델은 학습한 원본 데이터의 특성을 2차원 상에 시각화하는 기술(T-SNE)을 적용하였을 때, 데이터 특성에 따른 클러스터링이 이루어질 수 있다. 도 6을 참조하면, 예시적 데이터를 바탕으로 10개의 서로 다른 소스 테스크를 학습시킨 결과 데이터 자체적으로 도출한 소스 테스크를 바탕으로 지도학습을 시켰음에도, 비지도학습처럼 데이터 클러스터링이 이루어진 것을 확인할 수 있다.
도 2는 본 발명에 따른 자가 지도학습을 통한 데이터 특성 학습 방법을 활용한 가짜 정보 판별 방법을 도시한 순서도이다. 도 2를 참조하면 본 발명에 따른 가짜 정보 판별 방법은, 라벨링이 되지 않은 원본 데이터를 마련하는 단계(S210), 원본 데이터 자체로부터 지도학습을 위한 문제를 생성하고, 인공지능으로 하여금 문제를 해결하도록 하여 인공지능을 학습하는 단계(S220), 인공지능이 데이터 자체 특성을 도출할 때까지 문제를 변경하며 인공지능을 반복 학습하는 단계(S230), 및 인공지능을 바탕으로 데이터의 이상 데이터(anomaly data)인지 여부를 바탕으로 가짜 정보를 판별하는 단계(S240)를 포함한다.
본 방법에 있어서, 자가 지도학습의 방법에 대해서는 도 1에서 전술한바와 같으므로 중복되는 설명은 생략하고 본 단계에 있어서의 특징 위주로 후술한다.
원본 데이터를 마련하는 단계는(S210), 수치 데이터, 텍스트 데이터 중 적어도 하나를 포함하는 원본 데이터를 마련하는 단계일 수 있다. 본 가짜 정보 판별의 응용 분야는 전술한바와 같이 이미지 판별이 아닌 가짜 리뷰 판별과 같은 텍스트 데이터와 수치 데이터가 각각 마련되거나, 혼합되어 있는 원본 데이터가 위주이므로 해당 데이터를 마련할 수 있다.
상기 인공지능을 학습하는 단계(S220)는 상기 원본 데이터의 종류에 따라 별도로 인공지능을 학습하는 단계일 수 있다. 데이터 종류에 따른 별도의 인공지능 학습법은 도 3에서 후술한다.
인공지능을 바탕으로 데이터의 이상 데이터(anomaly data)인지 여부를 바탕으로 가짜 정보를 판별하는 단계(S240)는 클러스터링이 완료 될 때까지 소스 테스크의 설정을 통한 반복 학습을 통해 수백개 수천개 수준의 원본 데이터를 바탕으로도 텍스트 데이터, 수치 데이터와 같이 학습이 어려운 데이터에 대해서도 효율성 높은 학습이 가능하다.
본 발명은 상기 인공지능이 학습한 데이터의 임베딩을 2차원으로 투영한 경우에, 클러스터링 에러 및 클러스터링 경계에 있는 이상 데이터(anomaly data)를 도출하는 단계를 더 포함할 수 있다. 기존 비지도 학습 문제를 데이터 자체로부터 지도학습화 하고 이 지도학습을 풀게함으로써 데이터 자체의 특성을 학습한 인공지능은 데이터 임베딩을 2차원으로 투영한 이후의 1)클러스터 에러 및 2)클러스터 경계 데이터를 이상 데이터로 판별하거나, 이상 데이터 가능성을 제시함으로써 이상 데이터를 판별할 수 있다.
이러한 이상 데이터 판별은 예시에 불과하며 한정되는 것은 아니다. 예를 들어, 불확정성 분석(Uncertainty Analysis) 기법을 이용하여, 모델이 각 샘플에 대한 확신도를 풀고 결과값을 제공하도록 함으로써, 확신도 수치가 소정의 기준치보다 낮은 경우에는 해당 데이터를 이상 데이터로 판별하거나, 이상 데이터 가능성을 제시할 수도 있다.
또는, 자가지도학습을 통한 리뷰데이터의 특성 학습 이후에 준지도 학습 프레임워크(framework)를 도입하여 이상 데이터 판별에 대한 단일 모델을 제공할 수 있으며, 이는 도 4에서 후술한다.
도 3은 일 실시예에 따른 리뷰 데이터의 가짜 정보 판별을 위한 데이터 종류에 따른 AI 모델의 예시를 도시한 도면이다. 도 3을 참조하면, 마련된 원본 데이터는 텍스트 데이터 위주의 비구조화 데이터(Unstructured Data), 및 수치 데이터 위주의 구조화 데이터(Structured Data)를 포함할 수 있다(S310).
AI 모듈은 데이터의 종류에 따라 구조화 데이터를 별도로 학습(S320)하고, 비구조화 데이터를 별도로 학습(S330)할 수 있다. 예를 들어, 구조화 데이터의 학습(S320)은 수치 데이터의 학습에 유리한 인공지능 모델을 선택함으로써 d차원 임베딩으로 수행될 수 있다. 예를 들어, 해당 인공지능 모델은 MLP 일 수 있다. 예를 들어, 비구조화 데이터의 학습(S330)은 텍스트 데이터의 학습에 유리한 인공지능 모델을 선택함으로써 k차원 임베딩으로써 수행될 수 있다. 예를 들어, 해당 인공지능 모델은 korBERT일 수 있다. 각 모델을 통해 학습된 데이터는 벡터 데이터화 될 수 있다.
각 데이터 별로 학습된 데이터는 별도의 퓨전 레이어(FFN)를 통해 d+k차원 임베딩으로 통합될 수 있다(S340). 이후 통합된 데이터에 대해서 별도의 분류 레이어를 통해 데이터를 분류할 수도 있으며 이에 한정되지 않는다. 분류 레이어는 예를 들어 4가지 경우에 대한 분류를 진행할 수 있다.
만약, 마련된 데이터(S310)가 구조화 데이터 및 비구조화 데이터 중 어느 하나만을 포함할 경우, 해당 데이터에 해당되지 않는 단계(S320, S330)은 비활성화(deactivate)될 수 있다.
도 4는 소스 테스크를 활용한 사전학습 모델과 준지도 학습 모델을 결합한 가짜 정보 판별에 대한 AI 모델의 예시를 도시한 도면이다. 도 4를 참조하면, 라벨링 없는 원본 데이터(S410)에 대하여 전술한 자가지도학습(S420)을 수행한 이후에, 소량의 데이터에 대하여 스도 라벨링(Pseudo Labelling)을 통한 라벨링을 수행하고(S430), 해당 라벨링 된 데이터를 바탕으로 준지도학습 문제를 풀수 있다(S440). 이러한 방법을 통해 데이터가 가짜 데이터인지 여부에 대한 최종 AI 모델을 구축(S450)할 수 있다.
도 5는 일 실시예에 따른 소스 테스크의 예시들을 도시한 도면이다. 도 5를 참조하면, 원본 데이터 자체로부터 지도학습을 위한 문제를 생성하는 단계는, 단어 예측하기 문제, 문장 내 공란 맞추기 문제, 문장 순서 맞추기 문제, 특징 맞추기 문제 중 적어도 하나의 소스 테스크를 포함할 수 있다.
전술한 바와 같이 소스 테스크는 라벨링 되지 않은 원본 데이터 자체의 특성으로부터 정답이 도출될 수 있는 문제를 기준으로 결정될 수 있다. 다만, 소스 테스크의 선정을 목표로 하는 과제 - 타겟 테스크 - 와의 연관성이 높은 것으로 선정함으로써 인공지능 모델의 효율을 향상시킬 수 있다. 본 발명에 따른 타겟 테스크는 텍스트 또는 수치 기반의 원본 데이터를 기반으로 가짜 정보를 도출하고자 하는 것으로, 해당 타겟 테스크를 위하여 문장구조/어휘파악 기반의 소스 테스크를 예시적으로 선정할 수 있다.
도 5의 (a)를 참조하면, 단어 예측하기 문제(소스 테스크)가 도시된다. 예를 들어, 타겟하는 가짜 리뷰 데이터의 개수는 수만개 수준에 미치고 이를 통한 학습이 인공지능 모델링에 부족할 수 있다. 이 경우, 수천만개 이상의 라벨링 되지 않은 공유된 텍스트 데이터(예를 들어, 성경의 텍스트 데이터)를 가져오고, 해당 데이터를 바탕으로 단어 예측 자가학습을 수행한다. 예를 들어, open a bank라는 문장이 있을 때, open을 보여주면, a를 예측하고, open a를 보여주면 bank를 예측하게 하는 예측문제를 생성하게 한 뒤 인공지능으로 하여금 풀게 할 수 있다.
도 5의 (b)를 참조하면, 문장 내 공란 맞추기 문제가 소스 테스크로써 제공된다. 문장 내에 임의의 단어에 대해서 공란화 한 다음 인공지능으로 하여금 해당 공란에 적합한 단어를 예측하도록 지도학습을 수행할 수 있다. 단어의 종류와 위치에 따라 문장의 흐름, 상관관계 등에 대해서 인공지능이 자체적으로 학습이 가능하다.
도 5의 (c)를 참조하면, 문장 순서 맞추기 문제가 소스 테스크로써 제공된다. 두 문장을 제공한 뒤 순서가 타당한지 여부를 판별하도록 하고, 이를 바탕으로 텍스트의 전반적인 맥락을 이해하도록 인공지능 모델링이 가능할 수 있다.
도 5의 (d)를 참고하면, 수치와 텍스트가 결합된 복합 데이터의 경우, 수치 데이터의 경우, 일부 항목을 제외시키고 해당 항목에 대한 정답을 판별하는 문제를 설정하도록 할 수 있다.
이러한 텍스트 및 수치 데이터의 전반적인 데이터 특성을 이해할 수 있는 소스 테스크를 설정함으로써 가짜 리뷰 검증 등 타겟 테스크에 대한 효율적인 모델링 가능할 수 있다. 문장 자체의 흐름을 이해하기 위해 단어를 생성하는 소스 테스크를 설정하거나, 문장 추론을 위해 문장 내 공란 맞추기 문제등이 소스 테스크로 설정될 수 있다 .
예를 들어, 요식업 배달업/어플리케이션을 대상으로 리뷰 데이터를 원본 데이터로 삼아서 학습한 경우, 자가지도 학습을 통해, 23개의 특성 데이터를 포함하는 것으로 학습이 된 것이 확인 가능하였다. 요식업 배달업/어플리케이션의 학습 대상 데이터는 수만개 이하 수준으로 일반적인 방식의 인공지능 모델링으로는 학습에 부족한 데이터량임에도 불구하고, 본 발명에 따른 자가 지도학습 방법을 통해 효율적인 가짜 리뷰의 판별이 가능하다. 23개의 특성 데이터는 하기 [표 1]과 같다.
특성데이터 설명
특성데이터1 주문번호
특성데이터2 주문자의 ci 순번
특성데이터3 주문자의 회원번호
특성데이터4 주문자의 디바이스 번호
특성데이터5 주문한 가게의 가게 번호
특성데이터6 주문한 가게의 업주 번호
특성데이터7 주문지역(시)
특성데이터8 주문지역(구)
특성데이터9 주문지역(동)
특성데이터10 주문관련 요청 메시지 내용
특성데이터11 주문시간
특성데이터12 주문메뉴
특성데이터13 총 메뉴 주문 수량
특성데이터14 주문자의 쿠폰사용수
특성데이터15 메뉴별 주문 수량 * 메뉴금액
특성데이터16 주문자의 결재수단
특성데이터17 주문자의 리뷰작성 여부
특성데이터18 주문자의 리뷰작성시 생성한 리뷰 점수
특성데이터19 리뷰 작성 시간
특성데이터20 리뷰 이미지 삽입여부
특성데이터21 O2O서비스로 주문 여부
특성데이터22 주문완료/취소에 대한 정보
특성데이터23 주문일자
도 6은 복수의 소스 테스크를 해결한 AI 모델의 T-SNE를 도시한 것으로 경계선에 존재하거나 잘못 분류된 데이터를 가짜 정보로 판별하는 일례를 도시한 도면이다. 도 6을 참조하면, 인공지능이 학습한 데이터의 임베딩을 2차원으로 투영한 경우에, 클러스터링 에러 및 클러스터링 경계에 있는 이상 데이터의 판별이 가능할 수 있다.
자가 지도학습을 통한 데이터 특성 학습 방법 및 가짜 정보 판별 방법은 컴퓨터인 하드웨어와 결합되어 실행하기 위해 매체에 저장된 가짜 정보 판별 프로그램으로 구현될 수 있다.
본 발명의 실시예와 관련하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로 직접 구현되거나, 하드웨어에 의해 실행되는 소프트웨어 모듈로 구현되거나, 또는 이들의 결합에 의해 구현될 수 있다. 소프트웨어 모듈은 RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM), 플래시 메모리(Flash Memory), 하드 디스크, 착탈형 디스크, CD-ROM, 또는 본 발명이 속하는 기술 분야에서 잘 알려진 임의의 형태의 컴퓨터 판독가능 기록매체에 상주할 수도 있다.
본 발명에 따른 자가 지도학습을 통한 가짜 정보 판별 장치는, 제어부를 포함하고, 상기 제어부는 라벨링이 되지 않은 원본 데이터를 마련하는 단계, 상기 원본 데이터 자체로부터 지도학습을 위한 문제를 생성하고, 인공지능으로 하여금 문제를 해결하도록 하여 인공지능을 학습하는 단계, 상기 인공지능이 데이터 자체 특성을 도출할 때까지 문제를 변경하며 인공지능을 반복 학습하는 단계 및 상기 인공지능을 바탕으로 데이터의 이상 데이터인지 여부를 바탕으로 가짜 정보를 판별하는 단계를 수행할 수 있다.
이상에서와 같이 도면과 명세서에서 예시적인 실시예들이 개시되었다. 본 명세서에서 특정한 용어를 사용하여 실시예들을 설명되었으나, 이는 단지 본 개시의 기술적 사상을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 청구범위에 기재된 본 개시의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 개시의 진정한 기술적 보호범위는 첨부된 청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (10)

  1. 컴퓨팅 장치에 의해 각 단계가 수행되는 자가 지도학습을 통한 데이터 특성 학습 방법은,
    라벨링이 되지 않은 원본 데이터를 마련하는 단계;
    상기 원본 데이터로부터 지도학습을 위한 문제를 생성하고, 인공지능으로 하여금 문제를 해결하도록 하여 인공지능을 학습하는 단계; 및
    상기 인공지능이 데이터 자체 특성을 도출할 때까지 문제를 변경하며 인공지능을 반복 학습하는 단계;를 포함하고,
    상기 인공지능을 학습하는 단계는,
    타겟 테스크를 결정하고 상기 원본 데이터를 타겟 테스크와 상관관계가 존재하는 소스 테스크를 바탕으로 결정한 뒤 상기 원본 데이터를 상기 소스 테스크를 기준으로 변경하는 단계; 및
    상기 변경된 원본 데이터와 상기 라벨링이 되지 않은 원본 데이터를 대조하여 상기 소스 테스크에 따른 데이터 특성을 확인하도록 하여 인공지능을 학습시키는 단계;를 포함하는 자가 지도학습을 통한 데이터 특성 학습 방법.
  2. 삭제
  3. 삭제
  4. 제1 항에 있어서,
    상기 인공지능을 반복 학습시키는 단계는, 원본 데이터의 클러스터링이 완료될 때까지 반복 학습시키는 단계인 자가 지도학습을 통한 데이터 특성 학습 방법.
  5. 제4 항에 있어서,
    상기 인공지능을 반복 학습하는 단계 이후에,
    상기 인공지능이 학습한 데이터의 임베딩을 2차원으로 투영한 경우에, 클러스터링 에러 및 클러스터링 경계에 있는 이상 데이터(anomaly data)를 도출하는 단계;를 더 포함하는 자가 지도학습을 통한 데이터 특성 학습 방법.
  6. 컴퓨팅 장치에 의해 각 단계가 수행되는 자가 지도학습을 통한 가짜 정보 판별 방법은,
    라벨링이 되지 않은 원본 데이터를 마련하는 단계;
    상기 원본 데이터로부터 지도학습을 위한 문제를 생성하고, 인공지능으로 하여금 문제를 해결하도록 하여 인공지능을 학습하는 단계;
    상기 인공지능이 데이터 자체 특성을 도출할 때까지 문제를 변경하며 인공지능을 반복 학습하는 단계; 및
    상기 인공지능을 바탕으로 데이터의 이상 데이터(anomaly data)인지 여부를 바탕으로 가짜 정보를 판별하는 단계;를 포함하고,
    상기 인공지능을 학습하는 단계는,
    타겟 테스크를 결정하고 상기 원본 데이터를 타겟 테스크와 상관관계가 존재하는 소스 테스크를 바탕으로 결정한 뒤 상기 원본 데이터를 상기 소스 테스크를 기준으로 변경하는 단계; 및
    상기 변경된 원본 데이터와 상기 라벨링이 되지 않은 원본 데이터를 대조하여 상기 소스 테스크에 따른 데이터 특성을 확인하도록 하여 인공지능을 학습시키는 단계;를 포함하는 자가 지도학습을 통한 가짜 정보 판별 방법.
  7. 제6 항에 있어서,
    상기 원본 데이터를 마련하는 단계는,
    수치 데이터, 텍스트 데이터 중 적어도 하나를 포함하는 원본 데이터를 마련하는 단계이고,
    상기 인공지능을 학습하는 단계는, 상기 원본 데이터의 종류에 따라 별도로 인공지능을 학습하는 단계인 자가 지도학습을 통한 가짜 정보 판별 방법.
  8. 제7 항에 있어서,
    상기 인공지능을 학습하는 단계는, 상기 수치 데이터에 대하여 수치 AI 모델로 학습하고, 상기 텍스트 데이터에 대하여 텍스트 AI로 모델로 학습한 뒤 각 퓨전 레이어로 임베딩을 혼합하는 단계를 더 포함하는 자가 지도학습을 통한 가짜 정보 판별 방법.
  9. 제6 항에 있어서,
    상기 원본 데이터 자체로부터 지도학습을 위한 문제를 생성하는 단계는, 단어 예측하기 문제, 문장 내 공란 맞추기 문제, 문장 순서 맞추기 문제, 특징 맞추기 문제 중 적어도 하나를 포함하는 자가 지도학습을 통한 가짜 정보 판별 방법.
  10. 컴퓨터인 하드웨어와 결합되어, 제6항 내지 제9항 중 어느 한 항의 방법을 실행하기 위해 컴퓨터로 판독 가능한 기록 매체에 저장된, 가짜 정보 판별 컴퓨터 프로그램.
KR1020210007638A 2020-11-13 2021-01-19 자가 지도학습을 통한 데이터 특성 학습 방법 및 가짜 정보 판별 방법 KR102406961B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20200151712 2020-11-13
KR1020200151712 2020-11-13

Publications (2)

Publication Number Publication Date
KR20220065640A KR20220065640A (ko) 2022-05-20
KR102406961B1 true KR102406961B1 (ko) 2022-06-10

Family

ID=81798571

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210007638A KR102406961B1 (ko) 2020-11-13 2021-01-19 자가 지도학습을 통한 데이터 특성 학습 방법 및 가짜 정보 판별 방법

Country Status (1)

Country Link
KR (1) KR102406961B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102600839B1 (ko) 2022-11-17 2023-11-10 국방과학연구소 문장 유사관계 예측 모델을 이용한 요약 문서 생성 방법 및 장치, 요약 문서를 생성하는데 이용되는 문장 유사관계 예측 모델을 학습시키는 방법 및 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102175531B1 (ko) * 2020-04-23 2020-11-06 호서대학교 산학협력단 인공신경망을 학습시키기 위한 레이블을 포함하는 학습 데이터를 생성하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100750886B1 (ko) * 2005-12-09 2007-08-22 한국전자통신연구원 학습 데이터 구축 장치 및 방법
KR20100062801A (ko) * 2008-12-01 2010-06-10 한국전자통신연구원 기계 학습을 이용한 학습 데이터 검증 장치 및 방법
KR102473447B1 (ko) * 2018-03-22 2022-12-05 삼성전자주식회사 인공지능 모델을 이용하여 사용자 음성을 변조하기 위한 전자 장치 및 이의 제어 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102175531B1 (ko) * 2020-04-23 2020-11-06 호서대학교 산학협력단 인공신경망을 학습시키기 위한 레이블을 포함하는 학습 데이터를 생성하기 위한 장치, 이를 위한 방법 및 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102600839B1 (ko) 2022-11-17 2023-11-10 국방과학연구소 문장 유사관계 예측 모델을 이용한 요약 문서 생성 방법 및 장치, 요약 문서를 생성하는데 이용되는 문장 유사관계 예측 모델을 학습시키는 방법 및 장치

Also Published As

Publication number Publication date
KR20220065640A (ko) 2022-05-20

Similar Documents

Publication Publication Date Title
CN109493166B (zh) 一种针对电子商务导购场景任务型对话系统的构建方法
Teney et al. Learning what makes a difference from counterfactual examples and gradient supervision
US11200259B2 (en) System and method for processing contract documents
WO2020082569A1 (zh) 文本分类方法、装置、计算机设备和存储介质
US10783451B2 (en) Ensemble machine learning for structured and unstructured data
CN112070138B (zh) 多标签混合分类模型的构建方法、新闻分类方法及系统
US20180307765A1 (en) Interactive system, interaction method, and storage medium
CN113254678B (zh) 跨媒体检索模型的训练方法、跨媒体检索方法及其设备
Sharp et al. Toward Semi-autonomous Information: Extraction for Unstructured Maintenance Data in Root Cause Analysis
US11507901B1 (en) Apparatus and methods for matching video records with postings using audiovisual data processing
CN112528031A (zh) 一种工单智能派发方法和系统
Dandala et al. IBM Research System at TAC 2017: Adverse Drug Reactions Extraction from Drug Labels.
KR102406961B1 (ko) 자가 지도학습을 통한 데이터 특성 학습 방법 및 가짜 정보 판별 방법
US11880660B2 (en) Interpreting text classifier results with affiliation and exemplification
CN115146073A (zh) 一种跨空间语义知识注入的试题知识点标记方法及应用
CN115552414A (zh) 用于文本分类的装置和方法
Desai An Exploration of the Effectiveness of Machine Learning Algorithms for Text Classification
CN116737940B (zh) 一种智能决策方法、决策系统
Li An Evaluation of Automation on Misogyny Identification (AMI) and Deep-Learning Approaches for Hate Speech-Highlight on Graph Convolutional Networks and Neural Networks
CN117648635B (zh) 敏感信息分类分级方法及系统、电子设备
Yao et al. Research and implementation of a brand normalization method across e-commerce platforms
Bharadi Sentiment Analysis of Twitter Data Using Named Entity Recognition
KR102663632B1 (ko) 인공지능 기반의 미술품 거래의 트랜드 예측 장치 및 방법
US11983228B1 (en) Apparatus and a method for the generation of electronic media
Khaliq et al. Modeling sentiment terminologies: Target based polarity phenomena