KR102210772B1 - 온라인 데이터에 기반한 사용자 성 정체성 예측 장치 및 방법 - Google Patents

온라인 데이터에 기반한 사용자 성 정체성 예측 장치 및 방법 Download PDF

Info

Publication number
KR102210772B1
KR102210772B1 KR1020180172415A KR20180172415A KR102210772B1 KR 102210772 B1 KR102210772 B1 KR 102210772B1 KR 1020180172415 A KR1020180172415 A KR 1020180172415A KR 20180172415 A KR20180172415 A KR 20180172415A KR 102210772 B1 KR102210772 B1 KR 102210772B1
Authority
KR
South Korea
Prior art keywords
online data
gender identity
deep neural
modality
group
Prior art date
Application number
KR1020180172415A
Other languages
English (en)
Other versions
KR20200082136A (ko
Inventor
한경식
전영승
전승곤
Original Assignee
아주대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아주대학교산학협력단 filed Critical 아주대학교산학협력단
Priority to KR1020180172415A priority Critical patent/KR102210772B1/ko
Publication of KR20200082136A publication Critical patent/KR20200082136A/ko
Application granted granted Critical
Publication of KR102210772B1 publication Critical patent/KR102210772B1/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7271Specific aspects of physiological measurement analysis
    • A61B5/7275Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Psychiatry (AREA)
  • Physiology (AREA)
  • Pathology (AREA)
  • Mathematical Physics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Signal Processing (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

온라인 데이터에 기반한 사용자 성 정체성 예측 방법에 관한 것으로, 사용자 성 정체성 예측 방법은 작성자 군에 의해 게시된 온라인 데이터로부터 복수의 모달리티별로 특성을 추출하는 단계, 상기 추출된 특성을 벡터 공간에 저장하는 단계, 상기 벡터 공간에 저장된 특성을 기반으로 심층신경망을 구축하여 온라인 데이터의 작성자의 성 정체성을 분류할 수 있는 예측 모델을 학습시켜 생성하는 단계 및 예측 대상 온라인 데이터를 수신하고, 상기 생성된 예측 모델을 이용하여 상기 예측 대상 온라인 데이터 작성자의 성 정체성을 예측하는 단계를 포함할 수 있다.

Description

온라인 데이터에 기반한 사용자 성 정체성 예측 장치 및 방법{APPARATUS AND METHOD FOR CLASSFYING USER'S GENDER IDENTITY BASED ON ONLINE DATA}
본원은 온라인 데이터에 기반한 사용자 성 정체성 예측 장치 및 방법에 관한 것이다.
최근 마케팅 분야에서 중요시 되는 두 가지 요소는 새로운 미디어 플랫폼의 등장에 발맞춘 미디어 플랫폼 활용과 소비자의 특성 및 기호를 파악하여 소비자 유형에 맞는 마케팅 전략을 수립하는 것이다.
이에 따라, 소셜 네트워크 서비스(Social Network Services, SNS)를 이용하는 잠재적 소비자들에 대한 특성 또는 구매 성향을 파악하여 SNS 상에서 적절한 마케팅 방식을 활용하는 것이 점점 중요해지고 있다.
이에 따라, 선행 연구들은 SNS 사용자의 소비 성향 또는 개인적인 특성과 온라인 사용 패턴 간의 관계를 조사하고자 하였다. 다만, 많은 경우 선행 연구 내에서 고려되는 소비자의 정보는 상대적으로 단순한 연령, 생물학적 성별 등만을 고려하였다는 한계를 가진다.
또한, 오늘날 많은 기업들이 남성 소비자층 또는 여성 소비자층 중 어느 한 소비층에서만 선호되는 제품만을 판매하는 전통적인 제품 출시 방식에서 탈피하여 다른 성별 간에 브랜드가 확장되는 추세에 있다. 대표적인 예로, 면도 관련 제품을 판매하는Gillette 사에서 여성용 제모 용품을 판매하는 Gillette Venus라는 브랜드를 출시한 것이 있을 수 있다.
결국, 실제 마케팅에서 직접 적용될 수 있는 소비자 층의 특성에 대한 예측에 있어서, 생물학적 성별 정보를 파악하는 데 그치지 않고, 분석의 대상이 되는 소비자의 여성성, 남성성 및 양성성을 종합적으로 분석할 필요가 커지고 있다.
본원의 배경이 되는 기술은 한국특허공개공보 제 10-1909537호에 개시되어 있다.
본원은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 사용자가 공유한 소셜 네트워크 서비스 상의 포스팅에 내재된 이미지 모달리티 특성, 텍스트 모달리티 특성 및 활동 모달리티 특성을 분석하여 사용자(온라인 데이터의 작성자)의 성 정체성을 예측할 수 있는 장치 및 방법을 제공하는 것을 목적으로 한다.
다만, 본원의 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들도 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 일 실시예에 따른 온라인 데이터에 기반한 사용자 성 정체성 예측 방법은, 작성자 군에 의해 게시된 온라인 데이터로부터 복수의 모달리티별로 특성을 추출하는 단계, 상기 추출된 특성을 벡터 공간에 저장하는 단계, 상기 벡터 공간에 저장된 특성을 기반으로 심층신경망을 구축하여 온라인 데이터의 작성자의 성 정체성을 분류할 수 있는 예측 모델을 학습시켜 생성하는 단계 및 예측 대상 온라인 데이터를 수신하고, 상기 생성된 예측 모델을 이용하여 상기 예측 대상 온라인 데이터의 작성자의 성 정체성을 예측하는 단계를 포함할 수 있다.
또한, 상기 예측 모델을 생성하는 단계는, 상기 모달리티별로 심층신경망을 구축하는 단계 및 상기 모달리티별로 구축된 심층신경망을 병합하여 상기 예측 모델을 생성하는 단계를 포함할 수 있다.
또한, 상기 복수의 모달리티는 이미지, 텍스트 및 활동 중 적어도 하나를 포함할 수 있다.
또한, 상기 이미지 모달리티의 특성은 시각적 특성 및 제스처 특성 중 적어도 하나를 포함할 수 있고, 상기 제스처 특성은 기 채택된 복수의 제스처 유형 중 적어도 하나가 상기 온라인 데이터에 포함된 이미지에 나타나는지 여부를 라벨링하여 획득될 수 있다.
또한, 상기 텍스트 모달리티의 특성은 문장 및 태그, 범주 및 언어적 특성 중 적어도 하나를 포함할 수 있고, 상기 벡터 공간에 저장하는 단계는, TF-IDF 가중치 알고리즘에 의해 특정한 크기를 갖는 벡터에 상기 문장 및 태그가 매핑될 수 있다.
또한, 상기 활동 모달리티의 특성은 작성요일, 작성일이 주중인지 주말인지 여부 및 응답빈도 중 적어도 하나를 포함할 수 있다.
한편, 상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 일 실시예에 따른 온라인 데이터에 기반한 사용자 성 정체성 예측 모델 생성 방법은, 임의의 작성자 군을 선정하는 단계, 상기 작성자 군의 성 정체성을 추출하는 단계, 상기 작성자 군에 의해 게시된 온라인 데이터로부터 복수의 모달리티별로 특성을 추출하는 단계, 상기 추출된 특성을 벡터 공간에 저장하는 단계 및 상기 벡터 공간에 저장된 특성을 기반으로 심층신경망을 구축하여 온라인 데이터 작성자의 성 정체성을 분류할 수 있는 예측 모델을 학습시켜 생성하는 단계를 포함할 수 있다.
또한, 상기 예측 모델을 생성하는 단계는, 상기 모달리티별로 심층신경망을 구축하는 단계 및 상기 모달리티별로 구축된 심층신경망을 병합하여 상기 예측 모델을 생성하는 단계를 포함할 수 있다.
한편, 상기한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본원의 일 실시예에 따른 온라인 데이터에 기반한 사용자 성 정체성 예측 장치는, 작성자 군에 의해 게시된 온라인 데이터 및 예측 대상 온라인 데이터를 수신하는 데이터 수신부, 상기 작성자 군에 의해 게시된 온라인 데이터로부터 복수의 모달리티별 특성을 추출하는 데이터 특성 추출부, 상기 추출된 특성을 벡터 공간에 저장하는 벡터 저장부 및 상기 벡터 공간에 저장된 특성을 기반으로 구축된 심층신경망을 이용하여 학습된 예측 모델을 생성하고, 상기 생성된 예측 모델을 이용하여 상기 예측 대상 온라인 데이터의 작성자의 성 정체성에 대한 예측값을 도출하는 사용자 성 정체성 예측부를 포함할 수 있다.
또한, 상기 사용자 성 정체성 예측부는, 상기 복수의 모달리티별로 심층신경망을 구축하고, 각 모달리티별로 구축된 심층신경망을 병합하여 상기 예측 모델을 생성할 수 있다.
또한, 온라인 데이터에 기반한 사용자 성 정체성 예측 장치는 상기 작성자 군의 성 정체성을 분류하는 작성자 분류부를 더 포함할 수 있다.
또한, 상기 복수의 모달리티는 이미지, 텍스트 및 활동 중 적어도 하나가 포함될 수 있다.
상술한 과제 해결 수단은 단지 예시적인 것으로서, 본원을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 추가적인 실시예가 존재할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 소셜 네트워크 서비스 상의 온라인 데이터에 있어서, 다양한 성 정체성을 갖는 임의의 작성자 군에 의해 게시된 포스팅으로부터 사용자의 성 정체성을 판단할 수 있는 정확도 높은 예측 모델을 생성할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 사용자의 성 정체성을 판단할 수 있는 정확도 높은 예측 모델을 이용하여 예측 대상 온라인 데이터에 대한 사용자 성 정체성 예측을 수행할 수 있는 온라인 데이터에 기반한 사용자 성 정체성 예측 장치를 제공할 수 있다.
전술한 본원의 과제 해결 수단에 의하면, 본원에 따른 온라인 데이터에 기반한 사용자 성 정체성 예측 장치 및 방법은 고객 맞춤형 마케팅 전략 수립에 적용될 수 있다.
도 1은 본원의 일 실시예에 따른 온라인 데이터에 기반한 사용자 성 정체성 예측 시스템의 개략적인 도면이다.
도 2는 본원의 일 실시예에 따른 온라인 데이터에 기반한 사용자 성 정체성 예측 장치의 개략적인 블록도이다.
도 3은 본원의 일 실시예에 따른 온라인 데이터에 기반한 사용자 성 정체성 예측 모델 생성 방법에 대한 동작흐름도이다.
도 4는 본원의 일 실시예에 따른 심층신경망을 구축하여 예측 모델을 학습시키는 단계를 구체화한 동작흐름도이다.
도5는 본원의 일 실시예에 따른 온라인 데이터에 기반한 사용자 성 정체성 예측 방법에 대한 동작흐름도이다.
도6은 본원의 일 실시예에 따른 온라인 데이터에 기반한 사용자 성 정체성 예측 방법과 연계된 일 실험예로서 온라인 데이터로부터 복수의 모달리티 별 특성을 추출하는 예시를 도시한 도면이다.
도7은 본원의 일 실시예에 따른 기 채택된 복수의 제스처 유형의 예시를 나열한 도표이다.
도8은 본원의 일 실시예에 따른 심층신경망을 구축하여 예측 모델을 학습시키는 단계를 설명하기 위한 도면이다.
도9는 본원의 일 실시예에 따른 온라인 데이터에 기반한 사용자 성 정체성 예측 방법과 연계된 일 실험예로서 온라인 데이터에 기반한 사용자 성 정체성 예측 장치의 성 정체성 예측에 대한 F1점수를 나타낸 도표이다.
도10은 본원의 일 실시예에 따른 온라인 데이터에 기반한 사용자 성 정체성 예측 방법과 연계된 일 실험예로서 남성 그룹의 성 정체성을 예측하는데 있어서 중요하게 작용한 상위 10가지 특성들의 순위를 매긴 도표이다.
도11은 본원의 일 실시예에 따른 온라인 데이터에 기반한 사용자 성 정체성 예측 방법과 연계된 일 실험예로서 여성 그룹의 성 정체성을 예측하는데 있어서 중요하게 작용한 상위 10가지 특성들의 순위를 매긴 도표이다.
도12는 본원의 일 실시예에 따른 온라인 데이터에 기반한 사용자 성 정체성 예측 방법과 연계된 일 실험예로서 전체 성별 그룹의 성 정체성을 예측하는데 있어서 중요하게 작용한 상위 10가지 특성들의 순위를 매긴 도표이다.
아래에서는 첨부한 도면을 참조하여 본원이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본원의 실시예를 상세히 설명한다. 그러나 본원은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본원을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본원 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부재가 다른 부재 "상에", "상부에", "상단에", "하에", "하부에", "하단에" 위치하고 있다고 할 때, 이는 어떤 부재가 다른 부재에 접해 있는 경우뿐 아니라 두 부재 사이에 또 다른 부재가 존재하는 경우도 포함한다.
본원 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함" 한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다.
본원은 온라인 데이터에 기반한 사용자 성 정체성 예측 방법 및 장치에 관한 것이다.
도1은 본원의 일 실시예에 따른 온라인 데이터에 기반한 사용자 성 정체성 예측 시스템의 개략적인 도면이다.
도1을 참조하면, 본원의 일 실시예에 따른 온라인 데이터에 기반한 사용자 성 정체성 예측 장치(100)는 사용자 단말(30)을 통해 작성자 군(20)에 의해 작성 및 공유된 온라인 데이터(41)를 네트워크(10) 연결에 따라 수신하고, 수신된 데이터로부터 남성성, 여성성 또는 양성성과 같이 상이한 성 정체성을 나타내는 작성자 군(20) 집단 사이에 존재하는 온라인 데이터 작성 양상 차이를 그들이 게시한 이미지, 이미지와 함께 작성된 텍스트 및 온라인 데이터 작성에 대한 활동 이력 측면에서 분석하여, 파악된 차이점들을 학습하는 심층신경망 기반의 모델을 생성하고, 새로운 작성자에 의해 공유된 예측 대상 온라인 데이터(42)를 새로이 수신했을 때, 상기 모델을 기반으로 상기 새로운 작성자의 성 정체성을 예측하여 결과값을 도출할 수 있다.
본원의 일 실시예에 따른 온라인 데이터에 기반한 사용자 성 정체성 예측 장치(100)는 복수의 사용자 단말(30)로부터 학습 대상 온라인 데이터(41) 또는 예측 대상 온라인 데이터(42)를 수신하고, 수신된 데이터에 대응되는 사용자 성 정체성을 예측하며, 예측 결과값을 사용자 단말로 제공하는 서버 또는 장치 일 수 있다.
예를 들어, 상기 네트워크(10)는, 단말 및 서버와 같은 각각의 노드 상호 간에 정보 교환이 가능한 유, 무선의 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예에는 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, 5G 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.
예를 들어, 사용자 단말(30)은, PCS(Personal Communication System), GSM(Global System for Mobile communication), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-스마트패드(SmartPad), 태블릿 PC, 데스크탑 PC, 노트북, 웨어러블 디바이스 등일 수 있으며, 이에 한정되는 것은 아니고, 모든 종류의 유/무선 통신 장치를 포함할 수 있다.
예를 들어, 상기 온라인 데이터(41) 및 상기 예측 대상 온라인 데이터(42)는 블로그, 인스타그램 등 다양한 종류의 인터넷 게시물 및 SNS 데이터를 포함할 수 있다.
도1을 참조하면, 온라인 데이터에 기반한 사용자 성 정체성 예측 장치(100)는 작성자 군(20)에 의해 게시된 온라인 데이터(41) 및 예측 대상 온라인 데이터(42)를 사용자 단말(30)로부터 수신 및 수집할 수 있다.
예를 들어, 온라인 데이터에 기반한 사용자 성 정체성 예측 장치(100)는 온라인 데이터(41) 및 예측 대상 온라인 데이터(42)를 온라인 데이터를 업로드 및 관리하는 별도의 웹 서버로부터 수신할 수 있다.
본원의 일 실시예에 따르면, 온라인 데이터(41)의 작성자 군(20)은 소정의 조건을 만족하도록 별도의 모집 절차를 통해 모집될 수 있다.
본원의 일 실시예에 따르면, 상기 소정의 조건으로 영어로 의사 소통이 가능할 것, 공개된 SNS(예를 들어, 인스타그램) 계정이 존재할 것, 정기적으로 해당 SNS를 사용할 것 및 계정 상에 일정 수 이상의 포스팅을 게시하였을 것 중 적어도 하나를 설정할 수 있다.
또한, 본원의 일 실시예에 따르면, 온라인 데이터에 기반한 사용자 성 정체성 예측 장치(100)는 상기 작성자 군의 성 정체성을 분류할 수 있다.
본원의 일 실시예에 따르면, 온라인 데이터에 기반한 사용자 성 정체성 예측 장치(100)는, 상기 소정의 조건을 만족하는 작성자 군에게 기본적인 인적 사항에 대한 문항에 대한 응답 및 작성자 군의 성 정체성을 평가할 수 있는 문항에 대한 응답으로 구성된 설문 조사 데이터를 수신하여 분석함으로써 상기 작성자 군의 성 정체성을 분류할 수 있다.
본원의 일 실시예에 따르면, 상기 작성자 군의 성 정체성을 평가할 수 있는 문항으로 구성된 설문의 일 예로, Bem Sex Role Inventory(BSRI)를 활용할 수 있다. 이하에서는 BSRI의 문항 구성과 이에 대한 응답을 토대로 응답자의 성 정체성을 평가하는 과정에 관해 설명한다.
BSRI는 응답자의 성 정체성을 파악하기 위한 문항들로 구성되며, 상기 문항들의 일 예로, 양성성을 평가하기 위한 20가지 문항, 남성성을 평가하기 위한 20가지 문항 및 여성성을 평가하기 위한 20가지 문항으로 구성될 수 있고, 각 문항은 5단계 리커트 척도에 따라 수치화 될 수 있다. 다만, 각 카테고리 별 문항의 수는 예시적 기재일 뿐 이에 한정될 필요는 없다.
본원의 일 실시예에 따르면, 전체 문항에 대한 응답을 분석하여 응답자의 남성성 및 여성성을 점수화 할 수 있으며, 남성성 점수가 전체 응답자 평균보다 높고 여성성 점수가 전체 응답자 평균보다 낮은 경우 해당 응답자가 남성적(masculine)인 것으로 평가할 수 있고, 이와는 반대로 남성성 점수가 전체 응답자 평균보다 낮고 여성성 점수가 전체 응답자 평균보다 높은 경우 해당 응답자가 여성적(feminine)인 것으로 평가할 수 있으며, 남성성 점수 및 여성성 점수 모두에서 전체 응답자 평균보다 높은 점수를 받은 경우 해당 응답자가 양성적(androgynous)인 것으로 평가할 수 있다.
또한, 본원의 일 실시예에 따르면, 온라인 데이터에 기반한 사용자 성 정체성 예측 장치(100)는 작성자 군(20)에 의해 게시된 온라인 데이터(41)로부터 복수의 모달리티별 특성을 추출할 수 있다.
본원의 일 실시예에 따르면, 상기 복수의 모달리티는 이미지, 텍스트 및 활동 중 적어도 하나가 포함될 수 있다.
본원의 일 실시예에 따르면, 상기 이미지 모달리티의 특성은 시각적 특성 및 제스처 특성 중 적어도 하나를 포함할 수 있다.
상기 시각적 특성을 추출하기 위하여, VGG16라는 딥 러닝 기반 알고리즘이 적용될 수 있다. VGG16는 ImageNet의 데이터 세트로부터 학습된 알고리즘으로 옥스포드 대학의 Visual Geomery Group(VGG)에서 개발한 객체 인식을 위한 심층 컨벌루션 네트워크이다. VGG16은 16개의 컨벌루션 레이어 및 fully-connetced 레이어로 구성되는데, Transfer learning 기법을 이용하여 학습되는 것을 특징으로 하며, Transfer learning 기법은 마지막에서 두 번째 레이어를 제외한 모든 레이어는 고정시키고 마지막 fully-connected레이어만을 재 학습시킴으로써 결과를 도출해 내는 방식이다. Transfer learning기법은 특정한 환경에서 습득한 지식을 다른 환경에 적용하기 위한 것이다. 이를 활용하면, 사람에 의해 도출된 특성이나 계층적 구조에 의존하기 보다 원시적인 데이터 자체에서 직접 특성을 추출해 낼 수 있으므로, 채도, 색조 및 밝기로 이루어지는 색 정보를 별개의 특성으로 사용할 필요가 없다는 장점을 갖는다.
본원의 일 실시예에 따르면, VGG16알고리즘을 통해 각각의 이미지 별로 시각적 특성 정보를 512개의차원을 갖는 벡터 형태(
Figure 112018131806710-pat00001
)로 매핑할 수 있다.
본원의 일 실시예에 따르면, 이미지 모달리티 중 제스처 특성은 기 채택된 복수의 제스처 유형 중 적어도 하나가 상기 온라인 데이터에 포함된 이미지에 나타나는지 여부를 라벨링하여 획득될 수 있다.
선행 연구인 Cara Wallis. 2011. Performing gender: A content analysis of gender display in music videos. Sex Roles 64,3-4(2011), 160-172. 에서는 미국 케이블 방송국인 MTV에서 방송한 34개 뮤직 비디오를 분석하여 성별과 제스처의 사용의 상관관계를 도출한 바 있다. 전술한 연구 결과에 따르면, 전통적인 남성의 사회적 이미지에 부합하는 손가락을 튕기는 행위, 열정적으로 노래하는 모습, 공격적으로 연주하는 모습 등이 뮤직비디오에 등장하는 남성들로부터 나타났으며, 전통적인 여성의 사회적 이미지에 부합하는 머리카락을 만지는 행위, 웃는 얼굴, 손을 입에 가져다 대는 행위 등이 뮤직비디오에 등장하는 여성들로부터 나타났다. 이러한 선행 연구 결과를 바탕으로 본원의 일 실시예에 따른 제스처 특성을 추출하기 위한 제스처 유형을 결정할 수 있다.
도7은 본원의 일 실시예에 따른 기 채택된 복수의 제스처 유형의 예시를 나열한 도표이다.
본원의 일 실시예에 따르면, 라벨링 과정은, 복수의 평가자가 주어진 이미지를 보고 파악되는 이미지 속 인물의 행동이 상기 기 채택된 복수의 제스처 유형에 부합하는 경우, 이를 수작업을 통해 라벨링하고 복수의 평가자에 의한 라벨링 결과를 상호 비교하여 일치하지 않는 부분은 복수 평가자의 합의를 도출하는 추가적인 과정을 통해 확정할 수 있다.
본원의 일 실시예에 따르면, 각각의 이미지 별로 제스처 특성 정보를 24개의 차원을 갖는 벡터 형태(
Figure 112018131806710-pat00002
)로 매핑할 수 있다.
본원의 일 실시예에 따르면, 상기 텍스트 모탈리티의 특성은 문장 및 태그, 범주 및 언어적 특성 중 적어도 하나를 포함할 수 있다.
본원의 일 실시예에 따르면, 상기 문장 및 태그 특성을 추출하기 위하여 MS Azure API가 활용될 수 있다. 상기 MS Azure API는 이미지를 입력으로 하여, 이미지를 설명하는 자연어로 이루어진 문장 및 이미지 내 주요 객체에 대한 태그를 출력하는 기능을 수행할 수 있다.
본원의 일 실시예에 따르면, TF-IDF(Term Frequency - Inverse Document Frequency) 가중치 알고리즘을 통해 특정한 크기를 갖는 벡터에 상기 문장 및 태그 정보가 매핑될 수 있다. TF-IDF (Term Frequency-Inverse Document Frequency) 는 문서의 핵심어를 추출하거나, 문서들 사이의 비슷한 정도를 구하는 등에 이용되는 가중치로, 여러 문서로 이루어진 문서 군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치이다.
본원의 일 실시예에 따르면, 상기 특정한 크기는 100, 300 또는 500이 될 수 있고, 이 중에서 가장 정확한 결과를 도출해내는 크기를 갖는 벡터에 매핑할 수 있다. 다만, 상기 특정한 크기의 수치들은 예시적 기재일 뿐 이에 한정될 필요는 없다.
본원의 일 실시예에 따르면, 상기 범주 특성은 온라인 데이터에 포함된 공유된 이미지 전체에 대한 추가적인 분석을 가능하게 할 수 있고, 상기 범주 특성을 추출하기 위해 MS Azure API가 활용될 수 있다. 상기 MS Azure API는 이미지 집합들에서 찾을 수 있는 기본 카테고리 목록 18가지 및 보조 카테고리 목록 77개를 제공할 수 있다.
본원의 일 실시예에 따르면, 상기 기본 카테고리 목록 18가지를 범주 특성으로 결정할 수 있다.
본원의 일 실시예에 따르면, 상기 언어적 특성을 추출하기 위한 정보는 작성자 군이 이미지와 함께 작성한 이미지에 대한 캡션 또는 사용자 작성 태그를 분석함으로써 파악될 수 있다.
본원의 일 실시예에 따르면, 상기 언어적 특성은 완곡한 표현의 존부(Hedges), 숫자 활용 빈도(Number frequency), 1인칭 또는 2인칭 대명사 등장 빈도(Pronoun frequency), 단어의 평균 글자수(Complexity), 감정을 나타내는 단어의 등장 빈도(Sentiment word frequency), 전체 감정 표현 중 긍정적인 감정을 표현하는 단어의 비율(Subjective/Objective Polarity), 이모티콘/이모지 사용 빈도 및 비율(Emoticon/emoji frequency and ratio), 사용된 태그 개수(Tag frequency and ratio), 캡션 길이(Caption length) 또는 캡션 주제(Caption theme) 등의 하위 항목으로 구성될 수 있다.
본원의 일 실시예에 따르면, 상기 텍스트 모달리티의 특성은 정보 각각을 331개의 차원을 갖는 벡터 형태(
Figure 112018131806710-pat00003
)로 매핑할 수 있다.
본원의 일 실시예에 따르면, 상기 활동 모달리티의 특성은 작성요일, 작성일이 주중인지 주말인지 여부 및 응답빈도 중 적어도 하나를 포함할 수 있다.
본원의 일 실시예에 따르면, 상기 활동 모달리티의 특성은 작성요일, 작성일이 주중인지 주말인지 여부 및 응답빈도에 대한 정보 각각을 9개의 차원을 갖는 벡터 형태(
Figure 112018131806710-pat00004
)로 매핑할 수 있다.
또한, 온라인 데이터에 기반한 사용자 성 정체성 예측 장치(100)는, 상기 추출된 특성을 벡터 공간에 저장할 수 있다.
본원의 일 실시예에 따르면, 온라인 데이터에 기반한 사용자 성 정체성 예측 장치(100)는, 작성자 군의 성 정체성 정보와 온라인 데이터의 복수의 모달리티 별 특성을 연계하여 벡터 공간에 저장할 수 있다.
또한, 온라인 데이터에 기반한 사용자 성 정체성 예측 장치(100)는, 상기 벡터 공간에 저장된 특성을 기반으로 구축된 심층신경망을 이용하여 학습된 예측 모델을 생성할 수 있다.
본원의 일 실시예에 따르면, 온라인 데이터에 기반한 사용자 성 정체성 예측 장치(100)는 상기 복수의 모달리티 별로 심층신경망을 구축하고, 각 모달리티 별로 구축된 심층신경망을 병합하여 상기 예측 모델을 생성할 수 있다.
이하에서는 심층신경망 기반의 예측 모델을 생성하는 과정을 상세히 설명한다.
심층신경망(Deep Neural Network, DNN)은 입력층(input layer)과 출력층(output layer) 사이에 여러 개의 은닉층(hidden layer)들로 이루어진 인공신경망(Artificial Neural Network, ANN)이다. 심층신경망은 일반적인 인공신경망과 마찬가지로 복잡한 비선형관계들을 모델링할 수 있다. DNN의 강점은 다양한 입력을 다른 방식으로 처리할 수 있도록 하고 복잡한 네트워크 구조를 수용할 수 있는 유연성(Flexibility)과 기존에 형성된 네트워크 구조에 변형을 가하지 않고도 새로운 특성들이 편리하게 추가될 수 있다는 점이다.
도8은 본원의 일 실시예에 따른 심층신경망을 구축하여 예측 모델을 학습시키는 단계를 설명하기 위한 도면이다.
도8을 참조하면, 상기 복수의 모달리티 별로 심층신경망을 구축하고, 전술한 개별적인 심층신경망(DNN)에 대하여 다양한 스트림을 갖는 입력들을 이를 종합하는 표현으로 인식하여 학습 하도록 하는 병합(Fusion) 기법을 통해 모달리티별로 구축된 심층신경망을 병합하여 개의 차원을 갖는 단일한 벡터로 연결지을 수 있다. 이 때, 값은 상기 복수의 모달리티 별로 구축된 심층신경망 (DNN)의 차원 수를 합친 값이 된다.
본원의 일 실시예에 따르면, 상기 병합(Fusion)의 결과 얻을 수 있는
Figure 112018131806710-pat00005
개의 차원을 갖는 단일한 벡터에,
Figure 112018131806710-pat00006
차원을 갖는 가중치 행렬
Figure 112018131806710-pat00007
를 곱하고,
Figure 112018131806710-pat00008
개의 차원을 갖는 바이어스 벡터
Figure 112018131806710-pat00009
를 더한 행렬에 비선형 함수인 Rectified linear unit(ReLU)를 적용할 수 있다. 상기 과정을 수식으로 표현하면 아래의 [식1]과 같다.
[식1]
Figure 112018131806710-pat00010
상기 [식1]의 결과값인
Figure 112018131806710-pat00011
는 단일한 분류 심층신경망(DNN)을 의미하며, 본원의 일 실시예에 따르면 이 결과값에 오차를 보정하는 시그모이드 활성함수 경사하강법(Sigmoid Activation function)을 적용할 수 있다.
본원의 일 실시예에 따르면, 상기 예측 모델은 추가적으로 ADAM최적화 알고리즘을 활용하여, Epoch값이 설정된 반복 학습을 진행할 수 있다. 여기에서 상기 Epoch는 DNN 모델링에 있어서 구축된 DNN이 순환하는 과정을 몇 번 수행할지를 정하는 인자를 의미 한다. 달리 말해, 순환 주기 혹은 학습 횟수를 의미할 수 있다.
또한, 온라인 데이터에 기반한 사용자 성 정체성 예측 장치(100)는, 상기 생성된 예측 모델을 이용하여 수신된 예측 대상 온라인 데이터(42)의 작성자의 성 정체성에 대한 예측값을 도출할 수 있다.
본원의 일 실시예에 따르면, 상기 예측 대상 온라인 데이터는 성 정체성 정보를 알 수 없는 온라인 데이터로서, 블로그, 인스타그램 등 다양한 종류의 인터넷 게시물 및 SNS 데이터를 포함할 수 있다.
본원의 일 실시예에 따르면, 본원에 따른 온라인 데이터에 기반한 사용자 성 정체성 예측 장치(100)의 분류 정확도를 F1점수(F1 Score: F1)로 측정할 수 있다.
기계 학습 모델의 성능은 주로 재현율(Recall)과 정확률(Precision)을 이용하여 측정된다. 재현율과 정확률의 계산 방법은 아래의 [식1] 및 [식2]로 주어진다.
[식1]
Figure 112018131806710-pat00012
[식2]
Figure 112018131806710-pat00013
기계 학습 모델이 적용되는 상황에 따라서 재현율이 높은 모델을 선호하는 경우도 있고 정확률이 높은 모델을 선호할 수도 있다. 따라서 기계 학습 모델의 성능이 얼마나 우수한지를 살펴보기 위해서 일반적으로 F1 점수(F1 Score: F1)를 사용할 수 있다. F1점수는 재현율과 정확률의 조화 평균으로 구하며 아래의 [식3]과 같다.
[식3]
Figure 112018131806710-pat00014
도9는 본원의 일 실시예에 따른 온라인 데이터에 기반한 사용자 성 정체성 예측 방법과 연계된 일 실험예로서 온라인 데이터에 기반한 사용자 성 정체성 예측 장치의 성 정체성 예측에 대한 F1점수를 나타낸 도표이다.
도9를 참조하면, 전통적인 기계 학습 알고리즘에 의한 예측 모델과 DNN을 통해 구현한 예측 모델의 분류 정확도를 남성 그룹의 성 정체성 예측, 여성 그룹의 성 정체성 예측 및 전체 성별 그룹의 성 정체성 예측 각각에 있어서 F1점수를 산출할 수 있다.
상기 전통적인 기계 학습 알고리즘에는 랜덤 포레스트(Random Forest,RF), 로지스틱 회귀(Logistic Regression,LR), 다층 퍼셉트론(Multi-layer perceptron,MLP) 가 있을 수 있다.
도9를 참조하면, DNN에 의한 사용자 성 정체성 예측 모델이 RF, LR, MLP에 의한 예측 모델보다 남성 그룹, 여성 그룹 및 전체 성별 그룹 모두에서 높은 점수를 얻었음을 알 수 있다. 남성 그룹에 대한 성 정체성 예측 F1 점수는 평균 0.77로, 여성 그룹에 대한 성 정체성 예측 F1점수는 평균 0.72로, 전체 성별 그룹에 대한 성 정체성 예측 F1 점수는 0.72로 나타났다.
이하에서는 본원의 일 실시예에 따라 온라인 데이터에 기반한 사용자 성 정체성 예측 장치(100)가 온라인 데이터(41)로부터 사용자 성 정체성에 따른 온라인 데이터 작성 방식에 대한 정보를 학습하고, 예측 대상 온라인 데이터(42)로부터 작성자의 성 정체성에 대한 예측을 도출하는 데 있어 핵심적인 역할을 하는 모달리티 별 특성을 분석한 결과를 설명한다.
본원의 일 실시예에 따르면, 모달리티 별 특성의 중요도를 평가하기 위해 로지스틱 회귀(Logistic Regression,LR) 분석이 활용 될 수 있다.
도10은 본원의 일 실시예에 따른 온라인 데이터에 기반한 사용자 성 정체성 예측 방법과 연계된 일 실험예로서 남성 그룹의 성 정체성을 예측하는데 있어서 중요하게 작용한 상위 10가지 특성들의 순위를 매긴 도표이다.
도10을 참조하면, 남성 그룹의 성 정체성 예측 과정에서는 텍스트 모달리티 관련 특성이 높은 중요도를 갖는 것을 알 수 있다.
도11은 본원의 일 실시예에 따른 온라인 데이터에 기반한 사용자 성 정체성 예측 방법과 연계된 일 실험예로서 여성 그룹의 성 정체성을 예측하는데 있어서 중요하게 작용한 상위 10가지 특성들의 순위를 매긴 도표이다.
도11을 참조하면, 여성 그룹의 성 정체성 예측 과정에서는 VGG16에 의한 시각적 특성이 높은 중요도를 갖는 것을 알 수 있다.
도12는 본원의 일 실시예에 따른 온라인 데이터에 기반한 사용자 성 정체성 예측 방법과 연계된 일 실험예로서 전체 성별 그룹의 성 정체성을 예측하는데 있어서 중요하게 작용한 상위 10가지 특성들의 순위를 매긴 도표이다.
도10내지 도12에서, 파란색 셀은 언어적 특성, 붉은색 셀은 시각적 특성, 주황색 셀은 제스처 특성을 각각 의미한다.
도2는 본원의 일 실시예에 따른 온라인 데이터에 기반한 사용자 성 정체성 예측 장치(100)의 개략적인 블록도이다.
도2를 참조하면, 본원의 일 실시예에 따른 온라인 데이터에 기반한 사용자 성 정체성 예측 장치(100)는, 데이터 수신부(110), 작성자 분류부(120), 데이터 특성 추출부(130), 벡터 저장부(140) 및 성 정체성 예측부(150)를 포함할 수 있다.
도2를 참조하면, 데이터 수신부(110)는 작성자 군에 의해 게시된 온라인 데이터 및 예측 대상 온라인 데이터를 수신할 수 있다.
또한, 데이터 수신부(110)가 수신하는 작성자 군에 의해 게시된 온라인 데이터(41) 및 예측 대상 온라인 데이터(42)는 특정 작성자 군에 의해 온라인 상에 게시된 이미지, 이미지와 함께 작성된 텍스트 및 온라인 데이터 작성에 대한 활동 이력 측면의 정보를 포함할 수 있다.
또한, 사용자 분류부(120)는, 상기 작성자 군의 성 정체성을 분류할 수 있다.
또한, 데이터 특성 추출부(130)는, 상기 작성자 군에 의해 게시된 온라인 데이터로부터 복수의 모달리티별 특성을 추출할 수 있다.
또한, 상기 복수의 모달리티는 이미지, 텍스트 및 활동 중 적어도 하나가 포함될 수 있다.
또한, 벡터 저장부(140)는, 사용자 분류부(120)을 통해 파악된 작성자 군의 성 정체성 정보 및 상기 데이터 특성 추출부(130)을 통해 추출된 복수의 모달리티별 특성 정보를 연계하여 벡터 공간에 저장할 수 있다.
또한, 사용자 성 정체성 예측부(150)는, 벡터 저정부(140)에 저장된 특성을 기반으로 구축된 심층신경망을 이용하여 학습된 예측 모델을 생성하고, 상기 생성된 예측 모델을 이용하여 상기 예측 대상 온라인 데이터의 작성자의 성 정체성에 대한 예측값을 도출할 수 있다.
도 3은 본원의 일 실시예에 따른 온라인 데이터에 기반한 사용자 성 정체성 예측 모델 생성 방법에 대한 동작흐름도이다.
도3에 도시된 온라인 데이터에 기반한 사용자 성 정체성 예측 모델 생성 방법은 앞서 설명된 온라인 데이터에 기반한 사용자 성 정체성 예측 장치(100)에 의하여 수행될 수 있다. 따라서, 이하 생략된 내용이라고 하더라도 온라인 데이터에 기반한 사용자 성 정체성 예측 장치(100)에 대하여 설명된 내용은 도 3에도 동일하게 적용될 수 있다.
도3을 참조하면, 단계 S310에서, 온라인 데이터에 기반한 사용자 성 정체성 예측 장치(100)는 임의의 온라인 데이터 작성자 군을 선정할 수 있다.
또한, 본원의 일 실시예에 따르면, 단계 S310에서는, 온라인 데이터(41)의 작성자 군(20)을 소정의 조건을 만족하도록 별도의 모집 절차를 통해 모집될 수 있다.
다음으로, 단계 S320에서, 작성자 분류부(120)는, 상기 작성자 군의 성 정체성을 추출할 수 있다.
다음으로, 단계 S330에서, 데이터 특성 추출부(130)는, 상기 작성자 군이 게시한 온라인 데이터(41)로부터 복수의 모달리티 별로 특성을 추출할 수 있다.
다음으로, 단계 S340에서, 벡터 저장부(140)는, 상기 복수의 모달리티 별로 추출된 특성을 벡터 공간에 저장할 수 있다.
또한, 단계 S340에서, 벡터 저장부(140)는, 상기 복수의 모달리티 별 특성을 작성자 군의 성 정체성 정보와 연계하여 저장할 수 있다.
다음으로, 단계 S350에서, 성 정체성 예측부(150)는, 상기 벡터 공간에 저장된 특성을 기반으로 심층신경망을 구축하여 온라인 데이터의 작성자의 성 정체성을 분류할 수 있는 예측 모델을 학습시켜 생성 할 수 있다.
상술한 설명에서, 단계 S310 내지 S350은 본원의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
도4는 본원의 일 실시예에 따른 심층신경망을 구축하여 예측 모델을 학습시키는 도3의 단계 S350을 구체화한 동작흐름도이다.
단계 S410에서, 성 정체성 예측부(150)는, 복수의 모달리티 별로 심층신경망을 구축할 수 있다.
다음으로, 단계 S420에서, 성 정체성 예측부(150)는, 복수의 모달리티 별로 구축된 심층신경망을 병합하여 예측 모델을 생성할 수 있다.
또한, 단계 S420에서, 성 정체성 예측부(150)는, 심층신경망이 다양한 입력 스트림이 합쳐진 표현을 학습 하도록 하는 병합(Fusion) 과정을 거쳐 특정한 차원을 갖는 단일한 벡터로 연결지을 수 있다.
상술한 설명에서, 단계 S410 내지 S420은 본원의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
도5는 본원의 일 실시예에 따른 온라인 데이터에 기반한 사용자 성 정체성 예측 방법에 대한 동작흐름도이다.
도5에 도시된 온라인 데이터에 기반한 사용자 성 정체성 예측 방법은 앞서 설명된 온라인 데이터에 기반한 사용자 성 정체성 예측 장치(100)에 의하여 수행될 수 있다. 따라서, 이하 생략된 내용이라고 하더라도 온라인 데이터에 기반한 사용자 성 정체성 예측 장치(100)에 대하여 설명된 내용은 도 5에도 동일하게 적용될 수 있다.
도5를 참조하면, 단계 S510에서, 데이터 수신부(110)는, 예측 대상 온라인 데이터를 수신할 수 있다.
상기 예측 대상 온라인 데이터는 학습된 예측 모델에 의해 예측 대상 온라인 데이터를 작성한 작성자의 성 정체성 예측의 대상이 되는 온라인 데이터일 수 있다.
다음으로, 단계 S520에서, 성 정체성 예측부(150)는, 상기 온라인 데이터에 기반한 사용자 성 정체성 예측 모델 생성 방법에 의해 구현된 예측 모델에 단계 데이터 수신부(110)가 수신한 예측 대상 온라인 데이터에 대한 정보를 인가 (입력)할 수 있다.
다음으로, 단계 S530에서, 성 정체성 예측부(150)는, 상기 학습된 심층신경망을 통해 구축된 예측 모델을 이용하여 상기 예측 대상 온라인 데이터의 작성자의 성 정체성을 예측할 수 있다.
또한, 단계 S530에서, 성 정체성 예측부(150)는, 작성자의 성 정체성을 예측한 결과를 출력할 수 있다.
상술한 설명에서, 단계 S510 내지 S530은 본원의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.
본원의 일 실시 예에 따른 온라인 데이터에 기반한 사용자 성 정체성 예측 모델 생성 방법 및 온라인 데이터에 기반한 사용자 성 정체성 예측 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
또한, 전술한 온라인 데이터에 기반한 사용자 성 정체성 예측 모델 생성 방법 및 온라인 데이터에 기반한 사용자 성 정체성 예측 방법은 기록 매체에 저장되는 컴퓨터에 의해 실행되는 컴퓨터 프로그램 또는 애플리케이션의 형태로도 구현될 수 있다.
전술한 본원의 설명은 예시를 위한 것이며, 본원이 속하는 기술분야의 통상의 지식을 가진 자는 본원의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본원의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본원의 범위에 포함되는 것으로 해석되어야 한다.
100: 온라인 데이터에 기반한 사용자 성 정체성 예측 장치
110: 데이터 수신부
120: 작성자 분류부
130: 데이터 특성 추출부
140: 벡터 저장부
150: 성 정체성 예측부
10: 네트워크
20: 작성자 군
30: 사용자 단말
41: 온라인 데이터
42: 예측 대상 온라인 데이터

Claims (12)

  1. 온라인 데이터에 기반한 사용자 성 정체성 예측 방법에 있어서,
    작성자 군에 의해 게시된 온라인 데이터로부터 복수의 모달리티별로 상기 작성자 군의 성 정체성과 연계된 특성을 추출하는 단계;
    상기 추출된 특성을 벡터 공간에 저장하는 단계;
    상기 벡터 공간에 저장된 특성을 기반으로 심층신경망을 구축하여 온라인 데이터의 작성자의 성 정체성을 분류할 수 있는 예측 모델을 학습시켜 생성하는 단계; 및
    예측 대상 온라인 데이터를 수신하고, 상기 생성된 예측 모델을 이용하여 상기 예측 대상 온라인 데이터 작성자의 성 정체성을 예측하는 단계,
    를 포함하고,
    상기 복수의 모달리티에는 이미지, 텍스트 및 활동 중 적어도 하나가 포함되되, 상기 활동 모달리티의 특성은 작성요일, 작성일이 주중인지 주말인지 여부 및 응답빈도 중 적어도 하나를 포함하는 것을 특징으로 하는 사용자 성 정체성 예측 방법.
  2. 제1항에 있어서,
    상기 예측 모델을 생성하는 단계는,
    상기 모달리티별로 심층신경망을 구축하는 단계; 및
    상기 모달리티별로 구축된 심층신경망을 병합하여 상기 예측 모델을 생성하는 단계,
    를 포함하는 사용자 성 정체성 예측 방법.
  3. 삭제
  4. 제1항에 있어서,
    상기 이미지 모달리티의 특성은 시각적 특성 및 제스처 특성 중 적어도 하나를 포함하고,
    상기 제스처 특성은 기 채택된 복수의 제스처 유형 중 적어도 하나가 상기 온라인 데이터에 포함된 이미지에 나타나는지 여부를 라벨링하여 획득되는 것을 특징으로 하는 사용자 성 정체성 예측 방법.
  5. 제1항에 있어서,
    상기 텍스트 모달리티의 특성은 문장 및 태그, 범주 및 언어적 특성 중 적어도 하나를 포함하고,
    상기 벡터 공간에 저장하는 단계는, TF-IDF(Term Frequency-Inverse Document Frequency) 가중치 알고리즘에 의해 특정한 크기를 갖는 벡터에 상기 문장 및 태그가 매핑되는 것을 특징으로 하는 사용자 성 정체성 예측 방법.
  6. 삭제
  7. 온라인 데이터에 기반한 사용자 성 정체성 예측 모델 생성 방법에 있어서,
    임의의 작성자 군을 선정하는 단계;
    상기 작성자 군의 성 정체성을 추출하는 단계;
    상기 작성자 군에 의해 게시된 온라인 데이터로부터 복수의 모달리티별로 상기 작성자 군의 성 정체성과 연계된 특성을 추출하는 단계;
    상기 추출된 특성을 벡터 공간에 저장하는 단계; 및
    상기 벡터 공간에 저장된 특성을 기반으로 심층신경망을 구축하여 온라인 데이터 작성자의 성 정체성을 분류할 수 있는 예측 모델을 학습시켜 생성하는 단계,
    를 포함하고,
    상기 복수의 모달리티에는 이미지, 텍스트 및 활동 중 적어도 하나가 포함되되, 상기 활동 모달리티의 특성은 작성요일, 작성일이 주중인지 주말인지 여부 및 응답빈도 중 적어도 하나를 포함하는 것을 특징으로 하는 사용자 성 정체성 예측 모델 생성 방법.
  8. 제 7항에 있어서,
    상기 예측 모델을 생성하는 단계는,
    상기 모달리티별로 심층신경망을 구축하는 단계; 및
    상기 모달리티별로 구축된 심층신경망을 병합하여 상기 예측 모델을 생성하는 단계,
    를 포함하는 사용자 성 정체성 예측 모델 생성 방법.
  9. 온라인 데이터에 기반한 사용자 성 정체성 예측 장치에 있어서,
    작성자 군에 의해 게시된 온라인 데이터 및 예측 대상 온라인 데이터를 수신하는 데이터 수신부;
    상기 작성자 군에 의해 게시된 온라인 데이터로부터 복수의 모달리티별로 상기 작성자 군의 성 정체성과 연계된 특성을 추출하는 데이터 특성 추출부;
    상기 추출된 특성을 벡터 공간에 저장하는 벡터 저장부; 및
    상기 벡터 공간에 저장된 특성을 기반으로 구축된 심층신경망을 이용하여 학습된 예측 모델을 생성하고, 상기 생성된 예측 모델을 이용하여 상기 예측 대상 온라인 데이터의 작성자의 성 정체성에 대한 예측값을 도출하는 사용자 성 정체성 예측부,
    를 포함하고,
    상기 복수의 모달리티에는 이미지, 텍스트 및 활동 중 적어도 하나가 포함되되, 상기 활동 모달리티의 특성은 작성요일, 작성일이 주중인지 주말인지 여부 및 응답빈도 중 적어도 하나를 포함하는 것을 특징으로 하는 사용자 성 정체성 예측 장치.
  10. 제 9항에 있어서,
    상기 사용자 성 정체성 예측부는,
    상기 복수의 모달리티별로 심층신경망을 구축하고, 각 모달리티별로 구축된 심층신경망을 병합하여 상기 예측 모델을 생성하는 것을 특징으로 하는 사용자 성 정체성 예측 장치.
  11. 제 9 항에 있어서,
    상기 작성자 군의 성 정체성을 분류하는 작성자 분류부,
    를 더 포함하는 것인, 사용자 성 정체성 예측 장치.
  12. 삭제
KR1020180172415A 2018-12-28 2018-12-28 온라인 데이터에 기반한 사용자 성 정체성 예측 장치 및 방법 KR102210772B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180172415A KR102210772B1 (ko) 2018-12-28 2018-12-28 온라인 데이터에 기반한 사용자 성 정체성 예측 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180172415A KR102210772B1 (ko) 2018-12-28 2018-12-28 온라인 데이터에 기반한 사용자 성 정체성 예측 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20200082136A KR20200082136A (ko) 2020-07-08
KR102210772B1 true KR102210772B1 (ko) 2021-02-01

Family

ID=71600112

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180172415A KR102210772B1 (ko) 2018-12-28 2018-12-28 온라인 데이터에 기반한 사용자 성 정체성 예측 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102210772B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112765479B (zh) * 2021-04-06 2021-09-14 北京神州泰岳智能数据技术有限公司 一种信息推荐的方法、装置、电子设备和可读存储介质
CN115081334A (zh) * 2022-06-30 2022-09-20 支付宝(杭州)信息技术有限公司 用于预测用户的年龄段或性别的方法、系统、装置和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010015472A (ja) * 2008-07-07 2010-01-21 Nippon Telegr & Teleph Corp <Ntt> 歩行者性別判定装置、歩行者性別判定方法、歩行者性別判定プログラムおよびその記録媒体
KR101872733B1 (ko) * 2017-06-14 2018-06-29 조선대학교산학협력단 소셜 네트워크 서비스 팔로잉 추천 시스템 및 이를 이용한 소셜 네트워크 팔로잉 추천 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105654131A (zh) * 2015-12-30 2016-06-08 小米科技有限责任公司 分类模型训练方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010015472A (ja) * 2008-07-07 2010-01-21 Nippon Telegr & Teleph Corp <Ntt> 歩行者性別判定装置、歩行者性別判定方法、歩行者性別判定プログラムおよびその記録媒体
KR101872733B1 (ko) * 2017-06-14 2018-06-29 조선대학교산학협력단 소셜 네트워크 서비스 팔로잉 추천 시스템 및 이를 이용한 소셜 네트워크 팔로잉 추천 방법

Also Published As

Publication number Publication date
KR20200082136A (ko) 2020-07-08

Similar Documents

Publication Publication Date Title
Pantano et al. Making sense of consumers’ tweets: Sentiment outcomes for fast fashion retailers through Big Data analytics
Ngai et al. Machine learning in marketing: A literature review, conceptual framework, and research agenda
Mitra et al. Helpfulness of online consumer reviews: A multi-perspective approach
Zhou et al. Attention-based BiLSTM models for personality recognition from user-generated content
Li et al. Image sentiment prediction based on textual descriptions with adjective noun pairs
CN112069320B (zh) 一种基于跨度的细粒度情感分析方法
Duong et al. Provenance-based rumor detection
Khan et al. Comparative analysis on Facebook post interaction using DNN, ELM and LSTM
KR102210772B1 (ko) 온라인 데이터에 기반한 사용자 성 정체성 예측 장치 및 방법
Nareshkumar et al. Interactive deep neural network for aspect-level sentiment analysis
Menaria et al. Tweet sentiment classification by semantic and frequency base features using hybrid classifier
Xia Application technology on collaborative training of interactive learning activities and tendency preference diversion
CN113032676B (zh) 基于微反馈的推荐方法和系统
Zhang et al. Image tweet popularity prediction with convolutional neural network
Ramadhanti et al. Determining customer relationship management strategy with customer personality analysis using ontology model approach
Arjaria et al. Personality trait identification for written texts using MLNB
Sharma et al. A Systematic approach for the Prediction of Personality based on Attention Enhanced GCNN and LSTM Approach
Almuqren Twitter Analysis to Predict the Satisfaction of Saudi Telecommunication Companies’ Customers
Haripriya et al. Detection of sarcasm from consumer sentiments on social media about luxury brands
Mudigonda et al. IDEAL: an inventive optimized deep ensemble augmented learning framework for opinion mining and sentiment analysis
Utami et al. A Review on Social Media Based Profiling Analysis
Ye et al. Predicting personality traits of users in social networks
Rani et al. Meta heuristic approaches for sentiment analysis
Pokrovskii Study on customer behavior analysis using machine learning
Mobasher et al. An enhanced personality detection system through user’s digital footprints

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant