KR20230089056A - 데이터 결합을 위한 전자 장치 및 이의 제어 방법 - Google Patents

데이터 결합을 위한 전자 장치 및 이의 제어 방법 Download PDF

Info

Publication number
KR20230089056A
KR20230089056A KR1020210177396A KR20210177396A KR20230089056A KR 20230089056 A KR20230089056 A KR 20230089056A KR 1020210177396 A KR1020210177396 A KR 1020210177396A KR 20210177396 A KR20210177396 A KR 20210177396A KR 20230089056 A KR20230089056 A KR 20230089056A
Authority
KR
South Korea
Prior art keywords
data set
information
vector
vector information
combined
Prior art date
Application number
KR1020210177396A
Other languages
English (en)
Inventor
신해빈
이강욱
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020210177396A priority Critical patent/KR20230089056A/ko
Priority to EP22907900.9A priority patent/EP4369215A1/en
Priority to PCT/KR2022/020243 priority patent/WO2023113433A1/ko
Priority to US18/299,413 priority patent/US20230244876A1/en
Publication of KR20230089056A publication Critical patent/KR20230089056A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24558Binary matching operations
    • G06F16/2456Join operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 전자 장치 및 이의 제어 방법에 관한 것으로, 본 개시에 따른 전자 장치는 메모리 및 프로세서를 포함하고, 프로세서는, 제1 데이터 셋(Data Set) 및 제2 데이터 셋(Data set)을 획득하고, 제1 데이터 셋 및 제2 데이터 셋의 의미 정보에 기초하여 제1 데이터 셋에 포함된 엔티티들에 대응되는 제1 벡터 정보 및 제2 데이터 셋에 포함된 엔티티들에 대응되는 제2 벡터 정보를 획득하고, 제1 데이터 셋 및 제2 데이터 셋의 클래스 정보에 기초하여 제1 데이터 셋 및 제2 데이터 셋의 문맥 정보를 획득하고, 획득된 문맥 정보에 기초하여 제1 데이터 셋에 포함된 엔티티들에 대응되는 제3 벡터 정보 및 제2 데이터 셋에 포함된 엔티티들에 대응되는 제4 벡터 정보를 획득하고, 제1 벡터 정보 및 제3 벡터 정보를 조합하여 제 1 조합 벡터 정보를 획득하고, 제2 벡터 정보 및 제4 벡터 정보를 조합하여 제 2 조합 벡터 정보를 획득하고, 제1 조합 벡터 및 제2 조합 벡터에 기초하여 제1 데이터 셋 및 제2 데이터 셋이 매핑된 결합 데이터 셋을 생성할 수 있다.

Description

데이터 결합을 위한 전자 장치 및 이의 제어 방법 {ELECTRONIC APPARATUS FOR JOINING DATA AND METHOD FOR CONTROLLING THEREOF}
본 개시는 전자 장치 및 이의 제어 방법에 관한 것으로, 더욱 상세하게는, 독립된 두 데이터의 문맥을 바탕으로 의미론적 데이터 결합 동작을 수행하는 전자 장치 및 이의 제어 방법에 관한 것이다.
인공지능(Artificial Intelligence, AI) 시스템은 인간 수준의 지능을 구현하는 컴퓨터 시스템이며, 기존 규칙 기반 스마트 시스템과 달리 기계가 스스로 학습하고 판단하며 발전하는 시스템이다. 인공 지능 시스템은 사용할수록 인식률이 향상되고 사용자의 의도를 보다 정확하게 이해할 수 있게 되어, 기존 규칙 기반 스마트 시스템은 점차 기계 학습(Machine learning)/딥 러닝(Deep learning) 기반 인공지능 시스템으로 대체되고 있다.
특히, 정보화 시대에 접어들면서 위와 같은 인공지능 기술이 접목될 수 있는 다양한 분야 중, 데이터 베이스 관리 시스템과 관련하여, 방대한 양의 데이터를 관리하는 기술의 개발이 가속화되어 왔다. 이런 추세를 반영하여 데이터의 분류, 통합, 제거 작업을 효율적으로 수행하기 위한 다양한 방식이 시도되고 있다. 다만, 복수의 시스템에 포함된 데이터는 개별적인 명칭, 포맷, 내용을 갖기 때문에 통합적으로 관리하기 어려운 면이 있으며, 독립적인 별개의 데이터 베이스에 대해 관리자가 일일이 수작업으로 데이터를 분류, 통합, 제거하기 위한 작업을 수행해야 하는 불편함이 존재하였다.
따라서, 위와 같은 불편함을 해소하고자, 인공지능 기술을 접목하여 독립된 데이터베이스에 포함된 데이터를 분류, 통합, 제거하는 기술에 대한 연구개발이 시도되고 있다.
구체적으로, 데이터베이스에 포함된 데이터에 대한 관리 방법 중 서로 다른 시스템에 포함된 데이터 결합과 관련하여, 결합하고자 하는 데이터가 동일한 키워드를 포함하고 있어 이를 기초로 매칭시키는 방식이 활용되고 있으나, 결합하고자 하는 데이터가 의미론적으로는 대응됨에도 정확히 일치하는 키워드를 포함하고 있지 않아 데이터 결합이 수월하게 이루어지지 않는 문제점이 존재하였다.
따라서, 서로 다른 데이터가 정확히 일치하는 키워드를 포함하고 있지 않은 경우에도, 데이터가 갖는 상대적 의미를 파악하여 서로 대응되는 데이터를 매핑(Mapping) 또는 결합할 수 있는 방안의 모색이 요청된다.
본 개시는 상술한 문제를 해결하기 위해 고안된 것으로, 본 개시의 목적은 독립된 두 데이터 간의 상대적 의미를 고려하여 의미론적으로 데이터를 결합하는 전자 장치 및 이의 제어 방법을 제공함에 있다.
상술한 목적을 달성하기 위한 본 실시 예에 따른 전자 장치는, 메모리 및 프로세서를 포함하고, 상기 프로세서는, 제1 데이터 셋(Data Set) 및 제2 데이터 셋(Data set)을 획득하고, 상기 제1 데이터 셋 및 상기 제2 데이터 셋의 의미 정보에 기초하여 상기 제1 데이터 셋에 포함된 엔티티(Entity)들에 대응되는 제1 벡터 정보 및 상기 제2 데이터 셋에 포함된 엔티티(Entity)들에 대응되는 제2 벡터 정보를 획득하고, 상기 제1 데이터 셋 및 상기 제2 데이터 셋의 클래스 정보에 기초하여 상기 제1 데이터 셋 및 상기 제2 데이터 셋의 문맥 정보를 획득하고, 상기 획득된 문맥 정보에 기초하여 상기 제1 데이터 셋에 포함된 엔티티(Entity)들에 대응되는 제3 벡터 정보 및 상기 제2 데이터 셋에 포함된 엔티티(Entity)들에 대응되는 제4 벡터 정보를 획득하고, 상기 제1 벡터 정보 및 상기 제3 벡터 정보를 조합하여 제 1 조합 벡터 정보를 획득하고, 상기 제2 벡터 정보 및 상기 제4 벡터 정보를 조합하여 제 2 조합 벡터 정보를 획득하고, 상기 제1 조합 벡터 및 상기 제2 조합 벡터에 기초하여 상기 제1 데이터 셋 및 상기 제2 데이터 셋이 매핑된 결합 데이터 셋을 생성할 수 있다.
한편, 상기 프로세서는, 입력된 제1 로우 데이터(Raw Data)를 규격화된 엔티티들을 포함하는 제1 데이터 셋으로 변환하고, 제2 로우 데이터(Raw Data)를 규격화된 엔티티들을 포함하는 제2 데이터 셋으로 변환할 수 있다.
한편, 상기 의미 정보는, 외부 서버 또는 메모리 중 적어도 하나로부터 획득된 제1 데이터 셋 및 제2 데이터 셋의 일반적 의미 정보이고, 상기 일반적 의미 정보는 사전적 의미 정보, 내포적 의미 정보, 주변적 의미 정보 중 적어도 하나일 수 있다.
한편, 상기 프로세서는, 상기 제1 데이터 셋 및 상기 제2 데이터 셋의 일반적 의미 정보를 제1 신경망 모델에 입력하여 상기 제1 데이터 셋에 포함된 엔티티들에 대응되는 제1 벡터 정보 및 상기 제2 데이터 셋에 포함된 엔티티들에 대응되는 제2 벡터 정보를 획득할 수 있다.
한편, 상기 프로세서는, 상기 제1 데이터 셋에 포함된 복수의 제1 엔티티들에 대응되는 적어도 하나의 제1 클래스(Class) 정보를 식별하고, 상기 제2 데이터 셋에 포함된 복수의 제2 엔티티들에 대응되는 적어도 하나의 제2 클래스(Class) 정보를 식별하고, 상기 식별된 적어도 하나의 제1 클래스 정보 중 상기 복수의 제1 엔티티들에 공통적으로 대응되는 제1 클래스 정보에 기초하여 상기 제1 데이터 셋의 제1 문맥 정보를 획득하고, 상기 식별된 적어도 하나의 제2 클래스 정보 중 상기 복수의 제2 엔티티들에 공통적으로 대응되는 제2 클래스 정보에 기초하여 상기 제2 데이터 셋의 제2 문맥 정보를 획득할 수 있다.
한편, 상기 프로세서는, 상기 제1 문맥 정보 및 상기 제2 문맥 정보를 제2 신경망 모델에 입력하여 상기 제1 데이터 셋에 포함된 엔티티들에 대응되는 제3 벡터 정보 및 상기 제2 데이터 셋에 포함된 엔티티들에 대응되는 제4 벡터 정보를 획득할 수 있다.
한편, 상기 프로세서는, 제1 가중치가 부여된 상기 제1 벡터 정보 및 제2 가중치가 부여된 상기 제3 벡터 정보의 연산에 기초하여 상기 제1 조합 벡터 정보를 획득하고, 제3 가중치가 부여된 상기 제2 벡터 정보 및 제4 가중치가 부여된 상기 제4 벡터 정보의 연산에 기초하여 상기 제2 조합 벡터 정보를 획득할 수 있다.
한편, 상기 프로세서는, 상기 매핑된 제1 조합 벡터와 제2 조합 벡터 사이의 유사도가 기 설정된 값 이상인 적어도 하나의 매핑된 제1 조합 벡터와 제2 조합 벡터 쌍을 식별하고, 상기 유사도가 기 설정된 값 이상인 것으로 식별된 적어도 하나의 매핑된 제1 조합 벡터와 제2 조합 벡터 쌍에서 상기 제1 조합 벡터 및 상기 제2 조합 벡터 중 하나를 제거하여 결합 데이터를 생성할 수 있다.
한편, 상기 클래스 정보는, 상기 제1 데이터 셋 및 상기 제2 데이터 셋에 포함된 엔티티들의 상위 개념을 나타내는 정보이고, 상기 문맥 정보는, 상기 클래스 정보를 바탕으로 획득된 상기 제1 데이터 셋 및 상기 제2 데이터 셋에서의 맥락적 의미일 수 있다.
본 개시의 일 실시 예에 따른 전자 장치의 제어 방법은, 제1 데이터 셋(Data Set) 및 제2 데이터 셋(Data set)을 획득하는 단계, 상기 제1 데이터 셋 및 상기 제2 데이터 셋의 제1 의미 정보에 기초하여 상기 제1 데이터 셋에 포함된 엔티티(Entity)들에 대응되는 제1 벡터 정보 및 상기 제2 데이터 셋에 포함된 엔티티(Entity)들에 대응되는 제2 벡터 정보를 획득하는 단계, 상기 제1 데이터 셋 및 상기 제2 데이터 셋의 클래스 정보에 기초하여 상기 제1 데이터 셋 및 상기 제2 데이터 셋의 문맥 정보를 획득하는 단계, 상기 획득된 문맥 정보에 기초하여 상기 제1 데이터 셋에 포함된 엔티티들에 대응되는 제3 벡터 정보 및 상기 제2 데이터 셋에 포함된 엔티티들에 대응되는 제4 벡터 정보를 획득하는 단계, 상기 제1 벡터 정보 및 상기 제3 벡터 정보를 조합하여 제 1 조합 벡터 정보를 획득하고, 상기 제2 벡터 정보 및 상기 제4 벡터 정보를 조합하여 제 2 조합 벡터 정보를 획득하는 단계 및 상기 제1 조합 벡터 및 상기 제2 조합 벡터에 기초하여 상기 제1 데이터 셋 및 상기 제2 데이터 셋이 매핑된 결합 데이터 셋을 생성하는 단계를 포함할 수 있다.
한편, 상기 제1 데이터 셋 및 상기 제2 데이터 셋을 획득하는 단계는, 입력된 제1 로우 데이터(Raw Data)를 규격화된 엔티티들을 포함하는 제1 데이터 셋으로 변환하고, 제2 로우 데이터(Raw Data)를 규격화된 엔티티들을 포함하는 제2 데이터 셋으로 변환하는 단계를 포함할 수 있다.
한편, 상기 의미 정보는, 외부 서버 또는 메모리 중 적어도 하나로부터 획득된 제1 데이터 셋 및 제2 데이터 셋의 일반적 의미 정보이고, 상기 일반적 의미 정보는 사전적 의미 정보, 내포적 의미 정보, 주변적 의미 정보 중 적어도 하나일 수 있다.
한편, 상기 제1 벡터 정보 및 상기 제2 벡터 정보를 획득하는 단계는, 상기 제1 데이터 셋 및 상기 제2 데이터 셋의 일반적 의미 정보를 제1 신경망 모델에 입력하여 상기 제1 데이터 셋에 포함된 엔티티들에 대응되는 제1 벡터 정보 및 상기 제2 데이터 셋에 포함된 엔티티들에 대응되는 제2 벡터 정보를 획득하는 단계를 포함할 수 있다.
한편, 상기 제1 데이터 셋 및 상기 제2 데이터 셋의 문맥 정보를 획득하는 단계는, 상기 제1 데이터 셋에 포함된 복수의 제1 엔티티들에 대응되는 적어도 하나의 제1 클래스(Class) 정보를 식별하고, 상기 제2 데이터 셋에 포함된 복수의 제2 엔티티들에 대응되는 적어도 하나의 제2 클래스(Class) 정보를 식별하는 단계; 및 상기 식별된 적어도 하나의 제1 클래스 정보 중 상기 복수의 제1 엔티티들에 공통적으로 대응되는 제1 클래스 정보에 기초하여 상기 제1 데이터 셋의 제1 문맥 정보를 획득하고, 상기 식별된 적어도 하나의 제2 클래스 정보 중 상기 복수의 제2 엔티티들에 공통적으로 대응되는 제2 클래스 정보에 기초하여 상기 제2 데이터 셋의 제2 문맥 정보를 획득하는 단계를 포함할 수 있다.
한편, 상기 제3 벡터 정보 및 상기 제4 벡터 정보를 획득하는 단계는, 상기 제1 문맥 정보 및 상기 제2 문맥 정보를 제2 신경망 모델에 입력하여 상기 제1 데이터 셋에 포함된 엔티티들에 대응되는 제3 벡터 정보 및 상기 제2 데이터 셋에 포함된 엔티티들에 대응되는 제4 벡터 정보를 획득하는 단계를 포함할 수 있다.
한편, 상기 제1 조합 벡터 정보 및 상기 제2 조합 벡터 정보를 획득하는 단계는, 제1 가중치가 부여된 상기 제1 벡터 정보 및 제2 가중치가 부여된 상기 제3 벡터 정보의 연산에 기초하여 상기 제1 조합 벡터 정보를 획득하고, 제3 가중치가 부여된 상기 제2 벡터 정보 및 제4 가중치가 부여된 상기 제4 벡터 정보의 연산에 기초하여 상기 제2 조합 벡터 정보를 획득하는 단계를 포함할 수 있다.
한편, 상기 결합 데이터 셋을 생성하는 단계는, 상기 매핑된 제1 조합 벡터와 제2 조합 벡터 사이의 유사도가 기 설정된 값 이상인 적어도 하나의 매핑된 제1 조합 벡터와 제2 조합 벡터 쌍을 식별하는 단계 및 상기 유사도가 기 설정된 값 이상인 것으로 식별된 적어도 하나의 매핑된 제1 조합 벡터와 제2 조합 벡터 쌍에서 상기 제1 조합 벡터 및 상기 제2 조합 벡터 중 하나를 제거하여 결합 데이터 셋을 생성하는 단계를 포함할 수 있다.
한편, 상기 클래스 정보는, 상기 제1 데이터 셋 및 상기 제2 데이터 셋에 포함된 엔티티들의 상위 개념을 나타내는 정보이고, 상기 문맥 정보는, 상기 클래스 정보를 바탕으로 획득된 상기 제1 데이터 셋 및 상기 제2 데이터 셋에서의 맥락적 의미일 수 있다.
본 개시에 따르면, 두 데이터가 서로 동일한 키워드를 공통적으로 포함하고 있지 않은 경우라고 하더라도, 독립된 두 데이터 간의 상대적 의미를 고려하여 의미론적으로 데이터를 결합할 수 있고, 또한 결합된 데이터 중 중복된 데이터를 제거할 수 있다.
도 1은 본 개시의 일 실시 예에 따른, 전자 장치의 구성을 도시한 블록도이다.
도 2는 본 개시의 일 실시 예에 따른, 독립된 두 데이터 간의 상대적 의미를 고려하여 결합데이터를 생성하는 과정을 설명하기 위한 도면이다.
도 3은 본 개시의 일 실시 예에 따른, 회사명으로 이루어진 데이터와 국가명으로 이루어진 데이터의 상대적 의미를 고려하여 결합데이터를 생성하는 과정을 설명하기 위한 도면이다.
도 4는 본 개시의 일 실시 예에 따른, 기능버튼 이름으로 이루어진 데이터와 기능 카테고리로 이루어진 데이터의 상대적 의미를 고려하여 결합데이터를 생성하는 과정을 설명하기 위한 도면이다.
도 5는 본 개시의 일 실시 예에 따른, 신발 제품 명칭으로 이루어진 제1 데이터와 신발 제품 명칭으로 이루어진 제2 데이터의 상대적 의미를 고려하여 중복되는 데이터를 제거한 결합데이터를 생성하는 과정을 설명하기 위한 도면이다.
도 6은 본 개시의 다양한 실시 예에 따른, 전자 장치의 동작을 설명하기 위한 흐름도이다.
도 7은 본 개시의 다양한 실시 예에 따른, 추가될 수 있는 전자 장치의 세부 구성을 도시한 블록도이다.
본 실시 예들은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시 예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 본 개시의 실시 예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.
본 개시를 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략한다.
덧붙여, 하기 실시 예는 여러 가지 다른 형태로 변형될 수 있으며, 본 개시의 기술적 사상의 범위가 하기 실시 예에 한정되는 것은 아니다. 오히려, 이들 실시 예는 본 개시를 더욱 충실하고 완전하게 하고, 당업자에게 본 개시의 기술적 사상을 완전하게 전달하기 위하여 제공되는 것이다.
본 개시에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 권리범위를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 개시에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.
본 개시에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상"등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.
본 개시에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.
어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 어떤 구성요소가 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다.
반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 어떤 구성요소와 다른 구성요소 사이에 다른 구성요소(예: 제3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.
본 개시에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것만을 반드시 의미하지 않을 수 있다.
대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
실시 예에 있어서 '모듈' 혹은 '부'는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의 '모듈' 혹은 복수의 '부'는 특정한 하드웨어로 구현될 필요가 있는 '모듈' 혹은 '부'를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서로 구현될 수 있다.
한편, 도면에서의 다양한 요소와 영역은 개략적으로 그려진 것이다. 따라서, 본 발명의 기술적 사상은 첨부한 도면에 그려진 상대적인 크기나 간격에 의해 제한되지 않는다.
이하에서는 첨부한 도면을 참고하여 본 개시에 따른 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.
도 1은 본 개시의 일 실시 예에 따른, 전자 장치의 구성을 도시한 블록도이다.
전자 장치(100)는, 전자 장치는 서버이거나 서버를 포함하는 전자 장치로 구현될 수 있다. 다만, 이에 국한되지 않고, 스마트 폰, 데스크톱 컴퓨터, 랩톱 컴퓨터, 태블릿, 모바일 기기, 웨어러블 기기, 사용자 단말 장치 등과 같이 연산 작업을 수행할 수 있는 다양한 장치로 구현될 수 있다.
전자 장치(100)는 상술한 기기에 한정되지 않으며, 전자 장치(100)는 상술한 기기들의 둘 이상의 기능을 갖춘 전자 장치(100)로 구현될 수 있다.
본 개시의 다양한 실시 예에 따른 전자 장치(100)는 메모리(110), 프로세서(120)를 포함할 수 있고, 메모리(110)와 프로세서(120)의 상호 작용에 의하여 독립된 두 데이터 간의 상대적 의미를 고려하여 의미론적으로 데이터를 결합할 수 있다.
메모리(110)는 각종 프로그램이나 데이터를 일시적 또는 비일시적으로 저장하고, 프로세서(120)의 호출에 따라서 저장된 정보를 프로세서(120)에 전달한다. 또한, 메모리(110)는, 프로세서(120)의 연산, 처리 또는 제어 동작 등에 필요한 각종 정보를 전자적 포맷으로 저장할 수 있다
메모리(110)는, 예를 들어, 주기억장치 및 보조기억장치 중 적어도 하나를 포함할 수 있다. 주기억장치는 롬(ROM) 및/또는 램(RAM)과 같은 반도체 저장 매체를 이용하여 구현된 것일 수 있다. 롬은, 예를 들어, 통상적인 롬, 이피롬(EPROM), 이이피롬(EEPROM) 및/또는 마스크롬(MASK-ROM) 등을 포함할 수 있다. 램은 예를 들어, 디램(DRAM) 및/또는 에스램(SRAM) 등을 포함할 수 있다. 보조기억장치는, 플래시 메모리 장치, SD(Secure Digital) 카드, 솔리드 스테이트 드라이브(SSD, Solid State Drive), 하드 디스크 드라이브(HDD, Hard Disc Drive), 자기 드럼, 컴팩트 디스크(CD), 디브이디(DVD) 또는 레이저 디스크 등과 같은 광 기록 매체(optical media), 자기테이프, 광자기 디스크 및/또는 플로피 디스크 등과 같이 데이터를 영구적 또는 반영구적으로 저장 가능한 적어도 하나의 저장 매체를 이용하여 구현될 수 있다.
본 개시의 다양한 실시 예에 따른 메모리(110)는, 외부서버로부터 수신하거나 사용자 명령에 의해 입력된 로우 데이터(Raw Data), 규격화된 엔티티들을 포함하는 데이터 셋, 데이터 셋의 의미 정보, 데이터 셋의 클래스 정보, 데이터 셋의 문맥 정보, 데이터 셋의 벡터 정보, 독립된 두 데이터 셋의 조합 벡터 정보, 결합 데이터 셋을 저장할 수 있다.
프로세서(120)는 전자 장치(100)의 전반적인 동작을 제어한다. 구체적으로, 프로세서(120)는 상술한 바와 메모리(110)를 포함하는 전자 장치(100)의 구성과 연결되며, 상술한 바와 같은 메모리(110)에 저장된 적어도 하나의 인스트럭션을 실행함으로써, 전자 장치(100)의 동작을 전반적으로 제어할 수 있다. 특히, 프로세서(120)는 하나의 프로세서(120)로 구현될 수 있을 뿐만 아니라 복수의 프로세서(120)로 구현될 수 있다.
프로세서(120)는 다양한 방식으로 구현될 수 있다. 예를 들어, 프로세서(120)는 주문형 집적 회로(Application Specific Integrated Circuit, ASIC), 임베디드 프로세서, 마이크로 프로세서, 하드웨어 컨트롤 로직, 하드웨어 유한 상태 기계(hardware Finite State Machine, FSM), 디지털 신호 프로세서(Digital Signal Processor, DSP) 중 적어도 하나로 구현될 수 있다.
한편, 본 개시에서 프로세서(120)는 디지털 신호를 처리하는 중앙처리장치 (central processing unit(CPU)), MCU(Micro Controller Unit), MPU(micro processing unit), 컨트롤러(controller), 어플리케이션 프로세서(application processor(AP)), 또는 커뮤니케이션 프로세서(communication processor(CP)), ARM 프로세서 중 하나 또는 그 이상을 포함하거나, 해당 용어로 정의될 수 있다. 또한, 프로세서(120)는 프로세싱 알고리즘이 내장된 SoC(System on Chip), LSI(large scale integration)로 구현될 수도 있고, FPGA(Field Programmable gate array) 형 태로 구현될 수도 있다. 프로세서(120)는 메모리(110)에 저장된 컴퓨터 실행가능 명령어(computer executable instructions)를 실행함으로써 다양한 기능을 수행할 수 있다. 뿐만 아니라, 프로세서(120)는 인공지능 기능을 수행하기 위하여, 별도의 AI 전용 프로세서인 GPU(graphics-processing unit), NPU(Neural Processing Unit), VPU(Visual Processing UniT) 중 적어도 하나를 포함할 수 있다.
본 개시에 따른 구체적인 프로세서(120)의 전자 장치(100) 제어 방법은 도 2 내지 6을 통해 구체적으로 설명한다.
도 2는 본 개시의 일 실시 예에 따른, 독립된 두 데이터 간의 상대적 의미를 고려하여 결합데이터를 생성하는 과정을 설명하기 위한 도면이다.
도 2를 참조하면, 프로세서(120)는 제1 전처리 모듈(130-1)을 통해 제1 데이터 셋(Data Set)을 획득하고 제2 전처리 모듈(130-4)를 통해 제2 데이터 셋(Data set)을 획득할 수 있다.
여기서, 프로세서(120)는 제1 전처리 모듈을 통해 입력된 제1 데이터(210)에 대응되는 제1 로우 데이터를 규격화된 엔티티들을 포함하는 제1 데이터 셋으로 변환할 수 있다. 또한, 프로세서(120)는 제2 전처리 모듈(130-4)을 통해 입력된 제2 데이터(220)에 대응되는 제2 로우 데이터를 규격화된 엔티티들을 포함하는 제2 데이터 셋으로 변환할 수 있다.
여기서, 로우 데이터란 일정한 형식을 갖지 않는, 즉, 규격화되지 않은 상태의 데이터를 의미한다.
여기서, 엔티티란 데이터 셋에 포함된 구체적 객체를 의미하며, 인스턴스, 오브젝트 등으로 표현될 수 있다.
프로세서(120)는 제1 일반 벡터 변환 모듈(130-2)을 통해 제1 데이터 셋의 제1 의미 정보에 기초하여 제1 데이터 셋에 대응되는 제1 벡터 정보를 획득할 수 있고, 제2 일반 벡터 변환 모듈(130-5)을 통해 제2 데이터 셋의 제1 의미 정보에 기초하여 제2 데이터 셋에 대응되는 제2 벡터 정보를 획득할 수 있다. 여기서, 제1 의미 정보는 서버 또는 메모리로부터 획득된 각 데이터 셋의 일반적 의미 정보일 수 있다. 여기서, 일반적 의미 정보는 사전적 의미 정보, 내포적 의미 정보, 주변적 의미 정보 중 적어도 하나일 수 있다.
프로세서(120)는, 제1 데이터 셋 및 제2 데이터 셋의 일반적 의미 정보를 제1 신경망 모델(예: 일반적 의미 벡터 변환 모델)에 입력하여 제1 데이터 셋에 대응되는 제1 벡터 정보 및 제2 데이터 셋에 대응되는 제2 벡터 정보를 획득할 수 있다.
상술한 바와 같이 프로세서(120)는 제1 데이터 셋 및 제2 데이터 셋에 포함된 데이터를 각각에 대응되는 제1 벡터 정보 및 제2 벡터 정보를 획득하면서 한편으로는, 문맥 정보 획득 모듈(130-7)을 통해 제1 데이터 셋의 클래스 정보에 기초하여 제1 데이터 셋의 문맥 정보를 획득할 수 있고, 제2 데이터 셋의 클래스 정보에 기초하여 제2 데이터 셋의 문맥 정보를 획득할 수 있다.
여기서, 문맥 정보는 특정 데이터가 포함되어 있는 데이터 셋에 포함된 다른데이터의 의미, 내용, 컨텍스트 등을 고려하여 특정 데이터가 갖는 문언적 의미 외에 갖는 데이터 셋에서의 맥락적 의미를 지칭한다. 한편, 문맥 정보는, 제1 데이터 셋 혹은 제2 데이터 셋 각각의 데이터 셋 내부에서 얻을 수 있는 일련의 메타 데이터 혹은 클래스 정보에 기초한다. 일례로 데이터베이스 상의 테이블에서 얻을 수 있는 칼럼 명, 테이블 명 과 같은 명시적인 정보들 뿐만 아니라, 각 데이터 셋에 포함된 엔티티(Entity)들 간의 공통성, 관계성 등에서 얻을 수 있는 내포적인 정보들이 이에 해당한다.
여기서, 클래스 정보란, 속성을 공유하는 유사한 성질의 엔티티들을 하나로 그룹화 한 상위 개념 정보를 의미한다. 일례로 데이터베이스 상의 테이블에서 얻을 수 있는 칼럼 명, 테이블 명 과 같은 명시적인 정보들 뿐만 아니라, 각 데이터 셋에 포함된 엔티티(Entity)들 간의 공통성, 관계성 등에서 얻을 수 있는 내포적인 정보들이 이에 해당한다.
프로세서(120)는, 제1 데이터 셋에 포함된 복수의 제1 엔티티들에 대응되는 적어도 하나의 제1 클래스(Class) 정보를 식별하고, 제2 데이터 셋에 포함된 복수의 제2 엔티티들에 대응되는 적어도 하나의 제2 클래스(Class) 정보를 식별할 수 있다.
프로세서(120)는 문맥 벡터 변환 모듈(130-8)을 통해 식별된 적어도 하나의 제1 클래스 정보 중 복수의 제1 엔티티들에 공통적으로 대응되는 제1 클래스 정보에 기초하여 제1 데이터 셋의 제1 문맥 정보를 획득할 수 있다. 또한, 프로세서(120)는 문맥 벡터 변환 모듈(130-8)을 통해 식별된 적어도 하나의 제2 클래스 정보 중 복수의 제2 엔티티들에 공통적으로 대응되는 제2 클래스 정보에 기초하여 제2 데이터 셋의 제2 문맥 정보를 획득할 수 있다.
프로세서(120)는 문맥 벡터 변환 모듈(130-8)을 통해 획득된 문맥 정보에 기초하여 제1 데이터 셋에 대응되는 제3 벡터 정보 및 제2 데이터 셋에 대응되는 제4 벡터 정보를 획득할 수 있다.
여기서, 프로세서(120)는 1 문맥 정보 및 제2 문맥 정보를 제2 신경망 모델(예: 문맥 벡터 변환 모델)에 입력하여 제1 데이터 셋에 대응되는 제3 벡터 정보 및 제2 데이터 셋에 대응되는 제4 벡터 정보를 획득할 수 있다.
프로세서(120)는 제1 벡터 조합 모듈(130-3)을 통해 제1 벡터 정보 및 제3 벡터 정보를 조합하여 제 1 조합 벡터 정보를 획득할 수 있고, 제2 벡터 조합 모듈(130-6)을 통해 제2 벡터 정보 및 제4 벡터 정보를 조합하여 제 2 조합 벡터 정보를 획득할 수 있다.
여기서, 프로세서(120)는 제1 가중치가 부여된 제1 벡터 정보 및 제2 가중치가 부여된 제3 벡터 정보의 연산에 기초하여 제1 조합 벡터 정보를 획득하고, 제3 가중치가 부여된 제2 벡터 정보 및 제4 가중치가 부여된 제4 벡터 정보의 연산에 기초하여 제2 조합 벡터 정보를 획득할 수 있다.
프로세서(120)는 데이터 결합 모듈(130-9)을 통해 제1 조합 벡터 및 제2 조합 벡터에 기초하여 제1 데이터 셋 및 제2 데이터 셋이 매핑된 결합 데이터 셋을 생성하 할 수 있다.
상술한 바와 같은 본 개시의 일 실시 예에 따른 프로세서(120)의 동작은 도 3 내지 5를 통해 보다 구체적인 적용 예시를 설명할 수 있다.
도 3은 본 개시의 일 실시 예에 따른, 회사명으로 이루어진 데이터와 국가명으로 이루어진 데이터의 상대적 의미를 고려하여 결합데이터를 생성하는 과정을 설명하기 위한 도면이다.
프로세서(120)는, "회사명"과 관련된 제1 로우 데이터(310)를 제1 전처리 모듈(130-1)을 통해 "삼성", "아마존", "구글"이라는 규격화된 엔티티들 포함하는 제1 데이터 셋을 획득할 수 있다. 또한, 프로세서(120)는, "국가명"과 관련된 제2 로우 데이터(320)를 제2 전처리 모듈(130-4)을 통해 "브라질", "한국", "미국"이라는 규격화된 엔티티들 포함하는 제2 데이터 셋을 획득할 수 있다.
프로세서(120)는 제1 일반 벡터 변환 모듈(130-2)를 통해 제1 데이터 셋의 의미 정보에 기초하여 제1 데이터 셋에 대응되는 제1 벡터 정보를 획득할 수 있다. 프로세서(120)는 제2 일반 벡터 변환 모듈(130-5)를 통해 제2 데이터 셋의 의미 정보에 기초하여 제2 데이터 셋에 대응되는 대응되는 제2 벡터 정보를 획득할 수 있다.
제1 벡터 정보와 제2 벡터 정보 획득의 기초가 되는 의미 정보는, 외부 서버 또는 메모리(110) 중 적어도 하나로부터 획득된 제1 데이터 셋 및 제2 데이터 셋의 일반적 의미 정보일 수 있다. 여기서, 일반적 의미 정보는 사전적 의미 정보, 내포적 의미 정보, 주변적 의미 정보 중 적어도 하나일 수 있다.
구체적으로 예를 들어, 제1 데이터 셋에 "아마존"이라는 단어가 포함되어 있다면, 프로세서(120)는 외부 서버 또는 메모리(110)로부터 "아마존"의 사전적 의미인 "남아메리카에 위치한 열대 우림", "미국의 전자상거래를 기반으로 한 IT 기업", 내포적 의미 정보인 "지구의 허파", 주변적 의미 정보인 "열대 우림", "정글", "숲이나 나무가 우거진 곳" 등과 같은 일반적 의미 정보를 획득할 수 있다.
상술한 바와 같이 프로세서(120)는 제1 데이터 셋 및 제2 데이터 셋에 포함된 데이터를 각각에 대응되는 제1 벡터 정보 및 제2 벡터 정보를 획득하면서 한편으로는, 제1 데이터 셋 및 제2 데이터 셋의 클래스 정보에 기초하여 제1 데이터 셋 및 제2 데이터 셋의 문맥 정보를 획득할 수 있다.
예를 들어, "아마존"의 클래스 정보는 "회사명"일 수도 있고, "지명"일 수도 있다.
제1 데이터 셋에 포함된 복수의 데이터가 "구글", "아마존", "삼성"인 경우, 프로세서(120)는 제1 클래스 정보를 "회사명"으로 식별할 수 있다. 제2 데이터 셋에 포함된 복수의 데이터가 "브라질", "한국", "미국"인 경우, 프로세서(120)는 제2 클래스 정보를 "국가명"으로 식별할 수 있다.
프로세서(120)는 문맥 벡터 변환 모듈(130-8)을 통해 복수의 제1 엔티티들인 "삼성", "아마존", "구글"에 공통적으로 대응되는 제1 클래스 정보에 기초하여 "회사명"이라는 제1 데이터 셋의 제1 문맥 정보를 획득할 수 있고, 복수의 제2 엔티티들인 "브라질", "한국", "미국"에 공통적으로 대응되는 제2 클래스 정보에 기초하여 "국가명"이라는 제2 데이터 셋의 제2 문맥 정보를 획득할 수 있다.
프로세서(120)는 획득된 제1 문맥 정보에 기초하여 제1 데이터 셋에 대응되는 제3 벡터 정보를 획득할 수 있고, 획득된 제2 문맥 정보에 기초하여 제2 데이터 셋에 대응되는 제4 벡터 정보를 획득할 수 있다.
프로세서(120)는 제1 벡터 정보 및 제3 벡터 정보를 조합하여 제 1 조합 벡터 정보를 획득하고, 제2 벡터 정보 및 제4 벡터 정보를 조합하여 제 2 조합 벡터 정보를 획득할 수 있다.
여기서, 프로세서(120)는 제1 가중치가 부여된 제1 벡터 정보 및 제2 가중치가 부여된 제3 벡터 정보의 연산에 기초하여 제1 조합 벡터 정보를 획득하고, 제3 가중치가 부여된 제2 벡터 정보 및 제4 가중치가 부여된 제4 벡터 정보의 연산에 기초하여 제2 조합 벡터 정보를 획득할 수 있다.
프로세서(120)는 제1 조합 벡터 및 제2 조합 벡터에 기초하여 제1 데이터 셋에 포함된 "아마존"이라는 엔티티와 제2 데이터 셋에 포함된 "미국"이라는 엔티티가 매핑된 결합 데이터 셋(330)을 생성할 수 있다.
도 4는 본 개시의 일 실시 예에 따른, 기능버튼 이름으로 이루어진 데이터와 기능 카테고리로 이루어진 데이터의 상대적 의미를 고려하여 결합데이터를 생성하는 과정을 설명하기 위한 도면이다.
프로세서(120)는, "기능버튼 이름", "기능 카테고리"과 관련된 제1 로우 데이터(410)를 제1 전처리 모듈(130-1)을 통해 "편안하게 보기", "품질 효과", "비밀번호 바꾸기", "디스플레이", "소리 및 진동", "보안" 이라는 규격화된 엔티티들 포함하는 제1 데이터 셋을 획득할 수 있다. 또한, 프로세서(120)는, 컴퓨터 언어로 표시된 "title", "category"와 관련된 제2 로우 데이터(420)를 제2 전처리 모듈(130-4)을 통해 "Eye comfort shield", "sound effect", "reset password", "display", "sound & vibration", "privacy"이라는 규격화된 엔티티들을 포함하는 제2 데이터 셋을 획득할 수 있다.
프로세서(120)는 제1 일반 벡터 변환 모듈(130-2)를 통해 제1 데이터 셋의 의미 정보에 기초하여 제1 데이터 셋에 대응되는 제1 벡터 정보를 획득할 수 있다. 프로세서(120)는 제2 일반 벡터 변환 모듈(130-5)를 통해 제2 데이터 셋의 의미 정보에 기초하여 제2 데이터 셋에 대응되는 대응되는 제2 벡터 정보를 획득할 수 있다.
제1 벡터 정보와 제2 벡터 정보 획득의 기초가 되는 의미 정보는, 외부 서버 또는 메모리(110) 중 적어도 하나로부터 획득된 제1 데이터 셋 및 제2 데이터 셋의 일반적 의미 정보일 수 있다. 여기서, 일반적 의미 정보는 사전적 의미 정보, 내포적 의미 정보, 주변적 의미 정보 중 적어도 하나일 수 있다.
구체적으로 예를 들어, 제1 데이터 셋에 "디스플레이"이라는 단어가 포함되어 있다면, 프로세서(120)는 외부 서버 또는 메모리(110)로부터 "디스플레이"의 사전적 의미인 "화면", "그래픽 이미지를 보여주는 패널", "전시하다", "보여주다", 주변적 의미 정보인 "휴대폰의 구성요소", "첨단산업 분야" 등과 같은 일반적 의미 정보를 획득할 수 있다.
상술한 바와 같이 프로세서(120)는 제1 데이터 셋 및 제2 데이터 셋에 포함된 데이터를 각각에 대응되는 제1 벡터 정보 및 제2 벡터 정보를 획득하면서 한편으로는, 제1 데이터 셋 및 제2 데이터 셋의 클래스 정보에 기초하여 제1 데이터 셋 및 제2 데이터 셋의 문맥 정보를 획득할 수 있다.
예를 들어,"편안한 모드"의 클래스 정보는 "기능버튼 이름"일 수 있고, "디스플레이"의 클래스 정보는 "기능 카테고리"일 수 있다. 또한, "Eye comfort shield"의 클래스 정보는 "title"일 수 있고, "display"의 클래스 정보는 "category"일 수 있다.
제1 데이터 셋에 포함된 복수의 데이터가 "디스플레이", "소리 및 진동", "보안"인 경우, 프로세서(120)는 제1 클래스 정보를 "기능 카테고리"로 식별할 수 있다. 제2 데이터 셋에 포함된 복수의 데이터가 "display", "sound & vibration", "privacy"인 경우, 프로세서(120)는 제2 클래스 정보를 "category"로 식별할 수 있다.
프로세서(120)는 문맥 벡터 변환 모듈(130-8)을 통해 복수의 제1 엔티티들인 "디스플레이", "소리 및 진동", "보안"에 공통적으로 대응되는 제1 클래스 정보에 기초하여 "기능 카테고리"라는 제1 데이터 셋의 제1 문맥 정보를 획득할 수 있고, 복수의 제2 엔티티들인 "display", "sound & vibration", "privacy"에 공통적으로 대응되는 제2 클래스 정보에 기초하여 "category"라는 제2 데이터 셋의 제2 문맥 정보를 획득할 수 있다.
프로세서(120)는 획득된 제1 문맥 정보에 기초하여 제1 데이터 셋에 대응되는 제3 벡터 정보를 획득할 수 있고, 획득된 제2 문맥 정보에 기초하여 제2 데이터 셋에 대응되는 제4 벡터 정보를 획득할 수 있다.
프로세서(120)는 제1 벡터 정보 및 제3 벡터 정보를 조합하여 제 1 조합 벡터 정보를 획득하고, 제2 벡터 정보 및 제4 벡터 정보를 조합하여 제 2 조합 벡터 정보를 획득할 수 있다.
여기서, 프로세서(120)는 제1 가중치가 부여된 제1 벡터 정보 및 제2 가중치가 부여된 제3 벡터 정보의 연산에 기초하여 제1 조합 벡터 정보를 획득하고, 제3 가중치가 부여된 제2 벡터 정보 및 제4 가중치가 부여된 제4 벡터 정보의 연산에 기초하여 제2 조합 벡터 정보를 획득할 수 있다.
프로세서(120)는 제1 조합 벡터 및 제2 조합 벡터에 기초하여 제1 데이터 셋에 포함된 "편안한 모드", "디스플레이"라는 엔티티들과 제2 데이터 셋에 포함된 "Eye comfort mode", "display"라는 엔티티들이 매핑된 결합 데이터 셋(430)을 생성할 수 있다.
도 5는 본 개시의 일 실시 예에 따른, 신발 제품 명칭으로 이루어진 제1 데이터와 신발 제품 명칭으로 이루어진 제2 데이터의 상대적 의미를 고려하여 중복되는 데이터를 제거한 결합데이터를 생성하는 과정을 설명하기 위한 도면이다.
프로세서(120)는, "신발 제품"과 관련된 제1 로우 데이터(510)를 제1 전처리 모듈(130-1)을 통해 "N신발 992 270mm", "A신발 high"라는 규격화된 엔티티들을 포함하는 제1 데이터 셋을 획득할 수 있다. 또한, 프로세서(120)는, "신발 제품"과 관련된 제2 로우 데이터(520)를 제2 전처리 모듈(130-4)을 통해 "N shoes M992GR 270mm", "A워커"라는 규격화된 엔티티들을 포함하는 제2 데이터 셋을 획득할 수 있다.
프로세서(120)는 제1 일반 벡터 변환 모듈(130-2)를 통해 제1 데이터 셋의 "신발"과 같은 일반적 의미 정보에 기초하여 제1 데이터 셋에 대응되는 제1 벡터 정보를 획득할 수 있다. 프로세서(120)는 제2 일반 벡터 변환 모듈(130-5)를 통해 제2 데이터 셋의 "신발"과 같은 일반적 의미 정보에 기초하여 제2 데이터 셋에 대응되는 대응되는 제2 벡터 정보를 획득할 수 있다.
상술한 바와 같이 프로세서(120)는 제1 데이터 셋 및 제2 데이터 셋에 포함된 데이터를 각각에 대응되는 제1 벡터 정보 및 제2 벡터 정보를 획득하면서 한편으로는, 제1 데이터 셋 및 제2 데이터 셋의 "신발 제품"이라는 클래스 정보에 기초하여 제1 데이터 셋 및 제2 데이터 셋의 문맥 정보를 획득할 수 있다.
예를 들어, "아마존"의 클래스 정보는 "회사명"일 수도 있고, "지명"일 수도 있다.
제1 데이터 셋에 포함된 복수의 데이터가 "N신발 992 270mm", "A신발 high"인 경우, 프로세서(120)는 제1 클래스 정보를 "신발 제품"으로 식별할 수 있다. 제2 데이터 셋에 포함된 복수의 데이터가 "N shoes M992GR 270mm", "A워커"인 경우, 프로세서(120)는 제2 클래스 정보를 "신발 제품"으로 식별할 수 있다.
프로세서(120)는 문맥 벡터 변환 모듈(130-8)을 통해 복수의 제1 엔티티들인 "N신발 992 270mm", "A신발 high"에 공통적으로 대응되는 제1 클래스 정보에 기초하여 "신발 제품"이라는 제1 데이터 셋의 제1 문맥 정보를 획득할 수 있고, 복수의 제2 엔티티들인 "N shoes M992GR 270mm", "A워커"에 공통적으로 대응되는 제2 클래스 정보에 기초하여 "신발 제품"이라는 제2 데이터 셋의 제2 문맥 정보를 획득할 수 있다.
프로세서(120)는 획득된 제1 문맥 정보에 기초하여 제1 데이터 셋에 대응되는 제3 벡터 정보를 획득할 수 있고, 획득된 제2 문맥 정보에 기초하여 제2 데이터 셋에 대응되는 제4 벡터 정보를 획득할 수 있다.
프로세서(120)는 제1 벡터 정보 및 제3 벡터 정보를 조합하여 제 1 조합 벡터 정보를 획득하고, 제2 벡터 정보 및 제4 벡터 정보를 조합하여 제 2 조합 벡터 정보를 획득할 수 있다.
여기서, 프로세서(120)는 제1 가중치가 부여된 제1 벡터 정보 및 제2 가중치가 부여된 제3 벡터 정보의 연산에 기초하여 제1 조합 벡터 정보를 획득하고, 제3 가중치가 부여된 제2 벡터 정보 및 제4 가중치가 부여된 제4 벡터 정보의 연산에 기초하여 제2 조합 벡터 정보를 획득할 수 있다.
프로세서(120)는 제1 조합 벡터 및 제2 조합 벡터에 기초하여 제1 데이터 셋에 포함된 "N신발 992 270mm"이라는 엔티티와 제2 데이터 셋에 포함된 "N shoes M992GR 270mm"이라는 엔티티가 매핑된 결합 데이터 셋(330)을 생성할 수 있다.
프로세서(120)는 매핑된 "N신발 992 270mm"에 대응되는 제1 조합 벡터와 "N shoes M992GR 270mm"에 대응되는 제2 조합 벡터 사이의 유사도가 기 설정된 값 이상인지 여부를 식별할 수 있다. "N신발 992 270mm"에 대응되는 제1 조합 벡터와 "N shoes M992GR 270mm"에 대응되는 제2 조합 벡터 사이의 식별된 유사도가 기 설정된 값 이상인 것으로 식별되면, 프로세서(120)는 "N신발 992 270mm"에 대응되는 제1 조합 벡터와 "N shoes M992GR 270mm"에 대응되는 제2 조합 벡터 중 하나를 제거한 결합 데이터를 생성할 수 있다. 즉, 제1 조합 벡터와 제2 조합 벡터가 실질적으로 동일한 신발 제품을 의미하는 것이라면 이는 중복된 신발 제품이므로 데이터의 효율적 관리를 위해 중복된 신발 제품 데이터 중 하나를 제거하는 것이다.
도 6은 본 개시의 다양한 실시 예에 따른, 전자 장치의 동작을 설명하기 위한 흐름도이다.
전자 장치(100)는, 제1 데이터 셋(Data Set) 및 제2 데이터 셋(Data set)을 획득할 수 있다(S610). 여기서 전자 장치(100)는, 입력된 제1 로우 데이터(Raw Data)를 규격화된 엔티티들을 포함하는 제1 데이터 셋으로 변환하고, 제2 로우 데이터(Raw Data)를 규격화된 엔티티들을 포함하는 제2 데이터 셋으로 변환할 수 있다.
전자 장치(100)는 제1 데이터 셋 및 제2 데이터 셋의 의미 정보에 기초하여 제1 데이터 셋에 대응되는 제1 벡터 정보 및 제2 데이터 셋에 대응되는 제2 벡터 정보를 획득할 수 있다(S620). 여기서 의미 정보는, 외부 서버 또는 메모리 중 적어도 하나로부터 획득된 제1 데이터 셋 및 제2 데이터 셋의 일반적 의미 정보이고, 일반적 의미 정보는 사전적 의미 정보, 내포적 의미 정보, 주변적 의미 정보 중 적어도 하나일 수 있다.
전자 장치(100)는 제1 데이터 셋 및 제2 데이터 셋의 클래스 정보에 기초하여 제1 데이터 셋 및 제2 데이터 셋의 문맥 정보를 획득할 수 있다(S630).
전자 장치(100)는 제1 데이터 셋에 포함된 복수의 제1 엔티티들에 대응되는 적어도 하나의 제1 클래스(Class) 정보를 식별하고, 제2 데이터 셋에 포함된 복수의 제2 엔티티들에 대응되는 적어도 하나의 제2 클래스(Class) 정보를 식별할 수 있다.
전자 장치(100)는 식별된 적어도 하나의 제1 클래스 정보 중 복수의 제1 엔티티들에 공통적으로 대응되는 제1 클래스 정보에 기초하여 제1 데이터 셋의 제1 문맥 정보를 획득하고, 식별된 적어도 하나의 제2 클래스 정보 중 복수의 제2 엔티티들에 공통적으로 대응되는 제2 클래스 정보에 기초하여 제2 데이터 셋의 제2 문맥 정보를 획득할 수 있다.
전자 장치(100)는 획득된 문맥 정보에 기초하여 제1 데이터 셋에 대응되는 제3 벡터 정보 및 제2 데이터 셋에 대응되는 제4 벡터 정보를 획득할 수 있다(S640).
전자 장치(100)는 제1 벡터 정보 및 제3 벡터 정보를 조합하여 제 1 조합 벡터 정보를 획득하고, 제2 벡터 정보 및 제4 벡터 정보를 조합하여 제 2 조합 벡터 정보를 획득할 수 있다(S650).
전자 장치(100)는 제1 가중치가 부여된 제1 벡터 정보 및 제2 가중치가 부여된 제3 벡터 정보의 연산에 기초하여 제1 조합 벡터 정보를 획득하고, 제3 가중치가 부여된 제2 벡터 정보 및 제4 가중치가 부여된 제4 벡터 정보의 연산에 기초하여 제2 조합 벡터 정보를 획득할 수 있다.
전자 장치(100)는 제1 조합 벡터 및 제2 조합 벡터에 기초하여 제1 데이터 셋 및 제2 데이터 셋이 매핑된 결합 데이터 셋을 생성할 수 있다(S660). 여기서 전자 장치(100)는, 매핑된 제1 조합 벡터와 제2 조합 벡터 사이의 유사도가 기 설정된 값 이상인 적어도 하나의 매핑된 제1 조합 벡터와 제2 조합 벡터 쌍을 식별하고, 유사도가 기 설정된 값 이상인 것으로 식별된 적어도 하나의 매핑된 제1 조합 벡터와 제2 조합 벡터 쌍에서 제1 조합 벡터 및 제2 조합 벡터 중 하나를 제거하여 결합 데이터 셋을 생성할 수 있다.
도 7은 본 개시의 다양한 실시 예에 따른, 추가될 수 있는 전자 장치의 세부 구성을 도시한 블록도이다.
메모리(110) 및 프로세서(120)에 대해서는 상술하였는 바, 도 7과 함께 통신 인터페이스(130), 사용자 인터페이스(140), 입출력 인터페이스(150), 디스플레이(160)에 대해 설명한다.
통신 인터페이스(130)는 무선 통신 인터페이스, 유선 통신 인터페이스 또는 입력 인터페이스를 포함할 수 있다. 무선 통신 인터페이스는, 무선 통신 기술이나 이동 통신 기술을 이용하여 각종 외부 장치와 통신을 수행할 수 있다. 이러한 무선 통신 기술로는, 예를 들어, 블루투스(Bluetooth), 저전력 블루투스(Bluetooth Low Energy), 캔(CAN) 통신, 와이 파이(Wi-Fi), 와이파이 다이렉트(Wi-Fi Direct), 초광대역 통신(UWB, ultrawide band), 지그비(zigbee), 적외선 통신(IrDA, infrared Data Association) 또는 엔에프씨(NFC, Near Field Communication) 등이 포함될 수 있으며, 이동 통신 기술 로는, 3GPP, 와이맥스(Wi-Max), LTE(Long Term Evolution), 5G 등이 포함될 수 있다. 무선 통신 인터페이스는 전자기파를 외부로 송신하거나 또는 외부에서 전달된 전자기파를 수신할 수 있는 안테나, 통신 칩 및 기판 등을 이용하여 구현될 수 있다.
유선 통신 인터페이스는 유선 통신 네트워크를 기반으로 각종 외부 장치와 통신을 수행할 수 있다. 여기서, 유선 통신 네트워크는, 예를 들어, 페어 케이블, 동축 케이블, 광섬유 케이블 또는 이더넷(Ethernet) 케이블 등 물리적인 케이블을 이용하여 구현될 수 있다.
무선 통신 인터페이스 및 유선 통신 인터페이스는 실시 예에 따라 어느 하나가 생략될 수도 있다. 따라서, 전자 장치(100)는 무선 통신 인터페이스 만을 포함하거나 유선 통신 인터페이스 만을 포함할 수 있다. 뿐만 아니라, 전자 장치(100)는 무선 통신 인터페이스에 의한 무선 접속과 유선 통신 인터페이스에 의한 유선 접속을 모두 지원하는 통합된 통신 인터페이스를 구비할 수도 있다.
전자 장치(100)는 한 가지 방식의 통신 연결을 수행하는 한 개의 통신 인터페이스(140)를 포함하는 경우에 국한되지 않고, 복수의 통신 인터페이스(130)를 포함할 수 있다.
본 개시의 다양한 실시 예에 따른 프로세서(120)는 통신 인터페이스(130)를 통해 실외 또는 실내에 있는 다양한 외부 전자 장치 또는 서버와 통신을 수행할 수 있다.
구체적으로, 프로세서(120)는 통신 인터페이스(130)를 통해 TV, 에어컨, 세탁기, 냉장고, 건조기, 전자레인지, 가스레인지, 인덕터, 보일러, 커피 포트, 드라이기, 전등, 프로젝터, 스피커, 컴퓨터, 노트북, 태플릿, 스마트 폰, 유선 전화기 등과 통신 연결을 수행하여 긴급상황에 대한 정보, 전자 장치(100)의 이동경로에 대한 정보 또는 외부 전자 장치를 제어하는 신호를 전송하거나, 외부 전자 장치로부터 다양한 신호 등을 수신할 수 있다.
프로세서(120)는 통신 인터페이스(130)를 통해 서버와 통신 연결을 수행하여 제1 로우 데이터, 제2 로우 데이터, 제1 데이터 셋, 제2 데이터 셋, 일반적 의미 정보, 문맥 정보 또는 결합 데이터 셋을 서버로 전송하거나 서버로부터 수신할 수 있다.
사용자 인터페이스(140)는 버튼(button), 레버(lever), 스위치(switch), 터치(Touch)형 인터페이스 등을 포함할 수 있고, 터치형 인터페이스는 디스플레이(160) 화면 상에서 사용자의 터치로 입력을 받는 방식으로 구현될 수 있다.
본 개시의 또 다른 실시 예에 따른 프로세서(120)는 사용자 인터페이스(140)를 통해 제1 로우 데이터, 제2 로우 데이터, 제1 데이터 셋 또는 제2 데이터 셋을 입력 받을 수 있으며, 데이터 결합 동작과 중복 데이터 제거 동작을 선택하기 위한 명령을 입력 받을 수 있다.
입출력 인터페이스(150)는 전자 장치(100)와 별도로 마련된 다른 장치, 예를 들어 외부 저장 장치와 연결 가능하게 마련될 수 있다. 예를 들어, 입출력 인터페이스(150)는, 범용 직렬 시스템 버스(USB: Universal Serial Bus) 단자일 수있으며, 이외에도 HDMI(High Definition Multimedia Interface), MHL (Mobile High-Definition Link), USB (Universal Serial Bus), DP(Display Port), 썬더볼트(Thunderbolt), VGA(Video Graphics Array)포트, RGB 포트, D-SUB(D-subminiature), DVI(Digital Visual Interface) 중 어느 하나의 인터페이스일 수 있다. 입출력 인터페이스(150)는 오디오 및 비디오 신호 중 적어도 하나를 입출력 할 수 있다. 구현 예에 따라, 입출력 인터페이스(150)는 오디오 신호만을 입출력하는 포트와 비디오 신호만을 입출력하는 포트를 별개의 포트로 포함하거나, 오디오 신호 및 비디오 신호를 모두 입출력하는 하나의 포트로 구현될 수 있다.
본 개시의 또 다른 실시 예에 따른 프로세서(120)는 입출력 인터페이스(140)를 통해 외부 장치와 연결되어 제1 로우 데이터, 제2 로우 데이터, 제1 데이터 셋, 제2 데이터 셋 또는 결합 데이터를 외부 장치로 전송하거나, 제1 로우 데이터, 제2 로우 데이터, 제1 데이터 셋, 제2 데이터 셋 또는 결합 데이터를 외부 장치로부터 수신할 수 있다. 또한, 프로세서(120)는 입출력 인터페이스(140)를 통해 외부 장치와 연결되어 결합 데이터 또는 중복 데이터가 제거된 결합 데이터를 외부 장치로 전송할 수 있다.
일 실시 예에 따르면, 본 문서에 개시된 다양한 실시 예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다. 컴퓨터 프로그램 제품은 기기로 읽을 수 있는 저장 매체(예: compact disc read only memory (CD-ROM))의 형태로 배포되거나, 또는 어플리케이션 스토어(예: 플레이 스토어TM)를 통해 또는 두개의 사용자 장치들(예: 스마트폰들) 간에 직접, 온라인으로 배포(예: 다운로드 또는 업로드)될 수 있다. 온라인 배포의 경우에, 컴퓨터 프로그램 제품(예: 다운로더블 앱(downloadable app))의 적어도 일부는 제조사의 서버, 어플리케이션 스토어의 서버, 또는 중계 서버의 메모리와 같은 기기로 읽을 수 있는 저장 매체에 적어도 일시 저장되거나, 임시적으로 생성될 수 있다.
이상에서는 본 개시의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 개시는 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 개시의 요지를 벗어남이 없이 당해 개시에 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형 실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 개시의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
100: 전자 장치
110: 메모리
120: 프로세서

Claims (18)

  1. 전자 장치에 있어서,
    메모리; 및
    프로세서;를 포함하고,
    상기 프로세서는,
    제1 데이터 셋(Data Set) 및 제2 데이터 셋(Data set)을 획득하고,
    상기 제1 데이터 셋 및 상기 제2 데이터 셋의 의미 정보에 기초하여 상기 제1 데이터 셋에 포함된 엔티티(Entity)들에 대응되는 제1 벡터 정보 및 상기 제2 데이터 셋에 포함된 엔티티(Entity)들에 대응되는 제2 벡터 정보를 획득하고,
    상기 제1 데이터 셋 및 상기 제2 데이터 셋의 클래스 정보에 기초하여 상기 제1 데이터 셋 및 상기 제2 데이터 셋의 문맥 정보를 획득하고,
    상기 획득된 문맥 정보에 기초하여 상기 제1 데이터 셋에 포함된 엔티티들에 대응되는 제3 벡터 정보 및 상기 제2 데이터 셋에 포함된 엔티티들에 대응되는 제4 벡터 정보를 획득하고,
    상기 제1 벡터 정보 및 상기 제3 벡터 정보를 조합하여 제 1 조합 벡터 정보를 획득하고, 상기 제2 벡터 정보 및 상기 제4 벡터 정보를 조합하여 제 2 조합 벡터 정보를 획득하고,
    상기 제1 조합 벡터 및 상기 제2 조합 벡터에 기초하여 상기 제1 데이터 셋 및 상기 제2 데이터 셋이 매핑된 결합 데이터 셋을 생성하는, 제어 방법.
  2. 제1항에 있어서,
    상기 프로세서는,
    입력된 제1 로우 데이터(Raw Data)를 규격화된 엔티티들을 포함하는 제1 데이터 셋으로 변환하고, 제2 로우 데이터(Raw Data)를 규격화된 엔티티들을 포함하는 제2 데이터 셋으로 변환하는, 전자 장치.
  3. 제1항에 있어서,
    상기 의미 정보는,
    외부 서버 또는 메모리 중 적어도 하나로부터 획득된 제1 데이터 셋 및 제2 데이터 셋의 일반적 의미 정보이고,
    상기 일반적 의미 정보는 사전적 의미 정보, 내포적 의미 정보, 주변적 의미 정보 중 적어도 하나인, 전자 장치.
  4. 제3항에 있어서,
    상기 프로세서는,
    상기 제1 데이터 셋 및 상기 제2 데이터 셋의 일반적 의미 정보를 제1 신경망 모델에 입력하여 상기 제1 데이터 셋에 포함된 엔티티들에 대응되는 제1 벡터 정보 및 상기 제2 데이터 셋에 포함된 엔티티들에 대응되는 제2 벡터 정보를 획득하는, 전자 장치.
  5. 제1항에 있어서,
    상기 프로세서는,
    상기 제1 데이터 셋에 포함된 복수의 제1 엔티티들에 대응되는 적어도 하나의 제1 클래스(Class) 정보를 식별하고, 상기 제2 데이터 셋에 포함된 복수의 제2 엔티티들에 대응되는 적어도 하나의 제2 클래스(Class) 정보를 식별하고,
    상기 식별된 적어도 하나의 제1 클래스 정보 중 상기 복수의 제1 엔티티들에 공통적으로 대응되는 제1 클래스 정보에 기초하여 상기 제1 데이터 셋의 제1 문맥 정보를 획득하고, 상기 식별된 적어도 하나의 제2 클래스 정보 중 상기 복수의 제2 엔티티들에 공통적으로 대응되는 제2 클래스 정보에 기초하여 상기 제2 데이터 셋의 제2 문맥 정보를 획득하는, 전자 장치.
  6. 제5항에 있어서,
    상기 프로세서는,
    상기 제1 문맥 정보 및 상기 제2 문맥 정보를 제2 신경망 모델에 입력하여 상기 제1 데이터 셋에 포함된 엔티티들에 대응되는 제3 벡터 정보 및 상기 제2 데이터 셋에 포함된 엔티티들에 대응되는 제4 벡터 정보를 획득하는, 전자 장치.
  7. 제1항에 있어서,
    상기 프로세서는,
    제1 가중치가 부여된 상기 제1 벡터 정보 및 제2 가중치가 부여된 상기 제3 벡터 정보의 연산에 기초하여 상기 제1 조합 벡터 정보를 획득하고, 제3 가중치가 부여된 상기 제2 벡터 정보 및 제4 가중치가 부여된 상기 제4 벡터 정보의 연산에 기초하여 상기 제2 조합 벡터 정보를 획득하는, 전자 장치.
  8. 제1항에 있어서,
    상기 프로세서는,
    상기 매핑된 제1 조합 벡터와 제2 조합 벡터 사이의 유사도가 기 설정된 값 이상인 적어도 하나의 매핑된 제1 조합 벡터와 제2 조합 벡터 쌍을 식별하고,
    상기 유사도가 기 설정된 값 이상인 것으로 식별된 적어도 하나의 매핑된 제1 조합 벡터와 제2 조합 벡터 쌍에서 상기 제1 조합 벡터 및 상기 제2 조합 벡터 중 하나를 제거하여 결합 데이터 셋을 생성하는, 전자 장치.
  9. 제1항에 있어서,
    상기 클래스 정보는,
    상기 제1 데이터 셋 및 상기 제2 데이터 셋에 포함된 엔티티들의 상위 개념을 나타내는 정보이고,
    상기 문맥 정보는,
    상기 클래스 정보를 바탕으로 획득된 상기 제1 데이터 셋 및 상기 제2 데이터 셋에서의 맥락적 의미인, 전자 장치.
  10. 전자 장치의 제어 방법에 있어서,
    제1 데이터 셋(Data Set) 및 제2 데이터 셋(Data set)을 획득하는 단계;
    상기 제1 데이터 셋 및 상기 제2 데이터 셋의 제1 의미 정보에 기초하여 상기 제1 데이터 셋에 포함된 엔티티(Entity)들에 대응되는 제1 벡터 정보 및 상기 제2 데이터 셋에 포함된 엔티티(Entity)들에 대응되는 제2 벡터 정보를 획득하는 단계;
    상기 제1 데이터 셋 및 상기 제2 데이터 셋의 클래스 정보에 기초하여 상기 제1 데이터 셋 및 상기 제2 데이터 셋의 문맥 정보를 획득하는 단계;
    상기 획득된 문맥 정보에 기초하여 상기 제1 데이터 셋에 포함된 엔티티들에 대응되는 제3 벡터 정보 및 상기 제2 데이터 셋에 포함된 엔티티들에 대응되는 제4 벡터 정보를 획득하는 단계;
    상기 제1 벡터 정보 및 상기 제3 벡터 정보를 조합하여 제 1 조합 벡터 정보를 획득하고, 상기 제2 벡터 정보 및 상기 제4 벡터 정보를 조합하여 제 2 조합 벡터 정보를 획득하는 단계; 및
    상기 제1 조합 벡터 및 상기 제2 조합 벡터에 기초하여 상기 제1 데이터 셋 및 상기 제2 데이터 셋이 매핑된 결합 데이터 셋을 생성하는 단계;를 포함하는, 제어 방법.
  11. 제10항에 있어서,
    상기 제1 데이터 셋 및 상기 제2 데이터 셋을 획득하는 단계는,
    입력된 제1 로우 데이터(Raw Data)를 규격화된 엔티티들을 포함하는 제1 데이터 셋으로 변환하고, 제2 로우 데이터(Raw Data)를 규격화된 엔티티들을 포함하는 제2 데이터 셋으로 변환하는 단계;를 포함하는, 제어 방법.
  12. 제10항에 있어서,
    상기 의미 정보는,
    외부 서버 또는 메모리 중 적어도 하나로부터 획득된 제1 데이터 셋 및 제2 데이터 셋의 일반적 의미 정보이고,
    상기 일반적 의미 정보는 사전적 의미 정보, 내포적 의미 정보, 주변적 의미 정보 중 적어도 하나인, 제어 방법.
  13. 제12항에 있어서,
    상기 제1 벡터 정보 및 상기 제2 벡터 정보를 획득하는 단계는,
    상기 제1 데이터 셋 및 상기 제2 데이터 셋의 일반적 의미 정보를 제1 신경망 모델에 입력하여 상기 제1 데이터 셋에 포함된 엔티티들에 대응되는 제1 벡터 정보 및 상기 제2 데이터 셋에 포함된 엔티티들에 대응되는 제2 벡터 정보를 획득하는 단계;를 포함하는, 제어 방법.
  14. 제10항에 있어서,
    상기 제1 데이터 셋 및 상기 제2 데이터 셋의 문맥 정보를 획득하는 단계는,
    상기 제1 데이터 셋에 포함된 복수의 제1 엔티티들에 대응되는 적어도 하나의 제1 클래스(Class) 정보를 식별하고, 상기 제2 데이터 셋에 포함된 복수의 제2 엔티티들에 대응되는 적어도 하나의 제2 클래스(Class) 정보를 식별하는 단계; 및
    상기 식별된 적어도 하나의 제1 클래스 정보 중 상기 복수의 제1 엔티티들에 공통적으로 대응되는 제1 클래스 정보에 기초하여 상기 제1 데이터 셋의 제1 문맥 정보를 획득하고, 상기 식별된 적어도 하나의 제2 클래스 정보 중 상기 복수의 제2 엔티티들에 공통적으로 대응되는 제2 클래스 정보에 기초하여 상기 제2 데이터 셋의 제2 문맥 정보를 획득하는 단계;를 포함하는, 제어 방법.
  15. 제14항에 있어서,
    상기 제3 벡터 정보 및 상기 제4 벡터 정보를 획득하는 단계는,
    상기 제1 문맥 정보 및 상기 제2 문맥 정보를 제2 신경망 모델에 입력하여 상기 제1 데이터 셋에 포함된 엔티티들에 대응되는 제3 벡터 정보 및 상기 제2 데이터 셋에 포함된 엔티티들에 대응되는 제4 벡터 정보를 획득하는 단계;를 포함하는, 제어 방법.
  16. 제10항에 있어서,
    상기 제1 조합 벡터 정보 및 상기 제2 조합 벡터 정보를 획득하는 단계는,
    제1 가중치가 부여된 상기 제1 벡터 정보 및 제2 가중치가 부여된 상기 제3 벡터 정보의 연산에 기초하여 상기 제1 조합 벡터 정보를 획득하고, 제3 가중치가 부여된 상기 제2 벡터 정보 및 제4 가중치가 부여된 상기 제4 벡터 정보의 연산에 기초하여 상기 제2 조합 벡터 정보를 획득하는 단계;를 포함하는, 제어 방법.
  17. 제10항에 있어서,
    상기 결합 데이터 셋을 생성하는 단계는,
    상기 매핑된 제1 조합 벡터와 제2 조합 벡터 사이의 유사도가 기 설정된 값 이상인 적어도 하나의 매핑된 제1 조합 벡터와 제2 조합 벡터 쌍을 식별하는 단계; 및
    상기 유사도가 기 설정된 값 이상인 것으로 식별된 적어도 하나의 매핑된 제1 조합 벡터와 제2 조합 벡터 쌍에서 상기 제1 조합 벡터 및 상기 제2 조합 벡터 중 하나를 제거하여 결합 데이터 셋을 생성하는 단계;를 포함하는, 제어 방법.
  18. 제10항에 있어서,
    상기 클래스 정보는,
    상기 제1 데이터 셋 및 상기 제2 데이터 셋에 포함된 엔티티들의 상위 개념을 나타내는 정보이고,
    상기 문맥 정보는,
    상기 클래스 정보를 바탕으로 획득된 상기 제1 데이터 셋 및 상기 제2 데이터 셋에서의 맥락적 의미인, 제어 방법.
KR1020210177396A 2021-12-13 2021-12-13 데이터 결합을 위한 전자 장치 및 이의 제어 방법 KR20230089056A (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020210177396A KR20230089056A (ko) 2021-12-13 2021-12-13 데이터 결합을 위한 전자 장치 및 이의 제어 방법
EP22907900.9A EP4369215A1 (en) 2021-12-13 2022-12-13 Electronic device for combining data and method of controlling same
PCT/KR2022/020243 WO2023113433A1 (ko) 2021-12-13 2022-12-13 데이터 결합을 위한 전자 장치 및 이의 제어 방법
US18/299,413 US20230244876A1 (en) 2021-12-13 2023-04-12 Apparatus for joining data and method for controlling thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210177396A KR20230089056A (ko) 2021-12-13 2021-12-13 데이터 결합을 위한 전자 장치 및 이의 제어 방법

Publications (1)

Publication Number Publication Date
KR20230089056A true KR20230089056A (ko) 2023-06-20

Family

ID=86773045

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210177396A KR20230089056A (ko) 2021-12-13 2021-12-13 데이터 결합을 위한 전자 장치 및 이의 제어 방법

Country Status (4)

Country Link
US (1) US20230244876A1 (ko)
EP (1) EP4369215A1 (ko)
KR (1) KR20230089056A (ko)
WO (1) WO2023113433A1 (ko)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7284191B2 (en) * 2001-08-13 2007-10-16 Xerox Corporation Meta-document management system with document identifiers
US7672833B2 (en) * 2005-09-22 2010-03-02 Fair Isaac Corporation Method and apparatus for automatic entity disambiguation
EP3385862A1 (en) * 2017-04-03 2018-10-10 Siemens Aktiengesellschaft A method and apparatus for performing hierarchical entity classification
CN108280061B (zh) * 2018-01-17 2021-10-26 北京百度网讯科技有限公司 基于歧义实体词的文本处理方法和装置
CN111428507B (zh) * 2020-06-09 2020-09-11 北京百度网讯科技有限公司 实体链指方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
EP4369215A1 (en) 2024-05-15
WO2023113433A1 (ko) 2023-06-22
US20230244876A1 (en) 2023-08-03

Similar Documents

Publication Publication Date Title
JP6862632B2 (ja) 音声インタラクション方法、装置、設備、コンピュータ記憶媒体及びコンピュータプログラム
EP3719630A1 (en) Apparatus control system, apparatus control method, and program
US8996384B2 (en) Transforming components of a web page to voice prompts
CN104765621B (zh) 一种在集群节点中部署程序的方法和系统
US9325383B2 (en) Communications techniques for a secure near field communication architecture
US9110863B2 (en) Seamless switching of USB devices connected to a monitor hub
US20160173958A1 (en) Broadcasting receiving apparatus and control method thereof
JP2014534522A (ja) マルチタッチインターフェース方式
CN103168466A (zh) 虚拟视频俘获装置
US11184670B2 (en) Display apparatus and control method thereof
US11822768B2 (en) Electronic apparatus and method for controlling machine reading comprehension based guide user interface
CN111183448A (zh) 电子清单用户接口
US20190122122A1 (en) Predictive engine for multistage pattern discovery and visual analytics recommendations
US11373634B2 (en) Electronic device for recognizing abbreviated content name and control method thereof
KR20230089056A (ko) 데이터 결합을 위한 전자 장치 및 이의 제어 방법
US9959598B2 (en) Method of processing image and electronic device thereof
US20210005189A1 (en) Digital assistant device command performance based on category
US11468887B2 (en) Electronic device and control method thereof
CN107992457A (zh) 一种信息转换方法、装置、终端设备及存储介质
US11373340B2 (en) Display apparatus and controlling method thereof
KR20200112386A (ko) 전자 장치 및 그 제어 방법
US20230410831A1 (en) Electronic apparatus and controlling method thereof
US11556694B1 (en) Predictive aspect formatting
US12001849B1 (en) Distributed and parallel processing of data
US20230048573A1 (en) Electronic apparatus and controlling method thereof