KR101946842B1 - 데이터 탐색 장치 - Google Patents

데이터 탐색 장치 Download PDF

Info

Publication number
KR101946842B1
KR101946842B1 KR1020160093155A KR20160093155A KR101946842B1 KR 101946842 B1 KR101946842 B1 KR 101946842B1 KR 1020160093155 A KR1020160093155 A KR 1020160093155A KR 20160093155 A KR20160093155 A KR 20160093155A KR 101946842 B1 KR101946842 B1 KR 101946842B1
Authority
KR
South Korea
Prior art keywords
data
time series
series data
comment
matching
Prior art date
Application number
KR1020160093155A
Other languages
English (en)
Other versions
KR20180010664A (ko
Inventor
최진혁
Original Assignee
주식회사 인포리언스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 인포리언스 filed Critical 주식회사 인포리언스
Priority to KR1020160093155A priority Critical patent/KR101946842B1/ko
Priority to US15/347,711 priority patent/US20180025062A1/en
Publication of KR20180010664A publication Critical patent/KR20180010664A/ko
Application granted granted Critical
Publication of KR101946842B1 publication Critical patent/KR101946842B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0283Price estimation or determination

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Development Economics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 실시예에 따른 데이터 탐색 장치는 서로 다른 제1 시계열 데이터 및 제2 시계열 데이터를 저장하는 메모리; 및상기 메모리에 액세스가능한 프로세서를 포함한다. 상기 프로세서는,설정 구간에 존재하는 상기 제1 시계열 데이터의 제1 패턴에 매칭되는 제1 탐색 대상 시계열 데이터의 일부인 제1 매칭 데이터를 도출하고,상기 설정 구간에 존재하는 상기 제2 시계열 데이터의 제2 패턴에 매칭되는, 상기 제1 탐색 대상 시계열 데이터와 다른 제2 탐색 대상 시계열 데이터의 일부인 제2 매칭 데이터를 한다.

Description

데이터 탐색 장치{DATA SEARCHING APPARATUS}
본 발명은 데이터 탐색 장치에 관한 것이다.
웹, 스마트 폰, IoT 센서 등을 통해 누구나 데이터를 모을 수 있으므로 데이터 소스의 다양화 및 개인화가 이루어지고 있다. 이를 뒷받침하기 위하여 데이터 분석 알고리즘의 오픈소스(open-source)화 및 서비스의 플랫폼화가 진행되고 있다. 또한 전문적인 기술 지식이 없어도 알고리즘을 적용해볼 수 있게 되었다.
그러나 데이터와 알고리즘이 준비되어 있다고 하여도, 누구나 데이터를 쉽게 활용할 수 있는 것은 아니다.데이터를 가공하거나, 데이터에 포함된 주요 정보를 탐색하거나, 데이터 마이닝(data mining)이나 머신 러닝 알고리즘(machine learning algorithm)을 적용하는데 에는 기술적인 지식과 경험이 요구되는데, 모두가 이러한 지식과 경험을 보유하고 있지는 못한다.
또한 추후에는 데이터 또는 알고리즘에 대한 전문적인 지식 못지 않게, 데이터가 생성되는 환경과 상황에 대한 경험적인 지식, 개인적인 성향과 어떤 데이터에 어떤 알고리즘을 어떤 파라메터(parameter)를 적용하여 활용해야 하는가에 대한 노하우의 중요성이 더욱 커질 것이다.
또한 데이터와 함께 이러한 데이터를 대용량으로 수집하는 과정을 수행하는 것은 인공지능 서비스를 구현하는데 있어서 매우 중요한 요소이다. 
따라서, 누구나 자신의 데이터를 최대로 활용할 수 있게 하기 위해서는 데이터에 대한 경험적인 지식을 보유한 경험자 또는 데이터 분석에 대한 전문적인 기술을 가진 전문가의 능력을 쉽게 빌릴 수 있게 해야 하며, 한편으로 경험자 및 전문가들이 이러한 과정을 통해 자신의 지식과 경험을 활용하여 수익을 창출할 수 있는 기회를 얻을 수 있게 할 필요가 있다.
공개특허 10-2007-0108294(공개일 : 2007년 11월 09일)
본 발명의 실시예에 따른 데이터 탐색 장치는 유저가 원하는 패턴의 데이터를 탐색 대상 시계열 데이터로부터 탐색하기 위한 것이다.
본 발명의 실시예에 따른 데이터 탐색 장치는 매칭 구간에 할당된 코멘트를 분류하기 위한 것이다.
본 발명의 실시예에 따른 데이터 탐색 장치는 코멘트, 설정 구간, 분류 태그 리스트의 가격을 산정하기 위한 것이다.
본 발명의 실시예에 따른 데이터 탐색 장치는 새로이 입력되는 분석 대상 시계열 데이터를 분류 태그에 따라 분류하기 위한 것이다.
본 발명의 실시예에 따른 데이터 탐색 장치는 유저에 의하여 선택된 구간 또는 시점에 코멘트를 할당하기 위한 것이다.
본 발명의 실시예에 따른 데이터 탐색 장치는 코멘트, 선택 구간이나 선택 시점, 분류 태그 리스트의 가격을 산정하기 위한 것이다.
본 출원의 과제는 이상에서 언급한 과제로 제한되지 않으며, 언급되지 않는 또 다른 과제는 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일측면에 따르면, 서로 다른 제1 시계열 데이터 및 제2 시계열 데이터를 저장하는 메모리; 및 상기 메모리에 액세스가능한 프로세서를 포함하며, 상기 프로세서는, 설정 구간에 존재하는 상기 제1 시계열 데이터의 제1 패턴에 매칭되는 제1 탐색 대상 시계열 데이터의 일부인 제1 매칭 데이터를 도출하고, 상기 설정 구간에 존재하는 상기 제2 시계열 데이터의 제2 패턴에 매칭되는, 상기 제1 탐색 대상 시계열 데이터와 다른 제2 탐색 대상 시계열 데이터의 일부인 제2 매칭 데이터를 도출하는 것을 특징으로 하는 데이터 탐색 장치가 제공될 수 있다.
상기 제1 탐색 대상 시계열 데이터 및 상기 제2 탐색 대상 시계열데이터는 각각 상기 제1 시계열 데이터 및 상기 제2 시계열 데이터의 적어도 일부일 수 있다.
상기 제1 탐색 대상 시계열 데이터 및 상기 제2 탐색 대상 시계열 데이터는 각각 상기 제1 시계열 데이터 및 상기 제2 시계열 데이터와 서로 다를 수 있다.
상기 프로세서는, 상기 제1 매칭 데이터와 상기 제2 매칭 데이터가 존재하는 매칭 구간에 외부에서 입력된 코멘트를 할당하고, 상기 코멘트에 포함된 분류 태그에 따라 상기 코멘트를 분류할 수 있다.
상기 프로세서는, 상기 코멘트에 대한 코멘트 리스트를 생성하여 상기 분류 태그에 연관시키고, 상기 분류 태그에 대한 분류 태그 리스트를 생성할 수 있다.
상기 프로세서는, 상기 설정 구간, 상기 분류 태그 및 상기 코멘트 중 적어도 하나에 대한 점수를 하나 이상의 유저 단말기로부터 입력받아 할당하고, 상기 코멘트가 다른 코멘트에서 인용될 경우 상기 코멘트의 인용횟수를 계산하며, 상기 점수와 상기 코멘트의 인용횟수에 따라 상기 코멘트에 대한 가격을 산정할 수 있다.
상기 프로세서는, 상기 제1 매칭 데이터의 제1 특징 및 상기 제2 매칭 데이터의 제2 특징으로 이루어진 데이터 벡터를 생성하고, 상기 데이터 벡터에 따른 머쉰 러닝 모델에 제1 분석 대상 시계열 데이터 및 제2 분석 대상 시계열 데이터를 적용하여 상기 제1 분석 대상 시계열 데이터 및 상기 제2 분석 대상 시계열 데이터를 상기 분류 태그 별로 분류할 수 있다.
상기 프로세서는, 매칭 데이터의 도출 및 코멘트 할당 없이 상기 제1 분석 대상 시계열 데이터 및 상기 제2 분석 대상 시계열 데이터를 상기 머쉰 러닝 모델에 적용할 수 있다.
상기 제1 특징 및 상기 제2 특징은 동일 시점에서 상기 제1 매칭 데이터 및 상기 제2 매칭 데이터 각각으로부터 샘플링된 데이터 값일 수 있다.
상기 제1 특징 및 상기 제2 특징은, 동일 구간에 존재하는 세그멘테이션화된 상기 제1 매칭 데이터 및 상기 제2 매칭 데이터 각각의 기울기를 포함할 수 있다.
본 발명의 다른 측면에 따르면, 시계열 데이터를 저장하는 메모리; 및상기 메모리에 액세스가능한 프로세서를 포함하며, 상기 프로세서는, 상기 시계열 데이터의 일부 구간 또는 일부 시점에 외부에서 입력된 코멘트를 할당하고, 상기 코멘트에 포함된 분류 태그에 따라 상기 코멘트를 분류할 수 있다.
상기 프로세서는, 상기 코멘트에 대한 코멘트 리스트를 생성하여 상기 분류 태그에 연관시키고,상기 분류 태그에 대한 분류 태그 리스트를 생성할 수 있다.
상기 프로세서는,상기 분류 태그 및 상기 코멘트 중 적어도 하나에 대한 점수를 하나 이상의 유저 단말기로부터 입력받아 할당하고, 상기 코멘트가 다른 코멘트에서 인용될 경우 상기 코멘트의 인용횟수를 계산하며, 상기 점수와 상기 코멘트의 인용횟수에 따라 상기 코멘트에 대한 가격을 산정할 수 있다.
상기 프로세서는, 상기 코멘트가 할당된 상기 시계열 데이터의 특징으로 이루어진 데이터 벡터를 생성하고, 상기 데이터 벡터에 따른 머쉰 러닝 모델에 또다른 시계열 데이터을 적용하여 상기 또다른 시계열 데이터를 상기 분류 태그 별로 분류할 수 있다.
상기 프로세서는, 코멘트 할당 없이 상기 또다른 시계열 데이터를 상기 머쉰 러닝 모델에 적용할 수 있다.
본 발명의 실시예에 따른 데이터 탐색 장치는 서로 다른 복수의 시계열 데이터에서의 설정 구간에 해당되는 패턴과 일치하거나 유사한 부분을 탐색 대상 시계열 데이터로부터 탐색함으로써 유저가 원하는 데이터를 탐색할 수 있다.
본 발명의 실시예에 따른 데이터 탐색 장치는 분류 태그가 포함된 코멘트를 할당함으로써 매칭 구간에 할당된 코멘트를 분류 태그에 따라 분류할 수 있다.
본 발명의 실시예에 따른 데이터 탐색 장치는 코멘트, 설정 구간, 분류 태그 리스트의 적절성에 따른 점수나 인용횟수에 따라 가격을 산정할 수 있다.
본 발명의 실시예에 따른 데이터 탐색 장치는 머쉰 러닝 모델을 통하여 새로이 입력되는 분석 대상 시계열 데이터를 분류 태그에 따라 분류할 수 있다.
본 발명의 실시예에 따른 데이터 탐색 장치는 코멘트, 선택 구간이나 선택 시점, 분류 태그 리스트의 적절성에 따른 점수나 인용횟수를 통하여 가격을 산정할 수 있다.
본 발명의 실시예에 따른 데이터 탐색 장치는 머쉰 러닝 모델를 통하여 새로이 입력되는 분석 대상 시계열 데이터를 분류 태그에 따라 분류할 수 있다.
본 출원의 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급되지 않는 또 다른 효과는 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 실시예에 따른 데이터 탐색 장치를 나타낸다.
도 2는 제1 시계열 데이터, 제2 시계열 데이터, 제1 탐색 대상 시계열 데이터 및 제2 탐색 대상 시계열 데이터의 일례를 나타낸다.
도 3은 매칭 구간에 할당된 코멘트의 일례를 나타낸다.
도 4는 분류 태그 리스트의 일례를 나타낸다.
도 5 및 도 6은 데이터 벡터를 생성하는 과정을 나타내는 도면이다.
도 7 내지 도9는 머쉰 러닝 모델을 통한 나타낸다.
도 10 내지 도 12는 유저에 의하여 선택된 구간에 할당된 코멘트를 나타낸다.
이하 본 발명의 실시예에 대하여 첨부한 도면을 참조하여 상세하게 설명하기로 한다. 다만, 첨부된 도면은 본 발명의 내용을 보다 쉽게 개시하기 위하여 설명되는 것일 뿐, 본 발명의 범위가 첨부된 도면의 범위로 한정되는 것이 아님은 이 기술분야의 통상의 지식을 가진 자라면 용이하게 알 수 있을 것이다.
또한, 본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
도 1은 본 발명의 실시예에 따른 데이터 탐색 장치를 나타낸다. 도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 데이터 탐색 장치는 메모리(106) 및 프로세서(104)를 포함한다.
본 발명의 실시예에 따른 데이터 탐색 장치는 정보를 전달하기 위한 버스(102) 또는 다른 통신 메커니즘을 포함할 수 있다. 이와 같은 버스(102) 또는 다른 통신 메커니즘은, 프로세서(104), 컴퓨터 판독가능한 기록매체(RM), 네트워크인터페이스 (112)(예를 들면, 모뎀 또는 이더넷카드), 디스플레이부(114)(예를 들면, CRT 또는 LCD), 입력부 (118)(예를 들면, 키보드, 키패드, 가상키보드, 마우스, 트랙볼, 스타일러스, 터치 감지 수단 등), 및/또는 하위시스템들을 상호접속한다.
컴퓨터 판독가능한 기록매체(RM)는 메모리(106)(예를 들면, RAM), 정적저장부 (108)(예를 들면, ROM), 디스크드라이브 (110)(예를 들면, HDD, SSD, 광 디스크, 플래쉬 메모리 드라이브 등)를 포함하나 이에 한정되는 것은 아니다. 이 때 디스크 드라이브는 non-transitory 기록매체일 수 있다. 광디스크는 CD, DVD, Blu-ray disc이나 이에 한정되는 것은 아니다.
본 발명의 실시예에 따른 데이터 탐색 장치는 하나 이상의 디스크드라이브(110)를 구비할 수 있다. 또한 도 1에 도시된 바와 같이,디스크 드라이브(110)는 프로세서(104)와 함께 하우징(120)에 구비될 수 있으나 이와 다르게 원격에 설치되어 프로세서(104)와 원격 통신을 수행할 수도 있다. 하나 이상의 디스크 드라이브들을 구비하는 데이터베이스를 포함할 수도 있다.
기록매체(RM)는 본 발명의 실시예에 따른 데이터 탐색 장치의 동작에 필요한 운영체제,드라이버, 애플리케이션프로그램, 데이터 및 데이터베이스 등을 저장할 수 있다.
디스플레이부(114)는 본 발명의 실시예에 따른 데이터 탐색 장치의 동작 및 유저 인터페이스를 표시할 수 있다.
프로세서(104)는 CPU, 마이크로 컨트롤러, 디지털신호프로세서(DSP) 등일 수 있으나 이에 한정되는 것은 아니며, 본 발명의 실시예에 따른 데이터 탐색 장치의 동작을 제어한다.
프로세서(104)는 기록매체(RM)에 접속하여 기록매체(RM)에저장된명령들의 하나 이상의 시퀀스들을 실행하는 것에 의해 이후에 설명될 데이터 탐색, 코멘트 할당, 분류 태그의 처리 및 머쉰 러닝(machine learing) 등을 수행할 수 있다.
이러한 명령들은, 정적 저장부 (108) 또는 디스크드라이브 (110)와 같은 다른 컴퓨터 판독가능 매체로부터 메모리 (106) 안으로 판독될 수도 있다. 다른 실시형태들에서, 본 개시를 구현하기 위한 소프트웨어 명령들 대신 또는 소프트웨어 명령들과 조합하여 하드웨어에 내장된 회로부(hard-wired circuitry)가 사용될 수도 있다.
로직은, 실행을 위해 프로세서(104)로 명령들을 제공하는데 참여하는 임의의 매체를 지칭할 수도 있는 컴퓨터 판독가능한 기록매체(RM)에 인코딩될 수도 있다. 이러한 기록매체(RM)는 비휘발성 기록매체들, 휘발성 기록매체들을 포함하지만 이들에 제한되지 않는 많은 형태들을 취할 수도 있다.
프로세서(104)는 디스플레이부(114)용 하드웨어 제어기와 통신하여 디스플레이부(114) 상에 데이터 탐색 장치의 동작 및 유저 인터페이싱 동작을 표시할 수 있다.
일 실시형태에서, 컴퓨터 판독가능한 기록매체(RM)는 비일시적일 수 있다. 다양한 구현예들에서, 비휘발성 기록매체(RM)들은 광학 또는 자기 디스크들, 예컨대 디스크드라이브 (110)를 포함하고, 휘발성 기록매체들은 동적기록매체, 예컨대 시스템 메모리 (106)를 포함하고, 버스(102)를 포함하는 배선들(wires)을 포함하는 송신매체들은 동축케이블들, 동선(copper wire), 및 광섬유들을 포함한다.
일예에서, 송신매체들은, 라디오파 및 적외선 데이터 통신들 동안 생성된 것들과 같은 음파 또는 광파의 형태를 취할 수도 있다.
컴퓨터 판독가능한 기록매체(RM)들의 몇몇 공통의 형태들은, 예를 들면, 플로피디스크, 플렉시블 디스크, 하드디스크, 자기테이프, 임의의 다른 자기매체, CD-ROM, 임의의 다른 광학매체, 펀치카드들, 종이테이프, 구멍들의 패턴을 갖는 임의의 다른 물리적 매체, RAM, PROM, EPROM, FLASH-EPROM, 임의의 다른 메모리칩 또는 카트리지, 반송파, 또는 컴퓨터가 판독하도록 적응된 임의의 다른 매체를 포함한다.
본 개시의 다양한 실시형태들에서, 본 개시를 실시하기 위한 명령시퀀스들의 실행은 본 발명의 실시예에 따른 데이터 탐색 장치에 의해 수행될 수도 있다. 본 개시의 다양한 다른 실시형태들에서, 통신링크(124)에 의해 (예를 들면, LAN, WLAN,PTSN, 및/또는 원격통신들, 모바일, 및 셀룰러폰 네트워크들을 포함하는 다른 유선 또는 무선 네트워크들과 같은) 네트워크에 결합된 복수의 컴퓨팅 장치들(100)은 본 개시를 실시하기 위한 명령시퀀스들을 서로 협력시켜 수행할 수도 있다.
본 발명의 실시예에 따른 데이터 탐색 장치는, 통신링크(124) 및 네트워크 인터페이스 (112)를 통해 메시지들, 데이터, 정보 및 하나 이상의 프로그램들(즉, 애플리케이션코드)을 포함하는 명령들을 송신하고 수신할 수도 있다.
네트워크 인터페이스 (112)는, 통신링크(124)를 통한 송수신을 가능하게 하기 위한, 별개의 또는 통합된 안테나를 포함할 수도 있다. 수신된 프로그램 코드는 수신될 때 프로세스(104)에 의해 실행될 수도 있고/있거나 실행을 위해 디스크드라이브 (110) 또는 몇몇 다른 비휘발성 저장에 저장될 수도 있다.
다음으로 도면을 참조하여 본 발명의 실시예에 따른 데이터 탐색 장치의 동작에 대해 설명한다.
메모리(106)는 서로 다른 제1 시계열 데이터 및 제2 시계열 데이터를 저장한다. 제1 시계열 데이터 및 제2 시계열 데이터는 시간에 따른 다양한 데이터 값에 대한 정보를 포함할 수 있다.
예를 들어, 제1 시계열 데이터 및 제2 시계열 데이터는 센서가 출력한 시간에 따른 센싱값에 대한 정보나, 특정 기업이나 주식 시장의 시간에 따른 주가에 대한 정보일 수 있다.
또한 제1 시계열 데이터 및 제2 시계열 데이터는 동일 요인을 센싱하는 서로 다른 센서로부터 각각 출력될 수도 있고, 서로 다른 요인(예를 들어, 해수면의 온도 및 태풍의 이동경로, 기온과 작물의 성장량 등)에 대한 것일 수도 있다.
프로세서(104)는 메모리(106)에 액세스(access)가능한다. 이에 따라 프로세서(104)는 제1 시계열 데이터 및 제2 시계열 데이터를 판독할 수 있다.
도 2는 제1 시계열 데이터, 제2 시계열 데이터, 제1 탐색 대상 시계열 데이터 및 제2 탐색 대상 시계열 데이터의 일례를 나타낸다. 도 2에서 가로축은 시간에 해당되고 세로축은 각 시계열 데이터의 값에 해당될 수 있다.
프로세서(104)는 설정 구간에 존재하는 제1 시계열 데이터의 제1 패턴에 매칭되는 제1 탐색 대상 시계열 데이터의 일부인 제1 매칭 데이터를 도출한다.
또한 프로세서(104)는 상기 설정 구간에 존재하는 제2 시계열 데이터의 제2 패턴에 매칭되는, 제1 탐색 대상 시계열 데이터와 다른 제2 탐색 대상 시계열 데이터의 일부인 제2 매칭 데이터를 도출한다.
즉, 프로세서(104)는 동일 설정 구간에 존재하는 서로 다른 시계열 데이터의 패턴에 매칭되는 데이터를 제1 탐색 대상 시계열 데이터 및 제2 탐색 대상 시계열 데이터로부터 탐색할 수 있다.
이를 위하여 프로세서(104)는 설정구간의 복수의 패턴을 서로 다른 복수의 탐색대상 시계열 데이터 전체 구간에 대해 윈도우잉(windowing)하면서 복수의 패턴과 동일하거나 유사한 데이터를 탐색하여 제1 매칭 데이터 및 제2 매칭 데이터를 도출할 수 있다. 허용가능한 유사도(error rate)는 디폴트 값이 제공될 수 있으며, 디폴트 값은 변경가능하다.
이를 위하여 프로세서(104)는 설정 구간에서 데이터 샘플링을 수행하고 샘플링된 데이터의 순서 및 데이터 값들과 일치하거나 유사한 데이터를 탐색할 수 있다.
프로세서(104)는 제1 탐색 대상 시계열 데이터 및 제2 탐색 대상 시계열 데이터에 대해 탐색 동작을 수행할 수 있으나 이에 한정되지 않으며 도 2에 도시된 바와 같이, 3개 이상의 서로 다른 탐색 대상 시계열 데이터에 대해 탐색 동작을 수행할 수 있다.
이상에서 설명된 바와 같이, 본 발명의 실시예에 따른 데이터 탐색 장치는 서로 다른 시계열 데이터 중 설정 구간의 패턴과 유사하거나 동일한 데이터를 탐색할 수 있다.
예를 들어, 제1 시계열 데이터 내지 제3 시계열 데이터가 각각 시간에 따른 온도, 습도, 작물 성장량이라고 할 때, 유저(user)는 온도, 습도, 작물 성장량의 연관성이 높은 구간을 설정 구간으로 데이터 탐색 장치에 입력하면, 데이터 탐색 장치는 설정 구간에서의 온도, 습도, 작물 성장량의 패턴과 일치하거나 유사한 부분을 복수의 탐색 대상 데이터로부터 탐색할 수 있다. 이에 따라 유저는 연관성이 높은 구간을 용이하게 찾을 수 있다.
한편, 도 2에 도시된 바와 같이, 제1 탐색 대상 시계열 데이터 및 제2 탐색 대상 시계열 데이터는 각각 제1 시계열 데이터 및 제2 시계열 데이터의 적어도 일부일 수 있다.
또는 도 2와 다르게 제1 탐색 대상 시계열 데이터 및 제2 탐색 대상 시계열 데이터는 각각 제1 시계열 데이터 및 제2 시계열 데이터와 서로 다를 수 있다.
예를 들어, 제1 시계열 데이터 및 제2 시계열 데이터가 각각 온도 센서 1 및 습도 센서 1이 출력한 데이터이고, 제1 탐색 대상 시계열 데이터 및 제2 탐색 대상 시계열 데이터는 온도 센서 2 및 습도 센서 2가 출력한 데이터일 수 있다.
이에 따라 유저는 온도 센서 1 및 습도 센서 1의 데이터 중 설정 구간의 패턴과 유사하거나 일치되는 부분이온도 센서 2 및 습도 센서 2가 출력한 데이터에 있는지 확인할 수 있다.
이상의 설명에서 설정 구간의 설정은 쿼리를 통하여 이루어질 수 있다.
프로세서(104)는 탐색 전에 normalization 필터나 mean 필터로 복수의 탐색 대상 시계열 데이터를 일정 정도 평활화(smoothing)한 후 탐색 동작을 수행할 수 있다.
한편, 도 3에 도시된 바와 같이, 프로세서(104)는 제1 매칭 데이터와 제2 매칭 데이터가 존재하는 매칭 구간에 외부에서 입력된 코멘트를 할당할 수 있다. 유저는 자신의 단말기 또는 입력부(118)를 통하여 매칭 구간의 코멘트를 입력할 수 있다. 코멘트는 매칭 구간에 대한 유저의 해석, 의견이나 메모일 수 있으나 이에 한정되는 것은 아니다.
단말기는 본 발명의 실시예에 따른 데이터 탐색 장치에 접속하여 통신가능하며, PC, 타블렛, 스마트폰, 또는 랩탑일 수 있으나 이에 한정되는 것은 아니다.
이 때 코멘트는 분류 태그를 포함할 수 있으며, 프로세서(104)는 코멘트에 포함된 분류 태그(tag)에 따라 코멘트를 분류할 수 있다. 예를 들어, 유저는 '첫 번째 매칭 구간 후 #1분 이내에 또다른 매칭 구간이 발생하면 주의 요망'이라는 코멘트를 입력할 수 있다.
이 때 코멘트는 #1분과 같은 분류 태그를 포함할 수 있으며, 본 발명의 실시예에서 분류 태그는 해쉬 태그(hash tag)일 수 있으나 이에 한정되는 것은 아니다.
도 4에 도시된 바와 같이, 프로세서(104)는 분류 태그 별로 정렬된 분류 태그 리스트를 생성할 수 있으며, 이와 같은 분류 태그 리스트를 기록매체(RM)에 저장할 수 있다.
즉, 프로세서(104)는 코멘트에 대한 코멘트 리스트를 생성하여 분류 태그에 연관시키고,분류 태그에 대한 분류 태그 리스트를 생성할 수 있다. 코멘트 리스트는 분류 태그 별로 생성될 수 있으며, 코멘트와 함께 코멘트 관련 정보 역시 포함할 수 있다.
즉, 코멘트 1 내지 코멘트 3은 분류 태그 #ABCD를 포함하고 있으며, 코멘트 4 내지 코멘트 6은 분류 태그 #WXYZ를 포함할 수 있다.
코멘트 관련 정보는 코멘트의 제목, 코멘트 작성자의 ID, 작성시간, 코멘트가 할당된 매칭 구간의 시작위치와 끝위치, 코멘트가 할당된 매칭 구간에 있는 데이터의 최대, 최소, 평균값을 포함할 수 있으나 이에 한정되는 것은 아니다.
도 4에서 코멘트 1 내지 코멘트 6은 문자나 기호로 이루어질 수 있으나 코멘트 1 내지 코멘트 6 각각에 부여된 코드일 수도 있다.
한편, 프로세서(104)는 설정 구간, 분류 태그 및 코멘트 중 적어도 하나에 대한 점수를 하나 이상의 유저 단말기로부터 입력받아 할당할 수 있다.
즉, 특정 유저는 다른 유저들에 의하여 이루어진 설정 구간, 분류 태그 및 코멘트의 적절성에 대한 점수를 입력부(118) 또는 단말기를 통하여 부여할 수 있다. 설정 구간에 대한 점수는 설정 구간에 대한 정보를 포함하는 쿼리에 대한 점수일 수 있다.
또한 프로세서(104)는 코멘트가 다른 코멘트에서 인용될 경우 코멘트의 인용횟수를 계산할 수 있다. 예를 들어, 코멘트 3이 '첫 번째 매칭 구간 후 #1분 이내에 또다른 매칭 구간이 발생하면 코멘트 1에 따라 주의 요망'일 경우 코멘트 3은 코멘트 1을 1회 인용한 것일 수 있다.
이를 통하여 프로세서(104)는 상기 점수와 코멘트의 인용횟수에 따라 코멘트에 대한 가격을 산정할 수 있다. 이에 따라 본 발명의 실시예에 따른 데이터 탐색 장치는 해당 코멘트를 작성한 유저에게 적절한 보상을 제공할 수 있다.
이상에서는 상기 점수와 코멘트의 인용횟수에 따라 가격이 산정되나 적절하게 설정된 설정 구간에 대한 점수에 따라 가격이 산정되어 해당 설정 구간을 설정한 유저에게 보상이 제공될 수 있다.
한편, 프로세서(104)는 제1 매칭 데이터의 제1 특징 및 제2 매칭 데이터의 제2 특징으로 이루어진 데이터 벡터(data vector)를 생성할 수 있다. 도 5 및 도 6은 데이터 벡터를 생성하는 과정을 나타내는 도면이다.
도 5에 도시된 데이터 벡터 생성 과정을 설명한 후 도 6의 데이터 벡터 생성 과정에 대해 설명한다.
도 5에서 Data#1 내지 Data#4는 서로 다른 제1 내지 제4 매칭 데이터이다. 이 때 각 탐색 대상 시계열 데이터의 데이터 생성 주기가 서로 다를 수 있다.
예를 들어, Data#1의 데이터는 단위 시간(예를 들어, 1초)마다 생성되고, Data#2의 데이터는 2초마다 생성되며, Data#3 및 Data#4는 각각 4초와 6초마다 생성될 수 있다. 이상의 설명에서는 단위 시간을 1초라고 하였으나 이에 한정되는 것은 아니며, 경우에 따라 달라질 수 있다.
이 때 제1 내지 제4 매칭 데이터의 제1 특징 내지 제4 특징은 각 매칭 데이터의 데이터값일 수 있다. 데이터 벡터는이들 데이터 값으로 이루어질 수 있다.
데이터 벡터는 각 단위 시간마다 생성될 수 있는데, 앞서 설명된 바와 같이, 매칭 데이터들의 데이터 생성 주기가 다를 수 있으므로 특정 단위 시간에 제1 매칭 데이터는 데이터 값이 존재하지만 제2 매칭 데이터는 데이터 값이 존재하지 않을 수 있다.
이와 같이 매칭 데이터의 데이터값이 존재하지 않으면 데이터 벡터가 형성되지 않으므로 설정된 방법에 따라 데이터 값을 가상적으로 생성할 수 있다.
예를 들어, 도 5에 도시된 바와 같이, 각 매칭 데이터의 n 번째 데이터 값과 n+T 번째(n은 1 이상의 자연수, T는 주기) 데이터 값 사이에 데이터 값이 없는 경우, 프로세서(104)는 가상적으로 n 번째 데이터 값을 생성하여 n 번째 데이터 값과 n+m 번째 데이터 값 사이를 채울 수 있다.
즉, 제2 매칭 데이터는 n 번째 데이터값이 #1이고, T는 2이므로 n+2번째(=n+T) 데이터 값은 #2이며, n 번째 데이터값과 n+2번째 데이터 값 사이에 데이터 값이 없다.
이에 따라 프로세서(104)는 n 번째 데이터값과 n+2번째(=n+T) 데이터 값 사이를 가상적으로 #1(=n 번째 데이터값)로 채울 수 있다. 프로세서(104)는 나머지 제3 및 제4 매칭 데이터 역시 이와 같은 방법으로 데이터 값을 채울 수 있다.
도 5에 도시된 바와 같이, 데이터 벡터가 생성이 안되는 구간이 존재할 수 있다. 가장 첫번째 데이터 벡터를 생성할 때, Data#2 의 경우, 현재 시점의 데이터가 없어 과거의 데이터로부터 가져와야 하는데, 과거의 데이터가 존재하지 않을 수 있다.
이와 같은 현상은 첫 번째 및 두 번째 데이터 벡터에서의 Data#3 의 경우에도 발생하므로, 첫 번째 데이터 벡터와 두 번째 데이터 벡터는 완벽하게 채워질 수가 없게 될 수 있다. 이에 따라 첫 번째 데이터 벡터와 두 번째 데이터 벡터는 생성되지 않을 수 있다.
이와 다르게 n 번째 데이터 값과 n+T 번째 데이터 값의 평균값을 가상적으로 생성하여 비어있는 데이터 값을 채울 수도 있으며, 다양한 방법을 통하여 데이터 값을 가상적으로 생성할 수 있다.
이에 따라 각 단위 시간마다 데이터 벡터가 생성될 수 있다.
한편, 프로세서(104)는 매칭 구간의 전체 데이터 중 일부를 샘플링(sampling)하여 데이터 벡터를 생성할 수 있다. 즉, 제1 특징 및 제2 특징은 동일 시점에서 제1 매칭 데이터 및 제2 매칭 데이터 각각으로부터 샘플링된 데이터 값일 수 있다. 샘플링 레이트(sampling rate)의 조절에 따라 프로세서(104)의 연산량을 감소시키면서도 신뢰성 있는 데이터 벡터가 생성될 수 있다.
다음으로 도 6을 참조하여 데이터 벡터를 생성하는 방법에 대해 설명한다.
도 6에 도시된 바와 같이, 서로 다른 제1 매칭 데이터 및 제2 매칭 데이터는 디스플레이부(114)에 연결된 직선들로 표시될 수 있다. 이 때 제1 매칭 데이터의 제1 특징 및 제2 매칭 데이터의 제2 특징은 동일 구간에 존재하는 세그멘테이션(segmentation)화된 제1 매칭 데이터 및 제2 매칭 데이터 각각의 기울기를 포함할 수 있다.
프로세서(104)는 시계열 데이터, 탐색 대상 시계열 데이터 또는 매칭 데이터의 시계열 데이터에 대한 세그멘테이션을 수행할 수 있는데, Piecewise Linear Segmentation 기법을 이용할 수 있다. 이와 같은 세그멘테이션 기법은 Piecewise Linear Segmentation 기법에 한정되는 것은 아니며, 다양한 세그멘테이션 기법이 본 발명에 적용될 수 있다.
이에 따라 시계열 데이터, 탐색 대상 시계열 데이터 또는 매칭 데이터는 직선 형상의 세그먼트(segment)로 이루어질 수 있다.
도 6에 도시된 바와 같이, 구간마다 데이터 벡터가 생성될 수 있는데, 구간의 설정이 제1 매칭 데이터를 기준으로 할 것인지 제2 매칭 데이터를 기준으로 할 것인지가 결정되어야 한다.
본 발명의 실시예의 경우, 프로세서(104)는 세그먼트의 개수가 많은 매칭 데이터를 구간을 설정할 수 있다. 이에 따라 제2 매칭 데이터를 기준으로 했을 경우보다 많은 데이터 벡터를 생성할 수 있다.
도 6에 도시된 바와 같이, 제1 매칭 데이터의 세그먼트 개수가 제2 매칭 데이터의 세그먼트 개수보다 많으므로 구간을 설정하기 위한 기준 매칭 데이터는 제1 매칭 데이터가 될 수 있다.
프로세서(104)는 제1 매칭 데이터를 이루는 세그먼트의 기울기가 변할 때마다 구간을 설정할 수 있으며, 각 구간의 제1 매칭 데이터 및 제2 매칭 데이터의 기울기를 통하여 데이터 벡터를 생성할 수 있다.
이 때 구간 A에서는 제2 매칭 데이터의 세그먼트 개수가 기준 매칭 데이터인 제1 매칭 데이터의 세그먼트 개수보다 많다. 이에 따라 구간 A에서는 복수의 세그먼트 기울기가 존재할 수 있으며, 프로세서(104)는 구간 A에서의 복수의 세그먼트 기울기를 대표하는 대표 기울기를 제2 특징으로 설정할 수 있다.
본 발명의 실시예에서 대표 기울기는 복수의 세그먼트 기울기의 평균값일 수 있으나, 이에 한정되지 않으며 다양한 방법에 의하여 대표 기울기가 설정될 수 있다.
또한 데이터 벡터의 제1 특징 및 제2 특징은 기울기와 더불어 구간 경계에서의 데이터 값을 포함할 수 있다. 도 6에서는 검은 점의 데이터 값이 구간 경계에서의 데이터 값일 수 있다.
데이터 벡터의 생성은 도 5 및 도 6에 도시된 방법에 한정되지 않으면 다양한 방법에 의해 데이터 벡터가 생성될 수 있다.
한편, 머쉰런닝 모델에 대해 다음의 도 7 내지 도 9를 참조하여 상세히 설명한다.
앞서 도 5 및 도6을 통하여 설명된 바와 같이 데이터 벡터는 매칭 구간에서 생성되고, 매칭 구간에는 분류 태그를 포함하는 코멘트가 할당되므로 도 7에 도시된 바와 같이, 데이터 벡터는 분류 태그와 연관될 수 있다.
도 7의 머쉰 러닝 모델은 decision tree learning을 이용한 것이다. 즉, 분류 태그 #ABCD, #UYTR, #NBVC 와 연관된 데이터 벡터의 Data#1, Data#2, Data#3의 관계가 decision tree로 설정될 수 있다.
예를 들어, 도 7에 도시된 바와 같이, 분류 태그 #ABCD와 연관된 데이터 벡터는 Data#1<0.4이고, Data#2<30이며, Data#3>150일 수 있다. 이외에 도 7에서 분류 태그 #ABCD와 연관된 Data#1, Data#2, Data#3의 관계가 있으나 이에 대해서는 생략하도록 한다.
또한 분류 태그 #UYTR와 연관된 데이터 벡터는 Data#1>0.8이고, Data#3>100이며, Data#3=180일 수 있다. 이외에 도 7에서 분류 태그 #UYTR와 연관된 Data#1, Data#2, Data#3의 관계가 있으나 이에 대해서는 생략하도록 한다.
또한 분류 태그 #NBVC와 연관된 데이터 벡터는 Data#1=1.2이고, Data#1<10이며, Data#2>50일 수 있다. 이외에 도 7에서 분류 태그 #NBVC와 연관된 Data#1, Data#2, Data#3의 관계가 있으나 이에 대해서는 생략하도록 한다.
한편, 도 8의 머쉰 러닝 모델은 벡터 공간에서의 클러스터링(CLUSTERING)을 이용한 것이다. 즉, 하나의 분류 태그와 연관된 데이터 벡터들은 다른 하나의 분류 태그와 연관된 데이터 벡터들에 비하여 벡터 공간 내에서 보다 가깝게 모여 있을 수 있으므로 하나의 그룹으로 클러스터링할 수 있다.
또한, 도 9의 머쉰 러닝 모델은 하나의 분류 태그에 포함되며 순차적으로 생성된 데이터 벡터들의 성분들 사이의 관계를 통하여 형성될 수 있다. 데이터 벡터들은 순차적으로 형성되는데, 연속된 두 개의 데이터 벡터들의 성분 사이의 상태 변화를 통하여 머쉰 러닝이 이루어질 수 있다.
예를 들어, 도 9에 도시된 바와 같이, 분류 태크 #ABCD에 포함된 데이터 벡터들은 (D11, D21, D31), (D12, D22, D32), (D13, D23, D33), (D14, D24, D34), (D15, D25, D35), (D16, D26, D36)일 수 있다.
D11과 D12 사이의 상태 변화, D12와 D13의 상태 변화, D13와 D14의 상태 변화, D14와 D15의 상태 변화, D15와 D16의 상태 변화가 계산될 수 있다.
이와 같은 상태 변화 계산은 D21과 D22, D22과 D23, D23과 D24, D24과 D25, D25과 D26 사이에 이루어질 수 있으며, 마찬가지로 D31과 D32, D32과 D33, D33과 D34, D34과 D35, D35과 D36 사이에 이루어질 수 있다.
상태 변화의 기준은 경우에 따라 다양하게 설정될 수 있다. 예를 들어, 연속된 2 개의 성분 사이의 차이가 20보다 크면 상태가 State#1에서 State#2로 변화했다고 설정될 수 있다. 연속된 2 개의 성분 사이의 비율이 1보다 크면 State#2에서 State#3로 변화했다고 설정될 수 있다. State#2에서 State#1로의 상태 변화의 기준, State#3에서 State#1로 상태 변화할 때의 기준이 설정될 수 있다.
이와 같은 상태 변화의 기준에 따라 전체 상태 변화의 횟수에 대한 각 상태 변화의 횟수에 대한 비율이 계산될 수 있으며, 이와 같은 비율이 머쉰 러닝 모델이 될 수 있다.
프로세서(104)는, 데이터 벡터에 따른 머쉰 러닝 모델(machine learning model)에 제1 분석 대상 시계열 데이터 및 제2 분석 대상 시계열 데이터를 적용하여 제1 분석 대상 시계열 데이터 및 제2 분석 대상 시계열 데이터를 분류 태그 별로 분류할 수 있다.
즉, 도 7 내지 도 9에 도시된 바와 같이, 분류 태그에 따라 다양한 머쉰 러닝 모델이 생성될 수 있으며, 본 발명의 실시예에 따른 데이터 탐색 장치로 새로이 제1 분석 대상 시계열 데이터 및 제2 분석 대상 시계열 데이터가 입력될 수 있다.
프로세서(104)는 새로이 입력되는 제1 분석 대상 시계열 데이터 및 제2 분석 대상 시계열 데이터를 머쉰 러닝 모델에 적용하여 제1 분석 대상 시계열 데이터 및 제2 분석 대상 시계열 데이터를 분류 태그 별로 분류할 수 있다.
즉, 프로세서(104)는 매칭 데이터의 도출 및 코멘트 할당 없이 제1 분석 대상 시계열 데이터 및 제2 분석 대상 시계열 데이터를 머쉰 러닝 모델에 적용할 수 있으며, 이에 따라 상기 제1 분석 대상 시계열 데이터 및 상기 제2 분석 대상 시계열 데이터가 특정 분류 태그로 분류될 수 있다.
다음으로 도면을 참조하여 본 발명의 다른 실시예에 따른 데이터 탐색 장치를 설명한다.
본 발명의 다른 실시예에 따른 데이터 탐색 장치는 시계열 데이터를 저장하는 메모리(106)와, 메모리(106)에 액세스가능한 프로세서(104)를 포함한다.
프로세서(104)는 시계열 데이터의 일부 구간 또는 일부 시점에 외부에서 입력된 코멘트를 할당하고, 코멘트에 포함된 분류 태그에 따라 코멘트를 분류할 수 있다.
도 10 내지 도 12는 유저에 의하여 선택된 구간에 할당된 코멘트를 나타낸다.
도 10에 도시된 바와 같이, 유저는 입력부(118)나 단말기를 통하여 자신이 선택한 시계열 데이터의 구간에 코멘트를 입력할 수 있다. 이에 따라 프로세서(104)는 유저에 의하여 선택된 구간에 입력된 코멘트를 할당할 수 있다.
이 때 코멘트는 분류 태그를 포함할 수 있으며, 프로세서(104)는 분류 태그 리스트를 생성할 수 있다. 분류 태그 리스트에 대해서는 앞서 상세히 설명하였으므로 이에 대한 설명은 생략된다.
도 10에서는 코멘트가 선택된 구간에 할당되었으나 도 11에 도시된 바와 같이 코멘트가 선택된 시점에 할당될 수도 있다. 또한 코멘트에 포함된 분류 태그에 따라 코멘트가 분류되며, 분류 태그 리스트가 생성될 수 있다.
아울러 도 12에 도시된 바와 같이 선택된 구간 또는 선택된 시점 중 적어도 하나에 코멘트가 할당될 수 있으며, 코멘트에 할당된 분류 태그에 따라 코멘트가 분류되며 분류 태그 리스트가 생성될 수 있다.
즉, 도 10 내지 도 12에 도시된 바와 같이, 프로세서(104)는코멘트에 대한 코멘트 리스트를 생성하여 분류 태그에 연관시키고, 분류 태그에 대한 분류 태그 리스트를 생성할 수 있다.
유저는 특정 시계열 데이터의 특정 구간이나 특정 시점을 단말기의 마우스, 스타일러스 또는 터치 스크린을 드래그(drag)하여 선택한 후, 해당 구간에 대한 코멘트를 작성하여 저장할 수 있다.
프로세서(104)는분류 태그 및 코멘트 중 적어도 하나에 대한 점수를 하나 이상의 유저 단말기로부터 입력받아 할당하고, 코멘트가 다른 코멘트에서 인용될 경우 코멘트의 인용횟수를 계산할 수 있다. 이에 따라 프로세서(104)는 점수와 코멘트의 인용횟수에 따라 코멘트에 대한 가격을 산정할 수 있다.
이에 대해서는 앞서 본 발명의 실시예에 따른 데이터 탐색 장치를 통하여 설명하였으므로 이에 대한 설명은 생략된다.
한편, 프로세서(104)는,코멘트가 할당된 시계열 데이터의 특징으로 이루어진 데이터 벡터를 생성하고, 데이터 벡터에 따른 머쉰 러닝 모델에 또다른 시계열 데이터을 적용하여 또다른 시계열 데이터를 분류 태그 별로 분류할 수 있다.
이에 대한 설명은 앞서 본 발명의 실시예에 따른 데이터 탐색 장치를 통하여 상세히 설명하였으므로 이에 대한 설명은 생략된다.
한편, 프로세서(104)는 코멘트 할당 없이 또다른 시계열 데이터를 머쉰 러닝 모델에 적용할 수 있다. 이에 대한 설명은 앞서 본 발명의 실시예에 따른 데이터 탐색 장치를 통하여 상세히 설명하였으므로 이에 대한 설명은 생략된다.
이상에서 설명된 머쉰 러닝 모델 역시 유저들에 의하여 평가되어 머쉰 러닝 모델에 대한 점수가 프로세서(104)에 의하여 할당될 수 있으며, 이와 같은 머쉰 러닝 모델에 대한 점수에 따라 프로세서(104)는 머쉰 러닝 모델에 대한 가격을 산정할 수 있다.
프로세서(104)는 가격이 산정된 머쉰 러닝 모델을 매매하는 과정을 제어할 수 있으며, 머쉰 러닝 모델이 판매될 경우, 머쉰 러닝 모델을 구축한 유저에게 보상이 이루어지는 과정 역시 제어할 수 있다.
이상과 같이 본 발명에 따른 실시예를 살펴보았으며, 앞서 설명된 실시예 이외에도 본 발명이 그 취지나 범주에서 벗어남이 없이 다른 특정 형태로 구체화 될 수 있다는 사실은 해당 기술에 통상의 지식을 가진 이들에게는 자명한 것이다. 그러므로, 상술된 실시예는 제한적인 것이 아니라 예시적인 것으로 여겨져야 하고, 이에 따라 본 발명은 상술한 설명에 한정되지 않고 첨부된 청구항의 범주 및 그 동등 범위 내에서 변경될 수도 있다.
프로세서(104)
메모리(106)
디스플레이부(114)
입력부(118)

Claims (15)

  1. 서로 다른 제1 시계열 데이터 및 제2 시계열 데이터를 저장하는 메모리; 및
    상기 메모리에 액세스가능한 프로세서를 포함하며,
    상기 프로세서는,
    설정 구간에 존재하는 상기 제1 시계열 데이터의 제1 패턴에 매칭되는 제1 탐색 대상 시계열 데이터의 일부인 제1 매칭 데이터를 도출하고,
    상기 설정 구간에 존재하는 상기 제2 시계열 데이터의 제2 패턴에 매칭되는, 상기 제1 탐색 대상 시계열 데이터와 다른 제2 탐색 대상 시계열 데이터의 일부인 제2 매칭 데이터를 도출하며,
    상기 프로세서는 동일한 상기 설정 구간에 존재하는 상기 제1 패턴 및 상기 제2 패턴에 매칭되는 데이터를 제1 탐색 대상 시계열 데이터 및 제2 탐색 대상 시계열 데이터로부터 탐색하고,
    상기 제1 매칭 데이터 및 상기 제2 매칭 데이터는 동일 구간에 있으며,
    상기 프로세서는,
    상기 제1 매칭 데이터의 제1 특징 및 상기 제2 매칭 데이터의 제2 특징으로 이루어진 데이터 벡터를 생성하고,
    상기 제1 탐색 대상 시계열 데이터와 상기 제2 탐색 대상 시계열 데이터의 데이터 생성 주기가 서로 다르며,
    상기 제1 매칭 데이터의 데이터값이 존재하는 기간에 상기 제2 매칭 데이터의 데이터값이 없을 경우, 상기 제2 매칭 데이터의 상기 제2 특징을 통하여 상기 기간의 제2 매칭 데이터의 데이터값을 가상적으로 생성하고,
    상기 가상적으로 생성된 데이터값을 포함하는 데이터 벡터를 생성하는 것을 특징으로 하는 데이터 탐색 장치.
  2. 제1항에 있어서,
    상기 제1 탐색 대상 시계열 데이터 및 상기 제2 탐색 대상 시계열 데이터는 각각 상기 제1 시계열 데이터 및 상기 제2 시계열 데이터의 적어도 일부인 것을 특징으로 하는 데이터 탐색 장치.
  3. 제1항에 있어서,
    상기 제1 탐색 대상 시계열 데이터 및 상기 제2 탐색 대상 시계열 데이터는 각각 상기 제1 시계열 데이터 및 상기 제2 시계열 데이터와 서로 다른 것을 특징으로 하는 데이터 탐색 장치.
  4. 제1항에 있어서,
    상기 프로세서는,
    상기 제1 매칭 데이터와 상기 제2 매칭 데이터가 존재하는 매칭 구간에 외부에서 입력된 코멘트를 할당하고,
    상기 코멘트에 포함된 분류 태그에 따라 상기 코멘트를 분류하는 것을 특징으로 하는 데이터 탐색 장치.
  5. 제4항에 있어서,
    상기 프로세서는,
    상기 코멘트에 대한 코멘트 리스트를 생성하여 상기 분류 태그에 연관시키고,
    상기 분류 태그에 대한 분류 태그 리스트를 생성하는 것을 특징으로 하는 데이터 탐색 장치.
  6. 제4항에 있어서,
    상기 프로세서는,
    상기 설정 구간, 상기 분류 태그 및 상기 코멘트 중 적어도 하나에 대한 점수를 하나 이상의 유저 단말기로부터 입력받아 할당하고,
    상기 코멘트가 다른 코멘트에서 인용될 경우 상기 코멘트의 인용횟수를 계산하며,
    상기 점수와 상기 코멘트의 인용횟수에 따라 상기 코멘트에 대한 가격을 산정하는 것을 특징으로 하는 데이터 탐색 장치.
  7. 제4항에 있어서,
    상기 프로세서는,
    상기 데이터 벡터에 따른 머쉰 러닝 모델에 제1 분석 대상 시계열 데이터 및 제2 분석 대상 시계열 데이터를 적용하여 상기 제1 분석 대상 시계열 데이터 및 상기 제2 분석 대상 시계열 데이터를 상기 분류 태그 별로 분류하는 것을 특징으로 하는 데이터 탐색 장치.
  8. 제7항에 있어서,
    상기 프로세서는,
    매칭 데이터의 도출 및 코멘트 할당 없이 상기 제1 분석 대상 시계열 데이터 및 상기 제2 분석 대상 시계열 데이터를 상기 머쉰 러닝 모델에 적용하는 것을 특징으로 하는 데이터 탐색 장치.
  9. 제7항에 있어서,
    상기 제1 특징 및 상기 제2 특징은 동일 시점에서 상기 제1 매칭 데이터 및 상기 제2 매칭 데이터 각각으로부터 샘플링된 데이터 값인 것을 특징으로 하는 데이터 탐색 장치.
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
KR1020160093155A 2016-07-22 2016-07-22 데이터 탐색 장치 KR101946842B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020160093155A KR101946842B1 (ko) 2016-07-22 2016-07-22 데이터 탐색 장치
US15/347,711 US20180025062A1 (en) 2016-07-22 2016-11-09 Data searching apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160093155A KR101946842B1 (ko) 2016-07-22 2016-07-22 데이터 탐색 장치

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020180011486A Division KR101916934B1 (ko) 2018-01-30 2018-01-30 데이터 탐색 장치

Publications (2)

Publication Number Publication Date
KR20180010664A KR20180010664A (ko) 2018-01-31
KR101946842B1 true KR101946842B1 (ko) 2019-02-11

Family

ID=60989525

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160093155A KR101946842B1 (ko) 2016-07-22 2016-07-22 데이터 탐색 장치

Country Status (2)

Country Link
US (1) US20180025062A1 (ko)
KR (1) KR101946842B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020019133A (ja) * 2018-07-24 2020-02-06 キヤノン株式会社 処理装置、生産システム、ロボット装置、物品の製造方法、処理方法、及び記録媒体
US11789437B2 (en) 2018-07-24 2023-10-17 Canon Kabushiki Kaisha Processing apparatus and processing method for processing portion
KR102343848B1 (ko) * 2021-05-04 2021-12-27 다인크레스트코리아 주식회사 이용자 상태 벡터를 이용한 전환 전략 탐색 방법 및 운영 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011034389A (ja) * 2009-08-03 2011-02-17 Mitsubishi Electric Corp 時系列データ類似判定装置、時系列データ類似判定プログラム、記録媒体及び時系列データ類似判定方法
JP2013122657A (ja) * 2011-12-09 2013-06-20 Hiroshi Sugimura データのタグ付け装置
JP2015164008A (ja) * 2014-02-28 2015-09-10 株式会社日立製作所 解析装置及び解析方法
JP2016076073A (ja) * 2014-10-06 2016-05-12 日本電気株式会社 データ処理装置、データ処理方法、及び、コンピュータ・プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102014018233A1 (de) * 2013-12-05 2015-06-11 Mann + Hummel Gmbh Filterelement mit Filterbalg

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011034389A (ja) * 2009-08-03 2011-02-17 Mitsubishi Electric Corp 時系列データ類似判定装置、時系列データ類似判定プログラム、記録媒体及び時系列データ類似判定方法
JP2013122657A (ja) * 2011-12-09 2013-06-20 Hiroshi Sugimura データのタグ付け装置
JP2015164008A (ja) * 2014-02-28 2015-09-10 株式会社日立製作所 解析装置及び解析方法
JP2016076073A (ja) * 2014-10-06 2016-05-12 日本電気株式会社 データ処理装置、データ処理方法、及び、コンピュータ・プログラム

Also Published As

Publication number Publication date
US20180025062A1 (en) 2018-01-25
KR20180010664A (ko) 2018-01-31

Similar Documents

Publication Publication Date Title
US10380236B1 (en) Machine learning system for annotating unstructured text
US20230107574A1 (en) Generating trained neural networks with increased robustness against adversarial attacks
EP3467723A1 (en) Machine learning based network model construction method and apparatus
US11360927B1 (en) Architecture for predicting network access probability of data files accessible over a computer network
CN108140143A (zh) 正则化机器学习模型
CN109313720B (zh) 具有稀疏访问的外部存储器的增强神经网络
CN113574325B (zh) 通过选择控制设置来控制环境的方法和系统
US20200288204A1 (en) Generating and providing personalized digital content in real time based on live user context
US20200320381A1 (en) Method to explain factors influencing ai predictions with deep neural networks
KR20190056009A (ko) 메트릭 학습 기반의 데이터 분류와 관련된 장치 및 그 방법
US20180144264A1 (en) Training sequence natural language processing engines
JP7207309B2 (ja) プログラム、情報処理方法、および情報処理装置
KR101946842B1 (ko) 데이터 탐색 장치
US20230360071A1 (en) Actionable kpi-driven segmentation
WO2022112895A1 (en) Automated deep learning architecture selection for time series prediction with user interaction
US20220366040A1 (en) Deep learning based detection of malicious shell scripts
KR101916934B1 (ko) 데이터 탐색 장치
JP2022082524A (ja) 機械学習を通じての学習モデルを使った情報提供方法および装置
CN108563648B (zh) 数据显示方法和装置、存储介质及电子装置
CN116034402A (zh) 确定性学习视频场景检测
CN114241411B (zh) 基于目标检测的计数模型处理方法、装置及计算机设备
US20230141408A1 (en) Utilizing machine learning and natural language generation models to generate a digitized dynamic client solution
US11227122B1 (en) Methods, mediums, and systems for representing a model in a memory of device
US20180039677A1 (en) Data searching apparatus
WO2017142510A1 (en) Classification

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant