KR102590575B1 - 컬럼 의미 분류 기반의 데이터 구조 분석을 통한 동적 데이터 분류 방법 - Google Patents

컬럼 의미 분류 기반의 데이터 구조 분석을 통한 동적 데이터 분류 방법 Download PDF

Info

Publication number
KR102590575B1
KR102590575B1 KR1020230051063A KR20230051063A KR102590575B1 KR 102590575 B1 KR102590575 B1 KR 102590575B1 KR 1020230051063 A KR1020230051063 A KR 1020230051063A KR 20230051063 A KR20230051063 A KR 20230051063A KR 102590575 B1 KR102590575 B1 KR 102590575B1
Authority
KR
South Korea
Prior art keywords
data
column
classification
semantic classification
semantic
Prior art date
Application number
KR1020230051063A
Other languages
English (en)
Inventor
오경조
이종규
박희성
이진연
Original Assignee
주식회사 에이오디컨설팅
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 에이오디컨설팅 filed Critical 주식회사 에이오디컨설팅
Priority to KR1020230051063A priority Critical patent/KR102590575B1/ko
Application granted granted Critical
Publication of KR102590575B1 publication Critical patent/KR102590575B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 컬럼 의미 분류 기반의 데이터 구조 분석을 통한 동적 데이터 분류 방법에 관한 것으로, 입력된 데이터의 의미 분류를 처리하기 위하여 학습 데이터를 수신받는 제 1단계; 상기 제 1단계에서 수신된 학습 데이터에 대하여 의미별 컬럼 분류를 위하여 의미별 카테고리에 따라 컬럼을 부여하여 컬럼 의미 분류를 결정하는 제 2단계; 상기 제 2단계에서 결정된 컬럼 의미 분류에 따라 인공지능 기반으로 언어 모형을 결정하는 제 3단계; 신규 데이터가 수신되면 상기 제 3단계에서 결정된 언어 모형에 따라 분류하는 제 4단계; 상기 제 4단계에서 언어 모형에 따라 분류된 데이터에 대하여 컬럼 의미 분류를 결정하는 제 5단계; 상기 제 5단계에서 결정된 각 컬럼 의미에 대하여 개체명을 인식하는 제 6단계; 및 컬럼 의미 분류가 결정된 데이터를 시각화하는 제 7단계;를 포함하여 구성된다.

Description

컬럼 의미 분류 기반의 데이터 구조 분석을 통한 동적 데이터 분류 방법{Dynamic data classification method through data structure analysis based on column semantic classification}
본 발명은 컬럼 의미 분류 기반의 데이터 구조 분석을 통한 동적 데이터 분류 방법에 관한 것으로, 좀 더 상세하게는 지능형 데이터 분석을 통해 데이터 의미론적 분류를 이용하여 자동으로 비정형 데이터의 구조를 파악하여 분류할 수 있는 컬럼 의미 분류 기반의 데이터 구조 분석을 통한 동적 데이터 분류 방법에 관한 것이다.
일반적인 컴퓨터를 이용한 분류 시스템에서는 주어진 데이터의 통계적 특성을 분석하여 같은 통계적 특성을 가진 것으로 판단되는 새로운 데이터의 종류를 결정한다. 이 경우, 분류 성능을 향상하기 위해서는 주어진 데이터를 처리하여 신뢰도가 높은 데이터를 선택하는 과정이 선행될 필요가 있다. 이러한 과정을 데이터 전처리(preprocessing)라고 하는데, 이 과정은 주어진 입력 데이터에서 본질적인 정보를 추출하기 쉽도록 현재 주목하고자 하는 부분 데이터를 선정하거나 데이터를 정형화하여 불필요한 정보를 분리하기 위한 예비적인 조작이다.
이러한 전처리 과정에는 데이터 정규화(normalization), 데이터 선택, 잡음 데이터 제거 등과 같은 처리가 포함된다. 데이터 전처리 과정 이후에는 계산량을 적절한 수준으로 낮추고 데이터의 질을 향상시키기 위해 원래의 데이터를 보다 낮은 차원의 새로운 데이터로 변환할 필요가 있다. 차원 감소(dimension reduction)를 위해 얻어지는 새로운 데이터를 원래 데이터의 특징(feature)이라고 부르며, 그러한 특징을 추출하는 과정을 특징추출(feature extraction)이라고 한다. 데이터로부터 특징이 추출되면 최종적으로 분류기(classifier)를 이용하여 주어진 데이터의 종류 정보가 최종적으로 확정된다.
데이터 분류를 위한 특징추출에서 고려되어야 하는 사항은, 종류 정보에 따라 데이터를 분류하기에 적합한 정보가 추출된 특징에 충분히 포함되어야 한다는 것이다. 일반적으로 특징추출은 크게 전역적(global)인 방법과 국소적(local)인 방법으로 구분되는데, 원래 데이터에 포함된 모든 차원이 특징의 추출에 있어 고려되는 방식을 전역적인 방법이라고 하며, 이와는 달리 원래 데이터의 일부 차원과 그러한 차원 간의 기하학적인 관계가 고려되는 방식을 국소적인 방법이라고 한다.
한편, 비정형 데이터(unstructured data)란, 텍스트나 이미지, 동영상과 같이 사전에 정의된 정형(structure)을 따라지 않는 데이터를 의미한다. 비정형 데이터는 뉴스, 댓글, SNS 데이터, 이메일, 보고서 등 다양하며 채널 또한 다양하다.
기업, 기관, 개인은 비정형 데이터를 매일 매시간 생산하고 있다. 하지만 대부분의 비정형 데이터는 분류되지 않고 사장되고 있다. 이런 비정형 데이터가 의미 있고 가치 있는 정보가 되기 위해서는 분석이 필수적이다.
비정형 데이터의 첫 번째 분석 방법은 분류분석(classification analysis) 또는 군집분석(clustering analysis)을 이용하는 것이고, 두 번째 분석 방법으로는 특정 범주로의 카테고라이징(categorizing)을 수행하는 것이 있다. 그동안 2가지 분석 방법은 수작업 처리 방법과 자동화된 처리 방법을 활용하였으나 산업 분야별 적용에는 아직 어려움이 크다.
일반적으로 텍스트 문서에 대한 자동 분류 시스템은 그 성능이 학습 알고리즘 자체보다는 특징 선택(feature selection) 알고리즘에 의존하는 경향이 크다. 특징 선택이란 학습 문서에 존재하는 특징(또는 단어)들 속에서 카테고리 간 차별화에 기여하는 특징만을 골라내는 기법을 의미한다.
하지만, 점차 더 처리해야 할 정보와 문서의 양이 방대해지고 복잡해지면서 이는 빠르게 전달해야 하는 뉴스의 속도를 저하시킬 뿐만 아니라 인력자원의 투입으로 인해 더 많은 비용이 소비되고 있다. 따라서 문서 분류의 자동화에 대한 필요성은 더욱 증대되고 있다.
또한, 기존에 문서 분류의 자동화를 위하여 단순히 문서에 나타나는 단어의 빈도수를 이용하여 적합한 범주를 지정하는 통계적인 분류 방법이 이용되거나, 분류에 필요한 주요 단어들을 추출하고 추출된 단어들을 기반으로 KNN, 의사결정트리, 베이지언 네트워크, 인공 신경망 등의 데이터 마이닝 알고리즘을 이용한 연구가 진행되었다.
하지만, 다양한 산업 현장에서 설비/공장/기업 간 특성 산업에서 발생되는 수많은 종류의 비정형 데이터의 표준화를 위하여 작업자에 의한 수작업을 통해 가공되고 처리되고 있어 시간적, 비용적 문제를 일으키고 있다.
KR 등록특허 10-1247307호 KR 등록특허 10-1408345호 KR 등록특허 10-1588431호 KR 등록특허 10-2367859호 KR 등록특허 10-1843066호 KR 등록특허 10-2175176호 KR 등록특허 10-2008845호 KR 등록특허 10-2461857호 KR 등록특허 10-2496030호 KR 등록특허 10-2459971호 KR 등록특허 10-2465571호
상기와 같은 문제점을 해결하기 위한 본 발명은, 데이터 구조 분석 결과에 따라 해당 데이터의 특성에 적절한 데이터 품질 규칙을 자동 적용하는 목적이 있다.
또한, 본 발명은 데이터의 값 분포는 비슷하나 의미가 비슷한 컬럼을 파악하며 데이터 타입 혹은 도메인 검토, 비즈니스 룰 점검 등 데이터 기반 다양한 업무를 좀 더 정확하게 파악할 수 있는 지능형 컬럼 의미 분류 기법을 이용하여 자동으로 의미가 비슷한 컬럼을 구별하고자 하는데 목적이 있다.
또한, 데이터값의 특성 파악을 통해 데이터의 의미와 구조를 분석하는 방법으로, 데이터 품질 평가 대상에서 데이터에 대한 도메인 분류, 품질 평가 규칙 설정 등을 Data Dictionary, Table 정의서, Column 정의서, Code 정의서 등의 산출물 기반으로 수작업에 의존하여 설정하던 방식을 자동화하는 목적이 있다.
상기와 같은 목적을 달성하기 위한 본 발명은, 입력된 데이터의 의미 분류를 처리하기 위하여 학습 데이터를 수신받는 제 1단계; 상기 제 1단계에서 수신된 학습 데이터에 대하여 의미별 컬럼 분류를 위하여 의미별 카테고리에 따라 컬럼을 부여하여 컬럼 의미 분류를 결정하는 제 2단계; 상기 제 2단계에서 결정된 컬럼 의미 분류에 따라 인공지능 기반으로 언어 모형을 결정하는 제 3단계; 신규 데이터가 수신되면 상기 제 3단계에서 결정된 언어 모형에 따라 분류하는 제 4단계; 상기 제 4단계에서 언어 모형에 따라 분류된 데이터에 대하여 컬럼 의미 분류를 결정하는 제 5단계; 상기 제 5단계에서 결정된 각 컬럼 의미에 대하여 개체명을 인식하는 제 6단계; 및 컬럼 의미 분류가 결정된 데이터를 시각화하는 제 7단계;를 포함하여 구성된다.
또한, 상기 컬럼 의미 분류를 결정하기 전에 상기 제 1단계에서 수신된 학습 데이터에 대하여 용어 분리와 용어 표준화 단계와, 신규 단어에 대한 단어 수집과 단어 표준화 단계를 더 포함하여 구성되고, 상기 용어 표준화 단계와 신규 단어 표준화 단계는 국문과 영문을 모두 포함하여 표준화하는 것을 특징으로 한다.
상기 제 3단계는, 상기 자연어 처리부를 포함하여 구성되고, 상기 학습 데이터 또는/ 및 신규 데이터에 대한 언어 모형을 결정하기 위한 자연어 처리 과정으로 전처리, 토크나이징(Tokenizing), 어휘 분석(Lexical analysis), 구문 분석(Syntactic analysis), 의미 분석(Semantic analysis)을 각각 거쳐 자연어 처리를 수행하는 것을 특징으로 한다.
상기와 같이 구성되고 작용되는 본 발명은, 데이터값의 특성 파악을 위해 기존의 과도한 시간과 인적 자원이 투입되는 것을 데이터 분석 기술을 활용하여 컬럼 특성을 자동으로 파악함으로써, 데이터 프로파일링 설정 및 데이터 품질 평가 수행 시간을 획기적으로 줄일 수 있는 효과가 있다.
도 1은 본 발명에 따른 컬럼 의미 분류 기반의 데이터 구조 분석을 통한 동적 데이터 분류 방법의 순서도,
도 2는 본 발명에 따른 컬럼 의미 분류 기반의 데이터 구조 분석을 통한 동적 데이터 분류 방법을 위한 시스템의 구성도,
도 3은 본 발명에 따른 컬럼 의미 분류 기반의 데이터 구조 분석을 통한 동적 데이터 분류 방법에서 컬럼 의미 분류의 예를 도시한 도면,
도 4는 본 발명에 따른 컬럼 의미 분류 기반의 데이터 구조 분석을 통한 동적 데이터 분류 방법에서 개체명 인식의 예를 나타낸 도면.
이하, 첨부된 도면을 참조하여 본 발명에 따른 컬럼 의미 분류 기반의 데이터 구조 분석을 통한 동적 데이터 분류 방법을 상세히 설명하면 다음과 같다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1개의 유닛이 2개 이상의 하드웨어를 이용하여 실현되어도 되고, 2개 이상의 유닛이 1개의 하드웨어에 의해 실현되어도 된다. 한편, '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, '~부'는 어드레싱 할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체 지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.
이하에서 언급되는 " 단말"은 네트워크를 통해 서버나 타 단말에 접속할 수 있는 컴퓨터나 휴대용 단말기로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop), VR HMD(예를 들어, HTC VIVE, Oculus Rift, GearVR, DayDream, PSVR 등) 등을 포함할 수 있다.
여기서, VR HMD는 PC용 (예를 들어, HTC VIVE, Oculus Rift, FOVE, Deepon 등)과 모바일용(예를 들어, GearVR, DayDream, 폭풍마경, 구글 카드보드 등) 그리고 콘솔용(PSVR)과 독립적으로 구현되는 Stand Alone 모델(예를 들어, Deepon, PICO 등) 등을 모두 포함한다. 휴대용 단말기는 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 스마트폰(smartphone), 태블릿 PC, 웨어러블 디바이스 뿐만 아니라, 블루투스(BLE, Bluetooth Low Energy), NFC, RFID, 초음파(Ultrasonic), 적외선, 와이파이(WiFi), 라이파이(LiFi) 등의 통신 모듈을 탑재한 각종 디바이스를 포함할 수 있다.
또한, "네트워크"는 단말들 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 근거리 통신망(LAN: Local Area Network), 광역 통신망(WAN: Wide Area Network), 인터넷 (WWW: World Wide Web), 유무선 데이터 통신망, 전화망, 유무선 텔레비전 통신망 등을 포함한다. 무선 데이터 통신망의 일례에는 3G, 4G, 5G, 3GPP(3rd Generation Partnership Project), LTE(Long Term Evolution), WIMAX(World Interoperability for Microwave Access), 와이파이(Wi-Fi), 블루투스 통신, 적외선 통신, 초음파 통신, 가시광 통신(VLC: Visible Light Communication), 라이파이(LiFi) 등이 포함되나 이에 한정되지는 않는다.
본 발명에 따른 컬럼 의미 분류 기반의 데이터 구조 분석을 통한 동적 데이터 분류 방법은, 입력된 데이터의 의미 분류를 처리하기 위하여 학습 데이터를 수신받는 제 1단계; 상기 제 1단계에서 수신된 학습 데이터에 대하여 의미별 컬럼 분류를 위하여 의미별 카테고리에 따라 컬럼을 부여하여 컬럼 의미 분류를 결정하는 제 2단계; 상기 제 2단계에서 결정된 컬럼 의미 분류에 따라 인공지능 기반으로 언어 모형을 결정하는 제 3단계; 신규 데이터가 수신되면 상기 제 3단계에서 결정된 언어 모형에 따라 분류하는 제 4단계; 상기 제 4단계에서 언어 모형에 따라 분류된 데이터에 대하여 컬럼 의미 분류를 결정하는 제 5단계; 상기 제 5단계에서 결정된 각 컬럼 의미에 대하여 개체명을 인식하는 제 6단계; 및 컬럼 의미 분류가 결정된 데이터를 시각화하는 제 7단계;를 포함하여 구성된다.
본 발명에 따른 컬럼 의미 분류 기반의 데이터 구조 분석을 통한 동적 데이터 분류 방법은, 빈번하게 변경되는 연속 공정산업의 동적(비정형) 데이터 소스로부터 받은 다양한 데이터(IoT, Sensor, Log 등)의 구조를 파악하고, 의미론적 분류를 이용하고 정보 연결을 위한 알고리즘을 적용하여 자동으로 비정형 데이터의 구조 파악이 가능한 딥러닝 기반의 자연어 처리(Natural Language Processing) 알고리즘을 이용한 컬럼 의미 분류 기반의 데이터 구조 분석을 통한 데이터 분류 방법을 주요 기술적 목적으로 한다.
도 1은 본 발명에 따른 컬럼 의미 분류 기반의 데이터 구조 분석을 통한 동적 데이터 분류 방법의 순서도이다.
본 발명에 따른 컬럼 의미 분류 기반의 데이터 분류 방법은 크게 제 1단계(S100) 내지 제 7단계(S700)로 구성되며, 제 1단계(S100) 내지 제 3단계(S300)는 컬럼 의미 분류를 위해 초기 입력된 학습 데이터를 기반으로 데이터 학습 기반의 과정에 해당되며, 상기 제 3단계(S300) 이후 제 4단계(S400) 내지 제 7단계(S700)는 학습 데이터를 기반을 신규 데이터가 입력되었을 때 컬럼 의미 분류 기반의 데이터 분류 과정을 구성하고 있는 것이다.
본 발명에 따른 데이터 분류 방법의 주요 기술적 요지로는 컬럼 의미 분류 기반을 통한 동적 데이터에 대한 분류 기준을 정의하여 산업 현장에서 사용되는 다양하나 동적 데이터(IoT, Sensor, Log, XML, JSON 등)의 비정형 데이터 소스를 수신받아 데이터 의미론적 분류를 이용하여 비정형 데이터의 구조를 자동으로 해석하는 것에 특징이 있다.
우선, 입력된 데이터의 의미 분류를 처리하기 위하여 학습 데이터를 수신받는 제 1단계(S100)를 구성한다. 상기 학습 데이터를 의미 분류를 정의하기 위해 학습을 위한 데이터에 해당되는 것으로, 여러 산업 설비/공장/기업 등으로부터 수집되는 학습 데이터는 최초 의미 특성을 학습하기 위한 기준값에 해당될 수 있는 것이다. 즉, 상기 학습 데이터를 인공지능 기반의 딥러닝 학습 시스템을 구현하기 위한 초기 데이터에 해당될 수 있으며, 이러한 학습 데이터를 계속적으로 반복 수신하여 학습 데이터를 딥러닝 할 수 있는 것이다.
다음으로, 상기 제 1단계(S100)에서 수신된 학습 데이터에 대하여 의미별 컬럼 분류를 위하여 의미별 카테고리에 따라 컬럼을 부여하여 컬럼 의미 분류를 결정하는 제 2단계(S200)이다.
본 발명에 따른 컬럼 의미 분류는 동일한 카테고리값을 값는 컬럼을 분류하기 위한 것으로, 컬럼의 예로는 전화번호, 날짜, 상품번호, 이메일, 성명, 주소, 회사명, 업무명, 고객정보 등 분류 기준에 해당될 수 있다. 즉, 컬럼 의미 분류를 수신된 학습 데이터에 대해 컬럼 의미를 분류하여 결정하는 것으로, 수신된 학습 데이터에 따라 컬럼 A ~ 컬럼 Z까지의 컬럼 의미를 분류할 수 있는 것이다.
이때, 상기 컬럼 의미 분류를 결정하기 전에 상기 제 1단계에서 수신된 학습 데이터에 대하여 용어 분리와 용어 표준화 단계와, 신규 단어에 대한 단어 수집과 단어 표준화 단계를 더 포함하여 구성되고, 상기 용어 표준화 단계와 신규 단어 표준화 단계는 국문과 영문을 모두 포함하여 표준화하는 것이 바람직하다.
상기 제 2단계(S200)에서 컬럼 의미 분류가 결정되면, 컬럼 의미 분류 기준에 따라 인공지능 기반으로 언어 모형을 결정하는 제 3단계(S300)이다. 언어 모형은 입력되는 수많은 학습 데이터를 컬럼 의미 분류 기준에 따라 분류하기 위해 다양한 언어에 대한 분류 기준에 해당된다. 다시 말해, 컬럼 의미 분류의 하위 그룹에 해당되는 언어 분류 기준으로써, 예를 들어 날짜의 경우 2023년 4월 10일에 대하여 "20230410", "230410", "23-4-10", "23/04/10"등 다양하게 입력될 수 있기 때문에 이들을 날짜 컬럼 의미 분류에 해당되도록 처리하는 것을 언어 모형의 결정이라 할 수 있다.
또한, 언어 모형의 예로 자연어 처리 기법이 해당될 수 있으며, 다양한 용어에 대해 컬럼 의미 기준으로 처리하기 위해 자연어 처리를 통해 언어 모형을 결정하여 컬럼 의미 분류를 처리할 수 있는 것이다.
위에서 설명한 바와 같이 상기 제 1단계(S100) 내지 제 3단계(S300)의 반복 과정을 통해 컬럼 의미 분류와 언어 모형이 결정되면 다음부터는 신규 데이터가 수신되면 언어 모형에 따라 분류하는 제 4단계(S400)를 처리한다. 신규 데이터가 전화번호에 해당되는지, 사람 이름에 해당되는지, 상품 코드에 해당되는지, 이메일 주소에 해당되는지에 따라서 언어 모형을 분류한 후 여기서 분류된 언어 모형에 따라 컬럼 의미 분류를 결정하는 제 5단계(S500)이다.
따라서, 본 발명은 학습 데이터를 기반으로 컬럼 의미 분류 기준과 언어 모형을 학습한 후 상기 제 4단계(S400)에 해당되는 신규 데이터 과정에서부터는 언어 모형과 컬럼 의미 분류 기준에 따라 입력된 데이터를 분류하게 되고 분류된 데이터에 대하여 각 컬럼 의미에 대하여 개체명을 인식하는 제 6단계(S600)를 구성한다.
개체명은 컬럼 분류에 해당되는 것으로, 아래 도 4에서 구체적으로 설명하겠지만, 입력된 데이터에 대하여 컬럼 의미를 태깅하는 과정에 해당된다.
마지막으로 컬럼 의미 분류가 결정된 데이터를 시각화하는 제 7단계(S700)로 구성된다. 상기 제 7단계는 의미별 컬럼과 연관된 데이터(텍스트, 이미지 등)를 시각화하는 것으로, 컬럼 의미 분류에 따라 파생되는 언어 모형을 시각화시킬 수 있는 것이다.
도 2는 본 발명에 따른 컬럼 의미 분류 기반의 데이터 구조 분석을 통한 동적 데이터 분류 방법을 위한 시스템의 구성도이다. 본 발명에 따른 컬럼 의미 분류 기반의 동적 데이터 분류를 위한 데이터 처리 시스템(100)은 외부에서 입력되는 학습 데이터나 신규 데이터를 입력받고 저장할 수 있는 데이터 입력부(110)와 입력된 데이터의 언어 모형을 결정하기 위한 자연어 처리부(120), 입력된 데이터의 컬럼 의미 분류를 분석하기 위한 컬럼 분석부(130)와 데이터 처리 시스템의 딥러닝을 처리하는 인공지능 처리부(140) 및 입력된 데이터의 개체명을 태깅하는 개체명 처리부(150)를 포함하여 구성된다.
상기 자연어 처리부(120)는 학습 데이터 또는/ 및 신규 데이터에 대한 언어 모형을 결정하기 위한 것으로, 자연어 처리는 크게 전처리, 토크나이징(Tokenizing), 어휘 분석(Lexical analysis), 구문 분석(Syntactic analysis), 의미 분석(Semantic analysis)의 과정을 거쳐 자연어를 처리한다.
상기 컬럼 분석부(130)는 사전에 정의된 컬럼 구조를 기반으로 입력된 데이터에 대하여 의미별 컬럼을 분류하여 컬럼 의미 분류를 결정하는 것이다.
상기 인공지능 처리부(140)는 신경망을 통해 상기 컬럼 분석부와 자연어 처리부에서 처리되는 데이터를 인공기능 기반으로 처리하며 이는 외부 시스템 또는 자체 시스템을 통해 구현될 수 있다.
도 3은 본 발명에 따른 컬럼 의미 분류 기반의 데이터 구조 분석을 통한 동적 데이터 분류 방법에서 컬럼 의미 분류의 예를 도시한 도면이다. 도시된 바와 같이 입력 컬럼 의미 분류의 기준으로 전화번호, 사람 이름, 회사 이름, 이메일 주소의 의미별 컬럼 기준이 결정되어 있으며, 외부에서 입력되는 입력 데이터는 컬럼 의미 분류 기준에 따라 컬럼을 분류하여 결정한다.
컬럼 의미 분류는 의미별 다양한 기준을 결정할 수 있으며, 앞서 설명한 바와 같이 언어 모형의 분류에 따라 입력된 데이터는 컬럼 의미 분류 기준에 따라 컬럼을 분류함으로써 입력된 데이터의 표준화를 구현할 수 있다. 특히, 본 발명은 비정형 데이터에 대하여 컬럼 의미 분류에 따라 분류함으로써 다양한 산업 현장에서 발생되는 비정형 데이터를 표준화하여 데이터의 품질을 개선시킬 수 있는 것이다.
도 4는 본 발명에 따른 컬럼 의미 분류 기반의 데이터 구조 분석을 통한 동적 데이터 분류 방법에서 개체명 인식의 예를 나타낸 도면이다.
컬럼 의미 분류 기준에 따라 입력된 데이터에 대하여 개체명이 태깅되며, 이러한 태깅 과정은 비정형 데이터에 대한 데이터 표준화 및 데이터 구조 분석에 대한 자동화 구현을 통해 데이터 품질 평가의 시간을 줄일 수 있다.
특히, 본 발명에서는 산업 설비/공정/기업 간 공유 데이터 표준화를 위하여 컬럼 의미 분류 기반의 동적 데이터 분류 기술을 제안하고 있는 것으로, 결과적으로 자동으로 데이터 구조 파악이 가능하기 때문에 산업 데이터 표준화 처리에서 매우 큰 장점을 가지고 있는 것이다.
이와 같이 구성되는 본 발명은 데이터 값의 특성 파악을 위해 기존의 과도한 시간과 인적 자원이 투입되는 것을 데이터 분석 기술을 활용하여 컬럼 특성을 자동으로 파악함으로써, 데이터 프로파일링 설정 및 데이터 품질 평가 수행 시간을 획기적으로 줄일 수 있는 효과가 있다.
이상, 본 발명의 원리를 예시하기 위한 바람직한 실시예와 관련하여 설명하고 도시하였지만, 본 발명은 그와 같이 도시되고 설명된 그대로의 구성 및 작용으로 한정되는 것이 아니다. 오히려, 첨부된 청구범위의 사상 및 범주를 일탈함이 없이 본 발명에 대한 다수의 변경 및 수정이 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서 그러한 모든 적절한 변경 및 수정과 균등물들도 본 발명의 범위에 속하는 것으로 간주되어야 할 것이다.
100 : 데이터 처리 시스템
110 : 데이터 입력부
120 : 자연어 처리부
130 : 컬럼 분석부
140 : 인공지능 처리부
150 : 개체명 처리부

Claims (3)

  1. 컴퓨팅 장치에 의해 수행되는 컬럼 의미 분류 기반의 데이터 구조 분석을 통한 동적 데이터 분류 방법에 있어서,
    입력된 데이터의 의미 분류를 처리하기 위하여 학습 데이터를 수신받는 제 1단계;
    상기 제 1단계에서 수신된 학습 데이터에 대하여 의미별 컬럼 분류를 위하여 의미별 카테고리에 따라 컬럼을 부여하여 컬럼 의미 분류를 결정하는 제 2단계;
    상기 제 2단계에서 결정된 컬럼 의미 분류에 따라 인공지능 기반으로 언어 모형을 결정하는 제 3단계;
    신규 데이터가 수신되면 상기 제 3단계에서 결정된 언어 모형에 따라 분류하는 제 4단계;
    상기 제 4단계에서 언어 모형에 따라 분류된 데이터에 대하여 컬럼 의미 분류를 결정하는 제 5단계;
    상기 제 5단계에서 결정된 각 컬럼 의미에 대하여 개체명을 인식하는 제 6단계; 및
    컬럼 의미 분류가 결정된 데이터를 시각화하는 제 7단계;를 포함하여 구성되고,
    상기 제 2단계는 상기 컬럼 의미 분류를 결정하기 전에 상기 제 1단계에서 수신된 학습 데이터에 대하여 용어 분리와 용어 표준화 단계와, 신규 단어에 대한 단어 수집과 단어 표준화 단계를 더 포함하여 구성되고,
    상기 용어 표준화 단계와 신규 단어 표준화 단계는 국문과 영문을 모두 포함하여 표준화하며,
    상기 제 3단계는, 상기 컴퓨팅 장치에 자연어 처리부를 포함하여 구성되고, 상기 학습 데이터 또는/ 및 신규 데이터에 대한 언어 모형을 결정하기 위한 자연어 처리 과정으로 전처리, 토크나이징(Tokenizing), 어휘 분석(Lexical analysis), 구문 분석(Syntactic analysis), 의미 분석(Semantic analysis)을 각각 거쳐 자연어 처리를 수행하는 것을 특징으로 하는 컬럼 의미 분류 기반의 데이터 구조 분석을 통한 동적 데이터 분류 방법.
  2. 삭제
  3. 삭제
KR1020230051063A 2023-04-19 2023-04-19 컬럼 의미 분류 기반의 데이터 구조 분석을 통한 동적 데이터 분류 방법 KR102590575B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230051063A KR102590575B1 (ko) 2023-04-19 2023-04-19 컬럼 의미 분류 기반의 데이터 구조 분석을 통한 동적 데이터 분류 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230051063A KR102590575B1 (ko) 2023-04-19 2023-04-19 컬럼 의미 분류 기반의 데이터 구조 분석을 통한 동적 데이터 분류 방법

Publications (1)

Publication Number Publication Date
KR102590575B1 true KR102590575B1 (ko) 2023-10-17

Family

ID=88557548

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230051063A KR102590575B1 (ko) 2023-04-19 2023-04-19 컬럼 의미 분류 기반의 데이터 구조 분석을 통한 동적 데이터 분류 방법

Country Status (1)

Country Link
KR (1) KR102590575B1 (ko)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101247307B1 (ko) 2008-05-19 2013-03-25 재단법인서울대학교산학협력재단 데이터 분류를 위한 데이터 처리 방법, 상기 방법을 기록한기록 매체, 및 상기 방법을 실행하는 데이터 처리 장치
KR101408345B1 (ko) 2009-12-14 2014-06-17 서울대학교산학협력단 데이터 분류를 위한 데이터 처리 장치 및 방법, 상기 방법을 기록한 기록 매체
KR20150066160A (ko) * 2013-12-06 2015-06-16 주식회사 케이티 비지도 학습을 통한 개체명 사전 구축 방법 및 시스템
KR101588431B1 (ko) 2014-03-13 2016-01-25 서울대학교산학협력단 다양체 학습에 기반한 데이터 분류 방법
KR101843066B1 (ko) 2017-08-23 2018-05-15 주식회사 뷰노 기계 학습에 있어서 데이터 확대를 이용하여 데이터의 분류를 수행하는 방법 및 이를 이용한 장치
KR101913191B1 (ko) * 2018-07-05 2018-10-30 미디어젠(주) 도메인 추출기반의 언어 이해 성능 향상장치및 성능 향상방법
KR102008845B1 (ko) 2017-11-30 2019-10-21 굿모니터링 주식회사 비정형 데이터의 카테고리 자동분류 방법
KR102175176B1 (ko) 2017-12-29 2020-11-06 한양대학교 산학협력단 문자 종류 개수에 기반한 데이터 구분 방법, 데이터 분류기 및 스토리지 시스템
KR102193228B1 (ko) * 2020-02-19 2020-12-18 주식회사 페어랩스 딥러닝 기반 비재무정보 평가 장치 및 그 방법
KR102367859B1 (ko) 2017-06-07 2022-02-25 주식회사 케이티 특징 벡터를 이용하여 데이터를 분류하는 장치 및 방법
KR20220116086A (ko) * 2021-02-13 2022-08-22 고휘석 텍스트 데이터의 수집·정제 시스템 및 방법, 그 방법을 수행하기 위한 기록 매체
KR102459971B1 (ko) 2021-01-22 2022-10-27 네이버 주식회사 비편향 분류를 위한 파라미터 크기 불변 분류기를 이용하여 데이터를 분류하는 방법 및 시스템
KR102461857B1 (ko) 2020-07-31 2022-11-02 주식회사 대림 건설현장에서 수집된 다수의 데이터의 활용을 위한 데이터 분류 시스템
KR102465571B1 (ko) 2021-12-21 2022-11-11 주식회사 티맥스에이아이 문서 데이터의 주제어 분류를 수행하는 기법
KR102496030B1 (ko) 2020-08-13 2023-02-07 주식회사 아이오코드 데이터 분류를 위한 강화 학습 장치 및 방법

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101247307B1 (ko) 2008-05-19 2013-03-25 재단법인서울대학교산학협력재단 데이터 분류를 위한 데이터 처리 방법, 상기 방법을 기록한기록 매체, 및 상기 방법을 실행하는 데이터 처리 장치
KR101408345B1 (ko) 2009-12-14 2014-06-17 서울대학교산학협력단 데이터 분류를 위한 데이터 처리 장치 및 방법, 상기 방법을 기록한 기록 매체
KR20150066160A (ko) * 2013-12-06 2015-06-16 주식회사 케이티 비지도 학습을 통한 개체명 사전 구축 방법 및 시스템
KR101588431B1 (ko) 2014-03-13 2016-01-25 서울대학교산학협력단 다양체 학습에 기반한 데이터 분류 방법
KR102367859B1 (ko) 2017-06-07 2022-02-25 주식회사 케이티 특징 벡터를 이용하여 데이터를 분류하는 장치 및 방법
KR101843066B1 (ko) 2017-08-23 2018-05-15 주식회사 뷰노 기계 학습에 있어서 데이터 확대를 이용하여 데이터의 분류를 수행하는 방법 및 이를 이용한 장치
KR102008845B1 (ko) 2017-11-30 2019-10-21 굿모니터링 주식회사 비정형 데이터의 카테고리 자동분류 방법
KR102175176B1 (ko) 2017-12-29 2020-11-06 한양대학교 산학협력단 문자 종류 개수에 기반한 데이터 구분 방법, 데이터 분류기 및 스토리지 시스템
KR101913191B1 (ko) * 2018-07-05 2018-10-30 미디어젠(주) 도메인 추출기반의 언어 이해 성능 향상장치및 성능 향상방법
KR102193228B1 (ko) * 2020-02-19 2020-12-18 주식회사 페어랩스 딥러닝 기반 비재무정보 평가 장치 및 그 방법
KR102461857B1 (ko) 2020-07-31 2022-11-02 주식회사 대림 건설현장에서 수집된 다수의 데이터의 활용을 위한 데이터 분류 시스템
KR102496030B1 (ko) 2020-08-13 2023-02-07 주식회사 아이오코드 데이터 분류를 위한 강화 학습 장치 및 방법
KR102459971B1 (ko) 2021-01-22 2022-10-27 네이버 주식회사 비편향 분류를 위한 파라미터 크기 불변 분류기를 이용하여 데이터를 분류하는 방법 및 시스템
KR20220116086A (ko) * 2021-02-13 2022-08-22 고휘석 텍스트 데이터의 수집·정제 시스템 및 방법, 그 방법을 수행하기 위한 기록 매체
KR102465571B1 (ko) 2021-12-21 2022-11-11 주식회사 티맥스에이아이 문서 데이터의 주제어 분류를 수행하는 기법

Similar Documents

Publication Publication Date Title
WO2018036239A1 (zh) 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统
WO2020207167A1 (zh) 文本分类方法、装置、设备及计算机可读存储介质
WO2018184518A1 (zh) 微博数据处理方法、装置、计算机设备及存储介质
KR102146546B1 (ko) 상황인지 기반의 기업주가예측 알고리즘 제공 방법
CN111931859B (zh) 一种多标签图像识别方法和装置
WO2020253506A1 (zh) 合同内容的提取方法及装置、计算机设备、存储介质
CN113986864A (zh) 日志数据处理方法、装置、电子设备及存储介质
CN111950279A (zh) 实体关系的处理方法、装置、设备及计算机可读存储介质
CN114091472A (zh) 多标签分类模型的训练方法
CN115953788A (zh) 基于ocr和nlp技术的绿色金融属性智能认定方法及系统
CN113705192B (zh) 文本处理方法、装置与存储介质
CN112579730A (zh) 高扩展性、多标签的文本分类方法和装置
CN107368923B (zh) 景点热度预测方法及装置
KR102590575B1 (ko) 컬럼 의미 분류 기반의 데이터 구조 분석을 통한 동적 데이터 분류 방법
CN112685374B (zh) 日志分类方法、装置及电子设备
KR102590576B1 (ko) 데이터 의미론적 분류를 이용한 동적 데이터 구조 검색 방법
CN116881395A (zh) 一种舆情信息检测方法和装置
Heidari et al. Financial footnote analysis: developing a text mining approach
Babu et al. Multiclass sentiment analysis in text and emoticons of Twitter data: A review
CN110879821A (zh) 评分卡模型衍生标签生成方法、装置、设备及存储介质
CN114417974B (zh) 模型训练方法、信息处理方法、装置、电子设备和介质
CN114417029A (zh) 模型训练方法、装置、电子设备及存储介质
US20220129795A1 (en) Systems and methods for cognitive information mining
CN114741483A (zh) 数据识别的方法和装置
KR102215259B1 (ko) 주제별 단어 또는 문서의 관계성 분석 방법 및 이를 구현하는 장치

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant