KR20190061984A - 딥러닝을 이용한 분류코드 추천 시스템 - Google Patents
딥러닝을 이용한 분류코드 추천 시스템 Download PDFInfo
- Publication number
- KR20190061984A KR20190061984A KR1020170160920A KR20170160920A KR20190061984A KR 20190061984 A KR20190061984 A KR 20190061984A KR 1020170160920 A KR1020170160920 A KR 1020170160920A KR 20170160920 A KR20170160920 A KR 20170160920A KR 20190061984 A KR20190061984 A KR 20190061984A
- Authority
- KR
- South Korea
- Prior art keywords
- information
- processing information
- module
- code
- processing
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G06F17/2755—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 딥러닝을 이용한 분류코드 추천 시스템에 관한 것으로, 본 발명의 실시예에 의하면, 딥러닝 인공지능 기술을 이용하여 분류코드(산업분류코드, 직업분류코드 등)를 추천할 수 있도록 함으로써, 종래 비전문인력이 분류코드를 설정함에 따른 높은 오류율 발생, 일관성 결여 문제 등을 해결할 수 있는 효과가 있다.
또한, 분류코드 추천의 정확성, 신뢰성을 높일 수 있고, 통계 업무에서 딥러닝 기술 적용에 따른 투입 인력 감소 및 소요 예산 절감의 효과가 있다.
또한, 분류코드 추천의 정확성, 신뢰성을 높일 수 있고, 통계 업무에서 딥러닝 기술 적용에 따른 투입 인력 감소 및 소요 예산 절감의 효과가 있다.
Description
본 발명은 딥러닝을 이용한 분류코드 추천 시스템에 관한 것이다.
산업(産業)은 유사한 성질을 갖는 산업 활동에 주로 종사하는 생산단위의 집합이며, 산업 활동은 각 생산단위가 노동, 자본, 원료 등 자원을 투입하여 재화 또는 서비스를 생산 또는 제공하는 일련의 활동과정을 말한다.
이러한 산업 활동을 사업체, 기업체 등 생산단위가 주로 수행하는 산업 활동의 유사성을 기준으로 체계적으로 분류한 것이 한국표준산업분류인데, 이는 그 형태에 따라 일반적으로 1, 2, 3차 산업으로 분류되고 있으며, 1차 산업은 자원을 채취 또는 생산하는 농업과 임업 및 수산업이 이에 해당되고, 2차 산업은 자원을 제조 및 가공하는 광업과 제조업이 이에 해당되며, 3차 산업은 1, 2차 산업에서 생산된 물자를 수송 및 판매하는 건설, 교통, 운수, 상업, 공무, 자유업 등이 이에 해당된다.
그리고 최근에는 3차 산업을 다시 세분화하여 개인 서비스업, 사무업 및 판매업은 3차 산업으로 분류하고, 정보 통신, 금융, 공무, 의료, 연예 및 교육업을 4차 산업으로, 유전공학, 생명공학 및 우주항공 등과 같은 전문연구 개발업을 5차 산업으로 분류하고 있으며, 이러한 1, 2, 3, 4, 5차 산업은 각각 다시 대분류, 중분류, 소분류 및 세분류로 더욱 세분화되기도 한다.
이러한 한국표준산업분류(이하 '산업분류 코드'라 한다)는 알파벳과 숫자를 혼합하여 표기되는데, 아래의 표 1에서와 같이 대분류는 알파벳을 사용하고 중분류에는 알파벳에 2자리 숫자를 더하여 표기하며, 소분류에는 앞서 표기된 알파벳과 2자리 숫자에 1자리 숫자를 더하여 총 3자리의 숫자로 표기되고, 세분류는 앞선 알파벳과 3자리 숫자에 1자리 숫자를 더하여 총 4자리의 숫자로 표기되며, 세세분류는 앞선 알파벳과 3자리 숫자에 1자리 숫자를 더하여 총 5자리의 숫자로 표기되며, 대분류의 영문자 알파벳의 경우 표기 시 생략 가능하도록 규정하고 있다.
A | 농업, 임업, 어업 |
A01 | 농업 |
A011 | 작물재배업 |
A0111 | 곡물 및 기타 식량작물 재배업 |
A01110 | 곡물 및 기타 식량작물 재배업 |
이와 같이 생산 활동을 산업분류 코드로 분류하는 데에는 산업 활동의 통계 자료의 수집, 제표, 분석 등을 위해 활동 카테고리를 제공하기 위한 것으로, 통계법에서는 산업통계의 자료의 정확성, 비교를 위하여 모든 통계작성기관이 이 산업분류 코드를 의무적으로 사용하도록 규정하고 있다.
이러한 이유로 사업자 등은 자신의 생산물품 또는 입찰참여 대상 물품 등에 대한 산업분류 코드를 정확하게 확인하기 위해 해당 기관에 문의하기도 하는데, 이때 해당 기관의 담당자는 정확한 산업분류 코드를 질의자에게 제공하기 위해 산업분류 기준에 규정된 대분류, 중분류, 소분류, 세분류 및 세세분류에 맞추어 질의하여야 하고, 질의자는 이에 일일이 답하여야 하므로 최종 산업분류 코드를 결정하기까지 상당한 시간이 소요될 수밖에 없고, 이 때문에 통화가 몰리는 경우에는 통화가 연결되지 않아 대기하는 시간도 길어질 뿐만 아니라 민원이 발생하여 전화응답을 위한 담당자를 추가로 배치하여야 하는 문제가 있으며, 최근에는 웹사이트 등에 산업분류 코드 검색사이트를 마련하여 놓고, 이 검색사이트를 통해 이용자가 직접 산업분류 코드를 검색할 것을 권장하고 있다.
그러나 이용자가 인터넷 웹사이트를 통해 산업 분류코드를 검색하기 위해서는 이용자 자신의 사업 또는 생산의 활동 전과 활동 후의 활동결과 또는 생산물에 대해 상세히 파악하여 키워드(keyword)를 결정한 다음, 이 키워드를 검색엔진에 입력함으로써 적절한 산업분류 코드를 찾아내어야 하는데, 이때 사용자가 입력한 키워드가 산업분류 코드별로 할당된 품목 명칭과 정확하게 일치하지 않는 경우에는 산업분류 코드가 제대로 검색되지 않는 문제가 있다.
상기와 같은 문제를 해결하기 위한 선행기술로서 한국공개특허공보 제10-2000-050214호(산업정보 등록 방법, 검색방법, 그리고 이에 적합한 장치)를 들 수 있는데, 이 문헌에 개시된 기술은 표준산업분류 데이터베이스, 산업정보데이터베이스 등을 마련하여 놓고, 사용자로 하여금 표준산업분류체계에 따라 산업정보(색인어)를 등록할 수 있도록 하고, 아울러 등록된 산업정보를 이용하여 검색할 수 있도록 함으로써 산업분류 코드를 쉽게 찾을 수 있도록 한 것이다.
그러나 사용자가 입력한 검색 키워드와 데이터베이스에 등록된 색인어가 서로 다른 경우에는 여전히 제대로 검색할 수 없고, 또한 등록된 색인어 자체가 오류를 포함하고 있는 경우 오히려 혼란을 가중시킬 수 있는 문제가 있다.
이에 본 발명은 전술한 배경에서 안출된 것으로, 딥러닝 인공지능 기술을 이용하여 분류코드(산업분류코드, 직업분류코드 등)를 추천할 수 있도록 함으로써, 종래 비전문인력이 분류코드를 설정함에 따른 높은 오류율 발생, 일관성 결여 문제 등을 해결할 수 있는 딥러닝을 이용한 분류코드 추천 시스템을 제공하는데 그 목적이 있다.
또한, 분류코드 추천의 정확성, 신뢰성을 높일 수 있고, 통계 업무에서 딥러닝 기술 적용에 따른 투입 인력 감소 및 소요 예산 절감을 도모할 수 있는 딥러닝을 이용한 분류코드 추천 시스템을 제공하는데 그 목적이 있다.
본 발명의 목적은 여기에 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
이러한 목적을 달성하기 위하여 본 발명의 일실시예는 입력되는 텍스트정보(TI)를 전처리과정(PP)을 통해 제1처리정보(PI_1)로 변환하는 전처리모듈(101); 상기 전처리모듈(101)로부터 상기 제1처리정보(PI_1)를 입력받고, 기저장된 사전데이터베이스부(103)의 사전코드정보(DCI)와 비교하여, 상기 제1처리정보(PI_1)와 상기 사전코드정보(DCI)의 일치시, 상기 제1처리정보(PI_1)를 분류코드정보(CCI)로 출력하는 기분석모듈(105); 상기 제1처리정보(PI_1)와 상기 사전코드정보(DCI)의 불일치시, 상기 기분석모듈(105)로부터 상기 제1처리정보(PI_1)를 입력받고, 딥러닝을 통해 구축되어 저장된 학습코드정보(SCI)와 상기 제1처리정보(PI_1)를 비교하여, 상기 학습코드정보(SCI)와 상기 제1처리정보(PI_1)의 일치시, 상기 학습코드정보(SCI)를 제2처리정보(PI_2)로 출력하는 기계학습기반모듈(107); 및 상기 기계학습기반모듈(107)로부터 상기 제2처리정보(PI_2)를 입력받고, 포함 또는 제외 처리과정을 통해 제3처리정보(PI_3)를 생성하며, 상기 제3처리정보(PI_3)와 상기 사전데이터베이스부(103)의 상기 사전코드정보(DCI)를 비교하여, 상기 제3처리정보(PI_3)와 상기 사전코드정보(DCI)의 일치시, 상기 제3처리정보(PI_3)를 상기 분류코드정보(CCI)로 출력하는 규칙체크모듈(109);을 포함하는 것을 특징으로 하는 딥러닝을 이용한 분류코드 추천 시스템을 제공한다.
또한, 입력되는 텍스트정보(TI)를 전처리과정(PP)을 통해 제1처리정보(PI_1)로 변환하는 전처리모듈(101); 상기 전처리모듈(101)로부터 상기 제1처리정보(PI_1)를 입력받고, 기저장된 사전데이터베이스부(103)의 사전코드정보(DCI)와 비교하여, 상기 제1처리정보(PI_1)와 상기 사전코드정보(DCI)의 일치시, 상기 제1처리정보(PI_1)를 분류코드정보(CCI)로 출력하는 기분석모듈(105); 상기 제1처리정보(PI_1)와 상기 사전코드정보(DCI)의 불일치시, 상기 기분석모듈(105)로부터 상기 제1처리정보(PI_1)를 입력받고, 딥러닝을 통해 구축되어 저장된 학습코드정보(SCI)와 상기 제1처리정보(PI_1)를 비교하여, 상기 학습코드정보(SCI)와 상기 제1처리정보(PI_1)의 일치시, 상기 학습코드정보(SCI)를 제2처리정보(PI_2)로 출력하는 기계학습기반모듈(107); 및 상기 기계학습기반모듈(107)로부터 상기 제2처리정보(PI_2)를 입력받고, 상기 제2처리정보(PI_2)를 기저장된 텍스트빈도정보(TFI) 또는 코드빈도정보(CFI)를 기반으로 매칭하여 제3처리정보(3_PI)를 생성하며, 생성된 상기 제3처리정보(3_PI)를 상기 분류코드정보(CCI)로 출력하는 통계기반모듈(301);을 포함하는 것을 특징으로 하는 딥러닝을 이용한 분류코드 추천 시스템을 제공한다.
본 발명의 실시예에 의하면, 딥러닝 인공지능 기술을 이용하여 분류코드(산업분류코드, 직업분류코드 등)를 추천할 수 있도록 함으로써, 종래 비전문인력이 분류코드를 설정함에 따른 높은 오류율 발생, 일관성 결여 문제 등을 해결할 수 있는 효과가 있다.
또한, 분류코드 추천의 정확성, 신뢰성을 높일 수 있고, 통계 업무에서 딥러닝 기술 적용에 따른 투입 인력 감소 및 소요 예산 절감의 효과가 있다.
도 1은 본 발명의 일실시예에 따른 딥러닝을 이용한 분류코드 추천 시스템의 블록도이다.
도 2는 전처리과정의 예들을 나타낸 도면이다.
도 3은 본 발명의 다른 실시예에 따른 딥러닝을 이용한 분류코드 추천 시스템의 블록도이다.
도 2는 전처리과정의 예들을 나타낸 도면이다.
도 3은 본 발명의 다른 실시예에 따른 딥러닝을 이용한 분류코드 추천 시스템의 블록도이다.
이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
또한, 본 발명의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 또는 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.
도 1은 본 발명의 일실시예에 따른 딥러닝을 이용한 분류코드 추천 시스템의 블록도이다.
도 2는 전처리과정의 예들을 나타낸 도면이다.
도 3은 본 발명의 다른 실시예에 따른 딥러닝을 이용한 분류코드 추천 시스템의 블록도이다.
이들 도면들에 도시된 바와 같이, 본 발명의 실시예에 따른 딥러닝을 이용한 분류코드 추천 시스템(100)은, 입력되는 텍스트정보(TI)를 전처리과정(PP, Preprocessing)을 통해 제1처리정보(PI_1)로 변환하는 전처리모듈(101); 전처리모듈(101)로부터 제1처리정보(PI_1)를 입력받고, 기저장된 사전데이터베이스부(103)의 사전코드정보(DCI)와 비교하여, 제1처리정보(P1_1)와 사전코드정보(DCI)의 일치시, 제1처리정보(PI_1)을 분류코드정보(CCI)로 출력하는 기분석모듈(105); 제1처리정보(PI_1)와 사전코드정보(DCI)의 불일치시, 기분석모듈(105)로부터 제1처리정보(PI_1)을 입력받고, 딥러닝을 통해 구축되어 저장된 학습코드정보(SCI)와, 제1처리정보(PI_1)을 비교하여, 학습코드정보(SCI)와 제1처리정보(PI_1)의 일치시, 학습코드정보(SCI)를 제2처리정보(PI_2)로 출력하는 기계학습기반모듈(107); 및 기계학습기반모듈(107)로부터 제2처리정보(PI_2)를 입력받고, 포함 또는 제외 처리과정을 통해 제3처리정보(PI_3)를 생성하며, 제3처리정보(PI_3)와 사전데이터베이스부(103)의 사전코드정보(DCI)를 비교하여, 제3처리정보(PI_3)와 사전코드정보(DCI)의 일치시, 제3처리정보(PI_3)를 분류코드정보(CCI)로 출력하는 규칙체크모듈(109);을 포함하는 것을 특징으로 한다.
이하, 각 구성에 대해 설명한다.
먼저, 전처리모듈(101)은 입력되는 텍스트정보(TI)를 전처리과정(PP)을 통해 제1처리정보(PI_1)로 변환한다.
여기서, 전처리과정(PP)은, 일예로, 특수문자제거과정, 정규화 과정, 형태소분석을 이용한 자연어처리과정 중 적어도 하나 이상을 포함한다.
일예로, 「"벼" 재배」라는 텍스트정보(TI)가 입력된 경우, 전처리모듈(101)은 전처리 과정(PP)을 통해 「벼 재배」라는 제1처리정보(PI_1)로 변환한다.
이어서, 기분석모듈(105)은 전처리모듈(101)로부터 제1처리정보(PI_1)를 입력받고, 기저장된 사전데이터베이스부(103)의 사전코드정보(DCI)와 비교한다.
여기서, 사전데이터베이스부(103)에 저장된 사전코드정보(DCI)는, 자주 등장하면서도 명확한 케이스, 희귀하지만 명확한 케이스들에 대한 정답을 보장하는 기능을 수행한다.
이러한 사전데이터베이스부(103)에 저장된 사전코드정보(DCI)는 주기적으로 업데이트될 수 있다.
또한, 사전코드정보(DCI)는, 정규식 re 모듈이 이용되어 정규식 문법에 기반하여 생성될 수 있다.
여기서, 정규식 re 모듈로 re.match 가 이용될 수 있다.
(일예로, '벼 재배'가 정확히 매칭되는 규칙으로 ^벼 재배$)
한편, 기분석모듈(105)은 전처리모듈(101)로부터 입력된 제1처리정보(PI_1)와 사전코드정보(DCI)의 비교 결과, 일치로 판단한 경우, 제1처리정보(PI_1)를 분류코드정보(CCI)로 출력한다.
좀 더 구체적으로, 제1처리정보(PI_1)가 사전데이터베이스부(103)에 저장되어 있는 사전코드정보(DCI)와 일치하는 경우, 기분석모듈(105)은 제1처리정보(PI_1)를 최종적인 분류코드정보(CCI)로 설정하고 출력한다.
일예로, 사전코드정보(DCI)가 "벼 재배 --> 1110'으로 저장되어 있는 경우, 기분석모듈(105)은 제1처리정보(PI_1)(벼 재배)를 분류코드정보(CCI)(1110)로 출력한다.
이어서, 기계학습기반모듈(107)은 제1처리정보(PI_1)와 사전코드정보(DCI)의 불일치시, 기분석모듈(105)로부터 제1처리정보(PI_1)를 입력받는다.
그리고 기계학습기반모듈(107)은 딥러닝(DEEP LEARNING)을 통해 구축되어 저장된 학습코드정보(SCI)와 제1처리정보(PI_1)를 비교한다.
여기서, 딥러닝(DEEP LEARNING)이란 컴퓨터가 여러 데이터를 이용해 마치 사람처럼 스스로 학습할 수 있게 하기 위해 인공 신경망(ANN : Artificial Neural Network)을 기반으로 구축한 기계 학습 기술이다.
이러한 딥러닝 기술을 적용하면 사람이 모든 판단 기준을 정해주지 않아도 컴퓨터가 스스로 인지, 추론, 판단할 수 있다.
한편, 상술한 딥러닝(DEEP LEARNING) 기술의 일예는, 아래 웹사이트를 참고할 수 있다.
https://github.com/dennybritz/cnn-text-classification-tf
그리고 상술한 학습코드정보(SCI)는 대용량 데이터를 기반으로 딥러닝 기술에 의해 학습되어 예측된 코드정보이다.
더불어, 기계학습기반모듈(107)은 학습코드정보(SCI)와 제1처리정보(PI_1)를 비교하여, 학습코드정보(SCI)와 제1처리정보(PI_1)의 일치시, 학습코드정보(SCI)를 제2처리정보(PI_2)로 출력한다.
즉, 제2처리정보(PI_2)는, 딥러닝 기술에 의해 학습되어 예측된 코드정보인 바, 따라서 제2처리정보(PI_2) 역시 딥러닝 기술에 의해 학습되어 예측된 코드정보와 매칭된다.
이어서, 규칙체크모듈(109)은 기계학습기반모듈(107)로부터 제2처리정보(PI_2)를 입력받고, 포함 또는 제외 처리과정을 통해 제3처리정보(PI_3)를 생성한다.
일예로, '마늘'의 경우 향신료 기능 또는 항균 기능이 있는 바, 향신료(포함), 항균(제외) 처리과정을 통해 향신료로 기능하는 마늘에 대한 제3처리정보(PI_3)를 생성할 수 있다.
그리고 규칙체크모듈(109)은 제3처리정보(PI_3)와 사전데이터베이스부(103)의 사전코드정보(DCI)를 비교하여, 제2처리정보(PI_3)와 사전코드정보(DCI)의 일치시, 제3처리정보(PI_3)를 분류코드정보(CCI)로 출력한다.
즉, 규칙체크모듈(109)은 최초 입력된 텍스트정보(TI)에 대해, 기분석모듈(105)로 분류코드정보(CCI)가 출력되지 않은 경우, 딥러닝 기반 기계학습기반모듈(107)에 의해 출력된 제2처리정보(PI_2)를, 포함 또는 제외 처리과정에 의해 제3처리정보(PI_3)로 생성한 후, 제3처리정보(PI_3)와 사전코드정보(DCI)를 비교하여 최종 분류코드정보(CCI)를 출력한다.
한편, 본 발명의 다른 실시예에 따른 딥러닝을 이용한 분류코드 추천 시스템(300)은, 입력되는 텍스트정보(TI)를 전처리과정(PP, Preprocessing)을 통해 제1처리정보(PI_1)로 변환하는 전처리모듈(101); 전처리모듈(101)로부터 제1처리정보(PI_1)를 입력받고, 기저장된 사전데이터베이스부(103)의 사전코드정보(DCI)와 비교하여, 제1처리정보(P1_1)와 사전코드정보(DCI)의 일치시, 제1처리정보(PI_1)을 분류코드정보(CCI)로 출력하는 기분석모듈(105); 제1처리정보(PI_1)와 사전코드정보(DCI)의 불일치시, 기분석모듈(105)로부터 제1처리정보(PI_1)을 입력받고, 딥러닝을 통해 구축되어 저장된 학습코드정보(SCI)와, 제1처리정보(PI_1)을 비교하여, 학습코드정보(SCI)와 제1처리정보(PI_1)의 일치시, 학습코드정보(SCI)를 제2처리정보(PI_2)로 출력하는 기계학습기반모듈(107); 및 기계학습기반모듈(107)로부터 제2처리정보(PI_2)를 입력받고, 제2처리정보(PI_2)를 기저장된 텍스트빈도정보(TFI) 또는 코드빈도정보(CFI)를 기반으로 매칭하여 제3처리정보(3_PI)를 생성하며, 생성된 제3처리정보(3_PI)를 분류코드정보(CCI)로 출력하는 통계기반모듈(301);을 포함하는 것을 특징으로 한다.
본 발명의 다른 실시예에 따른 딥러닝을 이용한 분류코드 추천 시스템(300)의 경우, 전처리모듈(101), 기분석모듈(105), 기계학습기반모듈(107) 등은 앞에서 설명한 바를 참고할 수 있으므로, 이하 통계기반모듈(301)에 대해 설명한다.
통계기반모듈(301)은 기계학습기반모듈(107)로부터 제2처리정보(PI_2)를 입력받는다.
물론, 앞에서 설명한 바와 같이, 제2처리정보(PI_2)는, 딥러닝 기술에 의해 학습되어 예측된 코드정보인 바, 따라서 제2처리정보(PI_2) 역시 딥러닝 기술에 의해 학습되어 예측된 코드정보와 매칭된다.
한편, 통계기반모듈(301)은 제2처리정보(PI_2)를 기저장된 텍스트빈도정보(TFI) 또는 코드빈도정보(CFI)를 기반으로 매칭하여 제3처리정보(3_PI)를 생성한다.
좀 더 구체적으로, 통계기반모듈(301)은 TOP-N개의 label 선정, 주어진 텍스트정보(제2처리정보(PI_2)) 대비 N개의 label의 유사도 계산, 1등이 복수개인 경우 더 큰 빈도수의 label 선택 등의 과정을 통해 제3처리정보(3_PI)를 생성한다.
또한, 통계기반모듈(301)은 생성된 제3처리정보(3_PI)를 분류코드정보(CCI)로 출력한다.
이상에서 설명한 바와 같이, 본 발명의 실시예에 의하면, 딥러닝 인공지능 기술을 이용하여 분류코드(산업분류코드, 직업분류코드 등)를 추천할 수 있도록 함으로써, 종래 비전문인력이 분류코드를 설정함에 따른 높은 오류율 발생, 일관성 결여 문제 등을 해결할 수 있는 효과가 있다.
또한, 분류코드 추천의 정확성, 신뢰성을 높일 수 있고, 통계 업무에서 딥러닝 기술 적용에 따른 투입 인력 감소 및 소요 예산 절감의 효과가 있다.
이상에서, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.
또한, 이상에서 기재된 "포함하다", "구성하다" 또는 "가지다" 등의 용어는, 특별히 반대되는 기재가 없는 한, 해당 구성 요소가 내재될 수 있음을 의미하는 것이므로, 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것으로 해석되어야 한다. 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥 상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100 : 딥러닝을 이용한 분류코드 추천 시스템
101 : 전처리모듈
103 : 사전데이터베이스부
105 : 기분석모듈
107 : 기계학습기반모듈
109 : 규칙체크모듈
TI : 텍스트정보
PP : 전처리과정
PI_1 : 제1처리정보
PI_2 : 제2처리정보
PI_3, 3_PI : 제3처리정보
DCI : 사전코드정보
CCI : 분류코드정보
SCI : 학습코드정보
101 : 전처리모듈
103 : 사전데이터베이스부
105 : 기분석모듈
107 : 기계학습기반모듈
109 : 규칙체크모듈
TI : 텍스트정보
PP : 전처리과정
PI_1 : 제1처리정보
PI_2 : 제2처리정보
PI_3, 3_PI : 제3처리정보
DCI : 사전코드정보
CCI : 분류코드정보
SCI : 학습코드정보
Claims (6)
- 입력되는 텍스트정보(TI)를 전처리과정(PP)을 통해 제1처리정보(PI_1)로 변환하는 전처리모듈(101);
상기 전처리모듈(101)로부터 상기 제1처리정보(PI_1)를 입력받고, 기저장된 사전데이터베이스부(103)의 사전코드정보(DCI)와 비교하여, 상기 제1처리정보(PI_1)와 상기 사전코드정보(DCI)의 일치시, 상기 제1처리정보(PI_1)를 분류코드정보(CCI)로 출력하는 기분석모듈(105);
상기 제1처리정보(PI_1)와 상기 사전코드정보(DCI)의 불일치시, 상기 기분석모듈(105)로부터 상기 제1처리정보(PI_1)를 입력받고, 딥러닝을 통해 구축되어 저장된 학습코드정보(SCI)와 상기 제1처리정보(PI_1)를 비교하여, 상기 학습코드정보(SCI)와 상기 제1처리정보(PI_1)의 일치시, 상기 학습코드정보(SCI)를 제2처리정보(PI_2)로 출력하는 기계학습기반모듈(107); 및
상기 기계학습기반모듈(107)로부터 상기 제2처리정보(PI_2)를 입력받고, 포함 또는 제외 처리과정을 통해 제3처리정보(PI_3)를 생성하며, 상기 제3처리정보(PI_3)와 상기 사전데이터베이스부(103)의 상기 사전코드정보(DCI)를 비교하여, 상기 제3처리정보(PI_3)와 상기 사전코드정보(DCI)의 일치시, 상기 제3처리정보(PI_3)를 상기 분류코드정보(CCI)로 출력하는 규칙체크모듈(109);
을 포함하는 것을 특징으로 하는 딥러닝을 이용한 분류코드 추천 시스템. - 제 1 항에 있어서,
상기 전처리과정(PP)은,
특수문자제거과정, 정규화과정, 형태소분석을 이용한 자연어처리과정 중 적어도 하나 이상을 포함하는 것을 특징으로 하는 딥러닝을 이용한 분류코드 추천 시스템. - 제 2 항에 있어서,
상기 사전코드정보(DCI)는,
정규식 re 모듈이 이용되어 정규식 문법에 기반하여 생성된 것을 특징으로 하는 딥러닝을 이용한 분류코드 추천 시스템. - 입력되는 텍스트정보(TI)를 전처리과정(PP)을 통해 제1처리정보(PI_1)로 변환하는 전처리모듈(101);
상기 전처리모듈(101)로부터 상기 제1처리정보(PI_1)를 입력받고, 기저장된 사전데이터베이스부(103)의 사전코드정보(DCI)와 비교하여, 상기 제1처리정보(PI_1)와 상기 사전코드정보(DCI)의 일치시, 상기 제1처리정보(PI_1)를 분류코드정보(CCI)로 출력하는 기분석모듈(105);
상기 제1처리정보(PI_1)와 상기 사전코드정보(DCI)의 불일치시, 상기 기분석모듈(105)로부터 상기 제1처리정보(PI_1)를 입력받고, 딥러닝을 통해 구축되어 저장된 학습코드정보(SCI)와 상기 제1처리정보(PI_1)를 비교하여, 상기 학습코드정보(SCI)와 상기 제1처리정보(PI_1)의 일치시, 상기 학습코드정보(SCI)를 제2처리정보(PI_2)로 출력하는 기계학습기반모듈(107); 및
상기 기계학습기반모듈(107)로부터 상기 제2처리정보(PI_2)를 입력받고, 상기 제2처리정보(PI_2)를 기저장된 텍스트빈도정보(TFI) 또는 코드빈도정보(CFI)를 기반으로 매칭하여 제3처리정보(3_PI)를 생성하며, 생성된 상기 제3처리정보(3_PI)를 상기 분류코드정보(CCI)로 출력하는 통계기반모듈(301);
을 포함하는 것을 특징으로 하는 딥러닝을 이용한 분류코드 추천 시스템. - 제 4 항에 있어서,
상기 전처리과정(PP)은,
특수문자제거과정, 정규화과정, 형태소분석을 이용한 자연어처리과정 중 적어도 하나 이상을 포함하는 것을 특징으로 하는 딥러닝을 이용한 분류코드 추천 시스템. - 제 5 항에 있어서,
상기 사전코드정보(DCI)는,
정규식 re 모듈이 이용되어 정규식 문법에 기반하여 생성된 것을 특징으로 하는 딥러닝을 이용한 분류코드 추천 시스템.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170160920A KR20190061984A (ko) | 2017-11-28 | 2017-11-28 | 딥러닝을 이용한 분류코드 추천 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170160920A KR20190061984A (ko) | 2017-11-28 | 2017-11-28 | 딥러닝을 이용한 분류코드 추천 시스템 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20190061984A true KR20190061984A (ko) | 2019-06-05 |
Family
ID=66844898
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170160920A KR20190061984A (ko) | 2017-11-28 | 2017-11-28 | 딥러닝을 이용한 분류코드 추천 시스템 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20190061984A (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102145698B1 (ko) * | 2019-09-27 | 2020-08-18 | 주식회사 인피니그루 | 딥러닝 모델을 통해 예측된 해답을 해석하는 방법 및 시스템 |
WO2021040354A1 (ko) * | 2019-08-23 | 2021-03-04 | 주식회사 세진마인드 | 신경망을 이용한 데이터 처리 방법 |
KR20220003819A (ko) * | 2020-07-02 | 2022-01-11 | 주식회사 에프에스 | 산업 직업 코드분류 시스템 및 그 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000050214A (ko) | 2000-05-26 | 2000-08-05 | 김환식 | 산업정보 등록 방법, 검색 방법, 그리고 이에 적합한 장치 |
-
2017
- 2017-11-28 KR KR1020170160920A patent/KR20190061984A/ko not_active Application Discontinuation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000050214A (ko) | 2000-05-26 | 2000-08-05 | 김환식 | 산업정보 등록 방법, 검색 방법, 그리고 이에 적합한 장치 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021040354A1 (ko) * | 2019-08-23 | 2021-03-04 | 주식회사 세진마인드 | 신경망을 이용한 데이터 처리 방법 |
KR102145698B1 (ko) * | 2019-09-27 | 2020-08-18 | 주식회사 인피니그루 | 딥러닝 모델을 통해 예측된 해답을 해석하는 방법 및 시스템 |
KR20220003819A (ko) * | 2020-07-02 | 2022-01-11 | 주식회사 에프에스 | 산업 직업 코드분류 시스템 및 그 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11392591B2 (en) | Systems and methods for automatic clustering and canonical designation of related data in various data structures | |
CN106708966B (zh) | 基于相似度计算的垃圾评论检测方法 | |
CN109783639B (zh) | 一种基于特征提取的调解案件智能分派方法及系统 | |
CN112184525A (zh) | 通过自然语义分析实现智能匹配推荐的系统及方法 | |
CN104834651B (zh) | 一种提供高频问题回答的方法和装置 | |
US10387805B2 (en) | System and method for ranking news feeds | |
KR20190061984A (ko) | 딥러닝을 이용한 분류코드 추천 시스템 | |
Rodriguez et al. | Feature selection for job matching application using profile matching model | |
CN110276382B (zh) | 基于谱聚类的人群分类方法、装置及介质 | |
US20150347489A1 (en) | Information retrieval system and method based on query and record metadata in combination with relevance between disparate items in classification systems | |
CN110689371B (zh) | 一种基于ai和大数据的智能营销云服务平台 | |
CN113051291A (zh) | 工单信息的处理方法、装置、设备及存储介质 | |
CN112052396A (zh) | 课程匹配方法、系统、计算机设备和存储介质 | |
CN108052504A (zh) | 数学主观题解答结果的结构分析方法及系统 | |
CN111382248A (zh) | 一种问题回复方法、装置、存储介质及终端设备 | |
CN108509588B (zh) | 一种基于大数据的律师评估方法及推荐方法 | |
CN112513901A (zh) | 使用人工神经网络来从给定文本中查找唯一协调制度代码的方法和用于实现该方法的系统 | |
Shanmugalingam et al. | Corporate it-support help-desk process hybrid-automation solution with machine learning approach | |
CN116821372A (zh) | 基于知识图谱的数据处理方法、装置、电子设备及介质 | |
Caron et al. | Identification of organization name variants in large databases using rule-based scoring and clustering: With a case study on the web of science database | |
Romanov et al. | Research of neural networks application efficiency in automatic scientific articles classification according to UDC | |
CN111259223A (zh) | 基于情感分析模型的新闻推荐和文本分类方法 | |
Alan | Bibliometric Analysis of Public Relations Research Literature | |
CN114880453A (zh) | 智能问答方法、装置及电子设备 | |
CN109978476A (zh) | 律所项目任务模板生成方法、装置、系统以及导入方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E90F | Notification of reason for final refusal | ||
E601 | Decision to refuse application |