KR20220068937A - 기계학습 방법론을 이용한 한국 표준 산업/직업 분류 방법 - Google Patents

기계학습 방법론을 이용한 한국 표준 산업/직업 분류 방법 Download PDF

Info

Publication number
KR20220068937A
KR20220068937A KR1020210158896A KR20210158896A KR20220068937A KR 20220068937 A KR20220068937 A KR 20220068937A KR 1020210158896 A KR1020210158896 A KR 1020210158896A KR 20210158896 A KR20210158896 A KR 20210158896A KR 20220068937 A KR20220068937 A KR 20220068937A
Authority
KR
South Korea
Prior art keywords
learning
classification
model
sentence
industry
Prior art date
Application number
KR1020210158896A
Other languages
English (en)
Inventor
최호진
오교중
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Publication of KR20220068937A publication Critical patent/KR20220068937A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

기계학습 방법론을 이용한 한국 표준 산업/직업 분류 방법이 개시된다. 이 방법은 컴퓨터 장치에서 실행되는 컴퓨터 프로그램을 이용하여 수행되는 방법으로서, 통계조사로부터 수집된 인구 및 고용조사 입력 정보를 한국표준산업 코드로 자동으로 분류하기 위해 기계학습 기반의 방법론을 적용한다. 기존의 규칙 기반의 자동 코딩 시스템의 정확도 및 성능 보완과 효율적인 분류 시스템 개발을 위해 딥러닝 지도학습 기반의 분류 모델을 도입하고 자연어처리 기반의 텍스트 추론 기술을 이용하여 입력과 분류항목 간의 유사성을 분석한다. 이를 위해, 본 발명은 통계조사 자료의 다양한 자연어 입력의 산업/직업 분류 기술에 있어서, 응용 도메인과 학습 말뭉치에 특화해서 비지도 학습 기반으로 색인어를 추출하는 단계; 상기 단문 분류를 위한 단어 및 문장 임베딩 모델을 학습하는 단계; 및 학습된 사전학습 언어모델을 이용하여 지도학습기반 분류모델 학습 및 이용 단계를 포함한다.

Description

기계학습 방법론을 이용한 한국 표준 산업/직업 분류 방법 {Standard Industrial Classification Based on Machine Learning Approach}
본 발명은 기계학습 기술 분야에 관한 것으로, 보다 상세하게는 기계학습 방법론을 이용한 한국 표준 산업/직업 분류 방법에 관한 것이다.
현재 통계청에는 다양한 통계조사에 도움을 주는 한국표준 산업/직업분류에 기반한 자동 코딩 시스템이 운용되고 있다. 산업/직업 자동 코딩 시스템이란, 웹, 모바일, 조사원 방문 등으로부터 조사된 통계조사 자료를 색인어 정보를 기반으로 규칙 베이스인 사례 사전을 기반으로 하여 조사자가 종사하는 산업/직업 정보를 분류하는 시스템이다. 특히, 산업/직업분류 자동 코딩 시스템은 통계청 인구총조사, 경제총조사, 고용조사 등의 통계조사를 함에 있어 사업체 정보, 업무, 직급, 부서명 등 조사자의 다양한 입력을 표준 산업/직업분류에 맞춰 분류 코드 정보를 자동으로 제공해주는 시스템이다. 한국표준 산업/직업분류는 국내 산업의 분포와 각 업종 종사자에 대한 고용 관련 정보 분석의 근간이 되는 분류체계이며, 특정 산업 분야의 독과점 여부를 판단하는데 이용하기도 하고, 이를 이용한 통계 정보에 기반하여 산업과 관련된 국가적 정책을 결정하는 데 활용된다.
2020년 현재 인구 총 조사, 지역별 고용조사, 경제 활동인구 조사, 이민자 체류실태 및 고용조사, 가계 금융 복지 조사, 사회조사, 생활시간 조사, 경제 총 조사 등 통계청 통계 (8종)과 지자체 사회조사 (5종 부산, 대구, 강원, 경기, 충남), 지자체 여성 경제 활동 조사 (울주군), 경제자유구역 입주사업체 실태조사 (산자부), 화학물질 통계조사 (환경부) 등 각종 지자체와 기관의 통계조사 (8종)에서 이용되고 있으며, 월평균 2만 번 이상 이용되는 활용성이 높은 시스템이다.
기존의 산업/직업 자동 코딩 시스템은 1999년부터 개발 이래 지속해서 유지 관리된 시스템이다. [강유경, 2001] 2차례의 한국표준 산업/직업분류의 개정에 맞추어 2004년 [임희석, 2005]과 2008년에 분류 시스템이 고도화되었으며, 규칙 베이스인 사례 사전의 효율적인 개정/개선 작업을 위한 유지관리 시스템의 개발과, 자동 분류 속도 및 정확도 개선 [Y. Jung 외, 2008]을 위한 고도화 사업을 추진하였다.
종래의 산업/직업 자동 코딩 시스템은 규칙베이스인 사례 사전을 이용한 분류 모듈과 색인어 검색 기반의 분류 모듈로 구성되어 있다. 종래 시스템의 기본적인 데이터 처리 프로세스는 도 1과 같으며, 통계조사원의 다양한 색인어 기반의 입력에 대하여 산업/직업분류를 판단할 수 있는 논리 규칙으로 이루어진 사례 사전을 이용하여 분류 결과를 제공하며, 분류 규칙 사례에 해당하지 않는 경우 어절 단위로 추출한 사용된 색인어 정보에 기반하여 적합한 분류 결과를 찾는다.
종래 시스템의 가장 큰 문제점은 한국표준 산업/직업분류 체계의 개정에 따라서 시스템의 개선이 필요할 뿐만 아니라, 새로운 산업 분야 및 이를 분류하기 위한 색인어나 분류 규칙 추가 및 수정 등 분류를 위해서 지식의 지속적인 시스템적 관리가 필요하다.
첫 번째 문제점은 다양한 통계조사의 입력 정보에 대응하지 못하는 점에 있다. 통계조사 정보는 개인이 통계조사 시스템이나 사이트를 이용하여 조사에 참여할 수 있으며, 또는 통계조사원의 방문 조사나 인터뷰를 통해 수집된다. 도 2는 통계청에서 제공하는 지역별 고용조사 (통계청, 지역별고용조사 나라통계: http://www.narastat.kr/eregion) 시스템을 보여주며, 웹이나 모바일을 통해 제공된다. 조사에 응한 16세 이상 경제활동인구의 사업체명, 사업내용, 근무부서, 직책, 하는 일의 종류 등의 조사 내용을 바탕으로 입력에 부합하는 한국표준 산업/직업분류의 코드를 부여한다. 부여받은 산업/직업 코드값을 조사관리자의 확인을 거쳐 최종적으로 통계에 이용된다. 사용자가 자유롭게 입력할 수 있는 인터페이스로 구성되어 있음을 알 수 있으며, 붉은 네모로 표시한 부분이 산업/직업 자동 코딩 분류 시스템에 이용되는 정보이다.
종래의 시스템 구조에서 분류 성능을 보장하기 위해서는, 미리 정의된 색인어를 사용하여 정보를 입력해야 높은 분류 정확도를 얻을 수가 있다. 그러나 실제 통계조사는 색인어 정보만을 이용해서 이뤄지는 것이 아니므로 다양한 입력이 발생하게 된다. 주요 원인으로는 웹과 모바일 등의 이용한 통계조사 채널의 다양화로 일반 국민이 자체적으로 접근하여 조사 정보가 입력되는 경우도 늘어났으며, 방문 조사의 경우 통계조사원이 3~6개월 주기로 교체되는데다가, 조사원마다 교육 수준이나 사용하는 어휘가 다르고, 이미 구축된 사례 사전과 색인어 정보를 전부 교육하기가 어려워 통계조사 자료의 입력이 다양해지는 점을 꼽을 수 있다.
두 번째 문제점은 규칙 베이스인 사례 사전을 이용하는 분류 방법이라는 점이다.
이 방법은 입력에 등장한 색인어에 따라 수용조건과 베타 조건에 의해 분류항목을 판단한다. 분류항목을 결정하는데 참과 거짓을 판단하는 논리 지식을 구축해서 판단하게 되므로 규칙 베이스에 의한 분류 방법이라고 볼 수 있다. 규칙 베이스를 이용한 분류 방법은 사람이 분류 작업을 하는 프로세스와 유사하다고 볼 수 있는데, 사람이 분류 작업한다고 했을 때, 미리 정의된 분류 방법에 대해서 작업자가 교육을 받거나 많은 반복작업을 통해 얻은 경험적인 지식을 따라 분류 작업이 수행된다. 따라서 초기부터 이미 작업자의 머릿속에 정리된 논리 구조를 이용하여 분류 규칙을 정의하게 되므로 직관적이고 적은 사례에 대해서 적은 비용으로 정확도가 높은 모델을 구축할 수 있다.
한국표준 산업/직업분류의 경우 약 10년의 주기로 개정되기 때문에, 시스템의 경우 개정 시기에 맞추어 규칙 베이스와 색인어 DB를 지속해서 개선하여 관리해야 한다. 그러나 산업/직업분류와 같이 비교적 많은 분류항목 (세세분류 기준 1,196개)과 검증해야 할 통계조사 데이터가 많은 경우, 모든 분류 판단을 충족하는 규칙을 일일이 구축하기도 어려울 뿐만 아니라, 구축한 분류 규칙 지식이 수많은 사례에 부합하는지 검토하기 어렵다.
또한, 규칙 베이스가 커질수록 지식을 관리하기가 어려워지고 시간과 비용이 많이 발생하게 된다. 또한, 규칙이 많아지면 추가나 수정이 필요한 경우, 기존에 구축된 모든 규칙을 검토해야 하고, 충돌하는 규칙에 대해 수용조건과 베타 조건이 복잡해지며, 우선순위를 정하는 등과 같은 추가적인 작업이 필요하다. 지식 관리를 담당하는 실무자로서도 과거에 구축된 모든 규칙 지식을 인지하지 못하여 중복되는 규칙이 늘어나는 거나 최신에 추가 및 수정된 규칙에 따라 과거의 분류 결과도 변경되는 등의 문제가 발생할 수 있다.
세 번째 문제점은 종래의 시스템에 적용된 색인어 정보 검색 기반의 분류 방법에 관한 것이다. 색인어 정보 검색 방법은 앞에서 설명한 규칙 베이스 기반의 분류에서 발생하기 쉬운 규칙의 적용 범위 (Coverage)의 한계를 보완하기 위해서 적용하고 있는 방법론이다. 사례 사전 기반의 분류 단계에서 분류 코드가 결정되지 않는 경우, 분류항목별 색인어 빈도/역빈도 (TF/IDF) 점수 기반으로 적절한 분류항목을 결정한다. 이 방법에서는 수많은 통계조사 입력 정보로부터 색인어 사전(DB)을 구축하는 과정이 선행된다. 그 후에 각 색인어의 등장 빈도와 중요도를 점수화하는 과정을 거치게 되는데 입력에 등장한 색인어 정보의 각 분류항목에 따른 점수를 계산하여 가장 높은 점수의 분류항목으로 분류 결과를 제공한다.
새로운 산업이 생기거나 산업 환경이 변화하여, 그에 따른 색인어 지식을 수정해야 할 때도 문제가 발생하는데, 색인어 추가 시 기존의 규칙 베이스에 해당 색인어가 영향을 받는지 안 받는지 검토해야 하고, 기존의 분류 규칙을 사용하는 경우 새로운 색인어를 기존의 수용조건과 배타 조건에 일일이 추가해야 한다. 분류별 빈도/역빈도 (TF/IDF) 점수를 측정하기 위한 자질 점수 모델도 사용한 데이터 셋이 달라질 때마다 전체 문서에 대해 각 색인어의 점수를 다시 계산해야 한다.
실제로 종래의 산업/직업 자동 코딩 시스템에서는 분류 개정이나 색인어 추가 시 관련 있는 분류 규칙마다 색인어 수용조건과 베타 조건에 동의어나 반의어 정보를 검토하고 규칙을 개선하는 관리 시스템을 별도로 개발하여 이용하고 있다.
관련 있는 종래기술로는 대한민국 특허출원공개공보 제10-2019-0114166호(오토인코더를 이용한 산업분류 시스템 및 방법, 이하 '공지기술 1')와 대한민국 특허등록 제10-1671889호 (기업정보 추출장치 및 추출방법, 이하 '공지기술 2;)를 들 수 있다.
도 3은 공지기술 1인 오토인코더를 이용한 산업분류 시스템 및 방법에 관한 대표도이다. 공지기술 1에서, 오토인코더를 이용한 산업분류 시스템은 복수 기업의 기업정보를 수집하는 수집부, 복수의 키워드를 포함하는 키워드사전이 저장되어 있는 저장부, 각각의 상기 기업정보와 상기 키워드사전을 비교하여, 각각의 상기 기업정보에 대한 상기 키워드의 유무를 나타내는 유무데이터 또는 상기 키워드의 빈도수를 나타내는 빈도데이터를 산출하는 키워드산출부, 오토인코더를 통해 상기 유무데이터 또는 상기 빈도데이터를 부호화된 공간에서 키워드벡터로 모델링하는 오토인코더부, 복수의 상기 키워드벡터 간 유사성을 판단하여 유사한 상기 키워드벡터끼리 묶어 복수의 군집을 구성하는 군집부, 및 상기 군집에 대한 산업분류명을 레이블링하는 레이블링부로 구성되어 있다. 키워드의 빈도데이터에 기반하여 오토인코더를 통해 키워드벡터로 모델링하고 유사항 키워드 벡터끼리 군집화하는 비지도학습 기반의 분류 방법을 사용하고 있다.
공지기술 1은 키워드의 빈도 정보 기반으로 시스템에 사용할 어휘 지식을 산출하기 때문에 학습 데이터에 없는 새로운 어휘에 대해서는 키워드 벡터를 학습할 수 없으며, 비지도 학습 기반의 군집화(Clustering) 방법론을 이용하기 때문에 한국표준 산업/직업 분류(2017년 10차 개정)의 분류항목에 맞는 계층형 구조의 분류체계를 모델링 할 수 없다.
공지기술 2인 기업정보 추출장치 및 추출방법에서는 도 4와 같은 대표도로 기업정보가 추출된다. 생산된 상품의 상표권 신고 및 등록에 있어서 관련 산업 분야에서의 중복 여부를 확인을 위해 표준산업분류코드와 일치하는 기업들의 정보를 추출하기 위해서 한국표준산업분류코드 정보를 추출하고 있다. (제 3기업정보추출모듈, 제 5기업정보추출모듈) 이 과정에서 이미 분류된 표준산업분류코드 자체를 이용하기만 할 뿐. 자체적인 방법론으로 분류를 수행한다거나 분류를 위한 새로운 방법을 제시하고 있지는 않다.
1. 대한민국 특허공개공보 제10-2019-0114166호 (2019.10.10, 오토인코더를 이용한 산업분류 시스템 및 방법) 2. 대한민국 특허등록공보 제10-1671889호(2016.10.27, 기업정보 추출장치 및 추출방법)
1. 강유경, "산업/직업분류 자동코딩 시스템," 한국조사연구학회 2001년도 추계학술대회 발표논문집, pp. 33­45, 2001. 2. 임희석, "예제기반의 학습을 이용한 한국어 표준산업/직업 자동코딩 시스템," 한국콘텐츠학회논문지, Vol. 5, No. 4,pp. 169­179, 2005. 3. Y. Jung, J. Ryu, S.-H. Myaeng, and D.-C. Han, "A web-based automated system for industry and occupationcoding,"The 9th International Conference on Web In-formation Systems Engineering, pp. 443­457, 2008.
본 발명의 일 목적은 종래의 통계청 한국표준 산업/직업 자동코딩 시스템에 적용되었던 규칙베이스(사례사전) 기반의 분류 방법과 빈도/역빈도 자질을 이용한 색인어 검색 방법을 기계학습 기반의 분류 모델을 적용하고, 자연어처리 기술을 통한 문장 유사성 기반의 텍스트 추론 방법으로 대체하여 정확도와 성능을 개선하는 방법을 제공하는 것이다.
본 발명이 해결하고자 하는 과제는 상술한 과제들에 한정되는 것이 아니며, 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위에서 다양하게 확장될 수 있을 것이다.
상기 본 발명의 일 목적을 실현하기 위한 실시예들에 따른 기계학습 방법론을 이용한 한국표준 산업/직업분류 방법은, 컴퓨터 장치에서 실행되는 컴퓨터 프로그램을 이용하여 수행되는 방법이다. 본 발명에서는 통계조사로부터 수집된 인구 및 고용조사 입력 정보를 한국표준산업 코드로 자동으로 분류하기 위해 기계학습 기반의 방법론을 적용한다. 기존의 규칙 기반의 자동 코딩 시스템의 정확도 및 성능 보완과 효율적인 분류 시스템 개발을 위해 딥러닝 지도학습 기반의 분류 모델을 도입하고 자연어처리 기반의 텍스트 추론 기술을 이용하여 입력과 분류항목 간의 유사성을 분석한다. 이를 위해, 본 발명은, 통계조사 자료인 다양한 자연어로 된 산업/직업 정보를 입력받아 한국표준산업 코드로 자동으로 분류하기 위해, 응용 도메인과 학습 말뭉치에 특화해서 비지도 학습 기반으로 색인어를 추출하는 단계; 추출된 색인어의 사전 지식을 이용하여, 단문 분류를 위한 단어 및 문장 임베딩 모델을 학습하는 단계; 및 학습된 사전학습 언어모델을 이용하여 지도학습기반 분류모델 학습 및 이용 단계를 포함하여 통계조사로부터 수집된 정보를 한국표준 산업 코드로 자동 분류한다.
예시적인 실시예에 있어서, 상기 비지도 학습 기반으로 색인어를 추출하는 단계는, 응용 도메인에 특화된 원시 말뭉치를 전처리하는 단계; 초/중/종성으로 분리하여, 자주 반복되는 부분단어들의 통계적인 정보를 활용하여, 응용 도메인 말뭉치 분석에 특화된 토크나이저를 구현하는 단계; 및 비지도 학습 기반으로 색인어 지식을 추출하는 단계를 포함할 수 있다.
예시적인 실시예에 있어서, 상기 토크나이저의 구현은 주어진 말뭉치에서 빈번히 결합하여 사용된 음절(글자) 패턴을 학습하여 복합어 및 개체명의 경계를 자동으로 학습하는 방식으로 이루어질 수 있다.
예시적인 실시예에 있어서, 상기 단문 분류를 위한 단어 및 문장 임베딩 모델을 학습하는 단계는, 색인어 사전 지식과 응용 도메인에 특화된 개체명, 복합어를 결합시키는 토크나이저가 적용되어 주어진 입력 문장에서 경계를 찾는 비지도학습 기반 토크나이저 적용 단계; 전처리된 응용 도메인특화 원시 말뭉치로부터 사전학습 언어모델을 학습하는 사전학습 언어모델 구축 단계를 포함할 수 있다.
예시적인 실시예에 있어서, 부분단어(Subword) 임베딩을 단문에 적합한 문장 임베딩 방법으로 적용하기 위해 부분단어(Subword) 임베딩 모델을 언어모델 학습 위한 방법으로 사용할 수 있다.
예시적인 실시예에 있어서, 상기 단문 분류를 위한 단어 및 문장 임베딩 모델을 학습하는 단계는, 입력 데이터를 분석하여 그 입력 데이터에 포함된 전각자 및 반각자를 이 둘 중 어느 한 가지로 통일하는 작업, 비식별 정보의 정규화 처리와 같은 전처리를 수행하는 단계를 더 포함할 수 있다.
예시적인 실시예에 있어서, 상기 지도학습기반 분류모델 학습 및 이용 단계는, 학습된 사전학습 언어모델과 기존 통계조사의 입력과 분류 결과를 딥러닝 모델과 같은 지도학습 분류 모델을 통해 학습하여 산업/직업 분류 모델을 구현하는 단계; 및 새로운 통계조사 자료의 입력으로부터 분류 결과를 제공하는 단계를 포함할 수 있다.
예시적인 실시예에 있어서, 상기 지도학습기반 분류모델 학습 및 이용 단계는, 입력 데이터를 분석하여 그 입력 데이터에 포함된 전각자 및 반각자를 이 둘 중 어느 한 가지로 통일하는 작업, 비식별 정보의 정규화 처리와 같은 전처리를 수행하는 단계; 및 동의어 정보를 학습하여 입력문장에 대한 문장 임베딩을 수행하는 임베딩 단계를 더 포함할 수 있다.
예시적인 실시예에 있어서, 상기 문장 임베딩을 수행함에 있어서 문장 단위의 학습을 수행할 수 있도록 입력 문장의 길이에 비례하여 임베딩 벡터를 업데이트할 수 있다.
예시적인 실시예에 있어서, 상기 기계학습 방법론을 이용한 한국표준 산업/직업분류 방법은 컴퓨터 프로그램으로 구현되어 수행될 수 있으며, 그 컴퓨터 프로그램은 컴퓨터 판독 가능한 기록 매체에 기록되어 제공될 수 있다.
본 발명의 예시적인 실시예들에 따르면, 본 발명은 종래의 산업/직업 분류 시스템의 단점과 한계점을 보완할 방법의 원천 기술로서 제공한다. 최근 기계학습 기술의 발달로 전처리 과정이나 자질 공학 등의 많은 부분에서의 시스템 구축을 위한 노력을 줄일 수 있으며, 통계청 서비스 내 통계 분류 포털 통계청에서 한국표준 질병/사인 분류나 건강 분류, 무역 분류, 교육 분류, 목적지별 지출분류, 특수/일반/국제분류 등 다양한 분류 정보 제공 서비스를 제공하고 있는 만큼, 본 발명의 적용 및 응용을 통한 서비스 개발 가능성이 높다.
먼저 색인어 지식 추출에 있어서 비지도 학습 기반의 토크나이저 학습 방법을 적용하였으며, 기존의 색인어 사전과 유사한 도메인특화 말뭉치에 특화된 색인어 사전을 구축할 수 있는 모듈을 만들었으며, 이를 이용하여 빠른 속도로 색인어 지식을 자동으로 추출할 수 있다.
또한, 단문 분류에 적합한 단어 및 문장 임베딩 방법론을 채택하여 기존의 학습되지 않은 색인어에 대한 분석이 가능한 구조를 이용하였으며 이를 학습하기 위한 최적 성능의 방법론을 적용하였다.
마지막으로, 지도학습 기반 분류 모델을 적용하여, 복잡한 전처리나 지식 구축 작업을 최소화하여 기존의 분류 결과 데이터로 분류 모델을 구축하는 방안을 적용함으로써 새로운 분류 모델의 구축이나 기존 분류 모델의 성능을 개선할 수 있다.
도 1은 종래의 산업/직업 자동코딩 시스템의 입력 신호에 대한 처리 흐름도이다.
도 2는 산업/직업 자동코딩 시스템의 입력 신호를 생성하는 지역별 고용조사 시스템의 예이다.
도 3은 종래 기술 공개 특허 1(1020412420000)의 대표도이다.
도 4는 종래 기술 공개 특허 2(1016718890000)의 대표도이다.
도 5는 본 발명의 실시 예에 따른 기계학습 방법론을 이용한 한국표준 산업/직업분류 방법을 나타내는 흐름도이다.
도 6은 본 발명의 실시 예에 따른 비지도 학습 기반 색인어추출 단계에 관한 상세 흐름도이다.
도 7은 본 발명의 실시 예에 따른 단문 분류를 위한 단어 및 문장 임베딩 단계에 관한 상세 흐름도이다.
도 8은 본 발명의 실시 예에 따른 지도학습 기반 분류 모델 학습 및 이용 단계에 관한 상세 흐름도 이다.
도 9는 본 발명의 실시 예에 따른 지도학습 기반 분류 모델 학습 시 사용하는 입력과 출력에 관한 설명 그림으로, 사용자 입력 정보의 종류와 형태가 무엇인지 보여준다.
도 10은 본 발명의 실시예에 따른 지도학습 기반 분류 모델의 학습 및 사용 예에 관한 그림이다.
도 11은 본 발명에 기재된 발명의 주요 실시예 이외에 다른 실시예에 대한 지도학습 분류 모델에 대한 그림이다.
도 12는 본 발명에 기재된 발명의 주요 실시예 이외에 다른 실시예에 대한 문장 유사성 분석 기반의 텍스트 추론 방법을 이용한 산업/직업 분류 시스템ㄴ의 전체적인 구성도 있다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시 예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시 예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시 예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예롤 구현될 수 있다. 또한, 각각의 개시된 실시 예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 첨부한 도면들을 참조하여, 본 발명의 실시 형태에 따른 기계학습 방법론을 이용한 한국표준 산업/직업분류 방법을 보다 상세하게 설명하고자 한다. 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
도 5는 본 발명의 예시적인 일 실시예에 따른 기계학습 방법론을 이용한 한국표준 산업/직업분류 방법을 나타내는 흐름도이다.
도 5를 참조하면, 본 발명에 따른 방법은 비지도 학습 기반 색인어추출 단계(S100); 단문 분류를 위한 단어 및 문장 임베딩 단계(S200); 및 지도학습 기반 분류 모델 학습 및 이용 단계(S300)를 포함한다.
종래의 시스템에서 어절 기반의 색인어 사전 지식 구축하는 부분은 형태소 분석과 비지도 학습 기반의 도메인/말뭉치 특화 토크나이저 모델을 학습하는 방법으로 대체된다. 상기 추출된 색인 정보를 언어모델로 임베딩하는 과정에서 비지도 학습 모델을 이용하며, 이를 입력으로 이용하는 지도학습 모델을 기반으로 분류를 수행하는 부분으로 구성된다. 또한 분류 신뢰도가 낮은 입력 정보에 대해서는 텍스트 추론 방식을 통해 가장 유사한 분류항목을 검색하는 모듈을 통해 분류 결과를 보완하게 되는데, 이 과정에서 도메인특화 언어모델을 이용한다.
도 6은 본 발명의 실시예에 따라 도 5의 비지도 학습 기반 색인어추출 단계(S100)의 구체적인 수행 방법에 관한 상세 흐름도이다.
종래의 시스템에서 색인어 지식을 구축하는 과정의 대체로 비지도 학습 방법을 이용한 토크나이저 학습 방법을 적용한다. 종래 시스템의 색인어추출 방식은 입력에 사용된 표현 중에서 사전 지식에 등록된 색인어만을 추출할 수 있어서, 별도의 색인어 사전 지식을 구축해야 한다. 그러나 이 같은 종래의 사전 구축 방식은 모든 색인어를 지식화하기 어려울 뿐만 아니라, 색인어 추가, 수정, 삭제 시 사례 사전에도 반영하기 때문에 규칙과 색인어 개정 작업에 큰 노력이 들어가게 된다. 따라서 기존 시스템에서도 이를 간소화하기 위해서 어절(띄어쓰기) 기준으로 입력을 분석하는 방법을 택하고 있다.
도 6을 참조하면, 예시적인 실시예에 따른 비지도 학습 기반 색인어추출 단계(S100)는 말뭉치 문장 전처리 단계(S110), 초/중/종성 분리 및 알파벳 대문자화 단계(S120), 내부단어 분리 단계(S130)를 포함할 수 있다. 즉, 단계 S100에서는 응용 도메인에 특화된 원시 말뭉치를 전처리하고, 초/중/종성으로 분리하여 자주 반복되는 부분단어들의 통계적인 정보를 활용하여 응용 도메인 말뭉치 분석에 특화된 토크나이저를 구현하고, 비지도 학습 기반으로 색인어 지식을 추출할 수 있다.
우선 최근 한국어 자연어처리를 위한 다양한 오픈소스 프로그램의 공개로 형태소 분석을 이용한 색인어추출도 쉽게 적용할 수 있다. 형태소 분석 방법을 쓰면 레벤슈타인 (Levenshtein)과 같은 알고리즘을 이용하여 편집거리(Edit distance)나 N-gram 유사성 점수를 측정 가능해지고, 이를 통해 표현이 유사하거나 동의어 지식을 확보할 수 있다. 그러나 형태소 분석의 경우 입력을 가장 작은 의미 단위까지 쪼개주기 때문에, 일부 형태소 표현들이 노이즈로 작용할 수도 있고, 형태소 분석 성능에 영향을 많이 받기 때문에, 분류 모델의 성능을 향상시키기 위해서는 결국 복합어나 개체명은 형태소 분석기가 사용하는 사전 지식의 추가가 필요하다.
최근의 연구 추세로는, 형태소 분석과 같은 전처리 모듈에 의존적이지 않고, 구축 말뭉치에 특화하여 토크나이징을 수행하는 방법을 채택하는 추세이다. 이를 바이트 페어 인코딩(Byte-Pair-Encoding)이라고 하는데 원래는 데이터 압축 알고리즘으로 최근에는 서브 워드 분리 알고리즘으로 응용되었다. 한국어의 경우 교착어적 특성 (L+[R] 구조)을 가지고 있으므로, 서브 워드 분리를 했을 때 조사나 어미가 제거되어 자연어 입력을 어느 정도 의미 있는 단위로 나눌 수 있게 된다. 이를 통해 새로운 색인어나 입력에 대해서도 처리할 수 있다. 최근 딥러닝 기반의 자연어처리와 BERT 기반의 응용에서 두루 사용되는 접근 방법으로, 단순한 어절이나 형태소 기반의 분석에 비해 분류 및 추론 관련 응용 태스크에서 성능 향상이 보고되고 있다.
도 6을 참조하면 본 발명에 적용된 비지도 학습 기반의 토크나이저 학습 방식은 주어진 말뭉치에서 빈번히 결합하여 사용된 음절(글자) 패턴을 학습하여 복합어 및 개체명의 경계를 자동으로 학습한다. 이 같은 방법을 경계 인식(Span detection)이라고 한다. 이 방법을 적용하기 위해서는 단순하게 특정 도메인의 말뭉치 (뉴스 기사, 공문서 등)의 수집이 필요할 뿐이고, 학습 데이터의 표현 자체를 이용하여 모델을 구축할 수도 있다. 이 학습 방법을 통해 구축된 토크나이저의 가장 큰 장점은 자동으로 색인어 지식을 구축할 수 있으며, 새로운 색인어 추가의 경우, 해당 색인어를 사용한 문장만 추가하면 추출될 수 있다는 점이다. 또한, 중간 결과물이 기존의 색인어 지식과 비슷한 형태로 생성되기 때문에 기존의 색인어 지식과 결합도 비교적 쉽다. 또한 기존의 색인어 지식이나 형태소 분석기에 독립적으로 학습을 돌릴 수 있다. 복합 명사, 조사, 어미 처리에 있어서 토크나이징을 수행하기 때문에 띄어쓰기에 무관하게 입력을 처리하여 분석할 수 있게 되며, 형태소 분석의 성능에 따라 결과가 나빠지지 않는다. 그리고 서브 워드 분리 알고리즘이 적용되어 토큰 내에서도 유사한 표현 패턴을 내부 정보로 학습하기 때문에 색인어 지식이 없는 (Out-of-Vocabulary) 문제에서도 자유로워질 수 있다. 마지막으로 형태소 분석기를 쓰는 것보다 학습 및 색인어추출 성능도 개선할 수 있는데, 1초에 약 15,000 문장의 토크나이징이 가능하다.
도 7은 본 발명의 실시예에 따라 도 5의 단문 분류를 위한 단어 및 문장 임베딩 단계(S200)의 구체적인 수행 방법에 관한 상세 흐름도이다.
도 7을 참조하면, 예시적인 실시예에 따른 단문 분류를 위한 단어 및 문장 임베딩 단계(S200)는 말뭉치 문장 전처리 단계(S210), 비지도 학습 기반 토크나이저 적용 단계(S220), 사전학습 언어모델 구축 단계(S230)를 포함할 수 있다. 즉, 단계 S200에서는 색인어 사전 지식과 응용 도메인에 특화된 개체명, 복합어를 결합시키는 토크나이저가 적용되어 주어진 입력 문장에서 경계를 찾고 전처리된 응용 도메인특화 원시 말뭉치로부터 사전학습 언어모델을 학습할 수 있다.
예시적인 실시예에 따른 상기 말뭉치 문장 전처리 단계(S210)에서는 입력 데이터를 분석하면서 몇 가지 산업/직업 조사 데이터 입력에 특화된 전처리 과정을 수행한다. 먼저 일부 입력이 회사명, 상호 등을 포함하고 있으므로 전각자와 반각자를 사용하는 경우가 있어서 이를 전각자 또는 반각자로 통일하는 작업을 수행한다. 마찬가지로 비식별 항목으로 된 상호명이 존재하는데, 예를 들어 00대부와 같은 경우 00 , OO, ㅇㅇ , ** 혼용 사용됨을 확인하여 비식별 정보에 대해서는 ## 과 같은 글자로 통일하여 사용한다. 알파벳 입력의 경우 반각 대문자로 일괄처리하며, 약자의 경우 그대로 사용한다. 띄어쓰기의 경우 기존의 어절 기반의 분석에서와 비슷하게 처리하기 위해서 띄어쓰기 없이 처리 (Trim) 하는 과정으로 입력 데이터를 정제한다.
예시적인 실시예에 따른 상기 입력 문장 문맥 파악 단계(S220)에서는 상기 비지도 학습 기반 색인어추출 단계(S100)에서 구축된 색인어 사전 지식을 이용하여 입력된 문장의 개체명, 복합어 등 응용 도메인에 특화된 색인어의 경계가 적용된 비지도 학습 기반의 토크나이저를 적용한다. 자주 함께 결합하여 등장하는 개체명과 복합어의 경우 하나의 토큰으로 처리를 하면 후술하는 부분단어(Subword) 임베딩에서의 학습 성능을 개선할 수 있을 뿐만 아니라, 지도학습 기반 분류 모델 학습 및 이용 단계(S300)에서의 분류 정확도도 향상시킬 수 있다.
예시적인 실시예에 따른 상기 사전학습 언어모델 구축 단계(S230)에서는 본 발명의 실시예에서 사용한 입력 형태는 주로 짧은 길이의 자연어 입력이기 때문에 단문 분류에 특화된 임베딩 모델 이용한다. 도 9를 참조하면 입력에 해당하는 주요 업무 정보(A_MAJ_ACT)는 문장의 길이가 짧으며, 주로 복합 명사나 개체명으로 이루어져 있다. 따라서 1~2개의 색인어 정보를 반영해야 하며 단문에 적합한 문장 임베딩 방법을 이용한다. 본 발명에서는 부분단어(Subword) 임베딩을 적용하기 위해 부분단어(Subword) 임베딩 모델을 언어모델 학습 위한 방법으로 사용하며, 이 모델은 기존의 단어 임베딩 모델인 워드투벡터(Word2Vec), 글로브(Globe)에 비해 학습되지 않은 색인어 처리 문제(Out-of-Vocaburary) 문제를 해결하기에 적합하다. 기본적으로 부분단어 임베딩은 어절 단어를 정해진 길이의 부분 단어로 쪼개서 각각의 부분 단어를 학습에 이용하는 방법으로 예를 들어 '우리은행'의 경우 '우리' 라는 단어와 '은행'이라는 단어의 합으로 '우리은행'이라는 단어를 학습한다.
이를 통해 불용어 제거와 학습 결과를 개선할 수 있다. 또한 서브샘플링을 통해 빈도수가 높은 단어 (한국어의 경우 주로 조사나 어미와 같은 불용어)를 학습에서 제외하고, 네거티브 샘플링을 통해 전체 색인어에 대하여 연산하는 경우를 줄여 언어모델의 학습시간을 개선한다.
도 8은 본 발명의 실시예에 따라 도 5의 지도학습 기반 분류 모델 학습 및 이용 단계(S300)의 구체적인 수행 방법에 관한 상세 흐름도이다.
종래의 시스템의 규칙 베이스에 해당하는 사례 사전을 이용한 분류 모델을 대체하기 위해 적용되는 방법이다. 종래의 기술에서는 분류 모델을 만들기 위해서 색인어 사전 구축을 선행적으로 수행하며, 색인어를 기반으로 분류 규칙도 구축이 필요하다. 기계학습 방법을 적용하게 되면 색인어 사전 구축이나 규칙 사전 구축과 같은 전처리나 선행 작업에 대한 수고를 줄일 수 있다. 이 같은 지도학습 모델을 도입하면 결과가 잘못 나온 데이터만 학습 데이터로 추가 수집하여 학습된 모델에 점진학습 (incremental learning)을 적용할 수 있다는 장점이 있다.
도 8을 참조하면, 예시적인 실시예에 따른 지도학습 기반 분류 모델 학습 및 이용 단계(S300)는 통계자료 입력 전처리 단계(S310), 입력 문장 임베딩 단계(S320), 지도학습 기반 분류모델 학습 단계(S330), 입력 자료 분류 단계(S340)를 포함할 수 있다. 즉, 단계 S300에서는 학습된 사전학습 언어모델과 기존 통계조사의 입력과 분류 결과를 딥러닝 모델과 같은 지도학습 분류 모델을 통해 학습하여 산업/직업 분류 모델을 구현하는 단계; 및 새로운 통계조사 자료의 입력을 상기 산업/직업 분류 모델에 기반하여 분류하는 단계를 포함할 수 있다.
예시적인 실시예에 따른 상기 통계자료 입력 전처리 단계(S310)에서는 상기 입력 문장 문맥 파악 단계(S210)와 마찬가지로 입력 형태에 대해 전/반각처리, 비식별 표현 정규화 등의 과정을 거친다. 사전학습 언어모델의 학습에 사용한 입력과 같은 과정의 전처리를 거쳐야 같은 입력 문장 임베딩 결과를 보장할 수가 있으므로 상기와 같은 단계를 거친다.
예시적인 실시예에 따른 상기 입력 문장 임베딩 단계(S320)에서는 상기 사전학습 언어모델 구축 단계(S230)에서 '교육'이란 단어는 '지도'란 단어와 유사하다는 정보를 학습할 수 있으며, 이 정보를 문장 임베딩 과정을 거쳐 분류 모델 학습 과정에 이용함으로써 입력값에 다른 표현이 나와도 동의어 정보가 반영하여 분류를 수행할 수 있다.
이 방법은 입력 문장에 대해 문장 임베딩을 수행하는 데 있어, 종래 기술들이 사용하는 모델들이 토큰 단위로 업데이트하는 것에 비해 문장 길이에 비례하여 임베딩 벡터를 업데이트하여 문장 단위의 학습을 위해 변형한 방법이다. 이 방법을 이용하여 문장 또는 문서 분류 응용을 많이 수행하고 있으며, 문장의 유사도 판별에도 이용하고 있다.
일반적인 문장 임베딩 모델의 경우 사용하는 토큰의 개수나 글자 수를 기준으로 윈도우 크기를 고정하여 임베딩을 수행하는데, 이 방법은 전체 문장 길이를 모두 사용함으로써 가변적인 입력에도 일관성 있는 결과를 보이며, n-gram 학습 시 드랍아웃 (Dropout)을 적용하여 학습에 사용되는 토큰을 랜덤하게 배제하여 학습 속도의 개선과 오버피팅 문제를 막고 서브 샘플링하지 않아도 유사한 결과가 나오게 문장 임베딩 모델을 학습한다. 이렇게 입력 문장에 대해 입력 문장의 임베딩이 수행되며, 이를 통해 자연어 문장은 컴퓨터가 연산할 수 있는 실수 벡터 형태로 변환하게 된다. 우리는 이를 통하여 지도학습 분류 모델에서 사용하는 입력 정보를 생성할 수 있게 된다.
예시적인 실시예에 따른 상기 지도학습 기반 분류모델 학습 단계(S330)에서는 상기 입력 문장 임베딩 단계(S320)에서 변환된 문장 임베딩 결과와 기존 통계조사자료 분류 결과를 지도학습 하는 과정을 거친다. 이 과정을 통해 산업/직업분류 모델을 구축할 수 있으며, 기존의 규칙 베이스 기반의 분류 모델에 비해 규칙이나 색인어 사전 등의 지식구축 과정이나 분류 모델의 성능을 보장하기 위한 공학적인 처리 과정이 크게 줄어들게 된다.
상기 입력 자료 분류 단계(S340)에서는 새로운 조사자료 입력 데이터가 입력되는 경우에도, 학습 단계에서와 마찬가지로, 색인어 입력을 문장 임베딩하는 과정을 거쳐 입력 벡터를 만든다. 미리 지도학습 과정을 통해 학습된 분류 모델로 항목별로 확률을 계산이 되며 가장 신뢰도가 높은 항목의 순서대로 분류 결과를 예측할 수 있다. 추가로, 분류에 사용하기 위한 입력으로 충분한 정보량을 가지고 있지 않은 경우, 분류 결과의 신뢰도(확률값)가 낮아지게 되는데, 이 같은 사례에 대해서는 기관 및 회사명(A_CMPNY_NM)을 추가 입력 정보로 사용하여 분류 결과를 제공한다.
도 9는 상기 지도학습 기반 분류 모델 학습 및 이용 단계(S300)에서 실시 예에 따른 지도학습 기반 분류 모델 학습 시 사용하는 입력과 출력에 관한 설명을 예시한다. 도 9에서는 사용자 입력 정보의 종류와 형태가 무엇인지 보여준다.
도 10은 상기 지도학습 기반 분류 모델 학습 및 이용 단계(S300)에서 실시 예에 따른 지도학습 기반 분류 모델 학습 시 사용하는 분류 모델의 학습 및 사용 예에 관한 도식도이다.
한편, 본 발명의 다른 실시예도 가능하다. 앞에서 설명된 발명의 주요 실시예 이외에 다른 실시예로 도 11을 참조하면, 상기 지도학습 기반 분류모델 학습 단계(S330)와 상기 입력 자료 분류 단계(S340)에서 사용한 지도학습 기반 분류 모델의 실시예로 주요 실시예에서는 단순 1 layer 형태의 분류 모델을 사용했다면 다른 실시예에서는 계층형 분류 체계에서 상위 분류 항목의 결과를 하위 분류 항목의 분류 결과에 추가 학습 시킬 수 있는 계층형 분류 모델을 적용한 것으로 계층이 많아질수록, 분류 항목의 개수가 많아 질수록 성능을 고도화 시킬 수 있다.
또 다른 실시예로서, 도 12는 주요 실시예의 지도학습 기반의 분류 모델의 적용 뿐만 아니라 사전학습 언어모델을 이용한 문장 유사성 기반 텍스트 추론 방법을 적용한 것으로 기존의 색인어 검색 기반의 분류 방법을 대체하는 시스템에 대한 구조도이다.
이상에서 설명된 본 발명의 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 그 컴퓨터 수단은 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 포함할 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (11)

  1. 컴퓨터 장치에서 실행되는 컴퓨터 프로그램을 이용하여 수행되는 방법으로서,
    통계조사 자료인 다양한 자연어로 된 산업/직업 정보를 입력받아 한국표준산업 코드로 자동으로 분류하기 위해, 응용 도메인과 학습 말뭉치에 특화해서 비지도 학습 기반으로 색인어를 추출하는 단계;
    추출된 색인어의 사전 지식을 이용하여, 단문 분류를 위한 단어 및 문장 임베딩 모델을 학습하는 단계; 및
    학습된 사전학습 언어모델을 이용하여 지도학습기반 분류모델 학습 및 이용 단계를 포함하여 통계조사로부터 수집된 정보를 한국표준 산업 코드로 자동 분류하는 것을 특징으로 하는 기계학습 방법론을 이용한 한국표준 산업/직업분류 방법.
  2. 제1항에 있어서, 상기 비지도 학습 기반으로 색인어를 추출하는 단계는,
    응용 도메인에 특화된 원시 말뭉치를 전처리하는 단계; 초/중/종성으로 분리하여, 자주 반복되는 부분단어들의 통계적인 정보를 활용하여, 응용 도메인 말뭉치 분석에 특화된 토크나이저를 구현하는 단계; 및 비지도 학습 기반으로 색인어 지식을 추출하는 단계를 포함하는 것을 특징으로 하는 기계학습 방법론을 이용한 한국표준 산업/직업분류 방법.
  3. 제2항에 있어서, 상기 토크나이저의 구현은 주어진 말뭉치에서 빈번히 결합하여 사용된 음절(글자) 패턴을 학습하여 복합어 및 개체명의 경계를 자동으로 학습하는 방식으로 이루어지는 것을 특징으로 하는 기계학습 방법론을 이용한 한국표준 산업/직업분류 방법.
  4. 제1항에 있어서, 상기 단문 분류를 위한 단어 및 문장 임베딩 모델을 학습하는 단계는, 색인어 사전 지식과 응용 도메인에 특화된 개체명, 복합어를 결합시키는 토크나이저가 적용되어 주어진 입력 문장에서 경계를 찾고, 전처리된 응용 도메인특화 원시 말뭉치로부터 사전학습 언어모델을 학습하는 단계를 포함하는 것을 특징으로 하는 기계학습 방법론을 이용한 한국표준 산업/직업분류 방법.
  5. 제4항에 있어서, 부분단어(Subword) 임베딩을 단문에 적합한 문장 임베딩 방법으로 적용하기 위해 부분단어(Subword) 임베딩 모델을 언어모델 학습 위한 방법으로 사용하는 것을 특징으로 하는 기계학습 방법론을 이용한 한국표준 산업/직업분류 방법.
  6. 제4항에 있어서, 상기 단문 분류를 위한 단어 및 문장 임베딩 모델을 학습하는 단계는, 입력 데이터를 분석하여 그 입력 데이터에 포함된 전각자 및 반각자를 이 둘 중 어느 한 가지로 통일하는 작업, 비식별 정보의 정규화 처리와 같은 전처리를 수행하는 단계를 더 포함하는 것을 특징으로 하는 기계학습 방법론을 이용한 한국표준 산업/직업분류 방법.
  7. 제1항에 있어서, 상기 지도학습기반 분류모델 학습 및 이용 단계는, 학습된 사전학습 언어모델과 기존 통계조사의 입력과 분류 결과를 딥러닝 모델과 같은 지도학습 분류 모델을 통해 학습하여 산업/직업 분류 모델을 구현하는 단계; 및 새로운 통계조사 자료의 입력을 상기 산업/직업 분류 모델에 기반하여 분류 결과를 제공하는 단계를 포함하는 것을 특징으로 하는 기계학습 방법론을 이용한 한국표준 산업/직업분류 방법.
  8. 제7항에 있어서, 상기 지도학습기반 분류모델 학습 및 이용 단계는, 입력 데이터를 분석하여 그 입력 데이터에 포함된 전각자 및 반각자를 이 둘 중 어느 한 가지로 통일하는 작업, 비식별 정보의 정규화 처리와 같은 전처리를 수행하는 단계; 및 동의어 정보를 학습하여 입력문장에 대한 문장 임베딩을 수행하는 임베딩 단계를 더 포함하는 것을 특징으로 하는 것을 특징으로 하는 기계학습 방법론을 이용한 한국표준 산업/직업분류 방법.
  9. 제8항에 있어서, 상기 문장 임베딩을 수행함에 있어서 문장 단위의 학습을 수행할 수 있도록 입력 문장의 길이에 비례하여 임베딩 벡터를 업데이트하는 것을 특징으로 하는 기계학습 방법론을 이용한 한국표준 산업/직업분류 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 기재된 기계학습 방법론을 이용한 한국표준 산업/직업분류 방법을 수행하기 위하여 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 실행가능 프로그램.
  11. 제1항 내지 제9항 중 어느 한 항에 기재된 기계학습 방법론을 이용한 한국표준 산업/직업분류 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체.
KR1020210158896A 2020-11-19 2021-11-17 기계학습 방법론을 이용한 한국 표준 산업/직업 분류 방법 KR20220068937A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200155547 2020-11-19
KR20200155547 2020-11-19

Publications (1)

Publication Number Publication Date
KR20220068937A true KR20220068937A (ko) 2022-05-26

Family

ID=81808365

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210158896A KR20220068937A (ko) 2020-11-19 2021-11-17 기계학습 방법론을 이용한 한국 표준 산업/직업 분류 방법

Country Status (1)

Country Link
KR (1) KR20220068937A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102494034B1 (ko) * 2022-09-26 2023-01-31 메이저위드(주) 기업 업무 메뉴얼 표준화 자동화 방법, 장치 및 시스템

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101671889B1 (ko) 2016-01-22 2016-11-03 한국과학기술정보연구원 기업정보 추출장치 및 추출방법
KR20190114166A (ko) 2018-03-29 2019-10-10 (주)다음소프트 오토인코더를 이용한 산업분류 시스템 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101671889B1 (ko) 2016-01-22 2016-11-03 한국과학기술정보연구원 기업정보 추출장치 및 추출방법
KR20190114166A (ko) 2018-03-29 2019-10-10 (주)다음소프트 오토인코더를 이용한 산업분류 시스템 및 방법

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
1. 강유경, "산업/직업분류 자동코딩 시스템," 한국조사연구학회 2001년도 추계학술대회 발표논문집, pp. 33­45, 2001.
2. 임희석, "예제기반의 학습을 이용한 한국어 표준산업/직업 자동코딩 시스템," 한국콘텐츠학회논문지, Vol. 5, No. 4,pp. 169­179, 2005.
3. Y. Jung, J. Ryu, S.-H. Myaeng, and D.-C. Han, "A web-based automated system for industry and occupationcoding,"The 9th International Conference on Web In-formation Systems Engineering, pp. 443­457, 2008.

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102494034B1 (ko) * 2022-09-26 2023-01-31 메이저위드(주) 기업 업무 메뉴얼 표준화 자동화 방법, 장치 및 시스템

Similar Documents

Publication Publication Date Title
Chan et al. A text-based decision support system for financial sequence prediction
Inzalkar et al. A survey on text mining-techniques and application
Stein et al. Intrinsic plagiarism analysis
US20150081277A1 (en) System and Method for Automatically Classifying Text using Discourse Analysis
CN110968699A (zh) 一种基于事理推荐的逻辑图谱构建及预警方法和装置
CN110276054B (zh) 一种保险文本结构化实现方法
Alrefai et al. Sentiment analysis for Arabic language: A brief survey of approaches and techniques
Garg et al. Text pre-processing of multilingual for sentiment analysis based on social network data.
Faruque et al. Ascertaining polarity of public opinions on Bangladesh cricket using machine learning techniques
WO2020091618A1 (ru) Система определения именованных сущностей с динамическими параметрами
Ribeiro et al. Discovering IMRaD structure with different classifiers
Hossari et al. TEST: A terminology extraction system for technology related terms
Wosiak Automated extraction of information from Polish resume documents in the IT recruitment process
Channabasamma et al. A contextual model for information extraction in resume analytics using NLP’s spacy
Lande et al. Using Part-of-Speech Tagging for Building Networks of Terms in Legal Sphere.
Algburi et al. Comparative analysis for arabic sentiment classification
KR20220068937A (ko) 기계학습 방법론을 이용한 한국 표준 산업/직업 분류 방법
Chumwatana COMMENT ANALYSIS FOR PRODUCT AND SERVICE SATISFACTION FROM THAI CUSTOMERS'REVIEW IN SOCIAL NETWORK
Marques-Lucena et al. Framework for customers’ sentiment analysis
Suhariyanto et al. Aspect based sentiment analysis: a systematic literature review
Sheng et al. Chinese event factuality detection
Ting et al. Named entity enrichment based on subject-object anaphora resolution
DeVille et al. Text as Data: Computational Methods of Understanding Written Expression Using SAS
Alec Ontology Population from French Classified Ads
CN116595192B (zh) 科技前沿信息获取方法、装置、电子设备和可读存储介质