KR20170050215A

KR20170050215A - 인사데이터의 분석을 통한 특정행위 발생 예측방법 및 예측프로그램

Info

Publication number: KR20170050215A
Application number: KR1020150151465A
Authority: KR
Inventors: 양승준; 전상현
Original assignee: 양승준
Priority date: 2015-10-30
Filing date: 2015-10-30
Publication date: 2017-05-11
Also published as: KR101856478B1

Abstract

본 발명은 인사데이터의 분석을 통한 특정행위 발생 예측방법 및 예측프로그램에 관한 것이다.
본 발명의 일실시예에 따른 인사데이터의 분석을 통한 특정행위 발생 예측방법은, 컴퓨터가 하나 이상의 직원 또는 채용후보자의 인사데이터를 누적하는 단계(S100); 특정한 기계학습 알고리즘에 하나 이상의 선택변수를 적용한 후, 각 변수의 조절을 통해 예측정확도를 산출하는 단계(S200); 상기 하나 이상의 선택변수 중에서 상기 예측정확도를 바탕으로 예측변수를 설정하는 단계(S300); 및 상기 예측변수를 바탕으로 특정한 예측대상자의 특정행위발생확률을 산출하는 단계(S400);를 포함한다.
본 발명에 따르면, 과거의 데이터(퇴사자 또는 우수인재 등 모델이 되는 기존 직원 데이터)를 학습(Training)하여 결정된 예측변수를 이용하여, 채용예정자 또는 현재 고용직원이 특정행위(예를 들어, 퇴사 또는 고성과 등)를 수행할 가능성을 정확하게 산출할 수 있다.

Description

인사데이터의 분석을 통한 특정행위 발생 예측방법 및 예측프로그램 {METHOD AND PROGRAM FOR PREDICTING THE OCCURRENCE OF CERTAIN ACTION BY ANALYZING HUMAN RESOURCE DATA}

본 발명은 인사데이터의 분석을 통한 특정행위 발생 예측방법 및 예측프로그램에 관한 것으로, 보다 자세하게는 직원의 인사데이터가 누적되어 구축된 빅데이터인 직원의 성과를 구성하는 요소에 대해 기계학습 기법을 적용하여 직원의 장래 특정행위(예를 들어, 퇴사, 고성과 등)의 발생 가능성을 산출하는, 예측방법 및 예측프로그램에 관한 것이다.

빅데이터는 데이터의 생성 양ㆍ주기ㆍ형식 등이 기존 데이터에 비해 너무 크기 때문에, 종래의 방법으로는 수집ㆍ저장ㆍ검색ㆍ분석이 어려운 방대한 데이터를 말한다. 빅데이터는 각종 센서와 인터넷의 발달로 데이터가 늘어나면서 나타났다. 컴퓨터 및 처리기술이 발달함에 따라 디지털 환경에서 생성되는 빅데이터와 이 데이터를 기반으로 분석할 경우 질병이나 사회현상의 변화에 관한 새로운 시각이나 법칙을 발견할 가능성이 커졌다. 일부 학자들은 빅데이터를 통해 인류가 유사 이래 처음으로 인간 행동을 미리 예측할 수 있는 세상이 열리고 있다고 주장하기도 하며, 이를 주장하는 대표적인 학자로는 토머스 멀론(Thomas Malone) 미국 매사추세츠공과대학 집합지능연구소장이 있다.

또한, 오늘날 전사적 자원 관리(Enterprise resource planning; ERP)시스템은 기업 활동을 위해 쓰이는 기업 내의 모든 인적, 물적 자원을 효율적으로 관리하여 궁극적으로 기업의 경쟁력을 강화하는 역할을 하고 있다. ERP 시스템은 제조업을 포함한 다양한 비즈니스 분야에서 생산, 구매, 재고, 주문, 공급자와의 거래, 고객서비스 제공 등 주요 프로세스 관리를 돕는 여러 모듈로 구성된 통합 애플리케이션 패키지로 기능하고 있다. 또한 ERP 시스템은 인적자원을 위한 소프트웨어 모듈도 포함된다. 기업의 업무를 컴퓨터 시스템 안으로 포섭해서 전산화할 때 여러 모듈로 구성이 된 ERP 소프트웨어를 이용하여 기업 업무의 효율을 증가시킬 수 있기 때문에 이 소프트웨어 패키지는 오늘날 널리 활용되고 있다. ERP 소프트웨어 패키지에는 인사관리 소프트웨어도 포함되어 있다. 개인의 직무를 수행하면서 쌓이는 역량을 반영하여 신입사원 채용, 인사이동, 승진 등의 인사관리 시에 참고하도록 하는 기능을 실행하고 있다.

종래의 인사관리 프로그램은 개인의 역량을 종합적으로 판단할 수 없는 문제가 있었다. 종래의 기법에 따르면 각각의 직무에서 요구되는 역량에 대해서 축적되는 역량이 직무마다 일대일로 대응하도록 단순화했다. 그렇기 때문에 하나의 업무를 수행함으로써 축적되는 다양한 역량이나 유사직무를 수행함으로써 쌓이는 역량이 제대로 반영되지 못하는 문제점이 발생하였다. 시스템 관점에서의 근본적인 이유는 개인이 보유하고 있는 역량을 다양한 직무에서 요구되는 복수의 역량들과 매핑할 수 있는 근거자료를 시스템이 축적하지 못해서 개인의 역량을 종합적으로 판단할 수 있는 데이터를 생산하지 못하기 때문이다.

또한, 기업의 가장 큰 자산인 직원과 관련된 채용/인사업무에 대해서 여전히 감과 직관에 의해 업무가 처리되고 있고, 이런 관행은 높은 퇴사율과 이에 따른 업무생산성과 경쟁력 저하의 직접적 원인이 되고 있다.

따라서, 채용후보와 직원의 채용/인사데이터, 그리고 기타 내외부의 유용한 데이터를 수집, 분석하여 기존의 스펙과 면접관의 직관에 의존한 채용문화에서 탈피하여, 특정한 기업의 조직문화 또는 업무환경에 적합한(best fit) 자질과 태도를 갖춘 직원을 채용하고 유지할 수 있도록 도와주는, 인사데이터의 분석을 통한 특정행위 발생 예측방법 및 예측프로그램을 제공하고자 한다.

본 발명의 일실시예에 따른 인사데이터의 분석을 통한 특정행위 발생 예측방법은, 컴퓨터가 하나 이상의 직원 또는 채용후보자의 인사데이터를 누적하는 단계; 특정한 기계학습 알고리즘에 하나 이상의 선택변수를 적용한 후, 각 선택변수의 예측정확도를 산출하는 단계; 상기 하나 이상의 선택변수 중에서 상기 예측정확도를 바탕으로 예측변수를 설정하는 단계; 및 상기 예측변수를 바탕으로 특정한 직원 또는 채용후보자의 특정행위발생확률을 산출하는 단계;를 포함하되, 상기 선택변수는 직원의 상기 특정행위 발생확률 산출에 활용되는 상기 예측변수의 후보군이며, 상기 컴퓨터에 의해 설정된 특정한 예측조건으로 제한된 변수를 포함하는 것을 특징으로 한다.

또한, 각각의 인사데이터를 벡터값으로 변환하는 단계;를 더 포함할 수 있다.

또한, 상기 인사데이터는 하나 이상의 카테고리로 분류되며, 상기 카테고리는 하나 이상의 세부요소를 포함하며, 상기 벡터값 변환단계는, 상기 카테고리 또는 세부요소의 식별정보를 포함하는 웹페이지 또는 문서를 탐색하는 단계; 상기 탐색된 웹페이지 또는 문서 내에 포함된 상기 카테고리와 상기 세부요소의 관계를 바탕으로, 벡터모델을 생성하는 단계; 및 상기 벡터모델을 통해, 각각의 세부요소를 벡터표현으로 변환하는 단계;를 포함할 수 있다.

또한, 상기 예측변수 산출단계는, 전체 인사데이터를 n(n은 1보다 큰 자연수)개의 그룹으로 분할하고, m(m은 n보다 작은 자연수)개의 그룹을 선택하여 예측변수 산출과정을 수행하는 것을 특징으로 하고, 상기 예측변수 산출과정에서 선택되지 않은 그룹에 포함된 하나 이상의 인사데이터를 적용하여 상기 예측변수를 검증하는 단계;를 더 포함할 수 있다.

또한, 상기 컴퓨터가 서버인 경우, 상기 컴퓨터가 직원의 클라이언트로 설문데이터를 제공하고, 상기 설문데이터에 대한 응답데이터를 수신하는 단계; 및 상기 응답데이터를 문항별 또는 직원별로 정규화하여 상기 인사데이터에 포함시키는 단계;를 더 포함할 수 있다.

또한, 상기 특정행위발생확률의 예측근거를 산출하는 단계;를 더 포함하되, 상기 예측근거는 특정한 예측모형에 이용되는 예측변수일 수 있다.

또한, 상기 예측근거 산출단계는, 미리 정해진 특정행위발생확률값을 기준으로 예측대상자 그룹을 분류하는 단계; 각각의 선택변수의 수치값에 따른 상기 분류된 양 그룹 내 예측대상자의 분포를 산출하는 단계; 및 상기 양 그룹 내 예측대상자의 분포 간에 특정값 이상의 차이가 존재하면, 상기 선택변수를 예측변수로 추출하는 단계;를 포함할 수 있다.

또한, 상기 예측근거 산출단계는, 상기 예측근거로 산출된 예측변수에 포함된 세부요소, 수치값 또는 수치범위를 복수의 그룹으로 분류하여, 특정행위에 대한 기준모형을 생성하는 단계; 및 상기 기준모형과 상기 예측대상자를 비교하여 각 예측변수에 따른 비교확률을 산출하고, 각 예측변수에 대한 비교확률에 각 예측변수의 가중치를 반영한 후 합산하여 전체 비교확률을 산출하는 단계;를 더 포함할 수 있다.

본 발명의 다른 일실시예에 따른 인사데이터의 분석을 통한 특정행위 발생 예측프로그램은, 하드웨어와 결합되어 상기 언급된 인사데이터의 분석을 통한 특정행위 발생 예측방법을 실행하며, 매체에 저장된다.

상기와 같은 본 발명에 따르면, 아래와 같은 다양한 효과들을 가진다.

첫째, 과거의 데이터(퇴사자 또는 우수인재 등 모델이 되는 기존 직원 데이터)를 학습(Training)하여 결정된 예측변수를 이용하여, 채용예정자 또는 현재 고용직원이 특정행위(예를 들어, 퇴사 또는 고성과 등)를 수행할 가능성을 정확하게 산출할 수 있다.

둘째, 고용주는 퇴사 가능성이 낮은 직원을 채용할 수 있고 고용된 직원을 적절한 보직에 배치할 수 있어서, 회사의 업무효율을 높일 수 있는 효과가 있다. 또한, 직원의 조기퇴사에 의한 채용 관련 비용 및 채용 과정을 위해 소비되는 시간 등을 절약할 수 있다.

셋째, 인사데이터로 활용되는 설문조사에 대한 응답데이터를 정규화하여 활용함에 따라, 응답자의 성향에 따라 발생하는 편차에 영향을 받지 않고, 설문조사를 통해 예측정확도가 높은 예측변수를 추출할 수 있다.

넷째, 머신러닝을 통해 제공되는 예측결과에서 파악하기 어려운 예측근거를 사용자에게 제공할 수 있어서, 사용자의 예측결과에 대한 신뢰도가 높아질 수 있다.

도 1은 본 발명의 실시예들에 따른 인사데이터의 유형을 포함하는 예시표이다.
도 2는 본 발명의 일실시예에 따른 인사데이터의 분석을 통한 특정행위 발생 예측방법의 순서도이다.
도 3은 본 발명의 일실시예에 따른 예측근거 산출단계를 더 포함하는 인사데이터의 분석을 통한 특정행위 발생 예측방법의 순서도이다.
도 4는 본 발명의 일실시예에 따른 특정행위발생확률의 예측근거를 산출하는 과정을 나타내는 순서도이다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.

본 명세서에서 컴퓨터는 연산처리를 수행하여 사용자에게 결과를 제공할 수 있는 다양한 장치들이 모두 포함된다. 예를 들어, 컴퓨터는 데스크 탑 PC, 노트북(Note Book) 뿐만 아니라 스마트폰(Smart phone), 태블릿 PC, 셀룰러폰(Cellular phone), 피씨에스폰(PCS phone; Personal Communication Service phone), 동기식/비동기식 IMT-2000(International Mobile Telecommunication-2000)의 이동 단말기, 팜 PC(Palm Personal Computer), 개인용 디지털 보조기(PDA; Personal Digital Assistant) 등도 해당될 수 있다. 또한, 컴퓨터는 클라이언트로부터 요청을 수신하여 정보처리를 수행하는 서버(즉, 서버 컴퓨터)가 해당될 수 있다.

본 명세서에서 인사데이터는, 직원의 채용 또는 인사관리에 사용될 수 있는 데이터로, 이전 또는 기존의 직원에 대해 누적된 여러 데이터를 의미한다. 예를 들어, 인사데이터는, 도 1에 기재된 바와 같이, 기술적 능력(Skill set), 사고방식(Mind set), 직장생활이력(Past Behavior)로 분류되는 다양한 요소를 포함할 수 있다.

본 명세서에서 예측대상자는, 사용자로부터 특정행위(예를 들어, 조기퇴사, 특정 업무 영역에서의 고성과 등)의 발생 또는 수행 가능성의 산출이 요청되는 직원 또는 채용예정자를 의미한다.

본 명세서에서 예측변수는, 사용자가 예측하고자 하는 특정행위 발생에 영향을 미치는 변수를 의미한다. 예를 들어, 다른 변수에 관한 조건이 동일하다고 가정할 때, 예측변수의 차이에 의해 특정행위 발생확률이 달라질 수 있다. 본 명세서에서 선택변수는, 직원의 상기 특정행위 발생확률 산출에 활용되는 상기 예측변수의 후보군이다.

본 명세서에서 예측알고리즘은, 기계학습 기법을 바탕으로 특정한 예측변수를 적용하여 형성되어 예측대상자에게서 특정행위가 발생될 확률(즉, 특정행위발생확률)을 산출하는 소프트웨어 또는 프로그램으로, 이하, '예측모형'으로 표현될 수도 있다.

이하, 도면을 참조하여 본 발명의 실시예들에 따른 인사데이터의 분석을 통한 특정행위 발생 예측방법 및 예측프로그램에 대해 설명하기로 한다.

도 2는 본 발명의 일실시예에 따른 인사데이터의 분석을 통한 특정행위 발생 예측방법에 대한 순서도이다.

도 2를 참조하면, 본 발명의 일실시예에 따른 인사데이터의 분석을 통한 특정행위 발생 예측방법은, 컴퓨터가 하나 이상의 직원 또는 채용후보자의 인사데이터를 누적하는 단계(S100); 특정한 기계학습 알고리즘에 하나 이상의 선택변수를 적용한 후, 각 선택변수의 예측정확도를 산출하는 단계(S200); 상기 하나 이상의 선택변수 중에서 상기 예측정확도를 바탕으로 예측변수를 설정하는 단계(S300); 및 상기 예측변수를 바탕으로 특정한 예측대상자의 특정행위발생확률을 산출하는 단계(S400);를 포함한다. 본 발명의 일 실시예에 따른 인사데이터의 분석을 통한 특정행위 발생 예측방법을 순서대로 설명한다.

컴퓨터가 하나 이상의 직원 또는 채용후보자의 인사데이터를 누적한다(S100). 예를 들어, 컴퓨터는 기존의 장기근속자, 고성과자들이나 입사 후 6개월 이내에 조기퇴사하는 직원의 인사데이터를 누적할 수 있다. 또한, 예를 들어, 컴퓨터는 모든 직원 또는 채용후보자의 인사데이터를 누적하고, 퇴사자 또는 우수인재 등 모델이 되는 직원의 인사데이터와 일반적인 직원의 인사데이터를 비교할 수 있다.

컴퓨터가 특정한 기계학습 알고리즘에 하나 이상의 선택변수를 적용한 후, 각 선택변수의 예측정확도를 산출한다(S200). 그 후, 컴퓨터는 상기 하나 이상의 선택변수 중에서 상기 예측정확도를 바탕으로 예측변수를 설정한다(S300). 즉, 컴퓨터는 기계학습 알고리즘을 이용하여 복수의 선택변수 중에서 예측력(또는 예측정확도)을 높일 수 있는 특성들(Feature/Predictor, 예측변수)을 가공 또는 선택할 수 있다. 예를 들어, 컴퓨터는 예측변수 결정과정(S200) 수행을 통해 예측변수 중 하나인 학력사항이 퇴사 여부에 아무런 상관관계가 없다고 판단(즉, 특정행위 중 하나인 조기퇴사에 영향력이 낮은 예측변수로 판단)할 수 있고, 해당 예측변수(즉, 속성)을 예측모델의 수립에 사용하지 않을 수 있다. 이를 위해, 컴퓨터는 기계학습 알고리즘으로 지도 학습 (Supervised Machine Learning) 기술 또는 비지도 학습 기술을 적용할 수 있다.

일실시예로, 지도 학습기술을 이용하는 경우, 컴퓨터는 특정한 결과 도출을 위해 생성된 알고리즘에 하나 이상의 선택변수를 적용하여 예측변수를 결정할 수 있다. 컴퓨터는, R2 (R-Squared, 결정계수) 알고리즘, Random Forest 알고리즘 등이 사용될 수 있다. R2 (R-Squared, 결정계수) 알고리즘의 경우, 회귀분석의 결과 퇴사 예측변수(예를 들어, 출퇴근거리)의 R-Squared가 30%이면, 퇴사의 30% 정도가 해당 변수(Predictor)로 설명될 수 있다. Random Forest 알고리즘의 경우, 특성(Feature, 변수)의 중요도/유용성을 측정하는 방법으로, 컴퓨터가 다수의 Decision Trees(의사결정트리)를 사용하여 각각의 Decision Trees가 분석 결과에 대해 다수결 투표를 하는 방식으로 예측모델의 과적합(Overfitting: 예측모형이 Training Data에서 불필요한 특성/noise까지 학습하여 예측력이 저하되는 것)을 방지하는 기법이다.

일실시예로, 비지도 학습 기술을 이용하는 경우, 컴퓨터는 심층신경망을 구축하여, 누적된 인사데이터의 공통패턴 또는 공통특징을 추출하여 이를 예측변수로 결정할 수 있다. 즉, 컴퓨터는 딥러닝(Deep-Learning)을 통해 복수의 직원 또는 채용후보자들의 특정행위 발생과 공통된 특성인 예측변수를 추출할 수 있다.

컴퓨터는 예측변수를 도출한 후, 공통된 패턴을 검출하여 예측모델(또는 예측모형)을 수립할 수 있다. 공통된 패턴을 도출하는 일실시예로, 컴퓨터는 지도학습(Supervised Machine Learning) 알고리즘들을 활용하여 공통된 패턴을 검출하여 예측모델을 수립할 수 있다. 지도 학습 알고리즘으로는, MARS(다변수 적응 회귀 스플라인) 알고리즘, Decision Trees(의사결정트리) 방식 등이 이용될 수 있다. MARS(다변수 적응 회귀 스플라인) 알고리즘은 여러개의 회귀(regression) 모델을 하나의 함수로 통합하여 예측의 정확도를 높이는 회귀분석 알고리즘이다. Decision Trees(의사결정트리) 방식은, 관찰된 과거 데이터의 속성값을 가지고 특정 결론(퇴사)을 도출하는 알고리즘이다.

또한, 컴퓨터는 선택변수로 일반적인 변수 외에 특정한 예측조건으로 제한한 변수를 추가할 수 있다. 상기 예측조건은 이에 따라 특정행위(예를 들어, 퇴사 또는 고성과)의 발생 가능성이 달라질 것으로 예상되는 변수에 제한적으로 설정되는 조건에 해당한다. 예를 들어, 퇴사 모형을 만드는 경우 주어진 기본 변수가 최근 3년간의 연봉이라면, 해당 데이터값(최근 3년간의 연봉)에 추가하여 예측력이 높이는 조건을 추가로 만들어 선택변수로 사용할 수 있다. 구체적으로, 컴퓨터는 '최근 3년간의 평균 연봉 인상률과의 차이'라는 기본적인 변수에 '동일 직급' 또는 '동일 연차'라는 데이터범위를 제한하는 예측조건을 부가할 수 있다. 즉, '최근 3년간의 평균 연봉 인상률과의 차이' 는 특정행위 발생(예를 들어, 퇴사 가능성)에 영향이 적을 수 있으나,'동일 직급의 최근 3년간 평균 연봉 인상률과의 차이' 또는 '동일 연차의 최근 3년간 평균 연봉 인상률과의 차이'로 분석하면 특정행위 발생에 영향을 크게 미칠 수 있다. 또한, 컴퓨터는 하나의 예측조건을 부가할 수 있고, 복수의 예측조건을 부가하여 예측력을 더 높일 수 있다.

또한, 컴퓨터는 적절한 예측조건을 설정할 수 있다. 즉, 예측력이 높은 특성을 뽑기 위해 인사업무 영역에 대한 사전 경험을 통해 주어진 학습 데이터의 항목/변수들을 가공(feature engineering)하여 새로운 변수를 생성할 수 있다.

컴퓨터가 상기 예측변수를 바탕으로 특정한 예측대상자의 특정행위발생확률을 산출한다(S400). 컴퓨터가 특정한 예측대상자에 대한 특정행위발생확률을 산출하는 방식으로는 다양한 방식이 적용될 수 있다.

일실시예로, 컴퓨터는, 예측모형 생성에 사용된 특정한 직원(예를 들어, 기존 퇴사자 또는 과거 고성과자)과의 예측변수 값의 차이를 반영하여, 특정한 예측대상의 특정행위발생확률을 산출할 수 있다. 예를 들어, 직원 A의 특정행위발생확률을 산출하고자 할 때, 예측변수 추출에 이용되었던 특정한 직원B의 인사데이터와 예측대상자인 직원A의 인사데이터를 비교하여 유사 또는 차이 정도를 산출하고, 직원B의 특정행위발생확률을 기초로 상기 유사 또는 차이 정도를 반영하여 직원A의 특정행위발생확률을 산출할 수 있다.

또한, 각각의 인사데이터를 벡터값으로 변환하는 단계;를 더 포함할 수 있다. 인사데이터에 포함된 여러 세부요소는 텍스트로 표현되므로, 분석 시에 수치로 변환 또는 매칭을 수행하여야 수학적인 분석 수행이 가능하다. 기존에는 이진데이터 방식을 적용하여, 직원이 특정한 직무능력을 가지고 있으면 1, 가지고 있지 않으면 0으로 매칭하는 방식을 사용하였다. 그러나 이러한 방식을 통해서는 유사한 그룹에 속하는 직무능력을 구별해낼 수 없다. 따라서, 텍스트로 된 인사데이터의 보유여부에 해당하는 0, 1의 이진데이터가 아닌 벡터 값으로 변환하는 방식을 이용하여, 벡터공간 상에서 근접한 위치에 있는 직무능력(즉, 세부요소)의 경우 동일한 그룹으로 판단하는 방식을 적용할 수 있다.

텍스트에 해당하는 인사데이터를 벡터값으로 변환하는 방식의 일실시예로, 온라인 상에서 획득 가능한 웹페이지 또는 문서를 통해 '특정한 인사데이터 카테고리(즉, 유형)와 이에 포함되는 세부요소 간의 관계'를 인식하여 수치로 변환하는 방식이 해당될 수 있다. 즉, 인사데이터는 하나 이상의 카테고리(예를 들어, 인구/학력/자격증, 직무/경력, 근태/상벌, 성과/고과 등)로 분류되며, 상기 카테고리는 하나 이상의 세부요소(예를 들어, 직무/경력 카테고리 내에 프로그래밍 언어인 C, JAVA, IOS, Android 능력이 포함될 수 있다)를 포함할 수 있다.

이를 위해, 상기 벡터값 변환단계는, 상기 카테고리 또는 세부요소의 식별정보를 포함하는 웹페이지 또는 문서를 탐색하는 단계; 상기 탐색된 웹페이지 또는 문서 내에 포함된 상기 카테고리와 상기 세부요소의 관계를 바탕으로, 벡터모델을 생성하는 단계; 및 상기 벡터모델을 통해, 각각의 세부요소를 벡터표현으로 변환하는 단계;를 포함할 수 있다. 먼저, 컴퓨터는 카테고리 또는 세부요소의 식별정보를 포함하는 웹페이지 또는 문서를 탐색할 수 있다. 예를 들어, 컴퓨터는 온라인 상에서 크롤링을 수행하여 카테고리의 명칭과 세부요소의 명칭이 함께 포함된 웹페이지 또는 문서를 탐색할 수 있다.

그 후, 컴퓨터는 상기 탐색된 웹페이지 또는 문서 내에 포함된 상기 카테고리와 상기 세부요소의 관계를 바탕으로, 벡터모델을 생성할 수 있다. 컴퓨터는 상기 탐색된 웹페이지 또는 문서에 Word2vec함수를 적용하여 수행할 수 있다. 그 후, 컴퓨터는 상기 벡터모델을 통해, 각각의 세부요소를 벡터표현으로 변환할 수 있다.

예를 들면, IT 직종 직원들이 보유하고 있는 스킬/기술 중에 C, JAVA, iOS, Android 개발 스킬이 있는 경우, 기본 모델링에서는 서로 다른 카테고리 항목 4개를 가지고 해당 기술의 보유 유/무를 가지고 비교하였지만, 이를 word2vec으로 벡터로 표현할 경우에는 iOS 는 objective C로 개발을 하기 때문에 C와 유사한 벡터 값을 가지고, Android는 주로 JAVA로 개발을 하기 때문에 JAVA와 유사한 벡터 값을 가진다. 이 결과, 해당 스킬 카테고리는 (C, iOS)와 (JAVA, Android)의 2개의 그룹으로 묶일 수 있다. 이를 통해, 기존에는 산출할 수 없었던 사항을 파악할 수 있고, 보다 세밀하고 정확한 결과를 산출할 수 있다. 즉, word2vec를 숫자로 표현하기 어려운 인사 데이터에 활용해 기존의 단순 텍스트 비교(해당 항목 보유 유/무)에서 찾을 수 없었던 데이터 항목(자격증, 기술, 취미 등)과 예측하려는 특정행위와의 관계를 찾을 수 있다.

또한, 상기 예측변수 산출과정에서 선택되지 않은 그룹에 포함된 하나 이상의 인사데이터를 적용하여 예측변수를 검증하는 단계;를 더 포함할 수 있다. 즉, 추출된 예측변수로 구성된 예측모형의 모델링에 사용되지 않은 그룹에 포함된 특정한 직원의 인사데이터를 입력하여 상기 직원과 관련하여 특정행위발생확률(즉, 퇴사 가능성 또는 고성과 가능성 등)을 산출할 수 있다. 그 후, 컴퓨터는 이미 발생한 상황임에 따라 알고 있는 실제값과 산출값을 비교하여 예측변수가 제대로 산출되었는지 확인할 수 있다.

또한, 컴퓨터는, 상기 예측변수 산출단계(S200)에서, 전체 인사데이터를 n(n은 1보다 큰 자연수)개의 그룹으로 분할하고, m(m은 n보다 작은 자연수)개의 그룹을 선택하여 예측변수 산출과정을 수행할 수 있다. 컴퓨터가 예측변수 검증을 수행하기 위해서는 검증용으로 입력할 인사데이터가 필요하다. 따라서, 컴퓨터는, 특정상황이 발생된 직원의 인사데이터를 제외하기 위해, 전체 인사데이터를 n개의 그룹으로 분할하고, 그 중에서 일부 그룹만을 예측변수 산출에 이용하도록 할 수 있다. 예측변수 산출에 이용되는 인사데이터 그룹은 트레이닝 데이터라고 표현될 수 있다. 예를 들어, 컴퓨터는 k-fold cross validation 기법을 통해 전체 데이터을 k개의 등분으로 나누어 트레이닝과 예측 데이터셋 각각을 k-1개, 1개로 선택할 수 있다.

또한, 상기 컴퓨터가 서버인 경우, 컴퓨터가 직원의 클라이언트로 설문데이터를 제공하고, 상기 설문데이터에 대한 응답데이터를 수신하는 단계;를 더 포함할 수 있다. 직원의 성격 또는 태도가 특정행위 발생에 영향을 미치는 지 여부를 파악하기 위해서는, 성격 또는 태도 파악을 위한 설문조사가 필요할 수 있다. 이를 통해, 상기 컴퓨터가 서버인 경우, 컴퓨터는 무선통신을 통해 클라이언트로 기 생성된 설문데이터를 제공할 수 있고, 클라이언트 내에 사용자에 의해 입력된 설문데이터에 대한 응답데이터를 무선통신을 통해 수신할 수 있다. 서버는 클라이언트로 설문데이터의 각 문항을 차례대로 제공할 수 있고, 한번에 제공할 수도 있다. 컴퓨터는 수신한 설문데이터에 대한 응답데이터 자체 또는 응답데이터를 바탕으로 가공된 데이터를 선택변수로 활용할 수 있다.

또한, 상기 응답데이터를 문항별 또는 직원별로 정규화하여 상기 인사데이터에 포함시키는 단계;를 더 포함할 수 있다. 설문조사를 수행하는 경우, 응답자의 성향에 따라서 수치범위의 분포가 달라질 수 있다. 예를 들어, 특정한 응답자는 호불호를 극단적으로 표시하는 경우(즉, 답변의 자유도가 -100 ~ +100의 범위일 경우에 긍정적인 경우 +100, 부정적이면 -100으로 응답하는 경우)가 있는 반면, 특정한 응답자는 온건적(또는 중립적)으로 응답을 하는 경우(즉, 0에 가까운 수치들로 응답하는 경우)가 있다. 이러한 응답데이터를 그대로 사용하는 경우, 극단적인 응답의 영향력이 매우 커져서, 정확한 결과 예측이 어려울 수 있다. 따라서, 컴퓨터는 예측대상자가 입력한 응답데이터(즉, 설문점수)를 개인별 또는 문항별로 정규화하는 과정을 수행할 수 있다. 이를 통해, 예측대상자 개인의 특성을 객관적으로 판단하여 예측모형의 정확도를 높일 수 있다. 예를 들어, 컴퓨터가 개인별로 정규화를 수행하는 경우, 개인의 응답데이터들을 정규분포화 또는 표준정규분포화할 수 있다. 이를 통해, 편차가 크도록 각 문항에 대해 점수를 부여하는 개인의 성향에 영향을 받지 않아, 정확도가 높은 예측변수를 산출할 수 있다.

또한, 도 3에서와 같이, 산출된 예측변수를 바탕으로 생성된 예측모형을 이용하여 산출된 특정행위발생확률에 대한 예측근거를 산출하는 단계(S500);를 더 포함할 수 있다. 상기 예측근거는 특정한 예측모형에 이용되는 예측변수일 수 있다. 머신러닝을 이용하여 예측 모델을 구축하는 경우, 예측의 정확도는 높지만 어떠한 원인에 의해서 그러한 예측결과가 산출되었는지 알기 어렵다. 예를 들어, 머신러닝에 의해 구축된 예측모형은 특정행위발생확률을 산출하면서 예측모형에 사용되는 예측변수의 종류와 해당 예측변수가 특정행위발생확률 산출에 미치는 중요도(예를 들어, 특정행위인 조기퇴사의 발생확률에 특정한 예측변수가 미치는 영향력)를 제시하여 줄 수는 있지만, 각 예측변수에 대한 구체적인 설명정보(예를 들어, 각 변수 자체가 독립변인인 경우에 특정행위에 영향을 미치는 정도, 예측변수의 구체적인 수치값, 수치범위에 따른 예측결과 차이 등)을 제시하여 주지 못하여 산출된 특정행위발생확률의 산출 원인 또는 근거를 사용자에게 설명해주지 못한다. 따라서, 사용자가 예측결과를 신뢰하도록 하기 위해서, 컴퓨터는 특정행위발생확률을 결정하는 원인이 된 예측변수(즉, 예측근거)를 탐색하여 제공할 필요가 있다.

특정행위발생확률을 결정하는 원인이 된 예측변수를 탐색하는 방식의 일실시예로, 도 4에서와 같이, 상기 예측근거 산출단계(S500)는, 미리 정해진 특정행위발생확률값을 기준으로 예측대상자 그룹을 분류하는 단계(S510); 각각의 선택변수의 수치값에 따른 상기 분류된 양 그룹 내 예측대상자의 분포를 산출하는 단계(S520); 및 상기 양 그룹 내 예측대상자의 분포 간에 특정값 이상의 차이가 존재하면, 특정행위발생확률의 산출에 이용된 예측변수로 추출하는 단계(S530);를 포함할 수 있다.

컴퓨터는 미리 정해진 특정행위발생확률값을 기준으로 예측대상자 그룹을 분류할 수 있다(S510). 즉, 컴퓨터는 특정한 기준값보다 확률이 작은 그룹(즉, 예측하고자 하는 특정행위를 수행할 가능성이 낮은 그룹; 이하, 제1그룹)과 기준값보다 확률이 큰 그룹(즉, 예측하고자 하는 특정행위를 수행할 가능성이 높은 그룹; 이하, 제2그룹)으로 나눌 수 있다.

그 후, 컴퓨터는 각각의 선택변수의 수치값에 따른 상기 분류된 양 그룹 내 예측대상자의 분포를 산출할 수 있다(S520). 예를 들어, 컴퓨터가 특정한 변수값에 따라 2차원 또는 3차원 상에 각 예측대상자에 상응하는 위치를 표시할 수 있다.

그 후, 컴퓨터는 상기 양 그룹 내 예측대상자의 분포 간에 특정값 이상의 차이가 존재하면, 특정행위발생확률의 산출에 이용된 예측변수로 추출할 수 있다(S530). 즉, 컴퓨터는 2차원 또는 3차원 공간 상에서 제1그룹과 제2그룹이 구별되어 분포되는지 여부를 확인할 수 있다. 특정한 선택변수에 따라 제1그룹과 제2그룹이 명확하게 구별되어 분포되는 경우(즉, 제1그룹과 제2그룹의 분포가 통계적으로 유의미한 차이를 가지는 경우), 컴퓨터는 상기 선택변수를 특정행위발생확률 산출에 고려된 예측변수로 판단할 수 있다. 반면, 특정한 선택변수에 따라 분포도 상에서 제1그룹과 제2그룹이 구별되지 않는 경우, 컴퓨터는 상기 선택변수를 특정행위발생확률 산출에 고려된 예측변수로 판단하지 않을 수 있다.

또한, 상기 예측근거로 산출된 예측변수에 포함된 세부요소, 수치값 또는 수치범위를 복수의 그룹으로 분류하는 단계;를 더 포함할 수 있다. 예측근거로 산출된 예측변수 내에는 하나 이상의 세부요소 또는 여러 수치값을 가지거나 수치범위를 가질 수 있다. 컴퓨터는 예측변수 내의 수치범위, 수치값 또는 세부요소를 특정행위 발생의 가능성을 높이는 그룹(즉, 가능성 상승 그룹) 또는 특정행위 발생 가능성을 낮추는 그룹(즉, 가능성 하락 그룹)으로 나눌 수 있다. 예를 들어, 특정행위 중 하나인 조기퇴사 가능성을 산출하는 경우이며 상기 예측변수가 '취미'인 경우, 컴퓨터는 특정행위발생확률(즉, 조기퇴사확률)의 분포에서 퇴사확률이 높은 직원들과 낮은 직원들의 취미 유형(즉, 세부요소)을 추출하고, 이를 각각의 그룹(즉, 특정행위 발생의 가능성을 높이는 세부요소의 그룹 또는 특정행위 발생 가능성을 낮추는 세부요소의 그룹)으로 분류할 수 있다. 이를 통해, 컴퓨터는 특정행위 별로 상기 가능성 상승 그룹 및 상기 가능성 하락 그룹을 포함하는 기준모형(또는 기준표)을 생성할 수 있다.

또한, 컴퓨터는 특정행위별 기준모형과 상기 예측대상자를 비교하여 각 예측변수에 따른 비교확률을 산출할 수 있다. 예를 들어, 예측변수가 하나 이상의 세부요소를 포함하는 경우, 컴퓨터는 예측대상자가 가지는 세부요소를 기준모형 내의 세부요소와 비교하고, 기준모형 내의 동일 또는 유사한 세부요소를 바탕으로 비교확률을 산출할 수 있다(예를 들어, 예측대상자가 가지는 특정한 예측변수의 세부요소와 동일 또는 유사한 세부요소를 가지는 직원의 특정행위 발생결과 또는 특정행위발생확률을 반영하여 비교확률을 산출할 수 있다). 또한, 예를 들어, 예측변수가 분할된 수치범위에 따라 특정행위가 발생될 확률이 달라지는 경우, 컴퓨터는 예측대상자가 가지는 수치를 바탕으로 비교확률을 산출할 수 있다.

또한, 컴퓨터는 각 예측변수에 대한 비교확률에 각 예측변수의 가중치를 반영한 후 합산하여 전체 비교확률을 산출할 수 있다. 예를 들어, 컴퓨터는 예측모형(또는 예측모델)을 통해 산출되는 특정한 예측변수의 중요도를 각 예측변수에 적용될 가중치로 판단하고, 각 예측변수의 가중치와 비교확률을 곱한 후 모두 더하여 전체 비교확률을 산출할 수 있다. 각 예측변수가 특정행위발생확률에 (+)요인과 (-)요인으로 구별되는 경우, 컴퓨터는 (+)요인의 예측변수에 대한 계산값은 더하고 (-)요인의 예측변수에 대한 계산값은 뺄 수도 있다. 이를 통해, 사용자는 머신러닝에 의해 산출된 정확도 높은 특정행위발생확률뿐만 아니라, 예측모형의 결과 산출원인을 설명하면서 통계적인 특정행위 발생 가능성을 제공받을 수 있어서, 인사관련 의사결정에 도움이 되는 정확한 정보를 얻을 수 있다.

이상에서 전술한 본 발명의 일 실시예에 따른 인사데이터의 분석을 통한 특정행위 발생 예측방법은, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.

상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.

상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

Claims

컴퓨터가 하나 이상의 직원 또는 채용후보자의 인사데이터를 누적하는 단계;
특정한 기계학습 알고리즘에 하나 이상의 선택변수를 적용한 후, 각 선택변수의 예측정확도를 산출하는 단계;
상기 하나 이상의 선택변수 중에서 상기 예측정확도를 바탕으로 예측변수를 설정하는 단계; 및
상기 예측변수를 바탕으로 특정한 직원 또는 채용후보자의 특정행위발생확률을 산출하는 단계;를 포함하되,
상기 선택변수는,
직원의 상기 특정행위 발생확률 산출에 활용되는 상기 예측변수의 후보군이며,
상기 컴퓨터에 의해 설정된 특정한 예측조건으로 제한된 변수를 포함하는 것을 특징으로 하는, 인사데이터의 분석을 통한 특정행위 발생 예측방법.
제1항에 있어서,
각각의 인사데이터를 벡터값으로 변환하는 단계;를 더 포함하는, 인사데이터의 분석을 통한 특정행위 발생 예측방법.
제2항에 있어서,
상기 인사데이터는 하나 이상의 카테고리로 분류되며,
상기 카테고리는 하나 이상의 세부요소를 포함하며,
상기 벡터값 변환단계는,
상기 카테고리 또는 세부요소의 식별정보를 포함하는 웹페이지 또는 문서를 탐색하는 단계;
상기 탐색된 웹페이지 또는 문서 내에 포함된 상기 카테고리와 상기 세부요소의 관계를 바탕으로, 벡터모델을 생성하는 단계; 및
상기 벡터모델을 통해, 각각의 세부요소를 벡터표현으로 변환하는 단계;를 포함하는, 인사데이터의 분석을 통한 특정행위 발생 예측방법.
제1항에 있어서,
상기 컴퓨터가 서버인 경우,
상기 컴퓨터가 직원의 클라이언트로 설문데이터를 제공하고, 상기 설문데이터에 대한 응답데이터를 수신하는 단계; 및
상기 응답데이터를 문항별 또는 직원별로 정규화하여 상기 인사데이터에 포함시키는 단계;를 더 포함하는, 인사데이터의 분석을 통한 특정행위 발생 예측방법.
제1항에 있어서,
상기 특정행위발생확률의 예측근거를 산출하는 단계;를 더 포함하되,
상기 예측근거는 특정한 예측모형에 이용되는 예측변수인, 인사데이터의 분석을 통한 특정행위 발생 예측방법.
제5항에 있어서,
상기 예측근거 산출단계는,
미리 정해진 특정행위발생확률값을 기준으로 예측대상자 그룹을 분류하는 단계;
각각의 선택변수의 수치값에 따른 상기 분류된 양 그룹 내 예측대상자의 분포를 산출하는 단계; 및
상기 양 그룹 내 예측대상자의 분포 간에 특정값 이상의 차이가 존재하면, 상기 선택변수를 예측근거에 상응하는 예측변수로 추출하는 단계;를 포함하는, 인사데이터의 분석을 통한 특정행위 발생 예측방법.
제6항에 있어서,
상기 예측근거 산출단계는,
상기 예측근거로 산출된 예측변수에 포함된 세부요소, 수치값 또는 수치범위를 복수의 그룹으로 분류하여, 특정행위에 대한 기준모형을 생성하는 단계; 및
상기 기준모형과 상기 예측대상자를 비교하여 각 예측변수에 따른 비교확률을 산출하고, 각 예측변수에 대한 비교확률에 각 예측변수의 가중치를 반영한 후 합산하여 전체 비교확률을 산출하는 단계;를 더 포함하는, 인사데이터의 분석을 통한 특정행위 발생 예측방법.
하드웨어인 컴퓨터와 결합되어, 제1항 내지 제7항 중 어느 한 항의 방법을 실행시키기 위하여 매체에 저장된, 인사데이터의 분석을 통한 특정행위 발생 예측프로그램.