KR101641419B1

KR101641419B1 - 일자리 매칭 서비스 제공 시스템 및 방법

Info

Publication number: KR101641419B1
Application number: KR1020140101271A
Authority: KR
Inventors: 홍승익; 김진수; 강상구; 주재훈; 최성규; 김기혁; 도정민
Original assignee: 주식회사 하이드; 홍승익
Priority date: 2014-08-06
Filing date: 2014-08-06
Publication date: 2016-07-21
Also published as: KR20160018886A

Abstract

본 발명은 일자리 매칭 서비스 제공 시스템에 관한 것으로, 보다 상세하게는 빅 데이터를 이용하여 지방 정부를 중심으로 관리되는 일자리 매칭 서비스 제공 시스템 및 방법에 관한 것이다.
본 발명은 (1)빅데이터를 이용하여 (2)지방정부를 중심으로 분산집중 관리되는 일자리관리 시스템으로서, (3)단계별로 개인정보보호 장치를 구비하고, (4)공공 데이터와 지방의 구인 및 구직 정보 등 정형 데이터뿐만이 아니라 추가로 소셜 미디어 자료와 담당자 상담 자료 등 비정형 데이터 등을 취합 관리하여 궁극적으로는, (5)개별 매칭 및 (6)예측 및 권고 정보를 구인자 및 구직자 양방에 제공하여 취업 매칭률을 획기적으로 높이고 정확한 일자리 정보를 관리 및 분석하고 제공할 수 있는 일자리 매칭 서비스 제공 시스템 및 방법을 제공하여 지방의 구인자 및 구직자 측의 일자리 문제의 해결을 통하여 지방의 실업률 문제를 상당 수준 저감할 수 있을 뿐만이 아니라 정확한 지방 경제정책 수립에 기여하여 지역의 경제수준 격차를 해소하는데 효과와 기능이 있다.

Description

일자리 매칭 서비스 제공 시스템 및 방법{SYSTEM AND METHOD FOR PROVIDING Job MATCHING SERVICE}

본 발명은 일자리 매칭 서비스 제공 시스템에 관한 것으로, 보다 상세하게는 빅 데이터를 이용하여 지방 정부를 중심으로 관리되는 일자리 매칭 서비스 제공 시스템 및 방법에 관한 것이다.

일반적으로 현재의 실업 및 취업의 문제, 즉 일자리 문제는 전세계적으로 공히 시급하고 쉽게 해결하기 매우 어려운 당면 과제이다. 우리나라의 경우에 2013년도 실업자수는 40만 명에 이르러 실업률은 3.2%로 OECD 가입 34개국 중 1위인데 위 실업률을 반대 성격의 지표인 고용률은 64.4%로 20위이다. 이와 같은 현상은 일종의 통계 착시현상이라고 할 수 있는데 이는 우리나라의 남다른 통계자료 산정 방식 차이에서 나오는 것이다. 여하간 우리나라는 다른 나라에 비해 실질적으로 느끼는 체감실업률은 정부에서 발표하는 수치보다 훨씬 높은 게 사실이다. 그런데 이보다 더 심각한 문제는 위와 같은 실업 중에서 현장 수요 및 공급 불일치로 발생하는 비율이 2013년 현재 47.3%나 된다는 점이다. 이와 같은 일자리 불일치(Job mismatch)는 공급자 중심의 교육훈련, 고학력, 청년 실업 그리고 여성 및 고령자 실업이라는 또 다른 문제와 관련이 있으며 궁극적으로는 직장과 주거 불일치와 지역별 편중 문제 등을 야기 시키는데 위와 같은 일자리 불일치 문제만 합리적으로 해소할 수 있다면, 실업자는 18.9 만 명 감소시켜 고용률은 1.51%P나 증가시킬 수 있는 것이어서 이를 통하여 전세계적으로 굳이 많은 예산과 시간이 소요되는 새로운 일자리 창출을 하지 않더라도 일자리 문제를 상당수준 해소할 수 있다는 계산이 나온다.

이를 대하여 기존의 취업정보 사이트들은, 거의 대부분이 전국의 전경제활동인구를 대상으로 하여 구인 및 구직 데이터를 확보하여 각자 자신에 맞는 자료를 검색하는 형태로 되어 있는데 그 검색 자료 또한 당초 입력자가 갱신하지 않으면 제때 변경되지도 아니하여 현행 자료로 관리되는 것이 아니며 게다가 확보된 자료관리에도 유연성이 거의 없는 게 실정이다.

또한, 기존의 일자리정보 관리 시스템은, 대부분 구인자가 개인이력서와 자기 소개서 등을 등록하고 희망 직종이나 연봉 등 소정의 자료를 온라인 포털 사이트에 입력하고 채용정보를 검색할 수 있다. 그리고 구직자도 자기 정보를 제공하지 않고 구인정보만을 검색할 수도 있다. 이때는 수수료를 부과하지는 않아 단발성으로 비용 부담없이 이용할 수 있다. 그런데 장기적으로 위 시스템을 이용하거나 특화된 인재 파견이나 취업 지원, 헤드 헌팅 사이트의 경우는 회원제로서 구인자는 물론 구직자들에게도 소정의 수수료를 부과하는데 구인구직이라는 것이 단기간 수월하게 해결될 문제가 아니고, 평생 당면과제여서 결국 이용 수수료가 해결문제 요인이 될 수 있다.

최신의 온라인 구인구직 시스템 및 구인구직 정보 제공 방법이, 한국 공개번호 제10-2011-0083120호(공개일 2011년 7월 20일)로 개시되어 있다.

하지만, 위 공개 특허도 기존의 일자리 정보 온라인 사이트의 경우와 마찬가지로 광고홍보 전략에 의하여 좀 더 많은 구인자와 구직자의 등록을 전국적으로 받아 데이터베이스를 크게 유지하는 데 집중하고 있을 뿐이며 여전히 구인자와 구직자를 매칭하거나 개인별로 취업정보를 제공하는 부분은 아예 배제되어 고려하고 있지 않다는 한계점이 있다.

그리고 또한, 구인자측이나 구직자측 모두 단발성 정보 입력에 의존하여 현재 자료들이 현행 데이터인지 아닌지는 단지 입력 제공자가 변경입력을 별도로 하지 않는 한 자동으로 갱신되지 않는 단점이 있었다. 특히, 구인자측 정보들은 대개 모든 데이터가 한 개의 서버에서 한꺼번에 노출되기 때문에 구인자가 공개를 동의한 후에는 개인정보누출에 대해서는 방어하거나 제한할 방법이 전혀 없어지는 문제도 있었다. 그리고 구인자가 여러 개의 일자리 정보 사이트마다 각각 별도로 입력하여야 하고 변경사항이나 갱신 내용이 있을 때에도 같은 과정을 거쳐야 하는 단점이 있었다.

본 발명의 일실시예가 이루고자 하는 기술적 과제는, (1)빅데이터를 이용하여 (2)지방정부를 중심으로 분산집중 관리되는 일자리관리 시스템으로서, (3)단계별로 개인정보보호 장치를 구비하고, (4)공공 데이터와 지방의 구인 및 구직 정보 등 정형 데이터뿐만이 아니라 추가로 소셜 미디어 자료와 담당자 상담 자료 등 비정형 데이터 등을 취합 관리하여 궁극적으로는, (5)개별 매칭 및 (6)예측 및 권고 정보를 구인자 및 구직자 양방에 제공하여 취업 매칭률을 획기적으로 높이고 정확한 일자리 정보를 관리 및 분석하고 제공할 수 있는 일자리 매칭 서비스 제공 시스템 및 방법을 제공하고자 한다.

또한 본 발명은, 지방정부와 유관 기관 및 단체에서, 혹은 개인 및 직장별로 교육훈련 및 취업연계 사업을 진행할 경우에 다양한 인력풀의 확보와 양질의 교육을 제공하여 취업 연계사업의 활성화가 가능한데 이를 실시간으로 반영하여 필요 업체와 개인을 매칭하여 주는 일자리 매칭 서비스 제공 시스템 및 방법을 제공하고자 한다.

그리고 본 발명은 특히, 지방 거주자 및 업체의 취업 매칭율을 획기적으로 높이고 정확한 일자리 정보를 관리함으로써 해당 지역의 고용관련 기관의 활성화와 합리적 일자리 정책 수립과 지방 경제의 활성화를 도모하여 서울과 지방의 일자리, 더 나아가 경제 수준의 격차를 줄이는데 기반이 되는 일자리 매칭 서비스 제공 시스템 및 방법을 제공하고자 한다.

본 발명의 일실시예에 의한 일자리 매칭 서비스 제공 시스템은, 사용자 단말기와 외부 서버로부터 입력되는 구인 및 구직 관련 데이터를 저장하는 메타 데이터베이스를 구비하는 적어도 하나의 네임 노드 서버(Name node server)와 하나의 네임 노드 서버에 대응하여 연결되고, 입력된 구인 및 구직 관련 데이터들로부터 주 데이터를 배치로 처리하는 다수의 데이터 노드 서버(Data node server)와 외부 서버로부터 구인 및 구직 관련 데이터를 배치 작업으로 추출하고 추출된 데이터와 사용자 단말기로부터 입력되는 데이터를 네임 노드 서버와 데이터 노드 서버에 분배 적재하며, 분배되어 적재된 데이터를 미리 설정된 변환 형태에, 즉 개인정보 보호를 위한 정책에 따라 가공하여 변환하고 변환된 데이터에 대해 메타 데이터베이스를 수시로 수정하여 네임 노드 서버와 데이터 노드 서버에 적재하며, 위와 같이 배치 작업으로 수시 적재된 데이터는 다시 빅데이터 패키지 툴에 의하여 데이터마이닝(Datamining)을 수행하여 생성되는 일자리 매칭 정보를 실시간으로 사용자 단말기의 요청을 받아 전송, 제공하는 제어 서버를 포함할 수 있다.

또한 본 발명의 일실시예에 의한 일자리 매칭 서비스 제공 방법은, 사용자 단말기로부터 구인 및 구직 관련 데이터를 수시로 입력받으며 외부 서버로부터 구인 및 구직 관련 데이터를 배치로 추출하는 단계와 그 추출된 데이터와 사용자 단말기로부터 수시로 입력되는 데이터를 네임 노드 서버와 데이터 노드 서버에 수시로 분배되고 적재하는 단계와 위 분배 적재된 데이터를 미리 설정된 변환 형태, 즉 개인정보보호 정책에 따라 배치 작업으로 가공하여 변환하는 단계와 변환된 데이터에 대해 메타 데이터베이스를 수정하여 네임 노드 서버와 데이터 노드 서버에 수시로 적재하는 단계와 적재된 데이터를 빅데이터 패키지 툴을 이용하여 데이터마이닝(Datamining)을 실시간으로 수행하여 생성되는 일자리 매칭 정보를 사용자 단말기의 요청을 받아 전송, 제공하는 단계를 포함할 수 있다.

본 발명의 일실시예에 의하면, 지방의 구인자와 구직자 공히 현재 시점으로, 개별적이고 최적화된, 일자리 및 인력 정보를 단문자(SM)를 각 통보받을 수 있다는 이점이 있다.

본 발명은, 빅데이타 플랫폼인 하둡의 맵리듀스(Hadoop mapreduce)와 분산파일시스템(HDFS)을 이용하여 각 데이터노드별로 추출할 자료로서 배치 작업으로 변환시키면서 익명성을 확보하며 분산 관리하여 서버시스템의 하드웨어 설치도입 비용을 획기적으로 절감하면서도 오히려 더 향상된 처리속도를 확보할 수 있다. 또한 외부자에 의한 해킹이나 내부자에 의해 서버의 자료가 모두 유출되었을 때에도 데이터가 분산되어 있어서 개인정보를 데이터 추출단계에서부터 원천적으로 보호할 수 있다는 장점도 있다.

그리고 본 발명은, 각 구인자와 구직자의 데이터베이스를 레벨1과 레벨2의 메타데이터베이스(Meta DB)로 설계 운영하여 검색 및 처리 속도를 획기적으로 저감할 수 있으며 메타디비(Meta DB)의 설계에 따라 지방의 구인자와 구직자 공히 미래시점의 예측 및 권고 데이터에 의한 개별적으로 각 특화된 일자리 및 인력 정보를 우선적으로 제공할 수 있다는 효과가 있다.

이를 통하여 본 발명은, 지역 거주자 및 업체의 취업 매칭률을 획기적으로 높이고 정확한 일자리 정보를 관리함으로써 지방의 고용관련 기관의 활성화와 합리적 정책 수립과 지방경제의 활성화를 도모하여 지방의 격차를 줄이는데 기반되는 플랫폼 서비스로서의 기능을 할 수 있다.

그리고 본 발명은, 쇼셜 미디어 API와 연동하여 지역 거주자와 업체, 교육 및 취업 상담 등 유관 기관의 실시간 발생 자료를 주기적으로 추출하여 별도의 데이터 노드에 병렬처리로 신속하게 축적으로 하여 각 개별 데이터를 갱신하여 구인자 및 구직자 측의 단문자(Short message) API를 연동시켜 개별 데이터를 실시간으로 추출하여 해당 데이터베이스를 수시로 갱신하여 항상 최신 현행 데이터로 유지하도록 해주는 효과가 있고, 이를 통하여 일상 사용자인 구인자와 구직자들에게 제공하는 효과뿐만이 아니라 파워 사용자인 지방자치단체 등 기관사용자는 자기 지역의 일자리 정보와 향후 예측 정보를 매우 정확하게 얻을 수 있게 되는 효과가 있다.

도 1은 본 발명의 실시예에 따른 일자리 매칭 서비스 제공 시스템을 개념적으로 보여주는 도면
도 2는 본 발명의 실시예에 따른 일자리 매칭 서비스 제공 시스템의 하둡(Hadoop)의 맵리듀스(Mapreduce) 프로세스를 보여주는 개념도
도 3은 본 발명의 실시예에 따른 일자리 매칭 서비스 제공 시스템의 빅데이터 하둡 생태계 시스템을 보여주는 개념도
도 4a는 본 발명의 실시예에 따른 일자리 매칭 서비스 제공 시스템의 레벨1 단계의 구직자에 대한 단문자(Short message) 발송결과 화면
도 4b는 본 발명의 실시예에 따른 일자리 매칭 서비스 제공 시스템의 레벨2 단계의 구직자에 대한 단문자(Short message) 발송결과 화면
도 5는 본 발명의 실시예에 따른 일자리 매칭 서비스 제공 시스템의 레벨2 단계의 구인자에 대한 단문자(Short message) 발송결과 화면
도 6 및 도 7은 본 발명의 실시예에 따른 일자리 매칭 서비스 제공 방법을 설명하기 위한 흐름도

이하에서는 도면을 참조하여 본 발명을 더욱 상세하게 설명한다.

이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 단순히 본 명세서 작성의 용이함을 고려하여 부여되는 것으로서 상기 "모듈" 및 "부"는 서로 혼용하여 사용할 수도 있다.

나아가 이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 실시예를 상세하게 설명하더라도 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다.

본 명세서에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나 이는 당 분야에 종사하는 기술자의 의도 또는 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있는 것이다. 또한 특정한 경우는 출원인이 임의로 선정한 용어도 있는데 그 경우에는 해당되는 발명의 설명 부분에서 그 의미를 기재할 것이다. 따라서 본 명세서에서 사용되는 용어는, 단순한 용어의 명칭이 아닌 그 용어가 가지는 실질적인 의미와 본 명세서의 전반에 걸친 내용을 토대로 해석되어야 함을 밝혀 두고자 한다.

도 1은 본 발명의 실시예에 따른 일자리 매칭 서비스 제공 시스템을 개념적으로 보여주는 도면이다.

도 1에 도시된 바와 같이 본 발명에 따른 일자리 매칭 서비스 제공 시스템은, 사용자 단말기(10)와 정부의 고용정보 포털 사이트 및 다른 고용 정보 사이트 등과 같은 외부 서버(20)로부터 입력되는 구인 및 구직 관련 데이터를 저장하는 메타 데이터베이스를 구비하는 적어도 하나의 네임 노드 서버(Name node server)(30)와 네임 노드 서버(30)에 대응하여 연결되고, 입력된 구인 및 구직 관련 데이터들로부터 주 데이터를 처리하는 다수의 데이터 노드 서버(Data node server)(40)와 외부 서버(20)로부터 구인 및 구직 관련 데이터를 추출하고, 추출된 데이터와 사용자 단말기(10)로부터 입력되는 데이터를 네임 노드 서버(30)와 데이터 노드 서버(40)에 분배 적재하며 분배 적재된 데이터를 미리 설정된 변환 형태, 즉 개인정보보호 정책에 따라 배치 작업으로 가공하여 변환하고, 위에서 배치로 변환된 데이터에 대해 메타 데이터베이스를 수정하여 네임 노드 서버(30)와 데이터 노드 서버(40)에 적재하며, 위 각 데이터 노드에 적재된 데이터를 빅데이터 패키지 툴을 이용하여 데이터마이닝(Datamining)을 배치로 수행하여 생성되는 일자리 매칭 정보를 사용자 단말기(10)의 요청을 받아 실시간으로 전송, 제공하는 제어 서버(50)를 포함할 수 있다.

여기서 다수의 각 데이터 노드 서버(40)는, 대응하는 하나의 네임 노드 서버(30)에 병렬 연결되어 주데이터를 네임 노드 서버(30)의 메타디비와 직접 연계하여 병렬 처리할 수 있도록 한다.

네임 노드 서버(30)는, 구인 및 구직 관련 데이터 중 트랜잭션 로그 파일(Transaction log file) 및 요약 키값을 적재하며 데이터 노드 서버(40)는 구인 및 구직 관련 데이터 중 주 데이터 파일들을 적재한다.

사용자 단말기(10)와 외부 서버(20)로부터 입력되는 구인 및 구직 관련 데이터는 정형 데이터, 반정형 데이터 및 비정형 데이터 중 적어도 어느 하나 이상일 수 있다.

그리고 제어 서버(50)는, 외부 서버(20)로부터 구인 및 구직 관련 데이터를 배치 작업으로 추출할 때 빅데이터 플랫폼인 하둡의 분산파일시스템 패키지를 이용하여 할 수 있다. 또한 제어 서버(50)는, 추출된 데이터와 사용자 단말기(10)로부터 입력되는 데이터를 네임 노드 서버(30)와 데이터 노드 서버(40)에 분배 적재할 때 구인 및 구직 관련 데이터 중 트랜잭션 로그 파일(transaction log file) 및 요약 키값을 네임 노드 서버(30)에 수시로 적재하고 구인 및 구직 관련 데이터 중에 주 데이터 파일들을 데이터 노드 서버(40)에 배치 작업으로 적재할 수 있다.

그리고 제어 서버(50)는, 추출된 데이터와 사용자 단말기(10)로부터 입력되는 데이터를 네임 노드 서버(30)와 데이터 노드 서버(40)에 분배 적재할 때 데이터를 키값의 행렬로 변환하여 정리하기 위해 네임 노드 서버(30)를 통합하여 제어하고 각 정리된 데이터로부터 동일한 키값을 갖는 데이터를 분산 처리하도록 데이터 노드 서버(40)를 제어할 수 있도록 한다.

제어 서버(50)는, 배치 작업으로 추출된 데이터와 사용자 단말기(10)로부터 수시로 입력되는 데이터를 네임 노드 서버(30)와 데이터 노드 서버(40)에 분배 적재할 때 네임 노드 서버(30)에서 데이터 노드 서버(40)로 전송되는 데이터의 전송시간, 각 데이터 노드 서버의 데이터 처리량 및 각 데이터 노드 서버의 단위 데이터 처리시간 중, 적어도 어느 하나를 고려하여 다수의 데이터 노드 서버(40)들의 성능 순위를 결정하도록 한다.

그리고 제어 서버(50)는 또한, 추출된 데이터와 사용자 단말기(10)로부터 입력되는 데이터를 네임 노드 서버(30)와 데이터 노드 서버(40)에 분배 적재할 때에는 각 데이터 노드 서버(40)에 적재되는 데이터가 다른 데이터 노드 서버(40)에 중복 적재되지 않도록 제어할 수 있도록 한다.

제어 서버(50)는, 분배 적재된 데이터를 미리 설정된 변환 형태에 따라 가공하여 변환할 때 국가가 각 제정한 개인정보보호, 공공데이터 관리 지침 및 절차에서 요구하는 변환 형태에 따라서 각 분배되어 적재된 데이터에서 개인식별 요소삭제 및 개인 비식별화 처리를 수행하도록 한다.

그리고, 제어 서버(50)에서는 각 적재된 데이터를 빅데이터 패키지 툴인 머하우트(Mahout), 앵커스(Ankus),웨카(WEKA) 및 오릭스(Oryx)등을 이용하여 요구되는 기능별로 데이터마이닝을 수행하여 생성되는 일자리 매칭 정보를 사용자 단말기(10)로 전송할 때, 양방향 퍼지 매칭 정보를 생성하여 사용자 단말기의 요청을 받아 실시간으로 전송, 제공할 수 있다.

여기서 양방향 퍼지 매칭 정보는 약 10개 이하의 제공 데이터들을 포함하고, 각 제공 데이터들은 기대 매칭율에 따라 순위를 가질 수 있다.

이때 위 기대 매칭율은 사용자 단말기(10)로부터 직접 입력된 각 데이터 필드의 가중치에 따라 결정되거나 또는 시스템에서 임의로 지정되어 입력된 각 데이터 필드의 가중치에 따라 결정될 수 있다.

그리고 양방향 퍼지 매칭 정보는 사용자 단말기(10)로부터 입력되는 특정 데이터필드 값의 변동을 추출하여 생성하고 이를 근거로 구인측과 구직 측 데이터를 모두 동시에 비교 검토하여 생성할 수 있다.

그리고 제어 서버(50)는, 적재된 데이터들은 위와 같이 기술한 바와 같이 데이터마이닝을 수행하여 생성되는 일자리 매칭 정보를 사용자 단말기(10)로 전송할 때 그 전송 수단 및 대상으로는 인터넷을 통하여 클라이언트 PC, 쇼셜 미디어 혹은 단문자 형태로 매우 다양하게 전송할 수 있다.

또한 제어 서버(50)는, 적재된 데이터를 데이터마이닝을 수행하여 생성되는 일자리 매칭 정보를 사용자 단말기(10)로 전송한 후에 사용자 단말기(10)로부터 일자리 매칭 정보의 전송 결과에 대한 응답 및 요청 사항을 수집하여 그에 상응하는 데이터 필드에 찾아 주데이터를 변경할 수 있다.

또한 제어 서버(50)는, 지방의 지역 업체, 사회, 경제 및 정치 상황에 대한 정보를 빅데이터 수집 패키지를 이용해서 다양한 경로를 통하여 수집, 추출하여 데이터마이닝 수행시 분석 자료로 제공할 수 있다.

제어 서버(50)는, 공공 및 기관 최종사용자에게 지방의 정확한 구인자와 구직자의 통계 및 분석 자료를 제공할 수도 있다.

이와 같이 구성되는 본 발명은, 도 3과 같이 사용자 단말기(10)가 최종 사용자(End user)로서 파워 유저(Power user)라고 할 수 있는데 본 발명의 시스템을 관리하는 시스템 관리자(101), 지방정부와 고용관련 공무원들인 공공사용자(102), 그리고 고용관련 단체 및 직업교육 단체 및 학교, 고용보험 등 기관 사용자(103)을 포함할 수 있고 일상적인 사용자(Casual user)로서 구직자(104)와 구인자(105) 등을 포함할 수 있다.

여기서 최종 사용자들은 본 발명에 의한 시스템, 즉 인터넷 포털 사이트로 이루어진 각 지역 잡스(JOB's) 사이트에 접속하여 소정의 자기 정보를 제공 및 변경하는 단계를 먼저 거쳐야 한다.

다만 본 발명에 의한 시스템은, 구축할 때 최종사용자(100)들이 직접 입력한 자료 혹은 정부의 고용정보 포털 사이트인 워크넷(Worknet) 및 다른 고용정보 사이트에서 각 지역의 구인 및 구직 정보를 추출(Extract)하여, 본 발명에 의한 시스템으로 가져 와서 네임노드와 데이터노드에 옮겨 놓도록(laod) 설계하여 최종 사용자(100)들이 중복하여 자기 정보를 입력하는 번거로움을 없애고, 다만 변경된 사항에 대해서는 수정하여 현행 데이터가 되도록 한다. 위와 같이 최종사용자(100)들이 직접 입력한 자료 혹은 외부에서 추출한 최종사용자(100) 관련 자료들은 트랜잭션 로그 파일과 요약 키값들은 네임 노드에 싣고, 주데이터 파일들은 데이터 노드에 싣도록 하는데 이때 네임 노드는 메타디비(Meta DB) 형태로 관리하게 된다.

여기서 메타디비(Meta DB)란, 메타 데이터베이스(Meta database)의 준말로서 데이터 베이스의 카탈로그가 되는 작은 데이터베이스라고 할 수 있다. 이때 데이터베이스의 소유자(Dbadmin)은 한 개의 메타디비로 한정하지 않아 향후 병렬처리가 용이하도록 하고, 네임 노드의 메타디비는 제2의 네임노드(Secondary name node)를 구성할 수 있도록 하여 향후 레벨2의 메타디비(Meta DB)를 다시 만들어 시스템에 활용할 수 있도록 한다.

그리고 데이터 노드(Data node)는, 각 데이터베이스로서 주데이터를 병렬 처리함으로써 직렬처리하는 기존의 DBMS 처리의 경우보다 약 6배 이상 빠른 속도로 적재하거나 검색할 수 있도록 하는데 이는 하둡(Hadoop)의 HDFS(Hadoop distributed file system)으로 분산처리와 병렬처리 데이터 접근방식으로 설계하여 먼저 디스크를 검색하는 것을 배제하여 그 접근속도를 신속하게 하고 안정적으로 많은 량의 데이터를 반복적으로 접근이 가능하도록 하는데 블록의 데이터 크기를 64MB에서 1GB 범위의 블록(Block)단위로 설계할 수 있는데 약 128MB로 하는 것이 바람직한데 이는 종래의 유닉스 운영체제의 4KB 단위의 블록 설계와 크게 대별되는 것이며 빅데이터의 일특징이기도 할 것이다. 이러한 HDFS의 각 블록들은 싱글 포인트로 관리되는 운영체제 차원의 블록으로 운영되어 초기 하드웨어 설치비용을 저렴하게 하면서도 오히려 기존의 데이터베이스 시스템보다 매우 빠르고 안정적인 접근이 가능하도록 설계되는 것을 특징으로 한다.

위 본 발명에 의한 하둡의 HDFS 클러스터도 기존의 마스터/슬레이브(Master/slave) 구조를 가진다. 위 HDFS 클러스터는 하나의 네임노드와 파일 시스템을 관리하고 클라이언트의 접근을 통제하는 마스터 서버로 구성된다. 게다가 위 HDFS 클러스터의 각 노드에는 데이터 노드가 하나씩 존재하며 이 데이터 노드는 실행될 때마다 노드에 추가되는 스토리지를 관리한다. 그리고 위 본 발명에 의한 HDFS는 네임 스페이스를 공개하여 유저 데이터가 파일에 저장되는 것을 허락한다. 그리고 위 파일들은 내부적으로 하나 이상의 블록으로 나뉘어 있고 그 블록들은 실질적으로는 데이터 노드들에 각 분산되어 저장되어 있을 수 있도록 설계된다. 여기서 네임노드는 파일과 디렉터리의 읽기(Open), 닫기(Close), 이름 바꾸기(Rename) 등 파일시스템의 네임 스페이스의 다양한 여러 기능을 수행하도록 하며 데이터 노드와 블록들의 맵핑을 결정하는데 이때 데이터 노드는 파일시스템의 클라이언트가 요구하는 읽기(Read), 쓰기(Write) 기능들을 담당하도록 한다. 또한 데이터 노드는 필요에 따라서는 네임 노드에서의 생성, 삭제, 복제 등과 같은 기능도 추가로 수행할 수 있도록 한다.

이처럼 네임 노드와 데이터 노드는, GNU/Linux OS를 기반으로 하는 상용 리눅스 머신에서 실행하기 위해 디자인된 소프트웨어의 일부이다. HDFS는 자바 언어를 사용하므로 자바가 동작하는 어떠한 컴퓨터에서든 네임노드나 데이터노드 소프트웨어를 관리하고 실행할 수 있다.

그리고 데이터를 외부 데이터를 추출하거나 입력된 데이터를 네임 노드와 데이터 노드에 적재할 때 맵리듀스(Map reduce)작업을 수행하고 관리하기 위한 주 수행툴인 잡 트랙커(Job tracker)와 종속적으로 맵(Map)과 축소(Reduce) 업무를 분산처리 업무로서 수행하고 관리하는 툴인 태스크 트랙터(Task tracker)를 활용하여 맵리듀스(Map reduce)작업을 수행하는데 개인정보 보호에 저촉되는 정보는 부분적으로 대체하거나 분리, 병합하는 방식으로 데이터를 변환하여 원천적으로 개인정보보호 방안을 확보할 수 있다.

위 맵리듀스(Map reduce) 작업에 대해서는 도 2를 통해 좀 더 구체적으로 설명하기로 한다.

도 2는 본 발명의 실시예에 따른 일자리 매칭 서비스 제공 시스템의 하둡(Hadoop)의 맵리듀스(Map reduce) 작업 프로세스를 보여주는 개념도이고, 도 3은 본 발명의 실시예에 따른 일자리 매칭 서비스 제공 시스템의 빅데이터 하둡 생태계 시스템(Ecosystem)을 보여주는 개념도이다.

도 2 및 도 3에 도시된 바와 같이, 입력되는 데이터(Input data, 200)는, 최종 사용자(100)들이 직접 입력하는 데이터, 즉 정형 데이터(201)와 기존의 공공 및 유관 기관이 보유 하고 있는 것을 가져온 것들로서 쉽게 가공이 될 수 있는 반정형 데이터(202), 이믐 최종 사용자들이 쇼셜 미디어를 통해 생성한 것이거나 본 발명에 의한 시스템과 송수신한 자료이거나 상담한 자료들로서 정형성이 전혀 없는 비정형데이터(204)들인데 이들의 대부분은 각종 문서 및 서적, 신문기사 혹은 인터넷 등에서 수집한 비정형 수집데이터(205)들이다. 위와 같이 본 발명에 의한 시스템은 위 입력 데이터(200)들을 본 시스템 프레임 워크에 맞게 제련 단계를 거쳐 데이터 노드에 저장하여야 하다. 위와 같은 데이터를 제련하여 가공하는 단계가 하둡의 맵리듀스 단계인데 맵리듀스는 그 메카니즘 이외는 대용량 데이터 처리를 분산병렬처리하는 컴퓨팅에서 종래 많이 채택하는 소프트웨어 프레임워크이다. 위 프레임워크는 당초 페타바이트(Peta byte) 이상의 대용량 데이터를 신뢰도가 낮은 서버로 구성된 클러스터 환경에서 병렬 처리를 지원하기 위한 것으로서 위 프레임 워크의 메카니즘은 함수형 프로그래밍으로서 대용량의 데이터에 대해 맵(Map)과 리듀스(Reduce)라는 함수 기반으로 구성된다.

도 2는 맵리듀스의 데이터 처리 진행과정을 보여주는 도면인데, 맵리듀스의 작업은 맵(Map)과 리듀스(Reduce)의 두 가지 단계로 분류된다. 맵(Map)단계는 어플리케이션에 사용되는 데이터를, 리듀스(Reduce)단계에서는 처리하기 전에 먼저 미리 데이터를 제련하는 단계이다.

좀 더 구체적으로 맵(Map)단계에서는 입력된 데이터를 <key, value>의 행렬로 변환하여 데이터를 정리하고 이때 비정상적인 데이터는 배제시킨다. 이어 리듀스(Reduce) 단계에서는 맵(Map) 단계에서 생성된 <key, value> 데이터를 이용해서 처리하는 단계이다. 맵(Map) 단계에서는 많은 양의 <key, value> 조합의 데이터가 생성되는데, 생성된 데이터들 중에서 똑같은 key를 갖는 데이터들이 하나의 리듀스(Reduce)를 실행하는 노드로 맵(Map) 단계에서 생성된 데이터들을 전송한다. 그리고 리듀스(Reduce) 단계를 실행하는 노드에서는 전송 받은 데이터로 가지고 사용자가 정의한 작업을 실행한다.

하둡에서의 통상적인 작업 단위는 잡(Job)인데 단위 잡(Job)은 입력 데이터와 맵리듀스 프로그램 및 그 환경설정 정보로서 이루어 진다. 그리고 잡(Job)은 다시 맵 태스크(Map task)와 리듀스 태스크(Reduce task)의 태스크(Task)들로 각 분류된다. 맵리듀스 프로그래밍 모델은 노드 역할을 하는 컴퓨터들이 모여서 하나의 트랙커 노드 클러스터를 형성한다. 노드는 잡 트랙커와 태스크 트랙커 노드의 두 종류로 구성되고 하나의 잡 트랙커와 여러 개의 태스크 트랙커 노드가 뭉쳐서 하나의 클러스터를 형성한다. 여기에서 태스크 트랙커는 태스크(Task)를 실행하는 역할을 하고, 잡 트랙커는 여러 태스크 트랙커에 태스크(Task) 할당을 스케쥴링하여 잡(Job)을 실행한다.

맵리듀스 프로그래밍 모델에서 데이터를 분배하기 위해서 태스크 트랙커에 다시 전달하여 태스크 트랙커 들 사이의 실행 시간의 균형을 맞추어 주는 방법이 있다. 하지만 이런 방법은 실행 중간에 한번 전송된 데이터를 다시 전송하는 데이터들이 많아지게 되면 결국 네트워크에 혼잡이 나타나서 하둡의 전체적인 성능을 떨어제게 할 수 있다. 그러므로 데이터를 분배하기 전에 각 노드의 성능과 상태를 파악해서 적절한 크기의 데이터를 분배하는 방법을 사용하는 것이 바람직하다.

하둡에서는 태스크 트랙커 들이 입력 데이터를 갖고 있는 소스 컴퓨터들이 네트워크 상으로 가장 근접한 것을 기준으로 논리적으로 정렬된다. 그리고 입력 데이터를 각 전송할 때 가장 가까운 태스크 트랙커에게 먼저 데이터를 전송하도록 설계한다. 본 발명의 시스템 실시예에서는 입력 데이터를 태스크 트랙커에 전송하기 전에 다음의 세 가지를 고려해서 데이터를 분배하도록 설계한다. 즉, (1)데이터 소스 컴퓨터에서 태스크 트랙커 사이에서 데이터를 전송하는 시간, (2)태스크 트랙커의 큐에 있는 처리할 데이터의 양, (3)태스크 트랙커가 단위 데이터를 처리하는데 필요로 하는 시간 등을 고려하여 데이터를 분배하도록 하는데 이는 데이터를 전송할 때 데이터 블록들로 이루어진 데이터 그룹마다 id를 할당하여 그룹을 구분하게 하도록 해주며 데이터 소스 컴퓨터에서 태스크 트랙커로 전송할 때의 시간을 기록하는 방법으로 수행할 수 있다. 그 후에 태스크 트랙커가 맵(Map) 작업을 모두 다 수행하면 작업 기록과 함께 잡 트랙커에게 신호를 보내 작업이 종료된 시간을 얻어서 단위 데이터에서 처리량을 계산한다. 이 방법을 통해서 제안한 세 가지의 고려 사항을 통합하여 계산할 수 있으므로 그 처리량이 줄어들도록 하면서 각 태스크 트랙커 들 사이에서 성능의 순위를 매길 수 있어서 나중에 분배 순위를 정하는데 참조할 수 있다.

이때 단 한번의 태스크 트랙커에 대한 기록으로 태스크 트랙커의 상태와 성능을 파악하는 것은 정확하지 않은 정보를 바탕으로 데이터를 분배하게 할 확률이 높으므로 태스크 트랙커의 이전 성능 측정값을 지우지 않고 현재 측정한 값과 함께 고려하는 가중치 적용방식을 사용하는 것이 바람직하다. 그리고 위 가중치 값은 향후 반복 적용을 통해 최적의 성능을 보여주는 기준 으로 활용하는 것이 바람직하다. 그리고 새로 입력된 값 이외에 리스트에 있는 나머지 값들은 이미 정렬되어 있는 상태이기 때문에 삽입 정렬을 사용하면 이 알고리즘의 수행시간은 HDFS를 이루는 노드 개수 n 에 대해서 O(n) 이 되어 빠르게 정렬을 할 수 있는 이점이 있다. 그리고 본 발명의 실시예에서 사용하는 맵리듀스 어플리케이션으로는 입력 데이터의 숫자를 계산하는 워드 카운트(Word count)와 년도와 날짜를 키값으로 하는 연혁적 형식의 연혁자료기록(History records)을 입력 데이터로 불러 오도록 한다. 우선 워드 카운드(Word count) 어플리케이션은 입력 데이터로서, 문서 파일들을 가져 온다고 하면 그 문서 파일들을 태스크 트랙커에 분배를 해주면 맵 태스크(Map task)를 실행하는 태스크 트랙커는 위 입력받은 문서 파일에 있는 모든 문자들을 공백 문자를 기준으로 단어로 인식하는데, 위 인식 단어들이 위 프로그램에서 키값이 된다. 리듀스 태스크(Reduce task)는 위 특정 키값을 갖는 데이터들만 받고 그 데이터의 세어 각 개수를 모두 더해서 단어의 개수를 계산한다.

HistoryRrecords 어플리케이션은 년도를 키값으로 갖는 특정한 형식의 레코드로 이루어진 파일들을 입력 데이터로 사용할 수 있다.즉, 맵 태스크(Map task)는 받은 파일에 있는 레코드에서 년도와 날짜 형식으로 이루어진 레코드들을 모두 가져와서 정렬하여 데이터 노드에 각 적재한다.

위와 같은 각 어플리케이션 작업은, 대부분 직접적인 배치(Batch) 작업으로 이루어 지는데 하둡의 피그(Pig)나 하이브(Hive) 패키지 툴을 이용하거나 종래의 SQL(Ansi SQL) 구문을 사용하여 간접적으로 쿼리 검색하여 할 수도 있다.

도 5에 도시된 바와 같이 빅데이터 하둡 생태계시스템(Big data hadoop ecosystem)은, 네임 노드와 데이터 노드로 구성된다. 네임 노드는 데이터의 디렉토리 구조에 대한 정보를 저장하고 데이터 노드는 실제 데이터를 저장한다. 그리고 하둡 분산 파일시스템(HDFS)에서는, 기존의 DBMS에서는 반드시 구조화 저장을 해야 하지만 그와 달리 비구조화 방식으로 저장하고 하드웨어나 데이터를 병렬처리가 가능하도록 설계되어 있다.

본 발명은 데이터의 처리의 단계를 (1) 추출(Extract), (2) 적재(Load), (3)변환(Transform), (4)적재(Load), (5)데이터 마이닝(Data mining) 등의 5 단계로 구성할 수 있다.

위 (1)추출 단계에서는 투입되는 인풋 데이터(Input data, 200)의 종류에 따라 정형 및 반정형 데이타(201, 202, 203)의 처리에는 각 플럼(Flume), 추과(Chukwa) 등의 하둡 패키지 툴을 사용하고, SNS나 단문자 송수신 혹은 수집 데이터의 경우는 수크푸(Sqoop), 하이호(Hiho) 패키지를 이용하여 배치작업을 할 수 있다. 그리고 위 (2)적재(Load) 단계에서는 피그(Pig)와 하이브(Hive), 몽고디비(MongoDB) 등 하둡 패키지 툴을 이용하여 직접적인 맵리듀스 작업을 하여 메타디비 생성과 데이터 저장 작업을 배치 작업으로 수행한다. 이때 위 (3)변환(Transform) 단계 작업을 수행하기 위하여 임팔라(Impala), 타조(Tajo) 등을 하둡 패키지 툴을 이용하거나 종래의 SQL 작업을 실시간으로 수행하여 메타디비의 구조화 작업을 할 수 있는데 위 작업의 통하여 네임노드와 데이터노드의 DBMS의 구조화를 실시간으로 업데이트할 수 있도록 하고, 위 (4)적재(Load) 단계에서는 데이터 노드에 데이터를 실제 적재하며, 그 적재된 데이터를 머하우트(Mahout), 앵커스(Ankus) 혹은 본 발명에 의해 특징적으로 수행하는 방법인 잡스(JOB's) 등하둡 패키지 툴을 이용할 수 있다. 그리고 위 (5)데이터마이닝(Data mining) 단계를 수행하는데, 이는 데이터의 분석으로 예측, 기술 및 권고를 하기 위한 정보로 가공하는 작업 단계인데 이 단계를 수행한 후에는 각 사용자의 수요에 따라 다시 프로그램 R 혹은 SAS 등 종래의 응용프로그램으로 통계수치화하거나 분석결과를 도시화하여 활용할 수 있도록 하기 위한 5 단계로 각 구성된다.

그리고, 최근 가장 중요한 이슈가 되고 있는 개인정보 보호를 위하여 추출하는 정보 중 우선 보호 대상이 되는 개인의 성명은 그 일부를 다른 문자로 대체를 하고, 주민등록번호의 경우는 앞의 여섯 자는 예로서 600126이라면 1960년 1월 26일 출생으로 대체하도록 하고, 뒷자리는 일곱 자리는 성별, 출생지역으로 대체하여 변환하면 이미 제정된 개인정보보호법 및 공공데이터의 제공 및 이용 활성화에 관한 법률에 의한 개인식별 요소 삭제 또는 비식별화 처리 및 관리 기법을 모두 충족하면서 공공 데이터를 충분히 이용할 수 있다. 위와 같은 개인정보 보호단계에서는 하둡의 패키지 툴인 주키퍼(Zookeeper)를 이용하는데, 위 툴은 개인식별 요소를 변환하고 비식별화 처리 하는 맵퍼(Mapper)들을 관리, 조정하는 기능을 할 수 있다.

그리고 위와 같은 각 단계별 작업의 흐름을 조정하고 관리하는 패키지로서 플라밍고(Flamingo)패키지를 사용하는데 위 패키지의 대안으로는 우지(Oozie), 루이지(Luigi), 아즈카반(Azkaban), 팰콘(Falcon) 등이 있다.

이미 상술한 바 있는 하드웨어 측면의 하둡 분산화일관리시스템(HDFS)은 결국 잡 트랙커로서, HBSE를 주패키지 툴로 채택하도록 한다.

응용 프로그램으로는, 쇼셜 미디어와 연동하기 위한 SNS API와 단문자를주고 받기 위한 SMS가 있고 자료의 통계, 분석과 보고서 작성을 위하여 MySQL이나 NodeXL을 사용할 수 있으며 SAS 혹은 프로그램 R을 사용하는 것이 바람직하다. 위와 같은 응용프로그램들은 SAS 외 모두 오픈소스 프로그램이어서 도입 비용 부담은 거의 없다는 특징이 있다.

도 4a는 본 발명의 실시예에 따른 일자리 매칭 서비스 제공 시스템의 레벨1 단계의 구직자에 대한 단문자(Short message) 발송결과 화면이고, 도 4b는 본 발명의 실시예에 따른 일자리 매칭 서비스 제공 시스템의 레벨2 단계의 구직자에 대한 단문자(Short message) 발송결과 화면이다.

도 5는 본 발명의 실시예에 따른 일자리 매칭 서비스 제공 시스템의 레벨2 단계의 구인자에 대한 단문자(Short message) 발송결과 화면이다.

그런데 도 4a 및 도 4b에 도시된 바와 같이 본 발명은, 단문자로 구직자에게, "[잡스정보] 이삼토님! 오늘 기준 취업정보(3곳)입니다! 자세한 내용은 www.osanJobs.kr 참조하세요."전송하고 동시에 구직자에게도 같은 기준 시점의 맞춤 일자리정보를 가진 인터넷 URL에 제공한 후에 각자 제공한 문자를 수신한 이후에 한 처리 결과를 서버에 회신하도록 한다.

이때 구직자는, 서버가 제공한 정보를 참조하여 그대로 구직 활동을 할 수 있지만 당초 서버에 입력된 자료와는 다른 취업정보를 받기를 원할 수도 있을 것이다. 그러한 경우에 종래의 취업 시스템에서는 구직자가 서버에 직접 접속하여 입력사항을 변경하지 않으면 불가능하지만 본 발명에서는 구직자는 단지 회신 문자로서 "중소기업 사무직"으로 변경하여 정보를 요청할 수 있도록 하는데 위와 같은 회신문자를 받으면 실시간으로 해당 데이터필드를 업데이트하고 매칭작업을 새로 실시하도록 한다.

그리고 다시 위 실시 결과를, "[잡스정보] 이삼토님! 오늘기준 취업정보(9곳)입니다."라는 답신 메시지로 해주어 본 발명의 시스템에서 맞춤 취업정보를 실시간으로 생성하여 구직자에게 제공한 이후에도 계속적인 교신을 통하여 구직자의 구직활동을 신속하게 관리하도록 한다.

일자리라는 것은 단지 구직자와 제공자(구인자)의 양방만 있는 문제가 아니라 조정 및 관리자가 필요한 시스템적인 문제이다. 따라서 위와 같은 구인구직 과정은 구직자 일방의 노력만으로 해결될 문제가 아니라 구인자의 응답와 유기적인 조정 및 관리가 있어야 해결되는 문제인 것이다.

이에 본 발명의 시스템은, 1 단계로서 각 구직자와 구인자에 대하여 네임노드의 메타디비를 이용하여 거리계산(Dist)함수와 퍼지(Fuzzy)함수로 구인자와 구직자 양방향 매칭 알고리즘을 구성하여 순위를 정하여 10개 이내의 실제 데이터를 지정하고 그 후 2 단계에서는 위 지정된 실제 데이터의 필드값을 비교하여 순위를 결정한다. 이때 각 단계마다 지역, 직종, 연봉, 및 채용 시기 등 데이터 필드들은 가중치를 달리 부여하여 기대매칭률을 각계산하게 된다. 위와 같은 데이터필드에 대한 가중치 입력은 초기에 구인자 및 구직자에게 직접 입력을 받을 수 있지만 이행가능성이 적을 것이므로 본 발명에 의한 시스템에서는 아예 초기에 기존의 유사한 자료의 값을 참조하여 그대로 입력받을 수 있도록 설계하는 것이 바람직하다.

그리고 3단계는, 위 2단계에서 계산한 기대매칭률이 구인자와 구직자측에서 각 다르게 나타나는 쌍방의 순위를 조정하는 단계이다. 즉, 구인자의 지정 순위에는 들어가 있는 구직자의 순위에 구인자가 들어가 있지 않는 경우와 그 반대의 경우와 순위가 상이한 경우에, 즉 구인자와 구직자가 불일치(Mismatch)하는 경우에는 그 불일치하는 데이터의 지역, 직종, 연봉 및 채용 필드 등을 순위별로 가중치를 달리 부가하여 쌍방 데이터가 일치될 때까지 배치(Batch) 반복(Shuffle) 작업을 통하여 구인자와 구직자의 정보가 모두 일치하도록 조정한다. 그리고 4단계에서는 위와 같은 과정에서 조정된 매칭 일자리정보를 웹서버에 적재하고 SMS API를 통해 구인자측과 구직자측에 동시에 단문자(Short message) 정보로 제공한다. 그리고 5단계에서는 구인자측과 구직자측에서 응답하는 자료는 추출하여 다시 구인자와 구직자으주데이타와 메타디비(Meta DB)를 갱신하도록 한다. 그리고 위와 같은 각 단계는 되풀이 반복되어 수행된다.

또한 도 4b에 도시된 바와 같이 본 발명의 일실시예로서 현재 시점의 일자리정보와 함께 추가로, "[권고사항]CAD 교육을 이수하시면 추가로 5곳을 7월말 입사신청을 하실 수 있습니다."라는 정보를 추가로 제공하도록 설계할 수 있다. 여기에서 본 발명의 시스템은 추가로 교육과 채용 시기라는 데이터필드에 대하여 변경가능성을 열어 두고 구직자에게 권고사항의 정보를 달리 제공함으로써 좀 더 확장된 정보서비스로서 제공할 수 있도록 설계할 수 있다. 이는 취업이 실제로 상당한 시한을 두고 이루어진다는 점에서 단지 단면적인 일정 시점을 기준으로 검색하여 제공하는 종래의 취업정보 시스템의 취약점을 획기적으로 개선하는 대안으로서, 그 구성은 도 5와 같이 구인자와 구직자측에서 자격요건과 채용 시기를 실시간으로 조정하여 더 많은 인력 및 구직 풀(Pool)을 가질 수 있도록 하고 그와 같은 실질 내용을 권고사항 정보로서 실시간으로 제공할 수 있도록 설계한 것이다.

위와 같은 사항은 도 4a는, 종래의 취업정보 시스템과 같은 수준인 레벨1 단계로서 단지 비교하는 시점을 기준으로 하여 메타디비(Meta DB)의 비교 작업 거쳐 실제 데이터의 기대 매칭률 순위를 계산하여 상위 기준으로 구인자와 구직자에게 정보를 제공하는 것에 대하여, 도4b와 도5는 레벨2의 단계로서 위 레벨1의 처리에서 작성된 메타디비를 확장하고 변경하여 비교하는 과정을 새로 추가하며 반복 작업을 수행하도록 설계하도록 한다.

이때 교육 및 자격에 대한 정보는, 각 학교 및 취업교육 기관의 데이터베이스에서 추출하여 적재한 데이터 노드를 참조하도록 설계한다.

그리고 도 6 및 도 7은, 본 발명의 실시예에 따른 일자리 매칭 서비스 제공 방법을 설명하기 위한 흐름도이다.

위 도 6 및 도 7에 도시된 바와 같이, 제어 서버는 일자리 매칭 정보 요청이 있으면(S11) 먼저 사용자 단말기로부터 구인 및 구직 관련 데이터를 입력받고 외부 서버로부터 구인 및 구직 관련 데이터를 추출한다.(S13)

그리고 제어 서버는, 추출된 데이터와 사용자 단말기로부터 입력되는 데이터를 네임 노드 서버와 데이터 노드 서버에 분배, 적재한다.(S15)

이어 제어 서버는, 분배 적재된 데이터를 미리 설정된 변환 형태에 따라 가공하여 변환한다.(S17)

그 다음으로 제어 서버는, 변환된 데이터에 대해 메타 데이터베이스를 수정하여 네임 노드 서버와 데이터 노드 서버에 적재한다.(S19)

제어 서버는, 적재된 데이터를 위에서 기술한 바와 같이 빅데이터 페키지 툴을 이용하여 데이터마이닝(Datamining)을 수행하여 생성되는 일자리 매칭 정보를 사용자 단말기로 전송할 수 있다.(S21)

여기서 제어 서버는, 적재된 데이터를 데이터마이닝(Datamining)을 수행하여 생성되는 일자리 매칭 정보를 사용자 단말기로 전송할 때에 먼저 데이터마이닝을 수행하여 매칭되는 다수의 데이터들을 추출한다.(S231)

제어 서버는, 추출된 데이터들에 포함되는 각 데이터 필드의 가중치를 분석하여 기대매칭율을 산출한 다음에(S232), 그 산출된 기대매칭율을 근거로 하여 추출된 데이터들의 우선 순위를 결정한다.(S233)

그리고 제어 서버는, 결정된 순위에 따라 배열되는 데이터들을 포함하는 일자리 매칭 정보를 생성하고(S234), 위 생성된 일자리 매칭 정보를 사용자 단말기로 전송할 수 있다.(S235)

이와 같이 구성되는 본 발명은 지방의 구인자와 구직자 모두 작업요청 시점에서 최적화된, 개별적으로 특화된 일자리 및 인력 정보를 단문자(SM)로 동시에 통보받을 수 있다.

또한 본 발명은, 빅데이타 플랫폼인 하둡의 맵리듀스(Hadoop mapreduce)와 분산파일시스템 (HDFS)을 이용하여 각 데이터노드별로 추출할 자료로서 변환시키면서 익명성을 확보하고 분산 관리하여 서버시스템의 하드웨어 도입 비용을 획기적으로 절감하면서도 오히려 향상된 처리속도를 확보할 수 있으며 해킹이나 서버의 자료가 외부로 유출되었을 때에도 개인정보가 데이터노드에 산별되어 있어서 개인정보를 원천적으로 초기 단계에서부터 물리적으로 보호할 수 있다.

그리고 본 발명은, 사용자들의 적극적인 참여를 기반으로 하여 레벨1과 레벨2의 메타데이터베이스(Meta DB)로 설계 운영하여 지방의 구인자와 구직자 공히 미래시점의 예측 및 권고 데이터에 의한 개별적으로 각 특화된 일자리 및 인력 정보를 단문자(SM)로 통보 받을 수 있도록 한다.

이어 본 발명은, 지역 거주자 및 업체의 취업 매칭율을 획기적으로 높이고 정확한 일자리 정보를 관리함으로써 지방의 고용관련 기관의 활성화와 합리적 정책 수립과 지방경제의 활성화를 도모하여 수도권과 지방의 경제 수준의 격차를 줄일 수 있는 기능을 수행할 수 있다.

그리고 그 다음으로 본 발명은, 쇼셜 미디어 API와 연동하여 지역 거주자와 업체, 교육 및 취업 상담 등 유관 기관의 실시간 발생 자료를 주기적으로 추출하여 별도의 데이터노드에 병렬처리로 신속하게 적재하여 각 개별 데이터 노드 및 네임 노드의 데이터를 갱신하고 이를 구인 및 구직 측의 단문자(Short message) API를 연동시켜 개별 데이터를 실시간으로 추출하여 해당 데이터필드를 갱신하여 항상 최신 현행 데이터로 유지하도록 하고 이를 통하여 파워 사용자인 지방자치단체 등 기관사용자는 자기 지역의 일자리 현행 정보와 향후 예측 일자리 정보를 매우 정확하게 얻을 수 있다.

위와 같이 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 사람에 의해 다양한 변형실시가 가능한 것은 물론이고 이러한 변형 실시예 들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 아니 될 것이다.

10: 사용자 단말기 20: 외부 서버
30: 네임 노드 서버 40: 데이터 노드 서버
50: 제어 서버

Claims

유무선 통신을 통해 연결된 사용자 단말기로 일자리 매칭 서비스를 제공하는 일자리 매칭 서비스 제공 시스템에 있어서,
상기 사용자 단말기와 외부 서버로부터 입력되는 구인 및 구직 관련 데이터를 저장하는 메타 데이터베이스를 구비하는 적어도 하나의 네임 노드 서버(Name node server);
상기 하나의 네임 노드 서버에 대응하여 연결되고, 상기 입력된 구인 및 구직 관련 데이터들로부터 주 데이터를 처리하는 다수의 데이터 노드 서버(Data node server); 그리고,
상기 외부 서버로부터 구인 및 구직 관련 데이터를 추출하고, 상기 추출된 데이터와 상기 사용자 단말기로부터 입력되는 데이터를 상기 네임 노드 서버와 데이터 노드 서버에 분배하여 적재하며, 상기 분배 적재된 데이터를 미리 설정된 변환 형태에 따라 가공하여 변환하고, 상기 변환된 데이터에 대해 상기 메타 데이터베이스를 수정하여 상기 네임 노드 서버와 데이터 노드 서버에 적재하며, 상기 적재된 데이터를 빅데이터 패키지 툴을 이용하여 데이터마이닝(Datamining)을 수행하여 생성되는 일자리 매칭 정보를 상기 사용자 단말기로 전송하는 제어 서버를 포함하며;
상기 제어 서버는, 분배 적재된 데이터를 미리 설정된 변환 형태에 따라 가공하여 변환할 때, 임의의 국가가 각 제정한 개인정보보호, 공공데이터 관리 지침 및 절차에서 요구하는 변환 형태에 따라서 각 분배되어 적재된 데이터에서 개인식별 요소삭제 및 개인 비식별화 처리를 수행하며;
상기 제어 서버는 상기 일자리 매칭 정보의 생성은, 상기 빅데이터 패키지 툴을 이용하는 데이터마이닝을 수행하여 매칭되는 다수의 데이터들을 추출하고, 상기 추출된 데이터들에 포함되는 각 데이터 필드의 가중치를 비교하여, 기대매칭율을 산출하고, 상기 산출된 기대 매칭율을 토대로, 상기 추출된 데이터들의 순위를 결정하고, 상기 결정된 순위에 따라 배열되는 데이터들을 포함하는 상기 일자리 매칭 정보가 생성되는 것을 특징으로 하는 일자리 매칭 서비스 제공 시스템.
삭제
제 1 항에 있어서,
상기 제어 서버는, 상기 추출 데이터와 사용자 단말기로부터 입력되는 데이터를 상기 네임 노드 서버와 상기 데이터 노드 서버에 분배 적재할 때, 상기 데이터를 키값의 행렬로 변환하여 정리하기 위해 상기 네임 노드 서버를 통합하여 제어하고, 각 정리된 데이터로부터 동일한 키값을 갖는 데이터를 분산 처리하도록 상기 데이터 노드 서버를 제어하는 것을 특징으로 하는 일자리 매칭 서비스 제공 시스템.
메타 데이터베이스를 갖는 적어도 하나의 네임 노드 서버와, 상기 각 네임 노드 서버에 병렬 연결되는 다수의 데이터 노드 서버들을 포함하는 일자리 매칭 서비스 제공 시스템의 일자리 매칭 서비스 제공 방법에 있어서,
사용자 단말기로부터 구인 및 구직 관련 데이터를 직접 입력받고 외부 서버로부터 구인 및 구직 관련 데이터를 추출하는 단계;
상기 추출된 데이터와 상기 사용자 단말기로부터 입력되는 데이터를 상기 네임 노드 서버와 데이터 노드 서버에 분배하여 적재하는 단계;
상기 분배 적재된 데이터를 미리 설정된 변환 형태에 따라 가공하여 변환하는 단계;
상기 변환된 데이터에 대해 상기 메타 데이터베이스를 변경, 수정하고 상기 네임 노드 서버와 데이터 노드 서버에 적재하는 단계; 그리고,
상기 적재된 데이터를 빅데이터 패키지 툴을 이용하여 데이터마이닝(Datamining)을 수행하여 생성되는 일자리 매칭 정보를 상기 사용자 단말기로 전송하는 단계;
상기 일자리 매칭 정보를 상기 사용자 단말기로 전송한 후에, 상기 사용자 단말기로부터 일자리 매칭 정보의 전송 결과에 대한 응답 및 요청 사항을 수집하여 그에 상응하는 데이터 필드에 찾아 주데이터를 변경하는 단계를 포함하며;
상기 분배 적재된 데이터를 미리 설정된 변환 형태에 따라 가공하여 변환할 때, 임의의 국가가 각 제정한 개인정보보호, 공공데이터 관리 지침 및 절차에서 요구하는 변환 형태에 따라서 각 분배되어 적재된 데이터에서 개인식별 요소삭제 및 개인 비식별화 처리가 수행되는 것을 특징으로 하는 일자리 매칭 서비스 제공 방법.
제 4 항에 있어서, 상기 적재된 데이터를 빅데이터 패키지 툴을 이용하여 데이터마이닝(Datamining)을 수행하여 생성되는 일자리 매칭 정보를 상기 사용자 단말기로 전송하는 단계는,
상기 빅데이터 패키지 툴을 이용하는 데이터마이닝을 수행하여 매칭되는 다수의 데이터들을 추출하는 단계;
상기 추출된 데이터들에 포함되는 각 데이터 필드의 가중치를 비교하여, 기대매칭율을 산출하는 단계;
상기 산출된 기대 매칭율을 토대로, 상기 추출된 데이터들의 순위를 결정하는 단계;
상기 결정된 순위에 따라 배열되는 데이터들을 포함하는 일자리 매칭 정보를 생성하는 단계; 그리고,
상기 생성된 일자리 매칭 정보를 상기 사용자 단말기로 전송하는 단계를 포함하는 것을 특징으로 하는 일자리 매칭 서비스 제공 방법.
제 1 항에 있어서,
상기 제어 서버는, 상기 추출 데이터와 상기 사용자 단말기로부터 수시로 입력되는 데이터를 상기 네임 노드 서버와 상기 데이터 노드 서버에 분배 적재할 때, 상기 네임 노드 서버에서 상기 데이터 노드 서버로 전송되는 데이터의 전송시간, 상기 각 데이터 노드 서버의 데이터 처리량 및 상기 각 데이터 노드 서버의 단위 데이터 처리시간 중, 적어도 어느 하나를 고려하여 다수의 상기 데이터 노드 서버들의 성능 순위를 결정하는 것을 특징으로 하는 일자리 매칭 서비스 제공 시스템.
제 1 항에 있어서,
상기 제어 서버는, 상기 일자리 매칭 정보를 상기 사용자 단말기로 전송할 때, 양방향 퍼지 매칭 정보를 생성하여 상기 사용자 단말기의 요청을 받아 실시간으로 전송하며;
상기 양방향 퍼지 매칭 정보는 상기 사용자 단말기로부터 입력되는 특정 데이터필드 값의 변동을 추출하여 생성하고, 이를 근거로 구인측과 구직 측 데이터를 모두 동시에 비교 검토하여 생성되는 것을 특징으로 하는 일자리 매칭 서비스 제공 시스템.