KR100996131B1

KR100996131B1 - 리스팅 관리 시스템 및 방법

Info

Publication number: KR100996131B1
Application number: KR1020077023051A
Authority: KR
Inventors: 아담 하이더; 샌디프 칸나; 조W 팅
Original assignee: 야후! 인크.
Priority date: 2005-03-11
Filing date: 2006-03-10
Publication date: 2010-11-24
Also published as: WO2006099300A3; WO2006099300A2; KR20070121724A; US20060206584A1; WO2006099289A2; EP1861774A2; WO2006099299A3; WO2006099299A2; US8135704B2; WO2006099289A3; EP1861774A4

Abstract

사용자가 검사하기 위해 인터넷을 통해 각종의 가끔 비상관되는 직위 공모로부터 획득된 데이터를 포착하고 관리하고 제시하기 위한 컴퓨터 시스템 및 방법이 제공된다. 이 시스템은 법인 사이트 및 웹 사이트, 다이렉트 피드 및 기타 소스의 리스팅으로부터 정보 데이터 세트를 스크레이프하도록 동작가능한 하나 이상의 스크레이핑 엔진을 가진 스크레이핑 모듈을 포함하고, 여기에서 스크레이핑 모듈은 스크레이프한 리스팅 정보 데이터 세트를 수신하여 데이터베이스에 저장한다. 시스템은 또한 소스, 시스템 관리인 및 처리 모듈의 모든 동작 및 이들 간의 통신을 조정하는 관리 플랫폼을 갖는다. 플랫폼의 처리 모듈은 데이터베이스에 저장된 선택된 스크레이프 데이터를 분석하는 스크레이핑 관리 모듈, 및 데이터베이스에 저장된 각 데이터 세트를 검사하고 하나 이상의 미리 결정된 카테고리 세트로 카테고리화하며 카테고리화한 데이터 세트를 데이터베이스에 반송하는 카테고리화 모듈을 포함한다.

관리 포털 모듈, 리스팅 관리자 모듈, 데이터 포착, 처리, 컴퓨터 시스템.

Description

리스팅 관리 시스템 및 방법{SYSTEM AND METHOD FOR MANAGING LISTINGS}

본 발명은 컴퓨터 소프트웨어에 관한 것이고, 더 구체적으로 말하면, 데이터 리스팅을 관리하기 위한 소프트웨어 시스템 및 방법에 관한 것이다.

데이터의 리스팅(listing)을 관리하고 그 리스팅을 부동산 중개인, 직업 소개인(employment recruiter), 여행사 등과 같은 고객에게 제시할 필요가 있는 회사에 공통적인 난제점(challenge)은 그들이 갖고 있는 정보를 간결하고 지적인 방법으로 전달하여 그러한 데이터의 사용자가 그들이 추구하는 특수한 정보를 최단 검색 기간 내에 최적이고 능률적이며 효과적인 방법으로 얻을 수 있게 하는 것이다. 다른 하나의 난제점은 리스팅 데이터를 사용하는 관리 엔티티와 각종 비즈니스 유닛 사이의 데이터 흐름 및 정보 전송을 추적하는 필요성이다.

하나의 대표적인 예로는 직업 소개 분야가 있다. 재능있는 고용인을 끌어들이고자 하는 회사의 난제점은 가용 직책(position)에 대한 최상의 후보 집합을 찾는 것이다. 구직자(job seeker)의 난제점은 안성맞춤인 직업(right job)을 찾는 것이다. 인적 자원 부서 중에서 하나의 표준적인 관례(practice)는 각각의 개방 직책에 대한 직무 내용 설명서(job description)를 작성하고, 그 다음에 그 직책을 직무 내용 설명서와 함께 광고하는 것이다. 소개인과 구직자는 그 다음에 구직자와 특정 직무 간의 정합(match)을 결정하기 위해 상기 직무 내용 설명서를 검토 및 분석하여야 한다.

인터넷에서 사용자의 숙련도에 따라 안성맞춤 직업을 검색하는 사람은 여러가지 검색 도구(searching tool)를 이용할 수 있다. 현재 이용할 수 있는 전형적인 검색 도구는 구직자가 원하는 위치, 직무 유형, 원하는 보수 수준 등과 같은 각종 기준을 키워드 형태로 선택할 것을 요구한다. 유사하게, 고용주는 직무 내용 설명서 외에도 특정 직무를 위해 고려 대상으로 요구되는 숙련도, 학력, 경력 등을 제공한다. 그 다음에, 검색 도구는 직무 내용 설명서의 데이터베이스에서 구직자의 키워드를 조사하고, 구직자의 키워드를 포함한 직무 내용 설명서를 반송하거나 디스플레이한다. 그러나, 가용의 검색 도구는 아직까지도 고용주 또는 구직자가 다수의 소위 검색 결과를 각각 걸러낼 것을 요구하거나 또는 주어진 기준이 너무 특정되거나 좁으면 검색 결과를 전혀 반송하지 않을 수 있다.

일반적으로, 예컨대 특정 지역의 새 주택에 대하여 리스팅 형태로 컴파일된 임의의 데이터를 인터넷에서 검색하는 사람은 여러 가지 검색 도구를 이용할 수 있다. 현재 이용가능한 전형적인 부동산 검색 도구는 주택 매수자 또는 매수자의 대리인이 원하는 위치, 주택 유형, 대지 크기(lot size), 학교 제도, 선호하는 지번, 가격 범위 등과 같은 각종 기준을 키워드 형태로 선택할 것을 요구한다. 리스팅 부동산 중개인은 전형적으로 다중 리스팅 서비스에서, 주택에 대한 설명 외에, 사진, 대지와 주택의 평방 피트 및 침실과 욕실의 수와 같은 다른 데이터를 제공한다. 그 다음에, 검색 도구는 주택의 데이터베이스에서 사용자의 키워드를 조사하고, 사용 자의 키워드를 포함하는 그러한 주택을 반송 또는 디스플레이한다. 그러나, 이용가능한 검색 도구는 사용자, 부동산 중개인, 잠재적 매수인 또는 기타 사용자가 다수의 사이트에서 다수의 소위 검색 결과를 각각 걸러낼 것을 여전히 요구한다. 따라서, 리스팅 데이터를 더 효과적으로 수집하고, 데이터를 정상화하며, 사용자와 리스팅 데이터 공급자 간의 인터페이스를 관리하는 검색 관리 시스템을 제공하는 것이 바람직하다.

여기에서 설명하는 시스템은 직무 리스팅, 이력서 리스팅, 부동산 리스팅, 제품 리스팅 등의 임의 종류의 리스팅 데이터에 대한 검색 도구를 관리하기 위한 고급 리스팅 관리용 플랫폼 소프트웨어 시스템을 통합한다. 이 시스템은 수 개의 머신들 간에 완전하게 분배될 수 있고 확장성(scalable)이 있다. 이하에서 설명하는 소프트웨어 시스템 내의 각 모듈은 확장성이 있고 그 모듈에서 취급되고 처리될 데이터량에 의해 지시되는 다수의 예(instance)를 포함할 수 있다.

여기에서 설명하는 시스템의 실시예는 포착(capture)을 관리하고 검색가능 데이터 구조로 컴파일하기 위해 복수의 소스로부터 데이터 네트워크를 통해 포착된 리스팅 정보 데이터를 처리하기 위한 컴퓨터 소프트웨어 시스템이다. 시스템은 네트워크 인터페이스를 통한 시스템 관리 및 동작 제어를 제공하는 관리 포털 모듈, 및 관리 포털 모듈을 통해 제공된 명령들에 응답하여, 소스에 대한 액세스를 제어하고 리스팅 정보 데이터의 회수(retrieval)를 제어하며 상기 소스로부터 수신된 리스팅 정보 데이터를 처리하도록 동작가능한 하나 이상의 리스팅 관리자 모듈을 포함한다. 각각의 리스팅 관리자 모듈은 리스팅 정보 데이터를 카테고리화하고 미리 결정된 품질 기준에 부합하는지의 여부에 대해 상기 카테고리화된 리스팅 정보 데이터의 부분들을 검사하며 카테고리화된 리스팅 정보 데이터를 검색 뱅크(search bank)에서의 사용을 위해 저장하도록 태스크 관리자를 제어한다.

각각의 리스팅 관리자 모듈은 관리 포털 모듈 내의 사이트 관리 모듈에 의해 식별된 사이트로부터 스크레이프한 데이터 세트를 획득하고 스크레이프한 데이터 세트를 데이터베이스에 저장하기 위해 하나 이상의 스크레이핑 엔진들의 동작 및 스크레이핑 엔진들 간의 통신을 조정하는 스크레이핑 관리 모듈을 각각 포함하는 하나 이상의 태스크 관리자를 포함한다. 리스팅 관리자 모듈은 또한 스크레이핑 관리 모듈에 결합되어 미리 결정된 품질 규칙에 대한 적합성에 대해 데이터베이스에 저장된 각각의 스크레이프한 데이터 세트를 분석하는 품질 관리 모듈, 데이터베이스에 저장된 각 데이터 세트를 검사하고 각 데이터 세트를 하나 이상의 미리 결정된 카테고리 세트로 카테고리화하며 카테고리화된 데이터 세트를 데이터베이스에 반송하도록 동작가능한 리스팅 데이터 카테고리화 모듈, 및 데이터베이스로부터의 카테고리화 데이터 세트를 컴파일하여 검색 뱅크에 전송하기 위해 데이터베이스와 통신하는 검색 뱅크 동기화기를 포함하는 것이 바람직하다.

예시적 시스템의 실시예는 리스팅 정보에 액세스하는 임의의 가용 수단을 사용함으로써 동작한다. 그러한 수단으로는 다이렉트 피드(direct feed), 웹 기반 피드, XML 피드 등이 있고, 또한 웹을 샅샅이 뒤져서(scour) 인터넷, 특히 월드 와이드 웹에서 이용가능한 사이트로부터 리스팅 정보를 획득하는 스크레이핑 기술을 사용하는 것이 있다. 그러나, 리스팅 정보는 현재 알려져 있거나 나중에 알려지게 될 다른 네트워크에 분배될 수 있기 때문에, 여기에서 설명하는 시스템 및 기능은 임의의 분배된 정보 환경에 적용될 수 있고, 따라서 정보가 수동 시스템이나 자동화 시스템에 의해 획득될 수 있다.

대표적인 예로서, 여기에서는 구직자, 직무 내용 설명서 및 직위 공모(job posting)를 설명한다. 그러나, 관리 시스템은 단순한 직무 헌팅(job hunting)보다 훨씬 더 넓은 응용을 갖는다. 관리 시스템은 데이터의 리스팅 또는 데이터 기록의 다른 컴파일화가 관리되어야 하는 임의 유형의 데이터 관리 시스템으로 구현될 수 있다. 여기에서 설명하는 시스템은 모듈형 및 확장형이고 단일 컴퓨터에서 독립 시스템(stand alone system)으로서 구현될 수 있으며, 또는 그 모듈형 기능이 적당한 네트워크 인터페이스를 통해 통신하는 별도의 컴퓨터, 서버 등의 사이에 분배될 수 있다.

직무에 대한 정보를 찾고 있는 구직자는 여기에서 설명하는 시스템의 실시예를 사용할 때 굉장히 많은 직무 내용 설명서를 검토할 것이다. 특히, 시스템은 직무 내용 설명서와 함께 상주하는(populate) 데이터베이스를 구축하기 위해 스크레이핑 기술을 사용한다. 데이터베이스는 지원자를 찾고 있는 법인에 의해 공급된 및/또는 스크레이핑 이외의 다른 방법으로 제공된 직무 내용 설명서와 같은 다른 소스로부터의 직무 내용 설명서를 또한 포함할 수 있다. 시스템은 직무 내용 설명서를 수신하고, 그 다음에 내부 카테고리화 및 품질 관리 처리를 활용하여, 여기에서 설명하는 시스템을 활용할 때 사용자에 대한 유용성을 최대화하고 사용자의 전체 직무 검색 경험을 개선하기 위해 각각의 개별 직무 내용 설명서에 포함된 정보의 품질을 최대화한다.

본 발명에 따라 리스팅 데이터 세트를 획득하고 취급하고 컴파일하는 방법은 인터넷을 통하여 이용가능한 하나 이상의 사이트에서 하나 이상의 리스팅으로부터 리스팅 정보 데이터 세트를 획득하는 단계와, 각각의 스크레이프한 리스팅에 대응하는 데이터 세트를 데이터베이스에 저장하는 단계와, 미리 결정된 품질 기준에 부합하는지의 여부에 대해 데이터베이스에 저장된 각 데이터 세트를 분석하는 단계와, 데이터베이스에 저장된 각 데이터 세트를 하나 이상의 미리 결정된 카테고리로 카테고리화하고 카테고리화된 데이터 세트를 데이터베이스에 반송하는 단계를 포함한다. 상기 방법은 또한, XML 피드, RSS 피드, 및 각종 소스로부터의 직접 입력을 통하여 하나 이상의 고객 사이트로부터 리스팅 정보 데이터 세트를 획득하는 단계를 더 포함한다. 카테고리화 동작은 각각의 미리 결정된 카테고리의 각 데이터 세트에 대한 신뢰도 값(confidence value)을 결정 및 할당하는 단계를 포함하는 것이 바람직하다. 이 결정은 바람직하게, 및 더 구체적으로, 각각의 획득된 데이터 세트의 텍스트를 카테고리화 데이터베이스 내의 미리 카테고리화된 데이터 세트의 텍스트와 비교하고 각각의 획득된 데이터 세트의 미리 결정된 각 카테고리의 신뢰도 값을 결정하는 단계를 수반한다.

본 발명의 방법의 양호한 실시예는 하나 이상의 법인 경력 사이트 또는 직무 게시판(job board)의 하나 이상의 직무 리스팅으로부터 직무 내용 설명서 데이터를 액세스 및/또는 스크레이프하는 동작, 각각의 스크레이프한 직무 리스팅에 대응하는 스크레이프한 직무 내용 설명서 데이터를 데이터베이스에 저장하는 동작, 데이터베이스에 저장된 각각의 스크레이프한 직무 내용 설명서 데이터를 미리 결정된 품질 기준에 부합하는지의 여부에 대해 분석하는 동작, 데이터베이스에 저장된 각각의 직무 내용 설명서를 하나 이상의 미리 결정된 직무 카테고리로 카테고리화하고 카테고리화된 직무 내용 설명서를 데이터베이스에 반송하는 동작, 및 카테고리화된 직무 내용 설명서 데이터를 데이터베이스로부터 검색 뱅크에 전송하는 동작을 포함한다.

카테고리화 동작은 바람직하게, 각각의 스크레이프한 직무 내용 설명서의 텍스트를 카테고리화 데이터베이스의 미리 카테고리화된 직무 내용 설명서 텍스트와 비교하는 동작, 및 각각의 스크레이프한 직무 내용 설명서의 각각의 미리 결정된 카테고리의 신뢰도 값을 결정하는 동작을 포함한다. 더 바람직하게, 상기 방법은 미리 결정된 값 이하의 신뢰도 값을 가진 각각의 카테고리화되고 스크레이프한 직무 내용 설명서를 수동 검토(manual review)용으로 플래그하는 동작, 및 검토자가 임의의 플래그된 카테고리화를 검증할 수 있게 하는 수동 검토 인터페이스를 제공하는 동작을 포함한다.

본 발명의 전술한 특징 및 목적들은 첨부 도면과 함께하는 이하의 상세한 설명으로부터 더욱 명백하게 될 것이다. 첨부 도면에 있어서, 동일한 구성 요소는 동일한 참조 번호로 표시되어 있다.

도 1a는 본 발명의 실시예에 따른 리스팅 관리 플랫폼 시스템의 전체 블록도 이다.

도 1b는 도 1a의 관리 플랫폼 시스템 내의 예시적인 리스팅 관리 모듈의 전체 기능 블록도이다.

도 1c는 도 1b에 도시된 리스팅 관리 모듈 내의 각 태스크 관리자의 전체 기능 블록도이다.

도 2는 도 1a 내지 도 1c에 도시된 관리 플랫폼 시스템의 실시예를 활용하는 직무 검색 시스템의 전체 블록도이다.

도 3은 도 2에 도시된 예시적 시스템의 실시예에서 사용하기 위한 예시적인 사용자(구직자) 검색 입력 질의 인터페이스를 보인 도이다.

도 4는 도 2에 도시된 예시적 시스템의 실시예에서 사용하기 위한 예시적인 사용자(구직자) 검색 결과 인터페이스를 보인 도이다.

도 5는 도 2에 도시된 시스템에 의한 단순화 데이터 처리 흐름을 보인 도이다.

도 6은 도 1에 도시된 시스템의 실시예에서 직무 카테고리화 제어 모듈을 보인 도이다.

도 7은 도 1b에 도시된 시스템의 실시예에 따른 직무 카테고리화 처리의 동작적 흐름도이다.

도 8은 직무 카테고리화 처리를 위한 예시적인 문서 카테고리화 플랫폼 서비스 사용자 인터페이스의 스크린 샷이다.

도 9는 직무 카테고리화 수동 검토 인터페이스 모듈의 처리 흐름도이다.

도 10은 직무 카테고리화 수동 검토 인터페이스 모듈을 위한 예시적인 사용자 인터페이스의 스크린 샷이다.

도 11은 수동으로 검토되는 직무 내용 설명서의 예시적인 사용자 인터페이스의 스크린 샷이다.

도 12는 도 1에 도시된 시스템에서 디듀핑 모듈의 데이터 디듀핑 처리의 흐름도이다.

도 13은 도 1b와 도 1c에 도시된 품질 엔진 처리의 흐름도이다.

도 14는 품질 관리자 보고서를 보인 사용자 인터페이스의 예시적인 스크린 샷이다.

도 15는 본 발명의 실시예에 따른 스크레이핑의 기능도이다.

도 16은 도 1에 도시된 시스템의 보고 모듈에서 발생된 산업 보고서의 스크린 샷이다.

도 17은 도 1a의 사용자 관리 모듈에서 활용되는 사용자 인터페이스의 스크린 샷이다.

도 18은 도 2에 도시된 시스템에서 2개의 태스크 관리자 간에 데이터를 공유하는 태스크 관리자를 보인 도이다.

도 1a에는 본 발명의 실시예에 따른 고급 리스팅 관리용 플랫폼(platform for advanced listing management; PALM) 시스템(100)을 이용하는 예시적인 시스템(10)의 고준위 블록도가 도시되어 있다. 시스템(10)은 인터넷(112) 또는 다른 네 트워크 액세스를 통하여 복수의 사이트(110)로부터 리스팅 정보 데이터 세트를 획득하고, 이 데이터 세트를 PALM 시스템(100)에서 처리하며, 처리된 데이터 세트를 하나 이상의 데이터베이스(12)에 저장하고, 사용자(120)가 웹 서버 클러스터(118)를 통해 액세스하기 위해 하나 이상의 검색 뱅크(109)를 상주시키도록 설계된 분배형(distributed) 소프트웨어 시스템이다.

도 1a는 예시적인 시스템(10)을 거시적 관점(macro view)에서 도시한 것이다. 도 1b는 리스팅 관리자 모듈(104) 중의 하나를 상세히 나타낸 블록도이다. 도 1c는 각각의 리스팅 관리자 모듈(104) 내의 분배 기능들을 나타내는 PALM 태스크 관리자(131)의 기능에 관한 블록도이다.

PALM 시스템(100)은 콘텐츠 취득, 분류(classification), 품질(quality), 성능 및 디스플레이를 위한 비즈니스 프로세스의 자동화 및 주문생산을 용이하게 하는 리스팅 라이프사이클 관리 플랫폼 시스템이다. 도 2를 참조하여 뒤에서 더 자세히 설명되는 예시적인 실시예에서, PALM 시스템(100)은 직업/직무 검색 및 배치 콘텍스트에서 사용된다. 그러나, PALM 시스템(100)을 통합하는 시스템(10)은 다수의 데이터 세트가 수반된 임의의 복잡한 리스팅 방식을 관리하는데에 활용될 수 있다.

도 1a를 다시 참조하면, 시스템(10)은 일반적으로 리스팅 관리 시스템의 모든 잠재적 관리 기능을 모듈 형식으로 시스템(100)에 통합한다. 따라서, 시스템(100)은 기본적으로 포털 섹션(102), 일련의 리스팅 관리자(104), 및 바람직하게 외부 처리 통합 모듈(160)을 구비한다. 또한, 시스템(100)은 플랫폼 응용 프로그래밍 인터페이스(API)(106), 고객 셀프 서비스 포털(107) 및 관리 인터페이싱 포털 API(108)를 포함한다. 기본적으로, 시스템(100)은 외부 입력 사이트(110) 및 기타 소스와 예컨대 인터넷(112)를 통해 인터페이스 접속된다. 관리 운용 직원(114)은 인터넷(116)을 통해 관리 포털(108)을 거쳐 PALM 포털(102)에 액세스한다. 특정의 유료 고객(117)은 만일 그들에게 PALM 시스템(100)에 대한 관리 액세스가 주어졌다면 셀프 서비스 포털(107)을 통해 PALM 포털(102)에 인터넷(112)을 통해 또한 인터페이스 접속된다.

외부 사이트 및 소스(110)로부터 검색된 리스팅 데이터는 PALM 시스템(100) 내에서 처리된다. 그 다음에, PALM 시스템(100)은 하나 이상의 검색 뱅크(109)를 상주시킨다. 검색 뱅크(109) 내의 정보는 그 후 사용자(120)의 질의가 있을 때 웹 서버 클러스터(118)에 의해 액세스되어 인터넷(112)을 통해 디스플레이된다.

PALM 시스템(100)은 관리 운용자(114)가 데이터 리스팅 취득, 처리 및 디스플레이 가용성을 가속화하게 한다. PALM 시스템(100)은 하나 이상의 PALM 처리 머신 또는 리스팅 관리자 모듈(104)을 구비하는 것이 바람직하다. 시스템은 또한 관리 액세스, 제어, 검사 및 보고 기능과, 회계, 재정, 판매 및 고객 정보 기능과 같은 외부 통신을 위해 적당한 PALM 응용 프로그래밍 인터페이스(API)(108)를 통하여 상호작용한다.

PALM 포털(102)은 PALM 시스템(100)의 PALM 리스팅 관리자(104)에 의해 수행되는 액세스, 제어 및 질문 처리(interrogate process)를 위해 사용될 수 있는 다수의 기능 모듈을 포함한다.

사용자 관리, 단일 사인온(sign-on) 모듈(122)은 모든 인증된 관리 인(administrator)에 대한 임무 기반 액세스 제어를 제공하고, 사용자 액세스, 허가 및 임무를 관리하기 위한 생성, 검토, 업데이트 및 삭제(Create. Review, Update and Delete; CRUD) 유즈 케이스(use cases)를 지원하며, 독립 인증 또는 중앙집중화(centralized) 기업 인증(단일 사인온이라고도 알려져 있음) 행동을 통한 인증을 지원하고, 승인 및 관리인 워크플로를 제공한다. 이 모듈(122)은 또한 사용자가 PALM 포털(102)에서 인증되는 임의의 기능에 액세스하기 위해 관리인이 단일 사인온 행동을 수행하게 한다.

사용자 관리 모듈을 위한 사용자 관리 사용자 인터페이스의 예시적인 스크린 샷(screen shot)은 도 17에 도시되어 있다. 도 17에는 예시적인 허가된 사용자명(1702) 및 사용자가 PALM 시스템(100) 내에서 기능들을 수행하거나 편집하도록 관리적으로 인증되었음을 표시하는 액세스 허가(1704)를 목록으로 나타내는 사용자 관리 스크린(1700)이 도시되어 있다. 셀프 서비스 포털(107)을 통하여 입력되는 셀프 서비스 고객(117)의 사용자 인터페이스 스크린은 고객이 바람직하게 시스템(100) 내에서 제한된 기능적 액세스만을 갖게 하는 것처럼 훨씬 더 제한될 것이다.

대리인/사이트 관리 모듈(124)은 스크레이핑에 의해 얻어진 직무 정보의 관리를 수반하는 특수한 실시예와 관련하여 뒤에서 자세히 설명하는 스크레이핑 엔진의 동작을 제어한다. 이 모듈(124)은 사이트, 및 대리인이 원격 사이트에 자동으로 액세스하기 위해 필요한 사용자명과 패스워드 등의 사이트 속성을 관리하기 위한 CRUD 유즈 케이스를 지원한다. 이 모듈은 또한 대리인/사이트에 대한 요구를 인에 이블, 디스에이블, 승인 및 거부한다. 이 사이트 속성들은 다음과 같다.

시드 URL

쓰로틀 속도(Throttle speed)

스크레이핑하기에 좋은 날짜/시간

디스플레이/넌디스플레이 스케쥴

주어진 "호스트" 목록 내에 유지되는 대리인 명령

블랙리스트 사이트(스크레이프되지 않은 사이트)

주어진 SLD, 예를 들면, <anything>.ibm.com 내에서의 유지

하나의 원격 호스트로의 크롤링(예를 들면, www.ibm.com은 www.ibm.peopleclick.com에 대한 링크를 가지며, peopleclick.com으로부터 모든 리스팅을 취한다)

품질 검토 모듈(126)은 운용자가 리스팅 품질을 검토하고, 콘텐츠 발행 및 에러를 검토하고 리스팅을 유효화 또는 무효화하게 하는 매뉴얼 툴(manual tool)을 제공한다. 예를 들면, 유효화 동작은 테스트, 폐물(junk) 및 불쾌감을 주는 콘텐츠 리스팅을 무효화하는 것을 포함할 수 있다. 마지막으로, 품질 검토 모듈(126)은 도 13을 참조하여 뒤에서 설명하는 자동화 품질 검토 작업을 위한 구체적인 수동 검토 메카니즘을 제공한다. 본질적으로, 품질 검토 모듈은 운용자가 미리 결정된 품질 기준에 부합하지 않은 것으로 플래그된 데이터 세트를 데이터베이스로부터 회수할 수 있게 한다.

리스팅 라이프사이클 모듈(128)은 미세 조정(fine tuning), 및 리스팅 데이터 입력과 출력의 동작적 제어에서 PALM 시스템의 성능 및 수율 옵션(throughput option)의 조정을 가능하게 한다. 예를 들면, 이 모듈은 리스팅을 국가, 인구(DMA), 버티컬(vertical), 품질 또는 기타 파라미터로 도로채울(backfill) 수 있다. 예를 들면, 유료로 목록된 농업이 적은 국가의 영역에서, 사용자(120)에 대한 디스플레이 결과는 그 지역으로부터의 스크레이프한 리스팅으로 보충, 즉 도로채워지고, 또는 품질 레벨 결정에 기초해서 배제되는 리스팅이 상주하게 할 수 있다. 따라서, 이 모듈은 스크레이프한 디스플레이 정보 간의 혼합 쓰로틀(blending throttle)을 조정하기 위해 사용될 수 있고, 유료 디스플레이 정보는 국가, DMS 또는 버티컬 등의 각종 파라미터에 의해 스크레이프되고 유료 리스팅의 백분율을 변경한다. 이 모듈은 유료의 스크레이프한 및 프리미엄 리스팅의 통계 및 성능을 비교하는 기능을 포함한다. 이 모듈은 리스팅 유형 및 속성을 관리하기 위한 CRUD 유즈 케이스를 제공하고, 콘텐츠/리스팅 디스플레이 및 만기 스케쥴을 관리한다.

보고 모듈(reporting module)(130)은 다른 기준들 중에서도 특히 산업 및 인구통계에 의한 다수의 보고 작업을 지원한다. 예를 들면, 이 모듈(130)은 유료 및 스크레이프 리스팅의 이력 성능(historical performance)의 비교를 가능하게 하고, 유료 및 스크레이프 리스팅의 리스팅 클릭 스로우 및 관심 표시의 추적을 용이하게 하며, 트래픽 리디렉션(traffic redirection)을 추적한다. 이 모듈은 또한 새로운 리스팅의 수, 유료 및 스크레이프 정보 데이터 세트의 수를 추적한다. 마지막으로, 판매 및 마케팅 팀은 상기 리스팅과 유사한 종래의 히스토리에 기초하여 프리미엄 리스팅을 상향 판매(up-sell)하기 위해 이 툴을 사용할 수 있다. 산업 보고 서(1600)의 예시적인 스크린 샷은 도 16에 도시되어 있다. 예시적인 품질 관리자 보고서(1400)는 도 14에 도시되어 있다.

카테고리 검토 모듈(132)은 적당한 카테고리로 자동으로 카탈로그화 즉 분류되지 않은 리스팅 정보가 수동으로 검토되어 적절히 카테고리화되거나 삭제되는 메카니즘을 제공한다. 카테고리 검토 모듈(132)은 직무 검색 및 리스팅 정보 관리 분야에서 PALM 시스템(100)의 하나의 특수하게 구현된 실시예를 참조하여 뒤에서 더 자세히 설명된다. 그러나, 뒤에서 설명하는 카테고리 검토 원리는 데이터 리스팅이 미리 결정된 동적 결정 기준을 참조하여 체계적으로 얻어지고 검토되며 카테고리화되는 임의의 시스템에 적용가능하다. 개발되어 본 발명의 양수인에게 양도된 예시적인 자동 카테고리화 기술은 자동화 제품 카테고리화(Automatic Product Categorization)라는 명칭으로 2004년 8월 17일에 출원한 미국 특허 출원 번호 10/920,588호에 설명되어 있다.

검색 뱅크 동기화기 모듈(154)은 데이터베이스(12)로부터 정화되고(cleanse) 카테고리화된 데이터 세트를 취하여 적절히 포맷하고, 그 다음에 검색 뱅크(109) 중의 적당한 하나에 복사물(copy)을 상주시킨다. 유사하게, 유료 검색 뱅크 동기화기(156)는 유료 리스팅 고객으로부터 기원(originate)하는 정화되고 카테고리화된 데이터 세트를 취하여 그 데이터 세트를 검색을 위해 적절히 포맷하고, 검색에 이용할 수 있는 복사물을 검색 뱅크(109)에 상주시킨다. 이러한 유료 리스팅은 데이터 세트가 사용자의 검색 기준에 부합하고 그에 따라서 최종 사용자(120)에게 디스플레이될 때 사용자(120)에게 고수준의 가시성을 제공하는 것이 바람직하다.

구성 발생기 모듈(158)은 시스템(100)에 의해 취급되는 데이터량을 분석하고 각각의 가용 PALM 리스팅 관리자 모듈(104)의 구성 파라미터를 발생하며, 각 PALM 리스팅 관리자 모듈(104)에 할당되는 PALM 태스크 관리자/스케쥴러의 수 및 크기를 결정한다. 뒤에서 더 자세히 설명하는 바와 같이, 관리 운용자는, 리스팅 관리자 모듈 가용성, 시스템(100)에 보내지는 데이터의 양, 스크레이핑 동작의 결과 및 관리 입력에 기초해서, 시스템(100)의 데이터 수율을 최적화하고 레벨화(levelize)하는데 필요한 정보를 구성 관리자 모듈(158)에게 통지한다.

PALM 시스템(100)은 하드웨어 가용성 및 구성 관리자 모듈(158)에 의해 결정된 대로 1 내지 n의 복수의 PALM 리스팅 관리자 모듈(104)을 포함한다. 예시적인 하나의 PALM 리스팅 관리자는 도 1b에 도시되어 있다. PALM 리스팅 관리자 모듈(104)은 PALM 메타데이터 기억부(162), 스테이징 데이터베이스(164), 및 쿠크 데이터베이스(166)를 PALM 시스템(100)에 대한 각 입력과 관련된 로컬 데이터베이스와 함께 포함하는 전체 PALM 시스템(100) 데이터베이스(12) 내의 데이터에 액세스하고 그 데이터를 이용한다. 일반적으로 관리 정보는 메타데이터 기억부(162)에 이관된다. 스테이징 데이터베이스(164)는 초기 데이터 처리 중에 사용되는 임시 데이터베이스이다. 일단 초기 처리가 완료되면, 처리된 데이터는 쿠크 데이터베이스(166)에 저장된다.

각각의 리스팅 관리자 모듈(104)은 사이트(110) 및 고객 셀프 서비스 블록(117)과 같은 외부 소스로부터 시스템(100)에 들어오는 각 데이터 세트에서 수행되어야 하는 일련의 태스크 관리하고 스케줄링하는 마스터 태스크 스케쥴러(131)를 포함하는 것이 바람직하다. 마스터 태스크 스케쥴러(131)에 의해 제어되는 태스크는, 비제한적인 예를 들자면, 스크레이핑 관리자 모듈(134), 데이터 소스 어댑터 태스크(136), 데이터 스플리터 태스크(133), 데이터 정화기 태스크(138), 데이터 디듀핑(deduping) 태스크(139), 자동 카테고리화 엔진 태스크(140), 규칙 기반 품질 엔진 태스크(142), 및 업무 규칙 태스크(144)가 있다.

스크레이핑 관리자 모듈(134)은 외부 사이트(110)로부터 리스팅 정보를 스크레이프, 즉 획득하는 툴의 전체적인 제어 및 관리를 행한다. 현재 사용되고 있는 스크레이핑 툴에는 2가지의 일반적인 유형이 있는데, 그 중 하나는 야후사(Yahoo, Inc.)의 자회사인 켈쿠사(Kelkoo, Inc.)에서 최초로 개발한 켈쿠(Kelkoo)와 같은 특수 사이트 스크레이핑 툴이고, 다른 하나는 역시 야후사에서 개발한 까페/켈사(Cafe/Kelsa) 스크레이핑 엔진과 같은 URL 크롤러 엔진(crawler engine)이다. 크롤러 엔진은 시드 URL로 시작하고 이 엔진과 마주치는 각각의 모든 링크를 통해 수색하며, 따라서 위치 및 정보를 원래 어드레스로부터 멀리 제거시킬 수 있다. 스크레이핑 관리자 모듈(134)은 마스터 태스크 스케쥴러(131)를 통하여 대리인/사이트 관리 모듈(124)에 의해 상기 스크레이핑 툴의 동작을 조정하여 스크레이프되고 스크롤된 사이트가 행동에 의해 압도되지 않게 하고, 현재 리스팅 정보가 취급되는 것을 보장하도록 빈번하게 방문된다.

데이터 소스 어댑터 태스크 모듈(136)은 데이터 세트가 각종 입력으로부터 시스템(100)에 수신된 때 로컬 데이터베이스에 저장되어 있는 다른 데이터 소스로부터 데이터를 취하고, 상이한 유형의 데이터 세트를 모두 1인 정상화 유형의 정상 화 데이터 세트로 변환한다. 예를 들면, 데이터 세트는 텍스트 파일, XML, HTML 또는 RSS 데이터 피드로서 시스템(100)에 공급될 수 있다. 상기 상이한 유형의 데이터 세트는 추가로 처리되기 전에 정상화되어야 한다. 데이터 소스 어댑터 태스크 모듈(136)은 모든 데이터 세트가 공통의 정상화 유형으로 되는 것을 보장한다.

이제, 도 1c를 참조하면, 각각의 PALM 마스터 태스크 스케쥴러(131)가 일련의 태스크를 스케쥴 및 제어하고, 그 일부는 다중 태스크 스레드(thread)를 관리한다. 마스터 태스크 스케쥴러(131)는 데이터 정화기 태스크 관리자(138), 데이터 디듀핑 태스크 관리자(139), 카테고리화 태스크 관리자(140), 품질 엔진 태스크 관리자(142) 및 업무 규칙 태스크 관리자(144)를 스케쥴하고, 그 각각은 n개 스레드의 태스크를 관리할 수 있다.

데이터 스플리터 태스크(133)는 데이터 세트의 덩어리를 대략 유사한 특성의 상이한 그룹들로 분할하여 유사한 속성을 가진 데이터 세트들이 동일한 태스크 시퀀스 스레드에 의해 처리되게 한다. 태스크(133)는 다른 스레드에 대한 데이터 세트의 할당을 결정한다. 데이터 스플릿 태스크는 다수의 가용 PALM 마스터 태스크 스케쥴러(131)에 구성 변화가 있는지를 먼저 검출한다. 만일 변화가 있으면, 스크레이핑 팜(scraping farm) 및 다른 소스로부터의 스테이지화 데이터가 새로운 그룹핑으로 개작(rehash)된다. 만일 변화가 없으면, 새로 추가된 데이터 세트만이 평가된다. 데이터 스플릿 태스크(133)는 예를 들면 직무 리스팅(job listing)의 경우 직무명, 회사 및 직무 상태와 같이 미리 결정된 필드의 ASCII의 해시(hash)에 기초해서 리스팅 데이터를 분할한다. 이 해시는 구체적으로 ((ascii(jobtitle) + (ascii(jobcompany) + (ascii(jobstate1))% NUM_CK_RUNNERS) 이고, 여기에서 NUM_CK_RUNNERS는 구성 관리자(158)에 의해 결정된 PALM 마스터 태스크 스케쥴러(131)에 이용가능한 스레드의 수이다. 데이터 스플릿 태스크의 기능은 동일한 데이터를 기록하도록, 바람직하게는 동일한 스레드에 의해 처리되도록 동일한 데이터 세트를 동일한 "버킷"(bucket)으로 항상 분할하는 균일한 해시 기능을 사용하는 것이다.

데이터 정화기 태스크 관리자(138)는 각각의 스크레이프한 리스팅이 동일한 포맷 및 콘텐츠 구조를 갖도록 스레드(161) 내의 각 데이터 세트 또는 기록의 검사 및 포맷팅의 제거를 제어한다. 구체적으로, 이 태스크(138)는 모든 HTML 태그를 데이터 필드로부터 제거하는 것, 이름을 유효화하는 것 및 어드레스와 위치 데이터의 국내(domestic) US 리스팅을 위한 2 문자 상태 코드와 같은 적절한 코드에 두는 것을 제어한다. 국제 리스팅에 대해서는 적당한 국제 위치 약어(지방/영토)로 둔다. 이 태스크 모듈(138) 내의 각 스레드(161)는 "http:" 또는 "https:"로 시작하는 것을 보장하고 모독성 단어(profanity words)를 제거하며, 데이터 필드를 유효화하고, 각 필드의 무효 특성, 예를 들면 도시 필드의 모든 숫자들을 체크하기 위해서각 URL과 같은 데이터 리스팅 내의 동작적 체크를 또한 수행한다. 마지막으로, 각 스레드(161)는 정확한 기본 구두점 동작, 예를 들면, 문장 내의 최초 문자가 대문자로 되고 각각의 새로운 문장을 시작하기 위해 2개의 스페이스를 두는 동작을 제공하는 것이 바람직하다.

데이터 디듀핑 태스크 관리자(139)는 데이터 기록을 취하고 데이터 정화기 관리자 모듈(138)로부터 데이터 세트를 리스팅하며, 데이터 세트를 기존 데이터베이스(164, 166) 내의 기록들과 비교하여 PALM 시스템(100)이 이미 수신되고 검사되고 저장된 데이터를 이중화하지 못하게 하는 멀티 스레드 태스크(163)를 관리 및 스케쥴한다. 기존 데이터베이스 콘텐츠와의 비교에서 이중화된 것으로 플래그된 임의의 데이터 세트는 데이터베이스(12)로부터 제거된다. 그러므로, 용어 "이중화 제거"(de-duplicating) 또는 "디듀핑"(de-duping)이 사용된다.

카테고리화 태스크 관리자 모듈(140)은 특수 리스팅 데이터 세트가 속하는 카테고리를 결정하기 위한 동작을 자동으로 수행하는 스레드(165)를 관리한다. 예를 들면, 모바일 앨라배마의 리스팅을 판매하기 위한 집은 그 위치, 크기, 형태, 싱글 패밀리인지 듀플렉스인지 등에 의해 카테고리화될 수 있다. 직무 데이터 세트는 분야, 시간, 교육, 위치 등에 의해 카테고리화될 수 있다. 따라서, 카테고리화 엔진 태스크 관리자(140)는 서브젝트 리스팅 데이터 세트를 미리 결정된 카테고리에 따라 자동으로 카테고리화하는데 필요한 동작들을 제어 및 관리한다. 이 태스크 관리자(140)는 다중 스레드형이고 최대 n개 인스턴스(165)까지의 카테고리 결정을 동시에 조정한다. 이 카테고리화 태스크는 또한 바람직하게 결정된 카테고리화의 신뢰도 수준의 결정을 포함한다. 예시적인 카테고리화 기술은 2004년 8월 17일자 출원한 미국 특허 출원 제10/920,588호 및 그 출원에서 설명하는 관련 출원들에 개시되어 있으며, 이 특허 출원들은 모두 야후사가 양수하였다.

규칙 기반 품질 엔진 태스크 관리자 모듈(142)은 데이터 세트가 특정 기준에 부합하고 상세 정보의 특정의 최소 수준을 내포하는 것을 보장하기 위해 각각의 리 스팅 데이터 세트를 정사(scrutinize)하는 일련의 규칙들을 제공한다. 이러한 기준은 예를 들면, 주거용 부동산 리스팅의 거리 주소, 직무 리스팅의 직무 타이틀 또는 그러한 구현을 위한 도시 위치를 포함한다. 이 모듈(412)의 하나의 예시적인 실시예는 시스템(100)의 직무 검색 구현을 참조하여 뒤에서 더 자세히 설명된다. 품질 엔진 태스크 관리자(142)는 2개의 기본 스레드 시퀀스, URL 링크 체크 스레드(167)와 그 다음에 데이터 유효화 스레드(169)를 스케쥴한다. 이들 체크(167, 169)는 URL이 사실상 현재 유효 URL이고 또한 데이터 기록 단어와 URL로부터 다운로드된 웹 페이지 간의 단어 정합 루틴을 수행하여 리스팅 설명의 일치를 보증하는 것을 검증한다. 데이터 유효화 스레드(169)는 데이터 세트로부터 단어들을 무작위로 선택하고 그 단어들을 다운로드된 웹 페이지와 정합시키며 단어들 중에서 5 문자 이상인 단어들을 선택한다. 데이터 세트가 다운로드된 웹 페이지와 정합되지 않으면, 에러 플래그가 세트된다. 이 태스크의 더 자세한 예는 뒤에서 도 13을 참조한 PALM 시스템(100)의 직무 검색 구현의 설명과 함께 설명된다.

업무 규칙 태스크 모듈(144)은 리스팅을 디스플레이하거나 디스플레이하지 않고, 리스팅을 필터링하고, 산업 위치(industry location)에 따라서 부분 리스팅을 보이고, 또는 데이터가 미리 크롤될 수 있다 하더라도 디스플레이용의 사이트 데이터를 완전하게 차단(block)하도록 판별 규칙을 적용하는 능력을 업무에 제공한다. 예를 들면, 보스톤 지역의 구직 응용에서, 구직자는 미리 결정된 시간 기간동안 건전한 산업의 스크레이프되고 크롤된 데이터의 10%만을 디스플레이하도록 선택할 수 있다. 새로운 리스팅이 도달하면, 업무 규칙 엔진은 전체 데이터 세트를 통과하고 그에 따라서 미리 규정된 규칙에 대해 모든 리스팅을 제거하거나 마크할 수 있다.

PALM 시스템(100)에 대한 상기 설명으로부터, 시스템은 확장성이 있고 멀티 스레드되며 분배형이어서 복수의 모듈(104)과 같은 모듈들의 기능성이 묘사된 기능을 수행하도록 적절하게 동작적으로 함께 접속된 컴퓨팅 머신들의 상이한 조합에서 실행될 수 있게 한다는 것은 명백하다.

본 발명의 실시예에 따라서 도 1a 내지 도 1c에 도시된 PALM 시스템(100)의 하나의 실시예를 통합하는 직무 검색 시스템(200)의 전체 구조도는 도 2에 도시되어 있다. 시스템(200)은 3개의 섹션, 즉 외부 입력 섹션(201)과, 데이터 취급 섹션(203)과, 출력 취급 섹션(205)을 갖는 것으로 생각할 수 있다. 기본적으로, 데이터 취급 섹션은 직무 데이터의 외부 입력 섹션(201)에 도달하고, 데이터를 처리하고, 데이터의 유효성을 조직 및 검증하고, 직무 데이터를 카테고리화하고, 그 데이터를 출력 섹션에 제공하며, 상기 출력 섹션은 본질적으로 구직자(207)가 인터넷(112)을 통해 액세스할 수 있다.

외부 입력 섹션(201)은 법인(corporate) 및 회사(company) 경력 사이트와 다수의 다른 직무 게시판(202)과 같은 소스로부터 데이터 취급 섹션에 의해 액세스될 수 있는 직위 공모(job posting)를 포함한다. 상기 법인 경력 사이트 및 직무 게시판(202)은 현재 수 천개의 회사 경력 사이트로 구성된다. 고용주/소개인(204)은 직무 리스팅 정보를 인터넷(112)을 통하여 고용주/소개인 인터페이스 애플리케이션(206)에 직접 제공할 수 있다. 이러한 소개인 인터페이스 애플리케이션은 데이터 취급 섹션(203)에 적당한 형식으로 직무 정보를 입력하고 개별 리스팅을 제출하기 위한 사용자 인터페이스 스크린을 고용주/소개인에게 제공한다.

시스템 게이트웨이/피드(208)는 고객 사이트(210)와 통신하여 고객 사이트(210)가 이 목적으로 미리 저장하고 있는 직무 정보를 미리 규정된 형식으로 끌어낼 수 있다. 게이트웨이/피드(208)는 고객 사이트가 정보를 제출하고 시스템 피드를 시스템(200)의 데이터 취급 섹션(203)에 공급하게 한다. 대안적으로, 고객 사이트는 직무 정보를 웹 서비스(212)를 통해 이용하게 할 수 있다. 여기서, 시스템(200)은 직무 리스팅 정보를 얻기 위해 단순 객체 액세스 프로토콜(Simple Object Access Protocol; SOAP)을 통해 고객 사이트(210)에 액세스한다. 직무 정보가 고객 사이트로부터 얻어지는 다른 방법은 RSS(214)를 통하는 것이다. RSS(Really Simple Syndication)는 뉴스, 블로그, 제품 데이터 및 여러가지 다른 유형의 웹 콘텐츠를 공유하도록 설계된 경량(lightweight) XML 포맷이다. RSS는 BBC, 야후, CNET, CNN, 디즈니, 포브스, 모틀리 풀, 와이어드, 레드 허링 등을 포함하는 사이트들 간에 콘텐츠를 공유하는 대중적 수단으로 발전하였다. 직무 정보는 또한 직접 XML 피드(216) 및 인터넷(112)을 통해 고객 사이트(210)로부터 얻어질 수 있다.

데이터 취급 섹션(203)에 대한 입력은 스크레이핑 엔진 팜(218)에 의해 또한 제공된다. 스크레이핑 엔진 팜(218)은, 설계상의 선택사항으로 개발될 수 있지만 여기에서의 양호한 실시예에서 인터넷(112)과 같은 글로벌 전자식 네트워크를 통해 검색하기 위한 것으로 구체적으로 다루어지는 다른 스크레이핑 기술 및 방법을 전형적으로 사용하는 다수의 스크레이핑 엔진(220)을 구비하며, 각 엔진(220)은 특수 유형의 스크레이핑 태스크 또는 특수 유형 또는 세트의 법인 사이트용으로 최적화된다. 예를 들면, 현재 야후사의 자회사이고 유럽에 있는 켈쿠사가 개발한 켈쿠 스크레이핑 엔진은 미리 결정된 공지의 법인 사이트 또는 리스팅 사이트를 완전하게 찾아다니도록 최적화된다. 켈쿠 스크레이핑 엔진은 직무 정보 데이터 세트를 추출하기 위하여 특정 내부 위치로 사이트 내의 내부 링크를 추종하도록 최적화된다. 야후사에서 개발하고 2005년 2월 22일에 동적 웹 콘텐츠를 크롤링하는 기술(Techniques for Crawling Dynamic Web Content)이라는 명칭으로 출원된 미국 특허 출원 제 11/064,278호에 개시된 까페/켈사 스크레이핑 엔진 팜은 시드 URL을 체계적으로 검사하고 사이트 내의 각 링크를 추종하며, 그 "크롤"에서 발견한 링크뿐만 아니라 그 URL에 제공될 수 있는 각 내부 및 외부 링크를 추종하도록 최적화된다.

입력 섹션(201)은 상기 각종 소스로부터 데이터를 공급하고 전체 데이터베이스(12)의 일부인 스테이징 데이터베이스(222)에 버스(224)를 통해 공급한다. 그 다음에, 스테이징 데이터베이스(222)는 고급 리스팅 관리용 플랫폼(PALM) 시스템(100)에 의해 데이터 취급 섹션(203)에서 액세스된다. PALM 시스템(100)은 또한 관리 시스템(100)에 입력을 제공하는 수 개의 모듈을 구비한다. 예를 들면, 고객 관계 관리자(CRM) 모듈(226) 및 다른 외부 애플리케이션 모듈(228)은 정보를 제공하고, PALM 시스템(100)에서 유일하게 이용가능한 보고서 및 기타 정보를 추출할 수 있다. 프로젝트 관리, 운용, 판매 및 마케팅 직원(230)은 또한 인터넷(232)을 통해 PALM 시스템(100)에 입력을 제공하고 PALM 시스템(100)을 제어할 수 있다. 이것에 대해서는 뒤에서 더 자세히 설명된다.

데이터 출력 섹션(205)은 직무 검색 웹 서버/클라이언트 클러스터(248) 및 이 클러스터(248)에 대한 다수의 데이터 소스 모듈을 포함한다. 스크레이프한 검색 뱅크(246)는 이들 중의 하나이다. 애드(ad) 시스템 프리미엄 리스팅 모듈(250), 유료 검색 뱅크(252), 오버쳐(overture) 시스템 콘텐츠 정합 모듈(254) 및 링크 구축 모듈(256)은 직무 검색 웹 서버/클라이언트 클러스터(248)에 의해 질의된다.

애드 시스템 프리미엄 리스팅 모듈(250)은 시스템(200)의 호스트에 대한 유료 프리미엄 계정을 가진 특정 고용주 또는 소개인으로부터의 광고를 제작하여 클러스터(248)에 제공한다. 이 프리미엄 광고는 특수 상자, 배너, 하이라이트, 또는 특수한 검색 요구에 응답하여 구직자(207)에게 제시될 수 있는 다른 리스팅으로부터의 세트오프에서 구직자에게 디스플레이될 수 있다.

유료 검색 뱅크 모듈(252)은 고용주 멤버(260)가 시스템(200)의 호스트에 요금을 지불한 때 액세스할 수 있는 특수한 검색 뱅크이다. 이 유료 검색 뱅크 모듈(252)은 직무 소개인 고용주 또는 요금을 지불한 법인으로부터 직무 리스팅을 식별하고 저장하고 추적하여 그들의 게시된 직무 리스팅이 구직자(207)에게 제시된 사용자 인터페이스상의 더 높은 또는 강조된 배치를 수신하는 것을 확실히 한다. 따라서, 유료 포스팅(paid posting)은 멤버 데스크탑(262) 또는 게이트웨이(264)를 통해 멤버 회사에 의해 검색 뱅크(252)에 직접 제공된다. 유료 검색 뱅크(252)는 사용자가 제공한 특정의 희망 검색 카테고리와 함께 리스팅을 푸시하기 위해 여기 에서 설명하는 시스템(200)의 운용자에게 프리미엄을 지불한 직무 리스팅 엔티티에 의해 제공된 정보를 포함하고, 따라서 이러한 검색 결과는 프리미엄 지불의 대가로 사용자 인터페이스(406)를 통해 사용자에게 우월한 위치(prominent position)에서 제공된다.

오버쳐 시스템 콘텐츠 정합 모듈(254)은 그 데이터베이스에 직무 검색자의 검색 기준과 일치하는 임의의 광고가 있는지를 질의한다. 이 광고들은 시스템(200)의 호스트가 사용하기 위해 유료 데이터베이스에 미리 기억되거나 링크된다. 그러한 광고의 예는 도 4에 도시된 검색 결과 사용자 인터페이스 스크린 샷에 나타나 있다.

링크 구축기 모듈(256)은 링크 쿠키를 제공하고, 구직자(207)가 제공한 검색 용어와 일치하는 다른 직무 소스로의 링크를 취급한다. 일부 예에서, 직무 내용 설명서를 검토하기 위해서, 구직자는 리스팅을 보기 위해 특수한 웹 사이트에 통과되어야 한다. 그러한 환경에서, 사이트는 직무 정보가 검토되기 전에 쿠키 등과 같은 특수한 보안 요소를 요구할 수 있다. 따라서, 링크 구축기 모듈(256)은 사이트가 특수 쿠키 또는 다른 식별자를 필요로 하는 경우에 필요한 인터페이스 특성을 제공한다. 링크 구축기 모듈(256)은 사이트에서 요구하는 필요한 정보, 예를 들면 직무 리스팅에 액세스하기 위한 세션 쿠키 등의 정보를 포함한 URL을 구축하기 위한 처리를 관리한다. 링크 구축기 모듈(256)의 결과는 구직자의 검색 요구로부터 관심 대상의 특수 직무에 추가해서 구직자(207)에게 제공될 수 있다.

도 4를 참조하면, 웹 서버 클러스터(248)는 여기에서 설명하는 시스템(200) 을 사용하고자 하는 구직자(207)에게 게이트웨이 인터페이스로서 작용한다. 구직자(207)는, 시스템(200)에서 검색 요구를 개시하기 위해서, 도 3에 도시된 것과 유사한 사용자 인터페이스가 제시되는 것이 좋다. 그 다음에, 클러스터(248)는 시스템 검색 뱅크(252, 254, 246, 250)로부터 정보를 획득하기 위한 검색을 행하고, 도 4에 도시된 예시적인 결과 인터페이스에서처럼 질의하는 구직자(207)에게 사용하기에 편리하고 효율적인 방법으로 그 정보를 제시한다.

검색 요구(302)를 도 3에 도시된 것과 같은 사용자 인터페이스에 입력하는 구직자(207)는 서버 클러스터(248)와 인터페이스하고, 도 4에 도시된 바와 같이 구직자(207)에게 집성 결과(aggregated result)를 제시한다. 따라서, 사용자는 이하에서 설명하는 바와 같이, 애드 시스템 프리미엄 리스팅 모듈(250), 직무 검색 뱅크(252), 뱅크(254, 250, 246) 및 뱅크(256)으로부터 수집된 직무에 의해 식별된 리스팅의 제공을 통해 프리미엄 리스팅을 볼 것이다.

다시 도 4를 참조하면, 사용자 질의 결과 인터페이스(400)의 예시적인 스크린 샷이 도시되어 있다. 이 사용자 인터페이스(400)는 구직자에게 그의 질문과 일치하는 모든 직무 정보를 검토할 기회를 제공한다. 또한, 이 사용자 인터페이스는 구직자가 다른 질의 또는 더 구체적인 질의를 제출할 수 있게 한다. 디스플레이부(402)는 특수한 검색 기준, 예를 들면, 도 4에서, 일리노이주에서 소프트웨어 개발자 위치와 정합하는 모든 직무 정보를 검토할 기회를 사용자에게 제공한다. 구직자는 소프트웨어 개발자 위치에 대한 검색의 결과로서 이용가능한 모든 직무 정보를 검토하거나, 과거 24시간, 7일 또는 다른 미리 선택된 시간 기간 내에 업데이트 된 설명만을 검토할 수 있다. 또한, 구직자는 경력 수준, 위치 또는 직무 내용 설명서 내의 다른 특성이나 서브카테고리에 의해 자신의 검색을 구성할 수 있다.

인터페이스(400)는 다수의 바람직한 결과 그룹핑에 의해 분리된 결과 세그멘트를 또한 디스플레이한다. 따라서, 시스템(200)은 애드 시스템 프리미엄 리스팅 모듈(250)로부터 얻어진 프리미엄 리스팅의 세그멘트를 제시할 수 있고, 상기 모듈(250)은 시스템(200)의 호스트가 구직자(207)에 의해 제시된 사용자 인터페이스(400)의 결과 부분에서 더 우월한 위치를 그들의 직무 리스팅이 얻기 위하여 프리미엄을 지불할 기회를 업무 추구 고용주(business seeking employer)에게 제공함으로써 수익 강화 툴로서 시스템(200)을 사용할 수 있게 한다.

사용자 인터페이스(400)는 유료 직무 검색 뱅크(252)로부터의 검색 결과를 제시하는 제2 서브섹션(406)을 포함하는 것이 또한 바람직하다. 제3 서브섹션(408)은 스크레이프 검색 뱅크(246)를 검색한 직접 결과인 비프리미엄 알고리즘적 검색 결과를 제시한다. 제4 섹션(410)은 오버쳐 시스템 콘텐츠 정합 모듈(254)로부터 더 일반적인 유료 링크를 제공한다. 마지막으로, 다수의 광고(409)가 애드 시스템 프리미엄 리스팅 모듈(250)의 검색으로부터 디스플레이될 수 있다.

스크레이핑은 도 15에 도시된 바와 같이 켈쿠 스니퍼(220), 직무 웹 사이트(202)를 스크레이프하기 위한 일련의 대리인(1502), 바람직하게는 수집된 직무 및 대리인 로그를 저장하기 위한 스테이징 데이터베이스(222)와 같은 MySQL 데이터베이스, 및 대리인(1502)을 진수(lunch)시키기 위해 PALM 시스템(100)에서 대리인 사이트 관리 모듈(124)에 의해 관리되는 러너 스크립트(1504) 등의 구성 요소를 포 함한다.

이하의 설명은 시스템(200)에서 바람직하게 스크레이핑 팜(220)을 통하여 데이터가 흐르는 방법을 요약한 것이다. 스크레이핑 사이클의 시작시에, 전체 데이터베이스(12)의 다른 부분인 "잡커런트"(job_current) 테이블(626)이 잘라버림(truncate)되고 그 콘텐츠는 아카이브 테이블(도시 생략)에 복사된다. 스크레이프한 직무의 아카이브는 제한된 기간(예를 들면, 7일) 동안에만 저장되는 것이 좋다.

스크레이핑 엔진(220)의 켈쿠 "스니퍼"는 어댑터(대리인(1502)이라고도 또한 알려짐)를 진수시키기 위해 사용되는 자바 프로그램이다. 스크레이핑 엔진(220)은 대리인(1502)을 통해 직무 게시판(202)을 스크레이프한다. 각 대리인(1502)은 3개의 텍스트 파일, 즉, agent.info, agent.props 및 agent.sql.로 구성되는 것이 바람직하다. 단일 대리인은 단일 웹 사이트를 스크레이프하기 위해 사용된다. 대리인 파일은 특수 대리인 디렉토리에 저장된다. 그 다음에, 대리인(1502)은 스크레이프한 직무를 "직무" 테이블(여러 개의 직무 테이블이 있을 수 있고, 그 중 2개가 도 15에 도시되어 있다)(1506)에 덤프한다. 러너(1504)는 직무 기록을 "직무" 테이블(1506)로부터 "잡커런트" 테이블(626)로 복사한다. 러너(1504)로부터 하류에 있는 구성 요소들, 예를 들면, 품질 관리자 모듈(142)과 카테고리화 모듈(132, 140)은 직무 기록의 복사물을 수신하여, 바람직하게 쿠크 데이터베이스(236)의 일부인 잡커런트 테이블(626)의 기록에서 품질 관리 및 카테고리화 동작을 수행한다. 그 결과들은 그 다음에 도 2의 쿠크 데이터베이스(236)에 전달된다.

켈쿠 스니퍼 검색 엔진(220)은 가상 SQL 테이블로서 대리인(1502)에 대하여 생각한다. 가상 테이블의 스키마(schema)는 대리인의 sql 파일에서 정의된다. 인포 파일(info file)은 스니퍼 검색 엔진(220)이 동작하는 가상 테이블에 대한 선택(SELECT) 설명서이다. 프로프 파일(props file)은 가상 테이블을 채우기 위해 사용되는 스크레이핑 로직을 포함한다. 스크레이핑 로직은 각종 필터에 의해 실행되는 단계들의 시퀀스이다. 필터들은 어댑터 개발 키트(ADK)를 구성하는 자바 클래스이다. 필터들은 순서적으로 실행되고 공통 콘텍스트에 대해 변수들을 판독 및 기록할 수 있다. 필터들은 html 페이지의 스트링 또는 패턴을 찾아서 세이브하고, 콘텍스트의 변수들을 조작하고, 재발생 패턴을 루핑하여 루프 내의 다른 필터들을 실행하고, URL에 의해 식별된 페이지로 가서 그 콘텐츠를 검색하는 등의 기능을 갖는다.

대리인(1502)의 출력은 각각의 스크레이프한 직무에 대한 SQL 삽입(INSERT) 설명문을 포함하는 텍스트 파일이다. 스니퍼 검색 엔진(220)은 이 데이터 파일을 이용하여 스크레이프한 직무 기록을 "직무"(실제 테이블명은 구성 파라미터이다)(1506)라고 부르는 MySQL 테이블에 로드한다. 스니퍼(220)는 각종 명령선(command line) 파라미터 및 명령선에서 전달된 임의수의 특성 파일을 통해 구성된다. 스니퍼 검색 엔진(220)의 가장 중요한 구성 파라미터는 MySQL 데이터베이스의 이름, 데이터베이스 사용자 및 패스워드, 스크레이프한 기록을 덤프하기 위한 테이블의 이름; 및 대리인 요구 파일로의 경로 및 대리인(1502)을 포함하는 디렉토리이다.

스니퍼 검색 엔진(220)은 바람직하게 단일 스레드이고, 이것은 한번에 하나의 대리인(1502)을 로드 및 구동한다. 대리인(1502)을 구동시킨 후에, 스니퍼 검색 엔진(220)은 구동 시간, 대리인(1502)의 이름 및 경로, 스크레이프한 기록(직무)의 수, 및 가능한 에러에 관한 정보들과 함께 기록을 "보고서" 테이블(1508)에 삽입한다.

대리인 파일은 CVS 저장소(repository)에 저장된다. 전달된 QA를 가진 대리인(1502)의 버젼은 특수 CVS 태그로 태그된다. 이 방식은 대리인 개발자, 테스터 및 생산 시스템이 동일한 나무(tree)에서 작업하고, 생산 중에 테스트되지 않은 대리인의 구동을 회피할 수 있게 한다.

대리인 러너(1504)는 시스템(200)용으로 개발된 펄(Perl) 스크립트이다. 러너(1504)는 대리인 파일이 로컬 파일 시스템에서 이용가능으로 될 것을 요구한다. 러너(1504)가 기동되기 전에, 로컬 CVS 나무는 구동되어야 하는 모든 대리인 파일을 다운로드하기 위해 생산 태그(production tag)와 동기되어야 한다. 러너(1504)는 다음의 단계를 수행한다.

1. 그 구성 파일을 판독한다. 이것은 구동할 대리인(1502)의 목록을 포함한다. 각 러너는 구성의 일부로서 전달되는 id를 갖는다.

2. 자신의 구성에 기초하여 스니퍼(220)의 구성 파일을 발생한다.

3. 구동되는 대리인(1502)에 속하는 모든 기록들을 잡커런트 테이블(626)로부터 삭제한다(이것은 잡커런트 테이블(626)이 바람직하게 매일 잘라버림되기 때문에 대부분의 경우 불필요하다).

4. 대리인(1502)을 구동시키는 스니퍼 검색 엔진(220)을 진수시킨다.

5. 바람직하게 직무 테이블의 각 기록을 처리하여 html 태그로부터 직무 내용 설명서를 제거한다. 각 러너는 자신의 직무 테이블(1506)을 가지며, 직무 테이블의 이름은 러너의 id(예를 들면, "job1")을 이용하여 발생된다.

6. 직무 테이블(1506)로부터의 모든 기록들을 잡커런트 테이블(626)로 덤프한다. 직무 기록은 러너의 id를 포함하고, 이것은 하류의 구성 요소들이 특수 러너(1504)로부터 온 기록들을 쉽게 식별할 수 있게 한다.

7. 대리인 구동의 요약을 그 로그 파일에 기록한다. 이 정보는 직무, 잡커런트, 및 보고서 테이블(1506, 626, 1508)에 대한 질의를 통하여 각각 검색된다.

8. 마지막으로, ssh를 통하여 품질 관리자 관리 모듈(124)을 호출하여 모듈이 별도의 머신에서 실행할 수 있게 한다. 러너(1504)의 id는 데이터 정화기 태스크(138), 데이터 디듀핑 태스크(139), 품질 관리자 태스크(142), 카테고리화 태스크(140)로 전달되어 마스터 태스크 스케쥴러(131)가 그렇게 하도록 요구할 때 잡커런트 테이블(626)로부터 어떤 기록들을 처리할 것인지를 각 태스크가 알게 한다.

PALM 시스템(100)은 입력 섹션(201)으로부터 출력 섹션(205)까지의 수율(throughput)을 제어 및 관리한다. 바람직하게 하루, 또는 어떤 다른 미리 결정된 기간 후에, 하나 이상의 PALM 리스팅 관리자(104)는 스테이징 데이터베이스(222) 내의 데이터에 액세스하고, 그 데이터를 처리하고, 출력 섹션(205)의 검색 뱅크(246, 252)를 업데이트하도록 지시된다. 처리할 데이터의 양이 굉장히 많을 수 있기 때문에, PALM 시스템(100)은 전형적으로 스테이징 데이터베이스(222)로부터의 데이터에 비교적 독립적으로 각각 동작하는 다수의 PALM 리스팅 관리자(104)를 수반한다.

시스템(100)은 다수의 PALM 리스팅 관리자 모듈(104)를 포함할 수 있고, 상기 다수의 관리자 모듈(104)들은 본질적으로 모두 독립적으로 및 병렬로 동작하며, 각각 그 특수한 관리자의 러너 번호에 대하여 데이터 스플릿 태스크로 최초 지정된 데이터에서 작용한다. PALM 리스팅 관리자(104)는 구성 발생기(158)로부터 구성 정보를 수신한다. 구성 발생기(158)는 시스템(200) 내의 가용 PALM 리스팅 관리자에 러너 번호를 지정한다.

각각의 PALM 리스팅 관리자(104)는 바람직하게 전체 분배형 데이터베이스(12)의 일부인 PALM 메타데이터 데이터베이스(238)로부터 메타데이터를 수신하고 메타데이터를 PALM 메타데이터 데이터베이스(238)에 저장한다. 이 데이터베이스(12)는 바람직하게 도 18에 도시된 것처럼 공유된다. 예를 들면, 머신 1의 PALM 리스팅 관리자(104)는 예를 들면 스테이징 데이터베이스(222)로부터 입력(1802)을 취하여 태스크 A를 수행하고 태스크 출력(1804)을 발생한다. 이 태스크 A 출력(1804)은 그 다음에, 예를 들면, 태스크 B의 입력(1804)으로 된다. 이와 동시에, 상기 태스크 A 출력(1804)은 스테이징 데이터베이스(222)에 임시로 저장될 수 있다. 태스크 B의 출력(1808)은 또한 스테이징 데이터베이스(222) 또는 메타데이터 데이터베이스(238)에 적절히 임시로 저장되어 다른 PALM 리스팅 관리자(104) 중의 하나, 이 예에서는 머신 2에 의해 사용되게 한다. 머신 2는 만일 스테이징 데이터베이스(222)에서 이용할 수 없으면, 필요에 따라 태스크 C를 수행하기 위해 메타데 이터 데이터베이스(238)로부터 그 필요한 입력(1808)을 끌어당긴다. 태스크 C의 출력(1812)은 다른 리스팅 관리자의 태스크의 사용을 위해 데이터베이스(222 또는 238)에 유사하게 다시 저장될 수 있다. 임시 이미지 데이터에 대해서 이 방식을 사용함으로써, 수 개의 동작중인 PALM 리스팅 관리자(104)는 다른 리스팅 관리자(104)가 그들의 태스크를 완료할 것을 차례로 기다릴 필요가 없다. 이 방법으로 전체 처리 수율이 강화된다.

시스템(200)의 PALM 시스템(100) 내의 각 PALM 리스팅 관리자(104)는 인터넷(112)을 통하여 액세스된 각종 사이트로부터 스크레이프한 데이터뿐만 아니라 고객 사이트(210) 및 다른 소스로부터 RSS 피드(214), XML 피드(216), 웹 서비스 SOAP(212) 및/또는 고용주/소개인 애플리케이션(206)을 통해 얻어진 직무 정보 데이터 세트에서 동작하도록 태스크 적층을 제어하는 마스터 태스크 스케쥴러(131)를 갖는다. 고용 리스팅 및 직무 검색 애플리케이션에 관한 도 2에 도시된 실시예에서, 상기 리스팅 데이터 세트들은 각각, 어디에서 얻어지든 상관없이, 초기에 스테이징 데이터베이스(222)에 저장된다. PALM 시스템(100)은 스테이징 데이터베이스(222)의 데이터에 대해 동작하고, 그 데이터를 중간 PALM 메타데이터 기억부(238)를 이용하여 쿠크되고 정화되고 카테고리화된 데이터베이스(236)로 전달한다. 직무 리스팅 데이터 세트가 쿠크되면, 데이터 세트는 출력 섹션(205), 구체적으로는 상주하는 검색 뱅크(246, 252)에 전달된다.

PALM 마스터 태스크 스케쥴러(131)에 의해 각각 제어되는 n개의 PALM 리스팅 관리자(104) 각각에서의 기본적인 처리 흐름 동작은 도 5에 도시되어 있다. 동작적 흐름은 초기화 동작(502)에서 시작하고, 이 동작에서 PALM 시스템(100)이 미리 결정된 스케쥴에 따라 그 처리 사이클을 시작한다. 먼저, PALM 시스템(100)은 어떤 리스팅 관리자(104)가 어떤 태스크를 취급할 것인지를 결정한다.

특수한 PALM 리스팅 관리자(104)가 데이터 세트의 덩어리(chunk) 또는 묶음(batch)을 취급하도록 구성 관리자(158)에 의해 지정되면, PALM 마스터 태스크 스케쥴러(131)는 동작 단계 504 내지 510을 제어한다. 그 다음에, 각각의 개별 태스크 관리자(138, 139, 140, 142, 144)는 동작 단계 512-528을 참조하여 뒤에서 설명하는 바와 같이 스테이징 데이터베이스(222)에서 병렬 스레드로 데이터 세트를 처리할 것이다.

제어는 가용 PALM 태스크 스레드에 대해 스테이징 데이터베이스(222) 내의 데이터 세트의 할당을 시작하기 위한 동작 단계(504)로 이전한다. 이것은 데이터 스플리터 태스크 모듈(133)에서 관리되고 수행되는 데이터 스플릿 태스크이다. 데이터 스플릿 태스크(133)의 출력 데이터는 동작 단계 508에서 대응하는 PALM 태스크 스레드의 할당된 러너 번호와 함께 스테이징 데이터베이스에 반송된다.

데이터 스플릿 태스크(133)는 먼저 구성 발생기(158)에 의해 결정된 가용 PALM 태스크 스레드 1-n의 번호에 구성 변화가 있는지를 검출한다. 만일 변화가 있으면, 스크레이핑 팜 및 다른 소스로부터의 스테이지된 데이터는 새로운 그룹핑으로 개작된다. 만일 변화가 없으면, 새로 추가된 데이터 세트만이 평가된다. 데이터 스플릿 태스크는 직무 타이틀, 회사 및 직무 상태 필드의 ASCII의 해시(hash)에 기초해서 리스팅 데이터 세트를 스플릿한다. 이 해시는 구체적으로 ((ascii(jobtitle) + (ascii(jobcompany) + (ascii(jobstate1))% NUM_CK_RUNNERS)이고, 여기에서 NUM_CK_RUNNERS는 구성 관리자(158)에 의해 결정된 이용가능한 PALM 스레드의 수이다. 데이터 스플릿 태스크의 기능은 동일한 데이터를 기록하도록, 예를 들면 직무 리스팅이 동일한 스레드에 의해 처리되도록 동일한 직무를 동일한 "버킷"으로 항상 분할하는 균일한 해시 기능을 사용하는 것이다.

그 다음에, 제어는 질의 동작 단계(510)로 이전한다. 질의 동작 단계(510)에서, 할당된 PALM 태스크 스레드를 갖지 않는 스테이징 데이터베이스(222)에 다른 엔트리가 있는지에 관한 질의가 행하여진다. 그 대답이 예이면, 제어는 다음 리스팅 데이터 세트가 스테이징 데이터베이스로부터 회수되고 검사되는 동작 단계(504)로 되돌아간다. 만일 대답이 아니오이면, 스플릿할 데이터 세트가 더 이상 없다는 것이므로 제어는 동작 단계 512로 이전한다.

동작 단계 512 내지 528은 특수한 PALM 태스크 관리자(104)에서 할당된 스레드에 대응하는 러너 ID를 가진 각 데이터 세트에서 각각의 PALM 태스크 관리자에 의해 바람직하게 병렬로 수행되는 것이 좋다.

동작 단계 512에서, 마스터 태스크 스케쥴러(131)는 그 러너 ID 번호를 가진 제1 스테이징 데이터베이스 엔트리를 끌어당겨서 데이터 정화기 태스크 관리자(138)에 의해 관리되는 데이터 정화 태스크를 수행한다. 데이터 정화 태스크 관리자(138) 스레드는 스테이징 데이터베이스(222)로부터 완전한 데이터 기록을 끌어당기고, 각각의 직무 리스팅 데이터 세트가 동일한 포맷 및 콘텐츠 구조로 있도록 모든 포맷팅을 제거한다. 구체적으로, 태스크는 데이터 필드로부터 모든 HTML 태그 를 제거하고, 미국 주명(state name)을 유효화하고, 2 문자 주 코드(state code)로 둔다. 국제 리스팅을 위해, 적당한 국제 위치 약어(지방/영토)로 둔다. 정화 태스크 스레드는 URL을 체크하여 URL이 "http:" 또는 "https:"로 시작하는 것을 확실히 한다. 다음에, 이 태스크는 모독성 단어를 제거하며, 데이터 필드를 유효화하고, 각 필드의 무효 특성, 예를 들면 도시 필드의 모든 숫자들을 체크한다. 이 태스크는 또한 필드에서의 최대 단어수를 체크한다. 예를 들면, 도시명은 15개의 단어를 가질 수 없다. 또한, 국가명을 3 문자 국가 코드 포맷으로 두고, 직무 타이틀(jobtitle), 설명과 같은 필드 내의 철자(spelling)를 보정한다. 마지막으로, 각 스레드는 정확한 기본 구두점, 예를 들면, 문장 내의 최초 문자를 대문자로 하고 각각의 새로운 문장을 시작하기 위해 2개의 스페이스를 두는 동작을 제공한다.

데이터 정화 태스크 스레드가 스레드 내의 직무 리스팅 데이터 세트에서 수행되었으면, 그 리스팅은 동작 단계 514에서 스테이징 데이터베이스(222)로 반송된다. 그 다음에, 제어는 질의 동작 단계(516)로 이전한다. 질의 동작 단계(516)에서, 그 PALM 마스터 태스크 스케쥴러(131)의 러너 ID를 가진 다른 데이터 세트가 있는지에 관한 질의가 행하여진다. 만일 있으면, 제어는 동작 단계 512로 진행하여 다음 데이터 세트가 검색되고 정화된다. 만일 없으면, 제어는 동작 단계 518로 이전한다.

동작 단계 518에서, 데이터 세트가 스테이징 데이터베이스(222)로부터 회수되고 디듀핑 모듈(139)의 리스팅 레벨 디듀핑 태스크(1200)로 보내진다. 리스팅 레벨 디듀핑 태스크는 도 12에 도시되어 있다. 예시적인 테이블 엔트리의 집합은 아 래의 스테이징 테이블, 쿠크 데이터 테이블 및 디듀핑 테이블에 도시되어 있다.

스테이징 테이블 1

타이틀	설명	도시	주	러너 ID
SW 엔지니어	자바, C++	샌호세	CA	2
관리자	5 엔지니어의 팀을 관리함	프리몬트	CA	2

쿠크 테이블 2

타이틀	설명	도시	주	러너 ID
SW 엔지니어	자바, C++	샌호세	CA	2
구조	구조적 청사진 개발 및 통신	세인트루이스	MO	3
일반 관리자	모든 CWT 업무 내용에 대해 책임이 있음	홀랜드	MI	2
컨설턴트	인적자원 컨설턴트	피닉스	AZ	3

쿠크 테이블 3

타이틀	설명	도시	주	러너 ID
SW 엔지니어	자바, C++	샌호세	CA	2
구조	구조적 청사진 개발 및 통신	세인트루이스	MO	3
관리자	5 엔지니어의 팀을 관리함	프리몬트	CA	2
컨설턴트	인적자원 컨설턴트	피닉스	AZ	3

먼저, 디듀핑 태스크(1200)는 쿠크 데이터 테이블 2의 스테이징 테이블 1에서 행 1을 찾는다. 행 1은 거기에 있다. 그러므로, 행 1은 무시된다. 그 다음에, 스테이징 테이블의 행 2는 행 2가 거기에 있는지를 알기 위해 쿠크 데이터베이스와 비교된다. 행 2는 없다. 그러므로, 쿠크 데이터 테이블 2의 행 2는 디듀핑 쿠크 데이터 테이블 3에 추가된다. 다음에, 스테이징 데이터베이스의 각각의 모든 엔트리에 대하여 동일한 처리를 반복한다. 무시하는 처리 또는 추가하는 처리가 종료된 때, 러너 번호 2와 관련된 쿠크 데이터 테이블 2의 행들은 스테이징 테이블 1과 비교되어 쿠크 데이터베이스 테이블 2에 없는 스테이징 데이터베이스에 임의의 러너 2 행들이 있는지를 판정한다. 이 예에서, 쿠크 테이블 2의 제3 엔트리는 스테이징 테이블 1에 없다. 따라서, 이 엔트리, 즉 일반 관리자 행은 삭제된다. 그 결과, 디듀핑 쿠크 데이터베이스는 매일 또는 시스템 관리인이 정의한 기간마다 한 번씩 재발생되고 검증된다.

디듀핑 태스크 처리의 더욱 일반적인 도면은 도 12에 도시되어 있다. 이 프로세스(1200)는 데이터 스플릿 태스크 및 정화 태스크가 스레드 러너 ID가 스테이징 데이터베이스에 저장되어 있는 데이터 세트에서 종료되었을 때 호출된다. 제어는 동작 단계 1202에서 시작되고, 이 단계에서, 디듀핑 모듈(139)의 초기화가 종료된다. 그 다음에, 제어는 동작 단계 1204로 진행하고, 이 단계에서 스테이징 데이터베이스(222)의 최초 행이 회수되고 쿠크 데이터베이스(236)의 행 엔트리에 대하여 검사된다. 제어는 질의 동작 단계 1206으로 진행한다.

질의 동작 단계 1206에서는 쿠크 데이터베이스에 동일한 행이 있는지에 대한 질의가 행하여진다. 만일 동일한 행이 있으면, 제어는 검사되는 스테이징 행을 삭제하는 동작 단계 1208로 진행한다. 그 다음에, 제어는 동작 단계 1204로 이전하여 스테이징 데이터베이스의 다음 행이 회수되고 검사된다. 그러나, 만일 질의 동작 단계(1206)에서의 대답이 아니오이면, 쿠크 데이터베이스(236)에는 동일한 행이 없는 것이고, 따라서 이 행이 동작 단계 1210에서 쿠크 데이터베이스에 추가된다. 그 다음에, 제어는 질의 동작 단계 1212로 이전하여 스테이징 데이터베이스 행이 더 있는지를 질의한다. 만일 있으면, 제어는 동작 단계 1204로 이전하여 다음 스테이징 데이터베이스 행을 회수하고 처리를 반복한다. 만일 없으면, 최종 스테이징 데이터베이스 행이 검사된 후 제어는 질의 동작 단계 1214로 진행한다.

질의 동작 단계 1214에서는 동일한 러너 ID를 가진 쿠크 데이터베이스(236)의 행들이 스테이징 데이터베이스의 엔트리와 비교된다. 임의의 동일한 러너 ID 행들이 쿠크 데이터베이스에 있고 스테이징 데이터베이스에 없으면, 이 행들은 쿠크 데이터베이스로부터 삭제된다. 이렇게 하는 이유는, 만일 스테이징 데이터베이스가 직무 리스팅을 갖고 있지 않으면, 리스팅은 고용주에 의해 끌어당겨져서 채워져야 하고, 따라서 게시판 또는 경력 리스팅으로부터 제거됨으로써 구직자에게 더 이상 유효한 직무 기회가 아니며, 따라서 이 고용 기회 시스템에서 사용되는 것이 아니기 때문이다. 반면에, 만일 쿠크 데이터베이스(236)의 동일한 러너 ID 행들이 모두 스테이징 데이터베이스(222)에 있으면, 모두 현재이고, 제어는 반동 동작 단계 1218로 이전한다.

이제 PALM 마스터 태스크 스케쥴러(131)가 스플릿 태스크, 정화 태스크 및 디듀핑 태스크를 통하여 데이터 세트를 보았고 쿠크 데이터베이스(236)가 이제 특수한 데이터 세트에 대해 디듀핑되었으면, 쿠크 데이터베이스(236)의 콘텐츠로의 각각의 새로운 엔트리가 카테고리화 태스크(522) 및 품질 관리자 태스크(524)에 제출된다. 카테고리화 태스크는 도 6과 도 7을 참조해서 뒤에서 설명된다. 품질 관리자 테스크는 도 13을 참조하여 설명된다.

스크레이핑 엔진(218)을 통하여 얻어진 스크레이프한 직무는 회계, 뱅크, 엔지니어링, 의료, 치과 등과 같은 카테고리 할당을 갖지 않는다. 우리가 구직자에게 가장 친숙한 "카테고리에 의한 브라우즈" 특징을 지원하기 위하여, 많은 인간 카테고라이저(human categorizer)는 그들이 스크레이프한 직무들을 수동으로 분류하기 위해 매우 많은 시간을 소비해야 한다. 그러나, 이것은 실질적으로 단점이다. 이것은 매우 시간 소모성 처리이다. 직무를 수동으로 분류하는 시간에 의하여, 그들은 이미 구식으로 되었을 수 있다. 이러한 처리는 인적 자원을 많이 필요로 한다. 다른 카테고라이저는 동일하고 일관된 방법으로 카테고리화하지 않을 것이다. 이 때문에, PALM 시스템(200)은 도 6에 도시된 자동 직무 카테고리화 시스템(600)을 포함한다. 이 시스템(600)은 수분의 1초 단위로 직무를 카테고리화할 수 있다. 이것은 인간 카테고라이저보다 실질적으로 더 빠르고 일관적이다.

이 직무 카테고리화 시스템(600)은 수 개의 모듈을 포함한다. 직무 카테고리화(Job Cat) 서비스 모듈(602)은 실제 카테고리화 루틴을 실행한다. 도 1에서 설명한 직무 카테고리화 엔진 모듈(140)은 쿠크 데이터베이스(236) 내의 잡커런트 테이블(626), 수동 카테고리 데이터베이스(628) 및 직무 카테고리(Cat) 서비스 모듈(602) 간의 통신을 관리한다. 카테고리 검토 모듈(132)에 의해 수행되는 카테고리화 훈련 프로세스(606)는 직무 카테고리화 서비스(602)의 정확한 레벨을 강화 및/또는 유지하기 위해 사용된다. 이 카테고리화 훈련 프로세스(606)는 직무 카테고리화 수동 검토 인터페이스 모듈(132) 및 도 1a에 도시된 인트라넷(116)을 통해 액세스하는 카테고리화 전문가의 사용을 수반한다.

전술한 바와 같이, 스크레이프한 직무는 이들이 정화되고 디듀핑된 때 쿠크 데이터베이스(236)의 MySQL 잡커런트 테이블(626)에 추가된다. 그 다음에 직무 카테고리화 프로세스(600)는 잡커런트 테이블(626)로부터 각각의 직무를 취하여 그 직무를 직무 카테고리화 제어 프로세스 모듈(622)을 통해 직무 카테고리화 서비스 모듈(602)에 보내어 카테고리 및 신뢰도 할당을 얻는다. 그 다음에, 스크레이프한 직무는 카테고리화 제어 프로세스 모듈(622)에 다시 보내지고 잡커런트 테이블(626)로 복귀된다. 그러나, 만일 직무가 플래그되는 미리 결정된 신뢰도 임계치, 즉 플래그 세트 아래에 있고 직무가 카테고리화 제어 프로세스 모듈(622)을 통과할 때, 수동 검토 인터페이스 모듈(132)을 통한 수동 검토를 위해 복사물이 또한 맨캣(mancat) 데이터베이스(628)에 보내진다. 검토 모듈(132)에서 수행된 수동 검토 프로세스의 결과는 그 다음에 카테고리화 훈련 프로세스에서 사용되어 구값(old value)을 교체하도록 새로운 직무 카테고리화 서비스 값을 조정한다. 분류의 결과는 잡커런트 테이블(626)에 및 가끔은 맨캣 테이블(628)에 다시 기록된다. 수동 검토 모듈(132)은 잡커런트 및 맨캣 테이블의 직무를 둘 다 검토하기 위해 UI를 제공한다.

도 7은 직무 카테고리화 프로세스(600)의 구현을 나타내는 동작적 흐름도이다. 프로세스는 직무 스크레이핑의 시퀀스가 수행된 때 동작 단계 702에서 시작한다. 제어는 동작 단계 704로 이전한다. 동작 단계 704에서, 다음 직무용의 직무 속성이 잡커런트 테이블(626)로부터 회수되고 직무 설명이 적절히 포맷된다. 그 다음에, 직무 속성은 적당한 카테고리를 찾기 위해 직무 카테고리화 서비스(602)로 이전된다. 그 다음에, 제어는 동작 단계 706으로 이전하여 그 카테고리화를 위한 직무 카테고리 및 신뢰도 수준이 직무와 쌍을 이룬다. 제어는 그 다음에 질의 동작 단계 708로 이전한다.

질의 동작 단계(708)는 최근의 특수 직무 내용 설명서의 맨캣 테이블에 정합 URL이 존재하는지를 문의한다. 만일 존재하면 제어는 동작 단계 710으로 이전한다. 만일 존재하지 않으면, 직무는 새로운 직무이고, 제어는 동작 단계 716으로 이전한다.

동작 단계 710에서, 스트링 비교 루틴이 동일한 URL을 가진 최종 직무에 대하여 수행된다. 그 다음에, 제어는 질의 동작 단계 712로 이전한다. 질의 동작(712)에서는 맨캣 테이블(628)의 리스팅이 검사 대상의 현재 직무와 동일한 것인지를 문의한다. 만일 직무 스트링 비교 결과가 동일이면, 그 대답은 예이고, 직무가 동일 직무임을 나타내기 때문에 제어는 동작 단계 714로 이전한다. 반면에, 대답이 아니오이면, 직무는 새로운 것이고, 제어는 다시 동작 단계 716으로 이전한다.

질의 동작 단계 714에서는 dcp_cat이 동일 URL을 가진 최종 직무의 맨캣과 일치하는지를 문의한다. 만일 대답이 예이면, 맨캣과 dcp_cat은 동일하게 세트되고, dcp_cat 신뢰도는 1과 동일하게 세트된다. 직무 파라미터는 잡커런트 테이블(626)로 복귀하고, 제어는 질의 동작 단계 718로 이전한다. 질의 동작 단계(718)에서는 잡커런트 테이블에 카테고리화할 스크레이프한 직무가 더 있는지를 문의한다. 만일 없으면, 제어는 복귀 동작 단계(720)로 이전한다. 만일 카테고리화할 스크레이프한 직무가 더 있으면, 제어는 동작 단계 704로 되돌아가고, 다음 직무의 직무 파라미터가 회수 및 포맷된다.

질의 동작 단계(708)로 되돌아가서, 만일 URL이 맨캣 테이블에 존재하지 않으면, 제어는 동작 단계 716으로 이전한다. 동작 단계 716에서는 dcp_cat과 dcp_신뢰도 값이 세트되고, 신뢰도 값이 미리 결정된 임계치에 대하여 체크되며, 만일 임계치가 신뢰도 값보다 더 크면, 검토 플래그(review_flag)가 1과 동일하게 세트된다. 직무 파라미터는 그 다음에 잡커런트 테이블(626)로 전달되고, 제어는 다시 질의 동작 단계 718로 이전한다.

질의 동작 단계(714)로 되돌아가서, 만일 현재 직무가 맨캣 테이블(628)에 URL을 갖고 있으면, 직무는 동일한 URL을 가진 최종 직무와 동일하지만, 최종 직무의 dcp_cat과 맨캣은 일치하지 않고, 따라서 무엇인가가 잘못되거나 손실될 수 있고, 직무 파라미터는 2개의 동작 단계 724와 726으로 이전한다. 동작 단계 724에서는 dcp_cat 및 dcp_신뢰도 값을 세트하고, 전문가 검토(expert_review) 플래그=1을 세트하며, 이 데이터를 잡커런트 테이블(626)로 공급한다. 동작 단계 726에서는 전문가 검토 플래그=1을 세트하고 이 직무 파라미터의 복사물을 맨캣 데이터베이스(628)에 보내어 수동 검토가 수행되게 한다. 이와 병행하여, 제어는 다시 전술한 질의 동작 단계(718)로 이전한다.

따라서, 각각의 직무에 대해서, 직무 카테고리화 제어 프로세스는 잡커런트 테이블로부터 직무 속성들을 취하여 이들을 포맷하고, 직무 속성들을 직무 카테고리화 서비스(아파치(Apache)라고 부르는 공지의 공공 영역 루틴에 의해 관리되고, 방법=POST임)로 보내지며, 카테고리 및 신뢰도 스코어를 다시 취하고, 결정 질문의 체인을 통과하고, 그 결과를 테이블에 다시 기록한다.

직무 카테고리화 서비스(602)는 또한 관리인 및 시스템 운용자가 직무(적어도 직무 내용 설명서)에 타이프하게 하는 웹 UI를 제공하고, 직무를 직무 카테고리화 서비스에 제출하여 시스템(100)의 정상 동작으로부터 별도로 카테고리화 하게 한다. 이러한 예시적인 사용자 인터페이스(800)는 도 8에 도시되어 있다.

직무 카테고리화 서비스 모듈(602)은 도 6에 도시된 훈련 프로세스(606)를 호스팅하기 위한 공지의 웹 서버인 아파치에 의존한다. 직무 카테고리화 서비스(602)는 PHP 확장판의 공유 라이브러리이고 카테고리화 라이브러리를 또한 포함하는 바이너리 패키지를 포함한다. 직무 카테고리화 서비스(602)는 직무 카테고리의 기본 정의, 즉 분류법(608)과 그 관련된 유일한 ID 번호의 집합을 먼저 요구한다. 예시적인 집합은 아래의 표 4에 도시되어 있다.

카테고리 id	카테고리명
1	회계_재정
2	광고_공중_관계
3	예술_오락_출판
4	뱅킹_모기지
5	사무원_관리인
6	건설_설비
7	고객_서비스
8	교육_훈련
9	엔지니어링_건축
10	정부
11	헬쓰_케어
12	병원_여행
13	인적_자원
14	보험
15	인터넷_뉴_미디어
16	법_규약_증권
17	법률
18	관리_컨설팅
19	제조_운용
20	마케팅
21	비소득_지원자
22	제약_생물학
23	부동산
24	레스토랑_식품_서비스
25	소매
26	판매
27	기술
28	전기통신
29	수송_병참
30	집에서 작업

훈련 직무 내용 설명서, 훈련 데이터(610)의 예시적인 테이블은 표 4의 각 카테고리와 관련된다. 이 설명서의 집합과 맨캣 데이터베이스(628)의 콘텐츠는 미리 분류되어진 제공된 직무 내용 설명 파라미터로부터의 분류를 인식하도록 서비스를 가르치기 위해 사용된다. 이 테이블의 예는 아래의 표 5에 도시되어 있다.

필드	유형	무효(Null)	코멘트
Pindex	Varchar(11)	No, Primary key
타이틀	Varchar(11)	Yes
Ldesc	Text	No
Mancat	Varchar(101)	No	초기에 제1산업 세팅으로 사실상 세트됨
Gid	Int	Yes	그룹 id, 일부 id는 테스트용의 내부 HJ에 의해 사용됨. 이들은 훈련용으로 사용되지 못함
임대유형	Varchar(21)	Yes
회사명	Varchar(101)	Yes
샐러리유형	Varchar(21)	Yes
Sdesc	Varchar(101)	Yes
소스유형	Varchar(11)	Yes
소스	Varchar(21)	Yes
기간	Varchar(3)	Yes
위치	Varchar(21)	Yes	경험 수준
정도	Varchar(31)	Yes
Salaryfrom	Float	Yes
Salaryto	Float	Yes
오너id	Varchar(11)	Yes
창작자id	Varchar(11)	Yes
편집자id	Varchar(11)	Yes
Ctime	Date	Yes	창작일자
Mtime	Date	Yes	수정일자
스코어	Int	Yes	YSS 스코어, 사용되지 않음

새로운 훈련 세션을 위하여, 이 테이블로부터의 직무 및 맨캣 테이블의 직무를 둘 다 사용하는 것이 바람직하다. 더 많은 수동 검토 직무가 이용가능하게 됨에 따라, 읽기 전용 데이터베이스로부터 원래 훈련 세트를 본질적으로 드롭하는 것이 바람직하다.

양호한 실시예에서, 상기 표 5 및 맨캣 테이블의 열(column)들은 상이하고, 이 차이는 유지될 것이며, 훈련 파일을 생성하는 스크립트는 모든 필요한 맵핑을 할 것이다. 훈련 프로세스(606)는 수 개의 PEARL 스크립트로 구성된다. "creat-training-file.pl" 스크립트는 맨캣 테이블(628)과 훈련 데이터 테이블(610) 둘 다로부터 직무를 취하고, 합병된 훈련 데이터(612)를 발생하기 위해 DCP 승인 포맷으로 모든 직무를 포함하는 파일을 기록한다. "train-hj-dcp.pl" 스크립트는 분류용의 가장 유용한 파라미터 중의 소수(a few)를 조정하기 위해 사용된다. 지정된 각각의 구성은 직무 카테고리화 서비스 데이터 패키지 및 로그 파일을 구축하기 위해 필요한 모든 파라미터들을 내포하는 출력 디렉토리를 남길 것이다. "parse-training-log.pl" 스크립트는 train-hj-dcp.pl 스크립트에 의해 발생된 각각의 로그 파일을 판독하고 각 구성에 대한 정확성에 대한 보고서를 발생한다. "archive-training-results.pl" 스크립트는 구성이 전개(deployment)용으로 사용된 후에 그 구성에 대한 훈련 결과를 아카이브(archive)하기 위해 사용된다.

훈련 프로세스(614)는 기본적으로 훈련 데이터(612), 분류법(608), 및 규칙과 스키마의 집합(616)으로부터 추출하는 수동 프로세스이다. 각종 사전(dictionary) 및 조정 파라미터(618)를 또한 사용할 수 있다. 그 결과들은 도 6에 도시된 바와 같이 직무 카테고리화 서비스(620)에 제공되는 결과와 함께 새로운 분류기 파라미터(620)의 최적화를 수반한다. 훈련 프로세스(614)는 대부분 수동이기 때문에, 소수의 파라미터에 대해서 결과들, 예를 들면 분류의 상세 페이지, 기간 중량(term weight) 등을 수동으로 체크하고, 규칙 및 사전의 일부를 손으로 변경하며, 전개를 위한 최적의 세팅을 찾기 위해 다른 구성으로 프로세스를 반복하는 것이 바람직하다. 이러한 최적의 구성이 달성된 때, 새로운 분류기 파라미터(620)는 직무 카테고리화 서비스(602)로 전달된다. 직무 카테고리화 서비스(602)가 구축되고 동작하면, 스크레이프한 직무는 전술한 바와 같이 처리될 수 있다.

이하의 설명은 예시적인 직무 카테고리화 프로세스를 이용하는 본 발명의 리스팅 카테고리화 프로세스의 상세한 설명을 제공한다.

예시적인 어휘 분석(Lexical Analysis)에서, 3개의 텍스트 필드, 즉 (1) 타이틀, (2) 직무 내용 설명서 및 (3) 회사 카테고리가 처리된다. 렉서(lexer)(어휘 분석 모듈)는 하기의 처리 단계들을 적용할 수 있다.

1. 공통 HTML 문자 엔티티 기준은 그들의 대응하는 ASCII 문자에 의해 교체된다.

2. 텍스트 필드는 임의의 비영숫자 문자를 구분 문자로서 처리함으로써 스트링으로 분할한다(단일 인용 마크는 영숫자 문자로서 처리된다).

3. 직무 타이틀 테스트가 모든 스트링에 적용된다. 직무 타이틀은 리젝스(regex) [0-9]*[A-Z]*A-Z0-9]*를 만족하는 임의의 스트링으로서 정의된다. 모든 스트링은 하부 경우로 감소된다.

4. 모든 스트링은 포터 스테머(Porter stemmer)를 이용하여 스템된다. (M.F. Porter. "접미사 스트리핑을 위한 알고리즘", 프로그램, 14(3):130-137, 1980. 스파크 존스, 카렌 및 피터 윌렛에서 재인쇄됨, 1997, 정보 검색의 판독, 샌프란시스코: 모간 카프만, ISBN 1-55860-454-4, 여기에서 "포터"라고 인용됨).

5. 정지 단어(stop words)의 미리 규정된 리스트가 텍스트 필드로부터 매우 공통인 특징들을 걸러내기 위해 사용된다. 순수하게 디지트로 구성된 스트링이 또한 제거된다.

정지 단어의 예는 다음과 같다:

job description	be able	right candidate	qualified applicants
job id	your resume	qualified candidate	interested candidate
job title	seeking	equal opportunity	interested candidates
job summary	be considered	eoe	interested applicants
such as	can enjoy	qualified candidates	duties
currently seeking	ideal candidate	contact information	focused on
are seeking	ideal candidates	remain	emphasis on
click here	successful candidate	find out	depending on
selected candidate	further information	come join	are met
highly desired	should forward	please note	follow through
strongly desired	without regard	please sent	work closely
strongly preferred	subject line	please indicate	board range
strong	online below	please submit	wide range
preferred	listed below	please visit	wide variety
are encouraged	when applying	primary responsibility	conjunction with
button below	when submitting		word attachment
make sure	be contacted
	contact us

특정의 바이그램(2 단어 구)은 단일 토큰으로서 검출된다. 더 높은 차수의 n-그램이 카테고리화에서 또한 사용될 수 있다.

하기의 것은 예이다:

human resources	at least	self starter	tuition reimbursement
equal opportunity	power point	accounts payable	customer service
pay rate	click here	seque appli	positively impacting
problem solving	ajilonfinance com	funct subfu	human resource
d v	boehringer ingelheim	registered trademark	san francisco
more than	immediate	los angeles	award winning
united states	consideration	full time	decision making
cover letter	new york	spirited	metropolitan area
ideal candidate	track record	entrepreneurial	credit union
long term	stock purchase	barnes noble	benefits package
job description	loss prevention	ad hoc	wide range
job title	ag 2002	wild kingdom	multi task
job summary	ajilon finance	voice messaging	sarbanes oxley
duties	fortune 500	affirmative action	p sou
air force	fastest growing	iras cancer	valid driver
kaiser permanente	general ledger	tuition assistance
deutsche telekom	real estate
	test plans
	journal entries

이 단계들로부터 야기된 각각의 유일한 스트링은 유일한 토큰을 구성한다. 특정 토큰은 추가의 무게가 추가되고, weight.dict 파일에서 추적된다. 여기에 파일의 특수 직무 샘플을 나타낸다.

general ledger 2	per week 3	technical sales 3	development
inpatient 2	nurse 3	planning analyst 2	lifecycles 2
outpatient 2	registered nurse 3	budget planning 3	operating systems 2
claims adjusting 3	hunam resource 3	financial planning 3	programming languages 3
ASIC design 3	college degree 3	financial statements 3	business skills 2
logic design 3	hs degree 3	financial reports 3	communication disorders 2
residential purchase 3	systems administrator 3	corporate tax 3	speech language 2
refinance products 3	accounts receivable 3	worker compensation 3	speech therapy 2
refinance products 3	accounts payable 3	business development 3	speech pathology 2
mortgage products 3	fixed assets 3		speech therapist 2
mortgate loan 4	medical terminology 3	market development 3	speech pathologist 2
mortgage brokers 3	legal terminology 3	trade shows 4	switchboard 2
mortgage lender 3	public relations 3	forklift operator 2	telephone skills 2
call center 3	product marketing 3	forklift certified 2	blood drives 2
customer service 3	clinical research 3	food service 3	blood centers 2
answers telephone 3	clinical trials 3	real estate 3	plasmapheresis process 2
inventory control 3	clinical data 3	social services 4	phlebotomist 2
quality assurance 3	direct sales 3	internet publishing 2
object oriented 4

각 텍스트 토큰에 대응하는 "특징"(feature)은 단순히 문서에서 토큰 발생의 문서당 카운트(per-document count)일 수 있다. 각 토큰 인스턴스는 토큰이 추출된 필드에 의존하는 무게가 할당될 수 있고, 필드 내의 특징의 위치에 의존할 수 있다. 구체적으로, 사용자는 토큰 카운트를 전체 카운트에 추가하기 전에 타이틀 및 회사 카테고리로부터의 토큰 카운트에 2를 곱할 수 있다. 설명서 용어 카운트는 바꾸지 않고 취해질 수 있다. 사용자가 구현하는 위치 의존 규칙은 명사구에서 선행 명사(head noun)(즉, 타이틀)를 찾기 위한 시도에서 더욱 무겁게 타이틀의 최종 단어를 가중하는 것이고, 이것은 정확성을 약간 증가시킬 수 있다.

수 개의 토큰(단일 클러스터의 일원)이 모두 동일 토큰으로서 취급되는 토큰 특징 클러스터링(예를 들면, 분배형 클러스터링)을 또한 사용할 수 있다.

전술한 바와 같이, 직무 기록은 프리 텍스트(free text)가 아닌 필드들을 포함할 수 있다. 직무 기록들은 (1) 회사 id 및 (2) 샐러리, 및 기타의 것을 포함할 수 있다. 이 특징들을 사용하는 실시예는 카테고리 정제(Category Refinement)라는 제목의 섹션에서 설명된다.

특징 선택은 개별적인 특징 x를 카테고리 변수를 가진 그들의 상호 정보 I(C,X)에 의해 랭킹함으로써 수행될 수 있다.

여기에서, x 합은 x=0 및 x=1 이상이고 c 합은 모든 카테고리(클래스) 이상이다. p(c,x)에 대한 확률 추정은 단순 카운팅에 의해 얻어지고, 이진수 변수 x는 관련된 용어의 존재(x=1) 또는 부재(x=0)를 나타낸다. 용어적인 면에서, 이것은 엄격히 말하면, 실제 카테고리화를 위해 분류기(예를 들면, Naive Bayes)에서 사용된 관련 용어 카운트와 상이한 특징이다. 이것은 많은 이유로 유리할 수 있다. 대안 예는 0에서부터 무한대까지 모든 가능한 용어 카운트를 합산하는 것이고, 이것은 관련된 확률 추정의 잠재적 희박함(sparseness) 때문에 문제를 야기할 수 있다.

랭크된 리스트는 감소하는 상호 정보의 순으로 처리된다. 특징의 각각의 수 m에 대하여, 분류기는 리스트로부터의 최초 m을 이용하여 훈련되고, 그 정확성은 교차 유효화를 이용하여 측정된다. 특징들은 이 방법으로 측정된 정확성이 감소하기 시작할 때까지 추가된다.

특징의 수는 주파수 임계 한계를 세팅함으로써 또한 제어될 수 있다. 주파수가 임계 한계보다 낮은 특징들은 제거될 수 있다. 교차 유효화에 의해 보고된 것처럼 가장 정확한 도형을 나타내는 특징들의 수 및 임계치의 조합은 2개 또는 3개가 있을 수 있다.

본 발명의 일 태양에 따르면, 다중 전달에서 제공하는 직무를 카테고리화하는 방법이 제공된다. 제1 단계는 직무를 제1 카테고리와 관련시키는 제1 카테고리화를 수행한다. 만일 제1 직무 카테고리가 공동 정제가능한 직무 카테고리 내에 있으면, 공동 정제가능 직무 카테고리의 집합 내에서 제2 카테고리화를 수행하여 직무 제공을 제2 직무 카테고리와 관련시킨다. 또한, 제2 직무는 공동 정제가능 직무 카테고리 내에 있고, 제1 직무는 제1 직무 집합 내에 있으며, 공동 정제가능 직무 카테고리는 제1 직무 집합의 적당한 부분집합이다. 공동 정제가능 직무 카테고리의 집합은 임의의 방법에 의해 비교적 높은 혼동 가능성을 갖는 것으로(다른 것에 대하여 하나) 또는 그 집합 내에서 다른 직무 카테고리 대신에 선택된 집합 내에 하나의 직무 카테고리를 갖는 것으로 결정된 직무 카테고리의 집합으로서 정의된다.

제2 전달에서 사용하기 위해 선택된 카테고리, 즉 공동 정제가능한 직무 카테고리들은 사용자가 바라보는 카테고리에 기초하여 선택된다. 예를 들면, 공동 정제가능 직무 카테고리는 특수 카테고리에 대하여 다른 카테고리를 혼동시키는 가능성에 기초하여 결정될 수 있다. 2개의 카테고리가 가끔 혼동되는지를 결정하는 하나의 방법은 직무 집합의 수동 카테고리화를 수행하는 것이다. 수동 카테고리화는 정확한 골드 스탠다드로서 취급될 것이다. 그 다음에, 동일한 직무 집합의 자동 카테고리화를 수행한다. 그 결과를 매트릭스로 그래프화하고, 이 그래프에서 하나의 축은 골드 스탠다드(이 경우에는 수동) 카테고라이저에 의해 선택된 카테고리를 나타내고, 다른 축은 자동 카테고라이저에 의해 선택된 카테고리를 나타낸다. 수동 및 자동 카테고리화가 동일한 카테고리를 선정하는 매트릭스에서 모든 셀들을 배제함으로써(아마도 구현예에 따라서 대각선을 따라), 최고의 확률을 가진 셀들은 혼동가능성이 가장 높은 카테고리들을 나타낸다. 공동 정제가능 제품 카테고리의 집합은 그 다음에 혼동가능성이 가장 높은 셀에 기초하고, 사실 다수의 구별된 공동 정제가능 제품 카테고리의 집합을 포함할 수 있으며, 이 집합들은 다른 것과 다른 수의 카테고리를 각각 내포할 수 있다.

여기에서는 카테고리 정제의 일 예가 제공된다. 여기에서 설명하는 기술은 그러한 실시예로 제한되는 것이 아니다. 네이브 베이스(Naive Bayes) 카테고라이저에 기초하여 구축된 자동 분류기를 생각하자. 예시적인 네이브 베이스 카테고라이저는 David D. Lewis의 "Naive (Bayes) at forty: The independence assumption in information retrieval"; in Claire N'edellec and C'eline Rouveirol, editors, Proceedings of ECML-98, 10th European Conference on Machine Learning, number 1398, pages 4-15, Chemnitz, DE, 1998에 개시되어 있고, 여기에서는 "루이스"라고 언급된다. 카테고라이저는 2개 이상의 카테고리화 수준을 가질 수 있다. 최상위(뿌리) 수준에서, 사용자는 네이브 베이스라는 제목의 섹션에서 설명된 대로 각 카테고리가 단일 다항 분포에 의해 설명되는 평탄 카테고리화(flat categorization)를 수행할 수 있다. 사용자는 특정 카테고리에 대하여 용어 확률(term-probability) 분포를 모델링하기 위해 다항식의 혼합물을 사용할 수 있다. 엄밀히 말해서, 이것은 네이브 베이스의 조건 독립 가정에 위배되는 것이지만, 특정 카테고리가 그 가정을 따르는 다른 카테고리로 추가로 분해될 수 있다는 단순한 가정을 사용할 수 있다. 그러나, 이것은 그들이 무엇인지 선험적(priori)으로 알려져 있지 않다.

제2 카테고리화는 공동 정제가능한 카테고리의 집합 내에 있는 특정 카테고리에서 수행된다. 카테고리는 3개의 "혼동 그룹"으로 나누어진 아래의 리스트에 있는 것들이다. 각 그룹의 최상위 노드는 혼동 그룹의 카테고리로 제2 분류를 수행하는 분류기를 구비한다.

회사 id에 대해서, 가능한 가장 단순한 모델인 멀티 베르누이(multi-Bernoulli)를 사용할 수 있다. 즉, 각각의 (카테고리, 회사) 쌍에 대해서 상이한 확률값 추정치를 가질 수 있다. 즉, 값 {p(c|m)}의 집합에 대한 추정치를 가질 수 있고, 여기에서 m은 회사 id를 나타낸다. 이 값들은 {ψc,m}에 의해 표시된다.

로그 노멀(log-normal) 분포를 갖는 샐러리 통계를 설명함에 있어서, 샐러리는 로그 노멀 분포에 따라 근사적으로 분포될 수 있고, 이것은 단순히 로그 프라이스(log-price)가 단순한 노멀/가우스 분포에 따라 분포된다는 것을 의미한다. z=log(price)라고 하자. 이때, 하기의 결과가 얻어지는데, 여기에서 μ_c 및 σ_c는 노멀 분포의 평균 및 표준 편차이다.

(1)

텍스트용 네이브 베이스 분류기

기계 학습 및 패턴 분류에서, 카테고리화되는(또는 "분류되는") 오브젝트들은 문서가 속하는 가장 가능성있는 카테고리를 결정하기 위해 사용되는 정보를 포함한 "특징 벡터" x로서 언급되는 것에 의해 표시된다. 문서용의 소위 "네이브 베이스" 분류기는 "백 오브 워즈"(bag-of-words)(루이스 참조)라고 부르는 것을 가정한다. 이것은 특수 시퀀스의 워드가 무시되고 그들의 카운트만이 사용된다는 것을 의미한다. 이 제한은 구(phrase)가 토큰으로서 검출되고 이들이 마치 개별적인 용어인 것처럼 처리될 때 다소 방해된다. (네이브 베이스) 경우, 특징 벡터는 아래의 형태로 될 수 있다.

x = (k₁, k₂, ..., k_m)

여기에서, ki는 (카테고리화되는 문서에서) i번째 용어의 발생 수를 나타내고, m은 어휘(lexicon)에서 용어의 총 수이며, 이 경우 정지 단어가 제거된 후에 카테고리화를 행하기 위해 사용되는 용어의 집합을 인용한다.

베이스 분류기는 하기의 방법으로 확률 모델을 이용할 수 있다. 특징 벡터 x가 주어지고, 문서의 특징 벡터 x가 주어진 카테고리 c에 문서가 속할 조건 확률을 계산한다. 카테고리화를 수행하기 위해, p(c|x)를 최대화하는 c의 값 c'를 선택한다(즉, 카테고리에 대한 문서의 할당). 수학적으로, 이것은 다음과 같이 표현될 수 있다.

c' = arg max_c p(c|x)

이 조건 확률 p(c|x)는 다음과 같이 분해될 수 있다.

p(c|x) = (p(x|c)p(c))/p(x)

c'의 값에만 관심이 있고 p(c'/x)의 특정 값에는 관심이 없을 수 있기 때문에, 단지 x에만 의존하고 c에는 의존하지 않는 주변 확률(marginal probability) p(x)는 무시할 수 있다.

c' = arg max_c[p(x|c)p(c)] (5)

이 수식에서의 확률은 결합 확률 p(x, c)이다.

p(x, c) = p(x|c)p(c)

실제 카테고리화 프로세스를 실행하기 위해, p(c) 및 p(x|c)에 대하여 특수한 공식이 필요하다. 네이브 베이스/백 오브 워즈 모델은 이를 위해 다항 분포를 사용할 수 있다. 즉,

(6)

이 공식은 "다항 계수"라고 부르는 것의 하기 생략 표시를 포함한다.

(7)

여기에서, n!는 "n 팩토리얼"을 나타내고 다음과 같은 곱을 나타낸다.

n! ≡ n(n-1)(n-2)(n-3)...3×2이다.

이 다항 계수는 문서만의 함수이고 클래스의 함수가 아니기 때문에, 카테고리화 프로세스에서 무시될 수 있다. 파라미터 {θ_i}는 가끔 "베르누이" 파라미터라고 부르고, 훈련 데이터로부터 추정될 수 있다. 상기 ("{.....}")은 생략 세트 표시이다. 예를 들면, {θ_i}는 {θ_i|i=1,2,...,m}, 즉, 이 파라미터 값의 완전한 세트를 표시한다.

각 카테고리에 대해서, p(x|c) 및 p(c)의 값을 가질 수 있고, 이들은 각각 그들 자신의 추정된 파라미터 값을 가질 수 있다. 카테고리 c 내에서 용어 i에 대한 베르누이 파라미터는 다음과 같이 표시되고 추정될 수 있다.

(8)

여기에서, n_i _,c는 카테고리-c 훈련 문서의 전체 수집물(collection)에서 용어 i의 인스턴스의 총 수이고, n_c는 카테고리-c 훈련 문서의 전체 수집물에서 모든 용어의 인스턴스의 총 수이며(카테고리화 어휘에서의 용어들; 정지 단어가 아닌 것 등), m은 어휘에서 용어의 총 수이다. 수학식 (8)은 "라플라스 법칙" 또는 "라플라스 연속 법칙"이라고 알려져 있다.

수학식 (5)로 표시된 카테고리화를 수행하기 위해, 주변 클래스 확률 {p(c)}에 대한 추정치가 필요할 수 있다. 이 추정치는 φ'_c로 표시할 수 있고 이들에 대한 라플라스 법칙의 형식을 또한 사용할 수 있다.

(9)

여기에서, v_c는 훈련 세트에서 카테고리-c 문서의 총 수이고, N은 훈련 세트에서 문서의 총 수(모든 카테고리)이며, |C|는 카테고리의 총 수이다. 이 갯수({v_c}, N)들이 카테고리화되는 궁극적인 문서의 개체군(population)을 나타내지 않으면, {φ'_c}에 대하여 정확한 추정치(임의의 수단에 의해 얻어진 것)가 사용될 수 있다.

"판별 함수" d(x, c)는 다음과 같이 정의될 수 있다.

(10)

수학식 (5)로 표시된 카테고리화의 구현은 다음과 같이 이것의 항목으로 표시될 수 있다.

c' = arg max_c d(c,x) (11)

(10)의 대수를 수치적 및 연산적 이유 때문에 판별 함수로서 사용하는 것이 유리하다. 따라서, 다음과 같이 표시할 수 있다.

(12)

예시적인 사용자 인테페이스(800)의 스크린 샷은 관리인, 운용자 또는 카테고리화 전문가에게 웹 브라우저를 이용한 인트라넷(116)을 통하여 제시된다. 인테페이스(800)는 도시된 것과 같은 풀다운 메뉴를 통해 3개의 다른 모드(802)를 제공한다. "모든 카테고리" 모드는 신뢰도에 따라 내림차순으로 분류된 모든 카테고리 및 그들의 대응하는 신뢰도 값을 리스팅한다. "세부 통계" 모드는 특수한 카테고리가 왜 선택되었는지에 대한 세부를 보여준다. 이 모드는 시스템(200)을 조정하는 운용자에게 유용하다.

"최상의 카테고리" 모드는 직무 및 그 신뢰도에 대한 최상의 카테고리만을 보여준다. 이것은 우리가 여기에서 스트링이 아닌 카테고리 ID 번호를 보여주는 것을 제외하고 "모든 카테고리" 모드에서 보여준 최초 결과와 동일하다. 이 모드는 데이터베이스에서 직무의 자동 분류용으로 사용되고, 상기 카테고리 ID 번호는 카테고리명 위에 있는 것이 바람직하다.

직무 카테고리화 수동 검토 모듈(132)에서 발생하는 직무 카테고리화 수동 검토 프로세스(900)는 도 9에 도시되어 있다. 동작 흐름은 관리 운용자 또는 카테고리화 전문가가 동작 단계 902에서 PALM 관리 포털(102)을 통해 로그인한 때 시작한다. 관리인이 로그인한 때, 관리인은 동작 단계 904에서 도 10에 도시된 것과 같은 사용자 인터페이스(1000)가 제시된다. 이 사용자 인터페이스(1000)는 관리인 또는 전문가 검토자가 직무 카테고리(1002), 회사(1004), 및 시행할 검토 유형의 선택(1006)을 선택하게 한다. 동작 단계 906에서는 최초/다음 직무 내용 설명서가 동작 단계 904에서의 관리인 우선 선택에 의존하여 쿠크 데이터베이스(236)의 맨캣 데이터베이스(628) 또는 잡커런트 파일(626)로부터 회수된다. 관리인은 도 11에 도시된 예시적인 인터페이스(1100)와 같은 사용자 인터페이스가 제시된다.

이 사용자 인터페이스(1100)는 최초/다음 직무 내용 설명서(1102)를 각 카테고리에 대해 결정된 카테고리 신뢰도 수준과 함께 디스플레이한다. 이 예에서, 직무는 IBM사(IBM Corp.)의 박사 후 연구직(post-doc position)이다. 신뢰도 수준은 엔지니어링 건축가(Engineering_Architecture) 및 제약 생물학(Pharmaceutical_Biotech)을 제외한 모두에 대해서 0이고, 100% 일치하는 수준은 없다. 이 직위는 엔지니어링 건축가로서 카테고리화 되어지고 신뢰도 수준은 단지 0.657이기 때문에, 수동 검토로 플래그되었다.

다시 도 9를 참조하면, 직무 내용 설명서가 동작 단계 906에서 회수된 때, 제어는 동작 단계 908로 이전하고, 이 단계에서 관리인은 완전한 직무 내용 설명서에 기초하여 카테고리화를 분석한다. 그 다음에, 관리인은 3가지의 행동 선택 조건을 갖는다. 첫째로, 관리인은 질의 동작 단계 910에서 직무를 무효화할 수 있다. 둘째로, 관리인은 그의 검토를 강화하기 위해 직무 URL(1110)에서 클릭함으로써 질의 동작 단계 912에서 더 많은 직무 세부를 얻을 수 있다. 세째로, 관리인은 질의 동작 단계 914에서 카테고리 정의를 업데이트하거나 새로운 카테고리를 삽입할 수 있다. 만일 관리인의 결정이 질의 동작 단계 910에서 직무를 무효화시키는 것이면, 제어는 동작 단계 916으로 이전하고, 이 단계에서 직무는 데이터베이스(126)로부터 및 맨캣 데이터베이스(628)로부터 제거된다. 그 다음에, 제어는 질의 동작 단계 918로 이전한다. 질의 동작 단계 918에서는 맨캣 데이터베이스(628) 또는 잡커런트 테이블(626)의 큐에서 그 전문가 검토(expert_review) 플래그=1 세트를 가진 다른 직무 내용 설명서가 있는지를 문의한다. 만일 있으면, 제어는 동작 단계 906으로 다시 이전하고, 이 단계에서 다음 직무가 검토를 위해 회수된다.

그러나, 만일 동작 단계 910에서의 결정이 직무를 무효화시키는 것이 아니면, 제어는 전문가 검토 플래그=0을 리세트하고, 직무를 잡커런트 테이블(626)로 되돌려보내며, 제어는 질의 동작 단계 918로 이전한다. 만일 동작 단계 908에서의 선택이 더 많은 직무 세부를 얻기 위한 것이면, 제어는 동작 단계 920으로 이전하고, 이 단계에서 세부가 회수되고 제어는 다시 동작 단계 908로 이전한다. 만일 관리인이 더 많은 세부를 얻는 것을 선택하지 않으면, 직무 내용 설명서 기록은 전문가 검토 플래그=0을 리세트한 후에 잡커런트 테이블(626)로 다시 복귀되고, 제어는 질의 동작 단계 918로 이전한다. 동작 단계 908에서의 선택이 질의 동작 단계 914에서의 카테고리를 업데이트하는 것이면, 제어는 동작 단계 922로 진행한다.

동작 단계 922에서, 직무 내용 설명서의 카테고리가 변경되거나, 또는 새로운 것이 추가되고 세이브된다. 전문가 검토 플래그는 =0으로 세트되고, 그 다음에 직무 내용 설명서는 잡커런트 테이블(626)로 이전하며, 제어는 질의 동작 단계 918로 이전한다. 만일 전문가 검토 플래그 세트 =1인 직무 내용 설명서가 더 이상 없으면, 제어는 복귀 동작 단계 924로 이전하고 검토 세션이 종료된다.

추가적으로, 직무 카테고리화 제어 프로세스 모듈(622)은 각각의 직무 리스팅을 정확히 카테고리화하기 위해 쿠크 데이터베이스(236) 내의 정보를 주기적으로 검토하는 것이 바람직하다. 직무 리스팅이 예를 들면 정보 기술, 헬쓰케어, 회계 등과 같이 적당한 직무 카테고리에 위치되어 있는 것이 중요하다. 직무 카테고리화 제어 프로세스 모듈(622)은 자동화되는 것이 좋고, 또는 수동 검토 인터페이스 모듈(134)를 통해서 바람직하게는 인간인 카테고리화 전문가로부터의 입력에 의해 증대될 수 있다. 그러나, 전문가의 기능은 대안적인 것일 수 있고, 위에서 설명한 리스팅 검토자 엔티티의 경우와 같이, 더욱 복잡하게 되는 시스템처럼 장래에 루틴을 자동화할 수 있다. 직무 카테고리화 제어 프로세스 모듈(622)은 자동화되는 것이 좋고, 한편 수동 검토 프로세스 모듈(134)은 품질에 대한 체크를 제공하며, 따라서 직무 카테고리에서 고정확도를 제공한다. 이 카테고리화 프로세스의 결과는 수동 카테고리화 데이터베이스의 계약명(contraction name)인 "맨캣" 데이터베이스(628)에 저장된다.

도 13에 도시된 품질 관리자 태스크에서, 쿠크 데이터베이스의 각 엔트리 행은 2개의 수준, 즉 URL 유효화와 콘텐츠 유효화로 회수 및 평가된다. URL 유효화에서, 태스크는 http 및 https 리소스에 대한 링크가 유효인지를 먼저 체크 및 검증한다. 본질적으로, 시스템은 링크 접속을 검증하기 위해 URL을 액세스한다. 제2 동작은 임의의 경고 응답 메시지가 있는지 체크하는 것을 수반한다. 만일 있으면, 리스팅은 수동 검토용으로 플래그될 수 있다. URL 유효화 동작은 또한 임의의 링크가 재지향되었는지 또는 수정되었는지를 검출하고 세션 쿠키의 지원을 결정한다. 품질 관리자 태스크의 콘텐츠 유효화부에서, 데이터의 불일치에 관한 체크가 행하여진다. 예를 들면, 특정 규칙의 수행, 직무 내용 설명서의 검증, 설명서에서의 정합 알고리즘 수행, 및 도시, 주 및 국가 간의 정합 검증과 같은 각종 체크가 행하여진다. 마지막으로, 품질 관리자 프로세스는 동시에 동작하는 n개의 별도 스레드에 의해 달성될 수 있다. 각각의 품질 관리자 태스크 스레드 동작 흐름은 도 13에 도시되어 있다.

규칙 기반 품질 엔진 태스크 모듈(142)은 도 5에 도시된 시퀀스(500)를 통하여 처리된 각 데이터 세트에 대하여 일련의 동작을 수행한다. 구성 관리자(158)는 얼마나 많은 리스팅 관리자 모듈(104)이 이용가능인지를 결정한다. 또한, 각각의 리스팅 관리자 모듈(104) 내에서, 품질 관리자 태스크(144)가 "N"개의 품질 관리자 태스크 스레드(167, 169)를 관리할 수 있다. 구체적으로, 동작 단계 524에서, 동작 시퀀스(1300)는 품질 엔진 모듈 태스크 관리자(142)에 의해 호출된다. 각각의 품질 관리자 태스크 관리자(142)는 "n"개의 스레드(1300)를 제어할 수 있다. 각 시퀀스(1300)는 동작 단계 1302에서 시작하고, 이 단계에서 필요한 레지스터가 초기화된다. 그 다음에, 제어는 동작 단계 1304로 이전한다. 동작 단계 1304에서, 얼마나 많은 품질 엔진 관리자(142) 스레드가 이용가능인지에 따라서 및 얼마나 많은 스레드(1300)가 할당되는지에 따라서, 구성 발생기(158)에 의해 결정된 대로 품질을 검사할 쿠크 데이터베이스(236)의 데이터 세트들이 회수된다. 그 다음에, 제어는 동작 단계 1306으로 이전한다. 이 단계에서 데이터 세트가 n개의 파티션으로 나누어진다. 따라서, 하나의 파티션에서 데이터 세트의 수는 파티션 내에서 이용가능한 스레드(1300)의 수에 대응한다. 그 다음에, 제어는 동작 단계 1308로 진행한다. 다음 동작들은 각 파티션의 각 데이터 세트에 대해 병렬로 수행된다.

동작 단계 1308에서, 각 데이터 세트는 문서 규칙의 세트에 대하여 비교된다. 예를 들면, 이 규칙들은 직무 내용 설명 텍스트 필드가 적어도 5 이상의 단어를 갖는지, 직무 타이틀 필드가 채워졌는지, 즉 영(null)이 아닌지, 직무 회사명 필드가 채워졌는지, 즉 영이 아닌지, 및 직무 위치 필드가 채워졌는지, 즉 영이 아닌지에 관한 판정을 포함한다. 만일 상기 필드들 중의 임의의 것이 영이거나 규칙에 반하면, 데이터 세트는 문서 규칙에 따르지 않고 색인되지 않을 것이다. 그 다음에, 제어는 질의 동작 단계 1310으로 이전한다. 질의 동작 단계 1310에서는 데이터 세트가 규칙 테스트를 통과하였는지가 문의된다. 만일 대답이 예이면, 제어는 동작 단계 1316으로 이전한다. 만일 대답이 아니오이면, 제어는 동작 단계 1312로 이전하여 에러 플래그가 세트되고, 그 다음에 동작 단계 1314로 이전하여 손실 데이터의 기록이 보고 모듈(130)에 보내진다. 그 다음에 제어는 동작 단계 1316으로 이전한다.

동작 단계 1316에서, 데이터 세트의 위치 필드가 체크되어 도시의 위치가 주 필드(state field)에 목록된 주에 대응하고 국가가 그에 따라서 대응하는 것을 검증한다. 제어는 그 다음에 동작 단계 1318로 이전한다. 질의 동작 단계 1318은 데이터 세트가 각각의 위치 검증 테스트를 통과하였는지를 문의한다. 만일 대답이 예이면, 제어는 동작 단계 1324로 직접 이전한다. 만일 대답이 아니오이면, 동작 단계 1320에서 에러 플래그가 다시 세트되고, 동작 단계 1322에서 위치 에러 보고가 보고 모듈(130)에 보내진다. 제어는 그 다음에 동작 단계 1324로 이전한다.

동작 단계 1324에서, 검사되는 데이터 세트의 각 필드의 콘텐츠는 모독성 즉 허용불능 단어의 세트와 비교되어 데이터 세트에 모독성 또는 허용할 수 없는 단어들이 있는지를 판정한다. 그 다음에, 제어는 질의 동작 단계 1326으로 이전하여 임의의 모독성 또는 허용불능 언어가 발견되었는지를 문의한다. 만일 허용불능 단어가 발견되었으면, 제어는 동작 단계 1328로 이전하여 에러 플래그가 세트되고, 그 다음에 동작 단계 1330으로 이전하여 허용불능 언어의 에러 보고가 보고 모듈(130)에 보내진다. 반면에, 모독성 단어가 발견되지 않았으면, 제어는 동작 단계 1332로 직접 이전한다.

동작 단계 1332에서, 임의의 예비 URL 어드레스가 액세스되고 체크되어 임의의 에러 메시지가 액세스시에 발생되는지 판정한다. 또한, 임의의 세션 쿠키가 요구되면, 이 쿠키들은 이 동작 단계에서 기록된다. 전치 URL(pre-URL) 어드레스 및 쿠키 정보는 예를 들면 사용자가 희망의 URL을 얻기 전에 액세스 정보를 요구하는 일부 사이트에서 제시되거나 요구될 수 있다. 이 동작은 데이터 세트의 임의의 예비 URL 정보가 현재이고 정확하다는 것을 검증한다. 임의의 에러 메시지가 있으면, 이들은 메모(noted)된다. 그 다음에, 제어는 질의 동작 단계 1334로 이전한다. 질의 동작 단계 1334에서는 전치 URL 어드레스가 호출된 때 임의의 에러 메시지가 호출되었는지를 문의한다. 그 대답이 아니오이면, 제어는 동작 단계 1340으로 직접 이전한다. 만일 그 대답이 예이면, 에러가 있는 것이므로, 동작 단계 1336에서 에러 플래그가 다시 세트되고, 에러 보고가 동작 단계 1338에서 보고 모듈(130)에 보내진다. 그 다음에, 제어는 동작 단계 1340으로 이전한다.

동작 단계 1340에서, 최종 URL 어드레스가 호출되고, 필요한 임의의 세션 쿠키가 기록된다. 이 시점에서, 임의의 에러 메시지가 메모된다. 이 동작 단계는 데이터 세트가 데이터베이스에서 여전히 현재로 남아있는지를 검증하기 위해 중요하다. 특히, 직위 공모 데이터 세트의 경우에, 직무는 미리 날짜로 채워질 수 있다. 그 경우, 직위 공모는 클리어되고 데이터베이스는 여전히 직무를 현재로 생각할 수 있다. 이 동작 단계(1340)는 그러한 최근의 변경 상황을 포착하고 그러한 행동을 수용하기 위해 시도한다. 많은 예에서, 이 동작 단계는 성공적이고 데이터베이스가 현재로 유지되는 것을 돕는다. 그 다음에, 제어는 질의 단계 1342로 이전하고, 이 단계에서 예컨대 직무가 끌어당겨졌음을 표시하는 것과 같은 임의의 에러 메시지가 있는지를 문의한다. 만일 에러 메시지가 수신되지 않았으면, 제어는 동작 단계 1348로 이전한다. 그러나, 만일 에러 메시지가 수신되었으면, 제어는 동작 단계 1344로 이전하여 에러 플래그가 세트되고, 그 다음에, 동작 단계 1346에서 에러 보고가 보고 모듈(130)에 보내진다. 그 다음에, 만일 에러가 수신되었으면 URL이 무효이기 때문에 제어는 복귀 동작 단계 1360으로 이전하고, 데이터 세트는 색인되지 않고 쿠크 데이터베이스(236)로 반송될 것이다.

동작 단계 1348에서, URL의 웹 페이지가 검사를 위해 다운로드된다. 그 다음에, 제어는 동작 단계 1350으로 이전하고, 이 단계에서 웹 페이지가 데이터 정화기 모듈(139)에서 예전에 행하여졌던 것처럼 HTML 데이터로 정화된다. 그 다음에, 제어는 동작 단계 1352로 이전한다. 동작 단계 1352에서, 데이터 세트 콘텐츠는 단어마다 웹 페이지 콘텐츠와 정합된다. 이 동작 단계는 데이터 세트가 웹 페이지를 정확히 반영하는 것을 검증하는데, 이것은 리스팅이 현재인 다른 검증 메카니즘이다. 그 다음에, 제어는 질의 동작 단계 1354로 이전한다. 질의 동작 단계 1354에서는 정합 동작 단계 1352에서 임의의 에러가 있었는지를 문의한다. 에러가 있었으면, 데이터 세트가 전와(corrupt)되거나, 직위 공모가 어떻게든지 달라지고, 그러므로 데이터 세트는 쿠크 데이터베이스로 되돌아가고 검색 뱅크(246)에 회송되도록 색인되지 않을 것이다. 따라서, 그 대답은 예이고, 제어는 동작 단계 1356으로 이전하여 에러 플래그가 세트되고, 그 다음에 동작 단계 1358로 이전하여 에러 보고가 보고 모듈(130)에 보내지고, 그 다음에, 제어는 복귀 동작 단계(1360)로 이전한다.

에러 플래그가 세트되는 각각의 경우인 동작 단계 1312, 1320, 1328, 1336, 1344 및 1356에서, 세트 플래그는 데이터 세트가 색인되는 것을 금지하고 검색 뱅크로의 회송을 위해 쿠크 데이터베이스로 복귀된다. 그러나, 데이터 세트의 복사물은 관리인이 품질 검토 모듈(126)에서 검사하기 위해 쿠크 데이터베이스에서 이용가능으로 될 것이다.

복귀 동작 단계 1360에서는 제어를 동작 단계 524에서의 태스크로 복귀시키고, 그 다음에 제어를 동작 단계 526으로 이전하여 다른 일련의 규칙 기반 태스크가 수행되게 한다. 그 다음에, 전체 제어는 동작 단계 528에서 복귀한다.

비록, 여기에서 설명한 구성 요소, 모듈, 소프트웨어 요소, 하드웨어 요소, 및 특징과 기능들은 소프트웨어 또는 하드웨어 또는 다른 방식으로 고정되는 것으로 묘사되고 설명되었지만, 당업자라면 여기에서 설명한 특징들 및 기능들이 각종 소프트웨어, 하드웨어 및/또는 펌웨어 조합으로 구현될 수 있고, 여기에서 설명한 기능들은 네트워크상의 각종 구성 요소 또는 하부 구성 요소에 분산될 수 있으며, 여기에서 설명한 것처럼 임의의 하나의 특수한 구성 요소에 고정되지 않을 수 있다는 것을 알 것이다. 따라서, 여기에서 설명한 데이터베이스는 여기에서 설명한 특징들 및 기능들의 구현에 가장 적합하게 되도록 분리되거나 통합되거나 연합되거나 또는 다른 방식으로 구성될 수 있다. 또한 여기에서 바람직하게 수동으로 수행된다고 설명한 기능들은 수동으로 수행될 수도 있고, 또는 자동화되는 서브태스크와, 인간의 동작에 의해 훈련되어 궁극적으로는 독립적으로 기능할 수 있는 인공 지능 시스템과 같이 궁극적으로 인간 운용자 상호작용을 모방하는 지능적 서브시스템에 의해 수행되는 서브태스크로 분할될 수도 있다. 더 나아가, 특징들, 기능들 및 기술적 설명들은 아래의 부연 설명 및 내포된 도면들에서도 발견할 수 있다.

이 명세서에서 설명한 장치 및 방법은 현재 가장 실용적이고 양호한 실시예라고 생각되는 것에 대하여 설명되었지만, 본 발명은 여기에서 설명한 실시예로 한정되는 것이 아님을 이해하여야 한다. 본 발명은 특허 청구범위의 정신 및 범위에 포함된 각종 수정 및 유사한 구성을 포괄하는 것으로 해석되어야 하고, 본 발명은 그러한 수정 및 유사한 구조를 모두 포함하도록 최광의로 해석되어야 한다. 본 발명은 이하의 청구범위의 임의의 및 모든 실시예를 포함한다. 여기에서 설명되거나 언급되거나 논의된 모든 특허, 특허 출원 및 공개 문서들은 그 인용에 의해 그 전체 내용이 여기에 통합된 것으로 한다.

Claims

시스템에 있어서,

컴퓨팅 디바이스 상에서 실행되며, 검색가능 데이터 구조로 컴파일하기 위해 복수의 소스들로부터 데이터 네트워크를 통해 포착된 리스팅 정보 데이터의 포착(capture) 및 처리를 관리하는 모듈과;

상기 컴퓨팅 디바이스 상에서 실행되며, 네트워크 인터페이스를 통해 시스템 관리 및 동작 제어를 제공하는 관리 포털 모듈과;

상기 컴퓨팅 디바이스 상에서 실행되며, 상기 관리 포털 모듈을 통해 제공된 명령에 응답해서, 상기 소스들에 대한 액세스를 제어하고, 상기 리스팅 정보 데이터 - 상기 리스팅 정보 데이터는 리스팅 정보 데이터 필드를 포함함 - 의 검색을 제어하고, 상기 소스들로부터 수신된 리스팅 정보 데이터를 처리하고, 상기 리스팅 정보 데이터의 리스팅 정보 데이터 필드를 미리 결정된 품질 기준과 비교하고, 상기 리스팅 정보 데이터를 카테고리화하며, 상기 카테고리화된 리스팅 정보 데이터를 검색 뱅크에서의 사용을 위해 저장하도록 동작할 수 있는 하나 이상의 리스팅 관리자 모듈

을 포함하고,

상기 품질 기준은 문서 규칙들(document rules)을 포함하며, 상기 문서 규칙들은 상기 리스팅 정보 데이터 필드 내의 각 리스팅에 적용되는 것이고,

상기 리스팅 정보 데이터가 상기 문서 규칙들 중 하나 이상을 위반(fail)한다면, 상기 리스팅 정보 데이터는 품질 검토를 위해 플래그(flag)되는 것인 시스템.
청구항 2은(는) 설정등록료 납부시 포기되었습니다.

제1항에 있어서, 데이터 네트워크는 인터넷인 것인 시스템.
제1항에 있어서, 각각의 리스팅 관리자 모듈은 하나 이상의 태스크 관리자 모듈을 포함하고, 각 태스크 관리자 모듈은,

상기 관리 포털 모듈 내의 사이트 관리 모듈에 의해 식별된 사이트들로부터 스크레이프(scrape)한 데이터 세트를 얻고 그 스크레이프한 데이터 세트를 데이터베이스에 저장하기 위해 하나 이상의 스크레이핑 엔진들의 동작 및 상기 하나 이상의 스크레이핑 엔진들 간의 통신을 조정하는(coordinate) 스크레이핑 관리 모듈과;

상기 스크레이핑 관리 모듈에 연결되고, 미리 결정된 품질 규칙들에 부합하도록 하기 위해 상기 데이터베이스에 저장된 각각의 스크레이프한 데이터 세트의 데이터 필드를 분석하는 품질 관리 모듈

을 포함하는 것인 시스템.
제3항에 있어서, 각 태스크 관리자 모듈은,

상기 데이터베이스에 저장된 각 데이터 세트를 검사하고 하나 이상의 미리 결정된 카테고리 세트로 카테고리화하며, 카테고리화된 데이터 세트를 상기 데이터베이스에 반송(return)하도록 동작할 수 있는 리스팅 데이터 카테고리화 모듈과;

상기 데이터베이스와 통신하며, 상기 카테고리화된 데이터 세트를 컴파일하여 상기 데이터베이스로부터 상기 검색 뱅크에 전송하는 검색 뱅크 동기화기

를 포함하는 것인 시스템.
제1항에 있어서, 상기 카테고리화 모듈은,

카테고리화 데이터베이스와;

각각의 스크레이프한 데이터 세트의 텍스트를 상기 카테고리화 데이터베이스의 미리 카테고리화한 리스팅 데이터 텍스트와 비교함으로써 각각의 스크레이프한 리스팅 정보 데이터 세트에 대해 각각의 미리 결정된 카테고리에서의 신뢰도 값을 결정하는 문서 카테고리화 플랫폼 서비스

를 포함하는 것인 시스템.
제4항에 있어서, 상기 관리 포털 모듈은, 상기 문서 카테고리화 플랫폼 서비스에 의해 결정된 카테고리화를 검토자가 검증하도록 허용하는 카테고리화 검토 모듈을 포함하는 것인 시스템.
제4항에 있어서, 상기 데이터베이스에 반송된 각 데이터 세트는, 상기 카테고리화 모듈에 의해 결정된 할당된 카테고리(assigned category), 및 상기 카테고리에 대한 할당된 신뢰도 값(assigned confidence value)을 포함하는 것인 시스템.
청구항 8은(는) 설정등록료 납부시 포기되었습니다.

제7항에 있어서, 상기 데이터베이스에 반송된 각 데이터 세트는, 각각의 미리 결정된 카테고리에 대한 신뢰도 값을 더 포함하는 것인 시스템.
제7항에 있어서, 상기 데이터베이스에 반송된 각 데이터 세트는, 상기 할당된 신뢰도 값이 미리 결정된 임계값보다 낮으면 수동 검토 플래그 세트를 포함하는 것인 시스템.
제1항에 있어서, 상기 품질 관리 모듈은 상기 미리 결정된 품질 기준을 만족하지 않는 데이터 필드를 포함하는 각 데이터 세트와 관련된 품질 플래그를 셋팅(set)하는 것인 시스템.
제10항에 있어서, 상기 관리 포털 모듈은, 상기 품질 관리 모듈과 통신하고 상기 품질 플래그가 셋팅된 데이터 세트를 검토자가 수동으로 검사하는 것을 허용하는 품질 검토 모듈을 더 포함하는 것인 시스템.
컴퓨터로 구현되는 방법에 있어서,

리스팅 정보 데이터 세트를 획득하고 취급하고 컴파일하고;

컴퓨팅 디바이스에 의해, 복수의 리스팅 관리 모듈 중 하나에서 관리 포털 모듈로부터 동작 명령을 수신하고;

상기 하나의 리스팅 관리 모듈에서의 동작 명령은 인터넷을 통하여 이용가능한 하나 이상의 사이트 상의 하나 이상의 리스팅들로부터 상기 리스팅 정보 데이터 세트 - 상기 리스팅 정보 데이터 세트는 리스팅 정보 데이터 필드를 포함함 - 를 획득하고;

상기 컴퓨팅 디바이스에 의해, 상기 리스팅들 각각에 대응하는 리스팅 정보 데이터 세트를 데이터베이스에 저장하고;

상기 컴퓨팅 디바이스에 의해, 상기 데이터베이스에 저장된 상기 리스팅 정보 데이터 세트의 각 리스팅 정보 데이터 필드를 미리 결정된 품질 기준과 비교하고;

상기 컴퓨팅 디바이스에 의해, 상기 데이터베이스에 저장된 각 리스팅 정보 데이터 세트를 하나 이상의 미리 결정된 카테고리로 카테고리화하고, 상기 카테고리화된 리스팅 정보 데이터 세트를 상기 데이터베이스에 반송(return)하며;

상기 컴퓨팅 디바이스에 의해, 상기 카테고리화된 리스팅 정보 데이터 세트를 검색 뱅크에서의 사용을 위해 저장하는 것

을 포함하고,

상기 품질 기준은 문서 규칙들(document rules)을 포함하며, 상기 문서 규칙들은 상기 리스팅 정보 데이터 필드 내의 각 리스팅에 적용되는 것이고,

상기 리스팅 정보 데이터 세트가 상기 문서 규칙들 중 하나 이상을 위반(fail)한다면, 상기 리스팅 정보 데이터 세트는 품질 검토를 위해 플래그(flag)되는 것인 컴퓨터로 구현되는 방법.
청구항 13은(는) 설정등록료 납부시 포기되었습니다.

제12항에 있어서, XML 피드를 통하여 하나 이상의 고객 사이트로부터 리스팅 정보 데이터 세트를 획득하는 것을 더 포함하는 컴퓨터로 구현되는 방법.
제12항에 있어서, 상기 카테고리화하는 동작은,

상기 미리 결정된 카테고리들 각각에 대한 각 데이터 세트에 대하여 신뢰도 값을 할당하는 것을 더 포함하는 것인 컴퓨터로 구현되는 방법.
제12항에 있어서, 상기 카테고리화하는 동작은,

각각의 획득된 데이터 세트의 텍스트를 카테고리화 데이터베이스 내의 미리 카테고리화한 데이터 세트의 텍스트와 비교하고;

각각의 획득된 데이터 세트에 대하여 미리 결정된 각 카테고리의 신뢰도 값을 결정하는 것을 포함하는 것인 컴퓨터로 구현되는 방법.
제15항에 있어서, 미리 결정된 값보다 낮은 신뢰도 값을 가진 각각의 카테고리화된 데이터 세트를 수동 검토를 위해 플래그(flag)하고;

검토자가 관리 포털을 통하여 임의의 플래그된 카테고리화를 검증할 수 있도록 허용하는 수동 검토 모듈을 제공하는 것

을 더 포함하는 컴퓨터로 구현되는 방법.
제12항에 있어서, 상기 데이터베이스에 반송된 각 데이터 세트에 할당된 카테고리에 대하여 신뢰도 값을 할당하는 것을 더 포함하는 컴퓨터로 구현되는 방법.
제17항에 있어서, 미리 결정된 임계치보다 낮은 할당된 신뢰도 수준을 가진 데이터베이스에 반송된 임의의 데이터 세트를 플래그하는 것을 더 포함하는 컴퓨터로 구현되는 방법.
제12항에 있어서,

사용자에 의한 질의에 응답하여, 선택된 카테고리화된 데이터 세트(categorized data set)를 상기 검색 뱅크로부터 웹 클라이언트 서버 클러스터를 통해 상기 사용자에게 전송하는 것을 더 포함하는 컴퓨터로 구현되는 방법.
제12항에 있어서,

상기 획득하는 동작은,

상기 인터넷을 통해 하나 이상의 사이트에 액세스하고;

상기 하나 이상의 사이트로부터 리스팅 데이터 세트를 스크레이프(scrape)하고;

상기 미리 결정된 품질 기준을 만족하지 않는 데이터 필드를 포함하는 임의의 스크레이프한 데이터 세트를 플래그하며;

상기 데이터베이스에 반송된 플래그된 데이터 세트의 수동 검토를 허용하는 것을 더 포함하고,

상기 카테고리화하는 동작은,

각각의 스크레이프한 데이터 세트 내의 데이터를, 카테고리화 데이터베이스 내의 미리 카테고리화된 데이터 세트 데이터와 비교하고;

각각의 스크레이프한 데이터 세트에 대한 각각의 미리 결정된 카테고리의 신뢰도 값을 결정하는 것을 더 포함하는 것인 컴퓨터로 구현되는 방법.
제20항에 있어서,

미리 결정된 값보다 낮은 신뢰도 값을 가진 각각의 카테고리화된 스크레이프한 데이터 세트를 수동 검토를 위해 플래그하고;

검토자가 임의의 플래그된 카테고리화를 검증할 수 있도록 허용하는 수동 검토 모듈을 관리 포털에 제공하는 것을 더 포함하는 컴퓨터로 구현되는 방법.
제12항에 있어서, 사용자에 의한 질의에 응답하여, 선택된 카테고리화된 데이터 세트를 상기 검색 뱅크로부터 웹 서버를 통하여 상기 사용자에게 전송하는 것을 더 포함하는 컴퓨터로 구현되는 방법.
컴퓨터 프로세스를 실행시키는 명령의 컴퓨터 프로그램을 유형적으로(tangibly) 인코딩하는 컴퓨터 판독가능 기록 매체에 있어서,

상기 컴퓨터 프로세스는,

법인 경력(corporate career) 사이트 및 직무 게시판(job board) 상의 하나 이상의 직무 리스팅으로부터 직무 정보 데이터 세트를 스크레이프(scrape)하고;

각각의 스크레이프한 직무 리스팅에 대응하는 스크레이프한 직무 정보 데이터 세트 - 상기 직무 정보 데이터 세트 각각은 데이터 필드를 포함함 - 를 데이터베이스에 저장하고;

상기 데이터베이스에 저장된 각각의 스크레이프한 직무 정보 데이터 세트의 데이터 필드를, 미리 결정된 품질 기준에 부합하도록 하기 위해 분석하고, 이전에 스크레이프한 정보 데이터의 이중화(duplication)를 제거하고, 데드(dead) 링크를 제거하며, 불쾌감을 주는 텍스트를 필터링하고;

상기 데이터베이스에 저장된 각각의 직무 정보 데이터 세트를, 하나 이상의 직무 카테고리로 카테고리화하고, 상기 카테고리화한 직무 정보 데이터 세트를 상기 데이터베이스에 반송(return)하고;

카테고리화된 직무 정보 데이터 세트를 상기 데이터베이스로부터 검색 뱅크로 전송하며;

유료(paid) 직무 광고 회사로부터 유료 직무 정보 데이터 세트를 얻고 스크레이프한 직무 정보 데이터 세트와 함께 직무 검색자에게 다음에 제공하기 위해 유료 검색 뱅크에 저장하는 것

을 포함하는 컴퓨터 판독가능 기록 매체.
제23항에 있어서, 상기 프로세스는,

인터넷을 통하여 상기 법인 경력 사이트 또는 직무 게시판 중 하나에 액세스하고;

상기 미리 결정된 품질 기준을 만족하지 않는 데이터 필드를 포함하는 임의의 스크레이프(scrape)된 직무 정보 데이터 세트를 플래그하고;

상기 데이터베이스에 반송된 플래그된 직무 정보 데이터 세트의 수동 검토를 허용하는 것을 더 포함하고,

상기 카테고리화하는 동작은,

각각의 스크레이프한 직무 정보 데이터 세트의 텍스트를, 카테고리화 데이터베이스 내의 미리 카테고리화된 직무 정보 텍스트와 비교하고;

각각의 스크레이프한 직무 정보 데이터 세트에 대한 각각의 미리 결정된 카테고리의 신뢰도 값을 결정하는 것을 포함하는 것인 컴퓨터 판독가능 기록 매체.
청구항 25은(는) 설정등록료 납부시 포기되었습니다.

컴퓨터 시스템에 있어서,

컴퓨팅 디바이스 상에서 실행되며, 검색가능 데이터 구조로 컴파일하기 위해 복수의 소스들로부터 데이터 네트워크를 통해 포착된 직무 리스팅 정보 데이터 세트의 포착(capture) 및 처리를 관리하는 모듈과;

상기 컴퓨팅 디바이스 상에서 실행되며, 네트워크 인터페이스를 통해 시스템 관리 및 동작 제어를 제공하는 관리 포털 모듈과;

상기 컴퓨팅 디바이스 상에서 실행되며, 상기 관리 포털 모듈을 통해 제공된 명령에 응답해서, 직무 관련 소스들에 대한 액세스를 제어하고, 데이터 필드를 포함하는 상기 직무 리스팅 정보 데이터 세트의 검색을 제어하고, 상기 소스들로부터 수신된 직무 리스팅 정보 데이터 세트를 처리하고, 미리 결정된 품질 기준에 부합하도록 하기 위해 상기 데이터 필드를 검사하고, 상기 직무 리스팅 정보 데이터 세트를 카테고리화하며, 상기 카테고리화된 직무 리스팅 정보 데이터 세트를 직무 검색 뱅크에서의 사용을 위해 저장하도록 동작할 수 있는 하나 이상의 태스크 관리자 모듈

을 포함하고,

상기 품질 기준은 문서 규칙들(document rules)을 포함하며, 상기 문서 규칙들은 상기 데이터 필드 내의 각 리스팅에 적용되는 것이고,

상기 직무 리스팅 정보 데이터 세트가 상기 문서 규칙들 중 하나 이상을 위반(fail)한다면, 상기 직무 리스팅 정보 데이터 세트는 품질 검토를 위해 플래그(flag)되는 것인 컴퓨터 시스템.
청구항 26은(는) 설정등록료 납부시 포기되었습니다.

제25항에 있어서, 상기 데이터 네트워크는 인터넷을 포함하는 것인, 컴퓨터 시스템.
청구항 27은(는) 설정등록료 납부시 포기되었습니다.

제25항에 있어서, 각 태스크 관리자 모듈은,

상기 관리 포털 모듈의 사이트 관리 모듈에 의해 식별된 법인 경력 사이트 및 직무 게시판으로부터 스크레이프(scrape)된 직무 정보 데이터 세트를 획득하고, 그 스크레이프한 데이터 세트를 데이터베이스에 저장하기 위해, 하나 이상의 직무 스크레이핑 엔진의 동작 및 상기 하나 이상의 직무 스크레이핑 엔진간의 통신을 조정하는(coordinate) 스크레이핑 관리 모듈과;

상기 스크레이핑 관리 모듈에 연결되고, 미리 결정된 품질 규칙에 부합하도록 하기 위해 상기 데이터베이스에 저장된 각각의 스크레이프한 직무 데이터 세트의 데이터 필드를 분석하는 품질 관리 모듈을 포함하는 것인, 컴퓨터 시스템.
청구항 28은(는) 설정등록료 납부시 포기되었습니다.

제27항에 있어서, 상기 태스크 관리자 모듈은,

상기 데이터베이스에 저장된 각 직무 데이터 세트를 검사하고 하나 이상의 미리 결정된 직무 카테고리 세트로 카테고리화하며, 카테고리화한 직무 데이터 세트를 상기 데이터베이스에 반송(return)하도록 동작할 수 있는 직무 리스팅 데이터 카테고리화 모듈과;

상기 데이터베이스와 통신하며, 상기 데이터베이스로부터의 카테고리화된 직무 데이터 세트를 컴파일하여 상기 직무 검색 뱅크에 전송하는 검색 뱅크 동기화기

를 더 포함하는 것인, 컴퓨터 시스템.
청구항 29은(는) 설정등록료 납부시 포기되었습니다.

제25항에 있어서, 상기 카테고리화 모듈은,

직무 카테고리화 데이터베이스와;

각각의 스크레이프한 직무 데이터 세트의 텍스트를 직무 카테고리화 데이터베이스의 미리 카테고리화한 직무 데이터 텍스트와 비교함으로써 각각의 스크레이프한 직무 리스팅 정보 데이터 세트에 대해 각각의 미리 결정된 직무 카테고리의 신뢰도 값을 결정하는 카테고리화 모듈을 포함하는 것인 컴퓨터 시스템.
청구항 30은(는) 설정등록료 납부시 포기되었습니다.

제28항에 있어서, 상기 관리 포털 모듈은 문서 카테고리화 플랫폼 서비스(document categorization platform service)에 의해 결정된 카테고리화를 검토자가 검증하게 하는 카테고리화 검토 모듈을 포함하는 것인, 컴퓨터 시스템.
청구항 31은(는) 설정등록료 납부시 포기되었습니다.

제28항에 있어서, 상기 데이터베이스에 반송된 각 직무 데이터 세트는 상기 카테고리화 모듈에 의해 결정되는 할당된 직무 카테고리 및 그 카테고리에 대한 할당된 신뢰도 값을 포함하는 것인, 컴퓨터 시스템.
청구항 32은(는) 설정등록료 납부시 포기되었습니다.

제31항에 있어서, 상기 데이터베이스에 반송된 각 데이터 세트는 각각의 미리 결정된 직무 카테고리에 대한 신뢰도 값을 더 포함하는 것인, 컴퓨터 시스템.
청구항 33은(는) 설정등록료 납부시 포기되었습니다.

제29항에 있어서, 할당된 신뢰도 값이 미리 결정된 임계값보다 낮다면 상기 데이터베이스에 반송된 각 직무 데이터 세트는 수동 검토 플래그 세트를 포함하는 것인, 컴퓨터 시스템.
청구항 34은(는) 설정등록료 납부시 포기되었습니다.

제25항에 있어서, 상기 품질 관리 모듈은 상기 미리 결정된 기준을 만족하지 않는 데이터 필드를 포함하는 각각의 스크레이프한 직무 데이터 세트와 관련된 품질 플래그를 셋팅(set)하는 것인, 컴퓨터 시스템.
청구항 35은(는) 설정등록료 납부시 포기되었습니다.

제34항에 있어서, 상기 관리 포털 모듈은, 상기 품질 관리 모듈과 통신하고 상기 품질 플래그가 셋팅된 직무 데이터 세트를 검토자가 수동으로 검사하는 것을 허용하는 품질 검토 모듈을 더 포함하는 것인, 컴퓨터 시스템.
직무 정보 데이터 세트를 획득하고 취급하고 컴파일하는 방법에 있어서,

컴퓨팅 디바이스에 의해, 복수의 직무 리스팅 관리 모듈 중 하나에서 관리 포털 모듈로부터 동작 명령을 수신하고;

상기 컴퓨팅 디바이스에 의해, 인터넷을 통하여 이용가능한 하나 이상의 법인 경력 사이트 또는 직무 게시판 상의 하나 이상의 직무 리스팅으로부터 직무 정보 데이터 세트를 스크레이프(scrape)하고;

상기 컴퓨팅 디바이스에 의해, 각각의 스크레이프한 직무 리스팅에 대응하는 직무 정보 데이터 세트를 데이터베이스에 저장하고;

상기 컴퓨팅 디바이스에 의해, 상기 데이터베이스에 저장된 각각의 스크레이프된 직무 정보 데이터 세트의 데이터 필드를, 미리 결정된 품질 기준에 부합하도록 하기 위해 분석하며;

상기 컴퓨팅 디바이스에 의해, 상기 데이터베이스에 저장된 각 직무 정보 데이터 세트를 하나 이상의 미리 결정된 직무 카테고리로 카테고리화하고, 상기 카테고리화한 직무 정보 데이터 세트를 상기 데이터베이스에 반송(return)하는 것

을 포함하고,

상기 품질 기준은 문서 규칙들(document rules)을 포함하며, 상기 문서 규칙들은 각 직무 정보 데이터 세트의 각 데이터 필드에 적용되는 것이고,

상기 직무 정보 데이터 세트가 상기 문서 규칙들 중 하나 이상을 위반(fail)한다면, 상기 직무 정보 데이터 세트는 품질 검토를 위해 플래그(flag)되는 것인, 직무 정보 데이터 세트를 획득하고 취급하고 컴파일하는 방법.
청구항 37은(는) 설정등록료 납부시 포기되었습니다.

제36항에 있어서, XML 피드를 통하여 하나 이상의 고객 사이트로부터 직무 정보 데이터 세트를 획득하는 것을 더 포함하는, 직무 정보 데이터 세트를 획득하고 취급하고 컴파일하는 방법.
청구항 38은(는) 설정등록료 납부시 포기되었습니다.

제36항에 있어서, 상기 카테고리화하는 동작은,

각각의 미리 결정된 직무 카테고리의 각 직무 정보 데이터 세트에 대한 신뢰도 값을 할당하는 것을 더 포함하는 것인, 직무 정보 데이터 세트를 획득하고 취급하고 컴파일하는 방법.
제36항에 있어서, 상기 카테고리화하는 동작은,

각각의 스크레이프한 직무 정보 데이터 세트의 텍스트를 직무 카테고리화 데이터베이스 내의 미리 카테고리화한 직무 정보 데이터 세트의 텍스트와 비교하고;

각각의 스크레이프한 직무 정보 데이터 세트에 대한 미리 결정된 각 카테고리의 신뢰도 값을 결정하는 것을 포함하는 것인, 직무 정보 데이터 세트를 획득하고 취급하고 컴파일하는 방법.
제39항에 있어서, 미리 결정된 값보다 낮은 신뢰도 값을 가진 각각의 카테고리화된 스크레이프한 직무 정보 데이터 세트를 수동 검토를 위해 플래그하고;

검토자가 관리 포털을 통하여 임의의 플래그된 카테고리화를 검증할 수 있도록 허용하는 수동 검토 모듈을 제공하는 것을 더 포함하는, 직무 정보 데이터 세트를 획득하고 취급하고 컴파일하는 방법.
제36항에 있어서, 상기 데이터베이스에 반송된 각 직무 정보 데이터 세트에 할당된 직무 카테고리에 대한 신뢰도 값을 할당하는 것을 더 포함하는, 직무 정보 데이터 세트를 획득하고 취급하고 컴파일하는 방법.
제41항에 있어서, 미리 결정된 임계치보다 낮은 할당된 신뢰도 수준을 가진 데이터베이스에 반송된 임의의 직무 정보 데이터 세트를 플래그하는 것을 더 포함하는, 직무 정보 데이터 세트를 획득하고 취급하고 컴파일하는 방법.
삭제
제36항에 있어서,

상기 스크레이프하는 동작은,

인터넷을 통해 직무 게시판 또는 법인 경력 사이트 중의 하나에 액세스하고;

상기 미리 결정된 품질 기준을 만족하지 않는 데이터 필드를 가진 임의의 스크레이프한 직무 정보 데이터 세트를 플래그하고;

상기 데이터베이스에 반송된 플래그된 직무 정보 데이터 세트의 수동 검토를 허용하는 것을 더 포함하고,

상기 카테고리화하는 동작은,

각각의 스크레이프한 직무 정보 데이터 세트의 데이터를 카테고리화 데이터베이스의 미리 카테고리화한 직무 정보 데이터 세트 데이터와 비교하고;

각각의 스크레이프한 직무 정보 데이터 세트에 대한 각각의 미리 결정된 직무 카테고리의 신뢰도 값을 결정하는 것을 더 포함하는 것인, 직무 정보 데이터 세트를 획득하고 취급하고 컴파일하는 방법.
제44항에 있어서, 미리 결정된 값보다 낮은 신뢰도 값을 가진 각각의 카테고리화된 스크레이프한 직무 정보 데이터 세트를 수동 검토를 위해 플래그하고;

검토자가 임의의 플래그된 카테고리화를 검증할 수 있게 허용하는 수동 검토 모듈을 관리 포털에 제공하는 것을 더 포함하는, 직무 정보 데이터 세트를 획득하고 취급하고 컴파일하는 방법.
제44항에 있어서, 사용자의 질의에 응답하여, 선택된 카테고리화한 직무 정보 데이터 세트를 검색 뱅크로부터 웹 서버를 통하여 상기 사용자에게 전송하는 것을 더 포함하는, 직무 정보 데이터 세트를 획득하고 취급하고 컴파일하는 방법.
법인 경력 사이트 및 직무 게시판으로부터 직무 내용 설명서 데이터를 스크레이프(scrape)하기 위해 컴퓨터 프로세스를 실행시키는 명령의 컴퓨터 프로그램을 인코딩하는 컴퓨터 판독가능 저장 매체에 있어서,

상기 컴퓨터 프로세스는,

인터넷을 통하여 이용가능한 사이트 상의 하나 이상의 리스팅으로부터 데이터 필드를 포함하는 리스팅 정보 데이터 세트를 스크레이프하고;

상기 스크레이프한 데이터 세트를 데이터베이스에 저장하고;

상기 데이터베이스에 저장된 각각의 스크레이프한 데이터 세트의 데이터 필드를 미리 결정된 품질 기준에 부합하도록 하기 위해 분석하며;

상기 데이터베이스에 저장된 각각의 데이터 세트를 하나 이상의 미리 결정된 카테고리로 카테고리화하고, 상기 카테고리화한 데이터 세트를 상기 데이터베이스에 반송(return)하는 것을 포함하고,

상기 품질 기준은 문서 규칙들(document rules)을 포함하며, 상기 문서 규칙들은 상기 데이터 필드 내의 각 리스팅에 적용되는 것이고,

상기 데이터 필드 중 하나가 상기 문서 규칙들 중 하나 이상을 위반(fail)한다면, 상기 데이터 필드 중 하나를 포함하는 리스팅 정보 데이터 세트는 품질 검토를 위해 플래그(flag)되는 것인, 컴퓨터 판독가능 저장 매체.
제47항에 있어서,

상기 프로세스는,

상기 미리 결정된 품질 기준을 만족하지 않는 데이터 필드를 포함하는 임의의 스크레이프한 데이터 세트를 플래그하고;

상기 데이터베이스에 반송된 플래그된 데이터 세트의 수동 검토를 허용하는 것을 더 포함하고,

상기 카테고리화하는 동작은,

각각의 스크레이프한 데이터 세트의 텍스트를 카테고리화 데이터베이스의 미리 카테고리화한 데이터 세트 텍스트와 비교하고;

각각의 스크레이프한 데이터 세트에 대한 각각의 미리 결정된 카테고리의 신뢰도 값을 결정하는 것을 더 포함하는 것인, 컴퓨터 판독가능 저장 매체.
컴퓨터 시스템에 있어서,

포착(capture)을 관리하고, 검색가능 데이터 구조로 컴파일하기 위해 복수의 직무 관련 소스들로부터 데이터 네트워크를 통해 포착된 직무 리스팅 정보 데이터를 처리하는 복수의 프로세서들과;

네트워크 인터페이스를 통해 시스템 관리 및 동작 제어를 제공하는 상기 복수의 프로세서들 중 하나에서 구현되는 관리 포털 모듈과;

상기 관리 포털 모듈의 사이트 관리 모듈에 의해 식별된 법인 경력 사이트 및 직무 게시판으로부터 스크레이프(scrape)한 직무 정보 데이터 세트를 획득하고 스크레이프한 데이터 세트 - 상기 스크레이프한 데이터 세트 각각은 데이터 필드를 포함함 - 를 데이터베이스에 저장하기 위해, 하나 이상의 직무 스크레이핑 엔진의 동작 및 상기 하나 이상의 직무 스크레이핑 엔진들 간의 통신을 조정하는(coordinate) 상기 복수의 프로세서들 중 하나에서 구현되는 스크레이핑 관리 모듈과;

상기 스크레이핑 관리 모듈에 연결된 상기 복수의 프로세스들 중 하나에서 구현되며, 상기 데이터베이스에 저장된 각각의 스크레이프된 직무 데이터 세트의 데이터 필드를 미리 결정된 품질 규칙들과 비교하는 품질 관리 모듈과;

상기 데이터베이스에 저장된 각 직무 데이터 세트를 검사하고, 스크레이프된 직무 데이터 세트의 볼륨(volume)에 기초하여 하나 이상의 미리 결정된 직무 카테고리로 카테고리화하며, 상기 카테고리화한 직무 데이터 세트를 상기 데이터베이스에 반송(return)하도록 동작할 수 있는 상기 복수의 프로세서들 중 하나에서 구현되는 직무 리스팅 데이터 카테고리화 모듈과;

상기 데이터베이스와 통신하고, 상기 데이터베이스로부터의 카테고리화된 직무 데이터 세트를 컴파일하여 직무 검색 뱅크에 전송하는 상기 복수의 프로세서들 중 하나에서 구현되는 검색 뱅크 동기화기

을 포함하는 컴퓨터 시스템.
청구항 50은(는) 설정등록료 납부시 포기되었습니다.

제49항에 있어서, 상기 데이터 네트워크는 인터넷을 포함하는 것인, 컴퓨터 시스템.
삭제
제49항에 있어서, 상기 직무 리스팅 데이터 카테고리화 모듈은,

직무 카테고리화 데이터베이스와;

각각의 스크레이프한 직무 데이터 세트의 텍스트를 직무 카테고리화 데이터베이스의 미리 카테고리화한 직무 데이터 텍스트와 비교함으로써 각각의 스크레이된 직무 리스팅 정보 데이터 세트에 대해 각각의 미리 결정된 직무 카테고리의 신뢰도 값을 결정하는 카테고리화 모듈을 포함하는 것인, 컴퓨터 시스템.
제52항에 있어서, 상기 관리 포털 모듈은, 상기 직무 리스팅 데이터 카테고리화 모듈의 문서 카테고리화 플랫폼 서비스에 의해 결정된 카테고리화를 검토자가 검증하도록 허용하는 카테고리화 검토 모듈을 포함하는 것인, 컴퓨터 시스템.
제52항에 있어서, 상기 데이터베이스에 반송된 각 직무 데이터 세트는, 상기 직무 리스팅 데이터 카테고리화 모듈에 의해 결정되는 할당된 직무 카테고리 및 그 카테고리에 대한 할당된 신뢰도 값을 포함하는 것인, 컴퓨터 시스템.
청구항 55은(는) 설정등록료 납부시 포기되었습니다.

제54항에 있어서, 상기 데이터베이스에 반송된 각 데이터 세트는, 각각의 미리 결정된 직무 카테고리에 대한 신뢰도 값을 더 포함하는 것인, 컴퓨터 시스템.
제52항에 있어서, 상기 데이터베이스에 반송된 각 직무 데이터 세트는, 할당된 신뢰도 값이 미리 결정된 임계값보다 낮다면 수동 검토 플래그 세트를 포함하는 것인, 컴퓨터 시스템.
제56항에 있어서, 상기 관리 포털 모듈은, 상기 직무 리스팅 데이터 카테고리화 모듈에 의해 결정된 카테고리화를 검토자가 검증하도록 허용하는 카테고리화 검토 모듈을 포함하는 것인, 컴퓨터 시스템.
삭제
제49항에 있어서, 상기 관리 포털 모듈은, 플래그된 직무 데이터 세트를 검토자가 수동으로 검사하도록 허용하는 품질 관리 모듈과 통신하는 품질 검토 모듈을 더 포함하는 것인, 컴퓨터 시스템.
직무 정보 데이터 세트를 획득하고 취급하고 컴파일하는 방법에 있어서,

프로세서에 의해, 인터넷을 통하여 이용가능한 하나 이상의 법인 경력 사이트 또는 직무 게시판 상의 하나 이상의 직무 리스팅으로부터 직무 정보 데이터 세트를 스크레이프(scrape)하고;

상기 프로세서에 의해, 발견된 각각의 스크레이프한 직무 리스팅에 대응하는 직무 정보 데이터 세트 - 상기 직무 정보 데이터 세트 각각은 데이터 필드를 포함함 - 를 데이터베이스에 저장하고;

상기 프로세서에 의해, 상기 데이터베이스에 저장된 각각의 스크레이프한 직무 정보 데이터 세트의 각 데이터 필드를 미리 결정된 품질 기준과 비교하고;

상기 프로세서에 의해, 상기 스크레이프한 직무 정보 데이터 세트의 볼륨(volume)에 기초하여 상기 데이터베이스에 저장된 각 직무 정보 데이터 세트를 하나 이상의 미리 결정된 직무 카테고리로 카테고리화하고, 상기 카테고리화한 직무 정보 데이터 세트를 상기 데이터베이스에 반송(return)하며;

상기 프로세서에 의해, 상기 데이터베이스와 통신하며 상기 데이터베이스로부터의 카테고리화된 직무 정보 데이터 세트를 컴파일하여 직무 검색 뱅크로 전송하는 것

을 포함하고,

상기 품질 기준은 문서 규칙들(document rules)을 포함하는 것이고,

상기 직무 정보 데이터 세트가 상기 문서 규칙들 중 하나 이상을 위반(fail)한다면, 상기 직무 정보 데이터 세트는 상기 데이터베이스에서 인덱싱(index)되지 않고 상기 직무 정보 데이터 세트는 품질 검토를 위해 플래그(flag)되는 것인, 직무 정보 데이터 세트를 획득하고 취급하고 컴파일하는 방법.
청구항 61은(는) 설정등록료 납부시 포기되었습니다.

제60항에 있어서, XML 피드를 통하여 하나 이상의 고객 사이트로부터 직무 정보 데이터 세트를 획득하는 것을 더 포함하는, 직무 정보 데이터 세트를 획득하고 취급하고 컴파일하는 방법.
청구항 62은(는) 설정등록료 납부시 포기되었습니다.

제60항에 있어서, 상기 카테고리화하는 동작은,

각각의 미리 결정된 직무 카테고리의 각 직무 정보 데이터 세트에 대한 신뢰도 값을 할당하는 것을 더 포함하는 것인, 직무 정보 데이터 세트를 획득하고 취급하고 컴파일하는 방법.
제60항에 있어서, 상기 카테고리화하는 동작은,

각각의 스크레이프한 직무 정보 데이터 세트의 텍스트를 직무 카테고리화 데이터베이스 내의 미리 카테고리화한 직무 정보 데이터 세트의 텍스트와 비교하고;

각각의 스크레이프한 직무 정보 데이터 세트에 대한 미리 결정된 각 카테고리의 신뢰도 값을 결정하는 것을 포함하는 것인, 직무 정보 데이터 세트를 획득하고 취급하고 컴파일하는 방법.
제63항에 있어서,

미리 결정된 값보다 낮은 신뢰도 값을 가진 각각의 카테고리화된 스크레이프한 직무 정보 데이터 세트를 수동 검토를 위해 플래그하고;

검토자가 관리 포털을 통하여 임의의 플래그된 카테고리화를 검증하도록 허용하는 수동 검토 모듈을 제공하는 것을 더 포함하는, 직무 정보 데이터 세트를 획득하고 취급하고 컴파일하는 방법.
청구항 65은(는) 설정등록료 납부시 포기되었습니다.

제60항에 있어서, 상기 데이터베이스에 반송된 각 직무 정보 데이터 세트에 할당된 직무 카테고리에 대한 신뢰도 값을 할당하는 것을 더 포함하는, 직무 정보 데이터 세트를 획득하고 취급하고 컴파일하는 방법.
제65항에 있어서, 미리 결정된 임계치보다 낮은 할당된 신뢰도 수준을 가진 상기 데이터베이스에 반송된 임의의 직무 정보 데이터 세트를 플래그하는 것을 더 포함하는, 직무 정보 데이터 세트를 획득하고 취급하고 컴파일하는 방법.
삭제
제60항에 있어서, 상기 스크레이프하는 동작은,

인터넷을 통해 직무 게시판 또는 법인 경력 사이트 중의 하나에 액세스하고;

상기 미리 결정된 품질 기준을 만족하지 않는 데이터 필드를 포함하는 임의의 스크레이프한 직무 정보 데이터 세트를 플래그하고;

상기 데이터베이스에 반송된 플래그된 직무 정보 데이터 세트의 수동 검토를 허용하는 것을 더 포함하고,

상기 카테고리화하는 동작은,

각각의 스크레이프한 직무 정보 데이터 세트의 데이터를 카테고리화 데이터베이스의 미리 카테고리화한 직무 정보 데이터 세트 데이터와 비교하고;

각각의 스크레이프한 직무 정보 데이터 세트에 대한 각각의 미리 결정된 직무 카테고리의 신뢰도 값을 결정하는 것을 더 포함하는 것인, 직무 정보 데이터 세트를 획득하고 취급하고 컴파일하는 방법.
제68항에 있어서,

미리 결정된 값보다 낮은 신뢰도 값을 가진 각각의 카테고리화된 스크레이프한 직무 정보 데이터 세트를 수동 검토를 위해 플래그하고;

검토자가 임의의 플래그된 카테고리화를 검증하도록 허용하는 수동 검토 모듈을 관리 포털에 제공하는 것을 더 포함하는, 직무 정보 데이터 세트를 획득하고 취급하고 컴파일하는 방법.
제68항에 있어서, 사용자의 질의에 응답하여, 선택된 카테고리화한 직무 정보 데이터 세트를 검색 뱅크로부터 웹 서버를 통하여 상기 사용자에게 전송하는 것을 더 포함하는, 직무 정보 데이터 세트를 획득하고 취급하고 컴파일하는 방법.
법인 경력 사이트 및 직무 게시판으로부터 직무 내용 설명서 데이터를 스크레이프(scrape)하기 위해 컴퓨터 프로세스를 실행시키는 명령의 컴퓨터 프로그램을 유형적으로(tangibly) 인코딩하는 컴퓨터 판독가능 매체에 있어서,

상기 컴퓨터 프로세스는,

인터넷을 통하여 이용가능한 사이트 상의 하나 이상의 리스팅으로부터 리스팅 정보 데이터를 스크레이프하고;

각각의 스크레이프한 리스팅 정보에 대응하는 스크레이프한 직무 정보 데이터 세트 - 상기 스크레이프한 직무 정보 데이터 세트 각각은 데이터 필드를 포함함 - 를 데이터베이스에 저장하고;

상기 데이터베이스에 저장된 각각의 스크레이프한 직무 정보 데이터 세트의 데이터 필드를 미리 결정된 품질 기준과 비교하고;

상기 스크레이프한 직무 정보 데이터 세트의 볼륨(volume)에 기초하여 상기 데이터베이스에 저장된 각각의 직무 정보 데이터 세트를 하나 이상의 미리 결정된 카테고리로 카테고리화하고, 상기 카테고리화한 직무 정보 데이터 세트를 상기 데이터베이스에 반송(return)하며;

상기 데이터베이스와 통신하며 상기 데이터베이스로부터의 카테고리화된 직무 정보 데이터 세트를 컴파일하여 직무 검색 뱅크로 전송하는 것

을 포함하는, 컴퓨터 판독가능 매체.
제71항에 있어서,

상기 프로세스는,

상기 미리 결정된 품질 기준을 만족하지 않는 데이터 필드를 포함하는 임의의 스크레이프한 직무 정보 데이터 세트를 플래그하고;

상기 데이터베이스에 반송된 플래그된 직무 정보 데이터 세트의 수동 검토를 허용하는 것을 더 포함하고,

상기 카테고리화하는 동작은,

각각의 스크레이프한 직무 정보 데이터 세트의 텍스트를 카테고리화 데이터베이스의 미리 카테고리화한 직무 정보 데이터 세트 텍스트와 비교하고;

각각의 스크레이프한 직무 정보 데이터 세트에 대한 각각의 미리 결정된 카테고리의 신뢰도 값을 결정하는 것을 더 포함하는 것인, 컴퓨터 판독가능 매체.
제60항에 있어서,

상기 데이터베이스에 저장된 각 직무 정보 데이터 세트를 하나 이상의 미리 결정된 직무 카테고리로 카테고리화하는 것은,

c' = arg max_cp(c/x) (여기서, x는 상기 직무 정보 데이터 세트의 특징 벡터이고, p(c/x)는 조건적 가능성임(conditional probability)) 로 표현되고, p(c/x)를 최대화하는 카테고리 c에 대한 c'값을 선택하는 것을 더 포함하는 것인, 직무 정보 데이터 세트를 획득하고 취급하고 컴파일하는 방법.
제73항에 있어서,

상기 데이터베이스에 저장된 각 직무 정보 데이터 세트를 하나 이상의 미리 결정된 직무 카테고리로 카테고리화하는 것은, 판별 함수(discriminant function) d(χ,c)를 계산하는 것을 더 포함하는 것인, 직무 정보 데이터 세트를 획득하고 취급하고 컴파일하는 방법.