KR101511656B1 - 퍼스널 아이덴티티를 기술하는 데이터에 대한 액셔너블 속성의 애스클라이빙 - Google Patents

퍼스널 아이덴티티를 기술하는 데이터에 대한 액셔너블 속성의 애스클라이빙 Download PDF

Info

Publication number
KR101511656B1
KR101511656B1 KR1020127029770A KR20127029770A KR101511656B1 KR 101511656 B1 KR101511656 B1 KR 101511656B1 KR 1020127029770 A KR1020127029770 A KR 1020127029770A KR 20127029770 A KR20127029770 A KR 20127029770A KR 101511656 B1 KR101511656 B1 KR 101511656B1
Authority
KR
South Korea
Prior art keywords
match
query
attribute
data
reference database
Prior art date
Application number
KR1020127029770A
Other languages
English (en)
Other versions
KR20130108503A (ko
Inventor
안토니 제이 스크리피냐노
마이클 클레인
Original Assignee
더 던 앤드 브래드스트리트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 더 던 앤드 브래드스트리트 코포레이션 filed Critical 더 던 앤드 브래드스트리트 코포레이션
Publication of KR20130108503A publication Critical patent/KR20130108503A/ko
Application granted granted Critical
Publication of KR101511656B1 publication Critical patent/KR101511656B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(a) 특정 개인(specific 개인)에 관한 데이터의 검색을 개시하기 위한 질문을 수신하는 단계; (b) 상기 질문에 기초하여, 참조 데이터베이스를 검색하기 위한 전략(strategy)을 결정하는 단계; (c) 상기 질문에 대한 매치를 위해, 상기 전략에 따라 상기 참조 데이터베이스를 검색하는 단계; 및 상기 매치를 출력하는 단계를 포함하는, 방법이 제공된다. 이 방법은 또한 매치된 엔티티가 최종-사용자의 품질 기반 기준을 충족시키는 정도를 결정하기 위해 최종-사용자에 의해 이용될 수 있는 매치-경험의 유추 품질을 반영하는 매치와 관련된 유연한 피드백을 출력할 수 있다. 또한 상기 방법을 수행하는 시스템 및 상기 방법을 수행하기 위해 프로세서를 제어하는 명령들을 포함하는 저장 매체가 제공된다.

Description

퍼스널 아이덴티티를 기술하는 데이터에 대한 액셔너블 속성의 애스클라이빙{ASCRIBING ACTIONABLE ATTRIBUTES TO DATA THAT DESCRIBES A PERSONAL IDENTITY}
본 발명은 데이터베이스 검색에 관한 것으로서, 특히, 예측 및 예측되지 않은 데이터 속성들 모두를 포함할 수 있는 퍼스널 아이덴티티와 관련된 주어진 질문과 가장 잘 매칭하는 데이터베이스 내의 레코드를 검색하고, 매칭-경험 및 결과를 설명하는 액셔너블 피드백과 함께 질문과 가장 잘 매치하는 레코드를 검색하는 것에 관한 것이다.
이 절(section)에 기술된 접근방법들은 추구될 수 있는 접근방법들이지만 반드시 이전에 생각되었거나 추구된 접근방식들은 아니다. 그러므로, 달리 나타내지 않는다면, 이 절에 기술된 접근방법들은 이 출원의 청구항들에 대한 종래 기술이 아닐 수 있고 이 절에 포함시키는 것에 의해 종래 기술인 것으로 인정되지 않는다.
효율적인 데이터베이스 액세스 및 검색 능력은 매칭 목적들을 위한 참조 데이터베이스에 유지되는 데이터의 효율적인 이용을 위해 중요하다. 이러한 목적에 필수적인 것은 매치 결과, 즉 매치 결과들을 효율적이고 유효한 방식으로 식별 및 선택하고 예를 들어 진행중인 유효 데이터 관리를 위한 매치 결과들의 사용에 관한 비지니스 결정들을 하는 데 사용될 수 있는 액셔너블 피드백을 제공하기 위해 질문의 부분으로서 예측되는 퍼스널 인디시아 및 이전에 알려진 인디시아를 포함하는 질문에 대한 매칭 참조 데이터의 결과의 효율적인 검색을 가능하게 하는 능력이다.
개인을 식별하는 데 특정인, 기존의 기술은 특정 및 유한 수의 데이터 필드들 예컨대 주어진 이름들, 성들(surnames), 물리적 및 이메일 주소들, 직위들, 및 별명들, 또는 개인과 관련된 정보를 포함하거나 포함하지 않을 수 있는 정의되지 않은 데이터 구성요소들의 세트를 고려한다. 이러한 기존의 기술은 일반적으로 문자를 위한 문자(character-for-character) 또는 수학적 휴리스틱(heuristic) 비교들에 기초하고, 이것은 특정 단어들을 스펠링하는 다수의 방법들과 같은 허용 가능한 정자법 변동들(orthographic variations) 및 하이픈 연결(hyphenation), 대문자 사용(capitalization), 분철-지점들(word-breaks), 구두법(punctuation), 알려진 약자들 및 동의어들의 사용을 고려한 후 다수의 문자들 매치 또는 다른 기본 상관관계 정보에 기초하여 정확도의 의견을 생성한다. 게다가, 기존의 기술은 질문 데이터의 특정 구조를 상정하고, 개인과 관련되고 매치 프로세스를 통해 사용될, 개인들의 데이터베이스로 유효화되고 합성되고 또는 종합된 높은 값의 예측 데이터 요소들 또는 다른 유도된 인디시아의 유한하지만 임시로 속박되지 않는 수집을 허용하지 않는다.
(a) 특정 개인(specific indivisual)에 관한 데이터의 검색을 개시하기 위한 질문을 수신하는 단계; (b) 상기 질문에 기초하여, 참조 데이터베이스를 검색하기 위한 전략(strategy)을 결정하는 단계; (c) 상기 질문에 대한 매치를 위해, 상기 전략에 따라 상기 참조 데이터베이스를 검색하는 단계; 및(d) 상기 매치를 출력하는 단계를 포함하는, 방법이 제공된다. 이 방법은 또한 매치된 엔티티가 최종-사용자의 품질 기반 기준을 충족시키는 정도를 결정하기 위해 최종-사용자에 의해 이용될 수 있는 매치-경험의 유추 품질을 반영하는 매치와 관련된 유연한 피드백을 출력할 수 있다. 또한 상기 방법을 수행하는 시스템 및 상기 방법을 수행하기 위해 프로세서를 제어하는 명령들을 포함하는 저장 매체가 제공된다.
질문은 예측 및 예측되지 않은 데이터 구성요소들 모두를 포함하는, 질문 인디시아를 인식 및 합성하기 위해, 후보를 평가 및 선택하기 위해 취급된다. 개인들에 관한 참조 데이터는 데이터베이스 상에 유지되고, 질문에 대한 매치들을 식별하기 위해 액세스되고, 평가되고 이용된다. 매치 결과 및 액셔너블 데이터는 매치 결과의 상대 강도를 기술하는 확신 표시기들 및 데이터에 대한 피드백을 표시하기 위한 속성들 및 매치를 전파하기 위해 사용되었던 대안의 인디시아를 포함해서 질문자 또는 질문 시스템에 제공된다.
도 1은 액셔너블 속성들을 퍼스널 아이덴티티 데이터로 애스클라이빙하는 방법의 기능 블록도.
도 2는 본 발명의 채용을 위한 시스템의 블록도.
인디시아(Indicia)는 개인의 아이덴티티에 관한 정보이다. 인디시아는 질문의 인식 가능한 속성들, 즉 개인의 이름, 주소, 및 생일과 같은 질문의 예측된 구성요소들이거나 또는 예컨대 개인을 유일하게 식별하기 위해 다른 데이터와 함께 사용될 수 있는 온라인 애플리케이션에서의 특정 데이터 엔트리 필드들 또는 파일 상의 컬럼 헤더들을 통한 메타데이터로서 질문에 특별히 정의되는 데이터 구성요소들을 포함한다. 인디시아는 또한 이전에 부딪히지 않는 속성들 및 데이터값들이 표현되거나 유추될 수 있는 대안의 방법들, 예컨대 대안의 이름들의 철자들(spelling)을 포함할 수 있다.
피드백은 질문과 매치 후보 사이의 매치 정도에서 확신 면에서 매치-경험의 추론된 품질을 반영하는 매치에 대한 정보, 매치-경험에서 사용되는 각각의 데이터 필드의 상대적 레이팅(comparative rating), 및 질문에 대한 매치에 사용된 데이터의 소스에 대한 표시(indication)이다. 피드백은 매치 엔티티가 최종-사용자의 품질-기반 기준을 충족시키는 정도를 결정하기 위해 최종-사용자에 의해 사용될 수 있고 서로 다른 액션들 및 그 피드백에 기초하여 관리 개입들(stewardship interventions)을 하기 위해 사용될 수 있다.
도 1은 액셔너블 속성들을 퍼스널 아이덴티티 데이터로 애스크라이빙하는 방법(100)의 기능 블록도이다. 요컨대, 방법(100)은 질문(103)을 수신하고, 질문(103)으로부터의 데이터를 참조 데이터베이스(110) 내의 데이터로 매치시키기 위해 공정들(115, 120, 125, 130, 135)을 실행하고, 따라서 결과(160)를 산출한다.
방법(100)은 처리 규칙들(104), 속성 테이블(105), 및 빈도 테이블(109)을 이용하고, 중간 단계들에서, 데이터(140), 속성들(145), 함수(150), 및 최선의 후보(155)를 생성한다.
각각의 공정들(115, 120, 125, 130, 135)은 본원에서 이들 각각의 일반 동작들에 관해 기재된다. 각각의 공정들(115, 120, 125, 130, 135)은 독립 공정들로서 종속 공정들의 계층(hierarchy)으로서 구성될 수 있다.
질문(103)은 특정 개인에 대한 정보 검색을 개시시키는 요청이다. 검색은 질문(103)에 포함된 인디시아에 기초하고, 그것과 관련하여, 질문(103)은 처리 규칙들(104) 및 속성 테이블(105)에 정의된 이전에 정의된 인식 가능한 속성들의 모두 또는 서브셋인 데이터 필드들의 면에서 개인에 관한 특정 정보도 포함하는 복수의 데이터 요소들을 포함하고, 또한 개인에 관한 추가 및 가상의 무제한 인디시아를 잠재적으로 포함할 수 있다. 질문(103)은 인간 사용자 또는 자동화 공정에 의해 방법(100)에 제공될 수 있다. 예를 들어, 질문(103)은 온라인 데이터 입력 스크린들(online data entry screens)을 이용하여 처리되는 개인 질문으로부터 또는 배치 머신 능력들(batch machine capabilities)을 이용하여 제시되는 파일들로부터 얻어질 수 있다. 질문(103)은 방법(100)이 데이터(140)로서 리포맷하고 방법(100)이 개인을 특유의 방법으로 식별하는 데 이용할 데이터를 포함한다. 데이터(140)는 예를 들어 이름, 주소, 생일, 사회 보장 번호(social security number)와 같은 데이터 및 다른 식별 형태들을 포함할 수 있다.
참조 데이터베이스(110)는 각 개인에 관한, 개인 및 전문가 정보, 즉 알려진 속성들의 최대 정도를 갖는 개인들에 대한 정보의 데이터베이스이다. 공정들(도시하지 않음)은 매칭 목적들을 위해 이용 가능한 참조 데이터베이스(110)에 존재하는 데이터를 수정(qualify)하기 위해 사용된다. 추가의 공정들(도시하지 않음)을 통해, 참조 데이터베이스(110)는 참조 데이터베이스(110)로 이미 표현되는 개인에 대한 더 많은 정보를 포함하고, 추가의 개인들에 대한 정보를 포함하도록 업데이트될 수 있다.
처리 규칙들(104)은 다양한 단어 조합들(이름/중간 이름/성/이름/중간 이름, 및 다양한 조정들 예컨대 이름 속성들의 모두 또는 서브셋을 포함하는 속성들의 다른 재순서화)과 같은 질문값들을 해석하기 위해 의미론(semantic) 및 수치 명확화 로직을 포함하는 표준화 및 정규화 공정들에 기초한 자동화 및 반복 가능한 비지니스 및 메타데이터 규칙들(이하 "규칙(rules)"이라고 함), 어드레싱(별도의 어드레스 또는 혼합 어드레스 성분들), 및 상이한 날짜 포맷들을 포함한다. 메타데이터 규칙들은 각각의 데이터 요소에 대한 정보, 예컨대 (a) 알파벳, 즉 알파벳의 문자들, 숫자, 또는 알파벳숫자인지, 즉 알파벳 및 숫자 중 하나 또는 둘다인지, (b) 허용 가능한 크기, 및 (c) 포매팅을 정의한다. 비지니스 처리 규칙들은 하나 이상의 데이터 요소들의 값에 기초하여 발생하는 활동들, 예컨대 후속 동작 전에 충족되어야 하는 조건 또는 계산이 수행될 수 있는 조건을 정의한다.
처리 규칙들(104)에서의 표준화 공정들의 예는 "스트리트(street)"와 같은 일반 및 일관된 값으로 "Strt" 및 "St."와 같은 거리명들의 상이한 버전들을 대체하는 것을 포함한다. 처리 규칙들(104)에서의 정규화 공정들의 예는 매칭을 도모하기 위해 일관된 용어로서, "mnf"로 "매뉴팩처링(manufacturing)" 및 "mnfctring"과 같은 공통 단어들 또는 약어들을 치환하는 것을 포함한다. 의미론 및 명확화 로직의 예는 거리 주소를 거리 번호 및 거리명을 위한 별도의 필드들로 분리하는 것을 포함한다.
속성 테이블(105)은 개인을 식별할 수 있는 데이터와 관련될 수 있는, 인식 가능한 속성들, 즉, 데이터 필드들의 테이블이다. 속성 테이블(105)은 또한 인식 가능한 속성들의 특징들을 정의하는 메타데이터를 포함한다. 메타데이터는 데이터에 대한 정보이다. 즉, 그것은 데이터의 특징들을 기술한다. 예를 들어, 속성 테이블(105)은 "퍼스트 네임(first name)"의 속성을 나열할 수 있고, 퍼스트 네임이 알파벳 문자들의 스트링이어야 하는 것을 나타내는 퍼스트 네임에 대한 메타데이터를 포함할 수 있다. 속성 테이블(105)은 또한 예측 가중부여 및 다른 정보가 정의될 수 있는, 이전에 인식되지 않는 속성들을 포함하도록 데이터(140)로부터의 데이터로 업데이트될 수 있다. 속성 테이블(105) 내의 값들은 모니터링될 것이고 업데이트들이 참조 데이터베이스(110)에 대해 이루어지면 조정될 것이다.
빈도 테이블(109)은 특정 속성들에 대한 특정 값들을 가지는 참조 데이터베이스(110)에 있는 레코드들의 번호들을 나타낸다. 즉, 빈도 테이블(109)은 참조 데이터베이스(110)에서의 특정 데이터값의 발생 빈도(F)를 식별하기 위해 참조 데이터베이스(110)로부터 발생된다. 예를 들어, 참조 데이터베이스(110)는 퍼스트 네임으로서 "Jon"의 5,647 발생을, 라스트 네임으로서 "Smythe"의 893 발생을, 퍼스트/라스트 네임 조합으로서 "Jon Smythe"의 197 발생을 가질 수 있다. 따라서, 빈도 테이블(109)은 (a) 퍼스트 네임 "Jon"이 5,647의 빈도를 가지며, (b) 라스트 네임 "Smythe"이 893의 빈도를 가지며, (c) 퍼스트/라스트 네임 조합이 "Jon Smythe" = 197의 빈도를 가지는 것을 표시할 수 있다. 빈도 테이블(109)은 레코드들이 참조 데이터베이스(110)에서 업데이트된 때 업데이트된다.
방법(100)은 공정(115)으로 시작한다.
공정(115)은 질문(103)을 수신하고 질문(103)으로부터의 인디시아를 공통 포맷, 즉 데이터(140)로 구조화한다. 이하의 테이블 1은 데이터(140)의 전형적인 표현을 나타낸다. 테이블 1에 있어서, 데이터(140)는 이름, 주소, 시, 주, 우편 번호, 및 전화 번호와 같은 예상 질문값들의 전형적인 공통 포맷으로 제공되는, 데이터 요소들의 전형적인 세트로 나타내어 진다.
데이터(140)의 전형적인 표현
활동 데이터(140)의 전형적인 표현
공정(115)은 질문(103)을 수신하였고, 질문은 별도의 데이터 요소들로서 표현되는 인디시아 또는 개인에 관한 특정 정보를 제공하는 데이터 필드들을 포함했고 데이터(140)를 생성했다. Jon Smythe, 대표
350 6번가 수이트 7712
맨하탄, NY 10118
(917)555-5555
01271960
123-456-7890
jsmith@abc.com
www.abcllc.com
공정(115)으로부터, 방법(100)은 공정(120)으로 진행한다.
공정(120)은 이들 데이터 필드들을 단수로 또는 복수로 이용하여 참조 데이터베이스(110)로부터 매치들을 식별하는 기회를 높이기 위해 속성 테이블(105)의 속성들과 관련된 특정 데이터 필드들을 식별하기 위해 데이터(140)를 분석한다. 이와 관련하여, 공정(120)은 데이터(140)로부터 매치에 대한 검색과 관련된 속성들을 추출하고, 따라서 속성들(145)을 생성한다.
공정(120)은 데이터(140)로 표현된 입력된 질문 데이터값들의 모든 구성요소들을 클린징(cleanse), 파싱(parse) 및 표준화하기 위해 처리 규칙들(104)에 따라 동작한다.
클린징은 구두법과 같은 관련없는 값들 및 다른 형태의 가치없는 문자들, 예를 들어 전화번호의 대시들(dashes) 또는 날짜의 구성요소들을 분리하는 슬래시들(slashes)을 제거하는 것을 포함한다. 예를 들어, 01/27/60으로서 포매팅된 날자값을 클린징하는 것은 값 012760을 발생할 수 있다.
파싱(Parsing)은 질문(103)에 대한 매치들을 식별하기 위한 기회를 증가시키기 위해 데이터(140)를 분할하는 것을 포함한다. 이것은 개인 질문 인디시아를 다수의 데이터 요소들로 파싱하는 것, 예를 들어 포맷 MMDDYY으로 되어 있는 012760의 생년월일을 월(MM(01)), 일(DD(27)), 및 년(YY(60))을 포함하는 별개의 요소들로 분할하는 것을 포함할 수 있다. 파싱은 또한 별개의 요소들, 예를 들어, 퍼스트 네임(John), 보조 이름 또는 이니셜(Q), 및 라스트 네임(Public)을 하나의 요소, 예컨대, 이름(JohnQPublic)으로 합병하는 것을 포함할 수 있다.
표준화(Standardizing)는 매치들을 식별하는 기회를 증가시키기 위해 데이터(140)로 대안의 값들을 관련짓는 것(associating)을 포함한다. 이것은 주 이름(New Jersey; N Jersey; New Jrsy)을 표현하는 일련의 질문값들에 대해 2문자값(NJ)을 관련짓는 것을 포함할 수 있다.
공정(120)은 또한 공정(120)의 미래 실행 중 사용하기 위한 처리 규칙들(104)에서 저장될 새로운 규칙들을 발생하기 위해, 이전에 만나지 않았던 데이터(140)로부터 정보를 분석 및 유지(retain)하기 위해 처리 규칙들(104)을 사용한다. 새로운 규칙들은 기존의 규칙들과의 유사성들에 기초하여 자동적으로 정의될 수 있다. 따라서, 데이터(140)에 포함되지만 속성 테이블(105)에 정의되지 않은 인디시아, 즉, 추가의 인디시아는 공정들(120, 125)에 의한 후속 사용을 위해 유지될 것이고 잠재적으로 참조 데이터베이스(110)로부터 식별된 공정 후보들로 공정들(130, 135)에 의해 사용될 것이다. 방법(100)은 속성 테이블(105)에 존재할 수 있는 속성들을 개발(populate) 및 정의하기 위해 이들 추가의 인디시아를 유지하고 처리 규칙들(104)에 존재할 수 있는 관련 규칙들을 개발하는 자동화 능력을 포함한다.
따라서, 공정(120)은 데이터(140)를 분석하고, 만약 공정(120)이 몇몇 특별한 데이터에 대한 처리 규칙들(104)에서 규칙의 부재를 인식하면, 그 특별한 데이터는 처리 규칙들(104) 상에 저장되고 분석을 위해 태깅된다(tagged). 예를 들어, 만약 질문(103)이 이메일 주소를 포함하고, 이메일 주소가 이전에 인식되지 않은 값이고 이와 같은 것으로 처리 규칙들(104)에서의 대응 규칙을 가지지 않으면, 처리 규칙들(104)은 인식될 속성으로 될 수 있는 새로운 인디시아로서 이메일을 유지하기 위해 업데이팅 공정(도시하지 않음)에 의해 업데이팅될 수 있다.
이하, 테이블 2는 처리 규칙들(104)의 전형적인 표현을 나타내고, 테이블 3은 속성들(145)의 전형적인 표현을 나타낸다. 처리 규칙들(104)의 예들은 (i) 데이터(140) 이름 필드를 별개의 퍼스트 및 라스트 네임 필드들로 나누고, (ii) 데이터(140) 주소 필드를 별개의 거리 번호 및 거리 이름 필드들로 나누고, 및 (iii) 데이터(140) 생년월일 필드를 별개의 월, 일, 및 년 필드들로 나누는 것을 포함한다. 유연한 인디시아는 질문의 부분인 것으로 예측된 데이터로서 이전에 식별되지 않았지만 미래의 매치-경험들을 위한 처리 규칙들(104)에 의해 유지되어야 하는 데이터(140)로부터의 데이터를 포함한다. 이것은 템플레이트들(templates) 및 프리폼 데이터(freeform data)에 기초하여 분류될 수 있는 양(both) 데이터를 포함한다.
처리 규칙들(104)의 전형적인 표현
규칙 전형적인 결과
메타데이터 규칙(예들)
이름: 완전 질문 이름을 별개의 퍼스트 및 라스트 이름값들로 파싱하고, 관계없는 값을 제거 퍼스트 네임: Jon
라스트 네임: Smythe
어드레스: 모든 질문 어드레스값들을 별개의 값들로 파싱하고, "시(city)"에 대한 값을 표준화하고, 우편 번호를 클린징 거리 주소 번호: 350
거리 주소 이름: 식스 애비뉴
대안의 거리 주소 이름: 6번
(처리 규칙들(104) 내에서 대안의 로직에 기초하여 결정됨)
거리2: 수이트 7712
대안의 주소2: 7층(처리 규칙들(104) 내에서의 대안의 로직에 기초하여 결정됨)
시: 뉴욕(시가 아닌 "맨하탄"으로 대체)
주: NY
우편 번호: 10118(관계없는 날짜로서 취해진 "A"를 제거)
비지니스 규칙들(예)
생년월일(DOB): 완전 생년월일값을 별개의 일, 월, 년값으로 파싱하고, 처리를 위해 표준화 DOB/MM: 01
DOB/DD: 27
DOB/YY: 60
유연한 인디시아
포맷에 기초하여 값들을 취함 이메일:jsmith@abc.com

처리 규칙들(145)의 전형적인 표현
속성
인식가능한 속성들
퍼스트 네임 Jon
라스트 네임 Smythe
거리 주소 번호 350
거리 주소 이름 6번가
주소2 수이트 7712
뉴욕
NY
우편 번호 10118
전화 (917)555-5555
DOB/MM 01
DOB/DD 27
DOB/YY 60
모바일 전화 번호 1234567890
유연한 인디시아
이메일 jsmith@abc.com
직위 대표
회사 URL(Uniform Resource Locator) www.abcllc.com
삭제
예를 들어, 테이블 2에 따르면, 처리 규칙들(104)은 이름이 별개의 퍼스트 및 라스트 네임 값들로 파싱되는 것을 나타낸다. 따라서, "Jon Smythe"는 파싱되어 퍼스트 네임 "Jon" 및 라스트 네임 "Smythe"을 낳고 테이블 3에 나타낸 것과 같이 저장된다.
방법(100)은 공정(120)으로부터 공정(125)으로 진행한다.
공정(125)은 속성들(145)을 더 특징화하고, 함수(150)를 전개하기 위해 속성 테이블(105)과 인터페이싱한다. 속성들(145) 내의 각각의 속성에 대해, 공정(125)은 개인을 식별함에 있어서 속성의 영향의 상대값에 기초하여 가중치를 할당하고, 따라서 가중된 속성을 생성하고, 여기서 가중치는 데이터(140)에 대한 매치를 발견함에 있어서 속성의 유용성을 나타낸다. 예를 들어, 이러한 결정은 정적 가중부여를 제공하는 속성 테이블(105)에 의해 정의된 가중부여, - 예컨대, 이름은 주소보다 높은 가중치를 가지며 - 및 속성 테이블(105)에 의해 정의된 것과 같은 다른 존재하는 필드들에 대한 가중부여, - 예컨대, 고용 개시일은 생년월일보다 큰 적어도 18년일 때 더 많을 값을 가지며 - 및 속성 테이블(105)에 정의된 것과 같은 필드의 실제 데이터 값에 기초한 가중부여, - 예컨대 특이한 이름 예컨대 에라스무스(Erasmus)는 더 일반적인 이름 예컨대 존(Joh)보다 더 큰 가중치를 가지며 - 를 포함할 수 있다. 이러한 분석은 또한 두문자어들 및 대안의 철자들(예를 들어, 퍼스트 네임으로서의 Jon 및 Jonathan)과 같은 속성들(145)에서의 데이터 필드들에 대한 대안의 값들을 고려한다. 속성에 의한 정적 가중부여에 더하여, 속성 테이블(105)은 다른 속성들에 대한 데이터의 부재 또는 존재 및 유추된 예측성(predictiveness)에 기초하여 조정된 가중부여들을 할당한다. 예를 들어, 퍼스트 네임의 가중치는 만약 라스트 네임에 대한 데이터가 없다면 작은 값을 가지며, 거리 번호와 이름의 조합은 2개의 필드들보다 더 큰 가중치를 따로따로 가진다.
공정(125)은 검색 참조 데이터베이스(110)에 대한 최적 전략을 결정하고, 여기서 f(x)로서 표현된 함수(150)에서의 그 전략을 표현한다. 특히, 공정(125)은 속성 테이블(105)로부터 가중치(W)를 얻고 빈도 테이블(109)로부터 빈도(F)를 얻고, 예측 가중부여(K)를 계산하고, 여기서 각 속성(x)에 대해 K=W x F, 따라서, K(x)를 생성하고, 여기서 K(x)는 속성 x의 예측 가중부여이다. 함수(150)는 속성들의 상이한 조합들, 예를 들어 라스트 네임 및 DOB 또는 퍼스트/라스트 네임 및 DOB에 기초하여 f(x)의 다수의 값들을 계산할 수 있고, 계산 결과들은 최적 검색 전략을 결정하기 위해 공정(125)에 의해 이용된다. 함수(150)는 다음과 같은 일반 포맷을 가진다:
f(x) = K1<fieldl>+K2<field2>+K3<field3>+...+KN<fieldN>,
여기서 K는 속성들(145)의 각각의 성분에 대해 계산된다.
이하, 테이블 4는 속성 테이블(105)의 전형적인 표현을 나타내고, 테이블 5는 빈도 테이블(109)의 전형적인 표현을 나타낸다.
속성 테이블(105)의 전형적인 표현
속성 메타데이터 가중치(W)
인식 가능한 속성들:
퍼스트 네임 알파벳 0.25
라스트 네임 알파벳 0.5
거리 주소 번호 영문숫자 0.4
거리 주소 이름 알파벳 0.8
주소2 영문숫자 0.25
알파벳 0.9
알파벳 0.9
우편 번호 영문숫자 0.75
전화 숫자 0.5
DOB/MM 숫자 0.3
DOB/DD 숫자 0.2
DOB/YY 숫자 0.5
모바일 전화 번호 숫자 1
유연한 인디시아
이메일 영문숫자 1
직위: 영문숫자 0.2
회사 URL 영문숫자 0.7
속성들의 조합들
퍼스트/라스트 네임 알파벳 0.9
DOB/MMDDYY 숫자 0.7
테이블 4의 예에 있어서, 속성 테이블(105)은 속성 "퍼스트 네임", 퍼스트 네임이 알파벳 문자들의 스트링이어야 하는 것을 특정하는 메타데이터, 및 퍼스트 네임에 대해, 가중치(W) = 0.25인 것을 포함한다. 가중치(W)의 값들은 참조 데이터베이스(110)로부터의 매치를 식별하는 데이터(140)로 표현되는 질문(103)에서의 속성들의 상대적 영향을 표시한다. 테이블 4에 제공된 예에서, 속성이 W=l의 값을 가질 경우, 그 속성은 1보다 작은 W의 값을 갖는 속성보다 매치의 더 양호한 예측자(predictor)인 것으로 고려된다. 예를 들어, 만약 질문(103)이 유일한 것으로 고려될 수 있는 값을 갖는 속성인, 개인 모바일 전화 번호를 포함하면, 개인 모바일 전화 번호는 더 일반적인 값을 가지는 경향이 있는 라스트 네임보다 매치-경험에 대한 더 많은 영향을 줄 수 있다.
빈도 테이블(109)의 전형적인 표현
속성 빈도(F)
퍼스트 네임 = Jon 5,647
라스트 네임 = Smythe 893
퍼스트/라스트 네임 = Jon Smythe 197
.
.
.
.
.
.
DOB = 012760 211
모바일 전화 번호 = 1234567890 1
공정(125)에 있어서, 예측 가중부여의 결정은 속성들 전체에 걸친 관계를 고려하고, 이와 같은 관계에 기초하여 수정된 가중치를 계산할 수 있다. 예를 들어, 퍼스트 네임 및 라스트 네임은 이들 자신의 예측 가중부여들을 가질 수 있지만, 그 퍼스트 및 라스트 네임의 조합은 참조 데이터베이스(110)에서 적절한 매치를 식별함에 있어서 더 많이 자동완성(predictive) 또는 더 적게 자동완성될 수 있다. 예를 들어, "Erasmus Hoffert"보다 빈도 테이블(109)에 정의된 것과 같은 참조 데이터베이스(110)에서의 "Jon Smith"의 조합된 퍼스트 및 라스트 네임값의 더 빈번한 발생들일 수 있다. 조합된 퍼스트 네임/라스트 네임값은 더 많은 예측 가중부여 또는 더 적은 예측 가중부여를 표시하기 위해, 빈도 테이블(109)에 정의된 것과 같은, 빈도(F)를 가질 수 있다.
위에 기재한 것과 같이, 각각의 속성(x)에 대해, 공정(125)은 속성 테이블(105)로부터 가중치(W)를 얻고, 빈도 테이블(109)로부터 빈도(F)를 얻고, 예측 가중부여(K)를 계산하고, 여기서 K=W x F이다. 다수의 예측 가중부여 값들은 속성들의 상이한 조합들에 기초하여 계산될 수 있다. 예를 들어, f(x)의 하나의 계산을 위해 테이블 4 및 테이블 5에 있는 전형적인 데이터를 이용하는 것은:
퍼스트 네임에 대해 = Jon, Kl = 0.25 x 5,647 = 1411.75
라스트 네임에 대해 = Smythe, K2 = 0.5 x 893 = 446.5
따라서, f(x), 즉, 퍼스트 및 라스트 네임에 대해, 함수(150)는:
f(x) = 1411.75 <퍼스트 네임 "Jon"> + 446.5 <라스트 네임 "Smythe>
f(x)의 제 2 계산을 위해 테이블 4 및 테이블 5에 있는 전형적인 데이터를 이용하는 것은:
퍼스트/라스트 네임에 대해 = Jon Smyth, Kl = 0.9 x 197 = 177.3
DOB/MMDDYY에 대해 = 012760, K2 = 0.7 x 211 = 147.7
따라서, f(x), 즉, 퍼스트/라스트 네임에 대해 및 DOB/MMDDYY에 대해, 함수(150)는:
f(x) = 177.3 <퍼스트/라스트 네임 "Jon Smythe"> + 147.7 < DOB/MMDDYY "012760">
일반적으로, 주어진 속성에 대해, 가중치(W)는 만약 속성이 매치의 양호한 예측자이면 더 크지만, 더 큰 빈도(F)는 속성이 매치의 양호한 예측자가 아니라는 것을 제시한다. "John"과 같은 일반적인 퍼스트 네임을 가지지만 "1234567890"와 같은 유일한 모바일 전화 번호, 따라서, 빈도 테이블(109)에서, 퍼스트 네임 "John"에 대해, (F) = 10,000 및 모바일 전화 번호 "1234567890"에 대해, (F) = 1을 가지는 개인을 검색하는 예를 고려하자. 예측 가중부여(K)는 - 여기서 테이블 4에 기초한 이들 속성들에 대해 K=W x F - K<퍼스트 네임 "John"> = 0.25 x 10,000 = 2500, 및 K<모바일 전화 번호 "1234567890"> = 1 x 1 = 1이다. 따라서, f(x)에서, 퍼스트 네임 "John"은 모바일 전화 번호 "1234567890"보다 더 큰 예측 가중부여를 가지는 것으로 보인다. 그러나, 실행될 실제 로직에 기초하여, 하(lower) f(x)는 고(higher) f(x)보다 더 예측될 수 있다.
비록 본 예에 있어서 함수(150)는 곱들의 합(summation of products)으로서 표현되지만, 함수(150)는 반드시 합 또는 산술식(arithmetic equation)일 필요는 없다. 일반적으로, 함수(150)는 가중 부여된 속성들의 리스팅(listing)이고, 여기서 특별한 속성 또는 속성들의 조합의 가중치는 예측성, 그러므로 참조 데이터베이스(110)의 레코드에 대한 적절한 매치를 식별하는 데 그 속성 또는 속성들의 조합들의 중요성을 나타낸다.
방법(100)은 공정(125)으로부터 공정(130)으로 진행한다.
공정(130)은 함수(150), 즉 공정(125)에 따라 결정된 전략에 따라 참조 데이터베이스(110)를 검색하고, 최선의 후보(155)를 생성한다. 더 구체적으로, 공정(130)은 함수(150)에 따라 참조 데이터베이스(110)로부터 레코드들을 검색한다. 이후 공정(130)은 이들 레코드들로부터의 속성들을 데이터(140)와 비교하고, 비교에 기초하여 참조 데이터베이스(110)로부터 데이터(140)에 대해 가능성 있는 매치들인 후보들의 세트를 선택한다. 그 후, 공정(130)은 최선의 매치 후보, 즉, 최선의 후보(155)를 궁극적으로 결정하기 위해 참조 데이터베이스(110)에서 검색된 레코드들로부터의 각각 속성의 값을 데이터(140)로부터의 동일한 속성의 값과 비교하여 후보들의 세트를 평가한다.
이하의 테이블 6은 참조 데이터베이스(110)로부터의 후보들의 세트의 전형적인 표현을 나타낸다.
참조 데이터베이스(110)로부터의 후보들의 전형적인 세트
레코드 번호 필드

1









퍼스트 네임 Jonthan
라스트 네임 Smith
거리 주소 번호 350
거리 주소 이름 6번가
주소2 (없음)
뉴욕
NY
우편 번호 10118
전화 (없음)
DOB/MM (없음)
DOB/DD (없음)
DOB/YY 50
모바일 전화 번호 1234567890

2









퍼스트 네임 John
라스트 네임 Smarth
거리 주소 번호 340
거리 주소 이름 5번가
주소2 7층
뉴욕
10118
우편 번호 (917)555-5000
전화 (없음)
DOB/MM (없음)
DOB/DD (없음)
DOB/YY (없음)
모바일 전화 번호 (없음)

최선의 후보(155)는 후보들의 세트를 가려내기 위해 공정(130) 내의 기술들에 기인하는, 데이터(140)와 최고의 유사성을 가지는 후보들의 세트로부터의 레코드이다. 이와 같은 기술들은 참조 데이터베이스(110)가 존재한 데이터의 소스 및 그 데이터에 관한 품질-관련 유추들을 고려하는 것을 포함한다(만약 몇몇 소스들이 다른 소스들보다 더 현재 및 높은 품질(more current and higher-quality)인 것으로 간주된다면).
삭제
삭제
예를 들어, 테이블 6의 레코드 1에 대해, 공정(130)은 데이터(140)("Smythe") 및 참조 데이터베이스(110)("Smith")로부터의 속성 "라스트 네임"에 대한 데이터 값들을 비교하고, 고도의 유사성을 결정하고, 데이터(140) 내의 "6번가(Sixth Ave)" 및 참조 데이터베이스(110) 내의 "6번가(6th Ave)"인 속성 "거리 주소 이름(street address name)"에 대한 데이터 값들을 비교한다. 테이블 6의 레코드 2에 대해, 공정(130)은 데이터(140)("Smythe") 및 참조 데이터베이스(110)("Smarth")로부터의 속성 "라스트 네임(last name)"에 대한 데이터 값들을 비교하고 더 낮은 유사도를 결정하고, 속성 "거리 주소 이름(street address name)"에 대해, 공정(130)은 데이터(140) 내의 "6번가(Sixth Ave)"와 참조 데이터베이스(110) 내의 "5번가(5th Ave)" 사이의 유사성 레벨 없음을 결정한다.
이하의 테이블 7은 최선의 후보(155)의 전형적인 표현을 나타낸다.
최선의 후보(155)의 전형적인 표현
속성
퍼스트 네임 Jonathan
라스트 네임 Smith
거리 주소 번호 350
거리 주소 이름 6번가
주소2 (없음)
뉴욕
NY
우편 번호 10118
전화 (없음)
DOB/MM (없음)
DOB/DD (없음)
DOB/YY 50
모바일 전화 번호 1234567890


방법(100)은 공정(130)으로부터 공정(135)으로 진행한다.
삭제
공정(135)은 최선의 후보(155A) 및 피드백(165)을 포함하는 결과(160)를 출력한다. 최선의 후보(155A)는 최선의 후보(155)의 카피(copy)이다. 피드백(165)은 액셔너블인 데이터(140)와 최선의 후보(155A) 사이의 유사도에 관한 정보이다. 즉 그것은 비지니스 결정을 하기 위해 최종-사용자에 의해 사용될 수 있다.
피드백(165)에는 최선의 후보(155A)의 품질, 예컨대 최선의 후보(155A)가 질문(103)에 대한 적절한 매치라는 신뢰도를 나타내기 위해 결과(160)가 포함된다. 피드백(165)은 또한 데이터(140) 내의 각각의 필드와 최선의 후보(155A)의 각각의 성분 간의 상대적 상관관계에 의해 표현되는 상대 유사도를 포함할 수 있다. 이러한 피드백은 3개의 구성요소들: (1) 데이터(140)와 참조 데이터베이스(110) 내의 후보들 간의 유사성의 상대 확신도를 나타내는 확신 코드, (2) 데이터(140)의 속성들과 참조 데이터베이스(110) 내의 후보들 간의 유사도를 표시하는 매치 등급 스트링(Match Grade String), (3) 매치-경험에 사용되었던 참조 데이터베이스(110)에 있는 데이터의 유형을 표시하는 매치 데이터 프로파일로 표현된다. 이들 피드백 구성요소들은 매칭된 엔티티가 최종-사용자의 품질-기반 기준을 충족시키는 정도에 기초하여 매치-경험에 관한 상업적 결정들을 하기 위해 최종-사용자로 하여금 퍼스널 아이덴티티 매치들을 사용 및 소비시키기 위해 그리고 진행중인 관리 개입들을 위해 비지니스 규칙들을 정의하기 위해 최종-사용자에 의해 사용될 수 있다. 이들 피드백 구조들은 유연하고, 입사를 미러링하고 질문(103)에서 유연한 인디시아의 시작(inception)일 수 있다. 추가의 능력들이 매칭되지 않을 수 있는 질문들에 대한 데이터를 브라우징하고 리뷰하기 위해 사용자에 제공될 수 있다.
이하의 테이블 8은 피드백(165)의 전형적인 표현을 나타낸다.
피드백(165)의 전형적인 표현
확신 코드: 8

매치 등급 스트링:
퍼스트 네임: A
라스트 네임: A
거리 주소 번호: B
거리 주소 이름: A
주소2: Z
시: A
우편 번호: B
주: A
전화: Z
DOB: F
모바일 전화 번호: A
매치 데이터 프로파일:
퍼스트 네임: 03
라스트 네임: 03
거리 주소 번호: 00
거리 주소 이름: 00
주소2: 99
시: 00
우편 번호: 00
주: 00
전화: 98
DOB: 98
모바일 전화 번호: 00
매치 등급 스트링 피드백은 다음과 같은 코딩 구조를 이용하여 정의될 수 있다: "A"는 참조 데이터베이스(110)로부터의 매치 후보에 대한 데이터가 데이터(140)(예컨대, Jon 및 John) 내의 데이터와 동일인 것으로 고려되어야 한다는 것을 의미하고; "B"는 데이터(140)와 참조 데이터베이스(110)(예컨대, Jon 및 Jhonny)로부터의 레코드 사이의 약간의 유사성이 있다는 것을 의미하고; "F"는 참조 데이터베이스(110) 내의 매치 후보에 대한 데이터가 데이터(140)(예컨대, Jon 및 Jim) 내의 데이터와 동일한 것으로 고려되어야 한다는 것을 의미하고; "Z"는 데이터(140) 또는 특정 데이터 필드에 대한 참조 데이터베이스(110) 내의 데이터 필드에 대한 값이 없다는 것을 의미한다.
매치 데이터 프로파일 피드백은 참조 데이터베이스(110)로부터의 레코드를 데이터(140)와 매치시키기 위해 공정(130)에 의해 사용되었던 참조 데이터베이스(110) 내의 데이터의 유형을 나타내고, 코딩 구조, 예컨대 주 비지니스 이름 또는 주소를 의미하는 "00", CEO(Chief Executive Officer) 또는 전자의 이름들 또는 주소들과 같은 대안의 값들을 의미하는 "03", 공정(130)에 의해 사용되지 않았던 데이터(140)로부터의 속성을 표시하는 "98", 또는 데이터(140)에 존재하지 않았던 속성을 표시하는 "99"를 이용하여 정의될 수 있다.
따라서, 요컨대, 방법(100)은 1) 특정 개인에 대한 검색을 개시시키기 위해 질문을 수신하는 것, 2) 질문을 클린징, 파싱 및 표준화하기 위한 공정들을 포함하는 다른 질문 데이터 필드들과 결합하여 그리고 개별적으로 각각의 질문 데이터 필드의 사용을 최대화하기 위해 질문을 처리하는 것, 및 3) 단일 또는 복수의 클린징, 파싱 및 표준화된 질문값들에 기초하여 참조 데이터베이스를 검색하기 위해 최적 방법들을 결정하는 것, 4) 질문을 매치하는 참조 데이터베이스 엔티티들을 선택하기 위한 후보 검색, 및 5) 최선의 후보를 복귀시키고 액셔너블 속성들을 갖는 매치 결과들을 포함하는 피드백을 제공하는 것을 포함한다.
방법(100)은, 1) 복수의 요소들을 포함하는 입력 데이터를 수신하고, 2) 복수의 요소들의 서브셋을 용어들의 세트(set of terms)로 변환하고, 3) 최종-사용자에 의해 제공될 수 있는 질문의 부분 및 대안의 데이터로서 예상되는 양 데이터를 포함하는 최종-사용자 질문에 기초하여 유연한 인디시아를 이용하여 매치 후보를 식별하는 능력의 예측성을 유추하고, 4) 입력 데이터에 대한 매치를 위한 가장 가능성 있는 후보들을 식별하기 위해 용어들에 기초하여 저장된 참조 데이터를 검색하고, 5) 유추된 예측성에 기초하여 복수의 매치 후보들로부터 최선의 매치를 선택하고, 6) 최종-사용자로 하여금 매치 후보의 사용에 관한 비지니스 판정들을 허용하게 하는, 각각의 초기화 질문 및 결과 후보의 유일한 양상들에 의해 결정된, 액셔너블 속성들을 갖는 매치 결과들을 제공하는 단계들을 포함한다.
방법(100)은 질문과 매치 후보들 간의 유사도의 의견을 형성하는 데 사용될 수 있는 유한하지만 임시로 속박되지 않은 인디시아의 세트를 이용하여 개인들을 식별하기 위한 기능을 포함한다. 방법(100)은, 1) 사업체들보다 더 우세한, 상이한 분리된 개인들과 관련된 개인 이름들의 공통점, 2) 개인 및 사업체 또는 하나 이상의 개인 또는 사업체와 관련될 수 있는 추가의 인디시아가 없는 특정 이름, 3) 종종 다수의 주소들 및 물리적 위치들 또는 다른 인디시아에 관련된 개인들을 포함하는, 개인을 유일하게 식별함에 있어서 특정의 고유 문제들을 다룬다. 식별 및 매치 속성들의 유연하고 가변인 세트를 개인으로 확대함으로써, 이들 과제들(challenges)이 해결될 수 있다. 이 기술의 유연성은 양 메타데이터 및 실제 데이터 값들을 포함하고, 1) 개인들과 관련된 정보를 갖는 데이터베이스를 점유하고, 2) 주어진 목적들을 위한 허용 임계치를 통제하는 규칙들 및 질문에 기초한 데이터베이스로부터 개인을 선택하는 것 모두에 사용될 수 있다.
방법(100)에 있어서, 인디시아의 세트는 X1, X2, ...Xn이 매칭을 위해 사용될 속성들(예컨대, 퍼스트 네임, 세컨드 네임, 서네임, 알려진 어드레스 요소들, 다른 설명 정보)을 나타내도록 먼저 정의된다. 이러한 인디시아의 세트는 크기에 대한 제한 없이 확장 가능하고, 모든 참조 데이터는 매칭, 선택, 및 평가 공정에 사용될 수 있다. 참조 데이터는 X의 모든 예측값들 및 식들 및 예측 알고리즘들에 기초한 추가의 유추 또는 유도된 데이터를 포함하도록 가능한 한 많은 데이터의 세트를 포함하도록 구성된다.
각각의 매치 반복에 대해, 질문 세트가 S, 세트 X의 서브셋을 결정하기 위해 얻어진다. 매치 시 또는 다른 소정의 예측 구간에서 더 많은 세트 X에서 결정된 상관 계수들의 세트에 기초하여, 매칭이 수행되고 피드백이 (1) 질문 세트에 사용 중, X 및 관측된 서브셋 S에서의 상관 계수들에 의해 수정될 때 매치가 얼마나 강한지를 기술하는 확신 구간, (2) S의 상대 요소들 및 이들 특별한 요소들의 매치 품질을 나타내는 매치 등급 스트링, 및 (3) 매치 품질에 관한 의견, 즉 최선의 후보가 질문에 대한 적절한 매치라는 신뢰도에 관한 의견을 형성하는 데 이용된 참조 데이터를 나타낸 매치 프로파일 스트링으로서 복귀된다. 양 매치 등급 스트링 및 매치 프로파일 스트링은 매치 공정에 사용되는 데이터 구성요소들에 의해 결정되는, 길이 및 포맷이 유연할 수 있다.
도 2는 본 발명의 채용을 위한 시스템(200)의 블록도이다. 시스템(200)은 데이터 통신 네트워크, 즉 인터넷과 같은 네트워크(220)에 연결된 컴퓨터(205)를 구비한다.
컴퓨터(205)는 사용자 인터페이스(210), 프로세서(215), 및 메모리(225)를 구비한다. 비록 컴퓨터(205)가 여기서는 독립형 장치로서 표현되지만, 그것은 이와 같은 것에 제한되지 않고, 대신 분산형 처리 시스템에서 다른 장치들(도시하지 않음)에 연결될 수 있다.
사용자 인터페이스(210)는 사용자로 하여금 정보 및 명령 선택들을 프로세서(215)에 통신하게 하기 위해, 키보드 또는 음성 인식 서브시스템과 같은 입력 장치를 구비한다. 사용자 인터페이스(210)는 또한 디스플레이 또는 인쇄기와 같은 출력 장치를 구비한다. 커서 제어장치, 예컨대 마우스, 트랙-볼(track-ball), 조이 스틱, 또는 디스플레이 상에 위치된 접촉 감응형 재료는 사용자로 하여금 프로세서(215)로 추가의 정보 및 명령 선택들을 통신하기 위해 디스플레이 위에서 커서를 조종할 수 있게 허용한다.
프로세서(215)는 명령들에 응답하고 실행하는 논리 회로로 구성된 전자 장치이다.
메모리(225)는 컴퓨터 프로그램으로 인코딩되는 임시가 아닌(non-transitory) 컴퓨터-판독 가능 매체이다. 이와 관련하여, 메모리(225)는 프로세서(215)의 동작을 제어하기 위해 프로세서(215)에 의해 판독 가능하고 실행 가능한 데이터 및 명령들을 저장한다. 메모리(225)는 임의 접근 메모리(RAM), 하드 드라이브(hard drive), 판독 전용 메모리(ROM), 또는 이들의 조합으로 구현될 수 있다. 메모리(225)의 구성요소들 중 하나는 프로그램 모듈(230)이다.
프로그램 모듈(230)은 본원에 기술된 방법들을 실행하기 위해 프로세서(215)를 제어하기 위한 명령들을 포함한다. 예를 들어, 프로그램 모듈(230)의 제어 하에서, 프로세서(215)는 방법(100)의 공정들을 실행한다. 용어 "모듈(module)"은 본원에서 독립형 구성요소로서 또는 복수의 종속 구성요소들의 통합 구성으로서 구현될 수 있는 기능 동작을 나타내기 위해 사용된다. 따라서, 프로그램 모듈(230)은 단일 모듈로서 또는 서로 협력하여 동작하는 복수의 모듈들로서 구현될 수 있다. 더욱이, 비록 프로그램 모듈(230)이 본원에서 메모리(225)에 설치되는 것으로 그러므로 소프트웨어로 구현되는 것으로 기술되지만, 그것은 하드웨어(예컨대, 전자 회로), 팜웨어, 소프트웨어 중 어느 하나, 또는 이들의 조합으로 구현될 수 있다.
프로세서(215)는 네트워크(220) 또는 사용자 인터페이스(210)를 통해 질문(103)을 수신하고, 처리 규칙들(104), 속성 테이블(105) 및 참조 데이터베이스(110)를 액세스한다. 처리 규칙들(104), 속성 테이블(105), 및 참조 데이터베이스(110)는 예를 들어 메모리(225) 내에 저장되는, 컴퓨터(205)의 구성요소들일 수 있고, 또는 컴퓨터(205) 외부의 장치들에 위치될 수 있고, 여기서 컴퓨터(205)는 이들을 네트워크(220)를 통해 액세스한다. 프로세서(215)는 결과(160)를 사용자 인터페이스(210) 또는 원격 장치(도시하지 않음)에 네트워크(220)를 통해 출력한다.
프로그램 모듈(230)은 메모리(225)에 이미 로딩된 것으로 나타내었지만, 그것은 메모리(225)로의 후속 로딩을 위해 저장 매체(235) 위에 구성될 수 있다. 저장 매체(235)는 또한 컴퓨터 프로그램으로 인코딩되는 임시가 아닌 컴퓨터-판독 가능 매체이고, 유형으로 그 위에 프로그램 모듈(225)을 저장하는 종래의 저장 매체일 수 있다. 저장 매체(235)의 예들은 플로피 디스크, 컴팩트 디스크, 자기 테이프, 판독 전용 메모리, 광학 저장 매체, USB(universal serial bus) 플래쉬 드라이브, 디지털 버서타일 디스크(digital versatile disc), 또는 짚 드라이브(zip drive)를 구비한다. 저장 매체(235)는 원격 저장 시스템 위에 위치되고 네트워크(220)를 통해 컴퓨터(205)에 연결되는 임의 접근 메모리 또는 다른 유형의 전자 스토리지일 수 있다.
본원에 기재된 기술들은 예시이고, 본 개시내용에 어떤 특별한 제한을 부여하는 것으로 해석되지 않아야 한다. 다양한 변경들, 조합들 및 수정들이 이 기술분야에서 숙련된 사람에게 생각될 수 있다는 것이 이해되어야 한다. 예를 들어, 본원에 기재된 공정들과 관련된 단계들은 달리 단계들 자체로 특정되거나 설명(dictated)되지 않는다면, 임의의 순서로 수행될 수 있다. 본 개시내용은 첨부된 청구항들의 범위 내에 속하는 모든 이와 같은 대안들, 수정들 및 변형들을 포함하도록 의도된다.
용어들 "포함하다(comprises)" 또는 "포함하는(comprising)"은 언급된 특징들, 완전체들(integers), 단계들 또는 구성요소들의 존재를 특정하지만 하나 이상의 다른 특징들, 완전체들, 단계들 또는 구성요소들 또는 이들의 그룹들의 존재를 불가능하게 하지 않는 것으로 해석되는 것이다.
103 질문 104 처리 규칙들
105 속성 테이블 109 빈도 테이블
110 참조 데이터베이스 115 질문 수신
120 질문 분석 125 특유의 예측 함수 확립
130 최선의 후보 검색 135 피득백으로 최선의 후보 복귀
140 데이터 145 속성들
150 함수 155 최선의 후보
160 결과 155A 최선의 후보
165 피드백
210 사용자 인터페이스 215 프로세서
225 메모리 230 프로그램 모듈
220 네트워크 235 저장 매체

Claims (15)

  1. (a) 특정 개인(specific indivisual)에 관한 데이터의 검색을 개시하기 위한 질문을 수신하는 단계;
    (b) 상기 질문으로부터 참조 데이터 베이스의 검색과 관련된 속성을 추출하고, 상기 질문은 상기 속성에 대한 질문값을 포함하는 단계;
    (c) 상기 참조 데이터 베이스에서 상기 질문에 대한 매치를 발견함에 있어서 상기 속성의 유용성(usefulness)을 나타내는 가중치를 상기 속성에 할당하는 단계;
    (d) 상기 속성에 대한 질문값을 가지는 상기 참조 데이터베이스에서 다수의 레코드들의 함수로서 상기 가중치를 수정하여 가중치가 가중된 속성을 산출하는 단계;
    (e) 상기 가중된 속성에 기초하여 함수(function)를 확립하는 단계;
    (f) 상기 질문에 대한 매치를 위한 상기 참조 데이터 베이스를 검색하는 단계; 및
    (g) 상기 매치를 출력하는 단계;를 포함하고,
    상기 검색하는 단계는:
    상기 참조 데이터베이스로부터, 상기 함수에 기초하여, 상기 질문에 가능성 있는 매치를 나타내는 속성값들을 가지는 후보들을 검색하는 단계;
    상기 후보들로부터 최선의 후보를 결정하는 단계; 및
    상기 최선의 후보를 상기 매치로서 복귀시키는 단계;를 포함하는, 방법.
  2. 삭제
  3. 삭제
  4. 제 1 항에 있어서,
    상기 매치가 상기 질문에 대한 적절한 매치인 것을 신뢰도의 표시자로서 출력하는 단계를 더 포함하는, 방법.
  5. 제 4 항에 있어서,
    상기 표시자는 참조 데이터가 상기 신뢰도에 관한 의견을 형성하기 위해 사용된 것을 표시하는, 방법.
  6. 프로세서; 및
    상기 프로세서에 의해 판독될 때, 상기 프로세서로 하여금,
    (a) 특정 개인에 관한 데이터의 검색을 개시하기 위한 질문을 수신하고;
    (b) 상기 질문으로부터, 참조 데이터 베이스의 검색과 관련된 속성을 추출하고, 상기 질문은 상기 속성에 대한 질문값을 포함하고;
    (c) 상기 참조 데이터 베이스에서 상기 질문에 대한 매치를 발견함에 있어서 상기 속성의 유용성을 나타내는 가중치를 상기 속성에 할당하고;
    (d) 상기 속성에 대한 질문값을 가지는 상기 참조 데이터베이스에서 다수의 레코드들의 함수로서 상기 가중치를 수정하게 하여, 가중된 속성을 산출하고,
    (e) 상기 가중된 속성에 기초하여 함수를 확립하고,
    (f) 상기 질문에 대한 매치를 위한 상기 참조 데이터 베이스를 검색하고,
    (g) 상기 매치를 출력하게 하는 명령들을 포함하는 메모리;를 포함하고,
    상기 참조 데이터베이스를 검색하기 위해, 상기 명령들은 상기 프로세서로 하여금:
    상기 참조 데이터베이스로부터, 상기 함수에 기초하여, 상기 질문에 가능성 있는 매치를 나타내는 속성값들을 가지는 후보들을 검색하고;
    상기 후보들로부터 최선의 후보를 결정하고; 및
    상기 최선의 후보를 상기 매치로서 복귀하는, 시스템.
  7. 삭제
  8. 삭제
  9. 제 6 항에 있어서,
    상기 명령들은 또한 상기 프로세서로 하여금 상기 매치가 상기 질문에 대한 적절한 매치인 것을 신뢰도의 표시자로서 출력하게 하게 하는, 시스템.
  10. 제 9 항에 있어서,
    상기 표시자는 참조 데이터가 상기 신뢰도에 관한 의견을 형성하기 위해 사용된 것을 표시하는, 시스템.
  11. 프로세서에 의해 판독될 때, 상기 프로세서로 하여금,
    (a) 특정 개인에 관한 데이터의 검색을 개시하기 위한 질문을 수신하고;
    (b) 상기 질문으로부터, 참조 데이터 베이스의 검색과 관련된 속성을 추출하고, 상기 질문은 상기 속성에 대한 질문값을 포함하고;
    (c) 상기 참조 데이터 베이스에서 상기 질문에 대한 매치를 발견함에 있어서 상기 속성의 유용성을 나타내는 가중치를 상기 속성에 할당하여,
    (d) 상기 속성에 대한 상기 질문값을 가지는 상기 참조 데이터베이스에서 다수의 레코드들의 함수로서 상기 가중치를 수정하게 하여, 가중된 속성을 산출하고;
    (e) 상기 가중된 속성에 기초하여 함수를 확립하게 하고;
    (f) 상기 질문에 대한 매치를 위해 상기 참조 데이터 베이스를 검색하고;
    (g) 상기 매치를 출력하게 하는 명령들을 포함하고,
    상기 참조 데이터베이스를 검색하기 위해, 상기 명령들은 상기 프로세서로 하여금:
    상기 참조 데이터베이스로부터, 상기 함수에 기초하여, 상기 질문에 가능성 있는 매치를 나타내는 속성값들을 가지는 후보들을 검색하고;
    상기 후보들로부터 최선의 후보를 결정하고; 및
    상기 최선의 후보를 상기 매치로서 복귀하게 하는, 저장 매체.
  12. 삭제
  13. 삭제
  14. 제 11 항에 있어서,
    상기 명령들은 또한 상기 프로세서로 하여금 상기 매치가 상기 질문에 대한 적절한 매치인 것을 신뢰도의 표시자로서 출력하게 하게 하는, 저장 매체.
  15. 제 14 항에 있어서,
    상기 표시자는 참조 데이터가 상기 신뢰도에 관한 의견을 형성하기 위해 사용된 것을 표시하는, 저장 매체.
KR1020127029770A 2010-04-14 2011-04-14 퍼스널 아이덴티티를 기술하는 데이터에 대한 액셔너블 속성의 애스클라이빙 KR101511656B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US32408610P 2010-04-14 2010-04-14
US61/324,086 2010-04-14
PCT/US2011/032517 WO2011130526A1 (en) 2010-04-14 2011-04-14 Ascribing actionable attributes to data that describes a personal identity

Publications (2)

Publication Number Publication Date
KR20130108503A KR20130108503A (ko) 2013-10-04
KR101511656B1 true KR101511656B1 (ko) 2015-04-22

Family

ID=44789013

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127029770A KR101511656B1 (ko) 2010-04-14 2011-04-14 퍼스널 아이덴티티를 기술하는 데이터에 대한 액셔너블 속성의 애스클라이빙

Country Status (12)

Country Link
US (2) US8438183B2 (ko)
EP (1) EP2558988A4 (ko)
JP (1) JP5587493B2 (ko)
KR (1) KR101511656B1 (ko)
CN (2) CN106383836B (ko)
AU (1) AU2011239618B2 (ko)
BR (1) BR112012026345A2 (ko)
CA (1) CA2796061C (ko)
HK (1) HK1183348A1 (ko)
MX (1) MX2012011923A (ko)
RU (1) RU2547213C2 (ko)
WO (1) WO2011130526A1 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9026552B2 (en) * 2010-01-18 2015-05-05 Salesforce.Com, Inc. System and method for linking contact records to company locations
CN102542000A (zh) * 2011-12-07 2012-07-04 北京风灵创景科技有限公司 一种联系人检索的方法及其设备
US8943060B2 (en) * 2012-02-28 2015-01-27 CQuotient, Inc. Systems, methods and apparatus for identifying links among interactional digital data
US11593326B2 (en) * 2012-10-08 2023-02-28 GiantChair, Inc. Method and system for managing metadata
CN103970758A (zh) * 2013-01-29 2014-08-06 鸿富锦精密工业(深圳)有限公司 数据库访问系统及方法
US10956381B2 (en) * 2014-11-14 2021-03-23 Adp, Llc Data migration system
US10497044B2 (en) 2015-10-19 2019-12-03 Demandware Inc. Scalable systems and methods for generating and serving recommendations
JP6664201B2 (ja) * 2015-11-26 2020-03-13 株式会社パスコ 突合処理装置及び突合処理方法並びに突合処理プログラム
CN106408316A (zh) * 2016-11-23 2017-02-15 泰康保险集团股份有限公司 用于识别客户的方法及装置
KR20200037842A (ko) * 2017-08-10 2020-04-09 더 던 앤드 브래드스트리트 코포레이션 피드백 및 판정을 위한 시맨틱 귀속들의 동적 합성 및 과도 클러스터링을 위한 시스템 및 방법
US11030205B2 (en) * 2017-12-13 2021-06-08 Microsoft Technology Licensing, Llc Contextual data transformation of image content
CN108399259A (zh) * 2018-03-09 2018-08-14 深圳市汗青文化传媒有限公司 一种数据处理方法及系统
CN112699097B (zh) * 2020-12-31 2024-03-08 北京浩瀚深度信息技术股份有限公司 一种多元策略镜像实现方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060015498A1 (en) 2004-08-13 2006-01-19 Edgar Sarmiento Search engine
US20070005686A1 (en) 2003-10-14 2007-01-04 Fish Edmund J Search enhancement system having ranked general search parameters

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1052578A3 (en) * 1999-05-10 2002-04-17 Matsushita Electric Industrial Co., Ltd. Contents extraction system and method
US7363308B2 (en) * 2000-12-28 2008-04-22 Fair Isaac Corporation System and method for obtaining keyword descriptions of records from a large database
JP2002207764A (ja) * 2001-01-09 2002-07-26 Kentop:Kk 商品情報配信システム
US6859803B2 (en) * 2001-11-13 2005-02-22 Koninklijke Philips Electronics N.V. Apparatus and method for program selection utilizing exclusive and inclusive metadata searches
US7333966B2 (en) * 2001-12-21 2008-02-19 Thomson Global Resources Systems, methods, and software for hyperlinking names
JP3988554B2 (ja) * 2002-07-12 2007-10-10 コニカミノルタホールディングス株式会社 画像照会用情報構築方法および画像照会方法
US7386554B2 (en) * 2002-09-03 2008-06-10 Infoglide Software Corporation Remote scoring and aggregating similarity search engine for use with relational databases
RU2236699C1 (ru) * 2003-02-25 2004-09-20 Открытое акционерное общество "Телепортал. Ру" Способ поиска и выборки информации с повышенной релевантностью
JP2005018689A (ja) * 2003-06-30 2005-01-20 Web Intelligence Lab:Kk データマイニング方法
US7693827B2 (en) * 2003-09-30 2010-04-06 Google Inc. Personalization of placed content ordering in search results
EP1815354A4 (en) * 2004-07-28 2013-01-30 Ims Software Services Ltd METHOD FOR BINDING PATIENTS WITH IDENTITY IDENTIFIED USING DEMOGRAPHIC INFORMATION AND HEALTH CARE, FIGURE AND NUMBERS, FROM MULTIPLE DATA SOURCES
WO2006015169A2 (en) * 2004-07-30 2006-02-09 Dictaphone Corporation A system and method for report level confidence
US20060036659A1 (en) * 2004-08-12 2006-02-16 Colin Capriati Method of retrieving information using combined context based searching and content merging
US8108386B2 (en) * 2004-09-07 2012-01-31 Stuart Robert O More efficient search algorithm (MESA) using alpha omega search strategy
US8892571B2 (en) * 2004-10-12 2014-11-18 International Business Machines Corporation Systems for associating records in healthcare database with individuals
US8364670B2 (en) * 2004-12-28 2013-01-29 Dt Labs, Llc System, method and apparatus for electronically searching for an item
US7895223B2 (en) * 2005-11-29 2011-02-22 Cisco Technology, Inc. Generating search results based on determined relationships between data objects and user connections to identified destinations
JP2007206976A (ja) * 2006-02-01 2007-08-16 Alpine Electronics Inc 情報処理装置
WO2007143157A2 (en) 2006-06-02 2007-12-13 Initiate Systems, Inc. Automatic weight generation for probabilistic matching
US8510298B2 (en) * 2006-08-04 2013-08-13 Thefind, Inc. Method for relevancy ranking of products in online shopping
US20080109875A1 (en) 2006-08-08 2008-05-08 Harold Kraft Identity information services, methods, devices, and systems background
CN100507915C (zh) * 2006-11-09 2009-07-01 华为技术有限公司 网络搜索方法、网络搜索设备和用户终端
US20080217400A1 (en) * 2007-03-06 2008-09-11 Portano Michael D System for preventing fraudulent purchases and identity theft
US20080228699A1 (en) * 2007-03-16 2008-09-18 Expanse Networks, Inc. Creation of Attribute Combination Databases
US7860852B2 (en) * 2007-03-27 2010-12-28 Brunner Josie C Systems and apparatuses for seamless integration of user, contextual, and socially aware search utilizing layered approach
US8005842B1 (en) * 2007-05-18 2011-08-23 Google Inc. Inferring attributes from search queries
US8086620B2 (en) * 2007-09-12 2011-12-27 Ebay Inc. Inference of query relationships
US20090164454A1 (en) * 2007-12-21 2009-06-25 Sanguinetti Thomas V System and method for searching venues based on similarity values
US8312022B2 (en) * 2008-03-21 2012-11-13 Ramp Holdings, Inc. Search engine optimization
US8266168B2 (en) * 2008-04-24 2012-09-11 Lexisnexis Risk & Information Analytics Group Inc. Database systems and methods for linking records and entity representations with sufficiently high confidence
US20090271374A1 (en) * 2008-04-29 2009-10-29 Microsoft Corporation Social network powered query refinement and recommendations
US8645391B1 (en) * 2008-07-03 2014-02-04 Google Inc. Attribute-value extraction from structured documents
JP5116593B2 (ja) * 2008-07-25 2013-01-09 インターナショナル・ビジネス・マシーンズ・コーポレーション 公開された検索エンジンを用いた検索装置、検索方法及び検索プログラム
JP5384060B2 (ja) * 2008-09-12 2014-01-08 株式会社東京証券取引所 内部者照合装置及び内部者照合方法ならびにそのプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070005686A1 (en) 2003-10-14 2007-01-04 Fish Edmund J Search enhancement system having ranked general search parameters
US20060015498A1 (en) 2004-08-13 2006-01-19 Edgar Sarmiento Search engine

Also Published As

Publication number Publication date
RU2547213C2 (ru) 2015-04-10
BR112012026345A2 (pt) 2020-08-25
CN102971729B (zh) 2016-09-28
US8438183B2 (en) 2013-05-07
AU2011239618B2 (en) 2014-08-28
US20130204900A1 (en) 2013-08-08
HK1183348A1 (zh) 2013-12-20
WO2011130526A1 (en) 2011-10-20
CA2796061A1 (en) 2011-10-20
EP2558988A4 (en) 2016-12-21
RU2012148248A (ru) 2014-05-20
EP2558988A1 (en) 2013-02-20
CN106383836A (zh) 2017-02-08
US9442991B2 (en) 2016-09-13
CN102971729A (zh) 2013-03-13
CA2796061C (en) 2016-11-08
JP5587493B2 (ja) 2014-09-10
CN106383836B (zh) 2019-12-27
KR20130108503A (ko) 2013-10-04
AU2011239618A1 (en) 2012-11-01
MX2012011923A (es) 2013-03-20
US20110258232A1 (en) 2011-10-20
JP2013524387A (ja) 2013-06-17

Similar Documents

Publication Publication Date Title
KR101511656B1 (ko) 퍼스널 아이덴티티를 기술하는 데이터에 대한 액셔너블 속성의 애스클라이빙
KR101276602B1 (ko) 표의문자적 내용을 가지는 데이터를 서치하고 매칭하기위한 시스템 및 방법
US8495151B2 (en) Methods and systems for determining email addresses
US9104979B2 (en) Entity recognition using probabilities for out-of-collection data
KR101339103B1 (ko) 의미적 자질을 이용한 문서 분류 시스템 및 그 방법
US20080147642A1 (en) System for discovering data artifacts in an on-line data object
US20080147578A1 (en) System for prioritizing search results retrieved in response to a computerized search query
US11574287B2 (en) Automatic document classification
US9552415B2 (en) Category classification processing device and method
KR20160149050A (ko) 텍스트 마이닝을 활용한 순수 기업 선정 장치 및 방법
Branting A comparative evaluation of name-matching algorithms
JP7409484B2 (ja) リスク評価装置、リスク評価方法およびプログラム
JP2013502012A (ja) 人的資本労働雇用の地位/職務を製品化するためのシステムおよび方法
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
Branting Name-Matching Algorithms for Legal Case-Management Systems', Refereed article
Al Sarkhi Building a data washing machine for unsupervised entity resolution of unstandardized references sources
JP2009217406A (ja) 文書検索装置及び方法、並びに、プログラム
KR101303363B1 (ko) 데이터 처리 시스템 및 방법
KR100952077B1 (ko) 키워드를 이용한 표제어 선정 장치 및 방법
US20240135086A1 (en) System and method for identity data similarity analysis
KR20230100462A (ko) 다국가 임상데이터 표준화 방법 및 장치
JP2010066975A (ja) 文検索装置,文検索プログラム,文検索方法

Legal Events

Date Code Title Description
N231 Notification of change of applicant
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180328

Year of fee payment: 4