KR20090014136A - 표의문자적 내용을 가지는 데이터를 서치하고 매칭하기위한 시스템 및 방법 - Google Patents

표의문자적 내용을 가지는 데이터를 서치하고 매칭하기위한 시스템 및 방법

Info

Publication number
KR20090014136A
KR20090014136A KR1020087015288A KR20087015288A KR20090014136A KR 20090014136 A KR20090014136 A KR 20090014136A KR 1020087015288 A KR1020087015288 A KR 1020087015288A KR 20087015288 A KR20087015288 A KR 20087015288A KR 20090014136 A KR20090014136 A KR 20090014136A
Authority
KR
South Korea
Prior art keywords
match
data
elements
candidates
segments
Prior art date
Application number
KR1020087015288A
Other languages
English (en)
Other versions
KR101276602B1 (ko
Inventor
안토니 스크리피그나노
케빈 네드
페이 사오
간 심 펭
사라 루
Original Assignee
던 & 브래드스트리트, 아이엔씨.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 던 & 브래드스트리트, 아이엔씨. filed Critical 던 & 브래드스트리트, 아이엔씨.
Publication of KR20090014136A publication Critical patent/KR20090014136A/ko
Application granted granted Critical
Publication of KR101276602B1 publication Critical patent/KR101276602B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Hardware Redundancy (AREA)
  • Circuits Of Receivers In General (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)

Abstract

비표음적 또는 표의문자적 입력 데이터를 서치하여 저장된 데이터에 매칭시키는 방법은, 복수 개의 요소들을 가지는 서치 문자열을 포함하는 입력 데이터를 수신하는 단계와, 요소들의 서브세트를 용어들의 세트로 변환하는 단계와, 상기 용어들의 세트로부터 최적화된 복수 개의 키들을 생성하는 단계와, 매치를 위해 가장 가능성 있는 후보자들에 대응하는 최적화된 키들에 기초하여 저장된 데이터를 검색하는 단계와, 그리고 복수 개의 후보자들로부터 최고의 매치를 선택하는 단계를 포함한다. 표의문자적 요소들의 적어도 몇몇은 표의문자적 쓰기 시스템의 일부를 형성한다. 상기 방법은 상기 서치 문자열을 복수 개의 중첩하는 서브 세그먼트들로 분리하고, 상기 표의문자적 쓰기 시스템에서 어떠한 의미론적 의미를 갖지 않는 서브 세그먼트들 뿐 아니라 추론된 의미론적 의미를 갖는 서브 세그먼트들을 식별하는 단계와, 상기 최적화된 키들을 생성하기 위해 다양한 서브 세그먼트들을 이용하는 단계를, 또한 포함한다.

Description

표의문자적 내용을 가지는 데이터를 서치하고 매칭하기 위한 시스템 및 방법{SYSTEM AND METHOD FOR SEARCHING AND MATCHING DATA HAVING IDEOGRAMMATIC CONTENT}
본 개시는, 데이터를 서치하고 매칭하는 것에 관한 것으로, 특히, 비표음적(non-phonetic), 의미론적(semantic), 또는 표의문자적(ideogrammatic) 내용을 포함하는 데이터를 서치하고 매칭하는 것에 관한 것이다.
효율적인 데이터 베이스 접근성과 서치 능력들은, 데이터 베이스들에서의 데이터의 효과적인 활용에 있어서 중요하다. 이 목적에 중요한 것은, 기준 모집단(reference universe)에 저장된 각 데이터 요소를 통해 서치할 필요 없이, 매치를 찾기 위해 동작하는 수단에 의해 구해진 정확한 데이터의 효율적인 검색(retrieval)을 가능하게 하는 능력이다.
서치 및 매칭 시스템들이 알려져 있으며, 다양한 사용을 위해 데이터 베이스로부터 관련 정보를 검색하는 유용한 방법들을 제공한다. 예를 들어, 신용 산업에서, 신용을 위해 고려되고 있는 주어진 사업 실체에 대한 신용 이력 정보는, 전형적으로, 상업적으로 이용가능한 데이터 베이스를 통해 처리된다. 사용자는 사업 실체의 이름을 데이터 베이스에 연결된 처리기로 입력할 수 있으며, 이후, 처리기는 데이터 베이스에서 그 주어진 실체의 위치를 찾으며, 그것의 신용 이력 정보를 검색한다. 다른 예들은, 사용자가 고객 또는 공급자의 공통적인 견해를 얻기 위해 이종의 소스들(disparate sources) 사이로부터 정보를 취합하고자 할 수 있는 응용들을 포함한다.
입력 데이터를 서치하고 저장된 데이터와 매칭하기 위한 예시적인 방법 및 시스템은, 여기서 참조에 의해 완전히 통합된, 미국 특허출원 공개번호 2004/0220918 A1으로서 공개된, 미국 특허출원 10/702,114에 개시된다. 기본적인 접근은, 도 1에 도시된, 3개의 순서적으로 수행된 처리들을 포함한다:
1. 정화, 분석, 및 표준화(Cleansing, Parsing, and Standardization). 이 처리는, a)문의 데이터의 키 성분들의 식별; b)이름, 주소, 및 도시 데이터의 표준화(normalization); 및 c)주소 데이터의 표준화(standardization)를 포함한다..
2. 후보자 검색. 이것은, a)문의 중 제공된 데이터에 기초하여 키들을 선택하는 것, b)검색 품질 및 속도를 개선하기 위해 키들을 최적화하는 것, 및 c)기준 데이터 베이스로부터 가장 가능성 있는 매치 후보자들을 모집하는 것을 포함한다.
3. 평가 및 결정. 이 단계는, 일관되고 재생가능한 매치 품질 피드백을 활용하여 일관적인 표준에 따라 매치들을 평가하는 것을 수반함으로써, 그렇지 않다면 주관적인 결정들을, 개별적인 속성 결정을 반영하기 위한 매치등급 패턴들과, 다른 이득들 중에서 유사한 품질의 그룹들로의 결과들의 전체 계층화에 대한 신뢰 코드, 와 같은, 객관적인 기준으로 변경한다. 이 처리들은 자동결정을 가능하게 한다.
선행하는 아시아 매치 피드백 정보는, 매치 문의 결과들이 A, B, 또는 C로 분류되는 계층들로 제한되었다. 피드백의 이 수준은, A 또는 B 수준 매치들 내의 결과들 사이를 식별할 수 있는 능력 없이, 개별적인 수준에서, 이상적인 것보다 낮은데, 각 카테고리 내의 매치들의 수, 특히, B 카테고리에서의 그들은, 상당할 것이며, 원어민에 의한 수동적인 중재 없이 그들 사이를 식별할 방법은 없기 때문이다.
A, B, 및 C 매치들을 분석하는 것이 가능하지만, 그것이 매우 수동 집약적인 처리여서, 매치들을 검증하기 위한 인간 상호작용을 요구한다는 점에서 비용이 든다.
매칭된 카테고리들은 다음과 같이 설명되었다. "A" 매치들은, 매치의 높은 우도(likelihood)를 나타내지만, 위조 또는 거짓 매치들에 이르는 매치들을 포함할 수 있다. "B" 매치는, 가능성 있는 매치를 나타내지만, 분석하기 위한 수동적인 연구를 요구할 수 있다. "C" 매치는, 문의 데이터에서의 결함으로 인한 가능성 있는 미스매치를 나타낸다.
위에서 언급한 환경에서의 자동결정과 관련한 논쟁점은, 정교성(granularity)의 부족에 있다. 매치들의 품질에 대한 추가적인 피드백이 부재하여, 사용자는 최고의 매치들을 선택하기 위해 많은 "B" 매치들 중 선택할 방법이 없다. 심지어 A 매치들 간에도, 각 매치를 수동적으로 검토할 신뢰 부족을 개선할 능력이 없다.
선행기술의 매칭 시스템의 도표가 도 2에 도시되어 있다.
현재의 시스템에서, 매칭의 상이한 수준들을 가지는 문의 결과들 사이를 더 식별하기 위해, 높은 수준 매치 피드백이 더 정교하게 이루어지며, 대응하는 신뢰코드로 맵핑된다. 목표 신뢰코드들(confidence codes: CC)dms, 바람직하게는, 범위의 보수적인 엔드(conservative end)에서 선택된다. 후속적인 조정이 이 맵핑의 분포를 향상시킨다. 이 맵핑의 예는 도 3에 도시되어 있다.
7 또는 그 이상의 신뢰코드에서, 시장의 많은 고객들은, 시스템을, 인간 개재 없이 이 매치들을 수락할 수 있는 능력으로 인해 자동 결정하도록 설정할 것이다. 모든 신뢰코드 7 매치들이 완벽한 매치는 아니므로, 자동결정 임계값을 주의 깊게 고려하는 것이 바람직하다. 반대로, 7보다 낮은 신뢰코드들이 이용된다면, 많은 양호한 매치들이 무시될 것이다. 따라서, 7은, 특히, 일본어와 같은 복잡한 언어들에서의 매치들에 대해서는, 품질 임계값의 보수적인 엔드이다.
5와 7 사이의 신뢰는, 특히, 입력 데이터가 빈약한 경우에, 여전히 이용가능한 "양호한" 매치들이 있다는 것을 나타낸다. 이 신뢰코드 범위를 가지는 결과들은, 일본 문자들의 예에서, 모국어의 원래의 복잡성 및 이용된 다중 쓰기 시스템으로 인해, 확인하기 위해 주의 깊은 조사를 요구하기도 한다. 또한 몇몇 거짓 매치들이 복제로 인해 존재하기도 한다.
4의 신뢰코드는, 대게, 많은 처리들이 심지어 표시하는 것을 고려하는 가장 낮은 신뢰코드이다. 이 매치들은, 정확한 매치일 가능성이 거의 없으며, 일반적으로, 문의 데이터가 매우 빈약한 것이 아니거나 또는 다른 완화 조건들이 인용될 수 없는 한, 사용되지 않는다.
그러나, 위의 예들이 보여주듯이, 사업의 식별 및 연락처 정보와 같은 데이터의 세트가, "7 또는 그 이상"의 신뢰코드 매치로 고려될 정도로 충분히 근접하게 매치된다 하더라도, 그것이 매칭된 데이터가 완전히 정확하다는 것을 의미하지 않는다. 마찬가지로, 5 내지 6 신뢰코드 매치들이 모두 같은 수준의 매칭을 가지는 것은 아니다. 정확성은, 유일한 사업 응용에 대하여 가장 잘 설명된 용어이다.
매치등급 패턴들은 개별적인 속성 매칭의 상이한 수준들을 보여준다. 매치등급 결과들에서의 "A" 부호는, 고객정보 및 매칭된 기록 사이의 그 데이터 속성에 있어서의 높은 신뢰 매치를 나타낸다. "B"는, 유사성을 나타내지만, "A"에 의해 나타낸 유사성의 수준까지는 아니다. "F" 부호는, 고객 데이터와 매칭된 기록 양자가 주어진 속성에 대한 상이한 데이터를 가진다는 것을 나타낸다. "Z"는, 고객정보 및/또는 데이터 베이스 기록 중 어느 하나도 주어진 필드에 대한 어떠한 정보도 포함하지 않는다는 것을 나타낸다. 평가들은 문자 대 문자 비교뿐 아니라, 의미론적 의미, 어조, 어휘소 변형, 및 다른 요소들에 기초한다. 또한, 이 할당들은, 정교성을 높이고 자동결정을 가능하게 하기 위해, 전체적으로 문의 수준에서가 아니라, 개별적인 속성 수준에 대해서 이루어진다.
신뢰코드는, 이후, 결과들의 계층화를 허용하기 위해 각 상이한 매치 등급 문자열에 할당될 수 있다. 위에 설명된 성분 처리들의 각각은, 도 4에 도시된 바와같이, 기능적 영역들로 더 분류된다.
향상된 피드백을 이용하여, 사용자는, "5-6" 신뢰코드 매치들을 하위구분하여, 예를 들어, 완전한 이름 및 도시로 그들을 허용하고, 정확한 현(prefecture)(지방자치제 또는 지방)이지만 없는 도시로 그들에 대한 룩업을 주문하고, 이름에 대한 낮은 수준의 매치로는 그들을 무시하는 사업 규칙들을 가능하게 할 수 있다. 결과적으로, 피드백은 자동화된 결정을 가능하게 한다.
처리가, 영어, 프랑스어, 및 그리스어와 같은 표음 문자들을 포함하는 쓰기 시스템들에 의해 제공된 구별에 의지할 수 없는 경우, 데이터 베이스에서의 매칭에 대하여 추가적인 도전들이 취해진다. 중국어 및 일본어와 같은 언어들에서는, 쓰기 시스템들은 의미론적 의미를 구현하고, 서치 및 매칭에 유일한 도전을 제시하는 표의문자들로부터 구성된다. 또한, 이 쓰기 시스템들을 이용하는 나라들은, 종종, 외국 단어들 또는 새로운 단어들을 표현을 허락하기 위해 표음적인 다른 쓰기 시스템들을 자유롭게 통합한다. 표의문자적 쓰기 시스템들에서의 평가에 대한 도전은, 쓰기의 의미론적 본질에 있다. 정자법(orthography)에만 기초하여 점수를 매기기 위한 전통적인 방법들은, 진보적인 매치 등급 처리들의 심장부에 있는, "유사한(similar)"을 "동일한(same)"으로부터 식별하기에 충분한 수준에서 의미를 구별하기에 매우 부적당할 것이다.
따라서, 특히, 비표음적 쓰기 시스템들에서의 매치 결과의 품질을 평가하기 위한 추가적인 기준을 제공함으로써, 기존의 서치 및 매치 시스템들 및 방법등을 개선할 필요가 있다. 또한, 표의문자적 맥락에서 전체적으로 또는 부분적으로 표현되는 데이터에서, 비용이 드는 인간 개재 없이, 기계 매치들 간을 구별하여, 일관성 및 확장성(scalability)을 허용하는, 시스템 및 방법을 필요로 한다. 또한, 비표음적, 표의문자적 쓰기 시스템의 도전들을 취급하는 완전히 자동화된 서치 및 매칭을 위한 시스템 및 방법에 대한 요구가 있다.
도 1은 선행기술 기록 매칭 방법의 블럭도,
도 2는 선행기술 기록 매칭 시스템의 블럭도,
도 3은 신뢰코드들의 매칭결과들로의 맵핑을 도시한 테이블,
도 4는 선행기술 데이터 매칭 방법의 성분 처리들을 도시한 블럭도,
도 5는 일본 사업의 기준 기록에서의 매치등급 패턴의 맵핑을 도시한 테이블,
도 6은 본 개시의 향상된 매칭 시스템의 블럭도,
도 7은 매치등급 패턴 행렬을 나타내는 테이블,
도 8은 후보자 리스트들을 검색하기 위한 방법을 도시한 블럭도,
도 9는 영어로 된 회사명으로부터 도출된 싱글들의 예들을 도시한 도,
도 10은 본 개시의 방법에 따라 도출된 중국 한자어 싱글들(힝글들)의 예들을 도시한 도,
도 11은 본 개시의 방법에 따라 도출된 "스틱키 힝글들"의 예들을 도시한 도,
도 12는 본 개시의 방법에 따라 도출된 "덤 힝글들"의 예들을 도시한 도,
도 13은 본 개시의 방법에 따라 구조적 인디케이터(indicator)들을 제거하거나 단축하는 예를 도시한 도,
도 14는 사업명의 일부로서 포함된 추가적인 구조적 인디케이터들의 예를 도시한 도,
도 15는 "Hacronym"의 예를 도시한 도,
도 16은 간소화된 스크립트와 전통적인 스크립트의 예를 도시한 도,
도 17은 본 개시에 따라, 알고리즘들에 대한 예언적인 점수들의 계산을 나타내는 테이블들을 도시한 도,
도 18은 본 개시의 방법에 따른, 매치등급 문자열을 기록에 할당하는 방법의 블럭도,
도 19는 매치등급 패턴을 도시한 도,
도 20은 본 개시의 방법에 따라, 기준 이름들에 할당된 매치등급 코드들을 도시한 테이블,
도 21은 본 개시의 방법에 따라, 기준 기록 매치 후보자들에 할당된 신뢰코드들을 도시한 테이블,
도 22는 본 개시의 방법에 따라, 매치의 결과들이 어떻게 제시되는지를 도시한 매치등급 피드백 보고의 예를 도시한 도,
도 23은 본 개시의 방법에 따라, 풀 텍스트 인덱싱 및 이름 킹글링의 예들을 도시한 흐름도,
도 24는 본 개시의 방법에 따라, 유일성에 대한 매치등급 알고리즘의 예를 도시한 도,
도 25는 본 개시의 방법에 따라, 상대적인 유일성 대 절대적인 유일성을 도시한 도,
도 26은 본 개시의 방법에 따른 다수 표어문자적 의미론적 명확성에 대한 예 알고리즘을 도시한 도,
도 27은 본 개시의 방법에 따라, 산업 점수 매기기의 표현을 도시한 도이다.
본 개시는, 서치, 매칭, 및 데이터 매칭에 대한 품질 피드백, 즉, 개선된 아시아 언어(예를 들어 더블 바이트) 매치 피드백을 제공하기 위한 시스템 및 방법을 제공한다.
본 개시는, 또한, 입력 데이터를 서치하고 저장된 데이터에 매칭하는 전산화된 방법을 제공한다. 상기 방법은, 복수 개의 요소들을 가지는 서치 문자열을 포함하는 입력 데이터를 수신하는 단계와, 상기 복수 개의 요소들의 서브 세트를 용어들의 세트로 변환하는 단계와, 상기 용어들의 세트로부터 최적화된 복수 개의 키들을 생성하는 단계와, 상기 입력 데이터에 대한 매치를 위한 가장 가능성 있는 후보자들에 대응하는 상기 최적화된 키들에 기초하여 저장된 데이터를 검색하는 단계와, 상기 복수 개의 매치 후보자들 중에서 최고의 매치를 선택하는 단계, 를 포함한다. 상기 요소들의 적어도 몇몇은, 표의문자적 쓰기 시스템의 일부를 형성한다. 요소들의 서브 세트를 용어들의 세트로 변환하는 단계는, 다중 표어문자적 의미론적 명확성, 중국 한자어(Hanzee) 두문자어 확장, 일본 한자어(Kanji) 두문자어 확장, 및 사업 단어 인식으로 구성된 그룹으로부터 선택된 적어도 하나의 방법을 이용한다.
또한, 문의 기록과 저장된 기준 기록과의 사이의 매치 품질의 측정을 포함하는 향상된 아시아 언어 매치 피드백이 제공된다. 이 시스템은, 아시아 쓰기 시스템들의 유일한 측면들에 커스터마이즈된(customized) 방법들을 이용하여 비표의문자적 쓰기 시스템들에 대한 선행기술을 반영하도록 이루어졌다. 데이터 베이스 기록 내의 데이터 서브세트들의 많은 매치 값들에 대응하는, 매치등급 패턴 또는 문자열은, 기존의 구조, 즉, 문의 데이터 기록에 포함되어 있는 데이터로, 맵핑되고, 이름, 어떤 주소 성분들, 전화번호, 및 다른 정보의 개별적인 품질을 반영한다. 매치등급 패턴과 대응하고, 매치등급 패턴들을 사업 규칙들의 적용을 가능하게 하기 위한 범위들로 계층화함으로써, 보수적인 매치 품질을 반영하는 상기한 신뢰코는, 예를 들어, 1과 10 사이의 정수들로 지정되어 제공된다. 또한, 방법은, 문의 기록들과, 비표음적 또는 표의문자적 언어들에 저장된 기준 기록들을 매칭시키는 것을 포함한다.
본 개시의 시스템 및 방법은, 1)정화, 분석 및 표준화, 2)후보자 검색 및 3)평가 및 결정을 포함한다. 평가 및 결정은, 일관적인 기준들에 따라 매치들을 평가하는 것을 수반하며, 정교한 피드백을 수립하기 위한 매치등급 패턴을 생성하는 단계와, 자동결정을 가능하게 하는 신뢰코드를 할당하는 단계와, 그리고 별도의 정보를 위한 매치 데이터 프로파일(Match Data Data)를 포함하는 단계를 포함한다. 모든 처리들은, 표의문자적 쓰기 시스템들에 의해 제시된 도전들과 함께 동작하기 위해 향상된다.
향상된 아시아 언어 매치 피드백 시스템 및 방법은, 매치 품질의 3개의 측정들을 포함하는데: 1)매치등급 점수, 즉, 매치등급은 기존의 데이터 구조에 맵핑되고, 이름, 어떤 주소 성분들, 전화번호, 및 다른 정보의 개별적인 품질을 반영한다. 2)결과들의 계층화를 가능하게 하는, 예를 들어, 3, 5, 7과 같은 수들에 의해 지정된 신뢰코드; 및 3)매치 데이터 프로파일이 또한 제공됨으로써, 그것은 결과를 달성하기 위해 이용된 특정 메타 데이터에 대한 추가적인 정보를 포함하며, 또한 매치 결과들, 특히 "5-6" 신뢰코드 매치 결과들을 더 식별할 수 있다.
또한, 이용가능한(또는 도출가능한) 정보는, 세상의 다른 부분들에서 현재의 피드백을 닮은 더 강건한 통신에 대한 해결로 맵핑될 수 있다. 일본 매치 해결에서의 이 맵핑의 예가 도 5에 도시되어 있다.
본 개시의 향상된 매칭 시스템에 의해 수행된 방법은 아래에서 설명된다. 본 개시의 시스템의 실시예의 도식이 도 6에 도시되어 있다. 새로운 시스템은 현재의 데이터 매칭 시스템들을 교체하거나, 현재의 문자 기반의 시스템들에 대한 향상으로서 행위할 수 있다. 시스템은, 그것이, 별도의 성분들 및 작업 흐름 단계들의 세트로서 현재의 작업 흐름 처리에 부가될 수 있을 정도로 충분히 모듈적이다(modular).
정화, 분석, 및 표준화(Cleaning, Parsing, and Standardization: CPS)
향상된 매칭 시스템은, 입력된 문의 데이터의 정화, 분석 및 표준화(CPS)의 제 1 단계로 시작되는 향상된 매칭 방법을 위해 이용된다.
일 실시예에서, 외부 소프트웨어가, 입력된 서치 데이터의 정화, 분석 및 표준화(CPS)를 위해 이용된다. 그 처리의 출력은, 도출된 정보를 평가하고, 두문자어들(acronyms)을 확장하고, 그리고 다른 알려진 사용 도전들을 설명하기 위해, 더 향상된다. 이 확장은, 도 13, 14, 15, 및 16에서 설명된 것과 같은 아시아 쓰기 협약에 적응된 어떤 방법들을 이용한다.
시스템은, 데이터를 서치하는 이용자 또는 시스템을 관리하는 이용자 중 하나에 의해, 데이터의 입력을 위한 다양한 필드들을 포함한다. 필드들의 제 1 세트는, 사용자가 서치 작업의 처리를 제어하기 위한 다양한 데이터를 입력할 수 있도록 셋업된 다수의 "작업 설정들"(Job Settings)을 포함한다. 이 다양한 유형의 데이터는, "작업 선호도(Job Preferences)" 사용자 인터페이스(UI)에서의 상이한 필드들로서 제시될 수 있다. 작업 선호도 인터페이스는, 다음에 대한 필드들을 포함할 수 있다:
(a)배치번호 처리: 이것은 자동생성될 가능성이 있으며, 사용자에 의해서는 단지 확인된다. 작업번호가 유일하게 작업을 식별하며, 또한, 번호의 일부로서 고객 ID(아래 참조)를 포함할 수 있다. 시스템은 또한 작업 배치 번호들을 생성하고, 이것은 대안으로서 이용될 수 있다.
(b)고객 ID: 이것은 바람직하게는 고객을 식별하기 위한 번호이다. 고객 ID는 룩업을 통해 검색될 수 있으며, 시스템은 고객 ID가 존재하지 않으면, 새로운 고객 ID를 생성하기 위한 기능을 포함한다. 이것은, 바람직하게는, 완전한 고객관련관리(Customer Relationship Management: CRM)는 아니지만, 그것이 시스템을 통과할 때 데이터를 "태그"(tag)하는데 필요한 것이다.
(c)임계값 자동결정: 이값은, 작업에 대한 미리 선택된 임계값 신뢰코드에 기초한다. 신뢰코드 임계값, 예를 들어, 1-10에서, 시스템은 DUNS 식별자, 즉, 유일한 법인 식별자를 자동 매치할 수 있다(처리 및 균형 깨기(tie-breaking) 로직은 어떠한 복제품도 생산하지 않는다는 가정하에). 이 능력은, 바람직하게는, 작업 선호도 윈도우에 있다.
(d)문의/기준 구조적 질의언어(structured query language: SQL) 테이블들: 이 테이블들에서는, 사용자는, 문의 데이터 및/또는 참조 데이터를 포함하는, 서버(들), 데이터베이스(들), 및 테이블(들)을 상술할 수 있다. 일 실시예에서, 외부 소프트웨어가, 그것이 처리하는 각 작업에 대한 테이블인, 문의 데이터 테이블/테이블들을 생성한다.
(e)작업에 대한 보고들: 작업 설정들 인터페이스는, 또한, 원하는 보고들과 과 그들을 기록할 위치를 미리 상술하는 능력을 포함한다.
시스템은, 그 예가 도 7에 도시된 매치등급 패턴 행렬을 포함하는 데이터에 접근하기 위한 관리 인터페이스를 또한 포함하며, 그것에 의해, 매치등급 패턴들 및 그들의 신뢰코드들에 대한 맵핑들이 시스템 데이터 베이스에 저장될 것이다. 시스템은 이들을 기본 그래픽 유저 인터페이스(graphical user interface: GUI)를 통해 서치 및 편집할 수 있다. 관리 인터페이스는 또한, 아래에서 더 상세하게 설명되며, 유사하게 계층화된 잠재적인 결과들의 그룹으로부터 최종의 최고 매치를 선택할 수 있게 하는, 저장된 균형 깨기 규칙들(tie-breaking rules)로의 접근을 포함할 수 있다. 균형 깨기 규칙들은, 바람직하게는, 모듈적이어서, 그들은 시스템 프로그램 인공물들(artefacts) 내에서 단지 하드코드되지 않으며, 따라서 진행중인 튜닝을 허용한다. 일 실시예에서, 각 고객의 균형 깨기 규칙 설정은, 그들의 개별적인 파일에 저장됨으로써, 사용자의 균형 깨기 규칙은 자동적으로 디폴트로서 발생한다. 다른 실시예에서, UI는 작업에 대한 균형 깨기 규칙들, 또는 위치, 즉, 규칙들의 디렉토리를 선택할 수 있다. 바람직하게는, 규칙들은 스크립트들 또는 다른 편집 가능한 포맷으로 저장됨으로써, 규칙들은, 시스템의 새로운 릴리스에 대한 요구 없이, 향상되거나, 제거되거나, 또는 부가될 수 있다.
사용자는, 서치될 바람직한 실체를 식별하는 다양한 데이터를 입력할 수 있다. 사용자의 문의를 나타내는 데이터를, 문의 기록이라 불리우는 기록에 저장되는 문의 데이터라 한다. 그러한 처리 문의 데이터는, 사용자가 기준 데이터 베이스로부터 그에 대한 최고의 매치의 위치를 찾으려고 시도하는 실체에 대한 정보를 나타내는, 사용자에 의해 입력된 데이터를 포함한다. 이 데이터는, 모두가 위에서 설명된 정화, 분석, 및 표준화(CPS) 루틴들에서 처리되는, 사업명 데이터, 주소 데이터, 및 전화번호 데이터, 를 포함한다. 입력은, 아시아 및 로마 스크립트들 양자를 포함하는, 혼합된 문자 세트들일 수 있다. 주소 데이터는, 도출된 주소 체계화(codification)를 생성하기 위해, CPS 루틴들에 의해 처리되며, 이후 평가를 위해 더 분류된다. 전화번호 데이터는, 근거리 지방 협약에 기초하여 서브필드들로 분리되도록 CPS 루틴들에 의해 표준화된다.
추가 데이터가, 작업이 시스템에서 자신의 존재를 통해 유일하게 식별되도록 입력되는 데이터와 함께 저장된 배치 번호와, 작업 내에서 각 문의 데이터 기록을 유일하게 식별하는 기록 번호를 포함하여, 사용자 입력 데이터와 함께 또한 저장될 수 있다. 기록 번호는 단순히 순차적인 수일 수 있다.
사용자 입력 문의 데이터의 처리는, 다수의 데이터 요소들 및 코드들을 생성한다. 시스템은, 아래에 상술되는 것들과 같은 검색 키들 및 평가 속성들을 생성하는 방식으로, 모든 범주 내 데이터 요소들을 평가하기 위한 알고리즘들을 활용한다. 많은 이 알고리즘들은, 표음적 및 표의문자적 쓰기 양자를 포함하는 다중 스크립트들의 동시 처리를 가능하게 하는 방식으로 구성된다. 데이터 요소들, 키들, 및 속성들은 각 문의 기록을 위해 위해 데이터 베이스에 저장된다. 데이터 요소들은 표음적 언어들, 또는 비표음적 또는 표의문자적 언어들 또는 그들의 조합으로 제공된다. 기록들은 다음을 포함한다:
a)정화된 사업명(CPS 이후). 이것은 알고리즘이 적용된 표준화된 이름이다. 일 예에서, 알고리즘은 리턴 코드의 제 1 바이트가 사업명 평가를 위해 사용되는, 반환 코드 분석(Return code Parsing)을 포함한다. 추가변형들은, 도 13, 14, 15, 및 16에 설명된 바와 같은 관측된 아시아 쓰기 협약의 처리뿐 아니라, 두문자어들의 확장 및 알려진 별명들의 처리를 포함한다.
b)일본의 현 이름과 같은, 추가적인 정보가 추론되며 추가될 수 있다.
c)주소 체계화가 시스템에 입력되거나, 또는 계산되거나 외부 모듈로부터 검색될 수 있다. 시스템은, 거리 번호, 거리명, 시, 지방(현), 및/또는 우편번호를 포함하는 데이터를 검색하기 위해 체계화를 도출하거나 분석하기 위한 알고리즘들을 이용한다. 예를 들어, 일본에서, 주민코드는, 실제 거리 번호에 이르는 숫자 정보를 포함하며, 다중 쓰기 시스템들 교차하여 일본어 스크립트로의 그들의 다양한 명시들에서, bldg, 빌딩, 층, FL, 룸, RM, 스위트, 등과 같은 키단어들을 골라서, 빌딩 층 및 방 번호들을 식별하고 제거한다.
경도/위도와 같은 다른 체계화도 시스템에 의해 수행될 수 있다. 이 체계화를 분석하는 것은 추가적인 속성들의 도출을 가져올 수 있다.
d)전화 지역 코드가, 시스템에 대한 직접 입력에 의해 제공되며, CPS 처리를 통해 강화된다(enriched). 고객 알고리즘은 CPS를 수행하고 입력된 전화번호를 분석하기 위해 생성된다. 전화번호는 가능한 한 서브 성분들로 분석된다. 이후, 그것은 문의 기록에 저장된다.
후보자 검색
문의 데이터를 정화, 분석, 및 표준화한 후, 시스템은 평가를 위한 후보자 리스트를 검색한다. 목적은 고려될 후보자들의 명부(pool)와 후보자들의 그 명부를 검색하는 계산적인 복잡성을 최소화하면서도, 기준 데이터 베이스로부터의 최고의 이용가능한 매치를 포함할 가능성이 가장 높은 후보자 리스트를 구성하기 위함이다. 후보자들은 기준 데이터, 즉, 문자 유사성뿐 아니라, 어조(tone), 표의문자적 내용, 및 아시아 쓰기 시스템들에 유일한 다른 측면들을 고려하는 문의 기록과 의 최고의 유사성을 가지는 표준 기록들로부터의 "최고의" 후보자들이어야 한다. 다른 말로, 처리는 모든 이용가능하고 추론된 정보를 고려하여, 가장 가능성 있는 후보자들의 리스트를 반환해야 한다.
후보자 검색은, 일반적으로, 문의 기록과 유사할 수 있는 데이타 베이스 내의 기록들을 구별하기 위한 방법들에 의존한다. 사용된 알고리즘들은, 예언성, 즉, 알고리즘이 기대된 매치를 포함하는 기록들의 세트를 어느 정도의 가능성으로 검색하는지와, 성과 즉, 얼마나 많은 기록들이 검색되는지, 검색된 키들을 도출하는 계산적인 복잡성, 및 따라서 후보자 리스트가 얼마나 신속하게 처리될 수 있는지사이의 균형적인 해결을 찾는다.
진행중인 정제(ongoing refinements)의 포함을 허용하기 위해서, 다중 알고리즘들의 이용과, 계산적 복잡성, 알고리즘들의 예언성, 및 검색된 후보자들의 참여된 세트 및 아시아 데이터 세트들에 유일한 후보자 분포의 관찰된 또는 추론된 측면들의 유일성, 에 기초하여 각 문의에 대한 그 알고리즘들의 최고의 서브세트의 선택을 허용하는 후보자 검색의 비결정론적인 방법이 제공된다. 이 방법의 전형적인 단계들과 예가 도 8에 도시된다. 방법은 키워드들, 중국 한자어(Hanzee) 또는 일본 한자어(Kanji) 두문자어들(Hacronyms, Kacronyms) 및 전화번호들과 같은 유효한 키들을, 문의 데이터에서 이용가능한 정보로부터 생성하는 단계를 포함한다. 모든 유효한 키 교차점들, 즉, 문의 기록 및 기준 기록에서의 매칭 키들에 대한 회수 카운트들이, 이전에 계산된 기준 세트들로부터 검색된다. 선택적으로, 미리 설정된 횟수 한계보다 많은 부호자들을 가져오는 그 키들은 억압되거나 억제된다. 다른 기술들이 또한 제안된 검색 큐를 선별(winnow)하기 위해 적용될 수 있다. 비용함수가, 검색시간, 교차시간, 예언성, 및 계산적 총경비(overheads)와 같은 하나 또는 그 이상의 요소들을 기초로, 유효한 키 교차점들에 대해서 생성된다. 키 교차점들은 계산적인 복잡성, 예언성, 및 검색된 잠재적인 후보자들의 수의 곱에 기초하여, 비용을 증가시키는 순서로 재배열되며; 따라서, 후보자 리스트들은, 키 교차점 곱들의 순서로 데이터 베이스로부터 검색된다. 이 방법은 문의들이 진행될 때, 실시간으로 접근의 최적화를 허용한다.
표음적 언어들에서, 정자법적 변형을 설명하기 위해 이용된 알고리즘들 중 하나는, 싱글링(shingling)으로 알려진 방법이며, 이로 인해, 알려진 크기와 오프셋의 정자법적 프래그먼트들이, 문의 문자열(string)로부터의 치환(permutation)에 의해 선택되고, 그 같은 프레그먼트들이 데이터 베이스에서의 알려진 기록들에서 얼마나 유일한지를 나타내는 인덱스들과 비교된다. 적절한 키들은 드물게 관측된 프레그먼트들을 나타내는 그 프레그먼트들이다. "Shell Oil Company"의 이름의 싱글들의 예들은 도 9에 도시된다. (표음적 언어들에 대한) 싱글링의 수행에서는, 싱글링은 계산적인 쓰로우풋(throughput) 견해로부터 예언적이고 효율적일 수 있는 식별된 "유일한" 싱글들(즉, 덜 자주 일어나는 싱글들)이 있을 수 있는 경우에 채용된다.
비표음적 언어들에서 싱글링을 이용할 시의 도전은 상징적인 변형이 매우 많은 의미를 가진다는 것이다. 문자들이, 의미를 여전히 보유하면서, 생략되거나 그리고/또는 재배열되는 상황들이 확실히 있을 수 있다 하더라도, 그러한 언어들에서 "철자 잘못쓰기(misspelling)"가 일어날 가능성은 없다. 아시아 언어 입력 방법들 편집기들의 복잡성으로 인해 유사하게 소리나는 부호들이 입력될 가능성도 있다. 다른 도전은, 어떤 부호들이, 다른 부호들과 결합될 때, 문자들의 조합에 의해서만 표현되는 새로운 의미를 가져오며, 이 결합된 복잡한 그룹핑들은, 알고리즘 조정 동안 그들을 분리하지 않도록 조심하게 다루어야하며, 그렇지 않다면, 삽입된 의미는 상실되거나 변한다는 사실로부터 나온다.
본 개시는 아시아 언어들에 적당한 방식으로 부호 조정을 관리함으로써 문의 데이터의 프래그먼트들(fragments)을 매칭하는 방법을 제공한다. 이 방법은 비표음적 언어에서 함께 그룹화될 때 더 높은 의미를 가지는, 어떤 부호들을, "스틱키(sticky)" 싱글들로서 함께 그룹 짓는다. 추가적인 추론은 관측된 스틱키 싱글들(중국 한자어에서는 "힝글들(Hingles)"로, 간지에서는 "킹글들(Kingles)"이라 함) 간의 결과적인 변화로부터 도출된다. 도 10 내지 도 12는 이 방법이 비표음적 언어 또는 통신 시스템에서 유용하다 하더라도, 중국어에 적용된 이 방법의 실시예를 도시한다. 외삽법(extrapolation)이 또한 동일한 데이터 속성에서 혼합된 쓰기 시스템들(예를 들어, 일본어에서 결합된 간지 및 카타카나)을 설명하기 위해 적용된다.
도 9는, "싱글들(shingles)"의 예이다. 중국 한자어, 중국어 쓰기 시스템에서 싱글링을 해결하기 위해, 방법은 중국 한자어 싱글링의 단축어인 "힝글링(hingling)"을 활용한다. 도 10은 중국 한자어 싱들들, 또는 힝글들(hingles)(이 힝글들은 길이가 2 글자들이며 따라서, "휴플스(Huples: Hanzee Duples)"라고도 할 수 있다)의 예이다. 힝글링은, 어떤 중국 한자어-싱글들 또는 힝글들이 그들이 어떤 더 높은 의미를 전달하기 위해 그룹화되기 때문에, "스틱키"한 것으로 간주하면서, 서치 문자열의 서브 프레그먼트들을 중첩하는 개념을 보유한다. 이 "스틱키 힝글들"은 후보자 검색을 극적으로 개선하기 위해 활용될 수 있는 표의문자적 쓰기의 홀마크(hallmark)이다. 중국 한자어 문자들은 글자(letter)도 아니며 단어도 아니지만, 의미적 요소들이다. 따라서, 문자의 의미들은, 도 11에 도시된 바와 같이, 그들이 함께 붙을 때(stick), 근본적으로 변한다. 따라서, 도 11에 도시된 바와 같이, "상하이(Shanghai)"를 나타내는 문자들의 세트는, 특별한 것으로 표시될 수 있으며 어떤 조정기간 동안 같이 유지된다. 힝글에서 힝글로(또는 휴플에서 휴플로)의 변화를 관측하면서, 후보자 검색 방법은 입력 문자열의 높은 예언적인 서브 성분들을 추론할 수 있다.
많은 "스틱키 힝글들"은 또한, 그들이 후보자 검색에 쓸 수 없을 정도로 너무 자주 발생한다는 것을 의미하는 "노이지 힝글들"이다. 기술적으로 말하면, 그들은, "흥미 없음(uninteresting)"이다. 반대로, "흥미있는(interesting)" 힝글들은 드물게 일어나는 것들로서, 따라서, 후보자 검색에 매우 예언적이다.
힝글링 및 스틱키 힝글들에 덧붙여, 본 발명은, 그들이 후보자 검색에 유용하지 않을 정도로 너무 자주 함께 발생되며 따라서 "흥미 없음"인, "노이지 힝글들" 또는 힝글들을 구별한다. 방법은 또한 기준 정보에 인접한 것으로 관측된 표의문자들의 그룹들이지만, 검사될 때에는 어떠한 내포된 의미를 갖지 않는, "덤(dumb) 힝글들"을 활용한다. 이 "덤 힝글들"의 발생은, 어떠한 의미론적 의미를 갖지 않지만, 후보자 검색 방법론에서는 강한 예언자들로서 여겨진다. 덤 힝글의 예는 도 12에 제공된다.
따라서, 방법은 데이터 베이스를 분석하는 것과 모든 "노이지 힝글들"을 특별 파일로 따로 분리하는 것(sidelining)을 포함한다. 이 노이지 힝글들은 기준 테이블 구축에 이용되지 않으며, 문의 입력들에서 무시된다. 이 방법은 매우 예언적이다.
상기의 명명법(nomenclature)과 방법론 모두는 일본어 쓰기에 대한 일본 한자어로 확장될 수 있다. 결과로, "킹글스(kingles)", "스틱키 킹글스", "덤 킹글스", 및 흥미 없는/흥미 있는 패어링들(parings)은 유사한 기능성을 가진다; 그러나, 일본어 문의 데이터는 또한, 산재된 카타카나, 로마자, 및 히라가나 문자들을 포함하므로, 표의문자적 알고리즘들은, 예언적인 결과들을 생산하는 선행 표음적 방법들로 강화되어야 한다.
방법은 또한 비표음적 언어들에서 발생되는 이름들의 추가적인 측면들을 분석하는 것을 포함한다. 이 실시예에서, 도 13에 도시된 바와 같이, 시스템은 구조적인 인디케이터들과 같은, 공통으로 발생하는 인디케이터들을 단축하거나 무시할 수 있다. 도 13에 도시된 바와 같이, 시스템은 D&B 코오퍼레이션의 대만 지점을 말하는, "D&B Taiwan"의 중국 한자어 이름에서의 구조적 인디케이터들을 인식한다. 이 예에서, 시스템은 "미국 사업"을 나타내는 힝글을 제거하거나 따로 분리하며, "대만 법인 구조"를 나타내는 힝글을 단축하거나 따로 분리한다. 따라서, D&B를 나타내는 문자들의 비일반적인 조합은, (어떠한 예언적인 덤 힝글들과 함께) 매칭을 목적으로 주로 이용된다. 도 14에 도시된 바와 같이, 이름 내의 다른 구조적 인티케이터들은, 회사명 내의 부서들 또는 부들의 표시와 같이 서치를 위해 이용되거나 따로 분리된다. 도 15에서 예시된 다른 실시예에서, "Hacronynms", 즉, 중국 한자어 두문자어들(Hanzee acronyms)은, 회사를 설명하기 위해 일반적으로 이용된 두문자어들을 반영하기 위해 회사명으로부터 독립되어, 시스템이 주어진 hacronym을 가지는 후보자들을 서치하고 검색하는 것을 허용한다. 시스템은, 또한, 예를 들어 도 16에 도시된 바와 같이, 비표음적 언어의 간략화된 버전과 전통적인 버전에서의 차이를 반영할 수 있다. 마지막으로, 유사하지만, 접근의 표음적으로 향상된 버전들이, 위에서 주지된 바와 같은 삽입된 표음적 쓰기와 함께 관측될 수 있는 "Kacronyms"라 하는 일본 한자어 두문자어들을 위해 존재한다.
시스템은 또한, 그들의 매치등급과 신뢰코드에 의해 후보자들의 등급을 매길 수 있다. 바람직하게는, 시스템은 우선 그들의 신뢰코드들의 순서로 후보자들의 등급을 매긴 후, 사업 균형 깨기 규칙에 기초하여 최고로 등급이 매겨진 계층을 식별한다. 매치등급과 신뢰코드의 할당과 균형 깨기 규칙들의 적용은 아래에서 더 상세하게 설명된다.
힝글링을 포함하는 후보자 검색 알고리즘들과, 전체 처리에 대한 다른 알고리즘들의 예언성을 평가하는데, 이용하기 위한 처리가 또한 제공된다. 비결정론적 후보자 검색을 가진 매칭 환경에 대하여, 시스템은 각 문의 기록에 대해서 가장 유용한 알고리즘들을 고른다. 알고리즘(A)의 계산적인 복잡성(CC)은 계산적인 반복이다: 요소적인 입력 또는 단계들 또는 산수 동작들의 수는 계산적인 문제점을 해결할 것을 요구한다. 예언성(P(A))은, 관측된 결과들의 수에 의해 나누어진 기대된 결과들의 수와 같다. 기대된 산출(Y(A))은 방법이 채용된 경우에 반환된 기록들의 수와 같다. 처리는 우선 다음의 공식:AC(An)=CC(An)×P(An)에 기초하여 각 알고리즘의 알고리즘 상수(Algorithmic Constant: AC(A))를 계산하는 것을 포함한다. 알고리즘 상수는, 이후, 최종 점수 X(A)를 생성하기 위해 기대된 산출에 의해 승산된다: AC(An)×Y(An)=X(An). 이 계산들의 예들은 도 17에 도시된다. 가장 낮은 최종 점수를 산출하는 알고리즘들은, 바람직하게는, 매칭 시스템에서 이용된다.
평가 및 결정
적당한 후보자 검색 방법들이 선택되고 채용된 후, 후보자들은 이후 계산 매치등급(computing matchgrade:MG) 문자열들에 의해 점수가 매겨진다. 매치등급 문자열의 각 요소에 대해서, 입력 및 후보자 데이터의 대응하는 속성들에, A, B, F,또는 Z의 코드가 할당된다. 이 처리는 도 18에 도시된다. MG 코드들을 각 코드 성분에 할당한 결과는, 도 19에 도시된, 매치등급 문자열 또는 매치등급 패턴이다. 일 실시예에서, 매치등급 패턴에서는 11개까지의 입력들(바이트들)이 있다.
매치등급 코드들은, 문의 대상 데이터 요소가, 기준 데이터와 "같은"것으로서 취급될 수 있다는 것을 나타내는 "A" 매치와, 문의 대상 데이터 요소가, 기준 데이터와 "유사하지만", 같지 않다는 것을 나타내는 "B" 매치를 포함한다. 이 코드들은, 또한, 문의 대상 데이터 요소가 기준 데이터와 상이하다는 것을 나타내는 "F" 매치와, 문의 대상 데이터 요소가 문의 기록에도 기준 데이터 기록에도 부재인 것을 나타내는 "Z" 매치를 포함한다.
다양한 매치등급 코드들의 예들이, "Mitshubishi Trading Corp vs. Mitshubishi Trading"의 예에 대한 문의 데이터와 비교된 기준 결과들에 대한 매치등급의 코드들을 도시하는, 도 20의 테이블에 도시된다. 아시아 언어들에 대한 A/B/F의 추론을 수립하기 위해, 점수 매기기 방법들은 문자 대 문자 비교뿐 아니라, 어조(중국어에 대해), 병음(Pinyin) 또는 가나 음역, 어휘소 변형, 스트로크 복잡성, 및 표의문자적 쓰기 시스템들에 유일한 다른 파라미터들을 고려한다.
어떤 독점적인 알고리즘들이 아시아 쓰기 시스템들에서의 뉘앙스들과 지역 협약을 설명하기 위해 개발되었다. 예를 들어, 유일성(11개의 매치등급 요소들 중 하나)은, 아시아의 매우 큰 도시들과, 일본에서의 현들(prefectures)과 중국에서의 성들(provinces)의 구조(도 24 및 도 25) 간의 상호관계를 고려해야한다. 상대적 vs 절대적 유일성이 아시아의 사업 인구학의 이 관측된 특성들을 수용하기 위해 도입되었다.
아시아 언어들에 대한 특별 처리를 요구하는 다른 매치등급 요소는, 다수 표어문자적 의미론 명확성(Polylogogrammatic Semantic Disambiguation)(도 26 내지 도 27)라 불리어지는 새로운 처리를 통해 추론되어야 하는, 산업 분류(industry classification)이다. 이 처리는 아시아의 문의들(특히, 일본에서)은 표의문자적 및 표음적 양자의 쓰기 시스템들의 조합을 종종 포함한다는 사실을 고려하여, 문의 문자열의 반복적인 감소의 방법들을 채용한다. 이 반복적인 감소는 매치등급 문자열 내에서 서브 분류를 위한 가장 가능성 있는 산업 관련성 있는 키워드를 강조하는 방식으로 달성된다.
매치등급 문자열의 도출 후에, 도 21에 도시된 바와 같이, 신뢰코드(CC)는, 도출된 매치등급 문자열에 기초하여, 기준 또는 검색된 데이터 기록에 할당된다. 일 실시에에서, 신뢰코드는 수이며, 바람직하게는, 1과 10 사이의 정수이다. 이 할당은, 사업 규칙들의 적용을 가능하게 하기 위해 데이터를 그룹들로 계층화하도록 의도된다. 바람직하게는, CC는, 도 7에 도시된 것과 같은 패턴 행렬로부터 검색된다. MG 패턴 행렬은, 바람직하게는, 개별적인 필드에서의 각 요소와 함께, SQL 테이블에 저장된다.
평가 및 결정 단계들의 시스템의 성과에서, 균형 깨기 규칙들은 주어진 문의 실체에 대해서 검색된 모든 매치 후보자들 중 가장 높은 신뢰코드를 가지는 하나 이상의 후보가 검색된 경우에, 이용되어야한다. 균형 깨기 규칙들과 함께 신뢰코드들은, 자동 결정시 작업 설정과 사업 규칙들에 따라서 자동결정하기 위해 이용될 수 있으며, 최고의 후보자가 식별될 수 있는 경우에, 그리고 후보자가 사업 적용을 보증하기 위한 적어도 임계값 신뢰코드를 가지는 경우에, 매치는 자동적으로 수용된다. 임계값 신뢰코드는 사용자에 의해 미리 선택될 수 있다. 균형 깨기 규칙들이 이용되는 경우, 시스템은 어떤 규칙이 어느 문의 레코드에 대한 최종 균형을 깨기 위해 이용되었는지와, 어떠한 데이터 값들이 그 최종 비교를 위한 것인지를 기록할 것이다.
균형 깨기 규칙들의 세트의 예는 아래에서 설명된다. 규칙들은 모든 다른 것들보다 우위에 있는 하나의 후보가 있을 때까지 순서대로 처리된다. 등급들은 정수들로 표현되며, 높은 등급은 낮은 정수 값에 대응한다. 가장 높게 등급이 매겨진 후보자들만이(1보다 많은 경우) 다음의 규칙으로 진행한다.
규칙 1-"A 매치": 사업명, 거리#, 거리명, 도시, 성/현 및 우편번호 MG 패턴들은 모두 "A"이며, 회사유형은 동일하다. 0-Yes, 1-No
규칙 2-사업명에 대한 매치등급: 사업명에 대한 매치등급 코드에 따라 후보자들의 등급을 매겨라. 0-A, 1-B, 2-F
규칙 3-회사유형: 문의 데이터와 비교된 회사 유형(코드 당)에 따라 후보자의 등급을 매겨라. 0-같음, 1-다름
규칙 4-성/현에 대한 매치등급: 주에 대한 MG 코드에 따라 후보자들의 등급을 매겨라. 0-A, 1-F, 3-Z
규칙 5-도시에 대한 매치등급: 도시에 대한 매치등급 코드에 따라 후보자들의 등급을 매겨라. 0-A, 1-F, 2-Z
규칙 6-거리명에 대한 매치등급: 거리명에 대한 매치등급 코드에 따라 후보자들의 등급을 매겨라. 0-A, 1-B, 2-F
규칙 7-거리번호에 대한 매치등급: 거리번호에 대한 매치등급 코드에 따라 후보자들의 등급을 매겨라. 0-A, 1-B, 2-Z, 3-F
규칙 8-OOB(Out of business) 인디케이터: 상태들이 트레이딩(trading)되는지 아닌지(OOB)에 따라서 후보자들의 등급을 매겨라:0=활성, 1=비활성(OOB)
규칙 9-HQ/BR(Headquarters/Branch) 상태. 실체 유형에 따라 후보자들의 등급을 매겨라. 0=HQ, 1=단일 위치, 2=지점, 3=보조
규칙 10-전화번호에 대한 "A" 매치등급. 전화번호에 대한 "A" 매치등급 코드에 따라 후보자들의 등급을 매겨라:0-A, 1-기타 모두
규칙 11-회사명에서의 "회사 유형" 위치. 문의 데이터에 비교된 "회사 유형" 위치 인디케이터(코드 당)에 따라 후보자들의 등급을 매겨라. 0-같음, 1-다름
규칙 12-전화번호에 대한 매치등급. 전화번호에 대한 매치등급 코드에 따라 후보자들의 등급을 매겨라:0-A, 1-B, 2-Z, 3-F
규칙 13-우편번호에 대한 매치등급. 우편번호에 대한 매치등급 코드에 따라 후보자들의 등급을 매겨라:0-A, 1-B, 2-Z, 3-F
규칙 14-트레이드 스타일 기록(TSR: trade style record) 코드. TSR 코드의 존재/부재에 따라 후보자들의 등급을 매겨라: 0-TSR 코드 존재, 1-TSR 코드 부재.
규칙 15-현재의 데이터 플래그. "COM" 플래그의 값에 따라 후보자들의 등급을 매겨라: 0-플래그가 부재(업데이트된 데이터), 1-플래그가 존재(오래된 데이터).
규칙 16-레코드 업데이트 날짜. 시스템 데이터 베이스에서의 메이저 업데이터의 날짜에 따라서 최근에서 가장 오래된 것으로 후보자의 등급을 매겨라.
규칙 17-DUNS 번호. 이것은 최종 균형 깨기이다. 오름차순으로 DUNS 번호, 즉, 유일한 법인 식별자에 의해 후보자의 등급을 매겨라.
이후, 매치등급 결과들은 사용자에게 제시된다. 제시된 정보는 사용된 매치등급 패턴(요소당 1필드), 신뢰코드, 매치 데이터 프로파일, 처리 데이터, 처리배치번호, 고객 ID, 매치된 기준 기록의 DUNS 번호, 문의 기록 번호, 및 사용된 최종 균형 깨기 규칙의 하나 또는 그 이상을 포함할 수 있다. 결과들은, 상이한 신뢰코드들과 다른 관측되거나 추론된 속성들에 기초하여 분류될 수 있다.
추가적인 능력들이 매치될 수 없었던 데이터를 검색하고(browse) 검토하기 위해 사용자에게 제공될 수 있다. 사용자가 자동 매치된 데이터를 포함하는 어떠한 데이터도 검색할 수 있는 능력 또한 있을 수 있다. 다른 능력들은, (사용된 신뢰코드, 매치등급 패턴, 균형 깨기 규칙들에 의한) 출력의 필터링, 수동 매칭, 및 재매칭, 을 포함할 수 있다. 시스템은 또한 시스템이 사용자의 요구에 응해 선택된 기록들에 대한 완전한 처리를 재가동하기 위한, 선택된 기록/기록들의 재처리에 대한 수동적인 초기 능력에 대한 능력을 포함할 수 있다.
바람직하게는, 결과들은 보고로서 사용자에게 제시된다. 바람직하게는, 결과들은 도 22에 도시된 바와 같이 결과 데이터로부터의 비편집적인 보고의 형태이다. 다른 실시예에서, 시스템을 재컴파일링하지 않고, 보고들을 부가하고, 수정하고, 그리고/또는 삭제하는 것이 가능하다. 보고들은 XML/XSL로 코딩될 수 있으며, 초기에는 HTML로 생성되어, 이후 비편집적인 포맷으로 변환될 수 있다. 적용가능한 보고들이 작업에 대하여 미리 선택될 수 있으며, 이후, 그 작업에 대한 디폴트 세트가 된다. 보고들은 영어 또는 원어 기본 텍스트로 생성될 수 있다.
시스템은 현재의 매치등급 패턴들과 "매치등급 마스터 테이블"에서의 그들의 대응하는 신뢰코드들의 행열을 저장한다. 도 7에 도시된 바와 같이, 유일한 매치등급 패턴당 단지 하나의 행(row)만이 있다. 이 테이블은 문자열로서의 매치등급 패턴들, 그 패턴에 부착된 신뢰코드, 개별적인 열(column)로서 바람직하게는 11개의 매치등급 패턴들의 각 바이트, 각 입력에 대한 최종 변경에 대한 버전, 및/또는 입력이 변경될 때 자동생성된 업데이트 날짜-시간을 포함할 수 있다. 편집 이력을 보존하는 것은 진행중인 품질 보증 및 연속적인 처리 개선을 허용한다.
매치등급 마스터 테이블에서의 입력이 어느 이유로 변경될 때마다, 예를 들어, 신뢰코드가 변경되거나 확인될 때마다, 시스템은, 바람직하게는, 이전 입력을 "매치등급 이력 테이블"에 저장한다. 이 테이블은, 각 매치등급 패턴에 대한 다중 입력들이 존재한다는 것을 제외하고는, 매치등급 마스터 테이블과 동일한 구조를 가진다.
매치등급 마스터 테이블에 대한 모든 변경은 최종 버전 수의 증대를 요구한다. 이것은, "약간의" 변경(예를 들어, 0.2≫0.3)이거나 또는 "많은" 변경(0.3≫0.4) 중 하나일 것이다. 이 변경에 의해 영향을 받은 매치등급 마스터 테이블에서의 각 입력은 최종 버전으로 각인될 것이다. 그러나, 매치등급 데이터에 어떠한 변경을 가하지 않고도 버전을 증대시키고 코멘트를 입력하는 것도 가능할 것이다.
이 변경들에 대한 정보는 "매치등급 버전 테이블"에 저장될 수 있으며, 매치등급 버전 테이블은: 새로운 버전의 수인 버전 번호, 변경을 가한 사람의 사용자 ID, 코멘트 및/또는 날짜를 포함한다. 코멘트는 이루어진 변경의 설명과 이유이다. 이 필드는 어느 변경이 진행되기 이전에 점유되어야 한다. 업데이트 날짜는 변경이 입력되었을 때 표시되는 자동 생성된 날짜/시간 필드이다.
일 실시예에서, 방법은 간략화된 중국어, 전통적인 중국어, 또는 일본어 문자들과 같은 비표음적 문자들의 문자열들을 비교하는 것과, 그들이 얼마나 유사한지를 나타내는 수치적 점수를 생성하는 것을 더 포함한다. 이 부수적인 정보는 수준 매치등급 할당 및 덤 싱글들, 스틱키 듀플스, 및 다른 구조들의 전가(imputation)를 위한 속성을 수립하기 위해 이용될 수 있다. 방법 및 아래에서 토론되는 라이브러리는 일 실시예에서 중국 한자어 문자들에 적용되지만, 어떠한 비표음적 언어 또는 통신 시스템에도 적용될 수 있다.
유사성 계산은 알고리즘 추론에 대한 원어민 반응을 객관적으로 평가하기 위한 다중 사용자 블라인트 테스트들뿐 아니라, 정자법적, 표음적 그리고 어휘소 변경들을 포함하는 여러 축들에서 수행된다.
위에서 설명된 점수 매기기에 더해서, 예를 들어 일본어 및 중국어 양자로, 표의문자적 쓰기의 추가적인 측면들이, 평가 및 결정 과정에서 활용된다. 바람직하게는, 위에서 설명된 힝글링 처리는, 신뢰코드 또는 매치의 품질을 나타내는 다른 점수를 결정하는데 또한 이용된다.
본 발명의 향상된 매칭 시스템 및 방법은 중국어, 일본어 및 다른 비표음적 또는 표의문자적 언어 데이터 매칭 시스템들에 대해서 훌륭한 데이터 매칭 및 더 상세한 피드백을 제공한다. 시스템은 데이터 정화 및 매칭을 위해 많은 데이터 요소들을 이용할 수 있으며, 선행기술에서 가능했던 것보다 더 많은 방법들로 데이터를 매치할 수 있으며, 매칭 처리에 더 지적이고 더 정교한 피드백을 제공할 수 있다. 이 정교한 피드백은 그렇지 않다면 가능하지 않았던, 컴퓨터 시스템을 통해, 사업 처리의 자동화를 가능하게 한다.
일본어 향상된 매칭 시스템(Japanese Enhanced Matching System: JEMS)과 같은, 본 발명의 향상된 매칭 시스템은, 이전 시스템들보다, 고객 입력 파일에서의 더 많은 데이터 요소들을 이용하여, 그리고 아시아 쓰기 시스템들의 표의문자적 성질을 활용하는 방법들로, 데이터를 매치시킨다. 시스템 및 방법은, 또한, 선행 기술 시스템들에 비해, 현존하고 새로운 데이터 요소들에 대한 추가적인 비교 방법들을 특징으로 한다.
여기 설명된 교시들의 다양한 대안들, 조합들 및 변경들은 관련기술의 당업자들에 의해 도출될 있음이 이해되어야 한다. 본 발명은 여기 설명된 교시들의 범주내에 속하는, 그러한 대안들, 변경들 및 변형들 모두를 포괄하도록 의도된다.
관련 출원의 교차 참조
이 출원은, 2005년 11월 23일 출원된 미국 가출원 60/739,270의 우선권을 주장하며, 따라서, 완전히 참조에 의해 통합된다.

Claims (20)

  1. 입력 데이터를 서치하여 저장된 데이터에 매칭시키는 전산화된 방법으로서, 상기 방법은:
    복수 개의 요소들을 가지는 서치 문자열(search string)을 포함하는 입력 데이터를 수신하는 단계로서, 상기 요소들의 적어도 몇몇은 표의문자적 쓰기 시스템의 일부를 형성하는, 수신단계;
    다수 표어문자적 의미론적 명확성(polylogogrammatic semantic disambiguation), 중국 한자어 두문자어 확장(hanzee acronym expansion), 일본 한자어 두문자어 확장(kanji acronym expansion), 및 비지니스 단어 인식으로 구성된 그룹으로부터 선택된 적어도 하나의 방법을 이용하여 상기 복수 개의 요소들의 서브세트를 용어들의 세트로 전환하는 단계;
    상기 용어들의 세트로부터 최적화된 복수 개의 키들을 생성하는 단계;
    입력 데이터에 대한 매치를 위해 가장 가능성 있는 후보자들에 대응하는 최적화된 키들에 기초하여 저장된 데이터를 검색하는 단계; 및
    매치 후보자들로부터 최고의 매치를 선택하는 단계; 를 포함하는 서치 및 매칭 방법.
  2. 제 1 항에 있어서,
    상기 검색단계는, 스틱키 중국 한자어 싱글링(sticky hanzee shingling), 스틱키 일본 한자어 싱글링(sticky kanji shingling), 덤 중국 한자어 싱글링, 덤 일본 한자어 싱글링, 및 복수 개의 쓰기 시스템들을 교차하는 텍스트 인덱싱으로 구성되는 그룹으로부터 선택된 적어도 하나의 방법을 이용하는 서치 및 매칭 방법.
  3. 제 1 항에 있어서,
    상기 변환단계는, 상기 서치 문자열을 복수 개의 중첩 서브 세그먼트들로 분리하는 단계를 포함하는 서치 및 매칭 방법.
  4. 제 3 항에 있어서,
    상기 변환단계는, 상기 표의문자적 쓰기 시스템에서 의미론적 의미를 가지는 서브 세그먼트들을 포함하는 스틱키 서브-세그먼트들을 식별하는 단계를 더 포함하는 서치 및 매칭 방법.
  5. 제 4 항에 있어서,
    상기 변환단계는, 노이지 서브 세그먼트들을 제거하는 단계를 더 포함하는 서치 및 매칭 방법.
  6. 제 5 항에 있어서,
    상기 변환단계는:
    상기 표의문자적 쓰기 시스템에서 어떠한 의미론적 의미를 갖지 않는 인접한 요소들을 포함하는 덤 서브 세그먼트들을 식별하는 단계; 그리고,
    상기 덤 서브 세그먼트들로부터 예언성을 전가하는 단계;를 더 포함하는 서치 및 매칭 방법.
  7. 제 6 항에 있어서,
    상기 생성단계는, 상기 최적화된 복수 개의 키들을 생성하기 위해 스틱키 서브 세그먼트들과 덤 서브-세그먼트들을 이용하는 단계를 포함하는 서치 및 매칭 방법.
  8. 제 1 항에 있어서,
    상기 변환단계는, 상기 표의문자적 쓰기 시스템의 전통적 버전과 간략화된 버전을 표준화하는 단계를 포함하는 서치 및 매칭 방법.
  9. 제 1 항에 있어서,
    상기 표의문자적 쓰기 시스템은, 일본 한자어, 전통적인 중국어 그리고 간략화된 중국어(중국 한자어)로 구성된 그룹으로부터 선택된 적어도 하나인 서치 및 매칭 방법.
  10. 제 1 항에 있어서,
    상기 요소들은, 아시아 및 로마 문자들을 포함하는 서치 및 매칭 방법.
  11. 제 1 항에 있어서,
    상기 변환단계는:
    상기 용어들의 세트를 식별하기 위해, 이름 요소들, 전화번호 요소들, 및 주소 요소들을 포함하는 상기 복수 개의 요소들을 분석하는 단계;
    전화번호 요소들을 주소 요소들과 크로스 체크하면서, 다수 표어문자적 방법들을 통해 사업 라인을 추론하는 단계; 그리고,
    표의문자적 쓰기 시스템의 숙어들 및 표현들을 인식하고, 의미를 유지하기 위해 숙어들 및 표현들을 함께 유지하는 단계; 를 포함하는 서치 및 매칭 방법.
  12. 제 11 항에 있어서,
    상기 변환단계는, 이름 요소 내에서 구조적 인디케이터들 및 두문자어들을 식별하는 단계를 더 포함하는 서치 및 매칭 방법.
  13. 제 11 항에 있어서,
    상기 주소 요소들을 기초로 그리고 유연한 아시아 어드레싱 협약들의 추론을 통해, 경도 및 위도 정보를 수립하는 단계를 더 포함하는 서치 및 매칭 방법.
  14. 제 1 항에 있어서,
    상기 검색단계는, 소정의 임계값을 초과하는 카운트들을 반환하는 복수 개의 키들에서 어떤 키들에 대한 매치 후보자들을 제한하는 단계; 선택 키 교차점들에 대한 비용함수를 생성하는 단계; 상기 비용함수에 따라서 상기 키 교차점들의 우선순위를 매기는 단계; 그리고, 상기 키 교차점들의 순서로 매치 후보자들을 검색하는 단계; 를 더 포함하는 서치 및 매칭 방법.
  15. 제 1 항에 있어서,
    상기 검색단계는, 매치의 정도에 기초하여 각 매치 후보자에 대한 매치등급, 신뢰코드, 및 매치 데이터 프로파일을 생성하는 단계를 더 포함하는 서치 및 매칭 방법.
  16. 제 15 항에 있어서,
    상기 신뢰코드는, 적어도 부분적으로 상기 서치 문자열의 의미론적 의미와 추론된 내용에 기초하여 결정되는 서치 및 매칭 방법.
  17. 제 14 항에 있어서,
    상기 신뢰코드에 기초하여 선택된 매치 후보자들의 순서화된 리스트를 제공하는 단계를 더 포함하는 서치 및 매칭 방법.
  18. 제 15 항에 있어서,
    상기 순서화된 리스트에서의 후보자들의 각각을 복수 개의 매치 수준들 중 하나에 할당하는 단계를 더 포함하는 서치 및 매칭 방법.
  19. 제 18 항에 있어서,
    상기 매치 후보자들을 그들의 신뢰코드들의 순서로 순위를 매김으로써 매치 레벨의 할당을 결정하고, 이후, 사용자 정의된 균형 깨기 규칙들에 기초하여 최고위 랭킹 수준들을 더 식별하는 단계를 더 포함하는 서치 및 매칭 방법.
  20. 컴퓨터 판독가능한 매체로서,
    복수 개의 요소들을 가지는 서치 문자열을 포함하는 입력 데이터를 수신하는 단계로서, 상기 요소들의 적어도 몇몇은 표의문자적 쓰기 시스템의 일부를 형성하는, 수신단계;
    다수 표어문자적 의미론적 명확성, 중국 한자어 두문자어 확장, 일본 한자어 두문자어 확장, 및 비지니스 단어 인식으로 구성된 그룹으로부터 선택된 적어도 하나의 방법을 이용하여 상기 복수 개의 요소들의 서브세트를 용어들의 세트로 전환하는 단계;
    상기 용어들의 세트로부터 최적화된 복수 개의 키들을 생성하는 단계;
    입력 데이터에 대한 매치를 위해 가장 가능성 있는 후보자들에 대응하는 최적화된 키들에 기초하여 저장된 데이터를 검색하는 단계; 및
    상기 매치 후보자들로부터 최고의 매치를 선택하는 단계; 를 포함하는 입력 데이터를 서치하여 저장된 데이터에 매칭시키는 방법을 수행하기 위한 지시들을 가지는 컴퓨터 판독가능한 매체.
KR1020087015288A 2005-11-23 2006-11-22 표의문자적 내용을 가지는 데이터를 서치하고 매칭하기위한 시스템 및 방법 KR101276602B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US73927005P 2005-11-23 2005-11-23
US60/739,270 2005-11-23
PCT/US2006/045269 WO2007062156A2 (en) 2005-11-23 2006-11-22 System and method for searching and matching data having ideogrammatic content

Publications (2)

Publication Number Publication Date
KR20090014136A true KR20090014136A (ko) 2009-02-06
KR101276602B1 KR101276602B1 (ko) 2013-06-19

Family

ID=38067920

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087015288A KR101276602B1 (ko) 2005-11-23 2006-11-22 표의문자적 내용을 가지는 데이터를 서치하고 매칭하기위한 시스템 및 방법

Country Status (13)

Country Link
US (1) US7584188B2 (ko)
EP (1) EP1952285B1 (ko)
JP (1) JP5274259B2 (ko)
KR (1) KR101276602B1 (ko)
CN (1) CN101542475B (ko)
AT (1) ATE480827T1 (ko)
AU (1) AU2006318417B2 (ko)
CA (1) CA2630683C (ko)
DE (1) DE602006016846D1 (ko)
DK (1) DK1952285T3 (ko)
HK (1) HK1121266A1 (ko)
TW (1) TWI426399B (ko)
WO (1) WO2007062156A2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015129971A1 (ko) * 2014-02-28 2015-09-03 현대엠엔소프트 주식회사 내비게이션의 검색 방법 및 그 장치

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8706747B2 (en) * 2000-07-06 2014-04-22 Google Inc. Systems and methods for searching using queries written in a different character-set and/or language from the target pages
US7502632B2 (en) * 2004-06-25 2009-03-10 Nokia Corporation Text messaging device
AU2006318417B2 (en) * 2005-11-23 2012-01-19 Dun And Bradstreet Corporation System and method for searching and matching data having ideogrammatic content
US7836046B2 (en) * 2008-01-21 2010-11-16 Oracle Financial Services Software Limited Method and system for facilitating verification of an entity based on business requirements
US8010465B2 (en) 2008-02-26 2011-08-30 Microsoft Corporation Predicting candidates using input scopes
US7958107B2 (en) * 2008-04-10 2011-06-07 Abo Enterprises, Llc Fuzzy keyword searching
EP2120130A1 (en) * 2008-05-11 2009-11-18 Research in Motion Limited Mobile electronic device and associated method enabling identification of previously entered data for transliteration of an input
US8296279B1 (en) * 2008-06-03 2012-10-23 Google Inc. Identifying results through substring searching
TW201028869A (en) * 2009-01-19 2010-08-01 Systems & Technology Corp Quick information and data searching system and method by using keywords
US8667026B1 (en) 2009-01-22 2014-03-04 American Express Travel Related Services Company, Inc. Method and system for ranking multiple data sources
US8171403B2 (en) * 2009-08-20 2012-05-01 International Business Machines Corporation System and method for managing acronym expansions
KR101689314B1 (ko) 2009-11-20 2016-12-23 구글 인코포레이티드 교차-언어 이미지 검색 옵션을 위한 방법들, 시스템들 및 컴퓨터 판독가능 기록 매체
TWI484356B (zh) * 2010-01-07 2015-05-11 Alibaba Group Holding Ltd Retrieval methods, devices and systems
US8515984B2 (en) 2010-11-16 2013-08-20 Microsoft Corporation Extensible search term suggestion engine
US10073927B2 (en) 2010-11-16 2018-09-11 Microsoft Technology Licensing, Llc Registration for system level search user interface
US10346479B2 (en) 2010-11-16 2019-07-09 Microsoft Technology Licensing, Llc Facilitating interaction with system level search user interface
US8635197B2 (en) * 2011-02-28 2014-01-21 International Business Machines Corporation Systems and methods for efficient development of a rule-based system using crowd-sourcing
US8381120B2 (en) * 2011-04-11 2013-02-19 Credibility Corp. Visualization tools for reviewing credibility and stateful hierarchical access to credibility
US10540646B2 (en) * 2011-06-22 2020-01-21 Jpmorgan Chase Bank, N.A. Itemized receipts and digital payments system and methods
US8732213B2 (en) * 2011-12-23 2014-05-20 Amiato, Inc. Scalable analysis platform for semi-structured data
EP2867800A4 (en) * 2012-06-29 2016-01-27 Nokia Technologies Oy METHOD AND APPARATUS FOR PROVIDING TASK BASED SERVICE RECOMMENDATIONS
US9141807B2 (en) * 2012-09-28 2015-09-22 Synopsys, Inc. Security remediation
US9449056B1 (en) 2012-11-01 2016-09-20 Intuit Inc. Method and system for creating and updating an entity name alias table
US9858268B2 (en) 2013-02-26 2018-01-02 International Business Machines Corporation Chinese name transliteration
US10089302B2 (en) * 2013-02-26 2018-10-02 International Business Machines Corporation Native-script and cross-script chinese name matching
US8996391B2 (en) 2013-03-14 2015-03-31 Credibility Corp. Custom score generation system and methods
US8712907B1 (en) 2013-03-14 2014-04-29 Credibility Corp. Multi-dimensional credibility scoring
US9535945B2 (en) * 2014-04-30 2017-01-03 Excalibur Ip, Llc Intent based search results associated with a modular search object framework
JP5839642B1 (ja) * 2014-06-17 2016-01-06 楽天株式会社 情報処理システム及び情報処理方法
US9171173B1 (en) * 2014-10-02 2015-10-27 Terbium Labs LLC Protected indexing and querying of large sets of textual data
CN107924386A (zh) * 2015-08-14 2018-04-17 约翰·钟·李 用于解决键违反以及设置优先级和序列号的技术问题的方法
US9886433B2 (en) * 2015-10-13 2018-02-06 Lenovo (Singapore) Pte. Ltd. Detecting logograms using multiple inputs
CN105677718B (zh) * 2015-12-29 2019-04-09 北京汉王数字科技有限公司 文字检索方法及装置
US11169975B2 (en) * 2016-07-25 2021-11-09 Acxiom Llc Recognition quality management
CN106649764B (zh) * 2016-12-27 2020-04-17 北京汉王数字科技有限公司 文字检索方法及文字检索装置
US11093462B1 (en) 2018-08-29 2021-08-17 Intuit Inc. Method and system for identifying account duplication in data management systems
CN112380401B (zh) * 2021-01-14 2021-04-27 蚂蚁智信(杭州)信息技术有限公司 业务数据的核对方法和装置
CN113535883B (zh) * 2021-07-16 2023-10-31 携程旅游信息技术(上海)有限公司 商业场所实体链接方法、系统、电子设备及存储介质

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5175803A (en) * 1985-06-14 1992-12-29 Yeh Victor C Method and apparatus for data processing and word processing in Chinese using a phonetic Chinese language
US5337233A (en) * 1992-04-13 1994-08-09 Sun Microsystems, Inc. Method and apparatus for mapping multiple-byte characters to unique strings of ASCII characters for use in text retrieval
CA2116600C (en) * 1993-04-10 1996-11-05 David Jack Ittner Methods and apparatus for inferring orientation of lines of text
JPH07105223A (ja) * 1993-10-06 1995-04-21 Oki Electric Ind Co Ltd データベース検索装置
WO1995010805A1 (en) * 1993-10-08 1995-04-20 International Business Machines Corporation Message transmission across a network
WO1995017729A1 (en) * 1993-12-22 1995-06-29 Taligent, Inc. Input methods framework
US5659731A (en) * 1995-06-19 1997-08-19 Dun & Bradstreet, Inc. Method for rating a match for a given entity found in a list of entities
US5819291A (en) * 1996-08-23 1998-10-06 General Electric Company Matching new customer records to existing customer records in a large business database using hash key
US5818291A (en) * 1997-04-04 1998-10-06 United Memories, Inc. Fast voltage regulation without overshoot
JPH1125117A (ja) * 1997-07-08 1999-01-29 Oki Electric Ind Co Ltd 語検索装置
AU4449797A (en) * 1997-09-29 1999-04-23 Fujun Bi A multi-element confidence matching system and the method therefor
US6026398A (en) * 1997-10-16 2000-02-15 Imarket, Incorporated System and methods for searching and matching databases
US6963871B1 (en) * 1998-03-25 2005-11-08 Language Analysis Systems, Inc. System and method for adaptive multi-cultural searching and matching of personal names
US7720682B2 (en) * 1998-12-04 2010-05-18 Tegic Communications, Inc. Method and apparatus utilizing voice input to resolve ambiguous manually entered text input
WO2000057258A2 (en) 1999-03-19 2000-09-28 Cybersource Corporation Method and apparatus for verifying address information
US6393415B1 (en) * 1999-03-31 2002-05-21 Verizon Laboratories Inc. Adaptive partitioning techniques in performing query requests and request routing
CN1159661C (zh) * 1999-04-08 2004-07-28 肯特里奇数字实验公司 用于中文的标记和命名实体识别的系统
AU780926B2 (en) 1999-08-03 2005-04-28 Bally Technologies, Inc. Method and system for matching data sets
US6848080B1 (en) * 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
AU777445B2 (en) 1999-11-09 2004-10-14 Fraud-Check.Com, Inc. Method and system for detecting fraud in non-personal transactions
JP2001167087A (ja) * 1999-12-14 2001-06-22 Fujitsu Ltd 構造化文書検索装置,構造化文書検索方法,構造化文書検索用プログラム記録媒体および構造化文書検索用インデックス作成方法
US7287002B1 (en) 2000-02-18 2007-10-23 National Systems Corporation System for placing product delivery orders through the internet
US20030014610A1 (en) 2000-03-29 2003-01-16 Simon Mills Experience sharing
EP1139264A3 (en) 2000-03-29 2002-08-21 Ford Motor Company Order status inquiry and tracking
US20020133554A1 (en) 2000-05-25 2002-09-19 Daniel Checkoway E-mail answering agent
EP1356395A2 (en) 2000-06-30 2003-10-29 Troy Schultz Method and apparatus for a gis based search engine utilizing real time advertising
JP2002041276A (ja) * 2000-07-24 2002-02-08 Sony Corp 対話型操作支援システム及び対話型操作支援方法、並びに記憶媒体
TW548600B (en) * 2000-10-04 2003-08-21 Microsoft Corp Method and system for identifying attributes of new words in non-segmented text
JP2002189747A (ja) * 2000-12-19 2002-07-05 Hitachi Ltd 文書情報の検索方法
AU2002312183B2 (en) * 2001-05-31 2008-09-18 Mapinfo Corporation System and method for geocoding diverse address formats
WO2003012685A2 (en) * 2001-08-03 2003-02-13 Tristlam Limited A data quality system
US7152060B2 (en) 2002-04-11 2006-12-19 Choicemaker Technologies, Inc. Automated database blocking and record matching
US7174288B2 (en) * 2002-05-08 2007-02-06 Microsoft Corporation Multi-modal entry of ideogrammatic languages
WO2003107321A1 (en) * 2002-06-12 2003-12-24 Jena Jordahl Data storage, retrieval, manipulation and display tools enabling multiple hierarchical points of view
US7228501B2 (en) * 2002-11-01 2007-06-05 Microsoft Corporation Method for selecting a font
JP2006514620A (ja) 2002-11-06 2006-05-11 マウント シナイ スクール オブ メディシン ニメスリドを用いた筋萎縮性側索硬化症の治療
AU2003294245A1 (en) 2002-11-08 2004-06-03 Dun And Bradstreet, Inc. System and method for searching and matching databases
US7822757B2 (en) * 2003-02-18 2010-10-26 Dun & Bradstreet, Inc. System and method for providing enhanced information
US7256769B2 (en) * 2003-02-24 2007-08-14 Zi Corporation Of Canada, Inc. System and method for text entry on a reduced keyboard
US7395203B2 (en) * 2003-07-30 2008-07-01 Tegic Communications, Inc. System and method for disambiguating phonetic input
TW200512599A (en) * 2003-09-26 2005-04-01 Avectec Com Inc Method for keyword correlation analysis
US20060106769A1 (en) * 2004-11-12 2006-05-18 Gibbs Kevin A Method and system for autocompletion for languages having ideographs and phonetic characters
GB0507036D0 (en) * 2005-04-07 2005-05-11 Ibm Method and system for language identification
AU2006318417B2 (en) * 2005-11-23 2012-01-19 Dun And Bradstreet Corporation System and method for searching and matching data having ideogrammatic content

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015129971A1 (ko) * 2014-02-28 2015-09-03 현대엠엔소프트 주식회사 내비게이션의 검색 방법 및 그 장치
KR20150102464A (ko) * 2014-02-28 2015-09-07 현대엠엔소프트 주식회사 내비게이션의 검색 방법 및 그 장치

Also Published As

Publication number Publication date
EP1952285B1 (en) 2010-09-08
JP5274259B2 (ja) 2013-08-28
JP2009524852A (ja) 2009-07-02
AU2006318417B2 (en) 2012-01-19
AU2006318417A1 (en) 2007-05-31
CA2630683C (en) 2014-10-28
US20070162445A1 (en) 2007-07-12
DE602006016846D1 (de) 2010-10-21
KR101276602B1 (ko) 2013-06-19
CN101542475B (zh) 2013-05-29
WO2007062156A2 (en) 2007-05-31
DK1952285T3 (da) 2011-01-10
CN101542475A (zh) 2009-09-23
HK1121266A1 (en) 2009-05-29
EP1952285A4 (en) 2009-04-22
TWI426399B (zh) 2014-02-11
TW200809549A (en) 2008-02-16
ATE480827T1 (de) 2010-09-15
CA2630683A1 (en) 2007-05-31
EP1952285A2 (en) 2008-08-06
US7584188B2 (en) 2009-09-01
WO2007062156A3 (en) 2007-11-08
AU2006318417A2 (en) 2008-10-23

Similar Documents

Publication Publication Date Title
KR101276602B1 (ko) 표의문자적 내용을 가지는 데이터를 서치하고 매칭하기위한 시스템 및 방법
AU2010249253B2 (en) A method for automatically indexing documents
US5659731A (en) Method for rating a match for a given entity found in a list of entities
US8468167B2 (en) Automatic data validation and correction
KR101511656B1 (ko) 퍼스널 아이덴티티를 기술하는 데이터에 대한 액셔너블 속성의 애스클라이빙
CN111125343A (zh) 适用于人岗匹配推荐系统的文本解析方法及装置
CN112101040B (zh) 一种基于知识图谱的古代诗词语义检索方法
CN111767716A (zh) 企业多级行业信息的确定方法、装置及计算机设备
JP2012230713A (ja) 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム
AU2002331728A1 (en) A method for automatically indexing documents
CA2906767A1 (en) Non-deterministic disambiguation and matching of business locale data
CN112395881A (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
CN116431746A (zh) 基于编码库的地址映射方法、装置、电子设备及存储介质
CN114327607A (zh) 一种bs代码自动生成方法
CN113535883A (zh) 商业场所实体链接方法、系统、电子设备及存储介质
CN105138544B (zh) 一种重塑逻辑演绎链的搜索方法
KR102661768B1 (ko) 추천 질의문 생성 방법
AU2012258320A1 (en) A method for automatically indexing documents
CN114444509A (zh) 命名实体识别模型的测试方法、装置、设备及存储介质
CN116932487A (zh) 一种基于数据段落划分的量化式数据分析方法及系统
WO2024049320A1 (ru) Способ и устройство подбора продукта на основании индекса релевантности
JPH1153435A (ja) エンティティの一覧中に発見された所与のエンティティにマッチするものを等級分けする方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180530

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20190611

Year of fee payment: 7