KR20150008462A - 사람들에 관한 데이터베이스의 데이터를 검증하는 방법 - Google Patents

사람들에 관한 데이터베이스의 데이터를 검증하는 방법 Download PDF

Info

Publication number
KR20150008462A
KR20150008462A KR1020147034424A KR20147034424A KR20150008462A KR 20150008462 A KR20150008462 A KR 20150008462A KR 1020147034424 A KR1020147034424 A KR 1020147034424A KR 20147034424 A KR20147034424 A KR 20147034424A KR 20150008462 A KR20150008462 A KR 20150008462A
Authority
KR
South Korea
Prior art keywords
person
data
correlation
age
verified
Prior art date
Application number
KR1020147034424A
Other languages
English (en)
Other versions
KR101709765B1 (ko
Inventor
올리비에 시피에르
Original Assignee
모르포
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 모르포 filed Critical 모르포
Publication of KR20150008462A publication Critical patent/KR20150008462A/ko
Application granted granted Critical
Publication of KR101709765B1 publication Critical patent/KR101709765B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/178Techniques for file synchronisation in file systems
    • G06F16/1794Details of file format conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • G06F16/436Filtering based on additional data, e.g. user or group profiles using biological or physiological data of a human being, e.g. blood pressure, facial expression, gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/17Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method
    • G06F17/175Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method of multidimensional data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/178Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Algebra (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Collating Specific Patterns (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Complex Calculations (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 각각의 사람에 대하여, 나이, 이름, 성별, 초상(肖像), 지문 이미지들, 또는 다른 생체 데이터 아이템들과 같은 복수의 데이터 아이템들을 포함하는, 사람들의 집합에 관한 데이터베이스의 소정의 아이템들을 자동으로 검증하는 방법을 제공하며, 상기 방법은, ·각각의 사람에 대하여 각각의 사람의 소정의 데이터 아이템들을 서로 연관시키는 복수의 상관들을 결정하는 단계; ·검증되는 각각의 데이터 아이템에 대하여, 적어도 상기 데이터 아이템의 제1 상관이 동일한 사람에 대해 제1의 다른 데이터 아이템으로 검증됨 그리고 상기 데이터 아이템의 제2 상관이 동일한 사람에 대해 제2의 다른 데이터 아이템으로 검증됨에 의존하여 신뢰도 스코어를 계산하는 단계; 및 ·상기 신뢰도 스코어를 임계값과 비교하여 상기 검증되는 데이터 아이템이 유효한 것인지의 여부를 결정하는 단계;를 포함한다.

Description

사람들에 관한 데이터베이스의 데이터를 검증하는 방법{Method for checking the data of a database relating to persons}
본 발명은 이름, 나이, 생일, 성별, 초상(肖像), 지문들, 및/또는 다른 생체 데이터와 같은, 사람들에 관한 데이터를 저장하는 데이터베이스의 콘텐츠를, 상기 데이터베이스에 저장된 데이터의 입력 오류들 및/또는 위조 시도들을 식별할 목적으로, 검증하는 것에 관한 것이다.
이를 위해, 본 발명은 각각의 사람에 대하여 나이, 이름, 성별과 같은 데이터 복수의 데이터 아이템들을 포함하는 사람들의 집합에 관한 데이터베이스의 소정의 아이템들을 자동으로 검증하는 방법을 제공하며, 상기 방법은,
·각각의 사람에 대하여 각각의 사람의 소정의 데이터 아이템들을 서로 연관시키는 복수의 상관들을 결정하는 단계;
·검증되는 각각의 데이터 아이템에 대하여, 적어도 상기 데이터 아이템의 제1 상관이 동일한 사람에 대해 제1의 다른 데이터 아이템으로 검증됨 그리고 상기 데이터 아이템의 제2 상관이 동일한 사람에 대해 제2의 다른 데이터 아이템으로 검증됨에 의존하여 신뢰도 스코어를 계산하는 단계; 및
·상기 신뢰도 스코어를 임계값과 비교하여 상기 검증되는 데이터 아이템이 유효한 것인지의 여부를 결정하는 단계;
를 포함한다.
본 발명은 또한 위에 정의된 바와 같은 방법을 제공하는데, 이 경우에 각각의 사람에 대해 저장된 데이터는 첫 번째로 생일과 함께 성별을, 그리고 두 번째로 초상 및 지문을 포함하며, 상기 방법은, 각각의 사람에 대해, 상기 초상을 가지는 성별 및 나이 및 상기 지문을 가지는 성별 및 나이 간의 상관들을 확립하는 단계를 포함한다.
본 발명은 또한 위에 정의된 바와 같은 방법을 제공하는데, 이 경우에 각각의 사람에 대해 저장된 데이터는 이름을 포함하며, 상기 방법은, 각각의 사람에 대해, 국가적 데이터로부터 획득된 통계치들에 상응하며 각각의 사람의 출생 연도에 대해 각각의 사람의 이름의 빈도를 나타내는 상관을 확립하는 단계를 포함한다.
본 발명은 또한 위에 정의된 바와 같은 방법을 제공하며, 상기 방법은, 국가적 데이터로부터 획득되는 통계치들에 상응하며 각각의 사람의 출생 연도 및 성별을 고려하여 각각의 사람의 이름의 빈도를 나타내는 상관 값이 획득될 수 있게 하는 단계를 포함한다.
도 1은 삼각형들로 표현된 남성들 및 원형들로 표현된 여성들의 모집단을 점들의 군으로 나타낸 그래프로서, 각각의 개인에 대하여 가로축을 따라서는 나이를 표시하고 세로축을 따라서는 밀리미터 단위로 이루어진 지문 융선들의 폭을 표시하는 그래프이다.
도 2는 남성에 대한 신뢰 구간 및 불신 구간을 각각 구성하는 중간 영역 및 하부 영역을 보여주는 도 1의 그래프이다.
도 3은 여성에 대한 불신 구간 및 신뢰 구간을 각각 구성하는 상부 영역 및 중간 영역을 보여주는 도 1의 그래프이다.
도 4는 나이에 대한 불신 구간들을 구성하는 상부 영역 및 하부 영역과 함께, 나이에 대한 신뢰 구간을 구성하는 중간 영역을 보여주는 도 1의 그래프이다.
도 5는 미국에서 태어난 소년들에 대해 '야곱(Jacob)'이라는 이름의 연간 빈도를 보여주는 그래프로서, 가로축을 따라서는 출생 연도를 표시하고 세로축을 따라서는 천명에 대한 빈도를 표시하는 그래프이다.
본 발명이 기초를 두고 있는 개념은 각각의 개인들에 대하여, 각각의 상관이 각각의 개인에 대해 소정의 데이터 아이템들을 연관시키는 복수의 상관들을 결정하고, 이러한 상관들을 조합하여, 단지 일치하지 않은 것으로 보이는 데이터를 갖는 각각의 개인만을 식별하는 대신에, 일치하지 않는 것으로 보이는 각각의 데이터 아이템을 개인적으로 그리고 직접적으로 식별하는 것이다.
이는 검증되는 각각의 데이터 아이템(이름, 생일, 또는 성별)에 대하여 동일한 사람에 관한 적어도 2개의 다른 별개의 데이터 아이템과의 일치를 평가함으로써 수행된다. 따라서, 데이터 아이템에 대한 신뢰 스코어는 상기 데이터 아이템에 대한 상관 값을 제1의 다른 데이터 아이템과 조합하고 상기 데이터 아이템에 대한 상관 값을 제2의 다른 데이터 아이템과 조합하는 계산을 수행함으로써 결정된다.
그리고나서, 검증되는 각각의 데이터 아이템에 대한 스코어는 상기 검증되는 아이템이 유효한 것으로 간주하여야 하는 것인지 아니면 유효하지 않은 것으로 간주하여야 하는 것인지를 결정하여, 아이템이 유효하지 않은 경우에 경고 메시지를 생성하도록 임계값과 비교된다.
이하의 예에서는, 본 발명이 데이터베이스에 저장된 사람들의 집합 또는 개인들의 성별, 나이, 및 이름과 아울러, 특히 사람들 각각에 대한 지문 및 초상(肖像)을 포함하는 추가 데이터를 검증하는데 사용된다.
특히, 개인의 지문 융선들의 폭 및 그 개인의 성별 간의 상관이 존재하며, 개인의 지문 융선들의 폭 및 해당 개인의 나이 간의 또 다른 상관이 존재한다. 이는, 웹 주소 http://www.staff.amu.edu.pl/~anthro/pdf/ve/vol011/01kralik.pdf에서 입수가능한 Miroslav Kralik과 Vladimir Novotny의 논문 "Epidermal ridge breadth, an indicator of age and sex in paleodermatoglyphics"에 구체적으로 기재되어 있다.
유사한 방식으로, 개인의 초상 및 그 개인의 성별을 연관시키는 상관이 존재하며, 그 개인의 초상을 나이에 연관시키는 또 다른 상관이 존재한다. 이는 웹 주소 http://chenlab.ece.cornell.edu/people/Andy/projectpage_names.html에서 입수가능한 Andrew Gallagher과 Tsuhan Chen의 논문 "Estimating age, gender, and identity using firstname priors"에 특히 구체적으로 기재되어 있다.
도 1에 도시된 바와 같이, 모집단의 지문 융선들의 폭은 일반적으로 여성의 경우보다 남성의 경우에 더 크고, 이는 또한 그러한 모집단의 개인의 나이에 따라 증가한다.
따라서, 이러한 그래프에서 남성에 대한 신뢰 구간에 상응하는 중간 영역, 남성에 대한 불신 구간에 상응하는 하부 영역을 정의하는 것이 가능하다.
도 2에 도시된 바와 같이, 남성에 대한 신뢰 구간은 (삼각형으로 표현된) 대부분의 남성을 커버하는 스트립에 상응하며, 남성에 대한 불신 구간은 실제로 어떠한 남성 개인들도 포함하지 않는, 남성 신뢰 구간 아래에 있는 영역이다.
남성의 신뢰 구간은 도 2에서 링으로 이루어진 남성 기호로 나타나 있으며, 이는 도 1의 상위 곡선에 상응하는, 남성에 대한 값들의 평균 곡선을 처음으로 정의함으로써, 그리고 상기 평균 곡선의 어느 한 측 상에 예컨대 남성 모집단의 95%를 포함함을 제공하는 2개의 포락선(envelope curve)을 정의함으로써 지정될 수 있다.
유사한 방식으로, 도 2에서 X로 표시된 남성 기호로 나타나 있는 바와 같은, 남성에 대한 불신 구간은 남성에 대한 평균 곡선 아래에 있지만, 남성 개인들의 단지 2% 위에만 있는 상한 곡선을 정의함으로써 결정될 수 있다. 그리고나서, 남성에 대한 불신 구간은 이러한 방식으로 정의된 바와 같은 곡선 하부에 있는 임의의 영역에 의해 구성된다.
따라서, 남성인 것으로 데이터베이스에 기록된 사람의 성별 및 그 사람의 지문 간의, Cge로 표기되는 상관을 결정하는 것이 가능한데, 한가지 가능성은 그 사람의 나이에 의해 그리고 그 사람의 지문의 융선 폭에 의해 정의되는 점이 남성에 대한 신뢰 구간에 있는지, 아니면 이와는 반대로 불신 구간에 있는지를 결정하는 데 있다.
이때, 상기 점이 남성에 대한 신뢰 구간 내에 있는 경우에 값 "1"이 Cge에 부여될 수 있고, 상기 점이 불신 구간에 있는 경우에 그 상관에 값 "0"이 부여될 수 있다. 상기 점이 신뢰 구간 외부에 있고 불신 구간 외부에 있는 경우에는 중간값, 예컨대 0.5가 부여될 수 있다.
다른 한 해결수단은 남성에 대한 평균 곡선(도 1의 상위 곡선)으로부터 나이 및 지문 융선 폭에 의해 정의된 점 간의 거리를 계산하는 데 있을 수 있으며, Cge가 범위 0 내지 1로 부여되는 값은 이러한 거리에 대한 값이 감소함에 따라 증가한다.
유사한 방식으로, 여성에 대한 신뢰 구간 및 불신 구간을 정의하는 것이 가능하다.
도 3에 개략적으로 도시된 바와 같이, 링으로 이루어진 여성 기호로 나타나 있는, 여성에 대한 신뢰 구간은 여성 개인들의 95%와 같은 큰 비율을 커버하도록 여성에 대한 평균 곡선, 다시 말하면 도 1의 하위 곡선을 에워싸는, 상기 그래프의 중간 위치에 있는 스트립이다.
X로 표시된 여성 기호로 나타나 있는, 여성에 대한 불신 구간은 예를 들면 2%와 같은 여성 개인들의 매우 낮은 비율을 커버하도록 신뢰 구간 위에 있는 상부 영역이다.
남성의 경우와 같이, 여성에 대한 신뢰 구간 내에 있는 여성인 것으로 언급되는 개인들 모두에 대해 Cge를 값 1로 부여하고, 여성이지만 여성에 대한 불신 구간에 있는 것으로 기록된 개인들에 대해 Cge를 값 0으로 부여하는 것이 가능하다. 점이 신뢰 구간 외부에 있고 불신 구간 외부에 있는 경우에 중간값, 예컨대 0.5가 Cge에 부여된다.
다시 한번, 다른 한 가능성은 여성으로서 기록된 소정의 개인에 대해 그러한 여성의 나이 및 지문 융선 폭에 상응하는 점, 및 도 1의 하위 곡선인 여성에 대한 평균 곡선 간의 거리를 결정하는 데 있을 수 있다. Cge에 대해 부여되는 범위 0 내지 1의 값은 해당 거리에 대한 값이 감소함에 따라 증가한다.
위에서 언급한 바와 같이, 또한 고려 중에 있는 개인들의 나이 및 지문 융선 폭 간의 Cae로 표기되는 상관이 존재한다. 이러한 상관은 나이에 대한 신뢰 구간과 아울러 2개의 불신 구간을 도 1의 그래프 상에 정의하는 것을 가능하게 한다.
도 4에서 링으로 이루어진 글자 A로 나타나 있는 나이에 대한 신뢰 구간은 고려 중에 있는 모집단에서 개인들(남성 및 여성) 대부분을 커버하는 중간 스트립이다. 이러한 중간 스트립은 도 1에서의 상위 곡선 및 하위 곡선 사이의 중간에 상응하는 개인들 모두에 대한 평균 곡선을 초기에 계산한 다음에, 예컨대 개인들의 95%를 커버하도록 상기 평균 곡선의 상부 및 하부에 있는 2개의 포락선을 결정함으로써 정의될 수 있다.
도 4에서 X로 표시된 글자 A로 나타나 있는, 나이에 대한 2개의 불신 구간은 나이에 대한 중간 신뢰 구간의 상부 및 하부에 각각 있는 2개의 영역에 상응하며, 이러한 2개의 불신 구간은 상기 모집단의 개인들의 매우 낮은 비율, 예컨대 상기 모집단의 2%에 상응하는, 상기 모집단의 개인들의 매우 낮은 비율을 커버한다.
마찬가지로, 소정의 개인에 대한 나이 및 지문 간의 상관(Cae)에 대한 값을 결정하는 것은, Cae를 값 1 또는 값 0으로 부여하기 위해, 해당 개인에 상응하는 점이 나이에 대한 신뢰 구간에 있는지, 아니면 해당 개인에 상응하는 점이 나이에 대한 불신 구간에 있는지를 결정함으로써 수행될 수 있다. 마찬가지로, 다른 한 해결수단은 거리에 대한 값이 감소함에 따라 증가하는, 범위 0 내지 1에 있는 값으로 상기 상관(Cae)을 부여하도록 개인들 모두에 대한 평균 곡선으로부터 고려중에 있는 개인을 나타내는 점 간의 거리를 결정하는 데 있다.
따라서, 당업자라면 예를 들어 소정의 모집단 샘플에 대한 통계치를 취함으로써 얻어지는 데이터를 보여주는 도 1 내지 도 4의 그래프가 상기 데이터베이스에 기록된 사람들 각각에 대하여 그러한 사람의 성별 및 지문 간의 상관(Cge), 및 그러한 사람의 나이 및 지문 간의 상관(Cae)을 결정하는 것을 가능하게 해준다는 점을 이해할 수 있을 것이다.
상기 데이터베이스에 기록된 각각의 개인의 초상은 그러한 개인의 나이 및 성별에 대한 2개의 다른 상관을 확립하는데 사용된다.
Cap로 표기되는, 나이 및 초상 간의 상관은 초기에 각각의 초상이 실제 나이와 관련된 일련의 초상들을 시스템에 제공함으로써 확립될 수 있다. 그 후, 상기 시스템에는 알지 못하는 초상이 제공될 경우에, 상기 시스템은 상기 알지 못하는 초상을 상기 시스템이 이용할 수 있던 일련의 초상들과 비교하고 가장 비슷한, 아마도 유사도를 계산함으로써 가장 비슷한 초상들을 결정하기 위한 자신의 참조 데이터베이스를 구성한다. 그리고나서, 비슷하게 보이는 초상들의 나이들에 대한, 유사도로 가중되는 평균을 계산함으로써 결정된다. 성별 및 초상 간의 Cgp로 표기되는 상관은 유사한 방식으로 확립된다.
그 외에도, 상기 데이터베이스에 저장된 각각의 사람에 대한 하나 이상의 추가 상관들을 확립하기 위한 외부의 통계치들이 사용될 수 있다.
특히, 매년 소정의 이름으로 대표되는 소정의 성별의 출생 비율을 결정하는 것을 가능하게 하는 국가적 통계치들이 대개 존재한다.
그러한 통계치들은 1830년 이래로 매년 미국에서 태어난 야곱(Jacob)이라는 이름에 의해 대표되는 남성 출생 비율을 제공하는, 도 5의 그래프와 같은 그래프를 만드는 것을 가능하게 한다.
이러한 그래프는 소정의 개인의 나이 및 이름에 대한 Cpa로 표기되는 상관을 확립하는 것을 가능하게 해준다. 해당 상관의 값은, 고려중에 있는 이름에 대한 그리고 고려 중에 있는 출생 연도에 대한 출생 비율이 예를 들면 수 천명의 출생들에 대해 1 또는 2일 수 있는 임계값보다 낮은 경우에 상기 상관이 작다는 것, 예를 들면 상기 상관이 0이라는 것을 고려함으로써 결정될 수 있다.
그러한 상황하에서는, 미국에서 1956년도 출생했고 야곱이라는 이름을 가지는 사람들에 대해 나이와 이름에 대한 상관(Cpa)이 낮은데, 이것이 의미하는 것은 입력 오류, 예컨대 미국에서 1976년도에 출생한 남성에 대한 해당 이름, 다시 말하면 야곱이라는 이름이 천명에 대하여 1 또는 2 명보다 많은 남성 출생을 나타내고 있는 한 그러한 사람의 생일에 대한 입력 오류가 있을 수 있다는 점을 의미한다.
상관 값(Cpa)을 결정하는 다른 한 방법은 고려 중에 있는 출생 연도에 대하여 해당 이름의 빈도가 감소함에 따라 감소하는 수치 값을 계산하는 데 있을 수 있다.
유사한 방식으로, 그리고 당업자라면 쉽게 이해할 수 있는 바와 같이, 이름에 대한 이러한 통계치들은 또한 이러한 통계치들이 각각의 출생 연도에 대하여 남성들 및 여성들에 일반적으로 이용가능하다는 점을 고려하면 Cpg로 표기되는 이름 및 성별 간의 상관 값을 결정하는 것을 가능하게 해준다.
마지막으로, 상기 데이터베이스에 나타나 있는 각각의 사람에 대해, 다음과 같은 6개의 상관, 즉 Cap = 나이-초상; Cae = 나이-지문; Cgp = 성별-초상; Cge = 성별-지문; Cpa = 이름-나이; Cpg = 이름-성별;이 확립되는 데, 이러한 상관들 모두는 범위 0 내지 1에 있는 값들을 지닌다.
그리고나서, 이러한 상관들은 각각의 사람에 대하여 각각의 사람의 성별에 대한 스코어, 각각의 사람의 나이에 대한 스코어, 및 각각의 사람의 이름에 대한 스코어를 결정하도록 조합된다.
상기 상관들은 각각의 스코어를 정의하도록 직접 조합될 수 있으며, 그리하여 이를 기초로 해서, 각각의 스코어에 대해 신뢰 임계값 및 불신 임계값을 정의하는 것이 가능하다. 데이터의 스코어가 상기 확신 임계값보다 큰 경우에 상기 데이터가 유효한 것으로 간주하고, 데이터의 스코어가 상기 불신 임계값보다 작은 경우에 유효하지 않은 것으로 간주하는데, 이는 그 후에 경고가 확립되게 한다. 그러한 2개의 임계값 사이에 있는 스코어를 지니는 데이터가 유효하거나 유효하지 않거나 함을 결정하는 것이 가능하다.
특정한 데이터 아이템과 관련된 스코어는 단지 그러한 데이터 아이템을 포함하는 상관들의 합으로, 아마도 함께 가산된 상관들의 개수로 나눠짐으로써 그 결과가 반드시 범위 0 내지 1에 있는 값을 지니게 할 수 있다. 상기 불신 임계값 및 상기 확신 임계값은 경험적으로 결정될 수 있다.
다른 한 가능성은 상관 값을 "불신" 값으로 변환한 후에 해당 상관이 각각 신뢰 임계값보다 크거나, 신뢰 임계값 및 불신 임계값 사이에 있거나, 또는 불신 임계값보다 작은 스코어를 지니는지에 따라, 0, 또는 1, 또는 2일 수 있는 데이터 아이템들 각각에 대한 스코어를 계산하는 데 있을 수 있다.
이러한 해결수단은 복수의 상관들을 조합함으로써 자체적으로 초래되는 스코어들에 대한 것이 아니고 성능 및/또는 신뢰도 수준들이 일반적으로 알려져 있는 상관들에 대한 임계값들을 직접 정의함으로써 필연적으로 상기 임계값을 결정하는 것을 용이하게 해준다.
그러한 상황하에서, 나이 아이템에 대해 부여된 스코어는 이때
1 - (Sap + Saf + Sna)/3
일 수 있으며, 상기 성별 아이템에 대해 부여된 스코어는 이때
1 - (SSgp + SSgf + SSng)/3
이고, 그리고 상기 이름 아이템에 대해 부여된 스코어는
1 - (SSng + Ssna)/2
이다.
음(-)인 스코어를 지니는 각각의 데이터 아이템에 대하여 경고를 발할 것을 결정하고 아이템의 스코어가 1인 경우에 아이템이 유효한 것으로 고려하는 것이 가능하다. 범위 0 내지 1에 있는 스코어를 지니는 데이터 아이템들이 유효하거나 유효하지 않은 것으로 고려하거나, 실제로 데이터 아이템들이 덜 중요하다는 경고를 야기할 수 있는 것으로 고려하는 것이 가능하다.
당업자라면 이해할 수 있겠지만, 본 발명은 데이터베이스의 콘텐츠를 처리하기 위해 프로세서, 메모리, 컴퓨터 프로그램을 실행하기 위한 타입의 수단 등을 지니는 컴퓨터 시스템에서 수행된다. 이때, 상기 프로그램은 상기 데이터베이스를 처리하고 유효하지 않은 것으로 보이는 데이터 아이템들의 리스트를 반환하기 위해 상기 프로그램에 실행 의뢰되는 상기 데이터베이스의 콘텐츠를 분석한다. 일단 상관 통계치들이 대표적인 샘플 상에 확립되면, 본 발명은 또한 수동으로 입력되는 데이터를 식별하도록 부여되는 신뢰를 실시간으로 평가하는 것을 가능하게 한다.
더군다나, 데이터베이스의 개인들의 나이에 관해서는, 각각의 개인에 대해 저장된 생일을 기반으로 하여 결정되는 것이 일반적이다. 유리한 점으로는, 상기 데이터베이스가 각각의 사람의 지문 및/또는 초상의 포착 일자를 포함하며, 고려되는 나이는 이때 상기 지문 및/또는 초상의 포착 일자에서의 상기 사람의 나이이다.

Claims (4)

  1. 각각의 사람에 대하여, 나이, 이름, 성별, 초상(肖像), 지문들, 또는 다른 생체 데이터 아이템들과 같은 복수의 데이터 아이템들을 포함하는, 사람들의 집합에 관한 데이터베이스의 소정의 아이템들을 자동으로 검증하는 방법에 있어서,
    상기 방법은,
    ·각각의 사람에 대하여 각각의 사람의 소정의 데이터 아이템들을 서로 연관시키는 복수의 상관들을 결정하는 단계;
    ·검증되는 각각의 데이터 아이템에 대하여, 적어도 상기 데이터 아이템의 제1 상관이 동일한 사람에 대해 제1의 다른 데이터 아이템으로 검증됨 그리고 상기 데이터 아이템의 제2 상관이 동일한 사람에 대해 제2의 다른 데이터 아이템으로 검증됨에 의존하여 신뢰도 스코어를 계산하는 단계; 및
    ·상기 신뢰도 스코어를 임계값과 비교하여 상기 검증되는 데이터 아이템이 유효한 것인지의 여부를 결정하는 단계;
    를 포함하는, 데이터베이스의 아이템들의 자동 검증 방법.
  2. 제1항에 있어서, 각각의 사람에 대해 저장된 데이터는 첫 번째로 생일과 함께 성별을, 그리고 두 번째로 초상 및 지문을 포함하며,
    상기 방법은, 각각의 사람에 대해, 상기 초상을 가지는 성별 및 나이 및 상기 지문을 가지는 성별 및 나이 간의 상관들을 확립하는 단계;
    를 포함하는, 데이터베이스의 아이템들의 자동 검증 방법.
  3. 제2항에 있어서, 각각의 사람에 대해 저장된 데이터는 이름을 포함하며,
    상기 방법은,
    각각의 사람에 대해, 국가적 데이터로부터 획득된 통계치들에 상응하며 각각의 사람의 출생 연도에 대해 각각의 사람의 이름의 빈도를 나타내는 상관을 확립하는 단계;
    를 포함하는, 데이터베이스의 아이템들의 자동 검증 방법.
  4. 제3항에 있어서,
    상기 방법은,
    국가적 데이터로부터 획득되는 통계치들에 상응하며 각각의 사람의 출생 연도 및 성별을 고려하여 각각의 사람의 이름의 빈도를 나타내는 상관 값이 획득될 수 있게 하는 단계;
    를 포함하는, 데이터베이스의 아이템들의 자동 검증 방법.
KR1020147034424A 2012-05-09 2013-04-25 사람들에 관한 데이터베이스의 데이터를 검증하는 방법 KR101709765B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1254220A FR2990537B1 (fr) 2012-05-09 2012-05-09 Procede de verification des donnees d'une base de donnees relative a des personnes
FR1254220 2012-05-09
PCT/EP2013/058588 WO2013167388A1 (fr) 2012-05-09 2013-04-25 Procede de verification des donnees d'une base de donnees relative a des personnes

Publications (2)

Publication Number Publication Date
KR20150008462A true KR20150008462A (ko) 2015-01-22
KR101709765B1 KR101709765B1 (ko) 2017-02-23

Family

ID=46963791

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147034424A KR101709765B1 (ko) 2012-05-09 2013-04-25 사람들에 관한 데이터베이스의 데이터를 검증하는 방법

Country Status (15)

Country Link
US (2) US20150100603A1 (ko)
EP (1) EP2847690A1 (ko)
JP (1) JP6113270B2 (ko)
KR (1) KR101709765B1 (ko)
CN (1) CN104520846B (ko)
AU (2) AU2013258296A1 (ko)
BR (1) BR112014027747A2 (ko)
CA (1) CA2872095A1 (ko)
FR (1) FR2990537B1 (ko)
HK (1) HK1206120A1 (ko)
IL (1) IL235513B (ko)
MX (1) MX357138B (ko)
RU (1) RU2604988C2 (ko)
WO (1) WO2013167388A1 (ko)
ZA (1) ZA201408751B (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10467204B2 (en) 2016-02-18 2019-11-05 International Business Machines Corporation Data sampling in a storage system
US10437840B1 (en) * 2016-08-19 2019-10-08 Palantir Technologies Inc. Focused probabilistic entity resolution from multiple data sources

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09297686A (ja) * 1996-05-07 1997-11-18 Mitsubishi Electric Corp データマイニング装置
JP2003114231A (ja) * 2001-07-31 2003-04-18 A & T:Kk 臨床検査分析装置、臨床検査分析方法および臨床検査分析プログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5684892A (en) * 1995-08-22 1997-11-04 Taguchi; Genichi Method for pattern recognition
RU2107461C1 (ru) * 1996-09-17 1998-03-27 Бюро судебно-медицинской экспертизы Министерства здравоохранения Ленинградской области Способ идентификации личности по скелетированным костным останкам
US6523019B1 (en) * 1999-09-21 2003-02-18 Choicemaker Technologies, Inc. Probabilistic record linkage model derived from training data
US6993378B2 (en) * 2001-06-25 2006-01-31 Science Applications International Corporation Identification by analysis of physiometric variation
US20040153421A1 (en) * 2001-09-21 2004-08-05 Timothy Robinson System and method for biometric authorization of age-restricted transactions conducted at an unattended device
AU2003265238A1 (en) * 2002-05-21 2004-01-06 Bio-Key International, Inc. Systems and methods for secure biometric authentication
US7287019B2 (en) * 2003-06-04 2007-10-23 Microsoft Corporation Duplicate data elimination system
US7263213B2 (en) * 2003-12-11 2007-08-28 Lumidigm, Inc. Methods and systems for estimation of personal characteristics from biometric measurements
US7836004B2 (en) * 2006-12-11 2010-11-16 International Business Machines Corporation Using data mining algorithms including association rules and tree classifications to discover data rules
CN101546312B (zh) * 2008-03-25 2012-11-21 国际商业机器公司 用于检测异常的数据记录的方法和设备
JP5164646B2 (ja) * 2008-04-08 2013-03-21 国立大学法人高知大学 臨床検査データ解析支援装置、臨床検査データ解析支援方法及びそのプログラム
US8995946B2 (en) * 2010-03-30 2015-03-31 Salamander Technologies System and method for accountability by interlinking electronic identities for access control and tracking of personnel during an incident or at an emergency scene
CN102025531B (zh) * 2010-08-16 2014-03-05 北京亿阳信通科技有限公司 一种性能数据的填补方法及其装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09297686A (ja) * 1996-05-07 1997-11-18 Mitsubishi Electric Corp データマイニング装置
JP2003114231A (ja) * 2001-07-31 2003-04-18 A & T:Kk 臨床検査分析装置、臨床検査分析方法および臨床検査分析プログラム

Also Published As

Publication number Publication date
CN104520846B (zh) 2019-03-19
MX357138B (es) 2018-06-27
FR2990537B1 (fr) 2014-05-30
IL235513A0 (en) 2015-01-29
KR101709765B1 (ko) 2017-02-23
CA2872095A1 (fr) 2013-11-14
RU2604988C2 (ru) 2016-12-20
HK1206120A1 (en) 2015-12-31
BR112014027747A2 (pt) 2017-06-27
WO2013167388A1 (fr) 2013-11-14
JP2015521314A (ja) 2015-07-27
US20190026495A1 (en) 2019-01-24
RU2014149344A (ru) 2016-07-10
AU2013258296A1 (en) 2014-11-27
US20150100603A1 (en) 2015-04-09
AU2018204929A1 (en) 2018-07-26
EP2847690A1 (fr) 2015-03-18
IL235513B (en) 2018-03-29
FR2990537A1 (fr) 2013-11-15
JP6113270B2 (ja) 2017-04-12
ZA201408751B (en) 2016-09-28
MX2014013479A (es) 2015-05-07
CN104520846A (zh) 2015-04-15

Similar Documents

Publication Publication Date Title
CN108876636B (zh) 理赔智能风控方法、系统、计算机设备及存储介质
US10426378B1 (en) Systems and methods for automated body mass index calculation to determine value
O'Brien Measuring the convergence/divergence of “serious crime” arrest rates for males and females: 1960–1995
EP2199945A2 (en) Biometric authentication device and method, computer-readable recording medium recorded with biometric authentication computer program, and computer system
KR101244220B1 (ko) 지문인식장치 및 그 지문 인식방법
RU2015140581A (ru) Системы, способы и компьютерочитаемые носители для выявления вероятного влияния медицинского состояния на пациента
JP6040640B2 (ja) 画像処理装置及びプログラム
Merritt A test of Hartnett's revisions to the pubic symphysis and fourth rib methods on a modern sample
Arnold et al. Causes-of-death mortality: What do we know on their dependence?
KR101709765B1 (ko) 사람들에 관한 데이터베이스의 데이터를 검증하는 방법
AU2017236048A1 (en) Determining an emergent identity over time
JP2006059071A (ja) 認証装置および認証方法
CN110473616B (zh) 一种语音信号处理方法、装置及系统
Wilson et al. Quantification of 3D curvature in the iliac crest: ontogeny and implications for sex determination in juveniles
Stoyanova et al. A study on the asymmetry of the human left and right pubic symphyseal surfaces using high‐definition data capture and computational shape methods
KR101274431B1 (ko) 설문 정보를 이용한 건강 상태 판단 장치 및 방법, 건강 분류 함수 생성 장치 및 그 방법
CN106295597A (zh) 一种获取客流信息的方法及装置
JP7195882B2 (ja) 現地気圧に基づく体調管理支援装置
Feng et al. Political Capacity and Demographic Change: A Study of China with a Comparison to India
WO2019196300A1 (zh) 电子装置、鼻咽癌筛查分析方法和计算机可读存储介质
JP2016218966A (ja) 分析システム、及び、分析方法
Severeyn et al. Towards the prediction of mortality in Intensive Care Units patients: A Simple Correspondence Analysis approach
CN113488127B (zh) 一种人口健康数据集敏感度处理方法及系统
JP7318804B2 (ja) 類似度計算機、認証システム、類似度計算方法、類似度計算プログラムおよび類似度計算プログラムの生成方法
WO2022176294A1 (ja) 情報処理装置、情報処理方法、照合システム、プログラム及び記録媒体

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant