KR102349908B1

KR102349908B1 - 모델 훈련 방법 및 데이터 유사성 결정 방법, 그 장치 및 디바이스

Info

Publication number: KR102349908B1
Application number: KR1020197023923A
Authority: KR
Inventors: 난 지앙; 홍웨이 자오
Original assignee: 어드밴스드 뉴 테크놀로지스 씨오., 엘티디.
Priority date: 2017-07-19
Filing date: 2018-07-19
Publication date: 2022-01-12
Also published as: EP3611657A1; TW201909005A; EP3611657A4; US11288599B2; US20200167693A1; SG11201907257SA; PH12019501851A1; KR20200014723A; CN107609461A; WO2019015641A1; TWI735782B; JP2020524315A; JP6883661B2; US20200012969A1

Abstract

본 출원의 실시예는 모델 훈련 방법, 장치 및 디바이스, 및 데이터 유사성 결정 방법, 장치 및 디바이스를 개시한다. 모델 훈련 방법은, 복수의 사용자 데이터 쌍을 취득하는 단계 - 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터의 데이터 필드는 동일한 부분을 가짐 -; 각각의 사용자 데이터 쌍에 대응하는 사용자 유사성을 취득하는 단계 - 사용자 유사성은 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터에 대응하는 사용자 간의 유사성임 -; 각각의 사용자 데이터 쌍에 대응하는 사용자 유사성 및 복수의 사용자 데이터 쌍에 따라, 미리 설정된 분류 모델을 훈련시키기 위한 샘플 데이터를 결정하는 단계; 및 유사성 분류 모델을 획득하기 위해 샘플 데이터에 기초하여 분류 모델을 훈련시키는 단계를 포함한다. 본 출원의 실시예에 의해, 모델의 빠른 훈련이 구현될 수 있고, 모델 훈련 효율이 개선될 수 있으며, 자원 소비가 감소될 수 있다.

Description

모델 훈련 방법 및 데이터 유사성 결정 방법, 그 장치 및 디바이스

본 발명은 컴퓨터 기술 분야에 관한 것으로, 특히 모델 훈련 방법, 장치 및 디바이스, 및 데이터 유사성 결정 방법, 장치 및 디바이스에 관한 것이다.

새로운 신원 검증 방법으로서, 얼굴 인식은 사용자에게 편의를 제공하면서 새로운 위험을 만들어 냈다. (쌍둥이와 같이) 매우 유사한 외모를 갖는 복수의 사용자의 경우, 얼굴 인식을 통해 서로 다른 사용자를 효과적으로 구별하기가 어렵고, 얼굴 인식은 사용자를 올바르게 식별하지 못함으로 인해 계정의 잘못 등록 및 계정 자금의 부정 유용의 위험을 초래할 가능성이 매우 높다. 매우 유사한 외모와 관련된 알려진 가장 전형적인 사례로서, 쌍둥이, 특히 일란성 쌍둥이는 서로 밀접하게 관련되어 있으며 위와 같은 위험과 연관된 행동에 결부될 가능성이 아주 높다. 대량의 데이터로부터 쌍둥이의 사용자 데이터를 결정하는 방법은 해결해야 할 중요한 문제가 되었다.

일반적으로, 감독된 머신 학습 방법(supervised machine learning method)에 기초하여, 미리 선택된 샘플 데이터를 사용하여 인식 모델이 구축된다. 구체적으로, 조사관은 설문지, 입상 질문(prize-winning question) 또는 수작업 관찰을 통해 사회적 조사를 수행하고, 사용자 데이터를 수집하며, 수작업 관찰을 통해 또는 사람들에게 조사를 받도록 요청함으로써 사용자 간의 연관성 또는 쌍둥이 관계를 획득하고 라벨을 붙여 분류한다. 수작업으로 분류된 연관성 또는 쌍둥이 관계에 기초하여, 대응하는 사용자 데이터를 샘플 데이터로 사용하여 식별 모델이 구축된다.

그러나, 감독된 머신 학습 방법을 사용하여 구축된 위에서 언급한 식별 모델은 샘플 데이터의 수작업 분류(manual labeling)를 필요로 하고, 수작업 분류 프로세스는 대량의 인력 자원을 소비하고, 또한 분류를 위해 많은 시간을 소비하므로, 모델 훈련을 비효율적으로 만들고 높은 자원 소비로 이어진다.

본 출원의 실시예의 목적은 모델의 빠른 훈련을 구현하고, 모델 훈련 효율을 개선하며, 자원 소비를 감소시키기 위한 모델 훈련 방법, 장치 및 디바이스, 및 데이터 유사성 결정 방법, 장치 및 디바이스를 제공하는 것이다.

위에서 언급한 기술적 과제를 해결하기 위해, 본 출원의 실시예는 다음과 같이 구현된다:

본 출원의 실시예는 모델 훈련 방법을 제공하는 것으로,

복수의 사용자 데이터 쌍을 취득하는 단계 - 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터의 데이터 필드는 동일한 부분을 가짐 -;

각각의 사용자 데이터 쌍에 대응하는 사용자 유사성을 취득하는 단계 - 사용자 유사성은 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터에 대응하는 사용자 간의 유사성임 -;

각각의 사용자 데이터 쌍에 대응하는 사용자 유사성 및 복수의 사용자 데이터 쌍에 따라, 미리 설정된 분류 모델(classification model)을 훈련시키기 위한 샘플 데이터를 결정하는 단계; 및

유사성 분류 모델을 획득하기 위해 샘플 데이터에 기초하여 분류 모델을 훈련시키는 단계를 포함한다.

선택적으로(optionally), 각각의 사용자 데이터 쌍에 대응하는 사용자 유사성을 취득하는 단계는,

제1 사용자 데이터 쌍에 대응하는 사용자의 생물학적 특징을 취득하는 단계 - 제1 사용자 데이터 쌍은 복수의 사용자 데이터 쌍 중의 임의의 사용자 데이터 쌍임 -; 및

제1 사용자 데이터 쌍에 대응하는 사용자의 생물학적 특징에 따라 제1 사용자 데이터 쌍에 대응하는 사용자 유사성을 결정하는 단계를 포함한다.

선택적으로, 생물학적 특징은 얼굴 이미지 특징을 포함하고;

제1 사용자 데이터 쌍에 대응하는 사용자의 생물학적 특징을 취득하는 단계는,

제1 사용자 데이터 쌍에 대응하는 사용자의 얼굴 이미지를 취득하는 단계; 및

얼굴 이미지 특징을 획득하기 위해 얼굴 이미지에 대해 특징 추출을 수행하는 단계를 포함하고,

이에 대응하여, 제1 사용자 데이터 쌍에 대응하는 사용자의 생물학적 특징에 따라 제1 사용자 데이터 쌍에 대응하는 사용자 유사성을 결정하는 단계는,

제1 사용자 데이터 쌍에 대응하는 사용자의 얼굴 이미지 특징에 따라 제1 사용자 데이터 쌍에 대응하는 사용자 유사성을 결정하는 단계를 포함한다.

선택적으로, 생물학적 특징은 음성 특징을 포함하고;

제1 사용자 데이터 쌍에 대응하는 사용자의 음성 데이터를 취득하는 단계; 및

음성 특징을 획득하기 위해 음성 데이터에 대해 특징 추출을 수행하는 단계를 포함하고;

제1 사용자 데이터 쌍에 대응하는 사용자의 음성 특징에 따라 제1 사용자 데이터 쌍에 대응하는 사용자 유사성을 결정하는 단계를 포함한다.

선택적으로, 각각의 사용자 데이터 쌍에 대응하는 사용자 유사성 및 복수의 사용자 데이터 쌍에 따라, 분류 모델을 훈련시키기 위한 샘플 데이터를 결정하는 단계는,

각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터 사이의 연관된 사용자 특징을 획득하기 위해 복수의 사용자 데이터 쌍 내의 각각의 사용자 데이터 쌍에 대해 특징 추출을 수행하는 단계; 및

각각의 사용자 데이터 쌍 내의 사용자 데이터사이의 연관된 사용자 특징 및 각각의 사용자 데이터 쌍에 대응하는 사용자 유사성에 따라, 분류 모델을 훈련시키기 위한 샘플 데이터를 결정하는 단계를 포함한다.

선택적으로, 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터 사이의 연관된 사용자 특징 및 각각의 사용자 데이터 쌍에 대응하는 사용자 유사성에 따라, 분류 모델을 훈련시키기 위한 샘플 데이터를 결정하는 단계는,

각각의 사용자 데이터 쌍에 대응하는 사용자 유사성 및 미리 결정된 유사성 문턱치에 따라 복수의 사용자 데이터 쌍에 대응하는 사용자 특징으로부터 포지티브(positive) 샘플 특징 및 네거티브(negative) 샘플 특징을 선택하는 단계; 및

포지티브 샘플 특징 및 네거티브 샘플 특징을 분류 모델을 훈련시키기 위한 샘플 데이터로서 사용하는 단계를 포함한다.

선택적으로, 사용자 특징은 세대 등록 차원 특징(household registration dimension feature), 이름 차원 특징, 사회적 특징 및 관심 특징을 포함하며, 여기서 세대 등록 차원 특징은 사용자 신원 정보의 특징을 포함하고, 이름 차원 특징은 사용자 이름 정보의 특징 및 사용자 성(surename)의 희소성의 정도의 특징을 포함하며, 사회적 특징은 사용자의 사회적 관계 정보의 특징을 포함한다.

선택적으로, 포지티브 샘플 특징은 네거티브 샘플 특징과 동일한 수량의 특징을 포함한다.

선택적으로, 유사성 분류 모델은 이진 분류기 모델(binary classifier model)이다.

본 출원의 실시예는 추가로 데이터 유사성 결정 방법을 제공하는 것으로,

검출 대상 사용자 데이터 쌍(to-be-detected user data pair)을 취득하는 단계;

검출 대상 사용자 데이터 쌍 내의 각각의 세트의 검출 대상 사용자 데이터에 대해 특징 추출을 수행하는 단계; 및

검출 대상 사용자 특징 및 미리 훈련된 유사성 분류 모델에 따라 검출 대상 사용자 데이터 쌍 내의 두 세트의 검출 대상 사용자 데이터에 대응하는 사용자 간의 유사성을 결정하는 단계를 포함한다.

선택적으로, 방법은,

검출 대상 사용자 데이터 쌍 내의 두 세트의 검출 대상 사용자 데이터에 대응하는 사용자 간의 유사성이 미리 결정된 유사성 분류 문턱치보다 크면, 검출 대상 사용자 데이터 쌍에 대응하는 검출 대상 사용자를 쌍둥이로 결정하는 단계를 더 포함한다.

본 출원의 실시예는 모델 훈련 장치를 제공하는 것으로,

복수의 사용자 데이터 쌍을 취득하도록 구성된 데이터 취득 모듈 - 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터의 데이터 필드는 동일한 부분을 가짐 -;

각각의 사용자 데이터 쌍에 대응하는 사용자 유사성을 취득하도록 구성된 유사성 취득 모듈 - 사용자 유사성은 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터에 대응하는 사용자 간의 유사성임 -;

각각의 사용자 데이터 쌍에 대응하는 사용자 유사성 및 복수의 사용자 데이터 쌍에 따라, 미리 설정된 분류 모델을 훈련시키기 위한 샘플 데이터를 결정하도록 구성된 샘플 데이터 결정 모듈; 및

유사성 분류 모델을 획득하기 위해 샘플 데이터에 기초하여 분류 모델을 훈련시키도록 구성된 모델 훈련 모듈을 포함한다.

선택적으로, 유사성 취득 모듈은,

제1 사용자 데이터 쌍에 대응하는 사용자의 생물학적 특징을 취득하도록 구성된 생물학적 특징 취득 유닛 - 제1 사용자 데이터 쌍은 복수의 사용자 데이터 쌍 중의 임의의 사용자 데이터 쌍임 -; 및

제1 사용자 데이터 쌍에 대응하는 사용자의 생물학적 특징에 따라 제1 사용자 데이터 쌍에 대응하는 사용자 유사성을 결정하도록 구성된 유사성 취득 유닛을 포함한다.

생물학적 특징 취득 유닛은 제1 사용자 데이터 쌍에 대응하는 사용자의 얼굴 이미지를 취득하고; 얼굴 이미지 특징을 획득하기 위해 얼굴 이미지에 대해 특징 추출을 수행하도록 구성되며;

이에 대응하여, 유사성 취득 유닛은 제1 사용자 데이터 쌍에 대응하는 사용자의 얼굴 이미지 특징에 따라 제1 사용자 데이터 쌍에 대응하는 사용자 유사성을 결정하도록 구성된다.

선택적으로, 생물학적 특징은 음성 특징을 포함하고;

생물학적 특징 취득 유닛은 제1 사용자 데이터 쌍에 대응하는 사용자의 음성 데이터를 획득하고; 음성 특징을 획득하기 위해 음성 데이터에 대해 특징 추출을 수행하도록 구성되며;

이에 대응하여, 유사성 취득 유닛은 제1 사용자 데이터 쌍에 대응하는 사용자의 음성 특징에 따라 제1 사용자 데이터 쌍에 대응하는 사용자 유사성을 결정하도록 구성된다.

선택적으로, 샘플 데이터 결정 모듈은,

각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터 사이의 연관된 사용자 특징을 획득하기 위해 복수의 사용자 데이터 쌍 내의 각각의 사용자 데이터 쌍에 대해 특징 추출을 수행하도록 구성된 특징 추출 유닛; 및

각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터 사이의 연관된 사용자 특징 및 각각의 사용자 데이터 쌍에 대응하는 사용자 유사성에 따라, 분류 모델을 훈련시키기 위한 샘플 데이터를 결정하도록 구성된 샘플 데이터 결정 유닛을 포함한다.

선택적으로, 샘플 데이터 결정 유닛은 각각의 사용자 데이터 쌍에 대응하는 사용자 유사성 및 미리 결정된 유사성 문턱치에 따라 복수의 사용자 데이터 쌍에 대응하는 사용자 특징으로부터 포지티브 샘플 특징 및 네거티브 샘플 특징을 선택하고; 포지티브 샘플 특징 및 네거티브 샘플 특징을 분류 모델을 훈련시키기 위한 샘플 데이터로 사용하도록 구성된다.

선택적으로, 사용자 특징은 세대 등록 차원 특징, 이름 차원 특징, 사회적 특징 및 관심 특징을 포함하며, 여기서 세대 등록 차원 특징은 사용자 신원 정보의 특징을 포함하고, 이름 차원 특징은 사용자 이름 정보의 특징 및 사용자 성의 희소성의 정도의 특징을 포함하며, 사회적 특징은 사용자의 사회적 관계 정보의 특징을 포함한다.

선택적으로, 유사성 분류 모델은 이진 분류기 모델이다.

본 출원의 실시예는 추가로 데이터 유사성 결정 장치를 제공하는 것으로,

검출 대상 사용자 데이터 쌍을 취득하도록 구성된 검출 대상 데이터 취득 모듈;

검출 대상 사용자 특징을 획득하기 위해 검출 대상 사용자 데이터 쌍 내의 각각의 세트의 검출 대상 사용자 데이터에 대해 특징 추출을 수행하도록 구성된 특징 추출 모듈; 및

검출 대상 사용자 특징 및 미리 훈련된 유사성 분류 모델에 따라 검출 대상 사용자 데이터 쌍 내의 두 세트의 검출 대상 사용자 데이터에 대응하는 사용자 간의 유사성을 결정하도록 구성된 유사성 결정 모듈을 포함한다.

선택적으로, 장치는,

검출 대상의 사용자 데이터 쌍 내의 두 세트의 검출 대상 사용자 데이터에 대응하는 사용자 간의 유사성이 미리 결정된 유사성 분류 문턱치보다 크면, 검출 대상의 사용자 데이터 쌍에 대응하는 검출 대상 사용자를 쌍둥이라고 결정하도록 구성된 유사성 분류 모듈을 더 포함한다.

본 출원의 실시예는 모델 훈련 디바이스를 제공하는 것으로,

프로세서; 및

컴퓨터 실행 가능 명령어를 저장하도록 구성된 메모리를 포함하고, 실행될 때 컴퓨터 실행 가능 명령어는 프로세서로 하여금 다음의 동작:

복수의 사용자 데이터 쌍을 취득하는 것 - 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터의 데이터 필드는 동일한 부분을 가짐 -;

각각의 사용자 데이터 쌍에 대응하는 사용자 유사성을 취득하는 것 - 사용자 유사성은 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터에 대응하는 사용자 간의 유사성임 -;

각각의 사용자 데이터 쌍에 대응하는 사용자 유사성 및 복수의 사용자 데이터 쌍에 따라, 미리 설정된 분류 모델을 훈련시키기 위한 샘플 데이터를 결정하는 것; 및

유사성 분류 모델을 획득하기 위해 샘플 데이터에 기초하여 분류 모델을 훈련시키는 것을 실행하게 한다.

본 출원의 실시예는 데이터 유사성 결정 디바이스를 제공하는 것으로,

프로세서; 및

컴퓨터 실행 가능 명령어를 저장하도록 구성된 메모리를 포함하고, 실행될 때 컴퓨터 실행 가능 명령어는 프로세서로 하여금 다음 동작:

검출 대상 사용자 데이터 쌍을 취득하는 것;

검출 대상 사용자 특징을 획득하기 위해 검출 대상 사용자 데이터 쌍 내의 각각의 검출 대상 사용자 데이터에 대해 특징 추출을 수행하는 것; 및

검출 대상 사용자 특징 및 미리 훈련된 유사성 분류 모델에 따라 검출 대상 사용자 데이터 쌍 내의 두 세트의 검출 대상 사용자 데이터에 대응하는 사용자 간의 유사성을 결정하는 것을 실행하게 한다.

본 출원의 실시예에 의해 제공되는 기술적 해결책으로부터 알 수 있는 바와 같이, 본 출원의 실시예에서, 복수의 사용자 데이터 쌍이 취득되고 - 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터의 데이터 필드는 동일한 부분을 가짐 -; 각각의 사용자 데이터 쌍에 대응하는 사용자 유사성이 취득되고; 미리 설정된 분류 모델을 훈련시키기 위한 샘플 데이터가 결정되고; 그런 다음 분류 모델이 샘플 데이터에 기초하여 훈련되어 유사성 분류 모델을 획득하므로, 검출 대상 사용자 데이터 쌍 내의 두 세트의 검출 대상 사용자 데이터에 대응하는 사용자 간의 유사성이 유사성 분류 모델에 따라 결정될 수 있다. 이러한 방식으로, 복수의 사용자 데이터 쌍이 동일한 데이터 필드를 통해 획득되고, 미리 설정된 분류 모델을 훈련시키기 위한 샘플 데이터를 획득하기 위해 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터에 대응하는 사용자 간의 연관성이 사용자 유사성에 따라 결정되므로, 즉, 샘플 데이터는 수작업 분류없이 획득될 수 있어서, 모델의 빠른 훈련이 구현될 수 있고, 모델 훈련 효율이 개선될 수 있으며, 자원 소비가 감소될 수 있다.

본 출원의 실시예의 기술적 해결책 또는 종래 기술을 보다 명확하게 설명하기 위해, 실시예 또는 종래 기술의 설명에 사용될 필요가 있는 도면이 간략하게 소개된다. 다음의 설명에서 도면은 본 출원의 일부 실시예일뿐이며, 관련 기술분야에서 통상의 기술자는 창조적 노력없이 이들 도면에 따라 다른 도면을 추가로 획득할 수 있음이 분명할 것이다.
도 1은 본 출원에 따른 모델 훈련 방법의 실시예를 도시한다.
도 2는 본 출원에 따른 데이터 유사성 결정 방법의 실시예를 도시한다.
도 3은 본 출원에 따른 검출 애플리케이션의 인터페이스의 개략도이다.
도 4는 본 출원에 따른 데이터 유사성 결정 방법의 실시 예를 도시한다.
도 5는 본 출원에 따른 데이터 유사성 결정 프로세스의 처리 로직의 개략도이다.
도 6은 본 발명에 따른 모델 훈련 장치의 실시예를 도시한다.
도 7은 본 발명에 따른 데이터 유사성 결정 장치의 실시예를 도시한다.
도 8은 본 출원에 따른 모델 훈련 디바이스의 실시예를 도시한다.
도 9는 본 출원에 따른 데이터 유사성 결정 디바이스의 실시예를 도시한다.

본 출원의 실시예는 모델 훈련 방법, 장치 및 디바이스, 및 데이터 유사성 결정 방법, 장치 및 디바이스를 제공한다.

관련 기술분야에서 통상의 기술자가 본 출원의 기술적 해결책을 더 잘 이해할 수 있도록 하기 위해, 본 출원의 실시예의 기술적 해결책은 본 출원의 실시예의 첨부 도면을 참조하여 아래에서 명확하고 완전하게 설명될 것이다. 설명된 실시예는 본 출원의 모든 실시예가 아니라 일부일 뿐이라는 것이 분명할 것이다. 본 출원의 구현예에 기초하여 관련 기술분야에서 통상의 기술자에 의해 획득된 다른 모든 실시예는 본 출원의 보호 범위 내에 있다.

실시예 1

도 1에 도시된 바와 같이, 본 출원의 실시예는 모델 훈련 방법을 제공한다. 방법은 단말기 디바이스 또는 서버에 의해 수행될 수 있다. 단말기 디바이스는 개인용 컴퓨터 등일 수 있다. 서버는 독립적인 단일 서버일 수 있거나, 복수의 서버에 의해 형성된 서버 클러스터일 수 있다. 본 출원의 실시예는 모델 훈련 효율을 개선하기 위해 서버에 의해 방법이 실행되는 예를 사용하여 상세하게 설명된다. 방법은 구체적으로 다음의 단계를 포함할 수 있다:

단계(S102)에서, 복수의 사용자 데이터 쌍이 취득되며, 여기서 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터의 데이터 필드는 동일한 부분을 갖는다.

각각의 사용자 데이터 쌍은 복수의 서로 다른 사용자의 사용자 데이터를 포함할 수 있다. 예를 들어, 복수의 사용자 데이터 쌍은 사용자 데이터 쌍 A 및 사용자 데이터 쌍 B를 포함한다. 사용자 데이터 쌍 A는 사용자 데이터 1 및 사용자 데이터 2를 포함하고, 사용자 데이터 쌍 B는 사용자 데이터 3 및 사용자 데이터 4를 포함한다. 사용자 데이터는 사용자와 관련된 데이터, 예를 들면, 사용자의 이름, 연령, 신장, 주소, 신원 카드 번호, 사회 보장 카드 번호와 같은 신원 정보일 수 있으며, 사용자의 관심, 구매한 상품, 여행 등과 같은 정보를 또한 포함할 수 있다. 데이터 필드는 사용자 데이터 쌍 내의 두 세트의 서로 다른 사용자 데이터에 대응하는 사용자의 신원을 나타낼 수 있는 필드 또는 문자뿐만 아니라, 사용자 간의 연관성, 예를 들어, 성(surname), 신원 카드 번호의 미리 설정된 수량의 숫자(예를 들어, 신원 카드 번호의 처음 14 숫자), 사회 보장 카드 번호 또는 사용자 신원 또는 정보를 결정할 수 있는 다른 신원 번호 등일 수 있다.

구현예에서, 사용자 데이터는 다양한 방식으로 획득될 수 있다. 예를 들어, 사용자 데이터는 서로 다른 사용자로부터 구입될 수 있으며; 또는 웹 사이트 또는 애플리케이션에 등록할 때 사용자에 의해 입력된 정보, 예를 들면, 사용자가 Alipay®에 등록할 때 입력한 정보 또는 사용자에 의해 적극적으로 업로드된 사용자 데이터일 수 있다. 사용자 데이터가 취득되는 특정 방식은 본 출원의 실시예로 제한되지 않는다. 사용자 데이터가 취득된 이후에, 취득된 사용자 데이터에 포함된 데이터 필드는 동일한 부분을 공유하는 데이터 필드를 갖는 사용자 데이터를 찾기 위해 비교될 수 있다. 동일한 부분을 공유하는 데이터 필드를 갖는 사용자 데이터는 함께 그룹화되어 사용자 데이터 쌍을 형성할 수 있다. 위의 방법에 의해, 복수의 사용자 데이터 쌍이 획득될 수 있고, 각각의 사용자 데이터 쌍 내의 사용자 데이터의 데이터 필드는 동일한 부분을 갖는다.

예를 들어, 실제 응용에서, 가능한 한 계산량을 줄이고 처리 효율을 개선하기 위해, 데이터 필드는 신원 카드 번호 및 성으로서 설정될 수 있고, 신원 카드 번호 내의 하나 이상의 숫자, 예를 들면, 신원 카드 번호의 처음 14 숫자가 두 사용자 사이의 관계를 나타낼 수 있다는 것을 고려하여 신원 카드 번호 및 사용자 이름과 같은 정보는 사용자 데이터에서 검색될 수 있다. 본 출원의 실시예에서, 예로서, 신원 카드 번호의 처음 14 숫자는 데이터 필드가 동일한 부분을 갖는지를 결정하기 위한 기초로서 사용된다. 구체적으로, 신원 카드 번호의 처음 14 숫자와 각 사용자의 성이 취득될 수 있고, 신원 카드 번호의 처음 14 숫자와 서로 다른 사용자의 성이 비교될 수 있다. 성이 동일하고 신원 카드 번호의 첫 14 숫자가 동일한 두 세트의 사용자 데이터가 하나의 사용자 데이터 쌍으로 그룹화될 수 있다. 구체적으로, 사용자 데이터 쌍은 사용자 쌍의 형태로, 예를 들면, {사용자 1의 신원 카드 번호, 사용자 2의 신원 카드 번호, 사용자 1의 이름, 사용자 2의 이름, 사용자 1의 다른 데이터, 사용자 2의 다른 데이터} 등의 형태로 저장될 수 있다.

동일한 부분을 갖는 두 세트의 사용자 데이터의 데이터 필드는 데이터 필드 내의 일부 내용, 예를 들면, 18-숫자 신원 카드 번호 중 처음 14 숫자가 동일하다고 해석될 수 있거나, 또는 데이터 필드의 모든 내용이 동일한 것으로 해석될 수 있다는 것을 알아야 한다.

단계(S104)에서, 각각의 사용자 데이터 쌍에 대응하는 사용자 유사성이 취득되며, 여기서 사용자 유사성은 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터에 대응하는 사용자 간의 유사성이다.

사용자 유사성은 복수의 사용자 간의 유사성의 정도, 예를 들어, 99 % 또는 50 %를 나타내는 데 사용될 수 있다. 실제 응용에서, 사용자 유사성은 또한 다른 방식으로도 표현될 수 있다. 예를 들어, 사용자 유사성은 또한 쌍둥이 및 쌍둥이 아님, 또는 일란성 쌍둥이 및 이란성 쌍둥이로 나타낼 수 있다.

구현예에서, 본 실시예의 주요 목적은 샘플 데이터에 대응하는 사용자 유사성뿐만 아니라, 분류 모델을 훈련시키기 위한 샘플 데이터를 필요로 하는 분류 모델을 훈련시키는 것이다. 사용자 유사성은 서버 또는 단말기 디바이스에 미리 저장될 수 있다. 사용자 유사성은 다양한 방식으로 결정될 수 있다. 하나의 선택적인 처리 방법이 아래에서 제공되며, 자세한 사항에 대해서는 다음과 같은 내용이 참조될 수 있다: 사용자의 이미지가 사전에 취득될 수 있으며, 여기서 이미지는 애플리케이션 또는 웹 사이트에 등록할 때 사용자에 의해 업로드될 수 있고, 사용자는 각각의 사용자 데이터 쌍에 포함된 두 세트의 사용자 데이터에 대응하는 사용자일 수 있다. 각각의 사용자 데이터 쌍의 이미지가 비교될 수 있고, 이미지의 비교를 통해 사용자 데이터 쌍에 포함된 두 세트의 사용자 데이터에 대응하는 사용자 간의 유사성이 계산될 수 있다. 이미지 비교 프로세스 동안, 이미지 전처리, 이미지 특징 추출 및 이미지 특징 비교와 같은 처리 방법이 사용될 수 있으며, 이것은 본 출원의 실시예로 제한되지 않는다.

단계(S106)에서, 각각의 사용자 데이터 쌍에 대응하는 사용자 유사성 및 복수의 사용자 데이터 쌍에 따라, 미리 설정된 분류 모델을 훈련시키기 위한 샘플 데이터가 결정된다.

분류 모델은 나이브 베이지안 분류 모델(naive Bayesian classification model), 로지스틱 회귀 분류 모델(logistic regression classification model), 의사 결정 트리 분류 모델(decision tree classification model) 또는 지원 벡터 머신 분류 모델(support vector machine classification model)과 같은 임의의 분류 모델일 수 있다. 본 출원의 실시예에서, 분류 모델이 서로 다른 두 사용자가 유사한지를 결정하기 위해서만 사용된다는 것을 고려하면, 분류 모델은 이진 분류 모델(binary classification model)일 수 있다. 샘플 데이터는 분류 모델을 훈련시키기 위해 사용되는 데이터일 수 있다. 샘플 데이터는 사용자 데이터 쌍 내의 두 세트의 사용자 데이터일 수 있고, 또한 사용자 데이터가 특정 방식으로 처리된 이후에 획득되는 데이터일 수도 있다. 예를 들어, 대응 사용자 특징을 획득하기 위해 위의 사용자 데이터에 대해 특징 추출이 수행되고, 사용자 특징의 데이터가 샘플 데이터로서 사용될 수 있다.

구현예에서, 예를 들어, 80 % 또는 70 %의 유사성 문턱치가 사전에 설정될 수 있다. 각각의 사용자 데이터 쌍에 대응하는 사용자 유사성은 각각 유사성 문턱치와 비교될 수 있다. 유사성 문턱치보다 큰 사용자 유사성에 대응하는 사용자 데이터 쌍은 하나의 세트로 그룹화될 수 있고, 유사성 문턱치보다 작은 사용자 유사성에 대응하는 사용자 데이터 쌍은 하나의 세트로 그룹화될 수 있고, 미리 정해진 수량(예를 들어, 40000 또는 50000)의 사용자 데이터 쌍이 위의 각각의 두 세트로부터 선택될 수 있고, 선택된 사용자 데이터 쌍은 미리 설정된 분류 모델을 훈련시키기 위한 샘플 데이터로서 사용된다.

미리 설정된 분류 모델을 훈련시키기 위한 샘플 데이터는 위의 방식과 다른 다양한 방식으로 선택될 수 있다는 것을 알아야 한다. 예를 들어, 각각의 사용자 데이터 쌍에 포함된 두 세트의 사용자 데이터의 특징이 추출되어 대응하는 사용자 특징을 획득한 다음, 사용자 특징은 각각의 사용자 데이터 쌍에 대응하는 사용자 유사성 및 유사성 문턱치에 따라 위의 두 세트로 그룹화할 수 있다. 두 세트의 사용자 특징의 데이터가 미리 설정된 분류 모델을 훈련시키기 위한 샘플 데이터로서 사용될 수 있다.

단계(S108)에서, 분류 모델은 샘플 데이터에 기초하여 훈련되어 유사성 분류 모델을 획득한다.

유사성 분류 모델은 서로 다른 사용자 간의 유사성의 정도를 결정하는 데 사용되는 모델일 수 있다.

구현예에서, 위에서 선택된 사용자 데이터 쌍이 미리 설정된 분류 모델을 훈련시키기 위한 샘플 데이터로서 사용되는 경우에 기초하여, 각각의 선택된 사용자 데이터 쌍 내의 두 세트의 사용자 데이터에 대해 특징 추출이 수행되어 대응하는 사용자 특징을 획득한 다음, 샘플 데이터의 각각의 사용자 데이터 쌍의 사용자 특징이 계산을 위해 분류 모델에 입력될 수 있다. 계산 이후에, 계산 결과가 출력될 수 있다. 계산 결과는 대응하는 사용자 데이터 쌍에 대응하는 사용자 유사성과 비교되어 둘이 동일한지를 결정할 수 있다. 둘이 동일하지 않으면, 분류 모델의 관련된 파라미터가 변경될 수 있고, 그런 다음 사용자 데이터 쌍의 사용자 특징이 수정된 분류 모델에 입력되어 계산되고, 계산 결과가 사용자 유사성과 동일한지가 결정된다. 둘이 동일할 때까지 절차가 반복된다. 둘이 동일하면, 위의 처리 절차는 다음으로 선택된 사용자 데이터 쌍에 대해 수행될 수 있다. 마지막으로, 각각의 사용자 데이터 쌍의 사용자 특징이 분류 모델에 입력된 이후에 획득된 계산 결과가 대응하는 사용자 데이터 쌍에 대응하는 사용자 유사성과 동일하면, 획득된 분류 모델은 유사성 분류 모델이다.

위의 방법에 의해, 유사성 분류 모델이 획득될 수 있다. 유사성 분류 모델을 사용하기 위해, 다음과 같은 관련된 내용이 참조될 수 있다:

도 2에 도시된 바와 같이, 본 출원의 실시예는 유사성 결정 방법을 제공한다. 방법은 단말기 디바이스 또는 서버에 의해 수행될 수 있다. 단말기 디바이스는 개인용 컴퓨터 등일 수 있다. 서버는 독립적인 단일 서버일 수 있거나, 복수의 서버에 의해 형성된 서버 클러스터일 수 있다. 방법은 구체적으로 다음의 단계를 포함할 수 있다:

단계(S202)에서, 검출 대상 사용자 데이터 쌍이 취득된다.

검출 대상 사용자 데이터 쌍은 검출 대상의 두 명의 사용자의 사용자 데이터에 의해 형성된 사용자 데이터 쌍일 수 있다.

구현예에서, 서로 다른 두 사용자 간의 유사성을 검출하기 위해, 대응하는 검출 애플리케이션이 설정될 수 있다. 도 3에 도시된 바와 같이, 검출 애플리케이션은 데이터를 업로드하기 위한 버튼을 포함할 수 있다. 서로 다른 두 사용자 간의 유사성이 검출되어야 할 때, 데이터를 업로드하기 위한 버튼이 눌려질 수 있다. 검출 애플리케이션은 데이터를 업로드하기 위한 프롬프트 박스(prompt box)를 팝업(pop up)시킬 수 있다. 데이터 업로더(data uploader)는 검출 대상 사용자 데이터 쌍의 데이터를 프롬프트 박스에 입력한 다음, 입력이 완료될 때 프롬프트 박스에서 확인 버튼을 탭(tap)할 수 있다. 검출 애플리케이션은 데이터 업로더에 의해 입력된 검출 대상 사용자 데이터 쌍을 취득할 수 있다. 검출 애플리케이션은 단말기 디바이스에 설치될 수 있거나 서버에 설치될 수 있다. 본 출원의 실시예에 의해 제공된 유사성 결정 방법이 서버에 의해 실행되고 검출 애플리케이션이 단말기 디바이스에 설치되면, 검출 애플리케이션은 검출 대상 사용자 데이터 쌍을 취득한 이후에 검출 대상 사용자 데이터 쌍을 서버에 전송할 수 있으므로, 서버는 검출 대상 사용자 데이터 쌍을 취득할 수 있다. 검출 애플리케이션이 서버에 설치되면, 서버는 검출 애플리케이션으로부터 검출 대상 사용자 데이터 쌍을 직접 취득할 수 있다.

단계(S204)에서, 검출 대상 사용자 특징을 획득하기 위해 검출 대상 사용자 데이터 쌍 내의 각 세트의 검출 대상 사용자 데이터에 대해 특징 추출이 수행된다.

검출 대상 사용자 특징은 검출 대상 사용자의 사용자 데이터의 특징일 수 있다.

구현예에서, 검출 대상 사용자 데이터 쌍 내 각 세트의 검출 대상 사용자 데이터가 취득될 수 있다. 임의의 세트의 검출 대상 사용자 데이터에 대해, 미리 설정된 특징 추출 알고리즘을 사용함으로써 대응하는 특징이 검출 대상 사용자 데이터로부터 추출될 수 있고, 추출된 특징은 검출 대상 사용자에 대응하는 검출 대상 사용자 데이터로서 사용될 수 있다. 위의 방법에 의해, 검출 대상 사용자 데이터 쌍 내 각 세트의 검출 대상 사용자 데이터에 대응하는 검출 대상 사용자 특징이 획득될 수 있다.

특징 추출 알고리즘은 사용자 데이터로부터 미리 결정된 특징을 추출할 수 있는 임의의 알고리즘일 수 있고, 구체적으로는 실제 상황에 따라 설정될 수 있다는 것을 알아야 한다.

단계(S206)에서, 검출 대상 사용자 특징 및 미리 훈련된 유사성 분류 모델에 따라 검출 대상 사용자 데이터 쌍 내의 두 세트의 검출 대상 사용자 데이터에 대응하는 사용자 간의 유사성이 결정된다.

구현예에서, 단계(S204)를 통해 획득된 검출 대상 사용자 특징은 단계(S102) 내지 단계(S108)를 통해 획득된 유사성 분류 모델에 입력되어 계산될 수 있다. 유사성 분류 모델로부터 출력된 결과는 검출 대상 사용자 데이터 쌍 내의 두 세트의 검출 대상 사용자 데이터에 대응하는 사용자 간의 유사성일 수 있다.

실제 응용에서, 유사성 분류 모델의 직접 출력 결과는 백분율, 예를 들어, 90 % 또는 40 %로 제시될 수 있다는 것을 알아야 한다. 출력 결과를 사용자에게 보다 직관적이게 하기 위해, 유사성 분류 모델의 직접 출력 결과는 일란성 쌍둥이 및 일란성이 아닌 쌍둥이가 구별될 필요가 있을 때, 또는 일란성 쌍둥이 및 이란성 쌍둥이가 구별될 필요가 있을 때와 같은 실제 상황에 따라 추가로 설정될 수 있다. 위의 경우를 고려하여, 분류 문턱치가 설정될 수 있다. 직접 출력 결과가 분류 문턱치보다 크면, 검출 대상 사용자 데이터 쌍 내의 두 세트의 검출 대상 사용자 데이터에 대응하는 사용자는 일란성 쌍둥이인 것으로 결정되고; 그렇지 않다면, 사용자는 일란성이 아닌 쌍둥이 또는 이란성 쌍둥이로 결정된다. 이러한 방식으로, 검출 대상 사용자 데이터 쌍 내의 두 세트의 검출 대상 사용자 데이터에 대응하는 사용자 간의 유사성이 미리 훈련된 유사성 분류 모델에 따라 신속하게 결정될 수 있고, 이에 의해 사용자 간의 유사성을 결정하는 효율이 개선될 수 있다.

전술한 설명에서 사용자 데이터 쌍과 검출 대상 사용자 데이터 쌍은 둘 다 두 세트의 사용자 데이터를 포함하며, 실제 응용에서, 본 출원에 의해 제공되는 모델 훈련 방법 및 유사성 결정 방법은 또한 두 세트보다 많은 사용자 데이터를 포함하는 사용자 데이터 조합 및 검출 대상 사용자 데이터 조합에도 적용될 수 있다는 것을 알아야 한다. 특정 구현예에 대해, 본 출원의 실시예의 관련된 내용이 참조될 수 있으며, 세부 사항은 여기서 다시 설명되지 않는다.

본 출원의 실시예는 복수의 사용자 데이터 쌍이 취득되는 모델 훈련 방법 및 유사성 결정 방법을 제공하는 것으로, 여기서 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터의 데이터 필드는 동일한 부분을 갖고; 각각의 사용자 데이터 쌍에 대응하는 사용자 유사성이 취득되고; 미리 설정된 분류 모델을 훈련시키기 위한 샘플 데이터가 결정되며; 그런 다음, 분류 모델이 유사성 분류 모델을 획득하기 위해 샘플 데이터에 기초하여 훈련되므로, 검출 대상 사용자 데이터 쌍 내의 두 세트의 검출 대상 사용자 데이터에 대응하는 사용자 간의 유사성이 유사성 분류 모델에 따라 결정될 수 있다. 이러한 방식으로, 복수의 사용자 데이터 쌍이 동일한 데이터 필드를 통해서만 획득되고, 미리 설정된 분류 모델을 훈련시키기 위한 샘플 데이터를 획득하기 위해 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터에 대응하는 사용자 간의 연관성이 사용자 유사성에 따라 결정되므로, 즉 샘플 데이터가 수작업 분류없이 획득될 수 있으므로, 모델의 빠른 훈련이 구현될 수 있고, 모델 훈련의 효율이 개선될 수 있으며, 자원 소비가 감소될 수 있다.

실시예 2

도 4에 도시된 바와 같이, 본 출원의 실시예는 데이터 유사성 결정 방법을 제공한다. 방법은 서버에 의해, 또는 단말기 디바이스와 서버에 의해 공동으로 실행될 수 있다. 단말기 디바이스는 개인용 컴퓨터 등일 수 있다. 서버는 독립적인 단일 서버일 수 있거나, 복수의 서버에 의해 형성된 서버 클러스터일 수 있다. 본 출원의 실시예에서, 모델 훈련 효율을 개선하기 위해, 상세한 설명은 서버에 의해 방법이 실행되는 예를 사용하여 이루어진다. 방법이 단말기 디바이스와 서버에 의해 공동으로 구현되는 경우, 다음의 관련된 내용이 참조될 수 있으며, 세부 사항은 여기서 다시 설명되지 않는다. 방법은 구체적으로 다음과 같은 내용을 포함한다:

현재, 신규한 사용자 신원 검증 방법으로서, 얼굴 인식은 사용자에게 편의를 제공하면서 새로운 위험을 만들어 냈다. 현재의 얼굴 인식 기술의 경우, 사용자의 이미지가 현장에서 캡처되어 얼굴 인식 시스템의 데이터베이스에 미리 저장되어 있는 사용자의 사용자 이미지와 비교되고, 비교를 통해 획득된 값이 미리 결정된 문턱치에 도달하면, 사용자가 미리 저장된 사용자 이미지에 대응하는 사용자인 것으로 결정되며, 이에 따라 사용자의 신원을 검증한다. 그러나, 위와 같은 방법을 사용함으로써 얼굴이 매우 유사한 사용자의 신원을 효과적으로 검증하는 것이 어려우며, 이것은 신원을 검증하지 못함으로 인해 계정의 잘못된 등록 및 계정 자금의 부정 유용을 야기할 가능성이 높다.

매우 유사한 외모와 연루되는 알려진 가장 전형적인 경우로서, 쌍둥이, 특히 일란성 쌍둥이는 서로 밀접하게 관련되어 있으며 부정하는 대중의 의견을 초래할 가능성이 매우 높다. 가능한 한 많은 쌍둥이 사용자를 포함하는 리스트가 있다면, 위와 같은 위험을 방지하기 위해 이들 사용자를 위한 특별한 얼굴 인식 대처 전략이 설계될 수 있다. 그러므로 쌍둥이를 효과적으로 식별하기 위한 모델은 높은 정확도를 보장하면서 이들 사용자의 얼굴 인식 거동을 모니터링하기 위한 쌍둥이 리스트를 출력하도록 구축될 수 있고, 이에 따라 위험 제어를 달성할 수 있다. 쌍둥이를 효과적으로 식별하기 위한 모델을 구축하는 구현예의 경우, 이하의 단계(S402) 내지 단계(S412)에 의해 제공되는 모델 훈련 방법이 참조될 수 있으며, 구체적인 내용은 다음과 같다:

단계(S402)에서, 복수의 사용자 데이터 쌍이 취득되며, 여기서 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터의 데이터 필드는 동일한 부분을 갖는다.

구현예에서, 쌍둥이가 일반적으로 동일한 성 및 신원 카드 번호의 동일한 처음 14 숫자를 갖는다는 것을 고려하면, 성 및 신원 카드 번호의 처음 14 숫자는 사용자 데이터 쌍을 선택하기 위한 데이터 필드로서 사용될 수 있다. 단계(S402)의 특정 구현예의 경우, 실시예 1의 단계(S102)의 관련된 내용이 참조될 수 있으며, 세부 사항은 여기서 다시 설명되지 않는다.

사용자 데이터 쌍을 선택하는 처리는 성 및 신원 카드 번호의 처음 14 숫자에 기초하여 구현된다는 것을 알아야 한다. 본 출원의 다른 실시예에서, 사용자 데이터 쌍을 선택하는 처리는 또한 다른 정보에 기초하여, 예를 들면, 성 및 사회 보장 카드 번호, 또는 신원 카드 번호 및 사회 보장 카드의 처음 14 숫자에 기초하여 구현될 수도 있으며, 본 출원의 실시예로 제한되지 않는다.

사용자 데이터 쌍 내의 두 세트의 사용자 데이터에 대응하는 사용자 간의 유사성의 정도가 모델 훈련 동안 결정되어야 한다는 것을 고려하면, 다음은 관련된 처리 방식을 제공하며, 구체적으로는 이하의 단계(S404) 및 단계(S406)가 참조될 수 있다.

단계(S404)에서, 제1 사용자 데이터 쌍에 대응하는 사용자의 생물학적 특징이 취득되며, 여기서 제1 사용자 데이터 쌍은 복수의 사용자 데이터 쌍 중의 임의의 사용자 데이터 쌍이다.

생물학적 특징은 지문 특징, 홍채 특징, 얼굴 특징, DNA 또는 다른 생리학적 특징, 또는 성문(voiceprint) 특징, 필기 특징, 키스트로크(keystroke) 습관 또는 다른 행동적 특징과 같은 인체의 생리학적 및 행동적 특징일 수 있다.

구현예에서, 복수의 사용자 데이터 쌍이 위의 단계(S402)를 통해 취득된 후, 사용자 데이터 쌍(즉, 제1 사용자 데이터 쌍)은 복수의 사용자 데이터 쌍으로부터 임의로 선택될 수 있다. 사용자가 단말기 디바이스를 사용하여 등록을 위해 서버에 로그인할 때, 사용자는 사용자의 위와 같은 생물학적 특징 중 하나 이상을 서버에 업로드할 수 있다. 서버는 생물학적 특징 및 사용자의 식별자를 연관된 방식으로 저장할 수 있다. 사용자의 식별자는 등록 동안 사용자에 의해 입력된 사용자의 사용자 성 또는 이름일 수 있다. 연관된 방식으로 서버에 저장된 위의 정보는 표 1에 도시된 바와 같을 수 있다.

사용자의 식별자	생물학적 특징
사용자 1	생물학적 특징 A
사용자 2	생물학적 특징 B
사용자 3	생물학적 특징 C

제1 사용자 데이터 쌍을 선택한 이후에, 서버는 제1 사용자 데이터 쌍에 포함된 사용자의 식별자를 추출한 다음, 사용자의 식별자에 따라 대응하는 생물학적 특징을 취득하며, 이에 따라 제1 사용자 데이터 쌍에 대응하는 사용자의 생물학적 특징을 획득할 수 있다. 예를 들어, 제1 사용자 데이터 쌍에 포함된 사용자의 식별자는 사용자 2 및 사용자 3이고, 위의 표에서 대응하는 관계를 질의함으로써, 사용자 2가 생물학적 특징 B에 대응하고, 사용자 3이 생물학적 특징 C에 대응하는 것으로 결정될 수 있는데, 즉, 제1 사용자 데이터 쌍에 대응하는 사용자의 생물학적 특징은 생물학적 특징 B 및 생물학적 특징 C인 것으로 결정될 수 있다.단계(S406)에서, 제1 사용자 데이터 쌍에 대응하는 사용자 유사성은 제1 사용자 데이터 쌍에 대응하는 사용자의 생물학적 특징에 따라 결정된다.

구현예에서, 제1 사용자 데이터 쌍에 대응하는 사용자의 생물학적 특징이 위의 단계(S404)를 통해 획득된 이후에, 대응하는 두 사용자 간의 유사성(즉, 사용자 유사성)의 정도를 결정하기 위해, 획득된 생물학적 특징에 대해 각각 유사성 계산이 수행된다. 유사성 계산은, 예를 들어, 특징 벡터 간의 유클리드 거리(Euclidean distance)에 따라 다양한 방식으로 구현될 수 있으며, 본 출원의 실시예로 제한되지 않는다.

사용자가 유사한 지를 결정하기 위해 문턱치가 설정될 수 있다는 것을 알아야 한다. 예를 들어, 문턱치는 70으로 설정된다. 두 개의 생물학적 특징에 대응하는 사용자 유사성이 70 이상일 때, 제1 사용자 데이터 쌍 내의 두 세트의 사용자 데이터에 대응하는 사용자는 유사한 것으로 결정되고; 두 개의 생물학적 특징에 대응하는 사용자 유사성이 70 미만일 때, 제1 사용자 데이터 쌍 내의 두 세트의 사용자 데이터에 대응하는 사용자는 유사하지 않은 것으로 결정된다.

위의 방법에 의해, 위의 처리 절차는 복수의 사용자 데이터 쌍 내의 제1 사용자 데이터 쌍 이외에 다른 사용자 데이터 쌍에 대해 수행되어, 복수의 사용자 데이터 쌍 내의 각각의 사용자 데이터 쌍에 대응하는 사용자 유사성을 획득할 수 있다.

위의 단계(S404) 및 단계(S406)에서, 사용자 유사성은 사용자의 생물학적 특징에 따라 결정된다. 실제 응용에서, 사용자 유사성은 다양한 방식으로 구체적으로 결정될 수 있다. 단계(S404) 및 단계(S406)는 생물학적 특징이 얼굴 특징인 예를 사용하여 아래에서 구체적으로 설명되며, 세부 사항에 대해서는 다음의 단계 1 및 단계 2가 참조될 수 있다.

단계 1에서, 제1 사용자 데이터 쌍에 대응하는 사용자의 얼굴 이미지가 취득되며, 여기서 제1 사용자 데이터 쌍은 복수의 사용자 데이터 쌍 중의 임의의 사용자 데이터 쌍이다.

구현예에서, 복수의 사용자 데이터 쌍이 위의 단계(S402)를 통해 취득된 이후에, 하나의 사용자 데이터 쌍(즉, 제1 사용자 데이터 쌍)이 복수의 사용자 데이터 쌍으로부터 임의로 선택될 수 있다. 사용자가 단말기 디바이스를 사용하여 등록을 위해 서버에 로그인할 때, 사용자는 사용자의 얼굴을 포함하는 이미지를 서버에 업로드할 수 있다. 서버는 이미지 및 사용자의 식별자를 연관된 방식으로 저장할 수 있다. 사용자의 식별자는 등록 동안 사용자에 의해 입력된 사용자의 사용자 성 또는 이름일 수 있다. 연관된 방식으로 서버에 저장된 위의 정보는 표 2에 도시된 바와 같을 수 있다.

사용자의 식별자	사용자의 얼굴을 포함하는 이미지
사용자 1	이미지 A
사용자 2	이미지 B
사용자 3	이미지 C

제1 사용자 데이터 쌍을 취득한 이후에, 서버는 제1 사용자 데이터 쌍에 포함된 사용자의 식별자를 추출할 수 있고, 그런 다음 사용자의 식별자에 따라 대응하는 이미지를 획득할 수 있으며, 이에 따라 제1 사용자 데이터 쌍에 대응하는 사용자의 얼굴 이미지를 획득할 수 있다. 예를 들어, 제1 사용자 데이터 쌍에 포함된 사용자의 식별자는 사용자 2 및 사용자 3이며, 위의 표에서 대응하는 관계를 질의함으로써, 사용자의 얼굴을 포함하고 사용자 2에 대응하는 이미지가 이미지 B이고, 사용자의 얼굴을 포함하고 사용자 3에 대응하는 이미지가 이미지 C인 것으로 결정될 수 있는데, 즉, 제1 사용자 데이터 쌍에 대응하는 사용자의 얼굴 이미지는 이미지 B 및 이미지 C인 것으로 결정될 수 있다.단계 2에서, 얼굴 이미지에 대해 특징 추출이 수행되어 얼굴 이미지 특징을 획득하고, 제1 사용자 데이터 쌍에 대응하는 사용자 유사성이 제1 사용자 데이터 쌍에 대응하는 사용자의 얼굴 이미지 특징에 따라 결정된다.

구현예에서, 제1 사용자 데이터 쌍에 대응하는 사용자의 얼굴 이미지가 단계 1을 통해 획득된 이후에, 획득된 얼굴 이미지에 대해 각각 특징 추출이 각각 수행되어 대응하는 얼굴 이미지 특징을 획득할 수 있고, 각각의 얼굴 이미지의 추출된 특징에 기초하여 대응하는 특징 벡터가 획득되며; 그런 다음 임의의 두 개의 얼굴 이미지의 특징 벡터 간의 유클리드 거리가 계산될 수 있고, 특징 벡터 간의 유클리드 거리의 값에 따라, 대응하는 두 사용자 간의 유사성(즉, 사용자 유사성)의 정도가 결정될 수 있다. 특징 벡터 간의 유클리드 거리의 값이 클수록, 사용자의 유사성은 더 낮아지고; 특징 벡터 간의 유클리드 거리의 값이 작을수록, 사용자 유사성은 더 높아진다.

얼굴 이미지의 경우, 두 개의 얼굴 이미지는 유사할 수도 또는 유사하지 않을 수도 있다는 것을 알아야 한다. 따라서, 이미지가 유사한 지를 결정하기 위한 문턱치가 설정될 수 있다. 예를 들어, 문턱치는 70으로 설정된다. 두 개의 얼굴 이미지에 대응하는 사용자 유사성이 70 이상일 때, 제1 사용자 데이터 쌍 내의 두 세트의 사용자 데이터에 대응하는 사용자가 유사한 것으로 결정되고; 두 개의 얼굴 이미지에 대응하는 사용자 유사성이 70 미만일 때, 제1 사용자 데이터 쌍 내의 두 세트의 사용자 데이터에 대응하는 사용자는 유사하지 않은 것으로 결정된다.

예를 들어, 단계 1의 예에 기초하여, 이미지 B 및 이미지 C에 대해 특징 추출이 각각 수행되고, 추출된 특징에 따라 대응하는 특징 벡터가 각각 구축되어 이미지 B의 특징 벡터 및 이미지 C의 특징 벡터를 획득한다. 이미지 B의 특징 벡터와 이미지 C의 특징 벡터 간의 유클리드 거리가 계산되고, 획득된 유클리드 거리의 값에 따라 사용자 2와 사용자 3 사이의 사용자 유사성이 결정된다.

위의 방법에 의해, 위의 처리 절차는 복수의 사용자 데이터 쌍 내의 제1 사용자 데이터 쌍 이외의 다른 사용자 데이터 쌍에 대해 수행되어, 복수의 사용자 데이터 쌍 내의 각각의 사용자 데이터 쌍에 대응하는 사용자 유사성을 획득할 수 있다.

또한, 위의 단계(S404) 및 단계(S406)의 처리를 위해, 다음은 임의적 처리 방식을 추가로 제공하며, 세부 사항에 대해서는 다음의 단계 1 및 단계 2가 참조될 수 있다.

단계 1에서, 제1 사용자 데이터 쌍에 대응하는 사용자의 음성 데이터가 취득되며, 여기서 제1 사용자 데이터 쌍은 복수의 사용자 데이터 쌍 중의 임의의 사용자 데이터 쌍이다.

구현예에서, 복수의 사용자 데이터 쌍이 위의 단계(S402)를 통해 취득된 이후에, 하나의 사용자 데이터 쌍(즉, 제1 사용자 데이터 쌍)이 복수의 사용자 데이터 쌍으로부터 임의로 선택될 수 있다. 사용자가 단말기 디바이스를 사용하여 등록을 위해 서버에 로그 인할 때, 사용자는 미리 결정된 지속시간(예를 들어, 3 초 또는 5 초)을 갖고 및/또는 미리 결정된 음성 내용(예를 들어, 하나 이상의 단어 또는 한 문장의 음성)을 포함하는 음성 데이터를 서버에 업로드할 수 있다. 서버는 음성 데이터 및 사용자의 식별자를 연관된 방식으로 저장할 수 있다. 제1 사용자 데이터 쌍을 선택한 이후에, 서버는 제1 사용자 데이터 쌍에 포함된 사용자의 식별자를 각각 추출한 다음, 사용자의 식별자에 따라 대응하는 음성 데이터를 취득하며, 이에 따라 제1 사용자 데이터 쌍에 대응하는 사용자의 음성 데이터를 획득할 수 있다.

단계 2에서, 음성 데이터에 대해 특징 추출이 수행되어 음성 특징을 획득하고, 제1 사용자 데이터 쌍에 대응하는 사용자 유사성이 제1 사용자 데이터 쌍에 대응하는 사용자의 음성 특징에 따라 결정된다.

구현예에서, 제1 사용자 데이터 쌍에 대응하는 사용자의 음성 데이터가 위의 단계 1을 통해 획득된 이후에, 획득된 음성 데이터에 대해 특징 추출이 각각 수행되고, 각 조각의 음성 데이터의 추출된 특징에 기초하여, 대응하는 두 사용자 간의 유사성(즉, 사용자 유사성)의 정도가 결정될 수 있다. 특정 구현예에 대해서는 위의 단계(S406)에서 관련된 내용이 참조될 수 있다. 대안적으로, 특징의 일대일 비교를 통해 사용자 유사성이 결정될 수 있고; 또는 임의의 두 조각의 음성 데이터에 대해 음성 스펙트럼 분석이 수행되어 사용자 유사성을 결정할 수 있다. 위의 방법에 의해, 위의 처리 절차는 복수의 사용자 데이터 쌍 내의 제1 사용자 데이터 쌍 이외의 다른 사용자 데이터 쌍에 대해 수행되어, 복수의 사용자 데이터 쌍 내의 각각의 사용자 데이터 쌍에 대응하는 사용자 유사성을 획득할 수 있다.

단계(S408)에서, 복수의 사용자 데이터 쌍 내의 각각의 사용자 데이터 쌍에 대해 특징 추출이 수행되어 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터 사이에서 연관된 사용자 특징을 획득한다.

(제 3 사용자 데이터 쌍이라고 지칭될 수 있는) 사용자 데이터 쌍이 복수의 사용자 데이터 쌍으로부터 임의로 선택될 수 있는 구현예에서, 특징 추출은 제 3 사용자 데이터 쌍 내의 상이한 두 세트의 사용자 데이터에 대해 각각 수행될 수 있다. 예를 들어, 제 3 사용자 데이터 쌍은 사용자 데이터 1 및 사용자 데이터 2를 포함하고, 특징 추출은 사용자 데이터 1 및 사용자 데이터 2에 대해 각각 수행될 수 있다. 그런 다음, 제 3 사용자 데이터 쌍 내의 두 세트의 사용자 데이터 사이의 연관된 사용자 특징이 서로 다른 사용자 데이터로부터 추출된 특징을 비교함으로써 획득될 수 있다. 위의 방법에 의해, 위의 처리 절차는 복수의 사용자 데이터 쌍 내의 제 3 사용자 데이터 쌍 이외에 다른 사용자 데이터 쌍에 대해 수행되어, 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터 사이의 연관된 사용자 특징을 획득할 수 있다.

실제 응용에서, 사용자 특징은 이것으로 제한되는 것은 아니지만, 세대 등록 차원 특징, 이름 차원 특징, 사회적 특징 및 관심 특징 등을 포함할 수 있다. 세대 등록 차원 특징은 사용자 신원 정보의 특징을 포함할 수 있다. 세대 등록 차원 특징은 주로 중국의 가계 등록 관리 시스템에 기초한다. 세대 등록에 포함된 신원 카드 정보는 생년월일과 세대 등록 장소를 포함하고, 세대 등록은 부모의 이름과 주민의 주소를 포함한다. 그러나 역사적 이유 및 기타 이유로 인해, 일부 시민의 등록 정보는 실제 상황과 동일하지 않다. 예를 들어, 등록된 생년월일이 실제 날짜보다 이를 수도 있고, 두 자녀가 각각 부모의 성을 따를 수도 있고, 또는 부모의 이혼으로 인해 세대 등록의 분리를 가져오기도 한다. 따라서, 세대 등록 차원 특징은 두 명의 사용자가 쌍둥이인지를 결정하기 위한 기준으로서 작용할 수 있다. 이러한 방식으로, 서로 다른 사용자 간의 연관성은 사용자 데이터 쌍에 대응하는 서로 다른 사용자가 동일한 생년월일, 동일한 세대 등록 장소, 동일한 부모 또는 동일한 현재 주소를 갖는지와 같은 특징에 따라 결정된다.

이름 차원 특징은 사용자 이름 정보의 특징 및 사용자 성의 희소성 정도의 특징을 포함한다. 이름 차원 특징의 경우, 자연어 처리(Nature Language Processing)(NLP) 이론 및 사회적 경험에 기초하여, 일반적으로 두 사람의 이름이 Zhang Jinlong와 Zhang Jinhu와 같이 비슷해 보이거나, 또는 Zhang Meimei와 Zhang Lili와 같이 특정한 의미 관계가 있으면, 둘 사이에 연관성이 있다고 간주된다. 본 출원의 실시예에서, 두 사용자의 이름 사이의 관계는 사전을 사용하여 평가될 수 있고, 사용자의 등록된 개인 정보 및 인구 통계 데이터는 성의 희소성 정도를 특징으로서 계산하는 데 사용된다. 이러한 방식으로, 서로 다른 사용자 간의 연관성은 사용자 데이터 쌍에 대응하는 서로 다른 사용자가 동일한 성을 갖는지 또는 동일한 길이의 이름을 갖는지, 이름의 동의어의 정도, 이름의 조합이 문구인지, 성의 희소성 정도 등과 같은 특징에 따라 결정된다.

사회적 특징은 사용자의 사회적 관계 정보의 특징을 포함한다. 사회적 특징은 빅 데이터에 기초하여 사용자 데이터 쌍의 사회적 관계를 추출함으로써 획득될 수 있다. 일반적으로, 쌍둥이는 서로 자주 상호 작용할 것이고 동일한 친척이나 심지어 동급생과 같은 크게 겹치는 사회적 관계를 가질 것이다. 본 출원의 실시예에서, 사용자 데이터 쌍은 서버에 저장된 사용자의 개인 정보 및 기존의 데이터, 주소록 등에 의해 형성된 관계 네트워크에 기초하여 연관되어 대응하는 특징을 획득한다. 이러한 방식으로, 사용자 데이터 쌍에 대응하는 서로 다른 사용자 간의 연관성은 소셜 네트워킹 애플리케이션에서 서로 다른 사용자가 서로를 따라 하는지, 서로 다른 사용자가 서로 간에 자금을 이체했는지, 서로 다른 사용자가 상대방의 연락처 정보를 주소록에 저장하였는지, 서로 다른 사용자가 주소록에서 상대방에 특정 호칭을 표시했는지, 이들의 주소록 사이에 공통 연락처의 수량 등과 같은 특징에 따라 결정된다.

또한, 쌍둥이는 공통으로 많은 취미 및 쇼핑 선호도를 갖고 함께 여행할 수 있다는 것을 고려하면, 사용자 특징은 전자 상거래, 관광, 엔터테인먼트 및 다른 차원의 특징을 더 포함할 수 있다. 본 출원의 실시예에서, 전자 상거래, 관광, 엔터테인먼트 및 다른 차원의 특징과 관련된 데이터는 미리 결정된 데이터베이스 또는 웹 사이트로부터 취득될 수 있다. 이러한 방식으로, 사용자 데이터 쌍에 대응하는 서로 다른 사용자 간의 연관성은 서로 다른 사용자 간의 공통 쇼핑 기록의 양, 이들이 함께 여행했는지, 이들이 동일한 시간에 호텔에 체크인했는지, 이들의 쇼핑 선호도 간의 유사성, 이들이 동일한 배송 주소를 갖는지 등과 같은 특징에 따라 결정된다.

사용자 유사성을 결정하는 처리(단계(S404) 및 단계(S406)를 포함) 및 위의 특징 추출 처리(즉, 단계(S408))는 시간 순서대로 실행된다는 것을 알아야 한다. 실제 응용에서, 사용자 유사성을 결정하는 처리 및 특징 추출의 처리는 또한 동시에 또는 역순으로 실행될 수 있으며, 이것은 본 출원의 실시예로 제한되지 않는다.

단계(S410)에서, 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터 사이의 연관된 사용자 특징 및 각각의 사용자 데이터 쌍에 대응하는 사용자 유사성에 따라, 분류 모델을 훈련시키기 위한 샘플 데이터가 결정된다.

구현예에서, 문턱치는 사전에 설정될 수 있다. 문턱치에 따라, 문턱치보다 큰 사용자 유사성에 대응하는 사용자 데이터 쌍이 복수의 사용자 데이터 쌍으로부터 선택될 수 있다. 각각의 선택된 사용자 데이터 쌍 내의 두 세트의 사용자 데이터 사이의 연관된 사용자 특징은 분류 모델을 훈련시키기 위한 사용자 특징으로서 사용될 수 있다. 선택된 사용자 특징 및 선택된 사용자 데이터 쌍에 대응하는 사용자 유사성은 분류 모델을 훈련시키기 위한 샘플 데이터로서 결정될 수 있다.

단계(S410)의 처리는 전술한 방식 이외에 다양한 다른 방식으로 구현될 수 있다. 다음은 구체적으로 다음의 단계 1 및 단계 2를 포함하는 선택적 처리 방식을 추가로 제공한다:

단계 1에서, 포지티브 샘플 특징 및 네거티브 샘플 특징이 각각의 사용자 데이터 쌍에 대응하는 사용자 유사성 및 미리 결정된 유사성 문턱치에 따라 복수의 사용자 데이터 쌍에 대응하는 사용자 특징으로부터 선택된다.

구현예에서, 일란성 쌍둥이가 매우 유사한 외모, 동일한 생년월일 및 출생지, 및 일반적으로 동일한 성을 갖는다는 상식에 기초하여, 두 사용자가 일란성 쌍둥이인지를 결정하기 위해, 두 사용자의 얼굴 이미지 간의 사용자 유사성이 계산된다. 구체적으로, 예를 들어 80 % 또는 70 %의 유사성 문턱치가 사전에 설정될 수 있다. 유사성 문턱치보다 큰 사용자 유사성에 대응하는 사용자 데이터 쌍은 일란성 쌍둥이의 사용자 데이터 쌍으로 결정될 수 있고, 유사성 문턱치보다 작은 사용자 유사성에 대응하는 사용자 데이터 쌍은 일란성이 아닌 쌍둥이의 사용자 데이터 쌍으로 결정될 수 있다. 한편, 일란성 쌍둥이 및 이란성 쌍둥이는 외모를 제외하고는 기본적으로 동일한 특징을 갖기 때문에, 일란성 쌍둥이의 사용자 데이터 쌍에 대응하는 사용자 특징은 유사성 분류 모델의 포지티브 샘플 특징으로 사용될 수 있고, (이란성 쌍둥이 및 쌍둥이가 아닌 것을 비롯하여) 일란성이 아닌 쌍둥이의 사용자 데이터 쌍에 대응하는 사용자 특징은 유사성 분류 모델의 네거티브 샘플 특징으로 사용될 수 있다.

네거티브 샘플 특징은 그 안에 포함된 특징이 이란성 쌍둥이의 모든 사용자 특징이라는 것을 의미하지는 않는다는 것을 알아야 한다. 실제 응용에서, 이란성 쌍둥이의 사용자 특징은 네거티브 샘플 특징에서 극히 작은 부분을 차지할 수 있고, 또는 네거티브 샘플 특징은 포지티브 샘플 특징 중 소수를 포함할 수 있는데, 이것은 분류 모델의 훈련에 영향을 미치지는 않지만 유사성 분류 모델의 강인성을 개선할 것이다.

또한, 포지티브 샘플 특징은 네거티브 샘플 특징과 동일한 수량의 특징을 포함할 수 있다. 예를 들어, 복수의 사용자 데이터 쌍으로부터 10 % 미만의 사용자 유사성에 대응하는 10000 개의 사용자 데이터 쌍이 선택되고, 복수의 사용자 데이터 쌍으로부터 10 % 초과 및 20 % 미만의 사용자 유사성에 대응하는 10000 개의 사용자 데이터 쌍이 선택되고, 복수의 사용자 데이터 쌍으로부터 20 % 초과 및 30 % 미만의 사용자 유사성에 대응하는 10000 개의 사용자 데이터 쌍이 선택되고, 복수의 사용자 데이터 쌍으로부터 30 % 초과 및 40 % 미만의 사용자 유사성에 대응하는 10000 개의 사용자 데이터 쌍이 선택되며, 복수의 사용자 데이터 쌍으로부터 40 % 초과 및 50 % 미만의 사용자 유사성에 대응하는 10000 개의 사용자 데이터 쌍이 선택된다. 위의 50000 개의 사용자 데이터 쌍의 사용자 특징은 네거티브 샘플 특징으로 사용된다. 80 % 초과 및 90 % 미만의 사용자 유사성에 대응하는 40000 개의 사용자 데이터 쌍이 복수의 사용자 데이터 쌍으로부터 선택되고, 90 % 초과 및 100 % 미만의 사용자 유사성에 대응하는 10000 개의 사용자 데이터 쌍이 복수의 사용자 데이터 쌍으로부터 선택된다. 위의 50000 개의 사용자 데이터 쌍의 사용자 특징은 포지티브 샘플 특징으로 사용된다.

단계 2에서, 포지티브 샘플 특징 및 네거티브 샘플 특징은 분류 모델을 훈련시키기 위한 샘플 데이터로서 사용된다.

구현예에서, 사용자 특징의 데이터와 대응하는 사용자 유사성이 결합될 수 있고, 결합된 데이터는 분류 모델을 훈련시키기 위한 샘플 데이터로서 사용될 수 있다.

단계(S412)에서, 분류 모델은 샘플 데이터에 기초하여 훈련되어 유사성 분류 모델을 획득한다.

분류 모델의 주요 목적은 쌍둥이를 식별하는 것이기 때문에, 유사성 분류 모델은 이진 분류기 모델, 구체적으로는 본 출원의 실시예를 간단하고 실현 가능하게 하기 위해 그레디언트 부스팅 결정 트리(Gradient Boosting Decision Tree)(GBDT) 이진 분류기 모델일 수 있다.

구현예에서, 포지티브 샘플 특징은 계산을 위해 분류 모델에 각각 입력될 수 있다. 획득된 계산 결과는 포지티브 샘플 특징에 대응하는 사용자 유사성과 비교될 수 있다. 둘이 서로 매칭하면, 다음 번의 포지티브 샘플 특징 또는 네거티브 샘플 특징이 선택되어 계산을 위해 분류 모델에 입력될 수 있다. 획득된 계산 결과는 포지티브 샘플 특징에 대응하는 사용자 유사성과 계속 비교된다. 둘이 매칭하지 않으면, 분류 모델의 관련된 파라미터가 조정될 수 있고, 그런 다음 포지티브 샘플 특징이 계산을 위해 조정된 분류 모델에 입력되고, 획득된 계산 결과가 포지티브 샘플 특징에 대응하는 사용자 유사성과 다시 비교된다. 절차는 둘이 서로 매칭할 때까지 반복된다. 위의 방법에 의해, 모든 포지티브 샘플 특징 및 모든 네거티브 샘플 특징이 계산을 위해 분류 모델에 입력될 수 있고, 이에 따라 분류 모델을 훈련시킬 수 있다. 훈련을 통해 획득된 최종 분류 모델은 유사성 분류 모델로서 사용될 수 있다.

따라서, 유사성 분류 모델은 위의 처리 절차를 통해 획득된다. 유사성 분류 모델은 얼굴 인식 시나리오에 적용될 수 있다. 위험과 관련된 행동에 결부될 수 있는 쌍둥이 사용자의 경우, 유사성 분류 모델은 별도의 위험 제어에 사용될 수 있다.

도 5에 도시된 바와 같이, 유사성 분류 모델이 획득된 이후에, 유사성 분류 모델을 사용함으로써 검출 대상 사용자 데이터 쌍에 대응하는 검출 대상 사용자가 쌍둥이인 지가 결정될 수 있다. 특정 구현예에 대해서는 위의 단계(S414) 내지 단계(S420)에서 관련된 내용이 참조될 수 있다.

단계(S414)에서, 검출 대상 사용자 데이터 쌍이 취득된다.

단계(S414)의 내용은 실시예 1의 단계(S202)의 내용과 동일하고, 단계(S414)의 특정 구현예에 대해서는 단계(S202)의 관련된 내용이 참조될 수 있으며, 세부 사항은 여기서 다시 설명되지 않는다.

단계(S416)에서, 검출 대상 사용자 특징을 획득하기 위해 검출 대상 사용자 데이터 쌍 내의 각 세트의 검출 대상 사용자 데이터에 대해 특징 추출이 수행된다.

단계(S416)에서 검출 대상 사용자 특징을 획득하기 위해 검출 대상 사용자 데이터 쌍 내의 각 세트의 검출 대상 사용자 데이터에 대해 특징 추출을 수행하는 프로세스에 대해서는 위의 단계(S408)의 관련된 내용이 참조될 수 있다. 즉, 검출 대상 사용자 데이터로부터 추출된 특징은 이것으로 제한되는 것은 아니지만, 세대 등록 차원 특징, 이름 차원 특징, 사회적 특징 및 관심 특징 등을 포함할 수 있다. 단계(S408)의 관련된 내용이 참조될 수 있으며, 세부 사항은 여기서 다시 설명되지 않는다.

단계(S418)에서, 검출 대상 사용자 특징 및 미리 훈련된 유사성 분류 모델에 따라 검출 대상 사용자 데이터 쌍 내의 두 세트의 검출 대상 사용자 데이터에 대응하는 사용자 간의 유사성이 결정된다.

단계(S418)의 내용은 실시예 1의 단계(S206)의 내용과 동일하고, 단계(S418)의 특정 구현예에 대해서는 단계(S206)의 관련된 내용이 참조될 수 있으며, 세부 사항은 여기서 다시 설명되지 않는다.

단계(S420)에서, 검출 대상 사용자 데이터 쌍 내의 두 세트의 검출 대상 사용자 데이터에 대응하는 사용자 간의 유사성이 미리 결정된 유사성 분류 문턱치보다 크면, 검출 대상 사용자 데이터 쌍에 대응하는 검출 대상 사용자는 쌍둥이라고 결정된다.

구현예에서, 출력된 쌍둥이 리스트는 타겟 사용자의 얼굴 인식의 사용에 영향을 주기 때문에, 사용하려면 높은 정확도의 유사성 분류 모델인 것이 바람직하다. 실제 적용에서, 유사성 분류 문턱치는 큰 값, 예를 들어 95 % 또는 97 %로 설정될 수 있다. 검출 대상 사용자 특징은 훈련된 유사성 분류 모델을 사용하여 예측되고 점수가 매겨진다. 점수 매김(scoring) 프로세스는 해당하는 사용자 데이터 쌍에 대응하는 사용자가 쌍둥이일 확률을 계산하는 것이다. 예를 들어, 확률이 80 %이면, 점수는 80이고; 확률이 90 %이면, 점수는 90이다. 점수가 높을수록, 사용자 데이터 쌍에 대응하는 사용자가 쌍둥이일 확률이 높다.

본 출원의 실시예는 복수의 사용자 데이터 쌍이 취득되는 데이터 유사성 결정 방법을 제공하며, 여기서 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터의 데이터 필드는 동일한 부분을 갖고; 각각의 사용자 데이터 쌍에 대응하는 사용자 유사성이 취득되고; 미리 설정된 분류 모델을 훈련시키기 위한 샘플 데이터가 결정되며; 그런 다음, 유사성 분류 모델을 획득하기 위해 분류 모델이 샘플 데이터에 기초하여 훈련되므로, 검출 대상 사용자 데이터 쌍 내의 두 세트의 검출 대상 사용자 데이터에 대응하는 사용자 간의 유사성이 유사성 분류 모델에 따라 차후에 결정될 수 있다. 이러한 방식으로, 복수의 사용자 데이터 쌍이 동일한 데이터 필드를 통해서만 획득되고, 미리 설정된 분류 모델을 훈련시키기 위한 샘플 데이터를 획득하기 위해 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터에 대응하는 사용자 간의 연관성이 사용자 유사성에 따라 결정되므로, 즉 샘플 데이터가 수작업 분류없이 획득될 수 있으므로, 모델의 빠른 훈련이 구현될 수 있고, 모델 훈련의 효율이 개선될 수 있으며, 자원 소비가 감소될 수 있다.

실시예 3

본 출원의 실시예에 의해 제공되는 데이터 유사성 결정 방법이 위에서 설명된다. 동일한 개념에 기초하여, 본 출원의 실시예는 추가로 도 6에 도시된 바와 같은 모델 훈련 장치를 제공한다.

모델 훈련 장치는 서버에 배치될 수 있다. 장치는 데이터 취득 모듈(601), 유사성 취득 모듈(602), 샘플 데이터 결정 모듈(603) 및 모델 훈련 모듈(604)을 포함하며, 여기서:

데이터 취득 모듈(601)은 복수의 사용자 데이터 쌍을 취득하도록 구성되며, 여기서 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터의 데이터 필드는 동일한 부분을 갖고;

유사성 취득 모듈(602)은 각각의 사용자 데이터 쌍에 대응하는 사용자 유사성을 취득하도록 구성되며, 여기서 사용자 유사성은 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터에 대응하는 사용자 간의 유사성이고;

샘플 데이터 결정 모듈(603)은 각각의 사용자 데이터 쌍에 대응하는 사용자 유사성 및 복수의 사용자 데이터 쌍에 따라, 미리 설정된 분류 모델을 훈련시키기 위한 샘플 데이터를 결정하도록 구성되며;

모델 훈련 모듈(604)은 유사성 분류 모델을 획득하기 위해 샘플 데이터에 기초하여 분류 모델을 훈련시키도록 구성된다.

본 출원의 실시예에서, 유사성 취득 모듈(602)은,

본 출원의 실시예에서, 생물학적 특징은 얼굴 이미지 특징을 포함하고;

본 출원의 실시예에서, 생물학적 특징은 음성 특징을 포함하고;

본 출원의 실시예에서, 샘플 데이터 결정 모듈(603)은,

각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터 사이의 연관된 사용자 특징과 각각의 사용자 데이터 쌍에 대응하는 사용자 유사성에 따라, 분류 모델을 훈련시키기 위한 샘플 데이터를 결정하도록 구성된 샘플 데이터 결정 유닛을 포함한다.

본 출원의 실시예에서, 샘플 데이터 결정 유닛은 각각의 사용자 데이터 쌍에 대응하는 사용자 유사성 및 미리 결정된 유사성 문턱치에 따라 복수의 사용자 데이터 쌍에 대응하는 사용자 특징으로부터 포지티브 샘플 특징 및 네거티브 샘플 특징을 선택하고; 포지티브 샘플 특징 및 네거티브 샘플 특징을 분류 모델을 훈련시키기 위한 샘플 데이터로 사용하도록 구성된다.

본 출원의 실시예에서, 사용자 특징은 세대 등록 차원 특징, 이름 차원 특징, 사회적 특징 및 관심 특징을 포함하며, 여기서 세대 등록 차원 특징은 사용자 신원 정보의 특징을 포함하고, 이름 차원 특징은 사용자 이름 정보의 특징 및 사용자 성의 희소성 정도의 특징을 포함하며, 사회적 특징은 사용자의 사회적 관계 정보의 특징을 포함한다.

본 출원의 실시예에서, 포지티브 샘플 특징은 네거티브 샘플 특징과 동일한 수량의 특징을 포함한다.

본 출원의 실시예에서, 유사성 분류 모델은 이진 분류기 모델이다.

본 출원의 실시예는 복수의 사용자 데이터 쌍이 취득되는 모델 훈련 장치를 제공하며, 여기서 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터의 데이터 필드는 동일한 부분을 갖고; 각각의 사용자 데이터 쌍에 대응하는 사용자 유사성이 취득되고; 미리 설정된 분류 모델을 훈련시키기 위한 샘플 데이터가 결정되며; 그런 다음 유사성 분류 모델을 획득하기 위해 분류 모델이 샘플 데이터에 기초하여 훈련되므로, 검출 대상 사용자 데이터 쌍 내의 두 세트의 검출 대상 사용자 데이터에 대응하는 사용자 간의 유사성이 유사성 분류 모델에 따라 결정될 수 있다. 이러한 방식으로, 복수의 사용자 데이터 쌍이 동일한 데이터 필드를 통해서만 획득되고, 미리 설정된 분류 모델을 훈련시키기 위한 샘플 데이터를 획득하기 위해 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터에 대응하는 사용자 간의 연관성이 사용자 유사성에 따라 결정되므로, 즉 샘플 데이터가 수작업 분류없이 획득될 수 있으므로, 모델의 빠른 훈련이 구현될 수 있고, 모델 훈련의 효율이 개선될 수 있으며, 자원 소비가 감소될 수 있다.

실시예 4

본 출원의 실시예에 의해 제공되는 모델 훈련 장치가 위에서 설명된다. 동일한 개념에 기초하여, 본 출원의 실시예는 추가로 도 7에 도시된 바와 같은 데이터 유사성 결정 장치를 제공한다.

데이터 유사성 결정 장치는, 검출 대상 데이터 취득 모듈(701), 특징 추출 모듈(702) 및 유사성 결정 모듈(703)을 포함하고, 여기서:

검출 대상 데이터 취득 모듈(701)은 검출 대상 사용자 데이터 쌍을 취득하도록 구성되고;

특징 추출 모듈(702)은 검출 대상 사용자 데이터 쌍 내의 각 세트의 검출 대상 사용자 데이터에 대해 검출 대상 사용자 특징을 획득하도록 구성되고;

유사성 결정 모듈(703)은 검출 대상 사용자 특징 및 미리 훈련된 유사성 분류 모델에 따라 검출 대상 사용자 데이터 쌍 내의 두 세트의 검출 대상 사용자 데이터에 대응하는 사용자 간의 유사성을 결정하도록 구성된다.

본 출원의 실시예에서, 장치는,

본 출원의 실시예는 복수의 사용자 데이터 쌍이 취득되는 데이터 유사성 결정 장치를 제공하며, 여기서 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터의 데이터 필드는 동일한 부분을 갖고; 각각의 사용자 데이터 쌍에 대응하는 사용자 유사성이 취득되고; 미리 설정된 분류 모델을 훈련시키기 위한 샘플 데이터가 결정되며; 그런 다음, 유사성 분류 모델을 획득하기 위해 분류 모델이 샘플 데이터에 기초하여 훈련되므로, 검출 대상 사용자 데이터 쌍 내의 두 세트의 검출 대상 사용자 데이터에 대응하는 사용자 간의 유사성이 유사성 분류 모델에 따라 결정될 수 있다. 이러한 방식으로, 복수의 사용자 데이터 쌍이 동일한 데이터 필드를 통해서만 획득되고, 미리 설정된 분류 모델을 훈련시키기 위한 샘플 데이터를 획득하기 위해 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터에 대응하는 사용자 간의 연관성이 사용자 유사성에 따라 결정되므로, 즉 샘플 데이터가 수작업 분류없이 획득될 수 있으므로, 모델의 빠른 훈련이 구현될 수 있고, 모델 훈련의 효율이 개선될 수 있으며, 자원 소비가 감소될 수 있다.

실시예 5

동일한 개념에 기초하여, 본 출원의 실시예는 추가로 도 8에 도시된 바와 같은 모델 훈련 디바이스를 제공한다.

모델 훈련 디바이스는 전술한 실시예에서 제공되는 서버 등일 수 있다.

모델 훈련 디바이스는 상이한 구성 또는 성능에 따라 크게 상이할 수 있으며, 하나 이상의 프로세서(801) 및 메모리(802)를 포함할 수 있다. 메모리(802)는 하나 이상의 저장 애플리케이션 또는 데이터를 저장할 수 있다. 메모리(802)는 일시적 또는 영구적 저장소일 수 있다. 메모리(802)에 저장된 애플리케이션은 하나 이상의 모듈(도시되지 않음)을 포함할 수 있으며, 여기서 각각의 모듈은 모델 훈련 디바이스에서의 일련의 컴퓨터 실행 가능 명령어를 포함할 수 있다. 또한, 프로세서(801)는 메모리(802)와 통신하고, 모델 학습 디바이스 상에서 메모리(802) 내의 일련의 컴퓨터 실행 가능 명령어를 실행하도록 구성될 수 있다. 모델 훈련 디바이스는 하나 이상의 전원 공급 장치(803), 하나 이상의 유선 또는 무선 네트워크 인터페이스(804), 하나 이상의 입력/출력 인터페이스(805) 및 하나 이상의 키보드(806)를 더 포함할 수 있다.

구체적으로, 이 실시예에서, 모델 훈련 디바이스는 메모리 및 하나 이상의 프로그램을 포함한다. 하나 이상의 프로그램은 메모리에 저장된다. 하나 이상의 프로그램은 하나 이상의 모듈을 포함할 수 있고, 각각의 모듈은 모델 훈련 디바이스에서의 일련의 컴퓨터 실행 가능 명령어를 포함할 수 있다. 하나 이상의 프로세서는 하나 이상의 프로그램을 실행하여,

복수의 사용자 데이터 쌍을 취득하고 - 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터의 데이터 필드는 동일한 부분을 가짐 -;

각각의 사용자 데이터 쌍에 대응하는 사용자 유사성을 취득하고 - 사용자 유사성은 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터에 대응하는 사용자 간의 유사성임 -;

각각의 사용자 데이터 쌍에 대응하는 사용자 유사성 및 복수의 사용자 데이터 쌍에 따라, 미리 설정된 분류 모델을 훈련시키기 위한 샘플 데이터를 결정하며;

유사성 분류 모델을 획득하기 위해 샘플 데이터에 기초하여 분류 모델을 훈련시키는 컴퓨터 실행 가능 명령어를 실행하도록 구성된다.

선택적으로, 실행될 때, 실행 가능 명령어는 프로세서로 하여금 추가로,

제1 사용자 데이터 쌍에 대응하는 사용자의 생물학적 특징을 획득하게 하고 - 제1 사용자 데이터 쌍은 복수의 사용자 데이터 쌍 중의 임의의 사용자 데이터 쌍임 -; 및

제1 사용자 데이터 쌍에 대응하는 사용자의 생물학적 특징에 따라 제1 사용자 데이터 쌍에 대응하는 사용자 유사성을 결정하게 할 수 있다.

선택적으로, 실행될 때, 실행 가능 명령어는 프로세서로 하여금 추가로 다음과 같은 방식으로 동작하게 할 수 있는데, 즉,

생물학적 특징은 얼굴 이미지 특징을 포함하고;

제1 사용자 데이터 쌍에 대응하는 사용자의 생물학적 특징을 취득하는 것은:

제1 사용자 데이터 쌍에 대응하는 사용자의 얼굴 이미지를 취득하는 것; 및

얼굴 이미지 특징을 획득하기 위해 얼굴 이미지에 대해 특징 추출을 수행하는 것을 포함하고,

이에 대응하여, 제1 사용자 데이터 쌍에 대응하는 사용자의 생물학적 특징에 따라 제1 사용자 데이터 쌍에 대응하는 사용자 유사성을 결정하는 것은:

제1 사용자 데이터 쌍에 대응하는 사용자의 얼굴 이미지 특징에 따라 제1 사용자 데이터 쌍에 대응하는 사용자 유사성을 결정하는 것을 포함한다.

생물학적 특징은 음성 특징을 포함하고;

제1 사용자 데이터 쌍에 대응하는 사용자의 음성 데이터를 취득하는 것; 및

음성 특징을 획득하기 위해 음성 데이터에 대해 특징 추출을 수행하는 것을 포함하며;

이에 대응하여, 제1 사용자 데이터 쌍에 대응하는 사용자의 생물학적 특징에 따라 제1 사용자 데이터 쌍에 대응하는 사용자 유사성을 결정하는 것은,

제1 사용자 데이터 쌍에 대응하는 사용자의 음성 특징에 따라 제1 사용자 데이터 쌍에 대응하는 사용자 유사성을 결정하는 것을 포함한다.

선택적으로, 실행될 때, 실행 가능 명령어는 프로세서로 하여금 추가로:

각각의 사용자 데이터 쌍의 두 세트의 사용자 데이터 사이에서 연관된 사용자 특징을 획득하기 위해 복수의 사용자 데이터 쌍의 각각의 사용자 데이터 쌍에 대해 특징 추출을 수행하게 하고;

각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터 사이의 연관된 사용자 특징 및 각각의 사용자 데이터 쌍에 대응하는 사용자 유사성에 따라, 분류 모델을 훈련시키기 위한 샘플 데이터를 결정하게 할 수 있다.

각각의 사용자 데이터 쌍에 대응하는 사용자 유사성 및 미리 결정된 유사성 문턱치에 따라 복수의 사용자 데이터 쌍에 대응하는 사용자 특징으로부터 포지티브 샘플 특징 및 네거티브 샘플 특징을 선택하게 하고;

포지티브 샘플 특징 및 네거티브 샘플 특징을 분류 모델을 훈련시키기 위한 샘플 데이터로 사용하게 할 수 있다.

선택적으로, 사용자 특징은 세대 등록 차원 특징, 이름 차원 특징, 사회적 특징 및 관심 특징을 포함하며, 여기서 세대 등록 차원 특징은 사용자 신원 정보의 특징을 포함하고, 이름 차원 특징은 사용자 이름 정보의 특징 및 사용자 성의 희소성 정도의 특징을 포함하며, 사회적 특징은 사용자의 사회적 관계 정보의 특징을 포함한다.

선택적으로, 유사성 분류 모델은 이진 분류기 모델이다.

본 출원의 실시예는 복수의 사용자 데이터 쌍이 취득되는 모델 훈련 디바이스를 제공하며, 여기서 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터의 데이터 필드는 동일한 부분을 갖고; 각각의 사용자 데이터 쌍에 대응하는 사용자 유사성이 취득되고; 미리 설정된 분류 모델을 훈련시키기 위한 샘플 데이터가 결정되며; 그런 다음, 유사성 분류 모델을 획득하기 위해 분류 모델이 샘플 데이터에 기초하여 훈련되므로, 검출 대상 사용자 데이터 쌍 내의 두 세트의 검출 대상 사용자 데이터에 대응하는 사용자 간의 유사성이 유사성 분류 모델에 따라 결정될 수 있다. 이러한 방식으로, 복수의 사용자 데이터 쌍이 동일한 데이터 필드를 통해서만 획득되고, 미리 설정된 분류 모델을 훈련시키기 위한 샘플 데이터를 획득하기 위해 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터에 대응하는 사용자 간의 연관성이 사용자 유사성에 따라 결정되므로, 즉 샘플 데이터가 수작업 분류없이 획득될 수 있으므로, 모델의 빠른 훈련이 구현될 수 있고, 모델 훈련의 효율이 개선될 수 있으며, 자원 소비가 감소될 수 있다.

실시예 6

동일한 개념에 기초하여, 본 출원의 실시예는 추가로 도 9에 도시된 바와 같은 데이터 유사성 결정 디바이스를 제공한다.

데이터 유사성 결정 디바이스는 전술한 실시예에서 제공되는 서버, 단말기 디바이스 등일 수 있다.

데이터 유사성 결정 디바이스는 상이한 구성 또는 성능에 따라 크게 상이할 수 있으며, 하나 이상의 프로세서(901) 및 메모리(902)를 포함할 수 있다. 메모리(902)는 하나 이상의 저장 애플리케이션 또는 데이터를 저장할 수 있다. 메모리(902)는 일시적 또는 영구적 저장소일 수 있다. 메모리(902)에 저장된 애플리케이션은 하나 이상의 모듈(도시되지 않음)을 포함할 수 있으며, 여기서 각각의 모듈은 데이터 유사성 결정 디바이스에서의 일련의 컴퓨터 실행 가능 명령어를 포함할 수 있다. 또한, 프로세서(901)는 메모리(902)와 통신하고, 데이터 유사성 결정 디바이스 상에서 메모리(902) 내의 일련의 컴퓨터 실행 가능 명령어를 실행하도록 구성될 수 있다. 데이터 유사성 결정 디바이스는 하나 이상의 전원 공급 장치(903), 하나 이상의 유선 또는 무선 네트워크 인터페이스(904), 하나 이상의 입력/출력 인터페이스(905) 및 하나 이상의 키보드(906)를 더 포함할 수 있다.

구체적으로, 이 실시예에서, 데이터 유사성 결정 디바이스는 메모리 및 하나 이상의 프로그램을 포함한다. 하나 이상의 프로그램은 메모리에 저장된다. 하나 이상의 프로그램은 하나 이상의 모듈을 포함할 수 있고, 각각의 모듈은 데이터 유사성 결정 디바이스에서의 일련의 컴퓨터 실행 가능 명령어를 포함할 수 있다. 하나 이상의 프로세서는 하나 이상의 프로그램을 실행하여 다음과 같은 컴퓨터 실행 가능 명령어를 실행하도록 구성된다:

검출 대상 사용자 데이터 쌍을 취득하는 것;

검출 대상 사용자 데이터 쌍 내의 각각의 세트의 검출 대상 사용자 데이터에 대해 특징 추출을 수행하는 것;

검출 대상 사용자 특징 및 미리 훈련된 유사성 분류 모델에 따라 검출 대상 사용자 데이터 쌍 내의 두 세트의 검출 대상 사용자 데이터에 대응하는 사용자 간의 유사성을 결정하는 것.

검출 대상 사용자 데이터 쌍 내의 두 세트의 검출 대상 사용자 데이터에 대응하는 사용자 간의 유사성이 미리 결정된 유사성 분류 문턱치보다 크면 검출 대상 사용자 데이터 쌍에 대응하는 검출 대상 사용자를 쌍둥이라고 결정하게 할 수 있다.

본 출원의 실시예는 복수의 사용자 데이터 쌍이 취득되는 데이터 유사성 결정 디바이스를 제공하며, 여기서 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터의 데이터 필드는 동일한 부분을 갖고; 각각의 사용자 데이터 쌍에 대응하는 사용자 유사성이 취득되고; 미리 설정된 분류 모델을 훈련시키기 위한 샘플 데이터가 결정되며; 그런 다음, 유사성 분류 모델을 획득하기 위해 분류 모델이 샘플 데이터에 기초하여 훈련되므로, 검출 대상 사용자 데이터 쌍 내의 두 세트의 검출 대상 사용자 데이터에 대응하는 사용자 간의 유사성이 유사성 분류 모델에 따라 결정될 수 있다. 이러한 방식으로, 복수의 사용자 데이터 쌍이 동일한 데이터 필드를 통해서만 획득되고, 미리 설정된 분류 모델을 훈련시키기 위한 샘플 데이터를 획득하기 위해 각각의 사용자 데이터 쌍 내의 두 세트의 사용자 데이터에 대응하는 사용자 간의 연관성이 사용자 유사성에 따라 결정되므로, 즉 샘플 데이터가 수작업 분류없이 획득될 수 있으므로, 모델의 빠른 훈련이 구현될 수 있고, 모델 훈련의 효율이 개선될 수 있으며, 자원 소비가 감소될 수 있다.

본 명세서의 특정 실시예가 위에서 설명되었다. 다른 실시예는 첨부된 청구 범위의 범위 내에 있다. 일부 경우에, 청구 범위에 제시된 동작 또는 단계는 실시예에서 설명된 것과 상이한 순서로 수행될 수 있으며 그럼에도 원하는 결과를 달성할 수 있다. 또한, 도면에 도시된 프로세스는 원하는 결과를 달성하기 위해 반드시 도시된 특정 순서 또는 연속적인 순서일 필요는 없다. 일부 실시예에서, 멀티태스킹 및 병렬 처리가 또한 가능하거나 유리할 수 있다.

1990 년대에는 기술에 관한 개선이 하드웨어에 관한 개선(예를 들면, 다이오드, 트랜지스터 및 스위치와 같은 회로 구조에 관한 개선) 또는 소프트웨어에 관한 개선(방법 절차에 관한 개선)으로서 분명하게 구별될 수 있다. 그러나, 기술의 발전에 따라, 현재 많은 방법 절차의 개선은 하드웨어 회로 구조에 관한 직접적인 개선으로 간주될 수 있다. 대부분의 모든 설계자는 개선된 방법 절차를 하드웨어 회로에 프로그램하여 대응하는 하드웨어 회로 구조를 획득한다. 따라서, 방법 절차의 개선이 물질적 하드웨어 모듈을 사용하여 구현할 수 없다고 가정하는 것은 부적절하다. 예를 들어, 프로그래머블 로직 디바이스(programmable logic device)(PLD)(예를 들어, 필드 프로그래머블 게이트 어레이(field programmable gate array)(FPGA))는 사용자에 의해 프로그램된 디바이스에 의해 로직 함수가 결정되는 집적 회로이다. 설계자는 칩 제조업체에게 전용의 집적 회로 칩을 설계하고 제조하도록 요청할 필요없이 자력으로 디지털 시스템을 한 조각의 PLD에 "통합"하도록 프로그램한다. 더욱이, 현재, 프로그래밍은 집적 회로 칩을 수작업으로 제조하는 대신, 대부분은 로직 컴파일러 소프트웨어를 사용하여 구현된다. 로직 컴파일러 소프트웨어는 프로그램을 개발하고 작성하는 데 사용되는 소프트웨어 컴파일러와 유사하며, 원본 코드는 컴파일하기 전에 하드웨어 서술 언어(Hardware Description Language)(HDL)로 지칭되는 특정 프로그래밍 언어를 사용하여 작성되어야 한다. 많은 유형의 HDL들, 예컨대, ABEL(Advanced Boolean Expression Language), AHDL(Altera Hardware Description Language), 컨플루언스(Confluence), CUPL(Cornell University Programming Language), HDCal, JHDL(Java Hardware Description Language), 라버(Lava), 롤라(Lola), MyHDL, PALASM 및 RHDL(Ruby Hardware Description Language)이 있고, 그 중에서 VHDL(Very-High-Speed Integrated Circuit Hardware Description Language) 및 베릴로그(Verilog)가 현재 가장 일반적으로 사용된다. 관련 기술분야에서 통상의 기술자는 로직 방법 절차를 구현하기 위한 하드웨어 회로가 위의 몇몇 하드웨어 서술 언어들을 사용하여 방법 절차를 약간 논리적으로 프로그래밍하고 이를 집적 회로 내에 프로그래밍함으로써 용이하게 획득될 수 있다는 것을 또한 알고 있어야 한다.

컨트롤러는 임의의 적합한 방식으로 구현될 수 있다. 예를 들어, 컨트롤러는 예를 들어 마이크로프로세서 또는 프로세서, 및 (마이크로)프로세서, 로직 게이트, 스위치, 주문형 집적 회로(Application Specific Integrated Circuit)(ASIC), 프로그래머블 로직 컨트롤러 및 임베디드 마이크로컨트롤러에 의해 실행 가능한 컴퓨터 판독 가능 프로그램 코드(예를 들어, 소프트웨어 또는 펌웨어)를 저장하는 컴퓨터 판독 가능 매체의 형태일 수 있다. 컨트롤러의 예는 이것으로 제한되는 것은 아니지만, 다음과 같은 마이크로컨트롤러를 포함한다: ARC 625D, Atmel AT91SAM, 마이크로칩 PIC18F26K20 및 실리콘 랩 C8051F320. 메모리 컨트롤러는 또한 메모리의 제어 로직의 일부로서 구현될 수 있다. 관련 기술분야에서 통상의 기술자는 컨트롤러가 순수 컴퓨터 판독 가능 프로그램 코드만을 사용하여 구현될 수 있고, 또한 방법 단계가 컨트롤러로 하여금 동일한 기능을 로직 게이트, 스위치, 주문형 집적 회로, 프로그래머블 로직 컨트롤러, 및 임베디드 마이크로컨트롤러의 형태로 구현할 수 있도록 논리적으로 프로그램될 수 있다는 것을 또한 알고 있다. 따라서, 이러한 유형의 컨트롤러는 하드웨어 컴포넌트로서 간주될 수 있고, 다양한 기능을 구현하기 위해 본 명세서에 포함된 장치는 또한 하드웨어 컴포넌트 내부의 구조체로서 간주될 수 있다. 또는, 다양한 기능을 구현하기 위해 구성된 장치 조차도 방법을 구현하기 위한 소프트웨어 모듈 및 하드웨어 컴포넌트 내부의 구조체의 둘 다로 간주될 수 있다.

위의 실시예에 도시된 시스템, 장치, 모듈 또는 유닛은 컴퓨터 칩이나 물질적 개체, 또는 특정 기능을 갖는 제품을 사용하여 구체적으로 구현될 수 있다. 전형적인 구현 디바이스는 컴퓨터이다. 구체적으로, 컴퓨터는 예를 들어, 퍼스널 컴퓨터, 랩톱 컴퓨터, 셀룰러 폰, 카메라 폰, 스마트 폰, 개인 휴대 정보 단말기, 미디어 플레이어, 네비게이션 디바이스, 이메일 디바이스, 게임 콘솔, 태블릿 컴퓨터 또는 웨어러블 디바이스 또는 임의의 이러한 디바이스의 조합일 수 있다.

용이한 설명을 위해, 위의 장치가 설명될 때, 장치는 각각의 설명을 위한 기능의 관점에서 다양한 유닛으로 분리된다. 분명히, 본 출원이 구현될 때, 유닛의 기능은 동일한 또는 다수의 조각의 소프트웨어 및/또는 하드웨어로 구현될 수 있다.

관련 기술분야에서 통상의 기술자가 이해하는 바와 같이, 본 출원의 실시예는 방법, 시스템 또는 컴퓨터 프로그램 제품으로 구현될 수 있다. 따라서, 본 출원은 전체적으로 하드웨어 실시예, 전체적으로 소프트웨어 실시예 또는 소프트웨어와 하드웨어 양태를 조합한 실시예의 형태를 사용할 수 있다. 뿐만 아니라, 본 출원의 실시예는 컴퓨터에 의해 사용 가능한 프로그램 코드를 포함하는 (이것으로 제한되는 것은 아니지만, 자기 디스크 메모리, CD-ROM, 광학 메모리 등을 비롯한) 하나 이상의 컴퓨터에 의해 사용 가능한 저장 매체 상에 구현되는 컴퓨터 프로그램 제품의 형태를 사용할 수 있다.

본 출원은 본 출원의 실시예에서 방법, 디바이스(시스템) 및 컴퓨터 프로그램 제품의 흐름도 및/또는 블록도를 참조하여 설명된다. 컴퓨터 프로그램 명령어는 흐름도 및/또는 블록도 내의 각 프로세스 및/또는 블록 및 흐름도 및/또는 블록도 내의 프로세스 및/또는 블록의 조합을 구현할 수 있다는 것을 이해하여야 한다. 이들 컴퓨터 프로그램 명령어는 범용 컴퓨터, 특수 목적 컴퓨터, 임베디드 프로세서 또는 다른 프로그래머블 데이터 프로세싱 디바이스의 프로세서에 제공되어 머신을 생성함으로써, 흐름도 내의 하나 이상의 프로세스 및/또는 블록도 내의 하나 이상의 블록에서 명시된 기능을 구현하도록 구성된 장치는 컴퓨터 또는 다른 프로그래머블 데이터 프로세싱 디바이스의 프로세서에 의해 실행되는 명령어를 사용하여 생성될 수 있다.

이들 컴퓨터 프로그램 명령어는 또한 컴퓨터 또는 다른 프로그래머블 데이터 프로세싱 디바이스를 명시된 방식으로 작동하도록 안내할 수 있는 컴퓨터 판독 가능 메모리에 저장되어, 컴퓨터 판독 가능 메모리에 저장된 명령어가 명령 장치를 포함하는 제품을 생성하도록 할 수 있으며, 여기서 명령 장치는 흐름도 내의 하나 이상의 프로세스 및/또는 블록도 내의 하나 이상의 블록에서 명시된 기능을 구현한다.

이들 컴퓨터 프로그램 명령어는 또한 컴퓨터 또는 다른 프로그래머블 데이터 프로세싱 디바이스에 로딩되어, 일련의 동작 단계가 컴퓨터 또는 다른 프로그래머블 데이터 프로세싱 디바이스 상에서 수행되어 컴퓨터에 의해 구현된 프로세싱을 생성할 수 있으며, 컴퓨터 또는 다른 프로그래머블 데이터 프로세싱 디바이스 상에서 실행되는 명령어는 흐름도 내의 하나 이상의 프로세스 및/또는 블록도 내의 하나 이상의 블록에서 명시된 기능을 구현하기 위한 단계를 제공한다.

전형적인 구성에서, 컴퓨팅 디바이스는 하나 이상의 중앙 프로세싱 유닛(central processing unit)(CPU), 입력/출력 인터페이스, 네트워크 인터페이스 및 메모리를 포함한다.

메모리는 다음과 같은 형태의 컴퓨터 판독 가능 매체: 휘발성 메모리, 랜덤 액세스 메모리(random access memory)(RAM) 및/또는 비 휘발성 메모리, 예를 들면, 판독 전용 메모리(read-only memory)(ROM) 또는 플래시 RAM을 포함할 수 있다. 메모리는 컴퓨터 판독 가능 매체의 예이다.

컴퓨터 판독 가능 매체는 휘발성 및 비 휘발성, 모바일 및 비 모바일 매체를 포함하고, 임의의 방법 또는 기술을 사용하여 정보를 저장할 수 있다. 정보는 컴퓨터 판독 가능 명령어, 데이터 구조체, 프로그램의 모듈 또는 다른 데이터일 수 있다. 컴퓨터의 저장 매체의 예는 이것으로 제한되는 것은 아니지만, 컴퓨터 액세스 가능한 정보를 저장하기 위해 사용될 수 있는, 상변화 메모리(phase change memory(PRAM),) 정적 랜덤 액세스 메모리(Static Random Access Memory)(SRAM), 동적 랜덤 액세스 메모리(Dynamic Random Access Memory)(DRAM), 다른 유형의 RAM, ROM, 전기적 소거 가능 프로그래머블 판독 전용 메모리(electrically erasable programmable read-only memory)(EEPROM), 플래시 메모리 또는 다른 메모리 기술, 콤팩트 디스크 판독 전용 메모리(compact disc read-only memory)(CD-ROM), 디지털 다용도 디스크(Digital Versatile Disk)(DVD) 또는 다른 광학 저장소, 카세트 테이프, 테이프 디스크 저장소 또는 다른 자기 저장 디바이스, 또는 임의의 다른 비 전송 매체를 포함한다. 본 명세서에서의 정의에 따르면, 컴퓨터 판독 가능 매체는 일시적 컴퓨터 판독 가능 매체(일시적 매체), 예를 들면, 변조된 데이터 신호 및 캐리어를 포함하지 않는다.

"포함하다", "포함한다" 또는 이것의 다른 변형은 비 배타적인 포함을 망라하려는 것이며, 그래서 일련의 요소를 포함하는 프로세스, 방법, 제품 또는 디바이스는 그 요소를 포함할 뿐만 아니라, 분명하게 열거되지 않은 다른 요소를 포함하고, 또는 프로세스, 방법, 제품 또는 디바이스의 내재하는 요소를 더 포함한다는 것을 추가로 알아야 한다. 더 이상의 제한이 없는 경우, "하나/하나의 …을 포함하는"에 의해 정의되는 요소는 그 요소를 포함하는 프로세스, 방법, 제품 또는 디바이스가 다른 동일한 요소를 추가로 갖는 것을 배제하지 않는다.

본 출원은 컴퓨터에 의해 실행되는 컴퓨터 실행 가능한 명령어, 예를 들어, 프로그램 모듈의 일반적인 맥락에서 설명될 수 있다. 일반적으로, 프로그램 모듈은 특정 작업을 실행하거나 특정한 추상적 데이터 형태를 구현하기 위해 사용되는 루틴, 프로그램, 객체, 어셈블리, 데이터 구조체 등을 포함한다. 본 출원은 또한 분산 컴퓨팅 환경에서 구현될 수 있고, 분산 컴퓨터 환경에서, 작업은 통신 네트워크를 통해 연결된 원격 프로세싱 디바이스를 사용하여 실행된다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 저장 디바이스를 포함하는 로컬 및 원격 컴퓨터 저장 매체에 위치할 수 있다.

본 명세서의 실시예는 점진적으로 설명되며, 실시예의 동일하거나 유사한 부분이 서로 참조될 수 있으며, 각각의 실시예는 다른 실시예와 상이한 양태를 강조한다. 특히, 시스템 구현예는 기본적으로 방법 실시예와 유사하고, 그러므로 간략하게 설명된다. 관련된 부분에 대해서는 방법 실시예의 부분의 설명이 참조될 수 있다.

위의 설명은 본 출원의 구현예일뿐이며, 본 출원을 제한하려는 것은 아니다. 관련 기술분야에서 통상의 기술자는 본 출원에 다양한 수정 및 변경을 가할 수 있다. 본 출원의 사상 및 원리 내에서 이루어지는 임의의 수정, 동등한 대체 또는 개선은 본 출원의 청구 범위의 범위 내에 있다.

Claims

모델 훈련 디바이스에 의한 모델 훈련 방법으로서,
복수의 사용자 데이터 쌍을 획득하는 단계 - 각각의 사용자 데이터 쌍은 상기 사용자 데이터 쌍을 형성하기 위해 동일한 부분을 공유하는 데이터 필드를 가지는 두 세트의 사용자 데이터를 찾기 위해 상이한 사용자의 획득된 사용자 데이터의 데이터 필드를 비교함으로써 획득됨 -;
각각의 사용자 데이터 쌍에 대응하는 사용자 유사성을 취득하는 단계 - 상기 사용자 유사성은 각각의 사용자 데이터 쌍 내의 상기 두 세트의 사용자 데이터에 대응하는 사용자 간의 유사성임 -;
각각의 사용자 데이터 쌍에 대응하는 상기 사용자 유사성 및 상기 복수의 사용자 데이터 쌍에 따라, 미리 설정된 분류 모델을 훈련시키기 위한 샘플 데이터를 결정하는 단계; 및
유사성 분류 모델을 획득하기 위해 상기 샘플 데이터에 기초하여 상기 분류 모델을 훈련시키는 단계를 포함하는, 모델 훈련 방법.
제1항에 있어서,
상기 각각의 사용자 데이터 쌍에 대응하는 사용자 유사성을 취득하는 단계는,
제1 사용자 데이터 쌍에 대응하는 사용자의 생물학적 특징을 취득하는 단계 - 상기 제1 사용자 데이터 쌍은 상기 복수의 사용자 데이터 쌍 중의 임의의 사용자 데이터 쌍임 -; 및
상기 제1 사용자 데이터 쌍에 대응하는 상기 사용자의 상기 생물학적 특징에 따라 상기 제1 사용자 데이터 쌍에 대응하는 사용자 유사성을 결정하는 단계를 포함하는, 모델 훈련 방법.
제2항에 있어서,
상기 생물학적 특징은 얼굴 이미지 특징을 포함하고;
상기 제1 사용자 데이터 쌍에 대응하는 사용자의 생물학적 특징을 취득하는 단계는:
상기 제1 사용자 데이터 쌍에 대응하는 상기 사용자의 얼굴 이미지를 취득하는 단계; 및
얼굴 이미지 특징을 획득하기 위해 상기 얼굴 이미지에 대해 특징 추출을 수행하는 단계를 포함하며;
이에 대응하여, 상기 제1 사용자 데이터 쌍에 대응하는 상기 사용자의 상기 생물학적 특징에 따라 상기 제1 사용자 데이터 쌍에 대응하는 사용자 유사성을 결정하는 단계는:
상기 제1 사용자 데이터 쌍에 대응하는 상기 사용자의 얼굴 이미지 특징에 따라 상기 제1 사용자 데이터 쌍에 대응하는 상기 사용자 유사성을 결정하는 단계를 포함하는, 모델 훈련 방법.
제2항에 있어서,
상기 생물학적 특징은 음성 특징을 포함하고;
제1 사용자 데이터 쌍에 대응하는 사용자의 생물학적 특징을 취득하는 단계는,
상기 제1 사용자 데이터 쌍에 대응하는 상기 사용자의 음성 데이터를 취득하는 단계; 및
음성 특징을 획득하기 위해 상기 음성 데이터에 대해 특징 추출을 수행하는 단계를 포함하며;
이에 대응하여, 상기 제1 사용자 데이터 쌍에 대응하는 상기 사용자의 상기 생물학적 특징에 따라 상기 제1 사용자 데이터 쌍에 대응하는 상기 사용자 유사성을 결정하는 단계는,
상기 제1 사용자 데이터 쌍에 대응하는 상기 사용자의 음성 특징에 따라 상기 제1 사용자 데이터 쌍에 대응하는 상기 사용자 유사성을 결정하는 단계를 포함하는, 모델 훈련 방법.
제1항에 있어서,
상기 각각의 사용자 데이터 쌍에 대응하는 상기 사용자 유사성 및 상기 복수의 사용자 데이터 쌍에 따라, 분류 모델을 훈련시키기 위한 샘플 데이터를 결정하는 단계는,
각각의 사용자 데이터 쌍 내의 상기 두 세트의 사용자 데이터 사이의 연관된 사용자 특징을 획득하기 위해 상기 복수의 사용자 데이터 쌍 내의 각각의 사용자 데이터 쌍에 대해 특징 추출을 수행하는 단계; 및
각각의 사용자 데이터 쌍 내의 상기 사용자 데이터 사이의 상기 연관된 사용자 특징 및 각각의 사용자 데이터 쌍에 대응하는 상기 사용자 유사성에 따라, 상기 분류 모델을 훈련시키기 위한 상기 샘플 데이터를 결정하는 단계를 포함하는, 모델 훈련 방법.
제5항에 있어서,
상기 각각의 사용자 데이터 쌍 내의 상기 두 세트의 사용자 데이터 사이의 상기 연관된 사용자 특징 및 각각의 사용자 데이터 쌍에 대응하는 상기 사용자 유사성에 따라, 상기 분류 모델을 훈련시키기 위한 상기 샘플 데이터를 결정하는 단계는,
각각의 사용자 데이터 쌍에 대응하는 상기 사용자 유사성 및 미리 결정된 유사성 문턱치에 따라 상기 복수의 사용자 데이터 쌍에 대응하는 사용자 특징으로부터 포지티브(positive) 샘플 특징 및 네거티브(negative) 샘플 특징을 선택하는 단계; 및
상기 포지티브 샘플 특징 및 상기 네거티브 샘플 특징을 상기 분류 모델을 훈련시키기 위한 상기 샘플 데이터로서 사용하는 단계를 포함하는, 모델 훈련 방법.
제6항에 있어서,
상기 사용자 특징은 세대 등록 차원 특징(household registration dimension feature), 이름 차원 특징, 사회적 특징 및 관심 특징을 포함하고, 상기 세대 등록 차원 특징은 사용자 신원 정보의 특징을 포함하고, 상기 이름 차원 특징은 사용자 이름 정보의 특징 및 사용자 성(surname)의 희소성 정도의 특징을 포함하며, 상기 사회적 특징은 사용자의 사회적 관계 정보의 특징을 포함하는, 모델 훈련 방법.
제6항에 있어서,
상기 포지티브 샘플 특징은 상기 네거티브 샘플 특징과 동일한 수량의 특징을 포함하는, 모델 훈련 방법.
제1 항 내지 제 8 항 중 어느 한 항에 있어서,
상기 유사성 분류 모델은 이진 분류기 모델(binary classifier model)인, 모델 훈련 방법.
데이터 유사성 결정 디바이스에 의한 데이터 유사성 결정 방법으로서,
검출 대상 사용자 데이터 쌍(to-be-detected user data pair)을 취득하는 단계;
검출 대상 사용자 특징을 획득하기 위해 상기 검출 대상 사용자 데이터 쌍 내의 각 세트의 검출 대상 사용자 데이터에 대해 특징 추출을 수행하는 단계; 및
상기 검출 대상 사용자 특징 및 미리 훈련된 유사성 분류 모델에 따라 상기 검출 대상 사용자 데이터 쌍 내의 두 세트의 검출 대상 사용자 데이터에 대응하는 사용자 간의 유사성을 결정하는 단계를 포함하고,
상기 유사성 분류 모델은 복수의 사용자 데이터 쌍에 기초하여 미리 훈련되고,
상기 복수의 사용자 데이터 쌍의 각각의 사용자 데이터 쌍은, 상기 사용자 데이터 쌍을 형성하기 위해 동일한 부분을 공유하는 데이터 필드를 가지는 두 세트의 사용자 데이터를 찾기 위해 상이한 사용자의 획득된 사용자 데이터의 데이터 필드를 비교함으로써 획득되는, 데이터 유사성 결정 방법.
제10항에 있어서,
상기 방법은,
상기 검출 대상 사용자 데이터 쌍 내의 상기 두 세트의 검출 대상 사용자 데이터에 대응하는 상기 사용자 간의 상기 유사성이 미리 결정된 유사성 분류 문턱치보다 크면, 상기 검출 대상 사용자 데이터 쌍에 대응하는 검출 대상 사용자를 쌍둥이라고 결정하는 단계를 더 포함하는, 데이터 유사성 결정 방법.
모델 훈련 장치로서,
복수의 사용자 데이터 쌍을 취득하도록 구성된 데이터 취득 모듈 - 각각의 사용자 데이터 쌍은 상기 사용자 데이터 쌍을 형성하기 위해 동일한 부분을 공유하는 데이터 필드를 가지는 두 세트의 사용자 데이터를 찾기 위해 상이한 사용자의 획득된 사용자 데이터의 데이터 필드를 비교함으로써 획득됨 -;
각각의 사용자 데이터 쌍에 대응하는 사용자 유사성을 취득하도록 구성된 유사성 취득 모듈 - 상기 사용자 유사성은 각각의 사용자 데이터 쌍 내의 상기 두 세트의 사용자 데이터에 대응하는 사용자 간의 유사성임 -;
각각의 사용자 데이터 쌍에 대응하는 상기 사용자 유사성 및 상기 복수의 사용자 데이터 쌍에 따라, 미리 설정된 분류 모델을 훈련시키기 위한 샘플 데이터를 결정하도록 구성된 샘플 데이터 결정 모듈; 및
유사성 분류 모델을 획득하기 위해 상기 샘플 데이터에 기초하여 상기 분류 모델을 훈련시키도록 구성된 모델 훈련 모듈을 포함하는, 모델 훈련 장치.
제12항에 있어서,
상기 유사성 취득 모듈은,
제1 사용자 데이터 쌍에 대응하는 사용자의 생물학적 특징을 취득하도록 구성된 생물학적 특징 취득 유닛 - 상기 제1 사용자 데이터 쌍은 상기 복수의 사용자 데이터 쌍 중의 임의의 사용자 데이터 쌍임 -; 및
상기 제1 사용자 데이터 쌍에 대응하는 상기 사용자의 상기 생물학적 특징에 따라 상기 제1 사용자 데이터 쌍에 대응하는 사용자 유사성을 결정하도록 구성된 유사성 취득 유닛을 포함하는, 모델 훈련 장치.
제13항에 있어서,
상기 생물학적 특징은 얼굴 이미지 특징을 포함하고;
상기 생물학적 특징 취득 유닛은 상기 제1 사용자 데이터 쌍에 대응하는 상기 사용자의 얼굴 이미지를 취득하고; 얼굴 이미지 특징을 획득하기 위해 상기 얼굴 이미지에 대해 특징 추출을 수행하도록 구성되며;
이에 대응하여, 상기 유사성 취득 유닛은 상기 제1 사용자 데이터 쌍에 대응하는 상기 사용자의 상기 얼굴 이미지 특징에 따라 상기 제1 사용자 데이터 쌍에 대응하는 상기 사용자 유사성을 결정하도록 구성되는, 모델 훈련 장치.
제13항에 있어서,
상기 생물학적 특징은 음성 특징을 포함하고;
상기 생물학적 특징 취득 유닛은 상기 제1 사용자 데이터 쌍에 대응하는 상기 사용자의 음성 데이터를 획득하고; 음성 특징을 획득하기 위해 상기 음성 데이터에 대해 특징 추출을 수행하도록 구성되며;
이에 대응하여, 상기 유사성 취득 유닛은 상기 제1 사용자 데이터 쌍에 대응하는 상기 사용자의 상기 음성 특징에 따라 상기 제1 사용자 데이터 쌍에 대응하는 상기 사용자 유사성을 결정하도록 구성되는, 모델 훈련 장치.
제12항에 있어서,
상기 샘플 데이터 결정 모듈은,
각각의 사용자 데이터 쌍 내의 상기 두 세트의 사용자 데이터 사이의 연관된 사용자 특징을 획득하기 위해 상기 복수의 사용자 데이터 쌍 내의 각각의 사용자 데이터 쌍에 대해 특징 추출을 수행하도록 구성된 특징 추출 유닛; 및
각각의 사용자 데이터 쌍 내의 상기 두 세트의 사용자 데이터 사이의 연관된 사용자 특징 및 각각의 사용자 데이터 쌍에 대응하는 상기 사용자 유사성에 따라, 상기 분류 모델을 훈련시키기 위한 상기 샘플 데이터를 결정하도록 구성된 샘플 데이터 결정 유닛을 포함하는, 모델 훈련 장치.
제16항에 있어서,
상기 샘플 데이터 결정 유닛은 각각의 사용자 데이터 쌍에 대응하는 상기 사용자 유사성 및 미리 결정된 유사성 문턱치에 따라 상기 복수의 사용자 데이터 쌍에 대응하는 사용자 특징으로부터 포지티브 샘플 특징 및 네거티브 샘플 특징을 선택하고; 상기 포지티브 샘플 특징 및 상기 네거티브 샘플 특징을 상기 분류 모델을 훈련시키기 위한 상기 샘플 데이터로 사용하도록 구성되는, 모델 훈련 장치.
제17항에 있어서,
상기 사용자 특징은 세대 등록 차원 특징, 이름 차원 특징, 사회적 특징 및 관심 특징을 포함하고, 상기 세대 등록 차원 특징은 사용자 신원 정보의 특징을 포함하고, 상기 이름 차원 특징은 사용자 이름 정보의 특징 및 사용자 성의 희소성 정도의 특징을 포함하며, 상기 사회적 특징은 사용자의 사회적 관계 정보의 특징을 포함하는, 모델 훈련 장치.
제17항에 있어서,
상기 포지티브 샘플 특징은 상기 네거티브 샘플 특징과 동일한 수량의 특징을 포함하는, 모델 훈련 장치.
제12 항 내지 제19 항 중 어느 한 항에 있어서,
상기 유사성 분류 모델은 이진 분류기 모델인, 모델 훈련 장치.
데이터 유사성 결정 장치로서,
검출 대상 사용자 데이터 쌍을 취득하도록 구성된 검출 대상 데이터 취득 모듈;
검출 대상 사용자 특징을 획득하기 위해 상기 검출 대상 사용자 데이터 쌍 내의 각 세트의 검출 대상 사용자 데이터에 대해 특징 추출을 수행하도록 구성된 특징 추출 모듈; 및
상기 검출 대상 사용자 특징 및 미리 훈련된 유사성 분류 모델에 따라 상기 검출 대상 사용자 데이터 쌍 내의 두 세트의 검출 대상 사용자 데이터에 대응하는 사용자 간의 유사성을 결정하도록 구성된 유사성 결정 모듈을 포함하고,
상기 유사성 분류 모델은 복수의 사용자 데이터 쌍에 기초하여 미리 훈련되고,
상기 복수의 사용자 데이터 쌍의 각각의 사용자 데이터 쌍은, 상기 사용자 데이터 쌍을 형성하기 위해 동일한 부분을 공유하는 데이터 필드를 가지는 두 세트의 사용자 데이터를 찾기 위해 상이한 사용자의 획득된 사용자 데이터의 데이터 필드를 비교함으로써 획득되는, 데이터 유사성 결정 장치.
제21항에 있어서,
상기 장치는,
상기 검출 대상 사용자 데이터 쌍 내의 상기 두 세트의 검출 대상 사용자 데이터에 대응하는 상기 사용자 간의 상기 유사성이 미리 결정된 유사성 분류 문턱치보다 크면, 상기 검출 대상 사용자 데이터 쌍에 대응하는 검출 대상 사용자를 쌍둥이라고 결정하도록 구성된 유사성 분류 모듈을 더 포함하는, 데이터 유사성 결정 장치.
모델 훈련 디바이스로서,
프로세서; 및
컴퓨터 실행 가능 명령어를 저장하도록 구성된 메모리를 포함하고,
실행될 때 상기 컴퓨터 실행 가능 명령어는 상기 프로세서로 하여금 다음의 동작:
복수의 사용자 데이터 쌍을 취득하는 것 - 각각의 사용자 데이터 쌍은 상기 사용자 데이터 쌍을 형성하기 위해 동일한 부분을 공유하는 데이터 필드를 가지는 두 세트의 사용자 데이터를 찾기 위해 상이한 사용자의 획득된 사용자 데이터의 데이터 필드를 비교함으로써 획득됨 -;
각각의 사용자 데이터 쌍에 대응하는 사용자 유사성을 취득하는 것 - 상기 사용자 유사성은 각각의 사용자 데이터 쌍 내의 상기 두 세트의 사용자 데이터에 대응하는 사용자 간의 유사성임 -;
각각의 사용자 데이터 쌍에 대응하는 상기 사용자 유사성 및 상기 복수의 사용자 데이터 쌍에 따라, 미리 설정된 분류 모델을 훈련시키기 위한 샘플 데이터를 결정하는 것; 및
유사성 분류 모델을 획득하기 위해 상기 샘플 데이터에 기초하여 상기 분류 모델을 훈련시키는 것
을 실행하게 하는, 모델 훈련 디바이스.
데이터 유사성 결정 디바이스로서,
프로세서; 및
컴퓨터 실행 가능 명령어를 저장하도록 구성된 메모리를 포함하고,
실행될 때 상기 컴퓨터 실행 가능 명령어는 상기 프로세서로 하여금 다음의 동작:
검출 대상 사용자 데이터 쌍을 취득하는 것;
검출 대상 사용자 특징을 획득하기 위해 상기 검출 대상 사용자 데이터 쌍 내의 각각의 세트의 검출 대상 사용자 데이터에 대해 특징 추출을 수행하는 것; 및
상기 검출 대상 사용자 특징 및 미리 훈련된 유사성 분류 모델에 따라 상기 검출 대상 사용자 데이터 쌍 내의 두 세트의 검출 대상 사용자 데이터에 대응하는 사용자 간의 유사성을 결정하는 것
을 실행하게 하고,
상기 유사성 분류 모델은 복수의 사용자 데이터 쌍에 기초하여 미리 훈련되고,
상기 복수의 사용자 데이터 쌍의 각각의 사용자 데이터 쌍은, 상기 사용자 데이터 쌍을 형성하기 위해 동일한 부분을 공유하는 데이터 필드를 가지는 두 세트의 사용자 데이터를 찾기 위해 상이한 사용자의 획득된 사용자 데이터의 데이터 필드를 비교함으로써 획득되는, 데이터 유사성 결정 디바이스.