WO2019241913A1

WO2019241913A1 - 数字身份标识生成方法、装置、系统及存储介质

Info

Publication number: WO2019241913A1
Application number: PCT/CN2018/091880
Authority: WO
Inventors: 潘光明; 杨梦�; 赵宏德; 唐强; 周童; 李航; 李华平
Original assignee: 深圳华大基因科技有限公司
Priority date: 2018-06-19
Filing date: 2018-06-19
Publication date: 2019-12-26
Also published as: US20210150005A1; US11822629B2; EP3812952A4; EP3812952A1

Abstract

本申请提出一种数字身份标识生成方法、装置、系统及存储介质，该方法包括从全基因组数据中提取第一预设个数的短串联重复序列STR，以及各STR的相关信息；根据所述各STR的相关信息生成与所述各STR对应的单STR数字编码，得到多个单STR数字编码；采用预设规则对每个单STR数字编码进行序列变换，并根据所述序列变换后的单STR数字编码生成目标STR数字编码；生成所述目标STR数字编码的摘要信息，并将所述摘要信息作为所述目标STR数字编码所属STR的摘要信息；将所述STR的摘要信息作为所生成的数字身份标识。通过本申请能够有效提升所生成数字身份标识的保密性和安全性，提升数字身份标识的表达效果。

Description

数字身份标识生成方法、装置、系统及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种数字身份标识生成方法、装置、系统及存储介质。

背景技术

传统数字身份可以分为两类，一类是需要和物理身份实名对应的数字身份，简称为实体数字身份，最典型的应用包括政府发布的居民身份证和银行发布的个人数字证书、法人数字证书等；另外一类是不需要和物理身份对应的虚拟数字身份，简称为虚拟数字身份，常见的应用包括各种网络服务的用户名等。

实体数字身份和物理身份的对应关系具体如下：实体数字身份的发放及管理，需要真实的物理身份进行关联鉴别，即，每个数字身份对应一个真实存在的物理身份，物理身份一般通过自然人的生物信息(脸部特征或指纹特征)进行识别。

相关技术中的实体数字身份所依赖的线下实体个人生物信息识别技术较为薄弱，依靠生物信息识别技术生成数字身份存在以下问题：基于脸部特征识别技术的数字身份应用中(例如身份证号码)，生物特征唯一性无法保证100％不重复、可复制性较高(整容易容)、人工或机器的脸部识别准确率都无法达到100％，数字身份标识的表达效果不佳。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的一个目的在于提出一种数字身份标识生成方法，能够有效提升所生成数字身份标识的保密性和安全性，提升数字身份标识的表达效果。

本申请的另一个目的在于提出一种数字身份标识生成装置。

本申请的另一个目的在于提出一种数字身份标识生成系统。

本申请的另一个目的在于提出一种非临时性计算机可读存储介质。

本申请的另一个目的在于提出一种计算机程序产品。

为达到上述目的，本申请第一方面实施例提出的数字身份标识生成方法，包括：从全基因组数据中提取第一预设个数的短串联重复序列STR，以及各STR的相关信息；根据所述各STR的相关信息生成与所述各STR对应的单STR数字编码，得到多个单STR数字编码；采用预设规则对每个单STR数字编码进行序列变换，并根据所述序列变换后的单STR数字编码生成目标STR数字编码；生成所述目标STR数字编码的摘要信息，并将所述摘要信息作为所述目标STR数字编码所属STR的摘要信息；将所述STR的摘要信息作为所生成的数字身份标识。

本申请第一方面实施例提出的数字身份标识生成方法，通过从全基因组数据中提取第一预设个数的短串联重复序列STR，以及各STR的相关信息，根据各STR的相关信息生成与各STR对应的单STR数字编码，得到多个单STR数字编码，并采用预设规则对每个单STR数字编码进行序列变换，并根据序列变换后的单STR数字编码生成目标STR数字编码，以及生成目标STR数字编码的摘要信息，并将摘要信息作为目标STR数字编码所属STR的摘要信息，将STR的摘要信息作为所生成的数字身份标识，由于是基于全基因组数据中的短串联重复序列STR生成数字身份标识，使得所生成数字身份标识具有唯一性，不易被复制，并且由于是对STR进行数字编码以及序列变换，能够有效提升所生成数字身份标识的保密性和安全性，提升数字身份标识的表达效果。

为达到上述目的，本申请第二方面实施例提出的数字身份标识生成装置，包括：处理器；存储器；存储器内存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行：从全基因组数据中提取第一预设个数的短串联重复序列STR，以及各STR的相关信息；根据所述各STR的相关信息生成与所述各STR对应的单STR数字编码，得到多个单STR数字编码；采用预设规则对每个单STR数字编码进行序列变换，并根据所述序列变换后的单STR数字编码生成目标STR数字编码；生成所述目标STR数字编码的摘要信息，并将所述摘要信息作为所述目标STR数字编码所属STR的摘要信息；将所述STR的摘要信息作为所生成的数字身份标识。

本申请第二方面实施例提出的数字身份标识生成装置，通过从全基因组数据中提取第一预设个数的短串联重复序列STR，以及各STR的相关信息，根据各STR的相关信息生成与各STR对应的单STR数字编码，得到多个单STR数字编码，并采用预设规则对每个单STR数字编码进行序列变换，并根据序列变换后的单STR数字编码生成目标STR数字编码，以及生成目标STR数字编码的摘要信息，并将摘要信息作为目标STR数字编码所属STR的摘要信息，将STR的摘要信息作为所生成的数字身份标识，由于是基于全基因组数据中的短串联重复序列STR生成数字身份标识，使得所生成数字身份标识具有唯一性，不易被复制，并且由于是对STR进行数字编码以及序列变换，能够有效提升所生成数字身份标识的保密性和安全性，提升数字身份标识的表达效果。

为达到上述目的，本申请第三方面实施例提出的数字身份标识生成系统，包括：本申请第二方面实施例提出的数字身份标识生成装置。

本申请第三方面实施例提出的数字身份标识生成系统，通过从全基因组数据中提取第一预设个数的短串联重复序列STR，以及各STR的相关信息，根据各STR的相关信息生成与各STR对应的单STR数字编码，得到多个单STR数字编码，并采用预设规则对每个单STR数字编码进行序列变换，并根据序列变换后的单STR数字编码生成目标STR数字编码，以及生成目标STR数字编码的摘要信息，并将摘要信息作为目标STR数字编码所属STR的摘要信息，将STR的摘要信息作为所生成的数字身份标识，由于是基于全基因组数据中的短串联重复序列STR生成数字身份标识，使得所生成数字身份标识具有唯一性，不易被复制，并且由于是对STR进行数字编码以及序列变换，能够有效提升所生成数字身份标识的保密性和安全性，提升数字身份标识的表达效果。

为达到上述目的，本申请第四方面实施例提出的非临时性计算机可读存储介质，具有存储于其中的指令，当所述指令被电子设备的处理器执行时，所述处理器执行本申请第一方面实施例提出的数字身份标识生成方法。

本申请第四方面实施例提出的非临时性计算机可读存储介质，通过从全基因组数据中提取第一预设个数的短串联重复序列STR，以及各STR的相关信息，根据各STR的相关信息生成与各STR对应的单STR数字编码，得到多个单STR数字编码，并采用预设规则对每个单STR数字编码进行序列变换，并根据序列变换后的单STR数字编码生成目标STR数字编码，以及生成目标STR数字编码的摘要信息，并将摘要信息作为目标STR数字编码所属STR的摘要信息，将STR的摘要信息作为所生成的数字身份标识，由于是基于全基因组数据中的短串联重复序列STR生成数字身份标识，使得所生成数字身份标识具有唯一性，不易被复制，并且由于是对STR进行数字编码以及序列变换，能够有效提升所生成数字身份标识的保密性和安全性，提升数字身份标识的表达效果。

为达到上述目的，本申请第五方面实施例提出的计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行一种数字身份标识生成方法，所述方法包括：从全基因组数据中提取第一预设个数的短串联重复序列STR，以及各STR的相关信息；根据所述各STR的相关信息生成与所述各STR对应的单STR数字编码，得到多个单STR数字编码；采用预设规则对每个单STR数字编码进行序列变换，并根据所述序列变换后的单STR数字编码生成目标STR数字编码；生成所述目标STR数字编码的摘要信息，并将所述摘要信息作为所述目标 STR数字编码所属STR的摘要信息；将所述STR的摘要信息作为所生成的数字身份标识。

本申请第五方面实施例提出的计算机程序产品，通过从全基因组数据中提取第一预设个数的短串联重复序列STR，以及各STR的相关信息，根据各STR的相关信息生成与各STR对应的单STR数字编码，得到多个单STR数字编码，并采用预设规则对每个单STR数字编码进行序列变换，并根据序列变换后的单STR数字编码生成目标STR数字编码，以及生成目标STR数字编码的摘要信息，并将摘要信息作为目标STR数字编码所属STR的摘要信息，将STR的摘要信息作为所生成的数字身份标识，由于是基于全基因组数据中的短串联重复序列STR生成数字身份标识，使得所生成数字身份标识具有唯一性，不易被复制，并且由于是对STR进行数字编码以及序列变换，能够有效提升所生成数字身份标识的保密性和安全性，提升数字身份标识的表达效果。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请一实施例提出的数字身份标识生成方法的流程示意图；

图2为本申请实施例中各STR的相关信息示意图；

图3是本申请另一实施例提出的数字身份标识生成方法的流程示意图；

图4为本申请实施例中索引信息示意图；

图5是本申请另一实施例提出的数字身份标识生成方法的流程示意图；

图6为本申请实施例中数字身份ID库示意图；

图7是本申请一实施例提出的数字身份标识生成装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本申请一实施例提出的数字身份标识生成方法的流程示意图。

本实施例以该数字身份标识生成方法被配置为数字身份标识生成装置中来举例说明。

本实施例中数字身份标识生成方法可以被配置在数字身份标识生成装置中，数字身份标识生成装置可以设置在服务器中，或者也可以设置在电子设备中，对此不作限制。

本实施例以数字身份标识生成方法被配置在电子设备中为例。

其中的数字身份标识用于唯一标记一位用户的身份信息，数字身份标识为基于该用户的基因组数据所生成的。其中，电子设备例如智能手机、平板电脑、个人数字助理、电子书等具有各种操作系统的硬件设备。

需要说明的是，本申请实施例的执行主体，在硬件上可以例如为电子设备的中央处理器(Central Processing Unit，CPU)，在软件上可以例如为电子设备中的数字身份标识生成类应用程序，对此不作限制。

为了解决上述技术问题，本申请实施例提供一种数字身份标识生成方法，通过从全基因组数据中提取第一预设个数的短串联重复序列STR，以及各STR的相关信息，根据各STR的相关信息生成与各STR对应的单STR数字编码，得到多个单STR数字编码，并采用预设规则对每个单STR数字编码进行序列变换，并根据序列变换后的单STR数字编码生成目标STR数字编码，以及生成目标STR数字编码的摘要信息，并将摘要信息作为目标STR数字编码所属STR的摘要信息，将STR的摘要信息作为所生成的数字身份标识，由于是基于全基因组数据中的短串联重复序列STR生成数字身份标识，使得所生成数字身份标识具有唯一性，不易被复制，并且由于是对STR进行数字编码以及序列变换，能够有效提升所生成数字身份标识的保密性和安全性，提升数字身份标识的表达效果。

参见图1，该方法包括：

S101：从全基因组数据中提取第一预设个数的短串联重复序列STR，以及各STR的相关信息。

其中的全基因组数据为当前需要对其生成数字身份标识的用户的全基因组数据。

基于基因组数据的特性，在某个用户的全基因组数据中，存在N个短串联重复序列(short tandem repeat,STR)，STR是核心序列为2-6个碱基的短串联重复结构，其中，每个STR包含的碱基对序列重复次数范围一般在1-K之间，基于基因组数据的特性，目前N取值大于7000，K取值约为100。对于任何特定用户的全基因组数据中，染色体上某个特定位置的STR中重复序列的重复次数是固定的，而对于不同用户在同一位置处的重复次数可能不同，因此，构成多个用户中该STR的多态性。本申请实施例中，正是基于用户全基因组数据中STR的多态性，通过基于STR的多态性生成唯一的数字身份标识，可以采用该数字身份标识唯一表达一个用户的身份，使得所生成数字身份标识具有唯一性，不易被复制。

本申请实施例中，基于STR的多态性生成提供一种可以生成海量不同数字身份标识的方法，其生成的每个数字身份标识都为该用户所特有，而不与其他用户的数字身份标识重复。

本申请实施例中的全基因组数据，可以从公开的人类基因组标准序列Hg19中获取。

作为一种示例，本申请实施例中提取的各STR的相关信息可以参见图2，图2为本申请实施例中各STR的相关信息示意图。其中，以文档的形式展示各STR的相关信息，每个STR占一行，横向从前到后的内容分别代表的含义举例如下：

Score ID；

Perc div；

Perc del；

Perc ins；

染色体编号；

在查询序列的起始位点；

在查询序列的终止位点

序列方向+为正向；

重复部分的碱基序列；

重复序列类型，simple_repeat即为STR；

在重复部分的起始位点；

在重复部分的终止位点。

可选地，一些实施例中，参见图3，从全基因组数据中提取第一预设个数的短串联重复序列STR，包括：

S301：从全基因组数据中提取具有多态性的短串联重复序列STR并作为初始STR。

S302：从多个初始STR中随机提取第一预设个数的不同的STR，第一预设个数的不同的STR中至少有第二预设个数的STR不同，第一预设个数大于第二预设个数。

其中的第一预设个数和第二预设个数可以有用户根据使用需求预先设定，或者，也可以由电子设备的出厂程序预先设定，对此不作限制。

其中的第一预设个数可以用M表示，第二预设个数可以用J表示。

本申请实施例在具体执行的过程中，为了有效使得所生成数字身份标识具有唯一性，可以从全基因组数据中提取具有多态性的短串联重复序列STR并作为初始STR，使得基于用户全基因组数据产生的数字身份标识可以回溯到唯一生物个体，有效防止身份冒用，每次随机提取的第一预设个数的不同的STR能够用于生成该用户的一个数字身份标识，经过多次的随机提取，即可以生成该用户的多个不同的数字身份标识，能够产生海量的数字身份标识，可以保证个人在每次身份鉴定中使用不同的数字身份标识，对于隐私保护较高的场合，可以保证数字身份标识不被滥用。

本申请实施例在具体执行的过程中，还为了进一步保障数字身份标识的唯一性，可以配置第一预设个数的不同的STR中至少有第二预设个数的STR不同，第一预设个数M取值约为50，第二预设个数J取值约为30，在M取值50的情况下，两个不同用户的数字身份标识累计重合率低于10e ^-20，远高于相关技术中的其它生物识别技术。

本申请实施例在具体执行的过程中，还可以将M个STR的相关信息保存为索引信息，参见图4，图4为本申请实施例中索引信息示意图，便于STR的相关信息的归类存储。

S102：根据各STR的相关信息生成与各STR对应的单STR数字编码，得到多个单STR数字编码。

可选地，一些实施例中，为了在技术上实现根据全基因组数据中的STR的相关信息生成数字身份标识，可以采用单STR数字编码指示其所对应STR在全基因组数据中的位置信息、重复碱基对序列信息、重复碱基对序列的重复次数，参见图5，根据各STR的相关信息生成与各STR对应的单STR数字编码，得到多个单STR数字编码，可以包括：

S501：采用第一个数的比特位标记各STR在全基因组数据中的位置信息，并将标记后的第一个数的比特位作为第一数字编码，位置信息包括：染色体编号、起始位点和STR的片段长度。

作为一种示例，本申请实施例中的第一个数配置为53，第一个数的比特位标记染色体编号、起始位点和STR的片段长度，染色体编号可以采用5个比特位进行二进制标记，具体如，针对24条染色体(chr1-chr22，chrx，chry)，可以例如将其中的染色体chr10采用00010标记，起始位点可以采用40个比特位进行二进制标记。STR的片段长度可以采用8个比特位进行二进制标记，例如，CCT片段重复区域的长度为23，可以将左侧填充0000补全比特位的位数。

本申请实施例在具体执行的过程中，考虑到人类染色体有24种(常染色体22种，性染色体2种)，为了保证后续实际开发更新需求，将染色体编号的最低比特位数设为5，起始位点设置在1-109之间，起始位点的最低比特位数设为40，STR的片段长度设置在1-600之间，片段长度的最低比特位数设为8。

举例如下：

Chr10→00010；

90608→0000000000000000000000010110000111110000；

23→00010111。

S502：采用第二个数的比特位标记各STR的重复碱基对序列信息，并将标记后的第二个数的比特位作为第二数字编码。

其中的重复碱基对序列信息包括STR的重复碱基对序列内容以及重复碱基对序列长度

本申请实施例中的第二个数配置为36，36个比特位标记该STR的重复碱基对序列内容，A用100代替、G用111代替、C用110代替、T用101代替，并且将左侧填充0000补全位数，重复碱基对序列长度在2-12之间，本申请实施例中可以依据最长碱基对序列长度和一个碱基换成3比特位字符串代替来算，最低比特位数设为12*3＝36。

举例如下：

CCT→000000000000000000000000000110110101。

S503：采用第三个数的比特位标记重复碱基对序列的重复次数，并将标记后的第三个数的比特位作为第三数字编码。

本申请实施例中的第三个数配置为8，8个比特位标记该STR的重复碱基对序列的重复次数，该重复次数小于等于K，K值一般为50，也就是说重复次数在2-50之间，本申请实施例中可以预留超出上限冗余，最低比特位数设为8。

举例如下：

5→00000101。

本申请实施例在具体执行的过程中，可以通过程序获得对应位点的重复序列，并判断重复次数。

S504：对各STR的第一数字编码、第二数字编码，以及第三数字编码进行串接处理，并将串接后的数字编码作为与各STR对应的单STR数字编码。

本申请实施例在具体执行的过程中，可以将第一数字编码、第二数字编码，以及第三数字编码进行串接处理，即得到该STR对应的单STR数字编码STRECD＝StartPosition|RepeatedSeq|RpeatedCnt,总长为53+36+8＝97个比特位,而后，采用左端填充1010序列方式，把单STR数字编码STRECD统一为8*S比特位的编码。

本申请实施例中，通过对各STR的第一数字编码、第二数字编码，以及第三数字编码进行串接处理，并将串接后的数字编码作为与各STR对应的单STR数字编码，使得所生成的单STR数字编码能够完整地标记STR的相关信息，并且，通过采用左端填充1010序列方式，把单STR数字编码STRECD统一为8*S比特位的编码，能够方便后续软件处理。

举例如下：本实施中S取值为16，所以左端填充31个比特位得到：

1010101010101010101010101010101，

得到128比特位的二进制序列编码，具体数值如下：

10110101010101010101010101010101010001000000000000000000000000101100001111100000001011100000000000000000000000000011011010100000。

S103：采用预设规则对每个单STR数字编码进行序列变换，并根据序列变换后的单STR数字编码生成目标STR数字编码。

本申请实施例中，采用预设规则对每个单STR数字编码进行序列变换，使得根据序列变换后的单STR数字编码所生成的目标STR数字编码唯一。

本申请实施例在具体执行的过程中，采用预设规则对每个单STR数字编码进行序列变换，并对序列变换后的各单STR数字编码直接进行串接处理，可以得到串接后的STR数字编码，该串接后的STR数字编码可以被称为目标STR数字编码，该目标STR数字编码与步骤S101中所提取的第一预设个数的短串联重复序列STR相对应，则经过多次的随机提取，即可以生成对应与每次提取的第一预设个数的短串联重复序列STR相对应的一个目标STR数字编码。

或者，作为一种示例，也可以对M个STR所得到M个STRECD直接进行串接，最后得到该M个STR的目标STR数字编码MSTRECD，其总比特位的个数为(8*S)*M。

S104：生成目标STR数字编码的摘要信息，并将摘要信息作为目标STR数字编码所属STR的摘要信息。

可选地，可以采用哈希算法生成目标STR数字编码的摘要信息，使得目标STR数字编码对应唯一摘要信息。

本申请实施例在具体执行的过程中，可以采用哈希算法对目标STR数字编码MSTRECD进行摘要计算，得到计算结果，并生成F个比特位的与计算结果对应的HASH摘要作为目标STR数字编码的摘要信息。

本申请实施例中，F取值可以为大于或者等于256，常用取值例如256、512、1024。

哈希算法例如包括SHA256、SHA512。

本申请实施例，通过生成目标STR数字编码的摘要信息，并将摘要信息作为目标STR数字编码所属STR的摘要信息，通过转换确保每个不同的目标STR数字编码能够映射为一个内容不同，而长度固定为F的二进制序列，并且无法通过该二进制序列还原出目标STR数字编码，保障数字身份标识的保密性和安全性。

目标STR数字编码所属STR的摘要信息举例如下：

570EA6E6A236C6E48B482FAA4F9BDD6BD22325841D3ACF69A88CE08843C0143A。

S105：将STR的摘要信息作为所生成的数字身份标识。

本申请实施例中，STR的摘要信息即可以作为用户的一个数字身份标识，该数字身份标识能够用于唯一标识该用户个体，基于同样的基因组数据，可以生成大量的互补相同的数字身份标识。

本申请实施例中，第一预设个数M的取值，可以确保任意两个不同的用户所生成的数字身份标识都不同，本申请实施例可以配置M的取值为大于或者等于50，配置J的取值是为了确保同一个用户每次生成的数字身份标识不同，本申请实施例可以配置J取值范围为M>＝J>＝30。

举例如下：

在存在N个短串联重复序列STR，且N的取值7000，M取值50，J取值2时，则根据本申请实施例中的方法可以产生的数字身份标识数量近似等于如下公式所得出的数据：

结果约为5×e ¹⁵⁰数量级。

进一步地，依据本申请实施例中的方法生成的数字身份标识，在数字化技术应用中可以用来做身份识别，典型的应用场景描述如下：

1、用户数字身份ID库：依据本申请实施例中的方法生成的数字身份标识，每个用户可生成大量各不相同的数字身份标识，该数字身份标可以作为一个数字身份ID库使用，如图6所示。图6为本申请实施例中数字身份ID库示意图，区别于相关技术中的网络应用中用户数字身份标识固定不变的应用场景，用户在数字系统中可以每次使用不同的数字身份标识进行应用操作，提高用户应用数字系统的安全性。此外，结合第三方服务系统，可以针对使用过的数字身份标识进行作废处理，杜绝后续其他用户冒用。

2、数字身份识别：依据本申请实施例中的方法生成的数字身份标识，安全性高。用户可以凭借全基因组数据及该数字身份标识对应的索引信息，准确验证出该号码和本用户的真实对应关系。

3、区块链系统中的用户身份识别：区块链系统中的用户信息和需要单独的ID号码进行标识，依据本申请实施例中的方法生成的数字身份标识，作为每次用户信息ID，可以提升ID安全性。

4、区块链系统中的交易信息识别：区块链系统中每笔交易都需要单独的ID号码进行标识，依据本申请实施例中的方法生成的数字身份标识，作为交易ID，可以加强隐私保护。具体来说，同一个用户发起的交易使用其不同的数字身份标识作为交易ID，该交易上链存储后，只有用户本人才能通过其用户数字身份ID库验证出该交易ID是否本人所发起。

本实施例中，通过从全基因组数据中提取第一预设个数的短串联重复序列STR，以及各STR的相关信息，根据各STR的相关信息生成与各STR对应的单STR数字编码，得到多个单STR数字编码，并采用预设规则对每个单STR数字编码进行序列变换，并根据序列变换后的单STR数字编码生成目标STR数字编码，以及生成目标STR数字编码的摘要信息，并将摘要信息作为目标STR数字编码所属STR的摘要信息，将STR的摘要信息作为所生成的数字身份标识，由于是基于全基因组数据中的短串联重复序列STR生成数字身份标识，使得所生成数字身份标识具有唯一性，不易被复制，并且由于是对STR进行数字编码以及序列变换，能够有效提升所生成数字身份标识的保密性和安全性，提升数字身份标识的表达效果。

作为一种示例，本发明实施例中数字身份标识生成方法的具体示例如下：

1、从全基因组数据中提取具有多态性的短串联重复序列STR并作为初始STR。

2、从多个所述初始STR中随机提取所述第一预设个数的不同的STR，所述第一预设个数的不同的STR中至少有第二预设个数的STR不同，所述第一预设个数大于所述第二预设个数。

可以配置第一预设个数的不同的STR中至少有第二预设个数的STR不同，第一预设个数M取值约为50，第二预设个数J取值约为30，在M取值50的情况下，两个不同用户的数字身份标识累计重合率低于10e ^-20，远高于相关技术中的其它生物识别技术。

3、提取各STR的相关信息。

本申请实施例中提取的各STR的相关信息可以参见图2，图2为本申请实施例中各STR的相关信息示意图。其中，以文档的形式展示各STR的相关信息，每个STR占一行，横向从前到后的内容分别代表的含义举例如下：

Score ID；

Perc div；

Perc del；

Perc ins；

染色体编号；

在查询序列的起始位点；

在查询序列的终止位点

序列方向+为正向；

重复部分的碱基序列；

重复序列类型，simple_repeat即为STR；

在重复部分的起始位点；

在重复部分的终止位点。

4、采用第一个数的比特位标记各所述STR在所述全基因组数据中的位置信息，并将标记后的第一个数的比特位作为第一数字编码，所述位置信息包括：染色体编号、起始位点和所述STR的片段长度。

举例如下：

Chr10→00010；

90608→0000000000000000000000010110000111110000；

23→00010111。

5、采用第二个数的比特位标记各所述STR的重复碱基对序列信息，并将标记后的第二个数的比特位作为第二数字编码。

举例如下：

CCT→000000000000000000000000000110110101。

6、采用第三个数的比特位标记所述重复碱基对序列的重复次数，并将标记后的第三个数的比特位作为第三数字编码。

举例如下：

5→00000101。

7、对各所述STR的所述第一数字编码、所述第二数字编码，以及所述第三数字编码进行串接处理，并将串接后的数字编码作为与各所述STR对应的单STR数字编码。

1010101010101010101010101010101，

得到128比特位的二进制序列编码，具体数值如下：

8、采用预设规则对每个单STR数字编码进行序列变换，并根据所述序列变换后的单STR数字编码生成目标STR数字编码。

作为一种示例，也可以对M个STR所得到M个STRECD直接进行串接，最后得到该M个STR的目标STR数字编码MSTRECD，其总比特位的个数为(8*S)*M。

目标STR数字编码MSTRECD举例如下：

101101010101010101010101010101010100010000000000000000000000001010000011111000000010111000000000000000000000000000110110101000001011010101010101010101010101010101000100000000000000000000000010010000111110000000101110000000000001101101010000010110101010101010101010101010101010001000000000000000000000000101100001111100000001010100000000000010011010110000101101010101010101010101010101010100010000000000000000000000001011100011111000000011111000000000000110110101000001011010101010101010101010101010101000010000000000000000000000010110000111110000000101110000000000000000000000000001101101010000010110101010101010101010101010101010001000000000000000000000000101000001111100000001011100000000000011011010100000101101010101010101010101010101010100010000000000000000000000001001000011111000000010111000000000000110110101000001011010101010101010101010101010101000100000000000000000000000010110000100110000000101010000000000001001101011100010110101010101010101010101010101010001000000000000000000000000110110001111100000001111100000000000011011010100000101101010101010101010101010101010100001000000000000000000000001011000011110000000010111000000000000010110101100001011010101010101010101010101010101000100000000000000000000000010100000111110000000101010000000000001101101010000010110101010101010101010101010101010001000000000000000000000000100100001111100000001011100000000000000000000000000011011010100000101101010101010101010101010101010100010000000000000000000000001011000011111000000010101000000000000100110101100001011010101010101010101010101010101000100000000000000000000000010111000111110000000111010000000000001101101010000010110101010101010101010101010101010000100000000000000000000000101100001111100000001101100000000000011011010100000101101010101010101010101010101010100010000000000000000000000001010000010111000000000000000000010111000000000000110110101000001011010101010101010101010101010101000100000000000000000000000010010000011100000000101110000000000001101101 010000010110101010101010101010101010101010001000000000000000000000000101100001001100000001010100000000000010011010111000101101010101010101010101010101010100010000000000000000000000001100000011111000000011111000000000000110110101000001011010101010101010101010101010101000010000000000000000000000010110000111100000000101110000000000000000000000000000101101011000010110101010101010101010101010101010001000000000000000000000000101000001111100000001011100000000000011011010100000101101010101010101010101010101010100010000000000000000000000001001000011111000000010111000000000000110110101000001011010101010101010101010101010101000100000000000000000000000010110000111110000000101010000000000001001101011000010110101010101010101010101010101010001000000000000000000000000101110001111100000001111100000000000011011010100000101101010101010101010101010101010100001000000000000000000000001011000011111000000010111000000000000110110101000001011010101010101010101010101010101000100000000000000000000000010100000111010000000101100000000000001101101010000010110101010101010101010101010101010001000000000000000000000000100100001101100000011011100000000000011011010100000101101010101010101010101010101010100010000000000000000000000001011000010011000000010101000000000000100110101110001011010101010101010101010101010101000100000000000000000000000011011000111100000000111110000000000001101101010000010110101010101010101010101010101010000100000000000000000000000101100001111000000001000100000000000011001010110000101101010101010101010101010101010100010000000000000000000000001010000011111000000010111000000000000110110101000001011010101010101010101010101010101000100000000000000000000000010010000111110000000101110000000000001101101010000010110101010101010101010101010101010001000000000000000000000000101100001111100000001010100000000000010011010110000101101010101010101010101010101010100010000000000000000000000001011100011111000000011111000000000000110110101000001011010101010101010101010101010101000010000000000000000000000010110000111110000000101110000000000001101101010000010110101010101010101010101010101010001000000000000000000000000101000000011100000001011100000000000011011010100000101101010101010101010101010101010100010000000000000000000000001001000011111000000010111000000000000110111101000001011010101010101010101010101010101000100000000000000000000000010110000100110000000101010 0000000000010011010111000101101010101010101010101010101010100010000000000000000000000001111100011111000000011111000000000000110110101000001011010101010101010101010101010101000010000000000000000000000010110000111100000000101110000000000000101101011000010110101010101010101010101010101010001000000000000000000000000101000001111100000001011100000000000011011010100000101101010101010101010101010101010100010000000000000000000000001001000011111000000010111000000000000110110101000001011010101010101010101010101010101000100000000000000000000000010110000111110000000101010000000000001001101011000010110101010101010101010101010101010001000000000000000000000000101110001111100000001111100000000000011011010100000101101010101010101010101010101010100001000000000000000000000001011000011111000000010101000000000000110110101000001011010101010101010101010101010101000100000000000000000000000010100000111110000000101010000000000001101101010000010110101010101010101010101010101010001000000000000000000000000100100001111100000001111100000000000011011010100000101101010101010101010101010101010100010000000000000000000000001011000010011000000010101000000000000100110101110001011010101010101010101010101010101000100000000000000000000000011011000111110000000101110000000000001101101010000010110101010101010101010101010101010000100000000000000000000000111100001111100000001011100000000000001011010110000101101010101010101010101010101010100010000000000000000000000001011000011111000000010111000000000000110110101100001011010101010101010101010101010101000100000000000000000000000010110000111110000000101110000000000001101101010000010110101010101010101010101010101010001000000000000000000000000101100001111100000001001100000000000011011010100000101101010101010101010101010101010100010000000000000000000000001011000011111000000010110000000000000110110101000001011010101010101010101010101010101000100000000000000000000000010110000111110000000101110000000000001101101010000010110101010101010101010101010101010001000000000000000000000000101100001111100000001011100000000000011011010100000。

9、采用哈希算法生成所述目标STR数字编码的摘要信息，使得所述目标STR数字编码对应唯一摘要信息。

目标STR数字编码所属STR的摘要信息举例如下：

570EA6E6A236C6E48B482FAA4F9BDD6BD22325841D3ACF69A88CE08843C0143A。

10、将所述STR的摘要信息作为所生成的数字身份标识。

举例如下：

结果约为5×e ¹⁵⁰数量级。

参见图7，该装置700包括：处理器701；存储器702；存储器702内存储可执行程序代码；处理器701通过读取存储器702中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行：

从全基因组数据中提取第一预设个数的短串联重复序列STR，以及各STR的相关信息；

根据各STR的相关信息生成与各STR对应的单STR数字编码，得到多个单STR数字编码；

采用预设规则对每个单STR数字编码进行序列变换，并根据序列变换后的单STR数字编码生成目标STR数字编码；

生成目标STR数字编码的摘要信息，并将摘要信息作为目标STR数字编码所属STR的摘要信息；

将STR的摘要信息作为所生成的数字身份标识。

可选地，一些实施例中，处理器701，还用于：

从全基因组数据中提取具有多态性的短串联重复序列STR并作为初始STR；

从多个初始STR中随机提取第一预设个数的不同的STR，第一预设个数的不同的STR中至少有第二预设个数的STR不同，第一预设个数大于第二预设个数。

可选地，一些实施例中，单STR数字编码用于指示其所对应STR在全基因组数据中的位置信息、重复碱基对序列信息、重复碱基对序列的重复次数，处理器701，还用于：

采用第一个数的比特位标记各STR在全基因组数据中的位置信息，并将标记后的第一个数的比特位作为第一数字编码，位置信息包括：染色体编号、起始位点和STR的片段长度；

采用第二个数的比特位标记各STR的重复碱基对序列信息，并将标记后的第二个数的比特位作为第二数字编码；

采用第三个数的比特位标记重复碱基对序列的重复次数，并将标记后的第三个数的比特位作为第三数字编码；

对各STR的第一数字编码、第二数字编码，以及第三数字编码进行串接处理，并将串接后的数字编码作为与各STR对应的单STR数字编码。

可选地，一些实施例中，处理器701，还用于：

根据序列变换后的单STR数字编码所生成的目标STR数字编码唯一。

可选地，一些实施例中，处理器701，还用于：

采用哈希算法生成目标STR数字编码的摘要信息，使得目标STR数字编码对应唯一一个摘要信息。

需要说明的是，前述图1-图6实施例中对数字身份标识生成方法实施例的解释说明也适用于该实施例的数字身份标识生成装置700，其实现原理类似，此处不再赘述。

为了实现上述实施例，本申请还提出一种非临时性计算机可读存储介质。其中，该非临时性计算机可读存储介质用于存储应用程序，该应用程序用于在运行时执行本申请实施例的数字身份标识生成方法，该方法包括：

将STR的摘要信息作为所生成的数字身份标识。

需要说明的是，本实施例的应用程序执行数字身份标识生成方法和原理和实现方式与上述实施例的数字身份标识生成方法类似，为了避免冗余，此处不再赘述。

本申请实施例的非临时性计算机可读存储介质，通过从全基因组数据中提取第一预设个数的短串联重复序列STR，以及各STR的相关信息，根据各STR的相关信息生成与各STR对应的单STR数字编码，得到多个单STR数字编码，并采用预设规则对每个单STR数字编码进行序列变换，并根据序列变换后的单STR数字编码生成目标STR数字编码，以及生成目标STR数字编码的摘要信息，并将摘要信息作为目标STR数字编码所属STR的摘要信息，将STR的摘要信息作为所生成的数字身份标识，由于是基于全基因组数据中的短串联重复序列STR生成数字身份标识，使得所生成数字身份标识具有唯一性，不易被复制，并且由于是对STR进行数字编码以及序列变换，能够有效提升所生成数字身份标识的保密性和安全性，提升数字身份标识的表达效果。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

一种数字身份标识生成方法，其特征在于，包括以下步骤：

从全基因组数据中提取第一预设个数的短串联重复序列STR，以及各STR的相关信息；

根据所述各STR的相关信息生成与所述各STR对应的单STR数字编码，得到多个单STR数字编码；

采用预设规则对每个单STR数字编码进行序列变换，并根据所述序列变换后的单STR数字编码生成目标STR数字编码；

生成所述目标STR数字编码的摘要信息，并将所述摘要信息作为所述目标STR数字编码所属STR的摘要信息；

将所述STR的摘要信息作为所生成的数字身份标识。
如权利要求1所述的数字身份标识生成方法，其特征在于，所述从全基因组数据中提取第一预设个数的短串联重复序列STR，包括：

从全基因组数据中提取具有多态性的短串联重复序列STR并作为初始STR；

从多个所述初始STR中随机提取所述第一预设个数的不同的STR，所述第一预设个数的不同的STR中至少有第二预设个数的STR不同，所述第一预设个数大于所述第二预设个数。
如权利要求1所述的数字身份标识生成方法，其特征在于，所述单STR数字编码用于指示其所对应STR在所述全基因组数据中的位置信息、重复碱基对序列信息、重复碱基对序列的重复次数，所述根据所述各STR的相关信息生成与所述各STR对应的单STR数字编码，得到多个单STR数字编码，包括：

采用第一个数的比特位标记各所述STR在所述全基因组数据中的位置信息，并将标记后的第一个数的比特位作为第一数字编码，所述位置信息包括：染色体编号、起始位点和所述STR的片段长度；

采用第二个数的比特位标记各所述STR的重复碱基对序列信息，并将标记后的第二个数的比特位作为第二数字编码；

采用第三个数的比特位标记所述重复碱基对序列的重复次数，并将标记后的第三个数的比特位作为第三数字编码；

对各所述STR的所述第一数字编码、所述第二数字编码，以及所述第三数字编码进行串接处理，并将串接后的数字编码作为与各所述STR对应的单STR数字编码。
如权利要求1所述的数字身份标识生成方法，其特征在于，其中，

根据所述序列变换后的单STR数字编码所生成的目标STR数字编码唯一。
如权利要求1所述的数字身份标识生成方法，其特征在于，所述生成所述目标STR数字编码的摘要信息，并将所述摘要信息作为所述目标STR数字编码所属STR的摘要信息，包括：

采用哈希算法生成所述目标STR数字编码的摘要信息，使得所述目标STR数字编码对应唯一一个摘要信息。
一种数字身份标识生成装置，其特征在于，包括：

处理器；

存储器；

存储器内存储可执行程序代码；处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序，以用于执行：

从全基因组数据中提取第一预设个数的短串联重复序列STR，以及各STR的相关信息；

根据所述各STR的相关信息生成与所述各STR对应的单STR数字编码，得到多个单STR数字编码；

采用预设规则对每个单STR数字编码进行序列变换，并根据所述序列变换后的单STR数字编码生成目标STR数字编码；

生成所述目标STR数字编码的摘要信息，并将所述摘要信息作为所述目标STR数字编码所属STR的摘要信息；

将所述STR的摘要信息作为所生成的数字身份标识。
如权利要求6所述的数字身份标识生成装置，其特征在于，所述处理器，还用于：

从全基因组数据中提取具有多态性的短串联重复序列STR并作为初始STR；

从多个所述初始STR中随机提取所述第一预设个数的不同的STR，所述第一预设个数的不同的STR中至少有第二预设个数的STR不同，所述第一预设个数大于所述第二预设个数。
如权利要求6所述的数字身份标识生成装置，其特征在于，所述单STR数字编码用于指示其所对应STR在所述全基因组数据中的位置信息、重复碱基对序列信息、重复碱基对序列的重复次数，所述处理器，还用于：

采用第一个数的比特位标记各所述STR在所述全基因组数据中的位置信息，并将标记后的第一个数的比特位作为第一数字编码，所述位置信息包括：染色体编号、起始位点和所述STR的片段长度；

采用第二个数的比特位标记各所述STR的重复碱基对序列信息，并将标记后的第二个数的比特位作为第二数字编码；

采用第三个数的比特位标记所述重复碱基对序列的重复次数，并将标记后的第三个数的比特位作为第三数字编码；

对各所述STR的所述第一数字编码、所述第二数字编码，以及所述第三数字编码进行串接处理，并将串接后的数字编码作为与各所述STR对应的单STR数字编码。
如权利要求6所述的数字身份标识生成装置，其特征在于，所述处理器，还用于：

根据所述序列变换后的单STR数字编码所生成的目标STR数字编码唯一。
如权利要求6所述的数字身份标识生成装置，其特征在于，所述处理器，还用于：

采用哈希算法生成所述目标STR数字编码的摘要信息，使得所述目标STR数字编码对应唯一一个摘要信息。
一种数字身份标识生成系统，其特征在于，包括：

如权利要求6-10任一项所述的数字身份标识生成装置。
一种非临时性计算机可读存储介质，具有存储于其中的指令，当所述指令被电子设备的处理器执行时，所述处理器执行如权利要求1-5任一项所述的数字身份标识生成方法。
一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行如上述权利要求1-5任一项所述的数字身份标识生成方法。