WO2023226036A1

WO2023226036A1 - Procédé et appareil de traitement de données fastq, dispositif électronique et support de stockage

Info

Publication number: WO2023226036A1
Application number: PCT/CN2022/095757
Authority: WO
Inventors: 邓天全; 姜三杰; 陈世璇; 贺丽娟; 杨鑫; 黎剑波
Original assignee: 深圳华大基因科技服务有限公司; 武汉华大基因技术服务有限公司
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2023-11-30
Also published as: CN117795855A

Abstract

La présente divulgation concerne un procédé et un appareil de traitement de données FASTQ, un dispositif électronique et un support de stockage. Un fichier FASTQ à traiter est divisé en au moins une unité de séquence selon un format de données prédéfini, chaque unité de séquence comprenant quatre séquences de rangée, et différentes séquences de rangée correspondant à différents identifiants de séquence de rangée ; les quatre séquences de rangée sont respectivement stockées dans quatre fichiers prédéfinis correspondants selon les identifiants de séquence de rangée, un fichier prédéfini étant utilisé pour stocker des séquences de rangée ayant un même identifiant de séquence de rangée et stockées dans différentes unités de séquence ; une instruction de compression sans perte prédéfinie est déclenchée pour compresser respectivement les quatre fichiers prédéfinis. Par comparaison avec un mode dans l'état de la technique consistant à déclencher directement une commande gzip pour compresser un fichier FASTQ, selon la présente divulgation, la classification et le stockage sont effectués en utilisant la similarité de chaque rangée dans des unités de séquence dans un fichier FASTQ, c'est-à-dire que les quatre séquences de rangées sont respectivement stockées dans les quatre fichiers prédéfinis correspondants selon les identifiants de séquence de rangées, et une compression sans perte prédéfinie est effectuée séparément sur les quatre fichiers prédéfinis, de telle sorte qu'un espace de stockage du fichier FASTQ est encore économisé.