JPWO2020028912A5 - - Google Patents

Download PDF

Info

Publication number
JPWO2020028912A5
JPWO2020028912A5 JP2021505820A JP2021505820A JPWO2020028912A5 JP WO2020028912 A5 JPWO2020028912 A5 JP WO2020028912A5 JP 2021505820 A JP2021505820 A JP 2021505820A JP 2021505820 A JP2021505820 A JP 2021505820A JP WO2020028912 A5 JPWO2020028912 A5 JP WO2020028912A5
Authority
JP
Japan
Prior art keywords
nucleic acid
block
identifier
item
identifier nucleic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021505820A
Other languages
Japanese (ja)
Other versions
JP2021532799A (en
Publication date
Application filed filed Critical
Priority claimed from PCT/US2019/045160 external-priority patent/WO2020028912A2/en
Publication of JP2021532799A publication Critical patent/JP2021532799A/en
Publication of JPWO2020028912A5 publication Critical patent/JPWO2020028912A5/ja
Pending legal-status Critical Current

Links

Description

変化、置換および変更の例は、当業者によって確かめられ、本明細書に開示される情報の範囲から逸脱することなく為すことができる。本明細書に引用されるあらゆる参考文献は、これによりそれらの全体が参照により本明細書に組み込まれ、本願の一部を為す。
本発明は、例えば、以下の項目を提供する。
(項目1)
核酸配列に記憶された情報を読むための方法であって、
長さLの記号のストリング由来のデジタル情報を記憶する識別子核酸分子のプールを得るステップであって、個々の識別子核酸分子のそれぞれが、複数のコンポーネント核酸分子を含み、前記記号のストリングにおける記号値および記号位置に対応し、識別子核酸分子の前記プールが、長さLを有する記号のいずれかのストリングをコードすることができる識別子ライブラリーにおける識別子核酸配列のサブセットに対応する、ステップと、
前記得られた識別子核酸分子の識別子核酸分子を読むステップであって、前記識別子核酸分子の部分に対応する読み取りデータ配列を識別するステップと、
前記読み取りデータ配列に基づき、それぞれ(i)前記識別子ライブラリーにおけるエントリーに対応し、(ii)前記読み取りデータ配列に近似するまたは的確にマッチする配列を有するコンポーネント核酸分子を含む、候補識別子核酸配列のセットを識別するステップと、
各候補識別子核酸配列に、前記それぞれの候補識別子核酸配列が前記識別子核酸分子とどの程度類似するかを代表するスコアを割り当てるステップと、
前記スコアに基づき、前記候補識別子核酸配列のうち1個を選択された配列として選択するステップと
を含む方法。
(項目2)
前記識別子ライブラリーを使用して、前記選択された配列を、前記記号のストリング内の前記記号位置の1個および前記記号値の1個にマッピングするステップをさらに含む、項目1に記載の方法。
(項目3)
前記識別子ライブラリーを使用して、前記プールにおける識別子核酸分子の可能性がある配列に対応する追加的な選択された配列をマッピングすることにより、前記記号のストリング内の追加的な記号位置および記号値を決定するステップをさらに含む、項目2に記載の方法。
(項目4)
前記識別子核酸分子を読むステップが、化学的配列決定、チェーン・ターミネーション配列決定、ショットガン配列決定、ブリッジPCR配列決定、単一分子リアルタイム配列決定、イオン半導体配列決定、パイロシークエンシング、合成による配列決定、組み合わせプローブアンカー合成配列決定、ライゲーションによる配列決定、ナノポア配列決定、ナノチャネル配列決定、超並列シグネチャー配列決定、ポロニー配列決定、DNAナノボール配列決定、単一分子蛍光配列決定、トンネル電流配列決定、ハイブリダイゼーションによる配列決定、質量分析配列決定、マイクロ流体配列決定、透過型電子顕微鏡配列決定、RNAポリメラーゼ配列決定またはin vitroウイルス配列決定のうち少なくとも1種によって、前記識別子核酸分子の少なくとも部分を配列決定することを含む、項目1から3のいずれかに記載の方法。
(項目5)
前記配列決定することが、
電場を電解液および少なくとも1個のナノポアチャネルに印加することと、
前記少なくとも1個のナノポアチャネルを通して前記識別子核酸分子を移行させることと、
前記少なくとも1個のナノポアチャネルにおけるインピーダンスを測定することであって、前記コンポーネント核酸配列がそれぞれ、前記配列の前記長さに沿って対応するユニークインピーダンスシグネチャーを有することとを含む、項目4に記載の方法。
(項目6)
前記識別子核酸分子における少なくとも1個のコンポーネント核酸配列を配列決定することが、測定されたインピーダンス値を前記ユニークインピーダンスシグネチャーと比較することを含む、項目5に記載の方法。
(項目7)
前記少なくとも1個のナノポアチャネルが、アルファ-溶血素(αHL)またはmycobacterium smegmatisポリンA(MspA)から形成される、項目5または6に記載の方法。
(項目8)
前記少なくとも1個のナノポアチャネルが、ソリッドステート膜内に形成される、項目5または6に記載の方法。
(項目9)
識別子核酸分子を読むステップに先立ち、前記少なくとも1個の識別子核酸分子を第2の識別子核酸分子にライゲーションするステップをさらに含む、項目5から8のいずれかに記載の方法。
(項目10)
前記識別子核酸分子を読むステップに先立ち、前記少なくとも1個の識別子核酸分子の一方の鎖を分解するステップをさらに含む、項目5から9のいずれかに記載の方法。
(項目11)
鎖特異的エキソヌクレアーゼを使用して、前記少なくとも1個の識別子核酸分子の一方の鎖を選択的に分解する、項目10に記載の方法。
(項目12)
前記電場が、前記少なくとも1個のナノポアチャネルをわたる100mVを超える差次的電位を生成し、前記少なくとも1個の識別子核酸分子の移行が、毎秒1,000塩基を超える速度で起こる、項目5から11のいずれかに記載の方法。
(項目13)
移行前に、前記少なくとも1個の識別子核酸分子に薬剤を結合させるステップをさらに含み、前記薬剤が、測定インピーダンスにおける薬剤シグネチャーに関連する、項目5から12のいずれかに記載の方法。
(項目14)
少なくとも1個のユニークインピーダンスシグネチャーが、薬剤シグネチャーを含み、前記識別子核酸分子における少なくとも1個のコンポーネント核酸配列を決定することが、測定されたインピーダンス値を前記少なくとも1個のユニークインピーダンスシグネチャーと比較することを含む、項目5から13のいずれかに記載の方法。
(項目15)
前記少なくとも1個の核酸分子上の前記薬剤の存在が、前記少なくとも1個の核酸分子上の前記薬剤の非存在下での所望のレベルの精度を達成する第2の最大移行速度よりも速い、所望のレベルの精度を達成する第1の最大移行速度を可能にする、項目13または14に記載の方法。
(項目16)
前記少なくとも1個の識別子核酸分子に前記薬剤を結合させるステップが、酵素を使用することを含み、既知の場所における前記薬剤シグネチャーが、移行中のインピーダンス値の既知シフトをもたらすように、前記少なくとも1個の識別子核酸分子に前記薬剤を結合させるステップが、コンポーネント核酸分子における既知の場所で発生する、項目13から15のいずれかに記載の方法。
(項目17)
前記薬剤が、塩基アナログであり、前記酵素が、ポリメラーゼであり、前記ポリメラーゼが、複製中に前記少なくとも1個の識別子核酸分子に前記塩基アナログを取り込む、項目16に記載の方法。
(項目18)
前記複数のコンポーネント核酸分子における既知の場所において複数の薬剤の各薬剤を結合させるステップをさらに含み、前記複数の薬剤および各薬剤の既知の場所が、薬剤シグネチャーを含む、項目13から17のいずれかに記載の方法。
(項目19)
前記酵素が、メチルトランスフェラーゼである、項目16および18のいずれか一項に記載の方法。
(項目20)
各識別子核酸分子が読み誤り許容度に関連するように、前記得られた識別子核酸分子が、互いとの最小数の塩基差によりコードされる、項目1から19のいずれかに記載の方法。
(項目21)
前記読み誤り許容度が、前記識別子核酸分子のより速い読みを可能にする、項目20に記載の方法。
(項目22)
前記記号のストリング内の前記記号位置の1個および前記記号値の1個への前記選択された配列のマッピングに基づき、デコードされた記号のストリングを決定するステップと、
前記デコードされた記号のストリングの部分のハッシュを計算するステップと、
前記計算されたハッシュを、前記記号のストリングの対応する部分に関連する本来のハッシュと比較するステップと、
前記比較に基づき、前記デコードされた記号のストリングの前記部分が、前記記号のストリングの前記部分にマッチするか検証するステップと
をさらに含む、項目1から21のいずれかに記載の方法。
(項目23)
前記デコードされた記号のストリングの前記部分が、前記記号のストリングの前記部分にマッチしないと決定するステップと、
前記スコアに基づき、第2の候補識別子核酸配列を前記選択された配列として選択するステップと、
前記識別子ライブラリーを使用して、前記選択された配列を、前記記号のストリング内の前記記号位置の1個および前記記号値の1個にマッピングするステップと
をさらに含む、項目22に記載の方法。
(項目24)
前記デコードされた記号のストリングの前記部分の前記ハッシュが、MD5、SHA-224、SHA-256、SHA-384、SHA-512、SHA-512/224またはSHA-512/256のうち少なくとも1種を使用して計算される、項目20から23のいずれかに記載の方法。
(項目25)
識別子核酸分子の前記プールに関する試料サイズ推定値をコンピュータ処理するステップと、
前記試料サイズ推定値に基づき、識別子核酸分子の前記プールをサンプリングして、前記識別子核酸分子を得るステップと
をさらに含む、項目1からA4のいずれかに記載の方法。
(項目26)
核酸分子の前記プールにおける各識別子核酸分子が、M個の層に対応するM個のコンポーネント核酸分子を含む、項目1から25のいずれかに記載の方法。
(項目27)
前記識別子核酸分子を読むステップが、前記M個の層のうちN個を読むことを含む、項目26に記載の方法。
(項目28)
前記識別子核酸分子が改変された塩基を含むように、前記識別子核酸分子を複製するステップをさらに含む、項目1から27のいずれかに記載の方法。
(項目29)
前記スコアが、前記それぞれの候補識別子核酸配列と前記識別子核酸分子との間の類似性の程度を代表する距離メトリックである、項目1から28のいずれかに記載の方法。
(項目30)
核酸分子にデジタル情報を記憶するための方法であって、
前記デジタル情報を記号のストリングとして受け取るステップであって、前記記号のストリングにおける各記号が、前記記号のストリング内の記号値および記号位置を有し、前記記号のストリングが長さLを有する、ステップと、
C個の別個のコンポーネント核酸配列のセットを使用して、前記記号のストリングをコードするための分割スキームを決定するステップであって、前記分割スキームが、コンポーネント数c の積が、前記記号のストリングの長さLを超えるか、またはこれに等しく、前記コンポーネント数c の和が、別個のコンポーネント核酸配列の前記数C未満であるか、またはこれに等しいように、(i)その内に前記C個の別個のコンポーネント核酸配列を配置するための数Mの層、および(ii)各第iの層におけるコンポーネントの数を定義する前記コンポーネント数c を定義する、ステップと、
(1)前記M個の層のそれぞれからコンポーネント核酸配列を有する1個のコンポーネント核酸分子を選択すること、
(2)前記M個の選択されたコンポーネント核酸分子を区画に置くこと、
(3)(2)における前記M個の選択されたコンポーネント核酸分子を物理的にアセンブルして、第1の識別子核酸分子を形成すること
により、第1の識別子核酸分子を形成するステップと、
それぞれの記号位置にそれぞれ対応する、複数の追加的な識別子核酸分子を形成するステップと、
プールにおいて前記識別子核酸分子の少なくとも部分を収集するステップとを含む方法。
(項目31)
前記M個の層のそれぞれにおけるコンポーネント核酸配列の前記数c の分布が、不均一である、項目30に記載の方法。
(項目32)
長さLを有する記号のいずれかのストリングが、前記C個の別個のコンポーネント核酸配列のいずれかの組合せを有する分子から形成された前記識別子核酸分子によって表され得るように、前記分割スキームが設計され、1個のコンポーネント核酸配列が、前記M個の層のそれぞれから選択される、項目30または31に記載の方法。
(項目33)
前記識別子核酸分子における各層が、トライデータ構造における層を表す、項目30から32のいずれかに記載の方法。
(項目34)
各層における前記コンポーネント核酸分子が、第1および第2の末端領域により構造化され、前記M個の層の1個に由来する各コンポーネント核酸分子の前記第1の末端領域が、前記M個の層の別のものに由来するいずれかのコンポーネント核酸分子の前記第2の末端領域に結合するように構造化される、項目30から33のいずれかに記載の方法。
(項目35)
前記記号のストリング内の各記号位置が、対応する異なる識別子核酸配列を有する、項目30から34のいずれかに記載の方法。
(項目36)
前記識別子核酸分子が、前記M個の層のそれぞれに由来する1個のコンポーネント核酸配列をそれぞれ含む、可能な識別子核酸配列の組み合わせ空間のサブセットを代表する、項目30から35のいずれかに記載の方法。
(項目37)
前記プールにおける識別子核酸分子の存在または非存在が、前記記号のストリング内の前記対応するそれぞれの記号位置の前記記号値を代表する、項目36に記載の方法。
(項目38)
前記コンポーネント数c の前記積が、ビット単位の前記記号のストリングの長さを超えるか、またはこれに等しい、項目30から37のいずれかに記載の方法。
(項目39)
前記分割スキームが、M個の選択されたコンポーネント核酸分子の少なくともいずれかのセットを区画に置くことができるプリンターシステムの構成にさらに基づく、項目30から38のいずれかに記載の方法。
(項目40)
Cが、前記プリンターシステムにおける利用できるインクの数に等しく、各利用できるインクが、1個のコンポーネント核酸配列を含む、項目39に記載の方法。
(項目41)
核酸分子にデジタル情報を記憶するための方法であって、
長さL1を有する記号の第1のストリングとしてデジタル情報を受け取るステップであって、前記記号の第1のストリングにおける各記号が、前記記号の第1のストリング内の記号値および記号位置を有する、ステップと、
前記記号のストリングを複数のブロックに分けるステップであって、各ブロックが長さBを有する、ステップと、
ブロック毎に、長さHのハッシュをコンピュータ処理し、前記ハッシュを前記ブロックに加えて、ハッシュ化ブロックを得るステップと、
前記ハッシュ化ブロックをつなぐことにより、長さL2を有する記号の第2のストリングを形成するステップと、
前記記号の第2のストリングを複数のスライスに分けるステップであって、各スライスが長さSを有する、ステップと、
スライス毎に、長さPの誤り保護記号の数をコンピュータ処理し、前記誤り保護記号を前記スライスに付加して、誤り保護されたスライスを得るステップと、
前記誤り保護されたスライスをつなぐことにより、長さL3を有する記号の第3のストリングを形成するステップと、
前記記号の第3のストリングを複数のワードに分けるステップであって、各ワードが長さWを有する、ステップと、
1個または複数のコードブックを使用して、ワード毎に、コードワードを決定するステップと、
前記コードワードをつなぐことにより、長さL4を有する記号の第4のストリングを形成するステップと
前記記号の第4のストリングを複数の識別子核酸分子にマッピングするステップであって、前記複数の識別子核酸分子の個々の識別子核酸分子が、前記記号の第4のストリングにおける個々の記号に対応し、対応する複数のコンポーネント核酸配列を含み、前記複数のコンポーネント核酸配列における各コンポーネント核酸配列が、別個の核酸配列を含む、ステップと、
前記対応する複数のコンポーネント核酸配列を区画に置き、前記複数のコンポーネント核酸配列を一緒にアセンブルすることにより、前記複数の識別子核酸分子の個々の識別子核酸分子を構築するステップと
を含む方法。
(項目42)
プールにおいて前記複数の識別子を収集するステップをさらに含む、項目41に記載の方法。
(項目43)
前記プールにおける識別子核酸分子の存在または非存在が、記号のストリング内の対応するそれぞれの記号位置の前記記号値を代表する、項目41~42のいずれかに記載の方法。
(項目44)
各コードワードが、前記複数のワードの前記それぞれのワードの的確なマッチである、項目41から43のいずれかに記載の方法。
(項目45)
前記コードワードが、コードまたはデコードの際の化学条件に最適化される、項目41から44のいずれかに記載の方法。
(項目46)
各コードワードに固定された数の1個または複数の種類の記号が存在するように、前記コードワードが、固定された重みを有する、項目41から45のいずれかに記載の方法。
(項目47)
各区画が、固定された数の識別子核酸配列を含有し、各区画内のおよび区画にわたる識別子核酸分子の濃度がほぼ等しい、項目41から46のいずれかに記載の方法。
(項目48)
前記対応する複数のコンポーネントを区画に置き、前記複数のコンポーネントを一緒にアセンブルすることが、
複数のプリントヘッドを使用して、複数のコンポーネントを含む複数の溶液を基板上の座標に分配することと、
反応ミックスを前記基板上の前記座標に分配して、前記複数のコンポーネントを物理的にリンクさせる、前記複数のコンポーネントを物理的にリンクするのに必要な条件を提供する、またはその両方を行うことと
を含む、項目41から47のいずれかに記載の方法。
(項目49)
前記記号の第4のストリングを複数の識別子核酸分子にマッピングするステップが、前記複数の区画における各区画が同数の識別子核酸分子を含有するように、前記識別子核酸分子を分布させることを含む、項目41から48のいずれかに記載の方法。
(項目50)
前記誤り保護記号が、リード・ソロモンコードを使用して決定される、項目41から49のいずれかに記載の方法。
(項目51)
前記誤り保護記号が、2個の記号で割ったPの誤り許容度を提供し、Pの抹消許容度が、保護されたスライスにおいて抹消する、項目41に記載の方法。
(項目52)
前記複数の区画が、基板上に設置され、前記記号のストリングにおける隣接する記号を表す識別子核酸分子が、隣接する区画において構築されないように、前記対応する複数のコンポーネントを前記区画に置く前記ステップを並べ替える、インタリーブするまたはプログラミングすることをさらに含む、項目41から51のいずれかに記載の方法。
(項目53)
前記複数の識別子核酸分子への前記記号の第4のストリングのマッピングに基づきプリンター指令のセットを開発するステップと、
プリント指令の前記セットをプリンター・フィニッシャーシステムに送るステップと
をさらに含む、項目41から52のいずれかに記載の方法。
(項目54)
前記ハッシュ、誤り保護またはコードワード決定が、前記複数のブロックにおける個々のブロックで行われる、項目41から53のいずれかに記載の方法。
(項目55)
前記ハッシュ、誤り保護またはコードワード決定が、前記個々のブロックおよび追加的なブロックで並行して行われる、項目54に記載の方法。
(項目56)
Hが、ゼロに等しい、項目41から55のいずれかに記載の方法。
(項目57)
Pが、ゼロに等しい、項目41から56のいずれかに記載の方法。
(項目58)
追加的な誤り保護記号またはハッシュ記号が、磁気ストレージデバイス、光学ストレージデバイス、フラッシュメモリデバイスまたはクラウドストレージに記憶される、項目41から57のいずれかに記載の方法。
(項目59)
核酸分子にデジタル情報を記憶するための方法であって、
デジタル情報を記号の第1のストリングとして受け取るステップであって、前記記号の第1のストリングにおける各記号が、前記記号の第1のストリング内の記号値および記号位置を有し、前記記号の第1のストリングが長さL1を有する、ステップと、
前記記号のストリングを複数のブロックに分けるステップであって、各ブロックが長さBを有する、ステップと、
ブロック毎に、長さHのハッシュをコンピュータ処理するステップと、
前記ハッシュをブロック毎に記憶するステップと、
前記ハッシュ化ブロックをアセンブルすることにより、長さL2を有する記号の第2のストリングを形成するステップと、
前記記号の第2のストリングを複数のスライスに分けるステップであって、各スライスが長さSを有する、ステップと、
スライス毎に、長さPの誤り保護記号の数をコンピュータ処理し、前記スライスの末端に前記誤り保護記号を加えて、誤り保護されたスライスを得るステップと、
前記誤り保護されたスライスをアセンブルすることにより、長さL3を有する記号の第3のストリングを形成するステップと、
前記記号の第3のストリングを複数のワードに分けるステップであって、各ワードが長さWを有する、ステップと、
1個または複数のコードブックを使用して、ワード毎に、コードワードをコンピュータ処理するステップと、
前記コードワードをつなぐことにより、長さL4を有する記号の第4のストリングを形成するステップと、
前記記号の第4のストリングを複数の識別子核酸分子にマッピングするステップであって、前記複数の識別子核酸分子の個々の識別子が、対応する複数のコンポーネントを含み、前記複数のコンポーネントにおける各コンポーネントが、別個の核酸配列を含み、前記複数の識別子核酸分子の個々の識別子のそれぞれが、前記記号の第4のストリングにおける個々の記号に対応する、ステップと、
前記対応する複数のコンポーネントを区画に置き、前記複数のコンポーネントを一緒にアセンブルすることにより、前記複数の識別子の個々の識別子を構築するステップと
を含む方法。
(項目60)
前記複数の識別子を含む識別子プールを構築するステップをさらに含む、項目59に記載の方法。
(項目61)
各ブロック毎の前記ハッシュが、核酸分子、磁気ストレージデバイス、光学ストレージデバイス、フラッシュメモリデバイスまたはクラウドストレージに記憶される、項目59または60に記載の方法。
(項目62)
核酸分子にデジタル情報を記憶するための方法であって、
複数のブロックを得るステップであって、各ブロックが、記号のストリングを含み、ブロックIDに関連する、ステップと、
前記複数のブロックのブロックをコンテナに割り当てるステップと、
前記ブロックを、前記コンテナと関連するべき複数の識別子核酸配列にマッピングするステップであって、前記複数の識別子核酸配列の個々の識別子核酸配列が、前記記号のストリングにおける個々の記号に対応し、対応する複数のコンポーネント核酸配列を含み、前記複数のコンポーネント核酸配列における各コンポーネント核酸配列が、別個の核酸配列を含む、ステップと、
前記複数の識別子核酸配列の個々の識別子核酸分子を構築するステップと、
前記割り当てられたコンテナにおいて前記個々の識別子核酸分子を記憶するステップであって、前記コンテナおよびそれに関連する前記複数の識別子核酸配列の同一性を含む物理的アドレスが、前記関連ブロックIDを使用して決定されるように構成される、ステップと
を含む方法。
(項目63)
前記ブロックIDが、整数、ストリング、三重、属性のリスト、または意味的アノテーションである、項目62に記載の方法。
(項目64)
前記物理的アドレスが、前記関連ブロックIDを使用して前記物理的アドレスのアクセスを容易にするように設計されたデータ構造に記憶される、項目62または63に記載の方法。
(項目65)
前記データ構造が、Bツリー、トライまたはアレイのうち1種である、項目62から64のいずれかに記載の方法。
(項目66)
前記データ構造の少なくとも部分が、インデックスにおける前記デジタル情報と共に記憶される、項目64~65のいずれかに記載の方法。
(項目67)
前記インデックスが、第2のコンテナに関連する第2の複数の識別子核酸配列を含む、項目66に記載の方法。
(項目68)
前記インデックスが、Bツリーデータ構造を含み、前記Bツリーの各ノードが、前記第2の複数の識別子核酸配列の別個の複数の識別子核酸分子を含む、項目67に記載の方法。
(項目69)
前記Bツリーにおける前記ブロックIDを探索することが、
(i)第1のノードを含む前記別個の複数の識別子核酸分子を選択するステップと、
(ii)前記第1のノードの値を読むステップと、
(iii)後続のノードにより、ステップ(i)および(ii)のプロセスを反復するステップであって、前記後続のノードを含む前記別個の複数の識別子核酸分子の同一性が、前記第1のノードの前記値に関する前記ブロックIDによって決定される、ステップと、
を含む、項目68に記載の方法。
(項目70)
前記第1のノードが、前記Bツリーのルートノードであり、ステップ(i)および(ii)の前記プロセスが、前記Bツリーのリーフノードの値が読まれるまで続き、前記リーフノードの前記値が、前記ブロックIDに対するブロックが存在するか連絡するように構成され、前記ブロックIDが存在する場合、前記ブロックの前記物理的アドレスを連絡する、項目69に記載の方法。
(項目71)
前記インデックスが、トライデータ構造を含み、前記トライの各ノードが、前記第2の複数の識別子核酸配列の別個の複数の識別子核酸分子を含む、項目67に記載の方法。
(項目72)
前記ブロックIDが、記号のストリングであり、前記トライにおける各ノードが、前記記号のストリングの可能な接頭語に対応する、項目71に記載の方法。
(項目73)
前記データ構造が、アレイであり、前記アレイの各エレメントが、前記第2の複数の識別子核酸配列の別個の複数の識別子核酸分子を含む、項目67に記載の方法。
(項目74)
前記アレイにおける各エレメントが、ブロックIDに対応する、E73に記載の方法。
(項目75)
前記インデックスが、磁気ストレージデバイス、光学ストレージデバイス、フラッシュメモリデバイスまたはクラウドストレージに記憶される、項目66に記載の方法。
(項目76)
前記物理的アドレスの前記インデックスにおける場所が、前記ブロックIDにネイティブに構成される、項目67に記載の方法。
(項目77)
前記ブロックIDが、複数の核酸コンポーネントに直接マッピングされる、項目76に記載の方法。
(項目78)
前記物理的アドレスを記憶する前記インデックスにおける前記複数の識別子核酸分子が、前記複数のコンポーネントをそれぞれ含む個々の識別子核酸分子で構成される、項目77に記載の方法。
(項目79)
前記ブロックIDが、前記関連ブロックをアノテートする三重の実体であり、前記三重の実体が、複数の核酸コンポーネントにマッピングする、項目77または78に記載の方法。
(項目80)
前記複数の核酸コンポーネントを含む個々の識別子核酸分子を含む前記インデックスにおける前記複数の識別子核酸分子が、前記実体によりアノテートされる全ブロックの前記物理的アドレスを記憶する、項目79に記載の方法。
(項目81)
前記物理的アドレスが、前記ブロックIDにネイティブに構成される、項目67に記載の方法。
(項目82)
前記ブロックIDが、前記物理的アドレスに直接マッピングされる、項目76に記載の方法。
(項目83)
前記関連ブロックを記憶する前記複数の識別子核酸分子が、前記複数のコンポーネントをそれぞれ含む個々の識別子核酸分子で構成される、項目82に記載の方法。
(項目84)
前記ブロックIDが、前記関連ブロックをアノテートする三重の実体であり、前記三重の実体が、複数の核酸コンポーネントにマッピングする、項目82または83に記載の方法。
(項目85)
前記複数の核酸コンポーネントを含む個々の識別子核酸分子を含む前記コンテナにおける前記複数の識別子核酸分子が、前記実体によりアノテートされる全ブロックを記憶する、項目82に記載の方法。
(項目86)
前記トライのリーフノードが、前記リーフノードにおける前記トライによって指定された前記記号のストリングにマッチする前記ブロックIDに関連する前記物理的アドレスを記憶するように構成される、項目72に記載の方法。
(項目87)
前記アレイの各エレメントが、前記関連ブロックIDの前記物理的アドレスを記憶する、項目74に記載の方法。
(項目88)
複数の識別子核酸分子が、前記識別子範囲における前記第1のおよび最後の識別子の前記同一性を含む識別子範囲によって指定されるように構成されるように、連続して順序付けされた識別子核酸配列で完全に構成される、項目62から87のいずれかに記載の方法。
(項目89)
前記識別子範囲における前記第1のおよび最後の識別子が、整数によって表される、項目88に記載の方法。
(項目90)
前記デジタル情報と共に起動およびオントロジー情報を記憶するステップをさらに含む、項目62からE89のいずれかに記載の方法。
(項目91)
項目30から90に記載の方法のいずれかに従って核酸分子にデジタル情報を記憶するためのシステムであって、核酸の複数のコンテナを記憶するための試料管理システムを含むシステム。
(項目92)
前記試料管理システムから指定されたコンテナを回収するための自動化機械をさらに含む、項目91に記載のシステム。
Examples of changes, substitutions and alterations can be ascertained by those skilled in the art and made without departing from the scope of the information disclosed herein. All references cited herein are hereby incorporated by reference in their entireties and made part of this application.
The present invention provides, for example, the following items.
(Item 1)
A method for reading information stored in a nucleic acid sequence, comprising:
Obtaining a pool of identifier nucleic acid molecules that store digital information from a string of symbols of length L, each individual identifier nucleic acid molecule comprising a plurality of component nucleic acid molecules and symbolic values in said string of symbols and symbol positions, wherein said pool of identifier nucleic acid molecules corresponds to a subset of identifier nucleic acid sequences in an identifier library that can encode any string of symbols having length L;
reading an identifier nucleic acid molecule of said obtained identifier nucleic acid molecule, identifying a read data sequence corresponding to a portion of said identifier nucleic acid molecule;
candidate identifier nucleic acid sequences, each comprising component nucleic acid molecules that (i) correspond to entries in the identifier library and (ii) have sequences that closely or exactly match the read data sequences, based on the read data sequences; identifying a set;
assigning each candidate identifier nucleic acid sequence a score representative of how similar said respective candidate identifier nucleic acid sequence is to said identifier nucleic acid molecule;
selecting one of the candidate identifier nucleic acid sequences as the selected sequence based on the score;
method including.
(Item 2)
2. The method of item 1, further comprising mapping the selected sequence to one of the symbol positions and one of the symbol values in the string of symbols using the identifier library.
(Item 3)
additional symbol positions and symbols within said string of symbols by mapping additional selected sequences corresponding to potential sequences of identifier nucleic acid molecules in said pool using said identifier library; 3. The method of item 2, further comprising determining a value.
(Item 4)
The step of reading the identifier nucleic acid molecule is chemical sequencing, chain termination sequencing, shotgun sequencing, bridge PCR sequencing, single molecule real-time sequencing, ion-semiconductor sequencing, pyrosequencing, sequencing-by-synthesis. , combinatorial probe anchor synthesis sequencing, sequencing by ligation, nanopore sequencing, nanochannel sequencing, massively parallel signature sequencing, polony sequencing, DNA nanoball sequencing, single molecule fluorescence sequencing, tunneling current sequencing, high sequencing at least a portion of said identifier nucleic acid molecule by at least one of sequencing by hybridization, mass spectrometry sequencing, microfluidic sequencing, transmission electron microscope sequencing, RNA polymerase sequencing or in vitro viral sequencing 4. The method of any of items 1-3, comprising:
(Item 5)
The sequencing comprises:
applying an electric field to the electrolyte and the at least one nanopore channel;
translocating the identifier nucleic acid molecule through the at least one nanopore channel;
5. The method of item 4, comprising measuring impedance in said at least one nanopore channel, wherein said component nucleic acid sequences each have a corresponding unique impedance signature along said length of said sequence. Method.
(Item 6)
6. The method of item 5, wherein sequencing at least one component nucleic acid sequence in said identifier nucleic acid molecule comprises comparing measured impedance values to said unique impedance signature.
(Item 7)
7. The method of items 5 or 6, wherein said at least one nanopore channel is formed from alpha-hemolysin (αHL) or mycobacterium smegmatis porin A (MspA).
(Item 8)
7. The method of items 5 or 6, wherein the at least one nanopore channel is formed in a solid state membrane.
(Item 9)
9. The method of any of items 5-8, further comprising ligating said at least one identifier nucleic acid molecule to a second identifier nucleic acid molecule prior to reading the identifier nucleic acid molecule.
(Item 10)
10. The method of any of items 5-9, further comprising degrading one strand of said at least one identifier nucleic acid molecule prior to reading said identifier nucleic acid molecule.
(Item 11)
11. The method of item 10, wherein a strand-specific exonuclease is used to selectively degrade one strand of said at least one identifier nucleic acid molecule.
(Item 12)
from item 5, wherein said electric field produces a differential potential greater than 100 mV across said at least one nanopore channel, and translocation of said at least one identifier nucleic acid molecule occurs at a rate greater than 1,000 bases per second 12. The method according to any one of 11.
(Item 13)
13. The method of any of items 5-12, further comprising binding an agent to said at least one identifier nucleic acid molecule prior to translocation, wherein said agent is associated with a drug signature in measured impedance.
(Item 14)
at least one unique impedance signature comprises a drug signature, and determining at least one component nucleic acid sequence in said identifier nucleic acid molecule is comparing measured impedance values to said at least one unique impedance signature. 14. The method of any of items 5-13, comprising:
(Item 15)
the presence of the agent on the at least one nucleic acid molecule is faster than a second maximum translocation rate that achieves a desired level of precision in the absence of the agent on the at least one nucleic acid molecule; 15. Method according to item 13 or 14, allowing a first maximum transition speed to achieve a desired level of accuracy.
(Item 16)
Binding the agent to the at least one identifier nucleic acid molecule comprises using an enzyme, wherein the agent signature at a known location results in a known shift in impedance values during translocation, such that the at least one 16. The method of any of items 13-15, wherein the step of binding the agent to the identifier nucleic acid molecules occurs at known locations on the component nucleic acid molecules.
(Item 17)
17. The method of item 16, wherein said agent is a base analogue, said enzyme is a polymerase, and said polymerase incorporates said base analogue into said at least one identifier nucleic acid molecule during replication.
(Item 18)
18. Any of items 13-17, further comprising binding each agent of the plurality of agents at a known location in the plurality of component nucleic acid molecules, wherein the plurality of agents and the known location of each agent comprises a drug signature. The method described in .
(Item 19)
19. The method of any one of items 16 and 18, wherein said enzyme is a methyltransferase.
(Item 20)
20. A method according to any of items 1 to 19, wherein the obtained identifier nucleic acid molecules are encoded with a minimum number of base differences from each other such that each identifier nucleic acid molecule is associated with read error tolerance.
(Item 21)
21. The method of item 20, wherein said read error tolerance allows faster reading of said identifier nucleic acid molecule.
(Item 22)
determining a decoded string of symbols based on a mapping of the selected array to one of the symbol positions and one of the symbol values within the string of symbols;
computing a hash of the portion of the string of decoded symbols;
comparing the calculated hash to the original hash associated with the corresponding portion of the string of symbols;
verifying whether the portion of the decoded string of symbols matches the portion of the string of symbols based on the comparison;
22. The method of any of items 1-21, further comprising:
(Item 23)
determining that the portion of the decoded string of symbols does not match the portion of the string of symbols;
selecting a second candidate identifier nucleic acid sequence as the selected sequence based on the score;
mapping the selected sequence to one of the symbol positions and one of the symbol values within the string of symbols using the identifier library;
23. The method of item 22, further comprising:
(Item 24)
the hash of the portion of the string of decoded symbols is at least one of MD5, SHA-224, SHA-256, SHA-384, SHA-512, SHA-512/224 or SHA-512/256; 24. The method of any of items 20-23, calculated using:
(Item 25)
computing a sample size estimate for said pool of identifier nucleic acid molecules;
sampling said pool of identifier nucleic acid molecules to obtain said identifier nucleic acid molecules based on said sample size estimate;
The method of any of items 1-A4, further comprising:
(Item 26)
26. The method of any of items 1-25, wherein each identifier nucleic acid molecule in said pool of nucleic acid molecules comprises M component nucleic acid molecules corresponding to M layers.
(Item 27)
27. The method of item 26, wherein reading the identifier nucleic acid molecule comprises reading N of the M layers.
(Item 28)
28. The method of any of items 1-27, further comprising replicating the identifier nucleic acid molecule such that the identifier nucleic acid molecule comprises modified bases.
(Item 29)
29. The method of any of items 1-28, wherein said score is a distance metric representative of the degree of similarity between said respective candidate identifier nucleic acid sequence and said identifier nucleic acid molecule.
(Item 30)
A method for storing digital information in a nucleic acid molecule comprising:
receiving the digital information as a string of symbols, each symbol in the string of symbols having a symbol value and a symbol position within the string of symbols, the string of symbols having a length L; When,
determining a partitioning scheme for encoding the string of symbols using a set of C distinct component nucleic acid sequences, wherein the partitioning scheme is such that the product of the component numbers c i is the number of components of the symbol greater than or equal to the length L of the string and such that the sum of said number of components c i is less than or equal to said number C of distinct component nucleic acid sequences, (i) within defining a number M of layers for arranging said C distinct component nucleic acid sequences, and (ii) said component number c i defining the number of components in each ith layer;
(1) selecting one component nucleic acid molecule having a component nucleic acid sequence from each of said M layers;
(2) placing the M selected component nucleic acid molecules into compartments;
(3) physically assembling the M selected component nucleic acid molecules in (2) to form a first identifier nucleic acid molecule;
forming a first identifier nucleic acid molecule by
forming a plurality of additional identifier nucleic acid molecules, each corresponding to a respective symbolic position;
collecting at least a portion of said identifier nucleic acid molecules in a pool.
(Item 31)
31. The method of item 30, wherein the distribution of the number c i of component nucleic acid sequences in each of the M layers is non-uniform.
(Item 32)
said partitioning scheme is designed such that any string of symbols having a length L can be represented by said identifier nucleic acid molecule formed from molecules having any combination of said C distinct component nucleic acid sequences; and one component nucleic acid sequence is selected from each of said M layers.
(Item 33)
33. The method of any of items 30-32, wherein each layer in the identifier nucleic acid molecule represents a layer in the trie data structure.
(Item 34)
wherein said component nucleic acid molecules in each layer are structured by first and second terminal regions, wherein said first terminal region of each component nucleic acid molecule from one of said M layers comprises said M layers; 34. A method according to any of items 30-33, wherein any component nucleic acid molecule derived from another of is structured to bind to said second terminal region.
(Item 35)
35. The method of any of items 30-34, wherein each symbol position within the string of symbols has a corresponding different identifier nucleic acid sequence.
(Item 36)
36. Any of items 30 to 35, wherein said identifier nucleic acid molecule represents a subset of the combinatorial space of possible identifier nucleic acid sequences, each comprising one component nucleic acid sequence from each of said M layers. Method.
(Item 37)
37. The method of item 36, wherein the presence or absence of an identifier nucleic acid molecule in said pool represents said symbolic value of said respective corresponding symbolic position within said string of symbols.
(Item 38)
38. A method according to any of items 30 to 37, wherein said product of said component numbers ci exceeds or equals the length of said string of symbols in bits.
(Item 39)
39. The method of any of items 30-38, wherein said partitioning scheme is further based on the configuration of a printer system capable of placing at least any set of M selected component nucleic acid molecules into compartments.
(Item 40)
40. The method of item 39, wherein C equals the number of available inks in said printer system, each available ink comprising one component nucleic acid sequence.
(Item 41)
A method for storing digital information in a nucleic acid molecule comprising:
receiving digital information as a first string of symbols having a length L1, each symbol in said first string of symbols having a symbol value and a symbol position within said first string of symbols; a step;
dividing the string of symbols into a plurality of blocks, each block having a length B;
computing a hash of length H for each block and adding said hash to said block to obtain a hashed block;
concatenating the hashed blocks to form a second string of symbols having a length L2;
dividing the second string of symbols into a plurality of slices, each slice having a length S;
computing, for each slice, a number of error protection symbols of length P and appending said error protection symbols to said slice to obtain an error protected slice;
forming a third string of symbols having a length L3 by concatenating the error protected slices;
dividing the third string of symbols into a plurality of words, each word having a length W;
determining a codeword, word by word, using one or more codebooks;
concatenating said codewords to form a fourth string of symbols having a length L4;
mapping the fourth string of symbols to a plurality of identifier nucleic acid molecules, wherein individual identifier nucleic acid molecules of the plurality of identifier nucleic acid molecules correspond to individual symbols in the fourth string of symbols; comprising a corresponding plurality of component nucleic acid sequences, each component nucleic acid sequence in said plurality of component nucleic acid sequences comprising a separate nucleic acid sequence;
constructing individual identifier nucleic acid molecules of the plurality of identifier nucleic acid molecules by placing the corresponding plurality of component nucleic acid sequences in compartments and assembling together the plurality of component nucleic acid sequences;
method including.
(Item 42)
42. The method of item 41, further comprising collecting the plurality of identifiers in a pool.
(Item 43)
43. The method of any of items 41-42, wherein the presence or absence of an identifier nucleic acid molecule in said pool is representative of said symbolic value at each corresponding symbolic position within a string of symbols.
(Item 44)
44. A method according to any of items 41 to 43, wherein each codeword is an exact match of said respective word of said plurality of words.
(Item 45)
45. A method according to any of items 41 to 44, wherein said codeword is optimized for chemical conditions during coding or decoding.
(Item 46)
46. A method according to any of items 41 to 45, wherein the codewords have fixed weights such that there is a fixed number of one or more types of symbols in each codeword.
(Item 47)
47. A method according to any of items 41 to 46, wherein each compartment contains a fixed number of identifier nucleic acid sequences and the concentration of identifier nucleic acid molecules within and across each compartment is approximately equal.
(Item 48)
placing the corresponding plurality of components in a compartment and assembling the plurality of components together;
dispensing multiple solutions containing multiple components to coordinates on a substrate using multiple printheads;
Distributing a reaction mix to the coordinates on the substrate to physically link the plurality of components, provide the conditions necessary to physically link the plurality of components, or both. When
48. The method of any of items 41-47, comprising
(Item 49)
wherein mapping said fourth string of symbols to a plurality of identifier nucleic acid molecules comprises distributing said identifier nucleic acid molecules such that each compartment in said plurality of compartments contains the same number of identifier nucleic acid molecules. 49. The method of any one of 41-48.
(Item 50)
50. A method according to any of items 41 to 49, wherein said error protection symbols are determined using a Reed-Solomon code.
(Item 51)
42. The method of item 41, wherein the error protection symbols provide an error tolerance of P divided by two symbols, and an erasure tolerance of P erasures in a protected slice.
(Item 52)
said plurality of compartments being placed on a substrate and placing said corresponding plurality of components in said compartments such that identifier nucleic acid molecules representing adjacent symbols in said string of symbols are not built up in adjacent compartments. 52. The method of any of items 41-51, further comprising reordering, interleaving or programming.
(Item 53)
developing a set of printer instructions based on the mapping of the fourth string of symbols to the plurality of identifier nucleic acid molecules;
sending said set of print instructions to a printer finisher system;
53. The method of any of items 41-52, further comprising:
(Item 54)
54. A method according to any of items 41 to 53, wherein said hashing, error protection or codeword determination is performed on individual blocks in said plurality of blocks.
(Item 55)
55. The method of item 54, wherein the hashing, error protection or codeword determination is performed on the individual blocks and additional blocks in parallel.
(Item 56)
56. The method of any of items 41-55, wherein H is equal to zero.
(Item 57)
57. The method of any of items 41-56, wherein P is equal to zero.
(Item 58)
58. The method of any of items 41-57, wherein the additional error protection or hash symbols are stored in a magnetic storage device, optical storage device, flash memory device or cloud storage.
(Item 59)
A method for storing digital information in a nucleic acid molecule comprising:
receiving digital information as a first string of symbols, each symbol in said first string of symbols having a symbol value and a symbol position within said first string of symbols; a step in which the string of 1's has a length L1;
dividing the string of symbols into a plurality of blocks, each block having a length B;
computing a hash of length H for each block;
storing the hash block by block;
assembling the hashed block to form a second string of symbols having a length L2;
dividing the second string of symbols into a plurality of slices, each slice having a length S;
computing, for each slice, a number of error protection symbols of length P and adding said error protection symbols to the ends of said slices to obtain error protected slices;
assembling the error protected slices to form a third string of symbols having a length L3;
dividing the third string of symbols into a plurality of words, each word having a length W;
computing the codeword, word by word, using one or more codebooks;
concatenating the codewords to form a fourth string of symbols having a length L4;
mapping the fourth string of symbols to a plurality of identifier nucleic acid molecules, wherein each identifier of the plurality of identifier nucleic acid molecules comprises a corresponding plurality of components, each component in the plurality of components comprising: comprising distinct nucleic acid sequences, each individual identifier of said plurality of identifier nucleic acid molecules corresponding to an individual symbol in said fourth string of symbols;
constructing individual identifiers of the plurality of identifiers by placing the corresponding plurality of components in compartments and assembling the plurality of components together;
method including.
(Item 60)
60. The method of item 59, further comprising building an identifier pool comprising said plurality of identifiers.
(Item 61)
61. Method according to item 59 or 60, wherein said hash for each block is stored in a nucleic acid molecule, magnetic storage device, optical storage device, flash memory device or cloud storage.
(Item 62)
A method for storing digital information in a nucleic acid molecule comprising:
obtaining a plurality of blocks, each block containing a string of symbols and associated with a block ID;
assigning blocks of the plurality of blocks to containers;
mapping said block to a plurality of identifier nucleic acid sequences to be associated with said container, wherein individual identifier nucleic acid sequences of said plurality of identifier nucleic acid sequences correspond to individual symbols in said string of symbols; wherein each component nucleic acid sequence in said plurality of component nucleic acid sequences comprises a separate nucleic acid sequence;
constructing individual identifier nucleic acid molecules of the plurality of identifier nucleic acid sequences;
storing said individual identifier nucleic acid molecule in said assigned container, wherein a physical address comprising the identity of said container and said plurality of identifier nucleic acid sequences associated therewith are identified using said associated block ID; configured to determine a step and
method including.
(Item 63)
63. The method of item 62, wherein the block ID is an integer, string, triple, list of attributes, or semantic annotation.
(Item 64)
64. Method according to item 62 or 63, wherein said physical address is stored in a data structure designed to facilitate access of said physical address using said associated block ID.
(Item 65)
65. The method of any of items 62-64, wherein the data structure is one of a B-tree, trie or array.
(Item 66)
66. A method according to any of items 64-65, wherein at least part of said data structure is stored with said digital information in an index.
(Item 67)
67. The method of item 66, wherein the index comprises a second plurality of identifier nucleic acid sequences associated with a second container.
(Item 68)
68. The method of item 67, wherein the index comprises a B-tree data structure, each node of the B-tree comprising a distinct plurality of identifier nucleic acid molecules of the second plurality of identifier nucleic acid sequences.
(Item 69)
searching for the block ID in the B-tree;
(i) selecting said distinct plurality of identifier nucleic acid molecules comprising a first node;
(ii) reading the value of said first node;
(iii) repeating the process of steps (i) and (ii) with subsequent nodes, wherein the identity of said distinct plurality of identifier nucleic acid molecules comprising said subsequent nodes is determined by said first node; determined by the block ID for the value of
69. The method of item 68, comprising
(Item 70)
The first node is the root node of the B-tree, and the process of steps (i) and (ii) continues until the value of a leaf node of the B-tree is read, and the value of the leaf node is 70. The method of item 69, wherein the method is configured to communicate if a block exists for said block ID and, if said block ID exists, communicate said physical address of said block.
(Item 71)
68. The method of item 67, wherein the index comprises a trie data structure, each node of the trie comprising a distinct plurality of identifier nucleic acid molecules of the second plurality of identifier nucleic acid sequences.
(Item 72)
72. The method of item 71, wherein the block ID is a string of symbols, and each node in the trie corresponds to a possible prefix of the string of symbols.
(Item 73)
68. The method of item 67, wherein said data structure is an array and each element of said array comprises a distinct plurality of identifier nucleic acid molecules of said second plurality of identifier nucleic acid sequences.
(Item 74)
The method of E73, wherein each element in the array corresponds to a block ID.
(Item 75)
67. The method of item 66, wherein the index is stored in a magnetic storage device, optical storage device, flash memory device or cloud storage.
(Item 76)
68. The method of item 67, wherein the location in the index of the physical address is configured natively to the block ID.
(Item 77)
77. The method of item 76, wherein said block ID is directly mapped to a plurality of nucleic acid components.
(Item 78)
78. The method of item 77, wherein said plurality of identifier nucleic acid molecules in said index storing said physical addresses is composed of individual identifier nucleic acid molecules each comprising said plurality of components.
(Item 79)
79. The method of item 77 or 78, wherein said block ID is a triple entity annotating said associated block, said triple entity mapping to a plurality of nucleic acid components.
(Item 80)
80. The method of item 79, wherein said plurality of identifier nucleic acid molecules in said index comprising individual identifier nucleic acid molecules comprising said plurality of nucleic acid components stores said physical addresses of all blocks annotated by said entities.
(Item 81)
68. The method of item 67, wherein the physical address is configured natively to the block ID.
(Item 82)
77. Method according to item 76, wherein said block ID is directly mapped to said physical address.
(Item 83)
83. The method of item 82, wherein said plurality of identifier nucleic acid molecules storing said associated block is composed of individual identifier nucleic acid molecules each comprising said plurality of components.
(Item 84)
84. The method of item 82 or 83, wherein said block ID is a triple entity annotating said associated block, said triple entity mapping to a plurality of nucleic acid components.
(Item 85)
83. The method of item 82, wherein the plurality of identifier nucleic acid molecules in the container containing individual identifier nucleic acid molecules comprising the plurality of nucleic acid components stores all blocks annotated by the entity.
(Item 86)
73. The method of item 72, wherein a leaf node of the trie is configured to store the physical address associated with the block ID that matches the string of symbols specified by the trie in the leaf node.
(Item 87)
75. The method of item 74, wherein each element of the array stores the physical address of the associated block ID.
(Item 88)
a plurality of identifier nucleic acid molecules complete with a contiguously ordered identifier nucleic acid sequence, configured as specified by an identifier range comprising said identity of said first and last identifier in said identifier range; 88. The method of any of items 62-87, wherein the method comprises:
(Item 89)
89. The method of item 88, wherein the first and last identifiers in the range of identifiers are represented by integers.
(Item 90)
The method of any of items 62-E89, further comprising storing activation and ontology information with said digital information.
(Item 91)
91. A system for storing digital information in nucleic acid molecules according to any of the methods of items 30-90, comprising a sample management system for storing a plurality of containers of nucleic acids.
(Item 92)
92. The system of item 91, further comprising an automated machine for retrieving designated containers from said sample management system.

Claims (24)

核酸分子にデジタル情報を記憶するための方法であって、
複数のブロックを得るステップであって、各ブロックが、記号のストリングを含み、ブロックIDに関連する、ステップと、
前記複数のブロックのブロックをコンテナに割り当てるステップと、
前記ブロックを、前記コンテナと関連するべき複数の識別子核酸配列にマッピングするステップであって、前記複数の識別子核酸配列の個々の識別子核酸配列が、前記記号のストリングにおける個々の記号に対応し、対応する複数のコンポーネント核酸配列を含み、前記複数のコンポーネント核酸配列における各コンポーネント核酸配列が、別個の核酸配列を含む、ステップと、
前記複数の識別子核酸配列の個々の識別子核酸分子を構築するステップと、
前記割り当てられたコンテナにおいて前記個々の識別子核酸分子を記憶するステップであって、前記コンテナおよびそれに関連する前記複数の識別子核酸配列の同一性を含む物理的アドレスが、前記関連ブロックIDを使用して決定されるように構成される、ステップと
を含む方法。
A method for storing digital information in a nucleic acid molecule comprising:
obtaining a plurality of blocks, each block containing a string of symbols and associated with a block ID;
assigning blocks of the plurality of blocks to containers;
mapping said block to a plurality of identifier nucleic acid sequences to be associated with said container, wherein individual identifier nucleic acid sequences of said plurality of identifier nucleic acid sequences correspond to individual symbols in said string of symbols; wherein each component nucleic acid sequence in said plurality of component nucleic acid sequences comprises a separate nucleic acid sequence;
constructing individual identifier nucleic acid molecules of the plurality of identifier nucleic acid sequences;
storing said individual identifier nucleic acid molecule in said assigned container, wherein a physical address comprising the identity of said container and said plurality of identifier nucleic acid sequences associated therewith are identified using said associated block ID; and a method configured to be determined.
前記ブロックIDが、整数、ストリング、三重、属性のリスト、または意味的アノテーションである、請求項に記載の方法。 2. The method of claim 1 , wherein the block ID is an integer, string, triple, list of attributes, or semantic annotation. 前記物理的アドレスが、前記関連ブロックIDを使用して前記物理的アドレスのアクセスを容易にするように設計されたデータ構造に記憶される、請求項に記載の方法。 2. The method of claim 1 , wherein said physical address is stored in a data structure designed to facilitate access of said physical address using said associated block ID. 前記データ構造が、Bツリー、トライまたはアレイのうち1種である、請求項に記載の方法。 4. The method of claim 3 , wherein said data structure is one of a B-tree, trie or array. 前記データ構造の少なくとも部分が、インデックスにおける前記デジタル情報と共に記憶される、請求項に記載の方法。 4. The method of claim 3 , wherein at least a portion of said data structure is stored with said digital information in an index. 前記インデックスが、磁気ストレージデバイス、光学ストレージデバイス、フラッシュメモリデバイスまたはクラウドストレージに記憶される、請求項5に記載の方法。 6. The method of claim 5, wherein the index is stored in a magnetic storage device, optical storage device, flash memory device or cloud storage. 前記インデックスが、第2のコンテナに関連する第2の複数の識別子核酸配列を含む、請求項に記載の方法。 6. The method of claim 5 , wherein the index comprises a second plurality of identifier nucleic acid sequences associated with a second container. 前記インデックスが、Bツリーデータ構造を含み、前記Bツリーの各ノードが、前記第2の複数の識別子核酸配列の別個の複数の識別子核酸分子を含む、請求項に記載の方法。 8. The method of claim 7 , wherein said index comprises a B-tree data structure, each node of said B-tree comprising a distinct plurality of identifier nucleic acid molecules of said second plurality of identifier nucleic acid sequences. 前記Bツリーにおける前記ブロックIDを探索することが、
1のノードを含む前記別個の複数の識別子核酸分子を選択するステップと、
記第1のノードの値を読むステップと、
続のノードにより、ステップ(i)および(ii)のプロセスを反復するステップであって、前記後続のノードを含む前記別個の複数の識別子核酸分子の同一性が、前記第1のノードの前記値に関する前記ブロックIDによって決定される、ステップと、
を含む、請求項に記載の方法。
searching for the block ID in the B-tree;
selecting said distinct plurality of identifier nucleic acid molecules comprising a first node;
reading the value of the first node;
repeating the process of steps (i) and (ii) with subsequent nodes, wherein the identity of said distinct plurality of identifier nucleic acid molecules comprising said subsequent nodes is determined by said determined by the block ID for a value;
9. The method of claim 8 , comprising:
前記第1のノードが、前記Bツリーのルートノードであり、ステップ(i)および(ii)の前記プロセスが、前記Bツリーのリーフノードの値が読まれるまで続き、前記リーフノードの前記値が、前記ブロックIDに対するブロックが存在するか連絡するように構成され、前記ブロックIDが存在する場合、前記ブロックの前記物理的アドレスを連絡する、請求項に記載の方法。 The first node is the root node of the B-tree, and the process of steps (i) and (ii) continues until the value of a leaf node of the B-tree is read, and the value of the leaf node is 10. The method of claim 9 , configured to communicate if a block exists for said block ID, and to communicate said physical address of said block if said block ID exists. 前記インデックスが、トライデータ構造を含み、前記トライの各ノードが、前記第2の複数の識別子核酸配列の別個の複数の識別子核酸分子を含む、請求項に記載の方法。 8. The method of claim 7 , wherein said index comprises a trie data structure, each node of said trie comprising a distinct plurality of identifier nucleic acid molecules of said second plurality of identifier nucleic acid sequences. 前記ブロックIDが、記号のストリングであり、前記トライにおける各ノードが、前記記号のストリングの可能な接頭語に対応する、請求項11に記載の方法。 12. The method of claim 11 , wherein the block ID is a string of symbols and each node in the trie corresponds to a possible prefix of the string of symbols. 前記トライのリーフノードが、前記リーフノードにおける前記トライによって指定された前記記号のストリングにマッチする前記ブロックIDに関連する前記物理的アドレスを記憶するように構成される、請求項11に記載の方法。 12. The method of claim 11 , wherein a leaf node of said trie is configured to store said physical address associated with said block ID that matches said string of symbols specified by said trie in said leaf node. . 前記データ構造が、アレイであり、前記アレイの各エレメントが、前記第2の複数の識別子核酸配列の別個の複数の識別子核酸分子を含む、請求項に記載の方法。 8. The method of claim 7 , wherein said data structure is an array, each element of said array comprising a distinct plurality of identifier nucleic acid molecules of said second plurality of identifier nucleic acid sequences. 前記アレイにおける各エレメントが、ブロックIDに対応する、請求項14に記載の方法。 15. The method of claim 14 , wherein each element in said array corresponds to a block ID. 前記アレイの各エレメントが、前記関連ブロックIDの前記物理的アドレスを記憶する、請求項15に記載の方法。 16. The method of claim 15, wherein each element of said array stores said physical address of said associated block ID. 前記物理的アドレスが、前記ブロックIDにネイティブに構成される、請求項に記載の方法。 8. The method of claim 7 , wherein the physical address is configured natively to the block ID. 前記ブロックIDが、前記物理的アドレスに直接マッピングされる、請求項17に記載の方法。 18. The method of claim 17 , wherein said block ID is directly mapped to said physical address. 前記関連ブロックを記憶する前記複数の識別子核酸分子が、前記複数のコンポーネントをそれぞれ含む個々の識別子核酸分子で構成される、請求項18に記載の方法。 19. The method of claim 18 , wherein said plurality of identifier nucleic acid molecules storing said associated blocks is composed of individual identifier nucleic acid molecules each comprising said plurality of components. 前記ブロックIDが、前記関連ブロックをアノテートする三重の実体であり、前記三重の実体が、複数の核酸コンポーネントにマッピングする、請求項18に記載の方法。 19. The method of claim 18 , wherein said block ID is a triple entity that annotates said associated block, said triple entity mapping to multiple nucleic acid components. 前記複数の核酸コンポーネントを含む個々の識別子核酸分子を含む前記コンテナにおける前記複数の識別子核酸分子が、前記実体によりアノテートされる全ブロックを記憶する、請求項18に記載の方法。 19. The method of claim 18 , wherein said plurality of identifier nucleic acid molecules in said container comprising individual identifier nucleic acid molecules comprising said plurality of nucleic acid components stores all blocks annotated by said entity. 複数の識別子核酸分子が、前記識別子範囲における前記第1のおよび最後の識別子の前記同一性を含む識別子範囲によって指定されるように構成されるように、連続して順序付けされた識別子核酸配列で完全に構成される、請求項に記載の方法。 a plurality of identifier nucleic acid molecules complete with a sequentially ordered identifier nucleic acid sequence such that a plurality of identifier nucleic acid molecules are configured as specified by an identifier range comprising said identity of said first and last identifier in said identifier range; 2. The method of claim 1 , comprising: 前記識別子範囲における前記第1のおよび最後の識別子が、整数によって表される、請求項23に記載の方法。 24. The method of claim 23 , wherein said first and last identifiers in said range of identifiers are represented by integers. 前記デジタル情報と共に起動およびオントロジー情報を記憶するステップをさらに含む、請求項に記載の方法。 2. The method of claim 1 , further comprising storing activation and ontology information with said digital information.
JP2021505820A 2018-08-03 2019-08-05 Systems and methods for storing and reading nucleic acid-based data with error protection Pending JP2021532799A (en)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862714557P 2018-08-03 2018-08-03
US62/714,557 2018-08-03
US16/532,077 2019-08-05
PCT/US2019/045160 WO2020028912A2 (en) 2018-08-03 2019-08-05 Systems and methods for storing and reading nucleic acid-based data with error protection
US16/532,077 US20200185057A1 (en) 2018-08-03 2019-08-05 Systems and methods for storing and reading nucleic acid-based data with error protection

Publications (2)

Publication Number Publication Date
JP2021532799A JP2021532799A (en) 2021-12-02
JPWO2020028912A5 true JPWO2020028912A5 (en) 2022-08-09

Family

ID=67766282

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021505820A Pending JP2021532799A (en) 2018-08-03 2019-08-05 Systems and methods for storing and reading nucleic acid-based data with error protection

Country Status (6)

Country Link
US (2) US20200185057A1 (en)
JP (1) JP2021532799A (en)
KR (1) KR20210053292A (en)
AU (1) AU2019315604A1 (en)
CA (1) CA3108400A1 (en)
WO (1) WO2020028912A2 (en)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3509018B1 (en) * 2016-08-30 2023-10-18 Tsinghua University Method for biologically storing and restoring data
KR20230074828A (en) 2016-11-16 2023-05-31 카탈로그 테크놀로지스, 인크. Nucleic acid-based data storage
US10650312B2 (en) 2016-11-16 2020-05-12 Catalog Technologies, Inc. Nucleic acid-based data storage
EP3514706A1 (en) * 2018-01-18 2019-07-24 Université Jean-Monnet Method for processing a question in natural language
JP7364604B2 (en) 2018-03-16 2023-10-18 カタログ テクノロジーズ, インコーポレイテッド Chemical methods for nucleic acid-based data storage
US11610651B2 (en) 2019-05-09 2023-03-21 Catalog Technologies, Inc. Data structures and operations for searching, computing, and indexing in DNA-based data storage
CN114175041A (en) * 2019-08-01 2022-03-11 富士通株式会社 Control method, control program, and information processing apparatus
US11535842B2 (en) 2019-10-11 2022-12-27 Catalog Technologies, Inc. Nucleic acid security and authentication
US11755640B2 (en) * 2019-12-20 2023-09-12 The Board Of Trustees Of The University Of Illinois DNA-based image storage and retrieval
EP4150622A1 (en) * 2020-05-11 2023-03-22 Catalog Technologies, Inc. Programs and functions in dna-based data storage
CN111708778B (en) * 2020-06-09 2021-06-29 黄克颖 Big data management method and system
WO2022055885A1 (en) * 2020-09-08 2022-03-17 Catalog Technologies, Inc. Systems and methods for writing by sequencing of nucleic acids
JP2023546330A (en) 2020-09-22 2023-11-02 カタログ テクノロジーズ, インコーポレイテッド Temperature controlled fluid reaction system
EP4363999A1 (en) * 2021-06-28 2024-05-08 Voredos N-hamming distance search and n-hamming distance search index
CN116451780A (en) * 2022-01-05 2023-07-18 密码子(杭州)科技有限公司 Method and apparatus for storing information in molecules
US20230244412A1 (en) * 2022-01-28 2023-08-03 Western Digital Technologies, Inc. Encoding and integrity markers for molecular storage applications
EP4254416A1 (en) 2022-04-01 2023-10-04 BioSistemika d.o.o. A device and a method for recording data in nucleic acids
WO2023187132A1 (en) 2022-04-01 2023-10-05 Biosistemika D.O.O. A device and a method for recording data in nucleic acids
WO2023195822A1 (en) * 2022-04-08 2023-10-12 Seegene, Inc. Method for providing user interface and device therefor
WO2023240540A1 (en) * 2022-06-16 2023-12-21 深圳华大基因科技有限公司 Optical computing method and system, and controller and storage medium

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10860562B1 (en) * 2014-09-12 2020-12-08 Amazon Technologies, Inc. Dynamic predicate indexing for data stores
US20170060924A1 (en) * 2015-08-26 2017-03-02 Exablox Corporation B-Tree Based Data Model for File Systems
US10370246B1 (en) * 2016-10-20 2019-08-06 The Board Of Trustees Of The University Of Illinois Portable and low-error DNA-based data storage
US10650312B2 (en) 2016-11-16 2020-05-12 Catalog Technologies, Inc. Nucleic acid-based data storage
US10902939B2 (en) * 2017-01-10 2021-01-26 Roswell Biotechnologies, Inc. Methods and systems for DNA data storage

Similar Documents

Publication Publication Date Title
JPWO2020028912A5 (en)
US20210210165A1 (en) Systems and methods for storing and reading nucleic acid-based data with error protection
US10370246B1 (en) Portable and low-error DNA-based data storage
CN110268474B (en) Primer design for retrieval of stored polynucleotides
CN110268473B (en) Primer design for retrieval of stored polynucleotides
US10423341B1 (en) Accurate and efficient DNA-based storage of electronic data
US10566077B1 (en) Re-writable DNA-based digital storage with random access
CN107403075B (en) Comparison method, device and system
US20170233727A1 (en) Methods for generating and decoding barcodes
Sarkar et al. Towards selective-alignment: Bridging the accuracy gap between alignment-based and alignment-free transcript quantification
US20170109229A1 (en) Data processing method and device for recovering valid code words from a corrupted code word sequence
Gawrychowski et al. Efficiently Finding All Maximal $\alpha $-gapped Repeats
Li et al. MegaGTA: a sensitive and accurate metagenomic gene-targeted assembler using iterative de Bruijn graphs
US20230317164A1 (en) Systems and methods for writing by sequencing of nucleic acids
Wei et al. Dna storage: A promising large scale archival storage?
Marić Long read RNA-seq mapper
EP3663890A1 (en) Alignment method, device and system
EP3830831A2 (en) Systems and methods for storing and reading nucleic acid-based data with error protection
ES2964351T3 (en) Method for compression of genomic sequence data
Chen et al. Low-complexity and highly robust barcodes for error-rich single molecular sequencing
Timm Analysis and Application of Hash-based Similarity Estimation Techniques for Biological Sequence Analysis
de Lima Camillo pyaging: a Python-based compendium of GPU-optimized aging clocks
Liu Algorithms on Weighted Sequences & Applications
Miclotte Correction of third generation sequencing reads through read-to-graph alignment
James Computational Methods for the Measurement of Protein-DNA Interactions