KR20190097658A

KR20190097658A - 예측오차 확장과 히스토그램 쉬프팅 기반의 가역성 dna 정보은닉 방법

Info

Publication number: KR20190097658A
Application number: KR1020180017337A
Authority: KR
Inventors: 송덕진; 조재완; 이응주; 이석환
Original assignee: 동명대학교산학협력단
Priority date: 2018-02-13
Filing date: 2018-02-13
Publication date: 2019-08-21
Also published as: KR102082843B1; US20190251268A1

Abstract

본 발명은 예측오차 확장과 히스토그램 쉬프팅 기반으로 생물학적 변이없이 허위 시작코돈 방지, 원본 서열 길이 유지, 높은 워터마크 용량성, 블라인드 검출이 가능한 예측오차 확장과 히스토그램 쉬프팅 기반의 가역성 DNA 정보은닉 방법에 관한 것이다.

Description

예측오차 확장과 히스토그램 쉬프팅 기반의 가역성 DNA 정보은닉 방법{Method for Reversible Data Hiding in DNA Sequence Based on Prediction and Histogram Shifting}

DNA 서열은 부호 DNA(Coding DNA)와 비부호 DNA(Noncoding DNA)로 나누어지며, 워커마크는 이 두 영역에 각각 삽입되어 데이터가 은닉될 수 있다. 부호 DNA의 경우 매우 작은 중첩 코돈 범위로 인하여 가역 워터 마킹에 적합하지 않다. 비부호 DNA는 단백질 부호 보존의 조건이 없으므로 부호 DNA보다 워터마트 가용 범위가 넓어, DNA 가역 워터마킹으로 적합하다.

T. Chen 등(참조문헌 [1])은 기존 가역성 영상 워터마킹 방법에서 많이 사용되는 무손실 압축과 DE(Difference expansion) 기반 방법들을 각각 제안하였다.Huang 등(참조문헌 [2])은 낮은 염기 변화율을 가지는 히스토그램 기반 가역성 DNA 워터마킹 방법을 제안하였다. 이 방법은 염기 변경율은 낮으나, bpn이 매우 낮고, Chen의 방법과 같이 허위 시작 코돈의 발생된다.

이 외에도 Liu (참조문헌 [3]) 등은 Piecewise linear chaotic map (PWLCM) 기반 정보 은닉 방법을 제안하였고, J. Fu (참조문헌 [4]), Ma (참조문헌 [5])은 DNA 서열의 조작 위치 탐지 (tamper location) 및 복원 (tamper restoration)을 위한 정보 은닉 방법을 제안하였다. 이 방법들은 Complementary rule에 의한 치환 방법에 의하여 데이터를 은닉하는 것으로, 추출 및 복원을 위하여 참조(또는 원본) DNA 서열이 필요한 non-blind 방법이다.

본 발명은 상기와 같은 종래기술의 문제점을 해결하기 위한 것으로서, 예측오차 확장 (Predictation Error Expansion)과 히스토그램 쉬프팅 기반으로 생물학적 변이없이 허위 시작코돈 방지, 원본 서열 길이 유지, 높은 워터마크 용량성, 블라인드 검출이 가능한 예측오차 확장과 히스토그램 쉬프팅 기반의 가역성 DNA 정보은닉 방법을 제공하는 것을 목적으로 한다.

예측오차 확장과 히스토그램 쉬프팅 기반의 가역성 DNA 정보은닉 방법에 있어서, 비부호 영역 DNA의 4-문자 염기서열을 n차 부호계수로 변환하는 제 1단계; LS(Least Square) 예측오차에 의하여 상기 부호계수별 다중비트를 은닉하는 제 2단계; 비순환형 히스토그램, 순환형 히스토그램 다중레벨 쉬프팅 방법에 의하여 n차 워터마크비트를 은닉하는 제 3단계; 워터마크된 부호계수 내, 부호계수 간의 개시코돈 발생 검증하는 제 5단계;를 포함하는 것을 특징으로 한다.

제 1단계는, b는 4-문자 염기 b={'A','T','C','G'}이고, b는 b의 염기계수, x는 n개 염기들로 구성된 염기블록, x는 염기블록 x에 대한 부호계수, n은 부호차수 이고, n개 염기들로 구성된 염기블록 x 단위로 2n 비트의 부호 계수 x로

where

,

와 같이 부호화 하고, 부호계수 x로부터 염기 블록의 염기들은

where

for

와 같이 복원되는 것을 특징으로 한다.

상기 제 5단계에서 워터마크된 부호계수 내에 허위시작코돈을 방지하는 방법은, 허위시작코돈을 포함하는 부호 계수 테이블을 미리 생성하는 단계; 워터마크된 부호계수가 상기 부호 계수 테이블에 포함되지 않도록 은닉하는 단계; 를 포함하는 것을 특징으로 한다.

상기 제 5단계에서 워터마크된 부호계수 간 허위시작코돈을 방지하는 방법은, 이전 워터마크된 부호계수를

가 주어질 때, 현재 처리되는 부호계수를

가

if (

=

(‘AT‘)=1) and

=

(‘G‘)=3

if (

=

(‘A‘)=0) and

=

(‘TG‘)=7

을 만족하지 않도록 상기

에 대한 은닉 비트수를 조절하는 단계;를 포함하는 것을 특징으로 한다.

제 2단계는 은닉 영역별 지역 예측을 통하여 부호계수를 예측하는 단계를 포함하는 것을 특징으로 한다.

이하 본 발명은 상기와 같은 종래기술의 문제점을 해결하기 위한 것으로서, 예측오차 확장 (Predictation Error Expansion)과 히스토그램 쉬프팅 기반으로 생물학적 변이없이 허위 시작코돈 방지, 원본 서열 길이 유지, 높은 워터마크 용량성, 블라인드 검출이 가능한 예측오차 확장과 히스토그램 쉬프팅 기반의 가역성 DNA 정보은닉 방법을 제공하는 효과가 있다.

도 1 (a)는 일반적인 2비트의 염기 계수 표현한 도면이고, (b)는 n차 염기 블록에 대한 2n 비트의 계수 표현한 도면이다.
도 2 (a)는 부호계수 내 허위 시작 코돈 발생 가능성을 나타낸 도면이고, (b)는 부호계수 간에 허위 시작 코돈 발생 가능성을 나타낸 도면이다.
도 3은

=1일 때, 부호차수

에 대한 (a) 은닉 영역 개수 비율

및 염기 개수 비율

과 (b) 부호계수 레벨과 염기 개수가 100일 때 부호계수의 개수를 나타낸 도면이다.
도 4는 워터마크 비트가 전부 1일 때

, (a) 예측계수

에 대한

의 확장 가능 영역과 (b) 예측계수

=0, 128, 255 상에서

의 확장 가능 비트수 (

)를 나타낸 도면이다.
도 5는 부호차수 (a)

, (b)

일 때, ‘AE017199’, ‘CP000473.1’ 서열의 부호 계수, 부호 계수의 히스토그램, 인접 계수 차이 히스토그램을 나타낸 도면이다.
도 6은 부호차수 (a)

, (b)

일 때, ‘AE017199’, ‘CP000473.1’ 서열의 LS 예측, 평균 예측, 및 인접계수와의 평균 오차 히스토그램을 나타낸 도면이다.
도 7은

차 부호계수 히스토그램 정의역

중 임의의 구간

상에 중간값

와의 차이가

와

인 계수들의 이동을 나타낸 도면이다.
도 8 (a) 현재 구간

과 좌우 인접 구간

,

상에 부호계수 쉬프팅을 나타낸 도면이고, (b) 전체 구간 상에서 각 구간과 좌우 인접 구간 간의 부호계수 쉬프팅을 나타낸 도면이다.
도 9는 순환형 히스토그램 쉬프팅 기반 데이터 은닉을 나타낸 도면이다.

본 발명의 바람직한 실시 예에 따른 예측오차 확장과 히스토그램 쉬프팅 기반의 가역성 DNA 정보은닉 방법은 다중비트 염기 부호계수의 DE(Difference expansion), 히스토그램 쉬프팅을 이용하는 방법으로, 본 발명의 주요 특징은 하기와 같다.

1. Blind Reversibility : DNA 서열의 길이 변경 및 아미노산 변경없이 가역 워터마크가 은닉되며, 원본 DNA 서열없이 추출 및 복원이 가능하도록 한다.

2.Watermarking Usability : bit 염기 서열을

비트의 부호계수 서열로 부호화하여 가역 워터마크 은닉, 추출 및 복원 과정이 용이하도록 한다.

3. Watermark Capacity : 부호계수 서열의 DE 및 히스토그램 쉬프팅 기반으로 대상 부호계수별 다중 비트 은닉(multi-bit embedding)이 가능하도록 하여 워터마크 용량성을 높인다.

4. No false start codon : 허위시작코돈 부호계수 테이블(false start codon - code value table)과 인접 부호계수 간 비교탐색을 통하여 부호계수 내 및 부호계수 간 허위시작코돈 생성을 방지한다.

본 발명에 대해 설명하기에 앞서, 본 발명에서 사용되는 부호에 대한 정의는 하기와 같다.

- DNA 서열은 비부호 영역

과 부호 영역

로 구성된다.

- 비부호 영역

은 은닉 영역

과 비은닉 영역

로 구분된다.

- 은닉 대상 영역

에는

개의 영역

을 가지며, 각 영역

내에는

개의 염기들 구성된다;

,

.

-

는 4-문자심볼 염기

={‘A’, 'T', ‘C’, ‘G’}이고,

는

의 염기 계수이다.

-

는

개 염기들로 구성된 염기 블록이고,

는 염기 블록

에 대한 부호계수이다. 이 때

를 부호차수라 한다.

-

는 워터마크된 부호계수이고,

는

의 염기블록이다.

-

는 은닉될 워터마크 비트열이다.

행렬

의 Cardinality

는

의 원소 개수 또는 길이를 나타낸다.

1. 4-문자 염기 부호화 (Numerical coding for 4-character bases)

4-문자 염기 서열에 대한 워터마킹 신호 처리 용이성을 위하여 다중비트 부호 과정이 필수적이다. 본 절에서는 워터마킹 신호 처리 용이성 및 허위시작코돈 방지를 위한 다중비트 부호 과정에 살펴보기로 한다.

1-1. 부호차수에 따른 부호화

일반적으로 뉴클레오티드 염기는 도 1(a)에서와 같이 b=(A, T, C, G) 4-문자로 표현되며, 이를 4개의 십진수 또는 2비트의 이진수로 표현된다.

(1)

신호 처리 용이성을 위하여 2비트 계수보다 그림 3(b)에서와 같이 2비트 이상의 다중비트로 표현된 계수로 확장하여야 한다. 본 발명은

개 염기들로 구성된 염기 블록

단위로

비트의 부호계수

로

where

,

(2)

와 같이 부호한다. 부호계수

로부터 염기 블록의 염기들은

where

for

(3)

와 같이 쉽게 복원되어진다.

본 발명에서는 염기 블록의 염기 개수

를 부호차수로 부르기로 한다. 은닉 영역

내 염기들은 부호차수

에 의하여 부호계수

로 부호된다;

.

. 이 때 부호계수 개수

은 부호차수

에 의하여 결정된다.

1-2. 허위시작코돈(False start codon) 방지

허위시작코돈은 다음과 같이 부호계수 내 또는 부호계수 간에 발생될 수 있다.

1) 부호계수 내 (Intra code)

부호차수

에 의한 부호계수 정의역(code value domain)를

라 한다.

일 경우, 도 2(a)에서와 같이 부호계수 정의역 내에

개의 허위시작코돈들이 발생될 수 있다. 염기 블록 내에 임의의 위치

에서 발생된 허위시작코돈을 포함하는 부호계수는

개이므로

개의 위치에서 발생된 허위시작코돈을 포함하는 부호계수는 총

개이다. 허위시작코돈을 포함하는 부호계수

는

(4)

for

and

와 같이 정의된다. 이 때 ‘A’,‘T’,‘G’의 심볼은 수식 (3)에서와 같이 0, 1, 3에 해당되며, 임의의 위치 상에 연속된 염기 {

}를 제외한 나머지 위치에서의 염기들은 모두 {A,T,C,G}를 가진다. 본 발명에서는 염기 부호화에서 허위시작코돈을 포함하는 부호계수 테이블

을 미리 생성한 다음, 워터마크된 부호계수

가

에 포함되지 않도록 은닉 과정을 수행한다.

2) 부호계수 간 (Inter codes)

이전 워터마크된 부호계수

의 염기 블록

과 현재 처리된 부호계수

의 염기 블록

간에 허위시작코돈이 발생될 수 있다. 도 2(b)에서와 같이

일 때

또는

때 중간 부분에 허위시작코돈이 발생된다. 따라서 부호계수 간의 허위시작코돈을 가지는 두 부호계수들은 다음과 같이 정의되어진다.

(5)

if (

=

(‘AT‘) = 1) and

=

(‘G‘) = 3

if (

=

(‘A‘) = 0) and

=

(‘TG‘) = 7

는 부호계수

의

,

번째 염기를 나타내고,

는 concatenation 연산자이다.

는

의

,

번째 염기와

의 1,2번째 염기들을 접합한 부호계수를 나타낸다. 본 발명에서는 이전 워터마크된 부호계수

가 주어질 때, 현재 워터마크된 부호계수

가 위의 조건을 만족하지 않도록 부호계수

에 대한 은닉 비트수를 조절한다.

2. 은닉 영역 선택(Target region)

본 발명에서는 염기블록 단위로 생성되는 부호계수 열에 워터마크를 은닉한다. 이 때 서열 길이가 짧은 영역은 부호계수 열이 매우 짧아지므로, 워터마크 은닉 대상에 적합하지 않다. 따라서 은닉 영역은

개 이상의 부호계수들을 가지는 영역으로, 부호차수

에 대한 은닉 영역들의 집합

은

,

(6)

와 같이 정의된다. 이 때

는

번째 은닉 영역이며,

는

영역의

번째 4-문자 염기이고,

는

의 염기 개수를 나타낸다.

는 은닉 영역의 최소 부호계수의 개수이고,

는 예측 차수로 이후 3절에 자세히 설명된다. 본 발명의 일실시 예에서 최소 부호계수의 개수

를 10이상으로 설정하고, 예측 차수

에 따라 은닉 영역을 선택한다.

주어진 DNA 서열 상에 전체 비부호 영역 개수에 대한 은닉 영역 개수의 비율이

라 하고, 전체 비부호 영역의 염기 개수에 대한 은닉 영역의 염기 개수 비율이

라 한다. 도 5(a)는 DNA 서열 상에 부호차수

이 2에서 10일 때 은닉 영역 개수 비율

와 염기 개수 비율

을 보여준다. 도 5(b)는 부호차수

에 대한 부호계수의 레벨과 염기 개수가 100일 때, 부호계수의 개수를 보여준다. 이 그림들을 살펴보면,

이 증가할수록

은 비례적으로 줄어드나,

은 92% 이상을 유지한다. 염기 개수가 주어질 때

이 증가할수록 부호계수의 개수가 기하급수적으로 줄어드나, 부호계수 레벨은 증가된다. 즉, 부호계수 레벨이 증가할수록 워터마킹 신호 처리 범위가 넓어지고, 염기 개수가 유지되나 대상 부호계수의 개수가 줄어지므로, 워터마크 용량에 제한을 받는다. 본 발명에서는 부호계수 당 다중비트를 은닉하므로, 부호계수 레벨이 높을수록 부호계수 당 은닉 비트수 증가되나, 부호계수의 개수는 줄어든다. 따라서 주어진 비부호 영역 상에서 워터마크 용량에 최적인 부호차수

이 구하여야 한다.

3. 부호계수 예측오차 확장 기반 가역 워터마킹 (Prediction Error Expansion, PE)

비부호 영역의 부호계수가 주어졌을 때, 기존 영상 데이터에 사용되는 예측오차 확장 (Prediction Error Expansion) 방법을 이용하여 부호계수 쌍에 1비트 은닉이 가능하다. 예를 들어, 임의의 부호계수

에 대한 예측계수

와 워터마크 비트

일 때, 은닉된 부호계수

는

(7)

이다.

와

로부터 워터마크 추출 및 부호계수 복원이

,

와 같이 쉽게 구하여진다. 위의 방법은 인접한 화소 간의 상관도가 큰 영상 데이터에 적합한 것으로, 라플라시안 분포로 모델링 되는 예측오차로 많은 화소 쌍에 1비트씩 은닉이 가능하다.

그러나 DNA 서열의 부호계수들은 인접 계수들 간의 상관관계가 적으므로, 적응적인 예측기가 필요하다. 또한 허위시작코돈 제한 조건 내에 부호계수 간의 이동이 자유로우므로, 부호계수 쌍 내에 다중비트 은닉이 가능하다. 따라서 본 절에서는 부호계수 예측오차 확장 기반 다중비트 은닉 방법에 대하여 살펴보기로 한다.

3-1. 다중비트 은닉을 위한 부호계수 오차 확장 조건

화질에 대한 조건이 없는 DNA 부호계수는 허위시작코돈 계수를 제외한 유효 범위 내에 이동이 자유롭다. 따라서 부호계수 쌍에 대한 예측오차 (

)는 확장 조건에 따라

비트 은닉을 위하여

배 확장이 가능하며, 최대

비트 은닉이 가능하다;

.

워터마크의

비트

와 예측계수

가 주어졌을 때,

비트 은닉된 부호계수

는

where

(8)

와 같이

배 확장된 예측오차

에 의하여 구하여진다.

은닉된 부호계수

와 비트 수

가 주어졌을 때, 워터마크 추출 및 복원은

for

(9)

(10)

와 같이 쉽게 구하여진다.

은닉된 부호계수

는

이어야 하므로,

배 확장위한 예측오차

의 확장 조건은

(11)

와 같으며, 부호계수

는

, (12)

where

와 같은 조건을 만족하여야 한다. 이와 같은 확장 조건은 워터마크

비트

와 예측계수

에 의하여 결정되며, 확장 조건에 따라 부호계수

에 은닉될 비트수가 결정된다.

도 5(a)는 부호차수

=4 (

)이고 워터마크 비트가 전부 1일 때

, 예측계수

별 부호계수

내에 은닉될 비트수를 보여준다. 최대 은닉 비트수

는

이다. 도 5(b)는 예측계수

가 0, 128, 255일 때, 은닉 비트수에 따른 부호계수

의 범위를 나타낸다. 은닉 비트수가 증가할수록 확장 가능영역은 기하급수적으로 좁아지며,

가 0 또는 255에 가까울수록 은닉될 비트수가 작아진다.

3.2 부호계수 예측

도 5는 부호차수

이 3, 4일 때, ‘AE017199’, ‘CP000473.1’ 서열의 부호계수 및 부호계수 히스토그램을 보여준다. 부호계수 히스토그램은 부호차수에 따라 확장 및 축소가 되나, 서열에 따라 정형화된 분포를 가지지 않는다. 즉, ‘AE017199’ 서열은 네 영역을 제외한 나머지 영역에 골고루 분포되며, ‘CP000473.1’ 서열은 백색잡음과 같이 전체적인 영역에 골고루 분포된다. 또한 부호계수 서열은 랜덤 형태로 나타나며, 인접한 계수 간의 상관도가 매우 낮다. 따라서 본 발명에서는 부호계수 예측 오차를 줄이기 위하여 Dragoi 등의 지역 LS 예측 기반으로 부호계수를 예측한다.

현재 부호계수

예측을 위한

개 부호계수 열벡터가

이고,

개 변수 열벡터

라 한다. 이 때

를 예측 차수라 한다.

가 관측되었을 때,

의 예측계수

는 선형 회귀 (linear regression) 함수

에 의하여

(13)

와 같이 정의된다. 임의의 은닉 영역 내 전체 부호계수 열벡터

이고,

관측된 이전 부호계수들의

행렬

라 할 때, LS 예측은

와

와의 제곱 거리

=

가 최소가 되는 변수

를

(14)

와 같이 얻는다.

본 발명에서는 전체 은닉 영역에 대한 전역 예측보다 은닉 영역별 지역 예측을 통하여 부호계수를 예측한다. 따라서 복호 과정에서는 DNA 서열의 은닉 영역 개수

별 변수

인

의 부가정보가 필요하다.

부호계수 예측으로 인접계수(successive predictor)

또는 평균 예측

이 가능하다. 도 6은 ‘AE017199’, ‘CP000473.1’ 서열에 대하여 부호차수가

,

일 때 인접계수, 평균 예측, 및 LS 예측에 대한 예측오차 히스토그램을 보여준다. (p : 예측 차수(예측에 사용되는 인접 계수 개수), ER(expandible region)는 확장영역 발생확률)

도 8에서

는 확장영역 발생확률을 나타낸다. 인접계수 오차는 부호차수에 상관없이 74.8% 정도의 확장영역을 가진다. 평균 예측과 LS 예측은 부호차수

=3일 때 다소 높은 ER을 가지며, 예측차수

가 높을수록 ER이 높아진다. 특히

=3이고,

=20일 때, LS 예측이 가장 높은 91.6% 정도의 확장영역을 가진다. 즉,

=3일 때, LS의 예측차수

가 높을수록 삽입 용량이 커짐을 알 수 있다.

영상의 예측 오차 히스토그램은 라플라시안 분포로 모델링되나, 부호계수의 LS 예측 오차 히스토그램은 결과에서와 같이 정규 분포로 모델링된다.

=3,

=10일 때,

=(0,20),

=3,

=20일 때

=(0,19) 분포로 근사화된다.

=4,

=10일 때,

=(0,80),

=4,

=20일 때

=(0,76) 분포로 근사화된다.

3.3 부호 과정

본 발명의 부호 과정에서는 부호차수

과 예측차수

가 주어졌을 때, 은닉 영역별로 LS 예측 변수

를 구한 다음,

인 부호계수

는

에 의한 LS 예측,

인 부호계수는 평균 예측에 의하여

가 구하여진다.

(15)

예측오차

의 확장 조건에 따라 은닉 비트수

(

가 결정된 후, 부호계수

에

비트

가

where

(16)

and

와 같이 은닉한다.

은닉된 부호계수

가 허위시작코돈 테이블

에 포함되거나, 이전 부호계수

간 허위시작코돈을 포함할 경우 은닉 비트수

를 하나 감소한 다음,

가 0일 때까지 위의 과정을 반복한다. 이와 같은 방법에 의하여 모든 은닉 영역의 부호계수에 다중비트를 은닉한 후, 워터마크된 영역

을 얻는다.

가 0인 것은, 예측오차의 비은닉 영역에 해당되거나, 허위시작코돈 발생되는 경우를 나타낸다.

부호계수별 은닉 비트수

와 은닉 영역별 예측변수

는 워터마크 추출 및 원본 서열 복원에 필요한 부가정보이다. 부가정보는 허위개시코돈 발생되지 않고, 또 다른 부가정보 생성없이 워터마크된 영역

에 포함되어 전송되어야 한다. 본 발명에서는 은닉 비트수

와 예측변수

와

내 2bit 염기 이진수의 LSB 비트

를 산술 부호화(arithmetic coding)에 의하여 무손실 압축하여, 압축 비트열

을 생성한다. 압축 비트

는 4-문자 염기의 이진수

의 LSB에

if

≠’A’ and

≠’T’ (17)

와 같이 차례로 치환된다. 이 때, 이전 은닉된 두 개의 염기

가 “AT”인 경우, 현재 염기가

=‘G’이면

를 ‘A’,‘T’,‘C’ 중에 하나로 치환하고,

≠‘G’이면 은닉 과정을 생략한다. 최종적으로 압축열

을 포함하는 은닉 영역

내에 “AT” 염기열은 다음 염기에 압축 비트가 포함되지 않음을 직접적으로 나타내는 마커로 수행된다. 압축열

길이는 압축 알고리즘에 의하여 결정되나, 본 논문에서는 일반적인 무손실 압축 알고리즘인 산술 부호화를 사용하기로 한다. 최종 부가정보 및 워터마크가 은닉된 비부호 영역

을 가지는 DNA 서열

, ,

이 전송된다.

3.4 복호 및 복원과정

복호 과정에서는 먼저 전송된 DNA 서열

의 비부호 영역

상에서 “AT” 다음에 오는 염기를 제외한 모든 염기들의 LSB로부터 부가정보 압축열

의 은닉 비트수

, 예측변수

와 염기 LSB 비트

를 얻는다.

의 염기 LSB 비트에

가 치환된

을 부호차수

에 의하여 부호서열

를 얻는다.

내 모든 부호계수로부터 은닉 비트수

와 예측변수

에 의하여 워터마크를 추출하고, 원본 부호계수를 복원한다.

예를 들어, 은닉 비트수

인 임의의 부호계수

가 주어졌을 때, 이전 복원된 부호계수

로부터 예측계수

가 구한 다음, 예측오차

로부터 워터마크

비트가

, for

에 의하여 추출된다. 그리고 원본 부호계수

는 예측오차

를

비트 쉬프팅에 의하여

와 같이 복원된다.

3.5 워터마크 용량과 부가정보량

워터마크 용량은 부호차수

, 예측차수

에 의하여 영향을 받는다.

과

가 주어졌을 때, 은닉 영역

내에 은닉되는 워터마크 비트수는 각 영역 내 부호계수 은닉 비트수

의 합에 해당된다. 따라서 염기 당 비트수 bpn(bit per base)

은

[bit/base] (18)

where

and

와 같다.

는 은닉 영역의 개수이고,

는 영역

내 부호계수의 개수를 나타낸다.

부가정보 압축열

을 은닉하기 위한 LSB 치환 가능 비트량을

라 할 때,

는 치환 과정에서 허위시작코돈에 의하여 생략되는 염기의 개수에 의하여 결정된다. 최대

는

내의 총 염기 개수

와 동일하다. 부가정보 압축열

길이는 치환 가능 비트량

보다 작아야 하므로, 은닉 비트수

, 예측변수

및 2bit 염기의 LSB

의 부가 정보량이 작거나, 압축효율이 높은 알고리즘이 필요하다. 임의의 워터마크된 영역

(

)이 주어졌을 때,

는

비트로 구성되며, 은닉 비트수

는

비트로 표현되고, 은닉영역별 예측변수

는 예측차수

개의 32비트 부동소수점로 표현된다. 따라서

을 위한 부가정보

는

[bit] (19)

이다. 부가정보 압축열

가

라 할 때,

이 되도록 압축이 수행된다.

4. 부호계수 히스토그램 쉬프팅 기반 방법

비부호 영역의 부호계수는 허위시작코돈을 가지는 부호계수 테이블을 제외한 나머지 영역으로 쉬프팅이 가능하다. 본 절에서는 데이터 용량을 높이기 위한 비순환형 및 순환형 부호계수 히스토그램 쉬프팅 기반 방법에 대하여 살펴보겠다.

4.1 비순환형 히스토그램 쉬프팅(Noncircular Histogram Shifting ; HS)

(1) 부호 과정

본 발명에서는

차 부호계수 히스토그램 정의역(domain)

=

을

개 구간

(section)으로 분할한다. 이 때 각 구간에서는 중간값

을 기준으로 좌우 대칭이 되도록 구성되며,

은 쉬프팅의 기준값으로 사용된다. 따라서 구간의 길이는 홀수이며, 은닉 비트수

에 의하여 결정된다.

구간 내 최대 쉬프팅 비트수가

이고, 중간값이

일 때,

는

, for

(20)

(21)

와 같이

개의 계수들로 구성되며, 구간 개수

은

where

(22)

와 같다. 이 때 잔여 구간은

으로

개 계수에 해당되며, 워터마크 은닉에 참여하지 않는다.

임의의 부호계수

가 구간

에 속할 경우, 구간 중간값

과의 차이가

,

이다. 여기서

의 범위에 따라

내에 은닉될 비트수

가

,

, if

(23)

, if

와 같이 결정된 다음

내에

비트

가

where

, (24)

and

와 같이 은닉된다. 구간 중간값

에 해당되는 계수

는 은닉 비트수

으로 비트 은닉에서 제외된다. 여기서 쉬프팅된 부호계수

가 허위시작코돈 테이블

에 속하거나,

와 이전 쉬프팅된 부호계수

간의 허위시작코돈이 발생될 경우, 은닉 비트수

가 0이 될 때까지 하나씩 감소하여 위의 과정을 반복한다. 이는 연속 부호계수 쌍 DE 방법과 동일하게 허위시작코돈을 방지한다. 이와 같은 방법으로 은닉 대상 영역의 모든 부호계수들에 대하여 부호계수별 은닉 비트수에 따라 다중비트가 은닉된 후, 워터마크된 비부호 영역

가 얻어진다.

워터마크 추출 및 원본 서열 복원을 위한 부가정보로 부호계수별 은닉 비트수

와 구간 기준값으로 쉬프팅된 구간 마커

와 워터마크된 비부호 영역

의 2비트 염기 이진수의 LSB 비트

가 필요하다. 연속 부호계수 쌍 DE 방법과 동일하게 부가정보 (

)의 무손실 압축된 비트열

을 생성한 다음,

내 염기 이진수의 LSB 비트에 치환된다. 최종 부가정보 및 워터마크가 은닉된 비부호 영역

을 가지는 DNA 서열

, ,

이 전송된다.

도 7은

상에 최대 쉬프팅 비트수

일 때, 중간값

과의 차이값

과 워터마크 비트에 따른 부호계수 쉬프팅을 보여준다. 임의의 히스토그램 정의역 구간

(a section of histogram domain)는 중간값

기준으로 왼쪽 서브구간

과 오른쪽 서브구간

으로 나뉘어진다.

일 경우에는 3비트(

) 은닉이 가능하다. 그리고

일 경우에는 2비트(

),

, 일 경우에는 1비트(

) 은닉이 가능하다.

인

일 때에는 비트가 은닉되지 않는다(

).

구간

의 오른쪽 서브구간

(

)(right subsection)에 해당되는 부호계수

는 워터마크 비트에 의하여 오른쪽 구간

(right section)의 왼쪽 서브구간

(

)(left subsection)으로 이동된다. 이와 반대로 구간

의 왼쪽 서브구간

(

)에 해당되는

는 워터마크 비트에 의하여 왼쪽 구간

의 오른쪽 서브구간

(

)으로 이동된다. 이를 정리하면, 그림 8(a)에서와 같이 구간

의 오른쪽 서브구간의 부호계수와 오른쪽 인접

의 왼쪽 서브구간의 부호계수과 서로 쉬프팅되며, 이와 반대로 구간

의 왼쪽 서브구간의 부호계수와 왼쪽 인접

의 오른쪽 서브구간의 부호계수가 서로 쉬프팅된다.

워터마크된 부호계수들 중에서 중간값

인 부호계수는 세 가지의 경우에 의하여 발생된다. 먼저 이전 부호계수가 중간값

(

)일 경우 쉬프팅에서 제외된다. 따라서 쉬프팅되지 않는 원래 부호계수

이다. 그리고 도 8(a)에서와 같이 왼쪽 구간의 오른쪽 서브구간

과 오른쪽 구간의 왼쪽 서브구간

내 계수들이 쉬프팅된 경우이다. 부호계수별 은닉 비트수에 의하여 쉬프팅되지 않은 경우와 쉬프팅된 경우를 구별할 수 있다. 따라서 추출 및 복원을 위하여 쉬프팅된 이전 구간 정보

가

(25)

와 같이 필요하다.

도 8 (b)에서와 같이

개 구간 중에서

의 오른쪽 서브구간

에서부터

의 왼쪽 서브구간

내의 부호계수들이 쉬프팅이 된다. 나머지 경계 구간인

와

에 해당되는 부호계수들은 쉬프팅 비트수

으로 할당된다.

(2) 복호 및 복원 과정

본 발명의 호 과정에서는 먼저 전송된 DNA 서열

의 비부호 영역

로부터 압축 비트열의 부가정보 (

)를 얻는 다음,

의 염기 이진수 치환에 의하여 워터마크된 비부호 영역

를 얻는다. 그리고

의 부호서열

로부터 부호계수별 쉬프팅 비트수

와 쉬프팅 구간 마커

에 의하여 워터마크와 원복 계수 복원이 수행된다.

부호서열

의 부호계수

가 주어졌을 때, 먼저

의 원래 구간의 중간값

이 먼저 구하여야 한다. 즉,

의 쉬프팅된 구간

이 경계구간이 아니고 (

), 쉬프팅 비트수

가

일 경우,

의 이전 구간에 대한 중간값

은

, if

(26)

와 같이 구하여진다. 이 때

의 쉬프팅된 구간

에 따라 은닉 전 구간의 중간값

이 쉽게 구하여지나,

가 쉬프팅된 영역

의 중간값

일 경우 (

), 이전 구간 마커

에 의하여

이 구하여진다.

상에 워터마크

비트

와 원본 부호계수

는 이전 구간의 중간값

에 의하여

for

(27)

(28)

와 같이 구하여진다.

(3) 워터마크 용량과 부가정보

부호차수

과 구간 최대 쉬프팅 비트수

가 주어졌을 때, 은닉 영역

내에 은닉되는 워터마크 비트수는 히스토그램 정의역 구간

내에 중간값과의 차이 범위에 의하여 정의된 비트수와 각 구간에 부호계수가 속할 빈도수에 따라 결정되어진다.

부호계수 히스토그램 상에

값을 가지는 빈도수를

이라 한다. 이 때 임의의 구간

상에 쉬프팅되는 비트수는 왼쪽 서브구간

과 오른쪽 서브구간

에 쉬프팅 비트수

와

의 합에 의하여 계산되어진다.

, for

(29)

, for

(30)

에 은닉된 총 워터마크 비트수는 전체

개 구간 상에 경계구간

와

을 제외한 나머지 구간 상에 쉬프팅 비트수의 합이며, 염기 당 비트수 bpn

은

[bit/base] (31)

와 같이 정의된다.

는 은닉 영역의 개수이고,

는 영역

내 부호계수의 개수로,

는 은닉 대상 영역의 총 염기의 개수이다.

워터마크 추출 및 복원을 위한 부가정보

로 부호계수별 쉬프팅 비트수

와 구간 기준값으로 쉬프팅된 구간 마커

와 워터마크된 비부호 영역

의 2비트 염기 이진수의 LSB 비트

이다. 히스토그램 정의역 구간 내의 최대 쉬프팅 비트수가

일 때, 은닉 비트수는

비트로 표현되므로, 전체 부호계수에 대한 쉬프팅 비트수

는 총

비트로 표현된다. 쉬프팅 구간 마커

는 인접 구간의 중간값으로 쉬프팅된 부호계수

가 왼쪽 또는 오른쪽 구간에서 쉬프팅된 것인지 판별하는 이진 정보로

비트로 표현된다. 그리고

는

내 모든 영역의 염기 개수와 동일한

비트이다. 따라서 부가정보

는

[bit] (32)

와 같다. 압축율이

일 때, 부가정보

는

이 되도록 무손실 압축이 수행된다.

워터마크 비트가 은닉되지 않는

인 경우는 히스토그램 정의역 구간의 경계 구간과 구간에 속하지 않는 잔여 구간, 및 구간의 중간값에 해당되는 부호계수에 해당된다. 즉,

일 확률

은

이다.

는

구간 내의 부호계수 확률이고,

는

구간 내의 부호계수 확률이며,

는

에 속하지 않는 잔여 구간의 계수 확률이다. 마지막으로

는 모든 구간의 중간값에 해당되는 부호계수 확률이다.

,

, ---

4.2 순환형 히스토그램 쉬프팅 (Circular Histogram Shifting ; CHS)

비부호 영역의 부호계수들은 영상의 화소값과는 달리 화질에 대한 조건이 없으므로, 최대치와 최소치 간의 쉬프팅이 가능하다. 순환형 히스토그램 쉬프팅 방법에서는 히스토그램 구간 쉬프팅을 순환형으로 변경하여 경계 구간에 해당되는

의 왼쪽 서브구간

(

)과

의 오른쪽 서브구간

(

)에서도 은닉이 가능하도록 하여 비순환형 히스토그램 쉬프팅 방법의 워터마크 용량을 높인다.

(1) 부호 과정

경계 구간과 잔여 구간을 제외한 나머지 구간에서는 비순환형 히스토그램 쉬프팅 방법의 은닉 과정과 동일하게 워터마크가 은닉된다. 히스토그램 정의역 구간을 순환으로 할 경우, 도 9에서와 같이 두 경계 구간인

와

서브구간은 잔여 구간에 의하여 쉬프팅이 되지 않는다. 따라서 본 발명에서는

을 잔여 구간으로 쉬프팅하여

의 두 서브구간을 분리한다. 즉, 잔여 구간의 부호계수 개수가

일 때,

영역은

(33)

where

, ,

,

와 같이

보다 작은 서브구간

과

보다 큰 서브구간

으로 분리된다.

구간은 두 개의 중간 기준값이 발생된다.

임의의 부호계수

상에서

가 속한 구간

의 중간값

(34)

에 의하여

비트

가

(16)

where

and

와 같이 은닉된다. 이때

과

사이의 잔여 계수

와 각 구간의 중간값에 해당되는 부호계수들은 쉬프팅 비트수가 0이다.

인접 구간의 중간값으로 쉬프팅된 계수

에 대한 이전 구간에 대한 정보

는

(36)

와 같이 결정된다.

이와 같은 방법으로 부호서열

의 모든 부호계수에 부호 내 및 부호 간 허위시작코돈 생성없이 워터마크가 은닉되며, 워터마크된 비부호 영역

가 얻어진다. 워터마크 복호 및 원본 부호계수의 복원에 필요한 부가정보는 비순환형 방법과 동일한 부호계수별 쉬프팅 비트수

와 쉬프팅 구간 마커

와 2비트 염기 이진수의 LSB 비트

이다. 압축된 부가정보의 LSB 치환은 위의 두 방법과 동일하게 적용되며, 치환된 영역

에 의하여 최종 워터마크된 DNA 서열

을 전송한다.

(2)복호 및 복원 과정

전송된 DNA 서열의 치환 영역

으로부터 역치환에 의하여 워터마크된 영역

이 얻어진 다음,

내의 부호서열

로부터 (

,

)에 의하여 워터마크가 복호되며, 원본 부호서열이 복원된다.

부호서열

내에

인 부호계수

가 주어졌을 때, 경계구간과 비경계구간에 따라

의 이전 구간의 중간값

을

for non-boundary region (37)

for boundary region (38)

와 같이 구한다. 그리고 R에 의하여

비트

와 원본 부호계수

를

for

(39)

(40) 와 같이 구한다.

(3) 워터마크 용량 및 부가정보

순환형 히스토그램 쉬프팅 방법에서는 부호계수 히스토그램 정의역 범위에 잔여 구간을 제외한 모든 구간에서 워터마크가 은닉된다. 따라서 부호차수

과 구간 최대 쉬프팅 비트수

가 주어졌을 때, 은닉 영역

내에 워터마크 비트수는 각 구간의 왼쪽 서브구간

(

)과 오른쪽 서브구간

(

)상에 쉬프팅 비트수의 합으로 이에 대한 bpn

은

[bit] (41)

와 같다. 워터마크 추출 및 복원을 위한 부가정보

는 비순환형 히스토그램 쉬프팅 방법과 동일한 정보를 가진다;

.위의 방법들과 동일하게 부가정보

는

이 되도록 무손실 압축이 수행된다. 순환형 히스토그램 쉬프팅 방법은 비순환형 히스토그램 쉬프팅 방법에 비하여 동일한 부가정보를 가지나, 보다 높은 워터마크 용량을 가진다.

중간값으로 쉬프팅된 부호계수의 이전 영역 정보와 잔여 계수 영역 이외의 모든 영역에 속한 부호계수의 은닉 비트수 정보이다.

[bit] (42)

여기서

는 잔여 계수에 속할 확률이고,

은 영역의 기준값

을 나타낸다. 따라서 부가 데이터의 bpn은

[bit/base]이다. 은닉 데이터에 대한 부가 데이터 비율인 용량 효율

은

와 같다.

참고문헌

[1] T. Chen, “A Novel Biology-Based Reversible Data Hiding Fusion Scheme,” Frontiers in Algorithmics, Lecture Notes in Computer Science, Vol. 4613, pp 84-95, 2007.

[2] Y.-H. Huang, C.-C. Chang, and C.-Y. Wu, “A DNA-based data hiding technique with low modification rates,” Multimedia Tools and Applications, Volume 70, Issue 3, pp 1439-1451, June 2014.

[3] G. Liu, H. Liu, and A. Kadir, “Hiding message into DNA sequence through DNA coding and chaotic map,” Medical & Biological Engineering & Computing, vol. 52, issue 9, pp. 741-747, Sep. 2014.

[4] J. Fu, W. Zhang, N. Yu, G. Ma, and Q. Tang, “Fast tamper location of batch DNA sequences based on reversible data hiding,” 2014 7th International Conference on Biomedical Engineering and Informatics (BMEI), pp. 868-872, Oct. 14-16, 2014.

[5] G. Ma, Q. Tang, W. Zhang, and N. Yu, “Tamper restoration on DNA sequences based on reversible data hiding,” 2013 6th International Conference on Biomedical Engineering and Informatics (BMEI), pp. 484-489, Dec. 16-18, 2013.

Claims

예측오차 확장과 히스토그램 쉬프팅 기반의 가역성 DNA 정보은닉 방법에 있어서,
비부호 영역 DNA의 4-문자 염기서열을 n차 부호계수로 변환하는 제 1단계;
LS(Least Square) 예측오차에 의하여 상기 부호계수별 다중비트를 은닉하는 제 2단계;
비순환형 히스토그램, 순환형 히스토그램 다중레벨 쉬프팅 방법에 의하여 n차 워터마크비트를 은닉하는 제 3단계;
워터마크된 부호계수 내, 부호계수 간의 개시코돈 발생 검증하는 제 5단계;를 포함하는 것을 특징으로 하는 예측오차 확장과 히스토그램 쉬프팅 기반의 가역성 DNA 정보은닉 방법.
제 1항에 있어서,
제 1단계는
b는 4-문자 염기 b={'A','T','C','G'}이고, b는 b의 염기계수, x는 n개 염기들로 구성된 염기블록, x는 염기블록 x에 대한 부호계수, n은 부호차수 이고,
n개 염기들로 구성된 염기블록 x 단위로 2n 비트의 부호 계수 x로

where
,
와 같이 부호화 하고
부호계수 x로부터 염기 블록의 염기들은

where
for
와 같이 복원되는 것을 특징으로 하는 예측오차 확장과 히스토그램 쉬프팅 기반의 가역성 DNA 정보은닉 방법.
제 1항에 있어서,
상기 제 5단계에서 워터마크된 부호계수 내에 허위시작코돈을 방지하는 방법은,
허위시작코돈을 포함하는 부호 계수 테이블을 미리 생성하는 단계;
워터마크된 부호계수가 상기 부호 계수 테이블에 포함되지 않도록 은닉하는 단계; 를 포함하는 것을 특징으로 하는 예측오차 확장과 히스토그램 쉬프팅 기반의 가역성 DNA 정보은닉 방법.
제 1항에 있어서,
상기 제 5단계에서 워터마크된 부호계수 간 허위시작코돈을 방지하는 방법은,
이전 워터마크된 부호계수를
가 주어질 때,
현재 처리되는 부호계수를
가

if (
=
(‘AT‘)=1) and
=
(‘G‘)=3
if (
=
(‘A‘)=0) and
=
(‘TG‘)=7
을 만족하지 않도록 상기
에 대한 은닉 비트수를 조절하는 단계;를 포함하는 것을 특징으로 하는 예측오차 확장과 히스토그램 쉬프팅 기반의 가역성 DNA 정보은닉 방법.
제 1항에 있어서,
제 2단계는 은닉 영역별 지역 예측을 통하여 부호계수를 예측하는 단계를 포함하는 것을 특징으로 하는 예측오차 확장과 히스토그램 쉬프팅 기반의 가역성 DNA 정보은닉 방법.