KR102502958B1 - 이미지를 이용해 오디오를 전송하는 방법 및 장치 - Google Patents

이미지를 이용해 오디오를 전송하는 방법 및 장치 Download PDF

Info

Publication number
KR102502958B1
KR102502958B1 KR1020210116470A KR20210116470A KR102502958B1 KR 102502958 B1 KR102502958 B1 KR 102502958B1 KR 1020210116470 A KR1020210116470 A KR 1020210116470A KR 20210116470 A KR20210116470 A KR 20210116470A KR 102502958 B1 KR102502958 B1 KR 102502958B1
Authority
KR
South Korea
Prior art keywords
image
chunks
latent
layers
audio data
Prior art date
Application number
KR1020210116470A
Other languages
English (en)
Inventor
김수훈
아크말존 알리존 우글리 팔바노브
Original Assignee
주식회사 델타엑스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 델타엑스 filed Critical 주식회사 델타엑스
Priority to KR1020210116470A priority Critical patent/KR102502958B1/ko
Application granted granted Critical
Publication of KR102502958B1 publication Critical patent/KR102502958B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/238Interfacing the downstream path of the transmission network, e.g. adapting the transmission rate of a video stream to network bandwidth; Processing of multiplex streams
    • H04N21/2389Multiplex stream processing, e.g. multiplex stream encrypting
    • H04N21/23892Multiplex stream processing, e.g. multiplex stream encrypting involving embedding information at multiplex stream level, e.g. embedding a watermark at packet level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/45Structures or tools for the administration of authentication
    • G06F21/46Structures or tools for the administration of authentication by designing passwords or checking the strength of passwords
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/475End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
    • H04N21/4753End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for user identification, e.g. by entering a PIN or password
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

오디오 데이터를 이미지에 은폐하는 방법은 오디오 데이터를 이미지 데이터로 변환하는 단계; 상기 이미지 데이터에 대응하는 이미지를 조각내어 복수의 청크를 생성하는 단계; 상기 복수의 청크를 패스워드를 이용하여 임의로 그룹핑하여 복수의 그룹을 생성하는 단계; 상기 복수의 그룹의 각 그룹에 해당하는 잠재 벡터를 생성하는 단계; 및 상기 잠재 벡터를 캐리어 이미지에 임베딩하여 은폐 이미지를 생성하는 단계를 포함한다.

Description

이미지를 이용해 오디오를 전송하는 방법 및 장치{METHOD FOR TRANSFERRING AUDIO USING IMAGE AND APPARATUS FOR TRANSFERRING AUDIO USING IMAGE}
본 개시는 이미지를 이용해 오디오를 전송하는 방법 및 장치에 관한 것으로, 자세하게는 오디오를 이미지에 숨겨 전송하는 방법 및 장치에 관한 것이다.
스테가노그래피(Steganography)는 숨기려는 메시지를 전달 매체(Carrier medium)에 숨겨 전송하는 암호화 기술이다. 일반적으로 보내고자 하는 이미지나 텍스트를 전달 이미지에 숨기거나, 영상을 영상에 숨기는 등 보내고자 하는 메시지와 동일 매체를 이용하여 메시지를 보낸다.
Direct Speech-to-Image Translation, Jiguo Li et al. IEEE (Journal of selected topic on signal processing, vol., no., January 2020) A Variant of LSB Steganography for Hiding Images in Audio, Kriti Saroha (International Journal of Computer Applications, December 2010) Recent Advances of Image Steganography with Generative Adversarial Networks, Jia Liu et al. On Data-Driven Saak Transform, C.-C. Jay Kuo et al.
본 개시는 이미지를 이용해 오디오를 전송하는 방법 및 장치를 제공한다.
본 개시의 일 형태에 의하면, 오디오 데이터를 이미지에 은폐하는 방법을 제공한다. 오디오 데이터를 이미지에 은폐하는 방법은 오디오 데이터를 이미지 데이터로 변환하는 단계; 상기 이미지 데이터에 대응하는 이미지를 조각내어 복수의 청크를 생성하는 단계; 상기 복수의 청크를 패스워드를 이용하여 임의로 그룹핑하여 복수의 그룹을 생성하는 단계; 상기 복수의 그룹의 각 그룹에 해당하는 잠재 벡터를 생성하는 단계; 및 상기 잠재 벡터를 캐리어 이미지에 임베딩하여 은폐 이미지를 생성하는 단계를 포함한다.
일 실시예에 따르면, 상기 복수의 청크를 패스워드를 이용하여 임의로 그룹핑하여 복수의 그룹을 생성하는 단계는, 상기 패스워드를 이용하여 상기 복수의 청크를 셔플하는 단계; 및 상기 셔플된 청크들을 임의로 선택하여 그룹핑하는 단계를 포함하고, 상기 복수의 그룹 각각은 상기 복수의 크룹핑된 청크들의 배치(batch)일 수 있다.
일 실시예에 따르면, 상기 복수의 청크를 패스워드를 이용하여 임의로 그룹핑하여 복수의 그룹을 생성하는 단계는, 상기 패스워드를 이용하여 상기 복수의 청크를 셔플하는 단계; 및 상기 셔플된 청크들을 임의로 선택하여 그룹핑하는 단계를 포함하고, 상기 복수의 그룹 각각은 상기 그룹핑된 청크들로부터 재구성된 이미지를 포함할 수 있다.
일 실시예에 따르면, 상기 복수의 그룹의 각 그룹에 해당하는 잠재 벡터를 생성하는 단계는, 컨볼루션 계층을 포함하는 인코더에 상기 복수의 그룹을 평행하게(in parallel) 입력하여 상기 잠재 벡터를 생성하는 단계를 포함할 수 있다.
일 실시예에 따르면, 상기 잠재 벡터를 캐리어 이미지에 임베딩하여 은폐 이미지를 생성하는 단계는, 상기 캐리어 이미지를 복수의 계층으로 분리하는 단계; 상기 복수의 계층에 상기 잠재 벡터를 임베딩하여 상기 잠재 벡터가 임베딩된 복수의 계층을 생성하는 단계; 및 상기 잠재 벡터가 임베딩된 복수의 계층을 병합하여 은폐 이미지를 생성하는 단계를 포함할 수 있다.
일 실시예에 따르면, 상기 복수의 그룹의 각 그룹에 해당하는 잠재 벡터를 생성하는 단계는, 상기 잠재 벡터의 수와 상기 그룹의 수가 동일하게 생성하는 단계를 포함할 수 있다.
일 실시예에 따르면, 상기 잠재 벡터를 캐리어 이미지에 임베딩하여 은폐 이미지를 생성하는 단계는, 상기 캐리어 이미지를 해상도(resolution)를 유지하며 복수의 계층으로 분리하는 단계; 상기 복수의 계층에 상기 잠재 벡터를 임베딩하여 상기 잠재 벡터가 임베딩된 복수의 계층을 생성하는 단계 -상기 잠재 벡터가 임베딩된 복수의 계층의 해상도는 상기 캐리어 이미지와 동일함-; 및 상기 잠재 벡터가 임베딩된 복수의 계층을 병합하여 은폐 이미지를 생성하는 단계를 포함할 수 있다.
일 실시예에 따르면, 상기 잠재 벡터를 캐리어 이미지에 임베딩하여 은폐 이미지를 생성하는 단계는, 상기 캐리어 이미지를 복수의 계층으로 분리하는 단계; 상기 복수의 계층에 각각에 상기 잠재 벡터 모두를 임베딩하여 상기 잠재 벡터가 임베딩된 복수의 계층을 생성하는 단계; 및 상기 잠재 벡터가 임베딩된 복수의 계층을 병합하여 은폐 이미지를 생성하는 단계를 포함할 수 있다.
일 실시예에 따르면, 상기 잠재 벡터를 캐리어 이미지에 임베딩하여 은폐 이미지를 생성하는 단계는, 상기 캐리어 이미지를 복수의 계층으로 분리하는 단계; 상기 복수의 계층 중 제1 계층에 상기 잠재 벡터의 제1 그룹을 임베딩하고, 상기 복수의 계층 중 제2 계층에 상기 잠재 벡터의 제2 그룹을 임베딩하는 단계; 및 상기 잠재 벡터가 임베딩된 복수의 계층을 병합하여 은폐 이미지를 생성하는 단계를 포함할 수 있다.
일 실시예에 따르면, 상기 복수의 청크를 패스워드를 이용하여 임의로 그룹핑하여 복수의 그룹을 생성하는 단계는, 상기 패스워드를 ASCII 테이블을 이용하여 십진수의 시퀀스로 변환하는 단계; 상기 십진수의 시퀀스로부터 시드를 추출하는 단계; 및 상기 시드를 이용하여 상기 복수의 청크를 셔플하는 단계를 포함할 수 있다.
본 개시의 일 실시 형태는 은폐 이미지로부터 오디오 데이터를 복원하는 방법을 제공한다. 은폐 이미지로부터 오디오 데이터를 복원하는 방법은 복수의 잠재 벡터가 임베딩된 은폐 이미지를 수신하는 단계; 상기 은폐 이미지로부터 상기 복수의 잠재 벡터를 추출하는 단계; 상기 복수의 잠재 벡터로부터 각각의 잠재 벡터에 대응하는 그룹을 재구성하는 단계; 상기 그룹을 패스워드를 이용하여 복수의 청크들의 시퀀스로 복원하는 단계 - 상기 복수의 청크는 이미지 데이터에 대응하는 이미지의 조각임 -; 상기 복수의 청크의 시퀀스로부터 상기 이미지를 복원하는 단계; 및 상기 이미지에 대응하는 상기 이미지 데이터를 오디오 데이터로 복원하는 단계를 포함한다.
일 실시예에 따르면, 상기 각각의 잠재 벡터에 대응하는 그룹 각각은 복수의 청크를 포함하는 배치(batch)일 수 있다.
일 실시예에 따르면,상기 각각의 잠재 벡터에 대응하는 그룹 각각은 복수의 청크로부터 재구성된 이미지를 포함할 수 있다.
일 실시예에 따르면, 상기 패스워드를 수신하는 단계를 더 포함하고, 상기 그룹을 패스워드를 이용하여 복수의 청크들의 시퀀스로 복원하는 단계는 상기 패스워드를 ASCII 테이블을 이용하여 십진수의 시퀀스로 변환하는 단계; 상기 십진수의 시퀀스로부터 시드를 추출하는 단계; 및 상기 시드를 이용하여 상기 그룹을 복수의 청크들의 시퀀스로 복원하는 단계를 포함할 수 있다.
본 개시의 일 실시형태는 오디오 데이터를 은폐하고 복원하는 장치를 제공한다. 오디오 데이터를 은폐하고 복원하는 장치는 오디오 데이터를 이미지 데이터로 변환하고, 상기 이미지 데이터를 조각내어 복수의 청크를 생성하고, 상기 복수의 청크를 패스워드를 이용하여 임의로 그룹핑하여 복수의 그룹을 생성도록 구성된 전 처리 모듈; 상기 복수의 그룹을 수신하여, 상기 복수의 그룹 각각에 해당하는 잠재 벡터를 생성하여 출력하도록 구성된 특징 추출 인코더; 및 상기 잠재 벡터를 캐리어 이미지에 임베딩하여 은폐 이미지를 생성하도록 구성된 임베딩 인코더를 포함하는 은폐 모듈; 및 상기 은폐 이미지를 수신하여 상기 은폐 이미지로부터 상기 잠재 벡터를 추출하는 임베딩 디코더; 상기 추출된 잠재 벡터를 수신하여 상기 추출된 잠재 벡터로부터 상기 복수의 그룹을 재구성하는 특징 추출 디코더; 및 상기 복수의 그룹으로부터 상기 오디오 데이터를 재구성하는 복원 모듈을 포함한다.
본 개시의 일 실시형태는 오디오 데이터를 동영상에 은폐하는 방법을 제공한다. 오디오 데이터를 동영상에 은폐하는 방법은, 복수의 캐리어 이미지 각각에 상기 기재된 오디오 데이터를 이미지에 은폐하는 방법을 반복하여 수행하여 복수의 은폐 이미지를 획득하는 단계 - 상기 복수의 은폐 이미지는 동영상 데이터의 프레임에 해당함 -; 및 상기 복수의 은폐 이미지에 기초하여 동영상 데이터를 획득하는 단계를 포함한다.
오디오를 이미지에 숨겨 전송하며 전송하려는 데이터를 암호화해 전송하여 이미지가 노출되더라도 복원이 어려운 전송 방법을 제공할 수 있다.
도 1은 본 개시의 일 실시예에 따른 데이터를 은폐하고 복원하는 환경의 개념도이다.
도 2는 본 개시의 일 실시예에 따른 데이터를 은폐하고 복원하는 장치의 블록도이다.
도 3은 본 개시의 일 실시예에 따른 데이터를 은폐하고 복원하는 장치의 은폐/복원 신경망의 블록도이다.
도 4는 본 개시의 일 실시예에 따른 데이터를 이미지에 은폐하는 전처리를 보여주는 개념도이다.
도 5는 본 개시의 일 실시예에 따른 데이터를 은폐하여 은폐 이미지를 생성하는 개념도이다.
도 6는 본 개시의 일 실시예에 따른 은폐 이미지로부터 데이터를 복원하는 개념도이다.
도 7은 본 개시의 일 실시예에 따른 신경망을 학습시키는 판별기의 개념도이다.
도 8은 본 개시의 일 실시예에 따른 신경망을 학습시키는 판별기의 개념도이다.
도 9는 본 개시의 일 실시예에 따른 판별기의 일부를 설명하는 개념도이다.
도 10은 본 개시의 일 실시예에 따른 배치의 변형예이다.
이하에서는 도면을 참조하여 본 개시에 대해 상세히 설명하도록 한다. 본 개시를 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대해 상세한 설명은 생략한다. 덧붙여, 하기 실시예는 여러 가지 다른 형태로 변형될 수 있으며, 본 개시의 기술적 사상의 범위가 하기 실시예에 한정되는 것은 아니다. 오히려, 이들 실시예는 본 개시를 더욱 충실하고 완전하게 하고, 당업자에게 본 개시의 기술적 사상을 완전하게 전달하기 위하여 제공되는 것이다.
본 개시에 기재된 기술을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 실시예의 다양한 변경(modifications), 균등물(equivalents), 및/또는 대체물(alternatives)을 포함하는 것으로 이해되어야 한다.
도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.
본 개시에서, "가진다," "가질 수 있다," "포함한다," 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다. 본 개시에서, "A 또는 B," "A 또는/및 B 중 적어도 하나," 또는 "A 또는/및 B 중 하나 또는 그 이상"등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B," "A 및 B 중 적어도 하나," 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.
본 개시에서 사용된 "제1," "제2," "첫째," 또는 "둘째,"등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다.
어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.
본 개시에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)," "~하는 능력을 가지는(having the capacity to)," "~하도록 설계된(designed to)," "~하도록 변경된(adapted to)," "~하도록 만들어진(made to)," 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성된(또는 설정된)"은 하드웨어적으로 "특별히 설계된(specifically designed to)" 것 만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성된(또는 설정된) 프로세서," A, B, 및 C를 수행하도록 구성된(또는 설정된) 모듈"은 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
본 개시에 기재된 선행 문헌은 그 전체가 본 개시에 결합된다.
데이터 은폐/복원 환경
도 1은 본 개시의 일 실시예에 따른 데이터를 은폐하고 복원하는 환경(100)의 개념도이다.
도 1을 참조하면, 환경(100)은 적어도 2개의 프레임워크(framework, 120, 120') 및 이들을 연결하는 네트워크(110)를 포함한다. 네트워크(110)의 통신 방식은 GSM(Global System for Mobile communication), CDMA(Code Division Multi Access), HSDPA(High Speed Downlink Packet Access), HSUPA(High Speed Uplink Packet Access), LTE(Long Term Evolution), LTE-A(Long Term Evolution-Advanced) 등), WLAN(Wireless LAN), Wi-Fi(Wireless-Fidelity), Wi-Fi(Wireless Fidelity) Direct, DLNA(Digital Living Network Alliance), WiBro(Wireless Broadband), WiMAX(World Interoperability for Microwave Access)에 따라 구축된 네트워크를 이용할 수 있으나, 이에 한정하는 것은 아니며 향후 개발될 모든 전송 방식 표준을 포함할 수 있다. 또한 네트워크의 통신 방식은 유/무선을 통하여 데이터를 주고받을 수 있는 것을 모두 포함할 수 있다.
프레임워크(120, 120')는 단말기, 서버 등 다른 프레임워크와 네트워크(110)에 의해 연결될 수 있는 장치를 포함할 수 있다. 일 실시예에서, 프레임워크(120, 120')는 컴퓨팅 시스템, 프로그램이 실행되고 있는 하드웨어, 하드웨어에서 실행되는 소프트웨어, 클라우드 서비스를 포함할 수 있다. 프레임워크(120, 120')는 사용자 단말, 사용자 또는 관리자의 요청에 의해 서비스를 제공하도록 구성된 시스템을 포함하고, 하나 이상의 응용 프로그램을 상호 협력적인 환경에서 운용하는 분산 처리 형태를 포함할 수 있다.
도 1을 참조하면, 프레임워크(120)는 데이터(102), 예를 들어 오디오 데이터를 수신하고 이를 캐리어 이미지(104)에 임베딩하여 은폐 이미지(108)를 생성하도록 구성된다. 프레임워크(120)는 데이터(102)를 캐리어 이미지(104)에 은폐하는 과정에서 패스워드(106)를 사용할 수 있다. 프레임워크(120)는 다른 프레임워크(120')와 네트워크(110)를 통해 연결되고, 은폐 이미지(108)를 다른 프레임워크(120')에 송신하도록 구성될 수 있다. 프레임워크(120')는 은폐 이미지(108)를 수신하여 복원된 데이터(102')를 생성할 수 있다. 일 실시예에서, 프레임워크(102)가 수신한 데이터(102)와 다른 프레임워크(102')가 복원한 데이터(102')는 완전 동일하지 않을 수 있다. 프레임워크(120)가 데이터(102)를 캐리어 이미지(104)에 은폐하는 과정에서 패스워드(106)를 사용한 경우, 다른 프레임워크(102')는 데이터(102')를 복원하기 위해 패스워드(106)를 사용해야한다. 따라서, 데이터(102)는 패스워드(106)와 은폐 이미지(108) 이중의 보호를 받기 때문에 안전하게 보호될 수 있다.
일 실시예에서, 프레임워크(120, 120')는 데이터를 은폐하고 복원하는 장치로 표현될 수 있다.
데이터 은폐/복원 장치
도 2는 본 개시의 일 실시예에 따른 데이터를 은폐하고 복원하는 장치(120)의 블록도이다.
도 2를 참조하면, 장치(120)는 통신 모듈(121), 컨트롤러(122), 스토리지(123), 은폐/복원 모듈(124)을 포함한다. 장치(120)는 통신 모듈(121)을 통해 데이터(102) 및/또는 캐리어 이미지(104)를 수신하거나 은폐 이미지(108)을 수신하도록 구성된다. 통신 모듈(121)은 상술한 통신 방식을 통해 다른 장치와 정보를 주고받을 수 있다. 일 실시예에서 장치(120)는 캐리어 이미지(104)를 데이터(102)와 함께 또는 별도로 수신하거나, 스토리지(123)에 기 저장된 이미지를 캐리어 이미지(104)로 사용할 수 있다. 장치(120)는 은폐 이미지(108)를 생성하거나 복원하도록 구성될 수 있다.
컨트롤러(122)는 장치(120)의 전반적인 동작을 제어하고, 기 입력된 명령어들의 집합(예를 들어, 소프트웨어) 또는 장치(120)를 제어하는 관리자의 입력에 의해 장치(120) 또는 장치(120)에 속한 여러 기능을 수행할 수 있다. 일 실시예에서, 컨트롤러(122)는 ASICs(application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 마이크로 컨트롤러(micro-controllers), 마이크로 프로세서(microprocessors), 기타 기능 수행을 위한 임의의 형태의 프로세서를 포함할 수 있다.
스토리지(123)는 명령어, 소프트웨어, 데이터 등을 저장할 수 있다. 스토리지(123)는 물리적인 저장 공간 또는 클라우드와 같은 네트워크 저장 공간을 포함할 수 있다. 스토리지(123)는 장치(120)에서 구동되는 다수의 응용 프로그램(application program) 또는 애플리케이션(application), 프로세서가 읽어 들일 수 있는 데이터들, 명령어들을 저장할 수 있다. 예를 들어, 스토리지(123)는 HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, EPROM, 플래시 드라이브, 하드 드라이브, 네트워크를 이용한 클라우드 등과 같은 다양한 저장 공간을 포함할 수 있다.
장치(120)는 인공 지능 모델을 포함할 수 있다. 일 실시예에서, 프로세서, 스토리지(123) 및 스토리지(123)에 저장된 코드의 조합에 의해 인공 지능 모델이 구현될 수 있다. 인공 지능 모델이란, 본 개시에서, 대량의 학습 데이터를 통해 인공 신경망(Artificial Neural Network, ANN)을 포함하는 학습 모델을 학습시켜 인공 신경망 내부의 파라미터를 최적화하고, 학습된 학습 모델을 이용하여 대화 시스템(도시하지 않음)의 동작에 관여하는 모델을 의미할 수 있다. 일 실시예에서 인공 지능 모듈(도시하지 않음)은 MRC(Machine Reading Comprehension)를 통해 학습될 수 있다. 일 실시예에서, 인공 지능 모듈에 사용되는 인공 신경망 모델은 합성곱 신경망(Convolutional Neural Network, CNN), 심층 신경망(Deep Neural Network, DNN), 순환 신경망(Recurrent Neural Network, RNN), 제한적 볼츠만 머신(Restricted Boltzmann Machine, RBM), 심층 신뢰 신경망(Deep Belief Network, DBN), 양방향 순환 신경망(Bidirectional Recurrent Deep Neural Network, BRDNN), 오토인코더(Autoencoder), 변이형 오토 인코더(Variational Auto Encoder, VAE) 또는 심층 Q-네트워크(Deep Q-Networks), 생성적 대립 신경망(Generative Adversarial Network, GAN), 등 중 적어도 어느 하나 또는 이들의 조합과 변형된 모델이 있으나, 전술한 예에 한정되지 않는다. 인공 지능 모듈은 본 개시의 출원 시점에서 웹 검색 등 종래 기술에 의해 구현될 수 있는 모든 인공 지능 신경망에 의해 구현될 수 있다.
도 3은 본 개시의 일 실시예에 따른 은폐/복원 모듈(124)의 블록도이다. 일 실시예에서 은폐/복원 모듈(124)은 데이터(102)를 은폐하는 페이즈 1(Phase 1, 400), 은폐된 데이터(102)를 복원하는 페이즈 2(Phase 2, 700) 및 학습(Training)을 위한 판별기(810, 820)를 포함한다. 이하, 페이즈 1을 은폐 모듈(400), 페이즈 2를 복원 모듈(700) 이라고 명명하고 설명한다. 은폐 모듈(400) 및 복원 모듈(700)은 데이터, 프로세서, 프로세서에 의해 실행되는 명령어, 및 데이터와 명령어를 저장한 저장 매체, 예를 들어 스토리지(123)에 의해 구현될 수 있다.
은폐 모듈(400)은 데이터(102)를 수신하여 캐리어 이미지(104)에 임베딩하여 은페 이미지(108)를 생성하도록 구성된다. 은폐 이미지(108)는 stego image로 도시된다. 복원 모듈(700)은 은폐 이미지(108)을 수신하여, 이로부터 임베딩된 데이터(102')를 복원하도록 구성된다. 은폐 모듈(400) 및 복원 모듈(700)은 쌍으로 구성된 인코더-디코더 구조의 특징 추출기(500)의 일부를 공유할 수 있다. 예를 들어, 은폐 모듈(400)은 인코더-디코더 구조의 특징 추출기(500)의 특징 추출 인코더(510)를, 복원 모듈(700)은 특징 추출기(500)의 특징 추출 디코더(520)를 포함할 수 있다. 은폐 모듈(400) 및 복원 모듈(700)은 쌍으로 구성된 인코더-디코더 구조의 임베더(600)의 일부를 공유할 수 있다. 예를 들어, 은폐 모듈(400)은 인코더-디코더 구조의 임베더(600)의 임베딩 인코더(610)를, 복원 모듈(700)은 임베더(600)의 임베딩 디코더(620)를 포함할 수 있다. 판별기(810, 820)는 은폐 모듈(400) 및/또는 복원 모듈(700)에게 피드백을 제공하여 은폐 모듈(400) 및/또는 복원 모듈(700)을 학습시킨다.
일 실시예에서, 은폐 모듈(400)은 전처리 모듈(410), 채널 분리 모듈(420), 계층 병합 모듈(430), 특징 추출기(500)의 인코더(510), 및 임베더(600)의 임베딩 인코더(610)를 포함할 수 있다. 은폐 모듈(400)은 데이터(102)를 수신하여 캐리어 이미지(104)에 임베딩하여 은페 이미지(108)를 생성하도록 구성된다.
일 실시예에서, 오디오 데이터를 캐리어 이미지(104)에 임베딩하여 은폐 이미지(108)를 생성할 수 있다. 오디오 데이터를 복수의 연속된 이미지, 예를 들어, 비디오 데이터의 프레임에 임베딩할 수 있다. 즉, 오디오 데이터를 비디오 데이터에 은폐하는 것이 가능하다. 예를 들어, 1280X720의 해상도를 갖는 이미지에 30초 길이의 오디오 데이터를 은폐할 수 있다. 1초에 30프레임을 갖는 비디오 데이터(30 FPS)를 고려하면, 1초에 15분 길이의, 1분에 15시간의 오디오 데이터를 은폐할 수 있다.
일 실시예에서, 오디오 데이터가 특정 시간(예를 들어 30초 이상인 경우, 30초 단위)을 초과하는 경우 상기 특정 시간 단위로 오디오 데이터를 분할하여 분할된 각 오디오 데이터를 하나의 캐리어 이미지에 은폐할 수 있다. 이를 반복하여 복수의 은폐 이미지 프레임을 생성하여 비디오 데이터에 오디오 데이터를 은폐할 수 있다. 이 경우, 오디오 데이터의 길이를 먼저 판단하고, 오디오 데이터가 특정 시간을 초과하는지 여부에 따라 오디오 이미지를 분할할 수 있다.
다른 실시예에서, 오디오 데이터를 먼저 멜 스펙트로그램으로 변환하고, 변환된 멜 스펙트로그램의 길이에 기초하여, 복수의 캐리어 이미지에 멜 스펙트로그램을 은폐할 것인지 결정할 수 있다.
전처리 모듈(410)은 오디오 데이터를 수신하여 인코더(510)에 입력할 데이터를 생성하도록 구성된다. 일 실시예에서, 전처리 모듈(410)은 오디오 데이터를 수신하고, 수신한 오디오 데이터를 멜 스펙트로그램으로 변환하고(Wave-to-Mel), 멜 스펙트로그램을 슬라이스하고(Slice), 슬라이스된 조각을 패스워드를 이용하여 섞는다(Suffle). 전처리 모듈(410)은 섞은 슬라이스된 조각을 복수개의 배치(batch로 분류하여 인코더(510)에 입력할 데이터를 생성한다. 일 실시예에서, 슬라이스된 조각들로부터 일부를 랜덤하게 선택하여 인코더(510)에 입력할 배치를 생성할 수 있다. 즉, 전처리 모듈(410)은 데이터 차원 변환기, 데이터 변환기라고 명명될 수도 있다. 오디오 데이터, 예를 들어, 파동(wave)을 멜 스펙트로그램(Mel Spectrogram)으로 변환하는 것은 도 4와 함께 보다 자세히 설명할 것이다. 또, 오디오 데이터, 예를 들어, 파동(wave)을 멜 스펙트로그램으로 변환하는 동작(operation)을 수행하는 모듈은 종래의 어떤 모듈을 사용하여서도 구현될 수 있음이 본 분야에서 이해될 것이다.
특징 추출기(500)는 특징 추출 인코더(510), 특징 추출 디코더(520) 및 그 사이의 잠재 공간을 포함할 수 있다. 특징 추출 인코더(510)는 수신한 배치들로부터 특징을 추출하도록 구성된다. 일 실시예에서, 특징 추출 인코더(510)는 각 배치에 대응하는 잠재 벡터(latent vector)를 추출 또는 생성할 수 있다. 복수개의 조각을 포함하는 배치들 각각을 잠재 벡터에 대응시키는 것에 의해 특징 추출 인코더(510)는 배치의 차원을 감소시킬 수 있다. 도 4에 도시한 것과 같이, 잠재 벡터는 배치의 잠재 표현(잠재 공간)으로 나타날 수 있다. 예를 들어, 잠재 공간은 잠재 벡터의 세트일 수 있다. 각 잠재 벡터는 특정 벡터에 대응될 수 있다. 잠재 벡터의 수는 배치의 수와 동일 할 수 있다. 특징 추출기(500)의 특징 추출 인코더(510)는 배치로부터 잠재 벡터를 구하도록 학습된다. 일 실시예에서, 특징 추출 인코더(510)는 컨볼루션 계층(convolution layer)들을 포함할 수 있다. 예를 들어, 특징 추출 인코더(510)는 컨볼루션 계층을 통해 배치의 특징을 추출하고 잠재 벡터를 생성할 수 있다. 특징 추출 디코더(520)는 잠재 벡터로부터 배치를 생성하도록 학습될 수 있다.
일 실시예에서, 특징 추출기(500)는 오토 인코더 또는 변이형 오토 인코더, 이들을 변형시킨 구조를 가질 수 있다.
채널 분리 모듈(420)은 캐리어 이미지(104)를 수신하고, 이를 복수의 계층, 예를 들어 R, G, B 계층(채널)으로 분리하도록 구성될 수 있다. R, G, B의 계층으로의 분리는 일 예이며, 다양한 계층으로 분리가 가능하다. 계층 병합 모듈(430)은 복수의 계층, 예를 들어 잠재 벡터가 임베딩된 계층들을 병합하여 은폐 이미지(430)를 생성하도록 구성될 수 있다. 채널 분리 모듈(420) 및 계층 병합 모듈(430)은 하나의 모듈로 구현될 수 있고, 동일 또는 유사한 로직을 이용할 수 있다.
일 실시예에서, 캐리어 이미지는 복수의 다른 계층으로 분리되고, 분리의 기준은 사용자가 다양하게 설정할 수 있다. 이하, R, G, B 계층으로 분리하여 이를 이용하는 것을 예로 들어 설명한다. 일 실시예에서, 복수의 캐리어 이미지를 사용하여 각각의 캐리어 이미지에 잠재 벡터를 임베딩할 수 있다.
임베더(600)는 인코더-디코더 구조를 가질 수 있다. 일 실시예에서, 임베더(600)는 임베딩 인코더(610), 임베딩 디코더(620) 및 그 사이의 3차원 매트릭스를 포함할 수 있다. 임베딩 인코더(610), 임베딩 디코더(620) 각각은 컨볼루션 계층을 포함할 수 있다. 3차원 매트릭스는 잠재 매트릭스를 포함할 수 있다. 3차원 매트릭스는 캐리어 이미지(104)와 동일한 크기 또는 해상도일 수 있다. 임베더(600)의 임베딩 인코더(610)는 캐리어 이미지(104)에 잠재 벡터를 임베딩하여 임베딩된 계층을 생성하도록 구성될 수 있다. 일 실시예로, 임베딩 인코더(510)는 픽셀 와이즈(pixel-wise) 임베딩을 수행할 수 있다. 하나의 픽셀은 R, G, B(예를 들어, R=11011101, G=10010110, B=10010101)로 나누어질 수 있고, 컬러 이미지는 R, G, B 계층으로 분리 가능하다. 이 경우, R, G, B 계층 각각의 픽셀은 R, G, B만을 위한 픽셀이고, 이러한 픽셀은 대응하는 디지털 데이터가 존재한다. 각각을 이용하여 잠재 벡터를 임베딩 할 수 있다. 예를 들어, 임베딩 인코더(610)는 캐리어 이미지(104)로부터 분리된 R, G, B 계층을 수신하고 또한 특징 추출 인코더(510)로부터 잠재 벡터들을 수신한다. 임베딩 인코더(610)는 캐리어 이미지(104)로부터 분리된 R, G, B 계층에 잠재 벡터들을 임베딩한다. 예를 들어, 임베딩 인코더(610)는 R, G, B 계층의 각각에 모든 잠재 벡터들을 임베딩하거나, R, G, B 계층에 잠재 벡터를 분산하여 임베딩할 수 있다. 3차원 매트릭스는 잠재 벡터가 임베딩된 R, G, B 계층에 대응될 수 있다. 임베딩 인코더(610)는 R, G, B 계층에 잠재 벡터를 임베딩하도록 학습될 수 있다. 잠재 벡터를 계층에 임베딩하는 기술은 선행 문헌에 개시된 방법뿐 아니라, 현재 알려진 스테가노그래피(steganography)의 임베딩 기법을 이용하여 수행될 수 있다.
계층 병합 모듈(430)은 잠재 벡터가 임베딩된 R, G, B 계층을 병합하여 은폐 이미지(108)을 생성하도록 구성된다.
캐리어 이미지(104)와 은폐 이미지(108)는 판별기들(810, 820)에 입력된다. 판별기(810, 820)는 입력받은 이미지들이 진짜인지 가짜인지 판별하도록 구성되고 학습된다. 일 실시예에서, 은폐 모듈(400)과 판별기(810, 820)는 생성적 대립 신경망(Generative Adversarial Network, GAN), GAN을 변형/응용한 신경망(예를 들어, style GAN, Conditional GAN, Cycle GAN, Deep Convolution GAN, ExGAN, 등) 또는 이의 적어도 일부를 포함하거나 응용하여 구성될 수 있다. 즉, 은폐 모듈(400)과 판별기(810, 820)는 경쟁하면서 실제와 가까운 이미지를 생성하는 신경망일 수 있다. GAN은 입력(예를 들어, 이미지, 노이즈, 벡터 등)을 수신하여 이로부터 데이터를 생성하는 생성기와 생성기로부터 입력된 데이터를 구분하는 판별기를 포함한다. 생성기는 가짜 예제를 만들어 판별모델을 최대한 속일 수 있도록 학습된다. 판별기들(810, 820)는 가짜 예제와 실제 예제를 최대한 정확하게 구분할 수 있도록 학습된다. 판별기들(810, 820)에 대한 자세한 설명은 후술한다.
복원 모듈(700)은 은폐 이미지(108)를 수신하여 은폐 이미지(108)로부터 복원된 데이터(102')를 생성하도록 구성된다. 일 실시예에서, 복원 모듈(700)은 후처리 모듈(710), 임베딩 디코더(620), 및 특징 추출 디코더(520)를 포함할 수 있다.
임베딩 디코더(620)는 은폐 이미지(108)를 잠재 벡터들과 추출된 캐리어 이미지(104')로 분리하도록 구성된다. 임베딩 디코더(620)는 임베딩 인코더(610)오 쌍(pair)를 구성하고 학습 과정을 공유할 수 있다. 추출된 캐리어 이미지(104')는 복원 데이터(102')를 복원하는데 이용되지 않을 수 있다.
특징 추출 디코더(520)는 추출된 잠재 벡터들을 수신하고 이로부터 슬라이스된 조각들의 배치를 예측하도록 구성된다. 특징 추출 디코더(520)는 특징 추출 인코더(510)과 쌍을 구성하고 학습과정을 공유할 수 있다.
후처리 모듈(710)은 전처리 모듈(410)의 역(reverse) 모델일 수 있다. 후처리 모듈(710)은 특징 추출 디코더(520)가 예측한 배치들을 평탄화(flatten)하여 뒤섞인 슬라이스된 조각들을 예측하고, 패스워드(106)를 이용하여 슬라이스된 조각들로부터 멜 스펙트로그램의 시퀀스를 획득하도록 구성된다. 후처리 모듈(710)은 슬라이스된 조각들의 시퀀스를 병합하여 멜 스펙트로그램을 복원하고, 복원된 멜 스펙트로그램을 오디오 데이터로 변환하여 복원된 오디오 데이터(102')를 생성하도록 구성된다. 멜 스펙트로그램을 오디오 데이터로로 변환하는 것은 추후 보다 자세히 설명할 것이다. 멜 스펙트로그램을 오디오 데이터로로 변환하는 동작을 수행하는 모듈은 종래의 어떤 모듈을 사용하여서도 구현될 수 있음이 본 분야에서 이해될 것이다. 후처리 모듈(710) 역시 데이터 변환기, 데이터 차원 변환기 등으로 명명될 수 있다.
일 실시예에서, 특징 추출기(400) 및 임베더(600)는 인공 지능 모델에 의해 구현될 수 있다.
데이터 은폐/복원 방법
도 4는 본 개시의 일 실시예에 따른 데이터를 이미지에 은폐하는 전처리를 보여주는 개념도이다. 도 5는 본 개시의 일 실시예에 따른 데이터를 은폐하여 은폐 이미지(108)를 생성하는 개념도이다. 도 4 및 5에 도시된 방법은 장치(120)에 의해 수행될 수 있다. 또, 도 4 및 5의 방법은 스토리지에 저장된 명령어들이 프로세서에 의해 실행되는 것에 의해 수행될 수 있다.
도 4을 참조하면, 블록 S405에서 장치(102)는 오디오 데이터(102)를 멜 스펙트로그램으로 변환한다. 일 실시예에서, 푸리에 변환(fourier transform, FT)을 통해 원시 오디오 데이터(raw audio data)를 스펙트럼으로 변환하고, 이를 다시 멜 스펙트로그램으로 변환할 수 있다. 푸리에 변환 대신 고속 푸리에 변환(Fast FT), 짧은 고속 푸리에 변환(short FFT), 웨이블릿 변환을 이용할 수 있다. 오디오 데이터를 멜 스펙트로그램으로 변환하는 방법은 본 분야에 잘 알려진 기술이므로 더 자세한 설명은 생략한다.
블록 S410에서, 스펙트로그램을 슬라이스하여 복수의 청크(chunk)를 생성한다. 청크의 개수는 사용자에 의해 정해질 수 있다. 블록 S415에서, 슬라이스된 청크를 일정 규칙에 따라 셔플(shuffle)한다.
일 실시예에서, 일정 규칙은 다음과 같이 정해질 수 있다. 블록 S412에서, 패스워드(예를 들어, 일정 문자열)을 ASCII 표를 이용하여 10진수의 시퀀스(decimal sequence)로 매핑한다. 블록 S414에서, 10진수의 시퀀스로부터 시드 수(seed number)를 추출한다. 시드 수를 선택하는 것은 어떤 규칙으로도 가능하다. 예를 들어, 패스워드로 password를 사용하는 경우, 10진수의 시퀀스는 112 97 115 115 119 111 114 100이다. 패스워드의 길이가 8이므로, 10진수 시퀀스에서 8개의 번호를 뒤에서부터 선택하면 112 97 115 115 119 111 114 100에서 11 114 110이고, 시드(seed)는 시퀀스의 나머지에서 선택된 수를 뺀 값의 절대값으로 정의될 수 있다. 즉 시드는 112 97 115 115 119 1 - 11 114 100, 즉 112,971,140,037,091이 된다. 이는 아주 간단한 예시이다. 블록 S412에서 사용한 패스워드는 은폐 이미지(108)을 수신하고 데이터(102')를 추출할 사용자에게 전달됨이 이해될 것이다.
블록 S415에서 시드를 이용하여 슬라이스된 청크를 셔플한다. 예를 들어,셔플 함수를 이용하여 슬라이스된 청크를 셔플할 수 있다. 이에 따라, 셔플된 시퀀스를 획득한다. 블록 S420에서, 셔플된 청크를 그룹핑하여 복수의 배치(batch)를 생성한다. 하나의 배치는 복수의 청크를 포함한다. 일 실시예에서, 배치는 복수의 슬라이스된 청크의 그룹을 의미할 수 있다. 이에 따라 하나의 배치는 가로(width) × 세로(height) × 청크의 수의 차원을 가질 수 있다. 이러한 높은 차원의 입력을 잠재 벡터로 임베딩하여 은폐의 질을 향상시킬 수 있다. 차원은 배치에 포함된 청크의 수에 의해 증가하지만 특징 추출 인코더(510)에 입력될 입력의 수가 감소될 수 있다.
블록 S425에서 특징 추출 인코더(510)는 배치들을 잠재 벡터로 인코딩(또는 임베딩)한다. 많은 청크로 슬라이스된 멜 스펙트로그램은 배치로 그룹핑되어 특징 추출 인코더(510)에 입력될 입력의 수는 단순히 청크로 나누어진 것에 비하여 감소한다. 그러나, 각 배치는 복수의 청크를 포함하기 때문에 입력의 차원은 증가된다. 따라서, 블록 S425에서 특징 추출 인코더(510)는 배치들로부터 잠재 벡터를 추출하여 배치의 차원을 감소시킨다. 특징 추출 인코더(510)는 복수의 배치들을 평행하게(in parallel) 수신한다. 블록 S425에서 수행되지는 않으나, 특징 추출 인코더(510)는 컨볼루션 계층을 사용하고 학습에 의해 배치들을 잠재 벡터로 인코딩하는 것을 학습한다. 특징 추출 인코더(510)는 배치의 차원을 감소시키고 잠재 벡터를 추출한다. 각 벡터는 특정 배치에 대응된다. 일 실시예에서 입력된 배치의 수와 출력된 잠재 벡터의 수는 동일 할 수 있다. 도 4에 도시된 것과 같이, 잠재 벡터는 잠재 공간으로 표현될 수 있다.
출력된 잠재 벡터는 블록 S505으로 입력된다.
도 5를 참조하면, 블록 S502에서, 캐리어 이미지(104)를 복수의 채널(계층)로 분리한다. 일 실시예에서, 캐리어 이미지(104)는 R, G, B 계층으로 분리될 수 있다. 일 실시예에서, 복수의 캐리어 이미지(104)를 사용하거나, 캐리어 이미지(104)를 R, G, B가 아닌 다른 계층으로 분리할 수 있다.
블록 S505에서 임베더(600)는 잠재 벡터와 분리된 계층, 예를 들어 R, G, B 계층을 수신하고, 잠재 벡터를 분리된 계층에 임베딩한다.
일 실시예에서, 선택된 계층에 잠재 벡터 모두가 평행하게 임베딩될 수 있다.
일 실시예에서, 복수의 분리된 계층 각각에 잠재 벡터 모두가 평행하게 임베딩될 수 있다.
일 실시예에서, 잠재 벡터는 복수의 그룹으로 분할되고, 각 그룹이 복수의 분리된 계층 각각에 임베딩 될 수 있다. 이 때, 잠재 벡터가 분할된 그룹의 수와 복수의 분리된 계층의 수는 동일 할 수 있다. 예를 들어 총 잠재 벡터의 수가 3000개이고, R, G, B 계층에 임베딩한다고 가정하면, 잠재 벡터를 3개의 그룹으로 분할한다. 이때 각 그룹에 포함된 벡터의 수는 동일하거나 상이할 수 있다. 즉 3개의 잠재 벡터 그룹이 각각 1000개의 잠재 벡터를 포함하거나, 800, 1000, 1200의 잠재벡터를 포함할 수 있다. 이러한 숫자는 예시일 뿐, 실제로는 다양하게 변형 가능함이 이해될 것이다. 분할된 하나의 잠재 벡터 그룹이 R, G, B 계층 중 하나의 계층에 임베딩될 수 있다. 따라서, 각 계층에는 유사하지 않은 벡터들이 임베딩될 수 있다.
일 실시예에서, 잠재 벡터는 복수의 그룹으로 분할되고, 각 그룹이 복수의 분리된 계층 각각에 임베딩 될 수 있다. 이 때, 잠재 벡터가 분할된 그룹의 수와 복수의 분리된 계층의 수는 상이할 수 있다. 예를 들어, 잠재 벡터는 2개의 그룹으로 분할되고 캐리어 이미지(104)가 분리된 계층이 3개라고 가정하면, 잠재 벡터의 2개의 그룹은 3개의 분리된 계층 중 선택된 2개의 계층에 임베딩될 수 있다. 예를 들어, 잠재 벡터의 2개의 그룹이 선택된 2개의 분리된 계층 각각에 임베딩되거나, 잠재 벡터의 2개의 그룹 중 하나는 선택된 2개의 계층의 하나에, 잠재 벡터의 2개의 그룹 중 다른 하나는 선택된 2개의 계층의 다른 하나에 임베딩될 수 있다.
일 실시예에서, 복수의 캐리어 이미지를 사용하여 데이터를 비디오 데이터에 은폐하는 것이 가능하다. 동영상은 복수의 이미지 프레임을 연속적으로 재생하는 것이기 때문이다. 예를 들어, 1초에 30장의 프레임(30 FPS)의 동영상 데이터에 데이터를 은폐하는 것은 복수의 캐리어 이미지가 연속된 프레임에 해당한다고 이해될 수 있다. 본 실시예에서, 잠재 벡터를 복수개의 그룹으로 나누고, 하나의 그룹을 하나의 캐리어 이미지에 임베딩할 수 있다.
임베더(600)는 잠재 벡터를 분리된 계층에 임베딩하여 출력한다. 일 실시예에서 임베더(600)의 출력은 캐리어 이미지(104)의 해상도와 동일할 수 있다. 임베더(600)의 출력은 입력된 분리된 계층 각각에 잠재 벡터가 임베딩된 계층일 수 있다. 예를 들어, 임베더(600)는 잠재 벡터가 임베딩된 R, G, B 계층을 출력할 수 있다.
블록 S510에서 잠재 벡터가 임베딩된 계층들이 병합된다. 예를 들어, 잠재 벡터가 임베딩된 R, G, B 계층이 병합되어 은폐 이미지(108)가 생성된다.
학습 단계에서, 캐리어 이미지(104)와 은폐 이미지(108)는 각각의 판별기에 입력된다. 판별기에 대해서는 후술한다.
도 6는 본 개시의 일 실시예에 따른 은폐 이미지(108)로부터 데이터(102')를 복원하는 개념도이다. 은폐 이미지(108)로부터 데이터(102')를 복원하는 방법은 데이터(102)를 은폐 이미지(108)에 은폐하는 방법의 역 순으로 수행될 수 있다.
도 6을 참조하면, 블록 S605에서 은폐 이미지(108)를 수신한 임베더 디코더(620)는 은폐 이미지(108)로부터 잠재 벡터와 계층을 분리한다. 이를 재구성(reconstruction)으로 부를 수 있다. 임베더 디코더(620)는 임베딩 인코더(610)와 쌍(pair)을 이루며 함께 학습될 수 있다. 분리된 계층을 이용하여 캐리어 이미지(104)를 재구성할 수 있으나, 재구성된 캐리어 이미지는 데이터(102')의 복원을 위해 필요한 것은 아니다. 재구성된 캐리어 이미지는
블록 S610에서, 특징 추출기(500)의 특징 추출 디코더(520)는 잠재 벡터를 수신하고 잠재 벡터로부터 배치를 추출(또는 예측)한다. 블록 S615에서 배치들을 평탄화(flatten)하여 멜 스펙트로그램의 시퀀스를 획득한다. 얻어진 시퀀스는 복수의 청크들이 랜덤하게 뒤섞인 상태일 수 있다. 즉, 얻어진 시퀀스는 블록 S415에서의 시퀀스와 실질적으로 동일하다.
블록 S612에서, 패스워드(예를 들어, 일정 문자열)를 ASCII 표를 이용하여 10진수의 시퀀스(decimal sequence)로 매핑한다. 블록 S614에서, 10진수의 시퀀스로부터 시드 수(seed number)를 추출한다. 블록 S612 및 S614는 블록 S412 및 S414와 실질적으로 동일한 방법을 이용할 수 있다. 즉, 블록 S415에서 사용되는 이용하여 블록 S415에서 사용되는 시드를 얻는 것과 유사하다. 블록 S612 및 S614에서, 블록 S412에서 사용한 패스워드를 이용하여 시드를 얻는다.
블록 S620에서, 시드를 이용하여 랜덤하게 뒤섞인 청크 - 시퀀스-를 블록 S410의 시퀀스로 복원한다. 이를 역 셔플 단계라고 부를 수 있다. 블록 S620에서 획득한 시퀀스는 복수의 청크들이 S405의 멜 스펙트로그램을 형성할 수 있는 순서대로 나열된 시퀀스로 이해될 것이다. 블록 S625에서 블록 S620에서 얻어진 청크들의 시퀀스를 병합하여 하나의 멜 스펙트로그램을 획득한다. 블록 S625에서 얻어진 멜 스펙트로그램은 블록 S630에서 서 얻어진 멜 스펙트로그램과 실질적으로 동일(또는 95% 이상 일치)할 수 있다. 블록 S630에서, 멜 스펙트로그램을 오디오 데이터(102')로 복원한다. 블록 S630에서 사용하는 변환 방법/모델은 블록 S630에서 사용된 변환 방법/모델과 실질적으로 동일할 수 있다. 이에 따라, 송신하고자 하는 데이터(102)와 실질적으로 동일 또는 95%이상 일치한 데이터(102')를 복원할 수 있다.
판별기
도 7은 본 개시의 일 실시예에 따른 신경망을 학습시키는 판별기(810)의 개념도이다. 도 8은 본 개시의 일 실시예에 따른 신경망을 학습시키는 판별기(820)의 개념도이다. 도 9는 본 개시의 일 실시예에 따른 판별기(820)의 일부를 설명하는 개념도이다.
도 3을 다시 참조하면, 글로벌 판별기(810)와 로컬 판별기(820)를 사용하여 임베더(600)를 학습시킬 수 있다. 또, 도 7을 참조하면, 은폐 이미지(108)이 리-사이즈(resize) 및 압축과 같은 후 처리 공격에 덜 민감하도록, 글로벌 판별기(810)를 이용하여 임베더(600)를 학습시킬 수 있다. 도 8을 참조하면, 적대적 변화(adversarial perturbation)를 통해 노이즈를 이용하여 은폐 이미지(108)에 숨겨진 픽셀 값들의 분포를 검출하고 이를 이용하여 은폐된 데이터를 검출하는 공격에 대응하기 위해 로컬 판별기(820)를 이용하여 임베더(600)를 학습시킬 수 있다. 또, 글로벌 판별기(810)와 로컬 판별기(820)를 이용하여 은폐 이미지(108)로부터 재구성된 데이터(102')가 원본 데이터(102)와 높은 정확도로 동일하도록 임베더(600)를 학습시킬 수 있다. 글로벌 판별기(810)와 로컬 판별기(820)는 입력된 이미지가 진짜인지 가짜인지 판별하는 간단한 분류기(classifier)를 포함할 수 있다.
도 7을 참조하면, 글로벌 판별기(810)는 스케일(scale)이 다른 경우 이로부터 입력을 검출하여 입력 이미지가 진짜인지 가짜인지 판별하도록 구성된다. 도 8을 참조하면, 로컬 판별기(820)는 은폐 이미지(108)에서 변화를 감소시켜 입력 이미지가 진짜인지 가짜인지 분류하도록 구성된다. 진짜 이미지는 캐리어 이미지(104)이고 가짜 이미지는 은폐 이미지(108)이다. 임베더(600)는 은폐 이미지(108)가 판별기(810, 820)으로부터 진짜 이미지로 분류되록 학습된다. 즉, 은폐 이미지(108)의 질을 향상시키는 것은 판별기(810, 820)를 혼란시킬 것이고, 이렇게 임베더(600)와 판별기(810, 820)가 경쟁하며 임베더(600)는 더 좋은 가짜 이미지를 생성하도록 학습하고 판별기(810, 820)는 판별 정확도를 높이도록 학습된다.
도 7을 다시 참조하면, 글로벌 판별기(810)는 특징 추출 신경망(812)과 분류기(814)를 포함한다. 특징 추출 신경망(812)은 캐리어 이미지(104)를 진짜 이미지로, 은폐 이미지(108)를 가짜 이미지로 인식하고 입력으로 수신한다. 즉, 진짜 캐리어 이미지와 은폐 이미지를 학습 데이터로 할 수 있다. 일 실시예에서, 특징 추출 신경망(812)은 특징 피라미드 신경망(Feature Pyramid Network, FPN)을 사용할 수 있다. 그러나 본 개시의 특징 추출 신경망(812)이 FPN으로 제한되는 것은 아니며, 이미지로부터 특징을 추출하는 신경망 구조는 어떠한 구조든 채택이 가능하다. 특징 추출 신경망(812)은 각 이미지들을 도 7에 도시된 것과 같이 다운 샘플링과 업 샘플링을 이용하여 특징이 추출할 수 있다. 다운 샘플링은 특징 추출을 위한 컨볼루션 네트워크를 포함하고, 다운 샘플링이 진행될수록 공간 해상도는 감소한다. 고 레벨 구조가 검출될수록 각 계층의 시멘틱 값(sementic value)은 증가한다. 업 샘플링은 더 고 해상도의 계층을 형성한다. 다운 샘플링의 계층과 업 샘플링의 계층은 상호 연결(예를 들어, skip connection)되어 업 샘플링의 지역적 특성을 보강한다. 업 샘플링시 구한 값을 상호 연결을 통해 다운 샘플링에서 구한 값과 합칠 수 있다. FPN은 본 분야의 통상의 기술자에게 자명하므로 더 이상 자세한 설명은 생략한다. 도 7에 도시된 것과 같이, 분류기(814)는 특징 추출 신경망(812)으로부터 해상도가 다른 특징맵의 출력 각각을 수신하여 진짜와 가짜를 분류한다. 글로벌 판별기(810)는 다양한 스케일의 특징맵의 출력에 기초하여 진짜와 가짜를 판별하도록 학습되므로, 글로벌 판별기(810)를 통해 다른 스케일에서의 모든 예측이 정확해질 것임이 이해될 것이다. 따라서, 임베더(600)는 후 처리 공격에 강한 은폐 이미지(108)를 생성할 수 있다. 학습은 글로벌 판별기(810)가 은폐 이미지(108)가 진짜인지 가짜인지 분류하기 어려울 때까지 수행될 수 있다.
도 8을 다시 참조하면, 로컬 판별기(820)의 학습은 다양한 캐리어 이미지(104) 및/또는 은폐 이미지(108)를 이용하여 로컬 판별기(820)가 은폐 이미지(108)가 진짜인지 가짜인지 분류하기 어려울 때까지 수행될 수 있다. 일 실시예에서, 로컬 판별기(820)는 특징 추출 신경망(822) 및 분류기(824)를 포함할 수 있다. 특 로컬 판별기(820)는 Saak Transform을 이용하여 적대적 공격에 대항하도록 구성된다. Saak Transform은 선행 문헌에 설명되어 있으므로, 간단히 설명한다.
도 9를 참조하면, Saak Transform은 공간 및 스펙트럼의 차원(spatial and spectral dimension)을 구성하는 3차원 입방체(cuboid)상에 정의된 함수를 1차원의 벡터(예를 들어, 1차원 스펙트럼 벡터)로 매핑하는 것을 정의할 수 있다. Saak Transform은 공간적 변이(spatial variant)를 스펙트럼 변이(spectral variation)으로 변환하고, 역 Saak Transform은 스펙트럼 변이를 공간적 변이로 변환할 수 있다.
Saak Transform 및 역 Saak Transform은 신호 분석 및 합성 툴을 제공할 수 있다. Saak Transform은 입력 벡터의 공분산 함수(covariance function)를 사용하여 최적화된 선형 서브 스페이스 근사(linear-subspace approximation)를 만들고, 각 transform kernel을 음(negative)로 증강시키고, 활성화 함수(예를 들어, ReLU)를 출력에 적용한다. 이를 통해 오차를 줄이고 사인 혼동 문제(sign-confusion problem)를 해결한다. Saak Transform을 통해 비지도 학습을 수행할 수 있다. Saak Transform에 의해 추출된 특징은 각기 다른 이미지로부터 독특한 구조를 찾아낼 수 있다. 즉 동일 분류에 속하는 이미지에 걸쳐 일정한 위치에 대해 독특한 구조를 찾을 수 있기 때문에, , Saak Kernel이 높은 반응을 보이는 경우, Saak Kernel로부터 추출된 계수는 독특한 특징으로 간주될 것이다. 따라서, 로컬 판별기(820)는 이미지로부터 변화된 노이즈를 필터링할 수 있다.
도 10은 본 개시의 일 실시예에 따른 배치의 변형예이다. 복수개의 청크를 그룹핑하는 대신, 도 10의 우측에 도시된 것과 같이 복수개의 청크에 기초하여 하나의 재구성된 이미지를 생성할 수 있다. 즉 하나의 배치를 하나의 이미지로 대신 사용할 수 있다. 이에 따르면, 셔플된 청크들이 복수의 재구성된 이미지로 변형될 수 있다. 다른 실시예에서, 복수개의 재구성된 이미지를 하나의 이미지로 재구성될 수도 있다.
일 실시예에 따르면, 블록 S425에서 복수의 재구성된 이미지를 배치대신 입력으로 사용할 수 있다.
일 실시예에 따르면, 복수의 재구성된 이미지를 하나의 캐리어 이미지 또는 복수의 캐리어 이미지에 임베딩할 수 있다. 이 경우, 잠재 벡터를 추출하지 않고 바로 캐리어 이미지에 임베딩하는 것이 고려될 수 있다.
일 실시예에 따르면, 하나의 재구성된 이미지를 하나의 캐리어 이미지 또는 복수의 캐리어 이미지에 임베딩할 수 있다. 이 경우, 잠재 벡터를 추출하지 않고 바로 캐리어 이미지에 임베딩하는 것이 고려될 수 있다.
이상에서 설명된 장치 및 방법은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록매체에 저장될 수 있다.
본 개시의 설명된 실시예들은 또한 어떤 태스크들이 통신 네트워크를 통해 연결되어 있는 원격 처리 장치들에 의해 수행되는 분산 컴퓨팅 환경에서 실시될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 로컬 및 원격 메모리 저장 장치 둘 다에 위치할 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 해당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
컴퓨팅 장치는 유선 및/또는 무선 통신을 통한 원격 컴퓨터(들) 등의 하나 이상의 원격 컴퓨터로의 논리적 연결을 사용하여 네트워크화된 환경에서 동작할 수 있다. 원격 컴퓨터(들)는 워크스테이션, 서버컴퓨터, 라우터, 퍼스널 컴퓨터, 휴대용 컴퓨터, 마이크로프로세서-기반 오락 기기, 피어 장치 또는 기타 통상의 네트워크 노드일 수 있으며, 일반적으로 컴퓨팅 장치에 대해 기술된 구성요소들 중 다수 또는 그 전부를 포함한다. 논리적 연결은 근거리 통신망(LAN) 및/또는 더 큰 네트워크, 예를 들어, 원거리 통신망(WAN)에의 유선/무선 연결을 포함한다. 이러한 LAN 및 WAN 네트워킹 환경은 사무실 및 회사에서 일반적인 것이며, 인트라넷 등의 전사적 컴퓨터 네트워크(enterprise-wide computer network)를 용이하게 해주며, 이들 모두는 전세계 컴퓨터 네트워크, 예를 들어, 인터넷에 연결될 수 있다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
102: 데이터 102': 복원 데이터
104: 캐리어 이미지 106: 패스워드
108: 은폐 이미지 110: 네트워크
120: 프레임워크 400: 은폐 모듈
410: 전처리 모듈 420: 채널 분리 모듈
430: 계층 병합 모듈 500: 특징 추출기
510: 특징 추출 인코더 520: 특징 추출 디코더
600: 임베더 610: 임베더 인코더
620: 임베더 디코더 700: 복원 모듈
810, 820: 판별기

Claims (16)

  1. 오디오 데이터를 이미지 데이터로 변환하는 단계;
    상기 이미지 데이터에 대응하는 이미지를 조각내어 복수의 청크를 생성하는 단계;
    상기 복수의 청크를 패스워드를 이용하여 임의로 그룹핑하여 복수의 그룹을 생성하는 단계;
    상기 복수의 그룹의 각 그룹에 해당하는 잠재 벡터를 생성하는 단계; 및
    상기 잠재 벡터를 캐리어 이미지에 임베딩하여 은폐 이미지를 생성하는 단계를 포함하고,
    상기 복수의 청크를 패스워드를 이용하여 임의로 그룹핑하여 복수의 그룹을 생성하는 단계는,
    상기 패스워드를 이용하여 상기 복수의 청크를 셔플하는 단계; 및
    상기 셔플된 청크들을 임의로 선택하여 그룹핑하는 단계를 포함하는,
    오디오 데이터를 이미지에 은폐하는 방법.
  2. 제1항에 있어서,
    상기 복수의 그룹 각각은 상기 복수의 그룹핑된 청크들의 배치(batch)인
    오디오 데이터를 이미지에 은폐하는 방법.
  3. 제1항에 있어서,
    상기 복수의 그룹 각각은 상기 그룹핑된 청크들로부터 재구성된 이미지를 포함하는,
    오디오 데이터를 이미지에 은폐하는 방법.
  4. 제1항에 있어서,
    상기 복수의 그룹의 각 그룹에 해당하는 잠재 벡터를 생성하는 단계는,
    컨볼루션 계층을 포함하는 인코더에 상기 복수의 그룹을 평행하게(in parallel) 입력하여 상기 잠재 벡터를 생성하는 단계를 포함하는
    오디오 데이터를 이미지에 은폐하는 방법.
  5. 제1항에 있어서,
    상기 잠재 벡터를 캐리어 이미지에 임베딩하여 은폐 이미지를 생성하는 단계는
    상기 캐리어 이미지를 복수의 계층으로 분리하는 단계;
    상기 복수의 계층에 상기 잠재 벡터를 임베딩하여 상기 잠재 벡터가 임베딩된 복수의 계층을 생성하는 단계; 및
    상기 잠재 벡터가 임베딩된 복수의 계층을 병합하여 은폐 이미지를 생성하는 단계를 포함하는
    오디오 데이터를 이미지에 은폐하는 방법.
  6. 제1항에 있어서,
    상기 복수의 그룹의 각 그룹에 해당하는 잠재 벡터를 생성하는 단계는,
    상기 잠재 벡터의 수와 상기 그룹의 수가 동일하게 생성하는 단계를 포함하는
    오디오 데이터를 이미지에 은폐하는 방법.
  7. 제1항에 있어서,
    상기 잠재 벡터를 캐리어 이미지에 임베딩하여 은폐 이미지를 생성하는 단계는,
    상기 캐리어 이미지를 해상도(resolution)를 유지하며 복수의 계층으로 분리하는 단계;
    상기 복수의 계층에 상기 잠재 벡터를 임베딩하여 상기 잠재 벡터가 임베딩된 복수의 계층을 생성하는 단계 -상기 잠재 벡터가 임베딩된 복수의 계층의 해상도는 상기 캐리어 이미지와 동일함-; 및
    상기 잠재 벡터가 임베딩된 복수의 계층을 병합하여 은폐 이미지를 생성하는 단계를 포함하는
    오디오 데이터를 이미지에 은폐하는 방법.
  8. 제1항에 있어서,
    상기 잠재 벡터를 캐리어 이미지에 임베딩하여 은폐 이미지를 생성하는 단계는,
    상기 캐리어 이미지를 복수의 계층으로 분리하는 단계;
    상기 복수의 계층에 각각에 상기 잠재 벡터 모두를 임베딩하여 상기 잠재 벡터가 임베딩된 복수의 계층을 생성하는 단계; 및
    상기 잠재 벡터가 임베딩된 복수의 계층을 병합하여 은폐 이미지를 생성하는 단계를 포함하는
    오디오 데이터를 이미지에 은폐하는 방법.
  9. 제1항에 있어서,
    상기 잠재 벡터를 캐리어 이미지에 임베딩하여 은폐 이미지를 생성하는 단계는,
    상기 캐리어 이미지를 복수의 계층으로 분리하는 단계;
    상기 복수의 계층 중 제1 계층에 상기 잠재 벡터의 제1 그룹을 임베딩하고, 상기 복수의 계층 중 제2 계층에 상기 잠재 벡터의 제2 그룹을 임베딩하는 단계; 및
    상기 잠재 벡터가 임베딩된 복수의 계층을 병합하여 은폐 이미지를 생성하는 단계를 포함하는
    오디오 데이터를 이미지에 은폐하는 방법.
  10. 제1항에 있어서,
    상기 복수의 청크를 패스워드를 이용하여 임의로 그룹핑하여 복수의 그룹을 생성하는 단계는
    상기 패스워드를 ASCII 테이블을 이용하여 십진수의 시퀀스로 변환하는 단계;
    상기 십진수의 시퀀스로부터 시드를 추출하는 단계; 및
    상기 시드를 이용하여 상기 복수의 청크를 셔플하는 단계를 포함하는
    오디오 데이터를 이미지에 은폐하는 방법.
  11. 복수의 잠재 벡터가 임베딩된 제1항에 따른 방법으로 생성된 은폐 이미지를 수신하는 단계;
    상기 은폐 이미지로부터 상기 복수의 잠재 벡터를 추출하는 단계;
    상기 복수의 잠재 벡터로부터 각각의 잠재 벡터에 대응하는 그룹을 재구성하는 단계;
    상기 그룹을 패스워드를 이용하여 복수의 청크들의 시퀀스로 복원하는 단계 - 상기 복수의 청크는 이미지 데이터에 대응하는 이미지의 조각임 -;
    상기 복수의 청크의 시퀀스로부터 상기 이미지를 복원하는 단계; 및
    상기 이미지에 대응하는 상기 이미지 데이터를 오디오 데이터로 복원하는 단계를 포함하는
    은폐 이미지로부터 오디오 데이터를 복원하는 방법.
  12. 제11항에 있어서,
    상기 각각의 잠재 벡터에 대응하는 그룹 각각은 복수의 청크를 포함하는 배치(batch)인
    은폐 이미지로부터 오디오 데이터를 복원하는 방법.
  13. 제11항에 있어서,
    상기 각각의 잠재 벡터에 대응하는 그룹 각각은 복수의 청크로부터 재구성된 이미지를 포함하는,
    은폐 이미지로부터 오디오 데이터를 복원하는 방법.
  14. 제11항에 있어서,
    상기 패스워드를 수신하는 단계를 더 포함하고,
    상기 그룹을 패스워드를 이용하여 복수의 청크들의 시퀀스로 복원하는 단계는
    상기 패스워드를 ASCII 테이블을 이용하여 십진수의 시퀀스로 변환하는 단계;
    상기 십진수의 시퀀스로부터 시드를 추출하는 단계; 및
    상기 시드를 이용하여 상기 그룹을 복수의 청크들의 시퀀스로 복원하는 단계를 포함하는
    은폐 이미지로부터 오디오 데이터를 복원하는 방법.
  15. 오디오 데이터를 이미지 데이터로 변환하고, 상기 이미지 데이터를 조각내어 복수의 청크를 생성하고, 상기 복수의 청크를 패스워드를 이용하여 임의로 그룹핑하여 복수의 그룹을 생성도록 구성된 전 처리 모듈; 상기 복수의 그룹을 수신하여, 상기 복수의 그룹 각각에 해당하는 잠재 벡터를 생성하여 출력하도록 구성된 특징 추출 인코더; 및 상기 잠재 벡터를 캐리어 이미지에 임베딩하여 은폐 이미지를 생성하도록 구성된 임베딩 인코더를 포함하는 은폐 모듈; 및
    상기 은폐 이미지를 수신하여 상기 은폐 이미지로부터 상기 잠재 벡터를 추출하는 임베딩 디코더; 상기 추출된 잠재 벡터를 수신하여 상기 추출된 잠재 벡터로부터 상기 복수의 그룹을 재구성하는 특징 추출 디코더; 및 상기 복수의 그룹으로부터 상기 오디오 데이터를 재구성하는 복원 모듈을 포함하는,
    상기 전 처리 모듈은 상기 패스워드를 이용하여 상기 복수의 청크를 셔플하고 상기 셔플된 청크들을 임의로 선택하여 그룹핑하도록 구성된,
    오디오 데이터를 은폐하고 복원하는 장치.
  16. 복수의 캐리어 이미지 각각에 청구항 제1항에 기재된 방법을 반복하여 수행하여 복수의 은폐 이미지를 획득하는 단계 - 상기 복수의 은폐 이미지는 동영상 데이터의 프레임에 해당함 -; 및
    상기 복수의 은폐 이미지에 기초하여 상기 동영상 데이터를 획득하는 단계를 포함하는,
    오디오 데이터를 동영상에 은폐하는 방법.
KR1020210116470A 2021-09-01 2021-09-01 이미지를 이용해 오디오를 전송하는 방법 및 장치 KR102502958B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210116470A KR102502958B1 (ko) 2021-09-01 2021-09-01 이미지를 이용해 오디오를 전송하는 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210116470A KR102502958B1 (ko) 2021-09-01 2021-09-01 이미지를 이용해 오디오를 전송하는 방법 및 장치

Publications (1)

Publication Number Publication Date
KR102502958B1 true KR102502958B1 (ko) 2023-02-24

Family

ID=85330136

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210116470A KR102502958B1 (ko) 2021-09-01 2021-09-01 이미지를 이용해 오디오를 전송하는 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102502958B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110013849A1 (en) * 2009-07-03 2011-01-20 Panasonic Corporation Image encoding device and image decoding device
KR20200061294A (ko) * 2018-11-23 2020-06-02 주식회사 스칼라웍스 머신 러닝을 이용하여 은닉 이미지를 추론하는 방법 및 장치
KR20210078074A (ko) * 2019-12-18 2021-06-28 한국전자통신연구원 잠재 벡터를 이용한 네트워킹 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110013849A1 (en) * 2009-07-03 2011-01-20 Panasonic Corporation Image encoding device and image decoding device
KR20200061294A (ko) * 2018-11-23 2020-06-02 주식회사 스칼라웍스 머신 러닝을 이용하여 은닉 이미지를 추론하는 방법 및 장치
KR20210078074A (ko) * 2019-12-18 2021-06-28 한국전자통신연구원 잠재 벡터를 이용한 네트워킹 방법 및 장치

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A Variant of LSB Steganography for Hiding Images in Audio, Kriti Saroha (International Journal of Computer Applications, December 2010)
Direct Speech-to-Image Translation, Jiguo Li et al. IEEE (Journal of selected topic on signal processing, vol., no., January 2020)
On Data-Driven Saak Transform, C.-C. Jay Kuo et al.
Recent Advances of Image Steganography with Generative Adversarial Networks, Jia Liu et al.

Similar Documents

Publication Publication Date Title
US10652565B1 (en) Image compression and decompression using embeddings
US20190005399A1 (en) Learning device, generation device, learning method, generation method, and non-transitory computer readable storage medium
KR102095097B1 (ko) 생성적 적대 네트워크를 이용한 비디오 시퀀스 생성 시스템 및 그 방법
EP4030381A1 (en) Artificial-intelligence-based image processing method and apparatus, and device and storage medium
CN112598053B (zh) 基于半监督学习的主动显著性目标检测方法
US20220122378A1 (en) Data-driven, photorealistic social face-trait encoding, prediction, and manipulation using deep neural networks
CN110210386B (zh) 用于动作迁移的视频生成方法及神经网络训练方法和装置
US11567461B2 (en) Method and device for controlling a technical system using a control model
CN113435365B (zh) 人脸图像迁移方法及装置
US12033233B2 (en) Image steganography utilizing adversarial perturbations
WO2022205755A1 (zh) 纹理生成方法、装置、设备及存储介质
Fagbohungbe et al. Efficient privacy preserving edge intelligent computing framework for image classification in iot
CN112115490A (zh) 一种基于gan的载体图像合成隐写方法
CN116977463A (zh) 图像处理方法、装置、计算机设备、存储介质及产品
JP7282152B2 (ja) イメージで文字部分を変更する方法、コンピュータ装置、およびコンピュータプログラム
KR102166016B1 (ko) 이미지 대 이미지의 변환을 위한 도메인 인식 기반의 변환 기법
KR20200138079A (ko) 전역적 문맥을 이용하는 기계 학습 기반의 이미지 압축을 위한 방법 및 장치
CN118053090A (zh) 使用潜在扩散模型生成视频
Zheng et al. Steganographer detection based on multiclass dilated residual networks
JP2019061512A (ja) データの特徴を利用してデータを処理するシステム
KR102502958B1 (ko) 이미지를 이용해 오디오를 전송하는 방법 및 장치
JP2023502526A (ja) 敵対的生成器を用いたレート適応ニューラル画像圧縮のための方法及び装置
CN113409803A (zh) 语音信号处理方法、装置、存储介质及设备
KR101957812B1 (ko) 인공지능 영상 분석에 있어 특징 공간을 활용한 부호화 및 복호화를 수행하는 방법 및 이를 이용한 장치
CN116740078A (zh) 图像分割处理方法、装置、设备以及介质

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant