KR102428334B1

KR102428334B1 - 딥러닝 네트워크를 이용한 전자코 가스 데이터 재구성 시스템 및 방법

Info

Publication number: KR102428334B1
Application number: KR1020200026179A
Authority: KR
Inventors: 최상일
Original assignee: 단국대학교 산학협력단
Priority date: 2020-03-02
Filing date: 2020-03-02
Publication date: 2022-08-02
Also published as: KR20210111089A

Abstract

본 발명은 챔버 내부로 유입되는 가스에 의한 반응을 측정하여 손상된 전자코 가스 데이터를 입력받는 가스 데이터 입력부, 상기 입력받은 전자코 가스 데이터의 시멘틱(semantics)을 잠재변수(latent vector)를 이용하여 추출하고, 상기 추출된 시멘틱을 기준으로 상기 입력받은 전자코 가스 데이터를 캡슐화(encapsulate)하여 재구성하는 1차 재구성부를 포함하여 손상된 전자코 가스 데이터를 효과적으로 재구성 및 복원할 수 있는 효과를 가진다.

Description

딥러닝 네트워크를 이용한 전자코 가스 데이터 재구성 시스템 및 방법{E-nose Gas Data Reconstruction System and Method Using Neural Networks}

본 발명은 전자코 가스 데이터 재구성 기술에 관한 것으로, 더욱 상세하게는 손상된 전자코 가스 데이터를 딥러닝 네트워크를 기반으로 재구성하여 복원하는 딥러닝 네트워크를 이용한 전자코 가스 데이터 재구성 시스템 및 방법에 관한 것이다.

전자코(E-nose)는 전자 장치의 일종으로 설계된 것으로, 기기에 장착된 센서를 통해 다른 유형의 가스를 구별 또는 분류한다. 그 중 전자코가 장착된 가스 구별(또는 분류) 시스템은 일반적으로 휘발성 유기 화합물(VOCs: Volatile Organic Compounds)을 분석해왔다.

다만 이러한 초기 전자코 시스템은 가스 크로마토그래피(GC: Gas Chromatography)와 질량 분광계(MS: Mass Spectrometers)와 같은 복잡한 장비를 필요로 한다. 이에 주로 실험실과 같은 고정된 환경에서만 사용 가능하여, 적용에 한계가 있었다.

한편, 전자코 시스템의 컴퓨팅 시스템은 센서 어레이에서 측정한 데이터의 다른 특성을 이용하여 가스 종류를 구분하도록 설계되었으며, 다양한 VOCs(Volatile Organic Compounds)의 이미지 형태로 변환 및 템플릿 매칭을 통해 기체 종류를 효과적으로 분류하였다. 이 때 기능 추출 및 형상 선택 방법과 같은 기계 학습 기법도 휴대용 전자코 시스템의 기체 유형을 분류하는 데에 사용되었다.

처음에는 PCA(주요 성분 분석: Principal Component Analysis) 방법을 사용하여 고차원 전자코 데이터를 저차원 형상공간으로 변환한 다음, LDA(Linear Discriminant Analysis) 방법을 사용하여 기체 분류를 위한 형상을 추출하였다.

이러한 컴퓨팅 시스템에서 사용되는 형상 추출에 관한 대부분의 연구는 전체 데이터셋을 측정하기 위해 수행되었다. 이는 안정화, 노출 및 퍼징(purging)의 세 단계로 구성되는데, 안정화 단계부터 퍼징 단계까지 단일 벡터로 표현된다. 이는 분류를 위한 특징 공간을 통계분석에 근거하여 구성된다.

다만 이러한 전자코 시스템의 경우 전원 공급이나, 센서 결함 등의 문제로 품질 데이터를 수집하는 것이 어려운 한계점을 가지고 있다. 그 이유는 어플리케이션 분야에서 시스템의 실제 운영 환경이 좋지 않은 경우가 많기 때문이다. 이 경우, 특징 추출을 위한 학습 데이터로서 사용되는 데이터의 차이로 인해 프로브 데이터의 분류 성능이 크게 저하될 수 있는 한계점이 존재한다.

이에 전자코 시스템에 있어서, 가스 데이터 측정에 큰 손상이 있을 때에도 기체 유형을 견고하게 분류할 수 있도록 하는 기술을 개발할 필요성이 있다. 특히, 최근 딥러닝 알고리즘에 대한 관심이 높아지고 있는 만큼, 기체 유형 분류의 효율성을 높이고자 학습된 정보를 바탕으로 손상된 데이터를 효과적으로 재구성하는 기술을 개발할 필요성이 있다.

한국등록특허공보 제10-1260728호

이에 본 발명은 상기와 같은 제반 사항을 고려하여 제안된 것으로, 손상된 전자코 가스 데이터를 딥러닝 네트워크에 기반하여 재구성 및 복원함으로써, 가스 유형을 견고하게 분류할 수 있도록 하는 것을 목적으로 한다.

또한, 본 발명은 전자코 가스 데이터의 의미론적인(semantic) 특징을 기반으로 딥러닝 네트워크를 설계함으로써, 전자코 가스 데이터 재구성의 신뢰도를 높이는 것을 목적으로 한다.

본 발명의 목적들은 이상에서 언급한 목적들로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해할 수 있을 것이다.

상기와 같은 목적을 달성하기 위하여 본 발명의 기술적 사상에 의한 딥러닝 네트워크를 이용한 전자코 가스 데이터 재구성 시스템은 챔버 내부로 유입되는 가스에 의한 반응을 측정하여 손상된 전자코 가스 데이터를 입력받는 가스 데이터 입력부, 상기 입력받은 전자코 가스 데이터의 시멘틱(semantics)을 잠재변수(latent vector)를 이용하여 추출하고, 상기 추출된 시멘틱을 기준으로 상기 입력받은 전자코 가스 데이터를 캡슐화(encapsulate)하여 재구성하는 1차 재구성부를 포함할 수 있다.

상기 1차 재구성부는 상기 입력받은 전자코 가스 데이터의 시멘틱(semantics)을 잠재변수(latent vector)를 이용하여 추출하고, 상기 추출된 시멘틱을 기준으로 상기 입력받은 전자코 가스 데이터를 캡슐화(encapsulate)하여 인코딩(encoding)하는 인코딩부, 상기 인코딩된 전자코 가스 데이터를 디코딩(decoding)하여 1차적으로 재구성하는 디코딩부를 포함할 수 있다.

상기 1차 재구성부는 완전 연결층(fully-connected architectural layer)이 적용된 콘볼루션 신경망을 사용하여 설계된 네트워크라 할 수 있다.

상기 1차 재구성부는 상기 디코딩부에 의해 1차적으로 재구성된 전자코 가스 데이터를 2차적으로 재구성하는 추가 재구성부를 더 포함할 수 있다.

상기 추가 재구성부는 상기 디코딩부에 의해 1차적으로 재구성된 전자코 가스 데이터가 정상적인 전자코 가스 데이터로 수렴되도록 학습(training)된 네트워크라 할 수 있다.

상기 디코딩부는 하기 수학식 1 및 수학식 2에 기초하여 상기 인코딩된 전자코 가스 데이터를 디코딩하여 1차적으로 재구성할 수 있다.

<수학식 1>

(

: 변형된 가스벡터,

: 정상적인 가스벡터,

: 노이즈 벡터)

<수학식 2>

}

(

: 노이즈 벡터,

: 균일분포 랜덤변수,

, U: 균일분포(uniform distribution))

상기 추가 재구성부는 하기 수학식 3에 기초하여 상기 디코딩부에 의해 1차적으로 재구성된 전자코 가스 데이터를 2차적으로 재구성할 수 있다.

<수학식 3>

(f(·): 재구성 함수,

: 재구성 함수 f(·)의 파라미터, loss l(·): 가스벡터와 변형된 벡터에서 재구성된 카운터파트(counterpart) 사이의 거리를 모델링한 함수,

: 변형된 가스벡터,

: 정상적인 가스벡터)

상기와 같은 목적을 달성하기 위하여 본 발명의 기술적 사상에 의한 딥러닝 네트워크를 이용한 전자코 가스 데이터 재구성 방법은 가스 데이터 입력부에서 챔버 내부로 유입되는 가스에 의한 반응을 측정하여 손상된 전자코 가스 데이터를 입력받는 가스 데이터 입력단계, 1차 재구성부에서 상기 입력받은 전자코 가스 데이터의 시멘틱(semantics)을 잠재변수(latent vector)를 이용하여 추출하고, 상기 추출된 시멘틱을 기준으로 상기 입력받은 전자코 가스 데이터를 캡슐화(encapsulate)하여 재구성하는 1차 재구성단계를 포함할 수 있다.

상기 1차 재구성단계는 인코딩부에서 상기 입력받은 전자코 가스 데이터의 시멘틱(semantics)을 잠재변수(latent vector)를 이용하여 추출하고, 상기 추출된 시멘틱을 기준으로 상기 입력받은 전자코 가스 데이터를 캡슐화(encapsulate)하여 인코딩(encoding)하는 인코딩단계, 디코딩부에서 상기 인코딩된 전자코 가스 데이터를 디코딩(decoding)하여 1차적으로 재구성하는 디코딩단계를 포함할 수 있다.

상기 1차 재구성단계는 1차 재구성부에서 상기 디코딩단계에 의해 1차적으로 재구성된 전자코 가스 데이터를 2차적으로 재구성하는 추가 재구성단계를 더 포함할 수 있다.

상기 추가 재구성단계는 상기 디코딩단계에 의해 1차적으로 재구성된 전자코 가스 데이터가 정상적인 전자코 가스 데이터로 수렴되도록 학습(training)된 네트워크라 할 수 있다.

상기 디코딩단계는 하기 수학식 1 및 수학식 2에 기초하여 상기 인코딩된 전자코 가스 데이터를 디코딩하여 1차적으로 재구성할 수 있다.

<수학식 1>

(

: 변형된 가스벡터,

: 정상적인 가스벡터,

: 노이즈 벡터)

<수학식 2>

(

: 노이즈 벡터,

: 균일분포 랜덤변수,

, U: 균일분포(uniform distribution))

상기 추가 재구성단계는 하기 수학식 3에 기초하여 상기 디코딩부에 의해 1차적으로 재구성된 전자코 가스 데이터를 2차적으로 재구성할 수 있다.

<수학식 3>

(f(·): 재구성 함수,

: 변형된 가스벡터,

: 정상적인 가스벡터)

이상에서 설명한 바와 같은 딥러닝 네트워크를 이용한 전자코 가스 데이터 재구성 시스템 및 방법에 따르면,

첫째, 손상된 전자코 가스 데이터를 딥러닝 네트워크에 기반하여 재구성 및 복원함으로써, 가스 유형을 견고하게 분류할 수 있는 효과를 가진다.

둘째, 전자코 가스 데이터의 의미론적인(semantic) 특징을 기반으로 딥러닝 네트워크를 설계함으로써, 전자코 가스 데이터 재구성의 신뢰도를 높일 수 있는 효과를 가진다.

도 1은 본 발명의 실시예로서, 딥러닝 네트워크를 이용한 전자코 가스 데이터 재구성 시스템을 나타낸 구성도.
도 2는 본 발명의 실시예로서, 딥러닝 네트워크를 이용한 전자코 가스 데이터 재구성 방법을 나타낸 순서도.
도 3은 본 발명의 실시예로서, 전자코 시스템에서의 데이터 재구성 및 분류 방법에 관한 도면.
도 4는 본 발명의 실시예로서, 에탄올 증기(ethanol vapor)에 대한 16채널 센서 어레이의 일반적인 응답 시간을 나타낸 도면.
도 5는 본 발명의 실시예에 따른 데이터 재구성을 위한 전제 DAE 구조를 나타낸 도면.
도 6은 본 발명의 실시예에 따른 CNN 분류기를 나타낸 도면.
도 7은 본 발명의 실시예로서, 첫 번째 채널에 대한 데이터 샘플을 벡터 형태로 표현한 도면.
도 8은 본 발명의 실시예로서, 데이터 샘플의 분포도를 나타낸 도면.
도 9는 본 발명의 실시예로서, 본 발명에서 제안된 시스템 및 방법과 다른 방법 사이의 분류율을 비교한 도면.

본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다. 본 발명의 특징 및 이점들은 첨부 도면에 의거한 다음의 상세한 설명으로 더욱 명백해질 것이다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 발명자가 그 자신의 발명의 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다. 또한 본 발명과 관련된 공지 기능 및 그 구성에 대한 구체적인 설명은 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그 구체적인 설명을 생략하였음에 유의해야할 것이다.

도 1은 본 발명의 실시예로서, 딥러닝 네트워크를 이용한 전자코 가스 데이터 재구성 시스템을 나타낸 구성도이다.

도 1을 참조하면, 본 발명의 실시예로서의 딥러닝 네트워크를 이용한 전자코 가스 데이터 재구성 시스템은 크게 가스 데이터 입력부(100) 및 1차 재구성부(200)를 포함할 수 있다.

가스 데이터 입력부(100)는 챔버 내부로 유입되는 가스에 의한 반응을 측정하여 손상된 전자코 가스 데이터를 입력받을 수 있다. 이는 본 발명의 최종 목적인 가스 데이터의 분류를 위해, 분류하고자 하는 전자코 가스 데이터를 입력받기 위한 구성요소라 할 수 있다.

1차 재구성부(200)는 상기 가스 데이터 입력부(100)로부터 입력받은 전자코 가스 데이터의 시멘틱(semantics)을 잠재변수(latent vector)를 이용하여 추출하고, 상기 추출된 시멘틱을 기준으로 상기 가스 데이터 입력부(100)로부터 입력받은 전자코 가스 데이터를 캡슐화(encasulate)하여 재구성할 수 있다. 이는 전자코 가스 데이터의 의미론적인(semantic) 특징을 기반으로 딥러닝 네트워클 설계하여 전자코 가스 데이터 재구성의 신뢰도를 높이기 위한 구성요소라 할 수 있다.

1차 재구성부(200)는 완전 연결층(fully-connected architectural layer)이 적용된 콘볼루션 신경망을 사용하여 설계된 네트워크라 할 수 있다.

이 때 1차 재구성부(200)는 인코딩부(210) 및 디코딩부(230)를 포함할 수 있다.

인코딩부(210)는 상기 입력받은 전자코 가스 데이터의 시멘틱(semantics)을 잠재변수(latent vector)를 이용하여 추출하고, 상기 추출된 시멘틱을 기준으로 상기 입력받은 전자코 가스 데이터를 캡슐화(encapsulate)하여 인코딩(encoding)할 수 있다. 이는 전자코 가스 데이터의 의미론적인 특징, 즉 시멘틱(semantics)을 추출하기 위한 구성요소라 할 수 있다.

디코딩부(230)는 상기 인코딩부(210)로부터 인코딩된 전자코 가스 데이터를 디코딩(decoding)하여 1차적으로 재구성할 수 있다.

이 때, 디코딩부(230)는 하기 수학식 1 및 수학식 2에 기초하여 상기 인코딩부(210)로부터 인코딩된 전자코 가스 데이터를 디코딩하여 1차적으로 재구성할 수 있다.

<수학식 1>

(

: 변형된 가스벡터,

: 정상적인 가스벡터,

: 노이즈 벡터)

<수학식 2>

(

: 노이즈 벡터,

: 균일분포 랜덤변수,

, U: 균일분포(uniform distribution))

한편, 1차 재구성부(200)는 상기 디코딩부(230)에 의해 1차적으로 재구성된 전자코 가스 데이터를 2차적으로 재구성하는 추가 재구성부(250)를 더 포함할 수 있다.

추가 재구성부(250)는 상기 디코딩부(230)에 의해 1차적으로 재구성된 전자코 가스 데이터가 정상적인 전자코 가스 데이터로 수렴되도록 학습(training)된 네트워크라 할 수 있다.

이 때 추가 재구성부(250)는 하기 수학식 3에 기초하여 상기 디코딩부(230)에 의해 1차적으로 재구성된 전자코 가스 데이터를 2차적으로 재구성할 수 있다.

<수학식 3>

(f(·): 재구성 함수,

: 변형된 가스벡터,

: 정상적인 가스벡터)

도 2는 본 발명의 실시예로서, 딥러닝 네트워크를 이용한 전자코 가스 데이터 재구성 방법을 나타낸 순서도이다.

도 2를 참조하면, 도 2는 본 발명의 실시예로서의 딥러닝 네트워크를 이용한 전자코 가스 데이터 재구성 방법은 크게 가스 데이터 입력단계(S100), 인코딩단계(S210), 디코딩단계(S230) 및 추가 재구성단계(S250)를 포함할 수 있다.

가스 데이터 입력단계는 가스 데이터 입력부(100)에서 챔버 내부로 유입되는 가스에 의한 반응을 측정하여 손상된 전자코 가스 데이터를 입력받을 수 있다(S100). 이는 본 발명의 최종 목적인 가스 데이터의 분류를 위해, 분류하고자 하는 전자코 가스 데이터를 입력받기 위한 단계라 할 수 있다.

인코딩단계는 상기 입력받은 전자코 가스 데이터의 시멘틱(semantics)을 잠재변수(latent vector)를 이용하여 추출하고, 상기 추출된 시멘틱을 기준으로 상기 입력받은 전자코 가스 데이터를 캡슐화(encapsulate)하여 인코딩(encoding)할 수 있다(S210). 이는 전자코 가스 데이터의 의미론적인 특징, 즉 시멘틱(semantics)을 추출하기 위한 단계라 할 수 있다.

디코딩단계는 상기 인코딩단계(S210)로부터 인코딩된 전자코 가스 데이터를 디코딩(decoding)하여 1차적으로 재구성할 수 있다(S230).

이 때 디코딩단계(S230)는 하기 수학식 1 및 수학식 2에 기초하여 상기 인코딩단계(S210)로부터 인코딩된 전자코 가스 데이터를 디코딩하여 1차적으로 재구성할 수 있다.

<수학식1>

(

: 변형된 가스벡터,

: 정상적인 가스벡터,

: 노이즈 벡터)

<수학식 2>

(

: 노이즈 벡터,

: 균일분포 랜덤변수,

, U: 균일분포(uniform distribution))

한편, 1차 재구성단계(S200)는 상기 디코딩단계(S230)에 의해 1차적으로 재구성된 전자코 가스 데이터를 2차적으로 재구성하는 추가 재구성단계(S250)를 더 포함할 수 있다.

추가 재구성단계(S250)는 상기 디코딩단계(S230)에 의해 1차적으로 재구성된 전자코 가스 데이터가 정상적인 전자코 가스 데이터로 수렴되도록 학습(training)된 네트워크라 할 수 있다.

이 때 추가 재구성단계(S250)는 하기 수학식 3에 기초하여 상기 디코딩단계(S230)에 의해 1차적으로 재구성된 전자코 가스 데이터를 2차적으로 재구성할 수 있다.

<수학식 3>

(f(·): 재구성 함수,

: 변형된 가스벡터,

: 정상적인 가스벡터)

한편, 본 발명은 1차 재구성단계에 인코딩단계(S210), 디코딩단계(S230) 및 추가 재구성단계(250)가 포함되어있으며, 이 때 1차 재구성단계는, 완전 연결층(fully-connected architectural layer)이 적용된 콘볼루션 신경망을 사용하여 설계된 네트워크라 할 수 있다.

본 발명을 보다 상세하게 설명하면 도 3 내지 도 10을 참조할 수 있다.

도 3은 본 발명의 실시예로서, 전자코 시스템에서의 데이터 재구성 및 분류 방법에 관한 도면이다.

도 3을 참조하면, 본 발명의 실시예인 전자코 시스템에는 K=32,000 차원 벡터로 표현되는 N개의 서로 다른 가스가 있으며, 이들의 재구성 및 분류를 위해 전자코 센서를 사용할 수 있다. 여기서는 주로 가스의 일부가 손상되었을 경우를 고려한 것이라 할 수 있다. 이를 위해 본 발명의 실시예인 전자코 시스템은 시그모이드 활성함수(sigmoid activation)가 있는 완전 연결층(fully-connected layers)으로 구성된 자동 인코더(auto-encoder) 구조가 설계되어, 가스 벡터의 시멘틱(semantics)을 효과적으로 캡슐화(encapsulate)할 수 있다. 자동 인코더는 입력 가스 벡터의 손상을 디노이징(denoising)하고, 원래 가스 벡터의 정보를 재구성하는 데에 사용될 수 있다. 재구성 이후, 분류 성능은 분류 알고리즘에 기초한 심층 학습에 의해 수행되었기 때문에 재구성 능력이 테스트되었다. 또한, 데이터 재구성 전후의 데이터 샘플 분포도에 대해서도 비교를 실시했다.

도 4는 본 발명의 실시예로서, 에탄올 증기(ethanol vapor)에 대한 16채널 센서 어레이의 일반적인 응답 시간을 나타낸 도면이다.

도 4를 참조하면, 전자코 센서와 관련하여 폴리머 복합 센서(polymer composite sensors)는 수명, 센서 드리프트(sensor drift), 온도와 습도에 대한 민감도 등 한계가 있으나 일부 장점을 가지고 있다.

예를 들어, 이 센서는 저렴하고, 전력을 덜 소비하며, 상온에서 안정적으로 작동할 수 있다. 또한, 이러한 센서는 다른 가스 센서에 비해 다양한 종류의 폴리머 소재에 사용될 수 있기 때문에 전자코 시스템에서 널리 사용되고 있다.

이를 기반으로 본 발명에서는 도 4에 도시된 바와 같이, 실시예로서 전자코 시스템에 마이크로매치 센서 어레이 칩을 사용하였다. 센서 어레이는 16개 채널로 구성되어있다. 각 채널에는 디지털화된 전극과 마이크로히터, 가공된 막이 있는 탄소-블랙(CB) 폴리머 복합 센서가 장착되어있다.

아래 <표 1>은 센서에서 사용되는 16(CB) 폴리머 컴포지트를 나타낸 표이다.

<표 1>

센서가 화학가스에 노출되면, 그 가스는 각 폴리터 복합 필름에 접착될 수 있다. 저항의 변화를 관찰하고, 0.1초 간격으로 총 200초 동안 기록한다. 가스의 측정 절차는 다음과 같다.

첫째, 센서 배열을 챔버에 배치한 후 저항신호가 안정화되면, 시스템의 유량제어가 60초간 가스의 유입을 활성화하고, 110초 동안 나머지 가스를 외부로 배출한다. 측정된 데이터는 DAQ6062E 데이터 수집 (DAQ) 보드와 LabVIEW(미국 국립 계측기)를 사용하여 PC에 저장된다. 전압 분배기는 -10V에서 10V까지 작동하며, 최대 DAQ 분해능을 달성하기 위해 16개의 동일한 증폭기의 이득이 10로 설정된다. 요약하면, 해당 가스는 각각 2,000 치수의 채널이 16개인 매트릭스로 설명된다.

본 발명의 실시예에 따라, DAE(Denoising AutoEncoder)을 사용하여 데이터를 재구성하는 특징, 그 중에서도 Deep Neural Network Architecture을 설명하면 다음과 같다.

학습 데이터 T = {(vi, ci | i = 1, ..., N)}, 여기서 벡터 vi는 가스벡터이고, 요소 ci은 상기 가스벡터의 라벨에 상응하는 것을 나타낸다. 여기서, 상기 가스벡터는 랜덤 노이즈 ni에 의해 변형된 것이라 가정된다. : 변형된 가스벡터는

라 한다. 그런 다음,

은 다음 <수학식 1>와 같이 vi와 ni 사이 element-wise multiplication(*)로 정의된다.

<수학식 1>

(

: 변형된 가스벡터,

: 정상적인 가스벡터,

: 노이즈 벡터)

노이즈 벡터 ni은 다음 <수학식 2>과 같이 균일 분포(uniform distribution)에 의해 샘플된 것이라 가정된다.

<수학식 2>

(

: 노이즈 벡터,

: 균일분포 랜덤변수,

, U: 균일분포(uniform distribution))

여기서, 용어 0<=k<=1은 0과 1의 평균 비율을 지배한다. 용어 U은 균일 분포를 나타낸다.

다음 목표는 가스벡터의 변형을 재구성하는 가스벡터의 함수 f(·)을 정의하는 것이다. 이는 다음 <수학식 3>로 표현될 수 있다.

<수학식 3>

(f(·): 재구성 함수,

: 변형된 가스벡터,

: 정상적인 가스벡터)

여기서 용어 θ은 재구성 함수 f(·)의 파라미터를 나타낸다. 상기 손실 l(·)은 가스벡터와 변형된 벡터로부터 재구성된 상대역(counterpart) 사이의 거리를 모델링한 함수이다.

도 5는 본 발명의 실시예에 따른 데이터 재구성을 위한 전제 DAE 구조를 나타낸 도면이다. 여기서, xik, oik, 및 lil은 벡터들 xi ∈ RK, oi ∈ RK, 및 li ∈ RL.의 k번째 또는 I번째 요소를 나타낼 수 있다. 도 5의 사각형 박스들은 활성화 함수를 나타낸다. 여기서, 활성화 함수는 시그모이달(sigmoidal)로 정의되는 함수이다. 그리고 각 화살표는 요소들 사이의 접속을 나타낸다. 따라서, WE와 WD의 네트워크 매개변수는 매트릭스 형태로 표현된다.

도 5를 참조하면, 본 발명의 실시예에 따른 전체 DAE에서는 재구성 함수 f(·)을 정의할 때, 각각 파라미터 WE와 WD을 가진 인코더 fE(·)와 fD(·)으로 구성된다. 도 5에 도시된 바와 같이, 가스벡터 vi = [vi1, .., viK]T의 정보는 인코더 li = fE(xi;WE)로부터 요약(encapsulate)된다. 여기서, 잠재벡터 li = [li1, .., liK]T은 가스벡터의 중요한 시멘틱(semantics)을 캡쳐한다. 그런 다음, 이 잠재벡터 li은 디코더 oi = fD(li ; WD)에 의해 디코딩된다.

본 발명에서 제안된 문제에서, 입력 xi = [xi1, .., xiK]T은 가스벡터

로 설정되고, 출력 oi = [oi1, .., oiK]T은 재구성된 가스벡터

로 정의된다. 이 파라미터 WE와 WD은 재구성된 벡터

가 원래 가스벡터 vi로 수렴되도록 훈련된다. 여기서, 가스벡터 vi의 필수정보를 캡슐화(encapsulating)하는 잠재벡터는 256으로 설정되고, 이는 vi의 치수(dimension)보다 훨씬 더 작다. 입력 및 출력벡터는 평범한(plain) 1차원 벡터로 분해되기 때문에, 인코더와 디코더 네트워크는 fully-connected architectural layer을 사용하여 설계된다. 여기서, 인코더에 대한 네트워크 파라미터 WE은 32,000X256차원 매트리스에 의해 정의되고, 파라미터 WD은 256X32,000차원 매트리스로 정의된다. 이 두 개의 네트워크는 zero-mean Gaussian으로 초기화된다. 디코더 네트워크의 마지막 활성함수는 시그모이달 함수

이다. ; 여기서 출력 oij의 각 요소는 (0,1) 범위 내에 있다.

네트워크 아키텍처 학습에 관해, 평균 제곱 오차 거리(mean square error distance)는 정의될 필요가 있다. 여기서, 상기 <수학식 3>의 전사함수(subjection function)는 다음 <수학식 4>와 같이 정의된다.

<수학식 4>

여기서, 파라미터 θ은 {WD, WE}로 설정된다. 따라서, 상기 제안된 문제는 다음 <수학식 5>와 같은 최소화 문제로 정의될 수 있다.

<수학식 5>

이 네트워크 파라미터, WD와 WE은 학습된 파라미터이고, 이는 확률적 경사 하강법(stochastic gradient descent)의 변수(variant)이다. 이는 상기 <수학식 4>에 의해 정의된 손실 표면(loss surface)의 지역 최소를 탐구함으로써 달성된다. WD와 WE의 적용은 오버피팅(over-fitting)의 방지뿐 아니라, 가스 유형의 견고함을 향상시킨다.

인코더 fE(·)와 디코더 fD(·)을 사용하여, 변형된 가스벡터

을 재구성할 수 있다. 질적 및 정량적 분석으로부터, 본 발명에서 제안한 디노이징 오토 인코더 아키텍쳐는 기존 PCA기반 방법 대비 우수한 성능을 달성할 수 있다. 이는 변형된 데이터를 처리하는 데에 폭넓게 사용될 수 있다.

다시 도 3을 참조하면, 인코더 fE(·)와 디코더 fD(·)을 사용하여 재구성된 가스벡터는 CNN 기반 분류기에 의해 가스 유형이 분류될 수 있다.

본 발명에서는 디노이징 오토 인코더를 사용함으로써 재구성된 전자코 데이터로부터 가스 타입을 분류하기 위해 차별적인 특징들을 추출할 수 있다. 재구성된 데이터를 사용함으로써, 분류기는 가스 샘플들을 분류하기 위한 차별적인 깊은 특징들을 학습할 수 있다. 분류기는 가스벡터의 서로 다른 채널 정보의 표현을 학습하는 몇 개의 1차원 컨볼루션 필터로 구성된다. 최종 특징벡터를 얻기 위해, 채널 측 표현(channel-wise representation)이 병합된다.

도 6은 본 발명의 실시예에 따른 CNN 분류기를 나타낸 도면이다.

도 6을 참조하면, 본 발명의 분류기는 크게 세 개의 블록으로 구성되어있다. 첫 번째 블록은 채널 측 인코딩 블록이다. 채널 측 인코딩 블록은 1차원 콘볼루션(Conv) 필터 세트를 사용하여 채널측 벡터 정보를 암호화한다. 구체적으로는, 4개의 1 × 3 콘브 필터를 적층하고, 그 뒤에 배치 정상화 및 채널측 d = 125를 감소시키기 위한 ReLU 활성화가 뒤따른다. Conv filter의 채널은

로 설정되고, 여기서 co은 default에 의해 8로 설정된다. 그 결과, 채널 측 특징 yc은 다음 <수학식 6>과 같이 획득된다.

<수학식 6>

여기서 용어 xc은 입력 샘플 x에서 c번째 열에서 d차원벡터이고, f은 채널 측 인코딩 블록을 나타낸다. 값 Wc은 채널 측 특징 블록 f의 네트워크 파라미터를 나타낸다. 각 채널에서 벡터의 표현을 추출할 때는 단일 블록 f를 사용해도 충분하다는 점에 유의해야 한다.

두 번째 블록은 채널 집약 블록(channel-aggregation block)이다. 채널 집약 블록은 다음 <수학식 7>과 같이 서로 다른 채널의 정보를 병합한다.

<수학식 7>

여기서 블록 g은 특징 yc ∈ y을 병합하는 채널 집약 블록을 나타내고, 여기서 채널 측 인코딩 블록으로부터 추출된다. 여기서, 이 블록은 채널 축을 따라 각 특징 yc의 평균으로 정의된다.; 여기서, 마지막 특징은 Nc=1000*co을 가진다. 이 실험은 이 간단한 설정이 이 경우에 적절하게 작용한다는 것을 보여준다. 마지막 블록은 특징 분류 블록이다. 블록에서 완전히 연결된 레이어는 W ∈ RC×Nc로 정의되고, 이는 특징 ya을 C차원 공간에 투영한다. 여기서 용어 C는 다음 <수학식 8>과 같이 클래스(classes)의 수를 나타낸다.:

<수학식 8>

여기서 함수 q(·)은 소프트맥스(softmax) 함수에 의해 정의된다. 학습을 위해 다음과 같이 예측 클래스 벡터 yf 와 binary ground truth class vector yg ∈ RC를 통해 binary cross-entropy loss을 사용했다.

<수학식 9>

여기서 요소 yf(c)와 yg(c)은 각각 벡터 yf 및 yg의 c번째 요소를 나타낸다. 여기서, 본 발명에서 제안한 분류기의 네트워크 파라미터 Wc 및 W를 찾기 위해 stochastic gradient descent 방법이 적용된다.

한편, 본 발명은 휴대용 전자코 시스템용 센서 배열을 사용하여 측정된 가스 데이터를 대상으로 수행된 실험을 통해, 본 발명에서 제안된 시스템 및 방법의 재구성 성능 및 가스 분류 성능을 확인할 수 있다. 센서 어레이는 16개의 채널로 구성되며, 각 데이터 샘플은 2,000개 이상의 시점으로 측정되었으며, 이는 16X2,000 매트릭스로 볼 수 있다. 데이터 세트는 8개의 다른 클래스의 가스(유형)에 대한 측정으로 구성되며, 클래스 당 20개의 데이터 샘플을 포함하고 있다. 딥러닝 네트워크와 함께 사용되는 특징 추출 방법에 따라, 데이터 샘플은 16X2,000 배열로 사용되거나 어휘 순서 연산자(lexicographic ordering operator)를 사용하여 32,000차원 벡터로 변환된다.

데이터 손실이 발생할 때 본 발명에서 제안된 방법을 사용하여 데이터를 얼마나 효과적으로 복원할 수 있는지 확인하기 위해서, 데이터 샘플의 성능을 전체 측정치의 5%~75%에 이르는 데이터 손실을 분석하였다. 실제 전자코 설치 환경에서 발생될 수 있는 전기적 문제를 고려하였을 때, 손실 간격은 2초 단위(20 time points)에서 발생하며, 해당 간격의 데이터 값은 0으로 설정되었다고 가정한다.

손실된 데이터 재구성에 대해 관해 보다 상세히 설명하면 다음과 같다.

본 발명에서 제안된 시스템 및 방법의 재구성 성능 및 가스 분류 성능을 확인하고자 수행된 실험은 데이터 재구성 성과를 Re-L2PCA 및 ReIL1PCA와 같은 재구성 방법과 비교하여 확인할 수 있다.

도 7은 본 발명의 실시예로서, 첫 번째 채널에 대한 데이터 샘플을 벡터 형태로 표현한 도면이다. 여기서, (a)은 원본 데이터, (b)은 손실율 55%로 손상된 데이터, (c)은 Re-L2PCA에 의해 재구성된 데이터, (d)은 Re-IL1PCA에 의해 재구성된 데이터, (e)은 본 발명에서 제안된 시스템 및 방법에 의해 재구성된 데이터이다.

즉, 도 7은 원래(손실이 없는) 데이터 샘플을 보여준다. 이 데이터 샘플은 전체 측정치의 55%가 손실된 데이터 샘플이었으며, 이는 본 발명에서 제안된 시스템 및 방법이 포함된 다양한 방법으로 재구성되었다. 도 7의 수평 축은 가스벡터 치수를 나타내고, 수직축은 가스의 센서 출력을 나타낸다.

도 7(b) 내지 도 7(e)에 도시된 바와 같이, 손실된 데이터 값은 각 재구성 방법에 의해 원래 데이터 값과 유사하게 재구성된다. 다만, Re-L2PCA와 Re-IL1PCAT의 경우, 센서 응답의 노출 단계에 대해 재구성된 데이터의 왜곡이 눈에 띄었다. 이와는 대조적으로 본 발명에서 제안된 시스템 및 방법에 의해 재구성된 데이터는 전체적인 모양이 고주파 잡음에도 불구하고 원래 데이터와 매우 유사하다는 것을 보여준다.

도 8은 본 발명의 실시예로서, 데이터 샘플의 분포도를 나타낸 도면이다. 여기서, (a)은 손실율 65%을 가진 손상된 데이터, (b)은 Re-L2PCA에 의해 재구성된 데이터, (c)은 Re-IL1PCA에 의해 재구성된 데이터, (d)은 본 발명에서 제안된 시스템 및 방법에 의해 재구성된 데이터이다.

도 8을 참조하면, 본 발명에서 제안된 시스템 및 방법에 의한 재구성이 가스의 유형을 구분하는 데에 효과적인지 검증하기 위해, 8종류의 가스 데이터 샘플에 대해 데이터 재구성 전후의 데이터 샘플의 2차원 분포 사이의 비교를 수행할 수 있다. 이로 인해 전체 데이터 측정치의 55%가 손실되었다. 평면에 32,000차원 고차원 가스 샘플을 시각화하기 위해, 비선형 치수 감소를 수행하고 기계 학습 어플리케이션에 널리 사용되는 t-분산 확률 이웃(t-distributed stochastic neighbor)을 사용했다. 하위 구조에서, 각 색상은 개별적인 가스 클래스를 나타내며, 포인트들은 개별적인 데이터 샘플을 나타낸다. 도 8(a)에서 데이터 손실이 있는 샘플은 클래스에 상관없이 산재(scattered)된다. Re-L2PCA와 Re-IL1PCA는 클래스(도 8(b) 및 도 8(c))에 의해 클러스터링 효과를 보였지만, 본 발명에서 제안된 재구성 프로세스는 클래스(도 8(d)에 의해 데이터 샘플의 클러스터링이 더 향상된 결과는 보였다.

데이터의 재구성이 전자코 시스템의 가스 분류 성능에 어떤 영향을 미치는지 확인하고자, 가스 분류 실험은 총 160개의 가스 종류로 구성된 가스 데이터 샘플을 대상으로 실시하였다. 분류 성능은 8배의 교차 검증 전략으로 평가되었다. 즉, 데이터를 임의로 혼합한 다음 140개의 샘플로 구성된 학습 데이터 세트로 나눈다. 테스트 데이터 세트는 각 폴드(fold)에 대해 20개의 샘플로 구성되었다. 분류율은 8개의 실험에서 분류율을 평균하여 계산하였다. 또한, 8배 교차 검증의 통계적 유의성을 높이고자, 상기 절차를 8회 반복하고, 최종 결과에 대한 평균 분류율을 계산하였다.

도 9는 본 발명의 실시예로서, 본 발명에서 제안된 시스템 및 방법과 다른 방법 사이의 분류율을 비교한 도면이다.

도 9는 데이터 손실률이 10%~70%인 경우

의 분류 성능을 보여주며, 본 발명에서 제안된 시스템 및 방법(

및

)의 분류 성능을 보여준다. 데이터 재구성이 분류 성능에 미치는 영상을 조사하기 위해, 분류 결과를

와 비교하고, 상기에서 제안된 분류 네트워크에 대한 데이터 재구성인

을 하지 않았다.

데이터 손실량이 적을 때(10% 손실) 모든 재구성 방법은 95% 이상의 양호한 분류 성능을 보였다. 단, 데이터 손실률이 20%을 넘어서면서,

및

의 분류 성능은 급속히 저하되는 것을 확인할 수 있었다,

한편, 본 발명에서 제안된

및

은 50% 이상의 데이터가 손실되더라도 높은 분류 성능을 보였다. 단, 데이터가 손실되더라도 높은 분류율을 유지하고 있었다.

도 9에 도시된 바와 같이, 본 발명에서 제안된 분류 네트워크만 손실 데이터의 50%의 재구성 없이 높은 분류 속도를 유지한다. 그 이유는 본 발명이 딥러닝을 기반으로 하는데, 이 때 딥러닝은 시간 축 방향에의 가스 데이터와 채널 간 동기화 정보의 상관관계를 사용하여 효과적으로 일정 정도 데이터 손실에 대한 강력한 특징을 추출할 수 있기 때문이다.

결론적으로, 전자코 시스템은 전기적 장애뿐만 아니라, 센서의 설치 환경에서의 데이터 손실이 발생할 수 있다. 이는 전자코를 이용하여 가스를 안정적으로 분류하는 것을 어렵게 하는 원인이 될 수 있다.

본 발명은 이러한 문제점을 개선하고자 한 기술로서, 데이터 손실을 효과적으로 재구성하고, 대규모 데이터 손상에 대해 가스 유형을 강력하게 분류하기 위해 디노이징 오토 인코더를 사용하는 심층 학습 네트워크를 설계하였다. 나아가 이는 CNN 기반의 분류기와의 결합이 가능하여 전자코 가스 데이터의 분류 신뢰도를 효과적으로 높일 수 있다.

이상에서 본 발명의 기술적 사상을 예시하기 위한 바람직한 실시 예와 관련하여 설명하고 도시하였지만, 본 발명은 이와 같이 도시되고 설명된 그대로의 구성 및 작용에만 국한되는 것이 아니며, 기술적 사상의 범주를 일탈함이 없이 본 발명에 대해 다수의 변경 및 수정이 가능함을 당업자들은 잘 이해할 수 있을 것이다. 따라서 그러한 모든 적절한 변경 및 수정들도 본 발명의 범위에 속하는 것으로 간주되어야할 것이다.

100 : 가스 데이터 입력부 200 : 1차 재구성부
210 : 인코딩부 230 : 디코딩부
250 : 추가 재구성부

Claims

챔버 내부로 유입되는 가스에 의한 반응을 측정하여 손상된 전자코 가스 데이터를 입력받는 가스 데이터 입력부; 및
상기 입력받은 전자코 가스 데이터의 시멘틱(semantics)을 잠재변수(latent vector)를 이용하여 추출하고, 상기 추출된 시멘틱을 기준으로 상기 입력받은 전자코 가스 데이터를 캡슐화(encapsulate)하여 재구성하는 1차 재구성부;를 포함하는 것을 특징으로 하며,
상기 캡슐화(encapsulate)는 상기 잠재변수(latent vector)를 기준으로 상기 입력받은 전자코 가스 데이터의 시멘틱(semantics)를 추출하여 상기 추출된 시멘틱(semantics)을 요약하는 과정을 의미하며,
상기 1차 재구성부는,
상기 입력받은 전자코 가스 데이터의 시멘틱(semantics)을 잠재변수(latent vector)를 이용하여 추출하고, 상기 추출된 시멘틱을 기준으로 상기 입력받은 전자코 가스 데이터를 캡슐화(encapsulate)하여 인코딩(encoding)하는 인코딩부; 및
상기 인코딩된 전자코 가스 데이터를 디코딩(decoding)하여 1차적으로 재구성하는 디코딩부;를 포함하며,
상기 1차 재구성부는,
완전 연결층(fully-connected architectural layer)이 적용된 콘볼루션 신경망을 사용하여 설계된 네트워크인 것을 특징으로 하며,
상기 완전 연결층(fully-connected architectural layer)는 상기1차 재구성부의 상기 인코딩부와 결합하여 CNN 분류기를 구성하는 것을 특징으로하고,
상기 1차 재구성부는,
상기 디코딩부에 의해 1차적으로 재구성된 전자코 가스 데이터를 2차적으로 재구성하는 추가 재구성부;를 더 포함하는 것을 특징으로 하고,
상기 디코딩부는,
하기 수학식 1 및 수학식 2에 기초하여 상기 인코딩된 전자코 가스 데이터를 디코딩하여 1차적으로 재구성하는 것을 특징으로 하며,
<수학식 1>

(
: 변형된 가스벡터,
: 정상적인 가스벡터,
: 노이즈 벡터)
<수학식 2>

}
(
: 노이즈 벡터,
: 균일분포 랜덤변수,
, U: 균일분포(uniform distribution))
상기 추가 재구성부는,
하기 수학식 3에 기초하여 상기 디코딩부에 의해 1차적으로 재구성된 전자코 가스 데이터를 2차적으로 재구성하는 것을 특징으로 하고,
<수학식 3>

(f(·): 재구성 함수,
: 재구성 함수 f(·)의 파라미터, loss l(·): 가스벡터와 변형된 벡터에서 재구성된 카운터파트(counterpart) 사이의 거리를 모델링한 함수,
: 변형된 가스벡터,
: 정상적인 가스벡터)
상기 추가 재구성부는 상기 <수학식 1>의 결과값인 상기 변형된 가스벡터(
) 와 상기 <수학식 2>의 결과값인 상기 노이즈 벡터(
)를 상기 <수학식 3>의 입력값으로하여 도출된 결과값을 이용하여 상기 디코딩부에 의해 1차적으로 재구성된 전자코 가스 데이터를 2차적으로 재구성하는 것을 특징으로 하는 딥러닝 네트워크를 이용한 전자코 가스 데이터 재구성 시스템.
삭제
삭제
삭제
제 1 항에 있어서, 상기 추가 재구성부는,
상기 디코딩부에 의해 1차적으로 재구성된 전자코 가스 데이터가 정상적인 전자코 가스 데이터로 수렴되도록 학습(training)된 네트워크인 것을 특징으로 하는 딥러닝 네트워크를 이용한 전자코 가스 데이터 재구성 시스템.
삭제
삭제
가스 데이터 입력부에서 챔버 내부로 유입되는 가스에 의한 반응을 측정하여 손상된 전자코 가스 데이터를 입력받는 가스 데이터 입력단계; 및
1차 재구성부에서 상기 입력받은 전자코 가스 데이터의 시멘틱(semantics)을 잠재변수(latent vector)를 이용하여 추출하고, 상기 추출된 시멘틱을 기준으로 상기 입력받은 전자코 가스 데이터를 캡슐화(encapsulate)하여 재구성하는 1차 재구성단계;를 포함하는 것을 특징으로 하며,
상기 캡슐화(encapsulate)는 상기 잠재변수(latent vector)를 기준으로 상기 입력받은 전자코 가스 데이터의 시멘틱(semantics)를 추출하여 상기 추출된 시멘틱(semantics)을 요약하는 과정을 의미하며,
상기 1차 재구성단계는,
인코딩부에서 상기 입력받은 전자코 가스 데이터의 시멘틱(semantics)을 잠재변수(latent vector)를 이용하여 추출하고, 상기 추출된 시멘틱을 기준으로 상기 입력받은 전자코 가스 데이터를 캡슐화(encapsulate)하여 인코딩(encoding)하는 인코딩단계; 및
디코딩부에서 상기 인코딩된 전자코 가스 데이터를 디코딩(decoding)하여 1차적으로 재구성하는 디코딩단계;를 포함하고,
상기 1차 재구성부는,
완전 연결층(fully-connected architectural layer)이 적용된 콘볼루션 신경망을 사용하여 설계된 네트워크인 것을 특징으로 하며,
상기 완전 연결층(fully-connected architectural layer)는 상기1차 재구성부의 상기 인코딩부와 결합하여 CNN 분류기를 구성하는 것을 특징으로하고,
상기 1차 재구성단계는,
1차 재구성부에서 상기 디코딩단계에 의해 1차적으로 재구성된 전자코 가스 데이터를 2차적으로 재구성하는 추가 재구성단계;를 더 포함하는 것을 특징으로 하며,
상기 디코딩단계는,
하기 수학식 1 및 수학식 2에 기초하여 상기 인코딩된 전자코 가스 데이터를 디코딩하여 1차적으로 재구성하는 것을 특징으로 하며,
<수학식 1>

(
: 변형된 가스벡터,
: 정상적인 가스벡터,
: 노이즈 벡터)
<수학식 2>

(
: 노이즈 벡터,
: 균일분포 랜덤변수,
, U: 균일분포(uniform distribution))
상기 추가 재구성단계는,
하기 수학식 3에 기초하여 상기 디코딩부에 의해 1차적으로 재구성된 전자코 가스 데이터를 2차적으로 재구성하는 것을 특징으로 하고,
<수학식 3>

(f(·): 재구성 함수,
: 재구성 함수 f(·)의 파라미터, loss l(·): 가스벡터와 변형된 벡터에서 재구성된 카운터파트(counterpart) 사이의 거리를 모델링한 함수,
: 변형된 가스벡터,
: 정상적인 가스벡터)
상기 추가 재구성단계는 상기 <수학식 1>의 결과값인 상기 변형된 가스벡터(
) 와 상기 <수학식 2>의 결과값인 상기 노이즈 벡터(
)를 상기 <수학식 3>의 입력값으로하여 도출된 결과값을 이용하여 상기 디코딩부에 의해 1차적으로 재구성된 전자코 가스 데이터를 2차적으로 재구성하는 단계인 것을 특징으로 하는 딥러닝 네트워크를 이용한 전자코 가스 데이터 재구성 방법
삭제
삭제
삭제
제 8 항에 있어서, 상기 추가 재구성단계는,
상기 디코딩단계에 의해 1차적으로 재구성된 전자코 가스 데이터가 정상적인 전자코 가스 데이터로 수렴되도록 학습(training)된 네트워크인 것을 특징으로 하는 딥러닝 네트워크를 이용한 전자코 가스 데이터 재구성 방법.
삭제
삭제