KR102183310B1 - 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 장치 및 방법 - Google Patents

전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 장치 및 방법 Download PDF

Info

Publication number
KR102183310B1
KR102183310B1 KR1020200025791A KR20200025791A KR102183310B1 KR 102183310 B1 KR102183310 B1 KR 102183310B1 KR 1020200025791 A KR1020200025791 A KR 1020200025791A KR 20200025791 A KR20200025791 A KR 20200025791A KR 102183310 B1 KR102183310 B1 KR 102183310B1
Authority
KR
South Korea
Prior art keywords
expertise
image
caption
quad
professional
Prior art date
Application number
KR1020200025791A
Other languages
English (en)
Inventor
김남규
김태진
윤여일
Original Assignee
국민대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 국민대학교산학협력단 filed Critical 국민대학교산학협력단
Priority to KR1020200025791A priority Critical patent/KR102183310B1/ko
Application granted granted Critical
Publication of KR102183310B1 publication Critical patent/KR102183310B1/ko

Links

Images

Classifications

    • G06K9/20
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06K9/00442
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06K2209/01
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 장치 및 방법에 관한 것으로, 상기 장치는 복수의 이미지들, 각 이미지에 관한 텍스트 및 특정 분야의 전문성 이식을 위한 전문성 쿼드(E-Quad)를 수신하는 분석데이터 수신부, 상기 전문성 쿼드를 기초로 상기 복수의 이미지들 및 상기 텍스트에 관한 전이 학습을 수행하여 상기 특정 분야의 전문 이미지 해석을 위한 전문성 필터를 생성하는 전이 학습 수행부 및 특정 이미지에 대해 상기 전문성 필터를 적용하여 해당 특정 이미지에 관한 전문 이미지 해석을 생성하는 전문 이미지 해석부를 포함한다.

Description

전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 장치 및 방법{DEEP LEARNING-BASED PROFESSIONAL IMAGE INTERPRETATION DEVICE AND METHOD THROUGH EXPERTISE TRANSPLANT}
본 발명은 이미지 해석 기술에 관한 것으로, 보다 상세하게는 전문가의 전문성을 활용하여 이미지에 대해 해당 분야에 특화된 캡션을 생성하고 이를 기초로 전문 해석을 도출할 수 있는 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 장치 및 방법에 관한 것이다.
최근 다양한 분야에서 데이터 기반 의사결정 문제를 더욱 빠르고 정확하게 해결하기 위한 방안으로 딥러닝(Deep Learning)에 대한 관심이 급증하고 있다. 딥러닝은 인간의 신경계와 유사한 구조를 가진 기계 학습 알고리즘의 일종으로, 데이터에 내재된 유의미한 특성(Feature)을 자체적으로 발견하고, 이렇게 도출된 특성들로부터 목적 레이블(Target Label)을 추론하기 위한 학습을 수행한다는 점에서 기존의 기계 학습 알고리즘과 차이가 있다. 딥러닝은 구매 예측, 고객 이탈 예측, 추천시스템, 그리고 기업의 부도 예측 등의 분야에서 기존의 예측 기법인 인공신경망, 의사결정나무, 로지스틱 회귀, 그리고 SVM 등을 빠르게 대체하고 있으며, 최근에는 가짜 뉴스 식별, 재난 탐지, 그리고 온라인 범죄 예측 등 다양한 사회적 문제 해결에 딥러닝이 활용되고 있다.
분석 데이터 측면에서는 텍스트 데이터와 이미지 데이터에 대한 딥러닝 연구가 가장 활발하게 이루어지고 있다. 텍스트 딥러닝 연구는 텍스트의 문맥에 대한 학습을 통해 텍스트에 담겨진 고유의 특성을 추출하여 이를 벡터(Vector)로 표현하기 위한 임베딩(Embedding) 기법을 주로 다루고 있다. 구체적으로 단어 임베딩(Word Embedding)은 단어 단위의 텍스트를 벡터로 변환하는 과정을 다루며, word2vec, glove, 그리고 fasttext 등의 모델이 널리 사용되고 있다. 한편 문서 임베딩(Document Embedding)은 문서 내에 존재하는 단어들의 의미를 추론하고, 이를 문서 단위의 벡터로 나타내는 방법을 학습한다.
하지만 전통적인 임베딩 모델은 단어의 의미 추론에 단어 주변의 국소적인 문맥만을 참조하므로, 텍스트의 전체적인 문맥과 의미를 충분히 임베딩에 반영하기 어렵다. 이러한 한계를 해결하기 위해 은닉층 노드의 출력을 다음 노드의 입력으로 전달함으로써, 텍스트의 전체 시퀀스(Sequence)를 연속적으로 학습에 사용하는 신경망 모델인 순환 신경망(Recurrent Neural Network)이 제안되었다. 하지만 순환 신경망 역시 입력 텍스트의 시퀀스가 길어질수록 과거에 등장한 단어의 정보를 전달하는 신호가 약해진다는 한계를 갖고 있으므로, 이를 극복하기 위해 단어의 상태 정보를 더욱 길게 유지할 수 있는 LSTM(Long Short-Term Memory) 알고리즘이 고안되어 널리 사용되고 있다.
한국공개특허 제10-2015-0135776호 (2015.12.03)
본 발명의 일 실시예는 전문가의 전문성을 활용하여 이미지에 대해 해당 분야에 특화된 캡션을 생성하고 이를 기초로 전문 해석을 도출할 수 있는 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 장치 및 방법을 제공하고자 한다.
본 발명의 일 실시예는 이미지 딥러닝과 텍스트 딥러닝을 동시에 활용하고 전이 학습의 새로운 활용 방안을 제공하는 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 장치 및 방법을 제공하고자 한다.
본 발명의 일 실시예는 특정 분야의 전문성을 구조화하고, 이를 통해 일반적 사전 학습의 결과에 해당 분야의 전문성을 이식하기 위한 방안으로 전이 학습을 사용하는 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 장치 및 방법을 제공하고자 한다.
본 발명의 일 실시예는 전문가가 주목하는 각 특성별로 독립적인 전이 학습을 수행하고, 이를 통해 생성된 캡션들을 전문 해석과 함께 통합하여 도출하는 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 장치 및 방법을 제공하고자 한다.
실시예들 중에서, 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 장치는 복수의 이미지들, 각 이미지에 관한 텍스트 및 특정 분야의 전문성 이식을 위한 전문성 쿼드(E-Quad)를 수신하는 분석데이터 수신부, 상기 전문성 쿼드를 기초로 상기 복수의 이미지들 및 상기 텍스트에 관한 전이 학습을 수행하여 상기 특정 분야의 전문 이미지 해석을 위한 전문성 필터를 생성하는 전이 학습 수행부 및 특정 이미지에 대해 상기 전문성 필터를 적용하여 해당 특정 이미지에 관한 전문 이미지 해석을 생성하는 전문 이미지 해석부를 포함한다.
상기 전문성 쿼드(E-Quad)는 상기 특정 분야에 포함된 전문가 집단의 관찰과 해석에 따른 결과로서 생성되고 상기 관찰의 구조화 과정을 통해 도출되는 객체(Object), 특징(Feature) 및 상태(Status)의 조합과 상기 해석 간의 매칭 정보를 포함할 수 있다.
상기 전이 학습 수행부는 입력 이미지를 인코딩하여 인코딩 데이터를 생성하는 인코더(Encoder), 상기 입력 이미지에 관한 입력 텍스트에 상기 전문성 쿼드를 적용하여 특성별 캡션을 생성하는 전처리 모듈 및 상기 인코딩 데이터 및 상기 특성별 캡션을 입력으로 하여 사전학습 모델(Pre-trained Model)에 관한 미세 조정(Fine Tuning)을 통해 구축되는 디코더(Decoder)를 상기 전문성 필터로서 생성하는 전이 학습 모듈을 포함할 수 있다.
상기 인코더는 상기 입력 이미지의 일반 특성을 추출하는 저수준 모듈과 상기 일반 특성을 기초로 전문 데이터에 대한 미세 조정을 통해 전문 특성을 추출하는 고수준 모듈로 구성될 수 있다.
상기 전처리 모듈은 상기 입력 텍스트를 복수의 토큰들로 분해하고 상기 전문성 쿼드의 각 특성과의 연관성에 따라 추출된 토큰들을 재구성함으로써 상기 특성별 캡션을 생성할 수 있다.
상기 전이 학습 모듈은 상기 특성별 캡션에 대해 특성 별로 미세 조정을 독립적으로 수행하여 특성 별로 구축되는 서브 디코더(Sub-Decoder)들의 집합을 상기 전문성 필터로서 생성할 수 있다.
상기 전이 학습 모듈은 LSTM(Long Short-Term Memory)을 이용하여 상기 미세 조정을 수행하고 상기 특성별 캡션의 각 단어들을 상기 LSTM의 각 단계에 순차적으로 입력할 수 있다.
상기 전문 이미지 해석부는 상기 특정 이미지의 인코딩 데이터를 상기 전문성 필터에 입력하여 출력된 결과로서 특성별 캡션을 획득하고 상기 전문성 쿼드를 이용하여 상기 특성별 캡션에 매칭되는 특성별 해석을 도출하며 상기 특성별 캡션 및 해석을 통합한 결과로서 상기 전문 이미지 해석을 생성할 수 있다.
상기 전문 이미지 해석부는 상기 특성별 캡션에서 유효 토큰을 식별하는 제1 단계와, 상기 유효 토큰을 기초로 해당 특성별 캡션의 대표 특성을 결정하는 제2 단계와, 상기 전문성 쿼드에서 상기 유효 토큰 및 상기 대표 특성의 조합에 매칭되는 해석을 결정하는 제3 단계를 수행함으로써 상기 특성별 해석을 도출할 수 있다.
상기 전문 이미지 해석부는 상기 특성별 캡션 및 해석에 관한 통합 방법으로서 (a)캡션 및 해석의 쌍에 관한 테이블 생성, (b)캡션과 해석의 단순 결합 및 (c)텍스트 요약(Text Summarization) 적용 중 어느 하나를 사용할 수 있다.
상기 전문 이미지 해석부는 상기 전문성 쿼드 및 상기 전문성 필터가 복수인 경우 각 분야 별로 상기 특정 이미지에 대한 전문 이미지 해석을 병렬적으로 생성할 수 있다.
상기 전문 이미지 해석부는 특성별 캡션 및 상기 전문성 쿼드 간의 대응관계가 1:N인 경우에 있어서, 특성 간의 중복이면 상기 특성별 캡션에 대해 복수의 특성별 해석들을 생성하고 특성 내의 중복이면 상기 특성별 캡션에 대해 특성별 해석을 생성하지 않을 수 있다.
실시예들 중에서, 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 방법은 복수의 이미지들, 각 이미지에 관한 텍스트 및 특정 분야의 전문성 이식을 위한 전문성 쿼드(E-Quad)를 수신하는 단계, 상기 전문성 쿼드를 기초로 상기 복수의 이미지들 및 상기 텍스트에 관한 전이 학습을 수행하여 상기 특정 분야의 전문 이미지 해석을 위한 전문성 필터를 생성하는 단계 및 특정 이미지에 대해 상기 전문성 필터를 적용하여 해당 특정 이미지에 관한 전문 이미지 해석을 생성하는 단계를 포함한다.
개시된 기술은 다음의 효과를 가질 수 있다. 다만, 특정 실시예가 다음의 효과를 전부 포함하여야 한다거나 다음의 효과만을 포함하여야 한다는 의미는 아니므로, 개시된 기술의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
본 발명의 일 실시예에 따른 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 장치 및 방법은 이미지 딥러닝과 텍스트 딥러닝을 동시에 활용하고 전이 학습의 새로운 활용 방안을 제공할 수 있다.
본 발명의 일 실시예에 따른 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 장치 및 방법은 특정 분야의 전문성을 구조화하고, 이를 통해 일반적 사전 학습의 결과에 해당 분야의 전문성을 이식하기 위한 방안으로 전이 학습을 사용할 수 있다.
본 발명의 일 실시예에 따른 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 장치 및 방법은 전문가가 주목하는 각 특성별로 독립적인 전이 학습을 수행하고, 이를 통해 생성된 캡션들을 전문 해석과 함께 통합하여 도출할 수 있다.
도 1은 본 발명에 따른 전문 이미지 해석 시스템을 설명하는 도면이다.
도 2는 도 1의 전문 이미지 해석 장치의 기능적 구성을 설명하는 도면이다.
도 3은 도 1의 전문 이미지 해석 장치에서 수행되는 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 과정을 설명하는 순서도이다.
도 4는 이미지 캡셔닝의 학습과 추론 과정을 설명하는 도면이다.
도 5는 전이 학습을 활용한 이미지 캡셔닝의 학습 과정을 설명하는 도면이다.
도 6은 미술 치료를 위한 전문성 쿼드의 일 실시예를 설명하는 도면이다.
도 7은 본 발명에 따른 특성별 캡션 생성 및 동시 학습 과정을 설명하는 도면이다.
도 8은 본 발명에 따른 특성별 캡션 및 해석의 생성 과정을 설명하는 도면이다.
도 9는 본 발명에 따른 특성별 해석 생성 및 통합 과정을 설명하는 도면이다.
도 10은 캡션과 전문성 쿼드의 대응에 따른 해석 채택 과정을 설명하는 도면이다.
본 발명에 관한 설명은 구조적 내지 기능적 설명을 위한 실시예에 불과하므로, 본 발명의 권리범위는 본문에 설명된 실시예에 의하여 제한되는 것으로 해석되어서는 아니 된다. 즉, 실시예는 다양한 변경이 가능하고 여러 가지 형태를 가질 수 있으므로 본 발명의 권리범위는 기술적 사상을 실현할 수 있는 균등물들을 포함하는 것으로 이해되어야 한다. 또한, 본 발명에서 제시된 목적 또는 효과는 특정 실시예가 이를 전부 포함하여야 한다거나 그러한 효과만을 포함하여야 한다는 의미는 아니므로, 본 발명의 권리범위는 이에 의하여 제한되는 것으로 이해되어서는 아니 될 것이다.
한편, 본 출원에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.
"제1", "제2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어"있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결될 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어"있다고 언급된 때에는 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 한편, 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "포함하다"또는 "가지다" 등의 용어는 실시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
각 단계들에 있어 식별부호(예를 들어, a, b, c 등)는 설명의 편의를 위하여 사용되는 것으로 식별부호는 각 단계들의 순서를 설명하는 것이 아니며, 각 단계들은 문맥상 명백하게 특정 순서를 기재하지 않는 이상 명기된 순서와 다르게 일어날 수 있다. 즉, 각 단계들은 명기된 순서와 동일하게 일어날 수도 있고 실질적으로 동시에 수행될 수도 있으며 반대의 순서대로 수행될 수도 있다.
본 발명은 컴퓨터가 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있고, 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
여기서 사용되는 모든 용어들은 다르게 정의되지 않는 한, 본 발명이 속하는 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한 이상적이거나 과도하게 형식적인 의미를 지니는 것으로 해석될 수 없다.
이미지 캡셔닝(Image Captioning)은 입력 이미지를 이해하고 그에 적합한 캡션을 출력으로 생성하는 기술이며, 이미지 인코딩과 텍스트 생성을 동시에 다룬다. 이미지 캡셔닝은 기본적으로 이미지 인덱싱 및 검색에 사용될 수 있으며, 의학, 심리학, 교육, 그리고 소셜 미디어 등 다양한 분야에서 활용될 수 있다. 이미지 캡셔닝의 가장 널리 알려진 응용으로는 시각 장애인의 눈을 대신하여 카메라에 보이는 사람, 제품, 장면 등을 음성으로 설명해 주는 기술이 해당될 수 있다. 이미지 캡셔닝의 기본 동작 원리는 도 4를 통해 보다 자세히 설명한다.
한편, 이미지 캡셔닝에 있어서 이미지를 일반인이 아닌 분야별 전문가(Domain Experts)의 시각에서 해석하기 위한 연구는 찾아보기 어렵다. 동일한 이미지에 대해서도 이미지를 접한 사람의 전문 분야에 따라 관심을 갖고 주목하는 부분이 상이할 뿐 아니라, 전문성의 수준에 따라 이를 해석하고 표현하는 방식도 다르게 나타나게 된다. 일반인의 경우 전체적이고 일반적인 시각, 즉 이미지의 구성 객체를 식별하는 관점에서 이미지를 인식하는 경향이 있으며, 전문가의 경우 전문성을 바탕으로 주어진 이미지를 해석하기 위해 필요한 요소에 집중하여 이미지를 인식하는 경향이 있다.
이처럼 동일한 이미지라 할지라도 바라보는 사람의 전문성 및 전문 분야에 따라 중요하게 인식하는 내용이 상이하게 나타날 수 있다. 예를 들어, 집(house) 앞에 한 명의 여성이 걷고 있는 순간을 표현한 그림을 보고 일반인은 'A woman is walking in front of a house'와 같은 캡션을 부여할 수 있다. 이에 반해, 미술 치료사(Art Therapist)와 건축가는 각자의 전문성을 바탕으로 'A white house with red roof and many windows'와 'Two floors building with narrow width and low wall'와 같은 캡션을 부여할 수 있다.
미술 치료사의 경우 지붕과 창문에 집중하여 캡션을 부여했는데, 실제로 미술 치료에서 지붕은 생활의 공상 영역을 상징하며, 창문은 환경과의 접촉을 나타내는 중요한 단서이다. 한편, 건축가는 건물의 층수와 넓이 및 벽의 높이에 주목하고 있다. 이처럼 동일한 이미지라 할지라도 바라보는 사람의 관심 및 전문성에 따라 인식하는 내용이 상이하게 나타나는 것은 지극히 당연한 현상이므로, 이미지로부터 캡션을 생성하는 이미지 캡셔닝 기법도 이러한 현상을 반드시 반영할 필요가 있다.
하지만, 이처럼 전문가에 의해 작성된 이미지/캡션 쌍은 그 수가 매우 부족하며 확보도 어려우므로, 기존의 이미지 캡셔닝 기법을 통해 각 분야의 전문적 캡션을 자동으로 생성하기란 현실적으로 불가능하다. 따라서, 전이 학습, 즉 방대한 양의 일반 데이터에 대해 사전 학습을 수행한 후, 소량의 전문 데이터에 대한 미세 조정을 진행하는 방식을 검토할 필요가 있다. 이미지 캡셔닝의 전이 학습은 도 4의 학습 과정을 확장하여 구현될 수 있고, 이에 대해서는 도 5를 통해 보다 자세히 설명한다.
하지만, 단순히 전문적 캡션을 사용하여 전이 학습을 수행하는 것은 또 다른 유형의 한계를 야기할 수 있다. 미술 치료사가 그림을 해석할 때 문의 유무, 창문의 개수, 지붕의 형태 등을 관찰하는 것과 같이, 전문가가 이미지를 인식할 때 하나의 특성이 아니라 여러 특성을 동시에 관찰하게 된다. 이처럼 여러 관찰, 즉 복수의 특성에 대한 기술이 혼재된 채로 학습이 이루어지면, 관찰간 간섭(Interference)이 발생하여 각 특성 관점의 순수한 학습이 이루어지기 어려울 수 있다. 방대한 데이터에 대한 학습에서는 이러한 간섭의 상당 부분이 자체적으로 정화되어 학습 결과에 거의 영향을 미치지 않지만, 소량의 데이터에 대해 학습이 이루어지는 미세 조정의 경우 이러한 간섭이 학습에 미치는 영향이 상대적으로 매우 클 수 있다.
따라서, 본 발명에서는 전문가가 주목하는 각 특성별로 독립적인 전이 학습을 수행하고, 이를 통해 생성된 캡션들을 전문 해석과 함께 통합하여 도출하는 방법을 사용한다.
도 1은 본 발명에 따른 전문 이미지 해석 시스템을 설명하는 도면이다.
도 1을 참조하면, 전문 이미지 해석 시스템(100)은 사용자 단말(110), 전문 이미지 해석 장치(130) 및 데이터베이스(150)를 포함할 수 있다.
사용자 단말(110)은 이미지를 입력하고 해당 이미지에 대한 전문 이미지 해석을 확인할 수 있는 컴퓨팅 장치에 해당할 수 있다. 사용자 단말(110)은 스마트폰, 노트북 또는 컴퓨터로 구현될 수 있으며, 반드시 이에 한정되지 않고, 태블릿 PC 등 다양한 디바이스로도 구현될 수 있다. 사용자 단말(110)은 전문 이미지 해석 장치(130)와 네트워크를 통해 연결될 수 있고, 복수의 사용자 단말(110)들은 전문 이미지 해석 장치(130)와 동시에 연결될 수 있다.
전문 이미지 해석 장치(130)는 전문 이미지 해석을 위한 학습을 수행하고 특정 이미지에 대한 전문 이미지 해석을 생성하여 제공할 수 있는 컴퓨터 또는 프로그램에 해당하는 서버로 구현될 수 있다. 전문 이미지 해석 장치(130)는 사용자 단말(110)과 유선 네트워크 또는 블루투스, WiFi 등과 같은 무선 네트워크로 연결될 수 있고, 유선 또는 무선 네트워크를 통해 사용자 단말(110)과 통신을 수행할 수 있다.
일 실시예에서, 전문 이미지 해석 장치(130)는 데이터베이스(150)와 연동하여 전문 이미지 해석을 위한 다양한 정보들을 저장할 수 있다. 한편, 전문 이미지 해석 장치(130)는 도 1과 달리, 데이터베이스(150)를 내부에 포함하여 구현될 수 있고, 물리적 구성으로서 프로세서, 메모리, 사용자 입출력부 및 네트워크 입출력부를 포함하여 구현될 수 있다.
데이터베이스(150)는 전문 이미지 해석 장치(130)가 이미지에 관한 전문 이미지 해석을 생성하는 과정에서 필요한 다양한 정보들을 저장할 수 있다. 예를 들어, 데이터베이스(150)는 학습을 위한 이미지와 일반 캡션에 관한 정보 및 전문성 이식을 위한 전문성 쿼드(Expertise Quadruple, E-Quad)을 저장할 수 있고, 학습을 통해 구축된 인코더(Encoder)와 디코더(Decoder)를 저장할 수 있으며, 반드시 이에 한정되지 않고, 전문 이미지 해석 생성 과정에서 다양한 형태로 수집 또는 가공된 정보들을 저장할 수 있다.
도 2는 도 1의 전문 이미지 해석 장치의 기능적 구성을 설명하는 도면이다.
도 2를 참조하면, 전문 이미지 해석 장치(130)는 분석데이터 수신부(210), 전이 학습 수행부(230), 전문 이미지 해석부(250) 및 제어부(270)를 포함할 수 있다.
분석데이터 수신부(210)는 복수의 이미지들, 각 이미지에 관한 텍스트 및 특정 분야의 전문성 이식을 위한 전문성 쿼드(E-Quad: Expertise Quadruple)를 수신할 수 있다. 또한, 분석데이터 수신부(210)는 사용자 단말(110)로부터 직접 수신할 수 있고, 데이터베이스(150)에 저장된 데이터를 읽어들임으로써 수신에 갈음할 수 있다. 여기에서, 전문성 쿼드(E-Quad)는 특정 분야에 포함된 전문가 집단의 관찰과 해석에 따른 결과로서 생성되는 데이터 객체에 해당할 수 있고 관찰의 구조화 과정을 통해 도출되는 객체(Object), 특징(Feature) 및 상태(Status)의 조합과 해석 간의 매칭 정보를 포함할 수 있다.
미술 치료 영역에 대한 전문성 쿼드를 생성하는 과정은 미술 치료에 사용된 그림과 이에 대한 진단을 수집하는 전문 데이터 확보, 각 해석이 어떤 관찰을 근거로 이루어졌는지를 확인하는 전문가 인터뷰, 그리고 각 관찰을 객체(Object), 특성(Feature), 상태(Status)로 구조화하는 관찰 구조화의 과정으로 구성될 수 있다.
예를 들어, 어떤 그림에 대한 미술 치료사의 진단이 '창문을 많이 그린 것으로 보아, 아이가 외부와 접촉하고자 하는 강한 욕구를 갖고 있음을 알 수 있다'로 나타났다면, 이는 전문가 인터뷰를 통해 '창문의 개수가 많다'의 관찰과 '외부와 접촉하고자 하는 욕구가 강하다'의 해석으로 분리될 수 있다. 더 나아가 이러한 관찰은 객체, 특성, 그리고 상태로 구조화되어 해석과 함께 전문성 쿼드로 구성될 수 있다. 또한, 미술 치료를 위한 전문성 쿼드의 일 실시예에 대해서는 도 6에서 보다 자세히 설명한다.
전이 학습 수행부(230)는 전문성 쿼드를 기초로 복수의 이미지들 및 텍스트에 관한 전이 학습을 수행하여 특정 분야의 전문 이미지 해석을 위한 전문성 필터를 생성할 수 있다. 여기에서, 전문성 필터는 전이 학습을 통해 생성되는 디코더(Decoder)에 해당할 수 있고 전이 학습에 의해 특정 분야의 전문성이 이식된 결과 입력 이미지에 대한 전문 캡션을 출력하는 과정에서 전문가의 관점을 적용하는 역할을 수행할 수 있다. 전문성 필터는 전문 분야 별로 생성될 수 있고, 하나의 전문 분야 내에서 특성 별로 독립적인 서브 디코더(Sub-Decoder)들로 구성될 수도 있다.
일 실시예에서, 전이 학습 수행부(230)는 입력 이미지를 인코딩하여 인코딩 데이터를 생성하는 인코더(Encoder), 입력 이미지에 관한 입력 텍스트에 전문성 쿼드를 적용하여 특성별 캡션을 생성하는 전처리 모듈 및 인코딩 데이터 및 특성별 캡션을 입력으로 하여 사전학습 모델(Pre-trained Model)에 관한 미세 조정(Fine Tuning)을 통해 구축되는 디코더(Decoder)를 전문성 필터로서 생성하는 전이 학습 모듈을 포함할 수 있다. 즉, 전이 학습 수행부(230)는 전문 이미지 해석에 필요한 학습과 추론의 과정 중에서 학습 과정을 담당할 수 있으며, 전문성 쿼드를 참조하여 각 특성별로 별도의 캡션을 생성한 후 미세 조정을 수행할 수 있다.
보다 구체적으로, 인코더(Encoder)는 입력된 이미지를 처리하여 전이 학습을 위한 입력 데이터를 생성하고, 전처리 모듈은 입력 이미지와 함께 입력된 입력 텍스트를 처리하여 전이 학습을 위한 입력 데이터를 생성할 수 있으며, 전이 학습 모듈은 인코더와 전처리 모듈에 의해 생성된 데이터를 이용하여 전이 학습을 처리할 수 있다.
일 실시예에서, 인코더는 입력 이미지의 일반 특성을 추출하는 저수준 모듈과 상기 일반 특성을 기초로 전문 데이터에 대한 미세 조정을 통해 전문 특성을 추출하는 고수준 모듈로 구성될 수 있다. 이를 위하여, 인코더는 전문 데이터에 대한 미세 조정에 앞서 충분한 양의 일반 이미지/캡션 데이터를 기초로 사전학습이 수행될 수 있다. 예를 들어, 사전학습을 위한 대량의 데이터로는 Imagenet, MSCOCO 등의 이미지 셋이 활용될 수 있고, 이미지 모델로는 Densenet, InceptionV3, ResNet-101 등이 활용될 수 있다.
일 실시예에서, 전처리 모듈은 입력 텍스트를 복수의 토큰들로 분해하고 전문성 쿼드의 각 특성과의 연관성에 따라 추출된 토큰들을 재구성함으로써 특성별 캡션을 생성할 수 있다. 전처리 모듈은 입력 텍스트를 기초로 다양한 방법을 적용하여 특성별 캡션을 생성할 수 있으며, 기본적으로는 입력 텍스트를 토큰 수준에서 분해한 후 각 특성과의 유사도를 기초로 연관성 낮은 토큰들을 제거하거나 또는 연관성 높은 토큰들을 추출하는 과정을 수행하여 입력 텍스트의 특성을 변화시킬 수 있다.
일 실시예에서, 전이 학습 모듈은 특성별 캡션에 대해 특성 별로 미세 조정을 독립적으로 수행하여 특성 별로 구축되는 서브 디코더(Sub-Decoder)들의 집합을 전문성 필터로서 생성할 수 있다. 전문가가 이미지를 인식할 때 하나의 특성이 아니라 여러 특성을 동시에 관찰하게 되며, 복수의 특성에 대한 기술이 혼재된 채로 학습이 이루어지면, 관찰간 간섭이 발생하여 각 특성 관점의 순수한 학습이 이루어지기 어려울 수 있다.
따라서, 전이 학습 모듈은 특성별 캡션에 대해 특성 별로 미세 조정을 수행하여 각 특성에 대응되는 서브 디코더(Sub-Decoder)를 독립적으로 구축할 수 있다. 이를 통해 전이 학습 모듈은 소량의 데이터에 대해 학습이 이루어지는 미세 조정에 있어 특성 간 간섭을 최소화할 수 있다. 결과적으로, 전문성 필터는 특성별 서브 디코더들의 집합으로 구성될 수 있다. 한편, 전문 분야 별로 전문성 필터가 독립적으로 생성될 수 있고, 하나의 전문성 필터에 대해 특성 별로 서브 디코더가 독립적으로 구축될 수 있다.
일 실시예에서, 전이 학습 모듈은 LSTM(Long Short-Term Memory)을 이용하여 미세 조정을 수행하고 특성별 캡션의 각 단어들을 LSTM의 각 단계에 순차적으로 입력할 수 있다. 여기에서, LSTM(Long Short-Term Memory)은 단어의 의미 추론에 있어 텍스트의 전체적인 문맥과 의미를 충분히 임베딩(Embeding)에 반영하기 어렵다는 한계를 해결하기 위한 RNN(Recurrent Neural Network)의 한 종류로서 단어의 상태 정보를 길게 유지할 수 있는 효과를 제공할 수 있다. 즉, 전이 학습 모듈은 미세 조정을 위해 LSTM 알고리즘을 사용할 수 있고, 특성별 캡션을 토큰으로 분해하여 LSTM의 각 단계에서 입력으로 제공할 수 있다.
전문 이미지 해석부(250)는 특정 이미지에 대해 전문성 필터를 적용하여 해당 특정 이미지에 관한 전문 이미지 해석을 생성할 수 있다. 전문성 필터는 전이 학습 수행부(230)에 의한 전이 학습을 통해 생성될 수 있고 전문 이미지 해석부(250)는 이를 이용하여 특정 이미지에 대해 전문적인 해석을 출력할 수 있다. 즉, 전문 이미지 해석은 특정 이미지에 대해 특정 분야의 전문성을 가진 전문가의 시각에서 도출되는 의미를 포함할 수 있다.
일 실시예에서, 전문 이미지 해석부(250)는 특정 이미지의 인코딩 데이터를 전문성 필터에 입력하여 출력된 결과로서 특성별 캡션을 획득하고 전문성 쿼드를 이용하여 특성별 캡션에 매칭되는 특성별 해석을 도출하며 특성별 캡션 및 해석을 통합한 결과로서 전문 이미지 해석을 생성할 수 있다. 전문 이미지 해석 과정에 대한 구체적인 내용은 도 9에서 보다 자세히 설명한다.
일 실시예에서, 전문 이미지 해석부(250)는 특성별 캡션에서 유효 토큰을 식별하는 제1 단계와, 유효 토큰을 기초로 해당 특성별 캡션의 대표 특성을 결정하는 제2 단계와, 전문성 쿼드에서 유효 토큰 및 대표 특성의 조합에 매칭되는 해석을 결정하는 제3 단계를 수행함으로써 특성별 해석을 도출할 수 있다.
예를 들어, 캡션 'A white house with many windows'는 ['A', 'white', 'house', 'with', 'many', 'windows']의 토큰들로 분할될 수 있고, 이들 중 전문성 쿼드에 포함된 객체 'window'와 상태 'many'가 유효 토큰으로 식별될 수 있다. 또한, 해당 두 정보의 조합으로 해당 캡션의 특성이 'count'임을 결정할 수 있다. 결과적으로, 해당 캡션은 전문성 쿼드의 'window-count-many'의 트리플(Triple)에 대응되는 해석을 생성할 수 있다.
일 실시예에서, 전문 이미지 해석부(250)는 특성별 캡션 및 해석에 관한 통합 방법으로서 (a)캡션 및 해석의 쌍에 관한 테이블 생성, (b)캡션과 해석의 단순 결합 및 (c)텍스트 요약(Text Summarization) 적용 중 어느 하나를 사용할 수 있다. 즉, 전문 이미지 해석부(250)는 이미지에 대한 전문 이미지 해석을 생성하기 위하여, 인코딩의 중간 단계에서 생성된 특성별 캡션과 특성별 해석의 집합을 하나의 문서로 통합할 수 있다. 전문 이미지 해석부(250)는 대표적으로 테이블 생성이나 텍스트 요약 등을 통해 통합 연산을 수행할 수 있으나, 반드시 이에 한정되지 않고, 다양한 방법을 적용하여 특성별 캡션 및 해석에 관한 통합을 처리할 수 있다.
일 실시예에서, 전문 이미지 해석부(250)는 전문성 쿼드 및 전문성 필터가 복수인 경우 각 분야 별로 특정 이미지에 대한 전문 이미지 해석을 병렬적으로 생성할 수 있다. 이에 대해서는 도 8에서 보다 자세히 설명한다.
일 실시예에서, 전문 이미지 해석부(250)는 특성별 캡션 및 전문성 쿼드 간의 대응관계가 1:N인 경우에 있어서, 특성 간의 중복이면 특성별 캡션에 대해 복수의 특성별 해석들을 생성하고 특성 내의 중복이면 특성별 캡션에 대해 특성별 해석을 생성하지 않을 수 있다. 이에 대해서는 도 10에서 보다 자세히 설명한다.
제어부(270)는 전문 이미지 해석 장치(130)의 전체적인 동작을 제어하고, 분석데이터 수신부(210), 전이 학습 수행부(230) 및 전문 이미지 해석부(250) 간의 제어 흐름 또는 데이터 흐름을 관리할 수 있다.
도 3은 도 1의 전문 이미지 해석 장치에서 수행되는 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 과정을 설명하는 순서도이다.
도 3을 참조하면, 전문 이미지 해석 장치(130)는 분석데이터 수신부(210)를 통해 복수의 이미지들, 각 이미지에 관한 텍스트 및 특정 분야의 전문성 이식을 위한 전문성 쿼드(E-Quad)를 수신할 수 있다(단락 S310). 전문 이미지 해석 장치(130)는 전이 학습 수행부(230)를 통해 전문성 쿼드를 기초로 복수의 이미지들 및 텍스트에 관한 전이 학습을 수행하여 특정 분야의 전문 이미지 해석을 위한 전문성 필터를 생성할 수 있다(단락 S330). 전문 이미지 해석 장치(130)는 전문 이미지 해석부(250)를 통해 특정 이미지에 대해 전문성 필터를 적용하여 해당 특정 이미지에 관한 전문 이미지 해석을 생성할 수 있다(단락 S350).
도 4는 이미지 캡셔닝의 학습과 추론 과정을 설명하는 도면이다.
도 4를 참조하면, 위 그림은 CNN과 LSTM을 활용한 학습 과정을 나타내고, 아래 그림은 학습된 결과를 이용한 추론 과정을 나타내고 있다. 학습 단계에서는 이미지와 캡션이 동시에 입력으로 사용되며, 디코더(Decoder)에서는 캡션의 각 단어들이 각 단계 LSTM 학습의 입력으로 사용될 수 있다. 입력된 이미지는 CNN을 이용하여 학습된 인코더(Encoder)에 의해 인코딩 데이터(Encoded Image)로 변환될 수 있고, 인코딩 데이터와 캡션은 LSTM의 입력으로 사용될 수 있다.
한편, 추론 단계에서는 캡션이 없는 이미지가 입력으로 사용되며, 학습 단계와 동일하게 인코더에 의해 인코딩 데이터로 변환될 수 있다. 디코더에서는 이전 LSTM의 출력이 다음 LSTM 학습의 입력으로 반복적으로 사용될 수 있다. 이 때, 각 LSTM의 출력을 조합한 것이 해당 이미지의 최종 결과물인 캡션에 해당된다.
도 5는 전이 학습을 활용한 이미지 캡셔닝의 학습 과정을 설명하는 도면이다.
도 5를 참조하면, 도 4에서는 학습을 위해 일반적인 캡션이 사용되는 반면, 전이 학습 과정에서는 전문적인 캡션이 사용될 수 있다. 도 5의 디코더(Decoder)는 도 4와 동일하며, 인코더(Encoder)는 도 4와 달리 사전학습 모델(Pre-Trained Model)과 미세조정(Fine-Tuning)으로 구성될 수 있다.
도 6은 미술 치료를 위한 전문성 쿼드의 일 실시예를 설명하는 도면이다.
도 6을 참조하면, 미술 치료를 위한 전문성 쿼드는 객체(Object), 특징(Feature), 상태(Status) 및 해석(Interpretation)으로 구성될 수 있다. 예를 들어, 창문(Window)이라는 객체는 개수(Count), 모양(Shape) 및 크기(Size)를 특성으로 포함할 수 있으나, 그 외에 위치(Position), 색(Color), 그리고 개폐상태(Condition) 등이 추가로 포함할 수 있음은 물론이다. 창문에 대한 개수(Count)라는 특성은 다수(many) 및 없음(no)을 상태로 포함할 수 있다.
또한, 전문성 쿼드는 객체, 특징 및 상태의 조합에 매칭되는 해석을 포함할 수 있다. 예를 들어, '창문(Window)-개수(Count)-다수(many)'의 조합에 대해 '외부와 접촉하고자 하는 강한 욕구'의 해석이 매칭되고, '창문(Window)-개수(Count)-없음(no)'의 조합에 대해 '폐쇄적인 성향'의 해석이 매칭될 수 있다. 전문성 쿼드는 전문 분야 별로 생성되어 전문 이미지 해석에 사용될 수 있고, 전문 분야의 특성에 따라 객체, 특성, 상태 및 해석에 관한 다양한 조합으로 구성될 수 있다.
도 7은 본 발명에 따른 특성별 캡션 생성 및 동시 학습 과정을 설명하는 도면이다.
도 7을 참조하면, 전문 이미지 해석 장치(130)는 전이 학습 수행부(230)를 통해 전문성 쿼드를 기초로 복수의 이미지들 및 텍스트에 관한 전이 학습을 수행하여 특정 분야의 전문 이미지 해석을 위한 전문성 필터(Expertise Filter)를 생성할 수 있다. 이 때, 인코더(Encoder)는 사전 학습 모델과 미세 조정의 두가지 모듈로 구성될 수 있고, 전문 데이터에 대한 미세 조정에 앞서 충분한 양의 일반 이미지/캡션 데이터에 대한 사전 학습이 수행될 수 있다.
도 7에서, 입력 텍스트 'A white house with red roof and man windows'는 도 6의 전문성 쿼드(E-Quad)를 참조하여 각 특성별로, 즉 지붕(roof)에 대한 캡션과 창문(window)에 대한 캡션으로 재구성될 수 있다. 전문성 필터(Expertise Filter)는 각 특성을 처리하기 위한 독립된 서브 디코더(Sub-Decoder)들의 집합으로 구성될 수 있으며, 각 특성에 대한 캡션들만 사용하여 미세 조정을 진행할 수 있다.
예를 들어, 캡션 'A white house with red roof'는 'roof-color' 특성을 처리하는 서브 디코더의 입력으로 사용되며, 'A white house with many windows'는 'window-count' 특성을 처리하는 서브 디코더의 입력으로 사용될 수 있다. 이와 같이 각 서브 디코더는 하나의 특성에 대한 캡션만을 독립적으로 학습하므로, 전문 이미지 해석 장치(130)는 관찰간 간섭 현상을 효과적으로 차단할 수 있다.
도 8은 본 발명에 따른 특성별 캡션 및 해석의 생성 과정을 설명하는 도면이다.
도 8을 참조하면, 전문 이미지 해석 장치(130)는 전문 이미지 해석부(250)를 통해 특정 이미지에 대해 전문성 필터를 적용하여 해당 특정 이미지에 관한 전문 이미지 해석을 생성할 수 있다. 일 실시예에서, 전문 이미지 해석부(250)는 전문성 쿼드 및 전문성 필터가 복수인 경우 각 분야 별로 특정 이미지에 대한 전문 이미지 해석을 병렬적으로 생성할 수 있다.
예를 들어, 도 8에서 미술 치료 분야와 인테리어 분야에 대해 각각 전문성 쿼드(E-Quad 1, E-Quad 2)와 전문성 필터(Ex1-Filter, Ex2-Filter)가 존재하는 경우 전문 이미지 해석부(250)는 입력 이미지(Input Image)의 인코딩 데이터(Encoded Image)에 각 전문성 필터를 적용하여 특성별 캡션들(Expert1 Captions, Expert2 Captions)을 각각 획득할 수 있고, 해당 특성별 캡션들을 기초로 각 전문성 쿼드를 참조하여 특성별 해석들(Expert1 Interpretations, Expert2 Interpretations)을 생성할 수 있다. 이 때, 전문 분야 별로 특성별 캡션 및 해석 생성 과정을 병렬적으로 수행될 수 있으며, 필요한 경우 순차적으로 수행될 수 있음은 물론이다.
도 9는 본 발명에 따른 특성별 해석 생성 및 통합 과정을 설명하는 도면이다.
도 9를 참조하면, 전문 이미지 해석 장치(130)는 전문 이미지 해석부(250)를 통해 특정 이미지에 관한 전문 이미지 해석을 생성할 수 있다. 이 때, 전문 이미지 해석은 특성별 캡션과 특성별 해석을 통합한 결과로서 생성될 있다. 각 특성별로 추론된 캡션으로부터 해석을 생성하고 통합하는 과정은 크게 두 단계로 이루어질 수 있다. 우선 첫 단계는 각 캡션과 E-Quad의 매핑을 통해 각 캡션에 대한 미술 치료 관점의 전문적 해석을 생성하는 단계에 해당하고, 두 번째는 생성된 캡션과 해석의 집합을 하나의 문서로 통합하는 단계에 해당할 수 있다.
보다 구체적으로, 첫 단계인 캡션과 E-Quad의 매핑은 기본적으로 캡션에 포함된 유효 토큰(객체, 특성, 상태)의 탐색을 통해 이루어질 수 있다. 두 번째 단계의 경우 (A) 캡션과 해석의 쌍으로 구성된 테이블 생성, (B) 캡션과 해석의 단순 통합, (C) 텍스트 요약(Text Summarization) 적용 등 다양한 방법으로 수행될 수 있다.
도 10은 캡션과 전문성 쿼드의 대응에 따른 해석 채택 과정을 설명하는 도면이다.
도 10을 참조하면, 전문 이미지 해석 장치(130)는 전문 이미지 해석부(250)를 통해 특성별 캡션 및 전문성 쿼드 간의 대응관계가 1:N인 경우에 있어서, 특성 간의 중복이면 특성별 캡션에 대해 복수의 특성별 해석들을 생성하고 특성 내의 중복이면 특성별 캡션에 대해 특성별 해석을 생성하지 않을 수 있다.
도 10에서, 캡션과 E-Quad의 대응은 여러 형태로 이루어질 수 있다. 전문 이미지 해석부(250)는 (a) 하나의 캡션이 하나의 E-Quad에 대응되는 경우는 대응되는 해석을 해당 캡션의 해석으로 채택할 수 있고, (d) 어떤 E-Quad에도 대응되지 않는 캡션은 별도의 해석을 생성하지 않을 수 있다. 한편, 전문 이미지 해석부(250)는 둘 이상의 E-Quad에 동시에 대응되는 캡션이 존재하는 경우, 이러한 중복 대응이 동일 특성 내에서 발생하는지 특성 간에 발생하는지 여부에 따라 처리가 달라질 수 있다.
즉, 특성간 중복(Inter Feature)은 하나의 캡션이 여러 특성을 기술하는 경우를 의미하며, (b) 이러한 캡션은 복수의 해석으로 대응될 수 있다. 한편, 특성 내 중복(Intra Feature)은 동일한 특성에 대해 상이한 상태를 기술하는 것이므로, (c) 해석이 불가능한 것으로 판단하여 별도의 해석을 생성하지 않을 수 있다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
100: 전문 이미지 해석 시스템
110: 사용자 단말 130: 전문 이미지 해석 장치
150: 데이터베이스
210: 분석데이터 수신부 230: 전이 학습 수행부
250: 전문 이미지 해석부 270: 제어부

Claims (13)

  1. 복수의 이미지들, 각 이미지에 관한 텍스트 및 특정 분야의 전문성 이식을 위한 전문성 쿼드(E-Quad)를 수신하는 분석데이터 수신부;
    상기 전문성 쿼드를 기초로 상기 복수의 이미지들 및 상기 텍스트에 관한 전이 학습을 수행하여 상기 특정 분야의 전문 이미지 해석을 위한 전문성 필터를 생성하는 전이 학습 수행부; 및
    특정 이미지에 대해 상기 전문성 필터를 적용하여 해당 특정 이미지에 관한 전문 이미지 해석을 생성하는 전문 이미지 해석부를 포함하되,
    상기 전문성 쿼드(E-Quad)는 상기 전문성 필터 및 상기 전문 이미지 해석의 생성 과정에 각각 독립적으로 사용되고,
    상기 전문 이미지 해석부는 상기 특정 이미지를 기초로 특성별 캡션 및 특성별 해석을 도출하여 상기 전문 이미지 해석을 생성하는 과정에서, 상기 특성별 캡션에서 유효 토큰을 식별하는 제1 단계와, 상기 유효 토큰을 기초로 해당 특성별 캡션의 대표 특성을 결정하는 제2 단계와, 상기 전문성 쿼드에서 상기 유효 토큰 및 상기 대표 특성의 조합에 매칭되는 해석을 결정하는 제3 단계를 수행함으로써 상기 특성별 해석을 도출하는 것을 특징으로 하는 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 장치.
  2. 제1항에 있어서, 상기 전문성 쿼드(E-Quad)는
    상기 특정 분야에 포함된 전문가 집단의 관찰과 해석에 따른 결과로서 생성되고 상기 관찰의 구조화 과정을 통해 도출되는 객체(Object), 특징(Feature) 및 상태(Status)의 조합과 상기 해석 간의 매칭 정보를 포함하는 것을 특징으로 하는 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 장치.
  3. 제1항에 있어서, 상기 전이 학습 수행부는
    입력 이미지를 인코딩하여 인코딩 데이터를 생성하는 인코더(Encoder);
    상기 입력 이미지에 관한 입력 텍스트에 상기 전문성 쿼드를 적용하여 특성별 캡션을 생성하는 전처리 모듈; 및
    상기 인코딩 데이터 및 상기 특성별 캡션을 입력으로 하여 사전학습 모델(Pre-trained Model)에 관한 미세 조정(Fine Tuning)을 통해 구축되는 디코더(Decoder)를 상기 전문성 필터로서 생성하는 전이 학습 모듈을 포함하는 것을 특징으로 하는 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 장치.
  4. 제3항에 있어서, 상기 인코더는
    상기 입력 이미지의 일반 특성을 추출하는 저수준 모듈과 상기 일반 특성을 기초로 전문 데이터에 대한 미세 조정을 통해 전문 특성을 추출하는 고수준 모듈로 구성되는 것을 특징으로 하는 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 장치.
  5. 제3항에 있어서, 상기 전처리 모듈은
    상기 입력 텍스트를 복수의 토큰들로 분해하고 상기 전문성 쿼드의 각 특성과의 연관성에 따라 추출된 토큰들을 재구성함으로써 상기 특성별 캡션을 생성하는 것을 특징으로 하는 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 장치.
  6. 제3항에 있어서, 상기 전이 학습 모듈은
    상기 특성별 캡션에 대해 특성 별로 미세 조정을 독립적으로 수행하여 특성 별로 구축되는 서브 디코더(Sub-Decoder)들의 집합을 상기 전문성 필터로서 생성하는 것을 특징으로 하는 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 장치.
  7. 제3항에 있어서, 상기 전이 학습 모듈은
    LSTM(Long Short-Term Memory)을 이용하여 상기 미세 조정을 수행하고 상기 특성별 캡션의 각 단어들을 상기 LSTM의 각 단계에 순차적으로 입력하는 것을 특징으로 하는 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 장치.
  8. 제1항에 있어서, 상기 전문 이미지 해석부는
    상기 특정 이미지의 인코딩 데이터를 상기 전문성 필터에 입력하여 출력된 결과로서 특성별 캡션을 획득하고 상기 전문성 쿼드를 이용하여 상기 특성별 캡션에 매칭되는 특성별 해석을 도출하며 상기 특성별 캡션 및 해석을 통합한 결과로서 상기 전문 이미지 해석을 생성하는 것을 특징으로 하는 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 장치.
  9. 삭제
  10. 제8항에 있어서, 상기 전문 이미지 해석부는
    상기 특성별 캡션 및 해석에 관한 통합 방법으로서 (a)캡션 및 해석의 쌍에 관한 테이블 생성, (b)캡션과 해석의 단순 결합 및 (c)텍스트 요약(Text Summarization) 적용 중 어느 하나를 사용하는 것을 특징으로 하는 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 장치.
  11. 제1항에 있어서, 상기 전문 이미지 해석부는
    상기 전문성 쿼드 및 상기 전문성 필터가 복수인 경우 각 분야 별로 상기 특정 이미지에 대한 전문 이미지 해석을 병렬적으로 생성하는 것을 특징으로 하는 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 장치.
  12. 제11항에 있어서, 상기 전문 이미지 해석부는
    특성별 캡션 및 상기 전문성 쿼드 간의 대응관계가 1:N인 경우에 있어서, 특성 간의 중복이면 상기 특성별 캡션에 대해 복수의 특성별 해석들을 생성하고 특성 내의 중복이면 상기 특성별 캡션에 대해 특성별 해석을 생성하지 않는 것을 특징으로 하는 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 장치.
  13. 전문 이미지 해석 장치에서 수행되는 방법에 있어서,
    복수의 이미지들, 각 이미지에 관한 텍스트 및 특정 분야의 전문성 이식을 위한 전문성 쿼드(E-Quad)를 수신하는 단계;
    상기 전문성 쿼드를 기초로 상기 복수의 이미지들 및 상기 텍스트에 관한 전이 학습을 수행하여 상기 특정 분야의 전문 이미지 해석을 위한 전문성 필터를 생성하는 단계; 및
    특정 이미지에 대해 상기 전문성 필터를 적용하여 해당 특정 이미지에 관한 전문 이미지 해석을 생성하는 단계를 포함하되,
    상기 전문성 쿼드(E-Quad)는 상기 전문성 필터 및 상기 전문 이미지 해석의 생성 과정에 각각 독립적으로 사용되고,
    상기 전문 이미지 해석을 생성하는 단계는 상기 특정 이미지를 기초로 특성별 캡션 및 특성별 해석을 도출하여 상기 전문 이미지 해석을 생성하는 과정에서, 상기 특성별 캡션에서 유효 토큰을 식별하는 제1 단계와, 상기 유효 토큰을 기초로 해당 특성별 캡션의 대표 특성을 결정하는 제2 단계와, 상기 전문성 쿼드에서 상기 유효 토큰 및 상기 대표 특성의 조합에 매칭되는 해석을 결정하는 제3 단계를 수행함으로써 상기 특성별 해석을 도출하는 단계를 포함하는 것을 특징으로 하는 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 방법.
KR1020200025791A 2020-03-02 2020-03-02 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 장치 및 방법 KR102183310B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200025791A KR102183310B1 (ko) 2020-03-02 2020-03-02 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200025791A KR102183310B1 (ko) 2020-03-02 2020-03-02 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102183310B1 true KR102183310B1 (ko) 2020-11-26

Family

ID=73679218

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200025791A KR102183310B1 (ko) 2020-03-02 2020-03-02 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102183310B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150135776A (ko) 2013-03-28 2015-12-03 가부시키가이샤 시세이도 이미지 해석 장치, 이미지 해석 방법 및 이미지 해석 프로그램
KR20190102399A (ko) * 2018-02-26 2019-09-04 (주)헬스허브 정제된 인공지능 강화학습 데이터 생성을 통한 의료영상 판독 시스템 및 그 방법
KR20190138238A (ko) * 2018-06-04 2019-12-12 삼성전자주식회사 딥 블라인드 전의 학습
KR102080227B1 (ko) * 2019-07-03 2020-02-21 한국해양과학기술원 수중의 타겟 물체를 수색하기 위한 자율 무인 잠수정의 운용 시스템 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150135776A (ko) 2013-03-28 2015-12-03 가부시키가이샤 시세이도 이미지 해석 장치, 이미지 해석 방법 및 이미지 해석 프로그램
KR20190102399A (ko) * 2018-02-26 2019-09-04 (주)헬스허브 정제된 인공지능 강화학습 데이터 생성을 통한 의료영상 판독 시스템 및 그 방법
KR20190138238A (ko) * 2018-06-04 2019-12-12 삼성전자주식회사 딥 블라인드 전의 학습
KR102080227B1 (ko) * 2019-07-03 2020-02-21 한국해양과학기술원 수중의 타겟 물체를 수색하기 위한 자율 무인 잠수정의 운용 시스템 및 방법

Similar Documents

Publication Publication Date Title
Siqueira et al. Efficient facial feature learning with wide ensemble-based convolutional neural networks
de Santana Correia et al. Attention, please! A survey of neural attention models in deep learning
Tzirakis et al. End-to-end multimodal emotion recognition using deep neural networks
CN108899050B (zh) 基于多模态情绪识别系统的语音信号分析子系统
CN111652066B (zh) 基于多自注意力机制深度学习的医疗行为识别方法
VanRullen Perception science in the age of deep neural networks
CN112699774B (zh) 视频中人物的情绪识别方法及装置、计算机设备及介质
Massiceti et al. Flipdial: A generative model for two-way visual dialogue
Beinborn et al. Multimodal grounding for language processing
Fernando et al. Exploiting human social cognition for the detection of fake and fraudulent faces via memory networks
CN111666588A (zh) 一种基于生成对抗网络的情绪差分隐私保护方法
Sun et al. Video question answering: a survey of models and datasets
CN113947702A (zh) 一种基于情境感知的多模态情感识别方法和系统
Zou et al. A survey on VQA: Datasets and approaches
Song et al. Hierarchical LSTMs with adaptive attention for visual captioning
Lee et al. Visual thinking of neural networks: Interactive text to image synthesis
Suglia et al. Imagining grounded conceptual representations from perceptual information in situated guessing games
KR102183310B1 (ko) 전문성 이식을 통한 딥러닝 기반의 전문 이미지 해석 장치 및 방법
CN116311454A (zh) 一种多线索关联学习的面部表情识别方法及系统
El-Keilany et al. Distant Viewing of the Harry Potter Movies via Computer Vision
Mohith et al. Visual world to an audible experience: visual assistance for the blind and visually impaired
Fatima et al. Use of affect context in dyadic interactions for continuous emotion recognition
Naveen et al. Mental Health Monitor using Facial Recognition
Selvaraj et al. Bimodal recognition of affective states with the features inspired from human visual and auditory perception system
Brownlee et al. Building Transformer Models with Attention: Implementing a Neural Machine Translator from Scratch in Keras

Legal Events

Date Code Title Description
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant