KR20190140504A - 강화학습을 이용한 이미지 캡션 생성 방법 및 시스템 - Google Patents

강화학습을 이용한 이미지 캡션 생성 방법 및 시스템 Download PDF

Info

Publication number
KR20190140504A
KR20190140504A KR1020180059569A KR20180059569A KR20190140504A KR 20190140504 A KR20190140504 A KR 20190140504A KR 1020180059569 A KR1020180059569 A KR 1020180059569A KR 20180059569 A KR20180059569 A KR 20180059569A KR 20190140504 A KR20190140504 A KR 20190140504A
Authority
KR
South Korea
Prior art keywords
sentence
error
similarity
learning
noun
Prior art date
Application number
KR1020180059569A
Other languages
English (en)
Inventor
차정원
박성재
Original Assignee
창원대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 창원대학교 산학협력단 filed Critical 창원대학교 산학협력단
Priority to KR1020180059569A priority Critical patent/KR20190140504A/ko
Publication of KR20190140504A publication Critical patent/KR20190140504A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06F17/27
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

이미지 캡션 생성 방법이 개시된다. 상기 방법은 이미지와 상기 이미지를 설명하는 정답 문장을 입력받는 단계와, 오차에 기초하여 상기 이미지에 대해 학습을 수행하여 학습 문장을 생성하는 단계와, 생성된 학습 문장과 상기 정답 문장의 문장 유사도를 판단하는 단계와, 상기 학습 문장에 포함된 명사들과 상기 정답 문장에 포함된 명사들 사이의 명사 유사도를 판단하는 단계와, 상기 문장 유사도와 상기 명사 유사도를 이용하여 상기 오차를 계산하는 단계를 포함한다.

Description

강화학습을 이용한 이미지 캡션 생성 방법 및 시스템{METHOD AND SYSTEM FOR GENERATING IMAGE CAPTION USING REINFORCEMENT LEARNING}
본 발명의 개념에 따른 실시 예는 강화학습을 이용한 이미지 캡션 생성 방법에 관한 것으로, 특히 강화학습을 이용하여 문장 생성시 잘못된 객체를 생성하는 문제를 해결하는 방법에 관한 것이다.
스마트폰과 각종 센서들의 상용화로 인해 이미지 데이터의 양이 폭발적으로 증가함에 따라 이미지 데이터의 활용성이 증가하고 있다.
한편, 이미지 캡션 생성 기술이란 적절히 생성된 자연어 문장을 이용하여 이미지의 내용을 설명하는 기술을 의미한다. 이미지 캡션 생성 기술은 기존의 이미지 분석 연구보다 어렵다. 문장을 생성하기 위해서는 이미지에 나타나는 객체를 인식하는 작업과 함께 각 객체 사이의 상관관계 등을 파악하는 문제를 추가로 해결해야하기 때문이다. 또한, 이미지 캡션 생성 기술은 최종적으로 자연어로 생성해야 하기 때문에 자연어 처리 기술이 함께 필요하다.
종래에는 이미지 캡션 생성 기술로서 이미지를 학습된 문장에 매칭하는 방법을 사용하거나, 이미지 분석과 문장 생성을 별개의 문제로 두고 각각의 모델을 학습시켜 결합하는 방법을 사용하였다.
이미지 캡션 생성을 위한 심층 신경망 모델의 설계(김동하, 김인철, 2017.04, 한국정보처리학회논문지. 소프트웨어 및 데이터 공학 6권4호 pages 203-210) 에는 이미지 캡션 생성과 모델 전이에 효과적인 심층 신경망 모델을 제시한다.
최근에는 합성곱신경망(convolutional neural network(CNN))과 순환신경망(recurrent neural networks(RNN))을 결합하여 종단간(End to End) 모델로 캡션을 생성하는 방법이 제안되었다.
그러나, 상기 방법의 경우 이미지 내부의 객체가 학습에 사용되는 빈도가 낮을 경우 다른 높은 빈도의 객체로 오인식해 잘못된 문장을 생성하는 문제가 발생한다. 또는 이미지 내부의 객체가 학습에 사용되는 빈도가 높을 경우에도 높은 빈도의 객체로 오인식해 잘못된 문장을 생성하는 문제가 발생한다.
이미지 캡션 생성을 위한 심층 신경망 모델의 설계(김동하, 김인철, 2017.04, 한국정보처리학회논문지. 소프트웨어 및 데이터 공학 6권4호 pages 203-210)
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명은 정답 문장과 학습 문장 사이의 유사도, 및 상기 정답 문장과 상기 학습 문장 각각의 명사들 사이의 유사도를 학습과정에서 평가하는 정보로 사용하여 이미지 캡션 생성 모델을 학습하는 알고리즘을 제공하는 것을 목적으로 한다.
상기와 같은 목적을 달성하기 위한 본 발명의 강화학습을 이용한 이미지 캡션 생성 방법은 이미지와 상기 이미지를 설명하는 정답 문장을 입력받는 단계와, 오차에 기초하여 상기 이미지에 대해 학습을 수행하여 학습 문장을 생성하는 단계와, 생성된 학습 문장과 상기 정답 문장의 문장 유사도를 판단하는 단계와, 상기 학습 문장에 포함된 명사들과 상기 정답 문장에 포함된 명사들 사이의 명사 유사도를 판단하는 단계와, 상기 문장 유사도와 상기 명사 유사도를 이용하여 상기 오차를 계산하는 단계를 포함한다.
상기 학습 문장을 생성하는 단계는, 상기 이미지에 대해 자연어 처리를 위한 CNN(convolutional neural network) 학습 모델을 이용하여 학습을 수행하여 자질들을 추출하는 단계와, 오차에 기초하여 추출된 자질들을 이용하여 LSTM 기법을 기반으로 상기 학습 문장을 생성하는 단계를 포함한다.
상기 명사 유사도를 판단하는 단계는, 상기 학습 문장에 포함된 제1 명사들을 추출하고, 추출된 제1 명사들을 이용하여 제1 멀티 핫 벡터를 생성하는 단계와, 상기 정답 문장에 포함된 제2 명사들을 추출하고, 추출된 제2 명사들을 이용하여 제2 멀티 핫 벡터를 생성하는 단계와, 상기 제1 멀티 핫 벡터와 상기 제2 멀티 핫 벡터 사이의 유사도를 계산하여 상기 명사 유사도를 판단하는 단계를 포함한다.
코사인 유사도(cosine similarity) 기법을 이용하여 상기 제1 멀티 핫 벡터와 상기 제2 멀티 핫 벡터 사이의 유사도를 계산한다.
상기 오차를 계산하는 단계는, 상기 문장 유사도를 이용하여 제1 오차를 계산하고, 상기 명사 유사도를 이용하여 제2 오차를 계산하는 단계와, 상기 제1 오차와 상기 제2 오차 각각에 대해 정규화를 수행하는 단계와, 정규화된 제1 오차와 정규화된 제2 오차를 이용하여 상기 오차를 계산한다.
컴퓨터로 구현되는 시스템에 있어서, 컴퓨터가 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 이미지와 상기 이미지를 설명하는 정답 문장을 입력받고, 오차에 기초하여 상기 이미지에 대해 학습을 수행하여 학습 문장을 생성하는 문장 생성부와, 생성된 학습 문장과 상기 정답 문장의 문장 유사도를 판단하고, 상기 학습 문장과 상기 정답 문장 각각에 포함된 명사들 사이의 명사 유사도를 판단하고, 상기 문장 유사도와 상기 명사 유사도를 이용하여 상기 오차를 계산하는 오차 계산부를 포함한다.
상기 오차 계산부는, 상기 학습 문장과 상기 정답 문장의 문장 유사도를 판단하는 문장 유사도 평가부와, 상기 학습 문장에 포함된 제1 명사들을 추출하고, 상기 정답 문장에 포함된 제2 명사들을 추출하는 명사 추출부와, 추출된 제1 명사들을 이용하여 제1 멀티 핫 벡터를 생성하고, 추출된 제2 명사들을 이용하여 제2 멀티 핫 벡터를 생성하는 멀티 핫 벡터 생성부와, 상기 제1 멀티 핫 벡터와 상기 제2 멀티 핫 벡터 사이의 유사도를 계산하여 상기 명사 유사도를 판단하는 명사 유사도 평가부를 포함한다.
상기 오차 계산부는 정규화부를 더 포함하고, 상기 문장 유사도 평가부는 상기 문장 유사도를 이용하여 제1 오차를 계산하고, 상기 명사 유사도 평가부는 상기 명사 유사도를 이용하여 제2 오차를 계산하고, 상기 정규화부는 상기 제1 오차와 상기 제2 오차 각각에 대해 정규화를 수행하고, 정규화된 제1 오차와 정규화된 제2 오차를 이용하여 최종 오차를 계산하고, 계산된 최종 오차를 상기 오차로서 피드백한다.
상기 오차 계산부는, 교차 엔트로피 오차(cross-entropy error(CEE)) 함수인 하기의 [수학식 1]을 이용하여 상기 문장 유사도를 판단한다.
[수학식 1]
Figure pat00001
여기서, n은 전체 학습 데이터의 개수를 의미하고, y는 정답 문장을 의미하고, a는 모델의 출력 결과인 생성된 문장을 의미하고, C는 제1 오차를 의미한다.
상기 명사 유사도 평가부는, 상기 제1 멀티 핫 벡터와 상기 제2 멀티 핫 벡터 사이의 코사인 유사도(cosine similarity)를 계산하는 함수인 하기의 [수학식 2]를 이용하여 상기 명사 유사도를 판단한다.
[수학식 2]
Figure pat00002
여기서, A는 제1 멀티 핫 벡터를 의미하고, B는 제2 멀티 핫 벡터를 의미하고, L은 제2 오차를 의미한다.
상기한 바와 같은 본 발명의 강화학습을 이용한 이미지 캡션 생성 방법은 문장의 유사도 뿐만 아니라 명사의 유사도를 이용하여 이미지 캡션 생성 모델을 학습함으로써 문장 생성시 고빈도 및 저빈도 객체에 대한 오류를 해결할 수 있는 효과가 있다.
또한, 명사의 유사도 판단 시 학습 문장에서 추출된 명사를 사용하기 때문에 학습을 위한 추가 코퍼스를 생성하지 않아도 학습이 가능한 효과가 있다.
본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 상세한 설명이 제공된다.
도 1은 본 발명의 실시 예에 따른 강화학습을 이용한 이미지 캡션 생성 시스템을 나타낸다.
도 2는 본 발명의 실시 예에 따른 오차 계산부를 나타내는 블록도이다.
도 3은 본 발명의 실시 예에 따른 멀티 핫 벡터를 생성하여 오차를 계산하는 방법을 설명하기 위한 개념도이다.
도 4는 본 발명의 실시 예에 따른 강화학습을 이용한 이미지 캡션 생성 방법을 설명하기 위한 플로우차트이다.
본 발명은 이미지를 학습하는 모델과 문장을 생성하는 모델을 한번에 학습하기 위한 End to End 모델을 기반으로 하고 강화학습을 이용하는 학습 모델을 제안한다. 구체적으로, 이미지 캡션을 생성하기 위해 CNN-LSTM 모델을 사용하며, 특히 LSTM 학습 시 사용되는 손실함수에 강화학습을 적용한다.
이하에서는 본 발명의 실시 예 및 도면을 참조하여, 본 발명을 더욱 상술한다.
도 1은 본 발명의 실시 예에 따른 강화학습을 이용한 이미지 캡션 생성 시스템을 나타낸다. 도 1을 참조하면 시스템(10)은 이미지와 상기 이미지를 설명하는 정답 문장이 입력되면, 입력된 이미지의 캡션을 생성할 수 있는 모델을 학습하는 알고리즘을 제공한다. 시스템(10)은 문장 생성부(100), 오차 계산부(200), 및 데이터베이스(300)를 포함한다.
실시 예에 따라, 시스템(10)은 본 발명의 실시 예에 따른 강화학습을 이용한 이미지 캡션 생성 방법을 수행하기 위해 컴퓨터로 구현되는 시스템을 의미할 수 있고, 시스템(10)은 컴퓨터가 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 문장 생성부(100)와 오차 계산부(200)를 포함할 수 있다.
문장 생성부(100)는 외부로부터 이미지(IMG)가 입력되면, 손실 함수(loss function)의 결과값에 해당하는 오차(ERR)에 기초하여 입력된 이미지(IMG)에 대해 학습을 수행하여 학습 문장을 생성할 수 있다.
문장 생성부(100)는 CNN 학습 모델(110)과 LSTM 학습 모델(130)을 포함할 수 있다. 문장 생성부(100)는 이미지(IMG)에 대해 자연어 처리를 위한 CNN 학습 모델(110)을 이용하여 학습을 수행하여 자질들(VT)을 추출한다. LSTM 학습 모델(130)은 오차(ERR)에 기초하여 추출된 자질들(VT)을 이용하여 LSTM 기법을 기반으로 학습 문장(TC)을 생성한다.
데이터베이스(300)는 전체 학습 데이터를 저장할 수 있다. 전체 학습 데이터는 정답 문장들 각각에 대해 형태소 분석(POS-tagging)을 수행한 결과를 의미할 수 있다. 또한, 데이터베이스(300)에는 전체 학습 데이터에 포함된 명사들의 갯수를 저장할 수 있다.
LSTM 학습 모델(130)은 오차(ERR)에 기초하여 추출된 자질들(VT)을 이용하여 데이터베이스(300)에 저장된 전체 학습 데이터로부터 적합한 단어들을(SV) 읽어온다. LSTM 학습 모델(130)은 읽어온 단어들을 조합하여 문장을 생성하고, 생성된 문장을 학습 문장(TC)으로서 출력할 수 있다.
오차 계산부(200)는 LSTM 학습 모델(130)이 학습할 때 사용되는 손실함수에 강화학습을 적용한다. 구체적으로, 오차 계산부(200)는 문장 생성부(100)로부터 생성된 학습 문장(TC)과 외부로부터 입력된 정답 문장(CC) 사이의 문장 유사도를 판단하고, 상기 정답 문장에서 추출된 명사들과 상기 학습 문장에서 추출된 명사들 사이의 명사 유사도를 판단한다. 오차 계산부(200)는 상기 문장 유사도와 상기 명사 유사도를 이용하여 오차를 계산한다.
따라서, 오차 계산부(200)는 이미지 캡션을 생성할 수 있는 모델을 학습시키는 과정에서 상기 문장 유사도와 함께 상기 명사 유사도를 상기 모델을 평가하는 정보로서 사용할 수 있다.
도 2는 본 발명의 실시 예에 따른 오차 계산부를 나타내는 블록도이다. 도 1과 도 2를 참조하면 오차 계산부(200)는 문장 유사도 평가부(210), 명사 추출부(230), 멀티 핫 벡터(multi-hot-vector) 생성부(250), 명사 유사도 평가부(270), 및 정규화부(290)를 포함할 수 있다.
문장 유사도 평가부(210)는 문장 생성부(100)에서 생성된 학습 문장(TC)과 외부로부터 입력된 정답 문장(CC)의 유사도를 이용하여 제1 오차(ERR1)를 계산한다. 손실 함수 중에서 교차 엔트로피 오차(cross-entropy error(CEE)) 함수인 하기의 [수학식 1]을 이용하여 문장이 얼마나 잘 생성되었는지에 대한 여부를 나타내는 제1 오차(ERR1)를 계산할 수 있다.
[수학식 1]
Figure pat00003
여기서, n은 전체 학습 데이터의 개수를 의미하고, y는 정답 문장을 의미하고, a는 모델의 출력 결과인 생성된 문장을 의미하고, C는 제1 오차를 의미한다. 정답 문장 y와 모델의 출력 a가 유사할수록 작은 오차를 가지게 된다.
명사 추출부(230)는 형태소 분석을 이용하여 학습 문장(TC)으로부터 제1 명사들을 추출하고, 정답 문장(CC)으로부터 제2 명사들을 추출한다. 멀티 핫 벡터 생성부(250)는 제1 명사들을 이용하여 제1 멀티 핫 벡터를 생성하고 제2 명사들을 이용하여 제2 멀티 핫 벡터를 생성한다.
명사 유사도 평가부(270)는 학습 문장으로부터 추출된 명사들과 정답 문장으로부터 추출된 명사들 사이의 유사도를 이용하여 제2 오차를 계산한다. 예컨대, 명사 유사도 평가부(270)는 제1 멀티 핫 벡터와 제2 멀티 핫 벡터 사이의 코사인 유사도(cosine similarity)를 계산하는 함수인 하기의 [수학식 2]를 이용하여 학습 문장이 얼마나 정확하게 명사를 추출했는가에 대한 여부를 나타내는 제2 오차를 계산할 수 있다.
[수학식 2]
Figure pat00004
여기서, A는 제1 멀티 핫 벡터를 의미하고, B는 제2 멀티 핫 벡터를 의미하고, L은 제2 오차를 의미한다.
도 3은 본 발명의 실시 예에 따른 멀티 핫 벡터를 생성하여 오차를 계산하는 방법을 설명하기 위한 개념도이다. 도 3을 참조하면, 멀티 핫 벡터의 크기가 10이고, 정답 문장이 “한 남자가 서핑 보드에서 묘기를 부리고 있다.”이고, 학습 문장이 “한 남자가 서핑 보드 위에 파도를 타고 있다”라고 가정하자. 이 때, 정답 문장에서 추출된 제1 명사들은 {“남자”, “서핑”, “보드”, “묘기”}이고, 학습 문장에서 추출된 제2 명사들은 {“남자”, “서핑”, “보드”, “파도”} 이다.
본 명세서에서 멀티 핫 벡터는 전체 학습 데이터에 포함된 명사들의 개수에 해당하는 길이의 벡터를 의미하며, 추출된 명사의 위치의 값을 1로 변경하는 방법으로 생성한다.
도 3에 도시된 바와 같이, 제1 멀티 핫 벡터는 10개의 원소로 이루어진 벡터에서 제1 명사들 {“남자”, “서핑”, “보드”, “묘기”} 각각에 해당하는 자리에 1을 표기하여 생성하고, 제2 멀티 핫 벡터는 10개의 원소로 이루어진 벡터에서 제2 명사들 {“남자”, “서핑”, “보드”, “파도”} 각각에 해당하는 자리에 1을 표기하여 생성한다.
생성된 제1 멀티 핫 벡터와 제2 멀티 핫 벡터에 코사인 거리(cosine distance)를 적용하여 제2 오차를 계산한다.
다시 도 2를 참조하면, 오차 계산부(200)는 문장 유사도를 이용하여 제1 오차를 구하고, 명사 유사도를 이용하여 제2 오차를 구하고, 상기 제1 오차와 상기 제2 오차를 조합하여 최종 오차를 계산한다. 계산된 최종 오차는 LSTM 학습 모델(130)로 피드백되고, LSTM 학습 모델(130)이 학습할 때 상기 최종 오차가 사용된다.
이 때, 제1 오차와 제2 오차의 각각의 범위가 달라서 최종 오차를 계산할 때 문제가 발생할 수 있다. 정규화부(290)는 최대-최소 정규화(min-max normalization) 기법인 하기의 [수학식 3]을 이용하여 제1 오차와 제2 오차 각각에 대해 0~1 사이의 값으로 정규화하고, 정규화된 제1 오차와 정규화된 제2 오차를 더하여 최종 오차를 계산할 수 있다.
[수학식 3]
Figure pat00005
여기서, x는 오차를 의미하고, x'는 정규화된 오차를 의미한다.
도 4는 본 발명의 실시 예에 따른 강화학습을 이용한 이미지 캡션 생성 방법을 설명하기 위한 플로우차트이다. 도 1과 도 4를 참조하면, 문장 생성부(100)가 이미지와 상기 이미지를 설명하는 정답 문장을 입력받고(S100), 오차에 기초하여 상기 이미지에 대해 학습을 수행하여 학습 문장을 생성한다(S200).
예컨대, 문장 생성부(100)는 오차(ERR)에 기초하여 이미지에 대해 학습을 수행하여 데이터베이스(300)에 저장된 전체 학습 데이터로부터 적합한 단어들을 읽어오고, 읽어온 단어들을 조합하여 문장을 생성하고, 생성된 문장을 학습 문장으로서 출력할 수 있다.
오차 계산부(200)는 생성된 학습 문장과 상기 정답 문장의 문장 유사도를 판단하고(S300), 생성된 학습 문장과 정답 문장 각각의 명사들 사이의 명사 유사도를 판단하고(S400), 상기 문장 유사도와 상기 명사 유사도를 이용하여 오차를 계산할 수 있다(S500).
계산된 오차는 LSTM 학습 모델(130)로 피드백되고, 이미지 캡션 생성 시스템은 상기 오차가 최소화되도록 이미지 캡션 생성 모델을 학습시킨다.
본 발명은 도면에 도시된 일 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.
10; 이미지 캡션 생성 시스템
100; 문장 생성부
200; 오차 계산부
300; 데이터베이스

Claims (10)

  1. 이미지와 상기 이미지를 설명하는 정답 문장을 입력받는 단계;
    오차에 기초하여 상기 이미지에 대해 학습을 수행하여 학습 문장을 생성하는 단계;
    생성된 학습 문장과 상기 정답 문장의 문장 유사도를 판단하는 단계;
    상기 학습 문장에 포함된 명사들과 상기 정답 문장에 포함된 명사들 사이의 명사 유사도를 판단하는 단계; 및
    상기 문장 유사도와 상기 명사 유사도를 이용하여 상기 오차를 계산하는 단계;를 포함하는 강화학습을 이용한 이미지 캡션 생성 방법.
  2. 제1항에 있어서, 상기 학습 문장을 생성하는 단계는,
    상기 이미지에 대해 자연어 처리를 위한 CNN(convolutional neural network) 학습 모델을 이용하여 학습을 수행하여 자질들을 추출하는 단계; 및
    오차에 기초하여 추출된 자질들을 이용하여 LSTM 기법을 기반으로 상기 학습 문장을 생성하는 단계;를 포함하는 것을 특징으로 하는 강화학습을 이용한 이미지 캡션 생성 방법.
  3. 제1항에 있어서, 상기 명사 유사도를 판단하는 단계는,
    상기 학습 문장에 포함된 제1 명사들을 추출하고, 추출된 제1 명사들을 이용하여 제1 멀티 핫 벡터를 생성하는 단계;
    상기 정답 문장에 포함된 제2 명사들을 추출하고, 추출된 제2 명사들을 이용하여 제2 멀티 핫 벡터를 생성하는 단계; 및
    상기 제1 멀티 핫 벡터와 상기 제2 멀티 핫 벡터 사이의 유사도를 계산하여 상기 명사 유사도를 판단하는 단계;를 포함하는 것을 특징으로 하는 강화학습을 이용한 이미지 캡션 생성 방법.
  4. 제3항에 있어서,
    코사인 유사도(cosine similarity) 기법을 이용하여 상기 제1 멀티 핫 벡터와 상기 제2 멀티 핫 벡터 사이의 유사도를 계산하는 것을 특징으로 하는 강화학습을 이용한 이미지 캡션 생성 방법.
  5. 제1항에 있어서, 상기 오차를 계산하는 단계는,
    상기 문장 유사도를 이용하여 제1 오차를 계산하고, 상기 명사 유사도를 이용하여 제2 오차를 계산하는 단계;
    상기 제1 오차와 상기 제2 오차 각각에 대해 정규화를 수행하는 단계; 및
    정규화된 제1 오차와 정규화된 제2 오차를 이용하여 상기 오차를 계산하는 것을 특징으로 하는 강화학습을 이용한 이미지 캡션 생성 방법.
  6. 컴퓨터로 구현되는 시스템에 있어서,
    컴퓨터가 판독 가능한 명령을 실행하도록 구현되는 적어도 하나의 프로세서를 포함하고,
    상기 적어도 하나의 프로세서는,
    이미지와 상기 이미지를 설명하는 정답 문장을 입력받고, 오차에 기초하여 상기 이미지에 대해 학습을 수행하여 학습 문장을 생성하는 문장 생성부; 및
    생성된 학습 문장과 상기 정답 문장의 문장 유사도를 판단하고, 상기 학습 문장과 상기 정답 문장 각각에 포함된 명사들 사이의 명사 유사도를 판단하고, 상기 문장 유사도와 상기 명사 유사도를 이용하여 상기 오차를 계산하는 오차 계산부를 포함하는 시스템.
  7. 제6항에 있어서, 상기 오차 계산부는,
    상기 학습 문장과 상기 정답 문장의 문장 유사도를 판단하는 문장 유사도 평가부;
    상기 학습 문장에 포함된 제1 명사들을 추출하고, 상기 정답 문장에 포함된 제2 명사들을 추출하는 명사 추출부;
    추출된 제1 명사들을 이용하여 제1 멀티 핫 벡터를 생성하고, 추출된 제2 명사들을 이용하여 제2 멀티 핫 벡터를 생성하는 멀티 핫 벡터 생성부; 및
    상기 제1 멀티 핫 벡터와 상기 제2 멀티 핫 벡터 사이의 유사도를 계산하여 상기 명사 유사도를 판단하는 명사 유사도 평가부;를 포함하는 시스템.
  8. 제7항에 있어서,
    상기 오차 계산부는 정규화부;를 더 포함하고,
    상기 문장 유사도 평가부는 상기 문장 유사도를 이용하여 제1 오차를 계산하고, 상기 명사 유사도 평가부는 상기 명사 유사도를 이용하여 제2 오차를 계산하고,
    상기 정규화부는 상기 제1 오차와 상기 제2 오차 각각에 대해 정규화를 수행하고, 정규화된 제1 오차와 정규화된 제2 오차를 이용하여 최종 오차를 계산하고, 계산된 최종 오차를 상기 오차로서 피드백하는 것을 특징으로 하는 시스템.
  9. 제8항에 있어서, 상기 오차 계산부는,
    교차 엔트로피 오차(cross-entropy error(CEE)) 함수인 하기의 [수학식 1]을 이용하여 상기 문장 유사도를 판단하는 것을 특징으로 하는 시스템.
    [수학식 1]
    Figure pat00006

    여기서, n은 전체 학습 데이터의 개수를 의미하고, y는 정답 문장을 의미하고, a는 모델의 출력 결과인 생성된 문장을 의미하고, C는 제1 오차를 의미한다.
  10. 제7항에 있어서, 상기 명사 유사도 평가부는,
    상기 제1 멀티 핫 벡터와 상기 제2 멀티 핫 벡터 사이의 코사인 유사도(cosine similarity)를 계산하는 함수인 하기의 [수학식 2]를 이용하여 상기 명사 유사도를 판단하는 것을 특징으로 하는 시스템.
    [수학식 2]
    Figure pat00007

    여기서, A는 제1 멀티 핫 벡터를 의미하고, B는 제2 멀티 핫 벡터를 의미하고, L은 제2 오차를 의미한다.
KR1020180059569A 2018-05-25 2018-05-25 강화학습을 이용한 이미지 캡션 생성 방법 및 시스템 KR20190140504A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180059569A KR20190140504A (ko) 2018-05-25 2018-05-25 강화학습을 이용한 이미지 캡션 생성 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180059569A KR20190140504A (ko) 2018-05-25 2018-05-25 강화학습을 이용한 이미지 캡션 생성 방법 및 시스템

Publications (1)

Publication Number Publication Date
KR20190140504A true KR20190140504A (ko) 2019-12-20

Family

ID=69062992

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180059569A KR20190140504A (ko) 2018-05-25 2018-05-25 강화학습을 이용한 이미지 캡션 생성 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR20190140504A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529857A (zh) * 2020-12-03 2021-03-19 重庆邮电大学 基于目标检测与策略梯度的超声图像诊断报告生成方法
KR20220086318A (ko) * 2020-12-16 2022-06-23 숭실대학교산학협력단 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 방법, 이를 수행하기 위한 기록 매체 및 장치

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529857A (zh) * 2020-12-03 2021-03-19 重庆邮电大学 基于目标检测与策略梯度的超声图像诊断报告生成方法
CN112529857B (zh) * 2020-12-03 2022-08-23 重庆邮电大学 基于目标检测与策略梯度的超声图像诊断报告生成方法
KR20220086318A (ko) * 2020-12-16 2022-06-23 숭실대학교산학협력단 비디오 캡셔닝을 위한 시각적-문자적 표현의 변경 방법, 이를 수행하기 위한 기록 매체 및 장치

Similar Documents

Publication Publication Date Title
US11100921B2 (en) Pinyin-based method and apparatus for semantic recognition, and system for human-machine dialog
US10467349B2 (en) Method and apparatus for translating based on artificial intelligence
JP7031101B2 (ja) 方法、システムおよび有形コンピュータ可読デバイス
US8494835B2 (en) Post-editing apparatus and method for correcting translation errors
US20190188257A1 (en) Context analysis apparatus and computer program therefor
US11157686B2 (en) Text sequence segmentation method, apparatus and device, and storage medium thereof
US20190236147A1 (en) Machine translation method and apparatus
CN105068997B (zh) 平行语料的构建方法及装置
US20190354588A1 (en) Device and method for natural language processing
CN113128203A (zh) 基于注意力机制的关系抽取方法、系统、设备及存储介质
CN111368037A (zh) 基于Bert模型的文本相似度计算方法和装置
JP7138467B2 (ja) 訳出完了判定装置、翻訳装置、訳出完了判定モデル学習装置、およびプログラム
Ngo et al. Overcoming the rare word problem for low-resource language pairs in neural machine translation
CN113657098A (zh) 文本纠错方法、装置、设备及存储介质
KR20190140504A (ko) 강화학습을 이용한 이미지 캡션 생성 방법 및 시스템
CN112836019B (zh) 公共医疗卫生命名实体识别与实体链接方法、装置、电子设备及存储介质
CN113705207A (zh) 语法错误识别方法及装置
Calixto et al. Sentence-Level Multilingual Multi-modal Embedding for Natural Language Processing.
CN112115715A (zh) 自然语言文本处理方法、装置、存储介质和电子设备
US20220366142A1 (en) Method of machine learning and information processing apparatus
CN113779199B (zh) 用于文档和摘要的一致性检测的方法、设备、装置和介质
US20230026110A1 (en) Learning data generation method, learning data generation apparatus and program
US20230028376A1 (en) Abstract learning method, abstract learning apparatus and program
US20180033425A1 (en) Evaluation device and evaluation method
JP6459300B2 (ja) 機械翻訳装置、機械翻訳方法、機械翻訳プログラムおよび記録媒体

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X601 Decision of rejection after re-examination