KR102270394B1

KR102270394B1 - 이미지를 인식하기 위한 방법, 단말, 및 저장 매체

Info

Publication number: KR102270394B1
Application number: KR1020197036824A
Authority: KR
Inventors: 원하오 장; 린 마; 웨이 류
Original assignee: 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date: 2017-09-11
Filing date: 2018-09-11
Publication date: 2021-06-30
Also published as: US20190385004A1; CN110490213B; JP6972319B2; CN108304846B; CN108304846A; CN110490213A; EP3611663A1; EP3611663A4; US10956771B2; WO2019047971A1; JP2020533696A; KR20200007022A

Abstract

이미지를 인식하기 위한 방법, 단말, 및 저장 매체가 머신 학습 분야에 속한다. 이 방법은: 인코더를 이용하여 인식 대상 목표 이미지에 대해 특징 추출을 수행하여, 특징 벡터 및 제1 주석 벡터 세트를 획득하는 단계(101); 상기 특징 벡터에 대해 초기화 처리를 수행하여 제1 초기 입력 데이터를 획득하는 단계; 제1 안내 네트워크 모델을 이용하여 상기 제1 주석 벡터 세트에 기초하여 제1 안내 정보를 생성하는 단계 - 상기 제1 안내 네트워크 모델은 이미지의 주석 벡터 세트에 따라 안내 정보를 생성하도록 구성됨 -; 및 디코더를 이용하여 상기 제1 안내 정보, 상기 제1 주석 벡터 세트 및 상기 제1 초기 입력 데이터에 기초하여 상기 이미지의 묘사 문구를 결정하는 단계를 포함한다. 이미지의 주석 벡터 세트에 따라 안내 정보를 생성할 수 있는 안내 네트워크 모델이 인코더와 디코더 사이에 추가된다. 따라서, 안내 네트워크 모델을 이용하여 생성된 안내 정보는 더 정확하고, 그에 의해 인코딩 과정을 정확하게 안내하고, 생성된 묘사 문구의 품질을 개선한다.

Description

이미지를 인식하기 위한 방법, 단말, 및 저장 매체

관련 출원에 대한 상호 참조

본 출원은 2017년 9월 11일자로 출원된 발명의 명칭이 "이미지를 인식하기 위한 방법 및 디바이스, 및 저장 매체"인 중국 특허 출원 제201710814187.2호에 대한 우선권을 주장하며, 이는 그 전체가 인용에 의해 포함된다.

본 출원의 실시예들은 머신 학습 분야에 관한 것으로, 특히 이미지를 인식하기 위한 방법, 단말 및 저장 매체에 관한 것이다.

과학 및 기술의 발전 및 편리한 인간-머신 상호작용 방식들에 대한 사람들의 요구에 따라, 머신 학습이 이미지 인식 분야에 널리 적용되어 왔다. 예를 들어, 조기 아이 교육, 이미지 검색, 및 맹인을 위한 내비게이션과 같은 시나리오들에서, 사람들은 통상적으로 머신들이 이미지들을 자동으로 인식하고, 이미지의 콘텐츠를 정확하게 묘사할 수 있는 묘사 문구를 제공하기를 기대한다. 즉, 이미지는 자연 언어로 번역되고, 그에 기초하여 이미지가 이해되거나 분류될 수 있다.

이미지를 인식하기 위한 기존의 시스템 프레임워크는 통상적으로 인코더 및 디코더를 포함한다. 시스템 프레임워크에 기초하여, 이미지를 인식하기 위한 방법이 관련 기술분야에 제공되며, 이는 다음과 같은 동작들을 포함한다. 인코더를 이용하여 이미지에 대해 특징 추출을 수행하여, 특징 벡터 및 주석 벡터 세트를 획득한다. 특징 벡터는 이미지에 대해 전역 특징 추출을 수행함으로써 획득되고, 주석 벡터 세트는 이미지에 대해 국부 특징 추출을 수행함으로써 획득된다. 그 후, 특징 벡터에 대해 초기화 처리를 수행하여, 초기 입력 데이터를 획득한다. 초기 입력 데이터는, 초기 은닉 상태 정보 및 초기 메모리 셀 상태 정보를 통상적으로 포함하는, 디코더의 초기 상태를 지시하기 위해 사용된다. 다음으로, 인위적으로 설계된 특정 정보가 안내 정보로서 이미지로부터 추출되고, 디코더를 이용하여 안내 정보에 기초하여 주석 벡터 세트 및 초기 입력 데이터를 디코딩하여, 이미지의 묘사 문구를 획득한다. 안내 정보는 인코더의 인코딩 과정을 안내하여, 생성된 묘사 문구의 품질을 개선하기 위해 사용되어, 생성된 묘사 문구가 이미지를 더 정확하게 묘사하고 의미에 부합할 수 있게 한다.

본 출원의 실시예들에 따르면, 인위적으로 설계된 안내 정보에 기초하여 생성된 이미지의 부정확한 묘사 문구의 결과로 생기는 생성된 묘사 문구의 낮은 품질의 관련 기술의 문제를 해결하기 위한, 이미지를 인식하기 위한 방법, 단말, 및 저장 매체가 제공된다. 기술적 해결책들은 다음과 같이 설명된다.

제1 국면에 따르면 이미지를 인식하기 위한 방법이 제공된다. 상기 방법은 단말에 의해 수행되고, 상기 방법은 다음과 같은 동작들을 포함한다.

인코더에 의해 인식 대상 목표 이미지에 대해 특징 추출을 수행하여, 특징 벡터 및 제1 주석 벡터 세트를 획득한다.

상기 특징 벡터에 대해 초기화 처리를 수행하여, 제1 초기 입력 데이터를 획득한다.

제1 안내 네트워크 모델을 이용하여 상기 제1 주석 벡터 세트에 기초하여 제1 안내 정보를 생성한다. 상기 제1 안내 네트워크 모델은 이미지의 주석 벡터 세트에 따라 안내 정보를 생성하도록 구성된다.

디코더를 이용하여 상기 제1 안내 정보, 상기 제1 주석 벡터 세트, 및 상기 제1 초기 입력 데이터에 기초하여 상기 목표 이미지의 묘사 문구를 결정한다.

제2 국면에 따르면 이미지를 인식하기 위한 장치가 제공되고, 상기 장치는 추출 모듈, 처리 모듈, 생성 모듈, 및 결정 모듈을 포함한다.

상기 추출 모듈은 인코더에 의해 인식 대상 목표 이미지에 대해 특징 추출을 수행하여, 특징 벡터 및 제1 주석 벡터 세트를 획득하도록 구성된다.

상기 처리 모듈은 상기 특징 벡터에 대해 초기화 처리를 수행하여, 제1 초기 입력 데이터를 획득하도록 구성된다.

상기 생성 모듈은 제1 안내 네트워크 모델을 이용하여 상기 제1 주석 벡터 세트에 기초하여 제1 안내 정보를 생성하도록 구성되고, 상기 제1 안내 네트워크 모델은 이미지의 주석 벡터 세트에 따라 안내 정보를 생성하도록 구성된다.

상기 결정 모듈은 디코더를 이용하여 상기 제1 안내 정보, 상기 제1 주석 벡터 세트, 및 상기 제1 초기 입력 데이터에 기초하여 상기 목표 이미지의 묘사 문구를 결정하도록 구성된다.

제3 국면에 따르면 단말이 제공된다. 상기 단말은 프로세서, 및 적어도 하나의 명령어, 적어도 하나의 프로그램, 및 코드 세트 또는 명령어 세트를 저장한 메모리를 포함한다. 상기 명령어, 상기 프로그램, 및 상기 코드 세트 또는 상기 명령어 세트는 상기 프로세서에 의해 로딩되고 실행되어 다음과 같은 동작들을 구현한다.

인코더를 이용하여 인식 대상 목표 이미지에 대해 특징 추출을 수행하여, 특징 벡터 및 제1 주석 벡터 세트를 획득한다.

제1 안내 네트워크 모델을 이용하여 상기 제1 주석 벡터 세트에 기초하여 제1 안내 정보를 생성하고, 상기 제1 안내 네트워크 모델은 이미지의 주석 벡터 세트에 따라 안내 정보를 생성하도록 구성된다.

제4 국면에 따르면 적어도 하나의 명령어, 적어도 하나의 프로그램, 및 코드 세트 또는 명령어 세트가 저장된, 컴퓨터 판독가능 저장 매체가 제공된다. 상기 명령어, 상기 프로그램, 및 상기 코드 세트 또는 상기 명령어 세트는 상기 프로세서에 의해 로딩되고 실행되어 제1 국면에 따른 이미지를 인식하기 위한 방법을 구현한다.

본 출원의 실시예들에서 제공되는 기술적 해결책들은 다음의 유익한 효과들을 야기한다:

본 출원의 실시예들에서, 인코더와 디코더 사이에 안내 네트워크 모델이 추가된다. 목표 이미지로부터 주석 벡터 세트가 추출된 후, 상기 안내 네트워크 모델을 이용하여 상기 주석 벡터 세트에 기초하여 안내 정보가 생성될 수 있다. 안내 네트워크 모델은, 이미지의 주석 벡터 세트에 따라, 이미지의 안내 정보를 생성할 수 있기 때문에, 안내 네트워크 모델을 이용하여 생성된 안내 정보는 목표 이미지의 묘사 문구의 생성, 및 정확도의 개선을 용이하게 할 수 있고, 그에 의해 목표 이미지의 인코딩 과정을 정확하게 안내하고, 생성된 묘사 문구의 품질을 개선할 수 있다.

본 출원의 실시예들에서의 기술적 해결책들을 보다 명확하게 설명하기 위해, 이하에서는 실시예들을 설명하기 위해 요구되는 첨부 도면들을 간단히 설명한다. 명백히, 다음의 설명에서의 첨부 도면들은 단지 본 출원의 일부 실시예들을 도시하고, 본 기술분야의 통상의 기술자는 창조적 노력 없이 이들 첨부 도면으로부터 다른 도면들을 여전히 도출할 수 있다.
도 1은 본 출원의 실시예에 따른 RNN 모델의 논리 구조의 개략도이다.
도 2는 본 출원의 실시예에 따른 LSTM 모델의 논리 구조의 개략도이다.
도 3은 본 출원의 실시예에 따른 이미지를 인식하기 위한 시스템의 개략 구조도이다.
도 4는 본 출원의 실시예에 따른 이미지를 인식하기 위한 다른 시스템의 개략 구조도이다.
도 5는 본 출원의 실시예에 따른 이미지를 인식하기 위한 또 다른 시스템의 개략 구조도이다.
도 6은 본 출원의 실시예에 따른 이미지를 인식하기 위한 또 다른 시스템의 개략 구조도이다.
도 7은 본 출원의 실시예에 따른 이미지를 인식하기 위한 방법의 흐름도이다.
도 8은 본 출원의 실시예에 따른 이미지를 인식하기 위한 다른 방법의 흐름도이다.
도 9는 본 출원의 실시예에 따른 이미지를 인식하기 위한 장치의 개략 구조도이다.
도 10은 본 출원의 실시예에 따른 생성 모듈(303)의 개략 구조도이다.
도 11은 본 출원의 실시예에 따른 다른 생성 모듈(303)의 개략 구조도이다.
도 12는 본 출원의 실시예에 따른 결정 모듈(304)의 개략 구조도이다.
도 13은 본 출원의 실시예에 따른 이미지를 인식하기 위한 다른 장치의 개략 구조도이다.
도 14는 본 출원의 실시예에 따른 다른 결정 모듈(304)의 개략 구조도이다.
도 15는 본 출원의 실시예에 따른 이미지를 인식하기 위한 다른 장치의 개략 구조도이다.
도 16은 본 출원의 실시예에 따른 단말(400)의 개략 구조도이다.

본 출원의 목적들, 기술적 해결책들, 및 이점들을 더 명확하게 하기 위해, 이하에서는 첨부 도면들을 참조하여 본 출원의 구현들을 상세히 설명한다.

본 출원의 실시예들이 상세히 설명되고 기술되기 전에, 본 출원의 실시예들에 관련되는 용어들이 먼저 설명되고 기술된다.

인코더

인코더는 이미지를 인코딩하여 벡터를 생성하도록 구성되고, 컨볼루션 신경망(CNN) 모델이 인코더에서 사용된다.

디코더

디코더는 인코더에 의해 생성된 벡터를 디코딩하여, 인코더에 의해 생성된 벡터를 이미지의 묘사 문구로 번역하도록 구성되고, 순환 신경망(RNN) 모델이 디코더에서 사용된다.

안내 정보

안내 정보는 이미지를 처리함으로써 획득되고, 통상적으로 벡터로서 표현된다. 안내 정보는 디코딩 과정을 안내하기 위해 디코더의 입력의 일부로서 사용될 수 있다. 디코더에 입력된 안내 정보는 디코더의 성능을 개선할 수 있고, 그에 의해 디코더가 더 나은 묘사 문구를 생성하고, 생성된 묘사 문구의 품질을 개선하는 것을 보장할 수 있다.

CNN 모델

CNN 모델은 종래의 다층 신경망에 기초하여 개발된 이미지 분류 및 인식을 위한 신경망 모델을 지칭한다. CNN 모델은 통상적으로 다수의 컨볼루션 층 및 적어도 하나의 완전 연결 층을 포함하고, 이미지에 대해 특징 추출을 수행할 수 있다.

RNN 모델

종래의 신경망은 어떠한 메모리 기능도 가지고 있지 않고, 즉, 종래의 신경망의 입력은 문맥 상관성이 없는 독립적인 데이터이다. 그러나, 실제 응용에서, 입력은 통상적으로 명백한 문맥 특징을 갖는 일부 직렬화된 입력들이다. 예를 들어, 묘사 문구 내의 다음 단어가 예측될 필요가 있다면, 이 경우, 신경망의 출력은 이전 입력에 의존할 필요가 있다. 즉, 신경망이 메모리 기능을 갖는 것이 요구된다. RNN 모델은 링으로서 지향적으로 연결된 노드들을 갖고 메모리 기능을 갖는 신경망이고, 내부 메모리 기능을 이용하여 입력된 데이터를 순환적으로 처리할 수 있다.

도 1은 본 출원의 실시예에 따른 RNN 모델의 논리 구조의 개략도이다. 도 1의 좌측에 도시된 바와 같이, RNN 모델은 입력 층, 은닉 층 및 출력 층을 포함하는 3층 구조이다. 은닉 층은 링 구조이다. 입력 층은 은닉 층에 연결되고, 은닉 층은 출력 층에 연결된다.

RNN 모델의 기능의 설명의 편의를 위해, 도 1의 좌측에 도시된 RNN 모델의 구조를 시간 서열에 따라 확장시켜, 도 1의 우측에 도시된 구조를 획득한다. RNN 모델의 입력 층에 의해 수신된 입력 데이터는 시간 서열에 따라 정렬된 데이터이고, 즉, 입력 층에 의해 수신된 입력 데이터는 직렬화된 데이터이다. 설명의 편의를 위해, 직렬화된 데이터는 x₁, x₂, …x_i, …및 x_n으로서 나타내어지고, 직렬화된 데이터에 각각 대응하는 시각들은 t₁, t₂, …t_i, …및 t_n으로서 나타내어지고, x₁, x₂, …x_i, …및 x_n을 각각 처리함으로써 획득된 출력 데이터는 f₁, f₂, …f_i, …및 f_n으로서 나타내어진다. 시간 서열에 따라 RNN 모델에 의해 입력 데이터를 처리하는 단계들은 순차적 단계들로서 지칭될 수 있고, 여기서 n은 RNN 모델에 의해 입력 데이터를 순환적으로 처리하는 횟수이다.

도 1의 우측에 도시된 바와 같이, 확장된 RNN 모델에서, 시각 t₁에서 입력 층에 의해 수신된 입력 데이터는 x₁로서 나타내어지고, x₁은 은닉 층으로 송신되고, 은닉 층은 x₁을 처리하고, 처리된 데이터를 출력 층으로 송신하여, 시각 t₁에서의 출력 데이터 f₁을 획득한다. 시각 t₂에서 입력 층에 의해 수신된 입력 데이터는 x₂로서 나타내어지고, x₂는 은닉 층으로 송신된다. 이 경우, 은닉 층은 시각 t₁에서의 출력 데이터 f₁에 따라 x₂를 처리하고, 처리된 데이터를 출력 층으로 송신하여, 시각 t₂에서의 출력 데이터 f₂를 획득한다. 즉, 임의의 시각 t_i에서, 시각 t_i에서 입력 층에 의해 송신된 입력 데이터 x_i에 더하여, 은닉 층은 시각 t_i-1에서의 출력 데이터 f_i-1을 더 수신하고, f_i-1에 따라 x_i를 처리하여, 시각 t_i에서의 출력 데이터 f_i를 획득한다.

장단기 메모리(LSTM) 네트워크 모델

LSTM 네트워크 모델은 시간 서열에서 비교적 긴 간격 및 지연으로 중요한 이벤트를 처리하고 예측할 수 있는 특수한 RNN 모델이다. LSTM 네트워크 모델은 LSTM 유닛을 포함한다. LSTM 유닛에는 입력 게이트, 망각 게이트, 및 출력 게이트가 제공된다. 각각의 순차적 단계에서, 배치된 입력 게이트, 망각 게이트, 및 출력 게이트에 기초하여 입력 데이터가 처리될 수 있다.

도 2는 본 출원의 실시예에 따른 LSTM 네트워크 모델의 논리 구조를 도시하는 개략도이다. 도 2의 좌측에 도시된 바와 같이, LSTM 네트워크 모델은 LSTM 유닛을 포함하고, LSTM 유닛은 링 구조이다. LSTM 유닛에 의해 수행되는 임의의 순차적 단계 t에서, LSTM 유닛은 순차적 단계 t에서의 입력 데이터 x_t 및 이전 순차적 단계 t-1에서의 출력 데이터 f_t-1을 처리하여 순차적 단계 t의 출력 데이터 f_t를 획득할 수 있다.

도 2의 우측에 도시된 바와 같이, 시간 서열에 따라 확장된 LSTM 네트워크 모델에서, 순차적 단계 t₁의 입력 데이터 x₁을 수신한 후에, LSTM 유닛은 x₁을 처리하여 순차적 단계 t₁의 출력 데이터 f₁을 획득하고, 그 후 f₁을 LSTM 유닛에 입력할 수 있다. 순차적 단계 t₂의 입력 데이터 x₂를 수신한 후에, LSTM 유닛은 f₁ 및 x₂를 처리하여, 순차적 단계 t₂의 출력 데이터 f₂를 획득할 수 있고, 순차적 단계 t_n의 입력 데이터 x_n 및 순차적 단계 t_n-1의 출력 데이터 f_n-1에 기초하여 순차적 단계 t_n의 출력 데이터 f_n이 획득될 때까지 계속되고, n은 LSTM 네트워크 모델에 의해 입력 데이터를 순환적으로 처리하는 횟수이다.

리뷰-네트

리뷰-네트는 인코더-디코더 프레임워크에 기초한 이미지 인식 네트워크이고, 검토기 및 디코더를 포함한다. 검토기와 디코더 둘 다는 통상적으로 CNN 모델을 사용한다. 검토기는 인코더에 의해 이미지로부터 추출된 전역 특징과 국부 특징 사이의 상호작용 관계를 더 발굴하고, 전역 특징과 국부 특징 사이의 상호작용 관계에 기초하여 디코더에 대한 초기 입력 데이터를 생성하여, 디코더의 성능을 개선할 수 있다.

다음으로, 본 출원의 실시예들의 응용 시나리오들이 설명된다.

본 출원의 실시예들은 조기 아이 교육, 이미지 탐색/검색, 및 맹인을 위한 판독 또는 채팅 시스템과 같은 시나리오들에 적용될 수 있다. 이들 시나리오들에서, 이미지들은 통상적으로 자연 언어로 자동으로 번역될 필요가 있다.

예를 들어, 사진들을 보고 객체들을 인식하는 어린 아이들의 능력을 개선하기 위해, 본 출원의 실시예들에서 제공된 이미지를 인식하기 위한 방법을 이용하여 어린 아이들에게 보이는 이미지를 이미지에 대응하는 묘사 문구들로 번역하고, 그 후 묘사 문구들을 재생할 음성으로 변환할 수 있어, 어린 아이들이 이미지 및 음성과 조합하여 이미지 콘텐츠의 콘텐츠를 학습할 수 있게 한다.

다른 예로서, 데이터베이스에 저장된 많은 이미지에 관하여, 본 출원의 실시예들에서 제공된 이미지를 인식하기 위한 방법을 이용하여 이미지를 이미지에 대응하는 묘사 문구로 번역하여 이미지의 묘사 문구에 따라 이미지를 정확하게 분류하거나, 이미지의 묘사 문구에 따라 이미지를 정확하게 검색할 수 있다.

다른 예로서, 이미지가 맹인에 의해 인식되도록 하기 위해, 이미지는 먼저 이미지에 대응하는 묘사 문구로 번역될 수 있다. 묘사 문구를 재생할 음성으로 변환하여, 맹인이 들리는 음성을 이용하여 이미지를 인식하게 하거나, 또는 묘사 문구를 점자로 변환하여 맹인이 점자를 판독함으로써 이미지를 인식하게 한다.

다른 예로서, 채팅 시스템에서, 채팅 창 내의 이미지를 이미지에 대응하는 묘사 문구로 번역할 수 있고, 묘사 문구를 디스플레이한다.

전술한 몇몇 응용 시나리오들만이 본 출원의 실시예들에서 설명을 위한 예들로서 사용되지만, 실제 응용에서는, 본 출원의 실시예들에서 제공된 이미지를 인식하기 위한 방법은 본 출원의 실시예들에서 여기서 열거되지 않은 다른 시나리오들에 추가로 적용될 수 있다.

다음으로, 본 출원의 실시예들에 관련된 시스템 아키텍처가 설명된다.

도 3은 본 출원의 실시예에 따른 이미지를 인식하기 위한 시스템의 개략 구조도이다. 도 3에 도시된 바와 같이, 이미지를 인식하기 위한 시스템은 인코더(10), 제1 안내 네트워크 모델(20) 및 디코더(30)를 포함한다.

인코더(10)는 인식 대상 목표 이미지를 인코딩하도록, 즉, 목표 이미지에 대해 특징 추출을 수행하여, 특징 벡터 및 제1 주석 벡터 세트를 획득하도록 구성된다. 특징 벡터는 목표 이미지의 전역 특징을 지시하기 위해 사용되고, 제1 주석 벡터 세트는 목표 이미지의 국부 특징을 지시하기 위해 사용된다.

인코더(10)는 제1 주석 벡터 세트를 디코더(30) 및 제1 안내 네트워크 모델(20)에 출력할 수 있다. 인코더(10)는 특징 벡터에 대해 초기화 처리를 수행하여, 제1 초기 입력 데이터를 획득하고, 그 후 제1 초기 입력 데이터를 디코더(30)에 출력할 수 있다. 대안적으로, 인코더(10)는 특징 벡터를 다른 모델에 출력할 수 있고, 다른 모델은 목표 인코더(10)에 의해 출력된 특징 벡터에 대해 초기화 처리를 수행하여, 제1 초기 입력 데이터를 획득하고, 제1 초기 입력 데이터를 디코더(30)에 출력한다.

제1 안내 네트워크 모델(20)은 인코더(10)에 의해 출력된 제1 주석 벡터 세트에 기초하여 제1 안내 정보를 생성하고, 그 후 제1 안내 정보를 디코더(30)에 출력하도록 구성된다. 제1 안내 네트워크 모델은 샘플 이미지의 주석 벡터 세트를 이용하여 훈련을 통해 획득된다.

디코더(30)는 제1 안내 정보, 제1 주석 벡터 세트 및 제1 초기 입력 데이터에 기초하여 목표 이미지의 묘사 문구를 결정하도록 구성된다.

전술한 내용으로부터, 관련 기술과 비교하여, 도 3에 도시된 이미지를 인식하기 위한 시스템은 인코더와 디코더 사이에 안내 네트워크 모델을 추가로 포함한다는 것을 알 수 있다. 안내 네트워크 모델은, 이미지의 주석 벡터 세트에 따라, 이미지의 묘사 문구를 생성할 수 있기 때문에, 인위적으로 설계된 안내 정보와 비교하여, 안내 네트워크 모델을 이용하여 생성된 안내 정보는 목표 이미지의 묘사 문구의 생성 과정에 더 적합할 수 있고 더 높은 정확도를 가져서, 이미지의 인코딩 과정을 정확하게 안내하고, 생성된 묘사 문구의 품질을 개선할 수 있다.

도 4는 본 출원의 실시예에 따른 이미지를 인식하기 위한 다른 시스템의 개략 구조도이다. 도 4에 도시된 바와 같이, 이미지를 인식하기 위한 시스템은 인코더(10), 제1 안내 네트워크 모델(20), 디코더(30), 및 멀티-인스턴스 모델(40)을 포함한다.

도 4에서의 인코더(10) 및 디코더(30)는 도 3의 것들과 동일한 기능들을 갖는다. 도 4의 인코더 및 디코더에 대한 구체적인 설명에 대해서는, 도 3을 참조할 수 있고, 이는 여기서 더 이상 설명되지 않는다.

멀티-인스턴스 모델(40)은 인식 대상 목표 이미지를 처리하여, 목표 이미지의 속성 정보를 획득하도록 구성된다. 속성 정보는 목표 이미지의 묘사 문구에서의 단어의 예측된 출현 확률을 지시하고, 목표 이미지의 속성 정보를 제1 안내 네트워크 모델(20)에 출력하기 위해 사용된다.

제1 안내 네트워크 모델(20)은 인코더(10)에 의해 출력된 제1 주석 벡터 세트 및 멀티-인스턴스 모델(40)에 의해 출력된 목표 이미지의 속성 정보에 기초하여 제1 안내 정보를 생성하도록 구성된다.

도 4에서, 멀티-인스턴스 모델(40)은 제1 안내 네트워크 모델(20)의 전에 추가되고, 제1 안내 네트워크 모델(20)은 목표 이미지의 속성 정보 및 제1 주석 벡터 세트에 따라 종합적으로 제1 안내 정보를 결정할 수 있고, 그에 의해 생성된 제1 안내 정보의 정확도를 더 개선할 수 있다.

도 5는 본 출원의 실시예에 따른 이미지를 인식하기 위한 다른 시스템의 개략 구조도이다. 도 5에 도시된 바와 같이, 이미지를 인식하기 위한 시스템은 인코더(10), 제1 안내 네트워크 모델(20), 검토기(50), 제2 안내 네트워크 모델(60), 및 디코더(30)를 포함한다.

도 5에서의 인코더(10)는 도 3의 것과 동일한 기능을 갖는다. 도 5에서의 인코더(10)의 구체적인 설명에 대해서는 도 3을 참조할 수 있다. 세부사항들은 여기서 다시 설명되지 않는다.

제1 안내 네트워크 모델(20)은 인코더(10)에 의해 입력된 제1 주석 벡터 세트에 기초하여 제1 안내 정보를 생성하고, 제1 안내 정보를 검토기(50)에 출력하도록 구성된다.

검토기(50)는 제1 초기 입력 데이터, 제1 주석 벡터 세트 및 제1 안내 정보에 기초하여 제2 주석 벡터 세트 및 제2 초기 입력 데이터를 결정하고, 제2 주석 벡터 세트 및 제2 초기 입력 데이터를 디코더(30)에 출력하고, 제2 주석 벡터 세트를 제2 안내 네트워크 모델(60)에 출력하도록 구성된다. 제2 초기 입력 데이터는 디코더(30)의 초기 입력 데이터이고, 초기 은닉 상태 정보 및 초기 메모리 셀 상태 정보를 포함할 수 있는 디코더(30)의 초기 상태를 지시하기 위해 사용된다.

제2 안내 네트워크 모델(60)은 제2 주석 벡터 세트에 기초하여 제2 안내 정보를 생성하고, 제2 안내 정보를 디코더(30)에 출력하도록 구성된다. 제2 안내 네트워크 모델도 샘플 이미지를 이용하여 훈련을 통해 획득된다.

디코더(30)는 제2 안내 정보에 기초하여 제2 주석 벡터 세트 및 제2 초기 입력 데이터를 디코딩하여, 목표 이미지의 묘사 문구를 획득하도록 구성된다.

도 5에서, 검토기는 인코더와 디코더 사이에 추가되고, 목표 이미지의 전역 특징과 국부 특징과 사이의 상호작용 관계를 더 발굴하도록 구성될 수 있고, 생성된 제2 주석 벡터 세트 및 제2 초기 입력 데이터는 목표 이미지의 특징들을 더 정확하게 지시할 수 있고, 그에 의해 이미지를 인식하기 위한 시스템의 시스템 성능을 더 개선하고, 생성된 묘사 문구의 품질을 개선할 수 있다.

도 6은 본 출원의 실시예에 따른 이미지를 인식하기 위한 다른 시스템의 개략 구조도이다. 도 6에 도시된 바와 같이, 이미지를 인식하기 위한 시스템은 인코더(10), 제1 안내 네트워크 모델(20), 검토기(50), 제2 안내 네트워크 모델(60), 디코더(30), 및 멀티-인스턴스 모델(40)을 포함한다.

도 6에서의 인코더(10), 검토기(50), 및 디코더(30)는 도 5의 것들과 동일한 기능들을 갖는다. 도 6에서의 인코더(10), 검토기(50), 및 디코더(30)의 구체적인 설명에 대해서는 도 5를 참조할 수 있다. 세부사항들은 여기서 다시 설명되지 않는다.

멀티-인스턴스 모델(40)은 인식 대상 목표 이미지를 처리하여, 목표 이미지의 속성 정보를 획득하고, 목표 이미지의 속성 정보를 제1 안내 네트워크 모델(20) 및 제2 안내 네트워크 모델(60)에 출력하도록 구성된다.

제1 안내 네트워크 모델(20)은 인코더(10)에 의해 출력된 제1 주석 벡터 세트 및 멀티-인스턴스 모델(40)에 의해 출력된 목표 이미지의 속성 정보에 기초하여 제1 안내 정보를 생성하고, 제1 안내 정보를 검토기(50)에 출력하도록 구성된다.

제2 안내 네트워크 모델(60)은 검토기(50)에 의해 출력된 제2 주석 벡터 세트 및 멀티-인스턴스 모델(40)에 의해 출력된 목표 이미지의 속성 정보에 기초하여 제2 안내 정보를 생성하고, 제2 안내 정보를 디코더(30)에 출력하도록 구성된다. 인코더(30)는 제2 안내 정보에 기초하여 제2 주석 벡터 세트 및 제2 초기 입력 데이터를 인코딩하여, 목표 이미지의 묘사 문구를 획득하도록 구성된다.

도 6에서, 멀티-인스턴스 모델(40)이 제1 안내 네트워크 모델(20) 및 제2 안내 네트워크 모델(60)의 전에 추가되고, 제1 안내 네트워크 모델(20) 및 제2 안내 네트워크 모델(60) 둘 다는 주석 벡터 세트 및 목표 이미지의 속성 정보에 따라 종합적으로 안내 정보를 결정할 수 있고, 그에 의해 생성된 안내 정보의 정확도를 더 개선할 수 있다.

도 3 내지 도 6에 도시된 이미지를 인식하기 위한 시스템들은 모두 복수의 샘플 이미지 및 다수의 샘플 이미지의 묘사 문구들에 기초하여 훈련을 통해 획득될 수 있다. 즉, 위에 설명된 인코더, 제1 안내 네트워크 모델, 검토기, 제2 안내 네트워크 모델, 및 디코더는 훈련을 통해 획득될 수 있고, 제1 안내 네트워크 모델 및 제2 안내 네트워크 모델은 훈련 과정에서 정확한 안내 정보를 생성하는 방법을 적응적으로 학습할 수 있고, 그에 의해 생성된 안내 정보의 정확도를 개선할 수 있다.

다음으로, 본 출원의 실시예들에서 제공된 이미지를 인식하기 위한 방법에 대해, 전술한 도 3 내지 도 6에 도시된 이미지를 인식하기 위한 시스템들의 개략 구조도들을 참조하여 상세히 설명한다. 도 7은 본 출원의 실시예에 따른 이미지를 인식하기 위한 방법의 흐름도이다. 이 방법은 단말에 의해 수행될 수 있다. 단말은 모바일 폰, 태블릿 컴퓨터, 또는 컴퓨터일 수 있다. 단말은 이미지를 인식하기 위한 상기 시스템을 포함할 수 있고, 예를 들어, 설치된 소프트웨어를 이용하여 이미지를 인식하기 위한 상기 시스템을 탑재할 수 있다. 도 7을 참조하면, 이 방법은 단계 101 내지 단계 104를 포함한다.

단계 101에서는, 인코더에 의해 인식 대상 목표 이미지에 대해 특징 추출을 수행하여, 특징 벡터 및 제1 주석 벡터 세트를 획득한다.

인식 대상 목표 이미지가 인식될 때, 목표 이미지는 인코더에 입력될 수 있고, 인코더를 이용하여 목표 이미지에 대해 특징 추출을 수행하여, 목표 이미지의 특징 벡터 및 제1 주석 벡터 세트를 획득한다.

구체적으로, 인코더를 이용하여 목표 이미지에 대해 전역 특징 추출을 수행하여, 특징 벡터를 획득할 수 있고, 인코더를 이용하여 목표 이미지에 대해 국부 특징 추출을 수행하여, 주석 벡터 세트를 획득할 수 있다. 특징 벡터는 목표 이미지의 전역 특징을 지시하기 위해 사용되고, 제2 식별 벡터 세트 내의 주석 벡터가 목표 이미지의 국부 특징을 지시하기 위해 사용된다.

옵션으로, CNN 모델이 인코더에서 사용될 수 있다. 인코더가 CNN 모델을 이용하여 목표 이미지에 대해 특징 추출을 수행할 때, 특징 벡터는 CNN 모델의 마지막 완전 연결 층을 이용하여 추출될 수 있고, 제2 주석 벡터 세트는 CNN 모델의 마지막 컨볼루션 층을 이용하여 추출될 수 있다.

단계 102에서는, 특징 벡터에 대해 초기화 처리를 수행하여, 제1 초기 입력 데이터를 획득한다.

제1 초기 입력 데이터는 인코더의 다음 처리 모델에 입력될 초기 입력 데이터를 지칭하고, 다음 처리 모델의 초기 상태를 지시하기 위해 사용된다. 다음 처리 모델은 디코더 또는 검토기일 수 있다. 제1 초기 입력 데이터는 제1 초기 은닉 상태 정보 및 제1 초기 메모리 셀 상태 정보를 포함할 수 있다. 제1 초기 은닉 상태 정보는 다음 처리 모델의 은닉 층의 초기 상태를 지시하기 위해 사용되고, 제1 초기 메모리 셀 상태 정보는 다음 처리 모델의 메모리 셀의 초기 상태를 지시하기 위해 사용된다.

구체적으로, 특징 벡터에 대해 선형 변환과 같은 초기화 처리를 수행하여, 제1 초기 입력 데이터를 획득할 수 있다. 더욱이, 인코더를 이용하여 특징 벡터에 대해 초기화 처리를 수행하여, 제1 초기 입력 데이터를 획득할 수 있다. 대안적으로, 다른 모델을 이용하여 인코더에 의해 출력된 특징 벡터에 대해 초기화 처리를 수행하여, 제1 초기 입력 데이터를 획득할 수 있고, 이는 본 출원의 이 실시예에서 제한되지 않는다.

예를 들어, 인코더는 RNN 모델 및 초기화 모델을 포함할 수 있다. RNN 모델은 목표 이미지에 대해 특징 추출을 수행하도록 구성되고, 초기화 모델은 특징 벡터에 대해 초기화 처리를 수행하도록 구성된다. RNN 모델을 이용하여 이미지에 대해 특징 추출을 수행하여, 특징 벡터를 획득한 후에, 인코더는 초기화 모델을 이용하여 특징 벡터에 대해 초기화 처리를 수행하여, 제1 초기 입력 데이터를 획득할 수 있다.

대안적으로, 인코더는 또한 목표 이미지에 대해 특징 추출만을 수행하도록 구성될 수 있고, 인코더 뒤에 초기화 모델이 추가된다. 초기화 모델은 특징 벡터에 대해 초기화 처리를 수행하도록 구성된다. 인코더를 이용하여 목표 이미지에 대해 특징 추출을 수행하여 특징 벡터를 획득한 후에, 인코더는 특징 벡터를 초기화 모델에 출력할 수 있다. 초기화 모델은 특징 벡터에 대해 초기화 처리를 수행하여, 제1 초기 입력 데이터를 획득할 수 있다.

단계 103에서는, 제1 안내 네트워크 모델이 제1 주석 벡터 세트에 기초하여 제1 안내 정보를 생성한다. 상기 제1 안내 네트워크 모델은 이미지의 주석 벡터 세트에 따라 안내 정보를 생성하도록 구성된다.

구체적으로, 제1 안내 네트워크 모델은 다음과 같이 2개의 구현 방식으로 제1 주석 벡터 세트에 기초하여 제1 안내 정보를 생성한다.

제1 구현 방식에서는, 제1 안내 네트워크 모델에서의 모델 파라미터들에 의해 구성된 제1 행렬에 기초하여 제1 주석 벡터 세트에 대해 선형 변환을 수행하여, 제2 행렬을 획득하고, 제1 안내 정보는 제2 행렬에서의 각각의 행의 최대값에 기초하여 결정된다.

제1 안내 네트워크 모델은 샘플 이미지의 주석 벡터 세트에 따라 훈련을 통해 획득될 수 있다. 일 실시예에서, 도 3에서의 모델들은 훈련 대상 모델들로 변환될 수 있고, 그 후 이미지를 인식하기 위한 변환된 시스템을 다수의 샘플 이미지 및 다수의 샘플 이미지의 묘사 문구들에 기초하여 훈련시킨다. 훈련 과정에서, 훈련 대상 인코더가 다수의 샘플 이미지로부터 각각 주석 벡터들을 추출하고, 주석 벡터들을 훈련을 위해 훈련 대상 안내 네트워크 모델에 출력할 수 있다. 이러한 방식으로, 이미지를 인식하기 위한 시스템이 완전히 훈련된 후에, 훈련 대상 안내 네트워크 모델을 제1 안내 네트워크 모델로서 훈련시킬 수 있다.

훈련 대상 인코더는 아직 훈련되지 않은 인코더일 수 있거나, 또는 훈련된 인코더일 수 있고, 이는 본 출원의 이 실시예에서 제한되지 않는다. 훈련된 인코더를 이용하여 훈련 대상 안내 네트워크 모델을 훈련시키는 것은 이미지를 인식하기 위한 전체 시스템의 훈련 효율을 개선하고, 그에 의해 훈련 대상 안내 네트워크 모델의 훈련 효율을 개선할 수 있다.

제1 주석 벡터 세트도 행렬 형식이고, 제1 행렬은 제1 안내 네트워크 모델에서의 모델 파라미터들에 의해 구성되는 그리고 제1 주석 벡터 세트에 대해 선형 변환을 수행하기 위해 사용되는 행렬이다. 구체적으로, 제1 주석 벡터 세트에 제1 행렬을 곱하여, 제1 주석 벡터 세트에 대해 선형 변환을 수행하여, 제2 행렬을 획득할 수 있다.

구체적으로, 제2 행렬에서의 각각의 행의 최대값에 기초하여 제1 안내 정보가 결정되는 동작은 다음과 같은 동작을 포함한다. 제2 행렬에서의 각각의 행의 최대값이 선택되고, 그 후 선택된 최대값들은 행들을 변경하지 않는 규칙에 따라 하나의 열을 갖는 행렬을 형성하고, 형성된 행렬은 제1 안내 정보로서 결정된다.

예를 들어, 제1 주석 벡터 세트가 A=[a₁, a₂, …a_k]로서 나타내어지고, a₁-a_k가 목표 이미지로부터 추출된 주석 벡터들을 나타내고, 제1 행렬이 P₁로서 나타내어지고, 제1 안내 정보가 v로서 나타내어진다고 가정하면, 제1 안내 정보는 다음의 공식 (1)에 따라 결정될 수 있다.

여기서 max 함수는 처리 대상 행렬의 각각의 행의 최대값을 취하고, 행들의 수를 변경하지 않고 하나의 열을 갖는 행렬을 형성하는 동작을 지칭한다.

제2 구현 방식에서는, 제1 안내 네트워크 모델이 이미지의 속성 정보 및 주석 벡터 세트에 따라 안내 정보를 생성하도록 구성되는 것에 응답하여, 목표 이미지를 멀티-인스턴스 모델에 입력할 수 있고, 목표 이미지를 멀티-인스턴스 모델을 이용하여 처리하여 목표 이미지의 속성 정보를 획득할 수 있다. 제1 안내 네트워크 모델에서의 모델 파라미터들에 의해 구성된 제3 행렬에 기초하여 제1 주석 벡터 세트에 대해 선형 변환을 수행하여, 제4 행렬을 획득할 수 있다. 목표 이미지의 속성 정보 및 제4 행렬에 기초하여 제5 행렬을 생성할 수 있다. 제1 안내 정보는 제5 행렬에서의 각각의 행의 최대값에 기초하여 결정될 수 있다. 샘플 이미지의 속성 정보는 샘플 이미지의 묘사 문구에서의 단어의 예측된 출현 확률을 지시하기 위해 사용된다.

멀티-인스턴스 모델은 복수의 샘플 이미지 및 다수의 샘플 이미지의 묘사 문구들을 이용하여 훈련을 통해 획득되고, 그것은 샘플 이미지들의 속성 정보를 출력할 수 있다. 즉, 멀티-인스턴스 모델은 이미지의 묘사 문구들에서의 가능한 단어들의 확률을 예측할 수 있다. 예를 들어, 속성 정보는 멀티-인스턴스 학습(MIL) 정보 등일 수 있다.

제1 안내 네트워크 모델은 샘플 이미지의 속성 정보 및 주석 벡터 세트를 이용하여 훈련을 통해 획득될 수 있다. 예를 들어, 도 4에서의 모델들은 훈련 대상 모델들로 변환될 수 있고, 이미지를 인식하기 위한 변환된 시스템을 다수의 샘플 이미지 및 다수의 샘플 이미지의 묘사 문구들에 기초하여 훈련시킨다. 훈련 과정에서, 훈련 대상 인코더는 샘플 이미지로부터 주석 벡터를 추출하고 주석 벡터를 훈련 대상 안내 네트워크 모델에 출력할 수 있고, 훈련 대상 멀티-인스턴스 모델은 이미지를 처리하여 속성 정보를 획득하고, 속성 정보를 훈련 대상 안내 네트워크 모델에 출력하여, 훈련 대상 안내 네트워크 모델이 속성 정보 및 샘플 이미지들의 주석 벡터들에 기초하여 훈련될 수 있게 한다. 이러한 방식으로, 전체 이미지 인식 시스템이 완전히 훈련된 후에, 훈련 대상 안내 네트워크 모델을 제1 안내 네트워크 모델로서 훈련시킬 수 있다.

훈련 대상 인코더는 아직 훈련되지 않은 인코더일 수 있거나, 훈련된 인코더일 수 있고, 훈련 대상 멀티-인스턴스 모델은 아직 훈련되지 않은 멀티-인스턴스 모델일 수 있거나, 훈련된 멀티-인스턴스 모델일 수 있고, 이는 본 출원의 이 실시예에서 제한되지 않는다. 훈련된 인코더 및/또는 훈련된 멀티-인스턴스 모델을 이용하여 훈련 대상 안내 네트워크 모델을 훈련시키는 것은 이미지를 인식하기 위한 전체 시스템의 훈련 효율을 개선하고, 그에 의해 훈련 대상 안내 네트워크 모델의 훈련 효율을 개선할 수 있다.

제1 주석 벡터 세트도 행렬 형식이고, 제3 행렬은 제1 안내 네트워크 모델의 모델 파라미터들에 의해 구성되는 그리고 제1 주석 벡터 세트에 대해 선형 변환을 수행하도록 구성되는 행렬이다. 구체적으로, 제1 주석 벡터 세트에 제3 행렬을 곱하여, 제1 주석 벡터 세트에 대해 선형 변환을 수행하고, 따라서 제4 행렬을 획득할 수 있다. 목표 이미지의 속성 정보 및 제4 행렬에 기초하여 제5 행렬을 생성한다.

제5 행렬에서의 각각의 행의 최대값에 기초하여 제1 안내 정보가 결정되는 동작은 다음과 같은 동작을 포함한다. 제5 행렬에서의 각각의 행의 최대값이 선택되고, 그 후 선택된 최대값들은 행들을 변경하지 않는 규칙에 따라 하나의 열을 갖는 행렬을 형성하고, 형성된 행렬은 제1 안내 정보로서 결정된다.

구체적으로, 제1 주석 벡터 세트가 A=[a₁, a₂, …a_k]로서 나타내어지고, a₁-a_k가 목표 이미지로부터 추출된 주석 벡터들을 나타내고, 제3 행렬이 P₂로서 나타내어지고, 목표 이미지의 속성 정보가 e로서 나타내어지고, 제1 안내 정보가 v로서 나타내어진다고 가정하면, 제1 안내 정보 v는 다음의 공식 (2)에 따라 결정될 수 있다.

전술한 내용으로부터 알 수 있는 바와 같이, 제1 안내 네트워크 모델은 학습을 통해 획득될 수 있고, 즉, 복수의 샘플 이미지 및 다수의 샘플 이미지의 묘사 문구를 이용하여 훈련을 통해 획득될 수 있고, 안내 정보는 훈련 과정에서 자동으로 학습될 수 있다. 따라서, 제1 안내 네트워크 모델을 이용하여 생성된 제1 안내 정보는 더 높은 정확도를 갖고, 생성된 제1 안내 정보는 인코딩의 인코딩 과정을 정확하게 안내하는 것을 용이하게 할 수 있고, 그에 의해 목표 이미지의 생성된 묘사 문구의 품질을 개선할 수 있다.

단계 104에서는, 디코더를 이용하여 제1 안내 정보, 제1 주석 벡터 세트, 및 제1 초기 입력 데이터에 기초하여 목표 이미지의 묘사 문구를 결정한다.

본 출원의 이 실시예에서, 디코더를 이용하여 제1 안내 정보, 제1 주석 벡터 세트, 및 제1 초기 입력 데이터에 기초하여 목표 이미지의 묘사 문구를 결정하는 것은 다음의 2개의 구현을 포함할 수 있다:

제1 구현 방식에서는, 디코더를 이용하여 제1 안내 정보에 기초하여 제1 주석 벡터 세트 및 제1 초기 입력 데이터를 디코딩하여, 목표 이미지의 묘사 문구를 획득한다.

옵션으로, RNN 모델, 예를 들어, LSTM 네트워크 모델이 디코더에서 사용될 수 있다.

구체적으로, 디코더를 이용하여 제1 안내 정보에 기초하여 제1 주석 벡터 세트 및 제1 초기 입력 데이터를 디코딩하여 목표 이미지의 묘사 문구를 획득하는 동작은 다음의 단계 1) 내지 단계 3)을 포함할 수 있다.

단계 1)에서는, 제1 RNN 모델이 디코더에 사용되고, 제1 RNN 모델이 M개의 제1 순차적 단계를 수행하도록 구성되는 경우에. 제1 RNN 모델에 의해 수행되는 각각의 제1 순차적 단계에 대해, 제1 목표 안내 정보에 기초하여 제1 순차적 단계의 입력 데이터가 결정된다.

M은 제1 RNN 모델에 의해 입력 데이터를 순환적으로 처리하는 횟수를 나타내고, M은 양의 정수이고, 각각의 제1 순차적 단계는 제1 RNN 모델에 의해 입력 데이터를 처리하는 단계이다.

제1 안내 정보에 기초하여 제1 순차적 단계의 입력 데이터가 결정되는 동작은 다음의 공식 (3)에 따라 제1 안내 정보에 기초하여 제1 순차적 단계의 입력 데이터가 결정되는 동작을 포함할 수 있다.

여기서 t는 제1 순차적 단계를 나타내고, x_t는 제1 순차적 단계의 입력 데이터를 나타내고, E는 단어 삽입 행렬을 나타내고 제1 RNN 모델의 모델 파라미터를 나타내고, y_t는 제1 순차적 단계에 대응하는 단어의 원-핫 벡터(one-hot vector)를 나타낸다. 제1 순차적 단계에 대응하는 단어는 제1 순차적 단계의 이전 순차적 단계의 출력 데이터에 기초하여 결정되고, Q는 제6 행렬을 나타내고 제1 RNN 모델의 모델 파라미터를 나타내고, v는 제1 안내 정보를 나타낸다.

단계 2)에서는, 제1 순차적 단계의 입력 데이터, 제1 주석 벡터 세트, 및 제1 순차적 단계의 이전 순차적 단계의 출력 데이터에 기초하여 제1 순차적 단계들 각각의 출력 데이터가 결정된다.

본 출원의 이 실시예에서는, 제1 RNN 모델을 이용하여 제1 순차적 단계의 입력 데이터, 제1 주석 벡터 세트, 및 제1 순차적 단계의 이전 순차적 단계의 출력 데이터를 처리하여, 제1 순차적 단계의 출력 데이터를 획득할 수 있다.

제1 순차적 단계의 출력 데이터는 은닉 상태 정보 및 메모리 셀 상태 정보를 포함할 수 있다. 더욱이, 제1 순차적 단계가 M개의 제1 순차적 단계 중 첫 번째 제1 순차적 단계로서 배치되는 경우, 제1 초기 입력 데이터에 기초하여 제1 순차적 단계의 이전 순차적 단계의 출력 데이터가 결정된다. 예를 들어, 제1 초기 입력 데이터가 제1 초기 은닉 상태 정보 h₀ 및 제1 초기 메모리 셀 상태 정보 c₀을 포함하고, 제1 순차적 단계가 첫 번째 제1 순차적 단계일 때, 제1 순차적 단계의 이전 순차적 단계의 출력 데이터는 h₀ 및 c₀을 포함한다.

본 출원의 이 실시예에서는, 생성된 묘사 문구의 품질을 개선하기 위해, 사용된 제1 RNN 모델은 LSTM 네트워크 모델일 수 있다. LSTM 네트워크 모델을 예로 하여, 제1 순차적 단계의 입력 데이터, 제1 주석 벡터 세트, 및 제1 순차적 단계의 이전 순차적 단계의 출력 데이터에 기초하여 제1 순차적 단계의 출력 데이터가 결정되는 동작은 다음의 공식 (4)로서 추상적으로 표현될 수 있다:

여기서 t는 제1 순차적 단계를 나타내고, x_t는 제1 순차적 단계의 입력 데이터를 나타내고, h_t-1은 제1 순차적 단계의 이전 순차적 단계의 은닉 상태 정보를 나타내고, A는 제1 주석 벡터 세트를 나타내고, h_t는 제1 순차적 단계의 은닉 상태 정보를 나타내고, LSTM은 LSTM 네트워크 모델의 처리 과정을 표현한다.

구체적으로, LSTM 네트워크 모델의 처리 과정은 다음의 공식을 이용하여 표현될 수 있다:

여기서 i_t, f_t, c_t 및 o_t는 입력 게이트, 망각 게이트, 메모리 게이트, 및 출력 게이트 각각에서의 제1 순차적 단계의 출력 데이터이고, σ는 sigmoid 함수와 같은 LSTM 네트워크 모델의 활성 함수를 나타내고, tanh()는 하이퍼볼릭 탄젠트 함수를 나타내고, T는 선형 변환을 위해 사용되는 행렬을 나타내고, x_t는 제1 순차적 단계의 입력 데이터를 나타내고, h_t-1은 제1 순차적 단계의 이전 순차적 단계의 은닉 상태 정보를 나타내고, d_t는 제1 주석 벡터 세트에 기초하여 결정된 목표 데이터를 나타내고, c_t는 제1 순차적 단계의 메모리 셀 상태 정보를 나타내고, c_t-1은 제1 순차적 단계의 이전 순차적 단계의 메모리 셀 상태 정보를 나타내고, h_t는 제1 순차적 단계의 은닉 상태 정보를 나타낸다.

목표 데이터 d_t는 제1 주석 벡터 세트일 수 있거나, 문맥 벡터일 수 있다. 문맥 벡터는 주의력 모델을 이용하는 것을 통해 제1 주석 벡터 세트 및 제1 순차적 단계의 이전 순차적 단계의 은닉 상태 정보에 기초하여 결정된다.

주의력 모델은, 목표 이미지 중, 이전 순차적 단계에서 주의가 기울여진 영역을 결정하도록 구성될 수 있고, 즉, A에서의 각각의 주석 벡터에 대한 가중치를 계산할 수 있고, 주석 벡터의 더 높은 가중치는 주석 벡터에 더 많은 주의가 기울여진 것을 지시한다.

가능한 구현에서, LSTM 네트워크 모델은 주의력 모델이 제공된 LSTM 네트워크 모델일 수 있다. 제1 주석 벡터 세트 및 제1 순차적 단계의 이전 순차적 단계의 은닉 상태 정보가 획득된 후에, 주의력 모델을 이용하여 제1 주석 벡터 세트 및 제1 순차적 단계의 이전 순차적 단계의 은닉 상태 정보에 기초하여 문맥 벡터가 결정될 수 있고, 문맥 벡터는 목표 데이터로서 사용된다.

구체적으로, 주의력 모델은 A에서의 임의의 주석 벡터 a_i와 h_t-1 간의 유사도 e_i를 계산하고, 그 후 a_i의 주의력의 가중치

를 계산하고, 각각의 주석 벡터의 가중치를 이용하여 문맥 벡터

를 생성할 수 있다.

단계 3)에서는, M개의 제1 순차적 단계의 모든 출력 데이터에 기초하여 목표 이미지의 묘사 문구가 결정된다.

구체적으로, M개의 제1 순차적 단계 중 모든 제1 순차적 단계의 출력 데이터를 조합하여, 목표 이미지의 묘사 문구를 획득할 수 있다. 실제 응용에서는, 각각의 제1 순차적 단계의 출력 데이터가 통상적으로 단어이고, 그 후 M개의 제1 순차적 단계에 의해 출력된 M개의 단어를 조합하여, 목표 이미지의 묘사 문구를 획득할 수 있다.

도 3에 도시된 목표 이미지를 예로 하여, M개의 제1 순차적 단계의 모든 출력 데이터가 boy, to, girl, send, 및 flowers를 포함할 수 있다면, 목표 이미지의 묘사 문구는 "A boy sends flowers to a girl"이다.

또한, 목표 이미지의 주석 벡터 세트에 기초하여 안내 정보를 정확하게 생성할 수 있는 상기 제1 안내 네트워크 모델을 획득하기 위해, 인코더에 의해 목표 이미지에 대해 특징 추출을 수행하여 특징 벡터 및 제1 주석 벡터 세트를 획득하기 전에, 훈련 대상 제1 인코더, 훈련 대상 제1 안내 네트워크 모델 및 훈련 대상 제1 디코더를 조합하여, 제1 캐스케이드 네트워크 모델을 획득할 수 있고, 경사 하강법을 이용하여 다수의 샘플 이미지 및 다수의 샘플 이미지의 묘사 문구들에 기초하여 제1 캐스케이드 네트워크 모델을 훈련시켜, 인코더, 제1 안내 네트워크 모델 및 디코더를 획득할 수 있다.

즉, 훈련 대상 제1 인코더, 훈련 대상 제1 안내 네트워크 모델 및 훈련 대상 제1 디코더를, 이미지의 묘사 문구를 획득하기 위해, 이미지를 처리할 수 있는 이미지를 인식하기 위한 시스템으로서 도 3 또는 도 4에 도시된 연결 방식으로 구성할 수 있고, 이미지를 인식하기 위한 시스템은 다수의 샘플 이미지 및 다수의 샘플 이미지의 묘사 문구들에 기초하여 훈련된다. 이미지를 인식하기 위한 시스템의 훈련 과정에서, 훈련 대상 제1 안내 네트워크 모델이 훈련될 수 있고, 훈련 대상 제1 안내 네트워크 모델은 훈련 과정에서 안내 정보를 적응적으로 학습하여 정확한 안내 정보가 생성될 수 있도록 보장할 수 있다.

훈련 대상 제1 안내 네트워크 모델을 훈련시키는 과정에서, 다중 라벨 마진 손실 함수(multi-label margin loss function)를 훈련 대상 제1 안내 네트워크 모델의 손실 함수로서 사용할 수 있고, 랜덤 경사 하강법을 이용하여 손실 함수에 기초하여 훈련 대상 제1 안내 네트워크 모델의 모델 파라미터들을 조정하여, 제1 안내 네트워크 모델을 획득한다.

실제 훈련에서는, 주석된 훈련 세트가 훈련을 수행하기 위해 사용될 수 있다. 이 훈련 세트는, MSCOCO 데이터 세트(공통 데이터 세트)와 같은, <샘플 이미지, 묘사 문구>의 쌍의 세트이다.

훈련 대상 제1 인코더는 아직 훈련되지 않은 인코더일 수 있거나, 또는 훈련된 인코더일 수 있고, 이는 본 출원의 이 실시예에서 제한되지 않는다. 예를 들어, ImageNet(현재 세계에서 가장 큰 이미지 인식 데이터베이스인, 컴퓨터 시각 시스템 인식 프로젝트 명칭) 상에서 사전 훈련된 CNN 모델이 훈련 대상 제1 인코더에서 사용될 수 있다. CNN 모델은 inception V3 모델(CNN 모델), Resnet 모델(CNN 모델), 또는 VGG 모델(CNN 모델) 등일 수 있다.

제1 안내 네트워크 모델은 훈련 대상 제1 인코더로서 훈련된 인코더를 이용하여 훈련되고, 그에 의해 전체 제1 캐스케이드 네트워크 모드의 훈련 효율을 개선하고, 제1 안내 네트워크 모델의 훈련 효율을 더 개선한다.

본 출원의 이 실시예에서는, 목표 이미지를 인식하여 목표 이미지의 묘사 문구를 획득하는 과정 및 안내 네트워크 모델을 훈련시키는 과정이 동일한 단말에서 수행될 수 있거나, 상이한 단말들에서 수행될 수 있고, 이는 본 출원의 이 실시예에서 제한되지 않는다.

제2 구현 방식에서는, 검토기를 이용하여 제1 안내 정보, 제1 주석 벡터 세트 및 제1 초기 입력 데이터에 기초하여 제2 주석 벡터 세트 및 제2 초기 입력 데이터가 결정된다. 제2 안내 네트워크 모델을 이용하여 상기 제2 주석 벡터 세트에 기초하여 제2 안내 정보를 생성한다. 인코더를 이용하여 제2 안내 정보에 기초하여 제2 주석 벡터 세트 및 제2 초기 입력 데이터를 인코딩하여, 목표 이미지의 묘사 문구를 획득한다.

제2 구현 방식은 도 8에 도시된 이하의 실시예에서 상세히 설명되고, 본 출원의 이 실시예에서 여기서 반복적으로 설명되지 않는다는 점이 설명되어야 한다.

본 출원의 이 실시예에서, 인코더와 디코더 사이에 안내 네트워크 모델이 추가된다. 이미지로부터 주석 벡터 세트가 추출된 후, 안내 네트워크 모델을 이용하여 주석 벡터 세트에 기초하여 안내 정보가 생성될 수 있다. 안내 네트워크 모델은 샘플 이미지의 주석 벡터 세트에 기초하여 훈련을 통해 획득되기 때문에, 안내 네트워크 모델은 훈련 과정에서 이미지의 주석 벡터 세트에 따라 안내 정보를 정확하게 생성하는 방법을 적응적으로 학습할 수 있다. 따라서, 안내 네트워크 모델에 의해 생성된 안내 정보는 높은 정확도를 가지며, 그에 의해 이미지의 인코딩 과정을 정확하게 안내하고, 생성된 묘사 문구의 품질을 개선한다.

다음으로, 본 출원의 실시예들에서 제공된 이미지를 인식하기 위한 방법에 대해, 상기 도 5 및 도 6에 도시된 이미지를 인식하기 위한 시스템들의 개략 구조도들을 참조하여 상세히 설명한다. 도 8은 본 출원의 실시예에 따른 이미지를 인식하기 위한 다른 방법의 흐름도이다. 이 방법은 단말에 적용된다. 도 8을 참조하면, 이 방법은 단계 201 내지 단계 206을 포함한다.

단계 201에서는, 인코더에 의해 인식 대상 목표 이미지에 대해 특징 추출을 수행하여, 특징 벡터 및 제1 주석 벡터 세트를 획득한다.

단계 202에서는, 특징 벡터에 대해 초기화 처리를 수행하여, 제1 초기 입력 데이터를 획득한다.

단계 203에서는, 제1 안내 네트워크 모델을 이용하여 제1 주석 벡터 세트에 기초하여 제1 안내 정보를 생성한다.

단계 201 내지 단계 203의 구체적인 구현들에 대해서는, 단계 101 내지 단계 103의 관련 설명을 참조할 수 있다. 이는 본 출원의 이 실시예에서 여기서 다시 설명되지 않는다.

단계 204에서는, 검토기를 이용하여 제1 안내 정보, 제1 주석 벡터 세트 및 제1 초기 입력 데이터에 기초하여 제2 주석 벡터 세트 및 제2 초기 입력 데이터가 결정된다.

본 출원의 실시예에서는, 디코더 및 검토기 둘 다가 통상적으로 RNN 모델을 사용하거나, 물론 다른 모델들을 사용할 수 있는데, 이는 본 출원의 이 실시예에서 제한되지 않는다.

검토기는 인코더에 의해 이미지로부터 추출된 전역 특징과 국부 특징 사이의 상호작용 관계를 더 발굴하도록 구성되어, 전역 특징과 국부 특징 사이의 상호작용 관계에 기초하여 디코더에 대한, 초기 입력 데이터, 즉, 제2 초기 입력 데이터를 생성하여, 디코더의 성능을 개선하고, 생성된 묘사 문구의 품질을 더 개선한다.

제1 초기 입력 데이터는 검토기에 입력될 입력 데이터를 지칭하고, 제1 초기 은닉 상태 정보 및 제1 초기 메모리 셀 상태 정보를 포함할 수 있는 검토기의 초기 상태를 지시하기 위해 사용된다. 제1 초기 은닉 상태 정보는 검토기의 은닉 층의 초기 상태를 지시하기 위해 사용되고, 제1 초기 메모리 셀 상태 정보는 검토기의 메모리 셀의 초기 상태를 지시하기 위해 사용된다.

제2 초기 입력 데이터는 디코더에 입력될 입력 데이터를 지칭하고, 제2 초기 은닉 상태 정보 및 제2 초기 메모리 셀 상태 정보를 포함할 수 있는 디코더의 초기 상태를 지시하기 위해 사용된다. 제2 초기 은닉 상태 정보는 디코더의 은닉 층의 초기 상태를 지시하기 위해 사용되고, 제2 초기 메모리 셀 상태 정보는 디코더의 메모리 셀의 초기 상태를 지시하기 위해 사용된다.

구체적으로, 검토기를 이용하여 제1 안내 정보, 제1 주석 벡터 세트 및 제1 초기 입력 데이터에 기초하여 제2 주석 벡터 세트 및 제2 초기 입력 데이터가 결정되는 동작은 다음과 같이 단계 1) 내지 3)을 포함할 수 있다.

단계 1)에서는, 제1 검토기가 제2 RNN 모델을 사용하고, 제2 RNN 모델이 N개의 제2 순차적 단계를 수행하도록 구성되는 경우, 제2 RNN 모델에 의해 수행되는 각각의 제2 순차적 단계에 대해, 제1 안내 정보에 기초하여 제2 순차적 단계의 입력 데이터가 결정된다.

N은 제2 RNN 모델에 의해 입력 데이터를 순환적으로 처리하는 횟수를 나타내고, N은 양의 정수이다. 각각의 제2 순차적 단계는 제2 RNN 모델에 의해 입력 데이터를 처리하는 단계이다.

구체적으로, 제2 순차적 단계의 입력 데이터는 다음의 공식 (6)에 따라 제2 안내 정보에 기초하여 결정될 수 있다.

여기서 t는 제2 순차적 단계를 나타내고,

는 제2 순차적 단계의 입력 데이터를 나타내고,

는 단어 삽입 행렬을 나타내고 제2 RNN 모델의 모델 파라미터를 나타내고,

는 제7 행렬을 나타내고 제2 RNN 모델의 모델 파라미터를 나타내고,

는 제2 안내 정보를 나타낸다.

단계 2)에서는, 제2 순차적 단계의 입력 데이터, 제1 주석 벡터 세트, 및 제2 순차적 단계의 이전 제2 순차적 단계의 출력 데이터에 기초하여 제2 순차적 단계의 출력 데이터가 결정된다.

제2 순차적 단계의 출력 데이터는 은닉 상태 정보 및 메모리 셀 상태 정보를 포함할 수 있다. 제2 순차적 단계가 N개의 제2 순차적 단계 중 첫 번째 제2 순차적 단계인 경우, 제1 초기 입력 데이터에 기초하여 제2 순차적 단계의 이전 제2 순차적 단계의 출력 데이터가 결정된다.

본 출원의 이 실시예에서는, 제2 RNN 모델을 이용하여 제2 순차적 단계의 입력 데이터, 제2 주석 벡터 세트, 및 제2 순차적 단계의 이전 제2 순차적 단계의 출력 데이터를 처리하여, 제2 순차적 단계의 출력 데이터를 획득할 수 있다.

구체적으로, 제2 순차적 단계의 출력 데이터는 제1 순차적 단계의 입력 데이터, 제1 주석 벡터 세트, 및 제1 순차적 단계의 이전 순차적 단계의 출력 데이터에 기초하여 제1 순차적 단계의 출력 데이터를 결정하기 위한 전술한 방법에 따라 제2 순차적 단계의 입력 데이터, 제1 주석 벡터 세트, 및 제2 순차적 단계의 이전 제2 순차적 단계의 출력 데이터에 기초하여 결정될 수 있다. 구체적인 구현에 대해서는, 전술한 관련 설명을 참조할 수 있다. 세부사항들은 여기서 다시 설명되지 않는다.

단계 3)에서는, N개의 제2 순차적 단계 중 마지막 제2 순차적 단계의 출력 데이터에 기초하여 제2 초기 입력 데이터가 결정된다.

구체적으로, 마지막 제2 순차적 단계의 출력 데이터가 제2 초기 입력 데이터로서 결정될 수 있다. 예를 들어, 마지막 제2 순차적 단계의 은닉 상태 정보 및 메모리 셀 상태 정보가 제2 초기 입력 데이터, 즉 목표 인코더의 초기 은닉 상태 정보 및 초기 메모리 셀 상태 정보로서 결정될 수 있다.

단계 4)에서는, N개의 제2 순차적 단계의 모든 출력 데이터에 기초하여 제2 주석 벡터 세트가 결정된다.

구체적으로, N개의 제2 순차적 단계의 모든 순차적 단계들의 은닉 상태 정보의 세트가 제2 주석 벡터 세트로서 결정될 수 있다.

단계 205에서는, 제2 목표 안내 네트워크 모델을 이용하여 제2 주석 벡터 세트에 기초하여 제2 안내 정보가 결정된다. 제2 안내 네트워크 모델은 이미지의 주석 벡터 세트에 따라 안내 정보를 생성하도록 구성된다.

구체적으로, 제2 안내 정보는 도 7의 전술한 실시예에서 단계 103에서 제1 안내 네트워크 모델에 의해 제1 주석 벡터 세트에 기초하여 제1 안내 정보를 생성하기 위한 방법을 참조하여 제2 안내 네트워크 모델을 이용하여 제2 주석 벡터 세트에 기초하여 생성될 수 있다. 구체적인 구현에 대해서는, 전술한 단계 103의 관련 설명을 참조할 수 있다. 세부사항들은 여기서 다시 설명되지 않는다.

제2 안내 네트워크 모델은, 제1 안내 네트워크 모델과 함께, 샘플 이미지들에 기초하여 훈련을 통해 획득될 수 있고, 훈련 과정에서 안내 정보를 자동으로 학습할 수 있다. 따라서, 제1 안내 네트워크 모델 및 제2 안내 네트워크 모델에 의해 생성된 안내 정보는 높은 정확도를 갖는다. 생성된 안내 정보는 인코딩의 인코딩 과정을 정확하게 안내할 수 있고, 그에 의해 목표 이미지의 생성된 묘사 문구의 품질을 개선할 수 있다.

단계 206에서는, 인코더를 이용하여 제2 안내 정보에 기초하여 제2 주석 벡터 세트 및 제2 초기 입력 데이터를 인코딩하여, 목표 이미지의 묘사 문구를 획득한다.

구체적으로, 전술한 도 7의 실시예에서 단계 104에서 목표 이미지의 묘사 문구를 획득하기 위해 제1 안내 정보에 기초하여 디코더에 의해 제1 주석 벡터 세트 및 제1 초기 입력 데이터를 디코딩하기 위한 방법을 참조하여, 인코더를 이용하여 제2 안내 정보에 기초하여 제2 주석 벡터 세트 및 제2 초기 입력 데이터를 인코딩하여 목표 이미지의 묘사 문구를 획득할 수 있다. 구체적인 구현에 대해서는, 전술한 단계 104에서의 제1 구현 방식에 대한 관련 설명을 참조할 수 있고, 이는 여기서 더 이상 상세히 설명되지 않는다.

또한, 목표 이미지의 제1 주석 벡터 세트에 기초하여 제1 안내 정보를 정확하게 생성할 수 있는 제1 안내 네트워크 모델, 및 제2 주석 벡터 세트에 기초하여 제2 안내 정보를 정확하게 생성할 수 있는 제2 안내 네트워크 모델을 획득하기 위해, 인코더에 의해 목표 이미지에 대해 특징 추출을 수행하여 특징 벡터 및 제1 주석 벡터 세트를 획득하기 전에 훈련 대상 제2 인코더, 훈련 대상 제2 안내 네트워크 모델, 훈련 대상 검토기, 훈련 대상 제3 안내 네트워크 모델 및 제2 훈련 대상 디코더를 추가로 조합하여, 제2 캐스케이드 네트워크 모델을 획득할 수 있고, 경사 하강법을 이용하여 다수의 샘플 이미지 및 다수의 샘플 이미지의 묘사 문구들에 기초하여 제2 캐스케이드 네트워크 모델을 훈련시켜, 인코더, 제1 안내 네트워크 모델, 검토기, 제2 안내 네트워크 모델 및 디코더를 획득한다.

즉, 훈련 대상 제2 인코더, 훈련 대상 제2 안내 네트워크 모델, 훈련 대상 검토기, 훈련 대상 제3 안내 네트워크 모델, 및 훈련 대상 제2 디코더를, 이미지의 묘사 문구를 획득하기 위해 이미지를 처리할 수 있는 이미지를 인식하기 위한 시스템으로서 도 5의 연결 방식에 따라 구성할 수 있고, 이미지를 인식하기 위한 시스템은 다수의 샘플 이미지 및 다수의 샘플 이미지의 묘사 문구들에 기초하여 훈련된다. 이미지를 인식하기 위한 시스템을 훈련하는 과정에서, 훈련 대상 제2 안내 네트워크 모델 및 훈련 대상 제3 안내 네트워크 모델이 훈련될 수 있고, 훈련 대상 제2 안내 네트워크 모델 및 훈련 대상 제3 안내 네트워크 모델은 훈련 과정에서의 안내 정보를 적응적으로 학습하여, 정확한 안내 정보가 생성되도록 보장할 수 있다.

훈련 대상 제2 인코더는 아직 훈련되지 않은 인코더일 수 있거나, 훈련된 인코더일 수 있고, 훈련 대상 검토기는 아직 훈련되지 않은 검토기일 수 있거나, 훈련된 검토기일 수 있고, 이는 본 출원의 이 실시예에서 제한되지 않는다.

제1 안내 네트워크 모델 및 제2 안내 네트워크 모델은 훈련 대상 제2 인코더로서 훈련된 인코더를 이용하여 또는 훈련 대상 검토기로서 훈련된 검토기를 이용하여 훈련되고, 그에 의해 전체 제2 캐스케이드 네트워크 모델의 훈련 효율을 개선하고, 제1 안내 네트워크 모델 및 제2 안내 네트워크 모델의 훈련 효율을 더 개선한다는 점이 설명되어야 한다.

본 출원의 이 실시예에서는, 목표 이미지를 인식하여 목표 이미지의 묘사 문구를 획득하는 과정 및 안내 네트워크 모델을 훈련시키는 과정이 동일한 단말에서 수행될 수 있거나, 상이한 단말들에서 수행될 수 있고, 이는 본 출원의 이 실시예에서 제한되지 않는다는 점이 또한 설명되어야 한다.

본 출원의 이 실시예에서, 인코더와 디코더 사이에 안내 네트워크 모델이 추가된다. 이미지로부터 주석 벡터 세트가 추출된 후, 안내 네트워크 모델을 이용하여 주석 벡터 세트에 기초하여 안내 정보가 생성될 수 있다. 안내 네트워크 모델은 샘플 이미지를 이용하여 훈련을 통해 획득되기 때문에, 안내 네트워크 모델은 훈련 과정에서 안내 정보를 적응적으로 학습할 수 있다. 따라서, 안내 네트워크 모델에 의해 생성된 안내 정보는 높은 정확도를 가지며, 그에 의해 이미지의 인코딩 과정을 정확하게 안내하고, 생성된 묘사 문구의 품질을 개선한다.

또한, 인코더와 디코더 사이에 검토기가 추가되고, 검토기는 목표 이미지의 국부 특징과 전역 특징 사이의 상호작용 관계를 더 발굴하도록 추가로 구성될 수 있고, 목표 이미지의 특징들은 생성된 제2 주석 벡터 세트 및 제2 초기 입력 데이터에 기초하여 정확하게 지시될 수 있고, 그에 의해 이미지를 인식하기 위한 시스템의 시스템 성능을 더 개선하고, 생성된 묘사 문구의 품질을 개선할 수 있다.

도 9는 본 출원의 실시예에 따른 이미지를 인식하기 위한 장치의 개략 구조도이다. 이 장치는 단말일 수 있다. 도 9를 참조하면, 장치는: 추출 모듈(301), 처리 모듈(302), 생성 모듈(303) 및 결정 모듈(304)을 포함한다.

상기 추출 모듈(301)은 인코더에 의해 인식 대상 목표 이미지에 대해 특징 추출을 수행하여, 특징 벡터 및 제1 주석 벡터 세트를 획득하도록 구성된다.

상기 처리 모듈(302)은 상기 특징 벡터에 대해 초기화 처리를 수행하여, 제1 초기 입력 데이터를 획득하도록 구성된다.

생성 모듈(303)은 제1 안내 네트워크 모델을 이용하여 제1 주석 벡터 세트에 기초하여 제1 안내 정보를 생성하도록 구성된다. 상기 제1 안내 네트워크 모델은 임의의 이미지의 주석 벡터 세트에 기초하여 안내 정보를 생성하도록 구성된다.

상기 결정 모듈(304)은 디코더를 이용하여 상기 제1 안내 정보, 상기 제1 주석 벡터 세트, 및 상기 제1 초기 입력 데이터에 기초하여 상기 목표 이미지의 묘사 문구를 결정하도록 구성된다.

옵션으로, 도 10을 참조하면, 생성 모듈(303)은 제1 선형 변환 유닛(3031) 및 제1 결정 유닛(3032)을 포함한다.

제1 선형 변환 유닛(3031)은 제1 안내 네트워크 모델에서의 모델 파라미터들에 의해 구성된 제1 행렬에 기초하여 제1 주석 벡터 세트에 대해 선형 변환을 수행하여, 제2 행렬을 획득하도록 구성된다.

제1 결정 유닛(3032)은 제2 행렬에서의 각각의 행의 최대값에 기초하여 제1 안내 정보를 결정하도록 구성된다.

옵션으로, 도 11을 참조하면, 제1 안내 네트워크 모델은 이미지의 속성 정보 및 주석 벡터 세트에 기초하여 안내 정보를 생성하도록 구성된다. 속성 정보는 이미지의 묘사 문구에서의 단어의 예측된 출현 확률을 지시하기 위해 사용된다.

생성 모듈(303)은 처리 유닛(3033), 제2 선형 변환 유닛(3034), 제1 생성 유닛(3035) 및 제2 결정 유닛(3036)을 포함한다.

처리 유닛(3033)은 목표 이미지를 멀티-인스턴스 모델의 입력으로 하여 목표 이미지를 멀티-인스턴스 모델에 의해 처리하여, 목표 이미지의 속성 정보를 획득하도록 구성된다.

제2 선형 변환 유닛(3034)은 제2 안내 네트워크 모델에서의 모델 파라미터들에 의해 구성된 제3 행렬에 기초하여 제1 주석 벡터 세트에 대해 선형 변환을 수행하여, 제4 행렬을 획득하도록 구성된다.

제1 생성 유닛(3035)은 목표 이미지의 속성 정보 및 제4 행렬에 기초하여 제5 행렬을 생성하도록 구성된다.

제2 결정 유닛(3036)은 제5 행렬에서의 각각의 행의 최대값에 기초하여 제1 안내 정보를 결정하도록 구성된다.

옵션으로, 결정 모델(304)은 디코더에 의해 제1 안내 정보에 기초하여 제1 주석 벡터 세트 및 제1 초기 입력 데이터를 디코딩하여 목표 이미지의 묘사 문구를 획득하도록 구성된다.

옵션으로, 도 12를 참조하면, 결정 모듈(304)은 제3 결정 유닛(3041), 제4 결정 유닛(3042) 및 제5 결정 유닛(3043)을 포함한다.

제3 결정 유닛(3041)은, 순환 신경망(RNN) 모델이 디코더에서 사용되고, 제1 RNN 모델이 M개의 제1 순차적 단계를 수행하도록 구성되는 경우에, 제1 RNN 모델에 의해 수행되는 각각의 제1 순차적 단계에 대해, 제1 안내 정보에 기초하여 제1 순차적 단계의 입력 데이터를 결정하도록 구성된다.

M은 제1 RNN 모델에 의해 입력 데이터를 순환적으로 처리하는 횟수를 나타내고, M은 양의 정수이다. 각각의 제1 순차적 단계는 제1 RNN 모델에 의해 입력 데이터를 처리하는 단계이다.

제4 결정 유닛(3042)은 제1 순차적 단계의 입력 데이터, 제1 주석 벡터 세트, 및 제1 순차적 단계의 이전 순차적 단계의 출력 데이터에 기초하여 제1 순차적 단계의 출력 데이터를 결정하도록 구성된다.

제1 순차적 단계가 M개의 제1 순차적 단계 중 첫 번째 제1 순차적 단계로서 배치되는 경우, 제1 초기 입력 데이터에 기초하여 제1 순차적 단계의 이전 순차적 단계의 출력 데이터가 결정된다.

제5 결정 유닛(3043)은 M개의 제1 순차적 단계의 모든 출력 데이터에 기초하여 목표 이미지의 묘사 문구를 결정하도록 구성된다.

옵션으로, 제3 결정 유닛(3041)은

다음의 공식:

을 이용하여 제1 안내 정보에 기초하여 제1 순차적 단계의 입력 데이터를 결정하도록 구성되고, 위 공식에서 x_t는 제1 순차적 단계의 입력 데이터를 나타내고, E는 단어 삽입 행렬을 나타내고 제1 RNN 모델의 모델 파라미터를 나타내고, y_t는 제1 순차적 단계에 대응하는 단어의 원-핫 벡터를 나타낸다. 제1 순차적 단계에 대응하는 단어는 제1 순차적 단계의 이전 순차적 단계의 출력 데이터에 기초하여 결정되고, Q는 제6 행렬을 나타내고 제1 RNN 모델의 모델 파라미터를 나타내고, v는 제1 안내 정보를 나타낸다.

옵션으로, 도 13을 참조하면, 장치는 제1 조합 모듈(305) 및 제1 훈련 모듈(306)을 추가로 포함한다.

제1 조합 모듈(305)은 훈련 대상 제1 인코더, 훈련 대상 제1 안내 네트워크 모델, 및 훈련 대상 제1 디코더를 조합하여, 제1 캐스케이드 네트워크 모델을 획득하도록 구성된다.

제1 훈련 모듈(306)은 경사 하강법을 이용하여 다수의 샘플 이미지 및 다수의 샘플 이미지의 묘사 문구들에 기초하여 제1 캐스케이드 네트워크 모델을 훈련시켜, 인코더, 제1 안내 네트워크 모델 및 디코더를 획득하도록 구성된다.

옵션으로, 도 14를 참조하면, 결정 모델(304)은 제6 결정 유닛(3044), 제2 생성 유닛(3045) 및 인코딩 유닛(3046)을 포함한다.

제6 결정 유닛(3044)은 검토기에 의해 제1 안내 정보, 제1 주석 벡터 세트, 및 제1 초기 입력 데이터에 기초하여 제2 주석 벡터 세트 및 제2 초기 입력 데이터를 결정하도록 구성된다.

제2 생성 유닛(3045)은 제2 안내 네트워크 모델을 이용하여 제2 주석 벡터 세트에 기초하여 제2 안내 정보를 생성하도록 구성된다. 제2 안내 네트워크 모델은 샘플 이미지들을 이용하여 훈련을 통해 획득된다.

인코딩 유닛(3046)은 인코더를 이용하여 제2 안내 정보에 기초하여 제2 주석 벡터 세트 및 제2 초기 입력 데이터를 인코딩하여, 목표 이미지의 묘사 문구를 획득하도록 구성된다.

옵션으로, 제6 결정 유닛(3044)은 다음의 동작들을 수행하도록 구성된다.

제2 RNN 모델이 제1 검토기에서 사용되고, 제2 RNN 모델이 N개의 제2 순차적 단계를 수행하도록 구성되는 경우, 제2 RNN 모델에 의해 수행되는 각각의 제2 순차적 단계에 대해, 제1 목표 안내 정보에 기초하여 제2 순차적 단계의 입력 데이터가 결정된다.

제2 순차적 단계의 입력 데이터, 제1 주석 벡터 세트, 및 제2 순차적 단계의 이전 제2 순차적 단계의 출력 데이터에 기초하여 제2 순차적 단계의 출력 데이터가 결정된다.

제2 순차적 단계가 N개의 제2 순차적 단계 중 첫 번째 제2 순차적 단계인 경우, 제1 초기 입력 데이터에 기초하여 제2 순차적 단계의 이전 제2 순차적 단계의 출력 데이터가 결정된다.

N개의 제2 순차적 단계 중 마지막 제2 순차적 단계의 출력 데이터에 기초하여 제2 초기 입력 데이터가 결정된다.

N개의 제2 순차적 단계의 모든 출력 데이터에 기초하여 제2 주석 벡터 세트가 결정된다.

옵션으로, 도 15를 참조하면, 이 장치는:

제2 조합 모듈(307) 및 제2 훈련 모듈(308)을 추가로 포함한다.

제2 조합 모듈(307)은 훈련 대상 제2 인코더, 훈련 대상 제2 안내 네트워크 모델, 훈련 대상 검토기, 훈련 대상 제3 안내 네트워크 모델 및 훈련 대상 제2 디코더를 조합하여, 제2 캐스케이드 네트워크 모델을 획득하도록 구성된다.

제2 훈련 모듈(308)은 경사 하강법을 이용하여 다수의 샘플 이미지 및 다수의 샘플 이미지의 묘사 문구들에 기초하여 제2 캐스케이드 네트워크 모델을 훈련시켜, 인코더, 제1 안내 네트워크 모델, 검토기, 제2 안내 네트워크 모델 및 디코더를 획득하도록 구성된다.

본 출원의 이 실시예에서, 인코더와 디코더 사이에 안내 네트워크 모델이 추가된다. 이미지로부터 주석 벡터 세트가 추출된 후, 안내 네트워크 모델을 이용하여 주석 벡터 세트에 기초하여 안내 정보가 생성될 수 있다. 안내 네트워크 모델은 샘플 이미지의 주석 벡터 세트를 이용하여 훈련을 통해 획득되기 때문에, 안내 네트워크 모델은 훈련 과정에서 이미지의 주석 벡터 세트에 따라 안내 정보를 정확하게 생성하는 방법을 적응적으로 학습할 수 있다. 따라서, 안내 네트워크 모델에 의해 생성된 안내 정보는 높은 정확도를 가지며, 그에 의해 이미지의 인코딩 과정을 정확하게 안내하고, 생성된 묘사 문구의 품질을 개선한다.

전술한 실시예에서 제공된 이미지를 인식하기 위한 장치가 이미지 인식을 수행할 때, 전술한 기능 모듈의 구분들만이 예를 이용하여 설명된다는 점이 설명되어야 한다. 실제 응용 동안, 전술한 기능들은 요건들에 따라 상이한 기능 모듈들에 할당되고 그에 의해 완성될 수 있다. 즉, 장치의 내부 구조는 상이한 기능 모듈들로 분할되어, 전술한 기능들의 전부 또는 일부를 완성한다. 또한, 상기 실시예에 따라 이미지를 인식하기 위한 장치는 이미지를 인식하기 위한 방법 실시예와 동일한 개념을 갖는다. 구체적인 구현 과정에 대해서는, 방법 실시예들을 참조하고, 세부사항들은 여기서 다시 설명되지 않는다.

도 16은 본 출원의 실시예에 따른 단말(400)의 개략 구조도이다. 도 16을 참조하면, 단말(400)은 통신 유닛(410), 하나 이상의 컴퓨터 판독가능 저장 매체를 포함하는 메모리(420), 입력 유닛(430), 디스플레이 유닛(440), 센서(450), 오디오 회로(460), 무선 충실도(Wireless Fidelity, WiFi) 모듈(470), 하나 이상의 처리 코어를 포함하는 프로세서(480), 전원(490) 등을 포함할 수 있다. 본 기술분야의 통상의 기술자는 도 16에 도시된 단말의 구조가 단말에 대한 제한을 구성하지 않고, 단말이 도 16에 도시된 것들보다 더 많은 컴포넌트들 또는 더 적은 컴포넌트들을 포함할 수 있거나, 또는 일부 컴포넌트들이 결합될 수 있거나, 또는 상이한 컴포넌트 배치가 사용될 수 있다는 것을 이해할 수 있다.

통신 유닛(410)은 정보 수신 및 송신 과정 또는 통화 과정 동안 신호들을 수신 및 송신하도록 구성될 수 있다. 통신 유닛(410)은 무선 주파수(RF) 회로, 라우터, 또는 모뎀과 같은 네트워크 통신 디바이스일 수 있다. 특히, 통신 유닛(410)이 RF 회로일 때, 통신 유닛(410)은 기지국의 다운링크 정보를 수신하고, 그 후 다운링크 정보를 처리를 위해 하나 이상의 프로세서(480)로 핸드오버한다. 또한, 통신 유닛(410)은 관련된 업링크 데이터를 기지국에 송신한다. 일반적으로, 통신 유닛으로서의 RF 회로는 안테나, 적어도 하나의 증폭기, 튜너, 하나 이상의 발진기, 가입자 식별 모듈(SIM) 카드, 트랜시버, 커플러, 저잡음 증폭기(LNA), 듀플렉서 등을 포함하지만, 이로 제한되지는 않는다. 또한, 통신 유닛(410)은 무선 통신을 통해 네트워크 및 다른 디바이스들과 추가로 통신할 수 있다. 무선 통신은 임의의 통신 표준 또는 프로토콜을 이용할 수 있으며, 이는 GSM(Global System for Mobile communications), GPRS(General Packet Radio Service), CDMA(Code Division Multiple Access), WCDMA(Wideband Code Division Multiple Access), LTE(Long Term Evolution), 이메일, SMS(Short Messaging Service), 등을 포함하지만 이로 제한되지는 않는다. 메모리(420)는 소프트웨어 프로그램 및 모듈을 저장하도록 구성될 수 있다. 프로세서(480)는 메모리(420)에 저장된 소프트웨어 프로그램 및 모듈을 실행하여, 휴대폰의 다양한 기능 애플리케이션들 및 데이터 처리를 구현한다. 메모리(420)는 주로 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있다. 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능(예컨대 사운드 재생 기능 및 이미지 디스플레이 기능)에 의해 요구되는 애플리케이션 프로그램 등을 저장할 수 있다. 데이터 저장 영역은 단말(400)의 사용에 따라 생성된 데이터(예컨대 오디오 데이터 및 주소록) 등을 저장할 수 있다. 또한, 메모리(420)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 비휘발성 메모리, 예컨대 적어도 하나의 자기 디스크 저장 디바이스 또는 플래시 메모리 디바이스, 또는 다른 일시적 솔리드 저장 디바이스를 추가로 포함할 수 있다. 대응적으로, 메모리(420)는 메모리(420)로의 프로세서(480) 및 입력 유닛(430)의 액세스를 제공하기 위해 메모리 제어기를 추가로 포함할 수 있다.

입력 유닛(430)은 입력된 숫자 또는 문자 정보를 수신하고, 사용자 설정 및 기능 제어에 관련된 키보드, 마우스, 조이스틱, 광학적, 또는 트랙볼 신호 입력을 생성하도록 구성될 수 있다. 바람직하게는, 입력 유닛(430)은 터치 감응 표면(431) 및 다른 입력 디바이스(432)를 포함할 수 있다. 터치 감응 표면(431)은 터치스크린 또는 터치 패널이라고도 지칭될 수 있고, 터치 감응 표면 상의 또는 그 근처에서의 사용자의 터치 조작(예컨대 손가락 또는 스타일러스와 같은 임의의 적합한 물체 또는 액세서리를 이용하여 터치 감응 표면(431) 상의 또는 그 근처에서의 사용자의 조작)을 수집하고, 사전설정된 프로그램에 따라 대응하는 연결 장치를 구동할 수 있다. 옵션으로, 터치 감응 표면(431)은 2개의 부분: 터치 검출 장치 및 터치 제어기를 포함할 수 있다. 터치 검출 장치는 사용자의 터치 위치를 검출하고, 터치 조작에 의해 생성된 신호를 검출하고, 신호를 터치 제어기에 전송한다. 터치 제어기는 터치 검출 장치로부터 터치 정보를 수신하고, 터치 정보를 터치 포인트 좌표로 변환하고, 터치 포인트 좌표를 프로세서(480)에 송신한다. 또한, 터치 제어기는 프로세서(480)에 의해 송신된 명령을 수신하고 그 명령을 실행할 수 있다. 또한, 터치 감응 표면(431)은 저항성, 용량성, 적외선, 또는 표면 음파 유형 터치 감응 표면(431)일 수 있다. 터치 감응 표면(431)에 더하여, 입력 유닛(430)은 다른 입력 디바이스(432)를 추가로 포함할 수 있다. 바람직하게는, 다른 입력 디바이스(432)는: 하나 이상의 물리적 키보드, 기능 키(예컨대 볼륨 제어 키 및 스위치 키), 트랙볼, 마우스 및 조이스틱을 포함할 수 있지만 이로 제한되지는 않는다.

디스플레이 유닛(440)은 사용자에 의해 입력된 정보 또는 사용자에 대해 제공된 정보, 및 단말(400)의 다양한 그래픽 사용자 인터페이스들을 디스플레이하도록 구성될 수 있다. 그래픽 사용자 인터페이스는 그래픽, 텍스트, 아이콘, 비디오, 및 이들의 임의의 조합을 포함할 수 있다. 디스플레이 유닛(440)은 디스플레이 패널(441)을 포함할 수 있다. 옵션으로, 디스플레이 패널(441)은 액정 디스플레이(LCD), 유기 발광 다이오드(OLED) 등을 이용하여 구성될 수 있다. 또한, 터치 감응 표면(431)은 디스플레이 패널(441)을 커버할 수 있다. 터치 감응 표면(431) 상의 또는 그 근처에서의 터치 조작을 검출한 후에, 터치 감응 표면(431)은 터치 조작을 프로세서(480)에 전달하여, 터치 이벤트의 유형을 결정한다. 그 후, 프로세서(480)는 터치 이벤트의 유형에 따라 디스플레이 패널(441) 상에 대응하는 시각적 출력을 제공한다. 비록 도 16에서, 터치 감응 표면(431) 및 디스플레이 패널(441)은 입력 및 출력 기능들을 구현하기 위해 2개의 별개의 부분으로서 사용되지만, 일부 실시예들에서, 터치 감응 표면(431) 및 디스플레이 패널(441)은 입력 및 출력 기능들을 구현하기 위해 통합될 수 있다.

단말(400)은 광 센서, 모션 센서, 및 다른 센서들과 같은 적어도 하나의 센서(450)를 추가로 포함할 수 있다. 광 센서는 주변 광 센서 및 근접 센서를 포함할 수 있다. 주변 광 센서는 주변 광의 밝기에 따라 디스플레이 패널(441)의 휘도를 조정할 수 있고, 근접 센서는 단말(400)이 귀로 이동될 때 디스플레이 패널(441) 및/또는 백라이트를 스위치 오프할 수 있다. 모션 센서의 일 유형으로서, 중력 가속도 센서는 각각의 방향(일반적으로 삼축임)에서 가속도의 값을 검출할 수 있고, 정적일 때 중력의 값 및 방향을 검출할 수 있고, 모바일 폰 제스처의 응용(예컨대 수평 및 종방향 스크린들 간의 전환, 관련 게임, 및 자력계의 제스처 교정), 진동 식별의 관련 기능(예컨대 계보기 및 노크) 등을 식별하도록 구성될 수 있다. 자이로스코프, 기압계, 습도계, 온도계, 및 적외선 센서와 같은 다른 센서도 단말(400)에서 구성될 수 있고, 이는 여기서 다시 설명되지 않는다.

오디오 회로(460), 스피커(461), 및 마이크로폰(462)은 사용자와 단말(400) 사이의 오디오 인터페이스를 제공할 수 있다. 오디오 회로(460)는 수신된 오디오 데이터로부터 변환되는 전기 신호를 스피커(461)에 송신할 수 있다. 스피커(461)는 이 전기 신호를 출력을 위한 음성 신호로 변환한다. 한편, 마이크로폰(462)은 수집된 음성 신호를 전기 신호로 변환한다. 오디오 회로(460)는 이 전기 신호를 수신하고 전기 신호를 오디오 데이터로 변환하고, 이 오디오 데이터를 처리를 위해 프로세서(480)에 출력한다. 프로세서(480)는 오디오 데이터를 처리하고, 오디오 데이터를 통신 유닛(410)을 이용하여 다른 단말에 송신하거나, 오디오 데이터를 추가 처리를 위해 메모리(420)에 출력한다. 오디오 회로(460)는 주변 장치 이어폰과 단말(400) 간의 통신을 제공하기 위해 이어플러그 잭을 추가로 포함할 수 있다.

무선 통신을 구현하기 위해, 단말에는 무선 통신 유닛(470)이 제공될 수 있고, 여기서 무선 통신 유닛(470)은 WiFi 모듈일 수 있다. WiFi는 단거리 무선 송신 기술에 속한다. 단말(400)은, 무선 통신 유닛(470)을 이용하여, 사용자가 이메일을 수신 및 송신하는 것, 웹 페이지를 브라우징하는 것, 및 스트림 미디어에 액세스하는 것 등을 도울 수 있고, 사용자에게 무선 광대역 인터넷 액세스를 제공할 수 있다. 비록 무선 통신 유닛(470)이 도 16에 도시되어 있지만, 무선 통신 유닛은 단말(400)의 필요한 구성에 속하지 않고, 요구에 따라 본 개시내용의 본질의 범위 내에서 생략될 수 있다는 것을 이해할 수 있다.

프로세서(480)는 단말(400)의 제어 센터이고, 다양한 인터페이스들 및 라인들을 이용하여 모바일 폰의 다양한 컴포넌트들에 연결된다. 메모리(420)에 저장된 소프트웨어 프로그램 및/또는 모듈을 가동 또는 실행하고, 메모리(420)에 저장된 데이터를 호출하는 것에 의해, 프로세서(480)는 단말(400)의 다양한 기능들 및 데이터 처리를 수행하고, 그에 의해 모바일 폰에 대한 전반적인 모니터링을 수행한다. 옵션으로, 프로세서(480)는 하나 이상의 처리 코어를 포함할 수 있다. 바람직하게는, 프로세서(480)는 애플리케이션 프로세서 및 모뎀 프로세서와 통합될 수 있다. 애플리케이션 프로세서는 주로 운영 체제, 사용자 인터페이스, 애플리케이션 프로그램 등을 처리한다. 모뎀 프로세서는 주로 무선 통신을 처리한다. 전술한 모뎀 프로세서는 대안적으로 프로세서(480)에 통합되지 않을 수 있다는 것을 이해할 수 있다.

단말(400)은 컴포넌트들에 전력을 공급하기 위한 전원(490)(예컨대 배터리)을 추가로 포함한다. 바람직하게는, 전원은 전력 관리 시스템을 이용하여 프로세서(480)에 논리적으로 연결될 수 있고, 그에 의해 전력 관리 시스템을 이용하여 충전, 방전 및 전력 소비 관리와 같은 기능들을 구현한다. 전원(460)은 직류 또는 교류 전원, 재충전 시스템, 정전 검출 회로, 전원 컨버터 또는 인버터, 전원 상태 지시기, 및 임의의 다른 컴포넌트들 중 하나 이상을 추가로 포함할 수 있다.

비록 도 16에 도시되어 있지는 않지만, 단말(400)은 카메라, 블루투스 모듈 등을 추가로 포함할 수 있고, 이들은 여기서 더 이상 반복적으로 설명되지 않는다.

이 실시예에서, 단말은 프로세서 및 메모리를 포함한다. 메모리는 적어도 하나의 명령어, 적어도 하나의 프로그램, 및 코드 세트 또는 명령어 세트를 더 저장한다. 상기 명령어, 상기 프로그램, 및 상기 코드 세트 또는 상기 명령어 세트는 상기 프로세서에 의해 로딩되고 실행되어 전술한 도 7 또는 도 8의 실시예에 따른 이미지를 인식하기 위한 방법을 구현한다.

다른 실시예에서, 컴퓨터 판독가능 저장 매체가 추가로 제공된다. 저장 매체는 적어도 하나의 명령어, 프로그램의 적어도 하나의 세그먼트, 및 코드 세트 또는 명령어 세트를 저장한다. 상기 명령어, 상기 프로그램, 및 상기 코드 세트 또는 상기 명령어 세트는 프로세서에 의해 로딩되고 실행되어 전술한 도 7 또는 도 8의 실시예에 따른 이미지를 인식하기 위한 방법을 구현한다.

본 기술분야의 통상의 기술자는 전술한 실시예들의 단계들의 전부 또는 일부가 하드웨어를 이용하여 구현될 수 있거나, 또는 관련 하드웨어에 지시하는 프로그램에 의해 구현될 수 있다는 것을 이해할 수 있다. 프로그램은 컴퓨터 판독가능 저장 매체에 저장될 수 있다. 상기 저장 매체는 판독-전용 메모리, 자기 디스크, 또는 광 디스크, 등일 수 있다.

전술한 설명들은 단지 본 출원의 실시예들 중 바람직한 실시예들에 불과하고, 본 출원의 실시예들을 제한하기 위해 의도된 것이 아니다. 본 출원의 실시예들의 사상 및 원리 내에서 이루어진 임의의 수정, 등가의 치환, 또는 개선은 본 출원의 실시예들의 보호 범위 내에 있을 것이다.

Claims

단말에 의해 수행되는, 이미지를 인식하기 위한 방법으로서, 상기 방법은:
인코더를 이용하여 인식 대상 목표 이미지에 대해 특징 추출을 수행하여(101), 특징 벡터 및 제1 주석 벡터 세트를 획득하는 단계;
상기 특징 벡터에 대해 초기화 처리를 수행하여(102), 제1 초기 입력 데이터를 획득하는 단계;
상기 목표 이미지를 멀티-인스턴스 모델에 입력하고, 상기 멀티-인스턴스 모델을 이용하여 상기 목표 이미지를 처리하여, 상기 목표 이미지의 속성 정보를 획득하는 단계 - 상기 속성 정보는 상기 이미지의 묘사 문구에서의 단어의 예측된 출현 확률을 지시하기 위해 사용됨 - ;
제1 안내 네트워크 모델을 이용하여 상기 제1 주석 벡터 세트 및 상기 속성 정보에 기초하여 제1 안내 정보를 생성하는 단계(103) - 상기 제1 안내 네트워크 모델은 이미지의 주석 벡터 세트 및 상기 속성 정보에 따라 안내 정보를 생성하도록 구성됨 -; 및
디코더에 의해 상기 제1 안내 정보, 상기 제1 주석 벡터 세트 및 상기 제1 초기 입력 데이터에 기초하여 상기 목표 이미지의 묘사 문구를 결정하는 단계(104)를 포함하는 것을 특징으로 하는, 방법.
삭제
제1항에 있어서, 상기 제1 안내 네트워크 모델을 이용하여 상기 제1 주석 벡터 세트 및 상기 속성 정보에 기초하여 상기 제1 안내 정보를 생성하는 단계(103)는:
상기 제1 안내 네트워크 모델에서의 모델 파라미터들에 의해 구성된 제3 행렬에 기초하여 상기 제1 주석 벡터 세트에 대해 선형 변환을 수행하여, 제4 행렬을 획득하는 단계;
상기 목표 이미지의 속성 정보 및 상기 제4 행렬에 기초하여 제5 행렬을 생성하는 단계; 및
상기 제5 행렬에서의 각각의 행의 최대값에 기초하여 상기 제1 안내 정보를 결정하는 단계를 포함하는, 방법.
제1항에 있어서, 상기 디코더를 이용하여 상기 제1 안내 정보, 상기 제1 주석 벡터 세트 및 상기 제1 초기 입력 데이터에 기초하여 상기 목표 이미지의 묘사 문구를 결정하는 단계(104)는:
상기 디코더를 이용하여 상기 제1 안내 정보에 기초하여 상기 제1 주석 벡터 세트 및 상기 제1 초기 입력 데이터를 디코딩하여, 상기 목표 이미지의 묘사 문구를 획득하는 단계를 포함하는, 방법.
제4항에 있어서,
상기 디코더를 이용하여 상기 제1 안내 정보에 기초하여 상기 제1 주석 벡터 세트 및 상기 제1 초기 입력 데이터를 디코딩하여, 상기 목표 이미지의 묘사 문구를 획득하는 단계는:
제1 순환 신경망(recurrent neural network, RNN) 모델이 상기 디코더에서 사용되고, 상기 제1 RNN 모델이 M개의 제1 순차적 단계를 수행하도록 구성될 때, 상기 제1 RNN 모델에 의해 수행되는 상기 제1 순차적 단계들 각각에 대해, 상기 제1 안내 정보에 기초하여 상기 제1 순차적 단계의 입력 데이터를 결정하는 단계 -
M은 상기 제1 RNN 모델에 의해 상기 입력 데이터를 순환적으로 처리하는 횟수를 나타내고, M은 양의 정수이고, 상기 제1 순차적 단계들 각각은 상기 제1 RNN 모델에 의해 상기 입력 데이터를 처리하는 단계임 -;
상기 제1 순차적 단계의 입력 데이터, 상기 제1 주석 벡터 세트 및 상기 제1 순차적 단계의 이전 순차적 단계의 출력 데이터에 기초하여 상기 제1 순차적 단계들 각각의 출력 데이터를 결정하는 단계 -
상기 제1 순차적 단계가 상기 M개의 제1 순차적 단계 중 첫 번째 제1 순차적단계일 때, 상기 제1 초기 입력 데이터에 기초하여 상기 제1 순차적 단계의 이전 순차적 단계의 출력 데이터가 결정됨 -; 및
상기 M개의 제1 순차적 단계의 모든 출력 데이터에 기초하여 상기 목표 이미지의 묘사 문구를 결정하는 단계를 포함하는, 방법.
제5항에 있어서,
상기 제1 안내 정보에 기초하여 상기 제1 순차적 단계의 입력 데이터를 결정하는 단계는:
다음과 같은 공식
에 따라 상기 제1 안내 정보에 기초하여 상기 제1 순차적 단계의 입력 데이터를 결정하는 단계를 포함하고,
상기 공식에서 t는 상기 제1 순차적 단계를 나타내고, x_t는 상기 제1 순차적 단계의 입력 데이터를 나타내고, E는 단어 삽입 행렬을 나타내고 상기 제1 RNN 모델의 모델 파라미터를 나타내고, y_t는 상기 제1 순차적 단계에 대응하는 단어의 원-핫 벡터를 나타내고, 상기 제1 순차적 단계에 대응하는 단어는 상기 제1 순차적 단계의 이전 순차적 단계의 출력 데이터에 기초하여 결정되고, Q는 제6 행렬을 나타내고 상기 제1 RNN 모델의 모델 파라미터를 나타내고, v는 상기 제1 안내 정보를 나타내는, 방법.
제1항 및 제3항 내지 제6항 중 어느 한 항에 있어서, 상기 인코더에 의해 상기 목표이미지에 대해 특징 추출을 수행하여(101) 상기 특징 벡터 및 상기 제1 주석 벡터 세트를 획득하기 전에,
훈련 대상 제1 인코더, 훈련 대상 제1 안내 네트워크 모델, 및 훈련 대상 제1 디코더를 조합하여, 제1 캐스케이드 네트워크 모델을 획득하는 단계; 및
경사 하강법을 이용하여 복수의 샘플 이미지 및 상기 복수의 샘플 이미지의 묘사 문구들에 기초하여 상기 제1 캐스케이드 네트워크 모델을 훈련시켜, 상기 인코더, 상기 제1 안내 네트워크 모델 및 상기 디코더를 획득하는 단계를 추가로 포함하는, 방법.
제1항에 있어서, 상기 디코더를 이용하여 상기 제1 안내 정보, 상기 제1 주석 벡터 세트 및 상기 제1 초기 입력 데이터에 기초하여 상기 목표 이미지의 묘사 문구를 결정하는 단계(104)는:
검토기를 이용하여 상기 제1 안내 정보, 상기 제1 주석 벡터 세트 및 상기 제1 초기 입력 데이터에 기초하여 제2 주석 벡터 세트 및 제2 초기 입력 데이터를 결정하는 단계(204);
제2 안내 네트워크 모델을 이용하여 상기 제2 주석 벡터 세트에 기초하여 제2 안내 정보를 생성하는 단계 - 상기 제2 안내 네트워크 모델은 주석 벡터 세트에 기초하여 안내 정보를 생성하도록 구성됨 - (205); 및
상기 디코더를 이용하여 상기 제2 안내 정보에 기초하여 상기 제2 주석 벡터세트 및 상기 제2 초기 입력 데이터를 디코딩하여, 상기 목표 이미지의 묘사 문구를 획득하는 단계(206)를 포함하는, 방법.
제8항에 있어서,
상기 검토기를 이용하여 상기 제1 안내 정보, 상기 제1 주석 벡터 세트 및 상기 제1 초기 입력 데이터에 기초하여 제2 주석 벡터 세트 및 제2 초기 입력 데이터를 결정하는 단계(204)는:
제2 RNN 모델이 상기 검토기에서 사용되고, 상기 제2 RNN 모델이 N개의 제2 순차적 단계를 수행하도록 구성될 때, 상기 제2 RNN 모델에 의해 수행되는 상기 제2 순차적 단계들 각각에 대해, 상기 제1 안내 정보에 기초하여 상기 제2 순차적 단계의 입력 데이터를 결정하는 단계 -
N은 상기 제2 RNN 모델에 의해 상기 입력 데이터를 순환적으로 처리하는 횟수를 나타내고, N은 양의 정수이고, 상기 제2 순차적 단계들 각각은 상기 제2 RNN 모델에 의해 상기 입력 데이터를 처리하는 단계임 -;
상기 제2 순차적 단계의 입력 데이터, 상기 제1 주석 벡터 세트 및 상기 제2 순차적 단계의 이전 제2 순차적 단계의 출력 데이터에 기초하여 상기 제2 순차적 단계들 각각의 출력 데이터를 결정하는 단계 -
상기 제2 순차적 단계가 상기 N개의 제2 순차적 단계 중 첫 번째 제2 순차적 단계일 때, 상기 제1 초기 입력 데이터에 기초하여 상기 제2 순차적 단계의 이전 제2 순차적 단계의 출력 데이터가 결정됨 -;
상기 N개의 제2 순차적 단계 중 마지막 제2 순차적 단계의 출력 데이터에 기초하여 상기 제2 초기 입력 데이터를 결정하는 단계; 및
상기 N개의 제2 순차적 단계의 모든 출력 데이터에 기초하여 상기 제2 주석 벡터 세트를 결정하는 단계를 포함하는, 방법.
제8항 또는 제9항에 있어서, 상기 인코더를 이용하여 상기 목표 이미지에 대해 특징 추출을 수행하여(101) 상기 특징 벡터 및 상기 제1 주석 벡터 세트를 획득하기 전에,
훈련 대상 제2 인코더, 훈련 대상 제2 안내 네트워크 모델, 훈련 대상 검토기, 훈련 대상 제3 안내 네트워크 모델 및 훈련 대상 제2 디코더를 조합하여, 제2 캐스케이드 네트워크 모델을 획득하는 단계; 및
경사 하강법을 이용하여 복수의 샘플 이미지 및 상기 복수의 샘플 이미지의 묘사 문구들에 기초하여 상기 제2 캐스케이드 네트워크 모델을 훈련시켜, 상기 인코더, 상기 제1 안내 네트워크 모델, 상기 검토기, 상기 제2 안내 네트워크 모델 및 상기 디코더를 획득하는 단계를 추가로 포함하는, 방법.
이미지를 인식하기 위한 장치로서, 상기 장치는:
인코더에 의해 인식 대상 목표 이미지에 대해 특징 추출을 수행하여, 특징 벡터 및 제1 주석 벡터 세트를 획득하도록 구성된 추출 모듈(301);
상기 특징 벡터에 대해 초기화 처리를 수행하여, 제1 초기 입력 데이터를 획득하도록 구성된 처리 모듈(302);
상기 목표 이미지를 멀티-인스턴스 모델의 입력으로 하여 상기 목표 이미지를 멀티-인스턴스 모델에 의해 처리하여, 상기 목표 이미지의 속성 정보를 획득하도록 구성된 처리 유닛(3033) - 상기 속성 정보는 상기 이미지의 묘사 문구에서의 단어의 예측된 출현 확률을 지시하기 위해 사용됨 - ;
제1 안내 네트워크 모델을 이용하여 상기 제1 주석 벡터 세트 및 상기 속성 정보에 기초하여 제1 안내 정보를 생성하도록 구성된 생성 모듈(303) - 상기 제1 안내 네트워크 모델은 이미지의 주석 벡터 세트 및 상기 속성 정보에 따라 안내 정보를 생성하도록 구성됨 -; 및
디코더에 의해 상기 제1 안내 정보, 상기 제1 주석 벡터 세트, 및 상기 제1 초기 입력 데이터에 기초하여 상기 목표 이미지의 묘사 문구를 결정하도록 구성된 결정 모듈(304)을 포함하는 것을 특징으로 하는, 장치.
삭제
제11항에 있어서, 상기 생성 모듈(303)은:
상기 제1 안내 네트워크 모델에서의 모델 파라미터들에 의해 구성된 제3 행렬에 기초하여 상기 제1 주석 벡터 세트에 대해 선형 변환을 수행하여, 제4 행렬을 획득하도록 구성된 제2 선형 변환 유닛(3034);
상기 목표 이미지의 속성 정보 및 상기 제4 행렬에 기초하여 제5 행렬을 생성하도록 구성된 제1 생성 유닛(3035); 및
상기 제5 행렬에서의 각각의 행의 최대값에 기초하여 상기 제1 안내 정보를 결정하도록 구성된 제2 결정 유닛(3036)을 추가로 포함하는, 장치.
프로세서 및 메모리를 포함하는 단말로서, 상기 메모리는 적어도 하나의 명령어, 적어도 하나의 프로그램, 및 코드 세트 또는 명령어 세트를 저장하고, 상기 명령어, 상기 프로그램, 및 상기 코드 세트 또는 상기 명령어 세트는 상기 프로세서에 의해 로딩되고 실행되어 제1항, 제3항 내지 제6항, 제8항, 및 제9항 중 어느 한 항에 따른 이미지를 인식하기 위한 방법을 구현하는, 단말.
적어도 하나의 명령어, 적어도 하나의 프로그램, 및 코드 세트 또는 명령어 세트를 저장한 컴퓨터 판독가능 저장 매체로서, 상기 명령어, 상기 프로그램, 및 상기 코드 세트 또는 상기 명령어 세트는 프로세서에 의해 로딩되고 실행되어 제1항, 제3항 내지 제6항, 제8항, 및 제9항 중 어느 한 항에 따른 이미지를 인식하기 위한 방법을 구현하는, 컴퓨터 판독가능 저장 매체.
삭제
삭제
삭제
삭제
삭제