KR20220002066A

KR20220002066A - 이미지 문답 방법, 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램

Info

Publication number: KR20220002066A
Application number: KR1020210026494A
Authority: KR
Inventors: 뤼 펑위안; 장 샤오치앙; 리우 샨샨; 장 청취안; 펭 치밍; 우 시진; 루 화; 첸 용펭
Original assignee: 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date: 2020-06-30
Filing date: 2021-02-26
Publication date: 2022-01-06
Also published as: US11854283B2; EP3816818A3; CN111782839A; US20210406619A1; JP7206309B2; CN111782839B; EP3816818A2; JP2022013643A

Abstract

본 발명은, 입력 이미지 및 입력 질문을 취득하는 것, 입력 이미지의 적어도 하나의 텍스트 영역 각각의 시각 정보 및 위치 정보를 검출하는 것, 상기 시각 정보 및 위치 정보에 기초하여, 상기 적어도 하나의 텍스트 영역 각각의 시맨틱 정보 및 속성 정보를 확정하는 것, 상기 시각 정보, 위치 정보, 시맨틱 정보 및 속성 정보에 기초하여, 입력 이미지의 전역 특징을 확정하는 것, 입력 질문에 기초하여, 질문 특징을 확정하는 것, 및 전역 특징 및 질문 특징에 기초하여, 입력 이미지 및 입력 질문에 대한 예측 답안을 생성하는 것을 포함하는 이미지 문답 방법을 제공한다. 본 발명은 이미지 문답 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램도 제공한다.

Description

이미지 문답 방법, 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램{method, apparatus, computer equipment, computer readable storage medium and computer program for visual qustion answering}

본 발명은 컴퓨터 시각, 자연 언어 처리 분야에 관한 것으로서, 보다 구체적으로는, 이미지 문답 방법, 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램에 관한 것이다.

이미지 문답 (Visual Question Answering, VQA) 은 아주 도전성있는 임무로서 , 그 목적은 컴퓨터 시각과 자연 언어 처리를 연결시키는 것이다. 이미지 문답 임무에 있어서 , 예를 들어 , 하나의 이미지와 하나의 연관되는 질문이 주어지고, 기계로 하여금 이미지 내용에 따라 일부 상식에 의해 질문의 답안을 추리하여 얻어낼 것을 요구한다. 상기 이미지 문답 임무를 완성하기 위해, 기계는 반드시 교차 양상(CrossModal)의 이해능력을 구비하여, 시각과 언어 이 2 가지 부동한 양상( Modality)의 데이터에 대한 종합적인 이해를 실현하여야 한다.

따라서, 이미지 문답 임무는 다른 단일 양상의 임무(예를 들어, 이미지 식별, 문서 분류 등)에 비해 요구가 더 높다.

이를 감안하여, 본 발명은 이미지 문답 방법 및 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램을 제공한다.

본 발명의 한 측면에 의하면, 입력 이미지 및 입력 질문을 취득하는 것, 입력 이미지의 적어도 하나의 텍스트 영역 각각의 시각 정보 및 위치 정보를 검출하는 것, 상기 시각 정보 및 위치 정보에 기초하여, 상기 적어도 하나의 텍스트 영역 각각의 시맨틱 정보 및 속성 정보를 확정하는 것, 상기 시각 정보, 위치 정보, 시맨틱 정보 및 속성 정보에 기초하여, 입력 이미지의 전역 특징을 확정하는 것, 입력 질문에 기초하여, 질문 특징을 확정하는 것, 및 전역 특징 및 질문 특징에 기초하여, 입력 이미지 및 입력 질문에 대한 예측 답안을 생성하는 것을 포함하는 이미지 문답 방법을 제공한다.

본 발명의 실시예에 의하면, 상기 입력 이미지의 적어도 하나의 텍스트 영역 각각의 시각 정보 및 위치 정보를 검출하는 것은, 문자 검출 모델을 이용하여 입력 이미지를 검출함으로써, 입력 이미지내에 적어도 하나의 텍스트 영역 각각의 바운딩 박스를 생성하는 것을 포함한다. 여기서, 상기 적어도 하나의 텍스트 영역 중 각 텍스트 영역의 바운딩 박스내의 이미지 정보는 각 텍스트 영역의 시각 정보를 나타내고, 각 텍스트 영역의 바운딩 박스의 위치 정보는 각 텍스트 영역의 위치 정보를 나타낸다.

본 발명의 실시예에 의하면, 상기 시각 정보 및 위치 정보에 기초하여, 적어도 하나의 텍스트 영역 각각의 시맨틱 정보 및 속성 정보를 확정하는 것은, 적어도 하나의 텍스트 영역 중 각 텍스트 영역에 대해, 문자 인식 모델을 이용하여 각 텍스트 영역의 시각 정보를 인식하여, 각 텍스트 영역의 시맨틱 정보를 얻는 것을 포함한다.

본 발명의 실시예에 의하면, 속성 정보는, 테이블 속성 정보를 포함한다. 상기 시각 정보 및 위치 정보에 기초하여, 적어도 하나의 텍스트 영역 각각의 시맨틱 정보 및 속성 정보를 확정하는 것은, 테이블 검출 도구를 이용하여, 입력 이미지의 적어도 하나의 테이블 영역의 위치 정보를 검출하는 것, 및 각 텍스트 영역의 위치 정보 및 적어도 하나의 테이블 영역의 위치 정보에 기초하여, 각 텍스트 영역의 테이블 속성 정보를 확정하는 것을 더 포함하고, 테이블 속성 정보는 각 텍스트 영역이 적어도 하나의 테이블 영역 내에 위치하는지를 나타낸다.

본 발명의 실시예에 의하면, 상기 각 텍스트 영역의 위치 정보 및 적어도 하나의 테이블 영역의 위치 정보에 기초하여, 각 텍스트 영역의 테이블 속성 정보를 확정하는 것은, 각 텍스트 영역의 위치 정보 및 적어도 하나의 테이블 영역 중 각 테이블 영역의 위치 정보로부터, 각 텍스트 영역과 각 테이블 영역간의 교집합 및 합집합을 계산하는 것, 및 교집합과 합집합의 비례 값을 계산하는 것을 포함한다. 상기 비례 값이 소정의 임계치보다 클 경우, 각 테이블 영역에 관한 각 텍스트 영역의 테이블 속성 정보를 1로 확정한다. 상기 비례 값이 소정의 임계값이하일 경우, 각 테이블 영역에 관한 각 텍스트 영역의 테이블 속성 정보를 0으로 확정한다.

본 발명의 실시예에 의하면, 속성 정보는, 문자 속성 정보를 포함한다. 상기 시각 정보 및 위치 정보에 기초하여, 적어도 하나의 텍스트 영역 각각의 시맨틱 정보 및 속성 정보를 확정하는 것은, 필기 문자 인식 모델을 이용하여, 각 텍스트 영역의 시각 정보를 인식하여, 각 텍스트 영역의 문자 속정 정보를 확정하는 것을 더 포함하고, 문자 속성 정보는 텍스트 영역에 필기 문자가 포함되어 있는지를 나타낸다.

본 발명의 실시예에 의하면, 상기 시각 정보, 위치 정보, 시맨틱 정보 및 속성 정보에 기초하여, 입력 이미지의 전역 특징을 확정하는 것은, 적어도 하나의 텍스트 영역 중 각 텍스트 영역에 대해, 각 텍스트 영역의 시각 정보, 위치 정보, 시맨틱 정보 및 속성 정보를 각각 제1 특징, 제2 특징, 제3 특징 및 제4 특징으로 전환하고, 제1 특징, 제2 특징, 제3 특징 및 제4 특징을 각 텍스트 영역의 특징으로 병합하는 것, 적어도 하나의 텍스트 영역 각각의 위치 정보로부터, 적어도 하나의 텍스트 영역의 배열 순서를 확정하는 것, 및 배열 순서에 따라, 소정의 인코딩 모델을 이용하여, 적어도 하나의 텍스트 영역의 특징에 대해 순차적으로 인코딩처리를 실행하여, 입력 이미지의 전역 특징을 취득하는 것을 포함한다.

본 발명의 실시예에 의하면, 상기 제1 특징, 제2 특징, 제3 특징 및 제4 특징을 각 텍스트 영역의 특징으로 병합하는 것은, 제1 특징, 제2 특징, 제3 특징 및 제4 특징을 연결병합을 실행함으로써, 각 텍스트 영역의 특징을 취득하는 것을 포함한다. 또는, 제1 특징, 제2 특징, 제3 특징 및 제4 특징에 대해 벡터 가산을 실행함으로써, 각 텍스트 영역의 특징을 취득하는 것을 포함한다.

본 발명의 실시예에 의하면, 상기 입력 질문에 기초하여, 질문 특징을 확정하는 것은, 워드 인코딩 알고리즘 및 특징 인코딩 알고리즘을 이용하여, 입력 질문에 대해 순차적으로 인코딩처리를 실행하여, 질문 특징을 취득하는 것을 포함한다.

본 발명의 실시예에 의하면, 상기 전역 특징 및 질문 특징에 기초하여, 입력 이미지 및 입력 질문에 대한 예측 답안을 생성하는 것은, 전역 특징 및 질문 특징을 병합하여, 융합 특징을 얻는 것, 및 제1 예측 모델을 이용하여 융합 특징을 처리함으로써, 융합 특징에 대한 예측 답안을 취득하는 것을 포함한다. 제1 예측 모델은 샘플 이미지, 샘플 질문 및 제1 라벨에 기초한 트레이닝을 통해 얻은 것이고, 제1 라벨은 샘플 이미지 및 샘플 질문에 대한 실제 답안을 나타낸다.

본 발명의 실시예에 의하면, 상기 전역 특징 및 질문 특징에 기초하여, 입력 이미지 및 입력 질문에 대한 예측 답안을 생성하는 것은, 전역 특징 및 질문 특징을 병합하여, 융합 특징을 얻는 것, 제2 예측 모델을 이용하여 융합 특징을 처리함으로써, 융합 특징에 대한 답안 시작 위치 정보를 얻는 것, 제3 예측 모델을 이용하여 융합 특징을 처리함으로써, 융합 특징에 대한 답안 종료 위치 정보를 얻는 것, 및 답안 시작 위치 정보, 답안 종료 위치 정보 및 입력 이미지에 기초하여, 입력 이미지 및 입력 질문에 대한 예측 답안을 확정하는 것을 포함하고, 제2 예측 모델은 샘플 이미지, 샘플 질문 및 제2 라벨에 기초한 트레이닝을 통해 얻은 것이고, 제2 라벨은 샘플 이미지 및 샘플 질문에 대한 실제 답안의 샘플 이미지에서의시작 위치 정보를 나타내고, 제3 예측 모델은 샘플 이미지, 샘플 질문 및 제3 라벨에 기초한 트레이닝을 통해 얻은 것이고, 제3 라벨은 샘플 이미지 및 샘플 질문에 대한 실제 답안의 샘플 이미지에서의 종료 위치 정보를 나타낸다.

본 발명의 실시예에 의하면, 상기 방법은, 상기 입력 이미지 및 입력 질문에 대한 M개의 예측 답안을 생성하는 경우, M개의 예측 답안 중 각 예측 답안과 M개의 예측 답안 중 각 예측 답안을 제외한 다른 M-1개의 예측 답안사이의 편집 거리를 계산하는 것, 편집 거리를 합산하여, 각 예측 답안에 대한 평가를 얻는 것, 및 M개의 예측 답안 중 평가가 가장 높은 예측 답안을 선택하여, 최적 예측 답안으로 하는 것을 더 포함하고, 여기서, M는 2보다 큰 정수이다.

본 발명의 다른 한 측면에 의하면, 입력 이미지 및 입력 질문을 취득하기 위한 취득 모듈, 입력 이미지의 적어도 하나의 텍스트 영역 각각의 시각 정보 및 위치 정보를 검출하기 위한 검출 모듈, 시각 정보 및 위치 정보에 기초하여, 적어도 하나의 텍스트 영역 각각의 시맨틱 정보 및 속성 정보를 확정하기 위한 확정 모듈, 시각 정보, 위치 정보, 시맨틱 정보 및 속성 정보에 기초하여, 입력 이미지의 전역 특징을 확정하기 위한 인코딩 모듈, 입력 질문에 기초하여, 질문 특징을 확정하기 위한 질문 특징 추출 모듈, 및 전역 특징 및 질문 특징에 기초하여, 입력 이미지 및 입력 질문에 대한 예측 답안을 생성하기 위한 예측 모듈을 포함하는 이미지 문답 장치를 제공한다.

본 발명의 실시예에 의하면, 검출 모듈은, 문자 검출 모델을 이용하여 입력 이미지를 검출함으로써, 입력 이미지내에 적어도 하나의 텍스트 영역 각각의 바운딩 박스를 생성한다. 여기서, 상기 적어도 하나의 텍스트 영역 중 각 텍스트 영역의 바운딩 박스내의 이미지 정보는 각 텍스트 영역의 시각 정보를 나타내고, 각 텍스트 영역의 바운딩 박스의 위치 정보는 각 텍스트 영역의 위치 정보를 나타낸다.

본 발명의 실시예에 의하면, 확정 모듈은, 적어도 하나의 텍스트 영역 중 각 텍스트 영역에 대해, 문자 인식 모델을 이용하여 각 텍스트 영역의 시각 정보를 인식하여, 각 텍스트 영역의 시맨틱 정보를 얻기 위한 제1 확정 서브 모듈을 포함한다.

본 발명의 실시예에 의하면, 속성 정보는, 테이블 속성 정보를 포함한다. 확정 모듈은, 테이블 검출 도구를 이용하여, 입력 이미지의 적어도 하나의 테이블 영역의 위치 정보를 검출하고, 각 텍스트 영역의 위치 정보 및 적어도 하나의 테이블 영역의 위치 정보에 기초하여, 각 텍스트 영역의 테이블 속성 정보를 확정하기 위한 제2 확정 서브 모듈을 더 포함하고, 테이블 속성 정보는 각 텍스트 영역이 적어도 하나의 테이블 영역 내에 위치하는지를 나타낸다.

본 발명의 실시예에 의하면, 제2 확정 서브 모듈은, 구체적으로, 각 텍스트 영역의 위치 정보 및 적어도 하나의 테이블 영역 중 각 테이블 영역의 위치 정보로부터, 각 텍스트 영역과 각 테이블 영역간의 교집합 및 합집합을 계산하고, 교집합과 합집합의 비례 값을 계산한다. 상기 비례 값이 소정의 임계치보다 클 경우, 각 테이블 영역에 관한 각 텍스트 영역의 테이블 속성 정보를 1로 확정한다. 상기 비례 값이 소정의 임계값이하일 경우, 각 테이블 영역에 관한 각 텍스트 영역의 테이블 속성 정보를 0으로 확정한다.

본 발명의 실시예에 의하면, 속성 정보는, 문자 속성 정보를 포함한다. 확정 모듈은, 필기 문자 인식 모델을 이용하여, 각 텍스트 영역의 시각 정보를 인식하여, 각 텍스트 영역의 문자 속정 정보를 확정하기 위한 제3 확정 서브 모듈을 더 포함하고, 문자 속성 정보는 텍스트 영역에 필기 문자가 포함되어 있는지를 나타낸다.

본 발명의 실시예에 의하면, 인코딩 모듈은, 적어도 하나의 텍스트 영역 중 각 텍스트 영역에 대해, 각 텍스트 영역의 시각 정보, 위치 정보, 시맨틱 정보 및 속성 정보를 각각 제1 특징, 제2 특징, 제3 특징 및 제4 특징으로 전환하고, 제1 특징, 제2 특징, 제3 특징 및 제4 특징을 각 텍스트 영역의 특징으로 병합하고, 적어도 하나의 텍스트 영역 각각의 위치 정보로부터, 적어도 하나의 텍스트 영역의 배열 순서를 확정하고, 배열 순서에 따라, 소정의 인코딩 모델을 이용하여, 적어도 하나의 텍스트 영역의 특징에 대해 순차적으로 인코딩처리를 실행하여, 입력 이미지의 전역 특징을 취득한다.

본 발명의 실시예에 의하면, 인코딩 모듈이 제1 특징, 제2 특징, 제3 특징 및 제4 특징을 각 텍스트 영역의 특징으로 병합하는 것은, 인코딩 모듈이 제1 특징, 제2 특징, 제3 특징 및 제4 특징을 연결병합을 실행함으로써, 각 텍스트 영역의 특징을 취득하는 것을 포함한다. 또는, 제1 특징, 제2 특징, 제3 특징 및 제4 특징에 대해 벡터 가산을 실행함으로써, 각 텍스트 영역의 특징을 취득하는 것을 포함한다.

본 발명의 실시예에 의하면, 질문 특징 추출 모듈은, 워드 인코딩 알고리즘 및 특징 인코딩 알고리즘을 이용하여, 상기 입력 질문에 대해 순차적으로 인코딩처리를 실행하여, 상기 질문 특징을 취득한다.

본 발명의 실시예에 의하면, 예측 모듈은, 전역 특징 및 질문 특징을 병합하여, 융합 특징을 얻고, 제1 예측 모델을 이용하여 융합 특징을 처리함으로써, 융합 특징에 대한 예측 답안을 취득하기 위한 제1 예측 서브 모듈을 포함한다. 제1 예측 모델은 샘플 이미지, 샘플 질문 및 제1 라벨에 기초한 트레이닝을 통해 얻은 것이고, 제1 라벨은 샘플 이미지 및 샘플 질문에 대한 실제 답안을 나타낸다.

본 발명의 실시예에 의하면, 예측 모듈은 제2 예측 서브 모듈을 포함한다. 제2예측 서브 모듈은, 전역 특징 및 질문 특징을 병합하여, 융합 특징을 얻고, 제2 예측 모델을 이용하여 융합 특징을 처리함으로써, 융합 특징에 대한 답안 시작 위치 정보를 얻고, 제3 예측 모델을 이용하여 융합 특징을 처리함으로써, 융합 특징에 대한 답안 종료 위치 정보를 얻고, 답안 시작 위치 정보, 답안 종료 위치 정보 및 입력 이미지에 기초하여, 입력 이미지 및 입력 질문에 대한 예측 답안을 확정한다. 여기서, 제2 예측 모델은 샘플 이미지, 샘플 질문 및 제2 라벨에 기초한 트레이닝을 통해 얻은 것이고, 제2 라벨은 샘플 이미지 및 샘플 질문에 대한 실제 답안의 샘플 이미지에서의시작 위치 정보를 나타내고, 제3 예측 모델은 샘플 이미지, 샘플 질문 및 제3 라벨에 기초한 트레이닝을 통해 얻은 것이고, 제3 라벨은 샘플 이미지 및 샘플 질문에 대한 실제 답안의 샘플 이미지에서의 종료 위치 정보를 나타낸다.

본 발명의 실시예에 의하면, 상기 장치는 멀티 답안 융합 모듈을 더 포함한다. 멀티 답안 융합 모듈은, 입력 이미지 및 입력 질문에 대한 M개의 예측 답안을 생성하는 경우, M개의 예측 답안 중 각 예측 답안과 M개의 예측 답안 중 각 예측 답안을 제외한 다른 M-1개의 예측 답안사이의 편집 거리를 계산하고, 편집 거리를 합산하여, 각 예측 답안에 대한 평가를 얻고, M개의 예측 답안 중 평가가 가장 높은 예측 답안을 선택하여, 최적 예측 답안으로 한다. 여기서, M는 2보다 큰 정수이다.

본 발명의 다른 측면에 의하면, 컴퓨터 프로그램이 저장되어 있는 메모리, 및 적어도 하나의 프로세서를 포함하는 컴퓨터 장비에 있어서, 상기 컴퓨터 프로그램이 상기 프로세서에 의해 실행될 경우, 상기와 같은 방법을 구현하는 컴퓨터 장비를 제공한다.

본 발명의 다른 측면에 의하면, 컴퓨터 프로그램이 저장되어 있는 비 일시적 컴퓨터 판독가능 저장 매체에 있어서, 상기 컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 상기와 같은 방법을 구현하는 비 일시적 컴퓨터 판독가능 저장 매체를 제공한다.

본 발명의 다른 측면에 의하면, 컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서, 상기 컴퓨터 프로그램의 명령이 프로세서에 의해 실행될 경우, 상기와 같은 방법을 구현하는 컴퓨터 프로그램을 제공한다.

본 발명의 실시예에 따른 이미지 문답 방법은, 입력 이미지 및 입력 질문을 취득한 후, 입력 이미지의 각 텍스트 영역의 시각 정보 및 위치 정보를 검출할뿐만 아니라, 시각 정보 및 위치 정보에 기초하여, 각 텍스트 영역의 시맨틱 정보 및 속성 정보를 확정한다. 상기 시각 정보, 위치 정보, 시맨틱 정보 및 속성 정보에 기초하여, 입력 이미지에 대해 인코딩을 실행함으로써, 입력 이미지의 전역 특징을 얻을 수 있고, 보다 전면적으로 입력 이미지의 특징 정보에 관심을 기울이고 러닝할 수 있다. 이에 기초하여, 입력 이미지의 전역 특징 및 입력 질문의 질문 특징에 기초하여, 최종 답안을 예측할 수 있다. 초기에 입력 이미지의 특징 표현을 풍부히 하고 최적화를 실행함으로써, 이미지 문답 과정에서 복잡한 텍스트를 포함한 입력 이미지에 대한 추리 능력을 효과적으로 강화함으로써, 본 발명의 실시예에 따른 이미지 문답 과정이 보다 해석가능하도록 하고, 보다 광범위한 문서 분석 처리 장면에 적용될 수 있다.

이하에서 첨부 도면을 참조하여 설명한 본 발명의 실시예를 통해, 본 발명의 상기 및 다른 목적, 특징 및 장점들은 보다 명확해질 것이다.
도1은 본 발명의 실시예에 따른 이미지 문답 방법 및 장치를 응용하는 예시적인 시스템 구성을 개략적으로 나타낸다.
도2는 본 발명의 실시예에 따른 이미지 문답 방법의 흐름도를 개략적으로 나타낸다.
도3a~도3b는 본 발명의 실시예에 따른 입력 이미지의 예시도를 개략적으로 나타낸다.
도4a는 본 발명의 실시예에 따른 이미지 문답 과정의 예시도를 개략적으로 나타낸다.
도4b는 본 발명의 실시예에 따른 인코딩 과정의 예시도를 개략적으로 나타낸다.
도5a~도5b는 본 발명의 다른 실시예에 따른 이미지 문답 방법의 흐름도를 개략적으로 나타낸다.
도6은 본 발명의 실시예에 따른 이미지 문답 장치의 블록도를 개략적으로 나타낸다.
도7은 본 발명의 실시예에 따른 컴퓨터 장비의 블록도를 개략적으로 나타낸다.

이하, 첨부 도면을 참조하여 본 발명의 실시예를 설명한다. 이러한 설명은 단지 예시적인 것일 뿐, 본 발명의 범위를 한정하기 위한 것이 아님을 이해하여야 한다. 이하의 상세한 설명에 있어서, 해석의 편리를 위하여, 다수의 구체적인 세부요소들을 설명함으로써 본 발명의 실시예에 대해 전면적으로 이해할 수 있도록 한다. 하지만, 하나 또는 복수의 실시예는 이러한 세부요소 없이도 실시가능함을 지적해둔다. 또한, 이하의 설명에서는, 본 발명의 개념에 혼선을 주지 않기 위해 공지적인 구조나 기술에 대한 설명은 생략한다.

본 명세서에서 사용하는 용어는 단지 구체적인 실시예를 설명하기 위한 것으로서, 본 발명을 한정하기 위한 취지로 해석되어서는 아니된다. 본 명세서에서 사용하는 '포함', '구비' 등 용어는 언급된 특징, 단계, 동작 및/또는 부품의 존재를 의미하는데, 하나 또는 복수의 다른 특징, 단계, 동작 또는 부품의 존재 또는 추가를 배제하지는 않는다.

본 명세서에서 사용하는 모든 용어(기술적 및 과학적 용어 포함)는 별도로 정의되지 않는 한, 당업자가 통상적으로 이해하는 의미를 갖는다. 본 명세서에서 사용하는 용어는 본 명세서의 문맥과 일치하는 의미를 갖는 것으로 해석되어야 하며, 이상적이거나 과도하게 사전상의 의미로 해석되어서는 아니되는 점에 유의해야 한다.

'A, B 및 C중 적어도 하나'와 같은 표현을 사용할 경우, 당업자가 통상적으로 이해하는 해당 표현의 의미에 따라 해석되어야 한다(예를 들어, 'A, B 및 C중 적어도 하나를 구비한 시스템'에는, A만 구비한 시스템, B만 구비한 시스템, C만 구비한 시스템, A 및 B를 구비한 시스템, A 및 C를 구비한 시스템, B 및 C를 구비한 시스템, 및/또는 A, B, C를 구비한 시스템이 포함되는데, 이에 한정되지는 않는다). 'A, B 또는 C중 적어도 하나'와 같은 표현을 사용할 경우, 당업자가 통상적으로 이해하는 해당 표현의 의미에 따라 해석되어야 한다(예를 들어, 'A, B 또는 C중 적어도 하나를 구비한 시스템'에는, A만 구비한 시스템, B만 구비한 시스템, C만 구비한 시스템, A 및 B를 구비한 시스템, A 및 C를 구비한 시스템, B 및 C를 구비한 시스템, 및/또는 A, B, C를 구비한 시스템이 포함되는데, 이에 한정되지는 않는다).

본 발명의 실시예에 의하면, 이미지 문답 방법, 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램을 제공한다. 이미지 문답 방법은 취득 과정, 검출 과정, 확정 과정, 인코딩 과정, 질문 특징 추출 과정 및 예측 과정을 포함할 수 있다. 취득 과정에서는, 입력 이미지 및 입력 질문을 취득한다. 검출 과정에서는, 입력 이미지의 적어도 하나의 텍스트 영역 각각의 시각 정보 및 위치 정보를 검출한다. 그 다음, 확정 과정을 실행하여, 상기 시각 정보 및 위치 정보에 기초하여, 상기 적어도 하나의 텍스트 영역 각각의 시맨틱 정보 및 속성 정보를 확정한다. 이어서, 상기 시각 정보, 위치 정보, 시맨틱 정보 및 속성 정보에 기초하여 인코딩 과정을 실행함으로써, 입력 이미지의 전역 특징을 확정한다. 질문 특징 추출 과정에서는, 입력 질문에 기초하여, 질문 특징을 확정한다. 전역 특징 및 질문 특징에 기초하여 예측 과정을 실행하여, 입력 이미지 및 입력 질문에 대한 예측 답안을 생성할 수 있다.

이미지 문답은 아주 도전성있는 임무로서, 그 목적은 컴퓨터 시각과 자연 언어 처리를 연결시키는 것이다. 이미지 문답 임무에 있어서, 예를 들어, 하나의 이미지와 하나의 연관되는 질문이 주어지고, 기계로 하여금 이미지 내용에 따라 일부 상식에 의해 질문의 답안을 추리하여 얻어낼 것을 요구한다. 상기 이미지 문답 임무를 완성하기 위해, 기계는 반드시 교차 양상의 이해능력을 구비하여, 시각과 언어 이 2가지 부동한 양상의 데이터에 대한 종합적인 이해를 실현하여야 한다. 따라서, 이미지 문답 임무는 다른 단일 양상의 임무(예를 들어, 이미지 식별, 문서 분류 등)에 비해 요구가 더 높다.

도1은 본 발명의 실시예에 따른 이미지 문답 방법 및 장치를 응용할 수 있는 예시적인 시스템 구성(100)을 개략적으로 나타낸다. 지적해두어야 할 것은, 도 1에 도시된 것 은 본 발명의 실시예를 응용할 수 있는 시스템 구조의 예시에 지나지 않으며, 당업자가 본 발명의 기술 내용을 보다 쉽게 이해하도록 돕기 위한 것으로, 본 발명의 실시예가 다른 장비, 시스템, 환경 또는 응용장면에 응용할 수 없음을 의미하는 것은 아니다.

도1에 도시된 바와 같이, 본 실시예에 따른 시스템 구성(100)은 복수의 단말 장비(110), 네트워크(120) 및 서버(130)를 포함할 수 있다. 여기서, 단말 장비(110)는 예를 들어 데스크탑, 휴대용 컴퓨터, 스마트 폰, 테블릿 등과 같은 다양한 단말 장비일 수 있고, 본 명세서에서는 이에 대해 한정하지 않는다. 서버(130)는 예를 들어 서버 또는 서버 클러스터와 같은 일정한 컴퓨팅 기능을 가진 다양한 전자 장비일 수 있고, 본 명세서에서는 이에 대해 한정하지 않는다. 단말 장비(110)에는 각종 기능의 소프트웨어 클라이언트가 설치되어, 소프트웨어 클라이언트를 통해 서버(130)와 인터액션하도록 할 수 있다.

일 실시예에 있어서, 본 발명의 실시예에 따른 이미지 문답 방법은 단말 장비(110)에 의해 실시될 수 있고, 이에 대응하여, 이미지 문답 장치는 단말 장비(110)에 설치될 수 있다. 다른 실시예에 있어서, 본 발명의 실시예에 따른 이미지 문답 방법은 서버(130)에 의해 실시될 수 있고, 이에 대응하여, 이미지 문답 장치는 서버(130)에 설치될 수 있다. 또 다른 실시예에 있어서, 본 발명의 실시예에 따른 이미지 문답 방법은 단말 장비(110) 및/또는 서버(130)와 서로 통신가능한 다른 장비에 의해 실시될 수 있고, 이에 대응하여, 이미지 문답 장치는 상기 다른 장비에 설치될 수 있다.

오늘날, 이미지 문답 시스템은 학술계 및 산업계에서 광범위하게 연구되고 있으며, 이러한 이미지 문답 시스템의 목표는 합리적인 모델을 설계하여, 이미지 문답 시스템으로 하여금, 임의의 자연 언어가 표현하는 질문 및 주어진 이미지에 대해, 충분한 이해와 추리를 거친 후, 자연 언어를 사용하여 정확하게 해답할 수 있도록 하는 것이다. 하지만, 현재의 이미지 문답 시스템은 여전히 해결되지 못한 난제들이 존재한다. 예를 들어, 문서 이미지(Document Image)에 기초한 문서 이미지 문답(Document Visual Question Answering, DocVQA）장면에서, 대부분의 방안은 입력 이미지중의 문자의 시맨틱에만 기초하여 모델을 구축하고, 이미지중의 문서의 구조화 정보는 전혀 고려하지 않는다. 따라서, 비교적 간단한 문서 이미지만 처리가능하고, 예를 들어, 테이블, 도형, 분할 필드 등과 같은 구조를 가진 복잡한 문서 이미지들에 대해서는 처리 효과가 낮고, 답안 예측 정확도도 떨어진다.

본 발명의 실시예에 의하면, DocVQA장면에 응용가능한 이미지 문답 방법을 제공한다. 이하, 도면을 참조하여 상기 방법을 예시적으로 설명한다. 지적해두어야 할 것은, 하기의 방법에 있어서, 각 동작의 번호는 단지 설명의 편의를 위한 해당 동작의 표시로서, 결코 각 동작의 실행 순서를 의미하는 것은 아니다. 별도로 언급하지 않는 한, 상기 방법은 굳이 설명한 순서에 따라 실행할 필요는 없다.

도2는 본 발명의 실시예에 따른 이미지 문답 방법의 흐름도를 개략적으로 나타낸다.

도2에 도시된 바와 같이, 상기 방법은 동작(S201)~동작(S206)을 포함할 수 있다.

동작(S201)에서는, 입력 이미지 및 입력 질문을 취득한다.

예시적으로, 동작(S201)에서 취득한 입력 이미지는 문서 이미지이다. 예를 들어, 처리 대상 문서에 대해 스캔, 촬영 등 동작을 실행하여 얻은 문서 이미지일 수 있다. 도3a~도3b는 본 발명의 실시예에 따른 입력 이미지의 예시도를 개략적으로 나타낸다. 도3a 및 도3b에서는, 2개의 실시예에 대한 입력 이미지(301)를 각각 도시하였다. 문서 이미지중의 텍스트 언어는 실제 수요에 따라 설정할 수 있다. 예를 들어, 다른 언어일 수도 있는데, 본 명세서에서는 이에 대해 한정하지 않는다.

동작(S202)에서는, 입력 이미지의 적어도 하나의 텍스트 영역 각각의 시각 정보(Visual Information) 및 위치 정보를 검출한다.

예시적으로, 입력 이미지의 각 텍스트 영역은 예를 들어 입력 이미지내의 한 행 또는 복수 행의 텍스트가 차지한 영역에 대응할 수 있다. 동일 행의 텍스트에 비교적 큰 간격이 있을 경우, 예를 들어, 동일 행의 텍스트는 테이블의 서로 다른 셀에 위치할 수 있고, 각 셀의 텍스트가 차지하는 영역을 입력 이미지의 하나의 텍스트 영역으로 할 수 있다. 텍스트 영역의 검출 범위는 실제 수요에 따라 조정할 수 있고, 원칙적으로 각 텍스트 영역은 분포가 비교적 컴팩트한 복수의 문자를 포함한다. 도3b에 도시된 실시예에서, 입력 이미지의 하나의 텍스트 영역(302)을 예로 들어 표시하면, 점선 박스내의 이미지 정보를 상기 텍스트 영역(302)의 시각 정보로 할 수 있고, 입력 이미지에 대한 점선 박스의 위치를 상기 텍스트 영역(302)의 위치 정보로 할 수 있다.

동작(S203)에서는, 상기 시각 정보 및 위치 정보에 기초하여, 상기 적어도 하나의 텍스트 영역 각각의 시맨틱 정보(Semantic Information) 및 속성 정보를 확정한다.

예시적으로, 각 텍스트 영역의 시맨틱 정보는, 상기 텍스트 영역의 얕은 차원과 깊은 차원에 대한 시맨틱 이해를 나타낼 수 있다. 각 텍스트 영역의 속성 정보는, 하나 또는 복수의 차원에서 입력 이미지에서의 상기 텍스트 영역의 하나 또는 복수의 속성 특징을 설명할 수 있다. 예를 들어, 단락 정보, 테이블 정보, 필기 정보 등과 같은 문서의 다양한 구조화 속성 정보를 포함할 수 있다.

동작(S204)에서는, 상기 시각 정보, 위치 정보, 시맨틱 정보 및 속성 정보에 기초하여, 입력 이미지의 전역 특징을 확정한다.

예시적으로, 동작(S204)은 입력 이미지에 대해 특징 인코딩을 실행하는 과정에서 입력 이미지의 각 텍스트 영역의 시각 정보, 위치 정보, 시맨틱 정보 및 속성 정보를 종합적으로 고려한다. 상기의 여러 종류의 정보는 서로 다른 각도로부터 입력 이미지의 텍스트 영역의 특징을 설명하여, 입력 이미지에 대해 인코딩을 실행하는 수용야(Receptive Field)를 증가하므로, 입력 이미지의 전역 특징을 취득할 수 있다.

동작(S205)에서는, 입력 질문에 기초하여 질문 특징을 확정한다.

동작(S206)에서는, 전역 특징 및 질문 특징에 기초하여, 입력 이미지 및 입력 질문에 대한 예측 답안을 생성한다.

당업자라면, 하기의 내용을 이해할 수 있을 것이다. 즉, 본 발명의 실시예에 따른 이미지 문답 방법은, 입력 이미지 및 입력 질문을 취득한 후, 입력 이미지의 각 텍스트 영역의 시각 정보 및 위치 정보를 검출할뿐만 아니라, 시각 정보 및 위치 정보에 기초하여, 각 텍스트 영역의 시맨틱 정보 및 속성 정보를 확정한다. 상기 시각 정보, 위치 정보, 시맨틱 정보 및 속성 정보에 기초하여, 입력 이미지에 대해 인코딩을 실행함으로써, 입력 이미지의 전역 특징을 얻을 수 있고, 보다 전면적으로 입력 이미지의 특징 정보에 관심을 기울이고 러닝할 수 있다. 이에 기초하여, 입력 이미지의 전역 특징 및 입력 질문의 질문 특징에 기초하여, 최종 답안을 예측할 수 있다. 초기에 입력 이미지의 특징 표현을 풍부히 하고 최적화를 실행함으로써, 이미지 문답 과정에서 복잡한 텍스트를 포함한 입력 이미지에 대한 추리 능력을 효과적으로 강화함으로써, 본 발명의 실시예에 따른 이미지 문답 과정이 보다 해석가능하도록 하고, 보다 광범위한 문서 분석 처리 장면에 적용될 수 있다.

도4a는 본 발명의 실시예에 따른 이미지 문답 과정의 예시도를 개략적으로 나타낸다.

도4a에 도시된 바와 같이, 사전에 네트워크 모델(400)을 구축할 수 있다. 상기네트워크 모델(400)은, 문자 검출 인식 모듈(410), 문서 구조 분석 모듈(420), 인코딩 모듈(430) 및 디코딩 모듈(440)을 포함할 수 있다. 본 발명의 실시예에 의하면, 상기 네트워크 모델(400)의 각 모듈을 트레이닝함으로써, 네트워크 모델(400)로 하여금 도2에 도시된 바와 같은 이미지 문답 임무를 실행할 수 있는 능력을 구비하도록 하여야 한다. 일 실시예에 있어서, 트레이닝 과정에 네트워크 모델(400) 전체를 트레이닝할 수 있는데, 샘플 이미지 및 샘플 질문을 상기 네트워크 모델(400)에 입력하고, 네트워크 모델(400)의 출력과 샘플 라벨사이의 차이에 근거하여, 네트워크 모델(400)의 목표 함수가 수렴할 때까지 네트워크 모델(400)의 파라미터를 최적화한다. 여기서, 샘플 라벨은 샘플 이미지 및 샘플 질문에 대한 실제 답안이다. 다른 실시예에 있어서는, 네트워크 모델(400)의 각 모듈에 대해 개별적으로 트레이닝함으로써, 각 모듈로 하여금 본 발명의 실시예가 요구하는 처리능력을 구비하도록 할 수 있다. 본 발명의 실시예에 따른 이미지 문답 방법은 상기 트레이닝 완료된 네트워크 모델(400)을 이용하여 실시할 수 있다. 이하, 실시 과정에 대해 예시적으로 설명한다.

본 발명에 실시예에 따르면, 도4a에 도시된 바와 같이, 문자 검출 인식 모듈(410)은 문자 검출 모델(411)을 포함할 수 있다. 상기 동작(S202)에서, 입력 이미지의 적어도 하나의 텍스트 영역 각각의 시각 정보 및 위치 정보를 검출하는 과정은 하기와 같이 실시될 수 있다. 문자 검출 모델(411)을 이용하여 입력 이미지(401)를 검출한다. 문자 검출 모델(411)은 입력 이미지(401)의 텍스트 영역을 목표 대상으로 하여 검출함으로써, 입력 이미지(401)내에 적어도 하나의 텍스트 영역 각각의 바운딩 박스(Bounding Box)를 생성한다. 도4a에 도시된 바와 같은 점선 박스는 하나의 텍스트 영역의 바운딩 박스로 볼 수 있다. 여기서, 상기 적어도 하나의 텍스트 영역 중 각 텍스트 영역의 바운딩 박스내의 이미지 정보(402)(예를 들어, 바운딩 박스내의 이미지)는 상기 텍스트 영역의 시각 정보를 나타내고, 각 텍스트 영역의 바운딩 박스의 위치 정보(403) (예를 들어, 바운딩 박스의 높이 값, 너비 값 및 중심점의 좌표 값)는 상기 텍스트 영역의 위치 정보를 나타낸다. 본 실시예에서 사용되는 문자 검출 모델(411)은 직접 취득한 사전에 트레이닝된 문자 검출 모델일 수 있고, 또는, 타겟 검출 모델(예를 들어, Faster RCNN（Faster Region Convolutional Neural Network) 등）을 구축하고, 샘플 문서 이미지 및 소정의 라벨에 기초하여 트레이닝을 실행함으로써 취득할 수도 있다.

또한, 입력 이미지의 각 텍스트 영역의 시맨틱 정보를 취득하기 위해, 본 발명의 실시예에 의하면, 도4a에 도시된 바와 같이, 문자 검출 인식 모듈(410)은 문자 인식 모델(412)을 더 포함할 수 있다. 상기 동작(S203)에서, 시각 정보 및 위치 정보에 기초하여, 적어도 하나의 텍스트 영역 각각의 시맨틱 정보를 확정하는 과정은 하기와 같이 실시할 수 있다. 적어도 하나의 텍스트 영역 중 각 텍스트 영역에 대해, 문자 인식 모델(412)을 이용하여 각 텍스트 영역의 시각 정보(402)를 인식하여, 각 텍스트 영역의 시맨틱 정보(404)를 취득한다. 각 텍스트 영역의 시맨틱 정보는, 예를 들어, 상기 텍스트 영역에 포함된 텍스트 내용으로 표시할 수 있다. 본 실시예에서 사용되는 문자 인식 모델(412)은 직접 취득한 사전에 트레이닝된 문자 인식 모델일 수 있고, 또는, 인식 모델을 구축하고, 샘플 문서 이미지 및 소정의 라벨에 기초하여 트레이닝을 실행함으로써 취득할 수도 있다. 문자 인식 모델(412)은 예를 들어, OCR（Optical Character Recognition）기술을 사용하여 상기 인식 과정을 실행할 수 있다.

예시적으로, 문자 검출 인식 모듈(410)은 예를 들어EAST（Efficient and Accurate Scene Text）검출 아키텍처에 기초하여 트레이닝을 실행함으로써 취득할 수 있다.

문자 검출 인식 모듈(410)은 각 텍스트 영역의 시각 정보 및 위치 정보를 문서 구조 분석 모듈(420)로 출력하고, 문서 구조 분석 모듈(420)에 의해 입력 이미지에 포함된 문서의 한가지 종류 또는 복수의 종류의 속성 정보를 분석한다.

본 발명의 일 실시예에 있어서, 입력 이미지의 각 텍스트 영역의 속성 정보는 테이블 속성 정보를 포함할 수 있고, 테이블 속성 정보는 텍스트 영역이 적어도 하나의 테이블 영역 내에 위치하는지를 나타낸다. 상기 동작(S203)에서, 시각 정보 및 위치 정보에 기초하여, 적어도 하나의 텍스트 영역 각각의 속성 정보를 확정하는 과정은 하기와 같이 실시할 수 있다. 도4a에 도시된 바와 같이, 문서 구조 분석 모듈(420)은 테이블 검출 도구(421)를 포함하고, 테이블 검출 도구(421)를 이용하여, 입력 이미지(401)의 적어도 하나의 테이블 영역의 위치 정보를 검출한다. 테이블 검출 도구(421)는 입력 이미지(401)내의 테이블 영역을 목표 대상으로 하여 검출하고, 입력 이미지(401)내에 적어도 하나의 테이블 영역 각각의 테이블 바운딩 박스를 생성한다. 테이블 바운딩 박스의 위치 정보에 기초하여, 대응하는 테이블 영역의 위치 정보를 확정할 수 있다. 계속하여, 문서 구조 분석 모듈(420)은 각 텍스트 영역의 위치 정보 및 적어도 하나의 테이블 영역의 위치 정보에 기초하여, 각 텍스트 영역의 테이블 속성 정보(405)를 확정한다.

예시적으로, 검출된 각 텍스트 영역(A)에 대해, 상기 텍스트 영역(A)과 검출된 임의의 테이블 영역(T)사이의 위치 관계에 근거하여, 상기 텍스트 영역(A)이 테이블 영역(T)내에 위치하는지 확정함으로써, 테이블 영역(T)에 관한 상기 텍스트 영역(A)의 테이블 속성 정보를 확정할 수 있다. 예를 들어, 상기 텍스트 영역이 테이블 영역내에 위치할 경우, 테이블 영역(T)에 관한 텍스트 영역(A)의 테이블 속성 정보를 'is_table=1'로 표시할 수 있고, 반대일 경우, 테이블 영역(T)에 관한 텍스트 영역(A)의 테이블 속성 정보를 'is_table=0'으로 표시할 수 있다.

예를 들어, 상기 텍스트 영역(A)과 테이블 영역(T)의 위치 영역의 IoU (Intersection-over-Union, 교집합과 합집합의 비례 값)를 통해 상기 텍스트 영역(A)과 테이블 영역(T)사이의 위치 관계를 확정할 수 있다. 하기와 같이 실시할 수 있다. 텍스트 영역(A)의 바운딩 박스와 테이블 영역(T)의 테이블 바운딩 박스의 교집합 면적X₁을 계산하고, 텍스트 영역(A)의 바운딩 박스와 테이블 영역(T)의 테이블 바운딩 박스의 합집합 면적X₂을 계산한다. X₁/X₂가 제1 소정의 임계치보다 클 경우, 텍스트 영역(A)과 테이블 영역(T)이 중첩됨을 의미한다. 즉, 텍스트 영역(A)은 테이블 영역(T)내에 위치한다. 반대일 경우, 텍스트 영역(A)은 테이블 영역(T)내에 위치하지 않는다.

또 예를 들면, 하기와 같이 텍스트 영역(A)과 테이블 영역(T)사이의 위치 관계를 확정할 수도 있다. 텍스트 영역(A)의 바운딩 박스와 테이블 영역(T)의 테이블 바운딩 박스의 교집합 면적X₁을 계산하고, 텍스트 영역(A)의 바운딩 박스의 면적X₃을 계산한다. X₁/X₃이 제2 소정의 임계치보다 클 경우, 텍스트 영역(A)과 테이블 영역(T)이 중첩됨을 의미한다. 즉, 텍스트 영역(A)은 테이블 영역(T)내에 위치한다. 반대일 경우, 텍스트 영역(A)은 테이블 영역(T)내에 위치하지 않는다.

본 발명의 일 실시예에 있어서, 입력 이미지의 각 텍스트 영역의 속성 정보는, 문자 속성 정보를 포함할 수 있고, 문자 속성 정보는 텍스트 영역에 필기 문자가 포함되어 있는지를 나타낼 수 있다. 상기 동작(S203)에서, 시각 정보 및 위치 정보에 기초하여, 적어도 하나의 텍스트 영역 각각의 속성 정보를 확정하는 과정은 하기와 같이 실시할 수 있다. 도4a에 도시된 바와 같이, 문서 구조 분석 모듈(420)은 필기 문자 인식 모델(422)을 더 포함할 수 있고, 필기 문자 인식 모델(422)을 이용하여 각 텍스트 영역의 시각 정보를 인식하여, 각 텍스트 영역의 문자 속정 정보(406)를 확정하고, 각 텍스트 영역에 포함되는 텍스트가 필기체인지를 나타내는 분류 결과를 출력할 수 있다. 본 예에서, 필기 문자 인식 모델(422)은 텍스트가 필기체인지에 대해 인식하여 분류하는 사전에 구축된 이진 분류 모델일 수 있다.

예를 들어, 검출된 각 텍스트 영역(A)에 대해, 필기 문자 인식 모델(422)이 상기 텍스트 영역(A)에 포함된 문자가 필기체임을 나타내는 분류 결과1을 출력할 경우, 텍스트 영역(A)의 문자 속성 정보를 'is_handwriting=1'로 표시할 수 있고, 반대일 경우, 텍스트 영역(A)의 문자 속성 정보를 'is_handwriting=0'으로 표시할 수 있다.

도4a에 도시된 실시예에서, 하나의 텍스트 영역(예를 들어, 입력 이미지(401)에서 점선 박스에 의해 표시된 텍스트 영역)의 위치 정보(403)가 '[x1, y1, x0, y0]'으로 표시될 경우, 상기 텍스트 영역의 바운딩 박스의 높이는 x1, 너비는 y1, 및 중심점의 좌표 값은 (x0, y0) 임을 나타낸다. 상기 텍스트 영역의 시맨틱 정보(404)는 '성명 장삼……'으로 표시된다. 상기 텍스트 영역의 테이블 속성 정보(405)는 'is_table=1'로 표시된다. 상기 텍스트 영역의 문자 속성 정보(406)는 'is_handwriting=1'로 표시된다.

본 발명의 실시예에 의하면, 입력 이미지의 각 텍스트 영역의 시각 정보, 위치 정보, 시맨틱 정보 및 속성 정보를 취득한 후, 적어도 하나의 텍스트 영역 중 각 텍스트 영역에 대해, 상기 텍스트 영역의 시각정보에 대해 시각 인코딩(Visual Embedding)을 실행하여, 상기 시각 정보를 나타내는 제1 특징을 얻는다. 상기 텍스트 영역의 위치 정보에 대애 위치 인코딩(Position Embedding)을 실행하여, 상기 위치 정보를 나타내는 제2 특징을 얻는다. 상기 텍스트 영역의 시맨틱 정보에 대해 워드 인코딩(Token Embedding)을 실행하여, 상기 시맨틱 정보를 나타내는 제3 특징을 얻는다. 상기 텍스트 영역의 속성 정보에 대해 속성 인코딩(Attribute Embedding)을 실행하여, 상기 속성 정보를 나타내는 제4 특징을 얻는다. 상기 제1 특징, 제2 특징, 제3 특징, 제4 특징은 각각 벡터 형태로 표시할 수 있다. 속성 정보가 테이블 속성 정보 및 문자 속성 정보를 포함할 경우, 제4 특징은 2개의 특징 벡터를 포함할 수 있다.

입력 이미지의 각 텍스트 영역에 대해, 상기 텍스트 영역의 제1 특징, 제2 특징, 제3 특징, 제4 특징을 상기 텍스트 영역의 특징으로 병합할 수 있다. 예를 들어, 제1 특징, 제2 특징, 제3 특징, 제4 특징을 연결(Concatenate) 병합함으로써, 상기 텍스트 영역의 특징을 취득할 수 있다. 또는, 제1 특징, 제2 특징, 제3 특징 및 제4 특징에 대해 벡터 가산을 실행함으로써, 상기 텍스트 영역의 특징을 취득할 수도 있다.

계속하여 도4a를 참조하면, 입력 이미지의 각 텍스트 영역의 특징을 인코딩 모듈(430)로 입력하여 인코딩을 실행함으로써, 입력 이미지의 전역 특징을 얻을 수 있다. 예를 들어, 각 텍스트 영역의 특징의 입력 방식은 도4b에 도시된 바와 같을 수 있다.

도4b는 본 발명의 실시예에 따른 인코딩 과정의 예시도를 개략적으로 나타낸다.

도4b에 도시된 바와 같이, 상기 인코딩 모듈(430)은 소정의 인코딩 모델(431)을 포함할 수 있고, 상기 소정의 인코딩 모델(431)은, 예를 들어, 장단기 메모리(Long Short-Term Memory, LSTM)모델, 그래프 컨볼루션 네트워크(Graph Convolutional Network, GCN), Transformer 디코더(Transformer Encoder) 등일 수 있다. 입력 이미지의 적어도 하나의 텍스트 영역 각각의 위치 정보에 따라, 적어도 하나의 텍스트 영역의 배열 순서를 확정할 수 있다. 예를 들어, 입력 이미지에 4개의 텍스트 영역이 포함될 경우, 사용자의 읽는 순서를 고려하여, 입력 이미지중 각 행의 텍스트를 왼쪽으로부터 오른쪽으로, 행과 행사이는 위로부터 아래로의 순서에 따라, 상기 4개의 텍스트 영역의 배열 순서를 {A₁, A₃, A₂, A₄}로 확정할 수 있다. 이러한 배열 순서를 입력 순서로 하여, 텍스트 영역(A₁)의 특징(4071), 텍스트 영역(A₃)의 특징(4073), 텍스트 영역(A₂)의 특징(4072) 및 텍스트 영역(A₄)의 특징(4074)을 순차적으로 소정의 인코딩 모델(431)에 입력한다. 소정의 인코딩 모델(431)을 이용하여, 상기 4개의 텍스트 영역의 특징에 대해 순차적으로 인코딩 처리를 실행하여, 입력 이미지의 전역 특징을 취득한다. 여기서, 각 텍스트 영역의 특징은 모두 대응하는 제1 특징, 제2 특징, 제3 특징 및 제4 특징을 병합하여 얻은 것이다.

계속하여 도4a를 참조하면, 디코딩 모듈(440)은 한편으로는 입력 이미지의 전역 특징을 취득하고, 다른 한편으로는 입력 질문(408)의 질문 특징을 취득한다. 본 발명의 실시예에서는, 워드 인코딩(Word Embedding) 알고리즘 및 특징 인코딩 알고리즘을 이용하여, 입력 질문(408)에 대해 순차적으로 인코딩 처리를 실행하여, 질문 특징(q)을 얻을 수 있다. 본 예에 있어서는, Glove워드 인코딩 알고리즘 및 Bi-GRU 특징 인코딩 알고리즘을 이용하여, 전체 질문의 특징 표시(q)를 얻는다. 디코딩 모듈(440)은 전역 특징 및 질문 특징에 기초하여, 입력 이미지 및 입력 질문에 대한 예측 답안(409)을 생성한다. 이하, 도5a 및 도5b를 참조하여, 예측 답안을 생성하는 과정을 예시적으로 설명한다.

도5a는 본 발명의 다른 실시예에 따른 이미지 문답 방법의 흐름도를 개략적으로 나타내고, 상기 동작(S206)에서, 전역 특징 및 질문 특징에 기초하여, 입력 이미지 및 입력 질문에 대한 예측 답안을 생성하는 일 실시형태를 예시적으로 설명하기 위한 것이다.

도5a에 도시된 바와 같이, 상기 방법은 동작(S2061)~동작(S2062)을 포함할 수 있다.

동작(S2061)에서는, 전역 특징 및 질문 특징을 병합하여, 융합 특징을 얻는다.

예시적으로, 동작(S2061)에서는, 연결 병합 또는 벡터 가산 병합의 방식을 통해 전역 특징 및 질문 특징을 병합할 수 있다.

동작(S2062)에서는, 제1 예측 모델을 이용하여 융합 특징을 처리함으로써, 융합 특징에 대한 예측 답안을 얻는다.

예시적으로, 제1 예측 모델은 샘플 이미지, 샘플 질문 및 제1 라벨에 기초한 트레이닝을 통해 얻어지고, 제1 라벨은 샘플 이미지 및 샘플 질문에 대한 실제 답안을 나타낸다.

이로부터 알 수 있다 싶이, 도5a에 도시된 답안 예측 과정은 답안을 생성하는 방식이라고 할 수 있다. 상기 방식은, 취득한 상기 전역 특징 벡터 및 질문 특징 벡터를 예를 들어 트레이닝 완료된 순환 신경 망(Recurrent Neural Network, RNN) 에 입력하고, RNN에 의해 대응하는 답안을 출력한다. 상기 RNN은 복수의 소정의 답안 카테고리에 대한 멀티 분류기에 해당된다. 상기 방식을 통해 생성한 답안은 비교적으로 유연하고, 생성된 예측 답안은 입력 이미지에 포함되어 있지 않는 텍스트일 수 있다.

도5b는 본 발명의 다른 실시예에 따른 이미지 문답 방법의 흐름도를 개략적으로 나타내고, 상기 동작(S206)에서, 전역 특징 및 질문 특징에 기초하여, 입력 이미지 및 입력 질문에 대한 예측 답안을 생성하는 다른 실시 형태를 예시적으로 설명하기 위한 것이다.

도5b에 도시된 바와 같이, 상기 방법은 동작(S2061')~동작(S2064')을 포함할 수 있다.

동작(S2061')에서는, 전역 특징 및 질문 특징을 병합하여, 융합 특징을 얻는다. 동작(S2061')의 동작 과정은 앞에서 설명한 동작(S2061)과 동일하므로, 여기서는 설명을 생략한다.

동작(S2062')에서는, 제2 예측 모델을 이용하여 융합 특징을 처리함으로써, 융합 특징에 대한 답안 시작 위치 정보를 얻는다.

예시적으로, 제2 예측 모델은 샘플 이미지, 샘플 질문 및 제2 라벨에 기초한 트레이닝을 통해 얻어지고, 제2 라벨은 샘플 이미지 및 샘플 질문에 대한 실제 답안의 샘플 이미지에서의 시작 위치 정보를 나타낸다.

동작(S2063')에서는, 제3 예측 모델을 이용하여 융합 특징을 처리함으로써, 융합 특징에 대한 답안 종료 위치 정보를 얻는다.

예시적으로, 제3 예측 모델은 샘플 이미지, 샘플 질문 및 제3 라벨에 기초한 트레이닝을 통해 얻어지고, 제3 라벨은 샘플 이미지 및 샘플 질문에 대한 실제 답안의 샘플 이미지에서의 종료 위치 정보를 나타낸다.

동작(S2064')에서는, 답안 시작 위치 정보, 답안 종료 위치 정보 및 입력 이미지에 기초하여, 입력 이미지 및 입력 질문에 대한 예측 답안을 확정한다.

예시적으로, 동작(S2064')은 입력 이미지에서 답안 시작 위치와 답안 종료 위치 사이에 있는 텍스트 내용을 예측 답안으로 한다.

일반적으로, 입력 이미지와 입력 질문사이의 연관 관계로 인해, 입력 질문에 대한 예측 답안은 종종 입력 이미지내의 텍스트 내용임을 이해할 수 있을 것이다. 이러한 특성에 기초하여, 도5b에 도시된 답안 예측 과정은 입력 이미지에서의 답안의 위치를 예측하는 방식이라고 할 수 있다. 제2 예측 모델 및 제3 예측 모델을 트레이닝할수 있고, 제2 예측 모델은 입력 이미지에 포함된 각 단어가 답안의 시작 위치에 대응되는지를 판단할 수 있고, 제3 예측 모델은 입력 이미지에 포함된 각 단어가 답안의 종료 위치에 대응되는지를 판단할 수 있다. 상기 2개의 모델은 모두 분류 모델일 수 있다. 취득한 상기 전역 특징 벡터 및 질문 특징 벡터를 제2 예측 모델에 입력하고, 제2 예측 모델에 의해 답안의 시작 위치 정보를 출력한다. 취득한 상기 전역 특징 벡터 및 질문 특징 벡터를 제3 예측 모델에 입력하고, 제3 예측 모델에 의해 답안의 종료 위치 정보를 출력한다. 입력 이미지에서 답안의 시작 위치와 답안의 종료 위치 사이에 있는 텍스트 내용을 예측 답안으로 한다.

또한, 상기 각 실시예에 기초하여, 상기에서 사용된 복수의 모델 중 하나 또는 복수의 모델의 구조 또는 파라미터가 변경되거나, 트레이닝 샘플이 변경되면, 다른 이미지 문답 시스템을 얻을 수 있다. 동일한 이미지 및 질문에 대해, 서로 다른 이미지 문답 시스템은 서로 다른 예측 답안을 출력할 수 있다. 이 경우, 본 발명의 실시예에 따른 이미지 문답 방법은, 입력 이미지 및 입력 질문에 대한 M개의 예측 답안을 생성하는 경우, M개의 예측 답안 중 각 예측 답안과 M개의 예측 답안 중 해당 예측 답안을 제외한 다른 M-1개의 예측 답안사이의 편집 거리를 계산하는 것, 편집 거리를 합산하여, 각 예측 답안에 대한 평가를 얻는 것, 및 M개의 예측 답안 중 평가가 가장 높은 예측 답안을 선택하여, 최적 예측 답안으로 하는 것을 더 포함할 수 있다. 여기서, M는 2보다 큰 정수이다.

도6은 본 발명의 실시예에 따른 이미지 문답 장치의 블록도를 개략적으로 나타낸다.

도6에 도시된 바와 같이, 이미지 문답 장치(600)는 취득 모듈(610), 검출 모듈(620), 확정 모듈(630), 인코딩 모듈(640), 질문 특징 추출 모듈(650) 및 예측 모듈(660)을 포함할 수 있다.

취득 모듈(610)은, 입력 이미지 및 입력 질문을 취득하기 위한 것이다.

검출 모듈(620)은, 입력 이미지의 적어도 하나의 텍스트 영역 각각의 시각 정보 및 위치 정보를 검출하기 위한 것이다.

확정 모듈(630)은, 시각 정보 및 위치 정보에 기초하여, 적어도 하나의 텍스트 영역 각각의 시맨틱 정보 및 속성 정보를 확정하기 위한 것이다.

인코딩 모듈(640)은, 시각 정보, 위치 정보, 시맨틱 정보 및 속성 정보에 기초하여, 입력 이미지의 전역 특징을 확정하기 위한 것이다.

질문 특징 추출 모듈(650)은, 입력 질문에 기초하여, 질문 특징을 확정하기 위한 것이다.

예측 모듈(660)은, 전역 특징 및 질문 특징에 기초하여, 입력 이미지 및 입력 질문에 대한 예측 답안을 생성하기 위한 것이다.

지적해두어야 할 것은, 장치에 관한 실시예의 각 모듈/유닛/서브 유닛 등의 실시 형태, 해결하고자 하는 기술적 문제, 실현한 기능 및 기술적 효과는 방법에 관한 실시예의 각 대응하는 단계의 실시 형태, 해결하고자 하는 기술적 문제, 실현한 기능, 및 기술적 효과와 동일하거나 유사하므로, 여기서는 설명을 생략한다.

본 발명의 실시예에 따른 모듈, 서브 모듈, 유닛, 서브 유닛중 임의의 하나 이상, 또는 이들중 임의의 하나 이상의 적어도 일부 기능은 하나의 모듈에서 구현될 수 있다. 본 발명의 실시예에 따른 모듈, 서브 모듈, 유닛, 서브 유닛중 임의의 하나 또는 하나 이상은 복수의 모듈로 분할되어 구현될 수 있다. 본 발명의 실시예에 따른 모듈, 서브 모듈, 유닛, 서브 유닛중 임의의 하나 또는 하나 이상은 적어도 부분적으로 예를 들어 FPGA(Field Programmable Gate Array), PLA(Programmable Logic Array), SOC(System On Chip), SOS(System On Substrate), SOP(System On Package), ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 회로를 통해 구현되거나, 또는 회로를 집적시키거나 패키징시키는 기타 합리적인 방식의 하드웨어 또는 펌웨어를 통해 구현되거나, 또는 소프트웨어, 하드에어 및 펌웨어의 3가지 구현방식중 임의의 하나 또는 하나 이상의 조합을 통해 구현될 수 있다. 또는, 본 발명의 실시예에 따른 모듈, 서브 모듈, 유닛, 서브 유닛중 하나 또는 하나 이상은 적어도 부분적으로 컴퓨터 프로그램 모듈을 통해 구현될 수 있고, 해당 컴퓨터 프로그램 모듈은 실행될 경우, 대응되는 기능을 실행할 수 있다.

예를 들어, 취득 모듈(610), 검출 모듈(620), 확정 모듈(630), 인코딩 모듈(640), 질문 특징 추출 모듈(650) 및 예측 모듈(660) 중 임의의 2개이상은 하나의 모듈에 병합하여 구현할 수 있고, 또는 이중 임의의 하나의 모듈은 복수의 모듈로 분할될 수 있다. 또는, 이들 모듈 중 하나 또는 복수의 모듈의 적어도 일부 기능은 다른 모듈의 적어도 일부 기능과 결합되어, 하나의 모듈로 구현할 수 있다. 본 발명의 실시예에 따른 취득 모듈(610), 검출 모듈(620), 확정 모듈(630), 인코딩 모듈(640), 질문 특징 추출 모듈(650) 및 예측 모듈(660) 중 적어도 하나는, 적어도 부분적으로 예를 들어 FPGA(Field Programmable Gate Array), PLA(Programmable Logic Array), SOC(System On Chip), SOS(System On Substrate), SOP(System On Package), ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 회로를 통해 구현되거나, 또는 회로를 집적시키거나 패키징시키는 기타 합리적인 방식 등 하드웨어 또는 펌웨어를 통해 구현되거나, 또는 소프트웨어, 하드에어 및 펌웨어의 3가지 구현방식중 임의의 하나 또는 하나 이상의 조합을 통해 구현될 수 있다. 또는, 취득 모듈(610), 검출 모듈(620), 확정 모듈(630), 인코딩 모듈(640), 질문 특징 추출 모듈(650) 및 예측 모듈(660) 중 적어도 하나는 적어도 부분적으로 컴퓨터 프로그램 모듈을 통해 구현될 수 있고, 해당 컴퓨터 프로그램 모듈은 실행될 경우, 대응되는 기능을 실행할 수 있다.

도7은 본 발명의 일 실시예에 따른 상기 방법을 구현하기에 적합한 컴퓨터 장비의 블록도를 개략적으로 나타낸다. 도7에 도시된 컴퓨터 장비는 단지 하나의 실예일 뿐, 본 발명의 실시예의 기능 및 사용 범위는 결코 이에 한정되지 않는다.

도 7에 도시된 바와 같이, 본 발명의 실시예에 따른 컴퓨터 장비(700)는 프로세서 (701)를 포함하고, 프로세서 (701)는 ROM(Read Only Memory)(702)에 저장된 프로그램 또는 저장부(708)로부터 RAM(Random Access Memory)(703)에 로드된 프로그램에 따라 각종 적당한 동작 및 처리를 실행할 수 있다. 프로세서 (701)는 예를 들어 범용 마이크로 프로세서 (예를 들어, CPU), 명령 집합 프로세서 및/또는 관련 칩셋 및/또는 전용 마이크로 프로세서 (예를 들어, ASIC(Application Specific Integrated Circuit)) 등을 포함할 수 있다. 프로세서 (701)는 버퍼링 용도로 쓰이는 보드 탑재 메모리를 포함할 수도 있다. 프로세서 (701)는 본 발명의 실시예에 따른 방법의 흐름의 서로 다른 동작을 실행하기 위한 단일 처리 유닛 또는 복수의 처리 유닛을 포함할 수 있다.

RAM(703)에는, 장비(700) 조작에 필요한 각종 프로그램 및데이터가 저장되어 있다. 프로세서(701), ROM(702) 및RAM(703)은 버스(704)를 통해 서로 연결된다. 프로세서 (701)는 ROM(702) 및/또는 RAM(703)에 저장된 프로그램을 실행함으로써, 본 발명의 실시예에 따른 방법의 흐름의 각 동작을 실행한다. 지적해두어야 할 것은, 상기 프로그램은 ROM(702) 및 RAM(703)을 제외한 하나 또는 복수의 메모리에 저장될 수도 있다. 프로세서 (701)는 상기 하나 또는 복수의 메모리에 저장되어 있는 프로그램을 실행함으로써, 본 발명의 실시예에 따른 방법의 흐름의 각 동작을 실행할 수도 있다.

본 발명의 실시예에 따르면, 장비(700)는 입력/출력(I/O) 인터페이스(705)를 더 포함할 수 있고, 입력/출력(I/O) 인터페이스(705)도 버스(704)에 연결된다. 장비(700)는, I/O 인터페이스(705)에 연결되는 키보드, 마우스 등을 포함하는 입력부(706), 음극선관(CRT), 액정 디스플레이(LCD) 등 및 스피커 등을 포함하는 출력부(707), 하드 디스크 등을 포함하는 저장부(708), 및 LAN 카드, 모뎀 등과 같은 네트워크 인터페이스 카드를 포함하는 통신부(709)중의 하나 또는 복수개를 포함할 수 있다. 통신부(709)는 인터넷과 같은 네트워크를 통해 통신 처리를 실행한다. 수요에 따라, 드라이버(710)도 I/O 인터페이스(705)에 연결된다. 수요에 따라, 디스크, 광 디스크, 자기 광 디스크, 반도체 메모리 등과 같은 탈착가능 매체(711)를 드라이버(710)에 장착함으로써, 이들로부터 판독된 컴퓨터 프로그램을 수요에 따라 저장부(708)에 설치할 수 있도록 한다.

본 발명의 실시예에 따르면, 본 발명의 실시예에 따른 방법의 흐름은 컴퓨터 소프트웨어 프로그램으로 실현될 수 있다. 예를 들어, 본 발명의 실시예는 컴퓨터 프로그램 제품을 포함하고, 상기 제품은 컴퓨터 판독가능 저장 매체에 탑재된 컴퓨터 프로그램을 포함하고, 상기 컴퓨터 프로그램은 흐름도에 도시된 방법을 실행하기 위한 프로그램 코드를 포함할 수 있다. 이러한 실시예에 있어서, 상기 컴퓨터 프로그램은 통신부(709)를 통해 네트워크로부터 다운도르하여 설치하거나, 또는 탈착가능 매체(711)로부터 설치할 수 있다. 상기 컴퓨터 프로그램이 프로세서 (701)에 의해 실행될 경우, 본 발명의 실시예의 시스템에서 한정된 상기 기능을 실행한다. 본 발명의 실시예에 따르면, 앞에서 설명한 시스템, 장비, 장치, 모듈, 유닛 등은 컴퓨터 프로그램 모듈을 통해 실현될 수 있다.

본 발명은 비 일시적 컴퓨터 판독가능 저장 매체도 제공한다. 상기 비 일시적 컴퓨터 판독가능 저장 매체는 상기 실시예에서 설명한 장비/장치/시스템에 포함될 수도 있고, 상기 장비/장치/시스템에 조립되지 않고 단독적으로 존재할 수 도 있다. 상기 비 일시적 컴퓨터 판독가능 저장 매체에는 하나 또는 복수의 프로그램이 탑재되고, 상기 하나 또는 복수의 프로그램이 실행될 경우, 본 발명의 실시예에 따른 방법을 실현한다.

본 발명의 실시예에 따르면, 비 일시적 컴퓨터 판독가능 저장 매체는 컴퓨터 판독가능 비휘발성 저장 매체일 수 있다. 예를 들어, 휴대용 컴퓨터 디스크, 하드 디스크, RAM(Random Access Memory), ROM(Read Only Memory), EPROM(Erasable Programming ROM), 또는 플래시 메모리, 휴대용 CD-ROM(Compact Disc Read Only Memory), 광학적 저장 디바이스, 자기적 저장 디바이스, 또는 이들의 임의의 적합한 조합을 포함할 수 있는데, 이에 한정되지는 않는다. 본 발명에 있어서, 비 일시적 컴퓨터 판독가능 저장 매체는 프로그램을 포함 또는 저장하는 임의의 유형의 매체일 수 있는데, 상기 프로그램은 명령 실행 시스템, 장치 또는 디바이스에 의해 사용되거나 이들과 결합하여 사용할 수 있다. 예를 들어, 본 발명의 실시예에 따르면, 비 일시적 컴퓨터 판독가능 저장 매체는 앞에서 설명한 ROM(702) 및/또는 RAM(703) 및/또는 ROM(702)과 RAM(703)을 제외한 하나 또는 복수의 메모리를 포함할 수 있다.

첨부 도면의 흐름도 및 블록도는, 본 발명의 각종 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 실현가능한 체계구조, 기능 및 동작을 도시하고 있다. 이 점에서, 흐름도 또는 블록도의 각 블록은 하나의 모듈, 프로그램 세그먼트, 또는 코드의 일부를 의미할 수 있고, 상기 모듈, 프로그램 세그먼트 또는 코드의 일부는 하나 또는 복수의 소정의 논리적 기능을 실현하기 위한 실행가능 명령을 포함한다. 지적해두어야 할 것은, 다른 일부 실시예에 있어서, 블록에 표기된 기능은 첨부 도면에 표기된 순서와 다른 순서로 실행될 수도 있다. 예를 들어, 순차적으로 표시된 2개의 블록은 병행적으로 실행될 수 도 있고, 반대되는 순서로 실행될 수도 있는데, 이는 관련되는 기능에 의해 결정된다. 또한, 지적해두어야 할 것은, 블록도 또는 흐름도중의 각 블록 및 블록도 또는 흐름도중의 블록의 조합은, 소정의 기능 또는 동작을 실행하는 전용적인 하드웨어에 기반한 시스템을 통해 구현하거나, 또는 전용 하드웨어와 컴퓨터 명령의 조합을 통해 구현할 수 있다.

당업자라면, 본 발명에 명확히 개시되어 있지 않더라도, 본 발명의 각 실시예 및/또는 청구항에 기재된 특징을 다양하게 조합 및/또는 결합할 수 있음을 이해할수 있을 것이다. 특히, 본 발명의 취지 및 시사를 벗어나지 않고 본 발명의 각 실시예 및/또는 청구항에 기재된 특징을 다양하게 조합 및/또는 결합할 수 있다. 이러한 전부의 조합 및/또는 결합은 모두 본 발명의 범위에 속한다.

이상에서는 본 발명의 실시예에 대해 설명하였다. 하지만, 이러한 실시예는 단지 설명을 위한 것일 뿐, 결코 본 발명의 범위를 제한하기 위한 것이 아니다. 비록 이상에서는 각 실시예를 별도로 설명하였으나, 이는 결코 각 실시예중의 조치가 결합하여 사용할수 없음을 의미하지 않는다. 본 발명의 범위는 첨부된 청구의 범위 및 그 등가물에 의해 한정된다. 당업자라면, 본 발명의 범위를 벗어나지 않고, 다양하게 치환 및 변경할 수 있는데, 이러한 치환 및 변경 또한 본 발명의 범위에 포함되어야 한다.

단말 장비 : 110 네트워크 : 120
서버 : 130 네트워크 모델 : 400
문자 검출 인식 모듈 : 410 문서 구조 분석 모듈 : 420
인코딩 모듈 : 430 디코딩 모듈 : 440
이미지 문답 장치 : 600 취득 모듈 : 610
검출 모듈 : 620 확정 모듈 : 630
인코딩 모듈 : 640 질문 특징 추출 모듈 : 650
예측 모듈 : 660 컴퓨터 장비 : 700
프로세서 : 701 ROM : 702
RAM : 703 I/O 인터페이스 : 705
입력부 : 706 출력부 : 707
저장부 : 708 통신부 : 709

Claims

입력 이미지 및 입력 질문을 취득하는 것,
상기 입력 이미지의 적어도 하나의 텍스트 영역 각각의 시각 정보 및 위치 정보를 검출하는 것,
상기 시각 정보 및 상기 위치 정보에 기초하여, 상기 적어도 하나의 텍스트 영역 각각의 시맨틱 정보 및 속성 정보를 확정하는 것,
상기 시각 정보, 상기 위치 정보, 상기 시맨틱 정보 및 상기 속성 정보에 기초하여, 상기 입력 이미지의 전역 특징을 확정하는 것,
상기 입력 질문에 기초하여, 질문 특징을 확정하는 것, 및
상기 전역 특징 및 상기 질문 특징에 기초하여, 상기 입력 이미지 및 상기 입력 질문에 대한 예측 답안을 생성하는 것을 포함하는
이미지 문답 방법.
제1항에 있어서,
상기 입력 이미지의 적어도 하나의 텍스트 영역 각각의 시각 정보 및 위치 정보를 검출하는 것은,
문자 검출 모델을 이용하여 상기 입력 이미지를 검출함으로써, 상기 입력 이미지내에 상기 적어도 하나의 텍스트 영역 각각의 바운딩 박스를 생성하는 것을 포함하고,
상기 적어도 하나의 텍스트 영역 중 각 텍스트 영역의 바운딩 박스내의 이미지 정보는 상기 각 텍스트 영역의 시각 정보를 나타내고, 상기 각 텍스트 영역의 바운딩 박스의 위치 정보는 상기 각 텍스트 영역의 위치 정보를 나타내는
이미지 문답 방법.
제1항에 있어서,
상기 시각 정보 및 상기 위치 정보에 기초하여, 상기 적어도 하나의 텍스트 영역 각각의 시맨틱 정보 및 속성 정보를 확정하는 것은,
상기 적어도 하나의 텍스트 영역 중 각 텍스트 영역에 대해, 문자 인식 모델을 이용하여 상기 각 텍스트 영역의 시각 정보를 인식하여, 상기 각 텍스트 영역의 시맨틱 정보를 얻는 것을 포함하는
이미지 문답 방법.
제3항에 있어서,
상기 속성 정보는, 테이블 속성 정보를 포함하고,
상기 시각 정보 및 상기 위치 정보에 기초하여, 상기 적어도 하나의 텍스트 영역 각각의 시맨틱 정보 및 속성 정보를 확정하는 것은,
테이블 검출 도구를 이용하여, 상기 입력 이미지의 적어도 하나의 테이블 영역의 위치 정보를 검출하는 것, 및
상기 각 텍스트 영역의 위치 정보 및 적어도 하나의 테이블 영역의 위치 정보에 기초하여, 상기 각 텍스트 영역의 테이블 속성 정보를 확정하는 것을 더 포함하고,
상기 테이블 속성 정보는 상기 각 텍스트 영역이 상기 적어도 하나의 테이블 영역 내에 위치하는지를 나타내는
이미지 문답 방법.
제4항에 있어서,
상기 각 텍스트 영역의 위치 정보 및 적어도 하나의 테이블 영역의 위치 정보에 기초하여, 상기 각 텍스트 영역의 테이블 속성 정보를 확정하는 것은,
상기 각 텍스트 영역의 위치 정보 및 적어도 하나의 테이블 영역 중 각 테이블 영역의 위치 정보로부터, 상기 각 텍스트 영역과 상기 각 테이블 영역간의 교집합 및 합집합을 계산하는 것,
상기 교집합과 합집합의 비례 값을 계산하는 것,
상기 비례 값이 소정의 임계치보다 클 경우, 상기 각 테이블 영역에 관한 상기 각 텍스트 영역의 테이블 속성 정보를 1로 확정하는 것, 및
상기 비례 값이 소정의 임계값이하일 경우, 상기 각 테이블 영역에 관한 상기 각 텍스트 영역의 테이블 속성 정보를 0으로 확정하는 것을 포함하는
이미지 문답 방법.
제3항에 있어서,
상기 속성 정보는, 문자 속성 정보를 포함하고,
상기 시각 정보 및 상기 위치 정보에 기초하여, 상기 적어도 하나의 텍스트 영역 각각의 시맨틱 정보 및 속성 정보를 확정하는 것은,
필기 문자 인식 모델을 이용하여, 상기 각 텍스트 영역의 시각 정보를 인식하여, 상기 각 텍스트 영역의 문자 속정 정보를 확정하는 것을 더 포함하고,
상기 문자 속성 정보는 상기 텍스트 영역에 필기 문자가 포함되어 있는지를 나타내는
이미지 문답 방법.
제1항에 있어서,
상기 시각 정보, 상기 위치 정보, 상기 시맨틱 정보 및 상기 속성 정보에 기초하여, 상기 입력 이미지의 전역 특징을 확정하는 것은,
상기 적어도 하나의 텍스트 영역 중 각 텍스트 영역에 대해, 상기 각 텍스트 영역의 상기 시각 정보, 상기 위치 정보, 상기 시맨틱 정보 및 상기 속성 정보를 각각 제1 특징, 제2 특징, 제3 특징 및 제4 특징으로 전환하고, 상기 제1 특징, 상기 제2 특징, 상기 제3 특징 및 상기 제4 특징을 상기 각 텍스트 영역의 특징으로 병합하는 것,
상기 적어도 하나의 텍스트 영역 각각의 위치 정보로부터, 상기 적어도 하나의 텍스트 영역의 배열 순서를 확정하는 것, 및
상기 배열 순서에 따라, 소정의 인코딩 모델을 이용하여, 상기 적어도 하나의 텍스트 영역의 특징에 대해 순차적으로 인코딩처리를 실행하여, 상기 입력 이미지의 전역 특징을 취득하는 것을 포함하는
이미지 문답 방법.
제7항에 있어서,
상기 제1 특징, 상기 제2 특징, 상기 제3 특징 및 상기 제4 특징을 상기 각 텍스트 영역의 특징으로 병합하는 것은,
상기 제1 특징, 상기 제2 특징, 상기 제3 특징 및 상기 제4 특징을 연결병합을 실행함으로써, 상기 각 텍스트 영역의 특징을 취득하는 것, 또는
상기 제1 특징, 상기 제2 특징, 상기 제3 특징 및 상기 제4 특징에 대해 벡터 가산을 실행함으로써, 상기 각 텍스트 영역의 특징을 취득하는 것을 포함하는
이미지 문답 방법.
제1항에 있어서,
상기 입력 질문에 기초하여, 질문 특징을 확정하는 것은,
워드 인코딩 알고리즘 및 특징 인코딩 알고리즘을 이용하여, 상기 입력 질문에 대해 순차적으로 인코딩처리를 실행하여, 상기 질문 특징을 취득하는 것을 포함하는
이미지 문답 방법.
제1항에 있어서,
상기 전역 특징 및 상기 질문 특징에 기초하여, 상기 입력 이미지 및 상기 입력 질문에 대한 예측 답안을 생성하는 것은,
상기 전역 특징 및 상기 질문 특징을 병합하여, 융합 특징을 얻는 것, 및
제1 예측 모델을 이용하여 상기 융합 특징을 처리함으로써, 상기 융합 특징에 대한 예측 답안을 취득하는 것을 포함하고,
상기 제1 예측 모델은 샘플 이미지, 샘플 질문 및 제1 라벨에 기초한 트레이닝을 통해 얻은 것이고, 상기 제1 라벨은 상기 샘플 이미지 및 상기 샘플 질문에 대한 실제 답안을 나타내는
이미지 문답 방법.
제1항에 있어서,
상기 전역 특징 및 상기 질문 특징에 기초하여, 상기 입력 이미지 및 상기 입력 질문에 대한 예측 답안을 생성하는 것은,
상기 전역 특징 및 상기 질문 특징을 병합하여, 융합 특징을 얻는 것,
제2 예측 모델을 이용하여 상기 융합 특징을 처리함으로써, 상기 융합 특징에 대한 답안 시작 위치 정보를 얻는 것,
제3 예측 모델을 이용하여 상기 융합 특징을 처리함으로써, 상기 융합 특징에 대한 답안 종료 위치 정보를 얻는 것, 및
상기 답안 시작 위치 정보, 상기 답안 종료 위치 정보 및 상기 입력 이미지에 기초하여, 상기 입력 이미지 및 상기 입력 질문에 대한 예측 답안을 확정하는 것을 포함하고,
상기 제2 예측 모델은 샘플 이미지, 샘플 질문 및 제2 라벨에 기초한 트레이닝을 통해 얻은 것이고, 상기 제2 라벨은 상기 샘플 이미지 및 상기 샘플 질문에 대한 실제 답안의 상기 샘플 이미지에서의시작 위치 정보를 나타내고,
상기 제3 예측 모델은 상기 샘플 이미지, 상기 샘플 질문 및 제3 라벨에 기초한 트레이닝을 통해 얻은 것이고, 상기 제3 라벨은 상기 샘플 이미지 및 상기 샘플 질문에 대한 실제 답안의 상기 샘플 이미지에서의 종료 위치 정보를 나타내는
이미지 문답 방법.
제1항에 있어서,
상기 입력 이미지 및 상기 입력 질문에 대한 M개의 예측 답안을 생성하는 경우,
상기 M개의 예측 답안 중 각 예측 답안과 상기 M개의 예측 답안 중 상기 각 예측 답안을 제외한 다른 M-1개의 예측 답안사이의 편집 거리를 계산하는 것,
상기 편집 거리를 합산하여, 상기 각 예측 답안에 대한 평가를 얻는 것, 및
상기 M개의 예측 답안 중 평가가 가장 높은 예측 답안을 선택하여, 최적 예측 답안으로 하는 것을 더 포함하고,
여기서, M는 2보다 큰 정수인
이미지 문답 방법.
입력 이미지 및 입력 질문을 취득하기 위한 취득 모듈,
상기 입력 이미지의 적어도 하나의 텍스트 영역 각각의 시각 정보 및 위치 정보를 검출하기 위한 검출 모듈,
상기 시각 정보 및 상기 위치 정보에 기초하여, 상기 적어도 하나의 텍스트 영역 각각의 시맨틱 정보 및 속성 정보를 확정하기 위한 확정 모듈,
상기 시각 정보, 상기 위치 정보, 상기 시맨틱 정보 및 상기 속성 정보에 기초하여, 상기 입력 이미지의 전역 특징을 확정하기 위한 인코딩 모듈,
상기 입력 질문에 기초하여, 질문 특징을 확정하기 위한 질문 특징 추출 모듈, 및
상기 전역 특징 및 상기 질문 특징에 기초하여, 상기 입력 이미지 및 상기 입력 질문에 대한 예측 답안을 생성하기 위한 예측 모듈을 포함하는
이미지 문답 장치.
컴퓨터 프로그램이 저장되어 있는 메모리, 및
적어도 하나의 프로세서를 포함하는 컴퓨터 장비에 있어서,
상기 컴퓨터 프로그램이 상기 프로세서에 의해 실행될 경우, 제1항 내지 제12항 중 어느 한 항의 방법을 구현하는
컴퓨터 장비.
컴퓨터 프로그램이 저장되어 있는 비 일시적 컴퓨터 판독가능 저장 매체에 있어서,
컴퓨터 프로그램이 프로세서에 의해 실행될 경우, 제1 항 내지 제12항 중 어느 한 항의 방법을 구현하는
비 일시적 컴퓨터 판독가능 저장 매체.
컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램의 명령이 프로세서에 의해 실행될 경우, 제1항 내지 제12항중 어느 한 항의 방법을 구현하는
컴퓨터 판독가능 저장 매체에 저장된 컴퓨터 프로그램.