KR20200110154A - 시각적 질문응답 모델, 전자 기기 및 저장 매체 - Google Patents

시각적 질문응답 모델, 전자 기기 및 저장 매체 Download PDF

Info

Publication number
KR20200110154A
KR20200110154A KR1020200000226A KR20200000226A KR20200110154A KR 20200110154 A KR20200110154 A KR 20200110154A KR 1020200000226 A KR1020200000226 A KR 1020200000226A KR 20200000226 A KR20200000226 A KR 20200000226A KR 20200110154 A KR20200110154 A KR 20200110154A
Authority
KR
South Korea
Prior art keywords
question
text
model
visual
visual question
Prior art date
Application number
KR1020200000226A
Other languages
English (en)
Other versions
KR102403108B1 (ko
Inventor
지안후이 후앙
민 퀴아오
핑핑 후앙
용 주
라주안 리유
잉 리
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20200110154A publication Critical patent/KR20200110154A/ko
Application granted granted Critical
Publication of KR102403108B1 publication Critical patent/KR102403108B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

본 발명의 실시예는 시각적 질문응답 모델, 전자 기기 및 저장 매체를 개시하는바, 상기 시각적 질문응답 모델은, 상기 입력된 질문 텍스트의 단어 벡터 시퀀스를 풀링 처리하여 상기 질문 텍스트의 의미 특징화 벡터를 추출하는 텍스트 인코더; 및 상기 의미 특징화 벡터와 결합하여 주어진 이미지의 이미지 특징을 추출하는 이미지 인코더; 를 포함한다. 본 발명의 실시예는 풀링 방식을 사용하여 텍스트 벡터를 처리함으로써 시각적 질문응답 모델의 예측 정확률 손실이 크지 않도록 확보하면서, 모델의 트레이닝 효율을 효과적으로 향상시키는바, 엔지니어링 상으로 사용하기에 더욱 유익하다.

Description

시각적 질문응답 모델, 전자 기기 및 저장 매체{VISUAL QUESTION ANSWERING MODEL, ELECTRONIC DEVICE AND STORAGE MEDIUM}
본 발명의 실시예는 인공 지능 기술 분야에 관한 것으로, 특히 시각적 질문응답 모델, 전자 기기 및 저장 매체에 관한 것이다.
시각적 질문응답 시스템(Visual Question Answering, 하기 VQA로 약칭함)은 멀티 모드 융합에 있어서 전형적인 응용인바, 예를 들면, 하나의 픽처(picture)가 주어지고, 픽처에는 빨간 옷을 입은 타자 한명이 있다면, 관련되는 질문 'what color shirt is the batter wearing?'이 제기되는 경우, VQA 모델은 답안을 'red'로 예측하고자 이미지 정보와 텍스트 질문 정보와 결합하여야 한다. 이러한 과정은 주로 이미지와 텍스트에 대한 의미 특징 추출 및 추출된 이미지와 텍스트 이 2개 모드의 특징에 대한 융합에 관한 것이므로, VQA에 관련되는 모델의 인코딩 부분은 주로 텍스트 인코더와 이미지 인코더로 구성된다.
그러나, 이미지와 텍스트 인코더가 동시에 관련되므로, VQA 모델은 종종 트레이닝이 필요한 대량의 파라미터를 포함하게 되고, 이는 모델 트레이닝 시간을 상당히 길어지게 한다. 따라서 모델의 정확률 손실이 크지 않으면서 엔지니어링 상으로 모델을 간소화하고 모델의 트레이닝 효율을 제고하는 것은, 현재 시급히 해결하여야 할 기술 과제로 되어 있다.
[1] 본 발명의 실시예는 시각적 질문응답 모델, 전자 기기 및 저장 매체를 제공하는바, 시각적 질문응답 모델의 정확률 손실이 크지 않으면서, 엔지니어링 상으로 모델을 간소화하고, 시각적 질문응답 모델의 트레이닝 효율을 향상시키는 목적에 도달하고자 한다.
[2] 제1 측면으로, 본 발명의 실시예는 시각적 질문응답 모델을 제공하는바,
[3] 상기 입력된 질문 텍스트의 단어 벡터 시퀀스를 풀링 처리하여, 상기 질문 텍스트의 의미 특징화 벡터를 추출하는 텍스트 인코더; 및
[4] 상기 의미 특징화 벡터와 결합하여, 주어진 이미지의 이미지 특징을 추출하는 이미지 인코더; 를 포함한다.
[5] 제2 측면으로, 본 발명의 실시예는 전자 기기를 더 제공하는바,
[6] 하나 또는 복수의 프로세서; 및
[7] 하나 또는 복수의 프로그램을 저장하는 메모리; 를 포함하고
[8] 상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수의 프로세서에 의해 본 발명의 임의의 실시예에 따른 시각적 질문응답 모델이 작동된다.
[9] 제3 측면으로, 본 발명의 실시예는 컴퓨터 프로그램이 저장되어 있는 컴퓨터 판독가능 저장 매체를 제공하는바, 당해 프로그램이 프로세서에 의해 실행될 경우, 본 발명의 임의의 실시예에 따른 시각적 질문응답 모델을 작동시킨다.
[10] 본 발명의 실시예는 시각적 질문응답 모델, 전자 기기 및 저장 매체를 제공하는 것으로, 시각적 질문응답 모델에서 풀링 처리 방식을 이용하여 텍스트 벡터를 인코딩함으로써, 시각적 질문응답 모델을 간소화하는 목적에 도달하고, 풀링 처리와 같은 간단한 인코딩 방식으로 시각적 질문응답 모델에서 트레이닝이 필요한 파라미터의 수량을 감소시키며, 시각적 질문응답 모델의 트레이닝 효율을 효과적으로 향상시키는바, 엔지니어링 상으로 사용하기에 더욱 유익하다.
도1은 본 발명의 실시예1에 의하여 제공되는 시각적 질문응답 모델의 개략적인 구조도이다.
도2는 본 발명의 실시예2에 의하여 제공되는 다른 시각적 질문응답 모델의 개략적인 구조도이다.
도3은 본 발명의 실시예3에 의하여 제공되는 전자 기기의 개략적인 구조도이다.
하기 첨부도면과 실시예를 결부하여 본 발명에 대해 나아가 더 상세히 설명하고자 한다. 여기서 설명하는 구체적인 실시예는 단지 본 발명을 해석하기 위한 것일 뿐, 본 발명을 한정하기 위한 것이 아님을 이해할 수 있다. 설명의 편의를 위해, 첨부 도면에는 전체 구조가 아닌 본 발명에 관련되는 부분만을 도시하였음을 또한 설명하고자 한다.
실시예1
도1은 본 발명의 실시예1에 의하여 제공되는 시각적 질문응답 모델이다. 본 실시예는 시각적 질문응답 모델을 간소화함으로써, 시각적 질문응답 모델의 트레이닝 효율을 향상시키며, 당해 모델은 전자 기기에서 실행 가능한바, 예를 들어 컴퓨터 단말 또는 서버에서 실행 가능하다.
도1에 도시한 바와 같이, 본 발명의 실시예에 의하여 제공되는 시각적 질문응답 모델은, 입력된 질문 텍스트의 단어 벡터 시퀀스를 풀링 처리하여, 상기 질문 텍스트의 의미 특징화 벡터를 추출하는 텍스트 인코더를 포함할 수 있다.
여기서, 질문 텍스트를 인코딩하기 전에, 질문 텍스트에 대한 전처리가 필요한바, 예시적으로, word2vec 모델 또는 glove 모델로 질문 텍스트를 처리하여, 당해 질문 텍스트에 대응되는 단어 벡터 시퀀스를 획득한다. 질문 텍스트에 대한 인코딩은, 당해 질문 텍스트에 대응되는 단어 벡터 시퀀스를 텍스트 인코더에 입력하기만 하면 되는 것으로, 텍스트 인코더에 의해 질문 텍스트의 단어 벡터 시퀀스를 풀링 처리하면 질문 텍스트의 의미 특징화 벡터를 추출할 수 있다. 여기서 설명하고자 하는 바는, 종래 기술에서는 장단기 기억 네트워크(Long Short-Term Memory, LSTM) 모델 또는 양방향 LSTM(Bi-directional Long Short-Term Memory, Bi-LSTM) 모델을 텍스트 인코더로 사용하였다. 그러나 본 출원은 풀링 처리를 이용함으로써 LSTM 모델 또는 Bi-LSTM 모델이 텍스트 인코더로 사용되는 것을 대체하였는바, 이는 시각적 질문응답 모델을 간소화시킨다.
본 실시예에서, 상기 풀링 처리는 최대 풀링(MaxPooling) 처리이고, 상기 최대 풀링 처리는 하기 식으로 표시된다.
f(w1, w2, ..., wk)=max([w1, w2, ..., wk],dim=1)
여기서, f는 최대 풀링 처리 함수를 나타내고; k는 상기 질문 텍스트에 포함되는 단어 벡터의 수량이고; wi는 미리 트레이닝된 단어 벡터 모델을 이용하여 상기 질문 텍스트를 처리함으로써 획득된 i번째 단어 벡터이고, i는 [1, k] 중의 자연수이고; max([w1, w2, ..., wk],dim=1)은 단어 벡터 w1, w2, ..., wk에서 각 단어 벡터에 대응되는 차원 수에서 최대치를 가지는 것을 나타내고, 여기서, dim=1은 차원 수를 가리키는바, 즉 주어진 2차원 행렬에 대해 행에 따라 값을 가지는 것을 나타낸다.
예시적으로, 하나의 질문 텍스트의 단어 벡터 시퀀스는
Figure pat00001
이고, 상술한 식으로 당해 단어 벡터 시퀀스를 최대 풀링 처리한 후
Figure pat00002
을 획득하는바, 따라서,
Figure pat00003
가 바로 당해 질문 텍스트의 의미 특징화 벡터이다. 이로써, 최대 풀링 처리를 통하여 시각적 질문응답 모델에서 트레이닝이 필요한 파라미터의 수량을 감소시키고, 나아가 시각적 질문응답 모델의 트레이닝 효율을 향상시킬 수 있다.
또한, 본 발명의 실시예의 시각적 질문응답 모델에서의 이미지 인코더는, 의미 특징화 벡터와 결합하여 주어진 이미지의 이미지 특징을 추출한다.
이미지에는 모두 배경과 풍부한 내용이 포함되므로, 기계(machine)로 하여금 질문에 관련되는 이미지 내용에 더욱 주목하도록 함으로써 나아가 질문에 답하는 정확성을 향상시키기 위해 시각화 어텐션 메커니즘(visual Attention Mechanism)(도1의 Attention)을 적용할 수 있는바, Attention 메커니즘을 통하여 이미지 인코더는 텍스트 인코더에 의해 획득되는 질문 텍스트에 대응되는 의미 특징화 벡터를 결합시킴으로써, 당해 의미 특징화 벡터에 가장 관련되는 이미지 내용을 확정하고, 당해 이미지 내용의 이미지 특징을 추출하여 이미지 특징 벡터를 획득하는 것으로, 여기서, 이미지 인코더는 합성곱 신경망 모델, 예를 들어 Faster R-CNN 모델을 적용할 수 있다.
나아가, 도1에 도시한 바와 같이, 당해 시각적 질문응답 모델은 부동한 모드의 특징을 융합하는 특징 융합 디바이스(fusion)를 더 포함하고, 본 실시예에서, 특징 융합 디바이스는 이미지 인코더에 의해 출력되는 이미지 특징 벡터 및 텍스트 인코더에 의해 출력되는 의미 특징화 벡터를 융합시키는바, 예시적으로, 이미지 특징 벡터와 의미 특징화 벡터를 점곱 연산의 방식으로 융합시킬 수 있다.
당해 시각적 질문응답 모델은 분류기를 더 포함하는바, 상기 분류기는 softmax 함수(정규화 지수 함수라고도 함)로 상술한 특징 융합 디바이스에 의해 출력되는 벡터에 대해 수치 처리를 수행하여, 부동한 답안 사이의 상대적 확률을 획득하고, 상대적 확률 최대치에 대응되는 답안을 출력한다.
상술한 시각적 질문응답 모델에 있어서, 한 구체적인 구현 방식은, 스탠포드 인공지능 연구소(Stanford Artificial Intelligence Laboratory)가 발표한 데이터 세트 Visual Genome을 트레이닝 샘플 데이터와 검증 데이터로 하고, 트레이닝 샘플 데이터와 검증 데이터를 2:1의 비율에 따라 무작위로 나누어, 당해 시각적 질문응답 모델을 트레이닝하고 검증한다. 당해 데이터 세트에 대한 구체적인 데이터 통계는 표1에 도시한 바와 같이, 각 픽처가 일정 수량의 질문을 포함하고, 주어진 답안을 수동으로 레이블링한다.
명칭 수량
픽처 수 108077
질문 수 1445322
상술한 데이터를 이용하여 본 실시예에 의하여 제공되는 시각적 질문응답 모델을 트레이닝 및 검증하는바, 구체적으로, P40 클러스터에서 당해 시각적 질문응답 모델을 작동 가능하고, 여기서 P40 클러스터 환경의 구성, 모델의 기본 파라미터는 도2에 도시한 바와 같다. 비교를 위해 동시에, 종래 기술의, LSTM 또는 Bi-LSTM을 텍스트 인코더의 시각적 질문응답 모델로 하여 트레이닝 및 검증하는바, 결과는 3과 같다.
표3에 나열된 검증 결과로부터 알수 있는바, 본 발명의 실시예는 최대 풀링 처리를 텍스트 인코더의 시각적 질문응답 모델로 적용하는바, 종래의, LSTM 또는 Bi-LSTM을 텍스트 인코더의 시각적 질문응답 모델로 적용하는 기술에 비하면, 예측 정확률 손실은 약 0.5% 밖에 되지 않으나 모델 실행 시간을 단축함에 있어서는 최대로 3시간을 단축하는 것으로, 트레이닝 효율을 대폭 향상시킨다.
명칭 구성 부가 설명
시스템 Centos6.0
GPU 유형 P40 그래픽 카드 메모리는 24G임
GPU 개수 4개 카드
Batch_size 512
Epochs 12000 Epoch는 mini-batch로 카운트함
텍스트 인코더 실행 시간 예측 정확도
LSTM 7.5h 41.39%
Bi-LSTM 8.2h 41.36%
MaxPooling 5.2h 40.84%
본 발명의 실시예는, 시각적 질문응답 모델에서 풀링 처리 방식을 이용하여 텍스트 벡터를 인코딩함으로써, 시각적 질문응답 모델을 간소화하는 목적에 도달하고, 풀링 처리와 같은 간단한 인코딩 방식으로 시각적 질문응답 모델의 예측 정확률의 손실이 크지 않으면서, 시각적 질문응답 모델의 트레이닝 효율을 효과적으로 향상시키는 것을 구현하는바, 엔지니어링 상으로 사용하기에 더욱 유익하다.
실시예2
도2는 본 실시예에 의하여 제공되는 다른 시각적 질문응답 모델의 개략적인 구조도이다. 도2에 도시한 바와 같이, 시각적 질문응답 모델은, 상기 질문 텍스트의 의미 특징화 벡터를 추출하도록, 입력된 질문 텍스트의 단어 벡터 시퀀스를 풀링 처리하는 텍스트 인코더를 포함한다.
여기서, 상기 풀링 처리는 평균 풀링 처리이고 상기 평균 풀링 처리(AvgPooling)는 하기 식으로 표시할 수 있다.
Figure pat00004
여기서, p는 평균 풀링 처리 함수를 나타내고; k는 상기 질문 텍스트에 포함되는 단어 벡터의 수량이고; wi는 미리 트레이닝된 단어 벡터 모델을 이용하여 상기 질문 텍스트를 처리함으로써 획득된 i번째 단어 벡터이고, i는 [1, k] 중의 자연수이고;
Figure pat00005
는 단어 벡터 w1, w2, ..., wk에서 각 단어 벡터에 대응되는 차원 수의 합을 나타낸다.
예시적으로, 하나의 질문 텍스트의 단어 벡터 시퀀스가
Figure pat00006
이고, 상술한 식으로 당해 단어 벡터 시퀀스를 평균 풀링 처리하여
Figure pat00007
를 획득하는바, 따라서,
Figure pat00008
가 바로 당해 질문 텍스트의 의미 특징화 벡터이다. 따라서, 평균 풀링 처리를 통하여 시각적 질문응답 모델에서 트레이닝이 필요한 파라미터의 수량을 감소시키고, 나아가 시각적 질문응답 모델의 트레이닝 효율을 향상시킬 수 있다.
또한, 본 발명의 실시예의 시각적 질문응답 모델에서의 이미지 인코더는, 의미 특징화 벡터와 결합하여 주어진 이미지의 이미지 특징을 추출한다.
나아가, 시각적 질문응답 모델은 특징 융합 디바이스와 분류기를 더 포함하는바, 상기 특징 융합 디바이스와 분류기에 있어서는 상술한 실시예에서 상세한 내용을 찾아볼 수 있는바, 구체적인 설명은 생략하도록 한다.
본 실시예의 시각적 질문응답 모델에 있어서, 상술한 실시예의 Visual Genome 데이터 세트에 의해 상술한 실시예에 따른 P40 클러스터를 트레이닝 및 검증하고, 동시에, 종래 기술의, LSTM 또는 Bi-LSTM을 텍스트 인코더로 하는 시각적 질문응답 모델을 트레이닝 및 검증하는바, 그 결과는 표4와 같다.
텍스트 인코터 실행 시간 예측 정확도
LSTM 7.5h 41.39%
Bi-LSTM 8.2h 41.36%
AvgPooling 5.8h 40.96%
표4로부터 알수 있는바, 본 발명의 실시예는 평균 풀링 처리를 텍스트 인코더의 시각적 질문응답 모델로 적용하는바, 종래의, LSTM 또는 Bi-LSTM을 텍스트 인코더로 적용하는 시각적 질문응답 모델에 비하면, 예측 정확률 손실은 약 0.4%이지만 모델 실행 시간을 단축함에 있어서는 최대로 2.4시간을 단축하는 것으로, 트레이닝 효율을 향상시킨다.
본 발명의 실시예는, 시각적 질문응답 모델에서 평균 풀링 처리 방식을 이용하여 텍스트 벡터를 인코딩함으로써, 시각적 질문응답 모델을 간소화하는 목적에 도달하고 평균 풀링 처리와 같은 간단한 인코딩 방식으로 시각적 질문응답 모델의 예측 정확률의 손실이 크지 않으면서 시각적 질문응답 모델의 트레이닝 효율을 효과적으로 향상시키는 것을 구현하는바, 엔지니어링 상으로 사용하기에 더욱 유익하다.
실시예3
도3은 본 발명의 실시예3에 의하여 제공되는 전자 기기의 개략적인 구조도이다. 도3은 본 발명의 구현 방식을 구현하기에 적합한 예시적인 전자 기기(12)의 블록도를 도시한다. 도3에 표시되는 전자 기기(12)는 하나의 예시일 뿐, 본 발명의 실시예의 기능과 사용 범위에 대하여 어떠한 한정이 되어서도 안된다.
도3에 도시한 바와 같이, 전자기기(12)는 범용 컴퓨팅 기기의 형식으로 표현된다. 전자기기(12)의 컴포넌트는 하나 또는 복수의 프로세서(16), 메모리(28), 서로 다른 시스템 컴포넌트(메모리(28) 및 프로세서(16) 포함)를 연결하는 버스(18)를 포함할 수 있으나, 이에 한정되지 않는다.
버스(18)는 여러 유형의 버스 구조 중의 한 가지 또는 복수 가지를 표시하는바, 메모리 버스 또는 메모리 제어기, 주변 버스, 가속 그래픽 포트, 프로세서 또는 복수 가지 버스 구조에서의 임의의 버스 구조를 사용하는 로컬 버스를 포함한다. 예를 들면, 이러한 아키텍처는 산업 표준 아키텍처(ISA) 버스, 마이크로채널 아키텍처 버스(MAC) 버스, 확장 ISA버스, 비디오 전자공학 표준위원회(VESA) 로컬 버스 및 주변 컴포넌트 상호 연결(PCI) 버스를 포함하나, 이에 한정되지 않는다.
전자기기(12)는 전형적으로 복수 가지 컴퓨터 시스템 판독 가능 매체를 포함한다. 이러한 매체는 임의의 전자기기(12)에 의하여 액세스될 수 있는 사용 가능 매체일 수 있는바, 휘발성 및 비휘발성 매체, 제거 가능한 및 제거 불가능한 매체를 포함할 수 있다.
메모리(28)는 휘발성 메모리 형식의 컴퓨터 시스템 판독 가능 매체, 예를 들어 랜덤 액세스 메모리(RAM)(30) 및/또는 고속 캐시 메모리를 포함할 수 있다. 전자기기(12)는 기타 제거 가능한/제거 불가능한, 휘발성/비휘발성 컴퓨터 시스템 저장 매체를 더 포함할 수 있다. 예를 들면, 저장 시스템(34)은 제거 불가능한 비휘발성 자기 매체(도3에 미도시, 통상적으로는 '하드 디스크 드라이브'임)에 대해 판독 및 기록하기 위한 것일 수 있다. 비록 도3에는 미도시하였지만, 제거 가능한 비휘발성 자기 디스크(예를 들어 '플로피 디스크')에 대해 판독 및 기록하기 위한 자기 디스크 드라이브, 그리고 제거 가능한 비휘발성 광디스크(예를 들어 CD-ROM, DVD-ROM 또는 기타 광 매체)에 대해 판독 및 기록하기 위한 광디스크 드라이브가 제공될 수 있다. 이러한 상황에서, 각 드라이브는 하나 또는 복수의 데이터 매체 인터페이스를 통해 버스(18)에 연결될 수 있다. 메모리(28)는 프로그램 제품을 적어도 하나 포함할 수 있는바, 당해 프로그램 제품은 한 그룹(예를 들어 적어도 하나)의 프로그램 컴포넌트를 구비하고 이러한 프로그램 컴포넌트는 본 발명의 각 실시예의 기능을 수행하도록 구성된다.
한 그룹(적어도 하나)의 프로그램 모듈(42)을 구비하는 프로그램/유틸리티 도구(40)는, 예를 들어 메모리(28)에 저장될 수 있는바, 이러한 프로그램 모듈(42)은 운영 체제, 하나 또는 복수의 응용 프로그램, 기타 프로그램 컴포넌트 및 프로그램 데이터를 포함하나, 이에 한정되지 않고, 이러한 예시에서의 각각의 또는 일종의 조합에는 네트워크 환경의 구현이 포함될 수 있다. 프로그램 모듈(42)은 통상적으로 본 발명에서 설명된 실시예 중의 기능 및/또는 방법을 수행한다.
전자기기(12)는 하나 또는 복수의 주변 기기(14)(예를 들어 키보드, 위치 지정 도구, 디스플레이(24) 등)와 통신할 수도 있고, 또한 하나 또는 복수의 사용자가 당해 전자기기(12)와 인터렉션이 가능하도록 하는 기기와 통신할 수도 있고, 및/또는 당해 전자기기(12)가 하나 또는 복수의 기타 컴퓨팅 기기와 통신할 수 있도록 하는 임의 기기(예를 들어 네트워크 카드, 모뎀 등)와 통신할 수도 있다. 이러한 통신은 입력/출력(I/O) 인터페이스(22)를 통해 진행할 수 있다. 그리고, 전자기기(12)는 또한 네트워크 어댑터(20)를 통해 하나 또는 복수의 네트워크(예를 들어 근거리 통신망(LAN), 광역 통신망(WAN) 및/또는 공용 네트워크, 예를 들어 인터넷)와 통신할 수 있다. 도시한 바와 같이, 네트워크 어댑터(20)는 버스(18)를 통해 전자기기(12)의 기타 모듈과 통신한다. 알아야 할 것은, 비록 도시하지 않았지만, 전자기기(12)에 결합하여 기타 하드웨어 및/또는 소프트웨어 모듈을 사용할 수 있는바, 여기에는 마이크로코드, 기기 드라이버, 리던던트 처리 유닛, 외장 자기 디스크 드라이브 어레이, RAID 시스템, 자기 테이프 드라이브 및 데이터 백업 저장 시스템 등이 포함되나, 이에 한정되지 않는다.
프로세서(16)는 메모리(28)에 저장되어 있는 프로그램을 작동시키는 것을 통해 각 종 기능 애플리케이션 및 데이터 처리를 수행하는바, 예를 들면 본 발명의 실시예에 의하여 제공되는 시각적 질문응답 모델을 작동하고, 당해 시각적 질문응답 모델은, 이미지 인코더와 텍스트 인코더를 포함한다.
상기 텍스트 인코더는 상기 입력된 질문 텍스트의 단어 벡터 시퀀스를 풀링 처리하여 상기 질문 텍스트의 의미 특징화 벡터를 추출하고; 상기 이미지 인코더는 상기 의미 특징화 벡터와 결합하여 주어진 이미지의 이미지 특징을 추출한다.
실시예4
본 발명의 실시예4는 컴퓨터 판독가능 저장 매체를 제공하는 것으로, 본 발명의 실시예에 의하여 제공되는 시각적 질문응답 모델이 저장되어 있으며, 컴퓨터 프로세서에 의해 실행된다. 상기 시각적 질문응답 모델은,
이미지 인코더와 텍스트 인코더를 포함하고;
상기 텍스트 인코더는 상기 입력된 질문 텍스트의 단어 벡터 시퀀스를 풀링 처리하여 상기 질문 텍스트의 의미 특징화 벡터를 추출하고;
상기 이미지 인코더는 상기 의미 특징화 벡터와 결합하여 주어진 이미지의 이미지 특징을 추출한다.
물론, 본 발명의 실시예에 의하여 제공되는 컴퓨터 판독가능 저장 매체는 또한 본 발명의 임의의 실시예에 의하여 제공되는 시각적 질문응답 모델을 작동할 수 있다.
본 발명의 실시예의 컴퓨터 저장 매체는 하나 또는 복수의 컴퓨터 판독 가능한 매체의 임의의 조합을 적용할 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터 판독 가능 신호 매체 또는 컴퓨터 판독 가능 저장 매체일 수 있다. 컴퓨터 판독 가능 저장 매체는 예를 들어 전기, 자기, 광, 전자기, 적외선, 또는 반도체의 시스템, 장치 또는 디바이스, 또는 이들의 임의의 조합일수 있으나, 이에 한정되지 않는다. 컴퓨터 판독 가능 저장 매체의 더 구체적인 예(불완전 리스트)는, 하나 또는 복수의 도선을 구비하는 전기적 연결, 휴대용 컴퓨터 자기 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 소거 및 프로그램 가능 읽기 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 콤팩트 디스크 읽기 전용 메모리(CD-ROM), 광 저장 디바이스, 자기 저장 디바이스, 또는 상술한 것의 임의의 적합한 조합을 포함한다. 본 문서에서, 컴퓨터 판독 가능 저장 매체는 프로그램을 포함하거나 저장하는, 임의의 유형(tangible) 매체일 수 있고, 당해 프로그램은 명령어 실행 시스템, 장치 또는 디바이스에 의해 사용되거나 또는 이들과 결합되어 사용될 수 있다.
컴퓨터 판독 가능 신호 매체는 기저대역에서 또는 반송파의 일부분으로 전파되는 데이터 신호를 포함할 수 있고, 컴퓨터 판독 가능 프로그램 코드가 그 중에 탑재되어 있다. 이렇게 전파되는 데이터 신호에는 복수의 형식이 적용 가능한바, 이는 전자기 신호, 광 신호 또는 이들의 임의의 적합한 조합을 포함하나, 이에 한정되지 않는다. 컴퓨터 판독가능 신호 매체는 또한 컴퓨터 판독가능 저장 매체 이외의 임의의 컴퓨터 판독가능 매체일 수 있고, 당해 컴퓨터 판독가능 매체는 명령어 실행 시스템, 장치 또는 디바이스에 의해 사용되거나 또는 이들과 결합되어 사용되는 프로그램을 송신, 전파, 또는 전송할 수 있다.
컴퓨터 판독가능 매체에 포함되는 프로그램 코드는 임의의 적당한 매체를 사용하여 전송할 수 있는바, 이는 무선, 전선, 광케이블, RF 등, 또는 이들의 임의의 적합한 조합을 포함하나, 이에 한정되지 않는다.
하나의 또는 복수의 프로그램 설계 언어 또는 그 조합으로 본 발명의 실시예의 조작을 실행하기 위한 컴퓨터 프로그램 코드를 작성할 수 있고, 상기 프로그램 설계 언어는 Java, Smalltalk, C++와 같은 객체 지향 프로그램 설계 언어를 포함하고, 또한 'C' 언어 또는 이와 유사한 프로그램 설계 언어와 같은 종래의 절차 지향 프로그램 설계 언어도 포함한다. 프로그램 코드는 사용자 컴퓨터에서 전부 실행되거나, 사용자 컴퓨터에서 일부 실행되거나, 하나의 독립적인 소프트웨어 패키지로서 실행되어 일부는 사용자 컴퓨터에서, 일부는 원격 컴퓨터에서 실행되거나, 혹은 원격 컴퓨터에서 또는 서버에서 전부 실행될 수 있다. 원격 컴퓨터와 관련되는 상황에서, 원격 컴퓨터는 근거리 통신망(LAN) 및 광역 통신망(WAN)을 포함하는 임의의 유형(tangible) 네트워크를 통해 사용자 컴퓨터에 연결되거나 외부 컴퓨터에 연결될 수 있다(예를 들어, 인터넷 서비스 제공자를 이용하고 인터넷을 통하여 연결된다).
유의하여야 할 것은, 상술한 것은 단지 본 발명의 보다 바람직한 실시예와 운용된 기술 원리일뿐이다. 당업자라면, 본 발명은 여기 기술된 특정 실시예에 한정되는 것이 아니고, 당업자에게 있어서 본 발명의 보호 범위를 이탈하지 않으면서 복수의 분명한 변화, 재조정 및 치환이 가능하다는 것을 이해하게 될 것이다. 따라서 비록 상술한 실시예를 통해 본 발명에 대하여 보다 상세히 설명하였으나 본 발명은 상술한 실시예에만 한정되는 것이 아니며 본 발명의 구상을 이탈하지 않은 상황에서 기타의 등가 실시예를 더 포함할 수 있고, 본 발명의 범위는 첨부된 특허청구범위의 범위에 의해 결정된다.

Claims (6)

  1. 시각적 질문응답 모델에 있어서,
    입력된 질문 텍스트의 단어 벡터 시퀀스를 풀링 처리하여, 상기 질문 텍스트의 의미 특징화 벡터를 추출하는 텍스트 인코더; 및
    상기 의미 특징화 벡터와 결합하여, 주어진 이미지의 이미지 특징을 추출하는 이미지 인코더; 를 포함하는 것,
    을 특징으로 하는 시각적 질문응답 모델.
  2. 제1항에 있어서,
    상기 텍스트 인코더는, 구체적으로,
    입력된 질문 텍스트의 단어 벡터 시퀀스를 최대 풀링 처리하거나 평균 풀링 처리함으로써, 상기 질문 텍스트의 의미 특징화 벡터를 추출하는 것,
    을 특징으로 하는 시각적 질문응답 모델.
  3. 제2항에 있어서,
    상기 최대 풀링 처리는, 하기 식
    Figure pat00009

    로 표시하고,
    f는 최대 풀링 처리 함수를 나타내고; k는 상기 질문 텍스트에 포함되는 단어 벡터의 수량이고; wi
    Figure pat00010
    Figure pat00011
    는 미리 트레이닝된 단어 벡터 모델을 이용하여 상기 질문 텍스트를 처리함으로써 획득된 i번째 단어 벡터이고, i는 [1, k] 중의 자연수이고; max([w1, w2, ..., wk], dim=1)은 단어 벡터 w1, w2, ..., wk에서 각 단어 벡터에 대응되는 차원 수의 최대치를 가지는 것을 나타내고, dim=1은 차원 수를 가리키며, 주어진 2차원 행렬에 대해 행에 따라 값을 가지는 것을 나타내는 것,
    을 특징으로 하는 시각적 질문응답 모델.
  4. 제2항에 있어서,
    상기 평균 풀링 처리는 하기 식
    Figure pat00012

    로 표시하고,
    p는 평균 풀링 처리 함수를 나타내고; k는 상기 질문 텍스트에 포함되는 단어 벡터의 수량이고; wi는 미리 트레이닝된 단어 벡터 모델을 이용하여 상기 질문 텍스트를 처리함으로써 획득된 i번째 단어 벡터이고, i는 [1, k] 중의 자연수이고;
    Figure pat00013

    는 단어 벡터 w1, w2, ..., wk에서 각 단어 벡터에 대응되는 차원 수의 합을 나타내는 것,
    을 특징으로 하는 시각적 질문응답 모델.
  5. 전자 기기에 있어서,
    하나 또는 복수의 프로세서; 및
    하나 또는 복수의 프로그램을 저장하는 메모리; 를 포함하고,
    상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수의 프로세서가 제1항 내지 제4항 중 어느 한 항의 시각적 질문응답 모델을 작동시키는 것,
    을 특징으로 하는 전자 기기.
  6. 컴퓨터 프로그램이 저장되어 있는 컴퓨터 판독가능 저장 매체에 있어서,
    당해 프로그램이 프로세서에 의해 실행될 경우, 제1항 내지 제4항 중 어느 한 항의 시각적 질문응답 모델을 작동시키는 것,
    을 특징으로 하는 컴퓨터 판독가능 저장 매체.
KR1020200000226A 2019-03-12 2020-01-02 시각적 질문응답 모델, 전자 기기 및 저장 매체 KR102403108B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910185125.9 2019-03-12
CN201910185125.9A CN109902166A (zh) 2019-03-12 2019-03-12 视觉问答模型、电子设备及存储介质

Publications (2)

Publication Number Publication Date
KR20200110154A true KR20200110154A (ko) 2020-09-23
KR102403108B1 KR102403108B1 (ko) 2022-05-26

Family

ID=66947100

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200000226A KR102403108B1 (ko) 2019-03-12 2020-01-02 시각적 질문응답 모델, 전자 기기 및 저장 매체

Country Status (5)

Country Link
US (1) US20200293921A1 (ko)
EP (1) EP3709207A1 (ko)
JP (1) JP2020149685A (ko)
KR (1) KR102403108B1 (ko)
CN (1) CN109902166A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651403A (zh) * 2020-12-02 2021-04-13 浙江大学 基于语义嵌入的零样本视觉问答方法
CN115905591A (zh) * 2023-02-22 2023-04-04 浪潮电子信息产业股份有限公司 一种视觉问答方法、系统、设备及可读存储介质

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110298338B (zh) * 2019-06-20 2021-08-24 北京易道博识科技有限公司 一种文档图像分类方法及装置
CN110516530A (zh) * 2019-07-09 2019-11-29 杭州电子科技大学 一种基于非对齐多视图特征增强的图像描述方法
CN110348535B (zh) * 2019-07-17 2022-05-31 北京金山数字娱乐科技有限公司 一种视觉问答模型训练方法及装置
CN110516791B (zh) * 2019-08-20 2022-04-22 北京影谱科技股份有限公司 一种基于多重注意力的视觉问答方法及系统
CN110851760B (zh) * 2019-11-12 2022-12-27 电子科技大学 在web3D环境融入视觉问答的人机交互系统
CN110852043B (zh) * 2019-11-19 2023-05-23 北京字节跳动网络技术有限公司 一种文本转写方法、装置、设备及存储介质
CN111967487B (zh) * 2020-03-23 2022-09-20 同济大学 一种用于视觉问答模型训练的增量型数据增强方法及应用
CN111898678A (zh) * 2020-07-30 2020-11-06 北京嘀嘀无限科技发展有限公司 一种对样本进行分类的方法及系统
CN112148836A (zh) * 2020-09-07 2020-12-29 北京字节跳动网络技术有限公司 多模态信息处理方法、装置、设备及存储介质
US11901047B2 (en) * 2020-10-28 2024-02-13 International Business Machines Corporation Medical visual question answering
US11783008B2 (en) * 2020-11-06 2023-10-10 Adobe Inc. Machine-learning tool for generating segmentation and topic metadata for documents
CN112559713B (zh) * 2020-12-24 2023-12-01 北京百度网讯科技有限公司 文本相关性判断方法及装置、模型、电子设备、可读介质
CN112685548B (zh) * 2020-12-31 2023-09-08 科大讯飞(北京)有限公司 问题回答方法以及电子设备、存储装置
CN112668671B (zh) * 2021-03-15 2021-12-24 北京百度网讯科技有限公司 预训练模型的获取方法和装置
CN113033580B (zh) * 2021-03-31 2024-02-02 北京有竹居网络技术有限公司 图像处理方法、装置、存储介质及电子设备
CN113033579B (zh) * 2021-03-31 2023-03-21 北京有竹居网络技术有限公司 图像处理方法、装置、存储介质及电子设备
CN113205507B (zh) * 2021-05-18 2023-03-10 合肥工业大学 一种视觉问答方法、系统及服务器
CN113360699B (zh) * 2021-06-30 2023-09-26 北京百度网讯科技有限公司 模型训练方法和装置、图像问答方法和装置
CN113656570B (zh) * 2021-08-25 2024-05-10 平安科技(深圳)有限公司 基于深度学习模型的视觉问答方法及装置、介质、设备
CN113722458A (zh) * 2021-08-27 2021-11-30 海信电子科技(武汉)有限公司 视觉问答处理方法、设备、计算机可读介质和程序产品
CN113849623B (zh) * 2021-10-12 2024-04-09 中国传媒大学 文本视觉问答方法和装置
CN114495130B (zh) * 2021-12-27 2023-03-24 北京百度网讯科技有限公司 基于跨模态信息的文档阅读理解模型训练方法及装置
CN114661874B (zh) * 2022-03-07 2024-04-30 浙江理工大学 基于多角度语义理解与自适应双通道的视觉问答方法
CN114840656B (zh) * 2022-05-18 2024-03-01 北京百度网讯科技有限公司 一种视觉问答方法、装置、设备及存储介质
CN115618061B (zh) * 2022-11-29 2023-03-10 广东工业大学 一种语义对齐的视频问答方法
CN115880506B (zh) * 2022-12-27 2024-03-08 北京百度网讯科技有限公司 图像生成方法、模型的训练方法、装置及电子设备
CN115688083B (zh) * 2022-12-29 2023-03-28 广东工业大学 图文型验证码的识别方法、装置、设备及存储介质
CN116257611B (zh) * 2023-01-13 2023-11-10 北京百度网讯科技有限公司 问答模型的训练方法、问答处理方法、装置及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10909329B2 (en) * 2015-05-21 2021-02-02 Baidu Usa Llc Multilingual image question answering
US9965705B2 (en) * 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering
CN111602141B (zh) * 2017-08-17 2024-04-12 新加坡国立大学 影像视觉关系检测方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Dinghan Shene et al., Baseline Needs More Love: On SimpleWord-Embedding-Based Models and Associated Pooling Mechanisms, arXiv: 1805.09843v1 [cs.CL] 2018.05.24.* *
Kevin J. Shih, Saurabh Singh, Derek Hoiem, Where To Look: Focus Regions for Visual Question Answering, arXiv:1511.07394 [cs.CV], 2016.01.10. *
Lin Ma al., Learning to Answer Questions from Image Using Convolutional Neural Network. Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence Vol. 30 No. 1. pp. 3567-3573.* *
Peng Wanget al., The VQA-Machine: Learning How to Use Existing Vision Algorithms to Answer New Questions. Proceedings of the IEEE Conference on CVPR, 2017, pp.1173-1182.* *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651403A (zh) * 2020-12-02 2021-04-13 浙江大学 基于语义嵌入的零样本视觉问答方法
CN112651403B (zh) * 2020-12-02 2022-09-06 浙江大学 基于语义嵌入的零样本视觉问答方法
CN115905591A (zh) * 2023-02-22 2023-04-04 浪潮电子信息产业股份有限公司 一种视觉问答方法、系统、设备及可读存储介质
CN115905591B (zh) * 2023-02-22 2023-05-30 浪潮电子信息产业股份有限公司 一种视觉问答方法、系统、设备及可读存储介质

Also Published As

Publication number Publication date
JP2020149685A (ja) 2020-09-17
KR102403108B1 (ko) 2022-05-26
CN109902166A (zh) 2019-06-18
US20200293921A1 (en) 2020-09-17
EP3709207A1 (en) 2020-09-16

Similar Documents

Publication Publication Date Title
KR20200110154A (ko) 시각적 질문응답 모델, 전자 기기 및 저장 매체
US20220004811A1 (en) Method and apparatus of training model, device, medium, and program product
US20190087647A1 (en) Method and apparatus for facial recognition
JP2022177220A (ja) テキスト認識モデルの訓練方法、テキスト認識方法及び装置
JP2023541119A (ja) 文字認識モデルのトレーニング方法、文字認識方法、装置、電子機器、記憶媒体およびコンピュータプログラム
EP4012564A1 (en) Data processing method, data processing device, and storage medium
EP4006909A1 (en) Method, apparatus and device for quality control and storage medium
US20220189189A1 (en) Method of training cycle generative networks model, and method of building character library
CN108415939B (zh) 基于人工智能的对话处理方法、装置、设备及计算机可读存储介质
CN115063875B (zh) 模型训练方法、图像处理方法、装置和电子设备
CN113407850B (zh) 一种虚拟形象的确定和获取方法、装置以及电子设备
EP4287074A1 (en) Mixture-of-experts model implementation method and system, electronic device, and storage medium
JP2023543964A (ja) 画像処理方法、画像処理装置、電子機器、記憶媒体およびコンピュータプログラム
JP2022185143A (ja) テキスト検出方法、テキスト認識方法及び装置
CN114373460A (zh) 车载语音助手的指令确定方法、装置、设备及介质
CN111144374B (zh) 人脸表情识别方法及装置、存储介质和电子设备
CN114708580B (zh) 文本识别、模型训练方法、装置、设备、存储介质及程序
CN114092608B (zh) 表情的处理方法及装置、计算机可读存储介质、电子设备
US20230083831A1 (en) Method and apparatus for adjusting virtual face model, electronic device and storage medium
CN114783597A (zh) 多类疾病诊断的诊断方法及装置、电子设备和存储介质
CN114881227A (zh) 模型压缩方法、图像处理方法、装置和电子设备
CN112925942A (zh) 一种数据搜索方法、装置、设备及存储介质
CN113392653A (zh) 翻译方法、相关装置、设备及计算机可读存储介质
CN113360712B (zh) 视频表示的生成方法、装置和电子设备
CN113627399B (zh) 题目处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
AMND Amendment
E601 Decision to refuse application
AMND Amendment
E90F Notification of reason for final refusal
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant